技术领域
[0001] 本
发明涉及技术趋势预测技术领域,特别涉及一种技术趋势预测方法、系统及存储介质。
背景技术
[0002] 技术趋势预测是根据预测对象过去和现在的信息,通过科学的方法和逻辑推理,对事物未来的发展趋势和
水平进行推测和判断,对技术趋势进行预测可以提高企业的竞争
力,提高消费者的满意度。
[0003] 领先用户是在一项创新的生命周期初期采用该创新的顾客。领先用户现有的强烈需求将在不远的未来成为市场普遍需求。领先用户具备两个基本特征:领先用户的需求领先于普通用户;领先用户具有强烈的创新动机和较高的期望收益。领先用户的动态是反映技术趋势的重要指标,而
现有技术中,对于领先用户的识别和动态获取基本都采用人工调查、筛选的方式进行,不仅效率低,而且得到的结果也不具备代表性,难以实现对技术趋势的准确预测。
发明内容
[0004] 针对上述现有技术存在的问题,本发明旨在提出一种技术趋势预测方法、系统及存储介质,能够高效准确的选择领先用户并根据领先用户的动态获取具有代表性的技术趋势预测结果。
[0005] 为达到上述目的,本发明公开了一种技术趋势预测方法,包括:
[0006] 确认待预测的技术领域;
[0007] 选取属于所述技术领域的领先企业,以及所述领先企业的各时间阶段产品的产品信息;
[0008] 选取所述产品信息中的关键词建立词库;
[0009] 选取属于所述技术领域的在线社区,以及所述在线社区中的所有用户的评论信息;
[0010] 根据所述评论信息和所述词库进行处理,获得所述词库中关键词与所述用户的评论信息的关联程度和出现时间的早晚程度;
[0011] 根据所述关联程度和所述早晚程度,获得所述用户对应的领先度,并根据所述领先度从所述用户中确定领先用户;
[0012] 获取所述领先用户的评论信息,解析所述评论信息以预测技术发展趋势。
[0013] 进一步地,所述选取属于所述技术领域的领先企业,以及所述领先企业的各时间阶段产品的产品信息,包括:
[0014] 基于爬虫方法获取所述领先企业在各时间阶段公开的产品的产品信息,并利用
支持向量机有监督的关键词提取法对各产品的属性特征进行提取以获得所述关键词;
[0015] 所述产品信息至少包括以下的一种或几种:产品名称、发布时间、产品特点、产品优势、产品性能;
[0016] 所述选取属于所述技术领域的在线社区,以及所述在线社区中的所有用户的评论信息,包括:
[0017] 基于爬虫方法获取所述评论信息;所述评论信息至少包括:评论内容,以及对应的评论时间和用户账号。
[0018] 进一步地,所述根据所述评论信息和所述词库进行处理,获得所述词库中关键词与所述用户的评论信息的关联程度和出现时间的早晚程度,包括:
[0019] 步骤一:采用
自然语言处理方法,对所述词库中的所述各关键词与所述各评论内容进行一一比对,得到反映关联程度的关联程度矩阵;
[0020] 步骤二:对比所述词库中的关键词的所述出现时间与所述评论信息的评论时间,获得反映所述各评论内容出现时间早于所述各关键词出现时间的早晚程度矩阵。
[0021] 进一步地,所述步骤一中,所述关联程度矩阵为:
[0022]
[0023] 其中,i表示所述词库中的第i个关键词,j表示第j个评论内容;
[0024] 所述步骤二中,所述早晚程度矩阵为:
[0025]
[0026] 其中,所述该早晚程度矩阵中的元素表示为:tij=log d,d为天数。
[0027] 进一步地,所述根据所述关联程度和所述早晚程度,获得所述用户对应的领先度,并根据所述领先度从所述用户中确定领先用户,包括:
[0028] 所述领先度计算公式为:
[0029]
[0030] 其中,Y表示所述领先度,hij表示所述关联程度矩阵的元素,tij表示早晚程度矩阵的元素。
[0031] 进一步地,所述获取所述领先用户的评论信息,解析所述评论信息以预测技术发展趋势,包括:
[0032] 获取所述领先用户最新发布的评论内容;
[0033] 获取评论内容中的评论关键词,并对冗余的所述关键词进行合并和剔除。
[0034] 本发明还公开了一种技术趋势预测系统,包括:
[0036] 确认待预测的技术领域;选取属于所述技术领域的领先企业,以及所述领先企业的各时间阶段产品的产品信息;选取所述产品信息中的关键词建立词库;选取属于所述技术领域的在线社区,以及所述在线社区中的所有用户的评论信息;
[0037] 计算分析模块,用于:
[0038] 根据所述评论信息和所述词库进行处理,获得所述词库中关键词与所述用户的评论信息的关联程度和出现时间的早晚程度;根据所述关联程度和所述早晚程度,获得所述用户对应的领先度,并根据所述领先度从所述用户中确定领先用户;
[0039] 结果处理模块,用于获取所述领先用户的评论信息,解析所述评论信息以预测技术发展趋势。
[0040] 进一步地,所述信息获取模块,具体用于:
[0041] 基于爬虫方法获取所述领先企业在各时间阶段公开的产品的产品信息,并利用支持向量机有监督的关键词提取法对各产品的属性特征进行提取以获得所述关键词;
[0042] 所述产品信息至少包括以下的一种或几种:产品名称、发布时间、产品特点、产品优势、产品性能;
[0043] 基于爬虫方法获取所述评论信息;
[0044] 所述评论信息至少包括:评论内容,以及对应的评论时间和用户账号。
[0045] 进一步地,所述计算分析模块,包括:
[0046] 第一计算单元,用于采用自然语言处理方法,对所述词库中的所述各关键词与所述各评论内容进行一一比对,得到反映关联程度的关联程度矩阵;
[0047] 第二计算单元,用于对比所述词库中的关键词的所述出现时间与所述评论信息的评论时间,获得反映所述各评论内容出现时间早于所述各关键词出现时间的早晚程度矩阵。
[0048] 进一步地,所述关联程度矩阵为:
[0049]
[0050] 其中,i表示所述词库中的第i个关键词,j表示第j个评论内容;
[0051] 所述早晚程度矩阵为:
[0052]
[0053] 其中,所述该早晚程度矩阵中的元素tij表示为:tij=log d,d为天数。
[0054] 进一步地,所述计算分析模块还包括:综合计算单元,用于根据所述关联程度和所述早晚程度,获得所述用户对应的领先度,并根据所述领先度从所述用户中确定领先用户,包括:
[0055] 所述领先度计算公式为:
[0056]
[0057] 其中,Y表示所述领先度,hij表示所述关联程度矩阵的元素,tij表示早晚程度矩阵的元素。
[0058] 进一步地,所述结果处理模块,包括:
[0059] 第一处理单元,用于获取所述领先用户最新发布的评论内容;
[0060] 第二处理单元,用于获取评论内容中的评论关键词,并对冗余的所述关键词进行合并和剔除。
[0061] 本发明还公开了一种计算机可读存储介质,所述存储介质中存储有指令,当其在计算机上运行时,使得计算机执行包括:
[0062] 如上文各
实施例所述的技术趋势预测方法。
[0063] 本发明至少具有以下有益效果:
[0064] 本发明所提供的对技术趋势进行预测的方法,通过对用户的评论信息和领先企业产品的历史技术发展趋势的比对找出领先用户,对领先用户的最新动态进行挖掘和归纳,能够准确有效的得出技术发展趋势,进而解决技术趋势难以预测、忽略用户创新的问题。
[0065] 本发明的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
[0066] 构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施方式及其说明用于解释本发明,并不构成对本发明的不当限定。
[0067] 在附图中:
[0068] 图1为本发明实施方式所述的技术趋势预测方法的
流程图;
[0069] 图2为本发明实施方式所述的技术趋势预测系统的结构图。
具体实施方式
[0070] 以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明实施例,并不用于限制本发明实施例。
[0071] 如图1所示,本发明公开了一种技术趋势预测方法,具体包括:
[0072] (1)确认待预测的技术领域,本发明可以采用可以方法/规则所划分的技术领域,例如,以国际
专利分类表(IPC)所规定的技术领域作为待选领域,确认的带预测的技术领域都具有对应的分类号,便于管理。
[0073] (2)选取属于所述技术领域的领先企业,以及所述领先企业的各时间阶段产品的产品信息。相对于普通企业,领先企业所发布的产品能够在一定程度上反映技术发展的趋势,作为本发明优选的实施例,可以根据企业的经营情况为标准进行选取。
[0074] (3)选取所述产品信息中的关键词建立词库。优选的,对所选领先企业产品进行统计过程需要用到爬虫技术,从领先企业的主页、年报中获取其各个阶段发布的产品信息,所述产品信息至少包括以下的一种或几种:产品名称、发布时间、产品特点、产品优势、产品性能,再利用支持向量机有监督的关键词提取
算法对每个产品对应的的属性特征进行提取,得到关键词。
[0075] (4)选取属于所述技术领域的在线社区,以及所述在线社区中的所有用户的评论信息。优选的,选取所选领域的企业运营在线社区和用户自建在线社区,减少企业对用户创新的干扰作用。
[0076] (5)根据所述评论信息和所述词库进行处理,获得所述词库中关键词与所述用户的评论信息的关联程度和出现时间的早晚程度。优选的,可以先建立好
数据处理模型,该模型是由自然语言处理方法训练得到的,且所述模型中能够导入反映技术发展趋势的词库与用户评论(评论信息),并通过计算、比较等处理方式找出领先用户。
[0077] (6)根据所述关联程度和所述早晚程度,获得所述用户对应的领先度,并根据所述领先度从所述用户中确定领先用户。关联程度反映了用户对产品或技术预测的准确性特征,早晚程度反映了用户的前瞻性和预见性特征,上述各特征越高越明显,则对应用户的领先度也就越高,可以选取具有较高或一定标准以上领先度的用户作为领先用户。
[0078] (7)获取所述领先用户的评论信息,解析所述评论信息以预测技术发展趋势。为保证预测的准确性,可以获取领先用户最近时间发布的评论信息,此外,还可以实时获取领先用户的最新评论信息,来对之前的预测结果进行
修改/补充/增加,使得预测结果能够与时俱进。
[0079] 在本发明的一些实施例中,所述选取属于所述技术领域的领先企业,以及所述领先企业的各时间阶段产品的产品信息,具体包括:
[0080] 基于爬虫方法获取所述领先企业在各时间阶段公开的产品的产品信息,并利用支持向量机有监督的关键词提取法对各产品的属性特征进行提取以获得所述关键词[0081] 在本发明的一些实施例中,所述选取属于所述技术领域的在线社区,以及所述在线社区中的所有用户的评论信息,具体包括:
[0082] 基于爬虫方法获取所述评论信息,其中,所述评论信息至少包括:评论内容,以及对应的评论时间和用户账号,还可以包括:包括在线社区名称、评论时间、获赞数、转发数等。优选的,本发明还可以利用评论信息中所反映的热度/关注度为计算领先度划分权重,具有热度/关注度的评论信息对应的用户具有较高权重,在计算资源有限或评论信息冲突的情况下,优先采用权重高的用户的评论信息。
[0083] 值得一提的是,本发明各实施例中所提到的爬虫方法,是
计算机网络领域常用的数据处理方法,其原理和流程本发明不再赘述。
[0084] 在本发明的一些实施例中,所述根据所述评论信息和所述词库进行处理,获得所述词库中关键词与所述用户的评论信息的关联程度和出现时间的早晚程度,具体包括:
[0085] 步骤一:采用自然语言处理方法,对所述词库中的所述各关键词与所述各评论内容进行一一比对,得到反映关联程度的关联程度矩阵;
[0086] 所述步骤一中,所述关联程度矩阵为:
[0087]
[0088] 其中,i表示所述词库中的第i个关键词,j表示第j个评论内容。
[0089] 步骤二:对比所述词库中的关键词的所述出现时间与所述评论信息的评论时间,获得反映所述各评论内容出现时间早于所述各关键词出现时间的早晚程度矩阵。
[0090] 所述步骤二中,所述早晚程度矩阵为:
[0091]
[0092] 其中,所述该早晚程度矩阵中的元素表示为:tij=log d,d为天数。
[0093] 最后,所述根据所述关联程度和所述早晚程度,获得所述用户对应的领先度,并根据所述领先度从所述用户中确定领先用户,包括:
[0094] 所述领先度计算公式为:
[0095]
[0096] 其中,Y表示所述领先度,hij表示所述关联程度矩阵的元素,tij表示早晚程度矩阵的元素。
[0097] 在本发明的一些实施例中,所述获取所述领先用户的评论信息,解析所述评论信息以预测技术发展趋势,包括:
[0098] 获取所述领先用户最新发布的评论内容;
[0099] 获取评论内容中的评论关键词,并对冗余的所述关键词进行合并和剔除。
[0100] 如图2所示,本发明还公开了一种技术趋势预测系统,包括:
[0101] 信息获取模块,用于:确认待预测的技术领域;选取属于所述技术领域的领先企业,以及所述领先企业的各时间阶段产品的产品信息;选取所述产品信息中的关键词建立词库;选取属于所述技术领域的在线社区,以及所述在线社区中的所有用户的评论信息;
[0102] 计算分析模块,用于:根据所述评论信息和所述词库进行处理,获得所述词库中关键词与所述用户的评论信息的关联程度和出现时间的早晚程度;根据所述关联程度和所述早晚程度,获得所述用户对应的领先度,并根据所述领先度从所述用户中确定领先用户;
[0103] 结果处理模块,用于获取所述领先用户的评论信息,解析所述评论信息以预测技术发展趋势。
[0104] 在本发明的一些实施例中,所述信息获取模块,具体用于:基于爬虫方法获取所述领先企业在各时间阶段公开的产品的产品信息,并利用支持向量机有监督的关键词提取法对各产品的属性特征进行提取以获得所述关键词;所述产品信息至少包括以下的一种或几种:产品名称、发布时间、产品特点、产品优势、产品性能;基于爬虫方法获取所述评论信息。所述评论信息至少包括:评论内容,以及对应的评论时间和用户账号。
[0105] 在本发明的一些实施例中,所述计算分析模块,包括:
[0106] 第一计算单元,用于采用自然语言处理方法,对所述词库中的所述各关键词与所述各评论内容进行一一比对,得到反映关联程度的关联程度矩阵;
[0107] 第二计算单元,用于对比所述词库中的关键词的所述出现时间与所述评论信息的评论时间,获得反映所述各评论内容出现时间早于所述各关键词出现时间的早晚程度矩阵。
[0108] 在本发明的一些实施例中,所述关联程度矩阵为:
[0109]
[0110] 其中,i表示所述词库中的第i个关键词,j表示第j个评论内容;
[0111] 所述早晚程度矩阵为:
[0112]
[0113] 其中,所述该早晚程度矩阵中的元素tij表示为:tij=log d,d为天数。
[0114] 在本发明的一些实施例中,所述计算分析模块还包括:综合计算单元,用于根据所述关联程度和所述早晚程度,获得所述用户对应的领先度,并根据所述领先度从所述用户中确定领先用户,包括:
[0115] 所述领先度计算公式为:
[0116]
[0117] 其中,Y表示所述领先度,hij表示所述关联程度矩阵的元素,tij表示早晚程度矩阵的元素。
[0118] 在本发明的一些实施例中,所述结果处理模块,包括:
[0119] 第一处理单元,用于获取所述领先用户最新发布的评论内容;
[0120] 第二处理单元,用于获取评论内容中的评论关键词,并对冗余的所述关键词进行合并和剔除。
[0121] 本发明还公开了一种计算机可读存储介质,所述存储介质中存储有指令,当其在计算机上运行时,使得计算机执行包括:如上文各实施例所述的技术趋势预测方法。
[0122] 以下内容为本发明其中一个优选实施例,具体包括以下步骤:
[0123] S1:获得所选领域的领先企业,获取其历年产品及其属性。
[0124] 该步骤具体包括:
[0125] 步骤S1-1:统计所选领域的领先企业。领先企业的选择可以根据企业的经营情况为标准进行选择,如可参照工业和信息化部、国家统计局、国家发展改革委、财政部《关于印发中小企业划型标准规定的通知》,依据营业收入和从业人员数量进行选择。
[0126] 步骤S1-2:统计所选领先企业的产品(产品信息),包括企业名称、产品名称、产品特点、产品优势、产品性能,
抽取产品特点、产品优势和产品性能的关键词作为词库。对所选领先企业产品进行统计过程需要用到爬虫技术,从领先企业的主页、年报中获取其各个阶段发布的产品及其产品属性,包括产品名称、产品特点、产品优势、产品性能,再利用支持向量机有监督的关键词提取算法对每个产品的属性特征进行提取。
[0127] 在步骤S1中,根据所选领域歌企业的经营情况对所选领域的领先企业进行选择,再利用爬虫技术对所选企业历年产品及其属性进行爬取,接着用支持向量机方法对每个产品的属性特征进行提取,即可获得领先企业理念产品及其属性。
[0128] 步骤S2:获得在线社区中所有用户的评论。
[0129] 该步骤具体包括:
[0130] 步骤S2-1:选择所选领域的在线社区。
[0131] 该步骤中,选取所选领域的企业运营在线社区和用户自建在线社区,减少企业对用户创新的干扰作用。
[0132] 步骤S2-2:统计在线社区中用户的评论信息,包括在线社区名称、用户 ID、评论时间、评论内容、获赞数、转发数。
[0133] 对在线社区中用户评论信息进行获取需要用到爬虫技术,将爬虫结果做成标准化数据。
[0134] 步骤S3:获得用户领先度度量模型,其中所属模型是由自然语言处理算法训练得到的,且所述模型中包括技术发展趋势(词库)与用户评论(评论内容),找出领先用户。
[0135] 该步骤包括:
[0136] 步骤S3-1:获得词库词语与用户评论的关联程度矩阵。
[0137] 该步骤中,利用自然语言处理中的word2vec方法,对产品属性词库中的第i个词语与用户第j条评论进行一一比对,得出其语义相似关系hij,逐一进行计算,获得词库词语与用户评论的关联程度矩阵:
[0138]
[0139] 步骤S3-2:获得词库词语和用户评论的出现时间早晚程度矩阵。
[0140] 该步骤中,对比产品属性词库中的第i个词语与用户第j条评论出现时间的早晚,若用户第j条评论出现时间早于产品属性词库中的第i个词语,且领先d天,则表示该用户的想法早于产品发布,该用户的领先程度较高,此时时间领先程度tij=log d,逐一进行计算,获得词库词语和用户评论的出现时间早晚程度矩阵:
[0141]
[0142] 步骤S3-3:获得在线社区用户领先度。
[0143] 该步骤中,获得所述模型为: 其中Y表示用户领先度,hij表示词库中第i个词语与用户的第j条评论的关联程度,tij表示词库中第i个词语与用户的第j条评论的出现的早晚程度。
[0144] 步骤S3中,可以将在线社区用户的用户领先度分别采用步骤S3-1至 S3-3计算出来。
[0145] 步骤S4:获取领先用户最新评论中的关键要点,作为技术潜在发展趋势。
[0146] 该步骤包括:
[0147] 步骤S4-1:获取用户的最新评论。
[0148] 该步骤中,需要用爬虫方法对用户的最新评论进行爬取,包括在线社区名称、用户ID、评论时间、评论内容、获赞数、转发数。
[0149] 步骤S42:获取评论中的关键词,此步骤采用有监督的关键词提取方法。
[0150] 该步骤中,用Textrank算法获取用户最新评论中的关键词。逐一对用户评论的关键词进行获取,再对获取结果进行同义词的合并和剔除,得到分析结果,作为技术发展趋势。
[0151] 本实施例所提供的技术趋势预测方法,通过对用户评论和历史技术发展趋势的比对找出领先用户,对领先用户的最新评论进行挖掘和归纳,能够准确有效的得出技术发展趋势,进而解决技术趋势难以预测、忽略用户创新的问题。
[0152] 以上结合附图详细描述了本发明实施例的可选实施方式,但是,本发明实施例并不限于上述实施方式中的具体细节,在本发明实施例的技术构思范围内,可以对本发明实施例的技术方案进行多种简单变型,这些简单变型均属于本发明实施例的保护范围。
[0153] 另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明实施例对各种可能的组合方式不再另行说明。
[0154] 本领域技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的
硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得
单片机、芯片或处理器(processor)执行本
申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动
硬盘、只读
存储器(ROM,Read-Only Memory)、
随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0155] 此外,本发明实施例的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明实施例的思想,其同样应当视为本发明实施例所公开的内容。