专利汇可以提供基于主题模型的自优化金融资讯版块分类方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种基于主题模型的自优化金融资讯版 块 分类方法,包括以下步骤:1)获取 网络抓取 的股票 证券 行业资讯文本,对所述文本进行分词处理,获取与所述文本对应的词汇;2)判断是否需要进行去重处理,若是,则去重后返回步骤1),若否,则执行步骤3);3)从所述词汇中提取股票名称和/或股票代码,记录每一股票名称或股票代码对应的股票版块,形成与所述文本对应的版块标签;4)基于所述词汇利用自动更新的关联版块 预测模型 获得关联预测概率;5)基于版块标签和关联预测概率获得所述文本在某个版块分类上的评分,以评分最高的版块分类作为推荐分类。与 现有技术 相比,本发明具有良好的自动扩展能 力 与随时间自动优化的能力。,下面是基于主题模型的自优化金融资讯版块分类方法专利的具体信息内容。
1.一种基于主题模型的自优化金融资讯版块分类方法,其特征在于,包括以下步骤:
1)获取网络抓取的股票证券行业资讯文本,对所述文本进行分词处理,获取与所述文本对应的词汇;
2)判断是否需要进行去重处理,若是,则去重后返回步骤1),若否,则执行步骤3);
3)从所述词汇中提取股票名称和/或股票代码,记录每一股票名称或股票代码对应的股票版块,形成与所述文本对应的版块标签;
4)基于所述词汇利用自动更新的关联版块预测模型获得关联预测概率;
5)基于步骤4)的版块标签和步骤5)的关联预测概率获得所述文本在某个版块分类上的评分,以评分最高的版块分类作为推荐分类。
2.根据权利要求1所述的基于主题模型的自优化金融资讯版块分类方法,其特征在于,所述去重处理具体为:
采用TF-IDF向量计算当前文本与历史文本的相似度,删除相似度大于设定阈值的文本。
3.根据权利要求2所述的基于主题模型的自优化金融资讯版块分类方法,其特征在于,所述历史文本为从当前文本接收时间起过去1小时内的文本。
4.根据权利要求1所述的基于主题模型的自优化金融资讯版块分类方法,其特征在于,所述关联版块预测模型的训练优化具体为:
101)以历史文本及其词汇作为语料库,对语料库中的每个词汇w随机赋予一个topic编号;
102)扫描语料库,对每个词汇w,使用Gibbs Sampling公式对其采样,更新其topic编号,直至Gibbs Sampling收敛;
103)建立语料库的topic-word共现频率矩阵;
104)以所述topic-word共现频率矩阵作为训练数据,以版块标签作为训练目标,进行关联版块预测模型的分类训练优化。
5.根据权利要求4所述的基于主题模型的自优化金融资讯版块分类方法,其特征在于,所述分类训练优化基于随机森林实现,所述随机森林中的参数k通过以下公式选择:
k=log2d+log2c+1
式中,d为标签库中资讯总数,c为标签库中的分类数量。
6.根据权利要求1所述的基于主题模型的自优化金融资讯版块分类方法,其特征在于,所述关联版块预测模型按设定周期进行训练优化。
7.根据权利要求1所述的基于主题模型的自优化金融资讯版块分类方法,其特征在于,所述文本在某个版块分类上的评分的计算公式为:
式中,ki为所述文本在第i个版块分类所属股票名称或股票代码出现的次数,k为所有股票名称或股票代码在该文本中出现的次数,RFi为所述文本在第i个版块分类上的关联预测概率。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种与水稻光温敏核雄性不育性状共分离的分子标记和应用 | 2020-05-08 | 685 |
一种合同能源管理项目的预测和评估方法 | 2020-05-08 | 409 |
一种基于电力物联网技术的UPS电源在线监测装置 | 2020-05-08 | 334 |
一种水稻光温敏核雄性不育基因tms2759及其分子标记和应用 | 2020-05-11 | 762 |
连续性曲线的数据压缩方法、装置及其相关设备 | 2020-05-11 | 181 |
企业关联风险的分析方法、装置、设备以及存储介质 | 2020-05-11 | 689 |
一种财经博客文本分析方法 | 2020-05-11 | 839 |
一种高校证券模拟用临时存储装置 | 2020-05-08 | 914 |
证券账户持仓信息处理装置 | 2020-05-11 | 769 |
用户类型划分方法、系统、计算机设备和存储介质 | 2020-05-12 | 129 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。