专利汇可以提供一种基于社区检测的增量聚类算法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于社区检测的增量聚类 算法 ,其特点是采用Community社区概念和Online-Offline两阶段 框架 并引入IMC概念,由文档表征词向量、文档的表征关键词与文档的 命名实体 识别预测词共同经相似度计算方法得到目标语料的相似度图,最后对相似度图先使用Louvain算法得到初始化社区结果,并在初始化社区结果的 基础 上使用增量 聚类算法 得到最终的聚类结果。本发明与 现有技术 相比具有在同等 硬件 条件下降低计算时间开销,快速生成聚类结果,以便更好地服务于应用场景的上下游业务,做到及时响应,实现了区分热点事件与持续报道事件的功能,从而对新闻事件做了有效的聚类与事件级别的过滤。,下面是一种基于社区检测的增量聚类算法专利的具体信息内容。
1.一种基于社区检测的增量聚类算法,其特征在于该算法包括以下步骤:
S1:对全量中文金融文本语料进行词向量预训练,生成词向量模型;
S2:采用布隆过滤器技术对全量的中文金融文本语料进行文本去重筛选,经文本预处理后得到目标金融语料;
S3:对目标金融语料使用TF-IDF技术得到每篇语料文档的Top-k个关键词并构建关键词列表;对目标金融语料使用命名实体识别技术得到每篇语料文档的命名实体识别预测词并构建命名实体识别预测词列表;对目标金融语料使用基于步骤S1预训练的词向量模型生成文档的表征词向量;
S4:对文档的表征词向量进行相似度计算,得到目标语料的表征词向量相似度矩阵;对文档的Top-k个关键词和命名实体识别预测词使用局部敏感哈希技术,得到对应的Shingles向量并进行相似度计算,分别得到关键词相似度矩阵和命名实体识别预测词相似度矩阵;
S5:将目标语料的表征词向量相似度矩阵、关键词相似度矩阵和命名实体识别预测词相似度矩阵进行加权拼接,并根据自定义条件筛选,得到所有文档的相似度图;
S6:对所有文档的相似度图,使用Louvain算法得到初始化社区结果;
S7:对初始化社区结果,使用自定义增量聚类算法得到最终的聚类结果。
2.根据权利要求1所述基于社区检测的增量聚类算法,其特征在于S1步骤中所述全量的中文金融文本语料由各大金融门户网站的定时爬虫爬取构成;所述词向量模型由全量中文金融文本语料预训练而成,其训练方式为fasttext。
3.根据权利要求1所述基于社区检测的增量聚类算法,其特征在于S2步骤中所述文本去重筛选采用BloomFilter;所述文本预处理包括去掉停用词和thualc分词。
4.根据权利要求1所述基于社区检测的增量聚类算法,其特征在于S3步骤中所述Top-k个关键词由每篇文档经TF-IDF技术对文档分词结果所选取出词频-逆文档频率最高的k个词构成;所述关键词列表为所有文档的关键词的set集合;所述命名实体识别技术为Bi-LSTM+CRF;所述命名实体识别预测词为对文档中的上市公司、非上市公司、人名、地点、时间、金钱和产品的预测;所述命名实体识别预测词列表为所有文档的命名实体识别预测词的set集合;所述表征词向量采用fasttext方法对词向量进行的表征。
5.根据权利要求1所述基于社区检测的增量聚类算法,其特征在于S4步骤中所述表征词向量相似度矩阵采用cosine距离的相似度计算方法;所述Top-k个关键词的Shingles向量为关键词列表的bit-vector向量映射;所述关键词相似度矩阵为关键词列表的bit-vector向量拼接成的矩阵;所述命名实体识别预测词的Shingles向量为命名实体识别预测词列表的bit-vector向量映射;所述命名实体识别预测词相似度矩阵为命名实体识别预测词列表的bit-vector向量拼接成的矩阵。
6.根据权利要求1所述基于社区检测的增量聚类算法,其特征在于S5步骤中所述自定义条件筛选为保留相似度大于等于某一阈值的文档对,剔除相似度小于某一阈值的文档对;所述文档的相似度图为将文档视为节点,文档对的相似度视为节点对的权重值边,并由这些节点与边构成相似度图。
7.根据权利要求1所述基于社区检测的增量聚类算法,其特征在于S6步骤中所述初始化社区结果为社区检测算法Louvain中第一阶段中止的结果。
8.根据权利要求1所述基于社区检测的增量聚类算法,其特征在于S7步骤中所述自定义增量聚类算法为基于社区检测的增量式聚类;所述增量式聚类为在初始化社区结果上将依次到达的数据流,依据当前文档的特征与已有社区的相似性匹配度大小,直接分配到最匹配的社区或者创建一个新的社区,最终所有的社区被视为不同的类,从而实现增量式的聚类。
9.根据权利要求4所述基于社区检测的增量聚类算法,其特征在于所述bit-vector向量采用局部敏感哈希算法中的Shingling方法。
10.根据权利要求7所述基于社区检测的增量聚类算法,其特征在于所述自定义增量聚类算法的主要步骤如下:
a、用Louvain算法对相似度图做初始化社区检测,在Louvain算法的第一阶段终止,得到初始化社区结果;
b、对初始化社区结果做分析,计算每个社区的一阶特征向量
二阶向量特征 以及权重
其中:xi为每个社区中文档的fasttext向量;ti为每篇文档的时间戳timestamp;f(t)=
2-λt为窗口衰减函数;
c、将满足w≥βμ,0<β≤1且r≤∈的社区簇定义为PMC(Potential-Micro Cluster);将满足w<βμ,0<β≤1且r>ε的社区簇定义为OMC(Outlier-Micro Cluster);将满足w≥βμ,r>ε或w<βμ,r≤∈的社区簇定义为IMC(Inactive-Micro Cluster);
d、对于增量式到达的数据p,使用LSH(Local Sensitive Hash)在PMC簇中寻找最相似的社区簇,如果该社区簇加入p后新的半径r小于预设阈值∈,将点p加入该社区簇;否则在OMC簇中寻找最相似的社区簇,如果该社区簇加入p后新的权重w大于等于预设阈值βμ,则将点p加入该社区簇;否则创建一个新的OMC,加入点p;
e、待所有新到达的增量数据按d步骤处理后,遍历所有在窗口衰减函数的作用下新的PMC簇,如果w<βμ或者r>ε,使用LSH在IMC簇中寻找最相似的社区簇,若找到,则将该PMC加入IMC簇;若未找到,则创建一个新的IMC来保存PMC中的数据点;
f、待e步骤中所有的PMC簇遍历后,当聚类请求到达时,遍历所有的IMC簇,如果该IMC的权重大于等于预设阈值βμ,保留该IMC;否则,删除该IMC;
g、待f步骤处理后,计算所有PMC簇与IMC簇的模块度
其中:m表示权重总和;wi表示第i个community的边权重;Ci代表第i个community;
如果模 块度降 低则按模 块度增 益
最大的方式划分簇,输出划分后的所有簇作为聚
类结果。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种草莓简易人工春化夜冷育苗方法 | 2020-05-08 | 128 |
转基因细胞测活方法测定IL-5或IL-5Rα抗体活性 | 2020-05-14 | 410 |
一种高产量乌塌菜的种植方法 | 2020-05-15 | 549 |
眼睛螺的人工繁育方法 | 2020-05-12 | 251 |
一种低温水间歇布水水产动物暂养装置 | 2020-05-13 | 159 |
一种数据处理方法及装置 | 2020-05-14 | 921 |
移动终端自动估价机构 | 2020-05-08 | 637 |
定时供应链电子商务最终销售系统及其方法 | 2020-05-13 | 548 |
移动电话推荐方法、装置、设备及存储介质 | 2020-05-08 | 574 |
一种对电子地图标识进行个性化智能应用的方法 | 2020-05-15 | 204 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。