专利汇可以提供基于文本相似度和微博频道特征的博文排重方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种基于文本相似度和微博频道特征的博文排重方法,所述方法包括(1)加载词库;(2)根据标识的频道类型,判断博文所属频道;(3)去噪;(4)计算 特征向量 ;(5)分频道计算相似度;(6)重复检测。采用本发明进行微博频道排重,效果良好。扩展同义词特征,提高了相似度,弥补了传统排重对于特征敏感度高,排重 力 度小的缺点。在一般去噪处理的 基础 上,针对不同频道的噪声特点,进一步去噪,降低了干扰性。根据不同频道不同特点,采用不同的特征提取方法,提高了特征的准确性和有效度。综合决策相似度计算方法,相对于单一方法,漏排率低。,下面是基于文本相似度和微博频道特征的博文排重方法专利的具体信息内容。
1.一种基于文本相似度和微博频道特征的博文排重方法,其特征在于,所述方法包括(1)加载词库;
(2)根据标识的频道类型,判断博文所属频道;
(3)去噪;
(4)计算特征向量;
(5)分频道计算相似度;
(6)重复检测;
所述步骤(1)包括
准备同义词库,词库格式包括表示词和编号,编号相同的为同义词,发现新的同义词,按照词库格式添加到词库,将词库加载到hash表中,供查询使用;
准备禁用词词库,格式包括禁用的话题和唯一标识,将词库加载到hash表中,供查询使用;
所述步骤(4)包括对去噪后博文,进行分词,去除停用词,按照主谓宾,提取特征,并查找同义词库,合并特征,统计计算特征向量;和根据不同频道的特点,按照不同的方法提取特征向量;
所述步骤(5)包括
(5.1)基于热门博文频道,根据主题特征向量计算相似度,记为sim1;
(5.2)电影频道,根据电影名特征N,计算最大匹配度,记为sim2;
(5.3)其它频道,根据频道特征向量计算相似度,记为sim3;
所述步骤(6)包括
(6.1)sim1>T,则排重,否则根据热门博文特征向量计算相似度sim1`;sim1`>T,则排重;
(6.2)sim2>T,则排重,否则根据电影博文特征向量计算相似度sim2`;sim2`>T,则排重;
(6.3)sim3>T,则排重;
其中,T为阈值。
2.如权利要求1所述的一种基于文本相似度和微博频道特征的博文排重方法,其特征在于,所述步骤(2)中频道类型包括热门博文、热门话题、搞笑、神回复、美食、电影、旅游、星座、购物和动漫频道,每个频道都带有唯一的标识;属于热门话题频道,则去禁用词库的hash里查找,找到,则直接排除。
3.如权利要求1所述的一种基于文本相似度和微博频道特征的博文排重方法,其特征在于,所述步骤(3)包括不分频道种类,对博文进行去噪,根据该博文所属频道特征去除该频道噪声。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
基于电热法破碎技术的绿色拆除方法 | 2020-05-11 | 341 |
一种致密岩石的饱和装置及方法 | 2020-05-12 | 417 |
一种给水管道交叉布置方法 | 2020-05-13 | 772 |
一种悬挂式网络工控机 | 2020-05-08 | 890 |
一种穿越浅埋偏压松散堆积体大跨度隧道综合进洞结构施工方法 | 2020-05-11 | 432 |
一种飞行/推进系统/喷流噪声综合实时模型建模方法 | 2020-05-13 | 759 |
一种超临界锅炉的启动计算方法及系统 | 2020-05-08 | 374 |
一种轴承式运动解耦竖向隔振装置 | 2020-05-12 | 800 |
一种建筑地板铺设装置 | 2020-05-13 | 264 |
带麦克风的重力支架 | 2020-05-08 | 770 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。