首页 / 专利库 / 专利权 / 第I章 / 国际申请 / 请求书 / 保护类型 / 专利 / 一种搜索引擎热点词分析算法

一种搜索引擎热点词分析算法

阅读:4发布:2020-12-05

专利汇可以提供一种搜索引擎热点词分析算法专利检索,专利查询,专利分析的服务。并且本 专利 申请 公开一种 搜索引擎 热点词分析 算法 ,由横向和纵向两部分组成,横向部分对词语自身在相邻的两个周期内被搜索的次数进行处理,表示为其中,x1是词语在较近周期中出现的次数,x2是词语在较早周期中出现的次数,a是大于0的基数;纵向部分选取具有单调递增性质且在大于0区间的函数值大于0的函数对平衡因子M进行处理,M可以是搜索过词语的互联网用户的不重复IP个数、不重复radius个数或用户身份证个数;将横向部分和纵向部分的结果相乘即可得到最终的热点词分析结果;利用本专利申请所述方法,能够显著提高搜索引擎热点词得分算法的有效性和可靠性,提高算法的抗干扰能 力 ,从而得到理性的、可用性强的结果。,下面是一种搜索引擎热点词分析算法专利的具体信息内容。

1.一种搜索引擎热点词分析方法,其特征在于:由横向和纵向两部分组成,横向部分对词语自身在相邻的两个周期内被搜索的次数进行处理,表示为 其中,x1是词语在较近周期中出现的次数,x2是词语在较早周期中出现的次数,a是大于0的基数;
纵向部分选取具有单调递增性质且在大于0区间的函数值为正数的函数对平衡因子M进行处理,平衡因子M可以是搜索过词语的互联网用户的不重复IP个数、不重复radius个数或用户身份证个数;
将横向部分和纵向部分的结果相乘即可得到最终的热点词得分计算结果。
2.如权利要求1所述的一种搜索引擎热点词分析方法,其特征在于:较佳的,基数a设定为词语在较近周期被搜索次数的平均值。
3.如权利要求1所述的一种搜索引擎热点词分析方法,其特征在于:较佳的,选取作为纵向部分的函数,其中,n是大于1的正整数。
4.如权利要求3所述的一种搜索引擎热点词分析方法,其特征在于:较佳的,n=3时函数结果的区分程度能够满足一般性需求。

说明书全文

一种搜索引擎热点词分析算法

技术领域

[0001] 本申请属于信息技术领域,涉及一种搜索引擎热点词分析算法。

背景技术

[0002] 热点词,是指一定时间内被大量互联网用户通过搜索引擎搜索过的词语,相对于非热点词,热点词有搜索次数高的特点。一般的,通过一系列的方法处理词语在相邻的两个周期内出现的次数,将处理的结果筛选,就可以得到热点词。经过处理的结果叫做关键词得分,处理的方法叫做关键词得分算法。
[0003] 现有的关键词得分算法是将词语在较近周期中被搜索次数减去词语在较早周期中被搜索的次数,然后再除以一个基数,基数可以是词语在较近周期中被搜索的次数,可以是词语在较早周期中被搜索的次数,也可以是同一词语在两个周期被搜索次数的和或者差,等等。下面是一个关键词得分算法的例子:
[0004]
[0005] 现有计算关键词得分的算法能够满足一些实际应用的要求,能够在实际应用中起到一部分作用,但容易受到干扰,得到的结果也让人难以满意。以上面的关键词得分算法的例子为计算公式,计算后得到如下表格所示的一组数据:
[0006]词语 较早周期被搜索的次数 较近周期被搜索的次数 得分
年货 0 569 /
暖手宝 167 587 2.51497006
虎牌 21 27 0.285714286
天气 965 985 0.020725389
火车票 683 693 0.014641288
三中全会 924 365 -0.604978355
[0007] 可以发现表格中的数据存在以下一些问题:
[0008] A“. 年货”是在较近周期才出现的新词语,经过现有的算法,由于分母为0,不能得到结果,在依据得分统计时,很有可能会被忽视。
[0009] B.“三中全会”的得分是负数,与其他的得分格式不同。
[0010] C“. 虎牌”的搜索次数要远小于其他词语,但是它的得分却大于“大气”等词语。这样的词语我们称为噪声词。
[0011] 显而易见,现有算法计算出来的结果是不理想的。对于一组词语数据,经过现有算法计算后,得到的结果存在很多问题,这些问题让计算结果的可用性大大降低。发明内容
[0012] 本专利申请的目的在于克服现有算法的弊端,提高热点词分析算法的抗干扰能,从而得到理想的、可用性强的结果。
[0013] 为了解决上述技术问题,本专利申请提供了一种搜索引擎热点词分析算法。针对现有算法的缺点,通过改进算法中基数的使用,可以消除背景技术中所述的前两种缺点,但是,对于第三种缺点,经过改进后算法的计算,其得分大于某些在两个周期内搜索次数较多的词语的得分的现象依然存在。在实际的应用中,通过不断的观察和尝试,发现把改进后的算法和平衡因子的处理相结合,可以起到减小噪声词的得分的作用。其中,平衡因子可以是搜索过词语的互联网用户的不重复IP个数、不重复radius个数或用户身份证个数。本专利申请将二者结合,以达到提高算法抗干扰能力的目的。
[0014] 横向部分对词语自身在相邻的两个周期内被搜索的次数进行处理,表示为其中,x1是词语在较近周期中出现的次数,x2是词语在较早周期中出现的次数,a是大于0的基数;
[0015] 纵向部分选取具有单调递增性质且在大于0区间的函数值为正数的函数对平衡因子M进行处理,平衡因子M可以是搜索过词语的互联网用户的不重复IP个数、不重复radius个数或用户身份证个数;
[0016] 将横向部分和纵向部分的结果相乘即可得到最终的热点词得分计算结果。
[0017] 本申请的有益后果是:
[0018] 本专利申请所述的搜索引擎热点词分析算法通过改进基数的使用,并将改进后的算法和平衡因子的处理相结合,明显降低噪声词对计算结果的影响,避免现有算法中出现无效结果的情况,能够显著提高搜索引擎热点词分析算法的有效性和可靠性,提高算法的抗干扰能力,还可以起到凸显新词语的效果,从而得到理性的、可用性强的结果。附图说明
[0019] 附图1为反三函数曲线图。

具体实施方式

[0020] 本专利申请所述的一种搜索引擎热点词分析算法,由横向和纵向两部分组成。横向部分对词语出现的次数进行处理,表示为 其中x1≥1,x2≥0,a>0,x1是词语在相邻两周期中的较近周期出现的次数,x2是词语在较早周期出现的次数,a为基数。该函数的曲线图是单调递增的。
[0021] 对于 满足条件x1≥1,x2≥0,a>0时,无论x1和x2如何变化,横向部分都能计算出结果。如果词语在较早周期中没有出现过,是一个在较近周期中才出现的新词语,通过 的计算,也不会出现因分母为0而无法获得计算结果的情况,这样就可以避免有效词语没有计算结果的情况。
[0022] 在 中,a是不变的,如果词语在较近周期中被搜索的次数x1一定,x1相对于在较早周期中被搜索的次数x2越大,函数值也会越大。这也会有一个极限,即较早周期中词语被搜索的次数是0,这时候横向部分等价于 在x1≥1,a>0为前提的条件下,的值必然会大于 作为在较近周期中被搜索次数一样的词语,最后的得分中,只在较近周期中才出现的新词语的得分会大于在两个周期中都出现的词语,这又能够起到凸显出新词语的作用。
[0023] 经过反复的试验和论证,基数a的值设定为词语在较近周期被搜索次数的平均值时,函数的效果比较好。在背景技术所述例子中,基数a=(569+587+27+985+693+365)/6≈537,使用横向部分函数计算得到如下结果:
[0024]词语 较早周期被搜索的次数 较近周期被搜索的次数 横向部分得分
年货 0 569 0.672948328
暖手宝 167 587 0.614754098
天气 965 985 0.503304693
虎牌 21 27 0.502669039
火车票 683 693 0.502039152
三中全会 924 365 0.381818182
[0025] 与背景技术中的表格对比可以看出计算的结果中不存在负数,在较近周期中才出现的“年货”的得分要高于其他词语。“三中全会”作为较近周期搜索次数小于较早周期的词语,得分也是最小的。噪声词“虎牌”的得分也不再大于搜索次数明显多于它的“天气”的得分,但是仍然高于“火车票”这样被大量搜索的词语的得分。
[0026] 为了解决噪声词对结果的干扰,提高结果的可用性,仅仅有第一部分的处理显然是不够的。在实际应用中的噪声词有一个共性:搜索过噪声词的互联网用户的不重复IP个数、不重复radius个数或用户身份证个数很少。鉴于这个特点,本专利申请选择搜索词语的不重复IP个数、不重复radius个数或用户身份证个数作为平衡因子。
[0027] 下面以选择搜索过噪声词的互联网用户的不重复IP个数作为平衡因子为例来讲解纵向部分。平衡因子的计算需满足两个条件,一是平衡因子在大于0区间的函数值是单调递增的,二是平衡因子在大于0区间的函数值为正数。在本实施例中,我们选择使用反三角函数f(x)=arctan(x)的衍变 作为纵向部分的函数。
[0028] 反三角函数f(x)=arctan(x)的曲线图是单调递增的,在实际计算和运用中,只使用x≥0的部分,它的曲线的走势如附图1所示,其中横轴是x的值,纵轴是函数f(x)=arctan(x)的值。
[0029] 假设横轴x的递增值为Δx个单位,现有Δf(x)=f(x)-f(x-Δx),从图中可看出,随着x的增大,函数f(x)=arctan(x)走势越来越趋于平缓,Δf(x)越来越趋向于零,区分度也是越来越小。从x=10以后,函数曲线增长的趋势就很小了。在实际情况中,搜索过噪声词的不重复IP个数M几乎都在一到几十之间,因为函数f(x)=arctan(x)在10以后的增长趋势很小的特点,经过f(x)=arctan(x)函数计算后,M大于10的噪声词的计算结果与非噪声词的计算结果的区分度也就很小,这样,再与横向部分结合,经过计算,最后得到的结果中噪声词的干扰依然可能会存在。
[0030] 为了增大区分度,本实施例中采用开方的方式处理x。由于M是正整数,对于正整数,如果有x1>x2,则必然有 且 (n是大于1的正数),这样f(x)=arctan(x)就变成了 如此一来,噪声词的计算结果就会与非噪声词
的计算结果有明显的区分度了。经过反复试验,当n=3的时候,函数结果的区分度就能够满足需要了。
[0031] 当n=3时,纵向部分的计算结果为:
[0032]
[0033] 从结果可以看出,由于搜索过“虎牌”的互联网用户的不重复IP个数小于其他词语的,它的纵向部分得分也就明显小于其他词语,这也正是我们想要看到的。
[0034] 综合横向部分、纵向部分,二者函数都是单调递增的函数,将二者相乘,能够起到降低噪声词对结果的影响,减少甚至消除对有效词语的干扰,可以得到较为理想的计算结果。同样用上面例子中的数据,利用本专利申请所述方法,得到以下的计算结果:
[0035]
[0036] 从上表所示的结果可以发现,同样作为在较近周期中搜索次数多于较早周期中搜索次数的词语,“虎牌”由于搜索过他的用户IP个数太少,得分小于其他的词语。“年货”作为在较近周期中才出现的词语,得分明显高于其他词语,这样,通过本发明也可以起到凸显新词语的效果。对于不再被较近周期用户大量搜索的“三中全会”,它的得分是最小的。
[0037] 以上实施方案的说明只适用于帮助理解本专利申请的原理,对本领域的一般技术人员,依据本专利申请实施例,在具体实施方式以及应用范围上均会有改变之处,例如,本发明中使用反三角函数的衍变 来降低噪声词的影响,也可以采用对数函数及其他满足纵向部分条件的函数来替换,因此本说明书内容不应理解为对本专利申请的限制。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈