首页 / 专利库 / 计算机网络 / 搜索引擎 / 搜索排序方法、装置、计算机设备和存储介质

搜索排序方法、装置、计算机设备和存储介质

阅读:559发布:2020-05-11

专利汇可以提供搜索排序方法、装置、计算机设备和存储介质专利检索,专利查询,专利分析的服务。并且本 申请 涉及一种搜索排序方法、装置、计算机设备和存储介质。所述方法包括:获取搜索关键词,确定与所述关键词匹配的多个初始检索结果;获取每个所述初始检索结果相关的多个特征因子及每个所述特征因子的权重;根据多个所述特征因子的权重,对每个所述初始检索结果进行融合计算,得到每个初始检索结果的综合权值;根据所述综合权值对所述多个初始检索结果进行排序。本 发明 实施例 通过对多个栏目的初始检索结果综合排序,能够快速查找到目标结果,节约了操作时间和提高搜索效率。,下面是搜索排序方法、装置、计算机设备和存储介质专利的具体信息内容。

1.一种搜索排序方法,其特征在于,所述方法包括:
获取搜索关键词,确定与所述关键词匹配的多个初始检索结果;其中,所述初始检索结果包括联系人、群或消息;
对所述初始检索结果进行筛选;
其中,所述对所述初始检索结果进行筛选包括:
对离职用户且无聊天记录的初始检索结果不进行排序;
将未注册用户的初始检索结果排在最后;
获取每个所述初始检索结果相关的多个特征因子及每个所述特征因子的权重;
根据多个所述特征因子的权重,对每个所述初始检索结果进行融合计算,得到每个初始检索结果的综合权值;
根据所述综合权值对所述多个初始检索结果进行排序;
其中,所述多个特征因子包括文本相似度、聊天更新时间、初始召回搜索引擎分数、部相近度、联系人客观重要度、聊天消息数、点击率以及用户关联程度中的至少一种;
所述获取每个所述初始检索结果相关的多个特征因子及每个所述特征因子的权重包括:
根据所述初始检索结果的字段,获取所述初始检索结果所包含的特征因子;其中,所述字段中包括对象类型、对象状态、对象名称、初始召回搜索引擎分数、聊天更新时间、最近一条消息位置、对象拼音名、对象英文名、所在部门中的至少一种信息;
根据所述字段中信息分别计算每种所述特征因子对应的权重;其中,所述特征因子对应的权重包括文本相似度的权重、聊天更新时间的权重、初始召回搜索引擎分数的权重、部门相近度的权重、联系人客观重要度的权重、聊天消息数的权重、点击率的权重以及用户关联程度的权重中的至少一种;
所述根据多个所述特征因子的权重,对每个所述初始检索结果进行融合计算,得到每个初始检索结果的综合权值包括:
根据所述初始检索结果的每个特征因子分别获取偏移值和修正值;
计算所述特征因子权重与与其对应的所述偏移值之积再与与其对应的所述修正值之和得到融合系数;
将所述多个特征因子的融合系数相乘得到所述初始检索结果的综合权值。
2.根据权利要求1所述的方法,其特征在于,所述计算文本相似度的权重包括:
计算所述关键词在所述初始检索结果中的命中率、顺序一致性指标、位置紧密度覆盖率;
根据所述命中率、顺序一致性指标、位置紧密度和覆盖率,计算文本相似度的权重。
3.根据权利要求2所述的方法,其特征在于,所述根据所述命中率、顺序一致性指标、位置紧密度和覆盖率计算文本相似度的权重的步骤包括:
根据所述命中率、顺序一致性指标、位置紧密度和覆盖率分别获取偏移值和修正值;
根据所述命中率、顺序一致性指标、位置紧密度和覆盖率和所述偏移值和修正值进行融合计算,得到文本相似度的权重。
4.根据权利要求1所述的方法,其特征在于,所述计算聊天更新时间的权重包括:
根据所述初始检索结果,获取最后一次聊天时间距离当前时间的时间间隔;
计算衰减常数与所述时间间隔与所述衰减常数之和的比值,得到所述聊天更新时间的权重。
5.根据权利要求1所述的方法,其特征在于,所述计算初始召回搜索引擎分数的权重包括:
对所述初始检索结果根据词频-逆文本频率指数模型打分,获得初始召回搜索引擎分数的权重。
6.根据权利要求1所述的方法,其特征在于,所述计算部门相近度的权重包括:
将所述初始检索结果中的所在部门与当前进行搜索的用户所在部门进行比对;
若为同一个部门,部门相近度的权重设为1;
若不为同一个部门,部门相近度的权重设为0。
7.根据权利要求1所述的方法,其特征在于,所述计算联系人客观重要度的权重包括:
获取所述初始检索结果职位级别、发表文章数目比值、受关注数据和点赞数据;
根据所述职位级别、发表文章数目比值、受关注数据和点赞数据,计算联系人客观重要度的权重。
8.根据权利要求7所述的方法,其特征在于,所述根据所述职位级别、发表文章数目比值、受关注数据和点赞数据,计算联系人客观重要度的权重包括:
根据所述职位级别、发表文章数目比值、受关注数据和点赞数据分别获取偏移值和修正值;
根据所述职位级别、发表文章数目比值、受关注数据、点赞数据和所述偏移值和修正值进行融合计算,得到联系人客观重要度的权重。
9.根据权利要求1所述的方法,其特征在于,所述计算聊天消息数的权重包括:
获取所述初始检索结果与当前进行搜索的用户之间的聊天消息总数目;
获取所述聊天消息总数目的参数r;
根据所述聊天消息总数目与参数r计算得到聊天消息数的权重;
其中,参数r为一数量单位。
10.根据权利要求1所述的方法,其特征在于,所述计算点击率的权重包括:
获取所述初始检索结果的用户点击数;
根据所述用户点击数,向点击率的权重赋值;其中,点击率的权重与所述用户点击数成正比。
11.根据权利要求1所述的方法,其特征在于,计算所述用户关联程度的权重包括:
计算所述初始检索结果与当前进行搜索的用户共同联系人数目、共同部门特征数、共同办公地点特征数和共同个人标签数;
根据所述共同联系人数目、共同部门特征数、共同办公地点特征数和共同个人标签数,计算用户关联程度的权重。
12.一种搜索排序装置,其特征在于,所述装置包括:
初始检索结果提取模,获取搜索关键词,确定与所述关键词匹配的多个初始检索结果;其中,所述初始检索结果包括联系人、群或消息;
初始检索结果筛选模块,用于对所述初始检索结果进行筛选;
其中,所述初始检索结果筛选模块具体用于:
对离职用户且无聊天记录的初始检索结果不进行排序;
将未注册用户的初始检索结果排在最后;
特征因子提取模块,获取每个所述初始检索结果相关的多个特征因子及每个所述特征因子的权重;
权值计算模块,根据所述多个特征因子及每个所述特征因子的权重,对每个所述初始检索结果初始检索结果进行融合计算,得到每个初始检索结果的综合权值;
排序模块,根据所述综合权值对所述多个初始检索结果进行排序;
其中,所述多个特征因子包括文本相似度、聊天更新时间、初始召回搜索引擎分数、部门相近度、联系人客观重要度、聊天消息数、点击率以及用户关联程度中的至少一种;
所述获取每个所述初始检索结果相关的多个特征因子及每个所述特征因子的权重包括:
根据所述初始检索结果的字段,获取所述初始检索结果所包含的特征因子;其中,所述字段中包括对象类型、对象状态、对象名称、初始召回搜索引擎分数、聊天更新时间、最近一条消息位置、对象拼音名、对象英文名、所在部门中的至少一种信息;
根据所述字段中信息分别计算每种所述特征因子对应的权重;其中,所述特征因子对应的权重包括文本相似度的权重、聊天更新时间的权重、初始召回搜索引擎分数的权重、部门相近度的权重、联系人客观重要度的权重、聊天消息数的权重、点击率的权重以及用户关联程度的权重中的至少一种;
所述权值计算模块具体用于:
根据所述初始检索结果的每个特征因子分别获取偏移值和修正值;
计算所述特征因子权重与与其对应的所述偏移值之积再与与其对应的所述修正值之和得到融合系数;
将所述多个特征因子的融合系数相乘得到所述初始检索结果的综合权值。
13.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的方法的步骤。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。

说明书全文

搜索排序方法、装置、计算机设备和存储介质

技术领域

[0001] 本申请涉及企业即时通讯系统技术领域,特别是涉及一种搜索排序方法、装置、计算机设备和存储介质。

背景技术

[0002] 随着智能设备的快速发展,聊天应用软件越来越多,聊天应用软件的使用能够方便用户进行异地沟通。其中聊天应用软件包括个人聊天应用软件和企业聊天应用软件。企业聊天应用软件的使用过程中,用户需要查找相关信息时,会启动搜索功能,如搜索聊天信息、联系人或者群聊,以便快速查找到相关信息或者快速建立聊天链接。
[0003] 目前,在实现企业聊天应用软件搜索功能时,发现存在如下问题:
[0004] 企业聊天应用软件的初始检索结果是按不同的对象分开展示的,如联系人、群聊、消息等信息都是分栏目展示的,且显示的对象是通过时间先后来进行排序,用户根据展示的栏目来查找相关信息,操作繁琐且耗时多。发明内容
[0005] 基于此,有必要针对上述技术问题,提供一种能够快速查找到相关信息的搜索排序方法、装置、计算机设备和存储介质。
[0006] 一种搜索排序方法,所述方法包括:
[0007] 获取搜索关键词,确定与所述关键词匹配的多个初始检索结果;
[0008] 获取每个所述初始检索结果相关的多个特征因子及每个所述特征因子的权重;
[0009] 根据多个所述特征因子的权重,对每个所述初始检索结果进行融合计算,得到每个初始检索结果的综合权值;
[0010] 根据所述综合权值对所述多个初始检索结果进行排序。
[0011] 在其中一个实施例中,所述多个特征因子包括文本相似度、聊天更新时间、初始召回搜索引擎分数、部相近度、联系人客观重要度、聊天消息数、点击率以及用户关联程度中的至少一种;
[0012] 所述获取每个所述初始检索结果相关的多个特征因子及每个所述特征因子的权重包括:
[0013] 根据所述初始检索结果的字段,获取所述初始检索结果所包含的特征因子;其中,所述字段中包括对象类型、对象状态、对象名称、初始召回搜索引擎分数、聊天更新时间、最近一条消息位置、对象拼音名、对象英文名、所在部门中的至少一种信息;
[0014] 根据所述字段中信息分别计算每种所述特征因子对应的权重;其中,所述特征因子对应的权重包括文本相似度的权重、聊天更新时间的权重、初始召回搜索引擎分数的权重、部门相近度的权重、联系人客观重要度的权重、聊天消息数的权重、点击率的权重以及用户关联程度的权重中的至少一种。
[0015] 在其中一个实施例中,所述计算文本相似度的权重包括:计算所述关键词在所述初始检索结果中的命中率、顺序一致性指标、位置紧密度覆盖率;
[0016] 根据所述命中率、顺序一致性指标、位置紧密度和覆盖率,计算文本相似度的权重。
[0017] 在其中一个实施例中,所述根据所述命中率、顺序一致性指标、位置紧密度和覆盖率计算文本相似度的权重的步骤包括:
[0018] 根据所述命中率、顺序一致性指标、位置紧密度和覆盖率分别获取偏移值和修正值;
[0019] 根据所述命中率、顺序一致性指标、位置紧密度和覆盖率和所述偏移值和修正值进行融合计算,得到文本相似度的权重。
[0020] 在其中一个实施例中,所述计算聊天更新时间的权重包括:
[0021] 根据所述初始检索结果,获取最后一次聊天时间距离当前时间的时间间隔;
[0022] 计算衰减常数与所述时间间隔与所述衰减常数之和的比值,得到所述聊天更新时间的权重。
[0023] 在其中一个实施例中,所述计算初始召回搜索引擎分数的权重包括:
[0024] 对所述初始检索结果根据词频-逆文本频率指数模型打分,获得初始召回搜索引擎分数的权重。
[0025] 在其中一个实施例中,所述计算部门相近度的权重包括:
[0026] 将所述初始检索结果中的所在部门与当前进行搜索的用户所在部门进行比对;
[0027] 若为同一个部门,部门相近度的权重设为1;
[0028] 若不为同一个部门,部门相近度的权重设为0。
[0029] 在其中一个实施例中,所述计算联系人客观重要度的权重包括:
[0030] 获取所述初始检索结果职位级别、发表文章数目比值、受关注数据和点赞数据;
[0031] 根据所述职位级别、发表文章数目比值、受关注数据和点赞数据,计算联系人客观重要度的权重。
[0032] 在其中一个实施例中,所述根据所述职位级别、发表文章数目比值、受关注数据和点赞数据,计算联系人客观重要度的权重包括:
[0033] 根据所述职位级别、发表文章数目比值、受关注数据和点赞数据分别获取偏移值和修正值;
[0034] 根据所述职位级别、发表文章数目比值、受关注数据、点赞数据和所述偏移值和修正值进行融合计算,得到联系人客观重要度的权重。
[0035] 在其中一个实施例中,所述计算聊天消息数的权重包括:
[0036] 获取所述初始检索结果与当前进行搜索的用户之间的聊天消息总数目;
[0037] 获取所述聊天消息总数目的参数r;
[0038] 根据所述聊天消息总数目与参数r计算得到聊天消息数的权重;
[0039] 其中,参数r为以数量单位。
[0040] 在其中一个实施例中,所述计算点击率的权重包括:
[0041] 获取所述初始检索结果的用户点击数;
[0042] 根据所述用户点击数,向点击率的权重赋值;其中,点击率的权重与所述用户点击数成正比。
[0043] 在其中一个实施例中,计算所述用户关联程度的权重包括:
[0044] 计算所述初始检索结果与所述当前进行搜索的用户共同联系人数目、共同部门特征数、共同办公地点特征数和共同个人标签数;
[0045] 根据所述共同联系人数目、共同部门特征数、共同办公地点特征数、共同个人标签数,计算用户关联程度的权重。
[0046] 在其中一个实施例中,所述根据多个所述特征因子的权重,对每个所述初始检索结果进行融合计算,得到每个初始检索结果的综合权值包括:
[0047] 根据所述初始检索结果的每个特征因子分别获取偏移值和修正值;
[0048] 计算所述特征因子与与其对应的所述偏移值之积再与与其对应的所述修正值之和得到融合系数;
[0049] 将所述多个特征因子的融合系数相乘得到所述初始检索结果的综合权值。
[0050] 一种搜索排序装置,所述装置包括:
[0051] 初始检索结果提取模,获取搜索关键词,确定与所述关键词匹配的多个初始检索结果;
[0052] 特征因子提取模块,获取每个所述初始检索结果相关的多个特征因子及每个所述特征因子的权重;
[0053] 权值计算模块,根据所述多个特征因子及每个所述特征因子的权重,对每个所述初始检索结果初始检索结果进行融合计算,得到每个初始检索结果的综合权值;
[0054] 排序模块,根据所述综合权值对所述多个初始检索结果进行排序。
[0055] 一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法的步骤。
[0056] 一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求上述的方法的步骤。
[0057] 上述搜索排序方法、装置、计算机设备和存储介质,从多个栏目来获取初始检索结果,保证所获取的信息更加全面,在企业沟通工具中,栏目会包括多种,如果漏掉其中某个栏目可能会导致搜索失败;再根据初始检索结果来进行权值计算,实现统一的排序标准,对综合排序提供了基础;最后根据权值进行综合排序能够方便用户快速查找到相关信息,简化了操作提高了查找效率。附图说明
[0058] 图1为一个实施例中搜素排序方法的应用环境图;
[0059] 图2为一个实施例中搜素排序方法的流程示意图;
[0060] 图3为一个实施例特征因子的权重的步骤的流程示意图;
[0061] 图4为一个实施例中搜索排序装置的结构框图
[0062] 图5为一个实施例中计算机设备的内部结构图。

具体实施方式

[0063] 为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
[0064] 本申请提供的搜索排序方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。在终端102输入搜索关键词,服务器104获取搜索关键词,确定与所述关键词匹配的多个初始检索结果;获取每个所述初始检索结果相关的多个特征因子及每个所述特征因子的权重;根据多个所述特征因子的权重,对每个所述初始检索结果进行融合计算,得到每个初始检索结果的综合权值;根据所述综合权值对所述多个初始检索结果进行排序,综合排序的结果显示于终端102。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
[0065] 在一个实施例中,如图2所示,提供了一种搜索排序的方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
[0066] 步骤210,获取搜索关键词,确定与所述关键词匹配的多个初始检索结果。
[0067] 其中,搜索关键词为用户在使用搜索引擎查找相关信息时输入的字、词、符号等输入信息。本实施例中栏目包括联系人栏、群聊栏、消息栏。
[0068] 具体地,在终端输入搜索关键词,终端获取用户输入的搜素关键词发送至服务器。
[0069] 步骤220,获取每个所述初始检索结果相关的多个特征因子及每个所述特征因子的权重。
[0070] 其中,初始检索结果为与搜索关键词所匹配的文本文档;从初始检索结果中获取多个特征因子,根据文本文档提取与关键词相关的一些信息。作为较佳的一个实施方式,多个特征因子包括文本相似度、聊天更新时间、初始召回搜索引擎分数、部门相近度、联系人客观重要度、聊天消息数、点击率、用户关联程度中的至少一种。在本实施例中,每个栏目的初始检索结果的特征因子可以相同也可以不同。
[0071] 作为一个优选的实施方式,所述获取每个所述初始检索结果相关的多个特征因子及每个所述特征因子的权重之前包括:对所述初始检索结果依进行筛选。其中,所述对所述初始检索结果依进行筛选包括:离职用户且无聊天记录不进行排序、未注册用户排在最后。聊天记录可以通过聊天更新时间或最近一条消息对应位置确定。
[0072] 步骤230,根据多个所述特征因子的权重,对每个所述初始检索结果进行融合计算,得到每个初始检索结果的综合权值。
[0073] 其中,每个初始检索结果包括多个特征因子,利用多个特征因子的权重进行融合计算每个初始检索结果的权值。
[0074] 步骤240,根据所述综合权值对所述多个初始检索结果进行排序。
[0075] 其中,进行综合排序时,可以依据权值从大到小来进行排序,也可以依据权值从小到大来进行排序。采用此种技术方案不依据栏目来区分排序方式,而是根据权值来进行排序,实现快速查找到相关信息。
[0076] 其中,初始检索结果,针对的对象是联系人或群。每条初始检索结果包含的字段包括:对象类型、对象状态、对象名称、初始召回搜索引擎分数、聊天更新时间、最近一条消息位置、对象拼音名、对象英文名、所在部门。其中,对象类型包括聊天应用、邮件,对象状态包括是否注册、是否离职。
[0077] 上述搜素排序方法中,从多个栏目来获取初始检索结果,保证所获取的信息更加全面,在企业沟通工具中,栏目会包括多种,如果漏掉其中某个栏目可能会导致搜索失败;再根据初始检索结果来进行权值计算,实现统一的排序标准,对综合排序提供了基础;最后根据权值进行综合排序能够方便用户快速查找到相关信息,简化了操作提高了查找效率。
[0078] 本实施例中,如图3所示,所述获取每个所述初始检索结果相关的多个特征因子及每个所述特征因子的权重包括:
[0079] 步骤302,根据所述初始检索结果的字段,获取所述初始检索结果所包含的特征因子;其中,所述字段中包括对象类型、对象状态、对象名称、初始召回搜索引擎分数、聊天更新时间、最近一条消息位置、对象拼音名、对象英文名、所在部门中的至少一种信息。
[0080] 步骤304,根据所述字段中信息分别计算每种所述特征因子对应的权重;其中,所述特征因子对应的权重包括文本相似度的权重、聊天更新时间的权重、初始召回搜索引擎分数的权重、部门相近度的权重、联系人客观重要度的权重、聊天消息数的权重、点击率的权重以及用户关联程度的权重中的至少一种。
[0081] 在其中一个实施例中,根据所述字段中信息计算文本相似度的权重包括:计算所述关键词在所述初始检索结果中的命中率、顺序一致性指标、位置紧密度和覆盖率;根据所述命中率、顺序一致性指标、位置紧密度和覆盖率,计算文本相似度的权重。
[0082] 其中,所述根据所述命中率、顺序一致性指标、位置紧密度和覆盖率计算文本相似度的权重的步骤包括:根据所述命中率、顺序一致性指标、位置紧密度和覆盖率分别获取偏移值和修正值;根据所述命中率、顺序一致性指标、位置紧密度和覆盖率和所述偏移值和修正值进行融合计算,得到文本相似度的权重;其中,所述偏移值和修正值可通过机器学习确定。其中,根据所述命中率、顺序一致性指标、位置紧密度和覆盖率分别获取偏移值和修正值包括:根据所述命中率获取偏移值和修正值,根据所述顺序一致性指标获取偏移值和修正值,根据所述位置紧密度指标获取偏移值和修正值,根据所述覆盖率获取偏移值和修正值。
[0083] 在其中一个实施例中,根据所述字段中信息计算文本相似度的权重具体公式为:
[0084] text_similar=(a*hit+b)*(c*sequence+d)*(e*position+f)*(g*cover+h);其中,text_similar为文本相似度的权重,hit为文本命中率,sequence为顺序一致性指标,position为位置紧密度,cover为覆盖率。其中,a、b为命中率的偏移值和修正值,c、d为顺序一致性指标的偏移值和修正值,e、f为位置紧密度的偏移值和修正值,g、h为覆盖率的偏移值和修正值,其中,偏移值越大表示该项的重要程度越高。其中,文本命中率表示搜索关键词在对应的文本文档中命中的个数与搜索关键词的总个数的比率,显然所占的比率越高表示初始检索结果越接近搜索目标。顺序一致性指标表示搜索关键词的顺序与对应的文本文档的出现的搜索关键词的顺序的一致性,顺序一致性通过逆序的个数的比例来表达,如(1,2,3)逆序个数为0,即最有序的排列,(3,2,1)逆序个数为3,为最无序的排列。位置紧密度表示命中的文本文档个数与命中文本文档个数与命中的间隔数之和的比率,如关键词“张三张四李四”,命中的初始检索结果“张三”、“李四的群”,命中的关键词“张三李四”,命中文本文档个数t为2,命中的间隔数之和为1(因为中间隔了一个张四),因此,位置紧密度=2/(1+
2)=2/3。覆盖率表示命中的关键字占全部命中文本文档总字段的比率。
[0085] 在其中一个实施例中,根据所述字段中信息计算聊天更新时间的权重包括:根据所述初始检索结果,获取最后一次聊天时间距离当前时间的时间间隔;计算衰减常数与所述时间间隔与所述衰减常数之和的比值,得到所述聊天更新时间的权重。
[0086] 聊天更新时间的权重具体计算公式如下:
[0087] update_time_weight=factor/(factor+update_time_secs);
[0088] 其中,update_time_weight为聊天更新时间的权重,更新时间维度中,factor是一个自定义的衰减常数,单位是秒,这里按照30天衰减一半来计算,factor=30*24*3600=2592000。update_time_secs是最后一次聊天时间距离现在的秒数,比如最后一次聊天时间是30天前,则update_time_secs=30*24*3600=259200,那么更新时间维度update_time_weight=259200/(259200+259200)=1/2。
[0089] 在其中一个实施例中,根据所述字段中信息计算初始召回搜索引擎分数的权重包括:对所述初始检索结果根据词频-逆文本频率指数(term frequency–inverse document frequency,TF/IDF)模型打分,获得初始召回搜索引擎分数的权重。
[0090] 对每个初始检索结果的文本文档进行打分获得初始召回搜索引擎分数的权重,初始召回搜索引擎分数的权重为一个浮点数。打分策略主要使用TF/IDF模型,TF/IDF模型是一种用于信息检索数据挖掘的常用加权技术,其评分公式计算如下:得分公式是一个关于查询和文档的函数,与文档词向协调因子coord,查询范数queryNorm,词频tf,逆文档频率idf,词项的权重boost,长度范数norm有关。从公式中我们可以导出一些初始召回搜索引擎的基本规则:越多罕见的词项被匹配上,文档得分越高;文档字段越短(包含更少的词项),文档得分越高;词项的权重越高,文档得分越高。
[0091] 在其中一个实施例中,根据所述字段中信息计算部门相近度的权重包括:将所述初始检索结果中的所在部门与当前进行搜索的用户所在部门进行比对;若为同一个部门,部门相近度的权重设为1;若不为同一个部门,部门相近度的权重设为0。
[0092] 在企业即时通讯(Enterprise Instant Messaging,EIM)应用中,用户与同部门人的聊天概率,一般是大于其他部门的。当召回多个同名的人,位于同一个部门的,很大程度上接近搜索目标。因此,在计算相关性过程中,比较用户和联系人的部门,如果存在部门的交集,则增加部门的权重。
[0093] 在其中一个实施例中,所述根据所述职位级别、发表文章数目比值、受关注数据和点赞数据,计算联系人客观重要度的权重包括:根据所述职位级别、发表文章数目比值、受关注数据和点赞数据分别获取偏移值和修正值;根据所述职位级别、发表文章数目比值、受关注数据、点赞数据和所述偏移值和修正值进行融合计算,得到联系人客观重要度的权重;其中,所述偏移值和修正值可通过机器学习确定。其中,根据所述职位级别、发表文章数目比值、受关注数据和点赞数据分别获取偏移值和修正值包括:根据所述职位级别获取偏移值和修正值,根据所述发表文章数目比值获取偏移值和修正值,根据所述受关注数据获取偏移值和修正值,根据所述点赞数据获取偏移值和修正值。
[0094] 在其中一个实施例中,根据所述字段中信息计算联系人客观重要度的权重具体公式为:
[0095] static_weight=(i*position+j)*(k*article_num+l)*(m*concerned_num+n)*(o*liked_num+p);
[0096] 其中,static_weight为联系人客观重要度的权重,position为职位级别、article_num为发表文章数目比值、concerned_num为受关注数据、liked_num为点赞数据。其中,i、j为职位级别偏移值和修正值,k、l为发表文章数目比值的偏移值和修正值,m、n为受关注数据的偏移值和修正值,o、p为点赞数据的偏移值和修正值,其中,偏移值越大表示该项的重要程度越高。其中,客观重要度是一种静态维度,和用户及搜索关键词无关,一般是大多数用户知道且希望找到的对象。在其它条件相同情况下,越被广泛熟知的人,越倾向于排在前面,其客观重要度也越高。客观重要度的权重通过离线计算得出,以一个周期更新一次(比如每周计算一次)。
[0097] 在其中一个实施例中,根据所述字段中信息计算聊天消息数的权重包括:获取所述初始检索结果与当前进行搜索的用户之间的聊天消息总数目;获取所述聊天消息总数目的参数r;根据所述聊天消息总数目与参数r计算得到聊天消息数的权重。其中,参数r为一数量单位。
[0098] 其中,所述计算聊天消息数的权重具体计算公式可表达为:
[0099] message_num_weight=q+min(message_num/r,s);
[0100] 其中,参数q为具体常数,可根据需要进行设定,参数r为设定的阈值,参数s的含义为具体常数,可根据需要进行设定。
[0101] 作为一个具体的例子:
[0102] message_num_weight=1+min(message_num/100,1);其中,message_num_weight为聊天消息数的权重,message_num为聊天消息总数目,参数q、r、s分别为1、100、1。当前进行搜索的用户与联系人的聊天消息数目也是一个衡量相关性的因子,在其他条件相同情况下,具有聊天消息的,比不具有聊天消息的排序靠前;聊天消息数目多的,比聊天消息数目少的排序靠前;当聊天消息数目都很多时,可以认为得分相同。因此,通过聊天消息数目计算聊天消息数的权重,当聊天消息数目不超过某个阈值r(如100条)时,用一个线性公式拟合;当大于阈值r(如100条)时,对聊天消息数的权重取预设的最大值。
[0103] 在其中一个实施例中,根据所述字段中信息计算点击率的权重包括:获取所述初始检索结果的用户点击数;根据所述用户点击数,向点击率的权重赋值;其中,点击率的权重与所述用户点击数成正比。当前进行搜索的用户对结果的点击,也常常反应初始检索结果的好坏。对于高频点击的初始检索结果,调高所述初始检索结果权值,在排序时优先展示。初始检索结果的点击热度可以通过实时计算,例如在某一个时间段,某个热门的人被点击次数多,就能够立即排到前面。目前初始检索结果点击次数记录在数据库,可以通过实时扫描初始检索结果点击次数,计算每个初始检索结果的排名,赋予与排名等比例的权重。
[0104] 在其中一个实施例中,根据所述字段中信息计算所述用户关联程度的权重包括:计算所述初始检索结果与所述当前进行搜索的用户共同联系人数目、共同部门特征数、共同办公地点特征数和共同个人标签数;根据所述共同联系人数目、共同部门特征数、共同办公地点特征数、共同个人标签数,计算用户关联程度的权重。用户关联程度可以描述用户和初始检索结果对应的联系人的共同特征,比如共同联系过的人,共同个人标签等。如果与初始检索结果对应的联系人进行联系的人数越多,往往更接近搜索目标。通过计算用户关联程度的权重,可以优化用户的个性化搜索,能够优先呈现与用户有类似偏好的初始检索结果。优选的,通过离线的数据挖掘计算用户关联程度的权重。
[0105] 本实施例中,根据多个所述特征因子的权重,对每个所述初始检索结果进行融合计算,得到每个初始检索结果的综合权值包括:根据所述初始检索结果的每个特征因子分别获取偏移值和修正值;计算所述特征因子权重与与其对应的所述偏移值之积再与与其对应的所述修正值之和得到融合系数;将所述多个特征因子的融合系数相乘得到所述初始检索结果的综合权值。其中,所述偏移值和修正值可通过机器学习确定。
[0106] 其中,综合权值计算公式如下:
[0107] weight=(a1*text_weight+b1)*(a2*update_time_weight+b2)*(a3*es_score+b3)*(a4*department_weight+b4)*(a5*static_weight+b5)*(a6*message_num_weight+b6)*(a7*click_rate+b7)*(a8*user_relevant+b8);其中,weight表示综合权值,text_weight表示文本相似度的权重,update_time_weight表示聊天更新时间的权重,es_score表示初始召回搜索引擎分数的权重,department_weight表示部门相近度的权重,static_weight表示联系人客观重要度的权重,message_num_weight表示聊天消息数的权重,click_rate表示点击率的权重,user_relevant表示用户关联程度的权重。如式中,每个括号内为一个融合系数的计算,text_weight表示文本相似度的权重,a1为偏移值,b1为修正值,a1*text_weight+b1计算得到第一融合系数;update_time_weight表示聊天更新时间的权重,a2为偏移值,b2为修正值,a2*update_time_weight+b2计算得到第二融合系数;多个融合系数相乘得到初始检索结果的综合权值。式中,a1、a2、a3、a4、a5、a6、a7、a8均为偏移值,b1、b2、b3、b4、b5、b6、b7、b8均为修正值。
[0108] 应该理解的是,虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
[0109] 在一个实施例中,如图4所示,提供了一种搜索排序装置400,包括:初始检索结果提取模块401、特征因子提取模块402、权值计算模块403和排序模块404,其中:
[0110] 初始检索结果提取模块401,获取搜索关键词,确定与所述关键词匹配的多个初始检索结果。
[0111] 其中,搜索关键词为用户在使用搜索引擎查找相关信息时输入的字、词、符号等输入信息。本实施例中栏目包括联系人栏、群聊栏、消息栏。
[0112] 具体地,在终端输入搜索关键词,终端获取用户输入的搜素关键词发送至服务器。
[0113] 特征因子提取模块402,获取每个所述初始检索结果相关的多个特征因子及每个所述特征因子的权重。
[0114] 其中,初始检索结果为与搜索关键词所匹配的文本文档;从初始检索结果中提取多个特征因子,根据文本文档提取与关键词相关的一些信息。作为较佳的一个实施方式,多个特征因子包括:文本相似度、聊天更新时间、初始召回搜索引擎分数、部门相近度、联系人客观重要度、聊天消息数、点击率、用户关联程度一种或多种。在本实施例中,每个栏目的初始检索结果的特征因子可以相同也可以不同。
[0115] 权值计算模块403,根据多个所述特征因子的权重,对每个所述初始检索结果进行融合计算,得到每个初始检索结果的综合权值。
[0116] 其中,每个初始检索结果包括多个特征因子,利用多个特征因子的权重进行融合计算每个初始检索结果的权值。
[0117] 排序模块404,用于根据所述权值的大小对所述多个栏目的初始检索结果进行综合排序。
[0118] 其中,进行综合排序时,可以依据权值从大到小来进行排序,也可以依据权值从小到大来进行排序。采用此种技术方案不依据栏目来区分排序方式,而是根据权值来进行排序,实现快速查找到相关信息。
[0119] 其中,初始检索结果针对的对象是联系人或群。每条初始检索结果包含的字段包括:对象类型、对象状态、对象名称、初始召回搜索引擎分数、聊天更新时间、最近一条消息位置、对象拼音名、对象英文名、所在部门。其中,对象类型包括聊天应用、邮件,对象状态包括是否注册、是否离职。
[0120] 上述搜素排序装置,从多个栏目来获取初始检索结果,保证所获取的信息更加全面,在企业沟通工具中,栏目会包括多种,如果漏掉其中某个栏目可能会导致搜索失败;再根据初始检索结果来进行权值计算,实现统一的排序标准,对综合排序提供了基础;最后根据权值进行综合排序能够方便用户快速查找到相关信息,简化了操作提高了查找效率。
[0121] 关于搜索排序装置的具体限定可以参见上文中对于搜索排序方法的限定,在此不再赘述。上述搜索排序装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0122] 在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储文本数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种搜索排序方法。
[0123] 本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0124] 在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取搜索关键词,确定与所述关键词匹配的多个初始检索结果;获取每个所述初始检索结果相关的多个特征因子及每个所述特征因子的权重;根据多个所述特征因子的权重,对每个所述初始检索结果进行融合计算,得到每个初始检索结果的综合权值;根据所述综合权值对所述多个初始检索结果进行排序。
[0125] 在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取搜索关键词,确定与所述关键词匹配的多个初始检索结果;获取每个所述初始检索结果相关的多个特征因子及每个所述特征因子的权重;根据多个所述特征因子的权重,对每个所述初始检索结果进行融合计算,得到每个初始检索结果的综合权值;根据所述综合权值对所述多个初始检索结果进行排序。
[0126] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
[0127] 以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0128] 以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈