首页 / 专利库 / 人工智能 / 人工智能 / 机器学习 / 模式识别 / 用户轨迹相似度判断方法和相关装置

用户轨迹相似度判断方法和相关装置

阅读:1033发布:2020-05-20

专利汇可以提供用户轨迹相似度判断方法和相关装置专利检索,专利查询,专利分析的服务。并且本 发明 实施例 公开了一种用户轨迹相似度判断方法、相应装置、计算机设备和计算机存储介质,涉及网络安全技术领域。该用户轨迹相似度判断方法包括:确定两个用户带有时间顺序的路径;确定两个用户的最长公共子路径;根据两个用户的最长公共子路径中每个对应相邻空间的时间重叠度,和/或,最长公共子路径所包含的空间 位置 个数,和/或,最长公共子路径的个数,确定两个用户的轨迹相似度。本发明将两个用户的路径以 模式识别 的思想转换为空间位置的时间序列,以时间区间 覆盖 的方法来取代时间 阈值 ,能准确得到用户轨迹相似度,利用本方法,若从单个可疑分子 角 度入手,能快速找到与之相似的可疑团伙,达到从 单体 用户画像到群体用户画像的转变。,下面是用户轨迹相似度判断方法和相关装置专利的具体信息内容。

1.一种用户轨迹相似度判断方法,包括:
确定两个用户带有时间顺序的路径,所述路径包含停留的所有空间位置信息和停留于各空间位置的时间段信息;
确定所述两个用户的公共子路径,所述两个用户的公共子路径所包含的空间位置相同,且停留时间顺序一致,将空间路径最长的公共子路径确定为最长公共子路径;
根据所述两个用户的最长公共子路径中每个对应相邻空间的时间重叠度,和/或,所述最长公共子路径所包含的空间位置个数,和/或,所述最长公共子路径的个数,确定所述两个用户的轨迹相似度。
2.如权利要求1所述的用户轨迹相似度判断方法,其特征在于,所述确定所述两个用户的公共子路径之前,还包括:
针对每个用户,若连续停留在至少两个相同的空间位置,则将所述至少两个相同的空间位置更新为一个空间位置,将所述空间位置的时间更新为连续停留时间,以对所述每个用户的路径进行简化。
3.如权利要求2所述的用户轨迹相似度判断方法,其特征在于,所述确定所述两个用户的轨迹相似度,包括:
根据所述两个用户的最长公共子路径中每个对应相邻空间的时间重叠度确定所述两个用户的轨迹相似度,所述对应相邻空间的时间重叠度为:在第一用户的相邻空间间隔时间段与第二用户的相邻时间间隔段中,相互重叠的时间段与总间隔的时间段之间的比值,其中所述第一用户或所述第二用户的相邻空间间隔时间段为每个用户离开所述相邻空间的首空间位置的时间与进入所述相邻空间的尾空间位置的时间所构成的间隔时间段。
4.如权利要求3所述的用户轨迹相似度判断方法,其特征在于,所述确定所述两个用户的轨迹相似度,包括:
根据公式 计算所述两个用户的相似度,其中,|P|为
用户P的简化路径所包含的空间位置个数,|Q|为用户Q的简化路径所包含的空间位置个数,|lcs(P,Q)|为用户P与用户Q的最长公共子路径lcs(P,Q)所包含的空间位置个数,M为用户P与用户Q中所包含的所有最长公共子路径的集合,card(M)为集合M中最长公共子路径的个数,tof(S)为集合M中最长公共子路径S的所有相邻空间的时间重叠度的均值。
5.一种用户轨迹相似度判断装置,包括:
用户路径确定模,用于确定两个用户带有时间顺序的路径,所述路径包含停留的所有空间位置信息和停留于各空间位置的时间段信息;
最长公共子路径确定模块,用于确定所述两个用户的公共子路径,所述两个用户的公共子路径所包含的空间位置相同,且停留时间顺序一致,并将空间路径最长的公共子路径确定为最长公共子路径;
轨迹相似度确定模块,用于根据所述两个用户的最长公共子路径中每个对应相邻空间的时间重叠度,和/或,所述最长公共子路径所包含的空间位置个数,和/或,所述最长公共子路径的个数,确定所述两个用户的轨迹相似度。
6.如权利要求5所述的用户轨迹相似度判断装置,其特征在于,还包括:
用户路径简化模块,用于针对每个用户,若连续停留在至少两个相同的空间位置,则将所述至少两个相同的空间位置更新为一个空间位置,将所述空间位置的时间更新为连续停留时间,以对所述每个用户的路径进行简化。
7.如权利要求6所述的用户轨迹相似度判断装置,其特征在于,所述轨迹相似度确定模块具体用于根据所述两个用户的最长公共子路径中每个对应相邻空间的时间重叠度确定所述两个用户的轨迹相似度,所述对应相邻空间的时间重叠度为:在第一用户的相邻空间间隔时间段与第二用户的相邻时间间隔段中,相互重叠的时间段与总间隔的时间段之间的比值,其中所述第一用户或所述第二用户的相邻空间间隔时间段为每个用户离开所述相邻空间的首空间位置的时间与进入所述相邻空间的尾空间位置的时间所构成的间隔时间段。
8.如权利要求7所述的用户轨迹相似度判断装置,其特征在于,轨迹相似度确定模块具体用于根据公式 计算所述两个用户的相似度,其中,|P
|为用户P的简化路径所包含的空间位置个数,|Q|为用户Q的简化路径所包含的空间位置个数,|lcs(P,Q)|为用户P与用户Q的最长公共子路径lcs(P,Q)所包含的空间位置个数,M为用户P与用户Q中所包含的所有最长公共子路径的集合,card(M)为集合M中最长公共子路径的个数,tof(S)为集合M中最长公共子路径S的所有相邻空间的时间重叠度的均值。
9.一种计算机设备,包括:
处理器;以及
用于存放计算机程序存储器
其特征在于,所述处理器用于执行所述存储器上所存放的计算机程序,以实现权利要求1至4中任一项权利要求所述的用户轨迹相似度判断方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至4中任一项权利要求所述的用户轨迹相似度判断方法。

说明书全文

用户轨迹相似度判断方法和相关装置

技术领域

[0001] 本发明涉及网络安全技术领域,尤其涉及一种用户轨迹相似度判断方法、 装置、计算机设备和计算机存储程序。

背景技术

[0002] 随着社会经济的快速发展,团伙犯罪的发案率不断升高,相对于一般刑事 案件,团伙犯罪的社会危害性更大。另外从国家安全的度出发,识别发现可 疑组织、危险组织的成员以及他们的动向,对危险团伙进行实时监控,显得尤 为重要。现在,有关安全部大都是通过危险分子手机信息,来做启发式的监 控工作,相关机构和部门还采用手机用户画像手段,对海量手机日志数据进行 画像,从中找到危险可疑分子。但是,不管是启发式监控还是指定用户画像, 都只能从用户个体确定可疑分子,而由于全量数据庞大,人物属性数据缺失, 以及找可疑人物算法计算成本高等等原因,不可能对每名用户进行可疑性分析, 进而不能确定出可疑团伙。鉴于可疑团伙的犯罪特性,我们从典型的可疑人物 入手,以该可疑用户的路径相似性为媒介,从该可疑用户运动路径的角度找到 与之相似的其他用户,达到个体用户画像到群体用户画像的转变。目前对路径 相似性的刻画,大都分为路径时间相似和路径空间相似。因为用户的轨迹是具 有时效性的,即如果一个用户与另一个用户的路径在空间上是相似的,但是两 位用户发生这同一段路径的时间却隔了两年,那从情报的角度来说,两位用户 的相似性也不高,或者说他们为同伙的概率很低。
[0003] 现有的一种路径相似性确定方法为基于Fréchet distance距离的相似性算法。 该方法具体为在一段时间内的相同时刻,两者相隔的最长距离即为Fréchet distance距
离。距离越短,两者的轨迹越相似。然而,由于手机用户日志的数据 是离散的,用户每主动上传一次日志,才会对用户所在的地点进行一次解析, 总数据才会有更新,时间信息和空间信息都是不连续的,因而该方法对于计算Fréchet distance距离时要求轨迹数据比较连续,特别是在时间维度的持续性要求 并不能满足,以故不能找到最准确的Fréchet 
distance距离。另外,由于用户上 传日志的频率具有非周期性,有的用户每天上传日志,就能记录用户周期性的 点变化轨迹,但是有的用户有可能隔三差五传一次日志,因而会导致两个用户 的时刻不匹配,进而不能进行最大距离的刻画,无法实现Fréchet distance距离 的计算。此外,由于用户上传日志数据具有延时性,比如,用户在1号到达A 地,10号才上传日志,这样由于上传时间的偏差,可能会导致Fréchet distance 距离的增大,进而导致定义相似性时,不能精确定位相似性高的团体。总之, 该路径相似性判断方法准确度不高,且偶尔无法实现判断。
[0004] 现有的另一种路径相似性确定方法为基于点伴随的相似轨迹计算。该方法 具体为:给定一个时间间隔阈值,两人在该时间间隔阈值内,伴随点(同时出 现的点)越多,两者轨迹越相似。然而,一方面,时间间隔阈值靠人工定义, 本身的准确性就有待考证,而且由于用户手机日志这一特殊对象具有延时性, 上传日志的日期并不是该轨迹发生的日期,这样会给定义时间间隔阈值带来更 大的困难。另一方面,把相似轨迹定义为相近的时间出现在相同的地点,忽略 了轨迹具有顺序性这一特点。例如:甲的运行轨迹为A(二月1号)至B(二月 2号)至C(二月3号),而乙的运行轨迹为A(二月1号)至C(二月2号) 至B(二月3号),结合图可以明显看出,甲乙二人虽然都去过A、B、C三个 地区,但是路径是不同的。如果利用点伴随的轨迹相似性计算,把时间间隔阈 值设为两天内,就会得到甲乙在相似的时间内都出现在了相同的地点,路径相 似度是1。但是我们知道,甲和乙的路径还是有很大的偏差的,因此该路径判断 方法准确度不高。

发明内容

[0005] 本发明实施例的目的提供一种用户轨迹相似度判断方法、装置、计算机设 备和计算机存储程序,用以解决现有技术中所存在的上述技术问题。
[0006] 第一方面,本发明实施例提供了一种用户轨迹相似度判断方法。
[0007] 具体地,所述方法包括
[0008] 确定两个用户带有时间顺序的路径,所述路径包含停留的所有空间位置信 息和停留于各空间位置的时间段信息;
[0009] 确定所述两个用户的公共子路径,所述两个用户的公共子路径所包含的空 间位置相同,且停留时间顺序一致,将空间路径最长的公共子路径确定为最长 公共子路径;
[0010] 根据所述两个用户的最长公共子路径中每个对应相邻空间的时间重叠度, 和/或,所述最长公共子路径所包含的空间位置个数,和/或,最长公共子路径的 个数,确定所述两个用户的轨迹相似度。
[0011] 第二方面,本发明实施例提供了一种用户轨迹相似度判断装置。
[0012] 具体地,所述用户轨迹相似度判断装置,包括:
[0013] 用户路径确定模,用于确定两个用户带有时间顺序的路径,所述路径包 含停留的所有空间位置信息和停留于各空间位置的时间段信息;
[0014] 最长公共子路径确定模块,用于确定所述两个用户的公共子路径,所述两 个用户的公共子路径所包含的空间位置相同,且停留时间顺序一致,并将空间 路径最长的公共子路径确定为最长公共子路径;
[0015] 轨迹相似度确定模块,用于根据所述两个用户的最长公共子路径中每个对 应相邻空间的时间重叠度,和/或,所述最长公共子路径所包含的空间位置个数, 和/或,最长公共子路径的个数,确定所述两个用户的轨迹相似度。第三方面, 本发明实施例提供了一种计算机设备。
[0016] 具体地,所述计算机设备,包括:
[0017] 处理器;以及
[0018] 用于存放计算机程序存储器
[0019] 其中,所述处理器用于执行所述存储器上所存放的计算机程序,以实现第 一方面所述的用户轨迹相似度判断方法。
[0020] 第四方面,本发明实施例提供了一种计算机存储介质。
[0021] 具体地,所述计算机存储介质内存储有计算机程序,所述计算机程序被处 理器执行时实现第一方面所述的用户轨迹相似度判断方法。
[0022] 本发明用户轨迹相似度判断方法、装置、计算机设备和计算机存储程序, 将两个用户的路径,以模式识别的思想转换为空间位置的时间路径,找到最长 公共子路径,计算最长公共子路径的时间覆盖率,以时间区间覆盖的方法取代 时间阈值,计算得到的用户轨迹相似性非常准确。
[0023] 另外,在本方法实现的基础上,若从单个被分析出的可疑分子角度入手, 找到与之相似的可疑团伙,能达到从单体用户画像到群体用户画像的转变。由 于用户手机日志数据具有离散性、非周期性、延时性、有序性这些特点,本方 法从空间和时间角度入手根据最长公共子路径和时间覆盖率刻画出的用户间路 径的相似性,能准确找到与可疑人最相似的团体。
[0024] 本发明的这些方面或其他方面在以下实施例的描述中会更加简明易懂。附图说明
[0025] 为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需 要使用的附图作一简单的介绍,显而易见地,下面描述中的附图是本发明的一 些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还 可以根据这些附图获得其他的附图。
[0026] 图1为本发明方法实施例1的用户轨迹相似度判断方法的流程图
[0027] 图2为本发明方法实施例2的用户轨迹相似度判断方法的流程图;
[0028] 图3为本发明方法实施例3的用户轨迹相似度判断方法的流程图;
[0029] 图4为本发明装置实施例1的用户轨迹相似度判断装置的示意图;
[0030] 图5为本发明装置实施例2的用户轨迹相似度判断装置的示意图;。

具体实施方式

[0031] 为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施 例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所 描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发 明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所 有其他实施例,都应当属于本发明保护的范围。
[0032] 需要说明的是,本发明的说明书权利要求书及上述附图中的术语“第一”、 “第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。 应该理解,使用的数据在适当情况下可以互换,保证本发明实施例能够以除了 在此处图示或描述的方式以外的顺序实施。此外,术语“包括”和“具有”以 及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或 模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块, 而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它 步骤或模块。
[0033] 【方法实施例1】
[0034] 图1是根据本发明方法实施例1的用户轨迹相似度判断方法的流程图。参 见图1,在本实施例中,所述方法包括:
[0035] 步骤S11,确定两个用户带有时间顺序的路径,该路径包含停留的所有空间 位置信息和停留于各空间位置的时间段信息;
[0036] 具体地,可以通过直接或间接获取到地理位置的装置来获取用户带有时间 顺序的路径所包含的空间位置信息和停留时间短信息,例如利用具有定位信息 的app,或者利用用户在发送网络请求时所暴露的ip,或者wifi或者基站等。
[0037] 步骤S13,确定两个用户的公共子路径,两个用户的公共子路径所包含的空 间位置相同,且停留时间顺序一致,将空间路径最长的公共子路径确定为最长 公共子路径;
[0038] 例如,假设用户甲的带时间顺序的路径为A、B、C、D、E;用户乙的带时 间顺序的路径为F、A、E、C、D。则甲、乙都包含空间位置A、C、D、E,由 于{A、C、D、E}、{A、C、E}、{A、D、E}、{C、E}、{D、E}在甲中出现 的时间顺序与在乙中出现的顺序不同,而{A、C}、{A、D}、{C、D}、{A、E}、 {A、C、D}在甲中出现的时间顺序和乙相同,因此,甲和乙的公共子路径为{A、 C}、{A、D}、{A、E}、{A、C、D},其中{A、C、D}包含3个空间位置,空 间路径最长,为最长公共子路径。
[0039] 步骤S15,根据所述两个用户的最长公共子路径中每个对应相邻空间的时间 重叠度,和/或,最长公共子路径所包含的空间位置个数,和/或,最长公共子路 径的个数,确定该两个用户的轨迹相似度。
[0040] 由上述技术方案可知,本实施例将两个用户的路径,以模式识别的思想转 换为空间位置的时间路径,找到最长公共子路径,计算最长公共子路径的时间 覆盖率,以时间区间覆盖的方法取代时间阈值,计算得到的用户轨迹相似性非 常准确。在本方法实现的基础上,若从单个被分析出的可疑分子角度入手,找 到与之相似的可疑团伙,能达到从单体用户画像到群体用户画像的转变。
[0041] 由于用户手机日志数据具有离散性、非周期性、延时性、有序性这些特点, 本方法从空间和时间角度入手根据最长公共子路径和时间覆盖率刻画出的用户 间路径的相似性,能准确找到与可疑人最相似的团体。具体地,本实施例可以 通过用户的手机日志,从ip解析地址维度、app精准画像维度对典型用户进行 逐个分析。其中ip解析地址包括敏感轨迹探测、常驻地监控。而app精准画像 则是从敏感app入手,查看用户是否安装对公众安全不利的app,或者通过svm、 朴素贝叶斯模型对app列表进行预测,判断该用户的任务属性。
这样,可以在 小数量级中挑选出典型的可疑分子,从而找到该用户的行动轨迹,以方便后面 的团伙识别。
[0042] 进一步地,步骤S13之前,还包括:
[0043] 步骤S12,针对每个用户,若连续停留在至少两个相同的空间位置,则将该 至少两个相同的空间位置更新为一个空间位置,将空间位置的时间更新为连续 停留时间,以对所述每个用户的路径进行简化。
[0044] 例如,若用户甲的路径为[A(ti—ti),A(ti—tj),B(tk—tl)],则用户甲 的简化路径为[A(ti—tj),B(tk—tl)]。
[0045] 在本实施例中,将连续出现在同一空间位置的时间点转化为时间段的形式, 即把在同一空间位置上传的日志,取这段时间的起止点,作为该空间位置的停 留时间段。然后以停留时间段的先后顺序,对该用户出现的所有的地点进行排 序,得到简化路径。
[0046] 【方法实施例2】
[0047] 图2是根据本发明方法实施例2的用户轨迹相似度判断方法的流程图。参 见图2,在本实施例中,所述方法包括:
[0048] 步骤S21,确定两个用户带有时间顺序的路径,该路径包含停留的所有空间 位置信息和停留于各空间位置的时间段信息;
[0049] 步骤S22,针对某个用户,若连续停留在至少两个相同的空间位置,则将至 少两个相同的空间位置更新为一个空间位置,将空间位置的时间更新为连续停 留时间,以对某个用户的路径进行简化;
[0050] 步骤S23,确定两个用户的公共子路径,两个用户的公共子路径所包含的空 间位置相同,且停留时间顺序一致,将空间路径最长的公共子路径确定为最长 公共子路径;
[0051] 步骤S24,根据两个用户的最长公共子路径中每个对应相邻空间的时间重 叠度确定两个用户的轨迹相似度,时间重叠度为:在第一用户的相邻空间间隔 时间段与第二用户的相邻时间间隔段中,相互重叠的时间段与总间隔的时间段 之间的比值,其中第一用户或第二用户的相邻空间间隔时间段为每个用户离开 相邻空间的首空间位置的时间与进入相邻空间的尾空间位置的时间所构成的间 隔时间段。
[0052] 需要说明的是,对于相应的相邻空间,若两用户在该相邻空间上的间隔时 间段为相离关系,总间隔的时间段为,时间靠后的间隔时间段的末端时间点与 时间靠前的间隔时间段的起始时间点之间的差值;若两用户在该相邻空间上的 间隔时间段为相交关系,则,总间隔的时间段为时间靠后的间隔时间段的末端 时间点与时间靠前的间隔时间段的起始时间点之间的差值;若两用户在该相邻 空间上的间隔时间段为包含关系,则,总间隔的时间段为包含者所指示的间隔 时间段。必须提出的是,为相离关系时,则,“相互重叠时间段”为1,以做平 滑处理,最小化上传数据的间断性带来的影响。
[0053] 下面以实际的例子来说明本实施例。
[0054] 例如,甲出现的城市以及日期如下:
[0055] Id1=["西安!20170609","西安!20170611","南京!20170611","西安!20170614", "北京!20170701","西安!20170705","西安!20170708","西安!20170715"][0056] 因为只关注甲的路径信息,所以连续出现的同一个城市,只需要保留到达 该城市和离开该城市的时间,所以Id1的路径可以简化为:
[0057] P=[西安(20170609-20170611)、南京(20170611-20170611)、西安 (20170614-20170614)、北京(20170701-20170701)、西安(20170708-20170715)]
[0058] 乙出现的城市以及日期如下:
[0059] Id2=["南宁!20170501","西安!20170607","桂林!20170611","北京!20170705", "西安!20170707","西安!20170808","西安!20170716"]
[0060] 同理Id2的路径可以简化为:Q=[南宁(20170501-20170501)、西安 (20170607-20170607)、桂林(20170611-20170611)、北京(20170705-20170705)、 西安(20170707-
20170716)]
[0061] 这样,甲和乙的最长公共子路径为“西安、北京、西安”。该公共子路径所 包含的空间位置个数为3,包括两个相邻空间,一个为“西安、北京”,另一个 为“北京、西安”。
[0062] 在本实施例中,对于甲,P中北京之前有两个西安,这时选取是离北京最近 的西安,以突出路径的时效性。这样,提取出的带有时间的最长公共子路径为:
[0063] P’=[西安(20170614-20170614),北京(20170701-20170701),西安 (20170705-20170715)]
[0064] Q’=[西安(20170607-20170607),北京(20170705-20170705),西安 (20170707-20170716)]
[0065] 对于相应的相邻空间“西安、北京”,甲在相邻空间“西安、北京”上的间 隔时间段为甲离开西安的时间与进入北京的时间所构成的间隔时间段,为 [20170614-20170705],乙在相邻空间“西安、北京”上的间隔时间段为甲离开 西安的时间与进入北京的时间所构成的间隔时间段,为[20170607-20170705]。 则,甲和乙在相应的相邻空间“北京、西安”上的时间重叠度  其中dif_date(x-y)代表的是日期x与日 期y相隔的天数。
[0066] 对于相应的相邻空间“北京、西安”,甲在相邻空间“北京、西安”上的间 隔时间段为甲离开北京的时间与进入西安的时间所构成的间隔时间段,为 [20170705-20170715],乙在相邻空间“北京、西安”上的间隔时间段为甲离开 北京的时间与进入西安的时间所构成的间隔时间段,为[20170705-20170707]。 同理可以计算得到甲和乙在相应的相邻空间“北京、西安”上的时间重叠度, 进而这两个对应相邻空间的时间重叠度确定两个甲乙两的轨迹相似度。
[0067] 由上述技术方案可知,本实施例从路径的时间属性来考虑,根据相邻空间的 时间重叠度来确定用户的轨迹相似度,并对时间重叠度的计算进行了准确限定, 使得从时间重叠度角度确定的用户轨迹相似度准确度较高。
[0068] 【方法实施例3】
[0069] 图3是根据本发明方法实施例3的用户轨迹相似度判断方法的流程图。参 见图3,在本实施例中,所述方法包括:
[0070] 步骤S31,确定两个用户带有时间顺序的路径,该路径包含停留的所有空间 位置信息和停留于各空间位置的时间段信息;
[0071] 步骤S32,针对某个用户,若连续停留在至少两个相同的空间位置,则将至 少两个相同的空间位置更新为一个空间位置,将空间位置的时间更新为连续停 留时间,以对某个用户的路径进行简化;
[0072] 步骤S33,确定两个用户的公共子路径,两个用户的公共子路径所包含的空 间位置相同,且停留时间顺序一致,将空间路径最长的公共子路径确定为最长 公共子路径;
[0073] 步骤S34,根据最长公共子路径中每个对应相邻空间的时间重叠度、最长公 共子路径所包含的空间位置个数,最长公共子路径的个数、两用户简化路径所 包含的空间位置个数,计算两个用户的相似度,计算公式为  其中,|P|为用户P的简化路径所包含的空间位 置个数,|Q|为用户Q的简化路径所包含的空间位置个数,|lcs(P,Q)|为用户P与 用户Q的最长公共子路径lcs(P,Q)所包含的空间位置个数,M为用户P与用户Q 中所包含的所有最长公共子路径的集合,card(M)为集合M中最长公共子路径的 个数,tof(S)为集合M中最长公共子路径S的所有相邻空间的时间重叠度的均 值,其中,相邻空间的时间重叠度为:两个用户的最长公共子路径的对应相邻 空间之相间隔的时间段中,相互重叠时间段与总共间隔时间段之间的比值。
[0074] 下面结合实施例2中具体实例进行说明。如上所述,甲的简化路径为:P=[西 安(20170609-20170611)、南京(20170611-20170611)、西安(20170614-20170614)、 北京(20170701-20170701)、西安(20170708-20170715)],则,|P|=5;乙的简化路径 为:Q=[南宁(20170501-20170501)、西安(20170607-20170607)、桂林 (20170611-20170611)、北京(20170705-20170705)、西安(20170707-20170716)], 则|Q|=5;甲和乙的最长公共子路径仅有一个,为“西安、北京、西安”。故card(M)=1, 该公共子路径所包含的空间位置个数为
3,则|lcs(P,Q)|=3;于是结合实施例2中的 各个相邻空间的时间重叠度,根据步骤S33中的公式即可得到用户甲和用户乙 的路径相似度。
[0075] 【装置实施例1】
[0076] 图4是根据本发明装置实施例1的用户轨迹相似度判断装置的示意图。参 见图4,在本实施例中,该装置包括:
[0077] 用户路径确定模块41,用于确定两个用户带有时间顺序的路径,路径包含 停留的所有空间位置信息和停留于各空间位置的时间段信息;
[0078] 最长公共子路径确定模块43,用于确定两个用户的公共子路径,两个用户 的公共子路径所包含的空间位置相同,且停留时间顺序一致,并将空间路径最 长的公共子路径确定为最长公共子路径;
[0079] 轨迹相似度确定模块45,用于根据两个用户的最长公共子路径中每个对应 相邻空间的时间重叠度,和/或,最长公共子路径所包含的空间位置个数,和/或, 最长公共子路径的个数,确定两个用户的轨迹相似度。
[0080] 由上述技术方案可知,本实施例将两个用户的路径,以模式识别的思想转 换为空间位置的时间路径,找到最长公共子路径,计算最长公共子路径的时间 覆盖率,以时间区间覆盖的方法取代时间阈值,计算得到的用户轨迹相似性非 常准确。在本方法实现的基础上,若从单个被分析出的可疑分子角度入手,找 到与之相似的可疑团伙,能达到从单体用户画像到群体用户画像的转变。
[0081] 由于用户手机日志数据具有离散性、非周期性、延时性、有序性这些特点, 本方法从空间和时间角度入手根据最长公共子路径和时间覆盖率刻画出的用户 间路径的相似性,能准确找到与可疑人最相似的团体。具体地,本实施例可以 通过用户的手机日志,从ip解析地址维度、app精准画像维度对典型用户进行 逐个分析。其中ip解析地址包括敏感轨迹探测、常驻地监控。而app精准画像 则是从敏感app入手,查看用户是否安装对公众安全不利的app,或者通过svm、 朴素贝叶斯模型对app列表进行预测,判断该用户的任务属性。
这样,可以在 小数量级中挑选出典型的可疑分子,从而找到该用户的行动轨迹,以方便后面 的团伙识别。
[0082] 【装置实施例2】
[0083] 图5是根据本发明装置实施例2的用户轨迹相似度判断装置的示意图。参 见图5,在本实施例中,该装置包括:
[0084] 用户路径确定模块51,用于确定两个用户带有时间顺序的路径,路径包含 停留的所有空间位置信息和停留于各空间位置的时间段信息;
[0085] 用户路径简化模块52,用于针对某个用户,若连续停留在至少两个相同的 空间位置,则将至少两个相同的空间位置更新为一个空间位置,将空间位置的 时间更新为连续停留时间,以对某个用户的路径进行简化
[0086] 最长公共子路径确定模块53,用于确定两个用户的公共子路径,两个用户 的公共子路径所包含的空间位置相同,且停留时间顺序一致,并将空间路径最 长的公共子路径确定为最长公共子路径;
[0087] 轨迹相似度确定模块54,用于根据两个用户的最长公共子路径中每个对应 相邻空间的时间重叠度确定两个用户的轨迹相似度,对应相邻空间的时间重叠 度为:在第一用户的相邻空间间隔时间段与第二用户的相邻时间间隔段中,相 互重叠的时间段与总间隔的时间段之间的比值,其中第一用户或第二用户的相 邻空间间隔时间段为每个用户离开相邻空间的首空间位置的时间与进入相邻空 间的尾空间位置的时间所构成的间隔时间
段。
[0088] 进一步地,该轨迹相似度确定模块64具体用于根据公式计算两个用户的相似度,其中,|P|为用户P的简 化路径所包含的空间位置个数,|Q|为用户Q的简化路径所包含的空间位置个数,lcs(P,Q)|为用户P与用户Q的最长公共子路径lcs(P,Q)所包含的空间位置个数, M为用户P与用户Q中所包含的所有最长公共子路径的集合,
card(M)为集合M 中最长公共子路径的个数,tof(S)为集合M中最长公共子路径S的所有相邻空 间的时间重叠度的均值。
[0089] 本发明实施例又提供了一种计算机设备,包括处理器以及用于存放计算机 程序的存储器,该处理器用于执行存储器上所存放的计算机程序,以实现前文 提及的任一用户轨迹相似度判断方法,或者,以实现前文提及的任一用户轨迹 相似度判断装置所执行的处理。
[0090] 此外,本发明实施例再提供了一种计算机存储介质,该计算机存储介质内 存储有计算机程序,其中计算机程序被处理器执行时实现前文提及的任一用户 轨迹相似度判断方法,或者,实现前文提及的任一用户轨迹相似度判断装置所 执行的处理。
[0091] 上述存储介质和计算机设备,由于实现了上述用户轨迹相似度判断方法, 同理将两个用户的路径以模式识别的思想转换成为空间位置的时间路径,以时 间区间覆盖的方法取代时间阈值,计算得到的用户轨迹相似性非常准确。在本 方法实现的基础上,若从单个被分析出的可疑分子角度入手,找到与之相似的 可疑团伙,能达到从单体用户画像到群体用户画像的转变。
[0092] 上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0093] 在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例 中没有详述的部分,可以参见其他实施例的相关描述。本说明书中的各个实施 例均采用递进的方式描述,各个实施例之间相同及相似的部分互相参见即可, 每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置设备实 施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参 见方法实施例的部分说明即可。
[0094] 在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通 过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所 述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式, 例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽 略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连 接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其 它的形式。
[0095] 所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为 单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者 也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部 单元来实现本实施例方案的目的。
[0096] 另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中, 也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元 中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的 形式实现。
[0097] 所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或 使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明 的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或 部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质 中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络 设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质 包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM, Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的 介质。
[0098] 以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通 技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰, 这些改进和润饰也应视为本发明的保护范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈