首页 / 专利库 / 人工智能 / 位姿 / 位置 / 一种基于语义轨迹推断用户活动的方法

一种基于语义轨迹推断用户活动的方法

阅读:1发布:2020-05-20

专利汇可以提供一种基于语义轨迹推断用户活动的方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于语义轨迹推断用户活动的方法,先对提取的运营商数据进行过滤漂移数据、处理跳基站数据,确定用户的停驻点序列;再爬取地图API上的POI数据,确定用户的语义轨迹和停驻序列中距离每个停驻点sthreshold米的每个POI类别及该POI与停驻点之间的距离,进一步确定语义轨迹;将所有样本分为训练集和测试集,然后基于LightGBM模型预测出用户每个停驻点的活动类型;本发明通过过滤漂移数据以及处理跳基站数据的方法,得到了用户的停驻点序列,保障了个体轨迹的精确度和有效性;有助于把握人民的活动趋势,更好地明确 基础 设施的建设和 城市规划 ,将停驻点序列和POI数据结合提取的特征同时又在地理 位置 的相关研究中被证明与轨迹有稳健的相关性。,下面是一种基于语义轨迹推断用户活动的方法专利的具体信息内容。

1.一种基于语义轨迹推断用户活动的方法,其特征在于,包括以下步骤:
S101,提取运营商数据,对所述运营商数据进行过滤漂移数据、处理跳基站数据,确定用户的停驻点序列;
S102,爬取地图API上的POI数据,根据所述POI数据以及S101所得停驻点序列确定用户的语义轨迹;确定S101所得停驻序列中距离每个停驻点sthreshold米的每个POI类别及该POI与停驻点之间的距离,由用户的停驻点以及距离停驻点sthreshold米的POI信息确定语义轨迹;
S103,将所有样本分为训练集和测试集,并从样本提取判断用户活动类型的特征,将所述判断用户活动类型的特征作为LightGBM模型的特征,将活动类型作为LightGBM模型的标签,在训练集上训练LightGBM模型;
S104,基于S013所述测试集,将用户活动类型的特征作为经过S103训练好的LightGBM模型的特征,预测出用户每个停驻点的活动类型。
2.根据权利要求1所述的基于语义轨迹推断用户活动的方法,其特征在于,停驻点数据包括开始时间、结束时间、停驻点时长、停驻点经度以及停驻点纬度。
3.根据权利要求1所述的基于语义轨迹推断用户活动的方法,其特征在于,所述过滤漂移数据,具体操作如下:
将原始数据整理为按开始时间为顺序的序列,所述序列中包括时间和位置信息;
求序列中相邻两个元素的速度v;
设置速度阈值为vthreshold米每秒,过滤速度v大于速度阈值的第二条数据,得到预处理后的数据。
4.根据权利要求1所述的基于语义轨迹推断用户活动的方法,其特征在于,所述处理跳基站数据为根据运营商基站实际分布特点,设置空间约束的漫游距离阈值以及时间约束的停留时间阈值。
5.根据权利要求1所述的基于语义轨迹推断用户活动的方法,其特征在于,两点之间的距离可由两点的实际经纬度直接计算,计算式如下:
式中:DA→B表示两个位置A和位置B之间的距离;R表示地球的半径;latB,latA分别表示位置B和位置A的纬度值;lonB,lonA分别表示位置B和位置A的经度值;A和B分别是停驻点以及POI。
6.根据权利要求1所述的基于语义轨迹推断用户活动的方法,其特征在于,所述语义轨迹为一种基于停驻点和POI数据的多元组形式的序列,多元组形式为:
表示用户u的第i条语
义轨迹点,其中, 表示第i条语义轨迹点的开始时间, 表示第i条语义
轨迹点的结束时间, 表示第i条语义轨迹点的停驻时长, 表示第i条语义轨迹点所在位置的纬度, 表示第i条语义轨迹点所在位置的经度; 表示第i条语义轨迹点附近sthreshold米内每个POI类别及与停驻点的距离。
7.根据权利要求1所述的基于语义轨迹推断用户活动的方法,其特征在于,根据所爬取地图API上的POI数据,将用户活动分为家居、工作、娱乐、餐饮以及教育四大类别。
8.根据权利要求1所述的基于语义轨迹推断用户活动的方法,其特征在于,POI数据包括POI类别,POI位置的经度以及POI位置的纬度;其中POI类别有:购物服务、餐饮服务、生活服务、室内设施、通行设施、住宿服务、医疗保健服务、地名地址信息、交通设施服务、公司企业、商务住宅、科教文化服务、政府机关和社会团体、金融保险服务、体育休闲服务、公共设施、景名胜、道路附属设施以及汽车摩托车销售和维修。
9.根据权利要求1所述的基于语义轨迹推断用户活动的方法,其特征在于,判断用户活动类型的特征包括用户性别和年龄,还包括从所述用户的语义轨迹中提取的停驻点开始时间、停驻点时长以及POI特征。
10.根据权利要求9所述的基于语义轨迹推断用户活动的方法,其特征在于,所述POI特征是根据距离来求权重,根据距离的远近给予不同的权重,其中,POI距离停驻点距离越近,权重越大,POI特征计算公式如下:
式中,αj代表给予第j个POI的权重,distancej代表第j个POI与停驻点之间的距离。

说明书全文

一种基于语义轨迹推断用户活动的方法

技术领域

[0001] 本发明属于地理位置技术领域,具体涉及一种基于语义轨迹推断用户活动的方法,尤其是一种确定运营商用户的语义轨迹从而基于语义轨迹推断用户活动的方法。

背景技术

[0002] 随着信息技术的快速发展,移动运营商的业务不断普及,运营商在社会发展中承担了重要的任务。通常而言,运营商采用手机号码作为用户的标识,以此进行相关数据的分析和应用。在蜂窝移动通讯技术日益成熟的当下,运营商数据可以在保障用户个人隐私的基础上,收集大量的用户数据。典型的数据包括位置信息、通话短信和流量使用数据,这些数据对把握用户画像和描述用户行为都有着重要的意义。处理好运营商数据,不仅可以为企业提供更好的经济效益,也有助于政府把握人民的活动趋势,更好地明确基础设施的建设和城市规划
[0003] 轨迹数据是典型的带有时空属性的大数据,一直都受到广泛的研究和商业关注。有关轨迹数据的研究包括轨迹的停驻点识别和时空特征;运营商数据包含大量的人类轨迹信息,这些信息可以挖掘语义轨迹从而推断用户活动;当前有关轨迹语义的研究大多停留在轨迹的特征刻画和简单的语义标注,没有进一步推断用户的活动;因此,提供一种基于运营商数据描述语义轨迹并推断用户活动的方法是十分重要的。

发明内容

[0004] 为了解决现有技术中存在的问题,本发明提供一种基于语义轨迹推断用户活动的方法,为了实现上述目的,本发明采用的技术方案是,一种基于语义轨迹推断用户活动的方法,包括以下步骤:
[0005] S101,提取运营商数据,对所述运营商数据进行过滤漂移数据、处理跳基站数据,确定用户的停驻点序列;
[0006] S102,爬取地图API上的POI数据,根据所述POI数据以及S101所得停驻点序列确定用户的语义轨迹;确定S101所得停驻序列中距离每个停驻点sthreshold米的每个POI类别及该POI与停驻点之间的距离,由用户的停驻点以及距离停驻点sthreshold米的POI信息确定语义轨迹;
[0007] S103,将所有样本分为训练集和测试集,并从样本提取判断用户活动类型的特征,将所述判断用户活动类型的特征作为LightGBM模型的特征,将活动类型作为LightGBM模型的标签,在训练集上训练LightGBM模型;
[0008] S104,基于S013所述测试集,将用户活动类型的特征作为经过S103训练好的LightGBM模型的特征,预测出用户每个停驻点的活动类型。
[0009] 停驻点数据包括开始时间、结束时间、停驻点时长、停驻点经度以及停驻点纬度。
[0010] 所述过滤漂移数据,具体操作如下:
[0011] 将原始数据整理为按开始时间为顺序的序列,所述序列中包括时间和位置信息;
[0012] 求序列中相邻两个元素的速度v;
[0013] 设置速度阈值为vthreshold米每秒,过滤速度v大于速度阈值的第二条数据,得到预处理后的数据。
[0014] 所述处理跳基站数据为根据运营商基站实际分布特点,设置空间约束的漫游距离阈值以及时间约束的停留时间阈值。
[0015] 两点之间的距离可由两点的实际经纬度直接计算,计算式如下:
[0016]
[0017] 式中:DA→B表示两个位置A和位置B之间的距离;R表示地球的半径;latB,latA分别表示位置B和位置A的纬度值;lonB,lonA分别表示位置B和位置A的经度值;A和B分别是停驻点以及POI。
[0018] 所述语义轨迹为一种基于停驻点和POI数据的多元组形式的序列,多元组形式为:
[0019] 表示用户u的第i条语义轨迹点,其中, 表示第i条语义轨迹点的开始时间, 表示第i条
语义轨迹点的结束时间, 表示第i条语义轨迹点的停驻时长, 表示第i条语义轨迹点所在位置的纬度, 表示第i条语义轨迹点所在位置的经度; 表示第i条语义轨迹点附近sthreshold米内每个POI类别及与停驻点的距离。
[0020] 根据所爬取地图API上的POI数据,将用户活动分为家居、工作、娱乐、餐饮以及教育四大类别。
[0021] POI数据包括POI类别,POI位置的经度以及POI位置的纬度;其中POI类别有:购物服务、餐饮服务、生活服务、室内设施、通行设施、住宿服务、医疗保健服务、地名地址信息、交通设施服务、公司企业、商务住宅、科教文化服务、政府机关和社会团体、金融保险服务、体育休闲服务、公共设施、景名胜、道路附属设施以及汽车摩托车销售和维修。
[0022] 判断用户活动类型的特征包括用户性别和年龄,还包括从所述用户的语义轨迹中提取的停驻点开始时间、停驻点时长以及POI特征。
[0023] 所述POI特征是根据距离来求权重,根据距离的远近给予不同的权重,其中,POI距离停驻点距离越近,权重越大,POI特征计算公式如下:
[0024]
[0025] 式中,αj代表给予第j个POI的权重,distancej代表第j个POI与停驻点之间的距离。
[0026] 与现有技术相比,本发明至少具有以下有益效果:通过对运营商大数据出现的“基站漂移”现象和基站定位精度问题,本发明通过过滤漂移数据以及处理跳基站数据的方法,得到了用户的停驻点序列,该方法保障了个体轨迹的精确度和有效性;根据本发明所述方法处理后得到的停驻点序列以及爬取的POI信息确定用户的语义轨迹;基于所述用户的语义轨迹序列,提取用户活动类型的特征,特征包括用户性别和年龄,还包括从用户的语义轨迹中提取的停驻点开始时间、停驻点时长以及POI特征,将用户活动类型的特征以及对应的用户活动作为LightGBM模型的特征以及标签,通过训练集训练LightGBM模型,通过训练好的模型去预测用户的活动类型,最终实验结果证明准确率较高;本发明中的停驻点提取算法有助于掌握人民的活动趋势,更好地明确基础设施的建设和城市规划;本发明用到的运营商数据包含大量的人类轨迹信息,对于研究地理位置领域具有一定的优越性;将停驻点序列和POI数据结合提取的特征在运营商大数据的相关研究中被证明了科学性,同时又在地理位置的相关研究中被证明与轨迹有稳健的相关性。
[0027] 进一步的,本发明中所述的POI特征是根据距离来求权重,因为距离用户停驻点最近的POI数据所代表的信息点最有可能是用户真实访问的地方,所以该特征是对不同距离的POI在总体的POI中的作用进行区别对待,考虑了与停驻点不同距离的POI在整体POI中的相对重要程度。附图说明
[0028] 图1为本发明所述方法的流程图
[0029] 图2为各个活动类型的准确率。

具体实施方式

[0030] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0031] 参考图1,一种基于语义轨迹推断用户活动的方法,包括以下步骤:
[0032] S101,获取用户的运营商数据,对所述运营商数据进行过滤漂移数据、处理跳基站数据,确定用户的停驻点序列;获取用户的运营商数据,从所述运营商数据中提取用户的时间、所在位置经度以及所在位置纬度数据;对数据进行过滤漂移数据,基站漂移现象往往是在极短时间内完成,而本身由于漂移点距离实际轨迹距离较远,从速度上看,漂移点的发生必然伴随着异常的速度值;设置速度阈值vthreshold米每秒,过滤掉步骤1所述运营商数据序列中相邻两个记录中速度大于vthreshold的第二条数据记录;
[0033] 再处理跳基站数据,具体的,用户每条记录数据中对应的基站位置与用户的实际位置之间存在着漫游距离,因此跳基站现象经常发生;为了更精确地得到用户的实际位置,设置空间约束的漫游距离阈值s和时间约束的停留时间阈值t,从而提取出用户实际的停驻点序列,停驻点是指在一个位置持续停留超过实际阈值的轨迹点,处理好的停驻数据开始时间、结束时间、停驻时长、所在位置经度以及所在位置纬度字段信息;
[0034] S102,爬取地图API上的POI数据,根据所述POI数据以及S101所得停驻点序列确定用户的语义轨迹;确定S101所得停驻序列中距离每个停驻点sthreshold米的每个POI类别及该POI与停驻点之间的距离,由用户的停驻点以及距离停驻点sthreshold米的POI信息确定语义轨迹;
[0035] 爬取地图API上X市所有的POI数据,POI数据有名称、兴趣点类型、兴趣点类型编码、地址、经纬度、该POI网址、该POI电话、POI所在省份名称等,只保留POI名称、POI类型、该POI所在位置的经度、纬度信息,根据POI类型确定用户的活动类型;
[0036] 其中,POI类型有购物服务、餐饮服务、生活服务、室内设施、通行设施、住宿服务、医疗保健服务、地名地址信息、交通设施服务、公司企业、商务住宅、科教文化服务、政府机关及社会团体、金融保险服务、体育休闲服务、公共设施、风景名胜、道路附属设施、汽车摩托车销售及维修信息;由以上POI类型将用户活动类型分为家居、工作、娱乐、餐饮、教育;
[0037] 确定停驻序列中每个停驻点附近sthreshold米的每个POI类别及该POI与停驻点之间的距离;其中,两点之间的距离可由两点的实际经纬度直接计算,公式如下:
[0038]
[0039] 式中:DA→B表示两个位置A和B之间的距离(单位是米);R表示地球的半径(6371393.0米);latB,latA分别表示位置B和位置A的纬度值;lonB,lonA分别表示位置B和位置A的经度值;这里的A和B分别是停驻点以及POI;
[0040] 由用户的停驻点以及距离停驻点sthreshold米的POI信息确定语义轨迹,语义轨迹为一种多元组形式的序列,多元组形式的序列为表示用户u的第i条语义轨
迹点,其中, 表示第i条语义轨迹点的开始时间, 表示第i条语义轨迹
点的结束时间, 表示第i条语义轨迹点的停驻时长, 表示第i条语义轨迹点所在位置的纬度, 表示第i条语义轨迹点所在位置的经度; 表示第i条语义轨迹点附近sthreshold米内每个POI类别及POI与停驻点的距离, 中的每个元素为一个二元组,二元组形式为,Typepoi表示poi的类型,Distancepoi表示poi与停驻点之间的距离;
[0041] S103,提取用户的个人特征以及用户的语义特征;其中,个人特征包括性别和年龄,语义特征包括语义轨迹中的停驻点开始时间、停驻点时长和POI特征;根据提取的特征判断用户在每个停驻点上的活动类型,并将判断特征作为LightGBM模型的输入,将活动类型作为模型的输出,训练模型;
[0042] POI特征的计算方法为:针对于每种类别的POI,根据距离设置权重系数,距离停驻点越近,权重系数越大;某POI类别计算公式为 其中n为在[0,sthreshold]内均匀分的段数,αi为第i段的权重系数,numi为第i段的某POI类别个数;
[0043] S104,将判断用户活动类型的特征作为经过S102训练的LightGBM模型输入,识别用户每个停驻点的活动类型;获取用户的个人特征以及语义特征信息作为模型的输入,自动识别用户的活动类型。
[0044] 实施例一
[0045] 本实施例适用于如何高效且准确地识别出用户活动类型的情况该方法具体包括:
[0046] 步骤1,为考虑样本数据量问题,提取X市某用户一个月的运营商数据,所述运营商数据包括用户在每个基站的开始时间、结束时间、用户所在位置的经度以及所在位置的纬度信息;首先过滤漂移数据,设置速度阈值vthreshold为100m/s;过滤掉异常的漂移数据,再处理跳基站数据,根据合作运营商基站在实际中的分布特点,设置空间约束的漫游距离为200m,时间约束的停留时间设置为10min,下表列出X市某用户的一个月部分停驻数据,考虑到隐私原因,将经纬度处理为LocationA、LocationB、LocationC…列入表中,同样的经纬度处理后的标识也相同;
[0047] 表1某用户一个月部分停驻数据
[0048]
[0049]
[0050] S102、用python爬取高德地图API上X市所有的POI数据,保留POI名称、POI类型以及所述POI所在位置的经纬度信息;再确定停驻点序列中停驻点LocationA、LocationB、LocationC、LocationD...LocationX、LocationY周围500米的所有POI类别以及所述POI与停驻点之间的距离,以LocationA、LocationB、LocationX为例,LocationA附近500米的POI类型有商务住宅、住宿服务以及生活服务,LocationB附近500米的POI类型有交通设施服务和公司企业,LocationX附近500米的POI类型有购物服务、餐饮服务以及生活服务;由停驻点以及停驻点500米内的POI类别信息确定用户的语义轨迹以2018/11/01日期下的LocationB为例,其语义轨迹为<2018-11-0108:41:29,2018-11-01 11:30:52,2:49:23,lat21,lon21,[<公司企业,156m>,<公司企业,358m>,<交通设施服务,495m>]>;
[0051] S103、特征包括用户特征以及语义特征,用户特征为女,35岁;语义特征中,POI特征的计算方法为:将n设置为5,5段距离分别为[0,100)、[100,200)、[200,300)、[300,400)、[400,500),对αi,分别设置为1,0.8,0.6,0.4,0.2,以2018/11/01日期下的LocationB为例,其POI特征的计算公式如下:
[0052] featurepoi=公司企业=0.8*1+0.4*1=1.2
[0053] featurepoi=交通设施服务=0.2*1=0.2
[0054] 根据停驻点Location12的特征判断其活动类型为工作,将该用户一个月的特征数据以及活动类型数据,一共有270条数据,LightGBM与传统的算法相比具有更高的准确率且训练效率更快,采用LightGBM作为模型,将270条数据中的80%的数据用来训练集,20%用来做验证集,训练LightGBM模型结果如表2所示。
[0055] 表2 LightGBM模型结果
[0056]
[0057] 根据上表,可以得出各个活动类型的准确率,如图2所示,可以看出,准确率最高的是0.727,最低是0.636,所以,预测准确率具有很高的可信度。
[0058] S104,提取该用户2018年12月8日的数据,对某一停驻点,其开始时间为14:14:22,结束时间为17:44:17,停驻时长为3:29:55,其语义轨迹为<2018-12-08 14:14:22,2018-12-08 17:44:17,3:29:55,lat,lon,[<购物服务,75m>,<生活服务,463m>,<餐饮服务,285m>,<体育休闲服务,235>,<购物服务,251m>]>,POI特征的计算公式如下:
[0059] featurepoi=购物服务=1*1+0.6*1=1.6
[0060] featurepoi=生活服务=0.2*1=0.2
[0061] featurepoi=餐饮服务=0.6*1=0.6
[0062] featurepoi=体育休闲服务=0.6*1=0.6
[0063] 将这些特征输入训练好的LightGBM模型中,可以自动识别其活动类型为娱乐。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈