首页 / 专利库 / 多媒体工具与应用 / 媒体流 / 视频流 / 基于多特征融合的景区游玩轨迹预测系统

基于多特征融合的景区游玩轨迹预测系统

阅读:557发布:2020-05-11

专利汇可以提供基于多特征融合的景区游玩轨迹预测系统专利检索,专利查询,专利分析的服务。并且本 发明 涉及 大数据 挖掘技术领域,公开了基于多特征融合的景区游玩轨迹预测系统,包括 数据采集 、平台层、模型层和应用层,通过 人脸识别 技术识别出游客ID信息,关联出游客的画像信息,使用 网络爬虫 技术爬取景区的历史气象信息,形成气象特征库,并与其它特征结合,生成多维度的游览特征。当有游客进入某个景点时,系统根据当前游客特征,气象信息以及景区特征实时计算每个游客转移到下一个景点的概率,并实时计算出每个景区可能的游客数,对达到人流预警 阈值 的景区,向可能去这些景区的游客实行消息推送预警,并推荐到其他的景区,最终实现轨迹预测以及人流量预警,人流智能分流,提升景区管理服务 水 平,提升游客满意度。,下面是基于多特征融合的景区游玩轨迹预测系统专利的具体信息内容。

1.基于多特征融合的景区游玩轨迹预测系统,其特征在于,包括数据采集、平台层、模型层、应用层以及安全审计,其中,
数据采集:景区多点部署摄像头,摄像头采集视频流数据转换为图实时上传人脸识别系统,支付产品采集游客支付数据,支付产品采集人脸信息结构化与非结构化数据,爬虫服务器爬取景区历史气象数据。
平台层:搭建分布式集群服务器,存储海量的游客信息,支付信息,图像,视频等数据,并提供资源弹性调度Yarn管理,运用深度学习计算包,keras,openCv,搭建数据处理机器学习平台;
模型层:抽取,转换,加载平台层数据,综合各种数据源,构建五种类型特征:人物画像特征,景区天气特征,购买物品特征,人流倾向特征,景区位置特征;
应用层:接受用户兴趣参数,根据用户选择偏好,对游客景点预测,并进行游客景点推荐,对景区人流预警并作出景区分流,景区动态向客户端消息推送;
安全审计:对系统下的景区游玩活动进行检查验证,并进行独立的检查验证,作出相应的评价。
2.根据权利要求1所述的基于多特征融合的景区游玩轨迹预测系统,其特征在于,采集人物画像特征、景区气象特征、商品特征、人流倾向特征、景区位置特征5大类单独特征,进行特征组合 ,一维特征26种,二维特征组合 种 ,三维特征组合
种,采用二维以内组合特征作为原始特征进行景区轨迹的预测,
总共包含325+26=351种特征。
3.根据权利要求1所述的基于多特征融合的景区游玩轨迹预测系统,其特征在于,模型层的模型算法选择XGBoost,学习的目标函数包含训练误差和正则化两部分,对于练误差,公式如下:
obj(θ)=L(θ)+Ω(θ)
其中L是损失函数,度量模型预测与真实值的误差,Ω(θ)是正则化函数。Ω是正则化项,度量模型的复杂度,避免过拟合,常用的正则化有L1和L2正则化。
4.根据权利要求1所述的基于多特征融合的景区游玩轨迹预测系统,其特征在于,特征选择是从海量维度的特征中选取表征明显的特征,通过关联分析和数据融合方法提取重要特征和融合相关性特征,相关系数的绝对值越大,相关性越强,相关系数越接近于1和-1,相关度越强,相关系数越接近于0,相关度越弱,数据相关性分析,皮尔逊系数公式如下:
其中,X,Y表示两个变量的数字向量。 表示X变量平均值,表示Y变量平均值。Xi表示X变量的第i个数字特征,Yi表示Y变量的第i个数字特征。
5.根据权利要求1所述的基于多特征融合的景区游玩轨迹预测系统,其特征在于,模型层的模型算法选择XGBoost,学习的目标函数包含训练误差和正则化两部分,对于训练误差,算法公式如下:
obj(θ)=L(θ)+Ω(θ)   (2)
其中L是损失函数,度量模型预测与真实值的误差,Ω(θ)是正则化函数,Ω是正则化项,度量模型的复杂度,避免过拟合,常用的正则化有L1和L2正则化。
6.根据权利要求3所述的基于多特征融合的景区游玩轨迹预测系统,其特征在于,损失函数采用SoftmaxLoss,公式如下:
其中,fj表示f向量的第j个元素。N表示训练数据的数量,log函数的括号里面的内容就是Softmax,就是属于各个类别的概率,efyi表示为全连接层的输出:
公式(4)中 表示第i个特征的权重,xi表示第i个特征。
上面这个式子就是权重向量W和特征向量x的内积,因此可以写成下面这样:
fj=||Wj||||xi||cos(θj)   (5)
公式(5)中Wj表示权重向量W,xi表示特征向量x,cos(θj)表示夹余弦,对于一般损失函数,XGBoost会使用泰勒展开的形式进而用到二阶导数,目标函数:
公式(6)中, 表示预测值与真实值的损失,ft(xi)表示特征xi全连接层
的输出,Ω(ft)表示正则化函数,C为常数,根据权利要求3所述的基于大数据景区游玩轨迹预测系统,其特征在于,对于正则化,重新定义每棵树,将树f拆分成树结构q和叶子权重部分w,结构函数q把输入映射到叶子的索引上,w给定每个索引号对应叶子的分数:
ft(x)=wq(x),w∈RT,q:Rd→{1,2,...,T}
当给定了树定义后,每颗树的复杂度可以定义为:
其中T为叶子的个数, 表示w的L2模平方。
7.基于多特征融合的景区游玩轨迹预测系统,其特征在于,包括如下步骤:
步骤一:通过人脸识别技术识别出游客ID信息,然后关联出游客的历史消费信息,行为偏好,游玩路线用户画像信息;
步骤二:对景区的历史气象信息使用网络爬虫进行爬取,保存到气象特征库;
步骤三:提取商家商品信息,最后,结合景区历史游览路线,生成多维度的游览特征;
步骤四:进行特征组合选择,通过线下训练模型,挑选符合验证条件的训练模型,加载到线上预测部分。
步骤五:线上部分预测,当有游客进入某个景点时,系统根据当前游客特征,气象信息以及景区特征实时计算每个游客转移到下一个景点的概率,并取最大概率值作为最可能的预测景区,并实时计算出每个景区可能的游客数;
步骤六:对达到人流预警阈值的景区,向可能去这些景区的游客实行消息推送预警,并推荐到其他的景区。

说明书全文

基于多特征融合的景区游玩轨迹预测系统

技术领域

[0001] 本发明涉及大数据挖掘技术领域,特别涉及基于多特征融合的景区游玩轨迹预测系统。

背景技术

[0002] 随着国内旅游需求的不断提升,各个景区节假日游客流量呈现爆发式增长,大规模的人流量爆发呈现集中式且无规律性发展。如何快速有效的预测游客游玩轨迹与景区人流量以及如何对游客流量进行有效引导,已经成为提升景区服务品质和提高游客满意度的重要研究方向。传统的游玩轨迹预测主要有以下几种方式。
[0003] 1.基于关联性的轨迹预测
[0004] 2.基于密度聚类的轨迹位置预测
[0005] 3.基于统计的轨迹位置预测
[0006] 基于关联性的轨迹预测考虑大部分游客的历史轨迹数据,选择支持度与置信度大于一定阈值的关联轨迹作为预测,无法实时动态的预测轨迹,对于一些新出现的景区无法预测轨迹,导致热景区越热门的现象,无法做到景区人流分流的作用。
[0007] 基于密度聚类的轨迹位置预测则是轨迹聚类研究主要关注物体的空间位置变化,时空聚类中时间等其他特征只是作为辅助信息或者没有使用。
[0008] 基于统计的轨迹位置预测从历史轨迹中发现有意义的位置,并结合停留时间提取人们花了一些时间进行一些活动的地点。存在以下问题:1,提取的结果由于只是统计结果,不适合变化较大的旅游路线。2,只统计高频的游客轨迹数据,不适合预测低频次游客的轨迹。
[0009] 针对以上背景技术存在的缺点与不足,发明了一种既可以预测低频游客轨迹又可以适合经常变化旅游路线的预测方法。

发明内容

[0010] 本发明的目的在于提供基于多特征融合的景区游玩轨迹预测系统,实现了基于多维特征不平衡样本下的景区游玩轨迹预测,并能实现并行运算,在保证准确率的同时提高算法运行速度,以解决上述背景技术中提出的问题。为实现上述目的,本发明提供如下具体的技术方案:
[0011] 基于多特征融合的景区游玩轨迹预测系统,包括数据采集、平台层、模型层、应用层以及安全审计,其中,
[0012] 数据采集:景区多点部署摄像头,摄像头采集视频流数据转换为图实时上传人脸识别系统,支付产品采集游客支付数据,支付产品采集人脸信息结构化与非结构化数据,爬虫服务器爬取景区历史气象数据。
[0013] 平台层:搭建分布式集群服务器,存储海量的游客信息,支付信息,图像,视频等数据,并提供资源弹性调度Yarn管理,运用深度学习计算包,keras,openCv,搭建数据处理机器学习平台;
[0014] 模型层:抽取,转换,加载平台层数据,综合各种数据源,构建五种类型特征:人物画像特征,景区气象特征,购买物品特征,人流倾向特征,景区位置特征;
[0015] 应用层:接受用户兴趣参数,根据用户选择偏好,对游客景点预测,并进行游客景点推荐,对景区人流预警并作出景区分流,景区动态向客户端消息推送;
[0016] 安全审计:对系统下的景区游玩活动进行检查验证,并进行独立的检查验证,作出相应的评价;
[0017] 进一步地,采集人物画像特征、景区气象特征、商品特征、人流倾向特征、景区位置特征5大类单独特征,进行特征组合,一维特征26种,二维特征组合 种,三维特征组合 种,采用二维以内组合特征作为原始特征进行景区轨迹的预测,总共包含325+26=351种特征。
[0018] 进一步地,模型层的模型算法选择XGboost,学习的目标函数包含训练误差和正则化两部分,对于训练误差,公式如下:
[0019] obj(θ)=L(θ)+Ω(θ)
[0020] 其中L是损失函数,度量模型预测与真实值的误差,Ω(θ)是正则化函数。Ω是正则化项,度量模型的复杂度,避免过拟合,常用的正则化有L1和L2正则化。
[0021] 进一步地,特征选择是从海量维度的特征中选取表征明显的特征,通过关联分析和数据融合方法提取重要特征和融合相关性特征,相关系数的绝对值越大,相关性越强,相关系数越接近于1和-1,相关度越强,相关系数越接近于0,相关度越弱,数据相关性分析,皮尔逊系数公式如下:
[0022]
[0023] 其中,X,Y表示两个变量的数字向量。 表示X变量平均值, 表示Y变量平均值。Xi表示X变量的第i个数字特征,Yi表示Y变量的第i个数字特征。
[0024] 进一步地,模型层的算法选择采用XGBoost,学习的目标函数包含训练误差和正则化两部分,对于训练误差,算法公式如下:
[0025] obj(θ)=L(θ)+Ω(θ)  (2)
[0026] 其中L是损失函数,度量模型预测与真实值的误差,Ω(θ)是正则化函数,Ω是正则化项,度量模型的复杂度,避免过拟合,常用的正则化有L1和L2正则化。
[0027] 进一步地,损失函数采用SoftmaxLoss,公式如下:
[0028]
[0029] 其中,fj表示f向量的第j个元素。N表示训练数据的数量,log函数的括号里面的内容就是softmax,就是属于各个类别的概率, 表示为全连接层的输出:
[0030]
[0031] 公式(4)中 表示第i个特征的权重,xi表示第i个特征。
[0032] 上面这个式子就是权重向量W和特征向量x的内积,因此可以写成下面这样:
[0033] fj=||Wj||||xi||cos(θj)  (5)
[0034] 公式(5)中Wj表示权重向量W,xi表示特征向量x,cos(θj)表示夹余弦,[0035] 对于一般损失函数,XGBoost会使用泰勒展开的形式进而用到二阶导数,目标函数:
[0036]
[0037] 公式(6)中, 表示预测值与真实值的损失,ft(xi)表示特征xi全连接层的输出,Ω(ft)表示正则化函数,C为常数,根据权利要求3所述的基于大数据景区游玩轨迹预测系统,其特征在于,对于正则化,重新定义每棵树,将树f拆分成树结构q和叶子权重部分w,结构函数q把输入映射到叶子的索引上,w给定每个索引号对应叶子的分数:
[0038] ft(x)=wq(x),w∈RT,q:Rd→{1,2,...,T}
[0039] 当给定了树定义后,每颗树的复杂度可以定义为:
[0040]
[0041] 其中T为叶子的个数, 表示w的L2模平方。
[0042] 基于大数据景区游玩轨迹预测系统的预测方法,包括如下步骤:
[0043] 步骤一:通过人脸识别技术识别出游客ID信息,然后关联出游客的历史消费信息,行为偏好,游玩路线用户画像信息;
[0044] 步骤二:对景区的历史气象信息使用网络爬虫进行爬取,保存到气象特征库;
[0045] 步骤三:提取商家商品信息,最后,结合景区历史游览路线,生成多维度的游览特征;
[0046] 步骤四:进行特征组合选择,通过线下训练模型,挑选符合验证条件的训练模型,加载到线上预测部分。
[0047] 步骤五:线上部分预测,当有游客进入某个景点时,系统根据当前游客特征,气象信息以及景区特征实时计算每个游客转移到下一个景点的概率,并取最大概率值作为最可能的预测景区,并实时计算出每个景区可能的游客数;
[0048] 步骤六:对达到人流预警阈值的景区,向可能去这些景区的游客实行消息推送预警,并推荐到其他的景区。
[0049] 与现有技术相比,本发明的有益效果是:
[0050] 本发明结合了游客特征,气象特征,商品特征,景区路线,景区地理位置等特征以及相互之间的影响组合,采用机器学习的方法,较全面,客观的分析了各个特征对轨迹的影响,同时本发明所采用的树结构预测方法能做到并行化,特别适合大数据量实时预测。因此,本发明解决了景区人流量季节性爆发,非季节性突然爆发情况;同时对冷门景点有较好的泛化作用,适用于景区轨迹预测与人流量预警等方面。附图说明
[0051] 图1为本发明的系统整体架构图;
[0052] 图2为本发明的人脸识别图。

具体实施方式

[0053] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0054] 根据图1-2,基于多特征融合的景区游玩轨迹预测系统,包括数据采集、平台层、模型层、应用层,其中:
[0055] 数据采集:景区多点部署摄像头,摄像头采集视频流数据转换为图帧实时上传人脸识别系统,支付产品采集游客支付数据,支付产品采集人脸信息结构化与非结构化数据,爬虫服务器爬取景区历史气象数据;
[0056] 平台层:搭建分布式集群服务器,存储海量的游客信息,支付信息,图像,视频等数据,并提供资源弹性调度Yarn管理,运用深度学习计算包,keras,openCv,搭建数据处理机器学习平台;
[0057] 模型层:抽取,转换,加载平台层数据,综合各种数据源,构建五种类型特征:人物画像特征,景区气象特征,购买物品特征,人流倾向特征,景区位置特征。
[0058] 详细特征如下:
[0059]
[0060]
[0061]
[0062] 采集人物画像特征、景区气象特征、商品特征、人流倾向特征、景区位置特征5大类单独特征,进行特征组合,一维特征26种,二维特征组合 种,三维特征组合种。本文采用二维以内组合特征作为原始特征进行景区轨迹的预测,总共包含325+26=351种特征,需要判断哪些是相关特征,哪些是不相关特征,因此引入特征选择,结合模型训练,预测游客进入下一景区的概率。
[0063] 特征选择是从海量维度的特征中选取表征明显的特征,通过关联分析和数据融合方法提取重要特征和融合相关性特征。
[0064] 数据相关性分析,皮尔逊系数公式如下:
[0065]
[0066] 公式(1)中X,Y表示两个变量的数字向量。 表示X变量平均值, 表示Y变量平均值。Xi表示X变量的第i个数字特征,Yi表示Y变量的第i个数字特征。
[0067] 相关系数的绝对值越大,相关性越强,相关系数越接近于1和-1,相关度越强,相关系数越接近于0,相关度越弱。
[0068] 皮尔逊计算矩阵:
[0069]
[0070] 根据皮尔逊相关系数法,提取系数得分最高的相关特征,提取特征示例如下:
[0071]特征组合 相关系数
性别-消费能 0.50
兴趣偏好-消费能力 0.35
性别-商品类别 0.33
年龄-商品类别 0.32
兴趣爱好-景区类别 0.315
年龄-景区类别 0.313
年龄-消费能力 0.31
… …
[0072] 选择皮尔逊相关系数大于0.001的特征组合,作为选择特征集合。
[0073] 针对每个景区人流量不同,有的景区之间可能是数百数量级,因此,存在分类不平衡问题。主要的解决方式有以下三种:
[0074] 1.减少热门景区的样本数量,使得数据平衡,再进一步分类,这种情况属[0075] 于“欠采样”;
[0076] 2.增加冷门景区的数据,再分类,称为“过采样”;
[0077] 3.混合采样,增加冷门景区的样本数并减少热门景区的样本数。
[0078] 本发明采用第3种混合采样的方式解决样本不平衡问题进行游玩轨迹预测,以解决热门景区越热门,冷门景区无人问津的问题。
[0079] 模型算法选择XGBoost。XGBoost用于监督学习问题(分类)。学习的目标函数包含两部分:训练误差和正则化。
[0080] obj(θ)=L(θ)+Ω(θ)  (2)
[0081] 其中,L是损失函数,度量模型预测与真实值的误差,Ω(θ)是正则化函数。Ω是正则化项,度量模型的复杂度,避免过拟合,常用的正则化有L1和L2正则函数。损失函数采用Softmax Loss,公式如下:
[0082]
[0083] 其中,fj表示f向量的第j个元素。N表示训练数据的数量,log函数的括号里面的内容就是softmax,就是属于各个类别的概率, 表示为全连接层的输出:
[0084]
[0085] 公式(4)中 表示第i个特征的权重,xi表示第i个特征。
[0086] 上面这个式子就是权重向量W和特征向量x的内积,因此可以写成下面这样:
[0087] fj=||Wj||||xi||cos(θj)  (5)
[0088] 公式(5)中Wj表示权重向量W,xi表示特征向量x,cos(θj)表示夹角余弦。
[0089] 对于一般损失函数,XGBoost会使用泰勒展开的形式进而用到二阶导数。目标函数:
[0090]
[0091] 公式(6)中, 表示预测值与真实值的损失,ft(xi)表示特征xi全连接层的输出,Ω(ft)表示正则化函数,C为常数。
[0092] 用泰勒展开来近似目标函数。
[0093] 泰勒展开:
[0094] 定义:
[0095] 则有:移除常量:
[0096]
[0097] 更新后的目标函数仅仅依赖一阶似然的一阶和二阶导数。
[0098] 以上讨论了模型中训练误差的部分。下面来探讨模型复杂度Ω(ft)的表示方式。重新定义每棵树,将树f拆分成树结构q和叶子权重部分w。结构函数q把输入映射到叶子的索引上,而w给定了每个索引号对应叶子的分数。
[0099] ft(x)=wq(x),w∈RT,q:Rd→{1,2,...,T}  (11)
[0100] 当给定了如公式(11)的树定义后,每颗树的复杂度可以定义为公式(12),这个公式里定义了树中叶子节点的个数和每个树叶子节点的输出分数的L2正则项。
[0101]
[0102] 其中T为叶子的个数, 表示w的L2模平方。
[0103] 这个目标函数包含了T个独立的单变量二次函数。上述目标函数对wj求导并令导数为0,可以求得:
[0104]
[0105]
[0106] 最小化目标函数,取得目标函数最小化时的特征权重,最后生成特征方程:
[0107]
[0108] 公式(15)中,y为预测概率,Wi为特征xi的权重值,b为偏置项。y的分布最接近未来真实值的预测,从而预测出未来一定时期内符合一定特征的游客游玩景区的可能性。
[0109] 具体实施时的步骤为:
[0110] ●数据预处理
[0111] 标签构建。对景区名称编码,编号从1~N,作为模型预测的标签。数据集删选,删除全为空的特征列,删除只有一个值的特征列,删除一些暂且无用的特征。
[0112] ●特征选择
[0113] 根据皮尔逊相关系数选择相关度高的特征组合,输入算法模型。
[0114] ●模型训练
[0115] 经过特征选择,挑选出m个特征,作为训练特征。对其中字符特征进行one-hot编码,转换为数值型。由于数据集是存在时间关系的,因此我们在做验证的时候需要按照时间排序,这样才可以获取较为精准的验证结果。
[0116] (1)参数训练
[0117] 数据样本按照“8-2”原则,随机采样80%为训练集,20%验证集,验证集线下验证模型准确率,符合准确率的模型才能上线预测。同时,结合旅游场景,针对某些热门景区过于热门导致的冷门景区样本缺失,以及冷、热门样本数量相差悬殊,导致的不均衡样本分类问题,本文采取了过采样与欠采样结合的样本处理方式,对冷门景点相应的增加其样本规模,对热门景点按一定比例随机抽样其样本数量。最终预测结果包含冷、热门景点,具有一定的泛化能力。
[0118] (2)验证集验证
[0119] 使用20%的验证集数据计算预测结果,通过多个迭代优化,进行多轮迭代训练,不断调整模型参数,保留验证集损失loss最小,验证正确率得分最高的模型。
[0120] ●模型评估指标设计
[0121] 设计指标函数,针对每个景区计算正确率。线下训练不断调整每个景区的F1(综合评价指标)的得分值。
[0122] ●模型预测
[0123] 符合验证条件的模型上线,预测游客下一次要去的景点。
[0124] 系统模型部分整体分为两部分,线下训练与线上预测。线下训练阶段,首先对采集的游客历史数据进行数据预处理,特征选择。然后选择合适的模型,根据评估函数的表现,选择最优的模型参数,将生成的最优结果模型文件保存。线上预测阶段,当有游客进入某个景点时,系统获取当前游客特征,气象信息以及景区特征,并进行数据预处理,特征选择,将线下结果模型文件加载,采用线上分类预测算法计算出游客到下一个景点的概率,并取概率最大值对应的景区作为最可能的预测景区,如下表1和表2:
[0125] 表1.游客景区预测输出
[0126]字段名称 字段含义
Person_ID 游客识别号,唯一ID
Pre_View_spot_id 预测景区编码
Pre_View_spot 预测景区名称
Pre_Score 预测概率
Time 预测时间
[0127] 表2.景区人流预测预警输出
[0128]字段名称 字段含义
View_spot_id 景点编码
View_spot 景点名称
Pre_Tourist 预测游客数
Flow_threshold 人流阈值
Is_warn 是否告警
Level 告警级别
Time 预测时间
[0129] 综上,本发明结合了游客特征,气象特征,商品特征,景区路线,景区地理位置等特征以及相互之间的影响组合,采用机器学习的方法,较全面,客观的分析了各个特征对轨迹的影响,同时本发明所采用的树结构预测方法能做到并行化,特别适合大数据量实时预测。因此,本发明解决了景区人流量季节性爆发,非季节性突然爆发情况;同时对冷门景点有较好的泛化作用,适用于景区轨迹预测与人流量预警等方面。
[0130] 以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈