首页 / 专利库 / 资料储存系统 / 自动识别与数据采集技术 / 一种酒店智能问答推荐与决策支持分析方法及系统

一种酒店智能问答推荐与决策支持分析方法及系统

阅读:136发布:2020-05-15

专利汇可以提供一种酒店智能问答推荐与决策支持分析方法及系统专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种酒店智能问答推荐与决策支持分析方法及系统,用于实现:利用爬虫器,快速高效的爬取多个旅游 网站 的海量数据,并实时更新;使用 算法 抽取 评论信息酒店属性关键词,并对各个关键词进行 情感分析 并分区; 整理 有关实体 数据库 、属性数据库、“顾客-酒店”关系数据库,构造知识图谱;利用知识图谱工具及查询语言,编写问答模板,利用 自然语言处理 技术与实体识别技术,识别留言并自动回答系统使用者问题。本发明的有益效果为:学习顾客喜好,对顾客个性智能推荐酒店对顾客评论信息自动只能回复,同时实现以邮件或留言形式将酒店广告咨询进行定向发送;不断自行优化系统,丰富问答模板及智能排序,使系统更加亲民可用。,下面是一种酒店智能问答推荐与决策支持分析方法及系统专利的具体信息内容。

1.一种酒店智能问答推荐与决策支持分析方法,其特征在于,方法包括以下步骤:
S100,使用爬虫器从酒店社会媒体网络爬取酒店与顾客的关系数据;
S200,对评论信息抽取酒店属性关键词,并对每个属性关键词进行情感分析并打分;
S300,创建并整理实体数据库、酒店属性数据库、顾客属性数据库以及实体关系数据库,并输出结果;
S400,对所述S300输出的结果进行整合,将整合结果作为知识图谱输入数据,建立顾客与酒店的知识图谱;
S500,根据所述S300得到的数据库将酒店与顾客常用问答创建智能问答模板;
S600,根据所述S300得到的数据库将酒店及顾客属性创建推荐模
S700,根据所述S300得到的数据库将酒店及顾客属性编写决策支持分析模块;
S800,对S500所产生的系统使用的情况记录使用机器学习进行优化。
2.根据权利要求1所述的酒店智能问答推荐与决策支持分析方法,其特征在于,所述S100具体包括:
编写并使用高速爬虫器从酒店社会媒体网络爬取顾客、酒店以及顾客与酒店关系数据;
其中,顾客数据包括但不仅限于评论ID、入住时间、所住房型、旅行类型、出生地;
酒店的信息包含但不仅限于酒店星级及所属集团;
酒店与顾客关系数据包括但不仅限于评论信息及打分信息;
爬取的信息包含结构式、半结构式数据及非结构式数据。
3.根据权利要求1所述的酒店智能问答推荐与决策支持分析方法,其特征在于,所述S200具体包括:
S201,导入酒店专用词数据库,使用Jieba、谷歌英文语料库等相关语料库对爬取的评论数据切词并去除停用词;
S202,使用但不仅限于TextRank、LDA、TF-IDF、TPR等算法,以及,使用gensim、Word2Vec、sklearn、numpy、collections及math的Python数据库,生成词向量矩阵,采用并不仅限于随机森林决策树提取出关键词,计算准确率与召回率,计算平均值,并排序输出;
其中准确率是指预测1关键词占预测关键词的百分比,召回率是指预测1关键词占原始关键词的百分比,预测1表示关键词预测类别,预测2表示非关键词预测类别;
S203,使用词向量定位到各关键词周围,以“,”分隔符,分成几个短句,并以短句为单位识别统计关键词周围的情感词,正向情感词记为1,负向情感词记为0,并求整条评论对不同关键词的情感平均分,最终求取每名顾客对该酒店的平均情感分数,将此情感分数化作百分数作为该名顾客对该酒店的推荐指数,并将此分数离散在[0,0.5)与[0.5,1]的区间上,记为关系结果不推荐0及推荐1。
4.根据权利要求1所述的酒店智能问答推荐与决策支持分析方法其特征在于,所述S300具体包括:
S301,整理包含属性的实体数据库,实体数据库包括:
酒店属性数据库与顾客属性数据库,其中酒店属性数据库包括但不限于酒店星级、所属集团等属性,顾客属性数据库包括但不限于顾客评论ID、年龄、性别、出生地、旅行类型、所住房型、关注的酒店属性关键词;
S302,整理实体关系数据库,实体关系数据库包括:
顾客之间关系、酒店之间关系与顾客与酒店之间关系,其中顾客之间关系数据包含但不仅限于同龄、同性别、同房型、同乡、同提到某酒店属性关键词,酒店关系数据包含但不仅限于同星级、同个集团旗下;
顾客与酒店关系包括顾客对酒店推荐与否,以及推荐指数。
5.根据权利要求1所述的酒店智能问答推荐与决策支持分析方法,其特征在于,所述S400具体包括:
将实体数据作为节点,关系数据作为节点关系,包括但不限于使用Neo4J知识图谱构建工具、Python编程语言及py2neo建立知识图谱。
6.根据权利要求1所述的酒店智能问答推荐与决策支持分析方法,其特征在于,所述S500具体包括:
S501,根据S300得到的数据库设定问题模板,使用py2neo及其他相关Python库,建立属性、实体、关系同义词库,将常用问题编写成SPARQL、Cypher查询语句,建立常用问答模板,已选择题问答形式,回答常用问题,问题包括但不限于符合属性或关系的酒店顾客数列,实体间关系查询等,以及,通过机器学习系统使用者询问记录,对模板进行智能排序;
S502,提供问题输入框,用于输入留言,留言包括但不限于酒店体验、顾客对酒店的预期期望及酒店管理者针对酒店特讯推送目标对象询问,使用自然语言处理识别输入问题,识别条件句与询问句,分别识别条件句与询问句的实体节点、属性、相互关系,并根据所述S501的查询语句,输出查询内容;
S503,基于LSTM、RNN等神经网络深度学习相关模型,使用但不限于CRF++、NeuroNER进行命名实体识别,对实体节点、属性、相互关系进行标签标注,将问题转化为“条件输入-结果询问”的模式,并将该模式常用问题编写成SPARQL、Cypher查询语句,建立问答并输出结果,同时,将留言信息“条件输入-结果询问”模式加入系统使用者记录,进行机器学习,优化模板,智能排序。
7.根据权利要求1所述的酒店智能问答推荐与决策支持分析方法,其特征在于,所述S600具体包括:
S601,根据不同属性的顾客,基于顾客关注的酒店属性,推荐特定区域酒店属性情感平均分最高的前三个酒店;
S602,使用自然语言处理技术自动识别顾客评论内容并编辑设定自动回复,对酒店所发布的广告咨询内容进行自然语言处理,识别实体与其相关属性,对不同顾客以邮件、留言自动回复等形式进行自动发送与推荐。
8.根据权利要求1所述的酒店智能问答推荐与决策支持分析方法,其特征在于,所述S700具体包括:
对关键词进行词展示,并对情感分析结果进行描述性分析及信息挖掘及图形可视化,使用但不仅限于LSTM、ARMA算法对各酒店属性情感分数进行预测,使用但不限于Apriori、Xgboost对其进行相关性探索,对不同酒店提供决策支持数据。
9.根据权利要求1所述的酒店智能问答推荐与决策支持分析方法,其特征在于,所述S800具体包括:
S801,对S500所产生的系统使用情况记录进行机器学习,不断丰富模板并重新排序,使系统更智能更易操作,即对S500中所产生的系统使用记录数据库,进行机器学习,优化模板智能排序。
10.一种酒店智能问答推荐与决策支持分析系统,用于执行所述权利要求1-9任意方法,其特征在于,该系统包括:
数据采集模块,用于编写并使用爬虫器从酒店社会媒体网络爬取酒店与顾客的关系数据;
键词提取与情感分析模块,用于对评论信息抽取酒店属性关键词,并对每个属性关键词进行情感分析并打分;
知识图谱数据库准备模块,用于创建并整理实体数据库、酒店属性数据库、顾客属性数据库以及实体关系数据库,并输出结果;
知识图谱建立模块,用于对所述知识图谱数据库准备模块输出的结果进行整合,将整合结果作为知识图谱输入数据,建立顾客与酒店的知识图谱;
智能问答模块,用于顾客与酒店管理者常用问题及复杂问题进行智能答复;
智能推荐模块,用于推荐相关酒店,并实现酒店对顾客个性广告咨询推送与自动回复;
决策支持分析模块,用于提供决策支持与数据分析;
系统优化模块,用于优化基于知识图谱、自然语言处理与情感分析的酒店智能问答推荐与决策支持分析系统。

说明书全文

一种酒店智能问答推荐与决策支持分析方法及系统

技术领域

[0001] 本发明涉及一种酒店智能问答推荐与决策支持分析方法及系统,属于计算机领域。

背景技术

[0002] 随着社会媒体网络在顾客决策中所占的比重不断增大,商业旅行、家庭旅游、学术旅游、医疗旅游、乡村旅游等多样旅游方式深入人心,通过旅游网站订购机票、民宿、酒店、票等旅游附带消费品已经成为旅游产品销售主流。线上结合线下的销售方式让旅游变得更加方便快捷。旅游网站的评论信息在顾客选购商品的过程中占了极大的作用,如何有效的挖掘评论信息,将顾客杂乱无章的评论信息整理成可查、结构化的数据库,将社会媒体网络的有用信息整理成有结构有组织的知识网络,为顾客提供真实可靠的选购推荐,为商家提供有效的决策支持分析,实现评论信息知识库、顾客、商家三者之间智能交互,是本发明的主要目的及重点。为此,人工智能技术的出现为本发明为此提供了技术可能。本发明立足于旅游网站信息的多样性、真实性、实时性与巨量性,基于知识图谱、自认语言处理及情感分析人工智能技术,实现酒店智能回复、酒店智能推荐与决策支持分析,从而为顾客节约浏览各个商家评论信息的时间,为商家提供实时的决策支持,从而有效推动商家实现顾客关系管理、顾客满意度和忠诚度评估、有效定向个性推动动态消息等。
[0003] 当今世界存在的旅游网站数不胜数,随着出国旅游热的兴起,旅游网站所入驻的酒店遍布管球各地,为实现全面挖取各个网站的可用信息,快速建立较为完整实时的知识图谱,本发明基于“多进程+多线程”基础上建立爬虫器,快速爬取并实时更新不同网站对不同酒店的有用信息。

发明内容

[0004] 本发明提供了一种酒店智能问答推荐与决策支持分析方法及系统,该系统采用 Python编程语言,datetime、pymongo、pysql、download、mongodb_queue、threading、 multiprocessing、bs、re、selenium等相关程序包,在Pycharm IDE平台上构造主要模。本发明首先构造“多线程+多进程”高速爬虫器,爬取酒店社会媒体网络顾客、酒店属性信息及酒店与顾客关系信息,如评论者ID、入住时间、所住房型、旅行类型、出生地、酒店星级、所属集团、评论信息、打分信息等。接着使用Jieba、谷歌等公开词库对其进行切词与停用词去除,采用gensim、Word2Vec、sklearn、numpy、collections、math等相关Python数据库生成词向量矩阵,采用并不仅限于TextRank、 LDA、TF-IDF、TPR、随机森林决策树(关键词:预测类别1,非关键词:预测类别 2)提取出关键词(预测类别1),并以“,”为分隔符生成短句,以短句为单位计算各关键词的情感分数(情感分数连续分布在[0,1],“1”为正向情感分数,“0”为负向情感分数)。之后该发明将数据库分类整理成包含属性的实体数据库以及实体关系数据库。接着本发明将实体数据作为节点,关系数据作为节点关系,基于但不限于 Neo4J知识图谱构建工具与Python编程语言,使用py2neo建立知识图谱,并针对实体、属性、关系三方面设计问题模板,用于该系统使用者便捷式实体、属性、关系查询。此外,本发明设计问题输入框,使用自然语言处理技术,识别条件句与询问句,识别条件句与询问句的实体节点、属性与相互关系,以此实现识别系统使用者构造的场景,理解问题背景与问题内容,根据所构造知识图谱人工智能回答使用者所提问题。同时,本发明根据携带不同属性的顾客,基于顾客关注的酒店属性,推荐关注酒店属性情感平均分最高的前三位酒店。此外,该系统使用自然语言处理技术自动识别顾客评论内容并编辑设定自动回复,对酒店所发布的广告咨询内容进行自然语言处理,识别实体与其相关属性,对不同顾客以邮件、留言自动回复等形式进行自动发送与推荐。
[0005] 本发明的技术方案包括一种酒店智能问答推荐与决策支持分析方法,其特征在于,该方法包括以下步骤:S100,编写并使用爬虫器从酒店社会媒体网络爬取酒店与顾客的关系数据;S200,对评论信息抽取酒店属性关键词,并对每个属性关键词进行情感分析并打分;S300,创建并整理实体数据库、酒店属性数据库、顾客属性数据库以及实体关系数据库,并输出结果;S400,对所述S300输出的结果进行整合,将整合结果作为知识图谱输入数据,建立顾客与酒店的知识图谱;S500,根据所述S300 得到的数据库将酒店与顾客常用问答创建智能问答模板;S600,根据所述S300得到的数据库将酒店及顾客属性创建推荐模块;S700,根据所述S300得到的数据库将酒店及顾客属性编写决策支持分析模块;S800,对S500所产生的系统使用的情况记录使用机器学习进行优化。
[0006] 根据所述的酒店智能问答推荐与决策支持分析方法,其中S100具体包括:编写并使用高速爬虫器从酒店社会媒体网络爬取顾客、酒店以及顾客与酒店关系数据;其中,顾客数据包括但不仅限于评论ID、入住时间、所住房型、旅行类型、出生地;酒店的信息包含但不仅限于酒店星级及所属集团;酒店与顾客关系数据包括但不仅限于评论信息及打分信息;爬取的信息包含结构式、半结构式数据及非结构式数据。
[0007] 根据所述的酒店智能问答推荐与决策支持分析方法,其中S200具体包括:S201,导入酒店专用词数据库,使用Jieba、谷歌英文语料库等相关语料库对爬取的评论数据切词并去除停用词;S202,使用但不仅限于TextRank、LDA、TF-IDF、TPR等算法,以及,使用gensim、Word2Vec、sklearn、numpy、collections及math的Python数据库,生成词向量矩阵,采用并不仅限于随机森林局决策树提取出关键词,计算准确率与召回率,计算平均值,并排序输出;其中准确率是指预测1关键词占预测关键词的百分比,召回率是指预测1关键词占原始关键词的百分比,预测1表示关键词预测类别,预测2表示非关键词预测类别;S203,使用词向量定位到各关键词周围,以“,”分隔符,分成几个短句,并以短句为单位识别统计关键词周围的情感词,正向情感词记为1,负向情感词记为0,并求整条评论对不同关键词的情感平均分,最终求取每名顾客对该酒店的平均情感分数,将此情感分数化作百分数作为该名顾客对该酒店的推荐指数,并将此分数离散在[0,0.5)与[0.5,1]的区间上,记为关系结果不推荐0及推荐1。
[0008] 根据所述的酒店智能问答推荐与决策支持分析方法,其中S300具体包括:S301,整理包含属性的实体数据库,实体数据库包括:酒店属性数据库与顾客属性数据库,其中酒店属性数据库包括但不限于酒店星级、所属集团等属性,顾客属性数据库包括但不限于顾客评论ID、年龄、性别、出生地、旅行类型、所住房型、关注的酒店属性关键词;S302,整理实体关系数据库,实体关系数据库包括:顾客之间关系、酒店之间关系与顾客与酒店之间关系,其中顾客之间关系数据包含但不仅限于同龄、同性别、同房型、同乡、同提到某酒店属性关键词,酒店关系数据包含但不仅限于同星级、同个集团旗下;顾客与酒店关系包括顾客对酒店推荐与否,以及推荐指数。
[0009] 根据所述的酒店智能问答推荐与决策支持分析方法,其中S400具体包括:将实体数据作为节点,关系数据作为节点关系,包括但不限于使用Neo4J知识图谱构建工具、Python编程语言及py2neo建立知识图谱。
[0010] 根据所述的酒店智能问答推荐与决策支持分析方法,其中S500具体包括:S501,根据S300得到的数据库设定问题模板,使用py2neo及其他相关Python库,建立属性、实体、关系同义词库,将常用问题编写成SPARQL、Cypher查询语句,建立常用问答模板,已选择题问答形式,回答常用问题,问题包括但不限于符合属性或关系的酒店顾客数列,实体间关系查询等,以及,通过机器学习系统使用者询问记录,对模板进行智能排序;S502,提供问题输入框,用于输入留言,留言包括但不限于酒店体验、顾客对酒店的预期期望及酒店管理者针对酒店特讯推送目标对象询问,使用自然语言处理识别输入问题,识别条件句与询问句,分别识别条件句与询问句的实体节点、属性、相互关系,并根据所述S501的查询语句,输出查询内容;S503,基于LSTM、 RNN等神经网络深度学习相关模型,使用但不限于CRF++、NeuroNER等,进行命名实体识别,对实体节点、属性、相互关系进行标签标注,将问题转化为“条件输入-结果询问”的模式,并将该模式常用问题编写成SPARQL、Cypher查询语句,建立问答并输出结果,同时,将留言信息“条件输入-结果询问”模式加入系统使用者记录,进行机器学习,优化模板,智能排序。
[0011] 根据所述的酒店智能问答推荐与决策支持分析方法,其中S600具体包括:S601,根据不同属性的顾客,基于顾客关注的酒店属性,推荐特定区域酒店属性情感平均分最高的前三个酒店;S602,使用自然语言处理技术自动识别顾客评论内容并编辑设定自动回复,对酒店所发布的广告咨询内容进行自然语言处理,识别实体与其相关属性,对不同顾客以邮件、留言自动回复等形式进行自动发送与推荐。
[0012] 根据所述的酒店智能问答推荐与决策支持分析方法,其中S700具体包括:对关键词进行词展示,并对情感分析结果进行描述性分析及信息挖掘及图形可视化,使用但不仅限于LSTM、ARMA算法对各酒店属性情感分数进行预测,使用但不限于 Apriori、Xgboost对其进行相关性探索,对不同酒店提供决策支持数据。
[0013] 根据所述的酒店智能问答推荐与决策支持分析方法,其中S800具体包括:S801, 对S500所产生的系统使用情况记录进行机器学习,不断丰富模板并重新排序,使系统更智能更易操作,即对S500中所产生的系统使用记录数据库,进行机器学习,优化模板智能排序。
[0014] 本发明的技术方案还包括一种酒店智能问答推荐与决策支持分析系统,用于执行上述任意方法,该系统包括:数据采集模块,用于编写并使用爬虫器从酒店社会媒体网络爬取酒店与顾客的关系数据;关键词提取与情感分析模块,用于对评论信息抽取酒店属性关键词,并对每个属性关键词进行情感分析并打分;知识图谱数据库准备模块,用于创建并整理实体数据库、酒店属性数据库、顾客属性数据库以及实体关系数据库,并输出结果;知识图谱建立模块,用于对所述知识图谱数据库准备模块输出的结果进行整合,将整合结果作为知识图谱输入数据,建立顾客与酒店的知识图谱;智能问答模块,用于顾客与酒店管理者常用问题及复杂问题进行智能答复;智能推荐模块,用于推荐相关酒店,并实现酒店对顾客个性广告咨询推送与自动回复;决策支持分析模块,用于提供决策支持与数据分析;系统优化模块,用于优化基于知识图谱、自然语言处理与情感分析的酒店智能问答推荐与决策支持分析系统。
[0015] 本发明的有益效果为:利用“多线程+多进程”爬虫器,快速高效的爬取多个旅游网站的海量数据,并实时更新;使用算法抽取评论信息酒店属性关键词,并对各个关键词进行情感分析,打分分布在[0,1]的区间上;整理有关实体数据库、属性数据库、“顾客-酒店”关系数据库,并构造“顾客-酒店”知识图谱;利用知识图谱工具及查询语言,编写问答模板,利用自然语言处理技术与实体识别技术,识别留言并自动回答系统使用者问题;通过人工智能技术,学习顾客喜好,对顾客个性智能推荐酒店,并对顾客评论信息及酒店广告咨询信息使用自然语言处理技术与实体识别技术,对顾客评论信息自动只能回复,同时实现以邮件或留言形式将酒店广告咨询进行定向发送;同时,该系统通过对系统使用记录数据库机器学习处理,不断自行优化系统,丰富问答模板及智能排序,使系统更加亲民可用。附图说明
[0016] 图1所示为根据本发明实施方式的方法总体流程图
[0017] 图2所示为根据本发明实施方式的系统结构框图
[0018] 图3所示为根据本发明实施方式的“多线程+多进程”旅游网站高速爬虫器示意图;
[0019] 图4所示为根据本发明实施方式的一站式爬虫流程示意图;
[0020] 图5所示为根据本发明实施方式的智能问答模块方法流程示意图。

具体实施方式

[0021] 本发明的技术方案提供了一种酒店智能问答推荐与决策支持分析方法及系统,涉及网络爬虫、并行计算、机器学习、知识图谱、数据库管理、推荐模型、预测模型数据挖掘等技术,结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整的描述,以充分地理解本发明的目的、方案和效果。
[0022] 需要说明的是,如无特殊说明,当某一特征被称为“固定”、“连接”在另一个特征,它可以直接固定、连接在另一个特征上,也可以间接地固定、连接在另一个特征上。此外,本公开中所使用的上、下、左、右等描述仅仅是相对于附图中本公开各组成部分的相互位置关系来说的。在本公开中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。此外,除非另有定义,本文所使用的所有的技术和科学术语与本技术领域的技术人员通常理解的含义相同。本文说明书中所使用的术语只是为了描述具体的实施例,而不是为了限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的组合。
[0023] 应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种元件,但这些元件不应限于这些术语。这些术语仅用来将同一类型的元件彼此区分开。例如,在不脱离本公开范围的情况下,第一元件也可以被称为第二元件,类似地,第二元件也可以被称为第一元件。本文所提供的任何以及所有实例或示例性语言(“例如”、“如”等)的使用仅意图更好地说明本发明的实施例,并且除非另外要求,否则不会对本发明的范围施加限制。
[0024] 图1示为根据本发明实施方式的方法总体流程图。具体如下:
[0025] (1)旅游网站采集数据:使用Python编程语言,datetime、pymongo、pysql、 download、mongodb_queue、threading、multiprocessing、bs、re、selenium等相关程序包,设计并构建“多线程+多进程”旅游网站通用高速爬虫器,从酒店社会媒体网络的多个平台上爬取有关顾客、酒店以及顾客与酒店关系数据。顾客数据包括但不仅限于评论ID、入住时间、所住房型、旅行类型、出生地等;酒店的信息包含但不仅限于酒店星级、所属集团等;酒店与顾客关系数据包括但不仅限于评论信息、打分信息等。爬取信息包含结构式、半结构式数据和非结构式数据。例如:爬取旅游网站1、旅游网站2以及旅游网站3等三个旅游网站对某某市2017年排名最靠前的 20所酒店的中英文数据,旅游网站1、旅游网站2以及旅游网站3分别在cpu3个不同核上运行进程,每个进程中网站在过程中储存在“待爬去网站队列”、“正爬取网站队列”、“已爬取网站队列”,并爬取评论者ID、评论者出生地、评论者年龄、评论者房型、评论时间、评论标题、评论内容、酒店星级、酒店所属集团等信息。
[0026] 图3即为“多线程+多进程”旅游网站高速爬虫器示意图,图四为一站式爬虫流程示意图:整理要爬取得酒店列表,将酒店名称输入到不同旅游网站中,构造url列表,每个旅游网站作为一个一个进程,在每个进程中,本发明使用队列排序方式,整理待爬网站队列、正爬网站队列及已爬网站队列,设定合理的Timeout作为阈值,将处理时间超出所设定的Timeout的网站放在待爬网站队列,将已经爬取成功的网站网址放在已爬的网站队列。爬取目标数据的过程作为守护线程,最后将所爬数据存入数据库。对此,不同进程可在cup不同核上运行,并且可实现不同电脑联机或云爬取。对于不同线程爬取过程中所采用的模型均可使用“模拟浏览器-获取网页代码-爬取所需数据-模拟点击下一页-关闭浏览器并储存爬取数据”一站式模型进行爬取。
[0027] (2)关键词提取与情感分析:导入酒店专用词数据库,并使用Jieba、谷歌英文语料库等相关语料库对爬取的评论数据切词并去除停用词;使用但不仅限于 TextRank、LDA、TF-IDF、TPR等算法,使用gensim、Word2Vec、sklearn、numpy、 collections、math等相关Python数据库,生成词向量矩阵,采用并不仅限于随机森林局决策树(关键词:预测类别1,非关键词:预测类别2)提取出关键词(预测类别1),计算准确率与召回率,计算平均值,并排序输出。其中准确率是指预测1 关键词占预测关键词的百分比,召回率是指预测1关键词占原始关键词的百分比。使用词向量定位到各关键词周围,以“,”分隔符,分成几个短句,并以短句为单位识别统计关键词周围的情感词,正向情感词记为1,负向情感词记为0,并求整条评论对不同关键词的情感平均分,最终求取每名顾客对该酒店的平均情感分数,将此情感分数化作百分数作为该名顾客对该酒店的推荐指数,并将此分数离散在[0,0.5)与 [0.5,1]的区间上,记为关系结果[不推荐0,推荐1]。例如“宴会厅”和“餐饮”是两个酒店属性关键词,则“某某市的宴会厅装潢很亮堂,餐饮可以,宴会厅服务不行”,则该顾客的关注点是“宴会厅”和“餐饮”,二者的情感分数分别为“(1+0)/2=0.5”以及“1”。
[0028] (3)实体、属性与关系数据库的整理与建立:整理包含属性的实体数据库:实体数据库包括酒店属性数据库与顾客属性数据库,其中酒店属性数据库包括但不限于酒店星级、所属集团等属性,顾客属性数据库包括但不限于顾客评论ID、年龄、性别、出生地、旅行类型、所住房型、关注的酒店属性关键词(评论中提到属性关键词记为1,未提到属性关键词记为0);整理实体关系数据库:实体关系数据库包括顾客之间关系、酒店之间关系与顾客与酒店之间关系,其中顾客之间关系数据包含但不仅限于同龄、同性别、同房型、同乡、同提到某酒店属性关键词(关系具体到单个年龄段、性别、房型、出生地、属性关键词等),酒店关系数据包含但不仅限于同星级、同个集团旗下(关系具体到某个星级、集团名称等);顾客与酒店关系包括顾客对酒店推荐与否,以及推荐指数。例如:顾客属性数据库为:A顾客:ID:Mini,出生地:中国,房型:大床房,注点:“服务”;B顾客:ID:Ivanka,出生地:中国,房型:无霾房,注点:“服务”和“房间”。酒店属性数据库:某某市皇冠假日酒店:星级:5,集团:洲际,“服务”情感平均分:0.8,“房间”情感平均分:0.9;某某市某某地皇冠假日酒店:星级别:5,集团:洲际,“服务”情感平均分:0.7,“房间”情感平均分:0.6。关系数据库:A与B客户出生地都为“中国”,都关注“服务”;某某市皇冠假日酒店与某某市某某地皇冠假日酒店同属于洲际集团,同为5星级酒店。
[0029] (4)建立“顾客-酒店”知识图谱,顾客酒店常用问题模板建立与自然语言处理智能问答搜索:将实体数据作为节点,关系数据作为节点关系,基于但不限于Neo4J 知识图谱构建工具与Python编程语言,使用py2neo建立知识图谱;该问题模板可以为:1、某某市“服务”最好的酒店有那些?2、关注于“价格”的顾客都来自哪里? 3、____(该处填写编号(1)服务,(2)房间,(3)宴会厅,(4)设施等,可填写多个)值得推荐的酒店有哪些?4、百分之多少的顾客在意____(该处填写编号(1)服务, (2)房间,(3)宴会厅,(4)设施等,可填写多个)?等[0030] 图4所示为根据本发明实施方式的一站式爬虫流程示意图。
[0031] 图5所示为根据本发明实施方式的智能问答模块方法流程示意图:S501,根据 S300得到的数据库设定问题模板,使用py2neo及其他相关Python库,建立属性、实体、关系同义词库,将常用问题编写成SPARQL、Cypher查询语句,建立常用问答模板,已选择题问答形式,回答常用问题,问题包括但不限于符合属性或关系的酒店顾客数列,实体间关系查询等,同时,该系统通过机器学习系统使用者询问记录,对模板进行智能排序;提供问题输入框,可输入较长的留言,留言包含信息较为丰富,可以是之前的酒店体验,顾客对酒店的与其期望,酒店管理者针对酒店特讯推送目标对象询问等,使用自然语言处理识别输入问题,识别条件句与询问句,分别识别条件句与询问句的实体节点、属性、相互关系,结合S501查询语句,输出查询内容;基于LSTM、RNN等神经网络深度学习相关模型,使用但不限于CRF++、NeuroNER等,进行命名实体识别,对实体节点、属性、相互关系进行标签标注,将问题转化为“条件输入-结果询问”的模式,并将该模式常用问题编写成SPARQL、Cypher查询语句,建立问答并输出结果,同时,将留言信息“条件输入-结果询问”模式加入系统使用者记录,进行机器学习,优化模板,智能排序。该问题模板可以为:1、某某市“服务”最好的酒店有那些?2、关注于“价格”的顾客都来自哪里?3、____(该处填写编号 (1)服务,(2)房间,(3)宴会厅,(4)设施等,可填写多个)值得推荐的酒店有哪些?4、百分之多少的顾客在意____(该处填写编号(1)服务,(2)房间,(3)宴会厅,(4)设施等,可填写多个)?等。
[0032] (5)根据酒店属性情感分数与顾客关注属性,实现个性推荐、酒店自动回复与广告咨询推送:根据不同属性的顾客,基于顾客关注的酒店属性,推荐特定区域酒店属性情感平均分最高的前三个酒店;使用自然语言处理技术自动识别顾客评论内容并编辑设定自动回复,对酒店所发布的广告咨询内容进行自然语言处理,识别实体与其相关属性,对不同顾客以邮件、留言自动回复等形式进行自动发送与推荐。例如:某评论“今天我从卫生间出来的时候,地板很滑,我差点摔了一脚,好心塞。”实体词:“卫生间”“地板”,“卫生间缺失情感词”,“地板”情感分数为0,总情感分数为0,则该系统自动回复:“很抱歉您不满意我们的地板,我们会上处理,希望您下次拥有愉快的回忆”;某某地皇冠假日最新推销咨询为“本次春节期间,西餐厅出售99代 200代金券”该咨询的实体词为“西餐厅”“价格”,则该消息会定向发送给关注“西餐厅”和“价格”的顾客。
[0033] (6)对属性情感分析分数进行时间序列预测与相关性分析,对决策者提供决策支持:对关键词进行词云展示,并对情感分析结果进行描述性分析及信息挖掘及图形可视化,使用但不仅限于LSTM、ARMA算法对各酒店属性情感分数进行预测,使用但不限于Apriori、Xgboost对其进行相关性探索,对不同酒店提供决策支持数据;
[0034] (7)机器学习系统使用记录,实现系统优化:对S500所产生的系统使用情况记录进行机器学习,不断丰富模板并重新排序,使系统更智能更易操作,即对S500中所产生的系统使用记录数据库,进行机器学习,优化模板智能排序。
[0035] 本发明的技术方案具体地公开了一种较为详细的实施方案,具体如下:
[0036] (1)本实例使用Python编程语言,datetime、pymongo、pysql、download、mongodb_queue、threading、multiprocessing、bs、re、selenium等相关程序包设计并编写“多线程+多进程”旅游网站高速爬虫器爬取某某市前28所酒店2017年8 月到2018年8月旅游网站1、旅游网站2及去哪儿网的评论及顾客信息,使用Pycharm IDE编译器,MongoDB作为基本数据存储单位,采用4核处理器电脑以太网作为爬取环境,共爬取49702条评论信息,用时3小时42分钟。
[0037] (2)本发明使用Jieba、谷歌英文语料库,采用Python编写,使用gensim、 Word2Vec、sklearn、numpy、collections、math等相关Python数据库,去除停用词后,采用TF-ITF算法,提取前600个实体关键词,通过同义词替换,共得到25个酒店属性关键词,使用情感分析模型对这28个酒店的25个属性进行情感打分。
[0038] (3)对上述数据库整理成“顾客-属性数据库”,“酒店-属性数据库”以及“关系数据库”,其中不重复评论ID顾客共43055名,顾客属性4个,分别为“出生地”“房型”“出游方式”“评论日期/入住日期”,酒店属性共29个,分别是25个属性情感平均分,总情感平均分,星级,地区,集团。
[0039] (4)本发明将43055名“顾客”及28个“酒店”作为实体节点,顾客属性,酒店属性作为相关属性特征,使用Neo4J知识图谱构建工具与Python编程语言,导入py2neo建立知识图谱模型。
[0040] (5)设立问题模板:1、某某市“服务”最好的酒店有那些?2、关注于“价格”的顾客都来自哪里?3、____(该处填写编号(1)服务,(2)房间,(3)宴会厅,(4) 设施等,可填写多个)值得推荐的酒店有哪些?4、百分之多少的顾客在意____(该处填写编号(1)服务,(2)房间,(3)宴会厅,(4)设施等,可填写多个)?使用py2neo 及其他相关Python库,建立属性、实体、关系同义词库,将常用问题编写成SPARQL 查询语句,建立常用问答模板,已选择题问答形式,回答常用问题,实现属性或关系的酒店顾客数列,实体间关系查询等。
[0041] (6)基于RNN神经网络深度学习相关模型,使用NeuroNER进行命名实体识别,对实体节点、属性、相互关系进行标签标注,将问题转化为“条件输入-结果询问”的模式,并将该模式常用问题编写成SPARQL查询语句,建立问答并输出结果。
[0042] (7)将(5)系统使用记录规划为“条件输入-结果询问”的模式,例如:某系统使用者在输入框中输入:“某某市洲际旗下服务还不错的酒店,一般哪里的顾客比较多”该系统将其转化为:条件:酒店地址:某某市,“服务”情感分析分数>=0.5,酒店集团:洲际;询问:顾客出生地?”,将其放入系统使用记录数据库,并加入模板中,将系统使用记录数据聚类并重新排序,将选择包含该条询问的一类放在该用户问题模板的首位。以此达到对整个系统的优化。
[0043] 以上所述,只是本发明的较佳实施例而已,本发明并不局限于上述实施方式,只要其以相同的手段达到本发明的技术效果,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。在本发明的保护范围内其技术方案和/或实施方式可以有各种不同的修改和变化。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈