技术领域
[0001] 本
发明属于计算机知识工程领域,具体涉及一种基于众包的中文旅游领域知识服务平台知识库更新方法,该方法融合了群智
感知、
知识表示与推理、
信息检索与
抽取、
自然语言处理、知识图谱等多种学科,通过群智感知技术中众包(Crowdsourcing)的方法完成知识库的自动、及时更新,从而实现更精准、高效地为用户提供旅游知识服务。
背景技术
[0002] 在
物联网、移动互联网和
大数据发展背景下,群体感知与群智协同是近年发展起来的一种新的“以人为中心”的大规模感知和计算模式,成为当前学术和产业界共同关注的热点,也是国家“新一代
人工智能发展规划”的重要内容。它通过群体的参与性和协作性完成复杂的感知和计算任务,在智慧城市、环境监测、智能交通、公共安全等领域具有重要的应用前景。而众包技术正是群智感知发展的
基础,其在实例匹配、信息检索等领域都有很多经典的应用。Hike是一种解决大规模知识库间实例匹配的众包方法,其通过定义实例对之间的偏序关系,根据构建的偏序结构和已知问题答案来推断未知问题答案,再基于假设定义实例对和问题集的推断期望,根据推断期望选出最佳问题分发给众包参与者;总部位于芝加哥的初创企业CrowdFind是一个众包平台,主要功能是“众包搜索”,平台通过地理
位置定位,建立了一个智能手机和互联网用户的虚拟搜索团队,用来查找丢失的物件、动物或人并物归原主。
[0003] Web1.0
万维网的出现使得知识从封闭知识走向开放知识,从集中知识成为分布知识。原来
专家系统是系统内部定义的知识,现在可以实现知识源之间的相互链接(Linked Data),可以通过关联来产生更多的知识而非完全由固定人生产。这个过程中出现了
群体智能,最典型的代表就是维基百科,实际上是通过用户去建立知识,体现了互联网大众用户对知识的贡献,成为今天大规模结构化知识库的重要基础,知识库以结构化的形式描述客观世界中的概念、实体及其关系,将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能
力。随着国民
生活质量的提高,旅游在人民的日常生活中扮演着越来越重要的
角色,但是游客在面对互联网上海量的旅游数据时常常感到束手无策。
[0004] 面对互联网上复杂、异构、动态、多模态的旅游数据,如何抽取出高质量的结构化知识构建旅游知识库,从而可以从数据中识别、发现和推断事物与概念之间的复杂关系,并通过
可视化和知识卡片的形式呈现在游客面前;以及,在知识库构建完成且尽可能节约人力资源成本的基础上,如何自动、及时地更新知识库等是当前亟待解决的问题。
发明内容
[0005] 本发明的目的在于针对上述
现有技术无法有效处理互联网上复杂、异构、动态、多模态的旅游数据以及不能自动且及时地更新知识库的问题,提供一种基于众包的中文旅游领域知识服务平台知识库更新方法,能够以快速、准确且节约成本的方式获取任务结果,并使整个中文旅游领域知识服务平台知识库更新流程形成一个闭环,使其能够定时、自动更新。
[0006] 为了实现上述目的,本发明有如下的技术方案:
[0007] 一种基于众包的中文旅游领域知识服务平台知识库更新方法,包括步骤:
[0008] 通过旅游实体名称构建出旅游实体库;
[0009] 通过与结构化中文百科类数据集进行实体匹配抽取出旅游知识,构建出旅游知识库;
[0010] 在旅游知识库的基础上搭建中文旅游领域知识服务平台;所述中文旅游领域知识服务平台的搭建方法包括旅游实体知识图谱的可视化方法以及旅游实体知识卡片展示中的实体链接方法;所述的旅游实体知识卡片包括Infobox属性和实体百科标签;
[0011] 通过众包的方法统计出不同用户在中文旅游领域知识服务平台上的旅游实体搜索记录定时获取新的旅游实体;再通过抽取出的新的旅游知识来更新旅游知识库。
[0012] 优选的,采用网页爬取方法从现有的旅游
网站上爬取旅游实体名称来构建出旅游实体库;
[0013] 所述的旅游实体名称包括全国34个省、直辖市、自治区、特别行政区的旅游景点。
[0014] 优选的,所述旅游实体库的具体构建方法为:使用Python编程语言编写网页爬虫程序,通过程序模拟浏览器
请求站点的行为,把站点返回的HTML代码爬到本地,进而提取所需要的旅游实体名称数据,将旅游实体名称数据存储到本地设备中来构建出旅游实体库。
[0015] 优选的,所述的结构化中文百科类数据集从互联网中获取三元组Dump数据组成,Dump数据包括CN-DBpedia、Zhishi.me提供的数据,将获取得到的数据集存储到本地设备;当进行实体匹配时编写Python脚本将旅游实体库与三元组Dump数据进行匹配抽取出旅游知识。
[0016] 优选的,所述的三元组Dump数据包含实体名称、属性名称、属性值,中间用tab分隔;
[0017] 旅游知识库中的旅游知识数据对语料以标签进行标注。
[0018] 优选的,所述的旅游实体知识图谱的可视化方法如下:
[0019] 使用Ajax交互技术,通过XmlHttpRequest对象向
服务器发出获取本实体相关知识的异步请求,服务器按照请求从本地设备存储的旅游知识库中获得相关知识数据并以JSON格式返回给前台,利用JavaScript脚本将JSON数据部署到Echarts.js配置项的各个
节点上,从而最终实现将旅游实体知识图谱在前台JSP页面中展示在用户面前。
[0020] 优选的,所述旅游实体知识卡片展示中的实体链接方法如下:
[0021] 获取JSON格式的相关知识数据并返回给前台,利用JavaScript脚本,通过对数据中实体不同属性的判断,将数据在前台JSP页面中分别展示到知识卡片区域中的简介、Infobox、百科标签位置,并将有标注的JSON数据对应的实体实现识别和链接。
[0022] 优选的,通过众包的方法获取新的旅游实体具体步骤如下:
[0023] 1)获取不同用户在中文旅游领域知识服务平台上的旅游实体搜索记录;
[0024] 2)将用户旅游实体搜索记录与旅游实体库进行比较;
[0025] 3)判断旅游实体库中是否存在用户搜索实体;
[0026] 4)如果旅游实体库中没有用户搜索实体,则将该实体加入旅游实体库。
[0027] 相较于现有技术,本发明至少具有如下的有益效果:通过构建旅游实体库并与现有大规模通用领域结构化高质量的中文百科类数据集进行匹配,抽取出旅游知识从而构建出旅游知识库;在旅游知识库构建完成的基础上,搭建旅游领域知识服务平台,在此过程中,采用了一种旅游实体知识图谱的可视化方法和旅游实体知识卡片展示中的实体链接方法;其次,使用群智感知技术中众包的方法利用旅游知识服务平台上不同用户的实体搜索记录,来发现和和统计新的旅游实体,对其进行排序处理后存储到本地设备。本发明知识库更新方法通过将获取新实体的任务转嫁给大量不同用户,进而以更快速、准确且节约成本的方式获取任务结果,从而大大提高了解决该问题的效率,最终将获取到的新的旅游实体通过与上述现有的中文百科类Dump数据进行匹配抽取出新的旅游知识来更新知识库,从而使整个中文旅游领域知识服务平台知识库更新流程形成一个闭环,使其能够定时、自动更新。
附图说明
[0028] 图1本发明中文旅游领域知识服务平台知识库更新方法的流程示意图;
[0029] 图2本发明旅游知识库构建流程示意图;
[0030] 图3通过众包的方法获取新的旅游实体流程示意图。
具体实施方式
[0031] 下面结合附图及
实施例对本发明做进一步的详细说明。
[0032] 参见图1,本发明基于众包的中文旅游领域知识服务平台知识库更新方法,有以下步骤:
[0033] S1:从旅游网站上爬取全国34个省、直辖市、自治区、特别行政区的旅游实体名称构建出旅游实体库;
[0034] 在国内知名、权威旅游网站(携程旅行、飞猪旅行、欣欣旅游等)站点,使用Python编程语言编写网页爬虫程序,通过程序模拟浏览器请求站点的行为,把站点返回的HTML代码爬到本地,进而提取自己需要的旅游实体名称数据,存储到本地设备中来构建出旅游实体库。
[0035] S2:通过与现有大规模通用领域结构化高质量的中文百科类数据集进行实体匹配抽取出旅游知识从而构建出旅游知识库。本发明旅游知识库构建过程如图2所示,包括以下两部分:
[0036] 1.从互联网上获取大规模通用领域结构化高质量的中文百科类三元组Dump数据;
[0037] 从现有大规模通用领域结构化中文百科类知识库网站上获取三元组Dump数据存储到本地设备,包括Zhishi.me、CN-DBpedia(其官网免费提供三元组格式数据下载,数据包括百度百科、互动百科和中文维基百科知识)数据集提供的数据。
[0038] 以CN-DBpedia为例,其已经从百科领域延伸至法律、工商、金融、文娱、科技、军事、教育、医疗等十多个垂直领域,为各类行业智能化应用提供
支撑性知识服务。CN-DBpedia三元组Dump数据文件是txt格式,每行一条数据,每条数据是一个(实体名称,属性名称,属性值)的三元组,中间用tab分隔,具体如下所示:(华清池所属地区陕西西安),共包含900万+的百科实体以及6700万+的三元组关系。其中mention2entity信息110万+,
摘要信息400万+,标签信息1980万+,Infobox信息4100万+;
[0039] 2.通过将实体库与上述百科类三元组Dump数据进行匹配抽取出旅游知识从而构建旅游知识库。
[0040] 编写Python脚本将S1中构建的旅游实体库与上述百科类三元组Dump数据进行匹配抽取出旅游知识来构建完成旅游知识库。需要指出的是,获取到的数据已经对语料做了标注,以“
”标签为标记,以此来实现实体发现、链接(Linked Data)。以“华清池”实体为例,我们获取到的实体知识包括:(华清池 BaiduCARD 华清池,亦名华清宫,位于陕西省西安市临潼区骊山北麓,西距西安30公里,南依骊山,北临渭水,是以
温泉汤池著称的中国古代离宫,周、秦、汉、隋、唐历代统治者,都视这
块风水宝地为他们游宴享乐的行宫别苑,或砌石起宇,兴建骊山汤,或
周筑罗城,大兴温泉宫。白居易、杜牧等诗人在诗作中均有提及。|||历史文献及考古发掘的资料证明,华清池具有6000年温泉利用史和3000年的皇家园林建筑史。1982年,华清池被列为全国第一批重点风景名胜区,2007年5月8日,华清池景区被批准为国家5A级旅游景区。)、(华清池 BaiduTAG 地点)、(华清池 BaiduTAG 旅游)、(华清池 BaiduTAG 自然地理)、(华清池 BaiduTAG 景点)、(华清池 BaiduTAG 地理)、(华清池 中文名 华清池)、(华清池 主要景点 九龙湖)、(华清池 主要景点 芙蓉园)、(华清池 外文名 Huaqing Palace Heritage Site)、(华清池 性质 国家AAAAA级旅游示范景区)、(华清池 所属地区 陕西西安)、(华清池 所属景区 唐华清宫遗址)、(华清池 重建时间1959年)。
[0041] S3:在旅游知识库构建完成基础上搭建中文旅游领域知识服务平台;
[0042] 后台使用Java编程语言和SpringMVC架构,前台使用JSP(JavaServer Pages)动态网页技术、JavaScript脚本和Echarts.js数据驱动的可视化组件并通过Ajax交互技术搭建而成,提出并实现了一种旅游实体知识图谱的可视化方法和旅游实体知识卡片(包括Infobox属性和实体百科标签)展示中的实体链接(Linked Data)方法。旅游实体知识图谱的可视化方法,具体是使用Ajax交互技术,通过XmlHttpRequest对象向服务器发出获取本实体相关知识的异步请求,服务器按照请求从本地设备存储的旅游知识库中获得相关知识数据并以JSON格式返回给前台,利用JavaScript脚本将JSON数据部署到Echarts.js配置项的各个节点上从而实现了将旅游实体知识图谱在前台JSP页面中展示在用户面前;旅游实体知识卡片(包括Infobox属性和实体百科标签)展示中的实体链接(Linked Data)方法,其JSON数据的获取与实体知识图谱的可视化方法一样,数据返回给前台后,利用JavaScript脚本,通过对数据中实体不同属性的判断,将数据在前台JSP页面中分别展示到知识卡片区域中的简介、Infobox、百科标签位置,并将有标注的JSON数据中的实体实现识别和链接。
[0043] S4:通过众包(Crowdsourcing)的方法统计出不同用户在平台上的旅游实体搜索记录定时获取新的旅游实体。具体通过以下过程实现:
[0044] 群智感知技术中众包的方法是指一种在线、分布式的问题解决和生产模型,通过将原始问题在线发布给大量不同用户,进而以更快速、准确且节约成本的方式获取任务结果,从而大大提高了解决问题的效率。具体到本发明中是指:使用众包的方法利用旅游知识服务平台上不同用户的实体搜索记录,通过将用户搜索的实体记录与旅游实体库比较,如果未录入本地实体库,则通过后台Java程序将该旅游实体和搜索次数存储到本地设备并对其进行排序处理。通过将获取新实体的任务转嫁给大量不同用户,进而以更快速、准确且节约成本的方式获取任务结果,从而大大提高了解决该问题的效率。
[0045] 参见图3,通过众包的方法获取新的旅游实体具体步骤如下:
[0046] 1)获取不同用户在中文旅游领域知识服务平台上的旅游实体搜索记录;
[0047] 2)将用户旅游实体搜索记录与旅游实体库进行比较;
[0048] 3)判断旅游实体库中是否存在用户搜索实体;
[0049] 4)如果旅游实体库中没有用户搜索实体,则将该实体加入旅游实体库。
[0050] S5:再通过上述与现有大规模通用领域结构化高质量的中文百科类数据集进行实体匹配抽取出新的旅游知识来更新知识库,从而形成一个闭环。
[0051] 使用S2步骤中的Python脚本,将新的旅游实体与现有大规模通用领域结构化高质量的中文百科类Dump数据进行匹配抽取出新的旅游知识来更新知识库,供旅游知识服务平台使用,从而使整个知识库更新流程形成一个闭环,使其能够定时、自动更新。
[0052] 至此,本发明基于众包的中文旅游领域知识服务平台知识库更新方法全部完成。
[0053] 本发明技术方案的特点在于,在旅游知识服务平台搭建完成基础上通过使用群智感知技术中众包方法这种线上、分布式问题解决模型来更新平台知识库,通过将获取新旅游知识的任务转嫁给大量不同游客用户,进而以更快速、准确且节约成本的方式获取任务结果,从而大大提高了解决该问题的效率,方便游客准确、及时的获取高质量的旅游知识服务。
[0054] 需要说明的是,上述实施例提供的一种基于众包的中文旅游领域知识服务平台知识库更新方法,仅就上述各功能步骤进行举例说明,实际应用中可以根据需要而将上述步骤进行重新排列组合来完成相应的功能,具体实施例中引入细节的目的不是限制
权利要求书的范围,而是帮助理解本发明所述方法。本发明所述技术领域中通常知识者凡在本发明的精神和原则之内,所作的任何
修改、等同替换、改进等,均应包含在本发明的保护范围之内。