首页 / 专利库 / 软件 / 网络机器人 / 网络爬虫 / 基于网络大数据的路况实时分析系统

基于网络大数据的路况实时分析系统

阅读:138发布:2020-05-12

专利汇可以提供基于网络大数据的路况实时分析系统专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于网络 大数据 的路况实时分析系统,该系统包括:微博 数据采集 与预处理模 块 、微博分类模块、微博 命名实体 识别模块以及交通事件归类与 可视化 模块;其中,所述的微博数据采集与预处理模块主要通过 网络爬虫 随机收集大量相关的原始微博数据并对这些数据进行一定的去除噪音预处理,并将所有收集到的数据传至微博分类模块;所述微博分类模块主要负责制定有效微博交通信息的评判标准,并以此为依据划分微博信息,构建训练集,利用不同的 文本分类 算法 进行测试,最后,综合考虑各种因素选出最适合本系统的分类算法。,下面是基于网络大数据的路况实时分析系统专利的具体信息内容。

1.基于网络大数据的路况实时分析系统,其特征在于,所述系统包括:微博数据采集与预处理模、微博分类模块、微博命名实体识别模块以及交通事件归类与可视化模块;其中,所述的微博数据采集与预处理模块主要通过网络爬虫随机收集大量相关的原始微博数据并对这些数据进行一定的去除噪音预处理,并将所有收集到的数据传至微博分类模块;
所述微博分类模块主要负责制定有效微博交通信息的评判标准,并以此为依据划分微博信息,构建训练集,利用不同的文本分类算法进行测试,最后综合考虑各种因素选出最适合本系统的分类算法;所述微博命名实体识别模块主要负责对微博蕴含交通信息的实体名词进行定义,讨论不同实体名词标注方案的优劣,建立了微博交通信息实体的界定方法,最后讨论并确定了最适合本系统的实体识别算法;所述交通事件归类与可视化模块主要负责用关键词对采集的微博交通事件作简要归类,实现可视化模块中信息分类浏览的功能。

说明书全文

基于网络大数据的路况实时分析系统

技术领域

[0001] 本发明属于大数据分析技术领域,涉及一种基于网络大数据的路况实时分析系统。

背景技术

[0002] 进入新世纪,我国交通信息化建设快速推进,公交车或出租车上的GPS轨迹数据、磁感线圈数据、视频监控数据大量涌现,基于这些数据的交通状态感知与预测技术发展迅速。
[0003] 基于车辆GPS轨迹、磁感线圈、视频监控等数据的交通分析方法在智能交通系统的建设和发展中发挥了重要作用,然而这些数据自身结构和特点也使它们在某些应用方面存在不足:
[0004] 1)某些时刻很多路段上并没有出租车行驶,浮动车数据一定程度上缺乏完整性;感应线圈的埋置深度、性能和寿命、线圈与导线接头的可靠性和防潮绝缘性能等均有待进一步完善和改进,而视频检测设备在气象恶劣的情况和低光照强度下,很难得到清晰可靠的图像。
[0005] 2)基于移动目标速度感知方式的交通信息采集手段在运营成本和时空覆盖范围上仍然存在较大的局限性;节假日交通出行由于受到天气、旅游商业等特殊活动,以及服务价格、交通事故等多种偶发、可变因素影响,难以通过历史数据作出有效预测,导致交通突发事件常常预报失当、应对失当。

发明内容

[0006] 本发明目的在于克服现有技术的不足,提供一种基于网络大数据的路况实时分析系统,利用支持向量机算法,条件随机场算法以及事件提取模型完成微博的分类、命名实体识别与交通事件提取,能够自动采集、分类、提取微博中的有效交通信息并在地图上进行可视化标注,实现在交通信息采集系统建设较为薄弱的地区可以为交通管理提供信息补充,有效地解决为交通管理部及时提供交通舆情及突发交通事件的态势、影响范围、起因等信息。
[0007] 为解决上述技术问题,本发明采用如下的技术方案:一种基于网络大数据的路况实时分析系统,该系统包括:微博数据采集与预处理模、微博分类模块、微博命名实体识别模块以及交通事件归类与可视化模块;其中,所述的微博数据采集与预处理模块主要通过网络爬虫随机收集大量相关的原始微博数据并对这些数据进行一定的去除噪音预处理,并将所有收集到的数据传至微博分类模块;所述微博分类模块主要负责制定有效微博交通信息的评判标准,并以此为依据划分微博信息,构建训练集,利用不同的文本分类算法进行测试,最后综合考虑各种因素选出最适合本系统的分类算法;所述微博命名实体识别模块主要负责对微博蕴含交通信息的实体名词进行定义,讨论不同实体名词标注方案的优劣,建立了微博交通信息实体的界定方法,最后讨论并确定了最适合本系统的实体识别算法;所述交通事件归类与可视化模块主要负责用关键词对采集的微博交通事件作简要归类,实现可视化模块中信息分类浏览的功能。
[0008] 本发明与现有技术相比具有以下的有益效果:
[0009] 本发明方案利用支持向量机算法、条件随机场算法以及事件提取模型完成微博的分类、命名实体识别与交通事件提取,能够自动采集、分类、提取微博中的有效交通信息并在地图上进行可视化标注,实现在交通信息采集系统建设较为薄弱的地区可以为交通管理提供信息补充,有效地解决为交通管理部门及时提供交通舆情及突发交通事件的态势、影响范围、起因等信息。附图说明
[0010] 图1是基于网络大数据的路况实时分析系统的框架图。

具体实施方式

[0011] 下面结合附图及具体实施例对本发明进行更加详细与完整的说明。可以理解的是,此处所描述的具体实施例仅用于解释本发明,而非对本发明的限定。
[0012] 参照图1,本发明的一种基于网络大数据的路况实时分析系统,该系统包括:微博数据采集与预处理模块、微博分类模块、微博命名实体识别模块以及交通事件归类与可视化模块;其中,所述的微博数据采集与预处理模块主要通过网络爬虫随机收集大量相关的原始微博数据并对这些数据进行一定的去除噪音预处理,并将所有收集到的数据传至微博分类模块;所述微博分类模块主要负责制定有效微博交通信息的评判标准,并以此为依据划分微博信息,构建训练集,利用不同的文本分类算法进行测试,最后综合考虑各种因素选出最适合本系统的分类算法;所述微博命名实体识别模块主要负责对微博蕴含交通信息的实体名词进行定义,讨论不同实体名词标注方案的优劣,建立了微博交通信息实体的界定方法,最后讨论并确定了最适合本系统的实体识别算法;所述交通事件归类与可视化模块主要负责用关键词对采集的微博交通事件作简要归类,实现可视化模块中信息分类浏览的功能。
[0013] 其中,所述的微博数据采集与预处理模块首先运行网络爬虫,通过设置好的关键词随机收集4万条相关的原始微博数据。
[0014] 原始微博数据的每一条信息包含:微博发布时间,官方标记(是否源于认证的官方微博),微博正文,微博定位地点。原始微博正文中可能含有一些特定符号,包括表情符号、话题标签(##)、链接、转义字符、用户引用(@符号)以及多余的空格等,这些内容没有实际含义与信息,剔除后不影响全文语义表达。使用Python的正则表达式模块对这些符号匹配剔除。同时,为了减小微博不准确信息和不真实信息经大量转发后的扩散影响,在抓取微博时仅对原创微博进行抓取,不使用转发微博。数据预处理后,得到了标准化的微博数据。
[0015] 所述微博分类模块采用机器学习的方法进行微博分类,解决微博内容语义消歧与交通话题筛选问题。首先,制定了有效微博交通信息的评判标准,并以此为依据划分微博信息,构建训练集;其次,利用不同的文本分类算法进行测试;最后,综合考虑各种因素选出最适合本系统的分类算法。
[0016] 根据微博内容是否与交通信息有关进行评判,将抽取到的微博分为有效微博与无效微博,其定义如下:
[0017] 定义1,有效微博包含“堵”、“车祸”、“剐蹭”、“事故”、“绕行”、“路”、“追尾”、“相撞”、“塞车”、“高速”等关键词,所讨论的话题属于交通话题,且描述实际交通情况。例如:“大鹏片区南西路沙坑农庄路段发生小车追尾事故,民警正在现场处理事故,疏导交通。”[0018] 定义2,无效微博包含“堵”、“车祸”、“剐蹭”、“事故”、“绕行”、“路”、“追尾”、“相撞”、“塞车”、“高速”等关键词,但其描述的话题与交通无关,或者其虽然属于交通话题,但并不描述实际交通情况。例如:“黄山再美都被人挤人的人群给淹没了还好下山不堵。”、“交通管理部门要求:1、小汽车的司机和前排乘客必须系好安全带–这样可以防止惯性的危害;
2、严禁车辆超载–不仅仅减小车辆对路面的破坏,还有减小摩擦、惯性等;3、严禁车辆超速–防止急刹车时,因反应距离和制动距离过长而造成车祸”。
[0019] 本发明通过人工浏览标准化微博数据库中的4万条微博,从中人工分类出5000条有效微博与5000条无效微博,去除停止词后,分别存入两个文档中,其分类标签分别为1和0。在微博分类之前,需要将文本向量化,所构建的文本分类器使用隐性语义分析
(LatentSemanticAnalysis,LSA)进行向量化。
[0020] 微博分类算法文本分类算法则主要基于朴素贝叶斯(NaiveBayes,NB)、K最近邻(k-NearestNeighbor,KNN)、支持向量机(SupportVectorMachine,SVM)、决策树(DecisionTree,DT)等算法。Scikitlearn是Python中的一个机器学习包,提供了多种分类器算法。其中,SVM形参kernel的值代表其分类时所采用的核函数,本测试取linear、rbf、sigmoid、poly四种核函数;KNN方法中,K表示分类决策时选取的最相似数据的个数,测试选取1NN、3NN、5NN;NB方法中,可以选择不同的模型训练,选取高斯模型(GaussianNB)和多项式模型(MultinomialNB);DT方法中,形参criterion表示构造决策树时节点测试属性选取的标准,测试选取信息熵(entropy)和基尼不纯度(gini)。研究中使用得到的微博分类训练集训练分类模型。在训练分类模型时,采用十折交叉验证法,对十次训练得到的模型评估参数取平均值作为最终评估模型的参数。选择MUC会议制定的评估体系。其评价模型性能的指标有准确率(Precision)、召回率(Recall)和F-Score。其中,准确率是预测结果为有效微博中预测正确的比例,召回率是预测结果为有效微博中预测正确的数量占全部人工标注的有效微博数量的比例,F-Score的计算公式如下:
[0021]
[0022] 其中λ是召回率相对于准确率的权重,当λ取值小于1时,结果偏向准确率;大于1时,结果偏向召回率。在本次分类中,准确率和召回率同等重要,λ取值为1。
[0023] SVM算法总体表现优异,采用的各种核函数中,线性核表现最优,表明文本向量化得到的数据是线性可分的;KNN算法整体的表现不佳,这与KNN算法的归纳偏置密切相关:一个新数据的分类标签总是与其在欧式空间中若干个临近数据的多数标签相同。在算法应用的过程中,数据间的距离是根据数据的所有属性计算的,近邻间的距离往往会被大量的不相关属性所主导,从而降低KNN算法的分类性能。对比不同k值的KNN算法可以看出,当k增大时,分类性能有所提升,说明在一定范围内k值增大能够更好地排除错误数据与噪声的影响,提高分类性能;朴素贝叶斯分类器采用不同的模型时,分类性能差异较大。高斯分布的朴素贝叶斯分类器的性能明显低于多项式分布的朴素贝叶斯分类器。其原因在于,GaussianNB假定训练集中的各样本特征值服从高斯分布,而这一假定并不一定符合微博语料的实际情况。MultinomialNB以文档中的单词作为特征,对应的特征值是单词在文档中出现的次数,是典型的词袋模型,适用于文本分类;决策树算法在测试中表现较差。构造决策树时节点测试属性选取标准的不同,并不会对最终的分类性能产生明显的影响。
[0024] 所述微博命名实体识别模块同样采用机器学习的方法进行微博命名实体识别,解决微博内容中交通信息的有效识别与提取问题。首先,对微博蕴含交通信息的实体名词进行定义;其次,讨论了不同实体名词标注方案的优劣,建立了微博交通信息实体的界定方法;最后,讨论并确定了最适合本系统的实体识别算法。
[0025] 在对微博分类后,我们使用所述命名实体识别模块(NamedEntityRecognition,NER)对有效标准微博数据进行时间实体和地点实体的识别。
[0026] 最常见的两种命名实体识别方法为基于语法规则的方法和基于机器学习的方法。前者在所制定的规则适应于相对应文本情景的情况下具有良好的表现,但在面对陌生随机文本时表现不佳。后者的优点在于它可以利用标记文本反复训练,适应性强,维护成本远小于基于语法规则的方法。基于机器学习的方法又分为有监督、半监督和无监督方法。由于后者无需太多的语言学知识,且有监督的机器学习方法只需通过训练模板设定待考察的特征,并用算法对人工标注真值的训练集进行训练,便可得出相应的模型文件用于实体识别,简单易用,对随机文本适应性强。所以,选择基于有监督的机器学习算法完成微博命名实体识别的工作。由于命名实体识别需要基于词序列进行建模,使用LTP分词工具将每一条微博文本切分为词序列并标注词性后进行序列标注。
[0027] 选取分类阶段中筛选出的5000条未过滤停止词的有效微博进行分词序列化处理及词性标注,并进行人工命名实体标注,作为训练真值。其中训练文件每一行又由多个列元素组成。每一个标记行的列元素取决于具体的任务需求,总的来说,每行的第一列元素为句子中的一个“词”,之后的每个列元素为这个词的属性。列元素之间以空格隔开。虽然列元素的数量是任意的,但是同一组训练文件和测试文件中,每行的列元素类型需要一一对应。每一行的最后一个列元素为真值标记,它将作为训练的参考目标。
[0028] 在标注命名实体的过程中,我们发现,较长的交通地点实体常常占据5~7个窗口,且由多个短地点实体组成,导致不同的人对同一个地点实体的标注会有不同的结果。
[0029] 在连续的地理位置描述中,以两个相同等级的地名为地点实体分隔点,每个地点实体由最高等级地名开始至最低等级地名结束。例如“G30连霍高速宝天段观音山隧道”这一描述中,“G30”是“连霍高速”的代号,故二者属于平行关系,我们将“G30”作为单独的地点实体。“连霍高速”和“观音山隧道”分别是该描述中最高级和最低级的地名,故我们将“连霍高速宝天段观音山隧道”标注为一个地点实体。“附近”一词不具有定位意义,不作标注。该方法能够清晰地标定微博文本中的交通地点实体,减少判定尺度不一致带来的误差,为解决微博交通信息提取提供了可行方案。
[0030] 较常用的用于命名实体识别的序列标注算法有:最大熵尔科夫模型(MaximumEntropyMarkovModel,MEMM),隐性马尔科夫模型(HiddenMarkovModel,HMM),条件随机场模型(ConditionalRandomField,CRF)以及支持向量机模型
(SupportVectorMachine,SVM)。对于序列标注问题,隐性马尔科夫模型的识别速度快,但对观察序列的多个非独立特征建模存在困难。支持向量机模型则需要进行两步操作,先对各行独立分配标签,再进行调整,这种方式忽略了状态转移和观察之间的紧密关系。最大熵马尔科夫模型虽然克服了HMM模型输出独立性假设的缺点,但只在局部统计归一化概率,且会产生标注偏置的问题。条件随机场模型汲取了HMM和SVM的优点,特征设计灵活,可以容纳任意的上下文信息,被广泛运用于诸如命名实体识别等多种自然语言处理任务中。而CRF与MEMM相比,CRF模型计算的是全局最优输出节点的条件概率,也克服了标注偏置的问题。虽然CRF复杂度高,训练代价大,但在使用时速度满足本系统的使用要求。所以,我们拟运用CRF++工具包对CRF算法的性能进行测试。在测试CRF算法时,为了得到最准确的模板,我们采用了六套适合我们数据结构的模板进行试验,以期得到一个准确率和召回率最高的模板。
[0031] 系统运用训练好的CRF模型对词序列进行标注,逐行遍历标注结果并提取出相关的词语并将其组合起来,系统通过标签尾部的Ns和Nm标识判断该词是一个交通地点实体还是一个交通时间实体的组成部分,再通过标签前部的B、I、E、S标识判断该词属于该实体的哪一部分。若是S标签,该词即为一个完整的实体;若是B标签,则读取至下一个E标签处,将这两个标签之间对应的词组合起来作为一个实体。在获取了微博中的交通时间实体和交通地点实体后,我们不能直接将其作为交通事件的发生时间和地点。因为我们在采集微博时获得了微博的发布时间,所以我们通过系统将交通时间实体数字化后,选取两个时间中较早的时间作为事件发生时间。同时,在微博定位地点不缺省时,文中优先选择微博定位地点作为事件发生地点。最后,使用百度地址解析API将其转化为GPS坐标供可视化模块调用。
[0032] 所述交通事件归类与可视化模块在这个部分用关键词对采集的微博交通事件作简要归类,实现可视化模块中信息分类浏览的功能。交通事件类别,统计每一类中出现频率最高的词,从高频率词表中选取具有代表性的且与交通相关的词语作为该类别对应的关键词库。在进行微博事件归类的过程中,我们用每一个关键词库中的词语对微博进行匹配,若微博中含有该词语,则我们将该微博贴上相应类别标签。例如涉及车辆相撞等事故的的微博中,可能出现”撞”、”追尾”、”剐蹭”等词语,将这些词语作为车辆相撞类别的关键词库。由于交通事件之间常具有一些因果关联,如事故可能导致路段拥堵,所以每一条微博可能同时具有多个类别标签。值得注意的是,由于本环节处理的微博已是有效微博,所以不需考虑一词多义等问题。
[0033] 本系统的可视化模块桌面端基于Web平台构建,采用PHP语言编写。可视化模块移动端基于安卓平台构建,采用Java语言编写。系统对获取到的原始微博信息进行处理后获得了交通事件发生的时间、地理坐标以及事件类型等信息,可视化模块读取上述格式的数据后根据不同的事件类型用不同颜色的图标在地图上进行可视化标记,点击该图标,会弹出具体的事件信息。对于含有多个类别标签的数据,我们以封路、施工、车辆相撞、路况拥堵、路况正常、其它的优先级顺序显示标记的颜色。
[0034] 以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈