首页 / 专利库 / 制造过程 / 汽车制造商 / 用于产品故障检测的执行数据的自动分析的装置和方法

用于产品故障检测的执行数据的自动分析的装置和方法

阅读:84发布:2020-08-10

专利汇可以提供用于产品故障检测的执行数据的自动分析的装置和方法专利检索,专利查询,专利分析的服务。并且本 发明 提出用于执行用于产品故障检测的分析输入数据(例如社交媒体数据和/或车载诊断数据)的自动分析的装置和方法。实行数据分析处理,其包括:单词计数处理,其确定单词计数数量,所述单词计数数量指示在所述社交媒体数据中的用户创建的文本文档中的 数据库 的关键词的出现 频率 ;相关性确定处理,其对于多个关键词对中的每个,确定相关性系数;相关性链接识别处理,其识别确定的相关性系数是否超过相关性 阈值 的相关性链接的关键词对,以及相关性组识别处理,其基于所识别的相关性链接的关键词对来识别关键词的相关性组;以及如果识别关键词中的一个或多个相关性组,则输出指示关键词的一个或多个识别的相关性组中的至少一个的分析结果数据。,下面是用于产品故障检测的执行数据的自动分析的装置和方法专利的具体信息内容。

1.一种用于自动数据分析的方法,包括:
-提供(S1)指示多个关键词的一个或多个数据库
-提供(S2)从一个或多个数据源获取的分析输入数据,以及预处理(S3)所述分析输入数据以生成可用于数据分析处理的预处理的分析输入数据,所述分析输入数据包括分别与多个数据样本中的至少一个相关联的多个文本文档;
-实行(S4)所述预处理的分析输入数据的数据分析处理,包括:
-单词计数处理(S42),其确定单词计数数量,对于所述多个数据样本的每个数据样本,所述单词计数数量指示所述预处理的分析输入数据的所述文本文档中的一个或多个数据库的关键词的出现频率
-相关性确定处理(S44),其对于多个关键词对中的每个关键词对,确定与各自的关键词对相关联的各自的相关性系数,所述各自的相关性系数指示在对于所述多个数据样本的所述各自的关键词对的所述关键词的确定的单词计数数量之间的相关性的定量测量,-相关性链接识别处理(S45),其识别相关性链接的关键词对,其中基于相关性标准,关键词对中的关键词被确定为彼此相关性链接,所述相关性标准包括与所述各自的关键词对相关联的确定的相关性系数是否超过相关性阈值的标准,以及
-相关性组识别处理(S48),其基于所识别的相关性链接的关键词对来识别关键词的相关性组,每个相关性组包括至少一个相关性链接的关键词对的关键词,并且对于在所述各自的相关性组中每个关键词,所述各自的相关性组进一步包括被识别为相关性链接到所述各自的关键词的其它关键词;以及
-如果识别关键词中的一个或多个相关性组,输出(S5)指示关键词的一个或多个识别的相关性组中的至少一个相关性组的分析结果数据。
2.根据权利要求1所述的方法,其中
所述数据分析处理(S4)进一步包括:
-在所述相关性确定处理之前,省略不能满足频率标准的关键词;
所述频率标准包括对于所述数据样本中的至少一个的各自的关键词的确定的单词计数数量是否超过频率阈值的标准,和/或对于所述多个数据样本的各自的关键词的平均单词计数数量是否超过所述频率阈值的标准。
3.根据权利要求2所述的方法,其中
所述数据分析处理(S4)进一步包括:
-基于与所述确定的数据样本相关联的文本文档的总数,对于确定的数据样本,调节被应用于确定的单词计数数量的所述频率阈值;
-基于所述多个数据样本的文本文档的总数,对于所述多个数据样本,调节被应用于确定的平均单词计数数量的频率阈值;
-基于一个或多个可信性权重因素来调节所述频率阈值,所述一个或多个可信性权重因素指示作为所述文本文档中的一个或多个的创建者的一个或多个用户的可信性平,和/或一个或多个数据源的可信性水平。
4.根据前述权利要求中的任一个所述的方法,其中
所述数据分析处理(S4)进一步包括:
-距离确定处理(S46),用于对于所述多个关键词对中的每个关键词对,确定与所述各自的关键词对相关联的各自的距离系数,所述各自的距离系数指示在所述预处理的分析输入数据的每个各自的文本文档中的各自的关键词对的关键词的相对距离;
其中在所述相关性链接识别处理中应用的所述相关性标准进一步包括,与所述各自的关键词对相关联的所述确定的距离系数是否超过距离阈值的标准。
5.根据权利要求4所述的方法,其中
与所述各自的关键词对相关联的所述距离系数在最大距离系数值与最小距离系数值之间的范围中确定,该最大距离系数值指示在多个文本文档中,所述各自的关键词对中的关键词一起出现,特别是彼此接近和/或邻近,所述最小距离系数值指示在所述文本文档的任一个文本文档中,所述各自的关键词对中的所述关键词不一起出现。
6.根据权利要求4或5所述的方法,其中
提供(S1)一个或多个数据库包括:
提供第一数据库,其指示对于所述相关性确定处理而实行的所述单词计数处理的多个关键词,以及
提供第二数据库,其指示对于所述距离确定处理而实行的所述单词计数处理的多个关键词,
其中所述第二数据库包括在所述第一数据库中包括的全部关键词以及不包括在所述第一数据库中的额外的关键词;
其中所述方法进一步包括机器学习过程,其包括:
如果所述距离确定处理识别一个或多个关键词对,通过将来自所述第二数据库的一个或多个关键词添加到所述第一数据库来更新所述第一数据库,所述一个或多个关键词对满足与所述各自的关键词对相关联的确定的距离系数超过距离阈值的标准并且包括已经包括在所述第一数据库中的各自的关键词以及先前不包括在所述第一数据库中的另一个各自的关键词;以及
基于所更新的第一数据库的一个或多个添加的关键词,重复用于所述相关性确定处理的所述单词计数处理和所述相关性确定处理。
7.根据前述权利要求中的任一个所述的方法,其中
所述一个或多个数据库中的至少一个数据库包括被满射地映射到所述多个关键词上的多个搜索项,使得每个搜索项被映射到所述多个关键词中的一个关键词,并且每个关键词与被映射到所述各自的关键词的所述多个搜索项中的一个或多个相关联;
其中生成所述预处理的分析输入数据的预处理包括:识别在所述文本文档中的搜索项的出现,并且基于所述一个或多个数据库中的至少一个数据库,将所述识别的搜索项替代为它们各自的关联的关键词;或者
其中单词计数处理包括确定单词计数数量,对于所述多个数据样本中的每个数据样本,所述单词计数数量指示在所述预处理的分析输入数据的所述文本文档中的一个或多个数据库中的至少一个数据库的搜索项的出现频率,并且所述单词计数处理还包括,对于所述多个数据样本中的每个数据样本,添加用于映射到相同的关键词的全部搜索项的确定的单词计数数量以确定对于所述各自的关键词的所述各自的单词计数数量。
8.根据权利要求7所述的方法,进一步包括
分析所述分析结果数据的相关性组,并且基于在所述分析结果数据的所述分析的基础上的机器学习,调节在搜索项和关键词之间的映射。
9.根据前述权利要求中的任一个所述的方法,其中
所述一个或多个数据库中的至少一个数据库被分组到多个种类中,每个关键词与所述多个种类中的一个种类相关联;
所述种类包括如下项中的一个或多个:
-制造商种类,其包括与制造商的名称特别是汽车制造商的名称相关联的关键词,-产品种类,其包括与产品或产品型号特别是汽车型号相关联的关键词,-零件种类,其包括与产品或产品型号的零件特别是汽车零件相关联的关键词,-失灵种类,其包括与产品失灵或故障相关联的关键词,
-包括与解决的问题和/或产品或产品零件的正常功能相关联的关键词的种类,-天气种类,其包括与天气属性相关联的关键词,
-位置种类,其包括与位置特别是区域、国家、州和/或城市相关联的关键词,-道路类型种类,其包括与道路类型和/或道路条件相关联的关键词,
-驱动机动动作种类,其包括与由车辆和/或由车辆的驾驶员实行的驱动机动动作相关联的多个关键词,和/或
-问题-解决方案-反馈种类,其包括与对一个或多个问题的一个或多个解决方案相关联的关键词。
10.根据前述权利要求中的任一个所述的方法,其中
所述一个或多个数据库中的至少一个数据库被分组成多个种类,每个关键词与所述多个种类中的一个种类相关联;以及
所述方法包括识别关键词的一个或多个相关性组,所述关键词包含与所述一个或多个数据库中的所述至少一个数据库的多个种类中的两种的预定集合中的每个种类相关联的至少一个关键词。
11.根据前述权利要求中的任一个所述的方法,进一步包括:
-基于如下标准中的一个或多个来调节所述相关性标准:
-是否在所述相关性链接识别处理中识别无相关性链接的关键词对,
-是否在所述相关性组识别处理中识别无相关性组,
-在所述识别的相关性组中出现的关键词的最大数量是否低于预设定阈值,和/或-在所述识别的相关性组中的关键词的平均数量是否低于预设定阈值;以及-基于所述调节的相关性标准,重复所述相关性链接识别处理和所述相关性组识别处理。
12.根据权利要求10所述的方法,进一步包括:
-如果没有相关性组被识别,则调节所述相关性标准,所述相关性组包含与所述数据库的更多种类中的两种的预定集合中的每个种类或至少预定数量的种类相关联的至少一个关键词;以及
-基于所述调节的相关性标准,重复所述相关性链接识别处理和所述相关性组识别处理。
13.根据权利要求11或12所述的方法,进一步包括:
调节所述相关性阈值、频率阈值和/或距离阈值。
14.一种计算机程序产品,其包括在计算机可读介质上存储的计算机程序指令,所述计算机可读介质在被执行在计算机或计算机系统上时被配置为在所述计算机或计算机系统上执行根据前述权利要求中的任一个所述的方法的步骤。
15.一种用于执行自动数据分析的装置,包括:
-储存器(520),其被配置为存储指示多个关键词的一个或多个数据库(521);
-数据输入接口(510),其被配置为提供从一个或多个数据源获取的分析输入数据,所述分析输入数据包括分别与多个数据样本中的至少一个数据样本相关联的多个文本文档;
-处理系统(530),其被配置为执行预处理所述分析输入数据,以生成预处理的分析输入数据,所生成的预处理的分析输入数据可用于数据分析处理,并且处理系统被配置为实行所述预处理的分析输入数据的所述数据分析处理,包括:
-单词计数处理,其确定指示单词计数数量,对于所述多个数据样本中的每个数据样本,所述单词计数数量指示在所述预处理的分析输入数据的所述文本文档中的所述一个或多个数据库的关键词的出现频率,
-相关性确定处理,其对于多个关键词对中的每个关键词对,确定与各自的关键词对相关联的各自的相关性系数,所述各自的相关性系数指示对于所述多个数据样本的所述各自的关键词对中的所述关键词的所述确定的单词计数数量之间的相关性的定量测量,-相关性链接识别处理,其识别相关性链接的关键词对,其中基于相关性标准,关键词对中的关键词被确定为彼此相关性链接,所述相关性标准包括与所述各自的关键词对相关联的所述确定的相关性系数是否超过相关性阈值的标准,以及
-相关性组识别处理,其基于所述识别的相关性链接的关键词对来识别关键词的相关性组,每个相关性组包括至少一个相关性链接的关键词对的关键词,并且对于在所述各自的相关性组中包括的每个关键词,所述各自的相关性组进一步包括被识别为相关性链接到所述各自的关键词的其它关键词;以及
-数据输出接口(540),其被配置为,如果识别关键词的一个或多个相关性组,输出指示关键词的一个或多个识别的相关性组中的至少一个相关性组的分析结果数据。

说明书全文

用于产品故障检测的执行数据的自动分析的装置和方法

技术领域

[0001] 本公开涉及用于执行自动数据分析(特别是社交数据和/或车载诊断数据)的方法和装置,并且特别是用于产品故障检测(优选地在汽车工业中)的目的。

背景技术

[0002] 每年,在汽车工业中的原始设备制造商(OEM)由于召回具有与安全有关的问题的车辆而损失大量的金钱。只要故障对OEM未知,这些车辆被生产并且运送到市场。到OEM知道问题的时候,在市场中的受影响车辆的数量已经很大,并且召回并修理这些受影响车辆的成本因此很大。因此,OEM寻找检测有问题的备用零件的快速和可靠的方式以减小召回成本。
[0003] 由Alan S.Abrahams、Jian Jiao、Weiguo Fan、Alan Wang、Zhongju Zhang的关于决策支持系统的文章“在暴的嗡嗡声中什么在嗡嗡?在社交媒体告示中的汽车部件隔离”—55(2013)871-882—讨论了在汽车领域的环境中的社交媒体数据的分析。在文章中,已经识别了在缺陷对比(vs.)无缺陷以及安全问题对比(vs.)其它告示中相对较普遍的一组汽车烟雾单词。这组烟雾单词被用于自动识别在可能包含缺陷的社交数据上的公布。另外,在文章中,作者好像相对于由缺陷(例如,空调变速器等)影响的部件的种类来对告示进行分类。文章即使好像检测缺陷所属的种类,但它未能辨认导致辨认缺陷的潜在原因的本质和相关术语。此外,文章好像依赖于词干技术,但这些技术看起来不适合于失效分析和故障检测,因为词干技术倾向于将许多不同的单词混成一个词根单词,这将误导汽车产品经理。这可能已经从文章的结果看到,其试图理解并且说明如此差地成为词干的一些单词,使得你不得不查阅最初的原始文本以理解最初的单词是什么。当数据量很大时,这是不可能的。
[0004] US2015/0058344A1涉及用于监视并分析社交媒体数据的方法和系统,并且提出将单词或句子分类之后基于情感分析来编译的方法。US2015/0058344A1好像提出用于社交数据分析的一般方法,但不能检测在可能被用于确定具体意思或因果关系的术语之间的相关性。
[0005] 通常对于数据挖掘,请参考由作者Graham Williams的教材“具有Rattle和R的数据挖掘”。发明内容
[0006] 鉴于上述,本公开深入探讨在社交媒体中可用的信息和检索的车载诊断(OBD或OBDII)数据的价值,并且描述了通过分析在分析输入数据(例如社交媒体数据和/或车载诊断(OBD或OBDII)数据)中可用的分析信息,早期发现失效车辆零件的方法,以及零件故障的可能原因。
[0007] 目的是提出一种方面和方法,用于适当的、可靠的和有效的数据分析,以用于早期地检测产品故障和/或零件故障,以避免晚期的和成本密集产品召回,特别是在汽车领域。
[0008] 根据一些实施例,对于解决上述技术目的,存在提出的用于根据权利要求1的分析输入数据的自动分析的方法以及用于执行根据权利要求15的分析输入数据的自动分析的装置。
[0009] 同样,存在提出的根据权利要求14的计算机程序产品,其适应于致使计算机或计算机系统以实行分析输入数据的自动分析。从属权利要求以及两个或多个从属权利要求中的组合涉及示例性以及优选的实施例。
[0010] 在最优选的方面,实施例应当被应用于汽车工业,并且特别是基于用于早期检测召回情况以避免高成本的车载诊断数据和/或社交媒体分析的故障检测。然而,应注意,方面和实施例还可应用与不同的领域。
[0011] 根据一些优选的实施例方面,可以提出一种过程或子过程来收集、处理、分析和/或验证来自相关的车载诊断数据和/或社交媒体数据的信息并且只要用户开始讨论它就导出关于给定产品缺陷的见解。随着分析输入数据进入,分析并且可提取信息(像自动零件故障/失效,缺陷验证平),例如使用专用的汽车词典,在一些实施例中,该专用的汽车词典可通过使用机器学习来额外训练。
[0012] 另外,在一些示例性实施例中,采用预定义的相关性阈值,多个相关性可被识别并且被实行,以采用原因以及它发生的地理位置(例如基于不同种类的关键词),匹配检测的故障零件。在一些示例性实施例中,使用绘制相关单词的图形(例如聚类图)的平行或独立的算法,可验证相关性(多个)。一旦通过验证测试,潜在失效的综述可被发送到车辆产品管理团队以用于进一步的分析。然后,可向制造商(例如OEM)提供推荐。
[0013] 示例性实施例可提供识别因果和术语(关键词)之间的相关性的分析并且所以能够提供关于在车辆零件中的潜在失效的更好的见解。额外地,由于该见解,根据示例性实施例的方法可有利地将缺陷与地理位置和/或时间相关联。
[0014] 以下,将给出对于权利要求特征的支持,并且将描述优点。从之后的附图和示例性实施例的更详细的描述,进一步的优点和特征可能变得显而易见。
[0015] 根据方面,可提供用于社交媒体数据的自动分析特别是产品故障检测的方法,其中该方面可包括:从一个或多个数据源(例如从社交媒体平台、保险公司、汽车和/或零件制造商,和/或修理商店等)提供和/或获取分析输入数据(例如,社交媒体数据、保险公司报告数据、制造商报告数据和/或车载诊断数据等),实行分析输入数据的数据分析处理,并且输出分析结果数据,特别是基于提供的/获取的分析输入数据的分析,指示潜在产品故障检测的分析结果数据。
[0016] 在一些实施例中,该方法可包括预处理获取的分析输入数据以生成可用于数据分析处理(其可至少或仅可包括以数字格式的提供的/获取的分析输入数据以用于输入到数据分析处理,但还可或者作为替代地包括数据预备和数据清理以用于实行在之后的过程中的数据分析)的预处理的分析输入数据。
[0017] 在一些实施例中,分析输入数据可包括多个文本文档,例如在社交媒体数据(例如由一个或多个社交媒体平台的用户创建的博客帖子或评论文档(有时仅被称为评论))的情况中的用户创建的文本文档。
[0018] 在一些示例性实施例中,文本文档可分别与多个数据样本的至少一个相关联,例如与多个时间周期和/或多个地理位置。
[0019] 例如,在社交媒体数据的示例性情况中,用户创建的文本文档可表示由一个或多个社交媒体平台的用户创建的评论,例如在在线博客、在线论坛线程、在线服务的在线评论部分、在线讨论板和/或其它社交媒体平台、公共wiki和/或投诉在线网站的评论部分等中的评论。
[0020] 评论(用户创建的文本文档)中的每一个可进一步包括或关联评论元数据,例如包括评论的创建时间的信息(例如通过关联或包括日期信息和/或时间标记)、评论的创建位置、用户的身份(不一定在个人身份的意义上,而在于允许例如基于IP地址和/或用户名称(例如由用户使用的昵称等)来在由不同用户创建的评论之间进行区分)的信息的元数据。
[0021] 在一些实施例中,实行分析输入数据或预处理的分析输入数据的数据分析处理可包括单词计数处理、相关性确定处理、相关性链接识别处理,以及/或相关性组识别处理。
[0022] 优选地,可执行单词计数处理以确定指示对于数据库的关键词的发生频率(以数量或每单位时间的数量(例如每时间周期的单位的数量)为单位)的单词计数数量,该数据库的关键词包括多个关键词,在对于多个数据样本(例如时间周期)中的每个的(潜在预处理的)分析输入数据的文本文档中。在一些实施例中,该方法可进一步包括提供指示多个关键词的数据库。在此,术语“关键词”可表示预定义的字符的字符串,例如单个单词、两个或多个单词的组合、数字、数字和单词的组合,或其它。
[0023] 优选地,可执行相关性确定处理以确定与对于多个关键词对(优选地对于与全部关键词组合的全部可能的组合关键词对,或者对于与全部未省略的关键词组合的全部可能的组合关键词对)中的每个的各自的关键词对相关联的各自的相关性系数。优选地,各自的相关性系数可指示对于多个数据样本(例如时间周期)的各自的关键词对中的关键词的确
定的单词计数数量之间的相关性(例如统计相关性)的定量测量。
[0024] 优选地,可执行相关性链接识别处理以识别相关性链接的关键词对,其中基于相关性标准,优选地确定关键词对中的关键词以彼此相关性链接,相关性标准优选地包括与各自的关键词对相关联的确定的相关性系数是否超过相关性阈值的标准。
[0025] 优选地,可执行相关性组识别处理以基于识别的相关性链接的关键词对来识别关键词的相关性组,每个相关性组优选地包括至少一个相关性链接的关键词对的关键词,并且对于每个被包括在各自的相关性组中的每个关键词,各自的相关性组优选地进一步包括被识别为相关性链接到各自的关键词的一个或多个(或优选地全部)其它关键词。
[0026] 在一些实施例中,方法可进一步包括,如果识别关键词的一个或多个相关性组,输出指示关键词的一个或多个识别的相关性组中的至少一个的分析结果数据。
[0027] 以下描述优选的方面和示例性实施例。除非明确阐明不同的特征或方面表示不能被组合的单纯的替换,应理解,可组合以下方面或特征中的任何两个或更多个以形成进一步的实施例,只要这样的组合位于独立权利要求(多个)的范围内。
[0028] 在一些优选的实施例中,数据处理(例如社交媒体数据的社交媒体分析处理)可进一步包括:省略关键词,其不能满足频率标准,先于相关性确定处理。
[0029] 优选地,频率标准可包括对于至少一个数据样本(例如时间周期)的各自的关键词的确定的单词计数数量是否超过频率阈值。这具有的优点是,具有低发生频率的关键词可在之后以下的处理中被省略,以有利地以及显著地减小处理负担和存储器或储存使用。
[0030] 优选地,数据分析处理可进一步包括:基于与确定的数据样本(例如时间周期)相关联的文本文档的总数,对于确定的数据样本(例如时间周期),调节被应用与确定单词计数数量的频率阈值。
[0031] 这具有的优点是,基于各自的数据样本/时间周期的在线讨论流量,可自动地适应频率阈值,例如使得采用较低频率阈值处理具有较低的在线讨论流量(例如在具有用户创建的文本文档的较低总数的时间周期)的数据样本/时间周期,并且采用较高频率阈值处理具有较高的在线讨论流量(例如在具有用户创建的文本文档的较高总数的时间周期)的数据样本/时间周期,使得具有较低的在线讨论流量的数据样本/时间周期的相对相关的讨论主题适当地权重高于具有较高的在线讨论流量的数据样本/时间周期的相对相关的讨论主题。
[0032] 优选地,频率调准可包括对于多个数据样本(例如时间周期)的各自的关键词的平均单词计数数量是否超过频率阈值的标准。
[0033] 这具有的优点是,具有对于关键词的低发生频率的数据样本/时间周期的偶数单词计数可被包括在分析中,如果由于在其它数据样本/时间周期中的更高的单词计数引起的用于该关键词的平均单词计数更高的话。在此,优选地,数据分析处理可进一步包括:基于多个数据样本/时间周期的文本文档的总数,调节被应用于对应多个数据样本/时间周期的确定的平均单词计数数量的频率阈值。
[0034] 在一些优选的方面,方法可包括基于一个或多个可信性权重因子来调节频率阈值,所述一个或多个可信性权重因子指示作为一个或多个文本文档的创建者的一个或多个用户的可信性水平,和/或一个或多个数据源的可信性水平。
[0035] 在一些优选的实施例中,可额外地实施这样的可信性权重算法以考虑文档(文本文档或评论)的可信性或可靠性。例如,如果在线论坛或讨论版被用作数据源,这样的数据源可提供特定用户(例如顾客、注册用户、专家用户、管理员等)的可信性或可靠性的水平。
同样,如果使用不同的源,源可具有不同的可信性或可靠性,例如如果一般主题在线论坛被用作第一数据源,以及专业的专家在线论坛被用作第二数据源。
[0036] 在这样的实施例中,对于每个文档(例如文本文档或评论),可信性权重因子可与各自的文本文档相关联,其依赖于提供文本的数据源的可信性或可靠性,和/或依赖于创建文档的用户的可信性或可靠性。然后,在单词计数处理中,基于各自关联的权重因子,对于每个文档和/或对于每个数据源,可权重或调节单词计数或在单词计数处理中的发生频率。另外,或者作为替代,基于与各自的关键词所在的文档(和/或它们的数据源)相关联的权重因子,可调节对于关键词的应用的频率阈值。
[0037] 在一些优选的实施例中,数据分析处理可进一步包括距离确定处理,对于多个关键词对中的每个(或对于相关性链接的关键词对中的每个),该距离确定处理确定与各自的关键词对相关联的各自的距离系数,各自的距离系数优选地指示在预处理的分析输入数据的每个各自的文本文档中的各自的关键词对中的关键词的相对距离。优选地,在相关性链接识别处理中应用的相关性标准进一步包括与所述各自的关键词对相关联的确定的距离系数是否超过距离阈值的标准。
[0038] 这具有的优点是,基于使用计算的相关性系数的相关性确定处理,另一个验证处理可被添加以测试相关性链接的识别处理的可靠性。具体地,相关性确定处理的计算的相关性系数可指示统计相关性或其可能性,以用于基于它们的单词计数的关键词对,但相比于通过个别用户以相同或类似的上下文使用关键词的相关性,相关性可能由于其它因子或次要方面。
[0039] 优选地,与各自的关键词对相关联的距离系数在最大距离系数值与最小距离系数值之间的范围中确定,该最大距离系数值优选地指示各自的关键词对中的关键词出现在相同的文本文档中或甚至在多个文本文档中彼此接近(或邻近),并且最小距离系数值优选地指示在文本文档的任一个中,不一起发生各自的关键词对中的关键词。
[0040] 通过确定指示在每个各自的文本文档中的各自的关键词对中的关键词的相对距离的距离系数(例如指示关键词是否可能被用在相同的评论/文本文档中,或甚至关键词是否可能被用在相同的评论/文本文档中的彼此接近的距离),有利的是,可以基于各自的确定的距离系数来验证相关性链接的关键词对,以验证作为由于一种情况的相关性的相关
性,在该情况中,关键词可能由在相同评论/文本文档中的用户(不)使用,其指示关键词由在相同上下文中的个别用户来使用。
[0041] 在相同的优选的实施例中,提供一个或多个数据库包括:提供第一数据库,其指示对于相关性确定处理而实行的所述单词计数处理的多个关键词,和/或提供第二数据库,其指示对于距离确定处理而实行的单词计数处理的多个关键词,
[0042] 优选地第二数据库包括在第一数据库中包括的全部关键词并且额外的关键词不被包括在第一数据库中。
[0043] 在一些优选的实施例中,该方法进一步包括机器学习过程,其可包括:更新第一数据库(例如如果距离确定处理识别一个或多个关键词对,通过将来自第二数据库的一个或多个关键词添加到第一数据库来,所述一个或多个关键词对满足与各自的关键词对相关联的确定的距离系数超过距离阈值的标准并且/或者包括已经被包括在第一数据库中的各自的关键词以及先前未被包括在第一数据库中的各自的关键词)和/或基于所更新的第一数据库的一个或多个添加的关键词,重复用于相关性确定处理的单词计数处理和/或相关性确定处理。
[0044] 在一些优选的实施例中,数据库可包括被满射地映射到多个关键词上的多个搜索术语,优选地使得每个搜索项被映射到多个关键词中的一个,并且/或者每个关键词与被映射到各自的关键词的多个搜索项中的一个或多个相关联。在该上下文中,满射的映射意味着每个搜索项被映射到单个关键词,但每个关键词可具有与各自的关键词相关联的零、一个或多个搜索项。在此,术语“搜索项”可表示字符的预定义的字符串,例如单个单词,两个或多个单词、数字的组合,数字和单词的组合,或其它。
[0045] 优选地,生成预处理的分析输入数据的预处理包括识别在用户创建的文本文档中的搜索项的出现,以及基于数据库将识别的搜索项替代为它们各自的关联的关键词。这具有的优点是,在以下处理中可减小搜索的关键词的数量,因为更高数量的搜索项被映射到较低数量的关键词,使得尤其是单词计数处理,相关性确定处理和/或距离确定处理可以以较低的处理负担和储存或存储使用来实行。
[0046] 然而,这具有另一个显著的优点,即通过将多个有关的搜索项映射到同义或更一般总结的关键词(其具有对搜索项的关联),可实现由于关键词的更高频率出现引起的统计相关性。例如,在单词的常规的使用中,可出现一种情况,其中多个搜索项表示彼此同义,并且与单个搜索项的单个频率出现相比,这些可被映射到单个同义的关键词,以减小处理负担并且将在之后的处理中的统计显著性增加到对于关键词的更高数量的平均单词的计数。同样,例如,用户有时描述更高或更低程度的关于一些主题的细节。如果分析不依赖于太高程度的细节,可以通过单个总结的关键词来总结多个更详细的搜索项,与单个搜索项的单个频率出现相比,还减小处理负担并且将在之后的处理中的统计显著性增加到对于关键词的更高数量的平均单词的计数。
[0047] 优选地,作为对将识别的搜索项代替为它们各自的关联的关键词的上面方面的可替代示例(或作为额外的验证计算),单词计数处理可包括对于多个数据样本/时间周期中的每个,确定单词计数数量,该单词计数数量指示对于在预处理的社交媒体数据的文本文档中的数据库的搜索项的出现频率,并且包括对于多个时间周期中的每个,将用于被映射到相同关键词的全部搜索项的确定的单词计数数量相加,以确定对于各自的关键词的各自的单词计数数量。这仍具有的优点是,可显著减小在之后的相关性有关的处理中的处理负担。然而,在单词计数处理之前将搜索项代替为关键词是更有效的,因为对于单词计数处理,可能已经减小了处理负担。
[0048] 在一些优选的实施例中,生成预处理的分析输入数据的预处理可包括数据清理过程,该数据清理过程可包括:从已经在在文本文档中的另一个中出现的文本文档除去冗余的文本部分。这具有的优点是,可减小处理负担,但更重要地具有的优点是,以更高的精度作出单词技术处理,因为避免关键词的冗余发生以免在单词计数处理中被计数。
[0049] 在一些优选的实施例中,生成预处理的分析输入数据的预处理可包括数据清理过程,该数据清理过程可包括:将文本文档中的单词转换为一种情况;从文本文档除去标点字符;从文本文档中除去停用词;除去不规则字符;校正打字错误,和/或除去标记语言标识符。这具有的优点是,在之后的处理中可减小处理负担、存储和存储器使用,并且处理的额外的手动验证可能变得更容易。
[0050] 在一些优选的实施例中,生成预处理的分析输入数据的预处理可包括:搜索用于常用参考短语的用户创建的文本文档(其指的是在另一个用户创建的文本文档中的文本部分),以及将识别的常用参考短语代替为其它用户创建的文本文档的参考文本部分,或者在其它用户创建的文本文档的参考文本部分中包括的一个或多个搜索项或关键词。这具有的优点是,反映实际的上下文出现频率的出现频率分析的质量可被改善,因为同意包括一个或多个关键词的文本的常用参考短语可被包括在分析中,即使关键词未明确提及并且因此虽然用户通过常用参考短语同意它,但将忽略对关键词计数。
[0051] 在一些优选的实施例中,方法可进一步包括分析分析结果数据的相关性组,以及基于在分析结果数据的分析的基础上的机器学习,调节搜索项与关键词之间的映射。例如,如果已经发现两个相关性组具有多个关键词,所述多个关键词是两个相关性组的成分,但其它关键词仅是两个相关性组中的一个的成分,这样的关键词可以是候选关键词,以用于被一起组合为可被指定到映射到一个常用关键词(例如到具有到搜索项的关联的同义或更一般总结的关键词)的搜索项。
[0052] 在一些优选的实施例中,数据库被分组成多个种类,每个关键词与多个种类中的一个相关联。这具有的优点是,对于多个不同内容种类的多个关键词,可实行分析,使得可识别不同内容种类的不同关键词。
[0053] 在旨在基于社交媒体数据检测产品故障的情况中,这尤其是有利的,因为例如如果产品名称或零件名称的种类的关键词被发现相关(相关性链接)到指示产品故障或产品问题的关键词的种类的关键词,可以检测产品故障。如果前述关键词中的一个或两个进一步相关(相关性链接)到原因或上下文种类的关键词,和/或如果前述关键词中的一个或两个进一步相关(相关性链接)于环境条件(例如使用条件、天气条件、位置或气候条件等)的种类的关键词,则可能有利地进一步提供与检测的产品故障的可能的原因或上下文有关的信息。
[0054] 具体地,可能优选的是,分析相关性链接的关键词的相关性组,关于是否可使用相干性组的关键词以形成“相关性句子”,其意义为相关性组至少包括用于多个句子相关的种类中的每个关键词。例如,在一些实施例中,可形成“相关性句子”,以用于检测产品故障,如果识别的相关性组至少包括产品名称或零件名称的种类的关键词,其被发现相关(相关性链接)到指示产品故障或产品问题的关键词的种类的关键词。
[0055] 优选地,方法可包括识别包含与数据库的更多种类中的两个的预定集合中的种类的每个或至少预定数量相关联的至少一个关键词的关键词的一个或多个相关性组。这具有的优点是可实施句子标准。可以提供句子标准以用于应用到相关性组,该相关性组指示,如果对于多个预定义的句子相关的种类中的每个,相关性组包括至少一个关键词,则相关性组允许提取相关性句子。句子相关种类的集合可表示数据库的全部可用的种类或者数据库的可用种类中的至少两个的子集。
[0056] 优选地,种类(或者句子相关的种类)可包括如下项中的一个或多个:制造商种类,其包括与制造商名称(特别是汽车制造商的名称)相关联的关键词;产品种类,其包括与产品或产品型号(特别是汽车型号)相关联的关键词;零件种类,其包括与产品或产品型号的零件(特别是汽车零件)相关联的关键词;失灵种类,其包括与产品失灵或故障相关联的关键词;包括与解决的问题和/或产品或产品零件的正常功能相关联的关键词的种类;天气种类,包括与天气属性相关联的关键词;位置种类,其包括与位置(特别是区域、国家、州和/或城市)相关联的关键词;道路类型种类,其包括与道路类型和/或道路条件相关联的关键词;驱动机动动作种类,其包括与由车辆和/或由车辆的驾驶员实行的驱动机动动作相关联的关键词,和/或问题-解决方案-反馈种类,其包括与对一个或多个问题(例如评论“在该问题的情况中,请参考手动”或“在问题…的情况中,做…等”)的一个或多个解决方案相关联的关键词。
[0057] 例如,如果相关性链接的关键词的相关性组包括对于如下种类中的每个的至少一个相关性链接关键词:来自产品种类的至少一个关键词和/或来自零件种类的至少一个关键词,来自制造商种类的至少一个关键词以及来自失灵种类的至少一个关键词,可以提取各自的关键词的相关性句子,其指示可能已经检测某制造商的某产品和/或产品的零件,使得基于社交媒体数据可实现故障检测。来自其它种类的其它额外的相关性链接的关键词可包括添加到检测的相关性句子或检测的产品故障的额外的上下文信息。这可通过提取有关的评论/用户创建的文本文档以分析检测的问题。
[0058] 如果问题被验证或已经基于识别的相关性组,这可允许比在过去没有社交媒体分析的情况中更早地以及以更低的成本来发起召回操作。
[0059] 在进一步的实施例中,方法可进一步包括基于如下标准中的一个或多个来调节相关性标准:是否在相关性链接识别处理中识别无相关性链接的关键词对,是否在相关性组识别处理中识别无相关性组,在识别的相关性组中出现的关键词的最大数量是否低于预设定阈值,和/或在识别的相关性组中的关键词的平均数量是否低于预设定阈值。
[0060] 这具有的优点是,可重复过程以用于调节的标准设定以或者增加相关性组的识别的数量(例如如果没有相关性组或只有低数量的相关性组被识别),或者增加或减小在一个或多个相关性组中的关键词的数量(例如如果相关性组包括例如来自相同种类的太多的关键词,或者如果相关性组包括太少的关键词,以了解关键词相关性的潜在的检测的上下文,例如如果上面的句子标准未满足)。优选地,方法然后可进一步包括基于调节的相关性标准重复相关性链接识别处理和相关性组识别处理。
[0061] 优选地,方法可进一步包括:如果没有相关性组被识别,则调节相关性标准,该相关性组包含与数据库的更多种类中的两个的预定集合中的每个相关联的至少一个关键词(例如根据上面的句子标准);和/或基于调节的相关性标准重复相关性链接识别处理和相关性组识别处理。这具有的优点是,可重复过程以用于调节的标准设定以增加或减小在一个或多个相关性组中的关键词的数量(例如如果相关性组包括例如来自相同种类的太多的关键词,或者如果相关性组包括太少的关键词,以了解关键词相关性的潜在的检测的上下文,例如如果上面的句子标准未满足)。
[0062] 优选地,调节相关性标准可包括调节相关性阈值、频率阈值,和/或距离阈值。同样这具有的优点是,通过减小每个处理的处理的项目的数量,可调节处理负担,并且如果没有或太多相关性被识别,和/或如果识别的相关性组包括太多或太少数量的关键词或在相关性组中涉及的太少的种类,通过调节相关性阈值、频率阈值和/或距离阈值,可自动改善分析的结果。然后可基于调节的标准重复过程。
[0063] 在上面,结合分析数据的数据处理使用单词计数处理,并且对关键词和/或搜索项计数以确定单词计数数量或单词出现频率,并且在一些实施例中,还基于单词计数等的总数来确定调节的频率阈值。
[0064] 在一些优选的实施例中,可额外地实施另一个权重算法以考虑文档(文本文档或评论)的可信性或可靠性。例如,如果在线论坛或讨论版被用作数据源,这样的数据源可提供特定用户(例如顾客、注册用户、专家用户、管理员等)的可信性或可靠性的水平。同样,如果使用不同的源,源可具有不同的可信性或可靠性,例如如果一般主题在线论坛被用作第一数据源,以及专业的专家在线论坛被用作第二数据源。
[0065] 在这样的实施例中,对于每个文档(例如文本文档或评论),可信性权重因子可与各自的文本文档相关联,其依赖于提供文本的数据源的可信性或可靠性,和/或依赖于创建文档的用户的可信性或可靠性。然后,在单词计数处理中,基于各自关联的权重因子,对于每个文档和/或对于每个数据源,可权重或调节单词计数或在单词计数处理中的发生频率。另外,或者作为替代,基于与各自的关键词所在的文档(和/或它们的数据源)相关联的权重因子,可调节对于关键词的应用的频率阈值。
[0066] 根据另一个方面,可能提供一种计算机程序产品,其包括在计算机可读介质上存储的计算机程序指令,该计算机可读介质在被执行在计算机或计算机系统上时被配置为在计算机或计算机系统上执行上面的方面和实施例或其组合中的任一个所述的方法的步骤。
[0067] 根据另一个方面,可提供用于执行自动数据分析的装置。该装置可包括:储存器、数据输入接口、处理系统和/或数据输出接口。储存器被配置为存储指示多个关键词的数据库。
[0068] 数据输入接口可被配置为从一个或多个数据源(例如提供社交媒体数据的社交媒体平台)获取社交媒体数据和/或如上所讨论的其它类型的分析输入数据,该社交媒体数据包括分别与多个数据样本/时间周期和/或其它数据源(来自保险公司、修理店、汽车和/或零件制造商等的报告数据)中的至少一个相关联的多个用户创建的文本文档,并且包括分别与多个数据样本/时间周期中的至少一个相关联的多个文本文档。
[0069] 处理系统可被配置为执行预处理所获取的社交媒体数据和/或其它分析输入数据,以生成预处理的分析输入数据,所生成的预处理的分析输入数据可用于数据分析处理,并且/或者处理系统被配置为例如根据上面方面和实施例或其组合中的一个或多个来执行数据分析处理:
[0070] 数据输出接口可被配置为,如果识别关键词的一个或多个相关性组,输出指示关键词的一个或多个识别的相关性组中的至少一个的分析结果数据。

附图说明

[0071] 图1示例性地图示根据一些示例性实施例的用于分析输入数据的自动分析的方法的流程图
[0072] 图2A示例性地图示根据一些示例性实施例的用于实行在分析输入数据的自动分析中的数据分析处理的方法的流程图(例如在图1中的步骤S4);
[0073] 图2B示例性地图示根据一些示例性实施例的用于实行在分析输入数据的自动分析中的数据分析处理的另一种方法的流程图(例如在图1中的步骤S4);
[0074] 图3A示例性地示出根据聚类图(cluster graph)的示例的被包括在相关性组(或更高次序的不同的相关性组)中的多个关键词;以及图3B示例性地示出包括来自一个或多个进一步的数据样本的数据的另一个聚类图;
[0075] 图4A到图4E示例性地图示根据一些进一步的实施例的用于实行数据分析处理的示例性方法的流程图;
[0076] 图5示例性地示出根据一些示例性实施例的用于执行分析输入数据的自动分析的装置的示意图;
[0077] 图6A和图6B示例性地图示时间周期的布置的示例;
[0078] 图7示例性地图示根据一些示例性的实施例的用于分析输入数据的自动分析的另一种方法的流程图;
[0079] 图8到图10示出用于实行数据分析的算法的实例学习的示例结果。

具体实施方式

[0080] 以下,参考附图将更详细地描述优选的方面和示例性实施例。在不同附图和实施例中的相同或类似的特征有时通过类似的参考标记来指代。应理解,下面关于各种优选方面和优选实施例的详细描述不意味着作为限制本发明的范围。
[0081] 在最优选的方面中,实施例应当应用到汽车工业,并且特别是基于社交媒体分析的故障检测,该社交媒体分析用于召回情况的较早检测以避免高成本。然而,应注意,方面和实施例还可应用到不同领域。示例性地,将在作为分析输入数据的分析社交媒体数据的环境中描述实施例。
[0082] 然而,本发明和其示例性实施例无论任何方式都不限于社交媒体数据的分析,但其它数据可被用作分析输入数据(只要其可被分成可与一个或多个数据样本相关联的多个文本文档)。例如,在汽车领域,分析输入数据可(除了或替代社交媒体数据)包括车载诊断数据(例如OBD或OBD2)和/或从通过修理车间或车库的车辆获取的修理报告数据,以收集用于数据分析。这些数据可指示从车辆/用于车辆而获取的错误代码(例如,一个或多个数字和/或一个或多个字母的字符串)。例如,车载诊断数据可以是经由车辆诊断接口获取的数据,经由该车辆诊断接口,可收集错误代码(每个文本文档例如与某个车辆的诊断分析有关)。典型地,修理店的来自车辆的这些数据在诊断工作和维修工作期间。
[0083] 另外,或可替代地,分析输入数据可涉及从汽车制造商和/或OEM(原始设备制造商)获取的文档数据。
[0084] 同样,再另外或可替代地,分析输入数据可涉及从汽车保险公司获取的数据,每个文本文档涉及汽车保险事件的报告数据。
[0085] 一般地说,分析输入数据可以是包括与一个或多个数据样本相关联的文本文档的文本和字符串代码数据。
[0086] 在下面的示例和示例性实施例中,示例性地进一步假设数据样本指的是时间周期,然而,本发明不限于如参考数据样本的时间周期,并且数据样本可额外地或可替代地指的是地理位置,每个数据样本涉及例如另一个时间周期和/或另一个地理位置。
[0087] 根据一些优选的示例性方面,可以提出过程或子过程来收集、处理、分析和/或验证来自有关社交媒体和/或其它上述数据源的信息,只要用户开始谈论它,就导出关于给定产品缺陷的见解。当数据进入,分析并且可提取信息(像汽车零件缺陷/故障,缺陷的严重等级),例如使用专用的汽车词典,在一些实施例中,可使用机器学习来额外训练该专用汽车词典。
[0088] 另外,在一些示例性实施例中,采用预定义的相关性阈值,多个相关性可被识别并且实行以匹配具有原因和地理位置的检测的故障零件,在该地理位置中,它例如基于不同种类的关键词来出现。在一些示例性实施例中,可使用绘制相关单词的图表(例如聚类图)的平行或独立的算法来验证相关性(多个)。一旦通过验证测试,潜在失效的总结可被发送到车辆产品经理团队以用于进一步分析。然后,推荐可被提供到制造商,例如OEM。
[0089] 示例性实施例可提供分析以辨识因果和在术语(关键词)之间的相关性,并且因此能够提供关于在车辆零件中的潜在失效的更好见解。额外地,由于该见解,方法可有利地将缺陷与地理位置和/或时机相关联。
[0090] 在一些方面中,分析输入数据可从相关源捕获,清理并且提取。然后可分析提取的数据以导出例如车辆缺陷的见解。然后可验证导出的见解,并且可将结果呈现到分析团队和/或车辆产品经理,其向OEM推荐可行动的见解。以下是一般可能被包含在分析过程中的步骤:提供(例如选择)数据源;数据捕获、清理和提取以提供提取的数据;数据分析和见解;验证;和/或可行动的见解和推荐。
[0091] 关于数据源:在下面实施例中的一个或多个的算法中使用的数据源可以是诸如社交媒体平台的数据源。当实施例应用到汽车领域,特别是检测在汽车领域中的零件故障时,有关数据源可包括汽车讨论论坛、开放的线上社区(例如社交网络)、投诉网站和公共维基百科。为提及少数,像http://www.carcomplaints.com/、http://www.safercar.gov/、http://www.audiworld.com/、https://www.facebook.com/BMW、http://honda-tech.com/的网站。来自其它源(备用零件、修理店、天气信息、警察和保险公司)的数据可被用于进一步验证导出的见解。
[0092] 当将实施例(多个)应用于汽车领域时,如下面所讨论的数据库优选地包括预定义的汽车单词词典的库。这些词典可包括但不限于以下种类:
[0093] ·汽车型号的列表
[0094] ·汽车零件的列表
[0095] ·天气属性(例如、雨、雾、冬天、冷热等)。注意:这是更好地采用常规表达来表示以提取天气有关的信息
[0096] ·国家/州的全列表
[0097] ·地理位置/城市的列表
[0098] ·与故障相关联的属性(例如、坏的、问题、故障、失败的、停止的工作、安装的、破损的、破碎的等)
[0099] ·与“工作细化”相关联的属性
[0100] ·与“问题解决”相关联的属性
[0101] ·与同意像“我同意X”或“我具有(与Y)相同的问题”的较早评论相关联的属性
[0102] 在更一般的术语中,数据库可成组为多个种类,每个关键词与多个种类中的一个相关联;种类包括如下中的一个或多个:制造商种类,其包括与制造商的名称(特别是汽车制造商的名称)相关联的关键词;产品种类,其包括与产品或产品型号(特别是汽车型号)相关联的关键词;零件种类,其包括与产品或产品型号的零件(特别是汽车零件)相关联的关键词;失灵种类,其包括与产品失灵或故障相关联的关键词;包括与解决的问题和/或产品或产品零件的正常功能相关联的关键词的种类;天气种类,包括与天气属性相关联的关键词;和/或位置种类,其包括与位置(特别是区域、国家、州和/或城市)相关联的关键词。同样,种类可包括道路类型种类,其指示与道路类型(例如多车道快车道或高速、跨野道路、城市高速、城市街道、脏道路等)和道路条件(例如街道、湿街道、尘土街道等)相关联的多个关键词。同样,种类可包括驱动机动动作种类,其包括与驱动机动动作(例如制动机动、加速机动、转向机动等)相关联的多个关键词。
[0103] 在一些示例性实施例中,当从获取的社交媒体提取评论(用户创建的文本文档)时,评论可以以如下方式来提取,即每个评论是时间、数据和/或位置,该位置被标记为在如下时间显示,即当数据被生成时和/或在考虑部分世界(part the world)的数据时。类似地,从修理店(例如基于车载诊断数据)或制造商的报告和/或保险公司报告所获取的文本文档可以是时间,和/或标记的位置。
[0104] 图1示例性地示出根据一些示例性实施例的用于分析输入数据(在此示例性地社交媒体数据)的自动分析的方法。
[0105] 图1的示例性过程包括提供指示多个关键词的数据库的步骤S1。在此,术语“关键词”可表示预定义的字符的字符串,例如单个单词,两个或更多个单词、数字的组合,数字和单词的组合或其它。这可涉及包括多个关键词的词典数据库,所述多个关键词涉及一个或多个指定的主题(例如对于社交媒体数据分析感兴趣的主题)和/或多个种类。
[0106] 图1的示例性过程进一步示例性地包括获取社交媒体数据(分析输入数据)的步骤S2。在一些实施例中,获取的社交媒体数据(分析输入数据)可从一个或多个社交媒体平台(数据源)来检索。步骤S1和S2可以以任何次序或彼此平行地实行。
[0107] 在一些实施例中,社交媒体数据(分析输入数据)可包括多个文本文档(例如用户常见的文本文档),例如由一个或多个社交媒体平台的用户创建的评论文档(有时仅被称作评论),用户创建的文本文档分别与多个时间周期中的至少一个相关联。
[0108] 例如,用户创建的文本文档可表示由一个或多个社交媒体平台的用户创建的评论,例如在在线博客、在线论坛线程、在线服务的在线评论部分、在线讨论板和/或其它社交媒体平台、公共wiki和/或投诉在线网站的评论部分等中的评论。
[0109] 评论(用户创建的文本文档)中的每一个可进一步包括或关联评论元数据,例如包括与评论的创建时间有关的信息(例如通过关联或包括日期信息和/或时间标记)、评论的创建位置、用户的身份(不一定在个人身份的意义上,而在于允许例如基于IP地址和/或用户名称(例如由用户使用的昵称等)来在由不同用户创建的评论之间进行区分)的信息的元数据。
[0110] 关于“多个时间周期”,应注意,术语识别至少两个时间周期(数据样本)。时间周期可具有相同大小的持续时间(例如与天、周、月等的单位相关联)或具有不同大小的持续时间。时间周期可在时间上重叠或不相交(disjoint)。为了社交媒体分析的目的,优选的是,例如基于由用户的创建的日期和/或时间,每个用户创建的文本文档与至少一个时间周期相关联。如先前所提及,代替或除时间周期以外,数据样本还可涉及地理位置。
[0111] 在一些实施例中,每个评论(用户创建的文本文档)可仅与一个时间周期(和/或地理位置)相关联,例如在不相交时间周期的情况中,并且在一些其它实施例中,评论(用户创建的文本文档)可与一个或多个时间周期相关联,例如在重叠时间周期的情况中。
[0112] 在优选的实施例中,时间周期可以是不相交的并且具有相同大小的持续时间,例如不同的天、不同的月或预定大小的不同的连续时间周期。在其它实施例中,可以提供累积的时间周期,使得每个时间周期包括先前的时间周期加上额外的时间周期,例如第一时间周期包括数据获取/数据捕获的第一天(或月或时间周期的其它单位),第二时间周期包括第一和第二天(或月或时间周期的其它单位),第三时间周期包括第一到第三天(或月或时间周期的其它单位),第四时间周期包括第一到第四天(或月或时间周期的其它单位)等。
[0113] 图1的示例性过程进一步示例性地包括对所获取的社交媒体数据预处理以生成可用于社交媒体分析处理(数据分析处理)的预处理的社交媒体数据(预处理的分析输入数
据)的步骤S3。
[0114] 在一些实施例中,预处理可包括应用于所获取的社交媒体数据(分析输入数据)的预备过程,使其可被输入到下述分析过程。例如,预处理可包括以数据格式来存储所获取的社交媒体数据(分析输入数据)以用于输入到社交媒体分析处理。
[0115] 另外,预处理还可包括预备、数据清理和数据简化技术来修改数据,以减小分析的复杂性,以减小数据大小和/或减小在预处理的数据的分析中的处理负担。
[0116] 例如,因为可实行单词计数确定处理以对在一些实施例中的关键词的出现进行计数,预处理可包括数据清理技术,以减小数据大小和在数据中的总体单词计数大小,并且减小数据的元数据部分而非在单词计数处理中分析的文本部分。
[0117] 例如,预处理可包括生成预处理的社交媒体数据的预处理,该预处理的社交媒体数据包括数据清理过程,该数据清理过程包括以下子过程中的一个或多个:从用户创建的文本文档中除去已经在另一个用户创建的文本文档中出现的冗余的文本部分,将用户创建的文本文档的单词转换成一种情况,从用户创建的文本文档中除去标点字符,从用户创建的文本文档中除去停用词(停用词是诸如“这样的”、“和”、“或”、“是”、“该”、“她的”、“其”、“上”等的单词;参见例如https://en.wikipedia.org/wiki/Stop_words),除去不规则字符,校正打字错误,和/或除去标记语言标识符。
[0118] 关于从用户创建的文本文档中除去已经在另一个用户创建的文本文档中出现的冗余的文本部分,当分析包括各种用户的多个评论文档序列的在线论坛线程的用户创建的评论文档时,这样的方面可以是优选的。
[0119] 例如,可出现的是,通过同等地将参考的较早评论的文章复制在它们之后的评论中作为一种引述、引用或参考,用户可参考另一个用户的评论。然后,为了避免由于评论文本部分的这样的冗余重复而引起单词过计数,优选的是,这样的冗余部分可在预处理中识别并且被除去。
[0120] 在该优选的步骤中,检查并且删除冗余评论,这是确保评论源自不同的陈述源(例如通过不同的人)。
[0121] 关于停用词的去除,可定义多个停用词,例如通过将要在预处理中除去的停用词的另一个数据库,或者用户可被使能预定义或修改先于预处理而存储的可除去停用词的列表或组。同样,可使用常用的停用词去除算法。
[0122] 生成预处理社交媒体数据的预处理还可(或可替代地)包括如下过程:搜索用于常用参考短语的获取的社交媒体数据的用户创建的文本文档/评论(其指的是在另一个用户创建的文本文档/评论中的文本部分),以及将识别的常用参考短语代替为其它用户创建的文本文档的参考文本部分,或者在其它用户创建的文本文档的参考文本部分中包括的一个或多个搜索项或关键词。
[0123] 例如,可设置数据库具有多个“常用参考短语”,例如“我有相同的问题”、“我同意”、“我听说过这个问题”等。如果用户创建的文档/评论包括这样的常用参考短语以参考另一个用户的用户创建的文档/评论的文本部分,参考的文本部分(或部分的至少识别的关键词)可被包括在用户创建的文档/评论中以被代替为常用参考短语。这具有的优点是,仍可包括在这样的常用参考短语后面隐藏的关键词,以在之后的单词计数处理中被考虑。
[0124] 例如,一些在社交媒体中的常用和有用的短语可被提取并且代替为(常用)术语或短语。例如,假设某人指的是燃油泄漏的问题(其在论坛中通过书写“我有相同的问题”来讨论),这将被识别并且被代替为短语“燃油泄漏”或者两个单独的术语“燃油”和“泄露”。在此也可实行情感分析,并且根据术语和短语来代替检测的情感。
[0125] 图1的示例性过程进一步示例性地包括实行社交媒体数据分析处理(数据分析处理)的步骤S4,基于在步骤S1中提供的数据库的关键词,该社交媒体数据分析处理(数据分析处理)处理预处理的社交媒体数据以实行社交媒体数据分析。
[0126] 具体地,基于在预处理社交媒体数据中(特别是在社交媒体的用户创建的文本文档中)的关键词的单词计数,即基于在预处理的社交媒体数据中的关键词的出现频率,实行社交媒体数据分析处理以识别并且输出相关性链接的(correlation-linked)关键词的相
关性组。
[0127] 例如,基于用于多个关键词和多个时间周期的预处理的社交媒体数据中的关键词的单词计数,可基于关键词的多个时间周期的各自的出现频率/单词计数来确定关键词是否是成对相关的(相关性链接的)。
[0128] 一旦识别在步骤S4的在社交媒体数据分析处理(数据分析处理)中的相关性链接的关键词的一个或多个相关性组,分析结果数据被生成以指示识别的相关性组以及它们的关联的关键词。
[0129] 因此,图1的示例性过程进一步示例性地包括输出指示相关性链接的关键词的识别的相关性组的分析结果数据的步骤S5。
[0130] 在此,分析结果数据可以用能够向用户输出的数据格式来输出,例如表格、列表、其它书写信息,和/或以诸如例如在计算机屏幕等上的聚类图之类的可视图表。
[0131] 图2A示例性地示出根据一些示例性实施例的用于实行社交媒体数据的社交媒体数据处理(例如在图1中的步骤S4中)自动分析。
[0132] 图2A的示例性过程示例性地包括提供预处理的分析输入数据例如社交媒体数据(例如在图1的示例性方法的步骤S3中生成的或预处理的)的步骤S41,并且基于预处理的社交媒体数据(预处理的分析输入数据),示例性过程实行单词计数处理的步骤S42以对在预处理的社交媒体数据(特别是在预处理的社交媒体数据(预处理的分析输入数据)的文本文档中)中的关键词的出现进行计数。
[0133] 具体地,可实行单词计数处理以确定单词计数,该单词计数指示用于在用于多个时间周期(数据样本)中的每个的预处理的社交媒体数据(预处理的分析输入数据)的文本文档中的数据库的关键词的出现频率。
[0134] 也就是,在一些实施例中,对于数据库的关键词中的多个(或者优选地全部)关键词中的每个,步骤S42的过程可对于在社交媒体数据中的多个时间周期中的每个,对关键词的出现次数(出现频率)进行计数。以下,示例性地假设,搜索数据库的所有关键词,但对于本公开这不是限制,因为基于通过用户基于数据库选择的预定输入设定,通过用户或通过其它自动的过程,可搜索的关键词也可被预选择。
[0135] 作为示例,如果时间周期示例性地被确定为以天为单位,社交媒体数据以每天来成组,并且在社交媒体数据中的关键词的单词计数对于每个时间周期(例如对于每天)来计数,为此,已经获取社交媒体数据。然而,这不是限制,并且时间周期也可具有其它单位,例如周、月或其它时间周期。它们也可具有可变的或不同的持续时间大小,并且是不相交的或彼此重叠的。
[0136] 在单词计数处理之后,对于每个搜索的关键词以及对于每个时间周期(数据样本),确定单词计数数量(出现频率)。例如,在预处理之前,在预处理阶段或在分析输入数据的预处理之后,与第一天(第一时间周期/第一数据样本)相关联的文本文档(例如用户创建的文本文档,例如用户评论)可被合并到第一数据部分中以供分析(例如第一文件、第一组文件或一个或多个文件中的第一部分),并且与第二天(第二时间周期/第二数据样本)相关联的文本文档(例如用户创建的文本文档,例如用户评论)可被合并到第二数据部分中以供分析(例如第二文件、第二组文件或一个或多个文件中的第二部分),等等。
[0137] 对于数据库的每个搜索的关键词,单词计数处理可确定:作为与第一天(例如每天点击或每天出现)相关联的各自的频率的第一出现频率而分析的在第一数据部分中的各自的关键词的单词计数(出现频率),以及作为与第二天(例如每天点击或每天出现)相关联的各自的频率的第二出现频率而分析的在第二数据部分中的各自的关键词的单词计数(出现频率),等等。
[0138] 在此,在一个或多个时间周期中,一些关键词可具有非常低的单词计数数量或者单词计数数量是零。为了减小处理负担,方法在一些实施例中可省略具有低出现频率或零单词计数的关键词。下面进一步讨论这些实施例的一些方面。在这些示例性方面的最简单版本中,方法仅可省略至少对于预定数量的时间周期(例如一个或多个时间周期)具有单词计数为零的关键词。
[0139] 鉴于上述,优选的是,对于每个搜索的关键词,确定各自组单词计数/出现频率(对于多个时间周期中的每个),作为步骤S42的单词计数处理的输出。
[0140] 图2A的示例性过程示例性地进一步包括实行相关性确定处理的步骤S44。在一些示例性实施例中,可实行相关性确定处理以对于多个关键词对中的每个来确定与各自的关键词对相关联的各自的相关性系数。
[0141] 在一些实施例中,对于可从提供在步骤S42中搜索的全部关键词的组合的组合配对中的每个来形成的多个关键词对中的每个,步骤S44可确定各自的相关性系数,或者在其它实施例中,对于可从提供在步骤S42中搜索的关键词的组合的组合配对中的每个来形成的多个关键词对中的每个,步骤S44可确定各自的相关性系数,其通过频率测试,即由于具有低的出现频率或者零单词计数,它们没有被省略。
[0142] 例如,如果在步骤S44中的搜索的关键词的数量(在单词计数处理之后不省略的关键词的数量)是N,关键词的所有组合的组合配对的数量(即关键词对的数量)将会是N(N-1)/2,并且对于N(N-1)/2个关键词对中的每个,步骤S44将会计算各自的相关性系数,即N(N-1)个相关性系数。
[0143] 在此,可看出,在步骤S42之后省略具有低或零单词计数的关键词可能非常有益于减小处理负担并且增加存储效率,因为处理负担和存储使用随着可能的关键词对的数量线性增加,但是可能的关键词对的数量随着关键词N的数量二次方地增加。
[0144] 作为步骤S44的处理的结果,方法输出多个关键词对和关联的相关性系数,其中对于关键词对中的每个,各自的相关性系数指示在对于多个时间周期的各自的关键词对中的关键词的确定的单词计数数量之间的相关性的定量测量,即指示经过多个时间周期的对的一个关键词的单词计数数量的发展是否与经过多个时间周期的其它关键词的单词计数数量的发展相关,或者相关多大程度。
[0145] 以上,可以使用从统计数学可知的参数相关性确定方法中的一个或多个,例如基于皮尔逊(Pearson)积矩相关系数,和/或例如秩(rank)相关系数计算方法,例如基于例如皮尔逊秩相关系数。
[0146] 通常,参数相关性确定方法计算在0和1之间的区间范围中的相关性系数,其中相关性系数0指示在变量(在此,对于关键词对的两个关键词,每时间周期单词计数)对的样本之间的绝对无相关性(或没有相关性的可能性),并且相关性系数1指示在变量(在此,对于关键词对的两个关键词,每时间周期单词计数)对的样本之间的完全相关性(或完全相关性的最大可能性)。
[0147] 图2A的示例性过程示例性地进一步包括实行相关性链接识别处理的步骤S45,以识别相关性链接的关键词对,其中基于包括与各自的关键词对相关联的确定的相关性系数是否超过相关性阈值的标准的相关性标准,关键词对中的关键词被确定为是彼此相关性链接的。
[0148] 因此,步骤S45的过程可经历从步骤S44的相关性确定过程输出的所有关键词对,并且将用于在步骤S44的相关性确定过程中的该各自的关键词对而计算的各自的相关性系数与相关性阈值相比较。如果用于该各自的关键词对而计算的确定的相关性系数超过相关性阈值,该各自的关键词对中的关键词被确定(识别)为相关性链接的,因为由它们的各自关联的相关性系数对相关性阈值的超过,指示用于该各自的关键词对中的关键词的相关性的足够的可能性。
[0149] 作为步骤S45的处理的结果,方法示例性地输出相关性链接关键词的多个关键词对,或者它可输出至少一次被包括在相关性链接关键词对中的一个中的所有关键词。
[0150] 在此,应注意,与另一个关键词相关的关键词还可额外地与一个或多个其它关键词相关,所述一个或多个其它关键词可能或不可能彼此相关。例如,如果第一关键词相关性链接到第二和第三关键词,第二和第三关键词可以彼此相关性链接,或者第二和第三关键词可以不彼此相关性链接。当然,第二和/或第三关键词可额外地与可能或不可能相关性链接到第一关键词的一个或多个其它关键词相关性链接。所以,可识别成对的相关性链接关键词的关键词相关性组(关键词聚类或关键词)的简单或还有复杂的结构。
[0151] 成对的相关性链接的关键词的这些关键词相关性组在此被示例性地称为“相关性组”。依照上述,相关性组的最小含量是在步骤S45中识别的相关性链接的关键词对的一对关键词。同样,可识别的相关性组的最大数量等于在步骤S45中识别的相关性链接的关键词对的数量。然而,在最实际的情况中,可期望的是,可识别的相关性组的数量在零与可识别相关性组的最大数量之间。
[0152] 图2A的示例性过程示例性地进一步包括实行相关性组识别的步骤S48以基于如在步骤S45中确定的识别的相关性链接的关键词对来识别关键词的相关性组。
[0153] 示例性地,每个相关性组包括至少一个相关性链接关键词对(即相关性组的最小含量)的关键词,并且对于在各自的相关性组中包括的每个关键词,各自的相关性组进一步可包括被识别为相关性链接到各自的关键词的其它关键词。
[0154] 在此,相关性组可以以闭合的方式来定义,即相关性组包括全部直接或间接地相关性链接关键词,并且如果存在两个相关性组,没有关键词或一个组是与其它相关性组相关性链接的。也就是,根据这样的定义,将会相关性链接到相关性组的至少一个其它关键词的每个关键词还属于相关性组(如与该关键词相关的所有其它关键词所做的)。
[0155] 在其它实施例中,对于在相关性组中的每个关键词,可以定义相关性链接的最小数量,使得只有至少与根据相关性链接的最小数量的相关性组的其它关键词的预定义数量进行相关性链接的关键词将会被认为相关组成员。然后,可能出现的是,一个相关性组的关键词可相关性链接到另一个相关性组的另一个关键词。另一方面或者换句话说,一个人可以说,从上面的意义上说,一个第一程度相关性组具有更高程度的子组,该子组由相关性链接的预定义的最小数量来限定。
[0156] 作为示例,图3A示例性地示出多个关键词(“关键词1”到“关键词8”)以及在两个关键词之间的指示各自的关键词对彼此相关性链接的线。
[0157] 示例性地,在图3中,“关键词1”相关性链接到“关键词2”和“关键词5”,“关键词2”和“关键词5”自然地还与“关键词1”相关性链接,但是进一步示例性地彼此相关性链接。另一方面,在“关键词3”和“关键词4”彼此相关性链接的时候,只有“关键词3”进一步相关性链接到“关键词7”而“关键词4”不相关性链接到任何其它关键词。进一步示例性地,“关键词7”进一步相关性链接到“关键词6”和“关键词8”,“关键词6”和“关键词8”自然地还与“关键词7”相关性链接,但进一步示例性地彼此相关性链接。
[0158] 在上面的闭合的相关性组的示例性定义中,图3示例性地示出相关性组CG,该相关性组CG包括关键词“关键词1”到“关键词8”中的全部,因为这些关键词中的每个至少相关性链接到相关性组CG的关键词中的另一个,并且至少相关性链接到相关性组CG的关键词的另一个的全部关键词被包括在相关性组CG中。
[0159] 另一方面,如果一个人将使用相关性链接的最小数量是2的定义,(第一程度的)相关性组CG将被分成(第二程度的)两个子组,即在图3中的子组1A和1B,因为各自的(子)组中的每个关键词相关性链接到各自的相关性(子)组的至少两个其它的关键词,并且相关性链接到各自的相关性(子)组的至少两个其它的关键词的全部关键词被包括在各自的相关性(子)组中。然而,“关键词3”和“关键词4将不包括在第二程度的相关性(子)组中的任一个中。
[0160] 图3B示例性地示出另一个聚类图,其包括来自一个或多个另外的数据样本的数据,例如一个或多个时间周期的数据。基于相关性链接的新计算,这样的额外数据的添加可改变结果。
[0161] 在图3B中,到关键词1和关键词3的示例性地相关性链接在相关性组中消失,同时在关键词2与关键词4之间以及在关键词4与关键词6之间出现新的相关性链接。进一步示例性地,新的关键词8以与到关键词5、关键词2和关键词8的新的相关性链接出现在相关性组中。
[0162] 当然,这样的改变仅仅是示例性的,旨在示出到先前或新的关键词的新的相关性链接可能消失,这是由于作为在基于具有另外的数据样本(例如与在一个或多个另外的时间周期上的数据相连)的新的或额外的数据所分析的结果,新的或额外的数据样本和/或先前相关性链接和/或有关的关键词可能消失。
[0163] 图2B示例性地示出根据一些其它示例性实施例的用于实行社交媒体数据的社交媒体数据处理(例如在图1中的步骤S4中)自动分析的另一种方法。
[0164] 示例性地,图2B的过程还包括提供预处理的社交媒体数据(预处理的分析输入数据)的步骤S41,实行单词计数处理的S42,实行相关性确定处理的S44,实行相关性链接识别处理的S45,以及实行相关性组识别处理的S48。
[0165] 示例性地,图2B的过程进一步包括在实行步骤S42的单词计数处理之后实行频率测试以提取频率关键词的另一个步骤S43。在上面的图2A的方法中,这样的步骤S43还可被包括在步骤S42和S44。
[0166] 对于步骤S43,可能存在预定义的频率阈值,并且步骤S43的过程可包括省略关键词,对于该关键词,已经在步骤S42中确定单词计数,但在相关性确定处理之前,该关键词不能达到频率标准。频率标准可包括:对于预定数量的时间周期(例如对于全部、一些或至少一个时间周期),对于各自的关键词的确定的单词计数数量是否超过频率阈值的标准,和/或对于多个时间周期,对于各自的关键词的平均的单词计数数量是否超过频率阈值(或第二频率阈值)的标准。
[0167] 优选地,在进一步的分析中,未满足诸如上面标准的频率测试标准的关键词将被省略。如上所讨论,这可能具有有益的效果,即以通过省略在一个或多个时间周期中或平均上具有低出现频率的关键词的进一步分析,可显著减小处理负担,因为对于N各未省略关键词,在确定对于组合的可能关键词对的相关性系数中的处理负担随着(N-1)N/2增加。
[0168] 然后,对于未省略的关键词,也可在图2B的过程中实行如结合图2A所讨论的步骤S44和S45,以确定在未省略的关键词的组合的可能关键词对当中的相关性链接的关键词对。
[0169] 然而,作为一种额外的“验证过程”,特别是计算相关性系数的平行的(或独立的)相关性确定过程,过程包括实行距离确定处理的步骤S46,特别是关于不基于对于每个时间周期合并的数据而是基于分析逐个评论所实行的分析。
[0170] 优选地,对于多个(未省略)关键词对中的每个,通过分析社交媒体数据(分析输入数据)逐个评论(逐个文本文档)来确定距离系数作为指示在各自的用户评论/文本文档中的各自的关键词对中的关键词的相对距离的参数,在步骤S46中实行距离确定处理以确定与各自的关键词对相关联的各自的距离系数。
[0171] 因此,各自的距离系数被计算为指示如下项的参数:在预处理的社交媒体数据的每个各自的文本文档中的各自的关键词对中的关键词的相对距离。
[0172] 与各自的关键词对相关联的距离系数优选地在最大距离系数值与最小距离系数值之间的范围中确定,该最大距离系数值指示在多个文本文档中,各自的关键词对中的关键词一起出现,特别是彼此接近和/或邻近,该最小距离系数值指示在用户创建的文本文档中的任一个中,各自的关键词对中的关键词不一起出现。
[0173] 例如,距离系数可在0和1之间的范围中确定,其中距离系数0可指示在用户创建的文本文档(评论)的任一个中,各自的关键词对中的两个关键词不一起出现,以指示在相同的用户创建的文本文档(评论)中这些关键词不再被任何用户使用,并且因此优选地不应当被解释为相关性链接,并且距离系数0可指示在用户创建的文本文档(评论)中,各自的关键词对中的两个关键词总是以极为邻近(例如,在相同的句子中,或在预定的最小数量的单词的范围内)或甚至直接彼此邻近地一起出现,以指示在相同的用户创建的文本文档(评论)中这些关键词总是被用户使用,并且因此如果在步骤S45中可检测相关性链接,这些关键词优选地应当被解释为相关性链接。
[0174] 应注意,存在某种语言(例如英语或其它欧洲语言),其中,在句子中的极为邻近的单词可被解释为关于内容和/或上下文的接近关系。也就是,在英语或其它欧洲语言中,在句子中接近或甚至彼此相邻的两个单词可关于内容和/或上限文接近地相关。然而,依赖于文本文档的特定语言(多种),可优化确定距离系数的算法。例如在一些亚洲语言(例如中国或日本),相对的规则可应用,使得在句子中具有最大物理距离(例如放置在句子的开始和结尾处)的单词可能在内容和/或上下文方面最接近地相关。
[0175] 这样的距离系数可通过如下项来计算:当在相同的评论/文本文档中出现两个关键词时将(可变的或固定的)值指定到评论/文本文档中的距离(在最简单的实施例中,这可将值指定到一种情况,在这种情况中,两个关键词出现在相同的评论/文本文档中,并且在更复杂的实施例中,这可包括变化的值,这是基于在评论/文本文档内的相对距离(例如考虑如上所讨论的语言类型,例如依赖于语言类型,在句子中接近的物理距离或在句子中远的物理距离可指示高的上下文关系,其中上下文关系优选地基于距离系数的确定而不是在句子中的术语之间的物理距离),以及为评论/文本文档指定数值零,在该评论/文本文档中,在各自的评论/文本文档中仅出现两个关键词中的一个或者其中一个也没有。然后,对于每个关键词对,评论/文本文档的指定值可一起被相加,并且被归一化参数归一化,该归一化参数可取决于成对的或其中仅一个的各自的关键词二者的单词计数。
[0176] 如所提及的,距离系数可基于如下项来计算:仅在文本文档中的普通出现,或者甚至更准确地在于至少对于诸如英语或其它欧洲语言之类的语言的在句子中的物理距离。然而,在优选的实施例中,可基于如下项来优选地计算距离系数,即甚至更准确地基于语义/逻辑距离(例如,基于句子结构,包括主体-客体结构或依赖于文本文档的特定语言的语言拓扑的其它特性),而不是只有物理距离以更好地反映特定语言的实际的语言拓扑。
[0177] 在一些简单的或有效的示例性实施例中,用于某关键词对的距离值可计算如下。假设包括各自的关键词对中的两个关键词中的关键词二者的评论/文本文档的数量是M,而两个关键词的各自的单词计数是WC1和WC2(这可能是对于一个时间周期/数据样本,或者对于累积组合的全部时间周期/数据样本),然后距离系数可被计算为(或基于)M/max(WC1,
WC2),或2M/(WC1+WC2)等。在两种情况中,优选地,距离系数可示例性地归一化为0和1的范围。在一种示例性实施例中,其中每评论/文本文档仅计数关键词一次(即使在相同的评论/文本文档中它们出现两次或更多次),这些系数M/max(WC1,WC2),或2M/(WC1+WC2)将已经被归一化,因为M将总是小于或等于WC1、WC2和(WC1+WC2)/2中的每个。
[0178] 如上所提及,在其它实施例中,在其中出现两个关键词的各自的评论/文本文档中的相对距离可通过如下方式来考虑:根据相对距离指定在0和1之间的值,并且将这些值相加以用于出现两个关键词的所有评论/文本文档。在这样的实施例中,仍可示例性地应用值1/max(WC1,WC2),或2/(WC1+WC2)。
[0179] 在其它实施例中,距离确定还可基于频率分析,其可能甚至更简单或更有效,包括单词计数的比较。
[0180] 例如,如果在相同的文本文档中通常一起出现两个术语/关键词,在多个数据样本/时间周期中,第一关键词的出现的数量与第二关键词的出现的数量可相同或者至少大致相等。这样的算法可计算对于两个关键词的单词计数WC1和WC2(这可能是对于一个时间周期/数据样本,或者对于累积组合的全部时间周期/数据样本),并且然后距离系数可被计算为(或基于)WC1/max(WC1,WC2)、WC2/max(WC1,WC2),或(WC1+WC2)/[2max(WC1,WC2)],等等。
[0181] 优选地,计算这样的参数以用于更多或全部数据样本,因为可能意外地发生,单词计数WC1或WC2仅作为巧合地相等或大致相等,但是对于许多或甚至全部数据样本,如果两个术语的单词计数相等或大致相等,这是术语常常在相同的文本文档中一起出现的好的和可靠的指示。
[0182] 基于上面确定的对于关键词对中的每个的距离系数(潜在地再次省略不通过步骤S43的频率测试的关键词),过程示例性地实行进一步的步骤S47,其检查步骤S45的相关性链接关键词对,关于它们是否具有低距离系数以验证检测的相关性。
[0183] 换句话说,应用在相关性链接识别处理S45中的相关性标准进一步包括在步骤S47中应用的另一个标准,关于与各自的关键词对相关联的确定的距离系数是否超过距离阈值,并且在步骤S48的相关性组识别处理中省略不满足该其它标准的步骤S45的相关性链接关键词对。
[0184] 图4A到图4E示出根据一些另外的实施例的用于实行数据分析处理的示例性方法的流程图。这些例如可表示用于在图2A中的步骤S42、S44和S45的或者在图2B中的步骤S42、S43、S44、S45、S46和S47的实施的更具体的示例,但不意味着限制上面这些过程的实施。
[0185] 示例性方法可通过图4A和图4C的流程图的步骤来表示。然而,在一些示例性实施例中可选地实行实行“验证处理”的步骤S318,但在其它示例性实施例中可省略。如果在一些实施例中根据可选的步骤S318实行验证处理,这可根据上面示例性讨论的步骤S47和S47来进行,和/或在一些示例性实施例中可根据图4D的可选过程或根据图4E的可选过程来实行。在一些示例性实施例中,示例性地,在图4A中的步骤S312到S317可示例性地被图4B的可替代子过程代替。
[0186] 再次,假设提供包括多个关键词的数据库,并且对于多个时间周期T-i(作为数据样本的示例),提供包括多个文本文档的分析输入数据,例如社交媒体数据(包括多个用户创建的文本文档/评论)。对于将要在对于时间周期T-i中的每个的循环中重复的时间周期T-i的第一个(i来自从1到时间周期和/或数据样本的总数),过程示例性地以步骤S301开始。
[0187] 在步骤S302中,确定对于该时间周期T-i的评论的数量NC(T-i),即与时间周期T-i相关联的全部文本文档(社交媒体数据的评论)的数量,例如基于创建日期、检索日期和/或时间标记。
[0188] 在步骤S303中,基于对于步骤S302的该时间周期T-i的文本文档/评论的确定的数量NC(T-i),示例性地确定频率阈值FT(T-i)。例如,阈值可预定义为全部文本文档/评论的某个百分比(例如P%的因子意味着,基于或等于对于步骤S302的该时间周期T-i的文本文档/评论的确定的数量NC(T-i)的P%(即确定的数量NC(T-i)的0.01乘以P倍),可确定频率阈值FT(T-i))。这不意味着限制性,并且在其它实施例中,对于全部时间周期/数据样本,阈值可被固定到总体预定阈值的值。
[0189] 在一般方面,分析输入数据(例如社交媒体数据)的数据分析处理可进一步包括,基于与某时间周期(数据样本)相关联的文本文档的总数,调节应用到对于某时间周期(数据样本)的确定的单词计数数量的频率阈值。
[0190] 这具有的优点是,将所应用的频率阈值作为变量,并且基于在各自的时间周期出现的用户讨论的量来调节,以便于不滤除在各自的时间周期期间的已经超出平均或者到某个程度的相关主题,即使相对于其它时间周期(数据样本),在时间周期(在数据样本中)期间的评论的总量是低的。
[0191] 在其它示例性实施例中,基于多个时间周期(数据样本)的文本文档的总数,可以调节对于多个时间周期(数据样本)的应用到确定的平均单词计数数量的频率阈值。
[0192] 在步骤S304中,各自的时间周期T-i的全部评论/文本文档合并到数据结构中(例如到单个文件或关联的多文件中)。
[0193] 对于将要在对于多个关键词kj中的每个的循环中重复的多个关键词k-j中的第一个,下一个子过程然后在步骤S305中开始。在步骤S306中,确定对于在对于各自的时间周期T-i的数据中的各自的关键词k-j的单词计数WC(k-j,T-i),并且步骤S307检查对于在对于各自的时间周期T-i的数据中的各自的关键词k-j的确定的单词计数WC(k-j,T-i)是否超过在步骤S303中确定的频率阈值FT(T-i)。
[0194] 如果步骤S307给出是,则在步骤S308中,各自的关键词k-j存储在初步结果数据中,并且如果步骤S307给出否,则在步骤S309中,各自的关键词k-j被简单地省略(或在初步结果数据中被删除)。在其它实施例中,各自的关键词k-j只有在其不通过步骤S307的频率测试达预定数量的时间周期(数据样本)时被省略。
[0195] 如果对于全部的关键词k-j还没有实行上面的子过程(步骤S310给出否),方法通过再次转到步骤S305以用于下一个关键词(j->j+1)来重复上述。否则(步骤S310给出是),方法继续步骤S311。如果对于全时间周期T-i,还没有实行过程(步骤S311给出否),则方法通过再次转到步骤S301以用于下一个关键词(i->i+1)来重复上述,方法继续步骤S312。
[0196] 在上述中,方法在关键词的循环中示例性地实行,在时间周期(数据样本)的循环中实施,但还可以具有一种方法,其中该方法可以在时间周期(数据样本)的循环中实行,在关键词的循环中(特别是在不改变频率阈值的实施例中)实施。
[0197] 然后,在对于将要在对于多个关键词对{k-l,k-m}中的每个的循环中重复的多个关键词对{k-l,k-m}中的第一个,在步骤S312中开始下一个子过程。
[0198] 在步骤S313中,对于当前的关键词对{k-l,k-m},基于WC(k-l,T-i)和WC(k-m,T-i)的样本,对于全部时间周期T-i,确定关联的相关性系数Corr(l,m),即样本WC(k-l,T-1)、WC(k-l,T-2)、WC(k-l,T-3),…是否与样本WC(k-m,T-1)、WC(k-m,T-2)、WC(k-m,T-3),…等相关。
[0199] 在步骤S314中,根据相关性标准的标准,检查与当前关键词对{k-l,k-m}相关联的计算的相关性系数Corr(l,m)是否超过相关性阈值Corr_Lim。如果步骤S314给出否(没有或低可能性的相关性),在步骤S316中省略(或删除)当前关键词对{k-l,k-m},但如果步骤S314给出是(适中和/或高可能性的相关性),在步骤S315中,当前关键词对{k-l,k-m}被存储在初步结果数据中。
[0200] 如果对于全部关键词对{k-l,k-m}还没有实行上面的子过程(步骤S317给出否),通过再次转到步骤S312以用于下一个关键词(l->l+1和/或m->m+1)来重复上述。否则(步骤S317给出是),方法继续步骤S319(或者可选的验证处理的步骤S318的可选的子过程,如例如结合在图4D和/或图4E中的示例性子过程所说明的)。
[0201] 在步骤S319中,方法输出在步骤S314和S315中确定的存储的关键词对(或者仍然在图4D和/或图4E的可选的子过程之后存储的)作为相关性链接的关键词对,并且在步骤
S320中确定各自的相关性组(多个),并且输出在步骤S320中的识别的相关性组(多个)作为在步骤S321中的分析结果。
[0202] 在另一个可替代方法中,其在处理负担中是有效的,在图4A的步骤S311与在图4C的步骤S319(或S318)之间可实行示例性图4B的子过程。
[0203] 在此,与如上所述类似地,可实行步骤S313、S314和S315,然而,子过程不在关键词对的循环中示例性地实行,而在关键词的两个循环中示例性地实行。对于在图4B中的步骤S312A到S317B之间的每个(仍存储的)关键词实行第一循环,并且对于在步骤S312B和S317A之间的每个(仍存储的)关键词k-m(不同于关键词k-j,即对于j不等于m),在第一循环里面实行第二循环。
[0204] 示例性地,在对于全部关键词对k-j和k-m(因为j不等于m)完成第二循环之后,在步骤S316A中检查步骤S314的相关性标准是否满足对于该当前关键词k-j的关键词对k-j和k-m(因为j不等于m)的任一个。如果在步骤S316A中的答案是否,即当前关键词k-j不相关性链接到仍存储的关键词k-m(因为j不等于m)中的任一个,该关键词k-j不具有到剩余存储的关键词中的任一个的相关性链接,并且可在步骤S316B中被删除,之后再次进入第一循环以用于下一个关键词,使其在对于将要在第一循环中处理的全部另外的关键词的全部以下第二循环中被忽略,借此有利地减小在另外的关键词的处理中的处理负担,直到步骤S317B返回是,并且方法可继续图4C的步骤S318或S319。
[0205] 如上进一步所提及,可实行验证处理(以验证识别的相关性链接的关键词对)的子过程,如在图4D和/或4E的示例性过程中所述,其可跟随上面的(来自图4A的)步骤S317或(来自图4B的)S317B(或者在其它实施例中对于全部可能的关键词对平行或独立地实行)。
[0206] 应注意,步骤S316B“删除关键词k-j”旨在确保不再考虑特定的关键词k-j,例如在步骤S317B的随后的检查中不考虑,并且如果过程循环返回步骤S312A(或者到子过程中的S312B),在优选的实施例中不再考虑步骤S316B的删除的关键词(多个)。
[0207] 在图4D中,示例性地,在步骤S322中,对于在步骤S315和S317(或者S317B)给出是之后在初步结果数据中存储的全部关键词对{k-l,k-m},子过程的方法执行。可替代地,例如基于数据库的关键词(或者它的预定集合)中的关键词的全部可能的关键词对{k-l,k-m},可平行或独立地实行子过程。
[0208] 关于相关的关键词对,对于每个文本文档/评论(逐个评论,或逐个文本文档),实行子过程,比照步骤S323。过程示例性地检查在步骤S324和S325中的当前评论/文本文档中当前关键词对{k-l,k-m}的关键词k-l和k-m中的任一个是否至少出现一次,并且如果步骤S324和S325二者给出否或者如果步骤S324和S325中的至少一个给出否,则转到下一个关键词对。否则,如果步骤S324和S325二者给出是,即在当前评论/文本文档中当前关键词对{k-l,k-m}的关键词k-l和k-m二者均至少出现一次,则子过程确定对于用于当前关键词对{k-l,k-m}的评论的相对距离参数。
[0209] 如果对于全部文本文档/评论已经实行上面的子过程(步骤S327给出是),对于用于当前关键词{k-l,k-m}的步骤S326的评论的相对距离参数被用于确定对于当前关键词组{k-l,k-m}的距离系数DC(k-l,k-m)。这可能如在上面一些实施例中所述的来实行,例如包括归一化步骤。对于当前关键词对{k-l,k-m}的距离系数DC(k-l,k-m)指示在评论/文本文档中的关键词k-l和k-m的相对距离,即它们是否可能一起在相同的评论中或者甚至在极为邻近地在它们本身的文本文档/评论中出现(例如,在如结合上面的步骤S46所示例性说明的考虑之下)。
[0210] 在步骤S328中,如相关性标准的另一个示例性标准,检查对于当前关键词对{k-l,k-m}的距离系数DC(k-l,k-m)是否超过距离阈值Dist_Lim。如果步骤S329给出否,在步骤S330中省略当前关键词对{k-l,k-m}(例如从存储的初步结果数据中删除)。也就是,根据上面的相关性系数Corr(l,m),甚至当前关键词对{k-l,k-m}将会是相关性链接的,由于缺乏验证,相关性将会被忽视,因为关键词将会作为基于单词计数相关性的统计相关而出现,但不可能在指示这些关键词可能不在上下文语境中相关的相同的文本文档/评论中出现。也就是,在相关性组的之后的识别中,例如在步骤S320中,在步骤S330中忽略的对可被忽视。
[0211] 否则,如果步骤S329给出是,根据上下文相关性,可链接当前关键词对{k-l,k-m},如它们看似被用在极为邻近地或者至少在相同的文本文档/评论中,并且因此可验证基于单词计数数量确定的任何潜在统计相关性。因此,验证的当前关键词对{k-l,k-m}(即如果步骤S329给出是)可被存储或保持存储在初步结果数据中,以被用在相关性组的之后的识别中。
[0212] 如果对于全部关键词对{k-l,k-m}已经实行子过程(步骤S332给出是),方法可继续上面的步骤S319(图4C),并且否则,通过再次转到步骤S322以用于下一个关键词对(l->l+1和/或m->m+1),循环可重复以用于下一个关键词对。
[0213] 在另一个可替代方法中,其在处理负担中有效,示例性图4E的子过程可替代图4D的子过程来实行。在此,可类似如上所述来实行步骤S323、S324、S325、S326、S327、S328、S329和S331,然而,子过程不在关键词对的循环中示例性地实行,而在关键词的两个循环中示例性地实行。对于在图4E中的步骤S322A到S332B之间的每个(仍存储的)关键词k-l实行第一循环,并且对于在图4E中的步骤S322B和S332A之间的每个(仍存储的)关键词k-m(不同于关键词k-l,即对于l不等于m),在第一循环里面实行第二循环。
[0214] 示例性地,在对于全部关键词对k-l和k-m(因为l不等于m)完成第二循环之后,在步骤S330A中检查步骤S329的相关性标准是否满足对于该当前关键词k-l的关键词对k-l和k-m(因为l不等于m)的任一个。如果在步骤S330A中的答案是否,即当前关键词k-l未距离相关性链接到剩余存储的关键词k-m(因为l不等于m)中的任一个,并且可在步骤S330B中被删除,之后再次进入第一循环以用于下一个关键词,使其在对于将要在第一循环中处理的全部另外的关键词的全部以下第二循环中被忽略,借此有利地减小在另外的关键词的处理中的处理负担,直到步骤S332B返回是,并且方法可继续图4C的步骤S319。
[0215] 图5示例性地示出根据一些示例性实施例的用于执行分析输入数据(例如社交媒体数据和/或如上所提及的其它类型的数据)的自动分析的装置500的示意性图。
[0216] 装置500可包括储存器520,其被配置为存储指示多个关键词的一个或多个数据库521;以及数据输入接口510,其被配置为提供/获取来自一个或多个数据源的分析输入数据,分析输入数据包括分别与多个数据样本(例如时间周期和/或地理位置)中的至少一个相关联的多个文本文档;其中分析输入数据522也可被存储到储存器520。
[0217] 装置500进一步包括处理系统530,该处理系统530具有预处理单元531,该预处理单元531被配置为执行预处理所提供的/获取的分析输入数据,以生成预处理的分析输入数据,所生成的预处理的分析输入数据可用于通过处理系统530的数据分析处理单元532的数据分析处理。处理系统530被配置为通过数据分析处理单元532的分析输入数据的数据分析处理。
[0218] 数据分析处理单元532包括单词计数处理单元533,其确定指示单词计数数量,对于多个数据样本(例如时间周期)中的每个,该单词计数数量指示对于在预处理的分析输入数据的文本文档中的数据库的关键词的出现频率;相关性确定处理单元534,其对于多个关键词对中的每个,确定与各自的关键词对相关联的各自的相关性系数,各自的相关性系数指示对于多个数据样本(例如时间周期)的各自的关键词对中的关键词的确定的单词计数数量之间的相关性的定量测量;相关性链接识别处理单元535,其识别相关性链接的关键词对,其中基于相关性标准,关键词对中的关键词被确定为彼此相关性链接,该相关性标准包括与各自的关键词对相关联的确定的相关性系数是否超过相关性阈值的标准;以及相关性组识别处理单元537,其基于识别的相关性链接的关键词对来识别关键词的相关性组,每个相关性组包括至少一个相关性链接的关键词对的关键词,并且对于在各自的相关性组中包括的每个关键词,各自的相关性组进一步包括被识别为相关性链接到各自的关键词的其它关键词。
[0219] 可实施处理系统以执行上面的计算机实施的方法中的一个或多个。在示例性实施例中,装置500进一步包括距离系数确定处理单元536以基于社交媒体数据来计算对于数据库的关键词对的距离系数。
[0220] 装置可进一步包括数据输出接口540,该数据输出接口540被配置为,如果识别关键词的一个或多个相关性组,输出指示关键词的一个或多个识别的相关性组中的至少一个的分析结果数据。数据可通过用户接口550(例如,图形用户界面,包括作为输出单元552的至少部分的显示器)的输出单元552来输出,该用户接口550还具有用户输入单元(例如,包括输入手段,例如触摸屏、计算机鼠标、小型键盘或其它计算机实施的人机界面输入工具)[0221] 图6A和图6B示例性地示出示例性地在时间t0和t6之间的各自的时间周期T1到T6的时间周期的布置的示例,作为在上面和下面的过程中的数据样本的示例。
[0222] 如在图6A中,可示例性地连续地布置时间周期T1到T6,并且每个时间周期T-i随后是时间周期T-i+1,并且特别是,时间周期T1到T6示例性地不重叠。时间周期的单位可以是天、月、年或其它,还以不同的持续时间或如在6A中的相同的持续时间。应注意,在时间周期不重叠的示例中,每个评论/用户创建的文本文档与单个时间周期相关联。
[0223] 如在图6B中,可示例性地累积地布置时间周期T1到T6,并且每个时间周期T-i随后是时间周期T-i+1,但包括T-i,并且特别是,时间周期T1到T6示例性地重叠。时间周期T1的单位可以是天、月、年或其它。应注意,在时间周期重叠的示例中,评论/用户创建的文本文档可与多个时间周期相关联。例如在图6B中,与第一时间周期T1相关联的全部评论还将与其它时间周期T2到T6中的每个相关联,但在时间t5和t6之间创建的评论将仅与第六时间周期T6(以及潜在更高编号的时间周期,如果有的话)相关联。
[0224] 在基于上面的方面和实施例的进一步的实施例中,数据库可包括多个搜索项,所述多个搜索项满射地映射到多个关键词上,优选地使得每个搜索项被映射到多个关键词中的一个和/或每个关键词与被映射到各自的关键词的多个搜索项中的一个或多个相关联。在该上下文中,满射的映射意味着每个搜索项被映射到单个关键词,但每个关键词可具有与各自的关键词相关联的零、一个或多个搜索项。在此,术语“搜索项”可表示字符的预定义的字符串,例如单个单词,两个或多个单词、数字的组合,数字和单词的组合,或其它。
[0225] 优选地,生成预处理的社交媒体数据的预处理包括识别在用户创建的文本文档中的搜索项的出现,以及基于数据库将识别的搜索项替代为它们各自的关联的关键词。例如,这可使用数据库/词典将单词(搜索项)转换成单个单词(关键词)。例如,与寒冷天气相关联的全部单词可被替代为一个单词,称为“寒冷天气(cold_weather)”,例如作为示例性的关键词。
[0226] 这具有的优点是,在以下处理中可减小搜索的关键词的数量,因为更高数量的搜索项被映射到较低数量的关键词,使得尤其是单词计数处理,相关性确定处理和/或距离确定处理可以以较低的处理负担和储存或存储使用来实行。
[0227] 然而,由于更高的频率的关键词的出现,通过将多个有关的搜索项映射到具有对搜索项的关联的同义的或更一般总结的关键词,可实现统计的相关性。例如,在单词的常规的使用中,可出现一种情况,其中多个搜索项表示彼此同义,并且与单个搜索项的单个频率出现相比,多个搜索项可被映射到单个同义的关键词,以减小处理负担并且将在之后的处理中的统计显著性增加到对于关键词的更高数量的平均单词的计数。同样,例如,用户有时描述更高或更低程度的关于一些主题的细节。如果分析不依赖于太高程度的细节,可以通过单个总结的关键词来总结多个更详细的搜索项,与单个搜索项的单个频率出现相比,还减小处理负担并且将在之后的处理中的统计显著性增加到对于关键词的更高数量的平均单词的计数。
[0228] 优选地,作为对将识别的搜索项代替为它们各自的关联的关键词的上面方面的可替代示例(或作为额外的验证计算),单词计数处理可包括对于多个时间周期中的每个,确定单词计数数量,该单词计数数量指示对于在预处理的社交媒体数据的用户创建的文本文档中的数据库的搜索项的出现频率,并且包括对于多个时间周期中的每个,将用于被映射到相同关键词的全部搜索项的确定的单词计数数量相加,以确定对于各自的关键词的各自的单词计数数量。这仍具有的优点是,可显著减小在之后的相关性有关的处理中的处理负担。然而,在单词计数处理之前将搜索项代替为关键词是更有效的,因为对于单词计数处理,可能已经减小了处理负担。
[0229] 具体地,可能优选的是,分析相关性链接的关键词的相关性组,关于是否可使用相干性组的关键词以形成“相关性句子”,其意义为相关性组至少包括用于多个句子相关的种类中的每个关键词。例如,在一些实施例中,可形成“相关性句子”,以用于检测产品故障,如果识别的相关性组至少包括产品名称或零件名称的种类的关键词,其被发现相关(相关性链接)到指示产品故障或产品问题的关键词的种类的关键词。
[0230] 优选地,方法可包括识别包含与数据库的更多种类中的两个的预定集合中的每个相关联的至少一个关键词的关键词的一个或多个相关性组。这具有的优点是可实施句子标准。可以提供句子标准以用于应用到相关性组,该相关性组指示,如果对于多个预定义的句子相关的种类中的每个,相关性组包括至少一个关键词,则相关性组允许提取相关性句子。句子相关种类的集合可表示数据库的全部可用的种类或者数据库的可用种类中的至少两
个的子集。
[0231] 优选地,种类(或者句子相关的种类)可包括如下项中的一个或多个:制造商种类,其包括与制造商名称(特别是汽车制造商的名称)相关联的关键词;产品种类,其包括与产品或产品型号(特别是汽车型号)相关联的关键词;零件种类,其包括与产品或产品型号的零件(特别是汽车零件)相关联的关键词;失灵种类,其包括与产品失灵或故障相关联的关键词;包括与解决的问题和/或产品或产品零件的正常功能相关联的关键词的种类;天气种类,包括与天气属性相关联的关键词;和/或位置种类,其包括与位置(特别是区域、国家、州和/或城市)相关联的关键词。
[0232] 例如,如果相关性链接的关键词的相关性组包括对于如下种类中的每个的至少一个相关性链接关键词:来自产品种类的至少一个关键词和/或来自零件种类的至少一个关键词,来自制造商种类的至少一个关键词以及来自失灵种类的至少一个关键词,可以提取各自的关键词的相关性句子,其指示可能已经检测某制造商的某产品和/或产品的零件,使得基于社交媒体数据可实现故障检测。来自其它种类的其它额外的相关性链接的关键词可包括添加到检测的相关性句子或检测的产品故障的额外的上下文信息。这可通过如下方式来进一步分析,即通过提取有关的评论/用户创建的文本文档以分析检测的问题。
[0233] 如果问题被验证或已经基于识别的相关性组,这可允许比在过去没有社交媒体分析的情况中更早地以及以更低的成本来发起召回操作。
[0234] 在进一步的实施例中,方法可进一步包括基于如下标准中的一个或多个来调节相关性标准:是否在相关性链接识别处理中识别无相关性链接的关键词对,是否在相关性组识别处理中识别无相关性组,在识别的相关性组中出现的关键词的最大数量是否低于预设定阈值,以及或者在识别的相关性组中的关键词的平均数量是否低于预设定阈值;以及基于调节的相关性标准重复相关性链接识别处理和相关性组识别处理。
[0235] 在另外的实施例中,方法可进一步包括:如果没有相关性组被识别,则调节相关性标准,该相关性组包含与数据库的更多种类中的两个的预定集合中的每个相关联的至少一个关键词;并且基于调节的相关性标准重复相关性链接识别处理和相关性组识别处理。
[0236] 上面可自动地调节相关性阈值、频率阈值和/或距离阈值。
[0237] 在上面的实施例和方面中的全部中,方法可进一步包括更新数据库的步骤,例如通过包括额外的关键词和/或搜索项,通过添加额外的普通参考短语等。这可通过关键词提取的手动分析来做成,例如通过分析评论和从其中提取的关键词和/或搜索项,并且分析是否已经提取适当的项。基于更新的数据库,然后可重复整个分析过程或其部分。除了手动分析和数据库/词典的更新,基于机器学习算法,优选的方面可更新数据库。对于固定的次数MF2,重复该过程。使用机器学习,例如,基于实例的机器学习算法,如k-最近邻(kNN)、学习矢量量化(LVQ)和自组织映射(SOP),可完成改善文字搜索和更新数据库/词典的过程。
[0238] 图7示例性地示出具体地基于图1和图2B的根据上面的一些示例性实施例的用于分析输入数据的自动分析的另一种方法的流程图。图7的过程是基于上面的示例性的实施例,并且描述应当被视为主要指向不同,并且更详细的子过程可使用先前在例如结合图4A到图4E描述的过程和子过程的描述中讨论的特征或方面或其部分方面。
[0239] 类似于上面在图1中的步骤S2和S3,可实行在图7中的步骤S2和S3。然而,示例性地,代替只有一个数据库,图7的过程示例性地提供在步骤S1A和S1B中的两个数据库,例如,指示多个关键词的第一数据库和指示多个关键词的第二数据库。例如,第一数据库可以是专用数据库,例如与数据分析的目的领域有关的专用的词典。
[0240] 例如,当实施例示例性地应用到汽车领域,例如用于故障检测和/或召回情况预测的目的,第一数据库可以是专用的词典或诸如在上面进一步讨论的预定义的汽车词典的库之类的专用词典的专用组合。在另一方面,第二数据库可以是更广泛的普通的词典,其包括在某些或更多的某些语言中使用的许多术语,如果不是全部术语的话。在一些示例性实施例中,甚至可以利用机器学习过程,在该机器学习过程中,在分析输入数据(或预处理的分析输入数据)的文本文档中的至少一个中使用的每个单词添加到第二数据库(如果还未被包括),并且基于在第二数据库的更新之后的第二数据库,重复单词计数处理和之后的诸如距离确定处理的处理。
[0241] 一般地说,在示例性实施例中优选的是,第一数据库包括多个关键词,并且第二数据库包括与第一数据库相同的多个关键词,并且额外的关键词未被包括在第一数据库中(即,第一数据库的大小小于第二数据库的大小,并且第一数据库数据是第二数据库数据的一部分)。
[0242] 在图7中,分别类似于图2B的对应步骤S42、S43、S44和S45,可实行步骤S42、S43、S44和S45。然而,在步骤S42A中的单词计数处理是基于第一数据库,即对于在步骤S1A中提供的第一数据库中包括的关键词,处理对在分析输入数据的文本文档中的出现数量进行计数。应注意,处理可能仅输出包括在第一数据中指示的关键词的相关性链接的关键词对。
[0243] 基于距离性能处理,优选地平行地(或之前或之后)图7的过程独立地实行验证处理(类似于例如在图2B中的步骤S46和/或基于例如在图4D或图4E中示出的子过程)。然而,代替使用步骤S42A的单词计数处理的结果,验证处理的子过程包括使用在步骤S1B中提供的第二数据库的单词计数处理步骤S42B。因此,在步骤S42B中的单词计数处理是基于第二数据库,即对于在步骤S1B中提供的第二数据库中包括的关键词,处理对在分析输入数据的文本文档中的出现数量进行计数。
[0244] 类似于步骤43A(或上面讨论的步骤S43),实行另一个频率测试的可选步骤S43B以提取频率关键词(以及省略更少的频率关键词以减小在步骤S46A和S46B中的处理负担)。再次,频率测试可使用固定的频率阈值(该频率阈值可以与在步骤S43A中使用的阈值相同或不同,只要S43A使用固定的频率阈值),或者该频率阈值可以基于如上面讨论所确定的动态阈值,例如基于没数据样本(例如时间周期)的文本文档的数量。
[0245] 在步骤S46A,方法图7示例性地包括实行距离确定过程的步骤(例如如上所讨论的),通过确定如在上面一些实施例中的距离参数/或距离系数(在可删除距离相关性链接的意义上,示例性地指的是在步骤S46B中的相关性链接识别处理,而S45识别可被检测的频率相关性链接),以确定(第二数据库的关键词中的)关键词对,该关键词对可能在相同的文本文档中出现(或甚至在个别文本文档里面上下文中接近)。应注意,过程可能仅输出包括在第二数据库中指示的关键词的距离相关性链接关键词对。然而,这些同样均可被包括在第一数据库中,步骤S46A和S46B可额外地输出关键词对(被识别为距离相关性链接的关键词对),该关键词对包括未包括在第一数据库中的一个或两个关键词。
[0246] 在可选的示例性实施例中,该方面可有利地被用于机器学习的另一种方法,其中可更新第一数据库,例如通过将关键词添加都第一数据库中,该关键词还未被包括在第一数据库中,但在步骤S46B中被识别为距离相关性链接到已经被包括在第一数据库中的关键词。同样,机器学习可包括向第一数据库添加两个关键词,如果关键词对在步骤S46B中被识别为在分析输入数据中彼此距离相关性链接,但这些两个关键词都没有在先前被包括在第一数据库中。一旦更新第一数据库,至少部分地基于更新的第一数据库的额外的关键词,过程可可选地重复步骤S42A、S43A、S44和/或S45。
[0247] 在步骤S47中,对于在步骤S46A中识别的距离相关性链接的关键词对(类似于在上面的图2B中的步骤S47,和/或结合如图4A到图4E所示的算法),可检查在步骤S45中识别的频率相关性链接的关键词对(在初始处理之后和/或在基于更新的第一数据库重复处理之后),并且只有在步骤S45和S46A两步骤中识别的关键词对可被用在步骤S48中,该步骤48为实行相关性组识别处理,以输出在类似于上面图1的步骤S5中的识别的相关性组(多个)。
[0248] 图8到图10输出用于根据图7实行数据分析的算法的实例学习的示例结果。
[0249] 具体地,图8示例性地示出用于关键词“破损/破碎”、“非常冷的天气”、“天窗/玻璃”和“奥迪Q5”的每天击打的累积发展,并且在图8中相关性甚至是可见的。图9示例性地示出相关性链接的关键词的相关性组,线表示识别的相关性链接。图10示例性地示出在分析中涉及的评论的地理位置。
[0250] 在该实例学习中,采用2012年的在奥迪汽车社交媒体论坛http://www.audiworld.com/中的用户评论,已经示例性地测试根据图7的算法。
[0251] 如可从图8中看到,可容易地可视化关键词讨论的趋势,连同跟随相同的每日趋势的关联的关键词。一个人可容易地看到,对于经过给定时间d的每天,一个人可容易地看到被用在相同或相关频率的关键词组。换句话说,一个人可看到,是否在相同或相关的频率提及关键词k-i作为例如关键词k-j和k-k。
[0252] 单词的可视相关性将已经发送信号,其中以相同频率被使用的单词可能具有相同的关系。这意味着,可视相关性图可能给出关于失效的本质和导致的原因的一些见解。
[0253] 在验证测试之后(例如已经示例性地应用额外的可选的验证过程),只有如图9所示例性示出的识别的相关性组的相关性链接的关键词的残存的集合及其子图显示奥迪Q5
的型号,在非常冷的温度下,该奥迪Q5型号的玻璃(全景)天窗易于破损。在2012年8月,存在由于由天窗缺陷致使的一些安全风险引发的该奥迪型号的召回。在图9中示出通过验证测试的检测的关键词和属性,作为类似于图3的示例的聚类图。
[0254] 因此,如在图9中示例性地示出,结果可以以相关性网络或聚类图(cluster graph)的形式显示。该网络聚集在一起并且对与至少corr_Lim的相关性限制相关的那些关键词进行链接。
[0255] 击打还可在映射中显示,以示出如在图10中示例性示出的击打出现的地理位置。
[0256] 基于先于召回日期直到六个月所获取的社交媒体数据,算法有利地能够举起红色旗标,如果方法已经应用于2012的社交媒体数据,该召回日期将已经暗示用于OEM的潜在成本节省。这暗示了,基于在线获取的社交媒体数据的本公开的实施例和示例(其暗示成本节省还有由于潜在安全有关问题的早期检测引起的驾驶员安全的非常显著的潜能),将来可较早地预测或检测潜在的召回情况。
[0257] 在上面的示例和实施例中,对于两个关键词的对,已经计算相关性系数,并且已经忽略在三个或更多个关键词之间的潜在相关性。在进一步的实施例中,额外地可以使用在相关性标准检查中的三个或更多个关键词之间的相关性。
[0258] 例如,在对于三个关键词x、y和z的时候,可分别对于关键词对{x,y}、{x,z}和{y,z},计算相关性各自的相关性系数Rxy、Rxz和Ryz,可以进一步计算一个或多个相关性系数,例如对于到其它两个关键词的关键词对的三个关键词x、y和z中的一个的潜在相关性中的每个。
[0259] 例如,为计算关键词z的到关键词对{x,y}的相关性,相关性系数将被计算为:
[0260]
[0261] 然后,代替或除了两参数相关性系数,对于在相关性标准中的相关性,可检查三参数相关性系数以确定关键词的相关性链接的组。
[0262] 在方面和实施例中,可输出相关性链接的关键词对的一个或多个相关性组作为分析结果数据。可以以多种方式可视化结果,例如以列表、表格、聚类图等的形式。
[0263] 在方面和实施例中,可输出相关性链接的关键词对的一个或多个相关性组作为分析结果数据。可以以多种方式可视化结果,例如以列表、表格、聚类图等的形式。同样,可绘制经过时间的单词计数发展或经过时间的累计单词计数发展。
[0264] 例如,相关性结果可以每车辆商标或每车辆型号可视化相关性结果;可以以经过时间的连续的方式或每区域可视化相关性结果;相关性结果可被可视化为具有预定义属性(例如区域、时间)的基于事件;相关性结果可被可视化为图(例如绘制图)、文本(例如零件+故障陈述+时间+区域),或者二者的组合;和/或相关性结果和细节的水平可被可视化为由顾客经由交互可视化接口(例如上面的用户接口550)所请求的。
[0265] 方面和示例性实施例可被用于实现社交网络数据的批量分析,以检测车辆零件故障检测,并且提供作为对OEM的服务以协助对于最终召回的决策制作。
[0266] 方面和示例性实施例可被用于将结果提供给其它服务供应商,例如车库和修理中心以预报服务供应。
[0267] 方面和示例性实施例还可依赖于额外的信息,例如依赖于其它数据源,例如可被考虑的车载传感器,或者从汽车修理中心收集的数据。基于流的分析工具可被用于这样的数据分析。为此目的,数据词典可被进一步延伸到包括OBUII结构数据。
[0268] 当采用情感关键词改善数据词典时,可使用方面和示例性实施例以检测车辆特征的驾驶员印象,以用于其它目的。例如,如果数据词典包括积极的属性,例如“喜欢”、“欣赏”。可使用算法来识别受特定型号的客户最欢迎的特征。OEM可使用这样的信息以用于其它目的,例如广告、在将来车辆设计中的特征的集成等。
[0269] 可修改方面和示例性实施例上面未列出的额外的特征和子过程。
[0270] 例如,例如基于来自数据源的可用的数据,可动态调节用于数据提取的时间窗口。
[0271] 例如,在数据提取和清除阶段期间,可进一步改善数据/评论的标记,例如以考虑在评论发布时间与问题陈述时间之间的时间偏移。
[0272] 例如,如果以天T来发布(创建)评论,声明自两周以后出现问题。时间标记可被调节为T-14天。可使用类似的方法来用于其它标记,例如位置标记。
[0273] 例如,在示例性地除去冗余信息所在的数据清理的示例性过程中(例如通过从相同的数据源除去复制粘贴评论),诸如IP地址的参数可被用于冗余检查。
[0274] 同样,例如,例如通过采用预定义的元数据(例如,语言、区域和术语性质(名词、动词、形容词、副词等))来分类,可进一步充实数据库/词典。在机器学习阶段期间可考虑这样的元数据属性以用于数据词典的微调,例如微调数据库/词典以用于在用于区域应用的本地语言中使用的术语。
[0275] 在一些实施例中,可动态地调节并且进一步改善阈值。例如,阈值定义可考虑例如数据源的可信性(例如,它是否是社交网络或专业论坛)。另外,潜在地被用于改善数据词典的机器学习还可应用到上面的一个或多个标准的阈值(多个)的微调。
[0276] 同样,示例性实施例,验证过程可进一步被改善,例如通过实行逻辑文本验证,例如通过至少一个名词、一个动词以及一组副词(区域、时间等)以及形容词(天气条件)的出现的故障检测的验证。
[0277] ***
[0278] 如在本领域的技术人员将理解的,如上在上文中并且结合附图所描述的,方面和示例性实施例可被体现为方法(例如,计算机实施过程)、装置(包括设备、机器、系统、计算机产品,和/或任何其它装置),或者前述的组合。本发明的实施例可采取在计算机可读介质上的计算机程序产品的形式,该计算机可读介质具有嵌入在介质中的计算机可执行程序代码。
[0279] 在上文中,参考方法和装置的流程图和/或方框图,并且参考通过方法和/或装置生成的图形用户界面的样本视图的数量,示例性地描述实施例。将理解的是,流程图和/或方框图的每个方框和/或在流程图和/或方框图中的方框的组合以及图形用户界面可通过计算机可执行程序代码来实施。
[0280] 计算机可执行程序代码可被提供到一般用途计算机、专用计算机或其它可编程数据处理装置的处理器,以产生特定的机器,使得经由计算机或其它可编程数据处理装置的处理器来执行的程序代码生成一种工具(means),该手段用于实施在流程图、方框图的方框或方框、附图和/或书面描述中指定的功能/动作/输出。
[0281] 这些计算机可执行程序代码也可被存储在计算机可读存储器中,该计算机可读存储器可引导计算机或其它可编程数据处理装置以特定的方式起作用,使得在计算机可读存储器中存储的程序代码产生包括指令工具制造的物品,该指令工具包括实施在流程图、方框图的方框(多个)、附图和/或书面描述中指定的功能/动作/输出。
[0282] 计算机可执行程序代码也可被加载到计算机或其它可编程数据处理装置上,以导致一系列的操作步骤被实行在计算机或其它可编程装置上,以产生计算机实施的过程,使得在计算机或其它可编程装置上执行的程序代码提供用于实施在流程图、方框图的方框(多个)、附图和/或书面描述的步骤。可替代地,计算机程序实施的步骤或动作可与操作员或人工实施的步骤或动作来组合,以便于实现本发明的实施例。
[0283] 通信网络一般可包括公开的和/或私下的网络;可包括本地区域、宽广区域、大都市区域、储存器和/或其它类型的网络;以及可采用通信技术,其包括但绝不限于模拟技术、数字技术、光学技术、无线技术(例如,蓝牙)、网络技术和互联网络技术。
[0284] 还应当注意,设备可使用通信协议和消息(例如,由设备生成、传送、接收、存储和/或处理的消息),并且这样的消息可通过通信网络或介质来递送。
[0285] 还应当注意,在此可描述逻辑流程以展示本发明的各方面,并且不应当被视为将本发明限制到任何特定的逻辑流程或逻辑实施。所述的逻辑可被分成不同的逻辑方框(例如,程序、模、功能或子例程),而不改变总体结果或否则脱离本发明的真实范围。
[0286] 本发明可以以许多不同的形式来体现,包括但绝不限于,用于采用处理器(例如,微处理器、微控制器数字信号处理器或一般用途计算机)来使用的计算机逻辑、用于采用可编程逻辑设备(例如,现场可编程阵列(FPGA)或其它PLD)、离散部件、集成电路(例如,应用专用集成电路(ASIC)),或包括其任何组合的其它工具。实施所述功能的一些或全部的计算机程序逻辑通常被实施为一组计算机程序指令,该计算机程序指令被转换到计算机可执行形式中,同样被存储在计算机可读介质中,并且在操作系统的控制下被微处理器执行。
[0287] 在此,实施前述功能的全部或部分的计算机程序逻辑可以以各种形式来体现,包括但绝不限于,源代码形式,计算机可执行形式和各种中间形式(例如,由汇编器、编译器、链接器或定位器生成的形式)。
[0288] 源代码可包括以各种编程语言(例如,对象代码、汇编语言或高水平语言,例如Fortran、C、C++、JAVA或HTML)中的任一个来实施的一系列计算机程序指令,所述各种编程语言用于采用各种操作系统或操作环境来使用。源代码可定义并且使用各种数据结构和通信消息。源代码可以以计算机可执行形式(例如经由解释器),或者源代码可能被转换(例如经由翻译器、汇编器或编译器)成计算机可执行形式。
[0289] 用于实现本发明的实施例的操作的计算机可执行程序代码可被写入在面向对象的、脚本或非脚本的编程语言,例如Java、Perl和Smalltalk、C++等。然而,用于实现本发明实施例的操作的计算机程序代码也可以用传统的过程编程语言(例如“C”编程语言或类似的编程语言)来写入。
[0290] 在此,实施先前描述的所有或部分功能的计算机程序逻辑可以在不同时间在单个处理器上来执行(例如,同时)或者可以在相同或不同的时间在多个处理器上执行,并且可以在单个操作系统过程/线程或在不同的操作系统过程/线程下运行。
[0291] 因此,术语“计算机过程”一般指一组计算机程序指令的执行而不管不同计算机过程是否在相同或不同的处理器上被执行,并且不管不同的计算机过程是否在相同的操作系统过程/线程或不同的操作系统过程/线程下运行。
[0292] 计算机程序可以被固定在任何形式(例如,源代码形式、计算机可执行形式或中间形式),永久地或短暂地在有形存储介质中,诸如半导体存储器设备(例如,RAM、ROM、PROM、EEPROM,或闪存可编程RAM)、磁存储器设备(例如,软盘或固定盘)、光存储器设备(例如,CD-ROM)、PC卡(例如,PCMCIA卡),或其它存储器设备。
[0293] 计算机程序可以以在使用各种通信技术中的任一个来传送到计算机的信号中的任何形式来固定,所述各种通信技术包括但绝不限于,模拟技术、数字技术、光学技术、无线技术(例如蓝牙)、网络技术和互联网络技术。
[0294] 计算机程序可以以任何形式分发作为可移动存储介质,伴随打印的或电子文档(例如,收缩包装软件),预加载有计算机系统(例如,在系统ROM或固定盘上),或者从服务器或电子公告板经过通信系统(例如,因特网或万维网)分发。
[0295] 在此,实施全部或部分先前描述的功能的硬件逻辑(包括用于采用可编程逻辑设备的可编程逻辑)可以使用传统的手动方法来设计,或者可使用各种工具,诸如计算机辅助设计(CAD),硬件描述语言(例如,VHDL或AHDL),或PLD编程语言(例如,PALASM,ABEL或CUPL),来设计、捕获、模拟或电子地文档记录。
[0296] 可利用任何合适的计算机可读介质。计算机可读介质可以是,例如但不限于,电子、磁、光、电磁、红外或半导体系统、装置、设备或介质。
[0297] 计算机可读介质的更具体的示例包括但不限于电连接,其具有一个或多个导线或其它有形存储介质,例如,便携式计算机磁盘、硬盘随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光盘只读存储器(CD-ROM),或者其它光或磁存储设备。
[0298] 可编程逻辑可以永久地或短暂地被固定在有形存储介质中,例如半导体存储器器件(例如,RAM、ROM、PROM、EEPROM或闪存可编程RAM)、磁存储器设备(例如,磁盘或固定盘)、光学存储器装置(例如,CD-ROM),或其它存储器设备。
[0299] 计算机逻辑可以以在使用各种通信技术中的任一个来传送到计算机的信号中来固定,所述各种通信技术包括但绝不限于限定于,模拟技术、数字技术、光学技术、无线技术(例如蓝牙)、网络技术和互联网络技术。
[0300] 计算机逻辑可被分发作为可移动存储介质,伴随打印的或电子文档(例如,收缩包装软件),预加载有计算机系统(例如,在系统ROM或固定盘上),或者从服务器或电子公告板经过通信系统(例如,因特网或万维网)分发。当然,本发明的一些实施例可以被实施为软件(例如,计算机程序产品)和硬件二者的组合。本发明另外其它的实施例被实施为完全的硬件,或完全的软件。
[0301] 虽然某些示例性实施例已经被描述并在附图中示出,但应当理解的是,这样的实施例仅仅是说明性的,并且不使用广泛发明限制性的,并且发明的实施例不限于所示出和描述的特定的结构和布置,因为除了那些在上面的段落中所述的,各种其它的改变、组合、省略、修改和替代是可能的。
[0302] 那些本领域的技术人员将理解,各种修改、改进和/或刚刚描述的实施例的组合可以在不脱离本发明的范围和精神的情况下进行配置。因此,可以理解的是,在所附权利要求的范围内,可除本文中所具体描述的来实施本发明。例如,除非明确声明,否则本文中所描述的过程的步骤可以以与在本文描述的那些不同的次序来实行,并且一个或多个步骤可以组合、分割,或同时或不同地来实行。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈