首页 / 专利库 / 电脑图像 / 表情符号 / 地理位置定位方法、系统、计算机设备和存储介质

地理位置定位方法、系统、计算机设备和存储介质

阅读:638发布:2020-05-12

专利汇可以提供地理位置定位方法、系统、计算机设备和存储介质专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种地理 位置 定位 方法、系统、计算机设备和存储介质。方法包括:获取用户文本信息;对用户文本信息进行标注化处理,得到文本序列;提取文本序列中的提及标识符,根据提及标识符分析各用户之间的联系,构建用户的网络视图;对文本序列进行特征提取,得到用户的文本视图;将网络视图和文本视图输入至预先训练后的注意 力 神经网络模型,得到用户的位置预测数据信息;对位置预测数据信息进行解码,得到地理位置坐标数据。上述方法通过输入的用户文本信息,拟合用户文本中影响地理位置预测的不可见因素,使其能够对社交网络文本数据进行地理位置预测;并采用注意力神经网络模型对复杂的用户关系进行分析得到用户的位置信息,准确度高。,下面是地理位置定位方法、系统、计算机设备和存储介质专利的具体信息内容。

1.一种地理位置定位方法,其特征在于,所述方法包括:
获取用户文本信息;
对所述用户文本信息进行标注化处理,得到文本序列;
提取所述文本序列中的提及标识符,根据所述提及标识符分析各用户之间的联系,构建用户的网络视图;
对所述文本序列进行特征提取,得到用户的文本视图;
将所述网络视图和所述文本视图输入至预先训练后的注意神经网络模型,得到用户的位置预测数据信息;
对所述位置预测数据信息进行解码,得到所述地理位置坐标数据。
2.根据权利要求1所述的地理位置定位方法,其特征在于,所述文本序列为单词序列;
对所述用户文本信息进行标注化处理,得到文本序列的步骤中,包括:
当文本为英文文本时,将所有英文单词转化为小写单词,得到小写字母文本;
去除所述小写字母文本中的停用词、统一资源定位符、表情符号和标点符号,并将单词中连续重复出现多次的字母降至两次,得到处理后的字母文本;
将所述处理后的字母文本采用朴素贝叶斯法进行拼写检查;
在拼写检查通过后的字母文本输入至波特词根提取模型,得到单词序列。
3.根据权利要求1所述的地理位置定位方法,其特征在于,所述文本序列为词组序列;
对所述用户文本信息进行标注化处理,得到文本序列的步骤中,包括:
当文本为中文文本时,对所述中文文本进行分词处理,得到分词文本;
去除所述分词文本中的停用词、统一资源定位符、表情符号和标点符号,得到所述词组序列。
4.根据权利要求3所述的地理位置定位方法,其特征在于,提取所述文本序列中的提及标识符,根据所述提及标识符分析各用户之间的联系,构建用户的网络视图的步骤中,包括:
去除重复的提及标识符;
对当前用户以及所述当前用户使用的提及标识符所提及的用户进行关系融合,并根据融合后的关系构建图结构数据;
根据所述图结构数据得到所述网络视图。
5.根据权利要求4所述的地理位置定位方法,其特征在于,对所述文本序列进行特征提取的步骤中,包括:
对所述文本序列分别从词视、句子视角和主题视角进行了特征提取。
6.根据权利要求3所述的地理位置定位方法,其特征在于,将所述网络视图和所述文本视图输入至预先训练后的注意力神经网络模型,得到用户的位置预测数据信息的步骤中,包括:
对所述文本视图进行降维
根据降维后的文本视图和网络视图计算每个用户的注意力系数,得到自注意力系数和邻居注意力系数;
根据所述自注意力系数和邻居注意力系数计算得到每个用户之间的注意力系数;
将用户之间的注意力系数作为权重和每个用户的邻居特征进行加权求和,得到用户的特征;
将所述用户的特征采用非线性函数进行输出,得到用户的位置预测数据信息。
7.根据权利要求4所述的地理位置定位方法,其特征在于,对所述位置预测数据信息进行解码,得到所述地理位置坐标数据的步骤中,包括:
对所述位置预测数据信息进行解码,得到用户的预测标签;
根据所述预测标签找到相应区域的经纬度坐标;
根据所述经纬度坐标确定所述地理位置坐标数据。
8.一种地理位置定位系统,其特征在于,所述地理位置定位系统包括:
文本信息获取模,用于获取用户文本信息;
文本序列获得模块,用于对所述用户文本信息进行标注化处理,得到文本序列;
网络视图构建模块,用于提取所述文本序列中的提及标识符,根据所述提及标识符分析各用户之间的联系,构建用户的网络视图;
文本视图获得模块,用于对所述文本序列进行特征提取,得到用户的文本视图;
位置数据预测模块,用于将所述网络视图和所述文本视图输入至预先训练后的注意力神经网络模型,得到用户的位置预测数据信息;
解码模块,用于对所述位置预测数据信息进行解码,得到所述地理位置坐标数据。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的地理位置定位方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的地理位置定位方法的步骤。

说明书全文

地理位置定位方法、系统、计算机设备和存储介质

技术领域

[0001] 本发明涉及位置分析技术领域,特别是涉及一种地理位置定位方法、系统、计算机设备和存储介质。

背景技术

[0002] 随着社交网络媒体发展迅猛,网络用户数量不断增加,产生了规模庞大的数据,而面向这些数据产生了很多应用服务。然而,这些服务往往依托于较为精确的地理位置信息,相较于难以获取的第三方位置服务信息,通过分析易于获取的用户公开文本信息来进行有效的地理位置预测就显得十分重要。
[0003] 传统的地理位置预测方法大多基于单一的文本视图(Content view)或单一的网络视图(Network view),其利用的文本特征较为有限,且难以根据新用户的数据进行及时的分析和处理。

发明内容

[0004] 基于此,有必要针对上述技术问题,提供一种能够解决问题的地理位置定位方法、系统、计算机设备和存储介质。
[0005] 一种地理位置定位方法,所述方法包括:
[0006] 获取用户文本信息;
[0007] 对所述用户文本信息进行标注化处理,得到文本序列;
[0008] 提取所述文本序列中的提及标识符,根据所述提及标识符分析各用户之间的联系,构建用户的网络视图;
[0009] 对所述文本序列进行特征提取,得到用户的文本视图;
[0010] 将所述网络视图和所述文本视图输入至预先训练后的注意神经网络模型,得到用户的位置预测数据信息;
[0011] 对所述位置预测数据信息进行解码,得到所述地理位置坐标数据。
[0012] 在其中一个实施例中,所述文本序列为单词序列;对所述用户文本信息进行标注化处理,得到文本序列的步骤中,包括:
[0013] 当文本为英文文本时,将所有英文单词转化为小写单词,得到小写字母文本;
[0014] 去除所述小写字母文本中的停用词、统一资源定位符、表情符号和标点符号,并将单词中连续重复出现多次的字母降至两次,得到处理后的字母文本;
[0015] 将所述处理后的字母文本采用朴素贝叶斯法进行拼写检查;
[0016] 在拼写检查通过后的字母文本输入至波特词根提取模型,得到单词序列。
[0017] 在其中一个实施例中,所述文本序列为词组序列;对所述用户文本信息进行标注化处理,得到文本序列的步骤中,包括:
[0018] 当文本为中文文本时,对所述中文文本进行分词处理,得到分词文本;
[0019] 去除所述分词文本中的停用词、统一资源定位符、表情符号和标点符号,得到所述词组序列。
[0020] 在其中一个实施例中,提取所述文本序列中的提及标识符,根据所述提及标识符分析各用户之间的联系,构建用户的网络视图的步骤中,包括:
[0021] 去除重复的提及标识符;
[0022] 对当前用户以及所述当前用户使用的提及标识符所提及的用户进行关系融合,并根据融合后的关系构建图结构数据;
[0023] 根据所述图结构数据得到所述网络视图。
[0024] 在其中一个实施例中,对所述文本序列进行特征提取的步骤中,包括:
[0025] 对所述文本序列分别从词视、句子视角和主题视角进行了特征提取。
[0026] 在其中一个实施例中,将所述网络视图和所述文本视图输入至预先训练后的注意力神经网络模型,得到用户的位置预测数据信息的步骤中,包括:
[0027] 对所述文本视图进行降维
[0028] 根据降维后的文本视图和网络视图计算每个用户的注意力系数,得到自注意力系数和邻居注意力系数;
[0029] 根据所述自注意力系数和邻居注意力系数计算得到每个用户之间的注意力系数;
[0030] 将用户之间的注意力系数作为权重和每个用户的邻居特征进行加权求和,得到用户的特征;
[0031] 将所述用户的特征采用非线性函数进行输出,得到用户的位置预测数据信息。
[0032] 在其中一个实施例中,对所述位置预测数据信息进行解码,得到所述地理位置坐标数据的步骤中,包括:
[0033] 对所述位置预测数据信息进行解码,得到用户的预测标签;
[0034] 根据所述预测标签找到相应区域的经纬度坐标;
[0035] 根据所述经纬度坐标确定所述地理位置坐标数据。
[0036] 一种地理位置定位系统,所述系统包括:
[0037] 文本信息获取模,用于获取用户文本信息;
[0038] 文本序列获得模块,用于对所述用户文本信息进行标注化处理,得到文本序列;
[0039] 网络视图构建模块,用于提取所述文本序列中的提及标识符,根据所述提及标识符分析各用户之间的联系,构建用户的网络视图;
[0040] 文本视图获得模块,用于对所述文本序列进行特征提取,得到用户的文本视图;
[0041] 位置数据预测模块,用于将所述网络视图和所述文本视图输入至预先训练后的注意力神经网络模型,得到用户的位置预测数据信息;
[0042] 解码模块,用于对所述位置预测数据信息进行解码,得到所述地理位置坐标数据。
[0043] 一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
[0044] 获取用户文本信息;
[0045] 对所述用户文本信息进行标注化处理,得到文本序列;
[0046] 提取所述文本序列中的提及标识符,根据所述提及标识符分析各用户之间的联系,构建用户的网络视图;
[0047] 对所述文本序列进行特征提取,得到用户的文本视图;
[0048] 将所述网络视图和所述文本视图输入至预先训练后的注意力神经网络模型,得到用户的位置预测数据信息;
[0049] 对所述位置预测数据信息进行解码,得到所述地理位置坐标数据。
[0050] 一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
[0051] 获取用户文本信息;
[0052] 对所述用户文本信息进行标注化处理,得到文本序列;
[0053] 提取所述文本序列中的提及标识符,根据所述提及标识符分析各用户之间的联系,构建用户的网络视图;
[0054] 对所述文本序列进行特征提取,得到用户的文本视图;
[0055] 将所述网络视图和所述文本视图输入至预先训练后的注意力神经网络模型,得到用户的位置预测数据信息;
[0056] 对所述位置预测数据信息进行解码,得到所述地理位置坐标数据。
[0057] 上述地理位置定位方法、系统、计算机设备和存储介质,首选获取用户文本信息,对文本信息进行标准化处理,得到文本序列;然后对文本序列进行分析处理构建用户的网络视图和文本视图,再将网络视图和文本视图输入至注意力神经网络模型可以得到用户的位置预测数据信息,最后对位置预测数据信息进行分析即可确定地理位置坐标数据。上述地理位置定位方法通过输入的用户文本信息,拟合用户文本中影响地理位置预测的不可见因素,使其能够对真实的社交网络文本数据进行地理位置预测;并采用注意力神经网络模型可以对复杂的用户关系(即网络视图)进行分析,可以对用户的位置信息做出预测,准确度高。附图说明
[0058] 图1为一实施例地理位置定位方法应用环境的示意图;
[0059] 图2为一个实施例中地理位置定位方法的流程示意图;
[0060] 图3为另一个实施例中地理位置定位方法的流程示意图;
[0061] 图4为另一个实施例中地理位置定位方法的流程示意图;
[0062] 图5为另一个实施例中地理位置定位方法的流程示意图;
[0063] 图6为一实施例中地理位置定位系统的结构示意图;
[0064] 图7为一个实施例中计算机设备的内部结构图。

具体实施方式

[0065] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0066] 本方法运用于图1的终端102中,终端可以是个人计算机、笔记本电脑等,终端102与检测设备104进行通讯连接,检测设备104可以是数据采集器、传感器、数据采集手表、智能手机等。
[0067] 其中,终端102与检测设备104采用本地接口连接时,检测设备104可以将用户文本信息发送至终端102中。另外,终端102也可以通过指令获取检测设备104获取用户文本信息。
[0068] 在一个实施例中,如图2所示,提供了一种地理位置定位方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:
[0069] 步骤S202,获取用户文本信息;
[0070] 其中,用户文本信息是指用户在社交网络平台上发送的文本内容,包括英文文本、汉语文本或者其他任意一种或多种语言构成的文本。
[0071] 步骤S204,对用户文本信息进行标注化处理,得到文本序列;
[0072] 具体的,对文本信息进行标准化处理即对文本信息进行分析处理,其中处理过程包括去除重复字母或文字、停用词、统一资源定位符(URL),表情符号(emoji)和标点符号以及对文本进行分词等等。
[0073] 步骤S206,提取文本序列中的提及标识符,根据的提及标识符分析各用户之间的联系,构建用户的网络视图;
[0074] 其中,提及标识符通常通@提及或@Mention表示,在社交网络平台中,我们经常会通过@friend_name的形式,来在发推文或者动态时提示朋友查看,其中的@firend_name这个标识符在这里就称作@mention,例如:“userA:I am happy tonight.@userB”这里userA发表推文的时候@userB,说明userA和userB之间是有一定关系的,又基于“人们常常会和位置相近的人沟通”,可以判断两者在位置上有一定的联系,据此,我们可以建立两者之间的一个连接,即“A<—>B”;即在本实施例中,根据通过@mention建立用户之间的联系,并进而构造网络视图。
[0075] 步骤S208,对文本序列进行特征提取,得到用户的文本视图;
[0076] 文本特征提取就是从文本中抽取出的特征词进行量化来表示文本信息,即将它们从一个无结构的原始文本转化为结构化的计算机可以识别处理的信息,即对文本进行科学的抽象,建立它的数学模型,用以描述和代替文本。其中文本特征提取可以采用单词权重(TF-IDF)、词频方法、文档频次方法、互信息、期望交叉熵、二次信息熵、文本证据权、主成分分析法等方法中的一种或多种。
[0077] 步骤S210,将网络视图和文本视图输入至预先训练后的注意力神经网络模型,得到用户的位置预测数据信息;
[0078] 具体的,可以根据网络视图和文本视图计算出用户的注意力;然后将注意力输入注意力神经网络模型可以确定用户的位置预测数据信息;
[0079] 其中注意力神经网络模型是根据社交网络中大量的用户的网络视图和文本视图进行学习训练而成。
[0080] 步骤S212,对位置预测数据信息进行解码,得到地理位置坐标数据。
[0081] 具体而言,对位置预测数据信息进行分析,例如通过经纬度分析等,可以得到地理位置坐标数据。
[0082] 本实施例中的地理位置定位方法首选获取用户文本信息,对文本信息进行标准化处理,得到文本序列;然后对文本序列进行分析处理构建用户的网络视图和文本视图,再将网络视图和文本视图输入至注意力神经网络模型可以得到用户的位置预测数据信息,最后对位置预测数据信息进行分析即可确定地理位置坐标数据。上述地理位置定位方法通过输入的用户文本信息,拟合用户文本中影响地理位置预测的不可见因素,使其能够对真实的社交网络文本数据进行地理位置预测;并采用注意力神经网络模型可以对复杂的用户关系(即网络视图)进行分析,可以对用户的位置信息做出预测,准确度高。
[0083] 在其中一个实施例中,文本序列为单词序列;如图3所示,对用户文本信息进行标注化处理,得到文本序列的步骤中,包括:
[0084] 步骤S302,当文本为英文文本时,将所有英文单词转化为小写单词,得到小写字母文本;
[0085] 步骤S304,去除小写字母文本中的停用词、统一资源定位符、表情符号和标点符号,并将单词中连续重复出现多次的字母降至两次,得到处理后的字母文本;
[0086] 步骤S306,将处理后的字母文本采用朴素贝叶斯法进行拼写检查;
[0087] 步骤S308,在拼写检查通过后的字母文本输入至波特词根提取模型,得到单词序列。
[0088] 具体的,当文本为英文时,在转化为单词序列前需要进行预处理,首先需要对用户文本信息进行分词,将所有英文单词转化为小写;在完成该操作后,需要对提及标识符(@mention)以外的单词进行以下操作:(1)去除其中的停用词、统一资源定位符(URL)、表情符号(emoji)和标点符号;(2)同时将每个单词中连续重复出现多次的字母降至两次(即删除重复次数多于三次的单词中字母);(3)之后通过朴素贝叶斯法对字母文本进行拼写检查;(4)将经过上述操作之后的字母文本输入波特词根提取模型,得到单词序列;其中单词序列包括小写字母和@mention。
[0089] 在其中一个实施例中,文本序列为词组序列;对用户文本信息进行标注化处理,得到文本序列的步骤中,包括:
[0090] 当文本为中文文本时,对中文文本进行分词处理,得到分词文本;
[0091] 去除分词文本中的停用词、统一资源定位符、表情符号和标点符号,得到词组序列。
[0092] 具体而言,当文本为中文时,将中文文本进行分词,之后去除其中的停用词,同样也要去除统一资源定位符(URL),表情符号(emoji)和标点符号,之后将得到预处理之后的词组序列。其中在进行分词处理时可以采用分词工具,例如Jieba分词工具。
[0093] 在其中一个实施例中,如图4所示,提取文本序列中的提及标识符,根据的提及标识符分析各用户之间的联系,构建用户的网络视图的步骤中,包括:
[0094] 步骤S402,去除重复的提及标识符;
[0095] 步骤S404,对当前用户以及当前用户使用的提及标识符所提及的用户进行关系融合,并根据融合后的关系构建图结构数据;
[0096] 步骤S406,根据图结构数据得到网络视图。
[0097] 具体的,为了便于理解给出一个详细的实施例,以单词序列为例进行说明。假设单词序列ot=[m1,t1,t2,m2,t3,t4,…,mi,…,tj,…],这里的mi表示用户使用@mention标识符提到的第i个用户,tj表示第j个单词,单词序列中一共有k个@mention标识符,即1≤i≤k,则提取单词序列中的k个@mention,并将得到的@mention进行去重,将其与当前用户和当前用户采用@mention提及到的用户之间关系进行融合,得到新的用户间关系,并将这种关系网构造成为一种图结构数据,将这种图结构数据导出的邻接矩阵作为其网络视图,记为A,其为一个方阵,阶数为图结构数据中的用户数量n。其中网络视图中的每个节点表示一个用户,网络之间的连接线表示两个用户之间的关系。
[0098] 在其中一个实施例中,对文本序列进行特征提取的步骤中,包括:
[0099] 对文本序列分别从词视角、句子视角和主题视角进行了特征提取。
[0100] 在具体实施例中,为了便于理解给出一个详细的实施例,以单词序列为例进行说明。假设单词序列ot=[m1,t1,t2,m2,t3,t4,…,mi,…,tj,…],将其中的tj作为待分析的单词,单词序列中一共有p个单词,即1≤j≤p,对由这p个单词组成的单词序列进行特征提取。其中在本实施例中,分别从词视角、句子视角和主题视角进行特征提取。
[0101] 在词视角上,使用TFIDF这一词袋模型,对文本中的统计特征进行分析和提取;在句子视角上,使用了训练好的Doc2vec将用户的句子转化为了一个稠密的向量;在主题视角上,使用了训练好的LDA模型,提取用户句子中的主题特征,并转化为了一个主题向量。形式上,即是将[t1,t2,…,tj,…tp]转化为了[w-1,w2,…wa,d2,d2,…,db,l1,l2,…,lc]这样的特征向量,其中w表示的是词视角特征,其有a维,d表示句子视角的特征,其有b维,l表示主题视角的特征,其有c维,并将其与用户的文本特征一同组成了文本视图,记为X,其为一个n×(a+b+c)的矩阵。
[0102] 在其中一个实施例中,如图5所示,将网络视图和文本视图输入至预先训练后的注意力神经网络模型,得到用户的位置预测数据信息的步骤中,包括:
[0103] 步骤S502,对文本视图进行降维;
[0104] 步骤S504,根据降维后的文本视图和网络视图计算每个用户的注意力系数,得到自注意力系数和邻居注意力系数;
[0105] 步骤S506,根据自注意力系数和邻居注意力系数计算得到每个用户之间的注意力系数;
[0106] 步骤S508,将用户之间的注意力系数作为权重和每个用户的邻居特征进行加权求和,得到用户的特征;
[0107] 步骤S510,将用户的特征采用非线性函数进行输出,得到用户的位置预测数据信息。
[0108] 具体的,首先对文本视图中的特征进行降维,之后计算其中每个用户(节点)的两个注意力系数,分别为自注意力系数和邻居注意力系数,之后将其分别与邻接矩阵相乘后相加,并应用softmax做归一化,得到每个用户节点之间的注意力系数,最后将注意力系数作为权重和每个用户(节点)的邻居(节点)特征进行加权求和,得到用户节点的特征,对其使用非线性函数进行输出,得到图注意力神经网络对用户的位置预测数据信息。该过程的运算定义如下:
[0109] F=Wh
[0110]
[0111]
[0112] val=matmul(attn,coef)
[0113] vals=elu(concat([val1,val2,...,valk]))
[0114] vals=softmax(mean([val1,val2,...,valk]))
[0115] 其中F表示降维后的文本视图;W表示一个公共的权重矩阵,用于给特征向量降维,h表示输入的用户文本视图特征,表示训练注意力的权重矩阵,A即为网络视图中的邻接矩阵(其中包含了自连接),attn1和attn2分别表示注意力矩阵attn的两个列向量;al1,val2,…,valk分别表示k组注意力机制下的val取值,在隐藏层,使用concat对k组val取值进行拼接,之后使用elu激活函数进行计算,在输出层对k组val取值进行求取均值,之后使用softmax进行分类。
[0116] 在其中一个实施例中,对位置预测数据信息进行解码,得到地理位置坐标数据的步骤中,包括:
[0117] 对位置预测数据信息进行解码,得到用户的预测标签;
[0118] 根据预测标签找到相应区域的经纬度坐标;
[0119] 根据经纬度坐标确定地理位置坐标数据。
[0120] 在具体实施例中,对深度神经网络得到的分类结果进行分析,得到用户的预测标签,并根据标签找到相应区域的经纬度坐标作为用户的预测地理位置进行输出。
[0121] 应该理解的是,虽然图2-5的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-5中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在每个的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
[0122] 在一个实施例中,如图6所示,提供了一种地理位置定位系统,包括:
[0123] 文本信息获取模块602,用于获取用户文本信息;
[0124] 文本序列获得模块604,用于对用户文本信息进行标注化处理,得到文本序列;
[0125] 网络视图构建模块606,用于提取文本序列中的提及标识符,根据的提及标识符分析各用户之间的联系,构建用户的网络视图;
[0126] 文本视图获得模块608,用于对文本序列进行特征提取,得到用户的文本视图;
[0127] 位置数据预测模块610,用于将网络视图和文本视图输入至预先训练后的注意力神经网络模型,得到用户的位置预测数据信息;
[0128] 解码模块612,用于对位置预测数据信息进行解码,得到地理位置坐标数据。
[0129] 在其中一个实施例中,文本序列为单词序列;文本序列获得模块包括:
[0130] 字母文本获得模块,用于当文本为英文文本时,将所有英文单词转化为小写单词,得到小写字母文本;
[0131] 字母文本处理模块,用于去除小写字母文本中的停用词、统一资源定位符、表情符号和标点符号,并将单词中连续重复出现多次的字母降至两次,得到处理后的字母文本;
[0132] 拼写检查模块,用于将处理后的字母文本采用朴素贝叶斯法进行拼写检查;
[0133] 单词序列获得模块,用于在拼写检查通过后的字母文本输入至波特词根提取模型,得到单词序列。
[0134] 在其中一个实施例中,文本序列为词组序列;文本序列获得模块还包括[0135] 分词文本获得模块,用于当文本为中文文本时,对中文文本进行分词处理,得到分词文本;
[0136] 词组序列获得模块,用于去除分词文本中的停用词、统一资源定位符、表情符号和标点符号,得到词组序列。
[0137] 在其中一个实施例中,网络视图构建模块包括:
[0138] 提及标识符去除模块,用于去除重复的提及标识符;
[0139] 图结构数据构建模块,用于对当前用户以及当前用户使用的提及标识符所提及的用户进行关系融合,并根据融合后的关系构建图结构数据;
[0140] 网络视图获得模块,用于根据图结构数据得到网络视图。
[0141] 在其中一个实施例中,文本视图获得模块还用于对文本序列分别从词视角、句子视角和主题视角进行了特征提取。
[0142] 在其中一个实施例中,位置数据预测模块包括:降维模块、第一注意力系数计算模块、第二注意力系数计算模块和特征计算模块;
[0143] 降维模块,用于对文本视图进行降维;
[0144] 第一注意力系数计算模块,用于根据降维后的文本视图和网络视图计算每个用户的注意力系数,得到自注意力系数和邻居注意力系数;
[0145] 第二注意力系数计算模块,用于根据自注意力系数和邻居注意力系数计算得到每个用户之间的注意力系数;
[0146] 特征计算模块,用于将用户之间的注意力系数作为权重和每个用户的邻居特征进行加权求和,得到用户的特征;
[0147] 位置数据预测模块还用于将用户的特征采用非线性函数进行输出,得到用户的位置预测数据信息。
[0148] 在其中一个实施例中,解码模块包括:
[0149] 预测标签模块,用于对位置预测数据信息进行解码,得到用户的预测标签;
[0150] 经纬度确定模块,用于根据预测标签找到相应区域的经纬度坐标;
[0151] 坐标数据确定模块,用于根据经纬度坐标确定地理位置坐标数据。
[0152] 关于地理位置定位系统的具体限定可以参见上文中对于地理位置定位方法的限定,在此不再赘述。上述地理位置定位系统中的各个模块可全部或部分通过软件硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0153] 在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储电阻等效模型、等效子模型的数据,以及存储执行计算时得到的等效电阻、工作电阻以及接触电阻。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种地理位置定位方法。
[0154] 本领域技术人员可以理解,图7中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有每个的部件布置。
[0155] 在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:获取用户文本信息;对用户文本信息进行标注化处理,得到文本序列;提取文本序列中的提及标识符,根据的提及标识符分析各用户之间的联系,构建用户的网络视图;对文本序列进行特征提取,得到用户的文本视图;将网络视图和文本视图输入至预先训练后的注意力神经网络模型,得到用户的位置预测数据信息;对位置预测数据信息进行解码,得到地理位置坐标数据。
[0156] 在其中一个实施例中,处理器执行计算机程序时实现以下步骤:文本序列为单词序列;对用户文本信息进行标注化处理,得到文本序列的步骤中,包括:当文本为英文文本时,将所有英文单词转化为小写单词,得到小写字母文本;去除小写字母文本中的停用词、统一资源定位符、表情符号和标点符号,并将单词中连续重复出现多次的字母降至两次,得到处理后的字母文本;将处理后的字母文本采用朴素贝叶斯法进行拼写检查;在拼写检查通过后的字母文本输入至波特词根提取模型,得到单词序列。
[0157] 在其中一个实施例中,处理器执行计算机程序时实现以下步骤:文本序列为词组序列;对用户文本信息进行标注化处理,得到文本序列的步骤中,包括:当文本为中文文本时,对中文文本进行分词处理,得到分词文本;去除分词文本中的停用词、统一资源定位符、表情符号和标点符号,得到词组序列。
[0158] 在其中一个实施例中,处理器执行计算机程序时实现以下步骤:提取文本序列中的提及标识符,根据的提及标识符分析各用户之间的联系,构建用户的网络视图的步骤中,包括:去除重复的提及标识符;对当前用户以及当前用户使用的提及标识符所提及的用户进行关系融合,并根据融合后的关系构建图结构数据;根据图结构数据得到网络视图。
[0159] 在其中一个实施例中,处理器执行计算机程序时实现以下步骤:对文本序列进行特征提取的步骤中,包括:对文本序列分别从词视角、句子视角和主题视角进行了特征提取。
[0160] 在其中一个实施例中,处理器执行计算机程序时实现以下步骤:将网络视图和文本视图输入至预先训练后的注意力神经网络模型,得到用户的位置预测数据信息的步骤中,包括:对文本视图进行降维;根据降维后的文本视图和网络视图计算每个用户的注意力系数,得到自注意力系数和邻居注意力系数;根据自注意力系数和邻居注意力系数计算得到每个用户之间的注意力系数;将用户之间的注意力系数作为权重和每个用户的邻居特征进行加权求和,得到用户的特征;将用户的特征采用非线性函数进行输出,得到用户的位置预测数据信息。
[0161] 在其中一个实施例中,处理器执行计算机程序时实现以下步骤:对位置预测数据信息进行解码,得到地理位置坐标数据的步骤中,包括:对位置预测数据信息进行解码,得到用户的预测标签;根据预测标签找到相应区域的经纬度坐标;根据经纬度坐标确定地理位置坐标数据。
[0162] 在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取用户文本信息;对用户文本信息进行标注化处理,得到文本序列;提取文本序列中的提及标识符,根据的提及标识符分析各用户之间的联系,构建用户的网络视图;对文本序列进行特征提取,到用户的文本视图;将网络视图和文本视图输入至预先训练后的注意力神经网络模型,得到用户的位置预测数据信息;对位置预测数据信息进行解码,得到地理位置坐标数据。
[0163] 在其中一个实施例中,计算机程序被处理器执行时实现以下步骤:文本序列为单词序列;对用户文本信息进行标注化处理,得到文本序列的步骤中,包括:当文本为英文文本时,将所有英文单词转化为小写单词,得到小写字母文本;去除小写字母文本中的停用词、统一资源定位符、表情符号和标点符号,并将单词中连续重复出现多次的字母降至两次,得到处理后的字母文本;将处理后的字母文本采用朴素贝叶斯法进行拼写检查;在拼写检查通过后的字母文本输入至波特词根提取模型,得到单词序列。
[0164] 在其中一个实施例中,计算机程序被处理器执行时实现以下步骤:文本序列为词组序列;对用户文本信息进行标注化处理,得到文本序列的步骤中,包括:当文本为中文文本时,对中文文本进行分词处理,得到分词文本;去除分词文本中的停用词、统一资源定位符、表情符号和标点符号,得到词组序列。
[0165] 在其中一个实施例中,计算机程序被处理器执行时实现以下步骤:提取文本序列中的提及标识符,根据的提及标识符分析各用户之间的联系,构建用户的网络视图的步骤中,包括:去除重复的提及标识符;对当前用户以及当前用户使用的提及标识符所提及的用户进行关系融合,并根据融合后的关系构建图结构数据;根据图结构数据得到网络视图。
[0166] 在其中一个实施例中,计算机程序被处理器执行时实现以下步骤:对文本序列进行特征提取的步骤中,包括:对文本序列分别从词视角、句子视角和主题视角进行了特征提取。
[0167] 在其中一个实施例中,计算机程序被处理器执行时实现以下步骤:将网络视图和文本视图输入至预先训练后的注意力神经网络模型,得到用户的位置预测数据信息的步骤中,包括:对文本视图进行降维;根据降维后的文本视图和网络视图计算每个用户的注意力系数,得到自注意力系数和邻居注意力系数;根据自注意力系数和邻居注意力系数计算得到每个用户之间的注意力系数;将用户之间的注意力系数作为权重和每个用户的邻居特征进行加权求和,得到用户的特征;将用户的特征采用非线性函数进行输出,得到用户的位置预测数据信息。
[0168] 在其中一个实施例中,计算机程序被处理器执行时实现以下步骤:对位置预测数据信息进行解码,得到地理位置坐标数据的步骤中,包括:对位置预测数据信息进行解码,得到用户的预测标签;根据预测标签找到相应区域的经纬度坐标;根据经纬度坐标确定地理位置坐标数据。
[0169] 本领域普通技术人员可以理解实现实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
[0170] 以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0171] 以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈