一种针对易混淆运动损伤实体词的识别方法

申请号 CN202110682430.6 申请日 2021-06-21 公开(公告)号 CN113297851B 公开(公告)日 2024-03-05
申请人 北京富通东方科技有限公司; 发明人 李瑞瑞; 李爽; 赵伟;
摘要 本 发明 公开了一种针对易混淆运动损伤实体词的识别方法,基于运动损伤领域的大规模文本语料,训练word2vec语义模型,将所述文本语料切割生成字符向量文本和词汇向量文本,采用自动标注工具标注训练集、验证集和测试集的字符向量文本和词汇向量文本;为所述字符向量文本和词汇向量文本创建编码并计算所述字符向量文本和词汇向量文本的相对 位置 编码。然后对字符向量文本和词汇向量文本进行第一次 鉴别 ,得到所述字符向量文本和词汇向量文本的预测标签。将预测标签为症状、体征、检查结果和检验结果的实体词归类为待确定组,进行二次鉴别。通过上述方式,本发明能够有效鉴别运动损伤领域中实体词的类别。
权利要求

1.一种针对易混淆运动损伤实体词的识别方法,其特征在于,包括以下步骤:
步骤1:基于运动损伤领域的大规模文本语料,训练word2vec语义模型,将所述文本语料切割生成字符向量文本和词汇向量文本;
步骤2:采用自动标注工具标注训练集、验证集和测试集的字符向量文本和词汇向量文本;
步骤3:为字符向量文本和词汇向量文本创建编码并计算所述字符向量文本和词汇向量文本的相对位置编码;
步骤4:对字符向量文本和词汇向量文本进行第一次鉴别,得到所述字符向量文本和词汇向量文本的预测标签;
步骤5:将预测标签为症状、体征、检查结果和检验结果的实体词归类为待确定组,进行二次鉴别;
所述待确定组为4组,包括症状组、体征组、检查结果组和检验结果组;
所述字符向量文本包括单字符向量文本和双字符向量文本,所述单字符向量文本通过将文本语料按字符切割生成,所述双字符向量文本通过将文本语料按双字符切割生成,所述词汇向量文本采用jieba分词按语义切割生成;
所述自动标注工具采用BIOES方法进行标注;所述BIOES方法包括:“B”表示标注的开始字符,“I”表示标注的中间字符,“E”表示标注的结尾字符,当标注为单字符时则用“S”表示,其他字符用“O”表示,数据格式要求一行一个字符及该字符标注,字符与标注间用空格隔开,句与句之间用空行隔开;
所述步骤3包括:为每一个字符向量文本和词汇向量文本各自创建一个头位置编码和尾位置编码,所述头位置编码和尾位置编码分别表示所述字符向量文本和词汇向量文本的开始位置和结束位置;
所述第一次鉴别包括:将字符向量文本和词汇向量文本的相对位置编码嵌入输入到Flat‑Lattice层的Transformer进行编码,得到编码序列,并将编码序列输入到CRF模型进行分词序列预测,得到每个字符和词的预测标签;
所述二次鉴别包括:将待确定组分别按类别与对应实体词表进行相似度计算,将相似度计算结果与设定好的阈值作比较;
所述实体词表为各类实体对应的标准化词典,所述类别与对应实体词表的映射关系为:“症状‑体格检测、影像学检查、实验室检验”“体征‑体格检查”、“检查结果‑影像学检查”、“检验结果‑实验室检验”;
所述阈值设置为0.8。
2.如权利要求1所述的一种针对易混淆运动损伤实体词的识别方法,其特征在于,所述分词序列预测包括:基于验证集对每次迭代生成的训练模型的召回率、精确度及F1值进行计算,选择F1值最大的模型作为优选实体识别模型;利用所述的优选实体识别模型对测试集的医学文本进行预测,得到每个字符的预测标签;
所述F1值结合召回率和精确度进行计算,F1值越大,表示模型预测准确性越高。
3.如权利要求1所述的一种针对易混淆运动损伤实体词的识别方法,其特征在于,对于待确定组中症状组;
若相似度计算结果小于阈值,则表示分类正确;
若相似度计算结果大于阈值,则将所述待确定组的实体词与所述待确定组中的另外三组分别进行实体相似度计算;选择相似度最高的待确定组的类别作为最终预测类别;
对于待确定组中的体征组、检查结果组和检验结果组;
若相似度计算结果大于阈值,则表示分类正确;
若相似度计算结果小于阈值,则将所述待确定组的实体词与所述待确定组中的另外两组分别进行实体相似度计算;选择相似度最高的待确定组的类别作为最终预测类别。

说明书全文

一种针对易混淆运动损伤实体词的识别方法

技术领域

[0001] 本发明涉及自然语言处理领域,特别是涉及一种针对易混淆运动损伤实体词的识别方法。

背景技术

[0002] 命名实体识别(NER)技术可用于识别文本中的特定实体信息,如人名、地名、组织名称等,它广泛应用于信息抽取信息检索、智能问答、机器翻译等领域。
[0003] 以前的方法主要是基于词典和基于规则的。基于词典的方法是通过字符串模糊查找或者完全匹配的方法,但是随着新的实体名称不断涌现,词典的质量与大小有局限性;现阶段应用较多的模型有隐尔可夫模型(HiddenMarkovModel,HMM)、支持向量机(SupportVectorMachine,SVM)、最大熵马尔可夫模型(MaximumEntropyMarkovModel,MEMM)、条件随机场(ConditionalRandomField,CRF)等。条件随机场模型能对邻近标签对预测序列的影响问题进行有效地处理,所以在实体识别中应用较多,且效果不错。目前,针对序列标注问题,一般采用深度学习算法。与传统算法相比,深度学习算法去掉了手工提取特征这一步,能有效的提取判别特征。
[0004] 近年来,随着互联网的高速运转,信息也有了各式各样的存储形式。在生物医学领域,文献资源每年都在数以千倍的增加,从医学含义解释度看,运动损伤领域实体词中,症状、体征、检查结果和检验结果属于易混淆实体词类,其中,症状的实体词存在识别过程中容易出错的问题,而与之关联性较大的三类实体词:体征、检查结果、检验结果的检查方法词表达相对标准、固定、有限,易于区分,因此作为鉴别症状与体征、检查结果、检验结果的词表最为合适。

发明内容

[0005] 有鉴于此,本发明提出一种针对易混淆运动损伤实体词的识别方法。
[0006] 为解决上述技术问题,本发明采用的一个技术方案是:提出一种针对易混淆运动损伤实体词的识别方法,其特征在于,包括以下步骤:
[0007] 步骤1:基于运动损伤领域的大规模文本语料,训练word2vec语义模型,将所述文本语料切割生成字符向量文本和词汇向量文本;
[0008] 步骤2:采用自动标注工具标注训练集、验证集和测试集的字符向量文本和词汇向量文本;
[0009] 步骤3: 为字符向量文本和词汇向量文本创建编码并计算所述字符向量文本和词汇向量文本的相对位置编码。
[0010] 步骤4:对字符向量文本和词汇向量文本进行第一次鉴别,得到所述字符向量文本和词汇向量文本的预测标签。
[0011] 步骤5:将预测标签为症状、体征、检查结果和检验结果的实体词归类为待确定组,进行二次鉴别;
[0012] 所述待确定组为4组,包括症状组、体征组、检查结果组和检验结果组。
[0013] 进一步的,所述字符向量文本包括单字符向量文本和双字符向量文本,所述单字符向量文本通过将文本语料按字符切割生成,所述双字符向量文本通过将文本语料按双字符切割生成,所述词汇向量文本采用jieba分词按语义切割生成。
[0014] 进一步的,所述自动标注工具采用BIOES方法进行标注;所述BIOES方法包括:“B”表示标注的开始字符,“I”表示标注的中间字符,“E”表示标注的结尾字符,当标注为单字符时则用“S”表示,其他字符用“O”表示,数据格式要求一行一个字符及该字符标注,字符与标注间用空格隔开,句与句之间用空行隔开。
[0015] 进一步的,所述步骤3包括:为每一个字符向量文本和词汇向量文本各自创建一个头位置编码和尾位置编码,所述头位置编码和尾位置编码分别表示所述字符向量文本和词汇向量文本的开始位置和结束位置;
[0016] 进一步的,
[0017] 所述第一次鉴别包括:将字符向量文本和词汇向量文本的相对位置编码嵌入输入到Flat‑Lattice层的Transformer进行编码,得到编码序列,并将编码序列输入到CRF模型进行分词序列预测,得到每个字符和词的预测标签;
[0018] 进一步的,所述分词序列预测包括:基于验证集对每次迭代生成的训练模型的召回率、精确度及F1值进行计算,选择F1值最大的模型作为优选实体识别模型;利用所述的优选实体识别模型对测试集的医学文本进行预测,得到每个字符的预测标签。
[0019] 所述F1值结合召回率和精确度进行计算,F1值越大,表示模型预测准确性越高。
[0020] 进一步的,所述二次鉴别包括:将待确定组分别按类别与对应实体词表进行相似度计算,将相似度计算结果与设定好的阈值作比较。
[0021] 进一步的,对于待确定组中症状组;
[0022] 若相似度计算结果小于阈值,则表示分类正确;
[0023] 若相似度计算结果大于阈值,则将所述待确定组的实体词与所述待确定组中的另外三组分别进行实体相似度计算;选择相似度最高的待确定组的类别作为最终预测类别。
[0024] 进一步的,对于待确定组中的体征组、检查结果组和检验结果组;
[0025] 若相似度计算结果大于阈值,则表示分类正确;
[0026] 若相似度计算结果小于阈值,则将所述待确定组的实体词与所述待确定组中的另外两组分别进行实体相似度计算;选择相似度最高的待确定组的类别作为最终预测类别。
[0027] 进一步的,所述实体词表为各类实体对应的标准化词典,所述类别与对应实体词表的映射关系为:“症状‑体格检测、影像学检查、实验室检验”“体征‑体格检查”、“检查结果‑影像学检查”、“检验结果‑实验室检验”。
[0028] 进一步的,所述阈值设置为0.8。
[0029] 本发明的有益效果是:对于易混淆实体(体征、症状、检查结果、检验结果)可以更加精准的进行抽取和鉴别,使得与患者交互(面向症状)病情、与医生交互(面向体征、检查结果、检验结果)诊断信息更加精准。附图说明
[0030] 图1是一种针对易混淆运动损伤实体词的识别方法流程图
[0031] 图2是一种针对易混淆运动损伤实体词的识别方法一实施例示意图。

具体实施方式

[0032] 下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
[0033] 步骤1:基于运动损伤领域的大规模文本语料,训练word2vec语义模型,将所述文本语料切割生成字符向量文本和词汇向量文本;
[0034] 步骤2:采用自动标注工具标注训练集、验证集和测试集的字符向量文本和词汇向量文本;
[0035] 步骤3: 为字符向量文本和词汇向量文本创建编码并计算所述字符向量文本和词汇向量文本的相对位置编码。
[0036] 步骤4:对字符向量文本和词汇向量文本进行第一次鉴别,得到所述字符向量文本和词汇向量文本的预测标签。
[0037] 步骤5:将预测标签为症状、体征、检查结果和检验结果的实体词归类为待确定组,进行二次鉴别;
[0038] 所述待确定组为4组,包括症状组、体征组、检查结果组和检验结果组。
[0039] 进一步的,所述字符向量文本包括单字符向量文本和双字符向量文本,所述单字符向量文本通过将文本语料按字符切割生成,所述双字符向量文本通过将文本语料按双字符切割生成,所述词汇向量文本采用jieba分词按语义切割生成。
[0040] 进一步的,所述自动标注工具采用BIOES方法进行标注;所述BIOES方法包括:“B”表示标注的开始字符,“I”表示标注的中间字符,“E”表示标注的结尾字符,当标注为单字符时则用“S”表示,其他字符用“O”表示,数据格式要求一行一个字符及该字符标注,字符与标注间用空格隔开,句与句之间用空行隔开。
[0041] 进一步的,所述步骤3包括:为每一个字符向量文本和词汇向量文本各自创建一个头位置编码和尾位置编码,所述头位置编码和尾位置编码分别表示所述字符向量文本和词汇向量文本的开始位置和结束位置,得到四种相对距离编码公式,最后计算得到相对位置编码。
[0042] 进一步的,所述四种相对距离编码公式如下:
[0043]
[0044]
[0045]
[0046]
[0047] 其中,  和 分别表示  的头和尾的位置, 表示  的头位置到 的尾位置的距离,其他类似。
[0048] 进一步的,所述相对位置编码的计算采用Mish激活函数,将四个距离通过一次非线性变换,得到跨度的最终相对位置编码,公式如下:
[0049]
[0050] 进一步的,所述第一次鉴别包括:将字符向量文本和词汇向量文本的相对位置编码嵌入输入到Flat‑Lattice层的Transformer进行编码,得到编码序列,并将编码序列输入到CRF模型进行分词序列预测,得到每个字符和词的预测标签;
[0051] 进一步的,所述分词序列预测包括:基于验证集对每次迭代生成的训练模型的召回率、精确度及F1值进行计算,选择F1值最大的模型作为优选实体识别模型;利用所述的优选实体识别模型对测试集的医学文本进行预测,得到每个字符的预测标签。
[0052] 所述F1值结合召回率和精确度进行计算,F1值越大,表示模型预测准确性越高。
[0053] 进一步的,精确率(Precision) = TP / (TP + FP)
[0054] 召回率(Recall) = TP / (TP + FN)
[0055] 召回率表示样本中的正例有多少被预测正确了,它是针对原来的样本而言的。
[0056] F1=(2* Precision* Recall)/(Precision+ Recall)
[0057] 进一步的,TP:(实际为正例,预测也为正例) 、FP:(实际为负例,预测为正例) 、FN:(实际为正例,预测为负例) 、TN:(实际为负例,预测也为负例)
[0058] 进一步的,所述二次鉴别包括:将待确定组分别按类别与对应实体词表进行相似度计算,将相似度计算结果与设定好的阈值作比较,
[0059] 进一步的,对于待确定组中症状组;
[0060] 若相似度计算结果小于阈值,则表示分类正确;
[0061] 若相似度计算结果大于阈值,则将所述待确定组的实体词与所述待确定组中的另外三组分别进行实体相似度计算;选择相似度最高的待确定组的类别作为最终预测类别。
[0062] 进一步的,对于待确定组中的体征组、检查结果组和检验结果组;
[0063] 若相似度计算结果大于阈值,则表示分类正确;
[0064] 若相似度计算结果小于阈值,则将所述待确定组的实体词与所述待确定组中的另外两组分别进行实体相似度计算;选择相似度最高的待确定组的类别作为最终预测类别。
[0065] 进一步的,所述实体词表为各类实体对应的标准化词典,所述类别与对应实体词表的映射关系为:“症状‑体格检测、影像学检查、实验室检验”“体征‑体格检查”、“检查结果‑影像学检查”、“检验结果‑实验室检验”。
[0066] 进一步的,所述阈值设置为0.8。
[0067] 本实施例参考图2,例如:以《诊断学》、《内科学》等15本专业医学书籍、3万份病例和百余份临床指南为语料,将医学语料切割生成字符向量文本和词汇向量文本,再利用word2vec训练语义模型,获取“单字符向量文本”、“双字符向量文本”、“词汇向量文本”的Embedding;
[0068] 采用BIOES方法标注样本数据,标注实体类别主要为易混淆的实体类别及相关类别,即症状(SYMP)、体征(SIGN)、检查结果(CRET)、检验结果(TRET)、影像学检查(CHEK)、实验室检验(TEST)及体格检查(EXAM),标注方式采用基于词典的双向最大匹配法,标注样本共计24w,训练集、测试集、测试集的样本数比例分别为6:2:2;
[0069] 为每个字符向量文本和词汇向量文本创建一个头位置编码和尾位置编码,并将每一个字符向量、词汇向量和对应的头位置编码和尾位置编码输入FLAT模型,基于Flat模型的实体识别模型结果如下表:
[0070]
[0071] 由于症状、体征、检查结果与检验结果属于表示易混淆实体,因此对上述实体归类为待确定组,进行二次鉴别;结合识别的体格检查、影像学检查和实验室检验实体词与已有的基础词表,梳理上述三类词表,形成“体征‑体格检查”、“检查结果‑影像学检查”、“检验结果‑实验室检验”对应表;
[0072] 所述二次鉴别,包括:按照相似度计算公式遍历待确定组中各类别与对应实体词表进行相似度计算,如果相似度值大于阈值,则表示分类正确;如果小于阈值,则按算法流程图与其他三类实体词表进行相似度值计算,将实体词归类到满足阈值最多的实体类别中,经过鉴别调整后,易混淆的体征、症状、检查结果、检验结果实体词识别结果如下表:
[0073]
[0074] 模型输出结果中基于“症状‑体格检测、影像学检查、实验室检查”、“体征‑体格检查”、“检查结果‑影像学检查”、“检验结果‑实验室检验”进行相似度计算并与阈值进行比较,相似度计算方法如下:
[0075] 编辑距离 score1=(sum‑Idist)/sum
[0076] 语义距离 
[0077] 其中,sum是指实体词1和实体词2字串的长度总和,ldist是类编辑距,score1用来衡量由实体词1变换到实体词2的距离长度;
[0078]   表示实体词x的语义向量,  表示实体词y的语义向量,score2用来衡量由实体词x和实体词y的语义距离;
[0079] 实体相似度的计算公式为scoretotal=(score1+score2)/2
[0080] 对于待确定组中类型为“体征”、“检验结果”和“检查结果”;
[0081] 若相似度计算结果大于阈值,则表示分类正确;
[0082] 若相似度计算结果小于阈值,则将所述待确定组的实体词与所述待确定组中的另外两组分别进行实体相似度计算;选择相似度最高的待确定组的类别作为最终预测类别。
[0083] 对于待确定组中的“症状”,
[0084] 若相似度计算结果小于阈值,则表示分类正确;
[0085] 若相似度计算结果大于阈值,则将所述待确定组的实体词与所述待确定组中的另外三组分别进行实体相似度计算;选择相似度最高的待确定组的类别作为最终预测类别。
[0086] 以上所述仅为本发明的实施例、并非因此限制本发明的专利范围、凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换、或直接或间接运用在其他相关的技术领域、均同理包括在本发明的专利保护范围内。
QQ群二维码
意见反馈