首页 / 专利库 / 企业组织 / 术语学家 / 一种药品信息的自动编码方法及系统

一种药品信息的自动编码方法及系统

阅读:1036发布:2020-06-08

专利汇可以提供一种药品信息的自动编码方法及系统专利检索,专利查询,专利分析的服务。并且本 发明 的实施方式提供了一种药品信息的自动编码方法及系统。该药品信息的自动编码方法包括:输入药品信息字符串并进行预处理;切分规格字符串和 包装 规格字符串;基于预先建立的词典集,切分子字符串;当切分出的子字符串全部是与词典集中的词条直接匹配的第一类型子字符串且不包含屏蔽型词条属性的词条时,利用药品联合信息词典查找目标子词条;最后根据目标子词条查找直接匹配的联合词条,将联合词条的编码赋 给药 品信息字符串。本发明充分考虑了药品信息字符串属于自然语言、格式复杂多样、没有统一标准等特点,实现了对药品信息字符串的准确识别及精准编码,识别结果及编码结果具有较高的准确率,为有效利用药品信息提供了便利。,下面是一种药品信息的自动编码方法及系统专利的具体信息内容。

1.一种药品信息的自动编码方法,包括:
步骤1,输入药品信息字符串;
步骤2,对所述药品信息字符串进行预处理,得到预处理药品信息字符串;
步骤3,基于预设的规格词典和包装规格词典,从所述预处理药品信息字符串中切分出规格字符串和包装规格字符串;其中,所述规格词典包括若干表示药品的规格单位的词条;
所述包装规格词典包括若干表示药品的包装规格单位的词条;所述规格字符串表示药品的规格信息;所述包装规格字符串表示药品的包装规格信息;
步骤4,基于预设的词典集,将所述预处理药品信息字符串的剩余字符切分成若干子字符串,所述子字符串为第一类型子字符串或第二类型子字符串;其中,所述词典集由多个词典组成,所述多个词典包括若干表示药品的通用名称、商品名称、产品名称、给药途径、剂型、生产厂家、包材的词条,以及若干表示合并的两个或多个通用名称、医院自制药品名称的词条;所述第一类型子字符串能够与所述词典集中的词条直接匹配,所述第二类型子字符串不能够与所述词典集中的词条直接匹配;
步骤5,判断从所述预处理药品信息字符串的剩余字符切分出的子字符串是否全部为第一类型子字符串;如果切分出的子字符串中有第二类型子字符串,则结束处理;如果切分出的子字符串全部为第一类型子字符串,则确定所述子字符串相匹配的各个词条的词条属性,并继续执行步骤6;其中,所述词条属性与所述词条所属的词典一一对应,所述词典具有预先设定的词条属性;
步骤6,判断所述子字符串相匹配的各个词条中是否有对应于屏蔽型词条属性的词条;
如果有对应于屏蔽型词条属性的词条,则结束处理;如果没有对应于屏蔽型词条属性的词条,则继续步骤7;其中,对应于所述屏蔽型词条属性的词条表明所述药品信息字符串所表示的是多个药品的信息,或表明所述药品信息字符串所表示的药品是医院自制药品;
步骤7,判断所述子字符串相匹配的各个词条中是否有对应于目标词条属性的词条;
如果没有对应于目标词条属性的词条,则结束处理;如果有对应于目标词条属性的词条,则将所述对应于目标词条属性的词条合并成为词条合并组,并将该词条合并组与所述药品联合信息词典中的联合词条进行匹配;若存在直接匹配的联合词条,则将该直接匹配的联合词条的联合编码赋给所述药品信息字符串;其中,所述目标词条属性为药品联合信息词典中各个子词条的词条属性;所述药品联合信息词典包括若干联合词条,每个所述联合词条具有一一对应的联合编码,且每个所述联合词条由多个所述子词条组成,所述子词条为所述词典中表示药品的通用名称、商品名称、产品名称、给药途径、剂型、生产厂家或包材的词条;
步骤8,输出所述药品信息字符串的联合编码。
2.根据权利要求1所述的药品信息的自动编码方法,其中,
所述规格词典包括如下类型的词条:标准装量规格单位、标准成分规格单位、装量规格单位同义词、成分规格单位同义词;
所述标准装量规格单位为药品最小制剂单位的重量或装量;
所述标准成分规格单位为药品最小制剂单位中含有效成分的剂量或效价;
所述装量规格单位同义词是所述标准装量规格单位的别名、俗称、英文缩写或错别字;
所述成分规格单位同义词是所述标准成分规格单位的别名、俗称、英文缩写或错别字;
所述包装规格词典包括如下类型的词条:标准制剂最小单位、标准包装规格单位、制剂最小单位同义词、包装规格单位同义词;
所述标准制剂最小单位为药品的最小制剂单位;
所述标准包装规格单位为药品的最小包装单位;
所述制剂最小单位同义词是所述标准制剂最小单位的别名、俗称、英文缩写或错别字;
所述包装规格单位同义词是所述标准包装规格单位的别名、俗称、英文缩写或错别字;
所述词典集包括通用名称词典、商品名称词典、产品名称词典、给药途径词典、剂型词典、生产厂家词典、包材词典、通用名大名称词典、院内制剂词典;
所述通用名称词典包括如下类型的词条:标准通用名称、通用名称同义词;
所述标准通用名称是中国药品通用名称;
所述通用名称同义词是标准通用名称的别名、俗称、英文缩写或错别字;
所述商品名称词典包括如下类型的词条:标准商品名称、商品名称同义词;
所述标准商品名称是国家食品药品监督管理总局CFDA对药品公布的商品名信息以及生产厂家官方文件、药品说明书中的商品名信息;
所述商品名称同义词是所述标准商品名称的别名、俗称、英文缩写或错别字;
所述产品名称词典包括如下类型的词条:标准产品名称、产品名称同义词;
所述标准产品名称是CFDA公布的药品产品名称信息;
所述产品名称同义词是标准产品名称的别名、俗称、英文缩写或错别字;
所述给药途径词典包括如下类型的词条:标准给药途径术语、给药途径同义词;
所述标准给药途径术语是药品的解剖学、治疗学及化学分类系统ATC中规定的给药途径;
所述给药途径同义词是所述标准给药途径术语的别名、俗称、英文缩写或错别字;
所述剂型词典包括如下类型的词条:标准剂型术语、剂型同义词;
所述标准剂型术语包括:根据中国药典的制剂通则对CFDA公布的药品注册剂型进行化处理后的药品剂型,以及,在国家医保目录中但无法在CFDA查询到相关注册信息的国家医保目录剂型;
所述剂型同义词是与所述标准剂型术语的别名、俗称、英文缩写、错别字或子类型;
所述生产厂家词典包括如下类型的词条:标准生产厂家名称、生产厂家名称同义词;
所述标准生产厂家名称是CFDA公布的药品生产企业信息、生产厂商的中文信息或英文信息;
所述生产厂家名称同义词是所述标准生产厂家名称的缩略语或英文名称、曾用名;
所述包材词典包括如下类型的词条:标准包材名称、包材名称同义词;
所述标准包材名称是CFDA公布的药品包材;
所述包材名称同义词是所述标准包材名称的别名、俗称或英文缩写;
所述通用名大名称词典包括如下类型的词条:通用名大名称术语;
所述通用名大名称术语由两个或多个所述标准通用名称合并组成;
所述院内制剂词典包括如下类型的词条:院内制剂名称;
所述院内制剂名称是表示医院自制药品的名称;
所述规格字符串、所述包装规格字符串对应的词条属性分别为规格、包装规格;
所述第一类型子字符串、第二类型子字符串相匹配的词条属于通用名称词典时,对应的词条属性为通用名称;
所述第一类型子字符串、第二类型子字符串相匹配的词条属于商品名称词典时,对应的词条属性为商品名称;
所述第一类型子字符串、第二类型子字符串相匹配的词条属于产品名称词典时,对应的词条属性为产品名称;
所述第一类型子字符串、第二类型子字符串相匹配的词条属于给药途径词典时,对应的词条属性为给药途径;
所述第一类型子字符串、第二类型子字符串相匹配的词条属于剂型词典时,对应的词条属性为剂型;
所述第一类型子字符串、第二类型子字符串相匹配的词条属于生产厂家词典时,对应的词条属性为生产厂家;
所述第一类型子字符串、第二类型子字符串相匹配的词条属于包材词典时,对应的词条属性为包材;
所述第一类型子字符串、第二类型子字符串相匹配的词条属于通用名大名称词典时,对应的词条属性为通用名大名称;
所述第一类型子字符串、第二类型子字符串相匹配的词条属于院内制剂词典时,对应的词条属性为院内制剂。
3.根据权利要求1所述的药品信息的自动编码方法,其中,所述步骤2包括:
对所述药品信息字符串中的非汉字进行格式归一化处理,并删除所述药品信息字符串中的无关字符,得到所述预处理药品信息字符串;
其中,所述无关字符由一预设的无关字符词典提供。
4.根据权利要求1所述的药品信息的自动编码方法,其中,所述步骤3包括:
判断所述预处理药品信息字符串中是否存在数字;
如果所述预处理药品信息字符串中不存在数字,则直接执行所述步骤4;
如果所述预处理药品信息字符串中存在数字,将该数字之后紧邻的字符串与所述规格词典和所述包装规格词典中的词条进行匹配;
若匹配成功的词条是来自于所述规格词典,则将该数字及其之后紧邻的能够与所述规格词典中的词条相匹配的字符串切分出来作为所述规格字符串;
若匹配成功的词条是来自于所述包装规格词典,则将该数字及其之后紧邻的能够与所述包装规格词典中的词条相匹配的字符串切分出来作为所述包装规格字符串。
5.根据权利要求1所述的药品信息的自动编码方法,其中,所述步骤4包括:
判断所述预处理药品信息字符串的剩余字符中是否包含符号;
如果所述预处理药品信息字符串的剩余字符中包含符号,则将所述预处理药品信息字符串的剩余字符中每相邻两个符号之间的字符作为整体与所述词典集中的词条进行匹配;
若所述预处理药品信息字符串的剩余字符中相邻两个符号之间的字符作为整体与所述词典集中的词条匹配成功,则将该相邻两个符号之间的字符切分出来作为第一类型子字符串;
若所述预处理药品信息字符串的剩余字符中相邻两个符号之间的字符作为整体与所述词典集中的词条匹配失败,将该相邻两个符号及其之间的字符确定为暂不切分字符串;
如果所述预处理药品信息字符串的剩余字符中未包含符号,则采用机械分词法将所述预处理药品信息字符串的剩余字符与所述词典集中的词条进行匹配;
若所述预处理药品信息字符串中剩余的所有字符均能够与词条匹配,则依据所匹配的词条将所述预处理药品信息字符串的剩余字符切分出来作为第一类型子字符串;
若所述预处理药品信息字符串的剩余字符中存在未能与词条匹配的单个字符或多个连续的字符,则将所述预处理药品信息字符串的剩余字符整体切分出来作为第二类型子字符串;
判断所述暂不切分字符串中是否包含预设的特殊符号;
如果所述暂不切分字符串中包含预设的特殊符号,则查找所述暂不切分字符串所属的字符模型,并根据该所属的字符模型对应的切分规则对所述暂不切分字符串进行切分,并将切分出来的字符与所述词典集中的词条进行匹配;
若对所述暂不切分字符串切分出来的字符与所述词典集中的词条匹配成功,则将该切分出来的字符确定为第一类型子字符串;
若对所述暂不切分字符串切分出来的字符与所述词典集中的词条匹配失败,则将该切分出来的字符确定为第二类型子字符串;
如果所述暂不切分字符串中未包含预设的特殊符号,则将所述暂不切分字符串直接确定为第二类型子字符串。
6.根据权利要求5所述的药品信息的自动编码方法,其中,所述机械分词法为正向最大匹配型,或逆向最大匹配型,或最少切分型。
7.根据权利要求2所述的药品信息的自动编码方法,其中,所述屏蔽型词条属性为通用名大名称或院内制剂。
8.根据权利要求2所述的药品信息的自动编码方法,其中,
所述药品联合信息词典包括的子词条分别是:通用名称子词条、剂型子词条、规格子词条、包装规格子词条、包材名称子词条、生产厂家名称子词条;
所述药品联合信息词典中各个子词条的词条属性分别是:通用名称、剂型、规格、包装规格、包材名称、生产厂家名称;
其中,所述通用名称子词条为所述通用名称词典中包括的标准通用名称、通用名称同义词;
所述剂型子词条为所述剂型词典包括的标准剂型术语、剂型同义词;
所述规格子词条为CFDA公布的各种药品的规格;
所述包装规格子词条为CFDA公布的各种药品的包装规格、药品生产厂家官网和药品说明中的包装规格;
所述包材名称子词条为所述包材词典包括的标准包材名称、包材名称同义词;
所述生产厂家名称子词条为所述生产厂家词典包括的标准生产厂家名称、生产厂家名称同义词。
9.根据权利要求2所述的药品信息的自动编码方法,其中,
所述药品联合信息词典包括的子词条分别是:通用名称子词条、给药途径子词条;
所述药品联合信息词典中各个子词条的词条属性分别是:通用名称、给药途径;
其中,所述通用名称子词条为所述通用名称词典中包括的标准通用名称、通用名称同义词;
所述给药途径子词条为所述给药途径词典中包括的标准给药途径术语、给药途径同义词。
10.根据权利要求2所述的药品信息的自动编码方法,其中,
所述药品联合信息词典包括:完整版药品联合信息词典,和,简易版药品联合信息词典;
所述完整版药品联合信息词典包括的子词条分别是:通用名称子词条、剂型子词条、规格子词条、包装规格子词条、包材名称子词条、生产厂家名称子词条;
所述完整版药品联合信息词典中各个子词条的词条属性分别是:通用名称、剂型、规格、包装规格、包材名称、生产厂家名称;
其中,所述通用名称子词条为所述通用名称词典中包括的标准通用名称、通用名称同义词;
所述剂型子词条为所述剂型词典包括的标准剂型术语、剂型同义词;
所述规格子词条为CFDA公布的各种药品的规格;
所述包装规格子词条为CFDA公布的各种药品的包装规格、药品生产厂家官网和药品说明中的包装规格;
所述包材名称子词条为所述包材词典包括的标准包材名称、包材名称同义词;
所述生产厂家名称子词条为所述生产厂家词典包括的标准生产厂家名称、生产厂家名称同义词;
所述简易版药品联合信息词典包括的子词条分别是:通用名称子词条、给药途径子词条;
所述简易版药品联合信息词典中各个子词条的词条属性分别是:通用名称、给药途径;
其中,所述通用名称子词条为所述通用名称词典中包括的标准通用名称、通用名称同义词;
所述给药途径子词条为所述给药途径词典中包括的标准给药途径术语、给药途径同义词;
所述步骤7包括:
步骤71,将所述完整版药品联合信息词典中各个子词条的词条属性确定为当前的目标词条属性,判断所述子字符串相匹配的各个词条中是否有对应于当前的目标词条属性的词条;如果有对应于当前的目标词条属性的词条,则执行步骤72,如果没有对应于当前的目标词条属性的词条,则执行步骤73;
步骤72,将所述子字符串相匹配的各个词条中对应于当前的目标词条属性的多个词条合并成为词条合并组,并将该词条合并组与所述完整版药品联合信息词典中的联合词条进行匹配,若存在直接匹配的联合词条,则将该直接匹配的联合词条的联合编码赋给该药品信息字符串;
步骤73,将所述简易版药品联合信息词典中各个子词条的词条属性确定为当前的目标词条属性,判断所述子字符串相匹配的各个词条中是否有对应于当前的目标词条属性的词条;如果有对应于当前的目标词条属性的词条,则执行步骤74,如果没有对应于当前的目标词条属性的词条,则结束处理;
步骤74,将所述子字符串相匹配的各个词条中对应于当前的目标词条属性的多个词条合并成为词条合并组,并将该词条合并组与所述简易版药品联合信息词典中的联合词条进行匹配,若存在直接匹配的联合词条,则将该直接匹配的联合词条的联合编码赋给该药品信息字符串。
11.根据权利要求1所述的药品信息的自动编码方法,其中,所述步骤7中将该词条合并组与所述药品联合信息词典中的联合词条进行匹配时,若不存在直接匹配的联合词条,则还包括:
步骤9,将所述对应于预设的词条属性的各个词条分别确定为参考词条,并对各个参考词条以及所述药品联合信息词典中的各个子词条进行预设维度的解析,分别得到各个参考词条的各个维度的解析结果以及各个子词条的各个维度的解析结果;
步骤10,针对每个所述参考词条,将该参考词条的各个维度的解析结果与对应相同词条属性的各个子词条的各个维度的解析结果进行匹配,查找该参考词条相匹配的一个或多个子词条,并将查找到的子词条确定为该参考词条的目标子词条;
步骤11,查找所述药品联合信息词典中由各个参考词条的目标子词条组成的联合词条,将查找到的联合词条确定为所述药品信息字符串模糊匹配的联合词条;
步骤12,将所述药品信息字符串模糊匹配的联合词条发送至人工处理平台进行人工处理。
12.根据权利要求11所述的药品信息的自动编码方法,其中,所述参考词条/所述子词条的解析结果包括:
所述参考子词条\所述子词条的每个汉字;
所述参考子词条\所述子词条的每个汉字的声母;
所述参考子词条\所述子词条的每个汉字的韵母;
所述参考子词条\所述子词条的首字符;
所述参考子词条\所述子词条的首字符的拼音;以及,
所述参考子词条\所述子词条中的非汉字字符。
13.根据权利要求11所述的药品信息的自动编码方法,其中,所述步骤10包括:
针对每个参考词条,按照如下公式计算参考词条与对应相同词条属性的子词条的相似度:
其中,M表示相似度;
t表示参考词条的各个维度的解析结果;
q表示参考词条;
t in q表示参考词条的各个维度;
d表示与参考词条对应相同词条属性的子词条;
tf(t in d)表示在相同的维度上,参考词条的解析结果与对应相同词条属性的子词条的解析结果相匹配的频次;
其中,T表示药品联合信息词典中与参考词条对应相同词条属性的
子词条的总数;T(t)表示药品联合信息词典中与参考词条对应相同词条属性的全部子词条中,各个维度的解析结果均与参考词条的各个维度的解析结果相匹配的子词条的总数;
t.getBoost()表示各个维度的预设权值;
norm(t,d)表示与参考词条对应相同词条属性的子词条的长度归一化因子;
根据参考词条与对应相同词条属性的各个子词条的相似度,确定一个或多个子词条作为参考词条的目标子词条。
14.根据权利要求13所述的药品信息的自动编码方法,其中,所述根据参考词条与对应相同词条属性的各个子词条的相似度,确定一个或多个子词条作为该参考词条的目标子词条的步骤,包括:
按照与该参考词条的相似度的大小对对应相同词条属性的各个子词条排序,并将其中排序靠前的预设数量的子词条确定为该参考词条的目标子词条;
或者,
将与该参考词条的相似度达到预设阈值的一个或多个对应相同词条属性的子词条,确定为该参考词条的目标子词条。
15.根据权利要求13所述的药品信息的自动编码方法,其中,所述步骤11包括:
查找所述药品联合信息词典中包括各个所述参考词条的目标子词条的联合词条,将查找到的联合词条确定为待选联合词条;
确定所述待选联合词条中各个目标子词条与相应参考词条的相似度;
计算所述待选联合词条中各个目标子词条与相应参考词条的相似度的加权平均值;其中,各个目标子词条与相应参考词条的相似度所对应的权重等于该目标子词条的词条属性的预设权重;
根据各个待选联合词条的加权平均值的大小,从全部的待选联合词条中选出一个或多个作为词条合并组相匹配的联合词条。
16.根据权利要求15所述的药品信息的自动编码方法,其中,所述根据各个待选联合词条的加权平均值的大小,从全部的待选联合词条中选出一个或多个作为词条合并组相匹配的联合词条的步骤,包括:
按照各个待选联合词条的加权平均值的大小对各个待选联合词条排序,将其中排序靠前的预设数量的待选联合词条选出作为词条合并组相匹配的联合词条;
或者,
将全部的待选联合词条中加权平均值大于预设阈值的一个或多个待选联合词条选出,作为词条合并组相匹配的联合词条。
17.根据权利要求13所述的药品信息的自动编码方法,其中,所述步骤10还包括计算参考词条与其目标子词条的总置信度;其中,所述总置信度的计算过程为:
确定参考词条中的每个汉字;
按照如下公式计算参考词条与其目标子词条的余弦置信度:
其中,N表示余弦置信度;
V表示参考词条及其目标子词条所包含的汉字总数;
Q表示参考词条;
d'表示参考词条的目标子词条;
wQ,j表示每个汉字在参考词条中出现的频次;
wd',j表示每个汉字在参考词条的目标子词条中出现的频次;
j表示参考词条及其目标子词条所包含的汉字的序号;
按照如下公式计算参考词条与其目标子词条的总置信度:
S=M×a+N×b
其中,S表示总置信度;
a表示相似度M对应的预设权值;
b表示余弦置信度N对应的预设权值,其中b=1-a。
18.根据权利要求17所述的药品信息的自动编码方法,其中,所述步骤11包括:
查找所述药品联合信息词典中包括各个参考词条的目标子词条的联合词条,将查找到的联合词条确定为待选联合词条;
确定所述待选联合词条中各个目标子词条与相应参考词条的总置信度;
计算所述待选联合词条中各个目标子词条与相应参考词条的总置信度的加权平均值;
其中,各个目标子词条与相应参考词条的总置信度所对应的权重等于该目标子词条的词条属性的预设权重;
根据各个待选联合词条的加权平均值的大小,从全部的待选联合词条中选出一个或多个作为词条合并组相匹配的联合词条。
19.根据权利要求18所述的药品信息的自动编码方法,其中,所述根据各个待选联合词条的加权平均值的大小,从全部的待选联合词条中选出一个或多个作为词条合并组相匹配的联合词条,包括:
按照各个待选联合词条的加权平均值的大小对各个待选联合词条排序,将其中排序靠前的预设数量的待选联合词条选出作为词条合并组相匹配的联合词条;
或者,
将全部的待选联合词条中加权平均值大于预设阈值的一个或多个待选联合词条选出,作为词条合并组相匹配的联合词条。
20.一种药品信息的自动编码系统,包括:
词典数据库,提供预设的规格词典、包装规格词典、词典集和药品联合信息词典;
输入模,用于输入药品信息字符串;
预处理模块,用于对所述药品信息字符串进行预处理,得到预处理药品信息字符串;
第一切分模块,用于基于所述规格词典和包装规格词典,从所述预处理药品信息字符串中切分出规格字符串和包装规格字符串;其中,所述规格词典包括若干表示药品的规格单位的词条;所述包装规格词典包括若干表示药品的包装规格单位的词条;所述规格字符串表示药品的规格信息;所述包装规格字符串表示药品的包装规格信息;
第二切分模块,用于基于所述词典集,将所述预处理药品信息字符串的剩余字符切分成若干子字符串,所述子字符串为第一类型子字符串和/或第二类型子字符串;其中,所述词典集由多个词典组成,所述多个词典包括若干表示药品的通用名称、商品名称、产品名称、给药途径、剂型、生产厂家、包材的词条,以及若干表示合并的两个或多个通用名称、医院自制药品名称的词条;所述第一类型子字符串能够与所述词典集中的词条直接匹配,所述第二类型子字符串不能够与所述词典集中的词条直接匹配;
第一判断处理模块,用于判断从所述预处理药品信息字符串的剩余字符切分出的子字符串是否全部为第一类型子字符串;如果切分出的子字符串中有第二类型子字符串,则结束处理;如果切分出的子字符串全部为第一类型子字符串,则确定所述子字符串相匹配的各个词条的词条属性,并触发第二判断处理模块;其中,所述词条属性与所述词条所属的词典一一对应,所述词典具有预先设定的词条属性;
第二判断处理模块,用于判断所述子字符串相匹配的各个词条中是否有对应于屏蔽型词条属性的词条;如果有对应于屏蔽型词条属性的词条,则结束处理;如果没有对应于屏蔽型词条属性的词条,则触发第三判断处理模块;其中,对应于所述屏蔽型词条属性的词条表明所述药品信息字符串所表示的是多个药品的信息,或表明所述药品信息字符串所表示的药品是医院自制药品;
第三判断处理模块,用于判断所述子字符串相匹配的各个词条中是否有对应于目标词条属性的词条;如果没有对应于目标词条属性的词条,则结束处理;如果有对应于目标词条属性的词条,则将所述对应于目标词条属性的词条合并成为词条合并组,并将该词条合并组与所述药品联合信息词典中的联合词条进行匹配;若存在直接匹配的联合词条,则将该直接匹配的联合词条的联合编码赋给所述药品信息字符串;其中,所述目标词条属性为药品联合信息词典中各个子词条的词条属性;所述药品联合信息词典包括若干联合词条,每个所述联合词条具有一一对应的联合编码,且每个所述联合词条由多个所述子词条组成,所述子词条为所述词典中表示药品的通用名称、商品名称、产品名称、给药途径、剂型、生产厂家或包材的词条;
输出模块,输出所述药品信息字符串的联合编码。
21.根据权利要求20所述的药品信息的自动编码系统,其中,
所述规格词典包括如下类型的词条:标准装量规格单位、标准成分规格单位、装量规格单位同义词、成分规格单位同义词;
所述标准装量规格单位为药品最小制剂单位的重量或装量;
所述标准成分规格单位为药品最小制剂单位中含有效成分的剂量或效价;
所述装量规格单位同义词是所述标准装量规格单位的别名、俗称、英文缩写或错别字;
所述成分规格单位同义词是所述标准成分规格单位的别名、俗称、英文缩写或错别字;
所述包装规格词典包括如下类型的词条:标准制剂最小单位、标准包装规格单位、制剂最小单位同义词、包装规格单位同义词;
所述标准制剂最小单位为药品的最小制剂单位;
所述标准包装规格单位为药品的最小包装单位;
所述制剂最小单位同义词是所述标准制剂最小单位的别名、俗称、英文缩写或错别字;
所述包装规格单位同义词是所述标准包装规格单位的别名、俗称、英文缩写或错别字;
所述词典集包括通用名称词典、商品名称词典、产品名称词典、给药途径词典、剂型词典、生产厂家词典、包材词典、通用名大名称词典、院内制剂词典;
所述通用名称词典包括如下类型的词条:标准通用名称、通用名称同义词;
所述标准通用名称是中国药品通用名称;
所述通用名称同义词是标准通用名称的别名、俗称、英文缩写或错别字;
所述商品名称词典包括如下类型的词条:标准商品名称、商品名称同义词;
所述标准商品名称是国家食品药品监督管理总局CFDA对药品公布的商品名信息以及生产厂家官方文件、药品说明书中的商品名信息;
所述商品名称同义词是所述标准商品名称的别名、俗称、英文缩写或错别字;
所述产品名称词典包括如下类型的词条:标准产品名称、产品名称同义词;
所述标准产品名称是CFDA公布的药品产品名称信息;
所述产品名称同义词是标准产品名称的别名、俗称、英文缩写或错别字;
所述给药途径词典包括如下类型的词条:标准给药途径术语、给药途径同义词;
所述标准给药途径术语是药品的解剖学、治疗学及化学分类系统ATC中规定的给药途径;
所述给药途径同义词是所述标准给药途径术语的别名、俗称、英文缩写或错别字;
所述剂型词典包括如下类型的词条:标准剂型术语、剂型同义词;
所述标准剂型术语包括:根据中国药典的制剂通则对CFDA公布的药品注册剂型进行化处理后的药品剂型,以及,在国家医保目录中但无法在CFDA查询到相关注册信息的国家医保目录剂型;
所述剂型同义词是与所述标准剂型术语的别名、俗称、英文缩写、错别字或子类型;
所述生产厂家词典包括如下类型的词条:标准生产厂家名称、生产厂家名称同义词;
所述标准生产厂家名称是CFDA公布的药品生产企业信息、生产厂商的中文信息或英文信息;
所述生产厂家名称同义词是所述标准生产厂家名称的缩略语或英文名称、曾用名;
所述包材词典包括如下类型的词条:标准包材名称、包材名称同义词;
所述标准包材名称是CFDA公布的药品包材;
所述包材名称同义词是所述标准包材名称的别名、俗称或英文缩写;
所述通用名大名称词典包括如下类型的词条:通用名大名称术语;
所述通用名大名称术语由两个或多个所述标准通用名称合并组成;
所述院内制剂词典包括如下类型的词条:院内制剂名称;
所述院内制剂名称是表示医院自制药品的名称;
所述规格字符串、所述包装规格字符串对应的词条属性分别为规格、包装规格;
所述第一类型子字符串、第二类型子字符串相匹配的词条属于通用名称词典时,对应的词条属性为通用名称;
所述第一类型子字符串、第二类型子字符串相匹配的词条属于商品名称词典时,对应的词条属性为商品名称;
所述第一类型子字符串、第二类型子字符串相匹配的词条属于产品名称词典时,对应的词条属性为产品名称;
所述第一类型子字符串、第二类型子字符串相匹配的词条属于给药途径词典时,对应的词条属性为给药途径;
所述第一类型子字符串、第二类型子字符串相匹配的词条属于剂型词典时,对应的词条属性为剂型;
所述第一类型子字符串、第二类型子字符串相匹配的词条属于生产厂家词典时,对应的词条属性为生产厂家;
所述第一类型子字符串、第二类型子字符串相匹配的词条属于包材词典时,对应的词条属性为包材;
所述第一类型子字符串、第二类型子字符串相匹配的词条属于通用名大名称词典时,对应的词条属性为通用名大名称;
所述第一类型子字符串、第二类型子字符串相匹配的词条属于院内制剂词典时,对应的词条属性为院内制剂。
22.根据权利要求20所述的药品信息的自动编码系统,其中,所述药品信息的自动编码系统还包括:解析模块、匹配模块、查找模块、发送模块;
所述第三判断处理模块,还用于将该词条合并组与所述药品联合信息词典中的联合词条进行匹配时,若不存在直接匹配的联合词条,则触发所述解析模块;
所述解析模块,用于将所述对应于预设的词条属性的各个词条分别确定为参考词条,并对各个参考词条以及所述药品联合信息词典中的各个子词条进行预设维度的解析,分别得到各个参考词条的各个维度的解析结果以及各个子词条的各个维度的解析结果;
所述匹配模块,用于针对每个所述参考词条,将该参考词条的各个维度的解析结果与对应相同词条属性的各个子词条的各个维度的解析结果进行匹配,查找该参考词条相匹配的一个或多个子词条,并将查找到的子词条确定为该参考词条的目标子词条;
所述查找模块,用于查找所述药品联合信息词典中由各个参考词条的目标子词条组成的联合词条,将查找到的联合词条确定为所述药品信息字符串模糊匹配的联合词条;
所述发送模块,用于将所述药品信息字符串模糊匹配的联合词条发送至人工处理平台进行人工处理。

说明书全文

一种药品信息的自动编码方法及系统

技术领域

[0001] 本发明的实施方式涉及医疗信息化领域,更具体地,本发明的实施方式涉及一种药品信息的自动编码方法及系统。

背景技术

[0002] 本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术
[0003] 随着信息技术的快速发展,我国医药行业正加速医疗信息化建设。医疗信息化建设有助于提升医疗处理效率,给患者提供很好的体验,为提高医疗服务质量提供很大帮助。
[0004] 药品信息管理是医疗保险结算的重要依据,也是医疗信息化建设的重要组成部分。按照一定的规则对不同的药品进行编码,可使药品信息得以标准化和格式化,大大提高利用和管理药品信息的效率,对发展医疗信息化建设具有重要的意义。

发明内容

[0005] 实际临床作业中每天会产生大量的病案信息,这些病案信息中有很多医疗从业人员为治疗患者的疾病而输入的药品信息,研究和利用药品信息对于医疗信息化发展具有非常重要的意义。面对每天产生的海量的药品信息,借助计算机对药品信息进行识别并编码,是提高利用和管理药品信息的有效途径之一。
[0006] 但是,由于医疗从业人员输入的药品信息字符串属于自然语言,格式复杂多样,没有统一的标准,例如,采用多种语言混合表达、使用不规范语法、录入有误信息、采用缩略语或俗称代替标准术语、文字中夹杂无关符号等杂乱信息等等,这就使得计算机为药品编码变得相当困难,即便能够按照预设的规则对药品进行了编码,也往往具有较高的出错率。
[0007] 为此,非常需要一种药品信息的自动编码方法,以便快速、高效、准确地根据药品信息进行药品编码。
[0008] 在本上下文中,本发明的实施方式期望提供一种药品信息的自动编码方法及系统。
[0009] 在本发明实施方式的第一方面中,提供了一种药品信息的自动编码方法,包括:
[0010] 步骤1,输入药品信息字符串;
[0011] 步骤2,对所述药品信息字符串进行预处理,得到预处理药品信息字符串;
[0012] 步骤3,基于预设的规格词典和包装规格词典,从所述预处理药品信息字符串中切分出规格字符串和包装规格字符串;其中,所述规格词典包括若干表示药品的规格单位的词条;所述包装规格词典包括若干表示药品的包装规格单位的词条;所述规格字符串表示药品的规格信息;所述包装规格字符串表示药品的包装规格信息;
[0013] 步骤4,基于预设的词典集,将所述预处理药品信息字符串的剩余字符切分成若干子字符串,所述子字符串为第一类型子字符串或第二类型子字符串;其中,所述词典集由多个词典组成,所述多个词典包括若干表示药品的通用名称、商品名称、产品名称、给药途径、剂型、生产厂家、包材的词条,以及若干表示合并的两个或多个通用名称、医院自制药品名称的词条;所述第一类型子字符串能够与所述词典集中的词条直接匹配,所述第二类型子字符串不能够与所述词典集中的词条直接匹配;
[0014] 步骤5,判断从所述预处理药品信息字符串的剩余字符切分出的子字符串是否全部为第一类型子字符串;如果切分出的子字符串中有第二类型子字符串,则结束处理;如果切分出的子字符串全部为第一类型子字符串,则确定所述子字符串相匹配的各个词条的词条属性,并继续执行步骤6;其中,所述词条属性与所述词条所属的词典一一对应,所述词典具有预先设定的词条属性;
[0015] 步骤6,判断所述子字符串相匹配的各个词条中是否有对应于屏蔽型词条属性的词条;如果有对应于屏蔽型词条属性的词条,则结束处理;如果没有对应于屏蔽型词条属性的词条,则继续步骤7;其中,对应于所述屏蔽型词条属性的词条表明所述药品信息字符串所表示的是多个药品的信息,或表明所述药品信息字符串所表示的药品是医院自制药品;
[0016] 步骤7,判断所述子字符串相匹配的各个词条中是否有对应于目标词条属性的词条;如果没有对应于目标词条属性的词条,则结束处理;如果有对应于目标词条属性的词条,则将所述对应于目标词条属性的词条合并成为词条合并组,并将该词条合并组与所述药品联合信息词典中的联合词条进行匹配;若存在直接匹配的联合词条,则将该直接匹配的联合词条的联合编码赋给所述药品信息字符串;其中,所述目标词条属性为药品联合信息词典中各个子词条的词条属性;所述药品联合信息词典包括若干联合词条,每个所述联合词条具有一一对应的联合编码,且每个所述联合词条由多个所述子词条组成,所述子词条为所述词典中表示药品的通用名称、商品名称、产品名称、给药途径、剂型、生产厂家或包材的词条;
[0017] 步骤8,输出所述药品信息字符串的联合编码。
[0018] 在本发明实施方式的第二方面中,提供了一种药品信息的自动编码系统,包括:
[0019] 词典数据库,提供预设的规格词典、包装规格词典、词典集和药品联合信息词典;
[0020] 输入模,用于输入药品信息字符串;
[0021] 预处理模块,用于对所述药品信息字符串进行预处理,得到预处理药品信息字符串;
[0022] 第一切分模块,用于基于所述规格词典和包装规格词典,从所述预处理药品信息字符串中切分出规格字符串和包装规格字符串;其中,所述规格词典包括若干表示药品的规格单位的词条;所述包装规格词典包括若干表示药品的包装规格单位的词条;所述规格字符串表示药品的规格信息;所述包装规格字符串表示药品的包装规格信息;
[0023] 第二切分模块,用于基于所述词典集,将所述预处理药品信息字符串的剩余字符切分成若干子字符串,所述子字符串为第一类型子字符串和/或第二类型子字符串;其中,所述词典集由多个词典组成,所述多个词典包括若干表示药品的通用名称、商品名称、产品名称、给药途径、剂型、生产厂家、包材的词条,以及若干表示合并的两个或多个通用名称、医院自制药品名称的词条;所述第一类型子字符串能够与所述词典集中的词条直接匹配,所述第二类型子字符串不能够与所述词典集中的词条直接匹配;
[0024] 第一判断处理模块,用于判断从所述预处理药品信息字符串的剩余字符切分出的子字符串是否全部为第一类型子字符串;如果切分出的子字符串中有第二类型子字符串,则结束处理;如果切分出的子字符串全部为第一类型子字符串,则确定所述子字符串相匹配的各个词条的词条属性,并触发第二判断处理模块;其中,所述词条属性与所述词条所属的词典一一对应,所述词典具有预先设定的词条属性;
[0025] 第二判断处理模块,用于判断所述子字符串相匹配的各个词条中是否有对应于屏蔽型词条属性的词条;如果有对应于屏蔽型词条属性的词条,则结束处理;如果没有对应于屏蔽型词条属性的词条,则触发第三判断处理模块;其中,对应于所述屏蔽型词条属性的词条表明所述药品信息字符串所表示的是多个药品的信息,或表明所述药品信息字符串所表示的药品是医院自制药品;
[0026] 第三判断处理模块,用于判断所述子字符串相匹配的各个词条中是否有对应于目标词条属性的词条;如果没有对应于目标词条属性的词条,则结束处理;如果有对应于目标词条属性的词条,则将所述对应于目标词条属性的词条合并成为词条合并组,并将该词条合并组与所述药品联合信息词典中的联合词条进行匹配;若存在直接匹配的联合词条,则将该直接匹配的联合词条的联合编码赋给所述药品信息字符串;其中,所述目标词条属性为药品联合信息词典中各个子词条的词条属性;所述药品联合信息词典包括若干联合词条,每个所述联合词条具有一一对应的联合编码,且每个所述联合词条由多个所述子词条组成,所述子词条为所述词典中表示药品的通用名称、商品名称、产品名称、给药途径、剂型、生产厂家或包材的词条;
[0027] 输出模块,输出所述药品信息字符串的联合编码。
[0028] 借助于上述技术方案,本发明充分考虑了医疗从业人员输入的药品信息字符串属于自然语言、格式复杂多样、没有统一的标准等特点,利用预先依据医疗领域的通用标准所建立的多种词典对药品信息字符串进行切分和匹配,以此将药品信息分类识别出来,并根据识别结果为药品信息编码。本发明严格遵循以下原则,即只有当从药品信息字符串中切分出的子字符串与词典集中的词条直接匹配时才能作为分类识别的结果,并且,只有当分类识别的结果能够与药品联合信息词典中的联合词条直接匹配时才予以自动编码,否则不予自动编码,基于以上原则,本发明实现了对属于自然语言的药品信息字符串的准确识别及精准编码,识别结果及编码结果具有较高的准确率,为有效利用药品信息提供了便利。附图说明
[0029] 通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
[0030] 图1示意性地示出了本发明的实施方式可以在其中实施的应用场景;
[0031] 图2示意性地示出了本发明示例性的药品信息的自动编码方法;
[0032] 图3示意性地示出了本发明示例性方法的一种切分子字符串的流程;
[0033] 图4示意性地示出了本发明示例性方法的一种将词条合并组与联合词条进行匹配的流程;
[0034] 图5示意性地示出了本发明示例性方法的一种查找参考词条的目标子词条的流程;
[0035] 图6示意性地示出了本发明示例性方法的一种查找药品信息字符串模糊匹配的联合词条的流程;
[0036] 图7示意性地示出了本发明示例性方法的另一种查找药品信息字符串模糊匹配的联合词条的流程;
[0037] 图8示意性地示出了本发明示例性的药品信息的自动编码系统的结构框图
[0038] 图9示意性地示出了本发明示例性的药品信息的自动编码系统的另一种结构框图;
[0039] 在附图中,相同或对应的标号表示相同或对应的部分。

具体实施方式

[0040] 下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
[0041] 本领域技术技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
[0042] 根据本发明的实施方式,提出了一种药品信息的自动编码方法及系统。
[0043] 在本文中,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
[0044] 下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。
[0045] 应用场景总览
[0046] 首先参考图1,其示出了本发明的实施方式可以在其中实施的应用场景。
[0047] 图1中所示的场景包括医疗信息化平台100和药品信息自动编码系统200。医疗信息化平台100可以是装载于医生所用的台式电脑、笔记本电脑平板电脑个人数字助理等设备中的软件。药品信息自动编码系统200可以是运行于医院信息服务器中的软件等。医疗信息化平台100和药品信息自动编码系统200之间例如可以通过医院局域网等进行通信连接。
[0048] 医疗从业人员(例如医生)在医疗信息化平台100中输入药品信息之后,药品信息被传输至药品信息自动编码系统200,由药品信息自动编码系统200对其进行自然语言处理和自动编码,最后输出编码结果。
[0049] 示例性方法
[0050] 本示例性方法介绍本发明的一种示例性的药品信息的自动编码方法。该示例性方法用于对医疗从业人员输入的药品信息进行识别,并最终输出药品的编码结果。
[0051] 在介绍该示例性方法之前,通过表1至表23介绍该示例性实施方式需要调用的各种词典。
[0052] (1)规格词典
[0053] 规格词典包括若干表示药品的规格单位的词条,本发明中,规格词典是用于从药品信息字符串中切分出规格字符串,规格字符串表示药品的规格信息。
[0054] 以下为一种示例性的规格词典:
[0055] 规格词典包括标准规格表和规格同义词表。
[0056] 标准规格表包括若干标准装量规格单位和标准成分规格单位。
[0057] 标准装量规格单位,表示药品最小制剂单位的重量或装量,如一片药有多重,一瓶注射液装了多少毫升药。
[0058] 标准成分规格单位,表示药品最小制剂单位中含有效成分的剂量或效价。
[0059] 标准装量规格单位和标准成分规格单位均来自于国家食品药品监督管理总局(China Food and Drug Administration,CFDA)对各种药品公布的【规格】信息。
[0060] 表1表示了标准规格表包括的部分标准装量规格单位和标准成分规格单位。
[0061] 表1
[0062]标准装量规格单位 标准成分规格单位
克 克
毫克 毫克
毫升 微克
[0063] 规格同义词表包括若干装量规格单位同义词和成分规格单位同义词。
[0064] 装量规格单位同义词是标准装量规格单位的别名、俗称、英文缩写、错别字等。
[0065] 成分规格单位同义词是标准成分规格单位的别名、俗称、英文缩写、错别字等。
[0066] 规格同义词表记录了装量规格单位同义词与标准装量规格单位之间的对应关系,以及成分规格单位同义词与标准成分规格单位之间的对应关系。
[0067] 表2表示了规格同义词表包括的部分装量规格单位同义词、成分规格单位同义词,以及对应的标准装量规格单位和标准成分规格单位。
[0068] 表2
[0069]
[0070] 需要说明的是,在实施本发明时,可以根据实际情况采用包含其他类型词条的规格词典,以达到切分出规格字符串的目的,本发明对规格词典所包含的词条的类型或来源不作具体限定,即以上说明仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,采用包含其它类型或来源的词条的规格词典均应包含在本发明的保护范围之内。
[0071] (2)包装规格词典
[0072] 包装规格词典包括若干表示药品的包装规格单位的词条,本发明中,包装规格词典是用于从药品信息字符串中切分出包装规格字符串,包装规格字符串表示药品的包装规格信息。
[0073] 以下为一种示例性的包装规格词典:
[0074] 包装规格词典包括标准包装规格表和包装规格同义词表。
[0075] 标准包装规格表包括若干标准制剂最小单位和标准包装规格单位。
[0076] 标准制剂最小单位表示药品的最小制剂单位,如片、粒。
[0077] 标准包装规格单位表示药品的最小包装单位,如盒、瓶。
[0078] 标准包装规格单位均来自于国家食品药品监督管理总局(China Food and Drug Administration,CFDA)对各种药品公布的【包装规格】信息以及药品生产厂家官网、药品说明中包装规格的信息。
[0079] 表3表示了标准包装规格表包括的部分标准制剂最小单位和标准包装规格单位。
[0080] 表3
[0081]标准制剂最小单位 标准包装规格单位
片 盒
粒 瓶
支 袋
[0082] 包装规格同义词表包括若干制剂最小单位同义词和包装规格单位同义词。
[0083] 制剂最小单位同义词是标准制剂最小单位的别名、俗称、英文缩写或错别字等。
[0084] 包装规格单位同义词是标准包装规格单位的别名、俗称、英文缩写或错别字等。
[0085] 包装规格同义词表详细记载了制剂最小单位同义词与标准制剂最小单位之间的对应关系,以及包装规格单位同义词与标准包装规格单位之间的对应关系。
[0086] 表4表示了包装规格同义词表包括的部分制剂最小单位同义词和包装规格单位同义词,以及对应的标准制剂最小单位和标准包装规格单位。
[0087] 表4
[0088]
[0089] 本发明中,规格词典是用于切分包装规格字符串。需要说明的是,在实施本发明时,可以根据实际情况采用包含其他类型词条的包装规格词典,以达到切分出包装规格字符串的目的,本发明对包装规格词典所包含的词条的类型或来源不作具体限定,即以上说明仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,采用包含其它类型或来源的词条的包装规格词典均应包含在本发明的保护范围之内。
[0090] (3)通用名称词典
[0091] 通用名称词典包括若干表示药品的通用名称的词条,本发明中,通用名称词典是用于切分词条属性为“通用名称”的词条。
[0092] 以下为一种示例性的通用名称词典:
[0093] 通用名称词典包括标准通用名称表、通用名称同义词表。
[0094] 标准通用名称表包括若干标准通用名称,这些标准通用名称是以国际非专利药品名称为依据、结合具体情况制定的中国药品通用名称(CADN,China Approved Drug Names)。
[0095] 表5所示为标准通用名称表包括的部分标准通用名称。
[0096] 表5
[0097]标准通用名称
山莨菪
磷酸腺苷
玻璃酸钠
甲溴贝那替秦
[0098] 通用名称同义词表包括若干通用名称同义词,这些通用名称同义词是标准通用名称的别名、俗称、英文缩写或错别字等。
[0099] 通用名称同义词表详细记载了每个通用名称同义词与标准通用名称之间的对应关系。
[0100] 表6所示为通用名称同义词表包括的部分通用名称同义词、标准通用名称、以及二者之间的同义关系。
[0101] 表6
[0102]
[0103] 需要说明的是,在实施本发明时,可以根据实际情况采用包含其他类型词条的通用名称词典,以达到切分出词条属性为“通用名称”的词条的目的,本发明对通用名称词典所包含的词条的类型或来源不作具体限定,即以上说明仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,采用包含其它类型或来源的词条的通用名称词典均应包含在本发明的保护范围之内。
[0104] (4)商品名称词典
[0105] 商品名称词典包括若干表示药品的商品名称的词条,本发明中,商品名称词典是用于切分词条属性为“商品名称”的词条。
[0106] 以下为一种示例性的商品名称词典:
[0107] 商品名称词典包括标准商品名称表、商品名称同义词表。
[0108] 标准商品名称表包括若干标准商品名称,这些标准商品名称来自于CFDA对药品公布的【商品名】信息以及生产厂家官方文件、药品说明书中商品名信息。
[0109] 标准商品名称词典中详细记载了每个标准商品名称与标准通用名称之间的对应关系。
[0110] 表7所示为标准商品名称表包括的部分标准商品名称、标准通用名称、以及二者之间的对应关系。
[0111] 表7
[0112]标准商品名称 标准通用名称
左克 盐酸氟沙星
运德素 重组人干扰素α1b
忆辛 辛伐他汀
[0113] 商品名称同义词表包括若干商品名称同义词,这些商品名称同义词是标准商品名称的别名、俗称、英文缩写或错别字等。
[0114] 商品名称同义词详细记载了每个商品名称同义词与标准商品名称以及标准通用名称之间的对应关系。
[0115] 表8所示为商品名称同义词表包括的部分商品名称同义词、标准商品名称、标准通用名称、以及三者之间的对应关系。
[0116] 表8
[0117]
[0118] 需要说明的是,在实施本发明时,可以根据实际情况采用包含其他类型词条的商品名称词典,以达到切分出词条属性为“商品名称”的词条的目的,本发明对商品名称词典所包含的词条的类型或来源不作具体限定,即以上说明仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,采用包含其它类型或来源的词条的商品名称词典均应包含在本发明的保护范围之内。
[0119] (5)产品名称词典
[0120] 产品名称词典包括若干表示药品的产品名称的词条,本发明中,产品名称词典是用于切分词条属性为“产品名称”的词条。
[0121] 以下为一种示例性的产品名称词典:
[0122] 产品名称词典包括标准产品名称表、产品名称同义词表。
[0123] 标准产品名称表包括若干标准产品名称,这些标准产品名称来自于CFDA对各种药品公布的【产品名称】信息。
[0124] 标准产品名称词典中详细记载了每个标准产品名称与标准通用名称之间的对应关系。
[0125] 表9所示为标准产品名称表包括的部分标准产品名称、标准通用名称、以及二者之间的对应关系。
[0126] 表9
[0127]标准产品名称 标准通用名称
[0128]阿苯达唑片 阿苯达唑
阿苯达唑咀嚼片 阿苯达唑
阿莫西林胶囊 阿莫西林
阿莫西林颗粒 阿莫西林
布洛芬混悬液 布洛芬
布洛芬缓释混悬液 布洛芬
布洛芬片 布洛芬
[0129] 产品名称同义词表包括若干产品名称同义词,这些产品名称同义词是标准产品名称的别名、俗称、英文缩写或错别字等。
[0130] 产品名称同义词详细记载了每个产品名称同义词与标准产品名称以及标准通用名称之间的对应关系。
[0131] 表10所示为产品名称同义词表包括的部分产品名称同义词、标准产品名称、标准通用名称、以及三者之间的对应关系。
[0132] 表10
[0133]
[0134] 需要说明的是,在实施本发明时,可以根据实际情况采用包含其他类型词条的产品名称词典,以达到切分出词条属性为“产品名称”的词条的目的,本发明对产品名称词典所包含的词条的类型或来源不作具体限定,即以上说明仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,采用包含其它类型或来源的词条的产品名称词典均应包含在本发明的保护范围之内。
[0135] (6)给药途径词典
[0136] 给药途径词典包括若干表示药品的给药途径的词条,本发明中,给药途径词典是用于切分词条属性为“给药途径”的词条。
[0137] 以下为一种示例性的给药途径词典:
[0138] 给药途径词典包括标准给药途径术语表、给药途径同义词表。
[0139] 标准给药途径术语表包括了若干标准给药途径术语,这些标准给药途径术语是基于解剖学治疗学及化学分类系统(Anatomical Therapeutic Chemical,ATC),结合实际药品应用而建立。
[0140] 表11所示为标准给药途径术语表包括的部分标准给药途径术语。
[0141] 表11
[0142]标准给药途径术语
口服
含服
粘膜给药
舌下
注射给药
肌肉注射
皮下注射
局部浸润
局部给药
尿道给药
吸入给药
牙用
眼用
[0143] 给药途径同义词表包括若干给药途径同义词,这些给药途径同义词是标准给药途径术语的别名、俗称、英文缩写或错别字等。
[0144] 给药途径同义词表详细记载了给药途径同义词与标准给药途径术语之间的对应关系。
[0145] 表12所示为给药途径同义词表包括的部分给药途径同义词、标准药途径、以及二者之间的同义关系。
[0146] 表12
[0147]
[0148]
[0149] 需要说明的是,在实施本发明时,可以根据实际情况采用包含其他类型词条的给药途径词典,以达到切分出词条属性为“给药途径”的词条的目的,本发明对给药途径词典所包含的词条的类型或来源不作具体限定,即以上说明仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,采用包含其它类型或来源的词条的给药途径词典均应包含在本发明的保护范围之内。
[0150] (7)剂型词典
[0151] 剂型词典包括若干表示药品的剂型的词条,本发明中,剂型词典是用于切分词条属性为“剂型”的词条。
[0152] 以下为一种示例性的剂型词典:
[0153] 剂型词典包括标准剂型术语表、剂型同义词表。
[0154] 标准剂型术语表包括了若干标准剂型术语。
[0155] 标准剂型术语包括:①以CFDA的药品注册剂型为基础,根据《中国药典》2010版“制剂通则”的规则及定义,对药品注册剂型进行标准化处理后的药品剂型;②在国家医保目录中,无法在CFDA查询到相关注册信息的医保剂型,按照国家医保目录剂型确定其标准医保剂型。
[0156] 表13表示了标准剂型术语表包括的部分标准剂型术语。
[0157] 表13
[0158]标准剂型术语
片剂
散剂
颗粒剂
喷雾剂
[0159]软膏
栓剂
口服常释剂型
含漱剂
[0160] 剂型同义词表包括了若干剂型同义词。
[0161] 剂型同义词是标准剂型术语的别名、俗称、英文缩写、错别字或子类型。
[0162] 剂型同义词表详细记载了剂型同义词与标准剂型术语之间的对应关系。
[0163] 表14表示了剂型同义词表包括的部分剂型同义词、标准剂型术语以及二者的对应关系。
[0164] 表14
[0165]
[0166] 需要说明的是,在实施本发明时,可以根据实际情况采用包含其他类型词条的剂型词典,以达到切分出词条属性为“剂型”的词条的目的,本发明对剂型词典所包含的词条的类型或来源不作具体限定,即以上说明仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,采用包含其它类型或来源的词条的剂型词典均应包含在本发明的保护范围之内。
[0167] (8)生产厂家词典
[0168] 生产厂家词典包括若干表示药品的生产厂家的词条,本发明中,生产厂家词典是用于切分词条属性为“生产厂家”的词条。
[0169] 以下为一种示例性的生产厂家词典:
[0170] 生产厂家词典包括标准生产厂家表、生产厂家同义词表。
[0171] 标准生产厂家表包括了若干标准生产厂家名称,标准生产厂家名称来自于CFDA公布的药品生产企业信息或【生产厂商(中文)】、【生产厂商(英文)】信息。
[0172] 表15表示了标准生产厂家表包括的部分标准生产厂家名称。
[0173] 表15
[0174]标准生产厂家名称
上海长征富民药业陵有限公司
南京恒生制药有限公司
黑龙江哈星药业集团有限公司
广东九连山药业有限公司
四川康特能药业
Dr.Reddy`s Laboratories Ltd.
[0175] 生产厂家同义词表包括了若干生产厂家名称同义词。
[0176] 生产厂家名称同义词是标准生产厂家名称的缩略语、英文名称等。
[0177] 生产厂家同义词表详细记载了生产厂家名称同义词与标准生产厂家名称之间的对应关系。
[0178] 表16表示了生产厂家同义词表包括的部分生产厂家名称同义词、标准生产厂家名称以及二者的对应关系。
[0179] 表16
[0180]
[0181] 需要说明的是,在实施本发明时,可以根据实际情况采用包含其他类型词条的生产厂家词典,以达到切分出词条属性为“生产厂家”的词条的目的,本发明对生产厂家词典所包含的词条的类型或来源不作具体限定,即以上说明仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,采用包含其它类型或来源的词条的生产厂家词典均应包含在本发明的保护范围之内。
[0182] (9)包材词典
[0183] 包材词典包括若干表示药品的包材的词条,本发明中,包材词典是用于切分词条属性为“包材”的词条。
[0184] 以下为一种示例性的包材词典:
[0185] 包材词典包括标准包材表、包材同义词表。
[0186] 标准包材表包括若干标准包材名称,这些标准包材名称来自于CFDA公布的药品包材或者药品说明书中有关包材的信息。
[0187] 表17所示为标准包材表包括的部分标准包材名称。
[0188] 表17
[0189]标准包材名称
非PVC软袋
玻璃瓶
塑料瓶
[0190] 包材同义词表包括若干包材名称同义词。
[0191] 包材名称同义词是标准包材名称的别名、俗称或英文缩写等。
[0192] 包材同义词表详细记载了包材名称同义词与标准包材名称之间的对应关系。
[0193] 表18所示为包材同义词表包括的部分包材名称同义词、标准包材名称、以及二者之间的同义关系。
[0194] 表18
[0195]包材名称同义词 标准包材名称
玻瓶 玻璃瓶
塑瓶 塑料瓶
[0196] 需要说明的是,在实施本发明时,可以根据实际情况采用包含其他类型词条的包材词典,以达到切分出词条属性为“包材”的词条的目的,本发明对包材词典所包含的词条的类型或来源不作具体限定,即以上说明仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,采用包含其它类型或来源的词条的包材词典均应包含在本发明的保护范围之内。
[0197] (10)通用名大名称词典
[0198] 通用名大名称词典包括若干由两个或多个药品的标准通用名称合并组成的词条,本发明中,通用名大名称词典是用于切分词条属性为“通用名大名称”的词条。
[0199] 以下为一种示例性的通用名大名称词典:
[0200] 通用名大名称词典包括如下类型的词条:通用名大名称术语。这些通用名大名称术语来自2009《国家基本医疗保险、工伤保险和生育保险药品目录》的药品名称以及客户数据中通用名大名称的收集。
[0201] 通用名大名称词典详细记载了通用名大名称术语与组成其的标准通用名称之间的对应关系。
[0202] 表19所示为通用名大名称词典包括的部分通用名大名称术语、标准通用名称之间的对应关系。
[0203] 表19
[0204]
[0205] 需要说明的是,在实施本发明时,可以根据实际情况采用包含其他类型词条的通用名大名称词典,以达到切分出词条属性为“通用名大名称”的词条的目的,本发明对通用名大名称词典所包含的词条的类型或来源不作具体限定,即以上说明仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,采用包含其它类型或来源的词条的通用名大名称词典均应包含在本发明的保护范围之内。
[0206] (11)院内制剂词典
[0207] 院内制剂词典包括若干表示医院自制(研制)药品的名称的词条,本发明中,院内制剂词典是用于切分词条属性为“院内制剂”的词条。
[0208] 以下为一种示例性的院内制剂词典:
[0209] 该院内制剂词典包括如下类型的词条:院内制剂名称。院内制剂名称来自各省市食品药品监督管理局批准的医院制剂品种以及客户数据中院内制剂名称的收集。该院内制剂词典还详细记载了院内制剂名称与其研制单位之间的对应关系。
[0210] 表20所示为院内制剂词典包括的部分院内制剂名称及其研制单位之间的对应关系。
[0211] 表20
[0212]院内制剂名称 研制单位
烧伤液 益阳市中心医院
炉芨烧伤油 常德市第一人民医院
癣酊 常德市第一人民医院
糊 张家界市人民医院
湿疹软膏 四川省医院皮研所制剂室
白色洗剂 四川省医院皮研所制剂室
四妙散 长沙市第八医院
消障灵丸 慈利县中医院
肠胃丸 嘉禾县中医院
妇科V号粉 省中医附二
[0213] 需要说明的是,在实施本发明时,可以根据实际情况采用包含其他类型词条的院内制剂词典,以达到切分出词条属性为“院内制剂”的词条的目的,本发明对院内制剂词典所包含的词条的类型或来源不作具体限定,即以上说明仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,采用包含其它类型或来源的词条的院内制剂词典均应包含在本发明的保护范围之内。
[0214] (12)药品联合信息词典
[0215] 药品联合信息词典包括若干个联合词条,每个联合词条包括多个子词条,且每个联合词条具有一个一一对应的联合编码。本发明中,药品联合信息词典是用于为药品信息字符串匹配联合词条并编码。
[0216] 药品联合信息词典中的子词条可以是:通用名称子词条、剂型子词条、规格子词条、包装规格子词条、包材名称子词条、生产厂家名称子词条、给药途径子词条、商品名称子词条或产品名称子词条;其中,每个子词条都有一一对应的词条属性。表21所示为各种子词条的来源及词条属性。
[0217] 表21
[0218]
[0219]
[0220] 药品联合信息词典中,联合编码由组成该联合词条的每个子词条的编码组合而成。每类子词条都有一定的编码规则,每个子词条都按照相应的编码规则进行编码,例如以下是部分子词条的编码规则及编码示例:
[0221] (1)通用名称子词条
[0222] 编码规则:6位编码,1位大写字母和5位阿拉伯数字。独立体系编码。
[0223] 编码示例:X12345
[0224] (2)剂型
[0225] 编码规则:5位顺序码。独立体系编码。
[0226] 编码示例:10041
[0227] (3)规格
[0228] 编码规则:5位顺序码。独立体系编码。
[0229] 编码示例:10001
[0230] (4)包装规格
[0231] 编码规则:2位顺序码,建立在“通用名+剂型+规格”基础上,顺序编码。非独立编码体系。
[0232] 编码示例:01
[0233] (5)包材
[0234] 编码规则:2位顺序码。独立体系编码。
[0235] 编码示例:01
[0236] (6)生产厂家
[0237] 编码规则:9位组合编码,前3位为生产厂家所在中国地区区号或非中国国家的英文简写,例如:美国USA,若英文简写不足3位,则用0补齐。独立编码体系。
[0238] 编码示例:USA123456
[0239] 需要说明的是,在实施本发明时,可以根据实际情况采用合适的编码规则对各类子词条进行编码,本发明对子词条的编码规则不作具体限定,即以上说明仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,采用任何形式的编码规则为子词条编码均应包含在本发明的保护范围之内。
[0240] 以下为一种示例性的药品联合信息词典,以下将该示例性的药品联合信息词典称为“完整版药品联合信息词典”:
[0241] 完整版药品联合信息词典中,每个联合词条包括的子词条分别为:通用名称子词条、剂型子词条、规格子词条、包装规格子词条、包材名称子词条、生产厂家名称子词条。
[0242] 如表22所示为完整版药品联合信息词典包括的部分联合词条。
[0243] 表22
[0244]
[0245]
[0246] 以下为另一种示例性的药品联合信息词典,以下将该示例性的药品联合信息词典称为“简易版药品联合信息词典”:
[0247] 简易版药品联合信息词典中,每个联合词条包括的子词条分别为:通用名称子词条、给药途径子词条。
[0248] 如表23所示为简易版药品联合信息词典包括的部分联合词条。
[0249] 表23
[0250]
[0251] 需要说明的是,在实施本发明时,可以根据实际情况采用包含其他类型子词条的药品联合信息词典,以达到为药品信息字符串匹配联合词条并编码的目的,本发明对药品联合信息词典所包含的子词条的类型或来源不作具体限定,即以上说明仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,采用包含其它类型或来源的词条的包材词典均应包含在本发明的保护范围之内。
[0252] 下面结合图1的应用场景,参考表1至表23以及图2来描述根据本发明一种示例性实施方式的药品信息的自动编码方法。需要注意的是,图1的应用场景仅是为了便于理解本发明的精神和原理而示出,本发明的实施方式在此方面不受任何限制。相反,本发明的实施方式可以应用于适用的任何场景。
[0253] 参见图2所示,为本发明示例性方法一的药品信息的自动编码方法,包括:
[0254] 步骤S11,输入药品信息字符串。
[0255] 步骤S12,对药品信息字符串进行预处理,得到预处理药品信息字符串。
[0256] 该步骤的目的是将药品信息字符串中的字符转换成统一的编码格式,以便后续处理。
[0257] 可选地,该步骤可以按照如下具体方式实施:对药品信息字符串中的非汉字进行格式归一化处理(例如,将药品信息字符串中的符号全部转换为半格式或全部转换为全角格式,将其中的英文字母全部转换为大写格式或小写格式);并根据一预先建立的无关字符词典删除药品信息字符串中的无关字符,例如删除□△○☆◢■▲●★等无关字符。
[0258] 步骤S13,基于规格词典和包装规格词典,从预处理药品信息字符串中切分出规格字符串和包装规格字符串。
[0259] 具体地,该步骤可以按照如下过程执行:
[0260] 步骤S131,判断所述预处理药品信息字符串中是否存在数字;如果存在数字,则执行步骤S132;如果不存在数字,则直接跳转到步骤S14。
[0261] 步骤S132,将数字之后紧邻的字符串与规格词典和包装规格词典中的词条进行匹配,如果匹配成功的词条是来自于规格词典,则将该数字及其之后紧邻的能够与规格词典中的词条相匹配的字符串切分出来作为规格字符串;如果匹配成功的词条是来自于包装规格词典,则将该数字及其之后紧邻的能够与包装规格词典中的词条相匹配的字符串切分出来作为包装规格字符串。
[0262] 例如,预处理药品信息字符串为“膦甲酸钠乳膏|扶适灵0.15g”,首先判断出存在数字字符“0.15”,然后将字符“g”与规格词典和包装规格词典进行匹配,确定其与规格同义词表中的装量规格单位同义词“g”相匹配,因此将“0.15g”从该预处理药品信息字符串中切分出来作为规格字符串。
[0263] 步骤S14,基于词典集,将所述预处理药品信息字符串的剩余字符切分成若干子字符串,所述子字符串为第一类型子字符串或第二类型子字符串。
[0264] 其中,词典集包括若干表示药品的通用名称、商品名称、产品名称、给药途径、剂型、生产厂家、包材以及通用名大名称、医院自制药品名称的词条。词典集中的词条来自于通用名称词典、商品名称词典、产品名称词典、给药途径词典、剂型词典、生产厂家词典、包材词典、通用名大名称词典、院内制剂词典,或者说,词典集由通用名称词典、商品名称词典、产品名称词典、给药途径词典、剂型词典、生产厂家词典、包材词典、通用名大名称词典、院内制剂词典组成。
[0265] 对所述预处理药品信息字符串的剩余字符切分出的子字符串具有独立语义,即所表示的信息不受其之前或之后的字符影响。第一类型子字符串能够与词典集中的词条直接匹配,第二类型子字符串不能够与词典集中的词条直接匹配。
[0266] 由于第一类型子字符串能够与词典集中的词条直接匹配,因此第一类型子字符串可能是以下各项中的任意一项:标准通用名称、通用名称同义词、标准商品名称、商品名称同义词、标准产品名称、产品名称同义词、标准给药途径、给药途径同义词、标准剂型术语、剂型同义词、标准生产厂家名称、生产厂家名称同义词、标准包材名称、包材名称同义词、通用名大名称术语、院内制剂名称。
[0267] 该步骤的目的是将药品信息切分成具有独立语义的子字符串,以有效避免将具有关联关系的多个字符分别进行识别从而导致识别错误的问题。
[0268] 下文将以实施例一详细介绍步骤S14的一种具体实施方式。
[0269] 步骤S15,判断步骤S14切分出的子字符串是否全部为第一类型子字符串,如果全部是第一类型子字符串,则确定所述子字符串相匹配的词条的词条属性,并执行步骤S16,如果存在第二类型子字符串,则结束处理。
[0270] 该步骤遵循的原则是:只有当切分出的子字符串与词典集中的词条直接匹配时才能继续执行后续编码的步骤,否则不予编码。
[0271] 具体地,若在本步骤切分出第二类型子字符串,则无需进行后续的联合词条匹配,只有当切分出的全部是能够与词条直接匹配的第一类型子字符串时,才进入后续的联合词条匹配。
[0272] 本发明中,词条的词条属性是与词条所属的词典类型一一对应,各个词典具有预先设定的词条属性。
[0273] 如表24表示词条属性及词典类型之间的对应关系。
[0274] 表24
[0275]词条属性 词典类型
通用名称 通用名称词典
商品名称 商品名称词典
[0276]产品名称 产品名称词典
给药途径 给药途径词典
剂型 剂型词典
生产厂家 生产厂家词典
包材 包材词典
规格 规格词典
包装规格 包装规格词典
通用名大名称 通用名大名称词典
院内制剂 院内制剂词典
[0277] 本示例性方法的后续步骤是要为药品信息字符串表示的药品信息进行编码,然而有些药品信息字符串所表示的药品信息却无码可编,例如:如果子字符串相匹配的各个词条中存在对应于词条属性为通用名大名称的词条,则该药品信息字符串表示了多个药品的信息(对应于组成通用名大名称的多个标准通用名称);再例如:如果子字符串相匹配的各个词条中存在对应于词条属性为院内制剂的词条,则该药品信息字符串表示的是医院自制药品的信息,而这种医院研制药品是不在CFDA公布的药品之列,没有医疗领域的通用码可编。
[0278] 对于以上这类情况,本示例性方法采用步骤S16处理:
[0279] 步骤S16,判断所述子字符串相匹配的各个词条中是否有对应于屏蔽型词条属性的词条;如果有,则结束处理,以停止对其编码的后续步骤;如果没有,则继续步骤S17。
[0280] 本步骤中,屏蔽型词条属性是通用名大名称(表明药品信息字符串所表示的是多个药品的信息)或院内制剂(表明药品信息字符串所表示的药品是医院自制药品)。
[0281] 步骤S17,判断所述子字符串相匹配的各个词条中是否有对应于目标词条属性的词条;如果有,则执行步骤S18;如果没有,则结束处理。
[0282] 本步骤中,目标词条属性为药品联合信息词典中各个子词条的词条属性。
[0283] 例如,若为完整版药品联合信息词典,则目标词条属性分别是:通用名称、剂型、规格、包装规格、包材名称、生产厂家名称;若为简易版药品联合信息词典,则目标词条属性分别是:通用名称、给药途径。
[0284] 该步骤在匹配联合词条的过程中,可以选用不同数量、不同类型的目标词条属性,并根据目标词条属性的不同数量、不同类型,为药品信息字符串匹配联合词条。例如,当所选择的目标词条属性的数量较多时,匹配出的联合词条所包含的子词条也较多,相应的,最终药品信息字符串的编码的位数也较多,更有利于后续对药品编码的管理和利用。
[0285] 步骤S18,将这些对应于目标词条属性的词条合并,作为词条合并组,并将该词条合并组与药品联合信息词典中的联合词条进行匹配,若存在直接匹配的联合词条,则将该直接匹配的联合词条的联合编码赋给该药品信息字符串并输出;若不存在直接匹配的联合词条,则结束处理,或者继续执行步骤S19~步骤S112的模糊匹配过程。
[0286] 该步骤的目的是对于词条合并组可直接匹配出联合词条的药品信息字符串,就将匹配出的联合词条的编码赋给该药品信息字符串。
[0287] 该步骤遵循的原则是:只有当分类识别的结果能够与药品联合信息词典中的联合词条完全匹配时才予以编码,否则不予编码。
[0288] 下文将以实施例二详细介绍步骤S17~步骤S18的一种具体实施方式。
[0289] 步骤S19,将这些对应于预设的词条属性的各个词条分别确定为参考词条;对各个参考词条进行预设维度的解析,得到各个参考词条的各个维度的解析结果;同时,对药品联合信息词典中的各个子词条分别进行预设维度的解析,得到各个子词条的各个维度的解析结果。
[0290] 该步骤将参考词条和子词条分别作为解析对象,可选地,对解析对象进行预设维度的解析可以包括但不限于:
[0291] (1)确定解析对象中的每个汉字;
[0292] (2)确定解析对象中每个汉字的声母;
[0293] (3)确定解析对象中每个汉字的韵母;
[0294] (4)确定解析对象的首字符;
[0295] (5)确定解析对象的首字符的拼音;以及,
[0296] (6)确定解析对象中的非汉字字符,如果其中不包含非汉字字符,则该项解析结果为空。
[0297] 当解析对象为参考词条时,其各个维度的解析结果可以包括但不限于:参考词条中的每个汉字、参考词条中每个汉字的声母、参考词条中每个汉字的韵母、参考词条的首字符、参考词条的首字符的拼音、参考词条中的非汉字字符。
[0298] 当解析对象为子词条时,解析结果可以包括但不限于:子词条中的每个汉字、子词条中每个汉字的声母、子词条中每个汉字的韵母、子词条的首字符、子词条的首字符的拼音、子词条的非汉字字符。
[0299] 例如,表25为子词条“法莫替丁”的各维度解析结果。
[0300] 表25
[0301]
[0302] 步骤S110,针对每个参考词条,通过将该参考词条的各个维度的解析结果与对应相同词条属性的各个子词条的各个维度的解析结果进行匹配,查找该参考词条相匹配的一个或多个子词条,并将查找到的子词条确定为该参考词条的目标子词条。
[0303] 下文将以实施例三详细介绍步骤S110的一种具体实施方式。
[0304] 步骤S111,查找药品联合信息词典中由各个参考词条的目标子词条组成的联合词条,将查找到的联合词条确定为该药品信息字符串模糊匹配的联合词条。
[0305] 下文将以实施例四、实施例五详细介绍步骤S111的两种具体实施方式。
[0306] 步骤S112,将该药品信息字符串模糊匹配的联合词条发送至人工处理平台进行人工处理。
[0307] 步骤S19~步骤S112是为药品信息字符串查找模糊匹配的联合词条,其目的是对于词条合并组不能直接匹配出联合词条的药品信息字符串,对其各个参考词条和药品联合信息词典中的各个子词条进行预设维度的解析,然后将参考词条各个维度的解析结果与每个子词条各个维度的解析结果进行匹配,以此查找每个参考词条相匹配的子词条,后续再根据每个参考词条相匹配的子词条,查找药品信息字符串模糊匹配的联合词条,最后,将模糊匹配的联合词条发送至人工处理平台,由人工继续处理(例如人工编码),具体处理过程,本发明对其不作限定。例如,可以由人工从模糊匹配的多个联合词条中选出一个作为最终匹配的联合词条,并将其编码赋给药品信息字符串。
[0308] 需要说明的是,本示例性方法中可以选择性地保留或删除步骤S19~步骤S112的模糊匹配过程,也就是说本发明严格遵循的原则是只有当分类识别的结果能够与药品联合信息词典中的联合词条直接匹配时才予以自动编码,而对于不能够与药品联合信息词典中的联合词条直接匹配的药品信息字符串,本发明可以选择性地为其查找模糊匹配的联合词条并发送至人工处理平台进行人工处理(例如人工编码)。
[0309] 本发明示例性方法充分考虑了医疗从业人员输入的药品信息字符串属于自然语言、格式复杂多样、没有统一的标准等特点,利用预先依据医疗领域的通用标准所建立的多种词典对药品信息字符串进行切分和匹配,以此将药品信息分类识别出来,并根据识别结果为药品信息编码。本发明严格遵循以下原则,即只有当从药品信息字符串中切分出的子字符串与词典集中的词条直接匹配时才能作为分类识别的结果,并且,只有当分类识别的结果能够与药品联合信息词典中的联合词条直接匹配时才予以自动编码,否则不予自动编码,基于以上原则,本发明实现了对属于自然语言的药品信息字符串的准确识别及精准编码,识别结果及编码结果具有较高的准确率,为有效利用药品信息提供了便利。
[0310] 实施例一
[0311] 参见图3所示,为本发明示例性方法中步骤S14的一实施方式示例。
[0312] 如图3所示,基于词典集,将预处理药品信息字符串的剩余字符切分成若干子字符串(第一类型子字符串或第二类型子字符串)的过程可以包括:
[0313] 步骤S20,判断所述预处理药品信息字符串的剩余字符中是否包含符号;如果包含符号,则执行步骤S21;如果未包含符号,则执行步骤S22。
[0314] 步骤S21,将所述预处理药品信息字符串的剩余字符中每相邻两个符号之间的字符作为整体与词典集中的词条进行匹配;若匹配成功,则执行步骤S211;若匹配失败,则执行步骤S212。
[0315] 步骤S211,将该相邻两个符号之间的字符切分出来作为第一类型子字符串。
[0316] 步骤S212,将该相邻两个符号及其之间的字符确定为暂不切分字符串,然后执行步骤S23。
[0317] 步骤S21、步骤S211、步骤S212依据的处理规则是:将相邻符号之间的全部字符作为整体与词典集中的词条进行匹配,只有匹配时才切分,否则暂时不予切分。
[0318] 例如表26所示对“(立普妥)阿托伐他汀片(片剂)”的切分,其中,“立普妥”、“阿托伐他汀钙片”、“片剂”均为符号之间的全部字符,并且可以查找到相匹配的词条,因此,分别被切分出来。
[0319] 表26
[0320]
[0321]
[0322] 步骤S22,采用机械分词法将所述预处理药品信息字符串的剩余字符与词典集中的词条进行匹配;若预处理药品信息字符串中剩余的所有字符均能够与词条匹配,则执行步骤S221;若所述预处理药品信息字符串的剩余字符中存在未能与词条匹配的单个字符或多个连续的字符,则执行步骤S222。
[0323] 步骤S221,依据所匹配的词条将所述预处理药品信息字符串的剩余字符切分出来作为第一类型子字符串。
[0324] 步骤S222,将所述预处理药品信息字符串的剩余字符整体切分出来作为第二类型子字符串。
[0325] 步骤S22、步骤S221、步骤S222依据的处理规则是:采用机械分词法将所述预处理药品信息字符串的剩余字符与词条进行匹配,只有全部字符都能查找到相匹配的词条时才切分,否则暂时不予切分。
[0326] 例如对“诺和龙瑞格列奈片”进行切分,其中“诺和龙”、“瑞格列奈片”均能查找到相匹配的词条,即全部字符都能查找到相匹配的词条,因此对其予以切分,切分结果为“诺和龙”和“瑞格列奈片”。
[0327] 步骤S22采用的机械分词法可以是正向最大匹配型,逆向最大匹配型,或最少切分型。具体的切分过程,本实施例不再赘述。
[0328] 步骤S23,判断暂不切分字符串中是否包含预设的特殊符号;如果暂不切分字符串中包含特殊符号,则执行步骤S231;如果暂不切分字符串中不包含特殊符号,则执行步骤S233。
[0329] 步骤S231,查找暂不切分字符串所属的字符模型,并根据该所属的字符模型对应的切分规则对暂不切分字符串进行切分;其中,字符模型由一预先建立的字符模型库提供,且字符模型具有一一对应的切分规则。
[0330] 步骤232,将切分出来的字符与词典集中的词条进行匹配,若匹配成功,则将该切分出来的字符确定为第一类型子字符串,若匹配失败,则将该切分出来的字符确定为第二类型子字符串;
[0331] 步骤S233,将暂不切分字符串直接确定为第二类型子字符串。
[0332] 步骤S23、步骤S231、步骤232、步骤S233依据的处理规则是:当暂不切分字符串中包含预设的特殊符号时,根据暂不切分字符串所属的字符模型进行切分,否则直接切分出来;而且将基于字符模型切分出的字符再次与词典集中的词条进行匹配,将其中能够与词条直接匹配的作为第一类型子字符串,不能够直接匹配的作为第二类型子字符串。
[0333] 例如预设的特殊符号可以包括但不限于竖线、括号、逗号、顿号、句号、冒号、加号、分号、斜杠线等等。
[0334] 例如以下为字符模型库中的部分字符模型及其切分规则:
[0335] (1)字符模型:BCDE型,且C、E为括号,B、D为文字;
[0336] 切分规则:将B、D切分出来;
[0337] (2)字符模型:FGH型,且F、H均为汉字,G为竖线;
[0338] 切分规则:将F、H作为切分出来;
[0339] (3)字符模型:IJK型,且I、K均为汉字,J为分号、句号、问号、叹号、顿号,切分规则:将I和K分别切分出来;
[0340] (4)字符模型:STU型,T为斜杠线,且S、U均无法与词典匹配成功;
[0341] 切分规则:将STU作为整体切分出来。
[0342] 以下为几个根据字符模型进行切分的示例:
[0343] 原始字符串“巨和粒(山东齐鲁)”,符合字符模型BCDE型,因此切分为“巨和粒”、“山东齐鲁”。
[0344] 原始字符串“奥美拉唑镁肠溶片∣洛赛克MUPS”,符合字符模型FGH型,因此切分为“奥美拉唑镁肠溶片”,“洛赛克MUPS”。
[0345] 原始字符串“美沙拉桑缓释颗粒剂、迪莎”,符合字符模型IJK型,因此切分为“美沙拉桑缓释颗粒剂”,“艾迪莎”。
[0346] 原始字符串“B型嗜血菌/乙型肝炎疫苗”,符合字符模型STU型,因此切分为“B型嗜血菌/乙型肝炎疫苗”。
[0347] 实施例二
[0348] 参见图4所示,为本发明示例性方法中步骤S17~步骤S18的一种具体实施方式。
[0349] 如图4所示,将词条合并组与药品联合信息词典中的联合词条进行匹配的过程可以包括:
[0350] 步骤S31,将完整版药品联合信息词典中各个子词条的词条属性确定为当前的目标词条属性,判断子字符串相匹配的各个词条中是否有对应于当前的目标词条属性的词条;如果有,则执行步骤S32,如果没有,则执行步骤S33。
[0351] 具体地,参考示例性方法中的完整版药品联合信息词典,其目标词条属性分别是:通用名称、剂型、规格、包装规格、包材名称、生产厂家名称。
[0352] 该步骤即判断子字符串相匹配的各个词条中是否有分别对应于通用名称、剂型、规格、包装规格、包材名称、生产厂家名称的词条。
[0353] 步骤S32,将子字符串相匹配的各个词条中对应于当前的目标词条属性(通用名称、剂型、规格、包装规格、包材名称、生产厂家名称)的多个词条合并,作为词条合并组,并将该词条合并组与完整版药品联合信息词典中的联合词条进行匹配,若存在直接匹配的联合词条,则将该直接匹配的联合词条的联合编码赋给该药品信息字符串并输出;若不存在直接匹配的联合词条,则执行示例性方法中步骤S19~步骤S112的模糊匹配流程。
[0354] 步骤S33,将简易版药品联合信息词典中各个子词条的词条属性确定为当前的目标词条属性,判断子字符串相匹配的各个词条中是否有对应于当前的目标词条属性的词条;如果有,则执行步骤S34,如果没有,则结束处理。
[0355] 具体地,参考示例性方法中的简易版药品联合信息词典,其目标词条属性分别是:通用名称、给药途径。
[0356] 该步骤即判断子字符串相匹配的各个词条中是否有分别对应于通用名称、给药途径的词条。
[0357] 步骤S34,将子字符串相匹配的各个词条中对应于当前的目标词条属性(通用名称、给药途径)的多个词条合并,作为词条合并组,并将该词条合并组与简易版药品联合信息词典中的联合词条进行匹配,若存在直接匹配的联合词条,则将该直接匹配的联合词条的联合编码赋给该药品信息字符串并输出;若不存在直接匹配的联合词条,则执行示例性方法中步骤S19~步骤S112的模糊匹配流程。
[0358] 本实施例在匹配联合词条的过程中,优先采用完整版药品联合信息词典中子词条的词条属性作为目标词条属性,如果子字符串对应的词条不满足完整版药品联合信息词典这类目标词条属性,再采用简易版药品联合信息词典中子词条的词条属性作为目标词条属性,其目的是优先匹配具有更多子词条的联合词条,为药品赋予包含更多位数的编码,以利于后续对药品编码的管理和利用。
[0359] 实施例三
[0360] 参见图5所示,为本发明示例性方法中步骤S110的一种具体实施方式。
[0361] 如图5所示,查找参考词条的目标子词条的过程可以包括:
[0362] 步骤S41,针对每个参考词条,按照如下公式计算参考词条与对应相同词条属性的子词条的相似度:
[0363]
[0364] 其中,M表示相似度;
[0365] t表示参考词条的各个维度的解析结果;
[0366] q表示参考词条;
[0367] t in q表示参考词条的各个维度;
[0368] d表示与参考词条对应相同词条属性的子词条;
[0369] tf(t in d)表示在相同的维度上,参考词条的解析结果与对应相同词条属性的子词条的解析结果相匹配的频次;
[0370] 其中,T表示药品联合信息词典中与参考词条对应相同词条属性的子词条的总数;T(t)表示药品联合信息词典中与参考词条对应相同词条属性的全部子词条中,各个维度的解析结果均与参考词条的各个维度的解析结果相匹配的子词条的总数;
[0371] t.getBoost()表示各个维度的预设权值;
[0372] norm(t,d)表示与参考词条对应相同词条属性的子词条的长度归一化因子;
[0373] 其中,解析对象的各个维度分别是:每个汉字、每个汉字的声母、每个汉字的韵母、首字符、首字符的拼音、非汉字字符。
[0374] 步骤S42,根据参考词条与对应相同词条属性的各个子词条的相似度,确定一个或多个子词条作为参考词条的目标子词条。
[0375] 可选地,该步骤可以有如下的具体实施方式:按照与参考词条的相似度的大小对对应相同词条属性的各个子词条排序,并将其中排序靠前的预设数量的(例如排序靠前的10个)子词条确定为该参考词条的目标子词条;或者,将与该参考词条的相似度达到预设阈值(例如相似度大于0.8)的一个或多个对应相同词条属性的子词条,确定为该参考词条的目标子词条。
[0376] 具体实施本发明时,为了明确参考词条与每个目标子词条的相似度并对其加以利用,还可以在最终输出的结果中一并输出各个参考词条与其各个目标子词条的相似度。
[0377] 具体实施本发明时,如果对参考词条与目标子词条的相似程度的计算有更高、更准确的要求,则还可以计算参考词条与其目标子词条的总置信度。其中,总置信度按照如下过程计算:
[0378] 步骤(1),确定参考词条中的每个汉字。
[0379] 步骤(2),按照如下公式计算参考词条与其目标子词条的余弦置信度:
[0380]
[0381] 其中,N表示余弦置信度;
[0382] V表示参考词条及其目标子词条所包含的汉字总数;
[0383] Q表示参考词条;
[0384] d'表示参考词条的目标子词条;
[0385] wQ,j表示每个汉字在参考词条中出现的频次;
[0386] wd',j表示每个汉字在参考词条的目标子词条中出现的频次;
[0387] j表示参考词条及其目标子词条所包含的汉字的序号。
[0388] 步骤(3),按照如下公式计算参考词条与其目标子词条的总置信度:
[0389] S=M×a+N×b
[0390] 其中,S表示总置信度;
[0391] a表示相似度M对应的预设权值;
[0392] b表示余弦置信度N对应的预设权值,其中b=1-a。
[0393] 例如,假设参考词条“尼莫地平注射液”的一个目标子词条为“尼莫地平”,其中每个汉字的出现频次如表27所示。
[0394] 表27
[0395]
[0396] 则根据余弦置信度计算公式计算出参考词条“尼莫地平注射液”与目标子词条“尼莫地平”的余弦置信度为:
[0397]
[0398] 根据公式 计算出相似度M=0.92。
[0399] 根据总置信度计算公式S=M×a+N×b计算出“尼莫地平注射液”与“注射用尼莫地平”的总置信度为S=M×a+N×b=0.92×40%+0.75×60%=0.82。
[0400] 实施例四
[0401] 参见图6所示,为本发明示例性方法中步骤S111的一种具体实施方式。
[0402] 如图6所示,根据目标子词条查找药品信息字符串模糊匹配的联合词条的过程可以包括:
[0403] 步骤S51,查找药品联合信息词典中同时包括各个参考词条的目标子词条的联合词条,将查找到的联合词条确定为待选联合词条。
[0404] 例如,假设词条属性为通用名称的参考词条,其目标子词条为“肠内营养剂(TP-HE)”;词条属性为剂型的参考词条,其目标子词条为“乳剂”;词条属性为规格的参考词条,其目标子词条为“500ml”;词条属性为包装规格的参考词条,其目标子词条为“1袋”和“1瓶”;词条属性为包材名称的参考词条,其目标子词条为“非PVC膜”和“玻璃瓶”;词条属性为生产厂家名称的参考词条,其目标子词条为“Fresenius Kabi Deutschland GmbH”,则在表28所示的药品联合信息词典中可确定出待选联合词条为其中阴影显示的联合词条。
[0405] 表28
[0406]
[0407]
[0408] 步骤S52,根据实施例五中步骤S52的计算结果,确定待选联合词条中各个目标子词条与相应参考词条的相似度。
[0409] 例如,假设如表28各个目标子词条与相应参考词条的相似度为括号〖〗内所示的数值,具体为:
[0410] 目标子词条“肠内营养剂(TP-HE)”与词条属性为通用名称的参考词条的相似度为0.6;
[0411] 目标子词条“乳剂”与词条属性为剂型的参考词条的相似度为0.7;
[0412] 目标子词条“500ml”与词条属性为规格的参考词条的相似度为0.7;
[0413] 目标子词条“1袋”与词条属性为包装规格的参考词条的相似度为0.5;
[0414] 目标子词条“1瓶”与词条属性为包装规格的参考词条的相似度为0.9;
[0415] 目标子词条“非PVC膜”与词条属性为包材名称的参考词条的相似度为0.8;
[0416] 目标子词条“玻璃瓶”与词条属性为包材名称的参考词条的相似度为0.5;
[0417] 目标子词条“Fresenius Kabi Deutschland GmbH”与词条属性为生产厂家名称的参考词条的相似度为0.6。
[0418] 步骤S53,计算待选联合词条中各个目标子词条与相应参考词条的相似度的加权平均值,其中,各个目标子词条与相应参考词条的相似度的权重等于该目标子词条和该相应参考词条所对应的词条属性的预设权重。
[0419] 具体地,预先为通用名称、剂型、规格、包装规格、包材名称、生产厂家名称等词条属性设定权重,在计算加权平均值时,目标子词条与其相应参考词条的相似度的权重等于该目标子词条所对应的词条属性的权重。
[0420] 例如,假设为通用名称、剂型、规格、包装规格、包材名称、生产厂家名称等词条属性预先设定的权重分别为:50%、10%、10%、10%、10%、10%,按照表28中各个目标子词条与相应参考词条的相似度计算加权平均值,其结果如表28最右一列所示,从上往下分别为0.105、0.107。
[0421] 步骤S54,根据各个待选联合词条的加权平均值的大小,从全部的待选联合词条中选出一个或多个作为词条合并组相匹配的联合词条。
[0422] 可选地,该步骤可以有如下的具体实施方式:按照各个待选联合词条的加权平均值的大小对各个待选联合词条排序,将其中排序靠前的预设数量的(例如排序靠前的2个)待选联合词条选出作为词条合并组相匹配的联合词条;或者,将全部的待选联合词条中加权平均值大于预设阈值(例如大于0.1)的一个或多个待选联合词条选出,作为词条合并组相匹配的联合词条。
[0423] 例如,可以将表28中的各个待选联合词条中加权平均值大于0.106的待选联合词条选出作为词条合并组相匹配的联合词条,即从上往下第二行对应的联合词条。
[0424] 实施例五
[0425] 参见图7所示,为本发明示例性方法中步骤S111的另一种具体实施方式。
[0426] 如图7所示,根据目标子词条查找药品信息字符串模糊匹配的联合词条的过程可以包括:
[0427] 步骤S61,查找药品联合信息词典中同时包括各个参考词条的目标子词条的联合词条,将查找到的联合词条确定为待选联合词条。
[0428] 该步骤的具体实施方式可参考步骤S51,在此不再赘述。
[0429] 步骤S62,确定待选联合词条中各个目标子词条与相应参考词条的总置信度。
[0430] 该步骤的具体实施方式可参考步骤S52,在此不再赘述。其中,总置信度按照如下过程计算:
[0431] 步骤(1),确定参考词条中的每个汉字。
[0432] 步骤(2),按照如下公式计算参考词条与其目标子词条的余弦置信度:
[0433]
[0434] 其中,N表示余弦置信度;
[0435] V表示参考词条及其目标子词条所包含的汉字总数;
[0436] Q表示参考词条;
[0437] d'表示参考词条的目标子词条;
[0438] wQ,j表示每个汉字在参考词条中出现的频次;
[0439] wd',j表示每个汉字在参考词条的目标子词条中出现的频次;
[0440] j表示参考词条及其目标子词条所包含的汉字的序号。
[0441] 步骤(3),按照如下公式计算参考词条与其目标子词条的总置信度:
[0442] S=M×a+N×b
[0443] 其中,S表示总置信度;
[0444] a表示相似度M对应的预设权值;
[0445] b表示余弦置信度N对应的预设权值,其中b=1-a。
[0446] 步骤S63,计算待选联合词条中各个目标子词条与相应参考词条的总置信度的加权平均值,其中,各个目标子词条与相应参考词条的总置信度的权重等于该目标子词条和该相应参考词条所对应的目标词条属性的预设权重。
[0447] 具体地,预先为通用名称、剂型、规格、包装规格、包材名称、生产厂家名称、给药途径、商品名称、产品名称等目标词条属性设定权重,在计算加权平均值时,目标子词条与其相应参考词条的总置信度的权重等于该目标子词条所对应的目标词条属性的权重。
[0448] 该步骤的具体实施方式可参考步骤S63,在此不再赘述。
[0449] 步骤S64,根据各个待选联合词条的加权平均值的大小,从全部的待选联合词条中选出一个或多个作为词条合并组相匹配的联合词条。
[0450] 可选地,该步骤可以有如下的具体实施方式:按照各个待选联合词条的加权平均值的大小对各个待选联合词条排序,将其中排序靠前的预设数量的(例如排序靠前的2个)待选联合词条选出作为词条合并组相匹配的联合词条;或者,将全部的待选联合词条中加权平均值大于预设阈值(例如大于0.1)的一个或多个待选联合词条选出,作为词条合并组相匹配的联合词条。
[0451] 示例性系统
[0452] 以下结合图1的应用场景,参考图8,介绍本发明的一种示例性系统,该示例性系统与示例性方法相对应。
[0453] 图8所示为本发明一种示例性的药品信息的自然语言处理系统的框图,如图8所示,该药品信息的自然语言处理系统包括:
[0454] 词典数据库71,提供预设的规格词典、包装规格词典、词典集和药品联合信息词典。其中,规格词典、包装规格词典、词典集和药品联合信息词典的具体信息请参考示例性方法,此处不再赘述。
[0455] 输入模块72,用于输入药品信息字符串。
[0456] 预处理模块73,用于对所述药品信息字符串进行预处理,得到预处理药品信息字符串。
[0457] 第一切分模块74,用于基于所述规格词典和包装规格词典,从所述预处理药品信息字符串中切分出规格字符串和包装规格字符串;其中,所述规格词典包括若干表示药品的规格单位的词条;所述包装规格词典包括若干表示药品的包装规格单位的词条;所述规格字符串表示药品的规格信息;所述包装规格字符串表示药品的包装规格信息。
[0458] 第二切分模块75,用于基于所述词典集,将所述预处理药品信息字符串的剩余字符切分成若干子字符串,所述子字符串为第一类型子字符串和/或第二类型子字符串;其中,所述词典集由多个词典组成,所述多个词典包括若干表示药品的通用名称、商品名称、产品名称、给药途径、剂型、生产厂家、包材的词条,以及若干表示合并的两个或多个通用名称、医院自制药品名称的词条;所述第一类型子字符串能够与所述词典集中的词条直接匹配,所述第二类型子字符串不能够与所述词典集中的词条直接匹配。
[0459] 第一判断处理模块76,用于判断从所述预处理药品信息字符串的剩余字符切分出的子字符串是否全部为第一类型子字符串;如果切分出的子字符串中有第二类型子字符串,则结束处理;如果切分出的子字符串全部为第一类型子字符串,则确定所述子字符串相匹配的各个词条的词条属性,并触发第二判断处理模块77;其中,所述词条属性与所述词条所属的词典一一对应,所述词典具有预先设定的词条属性。其中,词条的词条属性划分可参考示例性方法,此处不再赘述。
[0460] 第二判断处理模块77,用于判断所述子字符串相匹配的各个词条中是否有对应于屏蔽型词条属性的词条;如果有对应于屏蔽型词条属性的词条,则结束处理;如果没有对应于屏蔽型词条属性的词条,则触发第三判断处理模块78;其中,对应于所述屏蔽型词条属性的词条表明所述药品信息字符串所表示的是多个药品的信息,或表明所述药品信息字符串所表示的药品是医院自制药品。
[0461] 第三判断处理模块78,用于判断所述子字符串相匹配的各个词条中是否有对应于目标词条属性的词条;如果没有对应于目标词条属性的词条,则结束处理;如果有对应于目标词条属性的词条,则将所述对应于目标词条属性的词条合并成为词条合并组,并将该词条合并组与所述药品联合信息词典中的联合词条进行匹配;若存在直接匹配的联合词条,则将该直接匹配的联合词条的联合编码赋给所述药品信息字符串;其中,所述目标词条属性为药品联合信息词典中各个子词条的词条属性;所述药品联合信息词典包括若干联合词条,每个所述联合词条具有一一对应的联合编码,且每个所述联合词条由多个所述子词条组成,所述子词条为所述词典中表示药品的通用名称、商品名称、产品名称、给药途径、剂型、生产厂家或包材的词条。
[0462] 输出模块79,输出所述药品信息字符串的联合编码。
[0463] 可选地,如图9所示,该示例性系统还可以包括:解析模块81、匹配模块82、查找模块83、发送模块84。
[0464] 第三判断处理模块78,还用于将该词条合并组与所述药品联合信息词典中的联合词条进行匹配时,若不存在直接匹配的联合词条,则触发所述解析模块81。
[0465] 所述解析模块81,用于将所述对应于预设的词条属性的各个词条分别确定为参考词条,并对各个参考词条以及所述药品联合信息词典中的各个子词条进行预设维度的解析,分别得到各个参考词条的各个维度的解析结果以及各个子词条的各个维度的解析结果。
[0466] 所述匹配模块82,用于针对每个所述参考词条,将该参考词条的各个维度的解析结果与对应相同词条属性的各个子词条的各个维度的解析结果进行匹配,查找该参考词条相匹配的一个或多个子词条,并将查找到的子词条确定为该参考词条的目标子词条。
[0467] 所述查找模块83,用于查找所述药品联合信息词典中由各个参考词条的目标子词条组成的联合词条,将查找到的联合词条确定为所述药品信息字符串模糊匹配的联合词条。
[0468] 所述发送模块84,用于将所述药品信息字符串模糊匹配的联合词条发送至人工处理平台进行人工处理。
[0469] 以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
[0470] 本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrative logical block),单元,和步骤可以通过电子硬件、电脑软件,或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability),上述的各种说明性部件(illustrative components),单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用,可以使用各种方法实现所述的功能,但这种实现不应被理解为超出本发明实施例保护的范围。
[0471] 本发明实施例中所描述的各种说明性的逻辑块,或单元,或装置都可以通过通用处理器,数字信号处理器,专用集成电路(ASIC),现场可编程阵列或其它可编程逻辑装置,离散门或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器微控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微处理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似的配置来实现。
[0472] 本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地,存储媒介可以与处理器连接,以使得处理器可以从存储媒介中读取信息,并可以向存储媒介存写信息。可选地,存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中,ASIC可以设置于用户终端中。可选地,处理器和存储媒介也可以设置于用户终端中的不同的部件中。
[0473] 在一个或多个示例性的设计中,本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现,这些功能可以存储与电脑可读的媒介上,或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如,这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置,或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外,任何连接都可以被适当地定义为电脑可读媒介,例如,如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘,磁盘通常以磁性复制数据,而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈