一种基于众包的分词标注质量评估系统及评估方法专利检索-术语学家企业组织专利检索查询-专利查询网

一种基于众包的分词标注质量评估系统及评估方法

阅读：457发布：2020-05-18

专利汇可以提供一种基于众包的分词标注质量评估系统及评估方法专利检索，专利查询，专利分析的服务。并且本发明涉及一种基于众包的分词标注质量评估系统及评估方法，涉及医学文本自然语言处理、知识众包算法，属于自然语言处理、众包和互联网应用领域。包括语料处理模块，用于对语料数据进行数据预处理，形成标准的语料文本；任务管理模块用于生成和管理众包任务；用户管理模块用于用户、角色和权限的管理和控制；资源标注模块用于给用户提供交互友好的可视化界面，供用户进行语料标注操作；质量控制模块是本发明装置的核心模块，包含黄金数据集权重计算、用户贡献度计算、综合任务评分等，是整个众包任务质量控制的关键。本发明设计的目的在于提供一种基于众包的分词标注质量评估装置，通过质量控制模块提供的算法提高分词标注众包的质量，提高自然语言处理效率和准确率。，下面是一种基于众包的分词标注质量评估系统及评估方法专利的具体信息内容。

权利要求

1.一种基于众包的分词标注质量评估系统，其特征是：
主要包括语料处理模块、任务管理模块、用户管理模块、资源标注模块和质量控制模块，通过针对自然语言处理的分词标注任务进行众包，将分词标注的工作分解，并形成具体的任务，以自由自愿的形式交给领域专家团队共同完成；根据质量控制模块算法计算标准答案后，最终将标准答案补充到本体知识库中；
所述语料处理模块，主要用于对不同来源的语料数据，进行一些初步的数据预处理，将数据转换成后续模块容易使用和处理的形式，提高了数据文本挖掘处理的准确性和完整性；
所述任务管理模块的功能主要包括任务的生成、分发、状态变更，保障了过程化和规范化；任务管理模块与语料处理模块连接，主要用于依据语料处理模块的生成的标准语料文本，将标准语料文本包装成需要大众参与的众包任务，任务类别具体包括测试任务、黄金数据集任务、普通任务；
所述用户管理模块，主要用于对使用用户进行身份验证和权限控制管理，包含用户的注册和登录、用户专家领域认证、用户任务领取；根据设置的安全规则和策略，用户只能参与被授权的任务，防止恶意用户和非专业用户的操作导致众包任务的质量出现问题，保障了本发明装置的安全性和准确性；
所述资源标注模块，主要用于为用户提供一种在线的语料分词标注操作界面，具有良好的交互性，用户可以进行主观的分词标注操作，将一段连续的字序列按照一定的规范重新组合成词序列；
所述质量控制模块为核心模块，包含黄金数据集权重计算、用户贡献度计算和任务综合评分；质量控制模块与任务管理模块、用户管理模块、资源标注模块连接；质量控制模块通过对众包任务结果和用户贡献度的实时、高效、准确的评估，实现对整个发明装置的质量控制和保障。
2.根据权利要求1所述的一种基于众包的分词标注质量评估系统，其特征是：
所述的质量控制模块包含黄金数据集计算，包括用户专业准确率评估，用户贡献度计算，用户权重计算，众包任务综合评估，对整个众包任务的质量进行整体把关和控制，保障本发明装置的完整性和准确性；具体步骤如下：
步骤1，测试任务准确率，当用户完成测试任务时，需要对用户的专业准确率进行计算，来判断该用户是否有资格参加众包任务，具体计算公式（1）为
其中 P 表示当前测试任务的准确率， Wcor为测试任务中用户正确分词的词数组,|Wcor|为词数组长度;Wtest为测试任务标准答案分词的词数组，|Wtest|为词数组长度；
步骤2，任务初始化，
初始化用户分词任务答题贡献度，用户分词任务答题记录向量。用户的初始贡献度(Pf)为0，答题记录向量Ms=[Rh, Lh, Rp, Lp]默认[0,0,0,0]。其中，Rh为累计完成黄金数据集任务正确答案长度，Lh为累计完成黄金数据集任务题目长度，Rp为累计普通任务回答长度，Lp为累计完成普通任务题目长度；
步骤3，黄金数据集评价，当用户完成一道黄金数据集任务时，需要更新当前贡献度和答题记录向量；定义黄金数据集任务默认长度为Lgold=100，Wcor为用户正确分词的词数组，|Wcor|为该数组的长度，Wgold为黄金数据集标准分词的词数组，|Wgold|为该数组的长度，PS为当前用户户完成该任务的正确率；
公式（2）、（3）、（4）计算完毕后，更新当前用户答题记录向量MS以及当前贡献度Pf的公式（5）、（6）如下：
根据用户对黄金数据集任务的解答情况，迭代更新用户的贡献度Pf；
步骤4，标准任务评价，设有N(N≥3)个用户共同参与分词任务, 获取N个用户的分词结果，从左至右，从每个用户给出的第一个词开始循环，比较第一个词是否相等，根据答案情况将用户分为X组，如果每组有N’个用户答案相同，则按第i组(i∈[0,X])中每个用户对该组的贡献度计算该词的评分，计算公式（7）如下：
其中，表示第i组的评分，表示当前组第j个人的贡献度；
当前词的答案判别公式（8）为：
其中，为第m个词正确的组号，函数Index（）为返回用户贡献度最大的
组号；
确认完当前分词后，计算下一个分词的偏移量，找到起始偏移位置相同的词后，继续重复上述步骤，直至起始偏移位置为空；
步骤5，更新权重及答题记录向量，在得到当前任务的正确答案之后，根据正确答案更新每个参与该任务的用户的当前权重及答题记录向量；
定义普通任务权重参数 Lnor=100， Wcor 为投票后用户正确分词的词数组， |Wcor|为该数据的长度， Wnor 为投票后分词的词数组， |Wnor|为该数组的长度，为当前任务的字数组，为该数组的长度，Ps为当前用户完成该任务的正确率；
公式（9）、（10）、（11）计算完毕后，根据黄金数据集评价更新公式(5)更新用户答题记录向量的值以及公式(6)更新用户的当前贡献度。
3.根据权利要求1所述的一种基于众包的分词标注质量评估系统，其特征是：
所述的语料处理模块负责对输入的语料数据进行数据预处理，主要包含数据收集、编码处理、数据清理、中文分词四个步骤：
步骤1．数据收集：对语料数据进行采集，作为整个装置的数据源；文本数据的主要包括两种：一种是医院现存的医学语料文本，包括电子病历、手术步骤、检查报告结果、日常病程等记录信息；另一种是互联网公开的医学资源，包括公共字典、医学术语、临床指南等医学文献；
步骤2，处理中文编码问题：将收集的文本数据编码格式进行转换，并将文本中的全角字符转换为半角字符，最终形成编码及字符格式统一的语料文本；
步骤3，数据清理：去除语料数据中的脏数据，并对语料进行一些数据处理，去除语料中的非法字符，然后对语料进行拆分和文本分类，最终形成标准的语料数据；
步骤4，对数据清理后的标准语料数据进行文本分词：本装置通过一系列机器学习算法和深度学习算法，对语料文本进行分词，将一个字序列切分成单独的词，将文本的分词结果作为后续任务的输入数据，从而完成语料数据的预处理过程。
4.根据权利要求1所述的一种基于众包的分词标注质量评估系统，其特征是：
所述的任务管理模块主要负责任务生成、任务分发和任务队列维护；
所述的任务分为测试任务、普通任务和黄金数据集任务；
任务管理模块生成任务，将其存入任务队列，供用户进行拉取，用户完成任务提交以后，更新任务状态，具体步骤如下：
步骤1，生成测试任务，所有的普通用户需要进行相关的测试任务，测试通过了方可参与实际的众包任务，所以需要针对这部分用户生成相应的测试任务；测试任务会依据已存在正确答案的语料，从中选取N条语料，将其封装成测试任务分发给普通用户；用户需要完成测试任务，并且测试的专业准确率达到100%（准确率的评估由质量控制模块完成），才可以进入到后面的步骤；如果测得用户专业准确率没有达到100%，则需要重新生成测试任务，直到用户完成任务并达标为止。
步骤2，生成众包任务，通过测试以后的用户，开始实际的众包任务；任务管理模块会依据语料处理模块的输出数据，将其封装成一个众包任务，然后把该任务存入任务队列中进行管理；
步骤3，任务状态变更，同一个众包任务会有多个用户领取，用户提交标注结果以后，由质量控制模块完成最后的任务综合评估；任务评估完成以后，众包任务会从任务队列中取出，存入本体知识库中，并重新生成新的众包任务。
5.根据权利要求1所述的一种基于众包的分词标注质量评估系统，其特征是：
所述的用户管理模块负责系统用户的注册、登录以及权限管理等。主要用于保证本发明装置的安全性和众包任务的质量，具体步骤如下：
步骤1，注册登录。用户需要填写资料进行注册，通过审核后，进行登录方可对进入系统；
步骤2，标注测试。新注册的用户为普通用户，新用户默认会有N条测试任务，用户需要先进行测试任务的答题，填写完成后，提交任务。由质量控制模块进行用户专业准确率评估，如果用户专业准确率达到了100%，则通过测试认证，可授予众包任务权限；如果用户专业准确率没有达到100%，则用户需要继续进行测试任务，否则无权领取众包任务；
步骤3，开始众包，测试任务通过以后，用户可以获取到众包任务权限，并可以主动领取众包任务，用户对领取的众包任务进行标注，然后提交自己的标注结果。
6.根据权利要求1所述的一种基于众包的分词标注质量评估系统，其特征是：
资源标注模块主要负责语料资源的标注工作，装置提供了一种在线的交互友好的用户界面，用户可以对语料进行分词标注，然后将完成的标注结果进行提交；质量控制模块会根据用户提交的标注结果进行计算，综合评估众包任务，并将评估的结果存入本体知识库中。
7.一种基于权利要求1至6所述的众包的分词标注质量评估系统的评估方法，其特征是包括以下步骤：
步骤1. 通过语料采集模块，采集评估系统所需的语料数据，并对采集的语料数据进行数据清理和预处理，然后存入语料数据库中；通过网络爬虫在相关医学网站爬取医学术语集、医学文献集和一些公开的医学资料，作为医学语料集；
步骤2. 将爬取的医学语料集除去数据中的非文本部分，将多余的换行、空白、制表符替换成单个空格；将语料文本中的全角字符转半角字符；将文本中的html、xml等非法格式的文本进行剔除；将文本开头和结尾的空白字符剔除；将语料文本的字符编码集统一成UTF-8标准编码；
步骤3. 运用机器学习和深度学习等技术，通过自然语言处理，对语料文本进行分词；
将处理后的语料数据存入预料数据库中，作为数据源；
步骤4. 进入注册界面，用户输入手机号、验证码，并填写用户名、密码、性别、职业等信息进行注册。注册成功后，初始化用户的答题权重，用户的初始贡献度(Pf)为0，答题记录向量Ms=[Rh, Lh, Rp, Lp]默认[0,0,0,0]。其中，Rh为累计完成黄金数据集任务正确答案长度，Lh为累计完成黄金数据集任务题目长度，Rp为累计普通任务回答长度，Lp为累计完成普通任务题目长度；进入登陆界面，用户输入手机号和密码进行登陆；
步骤5. 从语料收集模块取出n条黄金数据集语料，将其包装成n个任务，发送给用户进行测试练习；
步骤6. 用户在资源标注模块进行分词操作，填写完测试练习题目以后，提交自己的分词标注结果；
步骤7. 质量控制模块判断用户提交的测试练习标注结果的正确率，根据公式1来判断用户的专业准确率；
步骤8. n个任务的标注结果全部符合标准正确答案的要求，则评估用户专业准确率为
100%；可以进入到步骤9，否则继续步骤5至步骤8，直到用户专业准确率达到100%；
步骤9. 用户从任务队列中获取排在最前面的一条该用户未分配的任务，增加到该用户的任务列表中，最多允许拥有n个未完成的任务；
步骤10. 用户在资源标注模块进行分词操作，填写完分词任务标注结果以后，提交自己的分词标注结果；
步骤11. 根据任务中语料的标记位判断该条语料是否为黄金数据集，如果为黄金数据集则进入步骤12，否则进入步骤13；
步骤12. 黄金任务综合评分计算；通过参考黄金数据原文的标准答案，依据公式6进行计算，更新该用户的最终权重；
步骤13. 非黄金数据综合评分计算，首先判断众包任务是否达到最大冗余度，任务冗余度设定是普通任务为三个人，黄金数据集任务为两个人。如果众包任务的冗余度没有达到最大冗余度，则保存用户的答题结果；否则进入下一步骤14；
步骤14. 从任务管理模块的任务队列中移除该任务，设置任务语料原文和N个用户；综合N个用户的答题结果，再依据步骤15所得的各个用户权重，得到最终的答案；
步骤15. 将步骤14生成的最终答案作为标准答案，保存到知识库中；
步骤16. 根据各个用户的贡献权重再次计算评分结果，根据公式5计算并更新每人的答题权重。

说明书全文

一种基于众包的分词标注质量评估系统及评估方法

技术领域

[0001] 本发明涉及一种基于众包的分词标注质量评估系统及评估方法，涉及医学文本自然语言处理、知识众包算法，属于自然语言处理、众包和互联网应用领域。

背景技术

[0002] 随着Internet不断发展，众包服务也不断蓬勃发展起来，众包开始在许多领域发挥了越来越大的作用，在很多领域广泛逐渐应用起来。例如机器翻译，图片识别，语音识别，数据挖掘的质量，如果采用手工去识别和评估会付出相当大的代价。而众包的核心在于群体智慧，通过让大众群体参与，一起完成实现一些小任务，最终实现一个比较大的目标。因为人的大脑在在处理一些知识性的任务和事件，有着计算机不可比拟的优势，所以充分利用众包的群体智慧，我们可以解决很多计算机不能轻易解决的一些问题。

[0003] 在理想的工作状态下，众包的确可以解决很多问题，对完成大的任务有很多好处。但是，在实际工作当中，用户提交的问题解答，可能并不一定准确，甚至可能出现恶意提交垃圾答案的情况，使得众包工作的完成质量受到很大的影响。因此，提出有效的众包质量评估装置，其目的就在于能够提高众包的质量。

[0004] 在疾病知识库的构建过程中，需要对大量医学文本进行自然语言处理和机器学习。而自然语言处的基础在于分词质量的好坏，通过众包的方式让大众参与文本的分词标注，提高自然语言处理的准确率。而众包的质量评估算法对众包任务的质量又尤其重要，因此，本发明提出来一种基于众包的分词标注质量评估装置。

发明内容

[0005] 本发明的目的在于引入了众包的思想，设计了一种基于众包的分词标注质量评估系统及评估方法，主要针对自然语言处理的分词标注任务进行众包，将分词标注的工作分解出来，形成一个一个具体的任务，以自由自愿的形式交给领域专家团队共同完成，发明装置根据质量控制模块算法计算标准答案后，再将标准答案补充到本体知识库中。

[0006] 本发明通过以下技术方案实现，主要包括语料处理模块、任务管理模块、用户管理模块、资源标注模块和质量控制模块，通过针对自然语言处理的分词标注任务进行众包，将分词标注的工作分解，并形成具体的任务，以自由自愿的形式交给领域专家团队共同完成；根据质量控制模块算法计算标准答案后，最终将标准答案补充到本体知识库中；
所述语料处理模块，主要用于对不同来源的语料数据，本发明的语料数据主要来源于电子病历、医学文献、公共医学资源、医学术语等，进行一些初步的数据预处理，将数据转换成后续模块容易使用和处理的形式，提高了数据文本挖掘处理的准确性和完整性；提高整个发明装置的质量和效率；
所述任务管理模块的功能主要包括任务的生成、分发、状态变更，保障了过程化和规范化；任务管理模块与语料处理模块连接，主要用于依据语料处理模块的生成的标准语料文本，将标准语料文本包装成需要大众参与的众包任务，任务类别具体包括测试任务、黄金数据集任务、普通任务；
所述用户管理模块，主要用于对使用用户进行身份验证和权限控制管理，包含用户的注册和登录、用户专家领域认证、用户任务领取；根据设置的安全规则和策略，用户只能参与被授权的任务，防止恶意用户和非专业用户的操作导致众包任务的质量出现问题，保障了本发明装置的安全性和准确性；
所述资源标注模块，主要用于为用户提供一种在线的语料分词标注操作界面，具有良好的交互性，用户可以进行主观的分词标注操作，将一段连续的字序列按照一定的规范重新组合成词序列；
所述质量控制模块为核心模块，包含黄金数据集权重计算、用户贡献度计算和任务综合评分；质量控制模块与任务管理模块、用户管理模块、资源标注模块连接；质量控制模块通过对众包任务结果和用户贡献度的实时、高效、准确的评估，实现对整个发明装置的质量控制和保障。

[0007] 所述的质量控制模块包含黄金数据集计算，包括用户专业准确率评估，用户贡献度计算，用户权重计算，众包任务综合评估，对整个众包任务的质量进行整体把关和控制，保障本发明装置的完整性和准确性；具体步骤如下：步骤1，测试任务准确率，当用户完成测试任务时，需要对用户的专业准确率进行计算，来判断该用户是否有资格参加众包任务，具体计算公式（1）为
其中 P 表示当前测试任务的准确率， Wcor为测试任务中用户正确分词的词数组,|Wcor|为词数组长度;Wtest为测试任务标准答案分词的词数组，|Wtest|为词数组长度；
步骤2，任务初始化，初始化用户分词任务答题贡献度，用户分词任务答题记录向量。用户的初始贡献度(Pf)为0，答题记录向量Ms=[Rh, Lh, Rp, Lp]默认[0,0,0,0]。其中，Rh为累计完成黄金数据集任务正确答案长度，Lh为累计完成黄金数据集任务题目长度，Rp为累计普通任务回答长度，Lp为累计完成普通任务题目长度；
步骤3，黄金数据集评价，当用户完成一道黄金数据集任务时，需要更新当前贡献度和答题记录向量；定义黄金数据集任务默认长度为Lgold=100，Wcor为用户正确分词的词数组，|Wcor|为该数组的长度，Wgold为黄金数据集标准分词的词数组，|Wgold|为该数组的长度，PS为当前用户户完成该任务的正确率；
公式（2）、（3）、（4）计算完毕后，更新当前用户答题记录向量MS以及当前贡献度Pf的公式（5）、（6）如下：
根据用户对黄金数据集任务的解答情况，迭代更新用户的贡献度Pf；
步骤4，标准任务评价，设有N(N≥3)个用户共同参与分词任务, 获取N个用户的分词结果，从左至右，从每个用户给出的第一个词开始循环，比较第一个词是否相等，根据答案情况将用户分为X组，如果每组有N’个用户答案相同，则按第i组(i∈[0,X])中每个用户对该组的贡献度计算该词的评分，计算公式（7）如下：
其中，表示第i组的评分，表示当前组第j个人的贡献度；
当前词的答案判别公式（8）为：
其中，为第m个词正确的组号，函数Index（）为返回用户贡献度最大的
组号；
确认完当前分词后，计算下一个分词的偏移量，找到起始偏移位置相同的词后，继续重复上述步骤，直至起始偏移位置为空；
步骤5，更新权重及答题记录向量，在得到当前任务的正确答案之后，根据正确答案更新每个参与该任务的用户的当前权重及答题记录向量；
定义普通任务权重参数 Lnor=100， Wcor 为投票后用户正确分词的词数组， |Wcor|为该数据的长度， Wnor 为投票后分词的词数组， |Wnor|为该数组的长度，为当前任务的字数组，为该数组的长度，Ps为当前用户完成该任务的正确率；
公式（9）、（10）、（11）计算完毕后，根据黄金数据集评价更新公式(5)更新用户答题记录向量的值以及公式(6)更新用户的当前贡献度。
所述的语料处理模块负责对输入的语料数据进行数据预处理，主要包含数据收集、编码处理、数据清理、中文分词四个步骤：
步骤1．数据收集：对语料数据进行采集，作为整个装置的数据源；文本数据的主要包括两种：一种是医院现存的医学语料文本，包括电子病历、手术步骤、检查报告结果、日常病程等记录信息；另一种是互联网公开的医学资源，包括公共字典、医学术语、临床指南等医学文献；
步骤2，处理中文编码问题：将收集的文本数据编码格式进行转换，并将文本中的全角字符转换为半角字符。最终形成编码及字符格式统一的语料文本；
步骤3，数据清理：去除语料数据中的脏数据，并对语料进行一些数据处理，去除语料中的非法字符，然后对语料进行拆分和文本分类，最终形成标准的语料数据；
步骤4，对数据清理后的标准语料数据进行文本分词：本装置通过一系列机器学习算法和深度学习算法，对语料文本进行分词，将一个字序列切分成单独的词，将文本的分词结果作为后续任务的输入数据，从而完成语料数据的预处理过程。

[0008] 所述的任务管理模块主要负责任务生成、任务分发和任务队列维护；所述的任务分为测试任务、普通任务和黄金数据集任务；
任务管理模块生成任务，将其存入任务队列，供用户进行拉取，用户完成任务提交以后，更新任务状态，具体步骤如下：
步骤1，生成测试任务。所有的普通用户需要进行相关的测试任务，测试通过了方可参与实际的众包任务，所以需要针对这部分用户生成相应的测试任务。测试任务会依据已存在正确答案的语料，从中选取N条语料，将其封装成测试任务分发给普通用户。用户需要完成测试任务，并且测试的专业准确率达到100%，准确率的评估由质量控制模块完成，才可以进入到后面的步骤。如果测得用户专业准确率没有达到100%，则需要重新生成测试任务，直到用户完成任务并达标为止。

[0009] 步骤2，生成众包任务。通过测试以后的用户，开始实际的众包任务。任务管理模块会依据语料处理模块的输出数据，将其封装成一个众包任务，然后把该任务存入任务队列中进行管理。

[0010] 步骤3，任务状态变更。同一个众包任务会有多个用户领取，用户提交标注结果以后，由质量控制模块完成最后的任务综合评估。任务评估完成以后，众包任务会从任务队列中取出，存入本体知识库中，并重新生成新的众包任务。

[0011] 所述的用户管理模块负责系统用户的注册、登录以及权限管理等。主要用于保证本发明装置的安全性和众包任务的质量，具体步骤如下：步骤1，注册登录。用户需要填写资料进行注册，通过审核后，进行登录方可对进入系统。

[0012] 步骤2，标注测试。新注册的用户为普通用户，新用户默认会有N条测试任务，用户需要先进行测试任务的答题，填写完成后，提交任务。由质量控制模块进行用户专业准确率评估，如果用户专业准确率达到了100%，则通过测试认证，可授予众包任务权限；如果用户专业准确率没有达到100%，则用户需要继续进行测试任务，否则无权领取众包任务。

[0013] 步骤3，开始众包。测试任务通过以后，用户可以获取到众包任务权限，并可以主动领取众包任务。用户对领取的众包任务进行标注，然后提交自己的标注结果。资源标注模块主要负责语料资源的标注工作，装置提供了一种在线的交互友好的用户界面，用户可以对语料进行分词标注，然后将完成的标注结果进行提交。质量控制模块会根据用户提交的标注结果进行计算，综合评估众包任务，并将评估的结果存入本体知识。

[0014] 本发明的评估方法包括以下步骤：步骤1. 通过语料采集模块，采集评估系统所需的语料数据，并对采集的语料数据进行数据清理和预处理，然后存入语料数据库中；通过网络爬虫在相关医学网站爬取医学术语集、医学文献集和一些公开的医学资料，作为医学语料集；
步骤2. 将爬取的医学语料集除去数据中的非文本部分，将多余的换行、空白、制表符替换成单个空格；将语料文本中的全角字符转半角字符；将文本中的html、xml等非法格式的文本进行剔除；将文本开头和结尾的空白字符剔除；将语料文本的字符编码集统一成UTF-8标准编码；
步骤3. 运用机器学习和深度学习等技术，通过自然语言处理，对语料文本进行分词；
将处理后的语料数据存入预料数据库中，作为数据源；
步骤4. 进入注册界面，用户输入手机号、验证码，并填写用户名、密码、性别、职业等信息进行注册。注册成功后，初始化用户的答题权重，用户的初始贡献度(Pf)为0，答题记录向量Ms=[Rh, Lh, Rp, Lp]默认[0,0,0,0]。其中，Rh为累计完成黄金数据集任务正确答案长度，Lh为累计完成黄金数据集任务题目长度，Rp为累计普通任务回答长度，Lp为累计完成普通任务题目长度；进入登陆界面，用户输入手机号和密码进行登陆；
步骤5. 从语料收集模块取出n条黄金数据集语料，将其包装成n个任务，发送给用户进行测试练习；
步骤6. 用户在资源标注模块进行分词操作，填写完测试练习题目以后，提交自己的分词标注结果；
步骤7. 质量控制模块判断用户提交的测试练习标注结果的正确率，根据公式1来判断用户的专业准确率；
步骤8. n个任务的标注结果全部符合标准正确答案的要求，则评估用户专业准确率为
100%；可以进入到步骤9，否则继续步骤5至步骤8，直到用户专业准确率达到100%；
步骤9. 用户从任务队列中获取排在最前面的一条该用户未分配的任务，增加到该用户的任务列表中，最多允许拥有n个未完成的任务；
步骤10. 用户在资源标注模块进行分词操作，填写完分词任务标注结果以后，提交自己的分词标注结果；
步骤11. 根据任务中语料的标记位判断该条语料是否为黄金数据集，用户通过测试以后的前3条任务均为黄金数据集，通过黄金数据集更新用户的答题贡献权重，如果为黄金数据集则进入步骤12，否则进入步骤13；
步骤12. 黄金任务综合评分计算；通过参考黄金数据原文的标准答案，依据公式6进行计算，更新该用户的最终权重；
步骤13. 非黄金数据综合评分计算，首先判断众包任务是否达到最大冗余度，任务冗余度设定是普通任务为三个人，黄金数据集任务为两个人。如果众包任务的冗余度没有达到最大冗余度，则保存用户的答题结果；否则进入下一步骤14；
步骤14. 从任务管理模块的任务队列中移除该任务，设置任务语料原文和N个用户；综合N个用户的答题结果，再依据步骤15所得的各个用户权重，得到最终的答案；
步骤15. 将步骤14生成的最终答案作为标准答案，保存到知识库中；
步骤16. 根据各个用户的贡献权重再次计算评分结果，根据公式5计算并更新每人的答题权重。

[0015] 本发明的优点在于，提供一种基于众包的分词标注质量评估装置，通过质量控制模块提供的算法提高分词标注众包的质量，提高自然语言处理效率和准确率。附图说明

[0016] 图1为本发明的结构图。

[0017] 图2为本发明的流程图。

[0018] 图3为分词标注众包黄金任务质量评估算法。

[0019] 图4为分词标注众包标准任务质量评估算法。

具体实施方式

[0020] 下面结合附图1和4及具体实施方式，对本发明作进一步说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。主要包括语料处理模块、任务管理模块、用户管理模块、资源标注模块和质量控制模块，通过针对自然语言处理的分词标注任务进行众包，将分词标注的工作分解，并形成具体的任务，以自由自愿的形式交给领域专家团队共同完成；根据质量控制模块算法计算标准答案后，最终将标准答案补充到本体知识库中；所述语料处理模块，主要用于对不同来源的语料数据，进行一些初步的数据预处理，将数据转换成后续模块容易使用和处理的形式，提高了数据文本挖掘处理的准确性和完整性；
所述任务管理模块的功能主要包括任务的生成、分发、状态变更，保障了过程化和规范化；任务管理模块与语料处理模块连接，主要用于依据语料处理模块的生成的标准语料文本，将标准语料文本包装成需要大众参与的众包任务，任务类别具体包括测试任务、黄金数据集任务、普通任务；
所述用户管理模块，主要用于对使用用户进行身份验证和权限控制管理，包含用户的注册和登录、用户专家领域认证、用户任务领取；根据设置的安全规则和策略，用户只能参与被授权的任务，防止恶意用户和非专业用户的操作导致众包任务的质量出现问题，保障了本发明装置的安全性和准确性；
所述资源标注模块，主要用于为用户提供一种在线的语料分词标注操作界面，具有良好的交互性，用户可以进行主观的分词标注操作，将一段连续的字序列按照一定的规范重新组合成词序列；
所述质量控制模块为核心模块，包含黄金数据集权重计算、用户贡献度计算和任务综合评分；质量控制模块与任务管理模块、用户管理模块、资源标注模块连接；质量控制模块通过对众包任务结果和用户贡献度的实时、高效、准确的评估，实现对整个发明装置的质量控制和保障。

[0021] 所述的质量控制模块包含黄金数据集计算，包括用户专业准确率评估，用户贡献度计算，用户权重计算，众包任务综合评估，对整个众包任务的质量进行整体把关和控制，保障本发明装置的完整性和准确性；具体步骤如下：步骤1，测试任务准确率，当用户完成测试任务时，需要对用户的专业准确率进行计算，来判断该用户是否有资格参加众包任务，具体计算公式（1）为
其中 P 表示当前测试任务的准确率， Wcor为测试任务中用户正确分词的词数组,|Wcor|为词数组长度;Wtest为测试任务标准答案分词的词数组，|Wtest|为词数组长度；
步骤2，任务初始化，
初始化用户分词任务答题贡献度，用户分词任务答题记录向量。用户的初始贡献度(Pf)为0，答题记录向量Ms=[Rh, Lh, Rp, Lp]默认[0,0,0,0]。其中，Rh为累计完成黄金数据集任务正确答案长度，Lh为累计完成黄金数据集任务题目长度，Rp为累计普通任务回答长度，Lp为累计完成普通任务题目长度；
步骤3，黄金数据集评价，当用户完成一道黄金数据集任务时，需要更新当前贡献度和答题记录向量；定义黄金数据集任务默认长度为Lgold=100，Wcor为用户正确分词的词数组，|Wcor|为该数组的长度，Wgold为黄金数据集标准分词的词数组，|Wgold|为该数组的长度，PS为当前用户户完成该任务的正确率；
公式（2）、（3）、（4）计算完毕后，更新当前用户答题记录向量MS以及当前贡献度Pf的公式（5）、（6）如下：
根据用户对黄金数据集任务的解答情况，迭代更新用户的贡献度Pf；
众包黄金任务质量评估算法如图3所示；
步骤4，标准任务评价，设有N(N≥3)个用户共同参与分词任务, 获取N个用户的分词结果，从左至右，从每个用户给出的第一个词开始循环，比较第一个词是否相等，根据答案情况将用户分为X组，如果每组有N’个用户答案相同，则按第i组(i∈[0,X])中每个用户对该组的贡献度计算该词的评分，计算公式（7）如下：
其中，表示第i组的评分，表示当前组第j个人的贡献度；
当前词的答案判别公式（8）为：
其中，为第m个词正确的组号，函数Index（）为返回用户贡献度最大的
组号；
确认完当前分词后，计算下一个分词的偏移量，找到起始偏移位置相同的词后，继续重复上述步骤，直至起始偏移位置为空；
步骤5，更新权重及答题记录向量，在得到当前任务的正确答案之后，根据正确答案更新每个参与该任务的用户的当前权重及答题记录向量；
定义普通任务权重参数 Lnor=100， Wcor 为投票后用户正确分词的词数组， |Wcor|为该数据的长度， Wnor 为投票后分词的词数组， |Wnor|为该数组的长度，为当前任务的字数组，为该数组的长度，Ps为当前用户完成该任务的正确率；
公式（9）、（10）、（11）计算完毕后，根据黄金数据集评价更新公式(5)更新用户答题记录向量的值以及公式(6)更新用户的当前贡献度；
分词标注众包标准任务质量评估算法如图4所示。
所述的语料处理模块负责对输入的语料数据进行数据预处理，主要包含数据收集、编码处理、数据清理、中文分词四个步骤：
步骤1．数据收集：对语料数据进行采集，作为整个装置的数据源；文本数据的主要包括两种：一种是医院现存的医学语料文本，包括电子病历、手术步骤、检查报告结果、日常病程等记录信息；另一种是互联网公开的医学资源，包括公共字典、医学术语、临床指南等医学文献；
步骤2，处理中文编码问题：将收集的文本数据编码格式进行转换，并将文本中的全角字符转换为半角字符。最终形成编码及字符格式统一的语料文本；
步骤3，数据清理：去除语料数据中的脏数据，并对语料进行一些数据处理，去除语料中的非法字符，然后对语料进行拆分和文本分类，最终形成标准的语料数据；
步骤4，对数据清理后的标准语料数据进行文本分词：本装置通过一系列机器学习算法和深度学习算法，对语料文本进行分词，将一个字序列切分成单独的词，将文本的分词结果作为后续任务的输入数据，从而完成语料数据的预处理过程。

[0022] 所述的任务管理模块主要负责任务生成、任务分发和任务队列维护；所述的任务分为测试任务、普通任务和黄金数据集任务；
任务管理模块生成任务，将其存入任务队列，供用户进行拉取，用户完成任务提交以后，更新任务状态，具体步骤如下：步骤1，生成测试任务。所有的普通用户需要进行相关的测试任务，测试通过了方可参与实际的众包任务，所以需要针对这部分用户生成相应的测试任务。测试任务会依据已存在正确答案的语料，从中选取N条语料，将其封装成测试任务分发给普通用户。用户需要完成测试任务，并且测试的专业准确率达到100%（准确率的评估由质量控制模块完成），才可以进入到后面的步骤。如果测得用户专业准确率没有达到
100%，则需要重新生成测试任务，直到用户完成任务并达标为止。

[0023] 步骤2，生成众包任务。通过测试以后的用户，开始实际的众包任务。任务管理模块会依据语料处理模块的输出数据，将其封装成一个众包任务，然后把该任务存入任务队列中进行管理。

[0024] 步骤3，任务状态变更。同一个众包任务会有多个用户领取，用户提交标注结果以后，由质量控制模块完成最后的任务综合评估。任务评估完成以后，众包任务会从任务队列中取出，存入本体知识库中，并重新生成新的众包任务。

[0025] 所述的用户管理模块负责系统用户的注册、登录以及权限管理等。主要用于保证本发明装置的安全性和众包任务的质量，具体步骤如下：步骤1，注册登录。用户需要填写资料进行注册，通过审核后，进行登录方可对进入系统。

[0026] 步骤2，标注测试。新注册的用户为普通用户，新用户默认会有N条测试任务，用户需要先进行测试任务的答题，填写完成后，提交任务。由质量控制模块进行用户专业准确率评估，如果用户专业准确率达到了100%，则通过测试认证，可授予众包任务权限；如果用户专业准确率没有达到100%，则用户需要继续进行测试任务，否则无权领取众包任务。

[0027] 步骤3，开始众包。测试任务通过以后，用户可以获取到众包任务权限，并可以主动领取众包任务。用户对领取的众包任务进行标注，然后提交自己的标注结果。

[0028] 资源标注模块主要负责语料资源的标注工作，装置提供了一种在线的交互友好的用户界面，用户可以对语料进行分词标注，然后将完成的标注结果进行提交。质量控制模块会根据用户提交的标注结果进行计算，综合评估众包任务，并将评估的结果存入本体知识库中。

[0029] 本发明的评估方法包括以下步骤：根据所述的语料采集模块，采集装置需要的语料数据，并对采集的预料数据进行数据清理和预处理，然后存入预料数据库中。

[0030] S1. 通过语料采集模块，采集评估系统所需的语料数据，并对采集的语料数据进行数据清理和预处理，然后存入语料数据库中；通过网络爬虫在相关医学网站爬取医学术语集、医学文献集和一些公开的医学资料，作为医学语料集。

[0031] S2. 将爬取的医学语料集除去数据中的非文本部分，将多余的换行、空白、制表符替换成单个空格；将语料文本中的全角字符转半角字符；将文本中的html、xml等非法格式的文本进行剔除；将文本开头和结尾的空白字符剔除；将语料文本的字符编码集统一成UTF-8标准编码。

[0032] S3. 运用机器学习和深度学习等技术，通过自然语言处理，对语料文本进行分词；将处理后的语料数据存入预料数据库中，作为数据源。

[0033] S4. 进入注册界面，用户输入手机号、验证码，并填写用户名、密码、性别、职业等信息进行注册。注册成功后，初始化用户的答题权重，用户的初始贡献度(Pf)为0，答题记录向量Ms=[Rh, Lh, Rp, Lp]默认[0,0,0,0]。其中，Rh为累计完成黄金数据集任务正确答案长度，Lh为累计完成黄金数据集任务题目长度，Rp为累计普通任务回答长度，Lp为累计完成普通任务题目长度；进入登陆界面，用户输入手机号和密码进行登陆。

[0034] S5. 从语料收集模块取出3条语料，如“患者诉__1年余前__无明显诱因排尿不畅__，__排尿费力__，__有时有__肉眼血尿__”、“1.__中年男性__，__否认__高血压。__”，“入院后__依据症状体征__及__辅助检查”，将其包装成三个任务，发送给用户进行测试练习。

[0035] S6. 用户在资源标注模块进行分词操作，填写完测试练习题目以后，提交自己的分词标注结果。

[0036] S7. 质量控制模块判断用户提交的测试练习标注结果的正确率，根据公式4.1来判断用户的专业准确率。如果用户提交的答案为“患者__诉__1年余前__无明显诱因__排尿不畅__，__排尿费力__，__有时__有__肉眼血尿__”、“1.__中年男性__，__否认__高血压__。__”，“入院后__依据__症状体征__及__辅助检查”，三个任务的标注结果全部符合标准正确答案的要求，则评估用户专业准确率为100%；可以进入到下一步骤S11，否则继续S8-S10的步骤，直到用户专业准确率达到100%。

[0037] S8. 初始化用户的答题权重，用户的初始贡献度(Pf)为0，答题记录向量Ms=[Rh, Lh, Rp, Lp]默认[0,0,0,0]。其中，Rh为累计完成黄金数据集任务正确答案长度，Lh为累计完成黄金数据集任务题目长度，Rp为累计普通任务回答长度，Lp为累计完成普通任务题目长度。

[0038] 根据任务管理模块，用户从众包任务队列中获取一个分词任务，然后在资源标注模块进行分词标注，提交任务的标注结果。

[0039] S9. 用户从任务队列中获取排在最前面的一条该用户未分配的任务，增加到该用户的任务列表中，最多允许拥有三个未完成的任务。如用户获取到一条标注语料“右下肢疼痛发凉半月。”。

[0040] S10. 用户在资源标注模块进行分词操作，填写完分词任务标注结果以后，提交自己的分词标注结果。如用户提交的标注结果为“右下肢__疼痛__发凉__半月__。__”。

[0041] 根据质量管理模块，对用户提交的众包任务进行综合评估以及用户的贡献度以及用户权重进行重新计算。

[0042] S11. 根据任务中语料的标记位判断该条语料是否为黄金数据集（用户通过测试以后的前3条任务均为黄金数据集，通过黄金数据集更新用户的答题贡献权重），如果为黄金数据集则进入步骤S15，否则进入S16。

[0043] S12. 黄金任务综合评分计算。如“右下肢疼痛发凉半月。”为黄金数据原文，标准答案为“右下肢__疼痛__发凉__半月__。”，如果该用户的答题答案为“右下肢__疼痛发__凉半月。”，依据公式5.5进行计算，则用户的最终权重更新为Pf=20.0(0+0.2*100)/100.0(0+100)=0.2；如果该用户的答题答案为“右下肢__疼痛__发凉半月。”，依据公式5.5进行计算，则该用户的最终权重更新为Pf=40.0(0+0.4*100)/100.0(0+100)=0.4；如果该用户的答题答案为“右下肢__疼痛__发凉__半月。”，依据公式（6）进行计算，则该用户的最终权重更新为Pf=60.00000(0+0.6*100)/100.0=0.6。

[0044] S13. 非黄金数据综合评分计算。首先判断众包任务是否达到最大冗余度，任务冗余度设定是普通任务为三个人，黄金数据集任务为两个人。如果众包任务的冗余度没有达到最大冗余度，则保存用户的答题结果。否则进入下一步骤S17。

[0045] S14. 从任务管理模块的任务队列中移除该任务，综合所有人的答题结果。如“左腕部外伤疼痛伴出血4小时。”为任务语料原文。有a,b,c三个用户，a用户的答题权重为0.225，b用户的答题权重为0.45，c用户的答题权重为0.55。a的标注结果为“左腕部__外伤疼__痛伴__出血4小时。”，b的标注结果为“左腕部__外伤疼痛__伴__出血4小时。”，c的标注结果为“左腕__部__外伤疼痛__伴出血__4小时。”。其中“左腕部”的评分为0.225+0.45 =
0.675，“左腕”的评分为0.55，选取评分最大的为“左腕部”。其中“外伤疼”的评分为0.22，“外伤疼痛”的评分为0.45+0.55=1.0，选取评分最大的为“外伤疼痛”。其中“伴”的评分为
0.45，“伴出血”的评分为0.55，选取评分最大的为“伴出血”。其中“4小时”的评分为0.55，选取评分最大的为“4小时”。所以综合所有人的答案，最终的答案为“左腕部__外伤疼痛__伴出血__4小时。”。

[0046] S15. 将步骤S17生成的最终答案作为标准答案，将其保存到知识库中。如“左腕部__外伤疼痛__伴出血__4小时。”为最终答案，将其入库。

[0047] S16. 根据每人的贡献权重计算评分结果，并更新每人的答题权重。如a用户的答案“左腕部__外伤疼__痛伴__出血4小时。”，根据公式（5）计算a用户的答题权重为(45+0.25*(14/100))/(200+14/100)=0.22501749；b用户的答案为“左腕部__外伤疼痛__伴__出血4小时。”，根据公式（5）计算b用户的答题权重为(90+0.5*(14/100))/(200+14/100)=
0.45003498；c用户的答案为“左腕__部__外伤疼痛__伴出血__4小时。”，根据公式（5）计算c用户的答题权重为(110+0.75*(14/100))/(200+14/100)=0.5501399。

[0048] 上面对本发明的实施方式作了详细的说明，但是本发明不限于上述实施方式，在所属技术领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

标题	发布/更新时间	阅读量
MDT多学科会诊平台	2020-05-16	59
一种地下防水工程施工质量检测鉴定方法	2020-05-20	490
中医药古籍文献分词和词性标引方法及系统	2020-05-24	130
一种基于深度学习的医疗记录模型构建方法、系统及装置	2020-05-25	667
用于工程项目全过程咨询服务增值的方法	2020-05-13	693
一种新的基于数据挖掘技术的智能冲压工艺设计方法	2020-05-18	694
基于智能中医机器人的数据库系统	2020-05-26	671
一种数字化体育档案管理平台	2020-05-19	897
具有碳烯配体的过渡金属配合物及其在OLED中的用途	2020-05-21	345
石墨烯动力电池智能制造线设计方案	2020-05-11	837

一种基于众包的分词标注质量评估系统及评估方法

一种基于众包的分词标注质量评估系统及评估方法

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：