专利汇可以提供一种基于深度强化学习的自适应众包方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于深度 强化学习 的自适应众包方法。方法具体为:1)首先从众包系统中 采样 需要分配的任务和候选的众包工人;2)通过 深度学习 方法获得待分配任务和候选工人的低维特征表示;3)通过强化学习方法确定任务分配策略;4)众包系统根据分配策略分配任务,根据任务完成结果评估本次分配获得的收益,将该收益反馈给强化学习方法,更新强化学习参数;5)从1)开始继续下一轮的任务分配。和 现有技术 相比,本发明结合了深度强化学习方法,系统地对任务分配问题进行建模,针对不同任务本身的特征选择合适的众包工人,形成了自适应的智能众包方法,创造性地提升了众包的工作效率和效果。,下面是一种基于深度强化学习的自适应众包方法专利的具体信息内容。
1.一种基于深度强化学习的自适应众包方法,其特征在于,步骤如下:
S1.首先从众包系统中采样需要分配的众包任务和众包工人的信息;
S2.通过深度学习方法获得待分配任务和工人的低维特征表示,具体包括以下子步骤:
S21.获取原始特征数据,包括众包任务的原始特征和众包工人的原始特征;
S22.构建深度神经网络,包括Encoder和Decoder两部分,其中Encoder的输入为原始特征数据,输出为原始特征的低维表示;Decoder的输入为Encoder所得的低维表示,输出为该低维表示的解析结果,即原始特征数据的近似表达;
S23.一同训练Encoder和Decoder,输入设定为原始特征数据,损失函数设定为原始特征数据与Decoder最终输出的距离,训练使得Encoder-Decoder的输出逼近原始特征数据;
S24.使用训练好的Encoder,输入原始特征数据后获得原始特征数据的低维表示;
S3.通过深度学习方法获得每个工人入选候选集合的概率,遴选候选工人,具体包括以下子步骤:
S31.构建深度神经网络Candidate,输入为工人的低维特征表示,输出为该工人入选候选集合的概率;
S32.训练Candidate,输入设定为工人的低维特征表示、工人得到任务后完成任务的概率,损失函数设定为工人完成任务概率和Candidate最终输出的距离,训练使得Candidate的输出逼近工人完成任务的概率,即工人任务完成率越高,工人入选候选集合概率越高;
S33.使用训练好的Candidate,获得每个待分配工人入选候选集合的概率,并依概率将工人选入候选集合;
S4.通过强化学习方法确定任务分配策略,完成本轮任务执行,具体包括以下子步骤:
S41.将待分配任务和候选工人的低维特征作为强化学习Agent第一层的输入,第一层Agent根据其内部的深度神经网络确定一个到多个工人;
S42.根据第一层Agent确定的工人,选取Agent第二层并输入待分配的任务,Agent第二层根据其内部的深度神经网络确定一个到多个任务进行分配,即确定任务分配策略,交由Environment执行;
S43.得到Environment分配策略后立即完成分配,工人执行完分配的任务后计算本轮任务分配获得的收益;
S5.根据上一轮执行结果,优化强化学习参数并更新工人的原始特征数据,并执行步骤S2-S4,具体包括以下子步骤:
S51.根据上一轮任务执行结果,将Environment计算的收益反馈给强化学习两层Agent,两层Agent根据获得的收益反馈,调整内部的深度神经网络,提高选择高收益策略的概率,降低选择低收益策略的概率;
S52.根据上一轮任务执行结果,更新工人的原始特征数据;
S53.Environment保留上一轮未分配的任务,通过随机采样补全待分配任务,获得新一轮的待分配任务;并再次执行步骤S2和S3获得新一轮的候选工人集合;
S54.将新一轮的待分配任务和候选工人集合的原始特征的低维特征作为输入,再次执行所述步骤S4;
S6.不断重复步骤S5直到众包任务完成。
2.根据权利要求1所述的一种基于深度强化学习的自适应众包方法,其特征在于,步骤S1中,所述众包任务的原始特征包括任务分类标签、任务文本内容、预估困难程度;所述众包工人的原始特征包括年龄、完成任务时间分布、历史总分配任务数、历史总完成任务数、各类任务分配和完成数。
3.根据权利要求1所述的一种基于深度强化学习的自适应众包方法,其特征在于,步骤S4中,所述的Agent第一层神经网络通过计算每个工人的预期收益,选择一到多个预期收益最高的工人进行分配,并根据每轮任务收益的反馈,调整计算工人预期收益相关的参数。
4.根据权利要求1所述的一种基于深度强化学习的自适应众包方法,其特征在于,步骤S4中,所述的Agent第二层神经网络通过计算每个任务的预期收益,选择一个到多个预期收益最高的任务分配给工人,并根据每轮任务收益的反馈,调整计算任务预期收益相关的参数。
5.根据权利要求1所述的一种基于深度强化学习的自适应众包方法,其特征在于,步骤S4中,所述Agent的第一、二层的各个单元采用不同的强化学习方法,所述强化学习方法包括Q-learning、DQN、DPG、DDPG;第二层Agent的每个单元对应一个工人,单元数量根据工人数量自适应变化。
6.根据权利要求1所述的一种基于深度强化学习的自适应众包方法,其特征在于,步骤S5中,所述的收益反馈可根据众包需求针对性设定:若众包设定的目标是尽可能多地完成任务,则收益反馈的内容为任务最终的完成数量;若众包设定的目标是尽可能正确地完成任务,则反馈为完成任务的准确率;若众包设定的目标是同时兼顾上述两种目标,则反馈为任务最终完成数量与完成任务准确率的加权求和。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
用于控制或调节技术系统的方法 | 2020-05-12 | 965 |
基于强化学习的复杂薄壁结构物体3D打印路径规划方法 | 2020-05-12 | 230 |
基于改进直流潮流算法的电网无功潮流调整方法及装置 | 2020-05-12 | 141 |
一种用辩证法研究钢琴教学的方法 | 2020-05-13 | 585 |
机器学习装置、机器人控制系统和机器学习方法 | 2020-05-12 | 550 |
一种基于相似上下文和强化学习的中文词向量生成方法 | 2020-05-13 | 609 |
一种基于强化学习的人脸识别方法 | 2020-05-11 | 57 |
一种监控视频发送端视频编码流速控制的方法 | 2020-05-12 | 915 |
一种电力信息通信设备自动化测试资源调度方法 | 2020-05-13 | 615 |
电子系统、非暂时性计算机可读记录媒体及计算装置 | 2020-05-13 | 732 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。