基于大数据的职业兴趣预测方法、装置、设备及存储介质专利检索-自然语言处理人工智能人工智能专利检索查询-专利查询网

基于大数据的职业兴趣预测方法、装置、设备及存储介质

阅读：475发布：2020-05-14

专利汇可以提供基于大数据的职业兴趣预测方法、装置、设备及存储介质专利检索，专利查询，专利分析的服务。并且本发明提供一种基于大数据的职业兴趣预测方法、装置、设备及存储介质。所述职业兴趣预测方法能够当接收到职业兴趣预测指令时，采集被预测者的属性数据，并利用BERT 算法对所述属性数据进行语义匹配，得到所述被预测者的行为数据，以便对采集到的数据进行充分合理的利用，进一步基于所述行为数据对预先训练的预测模型进行拟合，当所述预测模型调整完毕时，输出拟合分值，由于以分值形式输出，使预测结果更具有解释性，并对所述拟合分值进行排序，得到排序结果，根据所述排序结果预测职业兴趣，从而基于数据处理，实现对职业兴趣的智能预测。，下面是基于大数据的职业兴趣预测方法、装置、设备及存储介质专利的具体信息内容。

权利要求

1.一种职业兴趣预测方法，其特征在于，所述方法包括：
当接收到职业兴趣预测指令时，采集与所述职业兴趣预测指令对应的被预测者的属性数据；
利用BERT 算法对所述属性数据进行语义匹配，得到所述被预测者的行为数据；
基于所述行为数据对预先训练的预测模型进行拟合；
当所述预测模型拟合完毕时，输出所述被预测者对应于每一预设职业的拟合分值；
对所述拟合分值进行排序，得到排序结果；
根据所述排序结果预测职业兴趣。
2.如权利要求1所述的职业兴趣预测方法，其特征在于，所述利用BERT算法对所述属性数据进行语义匹配，得到所述被预测者的行为数据包括：
基于自然语言处理技术对所述属性数据进行分割，得到至少一个分词；
调取预先训练的BERT模型；
将所述至少一个分词输入到所述BERT模型中进行处理，输出所述行为数据。
3.如权利要求1所述的职业兴趣预测方法，其特征在于，在基于所述行为数据对预先训练的预测模型进行拟合前，所述方法还包括：
当接收到训练指令时，采集样本数据；
基于自然语言处理技术对所述样本数据进行分割，得到至少一个词语；
利用所述至少一个词语，对Matrix factorization模型进行训练，得到所述预测模型。
4.如权利要求3所述的职业兴趣预测方法，其特征在于，在利用所述至少一个词语，对Matrix factorization模型进行训练时，所述方法还包括：
基于梯度下降的前后向反向传播算法，拟合下述公式：
其中，ri表示矩阵中第i行的嵌入向量，cj表示矩阵中第j列的嵌入向量，bi表示第i行的属性数据，bi与ri的长度相同，bj表示第j列的属性数据，nij表示第i行第j列的数据，即采集的样本数据。
5.如权利要求3所述的职业兴趣预测方法，其特征在于，所述方法还包括：
从所述样本数据中调取验证集，所述验证集中包括验证样本及基准数据；
将所述验证样本输入到所述Matrix factorization模型中，得到输出结果；
基于所述基准数据，计算所述输出结果的当前准确率；
当所述当前准确率不再提高时，确定所述Matrix factorization模型通过验证。
6.如权利要求1所述的职业兴趣预测方法，其特征在于，所述根据所述排序结果预测职业兴趣包括：
调取预先配置的至少一个拟合分值范围，及与所述至少一个拟合分值范围中每个拟合分值范围对应的感兴趣度；
将所述排序结果中的每个拟合分值与所述至少一个拟合分值范围进行匹配；
获取匹配的拟合分值范围对应的感兴趣度作为对每个拟合分值对应的职业的预测感兴趣度。
7.如权利要求1所述的职业兴趣预测方法，其特征在于，在根据所述排序结果预测职业兴趣后，所述方法还包括：
链接到指定职业推荐网站；
基于所述排序结果，在所述指定职业推荐网站上进行职业推荐。
8.一种职业兴趣预测装置，其特征在于，所述装置包括：
采集单元，用于当接收到职业兴趣预测指令时，采集与所述职业兴趣预测指令对应的被预测者的属性数据；
匹配单元，用于利用BERT算法对所述属性数据进行语义匹配，得到所述被预测者的行为数据；
拟合单元，用于基于所述行为数据对预先训练的预测模型进行拟合；
输出单元，用于当所述预测模型拟合完毕时，输出所述被预测者对应于每一预设职业的拟合分值；
排序单元，用于对所述拟合分值进行排序，得到排序结果；
预测单元，用于根据所述排序结果预测职业兴趣。
9.一种电子设备，其特征在于，所述电子设备包括：
存储器，存储至少一个指令；及
处理器，执行所述存储器中存储的指令以实现如权利要求1至7中任意一项所述的职业兴趣预测方法。
10.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质中存储有至少一个指令，所述至少一个指令被电子设备中的处理器执行以实现如权利要求1至7中任意一项所述的职业兴趣预测方法。

说明书全文

基于大数据的职业兴趣预测方法、装置、设备及存储介质

技术领域

[0001] 本发明涉及数据处理技术领域，尤其涉及一种基于大数据的职业兴趣预测方法、装置、设备及存储介质。

背景技术

[0002] 职业兴趣，是影响人一生的关键因素之一。有研究表明，在中学及大学等教育阶段，职业生涯规划应该突出在兴趣这一维度上的探索；李开复博士也曾说过：“95％的成功者选择了从事自己感兴趣的工作或者事业，而且他们之中大部分人并不把赚钱当作他们的人生目标，他们钟爱的只是他们的兴趣”。

[0003] 世界每年有超过800万人通过职业测评提高工作满意度，实现自己的愿望，进而迈向幸福的生活，可见，对职业兴趣的探索是多么重要的一件事情。

[0004] 然而目前，职业兴趣探索的普及度与受重视程度还非常低下，这主要有以下两个原因：

[0005] (1)过程繁琐，对被预测者要求高。

[0006] 霍兰德职业兴趣自测(Self-Directed Search)、MBTI职业性格测试等虽然是公认的经典职业兴趣测试方法，但是实施起来过程非常繁琐，而且需要被预测者有良好的自我认知，而这是一个很严苛的条件。

[0007] (2)结果不客观，难以解读。

[0008] 目前的职业兴趣测试往往直接给出一系列的推荐结果，但我们完全不知道相对而言哪些更适合我们，因此最终我们还是无法避免地需要寻找专业人士来评估和解读，这就直接导致了职业兴趣评估的高成本以及难以普及。

发明内容

[0009] 鉴于以上内容，有必要提供一种基于大数据的职业兴趣预测方法、装置、设备及存储介质，能够基于数据处理，实现对职业兴趣的智能预测。

[0010] 一种职业兴趣预测方法，所述方法包括：

[0011] 当接收到职业兴趣预测指令时，采集与所述职业兴趣预测指令对应的被预测者的属性数据；

[0012] 利用BERT 算法对所述属性数据进行语义匹配，得到所述被预测者的行为数据；

[0013] 基于所述行为数据对预先训练的预测模型进行拟合；

[0014] 当所述预测模型拟合完毕时，输出所述被预测者对应于每一预设职业的拟合分值；

[0015] 对所述拟合分值进行排序，得到排序结果；

[0016] 根据所述排序结果预测职业兴趣。

[0017] 根据本发明优选实施例，所述利用BERT算法对所述属性数据进行语义匹配，得到所述被预测者的行为数据包括：

[0018] 基于自然语言处理技术对所述属性数据进行分割，得到至少一个分词；

[0019] 调取预先训练的BERT模型；

[0020] 将所述至少一个分词输入到所述BERT模型中进行处理，输出所述行为数据。

[0021] 根据本发明优选实施例，在基于所述行为数据对预先训练的预测模型进行拟合前，所述方法还包括：

[0022] 当接收到训练指令时，采集样本数据；

[0023] 基于自然语言处理技术对所述样本数据进行分割，得到至少一个词语；

[0024] 利用所述至少一个词语，对Matrix factorization模型进行训练，得到所述预测模型。

[0025] 根据本发明优选实施例，在利用所述至少一个词语，对Matrix factorization模型进行训练时，所述方法还包括：

[0026] 基于梯度下降的前后向反向传播算法，拟合下述公式：

[0027]

[0028] 其中，ri表示矩阵中第i行的嵌入向量，cj表示矩阵中第j列的嵌入向量，bi表示第i行的属性数据，bi与ri的长度相同，bj表示第j列的属性数据，nij表示第i行第j列的数据，即采集的样本数据。

[0029] 根据本发明优选实施例，所述方法还包括：

[0030] 从所述样本数据中调取验证集，所述验证集中包括验证样本及基准数据；

[0031] 将所述验证样本输入到所述Matrix factorization模型中，得到输出结果；

[0032] 基于所述基准数据，计算所述输出结果的当前准确率；

[0033] 当所述当前准确率不再提高时，确定所述Matrix factorization模型通过验证。

[0034] 根据本发明优选实施例，所述根据所述排序结果预测职业兴趣包括：

[0035] 调取预先配置的至少一个拟合分值范围，及与所述至少一个拟合分值范围中每个拟合分值范围对应的感兴趣度；

[0036] 将所述排序结果中的每个拟合分值与所述至少一个拟合分值范围进行匹配；

[0037] 获取匹配的拟合分值范围对应的感兴趣度作为对每个拟合分值对应的职业的预测感兴趣度。

[0038] 根据本发明优选实施例，在根据所述排序结果预测职业兴趣后，所述方法还包括：

[0039] 链接到指定职业推荐网站；

[0040] 基于所述排序结果，在所述指定职业推荐网站上进行职业推荐。

[0041] 一种职业兴趣预测装置，所述装置包括：

[0042] 采集单元，用于当接收到职业兴趣预测指令时，采集与所述职业兴趣预测指令对应的被预测者的属性数据；

[0043] 匹配单元，用于利用BERT算法对所述属性数据进行语义匹配，得到所述被预测者的行为数据；

[0044] 拟合单元，用于基于所述行为数据对预先训练的预测模型进行拟合；

[0045] 输出单元，用于当所述预测模型拟合完毕时，输出所述被预测者对应于每一预设职业的拟合分值；

[0046] 排序单元，用于对所述拟合分值进行排序，得到排序结果；

[0047] 预测单元，用于根据所述排序结果预测职业兴趣。

[0048] 根据本发明优选实施例，所述匹配单元具体用于：

[0049] 基于自然语言处理技术对所述属性数据进行分割，得到至少一个分词；

[0050] 调取预先训练的BERT模型；

[0051] 将所述至少一个分词输入到所述BERT模型中进行处理，输出所述行为数据。

[0052] 根据本发明优选实施例，所述采集单元，还用于在基于所述行为数据对预先训练的预测模型进行拟合前，当接收到训练指令时，采集样本数据；

[0053] 所述装置还包括：

[0054] 分割单元，用于基于自然语言处理技术对所述样本数据进行分割，得到至少一个词语；

[0055] 训练单元，用于利用所述至少一个词语，对Matrix factorization模型进行训练，得到所述预测模型。

[0056] 根据本发明优选实施例，所述拟合单元，还用于在利用所述至少一个词语，对Matrix factorization模型进行训练时，基于梯度下降的前后向反向传播算法，拟合下述公式：

[0057]

[0058] 其中，ri表示矩阵中第i行的嵌入向量，cj表示矩阵中第j列的嵌入向量，bi表示第i行的属性数据，bi与ri的长度相同，bj表示第j列的属性数据，nij表示第i行第j列的数据，即采集的样本数据。

[0059] 根据本发明优选实施例，所述装置还包括：

[0060] 调取单元，用于从所述样本数据中调取验证集，所述验证集中包括验证样本及基准数据；

[0061] 所述输出单元，还用于将所述验证样本输入到所述Matrix factorization模型中，得到输出结果；

[0062] 计算单元，用于基于所述基准数据，计算所述输出结果的当前准确率；

[0063] 确定单元，用于当所述当前准确率不再提高时，确定所述Matrix factorization模型通过验证。

[0064] 根据本发明优选实施例，所述预测单元具体用于：

[0065] 调取预先配置的至少一个拟合分值范围，及与所述至少一个拟合分值范围中每个拟合分值范围对应的感兴趣度；

[0066] 将所述排序结果中的每个拟合分值与所述至少一个拟合分值范围进行匹配；

[0067] 获取匹配的拟合分值范围对应的感兴趣度作为对每个拟合分值对应的职业的预测感兴趣度。

[0068] 根据本发明优选实施例，所述装置还包括：

[0069] 链接单元，用于在根据所述排序结果预测职业兴趣后，链接到指定职业推荐网站；

[0070] 推荐单元，用于基于所述排序结果，在所述指定职业推荐网站上进行职业推荐。

[0071] 一种电子设备，所述电子设备包括：

[0072] 存储器，存储至少一个指令；及

[0073] 处理器，执行所述存储器中存储的指令以实现所述职业兴趣预测方法。

[0074] 一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一个指令，所述至少一个指令被电子设备中的处理器执行以实现所述职业兴趣预测方法。

[0075] 由以上技术方案可以看出，本发明能够当接收到职业兴趣预测指令时，采集被预测者的属性数据，并利用BERT算法对所述属性数据进行语义匹配，得到所述被预测者的行为数据，以便对采集到的数据进行充分合理的利用，进一步基于所述行为数据对预先训练的预测模型进行拟合，当所述预测模型调整完毕时，输出拟合分值，由于以分值形式输出，使预测结果更具有解释性，并对所述拟合分值进行排序，得到排序结果，根据所述排序结果预测职业兴趣，从而实现对职业兴趣的智能预测。附图说明

[0076] 图1是本发明职业兴趣预测方法的较佳实施例的流程图。

[0077] 图2是本发明职业兴趣预测装置的较佳实施例的功能模块图。

[0078] 图3是本发明实现职业兴趣预测方法的较佳实施例的电子设备的结构示意图。

具体实施方式

[0079] 为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

[0080] 如图1所示，是本发明职业兴趣预测方法的较佳实施例的流程图。根据不同的需求，该流程图中步骤的顺序可以改变，某些步骤可以省略。

[0081] 所述职业兴趣预测方法应用于一个或者多个电子设备中，所述电子设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

[0082] 所述电子设备可以是任何一种可与用户进行人机交互的电子产品，例如，个人计算机、平板电脑、智能手机、个人数字助理(Personal Digital Assistant，PDA)、游戏机、交互式网络电视(Internet Protocol Television，IPTV)、智能式穿戴式设备等。

[0083] 所述电子设备还可以包括网络设备和/或用户设备。其中，所述网络设备包括，但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量主机或网络服务器构成的云。

[0084] 所述电子设备所处的网络包括但不限于互联网、广域网、城域网、局域网、虚拟专用网络(Virtual Private Network，VPN)等。

[0085] S10，当接收到职业兴趣预测指令时，采集与所述职业兴趣预测指令对应的被预测者的属性数据。

[0086] 在本发明的至少一个实施例中，所述职业兴趣预测指令可以由所述被预测者触发，还可以由进行职业推荐的相关工作人员等触发，本发明对所述职业兴趣预测指令的触发者及触发方式均不限制。

[0087] 在本发明的至少一个实施例中，所述电子设备采集被预测者的属性数据包括，但不限于以下一种或者多种方式的组合：

[0088] (1)所述电子设备通过网络爬虫技术爬取任意可信赖网站的相关数据，以作为所述被预测者的属性数据。例如：所述电子设备可以配置一张关键字列表，并根据所述关键字列表中的关键字进行爬取，所述电子设备还可以根据统一资源定位符URL(Uniform Resource Locator)来查找目标网页，本发明不限制。

[0089] 其中，所述相关数据是指影响职业方向的阅读等行为数据，以及职业规划等数据。

[0090] 具体地，所述可信赖网站可以包括指定职业预测领域的网站，或者是所述被预测者所在公司的企业网站等。

[0091] 通过上述实施方式，能够在节约人力成本的前提下，保证数据的可靠性、真实性及全面性。

[0092] (2)所述电子设备显示问卷，并在检测到用户填写完问卷后，向所述用户发送鼓励信息，同时收集填写后的问卷作为所述属性数据。

[0093] 具体地，所述鼓励信息可以包括，但不限于：奖金、优惠券、奖励证书、上级鼓励语言等。

[0094] 进一步地，在进行问卷调查时，为了鼓励所述用户填写真实的信息，所述电子设备还可以在显示器上显示提示信息，所述提示信息用于提示正在填写问卷的用户，问卷调查采用不记名方式，使用户放心填写。

[0095] 通过上述实施方式，能够在不具备网络爬取条件(如：不具备所述可信赖网站的访问权限)的情况下，对所述被预测者的属性数据进行同样全面的采集。

[0096] 在本发明的至少一个实施例中，无论采用哪种方式进行数据采集，为了保证预测的可信性，所述被预测者的属性数据应具备如下特性：

[0097] (1)数据的真实性，以保证模型效果。

[0098] (2)采集群体的广泛性。

[0099] 具体地，广泛性体现在个人特质上的广泛以及职业种类上的广泛。

[0100] 例如：采集的人群可以包括各行各业，或者处于各个不同的年龄段，还可以包括不同的性格等。

[0101] (3)数据量的充分性。

[0102] 可以理解的是，为保证模型训练充分，因此数据量越多越好。

[0103] 例如：为了保证采集的数据具有广泛性及充分性，所述电子设备可以采用网络爬虫技术进行数据爬取，并且在进行数据爬取时，可以首先获取待爬取的网站的安全证书，并确定所述待爬取的网站是否具有专业认证，以进一步保证数据的真实有效。

[0104] 在本发明的至少一个实施例中，所述属性数据包括，但不限于以下一种或者多种的组合：

[0105] 看书、慢跑、打球、篮球等行为数据，软件开发、经济研究、公务员、创业等职业兴趣数据。

[0106] S11，利用BERT(Bidirectional Encoder Representations from Transformers)算法对所述属性数据进行语义匹配，得到所述被预测者的行为数据。

[0107] 在本发明的至少一个实施例中，所述行为数据是指被预测者经常产生的行为，如：看书、跑步等。

[0108] 在本发明的至少一个实施例中，所述电子设备利用BERT算法对所述属性数据进行语义匹配，得到所述被预测者的行为数据包括：

[0109] 所述电子设备基于自然语言处理技术(Nature Language Processing，NLP)对所述属性数据进行分割，得到至少一个分词，并调取预先训练的BERT模型，所述电子设备将所述至少一个分词输入到所述BERT模型中进行处理，输出所述行为数据。

[0110] 例如：用户A填写的词汇为“看书”，用户B填写的词汇为“读书”，所述电子设备将“看书”及“读书”输入所述BERT模型后，鉴于两个词汇实际表达的意思是一样的，因此均输出“阅读”。

[0111] 通过上述实施方式，能够对所述属性数据进行进一步处理，进而得到具有统一标准的行为数据，以便通过采集到的属性数据，获取到更多的行为数据作为预测基准，在充分利用了采集到的属性数据的同时，也提高了预测的准确性。

[0112] 在本发明的至少一个实施例中，在利用BERT算法对所述属性数据进行语义匹配，得到所述被预测者的行为数据前，所述方法还包括：

[0113] 所述电子设备训练所述BERT模型。

[0114] 具体地，所述电子设备训练所述BERT模型包括：

[0115] 所述电子设备通过对大量未标注的语料进行非监督的预训练，来学习其中的表达法，进一步地，所述电子设备使用少量标记的训练数据，并以监督方式微调预训练后得到的模型，进而执行各种监督任务，最终训练得到所述BERT模型。

[0116] 通过上述实施方式，能够训练得到所述BERT模型，鉴于所述BERT模型在语义匹配上的处理效果更优，因此能够为后续的职业兴趣预测提供更好的数据基础，使预测的效果更准确。

[0117] S12，基于所述行为数据对预先训练的预测模型进行拟合。

[0118] 在本发明的至少一个实施例中，所述预测模型是指Matrix Factorization模型，所述Matrix Factorization模型是一种基于深度神经网络的embedding(嵌入)技术。

[0119] 具体地，基于所述预测模型，利用所述行为数据中的每个数据分别进行拟合，不断逼近最终的分值，并通过多次拟合，输出对应的多个拟合分值。

[0120] 在本发明的至少一个实施例中，在基于所述行为数据对预先训练的预测模型进行拟合前，所述方法还包括：

[0121] 当接收到训练指令时，所述电子设备采集样本数据，并基于自然语言处理技术对所述样本数据进行分割，得到至少一个词语，所述电子设备利用所述至少一个词语，对Matrix factorization模型进行训练，得到所述预测模型。

[0122] 具体地，所述样本数据同样具有真实性、广泛性及充分性，以保证训练得到的Matrix factorization模型的实用性更强，能够适用于各种类型的用户，并且能够得到更加精准的预测结果。

[0123] 进一步地，所述电子设备基于自然语言处理技术对所述样本数据进行分割，得到至少一个词语包括：

[0124] 所述电子设备检测所述样本数据中的分隔符(如“、”)、结束符(如“。”)、标记语言(如“你好”)、单词形态(如：数字形态、英文形态等)等配置标记，并以所述配置标记对所述样本数据进行分割。

[0125] 当然，在其他实施例中，所述电子设备还可以采用其他方式对所述样本数据进行分割，如：神经网络算法等。

[0126] 更进一步地，在利用所述至少一个词语，对Matrix factorization模型进行训练时，所述方法还包括：

[0127] 基于梯度下降的前后向反向传播算法，拟合下述公式：

[0128]

[0129] 其中，ri表示矩阵中第i行的嵌入向量，cj表示矩阵中第j列的嵌入向量，bi表示第i行的属性数据，bi与ri的长度相同，bj表示第j列的属性数据，nij表示第i行第j列的数据，即采集的样本数据。

[0130] 具体地，在所述采集的样本数据所形成的列表中，每一列表示一个人在各个职业或者行为上的得分，对应形成每一列的列向量；每一行表示每个人在某个职业或者行为上的得分，对应形成每一行的行向量。例如：当采集到的样本数据为：张三在打篮球的行为上得分为5分，则以“张三”为列，以“打篮球”为行上的数据为5。通过这些采集的样本数据，即可通过训练得到对应的嵌入向量。

[0131] 进一步地，所述嵌入向量是指对某个人的特质的分数值提取，所述属性数据是指对某个人的特有性格特质的提取与概括。

[0132] 需要说明的是，深度神经中有一个叫嵌入层的网络层级，可以用来学习特定目标的嵌入向量。通过嵌入向量能够更加简洁精准的表达数据。所述嵌入向量通过不断训练得到。

[0133] 所述电子设备不断地对上述公式进行拟合训练，即以采集的样本数据为基准进行不断拟合，基于梯度下降的前后向反向传播算法迭代更新上述公式中的ri、cj、bi、bj4个向量参数，进而实现对所述Matrix factorization模型的不断优化。

[0134] 具体地，由于在训练过程中，当L的值达到最小后，就会开始增大，因此，只需要不断获取当前的L值，并与上一个L值进行比较，直到获取的当前L值相对于上一个L值增大时，停止训练，并将上一个L值对应的模型确定为最终模型，也就是说，将L值最小时对应的模型确定为最终的Matrix factorization模型。

[0135] 在训练过程中，所述电子设备还可以采用试错法、网格搜索、随机搜索等方式确定所述Matrix factorization模型的长度，以是所述Matrix factorization模型的训练效果更佳，本发明不限制。

[0136] 通过上述实施方式，所述电子设备能够实现对所述Matrix factorization模型的训练，即实现了对所述预测模型的拟合训练，鉴于所述Matrix factorization模型允许信息的稀疏性，因此能够在用户提供的信息不够完整的情况下，对用户的职业兴趣进行很好的预测。

[0137] 在本发明的至少一个实施例中，所述方法还包括：

[0138] 所述电子设备从所述样本数据中调取验证集，所述验证集中包括验证样本及基准数据，并将所述验证样本输入到所述Matrix factorization模型中，得到输出结果，所述电子设备基于所述基准数据，计算所述输出结果的当前准确率，当所述当前准确率不再提高时，确定所述Matrix factorization模型通过验证。

[0139] 由于在模型训练的过程中，准确度是不断提高的，因此，当准确率不再提高时，则可以确定所述Matrix factorization模型通过验证。

[0140] 通过上述实施方式，能够进一步验证所述Matrix factorization模型的准确率，并根据验证结果确定是否继续执行对所述Matrix factorization模型的训练，以便得到更加符合要求的模型。

[0141] S13，当所述预测模型拟合完毕时，输出所述被预测者对应于每一预设职业的拟合分值。

[0142] 在本发明的至少一个实施例中，所述拟合分值可以表示所述被预测者对于每种职业的感兴趣程度。

[0143] 例如：当输出为“设计9”、“软件开发7”时，表示所述电子设备对“设计”的感兴趣程度为9分，对“软件开发”的感兴趣程度为7分。

[0144] S14，对所述拟合分值进行排序，得到排序结果。

[0145] 在本发明的至少一个实施例中，所述排序结果能够反映出所述被预测者对各个职业感兴趣程度的高低。

[0146] 具体地，所述电子设备可以采用由高到低的方式对所述拟合分值进行排序，也可以采用由低到高的方式对所述拟合分值进行排序，本发明不限制。

[0147] S15，根据所述排序结果预测职业兴趣。

[0148] 在本发明的至少一个实施例中，所述职业兴趣以分值的方式表示，例如：最感兴趣可以为10分。

[0149] 在本发明的至少一个实施例中，所述电子设备根据所述排序结果预测职业兴趣包括：

[0150] 所述电子设备调取预先配置的至少一个拟合分值范围，及与所述至少一个拟合分值范围中每个拟合分值范围对应的感兴趣度，并将所述排序结果中的每个拟合分值与所述至少一个拟合分值范围进行匹配，所述电子设备获取匹配的拟合分值范围对应的感兴趣度作为对每个拟合分值对应的职业的预测感兴趣度。

[0151] 通过上述实施方式，能够实现对所述被预测者的职业兴趣的预测，以拟合分值的方式显示，使预测结果的解释性更强，并且，通过依据排序结果进行预测，也使预测结果更加直观。

[0152] 在本发明的至少一个实施例中，在根据所述排序结果预测职业兴趣后，所述方法还包括：

[0153] 所述电子设备链接到指定职业推荐网站，并基于所述排序结果，在所述指定职业推荐网站上进行职业推荐。

[0154] 其中，所述指定职业推荐网站可以是所述被预测者所在公司的网站，以实现内部推荐，或者是专业的求职网站，以便为所述被预测者提供更多的工作选择，根据不同的情况，所述指定职业推荐网站可以包括不同的类型，本发明不限制。

[0155] 通过上述实施方式，所述电子设备能够直接为所述被预测者进行职业推荐，提升了用户友好性。

[0156] 由以上技术方案可以看出，本发明能够当接收到职业兴趣预测指令时，采集被预测者的属性数据，并利用BERT算法对所述属性数据进行语义匹配，得到所述被预测者的行为数据，以便对采集到的数据进行充分合理的利用，进一步基于所述行为数据对预先训练的预测模型进行拟合，当所述预测模型调整完毕时，输出拟合分值，由于以分值形式输出，使预测结果更具有解释性，并对所述拟合分值进行排序，得到排序结果，根据所述排序结果预测职业兴趣，从而实现对职业兴趣的智能预测。

[0157] 如图2所示，是本发明职业兴趣预测装置的较佳实施例的功能模块图。所述职业兴趣预测装置11包括采集单元110、匹配单元111、拟合单元112、输出单元113、排序单元114、预测单元115、分割单元116、训练单元117、调取单元118、计算单元119、确定单元120、链接单元121以及推荐单元122。本发明所称的模块/单元是指一种能够被处理器13所执行，并且能够完成固定功能的一系列计算机程序段，其存储在存储器12中。在本实施例中，关于各模块/单元的功能将在后续的实施例中详述。

[0158] 当接收到职业兴趣预测指令时，采集单元110采集与所述职业兴趣预测指令对应的被预测者的属性数据。

[0159] 在本发明的至少一个实施例中，所述职业兴趣预测指令可以由所述被预测者触发，还可以由进行职业推荐的相关工作人员等触发，本发明对所述职业兴趣预测指令的触发者及触发方式均不限制。

[0160] 在本发明的至少一个实施例中，所述采集单元110采集被预测者的属性数据包括，但不限于以下一种或者多种方式的组合：

[0161] (1)所述采集单元110通过网络爬虫技术爬取任意可信赖网站的相关数据，以作为所述被预测者的属性数据。例如：所述电子设备可以配置一张关键字列表，并根据所述关键字列表中的关键字进行爬取，所述电子设备还可以根据统一资源定位符URL(Uniform Resource Locator)来查找目标网页，本发明不限制。

[0162] 其中，所述相关数据是指影响职业方向的阅读等行为数据，以及职业规划等数据。

[0163] 具体地，所述可信赖网站可以包括指定职业预测领域的网站，或者是所述被预测者所在公司的企业网站等。

[0164] 通过上述实施方式，能够在节约人力成本的前提下，保证数据的可靠性、真实性及全面性。

[0165] (2)所述采集单元110显示问卷，并在检测到用户填写完问卷后，向所述用户发送鼓励信息，同时收集填写后的问卷作为所述属性数据。

[0166] 具体地，所述鼓励信息可以包括，但不限于：奖金、优惠券、奖励证书、上级鼓励语言等。

[0167] 进一步地，在进行问卷调查时，为了鼓励所述用户填写真实的信息，所述采集单元110还可以在显示器上显示提示信息，所述提示信息用于提示正在填写问卷的用户，问卷调查采用不记名方式，使用户放心填写。

[0168] 通过上述实施方式，能够在不具备网络爬取条件(如：不具备所述可信赖网站的访问权限)的情况下，对所述被预测者的属性数据进行同样全面的采集。

[0169] 在本发明的至少一个实施例中，无论采用哪种方式进行数据采集，为了保证预测的可信性，所述被预测者的属性数据应具备如下特性：

[0170] (1)数据的真实性，以保证模型效果。

[0171] (2)采集群体的广泛性。

[0172] 具体地，广泛性体现在个人特质上的广泛以及职业种类上的广泛。

[0173] 例如：采集的人群可以包括各行各业，或者处于各个不同的年龄段，还可以包括不同的性格等。

[0174] (3)数据量的充分性。

[0175] 可以理解的是，为保证模型训练充分，因此数据量越多越好。

[0176] 例如：为了保证采集的数据具有广泛性及充分性，所述采集单元110可以采用网络爬虫技术进行数据爬取，并且在进行数据爬取时，可以首先获取待爬取的网站的安全证书，并确定所述待爬取的网站是否具有专业认证，以进一步保证数据的真实有效。

[0177] 在本发明的至少一个实施例中，所述属性数据包括，但不限于以下一种或者多种的组合：

[0178] 看书、慢跑、打球、篮球等行为数据，软件开发、经济研究、公务员、创业等职业兴趣数据。

[0179] 匹配单元111利用BERT(Bidirectional Encoder Representations from Transformers)算法对所述属性数据进行语义匹配，得到所述被预测者的行为数据。

[0180] 在本发明的至少一个实施例中，所述行为数据是指被预测者经常产生的行为，如：看书、跑步等。

[0181] 在本发明的至少一个实施例中，所述匹配单元111利用BERT算法对所述属性数据进行语义匹配，得到所述被预测者的行为数据包括：

[0182] 所述匹配单元111基于自然语言处理技术(Nature Language Processing，NLP)对所述属性数据进行分割，得到至少一个分词，并调取预先训练的BERT模型，所述匹配单元111将所述至少一个分词输入到所述BERT模型中进行处理，输出所述行为数据。

[0183] 例如：用户A填写的词汇为“看书”，用户B填写的词汇为“读书”，所述匹配单元111将“看书”及“读书”输入所述BERT模型后，鉴于两个词汇实际表达的意思是一样的，因此均输出“阅读”。

[0184] 通过上述实施方式，能够对所述属性数据进行进一步处理，进而得到具有统一标准的行为数据，以便通过采集到的属性数据，获取到更多的行为数据作为预测基准，在充分利用了采集到的属性数据的同时，也提高了预测的准确性。

[0185] 在本发明的至少一个实施例中，在利用BERT算法对所述属性数据进行语义匹配，得到所述被预测者的行为数据前，所述方法还包括：

[0186] 训练所述BERT模型。

[0187] 具体地，所述训练所述BERT模型包括：

[0188] 通过对大量未标注的语料进行非监督的预训练，来学习其中的表达法，进一步地，使用少量标记的训练数据，并以监督方式微调预训练后得到的模型，进而执行各种监督任务，最终训练得到所述BERT模型。

[0189] 通过上述实施方式，能够训练得到所述BERT模型，鉴于所述BERT模型在语义匹配上的处理效果更优，因此能够为后续的职业兴趣预测提供更好的数据基础，使预测的效果更准确。

[0190] 拟合单元112基于所述行为数据对预先训练的预测模型进行拟合。

[0191] 在本发明的至少一个实施例中，所述预测模型是指Matrix Factorization模型，所述Matrix Factorization模型是一种基于深度神经网络的embedding(嵌入)技术。

[0192] 具体地，基于所述预测模型，利用所述行为数据中的每个数据分别进行拟合，不断逼近最终的分值，并通过多次拟合，输出对应的多个拟合分值。

[0193] 在本发明的至少一个实施例中，在基于所述行为数据对预先训练的预测模型进行拟合前，所述方法还包括：

[0194] 当接收到训练指令时，所述采集单元110采集样本数据，分割单元116基于自然语言处理技术对所述样本数据进行分割，得到至少一个词语，训练单元117利用所述至少一个词语，对Matrix factorization模型进行训练，得到所述预测模型。

[0195] 具体地，所述样本数据同样具有真实性、广泛性及充分性，以保证训练得到的Matrix factorization模型的实用性更强，能够适用于各种类型的用户，并且能够得到更加精准的预测结果。

[0196] 进一步地，所述分割单元116基于自然语言处理技术对所述样本数据进行分割，得到至少一个词语包括：

[0197] 所述分割单元116检测所述样本数据中的分隔符(如“、”)、结束符(如“。”)、标记语言(如“你好”)、单词形态(如：数字形态、英文形态等)等配置标记，并以所述配置标记对所述样本数据进行分割。

[0198] 当然，在其他实施例中，所述分割单元116还可以采用其他方式对所述样本数据进行分割，如：神经网络算法等。

[0199] 更进一步地，在利用所述至少一个词语，对Matrix factorization模型进行训练时，所述方法还包括：

[0200] 所述拟合单元112基于梯度下降的前后向反向传播算法，拟合下述公式：

[0201]

[0202] 其中，ri表示矩阵中第i行的嵌入向量，cj表示矩阵中第j列的嵌入向量，bi表示第i行的属性数据，bi与ri的长度相同，bj表示第j列的属性数据，nij表示第i行第j列的数据，即采集的样本数据。

[0203] 具体地，在所述采集的样本数据所形成的列表中，每一列表示一个人在各个职业或者行为上的得分，对应形成每一列的列向量；每一行表示每个人在某个职业或者行为上的得分，对应形成每一行的行向量。例如：当采集到的样本数据为：张三在打篮球的行为上得分为5分，则以“张三”为列，以“打篮球”为行上的数据为5。通过这些采集的样本数据，即可通过训练得到对应的嵌入向量。

[0204] 进一步地，所述嵌入向量是指对某个人的特质的分数值提取，所述属性数据是指对某个人的特有性格特质的提取与概括。

[0205] 需要说明的是，深度神经中有一个叫嵌入层的网络层级，可以用来学习特定目标的嵌入向量。通过嵌入向量能够更加简洁精准的表达数据。所述嵌入向量通过不断训练得到。

[0206] 所述拟合单元112不断地对上述公式进行拟合训练，即以采集的样本数据为基准进行不断拟合，基于梯度下降的前后向反向传播算法迭代更新上述公式中的ri、cj、bi、bj4个向量参数，进而实现对所述Matrix factorization模型的不断优化。

[0207] 具体地，由于在训练过程中，当L的值达到最小后，就会开始增大，因此，只需要不断获取当前的L值，并与上一个L值进行比较，直到获取的当前L值相对于上一个L值增大时，停止训练，并将上一个L值对应的模型确定为最终模型，也就是说，将L值最小时对应的模型确定为最终的Matrix factorization模型。

[0208] 在训练过程中，所述拟合单元112还可以采用试错法、网格搜索、随机搜索等方式确定所述Matrix factorization模型的长度，以是所述Matrix factorization模型的训练效果更佳，本发明不限制。

[0209] 通过上述实施方式，能够实现对所述Matrix factorization模型的训练，即实现了对所述预测模型的拟合训练，鉴于所述Matrix factorization模型允许信息的稀疏性，因此能够在用户提供的信息不够完整的情况下，对用户的职业兴趣进行很好的预测。

[0210] 在本发明的至少一个实施例中，所述方法还包括：

[0211] 调取单元118从所述样本数据中调取验证集，所述验证集中包括验证样本及基准数据，输出单元113将所述验证样本输入到所述Matrix factorization模型中，得到输出结果，计算单元119基于所述基准数据，计算所述输出结果的当前准确率，当所述当前准确率不再提高时，确定单元120确定所述Matrix factorization模型通过验证。

[0212] 由于在模型训练的过程中，准确度是不断提高的，因此，当准确率不再提高时，则可以确定所述Matrix factorization模型通过验证。

[0213] 通过上述实施方式，能够进一步验证所述Matrix factorization模型的准确率，并根据验证结果确定是否继续执行对所述Matrix factorization模型的训练，以便得到更加符合要求的模型。

[0214] 当所述预测模型拟合完毕时，所述输出单元113输出所述被预测者对应于每一预设职业的拟合分值。

[0215] 在本发明的至少一个实施例中，所述拟合分值可以表示所述被预测者对于每种职业的感兴趣程度。

[0216] 例如：当输出为“设计9”、“软件开发7”时，表示所述电子设备对“设计”的感兴趣程度为9分，对“软件开发”的感兴趣程度为7分。

[0217] 排序单元114对所述拟合分值进行排序，得到排序结果。

[0218] 在本发明的至少一个实施例中，所述排序结果能够反映出所述被预测者对各个职业感兴趣程度的高低。

[0219] 具体地，所述排序单元114可以采用由高到低的方式对所述拟合分值进行排序，也可以采用由低到高的方式对所述拟合分值进行排序，本发明不限制。

[0220] 预测单元115根据所述排序结果预测职业兴趣。

[0221] 在本发明的至少一个实施例中，所述职业兴趣以分值的方式表示，例如：最感兴趣可以为10分。

[0222] 在本发明的至少一个实施例中，所述预测单元115根据所述排序结果预测职业兴趣包括：

[0223] 所述预测单元115调取预先配置的至少一个拟合分值范围，及与所述至少一个拟合分值范围中每个拟合分值范围对应的感兴趣度，并将所述排序结果中的每个拟合分值与所述至少一个拟合分值范围进行匹配，所述预测单元115获取匹配的拟合分值范围对应的感兴趣度作为对每个拟合分值对应的职业的预测感兴趣度。

[0224] 通过上述实施方式，能够实现对所述被预测者的职业兴趣的预测，以拟合分值的方式显示，使预测结果的解释性更强，并且，通过依据排序结果进行预测，也使预测结果更加直观。

[0225] 在本发明的至少一个实施例中，在根据所述排序结果预测职业兴趣后，所述方法还包括：

[0226] 链接单元121链接到指定职业推荐网站，推荐单元122基于所述排序结果，在所述指定职业推荐网站上进行职业推荐。

[0227] 其中，所述指定职业推荐网站可以是所述被预测者所在公司的网站，以实现内部推荐，或者是专业的求职网站，以便为所述被预测者提供更多的工作选择，根据不同的情况，所述指定职业推荐网站可以包括不同的类型，本发明不限制。

[0228] 通过上述实施方式，所述推荐单元122能够直接为所述被预测者进行职业推荐，提升了用户友好性。

[0229] 由以上技术方案可以看出，本发明能够当接收到职业兴趣预测指令时，采集被预测者的属性数据，并利用BERT算法对所述属性数据进行语义匹配，得到所述被预测者的行为数据，以便对采集到的数据进行充分合理的利用，进一步基于所述行为数据对预先训练的预测模型进行拟合，当所述预测模型调整完毕时，输出拟合分值，由于以分值形式输出，使预测结果更具有解释性，并对所述拟合分值进行排序，得到排序结果，根据所述排序结果预测职业兴趣，从而实现对职业兴趣的智能预测。

[0230] 如图3所示，是本发明实现职业兴趣预测方法的较佳实施例的电子设备的结构示意图。

[0231] 在本发明的一个实施例中，所述电子设备1包括，但不限于，存储器12、处理器13，以及存储在所述存储器12中并可在所述处理器13上运行的计算机程序，例如职业兴趣预测程序。

[0232] 本领域技术人员可以理解，所述示意图仅仅是电子设备1的示例，并不构成对电子设备1的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述电子设备1还可以包括输入输出设备、网络接入设备、总线等。

[0233] 所述处理器13可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器13是所述电子设备1的运算核心和控制中心，利用各种接口和线路连接整个电子设备1的各个部分，及执行所述电子设备1的操作系统以及安装的各类应用程序、程序代码等。

[0234] 所述处理器13执行所述电子设备1的操作系统以及安装的各类应用程序。所述处理器13执行所述应用程序以实现上述各个职业兴趣预测方法实施例中的步骤，例如图1所示的步骤S10、S11、S12、S13、S14、S15。

[0235] 或者，所述处理器13执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能，例如：当接收到职业兴趣预测指令时，采集与所述职业兴趣预测指令对应的被预测者的属性数据；利用BERT算法对所述属性数据进行语义匹配，得到所述被预测者的行为数据；基于所述行为数据对预先训练的预测模型进行拟合；当所述预测模型拟合完毕时，输出所述被预测者对应于每一预设职业的拟合分值；对所述拟合分值进行排序，得到排序结果；根据所述排序结果预测职业兴趣。

[0236] 示例性的，所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器12中，并由所述处理器13执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述电子设备1中的执行过程。例如，所述计算机程序可以被分割成采集单元110、匹配单元111、拟合单元112、输出单元113、排序单元114、预测单元115、分割单元116、训练单元117、调取单元118、计算单元119、确定单元120、链接单元121以及推荐单元122。

[0237] 所述存储器12可用于存储所述计算机程序和/或模块，所述处理器13通过运行或执行存储在所述存储器12内的计算机程序和/或模块，以及调用存储在存储器12内的数据，实现所述电子设备1的各种功能。所述存储器12可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备1的使用所创建的数据(比如音频数据等)等。此外，存储器12可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。

[0238] 所述存储器12可以是电子设备1的外部存储器和/或内部存储器。进一步地，所述存储器12可以是集成电路中没有实物形式的具有存储功能的电路，如FIFO(First In First Out，)等。或者，所述存储器12也可以是具有实物形式的存储器，如内存条、TF卡(Trans-flash Card)等等。

[0239] 所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。

[0240] 其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)。

[0241] 结合图1，所述电子设备1中的所述存储器12存储多个指令以实现一种职业兴趣预测方法，所述处理器13可执行所述多个指令从而实现：当接收到职业兴趣预测指令时，采集与所述职业兴趣预测指令对应的被预测者的属性数据；利用BERT算法对所述属性数据进行语义匹配，得到所述被预测者的行为数据；基于所述行为数据对预先训练的预测模型进行拟合；当所述预测模型拟合完毕时，输出所述被预测者对应于每一预设职业的拟合分值；对所述拟合分值进行排序，得到排序结果；根据所述排序结果预测职业兴趣。

[0242] 具体地，所述处理器13对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述，在此不赘述。

[0243] 在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

[0244] 所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

[0245] 另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

[0246] 对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。

[0247] 因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

[0248] 此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称，而并不表示任何特定的顺序。

[0249] 最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

标题	发布/更新时间	阅读量
一种用于提供视频节目内容总结的方法及其系统	2020-05-08	230
一种基于深度学习的中文自然语言处理方法	2020-05-08	263
SQL语句生成方法、装置、电子设备和存储介质	2020-05-08	694
基于多模态注意力机制的视频内容描述方法、系统、装置	2020-05-11	738
一种软件自动安装方法、系统、电子设备及存储介质	2020-05-13	943
一种地址信息文本的提取方法及相关设备	2020-05-08	562
基于中文小说文本的阅读器信息抽取方法及系统	2020-05-13	70
视频内容热度预测方法和装置	2020-05-12	490
一种基于机器学习的从半结构化文档中提取问答对的方法	2020-05-12	608
一种新型AI智能交互装置	2020-05-13	291

基于大数据的职业兴趣预测方法、装置、设备及存储介质

基于大数据的职业兴趣预测方法、装置、设备及存储介质

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：