首页 / 专利库 / 专利权 / 形式要求 / 基于大数据的区域人才供给量化分析方法

基于大数据的区域人才供给量化分析方法

阅读:279发布:2021-06-10

专利汇可以提供基于大数据的区域人才供给量化分析方法专利检索,专利查询,专利分析的服务。并且本 发明 的基于 大数据 的区域人才供给量化分析方法,包括:a).确定目标数据源和采集范围;b).采集目标源数据;c).信息提取;d).数据清洗;e).数据存储;f).指标维度分类;g).分析分类;h).分析方法;i).分析结果 可视化 。本发明的区域人才供给量化分析方法,以 指定 区域各类学校的招生信息为目标源数据,采用分布式爬虫采集目标源数据,然后从招生信息中提取包含学校名称、专业和招生人数在内的指标维度信息,并对数据进行清洗和去重处理,然后根据用户的要求将数据通过图表的形式展示出来,可从不同的 角 度分析指定区域的人才供给情况,以及对对个不同区域的人才供给进行对比,有利于决策者根据发展需要宏观调控人才供给。,下面是基于大数据的区域人才供给量化分析方法专利的具体信息内容。

1.一种基于大数据的区域人才供给量化分析方法,其特征在于,通过以下步骤来实现:
a).确定目标数据源和采集范围,人才供给分析的基础是数据,优质可量化,且能够实时反映区域人才供给的数据是做好分析的前提,因此选取的目标数据源为:各类学校的招生信息,并通过比例计算获取不同学历、不同专业人才的供给情况;
由于单独一个区域的分析并不能体现本区域的优势及不足,只有在多个同级区域对比分析中才能找到问题;根据人才流动情况,人们更倾向于就近相邻区域的流动;因此,本系统将同一行政区下所有与指定区域同级的区域也都纳入到采集的范围;
b).采集目标源数据,采用分布式爬虫采集指定范围内的目标数据源;
c).信息提取,由于所采集的数据是原始的非结构化网页,其中杂陈广告、友情链接、同类推荐无关信息,首先采用DOM树的方法和基于行分布函数方法抽取目标网页中的数据;
然后从非结构化的网页数据中提取包括学校名称、专业及招生人数在内的信息,每个信息定义为一个指标维度,同时也将学校所属区域、学校招生批次、学校招生学历列为指标维度,与提取的指标维度共同构建指标维度列表;
d).数据清洗,采用教育部制定的普通高等学校本科专业目录中的专业名称统一不同学校专业名目,实现专业指标维度的标准化处理;
学校每年均会发布招生信息,且每年各学校发布招生信息的时间略有不同,需多次重复扫描含有招生信息的网页;为防止多次采集相同招生信息后重复存储,在采集到招生信息后需要进行清洗,过滤重复发布的信息;
e).数据存储,所提取的每一个指标维度使用结构化数据库中一列存储,为方便招聘信息的归类统计将网页URL、招生信息媒体来源也作为一个指标维度存储于数据库一列;区分相同学校不同时间的招生信息以及确定学校供给人才的时间,将招生时间和学制也分别作为指标维度存储于数据库一列;
f).指标维度分类,从招聘信息中提取的诸多指标维度根据其功用分为四类:区域维度、动态维度、目标维度和限定维度;区域维度用于指定分析的目标区域,区域维度的分析以分成两类:本区域人才供给分析和多区域人才供给对比分析;动态维度用于指定分析的时间范围,动态维度的分析以分成两类:一定时间段的整体宏观分析和时间演化分析;
人才供给分析的主要目标在于向用户展示本区域人才的供给量,因此将目标维度定为供给量;限定维度用于指定分析的限定条件,限定维度为学历和专业两个指标维度;
g).分析分类,各种指标维度按照不同方式组合可产生诸多不同结果,为使结果条理清晰更易于被用户所理解,采用区域维度和动态维度相组合的方式对分析进行大类划分;分析分为四型分析:Ⅰ型分析、II型分析、Ⅲ型分析和Ⅳ型分析;
其中,Ⅰ型分析为本区域一定时间段内整体宏观人才供给分析;II型分析为本区域随时间演化人才供给趋势分析;Ⅲ型分析为多区域一定时间段整体宏观人才供给对比分析;Ⅳ型分析为多区域随时间演化人才供给变化趋势对比分析;
上述四型分析按其分析所获的结果是以量的形式体现还是以序的形式体现,又将每一类分为供给量化分析和供给热点分析两个小类,共计八个小类的分析;
h).分析方法,目标维度供给量的分析结果属于数值型数据,按照分析分类对其进行量化分析和热点分析;
i).分析结果可视化,采用种类丰富的图表对分析结果进行展示,对于分析结果采用仪表盘、饼图、折线图、柱图、雷达图、矩形树图或表格图表展示。
2.根据权利要求1所述的基于大数据的区域人才供给量化分析方法,其特征在于:步骤b)中所述目标源数据的采集通过以下步骤来实现:
b-1).收集指定区域所处行政区下所有区域的学校列表及其网站URL;
b-2).找出学校网站中与招生信息相关版块的采集入口;
b-3).采集招生版块下的所有网页,通过关键词匹配的方式定位招生信息所处网页;
b-4).采集所定位网页的招生信息。
3.根据权利要求1或2所述的基于大数据的区域人才供给量化分析方法,其特征在于:
步骤c)中所述的信息提取中,大多数学校的招生信息一般会采用表格展示招生信息,然而学校在发布招生信息时并无固定格式较为随意,表格中所出现的指标维度也会较为随意,此种情形很难采用固定的正则表达式来提取数据;本发明直接处理表格从中提取指标维度的值,具体方法如下:
c-1).获取表格,在招生信息页面中由于页面布局的原因可能会存在多个表格的情形,所以首先通过能够标识表格的属性在多个表格中抽取记录招聘信息的表格;
c-2).表格去噪,去除网页中表格中控制页面显示格式的DIV、CSS及与表格无关的HTML标签,只保留与表格显示和控制相关的诸如table、tr、td、colspan标签;
c-3).表格标准化,将表格转化成简单表格,使得表格中的每个单元格只占一行一列且只有一个值;
c-4).判断表格横竖,发布招生信息时既可采用横表,也可采用纵表;因此需要判断记录招生信息的表格是横表还是纵表;取表格的第一行表格的单元格值和第一列表格的单元格值,分别与各个指标维度进行匹配,比较第一行和第一列单元格值的命中率,若第一行单元格值的命中率高则为横表,否则为纵表;
c-5).提取键值序列,若表格为横表,则将第一行单元格的值映射到相应的指标维度,相应列单元格的值即为指标维度的值,形成键值对将无结构的HTML表格转化成结构化的键值对,进而存储到结构化数据库;若表格为横表纵表,将第一列单元格的值映射到指标维度,相应行单元格的值即为指标维度的值,提取键值对存储到结构化数据库;
如果招生信息附件为Word、Excel或PDF文件,则采用POI解析Word和Excel文档,采用PDFBox解析PDF文档,将其转化为表格,然后再执行步骤c-3)至c-5)。
4.根据权利要求1或2所述的基于大数据的区域人才供给量化分析方法,其特征在于:
步骤d)中,专业指标维度的标准化处理方法为:采用文本的语义相似性度算法最长公共子序列、最小编辑距离或余弦相似度为学校专业名目找出相似度最大的目录专业名称,进而将指标维度专业的值统一到目录中的专业名称中;
多次采集相同招生信息的去重方法为:
d-1).对比招生信息网页的URL是否相同,URL是互联网资源的唯一标识,如同一URL地址的信息只需采集存储一次即可,如相同,则认为是重复招生信息,对其不进行存储;如不同转入d-2);
d-2).对比相同学校招生信息的招生时间是否相同,若相同转入d-3);如不同,认为是非重复招生信息,提取信息后直接存储于结构化数据库中;
d-3).对比相同学校相同时间招生信息的招生专业是否相同,是否有新增加的专业,若相同且无新增专业转入d-4);若不同或有新增专业,则不同专业和新增专业的数据为非重复招生信息,提取信息后直接存储于结构化数据库中;
d-4).对比相同学校相同时间招生信息的招生数量是否相同,若相同则判定为重复信息不再存储,若不同则采用较新时间的招生数量更新数据库中的原有数量。
5.根据权利要求1或2所述的基于大数据的区域人才供给量化分析方法,其特征在于:
步骤g)中八个小类的分析为:Ⅰ型供给量化分析、Ⅰ型供给热点分析、II型供给量化分析、II型供给热点分析、Ⅲ型供给量化分析、Ⅲ型供给热点分析、Ⅳ型供给量化分析、Ⅳ型供给热点分析;
Ⅰ型供给量化分析,从多度多层面对指定区域的人才供给量做出有效分析,分析流程如下:
g-1-1).首先,在区域维度中选择一个区域作为分析区域;
g-1-2).其次,在动态维度中选择一个时段作为分析时段;
g-1-3).再次,在限定维度中选择0到2个指标维度作为分析的限定条件,每个限定维度选择一个值或多个值;
g-1-4).最后,选择目标维度供给量作为分析对象;
若未指定限定维度,可宏观地说明划定时间段内指定区域总的人才供给量有多少;若指定单一限定维度,可分析划定时间段内指定区域在不同专业或不同学历人才的供给量;
若指定中全部限定维度,可分析划定时间段内指定区域不同专业和不同学历各种组合的人才供给量;
Ⅰ型供给热点分析,可从多角度对指定区域的热点专业做出有效分析,分析流程如下:
g-2-1).首先,在区域维度中选择一个区域作为分析区域;
g-2-2).其次,在动态维度中选择一个时段作为分析时段;
g-2-3).再次,在限定维度中选择0或1个指标维度作为分析的限定条件,每个限定维度选择一个值或多个值;
g-2-4).最后,选择目标维度供给量作为分析对象;
限定维度中的指标维度专业类别值默认为不限,限定维度学历未指定时,可获得划定时间段指定区域的热点专业;限定维度学历指定时,可分析划定时间段指定区域不同学历的热点专业;
II型供给量化分析,从多角度对指定区域不同阶段的人才供给量变化做出有效对比分析,分析流程如下:
g-3-1).首先,在区域维度中选择一个区域作为分析区域;
g-3-2).其次,在动态维度中选择对比时段作为分析时段,所选定的对比时段通常是月度、季度或年度等自然时间分割节点
g-3-3).再次,在限定维度中选择0到2个指标维度作为分析的限定条件,每个限定维度选择一个值或多个值;
g-3-4).最后,选择目标维度供给量作为分析对象;
若未指定限定维度,可宏观地说明指定区域不同时段人才供给量的变化情况,从侧面反映区域内人才的饱和程度;通过指定单一限定维度,可分析指定区域在相同专业或相同学历的人才在不同时间段供给量的变动趋势;通过限定维度的组合,可分析指定区域不同时段专业和学历各种组合的人才供给变动情况;
II型供给热点分析,从多角度对指定区域不同阶段热点专业变化做出有效分析,分析流程如下:
g-4-1).首先,在区域维度中选择一个区域作为分析区域;
g-4-2).其次,在动态维度中选择对比时段作为分析时段,所选定的对比时段通常是月度、季度或年度等自然时间分割节点;
g-4-3).再次,在限定维度中选择或不选择指标维度学历作为分析的限定条件,可以不选择限定维度学习,也可以选择限定维度学历的一个值或多个值;
g-4-4).最后,选择目标维度供给量作为分析对象;
限定维度中的指标维度专业类别值默认为不限,若限定维度学历未指定,可获得指定区域不同时段的热点专业,从侧面反映了区域人才供给的变化情况;指定限定维度学历,可分析不同时段在相同学历热点专业的变化;
Ⅲ型供给量化分析,从多角度对不同区域的人才供给量做出有效对比分析,分析流程如下:
g-5-1).首先,在区域维度中选择多个区域作为对比分析区域;
g-5-2).其次,在动态维度中选择一个时段作为分析时段;
g-5-3).再次,在限定维度中选择0到2个指标维度作为分析的限定条件,每个限定维度选择一个值或多个值;
g-5-4).最后,选择目标维度供给量作为分析对象;
未指定限定维度,可宏观地对比划定时间段内不同区域的人才供给量;通过指定单一限定维度,可分析划定时间段内不同区域在相同专业或相同学历人才供给量的对比;通过限定维度的组合,可分析不同区域相同专业和相同学历人才供给情况;
Ⅲ型供给热点分析,从多角度对多个区域的热点专业做出有效分析,分析流程如下:
g-6-1).首先,在区域维度中选择多个区域作为对比分析区域;
g-6-2).其次,在动态维度中选择一个时段作为分析时段;
g-6-3).再次,在限定维度中选择或不选择指标维度学历作为分析的限定条件,此分析中限定维度的选择并无任何要求,可以不选择限定维度学历,也可以选择限定维度学历的一个值或多个值;
g-6-4).最后,选择目标维度供给量作为分析对象;
限定维度中的指标维度专业类别值默认为不限,限定维度学历未指定,可获得划定时间段不同区域的热点专业;指定限定维度学历,可对比分析不同区域相同专业的热点专业差别;
Ⅳ型供给量化分析,从多角度对不同区域不同阶段的人才供给量变化做出有效对比分析,采用纵向发展的眼光和横向对比的眼光量化剖析区域人才供给,以区域不同阶段的人才诉求为点串成区域人才供给走向的线,分析流程如下:
g-7-1).首先,在区域维度中选择多个区域作为对比分析区域;
g-7-2).其次,在动态维度中选择对比时段作为分析时段,所选定的对比时段通常是月度、季度或年度等自然时间分割节点;
g-7-3).再次,在限定维度中选择0到2个指标维度作为分析的限定条件,此分析中限定维度的选择并无任何要求,可以不选择任一限定维度,也可以选择一个限定维度的一个值或多个值,还可以选择多个限定维度,每个限定维度选择一个值或每个限定维度选择多个值;
g-7-4).最后,选择目标维度供给量作为分析对象;
未指定限定维度,可宏观地分析多个区域不同时段人才供给量的变化情况,对比不同区域人才供给的增速情况;通过指定单一限定维度,可分析不同区域在相同专业或相同学历不同时间段人才供给量的变动趋势;通过限定维度的组合,可分析不同区域不同时段相同专业和相同学历的人才供给变动情况;
Ⅳ型供给热点分析,从多角度对不同区域不同阶段热点专业的变化趋势做出有效对比分析,纵览随时间的演进不同区域紧缺和高端人才供给的变迁路径,分析流程如下:
g-8-1).首先,在区域维度中选择多个区域作为对比分析区域;
g-8-2).其次,在动态维度中选择对比时段作为分析时段,所选定的对比时段通常是月度、季度或年度等自然时间分割节点;
g-8-3).再次,在限定维度中选择或不选择指标维度学历作为分析的限定条件,此分析中限定维度的选择并无任何要求,可以不选择限定维度学历,也可以选择限定维度学历的一个值或多个值;
g-8-4).最后,选择目标维度供给量作为分析对象;
限定维度中的指标维度专业类别值默认为不限,限定维度学历未指定,可获得不同区域不同时段的热点专业,从侧面反映了不同区域人才供给的演变情况;指定限定维度学历,可分析不同区域相同学历的热点专业随时间演进的变化。
6.根据权利要求5所述的基于大数据的区域人才供给量化分析方法,其特征在于:步骤h)中所述的目标维度供给量的量化分析方法为:
h-1-1).记录学历和专业两个限定维度的选择顺序;
h-1-2).按照有序的限定维度、区域维度和动态维度的顺序,记录选中的指标维度及每个选定指标维度选中的值,将其转化成不等长矩阵,其中矩阵每一行代表一个选中的指标维度,一行中的一个元素代表对应指标维度选中的值;
假定包含区域维度和动态维度共选中了idxn个指标维度,选中的指标维度分别为Chose_Index1,Chose_Index2,…,Chose_Indexidxn,每个限定维度选中值的个数为Chose_an1,Chose_an2,…,Chose_anidxn,选中的值分别是Chose_Index1_Atb1,Chose_Index1_Atb2,…,Chose_Index1_Atban1,Chose_Index2_Atb1,Chose_Index2_Atb2,…,Chose_Index2_Atban2,…,Chose_Indexidxn_Atb1,Chose_Indexidxn_Atb2,…,Chose_Indexidxn_Atbanidxn;
则转化的数组共idxn维,第i维为指标维度Chose_Indexi,第i维的长度为Chose_ani,第i维数组的值分别为Chose_Indexi_Atb1,Chose_Indexi_Atb2,…,Chose_Indexi_Atbani;
h-1-3).取出矩阵第一维数组第一个元素作为根节点,按照深度优先遍历不等长矩阵,将其转化为一棵树;
h-1-4).取出矩阵第一维数组的后续元素作为根节点,按照深度优先遍历不等长矩阵,将其转化成一棵树;
h-1-5).迭代操作h-1-4),直至第一维数组元素为空;
h-1-6).按照第一维数组的元素顺序,自左至右排列矩阵转化而成多棵树的根节点顺序构建森林,森林中共有Chose_an1棵树;
h-1-7).首先按照自左至右遍历森林中的树,然后按照深度优先遍历每棵树,记录每一个遍历从树根至叶子所经历的完整路径,如[Chose_Index1_Atb1->Chose_Index2_Atb1->Chose_Index3_Atb1->…->Chose_Indexidxn_Atb1]、[Chose_Index1_Atb1->Chose_Index2_Atb1->Chose_Index3_Atb1->…->Chose_Indexidxn_Atb2]、…、[Chose_Index1_Atb1->Chose_Index2_Atb1->Chose_Index3_Atb1->…->Chose_Indexidxn_Atbanidxn],共有Chose_an1×Chose_an2×…×Chose_anidxn条路径;
h-1-8).结合属性值所属指标维度,将一条遍历路径转化为一条数据查询限定规则;如路径[Chose_Index1_Atb1->Chose_Index2_Atb1->Chose_Index3_Atb1->…->Chose_Indexidxn_Atb1]转化为一条规则:Chose_Index1matches Chose_Index1_Atb1And Chose_Index2matches Chose_Index2_Atb1And Chose_Index3matches Chose_Index3_Atb1And…And Chose_Indexidxn matches Chose_Indexidxn_Atb1,共有Chose_an1×Chose_an2×…×Chose_anidxn条数据查询规则;
h-1-9).按照顺序抽取一条数据查询规则,在抓取的数据中进行查询,找出满足规则的数据集合Dataseti,最终对Dataseti进行统计求和获取结果Resulti;
h-1-10).迭代操作h-1-9),直至抽取完所有的数据查询规则,汇总每条数据查询规则所获得的结果Resulti,返回量化分析结果集ResultSet;
步骤h)中所述的目标维度供给量的热点分析方法为:
在热点分析中,限定维度专业默认为不限,因此在统计指标维度的选择情况时,不统计该指标维度;其前9步操作与量化分析的操作h-1-1)到操作h-1-9)相同;
h-2-10).迭代操作h-1-9),直至抽取完所有的数据查询规则,对比每条数据查询规则所获得的结果Resulti,按照用户设定抽取前若干项结果作为热点结果集TopResultSet,并抽取其对应的供给量集合TopMajor。
7.根据权利要求6所述的基于大数据的区域人才供给量化分析方法,其特征在于:步骤i)中量化分析结果的呈现方法为:
i-1-1).初始时令选择多值的维度数Dimension_Count=0;
i-1-2).查看区域维度、动态维度和限定维度,计算选择多值的维度数,若区域维度选择了多个区域,则Dimension_Count加1;
若动态维度选择了多个对比时段,则Dimension_Count加1;
从限定维度中取出一个指标维度,若该指标维度选择了多个值,则Dimension_Count加
1,迭代此操作,直至限定维度中的指标维度为空;
i-1-3).若Dimension_Count的值等于0,表明除目标维度供给量外,其余指标维度至多选取了一个值,则最终得到的数值型结果为单一值,应采用仪表盘展现,仪表盘的刻度即为最终结果;
i-1-4).若Dimension_Count的值等于1,表明除目标维度外,有一个指标维度选择了多个值,将此选择了多值的指标维度称为Chart_Index,其余指标维度至多选取了一个值,则最终得到的结果为一维数组,应采用饼图、单系列折线图或单系列柱图展现;单系列折线图和单系列柱形图的纵坐标表示供给量,横坐标表示Chart_Index,折线图中的一个折点和柱形图中的一列对应着Chart_Index的一个值;饼图中的一个区域对应着Chart_Index的一个值,使用区域的大小说明供给量;
i-1-5).若Dimension_Count的值等于2,表明除目标维度供给量,有两个指标维度选择了多个值,其余指标维度至多选取了一个值;
i-1-5-1).若选择了多值的两个指标维度中包含区域维度或动态维度,则将含有多值的区域维度或动态维度标识为Chart_Index1,将最后选中的限定维度标识为Chart_Index2;
i-1-5-2).若选择了多值的两个指标维度中包含区域维度和动态维度,则将动态维度标识为Chart_Index1,将区域维度标识为Chart_Index2;
i-1-5-3).若选择了多值的两个指标维度中不包含区域维度或动态维度,将指标维度按照选择顺序分别标识为Chart_Index2和Chart_Index1;
分析所得到的最终结果为二维数组,应采用多系列折线图或多系列柱图展现;多系列折线图和多系列柱形图的纵坐标表示人才供给量,横坐标表示Chart_Index1,图表中的一个系列表示Chart_Index2的一个选择值;
i-1-6).若Dimension_Count的值大于2,表明除目标维度外,至少有三个指标维度选择了多个值,假定选中了多值的指标维度个数为idxn:
i-1-6-1).若选择了多值的指标维度中包含区域维度或动态维度,则将含有多值的区域维度或动态维度标识为Chart_Index1,将最后选中的限定维度标识为Chart_Index2;
i-1-6-2).若选择了多值的指标维度中包含区域维度和动态维度,则将动态维度标识为Chart_Index1,将区域维度标识为Chart_Index2;
i-1-6-3).若选择了多值的指标维度中不包含区域维度或动态维度,将指标维度按照选择顺序分别标识为Chart_Index2和Chart_Index1;
i-1-6-4).将其他选择了多值的限定维度按照选择顺序依次标识为Chose_Indexidxn-2,Chose_Indexidxn-3,…,Chose_Index1,假定限定维度Chose_Index1,Chose_Index2,…,Chose_Indexidxn-2选定值的个数分别是ChIdxN1,ChIdxN2,…,ChIdxN idxn-2;
首先,使用限定维度Chose_Index1,Chose_Index2,…,Chose_Indexidxn-2构建一个ChIdxN1×ChIdxN2×...=ChIdxNidxn-2行idxn-1列的表格,表格的第1列到第idxn-2列分别对应限定维度Chose_Index1,…,Chose_Indexidxn-2;表格第i行j列单元格的值则为限定维度Chose_Indexj第 个值,其中j然后,为使图表单元格的显示更为整洁,将相同值的单元格进行合并,也即后第j列的每个单元格需合并ChIdxNj+1×ChIdxNj+2×...×ChIdxNidxn-2个小单元格,合并后的单元格i将取Chose_Indexj的第i个值;
最后,第idxn-1列有ChIdxN1×ChIdxN2×...×ChIdxNidxn-2个单元格,每个单元格中包含一个多系列折线图或多系列柱图;多系列折线图和多系列柱形图的纵坐标表示供给量,横坐标表示Chart_Index1,图表中的一个系列表示Chart_Index2的一个选择值;
步骤i)中热点分析结果的呈现方法为:
i-2-1).初始时令选择多值的维度数Dimension_Count=0;
i-2-2).查看区域维度、动态维度和限定维度,计算选择多值的维度数,若区域维度选择了多个区域,则Dimension_Count加1;
若动态维度选择了多个对比时段,则Dimension_Count加1;
若限定维度中学历也选择了多个值,则Dimension_Count加1;
i-2-3).若Dimension_Count的值等于1,表明除限定维度专业外,其余指标维度至多选取了一个值,则最终得到的结果为一维数组,直接采用一个柱形图展现既可;柱形图的纵坐标表示热点专业的供给量,横坐标表示限定维度专业,图中的每一列对应一个根据条件选出的具体专业名称,其自左至右降序排列;
i-2-4).若Dimension_Count的值等于2,表明除限定维度专业外,还有一个指标维度选取了多个值,将此指标维度标识为Chose_Index;
i-2-4-1).若该Chose_Index是动态维度,参与对比分析的时间段个数为itvn,则构建一个1行itvn列的表格,表格的一列表示一个参与对比分析的时间段,每一个单元格为相应时间段内热点专业供给量情况,采用一个柱形图展现;
i-2-4-2).若该Chose_Index是区域维度或限定维度专业,选中值的个数为vlun,则构建一个vlun行1列的表格,表格的一行表示一个区域或一个限定维度的值,每一个单元格表示相应区域或限定学历的热点专业供给量情况,采用一个柱形图展现;
i-2-5).若Dimension_Count的值大于2,表明除限定维度专业外,还有至少两个指标维度选取了多个值,假定选中了多值的指标维度个数为idxn;
i-2-5-1).若选择了多值的指标维度中包含动态维度,假定参与对比分析的时间段个数为itvn;
若选择了多值的指标维度中包含区域维度,将区域维度标识为Chose_Indexidxn-2,将其他选择了多值的限定维度按照选择顺序依次标识为Chose_Indexidxn-3,Chose_Indexidxn-4,…,Chose_Index1;
若选择了多值的指标维度中不包含区域维度,将其他选择了多值的限定维度按照选择顺序依次标识为Chose_Indexidxn-2,Chose_Indexidxn-3,…,Chose_Index1,假定限定维度Chose_Index1,Chose_Index2,…,Chose_Indexidxn-2选定值的个数分别是ChIdxN1,ChIdxN2,…,ChIdxNidxn-2,
首先,使用指标维度Chose_Index1,Chose_Index2,…,Chose_Indexidxn-2构建一个ChIdxN1×ChIdxN2×...×ChIdxNidxn-2行idxn-1+itvn列的表格,表格的第1列到第idxn-2列分别对应指标维度Chose_Index1,…,Chose_Indexidxn-2;表格第i行j列单元格的值则为限定维度Chose_Indexj第 个值,其中j然后,为使图表单元格的显示更为整洁,将相同值的单元格进行合并,也即后第j列的每个单元格需合并ChIdxNj+1×ChIdxNj+2×...×ChIdxNidxn-2个小单元格,合并后的单元格i将取Chose_Indexj的第i个值;
最后,第idxn-1列到第idxn-1+itvn列分别对应一个对比时段的情况,每一列有ChIdxN1×ChIdxN2×...×ChIdxNidxn-2个单元格,每一个单元格表示一个对比时段相应区域或限定条件的热招岗位或高薪岗位情况,采用一个柱形图展现;
i-2-5-2).若选择了多值的指标维度中不包含动态维度,则选中多值的指标维度必然是区域和专业,将区域维度标识为Chose_Index2,将专业标识为Chose_Index1,假定指标维度Chose_Index1,Chose_Index2选定值的个数分别是ChIdxN1,ChIdxN2,首先,使用指标维度Chose_Index1,Chose_Index2构建一个ChIdxN1×ChIdxN2行3列的表格,表格的第1列和第2列分别对应指标维度Chose_Index1,Chose_Index2;表格第i行j列单元格的值则为指标维度Chose_Indexj第 个值,其
中j<3;
然后,为使图表单元格的显示更为整洁,将相同值的单元格进行合并,也即后第j列的每个单元格需合并ChIdxNj+1×...×ChIdxN2个小单元格,合并后的单元格i将取Chose_Indexj的第i个值;
最后,第3列有ChIdxN1×ChIdxN2个单元格,每一个单元格表示相应区域或限定专业的热点专业供给量情况,采用一个柱形图展现。

说明书全文

基于大数据的区域人才供给量化分析方法

技术领域

[0001] 本发明涉及一种人才供给量化分析方法,更具体的说,尤其涉及一种 基于大数据的区域人才供给量化分析方法。

背景技术

[0002] 古往今来,人才都是富国之本、兴邦大计。综合国竞争说到底是人 才竞争。”人才是加快实施创新驱动发展战略的主导力量,更是加快推动经 济发展方式转变的根本动力。
[0003] 人才是区域经济发展的第一资源和基础性资源,在很大程度上影响或 决定着区域经济的发展方向、发展速度、发展潜力、市场竞争力和经济效 益。因此,大到国家,中到省、自治区,小到地市,微到区县,各层各级 行政区都希望对本区域的人才情况有着直观量化的掌控,从而根据区域经 济优势及人才供需缺口,制定相匹配的人才发展计划和人才引进政策,宏 观调控区域资源和人才的优化配置,进一步推进本地区经济又好又快的发 展。
[0004] 当前各层各级区域对人才供需现状的分析,一般是通过抽样式的调查 问卷或购买咨询公司分析报告等人工服务介入的形式获取第一手数据,虽 然加工后可直接获得定性结论,但存在如下三类问题:
[0005] 一、范围窄
[0006] 人才供需的分析都需要预先定义报告的主题也即分析的目标,一次只 能分析一个目标,针对一个主题形成报告。而且受分析人员人力、报告时 限及材料收集的限制,分析的目标不能过于宽泛,分析的维度不能过多, 时间跨度也不能过大。因此,很难一次同时生成多个主题的报告。目前的 分析报告大多是五年内一个行业或领域内有限维度的相关分析。
[0007] 二、耗时长
[0008] 确定分析目标后无论是调查问卷还是咨询公司,都需要花较长的时间 去收集整理相关数据,而收集的数据大多来自年鉴库、省志库等统计资料 库,这些资料库通常是在年末汇总具有一定滞后性的,很难实时地反映当 前人才供需情况。随着分析指标的增多和时间跨度的增大,数据收集的难 度会随之增大,信息的可靠性也会随之降低。此外,数据收集后的整理去 噪规则的编写和多维度分析模型的构建也需要投入大量的人力和时间去处 理。且在报告最终呈现前无法提前检验分析模型的有效性,当模型出现偏 差时需多次迭代模型构建、数据分析、报告撰写等过程,无形地增加分析 耗时。
[0009] 三、成本高
[0010] 一次人才供需分析,各个阶段都需大量人工介入,致使单次分析耗费 的人力和财务成本较高。即使拥有一系列历史分析报告,由于每次分析的 人员组成、目标数据和模型功能等因素不同,导致了数据割裂、目标模型 单一等问题,使得之前报告的各项成果、数据、参数、指标、模型等很难 被重用,每次分析的成本很难被降低。
[0011] 大数据时代的来临,网络上承载的信息愈加丰富。其涵盖各行业个领 域人才供需的详细信息,通过分布式网络爬虫在网络上采集人才的供给和 供给相关数据,再利用大数据处理方法及数据挖掘算法量化分析方法,构 建区域视下人才供需分析系统,可有效解决人工分析所面临的上述三类 问题,为区域人才的量化分析提供解决方案。

发明内容

[0012] 本发明为了克服上述技术问题的缺点,提供了一种基于大数据的区域 人才供给量化分析方法。
[0013] 本发明的基于大数据的区域人才供给量化分析方法,其特征在于,通 过以下步骤来实现:
[0014] a).确定目标数据源和采集范围,人才供给分析的基础是数据,优质可 量化,且能够实时反映区域人才供给的数据是做好分析的前提,因此选取 的目标数据源为:各类学校的招生信息,并通过比例计算获取不同学历、 不同专业人才的供给情况;
[0015] 由于单独一个区域的分析并不能体现本区域的优势及不足,只有在多 个同级区域对比分析中才能找到问题;根据人才流动情况,人们更倾向于 就近相邻区域的流动;因此,本系统将同一行政区下所有与指定区域同级 的区域也都纳入到采集的范围;
[0016] b).采集目标源数据,采用分布式爬虫采集指定范围内的目标数据源;
[0017] c).信息提取,由于所采集的数据是原始的非结构化网页,其中杂陈广 告、友情链接、同类推荐无关信息,首先采用DOM树的方法和基于行分 布函数方法抽取目标网页中的数据;然后从非结构化的网页数据中提取包 括学校名称、专业及招生人数在内的信息,每个信息定义为一个指标维度, 同时也将学校所属区域、学校招生批次、学校招生学历列为指标维度,与 提取的指标维度共同构建指标维度列表;
[0018] d).数据清洗,采用教育部制定的普通高等学校本科专业目录中的专业 名称统一不同学校专业名目,实现专业指标维度的标准化处理;
[0019] 学校每年均会发布招生信息,且每年各学校发布招生信息的时间略有 不同,需多次重复扫描含有招生信息的网页;为防止多次采集相同招生信 息后重复存储,在采集到招生信息后需要进行清洗,过滤重复发布的信息;
[0020] e).数据存储,所提取的每一个指标维度使用结构化数据库中一列存 储,为方便招聘信息的归类统计将网页URL、招生信息媒体来源也作为一个 指标维度存储于数据库一列;区分相同学校不同时间的招生信息以及确定 学校供给人才的时间,将招生时间和学制也分别作为指标维度存储于数据 库一列;
[0021] f).指标维度分类,从招聘信息中提取的诸多指标维度根据其功用分为 四类:区域维度、动态维度、目标维度和限定维度;区域维度用于指定分 析的目标区域,区域维度的分析以分成两类:本区域人才供给分析和多区 域人才供给对比分析;动态维度用于指定分析的时间范围,动态维度的分 析以分成两类:一定时间段的整体宏观分析和时间演化分析;
[0022] 人才供给分析的主要目标在于向用户展示本区域人才的供给量,因此 将目标维度定为供给量;限定维度用于指定分析的限定条件,限定维度为 学历和专业两个指标维度;
[0023] g).分析分类,各种指标维度按照不同方式组合可产生诸多不同结果, 为使结果条理清晰更易于被用户所理解,采用区域维度和动态维度相组合 的方式对分析进行大类划分;分析分为四型分析:Ⅰ型分析、II型分析、 Ⅲ型分析和Ⅳ型分析;
[0024] 其中,Ⅰ型分析为本区域一定时间段内整体宏观人才供给分析;II型 分析为本区域随时间演化人才供给趋势分析;Ⅲ型分析为多区域一定时间 段整体宏观人才供给对比分析;Ⅳ型分析为多区域随时间演化人才供给变 化趋势对比分析;
[0025] 上述四型分析按其分析所获的结果是以量的形式体现还是以序的形式 体现,又将每一类分为供给量化分析和供给热点分析两个小类,共计八个 小类的分析;
[0026] h).分析方法,目标维度供给量的分析结果属于数值型数据,按照分析 分类对其进行量化分析和热点分析;
[0027] i).分析结果可视化,采用种类丰富的图表对分析结果进行展示,对于 分析结果采用仪表盘、饼图、折线图、柱图、雷达图、矩形树图或表格图 表展示。
[0028] 本发明的基于大数据的区域人才供给量化分析方法,步骤b)中所述目 标源数据的采集通过以下步骤来实现:
[0029] b-1).收集指定区域所处行政区下所有区域的学校列表及其网站URL;
[0030] b-2).找出学校网站中与招生信息相关版块的采集入口;
[0031] b-3).采集招生版块下的所有网页,通过关键词匹配的方式定位招生信 息所处网页;
[0032] b-4).采集所定位网页的招生信息。
[0033] 本发明的基于大数据的区域人才供给量化分析方法,步骤c)中所述的 信息提取中,大多数学校的招生信息一般会采用表格展示招生信息,然而 学校在发布招生信息时并无固定格式较为随意,表格中所出现的指标维度 也会较为随意,此种情形很难采用固定的正则表达式来提取数据;本发明 直接处理表格从中提取指标维度的值,具体方法如下:
[0034] c-1).获取表格,在招生信息页面中由于页面布局的原因可能会存在多 个表格的情形,所以首先通过能够标识表格的属性在多个表格中抽取记录 招聘信息的表格;
[0035] c-2).表格去噪,去除网页中表格中控制页面显示格式的DIV、CSS及 与表格无关的HTML标签,只保留与表格显示和控制相关的诸如table、tr、 td、colspan标签;
[0036] c-3).表格标准化,将表格转化成简单表格,使得表格中的每个单元格 只占一行一列且只有一个值;
[0037] c-4).判断表格横竖,发布招生信息时既可采用横表,也可采用纵表; 因此需要判断记录招生信息的表格是横表还是纵表;取表格的第一行表格 的单元格值和第一列表格的单元格值,分别与各个指标维度进行匹配,比 较第一行和第一列单元格值的命中率,若第一行单元格值的命中率高则为 横表,否则为纵表;
[0038] c-5).提取键值序列,若表格为横表,则将第一行单元格的值映射到相 应的指标维度,相应列单元格的值即为指标维度的值,形成键值对将无结 构的HTML表格转化成结构化的键值对,进而存储到结构化数据库;若表格 为横表纵表,将第一列单元格的值映射到指标维度,相应行单元格的值即 为指标维度的值,提取键值对存储到结构化数据库;
[0039] 如果招生信息附件为Word、Excel或PDF文件,则采用POI解析Word 和Excel文档,采用PDFBox解析PDF文档,将其转化为表格,然后再执行 步骤c-3)至c-5)。
[0040] 本发明的基于大数据的区域人才供给量化分析方法,步骤d)中,专业 指标维度的标准化处理方法为:采用文本的语义相似性度算法最长公共子 序列、最小编辑距离或余弦相似度为学校专业名目找出相似度最大的目录 专业名称,进而将指标维度专业的值统一到目录中的专业名称中;
[0041] 多次采集相同招生信息的去重方法为:
[0042] d-1).对比招生信息网页的URL是否相同,URL是互联网资源的唯一标 识,如同一URL地址的信息只需采集存储一次即可,如相同,则认为是重 复招生信息,对其不进行存储;如不同转入d-2);
[0043] d-2).对比相同学校招生信息的招生时间是否相同,若相同转入d-3); 如不同,认为是非重复招生信息,提取信息后直接存储于结构化数据库中;
[0044] d-3).对比相同学校相同时间招生信息的招生专业是否相同,是否有新 增加的专业,若相同且无新增专业转入d-4);若不同或有新增专业,则不 同专业和新增专业的数据为非重复招生信息,提取信息后直接存储于结构 化数据库中;
[0045] d-4).对比相同学校相同时间招生信息的招生数量是否相同,若相同则 判定为重复信息不再存储,若不同则采用较新时间的招生数量更新数据库 中的原有数量。
[0046] 本发明的基于大数据的区域人才供给量化分析方法,步骤g)中八个小 类的分析为:Ⅰ型供给量化分析、Ⅰ型供给热点分析、II型供给量化分析、 II型供给热点分析、Ⅲ型供给量化分析、Ⅲ型供给热点分析、Ⅳ型供给量 化分析、Ⅳ型供给热点分析;
[0047] Ⅰ型供给量化分析,从多角度多层面对指定区域的人才供给量做出有 效分析,分析流程如下:
[0048] g-1-1).首先,在区域维度中选择一个区域作为分析区域;
[0049] g-1-2).其次,在动态维度中选择一个时段作为分析时段;
[0050] g-1-3).再次,在限定维度中选择0到2个指标维度作为分析的限定条 件,每个限定维度选择一个值或多个值;
[0051] g-1-4).最后,选择目标维度供给量作为分析对象;
[0052] 若未指定限定维度,可宏观地说明划定时间段内指定区域总的人才供 给量有多少;若指定单一限定维度,可分析划定时间段内指定区域在不同 专业或不同学历人才的供给量;若指定中全部限定维度,可分析划定时间 段内指定区域不同专业和不同学历各种组合的人才供给量;
[0053] Ⅰ型供给热点分析,可从多角度对指定区域的热点专业做出有效分析, 分析流程如下:
[0054] g-2-1).首先,在区域维度中选择一个区域作为分析区域;
[0055] g-2-2).其次,在动态维度中选择一个时段作为分析时段;
[0056] g-2-3).再次,在限定维度中选择0或1个指标维度作为分析的限定条 件,每个限定维度选择一个值或多个值;
[0057] g-2-4).最后,选择目标维度供给量作为分析对象;
[0058] 限定维度中的指标维度专业类别值默认为不限,限定维度学历未指定 时,可获得划定时间段指定区域的热点专业;限定维度学历指定时,可分 析划定时间段指定区域不同学历的热点专业;
[0059] II型供给量化分析,从多角度对指定区域不同阶段的人才供给量变化 做出有效对比分析,分析流程如下:
[0060] g-3-1).首先,在区域维度中选择一个区域作为分析区域;
[0061] g-3-2).其次,在动态维度中选择对比时段作为分析时段,所选定的对 比时段通常是月度、季度或年度等自然时间分割节点
[0062] g-3-3).再次,在限定维度中选择0到2个指标维度作为分析的限定条 件,每个限定维度选择一个值或多个值;
[0063] g-3-4).最后,选择目标维度供给量作为分析对象;
[0064] 若未指定限定维度,可宏观地说明指定区域不同时段人才供给量的变 化情况,从侧面反映区域内人才的饱和程度;通过指定单一限定维度,可 分析指定区域在相同专业或相同学历的人才在不同时间段供给量的变动趋 势;通过限定维度的组合,可分析指定区域不同时段专业和学历各种组合 的人才供给变动情况;
[0065] II型供给热点分析,从多角度对指定区域不同阶段热点专业变化做出 有效分析,分析流程如下:
[0066] g-4-1).首先,在区域维度中选择一个区域作为分析区域;
[0067] g-4-2).其次,在动态维度中选择对比时段作为分析时段,所选定的对 比时段通常是月度、季度或年度等自然时间分割节点;
[0068] g-4-3).再次,在限定维度中选择或不选择指标维度学历作为分析的限 定条件,可以不选择限定维度学习,也可以选择限定维度学历的一个值或 多个值;
[0069] g-4-4).最后,选择目标维度供给量作为分析对象;
[0070] 限定维度中的指标维度专业类别值默认为不限,若限定维度学历未指 定,可获得指定区域不同时段的热点专业,从侧面反映了区域人才供给的 变化情况;指定限定维度学历,可分析不同时段在相同学历热点专业的变 化;
[0071] Ⅲ型供给量化分析,从多角度对不同区域的人才供给量做出有效对比 分析,分析流程如下:
[0072] g-5-1).首先,在区域维度中选择多个区域作为对比分析区域;
[0073] g-5-2).其次,在动态维度中选择一个时段作为分析时段;
[0074] g-5-3).再次,在限定维度中选择0到2个指标维度作为分析的限定条 件,每个限定维度选择一个值或多个值;
[0075] g-5-4).最后,选择目标维度供给量作为分析对象;
[0076] 未指定限定维度,可宏观地对比划定时间段内不同区域的人才供给量; 通过指定单一限定维度,可分析划定时间段内不同区域在相同专业或相同 学历人才供给量的对比;通过限定维度的组合,可分析不同区域相同专业 和相同学历人才供给情况;
[0077] Ⅲ型供给热点分析,从多角度对多个区域的热点专业做出有效分析, 分析流程如下:
[0078] g-6-1).首先,在区域维度中选择多个区域作为对比分析区域;
[0079] g-6-2).其次,在动态维度中选择一个时段作为分析时段;
[0080] g-6-3).再次,在限定维度中选择或不选择指标维度学历作为分析的限 定条件,此分析中限定维度的选择并无任何要求,可以不选择限定维度学 历,也可以选择限定维度学历的一个值或多个值;
[0081] g-6-4).最后,选择目标维度供给量作为分析对象;
[0082] 限定维度中的指标维度专业类别值默认为不限,限定维度学历未指定, 可获得划定时间段不同区域的热点专业;指定限定维度学历,可对比分析 不同区域相同专业的热点专业差别;
[0083] Ⅳ型供给量化分析,从多角度对不同区域不同阶段的人才供给量变化 做出有效对比分析,采用纵向发展的眼光和横向对比的眼光量化剖析区域 人才供给,以区域不同阶段的人才诉求为点串成区域人才供给走向的线, 分析流程如下:
[0084] g-7-1).首先,在区域维度中选择多个区域作为对比分析区域;
[0085] g-7-2).其次,在动态维度中选择对比时段作为分析时段,所选定的对 比时段通常是月度、季度或年度等自然时间分割节点;
[0086] g-7-3).再次,在限定维度中选择0到2个指标维度作为分析的限定条 件,此分析中限定维度的选择并无任何要求,可以不选择任一限定维度, 也可以选择一个限定维度的一个值或多个值,还可以选择多个限定维度, 每个限定维度选择一个值或每个限定维度选择多个值;
[0087] g-7-4).最后,选择目标维度供给量作为分析对象;
[0088] 未指定限定维度,可宏观地分析多个区域不同时段人才供给量的变化 情况,对比不同区域人才供给的增速情况;通过指定单一限定维度,可分 析不同区域在相同专业或相同学历不同时间段人才供给量的变动趋势;通 过限定维度的组合,可分析不同区域不同时段相同专业和相同学历的人才 供给变动情况;
[0089] Ⅳ型供给热点分析,从多角度对不同区域不同阶段热点专业的变化趋 势做出有效对比分析,纵览随时间的演进不同区域紧缺和高端人才供给的 变迁路径,分析流程如下:
[0090] g-8-1).首先,在区域维度中选择多个区域作为对比分析区域;
[0091] g-8-2).其次,在动态维度中选择对比时段作为分析时段,所选定的对 比时段通常是月度、季度或年度等自然时间分割节点;
[0092] g-8-3).再次,在限定维度中选择或不选择指标维度学历作为分析的限 定条件,此分析中限定维度的选择并无任何要求,可以不选择限定维度学 历,也可以选择限定维度学历的一个值或多个值;
[0093] g-8-4).最后,选择目标维度供给量作为分析对象;
[0094] 限定维度中的指标维度专业类别值默认为不限,限定维度学历未指定, 可获得不同区域不同时段的热点专业,从侧面反映了不同区域人才供给的 演变情况;指定限定维度学历,可分析不同区域相同学历的热点专业随时 间演进的变化。
[0095] 本发明的基于大数据的区域人才供给量化分析方法,步骤h)中所述的 目标维度供给量的量化分析方法为:
[0096] h-1-1).记录学历和专业两个限定维度的选择顺序;
[0097] h-1-2).按照有序的限定维度、区域维度和动态维度的顺序,记录选中 的指标维度及每个选定指标维度选中的值,将其转化成不等长矩阵,其中 矩阵每一行代表一个选中的指标维度,一行中的一个元素代表对应指标维 度选中的值;
[0098] 假定包含区域维度和动态维度共选中了idxn个指标维度,选中的指标 维度分别为Chose_Index1,Chose_Index2,…,Chose_Indexidxn,每个限定维度 选中值的个数为Chose_an1,Chose_an2,…,Chose_anidxn,选中的值分别是 Chose_Index1_Atb1,Chose_Index1_Atb2,…,Chose_Index1_Atban1, Chose_Index2_Atb1,Chose_Index2_Atb2,…,Chose_Index2_Atban2,…, Chose_Indexidxn_Atb1,Chose_Indexidxn_Atb2,…,Chose_Indexidxn_Atbanidxn;
[0099] 则转化的数组共idxn维,第i维为指标维度Chose_Indexi,第i维的长 度为Chose_ani,第i维数组的值分别为Chose_Indexi_Atb1, Chose_Indexi_Atb2,…,Chose_Indexi_Atbani;
[0100] h-1-3).取出矩阵第一维数组第一个元素作为根节点,按照深度优先遍 历不等长矩阵,将其转化为一棵树;
[0101] h-1-4).取出矩阵第一维数组的后续元素作为根节点,按照深度优先遍 历不等长矩阵,将其转化成一棵树;
[0102] h-1-5).迭代操作h-1-4),直至第一维数组元素为空;
[0103] h-1-6).按照第一维数组的元素顺序,自左至右排列矩阵转化而成多棵 树的根节点顺序构建森林,森林中共有Chose_an1棵树;
[0104] h-1-7).首先按照自左至右遍历森林中的树,然后按照深度优先遍历每 棵树,记录每一个遍历从树根至叶子所经历的完整路径,如 [Chose_Index1_Atb1->Chose_Index2_Atb1->Chose_Index3_Atb1->…-> Chose_Indexidxn_Atb1]、[Chose_Index1_Atb1->Chose_Index2_Atb1-> Chose_Index3_Atb1->…->Chose_Indexidxn_Atb2]、…、[Chose_Index1_Atb1-> Chose_Index2_Atb1->Chose_Index3_Atb1->…->Chose_Indexidxn_Atbanidxn], 共有Chose_an1×Chose_an2×…×Chose_anidxn条路径;
[0105] h-1-8).结合属性值所属指标维度,将一条遍历路径转化为一条数据查 询限定规则;如路径[Chose_Index1_Atb1->Chose_Index2_Atb1-> Chose_Index3_Atb1->…->Chose_Indexidxn_Atb1]转化为一条规则: Chose_Index1matches Chose_Index1_Atb1And Chose_Index2matches Chose_Index2_Atb1And Chose_Index3matches Chose_Index3_Atb1And… And Chose_Indexidxn matches Chose_Indexidxn_Atb1,共有Chose_an1× Chose_an2×…×Chose_anidxn条数据查询规则;
[0106] h-1-9).按照顺序抽取一条数据查询规则,在抓取的数据中进行查询, 找出满足规则的数据集合Dataseti,最终对Dataseti进行统计求和获取结果 Resulti;
[0107] h-1-10).迭代操作h-1-9),直至抽取完所有的数据查询规则,汇总每 条数据查询规则所获得的结果Resulti,返回量化分析结果集ResultSet;
[0108] 步骤h)中所述的目标维度供给量的热点分析方法为:
[0109] 在热点分析中,限定维度专业默认为不限,因此在统计指标维度的选 择情况时,不统计该指标维度;其前9步操作与量化分析的操作h-1-1)到 操作h-1-9)相同;
[0110] h-2-10).迭代操作h-1-9),直至抽取完所有的数据查询规则,对比每 条数据查询规则所获得的结果Resulti,按照用户设定抽取前若干项结果作  为热点结果集TopResultSet,并抽取其对应的供给量集合TopMajor。
[0111] 本发明的基于大数据的区域人才供给量化分析方法,步骤i)中量化分 析结果的呈现方法为:
[0112] i-1-1).初始时令选择多值的维度数Dimension_Count=0;
[0113] i-1-2).查看区域维度、动态维度和限定维度,计算选择多值的维度数,[0114] 若区域维度选择了多个区域,则Dimension_Count加1;
[0115] 若动态维度选择了多个对比时段,则Dimension_Count加1;
[0116] 从限定维度中取出一个指标维度,若该指标维度选择了多个值,则 Dimension_Count加1,迭代此操作,直至限定维度中的指标维度为空;
[0117] i-1-3).若Dimension_Count的值等于0,表明除目标维度供给量外, 其余指标维度至多选取了一个值,则最终得到的数值型结果为单一值,应 采用仪表盘展现,仪表盘的刻度即为最终结果;
[0118] i-1-4).若Dimension_Count的值等于1,表明除目标维度外,有一个 指标维度选择了多个值,将此选择了多值的指标维度称为Chart_Index,其 余指标维度至多选取了一个值,则最终得到的结果为一维数组,应采用饼 图、单系列折线图或单系列柱图展现;单系列折线图和单系列柱形图的纵 坐标表示供给量,横坐标表示Chart_Index,折线图中的一个折点和柱形图 中的一列对应着Chart_Index的一个值;饼图中的一个区域对应着 Chart_Index的一个值,使用区域的大小说明供给量;
[0119] i-1-5).若Dimension_Count的值等于2,表明除目标维度供给量,有 两个指标维度选择了多个值,其余指标维度至多选取了一个值;
[0120] i-1-5-1).若选择了多值的两个指标维度中包含区域维度或动态维度, 则将含有多值的区域维度或动态维度标识为Chart_Index1,将最后选中的限 定维度标识为Chart_Index2;
[0121] i-1-5-2).若选择了多值的两个指标维度中包含区域维度和动态维度, 则将动态维度标识为Chart_Index1,将区域维度标识为Chart_Index2;
[0122] i-1-5-3).若选择了多值的两个指标维度中不包含区域维度或动态维 度,将指标维度按照选择顺序分别标识为Chart_Index2和Chart_Index1;
[0123] 分析所得到的最终结果为二维数组,应采用多系列折线图或多系列柱 图展现;多系列折线图和多系列柱形图的纵坐标表示人才供给量,横坐标 表示Chart_Index1,图表中的一个系列表示Chart_Index2的一个选择值;
[0124] i-1-6).若Dimension_Count的值大于2,表明除目标维度外,至少有 三个指标维度选择了多个值,假定选中了多值的指标维度个数为idxn:
[0125] i-1-6-1).若选择了多值的指标维度中包含区域维度或动态维度,则将 含有多值的区域维度或动态维度标识为Chart_Index1,将最后选中的限定维 度标识为Chart_Index2;
[0126] i-1-6-2).若选择了多值的指标维度中包含区域维度和动态维度,则将 动态维度标识为Chart_Index1,将区域维度标识为Chart_Index2;
[0127] i-1-6-3).若选择了多值的指标维度中不包含区域维度或动态维度,将 指标维度按照选择顺序分别标识为Chart_Index2和Chart_Index1;
[0128] i-1-6-4).将其他选择了多值的限定维度按照选择顺序依次标识为 Chose_Indexidxn-2,Chose_Indexidxn-3,…,Chose_Index1,假定限定维度 Chose_Index1,Chose_Index2,…,Chose_Indexidxn-2选定值的个数分别是 ChIdxN1,ChIdxN2,…,ChIdxNidxn-2;
[0129] 首先,使用限定维度Chose_Index1,Chose_Index2,…,Chose_Indexidxn-2构建一个ChIdxN1×ChIdxN2×...×ChIdxNidxn-2行idxn-1列的表格,表格的第1列 到第idxn-2列分别对应限定维度Chose_Index1,…,Chose_Indexidxn-2;表格 第i行j列单元格的值则为限定维度Chose_Indexj第  个值,其中j
[0130] 然后,为使图表单元格的显示更为整洁,将相同值的单元格进行合并, 也即后第j列的每个单元格需合并ChIdxNj+1×ChIdxNj+2×...×ChIdxNidxn-2个小单 元格,合并后的单元格i将取Chose_Indexj的第i个值;
[0131] 最后,第idxn-1列有ChIdxN1×ChIdxN2×...×ChIdxNidxn-2个单元格,每个单 元格中包含一个多系列折线图或多系列柱图;多系列折线图和多系列柱形 图的纵坐标表示供给量,横坐标表示Chart_Index1,图表中的一个系列表示 Chart_Index2的一个选择值;
[0132] 步骤i)中热点分析结果的呈现方法为:
[0133] i-2-1).初始时令选择多值的维度数Dimension_Count=0;
[0134] i-2-2).查看区域维度、动态维度和限定维度,计算选择多值的维度数,[0135] 若区域维度选择了多个区域,则Dimension_Count加1;
[0136] 若动态维度选择了多个对比时段,则Dimension_Count加1;
[0137] 若限定维度中学历也选择了多个值,则Dimension_Count加1;
[0138] i-2-3).若Dimension_Count的值等于1,表明除限定维度专业外,其 余指标维度至多选取了一个值,则最终得到的结果为一维数组,直接采用 一个柱形图展现既可;柱形图的纵坐标表示热点专业的供给量,横坐标表 示限定维度专业,图中的每一列对应一个根据条件选出的具体专业名称, 其自左至右降序排列;
[0139] i-2-4).若Dimension_Count的值等于2,表明除限定维度专业外,还 有一个指标维度选取了多个值,将此指标维度标识为Chose_Index;
[0140] i-2-4-1).若该Chose_Index是动态维度,参与对比分析的时间段个数 为itvn,则构建一个1行itvn列的表格,表格的一列表示一个参与对比分析 的时间段,每一个单元格为相应时间段内热点专业供给量情况,采用一个 柱形图展现;
[0141] i-2-4-2).若该Chose_Index是区域维度或限定维度专业,选中值的个 数为vlun,则构建一个vlun行1列的表格,表格的一行表示一个区域或一 个限定维度的值,每一个单元格表示相应区域或限定学历的热点专业供给 量情况,采用一个柱形图展现;
[0142] i-2-5).若Dimension_Count的值大于2,表明除限定维度专业外,还 有至少两个指标维度选取了多个值,假定选中了多值的指标维度个数为 idxn;
[0143] i-2-5-1).若选择了多值的指标维度中包含动态维度,假定参与对比分 析的时间段个数为itvn;
[0144] 若选择了多值的指标维度中包含区域维度,将区域维度标识为  Chose_Indexidxn-2,将其他选择了多值的限定维度按照选择顺序依次标识 为Chose_Indexidxn-3,Chose_Indexidxn-4,…,Chose_Index1;
[0145] 若选择了多值的指标维度中不包含区域维度,将其他选择了多值的 限定维度按照选择顺序依次标识为Chose_Indexidxn-2,Chose_Indexidxn-3,…, Chose_Index1,[0146] 假定限定维度Chose_Index1,Chose_Index2,…,Chose_Indexidxn-2选定值 的个数分别是ChIdxN1,ChIdxN2,…,ChIdxNidxn-2,
[0147] 首先,使用指标维度Chose_Index1,Chose_Index2,…,Chose_Indexidxn-2构建一个ChIdxN1×ChIdxN2×...×ChIdxNidxn-2行idxn-1+itvn列的表格,表格的第 1列到第idxn-2列分别对应指标维度Chose_Index1,…,Chose_Indexidxn-2;表 格第i行j列单元格的值则为限定维度Chose_Indexj第  个值,其中j
[0148] 然后,为使图表单元格的显示更为整洁,将相同值的单元格进行合并, 也即后第j列的每个单元格需合并ChIdxNj+1×ChIdxNj+2×...×ChIdxNidxn-2个小单 元格,合并后的单元格i将取Chose_Indexj的第i个值;
[0149] 最后,第idxn-1列到第idxn-1+itvn列分别对应一个对比时段的情况, 每一列有ChIdxN1×ChIdxN2×...×ChIdxNidxn-2个单元格,每一个单元格表示一个 对比时段相应区域或限定条件的热专业情况,采用一个柱形图展现;
[0150] i-2-5-2).若选择了多值的指标维度中不包含动态维度,则选中多值的 指标维度必然是区域和专业,将区域维度标识为Chose_Index2,将专业标识 为Chose_Index1,[0151] 假定指标维度Chose_Index1,Chose_Index2选定值的个数分别是 ChIdxN1,ChIdxN2,
[0152] 首先,使用指标维度Chose_Index1,Chose_Index2构建一个 ChIdxN1×ChIdxN2行3列的表格,表格的第1列和第2列分别对应指标维度 Chose_Index1,Chose_Index2;表格第i行j列单元格的值则为指标维度 Chose_Indexj第个值,其中j<3;
[0153] 然后,为使图表单元格的显示更为整洁,将相同值的单元格进行合并, 也即后第j列的每个单元格需合并ChIdxNj+1×...×ChIdxN2个小单元格,合并后 的单元格i将取Chose_Indexj的第i个值;
[0154] 最后,第3列有ChIdxN1×ChIdxN2个单元格,每一个单元格表示相应区域 或限定专业的热点专业供给量情况,采用一个柱形图展现。
[0155] 本发明的有益效果是:本发明的区域人才供给量化分析方法,以指定 区域各类学校的招生信息为目标源数据,采用分布式爬虫采集目标源数据, 然后从招生信息中提取包含学校名称、专业和招生人数在内的指标维度信 息,并对数据进行清洗和去重处理,然后根据用户的要求将数据通过图表 的形式展示出来,可从不同的角度分析指定区域的人才供给情况,以及对 多个不同区域的人才供给进行对比,有利于决策者根据发展需要宏观调控 人才供给。附图说明
[0156] 图1给出了第一维数组第一个元素作为根节点的树。

具体实施方式

[0157] 下面结合附图与实施例对本发明作进一步说明。
[0158] 基于大数据的区域人才供给量化分析方法的步骤如下:
[0159] 步骤一:区域内人才供给相关数据采集
[0160] 在本步骤中首先需要明确采集目标,在纷繁多样的网络数据中准确定 位能够反映人才供给的数据,然后根据目标数据源的特点确定采集方法。 因此,本步骤包含以下两个阶段:
[0161] 阶段一:确定采集目标
[0162] 1、确定目标数据源类型
[0163] 人才供给分析的基础是数据,优质可量化且能够实时反映区域人才供 给的数据是做好分析的前提。因此,本系统所面临的首要问题即是目标数 据源的确定。实时获取人才供给最直接的方式是收集应聘者的简历,通过 简历分析可获取人才各类信息最真实的第一手资料。然而,首先个人信息 过于分散,采集和过滤所耗费的资源较大;其次个人简历信息的载体并无 统一要求,即可使用Word/Excel文档,也可使用PDF文档,还可以使用网 页等各类不同形式的文档,不同类型文档信息的抽取较为复杂;此外,个 人简历的书写格式也极为随意,根据个人不同的书写格,难以在各类不 同文档中准确定位所需信息。因此,通过个人简历采集分析方式获取人才 供给数据的性价比较低。
[0164] 人才最大的培养和输出地是各类学校,其每年向社会供给大量人才, 因此可通过采集各类学校发布信息获取人才供给情况。虽然各类学校每年 均会统计毕业生专业、数量等信息,但此类报告一般作为内部资料很难在 Internet找到。然而,各类学校每年都会发布招生信息,此类招生信息也会 明确标注招生的专业数量等。学校的招生情况可直接反映若干年后此批学 生的毕业情况,如普通本科院校的招生情况可直接反映出4年后毕业的本 科生数量、专业及学历情况。当然招生的数量并不直接等于毕业生的数量, 其中可能会存在部分学生因不同原因不能毕业的情形出现,还有部分学生 会升入更高一级的学府深造或出国留学。各个学校的就业比例可以从 Internet获取,进而获取学校的人才供给情况。
[0165] 综上,本系统将各类学校的招生信息作为目标数据源,通过比例计算 获取不同学历、专业人才的供给情况。
[0166] 2、确定目标数据源采集范围
[0167] 确定好目标数据源类型后下一步则要决定在多大范围内采集这些目标 数据源。
[0168] 首先,本系统目标是为区域提供人才供给分析,因此,处在本区域内 各类学校的招生信息是采集的首要目标。
[0169] 其次,单独一个区域的分析并不能体现本区域的优势及不足,只有在 多个同级区域对比分析中才能找到问题。此外,根据人才流动情况,人们 更倾向于就近相邻区域的流动。因此,本系统将同一行政区下所有与指定 区域同级的区域也都纳入到采集的范围。
[0170] 例如,指定某一地市为分析区域,则该地市所属省或自治区内的所有 地市均需被纳入采集范围,也即需要采集该省或自治区内所有学校招生信 息。
[0171] 阶段二:设计采集方案
[0172] 随着网络信息的爆炸,分布式爬虫已成为搜索、舆情、自动问答等依 赖网络数据系统的基本网络数据采集工具。本系统也采用分布式爬虫采集 指定范围内的目标数据源。数据采集方案如下。
[0173] 1、收集指定区域所处行政区下所有区域的学校列表及其网站URL;
[0174] 2、找出学校网站中与招生信息相关版块的采集入口;
[0175] 3、采集指定版块下的所有网页,通过关键词匹配的方式定位招生信息 所处网页;
[0176] 4、采集所定位网页的招生信息。
[0177] 步骤二:信息提取、清洗和存储
[0178] 阶段一:信息提取
[0179] 1、有效信息提取
[0180] 从定位网页中所采集的招生信息是原始的非结构化网页,其中会杂陈 诸多广告、友情链接、同类推荐等无关信息。因此在预处理中过滤此类无 关信息抽取有效信息是后续处理的关键。本发明采用DOM树的方法和基于 行块分布函数方法抽取目标网页中的数据。
[0181] 2、结构化信息提取
[0182] 在剔除无关信息后所获得网页仍是非结构化的HTML代码块,而各类 数据分析算法所处理的数据对象均是结构化数据,因此从非结构化的数据 中准确提取结构化的数据是后续处理的前提。相较于对个人信息详细介绍 的简历,各类学校的招生信息只能给出概括性的通用信息,因此所能提取 的信息相对有限。通过对各类招生信息的整理汇总,一般可提取的指标维 度包括:学校名称、专业及招生人数。此外在确定采集目标的同时还可确 定学校所属区域、学校招生批次、学校招生学历,本发明将这些外部信息 也列入分析指标维度,与提取的指标维度共同构建指标维度列表。
[0183] 大多数学校的招生信息一般会采用表格(table)展示招生信息。然而学校 在发布招生信息时并无固定格式较为随意,表格中所出现的指标维度也会 较为随意,此种情形很难采用固定的正则表达式来提取数据。因此本发明 直接处理表格从中提取指标维度的值,方案如下:
[0184] (1)获取表格
[0185] 在招生信息页面中由于页面布局的原因可能会存在多个表格的情形, 所以首先通过能够标识表格的属性在多个表格中抽取记录招聘信息的表 格。
[0186] (2)表格去噪
[0187] 网页中的表格使用HTML语言书写,其中会存在诸多控制页面显示格 式的DIV、CSS及与表格无关的HTML标签,在处理表格时首先去除无效 标签,只保留与表格显示和控制相关的标签,如table、tr、td、colspan等。
[0188] (3)表格标准化
[0189] 因为并无规定格式所以表格的样式会很随意,在处理过程中需分割多 行多列的单元格,将表格转化成简单表格,使得表格中的每个单元格只占 一行一列且只有一个值。
[0190] (4)判断表格横竖
[0191] 发布招生信息时既可采用横表(将指标维度放到第一行,下面每行存 储一个招生的信息),也可采用纵表(将指标维度放到第一列,右面其余每 列存储一个招生的信息),因此需要判断记录招生信息的表格是横表还是纵 表。取表格的第一行表格的单元格值和第一列表格的单元格值,分别与各 个指标维度进行匹配,比较第一行和第一列单元格值的命中率,若第一行 单元格值的命中率高则为横表,否则为纵表。
[0192] (5)提取键值序列
[0193] 若表格为横表,则将第一行单元格的值映射到相应的指标维度,相应 列单元格的值即为指标维度的值,形成键值对将无结构的HTML表格转化 成结构化的键值对,进而存储到结构化数据库。
[0194] 纵表与横表类似,将第一列单元格的值映射到指标维度,相应行单元 格的值即为指标维度的值,提取键值对存储到结构化数据库。
[0195] 此外,除直接在招生信息页面中直接采用表格的方式外,学校还可能 会采用附件的形式发布招生信息,附件所使用的载体一般会是Word、Excel、 PDF等。而附件通常仍使用表格罗列招生信息,因此除解析附件方法不同 外,表格内信息提取方式与网页表格提取方式类似,其方案如下。
[0196] (1)解析附件
[0197] 根据附件载体类型采用合适的方法解析附件,获取罗列招生信息的表 格。如采用POI解析Word和Excel文档,采用PDFBox解析PDF文档等, 从中获取表格。
[0198] (2)表格解析
[0199] 附件表格解析方法与网页表格解析相似,需对表格进行标准化,并判 断表格的横竖方向,最后提取表格中的键值对,将附件中无结构表格转化 成结构化的键值对,进而存储到结构化数据库。其操作可参照网页表格解 析方案中的操作(3)到操作(5)。
[0200] 阶段二:数据清洗
[0201] 1、指标维度标准化
[0202] 不同学校在发布招生计划时一般是以专业为最小信息汇总单位公布招 生数量,然而各学校专业名目设置具有一定随意性。在人才供给量化分析 中为实现同区域不同学校专业的汇总统计,需对指标维度专业的值做标准 化处理。
[0203] 此处采用教育部制定的普通高等学校本科专业目录中的专业名称统一 不同学校专业名目。虽然各学校专业名目的设置可能会与目录中的专业名 称有所差别,但专业设置不可能偏离目录中的专业,因此在用词方面会有 较大的相似性。因此,采用文本的语义相似性度算法,如最长公共子序列、 最小编辑距离或余弦相似度等即可为学校专业名目找出相似度最大的目录 专业名称,进而将指标维度专业的值统一到目录中的专业名称。
[0204] 2、数据去重
[0205] 学校每年均会发布招生信息,且每年各学校发布招生信息的时间略有 不同,因此系统需多次重复扫描含有招生信息的网页。为防止多次采集相 同招生信息后重复存储,在采集到招生信息后需要进行清洗,过滤重复发 布的信息。其方案如下。
[0206] (1)对比招生信息网页的URL是否相同,URL是互联网资源的唯一标 识,同一URL地址的信息只需采集存储一次即可,如不同转入(2);
[0207] (2)对比相同学校招生信息的招生时间是否相同,若相同转入(3),认为 是非重复招生信息,提取信息后直接存储于结构化数据库中;
[0208] (3)对比相同学校相同时间招生信息的招生专业是否相同,是否有新增 加的专业,若相同且无新增专业转入(4),若不同或有新增专业,则不同专 业和新增专业的数据为非重复招生信息,提取信息后直接存储于结构化数 据库中;
[0209] (4)对比相同学校相同时间招生信息的招生数量是否相同,若相同则判 定为重复信息不再存储,若不同则采用较新时间的招生数量更新数据库中 的原有数量。
[0210] 阶段三:数据存储
[0211] 为便于各指标维度的分析宜采用结构化的数据库存储从网页中提取的 数据。鉴于区域人才供给量化分析所涉及的数据并不仅局限于本区域,而 是综合同一行政区下所有与指定区域同级的区域数据一同分析,因此随着 区域的范围的扩大,数据也是成倍增长。结合各类数据库的特征,在区域 范围较小时,可采用关系数据进行存储。随着区域范围的增大,建议采用 基于分布式文件存储的数据库,如MongoDB、HBase等。
[0212] 网页中所提取的每一个指标维度使用结构化数据库中一列存储。为方 便招生信息的归类统计将网页URL、招生信息媒体来源也作为一个指标维 度存储于数据库一列。此外区分相同学校不同时间的招生信息以及确定学 校供给人才的时间,将招生时间和学制也分别作为指标维度存储于数据库 一列。
[0213] 步骤三:区域人才供给量化分析
[0214] 阶段一:指标维度分类
[0215] 从招生信息中提取的诸多指标维度根据其功用分为四类:区域维度、 动态维度、目标维度和限定维度。
[0216] 1、区域维度
[0217] 区域维度用于指定分析的目标区域。区域维度的分析可以分成两类: 本区域人才供给分析和多区域人才供给对比分析。
[0218] 2、动态维度
[0219] 动态维度用于指定分析的时间范围。动态维度的分析可以分成两类: 一定时间段的整体宏观分析和时间演化分析。
[0220] 3、目标维度
[0221] 人才供给分析的主要目标在于向用户展示本区域人才的供给量,因此 将目标维度定为供给量。
[0222] 4、限定维度
[0223] 限定维度用于指定分析的限定条件。主要是学历和专业两个指标维度。 阶段二:分析分类
[0224] 各种指标维度按照不同方式组合可产生诸多不同结果,为使结果条理 清晰更易于被用户所理解,采用区域维度和动态维度相组合的方式对分析 进行大类划分。分析可分为四型分析:Ⅰ型分析、II型分析、Ⅲ型分析和 Ⅳ型分析。
[0225] 其中,Ⅰ型分析为本区域一定时间段内整体宏观人才供给分析;II型 分析为本区域随时间演化人才供给趋势分析;Ⅲ型分析为多区域一定时间 段整体宏观人才供给对比分析;Ⅳ型分析为多区域随时间演化人才供给变 化趋势对比分析。
[0226] 而四型分析按其分析所获的结果是以量的形式体现还是以序的形式体 现,又可将每一类分为供给量化分析和供给热点分析两个小类,共计八个 小类的分析。下面分别介绍每类分析解决的问题及分析流程。
[0227] 1、Ⅰ型供给量化分析
[0228] Ⅰ型供给量化分析可从多角度多层面对指定区域的人才供给量做出有 效分析,全面量化剖析指定区域人才的情况,明确区域人才构成,实现量 化“知己”。分析流程如下。
[0229] 首先,需要在区域维度中选择一个区域作为分析区域;
[0230] 其次,需要在动态维度中选择一个时段作为分析时段;
[0231] 再次,在限定维度中选择0到2个指标维度作为分析的限定条件,限 定维度的选择并无任何要求,可以不选择任一限定维度,也可以选择一个 限定维度的一个值或多个值,还可以选择多个限定维度,每个限定维度选 择一个值或每个限定维度选择多个值;
[0232] 最后,选择目标维度供给量作为分析对象。
[0233] 若未指定限定维度,可宏观地说明划定时间段内指定区域总的人才供 给量有多少。若指定单一限定维度,可分析划定时间段内指定区域在不同 专业或不同学历人才的供给量。若指定中全部限定维度,可分析划定时间 段内指定区域不同专业和不同学历各种组合的人才供给量。
[0234] 2、Ⅰ型供给热点分析
[0235] Ⅰ型供给热点分析可从多角度对指定区域的热点专业做出有效分析, 明确区域发展专业特长及优势,发现人才专业缺口,从人才供给角度为区 域持续发展提供方向指导。分析流程如下。
[0236] 首先,需要在区域维度中选择一个区域作为分析区域;
[0237] 其次,需要在动态维度中选择一个时段作为分析时段;
[0238] 再次,在限定维度中选择0或1个指标维度作为分析的限定条件,此 分析中限定维度的选择并无任何要求,可以不选择任一限定维度,也可以 选择一个限定维度的一个值或多个值;
[0239] 最后,选择目标维度供给量作为分析对象。
[0240] 限定维度中的指标维度专业类别值默认为不限(若在此处设定专业类 别值为某一特定专业,则其分析为量化分析,其结果可由Ⅰ型供给量化分 析得到),限定维度学历未指定时,可获得划定时间段指定区域的热点专业。 限定维度学历指定时,可分析划定时间段指定区域不同学历的热点专业。
[0241] 3、II型供给量化分析
[0242] II型供给量化分析可从多角度对指定区域不同阶段的人才供给量变化 做出有效对比分析,采用发展的眼光纵向量化剖析指定区域,以里程碑式 的区域人才发展路径,折射经济发展趋势,实现不同阶段的量化“知己”。分 析流程如下。
[0243] 首先,需要在区域维度中选择一个区域作为分析区域;
[0244] 其次,需要在动态维度中选择对比时段作为分析时段,所选定的对比 时段通常是月度、季度或年度等自然时间分割节点;
[0245] 再次,在限定维度中选择0到2个指标维度作为分析的限定条件,此 分析中限定维度的选择并无任何要求,可以不选择任一限定维度,也可以 选择一个限定维度的一个值或多个值,还可以选择多个限定维度,每个限 定维度选择一个值或每个限定维度选择多个值;
[0246] 最后,选择目标维度供给量作为分析对象。
[0247] 若未指定限定维度,可宏观地说明指定区域不同时段人才供给量的变 化情况,从侧面反映区域内人才的饱和程度。通过指定单一限定维度,可 分析指定区域在相同专业或相同学历的人才在不同时间段供给量的变动趋 势。通过限定维度的组合,可分析指定区域不同时段专业和学历各种组合 的人才供给变动情况。
[0248] 4、II型供给热点分析
[0249] II型供给热点分析可从多角度对指定区域不同阶段热点专业变化做出 有效分析,纵览随时间的演进人才供给的变化走势,指导引才方向。分析 流程如下。
[0250] 首先,需要在区域维度中选择一个区域作为分析区域;
[0251] 其次,需要在动态维度中选择对比时段作为分析时段,所选定的对比 时段通常是月度、季度或年度等自然时间分割节点;
[0252] 再次,在限定维度中选择或不选择指标维度学历作为分析的限定条件, 可以不选择限定维度学习,也可以选择限定维度学历的一个值或多个值;
[0253] 最后,选择目标维度供给量作为分析对象。
[0254] 限定维度中的指标维度专业类别值默认为不限(若在此处设定专业类 别值为某一特定专业,则其分析为量化分析,其结果可由II型供给量化分 析得到),若限定维度学历未指定,可获得指定区域不同时段的热点专业, 从侧面反映了区域人才供给的变化情况。指定限定维度学历,可分析不同 时段在相同学历热点专业的变化。
[0255] 5、Ⅲ型供给量化分析
[0256] Ⅲ型供给量化分析可从多角度对不同区域的人才供给量做出有效对比 分析,全面量化剖析不同区域的人才情况,分析不同区域人才构成情况, 通过多区域对比,实现量化“知己”“知彼”。分析流程如下。
[0257] 首先,需要在区域维度中选择多个区域作为对比分析区域;
[0258] 其次,需要在动态维度中选择一个时段作为分析时段;
[0259] 再次,在限定维度中选择0到2个指标维度作为分析的限定条件,限 定维度的选择并无任何要求,可以不选择任一限定维度,也可以选择一个 限定维度的一个值或多个值,还可以选择多个限定维度,每个限定维度选 择一个值或每个限定维度选择多个值;
[0260] 最后,选择目标维度供给量作为分析对象。
[0261] 未指定限定维度,可宏观地对比划定时间段内不同区域的人才供给量。 通过指定单一限定维度,可分析划定时间段内不同区域在相同专业或相同 学历人才供给量的对比。通过限定维度的组合,可分析不同区域相同专业 和相同学历人才供给情况。
[0262] 6、Ⅲ型供给热点分析
[0263] Ⅲ型供给热点分析可从多角度对多个区域的热点专业做出有效分析。 对比发现不同区域优势人才,借助区域间的合作,弥补自身人才短板。分 析流程如下。
[0264] 首先,需要在区域维度中选择多个区域作为对比分析区域;
[0265] 其次,需要在动态维度中选择一个时段作为分析时段;
[0266] 再次,在限定维度中选择或不选择指标维度学历作为分析的限定条件, 此分析中限定维度的选择并无任何要求,可以不选择限定维度学历,也可 以选择限定维度学历的一个值或多个值;
[0267] 最后,选择目标维度供给量作为分析对象。
[0268] 限定维度中的指标维度专业类别值默认为不限(若在此处设定专业类 别值为某一特定专业,则其分析为量化分析,其结果可由Ⅲ型供给量化分 析得到),限定维度学历未指定,可获得划定时间段不同区域的热点专业。 指定限定维度学历,可对比分析不同区域相同专业的热点专业差别。
[0269] 7、Ⅳ型供给量化分析
[0270] Ⅳ型供给量化分析可从多角度对不同区域不同阶段的人才供给量变化 做出有效对比分析,采用纵向发展的眼光和横向对比的眼光量化剖析区域 人才供给,以区域不同阶段的人才诉求为点串成区域人才供给走向的线, 通过对比多个区域人才供给的增量和增幅,折射区域经济的增速,总结不 同区域不同人才发展路径的得失,为更好的制定人才政策提供数据支持。 分析流程如下。
[0271] 首先,需要在区域维度中选择多个区域作为对比分析区域;
[0272] 其次,需要在动态维度中选择对比时段作为分析时段,所选定的对比 时段通常是月度、季度或年度等自然时间分割节点;
[0273] 再次,在限定维度中选择0到2个指标维度作为分析的限定条件,此 分析中限定维度的选择并无任何要求,可以不选择任一限定维度,也可以 选择一个限定维度的一个值或多个值,还可以选择多个限定维度,每个限 定维度选择一个值或每个限定维度选择多个值;
[0274] 最后,选择目标维度供给量作为分析对象。
[0275] 未指定限定维度,可宏观地分析多个区域不同时段人才供给量的变化 情况,对比不同区域人才供给的增速情况。通过指定单一限定维度,可分 析不同区域在相同专业或相同学历不同时间段人才供给量的变动趋势。通 过限定维度的组合,可分析不同区域不同时段相同专业和相同学历的人才 供给变动情况。
[0276] 8、Ⅳ型供给热点分析
[0277] Ⅳ型供给热点分析可从多角度对不同区域不同阶段热点专业的变化趋 势做出有效对比分析,纵览随时间的演进不同区域紧缺和高端人才供给的 变迁路径。分析流程如下。
[0278] 首先,需要在区域维度中选择多个区域作为对比分析区域;
[0279] 其次,需要在动态维度中选择对比时段作为分析时段,所选定的对比 时段通常是月度、季度或年度等自然时间分割节点;
[0280] 再次,在限定维度中选择或不选择指标维度学历作为分析的限定条件, 此分析中限定维度的选择并无任何要求,可以不选择限定维度学历,也可 以选择限定维度学历的一个值或多个值;
[0281] 最后,选择目标维度供给量作为分析对象。
[0282] 限定维度中的指标维度专业类别值默认为不限(若在此处设定专业类 别值为某一特定专业,则其分析为量化分析,其结果可由Ⅳ型供给量化分 析得到),限定维度学历未指定,可获得不同区域不同时段的热点专业,从 侧面反映了不同区域人才供给的演变情况。指定限定维度学历,可分析不 同区域相同学历的热点专业随时间演进的变化。
[0283] 阶段三:分析方案
[0284] 目标维度供给量的分析结果属于数值型数据。按照分析分类需对其进 行量化分析和热点分析两类分析。下面分别针对这两类分析阐述分析方案。 1、量化分析[0285] (1)记录学历和专业两个限定维度的选择顺序。
[0286] (2)按照有序的限定维度、区域维度和动态维度的顺序,记录选中的指 标维度及每个选定指标维度选中的值,将其转化成不等长矩阵,其中矩阵 每一行代表一个选中的指标维度,一行中的一个元素代表对应指标维度选 中的值。
[0287] 假定包含区域维度和动态维度共选中了idxn个指标维度,选中的指标 维度分别为Chose_Index1,Chose_Index2,…,Chose_Indexidxn,每个限定维度 选中值的个数为Chose_an1,Chose_an2,…,Chose_anidxn,选中的值分别是 Chose_Index1_Atb1,Chose_Index1_Atb2,…,Chose_Index1_Atban1, Chose_Index2_Atb1,Chose_Index2_Atb2,…,Chose_Index2_Atban2,…, Chose_Indexidxn_Atb1,Chose_Indexidxn_Atb2,…,Chose_Indexidxn_Atbanidxn。
[0288] 则转化的数组共idxn维,第i维为指标维度Chose_Indexi,第i维的长 度为Chose_ani,第i维数组的值分别为Chose_Indexi_Atb1, Chose_Indexi_Atb2,…,Chose_Indexi_Atbani。
[0289] (3)取出矩阵第一维数组第一个元素作为根节点,按照深度优先遍历不 等长矩阵,将其转化为一棵树;如图1所示,给出了第一维数组第一个元 素作为根节点的树;
[0290] (4)取出矩阵第一维数组的后续元素作为根节点,按照深度优先遍历不 等长矩阵,将其转化成一棵树。
[0291] (5)迭代操作(4),直至第一维数组元素为空。
[0292] (6)按照第一维数组的元素顺序,自左至右排列矩阵转化而成多棵树的 根节点顺序构建森林,森林中共有Chose_an1棵树。
[0293] (7)首先按照自左至右遍历森林中的树,然后按照深度优先遍历每棵树, 记录每一个遍历从树根至叶子所经历的完整路径,如[Chose_Index1_Atb1-> Chose_Index2_Atb1->Chose_Index3_Atb1->…->Chose_Indexidxn_Atb1]、 [Chose_Index1_Atb1->Chose_Index2_Atb1->Chose_Index3_Atb1->…-> Chose_Indexidxn_Atb2]、…、[Chose_Index1_Atb1->Chose_Index2_Atb1-> Chose_Index3_Atb1->…->Chose_Indexidxn_Atbanidxn]等,共有Chose_an1× Chose_an2×…×Chose_anidxn条路径。
[0294] (8)结合属性值所属指标维度,将一条遍历路径转化为一条数据查询限 定规则。如路径[Chose_Index1_Atb1->Chose_Index2_Atb1-> Chose_Index3_Atb1->…->Chose_Indexidxn_Atb1]转化为一条规则: Chose_Index1matches Chose_Index1_Atb1And Chose_Index2matches Chose_Index2_Atb1And Chose_Index3matches Chose_Index3_Atb1And… And Chose_Indexidxn matches Chose_Indexidxn_Atb1,共有Chose_an1×Chose_an2×…×Chose_anidxn条数据查询规则。
[0295] (9)按照顺序抽取一条数据查询规则,在抓取的数据中进行查询,找出 满足规则的数据集合Dataseti,最终对Dataseti进行统计求和获取结果 Resulti。
[0296] (10)迭代操作(9),直至抽取完所有的数据查询规则,汇总每条数据查询 规则所获得的结果Resulti,返回量化分析结果集ResultSet。
[0297] 2、热点分析
[0298] 在热点分析中,限定维度专业默认为不限,因此在统计指标维度的选 择情况时,并不统计该指标维度。其前9步操作与量化分析的操作(1)到操 作(9)相同,不再赘述。
[0299] (10)迭代操作(9),直至抽取完所有的数据查询规则,对比每条数据查询 规则所获得的结果Resulti,按照用户设定抽取前若干项结果作为热点结果 集TopResultSet,并抽取其对应的专业集合TopMajor。
[0300] 步骤四:分析结果可视化
[0301] 基于大数据的区域人才供给量化分析系统可服务于政府人才策略制定 者、学校招生人员、在校学生等不同类型的用户,也即其所提供分析结果 面向的信息接受者类型不同。分析结果的解读直接影响接受者获取信息量 的大小,面对的接受者类型不同需要解读的角度也应有所不同。虽然多角 度解读有助于全面阐述结果的意义,然后面对不同类型的信息接受者,并 非解读的越全面用户体验也越好,与信息接收者类型不匹配角度的解读反 而会使信息混乱或分散,增加信息的不确定性(熵值)。因此全面平铺直叙 的文本解读方式并不适合于面向多类型信息接收者系统的结果呈现。种类 丰富的图表其直观的表现能力,为不同类型信息接收者提供了从不同角度 解读分析结果的想象空间,各类信息接收者可从自身角度出发对各种量化 或对比分析图表进行有效解读,而不失信息完整性。
[0302] JavaScript脚本具有平台无关、相对安全、事件驱动等特性,适合于客 户端的运行和展现,目前已有众多基于JavaScript脚本的图表生成控件,如 ECharts、HighCharts、D3、RGraph等。可采用其中一种控件辅助生成图表。
[0303] 阶段一:目标维度与图表类型(图表类型选择)
[0304] 分析结果为数值型数据,对于数值型分析结果可采用仪表盘、饼图、 折线图、柱图、雷达图、矩形树图、表格等图表展示,各类图表容纳坐标 数量不同其表达能力不同。如仪表盘一般适合于一维单值分析结果的展示; 饼图、单系列折线图和单系列柱图适合于一维多值分析结果的展示;多系 列折线图、多系列柱图、雷达图一般适合于二维多值分析结果的展示;矩 形树图和表格适合于高维多值分析结果的展示等等。
[0305] 阶段二:图表类型生成方案
[0306] 如前所述,按照分析结果侧重量、序的不同可分为量化分析和热点分 析。下面分别针对这两类分析阐述分析结果的呈现方案。
[0307] 1、量化分析
[0308] 重视量的量化分析依据选择多个值的指标维度数,自动选择合适图表 进行显示,图表生成方案如下。
[0309] (1)初始时令选择多值的维度数Dimension_Count=0;
[0310] (2)查看区域维度、动态维度和限定维度,计算选择多值的维度数,[0311] 若区域维度选择了多个区域,则Dimension_Count加1;
[0312] 若动态维度选择了多个对比时段,则Dimension_Count加1;
[0313] 从限定维度中取出一个指标维度,若该指标维度选择了多个值,则 Dimension_Count加1,迭代此操作,直至限定维度中的指标维度为空。
[0314] (3)若Dimension_Count的值等于0,表明除目标维度供给量外,其余指 标维度至多选取了一个值,则最终得到的数值型结果为单一值,应采用仪 表盘展现,仪表盘的刻度即为最终结果。
[0315] (4)若Dimension_Count的值等于1,表明除目标维度外,有一个指标维 度选择了多个值,将此选择了多值的指标维度称为Chart_Index,其余指标 维度至多选取了一个值,则最终得到的结果为一维数组,应采用饼图、单 系列折线图或单系列柱图展现。使用的图表可由用户根据需要自行指定。 单系列折线图和单系列柱形图的纵坐标表示供给量,横坐标表示 Chart_Index,折线图中的一个折点和柱形图中的一列对应着Chart_Index的 一个值。饼图中的一个区域对应着Chart_Index的一个值,使用区域的大小 说明供给量。
[0316] (5)若Dimension_Count的值等于2,表明除目标维度供给量,有两个 指标维度选择了多个值,其余指标维度至多选取了一个值,
[0317] ①若选择了多值的两个指标维度中包含区域维度或动态维度,则将含 有多值的区域维度或动态维度标识为Chart_Index1,将最后选中的限定维度 标识为Chart_Index2,[0318] ②若选择了多值的两个指标维度中包含区域维度和动态维度,则将动 态维度标识为Chart_Index1,将区域维度标识为Chart_Index2,
[0319] ③若选择了多值的两个指标维度中不包含区域维度或动态维度,将指 标维度按照选择顺序分别标识为Chart_Index2和Chart_Index1,
[0320] 分析所得到的最终结果为二维数组,应采用多系列折线图或多系列柱 图展现。使用的图表可由用户根据需要自行指定。多系列折线图和多系列 柱形图的纵坐标表示人才供给量,横坐标表示Chart_Index1,图表中的一个 系列表示Chart_Index2的一个选择值。
[0321] (6)若Dimension_Count的值大于2,表明除目标维度外,至少有三个 指标维度选择了多个值,假定选中了多值的指标维度个数为idxn,
[0322] ①若选择了多值的指标维度中包含区域维度或动态维度,则将含有多 值的区域维度或动态维度标识为Chart_Index1,将最后选中的限定维度标识 为Chart_Index2,[0323] ②若选择了多值的指标维度中包含区域维度和动态维度,则将动态维 度标识为Chart_Index1,将区域维度标识为Chart_Index2,
[0324] ③若选择了多值的指标维度中不包含区域维度或动态维度,将指标维 度按照选择顺序分别标识为Chart_Index2和Chart_Index1,
[0325] ④将其他选择了多值的限定维度按照选择顺序依次标识为 Chose_Indexidxn-2,Chose_Indexidxn-3,…,Chose_Index1,假定限定维度 Chose_Index1,Chose_Index2,…,Chose_Indexidxn-2选定值的个数分别是 ChIdxN1,ChIdxN2,…,ChIdxNidxn-2,[0326] 首先,使用限定维度Chose_Index1,Chose_Index2,…,Chose_Indexidxn-2构建一个ChIdxN1×ChIdxN2×...×ChIdxNidxn-2行idxn-1列的表格,表格的第1列 到第idxn-2列分别对应限定维度Chose_Index1,…,Chose_Indexidxn-2。表格 第i行j列单元格的值则为限定维度Chose_Indexj第  个值,其中j
[0327] 然后,为使图表单元格的显示更为整洁,将相同值的单元格进行合并, 也即后第j列的每个单元格需合并ChIdxNj+1×ChIdxNj+2×...×ChIdxNidxn-2个小单 元格,合并后的单元格i将取Chose_Indexj的第i个值;
[0328] 最后,第idxn-1列有ChIdxN1×ChIdxN2×...×ChIdxNidxn-2个单元格,每个单 元格中包含一个多系列折线图或多系列柱图。使用的图表类型可由用户根 据需要自行指定。多系列折线图和多系列柱形图的纵坐标表示供给量,横 坐标表示Chart_Index1,图表中的一个系列表示Chart_Index2的一个选择值。 2、热点分析
[0329] 由前述分析说明可知,热点分析中限定维度专业的默认值为不限,也 即默认选定了指标维度专业的所有值,因此至少有一个指标维度选择了多 个值。重视序的热点分析采用单系列柱形图加表格的形式展示,图表生成 方案如下。
[0330] (1)初始时令选择多值的维度数Dimension_Count=0;
[0331] (2)查看区域维度、动态维度和限定维度,计算选择多值的维度数,[0332] 若区域维度选择了多个区域,则Dimension_Count加1;
[0333] 若动态维度选择了多个对比时段,则Dimension_Count加1;
[0334] 若限定维度中学历也选择了多个值,则Dimension_Count加1。
[0335] (3)若Dimension_Count的值等于1,表明除限定维度专业外,其余指 标维度至多选取了一个值,则最终得到的结果为一维数组,直接采用一个 柱形图展现既可。柱形图的纵坐标表示热点专业的供给量,横坐标表示限 定维度专业,图中的每一列对应一个根据条件选出的具体专业名称,其自 左至右降序排列。
[0336] (4)若Dimension_Count的值等于2,表明除限定维度专业外,还有一 个指标维度选取了多个值,将此指标维度标识为Chose_Index,
[0337] ①若该Chose_Index是动态维度,参与对比分析的时间段个数为itvn, 则构建一个1行itvn列的表格,表格的一列表示一个参与对比分析的时间 段,每一个单元格为相应时间段内热点专业供给量情况,采用一个柱形图 展现。
[0338] ②若该Chose_Index是区域维度或限定维度专业,选中值的个数为 vlun,则构建一个vlun行1列的表格,表格的一行表示一个区域或一个限 定维度的值,每一个单元格表示相应区域或限定学历的热点专业供给量情 况,采用一个柱形图展现。
[0339] (5)若Dimension_Count的值大于2,表明除限定维度专业外,还有至 少两个指标维度选取了多个值,假定选中了多值的指标维度个数为idxn,
[0340] ①若选择了多值的指标维度中包含动态维度,假定参与对比分析的时 间段个数为itvn,
[0341] 若选择了多值的指标维度中包含区域维度,将区域维度标识为  Chose_Indexidxn-2,将其他选择了多值的限定维度按照选择顺序依次标识 为Chose_Indexidxn-3,Chose_Indexidxn-4,…,Chose_Index1,
[0342] 若选择了多值的指标维度中不包含区域维度,将其他选择了多值的 限定维度按照选择顺序依次标识为Chose_Indexidxn-2,Chose_Indexidxn-3,…, Chose_Index1,[0343] 假定限定维度Chose_Index1,Chose_Index2,…,Chose_Indexidxn-2选定值 的个数分别是ChIdxN1,ChIdxN2,…,ChIdxNidxn-2,
[0344] 首先,使用指标维度Chose_Index1,Chose_Index2,…,Chose_Indexidxn-2构建一个ChIdxN1×ChIdxN2×...×ChIdxNidxn-2行idxn-1+itvn列的表格,表格的第 1列到第idxn-2列分别对应指标维度Chose_Index1,…,Chose_Indexidxn-2。表 格第i行j列单元格的值则为限定维度Chose_Indexj第  个值,其中j
[0345] 然后,为使图表单元格的显示更为整洁,将相同值的单元格进行合并, 也即后第j列的每个单元格需合并ChIdxNj+1×ChIdxNj+2×...×ChIdxNidxn-2个小单 元格,合并后的单元格i将取Chose_Indexj的第i个值;
[0346] 最后,第idxn-1列到第idxn-1+itvn列分别对应一个对比时段的情况, 每一列有ChIdxN1×ChIdxN2×...×ChIdxNidxn-2个单元格,每一个单元格表示一个 对比时段相应区域或限定条件的热门专业情况,采用一个柱形图展现。
[0347] ②若选择了多值的指标维度中不包含动态维度,则选中多值的指标维 度必然是区域和专业,将区域维度标识为Chose_Index2,将专业标识为 Chose_Index1,[0348] 假定指标维度Chose_Index1,Chose_Index2选定值的个数分别是 ChIdxN1,ChIdxN2,
[0349] 首先,使用指标维度Chose_Index1,Chose_Index2构建一个 ChIdxN1×ChIdxN2行3列的表格,表格的第1列和第2列分别对应指标维度 Chose_Index1,Chose_Index2。表格第i行j列单元格的值则为指标维度 Chose_Indexj第个值,其中j<3;
[0350] 然后,为使图表单元格的显示更为整洁,将相同值的单元格进行合并, 也即后第j列的每个单元格需合并ChIdxNj+1×...×ChIdxN2个小单元格,合并后 的单元格i将取Chose_Indexj的第i个值;
[0351] 最后,第3列有ChIdxN1×ChIdxN2个单元格,每一个单元格表示相应区域 或限定专业的热点专业供给量情况,采用一个柱形图展现。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈