技术领域
[0001] 本
发明涉及产业分析技术领域,具体而言,尤其涉及一种基于大数据的可视化产业分析方法。
背景技术
[0002] 产业是区域经济的
风向标,深入的产业研究是政府科学决策、精准施策、指导经济发展的重要依据。传统的产业研究方法主要是通过实地调研、问卷调查、会议座谈、面对面访谈、电话访谈、网络搜索、文献资料等渠道获取信息资源,然后结合理论
基础和实践经验进行加工分析,再借助Excel等传统办公
软件,制作出柱形图、拆线图、饼图、条形图等图表形式,形成产业分析成果。
[0003] 传统的产业分析方法,需要耗费大量的人
力物力资源和成本,由于使用抽样调查的统计数据,以至数据样本量小、误差大、时效低、成本高、宏观性,调研信息具有主观性,且展现形式单一,可视化图表仅能静态呈现,这与瞬息万变的
信息时代形成反差,也不能适应大数据时代背景下的政府科学决策需求。
发明内容
[0004] 根据上述提出的技术问题,而提供一种基于大数据的可视化产业分析方法。
[0005] 本发明采用的技术手段如下:
[0006] 一种基于大数据的可视化产业分析方法,包括如下步骤:
[0007] S1、基于
数据库、
接口、下载、
网络爬虫的技术手段采集有关产业信息的海量数据源;
[0008] S2、基于Hadoop搭建分布式文件系统,将采集到的有关产业信息的海量数据源储存进所述分布式文件系统中,进而
抽取其中符合检索需求的相关性数据导入到后台数据库;
[0009] S3、通过数据清洗过滤出所述后台数据库中的需求产业分析的核心内容,通过对所述核心内容进行关键词提取得到分词的有效结果,根据有效的分词构建用于对海量数据源进行有效信息提取的特例结构树数学分析和统计模型;
[0010] S4、通过数据画像方式呈现特例结构树数学分析和统计模型中不同产业分析内容的动态可视化交互界面。
[0011] 进一步地,所述步骤S1中,所述海量数据源包括:与企业经营相关的企业数据、网络数据、媒体数据、智库数据和政府、海关
网站及线下提供的政府数据和进出口贸易数据,数据源具体格式为SQL Server、
电子表格和图片。
[0012] 进一步地,所述步骤S3中,数据清洗通过基于预设的规则对各渠道数据进行数据过滤、数据去噪、数据排重和数据校验操作。
[0013] 进一步地,所述步骤S3中,关键词提取得到分词的有效结果,具体步骤包括:
[0014] 从基础的特例结构树根开始按照文本的关键词顺序向下遍历特例结构树,若发现某个
节点标记不存在或者文本遍历完成而最后的节点未标记为表示存在的特征
颜色,则表示该关键词不存在,若最后的节点标记为表示存在的特征颜色,表示该关键词存在;
[0015] 通过Python分词技术,生成句子中汉字所有可能成词情况所构成的有向无环图,采用了动态规划查找最大概率路径,找出基于词频的最大切分组合;
[0016] 对于未登录词,采用了基于汉字成词能力的HMM模型,通过维特比
算法得到分词的有效结果,具体为:
[0017] 将数据源整合设为S,共有k个状态,初始状态i的概率为,每个词的前后组合概率为ai,j,令观察到的输出为yI,...,yT,则各个词可能分出的状态序列x1,...,xT,由递推关系给出:
[0018] Vl,k=P(y1|k)·πk
[0019] Vt,k=F(yi|k)·maxx∈S(aα,k·Vt-1,x)
[0020] 式中,Vi,k是前t个最终状态为k的观测结果最有可能对应的状态序列的概率,通过保存向后
指针记住在第二个等式中用到的状态x可以获得维特比路径,函数Ptr(k,t),返回若t>1时计算用到的x值或若t=1时的k,进而得到:
[0021] xT=argmaxx∈S(VT,x)
[0022] xi-1=Ptr(xi,t)
[0023] 由此可得最优可能的x状态,即为分词的有效结果。
[0024] 进一步地,所述步骤S3中,构建数学分析和统计模型后,还具有:
数据挖掘,具体为:基于
机器学习、
深度学习的算法,对数据进行深层次的分析、处理和加工,优化模型,提高模型的
精度与准确率,保证数据的有效性、准确性,挖掘出有价值的信息。
[0025] 所述深度学习算法包括有监督的机器学习算法和无监督的机器学习算法,[0026] 基于小世界特性构建产业的复杂网络结构,利用模拟
退火算法对产业模
块度的社区规划进行最优解处理,进而达到全局的最优解,
[0027] 假定当前可行解为x,
迭代更新后的解为x_new,对应的
能量差定义为:Δf=f(x_new)-f(x),其对应的一定概率为:
[0028]
[0029] 其中k是玻尔兹曼常数,值为k=1.3806488(13)×10-23J/K,T为
热力学温度,exp表示自然指数,由此得到最优产业社区的数据规划。
[0030] 进一步地,所述产业分析内容包括产业规模、产业结构、产业分布、产业态势、产业集群、产业链、产业关联和产业分工。
[0031] 进一步地,所述步骤S4中,基于Htmlcss和Echarts.js结合的可视化分析技术,用数据画像方式呈现动态可视化交互界面,所述数据画像方式包括:气泡图、旭日图、矩形树图、簇状柱形图、包图、树图、复杂网络关系图、地图。
[0032] 进一步地,所述产业规模用气泡图展现;
[0033] 所述产业结构用旭日图展现;
[0034] 所述产业分布用矩形树图展现;
[0035] 所述产业态势用簇状柱形图展现;
[0036] 所述产业集群用包图展现;
[0037] 所述产业链用树图展现;
[0038] 所述产业关联用复杂网络关系图展现;
[0039] 所述产业分工用地图展现。
[0040] 较
现有技术相比,本发明具有以下优点:
[0041] 本发明提供的基于大数据的可视化产业分析方法,是以海量数据为基础,采用当前先进的大
数据采集、清洗、处理、挖掘、分析、可视化等技术手段和方法,可以从海量数据中挖掘出有价值的产业信息,掌握产业规模、产业结构、产业分布、产业态势、产业集群、产业链、产业关联、产业分工等情况,提供数据更全面、技术更先进、方法更科学、维度更多样、颗粒度更细化、结论更准确的大数据分析可视化产品,辅助政府高效决策、精准施策,指导产业发展,助推经济腾飞。基于大数据的可视化产业分析方法,采用全样本数据,具有大容量、快速度、多样性、客观性、真实性、准确性、时效性、价值性、宏观与微观分析相结合等特点和优势,基于Html css和Echarts.js结合的可视化分析技术,展现形式丰富多样、形象直观,可视化图表动态呈现,可实现数据的实时变动。
[0042] 基于上述理由本发明可在产业分析领域广泛推广。
附图说明
[0043] 为了更清楚地说明本发明
实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0044] 图1为本发明一种基于大数据的可视化产业分析方法
流程图。
[0045] 图2为本发明可视化产业分析方法具体功能流程图。
具体实施方式
[0046] 为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
[0047] 需要说明的是,本发明的
说明书和
权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何
变形,意图在于
覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0048] 由于互联网时代信息数据的爆发式增长,大数据的应用越来越广泛,大数据价值愈加凸显。在此背景下,“大数据”作为一种新兴的
数据处理技术与认知思维,获得政府部
门的高度重视。政府决策数据化既是对传统政府决策思想的继承,又是对传统政府决策的创新与突破。将大数据技术引入产业分析,对于政府推动经济发展、提升服务、决策和监管能力具有重要意义。
[0049] 基于大数据的产业分析方法,采用全样本数据,具有大容量、快速度、多样性、客观性、真实性、准确性、时效性、价值性、宏观与微观分析相结合等特点和优势,基于Echarts等强大的可视化程序,展现形式丰富多样、形象直观,可视化图表动态呈现,可实现数据的实时变动。
[0050] 如图1、图2所示,一种基于大数据的可视化产业分析方法,包括如下步骤:
[0051] S1、基于数据库、接口、下载、网络爬虫的技术手段采集有关产业信息的海量数据源;网络爬虫技术是一种按照一定的规则,自动爬取“
万维网”信息的程序或脚本。
[0052] S2、基于Hadoop搭建分布式文件系统,将采集到的有关产业信息的海量数据源储存进所述分布式文件系统中,进而抽取其中符合检索需求的相关性数据导入到后台数据库;
[0053] S3、通过数据清洗过滤出所述后台数据库中的需求产业分析的核心内容,通过对所述核心内容进行关键词提取得到分词的有效结果,根据有效的分词构建用于对海量数据源进行有效信息提取的特例结构树数学分析和统计模型;
[0054] S4、通过数据画像方式呈现特例结构树数学分析和统计模型中不同产业分析内容的动态可视化交互界面。
[0055] 所述步骤S1中,所述海量数据源包括:与企业经营相关的企业数据、网络数据、媒体数据、智库数据和政府、海关网站及线下提供的政府数据和进出口贸易数据,数据源具体格式为SQL Server、电子表格和图片。
[0056] 所述步骤S3中,数据清洗通过基于预设的规则对各渠道数据进行数据过滤、数据去噪、数据排重和数据校验操作。
[0057] 所述步骤S3中,所述关键词提取,运用Trie树(特例结构树),对海量数据进行有效信息提取。利用字符串的公共前缀来降低查询时间的开销以达到提高效率的目的。
[0058] 关键词提取得到分词的有效结果,具体步骤包括:
[0059] 从基础的特例结构树根开始按照文本的关键词顺序向下遍历特例结构树,一旦发现某个节点标记不存在或者文本遍历完成而最后的节点未标记为红色,则表示该关键词不存在,若最后的节点标记为红色,表示该关键词存在;
[0060] 通过Python分词技术,生成句子中汉字所有可能成词情况所构成的有向无环图,采用了动态规划查找最大概率路径,找出基于词频的最大切分组合;
[0061] 对于未登录词,采用了基于汉字成词能力的HMM模型,通过维特比算法(Viterbi算法)得到分词的有效结果,具体为:
[0062] 将数据源整合设为S,共有k个状态,初始状态i的概率为,每个词的前后组合概率为ai,j,令观察到的输出为y1,...,yT,则各个词可能分出的状态序列x1,...,xT,由递推关系给出:
[0063] Vl,k=P(y1|k)·πk
[0064] Vi,k=P(yi|k)·maxx∈S(aα,k·Vt-1,x)
[0065] 式中,Vt,k是前t个最终状态为k的观测结果最有可能对应的状态序列的概率,通过保存向后指针记住在第二个等式中用到的状态x可以获得维特比路径,函数Ptr(k,t),返回若t>1时计算用到的x值或若t=1时的k,进而得到:
[0066] xT=argmaxx∈S(VT,x)
[0067] xi-1=Ptr(xi,t)
[0068] 由此可得最优可能的x状态,即为分词的有效结果。
[0069] 所述步骤S3中,构建数学分析和统计模型后,还具有:数据挖掘,具体为:基于机器学习、深度学习的算法,对数据进行深层次的分析、处理和加工,优化模型,提高模型的精度与准确率,保证数据的有效性、准确性,挖掘出有价值的信息。
[0070] 所述深度学习算法包括有监督的机器学习算法和无监督的机器学习算法,[0071] 利用小世界特性(Small world theory)又被称之为是六度空间理论或者是六度分割理论(Six degrees of separation),社交网络中的任何一个成员和任何一个陌生人之间所间隔的人不会超过六个。利用此理论,构建产业的复杂网络结构,利用模块度(modularity)网络社区划分的优劣可以有一个明确的评价指标来衡量。一个网络不通情况下的社区划分对应不同的模块度,模块度越大,对应的社区划分也就越合理;如果模块度越小,则对应的网络社区划分也就越模糊。利用模拟退火算法(SA),对产业模块度的社区规划进行最优解处理。在迭代更新可行解时,以一定的概率来接受一个比当前解要差的解,因此有可能会跳出这个局部的最优解,达到全局的最优解。
[0072] 假定当前可行解为x,迭代更新后的解为x_new,对应的能量差定义为:Δf=f(x_new)-f(x),其对应的一定概率为:
[0073]
[0074] 其中k是玻尔兹曼常数,值为k=1.3806488(13)×10-23J/K,T为热力学温度,exp表示自然指数,由此得到最优产业社区的数据规划。
[0075] 所述产业分析内容包括产业规模、产业结构、产业分布、产业态势、产业集群、产业链、产业关联和产业分工。
[0076] 所述步骤S4中,基于Htmlcss和Echarts.js结合的可视化分析技术,用数据画像方式呈现动态可视化交互界面,所述数据画像方式包括:气泡图、旭日图、矩形树图、簇状柱形图、包图、树图、复杂网络关系图、地图。
[0077] 所述产业分工用地图展现。所述产业规模用气泡图展现;所述产业结构用旭日图展现;所述产业分布用矩形树图展现;所述产业态势用簇状柱形图展现;所述产业集群用包图展现;所述产业链用树图展现;所述产业关联用复杂网络关系图展现;所述产业分工用地图展现。
[0078] 在建模之后,还需要通过后台开发及前端开发,才能做到完整的可视化分析,[0079] 后台开发具体为:使用Visual Studio开发WebForm程序,从数据库中读取数据,通过算法计算得到结果,并处理成统一格式传输到前端。
[0080] 前端开发具体为:设计网站UI布局,采用Hbuilder、Sublime等编写Htmlcss代码,根据需要选择不同类型的图形
插件,调整浏览器兼容性。使用Photoshop、Illustrator等制作图片。
[0081] 由于互联网时代信息数据的爆发式增长,大数据的应用越来越广泛,大数据价值愈加凸显。在此背景下,“大数据”作为一种新兴的数据处理技术与认知思维,获得政府部门的高度重视。政府决策数据化既是对传统政府决策思想的继承,又是对传统政府决策的创新与突破。将大数据技术引入产业分析,对于政府推动经济发展、提升服务、决策和监管能力具有重要意义。
[0082] 上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0083] 在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
[0084] 最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行
修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。