首页 / 专利库 / 专利权 / 专利合作条约 / 第I章 / 国际申请 / 说明书 / 本技术领域的技术人员 / 一种演职人员内容管理方法及系统

一种演职人员内容管理方法及系统

阅读:836发布:2020-05-11

专利汇可以提供一种演职人员内容管理方法及系统专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种演职人员内容管理方法及系统,属于机顶盒技术领域。本发明的演职人员内容管理方法通过爬虫技术抓取网络上的演职人员数据,其中演职人员数据包括演职人员 基础 数据和海报数据,通过 人脸识别 技术处理海报数据,通过智能 算法 编排演职人员基础数据,形成演职人员资料库,对外提供开源 接口 。该发明的演职人员内容管理方法能够智能、自动维护演职人员资料库,具有很好的推广应用价值。,下面是一种演职人员内容管理方法及系统专利的具体信息内容。

1.一种演职人员内容管理方法,其特征在于:所述方法通过爬虫技术爬取网络上的演职人员数据,其中演职人员数据包括演职人员基础数据和海报数据,通过人脸识别技术处理海报数据,通过智能算法编排演职人员基础数据,形成演职人员资料库,对外提供开源接口
2.根据权利要求1所述的演职人员内容管理方法,其特征在于:所述方法具体包括以下步骤:
S1:通过爬虫技术爬取互联网中演职人员数据,并存入元数据仓库
S2:定期扫描更新元数据;
S3:通过智能算法编排演职人员基础数据,生成完善的演职人员资料,形成演职人员资料库;
S4:通过人脸识别技术进行海报数据加工;
S5:基于演职人员资料库对外提供开源接口。
3.根据权利要求2所述的演职人员内容管理系统,其特征在于:步骤S1中演职人员数据包括演职人员基础数据和海报数据,演职人员基础数据包括中文名、英文名、别名、生日、出生地、性别、国籍、职业、身高、血型、爱好、星座、个人简介,演职人员海报数据为头像海报文件。
4.根据权利要求3所述的演职人员内容管理方法,其特征在于:通过爬虫技术爬取互联网中演职人员数据,记录基础数据的原始URL地址,存入元数据仓库,并记录基础数据的MD5值。
5.根据权利要求4所述的演职人员内容管理方法,其特征在于:定期扫描元数据仓库中的URL地址,获取基础数据,并计算基础数据的MD5值,与元数据仓库中MD5值对比,若基础数据有更新,则触发合并入基础数据库
6.根据权利要求5所述的演职人员内容管理方法,其特征在于:通过人脸识别技术进行海报数据加工,将海报处理为指定尺寸300*300的海报。
7.根据权利要求6所述的演职人员内容管理方法,其特征在于:爬虫技术先爬取当前热播电影、热播电视剧,从中获取导演、演员的姓名,根据导演、演员姓名爬取演职人员数据。
8.一种演职人员内容管理系统,其特征在于:所述系统包括以下模
元数据仓库:用于存储演职人员基础数据、海报数据、基础数据的MD5值和基础数据的原始URL地址;
基础数据库:用于识别、合并入库演职人员基础数据;
海报库:用于存储演职人员海报数据经过人脸识别、裁剪、压缩后的海报。
9.根据权利要求8所述的演职人员内容管理系统,其特征在于:通过爬虫技术爬取演职人员基础数据和海报数据存储于元数据仓库中,并在元数据仓库中记录基础数据的原始URL地址和基础数据的MD5值,定期扫描元数据仓库中的URL地址,获取基础数据,并计算MD5值,与元数据仓库中MD5值对比,若基础数据有更新,则触发合并入基础数据库。
10.根据权利要求9所述的演职人员内容管理系统,其特征在于:通过人脸识别技术进行海报数据加工,将海报剪裁、压缩为指定尺寸300*300的海报,存储于海报库中。

说明书全文

一种演职人员内容管理方法及系统

技术领域

[0001] 本发明涉及机顶盒技术领域,具体提供一种演职人员内容管理方法及系统。

背景技术

[0002] 机顶盒展示的电视节目简介中会展示导演、演员、主持人、嘉宾等演职人员信息(含头像海报),展开明细页会显示演职人员简介、作品。演职人员信息需要在内容管理系统中维护,如果数以万计的演职员信息单纯依靠人工维护,既耗时又费

发明内容

[0003] 本发明的技术任务是针对上述存在的问题,提供一种智能的,能够自动维护演职人员资料库的演职人员内容管理方法。
[0004] 本发明进一步的技术任务是提供一种演职人员内容管理系统。
[0005] 为实现上述目的,本发明提供了如下技术方案:
[0006] 一种演职人员内容管理方法,所述方法通过爬虫技术爬取网络上的演职人员数据,其中演职人员数据包括演职人员基础数据和海报数据,通过人脸识别技术处理海报数据,通过智能算法编排演职人员基础数据,形成演职人员资料库,对外提供开源接口
[0007] 作为优选,所述方法具体包括以下步骤:
[0008] S1:通过爬虫技术爬取互联网中演职人员数据,并存入元数据仓库
[0009] S2:定期扫描更新元数据;
[0010] S3:通过智能算法编排演职人员基础数据,生成完善的演职人员资料,形成演职人员资料库;
[0011] S4:通过人脸识别技术进行海报数据加工;
[0012] S5:基于演职人员资料库对外提供开源接口。
[0013] 作为优选,步骤S1中演职人员数据包括演职人员基础数据和海报数据,演职人员基础数据包括中文名、英文名、别名、生日、出生地、性别、国籍、职业、身高、血型、爱好、星座、个人简介,演职人员海报数据为头像海报文件。
[0014] 作为优选,通过爬虫技术爬取互联网中演职人员数据,记录基础数据的原始URL地址,存入元数据仓库,并记录基础数据的MD5值。
[0015] 作为优选,定期扫描元数据仓库中的URL(Uniform Resource Locator即统一资源定位符)地址,获取基础数据,并计算基础数据的MD5值,与元数据仓库中MD5值对比,若基础数据有更新,则触发合并入基础数据库
[0016] 作为优选,通过人脸识别技术进行海报数据加工,将海报处理为指定尺寸300*300的海报。
[0017] 作为优选,爬虫技术先爬取当前热播电影、热播电视剧,从中获取导演、演员的姓名,根据导演、演员姓名爬取演职人员数据。
[0018] 一种演职人员内容管理系统,所述系统包括以下模
[0019] 元数据仓库:用于存储演职人员基础数据、海报数据、基础数据的MD5值和基础数据的原始URL地址;
[0020] 基础数据库:用于识别、合并入库演职人员基础数据;
[0021] 海报库:用于存储演职人员海报数据经过人脸识别、裁剪、压缩后的海报。
[0022] 作为优选,通过爬虫技术爬取演职人员基础数据和海报数据存储于元数据仓库中,并在元数据仓库中记录基础数据的原始URL地址和基础数据的MD5值,定期扫描元数据仓库中的URL地址,获取基础数据,并计算MD5值,与元数据仓库中MD5值对比,若基础数据有更新,则触发合并入基础数据库。
[0023] 作为优选,通过人脸识别技术进行海报数据加工,将海报剪裁、压缩为指定尺寸300*300的海报,存储于海报库中。
[0024] 与现有技术相比,本发明的演职人员内容管理方法具有以下突出的有益效果:所述演职人员内容管理方法能够智能、自动的维护演职人员资料库,避免演职人员信息单纯依靠人工维护,耗时由费力的弊端,具有良好的推广应用价值。附图说明
[0025] 图1是本发明所述演职人员内容管理方法的流程图

具体实施方式

[0026] 下面将结合附图和实施例,对本发明的演职人员内容管理方法及系统作进一步详细说明。
[0027] 实施例
[0028] 如图1所示,本发明的演职人员内容管理方法通过爬虫技术爬取网络上的演职人员数据,其中演职人员数据包括演职人员基础数据和海报数据,通过人脸识别技术处理海报数据,通过智能算法编排演职人员基础数据,形成演职人员资料库,对外提供开源接口。
[0029] 该演职人员内容管理方法具体包括以下步骤:
[0030] S1:通过爬虫技术爬取互联网中演职人员数据,并存入元数据仓库。
[0031] 爬虫技术先爬取当前热播电影、热播电视剧,从中获取导演、演员的姓名,根据导演、演员姓名爬取演职人员数据。演职人员数据包括演职人员基础数据和海报数据,演职人员基础数据包括中文名、英文名、别名、生日、出生地、性别、国籍、职业、身高、血型、爱好、星座、个人简介,演职人员海报数据为头像海报文件。通过爬虫技术爬取互联网中演职人员数据,记录基础数据的原始URL地址,存入元数据仓库,并记录基础数据的MD5值。记录基础数据的原始URL地址,存入元数据仓库用于定期扫描原始资源。记录基础数据的MD5值用于比对判断原始资源是否更新。
[0032] S2:定期扫描更新元数据。
[0033] 如果原始资源有变化,演职人员库中的数据也应更新。故需定期扫描URL地址库,重新抓取演职人员基础数据,对比基础数据的MD5值,如果不同则判断有更新,如果相同则判断没有更新。
[0034] S3:通过智能算法编排演职人员基础数据,生成完善的演职人员资料,形成演职人员资料库。
[0035] 有时候不确定两条数据是否描述的是同一个演职人员,需采用识别策略判断,如表1所示,选取几个识别字段,如中文名、英文名、别名,分别设置识别权重值,并计算相似度(匹配的字段对应的权重值求和)。当相似度>相似度阈值,则判断是同一人,否则判断为两个人。
[0036] 表1识别策略
[0037]识别字段 识别权重值 是否匹配 示例1 示例2
中文名 20 √ 张三 张三
英文名 5 √ zhangsan zhangsan
别名 5   三儿  
生日 5   20100603 2010
出生地 5 √ 华盛顿 华盛顿
相似度   30    
[0038] 一条演职人员一般会收集到多条数据,需要将数据合并编排成一条相对完整的数据,可以事先制定简单的合并策略,比如优先选用B网络。如表2所示,合并后的数据入基础数据库。
[0039] 表2合并策略图:×代表没有数据
[0040]
[0041] S4:通过人脸识别技术进行海报数据加工。
[0042] 通过人脸识别技术进行海报数据加工,将海报处理为指定尺寸300*300的海报。
[0043] 抓取的演职人员海报数据尺寸各不相同,而机顶盒需要展示指定尺寸(300*300)的海报,所以需对演职人员海报裁剪处理。需要如下几个步骤:
[0044] 1、判断图片尺寸是否满足裁剪条件:长>300、宽>300。
[0045] 2、调用开源人脸识别接口,获取人脸区域A。
[0046] 3、将区域A范围扩大(一般高度扩大到2.5倍,宽度扩大到2倍即可),并调整得到正方形区域B。
[0047] 4、如果B区域超出图片尺寸则调整其位置,使包含在图片内。
[0048] 5、裁剪该区域B得到图片。
[0049] 6、将图片压缩,处理为300*300像素,存入海报库中。
[0050] S5:基于演职人员资料库对外提供开源接口。
[0051] 以上所述的实施例,只是本发明较优选的具体实施方式,本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈