专利汇可以提供一种基于文本分析的面向视频网站的互联网视频搜索方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种基于 文本分析 的面向视频 网站 的互联网视频搜索方法。已有的搜索方法关注重于文字上的搜索,用户搜索到的往往是一篇文章,或者是别人的博客内容。本发明首先建立搜索词库,分析原始URL的源代码,把新得到的URL链接及文字信息保存到队列中。其次分析新得到的URL链接及其文字信息,把不符合下载要求的地址去除掉,避免下载多余的视频;然后根据得到的URL链接下载视频,并把视频保存在本地。最后每隔一定时间,对已有视频信息进行增量更新。本发明是面向视频的搜索方法,面向的是视频网站上的视频,不涉及文字方面的搜索,使用户可以专于视频上的搜索,而不被互联网上庞大的文字信息所困扰。,下面是一种基于文本分析的面向视频网站的互联网视频搜索方法专利的具体信息内容。
1. 一种基于文本分析的面向视频网站的互联网视频搜索方法,通过对视频文字信息的分析,搜索下载符合要求的视频,其特征包括如下步骤:
(1)建立搜索词库;
(2)分析原始URL的源代码,把新得到的URL链接及文字信息保存到队列中;
(3)分析新得到的URL链接及其文字信息,把不符合下载要求的地址去除掉,避免下载多余的视频;
(4)根据得到的URL链接下载视频,并把视频保存在本地;
(5)每隔一定时间,对已有视频信息进行增量更新。
2.根据权利要求1所述的一种基于文本分析的面向视频网站的互联网视频搜索方法,其特征是:建立搜索词库包括如下步骤:
1)在数据库中建立包括id(int),key(varchar),time(varchar)3列的数据表,其中id(int)表示某个词在数据库中排列的序列号,key(varchar)表示某个词的具体含义,time(varchar)表示某个词存入数据库的时间,id(int)和key(varchar)列为联合主键;
2)将需要搜索的词存入此数据库中,用于结果比对。
3.根据权利要求1所述的一种基于文本分析的面向视频网站的互联网视频搜索方法,其特征是:分析原始URL源代码包括如下步骤:
1)设置一个用来保存URL及文字信息的队列,队列的特点是先进先出,先保存的信息先分析;
2)提取源代码中的新URL链接地址及其文字信息,将其保存到队列中。
4.根据权利要求1所述的一种基于文本分析的面向视频网站的互联网视频搜索方法,其特征是:分析队列中URL链接地址及文字信息的步骤如下:
1)设置一个最大线程并发数,开启这些线程,线程依次访问队列中的信息;
2)线程先对队列中取出的URL地址进行分析,判断此地址是否属于此网站的地址,若此地址不属于此网站的地址,则不作处理;若此地址属于此网站的地址,则分析此地址的源代码,将获得新的链接地址及文字信息,将其保存到队列中;
3)对符合要求的URL的文字进行分析,采用正向减字最大匹配算法,具体是:假设自动分词词典中的最长词条所含汉字个数为m,则取被处理文字中当前字符串中的前m个字符作为匹配字段,查找自动分词词典,如自动分词词典中存在这样的一个长度为m的词,则匹配成功,匹配字段作为一个词被切分出来;如自动分词词典中找不到这样的一个长度为m的字词,则将匹配字段去掉最后一个汉字,剩下的m-1个字符作为新的匹配字段,进行新的匹配,如此反复,直至切分出一个词,完成一轮匹配切分出一个词,再按上述步骤进行,直到切分出所有的词为止;得到分词结果并将分词结果保存到一个临时队列中;
4)用分词所得到的结果去匹配已有的搜索词库,如果搜索词库中存在此结果,则将此链接地址及文字描述信息保存在数据库中,如果不存在此结果,则不保存到数据库。
5.根据权利要求1所述的一种基于文本分析的面向视频网站的互联网视频搜索方法,其特征是:下载视频并把视频保存的步骤如下:
1)根据URL地址得到视频的下载地址,开启线程根据下载地址下载视频;
2)将下载后的视频保存在本地,并将其标题,视频长度,评论数,点击量保存地址信息保存到数据库中。
6.根据权利要求1所述的一种基于文本分析的面向视频网站的互联网视频搜索方法,其特征是:对视频信息进行增量更新的步骤如下:
1)取出数据库中已保存的URL链接地址,获得其对应视频的点击量,评论数信息;
2)根据点击量、评论数信息,与获得的最新信息进行比较,若有变化,将最新的信息更新到数据库中,若没有变化,则不进行更新。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种多媒体文件检索方法及装置 | 2020-07-29 | 1 |
一种通话即时原声语音翻译的通话终端及方法 | 2021-03-03 | 0 |
具有编辑器和图形对象移动可视化的工业自动化设备 | 2022-05-13 | 0 |
基于代表词知识库的文本内容分类方法 | 2022-10-09 | 0 |
一种课文训练方法和装置 | 2020-07-17 | 2 |
基于命名实体识别的模板生成、搜索及文本生成设备与方法 | 2020-08-19 | 0 |
RETRIEVING/STORING IMAGES ASSOCIATED WITH EVENTS | 2022-01-17 | 0 |
SYSTEM AND METHOD USING FEEDBACK SPEECH ANALYSIS FOR IMPROVING SPEAKING ABILITY | 2022-08-16 | 0 |
SOCIAL RELEVANCE TO INFER INFORMATION ABOUT POINTS OF INTEREST | 2022-11-21 | 1 |
LEARNING LANGUAGE MODELS FROM SCRATCH BASED ON CROWD-SOURCED USER TEXT INPUT | 2022-03-09 | 0 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。