首页 / 专利库 / 专利权 / 第I章 / 国际检索单位 / 国际检索 / 现有技术 / 一种音乐文件搜索处理系统及方法

一种音乐文件搜索处理系统及方法

阅读:820发布:2021-06-15

专利汇可以提供一种音乐文件搜索处理系统及方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种音乐文件搜索处理系统,包括利用现有的搜索技术从互联网获取音乐文件的第一搜索结果的音乐文件搜索子系统和将最终搜索结果展现给用户的搜索结果输出子系统,还包括:搜索结果修正子系统,用于利用现有音乐信息修正第一搜索结果中搜索条目的音乐信息,并形成最终搜索结果。同时本发明还公开了一种音乐文件搜索处理方法。本发明通过对 现有技术 的搜索结果利用过滤条件过滤广告、欺骗信息,利用现有音乐信息修正歌手名称、歌曲名称和专辑名称,在保证搜索数量的 基础 上,有效地提高了搜索结果的 质量 ,减少了广告和欺骗的出现次数,能提供给用户歌曲更准确的信息。,下面是一种音乐文件搜索处理系统及方法专利的具体信息内容。

1.一种音乐文件搜索处理系统,包括用于从互联网获取音乐文件的第一 搜索结果的音乐文件搜索子系统和将最终搜索结果展现给用户的搜索结果输 出子系统,其特征在于,还包括:
搜索结果修正子系统,用于利用现有音乐信息修正第一搜索结果中搜索 条目的音乐信息,并形成最终搜索结果。
2.根据权利要求1所述的一种音乐文件搜索处理系统,其特征在于,所 述搜索结果修正子系统还用于利用过滤条件过滤第一搜索结果中用户不需要 的搜索条目。
3.根据权利要求2所述的一种音乐文件搜索处理系统,其特征在于,所 述用户不需要的搜索条目为包括广告、欺骗信息的搜索条目。
4.根据权利要求2所述的一种音乐文件搜索处理系统,其特征在于,所 述音乐信息包括歌曲名称、歌手名称和专辑名称。
5.根据权利要求4所述的一种音乐文件搜索处理系统,其特征在于,所 述搜索结果修正子系统具体包括:
音乐信息保存模,用于保存歌曲名称、歌手名称及专辑名称;
分词模块,用于对第一搜索结果中的每一搜索条目的以文本形式保存的 锚文本、网页标题和标签内容进行分词处理;
过滤模块,用于保存过滤条件,并根据过滤条件对所述用户不需要的搜 索条目进行过滤;
歌曲信息修正模块,用于根据分词、过滤后的词语以及音乐信息保存模 块中的音乐信息确定每个搜索条目正确的歌曲名称、歌手名称和专辑名称, 并形成最终搜索结果。
6.根据权利要求5所述的音乐文件搜索处理系统,其特征在于,所述搜 索结果修正子系统还包括:
文件哈希信息模块,用于保存已确定音乐信息的音乐文件的哈希信息。
7.一种音乐文件搜索处理方法,包括:
步骤S1,通过互联网获取音乐文件的第一搜索结果;
步骤S2,利用现有音乐信息修正第一搜索结果中搜索条目的音乐信息, 并形成最终搜索结果;
步骤S3,将最终搜索结果展现给用户。
8.根据权利要求7所述的音乐文件搜索处理方法,其特征在于,所述步 骤S2中,还利用过滤条件过滤第一搜索结果中用户不需要的搜索条目后形成 最终搜索结果。
9.根据权利要求8所述的一种音乐文件搜索处理方法,其特征在于,所 述用户不需要的搜索条目为包括广告、欺骗信息的搜索条目。
10.根据权利要求8所述的一种音乐文件搜索处理方法,其特征在于, 所述音乐信息包括歌曲名称、歌手名称和专辑名称。
11.根据权利要求10所述的一种音乐文件搜索处理方法,其特征在于, 所述步骤S2具体包括:
步骤S21,对第一搜索结果中的每一搜索条目的以文本形式保存的锚文 本、网页标题和标签内容进行分词处理;
步骤S22,根据过滤条件对所述用户不需要的搜索条目进行过滤;
步骤S23,用于根据分词、过滤后的词语以及音乐信息保存模块中的音 乐信息确定每个搜索条目正确的歌曲名称、歌手名称和专辑名称,并形成最 终搜索结果。
12.根据权利要求11所述的一种音乐文件搜索处理方法,其特征在于, 所述步骤S23具体包括:
歌曲名称确定步骤,将分词、过滤后的词语按锚文本、标题、标签的顺 序排序,然后依次与音乐信息保存模块中的歌曲名称进行匹配查找,并将第 一个完全匹配的词语作为歌曲名称,否则将评判标准之上的相似度最高的词 语作为歌曲名称;
歌手名称确定步骤,如果音乐信息保存模块中该歌曲名称对应的歌手名 称是唯一的,则确定为歌手名称,否则将分词、过滤后的词语按锚文本、标 题、标签的顺序依次与歌曲名称对应的歌手名称进行匹配查找,将第一个完 全匹配的词语作为歌曲名称,否则将评判标准之上的相似度最高的词语作为 歌手名称,如果找不到,则将歌手名称项留空;
专辑名称确定步骤,如果音乐信息保存模块中该歌曲名称和歌手名称对 应的专辑名称是唯一的,则确定为专辑名称,否则将分词、过滤后的词语按 锚文本、标题、标签的顺序依次与对应的专辑名称进行匹配查找,并将第一 个完全匹配的词语作为专辑名称,否则将评判标准之上的相似度最高的词语 作为专辑名称,如果找不到,则将专辑名称项留空。
13.根据权利要求12所述的音乐文件搜索处理方法,其特征在于,相似 度为匹配对比的词组的相同的字符数与匹配对比的词组的平均长度的比值。
14.根据权利要求8所述的音乐文件搜索处理方法,其特征在于,所述 现有音乐信息还包括歌曲的哈希码。

说明书全文

技术领域

发明涉及音乐文件的搜索技术,对利用现有技术搜索到的音乐文件进 行进一步处理的系统和方法。

背景技术

目前的音乐信息采集主要有以下两种方式:使用爬虫对整个互联网进行 爬行和对专的音乐网站进行爬行。
通过使用爬虫对整个互联网进行爬行,并从中提取出与音乐文件有关的 链接,保存其对应的锚文本、标题等文本信息,并对这部分文本建索引,用 户通过输入关键字在其中进行检索,然后通过搜索结果输出系统展现给用户, 由用户进行选择处理。目前,如百度、一搜、中搜等搜索引擎都是采用这种 方式进行处理。
通过使用爬虫对整个互联网进行爬行,可搜索的链接数量较多,需要人 工干预较少,然而其信息的准确率较低,常出现以下的错误:
信息不完整,如缺少歌曲名、歌手、专辑名称等中的一个或多个;
信息填写不准确,比如出现错别字、错误写法等;
歌曲描述信息为无意义的广告或乱码;
歌曲描述信息与真实内容不符;
故意堆砌大量广告关键字或热门歌曲名进行欺骗。
图1所示为利用现有技术进行搜索后得到的结果示意图,如图1所示, 其中:
第2条搜索信息中,歌曲名中的“舞娘”应该是专辑名,而不是歌曲名 的一部分;
第10条搜索信息中,歌曲名中的“爱娱乐”是提供该歌曲的网站名称, 属于广告文字;
第11条搜索信息中,歌曲名写法不完全正确,并且此条目缺少歌手与专 辑名;
第16条,搜索信息中,歌曲名中的最后一个字是乱码,且缺少歌手与专 辑名称。
至于利用对专门的音乐网站进行爬行获取音乐文件的方法,其可以获得 比较准确的信息,然而由于该方法使用人工维护的模板来提取页面上的音乐 文件和描述信息,能采集到的音乐链接文件数量有限。

发明内容

为解决现有技术中搜索音乐无法同时兼顾数量与准确度的问题,本发明 的目的在于提供一种音乐文件搜索处理系统和搜索方法,对音乐文件进行搜 索,在满足数量的同时,尽可能给用户提供准确的搜索结果。
为实现上述目的,本发明提供了一种音乐文件搜索处理系统,包括音乐 文件搜索子系统和搜索结果输出子系统,其中,还包括:
搜索结果修正子系统,用于利用现有音乐信息修正第一搜索结果中搜索 条目的音乐信息,并形成最终搜索结果。
上述的系统,其中,所述搜索结果修正子系统还用于利用过滤条件过滤 第一搜索结果中用户不需要的搜索条目。
上述的系统,其中,所述用户不需要的搜索条目为包括广告、欺骗信息 的搜索条目。
上述的系统,其中,所述音乐信息包括歌曲名称、歌手名称和专辑名称。
上述的系统,其中,所述搜索结果修正子系统具体包括:
音乐信息保存模,用于保存歌曲名称、歌手名称及专辑名称;
分词模块,用于对第一搜索结果中的每一搜索条目的以文本形式保存的 锚文本、网页标题和Tag(标签)内容进行分词处理;
过滤模块,用于保存过滤条件,并根据过滤条件对所述用户不需要的搜 索条目进行过滤;
歌曲信息修正模块,用于根据分词、过滤后的词语以及音乐信息保存模 块中的音乐信息确定每个搜索条目正确的歌曲名称、歌手名称和专辑名称, 并形成最终搜索结果。
上述的系统,其中,所述搜索结果修正子系统还包括:
文件哈希信息模块,用于保存已确定音乐信息的音乐文件的哈希信息。
为了更好的实现上述目的,本发明还提供了一种音乐文件搜索处理方法, 包括:
步骤S1,利用现有的搜索技术从互联网获取音乐文件的第一搜索结果;
步骤S2,利用现有音乐信息修正第一搜索结果中搜索条目的音乐信息, 并形成最终搜索结果;
步骤S3,将最终搜索结果展现给用户。
上述的方法,其中,所述步骤S2中,还利用过滤条件过滤第一搜索结果 中用户不需要的搜索条目后形成最终搜索结果。
上述的方法,其中,所述用户不需要的搜索条目为包括广告、欺骗信息 的搜索条目。
上述的方法,其中,所述音乐信息包括歌曲名称、歌手名称和专辑名称。
上述的方法,其中,所述步骤S2具体包括:
步骤S21,对第一搜索结果中的每一搜索条目的以文本形式保存的锚文 本、网页标题和Tag内容进行分词处理;
步骤S22,根据过滤条件对所述用户不需要的搜索条目进行过滤;
步骤S23,用于根据分词、过滤后的词语以及音乐信息保存模块中的音 乐信息确定每个搜索条目正确的歌曲名称、歌手名称和专辑名称,并形成最 终搜索结果。
本发明的音乐文件搜索处理系统和搜索方法通过对现有技术的搜索结果 利用过滤条件过滤广告、欺骗信息,利用现有音乐信息修正歌手名称、歌曲 名称和专辑名称,在保证搜索数量的基础上,有效地提高了搜索结果的质量, 减少了广告和欺骗的出现次数,能提供给用户歌曲更准确的信息。
附图说明
图1为利用现有技术进行搜索得到的结果示意图;
图2为本发明的音乐搜索处理系统的结构示意图;
图3为本发明的音乐搜索处理方法的流程示意图。

具体实施方式

图2为本发明的音乐文件搜索处理系统的结构示意图,如图2所示,其包 括:
音乐文件搜索子系统,用于利用现有的搜索技术从互联网获取音乐文件 的第一搜索结果,如可以利用爬虫对整个互联网爬行,并从中提取出与音乐 文件有关的链接,保存其对应的锚文本、标题、Tag等文本信息,并对这部分 文本建索引;
搜索结果修正子系统,用于接收音乐文件搜索子系统获取的第一搜索结 果,并对第一搜索结果进行修正处理,形成最终搜索结果;
搜索结果输出子系统,用于将通过修正处理后形成的最终搜索结果展现 给用户。
由于音乐文件搜索子系统和搜索结果输出子系统为现有技术,在此不再 赘述。
下面结合附图对本发明的音乐文件搜索处理系统中的搜索结果修正子系 统进行详细描述。
互联网所提供的供搜索的音乐大部分是由唱片公司正式发行的歌曲,本 发明正是基于这一点进行第一搜索结果的修正处理,如图3所示,搜索结果修 正子系统包括音乐信息保存模块、分词模块、过滤模块及歌曲信息修正模块, 下面分别对各模块进行详细说明。
音乐信息保存模块,用于保存歌曲名称、歌曲对应的歌手名称及专辑名 称等音乐信息,如下表所示,为其中的一种实现方式:
  序号     歌曲名称     歌手名称     专辑名称   1     A1     A2     A3   2     B1     B21     B31     B22     B32   3     C1     C2     C31     C32
... ... ...
上表中描述了多种情况:
1、歌曲A1,唯一由歌手A2演唱,其对应的专辑为A3
2、歌曲B1,歌手B21和B22都演唱过,其对应的专辑为B31和B32;
3、歌曲C1,唯一由歌手C2演唱,但该歌在两张专辑C31和C32中出现。
当然上述只是一种示范,一首歌也可以由两位以上的歌手演唱,也可以 出现在2张以上的专辑都有可能。
也可以利用另外的方式实现音乐信息的保存:
存储所有专辑的信息,包括专辑中的歌曲和对应的歌手名称;或
存储所有歌手的信息,包括歌手名称、演唱过的歌曲名称和歌曲对应的 专辑名称。
歌曲信息可以保存在一个保存模块中,也可以分多个模块进行保存。
分词模块,用于对第一搜索结果中的每一搜索条目的以文本形式保存的 锚文本、网页标题和Tag内容进行分词处理;
上述的分词处理分为两种情况:
锚文本、网页标题和Tag内容中存在空格和/或标点符号时,以空格和/或 标点符号作为分隔符对文本进行分词,如“周杰伦-夜曲”会被切分为“周杰 伦”和“夜曲”两个词;
锚文本、网页标题和Tag内容中没有分隔符隔开时,如“周杰伦夜曲”, 因为其中不带有分隔符,因此使用上述的利用分隔符分词的方法无法实现分 词,在此,本发明使用音乐信息保存模块中的歌曲信息、歌手信息及专辑信 息作为词典,用分词方法实现分词,如逆向最大匹配法、正向最大匹配法、 基于统计的分词方法等分词方法进行分词,当然也可以多种分词方法结合起 来实现分词,如将正向最大匹配法和逆向最大匹配法结合起来构成双向匹配 法实现分词。
一般来说,歌手名称、歌曲名称、专辑名称等均为专有名词,较少产生 歧义,使用上述方法进行分词即可达到较好的效果,如如“周杰伦夜曲”也 会被正确切分为“周杰伦”和“夜曲”两个词;
对文本形式保存的锚文本、网页标题和Tag内容进行分词处理后,第一搜 索结果中的每一个条目的锚文本、网页标题和Tag内容都转化为一个或一组词 语,如上面的例子中就被转化为“周杰伦”和“夜曲”两个词语。
分词结束后接着由过滤模块来过滤广告、欺骗信息等对用户来说没有任 何意义的信息。
过滤模块中保存有过滤条件,用于根据过滤条件对广告或欺骗信息等用 户不需要的信息进行过滤,如果发现符合过滤条件,则将第一搜索结果中的 相关条目去除。
其中过滤条件主要包括两部分:动作和要比较的值,其中动作可以是包 括、相同、长度大于、长度小于等多种动作,例如“包括WWW”是一条过 滤条件、“包括XX”(XX为某些色情或反动的词汇)也是一条过滤条件, 如果分词后的一个或多个词汇满足过滤条件,则将第一搜索结果中的相关条 目去除。如,分词后的词组中包括“WWW”或“XX”等,则将相应的条目 去除。
上述的过滤条件可随时进行修改、删除、增加等操作。
同时,在第一搜索结果中,还有可能出现以下的情况:由于音乐网站会 在标题中罗列大量的热门歌曲来提高自己的排名,但并不提供真实的内容。
对于上述情况,本发明中的过滤模块还用于根据另外的过滤条件过滤这 种搜索条目,处理流程如下:
首先,统计第一搜索结果中来自同一网站的搜索条目的总数;
其次,统计各搜索条目的分词后的词语在该网站的搜索条目中出现的次 数;
最后,判断二者之间的比例,如果超过一定的阈值(如50%)时,即可 判定为欺骗信息,将第一搜索结果中的相应条目去除。
如从某网站下共采集了1000条搜索条目,其中“七里香”在搜索条目的 标题中出现了超过500次,则可判断这个词语被该网站用来当作欺骗信息,因 此删除相关条目。
通过上述的处理后,基本过滤了欺骗信息、广告信息以及其他一些不是 用户所需要的信息,得到了一组过滤后的词语。
结合图2所示,上述的对过滤模块的描述中,过滤条件保存在过滤模块中, 当然,也可以将过滤条件保存在音乐信息保存模块中,并将过滤模块与音乐 信息保存模块连接,在进行过滤处理的时候,由过滤模块调用过滤条件进行 过滤即可实现。
在过滤模块对分词后的锚文本、网页标题和Tag内容的词组过滤掉部分搜 索条目后,得到了一组过滤后的词语。
歌曲信息修正模块,用于根据分词、过滤后的词语以及音乐信息保存模 块中的信息确定每个搜索条目的歌曲的名称、对应的歌手名称和专辑名称。
下面对歌曲信息修正模块的处理进行详细描述,其包括歌曲名称确定步 骤、歌手名称确定步骤和专辑名称确定步骤,其中:
歌曲名称确定步骤,将分词、过滤后的词语按锚文本、标题、Tag的顺序 排序,然后依次与音乐信息保存模块中的歌曲名称进行匹配查找,看是否有 完全匹配的词语,如果有,将第一个匹配的词语作为歌曲名称,否则将评判 标准之上的相似度最高的词语作为歌曲名称。
在此,相似度的定义为:S1与S2相同的字符数与S1与S2的平均长度 的比值,其中,S1与S2与比对的两个词语,“ABC”与”BCA”的相似度为100%, 而“ABC”与”BCD”的相似度为67%,而“ABC”与”BA”的相似度为80%。
在此,相似度的评判标准应该设置一个合适的值,如70%,如果相似度 低于70%则不能将其作为歌曲名称。
歌手名称确定步骤,在确定歌曲名称之后,如果音乐信息保存模块中该 歌曲对应的歌手名称是唯一的,则可同时确定歌手名,否则说明这是一首曾 被多人翻唱过的同名歌曲,因此,将分词、过滤后的词语按锚文本、标题、 Tag的顺序依次与歌曲名称对应的歌手名称进行匹配查找,看是否有完全匹 配的词语,如果有,将第一个匹配的词语作为歌曲名称,否则将评判标准之 上的相似度最高的词语作为歌手名称,如果找不到,则将歌手名称项留空。
专辑名称确定步骤,在确定了歌曲名称和歌手名称之后,如果音乐信息 保存模块中该歌曲对应的专辑名称是唯一的,则可确定专辑名称,否则将分 词、过滤后的词语按锚文本、标题、Tag的顺序依次与歌曲名称对应的专辑名 称进行匹配查找,看是否有完全匹配的词语,如果有,将第一个匹配的词语 作为专辑名称,否则将评判标准之上的相似度最高的词语作为专辑名称,如 果找不到,则将专辑名称项留空。
在每个搜索条目的歌曲的名称、对应的歌手名称和专辑名称确定后,将 第一搜索结果中的对应信息进行替换由搜索结果输出子系统展现给用户。
同时,本发明的音乐文件搜索处理系统中还包括一个文件哈希信息模块, 用于保存音乐文件的哈希信息。其数据保存格式如下:
    文件哈希码     歌曲名称     歌手名称     专辑名称     0x1234ABCD     A1     B1     C1     0x5678CDEF     A2     B2     C2     ...     ...     ...     ...
其中,文件哈希码可以是一个32位或64位的整数,常用的哈希算法有 CRC32、MD5等。
一般来说,互联网上的歌曲都存在一个文件多份拷贝的情况。假设我们 可以确定某音乐文件F的准确信息,则可以将这一信息保存在文件哈希信息库 中。这样,在以后遇到与F的哈希值相同的文件时(即F的其它拷贝),可以直 接从文件哈希信息模块查找歌曲的准确信息。
如果两个文件F1和F2用同一算法所计算出来的哈希码相等,则可认为 F1和F2的内容完全相等,即F2是F1的一个拷贝。
本发明的音乐文件搜索处理方法主要包括如下步骤:
步骤S1,利用现有的搜索技术从互联网获取音乐文件的第一搜索结果;
步骤S2,接收音乐文件搜索子系统获取的第一搜索结果,并对第一搜索 结果进行修正处理,形成最终搜索结果后展现给用户。
其中,步骤S2具体包括:
步骤S21,对第一搜索结果中的每一搜索条目的以文本形式保存的锚文 本、网页标题和Tag内容进行分词处理;
步骤S22,根据过滤条件和分词后的词组对第一搜索结果进行过滤操作, 过滤广告、欺骗信息等对用户来说没有任何意义的信息;
步骤S23,根据过滤后的词组,结合音乐信息保存模块中的歌曲信息确定 每个搜索条目的歌曲的名称、对应的歌手名称和专辑名称;
步骤S24,将第一搜索结果中每个搜索条目的歌曲名称、歌手名称和专辑 名称对应替换为步骤S23中确定的每个搜索条目的歌曲的名称、对应的歌手名 称和专辑名称;
步骤S25,将最后的搜索结果展现给用户。
这样,通过本发明的音乐文件搜索处理系统和方法处理过后展现给用户 的搜索结果已经排除了大部分的广告、欺骗信息,同时其结果也得到了修正, 展现给用户的是正确的歌曲名称、歌手名称和专辑名称。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普 通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润 饰,这些改进和润饰也应视为本发明的保护范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈