为了减小网络传输流量,本发明实施例提供了一种请求内容分类的方法, 包括下列步骤:内容分类请求方获得待分类内容的内容摘要,生成内容类别请 求消息,并在所述的内容类别请求消息中携带所述的内容摘要;内容分类请求 方将携带有所述内容摘要的内容类别请求消息发出,请求内容类别。
其中,内容分类请求方在确定需以待分类内容的内容本身请求内容类别 时,再判断是否需要获得待分类内容的内容摘要。并且内容分类请求方判定需 要获得所述待分类内容的内容摘要时,再获得内容摘要。
为了减小内容分类处理的负荷,本发明实施例提供了一种内容分类的方 法,包括以下步骤:内容分类提供方收到内容类别请求消息,所述的内容类别 请求消息中携带有待分类内容的内容摘要;内容分类提供方根据所述的内容摘 要对所述的待分类内容进行内容分类。
为了减小内容分类处理的负荷和网络传输流量。
本发明实施例提供了一种对内容分类的方法,参见图3所示,包括下列步 骤:
S1.内容分类请求方确定使用待分类内容的内容本身去请求内容类别。(可 选步骤)
S2.内容分类请求方判断是否需要获得待分类内容的内容摘要。
内容分类请求方可判断待分类内容的数据大小是否大于
阈值,和/或待分类 内容的数据格式是否为预设数据格式之一,和/或用户是否
指定。这里阈值、预 设数据格式和用户指定为:是否获得内容摘要并且在后续的内容类别请求消息 中携带内容摘要的判断依据。对于不同的数据格式(所述数据格式是指文本、 图片、音频、视频、多媒体甚至具体的格式(如视频的rm、avi、mpeg等格式)) 均可以设置不同的阈值,也可采用相同的阈值。
如果判断结果为是,则转入步骤S3;否则转入步骤S6。
S3.内容分类请求方获得该待分类内容的内容摘要。
内容摘要准确全面地反映待分类内容的主要信息,且远远小于待分类内容 的数据大小。所述获得该待分类内容的内容摘要可以包括从其他实体中获取所 述待分类内容的内容摘要,例如内容分类请求方将待分类内容发送给独立其外 的摘要处理
服务器,由摘要处理服务器进行摘要操作判断,并生成满足摘要获 得条件的待分类内容的内容摘要,以及将该内容摘要返回给内容分类请求方; 此外,也可以由内容类别请求方自身生成待分类内容的内容摘要,所述生成内 容摘要的过程,例如:文本的摘要可以是现有的自动文摘技术的输出,图片的 摘要可以是经转换采用其他格式、整体尺寸缩小但呈现画面相同的图片(如 1024*7682.4M的BMP格式图片可以转换成133*100 13k的GIF格式图片), 视频的摘要是现有的视频摘要技术的输出。
S4.内容分类请求方构造内容类别请求消息,并向内容分类提供方发送该 消息。该消息中携带了上述步骤获得的内容摘要。
在另外的实施例中,内容分类请求方还可以指示内容分类提供方,以内容 摘要对应的算法对所述内容摘要进行内容分类。具体可以为通过在内容类别请 求消息中携带类型信息,或者进一步携带摘要相关信息(如:摘要获得单元标 识、数据大小、获得时间、使用的摘要生成算法等)、以及内容本身相关信息 (内容提供者(这里是外部的内容过滤单元)标识、数据大小、创建时间等), 以告知内容分类提供方本消息中携带的内容为内容摘要。
S5.内容分类提供方从内容类别请求消息中提取出内容摘要,并对内容摘 要进行分类。之后,转入步骤S8。
在上述另外的实施例中,当内容分类请求方发送的内容类别请求消息中携 带类型信息时,内容分类提供方根据所述的类型信息确定内容分类请求方发送 的是内容摘要时,采取内容摘要相应的算法对所述的内容摘要进行内容分类。
S6.内容分类请求方以该待分类内容的内容本身构造内容类别请求消息, 并向内容分类提供方发送该消息。该消息中携带了待分类内容的内容本身。
在实际应用中,内容分类请求方还可以指示内容分类提供方,以内容本身 对应的算法对所述内容本身进行内容分类。具体可以为通过在内容类别请求消 息中携带类型信息,以告知内容分类提供方本消息中携带的内容为内容本身。
S7.内容分类提供方从内容类别请求消息中提取出内容本身,并对内容本 身进行分类。
当内容分类请求方发送的内容类别请求消息中携带类型信息时,内容分类 提供方根据所述的类型信息确定内容分类请求方发送的是内容本身时,采取内 容本身相应的算法对所述的内容摘要进行内容分类。
S8.内容分类提供方构造响应消息,向内容分类请求方返回内容类别。
需要说明的是,现有技术中,在内容分类请求方为CBCS的内容过滤单元 时,实际处理中可以先缓存收到的内容,待接收完成后再将其以CBCS-1接 口内容分类请求的格式进行组包并发送,也可以接收、缓存的同时组包、发送。 本发明实施例中,若需要生成内容摘要,则需要全部接收、缓存内容本身再依 据缓存的内容生成内容摘要。
本发明实施例还提供了一种内容分类请求系统,参见图4所示,包括:摘 要操作判断单元、摘要获得单元和第一发送单元;进一步还包括:第二发送单 元、第一指示单元和第二指示单元。
摘要操作判断单元,用于判断是否需要获得待分类内容的内容摘要。
摘要获得单元,用于在摘要操作判断单元判定需要获得待分类内容的内容 摘要时,获得该待分类内容的内容摘要。
第一发送单元,用于将摘要获得单元获得的内容摘要发出。
第一指示单元,用于通过第一发送单元指示内容分类提供方,以内容摘要 对应的算法对所述内容摘要进行内容分类。
第二发送单元,用于在摘要操作判断单元判定不需要获得待分类内容的内 容摘要时,将待分类内容的内容本身发出。
第二指示单元,用于通过第二发送单元指示内容分类提供方,以内容本身 对应的算法对所述内容本身进行内容分类。
本发明实施例还提了一种内容分类系统,包括:内容分类请求方一侧和内 容分类提供方一侧。
内容分类请求方一侧又包括:内容分类请求装置(即本发明实施例的内容 分类请求装置);进一步还包括内容提供装置。
内容提供装置,其中进一步包括:内容提供单元,用于提供待分类内容; 确定单元,用于判断内容提供单元是否需提供待分类内容的内容本身,当确定 需提供待分类内容的内容本身时,触发所述内容分类请求装置;第三发送单元, 用于在获知摘要操作判断单元判定不需要获得待分类内容的内容摘要时,将待 分类内容的内容本身发到内容分类提供装置;第三指示单元,用于通过第三发 送单元指示内容分类提供装置,以内容本身对应的算法对所述内容本身进行内 容分类。
内容分类请求装置,其中进一步包括:摘要操作判断单元,用于判断是否 需要获得待分类内容的内容摘要;摘要获得单元,用于在摘要操作判断单元判 定需要获得待分类内容的内容摘要时,获得该待分类内容的内容摘要;第一发 送单元,用于将摘要获得单元获得的内容摘要发出;第一指示单元,用于通过 第一发送单元指示内容分类提供装置,以内容摘要对应的算法对所述内容摘要 进行内容分类;第二发送单元(与内容提供装置中的第三发送单元不同时存 在),用于在摘要操作判断单元判定不需要获得待分类内容的内容摘要时,将 待分类内容的内容本身发到内容分类提供装置;第二指示单元(与内容提供装 置中的第三指示单元不同时存在),用于通过第二发送单元指示内容分类提供 装置,以内容本身对应的算法对所述内容本身进行内容分类。
所述内容分类提供方一侧包括:内容分类提供装置,用于根据内容分类请 求装置发来的所述内容摘要进行内容分类。
以下通过4个实施例具体描述。
实施例1:对待过滤的内容进行内容分类并过滤。
参见图5所示,本实施例应用场景由内容分类单元(即内容分类提供装置) 和内容过滤单元(其内含有内容提供装置和内容分类请求装置)构成。
本实施例具体处理流程如下:内容过滤单元收到来自外部内容过滤请求者 的内容过滤请求,其内容是photo.jpg。内容过滤单元通过确定单元判定该内容 过滤请求中携带的只有内容本身,没有类别信息,于是确定需要使用内容本身 去请求内容类别。内容过滤单元通过其中的内容提供单元将内容本身提供给摘 要操作判断单元。摘要操作判断单元预设的图片内容的摘要生成阈值为 500KB,内容过滤单元通过其中的摘要操作判断单元检测到photo.jpg的大小为 2.71MB,大于该阈值,于是内容过滤单元中的摘要获得单元依据内容的类型和 大小,采用直接全图整体缩小为原图10%的算法生成摘要photol.jpg,其大小 为26KB。内容过滤单元通过其中的第一发送单元将photol.jpg封装在内容类 别请求消息中,并通过CBCS-1接口发送给内容分类单元,该消息中还可以通 过第一指示单元携带类型信息,以告知内容分类单元本消息中携带的内容为摘 要,以及摘要相关信息(如:摘要获得单元标识、数据大小、生成时间、使用 的摘要生成算法等)、以及内容本身相关信息(内容提供者(这里是外部的内 容过滤单元)标识、数据大小、创建时间等)。
类型信息的携带具体依赖于CBCS-1接口的实现,例如可以作为一个参数 携带:
<?xml version=″1.0″encoding=″UTF-8″?>
Abstract<!-用于指示内容类型,其值为:URI,Abstract,Original--> AXKjDF...... 又例如:直接从内容格式上体现:
<?xml version=″1.0″encoding=″UTF-8″?>
AXKjDF...... 内容分类单元根据告知的类型信息,对photol.jpg采用针对数据格式为 JPG且类型为内容摘要的图像分类算法进行分类处理后,将得到的内容类别返 回给内容过滤单元。
本实施例在实际部署时,可能有多种情况,如:1)内容分类单元和内容 过滤单元作为一个服务器部署;2)内容过滤单元作为一个单独的服务器A, 内容分类单元和其它内容过滤单元一起作为服务器B,A通过CBCS-1接口向 B的内容分类单元获取内容类别;3)单个内容过滤单元作为服务器C,单个 内容分类单元作为服务器D,根据实际情况一个C对应多个D、一个D对应 多个C或多个C对应多个D。
实施例2:对待过滤的内容进行内容分类并过滤。
参见图6所示,本实施例应用场景由内容分类单元(即内容分类提供装置) 和内容过滤单元(其内含有内容提供装置和内容分类请求装置)构成。
本实施例具体处理流程如下:内容过滤单元收到来自外部内容过滤请求者 的内容过滤请求,其内容是novel.txt。内容过滤单元通过确定单元判定内容过 滤请求中携带有预分类信息,于是对该预分类信息进行信任验证,结果被确认 为分类信息不可信,据此确定需要使用内容本身去请求内容类别。内容过滤单 元通过其中的内容提供单元将内容本身提供给摘要操作判断单元。摘要操作判 断单元预设的文本内容的摘要生成阈值为500KB,内容过滤单元通过其中的摘 要操作判断子单元检测到novel.txt的大小为783KB,大于该阈值,于是内容过 滤单元中的摘要获得单元使用自动文摘技术生成6KB的摘要。内容过滤单元 通过其中的第一发送单元将6KB的摘要封装在内容类别请求消息中,并通过 CBCS-1接口发送给内容分类单元。内容分类单元对上述摘要采用适当的算法 进行分类处理后,将得到的内容类别返回给内容过滤单元。
本实施例在实际部署时,可能有多种情况,如:1)内容分类单元和内容 过滤单元作为一个服务器部署;2)内容过滤单元作为一个单独的服务器A, 内容分类单元和其它内容过滤单元一起作为服务器B,A通过CBCS-1接口向 B的内容分类单元请求内容类别;3)单个内容过滤单元作为服务器C,单个 内容分类单元作为服务器D,根据实际情况一个C对应多个D、一个D对应 多个C或多个C对应多个D。
实施例3:内容提供单元向终端用户提供内容,为了使其提供的内容能够 在内容过滤单元快速过滤,内容提供单元事先(无实时性)获取内容类别,并 以元数据或
水印的形式将其附加在内容中,从而生成预分类内容供用户下载, 这样在实时性要求较高时,内容过滤单元可以直接依据预分类内容中预置的内 容类别进行快速过滤。
参见图7所示,本实施例的应用场景由内容分类请求方一侧的内容分类请 求装置和内容提供装置,内容分类提供方一侧的内容分类单元(内容分类提供 装置),以及在内容分类完成之后,直接根据预分类内容的内容类别进行过滤 的内容过滤单元组成。
参见图8所示,本实施例具体处理流程如下:
1、内容提供装置对于自身提供的未分类的内容需要获取内容类别,以生 成预分类内容,于是内容提供装置通过其中的内容提供单元将内容本身(可能 还带有数据大小、数据类型、内容提供单元地址等其它信息)提供给内容分类 请求装置中的摘要操作判断单元。
2、摘要操作判断单元根据其收到内容的数据大小进行判断,若其大小大 于预先设定的阈值,则转入步骤3;否则转入步骤6。
3、摘要操作判断单元将该内容本身发送给摘要获得单元。
4、摘要获得单元根据收到的内容生成摘要,将摘要(可携带数据大小、 数据类型、内容提供单元地址)发送给第一发送单元。
5、第一发送单元将该摘要封装在内容类别请求消息中,还可通过第一指 示单元在该消息中携带类型信息,以告知内容分类单元本消息中携带的内容为 摘要;之后将该内容类别请求消息发送给内容分类单元。并转入步骤8。
6、摘要操作判断单元将该内容本身发送给通过第二发送单元。
7、第二发送单元将内容本身封装在内容类别请求消息中,还可通过第二 指示单元在该消息中携带类型信息,以告知内容分类单元本消息中携带有内容 本身;之后将该内容类别请求消息发送给内容分类单元。
8、内容分类单元从收到的内容类别请求消息中提取摘要或内容本身,并 根据告知的类型信息以相应的算法进行分类处理。
9、内容分类单元将得到的内容类别返回给内容提供装置中的内容提供单 元。
在具体实现中,例如:内容提供装置有时长为26∶26的一段视频需要分 类,于是将其数据大小、数据类型和存放内容的内存地址发送给物理上位于同 一实体的摘要操作判断单元。摘要操作判断单元将其数据大小和数据类型(视 频)对应的阈值进行比较,因其大小大于预先设定的视频类数据阈值,摘要操 作判断单元根据收到的内存地址读出内容,并将内容、内容提供装置的地址、 数据类型、数据大小等信息发送给同位于一个机房的由运营商提供的摘要获得 单元。摘要获得单元选择视频适用的算法生成时长为6∶48(压缩比达3.89∶1) 的摘要。摘要获得单元将摘要、内容提供装置的地址发送给内容分类单元处理 (可选的发送所提交内容的类型信息为摘要)。内容分类单元分类完成后将内 容类别返回给内容提供装置。
实际部署中,上述单元可以分属两大
块,即提供内容的内容提供商,以及 运营商或过滤服务提供商。作为运营商,提供互联网络接入、通信网络接入等 网络接入服务,同时运营商自己经营内容过滤服务。另外还可以作为独立的过 滤服务提供商为运营商提供内容过滤服务。考虑摘要的可信度,摘要获得单元 只可能在运营商或过滤服务提供商。
可能实际使用模式:i)内容提供装置属于内容提供商,其余单元属于运营 商或过滤服务提供商,其中摘要操作判断单元和摘要获得单元可以直接组成摘 要服务器,并邻近内容提供商同时享有高带宽;ii)内容提供装置和摘要操作 判断单元均属于内容提供商,其余单元属于运营商或过滤服务提供商,摘要获 得单元邻近内容提供装置、同时享有高带宽,内容提供商的摘要操作判断单元 保存了和运营商/过滤服务提供商协商确定的阈值(可以由运营商/过滤服务提 供商提供说明阈值的脚本文件,供摘要操作判断单元读取、执行)。如果内容 提供装置和摘要服务器(摘要操作判断单元和摘要获得单元)/摘要获得单元一 一对应,且内容分类单元保存有摘要服务器/摘要获得单元对应的内容提供装置 的地址,则无需携带内容提供装置的地址,否则需要在消息中携带内容提供装 置的地址。
实施例4:内容提供单元向终端用户提供内容,为了使其提供的内容能够 在内容过滤单元快速过滤,内容提供单元事先(无实时性)获取内容类别,并 以元数据或水印的形式将其附加在内容中,从而生成预分类内容供用户下载, 这样在实时性要求较高时,内容过滤单元可以直接依据预分类内容中预置的内 容类别进行快速过滤。
参见图9所示,本实施例的应用场景由内容分类请求方一侧的内容分类请 求装置和内容提供装置,内容分类提供方一侧的内容分类单元(内容分类提供 装置),以及在内容分类完成之后,直接根据预分类内容的内容类别进行过滤 的内容过滤单元组成。
参见图10所示,本实施例具体处理流程如下:
1、内容提供装置对于自身提供的未分类的内容需要获取内容类别,以生 成预分类内容,于是内容提供装置通过其中的内容提供单元将该未分类内容的 数据大小(可能还带有数据类型、内容提供单元地址等其它信息)提供给内容 分类请求装置中的摘要操作判断单元。
2、摘要操作判断单元将该未分类内容的数据大小与预先设定的阈值进行 比较,并将比较结果告知内容提供单元。比较结果为该未分类内容的数据大小 大于预先设定的阈值,则转入步骤3;否则转入步骤6。
3、内容提供单元将该未分类内容的内容本身发送给内容分类请求装置中 的摘要获得单元。
4、摘要获得单元根据收到的内容生成摘要,将摘要(可携带数据大小、 数据类型、内容提供单元地址)发送给第一发送单元。
5、第一发送单元将该摘要封装在内容类别请求消息中,还可通过第一指 示单元在该消息中携带类型信息,以告知内容分类单元本消息中携带的内容为 摘要以及内容摘要相关信息又及依据的内容本身相关信息;之后将该内容类别 请求消息发送给内容分类单元。并转入步骤8。
6、内容提供单元将该未分类内容的内容本身发送给内容提供装置中的第 三发送单元。
7、第三发送单元将内容本身封装在内容类别请求消息中,还可通过内容 提供装置中的第三指示单元在该消息中携带类型信息,以告知内容分类单元本 消息中携带有内容本身以及内容本身相关信息;之后将该内容类别请求消息发 送给内容分类单元。
8、内容分类单元从收到的内容类别请求消息中提取摘要或内容本身,并 根据告知的类型信息以相应的算法进行分类处理。
9、内容分类单元将得到的内容类别返回给内容提供装置中的内容提供单 元。
在具体实现中,例如:内容提供装置有时长为26∶26的一段视频需要分 类,于是将其数据大小、数据类型发送给运营商的摘要操作判断单元,摘要操 作判断单元将其数据大小和数据类型(视频)对应的阈值进行比较,因其大小 大于预先设定的视频类数据阈值,摘要操作判断单元通知内容提供装置将内容 发送到摘要获得单元并带有其地址。内容提供装置将内容发送给同位于一个机 房的由运营商提供的摘要获得单元,摘要获得单元选择视频适用的算法生成时 长为6∶48(压缩比达3.89∶1)的摘要,摘要获得单元将摘要和内容提供装置 的地址发送给内容分类单元处理(可选的发送所提交分类的内容的类型为摘 要)。内容分类单元分类完成后将内容类别返回给内容提供装置。
实际部署中,上述单元可以分属两大块:前者为内容提供商,提供内容; 后者为运营商或过滤服务提供商。作为运营商,提供互联网络接入、通信网络 接入等网络接入服务,同时运营商自己经营内容过滤服务。另外还可以作为独 立的过滤服务提供商为运营商提供内容过滤服务。考虑摘要的可信度,摘要获 得单元只可能在运营商或过滤服务提供商。
可能实际使用模式:i)内容提供装置属于内容提供商,其余单元属于运营 商或过滤服务提供商,其中摘要操作判断单元和摘要获得单元可以直接组成摘 要服务器,并邻近内容提供商同时享有高带宽,也可以仅由摘要获得单元组成 摘要服务器,并邻近内容提供商同时享有高带宽;ii)内容提供装置和摘要操 作判断单元均属于内容提供商,其余单元属于运营商或过滤服务提供商,摘要 获得单元邻近内容提供装置、同时享有高带宽,内容提供商的摘要操作判断单 元保存了和运营商/过滤服务提供商协商确定的阈值(可以由运营商/过滤服务 提供商提供说明阈值的脚本文件,供摘要操作判断单元读取、执行)。如果内 容提供装置和摘要服务器(摘要操作判断单元和摘要获得单元)/摘要获得单元 一一对应,且内容分类单元保存有摘要服务器/摘要获得单元对应的内容提供装 置的地址,则无需携带内容提供装置的地址,否则需要在消息中携带内容提供 装置的地址。
综上所述,本发明实施例中,内容分类请求方判定待分类内容的数据大小 大于阈值时(也可根据待分类内容的数据格式是否为预设数据格式之一,和/ 或用户是否指定来判定),生成该待分类内容的内容摘要,并且以生成的内容 摘要向内容分类提供方请求内容类别。所以本发明实施例扩充了用于向内容分 类单元提供的直接体现该内容的输入参数,通过大大减小供分类操作的内容数 据,为内容很大时提供了一个高效的处理方式,不仅能减轻内容分类单元处理 的负荷,同时能有效降低网络传输流量,特别有利于外部实体请求类别信息的 情况。
进一步,还可在将待分类内容的数据大小与阈值比较之前,先确定是否需 以内容本身来获取内容类别,这样可以兼容现有的以其它输入参数(如URI) 来获取内容类别的方案,达到更好的效果。
进一步,还可通过类型信息告知内容分类提供方,本次内容类别请求消息 中携带的是内容摘要还是内容本身,从而可以使内容分类提供方以最为匹配的 算法进行分类处理,达到更好的效果。
进一步,对于流媒体等无法实时分类的业务,以及视频、多媒体、声音、 图片、大文档等实时分类困难的媒体的过滤特别有好处。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发 明的精神和范围。这样,倘若本发明的这些
修改和变型属于本发明
权利要求及 其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。