首页 / 专利库 / 资料储存系统 / 非易失性存储器 / 危险指数分析方法、装置、电子设备和存储介质

危险指数分析方法、装置、电子设备和存储介质

阅读:460发布:2020-05-08

专利汇可以提供危险指数分析方法、装置、电子设备和存储介质专利检索,专利查询,专利分析的服务。并且本 申请 实施例 提供的危险指数分析方法、装置、 电子 设备和存储介质,根据 文本分类 模型从目标寄递信息中提取出至少一个目标特征词,并根据计算获得的目标特征词的倾向性数值计算该目标特征词所属的目标寄递信息的总倾向性数值,从而根据总倾向性数值分析该目标寄递信息的危险指数。采用上述方法描述的危险指数分析方法能够对大量的寄递信息进行监控并分析其危险指数,提高了寄递信息的监管和危险指数分析的效率。,下面是危险指数分析方法、装置、电子设备和存储介质专利的具体信息内容。

1.一种危险指数分析方法,其特征在于,应用于电子设备,所述方法包括:
基于预先建立的特征词库从至少一个寄递信息中筛选出目标寄递信息;
根据预先训练好的文本分类模型从所述目标寄递信息中提取出至少一个目标特征词;
计算每个所述目标特征词的倾向性数值;
根据每个所述目标特征词的倾向性数值计算所述目标特征词所属的目标寄递信息的总倾向性数值;
根据所述总倾向性数值分析所述目标寄递信息对应的危险指数。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括建立特征词库的步骤,该步骤包括:
从训练文本中获取多个设定特征词,并标注各所述设定特征词的倾向性数值;
根据多个所述设定特征词及各所述设定特征词的倾向性数值建立特征词库。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括训练文本分类模型的步骤,该步骤包括:
基于所述特征词库训练预设模型,以获得文本分类模型。
4.根据权利要求2所述的方法,其特征在于,基于预先建立的特征词库从至少一个寄递信息中筛选出目标寄递信息,包括:
将至少一个所述寄递信息与所述特征词库中的各所述设定特征词进行比对,从至少一个所述寄递信息中筛选出包括所述设定特征词的目标寄递信息。
5.根据权利要求4所述的方法,其特征在于,计算每个所述目标特征词的倾向性数值,包括:
将各所述目标特征词与所述特征词库中的各所述设定特征词进行匹配,判断各所述目标特征词是否能在所述特征词库中匹配到对应的设定特征词;
若能匹配,则将能够与所述目标特征词匹配的设定特征词的倾向性数值赋值给所述目标特征词;
若不能匹配,则为不能匹配到对应的设定特征词的目标特征词标注倾向化数值。
6.根据权利要求1所述的方法,其特征在于,根据每个所述目标特征词的倾向性数值计算所述目标特征词所属的目标寄递信息的总倾向性数值,包括:
基于所述目标特征词的倾向性数值采用n-gram算法计算所述目标寄递信息的总倾向性数值。
7.根据权利要求1所述的方法,其特征在于,所述电子设备中预先设置有不同的危险指数对应的倾向性数值的阈值范围,所述根据所述总倾向性数值分析所述目标寄递信息对应的危险指数,包括:
根据所述目标寄递信息的总倾向性数值所属的阈值范围判断该目标寄递信息对应的危险指数。
8.一种危险指数分析装置,其特征在于,所述装置包括:
筛选模,用于基于预先建立的特征词库从至少一个寄递信息中筛选出目标寄递信息;
目标特征词提取模块,用于根据预先训练好的文本分类模型从所述目标寄递信息中提取出至少一个目标特征词;
第一计算模块,用于计算每个所述目标特征词的倾向性数值;
第二计算模块,用于根据每个所述目标特征词的倾向性数值计算所述目标特征词所属的目标寄递信息的总倾向性数值;
分析模块,用于根据所述总倾向性数值分析所述目标寄递信息对应的危险指数。
9.一种电子设备,其特征在于,包括处理器及存储有计算机指令的非易失性存储器,所述计算机指令被所述处理器执行时,所述电子设备执行权利要求1-7中任意一项所述的危险指数分析方法。
10.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,所述计算机程序被执行时实现权利要求1-7中任意一项所述的危险指数分析方法。

说明书全文

危险指数分析方法、装置、电子设备和存储介质

技术领域

[0001] 本申请涉及文本分析技术领域,具体而言,涉及一种危险指数分析方法、装置、电子设备和存储介质。

背景技术

[0002] 近年来,随着市场经济的快速发展,寄递业务高速增长,各物流企业内部寄递过程中对于高危物品(例如药品)的监管多是通过人工监管实现的。需要对收件地址或寄件地址
进行监控和挖掘,例如,若收件地址或寄件地址中包括有“整容”、“整形”等敏感词,则将该收件地址对应的收件人或寄件地址对应的寄件人标记为重点关注对象,再根据人工经验对
该收件地址或寄件地址进行进一步判断。
[0003] 上述方法需要依赖人工经验进行判断,无法对批量数据进行实时监控,且效率较低。
发明内容
[0004] 有鉴于此,本申请的目的在于提供危险指数分析方法、装置、电子设备和存储介质。
[0005] 第一方面,实施例提供一种危险指数分析方法,应用于电子设备,所述方法包括:
[0006] 基于预先建立的特征词库从至少一个寄递信息中筛选出目标寄递信息;
[0007] 根据预先训练好的文本分类模型从所述目标寄递信息中提取出至少一个目标特征词;
[0008] 计算每个所述目标特征词的倾向性数值;
[0009] 根据每个所述目标特征词的倾向性数值计算所述目标特征词所属的目标寄递信息的总倾向性数值;
[0010] 根据所述总倾向性数值分析所述目标寄递信息对应的危险指数。
[0011] 在可选的实施方式中,所述方法还包括建立特征词库的步骤,该步骤包括:
[0012] 从训练文本中获取多个设定特征词,并标注各所述设定特征词的倾向性数值;
[0013] 根据多个所述设定特征词及各所述设定特征词的倾向性数值建立特征词库。
[0014] 在可选的实施方式中,所述方法还包括训练文本分类模型的步骤,该步骤包括:
[0015] 基于所述特征词库训练预设模型,以获得文本分类模型。
[0016] 在可选的实施方式中,基于预先建立的特征词库从至少一个寄递信息中筛选出目标寄递信息,包括:
[0017] 将至少一个所述寄递信息与所述特征词库中的各所述设定特征词进行比对,从至少一个所述寄递信息中筛选出包括所述设定特征词的目标寄递信息。
[0018] 在可选的实施方式中,计算每个所述目标特征词的倾向性数值,包括:
[0019] 将各所述目标特征词与所述特征词库中的各所述设定特征词进行匹配,判断各所述目标特征词是否能在所述特征词库中匹配到对应的设定特征词;
[0020] 若能匹配,则将能够与所述目标特征词匹配的设定特征词的倾向性数值赋值给所述目标特征词;
[0021] 若不能匹配,则为不能匹配到对应的设定特征词的目标特征词标注倾向化数值。
[0022] 在可选的实施方式中,根据每个所述目标特征词的倾向性数值计算所述目标特征词所属的目标寄递信息的总倾向性数值,包括:
[0023] 基于所述目标特征词的倾向性数值采用n-gram算法计算所述目标寄递信息的总倾向性数值。
[0024] 在可选的实施方式中,所述电子设备中预先设置有不同的危险指数对应的倾向性数值的阈值范围,所述根据所述总倾向性数值分析所述目标寄递信息对应的危险指数,包
括:
[0025] 根据所述目标寄递信息的总倾向性数值所属的阈值范围判断该目标寄递信息对应的危险指数。
[0026] 第二方面,实施例提供一种危险指数分析装置,所述装置包括:
[0027] 筛选模,用于基于预先建立的特征词库从至少一个寄递信息中筛选出目标寄递信息;
[0028] 目标特征词提取模块,用于根据预先训练好的文本分类模型从所述目标寄递信息中提取出至少一个目标特征词;
[0029] 第一计算模块,用于计算每个所述目标特征词的倾向性数值;
[0030] 第二计算模块,用于根据每个所述目标特征词的倾向性数值计算所述目标特征词所属的目标寄递信息的总倾向性数值;
[0031] 分析模块,用于根据所述总倾向性数值分析所述目标寄递信息对应的危险指数。
[0032] 第三方面,实施例提供一种电子设备,包括处理器及存储有计算机指令的非易失性存储器,所述计算机指令被所述处理器执行时,所述电子设备执行前述实施方式中任意
一项所述的危险指数分析方法。
[0033] 第四方面,实施例提供一种存储介质,所述存储介质中存储有计算机程序,所述计算机程序被执行时实现前述实施方式中任意一项所述的危险指数分析方法。
[0034] 本申请的有益效果:
[0035] 本申请实施例提供的危险指数分析方法、装置、电子设备和存储介质,根据文本分类模型从目标寄递信息中提取出至少一个目标特征词,并根据计算获得的目标特征词的倾
向性数值计算该目标特征词所属的目标寄递信息的总倾向性数值,从而根据总倾向性数值
分析该目标寄递信息的危险指数。采用上述方法描述的危险指数分析方法能够对大量的寄
递信息进行监控并分析其危险指数,提高了寄递信息的监管和危险指数分析的效率。
[0036] 为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

[0037] 为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对
范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这
些附图获得其他相关的附图。
[0038] 图1为本申请实施例提供的电子设备的结构示意图;
[0039] 图2为本申请实施例提供的危险指数分析方法的流程图之一;
[0040] 图3为本申请实施例提供的危险指数分析方法的流程图之二;
[0041] 图4为本申请实施例提供的图3中的步骤S208的子步骤流程图;
[0042] 图5为本申请实施例提供的图3中的步骤S209的子步骤流程图;
[0043] 图6为本申请实施例提供的图1中的步骤S230的子步骤流程图;
[0044] 图7为本申请实施例提供的危险指数分析装置的功能模块图。
[0045] 主要元件符号说明:100-电子设备;110-危险指数分析装置;120-存储器;130-处理器;1101-筛选模块;1102-目标特征词提取模块;1103-第一计算模块;1104-第二计算模
块;1105-分析模块。

具体实施方式

[0046] 为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅
是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实
施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的
实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定
施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所
有其他实施例,都属于本申请保护的范围。
[0047] 请参照图1,图1为本申请实施例提供的电子设备100的结构示意图。该电子设备100包括有处理器130、存储器120以及危险指数分析装置110,所述存储器120与处理器130
各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之
间可通过一条或多条通讯总线或信号线实现电性连接。所述危险指数分析装置110包括至
少一个可以软件固件(firmware)的形式存储于所述存储器120中或固化在所述电子设备
100的操作系统(Operating System,OS)中的软件功能模块。所述处理器130用于执行所述
存储器120中存储的可执行模块,例如危险指数分析装置110所包括的软件功能模块及计算
机程序等。所述电子设备100可以是,但不限于,可穿戴设备、智能手机、平板电脑个人数字助理等。
[0048] 其中,所述存储器120可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable 
Read-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-Only 
Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only 
Memory,EEPROM)等。其中,存储器120用于存储程序,所述处理器130在接收到执行指令后,执行所述程序。
[0049] 所述处理器130可能是一种集成电路芯片,具有信号的处理能。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器
(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、
现场可编程阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬
件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器
可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0050] 请参照图2,图2为本申请实施例提供的危险指数分析方法的流程图之一,所述方法应用于图1所示的电子设备100中,所述方法包括以下步骤:
[0051] 步骤S210,基于预先建立的特征词库从至少一个寄递信息中筛选出目标寄递信息。
[0052] 步骤S220,根据预先训练好的文本分类模型从目标寄递信息中提取出至少一个目标特征词。
[0053] 步骤S230,计算每个目标特征词的倾向性数值。
[0054] 步骤S240,根据每个目标特征词的倾向性数值计算目标特征词所属的目标寄递信息的总倾向性数值。
[0055] 步骤S250,根据总倾向性数值分析所述目标寄递信息对应的危险指数。
[0056] 随着全国各省市大数据平台的建立,数据采集和接入能力大大提高,平均每个地区采集到的寄递信息的数据高达数百GB。在对寄递信息进行危险指数分析时,若对全部的
寄递信息都进行分析,数据运算量十分庞大,这将会影响到电子设备100的运行速度。因此,为了减少数据运算量,首先可以从大量的寄递信息中筛选出与目标寄递信息,再对筛选后
的目标寄递信息的危险指数进行分析。
[0057] 在对目标寄递信息的危险指数进行分析时,首先需要根据预先训练好的文本分类模型从目标寄递信息中筛选出至少一个目标特征词,该目标特征词可以是“整形”、“美容”、“外科”、“医疗”、“理疗”、“足道”等词语,上述词语所属的寄递信息通常会对药品进行交易。
因此,需要从目标寄递信息中提取出此类目标特征词。
[0058] 由于不同的目标特征词对应的寄递信息交易的药品或是其他物品的危险性不同,例如,“医院”或是“外科”等目标特征词对应的寄递信息交易的药品的危险性一般高于“足道”或“理疗”等目标特征词对应的寄递信息。
[0059] 因此,可以计算出各个目标特征词的倾向性数值,并根据各个目标特征词的倾向性数值计算目标寄递信息的总倾向性数值,即每个目标寄递信息都有各自对应的总倾向性
数值,例如50、80或100。
[0060] 当目标寄递信息中存在一个或多个目标特征词时,可以根据一个或多个目标特征词通过适当的算法计算出目标特征词所属的目标寄递信息的总倾向性数值。
[0061] 根据每个目标寄递信息对应的总倾向性数值可以分析出该目标寄递信息对应的危险指数。其中,危险指数可以为低危、疑似危险、危险或高危等。
[0062] 通过上述步骤描述的危险指数分析方法能够对大量的寄递信息进行监控并分析其危险指数,提高了寄递信息的监管和危险指数分析的效率及准确度。
[0063] 当分析出每个目标寄递信息的危险指数后,可以根据各个目标寄递信息的危险指数对应的档位(低危、疑似危险、危险或高危)对目标寄递信息进行不同程度的监控,例如重
点监控危险及高危档位的目标寄递信息,而对于低危或疑似危险档位的目标寄递信息的监
管力度则可以适当的减小。
[0064] 上述方法可应用于帮助监管人员在复杂的大量的寄递信息中快速准确的识别出嫌疑较大的危险快递,例如涉嫌药品运输的快递,便于监管。
[0065] 请参照图3,图3为本申请实施例提供的危险指数分析方法的流程图之二。在本实施例中,危险指数分析方法还包括步骤S208,建立特征词库。
[0066] 具体地,请参照图4,图4为本申请实施例提供的图3中的步骤S208的子步骤流程图。在本实施例中,步骤S208包括以下子步骤:
[0067] 子步骤S2081,从训练文本中获取多个设定特征词,并标注各设定特征词的倾向性数值。
[0068] 子步骤S2082,根据多个设定特征词及各设定特征词的倾向性数值建立特征词库。
[0069] 在上述子步骤中,为了建立特征词库,首先需要从大量的训练文本(例如医保数据表、缴费单位或物流收件寄件地址)中获取多个设定特征词,其中,设定特征词可以是“整
形”、“美容”、“外科”、“医疗”、“理疗”、“足道”、“造型”、“彩妆”、“发廊”、“发艺”等。
[0070] 在获取到多个设定特征词之后,还需要对各个设定特征词标注倾向性数值,倾向性数值越高则表示该设定特征词的危险指数越高。
[0071] 例如,当需要对涉嫌药品运输的寄递信息监控时,由于涉及“医院”、“医疗”等设定特征词的地址可能涉嫌药品运输的可能性大于其他特征词,因此,可以根据经验将“医院”、“外科”、“医疗”等设定特征词的倾向性数值标注为80-90之间,将“美容”、“整形”等设定特征词的倾向性数值标注为50-80之间,将“发廊”、“发艺”、“造型”等设定特征词的倾向性数值标注为20-50之间,将“理疗”、“足道”等设定特征词的倾向性数值标注为0-20之间。
[0072] 当然,可以理解的是,上文仅仅是对各个设定特征词的倾向性数值的举例说明,在不同的应用场景中,各个设定特征词的倾向性数值可以为其他数值,在此不对各个设定特
征词的倾向性数值进行具体限定。
[0073] 在对各个设定特征词的倾向性数值进行标注之后,将各个设定特征词及该设定特征词对应的倾向性数值存入数据库中,以构建特征词库。因此,特征词库中不仅包括多个设
定特征词,还包括该设定特征词的倾向性数值。
[0074] 在构建特征词库后,即可参照步骤S210至步骤S250中描述的危险指数分析方法对目标寄递信息的危险指数进行分析。
[0075] 可选地,在本实施例中,步骤S210,基于预先建立的特征词库从至少一个寄递信息中筛选出目标寄递信息,具体包括:
[0076] 将至少一个所述寄递信息与所述特征词库中的各所述设定特征词进行比对,从至少一个所述寄递信息中筛选出包括所述设定特征词的目标寄递信息。
[0077] 由于快递行业的快速发展,每个城市每天的快递量都十分巨大,大量的快递量所构成的寄递信息的数据量也十分庞大,甚至高达数百GB。若是对所有的寄递信息都进行监
管或是均进行危险指数分析,数据的运算量十分庞大,若是要完成如此庞大的运算量,则需
要配备较为昂贵的硬件设备,监管成本较高。
[0078] 为了减少电子设备100的数据运算量,可以将寄递信息中无需进行监管或无需进行危险指数分析的寄递信息进行排除。
[0079] 例如,寄递信息可以包括送往普通住宅类地址的寄递信息或是送往医院、美容院、发廊等场所的地址,一般来说医院、美容院、发廊等场所的快递有极大的可能涉嫌药品或其
他高危物品的运输,而送往普通住宅类地址一般不会涉及药品或其他高危物品的运输,因
此需要将此类普通住宅类地址对应的寄递信息排除。
[0080] 因此,需要从寄递信息中筛选出包括“医院”、“美容院”、“发廊”等词语的目标寄递信息,再对筛选出来的目标寄递信息进行危险指数分析,可以极大的减少数据运算量。
[0081] 在预先建立的特征词库中包括了大量的设定特征词,而此类设定特征词正是需要进行监管及危险指数分析的寄递信息中包括的关键词。因此,可以基于预先建立的特征词
库从寄递信息中筛选出目标寄递信息。具体地,可以判断寄递信息中是否包括特征词库中
的各个设定特征词,从而筛选目标寄递信息。其中,目标寄递信息中包括至少一个设定特征
词。
[0082] 通过上述方法能够将不包含设定特征词与包含至少一个设定特征词的寄递信息区别开来,在进行危险指数分析时,可以仅对包含设定特征词的目标寄递信息进行运算,以
减少数据运算量,可以避免由于购置硬件设备带来的成本增加,同时也能加快运算速度,提
升危险指数分析的效率。
[0083] 请继续参照图3,在本实施例中,危险指数分析方法还包括步骤S209,训练文本分类模型。
[0084] 具体地,请参照图5,图5为本申请实施例提供的图3中的步骤S209的子步骤流程图。在本实施例中,步骤S209包括:
[0085] 子步骤S2091,基于特征词库训练预设模型,以获得文本分类模型。
[0086] 在上述步骤中,为了获得文本分类模型,需要通过大量的训练数据对预设模型进行训练,以获得期望的文本分类模型。其中,训练数据可以是包括多个设定特征词及多个设
定特征词对应的倾向性数值的特征词库。
[0087] 训练方式可以是迭代训练法,通过loss函数计算预设模型的输出与期望的输出的差异度,并根据差异度调整预设模型的模型参数,再次通过loss函数计算修改模型参数之
后的预设模型的输出与期望的输出的差异度。通过判断差异度是否收敛或判断迭代次数是
否达到预设的次数,若差异度收敛或迭代次数达到预设次数,终止训练,以获得训练好的文
本分类模型。文本分类模型能够从目标寄递信息中提取出一个或多个目标特征词。
[0088] 可选地,在本实施例中,迭代次数可以根据经验设置为1000次或3000次。当然,也可以设置为其他的数值,在此对于迭代次数不作具体限定,本领域技术人员可以根据需要
自行设定。
[0089] 可选地,在本实施例中,预设模型可以是条件随机场(Conditional Random Filed,CRF)模型,CRF模型是由Lafferty提出的一种典型的判别式模型。CRF模型最早是针
对序列数据分析提出的,它在观测序列的基础上对目标序列进行建模,重点解决序列化标
注的问题,是一种用来标记和切分序列化数据的统计模型。CRF模型主要用于词性标注、分
词以及命名实体识别。
[0090] 在采用上述方法并基于特征词库训练CRF模型之后,获得训练好的文本分类模型,该文本分类模型能够从目标寄递信息中提取出目标特征词。其中,目标特征词可以是“整
形”、“美容”、“外科”、“医疗”、“理疗”、“足道”、“造型”、“彩妆”、“发廊”、“发艺”等其他意思或语义相近的词语。
[0091] 可以理解的是,在CRF模型仅仅是本实施例对于预设模型的一种举例说明,在本实施例的其他实施方式中,预设模型还可以是其他的能够用于提取词语的模型,在此对于预
设模型不进行具体限定,本领域技术人员可以根据不同的应用场景选择不同的预设模型。
[0092] 可选地,在本实施例中,在根据训练好的文本分类模型从目标寄递信息中提取出至少一个目标特征词之后,还需要对各个目标特征词的倾向性数值进行计算。
[0093] 可选地,请参照图6,图6为本申请实施例提供的图1中的步骤S230的子步骤流程图。在本实施例中,步骤S230包括以下子步骤:
[0094] 步骤S2301,将各目标特征词与特征词库中的各设定特征词进行匹配,判断各目标特征词是否能在特征词库中匹配到对应的设定特征词。
[0095] 步骤S2302,若能匹配,则将能够与目标特征词匹配的设定特征词的倾向性数值赋值给目标特征词。
[0096] 步骤S2303,若不能匹配,则为不能匹配到对应的设定特征词的目标特征词标注倾向化数值。
[0097] 在本实施例中,通过文本分类模型从各个目标寄递信息中提取目标特征词后,还需要对各个目标特征词的倾向性数值进行计算,且文本分类模型可能提取出多个目标特征
词,提取出的多个目标特征词可能与特征词库中的设定特征词相同,也可能不相同。因此,
在计算目标特征词的倾向性数值时,需要判断该目标特征词与特征词库中的设定特征词能
否匹配。
[0098] 若是能够匹配,即当目标特征词为多个设定特征词中的其中一个时,将该设定特征词的倾向性数值直接赋值给目标特征词。
[0099] 若是不能匹配,即当目标特征词不为多个设定特征词中的任意一个时,为该目标特征词标注一个倾向化数值。
[0100] 可选地,在为不能匹配到设定特征词的目标特征词标注一个倾向化数值之后,可以将该目标特征词作为设定特征词存入特征词库中。当后续再次提取出该目标特征词后,
可以直接根据特征词库中预存的倾向化数值为其赋值,无需再次进行标注。
[0101] 例如,当文本分类模型从寄递信息中只提取出一个目标特征词“美容”时,若该目标特征词“美容”能够在特征词库中匹配到设定特征词“美容”,则该目标特征词“美容”的倾向化数值与匹配到的设定特征词“美容”的倾向化数值相同。若该目标特征词“美容”无法在特征词库中匹配到设定特征词时,则为该目标特征词“美容”标注一个新的倾向化数值。
[0102] 当文本分类模型从寄递信息中提取出三个目标特征词“美容”、“整形”、“医院”时,若此三个目标特征词中的其中两个目标特征词“整形”、“医院”能够在特征词库中匹配到设定特征词“整形”、“医院”,则将特征词库中预存的设定特征词“整形”、“医院”的倾向化数值分别赋值给目标特征词“整形”、“医院”。若其中一个目标特征词“美容”无法在特征词库中匹配到设定特征词时,则为该目标特征词“美容”标注一个新的倾向化数值。
[0103] 在为“美容”这个无法匹配到设定特征词的目标特征词标注倾向化数值之后,可以将该目标特征词及其对应的倾向化数值存入特征词库中,在后续的目标特征词的计算过程
中,可以直接为该目标特征词进行赋值,无需再次标注倾向化数值,可以在一定程度上减少
数据运算量,减少运算时间,从而提升危险指数分析效率。
[0104] 在根据上述方法计算出各个目标特征词的倾向性数值之后,还需要根据每个目标特征词的倾向性数值计算所述目标特征词所属的目标寄递信息的总倾向性数值。
[0105] 具体地,步骤S240,根据每个所述目标特征词的倾向性数值计算所述目标特征词所属的目标寄递信息的总倾向性数值,包括:
[0106] 基于所述目标特征词的倾向性数值采用n-gram算法计算所述目标寄递信息的总倾向性数值。
[0107] 在本实施例中,文本分类模型能够从目标寄递信息中提取出一个或多个目标特征词,每个目标特征词都具有各自的倾向性数值,因此需要基于每个目标特征词计算出所述
目标特征词所属的目标寄递信息的总倾向性数值。
[0108] 可选地,在本实施例中,可以通过n-gram算法来计算目标寄递信息的总倾向性数值。
[0109] n-gram算法是大词汇连续语音识别中常用的一种语言模型,对中文而言,我们称之为汉语语言模型(CLM,Chinese Language Model)。汉语语言模型利用上下文中相邻词间
的搭配信息,可以实现到汉字的自动转换。
[0110] 在不同的应用场景中,n-gram算法具体的作用也是不同的,例如,在本实施例中,n-gram算法用于根据每个目标特征词的倾向性数值计算目标寄递信息的总倾向性数值。
[0111] 可选地,除了通过n-gram算法计算目标寄递信息的总倾向性数值之外,还可以根据目标特征词出现的频率及对多个目标特征词求和计算所述目标特征词所属的目标寄递
信息的总倾向性数值。
[0112] 例如,当文本分类模型从目标寄递信息中仅提取出一个目标特征词“医院”时,该目标特征词“医院”的倾向性数值即为所属的目标寄递信息的总倾向性数值。
[0113] 当文本分类模型从目标寄递信息中提取出多个目标特征词时,例如“美容”、“整形”、“医院”,若“美容”、“整形”、“医院”倾向性数值分别是50、55、85时,则“美容”、“整形”、“医院”所属的目标寄递信息的总倾向性数值可以是将各自的倾向性数值想加后获得,即50
+55+85=190。
[0114] 当文本分类模型从目标寄递信息中提取出多个目标特征词时,例如“美容”、“整形”、“医院”、“美容”,即其中一个目标特征词出现多次时,所述目标特征词所述的目标寄递信息的总倾向性数值可以是多次出现的目标特征词的倾向性数值,如本例中多次出现的
“美容”的倾向性数值。
[0115] 可选地,在本实施例中,也可以选取多个目标特征词中倾向性数值最高的目标特征词对应的倾向性数值作为目标寄递信息的总倾向性数值。
[0116] 例如,当文本分类模型从目标寄递信息中提取出多个目标特征词时,例如“美容”、“整形”、“医院”,若“美容”、“整形”、“医院”倾向性数值分别是50、55、85时,由于85最大,因此所属的目标寄递信息的总倾向性数值可以是85。
[0117] 在根据上述方法计算出目标寄递信息的总倾向性数值之后,还需要根据总倾向性数值分析目标寄递信息对应的危险指数。
[0118] 具体地,在本实施例中,步骤S250,包括:根据所述目标寄递信息的总倾向性数值所属的阈值范围判断该目标寄递信息对应的危险指数。
[0119] 在本实施例中,电子设备100中预先设置有不同的危险指数对应的倾向性数值的阈值范围,例如,当倾向性数值的阈值范围为(0,10]时,对应的危险指数可以是低危,当倾向性数值的阈值范围为(10,50]时,对应的危险指数可以是疑似危险,当倾向性数值的阈值
范围为(50,80]时,对应的危险指数可以是危险,当倾向性数值的阈值范围大于80时,危险
指数可以是高危。
[0120] 当然,可以理解的是,上述倾向性数值的阈值范围仅仅是举例说明,在本实施例的其他实施方式中,倾向性数值的阈值范围还可以是其他范围,在此不作具体限定。
[0121] 在分析各目标寄递信息的危险指数时,判断该目标寄递信息的总倾向性数值所在的阈值范围即可。
[0122] 例如,当目标寄递信息的总倾向性数值在(0,10]的范围内时,则表示该目标寄递信息的危险指数为低危,即当前寄递为低危寄递;当目标寄递信息的总倾向性数值在(10,
50]的范围内时,则表示该目标寄递信息的危险指数为疑似危险,即当前寄递为疑似危险的
寄递;当目标寄递信息的总倾向性数值在(50,80]的范围内时,则表示该目标寄递信息的危
险指数为危险,即当前寄递为危险寄递;当目标寄递信息的总倾向性数值大于80时,则表示
该目标寄递信息的危险指数为高危,即当前寄递为高危寄递。
[0123] 综上所述,通过上述步骤描述的危险指数分析方法能够对大量的寄递信息进行监控并分析其危险指数,提高了寄递信息的监管和危险指数分析的效率及准确度。在分析出
每个目标寄递信息的危险指数后,可以根据各个目标寄递信息的危险指数对应的档位(低
危、疑似危险、危险或高危)对目标寄递信息进行不同程度的监控。
[0124] 可选地,请参照图7,图7为本申请实施例提供的危险指数分析装置110的功能模块图。所述装置应用于电子设备100,所述装置包括:
[0125] 筛选模块1101,用于基于预先建立的特征词库从至少一个寄递信息中筛选出目标寄递信息。
[0126] 目标特征词提取模块1102,用于根据预先训练好的文本分类模型从所述目标寄递信息中提取出至少一个目标特征词。
[0127] 第一计算模块1103,用于计算每个所述目标特征词的倾向性数值。
[0128] 第二计算模块1104,用于根据每个所述目标特征词的倾向性数值计算所述目标特征词所属的目标寄递信息的总倾向性数值。
[0129] 分析模块1105,用于根据所述总倾向性数值分析所述目标寄递信息对应的危险指数。
[0130] 本申请实施例所提供的危险指数分析装置110可以为电子设备100上的特定硬件或者安装于电子设备100上的软件或固件等。本申请实施例所提供的装置,其实现原理及产
生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前
述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,
前述描述的系统、装置和单元的具体工作过程,均可以参考上述方法实施例中的对应过程,
在此不再赘述。
[0131] 本申请还提供了一种电子设备100,包括处理器130及存储有计算机指令的非易失性存储器120,所述计算机指令被所述处理器130执行时,所述电子设备100执行前述实施方
式中描述的危险指数分析方法,具体实现方法可以参考上述方法实施例中的对应过程,在
此不再赘述。
[0132] 本申请还提供了存储介质,所述存储介质中存储有计算机程序,所述计算机程序被执行时实现前述的危险指数分析方法,具体实现方法可以参考上述方法实施例中的对应
过程,在此不再赘述。
[0133] 在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻
辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可
以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间
的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连
接,可以是电性,机械或其它的形式。
[0134] 所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个
网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目
的。
[0135] 另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
[0136] 所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说
现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计
算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个
人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0137] 应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第
一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
[0138] 最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申
请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员
在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻
易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使
相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护
范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈