首页 / 国际专利分类库 / 物理 / 乐器;声学 / 用于识别音乐符号的方法和装置

用于识别音乐符号的方法和装置

申请号 CN201580019141.0 申请日 2015-01-26 公开(公告)号 CN106164932B 公开(公告)日 2019-07-12
申请人 麦斯杰公司; 发明人 法比奥·瓦朗特; 皮埃尔-米歇尔·拉利卡恩;
摘要 本 发明 公开了从手写音乐记号识别 音乐符号 的音乐符号识别装置和方法。各种实现方式可以包括:‑检测(S2)手写音乐记号;‑把手写音乐记号分割(S6)成基本墨 水 片段 ;‑把基本墨水片段分组(S8)成 图形对象 ;‑对于每一个图形对象确定(S10)一个音乐符号候选以及符号成本;以及‑对音乐符号候选进行解析(S12),其中所述解析包括:‑通过对音乐符号候选应用语法规则而形成(S14)图形,每一个图形包括与被应用于至少一个后代 节点 的语法规则相对应的非终端节点;‑把每一条所应用的语法规则与代表所应用的语法的相关性的空间成本相关联(S16);以及‑基于符号成本和空间成本来选择(S18)一个图形以作为手写音乐记号的最有代表性的图形。
权利要求

1.通过用于根据手写音乐记号来识别音乐符号的音乐符号识别装置所实施的方法,所述方法包括:
-检测手写音乐记号;
-把所述手写音乐记号预先分割成多个基本墨片段
-基于基本墨水片段之间的空间关系把基本墨水片段分组成图形对象,其中每一个基本墨水片段属于其中一个或更多所述图形对象;
-对于每一个图形对象确定至少一个音乐符号候选,其中与代表所述图形对象属于所述音乐符号候选的预定分类的可能性的指派符号成本相关联,所述确定是基于从所述图形对象提取出的图形特征;以及
-对音乐符号候选进行解析,其中所述解析包括:
-通过对所述音乐符号候选应用预定语法规则集合当中的至少一条而形成一个或更多图形,其中每一个图形包括与被应用于由至少一个后代节点构成的集合的语法规则相对应的至少一个非终端节点,其中每一个后代节点或者是对应于音乐符号候选的终端节点,或者是与被应用于至少另一个后代节点的语法规则相对应的非终端节点;
-把被应用于至少两个后代节点的每一条语法规则与代表所述应用的语法规则的相关性的空间成本相关联,这是根据所述应用的语法规则的定义并且基于所述至少两个后代节点的图形对象之间的空间关系;以及
-基于与每一个音乐符号候选相关联的符号成本以及与每一条所应用的语法规则相关联的空间成本,选择至少一个所述图形以作为手写音乐记号的最有代表性的图形。
2.根据权利要求1的方法,其中,所述形成步骤包括:尝试通过递归方式把所述语法规则集合当中的每一条应用于所述音乐符号候选。
3.根据权利要求1或2的方法,其中,所述解析包括:对于每一个图形计算总成本,其中考虑到为所述图形的音乐符号候选所指派的每一项符号成本以及与应用在所述图形中的至少一条语法规则相关联的每一项空间成本。
4.根据权利要求3的方法,其中,所述选择是基于针对每一个图形获得的总成本。
5.根据权利要求3的方法,其中,通过把所述图形的每一项空间成本和符号成本相加而获得对应于每一个图形的总成本。
6.根据权利要求4或5的方法,其中,所述选择包括:确定表示所检测到的手写音乐符号的每一个可能的图形,并且选择具有最低总成本的图形。
7.根据权利要求1、2、4和5当中的任一条的方法,其包括:在所述音乐符号识别装置的显示器上显示至少一个所选图形的符号候选。
8.根据权利要求7的方法,其中,所显示的每一个符号候选取代呈现在所述显示器上的相应的图形对象。
9.根据权利要求1、2、4、5和8当中的任一条的方法,其包括:在所述预先分割之前对所述检测到的手写音乐符号进行规范化。
10.根据权利要求1、2、4、5和8当中的任一条的方法,其中,所述确定至少一个音乐符号候选是通过神经网络来实施的。
11.根据权利要求1、2、4、5和8当中的任一条的方法,其中,每一条语法规则在适用时定义:
-音乐符号或音乐符号群组与至少一个非终端节点之间的预定关联;以及-如果在所述关联中存在至少两个后代节点,则作为对应于所述后代节点的图形对象的彼此空间关系的函数定义代表所述语法规则的相关性的空间成本的数值。
12.根据权利要求1、2、4、5和8当中的任一条的方法,其包括:基于被选择为对于所检测到的手写音乐符号最具代表性的每一个图形而产生解析树。
13.根据权利要求1、2、4、5和8当中的任一条的方法,其中,确定所述音乐符号候选包括提取出所述图形对象的静态图形特征和动态图形特征的至少其中之一,所述确定是基于所述提取的结果。
14.根据权利要求1、2、4、5和8当中的任一条的方法,其中,在检测步骤中,所述音乐记号识别装置检测由用户在所述音乐记号识别装置的输入表面上输入的所述手写音乐符号。
15.包括指令的计算机程序,当所述计算机程序在计算机上运行时,所述指令用于实施根据权利要求1到14当中的任一条的方法。
16.可由计算机读取的记录介质,所述记录介质存储包括指令的计算机程序,所述指令用于实施根据权利要求1到14当中的任一条的方法。
17.基于手写音乐记号来识别音乐符号的音乐符号识别装置,其包括:
-用于检测手写音乐记号的检测单元;
-用于把所述手写音乐记号预先分割成多个基本墨水片段的预先分割单元;
-基于基本墨水片段之间的空间关系把基本墨水片段分组成图形对象的分组单元,其中每一个基本墨水片段属于其中一个或更多所述图形对象;
-对于每一个图形对象确定至少一个音乐符号候选的确定单元,其中与代表所述图形对象属于所述音乐符号候选的预定分类的可能性的指派符号成本相关联,所述确定是基于从所述图形对象提取出的图形特征;以及
-用于对音乐符号候选进行解析的解析单元,其中所述解析包括:
-用于通过对所述音乐符号候选应用预定语法规则集合当中的至少一条而形成一个或更多图形的形成单元,其中每一个图形包括与被应用于由至少一个后代节点构成的集合的语法规则相对应的至少一个非终端节点,其中每一个后代节点或者是对应于音乐符号候选的终端节点,或者是与被应用于至少另一个后代节点的语法规则相对应的非终端节点;
-用于把被应用于至少两个后代节点的所应用的语法规则与代表所述应用的语法规则的相关性的空间成本相关联的关联单元,这是根据所述应用的语法规则的定义并且基于所述至少两个后代节点的图形对象之间的空间关系;以及
-基于与每一个音乐符号候选相关联的符号成本以及与每一条所应用的语法规则相关联的空间成本来选择至少一个所述图形以作为手写音乐记号的最有代表性的图形的选择单元。
18.根据权利要求17的装置,其包括输入表面,其中所述检测单元被配置成检测由用户在所述输入表面上输入的手写音乐符号。
19.根据权利要求17或18的装置,其中,所述确定单元是神经网络。

说明书全文

用于识别音乐符号的方法和装置

技术领域

[0001] 本发明涉及手写音乐记号到音乐符号的转换,并且更具体来说涉及一种基于数字格式的手写音乐记号来识别音乐符号的方法,以及一种用于实施此类方法的装置。

背景技术

[0002] 本发明可以被应用于由用户在输入设备上输入的手写音乐记号,或者被应用于先前以电子格式(例如在电子文档中)接收或存储并且出于识别音乐符号的目的被处理的手写音乐记号。
[0003] 在最近的几年里,基于与笔的交互的计算机系统(比如智能电话、口袋PC或平板PC)已经有了大量增长。在触摸屏上使用手指或触笔是非常直观的,这是因为其允许用户像在纸上一样自然的方式来进行书写或编写。
[0004] 现在存在许多能够识别由用户输入的手写记号的装备有触摸屏的输入设备。
[0005] 例如在触摸屏上实现的对于手写图画的解释(例如在线识别)需要复杂的处理,这是因为取决于当前的记号的类型、用户的格等等,这些图画可能由许多不同性质的单元构成。对于在线文档的识别可以即时发生,或者只有在检测到例如用户的明确请求之类的特定条件时才发生。即时识别系统在编写文档的同时把用户的笔划直接变换成其相应的符号表示,这需要重要的处理能
[0006] 手写音乐识别是在近年来已经取得几项进展的一个特定领域。虽然对于离线识别系统已经实现了一些改进(特别是对于应用在扫描音乐记号上的光学方法),但是用于离线识别系统的音乐符号识别在效率和用户友好性方面仍然不令人满意。
[0007] 文献US 6538187描述了一种系统,其中在音乐编辑器应用上提供音符的菜单,以使得用户点击所期望的音符或音乐符号。但是该应用存在几个缺点,比如对于无法以自然且容易的方式编写音乐符号的用户的约束。
[0008] 因此,需要一种能够更加高效地基于手写音乐记号来识别音乐符号的解决方案。对于处理由用户在例如触摸屏之类的输入设备上输入的音乐记号或者对于事先以电子格式存储以供后来处理的手写音乐记号需要更高的效率。在用户编写音乐记号的方式方面还需要更高的友好性。

发明内容

[0009] 本发明的一个目的是解决前面所提到的需求和缺陷。从本文献可以得出本发明的其他目的和优点。
[0010] 本发明提供一种通过用于根据手写音乐记号来识别音乐符号的音乐符号识别装置所实施的方法,所述方法包括:
[0011] -检测手写音乐记号;
[0012] -把所述手写音乐记号预先分割成多个基本墨片段
[0013] -基于基本墨水片段之间的空间关系把基本墨水片段分组成图形对象,其中每一个基本墨水片段属于其中一个或更多所述图形对象;
[0014] -对于每一个图形对象确定至少一个音乐符号候选,其中与代表所述图形对象属于所述音乐符号候选的预定分类的可能性的指派符号成本相关联,所述确定是基于从所述图形对象提取出的图形特征;以及
[0015] -对音乐符号候选进行解析,其中所述解析包括:
[0016] -通过对所述音乐符号候选应用预定语法规则集合当中的至少一条而形成一个或更多图形,其中每一个图形包括与被应用于由至少一个后代节点构成的集合的语法规则相对应的至少一个非终端节点,其中每一个后代节点或者是对应于音乐符号候选的终端节点,或者是与被应用于至少另一个后代节点的语法规则相对应的非终端节点;
[0017] -把被应用于至少两个后代节点的每一条语法规则与代表所述应用的语法规则的相关性的空间成本相关联,这是根据所述应用的语法规则的定义并且基于所述至少两个后代节点的图形对象之间的空间关系;以及
[0018] -基于与每一个音乐符号候选相关联的符号成本以及与每一条所应用的语法规则相关联的空间成本,选择至少一个所述图形以作为手写音乐记号的最有代表性的图形。
[0019] 本发明的有利之处在于,其考虑到符号成本和空间成本以选择最具相关性的图形,从而允许找到对应于手写音乐记号的最佳符号表示。有赖于一方面的符号成本和另一方面的空间成本的互补性,选择单元检测到与当前的手写音乐记号最具相关性的图形组合。
[0020] 音乐记号通常是根据音乐家和作曲家所熟知的标准编写规则来绘制的。本发明考虑到通常编写音乐记号所根据的具体规则和方式,以便实现最优的识别效率。
[0021] 在一个特定实施例中,所述形成步骤包括:尝试通过递归方式把所述语法规则集合当中的每一条应用于所述音乐符号候选。
[0022] 在一个特定实施例中,所述解析包括:对于每一个图形计算总成本,其中考虑到为所述图形的音乐符号候选所指派的每一项符号成本以及与应用在所述图形中的至少一条语法规则相关联的每一项空间成本。
[0023] 在一个特定实施例中,所述选择是基于针对每一个图形获得的总成本。
[0024] 在一个特定实施例中,通过至少把所述图形的每一项空间成本和符号成本相加而获得对应于每一个图形的总成本。
[0025] 在一个特定实施例中,所述选择包括:确定表示所检测到的手写音乐符号的每一个可能的图形,并且选择具有最低总成本的图形。
[0026] 在一个特定实施例中,所述方法包括:在所述音乐符号识别装置的显示器上显示至少一个所选图形的符号候选。
[0027] 在一个特定实施例中,所显示的每一个符号候选取代呈现在所述显示器上的相应的图形对象。
[0028] 在一个特定实施例中,所述方法包括:在所述预先分割之前对所述检测到的手写音乐符号进行规范化。通过向所检测到的手写音乐记号应用所述规范化允许独立于初始书写风格始终如一地对其进行渲染
[0029] 在一个特定实施例中,所述确定至少一个音乐符号候选是通过神经网络来实施的。学习例如神经网络之类的分类器的能力可以显著改进所述确定步骤中的分类效率。可以训练确定单元学习不同人的不同风格。
[0030] 在一个特定实施例中,每一条语法规则在适用时定义:
[0031] -音乐符号或音乐符号群组与至少一个非终端节点之间的预定关联;以及[0032] -如果在所述关联中存在至少两个后代节点,则作为对应于所述后代节点的图形对象的彼此空间关系的函数定义代表所述语法规则的相关性的空间成本的数值。
[0033] 在一个特定实施例中,所述方法包括:基于被选择为对于所检测到的手写音乐符号最具代表性的每一个图形而产生解析树。
[0034] 在一个特定实施例中,对于所述音乐符号候选的所述确定包括提取出所述图形对象的静态图形特征和动态图形特征的至少其中之一,所述确定是基于所述提取的结果。
[0035] 在一个特定实施例中,在检测步骤中,所述音乐记号识别装置检测由用户在所述音乐记号识别装置的输入表面上输入的所述手写音乐符号。
[0036] 在一个特定实施例中,根据本发明的用于识别音乐符号的方法的各个步骤由计算机程序指令规定。
[0037] 因此,本发明还提供一种记录介质上的计算机程序,该计算机程序被安排成由音乐符号识别装置来实施,并且更一般来说是由计算机实施,该计算机程序包括适于实施如前面所定义的用于识别音乐符号的方法的指令。
[0038] 本发明的计算机程序可以通过任何编程语言来表达,并且可以具有源代码、对象代码或者源代码与对象代码之间的任何中间代码的形式,从而例如具有部分编译形式或者具有任何其他适当的形式。
[0039] 本发明还提供一种可由音乐符号识别装置读取的记录介质,或者更一般来说可由计算机读取,该记录介质包括如前面所提到的计算机程序指令。
[0040] 前面提到的记录介质可以是能够存储计算机程序的任何实体或设备。举例来说,所述记录介质可以包括存储装置,比如ROM存储器(CD-ROM或者实施在微电子电路中的ROM),或者例如软盘硬盘之类的磁性存储装置。
[0041] 本发明的记录介质可以对应于可传输介质,比如电信号或光学信号,其可以通过电缆或光缆或者通过无线电或者任何其他适当的手段来传送。根据本发明的计算机程序特别可以从因特网或者类似的网络下载。
[0042] 或者,所述记录介质可以对应于其中加载计算机程序的集成电路,所述电路适于执行本发明的方法或者在本发明的方法的执行过程中被使用。
[0043] 本发明还提供一种基于手写音乐记号来识别音乐符号的音乐符号识别装置,其包括:
[0044] -用于检测手写音乐记号的检测单元;
[0045] -用于把所述手写音乐记号预先分割成多个基本墨水片段的预先分割单元;
[0046] -基于基本墨水片段之间的空间关系把基本墨水片段分组成图形对象的分组单元,其中每一个基本墨水片段属于其中一个或更多所述图形对象;
[0047] -对于每一个图形对象确定至少一个音乐符号候选的确定单元,其中与代表所述图形对象属于所述音乐符号候选的预定分类的可能性的指派符号成本相关联,所述确定是基于从所述图形对象提取出的图形特征;以及
[0048] -用于对音乐符号候选进行解析的解析单元,其中所述解析包括:
[0049] -用于通过对所述音乐符号候选应用预定语法规则集合当中的至少一条而形成一个或更多图形的形成单元,其中每一个图形包括与被应用于由至少一个后代节点构成的集合的语法规则相对应的至少一个非终端节点,其中每一个后代节点或者是对应于音乐符号候选的终端节点,或者是与被应用于至少另一个后代节点的语法规则相对应的非终端节点;
[0050] -用于把被应用于至少两个后代节点的所应用的语法规则与代表所述应用的语法规则的相关性的空间成本相关联的关联单元,这是根据所述应用的语法规则的定义并且基于所述至少两个后代节点的图形对象之间的空间关系;以及
[0051] -基于与每一个音乐符号候选相关联的符号成本以及与每一条所应用的语法规则相关联的空间成本来选择至少一个所述图形以作为手写音乐记号的最有代表性的图形的选择单元。
[0052] 应当提到的是,前面参照根据本发明的用于识别音乐符号的方法所定义的各个实施例可以类似地关于本发明的音乐符号识别装置来实施。此外,前面参照用于识别音乐符号的方法的各个实施例所阐述的优点和评论类似地适用于根据本发明的音乐符号识别装置的各个实施例。
[0053] 在一个特定实施例中,所述装置包括输入表面,其中所述检测单元被配置成检测由用户在所述输入表面上输入的手写音乐符号。
[0054] 在一个特定实施例中,所述确定单元是神经网络。附图说明
[0055] 通过阅读后面仅出于非限制性和说明性目的而给出的关于一个优选实施例的描述并且从附图将会更加清楚地认识到本发明的其他特性和优点,其中:
[0056] -图1是根据本发明的一个特定实施例的音乐符号识别装置的外部表示;
[0057] -图2是示出了根据本发明的一个特定实施例的图1的音乐符号识别装置的主要硬件组件的方图;
[0058] -图3是示出了根据本发明的一个特定实施例的图1的音乐符号识别装置的主要功能单元的方块图;
[0059] -图4、5和6示意性地示出了音乐符号识别装置的检测单元、预先分割单元和分组单元如何根据本发明的一个特定实施例来操作;
[0060] -图7是根据本发明的一个特定实施例的列出音乐符号候选和对应的指派符号成本的表;
[0061] -图8A到8F示出了由根据本发明的一个特定实施例的音乐符号识别装置的形成单元所形成的各种图形;以及
[0062] -图9是示出了根据本发明的一个特定实施例的用于识别音乐符号的方法的主要步骤的流程图;以及
[0063] -图10示出了根据本发明的一个特定实施例的关于空间成本的估计。

具体实施方式

[0064] 本发明涉及手写音乐记号到音乐符号的转换,并且更具体来说涉及一种基于数字格式的手写音乐记号来识别音乐符号的方法,以及一种用于实施此类方法的装置。
[0065] 正如前面所表面的那样,本发明可以被应用于由用户在输入设备上输入的手写音乐记号,或者被应用于先前以电子格式(例如在电子文档中)接收或存储以供后来处理的手写音乐记号。
[0066] 在本文献中,术语“音乐记号”指的是用户在编写音乐时可以绘制的任何种类的记号或乐谱。音乐记号例如可以是指四分音符(或“crotchet”)、八分音符、二分音符(或“minim”)、全音符、乐调(高音谱号、低音谱号…)、单拍子或复拍子、四分休止符、变音符号(降号、升号、附点)等等。每一个音符的音高可以取决于其在五线谱线(如果存在的话)上的位置。但是应当理解的是,使用音乐五线谱对于实施本发明并不是强制性的。
[0067] 音乐记号通常是根据音乐家和作曲家所熟知的标准编写规则来绘制的。本发明考虑到通常编写音乐记号所根据的具体规则和方式,以便实现最优的识别效率。
[0068] 现在将参照图1到9来描述本发明的一个特定实施例。
[0069] 图1描绘出根据本发明的一个特定实施例的适合于实施音乐符号识别的示例性音乐符号识别装置2。音乐符号识别装置2在本例中是手持式触摸屏设备(比如平板计算机),并且为了简单起见在这里将被称作“终端2”。
[0070] 应当提到的是,虽然在这里解释了实施在平板计算机上的示例性实施例,但是本领域技术人员将认识到,本发明可以被实施在具有支持这里所描述的处理的适当的处理器和存储器设备的任何计算机类装置上。本发明的音乐符号识别装置可以是个人数字助理(PDA)、移动电话、膝上型计算机或者台式计算机等等。
[0071] 在本例中,终端2包括触摸屏4(或数字化器),其允许用户在编写音乐时在其上输入手写音乐记号8。触摸屏4可操作来显示由用户输入的手写音乐记号以及将由根据本实施例的终端2实施的音乐符号识别处理的结果。
[0072] 可以通过把触笔6、手指等等施加在触摸屏4的表面上来实施音乐记号输入。该触摸屏4能够捕获由用户利用触笔6在其上作出的移动。正如后文中更加详细地解释的那样,触笔6与触摸屏4之间的接触导致生成数字墨水的笔划。由用户绘制的各种墨水笔划将由终端2处理以便转换成相应的音乐符号。
[0073] 应当提到的是,本发明的音乐符号识别装置不一定包括触摸屏,或者更一般来说是用于输入音乐记号8的用户输入接口
[0074] 音乐符号识别装置可以获得先前以电子格式(例如在电子文档中)存储的音乐记号,并且将其所述音乐记号转换成等效的音乐符号。或者,音乐符号识别可以处理以电子格式接收自终端2外部的音乐记号。
[0075] 图2示出了终端2的示例性硬件架构。在该例中,终端2给出计算机的硬件结构。具体来说,终端2包括控制器10(例如处理器)、RAM存储器12、ROM存储器14、可重写非易失性存储器16(例如EEPROM类型)、用户接口18以及允许终端2与外部设备(例如基于WiFi技术)进行通信的通信接口20。
[0076] 控制器10通过总线线路与终端2的每一个其他组件协作。
[0077] 终端2的可重写非易失性存储器16构成根据本发明的一个特定实施例的记录介质。存储器16包括根据本发明的一个特定实施例的计算机程序P,该计算机程序包括用以实施根据本发明的一个特定实施例的方法的指令。后面将尤其参照图9的流程图来详细描述该方法的主要步骤(S2到S18)。
[0078] 通过在后面参照图4-9,存储在存储器16中的分类CL以及语法规则集合GR的使用和目的将变得更加显而易见。
[0079] 用户接口18包括用于允许用户输入手写音乐记号8的输入单元18A,以及允许终端8显示手写音乐记号8或者作为本发明的音乐符号识别的结果而获得的相应音乐符号的输出单元18B。在本发明的范围内可以设想到除了触摸屏之外的其他输入和输出单元。
[0080] 在本实施例中,触摸屏4同时形成输入表面和显示表面。可以设想到其中输入表面与显示表面彼此分开的其他实施例(例如不同于屏幕的触摸板)。
[0081] 正如前面所提到的那样,包括用户接口18对于实施本发明并不是强制性的。
[0082] 图3是示出了根据本发明的一个特定实施例的在运行计算机程序P时由控制器10实施的功能单元的功能图。
[0083] 在本例中,终端2包括存储单元24,其可以被用来以电子格式存储手写音乐记号8。为此,存储单元24可以存储包括一个或更多手写音乐记号的电子文档。存储单元24例如可以通过在控制器10的控制下操作的存储器16来实施。
[0084] 检测单元26可操作来检测手写音乐记号(或其一部分)。所检测到的手写音乐记号可以是源自多种来源。检测单元26可以检测用户通过用户接口18输入的手写音乐记号。或者,检测单元26可以从存储单元24取回手写音乐记号8,并且/或者从终端2外部(例如通过通信接口20)接收手写音乐记号8。每一个手写音乐记号例如通过一组(x,y)坐标来表示。虽然并不要求如此,但是优选地显示五线谱线以便在用户编写音乐时为其提供视觉帮助。
[0085] 预先分割单元28可操作来实施把所检测到的手写音乐记号预先分割成多个基本墨水片段。正如后面将更加详细地看到的那样,基本墨水片段(其在后文中也被称作墨水片段)定义手写音乐记号的轮廓的任何基本部分。基本墨水片段例如通过安排在所述记号的轮廓上的两个相继的邻近分割点来界定。每一个墨水片段表示一个手写音乐记号或者其一部分。所生成的墨水片段后来被用于确定适当的音乐符号候选。
[0086] 分组单元30可操作来基于墨水片段之间的空间关系把墨水片段分组成图形对象。每一个墨水片段可以属于一个或更多图形对象。
[0087] 确定单元(或分类器)32可操作来对于由分组单元30形成的每一个图形对象与指派符号成本相关联地确定至少一个音乐符号候选。由确定单元32指派的每一项符号成本代表相应的图形对象属于存储在存储器16中的分类CL当中的所确定的音乐符号候选的预定分类的可能性。
[0088] 在该例中,符号成本越高,音乐符号候选是对应于相应图形对象的良好候选的概率就越低。或者,可以使用随着分类匹配的可能性增大而增大的符号分数来取代符号成本SC。可以通过函数(-log)把分数转换为成本。
[0089] 由确定单元32实施的确定是基于其从经历符号识别处理的图形对象中提取出的图形特征。
[0090] 解析单元34可操作来处理确定单元32的输出,从而把手写音乐记号转换成对于用户具有明确已知的含义的适当的音乐符号。在本实施例中,解析单元包括以下三个单元(或子单元):
[0091] -形成单元36;
[0092] -关联单元38;以及
[0093] -选择单元40。
[0094] 形成单元36可操作来通过把来自(存储在存储器16中的)预定语法规则集合GR的至少一条语法规则应用于由确定单元32生成的音乐符号候选而形成一个或更多图形。正如后文中更加详细地解释的那样,这些图形当中的每一个包括与被应用于由至少一个后代节点构成的集合的语法规则相对应的至少一个非终端节点。每一条语法规则被定义成将被应用于一个或更多后代节点。每一个后代节点或者是对应于音乐符号候选的终端节点,或者是与被应用于至少另一个后代节点的语法规则相对应的非终端节点。
[0095] 终端节点不具有任何后代,而终端节点则在图形中具有至少一个后代。
[0096] 正如前面所表明的那样,取决于其定义,语法规则可以适用于一个或更多后代节点。关联单元38可操作来把在图形中被应用于至少两个后代节点的每一条语法规则与代表所应用的语法规则的相关性的空间成本相关联。所述空间成本是根据所应用的语法规则的定义并且基于所述至少两个后代节点的图形对象之间的空间关系而确定的。
[0097] 选择单元40可操作来基于与每一个音乐符号候选相关联的符号成本以及与每一条所应用的语法规则相关联的空间成本选择至少一个图形以作为正被处理的手写音乐记号的最有代表性的图形。
[0098] 现在将参照图4到9来描述由终端8实施的用于识别音乐符号的方法的一个示例性实施例的主要步骤S2到S18。通过在图4到9中示出的示例性实施例,终端2的前述功能单元的操作将更加显而易见。
[0099] 在该例中,检测单元26检测(S2)如图4中所示的手写音乐记号MA。在本例中可以看到,所检测到的音乐记号MA相继地包括:一个降号、两个八分音符以及一个半音符。这些音乐记号由五线谱线50上的数字墨水表示。
[0100] 音乐记号MA可以由用户通过用户接口18的输入单元18A输入,从存储单元24取回,或者直接从终端2的外部接收(或者其任意组合)。在任何情况下,存储单元24都可以被用来存储手写音乐记号或者在实施根据本发明的音乐符号识别时的任何中间或最终数据结果。
[0101] 所述两个八分音符分别由实心的椭圆形音符头以及从音符头的右侧向上的直线无符尾(flagless)的符干(stem)形成。两个符干通过符梁(beam)连接。所述半音符利用空心的椭圆形音符头以及不具有符尾的向上的直线音符干来标记。
[0102] 如果必要的话,在一个优选实施例中,终端2对所采集的数字墨水笔划应用可选的预处理(S4)以便对其进行规范化,并且从而独立于初始书写风格始终如一地对这些笔划进行渲染。关于是否应用此类预处理的决定以及在肯定的情况下关于该预处理的性质的决定可以例如取决于对于实施音乐符号识别所需要的质量水平。
[0103] 该规范化S4特别可以包括以下变换当中的任一项(或者其任意组合):
[0104] -基于信号居中或者关于五线谱线位置的位置规范化,从而允许对于输入信号的第一均匀化;
[0105] -关于五线谱线间或者关于任何其他参考尺寸的尺寸规范化;
[0106] -基于例如B样条或Bezier曲线拟合之类的平滑算法的信号平滑,这例如在低空间分辨率的情况下是有用的;以及
[0107] -点内插,这例如在低采集分辨率的情况下是有用的。
[0108] 本领域技术人员将认识到,该预处理可以是基于未在前面列出的任何其他规范化标准。
[0109] 如图5中所示,一旦预处理S4完成,预先分割单元28就实施(S6)把手写音乐记号MA预先分割成多个基本墨水片段。为此,把音乐记号AM的数字墨水笔划分割成基本墨水片段SG1到SG8。这些墨水片段SG构成可以由终端2处理以用于后来的音乐符号识别的最小墨水部分。
[0110] 预先分割S6是基于检测定义用于把笔划分解成其构成片段的位置的特定点。这样的特定点例如可以对应于两个墨水笔划之间的交叉点、墨水笔划的斜率的改变、记号中的特定等等。可以理解的是,可以使用多种技术来把手写音乐记号分解成基本墨水片段。本领域技术人员将会知道如何实施这样的预先分割,因此在这方面不提供进一步的细节。
[0111] 在本例中,降号记号被分解成墨水片段SG1和SG2。此外,所述两个八分音符被分解成墨水片段SG3到SG7,其分别对应于两个实心音符头、两个相应的符干以及其间的符梁。所述半音符被分解成墨水片段SG8和SG9。但是在该特定实例中也可以设想到其他墨水分割。
[0112] 如图6中所示,分组单元30随后把基本墨水片段SG1到SG9分组(S8)成由至少一个墨水片段构成的特定集合,每一个集合形成在本例中被称作GO1到GO9的图形对象GO。每一个图形对象构成在此阶段对于终端2不具有符号含义的实体。这些实体将在后来由终端2处理以便转换成适当的音乐符号。
[0113] 例如在该例中,两个第一墨水片段SG1和SG2被分组形成表示降号的第一图形对象GO1。
[0114] 正如前面所解释的那样,每一个墨水片段SG1-SG9属于其中一个或更多所生成的图形对象GO1-GO9。图形对象GO5例如包含图形对象GO6和GO7连同连接两个墨水片段SG5和SG6的符梁。但是取决于被用于识别音乐符号的实现方式,也可以作出其他分组选择。
[0115] 分组操作S8是基于基本墨水片段之间的空间关系来实施的。在该特定实例中,分组单元30基于以下标准的至少其中之一把墨水片段SG1-SG9分组成图形对象GO1-GO9:
[0116] -墨水片段之间的距离;
[0117] -墨水片段的相对水平和/或垂直位置;以及
[0118] -可以在墨水片段之间作出区分的任何相关的墨水属性(例如尺寸)。
[0119] 取决于每一种特定情况下的需求,当然可以应用任何其他适当的标准。
[0120] 在步骤S8完成之后,确定单元(或分类器)32对于由分组单元30生成的每一个图形对象GO1-GO9与指派符号成本SC相关联地确定(S10)至少一个音乐符号候选MSC。确定步骤S10的结果可以通过如图7中所示的表的形式来表示,该表列出了由确定单元32对于其中每一个所述图形对象GO1到GO9所确定的音乐符号候选MSC和对应的指派符号成本SC。
[0121] 每一项指派符号成本SC代表对应的图形对象属于存储在存储器16中的分类CL当中的预定分类的可能性。在给出特定的图形对象作为输入的情况下,考虑到最有可能的分类建立符号候选列表。
[0122] 在该例中,成本SC越低,图形对象与预定分类相对应的可能性越高。或者,可以使用当分类匹配的可能性增大时增大的符号分数来取代符号成本SC。正如前面所表明的那样,可以通过函数(-log)把分数转换为成本。
[0123] 编程者当然可以创建或删除分类,并且适配其定义以满足每一种特定情况的需求。
[0124] 一个分类在至少一条图形特征标准方面规定绘制特定音乐符号的一种或多种方式。其结果是,确定单元32可以从预定分类学习基于图形对象的图形特征来识别音乐符号。
[0125] 一个分类对应于可由确定单元32识别的其中一个音乐符号(例如符干、黑色音符头、白色音符头、降号标记等等)。符号候选是对应于特定图形对象的分类的一个实例。
[0126] 确定单元32基于从其中每一个图形对象GO1-GO9提取出的图形(或几何)特征来实施所述确定S10。确定单元32把每一个图形对象的图形特征与预定集合CL当中的分类进行比较并且寻找匹配。如果给定的图形对象的图形特征(至少在某种程度上)与特定分类的定义相符,则确定单元32推断所述给定的图形对象可能属于该特定分类,并且随后把该分类的符号候选添加到图形对象的候选列表。
[0127] 确定S10例如可以是基于图形对象的预定静态图形特征、图形对象的预定动态图形特征或者全部二者。
[0128] 在一个特定实施例中,音乐符号候选的确定步骤S10包括提取所述图形对象GO的静态图形特征和动态图形特征的至少其中之一,该确定S10是基于所述提取的结果。
[0129] 动态信息例如可以从触笔6的轨迹提取,并且是基于例如形成图形对象的墨水笔划的位置、方向和曲率之类的信息。另一方面,静态信息可以例如从墨水的位图表示计算,并且通常是基于投影和/或直方图。
[0130] 从图7中示出的结果可以看到,对于每一个图形对象可以确定一个或几个音乐符号候选。例如对于图形对象GO2,音乐符号候选明显是不适当的。其结果是,由确定单元32指派的相应符号成本SC21非常高,这意味着音乐符号候选MSC21是对应于图形对象GO2的良好候选的概率很低。
[0131] 在某些情况下,确定单元32可能不会找到特定图形对象可能属于的任何分类,因此不会输出对应的音乐符号候选。如果分组单元30对于图形对象的定义较差,则例如可能会发生这种情况。
[0132] 在一个特定实施例中,确定单元32是分类器。出于非限制性的说明性目的,确定单元32可以是基于以下手段的至少其中之一:
[0133] -Kohonen神经网络;
[0134] -支持矢量机;
[0135] -内核方法;
[0136] -隐藏Markov模型;
[0137] -神经网络;
[0138] -其他模式识别范例。
[0139] 例如使用神经网络分类器来识别从基于笔的在线输入机制获得的音乐符号对于本领域技术人员是众所周知的,因此在本文献中将不作详细描述。更具体来说,过去已经设想到针对音乐符号识别的基于神经网络(ANN)的方法。ANN可以被用作必须“学习”通过训练过程来识别模式的模式识别的统计方法。在一个特定实施例中,在训练阶段期间调节通过网络节点之间的“权重”来表达的ANN的参数。一旦经过训练,可以向网络呈现其将能够处理和分类的新的音乐记号,尽管其之前可能从未确实遇到过任何此类内容。
[0140] 这些ANN系统的学习能力可以显著改进步骤S10中的分类效率。确定单元32可以被训练来学习不同人的不同风格。
[0141] 一种被广泛使用的ANN的形式是多层感知(MLP),其可以在本实施例中被用作确定单元34以实施确定步骤S10。
[0142] 在一个特定实施例中,在确定步骤S10的阶段,一旦由确定单元32给出的其中一些音乐符号候选具有高于或者相反地低于预定阈值的符号成本,则可以拒绝或确认这些音乐符号候选。在一个特定实施例中,确定单元32被配置成对具有非常低的概率的音乐符号候选实施删减,也就是例如具有高于预定阈值的符号成本的音乐符号候选。所述删减允许减少将要处理的数据的数量,从而提高速度并且提高资源使用效率。应当理解的是,使得有可能保留或者拒绝音乐符号候选的该阈值可以由用户例如基于其对于特定识别处理所期望实现的识别的相关性水平来配置。
[0143] 解析单元34随后对音乐符号候选实施解析(S12),以便对于每一个图形对象确定最适当的音乐符号候选。在该例中,该解析操作S12包括将在后面进一步描述的步骤S14、S16和S18。
[0144] 更具体来说,形成单元36通过对先前由确定单元32确定的音乐符号候选应用预定语法规则集合GR当中的至少一条而形成(S14)一个或更多图形。
[0145] 图8A到8E示出了在本例中由形成单元36形成(S14)的示例性图形GR1到GR9。
[0146] 正如前面所表明的那样,其中每一个图形GR1-GR9包括对应于被应用于由至少一个后代节点构成的集合的语法规则的至少一个非终端节点。每一个后代节点或者是对应于先前由确定单元32确定的其中一个音乐符号候选的终端节点(也就是没有后代的节点),或者是与被应用于至少另一个后代节点的(集合GR当中的)语法规则相对应的非终端节点(也就是具有至少一个后代节点的节点)。
[0147] 从图8A到8E中的示例性图形可以看到,取决于其定义,语法规则可以适用于一个或者多个后代节点。
[0148] 在本实施例中,形成单元36尝试把存储在存储器16中的预定集合GR当中的每一条语法规则应用于先前通过确定单元32获得的音乐符号候选MSC。
[0149] 在一个特定实施例中,形成单元36通过递归方式尝试把预定集合GR当中的每一条语法规则应用于每一个音乐符号候选。正如已经提到的那样,每一条语法规则可以被应用于一个或几个后代节点。在一个特定实施例中,形成单元36尝试把每一条语法规则应用于如在所述语法规则的定义中规定的一定数目的后代节点。
[0150] 特定的语法规则可能或者可能不适用于由至少一个音乐符号候选构成的特定集合。如果其适用,则形成单元36根据所述语法规则输出图形。否则,不输出图形。
[0151] 在一个特定实施例中,在步骤S14中应用的每一条语法规则定义特定音乐符号或音乐符号群组与至少一个非终端节点的预定关联。
[0152] 正如前面所表明的那样,形成单元36通过对先前由确定单元32确定的音乐符号候选应用至少一条语法规则而形成(S14)一个或更多图形。形成单元36构造图形的方式可以根据每一种情况而不同,并且可以由编程者或用户进行适当地适配。图8A到8E仅仅是出于非限制性的说明性目的而提供的。出于解释实现方式实例的目的,在附图中仅仅示出了几个可能的图形。但是应当理解的是,基于本发明的原理,在该特定实例中可以形成其他图形。
[0153] 如图8A中所示,形成单元36通过对MSC11应用“身份”规则生成图形GR1,并且通过对MSC12应用该相同的身份规则以相同的方式生成图形GR2。图形GR1由对应于在本例中应用的身份规则的非终端节点ND1以及在本例中是对应于音乐符号候选MSC11的终端节点的一个后代节点形成。类似的评论适用于由非终端ND2和一个后代终端节点DN21形成的图形GR2。
[0154] 在该实施例中,仅适用于一个后代节点的身份规则没有形成音乐符号候选的关联。所述身份规则把特定的音乐符号候选识别成本身有意义的实体。
[0155] 如图8B中所示,形成单元36还通过对MSC12和MSC32应用“变音”规则生成图形GR3,并且通过对MSC12和MSC31应用变音规则以相同的方式生成图形GR4。图形GR3由对应于在本例中应用的变音规则的非终端节点ND3以及在本例中是分别对应于MSC12和MSC32的两个终端节点的两个后代节点形成。类似的评论适用于由非终端节点ND4以及两个后代终端节点DN41和DN42形成的图形GR4。
[0156] 在本例中,变音规则被设计成把例如降号之类的变音与音符相关联。根据变音规则的定义,变音必须处在将要变音的音符之前。
[0157] 此外,关联单元38把被应用于至少两个后代节点的每一条语法规则与代表所应用的语法规则的相关性的空间成本PC相关联(S16),这是根据所应用的语法规则的定义并且基于所述至少两个后代节点的图形对象之间的空间关系。
[0158] 在该特定实例中,关联单元38基于以下标准的至少其中之一确定空间成本PC:
[0159] -图形对象之间的距离;
[0160] -图形对象的相对水平和/或垂直位置;以及
[0161] -可以在墨水片段之间作出区分的任何相关的墨水属性(例如尺寸)。
[0162] 取决于每一种特定情况下的需求,当然可以应用任何其他适当的标准。
[0163] 形成单元36和关联单元38或者可以被视为两个分开的功能单元,或者作为可操作来实施形成步骤S14和关联步骤S16的同一个功能单元。可以按照任何适当的顺序来实施形成和关联步骤S14、S16。举例来说,一旦形成图形就计算和指派空间成本PC。或者,可以在相同的阶段对于先前形成的各个图形计算空间成本PC。
[0164] 正如在图8A中可以看到的那样,身份规则被设计成仅适用于一个后代终端节点,因此关联单元36不向图形GR1和GR2指派空间成本PC。
[0165] 但是如图8B中所示,关联单元38确定空间成本PC1和PC2,并且把图形GR3和GR4分别与空间成本PC3和PC4相关联(S16)。
[0166] 在一个特定实施例中,每一条语法规则在适用时定义:
[0167] -音乐符号或音乐符号群组与至少一个非终端节点之间的预定关联;以及[0168] -如果在所述关联中存在至少两个后代节点,则作为对应于所述后代节点的图形对象的彼此空间关系的函数定义代表所述语法规则的相关性的空间成本的数值。
[0169] 在一个特定实施例中,从分隔语法规则内部的图形对象的距离估计空间成本。举例来说,如图10中所示,符干规则的成本函数是基于符干与音符头之间的水平间隙dx,以及符干的底部与音符头的中部之间的垂直对准差异dy。在这种情况下,基于下面的表达式来计算空间成本PC:
[0170] Cost_stemRule=f(dx)+f(dy)
[0171] 如图8C中所示,形成单元36还形成(S14)图形GR5和GR6。通过对两个后代节点应用“符干”规则而形成图形GR5,也就是:
[0172] -对应于被应用于MSC12和MSC32的变音规则的图形GR3的非终端节点ND3;以及[0173] -对应于音乐符号候选MSC41的终端节点DN51。
[0174] 换句话说,图形GR5中的符干规则被应用于在图形GR3中应用的变音规则的结果并且被应用于MSC41。在本例中,符干规则被定义成把音符头与符干相关联以便将其关联识别成音符。
[0175] 此外,关联单元38把空间成本PC5与图形GR5的符干规则(非终端节点ND5)相关联(S16)。
[0176] 通过对图形GR4的非终端节点ND4并且对与MSC41相对应的后代终端节点DN61应用符干规则,以类似的方式形成图形GR6。由关联单元38把空间成本PC6指派(S16)给图形GR6中的非终端节点ND6的符干规则。
[0177] 从前面的实例可以理解,形成单元36可操作来从音乐符号候选构造各种图形,以便根据语法规则的可用集合GR在其间形成最具相关性的关联。
[0178] 如图8D中所示,形成单元在本例中通过对图形GR6并且对图形GR8的非终端节点应用“符梁起始”规则而形成(S14)图形GR7。通过对MSC51并且对图形GR9的非终端节点应用“符梁结束”规则而形成图形GR8。通过对MSC71并且对MSC61应用符干规则而形成图形GR9,以便识别由实心音符头和向上的符干构成的节点。可以理解的是,图形GR8的符梁起始规则和符梁结束规则把MSC51识别成连接两个音符的符梁。
[0179] 由关联单元38为每一个图形GR7、GR8和GR9适当地指派(S16)对应的空间成本PC7、PC8和PC9。
[0180] 此外,如图8E中所示,形成单元36通过对MSC81和MSC91应用符干规则而形成图形GR10,并且通过对MSC82和MSC91应用符干规则而形成图形GR11。由关联单元38把空间成本PC10和PC11分别与图形GR10和GR11(也就是与相应的语法规则)相关联(S16)。
[0181] 在步骤S18中,基于与每一个音乐符号候选相关联的符号成本以及与每一条所应用的语法规则相关联的空间成本,选择单元40把由形成单元36形成的至少一个图形选择(S18)成手写音乐记号MA的最具代表性的图形。
[0182] 如图8F中所示,形成单元36在本例中形成(S14)完整的图形GR12,其也被称作“解析树”,这是因为其代表图4中示出的整个手写音乐记号MA。通过对前面提到的图形GR7和GR10应用“水平对”规则而形成图形GR12。由关联单元38把通过水平对规则形成的非终端节点与空间成本PC12相关联。
[0183] 在该例中,选择单元40选择(S18)图形GR12作为手写音乐记号MA的最具代表性的图形。这一选择是基于以下各项而作出的:
[0184] -与图形GR12的每一个音乐符号候选相关联的符号成本SC,也就是SC12、SC31、SC41、SC51、SC71、SC61、SC81和SC91;以及
[0185] -与被应用来形成图形GR12的每一条语法规则相关联的空间成本PC,也就是PC4、PC6到PC10和PC12。
[0186] 尽管是优选的,但是生成最终的解析树以使得选择单元40选择最适当的图形的做法并不是强制性的。选择单元40可以选择组合起来表示手写音乐记号MA的符号版本的多个更小的图形。
[0187] 本发明的有利之处在于,其考虑到符号成本和空间成本以选择最具相关性的图形,从而允许找到对应于手写音乐记号的最佳符号表示。有赖于一方面的符号成本和另一方面的空间成本的互补性,选择单元40检测到与当前的手写音乐记号最具相关性的图形组合。
[0188] 在一个特定实施例中,选择单元40对于由形成单元36形成的每一个图形(或者在如前面所解释的那样实施删减时,可能是对于由形成单元36保留的每一个图形)计算总成本TC,其考虑到为这些图形的音乐符号候选MSC指派的每一项符号成本SC以及关联到在所述图形中应用的语法规则的每一项空间成本PC(如果存在的话)。
[0189] 在一个优选实施例中,选择单元40根据对于每一个图形获得的总成本TC选择(S18)最有代表性的图形。
[0190] 在一个特定实施例中,通过至少把所述图形的每一项空间成本PC和符号成本SC相加而获得对应于每一个图形的总成本TC。举例来说,可以如下计算图形12的总成本TC12:
[0191] TC12=TSC12+TPC12
[0192] 其中,TSC12(对应于GR12的总符号成本)和TPC12(对应于GR12的总空间成本)使得:
[0193] TSC12=SC12+SC31+SC41+SC51+SC61+SC71+SC81+SC91;以及
[0194] TPC12=PC4+PC6+PC7+PC8+PC9+PC10+PC12。
[0195] 在前面的实例中,通过在不应用任何加权(也就是所有权重都等于1)的情况下把每一项符号成本和空间成本相加来计算总成本。在一种变型中,可以适当地对该总和的每一项成本进行加权,以便为总成本TC12的计算中的每一项成本给出更多或更少的重要性。可以由用户或编程者对权重系数进行适配,以便对于每一种情况优化识别系统。
[0196] 在一个特定实施例中,选择单元40确定表示所检测到的手写音乐记号的每一个可能的图形,并且选择具有最低总成本的一个或更多图形。回到前面的实例,根据该特定实施例,由选择单元40选择图形GR12,这是因为其与其他所形成(或保留)的图形的总成本相比具有最低的总成本TC12。
[0197] 在一个特定实施例中,所述方法还包括由所述终端2显示包括在由选择单元40选择的图形中的一个或更多符号候选。例如由终端2在图2中示出的输出单元18B上(例如在图1中示出的触摸屏4上)按照适当的顺序显示该选择的结果。
[0198] 在本发明中可以设想到显示所选择的图形的各种方式。在一个特定实施例中,所显示的每一个符号候选取代呈现在显示器上的相应的图形对象。其结果是,用户可以在先前绘制给定手写音乐记号的位置处看到由终端2识别的相应的音乐符号。
[0199] 优选的是,所述音乐符号识别装置能够并且被配置成实时(或者接近实时)地显示所选择的音乐符号候选,以便为用户提供他的笔迹到适当的标准化音乐符号的瞬时转换。
[0200] 优选地根据预先定义的设定参数(字体尺寸、颜色等等)来显示所选择的音乐符号。
[0201] 在一个特定实施例中,选择单元40还使用统计语言模型来选择最适当的图形。语言模型允许基于先前的统计知识来确定音乐符号序列的概率。该语言模型例如可以基于用户输入历史和/或定义在音乐乐谱的大型数据库上估计的被允许或禁止的语言关联的规则集合来鼓噪。在一个特定实施例中,选择单元40计算对应于被应用于至少两个音乐符号候选的一条或更多条语法规则的语言成本LC。如果使用语言模型,则选择单元40被配置成除了符号和空间成本之外还考虑到每一个所计算的语言模型LC。通过使用语言模型允许进一步改进本发明的音乐符号识别处理的效率。
QQ群二维码
意见反馈