首页 / 专利库 / 广播 / 数字视频广播 / 世界文百语转换装置和方法

世界文百语转换装置和方法

阅读:915发布:2021-08-09

专利汇可以提供世界文百语转换装置和方法专利检索,专利查询,专利分析的服务。并且世界文百语转换装置和方法属于计算机语言文字信息处理领域。它包括:A)意群输入装置;B)世界文生成编辑装置;C)文稿顾问系统;D)浏览阅读器等组成部分。它以属于人类思维活动单元的意群、在各种语言文字里相应的意群文字串、解决了各种语言词汇的语义表达一致性问题的意群代码为元素动作。不管人们使用哪种语言文字在本 发明 提供的装置上书写,都生成以意群代码为元素的世界文。这世界文不仅含有语法、语义信息、节省存贮空间,便于进行高新的 人工智能 处理;还能响应人们所需转换成各种不同的语言文字显示输出。从而推倒人类的语言障碍,用世界文建立 站点 、发布信息、文件贮存、传输通讯等,可供全人类阅读、利用。,下面是世界文百语转换装置和方法专利的具体信息内容。

1.一种包括CPU、输入单元、存贮单元、文本生成编辑单元、文本文件、显示输出单元、网络的语言文字信息处理装置和方法,它包括:A)意群输入装置、B)世界文生成编辑装置、C)文稿顾问系统、D)浏览阅读器等部件,其特征在于:a.作为本装置部件的A含有意群库,意群库至少有意群文字串、意群代码两个字段,相同意群的意群文字串和意群代码,共处意群库相同记录的各自字段;b.作为上述装置部件的A主要由于意群库所含意群文字串不同而具有不同语言文字版本,在响应用户面向意群的编码击键时,借助于意群库,给出相应的意群文字串和意群代码;c.作为上述装置部件的B接受部件A的给出,将意群文字串进行显示、文本编辑的同时,将意群代码为元素生成世界文的雏型文件;d.作为上述装置部件的C在用户作者进行文稿校改时,对雏型文件逐句进行顾问,分析句型和句子成分并给以标识性显示,对不规范内容与用户作者进行人机对话,接受修改、确认,自动把有关信息纳入意群代码义法段或插入标识代码而使雏型文件成为世界文;e.作为上述装置部件的D具有各种语言版本,它们读入世界文,什么语言版本就将其转换成什么语言文字显示输出;f.上述装置生成和操作的世界文由意群代码构成,意群代码为定长的16进制数值代码,一个定长的16进制数值对应于一个意群,它代表着这个意群以及这个意群在各种语言文字那里相应的意群文字串,并含有语法、语义信息。
2.根据权利要求1所述装置的部件A,意群输入装置响应用户面向意群的编码击键,其特征是用户随着自己思维、说话或文章段句内容而有自然间隔的意群流,根据这一个个流出的当前意群或复群编码击键,也可利用语音输入、模式识别输入的方法代替用户这种面向意群的编码击键,面向意群的编码击键随着意群在不同的语言文字那里,相应的意群文字串不同而有所不同:a)意群在中文这里是含2~4字、语义明确、可以单用的文字串,人们思维、说话以它们为单元有自然间隔,阅读文章时以3、2、4、1字的优先次序回复间隔,复群是2条或2条以上意群的组合;b)对于中文,字码键盘可以有多种而面向意群的编码击键是一样的:意群编码由字码组成,利用字码键盘击键是:2字意群=每字各编2码共击键4次,3字意群=第1~2字各编1码、第3字编2码共击键4次,4字意群=第1~4字各编1码共击键4次;复群的编码由意群码组成,利用字码键盘击键是:2个意群组成的复群=第1个意群前两码+后面意群前两码,3个意群组成的复群=第1~2意群的第一码+最后意群的前两码,>=4条意群之复群=第1~3意群的第一码+最后意群的第一码,复群在上面“+”号处插一个空格,每复群击键5次;c)意群在拼音文字那里,单词是意群文字串,短语是复群文字串之一,其编码击键可根据单词、短语的各种信息,妨效中文进行;d)如果利用语音输入的方法代替这个面向意群的编码击键时,利用随着意群流而发音的间隔截取意群音符串,根据其特征波形关键信息匹配意群库的特征波形关键信息而检出相应意群文字串和意群代码;e)如果利用模式识别的方法代替这个面向意群的编码击键时,对被识别文件按4、3、2、1字依次试行截取,检索意群库,根据检出结果判定裁决,进行截取;拼音文字以自然间隔截取。
3.根据权利要求1所述装置的部件A,意群输入装置响应用户面向意群的编码击键时,借助于意群库,给出相应的意群文字串和意群代码,其特征是还连结了一些能追随用户需求而自动生成意群和复群、立即响应用户编码击键、还能自动吐故纳新的功能部件:a)当用户连续以字为单元编码击键时,自动启动所连结的意群生成器,将连续输入的2~4个字按排列方式自动生成1~6条可能的意群文字串,经使用认可的保留,一段时间后没有使用的自动将其复盖;b)当用户对某复群编码击键而扑空时,自动启动所连结的复群生成器,参考后随降级输入信息,自动生成所扑空的复群;c)当用户对某意群编码击键扑空或者复群扑空后又碰上意群扑空时,自动启动所连结的混合生成器,参考后随降级输入信息,生成扑空意群,如是后一情况又把所生成的意群参加生成当前所扑空的复群;d)当用户想取当前屏幕上某意群开始的串,在第1~2编码之间插入一个空格,所连结的屏幕取串部件即被启动,将当前屏幕该意群变色显示,然后响应键入空格键来加长串,当键入非空格键后,将所取串作为新生复群,同时作为用户的当前输入给出;e)每当本部件A被装载运行初始化时,所连结的自动遗忘部件运作,如果新生的意群或复群数超过某个数量时,将低频端的20%删除,腾出空间以备继续新生;f)当用户想删除某意群或复群时,用Alt+数字键类似选重的操作就启动了所连结的现场删词部件,随即将其删除;g)当用户关机前击功能键,启动所连结的动态信息存盘部件,或者本部件与部件B的文件存盘功能连动,将新生或删除意群、复群的有关信息存盘,长期保存,下次部件A被装载运行初始化时又自动将它们读入。
4.根据权利要求1~3所述部件A,意群输入装置,响应用户面向意群的编码击键,其特征是还连结有一个字码键盘,同一语言版本的意群输入装置可以有多种字码键盘,拼音文字可使用字母键盘,利用排除冗余的办法匹配单词,也可妨效中文,取单词的有关信息构成字码键盘,中文版的一个最佳实施例字码键盘是每字取音、取形共编2码:A)取音——26个字母键其英文字母与汉语拼音首字母相同的,分别代表这些汉字编第一码,其中:a)zh、ch、sh三个卷舌音与“i”或“u”相拼的汉字同不卷舌,用“z、c、s”编码,不与‘‘i”或“u”相拼的汉字以“zhiu、chiu、shiu”上面加横线表示,分别依次用“a、i、u”键编码,见附图3,A、I、U键;b)有12个音节例外地定义于其它键位,如附图3的E、R、O、V键,其中“li、lu、lv”三音节定义在“e”键,“ji、ju、jian、jia”四音节定义于“o”键,“xi、xu”二音节定义于“r”键,“yi、yu、yan”三音节定义于“v”键,这些音节的汉字用所定义键编码;B)取形——用38个偏旁部首和起笔编第二码,将汉字分为左右型和非左右型(除左右(3)分别被形成为一新符号用于传输。结果,总共四个码字被发送用于信息位D(1)、D(2)和D(3),结果是一码率3/4码。


下表1表示由欧洲数字视频广播标准所定义的五种码率的紧缩模式的一个例子。


表1


用户作者的见解,将它们修改为发明型、自由型、规范型或专用群,如果均不属于这些确切类型的复群将它解散为意群形式记录,其中如果是发明型还要求用户作者给以定义或注解;b)句型分析器对雏型文件逐句进行句型分析,句型的各个部分以一醒目的颜色显示,句子主、谓、宾、定、状等主要成分、从句,以及不规范、不明确的部分给以标识性显示,使用户作者一目了然,符合自我本意的给以肯定,不符合自我本意的给以纠正,然后自动把有关句型和句子成分等信息纳入意群代码义法段或插入标识代码;c)修辞分析器分析并检出具有修饰、关联的句子成分之间是否存在修辞方面的错误、或不规范、不明确的内容,以及某些有可能在语言转换过程中产生误解的成分或词汇,如果有与用户作者对话,让用户修改,然后自动修改意群代码义法段或插入标识代码;d)语言革新检测器根据某语言管理机构的决议,检测出不符合语言革新的内容,显示有关信息或者建议,请用户作者修改;e)非世界文预处理器,能读入现有技术基于字符代码的文本文件绕过本装置部件A、B转换成世界文雏型文件,然后由本部件C运作后成为世界文;f)还连结有统计和信息反馈的部件,尤其是出版社专版,将各种意群进行统计,在适当的时候,将有关统计数据,发明型有关信息等自动反馈到世界文管理站点;g)世界文存放于存贮器,也可以存放于磁记录或者其它各种载体,它节省存贮空间,还可以在各种网络、通讯、传输系统里进行传输和通讯。
7.根据权利要求1所述装置部件的D具有各种语言版本,它们读入世界文,什么语言版本就将其转换成什么语言文字显示输出,其特征是还连结了响应用户作者键盘操作、翻屏、查询处理、文摘处理、文件管理等普通运作部件,和语言运作部件,语言运作部件有:a)语种判断器根据世界文文件头原文语种的记录和本装置语言版本进行判别,是相同语种时转下述b处理,是不同语种时转下述c处理;b)本语输出部直接利用世界文的意群代码转换成意群文字串,数条意群文字串共用一个意群代码的同义、近义词汇通过意群代码的义法段信息或有关标识代码复原,以原文显示输出;c)语言转换装置首先根据标识代码读出句型,或者利用世界文构架群代码进行判断,得出当前句原文句型,查找句型规则库,找出与给出语言相应的句型款式作为给出句的句型,根据两个句型的对应关系、原文句意群代码和标识代码检出或选择合适的给出语意群文字串,将它们填入给出句型相应位置,继后检测并处理整个句子各修饰、关联成分之间的修辞、某些语言的个性问题,最后转换结束,给出转换后的句子;d)浏览阅读装置还设有双语版本,双语版只增加一种原语输出功能,它可以按句、自然段为单位,先后运作上述b和c,同时给出两种语言文字;e)当用户读者读到转换后的句子,感到某处费解、或者语意不通,借助有关部件还响应用户读者使用键盘或鼠标指点,将转换的其它可能列出,用户读者选取最合适部分将替换原转换句子相应部分,同时本部件将问题所在自动记录下来,在适当的时候反馈到世界文管理站点。
8.根据权利要求1所述装置,其特征是除了A~D部件外,还含有称为世界文电子辞典的部件E,部件E主要存放在世界文管理站点,对其它部件A、C、D给以数据、信息的支持,同时又接受它们的反馈信息进行吐故纳新,还接受有关内容的信息查询服务,主要支持和接受内容由下列库承担:a)规范意群库,至少含有意群代码、百语意群文字串字段,以应其它部件A、C、D和它们的各种版本对本库各取所需地构成各自使用的库;b)新生意群库,主要字段有:意群文字串、文种、频度、定义与解释、备注、后续链,本库主要接受部件E的出版社专版反馈回来的发明型意群及自由型复群等相关信息;c)频度统计库,主要含意群代码、频度两字段,接受并汇总由部件E的出版社专版反馈回来规范型意群的使用频度;d)句型库,至少含有类款号、句型内容、语种字段,部件C、D取其副本构成各自的库;e)阅读不满库,接受部件D反馈回来的有关用户阅读不满意的文章片段或者阅读不满意的问题所在记录;f)频度统计库是规范意群库被人类社会遗忘或淘汰内容清除出库的依据,新生意群库是规范意群库新增内容的来源,阅读不满库是本发明装置研制升级、完善发展以及句型优化的参考。
9.根据权利要求8所述装置的部件E的规范意群库、句型库,其特征是组建于对大量语料的整理、加工、分析提取而成,并经过语言转换实验进行检验,还不断进行统筹优化:a)规范意群库具体意群条目的设定和优化基于统筹各种语言文字、人造理想化地修改,文稿顾问提出最佳词汇的建议也据此而行;b)某一意群的意群代码、定义解释、以及它的百语意群文字串等内容共处规范意群库一条记录的各自字段;c)含有多词类的意群文字串以“语种标,词类a,文字串1,文字串2;词类b,文字串…”格式逻列于百语意群文字串字段;d)含有跨学科而具有数个意群代码的意群文字串,以“语种标,文字串1;跨科标,文字串2…”的格式逻列于百语意群文字串字段,文稿顾问时选取准确的意群代码给以替换;e)句型库关于句型的内容直接利用表示意群类属的意群代码或者是表示相应概念的标识代码表示,如果某句型内容是某意群本身,直接用该意群代码表示;f)对于句型的统筹优化主要借助于对阅读不满库等内容的统计分析进行修改优化,求百语转换准确无误。
10.根据权利要求1,6~9所述的意群代码和世界文,其特征是:a)意群代码分序列编码和义法编码两部分;b)序列编码对意群以类属、语义概念的学科领域分类排列编码,序列编码高位2字节以数值段面向意群类属、学科领域编码,标识群、专用群各取一个数值为标识码,它们的低位代表具体标识内容以及标识对象的有关数据;c)义法编码对具体意群的个性化语义表达、语法应用进行统一编码标定,也可再分出义位和语法两字段,义位用于标注含有多词类和跨学科的当前意群文字串所在,语法段用于标注在意群类属下的词性供文稿顾问系统作句法分析参考,分析结束确定后,填入当前所用句子成分等信息;d)本发明装置所生成、顾问后的世界文还可以广泛用于自然语言理解、科技情报自动检索、计算机辅助教学、电子图书馆、电子病历、电子档案等领域和学科。

说明书全文

世界文百语转换装置和方法

发明是一种对语言文字信息以意群为单元进行输入、记录、显示、传输、运算处理的装置和方法;它属于电子计算机对语言文字信息处理的技术领域。

迄今为止,电子计算机对于语言文字的信息处理,在世界范围内都是基于字符。从输入、显示输出、磁盘文件、传输、通讯,直致人工智能处理等等,都以字符,为单元,例如:键盘输入——计算机键盘输入基于字符,拼音文字一键输一入个字符(母),使用拼音文字的人们在计算机问世之前,就使用了打字机,击一个键得到一个字母。计算机问世后,得天独厚,拿来就用。可是表意文字没有这么轻松。如中文,字符有5万之多,常用的有6763个,何以一键一个。经过一个时期的努,人们找到了拆字编码的方法,把中文汉字拆分成声母、韵母以及四声,把字形拆分成数百个部件,将它们分组定义于通用英文键盘的各个键位,然后以字为单元编码击键进行输入。尽管有以字联想成词的、称句输入或智能拼音的(让用户输入每字的声母、韵母,输完一句时进行拼音串到汉字句子的转换),其实也都是基于字符的输入。字符不是人类思维活动的单元,所以基于字符的输入操作严重地干扰着思维。

文本编辑——迄今为止,不管是什么人、什么国家、什么公司开发出来的文本编辑软件,都是输入字符,生成以字符代码为元素的磁盘文件,对字符文件进行编辑、排版、打印输出等等。其中值得一提的是在微软WINDOWS 95以前,所有编辑软件受操作系统所限,都是面向各自的语言文字之字符。WINDOWS 95的面市,揭开了新的一页,世界上语言文字的字符大都得到了收集,平等地处于双字节或4字节字符编码之中,向前迈进了一大步。但是,仍然处于以字符为单元进行处理的时代。包括上述以字联想成词、句输入或智能拼音的输入之后同样生成以字符代码为单元的文本文件。

显示输出——显示输出同样以字符为单元。其中值得称道的是打印输出方面,已经达到了图文并茂的理想化的程度。

磁盘文件——磁盘文件是上述输入、文本编辑的一个重要环节。可是,它一点也不例外,不管是拼音文字,还是表意文字,都是以字符内码为单元形成的。同样,不管是单字节的拼音文字字符内码,还是双字节高位置1的汉字内码,以及WINDOWS 95世界性的双字节(或四字节)字符内码。它们都表示一个字符,表示拼音文字的一个字母,方汉字的一个字;仅仅是字符的代码,毫无语义、语法信息。字符代码不能表达语义,更不是人类思维活动的单元。

传输通讯——传输、通讯都是对上述磁盘文件进行或不进行压缩处理,然后通过一定的媒体进行传输和通讯,所以同样是基于字符。

智能处理——对磁盘文件进行种种人工智能的处理,例如文稿校对、全文检索等等也毫不例外,都是针对这以字符代码为单元的磁盘文件。字符代码毫无语法、语义信息,智能处理仅基于对字符代码的比较。同时由于语言本身的原因,表达完整语意的单元基本上已经不是字,更不是字符代码。这些是致使这种基于字符的智能处理困难的主要因素。

机器翻译——《自然语言的计算机处理》一书全面概括了从计算机问世的同一年就开始了的机器翻译至今的风雨雨,现在仅有少数2~3种语言之间,在一定范围之内的机器翻译开始进入实用阶段;更多语种和更大范围的机器翻译还困难重重。(冯志伟著,上海外语教育出版社,1996年10月第一版)。本人认为,困难不外乎两个方面,①不同的语言文字,有的字符没有语意,有的字符有语意;有的以无语意的字符拼写成有语意的词汇,有的又以有语意的字符直接或者组合成词汇。不同语言文字的字符、词汇、单词、短语、字、词、词组等等概念笼统,所表达的语意不规一;有的交叉重叠,有的多义,有的所表达的语义视搭配不同而易,之所以等等语言文字本身语意表达的不一致性。加上②机器翻译也一样面向这些基于字符代码的文本文件或字符代码串,毫无语义、语法信息,存在很多使人也感到头痛的歧义问题,这就是造成机器翻译进展艰难的原因。少数已经达到实用阶段的机器翻译,如现有市售从A语到B语的翻译软件。正如《对当前英汉机器翻译软件的几点看法》一文,在列举了数家软件的译文之后评述道,“可以看出,这些译文几乎是不可读的。……它们基本上反映了当前在微机上实现的英汉机器翻译软件的实际平(作者:柳维长,“计算机世界”,1997年4月14日,123版)”。《INTERNET上的文化之争》一文述及一条信息,有人试图利用“中间语言”的翻译方法解决语障。其核心是设计一种中间语言,然后为每一语种设计一套“转换器”和“逆转换器”。一种语言经转换器变为中间语言,再经逆转换器把中间语言转换成另一种语言。从而实现语言自动互译,他们准备花10年的时间解决INTER-NET上的语障(记者高丽华“计算机世界”,1997,7月12日,161版)。通过中间语言转换,同样没有解决语言文字本身语意表达的不一致性,又增加了一道语言翻译失真的程序,其译文质量恐怕难以比A语到B语的翻译好。

综上所述,现有技术对语言文字信息处理的运作,都是以字符代码为元素进行的,字符不是表达完整语意的单位,更与人类思维活动的单元不相匹配。

本发明的任务是提供一套世界文百语转换的装置和方法,它以属于人类思维活动单元的意群、在各种语言文字里相应的意群文字串、解决了各种语言词汇的语义表达一致性问题的意群代码为元素运作。不管人们使用哪种语言文字在本发明提供的装置上书写,都生成以意群代码为元素的世界文。这世界文不仅含有语法、语义信息、节省存贮空间,便于进行高新的人工智能处理;还能响应人们所需转换成各种不同的语言文字显示输出。从而推倒人类的语言障碍,用世界文建立站点、发布信息、文件贮存、传输通讯等,可供全人类阅读、利用。

其解决方案是:世界文百语转换装置和方法通过如下部件和措施达到,A)意群输入装置、B)世界文生成编辑装置、C)文稿顾问系统、D)浏览阅读器等部件,它们的主要的解决方案是:1.世界文百语转换装置的部件A含有意群库,意群库至少有意群文字串、意群代码两个字段;相同意群的意群文字串和意群代码,共处意群库相同记录的各自字段。意群是人类思维活动的单元,意群文字串是相同意群,在不同的语言文字那里与之对应的文字串。基于意群编制的意群代码就代表和贯通了相同意群在不同语言文字里相应的意群文字串,解决了各种语言词汇的语义表达一致性问题。

2.世界文百语转换装置的部件A主要由于意群库所含意群文字串不同而具有不同语言文字版本,在响应用户面向意群的编码击键时,借助于意群库,给出相应的意群文字串和意群代码。

3.世界文百语转换装置的部件B接受部件A的给出,将意群文字串进行显示、文本编辑的同时,将意群代码为元素生成世界文的雏型文件。

4.世界文百语转换装置的部件C在用户作者进行文稿校改时,对雏型文件逐句进行顾问,分析句型和句子成分并给以标识性显示,对不规范内容与用户作者进行人机对话,接受修改、确认,自动把有关信息纳入意群代码义法段或插入标识代码而使雏型文件成为世界文。

5.世界文百语转换装置的部件D具有各种语言版本,它们读入世界文,什么语言版本就将其转换成什么语言文字显示输出。

6.世界文百语转换装置生成和操作的世界文由意群代码构成,意群代码为定长的16进制数值代码,一个定长的16进制数值对应于一个意群;它代表了这个意群以及这个意群在各种语言文字那里相应的意群文字串;并含有语法、语义信息。

本发明在上述主要解决方案的前提下,进一步的解决方案是:1.意群输入装置响应用户面向意群的编码击键,这“面向意群”是因为意群是人类思维活动的单元,意群在具体语言文字里的表现是意群文字串,即以一个字符串的形式来体现意群。一个意群文字串(如下直接称意群)是语义明确,可以独立应用的当代人们思维、语言的基本单位;也是不同语言文字之间可以理解翻译的基本单位。两个或两个以上相邻(或不相邻)的意群串在一起共同表达一个更大、更完整的语意;并使不同语言文字之间的语意更趋一致的若干意群的组合称为复群(即复合意群)。人类的思维、说话、阅读都以意群为单元,意群与意群之间,存在着间隔或停顿。

然而关于用户的“面向意群”的编码击键是用户随着自己思维、说话或文章段句内容而有自然间隔的意群流,根据这一个个流出的当前意群或复群编码击键。也可利用语音输入、模式识别输入的方法代替用户这种面向意群的编码击键。面向意群的编码击键随着意群在不同的语言文字那里,相应的意群文字串不同而有所不同:需要特别一提的是,文字的创造者们都是根据意群创造相应词汇,拼音文字创造单词。而中文汉语,古时根据意群创造相应一个汉字,排字成文,字的间隔就是意群的间隔(所以不比拼音文字,词汇之间有间隔)。后来,以多字表示一个意群,现在变得“字不再与意群相匹配”了,书面上字的间隔也不再是意群的间隔了。对于中文,意群不再是单个汉字,也不是一般概念的词、词组。

①意群在中文这里是含2~4字、语义明确、可以单用的文字串,人们思维、说话以它们为单元有自然间隔,阅读文章时以3、2、4、1字的优先次序回复间隔,复群是2条或2条以上意群的组合。

②对于中文,字码键盘可以有多种,而面向意群的编码击键是一样的:A)意群编码由字码组成,利用字码键盘击键是:2字意群=每字各编2码共击键4次,3字意群=第1~2字各编1码、第3字编2码共击键4次,4字意群=第1~4字各编1码共击键4次;B)复群的编码由意群码组成,利用字码键盘击键是:2个意群组成的复群=第1个意群前两码+后面意群前两码,3个意群组成的复群=第1~2意群的第一码+最后意群的前两码,>=4条意群之复群=第1~3意群的第一码+最后意群的第一码,复群在上面“+”号处插一个空格,每复群击键5次。

③意群在拼音文字那里,单词是意群文字串,短语是复群文字串之一,其编码击键可根据单词、短语的各种信息,妨效中文进行。

④如果利用语音输入的方法代替这个面向意群的编码击键时,利用随着意群流而发音的间隔截取意群音符串,根据其特征波形关键信息匹配意群库的特征波形关键信息而检出相应意群文字串和意群代码。

⑤如果利用模式识别的方法代替这个面向意群的编码击键时,对被识别文件按4、3、2、1字依次试行截取,检索意群库,根据检出结果制定裁决,进行截取;拼音文字以自然间隔截取。

2.意群输入装置响应用户击键的同时,借助于意群库,给出相应的意群文字串和意群代码。之所以能响应人们这千变万化的面向意群的编码击键,是由于意群输入装置还连结了一些能追随用户需求而自动生成意群和复群、立即响应用户编码击键、还能自动吐故纳新的功能部件:①当用户连续以字为单元编码击键时,自动启动所连结的意群生成器,将连续输入的2~4个字按排列方式自动生成1~6条可能的意群文字串,经使用认可的保留,一段时间后没有使用的自动将其复盖。

②当用户对某复群编码击键而扑空时,自动启动所连结的复群生成器,参考后随降级输入信息,自动生成所扑空的复群。

③当用户对某意群编码击键扑空或者复群扑空又碰上意群扑空时,自动启动所连结的混合生成器,参考后随降级输入信息,生成扑空意群,如是后一情况又把所生成的意群参加生成当前所扑空的复群。

④当用户想取当前屏幕上某意群开始的串,在第1~2编码之间插入一个空格,所连结的屏幕取串部件即被启动,将当前屏幕该意群变色显示,然后响应键入空格键来加长串,当键入非空格键后,将所取串作为新生复群,同时作为用户的当前输入给出。

⑤每当意群输入装置被装载运行初始化时,所连结的自动遗忘部件运作,如果新生的意群或复群数超过某个数量时,将低频端的20%删除,腾出空间以备继续新生。

⑥当用户想删除某意群或复群时,用Alt+数字键类似选重的操作就启动了所连结的现场删词部件,随即将其删除。

⑦当用户关机前击功能键,启动所连结的动态信息存盘部件,或者本部件与部件B的文件存盘功能连动,将新生或删除意群、复群的有关信息存盘,长期保存,下次部件A被装载运行初始化时又自动将它们读入。

3.意群输入装置,响应用户面向意群的编码击键,还有一项是连结有一个字码键盘,同一语言版本的意群输入装置可以有多种字码键盘,拼音文字可使用字母键盘,利用排除冗余的办法匹配单词,也可妨效中文取单词的有关信息构成字码键盘;中文版的一个最佳实施例字码键盘是每字取音、取形共编2码:①取音——26个字母键其英文字母与汉语拼音首字母相同的,分别代表这些汉字编第一码,其中:a)zh、ch、sh三个卷舌音与“i”或“u”相拼的汉字同不卷舌,用“z、c、s”编码,不与“i”或“u”相拼的汉字以“zhiu、chiu、shiu”上面加横线表示,分别依次用“a、i、u”键编码,如附图3,A、I、U键;b)有12个音节例外地定义于其它键位,如附图3的E、R、O、V键,其中“li、lu、lv”三音节定义在“e”键,“ji、ju、jian、jia”四音节定义于“o”键,“xi、xu”二音节定(3)分别被形成为一新符号用于传输。结果,总共四个码字被发送用于信息位D(1)、D(2)和D(3),结果是一码率3/4码。

下表1表示由欧洲数字视频广播标准所定义的五种码率的紧缩模式的一个例子。

表1

②句型分析器对雏型文件逐句进行句型分析,句型的各个部分以一醒目的颜色显示,句子主、谓、宾、定、状等主要成分、从句,以及不规范、不明确的部分在其内容下显示不同的线条符号等标识,使用户作者一目了然,符合自我本意的给以肯定,不符合自我本意的给以纠正,然后自动把有关句型和句子成分等信息纳入意群代码义法段或插入标识代码。

③修辞分析器分析并检出具有修饰、关联的句子成分之间是否存在修辞方面的错误、或不规范、不明确的内容,以及某些有可能在语言转换过程中产生误解的成分或词汇,如果有与用户作者对话,让用户修改,然后自动修改意群代码义法段或插入标识代码。

④语言革新检测器根据某语言管理机构的决议,检测出不符合语言革新的内容,显示有关信息或者建议,请用户作者修改。

⑤非世界文预处理器,能读入现有技术基于字符代码的文本文件绕过本装置部件A、B转换成世界文雏型文件,然后由本部件C运作后成为世界文。

⑥还连结有统计和信息反馈的部件,尤其是出版社专版,将各种意群进行统计,在适当的时候,将有关统计数据,发明型有关信息等自动反馈到世界文管理站点;⑦世界文存放于存贮器,也可以存放于磁记录或者其它各种载体,它节省存贮空间,还可以在各种网络、通讯、传输系统里进行传输和通讯。

6.世界文百语转换装置的部件D,浏览阅读器具有各种语言版本,它们读入世界文,什么语言版本就将其转换成什么语言文字显示输出。之所以能如此运作是还连结了响应用户作者键盘操作、翻屏、查询处理、文摘处理、文件管理等普通运作部件,和语言运作部件,语言运作部件有:①语种判断器根据世界文文件头原文语种的记录和本装置语言版本进行判别,是相同语种时转下述②处理,是不同语种时转下述③处理。

②本语输出部直接利用世界文的意群代码转换成意群文字串,数条意群文字串共用一个意群代码的同义、近义词汇通过意群代码的义法段信息或有关标识代码复原,以原文显示输出。

③语言转换装置首先根据标识代码读出句型,或者利用世界文构架群代码进行判断,得出当前句原文句型,查找句型规则库,找出与给出语言相应的句型款式作为给出句的句型,根据两个句型的对应关系、原文句意群代码和标识代码检出或选择合适的给出语意群文字串,将它们填入给出句型相应位置,继后检测并处理整个句子各修饰、关联成分之间的修辞、某些语言的个性问题,最后转换结束,给出转换后的句子。

④浏览阅读装置还设有双语版本,双语版只增加一种原语输出功能,它可以按句、自然段为单位,先后运作上述②和③,同时给出两种语言文字。

⑤当用户读者读到转换后的句子,感到某处费解、或者语意不通,借助有关部件还响应用户读者使用键盘或鼠标指点,将转换的其它可能列出,用户读者选取最合适部分将替换原转换句子相应部分,同时本部件将问题所在自动记录下来,在适当的时候反馈到世界文管理站点。

7.世界文百语转换装置的部件除了A~D以外,还含有部件E——世界文电子辞典,部件E主要存放在世界文管理站点,对其它部件A、C、D给以数据、信息的支持,同时又接受它们的反馈信息进行吐故纳新,还接受有关内容的信息查询服务,主要支持和接受内容由下列库承担:①规范意群库,至少含有意群代码、百语意群文字串字段,其它部件A、C、D以及它们的各种版本对本库各取所需地构成各自使用的库或辞典。

②新生意群库,主要字段有:意群文字串、文种、频度、定义与解释、备注、后续链,本库主要接受部件E的出版社专版反馈回来的发明型意群及自由型复群等相关信息。

③频度统计库,主要含意群代码、频度两字段,接受并汇总由部件E的出版社专版反馈回来规范型意群的使用频度。

④句型库,至少含有类款号、句型内容、语种字段,部件C、D取其副本构成自己的库。

⑤阅读不满库,接受部件D反馈回来的有关用户阅读不满意的文章片段或者阅读不满意的问题所在记录。

⑥频度统计库是规范意群库被人类社会遗忘或淘汰内容清除出库的依据,新生意群库是规范意群库新增内容的来源,阅读不满库是本发明装置研制升级、完善发展及句型优化的参考。

8.世界文百语转换装置的部件E,世界文电子辞典的规范意群库、句型库,其组建于对大量语料的整理、加工、分析提取而成,并经过语言转换实验进行检验,还不断进行统筹优化:①规范意群库具体意群条目的设定和优化基于统筹各种语言文字、人造理想化地修改,文稿顾问提出最佳词汇的建议也据此而行。

②某一意群的意群代码、定义解释、以及它的百语意群文字串等内容共处规范意群库一条记录的各自字段。

③含有多词类的意群文字串以“语种标,词类a,文字串1,文字串2,词类b,文字串…”格式逻列于百语意群文字串字段。

④含有跨学科而具有数个意群代码的意群文字串,以“语种标,文字串1,跨科标,文字串2…”的格式逻列于百语意群文字串字段,文稿顾问时选取准确的意群代码给以替换。

⑤句型库关于句型的内容直接利用表示意群类属的意群代码或者是表示相应概念的标识代码表示,如果某句型内容是某意群本身,直接用该意群代码表示。

⑥对于句型的统筹优化主要借助于对阅读不满库等内容的统计分析进行修改优化,力求百语转换准确无误。

9.上文所述的意群代码和世界文,还有如下解决方案:①意群代码分序列编码和义法编码两部分。

②序列编码对意群以类属、语义概念的学科领域分类排列编码,序列编码高位2字节以数值段面向意群类属、学科领域编码,标识群、专用群各取一个数值为标识码,它们的低位代表具体标识内容以及标识对象的有关数据。

③义法编码对具体意群的个性化语义表达、语法应用进行统一编码标定,也可再分出义位和语法两字段,义位用于标注含有多词类和跨学科的当前意群文字串所在,语法段用于标注在意群类属下的词性供文稿顾问系统作句法分析参考,分析结束确定后,填入当前所用句子成分等信息。

④本发明装置所生成、顾问后的世界文还可以广泛用于自然语言理解、科技情报自动检索、计算机辅助教学、电子图书馆、电子病历、电子档案等领域和学科。

本发明与现有技术相比,具有如下优点和积极效果:1.本发明以属于人类思维活动单元的意群、在各种语言文字里相应的意群文字串、贯通了各种语言意群文字串的意群代码为元素运作。这就解决了各种语言文字之间由于字符、单词、短语、字、词、词组等语义单位不一,各种语言词汇之间表达语义大小不一,有交叉、有重叠、又有多义等现象所造成的语意表达的不一致性难题。

2.本发明在不同语言文字当中提练表达共同语意的句型,进行句子成分的分析并将它们通过意群分类、意群代码编制固定下来,便于操作,进一步解决了语言文字本身不便机器处理的难题。

3.本发明把人们思维、说话、书写统一了起来,全部以意群为单元进行,使输入操作尽可能地符合思维,便于人机交流,也有利于机器模仿于人。

4.世界文比现有技术的文本文件更节省存贮空间,对存贮、查询、传输、通讯都有积极的效果。

5.以意群代码为元素生成的世界文是以意群为单元的,含有一定的语法、语义信息,可进行基于自然语言理解的智能处理。与现有技术基于字符代码的文本文件相比,这是一大优点,对于语言文字信息的人工智能处理具有积极的效果。

6.当人们书写好文稿,在文稿顾问系统下进行校改,借助于自动的句型、句子成分分析顾问给以标识性显示,与用户作者进行人机对话,接受修改或肯定。这就方便简捷地将不同语言文字翻译当中甚为棘手的语法分析问题给解决了,由于这个过程是原作者操作进行的,所以最具权威性。同时将这个过程的有关信息纳入世界文,使世界文转换成其它语言文字显示输出程序变得非常简捷。

7.当人们要浏览阅读世界文时,只要选取符合自己语言版本的浏览阅读器,就可以通读来自于世界各种语言文字的文章了。这就推倒了不同语言文字的障碍;也就免除了世界上人们为了阅读外文资料而学外语的各种消耗。

8.本发明与设计“中间语言”,利用“转换器”和“逆转换器”实现不同语言的互译相比,优点和积极效果是:①解决了语言文字本身语意表达不统一性难题。②不必设计中间语言,以意群代码生成世界文方法简捷,对于传递语义比中间语言更为准确。③让用户作者在文稿顾问系统下进行文章校改,一举两得,方便了用户又解决了棘手的语法分析问题,并最具权威性。并不发生现有技术向中间语言转换的语义失真问题。④世界文生成与文稿顾问在用户作者端完成,当世界文上网后,转换成某种语言文字显示输出的浏览阅读器运作就非常简单快捷了。⑤世界文不但可以进行不同语种之间的转换,同语种可以做到100%复原;而且便于进行其它高新的人工智能处理。⑥现有技术由A语向B语的单向翻译很难提供通顺可读的译文,利用中间语言转换语意失真将更为严重;基于本发明转换后的文章语意准确,通顺可读是一大优点。⑦本发明对于各种语言文字的使用者没有什么改变,不致于产生改用它种语言的逆反心理。同时本发明提供的装置含有语言革新检测器,便于各种语言文字的自我革新,平等发展。

如下附图描述了本发明的一个实施例:

图1,总流程图图2,意群库图3,字码键盘图4,意群文字串和意群代码给出流程图图5,意群生成器流程图图6,复群生成器流程图图7,世界文生成编辑装置流程图图8,文稿顾问系统流程图图9,浏览阅读器流程图图10,世界文电子辞典编制流程图附图1,本发明由五大部分组成。其中①意群输入装置(图1,1)响应用户面向意群的编码击键,将用户面向意群的编码击键转换成相应的意群文字串、意群代码,将这二者交给世界文生成编辑装置。同时接受世界文生成编辑装置的信息,在必要时改变给出方式。②世界文生成编辑装置(图1,2)响应用户对世界文的编辑击键,同时接收意群输入装置对意群文字串和意群代码的给出。其运作目的是以超越语言文字的意群代码生成世界文的雏型文件,并且对雏型文件进行编辑。在编辑过程中的读出运作,要借助于意群输入装置的意群库,所以它们之间用两条反向箭头线表示。有时,它还要借助于文稿顾问系统的顾问知识库支持,所以有一条箭头线指向后者。③文稿顾问系统(图1,3)对前者所生成的雏型文件进行顾问,目的是把关检测,确保利用各种语言文字在本发明提供的装置上所书写出来的文件,具有一致的世界文特征,可以准确快捷地转换成其它语言文字进行显示输出;同时,使雏型文件加上用户作者当前使用的语法、语义信息,从而使雏型文件变为正式的世界文。④浏览阅读器(图1,4)的工作是多进一出,不管基于什么语言文字利用本发明提供的装置书写出来的世界文,都转换成某种语言文字显示输出,这种语言文字就是浏览阅读器版本所面向的语言文字,也就是说,人们只要选取适合自己的浏览阅读器版本,就可以通读世界文章了。所以,①~④部件面向某种语言文字,正如图1所示,它们共同形成一个扇形的整体,扇形是园的一部分,一个扇形面向一种语言文字,它们的圆心,就是世界文。然而,不同扇形代表了不同的语言文字,通过世界文这个圆心轴,就可以由一个扇形进入另一个扇形,从而进行百语转换。本发明还有一个组成部分:⑤世界文电子辞典(图1,5),它并不是面向一种语言文字,而是包容所有语言文字(指使用本发明的所有),它以人类所共有的意群和意群代码为根本,包容了各种语言文字对应于意群代码的意群文字串。它对上述①③④三个部分(图1,1,3,4)都提供了它们各取所需的支持,这种支持是在必要时进行的,所以以箭头虚线表示。另一方面,它又直接或间接地接受意群输入装置(图1,1)、文稿顾问系统(图1,3)、浏览阅读器(图1,4)所反馈回来的信息,用以进行自我完善的吐故纳新运作。

下面根据这五个部分,结合附图和实施例,将本发明的技术内容进一步说明如下:第一部分、意群输入装置本装置响应人们直接以意群为单元的编码击键,给出一串串相应的意群文字串和意群代码。如果机内缺少这一相应的意群文字串,意群自动生成装置被激活,在用户不知不觉的情况下,立即自动生成相应的意群文字串。这种自动生成的意群文字串即时加入意群库,可立即被调用。意群库能自动吐故纳新,使用户越用越好用。

意群是人类思维的单元。人的大脑皮质具有反应客观事物之能力。在外界事物相同的情况下,学识、素质相当的人们,思维里所出现的意群是一样的。意群是超越语言文字,超越国界,属于全人类的。相同的意群在不同的语言文字那里,它们的意群文字串是不一样的。例如,当两个不同语言的人走近预定河流时,都用手机向上司汇报:其中那个英国人说:“We are approaching the river now.”其中那个中国人说:“现在我们走近这条河了。”他们对相同事物进行反应,思维里出现了一系列相同的意群;但是当使用不同语言文字表达时,相同的意群以不同的意群文字串来体现。在上面两句话中的“We,我们”;“are ap-proaching,走近了”;“the river,这条河”;“now,现在”都是相同意群的不同意群文字串。可见:意群是语义明确,可以独立应用的当代人们思维、语言的基本单位;也是不同语言文字之间可以被理解翻译的基本单位。两个或两个以上相邻(或不相邻)的意群串在一起共同表达一个更大、更完整的语意;并使不同语言文字之间的语意更趋一致的若干意群的组合称为复群。

由于本装置是面向具体的语言文字,面向具体用户群而设计或自动适应于某些具体行业用户群的。所以具备各种不同语言文字的版本。下面以中文版为实施例进一步说明如下:第一节、意群库意群输入装置含有意群库,意群库至少有含有意群文字串和意群代码两个字段,相同意群的意群文字串和意群代码共处意群库相同记录的各自字段。意群库(图2)包含多个具体的库,对具体含有意群文字串和意群代码字段的意群库称为意群(或复群)基本库。

意群输入装置主要由于意群库的意群文字串所属语言不同而设有不同的语言文字版本。假如是其它语言文字版本,本节所述意群库,其意群代码是一样的;意群文字串就随着语言版本的不同而不同,显然,对意群文字串编制的输入编码自然也随着变化。意群文字串是与意群相匹配的某种语言的一串字符以及它的字符代码串,也是现有技术字符、字符代码给以意群整词处理后的形式。在意群库(图2)当中,有意群基本库(图2,6)和复群基本库(图2,4)两个基本库。这两个基本库在本装置提供给用户使用之前是要事先建好,连同丰富的高质量的内容一同提供给用户使用的。这两个意群基本库的产生方法是,选取数量足够大的语料样本,首先对它们如同下述方法进行切分处理。如下面短文为例,切分处理为:“在计算机-网络席卷全球的今天,一项使语言-文字-信息-处理告别字符-时代的高新-技术——世界文发明了。她不管人们使用哪种语言-文字在本发明所提供的装置上书写,都生成一致的、以意群-代码为元素的、含有语法-语义-信息的世界文-文件;这世界文-文件不仅-可以进行许多高新的人工-智能-处理;还可通过世界性-网络,传送到使用什么-语言-文字的人那里,就以什么-语言-文字显示-输出。”上文已经述及,意群是全人类的,相对应的意群文字串因语言不同而异,形形色色。在拼音文字的文章里,如英文单词等于意群,短语等于复群,它们之间有空格作间隔。可是在表意文字的文章里,如汉语,在文章形式上意群之间没有间隔;但是人类思维是以意群为单元进行的,人们阅读理解时自然地又将它们按意群分开,意群之间的间隔复而再现,意群流当中同样存在意群间隔。

对于中文,意群不是单个汉字,也不是一般概念的词、词组。如上例的:“计算机席卷全球今天一项告别世界文”等等被空格、“-”及原有标点符号分开的2~4个字都是意群。然而对中文意群定义为“意群是含2~4个字,语义明确,可以单独应用的当代人们思维、语言的基本单位”。

思维、说话在意群之间存在间隔,使用中文的人们并不例外。形式上没有意群间隔的中文文章。人们在阅读、理解时,意群之间的间隔自然出现。这个自然出现的过程遵循着“3、2、4、1”的规律。如上例所示,阅读者的眼光对文章从左到右(或从上到下)扫描,首先扫描的是前面的3个字,之所以首先扫描3个子是因为3-1或+1分别就是2和4,这是一种非常敏捷的举措。如果这3个字是一个意群(符合上述意群定义)。就能迎合思维里的意群(这就确定了这一意群文字串,理解了),然后就进行这3个字后面的新一轮回扫描。如果不是就(-1)改判前面2字,这2字符合,取之,再下一个轮回;否则(+1)改判4字,符合取之。如果还不符合,就取下前面1个字。这切下的一个字,我们没有把它包括在意群范畴内,这是由于这种还保留古代以字与意群相匹配的情况不多了,所以把它统统当作单用字看待。

在思维、说话、阅读文章时,头脑里出现相应的意群流,意群流中意群与意群之间,存在着间隔或停顿。这一个个被隔开的就是意群,两个或两个以上相邻的意群串在一起共同表达一个更大、更完整的语意,就是复群,复群之内以“-”相连。如上例中的“计算机-网络”,“语言-文字-信息-处理”,“字符-时代”,“高新-技术”,“语言-文字”,“意群-代码”等等都是复群。

如上例所示,对所选语料样本进行切分处理完毕后。再进行统计频度处理,以频度从高到低排序,将高频端前4~6万分别作为意群基础库和复群基本库的建库意群文字串。意群基本库(图2,6)含有意群代码和意群文字串两个字段。其中意群文字串字段就是用这样选出的高频4~6万意群填充;意群代码字段用意群文字串所一一对应的意群代码填充。由于意群库是世界文电子辞典的一个具体应用部分,关于意群代码的编制方法在世界文电子辞典部分说明。这里先假定意群代码已经编制好,它与一一对应的意群文字串一道,并且以意群代码值为序,填充于意群基本库。

复群基本库(图2,4)含有输入码3~4、意群代码、记录号三个字段。输入码3~4字段为该条复群的输入编码当中第3~4两码。意群代码字段如意群基本库一样,我们暂且假定已经编制好,并以意群代码值为序,纳入了复群基本库的意群代码字段。由于复群由两条或者两条以上的意群组成,所以复群基本库没有意群文字串字段,而是代之记录号字段,这些记录号指向合成库(图2,5)当中本条复群的第一个组成成分所在记录。合成库(图2,5)有连词符和意群记录号两个字段,意群记录号指向意群基本库当中组成本复群的一个意群;连词符宽一个字节,作用有三,①这个字节当中的第7位等于0时标志本复群开始或继续,等于1时表示处该复群所后随是最后一个成员。②这个字节的第6~5位等于00时表示右边是一条指向意群基本库的意群记录号;等于10时表示右边是一个汉字内码,这个汉字在这里充当意群参加组成复群。③第4~0位用于对前后两成员语义关系编码。

本节所述意群基本库组建方法可用于各种语言文字,以及某语言文字下的某个具体行业。其中样本语料的选取根据目标不同而易。上述是面向中文的一个实施例。在面向中文当中,如果是面向普通用户,样本语料则选取具有代表普通场合的各种语料样本;如果是面向某个专业用户,样本语料则选取能代表这个专业的足够大的语料样本。面向专业也可以不用这样麻烦,直接向专业用户提供普通用户版本,让它们在应用当中,利用本装置自动生成意群、复群的功能,作版本升级为专业版本。与此有关内容详见下文。

上面对意群基本库和复群基本库的生成方法做了详细的说明,但是它们仅仅是意群库的一个部分,下面结合(图2)将意群库的结构和技术特征作进一步的说明。

附图2为意群库的结构框图。(图2,1)分路索引库包含“字码1~2”索引、“意群码1~2”索引、“复群码1~2”索引等三个字段,这里所述的“码1~2”是对单字、意群、复群编码的前2个输入编码,其来源是将单字、意群、复群分别按全部输入编码从小到大进行排序,以前面2码为准,相当于按前面2码划分成许多段,把每段的起始记录号填入本库的相应位置,例如意群aa段起始记录是0;ab段的起始记录是18;ac段的起始记录是35。则将0填于本库第0条记录的“意群码1~2”索引字段内;将18填于本库第1条记录该字段内;将35填于本库第2条记录的该索引字段内,以此类推。同时,把排序后的意群,将它们的意群文字串、意群代码分别置于意群基本库(图2,6)的相应字段内。将它们各自所处的记录号填于索引库(图2,3)的记录号字段内,同时把它们的第3~4个输入编码填于索引库的“M3~M4”字段内。

单字比较简单,按上述类推。复群复杂一些,按上述方法把复群排序实际上是按复群的输入编码排序,然后把意群代码、复群在合成库(图2,5)的首记录指针,按上述类推,把它们填于复群基本库(图2,4)的相应字段内。合成库(图2,5)实际上是要在排序以前事先完成的。

这样对于分路索引库(图2,1)的操作只需根据输入编码的前2码进行计算即可得出所在记录号,所在记录号=(码1-61H)*26+(码2-61H);aa=0,ab=1,ac=2。以取一条意群为例:其输入编码是abdg;计算ab得1,取本库的第2记录(0始),它就是ab段的起始指针,再取下一个记录,它就是要检索段之尾,根据这两个指针到意群索引库(图2,3)一段记录当中检索m3-m4“dg”;找到“dg”,再取同记录的记录号字段,其内容是指向意群基本库(图2,6)的指针,根据这个指针,就可以在意群基本库内取出这个意群的意群代码和意群文字串。对于单字结合(图2,2);复群结合(图2,4~6)以此类推。

关于环形生成库(图2,7)和复群生成库(图2,8)都用于意群和复群的自动生成,非事先提供,所以这两个库中都没有意群代码字段。而意群基本库(图2,7)和复群基本库(图2,4)都含有意群代码字段,但是这两个库的意群代码略有不同,意群基本库意群代码的第4字节第4位=0;而复群基本库意群代码的第4字节第4位=1,详细说明见下文意群和复群的吐故纳新、意群代码编制章节。

删除标记库(图2,9)分为两段,一段对应于意群基本库,另一段对应于复群基本库。字节当中一个位对应于基本库一条记录,如果这个位置1,表示对应基本库相应记录被删除,不给出。

意群库(图2)如上所述安排,涉及动态信息的库有三个:环形新生库、复群生成库和删除标记库,它们都较小巧,便于用户个性化的信息存盘。

第二节、字码键盘意群输入装置含有字码键盘,字码键盘是意群输入装置响应用户面向意群编码击键的基础部件之一。字码键盘含有26个英文字母键,10个数字键和“,./;”等符号键。把26个字母键分别赋于语言文字的某些信息,使之可以用于对字(拼音文字可对单词)进行编码,这就是本装置的字码键盘。同一语言版本的意群输入装置可有多种字码键盘。以汉语为例,根据取音、取形或音形结合等方式、具体选取信息内容不同、具体键位分配不同可产生多种本装置的字码键盘。中文版的一个最佳实施例字码键盘(图3)是每字取音、取形共编2码:

下表1表示由欧洲数字视频广播标准所定义的五种码率的紧缩模式的一个例子。

表1

排除冗余的办法是依次键入一个单词的字母,当没有相重时便是所需单词而不必键入该单词的所有字母。

第三节、编码击键方法意群输入装置的编码击键方法,是响应用户面向意群的编码击键,即是用户随着自己思维、说话或文章段句内容而有自然间隔的意群流,意群流有着许许多多的意群、复群,它们之间有着自然的间隔。用户就根据这一个个流出的当前意群或复群编码击键。也可利用语音输入、模式识别输入的方法代替用户这种面向意群的编码击键。这种面向意群的编码击键随着意群在不同的语言文字那里,相应的意群文字串不同而有所不同,仍以中文为例说明如下:1.意群在中文这里是含2~4个字、语义明确、可以单用的文字串,人们思维、说话以它为单元有自然间隔,阅读文章时以3、2、4、1的优先次序回复间隔;复群是2条或2条以上意群的组合。

2.字码键盘是面向意群编码击键的基础,对于中文,字码键盘可以有多种,而面向意群的编码击键方法规则是一样的:①意群编码由字码组成,利用字码键盘击键是:2字意群=每字各编2码共击键4次,3字意群=第1~2字各编1码、第3字编2码共击键4次,4字意群=第1~4字各编1码共击键4次;例如:       大家  电子管  惊天动地  推广  国家级  成果   另一方面字  码——>  daog  dszggh  jotadzdq  tegf  gsogob  iags   lsvaffma意群码——>  daog  d z gh  j t d d   tegf  g o ob  iags   lvfm②复群的编码由意群码组成,利用字码键盘击键是:2个意群组成的复群=第1个意群前两码+后面意群前两码,3个意群组成的复群=第1~2意群的第一码+最后意群的前两码,>=4条意群之复群=第1~3意群的第一码+最后意群的第一码,复群在上面“+”号处插一个空格,每复群击键5次;例如:      电子-计算机    中华-人民-共和国意群码——> dszg o s ow    ashd rhmg g h gs复群码——> d z   o s       a    r    g h科学  是一种  在历史上 起  推动  作用的、革命的  力量意群码——>  kcxf  s v ac  z e s u  ql  tedy  z y dd  g m dd  eblx复群码——>  k     s       z                                  e注:为了复群编码更为简捷,仅取音码,如上例“电子”前2码就是“dz”,因而组成复群“电子-计算机”时用“dzos”。

3.意群在拼音文字那里,单词是意群文字串,短语是复群文字串之一,它们的编码击键可以根据单词、短语的各种信息,妨效中文进行。

4.利用语音输入替换面向意群的编码击键,可以利用随着意群流而发音的间隔截取意群音符串,根据其特征波形关键信息,匹配意群库的特征波形关键信息,从而检出相应的意群文字串和意群代码。这个实施例,应把意群库当中的输入编码部分改为特征波形关键信息,事先对特征波形关键信息的获取应事先完成。

5.利用模式识别替换面向意群的编码击键,由于中文的意群库来自于3、2、4、1切分处理后的语料。现在是根据意群库将没有意群间隔的中文从左到右逐条截取意群文字串,方法是对被识别的文本以4、3、2、1字为序试截取,检索意群库,根据检出结果判定裁决进行(参下文“非世界文预处理器”)截取。再根据已截取意群文字串的模式识别特征,检出意群库相应意群和意群代码。这个实施例,应事先把意群库当中的输入编码部分改为模式识别特征信息,才能与截取串的模式识别特征匹配而被检出。对于拼音文字以原有自然间隔截取。

第四节、意群文字串和意群代码的给出本装置响应用户面向意群的编码击键时,借助于意群库,给出相应的意群文字串和意群代码。下面结合“意群文字串和意群代码给出的流程图(图4)”,进一步说明如下:一、给出方式意群输入装置响应用户面向意群的编码击键,其目的是给出意群文字串和意群代码;世界文生成编辑装置则接受意群输入装置的给出进行工作。意群输入装置的给出有传统式、世界文校改式和世界文盲打式(即尾加写作方式)三种方式。这三种给出方式根据世界文生成编辑装置所需而定。其中传统型是隐含的,当没有接到世界文生成编辑装置的信息时以传统型方式给出。所以,把意群输入装置与其它文本编辑软件配合使用也可以进行意群输入,也可以自动生成意群或复群;可是就不能生成世界文了。意群输入装置的三种给出方式是:1.传统式:传统型给出方式只给出意群文字串,如果出现重码,将重码放在系统提示行,由用户手工选取。它仅仅用于与传统文本编辑软件配合使用的场合。

2.世界文盲打式:世界文输入、编辑是可以以意群为单元进行盲打的。当用户在操作世界文生成编辑装置,当前光标位于文件尾部时,世界文生成编辑装置会向意群输入装置发送信息,意群输入装置即以世界文盲打方式进行给出。这时,意群输入装置给出意群文字串的同时,也给出意群代码;如果出现重码,重码全部送往屏幕正文当前光标处,对重码以反向显示标出,并且启动智能自动选重部件;进行自动智能选重或者用户参与的多种选重方式。这种方式非常有利于用户写作,又称为尾加写作方式,它使用户能以似说如想那样的速度捕捉灵感和记录思想。

3.世界文校改式:当用户操作世界文生成编辑装置,把当前光标移到文件内部时,世界文生成编辑装置会向意群输入装置发送信息,意群输入装置转换成世界文校改方式给出。这时如果有重码,把重码显示在系统提示行,由用户手工选取。待用户选取后再给出相应的意群文字串和意群代码。

意群输入装置给出意群文字串和意群代码,对于这意群文字串和意群代码如何处理,属于世界文生成编辑装置的工作,详见下文第二部分。

意群输入装置如何接受用户的面向意群的编码击键操作,如何给出意群文字串和意群代码的呢?现结合附图和实施例进一步说明如下。

二、给出的运作意群输入装置响应用户面向意群的编码击键,给出相应意群文字串和意群代码分如下三条线路运作:1.当用户是对某个单字编码击键时——本装置接收到用户连续击键2次(对字编3码的字码键盘则3次)字母键时,隐含地取(图4,10)的线路,在分路索引库(图2,1)的字索引字段内根据前2码计算得出本编码在单字库中的起止记录,然后对单字库(图4,11)进行操作,将符合这2个(或3个)编码的单字显示在系统提示行。如果这时用户没有再键入数字键或者“;”键,认定为用户不是对单字编码,转下面2.或3.判别处理。如果用户这时是对单字编码,势必使用数字键进行选重,这时本装置根据用户键入的数字键给出所中选的汉字(图4,12)。如果用户键入“;”,根据已输入句子的信息进行自动匹配,即将合适的单用字给出,如果不能匹配,例如“嘛、吗”这样“两可”而很难自动匹配的,作为重码(参意群)根据上述给出方式给出。在意群输入这里,以单字编码输入就意味着缺少什么意群,本装置自动对这个字进行记忆,如果用户接着又是对单字编码击键时,立即启动意群生成器(图4,13)自动生成相应意群,详见下节,意群的吐故纳新。

2.当用户是对某个意群编码击键时——本装置接收到用户连续击键4次字母键时,根据上述编码击键方法认定用户是对意群进行编码击键,这时本装置取(图4,20)的线路,首先根据第1~2个编码进行计算,在分路索引库(图2,1)的意群码1~2索引字段内取出相应记录,然后对意群索引库(图2,3)相应段内进行检索,如果没有找到与用户键入的这4个编码相匹配的记录,则为之扑空(图4,21),把意群扑空标志置1,也就启动了意群自动生成机构(详见意群的吐故纳新节),然后等待用户下一轮的编码击键。如果找到了与用户键入的这4个编码相匹配的记录(图4,22),即对意群基本库(图2,6)进行操作,找到相应记录,根据该记录号检查删除标记库(图2,9),如果用户没有删除它,即将该记录内容暂存于给出缓冲区(图4,24);同时还要对环形新生库(图4,23)、(图2,7)进行检索,如果有相应记录,也将它们暂存于给出缓冲区(图4,24)。并对它们进行检查,如果意群基本库有某意群而用户却用单字输入,结果意群生成器自动生成了相同的一条意群,如果有此情况,将它删除,把它在环形生成库的频度改为1。然后判别有无重码,有启动智能自动选重(见下文),无重,将该记录的意群文字串、意群代码给出(图4,25),这种给出根据意群输入装置的当前给出型式而有所不同(本节上文已经说明,这里不再重复)。本装置在给出意群文字串和意群代码的同时,还要判别一下本次操作是否处于意群生成或复群生成之中,如果是,还要将当前的给出内容参加到意群生成(图4,26)或复群生成(图4,27)的活动之中,详见下节意群和复群的吐故纳新。

本装置的给出是向世界文生成编辑装置提供信息,它们之间的给出与接收还有一些具体运作细节,参世界文生成编辑装置部分。

3.当用户是对某个复群编码击键时——本装置接收到用户击键4次字母键,并且在这4键编码,码2~3或3~4之间,还插有一个空格键时,根据上述编码击键方法认定用户是对复群进行编码击键。这时本装置取(图4,30)的线路,首先根据第1~2个编码进行计算,在分路索引库(图2,1)的复群码1~2索引字段内找到相应记录,然后对复群基本库(图2,4)进行检索,如果没有找到与用户键入的这4个编码相匹配的记录,则为之扑空(图4,31),把复群扑空标志置1,这也就启动了复群的自动生成机构(详见复群的吐故纳新节),然后等待用户下一轮的编码击键。如果本装置在复群基本库(图2,4)相应段内找到了相匹配的记录,根据该记录号检查删除标记库(图1,9),如果用户没有删除它,即继续复群检出(图4,32)和复群合成(图4,33)的运作,本装置在复群基本库(图2,4)取出该记录,得知该复群在合成库(图1,5)的起始记录,然后根据合成库所提供的信息,到意群基本库(图2,7)中逐条取出该复群所包含的所有意群,把它们暂存于复群给出缓冲区(图4,34);同时还进行新生复群的读出运作(图4,35),首先在复群生成库(图2,8)的检索段检索出匹配复群,然后根据合成段的信息,到意群基本库或环形新生库取出该复群的所有组成成分,把它们暂存于复群给出缓冲区(图4,36),并对它们进行检查,如果复群基本库有某复群而用户却用屏幕取串,使复群生成器生成了相同的一条复群,如果检出这种情况,将它删除,把它在复群生成库的频度置1,输入编码改为“****”。然后判别有无重码,如果出现重码,接受自动选重运作(见下文);没有重码,根据当前给出方式进行给出复群的运作(图4,37)。

三、扑空的处理上述给出的运作都是在响应用户以意群为单元编码击键后,检索到相应意群或复群而进行的给出运作;如果没有相应意群或复群,根据下述情况给以处理。

1.扑空——当用户对某一意群或者复群编码击键后,找不到相应意群或复群。本装置认为意群库内缺少相应意群或者复群;当用户是对意群编码击键时,将意群扑空标志(图4,21)置1,然后等待用户下一轮编码击键。当用户是对复群编码击键时,将复群扑空标志(图4,31)置1,然后等待用户下一轮的编码击键。在扑空之后,都在系统提示行用户所键入的编码后面加上一个“?”,用户都能明白,并且会不约而同地进行降级输入。

2.非所要——当用户对某一意群或者复群编码击键后,本装置找到了一条相应的意群或者复群,并且如上文所述给出了。可是,它并非用户所要,这时,用户会不约而同地利用回退键将它们消去,然后进行降级输入。在这个过程中,本装置当发现用户在编码击键之后,使用了回退键,认定是缺少相应意群或者复群,也给意群扑空标志置(图4,21)或者复群扑空标志(图4,31)置1,然后等待用户的下一轮编码击键。

3.均非所要——当用户对某一意群或者复群编码击键后,本装置找到2条或更多相应的意群或复群,并都显示于系统提示行。可是它们都不是用户所要的,用户会不约而同地键入回车消去提示行的编码字符,然后进行降级输入。本装置当发现这种情况,认定是缺少相应意群或者复群,给意群扑空标志(图4,21)或者复群扑空标志(图4,31)置1,然后等待用户下一轮的编码击键。

4.降级输入——上述逻列了扑空的三种情况,当这三种情况之一出现时,用户都有不约而同的操作,我们将这些不约而同的操作,确定为是规范操作。并且对降级输入这样规定:当对复群编码击键后扑空,降级为意群输入,依次逐条对该复群的各意群编码击键输入。如果对意群编码击键后扑空,可以降级为全部逐个以单字编码击键输入;也可以输入一条意群加上1~2个单字的组合的编码击键输入。这样已如上述,当出现扑空时,本装置已经启动了意群或复群的自动生成运作;在用户进行降级输入的过程中,本装置利用后随输入信息自动生成所缺少的意群和复群。其生成细节见下文意群或者复群的吐故纳新。

第五节、意群和复群的吐故纳新本装置响应用户面向意群的编码击键,借助于意群库,给出相应的意群文字串和意群代码。之所以能响应用户千变万化的面向意群的编码击键,还由于连结了一些能追随用户需求而自动生成意群和复群、立即响应用户编码击键、还能自动吐故纳新的功能部件:1.意群生成器——当用户连续以字为单位编码击键时,本生成器被启动,将连续输入的2~4字按排列的方式自动生成1~6条可能的意群文字串,经使用认可的保留,一段时间后没有使用的自动将其复盖:意群生成器(图4,13)含有环形新生库(图2,7),环形新生库有输入编码、意群文字串、频度三个字段。它有一个生成指针,当需要生成一个新意群时,首先检查指针所指记录的频度字段,如果频度值>=2为应保留记录,将指针加1,再检查下一条记录,如果下一条记录的频度值<2就在该处生成,将原有复盖。当指针所指是本库最后记录时,不再加1,而是将它置1,移到库首,继续如上循环。意群生成器有一条来自操作单字库的进入虚线,如(图4,13)所示,表示每当用户对单字编码击键给出单字时,都向意群生成器发送信息。意群生成器进行运作(图5)如果是第一个字,即字数计数器=0(本装置给出意群、复群时都将字数计数器清零),记忆该字和它的输入编码,将字数计数器+1(图5,1)。当是连续的第二个字,将这两个字生成一条可能的意群,字1+字2=意群1,指针+1(图5,2);将意群1存于环形新生库的当前指针所指记录(图5,3),频度=1。当是第三个字,字2+字3=意群2;字1+字2+字3=意群3;将意群2,意群3如上所述写于环形新生库(图5,4,3)。当是第四个字,又生成意群4~6三条意群,同样如上所述写于环形新生库(图5,5,3)。根据意群的定义最多是4个字。如果用户连续对4个单字编码击键,将自动生成6条可能的意群,在这当中,也可能不是意群也给生成了。不约而同,非常巧妙,不是意群用户就不会对它编码击键,不会使用它,它的频度永远是1,当下一轮指针来到之时,它就被复盖了。有一点还得说明的是这个环形新生库在用户每次对意群进行编码击键时,都被搜索查找,当查到给出(图4,23,25)时,将其频度+1。

2.复群生成器——当用户对某复群编码击键而扑空时,自动启动本生成器,参考后随降级输入信息,自动生成扑空的复群:复群生成器(图4,27)含有复群生成库(图2,8)。复群生成库包括检索和合成两个部分,两个部分各居一端,它们取从两端开始向中间靠拢的记录形式(图2,8)。检索端包含输入编码、频度、记录号三个字段,这个记录号是指向合成端的倒计数记录号,表示这条复群的组成部分由所指合成段信息合成。合成端含有连词符、记录号两个字段,它的意义作用同合成库,复群生成库内的复群其组成成分来自于意群基本库和环形新生库,所以有两条箭头线指向它们(图2,8)。

已如上述,当用户对复群编码击键,出现扑空情况时(图4,31),本装置将复群扑空标志置1(同时记忆当前输入编码,称为扑空码),等待用户下一轮的编码击键;用户在扑空后,不约而同地降级输入,对组成该复群的意群,逐个编码击键。本装置在响应用户对意群编码击键,检出相应意群时(图4,25,27),都要查询复群扑空标志(FPK=1?)。如果处于复群扑空之后,同时将给出的意群参加复群的生成(图6)。如果是扑空后的第一条意群,记忆相关内容(图6,1);是第二条记忆有关内容的同时,将这两条试组成复群,根据上文所述复群编码规则自动形成该复群的输入编码,称考测码(图6,2)。如果考测码等于扑空码,说明用户需求的就是这条复群,然而将它的有关信息填写于复群生成库(图6,5),将扑空标志清零;如果考测码不等于扑空码继续下一轮的判断生成过程。在这当中还得说明的有,①如果扑空后输入的意群根本不可能成为扑空复群的成分时,例如第二条意群的第1个编码如果不等于扑空码的第3码,就得等于第2码,否则不可能成为所扑空的复群,就把关于生成这条扑空复群的所有记忆释放,复群扑空标志清零。②确定了试生成的复群就是扑空的复群,将所生成的复群填写于复群生成库(图2,8),频度=1,该库的相关指针移动。其中合成段的连词符比上文所述多出一个内容,第6~5位等于00时表示左边是一条指向意群基本库的意群记录号;等于01时表示左边是一个指向环形新生库记录号。③本装置响应用户对复群编码击键,都要检索复群生成库,检出时将其频度+1。④环形新生库(图2,7)和复群生成库(图2,8)当中的意群复群都没有意群代码字段,因为自动生成的意群或复群属未定型,本装置在给出这些未定型意群或复群时再给它们加上表示未定型的意群标识,世界文生成编辑装置对它们的处理有别(详下文)。

3.混合生成器——当用户对某意群编码击键扑空,或者复群扑空后又加上意群扑空时,自动启动本生成器,然后参考后随降级输入信息,生成扑空意群;如果是后一情况,又把所生成的意群参加到当前所扑空的复群运作中去,同时生成所扑空的意群和复群:本装置响应用户对意群编码击键而扑空(图4,21)时,将意群扑空标志置1,同时记忆其输入编码,称为意群扑空码。扑空后的意群输入、单字输入都要访问混合生成器(图4,26),混合生成器的运作流程与复群生成器相似,可以类推得出。每当后随意群或者单字输入时都将它们试组成扑空意群,产生扑空意群的考测码,如果考测码等于意群扑空码说明正是用户需求的意群,然而将它纳入意群生成库;这时,如果是双重扑空,即输复群扑空,降级输意群又是扑空的情况下。将试组成功的意群纳入环形新生库(图4,13)之同时,再送一份给复群生成器(图4,27),继续复群的生成。在混合生成器运作的过程当中,也可以如上述类推,根据不可能成为扑空后意群而中止混合生成器工作,将有关数据清零。

4.屏幕取串部件——当用户想取当前屏幕上某意群开始的串,击该意群编码,在其1~2码之间插入一个空格,本部件即被启动:上述三个生成器都是在用户不知不觉的情况下工作,无需用户参与而运作的。而屏幕取串部件不同,当用户想取当前屏幕上某意群开始的串,只要对首条意群编码击键,在第1~2编码之间插入一个空格,本部件即被启动,在意群输入装置整体运行给出该意群的当中,本部件搜索屏幕缓冲区,将当前屏幕该意群变色显示,如果用户再键入一个空格,变色显示加长至下一个意群末,再键入空格再加长;当用户键入其它键时,屏幕取串结束,将所取串作为新生复群加入复群生成库,并同时作为用户的当前输入给出。

5.自动遗忘部件——每当意群输入装置运作初始化时,本部件运作,如果新生意群或复群数超过某个数量时,将低频端的20%删除,腾出空间预备继续生成:意群生成器不断运作,环形新生库(图2,7)的指针虽然终而复始地循环移动,但只有移到频度<2的记录才能生成新的意群,总有一天可能一条频度<2的记录也找不到,意群生成器就不能工作了。复群生成库也有加满了的时候,满了复群生成器也就不能正常工作。其实不然,其中还有自动遗忘部件,自动遗忘部件安装在意群输入装置的初始化运作序列内。每当意群输入装置被装载运行初始化时,自动遗忘部件运作:①搜索环形新生库频度<2的记录,<2的记录总数小于50即进行自动遗忘运作,将它们统计排序,以保留记录总数的80%为目的,计算出一个保留值,然后从头到尾对环形新生库(图2,7)操作,把频度<保留值的记录频度值改为1;频度>=保留值的记录频度值改为2,使被保留的意群重新记频。②检查复群生成库两端的指针,两个指针相距小于200字节即进行自动遗忘运作,根据它们的频度,统计排序,以保留记录总数的80%为目的,计算出一个复群保留值,然后对复群生成库(图2,8)操作。检查检索端,把频度>=保留值的记录移拢,频度值改为2。再根据原记录号,把相应记录移到合成段倒向靠拢,同时将靠拢后的所在记录号填写到检索端当前记录的记录号内,这样频度<保留值的就被复盖了。一直做完所有记录。

意群和复群的吐故纳新主要由上述五个部件运作完成。这吐故纳新工作还有如下运作内容:①对于本装置给出的意群和复群,文稿顾问系统设有一个统计部件,对所有来自于意群基本库、复群基本库、环形新生库、复群生成库的意群或复群分别逐个记频。②开发部在版本升级时,根据这个统计部件所记录的数据统计排序,得出一个置换值,将来自环形新生库和复群生成库频度高于置换值的取代意群基本库和复群基本库内频度低于置换值的意群和复群。以满足生成专用版本的需求。③升级后提供给用户时,环形新生库和复群生成库应是空的。

6.现场删除部件——当用户想删除某意群或复群时,用Alt+相应数字键,作类似选重的操作就启动了本部件,将相应单词或复群删除。当重码显示在系统提示行时,相应数字键即系统行显示的数字;当无重,其相应数字键即是1,Alt+1可以将其删除。本部件根据相应数字键的数值与所在记录号匹配,把删除标记库(图2,9)内相应字节的相应位置1,作删除标记。如果用户删除的意群或复群来自环形新生库(图2,7)和复群生成库(图2,8),直接在这两个库中相应记录的输入编码字段,填“****”(使不能被检出),并将它们的频度置1,作为删除。

7.动态信息存盘部件——动态信息存盘部件响应用户关机前击功能键启动,或者与世界文生成编辑装置文件存盘功能连动,将有关意群、复群生成、删除的信息存盘,即将环形新生库(图2,7)、复群生成库(图2,8)和删除标记库(图2,9)自动存盘。下次本部件A被装载运行初始化时又被自动读入。

第六节、智能选重器意群输入装置响应用户面向意群的编码击键,检出相应意群或复群暂存于给出缓冲区,如果发现有重,本智能选重器(图4,38)开始运作。本智能选重器是要在世界文生成编辑装置的配合下才能工作的,后者根据用户已经输入的上文信息,和当前句型等信息,给出一个“只有某某适合”或者“决不是某某”的很确定的信息(详见世界文生成编辑系统部分)。智能选重器到约定处读取这些很确定的信息,然后检查放在给出缓冲区内的意群或复群的意群代码(因为它含有语法、语义信息),如果正好有某某适合者存在,将它确定为用户所需给出,其它删除;相反也是一样。如果不是这样,宁重勿错是原则,将重码给出。如果处于世界文盲打给出方式,将重码送给世界文生成编辑装置,由它的智能选重建议(图7,11)运作完成上述工作。此外还有一些人机结合的选重方法,详世界文生成编辑装置部分。

第二部分、世界文生成编辑装置本装置必须与意群输入装置(图1,1)配合工作;有时还得查询文稿顾问系统(图1,3)顾问知识库内的意群库。所以本装置的流程图(图7)有两个园框,分别表示本装置与这两部分之间的接口和信息交互。本装置也要响应用户的击键操作(图7,1),用户的击键操作有编码击键和编辑击键两个方面,对于编辑方面的操作击键,本装置是直接响应;至于编码击键是通过意群输入装置间接响应的。本装置开始装载运作时要进行一次性的初始化运作:①向意群输入装置询问世界文文件头(图7,9)中有关信息、传递缓冲区(图7,4)地址(这是前者给出、本装置接收除通用给出口以外的一条辅助线路)。②向意群输入装置发送信息,使之以世界文盲打方式给出。以及其它初始化的运作。③根据世界文的要求,把世界文缓冲区(图7,9)当中的几个数据部分设置确立,分别进行0位对齐,设置好有关指针。键表部分为指向正文部分的指针链表,每个链4字节。正文部分以行为单元,每行96字节,链与行一一对应,合用一个指针,称单元指针。每个链分前后二个数据项。当两个数据项均等于零时,表示相应正文行空间没有被使用,链的前项=0为起始,后项=0为结束,已经使用正文行相应的链必定前后两个数据项都不等于零。前项指向前个链,为前个链的编号;后项指向下个链,为下个链的编号。当前单元指针不但指向世界文缓冲区链表部分当前链,也指向正文部分当前行空间,并且指向了屏幕窗口的当前行,三处共用一个指针,准确方便。下文述及的读写指针与单元指针配合,读写指向当前单元的当前具体读写位置。

现结合流程图和实施例,将本装置的技术特征进一步说明如下:第一节、世界文生成世界文生成编辑装置接受部件A的给出,将意群文字串进行显示、文本编辑的同时,将意群代码为元素生成世界文的雏型文件(下面统称世界文):①当部件A给出来自基本意群(复群)库的规范型意群(复群)时,将它们分别作为一个单元显示,单元之间加显一空格,复群内以“-”相连;同时将它们的意群代码写入世界文正文缓冲区。

②当部件A给出来自自动生成的未定型意群、复群时,将它们的意群文字串同上所述显示;然后以它们的标识代码引带这些意群文字串,标出这后随串的长度,一并写入世界文正文缓冲区。

③当部件A给出字符时,同样作为一个单元加一空格同上所述显示;如果它是一个串,以字符串的形式由相应标识代码引带,标出串长度,一并写入世界文正文缓冲区;如果仅是一个字符可以独字节字符标识代码引带,也可以双字节或单字节字符标代码引带写入世界文正文缓冲区。

④当部件A给出重码时,这时如果本部件B处于尾加写作状态,重码全部进入正文,同样将它作为一个单位显示,重码前由数字标出其重码号,全部以反向或另一种颜色显示;同时,将它们以意群或复群的重码标识代码引带,一并写入世界文正文缓冲区。它们可以响应即时的或者是事后的人工智能选重操作,或者是人工与自动的结合选重运作。

下面结合附图,将生成世界文的情况作进一步的说明。

世界文生成器(图7,5)间接响应用户的编码击键操作。当意群输入装置响应用户编码击键,将相应意群和意群代码给出,这给出的内容就是本部件所接收的内容。首先要说明的是,它们之间的给出与接收通过两条线路进行,一条直接来自意群输入装置。另一条是到传递缓冲区(图7,4)取回有关数据。其运作是:1.当意群输入装置响应用户对意群编码击键后,直接给出一个意群标志和后随4个字节的意群代码;同时将相应意群文字串放到传递缓冲区(图7,4)。本部件(图7,5)首先检查世界文缓冲区的读写指针,取所指读写地址偏移量检查,如果低字节0~1位不等于0,给出出错信息,进行0位对齐校准;如果=0,将当前意群代码写入,后移读写指针。同时到传递缓冲区取回相应的意群文字串,并把意群文字串连同一字节空格交给显示输出部件(图7,6),让显示输出部件将它们进行显示输出处理。这是对来自意群基本库的意群的运作过程。如果是来自环形新生库的意群,意群输入装置的给出一样,所不同的是其意群代码前3字节是FFFE01H,后一字节为空,等待将后随成分的总字节数填入,这是未定型意群标志码(详下文意群代码编制章节)。本部件(图7,5)将这个未定型意群标志码(末字节填入后随串字节数)+该意群文字串(应等于意群代码的整倍数,不足补空格)写到世界文缓冲区,后移读写指针。同时也将该意群文字串+一字节空格送显示输出部件(图7,6)进行显示输出处理。

2.当意群输入装置响应用户对复群编码击键后,直接给出一个复群标志,后随4字节该复群的意群代码,接着给出首条成分意群的连词符+它们的意群代码,同时将首条意群文字串放到传递缓冲区;本部件(图7,5)将该复群的意群代码写入世界文缓冲区,后移指针,然后读取这个连词符弃去后随意群代码,到传递缓冲区取回该成分意群文字串,后加“-”交给显示输出部件(图7,6)进行显示输出处理。接着,意群输入装置又给出下一个成分意群的连词符和意群代码,本部件如上读取和弃去,判断连词符第7位是否=1,如果不等于1,继续到传递缓冲区取回意群文字串后加“-”送显示输出部件(图7,6)显示输出;如果该连词符第7位=1,为之最后一个成分意群,到传递缓冲区取回意群文字串后加一字节空格,送显示输出部件(图7,6)进行显示输出处理。这是来自复群基本库的复群运作过程。如果是来自复群生成库的复群,本部件所接到的意群代码前3字节将是FFFE02H(末字节同样等待填入后随串字节数)为未定型复群标志码,本部件(图7,5)将该复群所有意群文字串(包括中间的“-”)+一字节空格送显示输出部件(图7,6)进行显示输出处理;这时要写入世界文的数据串有这样一个情况:这个未定型复群当中所含意群如果是来自意群基本库直接以它的意群代码加入要写入的数据串,如果来自环形新生库,是一个未定型意群,同上节将这个未定型意群标志码(末字节填入后随串字节数)+该意群文字串(不必等于意群代码的整倍数)纳入要写入的数据串,将这复群所有数据接收完,再把这个要写入的数据串,未定型复群标志+2字节串长度+该复群的所有后随成分(是意群代码的整倍数),写入世界文缓冲区,后移指针。

3.当意群输入装置响应用户对单字编码击键后,直接给出该汉字的字符内码,本部件(图7,5)将它后加一空格送显示输出部件(图7,6)显示输出。同时记忆这个汉字,如果用户继续对单字编码击键,同样送显示部,记忆。如果用户结束了对单字编码。将这几个单字一道取双字节字符码标FFFE06H(末字节填入后随串字节数)加上这几个2字节汉字内码一同写入世界文缓冲区,后移指针。如果直接给出的是双字节标点符号,将它们送显示输出部件时不后加空格。写入世界文缓冲区同汉字一样处理(除“。!?”外);如果是标点符号“。!?”,将它们与单字节的“.!?”一样,用独字节字符FFFE203FH(问号??),FFFE2021H(感叹号!!),FFFE202EH(句号。.)写入世界文缓冲区。

4.当用户直接键入单字节英文字母、数字、空格等ASCLL码字符时,意群输入装置将它们直接给出,本部件(图7,5)也将它们直接送显示输出部件(图7,6)显示输出。同时暂作备份,直到输入空格(当前串包括空格)或用户不再输入ASCLL码字符时,再将它以们单字节字符标(FFFE05H后填入后随串字节数)+这些单字节字符串(应为整倍数)写入世界文缓冲区;同时给显示输出部件一个空格(最后是空格的不必加空格)。如果用户继续输入ASCLL码字符,再用单字节字符标重复上述运作。如果仅是一个单字节字符,可使用独字节字符标(FFFE20H+这个单字节字符)写入世界文缓冲区;给出显示输出的还要后加一个空格。

5.当意群输入装置响应用户编码击键后,出现重码,直接给出一个重码标志,后随1字节重码数。本部件(图7,5)利用重码标志前3字节为FFFE10H+1字节重码数写入世界文缓冲区。随后意群输入装置对它的相重成分如同上文意群或复群所述一样给出,本部件也一样处理后写入世界文缓冲区,直至重码结束;同样将应显示输出的内容送显示输出部件(图7,6)显示输出。在这个过程当中,本部还启动智能选重建议(图7,11)运作,进行相应的自动智能选重运作,参下文。

上述由意群输入装置与本部件(图7,5)之间的给出与接收还得特别说明3点:①前者(图7,2)直接给出必须等本部件取走后才能再给出;前者把一些数据放到缓冲区事先检查是空时再放入,本部件取走后则将该区清零。②前者直接给出的内容,其数据代码值应确保没有冲突,如意群标数据代码值=80H,复群=81H,重码=82H,汉字>A0H,连词符01~A0H或90H~9EH(末条),4字节意群代码紧接意群或复群标之后,连续读取,所以它们绝对不冲突。这些问题在具体实施例内解决(它不涉及进入世界流通的世界文),以此类推,确保它们不矛盾。③上文1.~5.所述,将某某写入世界文缓冲区,是指根据单元指针所指写到世界文缓冲区正文部分的当前单元;送显示输出部件显示输出,也是根据这个单元指针显示到屏幕窗口当前相应的屏幕行上。如果当前该显示输出的串还没有显示完,屏幕就已经满了,剩余部分不显示,在屏幕最后显示一个“+”表示后面还有内容,同时在世界文缓冲区当前行空间内容后加入FFFE208DH为自动换行符。

第二节、世界文结构特征世界文以意群代码为元素构成,意群代码为定长的16进制数值代码。一个定长的16进制数值对应于一个意群,它代表着这个意群以及这个意群在各种语言文字那里相应的意群文字串,并含有语法、语义信息,关于意群代码更多的信息参世界文电子辞典编制部分有关意群代码章节。

如上所述,世界文生成器(图7,5)根据意群输入装置(图7,2)响应用户编码击键后给出的一系列信息和数据,作相应处理后写入世界文缓冲区。当用户进行编辑击键,世界文编辑器(图7,8)接收到文件存盘操作时,启动文件管理器(图7,10)将世界文缓冲区内的文件头、正文、注释内容进行存盘处理,生成世界文磁盘文件。世界文磁盘文件与在缓冲区内一样,有文件头、正文、注释三个部分(图7,9),文件头和注释部分对于用户编辑都不可见,用户的编辑操作针对正文部分进行。

一、文件头部分:文件头位于文件头部,用户不可见,长度固定,至少含有如下内容:世界文标识,文种,意群输入装置版本号,世界文生成编辑装置版本号,文稿顾问系统版本号(空为未经顾问),构架群、叙评群、主题群的起始记录号等。

二、正文部分:1.生成、编辑操作时都以0地址对齐,在操作的过程中,都可以取当前地址与待读写数据进行0位对齐检验,例如要写入4字节的意群代码,它的第0~3字节分别写入当前地址低字节0~2位值一致的存贮空间。

2.本装置所生成、编辑的世界文实为世界文的雏型文件,因为还没有经过文稿顾问系统处理。构成世界文的元素是意群代码,意群代码是定长的16进制数值代码,本实施例以最佳长度4字节为例说明。

3.对世界文进行操作时,都是以意群代码的长度,4字节为单元进行,文件中所包含的其它数据字节长度都是意群代码的整倍数。所以操作方便,准确无误。

4.除意群代码以外,还有由标识码引带的一些数据,标识码与意群代码长度一样,它的前2字节代码值是FFFEH,第3字节是具体标识含义,第4字节根据具体标识含义而定,可以是直接给出的内容(如独字节字符标);也它可以是后随串的字节长度,这后随串长度又等于意群代码的整倍数。

5.世界文正文内容主要含有如下数种数据格式:①规范型意群——XXXXXXXXH(代表4字节长度的16进制数值,第4字节4位=0)②规范型复群——XXXXXXXXH(代表4字节长度的16进制数值,第4字节4位=1)③未定型意群——FFFE01H+后随串长+意群文字串(整倍数)

④未定型复群——FFFE02H+后随串长+意群代码……或        同  上      +FFFE01H,串长,意群文字串……⑤双字节字符——FFFE06H+后随串长+双字节汉字⑥单字节字符——FFFE05H+后随串长+单字节字ASCLL字符⑦意群  重码——FFFE10H+重码数+①+①……或①+③……或③+③⑧复群  重码——FFFE10H+重码数+②+②……或②+④……或④+④⑨独字节字符——FFFE200DH(硬回车),FFFE208DH(软回车),FFFE203FH(问号?、?同),FFFE2021H(感叹号!、!同),FFFE202EH(句号。.同)。

6.世界文生成之后,文稿顾问系统对其进行检测顾问的过程中,将修改上述标识;还可能加入一些关于语法、语义的标识码(见下文)。

三、注释部分注释部分为对正文某些内容进行注释的记录,例如对发明型意群的注释,这部分工作在文稿顾问系统下进行,详见下文该部分。

第三节、世界文编辑世界文生成编辑装置接受部件A的给出,将部件A给出的相应版本语言的意群文字串进行显示、文本编辑时,文本编辑的移动光标、插入、删除、文块操作、查找替换等等操作全部以意群、复群为单元进行,如果需要对世界文打印输出时,本部件的文件管理器将其转换成现有技术以字符代码为元素的文件形式,由现有技术的装置打印输出,或者按设置的款式自动插入排版打印控制符后,再由现有技术装置打印输出。

本装置(图7)直接响应用户关于编辑的击键操作,这部分的运作与传统文本编辑有所近似,关于编辑功能的键位定义尽量与现有技术兼容,便于用户击键操作。本装置对于世界文编辑的运作由世界文编辑器(图7,8)这个部件完成,世界文编辑器直接响应用户击键的运作主要有:1.回车换行——世界文编辑显示窗口,用户所见的屏幕光标与世界文缓冲区内读写指针是根据编辑单元(见下文)计数,对应连动的,当用户键入回车,本部件(图7,8)响应,把屏幕光标移到下一行首,或者向上卷屏一行,同样将读写指针移到缓冲区下一行的存贮单元首。在世界文缓冲区当前行尾加FFFE200DH,表示硬回车。然后修改世界文缓冲区内链表部分(图7,9)当前链,使其后项指向下一个空链,读写指针指向这个空链相应正文行空间之首。上文所述屏幕窗口显示满了之时,自动换行也要进行同样的运作。

2.移动光标——每当用户击键,进行对移动光标有关的操作时,本部件立即进行判别,如果光标被移到文件正文内部(离开了文件尾的尾加操作)即向意群输入装置发送信息(图7,8-->2),使其将给出方式切换成世界文校改方式。如果又把光标移到文件尾,进行尾加操作时,又发送信息,使意群输入装置切换成世界文盲打方式给出。每当用户进行移动光标的击键操作,光标总是落在某个意群或复群的头部,意群、复群、重码、独字节字符、双字节字符等都是一个整体,它们是一个编辑单元(意群内汉字不是编辑单元),所以在它们内部,光标是不能进入的。数字串和外文字符串(指原两头空格内之段)也是一个操作单元,移动光标只落在它们之首,但是它们的串内是可以进入的,不过要用户击功能键后才能进入,修改其中字符。与屏幕移动光标相对应的缓冲区内部运作:如果是行内移动,修改读写指针即可。如果移到另一行,或者翻屏操作,还得根据单元指针所指并修改单元指针的指向。如果光标在有内容没有显示完的行内向后移动,当光标移到最后编辑单元时,同行屏幕左移将剩余部分完全显示。

3.插入——当光标在上述某个单元之首,如果用户进行输入的有关操作,本部件立即以插入作响应。将光标后内容后移,显示出新插入的内容。如果屏幕显示范围已满,还有一个或一个以上的编辑单元没有显示时,就得进行插行运作。相应缓冲区内部运作则要修改链表,作插入新行的链接等运作。

4.删除——如上所述的一个编辑单元是一个删除的对象,响应用户击一次删除键将就该编辑单元删除。被删除单元之后内容前移。相应缓冲区文件内部同样将后随内容前移,把删除单元复盖。

5.文块操作——块操作与传统文本编辑的块操作完全兼容,同样有,块标志、块取消、块删除、块移动、块复制、块写盘、块读入等等内容。需要说明的是①同样以编辑单元为元素,把它们包括在一个文件块内,不可将它们拆开。②只设置文件行块,废除距形块。相应缓冲区文件内部运作根据链表进行,并作相应修改。

6.查找替换——查找替换的单元与上述有所不一,意群、复群(包括未定型),单个汉字(仅指以单字形式存在于正文的),数字、外文串都可以作为查找替换的对象,但是,重码不能。与传统文本编辑的查找替换全兼容,同样有多种形式。屏幕显示和缓冲区内操作相对简单,替换时有可能长度加长而超出一行能显示可能引起自动换行操作。

7.选重操作——当光标落在正文重码之首时响应用户击相应数字键进行选重操作(包括字、意群、复群之重码)。缓冲区文件内部将用户所击数字相应部分保留,其它删除。上文意群输入装置章节内曾提及自动智能选重需世界文生成编辑装置配合工作,这项配合工作是这样运作的,根据意群代码前2个字节可以判断出是否构架群,构架群是构成句型的成分,每当构架群进入世界文缓冲区正文部分时,启动智能选重建议(图7,11)运作,根据本句、段的构架群,到文稿顾问系统(图7,12)的顾问知识库(图8,6)中检出有关构架群之间的连带关系、句型及句型内各空档应该或不应该的内容。如果意群输入装置处于世界文校改型给出方式,重码将显示于系统提示行前向本装置发送询问信息时,本部件将有关信息反馈回去;如果处于世界文盲打(尾加写作)方式给出,重码已送到世界文缓冲区,这时根据上述信息,进行自动智能选重,如果不能十分肯定,将可能性最大的移到前面,仍然以重码形式给出,即人工与智能的混合选重。此外,当光标落在重码之首,响应用户击数字键选重的同时,本部件(图7,11)进行学习,给以记忆,作以后参考。与自动智能选重相关的其它说明参下文文稿顾问系统关于句型分析器、修辞分析器的操作,以及意群代码编制方法等章节。

8.文件管理——由文件管理器(图7,10)实现,响应用户有关文件的击键操作,与现有技术兼容,同样有文件读入、文件保存、存盘退出、放弃退出等内容,实施方法也基本相同,所不同的有:①文件存盘时将涉及文件头的有关数据填入,如注释段起始文件偏移等。②存盘文件包括文件头、正文、注释三个部分的所有内容。③进行文件格式转换,并可以一定款式生成可供直接打印的文件,在文件格式转换时,首先自动将世界文文件保存,然后运作格式转换,见下文。④文件存盘的同时启动意群输入装置的动态信息存盘部件,将意群生成和删除相关的三个信息文件一并存盘(参该章)。

9.格式转换——世界文文件的目的是进行高新人工智能处理,实现不同语言文字之间的自动转换;与现有技术以字符为单元,以打印输出,图文并茂,字体多种飘亮为目的完全不同。如果需要对世界文打印输出时,通过文件格式转换,转换成现有技术以字符为元素的文件形式,由现有技术的装置打印输出。或者让用户设置款式,自动在转换成文本文件的过程中插入排版打印控制符,再由现有技术软件打印输出。这个过程的运作如下:①简单转换,例如转换成与WPS或者其它现有编辑软件相兼容的格式,本装置设置一个对话框,将目标格式标出,由用户选择使用。其内部运作如同下文读文件输出显示那样,生成相应的基于字符的文件。

②款式转换,与简单转换相似,在转换成与现有技术相兼容基于字符的文件同时,自动在适当的地方加入排版打印的控制符。本装置交付用户之前,已准备了若干的款式供选择使用,款式的安排面向应用,例如分书信、便条、单题材料、公文、通知、合同等等。然后再根据版式、标题字体、字号等设定不同款式。例如单题材料1式:16开纸张、标题居中、黑体3号、正文楷体4号;单题材料2式:A4纸张、标题左前、楷体3号、正文宋体4号。当用户选择了1式,出对话框,要求输入打印软件。如用户输入WPS,本部件以与WPS相兼容的控制符加到正文适当的位置。如果用户所选是华光系统,本部件以与华光相兼容的控制符加到正文适当的位置。

③新款定义,本部件还响应用户自行定义新款式。将相关数据加到款式库内,也就使款式库多了一条记录。款式库至少含有如下字段:款式名称,纸张开本规格,1级标题排法、字体、字号;2级标题排法、字体、字号;3级标题排法、字体、字号;正文字体、字号;行距、字距;页号格式等。

10.注释修改——世界文文件包括文件头、正文、注释三个部分,其中注释为文稿顾问系统(图1,3)所备用(详下文)。而本部件(图7,8)则响应用户对注释的修改操作,定义一功能键,由击功能键后运作,如同文件校改,光标离开最后内容自动退出。

第四节、世界文读出当本部件B对世界文雏型文件进行再书写和再编辑时,对已经写入的文件内容通过意群代码检出意群文字串,同时参考标识码进行读出、还原显示:世界文读出器(图7,7)是本装置(图7)的部件之一,它间接响应用户对编辑击键的操作,实现世界文的读出运作。当用户要对原有世界文文件继续编辑时,世界文编辑器(图7,8)将文件读入世界文缓冲区。或者用户进行翻屏操作时,都需要将世界文缓冲区正文部分相应内容读出,进行显示输出。这些运作由本部件完成。

本部件(图7,7)的读出运作都是以意群代码的长度为单元,每次读出4个字节,读出之后对前两个字节进行判断,根据判断后的不同情况进行不同的运作:1.如果这2个字节不等于FFFEH再判它的第4字节4位,如果4位=0为意群代码,然后到意群基本库(图2,6)检索出这个意群代码,由于意群基本库的内容是以意群代码值为序排列存贮的,所以可以快速检索出来。检出后取同记录的意群文字串内容,将意群文字串后加一空格送交显示输出部件(图7,6)进行显示输出。

2.如果这2个字节不等于FFFEH再判它的第4字节4位,如果4位=1为复群的意群代码,然后到复群基本库(图2,4),检出这个意群代码,复群基本库不是以意群代码为序排列建库,所以检出略慢,但该库较小不影响反应速度。检出后取同记录的记录号,根据其值到合成库(图2,5)和意群基本库(图2,6)逐条取出该复群的各个成分意群,将它们的意群文字串,在成分意群文字串之间加上“-”送显示输出部件(图7,6)显示输出。

3.如果这2个字节等于FFFEH,后面3~4字节=810DH,为回车,将它送显示输出部件,进行换行运作,将光标置于该窗口次行之首。如果后面3~4字节=203FH是问号“??”;=2021H是感叹号“!!”;=202EH是句号“。.”,它们是一个句子结束的标志。送显示输出时注意匹配,分别显示为“。?!”。

4.如果这2个字节等于FFFEH,第3个字节=01,为未定型意群直接取出后随串的意群文字串部分,后加一空格送显示输出部件(图7,6)显示输出。

5.如果这2个字节等于FFFEH,第3个字节=02,为未定型复群,对后随串又每取4字节进行检测,如果后随串不等于FFFE01H为意群代码,如上述到意群基本库取出该意群文字串,后加“-”送显示输出部件;如果后随串等于FFFE01H为未定型意群,直接从后随串中取出该意群文字串,后加空格送显示输出部件。以此类推,作完整个复群的各个组成部分。

6.如果这2个字节等于FFFEH,第3个字节=06,为双字节字符串,将后随串中的双字节字符逐个取出,后加一空格送显示输出部件。

7.如果这2个字节等于FFFEH,第3个字节=05,为单字节字符串,将后随单字节字符串取出,直接送显示输出部件。

8.如果这2个字节等于FFFEH,第3个字节=10,为重码,根据后随串中包含的意群代码和标识码,根据所示情况,如同上述运作。这里需特别说明的是在整个重码当中,送交显示输出部件(图7,6)的内容,都是以反向显示(或指定的颜色)进行显示输出的。

9.如果用户读入编辑的世界文文件来自于利用浏览阅读器(图9,4)摘录于他人世界文文件内容,这就有可能有些意群或复群通过上文所述方法途径而不能检出。这时世界文读出器(图7,7)将到文稿顾问系统(图7,12)所带的有关库中将其检出,如上所述处理后送显示输出部件。这里需要说明的是意群输入装置所面向的范围小于文稿顾问系统所面向的范围,所以后者所配备顾问知识库(图8,6)中的意群库比意群输入装置所配备的意群库要大得多。话说回来,如果意群输入装置也配备那样大的意群库,实用性就受到影响了,因为会不必要地增加重码数量,影响输入效率。

第三部分、文稿顾问系统文稿顾问系统在用户作者进行文稿校改时,对世界文的雏型文件逐句进行顾问,分析句型和句子成分并给以标识性显示,对不规范的内容与用户作者进行对话,接受修改、确认,自动把有关信息纳入意群代码的义法段或者插入标识码,然而将世界文的雏型文件变为正式的世界文:文稿顾问系统(图1,3)(图8)面向某一种语言文字,它具有多种不同的语言文字版本。不仅如此,还可以根据不同的用户有则重地作成专用版本,例如出版社用户版,学生专用版以及一些专业性很强的专用版本(如医学、电子等等),以便对专业性问题进行顾问。不管则重于那一方面,它们都配备有各自的顾问知识库(图8,6),顾问知识库含有较大的来自世界文电子辞典的意群库。本系统对世界文进行顾问时首先将世界文雏型文件读入缓冲区(图8,1),如果本系统与世界文生成编辑装置、意群输入装置作系统集成的话,这个读入世界文的缓冲区可以使用世界文生成编辑装置的世界文缓冲区(图7,9)。不管是否集成系统,世界文缓冲区如何安排,对世界文进行顾问都分四个不同层次进行,本系统配备了四个主要相应部件,即意群检测器(图8,2)、句型分析器(图8,3)、修辞分析器(图8,4)、语言革新检测器(图8,5),这四个主要部件,都与其它部件有联系,如人机对话部件(图8,7)、显示部件(图8,8)、顾问建议部件(图8,9)、顾问知识库(图8,6),所以在它们之间都有两条双向的线条相连。同时,在必要的时候,它们都要响应作者的键盘操作,以便与作者深入对话有关问题以及对文章作小范围的修改。下面结合实施例进一步说明。

第一节、意群检测器意群检测器(图8,2)对世界文的每个意群进行检测,检测到是意群或复群而没有按意群或复群输入的不规范现象,将它们改为规范的形式,检测到未定型意群或复群,借人机对话参考用户作者的见解,将它们修改为发明型、自由型、规范型或专用群,如果均不属于这些确切类型的复群将它解散为意群形式记录,其中如果是发明型还要求用户作者给以定义或注解:一、扫描重码——如果世界文文件内还存在重码,证明用户作者还没有进行校改工作,本系统给出提示信息“作者必须自行校改、定稿后再运行本系统进行顾问”。扫描重码的运作很简单,根据意群代码的编码特点,每次取4字节为一单元,检测前2字节,如果不等于FFFEH,进行下一单元的读出和检测;如果等于,再查第3字节=10H,即存在重码,给出提示,退出本系统;如果第3字节不等于10H,并且<20H,读第4字节,根据该字节数值跳开它们的后随串,仍然以4字节为单元继续扫描检测。直到检测完整个世界文文件,没有发现重码标识,即进行下述运作。

二、规范性处理——上文已经述及,世界文生成编辑装置接受用户面向意群的编码击键操作,这个编码单元有复群、意群、单字三个层次。用户完全有可能以字为单元输入了某些意群;以意群为单元输入了某些复群。这些情况会影响世界文的高智能处理,所以有必要对它们进行一次规范性处理。是意群的以意群形式记录;是复群的以复群形式记录。这个运作可以对顾问知识库(图8,6)的意群库事先作相应索引,然后检出判断是否有上述不规范现象,有,将它们改进过来。在这个运作过程中将有关信息通过人机对话部件(图8,7)显示于屏幕,仅让用户明白有这些情况,有利于今后更高效率地使用。

三、未定型意群顾问——在生成世界文的过程中,用户作者可能输入一些未定型意群或复群,世界文生成编辑装置将它们以相应标识码为标志进行记录。本部件(图8,2)就根据这些标志,逐个检出,分别与用户作者进行对话:1.是规范型——本部件检测到未定型意群或复群时,并到顾问知识库检索,如果不是规范型转下文2.运作。如果是规范型,利用规范型的意群代码复盖原有未定型的标识码,给出屏幕信息,继续检索,直至做完整个文件;在这个过程中,如果所检索到的是专有名词,出名人物、出名地点等,跳转下文同五.处理(详下文)。

2.对话——这时,利用人机对话部件(图8,7)与用户作者进行对话,对话可以层次菜单形式进行,将相应未定型显示,下面给出选择菜单如“①发明型,②自由型,③专用群,④规范型,⑤未定解散,”供用户作者选择,然后根据用户作者所选,分别运作:①发明型——当用户作者指定是发明型,给出对话框,要求用户作者给出定义或者作简短的注解。例如本发明对于“世界文“这一发明型意群,可以给如下定义:“世界文是以意群代码为元素,含有语法、语义信息,便于智能处理;可百语转换输出的文章、著作的机内存在形式。”本部件(图8,2)将用户作者所给的定义或注解内容记录在世界文的注释部分。

②自由型——当用户作者指定是自由型,检查它的成分意群,如果都是规范型,符合自由型的定义。鉴于自由型随着时间的延续、人们使用的普遍性扩大,有可能是规范型的后补。所以,本部件(图8,2)将它纳入一个特定的文件保存,如果文件内已有该条目,将其频度相加。当本系统(图1,3)与世界文电子辞典(图1,5)进行信息交互时,将它反馈给后者。另一方面,在世界文文件里面,将它作解散处理,即解散为意群的型式进行记录(因为自由型对文章语意理解,不同语言文字的转换没有帮助)。例如上文例子短文中的“字符-时代、意群-代码、世界文-文件”等。

③专用群——当用户作者指定是专用群,通过人机对话部件(图8,7)与用户作者对话,指出该专用群的进一步的属性,例如“人名、地名、机构名、材料、装置、部件、产品……等等”。假如被用户作者指定为“产品名”,再进一步询问:“电子产品、软件产品、硬件产品、机械产品……等等”,假定是软件产品,那么以表示软硬件产品双字节串的专用群代码FFFD74H(因本例原未定型为双字节)取代原有世界文文件内该未定型标识码前3字节。

④规范型——可能出现这种情况,上述规范化处理后,还有一些未定型意群或复群,用户作者否定属于上述①~③的情况,并且指出它是属于规范型的。本部件(图8,2)作两种可行的处理,于是提示用户联网,直接检索网络上世界文站点上的世界文电子辞典,将问题解决。第二种可行情况是暂作保留,未定型标识码不变,待文稿顾问系统参考本机光盘上的世界文电子辞典后,或者与世界网络上的世界文电子词典交互信息后再回头处理。

⑤未定解散——当用户作者感到某未定型都不归属于上述数种情况,对未定型复群只好进行解散处理,例如“世界文-浏览器”一未定型复群,将其解散为上述已经定为发明型的“世界文”,和规范型意群“浏览器”。如果是意群,没有什么不好定的,如果算不上发明型,就以专用群处理。这里有一点需要指出的是给以解散处理的未定型复群,其中可能含有未定型意群,这个未定型意群字符串的长度在世界文生成时没有要求它是意群代码的整倍数,这时应作相应检测,如果不是整倍数,将其修整成整倍数。

在进行上述人机对话的过程中,本部件(图8,2)同时对当前对话的意群或复群做了备份记录,当下文再遇到时,给出显示提示,就不必重复对话等运作了。

四、字符串顾问——在世界文生成的过程中,除了未定型意群或复群采用标识码作另时标识外,还有使用单、双字节串两个标识码所引带的字符串。从用户作者书写成文的度看,它们均属于专用群。所以也象上述未定型被指定为专用群那样进行人机对话等运作。

五、同名辩识——接上文1.检索到是专用名词时,在人机对话框显示该专有名词,以及该意群代码所带有的信息,例如检索到“爱迪生”时,显示“爱迪生——美国大发明家(Y/N)?”,请用户作者辩识,如果用户作者不是指他,而是指其它一个同名的普通人。回答(N),本部件以专用群处理,同上作人机对话,改用相应专用群标识代码。

上述一~五各道工序在进行的过程中,都有相应的记忆副本,每检测到某个目标内容,首先查询记忆副本,记忆副本已有记载的内容就不必重复,看具体内容直接进行相同处理,或者向用户作者提示,得到认可后再处理。其中部分与世界文电子辞典吐故纳新有关的信息,将在适当的时候反馈给世界文管理站点。

第二节、句型分析器句型分析器(图8,3)对雏型文件逐句进行句型分析,句型的各个部分以一醒目的颜色显示,句子主、谓、宾、定、状等主要成分、从句,以及不规范、不明确的部分给以标识性显示,使用户作者一目了然,符合自我本意的给以肯定,不符合自我本意的给以纠正,然后自动把有关句型和句子成分等信息纳入意群代码义法段或插入标识代码:句子获取——标点符号“。?!”三者是句子结束的标志,本部件(图8,3)椐此为标志截取,作为一个句型分析的单元(下称当前句)。

句型识别——已如上述,构架群是构成世界文句型的成分,它的意群代码值处于一个数(3)分别被形成为一新符号用于传输。结果,总共四个码字被发送用于信息位D(1)、D(2)和D(3),结果是一码率3/4码。

下表1表示由欧洲数字视频广播标准所定义的五种码率的紧缩模式的一个例子。

表1

本部件(图8,3)经过上述运作,当用户作者认可,或者是修改之后,当前句的句型、句子成分得以确定之后。本部件将上述分析的结果通过修改意群代码的语法段信息,必要时还自动插入标识码将这些确定后的信息保留于世界文。例如上例句子,将Time意群代码的语法段给以主语标记,flies意群代码的语法段给以谓语标记,等等类推,对于复杂的句型,将句型标识码插入当前句首,对于进一步分析的从句,以相应从句标识代码引带,从句内同样在意群代码的语法段标记句子成分,不进一步分析的较简单从句,仅在语法段标记从句。有关这些代码详细情况,参考本说明书第五部分。

上述要求用户作者修改的内容,在极少数情况下或许是正确的,它仅是在转换成其它语言文字时比较困难,容易造成误解。这些情况通过人机对话部件(图8,7)或顾问建议部件(图8,9)向用户作者说明。

第三节、修辞分析器修辞分析器(图8,4)是文稿顾问系统的第三层次顾问,主要是分析并检出修辞、关联句子成分之间是否存在修辞方面的错误、或不规范、不明确的内容,以及某些可能在语言转换过程中产生误解的成分或词汇,如果有,与用户作者对话,接受修改,然后通过自动修改意群代码的义法段或者插入标识码,将有关信息纳入世界文。关于语义表达、词语搭配、修辞等方面的分析和顾问。主要针对两个方面进行运作。一是曾对本语言(文稿顾问系统版本所面向的语言)方面,对来自本语言的问题进行顾问把关。另一方面曾对转换成其它语言时可能产生信息缺失、误解、转换错误的一些内容,进行检测、顾问。修辞分析的运作与编制世界文电子辞典过程中对叙评群的提取、分类和意群代码的给定有关,有的内容有懒于本发明装置运行后的经验积累。

第四节、语言革新检测器语言革新检测器(图8,5)根据相应文稿顾问系统版本语言的语言革新机构的决议,检出不符合语言革新的内容,显示有关信息或建议,请用户作者修改。例如对不规范词汇、术语、废弃词语的检出,建议修改;以及汉字简化等等都可以通过语言革新检测器拣出修改。本功能部件的设置和运作,对于语言文字的革新发展有着积极的作用。

第五节、非世界文预处理器非世界文预处理器(图8,10)能读入现有技术基于字符代码的文本文件,将它绕过意群输入装置、世界文生成编辑装置而转换成世界文。不过开通这个旁路可以方便部分场合使用,但是这个旁路对于转换成其它语言文字显示输出的质量是有影响的。因为它不是用户作者当时随着意群思维流而产生;如果不是原作者使用,效果可能更差。本预处理器的运作简单,利用意群库,根据文字串检出相应意群代码,以意群代码取代原有字符代码,从而生成以意群代码为元素记录的世界文文件。然后进入本文稿顾问系统进行文稿顾问的运作。这种预处理如果面向没有词汇间隔的中文,可以对待转换的文本句子从左到右按4、3、2、1字次试行切分,同时查询意群库,查到有相同意群文字串的认可作另时记忆,继续减字再试。如果整个4~2的试切分过程只查询到一条就确定这条意群文字串,将它切分下来,将意群库相应意群代码取出,再进行下一个轮回;如果查询到二条或更多,就应根据上下文进行判定,或者让用户参与确定其中之一后,取出相应意群代码,再进行下一个轮回;如果一条都没有,将前面一个字切分下来,此为单用字。以此类推,逐步切分,逐步取出相应意群代码转换成世界文雏型文件,再进行本文稿顾问系统的运作。

本预处理器的运作程序可以安排在文稿顾问系统之首,一进入便检测是否为世界文雏型文件或者传统的文本文件,是后者给出提示,进入非世界文预处理器的运作;是世界文则直接运作文稿顾问。

第六节、灵活运作方式文稿顾问系统是一个机能整体,而它们四个主要部件,意群检测器、句型分析器、修辞分析器和语言革新检测器具有明显的可独立性。然而有如下数种灵活的运作方式:①分批处理——例如等意群检测器处理完整个世界文文件后,句型分析器再运作,对整个世界文文件进行句型分析等有关运作;继后由修辞分析器运作。在这个过程中,对发现问题的停下来与用户作者进行人机对话;没有问题的就一扫而过,不与用户作者对话。

②逐句进行——可以与文章校改工作结合起来。当用户书写完世界文原稿后,即可启动文稿顾问系统,让文稿顾问系统与世界文生成编辑装置配合工作,校改工作逐句进行,每当进入一个句子,依次进行上述意群检测、句型分析、修辞分析等层次的顾问,即使没有问题,也待用户作者作出认可的击键后,再进入下一轮的运作。这个方式作为推荐方式、或隐含方式提供。

③约定运作——对于非世界文文件,不能由原用户作者操作文稿顾问系统时。可以将所有不规范、或许是不正确的内容根据约定、或者概率处理,整个文稿顾问无需人工干预。显然,这种做法是会降低文件质量的,是一个不提倡的备用做法。

将上述数种方式同时提供,使用户可以根据自己的需要,灵活运作。

第七节、统计和信息反馈部件本系统(图8)还附有一个统计和信息反馈部件,每当文稿顾问结束时被启动,例如对所用意群、有关信息(部分来自意群检测器运作的附本)等进行统计,并在世界文文件头立标,避免重复。这个程序对于普通用户进行个性化升级时有参考价值。对于出版社专版用处更大,它将各种意群进行统计,在适当的时候,将有关数据,发明型有关信息等自动反馈到世界文管理站点。

第八节、专用版本的侧重面上文已经述及,本系统(图8)每个实施例都面向某一种语言文字,然而具有多种不同的语言文字版本;还可以根据不同的用户群有则重地作成若干专用版本。各种专用版本根据所面向的对象不同而有所侧重。这里特别给以说明的是出版社专用版,它除了面向出版部门的侧重内容外,还有一个重要的任务,那就是为世界文管理站点返回各种有关信息。因为经过出版、编辑部门审稿,给予发表、出版的文章不存在语言文字错误,它是语言文字、社会、科技发展的前沿阵地。然而在这里设置一道自动工序,对所有发表、出版的文章进行实时统计,例如意群使用频度统计,句型使用频度统计,发明型意群(的收集)统计等等。如此得来的资料和数据,对于世界文的升级与发展,对于各种语言文字的发展,对于科技信息事业,对于整个人类共同语言文字的形成将产生非常重大的意义。

第九节、网络支持如果文稿顾问系统对作者的文稿顾问有所力不从心,例如标注了许多未定型意群或复群,而在这当中,作者认为应是规范型的,可能是用户作者所撰写的文章太专、太高深,文稿顾问系统所备专用意群库内容不够时,可以通过网络,实时得到世界文管理站点的支持。如果用户没有上网,可以将有关问题记入一个特定文件,待上网后再获取世界文管理站点的支持。实时收集有关信息,例如有关世界文电子辞典(详下文)吐故纳新的信息等等,提供多方支持和服务。

世界文存在于存贮器,也可以存在于磁记录或者其它各种载体,与传统的文本文件相比,中文双字节字符代码,意群代码4字节只相当2个字的长度,而一条意群含2~4字,复群可以数十个字。拼音文字平均单词含5个字符,短语就更长了,不管是以单字节还是双字节的拼音文字字符代码计算,世界文都具有明显的节省存贮空间的优点。世界文与传统文本文件一样,同样可以在各种网络、通讯、传输系统里进行传输和通讯。

第四部分、浏览阅读器浏览阅读器也是面向某一种语言文字,也具有多种不同的语言文字的版本。它们读入世界文,什么语言文字版本将就世界文转换成什么语言文字显示输出:对于一些专业性特强的专业用户,可以提供专业专用版本。这些版本也配备有各自专用的意群库支持,这些专用的意群库也都是对世界文电子辞典的有关内容各取所需而成。这里所述浏览阅读器是面向某一种语言文字,绝大多数用户已经够满足了。除此之外,我们还可以为具有双语能力的用户读者提供一些双语世界文浏览装置。对于用户来说,如果想体验原文的文采、或者为了学外语时,可以采用读原文功能键,使本浏览器以原文的意群文字串显示输出,或者两种语言同时显示给出。读者可以对转换文字进行修改,或者仅仅给一个转换不佳的评注,这些信息浏览器自动记录下来,在不影响浏览阅读的情况下,将这些信息返回给世界文管理站点。这些信息将是文稿顾问系统改进升级的参考之一。

这双语是指浏览阅读器所面向的版本语言,再加一种生成该世界文时的语言(称原文)。例如国内许多能通读英语的读者,可使用中英双语浏览器。不但能将来源于各种语言文字的世界文转换成中文,还能对以英语为原文的世界文文件直接给出英文,这种双语浏览器没有必要是两个文种版本的相加,它们只需要在单语种世界文浏览器所配备的专用意群库上,增加相应语种的意群文字串(如上述中英双语版增加英文意群文字串)。因为以原文的形式显示输出,主要是把意群代码转换成相应文字串,一般可以达到100%的复原。没有转换成不同语种的文字那样,需要多道复杂的工序。

浏览阅读器能否最准确、最快捷地工作是对世界文电子辞典和文稿顾问系统的检验。后两者所提供的信息越准确、越全面,浏览阅读器就工作得越好。

浏览阅读器(图9)包括普通运作部件和语言运作部件两大部分。普通运作部件(图9,1~5)有响应用户键盘操作、翻屏、查询处理、文摘处理、文件管理等部件,它们完成相应的普通运作。语言运作部件(图9,6~11)是浏览阅读器实现语言给出、转换运作的主要部件,现以主要运作程序说明如下。

一、语种判断器语种判断器(图9,7)根据世界文的文件头内有关于“文种”的记载,和本浏览阅读器的语言文字版本进行对比判断,如果是相同转下文第二条处理,如果不同转下文第三条处理,如果本浏览器是双语版转下文第四条处理。显然,在下述过程中读入当前句于转换缓冲区(图9,6)是不可缺少的循环动作,且把这个被读入的当前句称为读入句(下同)。

二、本语输出当世界文文件头所记载的文种与本浏览阅读器版本文种一致时,为同种语言文字,然而只需根据世界文文件中的意群代码转换成意群文字串,数条文字串共用一个意群代码的同义、近义词汇通过意群代码的义法段信息或有关标识代码复原,以原文显示输出,本语输出比较简单,并能达到100%地还原。

三、语言转换如果世界文文件头所记载的文种与本浏览器版本文种不一致,就需要进行语言转换。语言转换是本浏览器进行不同语言转换的关键工作,它由语言转换装置(图9,9)完成。语言转换装置首先根据标识代码读出句型,或者利用世界文构架群代码进行判断,得出当前句原文句型,查找句型规则库,找出与给出语言相应的句型款式作为给出句的句型,根据两个句型的对应关系、原文句意群代码和标识代码检出或选择合适的给出语意群文字串,将它们填入给出句型相应位置,继后检测并处理整个句子各修饰、关联成分之间的修辞、某些语言的个性问题,最后转换结束,给出转换后语言的句子:1.句型检测——如果是复杂的句型,文稿顾问系统已经在世界文中加入了句型标识码,可以借此直接读出当前句所属句型。如果没有标注出具体句型,根据构架群所属代码值的范围,将构架群筛选出来,然后到句型规则库(图9,10)内检索出当前句所属句型,同时将该句型当中符合本浏览器给出文种的款式读入语言转换缓冲区(图9,6),称为给出句句型。

2.文字串的选取——根据读入句的意群代码、意群代码义法段信息、以及一些标识代码逐条到浏览器辞典(图9,11)中的意群库内,取出与本浏览器版本文种一致的意群文字串,与读入句句型各意群代码一一对应,写于语言转换缓冲区(图9,6)。

3.语序调整——根据读入句句型和给出句句型,根据意群代码义法段的义法信息,两种句型各句子成分相应位置,将上款已经选取出来的意群文字串,根据给出句句型,句子成分位置排列。没有特定句型与之相匹配的当前句子,应是更为简单的句子,以主、谓、宾等成分分析,对它们按各语言常规排列语序;把定语、状语放到通常所处的位置即可。

4.修辞处理——对按给出句句型排列的意群文字串新句子的各个成分,参考句型,对各个成分进行修辞检测,如果需要修辞调整的进行相应调整。具体修辞运作来自于本系统的经验积累,例如遇上一些特殊情况,如何选配最合适的词汇;增补一些所面向语言文字特色性的成分,例如汉语无冠词,转换成英文时补上冠词,有的语言对时态特别认真,有的不怎么认真,等等个性借助于修辞处理给以增补。关于这些情况给以特别记录标志,给以规则;句型规则库(图9,10)就是包含句型和这些规则库的统称。

5.转换给出——经上述分步处理后的给出句,就是本浏览器转换给出的语言句子。

四、双语给出如果用户使用的是双语版本,根据用户是否读原文功能键进行相应运作。如果用户没有使用读原文功能键,同上述处理,与单语种版本一样。当用户使用了读原文功能键后,等于上述“本语输出”和“语言转换”两部分同时进行,以句为单位,将两种语言显示输出。这里没有什么更多的说明。

五、信息反馈本浏览阅读器备有文件摘录功能部件(图9,4),它除了响应用户对所浏览文件进行部分摘录,以文件形式存盘保存以外。还响应用户对当前句、段转换不满的操作,当读者感到转换句、段费解,不理想时,用鼠标点阅读不满框,进行简短的有关信息的人机对话,本浏览阅读器将这阅读不满的当前句、段信息自动记录到一个特定文件。也可在用户指点阅读不满时,将转换的其它可能列出,用户读者指出最合适的,自动替换原有部分,这时,本部件将问题所在记录下来。这些摘录的阅读不满句子和问题所在记录,当用户在线浏览时,趁空(不影响用户浏览时间)将这些信息以电子邮件形式反馈到世界文管理站点。

六、翻译者专版在本发明产品推广应用的早期,可能还存在不少专门从事文件翻译工作的人员。向他们提供翻译者专版。提供方便修改环境,特别注意对词汇的修改作自动备份。约定翻译工作者返回这些备份(同上途径),为本系统的版本升级提供研究资料。

第五部分、世界文电子辞典上述四大部件:A)意群输入装置、B)世界文生成编辑装置、C)文稿顾问系统、D)浏览阅读器可以集合在一个装置或系统内运作,也可以各部独立分步运作。除这四大部件之外,还有一大部件,E)世界文电子辞典,本部件不独立或者参与集成、运作,本部件主要存放在世界文管理站点,对部件A、C、D进行数据和信息的支持,同时接受它们的信息反馈进行吐故纳新的运作;还接受有关内容的信息查询服务(主要支持和接受内容的库总括于下文第十节)。

世界文电子辞典(图1,5)根据世界文电子辞典编制流程(图10)生成。世界文电子辞典是上述被支持部件各种语言文字版本,它们各自的意群库、辞典等数据都由本部件提供,或者说本部件是它们的总和。

上文已经述及,意群是人类思维的单元;意群是超越语言文字,超越国界,属于全人类的。相同的意群在不同的语言文字那里,有相应的意群文字串。上文曾举例,当两个不同语言的人走近预定河流时,都用手机向上司汇报:其中那个英国人说:“We are approaching theriver now”;其中那个中国人说:“现在我们走近这条河了”。在这当中,它们用不同的意群文字串表达了相同的意群,这是一个方面;另一方面,在它们的句子里,相应的意群文字串的排列位置有所不同,为什么表示相同意群的“now”与“现在”一个在句首,一个在句尾呢?这是因为,意群是人类思维的单元,还需要借助句型组织成有结构规律的句子,以句子来表达完整的语意。在不同的语言文字之间,相同的意群用不同的意群文字串表示;相同完整的语意借助于不一定相同的句型来体现。然而,“意群是人类思维活动的单元;句型是表达完整语意的语言规律”。这是基于本发明的构思,也是编制世界文电子辞典应尊循的基本路线。编制世界文电子辞典根据世界文电子辞典编制流程(图10)来实现。

第一节、样本语料的选取和处理方法样本语料的选取(图10,1)是编制世界文电子辞典的第一道程序。上文对世界文输入装置的基本库组建,提及选取数量足够大的语料样本,并对它们进行切分处理。其实是这里所说明运作的一个部分,它面向一种语言文字,面向一具体用户群。而辞典(如下同,将“世界文电子辞典”简称为辞典)(图1,5)则是面向世界,面向多种语言文字。具体运作,对于样本语料的选取应当按步就班,分步进行。尽可能选取相同语料具有多文种副本的作为实施的样本语料。至少得取两种语言文字的相同语料,或者能称道的好译本作为本实施例的样本语料,其数量分两部分,用于人工拟定方案的选取有代表性的一定数量的语料为样本语料。在这个基础上,进一步利用本流程(图10)的部件、程序,自动或半自动地进行验证、统计分析时的样本语料尽可能大,能取到的,够条件的全部采用。运作过程是将所选取的样本语料根据普通领域、各行业领域分步进行,逐个逐个进行如下运作。首先以中英两种具有代表性的语言文字作为第一个配对进行,当这两种语言文字的世界文电子辞典建好后。通过本流程的语言转换实验装置(图10,10)的实验,基本上这两种语言文字可以准确地相互转换后,再以它们为基础,将其它语言文字逐个加入。先取复盖面最广的3~5种语言文字作为第一个实施圈,产生第一批基于本发明的产品,投放社会,然后以社会应用为背景,继续扩大范围并提高实施质量,产生更高效能的产品。

对上述所选语料作三种型式处理:①两种或多种语料以句为单元,将相应句逻列在一处,前后顺序排列,作为一个自然段。②两种或多种语料以自然段为单元,将不同文种相应的段逻列于连续的上下自然段。③以文章为单元,将相同内容的不同文字副本给以相同文件名,而扩展名用以标识不同的文字副本。将所选取的语料根据上述三种不同形式,语料所属行业等给以有章可循的文件名和扩展名,将它们集合在一个局域网服务器内,形成样本语料库(图10,3),同时利用另一个服务器或者同一个服务器建立不同目录或分区,复制整个样本语料库。取其中一份再进行如下各程序的运作。显然,一边进行下述运作,一边还可以选取更多的语料纳入语料库(两份同时纳入)。现以中英文为第一个配对实施例说明如下。

第二节、切分配对器切分配对器(图10,4)对样本语料库(图10,2)操作。上述处理后的样本语料中文部分还是传统方式,词汇之间没有间隔。本部件(图10,4)利用基于现有的英汉辞典,找出英文句各个短语(改复群型式)或单词,在其后标上流水号和词性;同时根据辞典的中文释义,在中文句内找出相应词语,在其前后插一空格以便与其它词汇分开,标上与相同的流水号,不能匹配的不处理。例如:Manyla great2a writers3n were4v not5 appreciated6v fullyf7a while8they9 were10valive11.许多1伟大的2作家3在生前往往不5被人们充分7地赏识6。

如上例在词汇后插入流水号,英文流水号后是词性。词性只标注动词v、及物动vt、不及物动vi、名词n、介词p、形容词副词a。经处理后的文件存盘。该步运作不需要人工干预,令其自动作完整个样本语料库为止。或者选取一些现有技术的语料库,改进成以意群为单元的型式供下述程序使用。

第三节、句型初选部“意群是人类思维活动的单元;句型是表达完整语意的语言规律”。句型把意群组织成有结构规律的句子;与所表达完整语意相关的若干意群就是句子的基本成分,主语、谓语、宾语以及对某成分起修饰限制作用的定语、状语等。不同的语言文字之所以语法不同,主要在句子基本成分的表现方式不同,它们的排列次序不同,所采用的句型不同。句型初选的目的就是要从这些不同之中找出共同的东西。当实施研制人员拟定好一个或若干句型后,借助于句型初选部(图10,5)对样本语料库(图10,2)进行检索、统计、分析;确定后纳入辞典(图10,3)的句型库。之所谓初选主要是在研制者太多干预下完成的,目前语料还是基于字符,还不能基于意群代码自动等识别各种句子成分。

一、句子辩识生成世界文,对世界文进行处理,句子是一个目标单位。对于句子的辩识,不管是中文还是英文,它们的结尾都有句号、问号或感叹号。世界文约定,采用独字节字符标识码表示,所以它们的意群代码分别为FFFE203FH(问号??);FFFE2021H(感叹号!!);FFFE202EH(句号。.)。这3个意群代码就是句子的结束标志。对于基于字符的传统文本,找到这三个符号之一就是一个句子的结束。

二、句子基本类型①简单句——只有一个谓语动词,一个或两个平列的主语。简单句可归纳成5个基本句型:a)主语+连系动词+表语;b)主语+不及物动词;c)主语+及物动词+宾语;d)主语+及物动词+间接宾语+直接宾语;e)主语+及物动词+宾语+补语②平列句——由等立连词或符号把两个或两个以上的简单句连在一起。

③复合句——含有一个或一个以上的从句。从句有主语从句、表语从句、宾语从句、定语从句、状语从句等。

关于基本语法的内容,均可融入句型,以具有普遍规律的句型来总括它们。

三、句型的分类“句型是表达完整语意的语言规律”,显然,对于句型的总结分类必须是依据所表达语意种类进行。例如可以分为一般陈述句型、否定句型、判断句型、疑问句型、比较句型、比喻句型、条件假设句型、时间句型、地点句型、原因句型、结果句型、目的句型、让步句型、被动句型等等。

四、句型归纳整理在现有科技材料中,有少量的材料面向一种语言列举过数百种句型,这是一个可供参考的资料。同时结合其它材料,将它们归纳整理出面向多种语言文字的句型或相同句型下的不同款式。例如实施人员对否定句整理出如下句型:①疑问词(作主)+系表(非介词短语表语);中英同Who is there?    谁在那儿?Which is mine?   哪一个是我的?②疑问词(作主)+谓语(动词+宾语+宾语);中英同Who gives your English lessons?    谁给你们上英语课?③a款:疑问词+主语+系动+(in on引带方位场所词语);英b款:方位场所词语+系动+疑问词+主语;中Whose book is on the desk?  桌子上是谁的书?What new-products have-been turned-out in that factory?那个工厂已经出了(一些)什么新产品?  (一些新产品)④a款:疑问词+zjl+谓语;英b款:...zj2+谓语+疑问词;中注:zj1=in the world,on earth,the devil,the deuce,thedickens,the blazes,ever。

zj2=究竟,到底,毕竟。

What in-the-world do you mean?    你的意思究竟是什么?Who on-the-earth told you that?  那事到底是谁告诉你的?Who the devil is he?              他究竟是谁?What the deuce is the matter?    究竟是怎么回事?What the dickens is it?          那到底是什么东西?Who ever wants this?             究竟谁要这个?Where ever did you lose it?      你到底在那儿丢的呀?五、知识的标定标定象宏定义似的,对句型当中的描述的一些术语进行定义,并给出其具体内容。如上文提及的“疑问词”、“谓语”、“系表”等,以便句型初选部辩认,给以知识的标定。如:疑问词=who谁,what什么,which哪一个,whose谁的,how mang多少;when何时,where何地,why为什么,how怎样,how much多少,how long多久,how far多远。将它们直接置于辞典(图10,3)的意群库内,给以意群代码如00010FB0H~(依次给)。同时在标定文件,记入:疑问词=00010FB0H~00010FBFH。这疑问词中、英有相互对应的文字串,属于相同意群。但是,有些情况不是这样,如上述句型④当中,分别注有zj1,zj2,它们不属于相同一个意群,所以文字串之间也没有对应关系,而是zj1与zj2之间的对应,即英文该句型中用zj1所定义的任一个成分,对应于中文该句型款式2中用zj2所定义的任一个成分。zj1和zj2只起强调作用,实为一个意群,所以对它们只需给一个意群代码,与其它意群不同的是相应意群文字串当中,平列着数条同语种的文字串,生成世界文时具体使用哪一条在意群代码义法段给以表示,保证原文可以通过意群代码100%地复原。将与此类似情况列为一个类,编在一个连续的意群代码编码段中,便于识别。

六、句型和句子成分的辩识上文述及,对于句型的分析落实到句子成分,句型包含句子成分,句子成分分析不过细。对主句找出它的主、谓、宾以及定、状语等;对于从句只将它划出,一般不再进行主、谓、宾、定、状语的分析。现有技术对句子成分分析有一些好方法、好算法,只是苦于基于字符处理,效果不尽人意,然而做些修改,用于基于意群的文件,就有许多可取之处。

句型初选部对句型、句子成分的辩识根据上文已经标注的词性,同时结合上述知识标定的标定文件内容进行。因为在这里还缺乏可供辩识的意群代码,仍是基于字符。所以不能检出的留待意群整词部通过人工补充。

七、句型初选如上所述,把归纳整理出来的句型所涉及内容全部标定后,启动句型初选部(图10,5)逐个输入句型,本部件到样本语料库检索所拟定的句型。并响应可指定的如下方式运作:它可以根据整个句型进行检索,也可以取句型的部分信息进行检索;可以将符合的句子拷出,各句型成分标成f1、f2…,生成独立的文件;也可以逐句逐句地检出将句型成分以显眼颜色显示;可以两种语言的样本语料同时检出,也可以只对其中一种语言样本语料操作。各种方式都带有统计功能。例如:句型a:一般疑问句+or+一般疑问句?b:…是…,还是…?假如仅以“or”对英文语料检索,共检出5句。改用“还是”对中文语料检索,同样检出5句。可是用句型a全部信息进行检索,只检出4句,为什么?我们选取它的查漏功能,让它将这漏检的找出来:“Will he go on Monday or on Tuesday?”经分析该句or后的疑问句省略了“will hego”,问题出在该句型没有标出允许省略。然而将句型改为:“一般疑问句+or+一般疑问句(可省略)?”。然后再重复上述检出,结果用句型a全部信息同样能检出5句。并且用上述句型a,b两款,同时对语料中英句进行对比检出,结果同时都能检出5句,这就说明该句型正确,将其收入辞典(图10,3)内的句型库,根据句型采集器的提示,补足句型库所需有关信息。句型库至少有如下字段:句型类属、款式编号,句型基本语义,句型,出现语种等。

这里必须提出并且强调的是,我们所提取的句型是通用的句型,并不是一种、二种语言所共有的句型;而是人类语言绝大多数都能适合的句型。也就是说,必须抓住通用性这个原则,以所表达的完整语意来提取句型,如上文“句型的分类”所列举的那样。由于上面所述句型提取是面向中英两种语言的实施例,所以有必要如此强调以免误解。

第四节、意群整词部意群是人类思维活动的单元,不管哪种语言文字,创造词汇时都以意群为标的,自然遵循着意群词汇的匹配原则。可是,当今正使用着的词汇,绝大多数创造于前人之手,创造与使用相隔时间越长,就越有可能与意群失去匹配。然而使人类自然语言或多或少地存在着词汇与意群匹配滞后,甚至分离的现象;这种现象最严重的也就是历史最攸久的中文。同时由于各种语言文字之间由于字符、单词、短语、字、词、词组等表达语义的单位不一。各种语言文字词汇之间表达语义大小不一、有的交叉、有的重叠、多义、歧义等现象普遍存在。这三个方面是造成不同语言文字词汇之间语意表达的不一致性难题的重要因素。意群整词的目标就是要解决这个难题,使各种语言文字词汇的语义表达具有一致性,为意群代码的编制打下坚实的基础。

“意群是语义明确,可以独立应用的当代人们思维、语言的基本单位;也是不同语言文字之间可以相互翻译的基本单位”。“两个或两个以上相邻(或不相邻)的意群串在一起共同表达一个更大、更完整的语意;并使不同语言文字之间的语意更趋一致的若干意群的组合称为复群(即复合意群)”。相同一个意群在具体语言文字那里,与之相匹配的意群文字串可以是意群的形式,也可以是复群的形式。具体说来,拼音文字由空格所隔开的单词是意群,短语或更大的串是复群;对于没有间隔的表意文字——中文,人们阅读时自然将它们分成2~4字的串为意群,这些在本说明书第一部分已有较多说明,这里不再重复。意群是人类思维活动的单元,句型又把意群组织成有结构规律的句子,用以表达完整的语意。经过上述切分配对、句型初选处理,现在需要对它们作进一步的整理,并确定下来。所以意群整词部(图10,6)的运作分两个方面,一是关于句型、构架群的整理;二是关于词汇、匹配的整理。

一、关于句型、构架群的补充整理意群整词部(图10,6)从样本语料库当中逐句取出中英配对的句子,同时检索辞典(图10,3)的句型库,对已经采集的句型成分以显眼颜色显示,标出已经配对的词汇,如果所显示句型不理想、没有相符句型的、或者句型没有落实到句子成分的,要求操作者给以补充。如把上文切分配对的例句显示为:1a   2a    3n      4v   5    6v         7a     8     9   10v  11Many great  writers were not appreciated fully while they were alive.

许多 伟大的  作家  在生前往往得 不 被 人 们 充分 地 赏识。

1       2    3                   5            7       6操作者参照“文稿顾问系统”句型分析器所述形式,和如下所示划出句子各成分。4~6三个英文单词构成否定型被动式谓语,中文句变成插有状语的“不被...赏识”的谓语。英文句由while引带的一个时间从句,到中文句为“在生前”。操作者如下补充后,意群整词部(图10,6)将所补充内容标记于样本语料文件内,各句型成分标有f1、f2…。需要时可以复原显示,并响应对它们的读出和统计。

1a    2a     3n     4v     5         6v         7a       8cMany great writers

1       2     3       8                5                   7         6许多 伟大的  作家

往往

人们

二、关于词汇、匹配的整理1.单义取大原则——找出相同意群在不同语言文字那里的意群文字串,力争语义单一,符合下述情况的以取大处理(以复群处理),这就是意群整词的单义取大原则(为了简洁,下文例子未标配对号及词性)。

①已经被列为短语的都作为一个意群处理,把它们以“-”连成复群形式;并与最能代表本意的它种语言文字串相匹配(如下例)。如果在意群整词部给出的句子内有此情况,操作者将它们插入空格,复群内以“-”相连。当处理完当前句,要进入下一句时,本部件(图10,6)将它们收集到辞典(图10,3)的相应库内。此外,如有现成材料,操作者可直接录入,或将成批纳入相应库。

sooner-or-later终究;by-leaps-and-bounds飞快地;no-in-the-least一点也不;take-measure设法;next-to-impossible几乎-不可能;late-at-night在深夜;in-the-right-way正当;等等。

②在某语言中是规范型意群,而在其它语言中以多个词串表示,其语意需推导才能得出的,以复群形式处理。如下面的last night需由“最后的夜晚”推导出“昨晚”,如下例以复群处理。如果不必推导,另一文种有将它们合在一块的形式,也有分成更小单位形式的,保持原形式不变,如two hours;同时将另一文种相应意群文字串以更小单位的形式处理,如“两小时”处理成“两小时”。

He argued with-me for two hours last-night.

昨晚他和我争论了两小时。

He discusses most-of his problems with-me.

他把他的大部分问题提出来和我讨论。

③多义词汇尽可能以复群形式处理,使它们的语意趋向单一化。例如“get”已经形成了“get-at-able易取得;get-together聚会”等新单词;也组合成了不少短语,此外还有,如“get around逃避;get away with逃避-处罚;getoff with结交异性;get round to找时间做”等等也将它们以复群形式处理。又如上例的“with me和我”,下例的“percussion-noye叩诊音”,“go-on-thetrip去旅行”等等类推。

The percussion-note over the right base aislso diminished.

底部叩诊音也减弱了。

Suppose you could-not go-on-the-trip. How would you feel?假定你不能去旅行的话。你会觉得怎么样?④尽量选取可代表性强、表示基本语意的作为相应意群文字串进行收集(只要它们成句后能表达本意)。例如“question”作名词中文词义有“问题、难题、待解决的事、疑问、怀疑”等,选取“问题”,如下面句子,以“问题”解都可以表示基本语意,通顺可读。

You have not answered my question.你还没有回答我的问题。

His honesty is beyond question.他的诚实无问题(无可怀疑)。

⑤太小语义不取,中文的字基本上不再与意群相匹配,其它语言也有类似情况,例如英文“division分开、部门、【军用】师”,军用等于中文“师”,“师部”为“divisionheadquarters”,“师长”为“division commander”。师部、师长等在英文都以复群表示,所以对division只取“分开、部门”。

意群整词部(图10,6)还能响应对样本语料的检索、统计操作。如上述2~4必要时都得借助对样本语料检索、统计、分析。例如要看“last night”在中文里是否都被译成“昨晚”,可先让它检出并统计含“last night”的英文总句子数;然后又同时检出中文句含有“昨晚”的句子数,如有必要,操作者可任意设置检出条件,还可将符合或不符合的句例列出,以供分析。意群整词应参考基于统筹优化的意群条目确立(详下文)。

2.配对处理——如上所述,本部件每显示一对语言句子时,将表示句型的成分以显眼颜色显示,标出已经配对的词汇。没有配对的由操作者利用鼠标指出它们的配对(如下例),当操作者点出配对时,意群整词部又到上述有关库内检索,如果语义是单一的,将这对意群文字串纳入(图10,3)中的意群库;如果是多义的文字串,跳下文“多义的确定,,处理。

1     2       3           4       5    6    7    8Suppose you could-not go-on-the-trip.How would you feel?假定 你 不能 去旅行 的话,你 会 觉得 怎么样?1    2   3     4          7   6   8     53.多义的确定——在上述配对过程中,如果操作者所指文字串是多义的,与本部件进行交互处理,让操作者指出是根据什么在多义当中选择最合适的文字串。这种选择根据,一般来自下面三个方面。

①凭句型来选取a)What in-the-world do you mean?   你的意思究竟是什么?b)Who on-the-earth told you that?  那事到底是谁告诉你的?②凭构架群与词汇关系来选取c)Their car passed ours.            他们的车超过了我们的车。

d)The ship passed the channel.      船驶过了海峡。

e)A cloud passed across the sun.    一片掠过了太阳。

f)I passed the time by counting the cars that drove past the school.

我 用 数 驶过 学校的 小汽车 来 消磨 时间。

g)Because of the large crowd in the street the carriage was unableto pass.

由于 街上 群众 很多,车辆 无法 前进。

③凭词汇之间的关系来选取h)Metal is a good conductor of electricity.  金属 是 很好的 导电体。

上面例a)~b)中的选取“究竟、到底”凭借于这一独特的句型,英文句中的“in-the-world、on-the-earth”是该句型一个组成成分,它们与“究竟、到底”在词义上完全是头不对嘴的事。例c)~g)当中的pass最基本的语意是“过”,被用作句子的谓语,可是它的语义随着它的宾语不同而不同,在中文句子里,分别变成“超过、驶过、掠过、消磨、前进”。例h)中的conductor,中文语义可有“指挥家指导者售票员导体导线”等,显然由于与electricity发生了关系而被选取了“导体”并且更明白地以“导电体”与之相对。

在这里,当操作者指出两种语言相同意群的文字串时,其中是多义的词汇,如例f),操作者指出“passed”与“消磨”配对,本部件给出对话框“为什么?”在该句,passed显然是由于与“time”发生关系而选取“消磨”,然而操作者点一下“time”就算回答了本部件的提问,本部件在辞典(图10,3)的多义库内记下一条记录:passed作谓参宾time=消磨;又如上例d)则记为:passed作谓参主ship宾channel=驶过了;等等类推。在整个意群整词过程中,所有相关的有用信息,本部件(图10,6)都收集到辞典(图10,3)的相应库内(包括另时库,如多义库等,这些库仅供词汇的分类提取时参考使用);同时在样本语料文件里插入一些信息,以校改后的文件存盘,便于下文所述的处理。

这里还得说明的是关于多义词汇的选取规则:凡是在同一行业中,作相同句子成分可有两种或两种以上语义的词汇为多义词汇,纳入多义库。如果与其它词汇组合表示不同语义,以复群处理,不是多义词汇。作不同句子成分时而语义不同也不算多义,因为通过句型、句子成分很容易辩识它。

意群整词部(图10,6)面向样本语料库的运作具有相当数量时,可以回过头来,重复上述已经做过的程序,例如回到句型初选部,把经过意群整词补充的句子再总结出一些新句型,使所有的句子都有相应的句型概括它。经过意群整词处理后的样本语料库内容具有随时可以检出的、并落实到句子成分的句型;所有词汇都经过整词、配对、有标识信息,便于进行下文所述程序操作。

第五节、意群代码编制部上文所述的意群、复群对某种语言文字而言,复群由意群组合而成,概念简单明确,意群文字串的形式有相应的意群文字串和复群文字串。在不同语言文字之间往往出现交叉现象而变得复杂,相同意群在不同语言文字那里可以是意群文字串,也可以是复群文字串,这一点应当注意。意群、复群是指意群可以再组合成复群,相应的文字串有意群文字串和复群文字串之别。这里所述的意群分型分类是另一回事。意群有型、类之分,对意群进行分型、分类、编制意群代码是一重要的技术特征,意群代码编制部(图10,7)响应对意群按一定特性排列,根据编码原则给以编制意群代码;同时响应对意群代码的调整,修改等操作。先将意群的分型、分类说明如下:一、意群分型按来源划分,有规范型、未定型、自由型、发明型四个型:规范型——指已经被社会所公认,人们使用着的意群或复群,它们都被收集到世界文电子辞典内。或者说它们已经在世界范围内广为人们所知,广为人们所使用,是现有各科学领域、各行各业、各种不同语种人们的交往所使用着的意群或复群。在不同的语言文字那里,都有相应的意群文字串。在世界文输入装置的意群库那里被安置于意群基本库和复群基本库。例如:“电子管、计算机、另一方面、软件,多媒体-计算机,中华-人民-共和国”等等。

未定型——未定型与规范型不同,它还没有被社会所公认,没有被收集到世界文电子词典内;或者已经被收入,是一条规范型意群,但是在某个意群输入装置版本的意群基本库或复群基本库内没有,都被认为是未定型。用通俗的话说,还不能肯定它属于哪一型的情况统称为未定型。它或许是规范型,或许是发明型与自由型。由意群输入装置自动生成的意群或复群,生成于环形新生库(图3,7)和复群生成库(图3,8)的都属于未定型。在世界文生成编辑装置那里,它们由标识码FFFE01H或FFFE02H引带而存在于世界文磁盘文件之中。如果该世界文经“文稿顾问系统”顾问后,未定型有的被改变成规范型、发明型或专用群,分别改用相应标识码标识或专用群代码;有的或许是错误而被删除。

自由型——只有自由型复群,没有自由型意群。因为意群相对规范、恒定;复群可以随着人们思维的跳跃,将相邻的意群串在一起而成。复群适应用户随心所欲,发挥个性的特点。所以就产生了自由型复群。自由型的概念是用户以复群形式输入,但并不是规范型复群,它的构成成分都是规范型意群。世界文生成时以未定型复群进行标识,文稿顾问系统对世界文文件进行顾问后,把自由型收入一特定的副本文件给以保存(用的人多了就可能发展成规范型)。

发明型——发明型来源于用户作者的新发现、新发明;是用户作者创造发明出来的新意群、新复群。这些新的意群或复群进入社会后,或许得到公认,或许得不到公认而被淘汰。

二、意群分类是根据意群或复群在语法、语义方面的功能来划分的。它们有主题群、构架群、叙评群、标识群、专用群五类:①构架群——组成句子构架、句型;或者在不同语言文字转换上表示关键性语意的那些意群,传统概念中的动词、介词、连词多属此类。

②叙评群——对某个主题进行叙述、评论性或者揭示其性质的意群,例如“很好、漂亮、longshort、forever”等等。它们本身不能成为论题的主体或客体;也不参与构成句型,只是对主体或客体进行叙述、评论等等。

③主题群——各领域、学科都有主题词,它们都属于主题群。主题群是指可以作为命题主要成分,或者当作思考对象的意群,其数量相当巨大。

④专用群——专用群等于专用名词,但是我们约定,已经进入世界性流通领域的专用名词划归主题群,例如名人、名地、名机构等等。尝未进入流通领域的专用名词划归专用群,例如普通人名、非出名地、普通机构、以及方言土语等等。进、没有进流通领域以文稿顾问系统所备顾问知识库有没有为准,没有,文稿顾问系统与作者会话后,将它们标识为专用群。

⑤标识群——凡是使用标识码进行标识、引带的意群或复群统称为标识群。使用标识码有两种情况:a)由世界文生成编辑装置自动加入,例如对非规范型意群等进行标识。b)由文稿顾问系统与作者交互后自动加入,如对语法、语义、语言转换等方面某些偏、难的情况进行标识。

三、意群的型、类代码已如上述,根据意群的来源分型;根据意群的语法、语义功能来分类。所分的型或类是意群或复群的某些集合。然而与它们相应的代码,也是意群或复群某些集合的代码,例如以4字节16进制数据作为对意群的编码,称为意群代码。显然代表这些型或类的代码是意群代码当中对于集合的代码。它是意群代码的高位部分。例如取4字节的前2字节,FFFEH定义为标识码,即是标识群代码;FFFDH定义为专用群代码;构架群、叙评群、主题群各定义于0001H~FFFCH当中的一个连续的段(详下文)。这2字节0000H与FFFFH两个值作为空码保留不用,借此也保证4字节不至于出现全0或全F。下面对标识群、专用群的4字节意群代码举例说明如下:1.标识群代码①普通标识(FFFE01H~FFFE2FH):标识码后有后随串:未定型意群标——FFFE01H,+1字节后随串长+后随串(长=意群代码整倍数)未定型复群标——FFFE02H,      同            上发明型意群标——FFFE03H,      同            上发明型复群标——FFFE04H,      同            上单字节字符标——FFFE05H,      同            上双字节字符标——FFFE06H,      同            上重  码  标——FFFE10H,+1字节重码条数+后随重码内容标识码后无后随串:独字节字符标——FFFE20H,+该单字节字符内码②句子成分标识(FFFE30H~FFFE3FH):主语标——FFFE30H,+1字节该成分长度+该成分串谓语标——~31H,      同       上表语标——~32H,      同       上宾语标——~33H,      同       上定语标——~34H,      同       上状语标——~35H,      同       上独立成分标——~36H,  同       上主语从句标——~37H,  同       上表语从句标——~38H,  同       上宾语从句标——~39H,  同       上定语从句标——~3AH,  同       上状语从句标——~3BH,  同       上

③义用标识——(FFFE40H~FFFE5FH)待扩(FFFE60H~FFFE9FH)④句型标识(FFFEA000H~FFFEFFFFH,后12位示句型编号,空间=4095*6)2.专用群代码在世界文生成的过程中,有未定型意群或复群,单字节或双字节字符串这四种情况没有意群代码,利用上述普通标识代码对它们进行标识。在文稿顾问系统进行顾问时,把未定型当中属于专用群的一部分通过与用户作者的人机对话,改用下面相应的专用群代码。对于它们的低位关于被标识对象的有关数据,如串长度是一致的,无需改变。专用群代码每一个具体内容都有相应的双字节串或单字节串两个代码,原为未定型意群或复群的也改用双字节串的形式标注。关于专用群的代码编制,例如:男名双字节串——FFFD01H;男名单字节串——FFFD02H;女名双字节串——FFFD11H;女名单字节串——FFFD12H;地名单字节串——FFFD21H;地名双字节串——FFFD22H;机构单字节串——FFFD31H;机构双字节串——FFFD32H;材料单字节串——FFFD41H;材料双字节串——FFFD42H;装置单字节串——FFFD51H;装置双字节串——FFFD52H;部件单字节串——FFFD61H;部件双字节串——FFFD62H;产品单字节串——FFFD71H;产品双字节串——FFFD72H;软件单字节串——FFFD73H;软件双字节串——FFFD74H;方言单字节串——FFFD80H;方言双字节串——FFFD81H等等。

四、意群代码的编制意群代码是世界文生成的元素,意群代码为定长的16进制数值代码,一个定长的数值代码对应于一个意群,它代表着这个意群以及这个意群在各种语言文字那里相应的意群文字串,并含有语法、语义信息。意群代码长度可以2~8字节,本实施例取4字节为之最佳,4字节共32位。

意群代码分序列编码和义法编码两部分:序列编码对意群以类属、语义概念的学科领域分类排序编码。序列编码的高位2字节以数值段面向意群类属、学科领域编码。如上述把意群分为构架群、主题群、叙评群、标识群、专用群五大类。构架群、主题群、叙评群各占用序列编码中的一个连续的数值段;主题群的数值段中又以概念语义的学科领域进行分类排列,给以编码。构架群、叙评群根据在语法、语义上的功能进行细分类。标识群、专用群各取这高位2字节的一个数值为标识。例如上述,标识群取FFFEH、专用群取FFFDH,再以它们的低位代表着具体标识内容以及标识对象的有关数据。

意群代码具体细项安排可有多种方案,本实施例安排如下:领域学科16位——面向意群类属及主题群学科领域分段编码,非专业排在前。

序列段8位——续上共为序列编码部分。

义位段3位——标注含有多词类和跨学科的当前意群文字串所在位置。

复群位1位——在语言版本内=0表示意群,=1表示复群。

语法段4位——标注意群文字串的词性;当前所用句子成分。

领域学科与序列段合为序列编码,它们共有3字节,有效编码空间=65534*256=1677万。足够容纳所有意群条目,类属之间适当留有一定空码,以备扩充。

义位段+语法段+复群位共同属于义法编码部分。义位段+语法段又合称义法段。

义法编码对具体意群的个性化语义表达、语法应用进行统一编码标定。也可再分出义位和语法两字段,义位用于标注含有多词类和跨学科的当前意群文字串所在,语法段用于标注在意群类属下的词性供文稿顾问系统作句法分析参考,分析结束确定后,填入当前所用句子成分等信息。

本实施例义位段可编码=8,约定跨科意群文字串用8,<8的数足可标定含多词类而具有多条意群文字串所处位置(2起算的文字串序数)。语法段4位,可编码=16,足够为不同意群类属下的意群文字串标志词性,当文稿顾问后,改为对当前所用句子成分的编码,如“主、谓、宾、定、状、补、独立成分、从句,定语中心串、状语中心串”等等。

上文关于意群代码编制所述是意群代码编制的特征,也是编码原则和方法,对具体意群编制意群代码根据这些原则和方法,按下述程序进行运作。上文已经述及,意群代码编制部(图10,7)响应对意群按一定规律排列,根据编码原则给以编制意群代码;同时响应对意群代码的调整,修改等操作。意群代码编制有赖于收集、序列化整理后方可进行。然而本部件有时需要与下文所述的词汇分析分类器(图10,8)和词汇采集器交叉、交替使用。现对本部件的运作分别说明如下:1.收集对于意群按上述分类,分别进行收集,例如对构架群、主题群、叙评群分别收集(下文将分别说明)。意群得借助于意群文字串来体现,所以,对意群的收集应从意群文字串着手。以这第一个配对,中英两种语言文字相同意群的意群文字串为基础进行收集,然后按下述程序给以意群代码;其它语言文字再根据相同意群逐个加入。

2.序列化整理对于同类意群,收集之后,根据什么规则或条件进行排列,使它们序列化。这当中自然可以在大类里面再分小类,按大小类排列,小类当中再根据什么条件进行排列等等。例如主题群,可以参考各学科现有主题词表,以概念树的层次从属关系排列等。关于序列化整理下文还将述及。

3.代码分配对于经过上款序列化整理之后,纳入意群库,根据上述意群代码高位,类属代码的分配,启动意群代码编制部(图10,7),指定开始编码值,本部件根据当前待编码的序列成员数量查询标定文件(参上文句型初选部“知识的标定”)。当与前后已经分配的编码没有矛盾时,对当前序列各成员逐条依次编制意群代码。同时在标定文件标定某某类代码等于某某代码~某某代码。

4.代码调整如上款所述,当前待编码的序列,可能的起止代码如果与已经分配的代码相矛盾;或者需要修改某些代码时,根据总体布局,移动某些代码段,同时修改标定文件,再对当前序列各成员逐条依次编制意群代码。

5.义法段代码上述1~4款所述意群代码的编制程序和方法是针对意群代码当中的序列编码部分,即第1~3三个字节的代码分配。而义法编码部分就完全不是这个程序与编制方法了。例如上述的“复群位”1位,留待在语言版本内=0表示意群,=1表示复群。“义位段”3位,编码空间8,“语法段”4位,编码空间16,它们用于编制关于语义、语法的识别信息(如上文)。它们与上述意群类属,大类、小类不同,类属以代码数值范围体现,代表着一个集合,以及这个集合所具有的共性。而义法编码是属于具体某个意群,代表着这个意群在语法、语义上的个性编码。这些信息在生成世界文,世界文生成编辑装置与意群输入装置配合的人工智能选取重码上很有意义。在文稿顾问系统那里,根据这些信息进行分析、顾问。例如某些意群兼有多种词性,可以作多种句子成分。而当前作什么成分一但确定下来,文稿顾问系统根据“当前所用”修改义法段的信息。

第六节、词汇分析分类器词汇分析分类器(图10,9)是在整个样本语料都经过意群整词处理后才能进行,因为经过意群整词之后,样本语料库(图10,2)才具有更多、更便于统计分析的内容。对于词汇的传统分类本发明仅仅作个参考,编制世界文电子辞典时基本上不使用传统辞典或者现有技术的电子辞典内容,虽然、它们的词汇分类是有意义的,可是不具备可操作性。显然,本部件(图10,8)的目的是借助对大量的样本语料进行多种形式的统计、分析,总括出一套可供操作的词汇分类和多义词汇选取的方法和规则;同时词汇分类可以为多义词选取服务,多义词汇的选取可以借助于对词汇的类属判断进行。

词汇分析、分类的方法与途径。从前一节意群整词部关于多义词确定下,所列举的三个方面8个例句来看,就可以总括出三条选取多义词汇的规则,并可以推导出一系列关于词汇分类的可能方法:1.句型规定了句子的基本语意,词汇义服从句型义。

2.作不同句子成分可能有不同的语义;处于句型构架上不同位置也可能具有不同的语义。有这一情况的词汇分类时就要纳入这一因素,将它们体现出来。

3.多义动词看宾语。在这当中,可以推导出一系列的假设:对谓语动词如何分类?是某些类的多义动词看宾语,还是所有多义动词?有宾语的看宾语,无宾语的是否看状语?作宾语的词汇当中,是否都能影响多义动词的选取?或许是其中某些类,那么这些作宾语的词汇又如何合适地分类?等等之假设,都可以通过对样本语料库进行统计分析得到解答,也就是通过这种方法来达到上述目的。

4.多义中心词汇看定语,或者说有定语修饰的多义词汇,其语义选取看定语。那么,能带定语的词汇又如何分类?作定语的词汇又如何分类?如何把多义词汇的选取变成对定语词汇类属的判断,借定语类属选取多义呢?同样,这些问题都可以通过对样本语料库的统计分析获得答案,据此来达到上述目的。

5.词汇分类需参考常识,当人阅读上文那些例句时,只要借助于对句子基本成分的分析,找出相关词语,凭借常识知识的基础进行合理化判断,即可正确选取多义词汇。这就说明了一个重要的问题,进行上述统计、分析,对词汇进行分类时应当参考常识知识。

显然,上述仅仅是列举了一些例子,说明了对词汇进行统计分析,合理分类,从而达到上述目的的方法与途径。顺便补充说明一下,这里使用“词汇”的概念是为了参考传统所述词汇的一些有关特征。两个概念着重点不同,作为人类思维活动、思想交流的单元是意群;词汇是关于语言三大要素之一,词汇相当于意群文字串。意群属于全人类,意群文字串属于具体语言文字。

词汇分析分类器(图10,8)响应上述关于词汇分析、分类的多种灵活操作。本部件针对样本语料库(图10,2)进行操作,主要有如下相应的操作部件:多义库参考部——多义库的内容是词汇分析分类很重要的素材,本部响应对多义库的浏览、查询、统计、分析、多义词汇分类等操作。

识别选取部件——响应操作者设定目标(包括限制条件等),能识别这些目标,根据操作者的要求把目标以及相关信息复制出来形成单独的文件,或者不复制,仅仅是检出。

统计分析部件——与识别选取部件配合工作,根据操作者所设,对检出目标进行统计分析。或者对识别选取部件所生成的单独文件进行统计分析,给出结果。

第七节、词汇采集器词汇采集器(图10,9)有三个主要功能部件:临时库生成部——响应操作者设定目标,包括限制条件等,到样本语料库把目标以及相关信息复制出来形成单独的临时库。

个性编码部——响应对临时库按大小类别进行排序,然后接受操作者在小类内的成员进行人工的调整。特别是关于意群文字串的个性信息的代码编制。例如上文述及的“义法段”关于语义、语法的识别信息的编码。可以将大类、小类所共有的信息以外的信息,定义成一系列的代码,然后通过自动、半自动、人工干预等方法编制义法段代码。下文将说明的主题群的参考码部分的编制等也由操作个性编码部完成。

纳入辞典部——响应操作者的要求和操作,将经过上述处理,已经序列化整理并完成个性编码后的临时库内容纳入辞典(图10,3)的意群库,接受其它意群代码编制部等再进一步的操作。

下面对构架群、主题群、叙评群与分类采集等相关内容说明如下:一、构架群的采集句型由构架群构成。构成句型的主要意群归属于构架群;构成句型各成员类属就是构架群的细分类。句型的成员可以是一个具体的意群文字串;可以是某个小类或大类;也可以是多个类属的概括。例如下面两个句型,一共有9个句型的成员。3、5、7都是意群文字串;4、6是个小类,属于主题群下的一个小类;1、2是大类,主题群都可以作主语,谓语也是一个大类。还有8、9是多个类属的概括,因为作为句子,最少应具备主语和谓语。再回过头来看上文的定义“构成句型的主要意群归属于构架群”。句型成分8、9只是多个类属的概括,没有具体的要求,也就没有什么主要的意群要纳入构架群,只需定义一个标识代码表示它。句型成分4、6指出其它大类中的一个小类,这里只提示主题群应该有表示“地点”的小类;句型成分1也一样,指一个大类;它们都没有什么主要的意群要归属到构架群来的。句型成分2不一样,谓语的主要成分是动词,是一个句子不可缺少的主要成分,是句子成分识别首先要辩识的内容,它一定存在,所以全部动词都归属于构架群,而且还要根据它们与句型的关系、与其它句子成分的关系、本身的语义表达等等进行细分类。

1    2       3     4      5        6①主语+谓语+(+from+地点名词)+up-to+地点名词7    8      9②Every-time+从句,+主句如上所述,构架群的采集就根据句型,根据句型各成员进行统计分析,然后进行确定采集条件,最后进行采集操作。例如上面两个句型,成分3、5、7首先统计分析一下它们在其它句型当中是否存在,是否以同样的意群或复群的形式存在,这是出自细分类的考虑。另一方面,象这样直接以意群的形式参与构成句型的多数代表着“句型义”,即由它们决定着整个句子的基本语意,如例句①是“…从…到…”。例句②为“每次...”。这是关于“句型义”以具体意群表现的一种方式,在编制这些意群的“义法段”代码时是要给以体现的重要内容之一。致于构架群的采集对于它们显然是一个对象。致于把谓语动词采集为构架群情况就复杂得多。首先把谓语动词与非谓语动词区分出来,然后根据它们各自与句型的关系,与其它句子成分的关系,以及本身关于语义表达等等进行细分类。对于非谓语动词尽可能以复群的形式归纳成一小类,使它们变成一种标志,便于对关于谓语的时态、语态等等的识别。对于谓语、非谓语动词的采集、分类必需再说明的一点是要适当参考传统的和常识的分类、识别方法,不是搬,但一定要参考。因为当文稿顾问系统(图1,3)对世界文进行顾问时,面向的是用户作者,传统性常识性描述便于人机交流。下述内容,是重要的参考内容。

构架群意群代码,高位0001H~开始。

1.非谓语动词:助动词(代码00010FC0H~):have(had,has)有,do(does,did)做。

情态动(代码00010FD0H~):can能,may可以、也许,must(could,might)必须,ought应当,need需要,dare敢。

时态动(代码00010FE0H~):shall(will,should,world)将(可作情态动词和助动词用);will-be,woud-be,will-have,would-have,have-been,had-been,will-have-been,would-have-been。

系动词(代码00010FFoH~):am,is,are,was,were(统称“be是”)seem似乎,look看来,become变成,get变得,grow变得,feel感到,turn变成,appear显得,remain仍旧是,等。

2.不及物动词(代码00011000H~)。

3.及物动词(代码00012000H~)。

4.兼类动词(代码00013000H~),将可以作及物动词也可以作不及物动词,以及作名词等其它词汇动词列归此类。

5.时态语态辩识——动词原形、过去式、现在分词、过去分词形式不变,按词尾变化规律辩识,不规则部分在具体词条下标出。对于动词的各种时态忽略人称、数的变化,即在世界文文件内忽略,建议英语革新为忽略后的简略式(通过后转换生成的英文也使用简略式)。现在时态的am is are have has都作原形看待,建议用are,have;它们的过去分词whesehad。时态动词如上述取复群形式,这样对它们的辩识更为简捷。

二、主题群的采集主题群有可借鉴、需要继承的现有技术成果。那就是现有各学科领域或多或少地都有国际通用的主题词库、术语库或标准。它们应近代科技发展所需而成,超越国界,超越语言文字。它们与本发明以人类的意群为根本不谋而合,将表达相同意群的多种语言文字串逻列在一起(有的有多种语言文字的译本)。这种做法符合本发明的构思,是难得的值得继承和借鉴的语言词汇素材。例如医学世界卫生组织的《国际疾病分类编码(ICD)》,医学文献检索用《医学主题词表》等,它们还有相应的编码。对它们收集后,参照现有学科主题词的原有编码进行序列化,纳入辞典(图10,3)的意群库。然后按规则编制意群代码,还编制意群参考码。今后,它们的意群代码也就是它们的代号(代码)了。没有现有资料可供参考的普通领域,可以对上述样本语料中作主语,宾语成分的进行统计、分析之后,进行采集,根据上述“词汇分析、分类方法与途径”结合常识知识进行细分类和序列化,然后编制意群代码,以及意群参考码。意群代码已如上述,这里不再重复。意群参考码为意群关于语义的更多参考代码,例如主题群的意群参考码:意群参考码部分(4字节32位):概念级别  3位,编码空间0~7   (在学科内的概念级别)概念本位 10位,编码空间0~1023(本位概念编码)级间特性  3位,编码空间0~7   (与前号概念级间关系编码)概念父位 10位,编码空间0~1023(父级概念码)待  扩    6位,编码空间0~63三、叙评群的采集叙评群是对主题进行叙述、评论性或者揭示其性质的意群。它们本身不能成为论题的主体或客体;也不构成句型,只是对主体或客体进行叙述、评论等。对它们的采集可从三个方面入手:①样本语料库内作定语、状语的成分;②采取排除法,经过构架群、主题群提取后所剩部分都归属于叙评群;③参考现有技术列为形容词、副词的文字串。

叙评群的细分类参照上述“词汇分析、分类方法与途径”进行。其中特别注意下述这些参与分类和序列化处理的因素:①所叙评的对象类属;②出于对质量上、内部的叙评;③出于对数量上、外表的叙评;③叙评的方向,使用叙评词汇不同体现被叙评对象向什么方向发展。

第八节、语言转换实验装置经过上述一系列的实施程序,在辞典(图10,3)内关于句型和意群库内容应当是相当可观的了。语言转换实验装置(图10,10)就是利用这些库内容,对样本语料库(图10,2)的内容进行转换实验,目的之一是检验这些库内容,其二是修正和增补这些库内容。对于样本语料库应当注意,进行转换实验使用的是原作备份的那份;而不是经过上述第三到第七节程序所操作的那份。

语言转换实验装置(图10,10)的运作主要借助于如下功能部件:一、预处理部件预处理部件是文稿顾问系统之中非世界文预处理器(图8,10)的雏型,它们都一样,把基于字符的传统方式文件转换成以意群代码为元素记录的世界文文件。但是,为了避免重复操作,在这里不以意群代码取代原有字符代码,而是以文字串检索出其意群代码,并一一对应地记录下来。如果是面向没有词汇间隔的中文,事先还要进行一步机器或人机合作的词语切分程序(参上文非世界文预处理器)。

二、文稿顾问部件文稿顾问部件有三个主要的分部件,它们相应分别是文稿顾问系统当中意群检测器、句型分析器、修辞分析器三个主要部件(图8,2~5)的雏型。因而对于本实验程序运作安排可参考上文相应章节内容。

文稿顾问部件与文稿顾问系统一样,具有分批处理、逐句进行、约定运作三种运作方式。在进行转换实验时,这三种运作方式可以灵活使用。其中注意对于约定运作方式的实验,其目的是将“经验”吸收过来,以提高约定方式的质量。其中意群检测器对于重码的检测功能可不必纳入。

三、转换输出部件转换输出部件是浏览阅读器当中语言转换装置(图9,9)的雏型。然而本实验也参照上文相应章节内容进行运作。其运作过程简述如下:首先根据标识代码读出句型,或者利用构架群代码进行判断,得出当前句原文句型,查找句型规则库,找出与给出语言相应的句型款式作为给出句的句型,根据两个句型的对应关系、原文句意群代码和标识代码检出或选择合适的意群文字串,将它们填入给出句型相应位置,继后检测并处理整个句子各修饰、关联成分之间的修辞、某些语言的个性问题,最后转换结束,给出转换后的句子。

四、单向实验程序上述第一到第三节说明了三个实验的主要程序。然而将它们有序地结合起来进行转换实验,在具体应用中都是单向进行的。我们在实验过程中也是一样,由A语言向B语言转换,更换A、B位置,进行两次实验,这就成了双向转换。这里需要说明的是:1.实验运行,留有轨迹对上述三个实验步骤当中,编制实验程序时注意留有轨迹,即保留中间数据或信息,这样更便于分析问题。

2.分析、统计,更新后再实验例如是由A语言向B语言转换的实验,把转换给出句与B语言句进行比较,对准确率进行分析、统计;并据此更新实验装置的库内容、装置程序内容等等。实验装置还能响应操作者更新部分内容,以及统计分析相关内容等操作。当实验操作者读到转换后的句子,感到某处费解、或者语意不通,借助有关键盘或鼠标操作,实验装置将转换的其它可能列出,让操作者选取最合适部分来替换原有部分。同时将问题所在自动记录下来,便于统计、分析。其实验公式是:实验--->更新--->再实验的一个循环往复过程。其中根据具体内容,有的随时更新,随时被调用;有的不能立即判断是否有必要更新,更新后是否有意义的内容则有待具有相当数量后,通过统计分析后再作更新。

五、多语和样本外实验做好了由A语言向B语言转换,再作由B语种向A语种的转换,上述两种语言就可以实现互通了。这里还需要说明的是面向样本语料库(图10,2)的实验是一个基础,在这个基础之上,还要对其它语料进行转换实验,并且要求达到一定的数量和质量。

六、同语输出实验纵使有一些近义词汇共用一个意群代码的情况,但是在生成世界文时将当前选取第几个近义词的信息纳入了意群代码的义法段、所以同语输出能做到100%的复原。尽管如此,也要作同语输出的实验。同语输出的实验是浏览阅读器本语输出部(图9,8)的雏型,不应疏忽。

第九节、统筹优化部经过上述多道程序处理所得的辞典(图10,3)其中规范意群库、句型库,组建于对大量语料的整理、加工、分析提取而成,并且经过语言转换的检验。还要不断进行统筹优化。因为①上述程序运作有可能出现以现有语言词汇决定意群条目的弊端。②上述实施例仅限于中英两种语言文字,不过这是一个例子,还要不断加入新语种,在这个过程中,都难免局限于现有已经加入的语种。③本发明实施的目标是全世界各种语言文字都能互通。所以应该基于全世界各种语言文字的互通,对规范意群库、句型库进行统筹优化,鉴于新语种的不断加入,实施后产品的运作中经验的不断积累、问题的不断发现。所以应该不断地进行统筹优化。统筹优化部(图10,11)运作主要内容如下:1.规范意群库具体意群条目的设定和优化基于统筹各种语言文字、人造理想化地修改。人造理想化就是不要被各种语言文字的现状住手脚,基于现有科技高度尽量给以理想化处理,例如设定条目,严谨地定义与解释。理想化处理之后,相对于具体语言文字哪些与之不符的,哪些值得倡议的都交给文稿顾问系统,向用户作者提出。例如某语言相对于某意群可有多个文字串表示,选其中符合统筹、人造理想化的向用户作者建议,它是文稿顾问提出最佳词汇的建议的根据。基于本条意义,也可以说,实施本发明是建造一种使用现有各种自然语言词汇、语序的世界语。

例如关于“区分”这个意群,英文有“differetiate、distinguish”等文字串;中文也有“区分、区别、分辩、辨别”等,这就被当作两条或更多的意群库条目收录。基于上述考虑将它们整理为“区分”一个意群,一个意群代码下两种语言都有数条文字串的情况;致于“区分、区别”之间是同一意群当中的近义,仅有修辞上的区别;或者将“分辩、辨别”根据其它语言情况,看是否另设条目等。

2.某一意群的意群代码、定义解释、以及它的百语意群文字串等内容共处规范意群库一条记录的各自字段。

3.含有多词类的意群文字串以“语种标,词类a,文字串1,文字串2,词类b,文字串…”格式逻列于百语意群文字串字段。

基于统筹优化考虑设定意群条目,相同意群相同语种而有多个文字串的情况不会很多,也就是同义的文字串或者只有细微差别的近义文字串才会出现在同一个意群条目之下。通过严谨的定义与解释来介定它们。

4.含有跨学科而具有数个意群代码的意群文字串,以“语种标,文字串1;跨科标,文字串2…”的格式逻列于百语意群文字串字段,文稿顾问时选取准确的意群代码给以替换。

跨学科的文字串势必涉及多个意群条目,也就有多个意群代码,显然用那一个最为合适的并不困难,因为意群的序列编码部分可以辨别它们,同时根据上下文可以处理。显然,有些在世界文生成编辑时还难以断定的,可留待文稿顾问时处理。

5.句型库关于句型的内容直接利用表示意群类属的意群代码或者是表示相应概念的标识代码表示,如果某句型内容是某意群本身,直接用该意群代码表示。

上文关于句型内容的说明由于是面向样本语料,对样本语料进行实验,为了方便,采用文字。其实在转换实验时便应改为以意群代码的型式表达句型内容,编制意群代码是面向序列化处理后的某类意群分配具体代码值,因而类属之首都处于序列编码高位,它的低位等于0,这就可以用它代表类属。有些不属意群类属能表达的情况,例如“被动式谓语”,就定义标识代码,用标识代码来表示被动式谓语,作为某个句型的内容之一,等等类推。

6.对于句型的统筹优化主要借助于对阅读不满库等内容的统计分析进行修改优化,力求百语转换准确无误。

句型的目的在于为各种语言文字的快捷、准确转换提供参考。因而阅读不满库的信息反馈是句型统筹优化的重要参考信息之一。显然,各种有目的的检验,基于统计的句型材料等等都是句型统筹优化的信息源。

上文述及,以复盖面最广的3~5种语言文字作为第一个实施圈,上面对实施程序所述是以中英两种语言文字为例说明的。也就是说,上文第一到第八节实施程序面向中英语言做好后,至少应扩大到3~5种复盖面最广的语言文字,将它们逐一加入。对于新加语言的样本语料选取灵活性更大,例如加入第三种语言,就可以取它和中文之间有副本或译本、或者它与英文之间有副本或译本的文章。第三种语言开始,新语种的加入,结合对新加语种词汇的统计,还可以从规范意群库增加新语种意群文字串开始,这样可以简化某些程序,同时可以在加入的同时进行统筹优化。加入新语种意群文字串后,可以直接进行转换实验。但是只能减少本章第1~9节所述程序运作数量而不能取代它们。新加语种主要表现在在意群库内增加意群文字串;句型款式有少量增加。以已经进入世界文的语言与之配对,进行上文所述的实施程序。待这第一个圈的3~5种语言文字都能理想地转换运作后,辞典(图10,3)的内容就确定下来,它就是下文所述的世界文电子辞典的内容前身,世界文电子辞典也就宣告生成。这时将它们五大部件作成第一批产品,投放市场。以后就是第二实施圈,第三实施圈…,和吐故纳新的事了。

第十节、世界文电子辞典世界文电子辞典(图1,5)是基于本发明装置五大部件之一,它由下列数据、信息库组成,并响应相应的运作:一、规范意群库规范意群库至少含意群代码、百语意群文字串两字段;以应其它部件A、C、D和它们的各种版本对本库各取所需地构成各自使用的库。主要字段有:1.意群代码——以确定的意群条目,纳入其意群代码。

2.百语意群文字串——百语意群文字串,如上文所述以“语种标,意群文字串”进行收载。某语言有同义、近义意群文字串时以逗号相隔一并列出。它们是相同意群、相同意群代码下,在各种语言文字那里相应的意群文字串。如是复群内以“-”相连,如果复群的成分意群以意群代码的形式记录,以“#”代“-”以示区别。

3.定义解释——对本条目意群的定义和解释,也就是本条意群代码的内函。注意以世界文里的语法、语义进行解释。先以中文书写实现,以后改为世界文。

4.意群参考码——关于意群语义表达的参考代码,如上文主题群章节所示。

规范意群库以意群代码前3字节数值从小到大排序,响应以意群代码为关键词的检出操作。此外,对各种语言分别以其意群文字串(包括同义、近义、跨科文字串)的字符代码排序与索引,以响应以文字串为关键词的检出操作。

其它部件A、C、D对世界文电子辞典各取所需地构成各自的库,是指世界文电子辞典的规范意群库。规范意群库主要含有上述字段,它是世界规范型意群的总和,尤其是百语意群文字串的内容更为丰富。然而任何一个实用版本都不可能,也没有必要照搬整个规范意群库,而只需要取出其中一小部分,就足以面向一大片用户群。例如意群输入装置某个版本,面向某种语言文字当中的一个用户群,它只需要取该语种当中适合这个用户群的那部分意群文字串和相应的意群代码形成意群基本库或复群基本库就可以了。文稿顾问系统所要求范围大得多,它可以根据自身面向何种语言文字版本取该语种的所有意群文字串和相应意群代码形成顾问知识库(图8,6)当中的意群库;更合适的做法应还应考虑是否专业,专业版本与普通版本所使用的意群范围、量都有不同,范围、量太大不必要,占用太多的存贮空间和检索时间,因而以合适为佳。浏览阅读器的情况与文稿顾问系统大致一样,取与版本一致的语言意群文字串,适合当前版本是否专业、什么专业的那部分。如果是双语版,还要同时取两种语言的意群文字串。所以将世界文电子辞典主要存放在计算机网络的世界文管理站点上,就可以随时支持某些用户另时扩大范围之需,增加它们的意群库库存,或者是另时的查询等等。显然,也可将范围较大,或者面向某个语言文字的意群库存放在光盘上以满足非网络用户所需等等。

二、新生意群库新生意群库主要字段有:意群文字串、文种、频度、定义与解释、备注、后续链。某个发明型意群的出现先出自某种语言,它便占有一条记录,同语种再出现或者引用只增加其频度,当它种语言又出现或者翻译使用了将增加另一条记录,所以后续链字段将它们链接了起来。备注字段用以提出者及其文章出处的有关内容,以及评论记录(查询阅读者如果发表评论)等。这些是有待专家组确定的内容,也是在新版本修订时是否纳入规范型的重要素材。其它字段一见自明,不必再说明。

本库为新意群的出现而准备,它们是意群代谢新增部分。定期将其中使用广度、频度达到一定程度的那一部分,提取到规范意群库。新生意群库是一个新增意群收集的动态库。其内容来自于文稿顾问系统的出版社专版,由出版社专版将发明型意群、候选为规范型的自由型复群等收集,反馈到世界文管理站点,世界文管理站点的操作将它们记录到本新生意群库,同时还汇总它们的频度以及来源等有关信息。

三、频度统计库频度统计库主要含意群代码、频度两字段,接受并汇总由文稿顾问系统出版社专版反馈回来的规范型意群使用频度:人类语言文字的词汇,不断地有新词汇加入,也不断地淘汰一些旧词汇出去;意群也是一样,要进行新陈代谢。频度统计库面向规范意群库的所有意群。其信息、数据来源于文稿顾问系统的出版社专版,后者将给以出版、发表的文稿有意群代码部分进行预统计,定期或趁空将统计结果反馈到世界文管理站点,世界文管理站点将它们汇总到频度统计库。这也是世界文更新发展的参考数据之一。

四、句型库句型库响应网络支持而备于世界文电子辞典内。句型库内容的变动仅接受研制人员的统一修改。句型库至少含类款号、句型内容、语种三字段,本发明装置部件C、D取其副本构成各自的库。

类款号——对于句型类属、款式的统筹编号。如上文“句型分类”所述,将它们分为“陈述基本句型、判断句型、疑问句型、比较句型、比喻句型、条件假设句型、时间句型、地点句型”等等。各类下有具体若干句型。具体句型可能有若干款式。然而句型类属款式编号以这三个因素考虑给以编号。

句型内容——以意群代码的形式体现与记录,例如上文句型、构架群选取章节所列举的句型,都变为以意群代码,包括标识代码的形式记录于本字段。

语种——相同句型的若干款式,这些款式出现于何种语言,采用最简捷的标志方法记录。

定义解释——对句型给以明确的定义与注解,严谨介定所传递的句型义,给以确切的解释。

句型库以类款号数值从小到大排序。对于句型字段的内容给以索引,以响应根据句型内容的查询与检出。

文稿顾问系统取句型库的副本参与构成顾问知识库;浏览阅读器取句型库副本构成自己的句型规则库。

五、阅读不满库接收由浏览阅读器反馈回来的用户感到阅读不满的文章片段或者阅读不满的问题所在记录。尤其注重翻译者专版用户反馈回来的信息,全部记录入库,备研制人员解决和版本升级时参考。

第十一节、世界文管理站点本发明实施之后,利用世界文建立的站点没有语言障碍,现有站点势必被世界文站点所取代。这里所述世界文管理站点不是利用世界文所建立的站点,而是对世界文用户进行各种支持以及对世界文有关数据、信息进行吐故纳新进行管理的网络站点。

设立世界文管理站点,将世界文电子辞典(图1,5)的各种库,以及对于这些库的操作置于世界文管理站点。用以响应人们关于科技情报有关发明型主题词的检索,可以获得最新动态信息;响应本发明产品的用户有关查询,给以数据、信息的支持。当人们利用世界文建立没有语言障碍的各种世界网络站点时,世界文管理站点还要对这些基于世界文的各种站点给以各种支持。

第十二节、世界文电子辞典的吐故纳新上文述及,世界文电子辞典(图1,5)对意群输入装置(图1,1)、文稿顾问系统(图1,3)、浏览阅读器(图1,4)进行数据、信息的支持,同时又接收它们的反馈信息进行吐故纳新。有关章节已有说明,这里再概括如下:①意群输入装置面向各种语言文字,并可以根据用户群不同而设置不同版本,其中基本库的内容总和,就构成辞典的规范型意群库,或者说辞典的规范意群库来源于意群输入装置的基本库内容;同时又是意群输入装置根据自身面向对象不同,对辞典的意群库各取所需。意群输入装置的信息反馈通过文稿顾问系统传递,间接反馈到世界文管理站点。

②文稿顾问系统面向某种语言或者某语言内某个行业的用户对象,同样根据自身面向对象不同,对辞典的意群库各取所需,对百语文字串只取版本所面向的语言一种;对于句型库是全部移人,共同构成顾问知识库(图8,6)。另一方面,借助出版社专版的文稿顾问系统将发明型意群、自由型复群等数据反馈给世界文管理站点,纳入新生意群库。出版社专版还将规范型意群所使用的频率进行统计,反馈到世界文管理站点辞典的频度统计库。

③浏览阅读器也是面向某种语言或者某语言内某个行业的用户对象,同样根据自身面向对象不同,对辞典的意群库各取所需,对百语文字串只取版本所面向语言一种;对于句型库是全部移人,共同构成浏览器辞典(图9,11)和句型规则库(图9,10)。另一方面,浏览阅读器将读者阅读不满之处,或者不满之所在信息,记录到一个特定文件,反馈到世界文管理站点,被收集到阅读不满库。

④频度统计库是淘汰陈旧不用的意群条目的根据。扩充意群库使用频度达到一定程度的那部分,将被纳入规范意群库。这就构成了世界文电子辞典的吐故纳新关于数据方面的运作。反馈到阅读不满库的内容,主要将成为句型、本发明装置操作更新的促使因素。

综上所述,频度统计库是规范型意群被人类社会忘记或淘汰内容清除出库的依据;新生意群库是规范意群库新增内容的来源;阅读不满库是本发明装置研制升级、完善发展以及句型优化的参考。本发明装置各部件相互联系,通过一定的方式或途径,共同构成吐故纳新的新陈代谢体系。

第六部分、实施与发展第一节、语言继承、转换互通时期本发明实施早期,是语言继承、转换互通时期。本期目标是将加入的语言文字进行继承,实现对随机文章能达到95%或更高的可进行转换比例。对于转换后的文章要达到“通顺可读,明确直叙”。所谓明确直叙是阅读后,语意是明确的,但不要求有很好的加工修辞能力,早期以能达到直叙的程度为目的。世界文可以转换成各种语言文字,所转换出来的文章与人直接书写的文章或许有所不同,这个不同允许存在,它很可能就是世界文的风格。如果出现部分转换后不理想、或者很难处理的一些情况,这些情况见于多种语言文字,其问题在于世界文本身,从加强世界文功能上进行完善;如果仅在某1~2种语言文字里出现,那就是某语言文字需要革新的地方。也是世界文对于具体语言文字建议革新的内容。

第二节、促进语言文字发展时期当世界文对于具体语言文字提出一些建议革新的内容时。世界文促进语言文字发展的时期也就开始了。对于某种语言文字,如何革新,现在讨论显然太早。这里要说明的是世界文促进语言文字的发展是高效而简单的,某种语言文字需要革新的具体内容交付给文稿顾问系统,由文稿顾问系统的语言革新检测器(图8,5)检出,向用户作者建议修改即可得到很好地实行;另一方面,存在需革新的陈旧内容的文章要出版发表也是不能通过的。然而,本发明的实施还将促进语言文字本身的高速发展。

根据本发明的构思,除了用于本发明所公开的装置以外,还可以用于中、小、微型计算机,掌上型计算机,以及各种计算机网络和传输通讯系统上。

本发明装置所生成、顾问后的世界文还可以广泛用于自然语言理解、科技情报自动检索、计算机辅助教学、电子图书馆、电子病历、电子档案等领域和学科。

高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈