译网情深 首页

打印 2012-5-19 14:15:31 在同一个网页中显示这个主题的所有文章
文章作者 frank2001-7-11 16:49:48
重建"巴别城"(转贴)
传说,天下人原本说着同一种语言,他们在一片平原上商量用砖和石漆建造一座城和一座塔,号召分散在各地的人聚集到一起。耶和华看到他们的城和塔,害怕人类聚集的力量超越了神的力量,于是,他使人类彼此语言不通。结果,人们无法沟通,分散在世界各地,城和塔的建造就中止了。这座没有建成的城便称之为"巴别城"。

虽然这仅仅是一个传说,但却代表了人类的一种心愿:所有人之间可以毫无语言障碍地沟通。信息技术的发展给人类重建"巴别城"再现曙光,一些跑在技术前沿的研究者正在为人类重建"巴别城"构造模型。

"巴别城"雏形

C-STAR(国际语音翻译高级研究组织)对大多数人来说是一个陌生的词汇,但正是这个国际组织在为人类实现重建"巴别城"的梦想。我国的中科院自动化所模式识别国家重点实验室(以下简称模识室)在1996年成为C-STAR的联系会员,并于2000年10月正式成为核心成员,从而成为了这一可能影响人类发展的重要项目的一个部分,也使中文这一世界上使用者最多的语言成为"巴别城"最早的住户之一。

目前,通过C-STAR 7个核心成员之间资源共享、接口规范和协调工作,各国研究组织共同建设的"巴别城"雏形正逐渐清晰。

根据模识室副主任徐波的介绍,这个"巴别城"的雏形主要由C-STAR在其7个核心成员组织安装的7台全天候工作的服务器组成,每台服务器负责本国语言与中间语言的互译工作。

之所以这样设计是因为,如果在7个国家之间分别进行两两互译,那么,每个核心成员要同时解决与其他6个国家的翻译问题。也就是说,总共将有42种不同语言间的翻译工作。从硬件条件看,如果每台服务器只负责两种语言之间的翻译,则每个核心成员就必需要有6台服务器分别对应每一个其他核心成员。

C-STAR因此 设计了一种中间语言,每个核心成员只负责本国语言与中间语言的互译。这样,一个核心成员要与另一个核心成员通话时,本地语言通过本地服务器后翻译成中间语言,中间语言通过网络传输到目标成员的服务器后,被翻译成当地的语言。

徐波说,这种翻译方式的主要难度在于定义中间语言。因为各个国家的语言带有明显的文化差异,中间语言必须保证在翻译中语义不丢失。一个简单的例子是,美国人所说的日历都是公历,而我国很多时候说的是农历。如果简单地将"大年初一"翻译为"某月某日"往往丢失了"大年初一"这个日子包含的特定含义。

中间语言的定义工作从C-STAR成立之初就已经开始,其间通过近十年的研究及其他一些研究组织的完善工作,正在逐渐走向成熟。

基于以上这一框架,C-STAR Ⅲ项目研究将从2001年开始展开。这一项目的研究工作比以前更注重实用化及公众化。据徐波介绍,2004年C-STAR Ⅲ结束时,一般普通话比较标准的人,无论在互联网还是电话中都可以实现可靠的语言识别和自动翻译。在专用领域的翻译将达到100%。机器对文本的翻译准确率达80%以上(目前的自动翻译准确率在60%左右)。

由此,如果研究工作顺利完成,4年后我们看到的将不仅仅是"巴别城"的雏形,而是现实的应用。我们将可以跨越语言障碍和其他6个国家的人自由地沟通与交流。

并非梦想

在此之前,我国的科研组织在语言自动翻译、口语信息处理等方面做了大量的工作。模识室在语音识别和翻译技术方面已经进行了10年的研究工作,这些研究工作形成了3种主要的翻译技术:

1. 基于模板的翻译技术,通过对实际用语的归纳总结,进行基于实例的翻译工作;

2. 基于理解、语义的中间语言翻译;

3. 根据多年积累的经验和数据,用统计的方法进行翻译。

在模识室的实验室里,记者看到各种语音旅馆预定、语音自动查询方案、电台及电视台语音检索等与语音识别及口语翻译相关的产品。在一个演示的电脑上,实验者打开模拟的海外旅馆预订系统,对着麦克风用中文询问房价,电脑立刻用语音回复了一个价格。同样,实验者询问价格折扣、预定等都通过语音顺利地完成。

这一实验至少涉及了三方面的技术:其一,电脑首先必须能够识别实验者所说的语音;其二,电脑必须分析实验者所说的内容,并"理解"语义;其三,模拟的旅馆使用的是英文,所以,实验者的话将翻译成英文。另外还涉及到电脑语音合成等技术。而且这些环节的偏差会被积累。尽管如此,记者看到和尝试的实验准确率相当高。

在另一个电视台新闻查询系统中录制有10小时的新闻节目,实验者进入查询系统后,说"伊拉克",屏幕立刻显示出有关伊拉克的所有新闻。同时,扬声器开始广播相应的新闻内容。

一个更为有趣的查询是公交线路的查询。实验者说"我想去北京西站",电脑立刻就问"你现在在什么地方?",实验者说"我在中关村",电脑立刻回答了几种到北京西站的最佳路线方案及其坐车方法。同时在屏幕上列出了每个方案的详细信息。在实验室里尝试的结果让人感到,科幻片里的境头已不再是科幻,而即将成为现实。

也正是这些方面惊人的研究成果,使C-STAR组织评委对模识室成为其核心成员全部投了赞成票。

C-STAR的脚印

与此同时,C-STAR在语言信息处理研究方面也经历了两个发展阶段。

1991年,C-STAR成立,第一阶段研究工作开始。当时C-STAR只有三个核心成员(美国、日本和德国),研究范围也限于国际会议会务用语,如会议的注册、联系等一些规范用语,涉及词汇仅100多个。演示环境也仅在PC机上进行。

从1996年开始,C-STAR进入第二阶段的研究工作。此时的核心成员发展到了6家(增加了法国、意大利和韩国),研究重点开始转向较为复杂的旅游用语的自动翻译,词汇量达到了1万多。演示环境转移到ISDN及视频会议系统等网络环境。

2000年我国模识室成为C-STAR核心成员。这样,C-STAR的核心成员拥有了7个国家的7个研究机构。另外还有12个国家的20家企业及研究机构作为联系会员。

2001年开始,C-STAR将开始进入为期4年的第三阶段研究。

C-STAR Ⅲ计划一旦成功,不会英文的人可以毫无障碍地与美国人通电话。因为当你对着话筒说中文时,对方听到的是翻译成英文的话音。同样,你听到的是与对方所说的语意相对应的中文。

实验室里的遗憾

采访中,记者在模识室看到很多技术相当不错,但却没有在市场上见到这些技术成果,这多少是一种遗憾。

对此,徐波表示,国内的研究机构在技术的工程化、产品化及市场化方面与国外科研机构仍存在差距。模识室也希望能有更多的企业介入到像模识室这样的高新技术研究组织中,使技术更快、更好地与市场结合,使梦想尽快成为现实。

从另一个角度来看,国内的企业由于规模、实力的限制,很少有企业能够拥有自己的研究部门。与此同时,国家花费大量经费研究的技术成果却被"关"在实验室里。记者常遇到一些有钱却不知投资什么项目的商人,如果能把技术资源和资金资源有效地结合,结果不言而喻。

"巴别城"不仅为了聚集不同人的力量,它的建设也同样需要不同人的力量。它不仅需要科技人员,也同样需要投资商和企业。


Frank Wei
frank@xmmaster.com
http://www.xmmaster.com
Let's work together for our exclusive community.
----------------------------------------
Frank
frank@mts.cn
http://www.translators.com.cn/blog/blog.php?u...-------------------------
《译网情深》--- 中国自由译者社区