机器翻译漫谈

本文介绍了机器翻译自诞生以来的发展历程,包括国内外研究的曲折经历、日本的推动作用等。如今机器翻译市场繁荣,但存在译文质量差、研究人员缺乏投入等危机。通过与人工翻译对比,指出应在大语境、基于理解、高度专业化方面突破,还提及《知网》的应用,其前景广阔。

 

 

 

  世界上许多国家长期以来都一直在从事这项研究。事实上自本世纪40年代电子计算机诞生之日起就开始了将计算机应用于语言翻译的探索。我国机器翻译的 研究可以追溯到50年代中期。今年是我国第一次机器翻译试验成功演示的40周年。40年前的那次试验虽然规模不大,但是在当时已经是世界水平了。当时世界上 能进行这样试验的国家实在是屈指可数。半个世纪以来,世界范围和我国的机译研究都曾走过一段曲折的道路,都有过60年代中期以后约10年的停滞或沉寂,不 过原因不尽相同。国外主要是受了美国曾专门组织的一个机构于1966年发表的机译界无人不晓的ALPAC报告的影响,纷纷停止了对机器翻译研究的经费支持。ALPAC 报告主要说的是:经过调查,机器翻译速度慢,准确率差,比人工翻译费用高得多,在近期或可以预见的未来,开发出实用的机器翻译系统是没有指望的。这个 报告后来虽曾受到许多严肃的批评,认为它是带有严重偏见的,但它还是对机器翻译研究造成了很大的损害。直到70年代中期机器翻译才开始在世界范围内复苏 并日趋走向兴旺。日本却是极少数未受世界范围的停滞影响的国家。80年代初日本几乎所有的大计算机公司都进行机器翻译系统的研究和开发,如富士通、日立、 日本电气、东芝、夏普等。日本在推动机器翻译研究方面的贡献为世界所公认。在它的倡导下,于1987年在日本箱根举行了第一届机器翻译峰会(MT Summit) 并决定以后每两年轮流在亚、欧、美定期举行。不久又相继成立了亚太机器翻译协会,欧洲机器翻译协会,北美机器翻译协会,以及国际机器翻译协会,还定期 出版了《机器翻译通讯》。今年九月在新加坡举行了第七届峰会,它也是本世纪的最后一次峰会,其主题是"迎接新世纪翻译的机器翻译"。我国有代表 应邀在"世界各地机译进展"的主题研讨会上介绍了我国的机器翻译研究和开发的现状,还有代表应邀参加了经费投资的主题研讨会并介绍了我国各种渠道 对机器翻译研究的投资状况。笔者应邀在会前的学术研讨会上做了题为《英汉/汉英机器翻译的过去、现在和未来》的报告。

 

  如今机器翻译对于许多人来说应该已经不是很陌生的的词儿了。今天我们可以在软件商店买到形形色色的PC机译软件,各种语言对的,如英文到中文的, 中文到英文的,或者日文到中文的,甚至也有英文到日文的等等,还有什么家庭版的,专业版的,配带各种不同专业词典可供选择的等等。据估计,世界上 目前市场上有1000多种不同的机器翻译软件在销售,我国具有一定规模的PC机器翻译软件也有近20种。在世界范围内PC机译软件的价格都不贵,而且价格还 在不断地下降。现在我们甚至可以在网上免费享用翻译系统的服务。因此现在用户已有较大的选择余地。当然一个用户在选择机译系统时,应该首先很好地 弄清自己的需求。具体来说,我们有如下的建议。

 

  第一,如果你的翻译任务是较稳定的或长期的,专业单一的,翻译结果要达到出版水平的,你可能是一个翻译公司、或一个专业情报所,那么你可以选择 配有大规模相应领域的专业词典的,并且又经得起大批量、长时间翻译运行的(有的系统会死机的)系统。同时更理想的是你还可以再配备一个"翻译记忆 "系统,它可以帮助你处理文本格式问题(如字体、图表、脚注等),而且可以把你经过修改的正确译文保存起来供以后翻译时再利用。

 

  第二,如果你的翻译任务是临时性的,专业不单一,翻译质量要求无须达到出版水平的,那么你可以选择配有多个领域的专业词典的,但还是应经得起 大批量、长时间翻译运行的系统。

 

  第三,如果你是为了浏览网上信息要用到翻译,那么你一定要选择可以在网上运行的系统。如果你的外语水平还可以但词汇量有限,那么还可以选择一种 只有大规模词典但可随点随译的系统。

 

  今天机器翻译比起10年前,可以说相当繁荣。但是我们愿意提醒,在这繁荣的后面,却存在着危机。前面说到那个ALPAC报告曾给机器翻译带来的创伤 如今似乎已被抚平了。但实际上它的阴影始终会时不时地再出现在机译研究者的头上。如今随着有越来越多的机译系统走向市场,政府的投资者感到在这种 情况下如果还要投资攻关似乎有点名不正言不顺了。而商家则只是想现在该是把现成的技术包装包装就可以赚钱的时候了。经常会听到老板们会这样问研究 者,"你估计开发出产品要多长时间?你的系统正确率如何?",大概没有一个研究者会回答说,将来"正确率大约在百分之五十左右"的。 如果果真那样回答,那么他的项目还不当场就被"枪毙"了。可是现有的机译系统(不仅是英汉或汉英,国外的其他语言对的系统)在面对真实文本时, 其正确率实际上有多少呢?机译的译文质量确实还远不能令人满意。近来国外有些人挖苦地说"MT,不是machine translation的缩写,而是mad translation (疯子的翻译)的缩写。他们是近乎要跟机译来番决战似的。他们劝说人们不要购买机译系统,要翻译的话应该雇翻译人员。国内也有人讽刺地说,有了机器翻译, "满篇英文难不住,满篇中文看不懂"。这些固然是比较极端的评价,但机译译文质量确实一直是个老大难问题。著名的机译评论家Hutchins在最近的 机器翻译峰会上的发言中说,机译译文质量至今并没有取得实质性的进展,很多50年前未解决的问题如今依然存在。还有一种更加深层的危机,那是来自研究人员 自身的。他们说"在现有的技术条件下,机译译文质量也只能这样了。"说这话时似乎他们不是"现有的技术条件"的创造者。这样一来, 可能出现的情况将是投资者和研制者都在以较低水平的系统忙于行销赚钱,而不再有足够的经费和技术投入。机器翻译无论在理论上或是技术上都还未成熟。 现在只是由于人们对于克服语言交流的障碍有着很强烈的需求,尤其是因特网的出现这种需求更显突出,机器翻译才获得了以较低的译文质量满足这种需求的 机会,并利用这一机会来求得进一步的发展。我们对这一现实要有清醒的认识。在行销上,应切忌不切实际的宣传。现在在报纸杂志上常能见到关于机器翻译 系统的过度夸张的宣传。从长远看,这是"自砸牌子"的不智作为。正确的做法是把产品拿到用户那里去,老老实实地告诉他们机译系统能做什么和 不能做什么,如何来利用它,利用它之所长,避它之所短。同时根据用户的需求来调试和改进系统。换句话说,多做培养用户,培养系统,培养市场的工作。 20年左右,机器翻译研究的方法真可谓花样翻新,令人目不暇接,有基于规则的、基于知识的、基于语料库的、基于统计和语料库的、基于例子的、基于 对话的等等,从另一种角度,还有直接法、转换法、中间语言法等等。但其中哪一种也未能在翻译质量上取得实质性的突破。如何才能取得实质性的改进呢? 我们不妨先对现有的机译和人译做一番比较。

 

  机译:

 

  1. 一句一句处理,处理第一句时不知道第二句的内容是什么,处理第二句时,也不再去参考第一句的内容了;

 

  2. 对源语言的分析只是求解句法关系,完全不是意义上的理解;

 

  3. 它的开发者要求它几乎是万能的,它似乎什么领域都能应付,从计算机到医学,从化工到法律,似乎只要换一部专业词典就可以了;

 

  4. 它的译文转换是基于源语言的句法结构的,受源语言的句法结构的束缚;

 

  5. 它的翻译只是句法结构的和词汇的机械对应。

 

  人译:

 

  1. 一般会先通读全文,他会前后照应;

 

  2. 对源语言是求得意义上的理解;

 

  3. 只有专业翻译人员,没有一个是可以包打天下的万能翻译人员的;

 

  4. 他的译文是基于他对源语言的理解,不受源语言的句法结构的束缚;

 

  5. 他的翻译是一个再创造的过程。

 

  机器翻译研究归根结底是一个知识处理问题。它涉及到有关语言内的知识、语言间的知识、以及语言外的世界知识,其中包括常识和相关领域的专门知识。 我认为从实用的角度看,全自动高质量的机器翻译不应该是个目标,至少不应该是近期的目标,但是从研究的角度说,全自动高质量却应该是个目标。因为这样 我们不仅能够建立机译系统,而且能够探索人译的机制。近年来我在许多场合都强调机器翻译应该到了有所突破、有所创新的时候了。下个世纪的机器翻译研究 应在如下三个方面有所突破:

 

  第一,大语境,而不再是一个句子一个句子孤立地处理;

 

  第二,基于理解,而不再是停留在句法分析的层次上;

 

  第三,高度专业化、专门化,而不再是个"万事通,样样松"了。

 

  在九月的峰会上几位机译权威教授都一致提出要进行深层次的基础研究,使对于源语言的分析基于理解。呼吁投资者加大对于基础研究,如大规模知识词典 建设的投入。笔者经过十多年的努力建立的大型知识系统《知网》,今年已上网供研究免费使用。它引起了海内外学者的广泛注意,并已有人在它基础上开始 进行新的探索,如上面介绍的基于理解的分析以及新的排除歧义的方法。

 

  随着因特网的普及,随着信息时代的到来,机器翻译的应用前景是广阔的。作为人类探索自己智能和操作知识的机制的窗口,机器翻译研究将更加诱人。 50年来尚未解决的问题会在新世纪里得到解决。

 

Copyright ? 1999 - 2002 KEENAGE.com,

Dong Zhendong & Dong Qiang. All Rights Reserved

电子邮件:support@keenage.com

联系电话:010-82382578-205   

内容概要:本研究聚焦于绿电直连型电氢氨园区的优化运行,提出一种集成绿色电力直接供给、电解水制氢及氢气合成氨工艺的综合能源系统架构。通过建立包含风光发电、电解槽、氨合成反应器、储氢罐、电网交互及多类型负荷在内的系统模型,综合考虑绿电直供优先、能量梯级利用与多能互补原则,构建以系统综合运行成本最小化为目标的优化调度模型。研究采用Matlab与Python工具进行算法求解和仿真分析,利用实际气象与负荷数据完成案例验证,评估了不同运行策略下系统的经济性、可再生能源消纳能力与碳减排效益,为新型电氢氨一体化园区的规划与运行提供了理论依据和技术支撑。; 适合人群:具备一定电力系统、新能源或化工背景的研究生、科研人员及从事综合能源系统规划与优化工作的工程技术人员。; 使用场景及目标:①用于科研学习,理解电-氢-氨多能转换系统的建模与优化方法;②为工业园区的低碳化、智能化改造提供技术参考与决策支持;③作为开发类似综合能源管理系统的理论基础。; 阅读建议:此资源包含完整的模型代码、数据与论文,使用者应结合代码仔细研读论文中的模型构建部分,重点关注目标函数与约束条件的设计逻辑,并尝试修改参数进行仿真,以深入掌握优化算法在实际系统中的应用。
内容概要:本文深入探讨了RS485通信协议在芯片行业自动化测试系统中的实际开发与应用,涵盖其关键概念、电气特性、通信机制及与Modbus RTU协议的结合使用。文章重点介绍了差分信号完整性设计、主从时序控制、CRC校验与重传机制等核心技术要点,并通过一个基于Python的完整代码实例,展示了如何实现RS485主站对探针台、自动分选机等芯片测试设备的控制与数据采集。此外,还分析了RS485在晶圆探针台、ATE设备集群和环境监控等典型场景的应用,并展望了其与工业以太网融合、智能化诊断、高速化及AI集成的发展趋势。; 适合人群:具备一定嵌入式系统或工业通信基础,从事芯片测试、自动化设备开发及相关领域的研发人员,尤其是工作1-3年希望提升现场总线应用能力的工程师。; 使用场景及目标:①理解RS485在高干扰芯片测试环境中稳定通信的设计原理;②掌握Modbus RTU协议在Python下的实现方法,用于实际控制探针台、Handler等设备;③构建可靠的数据采集与设备控制系统,支持CRC校验、异常处理和日志追踪;④为后续向高速通信和智能诊断系统升级提供技术储备。; 阅读建议:此资源强调实战开发,建议结合硬件环境动手调试代码,重点关注线程锁、CRC计算、帧解析和超时控制等关键环节,在真实产线中验证通信稳定性,并利用日志系统进行故障分析与优化。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值