公告:服务器迁移已顺利完成! 网址全面启用 https

服务器2号 服务器3号 服务器4号 服务器5号

申请VIP无广告,支付宝,微信,USDT!
在线客服请尝试以下不同链接如果进不了的话在线客服(1) (2) (3) (4) (5) (6)
(7) (8) (9) 实时开通

查看完整版本: 百度翻译研发500天幕后:团队曾经迷茫一个月[2P]

dahundan86 2011-7-12 10:31

百度翻译研发500天幕后:团队曾经迷茫一个月[2P]

[img]http://img1.gtimg.com/tech/pics/hv1/195/152/809/52644180.jpg[/img]
7月12日消息,百度自主投入、研发的在线翻译产品——百度翻译近日悄然上线,受到了业界和用户普遍关注。近日百度翻译研发负责人日前独家披露产品背后的故事,称这款历时一年多时间打造的最新翻译工具,也曾遭遇过长达一个月的迷茫期。
[b]去年组建机器翻译团队[/b]
据了解,互联网的出现为机器翻译的研发和应用带来了空前的机遇和挑战。在中文搜索领域处于领先地位的百度,也意识到机器翻译的重要性。2010年初,百度组建了由世界级机器翻译专家王海峰博和吴华博士领衔的机器翻译核心研发团队。
他们二人皆有着10年以上的机器翻译研发经验,曾成功开发过机器翻译产品,也曾在国际机器翻译评测中以绝对优势获得第一,并发表过数十篇高水平机器翻译论文。王海峰更是自然语言处理领域世界上影响力最大、也最具活力的国际学术组织ACL(Association for Computational Linguistics)50年历史上唯一当选副主席的华人。
在王海峰和吴华博士的组织下,一个由3名正式员工和1名实习生组成的百度初始机器翻译核心研发团队成立。随后一年,团队展开了百度机器翻译的研发。调研、规划、语料抓取、训练工具、解码器等工作也由此全面铺开。
[b]曾经迷茫1个多月 [/b]
在百度做机器翻译,一个重要优势就在于,百度强大的海量计算平台和丰富的海量互联网数据处理经验,可以支撑机器翻译团队从海量互联网数据中挖掘超大规模的双语语料。
作为机器翻译领域资深专家,王海峰非常清楚这些双语资源在机器翻译中的价值。于是,双语语料的探测、抓取和处理,就成了百度机器翻译团队初期的重要工作之一。
随着工作的开展,双语语料数量也迅速增加,当达到1000万句对的规模时,团队成员们都十分振奋,从事机器翻译工作多年的他们,从未使用这么大规模的双语语料训练过系统。不过,看到基于这1000万语料训练系统翻译结果时,大家沉默了,因为翻译质量远比预期要低。
仔细分析后发现,虽然这1000万语料已经是从更多的语料中选出的质量较高的部分,却仍有一大半的低质句对,例如:“how old are you”这么常用而简单的英文在网上却被大量地翻译为“怎么老是你”,“好好学习、天天向上”这句大家耳熟能详的中文,在抓取回来的语料中,大多数都被翻为了“good good study, day day up”。
这样的句对,利用已经使用的常规双语处理技术很难过滤掉。而如果不解决这个问题,语料规模再大也没有意义。于是,语料工作的重点迅速转到了低质语料处理。
接下来的一个月,大家反复地分析、开发及实验,但又一次次陷入迷茫和困惑,大量被同行证明行之有效的方法一时间都失灵了,成功过滤的低质语料不足10%。经过这个过程,大家逐渐看清了一点,解铃还须系铃人,要想有效处理与传统的文本数据差别非常大的互联网数据,还要更多地将传统文本处理技术与互联网技术相结合。
于是1个月后,一套全新的互联网双语语料挖掘技术方案出炉。基于这套技术,1000万句对被有效过滤到约400万。令大家兴奋的是,过滤过的400万语料训练出来的系统,其质量远远好于基于1000万句对训练的系统。新的互联网双语语料挖掘技术成功。之后的时间里,高质量双语语料不断增加,翻译系统质量得以提升。
[b]更本地化 擅长网络流行语 [/b]
[img]http://img1.gtimg.com/tech/pics/hv1/145/14/817/53129140.jpg[/img]
仅一年多时间,百度翻译即上线发布。百度方面认为,与业界同类产品相比,百度翻译有四大技术亮点:机器翻译核心技术、语料挖掘和过滤技术、海量计算技术、可靠的web前端技术。
依托于百度在中文互联网技术上的优势,百度翻译对中文网络语言有着独特的应对能力。如翻译“有木有、我勒个去、神马都是浮云”等网络流行语,百度都能准确翻译。
以翻译“神马都是浮云”为例,百度翻译为“Everything is nothing” ,谷歌翻译成“Horses are clouds of God”,谷歌翻译明显体现出本地化不足的特点。

QQ316137315 2011-7-12 11:06

真过的这些个公司 除了模仿还真没什么本事

lanqianbi 2011-7-12 11:40

*** 作者被禁止或删除 内容自动屏蔽 ***

lakeice 2011-7-12 11:54

GOOGLE的翻译用得比较习惯了,还真没关注过百度出翻译的事情。

PyrosX 2011-7-12 13:07

百度总是步google后尘,现在又开始抄谷歌翻译了,不知道要抄到什么时候。

李肖尧 2011-7-12 16:23

在线翻译确实很好用,把想翻译的东西翻译一下再稍微改改就OK了。

cj5825794 2011-7-12 18:18

百度这么说不是一无是处了?
什么和什么啊

stroll231 2011-7-12 19:20

进步吧,为了以后不用背单词,加油吧,支持这些技术人员,为了让我们的下一代不用背单词

lili809181 2011-7-12 19:23

百度的翻译出来了以后,越来越多的在线翻译出现在了互联网上。

a55paht 2011-7-12 19:47

神马都是浮云,看来他是比谷歌人性化,竟然能把这也翻译了,谷歌绝对做不成

lwf1984 2011-7-12 23:53

希望机器翻译好好进步,我们就不需要学习外语了,呼呼

colorwolf06 2011-7-13 00:32

单凭本地化还不够,关键是在一些专业的应用方面能不能够胜任

phonir 2011-7-13 16:07

百度还腾讯都是一个德行,就是不断的抄袭抄袭再抄袭

appolloo 2011-7-13 16:54

google一直是走在百度前面的,百度翻译也是模仿google,其优势就是本土化而已,其吸引人处也就在此!

loveHD 2011-7-13 17:05

白度反映更能贴近我们的生活比如浮云神马,山寨之类的词汇就能恰到好处的翻译出来,谷歌就不行了。赞一个百度。

xlas 2011-7-13 17:10

我还是喜欢google,可能用习惯了,百度估计除了神马都是浮云这句外,应该神马都是浮云吧!

dahundan86 2011-7-14 23:13

回复 3楼 的帖子

机器就算真的翻译达到人工的水平,难道还能代替你的嘴说吗?

dahundan86 2011-7-14 23:14

回复 4楼 的帖子

谷歌是老牌的机器翻译的了,市场份额很高的,百度不好突破啊

dahundan86 2011-7-14 23:15

回复 6楼 的帖子

我最近写的一篇论文用的就是谷歌的翻译,不过还是被老板批评了一顿的了

刺客三号 2011-7-14 23:38

还没有用过呢,这个倒是要去尝试下的,看看好不好用。
页: [1] 2 3 4 5 6
查看完整版本: 百度翻译研发500天幕后:团队曾经迷茫一个月[2P]