奇妙源码网 12 月 31 日信息,2021 年 12 月,巨量引擎集团旗下的火山翻译官方网站,上新了包含世界语、塔希提语、鞑靼语等以内的 38 个稀缺语种的翻译。现阶段,包含中文、英文、阿语、德语、法文、西语六个通用性语种以内,火山翻译已具有 94 个语种、8742 个语向的翻译工作能力,总体 bleu(设备翻译品质全自动评定指标值)达 33.45,处在领域领先地位。

▲ 深蓝色一部分为火山翻译推新的 38 个语种

据统计,根据选用自主研发的 mRASP 多语言模型,火山翻译仅应用一个实体模型就完成了以上 38 个语种与英语的双重有声翻译,提升了传统式双语言表达翻译实体模型对每一个语向独立训练、单独发布服务项目的方法,大幅度减少人工神经网络的训练和服务项目成本费。

“一般而言,训练 76 个语向的双语言模型必须 150-200 天。而同样硬件配置标准下,训练一个多语言模型只必须 30 天。”火山翻译团队简介,“针对要求量小的语种,应用 mRASP 实体模型集中化服务项目可以大大的节约存储资源,仅需半张用以深度神经网络训练的 Tesla T4 电脑显卡就可以达到 38 个语言表达的所有翻译要求,和双语版翻译需要的資源一样。”

奇妙源码网掌握到,火山翻译根据 mRASP 中的比照学习培训和词两端对齐信息内容,可以有效地依靠单语语料和别的有着丰富多彩语料的语种来协助训练,填补训练数据信息的不够。统计显示,火山翻译本次推新的稀缺语种均值 bleu 检测值 33.36,在其中,海地语翻译主要表现更为突显,bleu 检测值 50.76。

现阶段,火山翻译有着:火山同声传译、设备翻译与短视频翻译三大商品,适用飞书、今日头条、西瓜小视频等业务流程的翻译要求,并根据巨量引擎公司旗下的私有云技术性综合服务平台火山模块对外开放给予翻译服务项目。