Facebook 开源增强版 LASER 可使用90多种语言_业界资讯

时间：2019-01-24

阅读：

为了加速将自然语言处理（NLP）应用到更多的语言，Facebook 开源了增强版 LASER 库，成为第一个成功地与 NLP 社区分享的大型多语种句子表示工具。该工具目前可以使用90多种语言，涉及28种不同的字符表。

LASER 通过将所有语言都嵌入在一个共享空间来实现这点（而不是不同语言使用着不同的模型）。Facebook 同时开源的还有免费提供的多语言编码器和PyTorch代码，以及包括100多种语言的多语言测试集。

LASER 实现了从一种语言（如英语）到其他几种语言（包括训练数据极为有限的语言）进行 NLP 零样本迁移的大门，是第一个使用单个模型处理各种语言的库（其中包括低资源语言，如卡拜尔语、维吾尔语，以及吴语等方言）。有朝一日，这项工作可以帮助 Facebook 或其他公司推出些特定的 NLP 功能，例如可以将同一语言的电影评论分正面和负面，然后用其他100多种语言进行发布。

LASER 功能亮点

LASER 为 XNLI 语料库（注：语料库一词在语言学上意指大量的文本）14 种语言中的 13 种带来了更高的零样本跨语言自然语言推理准确率，在跨语言文档分类、并行语料库挖掘、多语言相似性（即使是低资源语言）方面也有很好的表现。

LASER 还拥有以下优势：

极快的性能，能在 GPU 上每秒处理多达 2000 个句子。

句子编码器是在 PyTorch 中实现的，只需很少的外部依赖。

资源有限的语言可以从多种语言的联合训练中受益。

该模型支持在一个句子中使用多种语言。

随着新语言的加入，系统会学习识别其语系特征，从而使相关性能有所提高。

通用、语言无关的句子嵌入

LASER 的句子向量表示对输入语言和 NLP 任务是通用的。该工具将任何语言的句子映射到高维空间中的一个点，为的是任何语言中的相同语句最终会出现在同一邻域中。该表示可以被视为语义向量空间中的一种通用语言。Facebook 观察到，该空间中的距离与句子的语义接近度非常相关。（见下图，图左显示的是单语嵌入空间，图右说明了 LASER 的方法——将所有语言嵌入到同一共享空间。）

LASER 的方法建立在与神经机器翻译相同的基础技术之上：编码器/解码器方法，也称为序列到序列处理。Facebook 为所有输入语言使用一个共享编码器，并使用共享解码器生成输出语言。编码器是五层双向 LSTM（长短期记忆）网络。与神经机器翻译相比，Facebook 不使用注意机制，而是使用1024维固定大小的向量来表示输入句子。它是通过对 BiLSTM 的最后状态进行最大池化来获得的。这使得句子表示能够被比较并直接输入到分类器。下图说明的是 LASER 的结构。

零样本、跨语言的自然语言推理

该模型在跨语言自然语言推理（NLI）中取得好的成绩，而这项任务的表现是一个强有力的指标，代表着模型可以表示句子的意义。关于零样本设置，可以在英语上训练 NLI 分类器，然后在没有微调或目标语言资源的情况下将其应用于所有目标语言。14种语言中的8种，零样本性能在英语表现的5％以内，其中包括俄语，中文和越南语等。此外，也在斯瓦希里语和乌尔都语等低资源语言上取得好的成绩。在最后，14种语言中，LASER 有13种语言的表现优于所有以前的零样本迁移方法。

与之前需要句子为英语的方法相比，该系统是完全可以多语言的，并且支持不同语言的前提和假设的组合。下表显示了 LASER 如何能够确定不同语言的 XNLI 语料库中句子之间的关系，而以前的方法只考虑了同一语言的前提和假设。

此外，相同的句子编码器也被用于挖掘大量单语文本中的并行数据，只需要计算出所有句子间的距离，并选择距离最小的一对句子（语言对）。这在共享 BUCC 任务上的表现远远超过了现有水平。（该方法的详细描述可见论文：https://arxiv.org/abs/1812.10464）

一样的方法可以用在使用任何语言对，来挖掘90多种语言的并行数据。预计这将改善许多依赖于并行训练数据的 NLP 应用程序，包括低资源语言的神经机器翻译。

未来的应用

LASER 库也可用于其他相关任务。比如多语言语义空间的属性，就可用于对同种语言或 LASER 现支持的其他93种语言做出句子的解释、或是搜索相似含义的句子。Facebook 表示将继续改进模型、新增更多的语言。

新闻来源：https://code.fb.com/ai-research/laser-multilingual-sentence-embeddings

Facebook

网易近日上线了一款名为“网易小蜜蜂”的App，这是一款针对年轻人的内容社区产品，旨在分享和交流日常生活。目前仅支持手机号登录，用户在注册时需选择就业状态，可以选

2024-11-27 20:27:27

2024年第三季度，全球TWS真无线耳机市场持续增长，根据Canalys科纳仕咨询报告显示，全球出货量达到9230万台，同比增长15%。苹果凭借AirPods 4及ANC版本，以21%的市场份额继续领跑市场

2024-11-27 20:27:07

近日，贴吧上一位用户发帖讨论《黑神话：悟空》是否会登上2024年春晚的舞台，这一话题迅速引发了广大玩家的热议。相关话题甚至登上了贴吧的热议榜单。作为首个国产3A大作，“

2024-11-27 20:26:44

今日，索尼在PlayStation 30周年纪念官网首次公开了PS2的销量数据。自2000年发布以来，PS2全球销量已突破1.6亿台，超越任天堂旗下NDS（1.54亿）和Switch（1.46亿），成为有史以来最畅销的游

2024-11-27 11:59:55

苹果即将在明年推出其超薄设计的新机型——iPhone 17 Air，这款新手机将是苹果史上最薄机型，厚度在5mm到6mm之间。然而为了轻薄，不可避免的就是在某些规格上的妥协，最

2024-11-27 11:57:36

据媒体报道，任天堂社长在最近的股东大会上明确表示，公司将采取措施打击黄牛行为，确保玩家能够顺利购买到下一代Switch主机。报道称，任天堂为了应对可能的黄牛问题，计划在新主机发

2024-11-27 11:57:17

据媒体报道，Windows 11 24H2版本最近又出现了新的问题，受影响的主要是华硕和戴尔两个品牌的笔记本，但也可能影响其他品牌用户。戴尔在文档中确认，当用户在安装了戴尔加密应用（Del

2024-11-27 11:56:54

今天为大家带来的是韩国小姐姐“kxbatx”的COS，黑丝白丝固然好看、光腿也别具风情啊~首位就是游戏《崩坏：星穹铁道》中的花火，游戏为了突出花火的热情和自由奔放，她的

2024-11-25 23:40:55

在多人射击游戏《星河战队：灭绝》正式版发售一个月后，索尼公布了VR游戏《星河战队：连续体》。电影里饰演主角强尼·瑞哥的卡斯派·范·戴恩，继续在这款游戏中

2024-11-25 23:38:46

《王者荣耀》宣布S38新版本迎来大变化。结算部分，在现有金牌和银牌的基础上，如果结算评分到达16.0，就会升级获得一个顶级分路评价，一次获胜可以加三颗星。此外，新版本还将对结算

2024-11-25 21:14:35

微信鸿蒙原生版今日发布了全新内测，版本号为1.0.2.16。新版加入了文件发送（安全访问）、聊天引用、小程序搜索、视频号、群聊折叠、拍一拍、朋友圈标签、新好友分类等功能，使用体

2024-11-25 21:14:12

微信110提醒，近期有诈骗分子假冒Apple官方通过短信向用户发送虚假信息，声称“Apple账户出现异常”等理由，诱导用户点击附带的陌生链接。这些链接打开的页面会提示用

2024-11-25 21:13:49

Intel Battlemage二代锐炫独立显卡即将发布，官方网站上已经多次明确提及，表明官方针对新产品的相关工作正在紧锣密鼓地推进。比如oneAPI Match Kernel，比如Intel PMT平台监控技

2024-11-25 21:13:28

今天，网易云音乐公开喊话QQ音乐，称其自定义播放器背景等功能为抄袭，要求QQ音乐少一点跟随式“更新”，多一点真正的创新。之后，网易云音乐小秘书在评论区再次发声，称目前

2024-11-25 21:13:10

盲目相信导航并不可取，走错路事小，丢掉性命就真的悲剧了。据印度当地媒体报道，当地时间11月23日，印度三名男子驱车前往婚礼现场途中从立交桥上坠落，三人均不幸身亡。报道称，当时三

2024-11-25 21:10:28

今日@网易云音乐发布公告，直接喊话QQ音乐：要求其立即停止剽窃式“创新”、借鉴式“创意”、以及跟随式“更新”的行为。网易云音乐在声明中称

2024-11-25 21:09:56

经历Ampere、Ada两代GPU规模精简之后，RTX 5090再一次“膨胀”——不仅核心面积暴增了22%，功耗也一路飙升到600W。据MEGAsizeGPU最新爆料，RTX 5090的Blackw

2024-11-25 21:09:34

据媒体报道，近日新加坡国立大学团队，在20多个场景下对Claude的电脑操控能力进行了全面测试。结果显示，AI不仅能自动完成手游日常任务，还能执行复杂的办公任务。研究中选用了米哈

2024-11-25 21:09:08

苹果Mac产品行销副总裁Tom Boger和平台架构副总裁Tim Millet在接受采访时，分享了其自研芯片Apple Silicon成功的秘诀。Millet指出，竞争对手的芯片制造商“无法直接采用第

2024-11-18 10:05:47

据报道，英伟达新款Blackwell AI芯片已经面临延迟，并且伴随着配套服务器出现的过热难题，这一连串的挑战引发了用户对于新数据中心能否如期启动并顺利运行的深切忧虑。据内部消息

2024-11-18 10:05:25

Mark Gurman爆料，苹果将在明年推出AirTag 2，爆料称全新的AirTag 2将升级芯片，并改进了位置跟踪功能，能在更远的距离内响应。Mark Gurman还透露，这款设备的代号是B589，它内置的扬声

2024-11-18 10:05:02

NVIDIA Blackwell架构的新一代服务器正在批量出货，而在OCP Summit 2024峰会上，官方进行了公开展示，而且是直接将芯片裸露在外，随便看。这台服务器一共配备了八颗B200芯片，4NP工艺

2024-11-17 23:04:05

Intel锐炫独立显卡会在下个月有一场好戏，但细节不详，现在又有了更进一步的消息。有曝料者贴出了一张预告海报，上边写着Intel锐炫、Battlemage SoC、2024年12月等字样，再次证实In

2024-11-17 21:23:54

技嘉发布了一款新的专业显卡Radeon PRO W7800 AI TOP 48G，一如其名拥有多达48GB显存，比之前的32GB版本增加了一半，可以更好地用于AI大模型训练。AMD去年4月发布了首批两款基于R

2024-11-17 21:23:28

据媒体报道，近日全球范围内的苹果用户报告称，他们收到了多年前参与以旧换新计划的iPhone所购买的AppleCare+服务费退款。这些退款涵盖了从iPhone 11 Pro到iPhone 14 Pro的多种

2024-11-17 21:23:09

随着iPhone、Mac等产品逐渐成熟，苹果也在积极尝试不同领域，据媒体报道，苹果正探索三个主要方向来推出新产品。方向一：AirPods转型分析师郭明錤预测，未来的AirPods Pro 3可能会加

2024-11-17 16:03:46

据媒体报道，谷歌的AI聊天机器人Gemini近日又引起了争议。一名密歇根州的研究生在使用该机器人辅助作业时，突然向用户发送了“请去死”的恶意信息。Gemini回复道：&ldq

2024-11-17 16:03:26

在近日的一次采访中，Intel技术传播经理Florian Maislinger证实，Intel正在开发具有大缓存产品。但这些产品将主要针对数据中心市场，而非主流的消费级市场，因为与服务器市场相比，游

2024-11-17 16:03:09

为庆祝经典游戏《半条命2》正式发行20周年，V社宣布在北京时间11月19日凌晨2点之前，用户可以在Steam平台上免费获取这款游戏。这款游戏在国区原价为42元，整体评价为好评如潮。而

2024-11-17 16:02:34

显示专家Ross Young在社交平台上表示，最新的M4 MacBook Pro使用量子点（QD）薄膜，而不是红色KSF荧光粉薄膜。过去苹果通常采用KSF解决方案，因为它的成本低，而且不含镉，但最新的无镉QD

2024-11-17 10:30:19

对于 Librem 5 这款智能手机，从宣布立项、到众筹、再到现在的开启预售我们大致可以为它勾勒出这样一个形象 —— 不采用目前主流的 Android 平台作为操作系统，而是

2019-01-22 17:49:42

二十年前，微软曾被妖魔化为“开源软件的最大敌人”。但随着时代的变迁，这家企业已经发生了巨大的改变。现在，微软是 GitHub 开源开发工作的最大贡献者之一，且最终出资

2019-01-21 17:56:54

Stackalytics 最新数据显示，Google 在所有 CNCF 项目中的所有贡献占近 53%，而第二大贡献者的红帽仅占 7.4%。CNCF，全称 Cloud Native Computing Foundation（云原生计算基金会），是

2019-01-20 11:04:31

据外媒Neowin报道，Facebook在2018年5月举行的年度F8开发者大会上宣布对Messenger进行重大改革。该改版旨在使应用程序变得不再杂乱无章，使其更具可用性。该公司在2018年年初承

2019-01-20 00:49:59

Purism 公司正在积极开发开源智能手机 Librem 5，根据官方发布的 PureOS 系统和其应用程序的开发进度，目前包括最基本的通话、短信以及用户界面等功能已基本完成。Librem 5 是

2019-01-20 00:48:53

据 phoronix 报道，由于多次被反馈存在 bug ，Google 决定直接在 Chromium/Chrome 71 将 Nouveau 列入黑名单，Nouveau 的用户在浏览器中将默认不启用 GPU 加速。Nouveau 是一个为

2019-01-09 18:04:04

walle-web.io 大概是最为瞩目的免费开源的上线部署平台的新星，让用户代码发布终于可以不只能选择 jenkins，支持各种web代码发布，php、java等代码的发布、回滚可以通过web来一键

2019-01-07 17:45:16

Chrome 和 Chrome OS 的很多方面都是通过 Chromium 项目开源的。Google 仍然保留了一部分非开源技术。一直保持私有化的 Chrome OS 的 Camera 应用程序就是其中的一部分。现

2018-12-25 17:33:23

据数据分析机构Statista统计，从12月9日到15日对1000位美国人的在线问卷调查来看，曾经炙手可热的社交媒体巨头Facebook已经“沦为”了美国人最不信任的科技公司。数

2018-12-23 18:22:30

NVIDIA今天发布了最新的物理模拟开发引擎PhysX SDK 4.0，同时宣布从3.4版本开始完全开源。2005年，创业公司Ageia宣布了革命性的PhysX物理模拟引擎技术，为游戏带来更逼真的现实物

2018-12-21 19:50:54

2018-09-24

2019-02-01

2019-09-12

2019-04-09

2020-03-30

2019-06-25

2019-04-24

2019-09-23

2019-09-21

2020-03-25

Facebook 开源增强版 LASER 可使用90多种语言

热点内容

免费资源网

在线工具

扫一扫随时看

本站下载频道