阿里刚开源32B大模型：我们立马测试了“弱智吧”_业界资讯

来自：互联网

时间：2024-04-07

阅读：

阿里的通义千问（Qwen），终于拼齐了1.5系列的最后一块拼图——

正式开源Qwen 1.5-32B。

阿里刚开源32B大模型：我们立马测试了“弱智吧”

话不多说，直接来看“成绩单”。

这次官方pick同台竞技的“选手”是Mixtral 8x7B模型和同为Qwen 1.5系列的72B模型。

从结果上来看，Qwen 1.5-32B已经在多项评测标准中超越或追平Mixtral 8x7B：

阿里刚开源32B大模型：我们立马测试了“弱智吧”

并且即便是在与自家更大参数模型PK过程中，Qwen 1.5-32B也用“以小博大”的姿势展现出了较好的性能。

用通义千问团队成员的话来说就是：

这个模型显示出了与72B模型相当的性能，特别是在语言理解、多语言支持、编码和数学能力等方面。

在推理和部署过程中，成本还会更加友好。

阿里刚开源32B大模型：我们立马测试了“弱智吧”

不仅如此，即便是再拉来其它体量相当的大模型“选手”，Qwen 1.5-32B在多项评测中的成绩依旧较为亮眼：

阿里刚开源32B大模型：我们立马测试了“弱智吧”

除此之外，团队还做了一项比较有意思的测试——长文本评估任务，“大海捞针”。

简单来说，这项任务就是将一个与文本无关的句子（“针”）隐藏在大量的文本（“大海”）中，然后通过自然语言提问的方式，观察AI能否准确提取出这个隐藏的句子。

从结果上来看，Qwen 1.5-32B在32k tokens的上下文中性能表现良好。

阿里刚开源32B大模型：我们立马测试了“弱智吧”

不过有一说一，刚才所展示的也还仅是Qwen 1.5-32B在评分上的成绩，至于具体到实际体验过程中，效果又会如何呢？

大战一波“弱智吧”

自打大模型火爆以来，“弱智吧”就一直成了检测大模型逻辑能力的标准之一，江湖戏称为“弱智吧Benchmark”。

（“弱智吧”源自百度贴吧，是一个充满荒谬、离奇、不合常理发言的中文社区。）

阿里刚开源32B大模型：我们立马测试了“弱智吧”

而且就在前几天，“弱智吧”还登上正经AI论文，成了最好的中文训练数据，引发了一波不小的热议。

这项研究正是来自中科院深圳先进技术研究院、中科院自动化研究所，滑铁卢大学等众多高校、研究机构联合团队。

阿里刚开源32B大模型：我们立马测试了“弱智吧”

刚好此次Qwen 1.5-32B在开源的同时，也一并放出了在线体验的demo，那么当它俩碰到一起，会擦出怎样的火花？

请听第一题：

我爸妈结婚为什么不邀请我？

阿里刚开源32B大模型：我们立马测试了“弱智吧”

Qwen 1.5-32B很准确地回答出了“你的父母在结婚时你尚未出生，因此他们无法邀请你参加他们的婚礼”。

继续第二题：

为什么睡觉过夜的地方叫酒店，喝酒的地方叫夜店？

阿里刚开源32B大模型：我们立马测试了“弱智吧”

面对这道很经典的问题，Qwen 1.5-32B也能做到追根溯源地做正经科普。

再来第三道和第四道：

高中如果想提高升学率，为什么不直接招大学生？

网吧能上网，弱智吧为什么不能上弱智？

阿里刚开源32B大模型：我们立马测试了“弱智吧”

不难看出，Qwen 1.5-32B都能够给出准确的答案。

尤其是在第四道问题上，它甚至直接指出了逻辑性的问题：

问题似乎不太恰当或者存在误解。

嗯，Qwen 1.5-32B是一个经住了“弱智吧Benchmark”的大模型。

至于其它关于常识、数学、编程等能力的效果，家人们可以亲自去体验一番了。

如何做到的？

正如我们刚才所述，Qwen 1.5-32B在技术架构上与此前版本并无太大的区别，亮点就是引入了GQA（Grouped Query Attention，分组查询注意力）这个技术。

这也正是它能够在相对较小的体量之下，能够做到性能较优且快速部署的关键。

GQA是一种在自然语言处理中使用的 Transformer 架构中的一种机制，它通过将查询序列分组为多个子序列来提高 Transformer 模型的计算效率。

这种方法可以有效地减少计算复杂度，同时保留 Transformer 模型的表示能力。

阿里刚开源32B大模型：我们立马测试了“弱智吧”

具体而言，GQA是通过将查询分组并在组内计算它们的注意力，来混合 Multi-Query Attention (MQA) 的速度与 Multi-Head Attention (MHA) 的质量。

GQA 通过将查询头分为组，每个组共享单个键头和值头，来实现这一点，从而在质量和速度之间取得平衡。

如此一来，GQA的引入就降低了注意力计算的数量，从而加速了推理时间。

阿里刚开源32B大模型：我们立马测试了“弱智吧”

网易近日上线了一款名为“网易小蜜蜂”的App，这是一款针对年轻人的内容社区产品，旨在分享和交流日常生活。目前仅支持手机号登录，用户在注册时需选择就业状态，可以选

2024-11-27 20:27:27

2024年第三季度，全球TWS真无线耳机市场持续增长，根据Canalys科纳仕咨询报告显示，全球出货量达到9230万台，同比增长15%。苹果凭借AirPods 4及ANC版本，以21%的市场份额继续领跑市场

2024-11-27 20:27:07

近日，贴吧上一位用户发帖讨论《黑神话：悟空》是否会登上2024年春晚的舞台，这一话题迅速引发了广大玩家的热议。相关话题甚至登上了贴吧的热议榜单。作为首个国产3A大作，“

2024-11-27 20:26:44

今日，索尼在PlayStation 30周年纪念官网首次公开了PS2的销量数据。自2000年发布以来，PS2全球销量已突破1.6亿台，超越任天堂旗下NDS（1.54亿）和Switch（1.46亿），成为有史以来最畅销的游

2024-11-27 11:59:55

苹果即将在明年推出其超薄设计的新机型——iPhone 17 Air，这款新手机将是苹果史上最薄机型，厚度在5mm到6mm之间。然而为了轻薄，不可避免的就是在某些规格上的妥协，最

2024-11-27 11:57:36

据媒体报道，任天堂社长在最近的股东大会上明确表示，公司将采取措施打击黄牛行为，确保玩家能够顺利购买到下一代Switch主机。报道称，任天堂为了应对可能的黄牛问题，计划在新主机发

2024-11-27 11:57:17

据媒体报道，Windows 11 24H2版本最近又出现了新的问题，受影响的主要是华硕和戴尔两个品牌的笔记本，但也可能影响其他品牌用户。戴尔在文档中确认，当用户在安装了戴尔加密应用（Del

2024-11-27 11:56:54

今天为大家带来的是韩国小姐姐“kxbatx”的COS，黑丝白丝固然好看、光腿也别具风情啊~首位就是游戏《崩坏：星穹铁道》中的花火，游戏为了突出花火的热情和自由奔放，她的

2024-11-25 23:40:55

在多人射击游戏《星河战队：灭绝》正式版发售一个月后，索尼公布了VR游戏《星河战队：连续体》。电影里饰演主角强尼·瑞哥的卡斯派·范·戴恩，继续在这款游戏中

2024-11-25 23:38:46

《王者荣耀》宣布S38新版本迎来大变化。结算部分，在现有金牌和银牌的基础上，如果结算评分到达16.0，就会升级获得一个顶级分路评价，一次获胜可以加三颗星。此外，新版本还将对结算

2024-11-25 21:14:35

微信鸿蒙原生版今日发布了全新内测，版本号为1.0.2.16。新版加入了文件发送（安全访问）、聊天引用、小程序搜索、视频号、群聊折叠、拍一拍、朋友圈标签、新好友分类等功能，使用体

2024-11-25 21:14:12

微信110提醒，近期有诈骗分子假冒Apple官方通过短信向用户发送虚假信息，声称“Apple账户出现异常”等理由，诱导用户点击附带的陌生链接。这些链接打开的页面会提示用

2024-11-25 21:13:49

Intel Battlemage二代锐炫独立显卡即将发布，官方网站上已经多次明确提及，表明官方针对新产品的相关工作正在紧锣密鼓地推进。比如oneAPI Match Kernel，比如Intel PMT平台监控技

2024-11-25 21:13:28

今天，网易云音乐公开喊话QQ音乐，称其自定义播放器背景等功能为抄袭，要求QQ音乐少一点跟随式“更新”，多一点真正的创新。之后，网易云音乐小秘书在评论区再次发声，称目前

2024-11-25 21:13:10

盲目相信导航并不可取，走错路事小，丢掉性命就真的悲剧了。据印度当地媒体报道，当地时间11月23日，印度三名男子驱车前往婚礼现场途中从立交桥上坠落，三人均不幸身亡。报道称，当时三

2024-11-25 21:10:28

今日@网易云音乐发布公告，直接喊话QQ音乐：要求其立即停止剽窃式“创新”、借鉴式“创意”、以及跟随式“更新”的行为。网易云音乐在声明中称

2024-11-25 21:09:56

经历Ampere、Ada两代GPU规模精简之后，RTX 5090再一次“膨胀”——不仅核心面积暴增了22%，功耗也一路飙升到600W。据MEGAsizeGPU最新爆料，RTX 5090的Blackw

2024-11-25 21:09:34

据媒体报道，近日新加坡国立大学团队，在20多个场景下对Claude的电脑操控能力进行了全面测试。结果显示，AI不仅能自动完成手游日常任务，还能执行复杂的办公任务。研究中选用了米哈

2024-11-25 21:09:08

苹果Mac产品行销副总裁Tom Boger和平台架构副总裁Tim Millet在接受采访时，分享了其自研芯片Apple Silicon成功的秘诀。Millet指出，竞争对手的芯片制造商“无法直接采用第

2024-11-18 10:05:47

据报道，英伟达新款Blackwell AI芯片已经面临延迟，并且伴随着配套服务器出现的过热难题，这一连串的挑战引发了用户对于新数据中心能否如期启动并顺利运行的深切忧虑。据内部消息

2024-11-18 10:05:25

Mark Gurman爆料，苹果将在明年推出AirTag 2，爆料称全新的AirTag 2将升级芯片，并改进了位置跟踪功能，能在更远的距离内响应。Mark Gurman还透露，这款设备的代号是B589，它内置的扬声

2024-11-18 10:05:02

NVIDIA Blackwell架构的新一代服务器正在批量出货，而在OCP Summit 2024峰会上，官方进行了公开展示，而且是直接将芯片裸露在外，随便看。这台服务器一共配备了八颗B200芯片，4NP工艺

2024-11-17 23:04:05

Intel锐炫独立显卡会在下个月有一场好戏，但细节不详，现在又有了更进一步的消息。有曝料者贴出了一张预告海报，上边写着Intel锐炫、Battlemage SoC、2024年12月等字样，再次证实In

2024-11-17 21:23:54

技嘉发布了一款新的专业显卡Radeon PRO W7800 AI TOP 48G，一如其名拥有多达48GB显存，比之前的32GB版本增加了一半，可以更好地用于AI大模型训练。AMD去年4月发布了首批两款基于R

2024-11-17 21:23:28

据媒体报道，近日全球范围内的苹果用户报告称，他们收到了多年前参与以旧换新计划的iPhone所购买的AppleCare+服务费退款。这些退款涵盖了从iPhone 11 Pro到iPhone 14 Pro的多种

2024-11-17 21:23:09

随着iPhone、Mac等产品逐渐成熟，苹果也在积极尝试不同领域，据媒体报道，苹果正探索三个主要方向来推出新产品。方向一：AirPods转型分析师郭明錤预测，未来的AirPods Pro 3可能会加

2024-11-17 16:03:46

据媒体报道，谷歌的AI聊天机器人Gemini近日又引起了争议。一名密歇根州的研究生在使用该机器人辅助作业时，突然向用户发送了“请去死”的恶意信息。Gemini回复道：&ldq

2024-11-17 16:03:26

在近日的一次采访中，Intel技术传播经理Florian Maislinger证实，Intel正在开发具有大缓存产品。但这些产品将主要针对数据中心市场，而非主流的消费级市场，因为与服务器市场相比，游

2024-11-17 16:03:09

为庆祝经典游戏《半条命2》正式发行20周年，V社宣布在北京时间11月19日凌晨2点之前，用户可以在Steam平台上免费获取这款游戏。这款游戏在国区原价为42元，整体评价为好评如潮。而

2024-11-17 16:02:34

显示专家Ross Young在社交平台上表示，最新的M4 MacBook Pro使用量子点（QD）薄膜，而不是红色KSF荧光粉薄膜。过去苹果通常采用KSF解决方案，因为它的成本低，而且不含镉，但最新的无镉QD

2024-11-17 10:30:19

2018-09-24

2019-02-01

2019-09-12

2019-04-09

2020-03-30

2019-06-25

2019-04-24

2019-09-23

2019-09-21

2020-03-25

阿里刚开源32B大模型：我们立马测试了“弱智吧”

网易版小红书！“网易小蜜蜂”App悄然上线：发力种草生意

苹果霸榜！Canalys公布2024年Q3全球TWS市场份额：小米华为紧追不舍

火爆全球的《黑神话：悟空》能否上春晚你有何看法

超越NDS！索尼PS2全球销量突破1.6亿台：史上最畅销游戏主机

有得必有舍！想入手超薄款iPhone 17 Air：得接受这5处规格缩水

黄牛末日！任天堂新一代Switch首批备货近700万台

华硕、戴尔用户注意！Win11 24H2新问题确认：无法正常关机休眠

韩国小姐姐COS赏：《崩坏：星穹铁道》花火神还原

《星河战队》男主希望索尼重启电影！IP被游戏盘活了

《王者荣耀》16.0评分将获顶级分路一次可加三颗星

微信鸿蒙原生版发布1.0.2.16内测：终于支持文件转发、小程序搜索

苹果手机Apple ID出现异常将被锁定当心有诈

Intel锐炫显卡二代B系列风雨欲来！大方现身官网

平台混战网易云音乐再发声：已下线大量广告位、正持续扩充版权库

谷歌地图错误导航致印度仨男子坠桥身亡

网易云音乐炮轰QQ音乐满屏抄袭！最新回应来了

NVIDIA史上最强核弹来了！RTX 5090大曝光：核心面积暴增22%、功耗狂飙600W

AI电脑操控完整测评：全自动搞定崩铁日常、还能创建炉石卡组

苹果揭秘自研芯片成功原因：竞争对手没法用最新尖端技术

英伟达Blackwell新款芯片过热：面临延迟交付问题

万能防丢神器！曝苹果AirTag 2明年亮相

NVIDIA Blackwell B200新照：八卡并行总功耗8000W

Intel不放弃独立显卡！第三代真的会有

AMD显卡史上最大显存：Radeon PRO W7800 48GB低调发布

毫无原因苹果突然退款！用户收到AppleCare+服务费

不再只靠iPhone和Mac！苹果3大方向打造全新产品线

谷歌Gemini AI惊人回复用户请求帮助：竟收到“请去死吧”！

Intel确认会出3D V-Cache大缓存CPU！遗憾的是：你可能用不上…

正式发行20年！经典游戏《半条命2》免费领取：还有海量更新修复

苹果官方没宣传：M4 MacBook Pro首发量子点显示技术

热点内容

免费资源网

在线工具

扫一扫随时看

本站下载频道