阿里云开源通义千问Qweb2 支持128K上下文 在测试中表现不俗 – 蓝点网

阿里云今天推出了通义千问人工智能模型的蓝点重大升级版本:Qwen2,该模型提供 5 个不同的阿里尺寸、上下文长度最高支持 128K tokens,云开源通义千并且在各项测试中表现不俗。问Q文测网
Qwen2 的上下试中所有尺寸版本均已同步在 GitHub、HuggingFace 和 ModelScope 上开源,表现不俗有兴趣的蓝点开发者可以立即获取模型进行测试。
此次发布的阿里新版本亮点包括:
- 能力较此前版本有较大幅度提升,在开源模型测试中名列前茅
- 提供 5 个预训练和指令微调模型,云开源通义千包括 Qwen2-0.5B、问Q文测网Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 和 Qwen2-72B
- 在编程领域和数学方面的能力显著提高
- 增加上下文长度,现在最高支持 128K tokens
- 在中文和英语的基础上,增加 27 种语言相关的数据进行训练
在 Qwen1.5 系列模型中只有 32B 和 110B 版使用 GQA,而在 Qwen2 中所有模型都使用 Qwen2,使用 GQA 后有助于提升推理能力和降低显存的占用。
同时诸如 Qwen2-0.5B 和 1.5B 版可以在性能更低的设备上运行,例如在智能手机本地运行 Qwen2-0.5B 而不需要云端处理,这种也是未来的趋势,未来可能所有智能设备都会支持 AI,这就需要更小的模型为本地运行提供支持。
模型评估显示 Qwen2 能力超过 Llama3:
目前人工智能开源 / 开放社区中最重要的两个贡献者就是 Meta 和阿里云,Meta 主要就是 Llama 系列模型最新版本为 Llama3。
在开源 / 开放模型能力评测中,Qwen2-72B 版在各方面超过 Llama3-70B,也超过了 Mixtral-8x22B,所以现在压力给到了 Meta,不知道 Meta 什么时候发布新版本。
阿里云 AI 团队表示:
大规模预训练后,我们对模型进行精细的微调,以提升其智能水平,让其表现更接近人类。这个过程进一步提升了代码、数学、推理、指令遵循、多语言理解等能力。此外,模型学会对齐人类价值观,它也随之变得更加对人类有帮助、诚实以及安全。我们的微调过程遵循的原则是使训练尽可能规模化的同时并且尽可能减少人工标注。我们探索了如何采用多种自动方法以获取高质量、可靠、有创造力的指令和偏好数据,其中包括针对数学的拒绝采样、针对代码和指令遵循的代码执行反馈、针对创意写作的回译、针对角色扮演的 scalable oversight、等等。在训练方面,我们结合了有监督微调、反馈模型训练以及在线 DPO 等方法。我们还采用了在线模型合并的方法减少对齐税。这些做法都大幅提升了模型的基础能力以及模型的智能水平。
限时活动推荐:软购618多款正版软件2折购、QQ超会15月108元、B站大会员88元、腾讯视频128元、爱奇艺138元。
相关文章
初心“游”在,精彩无限!2024 ChinaJoy 全部展商名单 正式公布!
初心“游”在,精彩无限!2024 ChinaJoy 全部展商名单 正式公布!2024-07-22 15:39:54编辑:Reset2025-05-05- 《霍格沃茨之遗》的抵抗活动呈现了风趣的窜改,果为《霍格沃茨之遗》的一名开辟者公开喜斥了该游戏,并颁布收表他没有会采办那款游戏。Parker Hartzler正在《霍格沃茨之遗》中担背动做捕获及时足艺员2025-05-05
2020好玩的克苏鲁气势的足游保举 带您走进克苏鲁神话的可骇天下
克苏鲁气势的足游是很多的玩家很喜好的游戏的范例之一,正在克苏鲁气势的足游中玩家能够体会到分歧的兴趣,上里小编便去先容几款好玩的克苏鲁气势的足游,感兴趣的小水陪一起去看看吧。1.异化之天异化之天游戏截图2025-05-05- 太阳系诞生之初 巨行星轨道或上演过一场“车祸”神秘的地球uux.cn报道)据中国科技网:太阳系诞生之初,星际空间中的气体分子云坍缩,中心部分形成太阳,残余物质绕恒星旋转形成一个扁平的原行星盘。这个时期2025-05-05
- 正在典范武侠小讲中,各大年夜门派的武教神功是大年夜家一背津津乐讲的热面话题,正在游戏圈也没有例中。西山居剑侠情缘26年传启之做《剑侠天下:收源》足游,以典范武侠门派为根本,将五止设定战“一门派单线路”2025-05-05
- 导读:层出不穷的智能音箱,眼花缭乱的智能新品……一周前,有人高喊“亚马逊连发新品围剿谷歌”;一周后,又有叫呼:“谷歌一出,谁与争锋?”9月27日,亚马逊召开了硬件发布会,一口气发布了6大新品。一周过后2025-05-05
最新评论