QwQ-32B是什么?如何免费使用QwQ-32B?

斌仔 分类:
文章字数 639 字 阅读时间 3 分钟
🤖 由 ChatGPT 生成的文章摘要
此内容根据文章生成,并经过人工审核,仅用于文章内容的解释与总结

QwQ是什么

QwQ 是 Qwen 系列中的推理模型。与传统的指令调整模型相比,QwQ 具有思考和推理能力,能显著提高下游任务的性能,尤其是高难度问题。

QwQ-32B 是中型推理模型,拥有 320 亿参数的模型,其性能可与最先进的推理模型(如 DeepSeek-R1、o1-mini)相媲美。

QwQ-32B 已在 Hugging Face演示地址) 和 ModelScope 开源,采用了 Apache 2.0 开源协议。可通过 Qwen Chat 直接进行体验!

QwQ-32B
QwQ-32B

模型效果

QwQ-32B 在一系列基准测试中进行了评估,测试了数学推理、编程能力和通用能力。以下结果展示了 QwQ-32B 与其他领先模型的性能对比,包括 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 以及原始的 DeepSeek-R1。

QwQ-32B 模型效果
QwQ-32B 模型效果

强化学习

我们在冷启动的基础上开展了大规模强化学习。在初始阶段,我们特别针对数学和编程任务进行了 RL 训练。与依赖传统的奖励模型(reward model)不同,我们通过校验生成答案的正确性来为数学问题提供反馈,并通过代码执行服务器评估生成的代码是否成功通过测试用例来提供代码的反馈。随着训练轮次的推进,这两个领域中的性能均表现出持续的提升。在第一阶段的 RL 过后,我们增加了另一个针对通用能力的 RL。此阶段使用通用奖励模型和一些基于规则的验证器进行训练。我们发现,通过少量步骤的通用 RL,可以提升其他通用能力,同时在数学和编程任务上的性能没有显著下降。

测试结果

根据 QwQ-32B 和 DeepSeek-R1 两者通过网络搜索给出的答案来看,QwQ-32B 回答的就是我想要的答案,而 DeepSeek 回答的与我想要的答案差距还是很大的,并且 QwQ-32B 回答速度比 DeepSeek 快了很多。

不清楚是不是因为阅读网页过多导致 DeepSeek 回答的结果偏差很大。

  • DeepSeek 阅读 50 个网页
  • QwQ-32B 阅读了 10 个网页

QwQ-32B 回答结果
QwQ-32B 回答结果

DeepSeek-R1 回答结果
DeepSeek-R1 回答结果

你觉得这篇文章怎么样?

0
0
0
0

非常感激每一位打赏的朋友!

支付宝扫码支持
微信扫码支持

扫一扫,请博主喝咖啡☕

文章作者: 斌仔
文章链接: https://www.wangdu.site/software/ai/2205.html
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 文武科技柜

相关推荐

共有 0 条评论