通义最近开源的QwQ-32B模型在性能上已经接近DeepSeek-R1-671B模型。
QwQ-32B 在一系列基准测试中进行了评估,测试了数学推理、编程能力和通用能力。在数学能力的 AIME24 测评集上,以及评估代码能力的 LiveCodeBench 中,通义千问 QwQ-32B 测试表现与 DeepSeek-R1 相当,远胜于 o1-mini 及相同尺寸的 R1 后续模型。
由 Meta 首席科学家杨立昆领衔的“最难 LLMs 测评榜” LiveBench、谷歌等提出的指令遵循能力 IFEval 测试集、由加州大学伯克利分校等提出的评估调用函数或工具方面的 BFCL 测试中,QwQ-32B 的得分均超越了 DeepSeek- R1。
大家可以在Hifox、阿里云百炼或者SiliconCloud中体验模型,或者自己在ollama中本地部署
https://modelscope.cn/models/Qwen/QwQ-32B
这里也能通过调用api来体验模型