【转载】RL新思路！复旦用游戏增强VLM通用推理，性能匹敌几何数据

baicha · 2025 年10 月 21 日 03:00

【新智元导读】复旦大学NLP实验室研发Game-RL，利用游戏丰富视觉元素和明确规则生成多模态可验证推理数据，通过强化训练提升视觉语言模型的推理能力。创新性地提出Code2Logic方法，系统化合成游戏任务数据，构建GameQA数据集，验证了游戏数据在复杂推理训练中的优势。

现有工作利用RL提升了视觉语言模型（VLM）的推理能力，但其任务场景往往是几何或者图表推理。这种领域上的局限，制约了VLM的探索和学习。

如何拓展VLM的RL训练领域呢？

电子游戏视觉元素丰富，且规则明确而可验证，因而是理想的多模态推理数据源。

由此，复旦大学NLP实验室的研究团队提出了Game-RL——构造多模态可验证的游戏任务来强化训练VLM。