【新智元导读】复旦大学NLP实验室研发Game-RL,利用游戏丰富视觉元素和明确规则生成多模态可验证推理数据,通过强化训练提升视觉语言模型的推理能力。创新性地提出Code2Logic方法,系统化合成游戏任务数据,构建GameQA数据集,验证了游戏数据在复杂推理训练中的优势。
现有工作利用RL提升了视觉语言模型(VLM)的推理能力,但其任务场景往往是几何或者图表推理。这种领域上的局限,制约了VLM的探索和学习。
如何拓展VLM的RL训练领域呢?
电子游戏视觉元素丰富,且规则明确而可验证,因而是理想的多模态推理数据源。
由此,复旦大学NLP实验室的研究团队提出了Game-RL——构造多模态可验证的游戏任务来强化训练VLM。