长期以来,多模态代码生成(Multimodal Code Generation)的训练严重依赖于特定任务的监督微调(SFT)。尽管这种范式在 Chart-to-code 等单一任务上取得了显著成功 ,但其 “狭隘的训练范围” 从根本上限制了模型的泛化能力,阻碍了通用视觉代码智能(Generalized VIsioN Code Intelligence)的发展 。同时,「SFT-only」的范式在确保代码可执行性和高视觉保真度方面存在显著瓶颈 。
在此背景下,中科院 & 美团研究团队推出了 VinciCoder,一个旨在打破 SFT 瓶颈的统一多模态代码生成模型。VinciCoder首次将强化学习的奖励机制从文本域转向视觉域,提出视觉强化学习(ViRL),专攻 SFT 无法解决的视觉保真度难题。
本文提出的系统性框架VinciCoder,通过 “大规模 SFT + 粗细粒度 ViRL” 的两阶段策略,有效统一了从图表、网页、SVG 到科学绘图(LaTeX、化学分子)等多样化代码生成任务 。
(相关资料图)
数据代码模型权重已开源。
核心创新与技术突破
该论文同样对传统 SFT 范式的局限性进行了深入分析,发现其关键问题在于训练目标与最终任务之间存在 “视觉鸿沟”:
这种 “视觉 - 代码” 监督的缺失,直接导致了两个关键问题:
考虑到 SFT 的根本局限性,研究者认为必须引入一个能够提供全局视觉反馈的机制。然而,传统的 RL 方法依赖难以泛化的 “基于规则的文本奖励” 。VinciCoder 的破局点在于 ——将奖励机制从文本域彻底转向视觉域
VinciCoder 的核心思路是:用大规模、多样化的 SFT 构建强大的代码基础能力 ,再通过创新的 ViRL 策略专门优化 SFT 无法触及的视觉保真度和可执行性 。训练框架由「1.6M 大规模 SFT 阶段」和「42k 粗细粒度 ViRL 阶段」两部分组成 ,核心是通过两阶段协作,同时实现强大的代码理解与高保真的视觉对齐。
1. 大规模 SFT 语料库与代码优化任务
研究团队首先构建了一个包含1.6M 图像 - 代码对的大规模监督微调(SFT)语料库 。该语料库不仅覆盖了直接代码生成任务,还引入 “视觉代码优化” 的新任务 。在这项任务中,模型会接收到一个目标图像和一个 “有缺陷” 的代码片段(包含逻辑错误或只能部分渲染)。模型的目标是修正这段代码,使其视觉输出与目标图像精确对齐 。这一设计极大地提升了模型在代码层面的纠错和优化能力,为后续的强化学习阶段奠定了坚实基础 。
2. 从 “文本奖励” 到 “视觉奖励”:粗细粒度 ViRL 框架
传统 SFT 训练在多模态代码生成上存在根本缺陷:它缺乏 “视觉 - 代码” 的闭环反馈 ,且无法保证代码的全局可执行性 。
为解决此问题,VinciCoder 引入了视觉强化学习 (ViRL) 框架。该框架摒弃了传统强化学习中脆弱的、基于规则的 “文本奖励” ,转而从视觉直接获取奖励信号 。
其核心突破在于一套粗 - 细粒度(Coarse-to-fine)视觉奖励机制:
据我们所知,VinciCoder 是第一个应用强化学习(RL)来实现统一视觉代码生成领域中 “跨领域视觉保真度” 提升的视觉语言模型
实验结果与性能表现
论文在五大多模态代码生成基准上进行了全面实验,对比了包括 Qwen、InternVL 等开源模型以及 Gemini-2.5-Pro、Claude-4.5、GPT-5 等闭源模型 ,核心结果如下:
实验结果令人瞩目:VinciCoder 在多个主流多模态代码生成基准上均取得了卓越表现。
研究意义与应用前景
VinciCoder 的研究不仅在技术上取得了重大突破,也为多模态代码生成领域提供了全新的研究范式:
结论
VinciCoder 的核心价值并非单纯地堆砌 SFT 数据,而是通过 “SFT + 粗细粒度 ViRL” 的组合,证明了 “以视觉反馈指导代码生成” 的可行性与优越性。这一思路不仅解决了传统 SFT 范式在可执行性与视觉保真度上的痛点,也为后续通用多模态智能体的研发提供了新的思路。
在总体思路上,该论文的思路与 R1-Style 方法高度相关,都验证了强化学习在提升基础模型高级能力上的巨大潜力。VinciCoder 的成功探索表明,RL 不仅可以用于优化数学推理等文本任务,更可以作为连接 “视觉” 与 “代码” 两大模态的桥梁,解决 SFT 无法企及的跨模态对齐难题。
更多细节请参阅原论文。
免责声明:本网站所有信息,并不代表本站赞同其观点和对其真实性负责,投资者据此操作,风险请自担。
中国广核:招远1号机组即将开始全面建设每经AI快讯,11月17日,中国广核公告,公司子公司山东招远核电有限公司的招远1号机组即将于2025年11月18日进行核反应堆主厂房第一罐混凝土浇筑(FCD),.
日前,国家能源局发布关于推进煤炭与新能源融合发展的指导意见,明确加快发展矿区光伏风电产业、积极推动矿区用能清洁替代、稳步推进矿区可再生能源供暖制冷等七项主要
贾跃亭正加速清偿中国法下的债务,「下周回国」又提上日程了!,股权,信托,乐视,贾跃亭,债权人小组
2025年11月17日江苏太仓玖龙纸业,A级箱板纸收购价格保持平稳,废纸收购价格暂无调整,调整后执行到厂价格1980元/吨。
11月14日甲醇外盘市场收盘价格下跌:CFR东南亚甲醇市场收于318.5-319.5美元/吨,跌3美元/吨。FOB美国海湾甲醇市场收于89.5-90.5美分/加仑;欧洲FOB鹿特丹甲醇市场收于265.
VinciCoder:多模态统一代码生成框架和视觉反馈强化学习,代码,信号,模态,新模型,强化学习,视觉反馈
直通世界杯!世预赛-B费戴帽葡萄牙9-1亚美尼亚,内维斯,亚美尼亚,波兰葡萄牙,世界杯预选赛,塞尔希奥·拉莫斯·加西亚
这种当季水果维生素C含量竟是苹果的60倍?!还能助眠、保护心血管、提升免疫力又到了吃冬枣的季节冬枣口感脆甜又营养有助于提高免疫力、改善睡眠质量美容美白、缓解焦虑
上证报中国证券网讯11月17日,A股三大股指早盘震荡调整。截至午间收盘,沪指跌0.43%,深证成指跌0.35%,创业板指跌0.80%。盘面上看,贵金属、电源设备、生物医药等板块跌幅居前;福建、锂矿、A
财联社11月17日讯(编辑黄君芝)素有“华尔街一哥”之称的摩根大通CEO杰米·戴蒙(JamieDimon)近日警告称,信贷市场可能正在酝酿麻烦。当时他形象地指出,“如果你看到一只蟑螂,往往意
云南某钢厂11月招标硅锰定价5770元/吨,采购量1500吨,现金含税到厂。PriceSeek评析锰硅,多空评分:1.5云南某钢厂招标硅锰定价5770元/吨,采购量1500吨,现金含税到厂。参考202
高盛研究报告引述建行表示,2026年净息差将持续面临下行压力,主要因贷款重新订价,不过随着贷款定价渐趋稳定及存款成本节约效益显现,预期下降速度将会收窄。
发生什么了?尼日利亚主帅和民主刚果主帅在赛后互相推搡,世界杯,非洲区,尼日利亚,民主刚果,点球大战,冠军奖杯
游客小朋友在体验打稻谷。俯瞰换上了金黄盛装的牙胡梯田。近日,五指山市牙胡梯田景区核心区1400多亩稻田进入成熟期。11月15日,五指山市毛阳镇2025年晚造开镰
11月17日,生意社丁腈橡胶基准价为16300.00元/吨,与本月初(16325.00元/吨)相比,下降了0.15%。丁腈橡胶年度统计(2024-11-17--2025-11-17,元/吨)当日价16

起重机作为一种高度复杂的运输系统,其运行涉及多个运动维度的精确协调。在典型的起重机操作中,起升机构负责垂直方向的载荷移动,大车机构实现水平方向的整体位移,而小车机构则完成精确的定位调整。这些运动往往需要同时或交替进行,这就要求驱动系统中的减速机必须具备出色的负载能力和精准的控制性能。针对起重机系统的特殊需求,诺...

乡村振兴有效衔接考核评估反馈问题整改工作开展以来,海东市乐都区把整

村民送水给施工人员。收边。运输混凝土。施工现场。施工现场。农村道路