探索AI新前沿,CoT推理赋能文生图!港中文首次提出文生图的o1推理和inference scaling新范式

news/2025/2/27 11:38:30

OpenAI的o1模型凭借思维链(Chain-of-Thought, CoT)技术,在推理能力上实现了质的飞跃,引领了大模型理解领域的新风尚。然而,这一创新的火花能否照亮图像生成领域?近日,来自香港中文大学、北京大学及上海AI Lab的科研团队,系统地探索了“CoT 推理+文生图”的结合与潜力。

通过精心设计的Verify和Reinforce方案,不仅验证了CoT推理与文生图结合的无限可能,更揭示了这一融合策略在提升自回归图像生成质量上的显著成效。

相关链接

  • 论文:https://arxiv.org/pdf/2501.13926

  • 代码:https://github.com/ZiyuGuo99/Image-Generation-CoT

  • 模型:https://huggingface.co/ZiyuG/Image-Generation-CoT

论文介绍

图像生成中的推理

数学中的 LLM 和 LMM 广泛探索了思路链 (CoT) 推理。然而,这种策略是否可以应用于验证和强化图像生成场景仍是一个悬而未决的问题。在这个项目首次全面研究了 CoT 推理增强自回归图像生成的潜力。

论文重点关注三种 CoT 推理技术:

  • 扩展测试时间计算以进行验证(ORM、PRM 以及我们提出的 PARM 和 PARM++)

  • 通过直接偏好优化 (DPO)调整模型偏好

  • 整合这些技术以达到互补效果

结果表明这些方法可以有效地调整和组合,以显著提高图像生成性能

此外,鉴于奖励模型在研究结果中起着关键作用,论文提出了潜在评估奖励模型( PARM )和PARM ++,专门用于自回归图像生成:

  1. PARM通过潜在评估方法自适应地评估每个生成步骤,融合现有奖励模型的优势。

  2. PARM++进一步引入了反射机制,使生成模型能够自我纠正之前不令人满意的图像。

在 GenEval 基准上显著提高了 +24%,超过 Stable Diffusion 3 +15%。

开始使用

安装

  1. 克隆存储库:

git clone https://github.com/ZiyuGuo99/Image-Generation-CoT.git
cd Image-Generation-CoT
  1. 创建 conda 环境:

conda create -n img_cot python=3.10
conda activate img_cot

请按照此处的说明安装 PyTorch 和 TorchVision 依赖项。

  1. 安装其他依赖项:

pip install -r requirements.txt
git clone https://github.com/open-mmlab/mmdetection.git
cd mmdetection; git checkout 2.x
pip install -v -e .
git clone https://github.com/LLaVA-VL/LLaVA-NeXT && cd LLaVA-NeXT && pip install -e ".[train]"

结论

论文研究了 CoT 推理策略在自回归图像生成中的适应性和潜力。通过系统调查证明了不同的推理策略可以有效地改善图像生成,例如测试时间验证、偏好对齐及其集成。根据观察进一步引入了两种用于自回归图像生成的定制奖励模型,称为潜在评估奖励模型 (PARM) 和 PARM++,它们评估了自适应奖励评分的逐步生成,并结合了用于自我校正图像生成的反射机制。


http://www.niftyadmin.cn/n/5870054.html

相关文章

使用消息队列怎样防止消息重复?

大家好,我是君哥。 使用消息队列时,我们经常会遇到一个可能对业务产生影响的问题,消息重复。在订单、扣款、对账等对幂等有要求的场景,消息重复的问题必须解决。 那怎样应对重复消息呢?今天来聊一聊这个话题。 1.三…

基于阿里云PAI平台快速部署DeepSeek大模型实战指南

一、DeepSeek大模型:企业级AI应用的新标杆 1.1 为什么选择DeepSeek? 近期,DeepSeek系列模型凭借其接近GPT-4的性能和开源策略,成为全球开发者关注的焦点。在多项国际评测中,DeepSeek-R1模型在推理能力、多语言支持和…

地基JDK8新特性之Lambda 表达式和Stream 流操作

一、Lambda 表达式基础 1. 替代匿名内部类 // 传统写法 Runnable r1 new Runnable() {Overridepublic void run() {System.out.println("Hello World");} };// Lambda 写法 Runnable r2 () -> {System.out.println("hello");}; 2. 函数式接口排序…

7. 覆盖率:covergroup/coverpoint/cross

文章目录 前言一、核心概念剖析1. covergroup‌2.coverpoint‌3. cross‌4. 覆盖率三要素对比表 二、实现模式指南2.1 covergroup2.2 coverpoint2.3 cross2.3 拓展知识1. 智能bins生成‌2. 权重控制‌3. 条件覆盖‌4. 自动分仓5. 手动分仓6. 条件过滤 三、典型应用场景3.1 cove…

15.代码随想录算法训练营第十五天|(递归)110. 平衡二叉树,257. 二叉树的所有路径*,404. 左叶子之和,222.完全二叉树的节点个数[打卡自用]

15.代码随想录算法训练营第十五天|(递归)110. 平衡二叉树,257. 二叉树的所有路径*,404. 左叶子之和,222.完全二叉树的节点个数 给定一个二叉树,判断它是否是 平衡二叉树 示例 1: 输入&#xf…

在 macOS 系统上安装 kubectl

在 macOS 系统上安装 kubectl 官网:https://kubernetes.io/zh-cn/docs/tasks/tools/install-kubectl-macos/ 用 Homebrew 在 macOS 系统上安装 如果你是 macOS 系统,且用的是 Homebrew 包管理工具, 则可以用 Homebrew 安装 kubectl。 运行…

如何解决svn st中出现!(冲突)的问题

在 SVN(Subversion)中,svn status 命令用于查看工作副本的状态。当你看到 ! 符号时,通常表示文件或目录在工作副本中丢失(missing)。以下是解决这个问题的步骤: 1. 理解 ! 的含义 ! 表示该文件…

【2025全网最新最全】前端Vue3框架的搭建及工程目录详解

文章目录 安装软件Node.js搭建Vue工程创建Vue工程精简Vue项目文件 Vue工程目录的解读网页标题的设置设置全局样式路由配置 安装软件Node.js 下载地址:https://nodejs.org/zh-cn/ 安装完成后,打开cmd,查看环境是否准备好 node -v npm -vnpm使用之前一定…