Skip to content
每日arXiv - 2025年5月30日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] Using Cross-Domain Detection Loss to Infer Multi-Scale Information for Improved Tiny Head Tracking

Jisu Kim,Alex Mattingly,Eung-Joo Lee,Benjamin S. Riggan

Main category: cs.CV

TL;DR: 提出了一种优化性能与效率平衡的框架,用于增强微小头部检测与追踪,通过跨域检测损失、多尺度模块和小感受野检测机制提升效果。

  • Motivation: 当前方法计算成本高,增加延迟并占用资源,需优化性能与效率的平衡。
  • Method: 集成跨域检测损失、多尺度模块和小感受野检测机制。
  • Result: 在CroHD和CrowdHuman数据集上,MOTA和mAP指标提升。
  • Conclusion: 该框架在拥挤场景中有效提升了微小头部检测与追踪的性能。

[2] Frequency-Adaptive Discrete Cosine-ViT-ResNet Architecture for Sparse-Data Vision

Ziyue Kang,Weichuan Zhang

Main category: cs.CV

TL;DR: 提出了一种混合深度学习框架,结合自适应DCT预处理模块、ViT-B16和ResNet50主干网络,以及贝叶斯线性分类头,解决了稀有动物图像分类中数据稀缺的问题。

  • Motivation: 稀有动物图像分类面临数据稀缺的挑战,许多物种仅有少量标注样本。
  • Method: 设计了自适应DCT模块学习最优频域边界,结合ViT-B16和ResNet50提取全局和局部特征,并通过交叉融合策略整合特征,最终使用贝叶斯线性分类器预测类别。
  • Result: 在自建的50类野生动物数据集上,该方法优于传统CNN和固定频带DCT方法,在样本稀缺情况下达到最优准确率。
  • Conclusion: 提出的自适应频域选择机制和混合框架有效提升了稀有动物图像分类的性能。

[3] HiDream-I1: A High-Efficient Image Generative Foundation Model with Sparse Diffusion Transformer

Qi Cai,Jingwen Chen,Yang Chen,Yehao Li,Fuchen Long,Yingwei Pan,Zhaofan Qiu,Yiheng Zhang,Fengbin Gao,Peihan Xu,Yimeng Wang,Kai Yu,Wenxuan Chen,Ziwei Feng,Zijian Gong,Jianzhuang Pan,Yi Peng,Rui Tian,Siyu Wang,Bo Zhao,Ting Yao,Tao Mei

Main category: cs.CV

TL;DR: HiDream-I1是一个17B参数的图像生成基础模型,通过稀疏扩散变换器(DiT)和动态MoE架构,实现了高质量快速图像生成,并提供三种变体。进一步扩展为指令编辑模型HiDream-E1和综合图像代理HiDream-A1。

  • Motivation: 解决现有图像生成模型在质量和计算效率之间的权衡问题。
  • Method: 采用双流解耦设计和动态MoE架构的稀疏DiT结构,支持多模态交互。
  • Result: 实现了高质量的快速图像生成,并扩展了指令编辑功能。
  • Conclusion: HiDream系列模型为多模态AIGC研究提供了高效工具,并开源了代码和模型。

[4] MIAS-SAM: Medical Image Anomaly Segmentation without thresholding

Marco Colussi,Dragan Ahmetovic,Sergio Mascetti

Main category: cs.CV

TL;DR: MIAS-SAM是一种用于医学图像异常区域分割的新方法,通过基于补丁的记忆库和SAM编码器提取特征,无需阈值即可实现精确分割。

  • Motivation: 解决现有方法需要手动定义阈值的问题,提高医学图像异常分割的准确性和效率。
  • Method: 使用SAM编码器提取正常数据的特征并存储于记忆库,推理时比较特征生成异常图,通过异常图的重心提示SAM解码器进行分割。
  • Result: 在三个公开数据集(脑MRI、肝脏CT和视网膜OCT)上表现出高精度的异常分割能力,DICE评分验证了其有效性。
  • Conclusion: MIAS-SAM无需阈值即可实现精确的异常分割,适用于多种医学图像模态,代码已开源。

[5] Rhetorical Text-to-Image Generation via Two-layer Diffusion Policy Optimization

Yuxi Zhang,Yueting Li,Xinyu Du,Sibo Wang

Main category: cs.CV

TL;DR: Rhet2Pix是一个解决修辞语言生成图像问题的框架,通过多步策略优化和双层MDP扩散模块,显著优于现有模型。

  • Motivation: 当前文本到图像模型难以捕捉修辞语言的隐含意义,导致生成图像偏向字面表达。
  • Method: Rhet2Pix采用多步策略优化和双层MDP扩散模块,外层逐步细化子句生成图像,内层优化奖励稀疏问题。
  • Result: Rhet2Pix在定性和定量评估中均优于GPT-4o、Grok-3等SOTA模型。
  • Conclusion: Rhet2Pix有效解决了修辞语言生成图像的挑战,代码和数据集已公开。

[6] Cultural Evaluations of Vision-Language Models Have a Lot to Learn from Cultural Theory

Srishti Yadav,Lauren Tilton,Maria Antoniak,Taylor Arnold,Jiaang Li,Siddhesh Milind Pawar,Antonia Karamolegkou,Stella Frank,Zhaochong An,Negar Rostamzadeh,Daniel Hershcovich,Serge Belongie,Ekaterina Shutova

Main category: cs.CV

TL;DR: 现代视觉语言模型(VLMs)在文化能力评估中表现不佳,需要系统性框架分析图像中的文化维度。

  • Motivation: 由于VLMs应用的多样性,理解其如何编码文化细微差别变得重要,但目前缺乏系统性方法。
  • Method: 提出基于视觉文化研究(文化研究、符号学、视觉研究)的五种框架,用于分析VLMs的文化能力。
  • Result: 提出了五种文化维度的框架,以更全面地评估VLMs的文化能力。
  • Conclusion: 视觉文化研究的方法论对VLMs的文化分析至关重要,提出的框架为系统性评估提供了基础。

[7] Fast Trajectory-Independent Model-Based Reconstruction Algorithm for Multi-Dimensional Magnetic Particle Imaging

Vladyslav Gapyak,Thomas März,Andreas Weinmann

Main category: cs.CV

TL;DR: 本文提出了一种独立于轨迹的模型重建算法,用于2D磁粒子成像(MPI),并通过零样本PnP算法解决反卷积问题,展示了在不同扫描场景下的强大重建能力。

  • Motivation: 传统MPI重建方法依赖耗时校准或特定轨迹的模型模拟,限制了其灵活性和通用性。本文旨在开发一种不依赖特定轨迹的模型重建算法。
  • Method: 采用零样本PnP算法,结合自动噪声估计和自然图像训练的降噪器,无需MPI数据重新训练。
  • Result: 在公开数据集和自定义数据上均展示了强大的重建能力,适用于不同扫描场景。
  • Conclusion: 该方法为通用、灵活的模型MPI重建奠定了基础。

[8] VidText: Towards Comprehensive Evaluation for Video Text Understanding

Zhoufaran Yang,Yan Shu,Zhifei Yang,Yan Zhang,Yu Li,Keyang Lu,Gangyan Zeng,Shaohui Liu,Yu Zhou,Nicu Sebe

Main category: cs.CV

TL;DR: VidText是一个新的视频文本理解基准,填补了现有视频理解和OCR基准的不足,支持多语言和多样化场景,并提出了分层评估框架和感知推理任务。当前大型多模态模型在大多数任务上表现不佳,仍有改进空间。

  • Motivation: 现有视频理解基准忽略文本信息,OCR基准局限于静态图像,无法捕捉文本与动态视觉上下文的交互。
  • Method: 提出VidText基准,涵盖多样化场景和多语言内容,引入分层评估框架(视频级、片段级、实例级任务)和感知推理任务。
  • Result: 实验显示当前大型多模态模型在大多数任务上表现不佳,模型内在因素(如输入分辨率、OCR能力)和外部因素(如辅助信息使用)均影响性能。
  • Conclusion: VidText填补了视频理解基准的空白,为未来动态环境中多模态推理研究奠定了基础。

[9] IMTS is Worth Time × Channel Patches: Visual Masked Autoencoders for Irregular Multivariate Time Series Prediction

Zhangyi Hu,Jiemin Wu,Hua Xu,Mingqian Liao,Ninghui Feng,Bo Gao,Songning Lai,Yutao Yue

Main category: cs.CV

TL;DR: VIMTS是一个基于视觉MAE的框架,用于处理不规则多变量时间序列(IMTS)预测,通过特征补全和自监督学习提升性能。

  • Motivation: IMTS预测因多通道信号未对齐和大量缺失数据而具有挑战性,现有方法难以捕捉可靠的时间模式。
  • Method: VIMTS将IMTS沿时间线分割为等间隔特征块,利用跨通道依赖补全缺失值,并采用视觉MAE进行稀疏多通道数据重建,结合自监督学习优化模型。
  • Result: 实验表明VIMTS在性能和少样本能力上表现优越,推动了视觉基础模型在更广泛时间序列任务中的应用。
  • Conclusion: VIMTS成功将视觉MAE应用于IMTS预测,为处理不规则时间序列提供了新思路。

[10] Improving Contrastive Learning for Referring Expression Counting

Kostas Triaridis,Panagiotis Kaliosis,E-Ro Nguyen,Jingyi Xu,Hieu Le,Dimitris Samaras

Main category: cs.CV

TL;DR: 论文提出了一种名为C-REX的对比学习框架,用于解决Referring Expression Counting (REC)任务,通过增强判别性表示学习,显著提升了性能。

  • Motivation: 现有方法在区分视觉相似但属于不同指代表达的对象时表现不佳,因此需要一种更稳定的对比学习框架。
  • Method: C-REX基于监督对比学习,完全在图像空间内操作,避免了图像-文本对比学习的错位问题,并提供了更大的负样本池。
  • Result: C-REX在REC任务中实现了最先进的性能,MAE和RMSE分别提升了22%和10%,并在类无关计数任务中表现优异。
  • Conclusion: C-REX框架不仅高效解决了REC任务,还展示了其通用性,适用于其他类似任务。

[11] CLIPGaussian: Universal and Multimodal Style Transfer Based on Gaussian Splatting

Kornel Howil,Joanna Waczyńska,Piotr Borycki,Tadeusz Dziarmaga,Marcin Mazur,Przemysław Spurek

Main category: cs.CV

TL;DR: CLIPGaussians是一种统一风格迁移框架,支持文本和图像引导的多模态风格化,包括2D图像、视频、3D对象和4D场景。

  • Motivation: 高斯泼溅(GS)在3D场景渲染中表现高效,但风格迁移仍具挑战性,尤其是超越简单颜色变化的应用。
  • Method: 直接在GS原语上操作,作为插件模块集成到现有流程中,无需大型生成模型或从头训练。
  • Result: 在3D和4D设置中实现颜色和几何的联合优化,视频中保持时间一致性,同时模型尺寸小。
  • Conclusion: CLIPGaussians在多模态风格迁移中表现出卓越的风格保真度和一致性,是一种通用高效解决方案。

[12] A Probabilistic Jump-Diffusion Framework for Open-World Egocentric Activity Recognition

Sanjoy Kundu,Shanmukha Vellamcheti,Sathyanarayanan N. Aakur

Main category: cs.CV

TL;DR: ProbRes框架通过概率残差搜索和跳跃扩散方法,高效处理开放世界自我中心活动识别问题,结合常识先验和视觉语言模型,实现高性能。

  • Motivation: 开放世界自我中心活动识别因无约束性和部分观测空间而具有挑战性,需模型推断未见活动。
  • Method: 提出ProbRes框架,结合跳跃扩散、常识先验和视觉语言模型,通过随机搜索机制高效定位高概率活动标签。
  • Result: 在多个基准数据集(GTEA Gaze等)上达到最优性能,并建立了开放世界识别的分类法。
  • Conclusion: ProbRes为开放世界自我中心活动识别提供了高效方法,并明确了未来挑战和方法改进方向。

[13] 4DTAM: Non-Rigid Tracking and Mapping via Dynamic Surface Gaussians

Hidenobu Matsuki,Gwangbin Bae,Andrew J. Davison

Main category: cs.CV

TL;DR: 提出首个基于可微分渲染的4D跟踪与建图方法,联合优化相机定位与非刚性表面重建,并引入新数据集和评估协议。

  • Motivation: 自然环境的复杂非刚性运动使4D-SLAM研究不足,且缺乏可靠的真实数据和评估方法。
  • Method: 使用高斯表面基元进行SLAM,结合MLP表示的非刚性变形场,提出新的相机姿态估计技术和表面正则化项。
  • Result: 实现了准确的表面重建和非刚性运动建模,并提供了开源合成数据集。
  • Conclusion: 通过新方法和评估协议推动了现代4D-SLAM研究。

[14] CFP-Gen: Combinatorial Functional Protein Generation via Diffusion Language Models

Junbo Yin,Chao Zha,Wenjia He,Chencheng Xu,Xin Gao

Main category: cs.CV

TL;DR: CFP-Gen是一种新型扩散语言模型,用于组合功能蛋白质生成,能够同时满足多模态约束条件。

  • Motivation: 现有蛋白质语言模型(PLMs)只能基于单一模态的约束生成蛋白质序列,难以同时满足多模态的多重约束。
  • Method: CFP-Gen通过引入注释引导的特征调制(AGFM)模块和残基控制的功能编码(RCFE)模块,动态调整蛋白质特征分布并捕捉残基间相互作用。同时支持集成3D结构编码器以施加几何约束。
  • Result: CFP-Gen能够高效生成功能与天然蛋白质相当的新型蛋白质,并在设计多功能蛋白质时具有高成功率。
  • Conclusion: CFP-Gen为蛋白质设计提供了一种高效的多模态约束集成方法,具有广泛应用潜力。

[15] 3DGS Compression with Sparsity-guided Hierarchical Transform Coding

Hao Xu,Xiaolin Wu,Xi Zhang

Main category: cs.CV

TL;DR: SHTC是一种端到端优化的3DGS压缩框架,通过联合优化3DGS、变换和轻量级上下文模型,显著提升了率失真性能。

  • Motivation: 3DGS的高内存占用和传输存储开销问题,现有神经压缩方法未采用端到端优化的分析-合成变换,导致性能不佳。
  • Method: 提出SHTC框架,包括基于KLT的基础层和稀疏编码的增强层,通过ISTA算法重构残差。
  • Result: SHTC显著提升了率失真性能,且参数和计算开销最小。
  • Conclusion: SHTC为3DGS压缩提供了高效、可解释的解决方案。

[16] Hierarchical Material Recognition from Local Appearance

Matthew Beveridge,Shree K. Nayar

Main category: cs.CV

TL;DR: 提出了一种基于物理特性的材料分类法,并构建了一个包含图像和深度图的多样化数据集。利用图注意力网络,实现了层次化材料识别,性能优异,且能适应恶劣条件和少样本学习。

  • Motivation: 为视觉应用提供一种基于材料物理特性的层次化分类方法,并解决真实世界复杂条件下的识别问题。
  • Method: 使用图注意力网络,结合分类法和数据集,利用类别间的分类学关系进行层次化识别。
  • Result: 模型在层次化材料识别中达到最优性能,能适应恶劣成像条件,并通过深度图增强泛化能力。
  • Conclusion: 该方法在材料识别中表现出色,尤其在少样本学习和复杂条件下具有潜力。

[17] cadrille: Multi-modal CAD Reconstruction with Online Reinforcement Learning

Maksim Kolodiazhnyi,Denis Tarasov,Dmitrii Zhemchuzhnikov,Alexander Nikulin,Ilya Zisman,Anna Vorontsova,Anton Konushin,Vladislav Kurenkov,Danila Rukhovich

Main category: cs.CV

TL;DR: 提出了一种多模态CAD重建模型,结合点云、图像和文本输入,利用VLM和LLM训练范式,通过SFT和RL微调提升性能。

  • Motivation: 现有CAD重建方法通常仅支持单一输入模态,限制了通用性和鲁棒性。多模态输入可以更广泛地支持设计应用。
  • Method: 采用两阶段训练:1) 在大规模生成数据上进行SFT;2) 使用在线反馈进行RL微调(如GRPO)。
  • Result: 在DeepCAD基准测试中,SFT模型优于单模态方法,RL微调后进一步在三个数据集上达到SOTA。
  • Conclusion: 多模态输入结合RL微调显著提升了CAD重建的性能和通用性。

[18] Re-ttention: Ultra Sparse Visual Generation via Attention Statistical Reshape

Ruichen Chen,Keith G. Mills,Liyao Jiang,Chao Gao,Di Niu

Main category: cs.CV

TL;DR: 论文提出Re-ttention方法,通过利用扩散模型的时间冗余性,实现高稀疏注意力机制,显著降低计算复杂度,同时保持视觉生成质量。

  • Motivation: 现有稀疏注意力技术在极高稀疏度下无法保持视觉质量,且可能引入额外计算开销。
  • Method: Re-ttention通过基于历史softmax分布重塑注意力分数,克服注意力机制中的概率归一化偏移。
  • Result: 实验表明,Re-ttention仅需3.1%的token即可在推理中优于现有方法,并在H100 GPU上实现显著延迟降低。
  • Conclusion: Re-ttention是一种高效且低开销的稀疏注意力方法,适用于高质量视觉生成任务。

[19] Leveraging Diffusion Models for Synthetic Data Augmentation in Protein Subcellular Localization Classification

Sylvey Lin,Zhi-Yi Cao

Main category: cs.CV

TL;DR: 研究探讨扩散模型生成的合成图像是否能提升蛋白质亚细胞定位的多标签分类,发现混合训练策略在验证集表现良好,但测试集泛化能力差,传统方法更稳定。

  • Motivation: 探索合成图像在生物医学图像分类中的潜力,尤其是蛋白质亚细胞定位任务。
  • Method: 使用简化的类条件DDPM生成标签一致的样本,并采用Mix Loss和Mix Representation两种混合训练策略。
  • Result: 混合策略在验证集表现良好,但测试集泛化能力不足;传统ResNet方法更稳定。
  • Conclusion: 生成式增强需注重数据真实性和监督机制的鲁棒性。

[20] Fast Isotropic Median Filtering

Ben Weiss

Main category: cs.CV

TL;DR: 提出了一种高效的中值滤波方法,克服了传统算法在图像位深、滤波器核大小和形状上的限制。

  • Motivation: 传统中值滤波算法存在位深、核大小和形状的限制,导致实际应用受限。
  • Method: 开发了一种新方法,支持任意位深、任意核大小和任意凸核形状(包括圆形)。
  • Result: 该方法高效且无传统算法的局限性。
  • Conclusion: 新方法解决了中值滤波的长期限制,具有广泛适用性。

[21] ATI: Any Trajectory Instruction for Controllable Video Generation

Angtian Wang,Haibin Huang,Jacob Zhiyuan Fang,Yiding Yang,Chongyang Ma

Main category: cs.CV

TL;DR: 提出了一种统一的视频生成运动控制框架,通过轨迹输入整合相机运动、物体平移和局部运动。

  • Motivation: 解决现有方法中运动控制模块分散或任务特定设计的问题,提供一种统一的解决方案。
  • Method: 通过轻量级运动注入器将用户定义的轨迹投影到预训练图像到视频生成模型的潜在空间中。
  • Result: 在多种视频运动控制任务中表现优越,包括风格化运动效果、动态视角变化和精确局部运动操控。
  • Conclusion: 该方法在可控性和视觉质量上显著优于现有方法和商业解决方案,且兼容多种先进视频生成模型。

[22] Toward Memory-Aided World Models: Benchmarking via Spatial Consistency

Kewei Lian,Shaofei Cai,Yilun Du,Yitao Liang

Main category: cs.CV

TL;DR: 论文提出了一种新的数据集和基准,用于促进空间一致性记忆模块的发展,基于Minecraft环境收集了20百万帧的导航视频数据。

  • Motivation: 现有数据集缺乏对空间一致性的明确要求,限制了世界模型在长期空间一致性任务中的应用。
  • Method: 构建了一个包含150个不同位置的Minecraft数据集,采用课程设计逐步增加序列长度,评估了四种代表性世界模型。
  • Result: 数据集和基准开源,支持未来研究,并展示了模型在复杂导航轨迹上的表现。
  • Conclusion: 该数据集填补了现有空白,为空间一致性记忆模块的发展提供了重要资源。

[23] HyperMotion: DiT-Based Pose-Guided Human Image Animation of Complex Motions

Shuolin Xu,Siming Zheng,Ziyi Wang,HC Yu,Jinwei Chen,Huaqi Zhang,Bo Li,Peng-Tao Jiang

Main category: cs.CV

TL;DR: 论文提出了Open-HyperMotionX数据集和HyperMotionX Bench,用于评估和改进复杂人体运动条件下的姿态引导动画生成,并提出了一种基于DiT的视频生成基线方法和空间低频增强RoPE模块。

  • Motivation: 现有方法在复杂人体运动(如Hypermotion)中表现不佳,且缺乏高质量评估基准。
  • Method: 提出了Open-HyperMotionX数据集和HyperMotionX Bench,并设计了一种基于DiT的视频生成基线方法,引入空间低频增强RoPE模块。
  • Result: 方法显著提高了动态人体运动序列的结构稳定性和外观一致性。
  • Conclusion: 提出的数据集和方法有效提升了复杂人体运动动画的生成质量,代码和数据集将公开。

[24] Pose-free 3D Gaussian splatting via shape-ray estimation

Youngju Na,Taeyeon Kim,Jumin Lee,Kyu Beom Han,Woo Jae Kim,Sung-eui Yoon

Main category: cs.CV

TL;DR: SHARE是一种无需姿态信息的3D高斯泼溅框架,通过联合形状和相机光线估计解决姿态不准确导致的几何错位问题。

  • Motivation: 在现实场景中,精确的相机姿态难以获取,导致几何错位,SHARE旨在解决这一问题。
  • Method: SHARE通过构建姿态感知的规范体积表示,整合多视角信息,并利用锚点对齐的高斯预测优化局部几何。
  • Result: 在多样化真实数据集上的实验表明,SHARE在无姿态通用高斯泼溅中表现稳健。
  • Conclusion: SHARE为姿态不准确场景下的高质量3D渲染提供了有效解决方案。

[25] MOVi: Training-free Text-conditioned Multi-Object Video Generation

Aimon Rahman,Jiang Liu,Ze Wang,Ximeng Sun,Jialian Wu,Xiaodong Yu,Yusheng Su,Vishal M. Patel,Zicheng Liu,Emad Barsoum

Main category: cs.CV

TL;DR: 提出了一种无需训练的多对象视频生成方法,结合扩散模型和大型语言模型(LLM),显著提升了多对象生成能力。

  • Motivation: 现有扩散模型在多对象视频生成中难以准确捕捉复杂对象交互,且常将对象视为静态背景或混合特征。
  • Method: 利用LLM作为对象轨迹的“导演”,通过噪声重新初始化和注意力机制优化,实现精确控制和特征分离。
  • Result: 实验表明,该方法在运动动态和对象生成准确性上绝对提升了42%,同时保持高保真度和运动平滑性。
  • Conclusion: 该方法为多对象视频生成提供了一种高效且无需训练的解决方案。

[26] Synthetic Document Question Answering in Hungarian

Jonathan Li,Zoltan Csaki,Nidhi Hiremath,Etash Guha,Fenglu Hong,Edward Ma,Urmish Thakker

Main category: cs.CV

TL;DR: 论文提出了针对匈牙利语的文档视觉问答(VQA)数据集HuDocVQA和HuDocVQA-manual,以及用于OCR训练的HuCCPDF数据集,通过微调显著提升了模型性能。

  • Motivation: 解决低资源语言(如匈牙利语)在文档VQA任务中缺乏训练和评估数据的问题。
  • Method: 通过人工和合成方法从Common Crawl中筛选和去重数据,构建高质量数据集。
  • Result: 微调Llama 3.2 11B Instruct模型在HuDocVQA上的准确率提高了7.2%。
  • Conclusion: 数据集和代码将公开,以促进多语言文档VQA的研究。

[27] SeG-SR: Integrating Semantic Knowledge into Remote Sensing Image Super-Resolution via Vision-Language Model

Bowen Chen,Keyan Chen,Mohan Yang,Zhengxia Zou,Zhenwei Shi

Main category: cs.CV

TL;DR: 论文提出了一种基于语义引导的超分辨率框架SeG-SR,利用视觉语言模型提取语义知识,提升遥感图像超分辨率重建的性能。

  • Motivation: 现有遥感图像超分辨率方法主要关注像素空间低层特征,忽视高层语义理解,导致重建结果语义不一致。本文旨在探索高层语义知识对超分辨率性能的提升作用。
  • Method: 提出SeG-SR框架,包括语义特征提取模块(SFEM)、语义定位模块(SLM)和可学习调制模块(LMM),利用预训练视觉语言模型提取语义知识并指导超分辨率过程。
  • Result: SeG-SR在两个数据集上达到最先进性能,并在多种超分辨率架构中表现一致提升。
  • Conclusion: SeG-SR通过引入语义知识,显著提升了遥感图像超分辨率重建的性能和语义一致性。

[28] Spatio-Temporal Joint Density Driven Learning for Skeleton-Based Action Recognition

Shanaka Ramesh Gunasekara,Wanqing Li,Philip Ogunbona,Jack Yang

Main category: cs.CV

TL;DR: 论文提出了一种新的空间-时间关节密度(STJD)测量方法,用于量化骨骼动作分类中动态与静态关节的交互作用,并开发了STJD-CL和STJD-MP两种方法,显著提升了性能。

  • Motivation: 传统方法主要关注骨骼序列的动态特征,而忽略了动态与静态关节的交互作用。论文旨在挖掘这种交互作用的判别潜力。
  • Method: 提出了STJD测量方法,并基于此开发了STJD-CL对比学习策略和STJD-MP重建框架。
  • Result: 在NTU RGB+D 60、120和PKUMMD数据集上,STJD-CL和STJD-MP分别比现有对比方法提升了3.5和3.6个百分点。
  • Conclusion: STJD方法有效利用了动态与静态关节的交互作用,显著提升了骨骼动作分类的性能。

[29] Towards Privacy-Preserving Fine-Grained Visual Classification via Hierarchical Learning from Label Proportions

Jinyi Chang,Dongliang Chang,Lei Chen,Bingyao Yu,Zhanyu Ma

Main category: cs.CV

TL;DR: 本文提出了一种无需实例级标签的细粒度视觉分类方法LHFGLP,利用分层标签比例学习(LLP)提升分类精度。

  • Motivation: 现有细粒度分类方法依赖实例级标签,不适用于隐私敏感场景(如医学图像分析)。
  • Method: 提出LHFGLP框架,结合分层稀疏字典学习和分层比例损失,优化网络训练。
  • Result: 在三个细粒度数据集上表现优于现有LLP方法。
  • Conclusion: LHFGLP为隐私保护下的细粒度分类提供了有效解决方案,代码和数据集将开源。

[30] Deep Modeling and Optimization of Medical Image Classification

Yihang Wu,Muhammad Owais,Reem Kateb,Ahmad Chaddad

Main category: cs.CV

TL;DR: 论文提出了一种改进的CLIP变体,结合多种深度模型和联邦学习技术,用于医学图像分类,并验证了其性能。

  • Motivation: 解决医学领域因数据隐私问题导致的大数据微调困难,并探索CLIP在医学领域的潜力。
  • Method: 1) 提出基于CNN和ViT的CLIP变体;2) 结合联邦学习保护数据隐私;3) 引入传统ML方法提升泛化能力。
  • Result: MaxViT在HAM10000数据集上表现最佳(AVG=87.03%),ConvNeXt_L在FL模型中F1-score达83.98%,SVM提升Swin Transformer系列性能约2%。
  • Conclusion: 改进的CLIP变体和联邦学习技术在医学图像分类中具有潜力,传统ML方法可进一步提升性能。

[31] Are Unified Vision-Language Models Necessary: Generalization Across Understanding and Generation

Jihai Zhang,Tianle Li,Linjie Li,Zhengyuan Yang,Yu Cheng

Main category: cs.CV

TL;DR: 本文系统研究了统一视觉语言模型(VLMs)中理解与生成任务的泛化能力,发现混合训练能带来双向增强,且数据量和模态对齐是关键。

  • Motivation: 探索统一架构中理解与生成任务的相互增强假设,填补现有研究的空白。
  • Method: 设计贴近真实场景的数据集,评估多种统一VLM架构,进行定量分析。
  • Result: 混合训练带来双向增强,数据量和模态对齐是关键;生成任务知识可迁移至理解任务。
  • Conclusion: 统一理解与生成对VLMs至关重要,为模型设计与优化提供新见解。

[32] SpatialSplat: Efficient Semantic 3D from Sparse Unposed Images

Yu Sheng,Jiajun Deng,Xinran Zhang,Yu Zhang,Bei Hua,Yanyong Zhang,Jianmin Ji

Main category: cs.CV

TL;DR: SpatialSplat是一种前馈框架,通过双场语义表示和选择性高斯机制,减少冗余并提升语义3D重建的效率和准确性。

  • Motivation: 现有方法在压缩语义特征时牺牲了表达力,且像素级预测导致冗余内存开销,限制了语义3D重建的实用性。
  • Method: 提出双场语义表示(粗粒度场和细粒度场)和选择性高斯机制,减少冗余并保留关键语义信息。
  • Result: 实验表明,参数减少60%,性能优于现有方法。
  • Conclusion: SpatialSplat通过更紧凑的3D高斯表示,显著提升了语义3D重建的效率和准确性。

[33] Multi-Sourced Compositional Generalization in Visual Question Answering

Chuanhao Li,Wenbo Ye,Zhen Li,Yuwei Wu,Yunde Jia

Main category: cs.CV

TL;DR: 该论文探讨了视觉与语言任务中的多源组合泛化(MSCG)问题,提出了一种检索增强的训练框架,以提升视觉问答(VQA)模型的MSCG能力。

  • Motivation: 由于视觉与语言任务的多模态特性,组合的原始元素来自不同模态,导致多源新组合的泛化能力未被充分研究。
  • Method: 提出了一种检索增强的训练框架,通过检索语义等效的原始元素并聚合其特征,学习跨模态的统一表示。
  • Result: 实验结果表明该框架有效,并基于GQA数据集构建了新的GQA-MSCG数据集用于评估。
  • Conclusion: 该研究填补了MSCG领域的空白,提出的框架显著提升了VQA模型的泛化能力。

[34] Zero-P-to-3: Zero-Shot Partial-View Images to 3D Object

Yuxuan Lin,Ruihang Chu,Zhenyu Chen,Xiao Tang,Lei Ke,Haoling Li,Yingji Zhong,Zhihao Li,Shiyong Liu,Xiaofei Wu,Jianzhuang Liu,Yujiu Yang

Main category: cs.CV

TL;DR: 提出了一种无需训练的方法\method,通过融合局部密集观测和多源先验,解决部分视角下3D重建的挑战。

  • Motivation: 部分视角观测在3D重建中未被充分研究,传统插值方法因视角范围有限和生成不一致性而失效。
  • Method: 融合局部密集观测和多源先验,采用DDIM采样对齐先验,生成多视角一致图像,并通过迭代细化提升重建质量。
  • Result: 在多个数据集上优于现有方法,尤其在不可见区域表现突出。
  • Conclusion: \method通过融合策略和迭代细化,有效解决了部分视角重建的挑战。

[35] URWKV: Unified RWKV Model with Multi-state Perspective for Low-light Image Restoration

Rui Xu,Yuzhen Niu,Yuezhou Li,Huangbiao Xu,Wenxi Liu,Yuzhong Chen

Main category: cs.CV

TL;DR: 提出了一种名为URWKV的统一模型,通过多状态视角灵活有效地恢复低光图像的退化问题,性能优于现有方法且计算资源需求更低。

  • Motivation: 现有低光图像增强(LLIE)及联合去模糊(LLIE-deblur)模型在处理动态耦合退化问题时受限,需更灵活的解决方案。
  • Method: 1. 提出Luminance-adaptive Normalization(LAN)进行自适应亮度调节;2. 通过指数移动平均方法聚合多状态信息;3. 设计State-aware Selective Fusion(SSF)模块动态融合特征。
  • Result: URWKV模型在多个基准测试中表现优于现有方法,且参数和计算资源需求显著减少。
  • Conclusion: URWKV模型通过多状态机制有效解决了动态耦合退化问题,为低光图像增强提供了高效解决方案。

[36] GeoMan: Temporally Consistent Human Geometry Estimation using Image-to-Video Diffusion

Gwanghyun Kim,Xueting Li,Ye Yuan,Koki Nagano,Tianye Li,Jan Kautz,Se Young Chun,Umar Iqbal

Main category: cs.CV

TL;DR: GeoMan是一种新架构,用于从单目视频中生成准确且时间一致的3D人体几何估计,解决了现有方法在时间一致性和细节捕捉上的不足。

  • Motivation: 现有方法主要针对单图像优化,存在时间不一致和动态细节捕捉不足的问题。
  • Method: GeoMan结合图像模型和视频扩散模型,首帧由图像模型估计深度和法线,视频模型专注于细节生成,并采用根相对深度表示以保留人体尺度细节。
  • Result: GeoMan在定性和定量评估中均达到最先进性能,显著提升了时间一致性和泛化能力。
  • Conclusion: GeoMan成功解决了3D人体几何估计中的关键挑战,尤其在时间一致性和人体尺度准确性方面表现突出。

[37] LeMoRe: Learn More Details for Lightweight Semantic Segmentation

Mian Muhammad Naeem Abid,Nancy Mehta,Zongwei Wu,Radu Timofte

Main category: cs.CV

TL;DR: 论文提出了一种轻量级语义分割方法LeMoRe,通过结合显式和隐式建模,平衡计算效率与表征能力。

  • Motivation: 现有方法在特征建模复杂度上难以平衡效率与性能,且依赖参数密集或计算密集型框架。
  • Method: 结合笛卡尔方向、显式建模视图和隐式推断中间表示,通过嵌套注意力机制捕获全局依赖。
  • Result: 在ADE20K、CityScapes等数据集上验证了LeMoRe在性能与效率上的平衡。
  • Conclusion: LeMoRe提供了一种高效且性能优异的语义分割解决方案。

[38] CURVE: CLIP-Utilized Reinforcement Learning for Visual Image Enhancement via Simple Image Processing

Yuka Ogino,Takahiro Toizumi,Atsushi Ito

Main category: cs.CV

TL;DR: CURVE是一种基于CLIP和强化学习的低光图像增强方法,通过Bézier曲线调整全局色调,并在高分辨率图像中保持高效性。

  • Motivation: 解决零参考低光图像增强中如何利用CLIP模型获得感知良好的图像,同时保持计算效率的挑战。
  • Method: 提出CURVE方法,使用Bézier曲线调整全局色调,并通过强化学习迭代估计参数,奖励设计基于CLIP文本嵌入。
  • Result: 在低光和多曝光数据集上,CURVE在增强质量和处理速度上优于传统方法。
  • Conclusion: CURVE通过结合CLIP和强化学习,有效提升了低光图像增强的性能和效率。

[39] EAD: An EEG Adapter for Automated Classification

Pushapdeep Singh,Jyoti Nigam,Medicherla Vamsi Krishna,Arnav Bhavsar,Aditya Nigam

Main category: cs.CV

TL;DR: 提出EEG Adapter (EAD)框架,解决不同设备采集的EEG信号分类问题,实现高精度和泛化能力。

  • Motivation: 传统EEG分类方法依赖特定设备和通道数,限制了统一嵌入学习的开发。
  • Method: 基于EEG基础模型进行适配,学习鲁棒表征,支持不同设备和通道数的EEG数据。
  • Result: 在EEG-ImageNet和BrainLat数据集上分别达到99.33%和92.31%的准确率,并展示零样本分类能力。
  • Conclusion: EAD框架具有灵活性和泛化能力,适用于多种EEG分类任务。

[40] Identification of Patterns of Cognitive Impairment for Early Detection of Dementia

Anusha A. S.,Uma Ranjan,Medha Sharma,Siddharth Dutt

Main category: cs.CV

TL;DR: 提出一种个性化认知测试方案,通过识别个体特定的认知障碍模式,为早期痴呆检测提供高效方法。

  • Motivation: 早期痴呆检测对干预至关重要,但传统测试耗时且难以大规模应用。
  • Method: 从正常和轻度认知障碍人群中学习认知障碍模式,通过两步特征选择和聚类分析识别模式。
  • Result: 识别出与临床MCI变体对应的模式,可用于预测无症状人群的认知障碍路径。
  • Conclusion: 个性化测试方案有望提高痴呆早期检测的效率和适用性。

[41] Diffusion-Based Generative Models for 3D Occupancy Prediction in Autonomous Driving

Yunshen Wang,Yicheng Liu,Tianyuan Yuan,Yucheng Mao,Yingshi Liang,Xiuyu Yang,Honggang Zhang,Hang Zhao

Main category: cs.CV

TL;DR: 将3D占用网格预测重新定义为生成建模任务,利用扩散模型提升预测一致性和噪声鲁棒性。

  • Motivation: 当前判别方法在噪声数据、不完整观察和复杂3D场景结构方面表现不佳,需要更优解决方案。
  • Method: 采用扩散模型学习数据分布并融入3D场景先验,生成更一致的预测。
  • Result: 扩散模型优于现有判别方法,尤其在遮挡或低可见区域提供更真实准确的预测。
  • Conclusion: 该方法对自动驾驶下游规划任务有显著实用优势。

[42] TextSR: Diffusion Super-Resolution with Multilingual OCR Guidance

Keren Ye,Ignacio Garcia Dorado,Michalis Raptis,Mauricio Delbracio,Irene Zhu,Peyman Milanfar,Hossein Talebi

Main category: cs.CV

TL;DR: TextSR是一种针对多语言场景文本图像超分辨率的多模态扩散模型,通过结合文本检测和OCR技术,解决了现有扩散模型在文本超分辨率中的局限性。

  • Motivation: 现有扩散模型在场景文本图像超分辨率中存在文本定位不准确和字符形状建模不足的问题,导致生成质量下降。
  • Method: TextSR利用文本检测器和OCR提取多语言文本,通过UTF-8编码器和交叉注意力将字符转换为视觉形状,并结合两种创新方法提升模型鲁棒性。
  • Result: 模型在TextZoom和TextVQA数据集上表现优异,为STISR设立了新基准。
  • Conclusion: TextSR通过结合文本先验和低分辨率图像,显著提升了文本超分辨率的细节和可读性。

[43] MMGT: Motion Mask Guided Two-Stage Network for Co-Speech Gesture Video Generation

Siyuan Wang,Jiawei Liu,Wei Wang,Yeying Jin,Jinsong Du,Zhi Han

Main category: cs.CV

TL;DR: 论文提出了一种基于运动掩码的两阶段网络(MMGT),通过音频、运动掩码和运动特征联合驱动生成同步的语音手势视频,解决了传统方法在细节控制和运动生成上的不足。

  • Motivation: 由于身体各部分的运动幅度、音频相关性和细节特征的多样性,仅依赖音频作为控制信号难以捕捉大幅手势动作,导致视频中出现明显伪影和失真。现有方法通常引入额外先验信息,但限制了实际应用。
  • Method: 提出MMGT网络,分为两阶段:1)SMGA网络从音频生成高质量姿势视频和运动掩码;2)MM-HAA模块集成到稳定扩散视频生成模型中,解决传统方法在细粒度运动生成和区域细节控制上的限制。
  • Result: 实验表明,该方法在视频质量、唇同步和手势生成方面均有提升。
  • Conclusion: MMGT通过联合驱动和两阶段设计,实现了高质量、细节丰富的上半身视频生成,解决了传统方法的局限性。

[44] HMAD: Advancing E2E Driving with Anchored Offset Proposals and Simulation-Supervised Multi-target Scoring

Bin Wang,Pingjun Li,Jinkun Liu,Jun Cheng,Hailong Lei,Yinze Rong,Huan-ang Gao,Kangliang Chen,Xing Pan,Weihao Gu

Main category: cs.CV

TL;DR: HMAD框架通过BEV轨迹生成与多标准评分结合,解决自动驾驶中轨迹多样性与最优路径选择问题,取得44.5%驾驶评分。

  • Motivation: 自动驾驶在生成多样合规轨迹及通过多标准评分选择最优路径方面存在挑战。
  • Method: HMAD结合BEV轨迹生成机制与学习型多标准评分,利用BEVFormer和迭代偏移解码生成候选轨迹,并通过模拟监督评分模块评估。
  • Result: HMAD在CVPR 2025测试集上取得44.5%驾驶评分。
  • Conclusion: HMAD展示了轨迹生成与安全评分解耦对高级自动驾驶的益处。

[45] PhotoArtAgent: Intelligent Photo Retouching with Language Model-Based Artist Agents

Haoyu Chen,Keda Tao,Yizao Wang,Xinlei Wang,Lei Zhu,Jinjin Gu

Main category: cs.CV

TL;DR: PhotoArtAgent是一个结合视觉语言模型和自然语言推理的智能系统,模拟专业艺术家的创作过程,提供透明且交互性强的照片修饰方案。

  • Motivation: 解决非专业用户依赖自动化工具缺乏解释深度和交互透明性的问题,同时模拟专业艺术家的创作过程。
  • Method: 结合Vision-Language Models(VLMs)和自然语言推理,进行艺术分析、策略规划,并通过API输出参数到Lightroom,迭代优化结果。
  • Result: 在用户研究中超越现有自动化工具,结果接近专业艺术家水平。
  • Conclusion: PhotoArtAgent通过透明解释和迭代优化,实现了高质量的照片修饰,同时提升了用户交互体验。

[46] Zero-to-Hero: Zero-Shot Initialization Empowering Reference-Based Video Appearance Editing

Tongtong Su,Chengyu Wang,Jun Huang,Dongming Lu

Main category: cs.CV

TL;DR: 论文提出了一种名为Zero-to-Hero的新方法,通过参考图像编辑和一致性传播解决视频编辑中的模糊性和细粒度控制问题。

  • Motivation: 现有文本引导的视频编辑方法存在用户意图模糊和细粒度控制不足的问题。
  • Method: 将编辑过程分为两步:首先编辑锚帧作为参考图像,然后通过注意力机制一致性传播到其他帧。
  • Result: PSNR提高了2.6 dB,优于现有基线方法。
  • Conclusion: Zero-to-Hero方法在视频编辑中实现了更高的准确性和时间一致性。

[47] Interpreting Chest X-rays Like a Radiologist: A Benchmark with Clinical Reasoning

Jinquan Guan,Qi Chen,Lizhou Liang,Yuhang Liu,Vu Minh Hieu Phan,Minh-Son To,Jian Chen,Yutong Xie

Main category: cs.CV

TL;DR: 论文提出CXRTrek数据集和CXRTrekNet模型,模拟放射科医生的多阶段诊断推理过程,解决现有医学AI模型的局限性。

  • Motivation: 现有医学AI模型采用简单的输入-输出范式,忽略了诊断推理的序列性和上下文依赖,导致与临床场景不匹配。
  • Method: 构建CXRTrek数据集(包含8个诊断阶段的42.8万样本和1100万Q&A对),并提出CXRTrekNet模型,集成临床推理流程。
  • Result: CXRTrekNet在CXRTrek基准测试中优于现有医学VLLM,并在五个外部数据集上表现出更强的泛化能力。
  • Conclusion: CXRTrek数据集和模型成功模拟了临床诊断推理,提升了医学AI的实用性和准确性。

[48] FlowAlign: Trajectory-Regularized, Inversion-Free Flow-based Image Editing

Jeongsol Kim,Yeobin Hong,Jong Chul Ye

Main category: cs.CV

TL;DR: FlowAlign提出了一种基于流的无反转图像编辑框架,通过流匹配损失实现更稳定和一致的编辑轨迹。

  • Motivation: 现有基于流的无反转图像编辑方法(如FlowEdit)因缺乏精确的潜在反转,导致编辑轨迹不稳定和源一致性差。
  • Method: FlowAlign通过引入流匹配损失作为正则化机制,平衡编辑提示的语义对齐与源图像的结构一致性,并支持反向编辑。
  • Result: 实验表明,FlowAlign在源图像保留和编辑可控性方面优于现有方法。
  • Conclusion: FlowAlign通过流匹配损失实现了更稳定和一致的图像编辑,同时支持可逆编辑。

[49] PreFM: Online Audio-Visual Event Parsing via Predictive Future Modeling

Xiao Yu,Yan Fang,Xiaojie Jin,Yao Zhao,Yunchao Wei

Main category: cs.CV

TL;DR: 论文提出了一种在线音频-视觉事件解析(On-AVEP)的新范式,通过预测未来建模(PreFM)框架实现实时高效的多模态视频理解。

  • Motivation: 现有方法依赖离线处理且模型庞大,难以满足实时需求,因此需要一种在线高效的多模态事件解析方法。
  • Method: 提出PreFM框架,包括预测未来多模态建模和模态无关的鲁棒表示,以提升上下文理解和实时性能。
  • Result: 在UnAV-100和LLP数据集上,PreFM显著优于现有方法,且参数更少。
  • Conclusion: PreFM为实时多模态视频理解提供了高效且性能优越的解决方案。

[50] LODGE: Level-of-Detail Large-Scale Gaussian Splatting with Efficient Rendering

Jonas Kulhanek,Marie-Julie Rakotosaona,Fabian Manhardt,Christina Tsalicoglou,Michael Niemeyer,Torsten Sattler,Songyou Peng,Federico Tombari

Main category: cs.CV

TL;DR: 提出了一种新颖的3D高斯泼溅LOD方法,用于在内存受限设备上实时渲染大规模场景。

  • Motivation: 解决大规模场景实时渲染中GPU内存和计算资源受限的问题。
  • Method: 采用分层LOD表示,基于相机距离选择高斯子集,结合深度感知平滑、重要性修剪和微调,动态加载空间分块。
  • Result: 在户外和室内数据集上实现最佳性能,降低延迟和内存需求。
  • Conclusion: 该方法高效且视觉保真,适用于资源受限设备。

[51] Implicit Inversion turns CLIP into a Decoder

Antonio D'Orazio,Maria Rosaria Briglia,Donato Crisostomi,Dario Loi,Emanuele Rodolà,Iacopo Masi

Main category: cs.CV

TL;DR: CLIP模型无需解码器或训练即可实现图像合成,通过优化频率感知的隐式神经表示,结合多种稳定技术,解锁了文本到图像生成等能力。

  • Motivation: 探索CLIP模型的潜在生成能力,无需额外训练或解码器,验证判别模型可能隐藏的生成潜力。
  • Method: 采用频率感知的隐式神经表示,结合对抗鲁棒初始化、正交Procrustes投影和混合损失等技术。
  • Result: 实现了文本到图像生成、风格迁移和图像重建等功能,且未修改CLIP权重。
  • Conclusion: 判别模型可能具备未被发掘的生成潜力,为多模态生成任务提供了新思路。

[52] RoboTransfer: Geometry-Consistent Video Diffusion for Robotic Visual Policy Transfer

Liu Liu,Xiaofeng Wang,Guosheng Zhao,Keyu Li,Wenkang Qin,Jiaxiong Qiu,Zheng Zhu,Guan Huang,Zhizhong Su

Main category: cs.CV

TL;DR: RoboTransfer是一种基于扩散的视频生成框架,用于机器人数据合成,解决了模拟到现实的差距问题。

  • Motivation: 模仿学习在机器人操作中很重要,但收集大规模真实世界演示成本高昂,模拟器又存在模拟到现实的差距。
  • Method: RoboTransfer整合多视角几何和场景组件控制,通过跨视角特征交互和全局深度/法线条件确保几何一致性。
  • Result: 实验表明,RoboTransfer生成的多视角视频几何一致性和视觉保真度更高,训练的策略在DIFF-OBJ和DIFF-ALL场景中分别提升了33.3%和251%的成功率。
  • Conclusion: RoboTransfer为机器人数据合成提供了高效且可控的解决方案,显著提升了模仿学习的性能。

[53] DIP-R1: Deep Inspection and Perception with RL Looking Through and Understanding Complex Scenes

Sungjune Park,Hyunjun Kim,Junho Kim,Seongho Kim,Yong Man Ro

Main category: cs.CV

TL;DR: 本文提出了一种基于强化学习(RL)的框架DIP-R1,用于增强多模态大语言模型(MLLMs)在复杂场景中的细粒度视觉感知能力。

  • Motivation: MLLMs在复杂现实场景(如密集人群)中的细粒度视觉感知能力有限,而RL在LLMs和MLLMs中的成功应用启发了本研究。
  • Method: DIP-R1通过三种基于规则的奖励模型(逐步推理奖励、方差引导观察奖励、加权精准召回奖励)指导MLLMs详细检查视觉场景。
  • Result: DIP-R1在多种细粒度目标检测数据上表现优异,显著优于现有基线模型和监督微调方法。
  • Conclusion: 研究表明,将RL集成到MLLMs中可显著提升其在复杂现实感知任务中的能力。

[54] HiGarment: Cross-modal Harmony Based Diffusion Model for Flat Sketch to Realistic Garment Image

Junyi Guo,Jingxuan Zhang,Fangyu Wu,Huanda Lu,Qiufeng Wang,Wenmian Yang,Eng Gee Lim,Dongming Lu

Main category: cs.CV

TL;DR: 论文提出新任务FS2RG,通过结合平面草图和文本指导生成逼真服装图像,并提出了HiGarment框架解决挑战。

  • Motivation: 填补服装生产过程中基于扩散模型的合成任务研究空白。
  • Method: HiGarment框架包括多模态语义增强机制和协调交叉注意力机制。
  • Result: 实验和用户研究表明HiGarment在服装合成中有效。
  • Conclusion: 代码和数据集将公开。

[55] Fooling the Watchers: Breaking AIGC Detectors via Semantic Prompt Attacks

Run Hao,Peng Ying

Main category: cs.CV

TL;DR: 提出了一种自动化对抗性提示生成框架,利用语法树结构和蒙特卡洛树搜索算法,有效规避AIGC检测器。

  • Motivation: 解决文本到图像模型合成真实人像带来的身份滥用问题,并测试AIGC检测器的鲁棒性。
  • Method: 采用语法树结构和蒙特卡洛树搜索算法,系统探索语义提示空间,生成多样化且可控的对抗性提示。
  • Result: 方法在多个T2I模型中验证有效,并在实际对抗性AIGC检测竞赛中排名第一。
  • Conclusion: 该方法不仅能用于攻击场景,还能构建高质量对抗数据集,为训练和评估更鲁棒的AIGC检测系统提供资源。

[56] Language-guided Learning for Object Detection Tackling Multiple Variations in Aerial Images

Sungjune Park,Hyunjun Kim,Beomchan Park,Yong Man Ro

Main category: cs.CV

TL;DR: 论文提出了一种名为LANGO的语言引导目标检测框架,旨在解决航空图像中因光照和视角变化导致的目标检测挑战。

  • Motivation: 航空图像中的目标检测面临多样化的场景和对象外观变化,导致定位和识别困难。
  • Method: 设计了视觉语义推理器和关系学习损失,分别处理场景级和实例级变化。
  • Result: 实验表明,该方法显著提升了检测性能。
  • Conclusion: LANGO框架有效缓解了航空图像中的目标检测挑战。

[57] WTEFNet: Real-Time Low-Light Object Detection for Advanced Driver-Assistance Systems

Hao Wu,Junzhou Chen,Ronghui Zhang,Nengchao Lyu,Hongyu Hu,Yanyong Guo,Tony Z. Qiu

Main category: cs.CV

TL;DR: WTEFNet是一个专为低光场景设计的实时目标检测框架,包含低光增强、小波特征提取和自适应融合检测模块,在多个数据集上表现优异。

  • Motivation: 解决RGB摄像头在低光条件下性能下降的问题,提升ADAS系统的环境感知能力。
  • Method: WTEFNet由三个核心模块组成:低光增强模块(LLE)、小波特征提取模块(WFE)和自适应融合检测模块(AFFD),并引入GSN数据集支持训练和评估。
  • Result: 在BDD100K、SHIFT、nuScenes和GSN数据集上达到最先进精度,且适用于嵌入式平台的实时应用。
  • Conclusion: WTEFNet在低光条件下表现出色,适用于实时ADAS应用。

[58] HyperPointFormer: Multimodal Fusion in 3D Space with Dual-Branch Cross-Attention Transformers

Aldino Rizaldy,Richard Gloaguen,Fabian Ewald Fassnacht,Pedram Ghamisi

Main category: cs.CV

TL;DR: 提出了一种基于3D点云的多模态融合方法,采用双分支Transformer模型学习几何和光谱特征,并通过跨注意力机制实现多尺度特征融合,优于传统2D方法。

  • Motivation: 现有方法多将3D数据降维为2D处理,未能充分利用3D数据的潜力,限制了模型学习3D空间特征和生成3D预测的能力。
  • Method: 提出完全基于3D点云的多模态融合方法,使用双分支Transformer模型和跨注意力机制,直接在3D空间中学习特征。
  • Result: 在DFC2018等数据集上验证,3D融合方法表现优于2D方法,并能生成灵活的3D预测。
  • Conclusion: 3D融合方法在性能和灵活性上优于传统2D方法,为多模态遥感数据处理提供了新思路。

[59] Navigating the Accuracy-Size Trade-Off with Flexible Model Merging

Akash Dhasade,Divyansh Jhunjhunwala,Milos Vujasinovic,Gauri Joshi,Anne-Marie Kermarrec

Main category: cs.CV

TL;DR: FlexMerge是一种无需数据的新型模型合并框架,通过灵活生成不同大小的合并模型,平衡精度与成本。

  • Motivation: 解决单模型合并的精度损失问题,同时避免部署多个独立模型的高成本。
  • Method: 将微调模型视为顺序块集合,逐步合并,支持多种合并算法,灵活控制合并模型大小。
  • Result: 实验表明,适度增大的合并模型能显著提升精度,适用于多种部署场景。
  • Conclusion: FlexMerge提供了一种灵活、高效且无需数据的模型合并解决方案。

[60] SAMamba: Adaptive State Space Modeling with Hierarchical Vision for Infrared Small Target Detection

Wenhao Xu,Shuchen Zheng,Changwei Wang,Zherui Zhang,Chuan Ren,Rongtao Xu,Shibiao Xu

Main category: cs.CV

TL;DR: SAMamba框架通过结合SAM2的分层特征学习和Mamba的选择性序列建模,解决了红外小目标检测中的信息丢失和全局上下文建模效率问题。

  • Motivation: 红外小目标检测在军事、海事和预警应用中至关重要,但现有深度学习方法存在信息丢失和全局上下文建模效率低的问题。
  • Method: SAMamba引入FS-Adapter进行自然到红外域适应,CSI模块实现线性复杂度的全局上下文建模,DPCF模块自适应融合多尺度特征。
  • Result: 在NUAA-SIRST、IRSTD-1k和NUDT-SIRST数据集上,SAMamba显著优于现有方法,尤其在复杂背景和多尺度目标场景中。
  • Conclusion: SAMamba通过域适应、细节保留和高效长程依赖建模,有效解决了红外小目标检测的核心挑战。

[61] UniTEX: Universal High Fidelity Generative Texturing for 3D Shapes

Yixun Liang,Kunming Luo,Xiao Chen,Rui Chen,Hongyu Yan,Weiyu Li,Jiarui Liu,Ping Tan

Main category: cs.CV

TL;DR: UniTEX提出了一种新颖的两阶段3D纹理生成框架,通过直接操作于统一的3D功能空间,避免了UV映射的限制,生成高质量且一致的3D纹理。

  • Motivation: 现有方法依赖UV映射修复纹理,存在拓扑模糊性问题,UniTEX旨在绕过这些限制。
  • Method: 1. 通过纹理函数(TFs)将纹理生成提升到3D空间;2. 使用基于Transformer的大规模纹理模型(LTM)直接从图像和几何输入预测TFs;3. 采用LoRA策略高效适配扩散Transformer(DiTs)进行高质量多视图纹理合成。
  • Result: 实验表明,UniTEX在视觉质量和纹理完整性上优于现有方法,提供了可扩展的自动化3D纹理生成方案。
  • Conclusion: UniTEX为3D纹理生成提供了通用且高效的解决方案,代码已开源。

[62] Image Aesthetic Reasoning: A New Benchmark for Medical Image Screening with MLLMs

Zheng Sun,Yi Wei,Long Yu

Main category: cs.CV

TL;DR: 本文提出了一种针对医学图像筛选的完整解决方案,包括数据集和方法论,旨在提升多模态大语言模型(MLLMs)在图像美学推理方面的性能。

  • Motivation: 当前MLLMs在图像筛选任务中表现不佳,主要由于缺乏数据和模型的美学推理能力不足。
  • Method: 通过收集包含1500+样本的医学图像数据集,并采用长链思维(CoT)和动态比例准确度奖励的群体相对策略优化(DPA-GRPO)方法。
  • Result: 实验表明,即使最先进的闭源MLLMs(如GPT-4o和Qwen-VL-Max)在图像美学推理中表现接近随机猜测,而本文方法通过强化学习显著超越这些模型。
  • Conclusion: 本文的研究为图像美学推理提供了一种新的配置方法,并有望在未来成为标准配置。

[63] Unsupervised Transcript-assisted Video Summarization and Highlight Detection

Spyros Barbakos,Charalampos Antoniadis,Gerasimos Potamianos,Gianluca Setti

Main category: cs.CV

TL;DR: 提出了一种结合视频帧和文本转录的多模态强化学习框架,用于视频摘要和高光检测,优于仅依赖视觉内容的方法。

  • Motivation: 视频消费需求高,但完整观看耗时,现有方法未充分利用多模态信息。
  • Method: 采用强化学习框架,融合视频帧和转录文本,训练无监督模型生成多样且有代表性的摘要。
  • Result: 实验表明,结合转录文本的方法在视频摘要和高光检测上优于纯视觉方法。
  • Conclusion: 多模态强化学习框架有效提升视频摘要和高光检测性能,适用于大规模未标注数据。

[64] LADA: Scalable Label-Specific CLIP Adapter for Continual Learning

Mao-Lin Luo,Zi-Hao Zhou,Tong Wei,Min-Ling Zhang

Main category: cs.CV

TL;DR: LADA(Label-specific ADApter)通过在冻结的CLIP图像编码器上添加轻量级、标签特定的记忆单元,解决了现有CLIP方法在持续学习中参数选择错误的问题,实现了最先进的性能。

  • Motivation: 现有CLIP方法在持续学习中需要为每个任务选择部分参数,容易因参数选择错误导致性能下降。
  • Method: LADA在冻结的CLIP图像编码器后添加标签特定的记忆单元,通过特征蒸馏防止灾难性遗忘,并避免梯度流向冻结参数。
  • Result: LADA在持续学习任务中实现了最先进的性能。
  • Conclusion: LADA通过轻量级记忆单元和特征蒸馏,有效解决了持续学习中的参数选择问题,提升了性能。

[65] Are MLMs Trapped in the Visual Room?

Yazhou Zhang,Chunwang Zou,Qimeng Liu,Lu Rong,Ben Yao,Zheng Lian,Qiuchi Li,Peng Zhang,Jing Qin

Main category: cs.CV

TL;DR: 论文通过提出‘视觉房间’论点,质疑多模态大模型(MLMs)是否真正‘理解’图像,并引入感知与认知的双层评估框架,揭示模型在感知任务表现良好但在理解讽刺时存在显著差距。

  • Motivation: 探讨MLMs是否真正理解图像内容,挑战‘感知能力等同于理解’的普遍假设。
  • Method: 提出双层评估框架(感知与认知),并构建高质量多模态讽刺数据集,评估8种SoTA MLMs。
  • Result: MLMs在感知任务表现良好,但在讽刺理解上平均错误率达16.1%,主要因情感推理、常识推断和上下文对齐不足。
  • Conclusion: 研究为‘视觉房间’论点提供实证支持,并提出MLMs的新评估范式。

[66] Holistic Large-Scale Scene Reconstruction via Mixed Gaussian Splatting

Chuandong Liu,Huijiao Wang,Lei Yu,Gui-Song Xia

Main category: cs.CV

TL;DR: MixGS提出了一种全局优化框架,用于大规模3D场景重建,解决了现有方法因分治策略导致的全局信息丢失和复杂参数调整问题。

  • Motivation: 现有的大规模场景重建方法依赖分治策略,导致全局信息丢失且需要复杂参数调整,MixGS旨在解决这些问题。
  • Method: MixGS通过将相机位姿和高斯属性整合为视图感知表示,并采用混合操作结合解码和原始高斯,实现全局一致性和局部保真。
  • Result: 实验表明,MixGS在大规模场景中实现了最先进的渲染质量和高效速度,显著降低了计算需求。
  • Conclusion: MixGS是一种高效的大规模3D场景重建方法,具有优异的渲染质量和计算效率。

[67] RSFAKE-1M: A Large-Scale Dataset for Detecting Diffusion-Generated Remote Sensing Forgeries

Zhihong Tan,Jiayi Wang,Huiying Shi,Binyuan Huang,Hongchen Wei,Zhenzhong Chen

Main category: cs.CV

TL;DR: 论文介绍了RSFAKE-1M数据集,用于检测基于扩散模型的伪造遥感图像,填补了现有研究的空白,并展示了其在提升检测方法性能上的潜力。

  • Motivation: 遥感图像在环境监测等领域至关重要,但现有伪造检测方法主要针对GAN生成图像或自然图像,缺乏对扩散模型伪造的研究。
  • Method: 构建了包含50万伪造和50万真实遥感图像的RSFAKE-1M数据集,使用10种扩散模型生成伪造图像,涵盖多种生成条件。
  • Result: 实验表明,当前方法对扩散模型伪造的遥感图像检测效果有限,而基于RSFAKE-1M训练的模型表现出更好的泛化性和鲁棒性。
  • Conclusion: RSFAKE-1M为遥感图像伪造检测领域的研究提供了重要基础,推动了下一代检测方法的发展。

[68] GenCAD-Self-Repairing: Feasibility Enhancement for 3D CAD Generation

Chikaha Tsuji,Enrique Flores Medina,Harshit Gupta,Md Ferdous Alam

Main category: cs.CV

TL;DR: GenCAD-Self-Repairing通过扩散引导和自修复流程,显著提高了生成CAD模型的可行性,解决了GenCAD生成不可行B-reps的问题。

  • Motivation: GenCAD生成约10%不可行的CAD设计,限制了其实际应用。研究旨在通过自修复机制提升生成模型的可行性。
  • Method: 采用扩散引导的潜在空间去噪和回归校正机制,优化不可行的CAD命令序列,同时保持几何精度。
  • Result: 成功将基线方法中三分之二的不可行设计转化为可行设计,显著提升可行性率,同时保持几何精度。
  • Conclusion: 该方法提高了生成CAD模型的可行性,扩展了高质量训练数据的可用性,增强了AI驱动CAD生成在制造、建筑和产品设计中的适用性。

[69] Federated Unsupervised Semantic Segmentation

Evangelos Charalampakis,Vasileios Mygdalis,Ioannis Pitas

Main category: cs.CV

TL;DR: FUSS框架首次实现了完全去中心化、无监督的联邦学习语义图像分割,通过特征和原型空间的一致性优化,显著优于传统方法。

  • Motivation: 探索联邦学习在无监督语义图像分割中的应用,解决分布式客户端特征表示和聚类中心对齐的挑战。
  • Method: 提出FUSS框架,结合局部分割头和共享语义中心,优化特征和原型空间的一致性。
  • Result: 在多种数据集上,FUSS表现优于局部训练和传统联邦学习算法。
  • Conclusion: FUSS为无监督联邦语义分割提供了有效解决方案,代码将公开以支持复现。

[70] TRACE: Trajectory-Constrained Concept Erasure in Diffusion Models

Finn Carter

Main category: cs.CV

TL;DR: TRACE是一种新方法,通过轨迹约束的注意力概念擦除技术,从扩散模型中移除特定概念,同时保持生成质量。

  • Motivation: 解决扩散模型生成不良内容(如色情、敏感身份、版权风格)的问题,确保隐私、公平和安全。
  • Method: 结合理论框架和微调过程,通过更新交叉注意力层和轨迹感知微调目标,在扩散过程中移除目标概念。
  • Result: 在多个基准测试中表现优异,超越现有方法(如ANT、EraseAnything、MACE),移除效果和输出质量均领先。
  • Conclusion: TRACE在概念擦除任务中表现出色,为扩散模型的安全应用提供了有效解决方案。

[71] Adversarial Semantic and Label Perturbation Attack for Pedestrian Attribute Recognition

Weizhe Kong,Xiao Wang,Ruichong Gao,Chenglong Li,Yu Zhang,Xing Yang,Yaowei Wang,Jin Tang

Main category: cs.CV

TL;DR: 本文提出了首个针对行人属性识别(PAR)的对抗攻击与防御框架,利用全局和局部攻击方法,并结合CLIP预训练模型,设计了一种语义偏移防御策略。

  • Motivation: 尽管PAR在深度学习推动下取得进展,但其抗干扰能力和潜在脆弱性尚未充分研究,本文旨在填补这一空白。
  • Method: 基于CLIP的PAR框架,采用多模态Transformer融合视觉和文本特征,通过对抗语义和标签扰动生成噪声(ASL-PAR),并设计语义偏移防御策略。
  • Result: 在数字和物理领域的多个数据集上验证了攻击与防御策略的有效性。
  • Conclusion: 提出的框架为PAR的对抗攻击与防御提供了新思路,代码将开源。

[72] Dimension-Reduction Attack! Video Generative Models are Experts on Controllable Image Synthesis

Hengyuan Cao,Yutong Feng,Biao Gong,Yijing Tian,Yunhong Lu,Chuang Liu,Bin Wang

Main category: cs.CV

TL;DR: 论文提出了一种视频到图像知识压缩与任务适应的范式DRA-Ctrl,利用视频模型的长程上下文建模能力支持图像生成任务。

  • Motivation: 探索训练好的高维视频生成模型是否能有效支持低维任务(如可控图像生成),以挖掘视频模型的潜力。
  • Method: 提出DRA-Ctrl范式,包括基于mixup的过渡策略和定制的注意力结构,以解决视频帧与图像生成的差异。
  • Result: 实验表明,改造后的视频模型在图像生成任务中表现优于直接训练的模型。
  • Conclusion: DRA-Ctrl展示了视频模型在更广泛视觉应用中的潜力,为跨模态统一生成模型奠定了基础。

[73] Fine-Tuning Next-Scale Visual Autoregressive Models with Group Relative Policy Optimization

Matteo Gallici,Haitz Sáez de Ocáriz Borde

Main category: cs.CV

TL;DR: 本文研究了使用强化学习(RL)微调预训练生成模型的方法,特别是Group Relative Policy Optimization(GRPO)在视觉自回归(VAR)模型中的应用,显著提升了图像质量和生成风格的控制能力。

  • Motivation: 通过RL微调生成模型,可以更好地对齐复杂的人类偏好,尤其是利用美学预测器和CLIP嵌入的奖励信号。
  • Method: 采用GRPO方法微调VAR模型,结合CLIP嵌入和RL驱动的探索,扩展模型的生成能力。
  • Result: 实验表明,该方法显著提升了图像质量,并能生成超出预训练数据分布的风格化图像。
  • Conclusion: RL微调对VAR模型既高效又有效,尤其适合在线采样,优于基于扩散的替代方法。

[74] DSAGL: Dual-Stream Attention-Guided Learning for Weakly Supervised Whole Slide Image Classification

Daoxi Cao,Hangbei Cheng,Yijin Li,Ruolin Zhou,Xinyi Li,Xuehan Zhang,Binwei Li,Xuancheng Gu,Xueyu Liu,Yongfei Wu

Main category: cs.CV

TL;DR: DSAGL是一种新型弱监督分类框架,通过双流设计和教师-学生架构解决全切片图像分类中的实例级模糊性和袋级语义一致性问题。

  • Motivation: 全切片图像(WSIs)因其超高分辨率和丰富语义内容对癌症诊断至关重要,但大尺寸和细粒度标注稀缺限制了传统监督学习的应用。
  • Method: DSAGL结合了教师-学生架构与双流设计,生成多尺度注意力伪标签并指导实例级学习,使用轻量级编码器VSSMamba和融合注意力模块FASA。
  • Result: 在CIFAR-10、NCT-CRC和TCGA-Lung数据集上,DSAGL表现优于现有MIL基线,具有更强的判别性能和鲁棒性。
  • Conclusion: DSAGL在弱监督下显著提升了全切片图像分类的性能,为医学图像分析提供了高效解决方案。

[75] Diffusion Sampling Path Tells More: An Efficient Plug-and-Play Strategy for Sample Filtering

Sixian Wang,Zhiwei Tang,Tsung-Hui Chang

Main category: cs.CV

TL;DR: 本文提出了一种名为CFG-Rejection的新方法,通过利用去噪轨迹中的累积分数差异(ASD)来早期过滤低质量样本,无需外部奖励信号或模型重训练。

  • Motivation: 扩散模型在采样过程中存在样本质量不一致的问题,现有方法(如DDPO和推理时对齐技术)计算成本高,限制了广泛应用。
  • Method: 通过分析去噪轨迹中条件与无条件分数的累积差异(ASD),发现其与样本质量强相关,并基于此设计了CFG-Rejection方法。
  • Result: 实验表明,CFG-Rejection显著提升了图像生成的质量,在人类偏好评分(HPSv2, PickScore)和基准测试(GenEval, DPG-Bench)中表现优异。
  • Conclusion: CFG-Rejection是一种高效、即插即用的方法,适用于多种生成任务,为高质量样本生成提供了新思路。

[76] Beyond Optimal Transport: Model-Aligned Coupling for Flow Matching

Yexiong Lin,Yu Yao,Tongliang Liu

Main category: cs.CV

TL;DR: Flow Matching (FM) 框架通过优化耦合方式提升生成质量和效率,提出 Model-Aligned Coupling (MAC) 方法,结合几何距离和模型偏好方向。

  • Motivation: 现有基于几何距离的耦合方法(如 Optimal Transport)可能不符合模型的偏好方向,导致难以学习直线轨迹。
  • Method: 提出 MAC 方法,通过结合几何距离和模型预测误差选择最优耦合,并采用 top-k 策略减少计算成本。
  • Result: 实验表明 MAC 在少步生成中显著提升质量和效率。
  • Conclusion: MAC 通过优化耦合选择,有效改善了 FM 框架的性能。

[77] Beam-Guided Knowledge Replay for Knowledge-Rich Image Captioning using Vision-Language Model

Reem AlJunaid,Muzammil Behzad

Main category: cs.CV

TL;DR: KRCapVLM是一个基于知识重放的图像描述框架,通过结合视觉语言模型、束搜索解码和注意力模块,提升了描述的多样性和知识识别能力。

  • Motivation: 现有图像描述模型生成的描述通常缺乏具体性和上下文深度,KRCapVLM旨在解决这一问题。
  • Method: 提出KRCapVLM框架,结合束搜索解码、注意力模块和训练调度器,以增强特征表示和训练稳定性。
  • Result: 模型在知识识别准确性和描述质量上均有显著提升,并能更好地泛化到未见过的知识概念。
  • Conclusion: KRCapVLM有效提升了生成有意义、基于知识的图像描述的能力。

[78] VideoReasonBench: Can MLLMs Perform Vision-Centric Complex Video Reasoning?

Yuanxin Liu,Kun Ouyang,Haoning Wu,Yi Liu,Lin Sui,Xinhao Li,Yan Zhong,Y. Charles,Xinyu Zhou,Xu Sun

Main category: cs.CV

TL;DR: 论文介绍了VideoReasonBench,一个用于评估视觉中心复杂视频推理的基准测试,填补了现有视频推理任务缺乏视觉内容依赖的空白。

  • Motivation: 现有视频理解任务缺乏深度推理需求,无法体现长链思维推理的优势,因此需要新的基准测试来评估视觉中心的复杂推理能力。
  • Method: 提出VideoReasonBench,包含视觉丰富且推理复杂的视频任务,评估三个递进层次的视频推理技能。
  • Result: 评估了18种多模态大语言模型(MLLMs),发现大多数在复杂视频推理上表现不佳,Gemini-2.5-Pro表现最佳(56.0%准确率)。
  • Conclusion: 扩展思维预算对VideoReasonBench性能提升至关重要,而现有视频基准测试中无显著效果。

[79] MCFNet: A Multimodal Collaborative Fusion Network for Fine-Grained Semantic Classification

Yang Qiao,Xiaoyu Zhong,Xiaofeng Gu,Zhiguo Yu

Main category: cs.CV

TL;DR: 提出了一种新型多模态协作融合网络(MCFNet),通过模态特定正则化和混合注意力机制提升细粒度分类性能。

  • Motivation: 多模态信息处理对图像分类性能提升至关重要,但传统方法难以捕捉模态间隐含依赖关系,限制了高精度分类任务的应用。
  • Method: MCFNet结合正则化融合模块和混合注意力机制,优化模态内特征表示和语义对齐;引入多模态决策分类模块,通过加权投票整合多损失函数。
  • Result: 在基准数据集上的实验表明,MCFNet显著提升了分类准确率。
  • Conclusion: MCFNet能有效建模跨模态语义,适用于细粒度分类任务。

[80] PAN-Crafter: Learning Modality-Consistent Alignment for PAN-Sharpening

Jeonghyeok Do,Sungpyo Kim,Geunhyuk Youk,Jaehyup Lee,Munchurl Kim

Main category: cs.CV

TL;DR: PAN-Crafter提出了一种解决PAN和MS图像模态不一致的框架,通过模态自适应重建和跨模态对齐注意力机制,显著提升了图像融合质量。

  • Motivation: 解决PAN和MS图像因传感器位置、采集时间和分辨率差异导致的跨模态不对齐问题,避免传统方法因假设完美对齐而导致的频谱失真和模糊。
  • Method: 提出模态自适应重建(MARs)和跨模态对齐注意力机制(CM3A),联合重建HRMS和PAN图像,并双向对齐纹理与结构。
  • Result: 在多个基准数据集上表现优于现有方法,推理速度快50.11倍,内存占用减少0.63倍,且在未见卫星数据集上表现稳健。
  • Conclusion: PAN-Crafter通过模态一致性对齐和自适应特征细化,显著提升了图像融合的精度和效率,具有强泛化能力。

[81] UniRL: Self-Improving Unified Multimodal Models via Supervised and Reinforcement Learning

Weijia Mao,Zhenheng Yang,Mike Zheng Shou

Main category: cs.CV

TL;DR: UniRL是一种自改进的后训练方法,无需外部图像数据,通过模型生成图像作为训练数据,优化生成和理解任务。

  • Motivation: 现有统一多模态大模型依赖大规模数据和计算,后训练方法常需外部数据或局限于特定任务。UniRL旨在解决这些问题。
  • Method: 采用自生成图像作为训练数据,结合监督微调(SFT)和Group Relative Policy Optimization(GRPO)优化模型。
  • Result: 在Show-o和Janus上评估,GenEval分数分别为0.77和0.65。
  • Conclusion: UniRL无需外部数据,提升任务性能并减少生成与理解的不平衡,仅需少量额外训练步骤。

[82] VModA: An Effective Framework for Adaptive NSFW Image Moderation

Han Bao,Qinying Wang,Zhi Chen,Qingming Li,Xuhong Zhang,Changjiang Li,Zonghui Wang,Shouling Ji,Wenzhi Chen

Main category: cs.CV

TL;DR: VModA框架通过适应多样化审核规则和处理复杂语义NSFW内容,显著提升检测准确性,并在实际场景中验证了其有效性。

  • Motivation: NSFW内容在社交网络上泛滥,现有检测方法难以应对复杂语义和多样化规则,亟需更有效的解决方案。
  • Method: 提出VModA框架,适应多样化审核规则,处理复杂语义NSFW内容,并通过实验验证其性能。
  • Result: VModA在NSFW检测中准确率提升54.3%,并在跨类别、场景和基础VLM中表现优异。
  • Conclusion: VModA为NSFW内容检测提供了高效且适应性强的解决方案,并在实际应用中验证了其价值。

[83] Robust and Annotation-Free Wound Segmentation on Noisy Real-World Pressure Ulcer Images: Towards Automated DESIGN-R\textsuperscript{\textregistered} Assessment

Yun-Cheng Tsai

Main category: cs.CV

TL;DR: 提出了一种结合YOLOv11n检测器和FUSegNet分割模型的高效标注流程,仅需500个标注框即可实现跨身体部位的伤口分割,显著提升性能。

  • Motivation: 现有模型如FUSegNet在非足部伤口上泛化能力不足,需高效标注方法以实现跨部位分割。
  • Method: 结合轻量级YOLOv11n检测器和预训练FUSegNet,无需像素级标注或微调,仅需500个标注框。
  • Result: 在三种伤口测试集上,平均IoU提升23个百分点,DESIGN-R尺寸估计准确率从71%提升至94%。
  • Conclusion: 该方法无需微调即可跨身体部位泛化,为临床伤口评分自动化提供了高效解决方案。

[84] Point or Line? Using Line-based Representation for Panoptic Symbol Spotting in CAD Drawings

Xingguang Wei,Haomin Wang,Shenglong Ye,Ruifeng Luo,Yanting Zhang,Lixin Gu,Jifeng Dai,Yu Qiao,Wenhai Wang,Hongjie Zhang

Main category: cs.CV

TL;DR: VecFormer提出了一种基于线条表示的新方法,用于CAD图纸中的全景符号识别,解决了现有方法的高计算成本和几何信息丢失问题,并通过分支融合细化模块提升了预测一致性。

  • Motivation: 现有方法在CAD图纸的全景符号识别中存在高计算成本、泛化性差和几何信息丢失的问题。
  • Method: VecFormer采用基于线条的表示方法,保留几何连续性,并引入分支融合细化模块整合实例和语义预测。
  • Result: 实验表明,VecFormer在PQ指标上达到91.1,Stuff-PQ分别提升9.6和21.2分,优于现有方法。
  • Conclusion: 线条表示是矢量图形理解的有效基础,VecFormer在性能和效率上均表现优异。

[85] Bridging Geometric and Semantic Foundation Models for Generalized Monocular Depth Estimation

Sanggyun Ma,Wonjoon Choi,Jihun Park,Jaeyeul Kim,Seunghun Lee,Jiwan Seo,Sunghoon Im

Main category: cs.CV

TL;DR: BriGeS是一种融合几何和语义信息的深度估计方法,通过Bridging Gate和Attention Temperature Scaling技术提升性能,减少资源需求。

  • Motivation: 提升单目深度估计(MDE)在复杂场景中的表现,结合几何和语义信息的互补优势。
  • Method: 利用预训练基础模型,仅训练Bridging Gate,结合注意力温度调整技术优化注意力机制。
  • Result: 在多个数据集上表现优于现有方法,能有效处理复杂结构和重叠物体。
  • Conclusion: BriGeS通过高效融合几何和语义信息,显著提升了MDE的性能和泛化能力。

[86] Video Editing for Audio-Visual Dubbing

Binyamin Manela,Sharon Gannot,Ethan Fetyaya

Main category: cs.CV

TL;DR: EdiDub是一种新颖的视觉配音框架,通过内容感知编辑任务改进现有方法,显著提升了身份保持和同步性。

  • Motivation: 当前视觉配音方法存在局限性,如生成的面部动作难以无缝融入原始场景,或丢弃重要视觉信息(如遮挡和光照变化)。
  • Method: EdiDub将视觉配音重新定义为内容感知编辑任务,采用专用条件方案保留原始视频上下文,实现精确修改而非简单复制。
  • Result: 在多个基准测试中,EdiDub显著提升了身份保持和同步性,并在人类评估中表现出更高的同步性和视觉自然性。
  • Conclusion: 内容感知编辑方法优于传统生成或修复方法,尤其在保持复杂视觉元素和准确唇同步方面表现突出。

[87] UrbanCraft: Urban View Extrapolation via Hierarchical Sem-Geometric Priors

Tianhang Wang,Fan Lu,Sanqing Qu,Guo Yu,Shihang Du,Ya Wu,Yuan Huang,Guang Chen

Main category: cs.CV

TL;DR: UrbanCraft通过分层语义几何表示解决外推视图合成问题,结合粗粒度场景级和细粒度实例级先验,提出HSG-VSD方法提升性能。

  • Motivation: 现有方法局限于内插视图合成,无法处理训练相机分布外的外推视图,限制了泛化能力。
  • Method: 利用部分可观测场景重建语义几何基元,结合场景级和实例级先验,提出HSG-VSD方法整合约束。
  • Result: 定性和定量实验验证了方法在外推视图合成问题上的有效性。
  • Conclusion: UrbanCraft通过分层表示和HSG-VSD方法显著提升了外推视图合成的性能。

[88] Adaptive Spatial Augmentation for Semi-supervised Semantic Segmentation

Lingyan Ran,Yali Li,Tao Zhuo,Shizhou Zhang,Yanning Zhang

Main category: cs.CV

TL;DR: 论文提出了一种自适应空间增强方法(ASAug),用于半监督语义分割(SSSS),通过动态调整增强策略提升模型性能。

  • Motivation: 现有强增强方法主要关注基于强度的扰动,对语义掩码影响较小,而空间增强在SSSS中被忽视。本文旨在验证空间增强的有效性,并提出自适应策略。
  • Method: 提出自适应空间增强(ASAug),基于熵动态调整每张图像的空间增强方式,如平移和旋转。
  • Result: ASAug作为可插拔模块,显著提升现有方法性能,在PASCAL VOC 2012、Cityscapes和COCO等数据集上达到SOTA。
  • Conclusion: 空间增强在半监督语义分割中有效,自适应策略进一步提升了模型泛化能力。

[89] VITON-DRR: Details Retention Virtual Try-on via Non-rigid Registration

Ben Li,Minqi Li,Jie Ren,Kaibing Zhang

Main category: cs.CV

TL;DR: 本文提出了一种基于非刚性配准的虚拟试穿方法(VITON-DRR),通过双金字塔结构特征提取器和变形模块,显著提升了服装细节保留和变形准确性。

  • Motivation: 虚拟试穿在电商和时尚行业具有巨大应用潜力,但现有方法在服装细节保留和变形准确性上存在不足。
  • Method: 使用双金字塔结构特征提取器重建人体语义分割,设计变形模块提取服装关键点并通过非刚性配准算法变形,最后通过图像合成模块生成试穿图像。
  • Result: 实验表明,VITON-DRR在变形准确性和细节保留上优于现有方法。
  • Conclusion: VITON-DRR通过非刚性配准和双金字塔结构,显著提升了虚拟试穿的质量。

[90] CryoCCD: Conditional Cycle-consistent Diffusion with Biophysical Modeling for Cryo-EM Synthesis

Runmin Jiang,Genpei Zhang,Yuntian Yang,Siqi Wu,Yuheng Zhang,Wanyue Feng,Yizhou Zhao,Xi Xiao,Xiao Wang,Tianyang Wang,Xingjian Li,Min Xu

Main category: cs.CV

TL;DR: CryoCCD是一个结合生物物理建模与生成技术的合成框架,用于生成多尺度冷冻电镜显微图像,解决了现有方法在结构多样性和噪声复杂性上的不足。

  • Motivation: 冷冻电镜(cryo-EM)的高质量标注数据稀缺,限制了模型的开发。现有合成数据方法难以同时捕捉生物样本的结构多样性和复杂的空间变化噪声。
  • Method: CryoCCD通过生物物理建模和生成技术生成多尺度显微图像,结合条件扩散模型和对比学习生成真实噪声。
  • Result: 实验表明,CryoCCD生成的图像结构准确,并在下游任务(如颗粒提取和重建)中优于现有方法。
  • Conclusion: CryoCCD为冷冻电镜数据合成提供了更真实的解决方案,显著提升了下游分析性能。

[91] A Reverse Causal Framework to Mitigate Spurious Correlations for Debiasing Scene Graph Generation

Shuzhou Sun,Li Liu,Tianpeng Liu,Shuaifeng Zhi,Ming-Ming Cheng,Janne Heikkilä,Yongxiang Liu

Main category: cs.CV

TL;DR: 论文提出了一种反向因果框架(RcSGG),通过重构因果链结构来消除场景图生成(SGG)中的虚假相关性,解决了现有两阶段SGG框架中的偏差问题。

  • Motivation: 现有两阶段SGG框架的因果链结构会导致检测器输入与最终预测之间的虚假相关性,引发尾部关系被预测为头部关系、前景关系被预测为背景关系等偏差。
  • Method: 提出RcSGG框架,采用主动反向估计(ARE)干预混淆变量,并通过最大信息采样(MIS)增强反向因果估计。
  • Result: 在多个基准测试和不同SGG框架中,RcSGG实现了最先进的平均召回率。
  • Conclusion: RcSGG有效消除了SGG框架中的虚假相关性,显著减少了偏差。

[92] LAFR: Efficient Diffusion-based Blind Face Restoration via Latent Codebook Alignment Adapter

Runyi Li,Bin Chen,Jian Zhang,Radu Timofte

Main category: cs.CV

TL;DR: 论文提出了一种名为LAFR的潜在空间适配器,用于对齐低质量(LQ)和高质量(HQ)图像的潜在分布,从而在不改变原始VAE的情况下实现语义一致的扩散采样。通过多级恢复损失和轻量级微调,LAFR在保持身份的同时高效恢复人脸图像。

  • Motivation: 现有方法在低质量图像恢复中常因VAE模块的语义不对齐而效果不佳,且重新训练VAE编码器计算成本高。
  • Method: 提出LAFR,一种基于代码本的潜在空间适配器,结合多级恢复损失和轻量级扩散先验微调。
  • Result: 在合成和真实世界的人脸恢复基准测试中,LAFR实现了高质量且身份保持的恢复,训练时间减少70%。
  • Conclusion: LAFR是一种高效且有效的方法,能够在低质量输入下实现高质量的人脸恢复,同时显著降低计算成本。

[93] Revisiting Reweighted Risk for Calibration: AURC, Focal Loss, and Inverse Focal Loss

Han Zhou,Sebastian G. Gruber,Teodora Popordanoska,Matthew B. Blaschko

Main category: cs.CV

TL;DR: 本文研究了深度学习中常见的加权风险函数,揭示了重加权方案与校准误差之间的理论联系,并提出了一种基于AURC的正则化损失函数,优化后能提升模型校准性能。

  • Motivation: 现有文献中提出的重加权风险函数(如focal loss和inverse focal loss)在加权方案上差异显著,且与校准性能的关系不明确。本文旨在建立这些重加权方案与校准误差之间的理论联系。
  • Method: 通过选择性分类范式,将校准误差最小化与AURC优化联系起来,提出了一种基于SoftRank技术的可微分正则化AURC损失函数。
  • Result: 实验表明,基于AURC的损失函数在多种数据集和模型架构上均表现出竞争力的类校准性能。
  • Conclusion: 优化正则化AURC能有效提升模型校准性能,且其加权策略与inverse focal loss相似,表明focal loss在校准目标上缺乏理论依据。

[94] A Divide-and-Conquer Approach for Global Orientation of Non-Watertight Scene-Level Point Clouds Using 0-1 Integer Optimization

Zhuodong Li,Fei Hou,Wencheng Wang,Xuequan Lu,Ying He

Main category: cs.CV

TL;DR: DACPO提出了一种分而治之的策略,用于大规模非封闭点云的定向问题,通过分块处理和全局优化实现高效定向。

  • Motivation: 现有方法主要针对封闭的物体级3D模型,而大规模非封闭3D场景的定向问题尚未充分研究。
  • Method: DACPO将点云分割为小块,通过随机贪婪法和泊松表面重建两步处理每块,再通过图模型和全局优化整合结果。
  • Result: 实验表明DACPO在大规模非封闭场景中表现优异,优于现有方法。
  • Conclusion: DACPO为解决大规模非封闭点云定向问题提供了高效且鲁棒的解决方案。

[95] TimePoint: Accelerated Time Series Alignment via Self-Supervised Keypoint and Descriptor Learning

Ron Shapira Weber,Shahar Ben Ishay,Andrey Lavrinenko,Shahaf E. Finder,Oren Freifeld

Main category: cs.CV

TL;DR: TimePoint是一种自监督方法,通过从合成数据中学习关键点和描述符,显著加速DTW对齐并提高准确性。

  • Motivation: 解决动态时间规整(DTW)在时间序列对齐中扩展性差和对噪声敏感的问题。
  • Method: 结合1D微分同胚和全卷积/小波卷积架构,从合成数据中提取关键点和描述符,稀疏表示后应用DTW。
  • Result: TimePoint比标准DTW更快、更准确,且在合成数据上训练后能泛化到真实数据。
  • Conclusion: TimePoint为时间序列分析提供了可扩展的解决方案。

[96] PhysicsNeRF: Physics-Guided 3D Reconstruction from Sparse Views

Mohamed Rayan Barhdadi,Hasan Kurban,Hussein Alnuweiri

Main category: cs.CV

TL;DR: PhysicsNeRF是一个基于物理约束的3D重建框架,通过四种互补约束改进NeRF,在稀疏视图下表现优异。

  • Motivation: 解决标准NeRF在稀疏视图下重建失败的问题,提升3D重建的物理一致性和泛化能力。
  • Method: 引入深度排序、RegNeRF风格一致性、稀疏先验和跨视图对齐四种约束,采用0.67M参数的小型架构。
  • Result: 仅用8视图即达到21.4 dB平均PSNR,优于现有方法,同时揭示了稀疏重建的5.7-6.2 dB泛化差距。
  • Conclusion: PhysicsNeRF为交互和仿真提供了物理一致的3D表示,并阐明了约束NeRF模型的表达力-泛化权衡。

[97] VCapsBench: A Large-scale Fine-grained Benchmark for Video Caption Quality Evaluation

Shi-Xue Zhang,Hongfa Wang,Duojun Huang,Xin Li,Xiaobin Zhu,Xu-Cheng Yin

Main category: cs.CV

TL;DR: VCapsBench是一个细粒度视频字幕评估基准,包含5K+视频和100K+问答对,用于提升文本到视频生成任务的质量。

  • Motivation: 现有基准在细粒度评估(尤其是空间-时间细节)上不足,影响视频生成质量。
  • Method: 引入VCapsBench,包含21个细粒度维度的标注,提出三个新指标(AR、IR、CR)和基于LLM的自动评估流程。
  • Result: VCapsBench提供了可操作的优化建议,有助于提升文本到视频模型的鲁棒性。
  • Conclusion: VCapsBench填补了细粒度评估的空白,推动了文本到视频生成技术的发展。

[98] R2I-Bench: Benchmarking Reasoning-Driven Text-to-Image Generation

Kaijie Chen,Zihao Lin,Zhiyang Xu,Ying Shen,Yuguang Yao,Joy Rimchala,Jiaxin Zhang,Lifu Huang

Main category: cs.CV

TL;DR: R2I-Bench是一个专门评估文本到图像生成中推理能力的基准测试,包含多种推理类别,并设计了细粒度评估指标R2IScore。实验表明当前模型的推理能力有限。

  • Motivation: 现有文本到图像生成模型在推理能力方面表现不足,缺乏系统评估,因此需要开发一个专门的基准测试。
  • Method: 设计了R2I-Bench基准测试,包含多种推理类别,并开发了R2IScore评估指标,用于细粒度评估文本图像对齐、推理准确性和图像质量。
  • Result: 实验显示16种代表性模型的推理能力普遍有限,表明需要更强大的推理感知架构。
  • Conclusion: R2I-Bench为未来文本到图像系统的推理能力评估提供了重要工具,并揭示了当前模型的不足。

[99] VAU-R1: Advancing Video Anomaly Understanding via Reinforcement Fine-Tuning

Liyun Zhu,Qixiang Chen,Xi Shen,Xiaodong Cun

Main category: cs.CV

TL;DR: VAU-R1是一个基于多模态大语言模型(MLLMs)的高效框架,通过强化微调(RFT)提升视频异常理解能力,并提出了首个视频异常推理基准VAU-Bench。

  • Motivation: 视频异常理解(VAU)在智能城市、安全监控等领域至关重要,但现有方法缺乏可解释性且难以捕捉异常事件的因果和上下文关系,同时缺乏评估推理能力的综合基准。
  • Method: 提出VAU-R1框架,利用MLLMs和RFT增强异常推理能力,并设计VAU-Bench基准,包含多选QA、详细解释、时间标注和描述性标题。
  • Result: 实验表明,VAU-R1显著提高了问答准确性、时间定位和推理连贯性。
  • Conclusion: VAU-R1和VAU-Bench为可解释和推理感知的视频异常理解奠定了基础。

[100] OmniEarth-Bench: Towards Holistic Evaluation of Earth's Six Spheres and Cross-Spheres Interactions with Multimodal Observational Earth Data

Fengxiang Wang,Mingshuo Chen,Xuming He,YiFan Zhang,Feng Liu,Zijie Guo,Zhenghao Hu,Jiong Wang,Jingyi Xu,Zhangrui Li,Fenghua Ling,Ben Fei,Weijia Li,Long Lan,Wenjing Yang,Wenlong Zhang,Lei Bai

Main category: cs.CV

TL;DR: OmniEarth-Bench是一个全面的多模态基准测试,覆盖地球科学的六个领域及其交互,包含100个专家策划的评估维度,现有先进模型在其上表现不佳。

  • Motivation: 现有地球科学多模态学习的基准测试在系统覆盖和跨领域交互方面存在局限性,需要更全面的评估工具。
  • Method: 利用卫星和实地观测数据,整合29,779个标注,涵盖感知、推理、科学知识推理和链式推理四个层级,通过专家和众包协作完成标注。
  • Result: 9个先进多模态模型在OmniEarth-Bench上表现不佳,最高准确率不足35%,某些跨领域任务中GPT-4o准确率为0%。
  • Conclusion: OmniEarth-Bench为地球科学AI设立了新标准,推动了科学发现和环境监测的实际应用。

[101] CLIP-AE: CLIP-assisted Cross-view Audio-Visual Enhancement for Unsupervised Temporal Action Localization

Rui Xia,Dan Jiang,Quan Zhang,Ke Zhang,Chun Yuan

Main category: cs.CV

TL;DR: 提出了一种基于CLIP的跨视角视听增强的无监督时序动作定位方法,解决了现有方法过度依赖高区分区域和视觉模态的问题。

  • Motivation: 现有监督或弱监督方法依赖标注数据,费时费力;无监督方法面临特征过度聚焦和模态单一问题。
  • Method: 结合视觉语言预训练和分类预训练协作增强,引入音频感知,提出自监督跨视角学习范式。
  • Result: 在两个公开数据集上实验,模型优于多个先进方法。
  • Conclusion: 方法有效解决了无监督时序动作定位的挑战,提升了性能。

[102] Hallo4: High-Fidelity Dynamic Portrait Animation via Direct Preference Optimization and Temporal Motion Modulation

Jiahao Cui,Yan Chen,Mingwang Xu,Hanlin Shang,Yuxuan Chen,Yun Zhan,Zilong Dong,Yao Yao,Jingdong Wang,Siyu Zhu

Main category: cs.CV

TL;DR: 提出了一种基于人类偏好对齐的扩散框架,通过直接偏好优化和时间运动调制,显著提升了肖像动画的唇音同步、表情生动性和身体运动连贯性。

  • Motivation: 解决音频和骨骼运动驱动的肖像动画在唇音同步、自然表情和高保真身体运动动态方面的挑战。
  • Method: 采用直接偏好优化和时间运动调制,前者利用人类偏好数据集对齐生成结果,后者通过时间通道重新分布和比例特征扩展解决时空分辨率不匹配问题。
  • Result: 实验显示在唇音同步、表情生动性和身体运动连贯性上明显优于基线方法,人类偏好指标也有显著提升。
  • Conclusion: 提出的框架有效提升了肖像动画的质量和自然度,代码已开源。

[103] Position Paper: Metadata Enrichment Model: Integrating Neural Networks and Semantic Knowledge Graphs for Cultural Heritage Applications

Jan Ignatowicz,Krzysztof Kutt,Grzegorz J. Nalepa

Main category: cs.CV

TL;DR: 本文提出了一种结合神经网络与语义技术的元数据丰富模型(MEM),用于提升文化遗产数字化中的结构特征提取与语义互操作性。

  • Motivation: 文化遗产数字化的元数据不足限制了其可访问性和跨机构协作,现有神经网络模型在特定领域(如手稿和古版书)的应用缺乏针对性方法。
  • Method: 提出MEM框架,结合计算机视觉模型、大语言模型和知识图谱,通过多层视觉机制(MVM)动态检测嵌套特征。
  • Result: 在Jagiellonian数字图书馆的古版书数据集上验证了MEM的潜力,并发布了105页手稿的标注数据集。
  • Conclusion: MEM为人工智能与语义技术在文化遗产研究中的实践应用提供了灵活可扩展的方法。

[104] Qwen Look Again: Guiding Vision-Language Reasoning Models to Re-attention Visual Information

Xu Chu,Xinrong Chen,Guanyu Wang,Zhijie Tan,Kui Huang,Wenyu Lv,Tong Mo,Weiping Li

Main category: cs.CV

TL;DR: Qwen-LA通过引入视觉-文本反思过程,减少视觉语言推理模型中的幻觉问题,提升性能。

  • Motivation: 长推理过程导致视觉信息被稀释,引发幻觉,现有文本反思方法不足以解决此问题。
  • Method: 提出Qwen-LA模型,结合BRPO强化学习方法,引入视觉令牌COPY和ROUTE机制。
  • Result: 在多个视觉QA数据集上表现领先,显著减少幻觉。
  • Conclusion: Qwen-LA通过视觉-文本反思有效提升视觉注意力,减少幻觉。

[105] Uni-MuMER: Unified Multi-Task Fine-Tuning of Vision-Language Model for Handwritten Mathematical Expression Recognition

Yu Li,Jin Jiang,Jianhua Zhu,Shuai Peng,Baole Wei,Yuxuan Zhou,Liangcai Gao

Main category: cs.CV

TL;DR: Uni-MuMER通过微调预训练视觉语言模型(VLM)解决手写数学表达式识别(HMER)问题,无需修改架构,整合了三种数据驱动任务,实现了新的最佳性能。

  • Motivation: HMER因符号布局自由和手写风格多变而具有挑战性,现有方法难以整合成统一框架,而预训练VLM的跨任务泛化能力为此提供了可能。
  • Method: Uni-MuMER通过Tree-CoT(结构化空间推理)、EDL(减少相似字符混淆)和SC(提升长表达式一致性)三种任务微调VLM。
  • Result: 在CROHME和HME100K数据集上,Uni-MuMER性能超越SSAN和Gemini2.5-flash,分别提升16.31%和24.42%。
  • Conclusion: Uni-MuMER展示了VLM在HMER任务中的潜力,无需架构修改即可实现高性能,且代码和模型已开源。

[106] Weakly-supervised Localization of Manipulated Image Regions Using Multi-resolution Learned Features

Ziyong Wang,Charith Abhayaratne

Main category: cs.CV

TL;DR: 提出了一种弱监督方法,结合图像级检测网络和预训练分割模型,无需像素级标注即可定位图像篡改区域。

  • Motivation: 数字图像增长迅速,现有深度学习方法在可解释性和定位篡改区域方面表现不足,且缺乏像素级标注。
  • Method: 基于WCBnet生成多视角特征图,结合预训练分割模型(如DeepLab、SegmentAnything)细化定位,并使用贝叶斯推断增强。
  • Result: 实验证明该方法有效,无需像素级标签即可定位篡改区域。
  • Conclusion: 弱监督方法在图像篡改定位中具有可行性。

[107] Jigsaw-R1: A Study of Rule-based Visual Reinforcement Learning with Jigsaw Puzzles

Zifu Wang,Junyi Zhu,Bo Tang,Zhiyu Li,Feiyu Xiong,Jiaqian Yu,Matthew B. Blaschko

Main category: cs.CV

TL;DR: 本文研究了基于规则的视觉强化学习(RL)在拼图任务中的应用,发现多模态大语言模型(MLLMs)通过微调可以从随机猜测提升到近乎完美的准确性,并能泛化到复杂任务。RL比监督微调(SFT)表现更好,但初始SFT可能阻碍后续RL优化。

  • Motivation: 探索基于规则的视觉RL在多模态学习中的表现,特别是在拼图任务中,以填补文本领域与视觉任务之间的研究空白。
  • Method: 使用拼图作为结构化实验框架,对比RL和SFT的表现,分析模型的泛化能力和推理模式。
  • Result: MLLMs通过微调显著提升性能,并能泛化到复杂任务;RL比SFT更有效,但初始SFT可能对RL优化不利。
  • Conclusion: 拼图任务为视觉RL研究提供了有价值的见解,但结论可能因任务而异。代码已开源。

[108] DeepChest: Dynamic Gradient-Free Task Weighting for Effective Multi-Task Learning in Chest X-ray Classification

Youssef Mohamed,Noran Mohamed,Khaled Abouhashad,Feilong Tang,Sara Atito,Shoaib Jameel,Imran Razzak,Ahmed B. Zaky

Main category: cs.CV

TL;DR: DeepChest是一种动态任务加权框架,用于多标签胸部X光分类,通过性能驱动的权重机制提高效率和准确性。

  • Motivation: 解决多任务学习中任务贡献平衡的挑战,特别是在医学影像领域。
  • Method: 提出DeepChest框架,基于任务特定损失趋势分析动态调整任务权重,无需梯度访问,降低内存使用并加速训练。
  • Result: 在大型CXR数据集上,DeepChest比现有方法准确率提高7%,并显著减少任务损失。
  • Conclusion: DeepChest为医学诊断中的深度学习提供了更高效和实用的解决方案。

[109] Bridging Classical and Modern Computer Vision: PerceptiveNet for Tree Crown Semantic Segmentation

Georgios Voulgaris

Main category: cs.CV

TL;DR: 提出PerceptiveNet模型,结合Log-Gabor卷积层和宽感受野主干网络,显著提升树冠语义分割精度,并在多个数据集上验证其泛化能力。

  • Motivation: 树冠语义分割在森林管理和生态研究中至关重要,但传统方法和现有深度学习模型难以应对复杂的森林冠层特征。
  • Method: 提出PerceptiveNet,包含可训练的Log-Gabor卷积层和宽感受野主干网络,并通过实验比较不同卷积层效果。
  • Result: PerceptiveNet在树冠数据集上表现优异,同时在多个基准数据集上展现出泛化能力。
  • Conclusion: PerceptiveNet通过结合Log-Gabor和宽感受野设计,显著提升了语义分割性能,具有广泛的应用潜力。

[110] A Comprehensive Evaluation of Multi-Modal Large Language Models for Endoscopy Analysis

Shengyuan Liu,Boyun Zheng,Wenting Chen,Zhihao Peng,Zhenfei Yin,Jing Shao,Jiancong Hu,Yixuan Yuan

Main category: cs.CV

TL;DR: EndoBench是一个全面评估多模态大语言模型(MLLMs)在内窥镜实践中的基准测试,涵盖多种场景和任务,揭示模型与人类专家间的差距。

  • Motivation: 现有基准测试局限于特定内窥镜场景和少量临床任务,无法反映真实世界的多样性和临床需求。
  • Method: EndoBench包括4种内窥镜场景、12项临床任务和5级视觉提示粒度,生成6,832个验证问题,评估23种MLLMs。
  • Result: 专有MLLMs优于开源和医学专用模型,但仍落后于人类专家;医学领域监督微调显著提升任务准确性。
  • Conclusion: EndoBench为内窥镜MLLMs评估设立新标准,显示当前模型与专家临床推理间的差距。

[111] One Trajectory, One Token: Grounded Video Tokenization via Panoptic Sub-object Trajectory

Chenhao Zheng,Jieyu Zhang,Mohammadreza Salehi,Ziqi Gao,Vishnu Iyengar,Norimasa Kobori,Quan Kong,Ranjay Krishna

Main category: cs.CV

TL;DR: 提出了一种基于对象轨迹的视频标记化方法TrajViT,显著减少冗余标记并保持性能,优于传统空间-时间ViT。

  • Motivation: 现有视频标记化方法因使用固定空间-时间块导致标记冗余和计算低效,尤其在相机移动时效果不佳。
  • Method: 提出基于全景子对象轨迹的标记化方法TrajViT,通过对比学习训练,生成语义丰富的标记。
  • Result: TrajViT在视频文本检索任务中比ViT3D提升6% top-5召回率,标记减少10倍;在VideoQA任务中平均提升5.2%,训练速度加快4倍,推理FLOPs减少18倍。
  • Conclusion: TrajViT是首个在多样化视频分析任务中一致优于ViT3D的高效编码器,具有鲁棒性和可扩展性。

[112] Color Image Set Recognition Based on Quaternionic Grassmannians

Xiang Xiang Wang,Tin-Yau Tam

Main category: cs.CV

TL;DR: 提出了一种基于四元数Grassmannian的彩色图像集识别方法,通过四元数捕捉颜色信息,并构建分类框架。实验显示方法有效,但稳定性有待改进。

  • Motivation: 利用四元数的能力更有效地捕捉彩色图像集中的颜色信息,提升识别效果。
  • Method: 将彩色图像集表示为四元数Grassmannian上的点,并计算最短距离用于分类。
  • Result: 在ETH-80数据集上取得了良好的识别效果。
  • Conclusion: 方法有效但稳定性不足,未来可进一步优化。

[113] Comparing the Effects of Persistence Barcodes Aggregation and Feature Concatenation on Medical Imaging

Dashti A. Ali,Richard K. G. Do,William R. Jarnagin,Aras T. Asaad,Amber L. Simpson

Main category: cs.CV

TL;DR: 比较了两种基于持久同调的特征向量构建方法在医学图像分类中的效果,发现特征拼接方法性能更优。

  • Motivation: 传统特征提取方法对输入变化敏感,持久同调(PH)能提供稳定的拓扑特征,但如何构建最终特征向量尚需研究。
  • Method: 通过聚合持久条形码或拼接特征向量两种方法构建特征,并在多种医学图像数据集上进行比较。
  • Result: 特征拼接方法保留了更多细节拓扑信息,分类性能更好。
  • Conclusion: 在类似实验中,特征拼接是更优的选择。

[114] Radiant Triangle Soup with Soft Connectivity Forces for 3D Reconstruction and Novel View Synthesis

Nathaniel Burgdorfer,Philippos Mordohai

Main category: cs.CV

TL;DR: 提出了一种基于三角形的推理时优化框架,用于表示场景的几何和外观,优于当前广泛使用的高斯泼溅方法。

  • Motivation: 三角形作为几何表示单元,能够支持更丰富的颜色插值,并利用现有算法基础设施,同时自然形成表面。
  • Method: 开发了一种针对三角形汤(不连接的半透明三角形集合)的场景优化算法,并在优化过程中引入三角形间的连接力,以促进3D表面的连续性。
  • Result: 在代表性3D重建数据集上实验,展示了具有竞争力的光度和几何结果。
  • Conclusion: 三角形作为几何表示单元在3D场景优化中具有优势,能够实现更好的颜色插值和表面连续性。

[115] VideoREPA: Learning Physics for Video Generation through Relational Alignment with Foundation Models

Xiangdong Zhang,Jiaqi Liao,Shaofeng Zhang,Fanqing Meng,Xiangpeng Wan,Junchi Yan,Yu Cheng

Main category: cs.CV

TL;DR: VideoREPA框架通过Token Relation Distillation损失,将视频理解基础模型的物理知识注入T2V模型,显著提升生成视频的物理合理性。

  • Motivation: 当前T2V模型在生成物理合理内容方面表现不足,其物理理解能力落后于视频自监督学习方法。
  • Method: 提出VideoREPA框架,利用Token Relation Distillation损失对齐token级关系,将物理知识从视频理解基础模型蒸馏到T2V模型。
  • Result: VideoREPA显著提升了基线方法CogVideoX的物理常识,在相关基准测试中表现优异。
  • Conclusion: VideoREPA是首个针对T2V模型微调并注入物理知识的REPA方法,有效改善了生成视频的物理合理性。

[116] D-AR: Diffusion via Autoregressive Models

Ziteng Gao,Mike Zheng Shou

Main category: cs.CV

TL;DR: D-AR将图像扩散过程转化为标准自回归模型的下一个标记预测任务,利用离散标记序列实现图像生成,支持预览和零样本布局控制合成。

  • Motivation: 探索如何将图像扩散过程与自回归模型结合,以实现更高效的视觉合成方法。
  • Method: 设计标记器将图像转换为离散标记序列,利用扩散特性实现从粗到细的自回归建模,无需修改底层设计。
  • Result: 在ImageNet基准测试中,使用775M Llama主干和256个离散标记,达到2.09 FID。
  • Conclusion: D-AR为视觉合成的统一自回归架构提供了新思路,尤其是结合大型语言模型。

[117] OpenUni: A Simple Baseline for Unified Multimodal Understanding and Generation

Size Wu,Zhonghua Wu,Zerui Gong,Qingyi Tao,Sheng Jin,Qinyue Li,Wei Li,Chen Change Loy

Main category: cs.CV

TL;DR: OpenUni是一个轻量级、开源的基线模型,用于统一多模态理解和生成,通过高效训练策略和简单架构实现高质量图像生成和卓越性能。

  • Motivation: 受统一模型学习实践的启发,旨在简化多模态任务中的训练复杂性和开销。
  • Method: 采用可学习查询和轻量级Transformer连接器,结合现成的多模态大语言模型和扩散模型。
  • Result: 生成高质量、指令对齐的图像,并在标准基准测试中表现优异,仅需1.1B和3.1B激活参数。
  • Conclusion: OpenUni为开放研究和社区进步提供了完整的模型权重、训练代码和数据集支持。

[118] Grounded Reinforcement Learning for Visual Reasoning

Gabriel Sarch,Snigdha Saha,Naitik Khandelwal,Ayush Jain,Michael J. Tarr,Aviral Kumar,Katerina Fragkiadaki

Main category: cs.CV

TL;DR: ViGoRL是一种通过强化学习(RL)训练的多模态模型,专注于视觉推理任务,通过空间坐标锚定推理步骤,显著提升了视觉推理性能。

  • Motivation: 视觉推理任务需要模型具备视觉注意力、感知输入解释和空间证据抽象推理能力,传统方法难以满足这些需求。
  • Method: ViGoRL采用多轮RL框架,动态缩放视觉坐标,并结合视觉反馈,实现细粒度推理。
  • Result: 在多个视觉推理基准测试中,ViGoRL表现优于传统RL和监督微调方法,尤其在视觉搜索和小GUI元素定位任务中表现突出。
  • Conclusion: 视觉锚定强化学习是一种有效提升模型通用视觉推理能力的方法。

[119] VF-Eval: Evaluating Multimodal LLMs for Generating Feedback on AIGC Videos

Tingyu Song,Tongyan Hu,Guo Gan,Yilun Zhao

Main category: cs.CV

TL;DR: 论文提出了一个名为VF-Eval的新基准,用于全面评估多模态大语言模型(MLLMs)在AI生成内容(AIGC)视频上的能力,发现现有模型表现不佳,并展示了其在改进视频生成中的应用。

  • Motivation: 现有研究多关注自然视频,忽视了合成视频(如AIGC)的评估,且MLLMs在解释AIGC视频方面的能力尚未充分探索。
  • Method: 提出VF-Eval基准,包含四项任务(连贯性验证、错误意识、错误类型检测和推理评估),评估了13种前沿MLLMs,并进行了RePrompt实验。
  • Result: 即使表现最佳的GPT-4.1模型在所有任务中也难以保持一致性,表明基准的挑战性。RePrompt实验显示,通过更贴近人类反馈的MLLMs可以改进视频生成。
  • Conclusion: VF-Eval揭示了MLLMs在AIGC视频上的局限性,同时展示了其在视频生成中的潜在应用价值。

[120] DA-VPT: Semantic-Guided Visual Prompt Tuning for Vision Transformers

Li Ren,Chen Chen,Liqiang Wang,Kien Hua

Main category: cs.CV

TL;DR: 本文提出了一种名为DA-VPT的新框架,通过度量学习技术研究提示分布对微调性能的影响,并利用语义信息指导提示学习,从而提升ViT模型在下游视觉任务中的性能。

  • Motivation: 探索提示与图像标记之间的基本关联和分布,以改进视觉提示调优(VPT)的效果。
  • Method: 提出DA-VPT框架,通过学习类相关语义数据的距离度量来指导提示的分布。
  • Result: 在识别和分割任务中,DA-VPT显著提升了ViT模型的微调效果和效率。
  • Conclusion: DA-VPT通过语义信息指导提示学习,为ViT模型的高效微调提供了新思路。

[121] CLDTracker: A Comprehensive Language Description for Visual Tracking

Mohamad Alansari,Sajid Javed,Iyyakutti Iyappan Ganapathi,Sara Alansari,Muzammal Naseer

Main category: cs.CV

TL;DR: CLDTracker提出了一种基于视觉语言模型(VLM)的双分支架构,通过丰富的文本描述和高效的视觉-语言特征融合,解决了VOT任务中的动态变化和语义理解问题,并在多个基准测试中达到SOTA性能。

  • Motivation: 传统跟踪器依赖视觉线索,难以应对动态外观变化、遮挡和背景干扰。视觉语言模型(VLMs)在语义理解方面表现出潜力,但直接应用于VOT存在文本表示不足、特征融合低效和缺乏时间建模等问题。
  • Method: CLDTracker采用双分支架构(文本分支和视觉分支),利用CLIP和GPT-4V生成丰富的文本描述,并结合语义和上下文信息,优化视觉-语言特征融合。
  • Result: 在六个标准VOT基准测试中,CLDTracker实现了SOTA性能,验证了其方法的有效性。
  • Conclusion: CLDTracker通过结合视觉语言模型的强大语义能力和动态适应性,显著提升了VOT任务的鲁棒性和准确性。

[122] Skin Lesion Phenotyping via Nested Multi-modal Contrastive Learning

Dionysis Christopoulos,Sotiris Spanos,Eirini Baltzi,Valsamis Ntouskos,Konstantinos Karantzalos

Main category: cs.CV

TL;DR: SLIMP通过结合皮肤病变图像和元数据,采用嵌套对比学习方法提升皮肤病变分类性能。

  • Motivation: 解决仅依赖图像进行皮肤病变分类时因成像条件和缺乏临床背景导致的挑战。
  • Method: 结合病变图像、个体元数据和患者级元数据,采用嵌套对比学习。
  • Result: 相比其他预训练策略,SLIMP在下游皮肤病变分类任务中表现更优。
  • Conclusion: SLIMP通过充分利用多模态数据,提升了皮肤病变分类的表示质量。

[123] AnySplat: Feed-forward 3D Gaussian Splatting from Unconstrained Views

Lihan Jiang,Yucheng Mao,Linning Xu,Tao Lu,Kerui Ren,Yichen Jin,Xudong Xu,Mulin Yu,Jiangmiao Pang,Feng Zhao,Dahua Lin,Bo Dai

Main category: cs.CV

TL;DR: AnySplat是一种前馈网络,用于从未校准的图像集合中进行新视角合成,无需已知相机姿态或每场景优化,且计算效率高。

  • Motivation: 传统神经渲染方法需要已知相机姿态和每场景优化,而现有前馈方法在密集视图下计算负担重。AnySplat旨在解决这些问题。
  • Method: 通过单次前向传播预测3D高斯基元(编码场景几何和外观)及每张输入图像的相机内外参数。
  • Result: 在零样本评估中,AnySplat在稀疏和密集视图场景中均达到与姿态感知基线相当的质量,且超越现有无姿态方法,同时显著降低渲染延迟。
  • Conclusion: AnySplat为无约束捕获场景下的实时新视角合成提供了高效解决方案。

[124] FMG-Det: Foundation Model Guided Robust Object Detection

Darryl Hannan,Timothy Doster,Henry Kvinge,Adam Attarian,Yijing Watkins

Main category: cs.CV

TL;DR: FMG-Det提出了一种简单高效的方法,用于在噪声标注下训练目标检测模型,结合多实例学习框架和预处理的标签校正流程,显著提升了性能。

  • Motivation: 目标检测任务中标注的主观性导致数据质量不一致,噪声标注会显著降低模型性能,尤其在少样本场景下。
  • Method: 结合多实例学习(MIL)框架和基于基础模型的预处理流程,校正标签并对检测头进行微调。
  • Result: 在多个数据集上实现了最先进的性能,适用于标准及少样本场景,方法更简单高效。
  • Conclusion: FMG-Det通过标签校正和模型调整,有效解决了噪声标注问题,提升了目标检测的性能和鲁棒性。

[125] PixelThink: Towards Efficient Chain-of-Pixel Reasoning

Song Wang,Gongfan Fang,Lingdong Kong,Xiangtai Li,Jianyun Xu,Sheng Yang,Qiang Li,Jianke Zhu,Xinchao Wang

Main category: cs.CV

TL;DR: PixelThink通过结合任务难度和模型不确定性调节推理长度,提升推理效率和分割性能。

  • Motivation: 现有方法在泛化性和推理效率上表现不足,需要改进。
  • Method: 提出PixelThink,结合外部任务难度和内部模型不确定性,通过强化学习调节推理生成。
  • Result: 实验表明,该方法提高了推理效率和分割性能。
  • Conclusion: PixelThink为高效可解释的多模态理解提供了新视角。

[126] ZPressor: Bottleneck-Aware Compression for Scalable Feed-Forward 3DGS

Weijie Wang,Donny Y. Chen,Zeyu Zhang,Duochao Shi,Akide Liu,Bohan Zhuang

Main category: cs.CV

TL;DR: ZPressor是一种轻量级模块,通过压缩多视图输入提升3D高斯泼溅模型的扩展性和性能。

  • Motivation: 解决前馈3D高斯泼溅模型因编码器容量限制导致的性能下降或内存消耗过高问题。
  • Method: 利用信息瓶颈原则,通过分区视图和交叉注意力压缩信息,形成紧凑潜在状态Z。
  • Result: 在DL3DV-10K和RealEstate10K基准测试中,ZPressor显著提升了模型性能和鲁棒性。
  • Conclusion: ZPressor为前馈3D高斯泼溅模型提供了一种高效的多视图压缩解决方案。

[127] How Animals Dance (When You're Not Looking)

Xiaojuan Wang,Aleksander Holynski,Brian Curless,Ira Kemelmacher,Steve Seitz

Main category: cs.CV

TL;DR: 提出了一种基于关键帧的框架,用于生成音乐同步、舞蹈感知的动物舞蹈视频,通过图优化和视频扩散模型实现。

  • Motivation: 解决从少量关键帧生成高质量动物舞蹈视频的挑战,同时满足音乐同步和舞蹈对称性需求。
  • Method: 使用文本到图像提示或GPT-4o生成关键帧,通过图优化确定最优关键帧结构,并利用视频扩散模型合成中间帧。
  • Result: 仅需6个输入关键帧即可生成长达30秒的舞蹈视频,适用于多种动物和音乐。
  • Conclusion: 该方法高效且灵活,能够生成高质量的动物舞蹈视频,满足音乐同步和舞蹈对称性要求。

[128] LayerPeeler: Autoregressive Peeling for Layer-wise Image Vectorization

Ronghuan Wu,Wanchao Su,Jing Liao

Main category: cs.CV

TL;DR: LayerPeeler是一种新颖的分层图像矢量化方法,通过渐进简化策略解决现有工具在处理遮挡区域时的局限性。

  • Motivation: 现有图像矢量化工具在遮挡区域处理上表现不佳,导致形状不完整或碎片化,影响可编辑性。
  • Method: LayerPeeler采用自回归剥离策略,结合视觉语言模型构建层图,并通过微调图像扩散模型移除遮挡层。
  • Result: 实验表明,LayerPeeler在路径语义、几何规则性和视觉保真度上显著优于现有技术。
  • Conclusion: LayerPeeler通过创新方法提升了图像矢量化的质量和灵活性。

[129] MAGREF: Masked Guidance for Any-Reference Video Generation

Yufan Deng,Xun Guo,Yuanyang Yin,Jacob Zhiyuan Fang,Yiding Yang,Yizhi Wang,Shenghai Yuan,Angtian Wang,Bo Liu,Haibin Huang,Chongyang Ma

Main category: cs.CV

TL;DR: MAGREF是一个基于掩码引导的统一框架,用于多参考视频生成,解决了多主体一致性和生成质量的挑战。

  • Motivation: 当前基于多参考主体的视频生成在保持多主体一致性和高质量生成方面仍面临挑战。
  • Method: 提出了区域感知动态掩码机制和像素级通道连接机制,以灵活处理多主体并保留外观特征。
  • Result: 模型在多主体场景中实现了最先进的生成质量,优于现有开源和商业基线。
  • Conclusion: MAGREF为可扩展、可控且高保真的多主体视频合成铺平了道路。

[130] DarkDiff: Advancing Low-Light Raw Enhancement by Retasking Diffusion Models for Camera ISP

Amber Yijia Zheng,Yu Zhang,Jun Hu,Raymond A. Yeh,Chen Chen

Main category: cs.CV

TL;DR: 提出了一种利用预训练生成扩散模型增强低光原始图像的新框架,优于现有方法。

  • Motivation: 解决现有回归模型在低光条件下导致图像过度平滑或阴影过深的问题。
  • Method: 通过重新调整预训练的生成扩散模型,结合相机ISP,增强低光原始图像。
  • Result: 在三个低光原始图像基准测试中,感知质量优于现有技术。
  • Conclusion: 该方法有效提升了低光图像的细节和色彩准确性。

[131] Boosting Domain Incremental Learning: Selecting the Optimal Parameters is All You Need

Qiang Wang,Xiang Song,Yuhang He,Jizhou Han,Chenhao Ding,Xinyuan Gao,Yihong Gong

Main category: cs.CV

TL;DR: SOYO是一个轻量级框架,通过GMC和DFR优化PIDIL中的域选择,提升动态环境下的模型适应性。

  • Motivation: 解决现有PIDIL方法在域和类别增多时参数选择准确性不足的问题。
  • Method: 引入GMC和DFR存储与平衡先验域数据,结合MDFN增强域特征提取,支持多种PEFT方法。
  • Result: 在六个基准测试中表现优于现有基线,验证了其鲁棒性和适应性。
  • Conclusion: SOYO在复杂动态环境中表现出色,代码已开源。

[132] To Trust Or Not To Trust Your Vision-Language Model's Prediction

Hao Dong,Moru Liu,Jian Liang,Eleni Chatzi,Olga Fink

Main category: cs.CV

TL;DR: TrustVLM是一个无需训练的框架,旨在提升视觉语言模型(VLM)预测的可信度,通过利用图像嵌入空间的模态差异来改进误分类检测。

  • Motivation: VLM在零样本和迁移学习中表现优异,但在安全关键领域容易产生自信但错误的预测,存在严重风险。
  • Method: 提出一种新颖的置信度评分函数,利用图像嵌入空间中概念的区分性表示来检测误分类。
  • Result: 在17个数据集上验证,性能显著提升(AURC提高51.87%,AUROC提高9.14%,FPR95降低32.42%)。
  • Conclusion: TrustVLM无需重新训练即可提升VLM的可靠性,为其在现实应用中的安全部署铺平道路。

[133] Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence

Diankun Wu,Fangfu Liu,Yi-Hsin Hung,Yueqi Duan

Main category: cs.CV

TL;DR: Spatial-MLLM是一种新型框架,通过纯2D输入实现空间推理,无需依赖3D或2.5D数据。

  • Motivation: 现有3D多模态大语言模型依赖额外3D或2.5D数据,限制了其在仅有2D输入场景中的应用。
  • Method: 提出双编码器架构,结合语义特征和3D结构特征,并采用空间感知帧采样策略。
  • Result: 在多种真实数据集上取得最先进的视觉空间理解和推理性能。
  • Conclusion: Spatial-MLLM为纯2D输入的空间推理提供了高效解决方案。

[134] ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks

Akashah Shabbir,Muhammad Akhtar Munir,Akshay Dudhane,Muhammad Umer Sheikh,Muhammad Haris Khan,Paolo Fraccaro,Juan Bernabe Moreno,Fahad Shahbaz Khan,Salman Khan

Main category: cs.CV

TL;DR: ThinkGeo是一个评估LLM驱动代理在遥感任务中工具使用能力的基准测试,涵盖多种实际应用场景,并揭示不同模型在工具准确性和规划一致性上的差异。

  • Motivation: 现有评估多关注通用或多模态场景,缺乏针对复杂遥感用例的领域特定基准。
  • Method: 设计ThinkGeo基准,包含人类策划的查询和多样化工具集,采用ReAct式交互循环评估开源和闭源LLM。
  • Result: 在436个结构化任务中评估模型,发现工具准确性和规划一致性存在显著差异。
  • Conclusion: ThinkGeo为评估工具增强LLM在遥感中的空间推理能力提供了首个广泛测试平台。

[135] Rooms from Motion: Un-posed Indoor 3D Object Detection as Localization and Mapping

Justin Lazarow,Kai Kang,Afshin Dehghan

Main category: cs.CV

TL;DR: 论文提出了一种基于物体中心的3D目标检测方法Rooms from Motion (RfM),通过无姿态图像集合估计相机姿态和目标轨迹,生成全局语义3D物体地图。

  • Motivation: 现有3D目标检测方法依赖全局信息和已知相机姿态,而RfM旨在解决无姿态图像的3D检测问题。
  • Method: 用基于3D框的物体中心匹配器替代传统的2D关键点匹配器,估计相机姿态和目标轨迹,优化全局3D框。
  • Result: RfM在CA-1M和ScanNet++上表现优于基于点和多视图的方法,生成更高质量的地图。
  • Conclusion: RfM提供了一种稀疏且参数化的物体中心表示,扩展了场景级3D检测的应用范围。

[136] Impromptu VLA: Open Weights and Open Data for Driving Vision-Language-Action Models

Haohan Chi,Huan-ang Gao,Ziming Liu,Jianing Liu,Chenyu Liu,Jinwei Li,Kaisen Yang,Yangcheng Yu,Zeda Wang,Wenyi Li,Leichen Wang,Xingtao Hu,Hao Sun,Hang Zhao,Hao Zhao

Main category: cs.CV

TL;DR: Impromptu VLA提出了一种针对自动驾驶中Vision-Language-Action模型的改进方法,通过构建包含8万多个视频片段的数据集,显著提升了模型性能。

  • Motivation: 现有VLA模型在非结构化极端场景中表现不佳,缺乏针对性基准测试。
  • Method: 构建Impromptu VLA数据集,包含8万多个视频片段,基于四种非结构化类别分类,并添加规划和动作标注。
  • Result: 实验显示,使用该数据集的VLA模型在多个基准测试中表现显著提升,包括闭环NeuroNCAP分数和开环nuScenes轨迹预测。
  • Conclusion: Impromptu VLA数据集有效提升了VLA模型的性能,并提供了诊断工具以改进感知、预测和规划能力。

[137] LoRAShop: Training-Free Multi-Concept Image Generation and Editing with Rectified Flow Transformers

Yusuf Dalva,Hidir Yesiltepe,Pinar Yanardag

Main category: cs.CV

TL;DR: LoRAShop是一个多概念图像编辑框架,利用LoRA模型实现个性化编辑,无需重新训练。

  • Motivation: 现有方法在多概念编辑中难以保持身份一致性和全局上下文,LoRAShop旨在解决这一问题。
  • Method: 通过分析扩散变换器中的特征交互模式,生成解耦的潜在掩码,并在特定区域混合LoRA权重。
  • Result: 实验表明,LoRAShop在身份保持上优于基线方法,且能无缝整合多个概念。
  • Conclusion: LoRAShop为个性化扩散模型提供了实用工具,推动了视觉创作和快速迭代的新方向。

[138] Sketch Down the FLOPs: Towards Efficient Networks for Human Sketch

Aneeshan Sain,Subhajit Maity,Pinaki Nath Chowdhury,Subhadeep Koley,Ayan Kumar Bhunia,Yi-Zhe Song

Main category: cs.CV

TL;DR: 论文提出两种针对草图数据的组件,通过跨模态知识蒸馏和基于强化学习的画布选择器,显著降低了计算量(FLOPs减少99.37%),同时保持准确性。

  • Motivation: 现有高效轻量级模型适用于照片但不适用于草图,缺乏针对草图数据的专门研究。
  • Method: 1. 跨模态知识蒸馏网络,将照片高效网络适配于草图;2. 基于强化学习的画布选择器,动态调整抽象级别。
  • Result: FLOPs减少99.37%(从40.18G降至0.254G),准确性接近(33.03% vs 32.77%)。
  • Conclusion: 提出的方法成功实现了草图数据的高效推理,计算量甚至低于最佳照片模型。

[139] MMSI-Bench: A Benchmark for Multi-Image Spatial Intelligence

Sihan Yang,Runsen Xu,Yiman Xie,Sizhe Yang,Mo Li,Jingli Lin,Chenming Zhu,Xiaochen Chen,Haodong Duan,Xiangyu Yue,Dahua Lin,Tai Wang,Jiangmiao Pang

Main category: cs.CV

TL;DR: MMSI-Bench是一个专注于多图像空间智能的VQA基准测试,包含1000个挑战性问题,评估了34个MLLM模型,发现现有模型与人类表现差距显著。

  • Motivation: 现有基准测试仅关注单图像关系,无法满足现实世界对多图像空间推理的需求。
  • Method: 通过6名3D视觉专家耗时300多小时,从12万张图像中精心设计1000个多选问题,并评估34个MLLM模型。
  • Result: 开源模型最高准确率约30%,OpenAI的o3推理模型达40%,而人类表现达97%。
  • Conclusion: MMSI-Bench揭示了多图像空间智能的挑战性,并为未来研究提供了自动化错误分析工具。

[140] Argus: Vision-Centric Reasoning with Grounded Chain-of-Thought

Yunze Man,De-An Huang,Guilin Liu,Shiwei Sheng,Shilong Liu,Liang-Yan Gui,Jan Kautz,Yu-Xiong Wang,Zhiding Yu

Main category: cs.CV

TL;DR: Argus通过视觉注意力机制改进多模态大语言模型在视觉中心任务中的表现。

  • Motivation: 多模态大语言模型在需要精确视觉聚焦的任务中表现不佳,Argus旨在解决这一问题。
  • Method: 采用对象为中心的视觉链式思维信号作为视觉注意力机制,支持目标导向的多模态推理。
  • Result: 在多种基准测试中,Argus在多模态推理和对象定位任务中表现优异。
  • Conclusion: Argus证明了语言引导的视觉区域关注在多模态智能中的重要性,推动了视觉中心视角的发展。

[141] TextRegion: Text-Aligned Region Tokens from Frozen Image-Text Models

Yao Xiao,Qiqian Fu,Heyi Tao,Yuqun Wu,Zhen Zhu,Derek Hoiem

Main category: cs.CV

TL;DR: TextRegion结合图像文本模型和SAM2,生成文本对齐的区域标记,实现详细视觉理解,并在多项任务中表现优异。

  • Motivation: 图像文本模型在详细视觉理解上表现不足,而SAM2能提供精确空间边界,结合两者优势以提升性能。
  • Method: 提出TextRegion框架,无需训练,结合图像文本模型和SAM2生成文本对齐的区域标记。
  • Result: 在开放世界语义分割等任务中表现优异,兼容多种图像文本模型。
  • Conclusion: TextRegion简单高效,具有广泛适用性和扩展性。

eess.SY

[142] CF-DETR: Coarse-to-Fine Transformer for Real-Time Object Detection

Woojin Shin,Donghwa Kang,Byeongyun Park,Brent Byunghoon Kang,Jinkyu Lee,Hyeongboo Baek

Main category: eess.SY

TL;DR: CF-DETR是一种针对自动驾驶感知系统的Transformer架构,通过粗到细的推理和实时调度框架NPFP**,满足实时性和高精度的双重需求。

  • Motivation: 现有实时DNN调度方法未能充分利用Transformer特性,导致多任务执行时难以同时满足实时性和高精度要求,尤其是对安全关键对象。
  • Method: 提出CF-DETR系统,采用粗到细推理(A1)、选择性细推理(A2)和多级批量推理(A3)策略,结合NPFP**调度框架(A4)动态调整资源分配。
  • Result: 在服务器、GPU嵌入式平台和实际AV平台上验证,CF-DETR在NPFP**策略下实现了严格的实时性保证,并显著提高了整体和关键对象的检测精度。
  • Conclusion: CF-DETR通过结合Transformer特性和专用调度框架,成功解决了自动驾驶感知系统中的实时性和精度挑战。

q-bio.NC

[143] ConnectomeDiffuser: Generative AI Enables Brain Network Construction from Diffusion Tensor Imaging

Xuhang Chen,Michael Kwok-Po Ng,Kim-Fung Tsang,Chi-Man Pun,Shuqiang Wang

Main category: q-bio.NC

TL;DR: 提出了一种名为ConnectomeDiffuser的新型扩散框架,用于从DTI数据自动构建脑网络,克服现有方法的局限性,并提高诊断准确性。

  • Motivation: 现有方法存在操作主观性、工作流程繁琐以及无法捕捉复杂拓扑特征和疾病特异性生物标志物的问题,需要一种更高效、自动化的解决方案。
  • Method: 结合模板网络(提取拓扑特征)、扩散模型(生成脑网络)和图卷积网络分类器(整合疾病标志物),实现端到端的脑网络构建。
  • Result: 在两种神经退行性疾病数据集上验证,性能显著优于其他方法,能够更敏感地分析脑网络的个体差异。
  • Conclusion: ConnectomeDiffuser为神经退行性疾病的诊断和研究提供了更准确、通用的测量框架。

cs.HC

[144] MAC-Gaze: Motion-Aware Continual Calibration for Mobile Gaze Tracking

Yaxiong Lei,Mingyue Zhao,Yuheng Wang,Shijing He,Yusuke Sugano,Yafei Wang,Kaixing Zhao,Mohamed Khamis,Juan Ye

Main category: cs.HC

TL;DR: MAC-Gaze是一种基于运动感知的持续校准方法,利用智能手机IMU传感器和持续学习技术,动态调整视线跟踪模型以适应不同姿势和设备方向。

  • Motivation: 传统一次性校准方法无法适应动态变化的使用场景,导致性能下降。
  • Method: 结合预训练的视觉视线估计器和IMU活动识别模型,采用聚类混合决策机制触发重新校准,并使用基于回放的持续学习避免灾难性遗忘。
  • Result: 在RGBDGaze和MotionGaze数据集上,视线估计误差分别降低19.9%和31.7%。
  • Conclusion: MAC-Gaze为移动场景下的视线跟踪提供了鲁棒的解决方案。

cs.GR

[145] Quality assessment of 3D human animation: Subjective and objective evaluation

Rim Rekik,Stefanie Wuhrer,Ludovic Hoyet,Katja Zibrek,Anne-Hélène Olivier

Main category: cs.GR

TL;DR: 提出了一种基于数据驱动的虚拟人动画质量评估方法,通过用户研究生成数据集并训练线性回归模型,性能优于现有深度学习方法。

  • Motivation: 虚拟人动画质量评估缺乏非参数化模型的评估方法,现有方法多基于任务导向,需开发更通用的评估指标。
  • Method: 1. 生成虚拟人动画数据集并收集主观真实感评分;2. 基于数据集训练线性回归模型预测感知评分。
  • Result: 线性回归模型在数据集上的预测准确率达到90%,优于现有深度学习基线。
  • Conclusion: 提出的数据驱动框架为虚拟人动画质量评估提供了有效工具,性能优于现有方法。

cs.RO

[146] Anomalies by Synthesis: Anomaly Detection using Generative Diffusion Models for Off-Road Navigation

Siddharth Ancha,Sunshine Jiang,Travis Manderson,Laura Brandt,Yilun Du,Philip R. Osteen,Nicholas Roy

Main category: cs.RO

TL;DR: 论文提出了一种基于生成扩散模型的像素级异常检测方法,通过分析合成图像中的修改部分来检测异常。

  • Motivation: 在非结构化和越野环境中,机器人需要检测与训练数据分布不符的异常,以确保安全导航。
  • Method: 使用生成扩散模型合成去除异常的图像,并通过分析修改部分检测异常;提出了一种新的引导扩散推理方法。
  • Result: 方法无需重新训练或微调,可直接集成到现有工作流中,实现了准确的异常检测。
  • Conclusion: 该方法为越野导航提供了一种有效的异常检测解决方案。

[147] TrackVLA: Embodied Visual Tracking in the Wild

Shaoan Wang,Jiazhao Zhang,Minghan Li,Jiahang Liu,Anqi Li,Kui Wu,Fangwei Zhong,Junzhi Yu,Zhizheng Zhang,He Wang

Main category: cs.RO

TL;DR: TrackVLA是一种视觉-语言-动作(VLA)模型,通过结合目标识别和轨迹规划,解决了动态环境中视觉跟踪的挑战,并在实验中表现出色。

  • Motivation: 动态环境中的视觉跟踪需要同时处理目标识别和轨迹规划,现有方法通常模块化分离这两者,导致性能受限。
  • Method: TrackVLA利用共享的LLM骨干网络,结合语言建模头和基于锚点的扩散模型,实现目标识别与轨迹规划的协同学习。
  • Result: TrackVLA在合成和真实环境中均表现出SOTA性能,零样本测试中显著优于现有方法,并在高动态和遮挡场景中保持鲁棒性。
  • Conclusion: TrackVLA通过协同学习目标识别和轨迹规划,显著提升了视觉跟踪的性能和泛化能力。

[148] Autoregressive Meta-Actions for Unified Controllable Trajectory Generation

Jianbo Zhao,Taiyu Ban,Xiyang Wang,Qibin Zhou,Hangning Zhou,Zhihao Liu,Mu Yang,Lei Liu,Bin Li

Main category: cs.RO

TL;DR: 论文提出了一种基于自回归元动作的轨迹生成方法,解决了传统方法中元动作与轨迹时间不对齐的问题,提升了轨迹预测的适应性和响应性。

  • Motivation: 现有自动驾驶系统中,元动作与轨迹的时间不对齐导致任务连贯性差和模型性能受限,需要一种更精确的元动作定义方法。
  • Method: 通过将长间隔元动作分解为帧级元动作,结合自回归预测与轨迹生成,实现严格对齐;并采用分阶段预训练分离运动动力学与决策控制学习。
  • Result: 实验验证了框架的有效性,显著提升了轨迹适应性和动态决策响应能力。
  • Conclusion: 该方法为自动驾驶系统提供了一种统一且精确的轨迹生成框架,具有灵活性和模块化优势。

[149] Mobi-π: Mobilizing Your Robot Learning Policy

Jingyun Yang,Isabella Huang,Brandon Vu,Max Bajracharya,Rika Antonova,Jeannette Bohg

Main category: cs.RO

TL;DR: 论文提出了一种解决视觉运动策略在新环境中泛化能力不足的方法,通过优化机器人基座姿态以匹配训练数据分布,而不需重新训练策略。

  • Motivation: 现有视觉运动策略在训练时受限于固定的机器人位置和摄像头视角,导致在新环境中泛化能力差,尤其是精确任务。
  • Method: 提出Mobi-π框架,包括评估指标、模拟任务、可视化工具和基线方法,并利用3D高斯泼溅和采样优化优化基座姿态。
  • Result: 提出的方法在仿真和真实环境中均优于基线,验证了其有效性。
  • Conclusion: 政策动员方法通过优化基座姿态,显著提升了策略在新环境中的泛化能力,且与现有方法兼容。

cs.CL

[150] Can LLMs Deceive CLIP? Benchmarking Adversarial Compositionality of Pre-trained Multimodal Representation via Text Updates

Jaewoo Ahn,Heeseung Yun,Dayoon Ko,Gunhee Kim

Main category: cs.CL

TL;DR: 论文提出了一种多模态对抗组合性(MAC)基准,利用大语言模型生成欺骗性文本样本,评估多模态表示的组合性漏洞,并通过自训练方法提升零样本性能。

  • Motivation: 预训练多模态表示(如CLIP)虽强大,但存在组合性漏洞,导致反直觉判断。研究旨在揭示并改进这些漏洞。
  • Method: 引入MAC基准,利用LLMs生成欺骗性文本样本,采用拒绝采样微调和多样性促进过滤的自训练方法。
  • Result: 使用较小语言模型(如Llama-3.1-8B)的方法在多模态表示(图像、视频、音频)中表现出色,提升了攻击成功率和样本多样性。
  • Conclusion: MAC基准和自训练方法有效揭示了多模态表示的组合性漏洞,为零样本方法的改进提供了新方向。

[151] NegVQA: Can Vision Language Models Understand Negation?

Yuhui Zhang,Yuchang Su,Yiming Liu,Serena Yeung-Levy

Main category: cs.CL

TL;DR: NegVQA是一个评估视觉语言模型(VLMs)理解否定能力的视觉问答基准,包含7,379个二选一问题。研究发现现有VLMs在否定问题上表现显著下降,并揭示了模型规模与性能的U型关系。

  • Motivation: 评估VLMs在否定理解上的能力,以填补其在关键应用中的潜在缺陷。
  • Method: 利用大型语言模型生成现有VQA数据集的否定版本问题,构建NegVQA基准,并评估20种先进VLMs的表现。
  • Result: VLMs在否定问题上表现显著下降,且模型规模与性能呈U型关系。
  • Conclusion: NegVQA揭示了VLMs在否定理解上的不足,为未来模型开发提供了方向。

[152] Puzzled by Puzzles: When Vision-Language Models Can't Take a Hint

Heekyung Lee,Jiaxin Ge,Tsung-Han Wu,Minwoo Kang,Trevor Darrell,David M. Chan

Main category: cs.CL

TL;DR: 论文研究了视觉语言模型(VLMs)在解决Rebus谜题(一种通过图像、空间排列和符号替代编码语言的视觉谜题)时的能力,发现VLMs在简单视觉线索上表现尚可,但在需要抽象推理和视觉隐喻的任务中表现不佳。

  • Motivation: Rebus谜题对VLMs提出了独特挑战,因为它们需要多模态抽象、符号推理以及对文化、语音和语言双关的理解。论文旨在评估当代VLMs在这类任务中的表现。
  • Method: 构建了一个手工生成和标注的多样化Rebus谜题基准,涵盖从简单图像替换到空间依赖线索的谜题,并分析不同VLMs的表现。
  • Result: VLMs在解码简单视觉线索时表现出一定能力,但在需要抽象推理、横向思维和视觉隐喻理解的任务中表现显著不足。
  • Conclusion: 当前VLMs在解决需要复杂多模态推理的Rebus谜题时仍有局限性,未来研究需进一步提升其抽象和符号推理能力。

cs.LG

[153] Test-time augmentation improves efficiency in conformal prediction

Divya Shanmugam,Helen Lu,Swami Sankaranarayanan,John Guttag

Main category: cs.LG

TL;DR: 测试时增强(TTA)可减少保形分类器生成的预测集大小,提升效率且无需重新训练模型。

  • Motivation: 保形分类器生成的预测集通常过大且缺乏信息性,影响实用性。
  • Method: 通过测试时增强(TTA)引入归纳偏置,结合多种保形评分方法,无需模型重新训练。
  • Result: 预测集大小平均减少10%-14%,并在多种数据集、模型和分布偏移下验证有效性。
  • Conclusion: TTA是保形分类流程中的有效补充,灵活且计算高效。

[154] Number of Clusters in a Dataset: A Regularized K-means Approach

Behzad Kamgar-Parsi,Behrooz Kamgar-Parsi

Main category: cs.LG

TL;DR: 论文研究了正则化k-means算法中关键超参数λ的设定问题,提出了基于理想簇假设的严格边界,并分析了加性和乘性正则化方法的优缺点。

  • Motivation: 在无标签数据集中确定有意义的簇数是一个重要问题,但目前缺乏设定正则化超参数λ的原则性指导。
  • Method: 假设簇为理想簇(d维球体),推导了λ的严格边界,并比较了加性和乘性正则化k-means算法的表现。
  • Result: 实验表明加性正则化常产生多解,而乘性正则化在特定情况下能减少解的模糊性。
  • Conclusion: 论文为λ的设定提供了理论依据,并展示了正则化k-means算法在簇偏离理想假设时的性能。

[155] Diverse Prototypical Ensembles Improve Robustness to Subpopulation Shift

Minh Nguyen Nhat To,Paul F RWilson,Viet Nguyen,Mohamed Harmanani,Michael Cooper,Fahimeh Fooladgar,Purang Abolmaesumi,Parvin Mousavi,Rahul G. Krishnan

Main category: cs.LG

TL;DR: 论文提出了一种名为Diverse Prototypical Ensembles(DPEs)的方法,通过替换标准线性分类层为原型分类器的混合体,以自适应地捕捉子群体风险,解决了子群体偏移问题。

  • Motivation: 子群体偏移会导致机器学习模型性能下降,现有方法依赖对子群体数量和性质的假设及标注,而这些信息在现实数据中往往不可得。
  • Method: 使用多样化的分类器集合,将特征提取网络的线性分类层替换为原型分类器的混合体,每个分类器专注于不同特征和样本。
  • Result: 在九个真实数据集上的实验表明,DPEs在最差组准确率上优于现有方法。
  • Conclusion: DPEs提供了一种无需子群体标注的有效解决方案,适用于多种子群体偏移场景。

[156] Pseudo Multi-Source Domain Generalization: Bridging the Gap Between Single and Multi-Source Domain Generalization

Shohei Enomoto

Main category: cs.LG

TL;DR: 论文提出了一种名为PMDG的新框架,通过风格迁移和数据增强技术从单一源域生成多个伪域,解决了多源域泛化(MDG)在实际应用中的数据集构建难题。

  • Motivation: 解决深度学习模型在数据分布变化时性能下降的问题,同时避免构建多域数据集的高成本和困难。
  • Method: 利用风格迁移和数据增强技术从单一源域生成伪多域数据集,结合现有MDG算法进行训练。
  • Result: 实验表明PMDG性能与MDG正相关,且伪域在数据充足时可匹配或超越真实多域性能。
  • Conclusion: PMDG为单源域泛化提供了一种实用解决方案,为未来域泛化研究提供了新思路。

[157] Buffer-free Class-Incremental Learning with Out-of-Distribution Detection

Srishti Gupta,Daniele Angioni,Maura Pintor,Ambra Demontis,Lea Schönherr,Battista Biggio,Fabio Roli

Main category: cs.LG

TL;DR: 论文提出了一种无需记忆缓冲区的后处理OOD检测方法,用于开放世界中的类增量学习,性能与基于缓冲区的方法相当甚至更优。

  • Motivation: 解决开放世界场景下类增量学习中隐私、可扩展性和训练时间的问题,避免依赖记忆缓冲区。
  • Method: 分析后处理OOD检测方法,验证其在推理时替代缓冲区的能力。
  • Result: 在CIFAR-10、CIFAR-100和Tiny ImageNet上,该方法性能与缓冲区方法相当或更优。
  • Conclusion: 后处理OOD检测方法为高效且隐私保护的开放世界类增量学习提供了新思路。

[158] Network Inversion for Uncertainty-Aware Out-of-Distribution Detection

Pirzada Suhail,Rehna Afroz,Amit Sethi

Main category: cs.LG

TL;DR: 提出一种结合网络反演和分类器训练的新框架,同时解决OOD检测和不确定性估计问题。

  • Motivation: 在现实场景中,意外输入不可避免,OOD检测和不确定性估计对构建安全的机器学习系统至关重要。
  • Method: 通过引入“垃圾类”扩展分类器,利用网络反演迭代优化分类边界,将OOD样本推入垃圾类。
  • Result: 模型能有效检测并拒绝OOD样本,同时为预测提供不确定性估计。
  • Conclusion: 该方法无需外部OOD数据或后校准,提供了一种可扩展且统一的解决方案。

[159] Muddit: Liberating Generation Beyond Text-to-Image with a Unified Discrete Diffusion Model

Qingyu Shi,Jinbin Bai,Zhuoran Zhao,Wenhao Chai,Kaidong Yu,Jianzong Wu,Shuangyong Song,Yunhai Tong,Xiangtai Li,Xuelong Li,Shuicheng Yan

Main category: cs.LG

TL;DR: Muddit是一种统一的离散扩散Transformer,通过结合预训练的文本到图像主干和轻量级文本解码器,实现快速并行生成,性能优于大型自回归模型。

  • Motivation: 解决自回归统一模型推理速度慢和非自回归统一模型泛化能力弱的问题。
  • Method: 提出Muddit,结合预训练的视觉先验和轻量级文本解码器,实现多模态生成。
  • Result: Muddit在质量和效率上优于大型自回归模型。
  • Conclusion: 离散扩散结合强视觉先验是统一生成任务的可扩展且有效的方法。

[160] Merge-Friendly Post-Training Quantization for Multi-Target Domain Adaptation

Juncheol Shin,Minsang Seok,Seonggon Kim,Eunhyeok Park

Main category: cs.LG

TL;DR: 本文研究了量化对模型合并的影响,并提出了一种新的后训练量化方法HDRQ,以支持多目标域适应的模型合并。

  • Motivation: 量化在目标特定数据上的应用限制了兴趣域并引入离散化效应,使模型合并变得复杂。本文旨在解决这一问题。
  • Method: 通过误差屏障分析量化影响,提出HDRQ方法,结合Hessian和远距离正则化量化,确保量化过程最小化与源模型的偏差并平滑损失表面。
  • Result: 实验证实HDRQ在多目标域适应中有效支持模型合并。
  • Conclusion: HDRQ是首个针对量化模型合并挑战的解决方案,实验证明其有效性。

[161] REOrdering Patches Improves Vision Models

Declan Kutscher,David M. Chan,Yutong Bai,Trevor Darrell,Ritwik Gupta

Main category: cs.LG

TL;DR: 论文提出REOrder框架,通过优化图像块的排列顺序提升序列模型在视觉任务中的性能。

  • Motivation: 现有序列模型(如Transformer)对图像块顺序敏感,而固定顺序(如行优先)可能影响性能。
  • Method: 提出两阶段框架:1. 基于信息论评估块序列的压缩性;2. 使用REINFORCE优化Plackett-Luce策略学习排列顺序。
  • Result: 在ImageNet-1K上提升3.01%准确率,Functional Map of the World上提升13.35%。
  • Conclusion: REOrder通过优化块顺序显著提升模型性能,适用于长序列Transformer。

cs.CR

[162] Disrupting Vision-Language Model-Driven Navigation Services via Adversarial Object Fusion

Chunlong Xie,Jialing He,Shangwei Guo,Jiacheng Wang,Shudong Zhang,Tianwei Zhang,Tao Xiang

Main category: cs.CR

TL;DR: AdvOF是一种针对视觉与语言导航(VLN)代理的新型攻击框架,通过生成对抗性3D对象来影响服务环境中的导航系统。

  • Motivation: 现有对抗攻击未考虑服务计算环境中的可靠性和服务质量(QoS),而AdvOF填补了这一空白,研究对抗环境对VLM感知模块的影响。
  • Method: AdvOF通过精确聚合和对齐2D与3D空间中的目标对象位置,定义并渲染对抗对象,并通过多视角优化和正则化协作优化对抗对象。
  • Result: 实验表明,AdvOF能有效降低代理在对抗条件下的性能,同时对正常导航任务干扰最小。
  • Conclusion: AdvOF提升了VLM导航系统中服务安全的理解,为物理世界部署中的鲁棒服务组合提供了计算基础。

cs.AI

[163] ZeroGUI: Automating Online GUI Learning at Zero Human Cost

Chenyu Yang,Shiqian Su,Shi Liu,Xuan Dong,Yue Yu,Weijie Su,Xuehui Wang,Zhaoyang Liu,Jinguo Zhu,Hao Li,Wenhai Wang,Yu Qiao,Xizhou Zhu,Jifeng Dai

Main category: cs.AI

TL;DR: ZeroGUI是一个在线学习框架,用于自动化GUI代理训练,无需人工标注,通过VLM生成任务和奖励,显著提升性能。

  • Motivation: 现有离线学习方法依赖高质量人工标注且适应性差,ZeroGUI旨在解决这些问题。
  • Method: 结合VLM自动生成任务和奖励,采用两阶段在线强化学习。
  • Result: 在UI-TARS和Aguvis上测试,ZeroGUI显著提升了性能。
  • Conclusion: ZeroGUI为GUI代理训练提供了一种高效、零人工成本的方法。

eess.IV

[164] IRS: Incremental Relationship-guided Segmentation for Digital Pathology

Ruining Deng,Junchao Zhu,Juming Xiong,Can Cui,Tianyuan Yao,Junlin Guo,Siqi Lu,Marilyn Lionts,Mengmeng Yin,Yu Wang,Shilin Zhao,Yucheng Tang,Yihe Yang,Paul Dennis Simonson,Mert R. Sabuncu,Haichun Yang,Yuankai Huo

Main category: eess.IV

TL;DR: 论文提出了一种新的增量关系引导分割(IRS)方法,用于处理数字病理学中的部分标注数据和持续学习问题。

  • Motivation: 数字病理学中的全景分割面临部分标注数据和持续学习挑战,需要模型能够处理新表型、未见疾病和多样化人群。
  • Method: IRS通过数学建模解剖关系,利用增量通用命题矩阵实现空间-时间OOD持续学习。
  • Result: 实验表明IRS能有效处理多尺度病理分割,包括区域、单元和细胞,以及OOD病变。
  • Conclusion: IRS显著提升了领域泛化能力,适用于实际数字病理学应用。

[165] iHDR: Iterative HDR Imaging with Arbitrary Number of Exposures

Yu Yuan,Yiheng Chi,Xingguang Zhang,Stanley Chan

Main category: eess.IV

TL;DR: 论文提出了一种名为iHDR的迭代融合框架,用于处理动态场景下不同数量输入的HDR成像问题。

  • Motivation: 现有HDR成像方法通常针对固定数量输入设计,无法灵活处理不同数量输入的情况。
  • Method: iHDR框架包括两个网络:DiHDR(双输入HDR融合网络)和ToneNet(基于物理的域映射网络),通过迭代融合实现灵活输入。
  • Result: 实验证明,iHDR在输入帧数灵活的情况下优于现有HDR去鬼影方法。
  • Conclusion: iHDR提供了一种灵活且高效的解决方案,适用于动态场景的HDR成像。

[166] Proximal Algorithm Unrolling: Flexible and Efficient Reconstruction Networks for Single-Pixel Imaging

Ping Wang,Lishun Wang,Gang Qu,Xiaodong Wang,Yulun Zhang,Xin Yuan

Main category: eess.IV

TL;DR: 论文提出了一种结合深度展开和即插即用(PnP)方法优势的解决方案,通过设计高效的深度图像恢复器(DIR)和提出通用的近端轨迹(PT)损失函数,实现了在单像素成像(SPI)逆问题中灵活处理不同压缩比(CR)的同时,提升重建精度和速度。

  • Motivation: 解决PnP方法在重建精度和速度上的局限性,以及展开方法在压缩比变化时需要微调或重新训练的问题。
  • Method: 设计高效的深度图像恢复器(DIR)用于展开HQS和ADMM,并提出通用的近端轨迹(PT)损失函数来训练网络。
  • Result: 实验表明,提出的近端展开网络不仅能灵活处理不同压缩比,还在重建精度和速度上优于之前的压缩比特定展开网络。
  • Conclusion: 该方法成功整合了PnP和展开方法的优势,为单像素成像逆问题提供了更高效的解决方案。

[167] Advancing Image Super-resolution Techniques in Remote Sensing: A Comprehensive Survey

Yunliang Qi,Meng Lou,Yimin Liu,Lu Li,Zhen Yang,Wen Nie

Main category: eess.IV

TL;DR: 本文对遥感图像超分辨率(RSISR)方法进行了系统综述,涵盖方法、数据集和评估指标,分析了现有方法的局限性,并提出了未来研究方向。

  • Motivation: 由于缺乏对RSISR方法的系统性综述,本文旨在填补这一空白,帮助研究者了解当前趋势和挑战。
  • Method: 将RSISR方法分为监督、无监督和质量评估三类,并分析其优缺点。
  • Result: 发现现有方法在大尺度退化下难以保留细粒度纹理和几何结构,存在明显局限性。
  • Conclusion: 未来需开发领域特定架构和鲁棒评估协议,以缩小合成与真实场景的差距。

[168] Can Large Language Models Challenge CNNS in Medical Image Analysis?

Shibbir Ahmed,Shahnewaz Karim Sakib,Anindya Bijoy Das

Main category: eess.IV

TL;DR: 该研究提出了一种多模态AI框架,用于精确分类医学诊断图像,比较了CNN和LLM的性能差异,发现结合LLM的过滤技术可显著提升性能。

  • Motivation: 旨在通过多模态AI系统提升医学诊断的可靠性、效率和可扩展性。
  • Method: 使用公开数据集,比较CNN和不同LLM的诊断性能、执行效率和环境影响,评估指标包括准确率、F1分数、执行时间、能耗和CO2排放。
  • Result: CNN在某些方面优于多模态技术,但结合LLM的过滤技术可显著提升性能。
  • Conclusion: 多模态AI系统具有提升医学诊断可靠性和效率的潜力。

[169] PCA for Enhanced Cross-Dataset Generalizability in Breast Ultrasound Tumor Segmentation

Christian Schmidt,Heinrich Martin Overhoff

Main category: eess.IV

TL;DR: 论文提出了一种基于PCA预处理的方法,用于提升医学超声图像分割模型在未见数据集上的外部有效性,显著提高了召回率和Dice分数。

  • Motivation: 医学图像分割模型在跨数据集部署时外部有效性不足,尤其在超声图像领域,现有方法(如域适应和GAN风格迁移)在小规模多样化数据集上表现不佳。
  • Method: 通过PCA预处理降噪并保留90%的数据方差,生成PCA重建数据集,训练U-Net模型,并在六个乳腺肿瘤超声数据集上验证。
  • Result: PCA重建数据集显著提升了召回率(0.57→0.70)和Dice分数(0.50→0.58),外部验证召回率下降减少了33%。
  • Conclusion: PCA重建是一种有效方法,可提升医学图像分割模型的外部有效性,尤其在挑战性案例中表现突出。

[170] ImmunoDiff: A Diffusion Model for Immunotherapy Response Prediction in Lung Cancer

Moinak Bhattacharya,Judy Huang,Amna F. Sher,Gagandeep Singh,Chao Chen,Prateek Prasanna

Main category: eess.IV

TL;DR: ImmunoDiff是一种基于扩散模型的框架,通过结合解剖学先验和临床数据,预测NSCLC患者对免疫治疗的响应,显著提高了预测准确性。

  • Motivation: 准确预测非小细胞肺癌(NSCLC)对免疫治疗的响应仍是一个未满足的需求,现有模型难以捕捉治疗引起的复杂形态和纹理变化。
  • Method: 提出ImmunoDiff,一种结合解剖学先验(如肺叶和血管结构)和临床数据(如PD-L1表达)的扩散模型,生成治疗后CT图像。
  • Result: 在NSCLC患者队列中,ImmunoDiff将响应预测的平衡准确率提高了21.24%,生存预测的c指数提高了0.03。
  • Conclusion: ImmunoDiff通过整合多模态数据和解剖学先验,显著提升了免疫治疗响应预测的准确性。

[171] MRI Image Generation Based on Text Prompts

Xinxian Fan,Mengye Lyu

Main category: eess.IV

TL;DR: 研究探讨了使用Stable Diffusion模型生成文本提示的MRI图像,以解决真实MRI数据集获取的挑战,如高成本、罕见病例样本有限和隐私问题。

  • Motivation: 解决MRI数据集获取的高成本、罕见病例样本不足和隐私问题,探索生成合成MRI图像的可行性。
  • Method: 使用预训练的Stable Diffusion模型,在3T fastMRI和0.3T M4Raw数据集上进行微调,生成不同磁场强度的脑部T1、T2和FLAIR图像。
  • Result: 通过FID和MS-SSIM等定量指标评估,显示图像质量和语义一致性有所提升;合成图像能有效增强训练数据集并改善MRI对比分类任务性能。
  • Conclusion: 文本提示的MRI图像生成可行,可作为医学AI应用的有用工具。

[172] DeepMultiConnectome: Deep Multi-Task Prediction of Structural Connectomes Directly from Diffusion MRI Tractography

Marcus J. Vroemen,Yuqian Chen,Yui Lo,Tengfei Xu,Weidong Cai,Fan Zhang,Josien P. W. Pluim,Lauren J. O'Donnell

Main category: eess.IV

TL;DR: DeepMultiConnectome是一种深度学习模型,直接从纤维追踪数据预测结构连接组,无需灰质分割,支持多种分割方案,速度快且可扩展。

  • Motivation: 传统连接组生成方法耗时且依赖灰质分割,难以适应大规模研究需求。
  • Method: 采用基于点云的神经网络和多任务学习,分类流线并共享学习表示。
  • Result: 预测连接组与传统方法生成的连接组高度相关(r=0.992和0.986),保留了网络特性,且测试-重测分析显示可重复性。
  • Conclusion: DeepMultiConnectome提供了一种快速、可扩展的方法,支持多种分割方案生成个体化连接组。

[173] Plug-and-Play Posterior Sampling for Blind Inverse Problems

Anqi Li,Weijie Gan,Ulugbek S. Kamilov

Main category: eess.IV

TL;DR: Blind-PnPDM是一种解决盲逆问题的新框架,通过交替高斯去噪方案和扩散模型作为先验,优于现有方法。

  • Motivation: 传统方法依赖显式先验或单独参数估计,而Blind-PnPDM通过扩散模型灵活解决目标图像和测量算子均未知的问题。
  • Method: 使用两个扩散模型作为先验:一个捕捉目标图像分布,另一个表征测量算子参数,通过交替高斯去噪进行后验采样。
  • Result: 在盲图像去模糊实验中,Blind-PnPDM在定量指标和视觉保真度上优于现有方法。
  • Conclusion: Blind-PnPDM通过将盲逆问题转化为去噪子问题序列,并利用扩散先验,展示了其有效性。

[174] Synthetic Generation and Latent Projection Denoising of Rim Lesions in Multiple Sclerosis

Alexandra G. Roberts,Ha M. Luu,Mert Şişman,Alexey V. Dimov,Ceren Tozlu,Ilhami Kovanlikaya,Susan A. Gauthier,Thanh D. Nguyen,Yi Wang

Main category: eess.IV

TL;DR: 该论文提出了一种生成合成定量磁化率图的方法,用于改善多发性硬化症中罕见边缘病变的分类性能,并通过去噪方法增加少数类样本。

  • Motivation: 多发性硬化症中的边缘病变(PRLs)是一种新兴的生物标志物,但由于其罕见性,分类器性能受限。
  • Method: 生成合成定量磁化率图,扩展多通道对比度,并利用生成网络的投影能力提出去噪方法。
  • Result: 合成数据和去噪方法显著改善了边缘病变的检测性能。
  • Conclusion: 该方法为多发性硬化症的临床诊断提供了可解释的改进。

q-bio.TO

[175] Physiology-Informed Generative Multi-Task Network for Contrast-Free CT Perfusion

Wasif Khan,Kyle B. See,Simon Kato,Ziqian Huang,Amy Lazarte,Kyle Douglas,Xiangyang Lou,Teng J. Peng,Dhanashree Rajderkar,John Rees,Pina Sanelli,Amita Singh,Ibrahim Tuna,Christina A. Wilson,Ruogu Fang

Main category: q-bio.TO

TL;DR: 提出了一种名为MAGIC的深度学习框架,通过生成式AI和生理信息将非对比CT图像映射为多模态无对比CT灌注图像,解决了传统CTP成像中对比剂带来的副作用和高成本问题。

  • Motivation: 传统CTP成像依赖对比剂,可能导致过敏反应和高昂成本,因此需要一种无对比剂、高效且经济的替代方案。
  • Method: 结合生成式AI和生理信息,设计MAGIC框架,将非对比CT图像转换为多模态无对比CT灌注图像,并在损失函数中融入生理特征以提高图像保真度。
  • Result: MAGIC在图像质量和诊断准确性上表现优异,双盲研究显示其性能优于传统对比剂灌注成像。
  • Conclusion: MAGIC有望通过无对比剂、低成本且快速的灌注成像技术革新医疗领域。

cs.SD

[176] Wav2Sem: Plug-and-Play Audio Semantic Decoupling for 3D Speech-Driven Facial Animation

Hao Li,Ju Dai,Xin Zhao,Feng Zhou,Junjun Pan,Lei Li

Main category: cs.SD

TL;DR: 提出Wav2Sem模块,通过语义解耦改善3D语音驱动面部动画中音素相似音节的耦合问题。

  • Motivation: 现有方法中,自监督音频模型编码器导致音素相似音节在特征空间中耦合,影响唇形生成的准确性。
  • Method: 引入Wav2Sem模块,提取音频序列的语义特征,解耦音频编码,提升特征表达能力。
  • Result: 实验表明,Wav2Sem有效解耦音频特征,显著改善唇形生成的精度和自然度。
  • Conclusion: Wav2Sem模块为语音驱动面部动画提供了更精确和自然的解决方案。

[177] Semantics-Aware Human Motion Generation from Audio Instructions

Zi-An Wang,Shihao Zou,Shiyao Yu,Mingyuan Zhang,Chao Dong

Main category: cs.SD

TL;DR: 本文提出了一种利用音频信号作为条件输入生成语义对齐动作的端到端框架,通过掩码生成变压器和记忆检索注意力模块处理稀疏长音频输入,实验证明其有效性。

  • Motivation: 音频信号作为自然直观的交互方式,比文本更具优势,但现有方法多关注音乐或语音节奏匹配,导致音频语义与生成动作关联较弱。
  • Method: 提出端到端框架,采用掩码生成变压器和记忆检索注意力模块处理音频输入,并丰富数据集,将描述转换为对话风格并生成多样化音频。
  • Result: 实验表明框架高效且有效,音频指令能传达与文本相似的语义,同时提供更实用和用户友好的交互。
  • Conclusion: 音频信号可作为更自然直观的条件输入生成语义对齐动作,框架为音频驱动的交互提供了新思路。

[178] ZeroSep: Separate Anything in Audio with Zero Training

Chao Huang,Yuesheng Ma,Junxuan Huang,Susan Liang,Yunlong Tang,Jing Bi,Wenqiang Liu,Nima Mesgarani,Chenliang Xu

Main category: cs.SD

TL;DR: ZeroSep利用预训练的文本引导音频扩散模型实现零样本音频源分离,无需任务特定训练。

  • Motivation: 当前监督深度学习方法需要大量标注数据且难以泛化到真实场景的多样性和开放集特性。
  • Method: 通过将混合音频反转到扩散模型的潜在空间,利用文本条件引导去噪过程分离源。
  • Result: ZeroSep在多个分离基准上表现优异,甚至超越监督方法。
  • Conclusion: 预训练的生成扩散模型可重新用于判别性分离任务,支持开放集场景。

上次更新于: