Skip to content
每日arXiv - 2025年5月27日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] InstructPart: Task-Oriented Part Segmentation with Instruction Reasoning

Zifu Wan,Yaqi Xie,Ce Zhang,Zhiqiu Lin,Zihan Wang,Simon Stepputtis,Deva Ramanan,Katia Sycara

Main category: cs.CV

TL;DR: 论文提出了一个名为InstructPart的新基准,用于评估模型在理解和执行部分级任务中的表现,并展示了任务导向的部分分割对现有视觉语言模型仍具挑战性。

  • Motivation: 现有大型多模态基础模型通常将对象视为不可分割的整体,忽略了其组成部分及其功能,而理解这些部分对执行任务至关重要。
  • Method: 引入InstructPart基准,包含手工标注的部分分割注释和任务导向指令,并通过实验评估现有模型的性能。
  • Result: 实验表明,任务导向的部分分割对现有视觉语言模型仍具挑战性,同时提出的简单基线通过微调实现了性能翻倍。
  • Conclusion: InstructPart基准旨在促进任务导向部分分割的研究,并提升视觉语言模型在多个领域的适用性。

[2] Sampling Strategies for Efficient Training of Deep Learning Object Detection Algorithms

Gefei Shen,Yung-Hong Sun,Yu Hen Hu,Hongrui Jiang

Main category: cs.CV

TL;DR: 研究了两种采样策略以提高深度学习目标检测模型的训练效率,基于模型的Lipschitz连续性假设。

  • Motivation: 提高训练效率,减少手动标注样本的需求。
  • Method: 采用均匀采样和帧差采样两种策略,分别针对状态空间均匀性和视频帧间冗余性。
  • Result: 实验表明,这些策略能生成高质量训练数据集,且所需标注样本较少。
  • Conclusion: 提出的采样策略能有效提升训练效率,减少人工标注负担。

[3] CTRL-GS: Cascaded Temporal Residue Learning for 4D Gaussian Splatting

Karly Hou,Wanhua Li,Hanspeter Pfister

Main category: cs.CV

TL;DR: 提出了一种基于4D高斯泼溅的动态场景新视角合成方法,通过残差学习和层次分解实现高质量实时渲染。

  • Motivation: 高斯泼溅方法在多视角图像或视频的新视角合成中表现出色,但动态场景处理仍有改进空间。
  • Method: 采用层次分解(视频-片段-帧)和残差学习,结合光流动态调整,建模时间相关信号。
  • Result: 在多个数据集上实现最先进的视觉质量和实时渲染,尤其在复杂动态场景中表现突出。
  • Conclusion: 该方法在动态场景处理中具有显著优势,特别是在复杂运动和遮挡情况下。

[4] COLORA: Efficient Fine-Tuning for Convolutional Models with a Study Case on Optical Coherence Tomography Image Classification

Mariano Rivera,Angello Hoyos

Main category: cs.CV

TL;DR: CoLoRA是一种高效的CNN微调方法,通过低秩适应技术减少参数数量,提升训练速度和稳定性,在OCTMNIST数据集上表现优于传统方法。

  • Motivation: 解决当前CNN微调方法的低效问题,提升计算效率和参数利用率。
  • Method: 扩展LoRA技术的卷积架构,开发并评估基于ImageNet预训练的CNN模型。
  • Result: 在OCTMNIST数据集上,CoLoRA微调的CNN准确率提升近1%,性能与先进模型相当。
  • Conclusion: CoLoRA是一种高效、稳定的微调方法,适用于医学图像分类任务。

[5] DART3: Leveraging Distance for Test Time Adaptation in Person Re-Identification

Rajarshi Bhattacharya,Shakeeb Murtaza,Christian Desrosiers,Jose Dolz,Maguelonne Heritier,Eric Granger

Main category: cs.CV

TL;DR: DART3是一种专为减轻行人重识别中相机偏差设计的测试时适应框架,通过距离感知目标优化性能。

  • Motivation: 行人重识别模型因相机偏差导致性能下降,现有方法不适用于此任务。
  • Method: DART3利用距离目标优化,无需源数据或架构修改。
  • Result: 在多个基准测试中表现优于现有方法。
  • Conclusion: DART3是解决相机偏差的有效方案。

[6] Pose Splatter: A 3D Gaussian Splatting Model for Quantifying Animal Pose and Appearance

Jack Goffinet,Youngjo Min,Carlo Tomasi,David E. Carlson

Main category: cs.CV

TL;DR: Pose Splatter是一种新型框架,利用形状雕刻和3D高斯溅射技术,无需动物几何先验知识或手动标注,即可建模实验室动物的完整姿态和外观。

  • Motivation: 当前3D姿态估计技术存在细节不足、标注耗时和优化成本高等问题,限制了细微动作研究和大规模分析。
  • Method: 采用形状雕刻和3D高斯溅射技术,结合旋转不变视觉嵌入技术,替代传统3D关键点数据。
  • Result: 在多种动物数据集上验证了Pose Splatter的准确性,能捕捉细微姿态变化,优于现有方法。
  • Conclusion: Pose Splatter消除了标注和优化瓶颈,为大规模行为分析提供了高分辨率解决方案。

[7] CONCORD: Concept-Informed Diffusion for Dataset Distillation

Jianyang Gu,Haonan Wang,Ruoxi Jia,Saeed Vahidian,Vyacheslav Kungurtsev,Wei Jiang,Yiran Chen

Main category: cs.CV

TL;DR: 论文提出了一种名为CONCORD的方法,利用大型语言模型的概念理解能力改进数据集蒸馏的生成过程,增强可控性和可解释性。

  • Motivation: 现有数据集蒸馏方法缺乏对单个样本的显式控制,且忽略实例级别的概念完整性,导致细节缺失或错误表示。
  • Method: 通过检索基于类别标签的细粒度概念,指导去噪过程并优化对象细节,结合概念理解提升生成质量。
  • Result: 在ImageNet-1K及其子集上实现了最先进的性能。
  • Conclusion: CONCORD方法显著提升了数据集蒸馏的可控性和可解释性,无需依赖预训练分类器。

[8] Weakly-supervised Mamba-Based Mastoidectomy Shape Prediction for Cochlear Implant Surgery Using 3D T-Distribution Loss

Yike Zhang,Jack H. Noble

Main category: cs.CV

TL;DR: 提出了一种基于弱监督的Mamba框架,用于从术前CT扫描中预测乳突切除术区域,采用3D T分布损失函数,显著提升了预测的准确性和鲁棒性。

  • Motivation: 乳突切除术是人工耳蜗植入手术的关键步骤,术前准确预测其区域有助于手术规划和降低风险。现有自监督网络方法鲁棒性不足,限制了实际应用。
  • Method: 提出弱监督Mamba框架,利用3D T分布损失函数处理几何变异性,并通过自监督网络的输出实现弱监督,避免人工标注。
  • Result: 方法在实验中表现优于现有技术,预测结果更准确且临床相关。
  • Conclusion: 弱监督框架结合3D T分布损失显著提升了乳突切除术区域的预测性能,具有临床实用价值。

[9] Monocular Marker-free Patient-to-Image Intraoperative Registration for Cochlear Implant Surgery

Yike Zhang,Eduardo Davalos Anaya,Jack H. Noble

Main category: cs.CV

TL;DR: 提出一种无需外部硬件或标记的单目患者-图像术中配准新方法,通过轻量级神经网络实现实时耳蜗植入手术引导。

  • Motivation: 解决传统方法依赖外部跟踪系统或标记的问题,提升临床实用性。
  • Method: 利用合成显微镜手术场景数据集,通过零样本学习将术前CT映射到2D术中帧,估计相机位姿。
  • Result: 在9例临床案例中验证,角度误差大多在10度内,达到临床相关精度。
  • Conclusion: 该方法无需额外硬件,适用于临床,解决了传统方法的局限性。

[10] Taming Diffusion for Dataset Distillation with High Representativeness

Lin Zhao,Yushu Wu,Xinru Jiang,Jianyang Gu,Yanzhi Wang,Xiaolin Xu,Pu Zhao,Xue Lin

Main category: cs.CV

TL;DR: 论文提出D^3HR框架,通过扩散模型生成高代表性的蒸馏数据集,解决了现有方法中的分布匹配不准确、噪声偏差和采样分离问题。

  • Motivation: 当前基于扩散的数据集蒸馏方法存在分布匹配不准确、随机噪声导致的分布偏差以及采样分离等问题,需要一种更高效的解决方案。
  • Method: 采用DDIM反演将完整数据集的潜在表示映射到高正态高斯域,并提出高效采样方案以对齐潜在表示与高斯分布。
  • Result: 实验表明,D^3HR在不同模型架构下均能实现更高的准确率,优于现有基线方法。
  • Conclusion: D^3HR框架通过改进潜在表示和采样方案,显著提升了数据集蒸馏的效果。

[11] Recent Deep Learning in Crowd Behaviour Analysis: A Brief Review

Jiangbei Yue,He Wang

Main category: cs.CV

TL;DR: 本章回顾了深度学习在人群行为分析中的最新进展,重点探讨了人群行为预测和识别两大核心任务,并讨论了现有方法的有效性和未来研究方向。

  • Motivation: 人群行为分析对公共安全和城市规划等实际应用至关重要,深度学习的发展推动了该领域的研究。
  • Method: 综述了深度学习模型(包括纯神经网络和结合物理的方法)在人群行为分析中的应用,并对代表性研究进行了详细比较。
  • Result: 总结了深度学习在人群行为分析中的有效性,并指出了未来研究方向。
  • Conclusion: 本章为新手提供了该领域的概览,并为现有研究者提供了未来方向的参考。

[12] Rehabilitation Exercise Quality Assessment and Feedback Generation Using Large Language Models with Prompt Engineering

Jessica Tang,Ali Abedi,Tracey J. F. Colella,Shehroz S. Khan

Main category: cs.CV

TL;DR: 提出了一种利用预训练大语言模型(LLMs)为康复患者提供运动质量评估和反馈的新方法,通过骨骼关节特征提取和多种提示技术实现。

  • Motivation: 传统康复项目因交通限制和人员短缺导致高退出率,虚拟平台结合AI技术可提供居家康复支持,但现有研究缺乏基于文本反馈的康复数据集和LLMs的应用探索。
  • Method: 从康复患者的骨骼关节提取运动特征,输入预训练LLMs,采用零样本、少样本、思维链和角色扮演等提示技术生成自然语言反馈。
  • Result: 在UI-PRMD和REHAB24-6数据集上验证了方法在运动评估、推理和反馈生成方面的有效性。
  • Conclusion: 该方法可集成到虚拟康复平台中,帮助患者正确运动,支持康复并改善健康结果。

[13] Dynamics of Affective States During Takeover Requests in Conditionally Automated Driving Among Older Adults with and without Cognitive Impairment

Gelareh Hajian,Ali Abedi,Bing Ye,Jennifer Campos,Alex Mihailidis

Main category: cs.CV

TL;DR: 研究探讨了认知健康老年人和认知障碍者在自动驾驶车辆接管请求(TORs)时的情感反应,发现认知障碍者情感反应较弱,需适应性车辆系统支持。

  • Motivation: 认知衰退可能影响驾驶安全,自动驾驶车辆需了解驾驶员情感反应以确保安全接管。
  • Method: 通过面部表情分析测量情感效价和唤醒度,比较不同道路和速度下两组的情感差异。
  • Result: 认知障碍者在TORs时唤醒度较低、效价较高,情感反应较弱。
  • Conclusion: 需开发能检测情感状态并支持安全接管的适应性车辆系统,尤其针对认知障碍者。

[14] CENet: Context Enhancement Network for Medical Image Segmentation

Afshin Bozorgpour,Sina Ghorbani Kolahi,Reza Azad,Ilker Hacihaliloglu,Dorit Merhof

Main category: cs.CV

TL;DR: CENet提出了一种新的医学图像分割框架,通过DSEB和CFAM模块解决了边界细节和小器官检测问题,并在多器官分割任务中表现优于现有方法。

  • Motivation: 现有深度学习模型在医学图像分割中难以准确表示边界、处理器官形态变化,并存在下采样信息丢失问题。
  • Method: CENet框架包含DSEB模块(增强边界细节和小器官检测)和CFAM模块(多尺度设计保持空间完整性)。
  • Result: 在放射学和皮肤镜数据集上,CENet在多器官分割和边界细节保留方面优于SOTA方法。
  • Conclusion: CENet为复杂医学图像分析任务提供了鲁棒且准确的解决方案。

[15] TNG-CLIP:Training-Time Negation Data Generation for Negation Awareness of CLIP

Yuliang Cai,Jesse Thomason,Mohammad Rostami

Main category: cs.CV

TL;DR: 论文提出了一种高效的训练时否定数据生成方法TNG-CLIP,并创建了首个评估文本到图像生成模型在否定提示下性能的基准Neg-TtoI,显著提升了CLIP在否定理解任务上的表现。

  • Motivation: CLIP等视觉语言模型在否定理解能力上存在局限,现有方法生成大规模否定数据耗时且计算量大,且评估范围有限。
  • Method: 提出训练时否定数据生成管道,仅增加2.5%的训练时间;创建Neg-TtoI基准,用于评估文本到图像生成模型在否定提示下的性能。
  • Result: TNG-CLIP在图像到文本匹配、文本到图像检索和图像生成等否定任务上达到SOTA性能。
  • Conclusion: 该方法高效且性能优越,为视觉语言模型的否定理解能力提供了新的解决方案和评估标准。

[16] OmniConsistency: Learning Style-Agnostic Consistency from Paired Stylization Data

Yiren Song,Cheng Liu,Mike Zheng Shou

Main category: cs.CV

TL;DR: OmniConsistency是一种通用的扩散模型插件,通过大规模扩散变换器(DiTs)解决图像风格化中的一致性和风格退化问题,性能接近GPT-4o。

  • Motivation: 现有扩散模型在复杂场景中难以保持风格一致性,且风格LoRAs在图像到图像流程中易导致风格退化。
  • Method: 提出OmniConsistency,包括上下文一致性学习框架、两阶段渐进学习策略和即插即用设计。
  • Result: 实验表明,OmniConsistency显著提升视觉一致性和美学质量,性能接近GPT-4o。
  • Conclusion: OmniConsistency有效解决了风格化中的核心挑战,性能优越且通用性强。

[17] Mitigating Context Bias in Domain Adaptation for Object Detection using Mask Pooling

Hojun Son,Asma Almutairi,Arpan Kusari

Main category: cs.CV

TL;DR: 本文提出了一种因果视角解释上下文偏差,并提出了一种名为Mask Pooling的新方法,通过分离前景和背景区域的池化过程来减少偏差,同时设计了一个新的基准测试以验证模型的鲁棒性。

  • Motivation: 上下文偏差在目标检测训练中普遍存在,但缺乏对其成因和消除方法的系统性研究。本文旨在填补这一空白。
  • Method: 提出Mask Pooling方法,利用前景掩码分离前景和背景的池化过程,并设计了一个基于随机背景的基准测试。
  • Result: 实验表明,Mask Pooling能有效减少上下文偏差,提升模型在不同域中的鲁棒性。
  • Conclusion: 本文为减少域适应目标检测中的上下文偏差提供了系统性方法,并通过实验验证了其有效性。

[18] BiomechGPT: Towards a Biomechanically Fluent Multimodal Foundation Model for Clinically Relevant Motion Tasks

Ruize Yang,Ann Kennedy,R. James Cotton

Main category: cs.CV

TL;DR: BiomechGPT是一种多模态生物力学-语言模型,能够通过标记化运动数据回答临床相关问题,并在多种任务中表现优异。

  • Motivation: 无标记运动捕捉技术的进步使得在多种场景下获取高质量运动数据成为可能,但如何高效分析这些数据仍是一个挑战。
  • Method: 通过标记化运动轨迹,构建多模态数据集,并开发BiomechGPT模型。
  • Result: BiomechGPT在活动识别、运动障碍识别、诊断、临床评分和步行测量等任务中表现优异。
  • Conclusion: BiomechGPT为康复运动数据的基础模型迈出了重要一步。

[19] HonestFace: Towards Honest Face Restoration with One-Step Diffusion Model

Jingkai Wang,Wu Miao,Jue Gong,Zheng Chen,Xing Liu,Hong Gu,Yutong Liu,Yulun Zhang

Main category: cs.CV

TL;DR: HonestFace是一种新颖的人脸修复方法,强调身份一致性和纹理真实性,通过身份嵌入器和掩膜对齐技术提升修复效果,并引入新的评估指标。

  • Motivation: 当前人脸修复方法在保持高保真度和避免伪影方面存在挑战,需要更“诚实”的模型来准确反映原始特征。
  • Method: 提出身份嵌入器捕捉身份特征,采用掩膜对齐方法增强细节和纹理真实性,并基于仿射变换原理设计新的评估指标。
  • Result: HonestFace在视觉质量和定量评估上均优于现有方法,实现了卓越的修复效果。
  • Conclusion: HonestFace通过创新组件和评估指标,显著提升了人脸修复的真实性和准确性。

[20] ZooplanktonBench: A Geo-Aware Zooplankton Recognition and Classification Dataset from Marine Observations

Fukun Liu,Adam T. Greer,Gengchen Mai,Jin Sun

Main category: cs.CV

TL;DR: ZooplanktonBench是一个包含浮游生物图像和视频的基准数据集,用于检测、分类和跟踪浮游生物,挑战现有计算机视觉系统。

  • Motivation: 浮游生物监测对海洋科学研究至关重要,但现有计算机视觉工具难以处理其与背景的高相似性。
  • Method: 提出ZooplanktonBench数据集,包含丰富的空间元数据,定义多项任务以测试计算机视觉系统。
  • Result: 数据集为计算机视觉系统提供了独特挑战和机会,推动其在动态环境中的视觉理解能力。
  • Conclusion: ZooplanktonBench有望促进计算机视觉技术在海洋科学中的应用和发展。

[21] Syn3DTxt: Embedding 3D Cues for Scene Text Generation

Li-Syun Hsiung,Jun-Kai Tu,Kuan-Wu Chu,Yu-Hsuan Chiu,Yan-Tsung Peng,Sheng-Luen Chung,Gee-Sern Jison Hsu

Main category: cs.CV

TL;DR: 研究提出了一种新的合成数据集构建标准,通过引入表面法线增强三维场景特征,解决了传统2D数据在场景文本渲染中缺乏三维上下文的问题。

  • Motivation: 现有方法主要依赖2D数据(如电影海报和书籍封面),无法捕捉真实场景中空间布局与视觉效果的复杂交互,限制了文本渲染的准确性。
  • Method: 提出了一种结合表面法线的合成数据集构建标准,通过增强2D数据的空间关系表示,为场景文本渲染提供更鲁棒的基础。
  • Result: 实验表明,基于新标准构建的数据集提供了更好的几何上下文,有助于在复杂3D空间条件下改进文本渲染。
  • Conclusion: 引入表面法线的合成数据集标准有效提升了场景文本渲染的三维上下文表现,为未来研究提供了新方向。

[22] Focus on What Matters: Enhancing Medical Vision-Language Models with Automatic Attention Alignment Tuning

Aofei Chang,Le Huang,Alex James Boyd,Parminder Bhatia,Taha Kass-Hout,Cao Xiao,Fenglong Ma

Main category: cs.CV

TL;DR: A3Tune是一种新型微调框架,用于自动对齐医学大型视觉语言模型(Med-LVLMs)的注意力分布,通过零样本弱标签和选择性修改视觉关键注意力头,显著提升性能。

  • Motivation: Med-LVLMs在视觉输入上的注意力分布不理想,导致输出不准确或幻觉。现有方法依赖推理时干预,效果有限。
  • Method: A3Tune利用SAM的零样本弱标签,通过BioMedCLIP优化为提示感知标签,并选择性修改视觉关键注意力头。引入A3MoE模块实现自适应参数选择。
  • Result: 在医学VQA和报告生成任务中,A3Tune优于现有方法,改善了注意力分布和模型性能。
  • Conclusion: A3Tune通过自动对齐注意力,显著提升了Med-LVLMs的准确性和可靠性。

[23] Improved Immiscible Diffusion: Accelerate Diffusion Training by Reducing Its Miscibility

Yiheng Li,Feng Liang,Dan Kondratyuk,Masayoshi Tomizuka,Kurt Keutzer,Chenfeng Xu

Main category: cs.CV

TL;DR: 论文提出了一种通过减少噪声空间中的扩散轨迹混合(miscibility reduction)来加速扩散模型训练的方法,扩展了线性分配的应用范围,并提出了多种实现方式,如KNN噪声选择和图像缩放,实现了高达4倍的训练加速。

  • Motivation: 扩散模型的高训练成本限制了其应用,因此需要一种更高效的训练方法。
  • Method: 通过减少噪声空间中的扩散轨迹混合(miscibility reduction),扩展了线性分配的应用范围,并提出了KNN噪声选择和图像缩放等多种实现方式。
  • Result: 实验表明,该方法在多种任务中实现了高达4倍的训练加速,并保持了生成多样性。
  • Conclusion: 通过减少轨迹混合,论文为高效扩散模型训练提供了新方向,并揭示了最优传输(OT)在扩散训练中的作用。

[24] TK-Mamba: Marrying KAN with Mamba for Text-Driven 3D Medical Image Segmentation

Haoyu Yang,Yuxiang Cai,Jintao Chen,Xuhong Zhang,Wenhui Lei,Xiaoming Shi,Jianwei Yin,Yankai Jiang

Main category: cs.CV

TL;DR: 提出了一种结合Mamba和Kolmogorov-Arnold Networks (KAN)的多模态框架,用于高效3D医学图像分割,通过EGSC模块、3D-GR-KAN和双分支文本驱动策略,在MSD和KiTS23数据集上达到最优性能。

  • Motivation: 解决3D医学图像分割中高维数据和复杂空间依赖的挑战,克服传统单模态网络(如CNN和Transformer)的计算效率低和上下文建模受限问题。
  • Method: 1. EGSC模块捕获1D序列中的空间信息;2. 扩展GR-KAN为3D-GR-KAN,首次应用于3D医学图像;3. 双分支文本驱动策略利用CLIP的文本嵌入。
  • Result: 在MSD和KiTS23数据集上实现最先进性能,准确性和效率均优于现有方法。
  • Conclusion: 结合序列建模、扩展网络架构和视觉-语言协同,为临床提供可扩展的3D医学图像分割解决方案。

[25] ThinkVideo: High-Quality Reasoning Video Segmentation with Chain of Thoughts

Shiu-hong Kao,Yu-Wing Tai,Chi-Keung Tang

Main category: cs.CV

TL;DR: ThinkVideo利用MLLM的零样本思维链能力,结合图像分割模型和视频处理器,解决了视频对象分割中时空信息整合的挑战。

  • Motivation: 现有方法在复杂文本查询和视频时序敏感任务中表现不佳,主要原因是未能有效整合时空信息。
  • Method: 提出ThinkVideo框架,通过CoT提示提取关键帧对象选择性,结合图像分割模型和SAM2视频处理器生成掩码序列。
  • Result: 实验表明,ThinkVideo在显式和隐式查询的视频对象分割任务中均显著优于现有方法。
  • Conclusion: ThinkVideo是一种无需训练、兼容闭源MLLM的框架,适用于在线视频流和复杂查询任务。

[26] On Denoising Walking Videos for Gait Recognition

Dongyang Jin,Chao Fan,Jingzhe Ma,Jingkai Zhou,Weihua Chen,Shiqi Yu

Main category: cs.CV

TL;DR: DenoisingGait利用生成扩散模型和几何驱动的特征匹配模块,提出了一种新的步态去噪方法,显著提升了步态识别的准确性。

  • Motivation: 解决步态识别中因服装纹理和颜色等无关因素导致的挑战,传统方法因输入稀疏且信息不足而效果不佳。
  • Method: 结合生成扩散模型过滤无关因素,并引入几何驱动的特征匹配模块,生成两通道方向向量表示步态特征。
  • Result: 在CCPG、CASIA-B*和SUSTech1K数据集上,DenoisingGait在大多数情况下达到了新的SoTA性能。
  • Conclusion: DenoisingGait通过去噪和特征匹配,显著提升了步态识别的鲁棒性和准确性。

[27] Unleashing Diffusion Transformers for Visual Correspondence by Modulating Massive Activations

Chaofan Gan,Yuanpeng Tu,Xi Chen,Tieyuan Chen,Yuxi Li,Mehrtash Harandi,Weiyao Lin

Main category: cs.CV

TL;DR: 本文研究了扩散变换器(DiTs)在密集对应任务中的表现,发现其存在“大规模激活”问题,并提出了一种无需训练的框架DiTF来解决这一问题,显著提升了性能。

  • Motivation: 预训练的稳定扩散模型(SD)在视觉对应任务中表现优异,但扩散变换器(DiTs)存在“大规模激活”问题,导致性能下降,因此需要研究如何改进DiTs的特征提取能力。
  • Method: 提出DiTF框架,利用AdaLN-zero定位和归一化大规模激活,并采用通道丢弃策略消除其负面影响。
  • Result: DiTF在多个视觉对应任务中表现优于DINO和SD模型,例如在Spair-71k上提升9.4%,在AP-10K-C.S.上提升4.4%。
  • Conclusion: DiTF通过解决DiTs的大规模激活问题,显著提升了其在视觉对应任务中的性能,为DiTs的应用提供了新思路。

[28] Guiding the Experts: Semantic Priors for Efficient and Focused MoE Routing

Chengxi Min,Wei Wang,Yahui Liu,Weixin Ye,Enver Sangineto,Qi Wang,Yao Zhao

Main category: cs.CV

TL;DR: 本文提出了一种基于前景引导的增强策略,通过空间感知辅助损失和轻量级LayerScale机制,优化Soft MoE模型中的专家路由机制,提升性能和可解释性。

  • Motivation: 当前Soft MoE模型的设计忽视了调度权重中隐含的语义结构,导致专家路由效果不佳。研究发现调度权重具有分割模式但未与语义区域对齐,因此提出改进方法。
  • Method: 引入空间感知辅助损失,使专家激活与语义前景区域对齐;集成轻量级LayerScale机制,优化信息流并稳定跳跃连接的训练。
  • Result: 在ImageNet-1K及多个小规模分类基准测试中,性能持续提升,同时专家路由机制更具可解释性。
  • Conclusion: 该方法仅需少量架构调整即可集成到现有Soft MoE框架中,显著提升了模型性能和路由机制的可解释性。

[29] HyperFake: Hyperspectral Reconstruction and Attention-Guided Analysis for Advanced Deepfake Detection

Pavan C Shekar,Pawan Soni,Vivek Kanhangad

Main category: cs.CV

TL;DR: HyperFake利用31通道高光谱数据重建技术,结合改进的MST++架构和光谱注意力机制,提升深度伪造检测的准确性和泛化能力。

  • Motivation: 当前深度伪造检测方法难以泛化到不同篡改技术和数据集,且受限于RGB数据的固有约束。
  • Method: 通过改进的MST++架构重建高光谱数据,结合光谱注意力机制和EfficientNet分类器进行检测。
  • Result: HyperFake能在无需昂贵高光谱相机的情况下,更准确地检测多种深度伪造风格和数据集。
  • Conclusion: 首次利用高光谱成像重建技术进行深度伪造检测,为检测复杂篡改提供了新思路。

[30] EvdCLIP: Improving Vision-Language Retrieval with Entity Visual Descriptions from Large Language Models

GuangHao Meng,Sunan He,Jinpeng Wang,Tao Dai,Letian Zhang,Jieming Zhu,Qing Li,Gang Wang,Rui Zhang,Yong Jiang

Main category: cs.CV

TL;DR: 论文提出EvdCLIP方法,通过实体视觉描述(EVD)增强查询,结合EVD感知重写器(EaRW)优化检索效果。

  • Motivation: 现有视觉语言检索方法忽视实体的视觉语义知识,导致检索结果不准确。
  • Method: 利用大语言模型生成EVD补充文本数据,并通过EaRW重写查询以减少噪声。
  • Result: 实验证明EvdCLIP在视觉语言检索任务中表现优越。
  • Conclusion: EvdCLIP通过EVD和EaRW显著提升了检索效果。

[31] Chain-of-Zoom: Extreme Super-Resolution via Scale Autoregression and Preference Alignment

Bryan Sangwoo Kim,Jeongsol Kim,Jong Chul Ye

Main category: cs.CV

TL;DR: CoZ框架通过分解超分辨率任务为多步缩放链,利用多尺度感知提示和预训练模型,实现无需额外训练的极端放大。

  • Motivation: 解决单图像超分辨率(SISR)模型在超出训练尺度时性能下降的问题。
  • Method: 使用Chain-of-Zoom(CoZ)框架,将SISR分解为多步缩放链,结合多尺度感知提示和视觉语言模型(VLM)生成文本提示。
  • Result: 标准4x扩散SR模型在CoZ框架下实现256x放大,保持高质量和保真度。
  • Conclusion: CoZ提供了一种模型无关的解决方案,显著提升了SISR的可扩展性和性能。

[32] Rethinking Causal Mask Attention for Vision-Language Inference

Xiaohuan Pei,Tao Huang,YanXiang Ma,Chang Xu

Main category: cs.CV

TL;DR: 论文研究了因果注意力机制在视觉语言模型中的应用,发现传统的因果掩码策略对视觉查询过于严格,提出了未来感知注意力家族以改进。

  • Motivation: 现有因果掩码策略源自纯文本模型,对视觉查询的适应不足,限制了模型利用未来语义线索的能力。
  • Method: 通过实验分析不同因果掩码策略的影响,提出轻量级注意力家族,通过池化聚合未来视觉上下文。
  • Result: 实验表明,选择性压缩未来语义上下文到过去表征中能提升推理效果。
  • Conclusion: 未来感知注意力家族在保持自回归结构的同时,增强了跨令牌依赖,优化了视觉语言推理。

[33] Spiking Transformers Need High Frequency Information

Yuetong Fang,Deming Zhou,Ziqing Wang,Hongwei Ren,ZeCui Zeng,Lusong Li,Shibo Zhou,Renjing Xu

Main category: cs.CV

TL;DR: 论文揭示了脉冲神经元优先传播低频信息,提出Max-Former通过增强高频信号提升性能。

  • Motivation: 解决脉冲神经网络因高频信息丢失导致的性能下降问题。
  • Method: 引入Max-Former,采用Max-Pooling和Depth-Wise Convolution增强高频信号。
  • Result: 在ImageNet上达到82.39%的top-1准确率,比Spikformer提升7.58%。
  • Conclusion: Max-Former展示了脉冲神经网络的独特潜力,为未来研究提供了新方向。

[34] Mod-Adapter: Tuning-Free and Versatile Multi-concept Personalization via Modulation Adapter

Weizhi Zhong,Huan Yang,Zheng Liu,Huiguo He,Zijian He,Xuesong Niu,Di Zhang,Guanbin Li

Main category: cs.CV

TL;DR: 提出了一种无需微调的个性化文本到图像生成方法,支持对象和抽象概念。

  • Motivation: 现有方法难以定制抽象概念且需测试时微调,耗时且易过拟合。
  • Method: 基于DiTs的调制机制,提出Mod-Adapter模块和VLM引导的预训练策略。
  • Result: 在包含抽象概念的基准测试中取得最优性能。
  • Conclusion: 该方法在多概念个性化中表现优异,无需测试时微调。

[35] SerendibCoins: Exploring The Sri Lankan Coins Dataset

NH Wanigasingha,ES Sithpahan,MKA Ariyaratne,PRS De Silva

Main category: cs.CV

TL;DR: 论文介绍了斯里兰卡硬币图像数据集,并评估其对机器学习模型分类准确性的影响。结果显示SVM优于KNN和随机森林,而CNN模型表现最佳。

  • Motivation: 硬币识别在金融和自动化系统中至关重要,但缺乏区域性数据集。
  • Method: 使用KNN、SVM、随机森林和自定义CNN进行硬币分类性能比较。
  • Result: SVM在传统方法中表现最佳,CNN模型接近完美分类。
  • Conclusion: 数据集为区域货币分类和深度学习应用提供了坚实基础。

[36] SuperGS: Consistent and Detailed 3D Super-Resolution Scene Reconstruction via Gaussian Splatting

Shiyun Xie,Zhiru Wang,Yinghao Zhu,Xu Wang,Chengwei Pan,Xiwang Dong

Main category: cs.CV

TL;DR: SuperGS通过两阶段训练框架解决3DGS在高分辨率新视角合成中的问题,引入潜在特征场和多视角一致密度化策略,实验表现优于现有方法。

  • Motivation: 3DGS在实时渲染和高质量新视角合成中表现优异,但在高分辨率场景下因低分辨率输入导致的粗糙基元问题表现不佳。
  • Method: 采用两阶段训练:低分辨率阶段用潜在特征场初始化场景;高分辨率阶段通过多视角一致密度化策略优化,并结合变分特征学习建模不确定性。
  • Result: SuperGS在正向和360度数据集上优于现有高分辨率新视角合成方法。
  • Conclusion: SuperGS通过改进训练框架和优化策略,有效提升了高分辨率新视角合成的质量和一致性。

[37] ProphetDWM: A Driving World Model for Rolling Out Future Actions and Videos

Xiaodong Wang,Peixi Peng

Main category: cs.CV

TL;DR: ProphetDWM是一种新型的端到端驾驶世界模型,能够联合预测未来视频和动作,解决了现有方法在动作控制和预测方面的局限性。

  • Motivation: 现实驾驶需要观察环境并预测未来,现有世界模型虽能生成可控驾驶视频,但缺乏动作控制和预测能力。
  • Method: 提出ProphetDWM,包含动作模块学习潜在动作序列,扩散模型转换模块学习状态分布,联合训练实现长期预测。
  • Result: 在Nuscenes数据集上,ProphetDWM在视频生成和动作预测任务中表现最佳,支持高质量长期生成。
  • Conclusion: ProphetDWM通过联合学习动作动态和状态,显著提升了驾驶世界模型的预测能力。

[38] Why Not Replace? Sustaining Long-Term Visual Localization via Handcrafted-Learned Feature Collaboration on CPU

Yicheng Lin,Yunlong Jiang,Xujia Jiao,Bin Han

Main category: cs.CV

TL;DR: 提出了一种分层定位框架,结合手工特征和深度学习特征,实现高效、鲁棒的长期视觉定位。

  • Motivation: 复杂工业环境中现有视觉定位方法存在光照敏感、计算量大或环境限制等问题,手工特征和深度学习特征的互补性需要整合。
  • Method: 采用分层框架,实时手工特征用于相对位姿估计,选择性深度学习关键点检测用于绝对定位。
  • Result: 实验表明,该方法在光照变化下平均误差减少47%,定位一致性显著提升。
  • Conclusion: 整合手工和深度学习特征的方法在长期视觉定位中表现优异,代码已开源。

[39] So-Fake: Benchmarking and Explaining Social Media Image Forgery Detection

Zhenglin Huang,Tianxiao Li,Xiangtai Li,Haiquan Wen,Yiwei He,Jiangning Zhang,Hao Fei,Xi Yang,Xiaowei Huang,Bei Peng,Guangliang Cheng

Main category: cs.CV

TL;DR: 论文介绍了So-Fake-Set数据集和So-Fake-R1检测框架,用于应对AI生成图像对社交媒体信息完整性的威胁,并在检测准确性和定位精度上优于现有方法。

  • Motivation: AI生成的逼真图像威胁社交媒体信息完整性,现有数据集和方法在多样性和泛化能力上不足。
  • Method: 提出So-Fake-Set数据集(200万图像,35种生成模型)和So-Fake-OOD基准(10万图像),开发So-Fake-R1框架(强化学习驱动的视觉语言模型)。
  • Result: So-Fake-R1在检测准确率上提升1.3%,定位IoU提高4.5%。
  • Conclusion: 通过数据集、基准和检测框架的结合,为社交媒体伪造检测研究奠定新基础。

[40] DVD-Quant: Data-free Video Diffusion Transformers Quantization

Zhiteng Li,Hanxuan Li,Junyi Wu,Kai Liu,Linghe Kong,Guihai Chen,Yulun Zhang,Xiaokang Yang

Main category: cs.CV

TL;DR: DVD-Quant是一种无需校准数据的新型量化框架,通过PBQ、ARQ和δ-GBS技术,显著提升了Video DiTs的量化效率和性能。

  • Motivation: 现有Video DiTs量化方法依赖耗时校准且性能下降严重,亟需高效解决方案。
  • Method: 结合PBQ、ARQ和δ-GBS技术,实现无数据量化与自适应位宽分配。
  • Result: 在多个视频生成基准测试中,DVD-Quant实现2倍加速且保持视觉保真度,首次支持W4A4 PTQ。
  • Conclusion: DVD-Quant为Video DiTs提供高效量化方案,显著提升部署实用性。

[41] ChartGalaxy: A Dataset for Infographic Chart Understanding and Generation

Zhen Li,Yukai Guo,Duan Li,Xinyuan Guo,Bowen Li,Lanxi Xiao,Shenyu Qiao,Jiashu Chen,Zijian Wu,Hui Zhang,Xinhuan Shu,Shixia Liu

Main category: cs.CV

TL;DR: ChartGalaxy是一个百万级数据集,旨在提升大视觉语言模型对信息图表(infographic charts)的理解和生成能力。

  • Motivation: 信息图表结合了视觉和文本元素,但其复杂性对传统训练于普通图表的大视觉语言模型提出了挑战。
  • Method: 通过归纳过程构建数据集,识别75种图表类型、330种变体和68种布局模板,并程序化生成合成图表。
  • Result: 数据集在三个方面展示了实用性:提升图表理解、基准代码生成和基于示例的图表生成。
  • Conclusion: ChartGalaxy通过捕捉真实设计的复杂性,为增强多模态推理和生成提供了宝贵资源。

[42] Restoring Real-World Images with an Internal Detail Enhancement Diffusion Model

Peng Xiao,Hongbo Zhao,Yijun Wang,Jianxin Lin

Main category: cs.CV

TL;DR: 提出了一种基于预训练Stable Diffusion模型的内部细节增强扩散模型,用于高保真修复真实世界中的退化图像,解决了现有方法在细节保留和对象级着色控制上的不足。

  • Motivation: 真实世界退化图像(如旧照片或低分辨率图像)修复面临复杂混合退化问题,现有数据驱动方法难以同时实现高保真修复和对象级着色控制。
  • Method: 利用预训练Stable Diffusion模型作为生成先验,结合内部图像细节增强(IIDE)技术,在潜在空间中注入退化操作以模拟退化效果,同时保留结构和纹理信息。
  • Result: 实验表明,该方法在定性和定量评估中显著优于现有技术,并支持文本引导的修复和对象级着色控制。
  • Conclusion: 该方法有效解决了高保真修复和对象级控制的挑战,为真实世界退化图像修复提供了新思路。

[43] Can MLLMs Guide Me Home? A Benchmark Study on Fine-Grained Visual Reasoning from Transit Maps

Sicheng Feng,Song Wang,Shuyi Ouyang,Lingdong Kong,Zikai Song,Jianke Zhu,Huan Wang,Xinchao Wang

Main category: cs.CV

TL;DR: ReasonMap是一个评估多模态大语言模型(MLLMs)细粒度视觉理解和空间推理能力的基准,包含来自30个城市的交通地图和1008个问题对。评估显示开源基础模型优于推理模型,而闭源模型则相反。

  • Motivation: 当前MLLMs在细粒度视觉推理任务上的能力尚未充分评估,因此设计了ReasonMap来填补这一空白。
  • Method: ReasonMap包含高分辨率交通地图和多样化问题对,采用两级评估流程验证答案正确性和质量。
  • Result: 开源基础模型表现优于推理模型,闭源模型则相反;视觉输入被遮挡时性能下降。
  • Conclusion: 细粒度视觉推理任务需要真实的视觉感知,ReasonMap为视觉推理研究提供了新见解。

[44] Manifold-aware Representation Learning for Degradation-agnostic Image Restoration

Bin Ren,Yawei Li,Xu Zheng,Yuqian Fu,Danda Pani Paudel,Ming-Hsuan Yang,Luc Van Gool,Nicu Sebe

Main category: cs.CV

TL;DR: MIRAGE是一个轻量级、统一的图像恢复框架,通过分解特征空间为三个并行分支,结合对比学习,显著提升了泛化能力和效率。

  • Motivation: 现有图像恢复方法通常将问题视为直接映射,忽略了退化类型的结构多样性。
  • Method: MIRAGE将输入特征空间分解为三个语义对齐的并行分支,分别处理全局上下文、局部纹理和通道统计,并在SPD流形空间中进行对比学习。
  • Result: MIRAGE在多种退化类型上实现了新的最先进性能,并提供了可扩展的解决方案。
  • Conclusion: MIRAGE通过模块化分解和对比学习,显著提升了图像恢复的泛化能力和效率。

[45] WeakMCN: Multi-task Collaborative Network for Weakly Supervised Referring Expression Comprehension and Segmentation

Yang Liu,Silin Cheng,Xinwei He,Sebastien Ourselin,Lei Tan,Gen Luo

Main category: cs.CV

TL;DR: WeakMCN是一个多任务协作网络,通过联合学习弱监督的指代表达理解(WREC)和分割(WRES),利用双分支架构和动态视觉特征增强(DVFE)与协作一致性模块(CCM)提升性能。

  • Motivation: 传统上WREC和WRES是分开建模的,但联合学习可以带来性能提升。
  • Method: 提出WeakMCN,采用双分支架构,WREC分支基于对比学习并监督WRES分支,引入DVFE和CCM促进多任务协作。
  • Result: 在RefCOCO等基准测试中,WeakMCN显著优于单任务方法,WREC和WRES分别提升3.91%和13.11%。在半监督设置下也表现优异。
  • Conclusion: WeakMCN通过多任务协作和动态特征增强,显著提升了弱监督和半监督任务的性能。

[46] Affective Image Editing: Shaping Emotional Factors via Text Descriptions

Peixuan Zhang,Shuchen Weng,Chengxuan Zhu,Binghao Tang,Zijian Jia,Si Li,Boxin Shi

Main category: cs.CV

TL;DR: AIEdiT是一个基于文本描述的情感图像编辑系统,通过自适应调整图像中的情感因素来满足用户的情感需求。

  • Motivation: 现有文本驱动的图像编辑方法较少关注用户的情感需求,因此需要一种能够理解和实现情感请求的图像编辑工具。
  • Method: 构建连续情感谱表示通用情感先验,设计情感映射器将抽象情感请求转化为具体语义表示,并利用MLLM监督模型训练。
  • Result: 实验表明,AIEdiT能有效反映用户的情感请求,编辑效果优于现有方法。
  • Conclusion: AIEdiT为情感图像编辑提供了新思路,并通过大规模数据集验证了其有效性。

[47] GRE Suite: Geo-localization Inference via Fine-Tuned Vision-Language Models and Enhanced Reasoning Chains

Chun Wang,Xiaoran Pan,Zihao Pan,Haofan Wang,Yiren Song

Main category: cs.CV

TL;DR: 论文提出Geo Reason Enhancement (GRE) Suite,通过结构化推理链增强视觉语言模型(VLMs),以解决地理定位任务中的推理和可解释性问题。

  • Motivation: 地理定位任务需要多粒度视觉线索和世界知识的结合,但现有方法缺乏鲁棒的推理机制和可解释性。
  • Method: GRE Suite包括数据集GRE30K、多阶段推理模型GRE和评估基准GREval-Bench,系统提升地理定位性能。
  • Result: 实验表明,GRE在所有粒度地理定位任务中显著优于现有方法。
  • Conclusion: GRE证明了推理增强的VLMs在复杂地理推断中的有效性。

[48] Deep Learning for Breast Cancer Detection: Comparative Analysis of ConvNeXT and EfficientNet

Mahmudul Hasan

Main category: cs.CV

TL;DR: 论文比较了ConvNeXT和EfficientNet两种卷积神经网络在乳腺X光片癌症预测中的性能,结果表明ConvNeXT表现更优。

  • Motivation: 乳腺癌是全球最常见的癌症,早期检测和治疗对降低死亡率至关重要。
  • Method: 使用ConvNeXT和EfficientNet对乳腺X光片进行预处理、分类和性能评估。
  • Result: ConvNeXT在AUC、准确率和F-score上均优于EfficientNet。
  • Conclusion: ConvNeXT在乳腺癌预测中表现更佳,有助于早期检测。

[49] FusionTrack: End-to-End Multi-Object Tracking in Arbitrary Multi-View Environment

Xiaohe Li,Pengfei Li,Zide Fan,Ying Geng,Fangli Mou,Haohua Wu,Yunping Ge

Main category: cs.CV

TL;DR: 论文提出了一种名为FusionTrack的端到端框架,用于解决自由视角的多视图多目标跟踪问题,并在新构建的MDMOT数据集上验证了其性能。

  • Motivation: 现有研究很少关注真正自由视角的多视图多目标跟踪系统,限制了协作跟踪系统的灵活性和可扩展性。
  • Method: 构建了MDMOT数据集,并提出FusionTrack框架,整合跟踪和重识别技术以利用多视图信息进行轨迹关联。
  • Result: 在MDMOT和其他基准数据集上,FusionTrack在单视图和多视图跟踪中均达到最先进性能。
  • Conclusion: FusionTrack通过多视图信息的合理整合,显著提升了多目标跟踪的鲁棒性和性能。

[50] Align Beyond Prompts: Evaluating World Knowledge Alignment in Text-to-Image Generation

Wenchao Zhang,Jiahe Tian,Runze He,Jizhong Han,Jiao Dai,Miaomiao Feng,Wei Mi,Xiaodan Zhang

Main category: cs.CV

TL;DR: 论文提出了Align Beyond Prompts (ABP)基准,用于评估文本到图像生成模型在生成图像时与超出提示的真实世界知识的一致性,并提出了ABPScore和Inference-Time Knowledge Injection (ITKI)策略。

  • Motivation: 现有评估基准主要关注生成图像与提示的显式对齐,忽略了与超出提示的真实世界知识的一致性。
  • Method: 引入ABP基准和ABPScore评估指标,并提出ITKI策略以优化模型表现。
  • Result: 评估8个流行T2I模型后发现,即使最先进模型在整合真实世界知识方面仍有局限,ITKI策略使ABPScore提升约43%。
  • Conclusion: ABP基准和ITKI策略有效填补了现有评估的空白,并显著提升了模型表现。

[51] Rethinking Direct Preference Optimization in Diffusion Models

Junyong Kang,Seohyun Lim,Kyungjune Baek,Hyunjung Shim

Main category: cs.CV

TL;DR: 本文提出了一种新的方法来优化文本到图像扩散模型的对齐问题,通过稳定参考模型更新和时间步感知训练策略,提升了性能。

  • Motivation: 解决现有文本到图像扩散模型在偏好优化中探索不足的问题。
  • Method: 引入稳定参考模型更新策略和时间步感知训练策略。
  • Result: 实验表明该方法在人类偏好评估基准上优于现有方法。
  • Conclusion: 该方法可有效提升扩散模型在偏好优化中的表现。

[52] MoMBS: Mixed-order minibatch sampling enhances model training from diverse-quality images

Han Li,Hu Han,S. Kevin Zhou

Main category: cs.CV

TL;DR: 论文提出了一种新的混合顺序小批量采样方法(MoMBS),用于优化处理多样质量训练样本的问题,通过结合损失和不确定性度量,改进传统方法的不足。

  • Motivation: 医学图像在通用病变检测(ULD)中存在图像质量和标签正确性的多样性,传统方法如SCL和OHEM在处理这些问题时存在样本硬度度量不精确和样本利用不足或过度的问题。
  • Method: 提出MoMBS方法,结合损失和不确定性度量,区分高损失样本的类型,并通过混合顺序小批量采样设计优化样本利用。
  • Result: MoMBS能够更精细地处理多样质量样本,优先利用代表性不足的样本,避免受标签错误或过拟合样本的负面影响。
  • Conclusion: MoMBS方法有效解决了传统方法在处理多样质量训练样本时的挑战,提升了模型性能。

[53] C3R: Channel Conditioned Cell Representations for unified evaluation in microscopy imaging

Umar Marikkar,Syed Sameed Husain,Muhammad Awais,Sara Atito

Main category: cs.CV

TL;DR: 本文提出了一种名为C3R的框架,通过将细胞图像通道分为上下文和概念两类,解决了IHC图像数据因通道不一致导致的深度学习模型泛化问题。

  • Motivation: IHC图像数据因实验室和研究间的染色协议差异导致通道不一致,现有方法无法支持跨数据集的零样本评估。
  • Method: 提出C3R框架,包括基于上下文-概念原则的通道自适应编码器架构和掩码知识蒸馏训练策略。
  • Result: C3R在分布内和分布外任务上均优于现有基准,且在CHAMMI基准上表现更优。
  • Conclusion: C3R为IHC数据集的跨数据集泛化提供了新途径,无需特定数据集适配或重新训练。

[54] ToDRE: Visual Token Pruning via Diversity and Task Awareness for Efficient Large Vision-Language Models

Duo Li,Zuhao Yang,Shijian Lu

Main category: cs.CV

TL;DR: ToDRE是一种两阶段、无需训练的分词压缩框架,通过基于多样性和任务相关性的标准修剪视觉分词,显著减少计算开销。

  • Motivation: 大型视觉语言模型(LVLM)中视觉分词的表示通常比文本分词多得多,导致计算开销大。现有方法多依赖分词重要性作为冗余指标,但忽略了多样性和任务相关性。
  • Method: ToDRE采用两阶段方法:1)使用贪婪k中心算法选择保留多样化的视觉分词;2)在LLM解码器中进一步修剪任务无关的视觉分词。
  • Result: 实验表明,ToDRE减少了90%的视觉分词,总推理时间加速2.6倍,同时保持95.1%的模型性能。
  • Conclusion: ToDRE通过多样性和任务相关性标准高效修剪视觉分词,显著提升计算效率且兼容高效注意力机制。

[55] StyleGuard: Preventing Text-to-Image-Model-based Style Mimicry Attacks by Style Perturbations

Yanjie Li,Wenxuan Zhang,Xinqi Lyu,Yihao Liu,Bin Xiao

Main category: cs.CV

TL;DR: StyleGuard提出了一种新的抗模仿方法,通过优化潜在空间中的风格相关特征和设计新的上采样损失,提高了对抗风格模仿的鲁棒性和跨模型可迁移性。

  • Motivation: 文本到图像扩散模型的广泛使用引发了知识产权保护和欺骗性内容生成的担忧,现有防御方法易受净化攻击且跨模型可迁移性有限。
  • Method: 提出了一种新的风格损失和上采样损失,优化潜在空间中的风格特征并利用集成净化器和上采样器增强扰动能力。
  • Result: 在WikiArt和CelebA数据集上的实验表明,StyleGuard在对抗各种变换和净化攻击方面优于现有方法。
  • Conclusion: StyleGuard能有效对抗多种风格模仿方法,包括DreamBooth和Textual Inversion,具有较高的鲁棒性和跨模型适用性。

[56] Dual-Path Stable Soft Prompt Generation for Domain Generalization

Yuedi Zhang,Shuanghao Bai,Wanqi Zhou,Zhirong Luan,Badong Chen

Main category: cs.CV

TL;DR: 论文提出DPSPG方法,通过负学习和双路径稳定软提示生成,解决了现有提示生成方法中的提示变异性问题,提升了域泛化性能。

  • Motivation: 现有提示生成方法因依赖固定或手动提示输入,难以捕捉域特定特征,且存在提示变异性问题。
  • Method: 提出DPSPG框架,结合负学习和互补提示生成器,生成稳定且泛化性强的提示。
  • Result: 在五个DG基准数据集上,DPSPG表现优于现有方法,同时保持提示稳定性。
  • Conclusion: DPSPG通过负学习提升了提示的鲁棒性和泛化能力,解决了提示变异性问题。

[57] OmniGenBench: A Benchmark for Omnipotent Multimodal Generation across 50+ Tasks

Jiayu Wang,Yang Jiao,Yue Yu,Tianwen Qian,Shaoxiang Chen,Jingjing Chen,Yu-Gang Jiang

Main category: cs.CV

TL;DR: OmniGenBench是一个全面评估大型多模态模型指令遵循能力的基准,包含57个子任务,采用双模式协议进行评估。

  • Motivation: 当前基准无法全面评估大型多模态模型的多样化能力,因此需要更全面的评估工具。
  • Method: 设计OmniGenBench基准,包含57个子任务,使用视觉解析工具和基于LLM的评判器进行双模式评估。
  • Result: 评估了主流生成模型(如GPT-4o、Gemini-2.0-Flash等),并提供了性能的深入比较与分析。
  • Conclusion: OmniGenBench为评估大型多模态模型的指令遵循能力提供了全面且系统的工具。

[58] Think Twice before Adaptation: Improving Adaptability of DeepFake Detection via Online Test-Time Adaptation

Hong-Hanh Nguyen-Le,Van-Tuan Tran,Dinh-Thuc Nguyen,Nhien-An Le-Khac

Main category: cs.CV

TL;DR: 论文提出了一种名为T²A的新方法,通过不确定性感知的负学习目标提升Deepfake检测器在推理时的适应性,无需源训练数据或标签。

  • Motivation: Deepfake检测器在真实环境中因后处理操作或分布偏移导致性能下降,需提升其适应性。
  • Method: 提出了T²A方法,结合不确定性感知负学习、不确定样本优先策略和梯度掩码技术。
  • Result: 理论分析显示负学习目标与熵最小化互补,实验表明T²A优于现有TTA方法,提升了检测器的鲁棒性和泛化能力。
  • Conclusion: T²A是一种有效的在线测试时适应方法,显著提升了Deepfake检测器的性能。

[59] VORTA: Efficient Video Diffusion via Routing Sparse Attention

Wenhao Sun,Rong-Cheng Tu,Yifu Ding,Zhao Jin,Jingyi Liao,Shunyu Liu,Dacheng Tao

Main category: cs.CV

TL;DR: VDiTs视频生成效率低,VORTA框架通过稀疏注意力机制和路由策略提升速度,最高达14.41倍,且不影响质量。

  • Motivation: 解决VDiTs因高维视频序列注意力计算复杂度高导致的效率问题。
  • Method: 提出VORTA框架,包含稀疏注意力机制和自适应路由策略。
  • Result: 实现1.76倍端到端加速,兼容其他方法后可达14.41倍加速,性能损失可忽略。
  • Conclusion: VORTA显著提升VDiTs效率,增强其实际应用价值。

[60] SAMA: Towards Multi-Turn Referential Grounded Video Chat with Large Language Models

Ye Sun,Hao Zhang,Henghui Ding,Tiehua Zhang,Xingjun Ma,Yu-Gang Jiang

Main category: cs.CV

TL;DR: 论文提出了SAMA-239K数据集、SAMA模型和SAMA-Bench基准,以解决视频多模态模型中细粒度时空理解的挑战,并在实验中取得了显著成果。

  • Motivation: 当前视频多模态模型在细粒度时空理解方面存在挑战,尤其是视频引用理解和视频定位任务孤立处理,缺乏高质量的统一数据和评估基准。
  • Method: 提出SAMA-239K数据集、SAMA模型(结合时空上下文聚合器和Segment Anything Model)和SAMA-Bench基准,实现联合学习和评估。
  • Result: SAMA在SAMA-Bench上表现优异,同时在通用定位基准上达到新SOTA,并在标准视觉理解任务中保持竞争力。
  • Conclusion: 通过数据集、模型和基准的联合贡献,论文显著提升了视频多模态模型的细粒度时空理解能力。

[61] Reasoning Segmentation for Images and Videos: A Survey

Yiqing Shen,Chenjia Li,Fei Xiong,Jeong-O Jeong,Tianpeng Wang,Michael Latman,Mathias Unberath

Main category: cs.CV

TL;DR: 本文综述了推理分割(RS)领域,探讨了其如何通过自然语言实现直观的人机交互,并分析了26种先进方法、29个数据集及未来方向。

  • Motivation: 填补视觉感知与人类推理能力之间的鸿沟,通过自然语言实现更直观的人机交互。
  • Method: 综述了26种最先进的推理分割方法,并回顾了相关评估指标、29个数据集和基准测试。
  • Result: 总结了推理分割的现有应用及其潜在扩展,分析了当前研究空白。
  • Conclusion: 指出了未来研究方向,强调了推理分割在推动人机交互中的潜力。

[62] Self-Supervised and Generalizable Tokenization for CLIP-Based 3D Understanding

Guofeng Mei,Bin Ren,Juan Liu,Luigi Riz,Xiaoshui Huang,Xu Zheng,Yongshun Gong,Ming-Hsuan Yang,Nicu Sebe,Fabio Poiesi

Main category: cs.CV

TL;DR: 论文提出了一种通用的3D标记器S4Token,用于解决跨域泛化问题,结合超点分组和坐标尺度归一化,显著优于传统方法。

  • Motivation: 标准方法(如k近邻或基于半径的标记化)对数据集特定空间尺度敏感,限制了跨域泛化能力。
  • Method: 提出S4Token标记化流程,结合超点分组和坐标尺度归一化,通过掩码点建模和聚类目标训练,并与2D多视图图像特征对齐。
  • Result: S4Token在实验中表现优于传统方法,实现了尺度不变的表示学习。
  • Conclusion: S4Token是一种无需标注的通用3D标记器,适用于密集预测任务,并能恢复点级细节。

[63] MSLAU-Net: A Hybird CNN-Transformer Network for Medical Image Segmentation

Libin Lan,Yanxin Li,Xiaojuan Liu,Juan Zhou,Jianxun Zhang,Nannan Huang,Yudong Zhang

Main category: cs.CV

TL;DR: 提出了一种名为MSLAU-Net的混合CNN-Transformer架构,结合两者的优势,解决了CNN缺乏全局信息和Transformer计算复杂的问题。

  • Motivation: CNN难以捕捉全局信息,Transformer计算复杂且局部特征建模不足,需要一种结合两者优势的方法。
  • Method: 引入多尺度线性注意力机制和自上而下的特征聚合机制,高效提取多尺度特征并降低计算复杂度。
  • Result: 在多个基准数据集上表现优于现有方法,验证了方法的优越性和鲁棒性。
  • Conclusion: MSLAU-Net是一种高效、鲁棒的医学图像分割方法,结合了CNN和Transformer的优势。

[64] Localizing Knowledge in Diffusion Transformers

Arman Zarei,Samyadeep Basu,Keivan Rezaei,Zihao Lin,Sayan Nag,Soheil Feizi

Main category: cs.CV

TL;DR: 本文提出了一种模型和知识无关的方法,用于定位Diffusion Transformer(DiT)块中特定知识的编码位置,并验证了其有效性和应用价值。

  • Motivation: 研究DiT模型中知识的分布,以提高模型的可解释性、可控性和适应性。
  • Method: 提出了一种模型和知识无关的定位方法,并在PixArt-alpha、FLUX和SANA等DiT模型上验证了其有效性。
  • Result: 定位的DiT块具有可解释性,并与生成输出中的知识表达存在因果关系。该方法在模型个性化和知识遗忘应用中表现出高效性和针对性。
  • Conclusion: 研究揭示了DiT内部结构的新见解,并为模型编辑提供了更高效、可控的实用方法。

[65] Inference Compute-Optimal Video Vision Language Models

Peiqi Wang,ShengYun Peng,Xuewen Zhang,Hanchao Yu,Yibo Yang,Lifu Huang,Fujun Liu,Qifan Wang

Main category: cs.CV

TL;DR: 研究视频视觉语言模型中语言模型大小、帧数和每帧视觉标记数的最优分配,提出在固定推理计算预算下的最优配置方法。

  • Motivation: 以往工作通常忽视资源限制,本研究旨在在固定计算预算下找到最优模型配置。
  • Method: 通过大规模训练扫描和参数化建模,确定推理计算最优边界。
  • Result: 实验揭示了任务性能与扩展因素及微调数据大小的关系,以及数据大小变化对最优边界的影响。
  • Conclusion: 研究结果为选择扩展因素提供了实用建议。

[66] Eye-See-You: Reverse Pass-Through VR and Head Avatars

Ankan Dash,Jingyi Gu,Guiling Wang,Chen Chen

Main category: cs.CV

TL;DR: RevAvatar利用AI技术解决VR头显遮挡用户面部的问题,通过生成高保真2D面部图像和3D头像,提升虚拟与物理环境的交互体验。

  • Motivation: VR头显遮挡用户眼睛和部分面部,阻碍视觉交流并可能导致社交孤立。
  • Method: 结合生成模型和多模态AI技术,从部分观察区域重建2D面部图像和3D头像,并引入VR-Face数据集。
  • Result: 实现了虚拟与物理环境的无缝交互,提升了VR会议和社交体验。
  • Conclusion: RevAvatar展示了AI与下一代技术的协同效应,为虚拟环境中的人际连接提供了强大平台。

[67] Sparse VideoGen2: Accelerate Video Generation with Sparse Attention via Semantic-Aware Permutation

Shuo Yang,Haocheng Xi,Yilong Zhao,Muyang Li,Jintao Zhang,Han Cai,Yujun Lin,Xiuyu Li,Chenfeng Xu,Kelly Peng,Jianfei Chen,Song Han,Kurt Keutzer,Ion Stoica

Main category: cs.CV

TL;DR: SVG2提出了一种无需训练的框架,通过语义感知的排列和动态预算控制,显著提升了视频生成的效率和质量。

  • Motivation: 现有的稀疏注意力方法在关键令牌识别和计算效率上存在不足,导致生成质量不理想。
  • Method: SVG2采用语义感知的k-means聚类和重新排序令牌,结合动态预算控制和定制内核实现。
  • Result: SVG2在HunyuanVideo和Wan 2.1上分别实现了2.30x和1.89x的加速,同时保持了高PSNR。
  • Conclusion: SVG2在生成质量和效率之间达到了帕累托最优,为视频生成提供了高效解决方案。

[68] REGen: Multimodal Retrieval-Embedded Generation for Long-to-Short Video Editing

Weihan Xu,Yimeng Ma,Jingyue Huang,Yang Li,Wenye Ma,Taylor Berg-Kirkpatrick,Julian McAuley,Paul Pu Liang,Hao-Wen Dong

Main category: cs.CV

TL;DR: 提出了一种新的视频编辑模型REGEN,结合检索和生成方法,生成具有连贯叙事和嵌入视频片段的短视频。

  • Motivation: 现有提取式视频摘要方法缺乏连贯叙事,而抽象式方法无法引用输入视频片段。
  • Method: 采用检索-嵌入生成框架,首先生成带占位符的脚本,再用检索模型选择最佳视频片段替换占位符。
  • Result: 在纪录片预告生成任务中,REGEN在连贯性、对齐性和真实性上优于现有方法。
  • Conclusion: REGEN有效解决了视频摘要中叙事连贯和引用视频片段的难题。

[69] SD-OVON: A Semantics-aware Dataset and Benchmark Generation Pipeline for Open-Vocabulary Object Navigation in Dynamic Scenes

Dicong Qiu,Jiadi You,Zeying Gong,Ronghe Qiu,Hui Xiong,Junwei Liang

Main category: cs.CV

TL;DR: SD-OVON提出了一种基于多模态基础模型的动态场景开放词汇导航数据集生成方法,支持无限生成逼真场景,并提供两个预生成数据集和基准测试。

  • Motivation: 现有数据集多限于静态环境,缺乏动态场景和可操作对象的支持,限制了导航任务的真实性和复杂性。
  • Method: 利用预训练多模态基础模型生成逼真动态场景,并提供Habitat模拟器兼容的任务插件,同时发布两个预生成数据集。
  • Result: 提出了SD-OVON-3k和SD-OVON-10k数据集,覆盖动态场景和可操作对象,支持真实到模拟和模拟到真实的机器人应用。
  • Conclusion: SD-OVON提升了导航任务的真实性和复杂性,为开放词汇导航任务提供了有效的训练和评估工具。

[70] Beyond Domain Randomization: Event-Inspired Perception for Visually Robust Adversarial Imitation from Videos

Andrea Ramazzina,Vittorio Giammarino,Matteo El-Hariry,Mario Bijelic

Main category: cs.CV

TL;DR: 论文提出了一种基于事件感知的视觉模仿方法,通过将RGB视频转换为稀疏的事件表示,消除外观特征的影响,从而在专家和学习者环境存在视觉差异时实现鲁棒模仿。

  • Motivation: 模仿学习在视觉域差异(如光照、颜色或纹理)下表现不佳,现有方法(如视觉随机化)计算成本高且难以应对未见场景。
  • Method: 将标准RGB视频转换为稀疏的事件表示,编码时间强度梯度,忽略静态外观特征,从而解耦运动动态与视觉风格。
  • Result: 在DeepMind Control Suite和Adroit平台上验证了方法的有效性,实现了对视觉干扰的鲁棒性,无需昂贵的数据增强。
  • Conclusion: 事件感知方法为视觉模仿提供了一种高效且鲁棒的解决方案,尤其在视觉域差异显著时表现突出。

[71] Are Vision Language Models Ready for Clinical Diagnosis? A 3D Medical Benchmark for Tumor-centric Visual Question Answering

Yixiong Chen,Wenjie Xiao,Pedro R. A. S. Bassi,Xinze Zhou,Sezgin Er,Ibrahim Ethem Hamamci,Zongwei Zhou,Alan Yuille

Main category: cs.CV

TL;DR: DeepTumorVQA是一个针对腹部肿瘤CT扫描的诊断性视觉问答基准,评估了四种先进视觉语言模型在识别、测量和推理任务中的表现,发现现有模型在临床需求上仍有不足。

  • Motivation: 评估视觉语言模型在3D临床诊断中的表现,尤其是在识别精度、推理能力和领域知识方面的严格需求。
  • Method: 构建了包含9,262个CT扫描和395K专家级问题的DeepTumorVQA基准,测试了四种先进模型(RadFM、M3D、Merlin、CT-CHAT)。
  • Result: 当前模型在测量任务中表现尚可,但在病灶识别和推理方面仍有困难,未满足临床需求。RadFM因大规模多模态预训练表现突出。
  • Conclusion: 大规模多模态预训练和适当的视觉模块设计对3D感知至关重要,DeepTumorVQA为医学多模态研究提供了严格基准。

[72] LLM-Guided Taxonomy and Hierarchical Uncertainty for 3D Point CLoud Active Learning

Chenxi Li,Nuo Chen,Fengyun Tan,Yantong Chen,Bochun Yuan,Tianrui Li,Chongshou Li

Main category: cs.CV

TL;DR: 提出了一种新颖的主动学习框架,首次将大语言模型(LLMs)用于3D点云语义分割,构建层次化标签结构并指导基于不确定性的样本选择。

  • Motivation: 现有方法将标签视为扁平且独立的,而本研究利用LLM自动生成多级语义分类,并引入递归不确定性投影机制,以更好地捕捉3D场景的语义结构。
  • Method: 通过LLM提示生成层次化语义分类,并结合递归不确定性投影机制,实现空间多样性和标签感知的点选择。
  • Result: 在S3DIS和ScanNet v2数据集上,该方法在极低标注预算(如0.02%)下实现了高达4%的mIoU提升,显著优于现有基线。
  • Conclusion: 研究展示了LLMs作为3D视觉知识先验的潜力,并确立了层次化不确定性建模为高效点云标注的有效范式。

[73] Words as Geometric Features: Estimating Homography using Optical Character Recognition as Compressed Image Representation

Ross Greer,Alisha Ukani,Katherine Izhikevich,Earlence Fernandes,Stefan Savage,Alex C. Snoeren

Main category: cs.CV

TL;DR: 提出了一种基于OCR输出的文档对齐方法,无需原始图像数据,适用于隐私或存储受限的场景。

  • Motivation: 传统文档对齐方法依赖原始图像数据,但在隐私或存储受限时不可行。
  • Method: 利用OCR输出的空间位置和文本内容进行单应性估计,结合RANSAC处理OCR噪声。
  • Result: 在测试文档上,OCR方法比传统图像方法更准确,且更高效、可扩展。
  • Conclusion: 该方法为文档处理提供了高效解决方案,减少了对高维图像数据的依赖。

[74] WeedNet: A Foundation Model-Based Global-to-Local AI Approach for Real-Time Weed Species Identification and Classification

Yanben Shen,Timilehin T. Ayanlade,Venkata Naresh Boddepalli,Mojdeh Saadati,Ashlyn Rairdin,Zi K. Deng,Muhammad Arbab Arshad,Aditya Balu,Daren Mueller,Asheesh K Singh,Wesley Everman,Nirav Merchant,Baskar Ganapathysubramanian,Meaghan Anderson,Soumik Sarkar,Arti Singh

Main category: cs.CV

TL;DR: WeedNet是全球首个大规模杂草识别模型,通过自监督学习和微调策略,实现了高精度识别,并展示了在农业机器人平台中的潜力。

  • Motivation: 早期杂草识别对有效管理至关重要,但现有AI模型面临数据不足和形态特征复杂性的挑战。
  • Method: WeedNet采用端到端实时识别流程,结合自监督学习、微调和可信增强策略,并支持从全局到局部的适应性调整。
  • Result: 模型在1,593种杂草中达到91.02%准确率,局部模型(如爱荷华州)准确率高达97.38%。
  • Conclusion: WeedNet的通用性和适应性使其成为基础模型,支持区域定制化,并有望与农业机器人平台结合,提供智能咨询服务。

[75] Geometry-guided Online 3D Video Synthesis with Multi-View Temporal Consistency

Hyunho Ha,Lei Xiao,Christian Richardt,Thu Nguyen-Phuoc,Changil Kim,Min H. Kim,Douglas Lanman,Numair Khan

Main category: cs.CV

TL;DR: 提出了一种基于几何引导的在线视频视角合成方法,解决了传统方法在计算资源与合成质量之间的权衡问题。

  • Motivation: 传统方法需要密集多视角相机和高计算资源,而选择性输入方法虽降低成本但牺牲质量,导致视角和时间不一致。
  • Method: 利用全局几何引导图像渲染流程,通过时间上的颜色差异掩码逐步优化深度图,并使用截断符号距离场累积深度信息,结合预训练混合网络实现多视角和时间一致性。
  • Result: 实现了高效、高质量的在线视频视角合成,具有视角和时间一致性。
  • Conclusion: 该方法在保证高质量合成的同时,实现了高效的在线运行。

[76] Echo Planning for Autonomous Driving: From Current Observations to Future Trajectories and Back

Jintao Sun,Hu Zhang,Gangyi Ding,Zhedong Zheng

Main category: cs.CV

TL;DR: Echo Planning提出了一种自校正框架,通过CFC循环确保轨迹预测与场景动态的时间一致性,显著提升自动驾驶规划性能。

  • Motivation: 现有端到端自动驾驶系统的规划器缺乏时间一致性机制,导致早期预测错误随时间累积。
  • Method: 引入CFC循环(Current - Future - Current),通过双向一致性约束轨迹预测与场景重建,利用循环损失惩罚不合理的轨迹。
  • Result: 在nuScenes数据集上表现优异,L2误差降低0.04米,碰撞率减少0.12%。
  • Conclusion: Echo Planning无需额外监督,为安全关键系统提供了可部署的解决方案。

[77] OpenHOI: Open-World Hand-Object Interaction Synthesis with Multimodal Large Language Model

Zhenhao Zhang,Ye Shi,Lingxiao Yang,Suting Ni,Qi Ye,Jingya Wang

Main category: cs.CV

TL;DR: OpenHOI是一个开放世界3D手-物体交互合成框架,通过多模态大语言模型和扩散模型实现对新物体和自由语言指令的通用处理。

  • Motivation: 现有方法在封闭集物体和预定义任务上表现良好,但难以处理未见物体或开放词汇指令,因此需要一种通用框架。
  • Method: 结合3D多模态大语言模型进行交互区域定位和任务分解,并使用扩散模型与物理优化生成物理合理的交互。
  • Result: OpenHOI在未见物体类别、多阶段任务和复杂语言指令上优于现有方法。
  • Conclusion: OpenHOI为开放世界手-物体交互合成提供了高效且通用的解决方案。

[78] How Do Images Align and Complement LiDAR? Towards a Harmonized Multi-modal 3D Panoptic Segmentation

Yining Pan,Qiongjie Cui,Xulei Yang,Na Zhao

Main category: cs.CV

TL;DR: 提出了一种名为IAL的多模态3D全景分割框架,通过模态同步数据增强和几何引导特征融合,解决了LiDAR和图像数据对齐问题,并在两个基准测试中达到最优性能。

  • Motivation: LiDAR数据的稀疏性导致远距离或小物体识别困难,现有方法依赖后处理且存在数据对齐问题。
  • Method: 引入模态同步数据增强策略PieAug,设计几何引导特征融合模块GTF和基于先验的查询生成模块PQG。
  • Result: IAL在两个广泛使用的基准测试中实现了最优性能。
  • Conclusion: IAL通过模态同步和特征融合,显著提升了3D全景分割的准确性。

[79] CDPDNet: Integrating Text Guidance with Hybrid Vision Encoders for Medical Image Segmentation

Jiong Wu,Yang Xing,Boxiao Yu,Wei Shao,Kuang Gong

Main category: cs.CV

TL;DR: 论文提出了一种结合CLIP文本嵌入和自监督视觉Transformer的医学图像分割网络(CDPDNet),以解决部分标注数据和多任务学习中的挑战。

  • Motivation: 医学图像数据集通常仅部分标注,限制了模型学习共享解剖结构的能力;现有视觉框架难以捕捉复杂解剖关系和任务特异性。
  • Method: 结合CNN和DINOv2提取视觉特征,引入CLIP文本嵌入和多头交叉注意力模块,设计任务提示生成模块(TTPG)指导分割。
  • Result: 在多个医学图像数据集上,CDPDNet性能优于现有最优方法。
  • Conclusion: CDPDNet通过融合视觉和文本信息,显著提升了分割精度和泛化能力。

[80] MGD3: Mode-Guided Dataset Distillation using Diffusion Models

Jeffrey A. Chan-Santiago,Praveen Tirupattur,Gaurav Kumar Nayak,Gaowen Liu,Mubarak Shah

Main category: cs.CV

TL;DR: 提出一种基于预训练扩散模型的数据集蒸馏方法,无需微调即可提升样本多样性,显著降低计算成本。

  • Motivation: 现有数据集蒸馏方法需微调模型以确保多样性,但效果有限且计算成本高。
  • Method: 采用三阶段模式引导扩散模型:模式发现、模式引导和停止引导,避免微调。
  • Result: 在多个数据集上准确率提升显著(最高4.4%),计算成本降低。
  • Conclusion: 该方法高效且无需微调,为数据集蒸馏提供了新思路。

[81] VL-SAM-V2: Open-World Object Detection with General and Specific Query Fusion

Zhiwei Lin,Yongtao Wang

Main category: cs.CV

TL;DR: VL-SAM-V2是一个开放世界目标检测框架,结合开放集和开放端模型的查询,通过通用和特定查询融合模块提升性能,并在LVIS数据集上表现优异。

  • Motivation: 当前感知模型在开放世界环境中对新对象的检测能力有限,开放端模型性能较低,需要改进。
  • Method: 结合开放集和开放端模型的查询,提出通用和特定查询融合模块,引入排序可学习查询和去噪点训练策略。
  • Result: 在LVIS数据集上,VL-SAM-V2超越了之前的开放集和开放端方法,尤其在稀有对象上表现突出。
  • Conclusion: VL-SAM-V2通过融合查询和改进训练策略,显著提升了开放世界目标检测的性能。

[82] NTIRE 2025 Challenge on Video Quality Enhancement for Video Conferencing: Datasets, Methods and Results

Varun Jain,Zongwei Wu,Quan Zou,Louis Florentin,Henrik Turbell,Sandeep Siddhartha,Radu Timofte,others

Main category: cs.CV

TL;DR: 本文综述了CVPR 2025 NTIRE研讨会上举办的视频会议质量增强挑战赛,包括问题陈述、数据集、解决方案和结果。

  • Motivation: 挑战赛旨在设计视频质量增强(VQE)模型,以提升视频会议中的光照、色彩、降噪和清晰度,达到专业工作室效果。
  • Method: 参与者使用可微视频质量评估(VQA)模型,基于训练和测试视频设计解决方案。
  • Result: 91名参与者注册,收到10份有效提交,通过众包框架评估。
  • Conclusion: 挑战赛成功展示了视频质量增强的多种解决方案,推动了该领域的发展。

[83] SPARS: Self-Play Adversarial Reinforcement Learning for Segmentation of Liver Tumours

Catalina Tan,Yipeng Hu,Shaheer U. Saeed

Main category: cs.CV

TL;DR: SPARS是一种弱监督语义分割框架,利用少量图像级二元标签定位CT扫描中的癌症区域,性能接近全监督方法。

  • Motivation: 手动标注肿瘤区域耗时且主观,全监督方法需要大量昂贵的3D体素级标签,而SPARS旨在减少对人工标注的依赖。
  • Method: SPARS通过训练图像级二元癌症存在分类器,利用自对抗强化学习定位癌症区域。
  • Result: SPARS在真实患者数据中达到平均Dice分数77.3±9.4,优于其他弱监督方法,接近全监督方法。
  • Conclusion: SPARS展示了减少人工标注需求的潜力,适用于实际医疗场景中的癌症检测。

[84] Kernel Space Diffusion Model for Efficient Remote Sensing Pansharpening

Hancong Jin,Zihan Cao,Liangjian Deng

Main category: cs.CV

TL;DR: 提出了一种基于扩散模型的KSDiff方法,用于提升遥感图像融合的质量和效率。

  • Motivation: 现有深度学习方法难以捕捉遥感数据的全局先验,而扩散模型虽有效但推理延迟高。
  • Method: KSDiff在潜在空间中利用扩散过程生成卷积核,结合低秩核心张量生成器和统一因子生成器,采用结构感知多头注意力机制。
  • Result: 在WorldView-3、GaoFen-2和QuickBird数据集上表现出色,质量和效率均优于现有方法。
  • Conclusion: KSDiff通过改进扩散模型在遥感图像融合中的应用,显著提升了性能并降低了推理延迟。

[85] VPGS-SLAM: Voxel-based Progressive 3D Gaussian SLAM in Large-Scale Scenes

Tianchen Deng,Wenhua Wu,Junjie He,Yue Pan,Xirui Jiang,Shenghai Yuan,Danwei Wang,Hesheng Wang,Weidong Chen

Main category: cs.CV

TL;DR: VPGS-SLAM是一种基于3D高斯泼溅的大规模RGBD SLAM框架,适用于室内外场景,解决了现有方法在小房间场景中的局限性及内存爆炸问题。

  • Motivation: 现有3DGS-based SLAM方法仅适用于小房间场景,且在大规模场景和长序列中内存消耗大,因此需要一种更高效、鲁棒的解决方案。
  • Method: 提出基于体素的渐进式3D高斯映射方法,结合子地图和2D-3D融合相机跟踪,以及2D-3D高斯闭环检测和子地图融合方法。
  • Result: 在各种室内外数据集上验证了框架的优越性和泛化能力。
  • Conclusion: VPGS-SLAM能够扩展到任意场景,提高鲁棒性,并实现全局一致性。

[86] Co-AttenDWG: Co-Attentive Dimension-Wise Gating and Expert Fusion for Multi-Modal Offensive Content Detection

Md. Mithun Hossain,Md. Shakil Hossain,Sudipto Chaki,M. F. Mridha

Main category: cs.CV

TL;DR: 论文提出了一种名为Co-AttenDWG的新型多模态学习架构,通过双路径编码、共注意力机制和维度门控技术,显著提升了多模态任务的性能。

  • Motivation: 当前多模态学习方法在跨模态交互和静态融合策略上存在不足,未能充分利用不同模态的互补性。
  • Method: 采用双路径编码、共注意力机制与维度门控网络,结合专家融合模块生成统一表示。
  • Result: 在MIMIC和SemEval Memotion 1.0数据集上取得了显著的性能提升和跨模态对齐效果。
  • Conclusion: Co-AttenDWG架构在多模态任务中表现出色,具有广泛的应用潜力。

[87] Can Multimodal Large Language Models Understand Spatial Relations?

Jingping Liu,Ziyan Liu,Zhedong Cen,Yan Zhou,Yinan Zou,Weiyan Zhang,Haiyun Jiang,Tong Ruan

Main category: cs.CV

TL;DR: SpatialMQA是一个基于COCO2017的人工标注空间关系推理基准,旨在解决现有基准依赖边界框、忽略视角替换等问题,提升多模态大语言模型对图像的理解能力。

  • Motivation: 现有基准存在依赖边界框、忽略视角替换或仅依赖先验知识等问题,限制了多模态大语言模型对客观世界的理解。
  • Method: 设计了精细的标注流程,构建了包含5,392个样本的SpatialMQA基准,并测试了多个开源和闭源MLLM模型。
  • Result: 当前最先进的MLLM准确率仅为48.14%,远低于人类水平的98.40%。
  • Conclusion: SpatialMQA为未来研究提供了方向,基准和代码已开源。

[88] Rethinking Metrics and Benchmarks of Video Anomaly Detection

Zihao Liu,Xiaoyu Wu,Wenna Li,Linlin Yang

Main category: cs.CV

TL;DR: 本文重新思考了视频异常检测(VAD)的评估协议,提出了三种新方法以解决现有评估指标的局限性,包括多轮注释的平均AUC/AP、延迟感知平均精度(LaAP)和两个硬正常基准。

  • Motivation: 现有VAD研究主要关注模型架构和训练策略,而忽视了评估指标和基准的不足。本文通过实验分析揭示了当前评估实践的三个关键局限性。
  • Method: 提出三种新评估方法:多轮注释的平均AUC/AP、LaAP指标和两个硬正常基准(UCF-HN、MSAD-HN)。
  • Result: 通过新方法对十种最先进的VAD方法进行了性能比较,为未来VAD模型开发提供了新视角。
  • Conclusion: 本文提出的评估方法解决了现有VAD评估的局限性,为未来研究提供了更全面的评估框架。

[89] A Smart Healthcare System for Monkeypox Skin Lesion Detection and Tracking

Huda Alghoraibi,Nuha Alqurashi,Sarah Alotaibi,Renad Alkhudaydi,Bdoor Aldajani,Lubna Alqurashi,Jood Batweel,Maha A. Thafar

Main category: cs.CV

TL;DR: 研究人员开发了ITMAINN系统,利用深度学习技术从皮肤病变图像中检测猴痘,并通过移动应用和实时监控仪表板支持公共卫生响应。

  • Motivation: 全球猴痘疫情爆发,亟需可扩展、易获取且准确的诊断解决方案。
  • Method: 结合预训练模型(如Vision Transformer、MobileViT等)进行迁移学习,开发跨平台智能手机应用和实时监控仪表板。
  • Result: 最佳模型在二元分类中准确率达97.8%,多分类中达92%。系统支持用户检测猴痘并追踪症状。
  • Conclusion: ITMAINN系统为智慧城市中的公共卫生管理提供了革命性解决方案。

[90] InfoChartQA: A Benchmark for Multimodal Question Answering on Infographic Charts

Minzhi Lin,Tianchi Xie,Mengchen Liu,Yilin Ye,Changjian Chen,Shixia Liu

Main category: cs.CV

TL;DR: 论文提出了InfoChartQA基准,用于评估多模态大语言模型在信息图表理解上的表现,揭示了现有模型在视觉元素推理上的不足。

  • Motivation: 现有视觉问答基准缺乏对信息图表中设计驱动视觉元素(如图标、象形图)的评估能力,无法全面测试多模态大语言模型的视觉识别与推理能力。
  • Method: 引入InfoChartQA基准,包含5,642对信息图表与普通图表,设计基于视觉元素的问题以评估模型表现。
  • Result: 评估20个多模态大语言模型发现,信息图表表现显著下降,尤其是涉及隐喻的视觉元素问题。
  • Conclusion: InfoChartQA为提升多模态大语言模型在信息图表理解上的能力提供了新机会,并开放了数据集。

[91] Medical Large Vision Language Models with Multi-Image Visual Ability

Xikai Yang,Juzheng Miao,Yuchen Yuan,Jiaze Wang,Qi Dou,Jinpeng Li,Pheng-Ann Heng

Main category: cs.CV

TL;DR: 论文提出了Med-MIM指令数据集和基准测试,用于增强医疗多图像理解能力,并展示了两个优化模型在基准测试中的优越性能。

  • Motivation: 当前医疗大视觉语言模型(LVLMs)在多图像临床场景中的能力尚未充分探索,需要支持复杂的视觉理解能力。
  • Method: 构建了包含83.2K医疗多图像问答对的Med-MIM数据集,并微调Mantis和LLaVA-Med模型,开发了Med-MIM基准测试。
  • Result: 优化后的模型Med-Mantis和MIM-LLaVA-Med在Med-MIM基准测试中表现优异。
  • Conclusion: Med-MIM数据集有效提升了LVLMs在医疗领域的多图像理解能力。

[92] Disentangled Human Body Representation Based on Unsupervised Semantic-Aware Learning

Lu Wang,Xishuai Peng,S. Kevin Zhou

Main category: cs.CV

TL;DR: 提出了一种无监督学习框架下的高精度、可控细粒度语义的人体表示方法,通过骨架分组解耦策略和基于模板的残差学习方案实现。

  • Motivation: 现有方法因复杂的手工定义约束和缺乏监督数据,难以在语义和表示能力上精确控制人体表示。
  • Method: 采用骨架分组解耦策略和基于模板的残差学习方案,结合无监督解耦损失和部分感知解码器。
  • Result: 在公开3D人体数据集上展示了高精度重建能力,并支持多种应用如姿态迁移和潜在码插值。
  • Conclusion: 该方法在无监督框架下实现了高精度和可控语义的人体表示,具有广泛的应用潜力。

[93] Less is More: Efficient Point Cloud Reconstruction via Multi-Head Decoders

Pedro Alonso,Tianrui Li,Chongshou Li

Main category: cs.CV

TL;DR: 论文挑战了深度解码器架构在点云重建中性能必然提升的假设,提出多头部解码器架构,通过多独立头部重建点云,显著提升性能。

  • Motivation: 探索解码器深度对点云重建性能的影响,发现过深会导致过拟合,提出多头部架构以利用点云冗余性。
  • Method: 设计多头部解码器,每个头部独立处理点云子集,最终拼接预测结果,增强多样性和保真度。
  • Result: 在ModelNet40和ShapeNetPart数据集上,多头部架构在CD、HD、EMD和F1-score等指标上优于单头部基线。
  • Conclusion: 点云重建中,输出多样性和架构设计比单纯增加深度更重要。

[94] Training-free Stylized Text-to-Image Generation with Fast Inference

Xin Ma,Yaohui Wang,Xinyuan Chen,Tien-Tsin Wong,Cunjian Chen

Main category: cs.CV

TL;DR: 提出了一种无需微调或优化的新方法OmniPainter,利用预训练扩散模型实现风格化图像生成。

  • Motivation: 现有基于扩散模型的风格化图像生成方法需要文本反转或微调,耗时且限制了大模型的实际应用。
  • Method: 利用潜在一致性模型的自一致性属性提取风格统计信息,并引入自注意力范数混合机制指导风格化过程。
  • Result: 定性和定量实验表明,该方法优于现有最先进方法。
  • Conclusion: OmniPainter提供了一种高效且无需额外优化的风格化图像生成方案。

[95] MMP-2K: A Benchmark Multi-Labeled Macro Photography Image Quality Assessment Database

Jiashuo Chang,Zhengyi Li,Jianxun Lou,Zhen Qiu,Hanhe Lin

Main category: cs.CV

TL;DR: 该论文提出了一个针对宏观摄影图像质量评估(MPIQA)的新数据库MMP-2k,填补了该领域的数据空白,并验证了现有通用IQA指标在MP图像上的不足。

  • Motivation: 宏观摄影在科学研究和医学等领域有重要应用,但缺乏专门的MPIQA数据和指标限制了其发展。
  • Method: 从三个公共图像网站收集15,700张MP图像,筛选2,000张构建MMP-2k数据库,并通过实验室研究获取每张图像的质量评分和详细失真报告。
  • Result: 实验表明,现有的通用IQA指标在MP图像上表现不佳。
  • Conclusion: MMP-2k数据库为MPIQA研究提供了重要资源,并揭示了现有指标的局限性。

[96] ChartSketcher: Reasoning with Multimodal Feedback and Reflection for Chart Understanding

Muye Huang,Lingling Zhang,Jie Ma,Han Lai,Fangzhi Xu,Yifei Li,Wenjun Wu,Yaqiang Wu,Jun Liu

Main category: cs.CV

TL;DR: ChartSketcher是一种多模态反馈驱动的逐步推理方法,通过视觉标注和迭代反馈提升图表理解能力。

  • Motivation: 现有模型在图表理解中因缺乏多模态交互能力而难以纠正视觉理解错误。
  • Method: 提出ChartSketcher,采用Sketch-CoT标注中间推理步骤,并通过两阶段训练策略(冷启动和强化学习)优化模型。
  • Result: 实验表明ChartSketcher在图表理解和视觉任务中表现优异。
  • Conclusion: ChartSketcher提供了一种交互式且可解释的图表理解方法。

[97] Towards Generalized Proactive Defense against Face Swappingwith Contour-Hybrid Watermark

Ruiyang Xia,Dawei Zhou,Decheng Liu,Lin Yuan,Jie Li,Nannan Wang,Xinbo Gao

Main category: cs.CV

TL;DR: 论文提出了一种主动嵌入水印的方法(CMark),用于检测人脸交换技术,无需预先存储大规模数据或依赖特定交换技术。

  • Motivation: 随着AI生成内容的进步,人脸交换的痕迹变得难以检测,因此需要一种主动防御方法。
  • Method: 通过在人脸轮廓区域嵌入混合信息的水印(CMark),结合纹理和身份信息,实现渐进式图像检测。
  • Result: 在8种人脸交换技术上的实验表明,该方法优于现有被动和主动检测器,且在图像质量与水印鲁棒性之间取得平衡。
  • Conclusion: CMark方法能够泛化检测未知的人脸交换技术,具有实用性和高效性。

[98] Jodi: Unification of Visual Generation and Understanding via Joint Modeling

Yifeng Xu,Zhenliang He,Meina Kan,Shiguang Shan,Xilin Chen

Main category: cs.CV

TL;DR: Jodi是一个统一的扩散框架,通过联合建模图像域和多个标签域,将视觉生成与理解任务结合起来。

  • Motivation: 视觉生成与理解在人类智能中紧密相关,但在机器学习中常被分开处理,Jodi旨在统一这两者。
  • Method: 基于线性扩散变换器和角色切换机制,Jodi支持联合生成、可控生成和图像感知任务。
  • Result: Jodi在生成和理解任务中表现优异,并展示了广泛的扩展性。
  • Conclusion: Jodi通过统一框架成功结合了视觉生成与理解,具有实际应用潜力。

[99] Plug-and-Play Context Feature Reuse for Efficient Masked Generation

Xuejie Liu,Anji Liu,Guy Van den Broeck,Yitao Liang

Main category: cs.CV

TL;DR: ReCAP是一种加速掩码生成模型(MGMs)推理的模块,通过重用上下文特征减少计算量,同时保持生成质量。

  • Motivation: MGMs生成高质量样本需要多次迭代解码,导致高推理成本。直接加速方法(如同时解码更多标记)会牺牲生成保真度。
  • Method: 提出ReCAP模块,通过重用先前解码的上下文特征构建低成本步骤,交替使用完整评估和轻量步骤。
  • Result: 在ImageNet256上,ReCAP实现2.4倍加速,性能损失极小,并在多种生成设置下提供更好的效率-保真度权衡。
  • Conclusion: ReCAP是一种高效且通用的加速方法,适用于多种MGMs,显著提升推理速度而不显著影响生成质量。

[100] SATORI-R1: Incentivizing Multimodal Reasoning with Spatial Grounding and Verifiable Rewards

Chuming Shen,Wei Wei,Xiaoye Qu,Yu Cheng

Main category: cs.CV

TL;DR: SATORI提出了一种基于强化学习的多阶段VQA方法,通过分解任务为可验证的步骤,解决了传统自由推理在VQA中的视觉焦点分散和计算成本高的问题。

  • Motivation: 多模态任务与文本任务本质不同,传统自由推理在VQA中会导致视觉焦点分散和计算成本高。
  • Method: SATORI将VQA分解为全局图像描述、区域定位和答案预测三个阶段,每个阶段提供明确的奖励信号,并使用VQA-Verify数据集进行训练。
  • Result: 在七个VQA基准测试中,SATORI比基线方法提升了15.7%的准确率,并增强了关键区域的注意力。
  • Conclusion: SATORI通过多阶段可验证任务优化,显著提升了VQA任务的性能和效率。

[101] An Interpretable Representation Learning Approach for Diffusion Tensor Imaging

Vishwa Mohan Singh,Alberto Gaston Villagran Asiares,Luisa Sophie Schuhmacher,Kate Rendall,Simon Weißbrod,David Rügamer,Inga Körte

Main category: cs.CV

TL;DR: 提出了一种新的2D DTI纤维束成像表示方法,通过Beta-Total Correlation VAE和空间广播解码器学习解耦且可解释的潜在嵌入,显著提升了性别分类任务的性能。

  • Motivation: DTI纤维束成像在深度学习模型中的表示和解释存在挑战,需要一种更有效的表示方法。
  • Method: 将DTI纤维束成像的FA值编码为9x9灰度图像,使用Beta-Total Correlation VAE和空间广播解码器学习潜在嵌入。
  • Result: 在性别分类任务中,F1分数比1D Group DNN基线提高了15.74%,且比3D表示具有更好的解耦性。
  • Conclusion: 提出的2D表示方法在性能和可解释性上优于传统方法,为DTI纤维束成像的深度学习应用提供了新思路。

[102] Remote Sensing Image Classification with Decoupled Knowledge Distillation

Yaping He,Jianfeng Cai,Qicong Hu,Peiqing Wang

Main category: cs.CV

TL;DR: 论文提出了一种基于知识蒸馏的轻量级分类方法,通过G-GhostNet和特征重用减少参数,提升推理效率,并在分类精度上接近高参数模型。

  • Motivation: 解决现有遥感图像分类模型参数过多、难以在资源受限设备上部署的问题。
  • Method: 采用G-GhostNet作为主干网络,结合特征重用减少冗余参数,并使用解耦知识蒸馏策略提升分类精度。
  • Result: 在RSOD和AID数据集上,相比VGG-16模型,参数减少6.24倍,Top-1精度接近。
  • Conclusion: 该方法在模型大小和分类性能之间取得了良好平衡,适用于资源受限设备。

[103] CreatiDesign: A Unified Multi-Conditional Diffusion Transformer for Creative Graphic Design

Hui Zhang,Dexiang Hong,Maoke Yang,Yutao Chen,Zhao Zhang,Jie Shao,Xinglong Wu,Zuxuan Wu,Yu-Gang Jiang

Main category: cs.CV

TL;DR: CreatiDesign提出了一种自动化图形设计解决方案,通过统一的多条件驱动架构和注意力掩码机制,解决了现有方法在多条件控制上的局限性。

  • Motivation: 复杂的图形设计场景需要准确遵循用户提供的多元素设计意图,现有单条件或多条件方法难以实现精细控制和整体和谐。
  • Method: 设计了统一的多条件驱动架构和注意力掩码机制,并构建了包含40万样本的数据集和基准测试。
  • Result: 实验表明,CreatiDesign在忠实遵循用户意图方面显著优于现有模型。
  • Conclusion: CreatiDesign为自动化图形设计提供了系统解决方案,解决了多条件控制的挑战。

[104] Freqformer: Image-Demoiréing Transformer via Efficient Frequency Decomposition

Xiaoyang Liu,Bolin Qiu,Jiezhang Cao,Zheng Chen,Yulun Zhang,Xiaokang Yang

Main category: cs.CV

TL;DR: Freqformer是一种基于Transformer的框架,通过频率分离有效解决图像去摩尔纹问题,结合双分支结构和自适应频率融合模块,实现了高性能的去摩尔纹效果。

  • Motivation: 现有方法难以有效分离摩尔纹中的纹理和颜色失真,而基于小波的频率感知方法潜力尚未充分挖掘。
  • Method: Freqformer通过频率分解将摩尔纹分为高频纹理和低频颜色失真,采用双分支结构和自适应频率融合模块(FCT)处理,并引入空间感知通道注意力(SA-CA)模块优化。
  • Result: 在多个去摩尔纹基准测试中,Freqformer以紧凑的模型尺寸实现了最先进的性能。
  • Conclusion: Freqformer通过频率分离和自适应融合,显著提升了去摩尔纹的效果,代码已开源。

[105] Exploring Magnitude Preservation and Rotation Modulation in Diffusion Transformers

Eric Tillman Bill,Cristian Perez Jensen,Sotiris Anagnostidis,Dimitri von Rütte

Main category: cs.CV

TL;DR: 论文探讨了在Diffusion Transformer(DiT)架构中应用幅度保持设计以稳定训练,并提出了一种新的旋转调制条件方法,显著提升了性能。

  • Motivation: 去噪扩散模型训练中梯度估计的高方差导致收敛缓慢,幅度保持设计可能有助于稳定训练。
  • Method: 提出幅度保持设计和旋转调制条件方法,通过实验验证其效果。
  • Result: 幅度保持策略显著降低FID分数约12.8%,旋转调制与缩放结合在参数减少5.4%的情况下与AdaLN竞争。
  • Conclusion: 研究为条件策略和幅度控制提供了新见解,并公开了方法实现。

[106] RTime-QA: A Benchmark for Atomic Temporal Event Understanding in Large Multi-modal Models

Yuqi Liu,Qin Jin,Tianyuan Qu,Xuan Liu,Yang Du,Bei Yu,Jiaya Jia

Main category: cs.CV

TL;DR: RTime-QA是一个新的基准测试,用于评估大型多模态模型(LMMs)的原子时间事件理解能力,包含822个高质量视频-文本问题。RTime-IT是一个14k的指令调优数据集,用于提升LMMs的时间理解能力。实验表明,RTime-QA对LMMs具有挑战性,但RTime-IT能显著提升其性能。

  • Motivation: 当前视频-语言基准测试无法有效评估LMMs的时间事件理解能力,因为它们可以通过图像-语言模型解决。因此,需要专门设计一个基准测试来填补这一空白。
  • Method: 设计了RTime-QA基准测试,包含822个高质量视频-文本问题,每个问题配有正确回答和时间负描述。同时,引入了RTime-IT指令调优数据集,用于提升LMMs的时间理解能力。
  • Result: Qwen2-VL在RTime-QA上的表现仅为34.6(严格准确率),远低于人类水平。但通过RTime-IT微调后,性能提升至65.9。
  • Conclusion: RTime-QA为评估LMMs的时间事件理解能力提供了有效工具,而RTime-IT能显著提升模型性能,填补了现有基准测试的不足。

[107] Veta-GS: View-dependent deformable 3D Gaussian Splatting for thermal infrared Novel-view Synthesis

Myeongseok Nam,Wongi Park,Minsol Kim,Hyejin Hur,Soomok Lee

Main category: cs.CV

TL;DR: Veta-GS通过引入视角依赖变形场和热特征提取器(TFE),解决了基于热红外成像的3D高斯泼溅(3D-GS)在合成新视角时的问题,提升了渲染质量。

  • Motivation: 热红外图像在新视角合成中存在传输效应、发射率和低分辨率等问题,导致渲染图像出现浮点和模糊效果,需要一种更精确的方法来捕捉热变化并保持鲁棒性。
  • Method: 设计了视角依赖变形场,利用相机位置和视角方向捕捉热变化;引入热特征提取器(TFE)和MonoSSIM损失,综合考虑外观、边缘和频率以保持鲁棒性。
  • Result: 在TI-NSD基准测试中,Veta-GS表现优于现有方法。
  • Conclusion: Veta-GS通过创新的变形场和特征提取方法,显著提升了热红外图像的新视角合成质量。

[108] The Eye of Sherlock Holmes: Uncovering User Private Attribute Profiling via Vision-Language Model Agentic Framework

Feiran Liu,Yuzhe Zhang,Xinyi Huang,Yinan Peng,Xinfeng Li,Lixu Wang,Yutong Shen,Ranjie Duan,Simeng Qin,Xiaojun Jia,Qingsong Wen,Wei Dong

Main category: cs.CV

TL;DR: 研究发现视觉语言模型(VLM)代理框架存在新的隐私风险,即通过一组个人图像推断敏感属性(如年龄、健康信息)和抽象属性(如个性、社交特征)。研究构建了PAPI数据集并提出HolmesEye框架,显著提升了隐私属性推断的准确性。

  • Motivation: 现代应用可轻松访问用户相册,而多图像关系可能被用于更复杂的隐私属性推断,但目前缺乏相关数据集和模型能力。
  • Method: 构建PAPI数据集(2510张图像,251人,3012个隐私属性标注),并提出HolmesEye框架,结合VLM和LLM提取图像信息并指导推理。
  • Result: HolmesEye在平均准确率上比现有基线提升10.8%,在抽象属性预测上超越人类表现15.0%。
  • Conclusion: 研究揭示了图像隐私属性推断的紧迫风险,并为未来研究提供了数据集和框架。

[109] DISTA-Net: Dynamic Closely-Spaced Infrared Small Target Unmixing

Shengdong Han,Shangdong Yang,Xin Zhang,Yuxuan Li,Xiang Li,Jian Yang,Ming-Ming Cheng,Yimian Dai

Main category: cs.CV

TL;DR: 该论文提出了一种名为DISTA-Net的动态迭代收缩阈值网络,用于解决红外成像中密集小目标的分离问题,并建立了首个开源生态系统。

  • Motivation: 红外成像中密集小目标的重叠信号导致其数量、亚像素位置和辐射强度难以精确测定,而深度学习在此领域的应用尚未探索。
  • Method: 提出DISTA-Net,通过动态生成卷积权重和阈值参数,实时调整重建过程。
  • Result: DISTA-Net在亚像素检测精度上表现优异,并建立了包含数据集、评估指标和工具包的开源生态系统。
  • Conclusion: DISTA-Net是首个专为密集红外小目标分离设计的深度学习模型,推动了该领域的进一步研究。

[110] MIND-Edit: MLLM Insight-Driven Editing via Language-Vision Projection

Shuyu Wang,Weiqi Li,Qian Wang,Shijie Zhao,Jian Zhang

Main category: cs.CV

TL;DR: MIND-Edit提出了一种结合多模态大语言模型(MLLM)和扩散模型的端到端图像编辑框架,通过优化文本指令和利用MLLM的视觉理解能力,显著提升了编辑的语义准确性和视觉一致性。

  • Motivation: 现有图像编辑方法在复杂场景下难以实现高精度和语义准确性,且MLLM方法主要依赖文本指令,忽视了其视觉理解能力。
  • Method: MIND-Edit结合两种策略:文本指令优化和MLLM视觉嵌入驱动的编辑,并通过联合训练实现策略互补。
  • Result: 实验表明,MIND-Edit在定量指标和视觉质量上均优于现有方法,尤其在复杂场景下表现突出。
  • Conclusion: MIND-Edit通过整合MLLM的视觉理解能力,显著提升了图像编辑的准确性和一致性,为复杂场景下的编辑任务提供了有效解决方案。

[111] FHGS: Feature-Homogenized Gaussian Splatting

Q. G. Duan,Benyun Zhao,Mingqiao Han Yijun Huang,Ben M. Chen

Main category: cs.CV

TL;DR: 论文提出FHGS框架,通过特征融合解决3D高斯泼溅中特征一致性问题,保持实时渲染效率。

  • Motivation: 3D高斯泼溅方法在渲染效率上表现优异,但各向异性的颜色表示与语义特征各向同性需求矛盾,导致跨视角特征一致性不足。
  • Method: 提出FHGS框架,包括通用特征融合架构、非可微特征融合机制和双驱动优化策略,结合预训练模型特征和3D场景映射。
  • Result: FHGS实现了高精度2D特征到3D场景的映射,同时保持3DGS的实时渲染效率。
  • Conclusion: FHGS通过特征融合和优化策略,平衡了渲染与特征表达,提升了跨视角一致性。

[112] Sparse-to-Dense: A Free Lunch for Lossless Acceleration of Video Understanding in LLMs

Xuan Zhang,Cunxiao Du,Sicheng Yu,Jiawei Wu,Fengzhuo Zhang,Wei Gao,Qian Liu

Main category: cs.CV

TL;DR: 论文提出了一种名为Sparse-to-Dense (StD)的解码策略,通过结合稀疏和密集注意力模块,加速视频大语言模型的推理,同时保持性能。

  • Motivation: 当前视频大语言模型的自回归特性导致推理延迟随输入序列长度增加,影响长视频序列的高效处理。
  • Method: StD策略包含稀疏top-K注意力和密集全注意力模块,前者快速解码多个token,后者并行验证。
  • Result: StD实现了1.94倍的加速,且无需调参或大量代码修改。
  • Conclusion: StD是一种高效、即插即用的解决方案,适用于视频处理任务。

[113] A Joint Learning Framework with Feature Reconstruction and Prediction for Incomplete Satellite Image Time Series in Agricultural Semantic Segmentation

Yuze Wang,Mariana Belgiu,Haiyang Wu,Dandan Zhong,Yangyang Cao,Chao Tao

Main category: cs.CV

TL;DR: 提出了一种联合学习框架,通过特征重建和预测处理不完整的卫星图像时间序列(SITS),显著提升了农业语义分割的性能。

  • Motivation: 云污染导致SITS数据缺失,破坏时间依赖性并引发特征偏移,现有方法(如全重建或数据增强)效果有限且泛化性差。
  • Method: 采用联合学习框架,结合特征重建和预测任务,通过时间掩码模拟缺失数据,并利用完整SITS训练的教师模型指导。
  • Result: 在湖南、法国西部和加泰罗尼亚的SITS实验中,平均F1分数在农田提取和作物分类中分别提升了6.93%和7.09%。
  • Conclusion: 该方法能有效处理不同缺失模式和传感器数据,减少噪声传播,提升模型泛化能力。

[114] Benchmarking Laparoscopic Surgical Image Restoration and Beyond

Jialun Pei,Diandian Guo,Donghui Yang,Zhixi Li,Yuxin Feng,Long Ma,Bo Du,Pheng-Ann Heng

Main category: cs.CV

TL;DR: 论文提出一个开源数据集SurgClean,用于解决腹腔镜手术中的视觉退化问题,并评估了22种图像恢复方法的性能。

  • Motivation: 腹腔镜手术中视觉退化(如烟雾、镜头雾化和污染)影响手术效果和患者安全,需系统性解决方案。
  • Method: 构建包含1020张图像的数据集SurgClean,涵盖多种退化类型,并评估22种图像恢复方法。
  • Result: 实验显示现有方法与临床需求存在显著差距,需进一步算法优化。
  • Conclusion: 研究为手术场景图像恢复提供了基础,有助于提升手术效率和安全性。

[115] JEDI: The Force of Jensen-Shannon Divergence in Disentangling Diffusion Models

Eric Tillmann Bill,Enis Simsar,Thomas Hofmann

Main category: cs.CV

TL;DR: JEDI是一种无需重新训练或外部监督的测试时适应方法,通过最小化注意力图中的语义纠缠提升扩散模型的主题分离和组合对齐。

  • Motivation: 解决扩散模型中主题分离和组合对齐的问题,避免需要重新训练或依赖外部监督。
  • Method: 使用基于Jensen-Shannon散度的目标函数最小化语义纠缠,并通过对抗优化提高效率。
  • Result: 在Stable Diffusion 1.5和3.5等架构中显著提升提示对齐和场景解耦能力,并提供轻量化的解耦评分标准。
  • Conclusion: JEDI是一种高效、模型无关的测试时适应方法,适用于多种扩散模型,并公开实现代码。

[116] EventEgoHands: Event-based Egocentric 3D Hand Mesh Reconstruction

Ryosei Hara,Wataru Ikeda,Masashi Hatano,Mariko Isogawa

Main category: cs.CV

TL;DR: 提出了一种基于事件相机的3D手部网格重建新方法EventEgoHands,解决了动态背景和相机运动的干扰问题。

  • Motivation: 传统RGB/深度相机在低光或运动模糊环境下表现不佳,事件相机因其高动态范围和高时间分辨率成为替代方案,但现有研究受限于静态背景和固定相机。
  • Method: 引入Hand Segmentation Module提取手部区域,减少动态背景事件的影响。
  • Result: 在N-HOT3D数据集上验证,MPJPE提升约4.5厘米(43%)。
  • Conclusion: EventEgoHands有效解决了事件相机在动态环境中的3D手部重建问题。

[117] Triangle Splatting for Real-Time Radiance Field Rendering

Jan Held,Renaud Vandeghen,Adrien Deliege,Abdullah Hamdi,Silvio Giancola,Anthony Cioppa,Andrea Vedaldi,Bernard Ghanem,Andrea Tagliasacchi,Marc Van Droogenbroeck

Main category: cs.CV

TL;DR: 本文提出了一种基于三角形的可微分渲染方法,结合了三角形的效率和现代可微分渲染框架,实现了更高的视觉保真度和渲染速度。

  • Motivation: 尽管NeRF和3D高斯泼溅等模型在计算机图形学中取得了成功,但本文认为三角形仍具有潜力,尤其是在兼容性和效率方面。
  • Method: 开发了一种可微分渲染器,通过端到端梯度直接优化三角形,将每个三角形渲染为可微分泼溅。
  • Result: 在Mip-NeRF360数据集上,该方法在视觉保真度和感知质量上优于现有方法,并在Garden场景中实现了2400 FPS的高渲染速度。
  • Conclusion: 三角形结合了传统图形学和现代可微分渲染的优势,为高质量新视角合成提供了高效且有效的解决方案。

[118] Saliency-guided Emotion Modeling: Predicting Viewer Reactions from Video Stimuli

Akhila Yaragoppa,Siddharth

Main category: cs.CV

TL;DR: 该论文提出了一种基于视觉显著性的情感预测方法,通过深度学习提取显著区域特征,揭示了显著性与观众情绪之间的关系。

  • Motivation: 理解视频对情绪的影响对内容创作、广告和人机交互至关重要。传统方法忽略了视觉显著性的作用,本研究旨在填补这一空白。
  • Method: 使用HD2S显著性模型和OpenFace面部动作单元分析,提取显著区域面积和数量特征,研究其与情绪的关系。
  • Result: 发现多显著区域视频引发高愉悦低唤醒情绪,单显著区域视频引发低愉悦高唤醒情绪,且主观报告与面部表情检测不一致。
  • Conclusion: 基于显著性的方法为情感建模提供了高效且可解释的替代方案,对内容创作和情感计算研究有重要意义。

[119] PosePilot: An Edge-AI Solution for Posture Correction in Physical Exercises

Rushiraj Gadhvi,Priyansh Desai,Siddharth

Main category: cs.CV

TL;DR: PosePilot是一个基于AI的实时姿势纠正系统,专注于瑜伽等需要精确时空对齐的运动,结合LSTM和BiLSTM模型提供高效、个性化的反馈。

  • Motivation: 传统健身解决方案在实时姿势纠正方面存在局限性,尤其是在需要精确动作的瑜伽等运动中。
  • Method: 系统采用Vanilla LSTM和BiLSTM结合多头注意力机制,捕捉时间依赖性和运动上下文,专注于关键肢体角度以实现高效错误检测。
  • Result: PosePilot能够实时分析复杂动作并提供即时反馈,同时保持计算效率,适用于边缘设备部署。
  • Conclusion: PosePilot为瑜伽等运动提供了一种轻量级、高效的实时姿势纠正解决方案,具有广泛的应用潜力。

[120] Step-level Reward for Free in RL-based T2I Diffusion Model Fine-tuning

Xinyao Liao,Wei Wei,Xiaoye Qu,Yu Cheng

Main category: cs.CV

TL;DR: 本文提出了一种动态分配密集奖励的信用分配框架,解决了文本到图像扩散模型微调中奖励稀疏的问题,显著提高了训练效率和泛化能力。

  • Motivation: 现有方法在文本到图像扩散模型微调中采用强化学习,但由于奖励稀疏(每个生成轨迹仅有一个延迟奖励),导致训练效率低下,难以精确分配去噪步骤的贡献。
  • Method: 通过跟踪中间图像与最终图像之间的余弦相似度变化,动态分配密集奖励,量化每个去噪步骤对最终图像的贡献,避免使用额外的辅助神经网络。
  • Result: 该方法在四种人类偏好奖励函数上实现了1.25到2倍的样本效率提升,且不损害原始最优策略。
  • Conclusion: 提出的信用分配框架简单有效,显著提升了训练效率和模型泛化能力。

[121] Domain and Task-Focused Example Selection for Data-Efficient Contrastive Medical Image Segmentation

Tyler Ward,Aaron Moseley,Abdullah-Al-Zubaer Imran

Main category: cs.CV

TL;DR: 提出了一种名为PolyCL的自监督对比学习框架,用于医学图像分割,无需像素级标注,结合了Segment Anything Model(SAM)提升分割精度。

  • Motivation: 医学图像分割需要大量标注数据,但标注成本高且耗时,因此需要高效利用有限标注数据的方法。
  • Method: 提出PolyCL框架,通过自监督对比学习从无标注数据中提取特征,并结合SAM作为后处理模块和传播机制。
  • Result: 在三个CT数据集上,PolyCL在低数据和跨域场景中优于全监督和自监督基线方法。
  • Conclusion: PolyCL为医学图像分割提供了一种高效的自监督学习解决方案,结合SAM进一步提升了分割性能。

[122] Towards Understanding the Mechanisms of Classifier-Free Guidance

Xiang Li,Rongrong Wang,Qing Qu

Main category: cs.CV

TL;DR: 论文分析了无分类器引导(CFG)在图像生成中的作用,揭示了其通过均值偏移和对比性主成分(CPC)提升生成质量的机制。

  • Motivation: 尽管CFG是图像生成系统的核心技术,但其机制尚不明确,研究旨在通过线性扩散模型揭示其工作原理。
  • Method: 在线性扩散模型中分析CFG,识别其三个关键组件:均值偏移、正负CPC。
  • Result: 线性CFG的行为与非线性情况相似,验证了其在真实非线性扩散模型中的有效性。
  • Conclusion: 线性分析为理解非线性CFG机制提供了重要见解,尽管两者在低噪声水平下存在差异。

[123] Advancing Video Self-Supervised Learning via Image Foundation Models

Jingwei Wu,Zhewei Huang,Chang Liu

Main category: cs.CV

TL;DR: AdViSe利用预训练图像基础模型(IFMs)进行视频自监督学习,显著减少训练开销,性能接近SOTA。

  • Motivation: 直接利用IFMs进行视频自监督学习的潜力尚未充分挖掘,研究旨在降低视频表示模型的训练成本。
  • Method: 在IFMs中引入时间建模模块(ResNet3D),并采用播放速率感知的自监督学习方法训练时间模块,同时冻结IFM部分。
  • Result: 在UCF101上,AdViSe性能接近SOTA,训练时间减少3.4倍,GPU内存使用减少8.2倍。
  • Conclusion: AdViSe为基于预训练IFMs的低成本视频自监督学习提供了新思路。

[124] RAISE: Realness Assessment for Image Synthesis and Evaluation

Aniruddha Mukherjee,Spriha Dubey,Somdyuti Paul

Main category: cs.CV

TL;DR: 论文提出了一种评估AI生成图像真实感的方法,并创建了包含主观真实感评分的数据集RAISE,通过实验验证了深度视觉模型特征的有效性。

  • Motivation: 由于AI生成视觉内容的真实感评估具有主观性,需要一种可靠的方法来替代真实数据。
  • Method: 通过人类研究评估真实和AI生成图像的感知真实感,创建数据集RAISE,并训练多个模型预测真实感。
  • Result: 实验表明,深度视觉模型特征能有效捕捉主观真实感,RAISE为开发客观评估模型提供了资源。
  • Conclusion: RAISE数据集和基线模型为未来真实感评估研究提供了重要基础。

[125] DriveX: Omni Scene Modeling for Learning Generalizable World Knowledge in Autonomous Driving

Chen Shi,Shaoshuai Shi,Kehua Sheng,Bo Zhang,Li Jiang

Main category: cs.CV

TL;DR: DriveX是一种自监督的世界模型,通过Omni Scene Modeling(OSM)从大规模驾驶视频中学习通用场景动态和整体表示,显著提升了3D点云预测等任务的性能。

  • Motivation: 传统任务特定模型在分布外场景中表现不佳,且依赖昂贵标注数据,DriveX旨在通过自监督学习解决这些问题。
  • Method: DriveX采用OSM模块统一多模态监督(3D点云预测、2D语义表示和图像生成),并引入解耦潜在世界建模策略和动态感知射线采样。
  • Result: 实验表明,DriveX在3D点云预测等任务上优于现有方法,并在占用预测、流估计和端到端驾驶等任务中达到最先进水平。
  • Conclusion: DriveX作为一种通用世界模型,为稳健且统一的自动驾驶框架奠定了基础。

[126] Deformable Attentive Visual Enhancement for Referring Segmentation Using Vision-Language Model

Alaa Dalaq,Muzammil Behzad

Main category: cs.CV

TL;DR: SegVLM是一个结合视觉和语言信息的模型,通过SE块、可变形卷积和残差连接提升分割精度和跨模态对齐,并引入RAF损失优化性能。

  • Motivation: 解决图像分割中自然语言表达与视觉信息的有效整合问题。
  • Method: 结合SE块、可变形卷积、残差连接和RAF损失。
  • Result: 实验表明各组件均提升性能,模型在多数据集和场景中表现优异。
  • Conclusion: SegVLM通过改进架构和损失函数,显著提升了分割任务的表现和泛化能力。

[127] PolyPose: Localizing Deformable Anatomy in 3D from Sparse 2D X-ray Images using Polyrigid Transforms

Vivek Gopalakrishnan,Neel Dey,Polina Golland

Main category: cs.CV

TL;DR: PolyPose是一种简单且鲁棒的方法,用于在稀疏2D X射线图像下实现3D姿态估计,通过参数化复杂3D变形场为刚性变换的组合,克服了现有方法的局限性。

  • Motivation: 在介入性手术中,快速2D成像(X射线)无法提供精确的3D定位,而术前体积成像(如CT和MRI)无法在手术中获取。PolyPose旨在将体积引导整合到术中过程中。
  • Method: PolyPose将复杂3D变形场参数化为刚性变换的组合,利用骨骼不会弯曲的生物约束,避免了昂贵的变形正则化需求。
  • Result: 实验表明,PolyPose能在仅两幅X射线图像的情况下成功对齐术前体积,为稀疏视角和有限角度场景提供3D引导。
  • Conclusion: PolyPose通过强归纳偏置,在现有方法失败的场景中提供了有效的3D姿态估计解决方案。

[128] Enhancing Text-to-Image Diffusion Transformer via Split-Text Conditioning

Yu Zhang,Jialei Zhou,Xinchen Li,Qi Zhang,Zhongwei Wan,Tianyu Wang,Duoqian Miao,Changwei Wang,Longbing Cao

Main category: cs.CV

TL;DR: 提出了一种名为DiT-ST的分割文本条件框架,通过将完整文本拆分为简化句子,分阶段注入扩散模型,以解决扩散变换器对完整文本的理解缺陷。

  • Motivation: 当前文本到图像的扩散生成通常使用完整文本条件,但由于复杂语法,扩散变换器对完整文本的理解存在缺陷,容易忽略关键语义细节或导致语义混淆。
  • Method: 提出DiT-ST框架,将完整文本转换为分割文本,利用大语言模型解析并层次化构建语义基元,分阶段注入扩散去噪过程。
  • Result: 实验验证了DiT-ST在缓解完整文本理解缺陷方面的有效性。
  • Conclusion: DiT-ST通过分割文本和分阶段注入,显著提升了扩散变换器对语义基元的表示学习能力。

[129] Improving Novel view synthesis of 360 Scenes in Extremely Sparse Views by Jointly Training Hemisphere Sampled Synthetic Images

Guangan Chen,Anh Minh Truong,Hanhe Lin,Michiel Vlaminck,Wilfried Philips,Hiep Luong

Main category: cs.CV

TL;DR: 提出了一种在极稀疏输入视图下合成360°场景新视角的框架,结合DUSt3R估计相机位姿、3D高斯溅射模型和扩散模型提升图像质量,显著优于基准方法。

  • Motivation: 解决虚拟现实和增强现实中极稀疏视图下新视角合成的挑战,传统方法无法估计相机位姿。
  • Method: 使用DUSt3R估计相机位姿并生成密集点云,采样额外视角渲染合成图像,结合3D高斯溅射模型和扩散模型优化结果。
  • Result: 在仅四输入视图的情况下,显著提升了360°场景的新视角合成质量。
  • Conclusion: 该框架在极稀疏视图条件下有效提升了新视角合成的覆盖范围和图像质量。

[130] TextDiffuser-RL: Efficient and Robust Text Layout Optimization for High-Fidelity Text-to-Image Synthesis

Kazi Mahathir Rahman,Showrin Rahman,Sharmin Sultana Srishty

Main category: cs.CV

TL;DR: 提出了一种基于强化学习的两阶段文本嵌入图像生成方法,显著提升了运行效率,同时保持了高质量。

  • Motivation: 解决现有文本嵌入图像生成方法资源消耗大、运行效率低的问题。
  • Method: 结合强化学习优化文本布局生成与扩散模型合成图像的两阶段流程。
  • Result: 在MARIOEval基准测试中,OCR和CLIPScore接近最优模型,运行速度快97.64%,仅需2MB内存。
  • Conclusion: 该方法在高效性和灵活性上优于现有技术,适用于多种硬件平台。

[131] Alchemist: Turning Public Text-to-Image Data into Generative Gold

Valerii Startsev,Alexander Ustyuzhanin,Alexey Kirillov,Dmitry Baranchuk,Sergey Kastryulin

Main category: cs.CV

TL;DR: 论文提出了一种利用预训练生成模型筛选高质量样本的方法,构建了通用SFT数据集Alchemist,显著提升了T2I模型的生成质量。

  • Motivation: 现有SFT数据集多为窄领域且质量不高,通用数据集稀缺且构建成本高,阻碍了研究进展。
  • Method: 利用预训练生成模型作为样本影响力估计器,构建紧凑高效的Alchemist数据集。
  • Result: Alchemist显著提升了五种公共T2I模型的生成质量,同时保持了多样性和风格。
  • Conclusion: 该方法为构建高质量通用SFT数据集提供了可行方案,并公开了数据集和模型权重以促进研究。

[132] Holistic White-light Polyp Classification via Alignment-free Dense Distillation of Auxiliary Optical Chromoendoscopy

Qiang Hu,Qimei Wang,Jia Chen,Xuantao Ji,Qiang Li,Zhiwei Wang

Main category: cs.CV

TL;DR: 论文提出了一种无需息肉定位的全图像诊断框架,通过Alignment-free Dense Distillation (ADD)模块实现跨域知识蒸馏,显著提升了WLI图像分类性能。

  • Motivation: 解决WLI图像分类性能不足的问题,避免依赖息肉定位和全局特征对齐的局限性。
  • Method: 提出ADD模块,通过像素级跨域亲和力和CAM过滤实现精细知识蒸馏。
  • Result: 在公开和内部数据集上,AUC分别相对提升至少2.5%和16.2%。
  • Conclusion: ADD框架显著提升了WLI图像的分类性能,且无需息肉定位,具有临床实用性。

[133] BAH Dataset for Ambivalence/Hesitancy Recognition in Videos for Behavioural Change

Manuela González-González,Soufiane Belharbi,Muhammad Osama Zeeshan,Masoumeh Sharafi,Muhammad Haseeb Aslam,Marco Pedersoli,Alessandro Lameiras Koerich,Simon L Bacon,Eric Granger

Main category: cs.CV

TL;DR: 论文提出了首个用于识别矛盾/犹豫情绪(A/H)的多模态数据集BAH,包含224名参与者的视频数据,并提供了基线模型结果,展示了识别A/H的挑战。

  • Motivation: 识别矛盾/犹豫情绪(A/H)对个性化数字行为干预至关重要,但目前缺乏相关数据集,且专家识别成本高。
  • Method: 通过网页平台收集224名参与者的视频数据,标注A/H片段,并提供多模态基线模型测试。
  • Result: 基线模型在识别A/H时表现有限,突显了实际视频中识别此类情绪的难度。
  • Conclusion: BAH数据集填补了A/H识别领域的空白,为未来研究提供了资源,但需进一步改进模型性能。

[134] Beyond Editing Pairs: Fine-Grained Instructional Image Editing via Multi-Scale Learnable Regions

Chenrui Ma,Xi Xiao,Tianyang Wang,Yanning Shen

Main category: cs.CV

TL;DR: 提出了一种基于文本-图像对的指令驱动图像编辑新范式,避免依赖编辑对数据集,通过多尺度可学习区域实现高保真和精确编辑。

  • Motivation: 现有方法依赖大规模编辑对数据集或数据集无关技术,前者构建成本高且易产生不真实样本,后者编辑能力和指令理解有限。
  • Method: 利用广泛可用的文本-图像对作为监督,引入多尺度可学习区域定位和引导编辑过程。
  • Result: 实验表明该方法在多种任务和基准测试中达到最先进性能,且对各类生成模型适应性强。
  • Conclusion: 新方法通过文本-图像对和多尺度区域学习,实现了高保真、精确且与指令一致的图像编辑。

[135] DiSa: Directional Saliency-Aware Prompt Learning for Generalizable Vision-Language Models

Niloufar Alipour Talemi,Hossein Kashiani,Hossein R. Nowdeh,Fatemeh Afghah

Main category: cs.CV

TL;DR: DiSa提出了一种方向性显著性感知提示学习框架,通过两种互补的正则化策略提升模型泛化能力,显著优于现有方法。

  • Motivation: 现有提示学习方法在泛化到新类别或未见领域时性能下降严重,DiSa旨在解决这一问题。
  • Method: DiSa结合交叉交互正则化(CIR)和方向性正则化策略,前者通过显著性掩码关注关键图像区域,后者对齐视觉嵌入与类原型特征方向。
  • Result: 在11个图像分类基准测试中,DiSa在多种设置下均优于现有方法。
  • Conclusion: DiSa通过正则化策略显著提升了模型泛化能力,适用于多种任务场景。

[136] Absolute Coordinates Make Motion Generation Easy

Zichong Meng,Zeyu Han,Xiaogang Peng,Yiming Xie,Huaizu Jiang

Main category: cs.CV

TL;DR: 论文提出了一种基于全局绝对关节坐标的运动表示方法,替代了传统局部相对运动表示,显著提升了运动生成的质量和文本对齐能力。

  • Motivation: 传统基于局部相对运动的表示方法虽然简化了训练,但对扩散模型和下游任务存在限制,因此需要更优的运动表示。
  • Method: 采用全局绝对关节坐标作为运动表示,结合简单的Transformer架构,无需额外的运动感知损失。
  • Result: 新方法显著提高了运动生成的真实性和文本对齐能力,同时支持下游任务如运动控制和编辑。
  • Conclusion: 全局绝对关节坐标是一种高效的运动表示方法,为未来研究和应用奠定了基础。

[137] Advancing Limited-Angle CT Reconstruction Through Diffusion-Based Sinogram Completion

Jiaqi Guo,Santiago Lopez-Tapia,Aggelos K. Katsaggelos

Main category: cs.CV

TL;DR: 提出了一种基于MR-SDEs的投影域数据修复方法,用于有限角度CT重建,结合蒸馏和伪逆约束加速扩散过程,后处理模块进一步优化重建效果。

  • Motivation: 有限角度CT因缺失角度信息导致重建困难,传统方法在图像域操作效果有限,需在投影域直接修复数据。
  • Method: 利用MR-SDEs(均值回复随机微分方程)在投影域填充缺失数据,结合蒸馏和伪逆约束加速扩散过程,后处理模块优化重建。
  • Result: 实验表明,该方法在感知和保真度质量上达到最优,适用于科学和临床。
  • Conclusion: 该方法为有限角度CT重建提供了高效准确的解决方案。

[138] Force Prompting: Video Generation Models Can Learn and Generalize Physics-based Control Signals

Nate Gillman,Charles Herrmann,Michael Freeman,Daksh Aggarwal,Evan Luo,Deqing Sun,Chen Sun

Main category: cs.CV

TL;DR: 该论文提出了一种利用物理力作为控制信号的视频生成方法,通过力提示(force prompts)实现用户与图像的交互,无需3D资产或物理模拟器。

  • Motivation: 探索物理力作为视频生成的控制信号,填补了现有研究中物理交互的不足。
  • Method: 使用力提示(点力和全局力场)控制视频生成,基于预训练模型的视觉和运动先验,无需3D或物理模拟器。
  • Result: 模型能生成响应物理力的逼真视频,在有限训练数据下表现优异,优于现有方法。
  • Conclusion: 视频生成模型可通过力提示实现物理交互,为世界模型提供更真实的物理模拟能力。

[139] Erasing Concepts, Steering Generations: A Comprehensive Survey of Concept Suppression

Yiwei Xie,Ping Liu,Zheng Zhang

Main category: cs.CV

TL;DR: 本文综述了文本到图像(T2I)扩散模型中的概念擦除技术,旨在解决敏感、版权或有害内容生成的伦理、法律和安全问题。

  • Motivation: T2I模型生成高质量图像的能力带来了伦理和法律挑战,概念擦除技术可选择性移除特定语义概念,同时保持模型实用性。
  • Method: 从干预级别、优化结构和语义范围三个维度系统分类现有方法,并讨论评估基准和数据集。
  • Result: 提出了多维度分类法,揭示了擦除特异性、泛化能力和计算复杂度之间的权衡。
  • Conclusion: 未来研究方向包括概念表示解耦、自适应擦除策略和对抗鲁棒性,推动生成AI的负责任发展。

[140] MMIG-Bench: Towards Comprehensive and Explainable Evaluation of Multi-Modal Image Generation Models

Hang Hua,Ziyun Zeng,Yizhi Song,Yunlong Tang,Liu He,Daniel Aliaga,Wei Xiong,Jiebo Luo

Main category: cs.CV

TL;DR: MMIG-Bench是一个统一的多模态图像生成基准,结合文本提示和多视角参考图像,提供三级评估框架,用于评估17种先进模型。

  • Motivation: 现有评估工具对多模态图像生成的评估不统一,缺乏对组合语义和常识的考量。
  • Method: 提出MMIG-Bench基准,包含4850个文本提示和1750张多视角参考图像,采用三级评估框架(低、中、高级指标)。
  • Result: 评估了17种模型,验证了指标与人类评分的相关性,提供了架构和数据设计的深入见解。
  • Conclusion: MMIG-Bench将促进多模态图像生成的统一评估和未来创新。

[141] ADD-SLAM: Adaptive Dynamic Dense SLAM with Gaussian Splatting

Wenhua Wu,Chenpeng Su,Siting Zhu,Tianchen Deng,Zhe Liu,Hesheng Wang

Main category: cs.CV

TL;DR: ADD-SLAM是一种基于高斯分裂的自适应动态密集SLAM框架,通过场景一致性分析识别动态对象,无需预定义语义类别,同时实现动态建模。

  • Motivation: 动态物体破坏场景一致性,导致跟踪漂移和映射伪影,现有方法依赖预定义类别且丢弃动态信息。
  • Method: 设计基于场景一致性分析的自适应动态识别机制,提出动态-静态分离映射策略,构建时间高斯模型。
  • Result: 在多个动态数据集上展示了灵活准确的动态分割能力,定位和映射性能达到最先进水平。
  • Conclusion: ADD-SLAM有效解决了动态场景中的SLAM问题,适用于机器人动态避障和环境交互。

[142] Certainty and Uncertainty Guided Active Domain Adaptation

Bardia Safaei,Vibashan VS,Vishal M. Patel

Main category: cs.CV

TL;DR: 本文提出了一种结合不确定样本和置信样本的主动域适应方法,通过高斯过程主动采样和伪标签置信采样,显著提升了域适应性能。

  • Motivation: 现有主动域适应方法仅关注不确定样本,忽略了置信样本的价值,而后者往往与真实标签一致。
  • Method: 提出协作框架,结合高斯过程主动采样(GPAS)和伪标签置信采样(PLCS),分别处理不确定和置信样本。
  • Result: 在Office-Home和DomainNet数据集上,方法优于现有主动域适应方法。
  • Conclusion: 同时利用不确定和置信样本能有效缩小搜索空间并提升域适应效果。

[143] LlamaSeg: Image Segmentation via Autoregressive Mask Generation

Jiru Deng,Tengjin Weng,Tianyu Yang,Wenhan Luo,Zhiheng Li,Wenhao Jiang

Main category: cs.CV

TL;DR: LlamaSeg是一个基于自然语言指令的统一图像分割框架,通过视觉生成任务实现多任务分割,并引入新数据集和评估指标。

  • Motivation: 解决传统图像分割任务在多任务和开放词汇场景下的局限性,通过自然语言指令实现更灵活的分割。
  • Method: 将图像分割任务转化为视觉生成问题,使用LLaMA风格Transformer直接预测掩码,并构建SA-OVRS数据集支持训练。
  • Result: 实验表明,LlamaSeg在多个数据集上优于现有生成模型,生成更精细的分割掩码。
  • Conclusion: LlamaSeg通过视觉生成和自然语言指令的统一框架,实现了高效且灵活的图像分割。

[144] Structure Disruption: Subverting Malicious Diffusion-Based Inpainting via Self-Attention Query Perturbation

Yuhao He,Jinyu Tian,Haiwei Wu,Jianqing Li

Main category: cs.CV

TL;DR: 提出了一种名为SDA的保护框架,通过干扰扩散模型的自注意力机制,防止敏感图像区域被编辑。

  • Motivation: 扩散模型的快速发展带来了图像修复和编辑能力的提升,但也带来了社会风险,如恶意利用用户图像生成误导性内容。现有全局扰动方法在掩码引导编辑任务中效果不佳。
  • Method: SDA通过优化扰动,在初始去噪步骤中干扰自注意力机制的查询,破坏轮廓生成过程,从而阻止扩散模型生成连贯图像。
  • Result: 实验表明,SDA在公共数据集上实现了最先进的保护性能,并保持了强鲁棒性。
  • Conclusion: SDA有效解决了扩散模型在图像编辑中的潜在风险,提供了一种针对敏感区域的保护方法。

[145] CSTrack: Enhancing RGB-X Tracking via Compact Spatiotemporal Features

X. Feng,D. Zhang,S. Hu,X. Li,M. Wu,J. Zhang,X. Chen,K. Huang

Main category: cs.CV

TL;DR: CSTrack提出了一种紧凑的时空特征建模方法,通过整合RGB-X双输入流和高效的时间建模,简化了跟踪器的设计并提升了性能。

  • Motivation: 现有RGB-X跟踪器采用并行分支处理多模态数据,导致特征空间分散,增加了计算复杂度,限制了时空建模的效率。
  • Method: CSTrack设计了空间紧凑模块和时间紧凑模块,分别整合RGB-X输入流和优化目标分布热图,实现高效的时空建模。
  • Result: CSTrack在主流RGB-X基准测试中取得了新的SOTA结果。
  • Conclusion: CSTrack通过紧凑的时空特征建模,简化了模型结构并提升了跟踪性能,代码和模型已开源。

[146] MM-Prompt: Cross-Modal Prompt Tuning for Continual Visual Question Answering

Xu Li,Fan Lyu

Main category: cs.CV

TL;DR: 论文提出MM-Prompt框架,通过跨模态提示查询和恢复,解决CVQA中模态不平衡问题,提升性能和知识保留。

  • Motivation: 现有方法采用跨模态提示隔离,导致模态不平衡和性能下降。
  • Method: 提出MM-Prompt框架,包括跨模态提示查询和恢复,通过对齐损失防止表示漂移。
  • Result: 实验表明MM-Prompt在准确性和知识保留上优于现有方法,保持模态平衡。
  • Conclusion: MM-Prompt有效解决了CVQA中的模态不平衡问题,提升了持续学习性能。

[147] Revolutionizing Wildfire Detection with Convolutional Neural Networks: A VGG16 Model Approach

Lakshmi Aishwarya Malladi,Navarun Gupta,Ahmed El-Sayed,Xingguo Xiong

Main category: cs.CV

TL;DR: 研究使用基于VGG16架构的CNN提高野火检测准确性,通过数据增强和模型优化解决了数据集不平衡和实时应用问题,展示了深度学习在早期野火识别中的可靠性。

  • Motivation: 野火频发且破坏性加剧,亟需高效预警系统以减少灾难性后果。
  • Method: 采用VGG16架构的CNN,利用D-FIRE数据集,通过数据增强和模型优化解决低分辨率图像和数据集不平衡问题。
  • Result: 模型实现了低误报率,适用于早期野火识别,支持快速响应。
  • Conclusion: VGG16等深度学习模型可为野火早期识别提供可靠自动化方案,未来将扩展数据集并集成实时监测网络。

[148] SpikeStereoNet: A Brain-Inspired Framework for Stereo Depth Estimation from Spike Streams

Zhuoheng Gao,Yihao Li,Jiyao Zhang,Rui Zhao,Tong Wu,Hao Tang,Zhaofei Yu,Hao Dong,Guozhang Chen,Tiejun Huang

Main category: cs.CV

TL;DR: 论文提出SpikeStereoNet,首个直接从原始脉冲流估计立体深度的脑启发框架,并引入合成和真实世界脉冲数据集。

  • Motivation: 传统帧相机在快速变化场景中立体深度估计表现不佳,而脉冲相机提供高分辨率异步事件,但缺乏专用算法和基准。
  • Method: 通过融合双视角原始脉冲流,利用循环脉冲神经网络(RSNN)迭代优化深度估计。
  • Result: 在合成和真实数据集上优于现有方法,尤其在纹理缺失和极端光照区域表现突出,且数据效率高。
  • Conclusion: SpikeStereoNet为脉冲数据立体深度估计提供了高效解决方案,代码和数据集将开源。

[149] ViewCraft3D: High-Fidelity and View-Consistent 3D Vector Graphics Synthesis

Chuang Wang,Haitao Zhou,Ling Luo,Qian Yu

Main category: cs.CV

TL;DR: VC3D是一种高效生成3D矢量图形的方法,利用3D先验知识解决处理时间长和视角一致性问题。

  • Motivation: 3D矢量图形在形状检索、概念设计和虚拟现实中有广泛应用,但现有方法存在处理时间长和视角一致性不足的问题。
  • Method: VC3D通过3D对象分析、几何提取算法和视角一致性优化流程生成3D矢量图形。
  • Result: 实验表明VC3D在质量和效率上优于现有方法,生成的3D草图保持视角一致性并捕捉对象特征。
  • Conclusion: VC3D为3D矢量图形生成提供了一种高效且高质量的解决方案。

[150] The Role of Video Generation in Enhancing Data-Limited Action Understanding

Wei Li,Dezhao Luo,Dongbao Yang,Zhenhang Li,Weiping Wang,Yu Zhou

Main category: cs.CV

TL;DR: 提出了一种利用文本到视频扩散变换器生成标注数据的方法,以解决视频动作理解中的数据稀缺问题,并通过信息增强和不确定性标签平滑策略优化生成样本。

  • Motivation: 解决现实场景中视频动作理解任务因数据限制导致的问题。
  • Method: 使用文本到视频扩散变换器生成标注数据,并提出信息增强策略和不确定性标签平滑策略。
  • Result: 在四个数据集上验证了方法的有效性,并在零样本动作识别任务中达到最优性能。
  • Conclusion: 提出的方法能够有效生成高质量标注数据,提升模型训练效果。

[151] Enhancing Visual Reliance in Text Generation: A Bayesian Perspective on Mitigating Hallucination in Large Vision-Language Models

Nanxing Hu,Xiaoyue Duan,Jinchao Zhang,Guoliang Kang

Main category: cs.CV

TL;DR: 论文提出了一种从贝叶斯视角解决大型视觉语言模型(LVLM)幻觉问题的方法,通过优化视觉依赖、修正先验信息和适时停止生成来减少文本与视觉输入不匹配的问题。

  • Motivation: LVLM生成的文本常与视觉输入不匹配(幻觉问题),限制了其实际应用。现有方法未系统性地增强视觉依赖,因此需从贝叶斯视角全面分析并解决这一问题。
  • Method: 1. 评估并去除冗余视觉标记;2. 从贝叶斯视角修正先验信息;3. 在视觉标记依赖崩溃时停止生成。
  • Result: 在POPE、CHAIR和MME三个基准测试中,该方法有效缓解了LVLM的幻觉问题,性能优于现有技术。
  • Conclusion: 通过系统性增强视觉依赖,该方法显著减少了LVLM的幻觉问题,提升了其实际适用性。

[152] Objective, Absolute and Hue-aware Metrics for Intrinsic Image Decomposition on Real-World Scenes: A Proof of Concept

Shogo Sato,Masaru Tsuchida,Mariko Yamaguchi,Takuhiro Kaneko,Kazuhiko Murasaki,Taiga Yoshida,Ryuichi Tanida

Main category: cs.CV

TL;DR: 提出了一种基于高光谱成像和LiDAR强度的定量评估方法,解决了IID任务中缺乏真实数据的问题。

  • Motivation: 现有方法依赖主观人工标注,存在评估不客观、相对性和色相忽略的问题。
  • Method: 利用高光谱成像和LiDAR强度计算反照率,并引入基于光谱相似性的反照率密度化方法。
  • Result: 实验室验证表明,该方法可实现客观、绝对且色感知的评估。
  • Conclusion: 该方法为IID任务提供了可行的定量评估方案。

[153] Locality-Aware Zero-Shot Human-Object Interaction Detection

Sanghyun Kim,Deunsol Jung,Minsu Cho

Main category: cs.CV

TL;DR: LAIN是一种新型零样本HOI检测框架,通过增强CLIP表示的局部性和交互感知能力,显著提升了零样本HOI检测性能。

  • Motivation: 现有方法在利用CLIP进行零样本HOI检测时,难以捕捉细粒度信息,导致交互区分能力不足。
  • Method: LAIN通过聚合相邻补丁的信息和空间先验实现局部性感知,并通过捕捉人-物交互模式实现交互感知。
  • Result: 实验表明,LAIN在多种零样本设置下优于现有方法。
  • Conclusion: 局部性和交互感知对零样本HOI检测至关重要,LAIN框架为此提供了有效解决方案。

[154] Multimodal Machine Translation with Visual Scene Graph Pruning

Chenyu Lu,Shiliang Sun,Jing Zhao,Nan Zhang,Tengfei Song,Hao Yang

Main category: cs.CV

TL;DR: 本文提出了一种基于视觉场景图剪枝(PSG)的多模态机器翻译方法,通过语言场景图信息剪枝冗余视觉节点,减少翻译任务中的噪声。实验证明其有效性。

  • Motivation: 当前多模态机器翻译(MMT)研究中,视觉数据的有效利用是关键瓶颈,现有方法未能解决视觉信息冗余问题。
  • Method: 提出PSG模型,利用语言场景图信息剪枝视觉场景图中的冗余节点。
  • Result: 通过对比实验和消融研究,验证了PSG模型的有效性。
  • Conclusion: 视觉信息剪枝在多模态机器翻译领域具有重要潜力。

[155] Toward Patient-specific Partial Point Cloud to Surface Completion for Pre- to Intra-operative Registration in Image-guided Liver Interventions

Nakul Poudel,Zixin Yang,Kelly Merrell,Richard Simon,Cristian A. Linte

Main category: cs.CV

TL;DR: 提出了一种基于VN-OccNet的患者特异性点云补全方法,用于解决术中部分点云可见性导致的配准问题,并通过实验验证其有效性。

  • Motivation: 术中数据缺乏亚表面信息,且部分点云可见性导致配准困难,需补全点云以提升配准效果。
  • Method: 使用VN-OccNet从部分术中点云生成完整肝脏表面,并通过模拟变形训练模型,结合Go-ICP算法验证配准效果。
  • Result: 实验表明,该方法能有效补全点云并改善初始刚性配准结果。
  • Conclusion: VN-OccNet的旋转等变性和表面生成能力为术中点云配准提供了新思路。

[156] Regularized Personalization of Text-to-Image Diffusion Models without Distributional Drift

Gihoon Kim,Hyungjin Park,Taesup Kim

Main category: cs.CV

TL;DR: 论文提出了一种基于Lipschitz约束的新训练目标,用于解决文本到图像扩散模型在个性化任务中的分布漂移问题,显著提升了性能。

  • Motivation: 个性化任务中,模型需在适应新主题的同时保持原有生成能力,但标准训练目标与个性化目标不匹配,导致分布漂移。
  • Method: 提出基于Lipschitz约束的训练目标,显式限制与预训练分布的偏差。
  • Result: 实验表明,该方法在CLIP-T、CLIP-I和DINO分数上优于现有方法,尤其在数据稀缺时表现良好。
  • Conclusion: 新方法有效控制了分布漂移,提升了个性化任务的性能。

[157] Applications and Effect Evaluation of Generative Adversarial Networks in Semi-Supervised Learning

Jiyu Hu,Haijiang Zeng,Zhen Tian

Main category: cs.CV

TL;DR: 本文提出了一种基于生成对抗网络(GANs)的半监督图像分类模型,通过协同训练机制有效利用有限标注数据和大量未标注数据,提升图像生成质量和分类精度。

  • Motivation: 解决图像分类任务中高质量标注数据不足的问题,推动深度学习模型在实际场景中的广泛应用。
  • Method: 构建基于GANs的半监督图像分类模型,引入生成器、判别器和分类器的协同训练机制。
  • Result: 模型有效提升了图像生成质量和分类准确性,为复杂环境下的图像识别任务提供了解决方案。
  • Conclusion: 该模型为半监督学习在图像分类中的应用提供了有效方法,具有实际应用潜力。

[158] TDVE-Assessor: Benchmarking and Evaluating the Quality of Text-Driven Video Editing with LMMs

Juntong Wang,Jiarui Wang,Huiyu Duan,Guangtao Zhai,Xiongkuo Min

Main category: cs.CV

TL;DR: 论文介绍了TDVE-DB数据集和TDVE-Assessor评估模型,用于解决文本驱动视频编辑缺乏专用评估方法的问题。

  • Motivation: 当前文本驱动视频编辑缺乏专用的视频质量评估(VQA)模型,难以准确衡量编辑质量。
  • Method: 构建了TDVE-DB数据集,包含3,857个编辑视频和173,565个人类评分;提出了TDVE-Assessor模型,结合时空特征和大型语言模型进行评估。
  • Result: TDVE-Assessor在TDVE-DB上显著优于现有VQA模型,成为新的SOTA。
  • Conclusion: TDVE-DB和TDVE-Assessor填补了文本驱动视频编辑评估的空白,为未来研究提供了重要工具。

[159] FlowCut: Rethinking Redundancy via Information Flow for Efficient Vision-Language Models

Jintao Tong,Wenwei Jin,Pengda Qin,Anqi Li,Yixiong Zou,Yuhong Li,Yuhua Li,Ruixuan Li

Main category: cs.CV

TL;DR: 论文提出FlowCut框架,通过信息流分析动态剪枝冗余视觉标记,显著提升效率。

  • Motivation: 现有剪枝方法依赖单层注意力分数识别冗余视觉标记,但信息流复杂,需更全面方法。
  • Method: 基于信息流分析,提出FlowCut框架,动态剪枝冗余标记。
  • Result: FlowCut在LLaVA-1.5-7B和LLaVA-NeXT-7B上分别提升1.6%和4.3%,显著减少标记数并加速3.2倍。
  • Conclusion: 信息流分析能更准确识别冗余标记,FlowCut框架优于现有方法。

[160] SMART-PC: Skeletal Model Adaptation for Robust Test-Time Training in Point Clouds

Ali Bahri,Moslem Yazdanpanah,Sahar Dastani,Mehrdad Noori,Gustavo Adolfo Vargas Hakim,David Osowiechi,Farzad Beizaee,Ismail Ben Ayed,Christian Desrosiers

Main category: cs.CV

TL;DR: SMART-PC是一种基于骨架的框架,用于3D点云分类,通过消除反向传播实现实时适应,提高了对分布偏移的鲁棒性。

  • Motivation: 解决现有测试时训练方法在实时场景中计算成本高的问题,提升对3D点云分类中分布偏移的适应能力。
  • Method: 利用3D点云的几何结构预测骨架表示,仅更新BatchNorm统计量,避免反向传播,实现高效适应。
  • Result: 在ModelNet40-C等数据集上表现优异,准确率和计算效率均优于现有方法。
  • Conclusion: SMART-PC是一种轻量高效的框架,适用于实时3D点云分类任务。

[161] Aggregated Structural Representation with Large Language Models for Human-Centric Layout Generation

Jiongchao Jin,Shengchu Zhao,Dajun Chen,Wei Jiang,Yong Li

Main category: cs.CV

TL;DR: 提出了一种结合图网络与大语言模型(LLM)的ASR模块,用于自动化布局生成,解决了现有方法的生成能力不足和结构信息丢失问题。

  • Motivation: 手动布局设计耗时且复杂,现有图布局生成方法生成能力有限,视觉生成模型则忽略结构信息。
  • Method: 提出ASR模块,结合图网络与LLM,利用图特征作为层次先验知识,替代传统ViT模块预测完整布局信息。
  • Result: 在RICO数据集上表现优异,定量(mIoU)和定性(用户研究)评估均显示其优势,且支持多样化布局生成。
  • Conclusion: ASR模块在保留结构信息的同时提升了生成能力,支持人机协作设计,具有适应性和创造性。

[162] K-Buffers: A Plug-in Method for Enhancing Neural Fields with Multiple Buffers

Haofan Ren,Zunjie Zhu,Xiang Chen,Ming Lu,Rongfeng Lu,Chenggang Yan

Main category: cs.CV

TL;DR: 提出了一种名为K-Buffers的插件方法,通过多缓冲区提升神经场的渲染性能。

  • Motivation: 现有方法主要关注场景表示,而渲染过程的研究较少,因此提出改进渲染性能的方法。
  • Method: 使用K-Buffers渲染K个缓冲区,构建像素级特征图,通过K-Feature Fusion Network融合,最终生成渲染图像。
  • Result: 实验表明,该方法显著提升了神经点场和3D高斯泼溅的渲染性能。
  • Conclusion: K-Buffers是一种有效的插件方法,可提升神经场的渲染性能。

[163] Few-Shot Class-Incremental Learning For Efficient SAR Automatic Target Recognition

George Karantaidis,Athanasios Pantsios,Ioannis Kompatsiaris,Symeon Papadopoulos

Main category: cs.CV

TL;DR: 提出了一种基于双分支架构的少样本类增量学习框架,用于解决SAR-ATR中的数据稀缺问题,结合局部特征提取和全局依赖捕获,实验表明其优于现有方法。

  • Motivation: 数据稀缺是SAR-ATR系统的主要挑战,传统方法难以应对。
  • Method: 采用双分支架构,结合离散傅里叶变换和全局滤波器捕获空间依赖,引入轻量级交叉注意力机制和损失函数优化。
  • Result: 在MSTAR数据集上表现优于现有方法。
  • Conclusion: 该框架在真实场景中有效,解决了数据稀缺问题。

[164] What You Perceive Is What You Conceive: A Cognition-Inspired Framework for Open Vocabulary Image Segmentation

Jianghang Lin,Yue Hu,Jiangtao Shen,Yunhang Shen,Liujuan Cao,Shengchuan Zhang,Rongrong Ji

Main category: cs.CV

TL;DR: 提出了一种受人类视觉启发的开放词汇图像分割框架,通过生成式视觉语言模型和概念感知模块提升分割性能。

  • Motivation: 现有方法在区域分割和类别匹配上偏离人类视觉的语义识别过程,导致分割与目标概念对齐不佳。
  • Method: 框架包含生成式视觉语言模型(G-VLM)、概念感知视觉增强模块和认知解码器,模拟人类先理解概念再感知空间的视觉过程。
  • Result: 在多个数据集上表现优异,如A-150的27.2 PQ、17.0 mAP和35.3 mIoU,并支持词汇无关分割。
  • Conclusion: 该框架显著提升了开放词汇图像分割的性能和灵活性。

[165] VTBench: Comprehensive Benchmark Suite Towards Real-World Virtual Try-on Models

Hu Xiaobin,Liang Yujie,Luo Donghao,Peng Xu,Zhang Jiangning,Zhu Junwei,Wang Chengjie,Fu Yanwei

Main category: cs.CV

TL;DR: VTBench是一个用于虚拟试穿技术的分层基准测试套件,旨在解决现有评估方法的不足,并提供多维度、人类对齐的评估框架。

  • Motivation: 当前虚拟试穿模型的评估方法在反映人类感知、覆盖复杂场景和指导未来发展方面存在不足。
  • Method: 引入VTBench,通过分层、解耦的维度(如图像质量、纹理保留等)和定制化的测试集与评估标准,系统评估模型性能。
  • Result: VTBench提供了多维度评估框架、人类偏好标注,并揭示了室内与真实场景的性能差异。
  • Conclusion: VTBench将开源,推动虚拟试穿技术向更具挑战性的真实场景发展。

[166] Guard Me If You Know Me: Protecting Specific Face-Identity from Deepfakes

Kaiqing Lin,Zhiyuan Yan,Ke-Yue Zhang,Li Hao,Yue Zhou,Yuzhen Lin,Weixiang Li,Taiping Yao,Shouhong Ding,Bin Li

Main category: cs.CV

TL;DR: VIPGuard是一个多模态框架,专注于利用已知面部身份的详细特征进行个性化深度伪造检测,优于传统方法。

  • Motivation: 在数字时代,保护个人身份免受深度伪造攻击至关重要,尤其是名人和政治人物。现有方法通常忽略已知面部身份的宝贵先验知识。
  • Method: VIPGuard通过三个阶段实现:1)微调多模态大语言模型(MLLM)学习详细面部属性;2)身份级判别学习区分真假面部;3)用户特定定制,建模目标身份独特特征并进行语义推理。
  • Result: VIPGuard在个性化深度伪造检测上表现优于传统方法,并提供可解释的预测。同时构建了VIPBench基准用于评估。
  • Conclusion: VIPGuard通过结合详细面部表征和语义推理,为个性化深度伪造检测提供了更准确和可解释的解决方案。

[167] Beyond Segmentation: Confidence-Aware and Debiased Estimation of Ratio-based Biomarkers

Jiameng Li,Teodora Popordanoska,Sebastian G. Gruber,Frederik Maes,Matthew B. Blaschko

Main category: cs.CV

TL;DR: 提出了一种用于估计基于比率的生物标志物的统一置信感知框架,解决了现有方法仅提供点估计而缺乏不确定性度量的问题。

  • Motivation: 临床决策中基于比率的生物标志物(如肿瘤坏死组织比例)通常通过软分割输出计算,但现有方法缺乏不确定性度量,影响决策可靠性。
  • Method: 通过系统分析分割到生物标志物流程中的误差传播,识别模型校准不足为主要不确定性来源,并引入轻量级后校准模块,利用医院内部数据进行校准。
  • Result: 实验表明,该方法能生成统计上可靠的置信区间,并通过可调参数Q适应不同临床需求。
  • Conclusion: 该方法提高了生物标志物在临床工作流程中的可信度,支持更可靠的决策。

[168] Rep3D: Re-parameterize Large 3D Kernels with Low-Rank Receptive Modeling for Medical Imaging

Ho Hin Lee,Quan Liu,Shunxing Bao,Yuankai Huo,Bennett A. Landman

Main category: cs.CV

TL;DR: Rep3D提出了一种3D卷积框架,通过引入可学习的空间先验和大核训练,解决了传统方法在高分辨率3D体积数据中的优化不稳定问题,并在多个3D分割任务中表现优于现有方法。

  • Motivation: 传统的大核卷积在高分辨率3D数据中容易导致优化不稳定和性能下降,而Rep3D通过分析有效感受野的空间偏差,提出了一种自适应学习的方法。
  • Method: Rep3D通过两阶段调制网络生成一个感受野偏置的缩放掩码,动态调整核更新权重,实现从局部到全局的收敛行为。
  • Result: 在五个3D分割基准测试中,Rep3D表现优于包括基于Transformer和固定先验重参数化方法在内的现有技术。
  • Conclusion: Rep3D通过结合空间归纳偏置和优化感知学习,为3D医学图像分析提供了一种可解释且可扩展的解决方案。

[169] JailBound: Jailbreaking Internal Safety Boundaries of Vision-Language Models

Jiaxin Song,Yixu Wang,Jie Li,Rui Yu,Yan Teng,Xingjun Ma,Yingchun Wang

Main category: cs.CV

TL;DR: JailBound是一种新的潜空间越狱框架,通过探索和利用VLM内部的安全决策边界,实现了高效的越狱攻击。

  • Motivation: 现有越狱方法缺乏明确的攻击目标,且忽视跨模态交互,导致效果受限。
  • Method: JailBound分为两个阶段:安全边界探测和边界跨越,联合优化图像和文本输入的对抗扰动。
  • Result: 在六种VLM上测试,JailBound的白盒和黑盒攻击成功率分别达到94.32%和67.28%,优于现有方法。
  • Conclusion: 研究揭示了VLM的安全风险,呼吁更鲁棒的防御措施。

[170] Align and Surpass Human Camouflaged Perception: Visual Refocus Reinforcement Fine-Tuning

Ruolin Shen,Xiaozhong Ji,Kai WU,Jiangning Zhang,Yijun He,HaiHua Yang,Xiaobin Hu,Xiaoyu Sun

Main category: cs.CV

TL;DR: 当前多模态模型在识别视觉上融入背景的物体时与人类视觉系统存在显著不对齐。本文提出了一种视觉重新聚焦强化框架,通过策略优化算法提升模型的分步推理能力,使其在伪装物体识别任务中表现优于人类。

  • Motivation: 多模态模型在识别伪装物体时无法模拟人类的认知过程,导致性能不足。本文旨在缩小人类与模型在视觉思考上的差距。
  • Method: 构建了一个模拟人类视觉伪装感知的系统,通过逐步重新聚焦机制和策略优化算法,动态调整注意力并优化认知知识。
  • Result: 实验表明,该方法在伪装物体分类和检测任务中显著优于监督微调基线,并展现出动态调整检测框和多推理标记的特性。
  • Conclusion: 提出的视觉重新聚焦强化框架有效提升了多模态模型在伪装物体识别中的性能,甚至超越人类表现。

[171] TESSER: Transfer-Enhancing Adversarial Attacks from Vision Transformers via Spectral and Semantic Regularization

Amira Guesmi,Bassem Ouni,Muhammad Shafique

Main category: cs.CV

TL;DR: TESSER是一种新的对抗攻击框架,通过特征敏感梯度缩放和频谱平滑正则化提高对抗样本的迁移性,显著提升了攻击成功率。

  • Motivation: 对抗迁移性是评估深度神经网络鲁棒性的关键挑战,尤其在安全关键应用中,黑盒攻击的迁移性是一个重要问题。
  • Method: TESSER采用两种策略:特征敏感梯度缩放(FSGS)和频谱平滑正则化(SSR),生成语义有意义且频谱平滑的扰动。
  • Result: 在ImageNet上对12种架构的实验显示,TESSER在CNN和ViT上的攻击成功率分别比现有方法高10.9%和7.2%,且在防御模型上表现优异。
  • Conclusion: TESSER通过结合FSGS和SSR,显著提升了对抗样本的迁移性和攻击效果,同时验证了频谱平滑的重要性。

[172] Rotation-Equivariant Self-Supervised Method in Image Denoising

Hanze Liu,Jiahong Fu,Qi Xie,Deyu Meng

Main category: cs.CV

TL;DR: 本文提出了一种自监督图像去噪方法,通过引入旋转等变性卷积和新的掩码机制,显著提升了性能。

  • Motivation: 自监督方法减少了对大规模训练数据的需求,但现有方法主要依赖平移等变性先验。本文旨在进一步引入旋转等变性先验,提升网络性能。
  • Method: 使用旋转等变性卷积替换传统卷积层,并通过理论分析验证其等变性误差。设计了掩码机制融合旋转等变性与传统CNN网络的输出。
  • Result: 在三种典型方法上的实验证明了所提方法的有效性。
  • Conclusion: 本文首次在自监督图像去噪中引入旋转等变性先验,为领域提供了新视角。

[173] Benchmarking Large Multimodal Models for Ophthalmic Visual Question Answering with OphthalWeChat

Pusheng Xu,Xia Gong,Xiaolan Chen,Weiyi Zhang,Jiancheng Yang,Bingjie Yan,Meng Yuan,Yalin Zheng,Mingguang He,Danli Shi

Main category: cs.CV

TL;DR: 开发了一个双语多模态视觉问答(VQA)基准,用于评估眼科领域的视觉语言模型(VLM)。

  • Motivation: 为眼科领域构建一个真实场景下的双语VQA基准,以支持开发准确、专业且可信赖的AI系统。
  • Method: 从微信公众号收集眼科图像及标题,使用GPT-4o-mini生成中英双语QA对,并评估三种VLM的性能。
  • Result: Gemini 2.0 Flash在整体准确性(0.548)上表现最佳,优于GPT-4o和Qwen2.5-VL-72B-Instruct,并在不同子集中各有优势。
  • Conclusion: 该研究首次提出了眼科双语VQA基准,数据集真实反映了临床决策场景,支持眼科AI系统的开发。

[174] HF-VTON: High-Fidelity Virtual Try-On via Consistent Geometric and Semantic Alignment

Ming Meng,Qi Dong,Jiajie Li,Zhe Zhu,Xingyu Wang,Zhaoxin Fan,Wei Zhao,Wenjun Wu

Main category: cs.CV

TL;DR: HF-VTON是一种新型虚拟试穿框架,通过三个模块解决几何变形、语义不一致和细节丢失问题,并在实验中表现优异。

  • Motivation: 现有虚拟试穿方法在不同姿势下存在几何变形、语义不一致和细节丢失问题,需要一种高保真解决方案。
  • Method: HF-VTON包含三个模块:APWAM(几何对齐)、SRCM(语义表示)和MPAGM(外观生成),并引入SAMP-VTONS数据集。
  • Result: HF-VTON在VITON-HD和SAMP-VTONS数据集上优于现有方法,实现了高视觉保真度和语义一致性。
  • Conclusion: HF-VTON通过多模块协同解决了虚拟试穿中的关键问题,为行业提供了高效解决方案。

[175] Modality Curation: Building Universal Embeddings for Advanced Multimodal Information Retrieval

Fanheng Kong,Jingyuan Zhang,Yahui Liu,Hongzhi Zhang,Shi Feng,Xiaocui Yang,Daling Wang,Yu Tian,Qi Wang,Fuzheng Zhang,Guorui Zhou

Main category: cs.CV

TL;DR: UNITE框架通过数据整理和模态感知训练配置解决多模态信息检索中的模态差异问题,提出MAMCL方法,并在多个基准测试中取得最优结果。

  • Motivation: 多模态信息检索因数据源异质性和跨模态对齐复杂性面临挑战,现有研究未系统解决模态差异问题。
  • Method: 提出UNITE框架,结合数据整理和模态感知训练配置,并引入Modal-Aware Masked Contrastive Learning(MAMCL)方法。
  • Result: 在多个多模态检索基准测试中取得最优性能,显著超越现有方法。
  • Conclusion: UNITE不仅提升多模态检索性能,还为未来多模态系统研究提供基础蓝图。

[176] ReDDiT: Rehashing Noise for Discrete Visual Generation

Tianren Ma,Xiaosong Zhang,Boyu Yang,Junlan Feng,Qixiang Ye

Main category: cs.CV

TL;DR: 本文提出了一种名为ReDDiT的离散扩散变换器框架,通过改进噪声设计和采样启发式方法,显著提升了离散扩散模型的生成质量和效率。

  • Motivation: 离散扩散模型在视觉生成领域因其高效性和兼容性而受到关注,但其性能仍落后于连续模型。作者认为这是由于噪声(吸收状态)设计和采样启发式方法的不足。
  • Method: 提出了ReDDiT框架,通过随机多索引损坏扩展吸收状态,并设计了反向随机吸收路径的rehash采样器,以提高生成过程的多样性和一致性。
  • Result: 实验表明,ReDDiT显著优于基线(gFID从6.18降至1.61),并与连续模型性能相当,同时效率更高。
  • Conclusion: ReDDiT通过改进噪声设计和采样方法,显著提升了离散扩散模型的生成质量和效率,解决了现有方法的不足。

[177] LangDAug: Langevin Data Augmentation for Multi-Source Domain Generalization in Medical Image Segmentation

Piyush Tiwary,Kinjawl Bhattacharyya,Prathosh A. P

Main category: cs.CV

TL;DR: LangDAug是一种基于Langevin动态的数据增强方法,用于2D医学图像分割的多源域泛化,通过能量模型生成中间样本,优于现有方法。

  • Motivation: 医学图像分割模型在不同域间泛化能力不足,现有方法(如表示学习和数据增强)各有局限,需更有效的方法。
  • Method: 利用对比散度训练的能量模型(EBMs)生成中间样本,通过Langevin动态实现域间过渡,理论分析显示其具有正则化效果。
  • Result: 在Fundus分割和2D MRI前列腺分割基准测试中,LangDAug优于现有域泛化方法,并能补充域随机化方法。
  • Conclusion: LangDAug通过理论支持的高效数据增强,显著提升了医学图像分割的域泛化性能。

[178] Burst Image Super-Resolution via Multi-Cross Attention Encoding and Multi-Scan State-Space Decoding

Tengda Huang,Yu Zhang,Tianren Li,Yufu Qu,Fulin Liu,Zhenzhong Wei

Main category: cs.CV

TL;DR: 该论文提出了一种新型特征提取器,结合重叠跨窗口注意力和跨帧注意力机制,提升了多图像超分辨率(MISR)的性能。

  • Motivation: 现有方法在超分辨率任务中依赖固定且狭窄的注意力窗口,限制了特征感知能力,影响了对齐和特征聚合的效果。
  • Method: 提出了一种包含重叠跨窗口注意力和跨帧注意力的特征提取器,并引入了多扫描状态空间模块以增强特征聚合。
  • Result: 在合成和真实世界基准测试中表现优异,ISO 12233分辨率测试进一步验证了其性能提升。
  • Conclusion: 新方法通过改进注意力机制和特征聚合,显著提升了多图像超分辨率的性能。

[179] VisCRA: A Visual Chain Reasoning Attack for Jailbreaking Multimodal Large Language Models

Bingrui Sima,Linhua Cong,Wenxuan Wang,Kun He

Main category: cs.CV

TL;DR: 多模态大语言模型(MLRMs)通过强化学习和思维链监督提升了视觉推理能力,但也带来了新的安全风险。研究发现,视觉推理能力越强,模型越容易受到越狱攻击。为此,作者提出了VisCRA攻击框架,利用视觉推理链绕过安全机制,实验证明其攻击成功率显著。

  • Motivation: 随着MLRMs视觉推理能力的增强,其安全风险尚未被充分探索。研究发现视觉推理能力与模型脆弱性之间存在权衡,亟需研究其安全影响。
  • Method: 提出了VisCRA框架,结合视觉注意力掩码和两阶段推理诱导策略,精准控制有害输出。
  • Result: VisCRA在多个主流闭源MLRMs上攻击成功率显著(Gemini 2.0 Flash Thinking 76.48%,QvQ-Max 68.56%,GPT-4o 56.60%)。
  • Conclusion: MLRMs的视觉推理能力既是其优势,也可能成为攻击媒介,揭示了重要的安全风险。

[180] DriveCamSim: Generalizable Camera Simulation via Explicit Camera Modeling for Autonomous Driving

Wenchao Sun,Xuewu Lin,Keyu Chen,Zixiang Pei,Yining Shi,Chuang Zhang,Sifa Zheng

Main category: cs.CV

TL;DR: DriveCamSim提出了一种通用的相机传感器模拟框架,通过显式相机建模(ECM)机制解决了现有方法在多视角视频生成中的限制,并改进了可控生成的信息保留问题。

  • Motivation: 现有生成模型在多视角视频生成中受限于固定相机视角和视频频率,限制了其在下游应用中的灵活性。
  • Method: 提出了显式相机建模(ECM)机制,通过建立像素级对应关系解耦相机配置和训练数据,同时设计了信息保留的控制机制。
  • Result: 模型在视觉质量、可控性和泛化能力上表现优异,支持用户自定义相机模拟。
  • Conclusion: DriveCamSim为自动驾驶等应用提供了灵活的相机模拟工具,代码已开源。

[181] Knowledge-Aligned Counterfactual-Enhancement Diffusion Perception for Unsupervised Cross-Domain Visual Emotion Recognition

Wen Yin,Yong Wang,Guiduo Duan,Dongyang Zhang,Xin Hu,Yuan-Fang Li,Tao He

Main category: cs.CV

TL;DR: 论文提出了一种无监督跨域视觉情感识别(UCDVER)任务,并提出了KCDP框架以解决情感表达变异和分布偏移问题,实验显示其性能优于现有方法。

  • Motivation: 现有视觉情感识别(VER)研究局限于单一领域,缺乏跨域泛化能力,因此提出UCDVER任务以填补这一空白。
  • Method: 提出KCDP框架,利用VLM对齐情感表示,并通过CLIEA方法生成目标域的高质量伪标签。
  • Result: 实验表明,KCDP在感知性和泛化性上优于现有方法,如比TGCA-PVT模型提升12%。
  • Conclusion: KCDP框架有效解决了跨域情感识别的挑战,为无监督领域适应提供了新思路。

[182] Modeling Beyond MOS: Quality Assessment Models Must Integrate Context, Reasoning, and Multimodality

Mohamed Amine Kerkouri,Marouane Tliba,Aladine Chetouani,Nour Aburaed,Alessandro Bruno

Main category: cs.CV

TL;DR: 论文认为MOS作为多媒体质量评估的唯一监督信号已不足,需结合上下文感知、推理和多模态能力。

  • Motivation: MOS将复杂的人类判断简化为单一标量,忽略了语义失败、用户意图和决策依据,需改进。
  • Method: 提出整合上下文感知、推理和多模态能力,并建议更丰富的数据集和评估指标。
  • Result: 提出改革路线图,包括新数据集和评估指标,以支持更全面的质量评估。
  • Conclusion: 通过重新定义质量评估任务,推动更健壮、与人类对齐且可信赖的评估系统。

[183] Point-RFT: Improving Multimodal Reasoning with Visually Grounded Reinforcement Finetuning

Minheng Ni,Zhengyuan Yang,Linjie Li,Chung-Ching Lin,Kevin Lin,Wangmeng Zuo,Lijuan Wang

Main category: cs.CV

TL;DR: Point-RFT是一种多模态推理框架,通过视觉基础的CoT推理提升视觉文档理解,显著优于纯文本CoT方法。

  • Motivation: 现有文本CoT在视觉语言任务中存在视觉幻觉和多模态整合不足的问题,需要改进。
  • Method: 采用两阶段方法:格式微调(使用71K视觉推理数据集)和强化微调,专注于视觉文档理解。
  • Result: 在ChartQA上准确率从70.88%提升至90.04%,优于纯文本CoT的83.92%,并在多个跨域基准测试中表现优异。
  • Conclusion: Point-RFT证明了视觉基础CoT在多模态推理中的有效性,适用于复杂现实场景。

[184] MLLM-Guided VLM Fine-Tuning with Joint Inference for Zero-Shot Composed Image Retrieval

Rong-Cheng Tu,Zhao Jin,Jingyi Liao,Xiao Luo,Yingjie Wang,Li Shen,Dacheng Tao

Main category: cs.CV

TL;DR: 提出了一种新方法MVFT-JI,通过联合优化两个任务,提升零样本组合图像检索的性能。

  • Motivation: 现有方法仅通过适配器生成伪文本标记,未能直接优化组合查询表示,限制了检索性能。
  • Method: 利用预训练多模态大语言模型(MLLM)构建两个互补任务,联合优化以增强组合检索能力。
  • Result: 方法结合了VLM的语义对齐能力和MLLM的推理能力,提升了检索效果。
  • Conclusion: MVFT-JI通过联合优化和推理策略,显著提升了复杂视觉变换下的检索性能。

[185] Cross-Sequence Semi-Supervised Learning for Multi-Parametric MRI-Based Visual Pathway Delineation

Alou Diakite,Cheng Li,Lei Xie,Yuanjing Feng,Ruoyou Wu,Jianzhong He,Hairong Zheng,Shanshan Wang

Main category: cs.CV

TL;DR: 提出了一种半监督多参数特征分解框架,用于视觉通路(VP)的精确描绘,解决了现有方法在多序列MRI数据融合和标签数据不足方面的局限性。

  • Motivation: 准确描绘视觉通路对理解人类视觉系统和诊断相关疾病至关重要,但现有方法在多序列MRI数据融合和标签数据依赖上存在不足。
  • Method: 设计了相关性约束特征分解(CFD)处理多序列关系,并开发了一致性样本增强(CSE)模块利用未标记数据生成边缘信息。
  • Result: 在两个公共数据集和一个内部多壳扩散MRI数据集上验证,实验结果表明该方法在描绘性能上优于七种先进方法。
  • Conclusion: 该框架有效解决了多序列MRI数据融合和标签数据不足的问题,显著提升了视觉通路的描绘性能。

[186] HAODiff: Human-Aware One-Step Diffusion via Dual-Prompt Guidance

Jue Gong,Tingyu Yang,Jingkai Wang,Zheng Chen,Xing Liu,Hong Gu,Yulun Zhang,Xiaokang Yang

Main category: cs.CV

TL;DR: 论文提出了一种名为HAODiff的方法,通过模拟人类运动模糊和通用噪声共存的退化管道,生成合成退化数据,并利用三重分支双提示引导(DPG)提升图像恢复效果。

  • Motivation: 人类中心图像在传输中常受通用退化和人类运动模糊(HMB)影响,现有研究对此关注不足。
  • Method: 设计了退化管道模拟HMB和噪声共存,提出HAODiff和DPG方法,利用高质量图像、残差噪声和HMB分割掩码生成双提示对。
  • Result: HAODiff在合成和真实数据集(包括MPII-Test)上超越现有SOTA方法,定量和视觉质量均更优。
  • Conclusion: HAODiff通过自适应双提示有效利用分类器自由引导,提升了对抗多样化退化的鲁棒性。

[187] Improving Heart Rejection Detection in XPCI Images Using Synthetic Data Augmentation

Jakov Samardžija,Donik Vršnak,Sven Lončarić

Main category: cs.CV

TL;DR: 论文提出了一种利用StyleGAN生成合成数据解决心脏移植患者活检图像中3R级排斥反应样本不足的问题,并通过混合真实与合成数据训练分类器,显著提升了分类性能。

  • Motivation: 由于高等级排斥反应(3R)样本稀少,训练深度学习模型面临挑战,需通过合成数据增强解决类别不平衡问题。
  • Method: 使用StyleGAN生成合成3R图像,结合真实0R样本训练ResNet-18分类器,并比较不同数据配置的性能。
  • Result: 混合真实与合成数据的模型表现最佳,证明了合成数据在提升分类性能中的价值。
  • Conclusion: GAN生成的数据增强在生物医学图像分析中具有潜力,尤其在样本有限的领域。

[188] SuperAD: A Training-free Anomaly Classification and Segmentation Method for CVPR 2025 VAND 3.0 Workshop Challenge Track 1: Adapt & Detect

Huaiyuan Zhang,Hang Chen,Yu Cheng,Shunyi Wu,Linghao Sun,Linao Han,Zeyu Shi,Lei Qi

Main category: cs.CV

TL;DR: 论文提出了一种基于DINOv2模型的训练免费异常检测方法SuperAD,用于解决工业环境中的复杂异常检测问题,并在MVTec AD 2数据集上取得竞争性结果。

  • Motivation: 解决工业环境中透明、反射表面、遮挡和低对比度污染等复杂异常检测问题,缩小公开数据集与实际工业异常之间的差距。
  • Method: 利用DINOv2模型提取特征,构建正常参考图像的内存库,通过最近邻匹配实现异常分割。
  • Result: 在MVTec AD 2数据集的两个测试集上取得了竞争性结果。
  • Conclusion: SuperAD方法无需训练,能够有效处理复杂工业异常检测问题。

[189] SAIL: Self-supervised Albedo Estimation from Real Images with a Latent Diffusion Model

Hala Djeghim,Nathan Piasco,Luis Roldão,Moussab Bennehar,Dzmitry Tsishkou,Céline Loscos,Désiré Sidibé

Main category: cs.CV

TL;DR: SAIL是一种从单视角真实世界图像中估计类似反照率表示的方法,利用潜在扩散模型和新的潜在空间分解方法,解决了现有方法在真实场景中泛化能力不足的问题。

  • Motivation: 解决真实世界图像中缺乏标注数据的问题,并改进现有自监督方法在反照率估计中的不足。
  • Method: 利用潜在扩散模型的无条件场景重光照先验知识作为反照率估计的替代目标,提出潜在空间中的图像分解方法,并引入正则化项约束光照依赖和独立分量。
  • Result: SAIL在多变光照条件下预测稳定的反照率,并能泛化到多种场景,仅需未标注的多光照数据。
  • Conclusion: SAIL通过潜在空间分解和正则化,显著提升了真实场景中反照率估计的稳定性和泛化能力。

[190] Depth-Guided Bundle Sampling for Efficient Generalizable Neural Radiance Field Reconstruction

Li Fang,Hao Zhu,Longlong Chen,Fei Hu,Long Ye,Zhan Ma

Main category: cs.CV

TL;DR: 提出了一种深度引导的束采样策略,通过分组相邻光线并共享表示,结合自适应采样优化效率,显著提升渲染速度和质量。

  • Motivation: 高分辨率图像渲染计算密集,而自然场景通常是分段平滑的,密集采样冗余。
  • Method: 采用深度引导的束采样策略,动态分配样本,复杂区域增加采样,平滑区域减少采样。
  • Result: 在DTU数据集上,PSNR提升1.27 dB,FPS增加47%,渲染速度提升2倍。
  • Conclusion: 该方法在渲染质量和效率上均达到最新水平,适用于合成和真实场景。

[191] The Missing Point in Vision Transformers for Universal Image Segmentation

Sajjad Shahabodini,Mobina Mansoori,Farnoush Bayatmakou,Jamshid Abouei,Konstantinos N. Plataniotis,Arash Mohammadi

Main category: cs.CV

TL;DR: ViT-P是一个两阶段分割框架,通过解耦掩码生成和分类,结合Vision Transformer提升性能,并在多个数据集上达到SOTA结果。

  • Motivation: 解决图像分割中掩码分类的挑战,尤其是模糊边界和类别不平衡问题。
  • Method: 第一阶段生成类别无关的掩码提议,第二阶段使用基于ViT的点分类模型优化预测。
  • Result: 在COCO、ADE20K和Cityscapes数据集上表现优异,如ADE20K全景分割54.0 PQ。
  • Conclusion: ViT-P无需预训练适配器,支持多种ViT模型,且通过粗标注降低成本,性能强大。

[192] A Regularization-Guided Equivariant Approach for Image Restoration

Yulu Bai,Jiahong Fu,Qi Xie,Deyu Meng

Main category: cs.CV

TL;DR: 提出了一种旋转等变正则化策略(EQ-Reg),通过自适应对称约束提升图像恢复任务的精度和泛化能力。

  • Motivation: 现有等变和不变深度学习模型依赖严格对称假设,实际应用中精度和灵活性不足,尤其在图像恢复任务中表现受限。
  • Method: 引入EQ-Reg正则器,结合自监督学习和特征图的空间旋转与通道循环移位,自适应调整等变性。
  • Result: 在三个低层任务中验证了方法的优越性,精度和泛化能力超越现有技术。
  • Conclusion: EQ-Reg为图像恢复任务提供了一种简单且自适应的等变机制,显著提升了性能。

[193] Translation-Equivariance of Normalization Layers and Aliasing in Convolutional Neural Networks

Jérémy Scanvic,Quentin Barthélemy,Julián Tachella

Main category: cs.CV

TL;DR: 论文提出了一种理论框架,用于理解归一化层对离散和连续平移的等变性,并通过实验验证了其理论结果。

  • Motivation: 设计对连续平移完全等变的卷积神经网络架构是研究热点,但归一化层的等变性研究较少。本文旨在填补这一空白。
  • Method: 提出理论框架,分析归一化层的等变性条件,并通过ResNet-18和ImageNet的特征图进行实验验证。
  • Result: 理论结果与实验预测一致,验证了归一化层在特定维度上的等变性。
  • Conclusion: 归一化层的等变性可通过理论框架理解,实验验证了其有效性,为科学计算提供了更准确的工具。

[194] Efficient Multi-modal Long Context Learning for Training-free Adaptation

Zehong Ma,Shiliang Zhang,Longhui Wei,Qi Tian

Main category: cs.CV

TL;DR: EMLoC是一种无需训练的多模态长上下文学习方法,通过嵌入示例到输入中实现任务适应,结合分块压缩和自适应剪枝降低计算开销。

  • Motivation: 传统方法依赖微调,计算和内存开销大,EMLoC旨在提供高效、灵活且可扩展的任务适应方案。
  • Method: 采用分块压缩和层间自适应剪枝技术,压缩长上下文输入为紧凑的任务特定表示。
  • Result: 在多种视觉语言基准测试中表现优于传统方法,显著降低推理复杂度。
  • Conclusion: EMLoC为资源受限环境下的多模态模型适应提供了高效、灵活的框架。

[195] GoLF-NRT: Integrating Global Context and Local Geometry for Few-Shot View Synthesis

You Wang,Li Fang,Hao Zhu,Fei Hu,Long Ye,Zhan Ma

Main category: cs.CV

TL;DR: GoLF-NRT是一种基于全局和局部特征融合的神经渲染Transformer,通过稀疏注意力捕获全局场景上下文,并结合局部几何特征,显著提升了少输入视图下的渲染质量。

  • Motivation: 现有通用NeRF模型在多视图观测下表现良好,但在输入视图有限时渲染质量显著下降,需要一种改进方法。
  • Method: GoLF-NRT采用3D Transformer和稀疏注意力捕获全局场景上下文,同时结合局部几何特征,并引入基于注意力权重和核回归的自适应采样策略。
  • Result: 在公开数据集上,GoLF-NRT在1到3个输入视图下实现了最先进的渲染性能。
  • Conclusion: GoLF-NRT通过全局和局部特征融合及自适应采样,显著提升了少输入视图下的神经渲染质量,具有高效性和优越性。

[196] Zero-Shot Pseudo Labels Generation Using SAM and CLIP for Semi-Supervised Semantic Segmentation

Nagito Saito,Shintaro Ito,Koichi Ito,Takafumi Aoki

Main category: cs.CV

TL;DR: 论文提出了一种基于SAM和CLIP的零样本标注方法生成伪标签,并结合UniMatch提升伪标签质量,用于训练半监督语义分割模型。

  • Motivation: 解决语义分割任务中标注成本高的问题,通过半监督学习减少对标注数据的依赖。
  • Method: 使用SAM和CLIP生成伪标签,通过UniMatch提升伪标签质量,并用于训练语义分割模型。
  • Result: 在PASCAL和MS COCO数据集上验证了方法的有效性。
  • Conclusion: 提出的方法能有效提升伪标签质量,减少对标注数据的依赖。

Miaoyu Li,Qin Chao,Boyang Li

Main category: cs.CV

TL;DR: 提出Causal2Needles基准,评估视频语言模型在长视频中提取和联合理解信息及因果建模的能力。

  • Motivation: 现有基准未能充分评估视频语言模型在长视频中提取和联合理解信息的能力,以及因果建模的能力。
  • Method: 引入2-needle问题,要求从长视频中提取因果关系事件信息,并通过两种互补格式问题避免文本偏差。
  • Result: 现有模型在2-needle视觉定位任务中表现不佳,且性能与两事件距离负相关。
  • Conclusion: 当前视频语言模型在长视频理解和因果建模方面存在显著局限性。

[198] Sparse2DGS: Sparse-View Surface Reconstruction using 2D Gaussian Splatting with Dense Point Cloud

Natsuki Takama,Shintaro Ito,Koichi Ito,Hwann-Tzong Chen,Takafumi Aoki

Main category: cs.CV

TL;DR: Sparse2DGS是一种改进的3D重建方法,通过结合DUSt3R和COLMAP MVS生成高精度密集点云,仅需三张图像即可实现准确重建。

  • Motivation: Gaussian Splatting (GS)在多视图图像下表现良好,但在输入图像有限时重建精度显著下降,原因是稀疏点云初始化不足。
  • Method: 提出Sparse2DGS,利用DUSt3R和COLMAP MVS生成密集点云,优化2D高斯初始化。
  • Result: 在DTU数据集上验证,仅用三张图像即可准确重建3D物体形状。
  • Conclusion: Sparse2DGS解决了GS在稀疏输入下的局限性,提升了重建精度。

[199] A Unified Solution to Video Fusion: From Multi-Frame Learning to Benchmarking

Zixiang Zhao,Haowen Bai,Bingxin Ke,Yukun Cui,Lilun Deng,Yulun Zhang,Kai Zhang,Konrad Schindler

Main category: cs.CV

TL;DR: 论文提出了一种名为UniVF的视频融合框架,通过多帧学习和光流特征变形实现时间一致性,并建立了首个视频融合基准VF-Bench。

  • Motivation: 现有图像融合方法忽略视频中的时间相关性,导致闪烁和时间不一致问题。
  • Method: UniVF利用多帧学习和基于光流的特征变形实现时间一致的视频融合。
  • Result: UniVF在VF-Bench的所有任务中均达到最先进水平。
  • Conclusion: UniVF解决了视频融合中的时间一致性问题,VF-Bench为视频融合研究提供了标准化评估工具。

[200] FruitNeRF++: A Generalized Multi-Fruit Counting Method Utilizing Contrastive Learning and Neural Radiance Fields

Lukas Meyer,Andrei-Timotei Ardelean,Tim Weyrich,Marc Stamminger

Main category: cs.CV

TL;DR: FruitNeRF++是一种结合对比学习和神经辐射场的新方法,用于从果园的非结构化照片中计数水果,解决了FruitNeRF对水果类型适应性不足的问题。

  • Motivation: FruitNeRF方法因需要针对每种水果类型进行调整而适用性受限,难以实际应用。
  • Method: 设计了一种形状无关的多水果计数框架,利用视觉基础模型预测的实例掩码,将水果身份编码为实例嵌入到神经实例场中,并通过体积采样提取点云进行聚类。
  • Result: 在合成数据集和真实苹果数据集上验证,FruitNeRF++更易控制且优于其他先进方法。
  • Conclusion: FruitNeRF++提升了水果计数的通用性和实用性。

[201] Harnessing the Power of Training-Free Techniques in Text-to-2D Generation for Text-to-3D Generation via Score Distillation Sampling

Junhong Lee,Seungwook Kim,Minsu Cho

Main category: cs.CV

TL;DR: 本文探讨了训练无关技术(如CFG和FreeU)在Score Distillation Sampling(SDS)中的应用,揭示了这些技术在文本到3D生成中的权衡关系,并提出了一种动态调整策略以优化结果。

  • Motivation: 研究训练无关技术(如CFG和FreeU)对SDS的影响,以提升文本到3D生成的质量。
  • Method: 通过调整CFG和FreeU的尺度,分析其对对象大小、表面平滑度、纹理细节和几何误差的影响,并提出动态调整策略。
  • Result: 发现CFG尺度影响对象大小与表面平滑度,FreeU尺度影响纹理细节与几何误差,动态调整策略能平衡纹理细节与表面平滑度。
  • Conclusion: 动态调整训练无关技术的尺度可有效优化文本到3D生成的质量,减少几何缺陷。

[202] Deep Spectral Prior

Yanqi Cheng,Tieyong Zeng,Pietro Lio,Carola-Bibiane Schönlieb,Angelica I Aviles-Rivero

Main category: cs.CV

TL;DR: Deep Spectral Prior (DSP) 是一种基于频域对齐的图像重建方法,通过直接匹配傅里叶系数,避免了传统 Deep Image Prior (DIP) 的过拟合问题,并提供了理论保证和实际性能提升。

  • Motivation: 传统 DIP 依赖像素级损失和早期停止来缓解过拟合,但缺乏明确的频域一致性。DSP 旨在通过频域对齐改进重建质量。
  • Method: DSP 将图像重建定义为频域对齐问题,直接匹配网络输出与观测数据的傅里叶系数,利用卷积神经网络的频谱偏置特性。
  • Result: DSP 在去噪、修复和超分辨率任务中表现优于传统 DIP 和其他无监督基线,同时提供了理论支持的收敛性和稳定性。
  • Conclusion: DSP 通过频域对齐和隐式频谱正则化,显著提升了图像重建的质量和鲁棒性,同时避免了早期停止的需求。

[203] StyleAR: Customizing Multimodal Autoregressive Model for Style-Aligned Text-to-Image Generation

Yi Wu,Lingting Zhu,Shengju Qian,Lei Liu,Wandi Qiao,Lequan Yu,Bin Li

Main category: cs.CV

TL;DR: StyleAR提出了一种结合数据整理方法和自回归模型的新方法,用于解决风格对齐的文本到图像生成中的数据获取难题。

  • Motivation: 风格对齐的文本到图像生成需要大量特定风格的三元组数据,获取难度大。
  • Method: 通过合成目标风格数据并引入CLIP图像编码器和风格增强标记技术,利用二元数据训练模型。
  • Result: 实验证明StyleAR在风格对齐生成任务中表现优异。
  • Conclusion: StyleAR有效解决了数据获取问题,提升了风格对齐生成的质量和一致性。

[204] Vad-R1: Towards Video Anomaly Reasoning via Perception-to-Cognition Chain-of-Thought

Chao Huang,Benfeng Wang,Jie Wen,Chengliang Liu,Wei Wang,Li Shen,Xiaochun Cao

Main category: cs.CV

TL;DR: 论文提出了一种名为Video Anomaly Reasoning(VAR)的新任务,通过多模态大语言模型(MLLM)进行视频异常深度推理,并提出了Vad-R1框架和P2C-CoT方法。

  • Motivation: 现有MLLM在视频异常检测(VAD)中仅能进行浅层描述,缺乏深度推理能力,因此需要一种新方法来支持深度分析。
  • Method: 提出Vad-R1框架,设计Perception-to-Cognition Chain-of-Thought(P2C-CoT)模拟人类异常识别过程,并构建Vad-Reasoning数据集。改进强化学习算法AVA-GRPO,通过自验证机制提升推理能力。
  • Result: 实验表明Vad-R1在VAD和VAR任务上表现优异,优于开源和专有模型。
  • Conclusion: Vad-R1通过深度推理和自验证机制显著提升了MLLM在视频异常分析中的能力,为VAR任务提供了有效解决方案。

[205] ErpGS: Equirectangular Image Rendering enhanced with 3D Gaussian Regularization

Shintaro Ito,Natsuki Takama,Koichi Ito,Hwann-Tzong Chen,Takafumi Aoki

Main category: cs.CV

TL;DR: ErpGS是一种基于3DGS的全向高斯方法,用于解决360度相机图像重建中的大畸变问题,通过几何正则化、尺度正则化和畸变感知权重等技术提高渲染精度。

  • Motivation: 360度相机图像在3D重建中存在大畸变问题,导致3D高斯过大,渲染精度下降。
  • Method: 提出ErpGS方法,结合几何正则化、尺度正则化和畸变感知权重等技术,并引入掩码抑制障碍物影响。
  • Result: 在公开数据集上,ErpGS的渲染精度优于传统方法。
  • Conclusion: ErpGS能有效解决360度相机图像的畸变问题,提升新视角合成效果。

[206] OmniFall: A Unified Staged-to-Wild Benchmark for Human Fall Detection

David Schneider,Zdravko Marinov,Rafael Baur,Zeyun Zhong,Rodi Düger,Rainer Stiefelhagen

Main category: cs.CV

TL;DR: OmniFall整合了八个公共跌倒检测数据集,提供了标准化的评估协议和视频分割标签,并引入真实世界数据OOPS-Fall,揭示了预训练模型在现实场景中的性能差距。

  • Motivation: 当前跌倒检测研究依赖小规模、有偏数据集,导致真实世界性能未知。
  • Method: 统一八个数据集,建立十类分类标准,引入真实世界数据OOPS-Fall,并使用预训练模型(如I3D、VideoMAE)进行实验。
  • Result: 实验显示在分布内和野外场景间存在显著性能差距。
  • Conclusion: OmniFall为跌倒检测提供了公平的跨数据集比较,揭示了开发鲁棒系统的关键挑战。

[207] Underwater Diffusion Attention Network with Contrastive Language-Image Joint Learning for Underwater Image Enhancement

Afrah Shaahid,Muzammil Behzad

Main category: cs.CV

TL;DR: 论文提出UDAN-CLIP,一种基于扩散框架的水下图像增强方法,结合CLIP模型和空间注意力模块,解决现有方法依赖合成数据导致的偏差和泛化问题。

  • Motivation: 水下图像因光线吸收、散射等问题质量差,现有方法依赖合成数据且易受领域偏移影响,导致增强结果不真实。
  • Method: 提出UDAN-CLIP框架,结合预训练的扩散模型、定制化分类器、空间注意力模块和CLIP-Diffusion损失函数,保留自然先验并局部修正退化。
  • Result: 模型在定量和定性评估中表现优异,能有效校正失真并恢复水下图像的自然外观。
  • Conclusion: UDAN-CLIP通过多模块协同工作,显著提升了水下图像增强的视觉效果和真实性。

[208] Dynamic-I2V: Exploring Image-to-Video Generaion Models via Multimodal LLM

Peng Liu,Xiaoming Ren,Fengkai Liu,Qingsong Xie,Quanlong Zheng,Yanhao Zhang,Haonan Lu,Yujiu Yang

Main category: cs.CV

TL;DR: Dynamic-I2V框架通过整合多模态大语言模型(MLLMs)和扩散变换器(DiT),显著提升了图像到视频(I2V)生成的动态可控性和时间一致性。同时,提出了DIVE评估基准以解决现有I2V评测中的动态质量测量不足问题。

  • Motivation: 现有I2V生成方法在复杂场景中难以理解细微运动和复杂对象-动作关系,Dynamic-I2V旨在解决这一问题。
  • Method: 结合MLLMs和DiT架构,联合编码视觉和文本条件,提升动态可控性和时间一致性。
  • Result: Dynamic-I2V在动态范围、可控性和质量上分别提升42.5%、7.9%和11.8%,达到SOTA性能。
  • Conclusion: Dynamic-I2V显著提升了I2V生成性能,DIVE基准填补了评测空白。

[209] Attention! You Vision Language Model Could Be Maliciously Manipulated

Xiaosen Wang,Shaokang Wang,Zhijin Ge,Yuyang Luo,Shudong Zhang

Main category: cs.CV

TL;DR: 大型视觉语言模型(VLM)在复杂场景理解和决策支持中表现出色,但对对抗样本(文本或图像)高度脆弱。本文提出Vision-language model Manipulation Attack(VMA),通过优化技术精确操控输出,既能用于攻击(如越狱、劫持等),也能用于版权保护。

  • Motivation: VLM在对抗样本面前表现脆弱,可能导致严重后果,如越狱、劫持等。研究其脆弱性并提出攻击方法VMA,旨在揭示问题并探索潜在应用。
  • Method: 结合一阶和二阶动量优化技术与可微变换机制,优化对抗扰动,提出VMA攻击方法。
  • Result: VMA在多种场景和数据集中表现出高效性和通用性,既能实现多种攻击,也能用于版权保护。
  • Conclusion: VMA揭示了VLM的脆弱性,同时展示了其双刃剑特性,既可用于攻击,也能用于保护。

[210] Weather-Magician: Reconstruction and Rendering Framework for 4D Weather Synthesis In Real Time

Chen Sang,Yeqiang Qian,Jiale Zhang,Chunxiang Wang,Ming Yang

Main category: cs.CV

TL;DR: 提出了一种基于高斯溅射的框架,用于重建真实场景并渲染4D天气效果,支持动态天气变化和实时渲染。

  • Motivation: 传统工业方法在复制复杂真实场景时成本高且质量差,现有算法无法有效重建和渲染真实天气效果。
  • Method: 采用高斯建模和渲染技术,模拟多种常见天气效果,支持动态变化和细节控制。
  • Result: 实现了低硬件需求的实时渲染性能,动态天气效果模拟。
  • Conclusion: 该框架高效、低成本,适用于数字孪生、VR/AR等场景设计。

[211] A Responsible Face Recognition Approach for Small and Mid-Scale Systems Through Personalized Neural Networks

Sebastian Groß,Stefan Heindorf,Philipp Terhörst

Main category: cs.CV

TL;DR: 论文提出了一种新型的模型-模板(MOTE)方法,用小型个性化神经网络替代传统的向量人脸模板,以提升公平性和隐私保护。

  • Motivation: 传统人脸识别系统使用固定的向量模板,缺乏可解释性,且存在公平性和隐私问题。
  • Method: MOTE为每个身份创建专用的二元分类器,仅使用单个参考样本和合成平衡样本进行训练。
  • Result: 实验表明,MOTE在公平性和隐私方面有显著改进,但增加了推理时间和存储需求。
  • Conclusion: MOTE适用于中小规模应用,尤其在公平性和隐私要求高的场景中表现优异。

[212] CA3D: Convolutional-Attentional 3D Nets for Efficient Video Activity Recognition on the Edge

Gabriele Lagani,Fabrizio Falchi,Claudio Gennaro,Giuseppe Amato

Main category: cs.CV

TL;DR: 提出了一种结合卷积层和线性复杂度注意力机制的深度学习模型,用于视频活动识别,并通过量化机制提升效率。

  • Motivation: 解决现有模型计算需求高的问题,旨在在消费和边缘设备上实现高效且准确的视频活动识别,适用于智能家居和医疗场景。
  • Method: 结合卷积层与线性复杂度注意力机制,并引入量化机制以优化训练和推理效率。
  • Result: 在多个公开视频活动识别基准测试中表现优于其他模型,同时保持较低计算成本。
  • Conclusion: 该模型在高效性和准确性上取得平衡,适用于对计算效率和隐私敏感的智能应用。

[213] Multi-Timescale Motion-Decoupled Spiking Transformer for Audio-Visual Zero-Shot Learning

Wenrui Li,Penghong Wang,Xingtao Wang,Wangmeng Zuo,Xiaopeng Fan,Yonghong Tian

Main category: cs.CV

TL;DR: 论文提出了一种双流多时间尺度运动解耦脉冲Transformer(MDST++),用于解决音频-视觉零样本学习中的背景场景偏差和运动细节不足问题。

  • Motivation: 当前方法在音频-视觉零样本学习中存在背景场景偏差和运动细节不足的问题,需要一种更有效的方法来解耦语义信息和动态运动信息。
  • Method: 提出MDST++,通过解耦上下文语义信息和稀疏动态运动信息,结合事件转换和动态阈值调整,提升运动信息捕获能力。
  • Result: 实验表明MDST++在主流基准测试中优于现有方法,运动和多时间尺度信息的引入显著提升了HM和ZSL准确率。
  • Conclusion: MDST++通过解耦语义与运动信息,有效解决了背景偏差和运动细节不足问题,显著提升了零样本学习性能。

[214] Can Visual Encoder Learn to See Arrows?

Naoyuki Terashita,Yusuke Tozaki,Hideaki Omote,Congkha Nguyen,Ryosuke Nakamoto,Yuta Koreeda,Hiroaki Ozaki

Main category: cs.CV

TL;DR: 论文研究了视觉语言模型(VLMs)在识别图表边缘时的失败原因,提出通过消除文本和位置偏见来训练图像编码器,实验证明该方法在多个任务中优于现有模型。

  • Motivation: 现有视觉语言模型在识别图表边缘时表现不佳,可能源于对文本和位置偏见的过度依赖,阻碍了模型学习明确的边缘特征。
  • Method: 通过对比学习在无文本和位置偏见的图表数据集上训练图像编码器,并在探测、图像检索和描述生成任务中评估其性能。
  • Result: 实验结果显示,微调后的模型在所有任务中均优于预训练的CLIP,并在描述生成任务中超过GPT-4o和LLaVA-Mistral。
  • Conclusion: 消除文本和位置偏见有助于提升视觉语言模型对图表的边缘识别能力,为图表理解提供了新的研究方向。

[215] SaSi: A Self-augmented and Self-interpreted Deep Learning Approach for Few-shot Cryo-ET Particle Detection

Gokul Adethya,Bhanu Pratyush Mantha,Tianyang Wang,Xingjian Li,Min Xu

Main category: cs.CV

TL;DR: 提出了一种名为SaSi的深度学习方法,用于在3D冷冻电子断层扫描图像中实现少样本粒子检测,通过自增强和自解释策略减少对标记数据的依赖,显著优于现有方法。

  • Motivation: 冷冻电子断层扫描(cryo-ET)在成像大分子复合物方面具有优势,但3D粒子定位仍面临低信噪比和缺失楔形伪影的挑战,且标记数据稀缺。
  • Method: 采用自增强技术提高数据利用率,并引入自解释分割策略,减少对标记数据的依赖。
  • Result: 在模拟和真实数据集上的实验表明,SaSi方法在粒子定位方面显著优于现有方法。
  • Conclusion: SaSi方法为冷冻电子断层扫描中的少样本学习设定了新基准,提升了粒子检测能力。

[216] Multimodal Reasoning Agent for Zero-Shot Composed Image Retrieval

Rong-Cheng Tu,Wenhao Sun,Hanzhe You,Yingjie Wang,Jiaxing Huang,Li Shen,Dacheng Tao

Main category: cs.CV

TL;DR: 论文提出了一种无需中间文本的多模态推理代理(MRA)方法,直接构建三元组(参考图像、修改文本、目标图像),显著提升了零样本组合图像检索(ZS-CIR)的性能。

  • Motivation: 现有方法依赖大型语言模型生成中间文本,导致错误传播和检索性能下降,因此需要一种直接关联组合查询与目标图像的方法。
  • Method: 采用多模态推理代理(MRA)直接构建三元组,避免中间文本的依赖,并通过对比学习训练模型直接关联查询与图像。
  • Result: 在三个标准CIR基准测试中表现优异,FashionIQ数据集上R@10提升至少7.5%,CIRR上R@1提升9.6%,CIRCO上mAP@5提升9.5%。
  • Conclusion: MRA框架通过直接学习组合查询与图像的关系,显著提升了ZS-CIR的性能,避免了中间文本的误差传播。

[217] UltraVSR: Achieving Ultra-Realistic Video Super-Resolution with Efficient One-Step Diffusion Space

Yong Liu,Jinshan Pan,Yinchuan Li,Qingji Dong,Chao Zhu,Yu Guo,Fei Wang

Main category: cs.CV

TL;DR: UltraVSR是一种新颖的视频超分辨率框架,通过一步扩散空间实现超真实且时间一致的视频重建,结合DRS和RTS模块提升效率和一致性。

  • Motivation: 扩散模型在图像生成中表现出色,但在视频超分辨率中因随机性和缺乏时间建模而面临挑战。
  • Method: 提出Degradation-aware Restoration Schedule (DRS)和Recurrent Temporal Shift (RTS)模块,结合Spatio-temporal Joint Distillation (SJD)和Temporally Asynchronous Inference (TAI)策略。
  • Result: UltraVSR在单步采样中实现了最先进的性能。
  • Conclusion: UltraVSR通过高效设计和时间一致性模块,显著提升了视频超分辨率的真实性和效率。

[218] PHI: Bridging Domain Shift in Long-Term Action Quality Assessment via Progressive Hierarchical Instruction

Kanglei Zhou,Hubert P. H. Shum,Frederick W. B. Li,Xingxing Zhang,Xiaohui Liang

Main category: cs.CV

TL;DR: 论文提出了一种名为渐进层次指令(PHI)的方法,通过解决任务级和特征级的域偏移问题,提升了长期动作质量评估(AQA)的性能。

  • Motivation: 现有方法因预训练的大规模动作识别主干与AQA任务之间的域偏移而性能受限,且在小数据集上微调主干不切实际。
  • Method: PHI包括两种策略:1)Gap Minimization Flow(GMF)通过流匹配逐步减小域间隙;2)List-wise Contrastive Regularization(LCR)通过批量对比实现细粒度对齐。
  • Result: PHI在三个代表性长期AQA数据集上达到了最先进的性能。
  • Conclusion: PHI有效解决了长期AQA中的域偏移问题,展示了其优越性。

[219] Structured Initialization for Vision Transformers

Jianqiao Zheng,Xueqian Li,Hemanth Saratchandran,Simon Lucey

Main category: cs.CV

TL;DR: 将CNN的归纳偏置通过初始化方式引入ViT,使其在小数据集上表现优异,同时在大数据集上保持ViT的性能。

  • Motivation: ViT在小数据集上表现不佳,而CNN的归纳偏置能有效提升小数据性能。通过初始化方式引入CNN特性,无需改变架构。
  • Method: 改进ViT初始化策略,利用随机脉冲滤波器模拟CNN的归纳偏置,避免依赖预训练模型或注意力权重分布。
  • Result: 在多个中小规模数据集(如Food-101、CIFAR等)上显著优于标准ViT初始化,且在大规模数据集(如ImageNet)上保持竞争力。
  • Conclusion: 提出的初始化策略简单有效,适用于多种Transformer架构,显著提升小数据性能。

[220] Progressive Scaling Visual Object Tracking

Jack Hong,Shilin Yan,Zehao Xiao,Jiayin Cai,Xiaolong Jiang,Yao Hu,Henghui Ding

Main category: cs.CV

TL;DR: 提出了一种渐进式缩放训练策略(DT-Training),通过系统分析训练数据量、模型大小和输入分辨率对跟踪性能的影响,显著提升了跟踪精度。

  • Motivation: 现有方法在训练过程中存在优化不足和迭代细化有限的问题,需要一种更有效的训练策略。
  • Method: 引入DT-Training框架,结合小教师迁移和双分支对齐,逐步扩展训练规模。
  • Result: 在多个基准测试中表现优于现有方法,并展示了良好的泛化性和可迁移性。
  • Conclusion: 该方法不仅适用于视觉目标跟踪,还具有更广泛的适用性。

[221] NEXT: Multi-Grained Mixture of Experts via Text-Modulation for Multi-Modal Object Re-ID

Shihao Li,Chenglong Li,Aihua Zheng,Andong Lu,Jin Tang,Jixin Ma

Main category: cs.CV

TL;DR: 论文提出了一种基于属性置信度的多模态描述生成方法,并设计了NEXT框架,通过文本调制实现多模态对象重识别。

  • Motivation: 现有方法依赖隐式特征融合,难以在复杂条件下建模细粒度识别策略。利用多模态大语言模型的语义理解能力,将视觉外观转化为描述性文本。
  • Method: 提出基于属性置信度的描述生成方法;设计NEXT框架,包含文本调制语义采样专家(TMSE)、上下文共享结构感知专家(CSSE)和多模态特征聚合(MMFA)。
  • Result: 显著降低多模态语义生成的未知识别率,提升生成文本质量;通过多粒度专家分支分别捕捉语义和结构特征。
  • Conclusion: NEXT框架通过文本调制和多粒度专家分支,有效提升了多模态对象重识别的性能。

[222] Decomposing Complex Visual Comprehension into Atomic Visual Skills for Vision Language Models

Hyunsik Chae,Seungwoo Yoon,Jaden Park,Chloe Yewon Chun,Yongin Cho,Mu Cai,Yong Jae Lee,Ernest K. Ryu

Main category: cs.CV

TL;DR: 论文指出当前视觉语言模型(VLMs)在简单视觉任务(如基础2D几何)上表现不佳,提出了原子视觉技能数据集(AVSD)用于评估,并发现现有模型在这些任务上表现较差。

  • Motivation: 尽管VLMs在多模态理解和推理方面表现出色,但在基础视觉任务上表现不佳,因此需要专门的数据集来评估和改进这些能力。
  • Method: 通过定义原子视觉技能并构建AVSD数据集,对现有VLMs进行基准测试。
  • Result: 现有VLMs在AVSD上的表现较差,表明其在基础视觉任务上的局限性。
  • Conclusion: 需要针对原子视觉任务构建专门的数据集,以提升VLMs的基础视觉能力。

[223] ReasonPlan: Unified Scene Prediction and Decision Reasoning for Closed-loop Autonomous Driving

Xueyi Liu,Zuodong Zhong,Yuxin Guo,Yun-Fu Liu,Zhiguo Su,Qichao Zhang,Junli Wang,Yinfeng Gao,Yupeng Zheng,Qiao Lin,Huiyong Chen,Dongbin Zhao

Main category: cs.CV

TL;DR: ReasonPlan是一种基于多模态大语言模型(MLLM)的闭环驾驶框架,通过自监督的下一个场景预测任务和监督的决策链式思维过程,提升驾驶决策的可解释性和因果性。

  • Motivation: 当前MLLM在闭环驾驶系统中应用不足,且性能未显著优于主流端到端模仿学习方法。
  • Method: 提出ReasonPlan框架,结合自监督和监督任务,并构建了包含21万样本的规划导向决策推理数据集(PDR)。
  • Result: 在Bench2Drive基准测试中,L2和驾驶分数分别提升19%和16.1%,并在DOS基准测试中展示零样本泛化能力。
  • Conclusion: ReasonPlan在闭环驾驶中表现出色,具有强泛化能力,适合处理零样本极端情况。

[224] ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers

Fotios Lygerakis,Ozan Özdenizci,Elmar Rückert

Main category: cs.CV

TL;DR: ViTaPEs是一个基于Transformer的框架,通过多尺度位置编码融合视觉和触觉数据,实现任务无关的表征学习,并在多个任务和环境中表现出优异的泛化能力。

  • Motivation: 视觉和触觉感知的融合存在挑战,现有方法依赖预训练模型且忽略多尺度空间推理,ViTaPEs旨在解决这些问题。
  • Method: 提出多尺度位置编码方案,同时建模模态内结构和跨模态线索,并证明其数学性质(单射、刚体运动等变、信息保留)。
  • Result: 在多个大规模数据集上超越现有方法,并展示零样本泛化能力;在机器人抓取任务中表现优异。
  • Conclusion: ViTaPEs为视觉-触觉感知提供了一种高效、可泛化的解决方案,具有广泛的应用潜力。

[225] EmoNet-Face: An Expert-Annotated Benchmark for Synthetic Emotion Recognition

Christoph Schuhmann,Robert Kaczmarczyk,Gollam Rabby,Maurice Kraus,Felix Friedrich,Huu Nguyen,Krishna Kalyan,Kourosh Nadi,Kristian Kersting,Sören Auer

Main category: cs.CV

TL;DR: EmoNet Face 是一个新的基准套件,旨在解决现有情感识别模型的局限性,提供更全面的情感分类、多样化的数据集和专家级性能的模型。

  • Motivation: 当前视觉和视觉语言模型的情感识别基准存在局限性,如情感谱系狭窄、数据集缺乏多样性和控制,导致潜在偏见。
  • Method: 引入 EmoNet Face,包括 40 类情感分类法、三个大规模 AI 生成数据集(EmoNet HQ、Binary 和 Big)、多专家标注和 Empathic Insight Face 模型。
  • Result: Empathic Insight Face 模型在基准测试中达到人类专家级性能。
  • Conclusion: EmoNet Face 为开发更深入理解人类情感的 AI 系统提供了坚实基础。

[226] DepthMatch: Semi-Supervised RGB-D Scene Parsing through Depth-Guided Regularization

Jianxin Huang,Jiahang Li,Sergey Vityazev,Alexander Dvorkovich,Rui Fan

Main category: cs.CV

TL;DR: DepthMatch是一种半监督学习框架,用于RGB-D场景解析,通过互补补丁混合增强和轻量级空间先验注入器提升性能,并在NYUv2和KITTI数据集上取得领先结果。

  • Motivation: 现有RGB-D场景解析方法依赖大量人工标注数据,成本高且耗时。DepthMatch旨在通过半监督学习减少标注需求。
  • Method: 提出互补补丁混合增强、轻量级空间先验注入器和深度引导边界损失,充分利用未标注数据并提升特征融合效率。
  • Result: 在NYUv2和KITTI数据集上取得最佳性能,适用于室内外场景。
  • Conclusion: DepthMatch通过半监督学习和高效特征融合,显著提升了RGB-D场景解析的性能和实用性。

[227] Data-Free Class-Incremental Gesture Recognition with Prototype-Guided Pseudo Feature Replay

Hongsong Wang,Ao Sun,Jie Gui,Liang Wang

Main category: cs.CV

TL;DR: 该论文提出了一种名为PGPFR的框架,用于解决类增量手势识别问题,通过伪特征生成和原型重放等方法,显著提升了识别性能。

  • Motivation: 当前手势识别研究多集中于封闭场景,难以处理未见过的或新的手势。本文旨在解决类增量手势识别问题,即随时间适应新和未见手势的能力。
  • Method: 提出了PGPFR框架,包含伪特征生成(PFGBP)、原型重放(VPR)、截断交叉熵(TCE)和持续分类器重训练(CCRT)四个组件。
  • Result: 在两个广泛使用的手势识别数据集上,PGPFR比现有方法在平均全局准确率上分别提高了11.8%和12.8%。
  • Conclusion: PGPFR框架有效解决了类增量手势识别中的灾难性遗忘问题,并在性能上显著优于现有方法。

[228] Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion

Zheqi Lv,Junhao Chen,Qi Tian,Keting Yin,Shengyu Zhang,Fei Wu

Main category: cs.CV

TL;DR: PPAD是一种新型扩散模型框架,通过引入多模态大语言模型(MLLM)实时纠正生成过程中的语义错误,显著提升文本到图像生成的质量和可控性。

  • Motivation: 当前扩散模型在推理过程中缺乏可解释的语义监督和纠正机制,导致生成图像常出现对象混淆、空间错误等问题,影响图像质量和提示对齐。
  • Method: PPAD框架在推理过程中引入MLLM作为语义观察者,实时分析中间生成结果,识别潜在语义不一致,并通过可控信号引导后续去噪步骤。
  • Result: 实验表明,PPAD在极少数扩散步骤中实现语义纠正,显著提升了生成图像的质量和语义一致性。
  • Conclusion: PPAD为扩散模型提供了可扩展且高效的语义纠正机制,为文本到图像生成领域带来了重要改进。

[229] PAMD: Plausibility-Aware Motion Diffusion Model for Long Dance Generation

Hongsong Wang,Yin Zhu,Qiuxia Lai,Yang Zhang,Guo-Sen Xie,Xin Geng

Main category: cs.CV

TL;DR: PAMD提出了一种基于扩散模型的舞蹈生成框架,通过物理约束和运动指导生成音乐对齐且物理真实的舞蹈动作。

  • Motivation: 现有方法在生成物理真实的舞蹈动作方面存在困难,PAMD旨在解决这一问题。
  • Method: PAMD结合了Plausible Motion Constraint(PMC)、Prior Motion Guidance(PMG)和Motion Refinement with Foot-ground Contact(MRFC)模块,分别用于建模物理约束、提供运动指导和优化足部接触。
  • Result: 实验表明,PAMD显著提升了生成动作的音乐对齐性和物理真实性。
  • Conclusion: PAMD为生成高质量舞蹈动作提供了一种有效方法,具有广泛的应用潜力。

[230] M3DHMR: Monocular 3D Hand Mesh Recovery

Yihong Lin,Xianjia Wu,Xilai Wang,Jianqiao Hu,Songju Lei,Xiandong Li,Wenxiong Kang

Main category: cs.CV

TL;DR: 提出了一种名为M3DHMR的新方法,直接从单张图像中估计手部网格顶点的3D位置,解决了现有方法效率低或预测不直观的问题。

  • Motivation: 由于手部自由度大、2D到3D的模糊性和自遮挡问题,单目3D手部网格恢复具有挑战性。现有方法效率低或预测不直观。
  • Method: M3DHMR通过2D线索为3D任务提供支持,采用动态螺旋卷积层(DSC)和兴趣区域层(ROI)组成的螺旋解码器。DSC层自适应调整权重,ROI层利用物理信息细化网格顶点。
  • Result: 在FreiHAND数据集上的实验表明,M3DHMR显著优于现有实时方法。
  • Conclusion: M3DHMR是一种高效且直观的单目3D手部网格恢复方法,具有显著性能优势。

[231] AdaTP: Attention-Debiased Token Pruning for Video Large Language Models

Fengyuan Sun,Leqi Shen,Hui Chen,Sicheng Zhao,Jungong Han,Guiguang Ding

Main category: cs.CV

TL;DR: 论文提出了一种名为AdaTP的新方法,通过去偏注意力机制减少视频大语言模型的计算开销,同时保持性能。

  • Motivation: 现有视觉令牌压缩方法存在注意力偏差问题,导致计算开销大且性能不稳定。
  • Method: AdaTP引入两个去偏模块,分别处理全局和局部注意力偏差,无需额外训练。
  • Result: 在多个视频理解基准测试中达到SOTA性能,计算开销显著降低(仅需27.3% FLOPs)。
  • Conclusion: AdaTP有效解决了注意力偏差问题,显著提升了视频大语言模型的效率。

[232] From Data to Modeling: Fully Open-vocabulary Scene Graph Generation

Zuyao Chen,Jinlin Wu,Zhen Lei,Chang Wen Chen

Main category: cs.CV

TL;DR: OvSGTR是一种基于Transformer的开放词汇场景图生成框架,克服了传统封闭集模型的限制,能够预测超出预定义类别的对象和关系。

  • Motivation: 传统方法将对象和关系识别限制在固定词汇中,难以适应现实世界中新概念频繁出现的场景。
  • Method: 采用类似DETR的架构,结合冻结的图像主干和文本编码器提取特征,通过Transformer解码器进行端到端预测,并提出关系感知预训练策略和视觉概念保留机制。
  • Result: 在VG150基准测试中,OvSGTR在多种设置下实现了最先进的性能。
  • Conclusion: 大规模关系感知预训练和Transformer架构有望推动场景图生成向更通用和可靠的视觉理解发展。

[233] MEBench: A Novel Benchmark for Understanding Mutual Exclusivity Bias in Vision-Language Models

Anh Thai,Stefan Stojanov,Zixuan Huang,Bikram Boote,James M. Rehg

Main category: cs.CV

TL;DR: MEBench是一个评估互斥性(ME)偏见的基准,结合空间推理,用于测试视觉语言模型(VLMs)的性能。

  • Motivation: 传统ME任务缺乏挑战性和现实性,MEBench通过引入空间推理填补了这一空白。
  • Method: 开发了一个灵活且可扩展的数据生成管道,用于构建多样化的标注场景,并使用新评估指标测试VLMs。
  • Result: 评估了当前最先进的VLMs在MEBench上的表现。
  • Conclusion: MEBench为研究ME偏见提供了更全面和现实的评估工具。

[234] TUNA: Comprehensive Fine-grained Temporal Understanding Evaluation on Dense Dynamic Videos

Fanheng Kong,Jingyuan Zhang,Hongzhi Zhang,Shi Feng,Daling Wang,Linhao Yu,Xingguang Ji,Yu Tian,Qi Wang,Fuzheng Zhang

Main category: cs.CV

TL;DR: TUNA是一个面向时间的基准测试,用于密集动态视频的细粒度理解,包含字幕和问答任务,旨在解决现有视频理解基准的局限性。

  • Motivation: 现有视频理解基准往往单独或狭隘地处理视频的时态元素,忽略了视频内容的整体性。TUNA旨在填补这一空白。
  • Method: 引入TUNA基准,包含多样化的视频场景和动态,并辅以可解释且稳健的评估标准。评估了多个领先模型。
  • Result: 评估揭示了视频时态理解的关键挑战,如动作描述有限、多主体理解不足以及对相机运动不敏感。
  • Conclusion: TUNA为改进视频理解模型提供了有价值的见解,数据和代码已公开。

[235] OB3D: A New Dataset for Benchmarking Omnidirectional 3D Reconstruction Using Blender

Shintaro Ito,Natsuki Takama,Toshiki Watanabe,Koichi Ito,Hwann-Tzong Chen,Takafumi Aoki

Main category: cs.CV

TL;DR: OB3D是一个新的合成数据集,旨在解决多张360度全景图像在3D重建中的几何失真问题,提供全面的地面真实数据和评估指标。

  • Motivation: 当前的全景图像数据集缺乏对几何失真问题的系统性关注和足够的地面真实数据,限制了3D重建技术的进步。
  • Method: 通过Blender 3D生成多样且复杂的3D场景,提供RGB图像、相机参数、深度和法线图等地面真实数据。
  • Result: OB3D数据集为全景图像3D重建提供了可控且具有挑战性的测试环境。
  • Conclusion: OB3D有望推动现有方法的评估和新技术的开发,提升全景图像3D重建的准确性和可靠性。

[236] Agentic 3D Scene Generation with Spatially Contextualized VLMs

Xinhang Liu,Yu-Wing Tai,Chi-Keung Tang

Main category: cs.CV

TL;DR: 提出了一种新方法,通过注入动态空间上下文,使视觉语言模型(VLMs)能够生成、理解和编辑复杂3D场景,提升了其在空间任务中的表现。

  • Motivation: 当前视觉语言模型在结构化3D场景生成和推理方面能力有限,限制了其在空间任务(如具身AI、沉浸式模拟等)中的应用。
  • Method: 引入动态空间上下文,包括场景肖像、语义标记点云和场景超图,构建几何感知的工作记忆。开发了基于此的迭代式3D场景生成流程。
  • Result: 实验表明,该方法能处理多样化输入,实现泛化能力,并支持下游任务(如交互式场景编辑和路径规划)。
  • Conclusion: 该方法展示了在计算机图形学、3D视觉和具身应用中构建空间智能系统的潜力。

[237] FUDOKI: Discrete Flow-based Unified Understanding and Generation via Kinetic-Optimal Velocities

Jin Wang,Yao Lai,Aoxue Li,Shifeng Zhang,Jiacheng Sun,Ning Kang,Chengyue Wu,Zhenguo Li,Ping Luo

Main category: cs.CV

TL;DR: FUDOKI是一种基于离散流匹配的统一多模态模型,挑战了传统的自回归方法,在视觉理解和图像生成任务中表现优异。

  • Motivation: 现有MLLMs依赖自回归架构,存在图像生成顺序限制和推理能力不足的问题,FUDOKI旨在突破这些限制。
  • Method: 利用离散流匹配和动态最优速度,实现迭代优化和双向上下文整合,并从预训练AR模型过渡。
  • Result: FUDOKI在视觉理解和图像生成任务中表现与最先进AR模型相当,测试时扩展技术进一步提升了性能。
  • Conclusion: FUDOKI展示了作为下一代统一多模态模型的潜力,未来可通过强化学习进一步优化。

[238] Hard Negative Contrastive Learning for Fine-Grained Geometric Understanding in Large Multimodal Models

Kai Sun,Yushi Bai,Zhen Yang,Jiajie Zhang,Ji Qi,Lei Hou,Juanzi Li

Main category: cs.CV

TL;DR: 论文提出了一种新的硬负对比学习框架MMCLIP,用于提升视觉编码器的几何理解能力,并训练了LMM模型MMGeoLM,在几何推理任务上表现优异。

  • Motivation: 现有对比学习方法在几何推理任务中存在局限性,需要提升模型的细致推理能力。
  • Method: 结合图像和文本的硬负对比学习,包括生成式和规则式负样本。
  • Result: MMGeoLM在三个几何推理基准测试中显著优于其他开源模型,甚至媲美GPT-4o。
  • Conclusion: 硬负对比学习能有效提升几何推理性能,不同负样本构建方法对结果有显著影响。

[239] HunyuanVideo-Avatar: High-Fidelity Audio-Driven Human Animation for Multiple Characters

Yi Chen,Sen Liang,Zixiang Zhou,Ziyao Huang,Yifeng Ma,Junshu Tang,Qin Lin,Yuan Zhou,Qinglin Lu

Main category: cs.CV

TL;DR: HunyuanVideo-Avatar提出了一种基于多模态扩散变换器的模型,解决了音频驱动动画中的动态性、情感对齐和多角色生成问题。

  • Motivation: 当前音频驱动动画在动态视频生成、情感对齐和多角色处理方面存在挑战。
  • Method: 模型包含三个创新:字符图像注入模块、音频情感模块和面部感知音频适配器。
  • Result: 模型在基准数据集和野生数据集上超越现有方法,生成动态、沉浸式的逼真角色动画。
  • Conclusion: HunyuanVideo-Avatar通过多模态扩散变换器实现了动态、情感可控和多角色的高质量动画生成。

[240] Long-Context State-Space Video World Models

Ryan Po,Yotam Nitzan,Richard Zhang,Berlin Chen,Tri Dao,Eli Shechtman,Gordon Wetzstein,Xun Huang

Main category: cs.CV

TL;DR: 提出一种结合状态空间模型(SSMs)的新架构,以扩展视频扩散模型的长期记忆能力,同时保持计算效率。

  • Motivation: 现有视频扩散模型因注意力层处理长序列的高计算成本而难以维持长期记忆。
  • Method: 采用块状SSM扫描方案,牺牲部分空间一致性以扩展时间记忆,并结合密集局部注意力确保帧间连贯性。
  • Result: 在Memory Maze和Minecraft数据集上,模型在长期记忆任务中优于基线,且推理速度适合交互应用。
  • Conclusion: 该方法有效解决了视频扩散模型的长期记忆问题,兼具高效性和实用性。

[241] PathBench: A comprehensive comparison benchmark for pathology foundation models towards precision oncology

Jiabo Ma,Yingxue Xu,Fengtao Zhou,Yihui Wang,Cheng Jin,Zhengrui Guo,Jianfeng Wu,On Ki Tang,Huajun Zhou,Xi Wang,Luyang Luo,Zhengyu Zhang,Du Cai,Zizhao Gao,Wei Wang,Yueping Liu,Jiankun He,Jing Cui,Zhenhui Li,Jing Zhang,Feng Gao,Xiuming Zhang,Li Liang,Ronald Cheong Kin Chan,Zhe Wang,Hao Chen

Main category: cs.CV

TL;DR: PathBench是一个全面的病理基础模型(PFMs)基准测试,旨在解决模型评估中的挑战,如数据泄漏和多癌症类型覆盖不足,通过多中心数据集和自动化评估系统推动临床转化。

  • Motivation: 病理基础模型在癌症诊断和预后中潜力巨大,但临床转化面临模型泛化性、数据泄漏和缺乏标准化基准等挑战。
  • Method: PathBench通过多中心数据集(15,888张WSIs)、严格的数据泄漏预防和自动化评估系统,全面评估19种PFMs。
  • Result: 评估显示Virchow2和H-Optimus-1是整体表现最佳的模型。
  • Conclusion: PathBench为研究人员提供了强大的模型开发平台,并为临床医生提供了PFM性能的实用见解,加速其临床应用。

[242] Seeing is Believing, but How Much? A Comprehensive Analysis of Verbalized Calibration in Vision-Language Models

Weihao Xuan,Qingcheng Zeng,Heli Qi,Junjue Wang,Naoto Yokoya

Main category: cs.CV

TL;DR: 该论文研究了视觉语言模型(VLMs)中语言化不确定性的有效性,发现当前模型在多任务中存在校准不足问题,并提出了一种改进方法。

  • Motivation: 评估语言化不确定性在VLMs中的效果,填补现有研究的空白。
  • Method: 通过三类模型、四个任务领域和三种评估场景,全面评估语言化置信度,并提出两阶段提示策略改进校准。
  • Result: 当前VLMs在多任务中校准不足,视觉推理模型表现更好;提出的方法显著改善了校准效果。
  • Conclusion: 模态对齐和模型忠实性对可靠的多模态系统至关重要。

[243] AniCrafter: Customizing Realistic Human-Centric Animation via Avatar-Background Conditioning in Video Diffusion Models

Muyao Niu,Mingdeng Cao,Yifan Zhan,Qingtian Zhu,Mingze Ma,Jiancheng Zhao,Yanhong Zeng,Zhihang Zhong,Xiao Sun,Yinqiang Zheng

Main category: cs.CV

TL;DR: AniCrafter是一种基于扩散模型的人物动画方法,能够在动态背景中无缝整合和动画化角色,解决了现有方法在开放域场景中的局限性。

  • Motivation: 当前基于DWPose或SMPL-X的结构条件方法在动态背景或复杂人体姿态下效果有限,需要更灵活的解决方案。
  • Method: 采用图像到视频(I2V)扩散架构,引入“avatar-background”条件机制,将动画任务重构为修复任务。
  • Result: 实验结果表明,该方法在稳定性和多样性上表现优异。
  • Conclusion: AniCrafter为开放域人物动画提供了高效解决方案,代码将开源。

[244] Omni-R1: Reinforcement Learning for Omnimodal Reasoning via Two-System Collaboration

Hao Zhong,Muzhi Zhu,Zongze Du,Zheng Huang,Canyu Zhao,Mingyu Liu,Wen Wang,Hao Chen,Chunhua Shen

Main category: cs.CV

TL;DR: 论文提出了一种两系统架构(Omni-R1),通过强化学习解决视频音频推理与像素级理解的需求冲突,显著提升了性能与泛化能力。

  • Motivation: 长时视频音频推理与细粒度像素理解对模型的需求存在冲突,需要同时处理低分辨率帧和高分辨率输入。
  • Method: 采用两系统架构:全局推理系统选择关键帧并重写任务,细节理解系统处理高分辨率片段。通过强化学习优化关键帧选择与任务重写。
  • Result: 在RefAVS和REVOS基准测试中,Omni-R1超越了监督基线及专用模型,提升了泛化能力并减少了多模态幻觉。
  • Conclusion: Omni-R1首次成功将强化学习应用于大规模全模态推理,为通用基础模型提供了可扩展路径。

[245] HaloGS: Loose Coupling of Compact Geometry and Gaussian Splats for 3D Scenes

Changjian Jiang,Kerui Ren,Linning Xu,Jiong Chen,Jiangmiao Pang,Yu Zhang,Bo Dai,Mulin Yu

Main category: cs.CV

TL;DR: HaloGS提出了一种双表示方法,结合粗三角形几何与高斯基元外观,实现高效且高保真的3D重建与渲染。

  • Motivation: 现有方法通常将几何与外观目标融合为单一复杂模型,或采用混合方案导致效率与保真度之间的权衡。HaloGS旨在通过轻量级几何表示与高斯基元的松散耦合解决这一问题。
  • Method: HaloGS采用双表示:粗三角形用于几何,高斯基元用于外观。这种设计紧凑且表达力强,适用于不同复杂度的场景。
  • Result: 实验表明,HaloGS在多个基准数据集上实现了紧凑、准确的几何与高保真渲染,尤其在几何结构复杂的场景中表现突出。
  • Conclusion: HaloGS通过双表示方法有效平衡了效率与保真度,为3D重建与渲染提供了新思路。

[246] ParticleGS: Particle-Based Dynamics Modeling of 3D Gaussians for Prior-free Motion Extrapolation

Jinsheng Quan,Chunshi Wang,Yawei Luo

Main category: cs.CV

TL;DR: 提出了一种基于粒子动力学系统的动态3D高斯泼溅无先验运动外推框架,通过学习描述3D高斯动力学的微分方程,显著提升了未来帧外推能力。

  • Motivation: 现有动态3D重建方法难以有效学习底层动力学或依赖手动定义的物理先验,限制了外推能力。
  • Method: 引入动态潜在状态向量和编码器,设计基于神经ODE的动态模块建模高斯粒子动力学系统,并通过解码器将潜在状态转换为变形。
  • Result: 在重建任务中渲染质量与现有方法相当,未来帧外推性能显著优于其他方法。
  • Conclusion: 该方法通过建模高斯粒子动力学系统,实现了高效的运动外推,代码已开源。

[247] In-Context Brush: Zero-shot Customized Subject Insertion with Context-Aware Latent Space Manipulation

Yu Xu,Fan Tang,You Wu,Lin Gao,Oliver Deussen,Hongbin Yan,Jintao Li,Juan Cao,Tong-Yee Lee

Main category: cs.CV

TL;DR: 提出了一种零样本框架“In-Context Brush”,通过上下文学习范式实现高保真度的自定义主题插入,无需模型调优。

  • Motivation: 现有方法在通过文本提示插入自定义主题时保真度和意图对齐效果不佳。
  • Method: 采用预训练的MMDiT修复网络,通过双级潜在空间操作(特征动态偏移和注意力重加权)增强测试时性能。
  • Result: 实验表明,该方法在身份保留、文本对齐和图像质量上优于现有方法。
  • Conclusion: In-Context Brush无需额外训练或数据收集,即可实现高质量的自定义主题插入。

[248] Ground-R1: Incentivizing Grounded Visual Reasoning via Reinforcement Learning

Meng Cao,Haoze Zhao,Can Zhang,Xiaojun Chang,Ian Reid,Xiaodan Liang

Main category: cs.CV

TL;DR: Ground-R1是一个无需显式标注的强化学习框架,通过视觉证据区域提升LVLMs的可靠性和可解释性。

  • Motivation: 解决LVLMs输出不可靠和可解释性差的问题,避免依赖高成本标注。
  • Method: 采用强化学习框架,分两阶段:生成证据区域和基于奖励的回答生成。
  • Result: 在多个视觉推理基准上表现优异,展现出认知行为(如不确定性感知)。
  • Conclusion: Ground-R1为现有方法提供了可扩展且可解释的替代方案。

[249] ImgEdit: A Unified Image Editing Dataset and Benchmark

Yang Ye,Xianyi He,Zongjian Li,Bin Lin,Shenghai Yuan,Zhiyuan Yan,Bohan Hou,Li Yuan

Main category: cs.CV

TL;DR: 论文提出了ImgEdit数据集和ImgEdit-E1模型,解决了开源图像编辑模型在数据质量和任务多样性上的不足,并通过新基准ImgEdit-Bench进行了全面评估。

  • Motivation: 开源图像编辑模型在数据质量和任务多样性上落后于专有模型,需要高质量数据集和基准来推动发展。
  • Method: 构建了ImgEdit数据集(120万编辑对),采用多阶段处理流程确保质量;训练了基于视觉语言模型的ImgEdit-E1。
  • Result: ImgEdit-E1在多项任务中优于现有开源模型;ImgEdit-Bench提供了对模型性能的深入分析。
  • Conclusion: ImgEdit数据集和模型设计显著提升了图像编辑性能,为开源社区提供了高质量资源和评估工具。

[250] VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction

Zhiwen Fan,Jian Zhang,Renjie Li,Junge Zhang,Runjin Chen,Hezhen Hu,Kevin Wang,Huaizhi Qu,Dilin Wang,Zhicheng Yan,Hongyu Xu,Justin Theiss,Tianlong Chen,Jiachen Li,Zhengzhong Tu,Zhangyang Wang,Rakesh Ranjan

Main category: cs.CV

TL;DR: VLM-3R是一个结合3D重建指令调优的视觉语言模型框架,通过单目视频帧处理实现3D空间理解,并在时空推理任务中表现出色。

  • Motivation: 扩展大型多模态模型(LMMs)到3D场景理解,以模拟人类视觉空间智能,解决现有方法依赖外部传感器或预构建3D地图的局限性。
  • Method: VLM-3R使用几何编码器从单目视频帧中提取隐式3D标记,结合空间-视觉-视图融合和20万+3D重建指令调优QA对,实现空间与语言的对齐。
  • Result: VLM-3R在视觉空间推理和3D上下文变化理解中表现优异,并在新提出的时空智能基准测试中取得高准确性和可扩展性。
  • Conclusion: VLM-3R为单目3D空间辅助和具身推理提供了有效解决方案,推动了视觉空间智能的发展。

[251] Category-Agnostic Neural Object Rigging

Guangzhao He,Chen Geng,Shangzhe Wu,Jiajun Wu

Main category: cs.CV

TL;DR: 论文提出了一种数据驱动的方法,通过稀疏的空间锚点和实例感知特征体积,自动探索4D可变形物体的低维结构,实现直观的3D物体姿态控制。

  • Motivation: 传统方法依赖专家知识且难以扩展,因此需要一种自动化的数据驱动方法来捕捉低维结构并提升可控性。
  • Method: 设计了一种新表示方法,将4D可变形物体编码为稀疏的空间锚点和实例感知特征体积,以分离姿态和实例信息。
  • Result: 在多种物体类别上验证了方法的有效性,能够直观地修改姿态参数并保留实例信息。
  • Conclusion: 提出的框架为4D可变形物体的低维表示和操控提供了一种有效的数据驱动解决方案。

[252] MotionPro: A Precise Motion Controller for Image-to-Video Generation

Zhongwei Zhang,Fuchen Long,Zhaofan Qiu,Yingwei Pan,Wu Liu,Ting Yao,Tao Mei

Main category: cs.CV

TL;DR: MotionPro提出了一种基于区域轨迹和运动掩码的精确运动控制器,用于图像到视频生成中的精细运动控制。

  • Motivation: 现有方法依赖大高斯核扩展运动轨迹,导致运动控制粗糙且无法区分物体和相机运动。
  • Method: MotionPro通过区域轨迹和运动掩码分别调控细粒度运动合成和目标运动类别,并结合特征调制增强视频去噪。
  • Result: 在WebVid-10M和MC-Bench上的实验验证了MotionPro的有效性。
  • Conclusion: MotionPro实现了更精确的运动控制,并构建了MC-Bench作为评估基准。

[253] Hierarchical Masked Autoregressive Models with Low-Resolution Token Pivots

Guangting Zheng,Yehao Li,Yingwei Pan,Jiajun Deng,Ting Yao,Yanyong Zhang,Tao Mei

Main category: cs.CV

TL;DR: Hi-MAR是一种新的自回归模型,通过多尺度图像令牌的分层依赖关系提升生成效果,减少计算成本。

  • Motivation: 当前自回归模型在早期令牌预测中无法利用全局上下文,限制了生成质量。
  • Method: 提出Hi-MAR模型,通过低分辨率图像令牌触发分层自回归建模,结合扩散Transformer头增强全局上下文。
  • Result: 在类条件和文本到图像生成任务中表现优于典型自回归基线,计算成本更低。
  • Conclusion: Hi-MAR通过分层设计和全局上下文利用,显著提升了自回归模型的生成效率和质量。

[254] VisualToolAgent (VisTA): A Reinforcement Learning Framework for Visual Tool Selection

Zeyi Huang,Yuyang Ji,Anirudh Sundara Rajan,Zefan Cai,Wen Xiao,Junjie Hu,Yong Jae Lee

Main category: cs.CV

TL;DR: VisTA是一个新的强化学习框架,通过动态探索和选择工具库中的工具,提升视觉代理的性能。相比现有方法,VisTA利用端到端强化学习优化工具选择策略,无需显式监督,实验证明其在多个基准测试中表现优异。

  • Motivation: 现有工具增强推理方法依赖无训练提示或大规模微调,缺乏主动工具探索且工具多样性有限。VisTA旨在通过强化学习解决这些问题。
  • Method: VisTA采用端到端强化学习,结合Group Relative Policy Optimization(GRPO),动态优化工具选择策略,利用任务结果作为反馈。
  • Result: 在ChartQA、Geometry3K和BlindTest基准测试中,VisTA显著优于无训练基线,尤其在分布外样本上表现突出。
  • Conclusion: VisTA展示了增强泛化能力和自适应利用多样化工具的潜力,为灵活、经验驱动的视觉推理系统开辟了新方向。

[255] Visualized Text-to-Image Retrieval

Di Wu,Yixin Wan,Kai-Wei Chang

Main category: cs.CV

TL;DR: VisRet通过将文本查询投影到图像模态,再在图像模态内检索,显著提升了文本到图像检索性能,兼容现有检索器。

  • Motivation: 现有跨模态相似性对齐方法在识别细微视觉空间特征方面存在局限。
  • Method: VisRet先将文本查询生成图像,再在图像模态内检索,避免跨模态检索的弱点。
  • Result: 在三个知识密集型T2I检索基准上,VisRet将NDCG@10提升了24.5%至32.7%,并显著提升下游视觉问答准确率。
  • Conclusion: VisRet是一种即插即用的有效模块,适用于知识密集型多模态系统。

[256] OpenS2V-Nexus: A Detailed Benchmark and Million-Scale Dataset for Subject-to-Video Generation

Shenghai Yuan,Xianyi He,Yufan Deng,Yang Ye,Jinfa Huang,Bin Lin,Chongyang Ma,Jiebo Luo,Li Yuan

Main category: cs.CV

TL;DR: 论文提出了OpenS2V-Nexus,包括OpenS2V-Eval评估基准和OpenS2V-5M数据集,用于支持Subject-to-Video(S2V)生成研究。

  • Motivation: 现有S2V评估基准过于粗粒度,无法准确评估生成视频的主题一致性和自然性,因此需要更精细的评估工具和大规模数据集。
  • Method: 提出OpenS2V-Eval评估基准,包含180个提示和三个自动指标(NexusScore、NaturalScore、GmeScore),并构建OpenS2V-5M数据集,包含500万高质量主题-文本-视频三元组。
  • Result: 对16个代表性S2V模型进行全面评估,揭示了其在不同内容上的优缺点。
  • Conclusion: OpenS2V-Nexus为未来S2V生成研究提供了强大的基础设施。

[257] GLEAM: Learning Generalizable Exploration Policy for Active Mapping in Complex 3D Indoor Scenes

Xiao Chen,Tai Wang,Quanyi Li,Tao Huang,Jiangmiao Pang,Tianfan Xue

Main category: cs.CV

TL;DR: GLEAM-Bench是一个大规模基准测试,用于通用主动映射,包含1,152个多样化的3D场景。GLEAM是一种统一的通用探索策略,通过语义表示、长期可导航目标和随机化策略实现优越的泛化能力。

  • Motivation: 解决移动机器人在复杂未知环境中通用主动映射的挑战,克服现有方法因训练数据不足和保守探索策略导致的泛化能力受限问题。
  • Method: 提出GLEAM-Bench基准测试,并基于此开发GLEAM策略,利用语义表示、长期目标和随机化策略。
  • Result: 在128个未见复杂场景中,GLEAM覆盖率达到66.50%(提升9.49%),轨迹高效且映射精度提高。
  • Conclusion: GLEAM在通用主动映射中表现出色,显著优于现有方法,为复杂环境中的机器人探索提供了可靠解决方案。

[258] DiSA: Diffusion Step Annealing in Autoregressive Image Generation

Qinyu Zhao,Jaskirat Singh,Ming Xu,Akshay Asthana,Stephen Gould,Liang Zheng

Main category: cs.CV

TL;DR: 论文提出了一种名为DiSA的训练无关方法,通过逐步减少扩散步数来提升自回归模型中扩散采样的推理效率,同时保持生成质量。

  • Motivation: 随着自回归过程中生成更多标记,后续标记的分布更受限且更易采样,从而减少扩散步数。
  • Method: 引入扩散步退火(DiSA),逐步减少扩散步数,例如从50步降至5步。
  • Result: DiSA显著提升了推理速度(MAR和Harmon提升5-10倍,FlowAR和xAR提升1.4-2.5倍),且不影响生成质量。
  • Conclusion: DiSA是一种简单有效的方法,适用于自回归模型中的扩散采样加速,且与现有方法互补。

eess.SP

[259] Evaluation in EEG Emotion Recognition: State-of-the-Art Review and Unified Framework

Natia Kukhilava,Tatia Tsmindashvili,Rapael Kalandadze,Anchit Gupta,Sofio Katamadze,François Brémond,Laura M. Ferrari,Philipp Müller,Benedikt Emanuel Wirth

Main category: eess.SP

TL;DR: 论文提出EEGain,一个统一的EEG-ER评估协议,解决领域内缺乏标准化评估的问题。

  • Motivation: EEG-ER领域缺乏统一的评估协议,导致研究结果难以公平比较和跟踪进展。
  • Method: 分析了216篇论文,总结了评估协议的不一致性,并开发了开源框架EEGain,提供标准化预处理、数据分割和评估功能。
  • Result: EEGain支持六大数据集和四种常见方法,显著提升了研究的可重复性和可比性。
  • Conclusion: EEGain是推动EEG-ER领域标准化和加速进展的重要工具。

[260] AI- Enhanced Stethoscope in Remote Diagnostics for Cardiopulmonary Diseases

Hania Ghouse,Juveria Tanveen,Abdul Muqtadir Ahmed,Uma N. Dulhare

Main category: eess.SP

TL;DR: 提出一种基于AI的低成本听诊器模型,用于同时诊断心肺疾病,适用于资源匮乏地区。

  • Motivation: 全球心肺疾病增加,现有诊断方法存在局限性,尤其在资源匮乏地区。
  • Method: 结合MFCC特征提取和GRU-CNN混合模型分析听诊声音,部署于低成本设备。
  • Result: 模型能准确诊断六种肺病和五种心血管疾病,并生成数字音频记录。
  • Conclusion: 低成本听诊器与高效AI模型的结合,为标准化医疗提供了变革性解决方案。

[261] Large Language Model-Driven Distributed Integrated Multimodal Sensing and Semantic Communications

Yubo Peng,Luping Xiang,Bingxin Zhang,Kun Yang

Main category: eess.SP

TL;DR: 论文提出了一种基于大语言模型(LLM)的多模态感知与语义通信框架(LLM-DiSAC),通过融合射频(RF)与视觉数据,提升复杂环境下的感知精度与通信效率。

  • Motivation: 传统单模态感知系统在复杂动态环境中表现不佳,且单设备系统视角有限。LLM-DiSAC旨在解决这些问题。
  • Method: 1. 开发RF-视觉融合网络(RVFN);2. 提出基于LLM的语义传输网络(LSTN);3. 设计基于Transformer的聚合模型(TRAM);4. 采用两阶段分布式学习策略保护隐私。
  • Result: 在合成多视角RF-视觉数据集上,LLM-DiSAC表现良好。
  • Conclusion: LLM-DiSAC通过多模态融合与分布式学习,显著提升了感知与通信性能。

cs.IT

[262] ICDM: Interference Cancellation Diffusion Models for Wireless Semantic Communications

Tong Wu,Zhiyong Chen,Dazhi He,Feng Yang,Meixia Tao,Xiaodong Xu,Wenjun Zhang,Ping Zhang

Main category: cs.IT

TL;DR: 扩散模型(DMs)在无线通信系统中展现出强大的去噪能力,本文提出了一种干扰消除扩散模型(ICDM),通过分解联合后验概率并集成梯度估计,显著提升了信号恢复效果。

  • Motivation: 无线信号的广播特性使其易受高斯噪声和未知干扰的影响,研究扩散模型是否能有效消除无线语义通信系统中的干扰。
  • Method: 将干扰消除问题建模为信号和干扰联合后验概率的最大后验(MAP)问题,提出ICDM模型,分解联合后验为独立先验概率并学习其对数梯度。
  • Result: 实验表明,ICDM显著降低了均方误差(MSE)并提升了感知质量,例如在CelebA数据集上,MSE降低了4.54 dB,LPIPS提升了2.47 dB。
  • Conclusion: ICDM通过理论证明和实验验证,为无线通信系统中的干扰消除提供了高效且准确的解决方案。

math.AG

[263] Tropical Geometry Based Edge Detection Using Min-Plus and Max-Plus Algebra

Shivam Kumar Jha S,Jaya NN Iyer

Main category: math.AG

TL;DR: 提出了一种基于热带几何的边缘检测框架,利用最小加和最大加代数重新定义卷积和梯度计算,提升边缘清晰度和连续性。

  • Motivation: 传统边缘检测方法在低对比度和纹理区域表现不佳,热带代数提供了一种强调主导强度变化的替代方案。
  • Method: 探索了三种变体:自适应阈值法、多核最小加法和强调结构连续性的最大加法,结合多尺度处理、Hessian滤波和小波收缩。
  • Result: 在MATLAB内置图像上的实验表明,热带代数与传统算子(如Canny和LoG)结合可改善边界检测,尤其在低对比度和纹理区域。
  • Conclusion: 热带代数作为一种可扩展且对噪声敏感的框架,在图像分析任务中具有潜力。

cs.RO

[264] Grounding Bodily Awareness in Visual Representations for Efficient Policy Learning

Junlin Wang,Zhiyun Lin

Main category: cs.RO

TL;DR: 论文提出了一种名为ICon的对比学习方法,用于提升视觉表示在机器人操作任务中的效果。

  • Motivation: 解决机器人操作中复杂身体动力学导致的视觉表示学习挑战。
  • Method: 通过对比学习分离Vision Transformers中与身体和环境相关的token,生成身体相关的视觉表示。
  • Result: 实验表明ICon提升了多种操作任务的策略性能,并支持跨机器人策略迁移。
  • Conclusion: ICon是一种有效的视觉表示学习方法,适用于机器人操作任务。

[265] WorldEval: World Model as Real-World Robot Policies Evaluator

Yaxuan Li,Yichen Zhu,Junjie Wen,Chaomin Shen,Yi Xu

Main category: cs.RO

TL;DR: 该论文提出了一种利用世界模型作为机器人策略评估代理的方法,通过Policy2Vec和WorldEval实现高效、可扩展的评估。

  • Motivation: 由于真实场景中机器人策略评估耗时且复杂,需要一种可扩展且可靠的替代方法。
  • Method: 提出Policy2Vec将视频生成模型转化为世界模拟器,并开发WorldEval自动化评估流程。
  • Result: WorldEval与真实场景表现强相关,且优于现有方法如real-to-sim。
  • Conclusion: 世界模型可作为机器人策略评估的高效代理,Policy2Vec和WorldEval提供了可靠解决方案。

[266] From Single Images to Motion Policies via Video-Generation Environment Representations

Weiming Zhi,Ziyong Ma,Tianyi Zhang,Matthew Johnson-Roberson

Main category: cs.RO

TL;DR: VGER框架通过单张RGB图像生成多视角视频,利用3D基础模型构建密集点云,并训练隐式表示以实现符合场景几何的碰撞自由运动生成。

  • Motivation: 解决从单张RGB图像生成符合环境几何的碰撞自由运动策略的挑战,避免传统深度估计方法中的误差问题。
  • Method: 提出VGER框架,利用大规模视频生成模型生成多视角视频,再通过3D基础模型构建点云,最后训练隐式表示和多尺度噪声方法生成运动。
  • Result: 在多样化的室内外环境中验证了VGER的能力,能够从单张RGB图像生成平滑且符合场景几何的运动。
  • Conclusion: VGER通过结合视频生成和3D建模技术,成功实现了从单张图像生成符合几何的碰撞自由运动。

cs.DC

[267] Optimizing edge AI models on HPC systems with the edge in the loop

Marcel Aach,Cyril Blanc,Andreas Lintermann,Kurt De Grave

Main category: cs.DC

TL;DR: 该论文提出了一种硬件感知的神经架构搜索(NAS)方法,用于在边缘设备上优化AI模型,显著提升了推理速度和模型质量。

  • Motivation: 边缘设备上的AI模型需要高效且准确,传统方法如剪枝或量化可能不足以满足需求,因此探索硬件感知的NAS方法。
  • Method: 通过将边缘设备与高性能计算系统结合,实时测量目标硬件的延迟,快速训练架构候选。
  • Result: 在AM领域的实验中,推理速度提升约8.8倍,模型质量提高约1.35倍。
  • Conclusion: 硬件感知NAS是一种有效的方法,可在边缘设备上实现高效且高质量的AI模型。

cs.SD

[268] Towards Video to Piano Music Generation with Chain-of-Perform Support Benchmarks

Chang Liu,Haomin Zhang,Shiyu Xia,Zihao Chen,Chaofan Ding,Xin Yue,Huizhe Chen,Xinhan Di

Main category: cs.SD

TL;DR: 论文提出了一个名为CoP Benchmark Dataset的多模态基准数据集,专门用于视频引导的钢琴音乐生成,解决了现有评估数据集的不足。

  • Motivation: 现有评估数据集未能充分捕捉钢琴音乐生成所需的复杂同步性,且现有指标无法反映视频与钢琴音乐交互的复杂性。
  • Method: 引入了CoP Benchmark Dataset,提供详细的多模态注释和逐步的Chain-of-Perform指导,确保视频内容与钢琴音频的语义和时间对齐。
  • Result: 数据集完全开源,包含注释和评估协议,并设有持续更新的排行榜以推动研究。
  • Conclusion: CoP Benchmark Dataset为高质量钢琴音乐生成提供了全面的基准和评估框架。

cs.GR

[269] CageNet: A Meta-Framework for Learning on Wild Meshes

Michal Edelstein,Hsueh-Ti Derek Liu,Mirela Ben-Chen

Main category: cs.GR

TL;DR: 本文提出了一种基于笼状几何的可配置元框架,用于处理非流形、多组件或连接性受损的“野生”三角网格,通过广义重心坐标实现笼与网格之间的函数映射,提升了分割和蒙皮权重学习的性能。

  • Motivation: 扩展通用三角网格框架的适用性,以处理现实中常见的非流形、多组件或连接性受损的网格(“野生”网格)。
  • Method: 提出基于笼状几何的元框架,利用广义重心坐标实现笼与网格之间的函数映射,支持多种应用的学习和测试。
  • Result: 在“野生”网格上实现了优于现有技术的分割和蒙皮权重学习性能。
  • Conclusion: 笼状几何框架为处理复杂网格提供了一种灵活且高效的方法,显著提升了通用框架的适用性。

[270] SRDiffusion: Accelerate Video Diffusion Inference via Sketching-Rendering Cooperation

Shenggan Cheng,Yuanxin Wei,Lansong Diao,Yong Liu,Bujiao Chen,Lianghua Huang,Yu Liu,Wenyuan Yu,Jiangsu Du,Wei Lin,Yang You

Main category: cs.GR

TL;DR: SRDiffusion通过大模型与小模型协作,降低视频生成的推理成本,实现3倍速度提升且质量几乎无损。

  • Motivation: 扩散模型在视频生成中计算成本高,现有加速方法常导致质量下降。
  • Method: 大模型处理高噪声步骤(Sketching),小模型优化低噪声步骤(Rendering)。
  • Result: 实验显示,SRDiffusion在Wan上速度提升3倍,CogVideoX上提升2倍,且质量几乎无损。
  • Conclusion: SRDiffusion为视频生成提供了一种正交于现有加速策略的新方向,具有实际应用价值。

stat.AP

[271] Unsupervised cell segmentation by fast Gaussian Processes

Laura Baracaldo,Blythe King,Haoran Yan,Yizi Lin,Nina Miolane,Mengyang Gu

Main category: stat.AP

TL;DR: 提出了一种基于快速高斯过程的无监督细胞分割算法,适用于噪声显微图像,无需参数调整或形状假设。

  • Motivation: 现有监督分割工具依赖参数调整和形状假设,且需要高质量标注数据,限制了其在新类型对象上的应用。
  • Method: 使用自适应阈值标准和分水岭分割,处理亮度不均的图像并区分接触的细胞对象。
  • Result: 模拟和真实数据实验表明,该方法在可扩展性和准确性上优于现有方法。
  • Conclusion: 该无监督算法为细胞分割提供了高效且通用的解决方案。

astro-ph.GA

[272] RGC-Bent: A Novel Dataset for Bent Radio Galaxy Classification

Mir Sazzat Hossain,Khan Muhammad Bin Asad,Payaswini Saikia,Adrita Khan,Md Akil Raihan Iftee,Rakibul Hasan Rajib,Arshad Momen,Md Ashraful Amin,Amin Ahsan Ali,AKM Mahbubur Rahman

Main category: astro-ph.GA

TL;DR: 该论文介绍了一个专为弯曲射电活动星系核(AGN)分类设计的新型机器学习数据集,并评估了深度学习模型的性能。

  • Motivation: 弯曲射电AGN因其独特的弯曲喷流结构对研究星系团动力学和AGN物理具有重要意义,但缺乏专门的数据集和基准。
  • Method: 基于知名射电天文调查构建数据集,支持NAT和WAT分类,并评估了CNN和基于Transformer的模型。
  • Result: ConvNeXT模型在NAT和WAT分类中取得了最高的F1分数。
  • Conclusion: 该数据集和基准的发布旨在推动AGN分类和星系演化研究。

cs.AI

[273] Generative RLHF-V: Learning Principles from Multi-modal Human Preference

Jiayi Zhou,Jiaming Ji,Boyuan Chen,Jiapeng Sun,Wenqi Chen,Donghai Hong,Sirui Han,Yike Guo,Yaodong Yang

Main category: cs.AI

TL;DR: 提出了一种新的多模态对齐框架Generative RLHF-V,结合生成式奖励模型(GRM)与多模态RLHF,显著提升了模型性能。

  • Motivation: 传统奖励模型在准确性和泛化性上表现不佳,阻碍了多模态大语言模型(MLLM)与人类意图的对齐。
  • Method: 采用两阶段流程:1)通过强化学习(RL)指导GRM主动捕捉人类意图并预测成对分数;2)通过分组比较优化多模态RL评分。
  • Result: 实验显示,框架在7个基准测试中平均提升4个MLLM性能18.1%,基线RLHF仅提升5.3%。
  • Conclusion: Generative RLHF-V显著提升了模型对齐效果,且性能随候选响应数量增加而线性提升。

[274] Diffusion Blend: Inference-Time Multi-Preference Alignment for Diffusion Models

Min Cheng,Fatemeh Doudi,Dileep Kalathil,Mohammad Ghavamzadeh,Panganamala R. Kumar

Main category: cs.AI

TL;DR: 论文提出Diffusion Blend方法,通过混合微调模型的反向扩散过程,实现在推理时动态调整多目标和KL正则化强度,无需额外微调。

  • Motivation: 现有强化学习方法在微调扩散模型时仅针对单一目标,无法灵活平衡多目标或适应不同用户偏好。
  • Method: 提出Diffusion Blend框架,包含DB-MPA(多奖励对齐)和DB-KLA(KL正则化控制)两种算法,通过混合反向扩散过程实现动态调整。
  • Result: 实验表明,Diffusion Blend在性能上优于基线方法,接近或超过单独微调模型的效果。
  • Conclusion: Diffusion Blend实现了高效、用户驱动的推理时对齐,解决了多目标平衡和个性化需求问题。

[275] Doc-CoB: Enhancing Multi-Modal Document Understanding with Visual Chain-of-Boxes Reasoning

Ye Mo,Zirui Shao,Kai Ye,Xianwei Mao,Bo Zhang,Hangdi Xing,Peng Ye,Gang Huang,Kehan Chen,Zhou Huan,Zixu Yan,Sheng Zhou

Main category: cs.AI

TL;DR: Doc-CoB通过模拟人类阅读模式,提出了一种基于区域选择的文档理解方法,显著提升了多模态大语言模型在文档理解任务中的性能。

  • Motivation: 现有MLLM在处理文档图像时无法有效聚焦关键区域,导致响应不准确。
  • Method: 引入Doc-CoB机制,结合自动生成训练样本和两个辅助任务,优化区域选择和推理能力。
  • Result: 在七个基准测试中,Doc-CoB显著提升了四种流行模型的性能。
  • Conclusion: Doc-CoB是一种简单有效的方法,适用于广泛的文档理解任务。

[276] CardioCoT: Hierarchical Reasoning for Multimodal Survival Analysis

Shaohao Rui,Haoyang Su,Jinyi Xiang,Lian-Ming Wu,Xiaosong Wang

Main category: cs.AI

TL;DR: CardioCoT是一种新型两阶段分层推理增强生存分析框架,旨在提高模型可解释性和预测性能,用于急性心肌梗死患者的主要不良心血管事件复发风险预测。

  • Motivation: 现有方法主要关注风险分层能力,忽视了临床实践中对中间稳健推理和模型可解释性的需求,且端到端风险预测面临数据限制和建模复杂性挑战。
  • Method: CardioCoT采用两阶段方法:第一阶段通过证据增强自优化机制引导LLM/VLM生成稳健的分层推理轨迹;第二阶段将推理轨迹与影像数据结合进行风险模型训练和预测。
  • Result: CardioCoT在MACE复发风险预测中表现出优越性能,并提供可解释的推理过程。
  • Conclusion: CardioCoT为临床决策提供了有价值的见解,同时提升了预测性能和模型可解释性。

[277] Consistency-based Abductive Reasoning over Perceptual Errors of Multiple Pre-trained Models in Novel Environments

Mario Leiva,Noel Ngu,Joshua Shay Kricheli,Aditya Taparia,Ransalu Senanayake,Paulo Shakarian,Nathaniel Bastian,John Corcoran,Gerardo Simari

Main category: cs.AI

TL;DR: 论文提出了一种基于一致性溯因的框架,通过整合多个预训练模型的预测来应对分布偏移导致的性能下降,显著提升了F1分数和准确率。

  • Motivation: 解决预训练模型在新环境中因分布偏移导致的性能下降问题,同时避免传统方法在提升精度时牺牲召回率。
  • Method: 将多模型的预测和错误检测规则编码为逻辑程序,通过溯因解释(基于整数规划和启发式搜索)最大化预测覆盖并控制不一致率。
  • Result: 在模拟航空影像数据集上,F1分数和准确率分别平均提升13.6%和16.6%,优于单模型和标准集成方法。
  • Conclusion: 一致性溯因是整合多模型知识的有效机制,适用于复杂分布偏移场景。

[278] DiffVLA: Vision-Language Guided Diffusion Planning for Autonomous Driving

Anqing Jiang,Yu Gao,Zhigang Sun,Yiru Wang,Jijun Wang,Jinghao Chai,Qian Cao,Yuweng Heng,Hao Jiang,Zongzheng Zhang,Xianda Guo,Hao Sun,Hao Zhao

Main category: cs.AI

TL;DR: 论文提出了一种名为Diff-VLA的混合稀疏-密集扩散策略,结合视觉语言模型(VLM),解决了端到端自动驾驶中的计算成本高、行为多样性和复杂场景决策问题。

  • Motivation: 端到端自动驾驶因其全微分设计整合感知、预测和规划任务而备受关注,但现有方法存在计算成本高、行为多样性不足和复杂场景决策不佳的问题。
  • Method: 提出Diff-VLA方法,利用稀疏扩散表示实现高效多模态驾驶行为,并通过VLM改进轨迹生成指导,实现跨智能体、地图实例和VLM输出的深度交互。
  • Result: 在Autonomous Grand Challenge 2025中表现优异,达到45.0 PDMS。
  • Conclusion: Diff-VLA通过混合稀疏-密集扩散策略和VLM的结合,显著提升了自动驾驶在复杂场景中的性能。

[279] FieldWorkArena: Agentic AI Benchmark for Real Field Work Tasks

Atsunori Moteki,Shoichi Masui,Fan Yang,Yueqi Song,Yonatan Bisk,Graham Neubig,Ikuo Kusajima,Yasuto Watanabe,Hiroyuki Ishida,Jun Takahashi,Shan Jiang

Main category: cs.AI

TL;DR: FieldWorkArena是一个针对现实世界现场工作的智能代理AI基准测试,填补了现有基准测试在复杂现实环境中的不足。

  • Motivation: 现有智能代理AI基准测试主要针对网络任务,无法满足现实工作环境的需求,因此需要开发新的基准测试。
  • Method: 定义了新的动作空间并改进了评估函数,使用现场视频和实际文档构建数据集,任务基于现场工作人员和管理者的访谈设计。
  • Result: 验证了考虑多模态LLM(如GPT-4o)特性的性能评估可行性,并识别了新评估方法的有效性和局限性。
  • Conclusion: FieldWorkArena为现实工作环境中的智能代理AI提供了有效的评估工具,数据集和评估程序已公开。

[280] ScienceBoard: Evaluating Multimodal Autonomous Agents in Realistic Scientific Workflows

Qiushi Sun,Zhoumianze Liu,Chang Ma,Zichen Ding,Fangzhi Xu,Zhangyue Yin,Haiteng Zhao,Zhenyu Wu,Kanzhi Cheng,Zhaoyang Liu,Jianing Wang,Qintong Li,Xiangru Tang,Tianbao Xie,Xiachong Feng,Xiang Li,Ben Kao,Wenhai Wang,Biqing Qi,Lingpeng Kong,Zhiyong Wu

Main category: cs.AI

TL;DR: ScienceBoard是一个多领域环境,支持LLM代理通过交互加速科研任务,并提供了一个包含169个真实任务的基准测试。尽管现有代理表现有限(成功率15%),但为未来改进提供了方向。

  • Motivation: 探索LLM代理在跨学科科研中的潜力,解决复杂科研工作流中的自动化问题。
  • Method: 开发ScienceBoard环境,包含多领域动态工作流和169个真实任务,评估现有代理(如GPT-4o、Claude 3.7)的性能。
  • Result: 现有代理在复杂任务中表现不佳,成功率仅15%,但提供了改进的洞察。
  • Conclusion: ScienceBoard为未来开发更强大的科研代理奠定了基础,需进一步优化设计。

cs.LG

[281] LatentLLM: Attention-Aware Joint Tensor Compression

Toshiaki Koike-Akino,Xiangyu Chen,Jing Liu,Ye Wang,Pu,Wang,Matthew Brand

Main category: cs.LG

TL;DR: 提出了一种新框架,通过全局注意力感知的联合张量分解,将大型语言模型和多模态模型转换为低维潜在结构,显著提升了模型压缩的准确性。

  • Motivation: 现代基础模型(如大型语言模型和多模态模型)需要大量计算和内存资源,现有压缩方法在降低维度时准确性不足。
  • Method: 扩展了局部激活感知的张量分解方法,提出全局注意力感知的联合张量分解框架。
  • Result: 在多个基准测试中,包括多模态推理任务,显著提升了模型压缩后的准确性。
  • Conclusion: 该框架为计算和内存高效的大型模型提供了有效解决方案。

[282] Learning without Isolation: Pathway Protection for Continual Learning

Zhikang Chen,Abudukelimu Wuerkaixi,Sen Cui,Haoxuan Li,Ding Li,Jingfeng Zhang,Bo Han,Gang Niu,Houfang Liu,Yi Yang,Sifan Yang,Changshui Zhang,Tianling Ren

Main category: cs.LG

TL;DR: 论文提出了一种新的持续学习框架LwI,通过保护旧任务的路径而非参数来解决灾难性遗忘问题,实验证明了其优越性。

  • Motivation: 深度网络在连续任务学习中容易发生灾难性遗忘,现有方法主要通过保护参数来解决,但参数保护不切实际且效率低。
  • Method: 从神经科学和物理学角度提出路径比参数更重要的观点,提出LwI框架,通过图匹配实现模型融合,保护旧任务的路径。
  • Result: LwI能够自适应地为新任务分配路径,高效解决灾难性遗忘问题,实验验证了其优越性。
  • Conclusion: LwI通过路径保护而非参数保护,提供了一种参数高效的持续学习解决方案。

[283] How to build a consistency model: Learning flow maps via self-distillation

Nicholas M. Boffi,Michael S. Albergo,Eric Vanden-Eijnden

Main category: cs.LG

TL;DR: 提出了一种基于流映射的系统性学习方法,通过自蒸馏直接训练算法,无需预训练模型,适用于高维和低维任务。

  • Motivation: 改进基于微分方程的生成模型效率,利用流映射与速度场的关系。
  • Method: 通过自蒸馏将现有蒸馏方案转化为直接训练算法,避免时空导数或利用高阶导数。
  • Result: 高维任务(如图像合成)避免流映射的时空导数效果更好,低维任务利用高阶导数可捕捉尖锐特征。
  • Conclusion: 该方法在不同维度任务中均有效,且无需预训练模型。

[284] LORE: Lagrangian-Optimized Robust Embeddings for Visual Encoders

Borna Khodabandeh,Amirabbas Afzali,Amirhossein Afsharrad,Seyed Shahabeddin Mousavi,Sanjay Lall,Sajjad Amini,Seyed-Mohsen Moosavi-Dezfooli

Main category: cs.LG

TL;DR: 论文提出了一种名为LORE的无监督对抗微调框架,通过约束优化平衡鲁棒性和清洁数据性能,显著提升了零样本对抗鲁棒性。

  • Motivation: 现代视觉编码器在对抗扰动下的鲁棒性不足,现有微调方法存在不稳定性和性能权衡问题。
  • Method: 提出LORE框架,利用约束优化和嵌入空间邻近约束,平衡鲁棒性和清洁数据性能。
  • Result: LORE显著提升零样本对抗鲁棒性,同时保持清洁数据准确性,并在分布外泛化和嵌入可解释性上表现优异。
  • Conclusion: LORE为对抗微调提供了一种有效且稳定的解决方案,平衡了鲁棒性和性能。

[285] AmorLIP: Efficient Language-Image Pretraining via Amortization

Haotian Sun,Yitong Li,Yuchen Zhuang,Niao He,Hanjun Dai,Bo Dai

Main category: cs.LG

TL;DR: AmorLIP是一种高效的CLIP预训练框架,通过轻量级神经网络分摊对比学习的计算成本,显著提升训练效率和性能。

  • Motivation: 现有CLIP方法需要极大批次和计算资源,且现有解决方案常牺牲性能或扩展性。AmorLIP旨在克服这些限制。
  • Method: 利用基于能量模型的光谱分解见解,引入新颖的分摊目标和实用技术以提高训练稳定性。
  • Result: 在38个下游任务中,AmorLIP零样本分类和检索性能显著优于标准CLIP,相对提升高达12.24%。
  • Conclusion: AmorLIP通过高效分摊计算,实现了更优的性能和训练效率,为大规模对比学习提供了可行方案。

[286] STRICT: Stress Test of Rendering Images Containing Text

Tianyu Zhang,Xinyu Wang,Zhenghan Tai,Lu Li,Jijun Chi,Jingrui Tian,Hailin He,Suyuchen Wang

Main category: cs.LG

TL;DR: 论文提出了STRICT基准,用于系统测试扩散模型生成图像中一致且可读文本的能力,揭示了模型在长距离一致性和指令遵循方面的局限性。

  • Motivation: 扩散模型在文本到图像生成中表现出色,但在生成一致且可读的文本方面仍有不足,主要由于局部性偏差限制了长距离空间依赖建模。
  • Method: 引入STRICT基准,从文本长度、正确性与可读性、指令遵循率三个维度评估扩散模型。
  • Result: 评估显示现有模型在长距离一致性和指令遵循方面存在持续局限性。
  • Conclusion: 研究揭示了架构瓶颈,为未来多模态生成模型研究提供了方向,并公开了评估工具。

[287] I2MoE: Interpretable Multimodal Interaction-aware Mixture-of-Experts

Jiayi Xin,Sukwon Yun,Jie Peng,Inyoung Choi,Jenna L. Ballard,Tianlong Chen,Qi Long

Main category: cs.LG

TL;DR: I2MoE提出了一种可解释的多模态交互感知混合专家框架,通过显式建模多模态交互并提供局部和全局解释,改进了传统融合方法的局限性。

  • Motivation: 传统多模态融合方法无法处理异构交互且缺乏可解释性,I2MoE旨在解决这些问题。
  • Method: I2MoE利用弱监督交互损失学习多模态交互,并通过重加权模型为每个交互专家分配重要性分数,提供样本级和数据集级解释。
  • Result: 在医疗和通用多模态数据集上,I2MoE灵活兼容多种融合技术,显著提升任务性能并提供可解释性。
  • Conclusion: I2MoE是一种高效且可解释的多模态融合框架,适用于多种实际场景。

[288] CoreMatching: A Co-adaptive Sparse Inference Framework with Token and Neuron Pruning for Comprehensive Acceleration of Vision-Language Models

Qinsi Wang,Hancheng Ye,Ming-Yu Chung,Yudong Liu,Yueqian Lin,Martin Kuo,Mingyuan Ma,Jianyi Zhang,Yiran Chen

Main category: cs.LG

TL;DR: 论文研究了视觉语言模型(VLMs)中令牌稀疏性和神经元稀疏性之间的潜在协同作用,提出了CoreMatching框架,显著提升了推理效率。

  • Motivation: 尽管令牌稀疏性和神经元稀疏性分别能提高效率,但两者是否独立运作或存在协同效应尚未明确。
  • Method: 通过分析核心神经元与核心令牌的匹配机制,提出CoreMatching框架,利用两者的协同作用优化推理。
  • Result: 在十项图像理解任务和三种硬件设备上表现优异,NVIDIA Titan Xp上实现了5倍FLOPs减少和10倍加速。
  • Conclusion: CoreMatching揭示了令牌与神经元稀疏性的协同效应,为高效推理提供了新方向。

[289] Exploring the Possibility of TypiClust for Low-Budget Federated Active Learning

Yuta Ono,Hiroshi Nakamura,Hideki Takase

Main category: cs.LG

TL;DR: Federated Active Learning (FAL) 结合主动学习 (AL) 以减少标注负担,研究 TypiClust 在低预算 FAL 中的有效性。

  • Motivation: FAL 环境下获取标注成本高,需低预算策略。
  • Method: 研究 TypiClust 在低预算 FAL 中的表现,分析其对数据异质性和分布偏移的鲁棒性。
  • Result: TypiClust 在低预算 FAL 中表现优于其他方法,对分布偏移不敏感。
  • Conclusion: TypiClust 适用于低预算 FAL,为有限数据场景提供解决方案。

[290] Diversity-Driven Generative Dataset Distillation Based on Diffusion Model with Self-Adaptive Memory

Mingzhuo Li,Guang Li,Jiafeng Mao,Takahiro Ogawa,Miki Haseyama

Main category: cs.LG

TL;DR: 提出了一种基于扩散模型的多样性驱动生成数据集蒸馏方法,通过自适应内存对齐分布,提升下游任务准确性。

  • Motivation: 现有生成模型在数据集蒸馏中分布多样性不足,导致下游验证准确性下降。
  • Method: 采用扩散模型和自适应内存技术,对齐蒸馏数据集与真实数据集的分布。
  • Result: 在多数情况下优于现有方法,证明了其解决数据集蒸馏任务的能力。
  • Conclusion: 该方法通过提升多样性,显著改善了数据集蒸馏的效果。

[291] WQLCP: Weighted Adaptive Conformal Prediction for Robust Uncertainty Quantification Under Distribution Shifts

Shadi Alijani,Homayoun Najjaran

Main category: cs.LG

TL;DR: 论文提出两种方法(RLSCP和WQLCP)改进共形预测在分布偏移下的表现,WQLCP通过加权交换性进一步提升性能。

  • Motivation: 解决共形预测在分布偏移下覆盖不可靠和预测集膨胀的问题。
  • Method: 1. RLSCP利用VAE重建损失作为不确定性度量;2. WQLCP引入加权交换性调整分位数阈值。
  • Result: WQLCP在ImageNet等数据集上表现优于基线,保持覆盖同时减小预测集大小。
  • Conclusion: WQLCP为分布偏移下的共形预测提供了鲁棒解决方案。

[292] Multiplicity is an Inevitable and Inherent Challenge in Multimodal Learning

Sanghyuk Chun

Main category: cs.LG

TL;DR: 论文探讨了多模态学习中的多重性问题,指出当前方法假设模态间一对一确定性对齐的局限性,并呼吁研究新的多重性感知框架和数据集构建方法。

  • Motivation: 当前多模态学习方法假设模态间为一对一确定性对齐,而现实中多模态关系是多对多的(多重性),这种简化导致训练不确定性、评估不可靠和数据集质量低。
  • Method: 通过分析多重性的成因和影响,提出多重性是多模态学习中的根本瓶颈,并探讨其在数据构建、训练和评估阶段的体现。
  • Result: 研究发现多重性导致训练不确定性、评估不可靠和数据集质量下降,需重新审视多模态学习框架。
  • Conclusion: 呼吁开发新的多重性感知学习框架和数据集构建方法,以应对多模态学习中的多重性问题。

[293] Diagnosing and Mitigating Modality Interference in Multimodal Large Language Models

Rui Cai,Bangzheng Li,Xiaofei Wen,Muhao Chen,Zhe Zhao

Main category: cs.LG

TL;DR: 多模态大语言模型(MLLMs)在任务中表现优异,但难以区分任务相关与无关信号,尤其在视觉问答(VQA)中易受误导输入影响。作者提出跨模态能力问题,并通过扰动实验验证。为解决此问题,提出一种新框架,结合扰动数据增强和一致性正则化,显著提升模型鲁棒性和跨模态能力。

  • Motivation: MLLMs在多模态任务中表现优异,但在单模态任务中易受无关模态干扰,导致性能下降。作者旨在解决这一跨模态能力问题。
  • Method: 提出扰动实验验证问题,并设计新框架,包括启发式和对抗性扰动数据增强(PGD)及一致性正则化策略。
  • Result: 在多个基准数据集和模型上实验,显著提升了鲁棒性和跨模态能力,同时增强单模态推理和多模态任务性能。
  • Conclusion: 新框架有效解决了跨模态能力问题,提升了模型在单模态和多模态任务中的表现。

[294] GraphAU-Pain: Graph-based Action Unit Representation for Pain Intensity Estimation

Zhiyu Wang,Yang Liu,Hatice Gunes

Main category: cs.LG

TL;DR: GraphAU-Pain利用图神经网络建模面部动作单元(AUs)及其关系,提升疼痛强度估计的准确性和可解释性。

  • Motivation: 理解疼痛相关面部行为对数字医疗至关重要,但现有方法在可解释性和严重性量化方面存在局限。
  • Method: 提出GraphAU-Pain框架,将AUs表示为图节点,共现关系为边,利用关系图神经网络建模。
  • Result: 在UNBC数据集上,F1-score为66.21%,准确率为87.61%。
  • Conclusion: GraphAU-Pain通过图结构显著提升了疼痛强度估计的性能和可解释性。

[295] Refining Few-Step Text-to-Multiview Diffusion via Reinforcement Learning

Ziyi Zhang,Li Shen,Deheng Ye,Yong Luo,Huangxuan Zhao,Lefei Zhang

Main category: cs.LG

TL;DR: 提出了一种基于强化学习的微调框架MVC-ZigAL,用于优化少步T2MV扩散模型,同时提升单视图保真度和跨视图一致性。

  • Motivation: 现有加速T2MV生成方法在减少计算量的同时牺牲了图像质量和视图一致性,需要一种新的优化方法。
  • Method: 1. 将T2MV去噪过程统一为马尔可夫决策过程;2. 提出ZMV-Sampling采样技术;3. 开发MV-ZigAL策略优化方法;4. 将问题重构为约束优化问题。
  • Result: MVC-ZigAL框架显著提升了少步T2MV扩散模型的生成质量和一致性,同时保持高效性。
  • Conclusion: MVC-ZigAL为少步T2MV扩散模型提供了一种有效的优化方法,平衡了保真度和一致性。

[296] Understanding Generalization in Diffusion Models via Probability Flow Distance

Huijie Zhang,Zijian Huang,Siyi Chen,Jinfan Zhou,Zekai Zhang,Peng Wang,Qing Qu

Main category: cs.LG

TL;DR: 论文提出了一种名为概率流距离(PFD)的度量方法,用于评估扩散模型的泛化能力,并通过实验揭示了扩散模型的关键泛化行为。

  • Motivation: 扩散模型在生成高质量样本方面表现出色,但评估其泛化能力仍具挑战性。现有理论指标不适用于高维数据,而实际指标又缺乏严谨性。
  • Method: 引入概率流距离(PFD),通过比较噪声到数据的映射来量化分布间的距离,并结合师生评估协议进行实验。
  • Result: 实验揭示了扩散模型的多种泛化行为,包括从记忆到泛化的缩放行为、早期学习和双下降训练动态,以及偏差-方差分解。
  • Conclusion: PFD为未来研究扩散模型的泛化能力提供了理论和实证基础。

[297] Multimodal Federated Learning With Missing Modalities through Feature Imputation Network

Pranav Poudel,Aavash Chhetri,Prashnna Gyawali,Georgios Leontidis,Binod Bhattarai

Main category: cs.LG

TL;DR: 提出了一种轻量级低维特征翻译器,用于重建多模态联邦学习中缺失模态的瓶颈特征,解决了医疗数据中模态缺失的问题。

  • Motivation: 医疗领域多模态联邦学习面临模态缺失的挑战,现有方法依赖公开数据集或合成数据,但成本高且易出错。
  • Method: 提出了一种轻量级低维特征翻译器,通过重建缺失模态的瓶颈特征来解决问题。
  • Result: 在三个数据集(MIMIC-CXR、NIH Open-I和CheXpert)上验证,性能优于基线方法。
  • Conclusion: 该方法有效解决了医疗数据中模态缺失问题,提升了多模态联邦学习的性能。

[298] Probabilistic Kernel Function for Fast Angle Testing

Kejing Lu,Chuan Xiao,Yoshiharu Ishikawa

Main category: cs.LG

TL;DR: 本文研究了高维欧几里得空间中的角度测试问题,提出了两种基于投影的概率核函数,分别用于角度比较和角度阈值化。与现有方法不同,我们的方法利用参考角度和确定性投影向量结构,无需渐近假设,并在理论和实验上优于基于高斯分布的核函数。此外,应用于近似最近邻搜索(ANNS)时,我们的方法比最先进的图搜索算法HNSW实现了2.5倍至3倍的查询吞吐量提升。

  • Motivation: 解决高维空间中角度测试问题,改进现有基于高斯分布随机投影的方法,提升效率和准确性。
  • Method: 提出两种基于投影的概率核函数,利用参考角度和确定性投影向量结构,避免渐近假设。
  • Result: 理论和实验证明优于高斯分布核函数,应用于ANNS时查询吞吐量提升2.5倍至3倍。
  • Conclusion: 提出的核函数在高维角度测试和ANNS中表现出色,具有高效和确定性优势。

cs.CL

[299] Reinforcement Fine-Tuning Powers Reasoning Capability of Multimodal Large Language Models

Haoyuan Sun,Jiaqi Wu,Bo Xia,Yifu Luo,Yifei Zhao,Kai Qin,Xufei Lv,Tiantian Zhang,Yongzhe Chang,Xueqian Wang

Main category: cs.CL

TL;DR: 强化微调(RFT)在提升多模态大语言模型(MLLMs)推理能力方面具有显著潜力,并推动了前沿AI模型的发展。本文总结了RFT的五大改进方向,并提出了未来研究的五个方向。

  • Motivation: 探讨强化微调如何增强多模态大语言模型的推理能力,为AGI发展提供关键支持。
  • Method: 详细介绍了RFT的背景知识,总结了其在MLLMs中的五大改进点,并提出未来研究方向。
  • Result: RFT在提升MLLMs推理能力方面表现出色,推动了多样化模态、任务、算法、基准和工程框架的发展。
  • Conclusion: 本文为AGI发展提供了有价值的见解,并展望了RFT在MLLMs中的未来研究方向。

[300] Don't Look Only Once: Towards Multimodal Interactive Reasoning with Selective Visual Revisitation

Jiwan Chung,Junhyeok Kim,Siyeol Kim,Jaeyoung Lee,Min Soo Kim,Youngjae Yu

Main category: cs.CL

TL;DR: v1是一种轻量级扩展,使多模态大语言模型(MLLMs)能够在推理过程中选择性重新访问视觉输入,通过动态检索相关图像区域提升性能。

  • Motivation: 当前MLLMs通常仅一次性处理视觉输入,依赖内部记忆推理,限制了细粒度视觉参考和多步推理能力。
  • Method: v1引入简单的点选复制机制,动态检索图像区域,并通过v1g数据集(30万条多模态推理轨迹)训练。
  • Result: 在MathVista、MathVision和MathVerse基准测试中,v1显著优于基线模型,尤其在细粒度视觉参考和多步推理任务中。
  • Conclusion: 动态视觉访问是增强多模态推理的有效方向,代码、模型和数据将开源。

[301] VerIPO: Cultivating Long Reasoning in Video-LLMs via Verifier-Gudied Iterative Policy Optimization

Yunxin Li,Xinyu Chen,Zitao Li,Zhenyu Liu,Longyue Wang,Wenhan Luo,Baotian Hu,Min Zhang

Main category: cs.CL

TL;DR: VerIPO方法通过验证器引导的迭代策略优化,显著提升了视频大语言模型在长链推理中的表现,同时解决了传统RFT方法的数据瓶颈和不稳定性问题。

  • Motivation: 传统强化微调方法(如GRPO)在视频大语言模型中存在数据准备瓶颈和不稳定的长链推理改进问题,需要一种更高效的优化方法。
  • Method: 提出VerIPO方法,结合GRPO、验证器和DPO形成训练循环,利用小模型评估推理逻辑并构建高质量对比数据,实现高效优化。
  • Result: 实验显示VerIPO比标准GRPO更快更有效,生成的推理链更长且一致,性能超越其他大型模型。
  • Conclusion: VerIPO在视频推理任务中表现出高效性和稳定性,显著提升了长链推理的质量和性能。

[302] ReadBench: Measuring the Dense Text Visual Reading Ability of Vision-Language Models

Benjamin Clavié,Florian Brand

Main category: cs.CL

TL;DR: ReadBench是一个多模态基准测试,用于评估大视觉语言模型(VLMs)在文本丰富图像中的阅读理解能力,发现其在长文本和多页内容上表现显著下降。

  • Motivation: 现有基准测试主要评估视觉理解能力,缺乏对VLMs在文本丰富图像中阅读和推理能力的评估。
  • Method: 将纯文本基准测试的上下文转换为文本图像,保持文本提示和问题不变,构建ReadBench。
  • Result: VLMs在短文本图像输入上表现略有下降,但在长文本和多页内容上表现显著下降;文本分辨率对多模态性能影响可忽略。
  • Conclusion: VLMs需改进对视觉呈现的广泛文本内容的推理能力,ReadBench为相关研究提供了工具。

[303] ASPO: Adaptive Sentence-Level Preference Optimization for Fine-Grained Multimodal Reasoning

Yeyuan Wang,Dehong Gao,Rujiao Long,Lei Yi,Linbo Jin,Libin Yang,Xiaoyan Cai

Main category: cs.CL

TL;DR: ASPO通过句子级偏好优化提升多模态模型性能,解决了传统DPO缺乏细粒度监督的问题。

  • Motivation: 传统DPO依赖二元偏好优化,忽略了细粒度句子正确性,导致次优解。
  • Method: 提出ASPO,动态计算句子级自适应奖励,无需额外模型或参数。
  • Result: 实验表明ASPO显著提升多模态模型的整体性能。
  • Conclusion: ASPO通过细粒度监督优化,有效改进了多模态模型的偏好对齐。

[304] Shifting AI Efficiency From Model-Centric to Data-Centric Compression

Xuyang Liu,Zichen Wen,Shaobo Wang,Junjie Chen,Zhishan Tao,Yubo Wang,Xiangqi Jin,Chang Zou,Yiyu Wang,Chenfei Liao,Xu Zheng,Honggang Chen,Weijia Li,Xuming Hu,Conghui He,Linfeng Zhang

Main category: cs.CL

TL;DR: 论文提出AI效率研究正从模型中心压缩转向数据中心压缩,特别是通过减少令牌数量来提升效率,并分析了其优势与挑战。

  • Motivation: 随着硬件限制和长上下文需求的增加,传统模型中心压缩方法已无法满足需求,需要探索新的效率提升方向。
  • Method: 通过统一数学框架分析现有模型效率策略,并系统回顾令牌压缩的研究现状及其优势。
  • Result: 令牌压缩是解决长上下文开销的关键范式转变,具有广泛的应用潜力。
  • Conclusion: 论文为AI效率研究提供了新视角,并呼吁更多创新以应对长上下文带来的挑战。

[305] GC-KBVQA: A New Four-Stage Framework for Enhancing Knowledge Based Visual Question Answering Performance

Mohammad Mahdi Moradi,Sudhir Mudur

Main category: cs.CL

TL;DR: GC-KBVQA是一种新的四阶段框架,通过结合问题感知的标题生成和外部知识,显著提升了KB-VQA任务的性能,且无需任务特定微调。

  • Motivation: 现有KB-VQA方法依赖的辅助文本可能与问题无关或包含误导信息,限制了性能。
  • Method: 提出GC-KBVQA框架,结合问题感知标题生成和外部知识,生成高信息量提示供LLM使用。
  • Result: 相比其他KB-VQA方法,GC-KBVQA性能显著提升。
  • Conclusion: GC-KBVQA通过高效利用LLM和外部知识,降低了部署复杂度并提升了任务适应性。

[306] Grounding Language with Vision: A Conditional Mutual Information Calibrated Decoding Strategy for Reducing Hallucinations in LVLMs

Hao Fang,Changle Zhou,Jiawei Kong,Kuofeng Gao,Bin Chen,Tao Liang,Guojun Ma,Shu-Tao Xia

Main category: cs.CL

TL;DR: 提出了一种基于条件点互信息(C-PMI)的解码策略,通过增强生成文本与输入图像之间的依赖关系,减少大型视觉语言模型(LVLM)中的幻觉现象。

  • Motivation: 大型视觉语言模型(LVLM)在生成响应时容易产生与输入图像无关的语义合理但实际无关的幻觉,主要原因是模型过度依赖语言先验而忽视视觉信息。
  • Method: 提出了一种联合建模视觉和文本标记对C-PMI贡献的方法,通过双层次优化问题最大化互信息,并设计了动态调节解码过程的标记净化机制。
  • Result: 在多个基准测试中,该方法显著减少了LVLM中的幻觉现象,同时保持了解码效率。
  • Conclusion: C-PMI校准的解码策略有效缓解了LVLM中的幻觉问题,为未来研究提供了新思路。

[307] OmniCharacter: Towards Immersive Role-Playing Agents with Seamless Speech-Language Personality Interaction

Haonan Zhang,Run Luo,Xiong Liu,Yuchuan Wu,Ting-En Lin,Pengpeng Zeng,Qiang Qu,Feiteng Fang,Min Yang,Lianli Gao,Jingkuan Song,Fei Huang,Yongbin Li

Main category: cs.CL

TL;DR: OmniCharacter是一种新型的角色扮演代理(RPA)模型,通过结合语音和语言响应,实现低延迟的沉浸式交互。

  • Motivation: 现有方法主要关注文本对话,忽略了语音特征(如声音风格和情感)对沉浸式体验的重要性。
  • Method: 提出OmniCharacter模型,结合角色特定个性与语音特征,构建OmniCharacter-10K数据集支持训练。
  • Result: 实验显示,OmniCharacter在内容和风格上优于现有RPA及主流语音-语言模型,延迟低至289ms。
  • Conclusion: OmniCharacter为沉浸式角色扮演交互提供了有效解决方案,代码和数据集已开源。

[308] MangaVQA and MangaLMM: A Benchmark and Specialized Model for Multimodal Manga Understanding

Jeonghun Baek,Kazuki Egashira,Shota Onohara,Atsuyuki Miyai,Yuki Imajuku,Hikaru Ikuta,Kiyoharu Aizawa

Main category: cs.CL

TL;DR: 论文提出了两个多模态漫画理解基准(MangaOCR和MangaVQA),并开发了专门模型MangaLMM,用于评估和提升大型多模态模型在漫画叙事中的表现。

  • Motivation: 通过提升大型多模态模型对漫画的理解能力,帮助漫画创作者反思和优化故事内容。
  • Method: 引入MangaOCR(文本识别)和MangaVQA(视觉问答)两个基准,并基于Qwen2.5-VL开发MangaLMM模型。
  • Result: 通过实验比较(包括与GPT-4o和Gemini 2.5的对比),验证了模型在漫画理解任务中的表现。
  • Conclusion: 提出的基准和模型为评估和推进大型多模态模型在漫画叙事领域的应用提供了全面基础。

eess.IV

[309] Brightness-Invariant Tracking Estimation in Tagged MRI

Zhangxing Bian,Shuwen Wei,Xiao Liang,Yuan-Chiao Lu,Samuel W. Remedios,Fangxu Xing,Jonghye Woo,Dzung L. Pham,Aaron Carass,Philip V. Bayly,Jiachen Zhuo,Ahmed Alshareef,Jerry L. Prince

Main category: eess.IV

TL;DR: BRITE技术通过分离解剖结构和标记模式,结合去噪扩散概率模型和物理信息神经网络,提高了标记MRI中运动跟踪的准确性。

  • Motivation: 标记MRI中的亮度变化和运动导致的光谱扩散使传统跟踪方法容易出错,需要一种更鲁棒的技术。
  • Method: BRITE技术通过分离解剖结构和标记模式,利用去噪扩散概率模型和物理信息神经网络估计运动。
  • Result: BRITE在凝胶模型实验中表现出更高的运动应变估计准确性,且对标记褪色具有鲁棒性。
  • Conclusion: BRITE是一种有效的标记MRI运动跟踪方法,优于现有技术。

[310] How We Won the ISLES'24 Challenge by Preprocessing

Tianyi Ren,Juampablo E. Heras Rivera,Hitender Oswal,Yutong Pan,William Henry,Jacob Ruzevick,Mehmet Kurt

Main category: eess.IV

TL;DR: 论文提出了一种基于深度学习的预处理和分割方法,用于准确预测中风病变边界,并在ISLES'24挑战中取得最佳成绩。

  • Motivation: 中风是全球三大死因之一,准确识别病变边界对诊断和治疗至关重要。现有监督深度学习方法需要大量标注数据,ISLES'24挑战提供了纵向影像数据以解决这一问题。
  • Method: 采用深度学习的颅骨剥离和自定义强度窗口预处理,结合大型残差nnU-Net架构进行分割。
  • Result: 在测试集上平均Dice得分为28.5,标准差为21.27。
  • Conclusion: 精心设计的预处理流程结合标准分割架构可有效提升中风病变分割的准确性。

[311] ReflectGAN: Modeling Vegetation Effects for Soil Carbon Estimation from Satellite Imagery

Dristi Datta,Manoranjan Paul,Manzur Murshed,Shyh Wei Teng,Leigh M. Schmidtke

Main category: eess.IV

TL;DR: 提出了一种名为ReflectGAN的生成对抗网络框架,用于从植被覆盖的卫星图像中重建裸土反射率,从而提高土壤有机碳(SOC)的估计精度。

  • Motivation: 植被覆盖会干扰土壤反射率,降低SOC估计的可靠性,因此需要一种方法来消除这种干扰。
  • Method: 使用ReflectGAN框架学习植被覆盖与裸土反射率之间的光谱转换,并结合LUCAS 2018数据集和Landsat 8图像进行模型训练。
  • Result: ReflectGAN生成的反射率输入显著提升了SOC估计模型的性能(R²提高35%,RMSE降低43%),优于现有植被校正方法。
  • Conclusion: ReflectGAN能够有效提高植被覆盖区域的SOC估计精度,为土壤监测提供更可靠的数据支持。

[312] Memory-Efficient Super-Resolution of 3D Micro-CT Images Using Octree-Based GANs: Enhancing Resolution and Segmentation Accuracy

Evgeny Ugolkov,Xupeng He,Hyung Kwak,Hussein Hoteit

Main category: eess.IV

TL;DR: 提出了一种基于生成模型的内存高效算法,显著提升了岩石分割3D微CT图像的质量,实现了16倍分辨率提升并修正了分割误差。

  • Motivation: 解决微CT测量中因X射线衰减重叠导致的分割不准确问题,并克服3D深度学习中的内存瓶颈。
  • Method: 采用3D Octree卷积Wasserstein生成对抗网络(带梯度惩罚),结合Octree结构实现内存高效处理。
  • Result: 分辨率从7微米/体素提升至0.44微米/体素,矿物分割更准确,显著改善了孔隙表征和矿物区分。
  • Conclusion: 该框架为现代地球科学成像中的主要计算限制提供了有效解决方案。

[313] MedITok: A Unified Tokenizer for Medical Image Synthesis and Interpretation

Chenglong Ma,Yuanfeng Ji,Jin Ye,Zilong Li,Chenhui Wang,Junzhi Ning,Wei Li,Lihao Liu,Qiushan Guo,Tianbin Li,Junjun He,Hongming Shan

Main category: eess.IV

TL;DR: MedITok是一种专为医学图像设计的统一标记器,通过两阶段训练框架平衡低层结构细节和高层临床语义,在多个任务和模态中实现最先进性能。

  • Motivation: 当前自回归模型在医学影像中潜力未充分发挥,缺乏统一的视觉标记器来同时满足图像重建、合成和临床诊断需求。
  • Method: 提出MedITok,采用两阶段训练框架:视觉表示对齐阶段和文本语义表示对齐阶段,结合大规模数据集训练。
  • Result: 在30多个数据集、9种成像模态和4种任务中达到最先进性能。
  • Conclusion: MedITok为自回归建模提供统一标记空间,支持广泛的临床诊断和生成任务。

[314] A Contrastive Learning Foundation Model Based on Perfectly Aligned Sample Pairs for Remote Sensing Images

Hengtong Shen,Haiyan Gu,Haitao Li,Yi Yang,Agen qiu

Main category: eess.IV

TL;DR: 提出了一种名为PerA的自监督学习方法,通过语义完美对齐的样本对生成通用的遥感图像特征,解决了对比学习方法在遥感图像中的领域差距问题。

  • Motivation: 解决对比学习方法在遥感图像中因领域差距而需要特定适应的问题,提升自监督学习在遥感图像中的性能。
  • Method: 使用空间不重叠的掩码对增强图像进行采样,生成语义对齐但外观不一致的样本对,确保教师和学生模型的一致性,并预测可学习的掩码标记。
  • Result: 在多个下游任务数据集上表现优异,内存效率高且支持更大批量训练,性能与现有最佳方法相当。
  • Conclusion: PerA方法为遥感图像解释提供了高质量的通用特征,具有实际应用价值。

[315] Advancements in Medical Image Classification through Fine-Tuning Natural Domain Foundation Models

Mobina Mansoori,Sajjad Shahabodini,Farnoush Bayatmakou,Jamshid Abouei,Konstantinos N. Plataniotis,Arash Mohammadi

Main category: eess.IV

TL;DR: 研究探讨了基础模型(如DINOv2、MAE等)在医学图像分类中的应用,结果表明这些模型显著提升了分类效果,尤其在数据有限的情况下表现优异。

  • Motivation: 分析基础模型在医学领域的应用潜力,探索其是否能推动医学图像分类的进步。
  • Method: 通过微调多种先进基础模型(如DINOv2、MAE等),并在多个医学数据集(如CBIS-DDSM、ISIC2019等)上评估其性能。
  • Result: AIMv2、DINOv2和SAM2模型表现最佳,表明自然领域训练的进步对医学领域有积极影响。
  • Conclusion: 基础模型在医学图像分类中具有显著潜力,尤其在数据有限的情况下仍能保持高性能。

[316] Improvement Strategies for Few-Shot Learning in OCT Image Classification of Rare Retinal Diseases

Cheng-Yu Tai,Ching-Wen Chen,Chi-Chin Wu,Bo-Chen Chiu,Cheng-Hung,Lin,Cheng-Kai Lu,Jia-Kang Wang,Tzu-Lun Huang

Main category: eess.IV

TL;DR: 本文通过少样本学习和GAN增强策略提升OCT诊断图像的分类准确性,引入U-GAT-IT和数据平衡技术,最终模型结合CBAM注意力机制和微调InceptionV3,达到97.85%的准确率。

  • Motivation: 解决OCT诊断图像中主要和稀有类别分类准确性不足的问题。
  • Method: 使用GAN增强作为基线,引入U-GAT-IT改进生成部分,采用数据平衡技术减少类别间准确率偏差,最终结合CBAM和微调InceptionV3。
  • Result: 最佳模型整体准确率达97.85%,显著优于基线。
  • Conclusion: 提出的方法有效提升了OCT图像分类的准确性,尤其在稀有类别上表现突出。

上次更新于: