Skip to content
每日arXiv - 2025年6月3日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] EgoVIS@CVPR: What Changed and What Could Have Changed? State-Change Counterfactuals for Procedure-Aware Video Representation Learning

Chi-Hsi Kung,Frangil Ramirez,Juhyung Ha,Yi-Ting Chen,David Crandall,Yi-Hsuan Tsai

Main category: cs.CV

TL;DR: 论文提出了一种通过结合LLM生成的状态变化描述和反事实推理来学习过程感知视频表示的方法,显著提升了任务性能。

  • Motivation: 现有方法未能明确学习场景状态变化,影响了过程活动的理解。
  • Method: 利用LLM生成的状态变化描述作为监督信号,并引入反事实推理模拟失败场景。
  • Result: 在时间动作分割和错误检测等任务上取得了显著改进。
  • Conclusion: 状态变化描述和反事实推理能有效提升模型对过程活动的理解能力。

[2] Visual Embodied Brain: Let Multimodal Large Language Models See, Think, and Control in Spaces

Gen Luo,Ganlin Yang,Ziyang Gong,Guanzhou Chen,Haonan Duan,Erfei Cui,Ronglei Tong,Zhi Hou,Tianyi Zhang,Zhe Chen,Shenglong Ye,Lewei Lu,Jingbo Wang,Wenhai Wang,Jifeng Dai,Yu Qiao,Rongrong Ji,Xizhou Zhu

Main category: cs.CV

TL;DR: VeBrain是一个统一的多模态大语言模型框架,用于机器人的感知、推理和控制,通过文本任务和适配器实现高效控制,并在多个基准测试中表现优异。

  • Motivation: 现有方法难以统一多模态理解、视觉空间推理和物理交互能力,VeBrain旨在解决这一问题。
  • Method: VeBrain将机器人控制转化为2D视觉空间的文本任务,并提出适配器将文本信号转换为运动策略,同时引入高质量数据集VeBrain-600k。
  • Result: 在13个多模态基准和5个空间智能基准上表现优异,比现有模型如Qwen2.5-VL有显著提升,尤其在机器人任务中。
  • Conclusion: VeBrain展示了强大的适应性、灵活性和组合能力,为多模态大语言模型在机器人领域的应用提供了新思路。

[3] Geo-Sign: Hyperbolic Contrastive Regularisation for Geometrically Aware Sign Language Translation

Edward Fish,Richard Bowden

Main category: cs.CV

TL;DR: Error

  • Motivation: Error
  • Method: Error
  • Result: Error
  • Conclusion: Error

[4] Detection of Endangered Deer Species Using UAV Imagery: A Comparative Study Between Efficient Deep Learning Approaches

Agustín Roca,Gastón Castro,Gabriel Torre,Leonardo J. Colombo,Ignacio Mas,Javier Pereira,Juan I. Giribet

Main category: cs.CV

TL;DR: 比较YOLOv11和RT-DETR模型在无人机图像中检测被植被遮挡的小目标(沼泽鹿)的性能,通过添加分割头提升检测效果。

  • Motivation: 提升无人机图像中野生动物(尤其是小目标)的检测精度,支持野生动物保护和监测。
  • Method: 扩展数据集,添加精确分割掩码,训练带分割头的YOLO模型,并与RT-DETR模型对比。
  • Result: 带分割头的YOLO模型在检测性能上表现更优。
  • Conclusion: 结合分割头的YOLO模型为无人机野生动物监测提供了更准确和可扩展的解决方案。

[5] Efficient Endangered Deer Species Monitoring with UAV Aerial Imagery and Deep Learning

Agustín Roca,Gabriel Torre,Juan I. Giribet,Gastón Castro,Leonardo Colombo,Ignacio Mas,Javier Pereira

Main category: cs.CV

TL;DR: 论文探讨了无人机与深度学习在濒危鹿种自然栖息地检测中的应用,提出了一种高效解决方案。

  • Motivation: 传统识别方法依赖人工且成本高,需更高效的技术。
  • Method: 利用高分辨率航拍图像和YOLO框架开发定制算法,在两项目中测试。
  • Result: 算法对沼泽鹿识别准确率高,对潘帕斯鹿适用性有限。
  • Conclusion: 研究支持保护工作,展示了AI与无人机技术在野生动物监测中的潜力。

[6] FastCAR: Fast Classification And Regression for Task Consolidation in Multi-Task Learning to Model a Continuous Property Variable of Detected Object Class

Anoop Kini,Andreas Jansche,Timo Bernthaler,Gerhard Schneider

Main category: cs.CV

TL;DR: FastCAR是一种新颖的多任务学习(MTL)任务整合方法,用于分类和回归任务,解决了任务异质性和微弱相关性的问题。

  • Motivation: 解决科学和工程中分类与回归任务的整合问题,尤其是在对象分类和连续属性回归的复杂场景下。
  • Method: 采用标签转换方法,仅需单任务回归网络架构,适用于分类和回归任务。
  • Result: 分类准确率99.54%,回归平均绝对百分比误差2.4%,训练效率提升2.52倍,推理延迟降低55%。
  • Conclusion: FastCAR在任务整合中表现优异,显著提升了效率和性能。

[7] Ctrl-Crash: Controllable Diffusion for Realistic Car Crashes

Anthony Gosselin,Ge Ya Luo,Luis Lara,Florian Golemo,Derek Nowrouzezahrai,Liam Paull,Alexia Jolicoeur-Martineau,Christopher Pal

Main category: cs.CV

TL;DR: Ctrl-Crash是一种可控的车祸视频生成模型,通过输入边界框、碰撞类型和初始帧等信号,实现高真实感和可控性的车祸模拟。

  • Motivation: 现有视频扩散技术在生成车祸场景时因数据稀缺难以实现真实效果,而提升交通安全需要可控且真实的模拟。
  • Method: 利用分类器自由引导技术,独立调节每个输入信号的权重,实现细粒度控制。
  • Result: 在定量(如FVD、JEDi)和定性(人类评估)指标上均优于现有扩散方法。
  • Conclusion: Ctrl-Crash为交通安全研究提供了高质量且可控的车祸模拟工具。

[8] ZeShot-VQA: Zero-Shot Visual Question Answering Framework with Answer Mapping for Natural Disaster Damage Assessment

Ehsan Karimi,Maryam Rahnemoonfar

Main category: cs.CV

TL;DR: 提出了一种基于视觉语言模型(VLM)的零样本视觉问答(ZeShot-VQA)方法,用于自然灾害后的快速响应,无需微调即可处理新数据集和未见过的答案。

  • Motivation: 自然灾害影响广泛,传统VQA模型需微调才能处理新问题,效率低。利用VLM的零样本学习能力可提高灵活性。
  • Method: 采用VLM实现零样本VQA(ZeShot-VQA),在FloodNet数据集上验证性能。
  • Result: ZeShot-VQA无需微调即可处理新数据集,并能生成未见过的答案,展现灵活性。
  • Conclusion: ZeShot-VQA为自然灾害响应提供高效、灵活的解决方案,优于传统需微调的VQA模型。

[9] Chain-of-Frames: Advancing Video Understanding in Multimodal LLMs via Frame-Aware Reasoning

Sara Ghazanfari,Francesco Croce,Nicolas Flammarion,Prashanth Krishnamurthy,Farshad Khorrami,Siddharth Garg

Main category: cs.CV

TL;DR: 提出了一种基于视频帧的链式推理(CoF)方法,通过微调视频LLMs,显著提升了多模态任务性能。

  • Motivation: 现有方法在多模态LLMs中生成链式推理(CoT)时未明确关联视频帧,导致性能受限。
  • Method: 创建CoF-Data数据集,包含多样化问题、答案及帧关联推理痕迹,并基于此微调视频LLMs。
  • Result: CoF方法在多个视频理解基准测试中表现优异,超越现有视频LLMs,并显著减少幻觉率。
  • Conclusion: CoF方法简单有效,无需辅助网络即可实现帧关联推理,显著提升视频LLMs性能。

[10] Improving Optical Flow and Stereo Depth Estimation by Leveraging Uncertainty-Based Learning Difficulties

Jisoo Jeong,Hong Cai,Jamie Menjay Lin,Fatih Porikli

Main category: cs.CV

TL;DR: 论文提出了一种基于不确定性的置信度图方法,通过DB和OA损失函数分别解决像素学习难度不均和遮挡问题,显著提升了光流和立体深度任务的性能。

  • Motivation: 传统光流和立体深度模型的训练通常对所有像素采用统一的损失函数,忽略了像素和区域间学习难度的显著差异。
  • Method: 提出了Difficulty Balancing (DB)损失函数,利用误差置信度引导网络关注挑战性像素;同时提出Occlusion Avoiding (OA)损失函数,通过循环一致性避免遮挡问题。
  • Result: 实验表明,结合DB和OA损失函数在光流和立体深度任务中均显著提升了性能。
  • Conclusion: 通过DB和OA损失函数的组合,有效解决了训练中像素和区域的学习难度不均及遮挡问题,提升了模型性能。

[11] Towards Effective and Efficient Adversarial Defense with Diffusion Models for Robust Visual Tracking

Long Xu,Peng Gao,Wen-Jia Tang,Fei Wang,Ru-Yue Yuan

Main category: cs.CV

TL;DR: 论文提出了一种基于去噪扩散概率模型(DiffDf)的对抗防御方法,显著提升了视觉跟踪方法在对抗攻击下的鲁棒性。

  • Motivation: 尽管基于深度学习的视觉跟踪方法取得了显著进展,但在面对精心设计的对抗攻击时表现脆弱,导致跟踪性能急剧下降。
  • Method: DiffDf通过结合像素级重建损失、语义一致性损失和结构相似性损失,建立多尺度防御机制,通过逐步去噪过程有效抑制对抗扰动。
  • Result: 在多个主流数据集上的实验表明,DiffDf对不同架构的跟踪器表现出优异的泛化性能,显著提升了各项评估指标,同时实现超过30 FPS的实时推理速度。
  • Conclusion: DiffDf展示了出色的防御性能和效率,代码已开源。

[12] Latent Guidance in Diffusion Models for Perceptual Evaluations

Shreshth Saini,Ru-Ling Liao,Yan Ye,Alan C. Bovik

Main category: cs.CV

TL;DR: 论文提出了一种基于感知特征的潜在扩散模型引导方法(PMG),用于无参考图像质量评估(NR-IQA),并在实验中取得了最先进的性能。

  • Motivation: 尽管潜在扩散模型在高维图像数据生成和下游任务中取得了进展,但对其在NR-IQA任务中的感知一致性研究较少。论文假设这些模型在数据流形中隐含了感知一致的局部区域。
  • Method: 提出Perceptual Manifold Guidance(PMG)算法,利用预训练的潜在扩散模型和感知质量特征,从去噪U-Net中提取感知一致的多尺度和多时间步特征图。
  • Result: 实验表明,这些超特征与人类感知在IQA任务中高度相关,方法在IQA数据集上达到了最先进的性能。
  • Conclusion: PMG是首个利用感知特征引导扩散模型进行NR-IQA的工作,展示了扩散模型在该任务中的优越泛化能力。

[13] Test-time Vocabulary Adaptation for Language-driven Object Detection

Mingxuan Liu,Tyler L. Hayes,Massimiliano Mancini,Elisa Ricci,Riccardo Volpi,Gabriela Csurka

Main category: cs.CV

TL;DR: 论文提出了一种无需训练的词汇适配器(VocAda),用于优化用户定义的开放词汇,提升目标检测性能。

  • Motivation: 开放词汇目标检测允许用户自由指定类别词汇,但词汇可能过于宽泛或错误,影响检测性能。
  • Method: VocAda在推理时通过三步操作:1) 使用图像描述器描述可见物体;2) 从描述中提取名词;3) 筛选相关类别。
  • Result: 在COCO和Objects365数据集上,VocAda显著提升了三种先进检测器的性能。
  • Conclusion: VocAda是一种通用且无需训练的词汇优化方法,代码已开源。

[14] Feature Fusion and Knowledge-Distilled Multi-Modal Multi-Target Detection

Ngoc Tuyen Do,Tri Nhu Do

Main category: cs.CV

TL;DR: 提出了一种基于特征融合和知识蒸馏的多模态多目标检测框架,通过数据融合提升准确性,并利用知识蒸馏优化域适应能力。

  • Motivation: 解决多目标检测中的异构数据输入和计算复杂度问题,特别是在资源受限的嵌入式设备上。
  • Method: 结合RGB和热成像输入,采用融合模型和蒸馏训练流程,通过后验概率优化和多阶段训练实现。
  • Result: 学生模型达到教师模型95%的平均精度,推理时间减少50%。
  • Conclusion: 该框架适合实际多目标检测部署场景,平衡了精度和效率。

[15] Sequence-Based Identification of First-Person Camera Wearers in Third-Person Views

Ziwei Zhao,Xizi Wang,Yuchen Wang,Feng Cheng,David Crandall

Main category: cs.CV

TL;DR: 论文提出了TF2025数据集,用于研究多相机穿戴者之间的互动,并提出了基于序列的方法识别第一人称穿戴者。

  • Motivation: 随着第一人称相机的普及,多相机互动在共享环境中的研究需求增加,但现有数据集对此研究不足。
  • Method: 扩展了数据集TF2025,包含同步的第一和第三人称视角,并提出结合运动线索和行人重识别的序列方法。
  • Result: TF2025数据集填补了多相机互动研究的空白,提出的方法能有效识别第一人称穿戴者。
  • Conclusion: TF2025数据集和方法为多相机互动研究提供了新工具,推动了沉浸式学习和协作机器人等应用的发展。

[16] iDPA: Instance Decoupled Prompt Attention for Incremental Medical Object Detection

Huahui Yi,Wei Xu,Ziyuan Qin,Xi Chen,Xiaohu Wu,Kang Li,Qicheng Lao

Main category: cs.CV

TL;DR: 论文提出了一种新框架(\method),通过解耦实例级提示生成和提示注意力,解决了医学目标检测中的挑战,显著提升了性能。

  • Motivation: 现有基于提示的方法在医学目标检测中面临前景-背景信息耦合和跨领域概念差距的挑战。
  • Method: 框架包含实例级提示生成(\ipg)和解耦提示注意力(\dpa),分别解耦细粒度知识和优化信息传递。
  • Result: 在13个数据集上,\method在多种设置下性能优于现有方法,FAP提升显著。
  • Conclusion: \method有效解决了医学目标检测中的挑战,提升了性能并减少了遗忘。

[17] Latent Wavelet Diffusion: Enabling 4K Image Synthesis for Free

Luigi Sigillo,Shengfeng He,Danilo Comminiello

Main category: cs.CV

TL;DR: Latent Wavelet Diffusion (LWD) 是一种轻量级框架,通过增强潜在表示的频谱保真度和聚焦高频细节,实现超高清图像生成(2K至4K),无需额外计算开销。

  • Motivation: 解决高分辨率图像合成中计算效率与细节保留的平衡问题。
  • Method: 引入尺度一致的变分自编码器目标、小波能量图和时变掩码策略,聚焦高频细节训练。
  • Result: 在超高清图像合成中,LWD 显著提升感知质量并降低 FID,优于基线模型。
  • Conclusion: 频率感知的信号驱动监督是一种高效且原理清晰的高分辨率生成建模方法。

[18] Performance Analysis of Few-Shot Learning Approaches for Bangla Handwritten Character and Digit Recognition

Mehedi Ahamed,Radib Bin Kabir,Tawsif Tashwar Dipto,Mueeze Al Mushabbir,Sabbir Ahmed,Md. Hasanul Kabir

Main category: cs.CV

TL;DR: 研究探讨了少样本学习(FSL)方法在识别孟加拉手写字符和数字中的表现,提出了一种名为SynergiProtoNet的混合网络,显著提升了识别准确率。

  • Motivation: 针对孟加拉语等复杂结构脚本的数据稀缺问题,验证少样本学习方法的适用性,并假设其能推广到类似复杂度的语言。
  • Method: 提出SynergiProtoNet,结合聚类技术和嵌入框架,通过多级特征提取优化原型学习框架。
  • Result: 实验表明,SynergiProtoNet在多种评估设置下均优于现有方法。
  • Conclusion: SynergiProtoNet为手写字符和数字的少样本学习设立了新基准。

[19] BAGNet: A Boundary-Aware Graph Attention Network for 3D Point Cloud Semantic Segmentation

Wei Tao,Xiaoyang Qu,Kai Lu,Jiguang Wan,Shenglin He,Jianzong Wang

Main category: cs.CV

TL;DR: BAGNet提出了一种边界感知图注意力网络,通过边界点特征提取和轻量级注意力池化层,提高了点云语义分割的准确性和效率。

  • Motivation: 点云数据的不规则性和无结构特性使得语义分割具有挑战性,现有图方法计算成本高。
  • Method: 提出BAGNet,包含边界感知图注意力层(BAGLayer)和轻量级注意力池化层,分别用于提取边界点特征和全局特征。
  • Result: 在标准数据集上,BAGNet在准确性和推理时间上优于现有方法。
  • Conclusion: BAGNet通过边界感知和轻量化设计,有效提升了点云语义分割的性能和效率。

[20] SSAM: Self-Supervised Association Modeling for Test-Time Adaption

Yaxiong Wang,Zhenqiang Zhang,Lechao Cheng,Zhun Zhong,Dan Guo,Meng Wang

Main category: cs.CV

TL;DR: SSAM是一种新的测试时间适应框架,通过双阶段关联学习动态优化图像编码器,解决了现有方法因缺乏显式监督而冻结编码器的问题。

  • Motivation: 现有测试时间适应方法因缺乏显式监督而冻结图像编码器,忽视了其在分布偏移中的关键作用。
  • Method: SSAM通过软原型估计(SPE)和原型锚定图像重建(PIR)实现动态编码器优化。
  • Result: 实验表明,SSAM在多种基准测试中显著优于现有方法,同时保持计算效率。
  • Conclusion: SSAM通过动态编码器优化和架构无关设计,提升了测试时间适应的性能和应用性。

[21] SenseFlow: Scaling Distribution Matching for Flow-based Text-to-Image Distillation

Xingtong Ge,Xin Zhang,Tongda Xu,Yi Zhang,Xinjie Zhang,Yan Wang,Jun Zhang

Main category: cs.CV

TL;DR: 论文提出了一种改进的分布匹配蒸馏(DMD)方法,通过隐式分布对齐(IDA)和段内指导(ISG)解决了大规模文本到图像模型的收敛问题,最终模型SenseFlow在多个模型上表现优异。

  • Motivation: vanilla DMD在大规模流式文本到图像模型(如SD 3.5和FLUX)上存在收敛困难,需要改进方法以提升性能。
  • Method: 提出了隐式分布对齐(IDA)和段内指导(ISG)来优化DMD,并结合其他改进(如放大判别器模型)。
  • Result: SenseFlow在SDXL、SD 3.5 Large和FLUX等模型上实现了优异的蒸馏性能。
  • Conclusion: 改进的DMD方法有效解决了大规模模型的收敛问题,SenseFlow表现出色,代码将开源。

[22] 3D Trajectory Reconstruction of Moving Points Based on Asynchronous Cameras

Huayu Huang,Banglei Guan,Yang Shang,Qifeng Yu

Main category: cs.CV

TL;DR: 本文提出了一种基于异步相机的3D轨迹重建方法,同时解决了轨迹重建和相机同步两个子问题,显著提高了重建精度。

  • Motivation: 光力学中移动目标的定位是关键问题,现有方法通常只能单独解决轨迹重建或相机同步问题,无法同时处理两者。
  • Method: 扩展轨迹交会法至异步相机,建立相机时间信息和目标运动模型,同时优化参数,并优化相机旋转以提高精度。
  • Result: 仿真和真实实验验证了方法的可行性,真实实验中在15~20 km观测范围内定位误差为112.95 m。
  • Conclusion: 该方法有效解决了异步相机下的轨迹重建问题,显著提升了定位精度。

[23] ViVo: A Dataset for Volumetric VideoReconstruction and Compression

Adrian Azzarelli,Ge Gao,Ho Man Kwan,Fan Zhang,Nantheera Anantrasirichai,Ollie Moolan-Feroze,David Bull

Main category: cs.CV

TL;DR: ViVo数据集为神经体积视频重建和压缩提供了多样且真实的数据,填补了现有数据集在语义和低层特征多样性上的不足。

  • Motivation: 现有体积视频数据集缺乏真实生产流程中的多样内容,ViVo旨在解决这一问题。
  • Method: 提出ViVo数据集,包含多视角RGB和深度视频对、校准数据、音频、2D前景掩码和3D点云。
  • Result: 基准测试显示现有算法在ViVo数据集上表现有限,凸显了开发更有效算法的需求。
  • Conclusion: ViVo数据集为体积视频重建和压缩提供了更具挑战性和多样性的基准。

[24] SEED: A Benchmark Dataset for Sequential Facial Attribute Editing with Diffusion Models

Yule Zhu,Ping Liu,Zhedong Zheng,Wei Liu

Main category: cs.CV

TL;DR: 论文介绍了SEED数据集和FAITH模型,用于研究基于扩散模型的渐进式面部编辑序列的追踪和分析。

  • Motivation: 现有方法在渐进式面部编辑序列的追踪和鲁棒性检测方面存在挑战,且缺乏大规模精细标注的基准数据集。
  • Method: 构建了SEED数据集,包含90,000多张通过扩散模型生成的面部图像,并提出了FAITH模型,利用高频线索增强对细微编辑序列的敏感性。
  • Result: 实验表明FAITH模型在追踪渐进式编辑序列方面有效,SEED数据集为相关研究提供了挑战性资源。
  • Conclusion: SEED数据集和FAITH模型为研究渐进式扩散编辑提供了重要工具,未来将公开数据集和代码。

[25] CReFT-CAD: Boosting Orthographic Projection Reasoning for CAD via Reinforcement Fine-Tuning

Ke Niu,Zhuofan Chen,Haiyang Yu,Yuwen Chen,Teng Fu,Mengyang Zhao,Bin Li,Xiangyang Xue

Main category: cs.CV

TL;DR: CReFT-CAD是一种两阶段微调范式,通过课程驱动的强化学习和监督后调优,提升CAD中的正交投影推理能力,并发布了TriView2CAD基准数据集。

  • Motivation: 现有深度学习方法在CAD中引入不精确尺寸和限制参数编辑性,而现有视觉语言模型(VLMs)在复杂推理任务中表现不佳。
  • Method: CReFT-CAD采用两阶段微调:课程驱动的强化学习阶段和监督后调优阶段,并发布TriView2CAD数据集。
  • Result: CReFT-CAD显著提高了推理准确性和分布外泛化能力。
  • Conclusion: CReFT-CAD为CAD推理研究提供了有价值的见解。

[26] Event-based multi-view photogrammetry for high-dynamic, high-velocity target measurement

Taihang Lei,Banglei Guan,Minzu Liang,Xiangyu Li,Jianbing Liu,Jing Tao,Yang Shang,Qifeng Yu

Main category: cs.CV

TL;DR: 提出了一种基于事件多视角摄影测量系统的新方法,用于高动态、高速目标运动的机械特性测量,解决了现有方法的动态范围限制、观测不连续和高成本问题。

  • Motivation: 高动态、高速目标运动的机械特性测量在工业和武器系统验证中至关重要,但现有方法存在动态范围有限、观测不连续和高成本等挑战。
  • Method: 利用事件时空分布的单调性提取目标前缘特征,消除拖尾效应;通过重投影误差关联事件与目标轨迹;采用目标速度衰减模型拟合数据,实现多视角数据联合计算。
  • Result: 在轻气枪碎片测试中,与电磁测速仪相比,测量偏差为4.47%。
  • Conclusion: 该方法能够有效解决现有测量方法的局限性,提供更准确和高效的运动测量。

[27] Seg2Any: Open-set Segmentation-Mask-to-Image Generation with Precise Shape and Semantic Control

Danfeng li,Hui Zhang,Sheng Wang,Jiacheng Li,Zuxuan Wu

Main category: cs.CV

TL;DR: Seg2Any是一种新的S2I框架,通过解耦语义和形状条件,解决了现有方法在语义和形状一致性上的不足,并在多实体场景中防止属性泄漏。

  • Motivation: 现有S2I方法无法同时保证语义和形状一致性,且在多实体场景中存在属性泄漏问题。
  • Method: Seg2Any将分割掩码条件解耦为区域语义和高频形状组件,并通过多模态注意力引入形状条件。同时,使用属性隔离注意力掩码防止属性泄漏。
  • Result: Seg2Any在开放和封闭S2I基准测试中表现最佳,尤其在细粒度空间和属性控制方面。
  • Conclusion: Seg2Any通过创新的解耦和隔离机制,显著提升了S2I生成的语义和形状一致性。

[28] XYZ-IBD: High-precision Bin-picking Dataset for Object 6D Pose Estimation Capturing Real-world Industrial Complexity

Junwen Huang,Jizhong Liang,Jiaqi Hu,Martin Sundermeyer,Peter KT Yu,Nassir Navab,Benjamin Busam

Main category: cs.CV

TL;DR: XYZ-IBD是一个针对6D姿态估计的工业数据集,包含复杂物体几何、反射材料、严重遮挡和高密度杂乱场景,填补了现有数据集中在家庭物品上的不足。

  • Motivation: 现有数据集主要关注家庭物品,已接近饱和,而工业场景的真实复杂性尚未解决。XYZ-IBD旨在提供更真实的工业挑战。
  • Method: 使用高精度工业相机和商业相机采集RGB、灰度和深度图像,结合多视图深度融合和半自动标注,实现毫米级精度标注。
  • Result: 数据集包含75个多视图真实场景和合成数据,基准测试显示现有方法在工业场景下性能显著下降。
  • Conclusion: XYZ-IBD为未来研究提供了更真实和挑战性的问题,数据集已公开。

[29] SatDreamer360: Geometry Consistent Street-View Video Generation from Satellite Imagery

Xianghui Ze,Beiyi Zhu,Zhenbo Song,Jianfeng Lu,Yujiao Shi

Main category: cs.CV

TL;DR: SatDreamer360 是一种新框架,可从单张卫星图像和预定义轨迹生成几何和时间一致的地面视频,无需额外几何先验。

  • Motivation: 现有方法主要关注合成单张地面图像,依赖辅助输入且难以生成时间一致的序列。SatDreamer360 旨在解决这一问题。
  • Method: 使用紧凑的三平面表示编码场景几何,通过基于射线的像素注意力机制获取视角相关特征,并引入极线约束的时间注意力模块确保多帧一致性。
  • Result: 实验表明,SatDreamer360 在保真度、连贯性和几何对齐方面表现优异。
  • Conclusion: SatDreamer360 为跨视角视频生成提供了高效解决方案,适用于多种城市场景。

[30] Parallel Rescaling: Rebalancing Consistency Guidance for Personalized Diffusion Models

JungWoo Chae,Jiyoon Kim,Sangheum Hwang

Main category: cs.CV

TL;DR: 提出了一种并行重缩放技术,用于个性化扩散模型,通过分解一致性引导信号,减少对分类器自由引导的干扰,提升生成图像的提示对齐和视觉保真度。

  • Motivation: 解决现有方法(如DreamBooth和Textual Inversion)在少量参考图像下容易过拟合,导致生成图像与文本提示不匹配的问题。
  • Method: 提出并行重缩放技术,将一致性引导信号分解为与分类器自由引导(CFG)平行和正交的分量,重缩放平行分量以减少干扰。
  • Result: 实验表明,该方法在提示对齐和视觉保真度上优于基线方法,尤其在复杂或风格化提示下表现更优。
  • Conclusion: 并行重缩放技术为个性化扩散模型提供了更稳定和准确的解决方案,适用于多样化的用户输入。

[31] Long-Tailed Visual Recognition via Permutation-Invariant Head-to-Tail Feature Fusion

Mengke Li,Zhikai Hu,Yang Lu,Weichao Lan,Yiu-ming Cheung,Hui Huang

Main category: cs.CV

TL;DR: PI-H2T通过特征融合和分类器调整解决长尾数据分布问题,提升模型性能。

  • Motivation: 长尾数据分布导致模型偏向头部类别,尾部类别识别精度低。
  • Method: 提出PI-H2T方法,包括PIF增强特征空间和H2TF调整分类器。
  • Result: 实验证明PI-H2T优化了特征空间和决策边界,性能显著提升。
  • Conclusion: PI-H2T是一种即插即用的高效方法,适用于长尾数据问题。

[32] Text-to-CT Generation via 3D Latent Diffusion Model with Contrastive Vision-Language Pretraining

Daniele Molino,Camillo Maria Caruso,Filippo Ruffini,Paolo Soda,Valerio Guarrasi

Main category: cs.CV

TL;DR: 提出了一种结合潜在扩散模型和3D对比视觉语言预训练的新架构,用于从文本生成CT图像,解决了高维度和解剖复杂性的挑战。

  • Motivation: 扩展文本到图像生成到3D医学成像(如CT)面临高维度、解剖复杂性和缺乏对齐框架的挑战。
  • Method: 结合潜在扩散模型和3D对比视觉语言预训练,利用双编码器CLIP风格模型和预训练的体素VAE压缩CT体积。
  • Result: 在CT-RATE数据集上评估,模型在图像保真度、临床相关性和语义对齐方面表现优异,并能有效增强下游诊断性能。
  • Conclusion: 模态特定的视觉语言对齐是高质量3D医学图像生成的关键,该方法为数据增强、医学教育和临床模拟提供了可扩展的解决方案。

[33] Video Signature: In-generation Watermarking for Latent Video Diffusion Models

Yu Huang,Junhao Chen,Qi Zheng,Hanqian Li,Shuliang Liu,Xuming Hu

Main category: cs.CV

TL;DR: VIDSIG是一种用于潜在视频扩散模型的生成中水印方法,通过部分微调潜在解码器,结合扰动感知抑制和时序对齐模块,平衡水印提取、视觉质量和生成效率。

  • Motivation: 解决AIGC视频生成中的知识产权保护和内容追踪问题,避免后生成水印方法的额外计算开销和质量损失。
  • Method: 提出VIDSIG,通过部分微调潜在解码器,结合扰动感知抑制(PAS)和时序对齐模块,实现水印的隐式和自适应集成。
  • Result: VIDSIG在水印提取、视觉质量和生成效率上表现最佳,并对空间和时间篡改具有强鲁棒性。
  • Conclusion: VIDSIG是一种实用且高效的视频生成中水印方法,适用于实际场景。

[34] Poster: Adapting Pretrained Vision Transformers with LoRA Against Attack Vectors

Richard E. Neddo,Sean Willis,Zander Blasingame,Chen Liu

Main category: cs.CV

TL;DR: 本文提出了一种针对图像分类器对抗攻击的低秩适应方法,通过调整预训练视觉变换器的权重和类别,增强其鲁棒性,并支持可扩展的微调。

  • Motivation: 图像分类器(如自动驾驶导航中使用的)易受对抗攻击,这些攻击通过微小扰动导致恶意误分类。现有研究对此讨论较多,但缺乏有效的防御手段。
  • Method: 采用低秩适应技术调整预训练视觉变换器的权重和类别,以提高对抗攻击的鲁棒性,同时避免重新训练。
  • Result: 该方法增强了模型对对抗攻击的抵抗力,并支持可扩展的微调。
  • Conclusion: 低秩适应是一种有效的防御对抗攻击的方法,且具有可扩展性。

[35] Scene Detection Policies and Keyframe Extraction Strategies for Large-Scale Video Analysis

Vasilii Korolkov

Main category: cs.CV

TL;DR: 提出了一种自适应框架,用于视频场景分割和关键帧提取,适用于多种视频类型和时长,具有高通用性和高效性。

  • Motivation: 现有方法在多样视频类型和时长上缺乏通用性,需要一种统一且自适应的解决方案。
  • Method: 动态选择分割策略(短视频用自适应阈值,中长视频用混合策略,长视频用基于间隔的分割),关键帧选择使用轻量级模块评分。
  • Result: 系统已部署于商业平台,适用于媒体、教育、研究和安全领域,支持下游应用如UI预览和内容过滤。
  • Conclusion: 该框架具有可扩展性和可解释性,未来可增强音频感知分割和强化学习评分。

[36] Concept-Centric Token Interpretation for Vector-Quantized Generative Models

Tianze Yang,Yucheng Shi,Mengnan Du,Xuansheng Wu,Qiaoyu Tan,Jin Sun,Ninghao Liu

Main category: cs.CV

TL;DR: CORTEX是一种新方法,用于解释VQGMs中的离散令牌代码本,通过识别概念特定的令牌组合,提升模型透明度和应用能力。

  • Motivation: VQGMs的代码本中哪些令牌对生成特定概念的图像至关重要尚不明确,需要更好的解释方法。
  • Method: CORTEX采用两种方法:(1)样本级解释,分析单个图像中令牌的重要性;(2)代码本级解释,探索整个代码本以找到全局相关令牌。
  • Result: 实验证明CORTEX在解释令牌使用方面优于基线方法,适用于多种预训练VQGMs,并支持图像编辑和特征检测。
  • Conclusion: CORTEX有效提升了VQGMs的可解释性,并在实际应用中展现出潜力。

[37] Fovea Stacking: Imaging with Dynamic Localized Aberration Correction

Shi Mao,Yogeshwar Mishra,Wolfgang Heidrich

Main category: cs.CV

TL;DR: 论文提出了一种名为Fovea Stacking的新型成像系统,利用可变形相位板(DPPs)局部校正像差,通过优化和堆叠多张图像实现全局清晰。

  • Motivation: 简化光学系统通常伴随严重像差,尤其是离轴区域,难以通过软件完全校正。
  • Method: 利用DPPs和可微分光学模型优化局部像差校正,通过堆叠多张图像实现全局清晰,并引入神经网络控制模型提高硬件性能。
  • Result: Fovea Stacking在扩展景深成像中优于传统方法,结合目标检测或眼动追踪可实现实时动态调整。
  • Conclusion: Fovea Stacking为小型化相机提供了一种高效像差校正方案,适用于监控和虚拟现实等应用。

[38] From Local Cues to Global Percepts: Emergent Gestalt Organization in Self-Supervised Vision Models

Tianqin Li,Ziqi Wen,Leiran Song,Jun Liu,Zhi Jing,Tai Sing Lee

Main category: cs.CV

TL;DR: 现代视觉模型(如ViTs和ConvNeXt)在自监督训练(如MAE)下表现出类似人类视觉的Gestalt组织行为,但分类微调会削弱这种能力。DiSRT测试平台用于评估模型对全局结构的敏感性。

  • Motivation: 研究现代视觉模型是否表现出类似人类视觉的Gestalt组织行为,并探究其训练条件。
  • Method: 使用Masked Autoencoding(MAE)训练Vision Transformers(ViTs)和ConvNeXt,并通过DiSRT测试平台评估模型对全局空间扰动的敏感性。
  • Result: 自监督模型(如MAE、CLIP)在Gestalt行为上优于监督基线,甚至有时超越人类表现。分类微调会削弱这种能力,但Top-K激活稀疏机制可恢复全局敏感性。
  • Conclusion: 自监督训练促进Gestalt-like感知,DiSRT是评估模型全局结构敏感性的有效工具。

[39] Common Inpainted Objects In-N-Out of Context

Tianze Yang,Tyson Jordan,Ninghao Liu,Jin Sun

Main category: cs.CV

TL;DR: COinCO是一个新数据集,通过扩散修复技术生成包含上下文一致和不一致场景的图像,用于上下文学习。

  • Motivation: 解决现有视觉数据集中缺乏上下文不一致示例的问题。
  • Method: 使用扩散修复技术替换COCO图像中的对象,并通过多模态大语言模型验证和分类。
  • Result: 创建了97,722张图像,支持上下文分类、对象预测和假检测任务。
  • Conclusion: COinCO为上下文感知视觉理解和图像取证提供了基础。

[40] Involution-Infused DenseNet with Two-Step Compression for Resource-Efficient Plant Disease Classification

T. Ahmed,S. Jannat,Md. F. Islam,J. Noor

Main category: cs.CV

TL;DR: 论文提出了一种结合权重剪枝和知识蒸馏的两步模型压缩方法,并融合了DenseNet和Involutional Layers,以降低计算需求,适用于资源受限设备。

  • Motivation: 农业对全球粮食安全至关重要,但作物易受病害影响。传统CNN模型计算需求高,难以在资源受限设备上部署。
  • Method: 采用权重剪枝减少模型大小和计算负担,结合知识蒸馏提升小模型性能,并融合DenseNet与Involutional Layers以高效捕捉空间特征。
  • Result: 压缩后的ResNet50在PlantVillage和PaddyLeaf数据集上分别达到99.55%和98.99%准确率;DenseNet模型在高效性优化下达到99.21%和93.96%准确率;混合模型表现同样优异。
  • Conclusion: 该方法支持在资源受限设备上高效部署,促进精准农业和可持续耕作。

[41] ArtiScene: Language-Driven Artistic 3D Scene Generation Through Image Intermediary

Zeqi Gu,Yin Cui,Zhaoshuo Li,Fangyin Wei,Yunhao Ge,Jinwei Gu,Ming-Yu Liu,Abe Davis,Yifan Ding

Main category: cs.CV

TL;DR: ArtiScene利用文本生成2D图像作为中介,指导3D场景设计,无需额外训练,显著提升布局和美学质量。

  • Motivation: 传统3D场景设计复杂且依赖高质量3D数据,而现有文本到3D方法受限于数据不足。利用文本到图像模型的多样性和可靠性,可以间接生成3D场景。
  • Method: 通过文本生成2D图像,从中提取形状和外观信息创建3D模型,并基于图像几何信息组装成最终场景。
  • Result: ArtiScene在布局和美学质量上大幅领先现有方法,用户研究胜率74.89%,GPT-4o评估胜率95.07%。
  • Conclusion: ArtiScene提供了一种无需训练的自动化3D场景设计方法,结合2D中介的灵活性和可靠性,显著优于现有技术。

[42] EcoLens: Leveraging Multi-Objective Bayesian Optimization for Energy-Efficient Video Processing on Edge Devices

Benjamin Civjan,Bo Chen,Ruixiao Zhang,Klara Nahrstedt

Main category: cs.CV

TL;DR: 提出了一种动态优化视频处理配置的系统,以在边缘设备上最小化能耗,同时保持深度学习推理所需的视频特征。

  • Motivation: 解决资源受限环境中实时视频分析时能耗与视频语义平衡的挑战。
  • Method: 通过离线分析多种配置对能耗和推理精度的影响,并在线使用多目标贝叶斯优化实时调整配置。
  • Result: 实验表明系统能显著降低能耗,同时保持高分析性能。
  • Conclusion: 为智能设备和边缘计算提供了一种实用的节能解决方案。

[43] Depth-Aware Scoring and Hierarchical Alignment for Multiple Object Tracking

Milad Khanchi,Maria Amer,Charalambos Poullis

Main category: cs.CV

TL;DR: 提出了一种基于深度感知的多目标跟踪框架,利用零样本深度估计和分层对齐分数改进关联准确性。

  • Motivation: 现有基于运动的多目标跟踪方法依赖IoU进行目标关联,但在遮挡或视觉相似对象场景中效果不佳。
  • Method: 通过零样本方法估计深度并将其作为独立特征引入关联过程,同时提出分层对齐分数优化IoU。
  • Result: 在无需训练或微调的情况下,在挑战性基准测试中达到最先进水平。
  • Conclusion: 首次将3D特征(单目深度)作为独立决策矩阵引入关联步骤,显著提升了跟踪性能。

[44] Aiding Medical Diagnosis through Image Synthesis and Classification

Kanishk Choudhary

Main category: cs.CV

TL;DR: 本文提出了一种通过文本描述生成逼真医学图像的系统,并通过分类模型验证其准确性,旨在解决医学教育资源多样性和可及性不足的问题。

  • Motivation: 医学专业人员(尤其是培训中的医生)依赖视觉参考资料进行准确诊断和模式识别,但现有资源缺乏多样性和可及性。
  • Method: 使用预训练的稳定扩散模型,通过LoRA在PathMNIST数据集上进行微调,生成医学图像,并通过ResNet-18分类模型验证图像准确性。
  • Result: 生成模型的F1分数为0.6727,部分组织类型(如脂肪组织和淋巴细胞)达到完美分类,系统在生成和分类部分均表现出高准确性。
  • Conclusion: 该系统为合成特定领域医学图像提供了可靠方法,未来可扩展至其他医学影像领域。

[45] HSCR: Hierarchical Self-Contrastive Rewarding for Aligning Medical Vision Language Models

Songtao Jiang,Yan Zhang,Yeying Jin,Zhihang Tang,Yangyang Wu,Yang Feng,Jian Wu,Zuozhu Liu

Main category: cs.CV

TL;DR: HSCR方法通过自对比奖励和多级偏好优化,解决了Med-VLMs中的模态不对齐问题,显著提升了零样本性能和可信度。

  • Motivation: 现有Med-VLMs忽视模态不对齐问题,导致临床场景中不可信响应。HSCR旨在低成本生成高质量偏好数据,并捕捉细微偏好以改善对齐。
  • Method: HSCR利用Med-VLMs生成不偏好响应,通过视觉标记丢弃分析模态耦合标记,推导隐式对齐奖励函数,并引入多级偏好优化策略。
  • Result: 在Med-VQA等任务中,HSCR仅需2000条训练数据即可显著提升零样本性能、模态对齐和可信度。
  • Conclusion: HSCR为Med-VLMs提供了一种高效的对齐方法,解决了模态不对齐问题,提升了模型在医疗任务中的实用性。

[46] TIME: TabPFN-Integrated Multimodal Engine for Robust Tabular-Image Learning

Jiaqi Luo,Yuan Yuan,Shixin Xu

Main category: cs.CV

TL;DR: TIME框架结合TabPFN和图像特征,解决表格数据标准化和缺失值问题,在多模态学习中表现优异。

  • Motivation: 解决表格数据缺乏标准化预训练表示和缺失值处理难题,提升多模态学习性能。
  • Method: 利用TabPFN作为冻结表格编码器生成鲁棒嵌入,结合预训练视觉主干提取的图像特征,探索多种融合策略。
  • Result: 在完整和不完整表格输入下均优于基线方法,验证了其实际应用价值。
  • Conclusion: TIME框架在多模态学习中具有显著优势,尤其在医学领域表现突出。

[47] L3A: Label-Augmented Analytic Adaptation for Multi-Label Class Incremental Learning

Xiang Zhang,Run He,Jiao Chen,Di Fang,Ming Li,Ziqian Zeng,Cen Chen,Huiping Zhuang

Main category: cs.CV

TL;DR: 论文提出了一种名为L3A的方法,用于解决多标签增量学习中的标签缺失和类别不平衡问题。

  • Motivation: 多标签增量学习(MLCIL)面临标签缺失和类别不平衡的挑战,导致模型性能下降。
  • Method: L3A通过伪标签模块生成伪标签解决标签缺失问题,并通过加权分析分类器自适应平衡类别贡献。
  • Result: 在MS-COCO和PASCAL VOC数据集上的实验表明,L3A优于现有方法。
  • Conclusion: L3A是一种无需存储历史样本的有效方法,显著提升了MLCIL任务的性能。

[48] QuantFace: Low-Bit Post-Training Quantization for One-Step Diffusion Face Restoration

Jiatong Li,Libo Zhu,Haotong Qin,Jingkai Wang,Linghe Kong,Guihai Chen,Yulun Zhang,Xiaokang Yang

Main category: cs.CV

TL;DR: QuantFace提出了一种用于一步扩散人脸恢复模型的低比特量化方法,将全精度权重和激活量化为4~6位,通过旋转缩放通道平衡和QD-LoRA优化量化与蒸馏性能,并采用自适应比特分配策略。

  • Motivation: 扩散模型在人脸恢复中表现优异,但计算量大,难以部署在移动设备上。
  • Method: 分析激活数据分布,采用旋转缩放通道平衡;提出QD-LoRA联合优化量化与蒸馏;设计自适应比特分配策略。
  • Result: 在6位和4位量化下,QuantFace在合成和真实数据集上表现优于现有低比特量化方法。
  • Conclusion: QuantFace通过高效量化策略,显著提升了扩散模型在移动设备上的部署能力。

[49] Improving Keystep Recognition in Ego-Video via Dexterous Focus

Zachary Chavis,Stephen J. Guy,Hyun Soo Park

Main category: cs.CV

TL;DR: 提出一种通过稳定和聚焦手部视频来改进自我中心视角活动识别的框架,无需修改模型架构。

  • Motivation: 解决自我中心视频中因头部动态变化导致的活动识别挑战。
  • Method: 限制输入为稳定且聚焦手部的视频。
  • Result: 在Ego-Exo4D基准测试中优于现有方法。
  • Conclusion: 简单视频变换即可显著提升自我中心活动识别效果。

[50] SkyReels-Audio: Omni Audio-Conditioned Talking Portraits in Video Diffusion Transformers

Zhengcong Fei,Hao Jiang,Di Qiu,Baoxuan Gu,Youqiang Zhang,Jiahua Wang,Jialin Bai,Debang Li,Mingyuan Fan,Guibin Chen,Yahui Zhou

Main category: cs.CV

TL;DR: SkyReels-Audio是一个统一框架,通过多模态输入生成和编辑音频驱动的说话肖像视频,支持无限长度生成和编辑。

  • Motivation: 多模态输入(文本、图像、视频)驱动的说话肖像生成和编辑领域尚未充分探索。
  • Method: 基于预训练视频扩散变换器,采用混合课程学习策略、面部掩码损失和音频引导的无分类器指导机制,以及滑动窗口去噪方法。
  • Result: 在唇同步准确性、身份一致性和真实面部动态方面表现优异,尤其在复杂条件下。
  • Conclusion: SkyReels-Audio通过高质量数据管道和多模态控制,实现了高保真和时序一致的说话肖像视频生成。

[51] Advancing from Automated to Autonomous Beamline by Leveraging Computer Vision

Baolu Li,Hongkai Yu,Huiming Sun,Jin Ma,Yuewei Lin,Lu Ma,Yonghua Du

Main category: cs.CV

TL;DR: 提出了一种基于计算机视觉的系统,结合深度学习和多视角摄像头,用于实时碰撞检测,以实现同步辐射光束线的自主操作。

  • Motivation: 当前同步辐射光束线仍依赖人工安全监督,需要实现自动化与自主操作之间的过渡。
  • Method: 系统采用设备分割、跟踪和几何分析,结合迁移学习提升鲁棒性,并开发了交互式标注模块以适应新物体类别。
  • Result: 在真实光束线数据集上的实验表明,系统具有高精度、实时性能和自主操作的潜力。
  • Conclusion: 该系统为同步辐射光束线的自主操作提供了可行解决方案。

[52] Towards Predicting Any Human Trajectory In Context

Ryo Fujii,Hideo Saito,Ryo Hachiuma

Main category: cs.CV

TL;DR: TrajICL是一种基于上下文学习的行人轨迹预测框架,无需微调即可快速适应不同场景,通过时空相似性和预测引导的示例选择方法提升性能。

  • Motivation: 解决边缘设备因计算资源受限而难以进行场景特定数据微调的问题,同时提高预测的适应性和准确性。
  • Method: 提出时空相似性示例选择(STES)和预测引导示例选择(PG-ES)方法,结合大规模合成数据集训练模型。
  • Result: 在多个公开基准测试中表现优异,优于微调方法,适应性强。
  • Conclusion: TrajICL通过上下文学习实现了高效的行人轨迹预测,适用于跨域场景。

[53] Breaking Latent Prior Bias in Detectors for Generalizable AIGC Image Detection

Yue Zhou,Xinan He,KaiQing Lin,Bin Fan,Feng Ding,Bin Li

Main category: cs.CV

TL;DR: 论文提出了一种名为OMAT的方法,通过优化扩散模型的初始潜在噪声生成对抗样本,解决了AIGC检测器在未见生成器上的泛化问题。实验表明,该方法显著提升了跨生成器性能。

  • Motivation: 现有AIGC检测器在训练生成器上表现优异,但在未见生成器上泛化能力不足,原因在于潜在先验偏差。
  • Method: 提出On-Manifold Adversarial Training (OMAT),通过优化初始潜在噪声生成对抗样本,保持生成器输出流形上的扰动。
  • Result: 在GenImage++基准测试中,OMAT显著提升了ResNet50和CLIP的跨生成器性能。
  • Conclusion: OMAT为AIGC检测提供了更鲁棒和可泛化的方法,并为未来数据集构建和检测器评估提供了指导。

[54] Uneven Event Modeling for Partially Relevant Video Retrieval

Sa Zhu,Huashan Chen,Wanqian Zhang,Jinchao Zhang,Zexian Yang,Xiaoshuai Hao,Bo Li

Main category: cs.CV

TL;DR: 提出了一种名为UEM的框架,通过PGVS模块和CAER模块解决PRVR中的事件边界模糊和文本-视频对齐问题,实现了最佳性能。

  • Motivation: 现有方法将视频分割为固定长度的片段,导致事件边界模糊,且使用平均池化计算事件表示,引入不对齐问题。
  • Method: 提出UEM框架,包含PGVS模块(基于时间和语义相似性迭代分割事件)和CAER模块(通过文本交叉注意力优化事件表示)。
  • Result: 在两个PRVR基准测试中取得了最先进的性能。
  • Conclusion: UEM框架通过优化事件分割和表示,显著提升了PRVR任务的性能。

[55] Leveraging CLIP Encoder for Multimodal Emotion Recognition

Yehun Song,Sunyoung Cho

Main category: cs.CV

TL;DR: 论文提出了一种基于CLIP的多模态情感识别框架MER-CLIP,通过标签编码器和跨模态解码器提升情感特征表示,实验表明其在CMU-MOSI和CMU-MOSEI数据集上优于现有方法。

  • Motivation: 现有多模态情感识别方法因数据量有限导致性能提升受限,需利用大规模预训练模型的语义知识增强表示能力。
  • Method: 采用CLIP架构,引入标签编码器将标签作为文本嵌入,设计跨模态解码器对齐多模态特征到共享空间。
  • Result: 在CMU-MOSI和CMU-MOSEI数据集上表现优于现有方法。
  • Conclusion: MER-CLIP通过标签语义和多模态对齐显著提升了情感识别性能。

[56] Towards Edge-Based Idle State Detection in Construction Machinery Using Surveillance Cameras

Xander Küpers,Jeroen Klein Brinke,Rob Bemthuis,Ozlem Durmaz Incel

Main category: cs.CV

TL;DR: 本文提出了一种名为Edge-IMI的框架,用于通过边缘计算设备检测建筑机械的闲置状态,以提高设备利用率和减少成本。

  • Motivation: 建筑行业中设备利用率低导致运营成本增加和项目延误,需要一种高效的方法来监控设备活动。
  • Method: Edge-IMI框架包括目标检测、跟踪和闲置状态识别三个模块,专为资源受限的边缘计算设备设计。
  • Result: 实验结果显示,目标检测模块的F1得分为71.75%,闲置识别模块能可靠区分设备状态,且框架支持实时处理。
  • Conclusion: Edge-IMI框架通过边缘计算实现了高效设备监控,减少了对高带宽云服务和昂贵硬件的依赖。

[57] DS-VTON: High-Quality Virtual Try-on via Disentangled Dual-Scale Generation

Xianbing Sun,Yan Hong,Jiahui Zhan,Jun Lan,Huijia Zhu,Weiqiang Wang,Liqing Zhang,Jianfu Zhang

Main category: cs.CV

TL;DR: DS-VTON是一个双尺度虚拟试穿框架,通过分离结构对齐和纹理保留目标,实现了更高效的建模。

  • Motivation: 现有虚拟试穿方法难以同时解决服装图像与目标人体准确对齐以及保留细粒度纹理和图案的挑战。
  • Method: DS-VTON采用两阶段方法:首先生成低分辨率试穿结果以捕获语义对应关系,第二阶段通过残差引导的扩散过程重建高分辨率输出。
  • Result: 实验表明,DS-VTON在多个标准虚拟试穿基准测试中,在结构对齐和纹理保留方面均达到最先进性能。
  • Conclusion: DS-VTON通过双尺度设计和无掩模生成范式,显著提升了虚拟试穿的效果。

[58] 3D Skeleton-Based Action Recognition: A Review

Mengyuan Liu,Hong Liu,Qianshuo Hu,Bin Ren,Junsong Yuan,Jiaying Lin,Jiajun Wen

Main category: cs.CV

TL;DR: 本文提出了一种任务导向的框架,全面分析3D骨架动作识别,强调预处理、特征提取和时空建模等子任务,并探讨最新技术进展。

  • Motivation: 现有综述多从模型角度出发,忽略了骨架动作识别的关键步骤,阻碍了对任务的深入理解。本文旨在填补这一空白。
  • Method: 通过分解任务为子任务,重点讨论预处理、特征提取和时空建模,并分析最新技术如混合架构、Mamba模型和生成模型。
  • Result: 提供了全面的3D骨架数据集概述,并评估了最先进算法。
  • Conclusion: 本文为3D骨架动作识别领域提供了结构化路线图,促进理解和进一步发展。

[59] Deep Temporal Reasoning in Video Language Models: A Cross-Linguistic Evaluation of Action Duration and Completion through Perfect Times

Olga Loginova,Sofía Ortega Loguinova

Main category: cs.CV

TL;DR: 论文介绍了多语言数据集Perfect Times,用于评估视频语言模型在时间推理上的表现,发现现有模型难以模拟人类的时间与因果推理能力。

  • Motivation: 研究动机是探索视频语言模型是否能真正理解时间动态,而非仅依赖表面标记。
  • Method: 通过构建多语言数据集Perfect Times,结合日常活动视频和事件完成标签,设计完美性干扰项来测试模型。
  • Result: 实验显示,现有模型在视频中难以实现类似人类的时间与因果推理。
  • Conclusion: 结论强调需要整合深度多模态线索以捕捉动作持续性和完成性,为时间推理评估设新标准。

[60] Deformable registration and generative modelling of aortic anatomies by auto-decoders and neural ODEs

Riccardo Tenderini,Luca Pegolotti,Fanwei Kong,Stefano Pagani,Francesco Regazzoni,Alison L. Marsden,Simone Deparis

Main category: cs.CV

TL;DR: AD-SVFD是一种深度学习模型,用于血管形状的可变形配准和合成解剖结构的生成。它通过加权点云表示几何形状,利用ODE解建模空间变形,并通过自解码器结构实现高效权重共享。

  • Motivation: 解决血管形状的可变形配准问题,并生成新的合成解剖结构,同时提高计算效率。
  • Method: 使用加权点云表示几何形状,通过ODE解建模空间变形,优化Chamfer距离,并采用自解码器结构实现权重共享和低维编码。
  • Result: 在健康主动脉解剖结构上展示了高质量的配准结果,计算成本较低。
  • Conclusion: AD-SVFD在血管形状配准和合成解剖结构生成方面表现出色,具有高效性和准确性。

[61] TIGeR: Text-Instructed Generation and Refinement for Template-Free Hand-Object Interaction

Yiyao Huang,Zhedong Zheng,Yu Ziwei,Yaxiong Wang,Tze Ho Elden Tse,Angela Yao

Main category: cs.CV

TL;DR: 论文提出TIGeR框架,利用文本驱动先验优化3D物体形状和姿态估计,无需预定义模板,显著提升对遮挡场景的适应性。

  • Motivation: 预定义的3D物体模板在手工交互重建中限制多且需大量人工,TIGeR旨在通过文本驱动解决这一问题。
  • Method: 采用两阶段框架:文本指令生成先验,再通过2D-3D协作注意力校准形状。
  • Result: 在Dex-YCB和Obman数据集上表现优异,Chamfer距离分别为1.979和5.468,优于无模板方法。
  • Conclusion: TIGeR框架对遮挡鲁棒,兼容多种先验来源,具有实际应用潜力。

[62] Continual-MEGA: A Large-scale Benchmark for Generalizable Continual Anomaly Detection

Geonu Lee,Yujeong Oh,Geonhui Jang,Soyoung Lee,Jeonghyo Song,Sungmin Cha,YoungJoon Yoo

Main category: cs.CV

TL;DR: 论文提出了一个新的持续学习基准Continual-MEGA,用于异常检测,包含新数据集ContinualAD,并引入零样本泛化场景。提出的基线算法在少样本检测中表现优异。

  • Motivation: 为了更好地反映现实世界中的持续学习场景,提出新的基准和数据集。
  • Method: 结合现有数据集与新数据集ContinualAD,提出零样本泛化场景和统一的基线算法。
  • Result: 现有方法在像素级缺陷定位上有改进空间;提出的方法优于现有方法;ContinualAD提升了模型性能。
  • Conclusion: 新基准和数据集为持续学习在异常检测中的应用提供了重要支持。

[63] Camera Trajectory Generation: A Comprehensive Survey of Methods, Metrics, and Future Directions

Zahra Dehghanian,Pouya Ardekhani,Amir Vahedi,Hamid Beigy,Hamid R. Rabiee

Main category: cs.CV

TL;DR: 本文首次全面综述了相机轨迹生成领域,涵盖基础定义到先进方法,并分析了评估指标与数据集,指出了当前研究的局限与未来机会。

  • Motivation: 该领域缺乏系统性综述,本文旨在填补这一空白,为研究者提供资源并推动领域发展。
  • Method: 介绍了相机表示方法,并详细回顾了规则、优化、机器学习和混合方法等生成模型,同时分析了评估指标与数据集。
  • Result: 总结了现有方法的优缺点,提出了领域中的局限与未来研究方向。
  • Conclusion: 本文为研究者提供了基础资源,并推动了高效、适应性强的相机轨迹系统的发展。

[64] CAPAA: Classifier-Agnostic Projector-Based Adversarial Attack

Zhan Li,Mingyu Zhao,Xin Dong,Haibin Ling,Bingyao Huang

Main category: cs.CV

TL;DR: CAPAA提出了一种分类器无关的投影对抗攻击方法,通过多分类器损失聚合和注意力梯度加权,提升攻击成功率和隐蔽性。

  • Motivation: 现有方法局限于单一分类器和固定相机姿态,难以应对多分类器和动态相机姿态场景。
  • Method: 提出分类器无关的对抗损失和优化框架,结合注意力梯度加权机制。
  • Result: 实验表明CAPAA在攻击成功率和隐蔽性上优于现有基线。
  • Conclusion: CAPAA为投影对抗攻击提供了更通用的解决方案。

[65] IVY-FAKE: A Unified Explainable Framework and Benchmark for Image and Video AIGC Detection

Wayne Zhang,Changjiang Jiang,Zhonghao Zhang,Chenyang Si,Fengchang Yu,Wei Peng

Main category: cs.CV

TL;DR: 论文介绍了IVY-FAKE数据集和IVY-XDETECTOR模型,用于可解释的多模态AIGC检测,解决了现有方法的局限性和透明性问题。

  • Motivation: AIGC技术的快速发展带来了真实感极强的合成图像和视频,但现有检测方法缺乏解释性且无法统一处理图像和视频,影响了透明性和实用性。
  • Method: 提出了IVY-FAKE数据集(包含15万训练样本和1.87万评估样本)和IVY-XDETECTOR模型,通过统一的视觉-语言模型实现可解释的多模态检测。
  • Result: IVY-XDETECTOR在多个图像和视频检测基准上达到最先进性能,验证了数据集和模型框架的有效性。
  • Conclusion: IVY-FAKE和IVY-XDETECTOR为AIGC检测提供了统一且可解释的解决方案,显著提升了透明性和实用性。

[66] GOBench: Benchmarking Geometric Optics Generation and Understanding of MLLMs

Xiaorong Zhu,Ziheng Jia,Jiarui Wang,Xiangyu Zhao,Haodong Duan,Xiongkuo Min,Jia Wang,Zicheng Zhang,Guangtao Zhai

Main category: cs.CV

TL;DR: 论文介绍了GOBench,首个评估多模态大语言模型(MLLMs)在几何光学领域生成和理解能力的基准测试,发现当前模型在光学生成和理解方面仍存在显著挑战。

  • Motivation: 当前多模态大语言模型在几何光学领域的细粒度物理原理评估不足,需要系统性的能力评估。
  • Method: 提出GOBench基准,包含生成光学真实图像和理解光学现象两项任务,并通过主观实验和评估指令对11种主流MLLMs进行测试。
  • Result: 实验显示当前模型在光学生成和理解任务中表现不佳,最佳生成模型GPT-4o-Image未能完美完成任务,最佳理解模型Gemini-2.5Pro准确率仅为37.35%。
  • Conclusion: 当前MLLMs在几何光学领域的生成和理解能力仍有显著不足,需进一步改进。

[67] Quotient Network -- A Network Similar to ResNet but Learning Quotients

Peng Hui,Jiamuyang Zhao,Changxin Li,Qingzhen Zhu

Main category: cs.CV

TL;DR: 论文提出了一种改进ResNet的商网络(Quotient Network),通过学习目标特征与现有特征的商而非差值,解决了ResNet对特征大小敏感的问题,并在多个数据集上验证了其性能提升。

  • Motivation: ResNet通过学习特征差值训练深度网络,但差值对特征大小敏感且缺乏独立意义。本文旨在解决这些问题,同时保留ResNet的优势。
  • Method: 提出商网络,学习目标特征与现有特征的商,并设计训练规则以确保高效学习和性能提升。
  • Result: 在CIFAR10、CIFAR100和SVHN数据集上,商网络无需增加参数即可稳定优于ResNet。
  • Conclusion: 商网络有效解决了ResNet的局限性,性能更优,且易于实现。

[68] FlexSelect: Flexible Token Selection for Efficient Long Video Understanding

Yunzhu Zhang,Yu Lu,Tianyi Wang,Fengyun Rao,Yi Yang,Linchao Zhu

Main category: cs.CV

TL;DR: FlexSelect是一种灵活高效的视频令牌选择策略,用于处理长视频,通过跨模态注意力模式识别并保留语义相关内容,显著提升视频大语言模型的效率。

  • Motivation: 长视频理解对视频大语言模型(VideoLLMs)提出了高计算和内存需求的挑战,需要一种高效的方法来减少冗余计算。
  • Method: FlexSelect包含两部分:1)无训练的令牌排名管道,利用跨模态注意力权重估计令牌重要性;2)轻量级选择器,训练以复制这些排名并过滤冗余令牌。
  • Result: FlexSelect在多个长视频基准测试中表现优异,并显著提升速度(如LLaVA-Video-7B模型速度提升9倍)。
  • Conclusion: FlexSelect作为一种即插即用模块,可扩展多种VideoLLM架构的上下文长度,为高效长视频理解提供了可行方案。

[69] Temporal In-Context Fine-Tuning for Versatile Control of Video Diffusion Models

Kinam Kim,Junha Hyung,Jaegul Choo

Main category: cs.CV

TL;DR: TIC-FT是一种高效且通用的方法,用于适应预训练的视频扩散模型到多样化的条件生成任务,无需架构修改,仅需少量训练样本即可实现高性能。

  • Motivation: 现有方法依赖于外部编码器或架构修改,需要大数据集且灵活性不足,TIC-FT旨在解决这些问题。
  • Method: 通过沿时间轴连接条件和目标帧,并插入噪声逐渐增加的缓冲帧,实现平滑过渡和高效微调。
  • Result: 在图像到视频和视频到视频生成任务中,TIC-FT在条件保真度和视觉质量上优于现有基线,且训练和推理效率高。
  • Conclusion: TIC-FT是一种高效、灵活且可扩展的条件生成方法,适用于多种任务。

[70] Pseudo-Labeling Driven Refinement of Benchmark Object Detection Datasets via Analysis of Learning Patterns

Min Je Kim,Muhammad Munsif,Altaf Hussain,Hikmat Yar,Sung Wook Baik

Main category: cs.CV

TL;DR: 论文提出MJ-COCO,通过四阶段伪标签精炼框架解决MS-COCO的标注问题,提升模型性能。

  • Motivation: MS-COCO存在标注错误(如缺失标签、类别错误等),影响模型训练和泛化能力。
  • Method: 采用基于损失和梯度的错误检测,结合四阶段伪标签精炼(边界框生成、重复去除、类别验证、空间调整)。
  • Result: MJ-COCO在多个数据集上表现优于MS-COCO,AP和APS指标提升,小目标标注增加20万+。
  • Conclusion: MJ-COCO通过自动化精炼显著提升标注质量和模型性能。

[71] Motion-Aware Concept Alignment for Consistent Video Editing

Tong Zhang,Juan C Leon Alcazar,Bernard Ghanem

Main category: cs.CV

TL;DR: MoCA-Video是一个无需训练的视频语义混合框架,通过参考图像将语义特征注入视频中的特定对象,同时保持原始运动和视觉上下文。

  • Motivation: 解决图像域语义混合与视频之间的差距,实现可控的高质量视频合成。
  • Method: 利用对角去噪计划和类无关分割在潜在空间检测和跟踪对象,结合动量语义校正和伽马残差噪声稳定确保时间连贯性。
  • Result: 在SSIM、LPIPS和新型指标CASS上表现优异,优于现有基线。
  • Conclusion: MoCA-Video展示了在扩散噪声轨迹中进行结构化操作可实现可控、高质量的视频合成。

[72] AuralSAM2: Enabling SAM2 Hear Through Pyramid Audio-Visual Feature Prompting

Yuyuan Liu,Yuanhong Chen,Chong Wang,Junlin Han,Junde Wu,Can Peng,Jingkun Chen,Yu Tian,Gustavo Carneiro

Main category: cs.CV

TL;DR: AuralSAM2通过AuralFuser模块整合多模态特征,优化SAM2在音频引导下的分割性能,显著提升效果。

  • Motivation: 现有方法在音频与视觉模态融合上效率低且定位不精确,忽略了多模态语义交互。
  • Method: 提出AuralFuser模块,结合特征金字塔和音频对比学习,优化多模态特征融合与对齐。
  • Result: 在公开基准测试中表现优于现有方法。
  • Conclusion: AuralSAM2有效解决了音频与视觉模态融合的挑战,提升了分割精度。

[73] Modality Translation and Registration of MR and Ultrasound Images Using Diffusion Models

Xudong Ma,Nantheera Anantrasirichai,Stefanos Bolomytis,Alin Achim

Main category: cs.CV

TL;DR: 提出了一种基于层次特征解耦设计的解剖一致性模态转换(ACMT)网络,用于解决多模态MR-US配准中的模态差异问题。

  • Motivation: 多模态MR-US配准对前列腺癌诊断至关重要,但现有方法难以对齐关键边界且对无关细节过于敏感。
  • Method: 利用浅层特征保持纹理一致性,深层特征保留边界,并引入中间伪模态设计,将MR和US图像转换至该中间域。
  • Result: 实验表明,该方法减少了模态差异并保留了关键解剖边界,定量评估显示其模态相似性优于现有方法。
  • Conclusion: ACMT框架在多模态前列腺图像配准中表现出色,提升了配准精度。

[74] NavBench: Probing Multimodal Large Language Models for Embodied Navigation

Yanyuan Qiao,Haodong Hong,Wenqi Lyu,Dong An,Siqi Zhang,Yutong Xie,Xinyu Wang,Qi Wu

Main category: cs.CV

TL;DR: NavBench是一个评估多模态大语言模型(MLLMs)在零样本设置下导航能力的基准,包含导航理解和逐步执行两部分。研究发现GPT-4o表现优异,但大多数模型在时间理解方面存在困难。

  • Motivation: 探索MLLMs在具身环境中的理解和行动能力,填补其在导航任务中的研究空白。
  • Method: NavBench包括导航理解(3,200个问答对)和逐步执行(432个场景),并引入将MLLMs输出转化为机器人动作的流程。
  • Result: GPT-4o表现最佳,轻量开源模型在简单任务中有效。模型理解力与执行性能正相关,地图上下文提升决策准确性。
  • Conclusion: MLLMs在导航任务中表现潜力,但时间理解是主要挑战,未来需改进模型在此方面的能力。

[75] Self-supervised ControlNet with Spatio-Temporal Mamba for Real-world Video Super-resolution

Shijun Shi,Jing Xu,Lijing Lu,Zhihang Li,Kai Hu

Main category: cs.CV

TL;DR: 本文提出了一种基于自监督学习和Mamba的噪声鲁棒性视频超分辨率框架,通过改进扩散模型和引入自监督ControlNet,显著提升了视频质量。

  • Motivation: 现有基于扩散的视频超分辨率方法因随机性易引入复杂退化和明显伪影,需改进。
  • Method: 结合自监督学习和Mamba,改进扩散模型为全局时空注意力机制,引入自监督ControlNet以减少伪影,采用三阶段训练策略。
  • Result: 在真实视频超分辨率基准数据集上,算法表现出优于现有技术的感知质量。
  • Conclusion: 提出的模型设计和训练策略有效提升了视频超分辨率的性能。

[76] ECP-Mamba: An Efficient Multi-scale Self-supervised Contrastive Learning Method with State Space Model for PolSAR Image Classification

Zuzheng Kuang,Haixia Bi,Chen Xu,Jian Sun

Main category: cs.CV

TL;DR: ECP-Mamba框架结合多尺度自监督对比学习和状态空间模型(SSM),解决了PolSAR图像分类中标注数据稀缺和计算效率低的问题,实现了高精度与资源效率的平衡。

  • Motivation: 当前基于深度学习的PolSAR分类方法依赖大量标注数据且计算效率低,尤其是Transformer架构。
  • Method: ECP-Mamba通过多尺度预测任务解决标注稀缺问题,采用Mamba架构(选择性SSM)和螺旋扫描策略提升计算效率,并设计轻量级Cross Mamba模块实现多尺度特征交互。
  • Result: 在Flevoland 1989数据集上,ECP-Mamba达到99.70%的总体准确率、99.64%的平均准确率和99.62e-2的Kappa系数。
  • Conclusion: ECP-Mamba在PolSAR分类中实现了高精度与高效计算的平衡,为相关领域提供了有效解决方案。

[77] AceVFI: A Comprehensive Survey of Advances in Video Frame Interpolation

Dahyeon Kye,Changhyun Roh,Sukhun Ko,Chanho Eom,Jihyong Oh

Main category: cs.CV

TL;DR: AceVFI是一篇关于视频帧插值(VFI)的全面综述,涵盖250多篇论文,系统整理了VFI方法、挑战、数据集、应用及未来方向。

  • Motivation: 视频帧插值是低级视觉任务中的基础问题,旨在合成中间帧并保持时空一致性。随着技术发展,VFI方法从传统运动补偿发展到深度学习,亟需系统梳理。
  • Method: 综述整理了VFI方法(如基于核、流、GAN、Transformer等),分类为CTFI和ATFI,并分析了挑战(如大运动、遮挡等)、数据集、评估指标和应用。
  • Result: AceVFI成为VFI领域的统一参考,覆盖方法、技术特性、应用场景及未来研究方向。
  • Conclusion: 该综述为新手和专家提供了对现代VFI领域的深入理解,并指出了未来研究的潜力方向。

[78] Fighting Fire with Fire (F3): A Training-free and Efficient Visual Adversarial Example Purification Method in LVLMs

Yudong Zhang,Ruobing Xie,Yiqing Huang,Jiansheng Chen,Xingwu Sun,Zhanhui Kang,Di Wang,Yu Wang

Main category: cs.CV

TL;DR: F3是一种对抗性净化框架,通过引入简单扰动来抵消对抗性攻击,提升视觉语言模型的鲁棒性。

  • Motivation: 大型视觉语言模型(LVLMs)易受视觉对抗性攻击影响,但现有净化方法研究较少。
  • Method: F3采用“以火攻火”策略,通过随机扰动对抗样本并利用跨模态注意力优化输出。
  • Result: F3显著提升了净化效果,且无需训练、实现简单、计算高效。
  • Conclusion: F3适用于大规模工业应用,兼具鲁棒性和效率。

[79] Revolutionizing Blood Banks: AI-Driven Fingerprint-Blood Group Correlation for Enhanced Safety

Malik A. Altayar,Muhyeeddin Alqaraleh,Mowafaq Salem Alzboon,Wesam T. Almagharbeh

Main category: cs.CV

TL;DR: 研究探讨了指纹模式与ABO血型的关系,发现两者关联性较弱,血型数据对指纹识别的个人身份验证帮助有限。

  • Motivation: 探索低成本、易实施的生物识别方法,以补充现有昂贵且耗时的技术。
  • Method: 对200名受试者的指纹模式(环、涡、弓)和血型进行统计比较,使用卡方检验和皮尔逊相关性分析。
  • Result: 环状指纹最常见,O+血型最普遍,但指纹模式与血型无显著统计学关联。
  • Conclusion: 血型数据未能显著提升指纹识别的准确性,但支持多模态生物识别系统的开发方向。

[80] Aligned Contrastive Loss for Long-Tailed Recognition

Jiali Ma,Jiequan Cui,Maeno Kazuki,Lakshmi Subramanian,Karlekar Jayashree,Sugiri Pranata,Hanwang Zhang

Main category: cs.CV

TL;DR: 提出了一种对齐对比学习(ACL)算法,解决了长尾识别问题,通过消除梯度冲突和不平衡梯度问题,在多个基准测试中表现优异。

  • Motivation: 多视图训练虽能提升性能,但对比学习在视图增加时未能持续增强模型泛化能力,需解决梯度冲突和不平衡问题。
  • Method: 通过理论梯度分析发现监督对比学习(SCL)中的梯度问题,设计ACL算法消除这些问题。
  • Result: 在长尾CIFAR、ImageNet、Places和iNaturalist数据集上验证,ACL达到新的最优性能。
  • Conclusion: ACL算法有效解决了长尾识别问题,并在多个数据集上实现了最先进的性能。

[81] A Large Convolutional Neural Network for Clinical Target and Multi-organ Segmentation in Gynecologic Brachytherapy with Multi-stage Learning

Mingzhe Hu,Yuan Gao,Yuheng Li,Ricahrd LJ Qiu,Chih-Wei Chang,Keyur D. Shah,Priyanka Kapoor,Beth Bradshaw,Yuan Shao,Justin Roper,Jill Remick,Zhen Tian,Xiaofeng Yang

Main category: cs.CV

TL;DR: GynBTNet是一种多阶段学习框架,通过自监督预训练和分层微调策略,显著提升了妇科近距离放射治疗中临床靶区和危及器官的分割性能。

  • Motivation: 妇科近距离放射治疗中,临床靶区和危及器官的准确分割对优化治疗计划至关重要,但解剖学变异性、CT成像的低软组织对比度及有限标注数据带来了挑战。
  • Method: GynBTNet采用三阶段训练策略:自监督预训练、多器官分割数据集监督微调和针对妇科近距离放射治疗数据集的特定任务微调。
  • Result: GynBTNet在DSC、HD95和ASD指标上显著优于现有方法,如nnU-Net和Swin-UNETR,但对乙状结肠的分割仍具挑战性。
  • Conclusion: GynBTNet通过自监督预训练和分层微调,显著提升了分割性能,为临床提供了更优的解决方案。

[82] GThinker: Towards General Multimodal Reasoning via Cue-Guided Rethinking

Yufei Zhan,Ziheng Wu,Yousong Zhu,Rongkun Xue,Ruipu Luo,Zhenghao Chen,Can Zhang,Yifan Li,Zhentao He,Zheming Yang,Ming Tang,Minghui Qiu,Jinqiao Wang

Main category: cs.CV

TL;DR: GThinker是一种新型多模态推理模型,通过Cue-Rethinking模式和两阶段训练,显著提升视觉中心推理任务的性能。

  • Motivation: 现有MLLMs在视觉中心推理任务中表现不佳,主要依赖逻辑和知识推理,未能有效整合视觉信息。
  • Method: 提出Cue-Rethinking模式,结合视觉线索迭代推理;采用两阶段训练(模式引导冷启动和激励强化学习)。
  • Result: 在M3CoT基准测试中达到81.5%,优于O4-mini模型;通用场景推理提升2.1%,数学推理性能持平。
  • Conclusion: GThinker通过创新推理模式和训练方法,填补了通用多模态推理的数据和性能空白。

[83] Learning What Matters: Prioritized Concept Learning via Relative Error-driven Sample Selection

Shivam Chandhok,Qian Yang,Oscar Manas,Kanishk Jain,Leonid Sigal,Aishwarya Agrawal

Main category: cs.CV

TL;DR: PROGRESS是一种动态选择学习样本的框架,通过优先学习高进展技能,减少数据和计算需求。

  • Motivation: 解决视觉语言模型指令调优中数据标注和计算成本高的问题。
  • Method: 动态跟踪学习进展,选择未掌握且难度适中的样本,无需额外标注或计算密集型选择。
  • Result: 在多个数据集上优于现有方法,数据量和监督需求更低,且具有跨架构泛化能力。
  • Conclusion: PROGRESS是一种高效、可扩展的学习解决方案。

[84] Generic Token Compression in Multimodal Large Language Models from an Explainability Perspective

Lei Lei,Jie Gu,Xiaokang Ma,Chu Tang,Jingmin Chen,Tong Xu

Main category: cs.CV

TL;DR: 研究发现,通过适当选择,可以在LLM输入阶段压缩视觉令牌,性能损失可忽略。利用可解释性方法评估令牌重要性,并提出通过第一层LLM的注意力图学习映射,实现高效部署。实验证明,压缩50%令牌仍保留96%性能。

  • Motivation: 现有MLLMs处理大量视觉令牌导致计算成本高且效率低,研究旨在探索输入阶段令牌压缩的可行性。
  • Method: 利用可解释性方法评估令牌重要性,学习第一层LLM注意力图到解释结果的映射,使用轻量卷积网络实现。
  • Result: 在10个图像和视频基准测试中,压缩50%令牌仍保留96%性能,且泛化能力强。
  • Conclusion: 输入阶段令牌压缩可行且高效,显著降低计算成本,适用于多种MLLMs。

[85] Keystep Recognition using Graph Neural Networks

Julia Lee Romero,Kyle Min,Subarna Tripathi,Morteza Karimzadeh

Main category: cs.CV

TL;DR: 提出GLEVR框架,通过图学习实现细粒度关键步骤识别,利用长期依赖关系,结合多模态数据提升性能。

  • Motivation: 解决现有方法在细粒度关键步骤识别中未能有效利用长期依赖关系的问题。
  • Method: 将视频片段作为节点构建稀疏图,结合外中心视频对齐和自动字幕作为额外模态。
  • Result: 在Ego-Exo4D数据集上显著优于现有方法。
  • Conclusion: GLEVR框架通过图学习和多模态数据提升了关键步骤识别的性能。

[86] DeepVerse: 4D Autoregressive Video Generation as a World Model

Junyi Chen,Haoyi Zhu,Xianglong He,Yifan Wang,Jianjun Zhou,Wenzheng Chang,Yang Zhou,Zizun Li,Zhoujie Fu,Jiangmiao Pang,Tong He

Main category: cs.CV

TL;DR: DeepVerse是一种新型4D交互世界模型,通过显式结合几何预测,显著提升了时空一致性和预测准确性。

  • Motivation: 现有交互模型主要预测视觉观测,忽略了隐藏状态(如几何结构和空间一致性),导致误差累积和时间不一致。
  • Method: DeepVerse将前一时间步的几何预测显式结合到当前动作条件下的预测中。
  • Result: 实验表明,DeepVerse能捕捉更丰富的时空关系和物理动态,减少漂移,提升预测准确性和场景合理性。
  • Conclusion: DeepVerse通过几何感知动态实现了高保真、长时程预测,为几何感知记忆检索提供了有效解决方案。

[87] CountingFruit: Real-Time 3D Fruit Counting with Language-Guided Semantic Gaussian Splatting

Fengze Li,Yangle Liu,Jieming Ma,Hai-Ning Liang,Yaochun Shen,Huangxiang Li,Zhijing Wu

Main category: cs.CV

TL;DR: FruitLangGS是一种实时3D水果计数框架,通过空间重建、语义嵌入和语言引导实例估计,解决了现有方法在推理速度、泛化能力和语义控制方面的不足。

  • Motivation: 解决农业环境中水果计数的挑战,如视觉遮挡、语义模糊和高计算需求。
  • Method: 采用自适应高斯喷射管道进行场景重建,结合CLIP对齐的语言嵌入实现语义控制,并通过分布感知采样和聚类估计水果数量。
  • Result: 实验表明,FruitLangGS在渲染速度、语义灵活性和计数准确性上优于现有方法。
  • Conclusion: FruitLangGS为开放世界场景中的语言驱动实时神经渲染提供了新视角。

[88] Revolutionizing Radiology Workflow with Factual and Efficient CXR Report Generation

Pimchanok Sukjai,Apiradee Boonmee

Main category: cs.CV

TL;DR: 论文提出CXR-PathFinder,一种基于大型语言模型的自动化胸片报告生成方法,通过临床医生引导的对抗微调(CGAFT)和知识图增强模块(KGAM)提升诊断准确性和一致性。

  • Motivation: 医疗图像解读需求增长,需高效准确的人工智能解决方案提升放射诊断。
  • Method: 提出CGAFT训练范式,结合临床反馈和对抗学习;引入KGAM模块动态验证生成内容。
  • Result: CXR-PathFinder在多项指标上优于现有模型(如临床准确率Macro F1: 46.5),并通过放射科医生盲评验证其优越性。
  • Conclusion: CXR-PathFinder平衡诊断准确性与计算效率,为自动化医疗报告生成提供可靠解决方案。

[89] MOOSE: Pay Attention to Temporal Dynamics for Video Understanding via Optical Flows

Hong Nguyen,Dung Tran,Hieu Hoang,Phong Nguyen,Shrikanth Narayanan

Main category: cs.CV

TL;DR: MOOSE是一种新型视频编码器,通过结合光流和空间嵌入高效建模时间信息,减少计算复杂度并提升可解释性。

  • Motivation: 解决视频分析中时间动态建模的高计算成本和细粒度标注需求问题。
  • Method: 利用预训练的视觉和光流编码器,提出MOOSE架构,高效整合光流与空间嵌入。
  • Result: 在临床、医学和标准动作识别数据集上达到先进性能。
  • Conclusion: MOOSE高效且可解释,适用于多种视频分析任务。

[90] ProstaTD: A Large-scale Multi-source Dataset for Structured Surgical Triplet Detection

Yiliang Chen,Zhixi Li,Cheng Xu,Alex Qinyang Liu,Xuemiao Xu,Jeremy Yuen-Chun Teoh,Shengfeng He,Jing Qin

Main category: cs.CV

TL;DR: ProstaTD是一个大规模、多机构的手术三重检测数据集,解决了现有数据集在空间标注、时间标签和数据来源上的不足。

  • Motivation: 现有数据集(如CholecT50)在空间标注、时间标签和数据来源上存在局限性,影响模型泛化能力。
  • Method: 基于机器人辅助前列腺切除术领域,开发了ProstaTD数据集,提供临床定义的时间边界和高精度空间标注。
  • Result: 数据集包含60,529视频帧和165,567标注实例,来自21次手术,覆盖广泛手术实践和条件。
  • Conclusion: ProstaTD是目前最大且最多样化的手术三重数据集,为公平基准测试和可靠AI系统开发提供了基础。

[91] FlowMo: Variance-Based Flow Guidance for Coherent Motion in Video Generation

Ariel Shaulov,Itay Hazan,Lior Wolf,Hila Chefer

Main category: cs.CV

TL;DR: FlowMo是一种无需额外训练或辅助输入的训练自由引导方法,通过提取预训练模型预测中的时间表示来增强视频扩散模型的运动一致性。

  • Motivation: 现有的文本到视频扩散模型在建模时间方面(如运动、物理和动态交互)存在局限性,通常需要重新训练或引入外部条件信号。本文探索是否可以直接从预训练模型的预测中提取有意义的时间表示。
  • Method: FlowMo通过测量连续帧潜在之间的距离来提取外观去偏的时间表示,并通过测量时间维度上的块方差来估计运动一致性,动态引导模型在采样时减少方差。
  • Result: 实验表明,FlowMo显著提高了运动一致性,同时保持了视觉质量和提示对齐。
  • Conclusion: FlowMo为增强预训练视频扩散模型的时间保真度提供了一种有效的即插即用解决方案。

[92] SVarM: Linear Support Varifold Machines for Classification and Regression on Geometric Data

Emmanuel Hartman,Nicolas Charon

Main category: cs.CV

TL;DR: 论文提出SVarM方法,利用varifold表示形状,并结合神经网络实现分类和回归,性能优异且参数少。

  • Motivation: 几何数据的统计分析因形状空间的非欧几里得特性而具有挑战性,需要构建能结合不变性的机器学习框架。
  • Method: 利用varifold表示形状,并通过神经网络训练测试函数h,实现分类和回归。
  • Result: 在多种形状数据集上表现优异,性能接近SOTA方法,同时显著减少可训练参数。
  • Conclusion: SVarM提供了一种高效且通用的框架,适用于几何数据的统计建模。

[93] Perceptual Inductive Bias Is What You Need Before Contrastive Learning

Tianqin Li,Junru Zhao,Dunhan Jiang,Shenghao Wu,Alan Ramirez,Tai Sing Lee

Main category: cs.CV

TL;DR: 论文提出了一种基于David Marr多阶段视觉理论的预训练方法,通过先构建边界和表面级表示,再学习语义表示,提高了模型收敛速度和性能。

  • Motivation: 现有对比表示学习框架直接学习语义表示,忽略了视觉的归纳偏置,导致收敛慢和纹理偏差。
  • Method: 利用Marr的多阶段理论,先构建边界和表面级表示,再训练语义表示。
  • Result: ResNet18收敛速度提高2倍,语义分割、深度估计和物体识别性能提升,鲁棒性和分布外能力增强。
  • Conclusion: 提出在对比表示预训练前加入预训练阶段,利用人类视觉系统的归纳偏置提升表示质量和减少收敛时间。

[94] Self-Supervised Multi-View Representation Learning using Vision-Language Model for 3D/4D Facial Expression Recognition

Muzammil Behzad

Main category: cs.CV

TL;DR: SMILE-VLM是一种自监督视觉语言模型,用于3D/4D面部表情识别,通过多视角视觉表示学习和自然语言监督实现高性能。

  • Motivation: 面部表情识别在情感计算中有广泛应用,但现有方法需要大量标注数据且难以捕捉细微表情变化。
  • Method: 提出SMILE-VLM,结合多视角去相关、视觉语言对比对齐和跨模态冗余最小化三种核心组件。
  • Result: 在多个基准测试中达到最优性能,并在4D微表情识别任务中表现优异。
  • Conclusion: SMILE-VLM提供了一种高效且可扩展的解决方案,无需大量标注即可实现高性能。

[95] A Review on Coarse to Fine-Grained Animal Action Recognition

Ali Zia,Renuka Sharma,Abdelwahed Khamis,Xuesong Li,Muhammad Husnain,Numan Shafi,Saeed Anwar,Sabine Schmoelzl,Eric Stone,Lars Petersson,Vivien Rolland

Main category: cs.CV

TL;DR: 该综述深入探讨了动物行为识别领域,重点分析了粗粒度(CG)和细粒度(FG)技术,并比较了与人类行为识别的差异。

  • Motivation: 研究旨在评估动物行为识别的现状,并揭示在户外环境中识别细微动物行为的独特挑战,这些挑战与人类行为识别显著不同。
  • Method: 综述首先回顾了人类行为识别的发展,然后对比了人类与动物行为识别的关键差异,并评估了时空深度学习框架(如SlowFast)在动物行为分析中的效果。
  • Result: 研究发现动物行为识别面临高物种内变异性、非结构化数据集和自然环境复杂性等挑战,现有方法在细粒度识别上仍有局限。
  • Conclusion: 综述提出未来研究方向,旨在通过改进数据集和方法,提升跨物种行为分析的准确性和泛化能力。

[96] Dirty and Clean-Label attack detection using GAN discriminators

John Smutny

Main category: cs.CV

TL;DR: 使用GAN判别器保护单一类别的图像免受错误标签和修改图像的攻击,通过置信度评分阈值识别问题图像。

  • Motivation: 解决深度学习模型中因图像标签问题导致的行为风险,避免手动检查的繁琐和传统毒物检测方法的耗时问题。
  • Method: 利用GAN判别器训练单一类别,通过置信度评分设定阈值,识别错误标签和修改图像。
  • Result: 在扰动幅度为0.20时,能100%识别测试毒物图像,且通过阈值校准可有效分类。
  • Conclusion: 开发者可基于此方法训练判别器,保护高价值类别的图像数据。

[97] Fourier-Modulated Implicit Neural Representation for Multispectral Satellite Image Compression

Woojin Cho,Steve Andreas Immanuel,Junhyuk Heo,Darongsae Kwon

Main category: cs.CV

TL;DR: ImpliSat是一个基于隐式神经表示(INR)的统一框架,用于高效压缩和重建多光谱卫星数据,解决了高维度和多分辨率带来的挑战。

  • Motivation: 多光谱卫星图像在农业、渔业和环境监测中至关重要,但其高维度、大数据量和多分辨率特性给数据压缩和分析带来了挑战。
  • Method: 利用隐式神经表示(INR)将卫星图像建模为坐标空间上的连续函数,并引入傅里叶调制算法动态适应各波段的光谱和空间特性。
  • Result: 实现了高效压缩,同时保留了关键图像细节。
  • Conclusion: ImpliSat为多光谱卫星数据的压缩和分析提供了一种有效的解决方案。

[98] Visual Sparse Steering: Improving Zero-shot Image Classification with Sparsity Guided Steering Vectors

Gerasimos Chatzoudis,Zhuowei Li,Gemma E. Moran,Hao Wang,Dimitris N. Metaxas

Main category: cs.CV

TL;DR: VS2和VS2++是轻量级测试时方法,通过稀疏特征引导视觉模型,显著提升零样本CLIP的性能,并针对特定类别优化。PASS进一步通过原型对齐提升稀疏特征的相关性。

  • Motivation: 在动态或资源受限环境中,无需重新训练或大量标注数据即可引导视觉基础模型是一个重要但具有挑战性的目标。
  • Method: VS2使用稀疏自编码器学习的稀疏特征生成引导向量;VS2++通过检索增强选择性放大相关特征;PASS通过原型对齐损失优化稀疏特征。
  • Result: VS2在多个数据集上超越零样本CLIP,VS2++进一步显著提升性能,PASS在CIFAR-100上比VS2提升6.12%。
  • Conclusion: 稀疏引导方法有效提升模型性能,尤其针对特定类别,原型对齐进一步优化稀疏特征的相关性。

[99] ReFoCUS: Reinforcement-guided Frame Optimization for Contextual Understanding

Hosu Lee,Junho Kim,Hyunjun Kim,Yong Man Ro

Main category: cs.CV

TL;DR: ReFoCUS是一种通过强化学习优化视频帧选择的新框架,提升视频问答性能。

  • Motivation: 现有视频理解方法依赖静态启发式或外部检索模块,可能无法提供查询相关信息。
  • Method: 采用强化学习训练帧选择策略,利用参考LMM的奖励信号优化视觉输入选择。
  • Result: 在多个视频问答基准测试中显著提升推理性能。
  • Conclusion: ReFoCUS通过模型内部对齐帧选择,无需显式监督,有效提升视频理解能力。

[100] Abstractive Visual Understanding of Multi-modal Structured Knowledge: A New Perspective for MLLM Evaluation

Yichi Zhang,Zhuo Chen,Lingbing Guo,Yajing Xu,Min Zhang,Wen Zhang,Huajun Chen

Main category: cs.CV

TL;DR: 该论文提出了一种新的评估范式M3STR,用于测试多模态大语言模型(MLLMs)在结构化视觉知识理解方面的能力。

  • Motivation: 现有的MLLMs评估基准忽视了模型对结构化视觉知识的理解能力,因此作者提出了M3STR来填补这一空白。
  • Method: 通过多模态知识图谱生成包含多模态实体及其复杂关系的图像,构建M3STR基准,并评估26种先进MLLMs的表现。
  • Result: 研究发现MLLMs在处理结构化视觉知识时仍存在显著不足。
  • Conclusion: M3STR为提升MLLMs的整体推理能力指明了方向,代码和数据已开源。

[101] ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding

Yiyang Zhou,Yangfan He,Yaofeng Su,Siwei Han,Joel Jang,Gedas Bertasius,Mohit Bansal,Huaxiu Yao

Main category: cs.CV

TL;DR: ReAgent-V是一种新型的视频理解框架,通过动态反馈和多视角反思机制提升推理能力,解决了传统方法的局限性。

  • Motivation: 传统视频理解方法缺乏动态反馈,限制了模型的自我修正和适应能力。现有改进方法存在高标注成本、低推理效率等问题。
  • Method: 提出ReAgent-V框架,结合高效帧选择和实时奖励生成,通过多视角反思机制迭代优化答案。
  • Result: 在12个数据集上的实验显示,ReAgent-V在视频理解、推理增强和模型对齐任务中分别提升6.9%、2.1%和9.8%。
  • Conclusion: ReAgent-V轻量、模块化且可扩展,显著提升了视频理解的泛化能力和推理效果。

[102] SAM-I2V: Upgrading SAM to Support Promptable Video Segmentation with Less than 0.2% Training Cost

Haiyang Mei,Pengyu Zhang,Mike Zheng Shou

Main category: cs.CV

TL;DR: SAM-I2V是一种高效的图像到视频升级方法,显著降低了训练复杂性和资源需求,实现了接近SAM 2的性能。

  • Motivation: 扩展基础模型(如SAM)的视频分割能力面临训练成本高和资源需求大的挑战。
  • Method: 提出三种创新:图像到视频特征提取升级器、内存过滤策略和内存作为提示机制。
  • Result: 实验表明,SAM-I2V达到SAM 2性能的90%以上,仅需0.2%的训练成本。
  • Conclusion: SAM-I2V为视频分割提供了资源高效的解决方案,推动了该领域的进一步研究和应用。

[103] Ultra-High-Resolution Image Synthesis: Data, Method and Evaluation

Jinjin Zhang,Qiuyu Huang,Junjie Liu,Xiefan Guo,Di Huang

Main category: cs.CV

TL;DR: 论文提出了Aesthetic-4K数据集和Diffusion-4K框架,用于超高清图像合成,并引入新评估指标。

  • Motivation: 超高清图像合成潜力巨大但缺乏标准化基准和计算资源,因此需要新的数据集和方法。
  • Method: 提出Diffusion-4K框架,结合SC-VAE和WLF技术,直接生成4K图像,并引入GLCM Score等新评估指标。
  • Result: Diffusion-4K在超高清图像合成中表现优异,尤其是在大规模扩散模型支持下。
  • Conclusion: 该研究为超高清图像合成提供了新数据集、方法和评估标准,具有显著应用价值。

[104] A 2-Stage Model for Vehicle Class and Orientation Detection with Photo-Realistic Image Generation

Youngmin Kim,Donghwa Kang,Hyeongboo Baek

Main category: cs.CV

TL;DR: 提出了一种两阶段检测模型,通过生成逼真图像解决合成数据训练中类别不平衡和真实世界预测困难的问题。

  • Motivation: 训练数据中类别分布不平衡,且合成图像训练的模型难以预测真实世界图像。
  • Method: 1. 构建包含图像、类别和位置信息的表格;2. 将合成图像转换为真实世界风格并合并到元表格;3. 使用元表格分类车辆类别和方向;4. 结合位置信息和预测类别检测车辆。
  • Result: 在IEEE BigData Challenge 2022 VOD中取得第4名。
  • Conclusion: 两阶段模型结合逼真图像生成有效解决了合成数据训练的局限性。

[105] Rethinking Image Histogram Matching for Image Classification

Rikuto Otsuka,Yuho Shoji,Yuka Ogino,Takahiro Toizumi,Atsushi Ito

Main category: cs.CV

TL;DR: 本文重新思考图像直方图匹配(HM),提出了一种可微分和参数化的HM预处理方法,用于下游分类器。通过优化目标像素值分布,该方法在恶劣天气条件下提升了分类器性能。

  • Motivation: 卷积神经网络在分类任务中表现优异,但在低对比度图像(如恶劣天气条件下拍摄的图像)中性能下降。传统直方图均衡化(HE)虽常用,但其目标分布(均匀分布)可能并非最优。本文假设设计一个优化的目标分布可以提升分类器性能。
  • Method: 提出了一种可微分和参数化的HM方法,通过下游分类器的损失函数优化目标像素值分布。该方法仅需在正常天气图像上训练,即可适应恶劣天气条件。
  • Result: 实验结果表明,使用所提HM方法训练的分类器在恶劣天气条件下优于传统预处理方法。
  • Conclusion: 通过优化目标像素值分布,可微分和参数化的HM方法显著提升了分类器在恶劣天气条件下的性能。

[106] Target Driven Adaptive Loss For Infrared Small Target Detection

Yuho Shoji,Takahiro Toizumi,Atsushi Ito

Main category: cs.CV

TL;DR: 提出了一种目标驱动自适应(TDA)损失函数,用于提升红外小目标检测(IRSTD)性能,解决了现有损失函数在局部区域检测和小尺度低对比度目标上的不足。

  • Motivation: 现有损失函数(如二元交叉熵损失和IoU损失)在训练分割模型时,虽然能提取像素级特征或全局图像上下文,但无法有效提升目标周围局部区域的检测性能,且对小尺度和低局部对比度目标的鲁棒性不足。
  • Method: 提出TDA损失,引入基于块的机制和自适应调整策略,针对目标的尺度和局部对比度进行调整,使模型更关注目标周围局部区域,尤其是小尺度和低对比度目标。
  • Result: 在三个IRSTD数据集上的实验表明,TDA损失相比现有损失函数取得了更好的检测性能。
  • Conclusion: TDA损失通过聚焦局部区域和自适应调整策略,显著提升了红外小目标检测的性能,特别是在小尺度和低对比度目标上表现更优。

[107] CLIP-driven rain perception: Adaptive deraining with pattern-aware network routing and mask-guided cross-attention

Cong Guan,Osamu Yoshie

Main category: cs.CV

TL;DR: 提出了一种基于CLIP的雨模式感知网络(CLIP-RPN),通过视觉-语言匹配分数自适应路由到子网络处理不同雨模式,结合多尺度掩码引导交叉注意力(MGCA)和动态损失调度(DLS),显著提升了去雨性能。

  • Motivation: 现有去雨模型使用单一网络处理所有雨图像,但不同雨模式差异显著,单一网络难以应对多样性。
  • Method: 利用CLIP的跨模态对齐能力识别雨模式,动态激活子网络;引入MGCA机制预测多尺度雨掩码,并通过DLS动态调整梯度优化。
  • Result: 在多个数据集上达到最先进性能,尤其在复杂混合数据集中表现突出。
  • Conclusion: CLIP-RPN通过语义感知和自适应路由机制,有效提升了模型处理多样雨模式的能力。

[108] Synthetic Data Augmentation using Pre-trained Diffusion Models for Long-tailed Food Image Classification

GaYeon Koh,Hyun-Jic Oh,Jeonghyun Noh,Won-Ki Jeong

Main category: cs.CV

TL;DR: 提出了一种两阶段合成数据增强框架,利用预训练扩散模型解决长尾食物分类问题,通过正负提示条件生成合成数据,提升分类性能。

  • Motivation: 真实世界食物图像分布不均,导致模型偏向多数类,少数类性能下降。合成数据增强是潜在解决方案,但现有方法存在不足。
  • Method: 两阶段框架:首先生成参考集,再通过正负提示条件和组合采样策略生成合成数据,增强类内多样性和类间分离。
  • Result: 在两个长尾食物基准数据集上表现优异,top-1准确率优于先前工作。
  • Conclusion: 提出的方法有效解决了长尾食物分类问题,通过合成数据增强提升了模型性能。

[109] PointT2I: LLM-based text-to-image generation via keypoints

Taekyung Lee,Donggyu Lee,Myungjoo Kang

Main category: cs.CV

TL;DR: PointT2I是一个利用大语言模型(LLM)生成与文本提示中人体姿势准确对应的图像的框架。

  • Motivation: 尽管T2I生成模型能生成高质量图像,但在处理复杂概念(如人体姿势)时仍存在挑战。
  • Method: 框架包含三个部分:关键点生成(使用LLM)、图像生成(结合文本和关键点)和反馈系统(LLM评估语义一致性)。
  • Result: 无需微调即可生成准确姿势对齐的图像。
  • Conclusion: PointT2I是首个利用LLM进行关键点引导图像生成的框架。

[110] SVQA-R1: Reinforcing Spatial Reasoning in MLLMs via View-Consistent Reward Optimization

Peiyao Wang,Haibin Ling

Main category: cs.CV

TL;DR: SVQA-R1是一个基于R1范式的框架,通过空间分组强化学习提升视觉语言模型在空间视觉问答任务中的表现。

  • Motivation: 现有视觉语言模型在空间推理能力上不足,尤其是需要理解相对位置、距离和物体配置的空间视觉问答任务。
  • Method: 引入Spatial-GRPO,一种通过扰动物体间空间关系(如镜像翻转)构建视图一致奖励的分组强化学习策略。
  • Result: SVQA-R1在空间视觉问答基准测试中显著提升准确性,并展现出可解释的推理路径。
  • Conclusion: SVQA-R1通过新颖的强化学习策略有效提升了空间推理能力,无需监督微调数据。

[111] No Train Yet Gain: Towards Generic Multi-Object Tracking in Sports and Beyond

Tomasz Stanczyk,Seongro Yoon,Francois Bremond

Main category: cs.CV

TL;DR: McByte是一种无需训练的多目标跟踪框架,通过整合时间传播的分割掩码提升鲁棒性,适用于体育和行人跟踪。

  • Motivation: 体育分析中的多目标跟踪面临快速运动、遮挡和相机移动等挑战,传统方法需要大量调参或难以处理轨迹。
  • Method: McByte结合时间传播的分割掩码作为关联线索,无需训练,仅依赖预训练模型和通用目标检测器。
  • Result: 在SportsMOT、DanceTrack、SoccerNet-tracking 2022和MOT17上表现优异,验证了其鲁棒性和通用性。
  • Conclusion: McByte展示了掩码传播在多目标跟踪中的优势,提供了一种更适应性强且通用的解决方案。

[112] RadarSplat: Radar Gaussian Splatting for High-Fidelity Data Synthesis and 3D Reconstruction of Autonomous Driving Scenes

Pou-Chun Kung,Skanda Harisha,Ram Vasudevan,Aline Eid,Katherine A. Skinner

Main category: cs.CV

TL;DR: RadarSplat结合高斯散射与新型雷达噪声建模,提升3D场景重建和雷达数据合成的真实性,显著优于现有方法。

  • Motivation: 雷达在恶劣天气中表现优异,但现有方法在噪声场景下效果不佳,且无法合成真实雷达数据。
  • Method: 提出RadarSplat,整合高斯散射与雷达噪声建模,实现更真实的雷达数据合成和3D重建。
  • Result: PSNR提升3.4,SSIM提高2.6倍,几何重建误差降低40%,精度提高1.5倍。
  • Conclusion: RadarSplat在雷达数据合成和场景重建方面表现出色,为自动驾驶提供了更可靠的工具。

[113] Playing with Transformer at 30+ FPS via Next-Frame Diffusion

Xinle Cheng,Tianyu He,Jiayi Xu,Junliang Guo,Di He,Jiang Bian

Main category: cs.CV

TL;DR: NFD是一种自回归扩散变换器,通过块级因果注意力和并行令牌生成实现高效推理,结合一致性蒸馏和推测采样技术,首次在A100 GPU上以30 FPS实现自回归视频生成。

  • Motivation: 解决自回归视频模型在实时生成中的高计算成本和硬件效率问题。
  • Method: 提出Next-Frame Diffusion (NFD),结合块级因果注意力和并行令牌生成;引入一致性蒸馏和推测采样技术。
  • Result: NFD在视觉质量和采样效率上优于基线,首次实现30 FPS的自回归视频生成。
  • Conclusion: NFD通过技术创新显著提升了自回归视频生成的效率和性能。

[114] VRD-IU: Lessons from Visually Rich Document Intelligence and Understanding

Yihao Ding,Soyeon Caren Han,Yan Li,Josiah Poon

Main category: cs.CV

TL;DR: VRD-IU竞赛聚焦于从多格式表单中提取和定位关键信息,展示了多种先进方法,并在VRDU领域设定了新基准。

  • Motivation: 解决表单类文档因复杂布局、多利益相关方参与和高结构可变性带来的挑战。
  • Method: 竞赛分为Track A(基于实体的关键信息检索)和Track B(端到端关键信息定位),采用分层分解、基于Transformer的检索、多模态特征融合和高级目标检测技术。
  • Result: 超过20个团队参与,展示了多种先进方法,并设定了VRDU领域的新基准。
  • Conclusion: 竞赛为文档智能提供了宝贵见解,推动了VRDU领域的发展。

[115] Neural shape reconstruction from multiple views with static pattern projection

Ryo Furukawa,Kota Nishihara,Hiroshi Kawasaki

Main category: cs.CV

TL;DR: 提出了一种基于主动立体视觉的3D形状测量方法,通过动态校准相机和投影仪的相对位姿,提高系统灵活性。

  • Motivation: 传统主动立体系统需要固定相机和投影仪,校准复杂,限制了其使用便捷性。
  • Method: 使用神经符号距离场(NeuralSDF)和新型体积微分渲染技术,动态校准相机和投影仪的位姿,实现多图像捕获下的3D重建。
  • Result: 实验通过合成和真实图像验证了方法的有效性。
  • Conclusion: 该方法显著提升了主动立体系统的灵活性和实用性。

[116] ViTA-PAR: Visual and Textual Attribute Alignment with Attribute Prompting for Pedestrian Attribute Recognition

Minjeong Park,Hongbeen Park,Jinkyu Kim

Main category: cs.CV

TL;DR: ViTA-PAR通过视觉和文本属性对齐及属性提示,提升行人属性识别性能,支持从全局到局部的多粒度特征捕捉。

  • Motivation: 现有方法局限于固定水平区域的属性识别,导致属性出现在不同位置时性能下降。
  • Method: 提出视觉属性提示和可学习的文本提示模板,对齐视觉与文本特征。
  • Result: 在四个基准测试中表现优异,推理高效。
  • Conclusion: ViTA-PAR通过多模态提示和对齐,显著提升了行人属性识别的鲁棒性和准确性。

[117] Incentivizing Reasoning for Advanced Instruction-Following of Large Language Models

Yulei Qin,Gang Li,Zongyi Li,Zihan Xu,Yuchen Shi,Zhekai Lin,Xiao Cui,Ke Li,Xing Sun

Main category: cs.CV

TL;DR: 论文提出了一种系统性方法,通过激励推理提升大语言模型(LLM)处理复杂指令的能力,解决了传统链式思维(CoT)的浅层推理问题。

  • Motivation: 现有LLM在处理包含并行、链式和分支结构的复杂指令时表现不佳,传统CoT方法因浅层推理反而降低性能。
  • Method: 1. 分解复杂指令并设计可复现的数据获取方法;2. 利用强化学习(RL)和可验证的规则奖励信号培养推理能力;3. 通过样本对比和行为克隆优化推理。
  • Result: 在七个基准测试中,1.5B参数的LLM性能提升11.74%,接近8B参数模型。
  • Conclusion: 该方法有效提升了LLM处理复杂指令的能力,为推理优化提供了新思路。

[118] DNAEdit: Direct Noise Alignment for Text-Guided Rectified Flow Editing

Chenxi Xie,Minghan Li,Shuai Li,Yuhui Wu,Qiaosi Yi,Lei Zhang

Main category: cs.CV

TL;DR: 提出了一种名为DNAEdit的方法,通过直接优化噪声域中的高斯噪声,减少误差累积,并结合Mobile Velocity Guidance(MVG)实现图像编辑。

  • Motivation: 传统扩散方法和基于rectified flow(RF)的方法在图像编辑中因逐步加噪导致误差累积,影响重建精度。
  • Method: 提出Direct Noise Alignment(DNA)直接优化高斯噪声,并通过MVG平衡背景保留和目标编辑。
  • Result: 实验证明DNAEdit在文本引导的图像编辑中优于现有方法。
  • Conclusion: DNAEdit通过减少误差累积和引入MVG,显著提升了图像编辑性能。

[119] Semantic Palette-Guided Color Propagation

Zi-Yu Zhang,Bing-Feng Seng,Ya-Feng Du,Kang Li,Zhe-Cheng Wang,Zheng-Jun Du

Main category: cs.CV

TL;DR: 提出了一种基于语义调色板的颜色传播方法,通过提取语义调色板并优化能量函数,实现内容感知的局部颜色编辑。

  • Motivation: 传统方法依赖低层视觉线索(如颜色、纹理或亮度)衡量像素相似性,难以实现内容感知的颜色传播;而现有引入语义信息的方法常导致全局颜色调整不自然。
  • Method: 首先从输入图像中提取语义调色板,然后通过优化设计的能量函数生成编辑后的调色板,最后将局部编辑准确传播到语义相似的区域。
  • Result: 实验证明该方法能高效且精确地实现像素级颜色编辑,确保颜色传播具有内容感知性。
  • Conclusion: 提出的语义调色板引导方法克服了传统方法的局限性,实现了自然且内容感知的颜色传播。

[120] MS-RAFT-3D: A Multi-Scale Architecture for Recurrent Image-Based Scene Flow

Jakob Schmid,Azin Jahedi,Noah Berenguel Senn,Andrés Bruhn

Main category: cs.CV

TL;DR: 该论文提出了一种多尺度方法,将光流中的层次化思想推广到基于图像的场景流中,显著提升了性能。

  • Motivation: 尽管多尺度概念在光流和立体视觉的循环网络架构中已证明有效,但在基于图像的场景流中尚未被探索。
  • Method: 基于单尺度循环场景流主干,开发了多尺度方法,改进了特征和上下文编码器、粗到细框架及训练损失。
  • Result: 在KITTI和Spring数据集上分别以8.7%和65.8%的优势超越了当前最佳性能。
  • Conclusion: 多尺度方法在场景流任务中表现出色,代码已开源。

[121] A Novel Context-Adaptive Fusion of Shadow and Highlight Regions for Efficient Sonar Image Classification

Kamal Basha S,Anukul Kiran B,Athira Nambiar,Suresh Rajendran

Main category: cs.CV

TL;DR: 提出了一种上下文自适应的声纳图像分类框架,结合阴影和高光特征,并引入阴影分类器和去噪模型,提升了分类鲁棒性和图像质量。

  • Motivation: 现有研究主要关注高光区域,而阴影区域的分类研究不足,限制了水下探测的准确性。
  • Method: 提出上下文自适应分类框架,包括阴影分类器、自适应阴影分割和区域感知去噪模型,并结合新数据集S3Simulator+。
  • Result: 框架优化了特征表示,提升了分类鲁棒性和图像质量,同时增强了模型的解释性和可靠性。
  • Conclusion: 通过新分类策略和增强数据集,解决了声纳图像分析中的关键挑战,推动了水下自主感知的发展。

[122] DiffuseSlide: Training-Free High Frame Rate Video Generation Diffusion

Geunmin Hwang,Hyun-kyu Ko,Younghyun Kim,Seungryong Lee,Eunbyung Park

Main category: cs.CV

TL;DR: 论文提出了一种无需训练的DiffuseSlide方法,利用预训练扩散模型生成高帧率视频,解决了现有方法在长序列中的闪烁和质量下降问题。

  • Motivation: 高帧率视频生成面临闪烁和长序列质量下降的挑战,现有方法计算效率低且难以保持视频质量。
  • Method: DiffuseSlide通过关键帧提取、噪声重注入和滑动窗口潜在去噪技术,无需额外微调即可生成高质量视频。
  • Result: 实验表明,该方法显著提升了视频质量,增强了时间一致性和空间保真度。
  • Conclusion: DiffuseSlide计算高效且适用于多种视频生成任务,适合虚拟现实、游戏和高质量内容创作。

[123] Towards Scalable Video Anomaly Retrieval: A Synthetic Video-Text Benchmark

Shuyu Yang,Yilun Wang,Yaxiong Wang,Li Zhu,Zhedong Zheng

Main category: cs.CV

TL;DR: SVTA是一个通过生成模型解决视频异常检索数据稀缺和隐私问题的大规模合成数据集。

  • Motivation: 解决现有数据集在数据稀缺和隐私问题上的局限性。
  • Method: 利用LLM生成异常描述,指导视频生成模型创建多样化高质量视频。
  • Result: SVTA包含41,315个视频(1.36M帧),覆盖30种正常活动和68种异常事件。
  • Conclusion: SVTA有效评估跨模态检索方法,同时避免隐私风险。

[124] Sheep Facial Pain Assessment Under Weighted Graph Neural Networks

Alam Noor,Luis Almeida,Mohamed Daoudi,Kai Li,Eduardo Tovar

Main category: cs.CV

TL;DR: 论文提出了一种基于加权图神经网络(WGNN)的模型,用于通过羊的面部标志点检测和预测疼痛水平,并创建了一个新的羊面部标志点数据集。

  • Motivation: 准确识别和评估羊的疼痛对动物健康和福利至关重要,但现有方法在自动监测方面存在局限性。
  • Method: 使用WGNN模型结合羊面部标志点数据,并采用YOLOv8n检测器进行面部标志点检测。
  • Result: YOLOv8n检测器的mAP为59.30%,WGNN模型在跟踪面部表情时的准确率为92.71%。
  • Conclusion: 该方法为羊的疼痛自动监测提供了高效工具,并填补了GNN在羊面部标志点数据应用上的空白。

[125] SemiVT-Surge: Semi-Supervised Video Transformer for Surgical Phase Recognition

Yiping Li,Ronald de Jong,Sahar Nasirihaghighi,Tim Jaspers,Romy van Jaarsveld,Gino Kuiper,Richard van Hillegersberg,Fons van der Sommen,Jelle Ruurda,Marcel Breeuwer,Yasmina Al Khalil

Main category: cs.CV

TL;DR: 提出了一种基于视频Transformer的模型,结合伪标签框架,利用未标记数据提升手术阶段识别的性能。

  • Motivation: 手术视频标注耗时,研究旨在通过半监督学习减少标注需求,同时保持高性能。
  • Method: 采用视频Transformer模型,结合时间一致性正则化和对比学习,利用伪标签优化特征空间。
  • Result: 在RAMIE数据集上准确率提升4.9%,在Cholec80上仅用1/4标注数据达到全监督可比结果。
  • Conclusion: 为半监督手术阶段识别设定了强基准,推动未来研究。

[126] Unlocking Aha Moments via Reinforcement Learning: Advancing Collaborative Visual Comprehension and Generation

Kaihang Pan,Yang Wu,Wendong Bu,Kai Shen,Juncheng Li,Yingting Wang,Yunfei Li,Siliang Tang,Jun Xiao,Fei Wu,Hang Zhao,Yueting Zhuang

Main category: cs.CV

TL;DR: 论文提出了一种方法,通过协同进化视觉理解和生成能力,将图像生成提升为迭代自省过程,采用两阶段训练方法,最终在文本到图像生成和图像编辑任务中表现出色。

  • Motivation: 当前多模态大语言模型(MLLMs)中视觉理解和生成能力相互独立,未能相互增强,限制了图像生成的潜力。
  • Method: 提出两阶段训练方法:监督微调教授MLLM生成视觉生成的真实CoT,强化学习通过探索-利用权衡激活其潜力。
  • Result: 模型在文本到图像生成、图像编辑任务中表现优异,同时具备更强的图像语义评估能力。
  • Conclusion: 该方法成功实现了视觉理解和生成的协同进化,推动了MLLMs在图像生成领域的统一应用。

[127] FDSG: Forecasting Dynamic Scene Graphs

Yi Yang,Yuren Cong,Hao Cheng,Bodo Rosenhahn,Michael Ying Yang

Main category: cs.CV

TL;DR: 论文提出FDSG框架,用于预测未来帧中的实体标签、边界框和关系,同时为观察帧生成场景图,优于现有方法。

  • Motivation: 现有方法未能有效建模实体和关系的动态变化,限制了视频场景理解能力。
  • Method: FDSG框架结合查询分解和神经随机微分方程建模动态,并通过时间聚合模块优化预测。
  • Result: 在Action Genome数据集上,FDSG在动态场景图生成、预测和前瞻任务中表现优于现有方法。
  • Conclusion: FDSG为未来场景图预测任务提供了新基准,显著提升了动态场景理解能力。

[128] Efficiency without Compromise: CLIP-aided Text-to-Image GANs with Increased Diversity

Yuya Kobayashi,Yuhta Takida,Takashi Shibuya,Yuki Mitsufuji

Main category: cs.CV

TL;DR: SCAD模型通过结合预训练模型和专用判别器,显著降低了文本到图像GAN的训练成本,同时保持了生成多样性和样本保真度。

  • Motivation: 降低大规模GAN的训练成本,同时避免生成多样性的损失。
  • Method: 提出SCAD模型,使用两个专用判别器和Slicing Adversarial Networks(SANs)来优化文本到图像任务。
  • Result: SCAD在显著降低训练成本的同时,生成多样性和样本保真度优于现有方法。
  • Conclusion: SCAD为高效高保真的文本到图像生成提供了可行方案。

[129] Enhancing Diffusion-based Unrestricted Adversarial Attacks via Adversary Preferences Alignment

Kaixun Jiang,Zhaoyu Chen,Haijing Guo,Jinglun Li,Jiyuan Fu,Pinxue Guo,Hao Tang,Bo Li,Wenqiang Zhang

Main category: cs.CV

TL;DR: 论文提出APA框架,通过两阶段优化解决对抗性偏好对齐问题,提升攻击可迁移性并保持视觉一致性。

  • Motivation: 研究对抗性偏好对齐问题,解决视觉一致性与攻击效果之间的冲突。
  • Method: APA框架分两阶段:第一阶段优化视觉一致性,第二阶段基于替代分类器反馈优化攻击效果。
  • Result: APA显著提升攻击可迁移性,同时保持高视觉一致性。
  • Conclusion: APA为对抗性攻击研究提供了新的对齐视角,启发未来研究。

[130] Speed-up of Vision Transformer Models by Attention-aware Token Filtering

Takahiro Naruko,Hiroaki Akutsu

Main category: cs.CV

TL;DR: 提出了一种名为ATF的新方法,用于加速ViT模型,通过动态和静态过滤策略减少计算负担,同时保持任务准确性。

  • Motivation: ViT模型在图像嵌入提取中表现出色,但计算负担高,需要一种高效的加速方法。
  • Method: ATF包含一个令牌过滤模块和过滤策略,动态保留特定对象类型的令牌,静态保留高注意力区域的令牌。
  • Result: 在检索任务中,ATF将ViT模型SigLIP的速度提高了2.8倍,同时保持检索召回率。
  • Conclusion: ATF是一种有效的ViT加速方法,能在不牺牲准确性的情况下显著提升速度。

[131] Beyond black and white: A more nuanced approach to facial recognition with continuous ethnicity labels

Pedro C. Neto,Naser Damer,Jaime S. Cardoso,Ana F. Sequeira

Main category: cs.CV

TL;DR: 论文提出将种族标签从离散值改为连续变量,以更准确地平衡数据集,并证明连续空间平衡的数据集训练出的模型性能更优。

  • Motivation: 现有方法对数据偏见的缓解有限,未能深入理解问题的本质。
  • Method: 将种族标签视为连续变量,而非离散值,并通过实验和理论验证其有效性。
  • Result: 连续空间平衡的数据集训练出的模型性能优于离散空间平衡的数据集。
  • Conclusion: 种族标签的连续化处理能更有效地平衡数据集,提升模型性能。

[132] G4Seg: Generation for Inexact Segmentation Refinement with Diffusion Models

Tianjiao Zhang,Fei Zhang,Jiangchao Yao,Ya Zhang,Yanfeng Wang

Main category: cs.CV

TL;DR: 本文提出了一种利用大规模文本到图像扩散模型解决不精确分割任务的方法,通过生成差异实现粗到细的分割优化。

  • Motivation: 传统方法依赖判别模型或密集视觉表示,而本文旨在探索生成模型(如Stable Diffusion)的内在先验来解决分割问题。
  • Method: 利用原始图像与掩码条件生成图像之间的模式差异,通过语义对齐和前景概率更新实现分割优化。
  • Result: 实验验证了该方法的有效性和优越性,展示了生成差异在密集表示建模中的潜力。
  • Conclusion: 生成方法在解决判别任务中具有潜力,鼓励进一步探索。

[133] LongDWM: Cross-Granularity Distillation for Building a Long-Term Driving World Model

Xiaodong Wang,Zhirong Wu,Peixi Peng

Main category: cs.CV

TL;DR: 提出了一种分层解耦和自监督蒸馏方法,用于构建长期驾驶世界模型,显著提升了视频生成的一致性和效率。

  • Motivation: 当前驾驶世界模型在长期预测中存在误差累积问题,且训练与推理之间存在差距,限制了实际应用。
  • Method: 分层解耦为大规模运动学习和双向连续运动学习,并通过自监督蒸馏方法提升视频生成的连贯性。
  • Result: 在NuScenes基准测试中,FVD提升了27%,推理时间减少了85%,能生成110+帧的连贯视频。
  • Conclusion: 该方法有效解决了长期视频生成的连贯性问题,显著提升了性能与效率。

[134] EvolveNav: Self-Improving Embodied Reasoning for LLM-Based Vision-Language Navigation

Bingqian Lin,Yunshuang Nie,Khun Loun Zai,Ziming Wei,Mingfei Han,Rongtao Xu,Minzhe Niu,Jianhua Han,Liang Lin,Cewu Lu,Xiaodan Liang

Main category: cs.CV

TL;DR: EvolveNav是一个两阶段的自改进框架,通过形式化的CoT监督微调和自反思后训练,提升基于LLM的视觉语言导航能力。

  • Motivation: 现有方法直接映射输入输出,导致导航决策难以解释且学习困难,CoT训练虽能提升准确性和可解释性,但完美CoT标签难以获取且易过拟合。
  • Method: 提出EvolveNav框架,包括形式化CoT监督微调和自反思后训练两阶段,利用自身推理输出作为自增强CoT标签。
  • Result: 在VLN基准测试中表现优于现有基于LLM的VLN方法。
  • Conclusion: EvolveNav通过自改进框架显著提升了导航推理能力和监督多样性。

[135] SAM2-LOVE: Segment Anything Model 2 in Language-aided Audio-Visual Scenes

Yuji Wang,Haoran Xu,Yong Liu,Jiaze Li,Yansong Tang

Main category: cs.CV

TL;DR: SAM2-LOVE框架通过多模态融合和时空一致性策略,显著提升了Ref-AVS任务的性能。

  • Motivation: 解决现有双模态和三模态方法在Ref-AVS任务中因缺乏第三模态或时空不一致导致的目标偏移问题。
  • Method: 提出SAM2-LOVE框架,融合文本、音频和视觉表示,采用多模态融合模块及令牌传播与累积策略。
  • Result: 在Ref-AVS基准测试中,SAM2-LOVE比SOTA方法性能提升8.5%。
  • Conclusion: SAM2-LOVE框架简单有效,显著提升了多模态场景下的像素级分割性能。

[136] HOSIG: Full-Body Human-Object-Scene Interaction Generation with Hierarchical Scene Perception

Wei Yao,Yunlian Sun,Hongwen Zhang,Yebin Liu,Jinhui Tang

Main category: cs.CV

TL;DR: HOSIG框架通过分层场景感知合成全身交互,解决了现有方法忽略场景上下文的问题,结合局部几何约束和导航算法,生成高保真交互。

  • Motivation: 现有方法在人类-物体交互中常忽略场景上下文,导致不合理的穿透,而人类-场景交互方法难以协调精细操作与长距离导航。
  • Method: HOSIG框架分为三部分:场景感知抓取姿势生成器、启发式导航算法和场景引导运动扩散模型。
  • Result: 在TRUMANS数据集上表现优于现有方法,支持无限运动长度且需最少人工干预。
  • Conclusion: HOSIG填补了场景感知导航与灵巧物体操作间的关键空白,推动了交互合成的前沿。

[137] Multi-Modal Dataset Distillation in the Wild

Zhuohang Dang,Minnan Luo,Chengyou Jia,Hangwei Qian,Xiaojun Chang,Ivor W. Tsang

Main category: cs.CV

TL;DR: MDW框架通过蒸馏多模态数据集解决大规模数据存储和噪声问题,提升模型训练效率和性能。

  • Motivation: 多模态模型训练需要大规模数据集,但存储成本高且数据噪声严重,影响模型性能。
  • Method: 提出MDW框架,通过可学习的细粒度对应关系和双轨协作学习,优化蒸馏数据并避免噪声。
  • Result: 实验显示MDW在多种压缩比下性能超越先前方法15%以上,具有显著可扩展性。
  • Conclusion: MDW为多模态模型训练提供高效、抗噪声的解决方案,具有广泛实用性。

[138] EPFL-Smart-Kitchen-30: Densely annotated cooking dataset with 3D kinematics to challenge video and language models

Andy Bonnetto,Haozhe Qi,Franklin Leong,Matea Tashkovska,Mahdi Rad,Solaiman Shokur,Friedhelm Hummel,Silvestro Micera,Marc Pollefeys,Alexander Mathis

Main category: cs.CV

TL;DR: EPFL-Smart-Kitchen-30数据集是一个多模态厨房行为数据集,用于研究人类复杂动作,包含多视角同步数据,并提出了四个基准测试。

  • Motivation: 厨房是研究人类运动和认知功能的理想环境,但缺乏高质量的多模态数据集。
  • Method: 使用RGB-D相机、IMU和HoloLens~2头显采集16名受试者在厨房中的多模态数据,并进行密集标注。
  • Result: 数据集包含29.7小时的多模态数据,并提出了四个行为理解和建模的基准测试。
  • Conclusion: 该数据集有望推动生态有效人类行为理解的方法和见解。

[139] Visual Explanation via Similar Feature Activation for Metric Learning

Yi Liao,Ugochukwu Ejike Akpudo,Jue Zhang,Yongsheng Gao,Jun Zhou,Wenyi Zeng,Weichuan Zhang

Main category: cs.CV

TL;DR: 论文提出了一种新的视觉解释方法SFAM,用于解决现有CAM方法无法直接应用于度量学习模型的问题。

  • Motivation: 现有CAM方法依赖全连接层作为分类器,无法直接用于度量学习模型,因此需要一种新的解释方法。
  • Method: 提出SFAM方法,通过通道贡献重要性分数(CIS)衡量特征重要性,并基于CNN特征图构建解释图。
  • Result: 实验表明,SFAM能为使用欧氏距离或余弦相似度的CNN模型提供高度可解释的视觉解释。
  • Conclusion: SFAM是一种有效的视觉解释方法,适用于度量学习模型。

[140] Zoom-Refine: Boosting High-Resolution Multimodal Understanding via Localized Zoom and Self-Refinement

Xuan Yu,Dayan Guan,Michael Ying Yang,Yanfeng Gu

Main category: cs.CV

TL;DR: Zoom-Refine是一种无需训练的方法,通过局部放大和自我优化提升多模态大语言模型(MLLM)对高分辨率图像的细粒度理解能力。

  • Motivation: MLLM在处理高分辨率图像时难以准确捕捉细节,影响复杂视觉理解。
  • Method: 采用局部放大(Localized Zoom)和自我优化(Self-Refinement)的协同过程,利用MLLM的固有能力进行空间定位和上下文推理。
  • Result: 在多个高分辨率多模态基准测试中表现优异。
  • Conclusion: Zoom-Refine有效提升了MLLM对高分辨率图像的理解能力,无需额外训练或外部专家。

[141] EarthMind: Towards Multi-Granular and Multi-Sensor Earth Observation with Large Multimodal Models

Yan Shu,Bin Ren,Zhitong Xiong,Danda Pani Paudel,Luc Van Gool,Begum Demir,Nicu Sebe,Paolo Rota

Main category: cs.CV

TL;DR: EarthMind是一个新型视觉-语言框架,用于多粒度和多传感器地球观测(EO)数据理解,通过空间注意力提示和跨模态融合提升性能。

  • Motivation: 现有大型多模态模型(LMMs)在理解地球观测数据方面表现不足,而EO数据对环境监测至关重要。
  • Method: EarthMind包含两个核心组件:空间注意力提示(SAP)和跨模态融合,并提出了EarthMind-Bench基准。
  • Result: EarthMind在EarthMind-Bench上表现优于GPT-4o,并在多个公共EO基准上超越现有方法。
  • Conclusion: EarthMind展示了在多粒度和多传感器挑战中的潜力,为EO数据理解提供了统一框架。

[142] MotionSight: Boosting Fine-Grained Motion Understanding in Multimodal LLMs

Yipeng Du,Tiehan Fan,Kepan Nan,Rui Xie,Penghao Zhou,Xiang Li,Jian Yang,Zhenheng Yang,Ying Tai

Main category: cs.CV

TL;DR: 论文提出MotionSight,一种零样本方法,通过视觉提示提升多模态大语言模型(MLLMs)在细粒度视频运动理解中的表现,并发布了首个大规模数据集MotionVid-QA。

  • Motivation: 现有MLLMs在细粒度视频运动理解中存在局限,缺乏帧间差异分析且忽略细微视觉线索,视觉提示在视频中的应用尚未充分探索。
  • Method: 提出MotionSight,利用物体中心视觉聚焦和运动模糊作为视觉提示,无需训练即可提升运动理解;构建MotionVid-QA数据集,包含40K视频片段和87K问答。
  • Result: MotionSight在开源模型中表现最佳,与商业模型竞争;细粒度运动理解方面提出零样本技术和大规模高质量数据集。
  • Conclusion: MotionSight和MotionVid-QA为MLLMs的细粒度视频运动理解提供了有效工具和数据支持,代码和标注将公开。

[143] SteerPose: Simultaneous Extrinsic Camera Calibration and Matching from Articulation

Sang-Eun Lee,Ko Nishino,Shohei Nobuhara

Main category: cs.CV

TL;DR: SteerPose是一种神经网络方法,通过旋转2D姿态进行多相机校准和对应关系搜索,结合几何一致性损失,验证了其在野外数据集上的有效性。

  • Motivation: 研究人类和动物是否可以作为多相机系统的校准目标,并同时估计跨视图的对应关系,受人类认知能力的启发。
  • Method: 提出SteerPose神经网络,通过旋转2D姿态到另一视图,结合可微分匹配和几何一致性损失,实现相机校准和对应关系搜索。
  • Result: 在野外数据集上验证了方法的有效性和鲁棒性,并能重建新动物的3D姿态。
  • Conclusion: SteerPose提供了一种统一的框架,适用于多相机系统校准和3D姿态重建。

[144] Data Pruning by Information Maximization

Haoru Tan,Sitong Wu,Wei Huang,Shizhen Zhao,Xiaojuan Qi

Main category: cs.CV

TL;DR: InfoMax是一种新型数据修剪方法,通过最大化信息内容和最小化冗余来优化核心集。

  • Motivation: 提高核心集的信息量,减少冗余样本对模型学习的影响。
  • Method: 使用重要性评分衡量样本信息,通过相似性量化冗余,将问题形式化为离散二次规划任务,并采用梯度求解器和稀疏化技术。
  • Result: 在图像分类、视觉语言预训练和大语言模型指令调优等任务中表现优异。
  • Conclusion: InfoMax能高效处理大规模数据集,显著提升核心集的信息量。

[145] Active Learning via Vision-Language Model Adaptation with Open Data

Tong Wang,Jiaqi Wang,Shu Kong

Main category: cs.CV

TL;DR: 论文提出了一种名为ALOR的方法,通过利用公开数据和VLM提升主动学习效果,并对比了多种模型适应方法,发现对比调优(CT)表现最佳。此外,还提出了一种简单有效的TFS策略,显著优于现有方法。

  • Motivation: 减少数据标注成本,同时利用公开数据和VLM的潜力,提升主动学习的效果。
  • Method: 结合公开数据检索任务相关示例,对比多种模型适应方法(PT、LP、FT、CT),并提出TFS策略优先标注少数类数据。
  • Result: CT方法表现最佳,结合检索数据和TFS策略显著提升了主动学习性能。
  • Conclusion: ALOR方法通过公开数据和CT调优,结合TFS策略,显著优于现有方法。

[146] VideoCap-R1: Enhancing MLLMs for Video Captioning via Structured Thinking

Desen Meng,Rui Huang,Zhilin Dai,Xinhao Li,Yifan Xu,Jun Zhang,Zhenpeng Huang,Meng Zhang,Lingshu Zhang,Yi Liu,Limin Wang

Main category: cs.CV

TL;DR: 本文提出了一种基于GRPO强化学习的视频多模态大语言模型(MLLM)后训练方法,显著提升了视频描述中动作的准确性。

  • Motivation: 尽管强化学习在提升大语言模型(LLM)推理能力方面取得了进展,但在视频多模态LLM(MLLM)中的应用仍未被充分探索。本文旨在填补这一空白。
  • Method: 开发了VideoCap-R1模型,通过结构化思维分析视频主体及其属性和动作,再生成完整描述,并设计了两种奖励机制评估思维和描述质量。
  • Result: 实验表明,VideoCap-R1在多个视频描述基准测试中显著优于基线模型和SFT训练模型,动作和对象描述的准确性均有提升。
  • Conclusion: GRPO强化学习框架有效提升了视频MLLM的描述能力,尤其是在动作准确性方面。

[147] STORM: Benchmarking Visual Rating of MLLMs with a Comprehensive Ordinal Regression Dataset

Jinhong Wang,Shuo Tong,Jian liu,Dongqi Tang,Jintai Chen,Haochao Ying,Hongxia Xu,Danny Chen,Jian Wu

Main category: cs.CV

TL;DR: 论文提出了STORM数据集和基准,用于评估多模态大语言模型(MLLMs)在视觉评分任务中的表现,并提出了一个粗到细的处理流程。

  • Motivation: 当前MLLMs在视觉评分任务中表现不佳,且缺乏相关数据集和基准,因此需要开发一个通用的评估框架。
  • Method: 收集了14个有序回归数据集,涵盖5个视觉评分领域,并提出动态考虑标签候选的粗到细处理流程。
  • Result: 实验验证了框架的有效性,并提供了更好的微调策略。
  • Conclusion: STORM为MLLMs在视觉评分任务中的表现提供了评估工具,并推动了相关研究。

[148] Efficient Egocentric Action Recognition with Multimodal Data

Marco Calzavara,Ard Kastrati,Matteo Macchini,Dushan Vasilevski,Roger Wattenhofer

Main category: cs.CV

TL;DR: 通过分析RGB视频和3D手部姿态的采样频率对Egocentric Action Recognition(EAR)性能和CPU使用的影响,研究发现降低RGB帧采样率并辅以高频3D手部姿态输入,可在保持高精度的同时显著降低CPU需求。

  • Motivation: 随着可穿戴XR设备的普及,实时Egocentric Action Recognition(EAR)系统面临便携性、电池寿命和计算资源之间的权衡挑战。
  • Method: 系统分析RGB视频和3D手部姿态在不同采样频率下的性能与CPU使用情况,探索多种配置以权衡精度与计算效率。
  • Result: 降低RGB帧采样率并辅以高频3D手部姿态输入,可实现CPU使用降低3倍,同时保持识别性能。
  • Conclusion: 多模态输入策略是实现高效实时EAR系统的可行方案。

[149] Many-for-Many: Unify the Training of Multiple Video and Image Generation and Manipulation Tasks

Tao Yang,Ruibin Li,Yangming Shi,Yuqi Zhang,Qide Dong,Haoran Cheng,Weiguo Feng,Shilei Wen,Bingyue Peng,Lei Zhang

Main category: cs.CV

TL;DR: 提出了一种名为“many-for-many”的统一框架,通过联合图像-视频学习策略训练单一模型,支持多种视觉生成和操作任务。

  • Motivation: 现有的扩散模型通常针对特定任务训练,且高质量标注数据成本高昂。本文旨在通过统一框架解决多任务需求和数据成本问题。
  • Method: 设计轻量级适配器统一不同任务的条件,采用联合图像-视频学习策略从头训练模型,并引入深度图作为条件以增强3D空间感知。
  • Result: 训练了8B和2B两种规模的模型,支持超过10种任务,其中8B模型在视频生成任务中表现优异,甚至优于开源和商业引擎。
  • Conclusion: 提出的统一框架在多任务视觉生成和操作中表现出色,尤其在视频生成任务中具有竞争力。

[150] unMORE: Unsupervised Multi-Object Segmentation via Center-Boundary Reasoning

Yafei Yang,Zihui Zhang,Bo Yang

Main category: cs.CV

TL;DR: 论文提出了一种名为unMORE的两阶段无监督多目标分割方法,显著优于现有方法。

  • Motivation: 现有方法在分割复杂真实世界对象时表现有限,需要改进。
  • Method: unMORE通过两阶段流程,先学习对象中心表示,再利用网络无关的多对象推理模块发现对象。
  • Result: 在6个真实世界数据集上表现最优,尤其在拥挤图像中表现突出。
  • Conclusion: unMORE为无监督多目标分割提供了高效解决方案。

[151] FaceCoT: A Benchmark Dataset for Face Anti-Spoofing with Chain-of-Thought Reasoning

Honglu Zhang,Zhiqin Fang,Ningning Zhao,Saihui Hou,Long Ma,Renwang Pei,Zhaofeng He

Main category: cs.CV

TL;DR: 论文提出FaceCoT数据集和CEPL策略,通过视觉语言多模态方法提升人脸反欺骗(FAS)的鲁棒性和可解释性。

  • Motivation: 传统FAS依赖单一视觉模态,泛化能力有限;多模态大语言模型(MLLMs)的突破为结合视觉与语言推理提供了可能,但缺乏高质量数据集。
  • Method: 构建FaceCoT数据集(覆盖14种攻击类型,含高质量CoT VQA标注),开发强化学习优化的标注模型,并提出CEPL策略以利用CoT数据提升性能。
  • Result: 实验表明,基于FaceCoT和CEPL训练的模型在多个基准数据集上优于现有方法。
  • Conclusion: FaceCoT和CEPL为FAS任务提供了更鲁棒且可解释的解决方案。

[152] R2SM: Referring and Reasoning for Selective Masks

Yu-Lin Shih,Wei-En Tai,Cheng Sun,Yu-Chiang Frank Wang,Hwann-Tzong Chen

Main category: cs.CV

TL;DR: 论文提出了R2SM任务,结合用户意图选择模态或非模态分割掩码,并构建了R2SM数据集支持该任务。

  • Motivation: 扩展文本引导分割任务,通过用户意图驱动掩码类型选择,提升视觉语言模型的多模态推理能力。
  • Method: 构建R2SM数据集,结合COCOA-cls、D2SA和MUVA的标注,要求模型根据自然语言提示生成模态或非模态掩码。
  • Result: R2SM任务为多模态推理和意图感知分割研究提供了挑战性测试平台。
  • Conclusion: R2SM任务和数据集推动了意图感知分割和多模态推理的研究进展。

[153] WorldExplorer: Towards Generating Fully Navigable 3D Scenes

Manuel-Andreas Schneider,Lukas Höllein,Matthias Nießner

Main category: cs.CV

TL;DR: WorldExplorer是一种基于自回归视频轨迹生成的新方法,用于构建可导航的3D场景,解决了现有方法在视角扩展时产生的噪声和拉伸问题。

  • Motivation: 现有方法在生成3D场景时,视角受限且容易产生噪声和拉伸,限制了场景的探索性。WorldExplorer旨在解决这一问题,实现高质量、稳定的3D场景生成。
  • Method: 通过多视角一致的360度全景初始化场景,利用视频扩散模型迭代生成视频轨迹,结合场景记忆和碰撞检测机制,最终通过3D高斯泼溅优化融合所有视图。
  • Result: WorldExplorer生成的3D场景在相机大范围运动下保持稳定,实现了高质量且无限制的探索。
  • Conclusion: WorldExplorer标志着向生成沉浸式、可探索的虚拟3D环境迈出了重要一步。

[154] OmniV2V: Versatile Video Generation and Editing via Dynamic Content Manipulation

Sen Liang,Zhentao Yu,Zhengguang Zhou,Teng Hu,Hongmei Wang,Yi Chen,Qin Lin,Yuan Zhou,Xin Li,Qinglin Lu,Zhibo Chen

Main category: cs.CV

TL;DR: OmniV2V是一个基于Diffusion Transformers的视频生成与编辑模型,支持多场景动态内容操作,并通过统一模块和视觉文本指令模块提升性能。

  • Motivation: 现有视频生成模型多局限于单一场景,缺乏动态内容操作的多样性,OmniV2V旨在解决这一问题。
  • Method: 提出统一动态内容操作注入模块和基于LLaVA的视觉文本指令模块,并构建多任务数据处理系统及OmniV2V数据集。
  • Result: 实验表明OmniV2V在多项视频生成与编辑任务中表现优于或持平现有开源和商业模型。
  • Conclusion: OmniV2V通过统一模块和多任务数据系统,实现了多场景视频生成与编辑的高效性和多样性。

[155] UMA: Ultra-detailed Human Avatars via Multi-level Surface Alignment

Heming Zhu,Guoxing Sun,Christian Theobalt,Marc Habermann

Main category: cs.CV

TL;DR: 提出了一种基于隐式表示和2D视频点跟踪器的可动画化人体模型,解决了高分辨率渲染时的细节丢失问题。

  • Motivation: 现有方法在4K及以上分辨率渲染时无法保留最高细节,主要原因是几何误差导致的外观模型补偿不足。
  • Method: 提出潜在变形模型,利用2D视频点跟踪器监督3D变形,并通过级联训练策略生成一致的3D点轨迹。
  • Result: 在包含挑战性纹理和褶皱变形的多视角视频数据集上验证,渲染质量和几何精度显著优于现有方法。
  • Conclusion: 该方法通过结合2D跟踪器和3D一致性训练,显著提升了高分辨率渲染的细节保留能力。

[156] Ridgeformer: Mutli-Stage Contrastive Training For Fine-grained Cross-Domain Fingerprint Recognition

Shubham Pandey,Bhavin Jawade,Srirangaraj Setlur

Main category: cs.CV

TL;DR: 提出了一种基于多阶段Transformer的非接触式指纹匹配方法,解决了图像模糊、对比度低等问题,性能优于现有方法。

  • Motivation: 非接触式指纹识别需求增长,但面临图像模糊、对比度低等挑战,亟需提升匹配精度。
  • Method: 采用多阶段Transformer方法,先提取全局空间特征,再细化局部特征对齐,实现跨样本精细匹配。
  • Result: 在HKPolyU和RidgeBase数据集上验证,性能优于现有方法,包括COTS解决方案。
  • Conclusion: 该方法显著提升了非接触式指纹匹配的准确性和鲁棒性。

[157] GSCodec Studio: A Modular Framework for Gaussian Splat Compression

Sicheng Li,Chengzhen Wu,Hao Li,Xiang Gao,Yiyi Liao,Lu Yu

Main category: cs.CV

TL;DR: GSCodec Studio是一个统一模块化框架,用于高斯点云(GS)重建、压缩和渲染,解决了现有方法分散的问题,并提供了静态和动态GS的高效压缩方案。

  • Motivation: 高斯点云(GS)在实时渲染中表现优异,但高存储需求限制了其实际应用。现有压缩方法分散,缺乏统一框架。
  • Method: GSCodec Studio整合了多种3D/4D GS重建和压缩技术,支持模块化组合和全面比较,结合社区最佳实践和自身探索。
  • Result: 开发了Static和Dynamic GSCodec,在静态和动态GS压缩中实现了竞争性的率失真性能。
  • Conclusion: GSCodec Studio为GS压缩研究提供了统一平台,推动了高效压缩技术的发展。

[158] MoDA: Modulation Adapter for Fine-Grained Visual Grounding in Instructional MLLMs

Wayner Barrios,Andrés Villa,Juan León Alcázar,SouYoung Jin,Bernard Ghanem

Main category: cs.CV

TL;DR: MoDA(Modulation Adapter)是一种轻量级模块,通过指令引导的调制优化预对齐的视觉特征,提升多模态大语言模型(MLLMs)在复杂场景中的细粒度视觉概念理解能力。

  • Motivation: 现有方法在复杂场景中难以准确关联细粒度视觉概念,MoDA旨在通过指令引导的调制解决这一问题。
  • Method: MoDA采用两阶段训练:1)通过冻结视觉编码器和适配层对齐图像特征;2)在指令调优阶段使用Transformer交叉注意力机制生成调制掩码,优化视觉特征。
  • Result: 实验表明,MoDA提升了视觉定位能力,并生成更符合上下文的响应。
  • Conclusion: MoDA是一种通用的图像MLLM增强方法,有效提升了模型性能。

[159] ShapeLLM-Omni: A Native Multimodal LLM for 3D Generation and Understanding

Junliang Ye,Zhengyi Wang,Ruowen Zhao,Shenghao Xie,Jun Zhu

Main category: cs.CV

TL;DR: 论文提出ShapeLLM-Omni,一种原生3D大语言模型,填补了ChatGPT-4o在3D内容理解与生成上的空白。

  • Motivation: 当前多模态大语言模型(如ChatGPT-4o)仅限于图像和文本,缺乏对3D内容的理解与生成能力。
  • Method: 1. 训练3D VQVAE模型,将3D对象映射到离散潜在空间;2. 构建3D-Alpaca数据集,涵盖生成、理解和编辑任务;3. 基于Qwen-2.5-vl-7B-Instruct模型进行指令微调。
  • Result: ShapeLLM-Omni实现了对3D资产和文本的多模态理解与生成。
  • Conclusion: 该研究为扩展多模态模型的3D能力提供了有效尝试,推动了3D原生AI的未来发展。

[160] Enhancing Biomedical Multi-modal Representation Learning with Multi-scale Pre-training and Perturbed Report Discrimination

Xinliu Zhong,Kayhan Batmanghelich,Li Sun

Main category: cs.CV

TL;DR: 提出了一种新的预训练方法(扰动报告判别),用于生物医学视觉语言模型,通过扰动文本语义结构并对比图像子区域和子词,提升模型对复杂语义的理解能力。

  • Motivation: 生物医学文本具有复杂且领域特定的语义,现有对比学习方法常忽视这些特点,导致预训练效果不佳。
  • Method: 提出扰动报告判别方法,包括文本扰动和对比图像子区域与子词,以增强模型对语义结构的敏感性。
  • Result: 在多个下游任务中表现优于基线方法,学习到更具语义意义和鲁棒性的多模态表示。
  • Conclusion: 该方法能有效提升生物医学视觉语言模型的预训练效果,适用于复杂语义场景。

[161] Reinforcement Learning Tuning for VideoLLMs: Reward Design and Data Efficiency

Hongyu Li,Songhao Han,Yue Liao,Junfeng Luo,Jialin Gao,Shuicheng Yan,Si Liu

Main category: cs.CV

TL;DR: 该论文提出了一种基于强化学习调优(RLT)的后训练策略,通过双奖励机制提升多模态大语言模型(MLLMs)在视频理解任务中的推理能力。

  • Motivation: 解决真实世界视频中复杂语义和长时序依赖的挑战,利用RLT增强MLLMs的视频推理能力。
  • Method: 基于GRPO框架,设计双奖励机制(语义和时序推理),并引入方差感知数据选择策略优化训练样本。
  • Result: 在八项视频理解任务中表现优于监督微调和现有RLT基线,且训练数据需求显著减少。
  • Conclusion: 奖励设计和数据选择对提升MLLMs的视频推理能力至关重要,代码已更新并开源。

[162] Elucidating the representation of images within an unconditional diffusion model denoiser

Zahra Kadkhodaie,Stéphane Mallat,Eero Simoncelli

Main category: cs.CV

TL;DR: 论文研究了UNet在去噪任务中的内部机制,发现其通过稀疏通道分解图像,并提出了一种新的图像重建算法。

  • Motivation: 理解生成扩散模型中UNet的内部表示和分数计算机制。
  • Method: 分析UNet在ImageNet上的去噪训练,提出基于稀疏通道的图像重建算法。
  • Result: UNet的中间块将图像分解为稀疏通道,其表示与语义相似性和条件密度距离相关。
  • Conclusion: 去噪网络包含丰富的稀疏图像表示,可用于图像重建和语义分析。

[163] MedEBench: Revisiting Text-instructed Image Editing

Minghao Liu,Zhitao He,Zhiyuan Fan,Qingyun Wang,Yi R. Fung

Main category: cs.CV

TL;DR: MedEBench是一个用于评估文本引导医学图像编辑的综合基准,包含1182个临床来源的图像-提示三元组,覆盖13个解剖区域的70个任务。

  • Motivation: 文本引导图像编辑在医学影像领域的应用缺乏标准化评估,而临床上有模拟手术结果、创建个性化教学材料和增强患者沟通的潜力。
  • Method: MedEBench提供了三个关键贡献:临床相关评估框架、七种最先进模型的系统比较,以及基于注意力定位的失败分析协议。
  • Result: 基准揭示了常见失败模式,并通过注意力地图与ROI的IoU识别定位错误。
  • Conclusion: MedEBench为开发和评估可靠且具有临床意义的医学图像编辑系统奠定了基础。

[164] TaxaDiffusion: Progressively Trained Diffusion Model for Fine-Grained Species Generation

Amin Karimi Monsefi,Mridul Khurana,Rajiv Ramnath,Anuj Karpatne,Wei-Lun Chao,Cheng Zhang

Main category: cs.CV

TL;DR: TaxaDiffusion是一种基于分类学知识的扩散模型训练框架,用于生成具有高形态和身份准确性的细粒度动物图像。

  • Motivation: 传统方法将每个物种视为独立类别,而TaxaDiffusion利用物种间视觉相似性,通过层次化训练提升生成准确性。
  • Method: TaxaDiffusion采用层次化训练策略,从粗粒度分类(如纲、目)逐步细化到细粒度(如科、属、种),利用共享形态特征进行知识迁移。
  • Result: 在三个细粒度动物数据集上,TaxaDiffusion表现优于现有方法,生成图像具有更高保真度。
  • Conclusion: TaxaDiffusion通过分类学知识层次化训练,显著提升了细粒度动物图像生成的准确性,尤其适用于训练样本有限的情况。

[165] E3D-Bench: A Benchmark for End-to-End 3D Geometric Foundation Models

Wenyan Cong,Yiqing Liang,Yancheng Zhang,Ziyi Yang,Yan Wang,Boris Ivanovic,Marco Pavone,Chen Chen,Zhangyang Wang,Zhiwen Fan

Main category: cs.CV

TL;DR: 该论文提出了首个针对3D几何基础模型(GFMs)的全面基准测试,覆盖五项核心任务,并评估了16种最先进模型,揭示了其优缺点。

  • Motivation: 空间智能(如3D重建和感知)对机器人、无人机成像和扩展现实至关重要,但目前缺乏对新兴3D GFMs的系统性评估。
  • Method: 通过标准化工具包自动化数据集处理、评估协议和指标计算,对16种GFMs在五项核心任务上进行公平、可复现的比较。
  • Result: 评估揭示了GFMs在不同任务和领域中的优势与局限,为未来模型扩展和优化提供了关键见解。
  • Conclusion: 论文公开了所有代码、评估脚本和处理数据,以加速3D空间智能的研究。

[166] Low-Rank Head Avatar Personalization with Registers

Sai Tanmay Reddy Chakkera,Aggelina Chatziagapi,Md Moniruzzaman,Chen-Ping Yu,Yi-Hsuan Tsai,Dimitris Samaras

Main category: cs.CV

TL;DR: 提出了一种新方法,通过低秩个性化改进通用模型在头像生成中的表现,解决了现有方法难以捕捉身份特定细节的问题。

  • Motivation: 通用模型虽然能生成高质量面部动画,但无法合成独特的身份细节,现有低秩适应方法也难以捕捉高频细节。
  • Method: 提出了一种Register Module架构,增强低秩适应(LoRA)性能,仅需少量参数即可适应新身份。
  • Result: 新方法在定量和定性上均优于现有方法,能忠实捕捉未见过的面部细节。
  • Conclusion: 该方法有效提升了头像生成的个性化能力,代码、模型和数据集将公开。

[167] Fast and Robust Rotation Averaging with Anisotropic Coordinate Descent

Yaroslava Lochman,Carl Olsson,Christopher Zach

Main category: cs.CV

TL;DR: 本文提出了一种快速通用的求解器,用于各向异性旋转平均,结合了最优性、鲁棒性和效率,并在公开数据集上实现了最先进的性能。

  • Motivation: 各向异性旋转平均方法在全局最优性和鲁棒性之间存在权衡,现有方法要么计算复杂度高,要么对初始化敏感。本文旨在填补这一空白。
  • Method: 分析了一类块坐标下降方法,推导出更简单的公式和各向异性扩展,并将其集成到大规模鲁棒旋转平均流程中。
  • Result: 在公开的结构从运动数据集上实现了最先进的性能。
  • Conclusion: 提出的方法在各向异性旋转平均中实现了最优性、鲁棒性和效率的平衡,具有实际应用价值。

[168] OD3: Optimization-free Dataset Distillation for Object Detection

Salwa K. Al Khatib,Ahmed ElHagry,Shitong Shao,Zhiqiang Shen

Main category: cs.CV

TL;DR: OD3是一种针对目标检测的无优化数据蒸馏框架,通过候选选择和筛选两阶段方法合成紧凑数据集,显著提升检测精度。

  • Motivation: 解决大规模数据集训练密集预测任务(如目标检测)的高计算资源需求,填补现有数据集蒸馏方法在检测任务上的空白。
  • Method: 两阶段方法:1)候选选择,迭代放置对象实例;2)候选筛选,使用预训练观察模型移除低置信度对象。
  • Result: 在MS COCO和PASCAL VOC上,压缩比0.25%至5%时,OD3优于现有方法,COCO mAP50提升14%。
  • Conclusion: OD3为目标检测提供高效数据蒸馏方案,显著减少计算需求并提升性能。

[169] Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control

Xiao Fu,Xintao Wang,Xian Liu,Jianhong Bai,Runsen Xu,Pengfei Wan,Di Zhang,Dahua Lin

Main category: cs.CV

TL;DR: RoboMaster提出了一种新框架,通过分阶段建模多物体交互过程,解决了现有方法在复杂机器人操作中多物体交互的局限性。

  • Motivation: 现有基于轨迹的方法难以捕捉复杂机器人操作中多物体交互的关键特征,导致视觉保真度下降。
  • Method: RoboMaster将交互过程分解为三个阶段(交互前、交互中、交互后),分别用主导物体特征建模,并引入外观和形状感知的潜在表示。
  • Result: 在Bridge V2数据集和实际评估中,RoboMaster表现优于现有方法,达到了轨迹控制视频生成的最新水平。
  • Conclusion: RoboMaster通过分阶段建模和潜在表示,显著提升了多物体交互的视觉保真度和控制能力。

[170] MLLMs Need 3D-Aware Representation Supervision for Scene Understanding

Xiaohu Huang,Jingjing Wu,Qunyi Xie,Kai Han

Main category: cs.CV

TL;DR: 论文提出3DRS框架,通过引入3D基础模型的监督增强MLLM的3D表示学习,提升场景理解能力。

  • Motivation: MLLMs在3D推理中因缺乏显式3D数据而受限,研究揭示3D感知表示质量与下游任务性能正相关。
  • Method: 提出3DRS框架,利用预训练3D基础模型监督对齐MLLM视觉特征与3D知识。
  • Result: 多基准测试(视觉定位、描述、问答)显示性能一致提升。
  • Conclusion: 3DRS有效增强MLLM的3D表示能力,提升场景理解任务表现。

[171] IMAGHarmony: Controllable Image Editing with Consistent Object Quantity and Layout

Fei Shen,Xiaoyu Du,Yutong Gao,Jian Yu,Yushe Cao,Xing Lei,Jinhui Tang

Main category: cs.CV

TL;DR: 论文提出了一种名为IMAGHarmony的结构感知框架,用于解决多对象场景下图像编辑的挑战,通过和谐感知注意力和偏好引导噪声选择策略,提升了编辑的准确性和结构一致性。

  • Motivation: 当前图像编辑方法在多对象场景中难以精确控制对象类别、数量和空间布局,因此需要一种新的方法来增强这些方面的控制能力。
  • Method: 提出了IMAGHarmony框架,结合和谐感知注意力(HA)和偏好引导噪声选择(PNS)策略,以多模态语义建模对象数量和布局。
  • Result: 实验表明,IMAGHarmony在结构对齐和语义准确性上优于现有方法,并构建了HarmonyBench作为评估基准。
  • Conclusion: IMAGHarmony在多对象图像编辑中表现出色,为复杂场景下的编辑任务提供了有效的解决方案。

[172] Dual-Process Image Generation

Grace Luo,Jonathan Granskog,Aleksander Holynski,Trevor Darrell

Main category: cs.CV

TL;DR: 提出了一种双过程蒸馏方案,使前馈图像生成器能够从深思熟虑的视觉语言模型(VLM)中学习新任务。

  • Motivation: 现有图像生成控制方法难以学习新任务,而VLM能够通过上下文学习任务并生成正确输出。
  • Method: 使用VLM对生成图像评分,并通过反向传播梯度更新图像生成器的权重。
  • Result: 实现了多种新控制任务,如常识推理和视觉提示,用户可快速实现多模态控制。
  • Conclusion: 该框架通过文本和图像界面实现了广泛的新控制任务,展示了其灵活性和实用性。

q-bio.BM

Mengdi Liu,Xiaoxue Cheng,Zhangyang Gao,Hong Chang,Cheng Tan,Shiguang Shan,Xilin Chen

Main category: q-bio.BM

TL;DR: ProtInvTree是一个基于树搜索的蛋白质逆折叠生成模型,通过分阶段决策和自评估机制生成多样且结构一致的序列。

  • Motivation: 解决现有深度学习方法忽略蛋白质逆折叠问题中一对多特性(多个序列对应同一结构)的局限性。
  • Method: 引入ProtInvTree框架,采用奖励引导的树搜索策略,结合两阶段动作机制(位置选择和残基生成)和跳跃去噪策略评估中间状态。
  • Result: 在多个基准测试中优于现有方法,生成结构一致且多样的序列,包括远离原生序列的情况。
  • Conclusion: ProtInvTree为蛋白质设计提供了一种灵活且高效的解决方案,支持多样序列生成和结构一致性保持。

physics.soc-ph

[174] Transport Network, Graph, and Air Pollution

Nan Xu

Main category: physics.soc-ph

TL;DR: 研究发现交通网络的几何和拓扑特征与空气污染相关,通过全球城市图像分析提出12项指数,并指出优化连接性和避免极端聚类系数等策略可减轻污染。

  • Motivation: 现有研究对交通网络与空气污染关系的分析不够全面,缺乏综合模型。
  • Method: 通过30万张全球城市图像分析交通网络的几何模式,提出12项指数研究网络与污染的相关性。
  • Result: 发现优化连接性、平衡道路类型和避免极端聚类系数等策略有助于减轻污染。
  • Conclusion: 研究为城市规划提供了基于永久基础设施的污染减轻策略,排除了衍生发展的干扰。

cs.LG

[175] PerFormer: A Permutation Based Vision Transformer for Remaining Useful Life Prediction

Zhengyang Fan,Wanru Li,Kuo-chu Chang,Ting Yuan

Main category: cs.LG

TL;DR: 论文提出了一种基于排列的视觉变换器方法(PerFormer),用于提升剩余使用寿命(RUL)预测的准确性,解决了传统方法在处理多变量时间序列数据时的局限性。

  • Motivation: 卷积神经网络(CNNs)在RUL预测中表现优异,但视觉变换器(ViT)在图像任务中表现更优,因此探索其在RUL预测中的潜力。然而,ViT直接应用于多变量传感器数据存在挑战,需解决时间序列数据的空间信息模糊问题。
  • Method: 提出PerFormer方法,通过排列多变量时间序列数据模拟图像的空间特性,并设计了一种新的排列损失函数以生成所需的排列矩阵。
  • Result: 在NASA的C-MAPSS数据集上,PerFormer在RUL预测中表现优于基于CNNs、RNNs和其他变换器模型的先进方法。
  • Conclusion: PerFormer展示了在预测和健康管理(PHM)应用中的高效性和潜力,为RUL预测提供了新的解决方案。

[176] Foresight: Adaptive Layer Reuse for Accelerated and High-Quality Text-to-Video Generation

Muhammad Adnan,Nithesh Kurella,Akhil Arunkumar,Prashant J. Nair

Main category: cs.LG

TL;DR: Foresight是一种自适应层重用技术,通过动态识别和重用DiT块输出来减少计算冗余,同时保持性能,显著提升视频生成效率。

  • Motivation: Diffusion Transformers(DiTs)在视频生成中计算成本高,静态缓存方法无法适应生成动态,导致速度与质量的次优权衡。
  • Method: 提出Foresight技术,动态重用DiT块输出,适应生成参数(如分辨率和去噪计划),优化效率。
  • Result: 在OpenSora、Latte和CogVideoX上,Foresight实现了最高1.63倍的端到端加速,同时保持视频质量。
  • Conclusion: Foresight通过自适应层重用,显著提升了视频生成的效率,且不影响性能。

[177] SST: Self-training with Self-adaptive Thresholding for Semi-supervised Learning

Shuai Zhao,Heyan Huang,Xinge Li,Xiaokang Chen,Rui Wang

Main category: cs.LG

TL;DR: 提出了一种自适应的半监督学习框架SST,通过动态调整阈值选择高质量伪标签,显著提升了性能与效率。

  • Motivation: 解决现有半监督学习方法因固定阈值导致伪标签质量不高、计算开销大的问题。
  • Method: 引入自适应的SAT机制,根据模型学习进度动态调整类别阈值,确保伪标签质量。
  • Result: 在ImageNet-1K基准测试中,仅用1%/10%标注数据即达到80.7%/84.9%的Top-1准确率,优于完全监督模型。
  • Conclusion: SST框架高效、泛化性强,为半监督学习提供了新思路。

[178] Flashbacks to Harmonize Stability and Plasticity in Continual Learning

Leila Mahmoodi,Peyman Moghadam,Munawar Hayat,Christian Simon,Mehrtash Harandi

Main category: cs.LG

TL;DR: Flashback Learning (FL) 是一种新颖的持续学习方法,通过双向正则化平衡模型的稳定性和可塑性,显著提升分类准确率。

  • Motivation: 解决持续学习中模型在保留旧知识的同时学习新知识的平衡问题。
  • Method: 采用两阶段训练过程,结合两种知识库(增强可塑性和稳定性)进行双向正则化。
  • Result: 在标准图像分类任务中,FL 比基线方法平均准确率提升 4.91%(类增量)和 3.51%(任务增量),并在 ImageNet 上优于现有方法。
  • Conclusion: FL 通过双向正则化有效平衡稳定性和可塑性,为持续学习提供了更优的解决方案。

[179] Dynamic Domain Adaptation-Driven Physics-Informed Graph Representation Learning for AC-OPF

Hongjie Zhu,Zezheng Zhang,Zeyu Zhang,Yu Bai,Shimin Wen,Huazhang Wang,Daji Ergu,Ying Cai,Yang Zhao

Main category: cs.LG

TL;DR: 论文提出DDA-PIGCN方法,通过结合时空特征的图卷积网络解决AC-OPF中约束建模的局限性,显著提升性能。

  • Motivation: 当前AC-OPF求解器难以有效建模约束空间中变量分布与最优解的复杂关系,且仅基于空间拓扑的建模限制了额外先验知识(如时间信息)的整合。
  • Method: 提出DDA-PIGCN,结合多层硬物理约束和动态域适应学习机制,迭代更新状态变量,并利用电网物理结构捕获时空依赖关系。
  • Result: 在多个IEEE标准测试案例中表现优异,平均绝对误差为0.0011至0.0624,约束满足率达99.6%至100%。
  • Conclusion: DDA-PIGCN是一种可靠高效的AC-OPF求解器,能够有效解决约束建模问题并整合时空特征。

[180] MMedAgent-RL: Optimizing Multi-Agent Collaboration for Multimodal Medical Reasoning

Peng Xia,Jinglu Wang,Yibo Peng,Kaide Zeng,Xian Wu,Xiangru Tang,Hongtu Zhu,Yun Li,Shujie Liu,Yan Lu,Huaxiu Yao

Main category: cs.LG

TL;DR: MMedAgent-RL是一种基于强化学习的多智能体框架,通过动态协作提升医学多模态诊断任务的性能。

  • Motivation: 现有单智能体模型难以适应多样化的医学专科任务,静态多智能体协作框架缺乏灵活性。
  • Method: 提出MMedAgent-RL,训练两个基于Qwen2.5-VL的GP智能体,通过强化学习和课程学习优化协作。
  • Result: 在五个医学VQA基准测试中表现优于现有模型,平均性能提升18.4%。
  • Conclusion: MMedAgent-RL展示了动态协作的优势,并模拟了人类推理模式。

[181] QoQ-Med: Building Multimodal Clinical Foundation Models with Domain-Aware GRPO Training

Wei Dai,Peilin Chen,Chanakya Ekbote,Paul Pu Liang

Main category: cs.LG

TL;DR: QoQ-Med-7B/32B是首个开放通用的临床基础模型,支持跨医学图像、时间序列信号和文本报告的多模态推理,采用DRPO训练方法提升性能。

  • Motivation: 解决现有MLLMs在临床领域通用性不足的问题,支持跨专科的多模态数据推理。
  • Method: 采用Domain-aware Relative Policy Optimization (DRPO)训练方法,通过分层缩放奖励解决数据分布不平衡问题。
  • Result: DRPO训练使诊断性能平均提升43%(宏F1),并在分割任务中显著优于其他开放模型。
  • Conclusion: QoQ-Med在临床多模态推理中表现优异,开源模型和工具促进下游研究。

[182] Adaptive Plane Reformatting for 4D Flow MRI using Deep Reinforcement Learning

Javier Bisbal,Julio Sotelo,Maria I Valdés,Pablo Irarrazaval,Marcelo E Andia,Julio García,José Rodriguez-Palomarez,Francesca Raimondi,Cristián Tejos,Sergio Uribe

Main category: cs.LG

TL;DR: 本文提出了一种基于灵活坐标系的新型深度强化学习方法,用于医学图像平面重格式化任务,解决了现有方法对测试数据位置和方向的限制。

  • Motivation: 现有深度强化学习方法在平面重格式化任务中表现良好,但要求测试数据与训练数据的位置和方向一致,限制了其应用范围。
  • Method: 采用异步优势演员评论家(A3C)算法,结合灵活坐标系,实现对任意位置和方向体积的导航。
  • Result: 在4D流MRI中,该方法显著减少了角度和距离误差(6.32±4.15°和3.40±2.75 mm),且与专家操作结果无显著差异(p=0.21)。
  • Conclusion: 该方法具有灵活性和适应性,适用于4D流MRI以外的其他医学成像应用。

[183] Understanding Model Reprogramming for CLIP via Decoupling Visual Prompts

Chengyi Cai,Zesheng Ye,Lei Feng,Jianzhong Qi,Feng Liu

Main category: cs.LG

TL;DR: 论文提出了一种解耦和重加权框架(DVP),通过分组优化视觉提示(DVP-cse/DVP-cls)并结合概率重加权矩阵(PRM)提升CLIP模型在下游任务中的性能。

  • Motivation: 现有视觉重编程方法(VR)使用单一视觉提示,可能无法捕捉描述多样性或偏向非信息性属性,限制了性能。
  • Method: 提出解耦视觉提示(DVP),分组优化提示并结合PRM重加权输出。
  • Result: DVP在11个下游数据集上优于基线,PRM提供了分类决策的可解释性。
  • Conclusion: DVP通过解耦和重加权提升了性能,同时提供了对重编程的深入理解。

[184] Ψ-Sampler: Initial Particle Sampling for SMC-Based Inference-Time Reward Alignment in Score Models

Taehoon Yoon,Yunhong Min,Kyeongmin Yeo,Minhyuk Sung

Main category: cs.LG

TL;DR: Ψ-Sampler是一个基于SMC的框架,通过pCNL初始粒子采样实现高效的推理时奖励对齐。

  • Motivation: 现有方法通常从高斯先验初始化粒子,未能有效捕捉奖励相关区域,导致采样效率低。
  • Method: 提出pCNL算法,结合维度鲁棒的提议和梯度动态,实现高效后验采样。
  • Result: 实验表明,该方法在布局到图像生成、数量感知生成和审美偏好生成等任务中表现优异。
  • Conclusion: Ψ-Sampler显著提升了奖励对齐性能,适用于高维潜在空间。

[185] Variance-Based Defense Against Blended Backdoor Attacks

Sujeevan Aseervatham,Achraf Kerzazi,Younès Bennani

Main category: cs.LG

TL;DR: 论文提出了一种新型防御方法,用于检测和消除AI模型中的后门攻击,无需依赖干净数据集。

  • Motivation: 现有防御方法依赖干净数据集计算统计异常,但现实中数据集可能不可用或已受损,因此需要一种不依赖干净数据集的防御方法。
  • Method: 通过训练模型、检测中毒类别、提取攻击触发器的关键部分,并识别中毒实例,同时增强解释性。
  • Result: 实验评估表明,该方法在知名图像数据集上有效,并优于SCAn、ABL和AGPD三种先进算法。
  • Conclusion: 该方法为后门攻击防御提供了一种无需干净数据集的有效解决方案,并增强了攻击触发器的可解释性。

[186] Datasheets Aren't Enough: DataRubrics for Automated Quality Metrics and Accountability

Genta Indra Winata,David Anugraha,Emmy Liu,Alham Fikri Aji,Shou-Yi Hung,Aditya Parashar,Patrick Amadeus Irawan,Ruochen Zhang,Zheng-Xin Yong,Jan Christian Blaise Cruz,Niklas Muennighoff,Seungone Kim,Hanyang Zhao,Sudipta Kar,Kezia Erina Suryoraharjo,M. Farid Adilazuarda,En-Shiun Annie Lee,Ayu Purwarianti,Derry Tanti Wijaya,Monojit Choudhury

Main category: cs.LG

TL;DR: 论文提出DataRubrics框架,通过系统化、标准化的评估指标改进数据集质量审查,并探索合成数据生成方法。

  • Motivation: 现有数据集论文缺乏原创性、多样性和严格的质量控制,且审查过程中常忽略这些问题。现有工具如datasheets虽促进透明性,但缺乏标准化评估方法。
  • Method: 提出DataRubrics框架,结合系统化的评估指标和LLM技术,支持数据集质量评估。同时探索合成数据生成方法。
  • Result: DataRubrics提供可重复、可扩展的数据集质量评估方案,帮助作者和审稿人提升数据研究标准。
  • Conclusion: 论文呼吁在数据集审查中引入标准化评估,并开源代码支持LLM评估的复现性。

cs.CL

[187] Enabling Chatbots with Eyes and Ears: An Immersive Multimodal Conversation System for Dynamic Interactions

Jihyoung Jang,Minwook Bae,Minji Kim,Dilek Hakkani-Tur,Hyounghun Kim

Main category: cs.CL

TL;DR: 该研究旨在提升聊天机器人的多模态交互能力,通过引入视觉和听觉输入,构建了一个新的多模态对话数据集M3C,并提出了一种支持多模态记忆检索的模型,实现了更自然、动态的对话体验。

  • Motivation: 现有研究多关注视觉模态,忽略了听觉模态,且交互多为静态或任务导向,限制了多模态对话的自然性和动态性。
  • Method: 提出了一个多模态对话模型,结合M3C数据集,支持视觉和听觉输入的多模态记忆检索。
  • Result: 模型在复杂场景下能有效处理多模态输入,保持连贯对话,人类评估显示其性能优越。
  • Conclusion: 该模型为高级多模态对话代理提供了潜力,推动了更沉浸式的人机交互。

[188] EffiVLM-BENCH: A Comprehensive Benchmark for Evaluating Training-Free Acceleration in Large Vision-Language Models

Zekun Wang,Minghua Ma,Zexin Wang,Rongchuan Mu,Liping Shan,Ming Liu,Bing Qin

Main category: cs.CL

TL;DR: 本文系统评估了大型视觉语言模型(LVLM)的主流加速技术,提出了EffiVLM-Bench框架,并开源了代码。

  • Motivation: 尽管LVLM取得了显著成功,但其高计算需求限制了实际部署,现有方法缺乏全面评估。
  • Method: 将加速技术分为token和参数压缩两类,并引入EffiVLM-Bench框架进行综合评估。
  • Result: 通过实验和分析,提供了加速LVLM的最优策略。
  • Conclusion: 开源EffiVLM-Bench以促进未来研究。

[189] Hanfu-Bench: A Multimodal Benchmark on Cross-Temporal Cultural Understanding and Transcreation

Li Zhou,Lutong Yu,Dongchu Xie,Shaohuan Cheng,Wenyan Li,Haizhou Li

Main category: cs.CL

TL;DR: 论文提出Hanfu-Bench数据集,填补文化理解中时间维度的研究空白,通过汉服这一文化载体评估视觉语言模型在时空文化理解与创新适应中的表现。

  • Motivation: 现有视觉语言模型对文化理解的研究多关注地理多样性,忽视时间维度,因此需要新的数据集和方法来评估模型在时空文化理解中的能力。
  • Method: 引入Hanfu-Bench数据集,包含文化视觉理解和文化图像转创两项任务,分别评估模型对时空文化特征的识别能力及传统与现代元素的融合能力。
  • Result: 封闭式视觉语言模型在文化视觉理解任务中表现接近非专家,但落后专家10%;开放式模型表现更差。转创任务中,最佳模型成功率仅42%。
  • Conclusion: Hanfu-Bench揭示了时空文化理解与创新适应中的重大挑战,为未来研究提供了重要测试平台。

[190] Is Extending Modality The Right Path Towards Omni-Modality?

Tinghui Zhu,Kai Zhang,Muhao Chen,Yu Su

Main category: cs.CL

TL;DR: 本文研究了全模态语言模型(OLMs)的扩展模态技术,探讨了其对核心语言能力的影响、模型合并的可行性以及全模态扩展的知识共享优势。

  • Motivation: 现有开源模型在多模态输入处理和泛化能力上表现不足,无法实现真正的全模态。本文旨在探索扩展模态技术是否能解决这些问题。
  • Method: 通过实验分析扩展模态对语言能力的影响,评估模型合并的效果,并比较全模态扩展与顺序扩展的知识共享和泛化能力。
  • Result: 实验结果表明,扩展模态可能影响核心语言能力,但模型合并能有效整合多模态模型,全模态扩展在知识共享和泛化上优于顺序扩展。
  • Conclusion: 当前方法有望实现真正的全模态,但需权衡核心语言能力与多模态性能。

cs.MM

[191] Multiverse Through Deepfakes: The MultiFakeVerse Dataset of Person-Centric Visual and Conceptual Manipulations

Parul Gupta,Shreya Ghosh,Tom Gedeon,Thanh-Toan Do,Abhinav Dhall

Main category: cs.MM

TL;DR: 论文介绍了MultiFakeVerse,一个大规模、基于视觉语言模型(VLM)生成的人为中心深度伪造数据集,填补了现有数据集的不足。

  • Motivation: 当前缺乏针对人中心对象、场景和上下文操纵的大规模深度伪造基准数据集,研究旨在解决这一问题。
  • Method: 通过VLM生成845,286张图像,专注于语义和上下文感知的修改,如动作、场景和人-物交互的调整。
  • Result: 实验表明,现有深度伪造检测模型和人类观察者难以识别这些细微但有意义的操纵。
  • Conclusion: MultiFakeVerse为深度伪造检测研究提供了新的挑战和资源,代码和数据集已开源。

cs.AI

[192] GeoChain: Multimodal Chain-of-Thought for Geographic Reasoning

Sahiti Yerramilli,Nilay Pande,Rynaa Grover,Jayant Sravan Tamarapalli

Main category: cs.AI

TL;DR: GeoChain是一个用于评估多模态大语言模型(MLLMs)逐步地理推理能力的大规模基准测试,包含146万张街景图像和3000万问答对,揭示模型在视觉定位和复杂推理中的不足。

  • Motivation: 现有MLLMs在地理推理任务中表现不佳,缺乏系统性评估工具,GeoChain旨在填补这一空白并提供诊断方法。
  • Method: 利用146万张Mapillary街景图像,每张图像配以21步链式推理问题序列,涵盖视觉、空间、文化和精确定位四类推理,并标注难度。
  • Result: 测试显示MLLMs在视觉定位和复杂推理中存在明显弱点,尤其在难度增加时表现更差。
  • Conclusion: GeoChain为提升MLLMs复杂地理推理能力提供了关键诊断工具。

[193] SynPO: Synergizing Descriptiveness and Preference Optimization for Video Detailed Captioning

Jisheng Dang,Yizhou Zhang,Hao Ye,Teng Wang,Siming Chen,Huicheng Zheng,Yulan Guo,Jianhuang Lai,Bin Hu

Main category: cs.AI

TL;DR: 该论文提出了一种名为Synergistic Preference Optimization (SynPO)的新方法,通过偏好学习提升细粒度视频描述的性能,解决了直接偏好优化(DPO)的局限性。

  • Motivation: 现有方法难以捕捉视频的细微动态和丰富细节信息,因此需要一种更高效的优化方法。
  • Method: 论文提出了一种构建偏好对的流程,结合视觉语言模型(VLMs)和大语言模型(LLMs),并设计了SynPO优化方法,避免负偏好主导优化,同时保留语言能力。
  • Result: 在视频描述基准和NLP任务中,SynPO表现优于DPO及其变体,训练效率提升20%。
  • Conclusion: SynPO是一种高效的优化方法,适用于细粒度视频描述任务,并在多任务中表现出色。

[194] Speaking Beyond Language: A Large-Scale Multimodal Dataset for Learning Nonverbal Cues from Video-Grounded Dialogues

Youngmin Kim,Jiwan Chung,Jisoo Kim,Sunghyun Lee,Sangkyu Lee,Junhyeok Kim,Cheoljong Yang,Youngjae Yu

Main category: cs.AI

TL;DR: MARS是一种多模态语言模型,结合文本和非语言线索(如面部表情和肢体语言),以提升对话AI的沉浸感。

  • Motivation: 现有大型语言模型(LLMs)无法有效整合非语言元素,限制了对话体验的完整性。
  • Method: 通过VENUS数据集(包含标注视频、文本、面部表情和肢体语言)训练MARS,采用下一词预测目标,实现多模态理解和生成。
  • Result: MARS成功生成与对话输入对应的文本和非语言内容,VENUS数据集验证了其规模大且高效。
  • Conclusion: MARS填补了对话AI中非语言交流的空白,为多模态交互提供了新方向。

[195] EgoBrain: Synergizing Minds and Eyes For Human Action Understanding

Nie Lin,Yansen Wang,Dongqi Han,Weibang Jiang,Jingyuan Li,Ryosuke Furuta,Yoichi Sato,Dongsheng Li

Main category: cs.AI

TL;DR: EgoBrain是全球首个大规模、时间对齐的多模态数据集,同步记录第一人称视频和脑电图(EEG),为人类行为分析提供新范式。

  • Motivation: 结合脑机接口(BCI)和人工智能(AI),特别是多模态AI模型,以解码人类认知和行为。
  • Method: 开发了EgoBrain数据集,包含61小时的同步32通道EEG和第一人称视频,并设计多模态学习框架融合EEG与视觉数据。
  • Result: 在跨主体和跨环境挑战中验证,动作识别准确率达66.70%。
  • Conclusion: EgoBrain为多模态脑机接口提供了统一框架,并公开数据以推动认知计算的开放科学。

[196] AgentCPM-GUI: Building Mobile-Use Agents with Reinforcement Fine-Tuning

Zhong Zhang,Yaxi Lu,Yikun Fu,Yupeng Huo,Shenzhi Yang,Yesai Wu,Han Si,Xin Cong,Haotian Chen,Yankai Lin,Jie Xie,Wei Zhou,Wang Xu,Yuanheng Zhang,Zhou Su,Zhongwu Zhai,Xiaoming Liu,Yudong Mei,Jianming Xu,Hongyan Tian,Chongyi Wang,Chi Chen,Yuan Yao,Zhiyuan Liu,Maosong Sun

Main category: cs.AI

TL;DR: AgentCPM-GUI是一个8B参数的GUI代理,通过改进的训练流程和紧凑的动作空间,在移动设备上实现了高效且鲁棒的GUI交互,并在多个基准测试中达到SOTA性能。

  • Motivation: 现有GUI代理的训练数据噪声大且语义多样性不足,导致模型泛化能力差,且多集中于英语界面,忽视了非英语(如中文)移动生态系统的需求。
  • Method: 采用基于grounding-aware的预训练增强感知,监督微调模仿人类行为,GRPO强化微调提升推理能力,并引入紧凑动作空间降低延迟。
  • Result: 在五个公共基准和新的中文GUI基准CAGUI上达到96.9% Type-Match和91.3% Exact-Match。
  • Conclusion: AgentCPM-GUI在GUI交互任务中表现优异,代码、模型和评估数据已公开以促进进一步研究。

cs.CR

[197] 3D Gaussian Splat Vulnerabilities

Matthew Hull,Haoyang Yang,Pratham Mehta,Mansi Phute,Aeree Cho,Haoran Wang,Matthew Lau,Wenke Lee,Willian T. Lunardi,Martin Andreoni,Polo Chau

Main category: cs.CR

TL;DR: 论文介绍了两种针对3D高斯泼溅(3DGS)的攻击方法:CLOAK和DAGGER,揭示了3DGS在安全关键应用中的潜在漏洞。

  • Motivation: 随着3DGS在安全关键应用中的普及,研究其潜在攻击方式以预防危害变得至关重要。
  • Method: CLOAK利用视角依赖的高斯外观嵌入对抗内容;DAGGER则直接扰动3D高斯数据,欺骗多阶段目标检测器。
  • Result: 实验表明,这些攻击能有效欺骗目标检测器,如Faster R-CNN。
  • Conclusion: 3DGS存在未充分探索的漏洞,可能威胁自动驾驶等安全关键应用。

cs.HC

[198] Vid2Coach: Transforming How-To Videos into Task Assistants

Mina Huh,Zihui Xue,Ujjaini Das,Kumar Ashutosh,Kristen Grauman,Amy Pavel

Main category: cs.HC

TL;DR: Vid2Coach是一个将教学视频转化为可穿戴设备辅助工具的系统,帮助盲人和低视力人群通过详细指令和非视觉解决方案完成任务。

  • Motivation: 盲人和低视力人群难以通过视觉对比学习教学视频,需要替代方案。
  • Method: 系统从视频生成详细指令,结合非视觉解决方案,并通过智能眼镜监控用户进度,提供反馈。
  • Result: 使用Vid2Coach的用户在烹饪任务中错误率降低了58.5%。
  • Conclusion: Vid2Coach展示了AI视觉辅助的潜力,同时保留了非视觉专业知识的重要性。

cs.RO

[199] GaussianFusion: Gaussian-Based Multi-Sensor Fusion for End-to-End Autonomous Driving

Shuai Liu,Quanmin Liang,Zefeng Li,Boyang Li,Kai Huang

Main category: cs.RO

TL;DR: 提出了一种基于高斯分布的多传感器融合框架GaussianFusion,用于端到端自动驾驶,通过高斯表示聚合多模态信息,提升性能和鲁棒性。

  • Motivation: 现有方法在可解释性或计算开销上存在不足,需要一种更高效且直观的融合方式。
  • Method: 使用2D高斯分布作为中间载体,通过物理属性和显隐特征逐步优化多模态信息。
  • Result: 在NAVSIM和Bench2Drive基准测试中验证了框架的有效性和鲁棒性。
  • Conclusion: GaussianFusion提供了一种高效且直观的多传感器融合方法,适用于自动驾驶系统。

[200] From Motion to Behavior: Hierarchical Modeling of Humanoid Generative Behavior Control

Jusheng Zhang,Jinzhou Tang,Sidi Liu,Mingyan Li,Sheng Zhang,Jian Wang,Keze Wang

Main category: cs.RO

TL;DR: 论文提出了一种基于认知科学的统一框架GBC,通过结合大语言模型(LLMs)生成的分层行为计划,建模多样化的高层次意图驱动的人类运动。

  • Motivation: 当前研究主要关注低层次短周期运动或高层次动作规划,忽略了人类活动的分层目标导向特性。
  • Method: 提出GBC框架,结合任务和运动规划,利用LLMs指导运动生成,并创建了GBC-100K数据集。
  • Result: GBC能生成更多样、目的性更强的高质量运动,运动时长比现有方法长10倍。
  • Conclusion: GBC为未来人类行为建模研究奠定了基础,数据集和代码将公开。

[201] Understanding while Exploring: Semantics-driven Active Mapping

Liyan Chen,Huangying Zhan,Hairong Yin,Yi Xu,Philippos Mordohai

Main category: cs.RO

TL;DR: ActiveSGM是一个主动语义建图框架,通过预测潜在观测的信息量来优化机器人探索策略,提升建图的完整性、准确性和鲁棒性。

  • Motivation: 在未知环境中实现机器人自主性需要主动探索和对几何与语义的精确理解。
  • Method: 基于3D高斯散射建图(3DGS)框架,结合语义和几何不确定性量化及稀疏语义表示,指导机器人选择最优视角。
  • Result: 在Replica和Matterport3D数据集上的实验验证了ActiveSGM在主动语义建图任务中的有效性。
  • Conclusion: ActiveSGM通过优化视角选择策略,显著提升了建图质量和适应性。

[202] Using Diffusion Ensembles to Estimate Uncertainty for End-to-End Autonomous Driving

Florian Wintel,Sigmund H. Høeg,Gabriel Kiss,Frank Lindseth

Main category: cs.RO

TL;DR: EnDfuser是一种端到端自动驾驶系统,利用扩散模型作为轨迹规划器,通过集成扩散生成候选轨迹分布,提升驾驶决策的安全性。

  • Motivation: 现有自动驾驶系统在规划中未充分考虑不确定性,或使用不具泛化能力的专用表示方法,EnDfuser旨在解决这一问题。
  • Method: 结合注意力池化和轨迹规划,通过扩散变换器模块处理感知信息,生成128条候选轨迹分布。
  • Result: 在CARLA的Longest6基准测试中取得70.1的驾驶分数,推理速度影响较小。
  • Conclusion: 集成扩散模型可替代传统点估计轨迹规划模块,通过建模轨迹分布不确定性提升驾驶安全性。

[203] OG-VLA: 3D-Aware Vision Language Action Model via Orthographic Image Generation

Ishika Singh,Ankit Goyal,Stan Birchfield,Dieter Fox,Animesh Garg,Valts Blukis

Main category: cs.RO

TL;DR: OG-VLA结合视觉语言动作模型(VLA)的泛化能力和3D感知策略的鲁棒性,提出了一种新架构和学习框架,用于将自然语言指令和多视角RGBD观测映射到准静态机器人动作。

  • Motivation: 解决3D感知策略在未见指令、场景和物体上泛化能力不足,以及VLA对相机和机器人姿态变化敏感的问题。
  • Method: 通过将多视角观测投影为点云并渲染为正交视图,结合视觉骨干网络、大语言模型和图像扩散模型生成末端执行器的位置和方向。
  • Result: 在Arnold和Colosseum基准测试中,OG-VLA在未见环境中的泛化性能提升40%以上,同时在已知场景中保持鲁棒性。
  • Conclusion: OG-VLA通过结合语言和视觉先验知识,显著提升了3D感知策略的泛化能力,并在实际应用中表现出色。

[204] Sparse Imagination for Efficient Visual World Model Planning

Junha Chun,Youngjoon Jeong,Taesup Kim

Main category: cs.RO

TL;DR: 提出了一种稀疏想象方法,通过减少前向预测中的令牌数量,提高世界模型的计算效率,适用于实时决策场景。

  • Motivation: 世界模型在复杂环境中的决策能力强大,但高计算资源需求限制了其在实时应用(如机器人)中的部署。
  • Method: 基于变换器的稀疏训练视觉世界模型,采用随机分组注意力策略,动态调整处理的令牌数量。
  • Result: 稀疏想象方法显著提升了推理效率,同时保持了任务性能。
  • Conclusion: 该方法为世界模型在实时决策中的部署提供了可行方案。

[205] SEMNAV: A Semantic Segmentation-Driven Approach to Visual Semantic Navigation

Rafael Flor-Rodríguez,Carlos Gutiérrez-Álvarez,Francisco Javier Acevedo-Rodríguez,Sergio Lafuente-Arroyo,Roberto J. López-Sastre

Main category: cs.RO

TL;DR: 论文提出SEMNAV方法,利用语义分割作为视觉输入,提升视觉语义导航的泛化能力,并在仿真和真实环境中验证其优越性。

  • Motivation: 现有视觉语义导航模型依赖仿真环境的RGB数据,泛化能力受限,难以适应真实环境。
  • Method: 提出SEMNAV方法,以语义分割为主要视觉输入,结合新构建的SEMNAV数据集,训练导航策略。
  • Result: 在Habitat 2.0仿真环境和真实机器人平台上,SEMNAV表现优于现有方法,成功率高。
  • Conclusion: SEMNAV通过语义分割有效缩小仿真与真实环境的差距,为实际应用提供了可行方案。

[206] FreqPolicy: Frequency Autoregressive Visuomotor Policy with Continuous Tokens

Yiming Zhong,Yumeng Liu,Chuyang Xiao,Zemin Yang,Youzhuo Wang,Yufei Zhu,Ye Shi,Yujing Sun,Xinge Zhu,Yuexin Ma

Main category: cs.RO

TL;DR: 提出一种基于频域的分层动作表示方法,通过连续潜在表征提升机器人操作的精度和效率。

  • Motivation: 现有方法在动作表示和网络架构上存在局限性,频域表示能更有效地捕捉动作的结构化特性。
  • Method: 采用分层频域建模和连续潜在表征,逐步生成动作。
  • Result: 在多种2D和3D机器人操作任务中表现优于现有方法,精度和效率均有提升。
  • Conclusion: 频域自回归框架结合连续表征为通用机器人操作提供了新思路。

[207] WoMAP: World Models For Embodied Open-Vocabulary Object Localization

Tenny Yin,Zhiting Mei,Tao Sun,Lihan Zha,Emily Zhou,Jeremy Bao,Miyu Yamane,Ola Shorinwa,Anirudha Majumdar

Main category: cs.RO

TL;DR: WoMAP是一种用于训练开放词汇对象定位策略的方法,通过高斯点云和世界模型实现高效探索,性能优于现有基线。

  • Motivation: 解决现有方法在泛化性和物理动作生成上的不足,如模仿学习难以泛化,视觉语言模型无法生成物理动作。
  • Method: 使用高斯点云实现真实到模拟再到真实的数据生成,结合开放词汇对象检测器和潜在世界模型进行动态和奖励预测。
  • Result: 在零样本对象定位任务中,WoMAP的成功率比基线方法高9倍和2倍,并展示了强泛化能力和模拟到真实的迁移能力。
  • Conclusion: WoMAP通过创新的数据生成和模型设计,显著提升了对象定位的性能和泛化能力。

[208] DualMap: Online Open-Vocabulary Semantic Mapping for Natural Language Navigation in Dynamic Changing Scenes

Jiajun Jiang,Yiming Zhu,Zirui Wu,Jie Song

Main category: cs.RO

TL;DR: DualMap是一个在线开放词汇映射系统,通过自然语言查询帮助机器人理解和导航动态变化的环境。

  • Motivation: 满足现实世界中机器人导航应用对高效语义映射和环境适应性的需求。
  • Method: 采用混合分割前端和对象级状态检查,避免昂贵的3D对象合并,结合全局抽象地图和局部具体地图的双地图表示。
  • Result: 在3D开放词汇分割、高效场景映射和在线语言引导导航方面表现出最先进的性能。
  • Conclusion: DualMap为动态环境中的机器人导航提供了高效且适应性强的解决方案。

cs.GR

[209] Neural Path Guiding with Distribution Factorization

Pedro Figueiredo,Qihao He,Nima Khademi Kalantari

Main category: cs.GR

TL;DR: 提出了一种神经路径引导方法,用于改进蒙特卡洛积分在渲染中的应用,通过分解2D分布为两个1D概率分布函数,并利用神经网络建模,实现高效且表达力强的分布表示。

  • Motivation: 现有神经方法在分布表示上无法同时兼顾速度和表达力,因此需要一种更高效且表达力强的方法。
  • Method: 将2D方向域分布分解为两个1D概率分布函数,用神经网络建模离散坐标的分布,并通过插值实现任意位置的评估和采样。训练时最大化学习分布与目标分布的相似性,并使用额外网络缓存入射辐射以减少梯度方差。
  • Result: 实验表明,该方法在复杂光照场景中优于现有方法。
  • Conclusion: 该方法在表达力和速度上取得了平衡,适用于复杂光照条件下的渲染任务。

[210] LensCraft: Your Professional Virtual Cinematographer

Zahra Dehghanian,Morteza Abolghasemi,Hossein Azizinaghsh,Amir Vahedi,Hamid Beigy,Hamid R. Rabiee

Main category: cs.GR

TL;DR: LensCraft通过数据驱动方法结合电影摄影原则,解决了自动拍摄系统在机械执行与创意意图之间的权衡问题,提供高精度和实时适应性。

  • Motivation: 数字创作者在将创意转化为精确镜头运动时面临瓶颈,现有系统忽略主体方向和体积,限制了空间感知。
  • Method: 结合专业电影摄影知识,使用高保真模拟框架生成训练数据,并开发轻量级实时神经网络模型,支持多种输入方式。
  • Result: 在静态和动态场景中表现出前所未有的准确性和一致性,计算复杂度低且推理速度快。
  • Conclusion: LensCraft为智能相机系统设定了新标准,提供了高质量、灵活的工具,支持创作者实现创意愿景。

[211] PromptVFX: Text-Driven Fields for Open-World 3D Gaussian Animation

Mert Kiray,Paul Uhlenbruck,Nassir Navab,Benjamin Busam

Main category: cs.GR

TL;DR: 论文提出了一种基于文本驱动的4D流场预测框架,用于快速生成3D动画效果,减少专业知识和时间成本。

  • Motivation: 现代影视、游戏和AR/VR中视觉效果的创作需要专业技能和耗时的手工操作,现有生成方法计算量大且速度慢。
  • Method: 将3D动画重构为场预测任务,利用大语言模型和视觉语言模型生成函数,通过文本指令实时更新3D高斯属性。
  • Result: 实验表明,该方法能通过简单文本指令生成动态视觉效果,显著减少手工操作和建模需求。
  • Conclusion: 该方法为语言驱动的3D内容创作提供了快速、易用的途径,有望进一步普及视觉效果制作。

[212] Silence is Golden: Leveraging Adversarial Examples to Nullify Audio Control in LDM-based Talking-Head Generation

Yuan Gan,Jiaxu Miao,Yunze Wang,Yi Yang

Main category: cs.GR

TL;DR: 论文提出Silencer方法,通过两阶段设计主动保护肖像隐私,解决现有方法无法抵御音频控制和扩散净化的问题。

  • Motivation: 基于LDM的逼真视频生成技术可能被滥用,现有防御方法无法有效保护肖像隐私,亟需解决方案。
  • Method: 提出两阶段方法Silencer:1)使用nullifying loss忽略音频控制;2)应用anti-purification loss优化潜特征生成鲁棒扰动。
  • Result: 实验证明Silencer能有效保护肖像隐私,抵御音频控制和扩散净化。
  • Conclusion: Silencer为AI安全社区提供了解决肖像隐私问题的有效方案,呼吁关注相关伦理问题。

[213] Image Generation from Contextually-Contradictory Prompts

Saar Huberman,Or Patashnik,Omer Dahary,Ron Mokady,Daniel Cohen-Or

Main category: cs.GR

TL;DR: 提出了一种阶段感知的提示分解框架,通过代理提示序列引导去噪过程,解决文本到图像扩散模型在概念组合矛盾时的语义准确性问题。

  • Motivation: 文本到图像扩散模型在生成高质量图像时,常因提示中的概念组合矛盾而失败,定义为上下文矛盾。
  • Method: 使用大型语言模型分析目标提示,识别矛盾并生成替代表达,构建阶段匹配的代理提示序列。
  • Result: 实验表明,该方法显著提高了文本提示的对齐效果。
  • Conclusion: 通过阶段感知的提示分解,实现了在上下文矛盾情况下的精细语义控制和准确图像生成。

eess.IV

[214] Efficient 3D Brain Tumor Segmentation with Axial-Coronal-Sagittal Embedding

Tuan-Luc Huynh,Thanh-Danh Le,Tam V. Nguyen,Trung-Nghia Le,Minh-Triet Tran

Main category: eess.IV

TL;DR: 本文提出了一种改进的脑肿瘤分割方法,通过整合轴向-冠状-矢状卷积和预训练权重,优化了nnU-Net框架,减少了训练时间和参数,并提升了性能。

  • Motivation: 当前nnU-Net在脑肿瘤分割中表现良好,但存在训练时间长和预训练权重利用不足的问题。本文旨在解决这些限制。
  • Method: 结合轴向-冠状-矢状卷积和ImageNet预训练权重,提出两种将2D预训练权重迁移到3D域的策略,并探索联合分类与分割模型。
  • Result: 实验表明,所提方法在快速训练设置下性能与交叉验证模型相当或更优。
  • Conclusion: 通过优化nnU-Net框架,本文方法显著提升了脑肿瘤分割的效率和性能。

[215] UNSURF: Uncertainty Quantification for Cortical Surface Reconstruction of Clinical Brain MRIs

Raghav Mehta,Karthik Gopinath,Ben Glocker,Juan Eugenio Iglesias

Main category: eess.IV

TL;DR: UNSURF是一种用于临床脑MRI扫描皮质表面重建的新型不确定性度量方法,适用于任意方向、分辨率和对比度的扫描。

  • Motivation: 传统的不确定性度量(如体素级蒙特卡洛方差)不适合建模表面放置的不确定性,因此需要一种更有效的方法。
  • Method: UNSURF基于预测的体素级符号距离函数(SDFs)与实际拟合表面的SDFs之间的差异。
  • Result: UNSURF估计与真实误差相关性良好,支持自动化质量控制,并提升阿尔茨海默病分类任务的性能。
  • Conclusion: UNSURF是一种有效的皮质表面重建不确定性度量方法,适用于临床MRI扫描的质量控制和下游任务。

[216] MR2US-Pro: Prostate MR to Ultrasound Image Translation and Registration Based on Diffusion Models

Xudong Ma,Nantheera Anantrasirichai,Stefanos Bolomytis,Alin Achim

Main category: eess.IV

TL;DR: 提出了一种新型两阶段框架,通过TRUS 3D重建和跨模态配准解决前列腺癌诊断中MRI和TRUS的配准难题。

  • Motivation: 多模态成像(MRI和TRUS)在前列腺癌诊断中应用广泛,但因其维度和解剖表示的差异,配准仍具挑战性。
  • Method: 采用两阶段方法:1)基于TRUS视图自然相关性的3D重建;2)通过伪中间模态的无监督扩散框架进行配准,结合解剖感知策略。
  • Result: 实验表明,该方法在无监督情况下实现了更高的配准精度和物理真实的变形。
  • Conclusion: 该框架显著提升了跨模态配准的准确性和实用性。

[217] ABCDEFGH: An Adaptation-Based Convolutional Neural Network-CycleGAN Disease-Courses Evolution Framework Using Generative Models in Health Education

Ruiming Min,Minghao Liu

Main category: eess.IV

TL;DR: 研究探讨了利用卷积神经网络(CNN)和CycleGAN生成合成医学图像,以解决医学教育中高质量教学材料不足的问题。

  • Motivation: 现代医学教育因隐私问题和资源短缺而难以获取高质量教学材料,合成图像技术可提供解决方案。
  • Method: 使用卷积神经网络(CNN)和CycleGAN生成合成医学图像。
  • Result: 成功生成了多样且可比的医学图像数据集,支持医学教育。
  • Conclusion: 合成医学图像技术为医学教育提供了隐私安全的替代方案,具有潜力。

[218] CineMA: A Foundation Model for Cine Cardiac MRI

Yunguan Fu,Weixi Yi,Charlotte Manisty,Anish N Bhuva,Thomas A Treibel,James C Moon,Matthew J Clarkson,Rhodri Huw Davies,Yipeng Hu

Main category: eess.IV

TL;DR: CineMA是一种基于自监督学习的AI模型,用于自动化心脏磁共振(CMR)图像分析,减少标注需求并提高性能。

  • Motivation: 传统CMR图像分析耗时且主观,需要自动化工具减轻临床负担。
  • Method: CineMA通过自监督训练74,916个CMR研究,重建掩码图像,并在8个数据集上微调完成23项任务。
  • Result: CineMA在性能上匹配或超越传统CNN,且标注效率更高。
  • Conclusion: CineMA为心脏影像分析提供了高效基础模型,促进临床转化和可重复性。

[219] NTIRE 2025 the 2nd Restore Any Image Model (RAIM) in the Wild Challenge

Jie Liang,Radu Timofte,Qiaosi Yi,Zhengqiang Zhang,Shuaizheng Liu,Lingchen Sun,Rongyuan Wu,Xindong Zhang,Hui Zeng,Lei Zhang

Main category: eess.IV

TL;DR: NTIRE 2025挑战赛聚焦于真实世界图像修复,分为两个赛道:低光联合去噪与去马赛克任务和图像细节增强/生成任务,吸引了大量参与者并推动了技术发展。

  • Motivation: 为真实世界图像修复建立新基准,解决复杂未知退化问题,同时评估感知质量和保真度。
  • Method: 挑战赛分为两个赛道,每个赛道包含两个子任务:一个使用配对数据进行定量评估,另一个处理未配对数据,强调主观质量评估。
  • Result: 吸引了300注册和51团队提交600+结果,顶尖方法推动了图像修复技术发展,并获得专家认可。
  • Conclusion: NTIRE 2025挑战赛成功推动了图像修复领域的技术进步,并为未来研究提供了新基准。

[220] RAW Image Reconstruction from RGB on Smartphones. NTIRE 2025 Challenge Report

Marcos V. Conde,Radu Timofte,Radu Berdan,Beril Besbinar,Daisuke Iso,Pengzhou Ji,Xiong Dun,Zeying Fan,Chen Wu,Zhansheng Wang,Pengbo Zhang,Jiazi Huang,Qinglin Liu,Wei Yu,Shengping Zhang,Xiangyang Ji,Kyungsik Kim,Minkyung Kim,Hwalmin Lee,Hekun Ma,Huan Zheng,Yanyan Wei,Zhao Zhang,Jing Fang,Meilin Gao,Xiang Yu,Shangbin Xie,Mengyuan Sun,Huanjing Yue,Jingyu Yang Huize Cheng,Shaomeng Zhang,Zhaoyang Zhang,Haoxiang Liang

Main category: eess.IV

TL;DR: 本文介绍了NTIRE 2025挑战赛中关于从sRGB图像重建RAW数据(Reverse ISP)的研究,旨在通过无元数据的sRGB图像恢复智能手机的RAW传感器图像。

  • Motivation: 由于RAW图像数据集稀缺且收集成本高,而sRGB数据集丰富且公开,因此研究如何从sRGB图像生成真实RAW数据具有重要意义。
  • Method: 挑战赛吸引了150多名参与者提交高效模型,通过逆向ISP变换从sRGB图像恢复RAW传感器图像。
  • Result: 提出的方法和基准测试确立了生成真实RAW数据的最新技术水平。
  • Conclusion: 该研究为RAW数据生成领域提供了新的技术突破和基准。

[221] A European Multi-Center Breast Cancer MRI Dataset

Gustav Müller-Franzes,Lorena Escudero Sánchez,Nicholas Payne,Alexandra Athanasiou,Michael Kalogeropoulos,Aitor Lopez,Alfredo Miguel Soro Busto,Julia Camps Herrero,Nika Rasoolzadeh,Tianyu Zhang,Ritse Mann,Debora Jutz,Maike Bode,Christiane Kuhl,Wouter Veldhuis,Oliver Lester Saldanha,JieFu Zhu,Jakob Nikolas Kather,Daniel Truhn,Fiona J. Gilbert

Main category: eess.IV

TL;DR: 论文探讨了利用AI和MRI辅助乳腺癌早期检测的必要性,并介绍了公开数据集以支持相关AI工具的开发。

  • Motivation: 乳腺癌早期检测对治疗至关重要,MRI作为补充筛查工具的需求增加,但专家解读耗时,需自动化方法支持。
  • Method: 提出利用AI和MRI技术开发自动化工具,辅助放射科医生解读和分类乳腺MRI图像。
  • Result: 欧洲乳腺影像学会推荐MRI作为高密度乳腺组织的补充筛查工具,ODELIA联盟公开数据集支持AI开发。
  • Conclusion: AI结合MRI有望提升乳腺癌早期检测效率,公开数据集将加速相关技术的进步。

[222] Image Restoration Learning via Noisy Supervision in the Fourier Domain

Haosen Liu,Jiahao Liu,Shan Tan,Edmund Y. Lam

Main category: eess.IV

TL;DR: 本文提出了一种在傅里叶域中建立噪声监督的方法,解决了现有方法在处理空间相关噪声和有限监督信息方面的不足。

  • Motivation: 现有方法在处理空间相关噪声和提供有限监督信息方面存在不足,傅里叶域的特性为解决这些问题提供了可能。
  • Method: 利用傅里叶系数的稀疏性和独立性,建立噪声监督,并证明其与使用干净目标的等价性。
  • Result: 实验验证了该方法在定量指标和感知质量上的优异表现。
  • Conclusion: 该方法为图像修复任务提供了一个统一且有效的学习框架。

astro-ph.IM

[223] Applying Vision Transformers on Spectral Analysis of Astronomical Objects

Luis Felipe Strano Moraes,Ignacio Becker,Pavlos Protopapas,Guillermo Cabrera-Vives

Main category: astro-ph.IM

TL;DR: 将预训练的视觉Transformer(ViT)应用于天文光谱数据分析,通过将一维光谱转换为二维图像表示,利用空间自注意力捕捉局部和全局特征。在SDSS和LAMOST数据上微调ViT,并在恒星分类和红移估计任务中表现优异。

  • Motivation: 探索预训练视觉模型在天文光谱分析中的潜力,首次将ViT应用于大规模真实光谱数据。
  • Method: 将一维光谱转换为二维图像,利用预训练的ViT进行微调,捕捉光谱的局部和全局特征。
  • Result: 在恒星分类和红移估计任务中表现优于传统方法(如SVM和随机森林),且与AstroCLIP性能相当。
  • Conclusion: 预训练的ViT在天文光谱分析中具有高效性和可扩展性,为未来研究提供了新方向。

cs.SD

[224] Learning Sparsity for Effective and Efficient Music Performance Question Answering

Xingjian Diao,Tianzhen Yang,Chunhui Zhang,Weiyi Wu,Ming Cheng,Jiang Gui

Main category: cs.SD

TL;DR: 论文提出了一种名为Sparsify的稀疏学习框架,用于解决音乐表演音频视觉问答(Music AVQA)中的效率问题,通过三种稀疏化策略提升了性能并减少了训练时间。

  • Motivation: 音乐表演的密集连续音频和音频视觉无缝集成给多模态场景理解和推理带来挑战,现有方法存在信息冗余和效率低下的问题。
  • Method: 提出了Sparsify框架,集成三种稀疏化策略,并设计了一个关键子集选择算法以提高数据效率。
  • Result: Sparsify在Music AVQA数据集上达到最优性能,训练时间减少28.32%,同时保持准确性;关键子集选择算法仅使用25%的训练数据,性能保留70-80%。
  • Conclusion: Sparsify框架有效提升了Music AVQA任务的效率和性能,为多模态学习提供了新思路。

上次更新于: