Skip to content
每日arXiv - 2025年5月23日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] Multilinear subspace learning for person re-identification based fusion of high order tensor features

Ammar Chouchane,Mohcene Bessaoudi,Hamza Kheddar,Abdelmalik Ouamane,Tiago Vieira,Mahmoud Hassaballah

Main category: cs.CV

TL;DR: 论文提出了一种高维特征融合方法(HDFF)结合CNN和LOMO特征,通过张量交叉视图二次分析(TXQDA)提升行人重识别(PRe-ID)的准确性。

  • Motivation: 行人重识别(PRe-ID)是视频监控中的关键任务,但现有方法在特征提取和表示上仍有不足。
  • Method: 采用HDFF融合CNN和LOMO特征,引入张量融合方案,并使用TXQDA进行多线性子空间学习。
  • Result: 在VIPeR、GRID和PRID450S数据集上验证,性能优于现有方法。
  • Conclusion: HDFF和TXQDA的结合显著提升了PRe-ID的准确性和鲁棒性。

[2] Generative AI for Autonomous Driving: A Review

Katharina Winter,Abhishek Vivekanandan,Rupert Polley,Yinzhe Shen,Christian Schlauch,Mohamed-Khalil Bouzidi,Bojan Derajic,Natalie Grabowsky,Annajoyce Mariani,Dennis Rochau,Giovanni Lucente,Harsh Yadav,Firas Mualla,Adam Molin,Sebastian Bernhard,Christian Wirth,Ömer Şahin Taş,Nadja Klein,Fabian B. Flohr,Hanno Gottschalk

Main category: cs.CV

TL;DR: 论文探讨了生成式AI在自动驾驶中的应用,比较了多种生成模型的能力与局限,并提出了未来研究方向。

  • Motivation: 生成式AI在自动驾驶领域的潜力尚未充分挖掘,本文旨在探索其如何提升静态地图创建、动态场景生成等任务。
  • Method: 研究了VAEs、GANs、INNs、GTs和DMs等多种生成模型,并讨论了与传统技术的混合方法。
  • Result: 生成式AI在自动驾驶任务中表现出改进的适应性和鲁棒性,但仍面临安全、可解释性和实时性挑战。
  • Conclusion: 论文总结了生成式AI在自动驾驶中的应用前景,并提出了未来研究的核心挑战和建议。

[3] How Do Large Vision-Language Models See Text in Image? Unveiling the Distinctive Role of OCR Heads

Ingeol Baek,Hwan Chang,Sunghyun Ryu,Hwanhee Lee

Main category: cs.CV

TL;DR: 论文研究了大型视觉语言模型(LVLMs)中负责识别图像文本的特定头部(OCR Head),发现其具有低稀疏性、独特性和静态激活特性,并通过下游任务验证了这些发现。

  • Motivation: 探索LVLMs在图像中定位和解释文本信息的机制,填补其在可解释性方面的研究空白。
  • Method: 通过分析多种LVLMs,识别OCR Head,并研究其特性(稀疏性、独特性、静态激活),通过下游任务(如CoT和头部掩码)验证。
  • Result: OCR Head具有低稀疏性、独特性和静态激活特性,通过调整其sink-token值可提升性能。
  • Conclusion: 研究揭示了LVLMs处理图像文本的内部机制,为模型优化提供了新思路。

[4] SCENIR: Visual Semantic Clarity through Unsupervised Scene Graph Retrieval

Nikolaos Chaidos,Angeliki Dimitriou,Maria Lymperaiou,Giorgos Stamou

Main category: cs.CV

TL;DR: 论文提出了一种基于场景图的图像检索框架SCENIR,通过无监督的图自编码器减少对标注数据的依赖,并在性能和效率上优于现有方法。

  • Motivation: 现有卷积和Transformer架构在图像检索中易受低层视觉特征(如颜色)的偏见影响,且缺乏语义理解。此外,基于监督GNN的方法依赖不一致的标注数据。
  • Method: 提出SCENIR,一种基于图自编码器的无监督检索框架,利用图编辑距离(GED)作为场景图相似性的确定性度量。
  • Result: SCENIR在多项指标和运行效率上优于现有方法,并在未标注数据集上展示了良好的泛化能力。
  • Conclusion: SCENIR通过无监督学习和GED度量,显著提升了图像检索的语义理解和可靠性,推动了反事实图像检索的进展。

[5] Satellites Reveal Mobility: A Commuting Origin-destination Flow Generator for Global Cities

Can Rong,Xin Zhang,Yanxin Xi,Hongjie Sui,Jingtao Ding,Yong Li

Main category: cs.CV

TL;DR: GlODGen利用卫星图像和人口数据生成全球城市的通勤OD流数据,替代传统高成本数据收集方法。

  • Motivation: 传统获取通勤OD流数据的方法成本高且涉及隐私问题,而卫星图像提供了丰富的城市语义信号。
  • Method: GlODGen结合视觉-语言地理基础模型提取卫星图像中的语义信号,并通过图扩散模型生成OD流数据。
  • Result: 在六大洲六个城市的实验中,GlODGen生成的OD流数据与真实数据高度一致。
  • Conclusion: GlODGen是一种自动化工具,可高效生成全球城市的通勤OD流数据。

[6] Decouple and Orthogonalize: A Data-Free Framework for LoRA Merging

Shenghe Zheng,Hongzhi Wang,Chenyu Huang,Xiaohui Wang,Tao Chen,Jiayuan Fan,Shuyue Hu,Peng Ye

Main category: cs.CV

TL;DR: 论文提出了一种名为DO-Merging的解耦正交合并方法,用于解决LoRA模块合并时参数幅度差异大导致的性能下降问题。

  • Motivation: 当前研究主要关注全微调模型的合并,忽视了流行的LoRA模块。实证分析发现,现有合并方法在LoRA上表现不佳,且参数幅度差异大导致合并性能下降。
  • Method: 通过将参数分解为幅度和方向分量并独立合并,减少幅度差异对方向对齐的影响。同时引入无数据、分层梯度下降方法,结合正交约束减少方向合并时的干扰。
  • Result: DO-Merging在视觉、语言和多模态领域显著优于现有合并方法,且各组件可灵活集成现有方法,实现近乎免费的改进。
  • Conclusion: DO-Merging有效解决了LoRA合并中的性能问题,具有理论保证和实际应用价值。

[7] Highlighting What Matters: Promptable Embeddings for Attribute-Focused Image Retrieval

Siting Li,Xiang Gao,Simon Shaolei Du

Main category: cs.CV

TL;DR: 论文提出了一种基于提示的图像嵌入方法,用于改进文本到图像检索中属性相关查询的性能,并通过实验验证了其有效性。

  • Motivation: 现有文本到图像检索器(如CLIP)在处理属性相关查询时表现不佳,因为它们倾向于关注全局语义而忽略细节。
  • Method: 提出使用可提示的图像嵌入方法,通过多模态检索器生成嵌入,并采用预处理和线性近似策略加速。
  • Result: 实验表明,该方法显著提升了检索性能(Recall@5提升15%和8%)。
  • Conclusion: 可提示的图像嵌入方法是一种有效的解决方案,适用于多种查询类型和检索器架构。

[8] GRIT: Teaching MLLMs to Think with Images

Yue Fan,Xuehai He,Diji Yang,Kaizhi Zheng,Ching-Chen Kuo,Yuting Zheng,Sravana Jyothi Narayanaraju,Xinze Guan,Xin Eric Wang

Main category: cs.CV

TL;DR: GRIT是一种结合视觉和语言的新方法,通过强化学习训练多模态语言模型生成视觉基础推理链。

  • Motivation: 现有视觉推理模型仅用自然语言生成推理内容,缺乏视觉信息的显式整合,限制了其推理能力。
  • Method: GRIT引入基于GRPO算法的强化学习方法GRPO-GR,生成交替自然语言和边界框坐标的推理链,无需标注数据。
  • Result: GRIT仅需20个图像-问题-答案三元组即可高效训练模型,生成连贯且视觉基础的推理链。
  • Conclusion: GRIT成功统一了推理与视觉基础能力,为多模态推理提供了新方向。

[9] Challenger: Affordable Adversarial Driving Video Generation

Zhiyuan Xu,Bohan Li,Huan-ang Gao,Mingju Gao,Yong Chen,Ming Liu,Chenxu Yan,Hang Zhao,Shuo Feng,Hao Zhao

Main category: cs.CV

TL;DR: Challenger框架生成逼真的对抗性驾驶视频,通过物理感知的轨迹优化和评分函数,显著提升自动驾驶模型的碰撞率。

  • Motivation: 当前方法主要关注普通驾驶场景,缺乏逼真的对抗性传感器数据以测试自动驾驶系统。
  • Method: 采用多轮轨迹优化和评分函数,生成物理合理且逼真的对抗性驾驶视频。
  • Result: 在nuScenes数据集上生成多样对抗场景,显著提高多个自动驾驶模型的碰撞率。
  • Conclusion: Challenger能有效生成逼真对抗视频,且对抗行为在不同模型间具有可迁移性。

[10] ViQAgent: Zero-Shot Video Question Answering via Agent with Open-Vocabulary Grounding Validation

Tony Montes,Fernando Lozano

Main category: cs.CV

TL;DR: 该论文提出了一种结合Chain-of-Thought框架和YOLO-World的LLM-brained代理,用于零样本视频问答(VideoQA),提升了对象跟踪和语言模型输出的对齐能力,并在多个基准测试中取得了最佳性能。

  • Motivation: 当前VideoQA系统在对象跟踪和基于推理的决策方面仍有改进空间,尤其是在对象引用与语言模型输出的对齐上。
  • Method: 采用Chain-of-Thought框架和YOLO-World,结合动态代理和基于记忆的机制,提升对象跟踪和推理能力。
  • Result: 在NExT-QA、iVQA和ActivityNet-QA等基准测试中取得了新的最佳性能,并支持跨时间段的验证。
  • Conclusion: 该方法显著提升了VideoQA的性能和可靠性,为多领域视频理解提供了支持。

[11] VideoGameQA-Bench: Evaluating Vision-Language Models for Video Game Quality Assurance

Mohammad Reza Taesiri,Abhijay Ghildyal,Saman Zadtootaghaj,Nabajeet Barman,Cor-Paul Bezemer

Main category: cs.CV

TL;DR: 论文介绍了VideoGameQA-Bench,一个用于评估视觉语言模型在游戏QA任务中性能的标准化基准。

  • Motivation: 游戏行业收入高,但QA流程劳动密集且自动化不足,需要标准化基准来评估VLMs的潜力。
  • Method: 提出VideoGameQA-Bench,涵盖多种游戏QA任务,如视觉单元测试、回归测试、故障检测等。
  • Result: 提供了涵盖图像和视频的全面基准,代码和数据公开可用。
  • Conclusion: VideoGameQA-Bench填补了现有基准的不足,为游戏QA领域的VLMs评估提供了标准化工具。

[12] Super-Resolution with Structured Motion

Gabby Litterio,Juan-David Lizarazo-Ferro,Pedro Felzenszwalb,Rashid Zia

Main category: cs.CV

TL;DR: 论文探讨了利用成像约束实现超分辨率的极限,提出通过高精度运动信息、稀疏图像先验和凸优化实现大幅分辨率提升,并证明运动模糊对超分辨率有帮助。

  • Motivation: 传统重建方法因理论和实践限制,分辨率提升有限,且运动模糊通常被视为障碍。本文旨在突破这些限制。
  • Method: 结合高精度运动信息、稀疏图像先验和凸优化,利用伪随机运动从单张低分辨率图像重建高分辨率目标。
  • Result: 实验证明,该方法能完美重建稀疏信号,并在模拟和真实数据中验证了其有效性。
  • Conclusion: 通过凸优化和运动模糊的利用,实现了大幅超分辨率提升,为相关领域提供了新思路。

[13] OViP: Online Vision-Language Preference Learning

Shujun Liu,Siyuan Wang,Zejun Li,Jianxiang Wang,Cheng Zeng,Zhongyu Wei

Main category: cs.CV

TL;DR: OViP框架通过动态构建对比训练数据,减少大视觉语言模型的幻觉问题,同时保持多模态能力。

  • Motivation: 大视觉语言模型(LVLMs)容易产生与视觉输入不符的幻觉内容,现有方法依赖预定义或随机编辑的负样本,效果有限。
  • Method: 提出在线视觉语言偏好学习(OViP)框架,动态生成基于模型自身幻觉输出的对比数据,利用扩散模型合成负样本。
  • Result: 实验表明,OViP有效减少幻觉,同时保持多模态能力。
  • Conclusion: OViP通过实时生成相关监督信号,提升模型对齐能力,并优化了幻觉抑制与表达力的平衡。

[14] Pixel Reasoner: Incentivizing Pixel-Space Reasoning with Curiosity-Driven Reinforcement Learning

Alex Su,Haozhe Wang,Weimin Ren,Fangzhen Lin,Wenhu Chen

Main category: cs.CV

TL;DR: 论文提出了一种在像素空间中进行推理的新框架,通过视觉操作增强视觉语言模型(VLMs)的推理能力,显著提升了视觉任务的性能。

  • Motivation: 现有的链式思维推理仅限于文本空间,限制了在视觉密集型任务中的效果。为了解决这一问题,作者探索了像素空间推理的可能性。
  • Method: 采用两阶段训练方法:指令调优和强化学习(RL),引入视觉操作(如放大和选择帧)以提升VLMs的视觉推理能力。
  • Result: 7B模型在多个视觉推理基准测试中表现优异,如V* bench(84%)、TallyQA-Complex(74%)和InfographicsVQA(84%)。
  • Conclusion: 像素空间推理对提升VLMs性能至关重要,提出的框架有效且具有潜力。

[15] Analyzing Hierarchical Structure in Vision Models with Sparse Autoencoders

Matthew Lyle Olson,Musashi Hinck,Neale Ratzlaff,Changbai Li,Phillip Howard,Vasudev Lal,Shao-Yen Tseng

Main category: cs.CV

TL;DR: 本文利用稀疏自编码器(SAEs)分析深度视觉模型如何编码ImageNet层次结构,发现模型激活中存在隐含的层次关系。

  • Motivation: 探索视觉模型是否能够学习并编码ImageNet层次结构,以理解其内部表示与人类定义的分类学结构的一致性。
  • Method: 使用稀疏自编码器(SAEs)分析视觉模型(如DINOv2)的内部表示,研究其激活中的层次关系。
  • Result: SAEs揭示了模型激活中的层次关系,表明视觉模型隐含地编码了分类学结构。
  • Conclusion: SAEs为系统分析视觉模型的层次表示提供了框架,并展示了其在探测深度网络语义结构中的潜力。

[16] Domain Adaptive Skin Lesion Classification via Conformal Ensemble of Vision Transformers

Mehran Zoravar,Shadi Alijani,Homayoun Najjaran

Main category: cs.CV

TL;DR: 本文提出了一种名为CE-ViTs的新框架,通过集成视觉Transformer模型和域适应技术,提升了图像分类的鲁棒性和不确定性估计。

  • Motivation: 在医学影像等关键领域,深度学习模型的可靠性至关重要。传统方法在域偏移场景下表现不佳,需要一种更稳健的解决方案。
  • Method: 采用集成视觉Transformer模型,结合HAM10000、Dermofit和ISIC数据集进行训练,并通过共形学习增强域适应能力。
  • Result: 实验结果显示,CE-ViTs的覆盖率达到90.38%,比单一模型提高了9.95%,且对难分类样本的预测集大小从1.86增加到3.075。
  • Conclusion: CE-ViTs通过集成学习和共形预测显著提升了模型的鲁棒性和不确定性估计能力,适用于域偏移场景。

[17] Image-to-Image Translation with Diffusion Transformers and CLIP-Based Image Conditioning

Qiang Zhu,Kuan Lu,Menghao Huo,Yuxiao Li

Main category: cs.CV

TL;DR: 本文提出了一种基于扩散模型的图像到图像转换框架,结合Diffusion Transformers(DiT)和CLIP编码器,通过语义一致性损失和感知损失实现高质量转换。

  • Motivation: 探索扩散模型在图像到图像转换任务中的应用,结合DiT的全局建模能力和CLIP的语义引导,以替代传统的GAN模型。
  • Method: 使用DiT框架,结合CLIP编码器提取的图像嵌入作为条件,引入CLIP相似性损失和LPIPS感知损失进行训练。
  • Result: 在face2comics和edges2shoes数据集上验证了方法的有效性,实现了高质量且语义一致的图像转换。
  • Conclusion: DiT结合CLIP条件化和感知目标,为图像到图像转换任务提供了一种有前景的替代方案。

[18] Position: Agentic Systems Constitute a Key Component of Next-Generation Intelligent Image Processing

Jinjin Gu

Main category: cs.CV

TL;DR: 该立场论文主张图像处理领域应从纯模型中心开发扩展到包括代理系统设计,以解决当前方法的局限性。

  • Motivation: 当前深度学习在图像处理任务中表现出色,但在泛化性、适应性和灵活性方面存在不足,需要新的范式。
  • Method: 提出开发智能代理系统,动态选择和优化现有工具,模拟人类专家的策略性组合能力。
  • Result: 分析了模型中心范式的局限性,并建立了代理系统的设计原则和能力级别。
  • Conclusion: 代理系统设计是图像处理领域的下一步发展方向,能克服单一模型的脆弱性。

[19] CP-LLM: Context and Pixel Aware Large Language Model for Video Quality Assessment

Wen Wen,Yaohong Wu,Yue Sheng,Neil Birkbeck,Balu Adsumilli,Yilin Wang

Main category: cs.CV

TL;DR: CP-LLM是一种新型多模态大语言模型,通过双视觉编码器分别分析视频上下文和像素失真,结合语言解码器实现全面视频质量评估。

  • Motivation: 传统VQA模型缺乏对视频上下文的理解,而现有LLM模型对小失真不敏感或将评分与描述分开处理。CP-LLM旨在解决这些问题。
  • Method: CP-LLM采用双视觉编码器分别处理高/低层次信息,语言解码器分析两者关系,通过多任务训练优化评分、描述生成和对比任务。
  • Result: 实验表明CP-LLM在VQA基准测试中表现最优,对小失真更敏感,评分和描述能力均优于现有模型。
  • Conclusion: CP-LLM为视频质量评估提供了全面且实用的解决方案,适用于真实场景。

[20] Learning better representations for crowded pedestrians in offboard LiDAR-camera 3D tracking-by-detection

Shichao Li,Peiliang Li,Qing Lian,Peng Yun,Xiaozhi Chen

Main category: cs.CV

TL;DR: 论文提出了一种用于高密度行人场景的3D多目标跟踪基准和自动标注系统,通过学习高分辨率、密度感知和关系感知的表示,显著提升了3D行人跟踪性能。

  • Motivation: 解决高密度城市环境中行人感知的困难,尤其是点云稀疏和缺乏合适基准的问题。
  • Method: 收集多视角LiDAR-相机3D跟踪基准,构建离线自动标注系统,并学习高分辨率、密度感知和关系感知的表示。
  • Result: 实验验证了方法显著提升了3D行人跟踪性能,提高了自动标注效率。
  • Conclusion: 该方法为高密度行人场景的3D跟踪提供了有效解决方案,代码将公开。

[21] An Approach Towards Identifying Bangladeshi Leaf Diseases through Transfer Learning and XAI

Faika Fairuj Preotee,Shuvashis Sarker,Shamim Rahim Refat,Tashreef Muhammad,Shifat Islam

Main category: cs.CV

TL;DR: 研究提出了一种基于深度学习的植物叶片疾病分类方法,旨在提高疾病检测准确性并减少对专家依赖。

  • Motivation: 为孟加拉国农民提供高效、易用的植物叶片疾病识别方案,以应对农业在粮食安全中的关键作用。
  • Method: 采用CNN和迁移学习模型(如VGG16、VGG19等)以及XAI技术(如GradCAM)进行分类和模型解释。
  • Result: VGG19和Xception模型表现最佳,准确率分别达98.90%和98.66%。
  • Conclusion: 该方法不仅提升了疾病管理效率,还通过透明化模型决策支持农民做出更明智的决策。

[22] An Exploratory Approach Towards Investigating and Explaining Vision Transformer and Transfer Learning for Brain Disease Detection

Shuvashis Sarker,Shamim Rahim Refat,Faika Fairuj Preotee,Shifat Islam,Tashreef Muhammad,Mohammad Ashraful Hoque

Main category: cs.CV

TL;DR: 该研究比较了Vision Transformer(ViT)和多种迁移学习模型(如VGG16、VGG19等)在MRI数据上对脑部疾病分类的效果,ViT表现最佳,准确率达94.39%,并结合可解释AI方法提升模型透明度。

  • Motivation: 脑部疾病诊断复杂,MRI图像解读困难,研究旨在通过先进模型和可解释AI方法提高诊断精度。
  • Method: 使用ViT和迁移学习模型(VGG16、VGG19等)对MRI数据进行分类,并应用GradCAM等XAI方法解释模型预测。
  • Result: ViT在分类任务中表现最优,准确率达94.39%,XAI方法增强了模型的可解释性。
  • Conclusion: ViT结合XAI方法在脑部疾病分类中效果显著,为医疗诊断提供了更精确的工具。

[23] GMatch: Geometry-Constrained Feature Matching for RGB-D Object Pose Estimation

Ming Yang,Haoran Li

Main category: cs.CV

TL;DR: GMatch是一种无需学习的特征匹配方法,用于稳健的6DoF物体姿态估计,通过几何一致性解决稀疏特征匹配中的局部模糊问题。

  • Motivation: 传统方法仅依赖描述符相似性,无法有效处理稀疏特征匹配中的局部模糊问题,GMatch旨在通过几何一致性解决这一问题。
  • Method: GMatch采用增量搜索和SE(3)不变的几何一致性约束,利用几何特征唯一确定3D关键点配置,无需训练或GPU支持。
  • Result: 在HOPE和YCB-Video数据集上,GMatch-SIFT表现优于传统和学习方法,实现了高精度和低方差。
  • Conclusion: GMatch-SIFT不仅验证了其在物体姿态估计中的有效性,还展示了其作为通用特征匹配器的广泛适用性。

[24] Steering LVLMs via Sparse Autoencoder for Hallucination Mitigation

Zhenglin Hua,Jinghan He,Zijun Yao,Tianxu Han,Haiyun Guo,Yuheng Jia,Junfeng Fang

Main category: cs.CV

TL;DR: 论文提出了一种基于稀疏自编码器(SAE)的无训练方法SSL,用于减少大型视觉语言模型(LVLM)中的幻觉问题,效果优于现有方法且计算成本低。

  • Motivation: 大型视觉语言模型在多模态任务中表现优异,但存在幻觉问题,即生成与视觉输入不一致的文本。现有方法计算成本高,且效果有限。
  • Method: 利用稀疏自编码器识别与幻觉或实际语义相关的方向,提出SSL方法,通过干预这些方向来减少幻觉。
  • Result: 实验表明,SSL在减少幻觉方面显著优于现有解码方法,且具有跨模型架构的迁移性和低时间开销。
  • Conclusion: SSL是一种高效且无需训练的方法,能有效减少LVLM中的幻觉问题,适用于实际应用。

[25] When VLMs Meet Image Classification: Test Sets Renovation via Missing Label Identification

Zirui Pang,Haosheng Tan,Yuhan Pu,Zhijie Deng,Zhouan Shen,Keyu Hu,Jiaheng Wei

Main category: cs.CV

TL;DR: 论文提出REVEAL框架,结合视觉语言模型和标签清理方法,解决图像分类数据集中噪声标签和缺失标签问题,显著提升6个基准测试集的质量。

  • Motivation: 现有数据集存在噪声标签和缺失标签问题,导致模型评估不准确,现有方法主要关注噪声标签,而缺失标签问题被忽视。
  • Method: REVEAL整合预训练视觉语言模型(如LLaVA、BLIP)和标签清理方法(如Docta、Cleanlab),通过置信度预测和共识过滤检测噪声和缺失标签。
  • Result: REVEAL显著提升了6个基准测试集的质量,并通过人类验证,结果与人类判断高度一致。
  • Conclusion: REVEAL有效解决了噪声和缺失标签问题,为图像分类提供了更准确的评估基准。

[26] Training-Free Reasoning and Reflection in MLLMs

Hongchen Wei,Zhenzhong Chen

Main category: cs.CV

TL;DR: 论文提出FRANK模型,无需训练即可为现有多模态大语言模型(MLLM)注入推理能力,通过分层权重合并方法,在深层解码器中融入推理能力,同时在浅层解码器中保留视觉基础。实验显示其性能优于现有基线。

  • Motivation: 现有推理大语言模型(LLM)难以扩展到多模态领域,主要因训练成本高且高质量多模态推理数据集稀缺。
  • Method: 采用分层权重合并方法,结合视觉预训练的MLLM和推理专用LLM,提出基于泰勒展开的闭式融合机制。
  • Result: 在MMMU基准测试中,FRANK-38B准确率达69.2,优于基线模型InternVL2.5-38B(+5.3),甚至超过GPT-4o。
  • Conclusion: FRANK模型无需训练即可显著提升多模态推理能力,为多模态领域提供高效解决方案。

[27] BadDepth: Backdoor Attacks Against Monocular Depth Estimation in the Physical World

Ji Guo,Long Zhou,Zhijin Wang,Jiaming He,Qiyang Song,Aiguo Chen,Wenbo Jiang

Main category: cs.CV

TL;DR: 论文提出了BadDepth,首个针对单目深度估计(MDE)模型的后门攻击方法,通过选择性操纵目标物体深度并生成中毒数据集,验证了其在数字和物理世界中的有效性。

  • Motivation: 现有后门攻击方法无法直接应用于MDE模型,因其标签形式为深度图,因此需要填补这一研究空白。
  • Method: 提出BadDepth方法,利用图像分割模型选择性操纵目标物体深度,并通过深度补全恢复周围区域,生成中毒数据集。同时引入数字到物理的增强技术以适应物理世界场景。
  • Result: 在多个模型上的实验验证了BadDepth在数字和物理世界中的有效性,且不受环境因素影响。
  • Conclusion: BadDepth是首个针对MDE模型的后门攻击方法,填补了研究空白,并在实际场景中表现出色。

[28] Breaking Complexity Barriers: High-Resolution Image Restoration with Rank Enhanced Linear Attention

Yuang Ai,Huaibo Huang,Tao Wu,Qihang Fan,Ran He

Main category: cs.CV

TL;DR: 论文提出了一种名为RELA的线性注意力增强方法,并基于此构建了高效的图像恢复Transformer模型LAformer,解决了传统Transformer在高分辨率图像处理中的计算复杂性问题。

  • Motivation: Transformer在图像恢复任务中表现优异,但其自注意力的二次复杂度限制了其在高分辨率图像上的应用。现有方法通过稀疏或窗口注意力缓解问题,但牺牲了全局上下文建模能力。
  • Method: 提出Rank Enhanced Linear Attention (RELA),通过轻量级深度卷积增强特征表示。基于RELA构建LAformer模型,结合线性注意力和通道注意力实现高效全局感知,并通过卷积门控前馈网络增强局部拟合能力。
  • Result: LAformer在7个图像恢复任务和21个基准测试中表现优于现有方法,并显著提升了计算效率。
  • Conclusion: LAformer通过线性注意力和卷积增强,实现了高效且高性能的图像恢复,适用于高分辨率图像处理。

[29] Deep Learning-Driven Ultra-High-Definition Image Restoration: A Survey

Liyan Wang,Weixiang Zhou,Cong Wang,Kin-Man Lam,Zhixun Su,Jinshan Pan

Main category: cs.CV

TL;DR: 本文系统综述了超高清(UHD)图像修复领域的最新进展,涵盖数据集构建、算法设计等方面,并提出了分类框架和未来研究方向。

  • Motivation: 解决超高清图像质量退化问题,总结深度学习在该领域的创新,为研究者提供全面参考。
  • Method: 总结退化模型,整理现有数据集和文献,分类网络架构和采样策略,评估现有方法。
  • Result: 提出了基于网络架构和采样策略的分类框架,并总结了当前研究进展和技术发展。
  • Conclusion: 文章为UHD图像修复领域提供了系统综述,并指出了未来研究的潜在方向。

[30] RE-TRIP : Reflectivity Instance Augmented Triangle Descriptor for 3D Place Recognition

Yechan Park,Gyuhyeon Pak,Euntai Kim

Main category: cs.CV

TL;DR: 本文提出了一种名为RE-TRIP的新型3D地点识别描述符,结合几何测量和反射率信息,提升了在挑战性场景中的鲁棒性。

  • Motivation: 现有LiDAR地点识别方法仅依赖几何信息,忽略了反射率数据,导致在几何退化、高相似性或动态对象场景中表现不佳。
  • Method: 提出RE-TRIP描述符,包括关键点提取、实例分割、匹配方法和反射率验证方法。
  • Result: 在多个公开数据集上,RE-TRIP表现优于现有方法(如Scan Context、Intensity Scan Context和STD)。
  • Conclusion: 结合几何和反射率信息的RE-TRIP显著提升了地点识别的鲁棒性和准确性。

[31] TRAIL: Transferable Robust Adversarial Images via Latent diffusion

Yuhao Xue,Zhifei Zhang,Xinyang Jiang,Yifei Shen,Junyao Gao,Wentao Gu,Jiale Zhao,Miaojing Shi,Cairong Zhao

Main category: cs.CV

TL;DR: TRAIL提出了一种基于潜在扩散模型的测试时适应框架,通过结合对抗目标和感知约束,生成分布对齐的对抗样本,显著提升了跨模型攻击的可迁移性。

  • Motivation: 现有对抗攻击方法因生成的对抗特征与真实数据分布不匹配,导致跨模型可迁移性受限。扩散模型作为对抗先验仍面临分布偏移问题。
  • Method: TRAIL框架在攻击时更新扩散U-Net权重,结合对抗目标(误导受害者模型)和感知约束(保持图像真实性),通过迭代噪声注入和去噪生成对抗样本。
  • Result: 实验表明,TRAIL在跨模型攻击可迁移性上显著优于现有方法,验证了分布对齐对抗特征合成对实际黑盒攻击的重要性。
  • Conclusion: TRAIL通过分布对齐的对抗特征合成,解决了对抗样本与真实数据分布不匹配的问题,提升了攻击的实用性和可迁移性。

[32] Erased or Dormant? Rethinking Concept Erasure Through Reversibility

Ping Liu,Chi Zhang

Main category: cs.CV

TL;DR: 论文探讨了概念擦除技术在扩散模型中是否真正消除了生成能力,还是仅实现了表面的、特定提示的抑制。通过系统评估两种代表性方法,发现擦除的概念在轻微适应后仍能重现,揭示了现有方法的局限性。

  • Motivation: 研究动机是验证当前概念擦除技术是否真正移除目标概念的生成能力,而非仅实现提示特定的抑制。
  • Method: 采用实例级评估策略,通过轻量级微调测试擦除概念的重新激活潜力,定量和定性分析两种代表性方法(Unified Concept Editing和Erased Stable Diffusion)。
  • Result: 结果显示擦除的概念在轻微适应后仍能重现,表明现有方法仅抑制了潜在生成表示而未完全消除。
  • Conclusion: 结论指出现有概念擦除方法存在局限性,需更深层次的表示级干预和更严格的评估标准以实现真正的概念移除。

[33] QuickVideo: Real-Time Long Video Understanding with System Algorithm Co-Design

Benjamin Schneider,Dongfu Jiang,Chao Du,Tianyu Pang,Wenhu Chen

Main category: cs.CV

TL;DR: QuickVideo通过系统-算法协同设计,加速长视频理解,解决了视频解码和LLM推理的高延迟问题。

  • Motivation: 长视频理解在视频监控、会议总结等应用中至关重要,但现有方法因解码和推理的高延迟难以实用。
  • Method: 提出QuickVideo,包含并行解码器QuickDecoder、高效预填充QuickPrefill和CPU-GPU重叠处理。
  • Result: 实验显示QuickVideo显著减少推理时间,支持有限硬件上的高质量视频理解。
  • Conclusion: QuickVideo为长视频处理提供了实用的解决方案。

[34] Redemption Score: An Evaluation Framework to Rank Image Captions While Redeeming Image Semantics and Language Pragmatics

Ashim Dahal,Ankit Ghimire,Saydul Akbar Murad,Nick Rahimi

Main category: cs.CV

TL;DR: Redemption Score是一种新颖的混合框架,通过结合三种互补信号(MID、DINO感知相似性和BERTScore)来评估图像标题,优于现有方法。

  • Motivation: 现有图像标题评估指标未能完全捕捉视觉语义和语言语用学,需要更全面的评估方法。
  • Method: 提出Redemption Score框架,结合MID、DINO感知相似性和BERTScore三种信号进行综合评估。
  • Result: 在Flickr8k基准测试中,Redemption Score的Kendall-τ为56.43,优于12种现有方法,且无需任务特定训练。
  • Conclusion: Redemption Score通过有效结合多种信号,提供了更鲁棒和细致的图像标题评估方法。

[35] Understanding Generative AI Capabilities in Everyday Image Editing Tasks

Mohammad Reza Taesiri,Brandon Collins,Logan Bolton,Viet Dac Lai,Franck Dernoncourt,Trung Bui,Anh Totti Nguyen

Main category: cs.CV

TL;DR: 研究分析了83k个图像编辑请求,发现当前AI编辑器(如GPT-4o)仅能完成33%的任务,且在低创意需求任务中表现较差。

  • Motivation: 探讨生成式AI在图像编辑中的实际应用潜力,了解用户需求与AI能力的匹配程度。
  • Method: 分析Reddit社区12年间的83k请求和305k编辑案例,结合人类和VLM评分。
  • Result: AI编辑器在低创意任务中表现不佳,且常无法保留人物或动物的身份。VLM评分与人类评分存在差异。
  • Conclusion: AI编辑器需改进以处理低创意任务和身份保留问题,VLM评分可作为补充参考。

[36] VLM-R3: Region Recognition, Reasoning, and Refinement for Enhanced Multimodal Chain-of-Thought

Chaoya Jiang,Yongrui Heng,Wei Ye,Han Yang,Haiyang Xu,Ming Yan,Ji Zhang,Fei Huang,Shikun Zhang

Main category: cs.CV

TL;DR: VLM-R³是一个视觉语言模型框架,通过动态聚焦和重新访问视觉区域,提升复杂任务中的文本推理能力。

  • Motivation: 现有推理型MLLMs在需要动态迭代视觉区域聚焦的任务中表现不足,需改进以实现更精确的视觉证据支持。
  • Method: 提出VLM-R³框架,结合区域识别与推理能力,采用R-GRPO训练范式,优化区域选择和视觉上下文整合。
  • Result: 在MathVista和ScienceQA等基准测试中,VLM-R³在零样本和少样本设置下达到新SOTA,尤其在空间推理和细粒度视觉任务中表现突出。
  • Conclusion: VLM-R³通过动态区域聚焦和强化学习优化,显著提升了视觉语言模型在复杂任务中的推理能力。

[37] A Causal Approach to Mitigate Modality Preference Bias in Medical Visual Question Answering

Shuchang Ye,Usman Naseem,Mingyuan Meng,Dagan Feng,Jinman Kim

Main category: cs.CV

TL;DR: 论文提出了一种名为MedCFVQA的模型,通过因果图消除模态偏好偏差,并在重构的数据集上验证其优于非因果模型。

  • Motivation: 现有MedVQA模型存在模态偏好偏差,导致无法有效学习多模态知识,影响临床诊断效率。
  • Method: 提出MedCFVQA模型,利用因果图在推理阶段消除模态偏好偏差,并重构数据集以改变问题和答案的先验依赖关系。
  • Result: MedCFVQA在SLAKE、RadVQA及其重构数据集上显著优于非因果模型。
  • Conclusion: MedCFVQA通过消除模态偏好偏差和重构数据集,显著提升了MedVQA的性能。

[38] A Shape-Aware Total Body Photography System for In-focus Surface Coverage Optimization

Wei-Lun Huang,Joshua Liu,Davood Tashayyod,Jun Kang,Amir Gandjbakhche,Misha Kazhdan,Mehran Armand

Main category: cs.CV

TL;DR: 本文提出了一种新型的形状感知全身摄影系统,通过优化图像分辨率和清晰度,提升皮肤癌筛查中可疑病变的自动检测能力。

  • Motivation: 现有的全身摄影系统在自动检测和分析可疑皮肤病变方面仍有改进空间,尤其是图像分辨率和清晰度。
  • Method: 系统结合深度和RGB相机,利用3D身体形状估计和聚焦表面优化方法,选择每个相机姿态的最佳对焦距离。
  • Result: 在模拟数据和真实扫描中,系统平均分辨率分别达到0.068 mm/像素和0.0566 mm/像素,聚焦面积覆盖约85%和95%。
  • Conclusion: 该系统的高保真成像能力有望提升皮肤病变的自动化分析效果,助力皮肤癌筛查。

[39] CT-Agent: A Multimodal-LLM Agent for 3D CT Radiology Question Answering

Yuren Mao,Wenyi Xu,Yuyang Qin,Yunjun Gao

Main category: cs.CV

TL;DR: 本文提出了一种名为CT-Agent的多模态框架,用于解决CT影像的复杂解剖结构和跨切片空间关系问题,显著提升了CT影像问答任务的性能。

  • Motivation: 放射科医生在创建CT报告时耗时且易出错,现有视觉问答系统无法有效处理CT影像的复杂性和跨切片关系。
  • Method: CT-Agent采用解剖独立工具分解解剖复杂性,并通过全局-局部标记压缩策略捕捉跨切片空间关系。
  • Result: 在两个3D胸部CT数据集(CT-RATE和RadGenome-ChestCT)上验证了CT-Agent的优越性能。
  • Conclusion: CT-Agent为解决CT影像问答任务中的复杂性和空间关系问题提供了有效解决方案。

[40] DOVE: Efficient One-Step Diffusion Model for Real-World Video Super-Resolution

Zheng Chen,Zichen Zou,Kewei Zhang,Xiongfei Su,Xin Yuan,Yong Guo,Yulun Zhang

Main category: cs.CV

TL;DR: DOVE是一种高效的一步扩散模型,用于现实世界视频超分辨率(VSR),通过微调预训练的视频扩散模型实现,显著提升推理速度。

  • Motivation: 扩散模型在VSR中表现优异,但采样步骤多导致推理速度慢,单步采样技术是潜在解决方案,但实现难度大。
  • Method: 提出DOVE,通过微调预训练模型(CogVideoX)实现,采用潜在像素训练策略和两阶段方案,并构建高质量数据集HQ-VSR。
  • Result: DOVE性能与多步扩散方法相当或更优,推理效率提升28倍。
  • Conclusion: DOVE在VSR任务中高效且性能优异,为实际应用提供了可行方案。

[41] Swin Transformer for Robust CGI Images Detection: Intra- and Inter-Dataset Analysis across Multiple Color Spaces

Preeti Mehta,Aman Sagar,Suchi Kumari

Main category: cs.CV

TL;DR: 本研究提出了一种基于Swin Transformer的模型,用于在RGB、YCbCr和HSV三种颜色空间中区分计算机生成图像(CGI)与真实数字图像。模型在多个数据集上表现出色,RGB颜色空间效果最佳。

  • Motivation: 现有分类方法在处理CGI的复杂性和多样性时存在局限性,需要更准确的区分方法。
  • Method: 采用Swin Transformer的分层架构捕捉局部和全局特征,结合数据增强和t-SNE可视化,评估模型在多个数据集上的表现。
  • Result: RGB颜色空间表现最佳,模型在域泛化分析中优于VGG-19和ResNet-50,展现出强鲁棒性和可靠性。
  • Conclusion: Swin Transformer模型在数字图像取证中具有潜力,尤其在区分CGI与自然图像方面表现出色。

[42] DualComp: End-to-End Learning of a Unified Dual-Modality Lossless Compressor

Yan Zhao,Zhengxue Cheng,Junxuan Zhang,Qunshan Gu,Qi Wang,Li Song

Main category: cs.CV

TL;DR: DualComp是一种轻量级、统一的双模态无损压缩器,针对图像和文本设计,通过模态统一的分词、模态切换上下文学习和模态路由专家混合等技术,实现了高效压缩。

  • Motivation: 现有学习型压缩器多为单模态设计,缺乏灵活性,而多模态大模型复杂度高,难以实际部署。
  • Method: DualComp基于轻量级主干,采用模态统一分词、模态切换上下文学习和模态路由专家混合三种结构增强,结合重参数化训练策略。
  • Result: DualComp在参数较少的情况下,性能与SOTA方法相当,其单模态变体在Kodak数据集上超越之前最佳图像压缩器9%。
  • Conclusion: DualComp为多模态无损压缩提供了一种高效、轻量化的解决方案。

[43] LINEA: Fast and Accurate Line Detection Using Scalable Transformers

Sebastian Janampa,Marios Pattichis

Main category: cs.CV

TL;DR: 提出了一种基于变形线注意力(DLA)的新型Transformer方法LINEA,无需在大数据集上预训练注意力机制,显著提升了速度并保持了高精度。

  • Motivation: 现有基于Transformer的线检测方法虽然精度高,但推理速度慢且需在大数据集上预训练,限制了其在低延迟视频分析中的应用。
  • Method: 引入变形线注意力(DLA)机制,无需预训练注意力,提出LINEA方法。
  • Result: LINEA在速度上显著提升,并在分布外数据集测试中sAP表现优于先前模型。
  • Conclusion: LINEA通过DLA机制实现了高效且无需预训练的线检测,为低延迟应用提供了新解决方案。

[44] DriveMoE: Mixture-of-Experts for Vision-Language-Action Model in End-to-End Autonomous Driving

Zhenjie Yang,Yilin Chai,Xiaosong Jia,Qifeng Li,Yuqian Shao,Xuekai Zhu,Haisheng Su,Junchi Yan

Main category: cs.CV

TL;DR: DriveMoE是一个基于Mixture-of-Experts (MoE)架构的端到端自动驾驶框架,通过视觉和动作MoE模块处理多视角数据和复杂驾驶场景,实现了SOTA性能。

  • Motivation: 解决端到端自动驾驶中多视角数据处理和复杂场景(如激进转弯)的挑战,借鉴MoE在大型语言模型中的成功经验。
  • Method: 提出DriveMoE框架,包含场景专用视觉MoE和技能专用动作MoE,动态选择摄像头和激活专家模块。
  • Result: 在Bench2Drive闭环评估中达到SOTA性能。
  • Conclusion: DriveMoE通过视觉和动作MoE的结合,有效提升了自动驾驶任务的性能。

[45] ARPO:End-to-End Policy Optimization for GUI Agents with Experience Replay

Fanbin Lu,Zhisheng Zhong,Shu Liu,Chi-Wing Fu,Jiaya Jia

Main category: cs.CV

TL;DR: 本文提出了一种名为ARPO的强化学习方法,用于优化基于视觉语言的GUI代理在复杂任务中的表现,通过经验回放和任务选择策略提升训练效果。

  • Motivation: 训练大型语言模型(LLM)作为交互式代理控制图形用户界面(GUI)面临长序列动作优化和多模态反馈的挑战,现有方法在GUI代理中的应用较少。
  • Method: 提出Agentic Replay Policy Optimization (ARPO),结合GRPO和回放缓冲区,并引入任务选择策略以稳定训练。
  • Result: 在OSWorld基准测试中,ARPO表现优异,为基于LLM的GUI代理设定了新的性能基准。
  • Conclusion: 强化学习在训练多轮视觉语言GUI代理处理复杂UI交互方面具有显著效果。

[46] Efficient Prototype Consistency Learning in Medical Image Segmentation via Joint Uncertainty and Data Augmentation

Lijian Li,Yuanpeng He,Chi-Man Pun

Main category: cs.CV

TL;DR: 论文提出了一种基于原型一致性的半监督医学图像分割方法EPCL-JUDA,通过联合不确定性量化和数据增强提升原型表达能力。

  • Motivation: 现有方法因标记数据稀缺导致原型表达能力受限,无法完整表示类别嵌入。
  • Method: 结合Mean-Teacher框架,通过数据增强和不确定性量化生成高质量原型,并设计原型网络降低内存需求。
  • Result: 在多个数据集上表现优于现有方法,验证了框架的有效性。
  • Conclusion: EPCL-JUDA通过增强原型表达和一致性学习,显著提升了半监督医学图像分割性能。

[47] Self-Classification Enhancement and Correction for Weakly Supervised Object Detection

Yufei Yin,Lechao Cheng,Wengang Zhou,Jiajun Deng,Zhou Yu,Houqiang Li

Main category: cs.CV

TL;DR: 提出了一种新的弱监督目标检测框架,通过自分类增强模块和自分类校正算法,解决了多类分类任务中的分类模糊问题,并在VOC数据集上表现优异。

  • Motivation: 弱监督目标检测(WSOD)因标注成本低而受关注,但现有方法在多类分类任务中存在分类模糊问题,未能充分利用其优势。
  • Method: 提出自分类增强模块(ICBC)和自分类校正算法,前者通过类内二分类任务增强网络区分能力,后者结合多类分类任务结果减少误分类。
  • Result: 在VOC 2007和2012数据集上的实验表明,该框架性能优越。
  • Conclusion: 新框架有效解决了分类模糊问题,提升了弱监督目标检测的性能。

[48] SAMba-UNet: Synergizing SAM2 and Mamba in UNet with Heterogeneous Aggregation for Cardiac MRI Segmentation

Guohao Huo,Ruiting Dai,Hao Tang

Main category: cs.CV

TL;DR: 提出SAMba-UNet双编码器架构,结合SAM2、Mamba和UNet,通过动态特征融合和异构全注意力模块提升心脏MRI分割性能。

  • Motivation: 解决心脏MRI分割中复杂病理特征提取的挑战。
  • Method: 采用双编码器架构,结合动态特征融合和异构全注意力模块,优化特征提取与融合。
  • Result: 在ACDC数据集上Dice系数达0.9103,HD95边界误差1.0859mm,显著优于现有方法。
  • Conclusion: 为心脏疾病自动诊断提供高效可靠方案,代码将开源。

[49] Paired and Unpaired Image to Image Translation using Generative Adversarial Networks

Gaurav Kumar,Soham Satyadharma,Harpreet Singh

Main category: cs.CV

TL;DR: 本文研究了基于GAN的成对和非成对图像翻译方法,实验了不同损失函数和模型架构,并采用新定量指标进行分析。

  • Motivation: 探索图像到图像翻译的多领域应用,尤其是成对和非成对任务的性能差异。
  • Method: 使用条件GAN处理成对任务,循环一致性损失处理非成对任务,实验了不同损失函数和Patch-GAN尺寸。
  • Result: 通过定量指标(精度、召回率、FID)和定性分析评估了不同实验的结果。
  • Conclusion: GAN在图像翻译任务中表现优异,成对和非成对方法各有优劣,新指标提供了更全面的评估。

[50] Accelerating Targeted Hard-Label Adversarial Attacks in Low-Query Black-Box Settings

Arjhun Swaminathan,Mete Akgün

Main category: cs.CV

TL;DR: 论文提出了一种名为TEA的新型对抗攻击方法,利用目标图像的边缘信息生成对抗样本,在低查询量下优于现有方法。

  • Motivation: 现有的黑盒对抗攻击方法主要依赖决策边界的几何特性,而忽略了图像本身的信息,导致在特定目标分类任务中效果不佳。
  • Method: 提出TEA方法,通过利用目标图像的边缘信息,生成更接近源图像但仍能实现目标分类的对抗样本。
  • Result: TEA在低查询量下显著优于现有方法(减少近70%查询),并为几何攻击提供了更好的初始化。
  • Conclusion: TEA通过结合图像边缘信息,有效提升了对抗攻击的性能和效率。

[51] NTIRE 2025 challenge on Text to Image Generation Model Quality Assessment

Shuhao Han,Haotian Fan,Fangyuan Kong,Wenjie Liao,Chunle Guo,Chongyi Li,Radu Timofte,Liang Li,Tao Li,Junhui Cui,Yunqiu Wang,Yang Tai,Jingwei Sun,Jianhui Sun,Xinli Yue,Tianyi Wang,Huan Hou,Junda Lu,Xinyang Huang,Zitang Zhou,Zijian Zhang,Xuhui Zheng,Xuecheng Wu,Chong Peng,Xuezhi Cao,Trong-Hieu Nguyen-Mau,Minh-Hoang Le,Minh-Khoa Le-Phan,Duy-Nam Ly,Hai-Dang Nguyen,Minh-Triet Tran,Yukang Lin,Yan Hong,Chuanbiao Song,Siyuan Li,Jun Lan,Zhichao Zhang,Xinyue Li,Wei Sun,Zicheng Zhang,Yunhao Li,Xiaohong Liu,Guangtao Zhai,Zitong Xu,Huiyu Duan,Jiarui Wang,Guangji Ma,Liu Yang,Lu Liu,Qiang Hu,Xiongkuo Min,Zichuan Wang,Zhenchen Tang,Bo Peng,Jing Dong,Fengbin Guan,Zihao Yu,Yiting Lu,Wei Luo,Xin Li,Minhao Lin,Haofeng Chen,Xuanxuan He,Kele Xu,Qisheng Xu,Zijian Gao,Tianjiao Wan,Bo-Cheng Qiu,Chih-Chung Hsu,Chia-ming Lee,Yu-Fan Lin,Bo Yu,Zehao Wang,Da Mu,Mingxiu Chen,Junkang Fang,Huamei Sun,Wending Zhao,Zhiyu Wang,Wang Liu,Weikang Yu,Puhong Duan,Bin Sun,Xudong Kang,Shutao Li,Shuai He,Lingzhi Fu,Heng Cong,Rongyu Zhang,Jiarong He,Zhishan Qiao,Yongqing Huang,Zewen Chen,Zhe Pang,Juan Wang,Jian Guo,Zhizhuo Shao,Ziyu Feng,Bing Li,Weiming Hu,Hesong Li,Dehua Liu,Zeming Liu,Qingsong Xie,Ruichen Wang,Zhihao Li,Yuqi Liang,Jianqi Bi,Jun Luo,Junfeng Yang,Can Li,Jing Fu,Hongwei Xu,Mingrui Long,Lulin Tang

Main category: cs.CV

TL;DR: NTIRE 2025挑战赛聚焦文本到图像生成模型的质量评估,分为对齐和结构两个赛道,吸引了大量参与者,提交了众多模型,最终获胜方法表现优异。

  • Motivation: 解决文本到图像生成模型的细粒度质量评估问题,从图像-文本对齐和图像结构失真检测两方面进行评价。
  • Method: 挑战赛分为对齐赛道和结构赛道,分别使用EvalMuse-40K和EvalMuse-Structure数据集,参与者提交模型并评估。
  • Result: 对齐赛道有371名注册者,1883次开发阶段提交;结构赛道有211名注册者,1155次开发阶段提交。最终获胜方法显著优于基线。
  • Conclusion: 挑战赛成功推动了文本到图像生成模型质量评估的研究,获胜方法展示了卓越的预测性能。

[52] SuperPure: Efficient Purification of Localized and Distributed Adversarial Patches via Super-Resolution GAN Models

Hossein Khalili,Seongbin Park,Venkat Bollapragada,Nader Sehatbakhsh

Main category: cs.CV

TL;DR: 论文提出了一种名为SuperPure的新防御策略,用于对抗分布式和局部化对抗补丁攻击,通过像素级掩码和GAN超分辨率技术显著提升了鲁棒性和效率。

  • Motivation: 现有防御方法对分布式补丁攻击无效且计算资源消耗高,无法满足实时性需求。
  • Method: 采用像素级掩码和GAN超分辨率技术逐步净化图像中的对抗补丁。
  • Result: SuperPure在局部化补丁攻击下鲁棒性提升20%,清洁准确率提升10%;对分布式补丁攻击的鲁棒性达58%;防御延迟降低98%。
  • Conclusion: SuperPure显著提升了对抗补丁攻击的鲁棒性和效率,适用于实时系统。

[53] Efficient Motion Prompt Learning for Robust Visual Tracking

Jie Zhao,Xin Chen,Yongsheng Yuan,Michael Felsberg,Dong Wang,Huchuan Lu

Main category: cs.CV

TL;DR: 提出了一种轻量级即插即用的运动提示跟踪方法,通过结合运动和视觉线索提升跟踪鲁棒性。

  • Motivation: 现有跟踪器多依赖视觉区分性,忽视了视频数据的时序一致性。
  • Method: 设计了运动编码器、融合解码器和自适应权重机制,将长期运动轨迹编码到视觉嵌入空间。
  • Result: 在七个挑战性跟踪基准上显著提升了视觉跟踪器的鲁棒性,训练成本低且速度损失小。
  • Conclusion: 运动提示模块能高效提升现有视觉跟踪器的性能。

[54] TensorAR: Refinement is All You Need in Autoregressive Image Generation

Cheng Cheng,Lin Song,Yicheng Xiao,Yuxin Chen,Xuchong Zhang,Hongbin Sun,Ying Shan

Main category: cs.CV

TL;DR: TensorAR是一种新的自回归(AR)图像生成范式,通过滑动窗口预测图像块(张量)而非单令牌预测,实现迭代优化生成内容。

  • Motivation: 传统AR图像生成模型缺乏对先前预测的优化机制,限制了生成质量。TensorAR旨在解决这一问题。
  • Method: TensorAR将图像生成从单令牌预测改为张量预测,采用滑动窗口生成重叠图像块,并提出离散张量噪声方案以防止信息泄漏。
  • Result: 实验表明,TensorAR显著提升了自回归模型的生成性能。
  • Conclusion: TensorAR作为一种即插即用模块,有效改进了AR模型的生成能力。

[55] Panoptic Captioning: Seeking An Equivalency Bridge for Image and Text

Kun-Yu Lin,Hongjun Wang,Weining Ren,Kai Han

Main category: cs.CV

TL;DR: 论文提出全景描述任务(panoptic captioning),旨在生成图像的最小文本等价描述。通过实验发现现有多模态大语言模型(MLLMs)表现有限,并提出数据引擎PancapEngine和方法PancapChain以提升性能。实验显示PancapChain-13B超越现有开源和专有模型。

  • Motivation: 解决现有MLLMs在生成全面图像描述(涵盖实体、位置、属性、关系及全局状态)方面的不足。
  • Method: 1. 数据引擎PancapEngine:通过检测套件识别图像实体,生成全景描述。2. PancapChain:将任务分解为多阶段逐步生成描述。3. 提出评估指标PancapScore和测试集。
  • Result: PancapChain-13B超越InternVL-2.5-78B、GPT-4o和Gemini-2.0-Pro等模型。
  • Conclusion: PancapEngine和PancapChain有效提升了全景描述任务的性能,并通过新指标和测试集提供了可靠评估。

[56] FPQVAR: Floating Point Quantization for Visual Autoregressive Model with FPGA Hardware Co-design

Renjie Wei,Songqiang Xu,Qingyu Guo,Meng Li

Main category: cs.CV

TL;DR: FPQVAR是一种高效的后训练浮点量化框架,用于VAR模型,通过算法和硬件协同设计降低内存和计算成本,显著提升图像生成质量和推理速度。

  • Motivation: VAR模型在图像生成中表现出色,但参数规模和计算成本高,难以在边缘设备上部署。FPQVAR旨在解决这一问题。
  • Method: 提出双格式量化、组级Hadamard变换和GHT感知可学习变换,设计低比特FP量化器和乘法器,并实现FPGA加速器。
  • Result: 4位量化下FID从10.83降至3.58,IS从175.9提升至241.5;6位量化性能接近FP16模型;FPGA加速器吞吐量达1.1图像/秒。
  • Conclusion: FPQVAR显著提升了VAR模型的效率和性能,适用于边缘设备部署。

[57] Fusion of Foundation and Vision Transformer Model Features for Dermatoscopic Image Classification

Amirreza Mahbod,Rupert Ecker,Ramona Woitek

Main category: cs.CV

TL;DR: 研究比较了皮肤病专用基础模型PanDerm与两种ViT架构在皮肤病变分类任务中的表现,发现PanDerm结合MLP分类器性能接近Swin Transformer,融合两者预测结果可进一步提升性能。

  • Motivation: 皮肤病变的准确分类对皮肤癌的诊断和治疗至关重要,研究旨在探索基础模型在此任务中的潜力。
  • Method: 使用PanDerm提取冻结特征,结合MLP、XGBoost和TabNet分类器;对ViT模型进行全微调;在HAM10000和MSKCC数据集上实验。
  • Result: PanDerm结合MLP性能与微调Swin Transformer相当,融合两者预测结果性能更优。
  • Conclusion: 未来将探索更多基础模型、微调策略和高级融合技术。

[58] Style Transfer with Diffusion Models for Synthetic-to-Real Domain Adaptation

Estelle Chigot,Dennis G. Wilson,Meriem Ghrib,Thomas Oberlin

Main category: cs.CV

TL;DR: 利用扩散模型改进合成数据训练的视觉模型性能,提出两种语义一致的风格迁移方法(CACTI和CACTIF),有效缩小合成与真实数据间的领域差距。

  • Motivation: 解决合成数据训练的语义分割模型在真实图像中表现不佳的问题,尤其是在标注数据稀缺的恶劣条件下。
  • Method: 提出CACTI和CACTIF两种方法,分别通过类自适应实例归一化和选择性注意力过滤实现语义一致的风格迁移。
  • Result: 实验表明,方法在GTA5到Cityscapes/ACDC的迁移中生成更高质量的图像,FID分数更低且内容保留更好。
  • Conclusion: 类感知的扩散风格迁移能有效缩小合成与真实数据间的领域差距,推动鲁棒感知系统的发展。

[59] Temporal and Spatial Feature Fusion Framework for Dynamic Micro Expression Recognition

Feng Liu,Bingyu Nan,Xuezhong Qian,Xiaolan Fu

Main category: cs.CV

TL;DR: 论文提出了一种新颖的时空特征融合框架TSFmicro,用于动态微表情识别(DMER),通过结合Retention Network和基于Transformer的网络,显著提升了识别准确率。

  • Motivation: 微表情是揭示真实情绪的重要线索,但其短暂性和局部性导致识别准确率低,仅为50%。因此,需要探索多模态融合技术以提升识别效果。
  • Method: 提出TSFmicro框架,结合Retention Network和Transformer网络,采用并行时空融合方法,在高维特征空间融合时空信息。
  • Result: 实验证明TSFmicro在三个知名微表情数据集上优于其他先进方法。
  • Conclusion: TSFmicro通过高效的时空特征融合,显著提升了微表情识别的准确性和语义丰富性。

[60] DeCafNet: Delegate and Conquer for Efficient Temporal Grounding in Long Videos

Zijia Lu,A S M Iftekhar,Gaurav Mittal,Tianjian Meng,Xiawei Wang,Cheng Zhao,Rohith Kukkala,Ehsan Elhamifar,Mei Chen

Main category: cs.CV

TL;DR: DeCafNet通过“委托-征服”策略和双编码器设计(sidekick和expert),在长视频时序定位任务中显著降低计算成本(47%)并提升性能。

  • Motivation: 现有方法因计算成本高难以扩展,需高效处理长视频中的大量片段。
  • Method: 引入sidekick编码器进行高效特征提取和显著性图生成,结合DeCaf-Grounder统一多尺度特征。
  • Result: 在基准数据集上计算成本降低47%,性能优于现有方法。
  • Conclusion: DeCafNet在效率和性能上均达到新SOTA,适用于长视频时序定位。

[61] MAGE: A Multi-task Architecture for Gaze Estimation with an Efficient Calibration Module

Haoming Huang,Musen Zhang,Jianxin Yang,Zhen Li,Jinkai Li,Yao Guo

Main category: cs.CV

TL;DR: MAGE提出了一种多任务架构,用于6自由度视线估计,通过高效校准模块解决个体差异问题,在多个数据集上表现优异。

  • Motivation: 现有视线估计方法仅预测视线方向或屏幕注视点,无法提供3D空间中的全面6自由度分析,且个体差异影响泛化能力。
  • Method: MAGE通过多任务架构编码面部图像的方向和位置特征,使用专用信息流和多解码器预测结果,并引入Easy-Calibration模块进行高效校准。
  • Result: 在MPIIFaceGaze、EYEDIAP和IMRGaze数据集上达到最先进性能。
  • Conclusion: MAGE能有效预测6自由度视线信息,适用于真实人机交互场景,且通过校准模块提升个体适应性。

[62] Sketchy Bounding-box Supervision for 3D Instance Segmentation

Qian Deng,Le Hui,Jin Xie,Jian Yang

Main category: cs.CV

TL;DR: 论文提出了一种名为Sketchy-3DIS的弱监督3D实例分割框架,通过联合学习伪标签生成器和分割器,在不准确的边界框监督下提升性能。

  • Motivation: 尽管边界框监督减少了点级标注的需求,但实际应用中获取精确边界框仍具挑战性。因此,研究探索了不准确的边界框(称为草图边界框)。
  • Method: 提出自适应框到点伪标签生成器,解决重叠部分点分配问题;设计粗到细实例分割器,逐步生成高质量实例。
  • Result: 在ScanNetV2和S3DIS基准测试中达到最优性能,甚至优于部分全监督方法。
  • Conclusion: Sketchy-3DIS框架在草图边界框监督下有效提升了3D实例分割性能。

[63] AdvReal: Adversarial Patch Generation Framework with Application to Adversarial Safety Evaluation of Object Detection Systems

Yuanhao Huang,Yilong Ren,Jinlei Wang,Lujia Huo,Xuesong Bai,Jinchuan Zhang,Haiyan Yu

Main category: cs.CV

TL;DR: 提出了一种统一的联合对抗训练框架,用于生成2D和3D对抗样本,以解决现实场景中类内多样性和环境变化的挑战。通过非刚性表面建模和真实3D匹配机制增强对抗样本的真实性。

  • Motivation: 深度学习感知方法易受对抗样本攻击,导致自动驾驶车辆安全问题。研究旨在生成有效的物理世界对抗样本并评估目标检测系统。
  • Method: 提出联合对抗训练框架,结合非刚性表面建模和3D匹配机制,生成对抗纹理。与5种先进对抗补丁比较,评估8种目标检测器。
  • Result: 实验表明,生成的对抗纹理能有效误导目标检测模型,在多角度攻击、不同光照和距离下表现出优秀的鲁棒性和迁移性。
  • Conclusion: 该方法在数字和物理环境中均有效,为自动驾驶系统的安全性提供了新思路。

[64] Mitigating Hallucinations in Vision-Language Models through Image-Guided Head Suppression

Sreetama Sarkar,Yue Che,Alex Gavin,Peter A. Beerel,Souvik Kundu

Main category: cs.CV

TL;DR: SPIN是一种任务无关的注意力引导头抑制策略,用于减少大型视觉语言模型(LVLM)中的幻觉现象,且不增加计算或延迟开销。

  • Motivation: 大型视觉语言模型在生成文本时容易出现与视觉内容不符的幻觉现象,现有方法在减少幻觉时增加了延迟。
  • Method: 通过分析发现幻觉与特定注意力头相关,SPIN选择性地抑制对图像标记注意力低的头,保留前K个注意力头。
  • Result: 在视觉问答和图像描述任务中,SPIN将幻觉分数降低至2.7倍,保持F1分数,吞吐量提高1.8倍。
  • Conclusion: SPIN是一种高效且无需额外开销的减少幻觉的方法。

[65] Pose-invariant face recognition via feature-space pose frontalization

Nikolay Stanishev,Yuhang Lu,Touradj Ebrahimi

Main category: cs.CV

TL;DR: 本文提出了一种在特征空间中实现人脸正面化和识别的新方法,通过特征空间姿态正面化模块(FSPFM)和新的训练范式,显著提升了姿态不变人脸识别的性能。

  • Motivation: 姿态不变人脸识别是现代AI人脸识别系统中的挑战性问题,现有方法通过生成模型或学习姿态鲁棒特征表示实现人脸正面化,但仍有改进空间。
  • Method: 提出特征空间姿态正面化模块(FSPFM)将任意角度的侧面图像转换为正面图像,并设计新的训练范式(预训练和注意力引导微调阶段)优化性能。
  • Result: 在五个人脸识别基准测试中,该方法在姿态不变人脸识别任务中优于现有技术,并在其他标准场景中保持优异性能。
  • Conclusion: 该方法不仅提升了姿态不变人脸识别的性能,还展示了在多种场景中的通用性。

[66] Circle-RoPE: Cone-like Decoupled Rotary Positional Embedding for Large Vision-Language Models

Chengcheng Wang,Jianyuan Guo,Hongguang Li,Yuchuan Tian,Ying Nie,Chang Xu,Kai Han

Main category: cs.CV

TL;DR: 论文提出Circle-RoPE,一种新型位置编码方案,用于减少视觉语言模型中跨模态位置偏差。

  • Motivation: 解决RoPE在视觉语言模型中引入的跨模态位置偏差问题,避免图像和文本之间的虚假对齐。
  • Method: 提出Per-Token Distance(PTD)度量位置编码独立性,并设计Circle-RoPE方案,将图像标记映射到与文本标记正交的圆形轨迹上。
  • Result: 实验表明,该方法有效保留图像空间信息并减少位置偏差。
  • Conclusion: Circle-RoPE为视觉语言模型提供了更鲁棒和灵活的位置编码框架。

[67] Investigating Fine- and Coarse-grained Structural Correspondences Between Deep Neural Networks and Human Object Image Similarity Judgments Using Unsupervised Alignment

Soh Takahashi,Masaru Sasaki,Ken Takeda,Masafumi Oizumi

Main category: cs.CV

TL;DR: 该论文探讨了人类与深度学习模型在对象表征上的相似性,发现CLIP模型在细粒度和粗粒度上与人类表征匹配较好,而自监督模型仅能捕捉粗粒度结构。

  • Motivation: 研究人类如何获取对象表征,并利用DNNs作为工具,比较不同学习范式下模型与人类表征的相似性。
  • Method: 采用基于Gromov-Wasserstein最优传输的无监督对齐方法,比较人类和模型在细粒度和粗粒度上的对象表征。
  • Result: CLIP模型在细粒度和粗粒度上均与人类表征匹配良好,自监督模型仅能反映粗粒度类别结构。
  • Conclusion: 语言信息对精确对象表征获取至关重要,自监督学习在捕捉粗粒度结构上具有潜力。

[68] Unlocking Smarter Device Control: Foresighted Planning with a World Model-Driven Code Execution Approach

Xiaoran Yin,Xu Luo,Hao Wu,Lianli Gao,Jingkuan Song

Main category: cs.CV

TL;DR: FPWC框架通过世界模型驱动的代码执行,提升移动设备自动控制的全局理解与决策能力,实验显示任务成功率显著提高。

  • Motivation: 移动设备自动控制因环境信息有限导致决策次优,需改进现有反应式策略。
  • Method: 提出FPWC框架,结合自然语言理解与结构化推理,构建任务导向的世界模型,并通过迭代规划生成前瞻性动作。
  • Result: 在模拟环境和真实设备中,FPWC任务成功率相对提升44.4%。
  • Conclusion: FPWC通过世界模型和代码执行优化决策,显著提升任务性能。

[69] Joint Flow And Feature Refinement Using Attention For Video Restoration

Ranjith Merugu,Mohammad Sameer Suhail,Akshay P Sarashetti,Venkata Bharath Reddy Reddem,Pankaj Kumar Bajpai,Amit Satish Unde

Main category: cs.CV

TL;DR: 提出了一种名为JFFRA的视频修复框架,通过联合优化光流和特征修复,显著提升了视频修复性能。

  • Motivation: 现有视频修复方法在利用时间信息时难以保持时间一致性,导致性能受限。
  • Method: JFFRA通过迭代优化光流和特征修复,结合多尺度处理和遮挡感知损失函数,提升修复效果。
  • Result: 在去噪、去模糊和超分辨率等任务中,JFFRA比现有方法性能提升高达1.62 dB。
  • Conclusion: JFFRA通过协同优化光流和特征修复,显著提升了视频修复的时间一致性和性能。

[70] Ranked Entropy Minimization for Continual Test-Time Adaptation

Jisu Han,Jaemin Na,Wonjun Hwang

Main category: cs.CV

TL;DR: 提出了一种基于排名熵最小化的方法,用于解决持续测试时适应中的稳定性问题。

  • Motivation: 熵最小化方法在持续测试时适应中容易导致模型崩溃,预测单一类别。
  • Method: 通过渐进掩码策略结构化预测难度,保持熵的排名顺序。
  • Result: 在多个基准测试中验证了方法的有效性。
  • Conclusion: 排名熵最小化方法显著提升了持续测试时适应的稳定性。

[71] MAFE R-CNN: Selecting More Samples to Learn Category-aware Features for Small Object Detection

Yichen Li,Qiankun Liu,Zhenchao Jin,Jiuzhe Wei,Jing Nie,Ying Fu

Main category: cs.CV

TL;DR: 提出了一种名为MAFE R-CNN的方法,通过多线索样本选择和类别感知特征增强机制,解决了小目标检测中特征学习和样本选择的问题。

  • Motivation: 小目标检测在复杂环境中存在特征学习不足和样本选择困难的问题,需要一种更有效的方法。
  • Method: 结合多线索样本选择(MCSS)和类别感知特征增强机制(CFEM),提升小目标检测性能。
  • Result: 在大规模小目标数据集SODA上验证了方法的有效性。
  • Conclusion: MAFE R-CNN通过改进样本选择和特征增强,显著提升了小目标检测的效果。

[72] TAT-VPR: Ternary Adaptive Transformer for Dynamic and Efficient Visual Place Recognition

Oliver Grainge,Michael Milford,Indu Bodala,Sarvapali D. Ramchurn,Shoaib Ehsan

Main category: cs.CV

TL;DR: TAT-VPR是一种三元量化Transformer,为视觉SLAM闭环提供动态精度-效率权衡。通过融合三元权重和学习激活稀疏门,模型可在运行时控制计算量达40%而不降低性能(Recall@1)。两阶段蒸馏流程保持描述符质量,使其能在微型无人机和嵌入式SLAM堆栈上运行,同时达到最先进的定位精度。

  • Motivation: 解决视觉SLAM闭环中精度与效率的动态权衡问题,适应资源受限设备的需求。
  • Method: 融合三元权重与学习激活稀疏门,实现运行时计算量控制;采用两阶段蒸馏流程保持描述符质量。
  • Result: 运行时计算量可减少40%且不降低Recall@1性能;在微型无人机和嵌入式设备上达到最先进的定位精度。
  • Conclusion: TAT-VPR通过动态权衡和高效蒸馏,实现了资源受限设备上的高性能视觉SLAM闭环。

[73] CMRINet: Joint Groupwise Registration and Segmentation for Cardiac Function Quantification from Cine-MRI

Mohamed S. Elmahdy,Marius Staring,Patrick J. H. de Koning,Samer Alabed,Mahan Salehi,Faisal Alandejani,Michael Sharkey,Ziad Aldabbagh,Andrew J. Swift,Rob J. van der Geest

Main category: cs.CV

TL;DR: 论文提出了一种端到端的深度学习模型,结合分组配准和分割技术,用于心脏MRI图像分析,以提高心脏功能评估的准确性和效率。

  • Motivation: 左心室射血分数(LVEF)作为评估心脏功能的主要指标存在局限性,如受观察者间变异性和负荷条件影响。心肌应变和应变率可作为补充指标,但现有方法通常分开处理配准和分割任务,限制了评估效果。
  • Method: 提出了一种名为Deep GW的端到端深度学习模型,联合估计分组配准和分割,用于心脏MRI图像分析。模型在374名受试者的四腔视图MRI数据上进行训练和验证。
  • Result: 与传统的elastix分组配准和两种基于深度学习的方法相比,所提模型在性能上有所提升,并显著减少了计算时间。
  • Conclusion: 该模型为心脏功能评估提供了一种更高效和准确的方法,有望在临床中推广应用。

[74] MAGIC: Motion-Aware Generative Inference via Confidence-Guided LLM

Siwei Meng,Yawei Luo,Ping Liu

Main category: cs.CV

TL;DR: MAGIC是一个无需训练的框架,通过结合预训练的扩散模型和LLM推理,从静态图像生成物理一致性的动态3D内容。

  • Motivation: 现有视频生成模型注重视觉真实感但忽略物理合理性,且依赖大规模标注数据或模型微调,计算和扩展成本高。
  • Method: MAGIC整合图像到视频扩散模型与迭代LLM推理,通过置信驱动的反馈循环调整扩散模型,并结合可微分MPM模拟器生成物理合理的动态内容。
  • Result: 实验表明,MAGIC在推理准确性和时间一致性上优于现有物理感知生成方法和视频扩散模型。
  • Conclusion: MAGIC提供了一种无需训练和监督的方法,有效填补视觉与物理之间的鸿沟,生成高质量动态3D内容。

[75] AnchorFormer: Differentiable Anchor Attention for Efficient Vision Transformer

Jiquan Shan,Junxiao Wang,Lifeng Zhao,Liang Cai,Hongyuan Zhang,Ioannis Liritzis

Main category: cs.CV

TL;DR: AnchorFormer通过引入锚点令牌降低计算复杂度,从O(n²)降至O(mn),并在分类、检测和分割任务中表现优异。

  • Motivation: 解决ViTs在细粒度图像分割时计算复杂度高且部分令牌对任务无帮助的问题。
  • Method: 使用锚点令牌学习关键信息,通过二分注意力降低复杂度,并利用马尔可夫过程近似全局自注意力。
  • Result: 在ImageNet分类中提升9.0%准确率或减少46.7% FLOPs,COCO检测中mAP提升81.3%。
  • Conclusion: AnchorFormer高效且性能优越,适用于多种视觉任务。

[76] Consistent World Models via Foresight Diffusion

Yu Zhang,Xingzhuo Guo,Haoran Xu,Mingsheng Long

Main category: cs.CV

TL;DR: 论文提出ForeDiff框架,通过解耦条件理解和目标去噪,提升扩散模型在一致性世界建模中的性能。

  • Motivation: 扩散模型在生成任务中表现优异,但在世界建模中因样本一致性问题受限。
  • Method: 提出ForeDiff框架,分离条件理解和目标去噪,并利用预训练预测器引导生成。
  • Result: 实验表明ForeDiff在预测准确性和样本一致性上优于基线方法。
  • Conclusion: ForeDiff为扩散模型在世界建模中的应用提供了新方向。

[77] Clear Nights Ahead: Towards Multi-Weather Nighttime Image Restoration

Yuetong Liu,Yunqiu Xu,Yang Wei,Xiuli Bi,Bin Xiao

Main category: cs.CV

TL;DR: 论文提出了一种多天气夜间图像恢复任务,并贡献了一个包含多种天气退化的大规模数据集AllWeatherNight。同时,提出了统一框架ClearNight,通过Retinex双先验和天气感知动态协作方法,有效去除复杂退化。

  • Motivation: 夜间图像常受多种天气和光照效应共同影响,现有研究对此关注不足,因此需要一种统一的恢复方法。
  • Method: 提出ClearNight框架,结合Retinex双先验和天气感知动态协作方法,专注于不均匀光照和纹理内容。
  • Result: ClearNight在合成和真实图像上均达到最优性能,验证了数据集和方法的有效性。
  • Conclusion: AllWeatherNight数据集和ClearNight框架为多天气夜间图像恢复提供了有效解决方案。

[78] InspectionV3: Enhancing Tobacco Quality Assessment with Deep Convolutional Neural Networks for Automated Workshop Management

Yao Wei,Muhammad Usman,Hazrat Bilal

Main category: cs.CV

TL;DR: 论文提出了一种名为InspectionV3的自动化烟草分级解决方案,采用定制化的深度卷积神经网络架构,解决了烟草加工中的效率和质量问题。

  • Motivation: 烟草加工中存在效率低下、质量不稳定等问题,传统人工检测成本高且不可靠,需要自动化解决方案。
  • Method: 使用定制化的深度卷积神经网络(CNN),基于21,113张烟草叶片图像的数据集,通过预处理和多层CNN分析颜色、成熟度等特征,实现实时分级。
  • Result: 系统在准确率、精确率、召回率等指标上表现优异(如97%准确率),验证了其实际应用的可行性。
  • Conclusion: InspectionV3通过自动化分级和数据分析,显著提升了烟草加工的效率和决策优化能力。

[79] ALTo: Adaptive-Length Tokenizer for Autoregressive Mask Generation

Lingfeng Wang,Hualing Lin,Senda Chen,Tao Wang,Changxu Cheng,Yangyang Zhong,Dong Zheng,Wuyue Zhao

Main category: cs.CV

TL;DR: ALTo是一种自适应长度分词器,用于自回归掩码生成,通过动态调整注意力分配提升性能。

  • Motivation: 现有MLLM因固定分词表示受限,无法像人类一样根据复杂度自适应分配注意力。
  • Method: 设计了新的分词长度预测器、长度正则化项和可微分分词块策略,并集成到ALToLLM中,使用GRPO优化掩码质量与效率的权衡。
  • Result: 在主流分割基准测试中,ALToLLM以自适应分词成本实现了最优性能。
  • Conclusion: ALToLLM通过自适应分词策略显著提升了MLLM的性能和效率。

[80] Beyond Face Swapping: A Diffusion-Based Digital Human Benchmark for Multimodal Deepfake Detection

Jiaxin Liu,Jia Wang,Saihui Hou,Min Ren,Huijia Wu,Zhaofeng He

Main category: cs.CV

TL;DR: 论文介绍了首个基于扩散模型的大规模多模态数字人伪造数据集DigiFakeAV,并提出检测基线DigiShield,以应对深度伪造技术的挑战。

  • Motivation: 深度伪造技术的快速发展对公共安全构成严重威胁,现有检测策略难以应对其灵活性和隐蔽性。
  • Method: 通过五种数字人生成方法和语音克隆技术构建数据集,并提出基于时空和跨模态融合的检测基线DigiShield。
  • Result: 数据集混淆率达68%,现有检测模型性能显著下降;DigiShield在多个数据集上表现优异。
  • Conclusion: DigiShield通过细粒度分析有效识别合成视频中的隐蔽伪影,为深度伪造检测提供了新思路。

[81] Detailed Evaluation of Modern Machine Learning Approaches for Optic Plastics Sorting

Vaishali Maheshkar,Aadarsh Anantha Ramakrishnan,Charuvahan Adhivarahan,Karthik Dantu

Main category: cs.CV

TL;DR: 研究探讨了光学识别技术在塑料回收分类中的局限性,发现其依赖颜色和形状等物理特性,实际效果有限。

  • Motivation: 塑料回收率低(仅8%),主要因污染、经济激励不足和技术难题。自动分拣是关键,但现有光学识别方法在真实场景中效果不佳。
  • Method: 收集20,000+图像数据集,使用公共和自定义机器学习管道评估光学识别能力,通过Grad-CAM、显著性图和混淆矩阵分析模型行为。
  • Result: 光学识别方法在真实MRF场景中对塑料分类的准确性有限,因其依赖物理特性。
  • Conclusion: 光学识别技术在塑料回收分拣中效果有限,需进一步改进以适应复杂现实场景。

[82] CodeMerge: Codebook-Guided Model Merging for Robust Test-Time Adaptation in Autonomous Driving

Huitong Yang,Zhuoxiao Chen,Fengyi Zhang,Zi Huang,Yadan Luo

Main category: cs.CV

TL;DR: CodeMerge是一种轻量级模型合并框架,通过在紧凑的潜在空间中操作,解决了现有测试时自适应方法在高方差任务中的不稳定性和计算成本高的问题。

  • Motivation: 动态和不可预测的测试条件对自动驾驶系统的3D感知提出了挑战,现有方法因不稳定优化和高计算成本而表现不佳。
  • Method: CodeMerge利用低维指纹表示模型检查点,构建键值码本,并使用岭杠杆得分计算合并系数,实现高效模型组合。
  • Result: 在nuScenes-C和nuScenes-to-KITTI基准测试中,分别提升了14.9% NDS和7.6% mAP,同时支持下游任务。
  • Conclusion: CodeMerge提供了一种高效且稳定的模型合并方法,显著提升了3D感知性能,且无需额外训练即可支持下游任务。

[83] Motion Matters: Compact Gaussian Streaming for Free-Viewpoint Video Reconstruction

Jiacong Chen,Qingyu Mao,Youneng Bao,Xiandong Meng,Fanyang Meng,Ronggang Wang,Yongsheng Liang

Main category: cs.CV

TL;DR: 论文提出了一种名为Compact Gaussian Streaming (ComGS)的新框架,通过利用动态场景中运动的局部性和一致性,显著降低了存储需求,同时保持了高质量的视觉保真度和渲染速度。

  • Motivation: 现有的在线自由视点视频(FVV)重建方法因逐点建模而面临存储需求过高的问题,未能充分利用运动特性。
  • Method: ComGS通过关键点驱动的运动表示建模对象一致的高斯点运动,仅传输关键点属性以减少存储。具体包括:1)使用视图空间梯度差异策略识别运动区域中的稀疏关键点;2)提出自适应运动驱动机制预测空间影响场,传播关键点运动;3)采用误差感知校正策略选择性优化关键帧重建。
  • Result: ComGS实现了显著的存储降低(相比3DGStream和QUEEN分别减少159倍和14倍),同时保持视觉保真度和渲染速度。
  • Conclusion: ComGS为动态场景的在线FVV重建提供了一种高效且存储友好的解决方案。

[84] SHaDe: Compact and Consistent Dynamic 3D Reconstruction via Tri-Plane Deformation and Latent Diffusion

Asrar Alruwayqi

Main category: cs.CV

TL;DR: 提出了一种动态3D场景重建的新框架,结合了三平面变形场、基于球谐函数的辐射场和潜在扩散先验,实现了高效时空表示和高质量渲染。

  • Motivation: 解决动态3D场景重建中时空表示效率低、运动建模复杂以及渲染质量不足的问题。
  • Method: 使用三平面变形场编码4D场景,通过球谐函数注意力改进渲染效率,并引入潜在扩散模块增强时空一致性。
  • Result: 在合成基准测试中表现优异,视觉质量、时间一致性和稀疏视图输入鲁棒性均优于现有方法。
  • Conclusion: 该框架为动态3D重建提供了高效且高质量的解决方案,具有广泛的应用潜力。

[85] TextureSAM: Towards a Texture Aware Foundation Model for Segmentation

Inbal Cohen,Boaz Meivar,Peihan Tu,Shai Avidan,Gal Oren

Main category: cs.CV

TL;DR: TextureSAM是一种针对纹理主导场景优化的分割模型,通过纹理增强技术改进SAM的形状偏差,在自然和合成纹理数据集上表现优于SAM-2。

  • Motivation: SAM模型在语义分割任务中偏向形状而非纹理,而纹理在医学影像、材料分类等领域至关重要。
  • Method: 采用纹理增强技术和ADE20K数据集的纹理变体进行微调,强调纹理特征。
  • Result: TextureSAM在自然和合成纹理数据集上分别提升0.2和0.18 mIoU。
  • Conclusion: TextureSAM有效解决了SAM的纹理偏差问题,适用于纹理主导场景。

[86] Auto-nnU-Net: Towards Automated Medical Image Segmentation

Jannis Becktepe,Leona Hennig,Steffen Oeltze-Jafra,Marius Lindauer

Main category: cs.CV

TL;DR: Auto-nnU-Net通过自动化超参数优化和架构搜索,显著提升了医学图像分割性能,同时兼顾计算资源限制。

  • Motivation: 解决现有nnU-Net框架在超参数和架构设计上的固定性,以及医学场景中资源受限的问题。
  • Method: 提出Auto-nnU-Net,结合HPO、NAS和HNAS,并引入Regularized PriorBand平衡精度与资源消耗。
  • Result: 在10个数据集中,6个性能显著提升,其余持平,且资源需求合理。
  • Conclusion: Auto-nnU-Net为医学图像分割提供了高效的全自动化解决方案。

[87] M2SVid: End-to-End Inpainting and Refinement for Monocular-to-Stereo Video Conversion

Nina Shvetsova,Goutam Bhat,Prune Truong,Hilde Kuehne,Federico Tombari

Main category: cs.CV

TL;DR: 提出了一种新的单目到立体视频转换方法,通过改进Stable Video Diffusion模型,利用左视图、扭曲右视图和遮挡掩码生成高质量右视图。

  • Motivation: 解决单目视频转换为立体视频时右视图生成的质量和效率问题。
  • Method: 扩展Stable Video Diffusion模型,利用左视图、扭曲右视图和遮挡掩码作为输入,修改注意力层以处理遮挡像素,并通过端到端训练优化生成质量。
  • Result: 在用户研究中平均排名1.43(共4种方法),且速度比第二名快6倍。
  • Conclusion: 该方法在生成质量和效率上均优于现有技术。

[88] Temporal Object Captioning for Street Scene Videos from LiDAR Tracks

Vignesh Gopinathan,Urs Zimmermann,Michael Arnold,Matthias Rottmann

Main category: cs.CV

TL;DR: 提出了一种基于LiDAR的自动视频字幕生成方法,专注于交通参与者的时间动态,通过规则提取和模板生成,显著提升了模型对时间语义的理解。

  • Motivation: 现有视频字幕模型在时间语义捕捉方面存在不足,尤其是在高级驾驶辅助系统(ADAS)背景下,缺乏对时间动态的深入理解。
  • Method: 采用基于LiDAR的规则系统提取车道位置和相对运动等关键信息,结合模板生成字幕,并用这些字幕训练SwinBERT模型。
  • Result: 实验表明,该方法在三个数据集上均显著提升了模型对时间语义的理解能力。
  • Conclusion: LiDAR生成的字幕监督能有效减少现有模型的视觉/静态偏差,增强时间理解能力。

[89] Decoupled Geometric Parameterization and its Application in Deep Homography Estimation

Yao Huang,Si-Yuan Cao,Yaqing Ding,Hao Yin,Shibin Xie,Shuting Wang,Zhijun Fang,Jiachun Wang,Shen Cai,Junchi Yan,Shuhan Shen

Main category: cs.CV

TL;DR: 论文提出了一种新的基于SKS分解的几何参数化方法,用于直接估计单应性矩阵,避免了求解线性系统的需求。

  • Motivation: 传统的四角位置偏移参数化缺乏几何可解释性,且需要求解线性系统,因此需要一种更直观且高效的方法。
  • Method: 利用相似-核-相似(SKS)分解,将单应性矩阵解耦为两组几何参数:相似变换和核变换。
  • Result: 提出的参数化方法在性能上与四角位置偏移相当,但更高效且具有几何解释性。
  • Conclusion: 新方法为单应性估计提供了一种更直观且计算高效的替代方案。

[90] MEgoHand: Multimodal Egocentric Hand-Object Interaction Motion Generation

Bohan Zhou,Yi Zhan,Zhongbin Zhang,Zongqing Lu

Main category: cs.CV

TL;DR: MEgoHand是一个多模态框架,通过视觉语言模型和深度估计器生成物理合理的手-物体交互,显著降低了手腕平移和关节旋转误差。

  • Motivation: 解决现有方法在新型物体上的泛化能力不足以及多模态方法生成模糊的问题。
  • Method: 采用双层架构:高层使用视觉语言模型和深度估计器,低层基于DiT的流匹配策略生成轨迹。
  • Result: 在多个数据集上表现优异,手腕平移误差降低86.9%,关节旋转误差降低34.1%。
  • Conclusion: MEgoHand能够准确建模手部关节结构,并在多样场景中表现出强泛化能力。

[91] Grounding Chest X-Ray Visual Question Answering with Generated Radiology Reports

Francesco Dalla Serra,Patrick Schrempf,Chaoyang Wang,Zaiqiao Meng,Fani Deligianni,Alison Q. O'Neil

Main category: cs.CV

TL;DR: 提出了一种新颖的CXR VQA方法,结合放射学报告提升性能,支持单图像和图像差异问题,并采用两步模型(报告生成和答案生成)实现最佳效果。

  • Motivation: 解决CXR VQA中单图像和图像差异问题,探索放射学报告在提升模型性能中的作用。
  • Method: 提出统一方法处理两类问题,结合放射学报告作为输入,采用两步模型(RG和AG)生成答案。
  • Result: 在Medical-Diff-VQA数据集上实现最佳性能,证明放射学报告对答案生成的提升作用。
  • Conclusion: 放射学报告作为额外输入显著提升CXR VQA性能,两步模型设计有效。

[92] Background Matters: A Cross-view Bidirectional Modeling Framework for Semi-supervised Medical Image Segmentation

Luyang Cao,Jianwei Li,Yinghuan Shi

Main category: cs.CV

TL;DR: 论文提出了一种半监督医学图像分割框架CVBM,通过显式建模背景区域提升前景分割性能,实验表明其在多个数据集上优于现有方法。

  • Motivation: 当前半监督医学图像分割方法主要关注前景建模,忽视了背景建模的潜在优势。本文通过理论和实验证明,背景建模的高确定性预测能增强前景建模的信心。
  • Method: 提出CVBM框架,引入背景建模作为辅助视角,提供互补监督信号,并设计双向一致性机制确保前景与背景预测对齐。
  • Result: 在LA、Pancreas、ACDC和HRF数据集上达到SOTA性能,Pancreas数据集上仅用20%标注数据即超越全监督方法(DSC: 84.57% vs. 83.89%)。
  • Conclusion: CVBM通过结合背景建模和双向一致性机制,显著提升了半监督医学图像分割的性能,代码已开源。

[93] SoccerChat: Integrating Multimodal Data for Enhanced Soccer Game Understanding

Sushant Gautam,Cise Midoglu,Vajira Thambawita,Michael A. Riegler,Pål Halvorsen,Mubarak Shah

Main category: cs.CV

TL;DR: SoccerChat是一个多模态对话AI框架,通过整合视觉和文本数据提升足球视频理解能力,在动作分类和裁判决策任务中表现优异。

  • Motivation: 传统足球分析方法依赖孤立数据流,难以全面捕捉比赛动态,因此需要一种更全面的解决方案。
  • Method: 利用SoccerNet数据集(含球衣颜色标注和ASR转录文本),通过结构化视频指令数据集微调SoccerChat,实现比赛理解、事件分类和裁判决策。
  • Result: SoccerChat在动作分类和裁判决策任务中表现优异,验证了多模态整合的重要性。
  • Conclusion: 多模态整合推动了足球分析的进步,为交互式和可解释的AI驱动体育分析铺平了道路。

[94] Towards Texture- And Shape-Independent 3D Keypoint Estimation in Birds

Valentin Schmuker,Alex Hoi Hang Chan,Bastian Goldluecke,Urs Waldmann

Main category: cs.CV

TL;DR: 提出了一种不依赖纹理的方法来估计和跟踪多只鸽子的3D关节位置,扩展了3D-MuPPET框架,通过分割生成轮廓并估计2D关键点,最终实现与原始方法相当的精度,并初步验证了其适用于其他鸟类。

  • Motivation: 解决现有3D姿态估计方法对纹理依赖的问题,并探索其通用性。
  • Method: 基于3D-MuPPET框架,使用分割生成个体轮廓,估计2D关键点并三角化为3D姿态,身份匹配和跟踪。
  • Result: 方法精度与原始纹理依赖方法相当,且初步适用于其他鸟类。
  • Conclusion: 该方法为开发更鲁棒、准确的纹理无关姿态估计框架奠定了基础。

[95] From Evaluation to Defense: Advancing Safety in Video Large Language Models

Yiwei Sun,Peiqi Jiang,Chuanbin Liu,Luohao Lin,Zhiying Lu,Hongtao Xie

Main category: cs.CV

TL;DR: 论文提出了VideoSafetyBench(VSB-77k),首个大规模、文化多样的视频大语言模型安全基准,并揭示了视频模态会降低安全性42.3%。为解决此问题,提出了双阶段框架VideoSafety-R1,通过Alarm Token-Guided Safety Fine-Tuning和Safety-Guided GRPO显著提升安全性。

  • Motivation: 视频大语言模型(Video LLMs)的安全性风险尚未被充分研究,亟需系统性的评估和改进方法。
  • Method: 提出VideoSafety-R1框架,包含Alarm Token-Guided Safety Fine-Tuning(AT-SFT)和Safety-Guided GRPO两阶段,通过多任务目标和动态策略优化提升安全性。
  • Result: 框架在VSB-Eval-HH上提升65.1%,在其他图像安全数据集上也有显著改进(59.1%、44.3%、15.0%)。
  • Conclusion: VideoSafety-R1通过主动推理显著提升了视频大语言模型的安全性,为多模态安全研究提供了新方向。

[96] Point, Detect, Count: Multi-Task Medical Image Understanding with Instruction-Tuned Vision-Language Models

Sushant Gautam,Michael A. Riegler,Pål Halvorsen

Main category: cs.CV

TL;DR: 研究通过指令微调视觉语言模型(VLMs)用于多任务医学图像理解,包括检测、定位和计数,以提升诊断准确性和效率。

  • Motivation: 评估指令微调的VLMs是否能同时改进医学图像的多任务处理,从而提升临床诊断的准确性和效率。
  • Method: 使用MedMultiPoints数据集,将任务转化为基于指令的提示,并通过LoRA微调Qwen2.5-VL-7B-Instruct模型。
  • Result: 多任务训练提高了鲁棒性和准确性,但存在边缘案例可靠性降低的权衡。
  • Conclusion: 研究展示了通用VLMs通过提示微调适应医学任务的潜力,为可解释和多功能医学AI提供了方向。

[97] Unsupervised Network Anomaly Detection with Autoencoders and Traffic Images

Michael Neri,Sara Baldoni

Main category: cs.CV

TL;DR: 提出了一种基于图像的网络流量表示方法,用于快速检测安全异常,并采用无监督学习方法。

  • Motivation: 随着连接设备数量增加,需要快速检测安全问题,同时处理大量数据。设备异构性也增加了复杂性。
  • Method: 使用基于图像的流量表示方法,以1秒时间窗口生成网络状态摘要,减少复杂处理需求。
  • Result: 提出的方法能有效检测异常,代码和数据集已公开。
  • Conclusion: 该方法为异构设备网络提供了一种高效的异常检测解决方案。

[98] Seeing Far and Clearly: Mitigating Hallucinations in MLLMs with Attention Causal Decoding

Feilong Tang,Chengzhi Liu,Zhongxing Xu,Ming Hu,Zelin Peng,Zhiwei Yang,Jionglong Su,Minquan Lin,Yifan Peng,Xuelian Cheng,Imran Razzak,Zongyuan Ge

Main category: cs.CV

TL;DR: FarSight提出了一种通过优化因果掩码减少幻觉的解码策略,有效提升了多模态大语言模型的视觉问答性能。

  • Motivation: 多模态大语言模型在视觉问答中存在幻觉问题,分为初始幻觉和雪球幻觉,需要改进令牌交互以提取充分上下文信息。
  • Method: 利用因果掩码建立多模态令牌间的信息传播,设计注意力寄存器结构和位置感知编码方法,动态分配注意力以减少异常令牌干扰。
  • Result: FarSight在图像和视频基准测试中显著减少了幻觉问题,验证了其有效性。
  • Conclusion: FarSight是一种通用且高效的解码策略,能显著改善多模态大语言模型的幻觉问题。

[99] Zero-Shot Hyperspectral Pansharpening Using Hysteresis-Based Tuning for Spectral Quality Control

Giuseppe Guarino,Matteo Ciotola,Gemine Vivone,Giovanni Poggi,Giuseppe Scarpa

Main category: cs.CV

TL;DR: 本文提出了一种轻量级神经网络方法,用于高光谱图像融合,解决了现有方法在光谱保真度和一致性上的不足。

  • Motivation: 高光谱图像融合面临独特挑战,如波段数量多、噪声大、光谱不匹配等,现有方法难以在所有波段保持一致性。
  • Method: 使用自适应权重的轻量级神经网络,动态调整空间损失,确保光谱保真度,并重新定义空间损失以处理非线性依赖。
  • Result: 实验表明,该方法在所有波段均能保持一致的锐化质量,性能优于现有技术。
  • Conclusion: 该方法无需外部数据训练,灵活且低复杂度,为高光谱图像融合提供了有效解决方案。

[100] SD-MAD: Sign-Driven Few-shot Multi-Anomaly Detection in Medical Images

Kaiyu Guo,Tan Pan,Chen Jiang,Zijian Wang,Brian C. Lovell,Limei Han,Yuan Cheng,Mahsa Baktashmotlagh

Main category: cs.CV

TL;DR: 提出了一种针对多类别医学异常检测的少样本学习框架SD-MAD,通过结合文本描述和两阶段方法提升检测性能。

  • Motivation: 医学异常检测因数据隐私和孤岛问题受限,少样本学习结合视觉语言模型(VLMs)成为解决方案。现有方法多为一类分类,忽略多类别异常区分。
  • Method: 提出SD-MAD框架:1)通过文本描述对齐放射学特征与异常类别;2)采用自动特征选择策略减少数据不足的影响。
  • Result: 实验验证了方法的有效性。
  • Conclusion: SD-MAD在多类别医学异常检测中表现优异,解决了少样本学习中的关键问题。

[101] CoNav: Collaborative Cross-Modal Reasoning for Embodied Navigation

Haihong Hao,Mingfei Han,Changlin Li,Zhihui Li,Xiaojun Chang

Main category: cs.CV

TL;DR: CoNav是一个协作跨模态推理框架,通过3D-text模型指导图像-文本导航代理,解决导航中的模糊性,显著提升了多个导航和空间推理基准的性能。

  • Motivation: 现有方法在融合2D图像、3D点云和文本指令时面临多模态数据稀缺和模态间冲突的挑战,需要一种更有效的方法来整合这些信息。
  • Method: 引入Cross-Modal Belief Alignment,通过共享3D-text模型的文本假设指导导航代理,并在小规模2D-3D-text语料库上进行轻量级微调。
  • Result: 在四个导航基准和两个空间推理基准上表现显著优于其他方法,且生成的路径更短(SPL指标)。
  • Conclusion: CoNav展示了跨模态数据融合在导航中的潜力,但仍需进一步解决模态融合的挑战。

[102] R1-ShareVL: Incentivizing Reasoning Capability of Multimodal Large Language Models via Share-GRPO

Huanjin Yao,Qixiang Yin,Jingyi Zhang,Min Yang,Yibo Wang,Wenhao Wu,Fei Su,Li Shen,Minghui Qiu,Dacheng Tao,Jiaxing Huang

Main category: cs.CV

TL;DR: Share-GRPO是一种通过强化学习激励多模态大语言模型推理能力的新方法,通过扩展问题空间和共享推理轨迹解决稀疏奖励和优势消失问题。

  • Motivation: 激励多模态大语言模型的推理能力,并解决强化学习中的稀疏奖励和优势消失问题。
  • Method: 提出Share-GRPO方法,扩展问题空间,探索和共享多样推理轨迹,并在优势计算中共享奖励信息。
  • Result: 在六个广泛使用的推理基准测试中表现出优越性能。
  • Conclusion: Share-GRPO通过共享推理轨迹和奖励信息,有效提升了模型的推理能力和训练稳定性。

[103] Zero-Shot Anomaly Detection in Battery Thermal Images Using Visual Question Answering with Prior Knowledge

Marcella Astrid,Abdelrahman Shabayek,Djamila Aouada

Main category: cs.CV

TL;DR: 论文提出了一种基于视觉问答(VQA)模型的零样本异常检测方法,用于电池热图像中的异常检测,无需电池特定训练数据。

  • Motivation: 电池安全性和效率至关重要,但传统深度学习方法需要大量标注数据,而异常数据难以获取。
  • Method: 利用预训练的VQA模型(如ChatGPT-4o、LLaVa-13b和BLIP-2),结合正常电池热行为的先验知识设计提示词,实现零样本异常检测。
  • Result: 尽管未对电池数据进行微调,该方法在性能上与基于电池数据训练的最先进模型相当。
  • Conclusion: VQA零样本学习在电池异常检测中具有潜力,未来可进一步优化其效果。

[104] Semantic Compression of 3D Objects for Open and Collaborative Virtual Worlds

Jordan Dotzel,Tony Montes,Mohamed S. Abdelfattah,Zhiru Zhang

Main category: cs.CV

TL;DR: 传统3D压缩方法仅处理顶点、多边形和纹理的结构信息,而语义压缩直接操作核心概念,实现更高压缩率(如105x),并利用自然语言存储,适合协作项目。

  • Motivation: 传统方法在高压缩率下表现不佳,而语义压缩通过忽略结构信息并利用生成模型填补缺失信息,探索更高压缩率。
  • Method: 构建基于公共生成模型的3D语义压缩流程,预测缺失信息,实现高压缩率。
  • Result: 在Objaverse数据集上实现105x压缩率,在100x压缩率附近优于传统方法。
  • Conclusion: 语义压缩在高压缩率下表现优越,适合协作和新兴应用。

[105] On the use of Graphs for Satellite Image Time Series

Corentin Dufourg,Charlotte Pelletier,Stéphane May,Sébastien Lefèvre

Main category: cs.CV

TL;DR: 该论文探讨了基于图的方法在时空遥感分析中的应用,提出了一种通用的图处理流程,并展示了其在土地覆盖制图和水资源预测中的潜力。

  • Motivation: 地球表面过程复杂且动态,卫星图像时间序列(SITS)提供了全球监测的优势,但数据量大且复杂。传统欧几里得方法难以处理,因此需要基于图的方法来建模时空交互。
  • Method: 论文提出了一种通用的图处理流程,包括从SITS构建时空图,并将其应用于下游任务。通过综述和两个案例研究验证了方法的有效性。
  • Result: 案例研究表明,基于图的方法在土地覆盖制图和水资源预测中具有潜力。
  • Conclusion: 论文总结了基于图的方法的优势,并讨论了当前局限性和未来发展方向。

[106] One-Step Diffusion-Based Image Compression with Semantic Distillation

Naifu Xue,Zhaoyang Jia,Jiahao Li,Bin Li,Yuan Zhang,Yan Lu

Main category: cs.CV

TL;DR: OneDC是一种基于一步扩散的生成图像编解码器,通过结合潜在压缩模块和一步扩散生成器,显著降低了延迟,并在感知质量上达到SOTA水平。

  • Motivation: 现有基于扩散的生成图像编解码器因迭代采样过程导致延迟较高,本文旨在通过一步采样解决这一问题。
  • Method: 提出OneDC,结合潜在压缩模块和一步扩散生成器;利用超先验作为语义信号,并通过语义蒸馏机制增强其语义能力;采用混合像素和潜在域优化。
  • Result: 实验表明,OneDC在一步生成下仍达到SOTA感知质量,比特率降低40%以上,解码速度提升20倍。
  • Conclusion: OneDC证明了一步扩散在生成压缩中的有效性,为高效图像编解码提供了新思路。

[107] KRIS-Bench: Benchmarking Next-Level Intelligent Image Editing Models

Yongliang Wu,Zonghui Li,Xinting Hu,Xinyu Ye,Xianfang Zeng,Gang Yu,Wenbo Zhu,Bernt Schiele,Ming-Hsuan Yang,Xu Yang

Main category: cs.CV

TL;DR: KRIS-Bench是一个基于知识推理的图像编辑诊断基准,通过三类知识类型(事实、概念、程序)评估模型性能,揭示了现有模型在推理能力上的不足。

  • Motivation: 当前多模态生成模型在基于指令的图像编辑中表现良好,但其知识推理能力尚未充分探索,需要知识为中心的基准来推动智能图像编辑系统的发展。
  • Method: 基于教育理论,KRIS-Bench设计了22个任务,覆盖7个推理维度,并发布了1,267个高质量标注实例。提出知识合理性指标,结合知识提示和人工校准。
  • Result: 对10个前沿模型的实证结果显示,它们在推理性能上存在显著差距。
  • Conclusion: KRIS-Bench强调了知识推理在图像编辑中的重要性,为未来智能系统的开发提供了方向。

[108] SEDD-PCC: A Single Encoder-Dual Decoder Framework For End-To-End Learned Point Cloud Compression

Kai Hsiang Hsieh,Monyneath Yim,Jui Chiu Chiang

Main category: cs.CV

TL;DR: SEDD-PCC是一种端到端的学习框架,联合压缩点云的几何和属性,通过单一编码器和双解码器设计,提升了效率。

  • Motivation: 现有方法将几何和属性编码分离,导致计算复杂且未能充分利用共享特征。
  • Method: 使用单一编码器提取共享特征到统一潜在空间,双解码器顺序重建几何和属性,并引入知识蒸馏。
  • Result: 在规则和基于学习的方法中表现出竞争力。
  • Conclusion: SEDD-PCC是一种高效且实用的点云压缩解决方案。

[109] Robust Vision-Based Runway Detection through Conformal Prediction and Conformal mAP

Alya Zouzou,Léo andéol,Mélanie Ducoffe,Ryma Boumazouza

Main category: cs.CV

TL;DR: 使用共形预测为基于视觉的着陆系统中的跑道检测提供统计不确定性保证,提出新指标C-mAP,提升检测可靠性。

  • Motivation: 提高跑道检测的可靠性,为航空航天领域的机器学习系统认证提供支持。
  • Method: 使用微调的YOLOv5和YOLOv6模型,结合共形预测量化定位可靠性。
  • Result: 共形预测能通过统计方法量化不确定性,提升跑道检测的可靠性。
  • Conclusion: 共形预测为跑道检测提供了统计上的可靠性保证,有助于提升安全性和系统认证。

[110] Representation Discrepancy Bridging Method for Remote Sensing Image-Text Retrieval

Hailong Ning,Siying Wang,Tao Lei,Xiaopeng Cao,Huanmin Dou,Bin Zhao,Asoke K. Nandi,Petia Radeva

Main category: cs.CV

TL;DR: 该论文提出了一种表示差异桥接(RDB)方法,用于解决遥感图像-文本检索(RSITR)任务中跨模态优化不平衡的问题。通过设计跨模态非对称适配器(CMAA)和双任务一致性损失(DTCL),显著提升了模型性能。

  • Motivation: 现有参数高效微调(PEFT)方法在视觉与语言预训练(VLP)模型中采用对称适配器结构,但文本模态的强判别性可能主导优化过程,抑制图像表示学习,导致跨模态优化不平衡。
  • Method: 提出RDB方法,包括跨模态非对称适配器(CMAA)和双任务一致性损失(DTCL)。CMAA通过视觉增强适配器(VEA)和文本语义适配器(TSA)分别优化图像和文本特征;DTCL通过加权组合多种约束提升跨模态对齐鲁棒性。
  • Result: 在RSICD和RSITMD数据集上,RDB方法比现有PEFT方法的mR指标提升6%-11%,比全微调GeoRSCLIP模型提升1.15%-2%。
  • Conclusion: RDB方法有效解决了跨模态优化不平衡问题,显著提升了遥感图像-文本检索任务的性能。

[111] Mesh-RFT: Enhancing Mesh Generation via Fine-grained Reinforcement Fine-Tuning

Jian Liu,Jing Xu,Song Guo,Jing Li,Jingfeng Guo,Jiaao Yu,Haohan Weng,Biwen Lei,Xianghui Yang,Zhuo Chen,Fangqi Zhu,Tao Han,Chunchao Guo

Main category: cs.CV

TL;DR: Mesh-RFT提出了一种细粒度强化学习框架,通过局部优化提升3D网格生成质量,优于现有预训练模型和全局RL方法。

  • Motivation: 现有预训练模型存在数据偏差和低质量结果,全局RL方法难以捕捉局部结构细节。
  • Method: 采用Masked Direct Preference Optimization (M-DPO)进行局部细化,结合边界边缘比(BER)和拓扑评分(TS)的评估系统。
  • Result: 实验显示,Mesh-RFT在Hausdorff距离和拓扑评分上显著优于预训练模型和全局DPO方法。
  • Conclusion: Mesh-RFT在几何完整性和拓扑规则性上取得新突破,成为生产级网格生成的先进方法。

[112] Self-Rewarding Large Vision-Language Models for Optimizing Prompts in Text-to-Image Generation

Hongji Yang,Yucheng Zhou,Wencheng Han,Jianbing Shen

Main category: cs.CV

TL;DR: 论文提出了一种新的提示优化框架,利用大型视觉语言模型(LVLMs)重写用户提示并评估生成图像的质量,减少对人工标注数据和训练模型的依赖。

  • Motivation: 解决文本到图像模型中提示设计需要专业词汇的问题,并减少对大规模标注数据和训练模型的依赖。
  • Method: 使用LVLMs作为提示重写器和奖励模型,通过强化学习实现自我改进。
  • Result: 在两个流行数据集上表现优于其他强竞争对手。
  • Conclusion: 提出的框架有效优化提示并减少对人工标注的依赖,具有实际应用潜力。

[113] RBench-V: A Primary Assessment for Visual Reasoning Models with Multi-modal Outputs

Meng-Hao Guo,Xuanyu Chu,Qianrui Yang,Zhe-Han Mo,Yiqing Shen,Pei-lin Li,Xinjie Lin,Jinnian Zhang,Xin-Sheng Chen,Yi Zhang,Kiyohiro Nakayama,Zhengyang Geng,Houwen Peng,Han Hu,Shi-Nin Hu

Main category: cs.CV

TL;DR: 论文提出了一个名为RBench-V的基准测试,用于评估多模态模型在视觉推理中的能力,发现当前模型表现远低于人类水平。

  • Motivation: 现有基准测试主要关注多模态输入和纯文本推理,忽视了多模态输出在推理中的重要性。
  • Method: 通过精心挑选803个涵盖数学、物理、计数和游戏的问题,构建RBench-V基准测试,要求模型进行图像操作以支持推理。
  • Result: 最佳模型o3在RBench-V上的准确率仅为25.8%,远低于人类的82.3%。
  • Conclusion: 当前模型在多模态推理能力上仍有显著不足,RBench-V为未来研究提供了重要基准。

[114] Mitigating Overfitting in Medical Imaging: Self-Supervised Pretraining vs. ImageNet Transfer Learning for Dermatological Diagnosis

Iván Matas,Carmen Serrano,Miguel Nogales,David Moreno,Lara Ferrándiz,Teresa Ojeda,Begoña Acha

Main category: cs.CV

TL;DR: 本文提出了一种无监督学习框架,用于提取皮肤病学特征,优于基于ImageNet的预训练方法。

  • Motivation: 解决医学影像领域依赖自然图像预训练模型的局限性,提升领域特定特征提取能力。
  • Method: 使用变分自编码器(VAE)在皮肤病数据集上从头训练,生成结构化且临床相关的潜在空间。
  • Result: 自监督模型验证损失降低33.33%,准确率提升44.44%,过拟合差距接近零;ImageNet预训练模型准确率虽高但过拟合明显。
  • Conclusion: 自监督学习在医学影像中表现更优,强调领域特定特征提取的重要性。

[115] Single Domain Generalization for Few-Shot Counting via Universal Representation Matching

Xianing Chen,Si Huo,Borui Jiang,Hailin Hu,Xinghao Chen

Main category: cs.CV

TL;DR: 论文提出了一种名为URM的单领域泛化少样本计数方法,通过引入通用视觉-语言表示提升了领域泛化能力。

  • Motivation: 解决少样本计数中领域偏移导致泛化能力不足的问题。
  • Method: 提出URM模型,利用大规模预训练的视觉-语言模型提取通用表示,改进相关性构建过程。
  • Result: URM在领域内和新领域泛化设置中均达到最优性能。
  • Conclusion: URM通过引入通用表示显著提升了少样本计数的领域泛化能力。

[116] Four Eyes Are Better Than Two: Harnessing the Collaborative Potential of Large Models via Differentiated Thinking and Complementary Ensembles

Jun Xie,Xiongjun Guan,Yingjian Zhu,Zhaoran Zhao,Xinming Wang,Feng Chen,Zhepeng Wang

Main category: cs.CV

TL;DR: 本文介绍了CVPR 2025 Ego4D EgoSchema挑战赛的亚军解决方案,通过多模态大模型的少样本学习和集成策略,显著提升了视频理解任务的性能。

  • Motivation: 受大模型成功的启发,探索如何利用多模态大模型解决视频理解任务,并充分发挥其泛化和适应能力。
  • Method: 采用少样本学习和模型集成策略,系统评估多样化提示风格和处理范式,以引导大模型的注意力。
  • Result: 实验表明,单个多模态模型已超越现有SOTA方法,进一步引入结果集成阶段后性能显著提升。
  • Conclusion: 本文为大模型的实践应用提供了参考,并启发了未来研究方向。

[117] REPA Works Until It Doesn't: Early-Stopped, Holistic Alignment Supercharges Diffusion Training

Ziqiao Wang,Wangbo Zhao,Yuhao Zhou,Zekai Li,Zhiyuan Liang,Mingjia Shi,Xuanlei Zhao,Pengfei Zhou,Kaipeng Zhang,Zhangyang Wang,Kai Wang,Yang You

Main category: cs.CV

TL;DR: HASTE提出了一种两阶段训练方法,通过阶段性终止对齐损失,显著加速扩散变换器(DiTs)的训练,同时保持或提升性能。

  • Motivation: 现有方法(如REPA)虽能加速DiTs早期训练,但后期性能会停滞或下降,原因是生成式学生与教师模型的能力不匹配。
  • Method: HASTE分为两阶段:第一阶段使用整体对齐损失(注意力图和特征投影);第二阶段在触发条件满足时终止对齐损失,专注于去噪。
  • Result: HASTE在ImageNet 256×256上仅需50轮达到基线FID,500轮匹配REPA最佳FID,优化步骤减少28倍,并在MS-COCO上提升文本到图像DiTs性能。
  • Conclusion: HASTE是一种简单而有效的扩散训练方法,适用于多种任务。

[118] REOBench: Benchmarking Robustness of Earth Observation Foundation Models

Xiang Li,Yong Tao,Siyuan Zhang,Siwei Liu,Zhitong Xiong,Chunbo Luo,Lu Liu,Mykola Pechenizkiy,Xiao Xiang Zhu,Tianjin Huang

Main category: cs.CV

TL;DR: REOBench是首个评估地球观测基础模型在六项任务和十二种图像扰动下鲁棒性的综合基准,揭示了现有模型在输入扰动下性能显著下降的问题。

  • Motivation: 地球观测基础模型在真实世界扰动下的鲁棒性尚未充分研究,REOBench旨在填补这一空白。
  • Method: 通过高分辨率光学遥感图像,系统评估了基于掩码图像建模、对比学习和视觉语言预训练范式的多种模型。
  • Result: 现有模型在输入扰动下性能显著下降,性能降幅从1%到20%不等,视觉语言模型在多模态任务中表现更鲁棒。
  • Conclusion: REOBench揭示了当前模型的脆弱性,并为开发更鲁棒的模型提供了实用建议。

[119] V2V: Scaling Event-Based Vision through Efficient Video-to-Voxel Simulation

Hanyue Lou,Jinxiu Liang,Minggui Teng,Yi Wang,Boxin Shi

Main category: cs.CV

TL;DR: V2V方法将传统视频帧直接转换为事件体素网格,大幅降低存储需求并提升模型鲁棒性。

  • Motivation: 解决事件相机数据存储需求高、真实数据稀缺的问题,推动事件视觉模型发展。
  • Method: 提出Video-to-Voxel(V2V)方法,绕过事件流生成,直接转换视频帧为事件体素网格。
  • Result: 存储需求降低150倍,训练数据集规模扩大10倍,模型性能显著提升。
  • Conclusion: V2V方法高效且可扩展,为事件视觉模型提供了大规模训练数据支持。

[120] SOLVE: Synergy of Language-Vision and End-to-End Networks for Autonomous Driving

Xuesong Chen,Linjiang Huang,Tao Ma,Rongyao Fang,Shaoshuai Shi,Hongsheng Li

Main category: cs.CV

TL;DR: 论文提出SOLVE框架,通过结合视觉语言模型(VLM)和端到端(E2E)模型,提升自动驾驶规划能力,采用轨迹链式思维(T-CoT)和时序解耦策略,显著提高轨迹预测准确性。

  • Motivation: 现有方法在高效集成和实时决策方面存在计算需求高的挑战,SOLVE旨在解决这些问题。
  • Method: 通过共享视觉编码器实现特征级知识共享,提出T-CoT逐步优化轨迹预测,并使用时序解耦策略对齐VLM和E2E模型。
  • Result: 在nuScenes数据集上验证,轨迹预测准确性显著提升。
  • Conclusion: SOLVE为更稳健可靠的自动驾驶系统提供了新方向。

[121] Hypergraph Tversky-Aware Domain Incremental Learning for Brain Tumor Segmentation with Missing Modalities

Junze Wang,Lei Fan,Weipeng Jing,Donglin Di,Yang Song,Sidong Liu,Cong Cong

Main category: cs.CV

TL;DR: 提出ReHyDIL方法,通过域增量学习和超图网络解决多模态MRI分割中缺失模态的问题,提升分割性能。

  • Motivation: 临床实践中MRI模态可能缺失,传统方法假设训练时所有模态可用,导致性能下降。重新训练模型效率低且易过拟合。
  • Method: 结合域增量学习(DIL)和超图网络(CHSNet),引入Tversky-Aware Contrastive损失解决信息不平衡。
  • Result: 在BraTS2019数据集上,Dice相似系数提升2%以上。
  • Conclusion: ReHyDIL有效应对模态缺失问题,性能优于现有方法。

[122] Semi-Supervised State-Space Model with Dynamic Stacking Filter for Real-World Video Deraining

Shangquan Sun,Wenqi Ren,Juxiang Zhou,Shu Wang,Jianhou Gan,Xiaochun Cao

Main category: cs.CV

TL;DR: 论文提出了一种双分支时空状态空间模型,用于提升视频序列中的雨线去除效果,并通过半监督学习和动态堆叠滤波器优化特征融合。

  • Motivation: 现有依赖配对数据的方法难以泛化到真实场景,因合成与真实雨效存在差异。
  • Method: 设计了空间和时间状态空间模型层分别提取空间特征和帧间时间依赖,并开发动态堆叠滤波器和中值堆叠损失以实现半监督学习。
  • Result: 方法在多个合成和真实雨视频基准测试中表现优异,定量指标、视觉质量和效率均领先。
  • Conclusion: 该方法不仅提升了雨线去除效果,还支持其他视觉任务,如雨天目标检测与跟踪。

[123] Perceptual Quality Assessment for Embodied AI

Chunyi Li,Jiaohao Xiao,Jianbo Zhang,Farong Wen,Zicheng Zhang,Yuan Tian,Xiangyang Zhu,Xiaohong Liu,Zhengxue Cheng,Weisi Lin,Guangtao Zhai

Main category: cs.CV

TL;DR: 论文提出了面向具身AI的图像质量评估(IQA)方法,旨在解决真实世界中图像质量对机器人任务的影响,并建立了包含36k图像对和5m标注的数据库。

  • Motivation: 真实世界中图像失真限制了具身AI的应用,传统IQA方法无法评估图像对机器人的可用性。
  • Method: 基于Mertonian系统和元认知理论,构建了感知-认知-决策-执行流程,并建立了Embodied-IQA数据库。
  • Result: 验证了主流IQA方法在Embodied-IQA上的表现,表明需要开发更准确的具身AI质量指标。
  • Conclusion: 通过评估促进具身AI在复杂失真环境中的应用。

[124] Action2Dialogue: Generating Character-Centric Narratives from Scene-Level Prompts

Taewon Kang,Ming C. Lin

Main category: cs.CV

TL;DR: 提出了一种模块化流程,将动作提示转化为视觉和听觉结合的叙事对话,丰富了视频故事的语音和角色表达。

  • Motivation: 现有视频生成系统在角色对话和语音方面研究不足,需填补这一空白。
  • Method: 结合视觉语言编码器提取场景语义特征,利用大语言模型生成角色一致的对话,并通过递归叙事银行保持跨场景一致性。
  • Result: 无需额外训练,适用于多种故事场景,生成角色一致且富有表现力的语音视频叙事。
  • Conclusion: 该框架有效提升了视频叙事的角色对话和语音表达,具有广泛适用性。

[125] Fact-R1: Towards Explainable Video Misinformation Detection with Deep Reasoning

Fanrui Zhang,Dian Li,Qiang Zhang,Chenjun,sinbadliu,Junxiong Lin,Jiahong Yan,Jiawei Liu,Zheng-Jun Zha

Main category: cs.CV

TL;DR: 论文提出FakeVV数据集和Fact-R1框架,用于视频虚假信息检测,结合深度推理和规则强化学习。

  • Motivation: 社交媒体上多模态虚假信息快速传播,现有方法因缺乏大规模数据集和深度推理能力而受限。
  • Method: 提出Fact-R1框架,包含三阶段训练:长链思维指令调优、偏好对齐和可验证奖励优化。
  • Result: Fact-R1在多模态虚假信息检测中表现出与文本强化学习系统相当的推理能力。
  • Conclusion: 该研究为虚假信息检测提供了新范式,结合视频理解、推理对齐和可验证性。

[126] LaViDa: A Large Diffusion Language Model for Multimodal Understanding

Shufan Li,Konstantinos Kallidromitis,Hritik Bansal,Akash Gokul,Yusuke Kato,Kazuki Kozuka,Jason Kuen,Zhe Lin,Kai-Wei Chang,Aditya Grover

Main category: cs.CV

TL;DR: LaViDa是一种基于离散扩散模型(DMs)的视觉语言模型(VLM),通过并行解码和双向上下文实现快速推理和可控生成,性能优于现有自回归模型。

  • Motivation: 现有自回归视觉语言模型(如LLaVA)在推理速度和可控生成方面表现不佳,离散扩散模型在语言任务中表现优异,但在多模态任务中潜力未充分挖掘。
  • Method: LaViDa通过为DMs配备视觉编码器并联合微调,引入互补掩码、前缀KV缓存和时间步偏移等技术,优化训练和推理。
  • Result: LaViDa在多模态基准测试中表现优于自回归模型,COCO字幕任务中CIDEr提升4.1,推理速度提高1.92倍,双向任务中提升59%。
  • Conclusion: LaViDa展示了离散扩散模型在多模态任务中的潜力,是自回归模型的有力替代方案。

[127] Conditional Panoramic Image Generation via Masked Autoregressive Modeling

Chaoyang Wang,Xiangtai Li,Lu Qi,Xiaofan Lin,Jinbin Bai,Qianyu Zhou,Yunhai Tong

Main category: cs.CV

TL;DR: 提出了一种统一的框架PAR,通过掩码自回归建模解决全景图像生成中的两个关键问题:扩散模型不适用于ERP全景图,以及文本和图像条件生成任务分离。

  • Motivation: 现有方法存在两个主要问题:扩散模型不适用于ERP全景图,以及文本和图像条件生成任务分离。
  • Method: 提出PAR框架,利用掩码自回归建模避免i.i.d.假设约束,并整合文本和图像条件生成任务。引入循环填充和一致性对齐策略提升生成质量。
  • Result: 实验表明,PAR在文本到图像生成和全景图外绘任务中表现优异,并展现出良好的扩展性和泛化能力。
  • Conclusion: PAR是一种高效且统一的全景图像生成框架,解决了现有方法的局限性。

[128] Training-Free Efficient Video Generation via Dynamic Token Carving

Yuechen Zhang,Jinbo Xing,Bin Xia,Shaoteng Liu,Bohao Peng,Xin Tao,Pengfei Wan,Eric Lo,Jiaya Jia

Main category: cs.CV

TL;DR: Jenga是一种新型推理管道,通过动态注意力雕刻和渐进分辨率生成,显著提升视频扩散模型的推理速度,同时保持生成质量。

  • Motivation: 视频扩散模型的计算需求高,限制了实际部署。主要问题包括自注意力的二次复杂性和扩散模型的多步特性。
  • Method: Jenga结合动态注意力雕刻(使用3D空间填充曲线动态选择相关标记交互)和渐进分辨率生成(逐步增加潜在分辨率)。
  • Result: 实验表明,Jenga在多个先进视频扩散模型上实现了显著加速(8.83倍),生成质量几乎无下降(VBench上仅0.01%)。
  • Conclusion: Jenga是一种即插即用的解决方案,无需重新训练模型,即可将推理时间从分钟级缩短至秒级,实现高质量视频生成。

[129] T2I-ConBench: Text-to-Image Benchmark for Continual Post-training

Zhehao Huang,Yuhang Liu,Yixin Lou,Zhengbao He,Mingzhen He,Wenxing Zhou,Tao Li,Kehan Li,Zeyi Huang,Xiaolin Huang

Main category: cs.CV

TL;DR: 论文提出了T2I-ConBench,一个用于文本到图像模型持续后训练的统一基准,解决了现有研究中缺乏标准化评估的问题。

  • Motivation: 现有文本到图像扩散模型的持续后训练缺乏标准化评估协议,阻碍了相关研究的发展。
  • Method: 引入T2I-ConBench基准,专注于两种实际场景(项目定制和领域增强),并从四个维度(通用性保留、目标任务性能、灾难性遗忘和跨任务泛化)进行分析。
  • Result: 评估了十种代表性方法,发现没有一种方法在所有方面表现优异,跨任务泛化问题仍未解决。
  • Conclusion: T2I-ConBench为文本到图像模型的持续后训练研究提供了标准化评估工具,推动了该领域的发展。

[130] Tracking the Flight: Exploring a Computational Framework for Analyzing Escape Responses in Plains Zebra (Equus quagga)

Isla Duporge,Sofia Minano,Nikoloz Sirmpilatze,Igor Tatarnikov,Scott Wolf,Adam L. Tyson,Daniel Rubenstein

Main category: cs.CV

TL;DR: 无人机技术为动物行为研究提供了高分辨率视频,但分离动物运动与无人机运动是技术挑战。本研究评估了三种方法,并成功提取了斑马逃跑事件的轨迹,揭示了群体行为模式。

  • Motivation: 无人机拍摄的高分辨率视频为动物行为研究提供了新机会,但需要解决分离动物运动与无人机运动的技术问题。
  • Method: 评估了三种方法:基于生物成像的配准技术、SfM流程和混合插值方法,应用于44匹斑马的逃跑事件视频。
  • Result: 最佳方法成功提取个体轨迹,发现逃跑时群体对齐增强、停止前间距短暂扩大、中心区域协调更紧密等行为模式。
  • Conclusion: 该方法高效且可扩展,有助于大规模动物群体行为研究。

[131] RealEngine: Simulating Autonomous Driving in Realistic Context

Junzhe Jiang,Nan Song,Jingyu Li,Xiatian Zhu,Li Zhang

Main category: cs.CV

TL;DR: RealEngine是一个新型驾驶模拟框架,通过整合3D场景重建和新视角合成技术,实现逼真且灵活的闭环驾驶模拟。

  • Motivation: 现有模拟器和基准测试无法全面满足高质量驾驶模拟的关键需求,如多模态感知、闭环评估、多样化交通场景等。
  • Method: 利用真实世界多模态传感器数据,分别重建背景场景和前景交通参与者,通过灵活场景组合实现高多样性和逼真性。
  • Result: RealEngine支持非反应式模拟、安全测试和多智能体交互,形成全面可靠的驾驶智能体评估基准。
  • Conclusion: RealEngine填补了现有模拟器的不足,为驾驶智能体的真实性能评估提供了高效且逼真的解决方案。

[132] DetailMaster: Can Your Text-to-Image Model Handle Long Prompts?

Qirui Jiao,Daoyuan Chen,Yilun Huang,Xika Lin,Ying Shen,Yaliang Li

Main category: cs.CV

TL;DR: DetailMaster是一个专门评估文本到图像(T2I)模型处理长、细节丰富提示能力的基准测试,揭示了现有模型在复杂组合需求下的性能局限。

  • Motivation: 现有T2I模型在长、细节密集的提示下性能显著下降,缺乏专业应用的系统性评估工具。
  • Method: 引入DetailMaster基准,包含四个关键评估维度:角色属性、结构化角色位置、多维场景属性和显式空间/交互关系,使用平均284.89个标记的长提示。
  • Result: 评估显示,最先进模型在关键维度(如属性绑定和空间推理)上仅达到约50%准确率,且性能随提示长度增加而下降。
  • Conclusion: DetailBench揭示了模型在结构理解和细节处理上的系统性缺陷,为未来研究提供了方向,并开源了数据集和工具。

[133] Efficient Correlation Volume Sampling for Ultra-High-Resolution Optical Flow Estimation

Karlis Martins Briedis,Markus Gross,Christopher Schroers

Main category: cs.CV

TL;DR: 提出了一种更高效的全对相关体积采样实现,显著降低内存使用和计算成本,同时保持与RAFT相同的数学操作。

  • Motivation: 解决现有光流估计方法因密集全对相关体积采样导致的高计算和内存开销问题,同时避免降低分辨率丢失细节。
  • Method: 改进全对相关体积采样的实现方式,保持与RAFT相同的数学操作,但显著提升效率和降低内存使用。
  • Result: 在内存受限环境下,内存使用降低95%,速度提升90%,端到端推理时间节省50%,并在高分辨率数据集上达到最优效果。
  • Conclusion: 该方法在高效性和准确性上均优于现有方法,适用于高分辨率光流估计任务。

[134] MedFrameQA: A Multi-Image Medical VQA Benchmark for Clinical Reasoning

Suhao Yu,Haojin Wang,Juncheng Wu,Cihang Xie,Yuyin Zhou

Main category: cs.CV

TL;DR: MedFrameQA是首个专注于医学视觉问答(VQA)中多图像推理的基准数据集,通过自动化流程和多阶段过滤策略构建,包含2,851个VQA对。评估显示现有多模态大语言模型表现不佳,准确率普遍低于50%,且存在忽略关键信息、证据误聚合等问题。

  • Motivation: 现有医学VQA基准多关注单图像分析,而临床诊断通常需要比较多张图像。为更贴近实际工作流程,研究者提出了MedFrameQA。
  • Method: 通过自动化流程提取医学视频中的时序连贯帧,构建逻辑连贯的VQA问题,并采用多阶段过滤策略确保数据质量。
  • Result: 数据集包含2,851个VQA对,覆盖9个人体系统和43个器官。评估显示所有模型表现不佳,准确率低于50%,且错误类型多样。
  • Conclusion: MedFrameQA有望推动基于临床的多图像推理研究,促进诊断AI系统的进步。

[135] UniPhy: Learning a Unified Constitutive Model for Inverse Physics Simulation

Himangi Mittal,Peiye Zhuang,Hsin-Ying Lee,Shubham Tulsiani

Main category: cs.CV

TL;DR: UniPhy是一种通用的潜在条件神经本构模型,能够编码多种材料的物理特性,并通过可微分模拟优化潜在变量以匹配观测数据。

  • Motivation: 现有方法依赖用户指定的材料类型信息或学习实例特定网络,而UniPhy通过共享训练提高鲁棒性和准确性。
  • Method: UniPhy通过模拟不同几何形状和材料的轨迹进行训练,支持通过潜在优化推断未知材料的特性。
  • Result: UniPhy在逆模拟任务中表现优于现有方法,能更准确地重放和重新模拟新条件下的物体行为。
  • Conclusion: UniPhy为材料特性推断和模拟提供了一种通用且高效的方法。

[136] OpenSeg-R: Improving Open-Vocabulary Segmentation via Step-by-Step Visual Reasoning

Zongyan Han,Jiale Cao,Shuo Chen,Tong Wang,Jorma Laaksonen,Rao Muhammad Anwer

Main category: cs.CV

TL;DR: OpenSeg-R提出了一种逐步视觉推理框架,用于开放词汇分割,通过多模态模型生成层次化推理,显著提升了分割精度和可解释性。

  • Motivation: 现有开放词汇分割方法缺乏显式推理和可解释性,难以区分相似类别。
  • Method: 利用大型多模态模型进行层次化视觉推理,生成通用和图像特定的结构化三元组,并基于推理步骤生成详细描述提示。
  • Result: 在五个基准数据集上显著优于现有方法,并在开放词汇全景分割中实现一致提升。
  • Conclusion: OpenSeg-R通过逐步推理框架提高了分割精度和可解释性,是首个引入显式推理的开放词汇分割方法。

[137] Creatively Upscaling Images with Global-Regional Priors

Yurui Qian,Qi Cai,Yingwei Pan,Ting Yao,Tao Mei

Main category: cs.CV

TL;DR: C-Upscale是一种无需调整的方法,通过全局和区域先验生成超高分辨率图像,解决了现有模型在保持全局语义结构和生成区域细节上的不足。

  • Motivation: 现有扩散模型在高分辨率图像生成中难以同时保持全局语义结构和生成创造性区域细节。
  • Method: 利用全局提示和通过多模态LLM估计的区域提示,结合低频分量和区域注意力控制,生成高分辨率图像。
  • Result: C-Upscale能生成4,096 X 4,096和8,192 X 8,192的超高分辨率图像,具有更高的视觉保真度和创造性细节。
  • Conclusion: C-Upscale在超高分辨率图像生成中表现出色,解决了现有模型的局限性。

[138] Incorporating Visual Correspondence into Diffusion Model for Virtual Try-On

Siqi Wan,Jingwen Chen,Yingwei Pan,Ting Yao,Tao Mei

Main category: cs.CV

TL;DR: 该论文提出了一种基于视觉对应性的扩散模型方法,用于虚拟试穿任务,通过语义点匹配和3D感知线索提升服装细节保留能力。

  • Motivation: 现有扩散模型在虚拟试穿任务中难以保留服装的形状和细节,因此需要一种更有效的方法来引导扩散过程。
  • Method: 通过语义点匹配和局部流变形将服装细节转化为结构化语义点,并结合目标人物的深度/法线图生成3D感知线索,以监督扩散模型训练。
  • Result: 实验表明,该方法在VITON-HD和DressCode数据集上实现了最先进的虚拟试穿性能,显著提升了服装细节的保留能力。
  • Conclusion: 通过引入语义点匹配和3D感知线索,该方法有效解决了扩散模型在虚拟试穿任务中的细节保留问题。

[139] Pursuing Temporal-Consistent Video Virtual Try-On via Dynamic Pose Interaction

Dong Li,Wenqi Zhong,Wei Yu,Yingwei Pan,Dingwen Zhang,Ting Yao,Junwei Han,Tao Mei

Main category: cs.CV

TL;DR: 论文提出了一种名为DPIDM的动态姿态交互扩散模型,用于视频虚拟试穿,通过结合时空姿态交互提升试穿效果。

  • Motivation: 现有视频虚拟试穿方法多忽视时空姿态交互,导致试穿效果不佳。
  • Method: DPIDM利用扩散模型,引入骨架姿态适配器和分层注意力模块,建模帧内和跨帧姿态交互。
  • Result: 在多个数据集上表现优异,VFID分数提升60.5%。
  • Conclusion: DPIDM通过动态姿态交互显著提升了视频虚拟试穿的效果。

[140] Extremely Simple Multimodal Outlier Synthesis for Out-of-Distribution Detection and Segmentation

Moru Liu,Hao Dong,Jessica Kelly,Olga Fink,Mario Trapp

Main category: cs.CV

TL;DR: 提出了一种名为Feature Mixing的简单快速方法,用于多模态异常合成,以提升OOD检测性能,并引入CARLA-OOD数据集验证其效果。

  • Motivation: 现实应用多为多模态,而现有研究主要针对单模态图像数据,缺乏对未知数据的监督信号,导致OOD样本预测过度自信。
  • Method: 提出Feature Mixing方法,通过理论支持的多模态异常合成,优化模型对ID和OOD数据的区分能力。
  • Result: 在多个数据集上验证,Feature Mixing实现了SOTA性能,速度提升10至370倍。
  • Conclusion: Feature Mixing是一种高效且通用的方法,适用于多种模态组合,显著提升了OOD检测性能。

[141] Dimple: Discrete Diffusion Multimodal Large Language Model with Parallel Decoding

Runpeng Yu,Xinyin Ma,Xinchao Wang

Main category: cs.CV

TL;DR: Dimple是首个离散扩散多模态大语言模型(DMLLM),通过结合自回归和扩散训练阶段,解决了纯离散扩散方法的训练不稳定和性能问题,性能超越LLaVA-NEXT 3.9%。提出自信解码策略提升推理效率,迭代次数降至响应长度的1/3。还探索了通过结构先验实现精细控制响应格式和长度的能力。

  • Motivation: 纯离散扩散方法存在训练不稳定、性能不佳和长度偏差问题,需改进。
  • Method: 设计结合自回归和扩散阶段的训练范式,提出自信解码策略和结构先验控制响应。
  • Result: Dimple-7B性能超越LLaVA-NEXT 3.9%,推理效率显著提升,响应控制能力增强。
  • Conclusion: 验证了DMLLM的可行性和优势,提升了推理效率和可控性。

[142] An Effective Training Framework for Light-Weight Automatic Speech Recognition Models

Abdul Hannan,Alessio Brutti,Shah Nawaz,Mubashir Noman

Main category: cs.CV

TL;DR: 提出一种基于两步表示学习的方法,从单一大型模型中生成多个小型模型,显著提升性能且训练速度快。

  • Motivation: 解决大型ASR模型在低资源设备上部署不切实际的问题,避免现有方法(如剪枝、蒸馏等)带来的性能下降或长时间训练需求。
  • Method: 采用两步表示学习方法,从单一大型模型生成多个小型模型,确保在有限训练周期内性能显著提升。
  • Result: 在ASR基准测试中,训练速度提升三倍,词错误率改善高达12.54%。
  • Conclusion: 该方法有效解决了大型ASR模型部署问题,性能优越且训练高效。

[143] Native Segmentation Vision Transformers

Guillem Brasó,Aljoša Ošep,Laura Leal-Taixé

Main category: cs.CV

TL;DR: 提出了一种基于内容感知空间分组的视觉Transformer设计,替代传统降采样方法,实现无需额外分割头的原生分割。

  • Motivation: 传统降采样方法在视觉主干网络中仍占主导,但缺乏对图像边界和语义内容的动态适应能力。
  • Method: 通过内容感知空间分组层动态分配token,堆叠分组层实现层次分割,形成Native Segmentation Vision Transformer。
  • Result: 仅通过分组层即可生成强分割掩码,无需额外分割头,支持零样本分割和高效下游任务设计。
  • Conclusion: 提出了一种新的原生分割范式,为视觉主干网络的分割任务提供了高效、零监督的解决方案。

[144] Seeing through Satellite Images at Street Views

Ming Qian,Bin Tan,Qiuyu Wang,Xianwei Zheng,Hanjiang Xiong,Gui-Song Xia,Yujun Shen,Nan Xue

Main category: cs.CV

TL;DR: 论文提出Sat2Density++方法,通过神经网络建模街景特定元素,实现从卫星图像生成逼真街景全景图。

  • Motivation: 解决卫星图像与街景图像之间视角变化大、稀疏视图带来的挑战,实现逼真街景全景渲染。
  • Method: 基于神经辐射场学习,建模街景特定元素(如天空和光照效果),提出Sat2Density++方法。
  • Result: 在城乡场景数据集上验证,能生成多视角一致且忠实于卫星图像的逼真街景全景。
  • Conclusion: Sat2Density++成功解决了卫星到街景的逼真渲染问题,具有实际应用潜力。

[145] PAEFF: Precise Alignment and Enhanced Gated Feature Fusion for Face-Voice Association

Abdul Hannan,Muhammad Arslan Manzoor,Shah Nawaz,Muhammad Irzam Liaqat,Markus Schedl,Mubashir Noman

Main category: cs.CV

TL;DR: 论文提出了一种改进人脸与声音关联的方法,通过对齐嵌入空间和增强门控融合提升性能。

  • Motivation: 现有方法在负样本挖掘和依赖远距离边缘参数方面存在问题,需要改进。
  • Method: 提出对齐嵌入空间并应用正交约束,结合增强门控融合技术。
  • Result: 在VoxCeleb数据集上的实验验证了方法的有效性。
  • Conclusion: 该方法显著提升了人脸与声音关联的性能。

[146] CoMo: Learning Continuous Latent Motion from Internet Videos for Scalable Robot Learning

Jiange Yang,Yansong Shi,Haoyi Zhu,Mingyu Liu,Kaijing Ma,Yating Wang,Gangshan Wu,Tong He,Limin Wang

Main category: cs.CV

TL;DR: CoMo提出了一种从互联网视频中学习连续运动表示的方法,解决了现有离散方法的局限性,并通过信息瓶颈原则和新评估指标提升了性能。

  • Motivation: 现有离散潜在动作方法存在信息丢失问题,难以处理复杂和细粒度的动态。CoMo旨在从多样化的互联网视频中学习更丰富的连续运动表示。
  • Method: CoMo采用早期时间特征差异机制防止模型崩溃,抑制静态外观噪声,并通过信息瓶颈约束潜在运动嵌入维度。引入两个新评估指标:线性探测MSE和余弦相似度。
  • Result: CoMo展示了强大的零样本泛化能力,能为未见过的视频域生成连续伪动作。实验表明,结合CoMo伪动作的策略在模拟和真实环境中表现优异。
  • Conclusion: CoMo通过学习连续运动表示和引入新评估指标,显著提升了运动学习方法的性能,为机器人策略学习提供了新途径。

[147] Deep mineralogical segmentation of thin section images based on QEMSCAN maps

Jean Pablo Vieira de Mello,Matheus Augusto Alves Cuglieri,Leandro P. de Figueiredo,Fernando Bordignon,Marcelo Ramalho Albuquerque,Rodrigo Surmas,Bruno Cavalcanti de Paula

Main category: cs.CV

TL;DR: 提出了一种基于卷积神经网络的自动矿物分割模型,用于碳酸盐岩薄片图像分析,以低成本、高效的方式替代传统QEMSCAN技术。

  • Motivation: 人工分析岩石薄片矿物学特征主观且耗时,现有自动化技术如QEMSCAN成本高且耗时长,需要更高效、低成本的解决方案。
  • Method: 使用U-Net语义分割架构,以平面和交叉偏振薄片图像为输入,QEMSCAN图为目标进行训练,区分多种矿物相。
  • Result: 模型在已知和未知岩相上表现良好,矿物边界分割准确,预测分布与实际分布线性关系强(R²>0.97和0.88)。
  • Conclusion: 模型在矿物分割和分布预测上表现优异,但分割质量受图像分辨率和岩石纹理多样性影响。

[148] Learning Adaptive and Temporally Causal Video Tokenization in a 1D Latent Space

Yan Li,Changyao Tian,Renqiu Xia,Ning Liao,Weiwei Guo,Junchi Yan,Hongsheng Li,Jifeng Dai,Hao Li,Xue Yang

Main category: cs.CV

TL;DR: AdapTok是一种自适应视频令牌化方法,通过动态分配令牌提升视频重建和生成效率。

  • Motivation: 解决视频建模中令牌分配不灵活的问题,实现内容感知和动态令牌分配。
  • Method: 采用块掩码策略和块因果评分器,训练时随机丢弃尾部令牌,推理时基于整数线性规划动态分配令牌。
  • Result: 在UCF-101和Kinetics-600上显著提升重建质量和生成性能,无需额外数据。
  • Conclusion: AdapTok实现了高效、可扩展的视频建模,适用于不同令牌预算的场景。

[149] SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding

Haoning Wu,Xiao Huang,Yaohui Chen,Ya Zhang,Yanfeng Wang,Weidi Xie

Main category: cs.CV

TL;DR: 论文研究了多模态大语言模型(MLLMs)在3D空间感知和理解能力上的表现,并提出了VGBench和SpatialScore两个基准测试,以及SpatialAgent多智能体系统。

  • Motivation: 探索MLLMs在空间理解能力上的局限性,填补现有研究的空白。
  • Method: 提出VGBench和SpatialScore基准测试,开发SpatialAgent多智能体系统,支持两种推理范式。
  • Result: 揭示了MLLMs在空间推理上的持续挑战,同时证明了SpatialAgent的有效性。
  • Conclusion: SpatialScore将为MLLMs的进一步发展提供有价值的见解和严格基准。

[150] Multi-SpatialMLLM: Multi-Frame Spatial Understanding with Multi-Modal Large Language Models

Runsen Xu,Weiyao Wang,Hao Tang,Xingyu Chen,Xiaodong Wang,Fu-Jen Chu,Dahua Lin,Matt Feiszli,Kevin J. Liang

Main category: cs.CV

TL;DR: 论文提出了一种框架,通过整合深度感知、视觉对应和动态感知,赋予多模态大语言模型(MLLMs)多帧空间理解能力,并引入MultiSPA数据集和基准测试。

  • Motivation: 现有MLLMs在空间理解上局限于单图像,无法满足机器人等需要多帧推理的实际应用需求。
  • Method: 提出框架整合深度感知、视觉对应和动态感知,并构建MultiSPA数据集(2700万样本)和基准测试。
  • Result: Multi-SpatialMLLM模型在基准测试中显著优于基线模型和专有系统,展示了可扩展的多帧推理能力。
  • Conclusion: 该模型在多任务中表现优异,并展示了在机器人领域作为多帧奖励标注器的潜力。

[151] Delving into RL for Image Generation with CoT: A Study on DPO vs. GRPO

Chengzhuo Tong,Ziyu Guo,Renrui Zhang,Wenyu Shan,Xinyu Wei,Zhenghao Xing,Hongsheng Li,Pheng-Ann Heng

Main category: cs.CV

TL;DR: 论文探讨了强化学习(RL)在提升大型语言模型(LLMs)的链式思维(CoT)推理能力中的作用,重点比较了DPO和GRPO算法在自回归图像生成中的表现,并分析了奖励模型对算法泛化能力的影响。

  • Motivation: 自回归图像生成中的CoT推理面临独特挑战,如文本-图像一致性、图像美学质量等,而现有研究缺乏对RL策略和领域特定挑战的深入分析。
  • Method: 通过全面研究GRPO和DPO算法在自回归图像生成中的表现,评估其领域内性能和跨领域泛化能力,并分析不同奖励模型的影响。
  • Result: 研究发现GRPO和DPO各有优势,且奖励模型的泛化能力能提升RL算法的泛化潜力。此外,探索了三种扩展策略以提升性能。
  • Conclusion: 研究为开发更有效的RL算法以实现自回归图像生成中的稳健CoT推理提供了新思路。

[152] SophiaVL-R1: Reinforcing MLLMs Reasoning with Thinking Reward

Kaixuan Fan,Kaituo Feng,Haoming Lyu,Dongzhan Zhou,Xiangyu Yue

Main category: cs.CV

TL;DR: 论文提出了SophiaVL-R1,通过引入思维过程的奖励信号和改进的强化学习方法,提升了多模态大语言模型的推理能力。

  • Motivation: 现有基于规则强化学习的多模态大语言模型缺乏对思维过程的监督,可能导致次优推理策略,影响泛化能力。
  • Method: 提出思维奖励模型评估思维过程质量,设计Trust-GRPO方法动态调整奖励权重,并采用退火训练策略逐步减少思维奖励。
  • Result: SophiaVL-R1在多个基准测试中表现优异,甚至以更小的模型规模超越更大模型。
  • Conclusion: 通过改进思维过程监督和奖励机制,显著提升了模型的推理和泛化能力。

[153] Let Androids Dream of Electric Sheep: A Human-like Image Implication Understanding and Reasoning Framework

Chenhao Zhang,Yazhe Niu

Main category: cs.CV

TL;DR: 论文提出Let Androids Dream (LAD)框架,通过三阶段方法解决图像隐喻理解问题,在英汉基准测试中表现优异。

  • Motivation: 现有AI系统在图像隐喻理解上存在局限性,尤其是文化、情感和上下文隐含意义的捕捉不足。
  • Method: LAD采用三阶段框架:感知(视觉信息转文本)、搜索(跨域知识整合)、推理(生成上下文对齐的隐含意义)。
  • Result: LAD在英汉基准测试中表现优异,轻量级GPT-4o-mini模型超越15+ MLLMs,并在开放式问题上优于GPT-4o 36.7%。
  • Conclusion: LAD为AI图像隐喻理解提供了新思路,推动了视觉语言推理和人机交互领域的发展。

[154] CrossLMM: Decoupling Long Video Sequences from LMMs via Dual Cross-Attention Mechanisms

Shilin Yan,Jiaming Han,Joey Tsai,Hongwei Xue,Rongyao Fang,Lingyi Hong,Ziyu Guo,Ray Zhang

Main category: cs.CV

TL;DR: CrossLMM通过双交叉注意力机制减少视频token数量,降低计算成本,同时保持性能。

  • Motivation: 解决LMMs处理长视频序列时token数量激增导致计算成本过高的问题。
  • Method: 采用池化方法减少视觉token,并结合视觉-视觉和文本-视觉交叉注意力机制优化token利用。
  • Result: 在多个视频LMM基准测试中表现优异,显著减少计算资源消耗。
  • Conclusion: CrossLMM高效压缩视频token,为LMMs处理复杂输入提供了可行方案。

[155] ARB: A Comprehensive Arabic Multimodal Reasoning Benchmark

Sara Ghaboura,Ketan More,Wafa Alghallabi,Omkar Thawakar,Jorma Laaksonen,Hisham Cholakkal,Salman Khan,Rao Muhammad Anwer

Main category: cs.CV

TL;DR: 论文介绍了首个针对阿拉伯语的多模态推理基准ARB,涵盖11个领域,评估了12种LMM模型,发现其在连贯性、忠实性和文化背景理解上的挑战。

  • Motivation: 现有基准多关注英语,忽略了阿拉伯语等丰富语言文化背景的语言,需填补这一空白。
  • Method: 设计了ARB基准,包含1,356个多模态样本和5,119个人工标注的推理步骤,评估了12种LMM模型。
  • Result: 发现LMM模型在连贯性、忠实性和文化背景理解上存在持续挑战。
  • Conclusion: ARB为诊断多模态推理提供了结构化框架,推动了包容性、透明性和文化意识AI的发展。

[156] GoT-R1: Unleashing Reasoning Capability of MLLM for Visual Generation with Reinforcement Learning

Chengqi Duan,Rongyao Fang,Yuqing Wang,Kun Wang,Linjiang Huang,Xingyu Zeng,Hongsheng Li,Xihui Liu

Main category: cs.CV

TL;DR: GoT-R1是一个通过强化学习增强视觉生成中语义-空间推理的框架,显著提升了复杂文本提示下的图像生成效果。

  • Motivation: 现有视觉生成模型在处理多对象、精确空间关系和属性的复杂提示时表现不佳,需要更有效的语义和空间推理方法。
  • Method: GoT-R1采用强化学习,结合双阶段多维奖励框架,利用MLLMs评估推理过程和最终输出,提升语义对齐、空间准确性和视觉质量。
  • Result: 在T2I-CompBench基准测试中,GoT-R1在涉及精确空间关系和属性绑定的组合任务上表现显著优于现有方法。
  • Conclusion: GoT-R1通过将复杂推理能力引入视觉生成领域,推动了图像生成技术的进步,并公开了代码和预训练模型以促进未来研究。

eess.IV

[157] MambaStyle: Efficient StyleGAN Inversion for Real Image Editing with State-Space Models

Jhon Lopez,Carlos Hinojosa,Henry Arguello,Bernard Ghanem

Main category: eess.IV

TL;DR: MambaStyle是一种基于单阶段编码器的高效GAN反演和编辑方法,利用视觉状态空间模型(VSSMs)平衡重建质量、编辑能力和计算效率。

  • Motivation: 现有GAN反演方法难以同时实现高质量重建、有效编辑和计算效率,MambaStyle旨在解决这一问题。
  • Method: 通过将VSSMs集成到架构中,MambaStyle实现了高质量图像反演和灵活编辑,同时减少参数和计算复杂度。
  • Result: 实验表明,MambaStyle在反演精度、编辑质量和计算效率方面优于现有方法,且模型复杂度更低、推理更快。
  • Conclusion: MambaStyle在实时应用中表现出色,为GAN反演和编辑提供了高效解决方案。

[158] P3Net: Progressive and Periodic Perturbation for Semi-Supervised Medical Image Segmentation

Zhenyan Yao,Miao Zhang,Lanhu Wu,Yongri Piao,Feng Tian,Weibing Sun,Huchuan Lu

Main category: eess.IV

TL;DR: 提出了一种渐进周期性扰动机制(P3M)和边界聚焦损失,用于半监督医学图像分割,通过动态调整扰动和关注边界区域提升性能。

  • Motivation: 现有扰动技术缺乏深入理解,过度或不适当扰动可能产生负面影响,需解决如何通过标记数据引导未标记数据学习及确保边界区域预测准确性。
  • Method: 提出P3M机制动态调整扰动,结合边界聚焦损失增强模型对边界区域的敏感性。
  • Result: 在2D和3D数据集上实现最优性能,P3M可扩展至其他方法,边界损失可作为通用工具提升现有方法。
  • Conclusion: P3M和边界聚焦损失有效提升半监督医学图像分割性能,具有可扩展性和适用性。

[159] Benchmarking Chest X-ray Diagnosis Models Across Multinational Datasets

Qinmei Xu,Yiheng Li,Xianghao Zhan,Ahmet Gorkem Er,Brittany Dashevsky,Chuanjun Xu,Mohammed Alawad,Mengya Yang,Liu Ya,Changsheng Zhou,Xiao Li,Haruka Itakura,Olivier Gevaert

Main category: eess.IV

TL;DR: 该研究评估了基于视觉语言预训练的基础模型与传统CNN在跨国CXR数据集上的诊断性能和泛化能力,发现基础模型在准确性和任务覆盖范围上优于CNN,但所有模型在儿科病例上表现较差。

  • Motivation: 评估基础模型在真实世界中的表现,尤其是在不同人群和诊断任务中的泛化能力。
  • Method: 比较了8个CXR诊断模型(5个基础模型和3个CNN)在37个标准化分类任务上的表现,使用了6个公共数据集和3个私有数据集。
  • Result: 基础模型在公共和私有数据集上均优于CNN,其中MAVL模型表现最佳,但所有模型在儿科病例上表现显著下降。
  • Conclusion: 结构化监督和提示设计对放射AI有价值,未来方向包括地理扩展和集成模型用于临床部署。

[160] Comprehensive Lung Disease Detection Using Deep Learning Models and Hybrid Chest X-ray Data with Explainable AI

Shuvashis Sarker,Shamim Rahim Refat,Faika Fairuj Preotee,Tanvir Rouf Shawon,Raihan Tanvir

Main category: eess.IV

TL;DR: 本研究通过结合深度学习和迁移学习模型,利用混合数据集显著提高了肺部疾病检测的准确性和泛化能力,多种模型在混合数据集上表现优异,准确率达99%。

  • Motivation: 肺部疾病影响全球数百万人,准确诊断工具对治疗至关重要。
  • Method: 使用CNN、VGG16、VGG19等多种深度学习模型,结合混合数据集和可解释AI技术(如LIME)。
  • Result: 混合数据集上VGG16、Xception等模型准确率达99%,模型表现稳健。
  • Conclusion: 混合数据集和可解释AI技术为医学影像提供了可靠且可解释的AI解决方案。

[161] OSCAR: One-Step Diffusion Codec Across Multiple Bit-rates

Jinpei Guo,Yifei Ji,Zheng Chen,Kai Liu,Min Liu,Wang Rao,Wenbo Li,Yong Guo,Yulun Zhang

Main category: eess.IV

TL;DR: OSCAR提出了一种一步扩散编解码器,支持多比特率,显著提高了推理效率。

  • Motivation: 现有基于扩散的方法需要多步采样和针对不同比特率训练单独模型,计算和存储成本高。
  • Method: 将压缩潜在表示视为原始潜在表示的噪声变体,并通过伪扩散时间步映射支持多比特率。
  • Result: OSCAR在定量和视觉质量指标上均表现出色。
  • Conclusion: OSCAR通过一步去噪显著提升了效率,同时保持了高质量重建。

[162] Compressing Human Body Video with Interactive Semantics: A Generative Approach

Bolin Chen,Shanzhi Yin,Hanwei Zhu,Lingyu Zhu,Zihan Zhang,Jie Chen,Ru-Ling Liao,Shiqi Wang,Yan Ye

Main category: eess.IV

TL;DR: 提出了一种基于交互语义的人体视频压缩方法,通过嵌入语义级表示实现可控编辑和高效传输。

  • Motivation: 传统视频编码在超低码率下性能不足,且缺乏交互性,难以满足元宇宙中数字人通信的需求。
  • Method: 使用3D人体模型将复杂运动分解为可配置嵌入,编码后通过解码器重建高质量视频。
  • Result: 在超低码率下优于VVC和生成式压缩方案,且无需额外处理即可实现交互。
  • Conclusion: 该方法为未来元宇宙中的数字人通信提供了高效、可控的解决方案。

[163] Generative Latent Coding for Ultra-Low Bitrate Image and Video Compression

Linfeng Qi,Zhaoyang Jia,Jiahao Li,Bin Li,Houqiang Li,Yan Lu

Main category: eess.IV

TL;DR: 提出了一种基于生成潜在编码(GLC)的图像和视频压缩方法,通过潜在空间的变换编码实现高真实性和高保真度的超低比特率压缩。

  • Motivation: 现有像素空间变换编码方法因与人眼感知不匹配,难以在超低比特率下同时实现高真实性和高保真度。
  • Method: 使用生成向量量化变分自编码器(VQ-VAE)的潜在空间进行变换编码,并引入空间分类超模块和时空分类超模块优化性能。
  • Result: GLC-image在0.04 bpp下达到与MS-ILLM相同的FID,比特率减少45%;GLC-video比特率节省65.3%。
  • Conclusion: GLC在超低比特率下显著提升了图像和视频压缩的视觉质量。

[164] PCMamba: Physics-Informed Cross-Modal State Space Model for Dual-Camera Compressive Hyperspectral Imaging

Ge Meng,Zhongnan Cai,Jingyan Tu,Yingying Wang,Chenxin Li,Yue Huang,Xinghao Ding

Main category: eess.IV

TL;DR: 提出了一种基于物理信息的跨模态状态空间模型网络(PCMamba),用于双相机压缩高光谱成像(DCCHI),通过结合物理成像过程和Mamba的线性复杂度,实现轻量级且高质量的高光谱重建。

  • Motivation: 现有研究主要从2D压缩测量和PAN图像中显式提取光谱和空间信息,导致高光谱重建瓶颈。物理因素(如温度、发射率和物体间多次反射)在高光谱热信号获取中起关键作用,因此研究这些物理属性的相互关系以提供更深理论支持。
  • Method: 提出PCMamba模型,分析高光谱热信号成像过程,分离温度、发射率和纹理三个关键物理属性,通过物理驱动合成过程重建高光谱图像。设计跨模态扫描Mamba块(CSMB),通过跨扫描主干特征和PAN特征实现模态间像素级交互。
  • Result: 在真实和模拟数据集上的实验表明,该方法在定量和定性指标上显著优于现有最优方法。
  • Conclusion: PCMamba通过结合物理成像过程和Mamba的线性复杂度,实现了轻量级且高质量的高光谱重建,为DCCHI提供了新的理论和技术支持。

cs.AI

[165] Bridging the Dynamic Perception Gap: Training-Free Draft Chain-of-Thought for Dynamic Multimodal Spatial Reasoning

Siqu Ou,Hongcheng Liu,Pingjie Wang,Yusheng Liao,Chuan Xuan,Yanfeng Wang,Yu Wang

Main category: cs.AI

TL;DR: GRASSLAND是一个新的迷宫导航基准,用于评估动态空间推理。D2R框架通过结合动态视觉草图和文本推理链,显著提升了多模态大语言模型在动态空间任务中的表现。

  • Motivation: 现有方法局限于文本或静态视觉领域,难以处理动态空间推理任务,因此需要新的方法来填补这一空白。
  • Method: 提出D2R框架,将动态视觉草图与文本推理链结合,无需微调即可提升模型性能。
  • Result: 实验表明,D2R在多种任务中表现优异,为动态空间推理提供了强大基线。
  • Conclusion: D2R框架通过动态视觉草图和文本推理链的结合,显著提升了动态空间推理能力,且无需模型微调。

[166] From EduVisBench to EduVisAgent: A Benchmark and Multi-Agent Framework for Pedagogical Visualization

Haonian Ji,Shi Qiu,Siyang Xin,Siwei Han,Zhaorun Chen,Hongyi Wang,Dake Zhang,Huaxiu Yao

Main category: cs.AI

TL;DR: 论文提出了EduVisBench和EduVisAgent,用于评估和改进基础模型在教育场景中生成可视化解释的能力。

  • Motivation: 现有基础模型在教育场景中生成可视化解释的能力有限,且多关注文本推理,忽视了结构化可视化对概念理解的重要性。
  • Method: 引入EduVisBench作为多领域、多层次的基准测试,并提出EduVisAgent,一个多代理协作框架,用于优化可视化生成。
  • Result: EduVisAgent显著优于基线模型,性能提升40.2%,生成的教育可视化更符合人类认知。
  • Conclusion: EduVisBench和EduVisAgent为教育可视化提供了有效的评估和改进工具。

[167] Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models

Jiaqi Wang,Kevin Qinghong Lin,James Cheng,Mike Zheng Shou

Main category: cs.AI

TL;DR: TON是一种两阶段训练策略,通过选择性推理减少计算成本,同时保持或提升性能。

  • Motivation: 减少VLMs在推理过程中的不必要计算,模仿人类选择性思考的模式。
  • Method: 两阶段训练:(1) SFT阶段引入'thought dropout';(2) GRPO阶段优化选择性推理。
  • Result: TON比vanilla GRPO减少90%的完成长度,性能不降反升。
  • Conclusion: TON为强化学习方法实现类人推理模式提供了新思路。

[168] NovelSeek: When Agent Becomes the Scientist -- Building Closed-Loop System from Hypothesis to Verification

NovelSeek Team,Bo Zhang,Shiyang Feng,Xiangchao Yan,Jiakang Yuan,Zhiyin Yu,Xiaohan He,Songtao Huang,Shaowei Hou,Zheng Nie,Zhilong Wang,Jinyao Liu,Runmin Ma,Tianshuo Peng,Peng Ye,Dongzhan Zhou,Shufei Zhang,Xiaosong Wang,Yilan Zhang,Meng Li,Zhongying Tu,Xiangyu Yue,Wangli Ouyang,Bowen Zhou,Lei Bai

Main category: cs.AI

TL;DR: NovelSeek是一个多代理闭环框架,用于跨领域自主科研,具有可扩展性、交互性和高效性。

  • Motivation: 加速科研范式转变,提升研究效率和创新性。
  • Method: 采用多代理闭环框架,支持人机交互和领域知识整合。
  • Result: 在多个科学任务中显著提升性能,如反应收率预测从27.6%提升至35.4%。
  • Conclusion: NovelSeek为复杂科学问题提供了快速精准的解决方案。

cs.LG

[169] MoRE-Brain: Routed Mixture of Experts for Interpretable and Generalizable Cross-Subject fMRI Visual Decoding

Yuxiang Wei,Yanteng Zhang,Xi Xiao,Tianyang Wang,Xiao Wang,Vince D. Calhoun

Main category: cs.LG

TL;DR: MoRE-Brain是一个基于大脑网络原理的混合专家框架,用于高保真、可适应且可解释的视觉重建,通过动态路由机制提升fMRI解码的通用性和可解释性。

  • Motivation: 当前fMRI视觉解码研究过于关注重建保真度而忽视可解释性,限制了神经科学洞察的获取。
  • Method: 采用分层混合专家架构,专家处理功能相关体素组的fMRI信号,通过双阶段路由机制动态加权专家贡献,结合CLIP空间编码和扩散模型合成图像。
  • Result: 实验验证了MoRE-Brain的高保真重建能力,并展示了其对fMRI信号的有效利用,避免了过度依赖生成先验。
  • Conclusion: MoRE-Brain在通用性和可解释性方面显著推进了fMRI视觉解码的研究。

[170] GradPCA: Leveraging NTK Alignment for Reliable Out-of-Distribution Detection

Mariia Seleznova,Hung-Hsu Chou,Claudio Mayrink Verdun,Gitta Kutyniok

Main category: cs.LG

TL;DR: GradPCA是一种基于神经网络梯度的低秩结构的OOD检测方法,通过PCA分析梯度类均值,性能优于现有方法。

  • Motivation: 利用神经切线核(NTK)对齐诱导的梯度低秩结构,改进OOD检测的一致性和性能。
  • Method: 对梯度类均值应用PCA,结合NTK对齐的理论分析,设计GradPCA方法。
  • Result: 在标准图像分类基准上表现优于现有方法,特征质量(如预训练表示)对检测效果至关重要。
  • Conclusion: GradPCA性能优越,理论框架为设计更原则化的光谱OOD检测器提供指导。

[171] Masked Conditioning for Deep Generative Models

Phillip Mueller,Jannik Wiese,Sebastian Mueller,Lars Mikelsons

Main category: cs.LG

TL;DR: 提出了一种新的掩码条件方法,使生成模型能够处理稀疏、混合类型数据,适用于小规模工程数据集。

  • Motivation: 工程领域数据集通常规模小、标签稀疏且包含数值和类别条件,计算资源有限,限制了生成模型的应用。
  • Method: 采用掩码条件训练模拟稀疏条件,探索多种稀疏调度策略,并引入灵活嵌入处理数值和类别条件。
  • Result: 在2D点云和图像数据集上验证了方法的有效性,并展示了小模型与预训练大模型结合的优势。
  • Conclusion: 该方法在有限数据和计算资源下提高了生成质量,同时保持了条件控制能力。

[172] ATR-Bench: A Federated Learning Benchmark for Adaptation, Trust, and Reasoning

Tajamul Ashraf,Mohammed Mohsen Peerzada,Moloud Abdar,Yutong Xie,Yuyin Zhou,Xiaofeng Liu,Iqra Altaf Gillani,Janibul Bashir

Main category: cs.LG

TL;DR: ATR-Bench是一个统一的联邦学习评估框架,聚焦于适应性、信任和推理三个维度,旨在解决FL方法标准化评估的不足。

  • Motivation: 联邦学习缺乏标准化评估,阻碍了方法的系统进步和公平比较。
  • Method: 提出ATR-Bench框架,通过适应性、信任和推理三个维度分析FL,并进行了代表性方法和数据集的基准测试。
  • Result: 为异构客户端适应性和对抗性环境中的信任提供了基准,推理维度则提供了文献驱动的见解。
  • Conclusion: ATR-Bench为联邦学习的系统化评估奠定了基础,具有实际应用价值,并将公开代码库和持续更新的研究资源。

[173] LLaDA-V: Large Language Diffusion Models with Visual Instruction Tuning

Zebin You,Shen Nie,Xiaolu Zhang,Jun Hu,Jun Zhou,Zhiwu Lu,Ji-Rong Wen,Chongxuan Li

Main category: cs.LG

TL;DR: LLaDA-V是一种基于扩散的多模态大语言模型,通过视觉指令调优和掩码扩散模型实现多模态对齐,性能优于现有混合自回归-扩散模型。

  • Motivation: 探索扩散模型在多模态任务中的潜力,突破当前以自回归为主的多模态方法。
  • Method: 基于LLaDA模型,结合视觉编码器和MLP连接器,将视觉特征投影到语言嵌入空间。
  • Result: LLaDA-V在多模态任务中表现优异,性能接近Qwen2-VL,数据扩展性优于LLaMA3-V。
  • Conclusion: 扩散模型在多模态领域具有潜力,值得进一步研究。

[174] When Are Concepts Erased From Diffusion Models?

Kevin Lu,Nicky Kriplani,Rohit Gandikota,Minh Pham,David Bau,Chinmay Hegde,Niv Cohen

Main category: cs.LG

TL;DR: 论文探讨了概念擦除在扩散模型中的有效性,提出了两种擦除机制模型,并引入了一套独立评估方法。

  • Motivation: 研究概念擦除方法的彻底性,填补现有评估空白。
  • Method: 提出两种擦除机制模型(降低目标概念生成概率和干扰内部引导机制),并设计评估框架(对抗攻击、新探测技术和替代生成分析)。
  • Result: 揭示了副作用最小化与对抗提示鲁棒性之间的权衡。
  • Conclusion: 强调全面评估在扩散模型概念擦除中的重要性。

[175] Interactive Post-Training for Vision-Language-Action Models

Shuhan Tan,Kairan Dou,Yue Zhao,Philipp Krähenbühl

Main category: cs.LG

TL;DR: RIPT-VLA是一种基于强化学习的交互式后训练范式,通过稀疏二元成功奖励微调预训练的视觉-语言-动作模型,显著提升模型性能和数据效率。

  • Motivation: 现有视觉-语言-动作模型依赖离线专家数据和监督模仿,难以适应低数据环境的新任务。RIPT-VLA旨在通过交互式后训练解决这一问题。
  • Method: 采用动态滚动采样和留一优势估计的稳定策略优化算法,进行交互式后训练。
  • Result: 显著提升模型性能(如QueST模型提升21.2%,OpenVLA-OFT模型达到97.5%成功率),数据效率高(仅需一次演示即可将成功率从4%提升至97%)。
  • Conclusion: RIPT-VLA是一种实用且有效的后训练范式,适用于多种视觉-语言-动作模型,具有广泛的任务泛化能力和鲁棒性。

cs.MM

[176] MM-MovieDubber: Towards Multi-Modal Learning for Multi-Modal Movie Dubbing

Junjie Zheng,Zihao Chen,Chaofan Ding,Yunming Liang,Yihan Fan,Huan Yang,Lei Xie,Xinhan Di

Main category: cs.MM

TL;DR: 论文提出了一种多模态生成框架,用于改进电影配音技术,解决了现有技术在配音风格、对话处理及细节(如年龄和性别)方面的不足。

  • Motivation: 现有电影配音技术虽能实现语音与视频同步,但在配音风格多样性、对话处理及细节(如年龄和性别)方面仍有不足。
  • Method: 采用多模态大视觉语言模型(VLM)分析视觉输入,识别配音类型和细粒度属性,并结合大型语音生成模型生成高质量配音。
  • Result: 实验结果表明,该方法在多个基准数据集上优于现有技术,LSE-D、SPK-SIM、EMO-SIM和MCD指标分别提升1.09%、8.80%、19.08%和18.74%。
  • Conclusion: 提出的多模态框架显著提升了电影配音的质量和适应性,尤其在处理多样配音风格和细节方面表现突出。

cs.IR

[177] Benchmarking Retrieval-Augmented Multimomal Generation for Document Question Answering

Kuicai Dong,Yujing Chang,Shijie Huang,Yasheng Wang,Ruiming Tang,Yong Liu

Main category: cs.IR

TL;DR: MMDocRAG是一个针对DocVQA的多模态基准测试,包含4055个专家标注的QA对,旨在解决跨模态推理和视觉信息缺失问题。

  • Motivation: 当前DocRAG方法以文本为中心,常忽略关键视觉信息,且缺乏评估多模态证据选择与整合的基准。
  • Method: 引入MMDocRAG基准,创新评估多模态引用选择的指标,支持文本与视觉元素结合的答案生成。
  • Result: 实验显示专有LVMs优于开源模型,多模态输入对专有模型有中等优势,但对开源模型性能下降明显。微调LLMs结合详细图像描述效果显著。
  • Conclusion: MMDocRAG为开发更鲁棒的多模态DocVQA系统提供了严格测试环境和实用见解。

cs.CR

[178] Backdoor Cleaning without External Guidance in MLLM Fine-tuning

Xuankun Rong,Wenke Huang,Jian Liang,Jinhe Bi,Xun Xiao,Yiming Li,Bo Du,Mang Ye

Main category: cs.CR

TL;DR: 论文提出了一种名为BYE的数据过滤框架,通过注意力熵模式识别和过滤后门样本,无需干净监督或模型修改。

  • Motivation: 多模态大语言模型(MLLMs)在微调服务(FTaaS)中存在安全风险,恶意微调可能植入后门,需要一种无需额外监督的防御方法。
  • Method: BYE通过三阶段流程:提取注意力图、计算熵分数和敏感层分析、无监督聚类过滤可疑样本。
  • Result: BYE在多种数据集和触发类型下验证有效,攻击成功率接近零且不影响正常任务性能。
  • Conclusion: BYE为MLLMs中的后门威胁提供了鲁棒且通用的解决方案。

cs.CL

[179] Hierarchical Safety Realignment: Lightweight Restoration of Safety in Pruned Large Vision-Language Models

Yue Li,Xin Yi,Dongsheng Shi,Gerard de Melo,Xiaoling Wang,Linlin Wang

Main category: cs.CL

TL;DR: 提出了一种名为HSR的轻量级方法,通过分层重新对齐剪枝后的大型视觉语言模型的安全性,从注意力头级别到神经元级别,显著提升了安全性表现。

  • Motivation: 随着大型视觉语言模型规模的增加,剪枝技术在资源受限环境中的部署受到关注,但剪枝常导致安全性下降,因此需要一种方法来恢复安全性。
  • Method: HSR方法首先量化每个注意力头对安全性的贡献,识别关键注意力头,然后选择性恢复这些头中关键的神经元,分层重新对齐安全性。
  • Result: HSR在不同模型和剪枝策略中验证,均显著提升了安全性表现。
  • Conclusion: 这是首个明确针对剪枝后大型视觉语言模型安全性恢复的工作,HSR方法有效且轻量。

[180] An Empirical Study on Configuring In-Context Learning Demonstrations for Unleashing MLLMs' Sentimental Perception Capability

Daiqing Wu,Dongbao Yang,Sicheng Zhao,Can Ma,Yu Zhou

Main category: cs.CL

TL;DR: 论文探讨了多模态大语言模型(MLLMs)在零样本范式下处理多模态情感分析(MSA)的不足,通过引入上下文学习(ICL)并优化演示配置,验证了MLLMs的能力,最终显著提升了性能。

  • Motivation: 多模态情感分析(MSA)在零样本范式下表现不佳,质疑MLLMs是否具备与监督模型相当的情感感知能力。
  • Method: 扩展零样本范式至上下文学习(ICL),深入研究演示的检索、呈现和分布三个关键因素,并发现并抵消MLLMs的情感预测偏差。
  • Result: 在六个MSA数据集上,平均准确率比零样本范式提升15.9%,比随机ICL基线提升11.2%。
  • Conclusion: 通过优化演示配置,MLLMs在多模态情感分析中表现出显著能力,验证了其潜力。

[181] IRONIC: Coherence-Aware Reasoning Chains for Multi-Modal Sarcasm Detection

Aashish Anantha Ramakrishnan,Aadarsh Anantha Ramakrishnan,Dongwon Lee

Main category: cs.CL

TL;DR: IRONIC框架通过多模态连贯关系分析图像-文本关联,实现零样本多模态讽刺检测的先进性能。

  • Motivation: 当前链式思维方法未能高效模拟人类识别讽刺的认知过程,需结合语言和认知洞察改进多模态推理策略。
  • Method: 提出IRONIC框架,利用多模态连贯关系(指代、类比和语用)分析图像-文本关联。
  • Result: 实验显示IRONIC在零样本多模态讽刺检测中达到最先进性能。
  • Conclusion: 研究表明,设计多模态推理策略时需结合语言和认知洞察。

cs.RO

[182] UAV-Flow Colosseo: A Real-World Benchmark for Flying-on-a-Word UAV Imitation Learning

Xiangyu Wang,Donglin Yang,Yue Liao,Wenhao Zheng,wenjun wu,Bin Dai,Hongsheng Li,Si Liu

Main category: cs.RO

TL;DR: 论文提出了语言引导的无人机精细轨迹控制任务(Flow),通过模仿学习实现无人机对语言指令的快速响应,并发布了首个真实世界基准UAV-Flow。

  • Motivation: 现有研究多关注高层规划和长程导航,而本文转向语言引导的精细控制,使无人机能根据语言指令执行短程反应性飞行行为。
  • Method: 采用模仿学习方法,无人机通过模仿专家飞行轨迹与原子语言指令配对学习精细控制策略,并设计了UAV-Flow基准。
  • Result: 实验表明,视觉语言动作(VLA)模型优于视觉语言导航(VLN)基线,空间接地在精细控制中起关键作用。
  • Conclusion: UAV-Flow框架实现了无人机对专家级飞行轨迹的精确模仿,并支持直接部署,无需模拟到现实的转换。

[183] VERDI: VLM-Embedded Reasoning for Autonomous Driving

Bowen Feng,Zhiting Mei,Baiang Li,Julian Ost,Roger Girgis,Anirudha Majumdar,Felix Heide

Main category: cs.RO

TL;DR: VERDI框架通过将VLM的推理过程嵌入AD堆栈,解决了现有方法的高计算成本和安全性问题,提升了性能。

  • Motivation: 现有基于VLM的轨迹规划方法计算成本高且难以分解安全性,需要更实用的解决方案。
  • Method: VERDI通过训练时对齐AD模块中间输出与VLM生成的推理文本特征,将推理能力嵌入AD堆栈。
  • Result: 在NuScenes数据集上,VERDI比未嵌入推理的端到端方法性能提升10%,同时保持高推理速度。
  • Conclusion: VERDI成功将VLM的推理能力高效嵌入AD堆栈,解决了计算成本和安全性问题。

[184] SEM: Enhancing Spatial Understanding for Robust Robot Manipulation

Xuewu Lin,Tianwei Lin,Lichao Huang,Hongyu Xie,Yiwei Jin,Keyu Li,Zhizhong Su

Main category: cs.RO

TL;DR: 提出了一种名为SEM的新型扩散策略框架,通过增强空间理解和机器人状态编码,显著提升了机器人操作的性能。

  • Motivation: 现有方法在空间理解和语义抽象方面存在不足,3D点云模型缺乏语义抽象,2D图像编码器难以进行空间推理。
  • Method: SEM结合了空间增强器和机器人状态编码器,前者通过3D几何上下文增强视觉表示,后者通过图建模捕捉关节依赖关系。
  • Result: SEM在多样化任务中表现出色,优于现有基线方法。
  • Conclusion: SEM通过增强空间理解和机器人状态编码,实现了更鲁棒和通用的机器人操作。

[185] Raw2Drive: Reinforcement Learning with Aligned World Models for End-to-End Autonomous Driving (in CARLA v2)

Zhenjie Yang,Xiaosong Jia,Qifeng Li,Xue Yang,Maoqing Yao,Junchi Yan

Main category: cs.RO

TL;DR: Raw2Drive是一种基于模型强化学习(MBRL)的双流方法,解决了端到端自动驾驶(E2E-AD)中强化学习(RL)训练困难的问题,并利用特权信息和原始传感器数据实现高性能。

  • Motivation: 模仿学习(IL)存在因果混淆和分布偏移问题,而强化学习(RL)虽能缓解这些问题,但在端到端自动驾驶中应用仍具挑战性。现有MBRL方法需要特权信息输入,而Raw2Drive填补了这一空白。
  • Method: 设计双流MBRL方法Raw2Drive:1)训练特权世界模型和神经规划器;2)通过引导机制训练原始传感器世界模型;3)结合特权模型知识指导原始传感器策略训练。
  • Result: Raw2Drive是CARLA Leaderboard 2.0和Bench2Drive上唯一基于RL的端到端方法,并取得最优性能。
  • Conclusion: Raw2Drive通过结合特权信息和原始传感器数据,成功实现了端到端自动驾驶的高效训练和性能提升。

[186] ManipLVM-R1: Reinforcement Learning for Reasoning in Embodied Manipulation with Large Vision-Language Models

Zirui Song,Guangxian Ouyang,Mingzhe Li,Yuheng Ji,Chenxi Wang,Zixiang Xu,Zeyu Zhang,Xiaoqing Zhang,Qian Jiang,Zhenhao Chen,Zhongzhi Li,Rui Yan,Xiuying Chen

Main category: cs.RO

TL;DR: 提出ManipLVM-R1框架,通过强化学习替代人工标注,提升机器人操作的泛化能力和物理推理。

  • Motivation: 现有方法依赖昂贵的人工标注数据集,泛化能力差且难以适应真实场景。
  • Method: 采用基于规则的奖励函数(Affordance Perception Reward和Trajectory Match Reward),通过RLVR优化任务对齐结果。
  • Result: 增强泛化能力和物理推理,减少对人工标注的依赖。
  • Conclusion: ManipLVM-R1通过强化学习显著提升机器人操作的适应性和推理能力。

cs.NE

[187] TDFormer: A Top-Down Attention-Controlled Spiking Transformer

Zizheng Zhu,Yingchao Yu,Zeqi Zheng,Zhaofei Yu,Yaochu Jin

Main category: cs.NE

TL;DR: TDFormer是一种新型的SNN模型,通过引入自上而下的反馈结构,显著提升了时间信息的传递和梯度传播效果,实现了在多个数据集上的性能提升,尤其在ImageNet上达到86.83%的准确率。

  • Motivation: 传统SNN中膜电位的隐含特性限制了时间信息的有效表示,导致模型性能受限。受大脑自上而下机制的启发,提出TDFormer以解决这一问题。
  • Method: TDFormer采用分层反馈结构,利用早期时间步的高阶表示调制后期低阶信息的处理。通过增加时间步间的互信息,并缓解时间维度上的梯度消失问题。
  • Result: 模型在多个数据集上性能显著提升,ImageNet准确率达到86.83%,为当前最优。
  • Conclusion: TDFormer通过反馈结构有效解决了传统SNN的局限性,为时间信息处理和梯度传播提供了新思路。

math.NA

[188] Implicit Neural Shape Optimization for 3D High-Contrast Electrical Impedance Tomography

Junqing Chen,Haibo Liu

Main category: math.NA

TL;DR: 提出了一种新型隐式神经形状优化框架,用于解决3D高对比度电阻抗断层成像中的材料界面问题。

  • Motivation: 高对比度情况(如金属植入物监测和工业缺陷检测)对传统重建方法提出挑战,需解决严重的不适定性。
  • Method: 结合形状优化与隐式神经表示,引入形状导数优化方案和高效潜在空间表示。
  • Result: 通过理论分析和数值实验,展示了显著的性能提升。
  • Conclusion: 该框架在医学成像和工业无损检测中具有实际应用潜力。

上次更新于: