Skip to content
每日arXiv - 2025年6月9日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] Can ChatGPT Perform Image Splicing Detection? A Preliminary Study

Souradip Nath

Main category: cs.CV

TL;DR: GPT-4V在零样本设置下表现优异(准确率超85%),CoT提示策略效果最佳,展示了其在图像取证中的潜力。

  • Motivation: 研究GPT-4V在未经微调的情况下,检测图像拼接的能力,探索其在图像取证领域的适用性。
  • Method: 使用三种提示策略(零样本、少样本和思维链)在CASIA v2.0数据集的子集上评估GPT-4V。
  • Result: GPT-4V在零样本下表现优异,CoT策略效果最佳,能结合低层视觉特征和上下文知识检测拼接。
  • Conclusion: GPT-4V虽不及专用模型,但其通用性、可解释性和推理能力使其成为图像取证的有力工具。

[2] CarboNeXT and CarboFormer: Dual Semantic Segmentation Architectures for Detecting and Quantifying Carbon Dioxide Emissions Using Optical Gas Imaging

Taminul Islam,Toqi Tahamid Sarker,Mohamed G Embaby,Khaled R Ahmed,Amer AbuGhazaleh

Main category: cs.CV

TL;DR: CarboNeXT是一种用于光学气体成像(OGI)的语义分割框架,用于检测和量化CO₂排放,适用于环境监测和畜牧业管理。

  • Motivation: CO₂排放是环境监测和工业过程(如畜牧业管理)的重要指标,需要高效、准确的检测工具。
  • Method: 结合多尺度上下文聚合网络、UPerHead和辅助FCN组件,提出CarboNeXT框架,并贡献了两个新数据集(CCR和RTA)。
  • Result: CarboNeXT在CCR和RTA数据集上分别达到88.46%和92.95%的mIoU,实时性能为60.95 FPS;轻量版CarboFormer性能接近但更高效。
  • Conclusion: CarboNeXT和CarboFormer为CO₂排放分析提供了高效工具,特别适用于畜牧业和环境监测。

[3] Scalable Generation of Spatial Transcriptomics from Histology Images via Whole-Slide Flow Matching

Tinglin Huang,Tianyu Liu,Mehrtash Babadi,Wengong Jin,Rex Ying

Main category: cs.CV

TL;DR: STFlow是一种基于流匹配的生成模型,通过建模整个切片的基因表达联合分布来考虑细胞间相互作用,解决了现有方法在内存和建模上的限制。

  • Motivation: 空间转录组学(ST)技术因低通量和需要专业实验设施而应用受限。现有方法预测ST时未明确建模细胞间相互作用且面临内存问题。
  • Method: 提出STFlow模型,采用流匹配生成方法建模切片级基因表达联合分布,并设计高效切片级编码器,利用局部空间注意力减少内存开销。
  • Result: 在HEST-1k和STImage-1K4M基准测试中,STFlow显著优于现有方法,相对病理基础模型提升超过18%。
  • Conclusion: STFlow通过改进建模和内存效率,为空间转录组学数据分析提供了更高效的解决方案。

[4] Seed Selection for Human-Oriented Image Reconstruction via Guided Diffusion

Yui Tatsumi,Ziyue Zeng,Hiroshi Watanabe

Main category: cs.CV

TL;DR: 提出了一种种子选择方法,通过从多个候选种子中选择最优种子,在不增加比特率的情况下提升图像质量。

  • Motivation: 传统方法需要额外信息传输以实现可扩展性,而现有扩散方法虽避免了这一点,但使用单一随机种子可能导致图像质量不佳。
  • Method: 提出种子选择方法,基于反向扩散过程的早期中间输出来选择最优种子,以减少计算成本。
  • Result: 实验结果表明,该方法在多个指标上优于基线方法。
  • Conclusion: 该方法在不增加比特率的情况下显著提升了图像质量。

[5] Text2Stereo: Repurposing Stable Diffusion for Stereo Generation with Consistency Rewards

Aakash Garg,Libing Zeng,Andrii Tsarov,Nima Khademi Kalantari

Main category: cs.CV

TL;DR: 提出一种基于扩散模型的新方法,通过文本提示生成立体图像,利用Stable Diffusion的先验知识并微调,结合提示对齐和立体一致性奖励函数提升效果。

  • Motivation: 由于大规模立体图像数据集稀缺,直接训练扩散模型不可行,因此利用现有模型的先验知识进行微调。
  • Method: 利用Stable Diffusion的先验知识,在立体图像数据集上微调,并通过提示对齐和立体一致性奖励函数优化模型。
  • Result: 实验表明,该方法在生成高质量立体图像方面优于现有方法。
  • Conclusion: 该方法通过微调和优化策略,成功实现了基于文本提示的高质量立体图像生成。

[6] Speaking images. A novel framework for the automated self-description of artworks

Valentine Bernasconi,Gustavo Marfia

Main category: cs.CV

TL;DR: 论文提出了一种利用生成式AI技术自动生成文化艺术品自解释视频的新框架,结合了开源大语言模型、人脸检测、文本转语音和音频转动画技术。

  • Motivation: 旨在通过创新技术提升数字化文化遗产的访问性和内容展示,探索数字图像的可塑性和当代解读,同时反思文化偏见和教育潜力。
  • Method: 基于自主图像概念,利用开源大语言模型、人脸检测、文本转语音和音频转动画模型,从数字化艺术品自动生成解释性视频。
  • Result: 提出了一种能够自动生成艺术品自解释视频的框架,探讨了技术对艺术史和教育的影响。
  • Conclusion: 该框架为文化遗产的数字化展示提供了新视角,同时引发了对文化偏见和教育应用的深入思考。

[7] MR.NAVI: Mixed-Reality Navigation Assistant for the Visually Impaired

Nicolas Pfitzer,Yifan Zhou,Marco Poggensee,Defne Kurtulus,Bessie Dominguez-Dager,Mihai Dusmanu,Marc Pollefeys,Zuria Bauer

Main category: cs.CV

TL;DR: MR.NAVI是一个混合现实系统,通过实时场景理解和音频反馈帮助视障人士增强空间感知。

  • Motivation: 全球有超过4300万视障人士在陌生环境中导航面临挑战,需要一种有效的辅助工具。
  • Method: 结合计算机视觉(MobileNet物体检测、RANSAC地板检测、DBSCAN聚类)和自然语言处理,提供场景描述、避障和导航指令。
  • Result: 用户实验显示系统在陌生环境中具有良好可用性和有效性。
  • Conclusion: MR.NAVI为视障人士提供了一种实用的导航解决方案。

[8] DVD: A Comprehensive Dataset for Advancing Violence Detection in Real-World Scenarios

Dimitrios Kollias,Damith C. Senadeera,Jianian Zheng,Kaushal K. K. Yadav,Greg Slabaugh,Muhammad Awais,Xiaoyun Yang

Main category: cs.CV

TL;DR: 论文介绍了DVD,一个大规模、帧级标注的暴力检测数据库,解决了现有数据库的局限性。

  • Motivation: 现有暴力检测数据库存在标注粗糙、规模小、多样性不足和缺乏元数据的问题,限制了模型的泛化能力。
  • Method: 提出DVD数据库,包含500个视频、270万帧,涵盖多样环境、光照条件、多摄像头来源、复杂社交互动和丰富元数据。
  • Result: DVD能够更好地捕捉现实世界中暴力事件的复杂性。
  • Conclusion: DVD为暴力检测研究提供了更高质量的数据支持。

[9] State Estimation and Control of Dynamic Systems from High-Dimensional Image Data

Ashik E Rasul,Hyung-Jin Yoon

Main category: cs.CV

TL;DR: 论文提出了一种结合CNN和GRU的神经网络架构,用于从图像序列和动作中学习状态表示,并通过DQN训练强化学习代理,实现了无需真实状态的实时估计与控制。

  • Motivation: 在动态系统中,准确的状态估计对策略设计至关重要,但获取真实状态通常不可行,因此需要一种有效的方法从观测数据中学习状态表示。
  • Method: 提出了一种结合CNN(空间特征提取)和GRU(时间建模)的神经网络架构,用于学习状态表示,并通过DQN训练强化学习代理。
  • Result: 实验结果表明,该方法能够在不依赖真实状态的情况下实现实时、准确的估计与控制。
  • Conclusion: 论文提出的方法有效解决了状态估计问题,并通过定量评估验证了学习状态的准确性及其对策略性能的影响。

[10] An Independent Discriminant Network Towards Identification of Counterfeit Images and Videos

Shayantani Kar,B. Shresth Bhimrajka,Aditya Kumar,Sahil Gupta,Sourav Ghosh,Subhamita Mukherjee,Shauvik Paul

Main category: cs.CV

TL;DR: 论文提出了一种基于InceptionResNetV2的判别网络,用于检测GAN生成的伪造图像和视频,旨在解决网络上虚假内容的传播问题。

  • Motivation: 网络上虚假图像和视频的快速传播是一个新兴问题,这些内容可能被用于隐藏犯罪证据。现有的检测方法难以应对不断演变的伪造技术。
  • Method: 使用基于InceptionResNetV2的卷积神经网络构建判别网络,并开发了一个平台供用户检测伪造内容。
  • Result: 提出的方法能够有效识别GAN生成的伪造图像和视频。
  • Conclusion: 该研究为法医领域提供了一种潜在工具,有助于识别犯罪活动中的伪造证据。

[11] A Compendium of Autonomous Navigation using Object Detection and Tracking in Unmanned Aerial Vehicles

Mohit Arora,Pratyush Shukla,Shivali Chopra

Main category: cs.CV

TL;DR: 本文综述了无人机(UAV)自主导航的多种方法,重点探讨了通过计算机视觉算法实现实时目标检测与跟踪的技术,及其在多个领域的应用。

  • Motivation: 无人机在国家安全和监控中扮演重要角色,但面临信号质量、实时处理等挑战。计算机视觉为解决这些问题提供了可能。
  • Method: 通过综述多种作者提出的算法,探讨了计算机视觉在无人机自主导航中的应用,包括目标检测与跟踪技术。
  • Result: 研究表明,计算机视觉算法能有效提升无人机的自主性和实时处理能力,适用于灾难管理、密集区域探索等领域。
  • Conclusion: 计算机视觉为无人机自主导航提供了可行的解决方案,未来可进一步优化算法以应对更复杂的应用场景。

[12] Can Vision Transformers with ResNet's Global Features Fairly Authenticate Demographic Faces?

Abu Sufian,Marco Leo,Cosimo Distante,Anirudha Ghosh,Debaditya Barman

Main category: cs.CV

TL;DR: 研究了ViT和ResNet在生物特征人脸认证中的公平性和泛化能力,提出了一种新的少样本原型网络,并在多个人口统计数据集上测试性能。

  • Motivation: 解决生物特征人脸认证中跨人口统计群体的公平性和泛化性问题。
  • Method: 结合ViT和ResNet的全局特征,设计少样本原型网络,并在自定义数据集上训练和测试。
  • Result: Microsoft Swin Transformer在任务中表现最佳,性能随支持集大小增加而提升。
  • Conclusion: ViT和ResNet结合的方法在公平人脸认证中有效,代码和数据已开源。

[13] Q-Ponder: A Unified Training Pipeline for Reasoning-based Visual Quality Assessment

Zhuoxuan Cai,Jian Zhang,Xinbin Yuan,Pengtao Jiang,Wenxiang Chen,Bowen Tang,Lujian Yao,Qiyuan Wang,Jinwen Chen,Bo Li

Main category: cs.CV

TL;DR: 论文提出了一种统一的两阶段训练框架,通过冷启动和强化学习微调阶段,解决了多模态大语言模型在视觉质量评估中评分与解释性任务分离的问题。

  • Motivation: 现有方法将质量评分和推理描述作为独立任务优化,导致评分准确性和解释性之间的权衡,限制了模型潜力。
  • Method: 提出两阶段框架:冷启动阶段通过专家设计的提示从教师模型蒸馏高质量数据;强化学习微调阶段引入新奖励和GRPO联合优化评分准确性和推理一致性。
  • Result: Q-Ponder在质量评分回归基准上达到SOTA性能,跨域数据集SRCC提升6.5%,且在描述准确性和合理性上显著优于基于描述的SOTA模型。
  • Conclusion: 统一框架成功平衡了评分准确性和解释性,展示了在多任务上的泛化潜力。

[14] TriPSS: A Tri-Modal Keyframe Extraction Framework Using Perceptual, Structural, and Semantic Representations

Mert Can Cakmak,Nitin Agarwal,Diwash Poudel

Main category: cs.CV

TL;DR: TriPSS是一种新型三模态框架,通过融合颜色特征、深度结构嵌入和语义上下文,实现了高效的视频关键帧提取,性能优于现有方法。

  • Motivation: 视频关键帧提取在视频摘要和检索中至关重要,但现有方法难以全面捕捉视频内容的丰富性。
  • Method: TriPSS结合CIELAB颜色特征、ResNet-50的深度嵌入和Llama-3.2-11B-Vision-Instruct生成的语义上下文,通过PCA融合多模态嵌入,并使用HDBSCAN聚类自适应分割视频内容。
  • Result: 在TVSum20和SumMe数据集上,TriPSS表现优于传统单模态和多模态方法,达到最先进性能。
  • Conclusion: TriPSS能够捕捉细微的视觉和语义信息,为大规模视频检索场景设定了新标准。

[15] Talk2SAM: Text-Guided Semantic Enhancement for Complex-Shaped Object Segmentation

Luka Vetoshkin,Dmitry Yudin

Main category: cs.CV

TL;DR: Talk2SAM通过结合文本引导改进复杂形状物体的分割,显著提升SAM-HQ在细结构和边界上的表现。

  • Motivation: 当前分割模型(如SAM和SAM-HQ)在复杂形状物体(如细线、自行车)的分割上表现不佳,尤其是在细结构和边界上。
  • Method: Talk2SAM利用CLIP嵌入的文本提示识别语义区域,并将其投影到DINO特征空间,作为SAM-HQ的额外提示。
  • Result: 在BIG、ThinObject5K和DIS5K基准测试中,Talk2SAM比SAM-HQ提升5.9% IoU和8.3%边界IoU。
  • Conclusion: 结合自然语言引导为复杂物体分割提供了灵活有效的方法,尤其在传统提示方法失败时。

[16] Attention-based transformer models for image captioning across languages: An in-depth survey and evaluation

Israa A. Albadarneh,Bassam H. Hammo,Omar S. Al-Kadi

Main category: cs.CV

TL;DR: 本文综述了基于注意力的图像描述生成模型,分类为基于Transformer、深度学习和混合方法,探讨了多语言数据集、评估指标及挑战,并指出当前模型的局限性及未来研究方向。

  • Motivation: 填补基于注意力的Transformer模型在多语言图像描述生成领域的综述空白,为研究者提供全面参考。
  • Method: 分类分析基于Transformer、深度学习和混合方法的图像描述模型,评估多语言数据集和指标。
  • Result: 总结了当前模型的局限性(如语义不一致、非英语数据稀缺)及未来研究方向(如多模态学习、实时应用)。
  • Conclusion: 本文为研究者提供了基于注意力的图像描述生成领域的全面综述,指明了未来发展方向。

[17] AD-EE: Early Exiting for Fast and Reliable Vision-Language Models in Autonomous Driving

Lianming Huang,Haibo Hu,Yufei Cui,Jiacheng Zuo,Shangyu Wu,Nan Guan,Chun Jason Xue

Main category: cs.CV

TL;DR: AD-EE框架通过早期退出机制和因果推理优化视觉语言模型在自动驾驶中的实时性能,显著降低延迟并提高检测精度。

  • Motivation: 自动驾驶中视觉语言模型的高延迟和计算开销限制了其在实时场景中的应用,尤其是在模型过度推理时。
  • Method: 提出AD-EE框架,结合自动驾驶领域特性,利用因果推理确定最佳退出层。
  • Result: 在Waymo和CODA数据集及实际车辆测试中,AD-EE显著降低延迟(最高57.58%)并提高检测精度(最高44%)。
  • Conclusion: AD-EE有效解决了视觉语言模型在自动驾驶中的实时性问题,提升了性能和效率。

[18] A VLM-based Method for Visual Anomaly Detection in Robotic Scientific Laboratories

Shiwei Lin,Chenxu Wang,Xiaozhen Ding,Yi Wang,Boyuan Du,Lei Song,Chenggang Wang,Huaping Liu

Main category: cs.CV

TL;DR: 本文提出了一种基于视觉语言模型(VLM)的视觉推理方法,用于科学工作流程中的视觉异常检测,并通过实验验证了其有效性。

  • Motivation: 在机器人科学实验室中,视觉异常检测对于及时发现和解决潜在故障或偏差至关重要,是确保实验过程稳定性和安全性的关键因素。
  • Method: 采用基于VLM的视觉推理方法,通过四种逐步提供信息的提示配置支持不同级别的监督,并构建了专门用于科学工作流程异常检测的视觉基准。
  • Result: 实验表明,随着上下文信息的增加,检测准确性提高,验证了该方法在科学工作流程异常检测中的有效性和适应性。
  • Conclusion: 该研究为科学实验工作流程中的视觉异常检测提供了数据驱动的基础和评估框架。

[19] Object-level Self-Distillation for Vision Pretraining

Çağlar Hızlı,Çağatay Yıldız,Pekka Marttinen

Main category: cs.CV

TL;DR: ODIS是一种预训练方法,通过对象级自蒸馏改进视觉表示,解决了图像级自蒸馏在多对象场景中的局限性。

  • Motivation: 现有视觉预训练方法假设每张图像仅含单一对象,限制了在复杂场景数据集上的扩展性。ODIS旨在通过对象级自蒸馏提升模型性能。
  • Method: ODIS采用对象感知裁剪和掩码注意力,隔离对象区域,将场景级任务分解为对象级子任务。
  • Result: ODIS在ViT-Large上实现了82.6%的k-NN准确率。
  • Conclusion: ODIS通过对象级自蒸馏显著提升了视觉表示的质量,适用于复杂场景。

[20] Can Vision Language Models Infer Human Gaze Direction? A Controlled Study

Zory Zhang,Pinyuan Feng,Bingyang Wang,Tianwei Zhao,Suyang Yu,Qingying Gao,Hokin Deng,Ziqiao Ma,Yijiang Li,Dezhi Luo

Main category: cs.CV

TL;DR: 研究评估了111个视觉语言模型(VLMs)在视线推断任务中的表现,发现大多数模型表现不佳,仅5个顶级模型表现略优于随机猜测,而人类表现接近完美。

  • Motivation: 视线推断是人类自然交互的关键能力,研究旨在评估VLMs是否具备类似能力,以推动更自然的人机交互技术发展。
  • Method: 通过控制实验,使用不同难度和变化的照片,比较111个VLMs和65名人类参与者的表现,并采用混合效应模型分析行为。
  • Result: 94个VLMs表现不优于随机猜测,人类表现接近完美。顶级VLMs表现受任务难度影响,但对提示和场景变化较稳健。
  • Conclusion: VLMs目前缺乏视线推断能力,但部分模型表现出潜力,未来可能通过改进实现更自然的人机交互。

[21] SAVVY: Spatial Awareness via Audio-Visual LLMs through Seeing and Hearing

Mingfei Chen,Zijun Cui,Xiulong Liu,Jinlin Xiang,Caleb Zheng,Jingyuan Li,Eli Shlizerman

Main category: cs.CV

TL;DR: SAVVY-Bench是首个针对动态场景中3D空间推理的基准测试,结合了同步空间音频。SAVVY是一种无需训练的两阶段推理方法,显著提升了现有AV-LLM的性能。

  • Motivation: 现有AV-LLM和基准测试主要关注静态或2D场景,而动态3D空间推理尚未充分探索。
  • Method: 提出SAVVY方法,包括两阶段:1) 利用AV-LLM跟踪关键对象轨迹;2) 构建全局动态地图并通过坐标转换回答问题。
  • Result: SAVVY显著提升了现有AV-LLM的性能,为动态3D空间推理设定了新标准。
  • Conclusion: SAVVY-Bench和SAVVY方法填补了动态3D空间推理的空白,为未来研究提供了新方向。

[22] Better STEP, a format and dataset for boundary representation

Nafiseh Izadyar,Sai Chandra Madduri,Teseo Schneider

Main category: cs.CV

TL;DR: 论文提出了一种基于HDF5的开放格式替代STEP格式,并开发了配套工具包,解决了CAD数据在机器学习中因许可证限制难以大规模使用的问题。

  • Motivation: 现有CAD数据集采用STEP格式,需依赖CAD内核处理,导致许可证成本高,限制了其在机器学习中的大规模应用。
  • Method: 提出基于HDF5的开放格式,开发了Python工具包支持数据查询和处理,并提供了采样、法线计算等标准功能。
  • Result: 成功转换了Fusion 360和ABC数据集,并通过四个标准用例验证了数据的完整性和兼容性。
  • Conclusion: 新格式解决了STEP格式的局限性,为CAD数据在机器学习中的广泛应用提供了便利。

[23] Self-Predictive Dynamics for Generalization of Vision-based Reinforcement Learning

Kyungsoo Kim,Jeongsoo Ha,Yusung Kim

Main category: cs.CV

TL;DR: 论文提出了一种自预测动态(SPD)方法,用于在视觉强化学习中高效提取任务相关特征,尤其在面对未训练过的干扰元素时表现优异。

  • Motivation: 视觉强化学习需要高效且鲁棒的图像表示,尤其是在图像包含干扰元素(如阴影、云、光)时。若这些干扰在训练中未出现,问题更为突出。
  • Method: SPD方法通过并行使用弱增强和强增强,学习通过预测双向增强版本之间的逆向和正向转换来提取特征。
  • Result: 在MuJoCo视觉控制任务和CARLA自动驾驶任务中,SPD在复杂观测中优于先前研究,并显著提升对未见过观测的泛化性能。
  • Conclusion: SPD方法能有效提取任务相关特征,提升视觉强化学习在复杂和未见过观测中的表现。

[24] Dream to Generalize: Zero-Shot Model-Based Reinforcement Learning for Unseen Visual Distractions

Jeongsoo Ha,Kyungsoo Kim,Yusung Kim

Main category: cs.CV

TL;DR: 提出了一种名为Dr. G的自监督方法,用于零样本基于模型的强化学习,通过双对比学习和递归状态逆动力学模型提高模型对视觉干扰的鲁棒性。

  • Motivation: 解决现有基于模型的强化学习算法在面对视觉干扰时表现不佳的问题。
  • Method: 使用双对比学习训练编码器和世界模型,并引入递归状态逆动力学模型以更好地理解时间结构。
  • Result: 在DeepMind Control suite和Robosuite中,Dr. G的性能分别提升了117%和14%。
  • Conclusion: Dr. G显著提高了模型在视觉干扰下的泛化能力,且代码已开源。

[25] Self-supervised One-Stage Learning for RF-based Multi-Person Pose Estimation

Seunghwan Shin,Yusung Kim

Main category: cs.CV

TL;DR: 提出了一种基于原始RF信号的高效轻量级单阶段MPPE模型,通过分组和共享CNN嵌入结合多头注意力,性能优于现有方法,并引入自监督学习进一步提升泛化能力。

  • Motivation: 现有RF-based MPPE方法要么预处理复杂耗时,要么精度和泛化性能不足,需改进。
  • Method: 分组处理原始RF信号,共享单层CNN嵌入后接多头注意力;提出自监督学习方法,利用掩码子组预测潜在表示。
  • Result: [email protected]指标提升15%,新环境或障碍物下性能显著提升,人数增加时效果更明显。
  • Conclusion: 模型高效轻量且性能优越,自监督学习增强泛化能力,代码和数据集已开源。

[26] SIV-Bench: A Video Benchmark for Social Interaction Understanding and Reasoning

Fanqi Kong,Weiqin Zu,Xinyu Chen,Yaodong Yang,Song-Chun Zhu,Xue Feng

Main category: cs.CV

TL;DR: SIV-Bench是一个新的视频基准测试,用于评估多模态大语言模型(MLLMs)在社交场景理解(SSU)、社交状态推理(SSR)和社交动态预测(SDP)方面的能力。

  • Motivation: 人类社交互动的复杂性和多模态特性对人工智能提出了巨大挑战,需要新的评估工具来推动研究。
  • Method: SIV-Bench包含2,792个视频片段和8,792个问题-答案对,来自TikTok和YouTube,涵盖多种视频类型和文化背景。
  • Result: 实验表明,MLLMs在SSU上表现良好,但在SSR和SDP上表现较差,尤其是关系推理(RI)是主要瓶颈。
  • Conclusion: SIV-Bench为开发更具社交智能的AI提供了关键见解,并强调了转录对话在理解复杂社交互动中的重要性。

[27] Coordinated Robustness Evaluation Framework for Vision-Language Models

Ashwin Ramesh Babu,Sajad Mousavi,Vineet Gundecha,Sahand Ghorbanpour,Avisek Naug,Antonio Guillen,Ricardo Luna Gutierrez,Soumyendu Sarkar

Main category: cs.CV

TL;DR: 该论文提出了一种针对视觉语言模型的通用对抗攻击策略,通过联合图像和文本模态的扰动,评估模型的鲁棒性。

  • Motivation: 视觉语言模型在图像描述和视觉问答等任务中表现优异,但其对微小扰动的敏感性限制了实际部署的鲁棒性。
  • Method: 训练一个通用代理模型,生成联合表示,并进一步生成针对图像和文本模态的对抗扰动。
  • Result: 该策略在多模态攻击和单模态攻击中表现优于现有方法,能有效破坏多种先进预训练模型的鲁棒性。
  • Conclusion: 研究证明了联合模态攻击的有效性,为视觉语言模型的鲁棒性评估提供了新思路。

[28] Robustness Evaluation for Video Models with Reinforcement Learning

Ashwin Ramesh Babu,Sajad Mousavi,Vineet Gundecha,Sahand Ghorbanpour,Avisek Naug,Antonio Guillen,Ricardo Luna Gutierrez,Soumyendu Sarkar

Main category: cs.CV

TL;DR: 提出了一种多智能体强化学习方法,用于视频分类模型的鲁棒性评估,通过空间和时间协作生成微小扰动,优于现有方法。

  • Motivation: 视频分类模型的鲁棒性评估复杂且计算成本高,需最小化扰动以诱导错误分类。
  • Method: 采用多智能体强化学习(空间和时间)协作识别视频敏感区域,生成微小扰动。
  • Result: 在Lp指标和平均查询次数上优于现有方法,支持自定义失真类型。
  • Conclusion: 方法在HMDB-51和UCF-101数据集上验证了有效性,适用于视频动作识别模型的鲁棒性评估。

[29] LLMs Can Compensate for Deficiencies in Visual Representations

Sho Takishita,Jay Gala,Abdelrahman Mohamed,Kentaro Inui,Yova Kementchedjhieva

Main category: cs.CV

TL;DR: 研究发现,CLIP视觉编码器在视觉语言模型中虽有限制,但语言解码器能补偿其不足,动态分工。

  • Motivation: 探讨CLIP视觉编码器的局限性是否通过语言解码器得到补偿。
  • Method: 使用三种基于CLIP的视觉语言模型,通过自注意力消融实验验证假设。
  • Result: CLIP视觉表征提供语义信息,语言解码器能补偿视觉不足。
  • Conclusion: 未来可设计更多依赖语言解码器的视觉语言模型架构。

[30] BYO-Eval: Build Your Own Dataset for Fine-Grained Visual Assessment of Multimodal Language Models

Ludovic Arnould,Salim Khazem,Hugues Ali Mehenni

Main category: cs.CV

TL;DR: 论文提出了一种新的评估视觉语言模型(VLM)的方法,通过生成合成图像来精确揭示感知失败,替代传统基于真实图像和预定义问题的基准测试。

  • Motivation: 现有基准测试成本高、易泄露信息,且无法明确失败原因(视觉感知、推理或常识)。
  • Method: 采用程序生成合成图像,逐步增加内容难度,保持其他视觉参数不变,进行系统压力测试和细粒度失败分析。
  • Result: 新方法能够精确揭示VLM的感知失败,提供更针对性和可解释的评估。
  • Conclusion: 该方法从粗粒度基准测试转向目标明确的评估,有助于更深入理解VLM的能力。

[31] Structured Labeling Enables Faster Vision-Language Models for End-to-End Autonomous Driving

Hao Jiang,Chuan Hu,Yukang Shi,Yuan He,Ke Wang,Xi Zhang,Zhipeng Zhang

Main category: cs.CV

TL;DR: 论文提出结构化数据集NuScenes-S和轻量级VLM模型FastDrive,解决了现有VLM在自动驾驶中数据冗余和计算成本高的问题。

  • Motivation: 现有VLM在自动驾驶应用中存在数据冗余和计算成本高的问题,阻碍了实际部署。
  • Method: 引入结构化数据集NuScenes-S和轻量级VLM模型FastDrive,专注于机器友好的结构化描述。
  • Result: FastDrive在决策任务上准确率提升20%,推理速度提升10倍以上。
  • Conclusion: 结构化数据和轻量模型显著提升自动驾驶决策效率和性能。

[32] U-NetMN and SegNetMN: Modified U-Net and SegNet models for bimodal SAR image segmentation

Marwane Kzadri,Franco Alberto Cardillo,Nanée Chahinian,Carole Delenne,Renaud Hostache,Jamal Riffi

Main category: cs.CV

TL;DR: 研究评估了模式归一化对U-Net和SegNet在SAR图像分割中的影响,发现其显著加速收敛并提高模型稳定性。

  • Motivation: SAR图像分割对遥感应用(如水体检测)至关重要,但深度学习模型因数据复杂统计分布而面临收敛速度和稳定性问题。
  • Method: 在U-Net和SegNet中集成模式归一化,以减少收敛时间并保持基线模型性能。
  • Result: 实验显示模式归一化显著加速收敛,交叉验证表明归一化模型在不同区域更稳定。
  • Conclusion: 模式归一化有效提升SAR图像分割的计算效率和泛化能力。

[33] Degradation-Aware Image Enhancement via Vision-Language Classification

Jie Cai,Kangning Yang,Jiaming Ding,Lan Fu,Ling Ouyang,Jiang Li,Jinglin Shen,Zibo Meng

Main category: cs.CV

TL;DR: 提出了一种基于视觉语言模型(VLM)的框架,用于自动分类图像退化类型并进行针对性修复,显著提升图像质量。

  • Motivation: 图像退化影响视觉质量和下游任务,需自动化解决方案。
  • Method: 使用VLM将图像分类为四种退化类型(超分辨率退化、反射伪影、运动模糊或无退化),并针对前三类使用专用修复模型。
  • Result: 实验表明方法能准确分类退化类型并有效提升图像质量。
  • Conclusion: 该方法为现实图像增强任务提供了可扩展的自动化解决方案。

[34] Towards Reliable Identification of Diffusion-based Image Manipulations

Alex Costanzino,Woody Bayliss,Juil Sock,Marc Gorriz Blanch,Danijela Horak,Ivan Laptev,Philip Torr,Fabio Pizzati

Main category: cs.CV

TL;DR: RADAR是一种基于多模态特征和对比损失的新方法,用于可靠检测和定位扩散模型编辑的图像区域,性能优于现有技术。

  • Motivation: 随着扩散模型在图像编辑中的广泛应用,识别被篡改的真实图像变得重要且具有挑战性。
  • Method: 结合现有基础模型的多模态特征,并引入辅助对比损失以隔离被篡改的图像区域。
  • Result: RADAR在检测和定位扩散模型编辑的图像区域上表现优异,泛化能力强。
  • Conclusion: RADAR为识别扩散模型编辑的图像提供了高效解决方案,并发布了BBC-PAIR基准以支持进一步研究。

[35] S2GO: Streaming Sparse Gaussian Occupancy Prediction

Jinhyung Park,Yihan Hu,Chensheng Peng,Wenzhao Zheng,Kris Kitani,Wei Zhan

Main category: cs.CV

TL;DR: S2GO提出了一种基于稀疏查询的3D表示方法,通过动态传播3D查询并解码为语义高斯,显著提升了3D占用预测的性能和效率。

  • Motivation: 现有3D占用预测方法依赖密集表示,效率低且难以捕捉动态场景。S2GO旨在通过稀疏查询解决这些问题。
  • Method: 使用动态传播的3D查询,解码为语义高斯,并结合去噪渲染目标优化查询和高斯。
  • Result: 在nuScenes和KITTI基准测试中,S2GO性能优于GaussianWorld(IoU提升1.5,推理速度提升5.9倍)。
  • Conclusion: 稀疏查询表示在3D占用预测中高效且灵活,优于传统密集表示方法。

[36] OpenRR-5k: A Large-Scale Benchmark for Reflection Removal in the Wild

Jie Cai,Kangning Yang,Ling Ouyang,Lan Fu,Jiaming Ding,Jinglin Shen,Zibo Meng

Main category: cs.CV

TL;DR: 论文提出了一个用于单图像反射去除(SIRR)的新基准数据集,包含5,300对高质量像素对齐的图像,并验证了其有效性。

  • Motivation: 现有反射去除方法因缺乏大规模、高质量且多样化的数据集而受限,因此需要构建新的基准数据集以推动研究。
  • Method: 构建了一个包含5,300对像素对齐图像的数据集(5,000训练,300验证,100无GT测试),并训练了一个基于U-Net的模型进行验证。
  • Result: 使用PSNR、SSIM等五种指标评估模型性能,数据集和代码将公开以促进未来研究。
  • Conclusion: 提出的数据集为反射去除研究提供了重要资源,并展示了其实际应用潜力。

[37] A Neural Network Model of Spatial and Feature-Based Attention

Ruoyang Hu,Robert A. Jacobs

Main category: cs.CV

TL;DR: 论文提出了一种受人类视觉注意力启发的神经网络模型,包含两个网络,分别处理基础任务和上下文信息,通过注意力机制实现复杂任务适应。模型学习到的注意力模式与人类视觉注意力相似。

  • Motivation: 研究人类视觉注意力与计算机视觉中的注意力机制的相似性,探索用神经网络模型研究人类认知的潜力。
  • Method: 设计了一个包含两个网络的模型:一个处理基础任务,另一个处理上下文信息并通过注意力机制指导前者。训练后可视化注意力响应。
  • Result: 模型学习到的注意力模式与人类的空间和特征注意力相似。
  • Conclusion: 神经网络模型可以模拟人类视觉注意力,为研究人类认知提供了新方向。

[38] Implicit Neural Representation for Video Restoration

Mary Aiyetigbo,Wanqi Yuan,Feng Luo,Nianyi Li

Main category: cs.CV

TL;DR: VR-INR是一种基于隐式神经表示的视频修复方法,仅需在单一放大因子(×4)上训练,即可在测试时泛化到任意未见过的超分辨率尺度,并能零样本去噪。

  • Motivation: 现有视频修复方法通常针对固定放大因子训练,无法灵活处理超出训练分布的尺度或退化问题。
  • Method: 采用分层时空纹理编码框架和多分辨率隐式哈希编码,实现从低分辨率输入自适应解码高分辨率和无噪帧。
  • Result: VR-INR在未见过的尺度和噪声下保持高质量重建,在清晰度、细节保留和去噪效果上显著优于现有方法。
  • Conclusion: VR-INR展示了隐式神经表示在视频修复中的强大泛化能力,为灵活处理多尺度问题提供了新思路。

[39] F2T2-HiT: A U-Shaped FFT Transformer and Hierarchical Transformer for Reflection Removal

Jie Cai,Kangning Yang,Ling Ouyang,Lan Fu,Jiaming Ding,Huiming Sun,Chiu Man Ho,Zibo Meng

Main category: cs.CV

TL;DR: 本文提出了一种基于Transformer的U形架构F2T2-HiT,用于单图像反射去除(SIRR),结合了快速傅里叶变换和分层Transformer块,显著提升了反射去除效果。

  • Motivation: 真实场景中的反射复杂多样,现有方法难以有效处理,因此需要一种能够捕捉全局频率信息和多尺度特征的创新方法。
  • Method: 采用U形架构,结合快速傅里叶变换Transformer块(捕捉全局频率信息)和分层Transformer块(多尺度特征提取)。
  • Result: 在三个公开数据集上实现了最先进的性能。
  • Conclusion: F2T2-HiT架构通过结合频率域和多尺度特征,有效解决了SIRR问题。

[40] FocusDiff: Advancing Fine-Grained Text-Image Alignment for Autoregressive Visual Generation through RL

Kaihang Pan,Wendong Bu,Yuruo Wu,Yang Wu,Kai Shen,Yunfei Li,Hang Zhao,Juncheng Li,Siliang Tang,Yueting Zhuang

Main category: cs.CV

TL;DR: 论文提出FocusDiff方法,通过强化学习提升细粒度文本-图像对齐能力,显著优于现有方法。

  • Motivation: 现有自回归模型在细粒度文本-图像对齐上表现不佳,无法实现精确的视觉控制。
  • Method: 提出FocusDiff,构建新数据集并引入强化学习算法,强调细粒度语义差异。
  • Result: 在现有基准测试中表现最佳,PairComp上显著优于先前方法。
  • Conclusion: FocusDiff通过细粒度对齐实现了更精确的文本到图像生成。

[41] MORSE-500: A Programmatically Controllable Video Benchmark to Stress-Test Multimodal Reasoning

Zikui Cai,Andrew Wang,Anirudh Satheesh,Ankit Nakhawa,Hyunwoo Jae,Keenan Powell,Minghui Liu,Neel Jay,Sungbin Oh,Xiyao Wang,Yongyuan Liang,Tom Goldstein,Furong Huang

Main category: cs.CV

TL;DR: MORSE-500是一个视频基准测试,旨在解决现有多模态推理基准的不足,覆盖更广泛的推理技能,并通过可控生成支持持续挑战。

  • Motivation: 现有基准测试依赖静态图像、局限于数学问题解决且易饱和,无法全面评估多模态推理能力。
  • Method: 使用Python脚本、生成视频模型和真实素材生成500个脚本化视频片段,覆盖六类推理问题。
  • Result: 实验显示当前先进模型在所有推理类别中存在显著性能差距,尤其在抽象和规划任务中。
  • Conclusion: MORSE-500为多模态推理研究提供了可扩展、透明的评估工具。

[42] Personalized Interpretability -- Interactive Alignment of Prototypical Parts Networks

Tomasz Michalski,Adam Wróbel,Andrea Bontempelli,Jakub Luśtyk,Mikolaj Kniejski,Stefano Teso,Andrea Passerini,Bartosz Zieliński,Dawid Rymarczyk

Main category: cs.CV

TL;DR: YoursProtoP是一种交互式策略,通过用户监督个性化原型部分,解决概念不一致问题,提升模型解释的可理解性。

  • Motivation: 现有基于概念的神经网络解释存在概念不一致问题,且无法满足用户对概念外观的偏好。
  • Method: 引入YoursProtoP,通过用户反馈调整原型部分,实现概念的分割和适配。
  • Result: 在FunnyBirds和真实数据集(CUB、CARS、PETS)上验证了YoursProtoP的有效性,保持模型准确性的同时提升概念一致性。
  • Conclusion: YoursProtoP通过用户交互解决了概念一致性问题,同时满足用户偏好,提升了模型解释的可理解性。

[43] FRAME: Pre-Training Video Feature Representations via Anticipation and Memory

Sethuraman TV,Savya Khosla,Vignesh Srinivasakumar,Jiahui Huang,Seoung Wug Oh,Simon Jenni,Derek Hoiem,Joon-Young Lee

Main category: cs.CV

TL;DR: FRAME是一种自监督视频帧编码器,专为密集视频理解设计,通过预测当前和未来的DINO补丁特征,生成时空一致的表示,并在密集预测任务中优于现有图像和视频编码器。

  • Motivation: 现有图像编码器(如DINO或CLIP)缺乏时间感知能力,而视频模型(如VideoMAE)在密集预测任务中表现不佳。FRAME旨在填补这一空白。
  • Method: FRAME通过自监督学习预测当前和未来的DINO补丁特征,生成时空一致的表示,并支持语言驱动任务。
  • Result: 在七个数据集的六项密集预测任务中,FRAME均优于现有图像编码器和自监督视频模型。
  • Conclusion: FRAME是一种高效且通用的视频编码器,适用于多种下游任务。

[44] Layered Motion Fusion: Lifting Motion Segmentation to 3D in Egocentric Videos

Vadim Tschernezki,Diane Larlus,Andrea Vedaldi,Iro Laina

Main category: cs.CV

TL;DR: 论文探讨了3D技术如何通过融合2D动态分割预测和改进测试时细化,提升动态场景的分割效果。

  • Motivation: 解决3D技术在动态现象(如移动物体分割)中效果不佳的问题,尤其是在复杂动态视频中。
  • Method: 提出Layered Motion Fusion方法,融合2D动态分割预测到分层辐射场,并通过测试时细化降低数据复杂度。
  • Result: 3D模型的分割预测显著优于2D基线,证明了3D技术对动态现象分析的增强作用。
  • Conclusion: 3D技术即使在动态场景中也能显著提升2D分析效果。

[45] When Semantics Mislead Vision: Mitigating Large Multimodal Models Hallucinations in Scene Text Spotting and Understanding

Yan Shu,Hangui Lin,Yexin Liu,Yan Zhang,Gangyan Zeng,Yan Li,Yu Zhou,Ser-Nam Lim,Harry Yang,Nicu Sebe

Main category: cs.CV

TL;DR: 论文提出了一种无需训练的语义幻觉缓解框架,通过ZoomText和Grounded Layer Correction解决大型多模态模型在视觉模糊或非语义文本上的语义幻觉问题。

  • Motivation: 大型多模态模型在视觉模糊或非语义文本上容易产生语义幻觉,即生成视觉不正确但语义合理的答案。
  • Method: 提出ZoomText(粗到细的文本区域识别策略)和Grounded Layer Correction(利用不易产生幻觉的层表示指导解码)。
  • Result: 方法有效缓解语义幻觉,并在公开基准测试中表现优异。
  • Conclusion: 框架显著提升了模型对非语义文本的理解能力,同时保持语义文本的性能。

[46] EX-4D: EXtreme Viewpoint 4D Video Synthesis via Depth Watertight Mesh

Tao Hu,Haoyang Peng,Xiao Liu,Yuewen Ma

Main category: cs.CV

TL;DR: EX-4D是一个新框架,通过深度水密网格表示解决单目输入下极端视角视频生成的几何不一致和遮挡问题。

  • Motivation: 现有方法在极端视角下难以保持几何一致性,导致边界遮挡和视觉质量下降。
  • Method: 采用深度水密网格表示建模可见和遮挡区域,提出模拟掩码策略生成训练数据,并使用轻量级LoRA视频扩散适配器。
  • Result: 实验表明,EX-4D在物理一致性和极端视角质量上优于现有方法。
  • Conclusion: EX-4D实现了高质量的4D视频生成,解决了极端视角下的几何一致性问题。

[47] On-the-fly Reconstruction for Large-Scale Novel View Synthesis from Unposed Images

Andreas Meuleman,Ishaan Shah,Alexandre Lanvin,Bernhard Kerbl,George Drettakis

Main category: cs.CV

TL;DR: 提出了一种实时生成相机姿态和3D高斯泼溅(3DGS)的方法,适用于大场景和宽基线拍摄。

  • Motivation: 现有方法在姿态估计和3DGS优化上耗时较长,SLAM与3DGS结合虽快但难以处理宽基线和大场景。
  • Method: 采用快速初始姿态估计和直接采样高斯基元位置与形状,结合增量式生成和聚类优化。
  • Result: 能够实时处理多种拍摄场景和大规模场景,在速度和图像质量上均具有竞争力。
  • Conclusion: 该方法为实时3D重建提供了高效且鲁棒的解决方案。

[48] VoxelSplat: Dynamic Gaussian Splatting as an Effective Loss for Occupancy and Flow Prediction

Ziyue Zhu,Shenlong Wang,Jin Xie,Jiang-jiang Liu,Jingdong Wang,Jian Yang

Main category: cs.CV

TL;DR: 论文提出VoxelSplat框架,通过3D高斯泼溅技术增强语义和场景流预测,解决遮挡和不平衡动态环境问题。

  • Motivation: 解决相机基占用预测中3D语义和场景流同时预测的挑战,如遮挡和不平衡动态环境。
  • Method: 提出VoxelSplat框架,利用3D高斯泼溅技术,通过2D投影增强语义监督,并自监督学习场景流。
  • Result: 在基准数据集上验证了VoxelSplat在语义占用和场景流估计中的有效性。
  • Conclusion: VoxelSplat能无缝集成现有模型,提升性能且不增加推理时间。

[49] PartCrafter: Structured 3D Mesh Generation via Compositional Latent Diffusion Transformers

Yuchen Lin,Chenguo Lin,Panwang Pan,Honglei Yan,Yiqiang Feng,Yadong Mu,Katerina Fragkiadaki

Main category: cs.CV

TL;DR: PartCrafter是一个结构化3D生成模型,能够从单张RGB图像联合生成多个语义明确且几何上独立的3D网格。

  • Motivation: 现有方法要么生成单一3D形状,要么依赖两阶段流程(先分割图像再重建每个部分),PartCrafter旨在通过统一的组合生成架构解决这些问题,无需预分割输入。
  • Method: 基于预训练的3D网格扩散变换器(DiT),PartCrafter引入组合潜在空间和分层注意力机制,支持端到端的部分感知生成。
  • Result: 实验表明,PartCrafter在生成可分解3D网格方面优于现有方法,包括输入图像中不可见的部分。
  • Conclusion: PartCrafter展示了部分感知生成先验在3D理解和合成中的优势,代码和训练数据将公开。

[50] UniRes: Universal Image Restoration for Complex Degradations

Mo Zhou,Keren Ye,Mauricio Delbracio,Peyman Milanfar,Vishal M. Patel,Hossein Talebi

Main category: cs.CV

TL;DR: 本文提出了一种名为UniRes的扩散框架,用于解决现实世界中复杂的图像退化问题,通过结合多个专门模型在扩散采样步骤中,实现了对复杂退化的端到端恢复。

  • Motivation: 现实世界中的图像退化问题复杂多样,现有方法难以泛化到真实场景。本文旨在解决复杂退化(多种已知退化的任意混合)问题。
  • Method: 提出UniRes框架,结合多个专门模型在扩散采样步骤中,利用孤立训练数据实现复杂退化的端到端恢复。
  • Result: 在复杂退化和单一退化数据集上均表现出色,尤其在复杂退化图像上性能提升显著。
  • Conclusion: UniRes框架灵活且高效,为复杂退化图像恢复提供了新的解决方案。

[51] Controlled Data Rebalancing in Multi-Task Learning for Real-World Image Super-Resolution

Shuchen Lin,Mingtao Feng,Weisheng Dong,Fangfang Wu,Jianqiao Luo,Yaonan Wang,Guangming Shi

Main category: cs.CV

TL;DR: 论文提出了一种改进的Real-SR方法,通过多任务学习框架解决任务不平衡问题,包括任务定义、不平衡量化和自适应数据再平衡。

  • Motivation: 现实世界中的图像超分辨率(Real-SR)因低分辨率图像的复杂退化模式而具有挑战性,现有方法难以平衡不同退化模式的处理。
  • Method: 提出了一种新的任务定义框架,通过参数特定边界分割退化空间,并使用基于焦点损失的多任务权重机制量化任务不平衡,最后通过数据再平衡优化模型训练。
  • Result: 实验表明,该方法在所有退化任务中均表现出色。
  • Conclusion: 该方法通过任务定义、不平衡量化和数据再平衡的协同改进,实现了Real-SR任务的优化平衡。

[52] Hallucinate, Ground, Repeat: A Framework for Generalized Visual Relationship Detection

Shanmukha Vellamcheti,Sanjoy Kundu,Sathyanarayanan N. Aakur

Main category: cs.CV

TL;DR: 论文提出了一种迭代视觉接地框架,利用大型语言模型(LLM)作为结构化关系先验,以解决视觉关系检测(VRD)模型在未标注关系上的泛化问题。

  • Motivation: 现有VRD模型依赖固定谓词集,限制了其对新颖交互的泛化能力,需要一种方法视觉化地接地未标注但语义合理的关系。
  • Method: 采用期望最大化(EM)启发的方法,交替使用LLM生成候选场景图(期望)和训练视觉模型对齐假设与感知证据(最大化)。
  • Result: 在Visual Genome的新基准上,模型在谓词分类任务中优于LLM-only、few-shot和去偏基线,mR@50分别为15.9、13.1和11.7。
  • Conclusion: 研究展示了基于LLM先验的接地方法在可扩展开放世界视觉理解中的潜力。

[53] Aerial Multi-View Stereo via Adaptive Depth Range Inference and Normal Cues

Yimei Liu,Yakun Ju,Yuan Rao,Hao Fan,Junyu Dong,Feng Gao,Qian Du

Main category: cs.CV

TL;DR: ADR-MVS通过自适应深度范围预测和单目几何线索,提高了多视角深度估计的准确性,并在多个数据集上实现了最先进的性能。

  • Motivation: 现有方法忽视了航拍与近景设置的关键差异,如沿极线的深度范围变化和低细节航拍图像的特征匹配不敏感。
  • Method: 提出ADR-MVS,结合单目几何线索和自适应深度范围预测,通过交叉注意力差异学习生成范围图,并设计法线引导的成本聚合和深度细化模块。
  • Result: 在WHU、LuoJia-MVS和München数据集上表现最佳,计算复杂度也优于现有方法。
  • Conclusion: ADR-MVS通过自适应深度范围和法线引导优化,显著提升了航拍图像的三维重建效果。

[54] TissUnet: Improved Extracranial Tissue and Cranium Segmentation for Children through Adulthood

Markian Mandzak,Elvira Yang,Anna Zapaishchykova,Yu-Hui Chen,Lucas Heilbroner,John Zielke,Divyanshu Tak,Reza Mojahed-Yazdi,Francesca Romana Mussa,Zezhong Ye,Sridhar Vajapeyam,Viviana Benitez,Ralph Salloum,Susan N. Chi,Houman Sotoudeh,Jakob Seidlitz,Sabine Mueller,Hugo J. W. L. Aerts,Tina Y. Poussaint,Benjamin H. Kann

Main category: cs.CV

TL;DR: TissUnet是一种深度学习模型,用于从常规3D T1加权MRI中分割颅外组织,表现优于现有方法。

  • Motivation: 颅外组织在脑MRI中可能对健康评估和临床决策有重要价值,但现有工具未广泛验证。
  • Method: TissUnet基于155对MRI-CT扫描训练,并在多个数据集上验证,涵盖不同年龄和病理情况。
  • Result: TissUnet在健康成人和肿瘤患者中表现优异,Dice系数分别为0.83和0.81,接受率89%。
  • Conclusion: TissUnet能快速、准确、可重复地分割颅外组织,支持大规模研究。

[55] DriveAction: A Benchmark for Exploring Human-like Driving Decisions in VLA Models

Yuhan Hao,Zhengning Li,Lei Sun,Weilong Wang,Naixin Yi,Sheng Song,Caihong Qin,Mofan Zhou,Yifei Zhan,Peng Jia,Xianpeng Lang

Main category: cs.CV

TL;DR: DriveAction是首个为VLA模型设计的动作驱动基准测试,包含16,185个QA对,基于2,610个驾驶场景,解决了现有基准测试在场景多样性、动作标注和评估协议上的不足。

  • Motivation: 现有基准测试缺乏场景多样性、可靠的动作标注和符合人类偏好的评估协议,限制了VLA模型在自动驾驶中的应用。
  • Method: DriveAction利用真实驾驶数据生成QA对,提供高级离散动作标签,并采用基于动作的树状评估框架,结合视觉、语言和动作任务。
  • Result: 实验表明,最先进的VLM需要视觉和语言输入才能准确预测动作:缺少视觉输入准确率下降3.3%,缺少语言输入下降4.1%,两者均缺下降8.0%。
  • Conclusion: DriveAction为自动驾驶中人类化决策提供了新见解和严格基础,能精确识别模型瓶颈。

[56] Pts3D-LLM: Studying the Impact of Token Structure for 3D Scene Understanding With Large Language Models

Hugues Thomas,Chen Chen,Jian Zhang

Main category: cs.CV

TL;DR: 本文研究了3D场景表示对多模态大语言模型(MLLMs)的重要性,提出了一种结合3D点云特征的新方法,显著提升了性能,并在多个3D理解基准测试中取得最优结果。

  • Motivation: 现有方法主要依赖2D图像特征,且采用不同的标记化方法,缺乏对3D结构的系统性研究。本文旨在填补这一空白,探索3D标记结构的有效性。
  • Method: 通过系统比较基于视频和基于点的3D表示,提出了一种结合预训练点云编码器(Sonata Point Transformer V3)的新方法,丰富了视觉标记。
  • Result: 实验表明,融合显式3D特征显著提升了性能,且基于点的标记结构在巧妙采样和排序下可与基于视频的结构媲美。
  • Conclusion: 本文的关键贡献在于对3D标记结构的系统分析,同时强调了多种子结果平均的透明报告方法对领域稳健发展的重要性。

[57] MoralCLIP: Contrastive Alignment of Vision-and-Language Representations with Moral Foundations Theory

Ana Carolina Condez,Diogo Tavares,João Magalhães

Main category: cs.CV

TL;DR: MoralCLIP是一种新的嵌入表示方法,通过基于道德基础理论(MFT)的多模态学习,填补了现有视觉语言模型在道德维度理解上的空白。

  • Motivation: 现有视觉语言模型缺乏对内容道德维度的理解和推理能力,而这是人类认知的关键方面。
  • Method: MoralCLIP通过整合视觉和文本道德线索到统一的嵌入空间,实现跨模态道德对齐,并基于Social-Moral Image Database数据集进行训练。
  • Result: 实验表明,显式的道德监督提高了单模态和多模态对道德内容的理解能力。
  • Conclusion: MoralCLIP为具备道德意识的AI系统奠定了基础,能够识别并与人类道德价值观对齐。

[58] Token Transforming: A Unified and Training-Free Token Compression Framework for Vision Transformer Acceleration

Fanhu Zeng,Deli Yu,Zhenglun Kong,Hao Tang

Main category: cs.CV

TL;DR: 本文提出了一种通用的Token Transforming框架,统一了现有的token压缩方法,减少了信息损失,并实现了无需训练的加速。

  • Motivation: 由于视觉Transformer计算成本高,现有token压缩方法(如剪枝或合并)导致信息丢失且需后训练恢复性能。
  • Method: 将token压缩统一为显式的token矩阵变换,提出多对多的Token Transforming框架,保留更多信息并支持免训练加速。
  • Result: 实验表明,该方法减少40% FLOPs,加速DeiT-S 1.5倍,仅损失0.1%准确率,并在密集预测任务中表现优异。
  • Conclusion: 该方法提供了更好的计算-性能权衡,显著降低计算成本并加速推理。

[59] You Only Estimate Once: Unified, One-stage, Real-Time Category-level Articulated Object 6D Pose Estimation for Robotic Grasping

Jingshun Huang,Haitao Lin,Tianyu Wang,Yanwei Fu,Yu-Gang Jiang,Xiangyang Xue

Main category: cs.CV

TL;DR: 论文提出了一种单阶段方法YOEO,用于机器人任务中关节物体的类别级姿态估计,解决了多阶段方法的高计算成本和低实时性问题。

  • Motivation: 解决现有类别级姿态估计方法在机器人任务中计算成本高、实时性差的问题。
  • Method: 使用统一网络生成点级语义标签和质心偏移,结合聚类算法区分实例,并通过分离NPCS区域恢复姿态和大小。
  • Result: 在GAPart数据集上验证了姿态估计能力,并在真实环境中实现了200Hz的实时反馈。
  • Conclusion: YOEO方法高效且实用,适用于机器人交互任务。

[60] Investigating the Relationship between Weighted Figure of Merit and Rosin's Measure

Bimal Kumar Ray

Main category: cs.CV

TL;DR: 论文探讨了多边形近似中两种评估指标(加权FOM和Rosin指标)的关系,通过理论、实验和统计分析证明两者独立,不能互相替代。

  • Motivation: 解决多边形近似评估中指标选择的问题,明确加权FOM和Rosin指标是否可互换。
  • Method: 通过理论分析、实验验证和统计相关性(Pearson系数)研究两种指标的关系。
  • Result: 理论证明和实验均表明两种指标独立且不相关。
  • Conclusion: 加权FOM不能替代Rosin指标,两者结论不一致。

[61] Where Is The Ball: 3D Ball Trajectory Estimation From 2D Monocular Tracking

Puntawat Ponglertnapakorn,Supasorn Suwajanakorn

Main category: cs.CV

TL;DR: 提出了一种从2D跟踪序列估计3D球轨迹的方法,通过LSTM管道和规范3D表示解决2D到3D的模糊性问题,并在合成和真实数据上验证了其性能。

  • Motivation: 解决从2D跟踪序列估计3D球轨迹时的模糊性问题,并实现跨视角的泛化能力。
  • Method: 设计了基于LSTM的管道,采用独立于相机位置的规范3D表示和中间表示,确保不变性和重投影一致性。
  • Result: 在合成和真实数据集上表现优异,仅用模拟数据训练即可泛化到真实场景,达到最先进水平。
  • Conclusion: 该方法在运动分析和虚拟重放等领域具有广泛应用前景。

[62] Do Large Vision-Language Models Distinguish between the Actual and Apparent Features of Illusions?

Taiga Shinozaki,Tomoki Doi,Satoshi Nishida,Hitomi Yanaka

Main category: cs.CV

TL;DR: 研究探讨大型视觉语言模型(LVLMs)是否像人类一样容易受到视觉错觉的影响,并引入了一个新的视觉问答(VQA)数据集来区分真实和虚假错觉。

  • Motivation: 人类易受视觉错觉影响,但机器是否也有类似特性尚不明确。研究旨在填补这一空白。
  • Method: 构建了一个包含真实和虚假错觉的VQA数据集,并评估LVLMs的表现。
  • Result: LVLMs对真实和虚假错觉的回答相同,表明其可能依赖先验知识而非真实视觉理解。
  • Conclusion: LVLMs可能并未真正理解视觉错觉,数据集为未来研究提供了工具。

[63] Robust sensor fusion against on-vehicle sensor staleness

Meng Fan,Yifan Zuo,Patrick Blaes,Harley Montgomery,Subhasis Das

Main category: cs.CV

TL;DR: 提出了一种解决传感器数据延迟问题的新方法,通过时间戳偏移特征和数据增强策略,提升了自动驾驶感知系统的性能。

  • Motivation: 传感器数据延迟导致的时间错位会影响自动驾驶车辆感知系统的性能,尤其是轨迹预测的准确性,这对安全性至关重要。
  • Method: 1. 为LiDAR和雷达数据引入相对于相机的时间戳偏移特征;2. 使用数据增强模拟实际部署中的传感器延迟模式。
  • Result: 与传统模型相比,新方法在传感器数据同步和延迟情况下均表现稳定,性能显著提升。
  • Conclusion: 该方法能有效解决传感器数据延迟问题,提升自动驾驶感知系统的鲁棒性和性能。

[64] GazeNLQ @ Ego4D Natural Language Queries Challenge 2025

Wei-Cheng Lin,Chih-Ming Lien,Chen Lo,Chia-Hung Yeh

Main category: cs.CV

TL;DR: GazeNLQ利用注视信息增强视频表示,通过对比学习预训练策略提升自然语言查询的视频片段检索性能。

  • Motivation: 注视信息反映视觉注意力和人类意图,可用于提升视频检索的准确性。
  • Method: 提出基于对比学习的注视估计预训练策略,并将估计的注视信息用于增强视频表示。
  • Result: 在[email protected][email protected]上分别达到27.82和18.68的分数。
  • Conclusion: GazeNLQ通过注视信息显著提升了视频片段检索的准确性。

[65] EASG-Bench: Video Q&A Benchmark with Egocentric Action Scene Graphs

Ivan Rodin,Tz-Ying Wu,Kyle Min,Sharath Nittur Sridhar,Antonino Furnari,Subarna Tripathi,Giovanni Maria Farinella

Main category: cs.CV

TL;DR: EASG-Bench是一个基于自我中心视频的问答基准,通过时空动态场景图生成问题-答案对,评估语言模型和视频大语言模型的性能,发现其在时序问题上的差距。

  • Motivation: 填补长上下文视频理解领域的研究空白,提供系统化的评估框架。
  • Method: 利用动态场景图生成问答对,评估语言模型和视频大语言模型的性能。
  • Result: 发现语言模型和视频大语言模型在时序问题上的性能差距。
  • Conclusion: 提出研究空白,开源基准和代码以促进进一步研究。

[66] LLIA -- Enabling Low-Latency Interactive Avatars: Real-Time Audio-Driven Portrait Video Generation with Diffusion Models

Haojie Yu,Zhaonian Wang,Yihan Pan,Meng Cheng,Hao Yang,Chao Wang,Tao Xie,Xiaoming Xu,Xiaoming Wei,Xunliang Cai

Main category: cs.CV

TL;DR: 提出了一种基于扩散模型的音频驱动肖像视频生成框架,通过优化生成速度、实时性和稳定性,实现低延迟、高保真度的交互式虚拟人生成。

  • Motivation: 扩散模型在虚拟人生成中表现优异,但计算需求高,难以满足实时交互应用的低延迟要求。
  • Method: 提出可变长度视频生成、一致性模型训练策略、模型量化和管道并行,以及针对长视频的推理策略,并结合类标签和细粒度表情控制。
  • Result: 在NVIDIA RTX 4090D上,模型在384x384分辨率下达到78 FPS,512x512分辨率下达到45 FPS,初始生成延迟分别为140 ms和215 ms。
  • Conclusion: 该框架在保持高质量输出的同时,实现了实时性能和低延迟,适用于双向交互式虚拟人应用。

[67] NTIRE 2025 Challenge on HR Depth from Images of Specular and Transparent Surfaces

Pierluigi Zama Ramirez,Fabio Tosi,Luigi Di Stefano,Radu Timofte,Alex Costanzino,Matteo Poggi,Samuele Salti,Stefano Mattoccia,Zhe Zhang,Yang Yang,Wu Chen,Anlong Ming,Mingshuai Zhao,Mengying Yu,Shida Gao,Xiangfeng Wang,Feng Xue,Jun Shi,Yong Yang,Yong A,Yixiang Jin,Dingzhe Li,Aryan Shukla,Liam Frija-Altarac,Matthew Toews,Hui Geng,Tianjiao Wan,Zijian Gao,Qisheng Xu,Kele Xu,Zijian Zang,Jameer Babu Pinjari,Kuldeep Purohit,Mykola Lavreniuk,Jing Cao,Shenyi Li,Kui Jiang,Junjun Jiang,Yong Huang

Main category: cs.CV

TL;DR: NTIRE 2025挑战赛聚焦高分辨率与非朗伯表面的深度估计,分立体和单图像两个赛道,吸引177名参与者,最终8个团队提交模型。

  • Motivation: 解决深度估计领域的高分辨率与非朗伯表面两大开放性问题。
  • Method: 通过立体和单图像两个赛道进行深度估计挑战。
  • Result: 177名注册者,最终8个团队提交模型。
  • Conclusion: 挑战赛推动了高分辨率与非朗伯表面深度估计的研究。

[68] DeformCL: Learning Deformable Centerline Representation for Vessel Extraction in 3D Medical Image

Ziwei Zhao,Zhixing Zhang,Yuhang Liu,Zhao Zhang,Haojun Yu,Dong Wang,Liwei Wang

Main category: cs.CV

TL;DR: DeformCL提出了一种基于可变形中心线的连续表示方法,用于3D医学影像中的血管提取,解决了传统离散表示的局部断裂和噪声问题。

  • Motivation: 传统基于像素分类的离散表示方法在血管提取中容易产生局部断裂和碎片化,限制了临床诊断的准确性。
  • Method: DeformCL通过可变形中心线点作为节点,捕捉空间关系,提出了一种连续表示方法,并设计了级联训练流程。
  • Result: 在四个3D血管分割数据集上的实验表明,DeformCL在连通性、抗噪性和交互性方面优于传统方法。
  • Conclusion: DeformCL不仅提升了血管提取的准确性,还具有临床意义,代码已开源。

[69] FuseUNet: A Multi-Scale Feature Fusion Method for U-like Networks

Quansong He,Xiangde Min,Kaishen Wang,Tao He

Main category: cs.CV

TL;DR: 论文提出了一种新的多尺度特征融合方法,重新设计了UNet的解码过程,解决了传统跳跃连接的两大局限性。

  • Motivation: 传统UNet的跳跃连接缺乏不同尺度特征的有效交互,且依赖简单的拼接或加法操作,限制了信息整合的效率。
  • Method: 将UNet解码过程视为初始值问题,利用线性多步方法提出自适应常微分方程方法,实现多尺度特征融合。
  • Result: 在多个医学图像分割数据集上验证了方法的有效性,提高了特征利用率并减少了网络参数,同时保持了高性能。
  • Conclusion: 该方法独立于编码器和解码器架构,可适用于各种U-Net类网络,为医学图像分割提供了新思路。

[70] High Throughput Event Filtering: The Interpolation-based DIF Algorithm Hardware Architecture

Marcin Kowalczyk,Tomasz Kryjak

Main category: cs.CV

TL;DR: 论文提出了一种基于FPGA的DIF滤波器硬件架构,用于处理事件视觉传感器中的噪声,并发布了高分辨率事件数据集。其性能优于现有解决方案。

  • Motivation: 事件视觉传感器数据流中存在大量噪声,现有解决方案在噪声处理和高吞吐量方面表现不足。
  • Method: 提出并实现了基于FPGA的DIF滤波器硬件架构,并准备了高分辨率事件数据集进行评估。
  • Result: DIF滤波器在1280x720分辨率下吞吐量为403.39 MEPS,640x480下为428.45 MEPS,AUROC指数为0.844-0.999,优于现有方案。
  • Conclusion: DIF滤波器在噪声处理和高吞吐量方面表现优异,适用于广泛噪声水平。

[71] FontAdapter: Instant Font Adaptation in Visual Text Generation

Myungkyu Koo,Subin Kim,Sangkyung Kwak,Jaehyun Nam,Seojin Kim,Jinwoo Shin

Main category: cs.CV

TL;DR: FontAdapter是一个快速生成未见字体视觉文本的框架,通过两阶段课程学习实现高效定制。

  • Motivation: 现有方法在适应未见字体时计算成本高,难以实时定制,FontAdapter旨在解决这一问题。
  • Method: 采用两阶段课程学习:先学习从孤立字形提取字体属性,再将其融入多样自然背景。
  • Result: FontAdapter在未见字体上无需额外微调即可实现高质量定制,并支持多种字体任务。
  • Conclusion: FontAdapter是一个高效、多功能的字体定制框架。

[72] Cross-View Multi-Modal Segmentation @ Ego-Exo4D Challenges 2025

Yuqian Fu,Runze Wang,Yanwei Fu,Danda Pani Paudel,Luc Van Gool

Main category: cs.CV

TL;DR: 提出了一种跨视角多模态对象分割方法,用于解决Ego-Exo4D挑战赛中的对象对应任务,结合视觉掩码和文本描述提升分割效果,并通过跨视角对齐模块增强鲁棒性。

  • Motivation: 解决不同视角(如ego和exo视图)下对象对应任务中的视觉域差异问题,提升对象定位的准确性。
  • Method: 提出多模态条件融合模块和跨视角对象对齐模块,结合视觉掩码和文本描述作为分割条件,并强制跨视角对象一致性。
  • Result: 在Ego-Exo4D对象对应基准测试中排名第二。
  • Conclusion: 该方法有效提升了跨视角对象分割的鲁棒性和准确性,代码将开源。

[73] ChronoTailor: Harnessing Attention Guidance for Fine-Grained Video Virtual Try-On

Jinjuan Wang,Wenzhang Sun,Ming Li,Yun Zheng,Fanyao Li,Zhulin Tao,Donglin Di,Hao Li,Wei Chen,Xianglin Huang

Main category: cs.CV

TL;DR: ChronoTailor是一种基于扩散模型的视频虚拟试穿框架,通过时空注意力机制保持时间连续性和服装细节,显著优于现有方法。

  • Motivation: 现有视频虚拟试穿方法在保持连续性和服装细节方面存在不足,ChronoTailor旨在解决这些问题。
  • Method: 采用时空注意力机制引导服装特征整合,结合区域感知空间指导和注意力驱动的时间特征融合,同时整合多尺度服装特征和姿态对齐。
  • Result: 实验表明,ChronoTailor在时空连续性和服装细节保持上表现优异,显著超越现有方法。
  • Conclusion: ChronoTailor通过创新的时空注意力机制和多尺度特征整合,实现了高质量的视频虚拟试穿效果。

[74] Improved Allergy Wheal Detection for the Skin Prick Automated Test Device

Rembert Daems,Sven Seys,Valérie Hox,Adam Chaker,Glynnis De Greve,Winde Lemmens,Anne-Lise Poirrier,Eline Beckers,Zuzana Diamant,Carmen Dierickx,Peter W. Hellings,Caroline Huart,Claudia Jerin,Mark Jorissen,Hanne Oscé,Karolien Roux,Mark Thompson,Sophie Tombu,Saartje Uyttebroek,Andrzej Zarowski,Senne Gorris,Laura Van Gerven,Dirk Loeckx,Thomas Demeester

Main category: cs.CV

TL;DR: SPAT设备通过多光照条件图像提升过敏检测准确性,提出结合神经网络和算法的自动化方法。

  • Motivation: 提高皮肤点刺试验(SPT)的检测一致性和准确性,利用SPAT设备的32张多光照图像优化过敏诊断。
  • Method: 设计自动化方法,结合神经网络分割和算法检测,利用868名患者数据训练,10,416个风团手动标注。
  • Result: 在217名患者的验证集上,32张多光照图像比单张常规光照图像显著提高准确性。
  • Conclusion: 多光照条件下的SPAT图像显著优于传统单光照图像,提升过敏检测精度。

[75] CryoFastAR: Fast Cryo-EM Ab Initio Reconstruction Made Easy

Jiakai Zhang,Shouchen Zhou,Haizhao Dai,Xinhang Liu,Peihao Wang,Zhiwen Fan,Yuan Pei,Jingyi Yu

Main category: cs.CV

TL;DR: CryoFastAR是一种几何基础模型,可直接从冷冻电镜噪声图像预测姿态,用于快速从头重建,显著加速了传统迭代方法的推理过程。

  • Motivation: 冷冻电镜中的姿态估计和3D重建仍依赖耗时的迭代优化,主要由于低信噪比和对比传递函数畸变等挑战。
  • Method: 通过整合多视图特征并在大规模模拟冷冻电镜数据上训练,结合渐进式训练策略,逐步提高模型鲁棒性。
  • Result: 实验表明,CryoFastAR在合成和真实数据集上与传统迭代方法相比,质量相当但推理速度显著提升。
  • Conclusion: CryoFastAR为冷冻电镜领域提供了一种快速、准确的姿态估计和3D重建新方法。

[76] Domain-RAG: Retrieval-Guided Compositional Image Generation for Cross-Domain Few-Shot Object Detection

Yu Li,Xingyu Qiu,Yuqian Fu,Jie Chen,Tianwen Qian,Xu Zheng,Danda Pani Paudel,Yanwei Fu,Xuanjing Huang,Luc Van Gool,Yu-Gang Jiang

Main category: cs.CV

TL;DR: Domain-RAG 是一种无需训练的检索引导图像生成框架,用于跨域少样本目标检测(CD-FSOD),通过背景检索、生成和合成,提升样本质量和域一致性。

  • Motivation: 现有方法在跨域少样本目标检测中难以保持视觉真实性和域对齐,Domain-RAG 旨在解决这一问题。
  • Method: Domain-RAG 分为三个阶段:域感知背景检索、域引导背景生成和前景-背景合成。
  • Result: 实验表明,Domain-RAG 在多个任务中表现优异,优于现有基线方法。
  • Conclusion: Domain-RAG 无需额外训练即可生成高质量、域一致的样本,为 CD-FSOD 提供了有效解决方案。

[77] HMVLM: Multistage Reasoning-Enhanced Vision-Language Model for Long-Tailed Driving Scenarios

Daming Wang,Yuhao Song,Zijian He,Kangliang Chen,Xing Pan,Lu Deng,Weihao Gu

Main category: cs.CV

TL;DR: HaoMo Vision-Language Model (HMVLM) 是一个端到端驾驶框架,采用快慢架构的慢分支,结合视觉语言模型生成高层意图,并通过选择性提示、多阶段推理和轨迹后处理提升性能。

  • Motivation: 通过结合视觉语言模型的高层意图生成能力,提升自动驾驶系统的决策效率和安全性。
  • Method: 1. 选择性五视角提示;2. 多阶段链式推理;3. 基于样条的轨迹后处理。
  • Result: 在 Waymo Open Dataset 上训练,RFS 达 7.7367,超越基线 2.77%,在 2025 Waymo E2E 挑战赛中排名第二。
  • Conclusion: HMVLM 通过创新提示和后处理技术,显著提升了自动驾驶系统的性能。

[78] Unleashing the Potential of Consistency Learning for Detecting and Grounding Multi-Modal Media Manipulation

Yiheng Li,Yang Yang,Zichang Tan,Huan Liu,Weihua Chen,Xu Zhou,Zhen Lei

Main category: cs.CV

TL;DR: 提出了一种名为CSCL的新方法,通过捕捉局部内容的一致性来提升多模态媒体篡改检测的细粒度感知能力。

  • Motivation: 现有方法在探索局部内容的细粒度一致性方面不足,导致对篡改细节的感知不充分和结果不可靠。
  • Method: 建立了图像和文本模态的两个分支,每个分支包含两个级联解码器(CCD和SCD),分别捕捉模态内上下文一致性和跨模态语义一致性。
  • Result: 在DGM4数据集上的实验表明,CSCL取得了最先进的性能,尤其是在定位篡改内容方面。
  • Conclusion: CSCL通过细粒度一致性学习,显著提升了多模态媒体篡改检测的性能。

[79] Query Nearby: Offset-Adjusted Mask2Former enhances small-organ segmentation

Xin Zhang,Dongdong Meng,Sheng Li

Main category: cs.CV

TL;DR: 本文提出了一种改进的Mask2Former模型,结合可变形注意力和偏移调整策略,用于医学图像分割,显著提升了中小器官的分割性能。

  • Motivation: 医学图像分割在临床应用中至关重要,但现有方法(如纯Transformer或CNN)在中小器官分割上表现不佳,且计算资源需求高。
  • Method: 采用Mask2Former结合可变形注意力,提出偏移调整策略以优化采样点位置,并利用第4特征图和FCN辅助头加速训练。
  • Result: 在HaNSeg和SegRap2023数据集上达到SOTA性能,尤其在中小器官分割上表现突出。
  • Conclusion: 改进的Mask2Former模型有效解决了医学图像分割中的资源需求和性能问题,适用于临床场景。

[80] Rethinking Semi-supervised Segmentation Beyond Accuracy: Reliability and Robustness

Steven Landgraf,Markus Hillemann,Markus Ulrich

Main category: cs.CV

TL;DR: 论文提出了一种新的评估指标RSS,用于衡量半监督语义分割模型的可靠性、鲁棒性和准确性,填补了当前评估协议仅关注精度的不足。

  • Motivation: 当前半监督分割评估仅关注精度,忽略了可靠性和鲁棒性,而这些对安全关键应用(如自动驾驶)至关重要。
  • Method: 引入Reliable Segmentation Score (RSS)指标,结合预测精度、校准和不确定性质量,通过调和均值计算。
  • Result: 实验表明半监督方法常以牺牲可靠性换取精度,UniMatchV2在鲁棒性上表现良好,但可靠性仍有不足。
  • Conclusion: 建议采用RSS等更全面的评估指标,以更好地满足实际部署需求。

[81] FADE: Frequency-Aware Diffusion Model Factorization for Video Editing

Yixuan Zhu,Haolin Wang,Shilin Ma,Wenliang Zhao,Yansong Tang,Lei Chen,Jie Zhou

Main category: cs.CV

TL;DR: FADE是一种无需训练的视频编辑方法,通过频率感知分解利用预训练视频扩散模型的先验知识,实现高效且高质量的编辑。

  • Motivation: 现有视频扩散模型计算量大,难以直接应用图像编辑技术,且传统方法无法有效处理视频动态性,如运动调整。
  • Method: 通过分析视频模型的注意力模式,揭示视频先验分布,提出分解策略优化组件角色,并结合频谱引导调制优化采样轨迹。
  • Result: 实验表明,FADE能生成高质量、真实且时间一致的编辑结果。
  • Conclusion: FADE通过频率感知分解和频谱引导调制,解决了视频编辑中的计算效率和动态性问题。

[82] MOGO: Residual Quantized Hierarchical Causal Transformer for High-Quality and Real-Time 3D Human Motion Generation

Dongjie Fu,Tengjiao Sun,Pengcheng Fang,Xiaohao Cai,Hansung Kim

Main category: cs.CV

TL;DR: MOGO是一种新型自回归框架,用于高效实时3D动作生成,结合了MoSA-VQ和RQHC-Transformer,显著降低了延迟并提升了生成质量。

  • Motivation: 尽管基于Transformer的文本到动作生成取得了进展,但实现高保真、流式能力、实时响应和可扩展性仍是一个挑战。
  • Method: MOGO包含MoSA-VQ(运动尺度自适应残差向量量化模块)和RQHC-Transformer(残差量化分层因果Transformer),并通过文本条件对齐机制提升语义保真度。
  • Result: 在HumanML3D、KIT-ML和CMP等基准数据集上,MOGO在生成质量上具有竞争力,同时在实时性能、流式生成和零样本泛化方面有显著提升。
  • Conclusion: MOGO在生成质量和实时性能上优于现有方法,为文本到动作生成提供了高效解决方案。

[83] Dy3DGS-SLAM: Monocular 3D Gaussian Splatting SLAM for Dynamic Environments

Mingrui Li,Yiming Zhou,Hongxing Zhou,Xinggang Hu,Florian Roemer,Hongyu Wang,Ahmad Osman

Main category: cs.CV

TL;DR: Dy3DGS-SLAM是一种基于3D高斯点云的动态场景SLAM方法,仅需单目RGB输入,通过融合光流和深度掩码解决动态干扰问题。

  • Motivation: 现有基于NeRF或3D高斯点云的SLAM方法在动态环境中表现不佳,尤其是仅依赖RGB输入时。
  • Method: 融合光流和深度掩码生成动态掩码,设计运动损失约束位姿估计网络,使用渲染损失消除动态干扰。
  • Result: 实验表明Dy3DGS-SLAM在动态环境中实现了最先进的跟踪和渲染性能,优于或匹配现有RGB-D方法。
  • Conclusion: Dy3DGS-SLAM为动态场景SLAM提供了一种高效的单目RGB解决方案。

[84] Domain Adaptation in Agricultural Image Analysis: A Comprehensive Review from Shallow Models to Deep Learning

Xing Hu,Siyuan Chen,Dawei Zhang

Main category: cs.CV

TL;DR: 本文探讨了领域自适应(DA)技术在农业图像分析中的应用,以解决因环境差异、作物类型和数据采集方法导致的领域偏移问题。

  • Motivation: 农业图像分析面临领域差异导致的模型泛化能力不足问题,DA技术有望提升跨领域适应性。
  • Method: 系统综述了DA在农业图像中的浅层和深度学习模型,包括监督、半监督和无监督方法,特别关注对抗学习。
  • Result: DA在作物健康监测、害虫检测和果实识别中表现出性能提升,尤其在复杂农业环境中效果显著。
  • Conclusion: 本文为研究者提供了DA在农业图像分析中的全面框架,指出了当前研究空白并支持未来方法的发展。

[85] MCA-Bench: A Multimodal Benchmark for Evaluating CAPTCHA Robustness Against VLM-based Attacks

Zonglin Wu,Yule Xue,Xin Wei,Yiren Song

Main category: cs.CV

TL;DR: 论文介绍了MCA-Bench,一个统一的多模态CAPTCHA基准测试套件,用于评估其安全性和鲁棒性。

  • Motivation: 现有CAPTCHA方案缺乏统一的、大规模的、多模态的基准测试,难以全面评估其安全性。
  • Method: 通过共享的视觉-语言模型框架,为每种CAPTCHA类型微调专门的破解代理,实现跨模态评估。
  • Result: MCA-Bench揭示了现代CAPTCHA设计的漏洞谱系,并首次量化分析了挑战复杂性、交互深度和模型可解性之间的关系。
  • Conclusion: 提出了三项可行的设计原则,并指出关键开放挑战,为CAPTCHA加固、公平基准测试和社区协作奠定了基础。

[86] Bootstrapping World Models from Dynamics Models in Multimodal Foundation Models

Yifu Qiu,Yftah Ziser,Anna Korhonen,Shay B. Cohen,Edoardo M. Ponti

Main category: cs.CV

TL;DR: 论文研究了视觉与语言基础模型是否具备真实世界模型和动态模型的能力,发现动态模型更容易通过监督学习获得,并提出了两种策略利用动态模型引导世界模型。

  • Motivation: 探讨视觉与语言基础模型在语言表达动作时是否具备真实世界模型和动态模型的能力,并解决开源模型在这两方面的不足。
  • Method: 通过监督学习微调模型获得动态模型,并利用动态模型通过弱监督学习和推理时验证两种策略引导世界模型。
  • Result: 最佳模型在Aurora-Bench上的动作中心图像编辑任务中表现优异,性能提升15%,且在人类评估中表现最佳。
  • Conclusion: 动态模型可以有效地引导世界模型,提升模型在真实世界任务中的表现。

[87] Enhancing Orthopox Image Classification Using Hybrid Machine Learning and Deep Learning Models

Alejandro Puente-Castro,Enrique Fernandez-Blanco,Daniel Rivero,Andres Molares-Ulloa

Main category: cs.CV

TL;DR: 提出了一种结合机器学习和预训练深度学习模型的混合方法,用于从医学图像中高效分类Orthopox病毒感染,无需数据增强。

  • Motivation: 传统诊断方法耗时且依赖专家,数据集少且有偏差,需自动化、可扩展的解决方案。
  • Method: 结合机器学习和预训练深度学习模型提取深度特征表示,避免数据增强。
  • Result: 该方法在分类性能和计算效率上表现优异,具有强泛化性和鲁棒性。
  • Conclusion: 为实际临床部署提供了可扩展且可解释的解决方案。

[88] Restereo: Diffusion stereo video generation and restoration

Xingchang Huang,Ashish Kumar Singh,Florian Dubost,Cristina Nader Vasconcelos,Sakar Khattar,Liang Shi,Christian Theobalt,Cengiz Oztireli,Gurprit Singh

Main category: cs.CV

TL;DR: 本文提出了一种新的立体视频生成与增强方法,通过单一模型同时生成和修复左右视图视频,优于现有方法。

  • Motivation: 现有方法主要关注从高质量单目视频生成立体视频,而本文旨在解决低质量视频的立体生成与修复问题。
  • Method: 通过微调模型以修复退化数据,并结合变形掩码条件实现一致的立体生成。
  • Result: 实验表明,该方法在低分辨率输入下,立体视频生成的质量和数量均优于现有方法。
  • Conclusion: 该方法在小规模合成数据集上微调后,可应用于低质量真实视频,实现立体生成与修复。

[89] O-MaMa @ EgoExo4D Correspondence Challenge: Learning Object Mask Matching between Egocentric and Exocentric Views

Lorenzo Mur-Labadia,Maria Santos-Villafranca,Alejandro Perez-Yus,Jesus Bermudez-Cameo,Ruben Martinez-Cantin,Jose J. Guerrero

Main category: cs.CV

TL;DR: 将跨图像分割重新定义为掩码匹配任务,提出了一种结合掩码上下文编码器、跨视角注意力、对比损失和负样本挖掘的方法。

  • Motivation: 解决跨视角下特定对象的分割问题,提升对象级表示的区分性。
  • Method: 1. 掩码上下文编码器提取对象特征;2. 跨视角注意力融合多视角信息;3. 对比损失对齐特征;4. 负样本挖掘提升区分能力。
  • Result: 实现了跨视角对象分割的掩码匹配任务。
  • Conclusion: 方法有效提升了跨视角对象分割的性能。

[90] Sample-Specific Noise Injection For Diffusion-Based Adversarial Purification

Yuhao Sun,Jiacheng Zhang,Zesheng Ye,Chaowei Xiao,Feng Liu

Main category: cs.CV

TL;DR: 本文提出了一种基于样本特定的分数感知噪声注入(SSNI)框架,通过自适应调整噪声水平,显著提高了基于扩散的净化方法的准确性和鲁棒性。

  • Motivation: 现有方法对所有样本使用固定的噪声水平,而研究发现不同样本需要不同的噪声水平,尤其是清洁样本需要更少的噪声。
  • Method: SSNI利用预训练的分数网络估计样本与清洁数据分布的偏差(分数范数),并通过重加权函数自适应调整每个样本的噪声水平。
  • Result: 在CIFAR-10和ImageNet-1K数据集上,SSNI显著提升了现有方法的准确性和鲁棒性。
  • Conclusion: 研究表明,为不同样本分配不同的噪声水平是基于扩散的净化方法的关键改进方向。

[91] HAVIR: HierArchical Vision to Image Reconstruction using CLIP-Guided Versatile Diffusion

Shiyi Zhang,Dong Liang,Hairong Zheng,Yihang Zhou

Main category: cs.CV

TL;DR: HAVIR通过融合AutoKL和CLIP适配器,从fMRI数据中重建复杂视觉刺激的结构和语义信息,优于现有模型。

  • Motivation: 解决从fMRI数据中准确重建复杂视觉刺激的挑战,包括元素密度、多样性和多层面语义信息。
  • Method: HAVIR包含两个适配器:AutoKL适配器将fMRI体素转换为潜在扩散先验,捕捉拓扑结构;CLIP适配器将体素转换为CLIP文本和图像嵌入,融合语义信息。
  • Result: 实验表明,HAVIR在复杂场景中有效重建视觉刺激的结构和语义信息,优于现有模型。
  • Conclusion: HAVIR通过互补表示融合,显著提升了从fMRI数据重建复杂视觉刺激的能力。

[92] Tensor-to-Tensor Models with Fast Iterated Sum Features

Joscha Diehl,Rasheed Ibraheem,Leonard Schmitz,Yue Wu

Main category: cs.CV

TL;DR: 提出了一种基于“角树”数学工具的张量到张量层(FIS层),具有线性计算成本,适用于图像和高阶张量数据处理,并在分类和异常检测任务中验证了其有效性。

  • Motivation: 现代深度学习应用中,图像和高阶张量数据的高维度特性需要次二次方的处理层,而现有方法难以满足这一需求。
  • Method: 利用“角树”数学工具设计线性成本的张量到张量层(FIS层),并将其集成到神经网络中。
  • Result: 在分类任务中,FIS层替换部分ResNet层后,性能接近更大模型(差异仅0.1%),同时减少了参数和计算量;在异常检测任务中,AUROC达到97.3%。
  • Conclusion: FIS层是一种高效且通用的张量处理工具,适用于多种深度学习任务。

[93] SDS-Net: Shallow-Deep Synergism-detection Network for infrared small target detection

Taoran Yue,Xiaojin Lu,Jiaxi Cai,Yuanping Chen,Shibing Chu

Main category: cs.CV

TL;DR: 本文提出了一种浅层-深层协同检测网络(SDS-Net),通过双分支架构和自适应特征融合模块,解决了红外小目标检测中浅层与深层特征协作不足的问题,显著提升了检测精度和计算效率。

  • Motivation: 当前基于CNN的红外小目标检测方法忽视了浅层与深层特征的异质性,导致特征协作不足,且缺乏对跨层次特征依赖关系的系统建模,限制了检测性能。
  • Method: 提出SDS-Net,采用双分支架构分别建模结构特征和语义特征,并引入自适应特征融合模块动态建模跨层特征相关性。
  • Result: 在三个公开数据集上的实验表明,SDS-Net在检测精度和计算效率上均优于现有方法。
  • Conclusion: SDS-Net通过高效的特征建模和融合机制,显著提升了红外小目标检测的性能,具有广泛的应用前景。

[94] Full Conformal Adaptation of Medical Vision-Language Models

Julio Silva-Rodríguez,Leo Fillioux,Paul-Henry Cournède,Maria Vakalopoulou,Stergios Christodoulidis,Ismail Ben Ayed,Jose Dolz

Main category: cs.CV

TL;DR: 该论文研究了视觉语言模型(VLM)在医学图像分析中的可靠性,提出了一种新的全适应共形预测框架,结合SS-Text方法,显著提升了性能。

  • Motivation: 尽管VLM在医学图像分析中表现出强大的判别能力,但其可靠性尚未被充分研究。论文旨在解决这一问题。
  • Method: 提出了全适应共形预测框架,结合SS-Text方法,利用少量样本进行适应和共形化。
  • Result: 在9个适应任务中,框架在保持相同覆盖保证的同时,将集合效率相对提升了27%。
  • Conclusion: 该框架为VLM在医学图像分析中的可靠性提供了有效解决方案,且无需额外数据。

[95] WisWheat: A Three-Tiered Vision-Language Dataset for Wheat Management

Bowen Yuan,Selena Song,Javier Fernandez,Yadan Luo,Mahsa Baktashmotlagh,Zijian Wang

Main category: cs.CV

TL;DR: WisWheat是一个针对小麦管理的三层数据集,通过微调开源视觉语言模型(VLMs),显著提升了小麦管理任务的性能。

  • Motivation: 传统小麦管理依赖人工专家检查,成本高且难以扩展,而现有VLMs因缺乏领域知识导致性能不佳。
  • Method: 提出WisWheat数据集,包含三个层次:基础预训练数据、定量数据集和指令微调数据集,用于增强VLMs在小麦管理任务中的表现。
  • Result: 微调后的Qwen2.5 VL 7B模型在小麦压力和生长阶段任务中分别达到79.2%和84.6%的准确率,优于GPT-4o。
  • Conclusion: WisWheat数据集有效提升了VLMs在小麦管理任务中的性能,为农业智能化提供了可行方案。

[96] Feedback Guidance of Diffusion Models

Koulischer Felix,Handke Florian,Deleu Johannes,Demeester Thomas,Ambrogioni Luca

Main category: cs.CV

TL;DR: FBG提出了一种基于反馈的动态引导方法,优于CFG和LIG,适用于图像和文本生成。

  • Motivation: CFG在条件扩散模型中可能损害多样性和导致记忆化,因其固定引导量。
  • Method: FBG通过状态依赖系数动态调节引导量,基于条件信号的信息量反馈。
  • Result: 在ImageNet512x512上显著优于CFG,与LIG竞争,且适用于复杂文本提示。
  • Conclusion: FBG挑战了固定引导量的观点,提供了一种数学框架支持的动态调节方法。

[97] VideoChat-A1: Thinking with Long Videos by Chain-of-Shot Reasoning

Zikang Wang,Boyu Chen,Zhengrong Yue,Yi Wang,Yu Qiao,Limin Wang,Yali Wang

Main category: cs.CV

TL;DR: VideoChat-A1提出了一种新的长视频理解范式,通过链式镜头推理逐步选择相关镜头,模仿人类思考过程,显著提升了长视频问答性能。

  • Motivation: 现有MLLMs擅长分析短视频,但在长视频理解上表现不佳,主要因为忽略了长视频由多个镜头组成的关键事实,导致冗余或噪声上下文。
  • Method: VideoChat-A1采用链式镜头推理,逐步选择相关镜头并进行粗到细的分区,通过多模态推理模仿人类逐步思考。
  • Result: 在主流长视频QA基准测试中,VideoChat-A1表现最佳,如VideoMME(77.0)和EgoSchema(70.1),显著优于基线模型。
  • Conclusion: VideoChat-A1通过链式镜头推理有效解决了长视频理解问题,性能优于现有方法,且效率更高。

[98] Bidirectional Image-Event Guided Low-Light Image Enhancement

Zhanwen Liu,Huanna Song,Yang Wang,Nan Yang,Shangyu Xie,Yisheng An,Xiangmo Zhao

Main category: cs.CV

TL;DR: 论文提出了一种双向引导的低光图像增强框架(BiLIE),通过频率高通滤波和双向交叉注意力融合机制,解决了传统方法中低频噪声和事件数据稀疏性问题,并在新数据集RELIE上验证了其优越性。

  • Motivation: 传统帧相机在极低光条件下存在动态范围和时间分辨率不足的问题,导致图像细节丢失和运动模糊。现有事件相机方法忽略了全局低频噪声和局部结构不连续性的影响。
  • Method: 提出BiLIE框架,包括事件特征增强(EFE)模块和双向交叉注意力融合(BCAF)机制,分别抑制低频噪声和优化稀疏事件数据的结构连续性。
  • Result: 实验表明,BiLIE在PSNR和LPIPS指标上分别优于现有方法0.96dB和0.03。
  • Conclusion: BiLIE通过创新设计有效解决了低光图像增强中的噪声和结构问题,并在新数据集上验证了其性能优势。

[99] CCLSTM: Coupled Convolutional Long-Short Term Memory Network for Occupancy Flow Forecasting

Peter Lengyel

Main category: cs.CV

TL;DR: 论文提出了一种轻量级的Coupled Convolutional LSTM(CCLSTM)架构,用于预测动态代理的未来状态,解决了现有方法依赖高质量向量化输入和计算密集型Transformer的问题。

  • Motivation: 现有方法依赖高质量向量化输入和计算密集型Transformer架构,实际应用中难以满足,因此需要一种更轻量且高效的解决方案。
  • Method: 提出CCLSTM,基于纯卷积操作的轻量级架构,无需向量化输入或自注意力机制,通过紧凑的循环卷积结构捕捉时空动态。
  • Result: CCLSTM在占用流指标上达到最先进性能,并在2024 Waymo挑战赛中所有指标排名第一。
  • Conclusion: CCLSTM是一种高效且实用的解决方案,适用于自动驾驶中的未来状态预测任务。

[100] CLaMR: Contextualized Late-Interaction for Multimodal Content Retrieval

David Wan,Han Wang,Elias Stengel-Eskin,Jaemin Cho,Mohit Bansal

Main category: cs.CV

TL;DR: CLaMR是一种多模态检索系统,动态选择最佳模态组合以提升视频内容检索效果,显著优于传统方法。

  • Motivation: 在线视频内容多模态特性未被充分利用,传统检索系统独立处理各模态导致性能不佳。
  • Method: 提出CLaMR,联合编码视频帧、语音、屏幕文本和元数据,并通过MultiVENT 2.0++数据集和模态感知损失训练动态模态选择。
  • Result: 在MultiVENT 2.0++和MSRVTT测试集上,CLaMR显著优于单模态和多模态基线检索器,nDCG@10提升25.6和35.4。
  • Conclusion: CLaMR在多模态视频检索中表现优异,并在长视频问答等下游任务中验证了其有效性。

[101] A Novel Large-scale Crop Dataset and Dual-stream Transformer Method for Fine-grained Hierarchical Crop Classification from Integrated Hyperspectral EnMAP Data and Multispectral Sentinel-2 Time Series

Wenyuan Li,Shunlin Liang,Yuxiang Zhang,Liqin Liu,Keyan Chen,Yongzhe Chen,Han Ma,Jianglei Xu,Yichuan Ma,Shikang Guan,Zhenwei Shi

Main category: cs.CV

TL;DR: 论文提出了一种结合高光谱和多时相卫星数据的双流Transformer架构,用于细粒度作物分类,并通过实验验证了其优越性。

  • Motivation: 解决细粒度作物分类中高光谱数据获取困难和标注成本高的问题,结合多时相和高光谱数据提升分类精度。
  • Method: 构建H2Crop数据集,提出双流Transformer架构,分别处理高光谱和多时相数据,并通过层次分类头融合结果。
  • Result: 实验显示加入高光谱数据使F1分数平均提升4.2%,最高达6.3%,优于现有深度学习方法。
  • Conclusion: 高光谱数据对细粒度作物分类有显著提升,提出的方法在多种场景下表现优越。

[102] Technical Report for Egocentric Mistake Detection for the HoloAssist Challenge

Constantin Patsch,Marsil Zakour,Yuankai Wu,Eckehard Steinbach

Main category: cs.CV

TL;DR: 提出了一种在线错误检测框架,结合了程序性和执行性错误检测,并利用大语言模型生成反馈,实验验证了其有效性。

  • Motivation: 在线错误检测在工业自动化和教育等领域至关重要,但现有方法主要关注程序性错误,需扩展以应对更广泛的错误类型。
  • Method: 引入了一个在线错误检测框架,能够处理程序性和执行性错误,并利用大语言模型生成解释性反馈。
  • Result: 在HoloAssist基准测试中,该方法在错误检测任务中排名第二,验证了其有效性。
  • Conclusion: 该框架为实时错误检测提供了更全面的解决方案,尤其在需要即时反馈的场景中具有潜力。

[103] SatelliteFormula: Multi-Modal Symbolic Regression from Remote Sensing Imagery for Physics Discovery

Zhenyu Yu,Mohd. Yamani Idna Idris,Pei Wang,Yuelong Xia,Fei Ma,Rizwan Qureshi

Main category: cs.CV

TL;DR: SatelliteFormula是一种新型符号回归框架,直接从多光谱遥感图像中推导出物理可解释的表达式。

  • Motivation: 传统经验指数或黑盒学习模型无法满足对多光谱数据的高维复杂性和物理可解释性的需求。
  • Method: 结合Vision Transformer编码器和物理引导约束,通过符号优化器平衡精度与物理合理性。
  • Result: 在基准数据集和遥感任务中表现出优越的性能、稳定性和泛化能力。
  • Conclusion: SatelliteFormula填补了数据驱动学习与物理理解之间的鸿沟,实现了复杂环境变量的可解释建模。

[104] STSBench: A Spatio-temporal Scenario Benchmark for Multi-modal Large Language Models in Autonomous Driving

Christian Fruhwirth-Reisinger,Dušan Malić,Wei Lin,David Schinagl,Samuel Schulter,Horst Possegger

Main category: cs.CV

TL;DR: STSBench是一个基于场景的框架,用于评估自动驾驶中视觉语言模型(VLMs)的整体理解能力。它通过真实标注自动挖掘交通场景,生成多项选择题进行模型评估,并揭示现有模型在复杂环境中时空推理能力的不足。

  • Motivation: 现有基准测试主要针对单视角图像或视频的语义任务,缺乏对多视角、多帧场景下VLMs时空推理能力的评估。STSBench填补了这一空白,旨在推动更鲁棒和可解释的自动驾驶VLMs发展。
  • Method: STSBench从数据集中自动挖掘预定义交通场景,提供用户界面进行人工验证,并生成多项选择题。应用于NuScenes数据集,创建STSnu基准,评估VLMs在多视角视频或LiDAR数据中的时空推理能力。
  • Result: STSnu包含43个多样场景和971个人工验证问题,发现现有模型在复杂交通动态推理方面存在显著不足。
  • Conclusion: STSBench填补了时空评估的核心空白,揭示了现有模型的局限性,强调了改进时空推理架构的紧迫性,为自动驾驶VLMs的发展提供了重要工具。

[105] GenIR: Generative Visual Feedback for Mental Image Retrieval

Diji Yang,Minghao Liu,Chung-Hsiang Lo,Yi Zhang,James Davis

Main category: cs.CV

TL;DR: 论文提出Mental Image Retrieval (MIR)任务,通过多轮交互检索用户心中的图像,并提出了GenIR方法,利用生成式视觉反馈提升检索效果。

  • Motivation: 现实中的图像搜索是多轮交互过程,而现有方法依赖抽象反馈,效果不佳。
  • Method: 提出GenIR,基于扩散模型生成视觉反馈,提供直观的查询优化。
  • Result: GenIR在多轮MIR任务中显著优于现有方法。
  • Conclusion: 该工作为MIR任务提供了数据集和方法基础,推动了未来研究。

[106] Challenging Vision-Language Models with Surgical Data: A New Dataset and Broad Benchmarking Study

Leon Mayer,Tim Rädsch,Dominik Michael,Lucas Luttner,Amine Yamlahi,Evangelia Christodoulou,Patrick Godau,Marcel Knopp,Annika Reinke,Fiona Kolbinger,Lena Maier-Hein

Main category: cs.CV

TL;DR: 该论文研究了视觉语言模型(VLMs)在内窥镜任务中的表现,发现其在基础感知任务上表现良好,但在需要医学知识的任务上表现不佳,且专业医疗VLMs目前不如通用模型。

  • Motivation: 评估VLMs在内窥镜任务中的能力,特别是在腹腔镜手术中的应用,以推动下一代内窥镜AI系统的发展。
  • Method: 使用多种先进模型、手术数据集和人工标注,研究VLMs在基础感知和高级场景理解任务中的表现,并比较专业与通用模型的差异。
  • Result: VLMs在基础任务(如物体计数和定位)上表现良好,但在需要医学知识的任务上表现显著下降;专业医疗VLMs表现不如通用模型。
  • Conclusion: 需进一步优化VLMs以应对手术环境的复杂性,为内窥镜AI系统的发展提供重要见解。

[107] Optimizing Cloud-to-GPU Throughput for Deep Learning With Earth Observation Data

Akram Zaytar,Caleb Robinson,Girmaw Abebe Tadesse,Tammy Glazer,Gilles Hacheme,Anthony Ortiz,Rahul M Dodhia,Juan M Lavista Ferres

Main category: cs.CV

TL;DR: 论文研究了如何优化从云存储和本地SSD加载GeoTIFF文件的性能,通过调整数据加载配置显著提升了训练效率。

  • Motivation: 由于标准PyTorch数据加载器在直接从云存储加载GeoTIFF文件时无法充分利用现代GPU,需要优化数据加载性能。
  • Method: 通过系统测试不同加载配置和数据参数,使用贝叶斯优化找到最优设置,重点关注分块对齐读取和工作线程池。
  • Result: 优化配置使远程数据加载吞吐量提升20倍,本地吞吐量提升4倍,训练模型在相同时间内达到与本地训练相同的精度。
  • Conclusion: 优化后的远程加载配置显著提升了GPU利用率和模型性能,代码已开源。

[108] Visual Graph Arena: Evaluating Visual Conceptualization of Vision and Multimodal Large Language Models

Zahra Babaiee,Peyman M. Kiasari,Daniela Rus,Radu Grosu

Main category: cs.CV

TL;DR: 论文介绍了Visual Graph Arena(VGA),一个用于评估和改进AI系统视觉抽象能力的图数据集,揭示了当前AI模型在视觉理解上的局限性。

  • Motivation: 解决多模态大语言模型在视觉问答中缺乏‘概念化’能力的问题,即识别和推理同一概念的能力。
  • Method: 使用六种基于图的任务,测试AI系统在不同视觉形式下的推理能力。
  • Result: 人类表现接近完美,而AI模型在部分任务中完全失败,显示出伪智能模式匹配而非真正理解。
  • Conclusion: VGA为提升AI视觉模型的概念化能力提供了框架,突显了当前模型的根本局限性。

[109] Bridging Perspectives: A Survey on Cross-view Collaborative Intelligence with Egocentric-Exocentric Vision

Yuping He,Yifei Huang,Guo Chen,Lidong Lu,Baoqi Pei,Jilan Xu,Tong Lu,Yoichi Sato

Main category: cs.CV

TL;DR: 这篇综述探讨了从自我中心(第一人称)和外部中心(第三人称)视角结合的视频理解研究,总结了应用、任务、方法、数据集及未来方向。

  • Motivation: 人类通过双视角认知动态环境,机器结合这两种视角的潜力成为视频理解的重要研究方向。
  • Method: 系统梳理了三个研究方向:利用自我中心数据增强外部中心理解、利用外部中心数据改进自我中心分析,以及联合学习框架。
  • Result: 总结了相关任务、方法、数据集,并分析了当前研究的局限性。
  • Conclusion: 通过整合双视角的见解,推动视频理解和人工智能的发展,使机器更接近人类感知世界的方式。

[110] BecomingLit: Relightable Gaussian Avatars with Hybrid Neural Shading

Jonathan Schmidt,Simon Giebenhain,Matthias Niessner

Main category: cs.CV

TL;DR: BecomingLit是一种重建可重光照、高分辨率头部化身的新方法,支持从新视角交互式渲染。

  • Motivation: 现有方法在重光照和动画控制方面存在不足,需要一种低成本、高效的方法来捕捉和重建头部化身。
  • Method: 提出了一种低成本的光舞台捕捉设置,结合3D高斯基元和参数化头部模型,以及混合神经着色方法。
  • Result: 在实验中显著优于现有方法,实现了高质量的重光照和动画控制。
  • Conclusion: BecomingLit为头部化身的重建和动画提供了高效且高质量的解决方案。

[111] Movie Facts and Fibs (MF2): A Benchmark for Long Movie Understanding

Emmanouil Zaranis,António Farinhas,Saul Santos,Beatriz Canaverde,Miguel Moura Ramos,Aditya K Surikuchi,André Viveiros,Baohao Liao,Elena Bueno-Benito,Nithin Sivakumaran,Pavlo Vasylenko,Shoubin Yu,Sonal Sannigrahi,Wafaa Mohammed,Ben Peters,Danae Sánchez Villegas,Elias Stengel-Eskin,Giuseppe Attanasio,Jaehong Yoon,Stella Frank,Alessandro Suglia,Chrysoula Zerva,Desmond Elliott,Mariella Dimiccoli,Mohit Bansal,Oswald Lanz,Raffaella Bernardi,Raquel Fernández,Sandro Pezzelle,Vlad Niculae,André F. T. Martins

Main category: cs.CV

TL;DR: MF2是一个新的基准测试,用于评估模型是否能从全长电影中理解、整合和回忆关键叙事信息。

  • Motivation: 当前视觉语言模型(VLMs)在长视频内容理解上存在局限,现有基准测试多关注细节或依赖半自动生成的问题,未能反映真实理解。
  • Method: 引入MF2基准,包含50多部开放许可的全长电影,每部电影配对手工构建的真实和虚假声明对,共850对,采用二元声明评估协议。
  • Result: 实验表明,现有模型表现远低于人类水平,突显人类在关键叙事信息保留和推理上的优势。
  • Conclusion: MF2为评估模型对长视频内容的深度理解提供了新标准,揭示了当前VLMs的不足。

[112] STARFlow: Scaling Latent Normalizing Flows for High-resolution Image Synthesis

Jiatao Gu,Tianrong Chen,David Berthelot,Huangjie Zheng,Yuyang Wang,Ruixiang Zhang,Laurent Dinh,Miguel Angel Bautista,Josh Susskind,Shuangfei Zhai

Main category: cs.CV

TL;DR: STARFlow是一种基于归一化流的可扩展生成模型,结合了Transformer自回归流的表达能力与结构化建模能力,在高分辨率图像合成中表现优异。

  • Motivation: 探索归一化流在高分辨率图像合成中的潜力,结合Transformer的自回归特性以提升模型表现。
  • Method: 1. 提出TARFlow,结合归一化流与自回归Transformer;2. 采用深度-浅层设计;3. 在预训练自编码器的潜在空间建模;4. 引入新的引导算法。
  • Result: 在类别条件和文本条件图像生成任务中表现优异,接近扩散模型的样本质量。
  • Conclusion: STARFlow首次证明归一化流在大规模高分辨率任务中的有效性。

[113] ExAct: A Video-Language Benchmark for Expert Action Analysis

Han Yi,Yulu Pan,Feihong He,Xinyu Liu,Benjamin Zhang,Oluwatumininu Oguntola,Gedas Bertasius

Main category: cs.CV

TL;DR: ExAct是一个新的视频-语言基准测试,专注于专家级物理人类活动的理解,包含3521个专家策划的视频问答对,覆盖6个领域。现有VLMs表现远低于人类专家。

  • Motivation: 开发一个能够评估和理解人类技能的视频-语言模型,填补现有基准测试在专家级物理活动理解上的不足。
  • Method: 构建ExAct基准测试,包含11种物理活动的视频问答对,要求从五个候选答案中选择正确答案。
  • Result: GPT-4o在ExAct上的准确率为44.70%,远低于人类专家的82.02%。
  • Conclusion: ExAct有助于开发和评估能够精确理解人类技能的VLMs。

[114] CoMemo: LVLMs Need Image Context with Image Memory

Shi Liu,Weijie Su,Xizhou Zhu,Wenhai Wang,Jifeng Dai

Main category: cs.CV

TL;DR: 论文提出CoMemo架构和RoPE-DHR位置编码机制,解决了大型视觉语言模型中的注意力分配不均和2D结构关系丢失问题,并在多个基准测试中表现优异。

  • Motivation: 现有大型视觉语言模型(LVLM)继承了大型语言模型(LLM)的设计,导致多模态处理中的注意力分配不均和2D结构关系丢失问题。
  • Method: 提出CoMemo双路径架构(上下文图像路径和图像记忆路径)和RoPE-DHR位置编码机制(基于缩略图的位置聚合)。
  • Result: 在七个基准测试中(包括长上下文理解、多图像推理和视觉问答),CoMemo表现优于传统LVLM架构。
  • Conclusion: CoMemo和RoPE-DHR有效解决了LVLM中的视觉信息忽略和2D结构关系丢失问题,提升了多模态处理性能。

[115] TerraFM: A Scalable Foundation Model for Unified Multisensor Earth Observation

Muhammad Sohail Danish,Muhammad Akhtar Munir,Syed Roshaan Ali Shah,Muhammad Haris Khan,Rao Muhammad Anwer,Jorma Laaksonen,Fahad Shahbaz Khan,Salman Khan

Main category: cs.CV

TL;DR: TerraFM是一个自监督学习模型,利用全球分布的Sentinel-1和Sentinel-2影像,通过多模态融合和对比学习提升泛化能力。

  • Motivation: 现有基础模型在训练数据的规模、地理覆盖和光谱多样性上受限,影响了全球可迁移表征的学习。
  • Method: 结合Sentinel-1和Sentinel-2影像,采用多模态嵌入和自适应交叉注意力融合,集成局部-全局对比学习和双中心机制。
  • Result: 在GEO-Bench和Copernicus-Bench上优于现有模型,分类和分割任务表现优异。
  • Conclusion: TerraFM通过多模态融合和自监督学习,显著提升了地球观测任务的泛化能力。

cs.CR

[116] Robust Anti-Backdoor Instruction Tuning in LVLMs

Yuan Xun,Siyuan Liang,Xiaojun Jia,Xinwei Liu,Xiaochun Cao

Main category: cs.CR

TL;DR: 该论文提出了一种针对大型视觉语言模型(LVLM)的轻量级防御框架,通过仅微调适配器模块和文本嵌入层,结合两种正则化方法,有效抵御后门攻击。

  • Motivation: 现有后门防御技术通常针对单模态模型或依赖训练时的监督知识,而现实场景中防御者无法修改冻结的视觉编码器或核心LLM参数,也无法预知未知触发模式或目标响应。
  • Method: 提出Robust Instruction Tuning框架,仅微调适配器模块和文本嵌入层,结合输入多样性正则化和异常激活正则化,防止模型记忆触发-响应映射。
  • Result: 在Flickr30k和MSCOCO数据集上的实验表明,该方法将攻击成功率降至接近零,训练成本仅增加不到15%。
  • Conclusion: 该方法在无需核心权重或攻击先验知识的情况下,显著提升了LVLM的安全性。

[117] QA-HFL: Quality-Aware Hierarchical Federated Learning for Resource-Constrained Mobile Devices with Heterogeneous Image Quality

Sajid Hussain,Muhammad Sohail,Nauman Ali Khan

Main category: cs.CR

TL;DR: QA-HFL是一种质量感知的分层联邦学习框架,针对资源受限的移动设备处理异构图像质量,通过质量加权融合和差分隐私保护,显著提升了性能。

  • Motivation: 解决移动设备中异构图像质量导致的模型性能下降问题,同时保护数据隐私。
  • Method: 训练针对不同图像质量的本地模型,采用质量加权融合机制,并结合差分隐私保护。
  • Result: 在MNIST上仅三轮联邦学习即达到92.31%准确率,优于FedRolex(86.42%);在严格隐私条件下保持30.77%准确率。
  • Conclusion: QA-HFL通过设备特定正则化和知识蒸馏等方法,显著提升了性能,同时保持了高效通信和隐私保护。

q-bio.NC

[118] Noninvasive precision modulation of high-level neural population activity via natural vision perturbations

Guy Gaziv,Sarah Goulding,Ani Ayvazian-Hancock,Yoon Bai,James J. DiCarlo

Main category: q-bio.NC

TL;DR: 研究探讨了通过自然视觉输入的扰动非侵入性地精确调节灵长类动物腹侧视觉流神经活动的可能性,并在实验中验证了模型预测与生物效应的定量一致性。

  • Motivation: 神经活动的精确控制通常需要侵入性技术,本研究旨在探索非侵入性方法,通过视觉扰动实现高精度神经调控。
  • Method: 通过自然视觉输入的扰动调节腹侧视觉流神经活动,并在猕猴下颞叶神经群体中进行测试。
  • Result: 模型预测与生物效应定量一致,实现了对目标神经位点的强调制,并能通过视觉扰动注入实验者选择的神经模式。
  • Conclusion: 研究表明,当前机器可执行的腹侧视觉流模型能够设计非侵入性、视觉传递的神经干预,分辨率可达单个神经元。

cs.NE

[119] Integer Binary-Range Alignment Neuron for Spiking Neural Networks

Binghao Ye,Wenjuan Li,Dong Wang,Man Yao,Bing Li,Weiming Hu,Dong Liang,Kun Shang

Main category: cs.NE

TL;DR: 提出了一种新型脉冲神经元(Integer Binary-Range Alignment Leaky Integrate-and-Fire),通过整数二进制泄漏积分发放和范围对齐策略,显著提升脉冲神经网络的表达能力,同时仅略微增加能耗。

  • Motivation: 脉冲神经网络(SNNs)因其类脑计算和高效能耗备受关注,但在图像分类和物体检测等任务中表现不及人工神经网络(ANNs),主要受限于其表达能力。
  • Method: 采用整数二进制泄漏积分发放(Integer Binary Leaky Integrate-and-Fire)和范围对齐策略,前者在训练时允许整数值激活并在推理时通过二进制转换扩展虚拟时间步,后者解决神经元无法激活高整数值的问题。
  • Result: 实验表明,该方法在ImageNet上达到74.19%准确率,在COCO上达到66.2% mAP@50和49.1% mAP@50:95,分别超越之前最佳结果3.45%、1.6%和1.8%,且能耗效率提升6.3倍。
  • Conclusion: 提出的方法显著提升了SNNs的性能,甚至在某些任务中匹配或超越ANNs,同时保持了高能效。

eess.IV

[120] Enhancing Neural Autoregressive Distribution Estimators for Image Reconstruction

Ambrose Emmett-Iwaniw,Nathan Kirk

Main category: eess.IV

TL;DR: 论文研究了通过观察图像像素子集预测未观察部分的方法,提出了一种改进的ConvNADE模型,并探讨了不同像素选择策略对重建质量的影响。

  • Motivation: 自回归模型常用于学习图像数据的分布,但像素处理顺序对性能至关重要。本文旨在通过观察少量像素预测图像未观察部分,提升模型效率和重建质量。
  • Method: 提出了一种改进的ConvNADE模型,适用于实值和彩色图像,并研究了随机像素块和低差异像素块对重建的影响。
  • Result: 实验表明,采用低差异序列选择像素能降低测试损失并生成更真实的图像重建结果。
  • Conclusion: 低差异像素选择策略在图像重建中表现更优,改进的ConvNADE模型在效率和效果上均有提升。

[121] Deep histological synthesis from mass spectrometry imaging for multimodal registration

Kimberley M. Bird,Xujiong Ye,Alan M. Race,James M. Brown

Main category: eess.IV

TL;DR: 提出了一种基于pix2pix模型的方法,将质谱成像(MSI)合成为组织学图像,以实现单模态配准,初步结果显示合成图像质量较高。

  • Motivation: 解决组织学和MSI图像因形成过程和维度不同而难以配准的问题。
  • Method: 使用pix2pix模型从MSI图像合成组织学图像。
  • Result: 合成图像质量优于基线U-Net模型,互信息(MI)和结构相似性指数(SSIM)分别提高了+0.924和+0.419。
  • Conclusion: 该方法为多模态图像配准提供了有效解决方案,代码已开源。

[122] FPDANet: A Multi-Section Classification Model for Intelligent Screening of Fetal Ultrasound

Minglang Chen,Jie He,Caixu Xu,Bocheng Liang,Shengli Li,Guannan He,Xiongjie Tao

Main category: eess.IV

TL;DR: 提出了一种基于双边多尺度信息融合网络的FPDANet,用于解决胎儿超声图像分类中的低对比度、高相似性和高噪声问题。

  • Motivation: ResNet在胎儿超声图像分类中表现不佳,因其单向特征传递和缺乏上下文信息关联。
  • Method: 设计了位置注意力机制(DAN)模块和双边多尺度(FPAN)信息融合模块,以增强特征表示和捕获多尺度特征依赖。
  • Result: FPDANet在Top-1和Top-5指标上分别达到91.05%和100%。
  • Conclusion: FPDANet在胎儿超声图像分类中表现出高效性和鲁棒性。

[123] LinGuinE: Longitudinal Guidance Estimation for Volumetric Lung Tumour Segmentation

Nadine Garibli,Mayank Patwari,Bence Csiba,Yi Wei,Kostas Sidiropoulos

Main category: eess.IV

TL;DR: LinGuinE是一种自动化方法,用于分割肺部肿瘤的纵向CT扫描序列,显著提高了分割准确性。

  • Motivation: 目前缺乏自动化或半自动化的纵向肿瘤分割方法,而这是评估化疗反应的重要步骤。
  • Method: 通过刚性配准将初始肿瘤点传播到其他时间点,利用点击有效性分类器选择有效点并自动生成分割。
  • Result: 在两个测试数据集上,LinGuinE将Dice分数提高了20%以上(p<0.05)。
  • Conclusion: LinGuinE在纵向肿瘤分割中表现出色,且可以从任意时间点开始,具有广泛适用性。

[124] DermaCon-IN: A Multi-concept Annotated Dermatological Image Dataset of Indian Skin Disorders for Clinical AI Research

Shanawaj S Madarkar,Mahajabeen Madarkar,Madhumitha V,Teli Prakash,Konda Reddy Mopuri,Vinaykumar MV,KVL Sathwika,Adarsh Kasturi,Gandla Dilip Raj,PVN Supranitha,Harsh Udai

Main category: eess.IV

TL;DR: DermaCon-IN是一个来自南印度门诊的前瞻性皮肤病数据集,包含5450多张临床图像,覆盖240种诊断,旨在解决现有数据集的不足,推动皮肤病AI模型的公平性和鲁棒性。

  • Motivation: 现有数据集未能捕捉真实世界临床和人口复杂性,如地区特异性疾病分布、肤色多样性和非西方人群代表性不足,阻碍了皮肤病AI模型的发展。
  • Method: 引入DermaCon-IN数据集,包含5450多张图像,由认证皮肤科医生标注,采用基于病因的分层分类法。测试了多种模型架构(卷积模型、Transformer模型、概念瓶颈模型)以建立基线性能。
  • Result: 数据集覆盖了印度门诊常见的皮肤病和肤色变化,为未来开发可解释和临床现实的模型提供了基础。
  • Conclusion: DermaCon-IN为皮肤病AI在真实场景中的发展提供了可扩展且具代表性的基础。

cs.GR

[125] AI-powered Contextual 3D Environment Generation: A Systematic Review

Miguel Silva,Alexandre Valle de Carvalho

Main category: cs.GR

TL;DR: 本文系统综述了生成式AI在3D场景生成中的应用,分析了现有技术的优缺点及改进潜力,并探讨了关键挑战和未来研究方向。

  • Motivation: 3D环境生成在游戏、虚拟现实和电影等行业中至关重要,但目前依赖手动流程,资源消耗大。研究旨在通过AI技术提升效率和质量。
  • Method: 通过系统综述现有生成式AI技术,分析其特点、优势和局限性,并探讨文本输入的影响、风格融合及训练数据的作用。
  • Result: 研究发现,先进生成架构能以高计算成本生成高质量3D内容;多模态集成技术(如跨注意力和潜在空间对齐)有助于文本到3D任务;训练数据的质量和多样性是关键。
  • Conclusion: 研究为AI驱动的3D内容生成提供了全面理解,并指出未来研究方向,如提升场景真实性和优化评估指标。

[126] ODE-GS: Latent ODEs for Dynamic Scene Extrapolation with 3D Gaussian Splatting

Daniel Wang,Patrick Rim,Tian Tian,Alex Wong,Ganesh Sundaramoorthi

Main category: cs.GR

TL;DR: ODE-GS是一种新方法,结合3D高斯泼溅和潜在神经ODE,用于预测动态3D场景,超越训练时间范围。

  • Motivation: 现有神经渲染系统(如NeRF或3DGS)在时间预测上表现不佳,ODE-GS旨在解决这一问题。
  • Method: 通过冻结时间条件变形模型,训练Transformer编码器总结高斯轨迹,并用神经ODE控制潜在状态演化。
  • Result: 在D-NeRF和NVFI基准测试中,PSNR提升高达10 dB,LPIPS减半。
  • Conclusion: 连续时间潜在动力学是实现复杂3D场景逼真预测的有效途径。

[127] SurGSplat: Progressive Geometry-Constrained Gaussian Splatting for Surgical Scene Reconstruction

Yuchao Zheng,Jianing Zhang,Guochen Ning,Hongen Liao

Main category: cs.GR

TL;DR: 提出SurGSplat方法,通过几何约束逐步优化3D高斯泼溅,解决内窥镜场景中稀疏特征和光照不一致问题,提升手术导航的3D重建精度。

  • Motivation: 内窥镜场景中稀疏特征和不一致光照导致现有SfM方法重建失败,影响手术导航的准确性和安全性。
  • Method: 提出SurGSplat方法,通过几何约束逐步优化3D高斯泼溅(3DGS),实现血管等关键结构的详细重建。
  • Result: 实验表明SurGSplat在新视角合成(NVS)和位姿估计精度上表现优异。
  • Conclusion: SurGSplat为手术场景重建提供了一种高保真且高效的解决方案。

cs.LG

[128] Learning to Weight Parameters for Data Attribution

Shuangqi Li,Hieu Le,Jingyi Xu,Mathieu Salzmann

Main category: cs.LG

TL;DR: 提出了一种针对生成模型中数据归因的方法,通过学习参数重要性权重来改进归因准确性,无需标注数据。

  • Motivation: 现有方法将所有网络参数视为同等重要,忽略了不同层编码不同类型信息的特点,导致归因不准确。
  • Method: 通过学习参数重要性权重,使归因过程适应模型结构,捕捉训练数据对输出语义(如主题、风格或背景)的贡献。
  • Result: 方法在扩散模型中提高了归因准确性,并提供了对输出如何从训练数据中借鉴的细粒度洞察。
  • Conclusion: 该方法通过建模参数重要性,改进了生成模型中的数据归因,为理解模型行为提供了新视角。

[129] Peer-Ranked Precision: Creating a Foundational Dataset for Fine-Tuning Vision Models from DataSeeds' Annotated Imagery

Sajjad Abdoli,Freeman Lewin,Gediminas Vasiliauskas,Fabian Schonholz

Main category: cs.LG

TL;DR: 论文探讨了AI开发从‘模型中心’转向‘数据中心’的方法论,并介绍了高质量数据集DSD及其对模型性能的提升。

  • Motivation: 传统AI开发过于依赖复杂模型架构,而忽视了数据质量的重要性。本文旨在推动‘数据为中心’的方法,通过高质量数据集提升模型性能。
  • Method: 引入DSD数据集(包含10,610张高质量图像及多层级标注),并对其在模型性能上的影响进行量化分析。
  • Result: DSD显著提升了特定模型的性能,代码和训练模型已公开。
  • Conclusion: 数据质量是AI模型性能的关键,DSD为商业和多模态AI开发提供了新标准。

[130] Any-Class Presence Likelihood for Robust Multi-Label Classification with Abundant Negative Data

Dumindu Tissera,Omar Awadallah,Muhammad Umair Danish,Ayan Sadhu,Katarina Grolinger

Main category: cs.LG

TL;DR: 论文提出了一种改进的多标签分类损失函数,通过几何均值调整负类数据的影响,提升模型在含大量负类数据时的性能。

  • Motivation: 多标签分类中,大量负类数据会干扰学习过程,传统方法引入负类标签会增加冗余。本文旨在优化损失函数以解决这一问题。
  • Method: 设计了一种基于归一化加权几何均值的损失函数,通过正则化参数控制负类概率对整体似然的影响。
  • Result: 在多个数据集上测试,新损失函数显著提升了性能指标(如F1、F2和mAP),最高提升6.01个百分点。
  • Conclusion: 提出的损失函数有效解决了负类数据干扰问题,无需额外参数或计算复杂度,适用于多标签分类任务。

Han Ji,Yuqi Feng,Jiahao Fan,Yanan Sun

Main category: cs.LG

TL;DR: 本文首次全面研究了性能预测器中损失函数的有效性,将其分为回归、排序和加权三类,并通过实验验证了它们的组合能提升预测器性能。

  • Motivation: 神经架构搜索(NAS)中评估成本高,性能预测器通过损失函数选择直接影响效果,但现有损失函数的特性和效果尚未深入研究。
  • Method: 将损失函数分为三类(回归、排序、加权),在13个任务和5个搜索空间上评估了8种损失函数。
  • Result: 实验表明,特定类别的损失函数组合能有效提升预测器性能,并为不同任务选择损失函数提供实用指导。
  • Conclusion: 本研究为NAS社区提供了损失函数选择和组合的实用指导,推动了预测器方法的进一步发展。

[132] TRUST: Test-time Resource Utilization for Superior Trustworthiness

Haripriya Harikumar,Santu Rana

Main category: cs.LG

TL;DR: 提出一种新的测试时优化方法,通过减少分类器权重噪声,提升预测可靠性和不确定性估计。

  • Motivation: 传统不确定性估计方法(如dropout)难以清晰区分可靠与不可靠预测,主要因分类器权重噪声干扰。
  • Method: 采用测试时优化方法,考虑噪声影响,生成更可靠的置信度估计,并定义单调子集选择函数。
  • Result: 在AUSE和AURC等风险指标上表现优越,能有效识别训练与测试分布差异及区分内外分布样本。
  • Conclusion: 该方法显著提升了不确定性估计的可靠性,并揭示了CNN与ViT分类器在视觉数据集上的关键差异。

[133] Gradient Similarity Surgery in Multi-Task Deep Learning

Thomas Borsani,Andrea Rosani,Giuseppe Nicosia,Giuseppe Di Fatta

Main category: cs.LG

TL;DR: 论文提出了一种新的梯度手术方法SAM-GS,通过梯度幅度相似性度量优化多任务深度学习中的梯度冲突问题。

  • Motivation: 多任务深度学习(MTDL)中,任务梯度可能因幅度或方向不同而冲突,影响训练效果。
  • Method: 提出SAM-GS方法,结合梯度均衡和一阶动量调制,基于梯度幅度相似性调整梯度轨迹。
  • Result: 实验证明SAM-GS在合成问题和MTL基准测试中有效。
  • Conclusion: 梯度幅度相似性对MTDL中的梯度聚合和优化过程具有重要作用。

[134] Towards an Explainable Comparison and Alignment of Feature Embeddings

Mohammad Jalali,Bahar Dibaei Nia,Farzan Farnia

Main category: cs.LG

TL;DR: 提出了一种名为SPEC的框架,用于比较和调整特征嵌入模型,通过核矩阵差异分析聚类差异,并实现线性计算复杂度。

  • Motivation: 现有嵌入模型的比较主要关注数值性能,缺乏对聚类差异的可解释性分析。
  • Method: 利用核矩阵的差异特征分解,检测样本聚类差异,并提出可扩展的优化方法。
  • Result: 在ImageNet和MS-COCO等大规模数据集上验证了SPEC的有效性。
  • Conclusion: SPEC框架为嵌入模型的比较和调整提供了可解释且高效的工具。

cs.RO

[135] Object Navigation with Structure-Semantic Reasoning-Based Multi-level Map and Multimodal Decision-Making LLM

Chongshang Yan,Jiaxuan He,Delun Li,Yi Yang,Wenjie Song

Main category: cs.RO

TL;DR: 论文提出了一种结合环境属性地图(EAM)和多模态大语言模型分层推理模块(MHR)的主动目标导航框架,以解决零样本目标导航(ZSON)中因忽视高维隐式场景信息和长距离目标搜索任务导致的性能下降问题。

  • Motivation: 零样本目标导航在未知开放环境中表现不佳,主要原因是忽视了高维隐式场景信息和长距离目标搜索任务的复杂性。
  • Method: 通过EAM模块利用SBERT推理观察到的环境,并通过Diffusion预测未观察到的环境,结合人类空间规律性;MHR模块基于EAM进行前沿探索决策,避免长距离场景中的迂回路径。
  • Result: EAM模块在MP3D数据集上达到64.5%的场景映射准确率;导航任务在HM3D和MP3D基准上的SPL分别为28.4%和26.3%,比基线方法分别提高了21.4%和46.0%。
  • Conclusion: 提出的EAM和MHR模块显著提升了零样本目标导航的性能和效率。

[136] 3DFlowAction: Learning Cross-Embodiment Manipulation from 3D Flow World Model

Hongyan Zhi,Peihao Chen,Siyuan Zhou,Yubo Dong,Quanxi Wu,Lei Han,Mingkui Tan

Main category: cs.RO

TL;DR: 论文提出了一种基于3D光流的世界模型,用于指导机器人操作任务,通过大规模数据集和视频扩散模型实现跨硬件泛化。

  • Motivation: 机器人操作任务缺乏统一的大规模数据集,导致难以学习通用的动作表示。人类通过理解物体在3D空间中的运动来指导操作,这一线索适用于不同机器人。
  • Method: 合成大规模3D光流数据集ManiFlow-110k,使用视频扩散模型学习操作物理,生成基于语言指令的3D光流轨迹,并通过流引导渲染机制和GPT-4o评估任务对齐。
  • Result: 实验表明,该方法在多样化机器人操作任务中表现出强泛化能力,且无需硬件特定训练即可实现跨硬件适应。
  • Conclusion: 3D光流世界模型为机器人操作任务提供了一种统一且鲁棒的解决方案,具有广泛的适用性。

cs.CL

[137] MLLM-CL: Continual Learning for Multimodal Large Language Models

Hongbo Zhao,Fei Zhu,Rundong Wang,Gaofeng Meng,Zhaoxiang Zhang

Main category: cs.CL

TL;DR: MLLM-CL是一个新的多模态大语言模型持续学习基准,通过参数隔离和路由机制解决动态场景中的知识整合问题。

  • Motivation: 现有MLLMs在动态场景中整合新知识和技能的能力不足,现有持续学习方法和基准存在局限。
  • Method: 提出参数隔离和基于MLLM的路由机制,防止灾难性干扰。
  • Result: 实验表明该方法能高效整合领域知识和功能能力,遗忘最小,显著优于现有方法。
  • Conclusion: MLLM-CL为动态场景下的持续学习提供了有效解决方案。

[138] PuzzleWorld: A Benchmark for Multimodal, Open-Ended Reasoning in Puzzlehunts

Hengzhi Li,Brendon Jiang,Alexander Naehu,Regan Song,Justin Zhang,Megan Tjandrasuwita,Chanakya Ekbote,Steven-Shine Chen,Adithya Balachandran,Wei Dai,Rebecca Chang,Paul Pu Liang

Main category: cs.CL

TL;DR: 论文介绍了PuzzleWorld,一个包含667个谜题的大规模基准测试,用于评估多模态推理能力。现有模型表现不佳,但通过微调推理痕迹可提升性能。

  • Motivation: 研究动机是评估基础模型在开放性问题(如谜题)中的表现,填补现有推理测试的空白。
  • Method: 方法包括构建PuzzleWorld基准测试,标注详细推理痕迹和认知技能标签,并通过微调实验验证其价值。
  • Result: 结果显示,现有模型在谜题解决中表现较差(1-14%准确率),但微调推理痕迹可显著提升性能(4%到11%)。
  • Conclusion: 结论指出当前模型在开放性问题中表现有限,需改进推理能力和多模态处理。PuzzleWorld为未来研究提供了工具。

cs.HC

[139] QualitEye: Public and Privacy-preserving Gaze Data Quality Verification

Mayar Elfares,Pascal Reisert,Ralf Küsters,Andreas Bulling

Main category: cs.HC

TL;DR: QualitEye是一种验证基于图像的眼动数据质量的方法,通过语义表示和隐私保护协议实现高效验证。

  • Motivation: 随着眼动数据集的增加,数据质量和隐私问题成为挑战,需要一种方法在保证隐私的同时验证数据质量。
  • Method: QualitEye使用新的语义表示方法,结合公共和隐私保护两种设置,利用私有集合交集协议。
  • Result: 在MPIIFaceGaze和GazeCapture数据集上验证性能高,隐私保护版本运行时开销小。
  • Conclusion: QualitEye为眼动分析提供了新方法,结合机器学习、人机交互和密码学。

[140] WoundAIssist: A Patient-Centered Mobile App for AI-Assisted Wound Care With Physicians in the Loop

Vanessa Borst,Anna Riedmann,Tassilo Dege,Konstantin Müller,Astrid Schmieder,Birgit Lugrin,Samuel Kounev

Main category: cs.HC

TL;DR: WoundAIssist是一款AI驱动的移动应用,支持远程伤口护理,通过照片和问卷记录伤口,结合深度学习模型实现持续监测。

  • Motivation: 慢性伤口在老龄化人群中日益普遍,传统护理资源密集且成本高,亟需远程解决方案。
  • Method: 开发了WoundAIssist应用,集成了轻量级深度学习模型进行伤口分割,并通过用户反馈优化设计。
  • Result: 可用性研究表明应用易用性强,AI伤口识别功能受到好评。
  • Conclusion: WoundAIssist填补了患者与医疗专业人员之间的远程护理空白,并为类似数字健康工具提供了设计参考。

cs.AI

[141] Proactive Assistant Dialogue Generation from Streaming Egocentric Videos

Yichi Zhang,Xin Luna Dong,Zhaojiang Lin,Andrea Madotto,Anuj Kumar,Babak Damavandi,Joyce Chai,Seungwhan Moon

Main category: cs.AI

TL;DR: 提出了一个框架,用于开发实时感知任务指导的对话AI系统,包括数据合成、自动评估和端到端模型。

  • Motivation: 解决实时对话AI系统开发中数据收集和评估的高成本问题。
  • Method: 1. 数据合成管道生成大规模对话数据集;2. 自动评估指标;3. 处理数据不平衡和长视频的端到端模型。
  • Result: 开发了一个支持实时、主动任务指导的AI助手框架。
  • Conclusion: 为实时、主动的AI助手奠定了基础,支持多样化任务指导。

上次更新于: