Skip to content
每日arXiv - 2025年7月8日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] A Simulator Dataset to Support the Study of Impaired Driving

John Gideon,Kimimasa Tamura,Emily Sumner,Laporsha Dees,Patricio Reyes Gomez,Bassamul Haq,Todd Rowell,Avinash Balachandran,Simon Stent,Guy Rosman

Main category: cs.CV

TL;DR: 论文介绍了一个驾驶数据集,用于研究酒精中毒和认知分心对驾驶行为的影响,包含52名受试者在模拟城市驾驶中的车辆和驾驶员数据。

  • Motivation: 尽管自动驾驶技术有所进步,但驾驶受损仍对社会造成高成本。研究旨在通过数据集支持对酒精中毒和认知分心两种常见驾驶受损形式的研究。
  • Method: 数据集包含23.7小时的模拟城市驾驶数据,涵盖52名受试者在正常和受损条件下的驾驶行为,包括车辆数据和驾驶员数据。
  • Result: 数据集支持分析酒精中毒(0.10%血液酒精含量)和认知分心(音频n-back和句子解析任务)对驾驶行为的影响,以及对道路危险的反应。
  • Conclusion: 数据集将公开发布,以促进对驾驶受损行为的研究。

[2] Learning to Generate Vectorized Maps at Intersections with Multiple Roadside Cameras

Miao Fan,Quanxin Zheng,Shengtong Xu,Linghe Kong,Haoyi Xiong

Main category: cs.CV

TL;DR: MRC-VMap是一种基于视觉的端到端神经网络,用于直接从多方向图像生成高清矢量地图,解决了传统离线与在线方法的成本与性能问题。

  • Motivation: 传统矢量地图构建方法成本高或性能有限,需要一种兼顾成本效益与高性能的解决方案。
  • Method: 利用路边监控摄像头,将时间对齐的多方向图像直接转换为矢量地图,减少中间模块和计算开销。
  • Result: 在4000个中国城市交叉口的实验中,MRC-VMap性能优于现有在线方法,接近高成本LiDAR方法的精度。
  • Conclusion: MRC-VMap为自动驾驶导航提供了一种可扩展且高效的高清矢量地图生成方案。

[3] Advancing Talking Head Generation: A Comprehensive Survey of Multi-Modal Methodologies, Datasets, Evaluation Metrics, and Loss Functions

Vineet Kumar Rakesh,Soumya Mazumdar,Research Pratim Maity,Sarbajit Pal,Amitabha Das,Tapas Samanta

Main category: cs.CV

TL;DR: 本文全面综述了说话头生成(THG)技术,分类并评估了多种方法,同时指出了挑战和未来方向。

  • Motivation: THG技术在计算机视觉中具有广泛应用潜力,如数字化身、视频配音等,但现有研究存在依赖预训练模型等问题,需系统总结和展望。
  • Method: 将方法分为2D、3D、NeRF、扩散模型等类别,评估算法、数据集和指标,强调感知真实性和技术效率。
  • Result: 总结了THG的进展,指出了依赖预训练模型、极端姿态处理等挑战。
  • Conclusion: 未来方向包括模块化架构、多语言数据集等,为研究者和从业者提供实用见解。

[4] Enhancing Sports Strategy with Video Analytics and Data Mining: Assessing the effectiveness of Multimodal LLMs in tennis video analysis

Charlton Teo

Main category: cs.CV

TL;DR: 评估多模态大语言模型(MLLMs)在分析网球视频中的有效性,填补现有研究在识别网球回合事件序列上的空白。

  • Motivation: 现有研究在网球分析中缺乏能够理解和识别回合事件序列的模型,MLLMs有望填补这一空白。
  • Method: 评估MLLMs在分类网球动作及识别动作序列中的表现,探索改进方法如不同训练方式或与传统模型结合。
  • Result: 未提及具体结果,但研究目标是提升MLLMs在网球视频分析中的性能。
  • Conclusion: MLLMs在网球视频分析中具有潜力,需进一步优化以提高其性能。

[5] Enhancing Sports Strategy with Video Analytics and Data Mining: Automated Video-Based Analytics Framework for Tennis Doubles

Jia Wei Chen

Main category: cs.CV

TL;DR: 提出了一种基于视频的双打网球分析框架,结合标准化标注方法和机器学习技术,显著减少人工标注工作量并提高数据质量。

  • Motivation: 解决双打网球缺乏自动化分析工具的问题,应对其战略复杂性。
  • Method: 采用标准化标注方法,结合GroundingDINO和YOLO-Pose进行球员定位和姿态估计,使用CNN模型进行预测。
  • Result: CNN模型在预测击球类型、球员位置和阵型方面优于姿态估计方法。
  • Conclusion: 该框架为双打网球的战术分析、性能评估和战略建模提供了自动化基础。

[6] Modeling Urban Food Insecurity with Google Street View Images

David Li

Main category: cs.CV

TL;DR: 研究探讨了利用街景图像建模食物不安全问题的有效性,提出了一种两步特征提取和门控注意力方法,尽管预测能力略逊,但有望补充现有方法。

  • Motivation: 食物不安全是全球城市面临的重大社会与公共卫生问题,现有依赖调查数据的方法难以扩展。
  • Method: 提出两步特征提取和门控注意力图像聚合方法,并与其他模型架构对比评估。
  • Result: 模型预测能力略逊于其他方法,但权重解释和案例研究显示其潜力。
  • Conclusion: 该方法有望为城市规划者和政策制定者补充现有食物不安全识别方法。

[7] OBSER: Object-Based Sub-Environment Recognition for Zero-Shot Environmental Inference

Won-Seok Choi,Dong-Sig Han,Suhyung Choi,Hyeonseo Yang,Byoung-Tak Zhang

Main category: cs.CV

TL;DR: OBSER框架通过贝叶斯方法推断子环境与对象的关系,利用度量学习和自监督学习估计对象分布,验证了统计可分离函数,并在开放世界和逼真环境中表现优异。

  • Motivation: 提出一种新框架,用于实现自主环境理解,特别是零样本环境识别。
  • Method: 结合度量学习和自监督学习,估计子环境中对象的潜在空间分布,并引入统计可分离函数验证框架。
  • Result: 在开放世界和逼真环境中可靠地进行推理,并在链式检索任务中优于基于场景的方法。
  • Conclusion: OBSER框架为零样本环境识别提供了有效方法,推动了自主环境理解的发展。

[8] GameTileNet: A Semantic Dataset for Low-Resolution Game Art in Procedural Content Generation

Yi-Chun Chen,Arnav Jhala

Main category: cs.CV

TL;DR: GameTileNet是一个低分辨率游戏图块的语义数据集,旨在通过视觉-语言对齐支持叙事驱动的程序化内容生成。

  • Motivation: 解决AI生成游戏视觉资产时与游戏叙事不一致的问题,以及训练数据分布不平衡导致的视觉多样性受限问题。
  • Method: 收集艺术家创作的游戏图块,提供语义标注,并开发低分辨率图块对象检测流程。
  • Result: 数据集支持叙事驱动的游戏内容生成,并为低分辨率非真实感图像的对象检测提供基准。
  • Conclusion: GameTileNet是改进程序化内容生成方法、丰富游戏叙事内容的宝贵资源。

[9] Iterative Zoom-In: Temporal Interval Exploration for Long Video Understanding

Chenglin Li,Qianglong Chen,fengtao,Yin Zhang

Main category: cs.CV

TL;DR: 提出了一种名为Temporal Search(TS)的训练免费框架,通过迭代调整时间区间来提升多模态大语言模型(MLLMs)对长视频的理解能力。

  • Motivation: 当前MLLMs在长视频理解中因时间区间感知效率低下而表现不佳,TS旨在通过动态调整时间焦点来解决这一问题。
  • Method: TS通过两个迭代阶段实现:首先提出可能包含任务相关信息的时间区间,然后从中采样固定数量帧进行细化响应和置信度评分。此外,TS-BFS采用最佳优先搜索策略优化效率。
  • Result: TS显著提升了MLLMs在长视频任务中的表现,同时降低了内存消耗和关键信息遗漏的风险。
  • Conclusion: TS为MLLMs的长视频理解提供了一种高效且无需额外训练的方法,具有广泛的应用潜力。

[10] DriveMRP: Enhancing Vision-Language Models with Synthetic Motion Data for Motion Risk Prediction

Zhiyi Hou,Enhui Ma,Fang Li,Zhiyi Lai,Kalok Ho,Zhanqian Wu,Lijun Zhou,Long Chen,Chitian Sun,Haiyang Sun,Bing Wang,Guang Chen,Hangjun Ye,Kaicheng Yu

Main category: cs.CV

TL;DR: 通过合成高风险运动数据增强视觉语言模型(VLM)的运动风险预测能力,提出BEV运动模拟方法和DriveMRP-Agent框架,显著提升事故识别准确率。

  • Motivation: 解决自动驾驶在长尾场景中因动态环境不确定性和数据覆盖不足导致的安全运动预测挑战。
  • Method: 引入基于鸟瞰图(BEV)的运动模拟方法合成高风险数据DriveMRP-10K,并设计VLM无关的运动风险估计框架DriveMRP-Agent。
  • Result: 实验显示,DriveMRP-Agent显著提升VLM基线性能,事故识别准确率从27.13%提升至88.03%,零样本测试中从29.42%提升至68.50%。
  • Conclusion: DriveMRP-Agent框架通过合成数据和全局上下文信息注入,显著提升了VLM在运动风险预测中的性能和泛化能力。

[11] Multimodal image registration for effective thermographic fever screening

C. Y. N. Dwith,Pejhman Ghassemi,Joshua Pfefer,Jon Casamento,Quanzeng Wang

Main category: cs.CV

TL;DR: 红外热像仪(IRT)用于发热筛查,结合多模态配准技术精确定位眼角区域,配准误差在2.7毫米内。

  • Motivation: 在传染病大流行期间,快速、非侵入性的发热筛查方法需求迫切,眼角区域是理想测温点。
  • Method: 提出基于地标和边缘检测的粗-精配准策略,结合红外和白光图像实现多模态配准。
  • Result: 配准精度在2.7毫米以内,能准确定位眼角区域。
  • Conclusion: 该方法为发热筛查提供了高精度的眼角区域定位方案。

[12] CS-VLM: Compressed Sensing Attention for Efficient Vision-Language Representation Learning

Andrew Kiruluta,Preethi Raju,Priscilla Burity

Main category: cs.CV

TL;DR: 论文提出了一种名为CSAT的新型注意力机制,通过压缩感知技术降低计算复杂度,适用于视觉-语言模型(vLLMs)。

  • Motivation: 标准注意力机制在vLLMs中因跨模态计算导致计算和内存成本过高,限制了模型的可扩展性。
  • Method: 采用压缩感知技术,将高维键值表示投影到低维子空间,并通过稀疏恢复算法重构注意力输出。
  • Result: CSAT显著降低了注意力计算复杂度,同时保持了语义保真度,在标准基准测试中表现优异。
  • Conclusion: CSAT为下一代多模态Transformer提供了一种可扩展、高效且资源友好的解决方案。

[13] VR-YOLO: Enhancing PCB Defect Detection with Viewpoint Robustness Based on YOLO

Hengyi Zhu,Linye Wei,He Li

Main category: cs.CV

TL;DR: 论文提出了一种基于YOLOv8的增强PCB缺陷检测算法VR-YOLO,通过多样化场景增强和关键对象聚焦机制,显著提升了模型的泛化性能和视角鲁棒性。

  • Motivation: 传统PCB缺陷检测算法对图像角度、方向和清晰度要求严格,限制了实际应用效果。
  • Method: 提出多样化场景增强(DSE)方法扩展数据集,并引入关键对象聚焦(KOF)机制增强小目标特征学习。
  • Result: 改进算法在原测试图像上mAP达98.9%,在视角偏移测试中达94.7%,显著优于基线模型。
  • Conclusion: VR-YOLO在保持计算成本不变的情况下,显著提升了PCB缺陷检测的性能和鲁棒性。

[14] Concept-based Adversarial Attack: a Probabilistic Perspective

Andi Zhang,Xuan Ding,Steven McDonagh,Samuel Kaski

Main category: cs.CV

TL;DR: 提出一种基于概念的对抗攻击框架,通过概率视角生成多样化的对抗样本,保持原始概念的同时误导分类器。

  • Motivation: 传统对抗攻击仅针对单张图像,缺乏多样性且可能破坏原始概念。本文旨在通过概念层面的攻击生成更多样且保留概念的对抗样本。
  • Method: 采用概率生成模型或图像集表示概念,从中采样生成多样化的对抗样本,确保样本在姿态、视角或背景上变化但仍保留原始概念。
  • Result: 理论和实验表明,该方法生成的对抗样本更多样化,有效保留概念,并具有更高的攻击效率。
  • Conclusion: 基于概念的对抗攻击框架在多样性和概念保留上优于传统方法,为对抗攻击提供了新思路。

[15] YOLO-Based Pipeline Monitoring in Challenging Visual Environments

Pragya Dhungana,Matteo Fresta,Niraj Tamrakar,Hariom Dhungana

Main category: cs.CV

TL;DR: 研究比较了YOLOv8和YOLOv11及其变体在低能见度水下环境中检测管道结构的性能,发现YOLOv11表现更优。

  • Motivation: 由于水下环境的浑浊和图像退化,传统视觉检测系统难以提供可靠数据,因此探索AI技术以提升图像质量和缺陷检测能力。
  • Method: 对YOLOv8和YOLOv11及其三个变体进行对比分析,评估它们在复杂低能见度环境下的图像分割任务表现。
  • Result: YOLOv11在整体性能上优于YOLOv8。
  • Conclusion: YOLOv11更适合用于低能见度水下环境中的管道检测任务。

[16] Farm-Level, In-Season Crop Identification for India

Ishan Deshpande,Amandeep Kaur Reehal,Chandan Nath,Renu Singh,Aayush Patel,Aishwarya Jayagopal,Gaurav Singh,Gaurav Aggarwal,Amit Agarwal,Prathmesh Bele,Sridhar Reddy,Tanya Warrier,Kinjal Singh,Ashish Tendulkar,Luis Pazos Outon,Nikita Saxena,Agata Dondzik,Dinesh Tewari,Shruti Garg,Avneet Singh,Harsh Dhand,Vaibhav Rajan,Alok Talekar

Main category: cs.CV

TL;DR: 提出了一种基于深度学习的框架,用于在印度全国范围内实现农场级、季节内、多作物识别,填补了农业决策中的数据空白。

  • Motivation: 准确的农场级作物类型信息对粮食安全、农业政策和经济规划至关重要,但现有方法在可扩展性、作物覆盖范围和季节内识别方面存在挑战。
  • Method: 结合Sentinel-1和Sentinel-2卫星影像与全国农场边界数据,利用深度学习模型识别12种主要作物,并开发了自动季节检测算法。
  • Result: 模型与2023-24年全国作物普查数据的一致性在冬季为94%,雨季为75%,并能在生长季节早期(两个月内)可靠识别作物。
  • Conclusion: 该框架展示了在全国范围内提供可操作农业数据的潜力,为农业监测和管理提供了新工具。

[17] Mimesis, Poiesis, and Imagination: Exploring Text-to-Image Generation of Biblical Narratives

Willem Th. van Peursen,Samuel E. Entsua-Mensah

Main category: cs.CV

TL;DR: 研究探讨AI如何通过MidJourney生成《出埃及记》2:5-9的图像,分析其模仿与创造性,并与传统绘画对比,揭示AI的潜力与局限。

  • Motivation: 探索AI在重现或重构圣经叙事中的表现,评估其在艺术和神学层面的影响。
  • Method: 使用MidJourney生成图像,通过比较视觉分析(包括Google图像和古典绘画)评估风格、神学和文化维度。
  • Result: AI能生成美学丰富的图像,但受限于训练数据的偏见,缺乏真正的创造性和神学深度。
  • Conclusion: AI可作为圣经文本的创意伙伴,但其在神圣艺术中的角色仍具争议。

[18] Ascending the Infinite Ladder: Benchmarking Spatial Deformation Reasoning in Vision-Language Models

Jiahuan Zhang,Shunwen Bai,Tianheng Wang,Kaiwen Guo,Kai Han,Guozheng Rao,Kaicheng Yu

Main category: cs.CV

TL;DR: 论文提出了一种新的评估框架,用于测试视觉语言模型(VLMs)在空间变形推理任务中的表现,发现现有模型在此类任务中表现不佳。

  • Motivation: 人类天生具备空间推理能力,而现有视觉语言模型是否真正理解和操作空间对象尚不明确。
  • Method: 构建了一个从2D到3D的空间变形推理基准,通过数据引擎生成无限评估问题对,并采用阶梯竞赛形式测试模型的正向和反向推理能力。
  • Result: 几乎所有模型在空间变形推理任务中表现不佳,即使经过针对性训练和主流推理增强方法,仍无法有效完成3D空间变形推理。
  • Conclusion: 现有视觉语言模型在空间变形推理能力上存在显著不足,需要进一步研究改进。

[19] Iterative Misclassification Error Training (IMET): An Optimized Neural Network Training Technique for Image Classification

Ruhaan Singh,Sreelekha Guggilam

Main category: cs.CV

TL;DR: 论文提出了一种名为IMET的新框架,结合课程学习和核心集选择,旨在通过识别误分类样本来优化训练过程,并提升模型对边缘案例和罕见结果的关注。

  • Motivation: 医学数据集常存在噪声、错误标签或泛化性差的图像,尤其是边缘案例和异常结果。高质量数据集样本量小易导致过拟合,可能对医疗诊断造成严重风险。
  • Method: IMET框架结合课程学习和核心集选择,通过迭代识别误分类样本来优化训练,优先关注边缘案例和罕见结果。
  • Result: 在基准医学图像分类数据集上,IMET表现优于现有ResNet架构,增强了模型的鲁棒性和准确性。
  • Conclusion: IMET为医学图像分析提供了一种有效的数据高效训练策略,提升了模型在复杂场景下的性能。

[20] Gated Recursive Fusion: A Stateful Approach to Scalable Multimodal Transformers

Yusuf Shihata

Main category: cs.CV

TL;DR: GRF是一种线性可扩展的循环架构,通过门控循环融合解决多模态学习中的计算复杂性问题,性能与更复杂模型相当。

  • Motivation: 解决多模态学习中深度融合与计算可扩展性之间的矛盾,特别是跨注意力模型的二次复杂度问题。
  • Method: 提出GRF架构,通过循环处理模态、对称跨注意力机制和门控融合单元动态调控信息流。
  • Result: 在CMU-MOSI基准测试中表现竞争力,生成结构化、类别可分表示。
  • Conclusion: GRF为高效、强大的多模态表示学习提供了新范式。

[21] Leveraging the Structure of Medical Data for Improved Representation Learning

Andrea Agostini,Sonia Laguna,Alain Ryser,Samuel Ruiperez-Campillo,Moritz Vandenhirtz,Nicolas Deperrois,Farhad Nooralahzadeh,Michael Krauthammer,Thomas M. Sutter,Julia E. Vogt

Main category: cs.CV

TL;DR: 提出了一种自监督框架,利用医学数据集的内在结构(如多视图X光片)进行数据高效且领域感知的预训练。

  • Motivation: 由于临床数据集(如MIMIC-CXR)图像数量有限且标注稀缺,但具有丰富的内部结构(如多视图成像),需要一种数据高效且领域感知的预训练方法。
  • Method: 通过将配对的胸部X光片(正视图和侧视图)视为自然正对,学习从稀疏补丁重建每个视图,并对其潜在嵌入进行对齐。
  • Result: 在MIMIC-CXR上评估,该方法表现优于监督目标和未利用结构的基线。
  • Conclusion: 提供了一种轻量级、模态无关的领域特定预训练方案,适用于数据稀缺但结构化的场景。

[22] Enabling Robust, Real-Time Verification of Vision-Based Navigation through View Synthesis

Marius Neuhalfen,Jonathan Grzymisch,Manuel Sanchez-Gestido

Main category: cs.CV

TL;DR: VISY-REVE是一种新方法,通过实时合成新视角来验证视觉导航算法,解决了传统验证方法设置复杂和运行慢的问题。

  • Motivation: 传统验证方法(如合成渲染或机器人测试)存在设置困难和运行速度慢的问题,需要更高效的解决方案。
  • Method: 提出实时增强图像数据集的方法,合成新视角,并引入Boresight Deviation Distance度量相机姿态距离。
  • Result: 开发了一种增加图像数据集密度的方法,适用于开放或闭环轨迹。
  • Conclusion: VISY-REVE提供了一种高效、灵活的视觉导航算法验证方案。

[23] FreqCross: A Multi-Modal Frequency-Spatial Fusion Network for Robust Detection of Stable Diffusion 3.5 Generated Images

Guang Yang

Main category: cs.CV

TL;DR: FreqCross是一种新型多模态融合网络,结合空间RGB特征、频域伪影和径向能量分布模式,用于检测AI生成图像,准确率达97.8%。

  • Motivation: 随着扩散模型(如Stable Diffusion 3.5)生成高度逼真的合成图像,现有检测方法面临挑战,需要更鲁棒的解决方案。
  • Method: 采用三分支架构:ResNet-18提取空间特征,轻量CNN处理2D FFT频谱,多层感知机分析径向能量分布,通过特征融合和分类头实现检测。
  • Result: 在10,000张真实与合成图像数据集上,FreqCross准确率达97.8%,优于现有方法5.2%。
  • Conclusion: FreqCross通过多模态融合和频域分析,有效检测AI生成图像,并公开代码和模型以促进可重复研究。

[24] Text-Guided Multi-Instance Learning for Scoliosis Screening via Gait Video Analysis

Haiqing Li,Yuzhi Guo,Feng Jiang,Thao M. Dang,Hehuan Ma,Qifeng Zhou,Jean Gao,Junzhou Huang

Main category: cs.CV

TL;DR: 提出了一种基于步态视频的非侵入性脊柱侧弯检测方法TG-MILNet,结合动态时间规整和注意力机制,显著提升了检测性能。

  • Motivation: 早期脊柱侧弯难以检测,传统X射线方法存在辐射风险且依赖专家经验,无法大规模筛查。
  • Method: 使用动态时间规整(DTW)分割步态视频关键阶段,引入跨包时间注意力(IBTA)机制,设计边界感知模型(BAM),并结合文本指导增强特征表示。
  • Result: 在Scoliosis1K数据集上表现优异,尤其在类别不平衡和边界病例检测中达到最佳性能。
  • Conclusion: TG-MILNet为非侵入性脊柱侧弯筛查提供了高效解决方案,具有临床推广潜力。

[25] Topological Signatures vs. Gradient Histograms: A Comparative Study for Medical Image Classification

Faisal Ahmed,Mohammad Alfrad Nobel Bhuiyan

Main category: cs.CV

TL;DR: 比较HOG和TDA两种特征提取方法在视网膜图像分类中的表现,XGBoost在两种方法下均表现最佳,结果显示两者性能相当但编码不同结构信息。

  • Motivation: 首次比较梯度基(HOG)和拓扑基(TDA)特征提取方法在医学图像分类中的效果,填补了视网膜图像领域的空白。
  • Method: 使用HOG和TDA分别提取特征,训练七种经典机器学习模型,并通过10折交叉验证评估性能。
  • Result: XGBoost在二分类任务中准确率分别为94.29%(HOG)和94.18%(TDA),多分类任务中为74.41%(HOG)和74.69%(TDA)。
  • Conclusion: HOG和TDA在性能上竞争激烈但编码不同信息,适用于其他医学图像领域并可集成到深度学习流程中。

[26] Markerless Stride Length estimation in Athletic using Pose Estimation with monocular vision

Patryk Skorupski,Cosimo Distante,Pier Luigi Mazzeo

Main category: cs.CV

TL;DR: 论文提出了一种基于计算机视觉的方法,通过视频序列估计运动员的步幅和速度变化,并结合图像处理技术为教练提供训练支持。

  • Motivation: 监控运动员的个体表现对于教练制定合适的训练计划至关重要,而传统的步幅和速度测量方法存在局限性。
  • Method: 结合概率霍夫变换和人体姿态检测算法,通过视频分析估计跑步者的腿部关节位置,并利用单应性变换计算步幅。
  • Result: 在多个比赛视频中对三名不同跑步者的实验表明,该系统是教练和训练的有用工具。
  • Conclusion: 该方法在测量和监控运动员步态参数方面具有潜在价值。

[27] Look-Back: Implicit Visual Re-focusing in MLLM Reasoning

Shuo Yang,Yuwei Niu,Yuyang Liu,Yang Ye,Bin Lin,Li Yuan

Main category: cs.CV

TL;DR: 论文提出了一种名为Look-Back的隐式方法,指导多模态大语言模型(MLLMs)在推理过程中自主重新关注视觉输入,无需显式注入视觉信息。

  • Motivation: 现有的MLLMs在推理后期过度依赖文本信息,忽视了视觉输入的整合,导致多模态推理能力受限。
  • Method: 通过分析MLLM的注意力模式,发现模型在适当引导下能自发重新关注视觉输入。基于此,提出了Look-Back方法,让模型自主决定何时、何地及如何重新关注视觉输入。
  • Result: 在多个多模态基准测试中,Look-Back显著提升了模型的推理和感知能力。
  • Conclusion: MLLMs具有内在的视觉融合推理能力,Look-Back方法通过隐式引导进一步释放了这种潜力。

[28] Intelligent Histology for Tumor Neurosurgery

Xinhai Hou,Akhil Kondepudi,Cheng Jiang,Yiwei Lyu,Samir Harake,Asadur Chowdury,Anna-Katharina Meißner,Volker Neuschmelting,David Reinecke,Gina Furtjes,Georg Widhalm,Lisa Irina Koerner,Jakob Straehle,Nicolas Neidert,Pierre Scheffler,Juergen Beck,Michael Ivan,Ashish Shah,Aditya Pandey,Sandra Camelo-Piragua,Dieter Henrik Heiland,Oliver Schnell,Chris Freudiger,Jacob Young,Melike Pekmezci,Katie Scotford,Shawn Hervey-Jumper,Daniel Orringer,Mitchel Berger,Todd Hollon

Main category: cs.CV

TL;DR: 智能组织学结合AI和SRH技术,实现术中快速、无标记的肿瘤组织分析,具有革命性潜力。

  • Motivation: 传统术中病理分析流程缓慢且资源密集,缺乏实时数字成像能力,亟需创新方法。
  • Method: 整合人工智能(AI)与受激拉曼组织学(SRH),实现快速、无标记的数字成像和实时肿瘤分析。
  • Result: SRH可在秒级生成高分辨率图像,支持AI驱动的组织学分析、分子分类和肿瘤浸润检测。
  • Conclusion: 智能组织学有望重塑21世纪神经外科的术中肿瘤分析流程,未来方向包括多机构数据集开发和多模态学习。

[29] Detection of Rail Line Track and Human Beings Near the Track to Avoid Accidents

Mehrab Hosain,Rajiv Kapoor

Main category: cs.CV

TL;DR: 提出了一种基于YOLOv5的铁路线路检测与行人识别方法,通过实时视频数据提升铁路安全。

  • Motivation: 旨在减少铁路事故,通过实时检测轨道附近的行人并提供警报。
  • Method: 利用YOLOv5深度学习模型,实时分析视频数据,识别轨道及一米范围内的行人。
  • Result: 在准确性上显著优于现有方法,验证了其有效性。
  • Conclusion: 该方法有望革新铁路安全措施,为事故预防提供重要贡献。

[30] LATTE: Latent Trajectory Embedding for Diffusion-Generated Image Detection

Ana Vasilcoiu,Ivona Najdenkoska,Zeno Geradts,Marcel Worring

Main category: cs.CV

TL;DR: LATTE提出了一种基于潜在轨迹嵌入的方法,通过建模去噪过程中的多步潜在嵌入演化,显著提升了生成图像检测的性能。

  • Motivation: 随着扩散模型生成的图像越来越逼真,区分真实与生成图像变得困难,亟需开发通用性强的检测器。
  • Method: LATTE通过建模潜在嵌入在多步去噪过程中的轨迹,结合潜在-视觉特征精炼模块和轻量级分类器,实现高效检测。
  • Result: LATTE在多个基准测试(如GenImage和DiffusionFake)上超越基线方法,并在跨生成器和跨数据集场景中表现优异。
  • Conclusion: LATTE证明了利用潜在嵌入轨迹进行生成图像检测的潜力,为数字媒体信任问题提供了有效解决方案。

[31] Towards a Psychoanalytic Perspective on VLM Behaviour: A First-step Interpretation with Intriguing Observations

Xiangrui Liu,Man Luo,Agneet Chatterjee,Hua Wei,Yezhou Yang

Main category: cs.CV

TL;DR: 该论文提出了一种心理学分类法,用于分析视觉语言模型(VLMs)的幻觉行为,并设计了一个可扩展的基准测试AIpsych,揭示了模型响应模式中的心理倾向。研究发现,随着模型规模增大,VLMs表现出更强的迎合倾向但权威偏见减少。

  • Motivation: 现有研究主要从技术或外部驱动因素解释VLMs的幻觉行为,忽视了其可能反映人类心理学中的认知偏见。本文旨在填补这一空白。
  • Method: 引入心理学分类法,设计AIpsych基准测试,分析模型架构和参数规模对行为的影响,并进行人类受试者研究验证。
  • Result: 模型规模增大时,VLMs的迎合倾向增强但权威偏见减少,表明能力提升但可能损害响应完整性。人类研究验证了假设。
  • Conclusion: 本文为理解VLMs幻觉提供了新视角,强调了将心理学原则纳入模型评估的重要性。

[32] Transparent Machine Learning: Training and Refining an Explainable Boosting Machine to Identify Overshooting Tops in Satellite Imagery

Nathan Mitchell,Lander Ver Hoef,Imme Ebert-Uphoff,Kristina Moen,Kyle Hilburn,Yoonjin Lee,Emily J. King

Main category: cs.CV

TL;DR: 本文探讨了可解释提升机(EBM)在大气科学中的应用,结合特征工程开发可解释的机器学习算法,用于卫星图像中的超顶(OT)检测。

  • Motivation: EBM在高风险应用中具有优势,但在大气科学中尚未广泛应用。本文旨在开发可解释的机器学习算法,用于气象学应用,特别是OT检测。
  • Method: 通过数学方法提取关键特征(如云纹理),并应用EBM进行分类任务,使用卫星图像数据和标签训练模型。
  • Result: 最终模型虽未达到复杂方法的精度,但表现良好,是可解释ML算法的重要进展。
  • Conclusion: EBM为气象学应用提供了可解释的机器学习解决方案,是人机协作的重要成果。

[33] AI-driven Web Application for Early Detection of Sudden Death Syndrome (SDS) in Soybean Leaves Using Hyperspectral Images and Genetic Algorithm

Pappu Kumar Yadav,Rishik Aggarwal,Supriya Paudel,Amee Parmar,Hasan Mirzakhaninafchi,Zain Ul Abideen Usmani,Dhe Yeong Tchalla,Shyam Solanki,Ravi Mural,Sachin Sharma,Thomas F. Burks,Jianwei Qin,Moon S. Kim

Main category: cs.CV

TL;DR: AI驱动的网络应用通过高光谱成像早期检测大豆猝死综合征(SDS),使用轻量级CNN和机器学习模型实现高精度分类。

  • Motivation: 大豆猝死综合征(SDS)对大豆生产构成严重威胁,需要早期检测方法以支持精准农业。
  • Method: 利用高光谱成像系统(398-1011 nm)扫描叶片样本,通过遗传算法选择关键波长,结合CNN提取特征,并用10种机器学习模型分类。
  • Result: 集成分类器(如随机森林、AdaBoost)、线性SVM和神经网络达到最高准确率(>98%),高斯过程和QDA表现不佳。
  • Conclusion: 开发的网络应用支持快速、可访问的植物病害诊断,未来将扩展数据集和功能以提升适用性。

[34] Development of an Improved Capsule-Yolo Network for Automatic Tomato Plant Disease Early Detection and Diagnosis

Idris Ochijenu,Monday Abutu Idakwo,Sani Felix

Main category: cs.CV

TL;DR: 本文提出了一种改进的Capsule-YOLO网络架构,用于自动分割复杂背景中的重叠和遮挡番茄叶片图像,并识别疾病症状,性能优于现有方法。

  • Motivation: 番茄病害威胁产量和食品安全,视觉识别是可行的解决方案。
  • Method: 采用增强的Capsule-YOLO网络架构,结合YOLO框架进行图像分割和疾病识别。
  • Result: 模型表现出色:准确率99.31%,召回率98.78%,精确率99.09%,F1分数98.93%,优于现有方法。
  • Conclusion: 该系统通过早期疾病检测和诊断建议,有望提升农业产量和食品安全。

[35] A Vision-Based Closed-Form Solution for Measuring the Rotation Rate of an Object by Tracking One Point

Daniel Raviv,Juan D. Yepes,Eiki M. Martinson

Main category: cs.CV

TL;DR: 论文提出了一种在正交投影和相机固定于刚体上某点时,通过跟踪图像中另一个特征点来解析获取刚体旋转的方法。该方法不依赖物体形状或场景先验知识,适用于并行处理,并能通过旋转率差异实现场景分割。

  • Motivation: 研究动机在于简化刚体旋转的解析计算,避免对物体形状或场景先验知识的依赖,同时实现高效的并行处理和场景分割。
  • Method: 基于正交投影和相机固定条件,通过跟踪图像中一个特征点解析计算刚体的瞬时旋转率。方法不依赖物体形状或场景信息。
  • Result: 仿真和真实视频数据验证了方法的有效性,能够准确计算旋转率并区分不同刚体的点。
  • Conclusion: 该方法提供了一种高效、通用的刚体旋转解析方案,适用于无先验知识的场景,并具备并行处理和场景分割潜力。

[36] Subject Invariant Contrastive Learning for Human Activity Recognition

Yavuz Yarici,Kiran Kokilepersaud,Mohit Prabhushankar,Ghassan AlRegib

Main category: cs.CV

TL;DR: 论文提出了一种名为SICL的损失函数,通过重新加权来自同一受试者的负样本对,抑制受试者特异性线索,提升人类活动识别的泛化能力。

  • Motivation: 由于数据标注成本高,自监督方法(如对比学习)在人类活动识别(HAR)中具有吸引力。然而,受试者间的域偏移导致模型难以泛化到新受试者。
  • Method: 提出Subject-Invariant Contrastive Learning (SICL),通过重新加权负样本对,抑制受试者特异性信息,突出活动特异性特征。
  • Result: 在三个公开基准测试(UTD-MHAD、MMAct、DARai)上,SICL比传统对比学习方法性能提升高达11%。
  • Conclusion: SICL是一种简单有效的损失函数,能够提升HAR模型的泛化能力,并适用于多种自监督和监督学习框架。

[37] LACONIC: A 3D Layout Adapter for Controllable Image Creation

Léopold Maillard,Tom Durand,Adrien Ramanana Rahary,Maks Ovsjanikov

Main category: cs.CV

TL;DR: 提出了一种新方法,为预训练的文本到图像扩散模型注入3D感知能力,支持相机控制和3D几何条件,同时考虑场景的完整上下文。

  • Motivation: 现有方法依赖2D控制,难以维持3D几何结构的一致性。
  • Method: 提出了一种新的条件方法、训练方法和适配网络,支持相机控制、3D几何条件,并考虑场景的完整上下文。
  • Result: 模型轻量级,泛化能力强,支持直观的图像编辑和风格化。
  • Conclusion: 该方法扩展了图像生成的应用范围,优于现有方法。

[38] Investigating Redundancy in Multimodal Large Language Models with Multiple Vision Encoders

Song Mao,Yang Chen,Pinglong Cai,Ding Wang,Guohang Yan,Zhi Yu,Botian Shi

Main category: cs.CV

TL;DR: 论文研究了多模态大语言模型(MLLMs)中多视觉编码器的冗余问题,提出了量化编码器贡献的指标(CUR和IG),并验证了某些编码器对性能的负面影响。

  • Motivation: 多视觉编码器旨在提升视觉理解能力,但实际中可能导致性能下降,即编码器冗余现象。
  • Method: 通过综合消融实验,提出Conditional Utilization Rate (CUR)和Information Gap (IG)指标,量化编码器的贡献和效用差异。
  • Result: 实验证实某些视觉编码器对性能贡献极小甚至负面,表明冗余现象普遍存在。
  • Conclusion: 当前多编码器设计存在低效问题,提出的指标可作为诊断工具,优化多模态架构设计。

[39] Dual-frequency Selected Knowledge Distillation with Statistical-based Sample Rectification for PolSAR Image Classification

Xinyue Xin,Ming Li,Yan Wu,Xiang Li,Peng Zhang,Dazhi Xu

Main category: cs.CV

TL;DR: 提出了一种基于统计样本校正的选择性知识蒸馏网络(SKDNet-SSR),用于双频PolSAR图像的协同分类,解决了区域一致性和双频数据利用的难题。

  • Motivation: 双频PolSAR图像的协同分类面临区域一致性对分类信息学习的影响以及双频数据合理利用的挑战。
  • Method: 设计了统计动态样本校正(SDSR)模块和双频门控选择蒸馏(DGSD)模块,分别用于优化样本纯度和实现双频数据的互补学习。
  • Result: 在四个实测双频PolSAR数据集上的实验表明,SKDNet-SSR优于其他相关方法。
  • Conclusion: SKDNet-SSR通过样本校正和双频数据互补学习,显著提升了双频PolSAR图像的分类性能。

[40] ConceptMix++: Leveling the Playing Field in Text-to-Image Benchmarking via Iterative Prompt Optimization

Haosheng Gan,Berk Tinaz,Mohammad Shahab Sepehri,Zalan Fabian,Mahdi Soltanolkotabi

Main category: cs.CV

TL;DR: 论文提出ConceptMix++框架,通过迭代优化提示词,分离提示表达与图像生成能力,提升文本到图像模型的评估公平性。

  • Motivation: 现有文本到图像(T2I)评测基准使用固定提示词,可能低估模型真实生成能力并引入偏见。
  • Method: 基于ConceptMix,引入多模态优化流程,利用视觉语言模型反馈系统性优化提示词。
  • Result: 优化提示词显著提升组合生成性能,揭示模型隐藏能力,并支持跨模型公平比较。
  • Conclusion: 固定评测方法可能低估模型能力,而ConceptMix++提供了更准确的评估框架。

[41] NOVO: Unlearning-Compliant Vision Transformers

Soumya Roy,Soumya Banerjee,Vinay Verma,Soumik Dasgupta,Deepak Gupta,Piyush Rai

Main category: cs.CV

TL;DR: 论文提出了一种无需微调的机器遗忘方法{\pname},通过训练时模拟遗忘过程,直接在请求时实现遗忘,避免了性能下降。

  • Motivation: 现有机器遗忘方法依赖微调,成本高且可能导致性能下降,需要一种更高效的方法。
  • Method: 在训练过程中随机分离类别为遗忘集和保留集,优化模型使其无法预测遗忘集,通过撤回密钥实现即时遗忘。
  • Result: 实验表明{\pname}在多种数据集和架构上优于现有方法,避免了性能下降。
  • Conclusion: {\pname}提供了一种高效、即时的机器遗忘解决方案,无需微调且性能稳定。

[42] MolVision: Molecular Property Prediction with Vision Language Models

Deepan Adak,Yogesh Singh Rawat,Shruti Vyas

Main category: cs.CV

TL;DR: MolVision利用视觉语言模型(VLMs)结合分子结构图像和文本描述,提升分子性质预测性能,在多任务基准测试中表现优于纯文本方法。

  • Motivation: 解决传统基于文本(如SMILES/SELFIES)的分子表示在预测任务中的模糊性和信息不足问题。
  • Method: 整合分子结构图像与文本描述,采用VLMs进行多模态融合,并测试零样本、少样本和微调(如LoRA)策略。
  • Result: 视觉信息显著提升预测性能,多模态融合增强泛化能力,视觉编码器与LoRA结合进一步优化效果。
  • Conclusion: MolVision展示了视觉信息在多任务分子性质预测中的重要性,为未来研究提供了新方向。

[43] Zero-shot Inexact CAD Model Alignment from a Single Image

Pattaramanee Arsomngern,Sasikarn Khwanmuang,Matthias Nießner,Supasorn Suwajanakorn

Main category: cs.CV

TL;DR: 提出了一种弱监督的9自由度对齐方法,用于不精确的3D模型,无需姿态标注且能泛化到未见类别。

  • Motivation: 现有方法依赖监督训练,限制了其适用类别范围。
  • Method: 基于基础特征构建新特征空间,使用自监督三元组损失解决对称性模糊问题,并引入纹理无关的姿态细化技术。
  • Result: 在ScanNet25k数据集上,平均对齐准确率提升4.3%,在SUN2CAD新类别测试集上表现最佳。
  • Conclusion: 该方法在弱监督条件下优于现有方法,并展示了强大的泛化能力。

[44] CPKD: Clinical Prior Knowledge-Constrained Diffusion Models for Surgical Phase Recognition in Endoscopic Submucosal Dissection

Xiangning Zhang,Jinnan Chen,Qingwei Zhang,Yaqi Wang,Chengfeng Zhou,Xiaobo Li,Dahong Qian

Main category: cs.CV

TL;DR: 提出了一种基于去噪扩散原理的新生成框架CPKD,用于内镜手术中的阶段识别,结合临床先验知识提升性能。

  • Motivation: 胃肠道恶性肿瘤预后差,内镜黏膜下剥离术(ESD)的计算机辅助系统在临床应用中面临手术阶段识别瓶颈。
  • Method: CPKD框架通过去噪扩散原理逐步重建阶段序列,结合条件掩码策略和临床先验知识优化模型。
  • Result: 在ESD820、Cholec80及多中心外部数据集上,CPKD表现优于或媲美现有最佳方法。
  • Conclusion: 扩散生成范式在手术阶段识别中有效,CPKD为临床实践提供了新工具。

[45] Leveraging Out-of-Distribution Unlabeled Images: Semi-Supervised Semantic Segmentation with an Open-Vocabulary Model

Wooseok Shin,Jisu Kang,Hyeonki Jeong,Jin Sob Kim,Sung Won Han

Main category: cs.CV

TL;DR: 提出了一种新的半监督语义分割框架SemiOVS,利用开放词汇分割模型有效利用未标记的OOD图像,显著提升性能。

  • Motivation: 现有半监督语义分割研究在基准数据集上表现良好,但未充分利用大量未标记图像,尤其是分布不同的OOD图像。
  • Method: 提出SemiOVS框架,结合开放词汇分割模型(OVS)为OOD图像生成伪标签。
  • Result: 在Pascal VOC和Context数据集上,SemiOVS性能优于PrevMatch和SemiVL,分别提升+3.5和+3.0 mIoU。
  • Conclusion: SemiOVS能有效利用未标记OOD图像,为半监督语义分割任务提供新思路。

[46] Bridging Domain Generalization to Multimodal Domain Generalization via Unified Representations

Hai Huang,Yan Xia,Sashuai Zhou,Hanting Wang,Shulei Wang,Zhou Zhao

Main category: cs.CV

TL;DR: 提出了一种利用统一表示和监督解缠框架的多模态领域泛化方法,以解决现有单模态方法在多模态任务中的不足。

  • Motivation: 多模态领域泛化(MMDG)面临目标域不可见和模态间一致性缺失的挑战,现有单模态方法直接迁移效果不佳。
  • Method: 通过统一表示映射不同模态,并结合监督解缠框架分离模态通用和模态特定信息。
  • Result: 在EPIC-Kitchens和Human-Animal-Cartoon等基准数据集上验证了方法的有效性和优越性。
  • Conclusion: 该方法显著提升了多模态领域泛化能力,解决了模态间不一致性问题。

[47] MGSfM: Multi-Camera Geometry Driven Global Structure-from-Motion

Peilin Tao,Hainan Cui,Diantao Tu,Shuhan Shen

Main category: cs.CV

TL;DR: 提出了一种新的全局运动平均框架,用于多相机系统的运动结构恢复(SfM),通过解耦旋转平均和混合平移平均模块,显著提高了效率和鲁棒性。

  • Motivation: 多相机系统在自动驾驶和机器人环境感知中日益重要,但其传统全局SfM系统因优化框架问题导致鲁棒性不足。
  • Method: 采用分层策略的旋转平均模块和结合相机间及相机到点约束的平移平均模块,使用凸距离目标函数初始化并优化。
  • Result: 在大规模数据集上,该系统匹配或超过增量SfM的精度,同时显著提高效率,优于现有全局SfM方法。
  • Conclusion: 该框架为多相机SfM应用提供了一个鲁棒的解决方案,代码已开源。

[48] Personalized Image Generation from an Author Writing Style

Sagar Gandhi,Vishal Gandhi

Main category: cs.CV

TL;DR: 论文提出了一种将作者写作风格转化为视觉表现的方法,通过结构化摘要和生成模型生成图像,验证了其有效性。

  • Motivation: 将文本定义的作者写作风格转化为视觉表现是生成AI中的新挑战,旨在实现跨模态理解和创意辅助。
  • Method: 使用作者写作摘要(AWS)作为输入,通过大型语言模型(Claude 3.7 Sonnet)生成文本提示,再由扩散模型(Stable Diffusion 3.5 Medium)生成图像。
  • Result: 生成的图像在风格匹配(平均4.08/5)和视觉独特性上表现良好,但抽象叙事元素表现仍有挑战。
  • Conclusion: 该方法为视觉风格个性化提供了端到端解决方案,并初步验证了其可行性,为创意辅助和跨模态理解开辟了新途径。

[49] Source-Free Domain Adaptation via Multi-view Contrastive Learning

Amirfarhad Farhadi,Naser Mozayani,Azadeh Zamanifar

Main category: cs.CV

TL;DR: 论文提出了一种解决源自由无监督域适应(SFUDA)中低质量原型样本和伪标签错误分配问题的方法,通过可靠样本记忆模块、多视图对比学习和噪声标签过滤技术,显著提升了分类准确率。

  • Motivation: 现实场景中隐私问题限制了敏感数据的访问,SFUDA无需目标域标注数据即可进行域适应,但面临原型样本质量低和伪标签错误分配的挑战。
  • Method: 方法包括三个阶段:可靠样本记忆模块(RSM)提升原型样本质量,多视图对比学习(MVCL)增强伪标签质量,噪声标签过滤技术进一步优化伪标签。
  • Result: 在VisDA 2017、Office-Home和Office-31数据集上,分类准确率分别比次优方法和13种先进方法平均提升了约2%和6%。
  • Conclusion: 该方法有效解决了SFUDA中的关键挑战,显著提升了域适应性能。

[50] Mirror in the Model: Ad Banner Image Generation via Reflective Multi-LLM and Multi-modal Agents

Zhao Wang,Bowen Chen,Yotaro Shimose,Sota Moriyama,Heng Wang,Shingo Takamatsu

Main category: cs.CV

TL;DR: MIMO框架通过多模态代理系统和协调循环提升广告横幅设计的自动化生成质量。

  • Motivation: 现有生成模型(如GPT-4o)在广告设计任务中无法满足结构化布局、精确排版和品牌一致性等需求。
  • Method: MIMO结合了分层多模态代理系统(MIMO-Core)和协调循环(MIMO-Loop),通过自然语言提示和标志图像输入自动纠错。
  • Result: MIMO在真实广告设计场景中显著优于现有扩散模型和基于LLM的基线方法。
  • Conclusion: MIMO为广告横幅生成提供了一种高效且高质量的自动化解决方案。

[51] Task-Specific Generative Dataset Distillation with Difficulty-Guided Sampling

Mingzhuo Li,Guang Li,Jiafeng Mao,Linfeng Ye,Takahiro Ogawa,Miki Haseyama

Main category: cs.CV

TL;DR: 论文提出了一种基于任务特定采样策略的生成式数据集蒸馏方法,通过考虑目标任务的难度分布提升下游分类任务性能。

  • Motivation: 减轻深度神经网络对大规模数据集的依赖,同时关注任务特定信息以优化下游性能。
  • Method: 提出任务特定采样策略,从更大的图像池中采样,匹配原始数据集的难度分布,并使用对数变换校正分布偏差。
  • Result: 实验证明该方法有效,并具有提升其他下游任务性能的潜力。
  • Conclusion: 该方法通过任务特定采样策略显著提升了数据集蒸馏的效果,适用于多种下游任务。

[52] De-Fake: Style based Anomaly Deepfake Detection

Sudev Kumar Padhi,Harshit Kumar,Umesh Kashyap,Sk. Subidh Ali

Main category: cs.CV

TL;DR: SafeVision利用风格特征检测人脸交换的深度伪造内容,无需访问真实面部图像,提供隐私保护。

  • Motivation: 人脸交换深度伪造在现实世界中广泛传播虚假信息、损害声誉等,现有检测方法依赖面部标志或像素特征,效果不佳。
  • Method: 通过识别风格差异检测人脸交换图像,使用多数据集和交换方法进行全面评估。
  • Result: SafeVision在多样化场景中有效检测人脸交换深度伪造,提供可靠且可扩展的解决方案。
  • Conclusion: SafeVision是首个利用风格特征并提供隐私保护的深度伪造检测方法,适用于现实应用。

[53] DESign: Dynamic Context-Aware Convolution and Efficient Subnet Regularization for Continuous Sign Language Recognition

Sheng Liu,Yiheng Yu,Yuan Feng,Min Xu,Zhelun Jin,Yining Jiang,Tiantian Yuan

Main category: cs.CV

TL;DR: DESign框架通过动态上下文感知卷积(DCAC)和子网正则化CTC(SR-CTC)解决了连续手语识别(CSLR)中的多样性和过拟合问题,实现了最先进的性能。

  • Motivation: 现有CSLR方法难以处理多样样本,且动态卷积仅关注空间建模,忽略了时间动态和上下文依赖。
  • Method: 提出DCAC动态捕捉帧间运动线索,并基于上下文调整卷积权重;SR-CTC通过子网监督防止CTC过拟合,增强多尺度一致性。
  • Result: 在PHOENIX14、PHOENIX14-T和CSL-Daily数据集上达到最先进性能。
  • Conclusion: DESign通过DCAC和SR-CTC有效提升了CSLR的泛化能力和准确性,且SR-CTC可无缝集成现有模型。

[54] Be the Change You Want to See: Revisiting Remote Sensing Change Detection Practices

Blaž Rolih,Matic Fučka,Filip Wolf,Luka Čehovin Zajc

Main category: cs.CV

TL;DR: 论文指出,在遥感变化检测中,基础设计选择(如主干网络选择、预训练策略和训练配置)对性能的提升比新架构组件的添加更显著。通过系统优化基线模型,作者证明了简单模型也能达到或超越现有最佳性能。

  • Motivation: 现有方法过于依赖新组件的添加,而忽视了基础设计选择的重要性,导致性能提升受限。
  • Method: 系统分析并优化基线模型的基础设计选择,如主干网络、预训练策略和训练配置。
  • Result: 优化后的简单模型在六个挑战性数据集上达到或超越现有最佳性能,且这些设计选择对其他方法也有效。
  • Conclusion: 基础设计选择的优化与架构创新同样重要,为未来方法提供了强有力指导。

[55] MRC-DETR: An Adaptive Multi-Residual Coupled Transformer for Bare Board PCB Defect Detection

Jiangzhong Cao,Huanqi Wu,Xu Zhang,Lianghong Tan,Huan Zhang

Main category: cs.CV

TL;DR: 提出了一种名为MRC-DETR的新型检测框架,用于PCB缺陷检测,通过改进特征表示、减少计算冗余和提供高质量数据集,显著提升了检测效率和精度。

  • Motivation: 现有PCB缺陷检测方法存在特征表示不足、计算冗余和训练数据缺乏的问题,无法满足工业对精度和效率的需求。
  • Method: 设计了Multi-Residual Directional Coupled Block (MRDCB)增强特征表示,引入Adaptive Screening Pyramid Network (ASPN)减少计算冗余,并构建了高质量数据集。
  • Result: MRC-DETR框架显著提高了检测效率和精度,同时填补了公共数据集的空白。
  • Conclusion: MRC-DETR为PCB缺陷检测提供了一种高效且准确的解决方案,并推动了该领域的研究发展。

[56] Masked Temporal Interpolation Diffusion for Procedure Planning in Instructional Videos

Yufan Zhou,Zhaobo Qi,Lingshuai Lin,Junqi Jing,Tingting Chai,Beichen Zhang,Shuhui Wang,Weigang Zhang

Main category: cs.CV

TL;DR: 提出了一种名为MTID的模型,通过潜在空间时间插值模块和动作感知掩码机制,显著提升了教学视频中动作序列的连贯性和任务对齐性。

  • Motivation: 解决教学视频中动作序列生成的挑战,特别是捕捉动作间复杂的时间关系。
  • Method: MTID模型结合了潜在空间时间插值模块和动作感知掩码投影机制,并通过任务自适应掩码邻近损失优化推理结果。
  • Result: 在三个基准数据集上的实验表明,MTID在大多数指标上表现优异。
  • Conclusion: MTID通过增强视觉监督和优化动作生成空间,显著提升了动作序列的连贯性和任务对齐性。

[57] Learning Normals of Noisy Points by Local Gradient-Aware Surface Filtering

Qing Li,Huifang Feng,Xun Gong,Yu-Shen Liu

Main category: cs.CV

TL;DR: 提出了一种通过局部梯度感知表面滤波从噪声点云中学习法线的新方法,解决了现有方法对干净数据的依赖问题。

  • Motivation: 噪声点云的法线估计是3D几何处理中的持久挑战,现有方法通常依赖干净数据和监督先验。
  • Method: 利用隐函数约束的局部梯度,通过距离测量算子和隐式场滤波构建表面点,并加入梯度一致性约束。
  • Result: 在法线估计、表面重建和点云去噪实验中表现出最先进的性能。
  • Conclusion: 该方法通过局部梯度感知滤波有效解决了噪声点云的法线估计问题。

[58] Pose-Star: Anatomy-Aware Editing for Open-World Fashion Images

Yuran Dong,Mang Ye

Main category: cs.CV

TL;DR: 论文提出Pose-Star框架,通过动态重组身体结构生成解剖感知的掩码,解决现有两阶段流程在掩码可控性和姿势鲁棒性上的不足。

  • Motivation: 现有两阶段流程(掩码生成+扩散编辑)过于关注生成器优化,忽视了掩码可控性,导致用户定义灵活性和姿势鲁棒性不足。
  • Method: 提出Pose-Star框架,通过骨骼关键点校准扩散注意力(Star tokens),结合相位感知分析和阈值掩码等技术,增强复杂姿势下的结构定位和噪声抑制。
  • Result: 实现了解剖感知、姿势鲁棒的编辑,提升了用户定义灵活性和掩码质量。
  • Conclusion: Pose-Star为工业级时尚图像编辑奠定了基础,填补了可控基准与开放世界需求之间的差距。

[59] Rectifying Adversarial Sample with Low Entropy Prior for Test-Time Defense

Lina Ma,Xiaowei Fu,Fuxiang Huang,Xinbo Gao,Lei Zhang

Main category: cs.CV

TL;DR: 论文提出了一种基于低熵先验(LE)的两阶段REAL方法,用于提升对抗样本的通用鲁棒性。

  • Motivation: 现有防御方法无法应对未知攻击,导致对抗鲁棒性的泛化问题。论文试图通过揭示对抗样本中普遍存在的低熵特性来解决这一问题。
  • Method: 提出REAL方法,包括两个阶段:1)通过反向最大化预测熵消除对抗性;2)通过正向最小化预测熵确保正确分类。同时引入攻击感知权重机制。
  • Result: 实验表明,REAL显著提升了现有样本校正模型的性能。
  • Conclusion: LE先验为对抗样本防御提供了新思路,REAL方法在提升通用鲁棒性方面具有潜力。

[60] Unlearning the Noisy Correspondence Makes CLIP More Robust

Haochen Han,Alex Jinpeng Wang,Peijun Ye,Fangming Liu

Main category: cs.CV

TL;DR: 提出了一种名为NCU的新框架,通过遗忘预训练视觉语言模型中的噪声对应关系,提升模型鲁棒性。

  • Motivation: 视觉语言模型的数据需求不断增长,但数据质量与噪声对应关系(NC)问题日益突出,影响模型性能。
  • Method: 提出NCU框架,通过学习最难的负信息,显式地遗忘噪声知识,并通过最优传输目标实现快速微调。
  • Result: 在多种下游任务中验证了NCU的有效性,其零样本迁移性能优于现有方法,且计算开销更低。
  • Conclusion: NCU为预训练视觉语言模型提供了一种高效的去噪方法,显著提升了模型性能。

[61] Radar Tracker: Moving Instance Tracking in Sparse and Noisy Radar Point Clouds

Matthias Zeller,Daniel Casado Herraez,Jens Behley,Michael Heidingsfeld,Cyrill Stachniss

Main category: cs.CV

TL;DR: 论文提出了一种基于学习的雷达跟踪器,结合时间偏移预测和注意力机制,用于稀疏雷达点云中的移动实例跟踪,性能优于现有方法。

  • Motivation: 提升自动驾驶车辆对周围环境的感知能力,尤其是稀疏雷达点云中的移动实例跟踪,以支持可靠的路径规划和避障。
  • Method: 提出了一种结合时间偏移预测的学习方法,利用注意力机制整合几何和外观特征,优化中心关联和分割性能。
  • Result: 在RadarScenes数据集的移动实例跟踪基准测试中,性能优于当前最优方法。
  • Conclusion: 该方法通过结合几何和外观特征,显著提升了稀疏雷达点云中的移动实例跟踪性能。

[62] Helping CLIP See Both the Forest and the Trees: A Decomposition and Description Approach

Leyan Xue,Zongbo Han,Guangyu Wang,Qinghua Hu,Mingyue Cheng,Changqing Zhang

Main category: cs.CV

TL;DR: 论文提出了一种通过随机多裁剪增强激活CLIP局部特征分析能力的方法,解决了其偏向全局图像模式的局限性。

  • Motivation: 传统提示工程依赖粗粒度类别标签,忽略了细粒度局部语义,而现有方法假设VLMs能识别局部细节但实际存在局限性。
  • Method: 采用随机多裁剪增强,通过裁剪部分区域约束模型感受野并重新校准注意力机制。
  • Result: 在零样本、少样本和测试时适应设置下,D&D方法表现出色。
  • Conclusion: 该方法简单有效,能够显著提升CLIP对局部细节的处理能力。

[63] Radar Velocity Transformer: Single-scan Moving Object Segmentation in Noisy Radar Point Clouds

Matthias Zeller,Vardeep S. Sandhu,Benedikt Mersch,Jens Behley,Michael Heidingsfeld,Cyrill Stachniss

Main category: cs.CV

TL;DR: 提出了一种基于Transformer的单次雷达扫描移动物体分割方法,利用雷达的多普勒速度信息,显著提升了分割精度和速度。

  • Motivation: 解决自动驾驶中雷达点云稀疏且噪声高的问题,直接利用雷达的多普勒速度信息实现单次扫描的移动物体分割。
  • Method: 开发了Radar Velocity Transformer网络,通过在每个模块中融入速度信息,并提出基于Transformer的上采样方法。
  • Result: 网络运行速度快于传感器帧率,分割结果优于现有方法,仅需单次雷达扫描数据。
  • Conclusion: 该方法显著提升了雷达点云中移动物体的分割性能,为自动驾驶场景理解提供了新思路。

[64] Information-Bottleneck Driven Binary Neural Network for Change Detection

Kaijie Yin,Zhiyuan Zhang,Shu Kong,Tian Gao,Chengzhong Xu,Hui Kong

Main category: cs.CV

TL;DR: BiCD是一种专为变化检测设计的二进制神经网络,通过增强表示能力和特征可分性,解决了传统二值化方法在变化检测中的性能下降问题。

  • Motivation: 传统二值化方法直接量化权重和激活值,导致模型在变化检测中表现不佳,BiCD旨在提升二值化网络的表示能力和特征区分能力。
  • Method: 引入基于信息瓶颈原则的辅助目标,设计紧凑的可学习辅助模块,优化重构损失和变化检测损失。
  • Result: 在街景和遥感数据集上,BiCD实现了二值化网络中变化检测的最先进性能。
  • Conclusion: BiCD为二值化网络在变化检测领域设立了新标杆,显著提升了检测精度。

[65] Multimodal Alignment with Cross-Attentive GRUs for Fine-Grained Video Understanding

Namho Kim,Junhwa Kim

Main category: cs.CV

TL;DR: 提出了一种多模态框架,融合视频、图像和文本表示,通过GRU序列编码器和跨模态注意力机制提升细粒度视频分类性能。

  • Motivation: 细粒度视频分类需要理解复杂的时空和语义信息,单一模态难以胜任。
  • Method: 使用GRU序列编码器和跨模态注意力机制融合多模态表示,结合分类或回归损失训练,并通过特征增强和自编码技术正则化。
  • Result: 在两个基准测试(DVD和Aff-Wild2)上显著优于单模态基线,跨注意力和特征增强对鲁棒性和性能贡献显著。
  • Conclusion: 多模态融合策略在细粒度视频分类任务中表现出色,跨注意力和特征增强是关键因素。

[66] PhenoBench: A Comprehensive Benchmark for Cell Phenotyping

Jerome Luescher,Nora Koreuber,Jannik Franzen,Fabian H. Reith,Claudia Winklmayr,Christian M. Schuerch,Dagmar Kainmueller,Josef Lorenz Rumberger

Main category: cs.CV

TL;DR: PhenoBench是一个针对H&E染色病理图像中细胞表型分析的综合性基准测试,包括新数据集PhenoCell和评估代码,揭示了现有基础模型在复杂任务中的局限性。

  • Motivation: 目前缺乏对基础模型在细胞表型分析性能的统一评估,因此提出PhenoBench填补这一空白。
  • Method: 提供PhenoCell数据集(14种细胞类型)和评估代码,系统测试多种病理基础模型在不同泛化场景下的表现。
  • Result: 现有模型在PhenoCell上表现较差(F1分数低至0.20),表明其挑战性远超以往基准测试。
  • Conclusion: PhenoCell为未来基础模型和监督模型的评估提供了重要资源。

[67] CLOT: Closed Loop Optimal Transport for Unsupervised Action Segmentation

Elena Bueno-Benito,Mariella Dimiccoli

Main category: cs.CV

TL;DR: CLOT提出了一种基于最优传输的多级循环特征学习框架,改进了无监督动作分割的效果。

  • Motivation: ASOT方法缺乏段级监督,限制了帧与动作表示之间的反馈效果。
  • Method: CLOT通过编码器-解码器架构,解决两个独立的最优传输问题,并通过跨注意力机制优化帧嵌入和伪标签。
  • Result: 在四个基准数据集上的实验表明,循环学习对无监督动作分割有益。
  • Conclusion: CLOT通过引入多级循环学习,显著提升了无监督动作分割的性能。

[68] Foundation versus Domain-specific Models: Performance Comparison, Fusion, and Explainability in Face Recognition

Redwan Sony,Parisa Farmanifard,Arun Ross,Anil K. Jain

Main category: cs.CV

TL;DR: 本文比较了通用基础模型(如CLIP、BLIP、LLaVa、DINO)与领域特定人脸识别模型(如AdaFace、ArcFace)在人脸识别任务中的表现。实验表明领域特定模型在零样本情况下表现更优,但通用模型在上下文信息丰富的图像中表现更好。融合两种模型可提升性能,且通用模型能增强解释性。

  • Motivation: 探讨通用基础模型与领域特定模型在人脸识别任务中的性能差异,以及如何结合两者优势提升任务表现。
  • Method: 通过多个基准数据集和实验比较不同模型的性能,包括零样本测试、图像裁剪尺寸的影响、模型融合效果等。
  • Result: 领域特定模型在零样本情况下表现更优;通用模型在上下文丰富的图像中表现更好;模型融合显著提升性能;通用模型能增强解释性和解决低置信度决策。
  • Conclusion: 结合领域特定模型与通用基础模型能显著提升人脸识别任务的性能和解释性,需合理利用两者的优势。

[69] Beyond Accuracy: Metrics that Uncover What Makes a `Good' Visual Descriptor

Ethan Lin,Linxi Zhao,Atharva Sehgal,Jennifer J. Sun

Main category: cs.CV

TL;DR: 本文系统分析了文本视觉描述符的质量,提出两个对齐指标(全局对齐和CLIP相似性),以研究描述符生成策略与基础模型特性的关系。

  • Motivation: 研究文本视觉描述符的有效性及其与视觉语言模型预训练数据的复杂关系,以改进视觉概念发现和图像分类。
  • Method: 通过评估多种描述符生成方法(从零样本LLM生成到迭代优化),并引入全局对齐和CLIP相似性两个指标。
  • Result: 揭示了不同描述符生成策略与基础模型特性的交互作用,提供了超越准确率评估的见解。
  • Conclusion: 对齐指标为研究描述符有效性提供了新视角,有助于优化视觉语言模型的应用。

[70] An Advanced Deep Learning Framework for Ischemic and Hemorrhagic Brain Stroke Diagnosis Using Computed Tomography (CT) Images

Md. Sabbir Hossen,Eshat Ahmed Shuvo,Shibbir Ahmed Arif,Pabon Shaha,Md. Saiduzzaman,Mostofa Kamal Nasir

Main category: cs.CV

TL;DR: 该论文提出了一种结合预训练深度学习模型和特征工程技术的机器学习方法,用于早期脑卒中检测,最高分类准确率达97.93%。

  • Motivation: 脑卒中是全球死亡和长期残疾的主要原因之一,需要快速准确的预测技术。传统诊断方法依赖临床评估,机器学习为改进诊断提供了新途径。
  • Method: 使用预训练模型(如DenseNet201、InceptionV3等)进行特征提取,结合BFO、PCA和LDA等特征工程技术,再用SVC、RF等分类算法进行分类。
  • Result: MobileNetV2、LDA和SVC的组合实现了97.93%的最高分类准确率,显著优于其他组合。
  • Conclusion: 轻量级预训练模型结合优化和分类技术,可有效提升脑卒中诊断性能。

[71] Predicting Asphalt Pavement Friction Using Texture-Based Image Indicator

Bingjie Lu,Zhengyang Lu,Yijiashun Qi,Hanzhe Guo,Tianyao Sun,Zunduo Zhao

Main category: cs.CV

TL;DR: 提出了一种基于纹理的图像指标来预测路面摩擦,验证其低成本且易于测量。

  • Motivation: 路面抗滑性对道路安全至关重要,需要一种低成本且易于测量的方法。
  • Method: 通过图像分析提出集料突出面积作为指标,并建立统计模型与摩擦系数关联。
  • Result: 调整后的R平方值均高于0.90,比其他图像指标更准确反映摩擦变化。
  • Conclusion: 该指标在混合料设计阶段具有成本效益,适用于路面摩擦评估。

[72] 2.5D Object Detection for Intelligent Roadside Infrastructure

Nikolai Polley,Yacin Boualili,Ferdinand Mütsch,Maximilian Zipfl,Tobias Fleck,J. Marius Zöllner

Main category: cs.CV

TL;DR: 论文提出了一种针对路边基础设施摄像头的2.5D目标检测框架,通过检测车辆地面的平行四边形来解决传统3D检测在俯视角下的泛化问题。

  • Motivation: 自动驾驶车辆的车载传感器可能被遮挡或视野受限,而路边基础设施感知系统可以提供互补信息,但传统3D检测算法难以适应俯视角和陡峭相机角度的域偏移。
  • Method: 采用2.5D目标检测框架,检测车辆地面的平行四边形,保留平面位置、大小和方向,忽略高度。训练数据结合真实和合成场景。
  • Result: 在未见过的相机视角和恶劣天气条件下表现出高检测精度、强泛化能力和鲁棒性。
  • Conclusion: 该方法有效解决了俯视角下的目标检测问题,为自动驾驶提供了可靠的补充信息。

[73] SciVid: Cross-Domain Evaluation of Video Models in Scientific Applications

Yana Hasson,Pauline Luc,Liliane Momeni,Maks Ovsjanikov,Guillaume Le Moing,Alina Kuznetsova,Ira Ktena,Jennifer J. Sun,Skanda Koppula,Dilara Gokay,Joseph Heyward,Etienne Pot,Andrew Zisserman

Main category: cs.CV

TL;DR: 论文探讨了视频基础模型(ViFMs)作为跨学科通用方法的潜力,并通过SciVid基准测试验证其性能。

  • Motivation: 研究ViFMs是否能够通过大规模预训练数据实现跨学科知识迁移,并评估其与领域专用模型的竞争力。
  • Method: 引入SciVid基准测试,涵盖五个科学视频任务,适配六种领先的ViFMs,使用简单的可训练读出模块。
  • Result: 实验表明,ViFMs在多个应用中能取得最先进的结果,但也揭示了现有模型的局限性。
  • Conclusion: ViFMs在科学应用中具有潜力,但需进一步开发通用性更强的模型。

[74] Causal-SAM-LLM: Large Language Models as Causal Reasoners for Robust Medical Segmentation

Tao Tang,Shijie Xu,Yiting Wu,Zhixiang Lu

Main category: cs.CV

TL;DR: Causal-SAM-LLM框架通过结合语言模型和因果推理,提升了医学图像分割模型的泛化能力,显著提高了OOD鲁棒性。

  • Motivation: 解决深度学习模型在医学图像分割中因学习虚假相关性而导致的泛化能力不足问题。
  • Method: 结合冻结的SAM编码器,引入语言对抗解耦(LAD)和测试时因果干预(TCI)技术。
  • Result: 在跨扫描器、跨模态和跨解剖学设置下,平均Dice分数提升6.2点,Hausdorff距离减少15.8毫米。
  • Conclusion: Causal-SAM-LLM为构建鲁棒、高效且可交互控制的医学AI系统提供了新方向。

[75] From Video to EEG: Adapting Joint Embedding Predictive Architecture to Uncover Visual Concepts in Brain Signal Analysis

Amir Hojjati,Lu Li,Ibrahim Hameed,Anis Yazidi,Pedro G. Lind,Rabindra Khadka

Main category: cs.CV

TL;DR: EEG-VJEPA是一种基于视频联合嵌入预测架构的自监督学习方法,用于EEG分类,通过时空联合嵌入和自适应掩码学习,显著提升了分类准确率并捕捉生理相关模式。

  • Motivation: EEG信号分析面临标记数据有限、高维度和缺乏可扩展模型的问题,现有自监督学习方法未能充分捕捉时空依赖性。
  • Method: 将EEG信号视为视频序列,采用V-JEPA框架,通过联合嵌入和自适应掩码学习时空表示。
  • Result: 在TUH异常EEG数据集上,EEG-VJEPA的分类准确率优于现有方法,并能捕捉生理相关模式。
  • Conclusion: EEG-VJEPA为临床EEG分析提供了可扩展且可信的框架,支持人机协作诊断。

[76] Dynamic Multimodal Prototype Learning in Vision-Language Models

Xingyu Zhu,Shuo Wang,Beier Zhu,Miaoge Li,Yunfan Li,Junfeng Fang,Zhicai Wang,Dongsheng Wang,Hanwang Zhang

Main category: cs.CV

TL;DR: ProtoMM是一个无需训练的多模态原型框架,通过结合文本和视觉特征提升预训练视觉语言模型在测试时的适应能力。

  • Motivation: 现有方法仅关注文本模态的原型学习,忽略了类名的模糊语义,导致原型无法充分捕捉视觉概念,性能受限。
  • Method: ProtoMM通过将原型视为文本描述和视觉粒子的离散分布,动态更新视觉粒子,并结合最优传输问题量化原型和测试图像的语义距离。
  • Result: 在15个零样本基准测试中,ProtoMM平均准确率提升1.03%,优于现有方法。
  • Conclusion: ProtoMM通过多模态原型动态学习,显著提升了模型在未见场景中的泛化能力。

[77] On the rankability of visual embeddings

Ankit Sonthalia,Arnas Uselis,Seong Joon Oh

Main category: cs.CV

TL;DR: 研究发现视觉嵌入模型能通过线性方向(称为“排序轴”)捕捉连续有序属性,且仅需少量样本即可恢复有意义的排序轴。

  • Motivation: 探索视觉嵌入模型是否能通过线性方向捕捉连续有序属性,以支持图像排序等新应用。
  • Method: 定义“可排序”模型,并在7种编码器和9个数据集上验证其有效性,仅需少量样本即可恢复排序轴。
  • Result: 发现许多嵌入模型天生具有可排序性,且仅需少量样本即可恢复有意义的排序轴。
  • Conclusion: 研究为图像排序在向量数据库中的应用提供了新思路,并推动了对可排序嵌入结构的进一步研究。

[78] SAMed-2: Selective Memory Enhanced Medical Segment Anything Model

Zhiling Yan,Sifan Song,Dingjie Song,Yiwei Li,Rong Zhou,Weixiang Sun,Zhennong Chen,Sekeun Kim,Hui Ren,Tianming Liu,Quanzheng Li,Xiang Li,Lifang He,Lichao Sun

Main category: cs.CV

TL;DR: SAMed-2是一个基于SAM-2架构的医学图像分割基础模型,通过引入时间适配器和置信驱动记忆机制,解决了医学数据复杂性和噪声问题。

  • Motivation: 医学图像分割面临数据复杂性、噪声标注和多模态持续学习的挑战,现有模型难以直接适应。
  • Method: 提出SAMed-2,在图像编码器中加入时间适配器捕捉图像相关性,并采用置信驱动记忆机制存储高确定性特征。
  • Result: 在内部基准和10个外部数据集上表现优于现有方法,特别是在多任务场景中。
  • Conclusion: SAMed-2通过创新设计有效应对医学图像分割的挑战,性能显著提升。

[79] Sign Spotting Disambiguation using Large Language Models

JianHe Low,Ozge Mercanoglu Sincan,Richard Bowden

Main category: cs.CV

TL;DR: 提出了一种基于大语言模型(LLMs)的无训练框架,显著提升了手语识别(sign spotting)的质量,解决了词汇不灵活性和连续手语流中的模糊性问题。

  • Motivation: 解决手语翻译中数据稀缺问题,并通过自动手语识别实现大规模帧级监督,但面临词汇不灵活性和模糊性挑战。
  • Method: 提取全局时空和手形特征,通过动态时间规整和余弦相似度与大规模手语词典匹配,利用LLM进行上下文感知的词汇消歧。
  • Result: 在合成和真实手语数据集上表现出优于传统方法的准确性和句子流畅性。
  • Conclusion: 展示了LLMs在手语识别中的潜力,为无训练框架提供了新思路。

[80] Computationally efficient non-Intrusive pre-impact fall detection system

Praveen Jesudhas,Raghuveera T,Shiney Jeyaraj

Main category: cs.CV

TL;DR: 提出了一种非侵入性且计算高效的预跌倒检测系统,利用视频数据和简化神经网络模型,显著降低计算需求,同时保持高准确性。

  • Motivation: 现有跌倒检测系统要么侵入性强,要么计算资源需求高,限制了其广泛应用。
  • Method: 利用视频数据提取跌倒特征,采用简化的LSTM网络模型,减少计算成本。
  • Result: 计算需求降低18倍,准确率达88%,适合工业和住宅安全应用。
  • Conclusion: 该系统具有低计算需求和高准确性,适合广泛部署。

[81] Less is More: Empowering GUI Agent with Context-Aware Simplification

Gongwei Chen,Xurui Zhou,Rui Shao,Yibo Lyu,Kaiwen Zhou,Shuai Wang,Wentao Li,Yinchuan Li,Zhongang Qi,Liqiang Nie

Main category: cs.CV

TL;DR: 论文提出了一种名为SimpAgent的上下文感知简化框架,通过掩码元素剪枝和一致性引导的历史压缩模块,解决了GUI代理中元素和历史上下文建模的挑战,显著提升了效率和性能。

  • Motivation: 当前GUI代理从文本依赖转向纯视觉方法,但忽视了上下文建模的挑战,如无关元素的干扰和历史信息的高冗余。
  • Method: 提出掩码元素剪枝方法减少无关元素干扰,设计一致性引导的历史压缩模块优化历史信息处理。
  • Result: SimpAgent减少了27%的FLOPs,并在多样化的GUI导航任务中表现出色。
  • Conclusion: SimpAgent通过简化上下文建模,显著提升了GUI代理的效率和性能,具有广泛的应用潜力。

[82] Outdoor Monocular SLAM with Global Scale-Consistent 3D Gaussian Pointmaps

Chong Cheng,Sicheng Yu,Zijian Wang,Yifan Zhou,Hao Wang

Main category: cs.CV

TL;DR: S3PO-GS是一种基于3D高斯点云的RGB-only户外SLAM方法,解决了现有方法缺乏几何先验和尺度漂移的问题,通过自一致的跟踪模块和动态映射模块提升了跟踪精度和场景重建质量。

  • Motivation: 现有3DGS SLAM方法在户外场景中缺乏几何先验或存在尺度漂移问题,限制了其性能。
  • Method: 提出自一致的跟踪模块和基于块的动态映射模块,避免累积误差并引入几何先验。
  • Result: 在Waymo、KITTI和DL3DV数据集上,S3PO-GS在视图合成和跟踪精度上达到最优。
  • Conclusion: S3PO-GS在复杂户外环境中表现出色,显著提升了3DGS SLAM的性能。

[83] Flow-Anchored Consistency Models

Yansong Peng,Kai Zhu,Yu Liu,Pingyu Wu,Hebei Li,Xiaoyan Sun,Feng Wu

Main category: cs.CV

TL;DR: FACM通过Flow-Anchoring策略解决CMs训练不稳定的问题,显著提升生成性能。

  • Motivation: CMs在少步生成中效率高,但训练不稳定,原因是模型失去对瞬时速度场的掌握。
  • Method: 提出FACM,利用Flow Matching任务作为CM目标的锚点,无需架构修改。
  • Result: 在ImageNet 256x256上,NFE=2时FID为1.32,NFE=1时为1.76,优于现有方法。
  • Conclusion: FACM为高性能少步生成模型提供了通用有效的解决方案。

[84] ChestGPT: Integrating Large Language Models and Vision Transformers for Disease Detection and Localization in Chest X-Rays

Shehroz S. Khan,Petar Przulj,Ahmed Ashraf,Ali Abedi

Main category: cs.CV

TL;DR: ChestGPT结合EVA ViT和Llama 2 LLM,通过深度学习框架实现胸部X光片的疾病分类和定位,提升放射科医生的工作效率。

  • Motivation: 全球放射科医生需求激增,但供给不足,计算机视觉和图像处理技术有望填补这一缺口。
  • Method: 整合EVA ViT和Llama 2 LLM,将X光图像转换为token,结合提示词进行疾病分类和定位。
  • Result: 在VinDr-CXR数据集上F1得分为0.76,成功定位病灶并生成感兴趣区域边界框。
  • Conclusion: ChestGPT作为辅助工具,可减轻放射科医生负担,提供初步诊断结果和感兴趣区域。

[85] StreamDiT: Real-Time Streaming Text-to-Video Generation

Akio Kodaira,Tingbo Hou,Ji Hou,Masayoshi Tomizuka,Yue Zhao

Main category: cs.CV

TL;DR: StreamDiT提出了一种基于流匹配和移动缓冲区的流式视频生成模型,通过混合训练和多步蒸馏实现实时性能。

  • Motivation: 现有文本到视频生成模型通常只能离线生成短视频,限制了交互和实时应用。
  • Method: StreamDiT基于流匹配和移动缓冲区设计,采用混合训练和窗口注意力机制,并通过多步蒸馏减少计算量。
  • Result: 蒸馏后的模型在单GPU上达到16 FPS的实时性能,支持512p分辨率视频流生成。
  • Conclusion: StreamDiT实现了实时视频生成,适用于流式、交互式和视频到视频应用。

[86] Efficient Event-Based Semantic Segmentation via Exploiting Frame-Event Fusion: A Hybrid Neural Network Approach

Hebei Li,Yansong Peng,Jiahui Yuan,Peixi Wu,Jin Wang,Yueyi Zhang,Xiaoyan Sun

Main category: cs.CV

TL;DR: 提出了一种高效的事件与帧结合的图像语义分割框架,通过三个专用模块优化特征融合,显著提升精度并降低能耗。

  • Motivation: 现有事件相机语义分割方法未能充分利用帧与事件的互补信息,导致训练复杂且计算成本高。
  • Method: 采用混合框架,结合脉冲神经网络(事件)和人工神经网络(帧),并引入ATW Injector、EDS Injector和CSF模块优化特征交互。
  • Result: 在多个数据集上达到最优精度,能耗降低65%(DSEC-Semantic数据集)。
  • Conclusion: 该框架有效整合事件与帧信息,显著提升语义分割性能与效率。

[87] FastDINOv2: Frequency Based Curriculum Learning Improves Robustness and Training Speed

Jiaqi Zhang,Juntuo Wang,Zhixin Sun,John Zou,Randall Balestriero

Main category: cs.CV

TL;DR: 提出了一种新的DINOv2预训练策略,通过频率过滤课程和高斯噪声补丁增强,显著加速收敛并提升鲁棒性。

  • Motivation: 大规模视觉基础模型(如DINOv2)需要大量计算资源,难以在私有数据或新模态上复现。本文旨在降低预训练的计算需求,同时提升模型鲁棒性。
  • Method: 采用频率过滤课程(低频优先)和高斯噪声补丁增强策略,应用于ViT-B/16架构,在ImageNet-1K上训练。
  • Result: 预训练时间和FLOPs分别减少1.6倍和2.25倍,同时在ImageNet-C上保持与基线相当的鲁棒性,线性探测性能也保持竞争力。
  • Conclusion: 该方法在效率和鲁棒性上取得双重优势,为大规模自监督基础模型提供了更可行的解决方案,并探索了数据课程和增强对模型鲁棒性的影响。

[88] Zero Memory Overhead Approach for Protecting Vision Transformer Parameters

Fereshteh Baradaran,Mohsen Raji,Azadeh Baradaran,Arezoo Baradaran,Reihaneh Akbarifard

Main category: cs.CV

TL;DR: 提出了一种零内存开销的容错技术,通过替换ViT参数的最低位为奇偶校验位来检测位翻转故障,并通过掩码处理故障参数,显著提升模型可靠性。

  • Motivation: 随着ViT在安全关键应用中的普及,确保其在位翻转故障下的正确功能变得至关重要。
  • Method: 将参数的最低位替换为奇偶校验位以检测故障,检测到故障后将参数掩码为零。
  • Result: 该方法将ViT模型对位翻转的鲁棒性提高了三个数量级,且无内存开销。
  • Conclusion: 该技术是一种高效的零开销容错解决方案,适用于关键应用中的ViT模型。

[89] Query-Based Adaptive Aggregation for Multi-Dataset Joint Training Toward Universal Visual Place Recognition

Jiuhong Xiao,Yang Zhou,Giuseppe Loianno

Main category: cs.CV

TL;DR: 提出了一种基于查询的自适应聚合(QAA)方法,用于解决视觉地点识别(VPR)中多数据集联合训练的信息容量饱和问题,显著提升了模型的泛化能力。

  • Motivation: 现有VPR方法通常在单一数据集上训练,导致模型泛化能力受限;多数据集联合训练虽有望解决此问题,但信息容量饱和限制了性能。
  • Method: 提出QAA技术,利用学习到的查询作为参考码本,通过跨查询相似性(CS)生成鲁棒描述符。
  • Result: QAA在多个数据集上表现优于现有方法,实现了泛化与峰值性能的平衡。
  • Conclusion: QAA通过自适应聚合机制有效提升了VPR模型的泛化能力,且计算复杂度低,具有广泛应用潜力。

[90] Interpretable Diffusion Models with B-cos Networks

Nicola Bernold,Moritz Vandenhirtz,Alice Bizeul,Julia E. Vogt

Main category: cs.CV

TL;DR: 提出了一种基于B-cos模块的可解释扩散模型架构,用于分析提示词对生成图像的影响。

  • Motivation: 现有文本到图像扩散模型难以准确反映提示词的所有语义信息,且缺乏自动检测失败的能力。
  • Method: 采用B-cos模块构建扩散模型,通过解释性分析揭示提示词对图像像素区域的影响。
  • Result: 模型在生成高质量图像的同时,提供了提示词与图像对齐的有意义见解。
  • Conclusion: B-cos扩散模型在保持图像质量的同时,增强了模型的可解释性。

[91] ArmGS: Composite Gaussian Appearance Refinement for Modeling Dynamic Urban Environments

Guile Wu,Dongfeng Bai,Bingbing Liu

Main category: cs.CV

TL;DR: 提出了一种名为ArmGS的新方法,通过多粒度外观优化改进动态城市场景建模,显著提升了渲染效果。

  • Motivation: 现有方法在动态城市场景建模中忽略了帧间和视角间的细粒度变化,导致效果不佳。
  • Method: 采用多级外观建模方案,优化复合高斯变换参数,从局部到全局多粒度细化。
  • Result: 在多个自动驾驶数据集上验证了方法的优越性。
  • Conclusion: ArmGS在动态场景建模中表现出色,优于现有方法。

[92] Hierarchical Semantic-Visual Fusion of Visible and Near-infrared Images for Long-range Haze Removal

Yi Li,Xiaoxiong Wang,Jiawei Wang,Yi Chang,Kai Cao,Luxin Yan

Main category: cs.CV

TL;DR: 本文提出了一种层次化语义-视觉融合(HSVF)框架,用于长距离去雾,结合近红外和可见光模态的优势,生成高对比度且细节丰富的去雾结果。

  • Motivation: 现有去雾方法主要关注短距离场景,长距离去雾因信号损失严重而未被充分研究。近红外模态具有更好的雾穿透能力,但现有方法常忽视可见光图像中的雾残留问题。
  • Method: 提出HSVF框架,包含语义流和视觉流。语义流通过模态不变的内在表示重建无雾场景,视觉流从近红外模态恢复结构细节。
  • Result: 实验表明,HSVF在真实长距离去雾任务中优于现有方法,生成高对比度和丰富细节的结果。
  • Conclusion: HSVF通过双流协作有效解决了长距离去雾问题,并提供了新的数据集支持未来研究。

[93] Deconfounding Causal Inference through Two-Branch Framework with Early-Forking for Sensor-Based Cross-Domain Activity Recognition

Di Xiong,Lei Zhang,Shuoyuan Wang,Dongzhou Cheng,Wenbo Huang

Main category: cs.CV

TL;DR: 论文提出了一种基于因果推理的表示学习算法,用于跨域活动识别,通过双分支框架分离因果和非因果特征,显著优于现有方法。

  • Motivation: 现有领域泛化方法在传感器活动识别中仅关注统计依赖性,忽略了内在因果机制的重要性。
  • Method: 设计了早期分叉的双分支框架,分别学习因果和非因果特征,并采用独立性准则进行解耦,结合不均匀域采样和类别感知域扰动层。
  • Result: 在多个公共HAR基准测试中,该方法显著优于11种现有方法,适用于跨人、跨数据集和跨位置场景。
  • Conclusion: 因果启发的表示学习方法在跨域活动识别中表现出高效性、有效性和普适性。

[94] Taming Anomalies with Down-Up Sampling Networks: Group Center Preserving Reconstruction for 3D Anomaly Detection

Hanzhe Liang,Jie Zhang,Tao Dai,Linlin Shen,Jinbao Wang,Can Gao

Main category: cs.CV

TL;DR: 提出了一种名为DUS-Net的方法,通过保留组中心几何结构来重建高精度点云,用于3D异常检测,并在实验中取得了SOTA性能。

  • Motivation: 现有基于重建的方法在处理高精度点云时面临挑战,因为点云规模大且结构复杂。
  • Method: DUS-Net包含噪声生成模块、下采样网络(Down-Net)和上采样网络(Up-Net),通过多尺度特征融合重建高精度点云。
  • Result: 在Real3D-AD和Anomaly-ShapeNet数据集上,分别取得了79.9%和79.5%的对象级AUROC,以及71.2%和84.7%的点级AUROC。
  • Conclusion: DUS-Net通过保留几何结构和多尺度特征融合,有效提升了3D异常检测的性能。

[95] EchoMimicV3: 1.3B Parameters are All You Need for Unified Multi-Modal and Multi-Task Human Animation

Rang Meng,Yan Wang,Weipeng Wu,Ruobing Zheng,Yuming Li,Chenguang Ma

Main category: cs.CV

TL;DR: 论文提出了一种统一的多任务范式EchoMimicV3,通过空间-时间局部重建处理多样生成任务,引入多模态解耦交叉注意力模块,并结合SFT+Reward交替训练,实现了高效、高质量的数字人生成。

  • Motivation: 当前大型视频生成模型在人类动画中虽效果逼真,但推理速度慢、计算成本高,且不同任务需不同专用模型,缺乏统一解决方案。
  • Method: 提出多任务统一范式,将任务视为空间-时间局部重建;设计多模态解耦交叉注意力模块;采用SFT+Reward交替训练优化模型。
  • Result: EchoMimicV3在面部和半身视频生成中优于现有模型,参数仅为1.3B却能媲美10倍参数模型的生成质量。
  • Conclusion: 该工作为高效、高质量、多功能的数字人生成提供了解决方案,解决了性能和实用性的双重挑战。

[96] Bridging Vision and Language: Optimal Transport-Driven Radiology Report Generation via LLMs

Haifeng Zhao,Yufei Zhang,Leilei Ma,Shuo Xu,Dengdi Sun

Main category: cs.CV

TL;DR: OTDRG框架利用最优传输(OT)技术对齐X射线图像特征与报告中的疾病标签,解决了通用大语言模型(LLMs)在临床实践中的不足,提升了报告的临床实用性。

  • Motivation: 通用LLMs在生成放射学报告时更注重语言流畅性而非临床有效性,且无法有效捕捉图像与文本的关系,导致临床实用性差。
  • Method: 提出OTDRG框架,通过OT对齐图像特征与疾病标签,结合对齐与微调(Alignment & Fine-Tuning)优化跨模态距离,并设计疾病预测模块。
  • Result: 在MIMIC-CXR和IU X-Ray数据集上,OTDRG在自然语言生成(NLG)和临床疗效(CE)指标上均达到最优性能。
  • Conclusion: OTDRG不仅生成语言连贯的报告,还显著提升了临床准确性,为医学AI提供了实用解决方案。

[97] Learning Disentangled Stain and Structural Representations for Semi-Supervised Histopathology Segmentation

Ha-Hieu Pham,Nguyen Lan Vi Vu,Thanh-Huy Nguyen,Ulas Bagci,Min Xu,Trung-Nghia Le,Huy-Hieu Pham

Main category: cs.CV

TL;DR: CSDS是一种新型半监督分割框架,通过双学生网络分别学习染色外观和组织结构的解耦表示,在低标签数据下实现最先进的腺体分割性能。

  • Motivation: 解决H&E染色和组织形态的显著变异性以及标注数据有限的问题,提高腺体分割的准确性。
  • Method: 提出Color-Structure Dual-Student (CSDS)框架,包含两个专门的学生网络(染色增强和结构增强输入)和一个共享教师网络,通过EMA更新和伪标签监督,并引入染色和结构感知的不确定性估计模块。
  • Result: 在GlaS和CRAG数据集上,CSDS在5%和10%标签数据下的Dice分数分别提高了1.2%、0.7%和0.7%、1.4%。
  • Conclusion: CSDS在低标签数据下表现出色,为腺体分割提供了有效的解决方案。

[98] DNF-Intrinsic: Deterministic Noise-Free Diffusion for Indoor Inverse Rendering

Rongjia Zheng,Qing Zhang,Chengjiang Long,Wei-Shi Zheng

Main category: cs.CV

TL;DR: DNF-Intrinsic是一种基于预训练扩散模型的逆渲染方法,通过直接使用源图像而非噪声输入,结合流匹配技术,显著提升了逆渲染的质量和鲁棒性。

  • Motivation: 现有方法利用噪声图像进行逆渲染时,由于图像结构和外观信息受损,难以生成高质量结果。DNF-Intrinsic旨在解决这一问题。
  • Method: 采用源图像作为输入,通过流匹配直接预测确定性内在属性,并设计生成渲染器确保预测结果与源图像物理一致。
  • Result: 在合成和真实数据集上,DNF-Intrinsic明显优于现有方法。
  • Conclusion: DNF-Intrinsic通过改进输入方式和物理约束,实现了更高质量的逆渲染。

[99] Learning Adaptive Node Selection with External Attention for Human Interaction Recognition

Chen Pang,Xuequan Lu,Qianyu Zhou,Lei Lyu

Main category: cs.CV

TL;DR: 提出ASEA方法,动态捕捉交互关系,无需预定义假设,通过AT-NAC模块和EA模块实现高效建模,性能领先。

  • Motivation: 现有GCN方法将交互个体视为独立图,忽略其内在依赖;预定义交互矩阵无法动态适应不同动作的上下文特定交互。
  • Method: 1. 使用GCN建模个体内关系;2. 引入AT-NAC模块计算全局节点活动;3. 设计EA模块捕捉交互动态和语义关系。
  • Result: 方法能更有效灵活地捕捉交互关系,实现最优性能。
  • Conclusion: ASEA通过动态节点选择和外部注意力机制,显著提升了交互建模的灵活性和效果。

[100] VISC: mmWave Radar Scene Flow Estimation using Pervasive Visual-Inertial Supervision

Kezhong Liu,Yiwen Zhou,Mozi Chen,Jianhua He,Jingao Xu,Zheng Yang,Chris Xiaoxuan Lu,Shengkai Zhang

Main category: cs.CV

TL;DR: 提出一种基于毫米波雷达的场景流估计框架,利用视觉-惯性(VI)传感器数据进行监督训练,解决了传统依赖昂贵LiDAR数据的问题。

  • Motivation: 当前毫米波雷达场景流估计依赖昂贵的3D LiDAR数据,而VI数据更易获取但无法直接监督3D运动。此外,VI的时漂问题影响静态点场景流估计。
  • Method: 提出无漂移刚性变换估计器,融合运动学模型与神经网络结果,并开发光学-毫米波监督提取模块,结合光学与雷达测量约束动态点场景流。
  • Result: 在烟雾环境中,该方法甚至优于依赖昂贵LiDAR的SOTA方法。
  • Conclusion: 该框架通过低成本VI数据实现了高效的毫米波雷达场景流估计,具有广泛应用潜力。

[101] Evaluating Adversarial Protections for Diffusion Personalization: A Comprehensive Study

Kai Ye,Tianyi Chen,Zhen Wang

Main category: cs.CV

TL;DR: 本文比较了八种基于扰动的保护方法(AdvDM、ASPL、FSGM、MetaCloak、Mist、PhotoGuard、SDS、SimAC),评估其在肖像和艺术作品领域的隐私保护效果和视觉不可感知性。

  • Motivation: 随着扩散模型在图像生成和个性化中的广泛应用,隐私泄露和内容滥用问题日益突出,因此需要评估现有保护方法的有效性。
  • Method: 研究比较了八种扰动方法,在不同扰动预算下,通过多种指标评估其视觉不可感知性和保护效果。
  • Result: 研究结果为方法选择提供了实用指导。
  • Conclusion: 通过综合评估,研究为扩散模型中的隐私保护方法选择提供了参考依据。

[102] Robust Low-light Scene Restoration via Illumination Transition

Ze Li,Feng Zhang,Xiatian Zhu,Meng Zhang,Yanghong Zhou,P. Y. Mok

Main category: cs.CV

TL;DR: 提出了一种名为RoSe的新框架,用于从低光多视角图像合成正常光照下的新视角,通过3D空间中的光照过渡估计实现高效去噪和多视角一致性。

  • Motivation: 现有低光增强方法难以处理多视角图像的相关性,且易产生颜色失真和伪影。RoSe旨在解决这些问题。
  • Method: 将任务建模为3D空间中的光照过渡估计问题,利用低秩光照特性约束表示,设计双分支架构和低秩去噪模块。
  • Result: RoSe在渲染质量和多视角一致性上显著优于现有方法。
  • Conclusion: RoSe通过3D光照过渡估计和低秩约束,实现了高效去噪和高质量新视角合成。

[103] Flux-Sculptor: Text-Driven Rich-Attribute Portrait Editing through Decomposed Spatial Flow Control

Tianyao He,Runqi Wang,Yang Chen,Dejia Song,Nemo Chen,Xu Tang,Yao Hu

Main category: cs.CV

TL;DR: Flux-Sculptor是一个基于通量的框架,用于精确的文本驱动肖像编辑,通过Prompt-Aligned Spatial Locator和Structure-to-Detail Edit Control策略实现高保真和灵活的编辑。

  • Motivation: 文本驱动肖像编辑在应用中潜力巨大但挑战重重,现有方法难以平衡重建保真度和编辑灵活性。
  • Method: 提出Flux-Sculptor框架,包含PASL精确定位编辑区域和S2D-EC策略通过潜在表示和注意力值的掩码引导融合来指导去噪过程。
  • Result: 实验表明Flux-Sculptor在丰富属性编辑和面部信息保留上优于现有方法。
  • Conclusion: Flux-Sculptor是实用的肖像编辑工具,具有高精度和灵活性。

[104] CoT-Segmenter: Enhancing OOD Detection in Dense Road Scenes via Chain-of-Thought Reasoning

Jeonghyo Song,Kimin Yun,DaeUng Jo,Jinyoung Kim,Youngjoon Yoo

Main category: cs.CV

TL;DR: 论文提出了一种基于Chain-of-Thought (CoT) 的框架,用于解决复杂道路场景中的OOD语义分割问题,显著提升了检测性能。

  • Motivation: 确保语义分割模型在复杂道路环境中的可靠性至关重要,但目前基于CoT的视觉推理在OOD检测中尚未充分探索。
  • Method: 利用GPT-4等基础模型的知识和推理能力,通过改进的图像理解和基于提示的推理,解决OOD检测中的挑战场景。
  • Result: 在标准基准和新定义的RoadAnomaly数据集子集上,该方法显著优于现有技术。
  • Conclusion: 提出的框架为复杂驾驶环境中的OOD语义分割提供了鲁棒且可解释的解决方案。

[105] LEHA-CVQAD: Dataset To Enable Generalized Video Quality Assessment of Compression Artifacts

Aleksandr Gushchin,Maksim Smirnov,Dmitriy Vatolin,Anastasia Antsiferova

Main category: cs.CV

TL;DR: LEHA-CVQAD数据集包含6,240个视频片段,用于压缩导向的视频质量评估,并提出RDAE指标以评估VQA模型在比特率-质量排序上的表现。

  • Motivation: 解决现有视频质量评估(VQA)方法在压缩视频质量评估中的不足,支持编解码器参数调优。
  • Method: 构建包含1.8M对比较和1.5k MOS评分的LEHA-CVQAD数据集,并提出RDAE指标。
  • Result: 测试显示现有VQA指标RDAE较高且相关性较低,突显数据集挑战和实用性。
  • Conclusion: LEHA-CVQAD数据集和RDAE指标为压缩视频质量评估提供了新工具,支持模型优化。

[106] NRSeg: Noise-Resilient Learning for BEV Semantic Segmentation via Driving World Models

Siyu Li,Fei Teng,Yihong Cao,Kailun Yang,Zhiyong Li,Yaonan Wang

Main category: cs.CV

TL;DR: NRSeg提出了一种噪声鲁棒学习框架,通过合成数据增强BEV语义分割任务,利用PGCM评估数据质量,BiDPP提升模型鲁棒性,HLSE解决非互斥性问题,实验表现优异。

  • Motivation: BEV语义分割在自动驾驶中至关重要,但无监督和半监督学习因标注数据分布单一表现不佳,合成数据虽能增强多样性但存在噪声问题。
  • Method: 提出NRSeg框架,包括PGCM评估生成数据质量,BiDPP通过并行预测多类别和Dirichlet分布增强鲁棒性,HLSE解决非互斥性问题。
  • Result: NRSeg在无监督和半监督BEV分割任务中分别提升mIoU 13.8%和11.4%,达到SOTA性能。
  • Conclusion: NRSeg通过噪声鲁棒设计和模块优化,显著提升了BEV语义分割的性能,为自动驾驶感知任务提供了有效解决方案。

[107] Group-wise Scaling and Orthogonal Decomposition for Domain-Invariant Feature Extraction in Face Anti-Spoofing

Seungjin Jung,Kanghee Lee,Yonghyun Jeong,Haeun Noh,Jungmin Lee,Jongwon Choi

Main category: cs.CV

TL;DR: 提出了一种新的DGFAS框架,通过FOD和GS-RM联合对齐权重和偏置,解决了偏置项未对齐导致的性能下降问题。

  • Motivation: 现有DGFAS方法仅对齐局部决策边界的权重,而偏置项未对齐导致分类阈值不一致,影响性能。
  • Method: 结合FOD(特征正交分解)和GS-RM(组尺度风险最小化),分别对齐权重和偏置。
  • Result: 在基准数据集上表现优异,提升了准确性和泛化稳定性。
  • Conclusion: 该方法有效解决了偏置项未对齐问题,提升了跨域泛化性能。

[108] Habitat Classification from Ground-Level Imagery Using Deep Neural Networks

Hongrui Shi,Lisa Norton,Lucy Ridding,Simon Rolph,Tom August,Claire M Wood,Lan Qie,Petra Bosilj,James M Brown

Main category: cs.CV

TL;DR: 该研究利用深度神经网络(CNN和ViT)对地面图像进行精细生境分类,ViT表现优于CNN,且监督对比学习显著减少误分类,模型性能接近生态专家水平。

  • Motivation: 传统生境评估依赖专家调查,成本高且效率低,AI驱动的自动化工具可提升效率和精度,但现有方法多依赖遥感数据,受限于传感器和分辨率。
  • Method: 使用英国Countryside Survey的18种生境类型数据,评估CNN和ViT在监督和监督对比学习范式下的性能。
  • Result: ViT在分类指标(Top-3准确率91%,MCC=0.66)上优于CNN,监督对比学习显著减少相似生境的误分类。模型性能接近生态专家水平。
  • Conclusion: 结合AI与生态学,研究提出了一种可扩展、经济高效的地面生境监测框架,有助于生物多样性保护和土地利用决策。

[109] Exploring Kolmogorov-Arnold Network Expansions in Vision Transformers for Mitigating Catastrophic Forgetting in Continual Learning

Zahid Ullah,Jihie Kim

Main category: cs.CV

TL;DR: 研究提出用Kolmogorov-Arnold Networks (KANs) 替换ViTs中的MLPs,以解决持续学习中的灾难性遗忘问题,实验显示KAN-based ViTs表现更优。

  • Motivation: 持续学习(CL)中灾难性遗忘问题严重,尤其在ViTs中使用MLPs时,需要一种新方法来解决这一问题。
  • Method: 用KANs替换ViTs中的MLPs,利用其基于样条的激活函数实现局部可塑性,减少参数更新范围。
  • Result: KAN-based ViTs在MNIST和CIFAR100数据集上显著减轻灾难性遗忘,优于传统MLP-based ViTs。
  • Conclusion: KANs与ViTs的结合为动态环境中的模型提供了更强的鲁棒性和适应性。

[110] PresentAgent: Multimodal Agent for Presentation Video Generation

Jingwei Shi,Zeyu Zhang,Biao Wu,Yanjie Liang,Meng Fang,Ling Chen,Yang Zhao

Main category: cs.CV

TL;DR: PresentAgent是一个多模态代理,将长文档转换为带旁白的演示视频,通过模块化流程实现视觉与语音内容的同步生成,并引入评估框架PresentEval验证其接近人类水平的质量。

  • Motivation: 现有方法仅能生成静态幻灯片或文本摘要,无法满足动态演示需求,因此开发了PresentAgent以实现更接近人类风格的演示。
  • Method: 采用模块化流程,包括文档分段、幻灯片视觉帧生成、上下文语音旁白生成(使用大语言模型和TTS模型),以及音频-视频精确对齐合成。
  • Result: 在30个文档-演示对的数据集上,PresentAgent在所有评估指标上接近人类水平。
  • Conclusion: 可控多模态代理在将静态文本转换为动态演示格式方面具有巨大潜力。

[111] T-SYNTH: A Knowledge-Based Dataset of Synthetic Breast Images

Christopher Wiedeman,Anastasiia Sarmakeeva,Elena Sizikova,Daniil Filienko,Miguel Lago,Jana G. Delfino,Aldo Badano

Main category: cs.CV

TL;DR: 提出了一种利用物理仿真生成合成医学图像的方法,并发布了T-SYNTH数据集,用于增强真实患者数据的检测任务。

  • Motivation: 医学影像算法开发受限于大规模标注数据的获取,合成数据可缓解这一问题。
  • Method: 通过物理仿真生成带有像素级分割标注的合成图像,应用于乳腺影像分析。
  • Result: 实验表明T-SYNTH数据集在DM和DBT检测任务中具有潜力。
  • Conclusion: 合成数据可有效补充真实数据,T-SYNTH数据集已开源。

[112] Move to Understand a 3D Scene: Bridging Visual Grounding and Exploration for Efficient and Versatile Embodied Navigation

Ziyu Zhu,Xilin Wang,Yixuan Li,Zhuofan Zhang,Xiaojian Ma,Yixin Chen,Baoxiong Jia,Wei Liang,Qian Yu,Zhidong Deng,Siyuan Huang,Qing Li

Main category: cs.CV

TL;DR: MTU3D是一个集成主动感知与3D视觉语言学习的框架,通过在线查询表示学习、统一目标优化和端到端轨迹学习,提升智能体在环境探索与理解中的表现。

  • Motivation: 现有3D视觉语言模型局限于静态观察,缺乏主动感知能力,MTU3D旨在解决这一问题。
  • Method: 1) 在线查询表示学习;2) 统一目标优化;3) 端到端轨迹学习。
  • Result: 在多个基准测试中,MTU3D表现优于现有方法,成功率提升显著。
  • Conclusion: MTU3D通过结合视觉定位与探索,为具身智能提供了重要进展。

[113] Breaking Imitation Bottlenecks: Reinforced Diffusion Powers Diverse Trajectory Generation

Ziying Song,Lin Liu,Hongyu Pan,Bencheng Liao,Mingzhe Guo,Lei Yang,Yongchang Zhang,Shaoqing Xu,Caiyan Jia,Yadan Luo

Main category: cs.CV

TL;DR: DIVER是一个端到端驾驶框架,结合强化学习和扩散生成技术,生成多样且可行的轨迹,解决了模仿学习中行为保守和同质化的问题。

  • Motivation: 模仿学习依赖单一专家演示,导致行为保守且同质化,难以适应复杂现实场景。
  • Method: DIVER通过扩散生成机制生成多参考轨迹,并结合强化学习优化轨迹的安全性和多样性。
  • Result: 在NAVSIM、Bench2Drive和nuScenes数据集上,DIVER显著提升了轨迹多样性,解决了模式崩溃问题。
  • Conclusion: DIVER通过结合扩散生成和强化学习,有效提升了驾驶轨迹的多样性和实用性。

[114] Generate, Refine, and Encode: Leveraging Synthesized Novel Samples for On-the-Fly Fine-Grained Category Discovery

Xiao Liu,Nan Pu,Haiyang Zheng,Wenjing Li,Nicu Sebe,Zhun Zhong

Main category: cs.CV

TL;DR: 论文提出DiffGRE框架,通过生成、精炼和编码三阶段方法解决在线类别发现任务,显著优于现有方法。

  • Motivation: 现有方法在细粒度识别中因标注数据不足导致知识迁移受限,需改进。
  • Method: 采用扩散模型生成新样本,多样性驱动精炼筛选,半监督编码注入额外知识。
  • Result: 在六个细粒度数据集上表现优于现有方法。
  • Conclusion: DiffGRE框架有效提升在线类别发现性能,尤其在数据稀缺场景。

[115] Temporal Continual Learning with Prior Compensation for Human Motion Prediction

Jianwei Tang,Jiangxin Sun,Xiaotong Lin,Lifang Zhang,Wei-Shi Zheng,Jian-Fang Hu

Main category: cs.CV

TL;DR: 论文提出了一种名为Temporal Continual Learning (TCL)的多阶段训练框架,用于解决人类运动预测中短长期预测不平衡及先验信息利用不足的问题。通过引入Prior Compensation Factor (PCF)和优化目标,TCL在多个基准数据集上表现出色。

  • Motivation: 现有方法在人类运动预测中未能区分不同时间点的预测需求,导致短长期预测学习不平衡,且先验信息利用不足。
  • Method: 提出TCL框架,引入PCF补偿丢失的先验信息,并通过理论推导优化目标。TCL可与多种HMP主干模型结合。
  • Result: 在四个HMP基准数据集上的实验验证了TCL的有效性和灵活性。
  • Conclusion: TCL框架解决了现有方法的局限性,提升了预测性能,且易于集成和适应不同场景。

[116] Consistent and Invariant Generalization Learning for Short-video Misinformation Detection

Hanghui Guo,Weijie Shi,Mengze Li,Juncheng Li,Hao Chen,Yue Cui,Jiajie Xu,Jia Zhu,Jiawei Shen,Zhangze Chen,Sirui Han

Main category: cs.CV

TL;DR: 论文提出DOCTOR模型,通过一致性学习和不变性学习解决短视频虚假信息检测中的领域泛化问题。

  • Motivation: 当前模型在特定领域训练后,在未见领域表现不佳,需解决领域差距问题。
  • Method: DOCTOR模型包含跨模态特征插值和扩散模型,以同步多模态学习并增强领域不变特征。
  • Result: 实验证明DOCTOR模型在短视频虚假信息检测中有效。
  • Conclusion: DOCTOR模型通过跨模态一致性学习和特征增强,显著提升了领域泛化能力。

[117] Stochastic Human Motion Prediction with Memory of Action Transition and Action Characteristic

Jianwei Tang,Hong Yang,Tengyue Chen,Jian-Fang Hu

Main category: cs.CV

TL;DR: 提出两种记忆库(STAB和ACB)解决动作驱动随机人体运动预测中的过渡平滑性和动作特性学习问题,并通过自适应注意力调整策略(AAA)提升性能。

  • Motivation: 解决动作过渡速度差异和动作特性相似性导致预测结果不合理的问题。
  • Method: 使用Soft-transition Action Bank(STAB)存储动作过渡信息,Action Characteristic Bank(ACB)记录动作特性,并采用Adaptive Attention Adjustment(AAA)策略融合特征。
  • Result: 在四个运动预测数据集上表现优于现有方法。
  • Conclusion: 提出的STAB和ACB结合AAA策略有效提升了动作驱动随机人体运动预测的性能。

[118] VICI: VLM-Instructed Cross-view Image-localisation

Xiaohan Zhang,Tavis Shore,Chen Chen,Oscar Mendez,Simon Hadfield,Safwan Wshah

Main category: cs.CV

TL;DR: 本文提出了一种高性能的解决方案,用于在UAVM 2025挑战中匹配窄视场街景图像与卫星图像,通过两阶段检索和重排序方法提升了定位精度。

  • Motivation: 现实场景中街景查询通常是窄视场且相机参数未知,而现有全景跨视图定位性能已接近极限,因此需要探索更实用的解决方案。
  • Method: 采用两阶段方法:首先检索候选卫星图像嵌入,然后通过重排序阶段提升前几名候选的匹配精度。
  • Result: 实验表明,该方法在R@1和R@10检索率上分别达到topone%和topten%,表现优异。
  • Conclusion: 优化检索和重排序策略可显著提升实际地理定位性能,代码已开源。

[119] Integrated Gaussian Processes for Robust and Adaptive Multi-Object Tracking

Fred Lydeard,Bashar I. Ahmad,Simon Godsill

Main category: cs.CV

TL;DR: 提出两种高效的多目标跟踪方法GaPP-Class和GaPP-ReaCtion,结合高斯过程和泊松过程,显著减少跟踪中断并支持在线学习和分类。

  • Motivation: 解决在复杂环境中多目标跟踪的挑战,如跟踪中断、动态场景变化和目标分类需求。
  • Method: 利用高斯过程作为运动模型,非齐次泊松过程作为观测模型,结合粒子滤波和MCMC核实现跟踪管理和参数学习。
  • Result: GaPP-ReaCtion显著减少跟踪中断(如真实雷达数据减少约30%),性能优于现有算法。
  • Conclusion: GaPP-Class和GaPP-ReaCtion在复杂环境中表现出高效性和鲁棒性,适用于动态场景和目标分类任务。

[120] PromptSR: Cascade Prompting for Lightweight Image Super-Resolution

Wenyang Liu,Chen Cai,Jianjun Gao,Kejun Wu,Yi Wang,Kim-Hui Yap,Lap-Pui Chau

Main category: cs.CV

TL;DR: PromptSR提出了一种轻量级图像超分辨率方法,通过级联提示块(CPB)结合全局和局部信息,解决了窗口自注意力模型接收域受限的问题。

  • Motivation: 轻量级Vision Transformer在图像超分辨率中因窗口自注意力的接收域受限和计算复杂度高而面临挑战。
  • Method: 提出CPB模块,包含全局锚点提示层(GAPL)和两个局部提示层(LPLs),通过跨尺度注意力和自注意力机制结合全局与局部信息。
  • Result: 实验表明PromptSR在定量、定性和复杂度评估上优于现有轻量级超分辨率方法。
  • Conclusion: PromptSR通过CPB有效扩大了接收域并保持低计算成本,为轻量级图像超分辨率提供了新思路。

[121] Towards Accurate and Efficient 3D Object Detection for Autonomous Driving: A Mixture of Experts Computing System on Edge

Linshen Liu,Boyan Su,Junyue Jiang,Guanlin Wu,Cong Guo,Ceyu Xu,Hao Frank Yang

Main category: cs.CV

TL;DR: EMC2是一种为自动驾驶车辆设计的边缘计算系统,通过场景感知的MoE架构和硬件-软件联合优化,实现了低延迟、高精度的3D物体检测。

  • Motivation: 传统方法在自动驾驶车辆中难以同时满足低延迟和高精度的3D物体检测需求,尤其是在资源受限的边缘设备上。
  • Method: EMC2采用场景感知的MoE架构,融合LiDAR和相机数据,通过自适应多模态数据桥和动态路由机制优化计算。
  • Result: 在KITTI数据集上,EMC2比15种基线方法平均精度提升3.58%,推理速度提升159.06%。
  • Conclusion: EMC2展示了在边缘设备上实现可靠、实时3D物体检测的潜力。

[122] Driver-Net: Multi-Camera Fusion for Assessing Driver Take-Over Readiness in Automated Vehicles

Mahdi Rezaei,Mohsen Azarmi

Main category: cs.CV

TL;DR: Driver-Net是一种深度学习框架,通过多摄像头输入融合评估驾驶员接管准备状态,准确率达95.8%。

  • Motivation: 确保自动驾驶车辆控制权安全转移需要准确及时评估驾驶员准备状态。
  • Method: Driver-Net利用三摄像头捕捉驾驶员头部、手部和身体姿态的同步视觉线索,采用双路径架构(Context Block和Feature Block)和跨模态融合策略。
  • Result: 在多样化数据集上测试,分类准确率达95.8%,显著优于现有方法。
  • Conclusion: Driver-Net作为实时、非侵入式解决方案,提升了自动驾驶车辆的安全性,符合新法规和安全标准。

[123] Pedestrian Intention Prediction via Vision-Language Foundation Models

Mohsen Azarmi,Mahdi Rezaei,He Wang

Main category: cs.CV

TL;DR: 研究探索了视觉语言基础模型(VLFMs)在预测行人过马路意图中的应用,通过分层提示模板整合多模态数据,显著提升了预测准确性。

  • Motivation: 传统基于视觉的方法在泛化性、上下文理解和因果推理方面存在不足,需要更先进的模型来提升预测性能。
  • Method: 采用VLFMs,通过系统优化的提示模板整合视觉帧、物理线索和车辆动态等多模态数据。
  • Result: 实验表明,结合车辆速度和时间感知提示可将预测准确性提升19.8%,自动提示工程框架进一步提升了12.5%。
  • Conclusion: VLFMs在行人过马路意图预测中优于传统视觉模型,为自动驾驶应用提供了更强的泛化能力和上下文理解。

[124] Unlocking Compositional Control: Self-Supervision for LVLM-Based Image Generation

Fernando Gabriela Garcia,Spencer Burns,Ryan Shaw,Hunter Young

Main category: cs.CV

TL;DR: Hi-SSLVLM是一种新型生成模型,通过两阶段自监督学习策略提升文本到图像合成的能力,解决了传统方法在复杂提示和精细视觉控制上的不足。

  • Motivation: 传统方法依赖昂贵的人工标注数据集,且难以精确控制复杂视觉属性和空间关系。Hi-SSLVLM旨在通过自监督学习减少对标注数据的依赖,并提升生成质量。
  • Method: 采用两阶段策略:1)多粒度视觉-语言对齐,生成层次化标题;2)自优化和引导图像生成,利用内部组合规划机制和语义一致性损失。
  • Result: 在多个基准测试中优于主流模型,如Janus-Pro-1B和Stable Diffusion XL 1.0,并在人类评估中表现出更高的生成质量和语义一致性。
  • Conclusion: Hi-SSLVLM在可控性和语义一致性方面取得了显著进展,为开放式文本到图像生成提供了新方向。

[125] LVLM-Composer's Explicit Planning for Image Generation

Spencer Ramsey,Jeffrey Lee,Amina Grant

Main category: cs.CV

TL;DR: LVLM-Composer, a 10-billion parameter LVLM, improves compositional image synthesis with hierarchical planning and fine-grained alignment, outperforming benchmarks.

  • Motivation: Current LVLMs struggle with complex textual descriptions requiring precise compositional understanding and visual planning, especially in multi-object scenes.
  • Method: Introduces Hierarchical Semantic Planning Module and Fine-Grained Feature Alignment Mechanism, trained via multi-stage paradigm including Hierarchical Semantic-Visual Grounding Pre-training and Compositional Planning Reinforcement Learning.
  • Result: LVLM-Composer excels in object accuracy, composition fidelity, and pose accuracy on LongBench-T2I, surpassing state-of-the-art models.
  • Conclusion: LVLM-Composer advances controllable and compositionally accurate text-to-image generation.

[126] Voyaging into Unbounded Dynamic Scenes from a Single View

Fengrui Tian,Tianjiao Ding,Jinqi Luo,Hancheng Min,René Vidal

Main category: cs.CV

TL;DR: 论文提出DynamicVoyager方法,通过场景外绘生成无界动态场景,解决了单视角下3D运动一致性问题。

  • Motivation: 研究单视角生成无界动态场景的问题,应用于增强/虚拟现实和机器人领域。现有方法依赖多视角训练,生成场景受限。
  • Method: 将动态场景生成重新定义为场景外绘过程,利用射线上下文从点云中学习3D运动一致性。
  • Result: 实验表明,模型能生成具有一致运动的无界场景,并可通过场景提示控制生成内容。
  • Conclusion: DynamicVoyager有效解决了单视角下动态场景生成的3D一致性问题。

[127] Towards Spatially-Varying Gain and Binning

Anqi Yang,Eunhee Kang,Wei Chen,Hyong-Euk Lee,Aswin C. Sankaranarayanan

Main category: cs.CV

TL;DR: 论文提出通过空间变化的增益和像素合并技术,提升图像传感器的噪声性能和动态范围,同时平衡分辨率与噪声。

  • Motivation: 随着像素尺寸缩小,图像质量因光积累减少而下降,需解决分辨率、噪声和动态范围之间的权衡问题。
  • Method: 采用空间变化的增益和像素合并策略,根据局部场景亮度调整增益和合并尺寸,优化信号噪声比。
  • Result: 动态范围扩展了一个数量级,数字合并在高增益下表现优于模拟合并,应用包括高动态范围成像等。
  • Conclusion: 空间变化的增益和像素合并技术有效提升图像传感器性能,适用于多种应用场景。

[128] Quick Bypass Mechanism of Zero-Shot Diffusion-Based Image Restoration

Yu-Shan Tai,An-Yeu,Wu

Main category: cs.CV

TL;DR: 提出了一种快速绕过机制(QBM)和改进的反向过程(RRP),以加速扩散模型在图像恢复任务中的去噪过程,同时保持性能。

  • Motivation: 现有零样本方法在图像恢复任务中迭代时间长,影响效率。
  • Method: 通过QBM从中间近似初始化加速去噪,并通过RRP调整噪声权重增强随机性。
  • Result: 在ImageNet-1K和CelebA-HQ上的实验表明,方法能有效加速且保持性能。
  • Conclusion: QBM和RRP显著提升了扩散模型在图像恢复任务中的效率。

[129] DreamPoster: A Unified Framework for Image-Conditioned Generative Poster Design

Xiwei Hu,Haokun Chen,Zhongqi Qi,Hui Zhang,Dexiang Hong,Jie Shao,Xinglong Wu

Main category: cs.CV

TL;DR: DreamPoster是一个基于文本到图像生成的框架,能够从用户提供的图像和文本提示中智能合成高质量海报,同时保持内容保真度并支持灵活的分辨率和布局输出。

  • Motivation: 解决现有方法在生成海报时内容保真度和灵活性不足的问题。
  • Method: 基于T2I模型Seedream3.0,采用系统化的数据标注流程和渐进式训练策略。
  • Result: 在测试基准上表现优于现有方法,可用性率达88.55%。
  • Conclusion: DreamPoster在生成高质量海报方面具有显著优势,并将应用于字节跳动旗下应用。

[130] Domain Generalizable Portrait Style Transfer

Xinbo Wang,Wenju Xu,Qing Zhang,Wei-Shi Zheng

Main category: cs.CV

TL;DR: 提出了一种泛化性强、支持高质量语义对齐的肖像风格迁移方法,通过预训练模型和语义适配器建立密集语义对应,结合AdaIN-Wavelet变换和风格适配器实现可控风格迁移。

  • Motivation: 解决现有肖像风格迁移方法在跨域泛化和语义对齐上的不足。
  • Method: 基于预训练模型和语义适配器建立密集语义对应,采用AdaIN-Wavelet变换平衡内容保留与风格化,结合双条件扩散模型生成最终结果。
  • Result: 实验证明该方法在风格迁移质量和语义对齐上表现优越。
  • Conclusion: 提出的方法在泛化性和可控性上优于现有技术,代码和模型已开源。

[131] MoReMouse: Monocular Reconstruction of Laboratory Mouse

Yuan Zhong,Jingxiang Sun,Liang An,Yebin Liu

Main category: cs.CV

TL;DR: MoReMouse是一种基于单目视觉的密集3D重建网络,专为实验室小鼠设计,解决了复杂非刚性形变和无纹理外观的挑战。

  • Motivation: 实验室小鼠在生物医学研究中至关重要,但现有的稀疏关键点跟踪方法无法满足密集3D重建的需求,且缺乏结构化3D数据集。
  • Method: 1. 构建首个高保真密集视角合成数据集;2. 采用基于Transformer的三平面表示架构;3. 引入基于测地线的连续对应嵌入。
  • Result: MoReMouse在精度和鲁棒性上显著优于现有开源方法。
  • Conclusion: MoReMouse为实验室小鼠的密集3D重建提供了高效解决方案,填补了研究空白。

[132] Efficient Training of Deep Networks using Guided Spectral Data Selection: A Step Toward Learning What You Need

Mohammadreza Sharifi,Ahad Harati

Main category: cs.CV

TL;DR: GSTDS算法通过动态调整训练数据子集,利用预训练模型和光谱分析优化数据选择,显著降低计算需求并提升性能。

  • Motivation: 优化神经网络训练的数据管理,减少冗余计算,提升训练效率和模型性能。
  • Method: 提出GSTDS算法,基于预训练模型和Fiedler向量评分机制动态过滤数据,保留最具信息量的样本。
  • Result: 在CIFAR-10等基准测试中,GSTDS计算需求降低4倍,性能优于JEST等现有方法。
  • Conclusion: 光谱数据选择是资源高效深度学习的可行方案,值得进一步研究。

[133] ZERO: Multi-modal Prompt-based Visual Grounding

Sangbum Choi,Kyeongryeol Go

Main category: cs.CV

TL;DR: ZERO是一种零样本多提示目标检测模型,专为工业领域设计,通过结合图像输入和用户定义提示(文本和视觉)实现高效检测。

  • Motivation: 解决工业领域中多样化目标检测的需求,提供一种灵活、高效且适应性强的方法。
  • Method: 结合图像输入与多提示(文本和视觉),通过专用编码器生成检测输出,采用领域特定微调策略。
  • Result: 在RF20VL-fsod基准测试中表现优异,适应性强且高效。
  • Conclusion: 提示驱动和数据为中心的AI在动态工业环境中具有潜力。

[134] Towards Lightest Low-Light Image Enhancement Architecture for Mobile Devices

Guangrui Bai,Hailong Yan,Wenhai Liu,Yahui Deng,Erbao Dong

Main category: cs.CV

TL;DR: LiteIE是一种超轻量级无监督低光图像增强框架,适用于移动和嵌入式设备,平衡了视觉质量和计算效率。

  • Motivation: 现有深度学习方法依赖大型网络和标注数据,难以在资源受限平台上部署。
  • Method: 设计了仅含两个卷积层的骨干无关特征提取器,并提出无参数迭代恢复模块和无监督训练目标。
  • Result: 在LOL数据集上PSNR达19.04 dB,参数仅0.07%,在移动处理器上实现30 FPS的4K图像实时处理。
  • Conclusion: LiteIE是资源受限平台上高效实用的低光增强解决方案。

[135] SeqTex: Generate Mesh Textures in Video Sequence

Ze Yuan,Xin Yu,Yangtian Sun,Yuan-Chen Guo,Yan-Pei Cao,Ding Liang,Xiaojuan Qi

Main category: cs.CV

TL;DR: SeqTex是一种端到端框架,直接生成完整的UV纹理贴图,避免了传统两阶段方法的误差累积和空间不一致问题。

  • Motivation: 由于缺乏大规模高质量的3D纹理数据集,现有方法通常依赖图像生成模型的微调,但生成的多视角图像需要后处理为UV纹理贴图,导致误差累积和空间不一致。
  • Method: SeqTex将任务重新定义为序列生成问题,利用预训练视频基础模型的视觉知识,设计了解耦的多视角和UV分支、几何感知注意力以及自适应令牌分辨率。
  • Result: SeqTex在图像和文本条件下的3D纹理生成任务中表现出色,具有更好的3D一致性、纹理-几何对齐和真实世界泛化能力。
  • Conclusion: SeqTex通过端到端框架直接生成UV纹理贴图,显著提升了3D纹理生成的质量和效率。

[136] M3-Med: A Benchmark for Multi-lingual, Multi-modal, and Multi-hop Reasoning in Medical Instructional Video Understanding

Shenxi Liu,Kan Li,Mingyang Zhao,Yuhang Tian,Bin Li,Shoujun Zhou,Hongliang Li,Fuxia Yang

Main category: cs.CV

TL;DR: M3-Med是一个多语言、多模态、多跳推理的医学教学视频理解基准,旨在解决现有基准的语言单一性和浅层推理问题。

  • Motivation: 现有视频理解基准局限于英语且缺乏深度推理能力,无法满足医学教育等专业领域的需求。
  • Method: 提出M3-Med基准,包含医学问题与视频片段配对,并设计多跳推理任务,要求模型跨模态整合信息。
  • Result: 评估显示现有模型与人类专家在复杂多跳推理任务上存在显著性能差距。
  • Conclusion: M3-Med揭示了AI模型在专业领域深度跨模态推理的局限性,为未来研究提供了新方向。

[137] MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation

Weilun Feng,Chuanguang Yang,Haotong Qin,Yuqi Li,Xiangqi Li,Zhulin An,Libo Huang,Boyu Diao,Fuzhen Zhuang,Michele Magno,Yongjun Xu,Yingli Tian,Tingwen Huang

Main category: cs.CV

TL;DR: MPQ-DMv2提出了一种改进的混合精度量化框架,用于极低比特扩散模型,通过灵活的量化步骤和优化的初始化策略,显著提升了性能。

  • Motivation: 现有量化方法在极低比特(2-4位)量化下性能下降严重,主要由于量化器设计、初始化和优化策略的不足。
  • Method: 提出Flexible Z-Order Residual Mixed Quantization处理异常值,Object-Oriented Low-Rank Initialization优化初始化,Memory-based Temporal Relation Distillation保持时间一致性。
  • Result: 在多种生成任务上,MPQ-DMv2显著优于现有方法,尤其在极低比特宽度下表现突出。
  • Conclusion: MPQ-DMv2通过改进量化框架和优化策略,成功解决了极低比特量化下的性能问题,为边缘设备上的扩散模型应用提供了高效解决方案。

[138] Adversarial Data Augmentation for Single Domain Generalization via Lyapunov Exponent-Guided Optimization

Zuyu Zhang,Ning Chen,Yongshan Liu,Qinghua Zhang,Xu Zhang

Main category: cs.CV

TL;DR: LEAwareSGD是一种基于Lyapunov Exponent的优化方法,通过动态调整学习率,使模型训练在混沌边缘,显著提升单域泛化任务的性能。

  • Motivation: 单域泛化(SDG)任务面临域偏移大和数据多样性不足的挑战,现有方法难以适应大域偏移。
  • Method: 提出LEAwareSGD,利用Lyapunov Exponent测量动态调整学习率,使模型训练在混沌边缘状态。
  • Result: 在PACS、OfficeHome和DomainNet上实验,LEAwareSGD在低数据情况下性能提升高达9.47%。
  • Conclusion: 训练在混沌边缘状态能有效提升SDG任务的模型泛化能力。

[139] Exploring Remote Physiological Signal Measurement under Dynamic Lighting Conditions at Night: Dataset, Experiment, and Analysis

Zhipeng Li,Kegang Wang,Hanguang Xiao,Xingyue Liu,Feizhong Zhou,Jiaxin Jiang,Tianqi Liu

Main category: cs.CV

TL;DR: 论文介绍了DLCN数据集,用于评估动态夜间光照条件下rPPG算法的性能,填补了该领域数据集的空白。

  • Motivation: 当前rPPG算法在理想光照下表现良好,但在动态夜间光照条件下的有效性未知,且缺乏相关数据集。
  • Method: 提出并发布DLCN数据集,包含98名参与者的13小时视频和生理信号数据,覆盖四种典型夜间光照场景。
  • Result: DLCN数据集具有高多样性和真实性,为评估算法在复杂条件下的鲁棒性提供了资源。
  • Conclusion: DLCN数据集和Happy-rPPG工具包的发布推动了rPPG在动态夜间光照条件下的研究。

[140] DMAT: An End-to-End Framework for Joint Atmospheric Turbulence Mitigation and Object Detection

Paul Hill,Alin Achim,Dave Bull,Nantheera Anantrasirichai

Main category: cs.CV

TL;DR: 提出了一种端到端框架DMAT,通过结合3D Mamba结构和特征金字塔,同时改善大气湍流(AT)引起的图像失真和对象检测性能。

  • Motivation: 大气湍流导致监控图像质量下降,影响对象分类和场景跟踪,现有深度学习方法在失真条件下效果不佳。
  • Method: 使用3D Mamba结构处理时空失真,特征金字塔提取特征,并通过反向传播优化AT缓解器和对象检测器。
  • Result: DMAT在生成湍流的数据集上比现有方法性能提升15%。
  • Conclusion: DMAT有效解决了AT引起的失真问题,并显著提升了对象检测性能。

[141] Computed Tomography Visual Question Answering with Cross-modal Feature Graphing

Yuanhe Tian,Chen Su,Junwen Duan,Yan Song

Main category: cs.CV

TL;DR: 提出了一种基于大语言模型(LLM)和图表示的医学影像视觉问答(VQA)框架,通过跨模态图整合视觉和文本特征,显著提升了CT影像问答的准确性。

  • Motivation: 现有医学影像VQA方法通常独立提取视觉和文本特征,忽略了CT数据的空间连续性和切片间相关性,导致回答碎片化且不精确。
  • Method: 构建跨模态图,将CT切片和问题标记作为节点,利用注意力图卷积网络动态融合信息,生成聚合特征作为LLM的软提示。
  • Result: 在M3D-VQA基准测试中,该方法在多个评估指标上均优于基线方法,展现出更强的推理能力。
  • Conclusion: 提出的框架通过图表示和LLM的结合,显著提升了医学影像VQA的性能,为临床诊断提供了更可靠的支持。

[142] MambaFusion: Height-Fidelity Dense Global Fusion for Multi-modal 3D Object Detection

Hanshi Wang,Jin Gao,Weiming Hu,Zhipeng Zhang

Main category: cs.CV

TL;DR: 首次证明纯Mamba块可实现高效Dense Global Fusion,并在相机-LiDAR多模态3D目标检测中表现优异。

  • Motivation: 现有融合策略无法同时实现高效性、长距离建模和完整场景信息保留。
  • Method: 提出高度保真LiDAR编码和Hybrid Mamba Block,结合局部和全局上下文学习。
  • Result: 在nuScenes验证基准上取得75.0的NDS最高分,速度快于现有方法。
  • Conclusion: 该方法在性能和效率上均达到最优,超越高分辨率输入方法。

[143] Multi-Modal Semantic Parsing for the Interpretation of Tombstone Inscriptions

Xiao Zhang,Johan Bos

Main category: cs.CV

TL;DR: 提出了一种基于视觉语言模型(VLM)的多模态墓碑数字化框架,显著提升了墓碑内容的解析、组织和检索能力。

  • Motivation: 墓碑作为历史和文化的重要载体,面临物理侵蚀、环境退化等保护挑战,需要一种更高效的数字化方法。
  • Method: 结合视觉语言模型和检索增强生成(RAG),将墓碑图像转化为结构化的墓碑意义表示(TMR),并整合外部依赖元素。
  • Result: 与传统OCR方法相比,解析准确率从F1分数36.1提升至89.5,并在多语言和文化背景下验证了模型的鲁棒性。
  • Conclusion: 该研究首次利用大规模视觉语言模型形式化墓碑理解,为文化遗产保护提供了新思路。

[144] Transferring Visual Explainability of Self-Explaining Models through Task Arithmetic

Yuya Yoshikawa,Ryotaro Shimizu,Takahiro Kawashima,Yuki Saito

Main category: cs.CV

TL;DR: 提出一种基于任务算术框架的方法,将自解释模型的视觉可解释性从源领域迁移到目标领域,提升目标领域的解释质量而不牺牲分类准确性。

  • Motivation: 解决自解释模型训练中标注和计算成本高的问题。
  • Method: 通过任务算术框架定义可解释性向量,并将其应用于目标领域的预测任务模型。
  • Result: 实验表明,视觉可解释性可成功迁移,解释质量提升且分类准确性不受影响。
  • Conclusion: 该方法高效且通用,适用于多种数据集,解释质量接近需要多次推理的方法。

[145] Comprehensive Information Bottleneck for Unveiling Universal Attribution to Interpret Vision Transformers

Jung-Ho Hong,Ho-Joong Kim,Kyu-Sung Jeon,Seong-Whan Lee

Main category: cs.CV

TL;DR: 本文提出了一种基于综合信息瓶颈(CoIBA)的特征归因方法,通过在多目标层中共享参数阻尼比来补充被忽略的决策线索,提高了归因的忠实性。

  • Motivation: 现有方法在特定层计算信息以获取归因,但忽略了决策过程中跨层分布的证据。
  • Method: 提出CoIBA方法,在多目标层中应用信息瓶颈并共享参数阻尼比,通过变分方法上界层间信息。
  • Result: 实验结果表明,CoIBA显著提高了特征归因的忠实性。
  • Conclusion: CoIBA通过跨层共享信息,有效补充了决策中被忽略的线索,提升了归因的全面性和准确性。

[146] RegistrationMamba: A Mamba-based Registration Framework Integrating Multi-Expert Feature Learning for Cross-Modal Remote Sensing Images

Wei Wang,Dou Quan,Chonghua Lv,Shuang Wang,Ning Huyan,Yunan Li,Licheng Jiao

Main category: cs.CV

TL;DR: 提出了一种基于状态空间模型(SSM)的RegistrationMamba方法,用于解决跨模态遥感图像(CRSI)配准中的非线性辐射变化和纹理限制问题。

  • Motivation: CRSI配准面临非线性辐射变化和纹理限制的挑战,现有CNN和Transformer方法分别存在局部感受野不足和高计算复杂度的问题。
  • Method: 采用多方向交叉扫描策略捕捉全局上下文关系,结合多专家特征学习(MEFL)策略增强纹理受限场景下的特征提取,并通过多级特征聚合(MFA)模块整合局部信息。
  • Result: 在多种分辨率的CRSI上实验表明,RegistrationMamba在性能和鲁棒性上优于现有方法。
  • Conclusion: RegistrationMamba通过SSM和MEFL策略有效提升了CRSI配准的精度和适应性。

[147] Sat2City: 3D City Generation from A Single Satellite Image with Cascaded Latent Diffusion

Tongyan Hua,Lutao Jiang,Ying-Cong Chen,Wufan Zhao

Main category: cs.CV

TL;DR: Sat2City框架结合稀疏体素网格和潜在扩散模型,从卫星图像生成详细3D城市结构,优于现有方法。

  • Motivation: 现有方法依赖神经渲染技术,难以从有限的2D观测生成大规模详细3D结构。
  • Method: 提出Sat2City框架,包含级联潜在扩散模型、Re-Hash操作和逆采样策略,结合新3D城市数据集。
  • Result: 在合成数据集上验证,生成高保真3D结构,优于现有城市生成模型。
  • Conclusion: Sat2City通过新框架和数据集,解决了3D城市生成的挑战,具有广泛应用潜力。

[148] A View-consistent Sampling Method for Regularized Training of Neural Radiance Fields

Aoxiang Fan,Corentin Dumery,Nicolas Talabot,Pascal Fua

Main category: cs.CV

TL;DR: 提出了一种基于视图一致性分布的深度正则化方法,用于改进NeRF在真实世界数据上的表现。

  • Motivation: 传统深度估计模型需要昂贵的3D监督训练且泛化性差,尤其在户外无界场景中表现不佳。
  • Method: 利用视图一致性分布(结合低层颜色特征和高层基础模型特征)和深度推送损失,对NeRF训练进行隐式正则化。
  • Result: 在多个公开数据集上的实验表明,该方法在合成新视图方面显著优于现有NeRF变体和深度正则化方法。
  • Conclusion: 通过视图一致性分布和深度推送损失的联合使用,有效消除了NeRF训练的失败模式,提升了性能。

[149] MVNet: Hyperspectral Remote Sensing Image Classification Based on Hybrid Mamba-Transformer Vision Backbone Architecture

Guandong Li,Mengxia Ye

Main category: cs.CV

TL;DR: MVNet结合3D-CNN、Transformer和Mamba的优势,提出了一种新的HSI分类网络架构,通过双分支Mamba模块和优化的HSI-MambaVision Mixer模块,实现了高效的空间-光谱特征提取与融合,显著提升了分类精度和计算效率。

  • Motivation: HSI分类面临高维数据、训练样本有限和光谱冗余等挑战,导致过拟合和泛化能力不足。MVNet旨在解决这些问题。
  • Method: MVNet整合3D-CNN的局部特征提取、Transformer的全局建模和Mamba的线性复杂度序列建模能力,设计了双分支Mamba模块和HSI-MambaVision Mixer模块。
  • Result: 在IN、UP和KSC数据集上,MVNet在分类精度和计算效率上优于主流方法。
  • Conclusion: MVNet在处理复杂HSI数据时表现出强大的能力,为HSI分类提供了一种高效解决方案。

[150] Multimedia Verification Through Multi-Agent Deep Research Multimodal Large Language Models

Huy Hoan Le,Van Sy Thinh Nguyen,Thi Le Chi Dang,Vo Thanh Khang Nguyen,Truong Thanh Hung Nguyen,Hung Cao

Main category: cs.CV

TL;DR: 论文提出了一种多代理验证系统,结合多模态大语言模型(MLLMs)和专用验证工具,用于检测多媒体虚假信息。系统通过六个阶段运行,并在挑战数据集上验证了有效性。

  • Motivation: 解决多媒体虚假信息检测的复杂性和多样性问题,提供一种高效、多阶段的验证方法。
  • Method: 开发了多代理验证系统,结合MLLMs和专用工具(如反向图像搜索、元数据分析等),分为六个阶段处理数据。
  • Result: 系统成功验证了内容真实性,提取了精确的地理位置和时间信息,并追踪了多平台的来源归属。
  • Conclusion: 该系统能有效应对现实世界中的多媒体验证场景,展示了多代理和MLLMs结合的潜力。

[151] SFOOD: A Multimodal Benchmark for Comprehensive Food Attribute Analysis Beyond RGB with Spectral Insights

Zhenbo Xu,Jinghan Yang,Gong Huang,Jiqing Feng,Liu Liu,Ruihan Sun,Ajin Meng,Zhuo Zhang,Zhaofeng He

Main category: cs.CV

TL;DR: 本文构建了首个大规模光谱食物(SFOOD)基准套件,填补了食物属性分析的空白,并发现光谱数据对食物属性分析至关重要。

  • Motivation: 现有研究主要关注食物类别,缺乏对多种食物属性(如甜度、重量等)的综合基准,且RGB相机难以准确感知这些属性。
  • Method: 组织现有食物数据集,收集数百种食物的高光谱图像,并使用仪器实验测定甜度、重量等属性。
  • Result: 构建了包含3,266种食物类别和2,351k数据点的基准,发现大规模模型在数字化食物方面表现不佳,光谱数据对分析食物属性至关重要。
  • Conclusion: SFOOD基准将开源并持续迭代,以促进智能食物分析的发展。

[152] DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge

Wenyao Zhang,Hongsi Liu,Zekun Qi,Yunnan Wang,XinQiang Yu,Jiazhao Zhang,Runpei Dong,Jiawei He,He Wang,Zhizheng Zhang,Li Yi,Wenjun Zeng,Xin Jin

Main category: cs.CV

TL;DR: DreamVLA提出了一种新的视觉-语言-动作(VLA)框架,通过整合全面的世界知识预测,解决了现有方法在冗余信息和缺乏动态、空间及语义信息方面的局限性。

  • Motivation: 现有VLA模型在图像预测中存在冗余信息且缺乏全面的世界知识,限制了机器人操作的泛化和推理能力。
  • Method: DreamVLA引入动态区域引导的世界知识预测,结合空间和语义线索,采用块状结构化注意力机制和扩散变换器来解耦信息并建模动作分布。
  • Result: 在真实和模拟环境中,DreamVLA在真实机器人任务中达到76.7%的成功率,CALVIN ABC-D基准测试中平均长度为4.44。
  • Conclusion: DreamVLA通过整合多模态推理链和解耦信息,显著提升了机器人操作的性能。

[153] CoT-lized Diffusion: Let's Reinforce T2I Generation Step-by-step

Zheyuan Liu,Munan Ning,Qihui Zhang,Shuo Yang,Zhongrui Wang,Yiwei Yang,Xianzhe Xu,Yibing Song,Weihua Chen,Fan Wang,Li Yuan

Main category: cs.CV

TL;DR: CoT-Diff通过将多模态大语言模型驱动的3D布局规划与扩散过程紧密结合,改进了文本到图像生成的空间对齐和组合保真度。

  • Motivation: 当前文本到图像生成模型在复杂场景中难以实现输入文本与空间组合的对齐,布局规划与生成过程脱节导致空间控制不佳。
  • Method: CoT-Diff框架在扩散过程中集成MLLM驱动的3D布局规划,通过动态更新布局并将其转换为语义条件和深度图,利用条件感知注意力机制指导生成。
  • Result: 在3D场景基准测试中,CoT-Diff显著提升了空间对齐和组合保真度,复杂场景空间准确率比现有最佳方法提高了34.7%。
  • Conclusion: CoT-Diff验证了这种紧密耦合生成范式的有效性,为文本到图像生成提供了更精确的空间控制。

[154] BiVM: Accurate Binarized Neural Network for Efficient Video Matting

Haotong Qin,Xianglong Liu,Xudong Ma,Lei Ke,Yulun Zhang,Jie Luo,Michele Magno

Main category: cs.CV

TL;DR: BiVM是一种高效的二值化神经网络,用于实时视频抠图,通过弹性快捷方式和可进化拓扑结构提升编码器性能,并通过稀疏化解码器特征减少计算负担,显著优于现有方法。

  • Motivation: 边缘设备上的实时视频抠图面临计算限制,二值化虽常见但存在精度和效率问题,BiVM旨在解决这些问题。
  • Method: 提出弹性快捷方式和可进化拓扑的编码器结构,稀疏化解码器特征,并采用信息引导的模仿框架。
  • Result: BiVM在计算和存储成本上分别节省14.3倍和21.6倍,性能显著优于现有二值化方法。
  • Conclusion: BiVM通过优化编码器和解码器设计,实现了高效且准确的视频抠图,适用于边缘设备。

[155] Visual Hand Gesture Recognition with Deep Learning: A Comprehensive Review of Methods, Datasets, Challenges and Future Research Directions

Konstantinos Foteinos,Jorgen Cani,Manousos Linardakis,Panagiotis Radoglou-Grammatikis,Vasileios Argyriou,Panagiotis Sarigiannidis,Iraklis Varlamis,Georgios Th. Papadopoulos

Main category: cs.CV

TL;DR: 该论文是一篇关于视觉手势识别(VHGR)的综述,旨在填补该领域缺乏系统性调查的空白,为研究人员提供全面的方法、数据集和评估指标指南。

  • Motivation: 由于深度学习模型和数据集的快速发展,VHGR领域的研究日益增多,但缺乏系统性的综述,导致研究人员难以找到适合特定任务的方法和数据。
  • Method: 采用系统性研究方法,通过文献检索和分析框架,对不同VHGR任务(静态手势识别、孤立动态手势和连续手势识别)进行分类和总结。
  • Result: 综述了VHGR领域的最新方法、数据集和评估指标,并提出了分类框架,帮助研究人员选择适合的策略。
  • Conclusion: 总结了VHGR领域的主要挑战和未来研究方向,为后续研究提供了指导。

[156] A Training-Free Style-Personalization via Scale-wise Autoregressive Model

Kyoungmin Lee,Jihun Park,Jongmin Gim,Wonhyeok Choi,Kyumin Hwang,Jaeyeul Kim,Sunghoon Im

Main category: cs.CV

TL;DR: 提出了一种无需训练的风格个性化图像生成框架,通过多路径设计和干预分析实现高效控制。

  • Motivation: 现有方法通常需要额外训练,限制了灵活性和效率。本文旨在通过无需训练的方式实现内容和风格的控制。
  • Method: 采用三路径设计(内容、风格、生成),结合逐步干预分析,提出关键阶段注意力共享和自适应查询共享机制。
  • Result: 实验表明,该方法在风格和提示保真度上媲美微调基线,同时推理更快、部署更灵活。
  • Conclusion: 通过干预分析和针对性机制,实现了高效、灵活的风格个性化图像生成。

[157] U-ViLAR: Uncertainty-Aware Visual Localization for Autonomous Driving via Differentiable Association and Registration

Xiaofan Li,Zhihao Xu,Chenming Wu,Zhao Yang,Yumeng Zhang,Jiang-Jiang Liu,Haibao Yu,Fan Duan,Xiaoqing Ye,Yuan Wang,Shirui Li,Xun Sun,Ji Wan,Jun Wang

Main category: cs.CV

TL;DR: U-ViLAR是一个基于不确定性感知的视觉定位框架,通过结合高精度地图和导航地图,解决了GNSS信号不可靠时的定位问题。

  • Motivation: 在GNSS信号质量差的城市场景中,视觉定位技术的重要性凸显,需要一种能够处理感知和定位不确定性的方法。
  • Method: 方法包括从视觉数据提取特征并映射到BEV空间,引入感知不确定性引导的关联和定位不确定性引导的配准。
  • Result: 实验表明,该方法在多种定位任务中达到最优性能,并在大规模自动驾驶车队中表现稳定。
  • Conclusion: U-ViLAR通过平衡粗粒度与细粒度定位能力,实现了鲁棒且精确的定位。

[158] MVL-Loc: Leveraging Vision-Language Model for Generalizable Multi-Scene Camera Relocalization

Zhendong Xiao,Wu Wei,Shujie Ji,Shan Yang,Changhao Chen

Main category: cs.CV

TL;DR: MVL-Loc是一个新颖的端到端多场景6自由度相机重定位框架,利用视觉语言模型(VLMs)的预训练知识,结合多模态数据和自然语言指导,提升在多样环境中的泛化能力和鲁棒性。

  • Motivation: 传统基于深度学习的单场景相机姿态回归方法在多样化环境中缺乏泛化性和鲁棒性,MVL-Loc旨在解决这一问题。
  • Method: MVL-Loc利用预训练的视觉语言模型知识,结合多模态数据,并通过自然语言指导多场景学习过程,增强语义理解和空间关系捕捉。
  • Result: 在7Scenes和Cambridge Landmarks数据集上的实验表明,MVL-Loc在多场景相机重定位中表现出鲁棒性和最先进的性能,位置和方向估计精度均有提升。
  • Conclusion: MVL-Loc通过结合视觉语言模型和多模态数据,显著提升了相机重定位在多样化环境中的性能。

[159] FA: Forced Prompt Learning of Vision-Language Models for Out-of-Distribution Detection

Xinhua Lu,Runhe Lai,Yanqi Wu,Kanghao Chen,Wei-Shi Zheng,Ruixuan Wang

Main category: cs.CV

TL;DR: 提出了一种基于CLIP的框架FA,通过强制提示学习充分利用ID知识,显著提升OOD检测效果。

  • Motivation: 现有CLIP方法依赖外部数据集或泛化能力有限,FA旨在通过ID知识提升OOD检测。
  • Method: 学习包含多样化ID类描述的强制提示,增强ID图像与提示的语义相似性,并引入强制系数优化描述。
  • Result: FA在无需外部数据集的情况下,显著优于现有方法,且参数量与CoOp相同。
  • Conclusion: FA通过ID知识优化OOD检测,效果显著且无需额外数据。

[160] Grounded Gesture Generation: Language, Motion, and Space

Anna Deichler,Jim O'Regan,Teo Guichoux,David Johansson,Jonas Beskow

Main category: cs.CV

TL;DR: 论文提出了一种结合空间基础和上下文感知的手势生成框架,填补了现有模型在环境基础和手势生成分离的空白。

  • Motivation: 现有模型通常专注于描述性运动生成或孤立的手势合成,忽略了运动和环境的结合,限制了具身交互代理的发展。
  • Method: 引入了一个多模态数据集和框架,结合合成数据集和VR对话数据集,提供同步的运动、语音和3D场景信息,并连接到物理模拟器进行数据生成和评估。
  • Result: 提供了7.7小时的标准化数据,为空间基础手势生成和具身多模态交互研究奠定了基础。
  • Conclusion: 该框架为空间基础手势生成和具身交互研究提供了重要支持。

[161] A Data-Driven Novelty Score for Diverse In-Vehicle Data Recording

Philipp Reis,Joshua Ransiek,David Petri,Jacob Langner,Eric Sax

Main category: cs.CV

TL;DR: 提出了一种实时数据选择方法,通过对象级新颖性检测构建更平衡和多样化的数据集,以提高自动驾驶感知系统的鲁棒性。

  • Motivation: 现实世界的数据收集往往偏向常见场景和对象,导致新颖案例代表性不足,影响模型泛化能力和安全性。
  • Method: 使用动态Mean Shift算法为图像帧分配数据驱动的新颖性分数,基于均值和协方差统计建模正常内容,识别并丢弃冗余元素。
  • Result: 减少训练数据集大小可提高模型性能,而数据冗余增加时,更积极的过滤变得可能且有益。
  • Conclusion: 该方法支持实时部署,能持续更新正常内容的定义,高效检测连续数据流中的新颖性。

[162] MambaVideo for Discrete Video Tokenization with Channel-Split Quantization

Dawit Mureja Argaw,Xian Liu,Joon Son Chung,Ming-Yu Liu,Fitsum Reda

Main category: cs.CV

TL;DR: 提出了一种新型离散视频标记化方法,采用Mamba架构和通道分割量化方案,显著提升了视频生成性能。

  • Motivation: 解决视频数据高维度和现有序列标记化方法的局限性。
  • Method: 使用Mamba编码器-解码器架构和通道分割量化方案。
  • Result: 在多个数据集上优于现有方法,成为新的SOTA。
  • Conclusion: 该方法在自回归视频生成中表现出强大的标记化能力。

[163] S2Edit: Text-Guided Image Editing with Precise Semantic and Spatial Control

Xudong Liu,Zikun Chen,Ruowei Jiang,Ziyi Wu,Kejia Yin,Han Zhao,Parham Aarabi,Igor Gilitschenski

Main category: cs.CV

TL;DR: S2Edit是一种基于预训练文本到图像扩散模型的新方法,用于实现个性化的图像编辑,具有精确的语义和空间控制。

  • Motivation: 现有方法在需要细粒度控制的编辑任务(如人脸编辑)中表现不佳,容易丢失身份信息或改变无关区域。
  • Method: 通过微调模型将身份信息嵌入可学习的文本标记,并在文本特征空间中施加正交约束以解耦身份与待编辑属性,同时使用对象掩码引导交叉注意力图。
  • Result: 实验表明,S2Edit在定量和定性上均优于现有方法,并能实现局部编辑和身份保留。
  • Conclusion: S2Edit在图像编辑任务中表现出色,支持多种应用如化妆迁移。

[164] CVFusion: Cross-View Fusion of 4D Radar and Camera for 3D Object Detection

Hanzhi Zhong,Zhiyu Xiang,Ruoyu Xu,Jingyun Fu,Peng Xu,Shaohong Wang,Zhihao Yang,Tianyu Pu,Eryun Liu

Main category: cs.CV

TL;DR: 提出了一种名为CVFusion的跨视图两阶段融合网络,用于提升4D雷达在自动驾驶中的3D物体检测性能。

  • Motivation: 4D雷达在恶劣天气下具有鲁棒性,但其稀疏点和噪声测量限制了性能。现有研究多通过相机图像融合完成检测任务,但雷达和融合机制的潜力未被充分挖掘。
  • Method: 设计了两阶段融合网络:第一阶段通过雷达引导的迭代BEV融合模块生成高召回率的3D提案框;第二阶段聚合点、图像和BEV的多视图特征以优化提案。
  • Result: 在公开数据集上显著优于现有方法,View-of-Delft和TJ4DRadSet的mAP分别提升了9.10%和3.68%。
  • Conclusion: CVFusion通过多视图特征融合显著提升了4D雷达的3D物体检测性能,验证了其有效性。

[165] VLM2Vec-V2: Advancing Multimodal Embedding for Videos, Images, and Visual Documents

Rui Meng,Ziyan Jiang,Ye Liu,Mingyi Su,Xinyi Yang,Yuepeng Fu,Can Qin,Zeyuan Chen,Ran Xu,Caiming Xiong,Yingbo Zhou,Wenhu Chen,Semih Yavuz

Main category: cs.CV

TL;DR: VLM2Vec-V2是一个统一的多模态嵌入框架,支持文本、图像、视频和视觉文档输入,扩展了现有模型的适用范围,并在新任务和原有任务上表现出色。

  • Motivation: 现有多模态嵌入模型主要针对自然图像,对其他视觉形式(如视频和视觉文档)支持有限,限制了其在实际场景中的应用。
  • Method: 提出VLM2Vec-V2框架,并扩展MMEB-V2基准,新增五种任务类型(如视频检索、视觉文档检索等)。
  • Result: VLM2Vec-V2在新任务和原有图像任务上均表现优异,展示了其通用性和改进效果。
  • Conclusion: 研究为多模态嵌入模型的通用性和统一学习策略提供了见解,为更可扩展和适应性强的表示学习奠定了基础。

[166] QR-LoRA: Efficient and Disentangled Fine-tuning via QR Decomposition for Customized Generation

Jiahui Yang,Yongjia Ma,Donglin Di,Hao Li,Wei Chen,Yan Xie,Jianxun Cui,Xun Yang,Wangmeng Zuo

Main category: cs.CV

TL;DR: 论文提出QR-LoRA,一种基于QR分解的结构化参数更新框架,用于解决多LoRA模型组合时的特征纠缠问题,实现高效的视觉属性分离。

  • Motivation: 现有文本到图像模型在组合多个LoRA模型时,权重矩阵的非结构化修改会导致内容与风格属性的特征纠缠,影响效果。
  • Method: 通过QR分解,固定Q和R矩阵,仅训练额外的任务特定ΔR矩阵,减少可训练参数并实现属性分离。
  • Result: 实验表明,QR-LoRA在内容-风格融合任务中实现了更好的解耦效果,参数效率更高。
  • Conclusion: QR-LoRA为生成模型提供了一种参数高效且解耦的微调新范式。

[167] HiLa: Hierarchical Vision-Language Collaboration for Cancer Survival Prediction

Jiaqi Cui,Lu Wen,Yuchen Fei,Bo Liu,Luping Zhou,Dinggang Shen,Yan Wang

Main category: cs.CV

TL;DR: 提出了一种名为HiLa的分层视觉语言协作框架,用于改进癌症WSI的生存预测,通过多级语言提示和层次特征交互提升性能。

  • Motivation: 现有方法依赖稀疏的幻灯片级标签和单一语言提示,无法充分学习WSI中的细粒度视觉-语言关联和层次交互。
  • Method: HiLa框架结合预训练特征提取器生成层次视觉特征,通过最优提示学习(OPL)对齐多属性语言提示,并引入跨级传播(CLP)和互对比学习(MCL)模块优化层次协作。
  • Result: 在三个TCGA数据集上实现了最先进的性能。
  • Conclusion: HiLa通过分层视觉-语言协作显著提升了生存预测的准确性,解决了现有方法的局限性。

[168] Learn 3D VQA Better with Active Selection and Reannotation

Shengli Zhou,Yang Liu,Feng Zheng

Main category: cs.CV

TL;DR: 提出了一种多轮交互式主动学习策略,用于解决3D VQA中误导性标注的问题,通过语义不确定性和重新标注请求提升模型性能。

  • Motivation: 3D VQA中自由形式的答案常导致误导性标注,而数据稀缺加剧了这一问题,现有主动学习方法无法解决误导性标注。
  • Method: 采用基于语义不确定性的多轮交互主动学习策略,结合方差度量评估不确定性,并请求重新标注。
  • Result: 实验显示模型性能提升,训练成本减半。
  • Conclusion: 该方法有效解决了误导性标注问题,显著提升了3D VQA的性能和效率。

[169] Learning Robust Stereo Matching in the Wild with Selective Mixture-of-Experts

Yun Wang,Longguang Wang,Chenghao Zhang,Yongjian Zhang,Zhanjie Zhang,Ao Ma,Chenyou Fan,Tin Lun Lam,Junjie Hu

Main category: cs.CV

TL;DR: SMoEStereo提出了一种基于Vision Foundation Models(VFMs)的立体匹配框架,通过LoRA和MoE模块的融合提升跨域性能。

  • Motivation: 现有学习型立体匹配网络在跨域性能上表现不足,VFMs的潜力未被充分利用。
  • Method: 结合Low-Rank Adaptation(LoRA)和Mixture-of-Experts(MoE)模块,动态选择专家并优化特征提取。
  • Result: 在多个基准测试中实现了最先进的跨域和联合泛化性能。
  • Conclusion: SMoEStereo通过高效融合VFMs显著提升了立体匹配的鲁棒性和泛化能力。

[170] LTMSformer: A Local Trend-Aware Attention and Motion State Encoding Transformer for Multi-Agent Trajectory Prediction

Yixin Yan,Yang Li,Yuanfan Wang,Xiaozhou Zhou,Beihao Xia,Manjiang Hu,Hongmao Qin

Main category: cs.CV

TL;DR: 论文提出LTMSformer框架,通过局部趋势感知注意力机制和运动状态编码器,改进时空依赖建模,实现轻量级多模态轨迹预测。

  • Motivation: 现有研究常忽略局部时间依赖和高阶运动状态属性对轨迹预测的影响。
  • Method: 提出LTMSformer框架,包括局部趋势感知注意力机制、运动状态编码器和轻量级提议细化模块。
  • Result: 在Argoverse 1数据集上,性能优于基线HiVT-64,minADE降低4.35%,minFDE降低8.74%,MR降低20%。
  • Conclusion: LTMSformer在轻量级模型下实现了更高的预测精度。

[171] MODA: MOdular Duplex Attention for Multimodal Perception, Cognition, and Emotion Understanding

Zhicheng Zhang,Wuyou Xia,Chenxi Zhao,Zhou Yan,Xiaoqiang Liu,Yongjie Zhu,Wenyu Qin,Pengfei Wan,Di Zhang,Jufeng Yang

Main category: cs.CV

TL;DR: 论文提出了一种名为MODA的新型注意力机制,解决多模态学习中的注意力缺陷问题,通过双模态空间映射和自适应掩码注意力提升模型性能。

  • Motivation: 多模态大语言模型(MLLMs)在语言中心调优方面表现突出,但在多模态令牌混合和细粒度认知任务中存在注意力缺陷问题。
  • Method: 提出MODA机制,采用对齐后修正策略,通过双模态空间映射和自适应掩码注意力实现模态内精炼和模态间交互。
  • Result: 在21个基准数据集上的实验验证了MODA在感知、认知和情感任务中的有效性。
  • Conclusion: MODA通过改进注意力机制显著提升了多模态任务的性能,为未来研究提供了新方向。

[172] UGG-ReID: Uncertainty-Guided Graph Model for Multi-Modal Object Re-Identification

Xixi Wan,Aihua Zheng,Bo Jiang,Beibei Wang,Chenglong Li,Jin Tang

Main category: cs.CV

TL;DR: 提出了一种名为UGG-ReID的鲁棒方法,通过估计局部和样本级的不确定性来减少噪声干扰并提升多模态融合效果。

  • Motivation: 多模态目标重识别(ReID)中,现有方法常忽略由固有缺陷(如模态内噪声和模态间冲突)引起的不确定性,尤其是在细粒度局部遮挡和帧丢失的情况下。
  • Method: 提出高斯补丁图表示模型量化局部线索并捕捉结构关系,设计不确定性引导的专家混合策略动态路由样本,并增强多模态交互。
  • Result: 在五个多模态ReID数据集上表现优异,尤其在抗噪性方面显著优于现有方法。
  • Conclusion: UGG-ReID通过不确定性建模有效提升了多模态目标重识别的鲁棒性和性能。

[173] VectorLLM: Human-like Extraction of Structured Building Contours vis Multimodal LLMs

Tao Zhang,Shiqing Wei,Shihao Chen,Wenling Yu,Muying Luo,Shunping Ji

Main category: cs.CV

TL;DR: VectorLLM是一种多模态大语言模型,用于直接从遥感图像中提取建筑物轮廓,通过点对点回归方法显著优于现有方法,并展示了强大的零样本泛化能力。

  • Motivation: 现有方法依赖复杂的多阶段流程,限制了可扩展性和实际应用。VectorLLM旨在利用大语言模型的推理能力,简化流程并提高性能。
  • Method: VectorLLM采用视觉基础主干、MLP连接器和LLM架构,结合可学习的位置嵌入,通过预训练、监督微调和偏好优化进行训练。
  • Result: 在三个数据集上,VectorLLM分别比现有方法提高了5.6 AP、7.1 AP和13.6 AP,并在零样本任务中表现优异。
  • Conclusion: VectorLLM为遥感矢量提取建立了新范式,结合高精度和强泛化能力,推动了社区发展。

[174] What's Making That Sound Right Now? Video-centric Audio-Visual Localization

Hahyeon Choi,Junhoo Lee,Nojun Kwak

Main category: cs.CV

TL;DR: AVATAR提出了一种视频中心的音频-视觉定位(AVL)基准,解决了现有方法在时间动态性和复杂场景中的不足,并提出了新模型TAVLO。

  • Motivation: 现有AVL研究仅关注图像级关联,忽略了时间动态性,且假设场景过于简化(如单一可见声源)。
  • Method: 提出AVATAR基准,包含四种场景,并开发TAVLO模型,通过高分辨率时间建模实现精确对齐。
  • Result: 传统方法因依赖全局音频特征而表现不佳,TAVLO则显著提升了时间动态下的定位精度。
  • Conclusion: 研究强调了时间动态在AVL中的重要性,为视频中心AVL设立了新标准。

[175] ChangeBridge: Spatiotemporal Image Generation with Multimodal Controls for Remote Sensing

Zhenghui Zhao,Chen Wu,Di Wang,Hongruixuan Chen,Zhuo Zheng

Main category: cs.CV

TL;DR: ChangeBridge是一种基于多模态控制的时空扩散模型,用于从预事件图像生成后事件图像,适用于城市规划等领域。

  • Motivation: 现有生成方法未探索基于给定场景图像的未来情景模拟,而这一能力对城市规划和土地管理有广泛应用。
  • Method: 提出ChangeBridge,一种条件时空扩散模型,通过多模态空间控制(如文本提示、实例布局和语义图)建模噪声到图像的扩散过程,直接模拟预事件和后事件状态的时空演化。
  • Result: 实验表明,ChangeBridge能生成与给定条件对齐的高保真未来情景,包括事件和事件驱动的背景变化。
  • Conclusion: ChangeBridge是首个具有多模态控制的时空生成模型,为遥感图像合成提供了新方法。

[176] Colorectal Cancer Tumor Grade Segmentation in Digital Histopathology Images: From Giga to Mini Challenge

Alper Bahcekapili,Duygu Arslan,Umut Ozdemir,Berkay Ozkirli,Emre Akbas,Ahmet Acar,Gozde B. Akar,Bingdou He,Shuoyu Xu,Umit Mert Caglar,Alptekin Temizel,Guillaume Picaud,Marc Chaumont,Gérard Subsol,Luc Téot,Fahad Alsharekh,Shahad Alghannam,Hexiang Mao,Wenhua Zhang

Main category: cs.CV

TL;DR: 该论文介绍了ICIP大挑战赛,旨在通过公开数据集METU CCTGS推动结直肠癌(CRC)肿瘤分级和分割的自动化解决方案。

  • Motivation: 结直肠癌是全球高发癌症,病理分级主观性强且缺乏专业病理学家,亟需自动化标准化解决方案。
  • Method: 组织ICIP挑战赛,使用METU CCTGS数据集(103张全切片图像),评估指标包括F-score和mIoU。
  • Result: 39支团队参与,6支表现优于Swin Transformer基线(62.92 F-score)。
  • Conclusion: 挑战赛展示了自动化方法的潜力,为CRC分级和分割提供了新思路。

[177] TeethGenerator: A two-stage framework for paired pre- and post-orthodontic 3D dental data generation

Changsong Lei,Yaqian Liang,Shaofeng Wang,Jiajia Dai,Yong-Jin Liu

Main category: cs.CV

TL;DR: 提出了一种名为TeethGenerator的两阶段框架,用于生成正畸前后的3D牙齿模型,以支持牙齿排列神经网络的训练。

  • Motivation: 解决现有3D形状生成方法无法生成解剖结构牙齿模型的问题,特别是缺乏成对的正畸前后牙齿模型数据。
  • Method: 采用两阶段框架:牙齿形状生成模块(基于扩散模型学习牙齿形态特征)和牙齿风格生成模块(通过条件输入合成正畸前牙齿模型)。
  • Result: 合成数据与真实正畸数据分布高度一致,结合真实数据训练显著提升了牙齿排列性能。
  • Conclusion: TeethGenerator为牙齿排列神经网络提供了高质量的训练数据,解决了数据收集的瓶颈问题。

[178] Structure-Guided Diffusion Models for High-Fidelity Portrait Shadow Removal

Wanchang Yu,Qing Zhang,Rongjia Zheng,Wei-Shi Zheng

Main category: cs.CV

TL;DR: 提出了一种基于扩散的肖像阴影去除方法,通过结构引导和细节恢复生成高保真结果。

  • Motivation: 解决现有方法在肖像阴影去除中常见的面部身份篡改、阴影残留、颜色失真、结构模糊和细节丢失等问题。
  • Method: 1. 训练阴影无关结构提取网络生成结构图;2. 训练结构引导的扩散模型进行阴影去除;3. 训练细节恢复扩散模型优化结果。
  • Result: 在基准数据集上明显优于现有方法,有效避免了常见问题。
  • Conclusion: 该方法通过结构引导和细节恢复,实现了高质量的肖像阴影去除。

[179] A Visual Leap in CLIP Compositionality Reasoning through Generation of Counterfactual Sets

Zexi Jia,Chuanwei Huang,Hongyan Fei,Yeshuang Zhu,Zhiqiang Yuan,Ying Deng,Jiapei Zhang,Jinchao Zhang,Jie Zhou

Main category: cs.CV

TL;DR: 提出一种基于块扩散的方法,自动生成反事实数据集,提升视觉语言模型的组合推理能力。

  • Motivation: 解决视觉语言模型因缺乏高质量图像-文本数据而导致的组合推理能力不足问题。
  • Method: 利用大语言模型识别实体及其空间关系,独立生成图像块并按组合规则排列,同时引入专用损失函数区分样本。
  • Result: 实验表明,使用反事实数据集微调模型显著提升视觉推理性能,并在多个基准测试中达到最优。
  • Conclusion: 该方法在减少训练数据需求的同时,显著提升了视觉语言模型的组合推理能力。

[180] Tempo-R0: A Video-MLLM for Temporal Video Grounding through Efficient Temporal Sensing Reinforcement Learning

Feng Yue,Zhaoxing Zhang,Junming Jiao,Zhengyu Liang,Shiwen Cao,Feifei Zhang,Rong Shen

Main category: cs.CV

TL;DR: Tempo-R0是一种视频多模态大语言模型,通过多模态时间感知强化解决时间视频定位任务,显著优于现有方法。

  • Motivation: 视频信息量大且冗余,模型需全面理解视频以准确定位语言查询相关片段。
  • Method: 采用自适应注意力分配(SAA)和显式时间戳模态对齐(ETA)预处理,结合部分无关拒绝策略优化(PIR-GRPO)微调。
  • Result: 在QVHighlights测试集上优于现有方法约3.5%。
  • Conclusion: Tempo-R0通过多模态时间感知强化显著提升了时间视频定位性能。

[181] Identity-Preserving Text-to-Video Generation Guided by Simple yet Effective Spatial-Temporal Decoupled Representations

Yuji Wang,Moran Li,Xiaobin Hu,Ran Yi,Jiangning Zhang,Han Feng,Weijian Cao,Yabiao Wang,Chengjie Wang,Lizhuang Ma

Main category: cs.CV

TL;DR: 论文提出了一种空间-时间解耦框架,用于解决文本到视频生成中的身份一致性问题,通过语义提示优化和分阶段生成方法,实现了时空一致性和高质量视频生成。

  • Motivation: 当前端到端框架在文本到视频生成中存在空间-时间权衡问题,无法同时保证身份一致性和动态真实性。
  • Method: 提出空间-时间解耦框架,包括语义提示优化机制和分阶段生成范式,分别处理空间布局和时间动态。
  • Result: 实验证明该方法在时空一致性、身份保留、文本相关性和视频质量方面表现优异,并在2025年ACM多媒体挑战赛中获得亚军。
  • Conclusion: 通过简单而有效的解耦机制,成功解决了文本到视频生成中的关键问题,为下游应用提供了高质量解决方案。

[182] Geometric-Guided Few-Shot Dental Landmark Detection with Human-Centric Foundation Model

Anbang Wang,Marawan Elbatel,Keyuan Liu,Lizhuo Lin,Meng Lan,Yanqi Yang,Xiaomeng Li

Main category: cs.CV

TL;DR: GeoSapiens是一种基于少样本学习的新框架,用于在有限标注的CBCT数据上检测牙齿解剖标志点,显著提高了检测成功率。

  • Motivation: 手动标注CBCT图像中的解剖标志点耗时且易受观察者差异影响,而传统深度学习方法因数据稀缺和标注成本高难以应用。
  • Method: GeoSapiens结合了Sapiens基础模型和新型几何损失函数,以捕捉解剖结构间的几何关系。
  • Result: 在严格0.5 mm阈值下,GeoSapiens的检测成功率比现有方法高8.18%。
  • Conclusion: GeoSapiens为牙齿标志点检测提供了一种高效、鲁棒的解决方案,尤其适用于数据有限的情况。

[183] Unleashing the Power of Neural Collapse: Consistent Supervised-Unsupervised Alignment for Generalized Category Discovery

Jizhou Han,Shaokun Wang,Yuhang He,Chenhao Ding,Qiang Wang,Xinyuan Gao,SongLin Dong,Yihong Gong

Main category: cs.CV

TL;DR: 提出NC-GCD框架,通过固定ETF原型优化几何结构和目标一致性,提升新类别发现性能。

  • Motivation: 解决现有GCD方法因目标不一致和类别混淆导致的性能问题。
  • Method: 采用ETF原型固定、一致性ETF对齐损失和语义一致性匹配器。
  • Result: 在多个GCD基准测试中表现优异,显著提升新类别准确率。
  • Conclusion: NC-GCD框架有效解决了GCD中的优化和类别混淆问题。

[184] Losing Control: Data Poisoning Attack on Guided Diffusion via ControlNet

Raz Lapid,Almog Dubin

Main category: cs.CV

TL;DR: 论文提出了一种针对ControlNets的数据投毒攻击方法,能够在无文本触发的情况下生成特定内容(如NSFW),揭示了开源ControlNets管道的漏洞。

  • Motivation: ControlNets依赖公开数据集和社区共享数据进行微调,容易受到隐蔽的数据投毒攻击,研究旨在揭示这一漏洞。
  • Method: 通过注入毒化样本(将轻微触发的输入与NSFW目标配对),使模型在触发时生成NSFW内容,同时保持正常提示的保真度。
  • Result: 在大规模高质量数据集上,攻击成功率高且触发输入难以察觉。
  • Conclusion: 研究揭示了开源ControlNets管道的严重漏洞,强调了数据净化和防御机制的必要性。

[185] An analysis of vision-language models for fabric retrieval

Francesco Giuliari,Asif Khan Pattan,Mohamed Lamine Mekhalfi,Fabio Poiesi

Main category: cs.CV

TL;DR: 论文研究了视觉语言模型(VLMs)在零样本文本到图像检索中的应用,特别是在制造业领域的织物样本上。通过自动化标注流程生成两种文本描述,评估了三种模型的检索性能,发现结构化描述显著提升准确性。

  • Motivation: 解决制造业中缺乏公开数据集的问题,并优化跨模态检索在工业应用中的性能。
  • Method: 使用多模态大语言模型(MLLMs)生成自由形式和结构化文本描述,并评估三种视觉语言模型的检索性能。
  • Result: 结构化描述显著提升检索准确性,Meta的Perception Encoder表现最佳,但零样本检索在细粒度领域仍具挑战性。
  • Conclusion: 结合技术性文本描述和先进VLMs对工业应用中的跨模态检索至关重要。

[186] Vision-Language Models Can't See the Obvious

Yasser Dahou,Ngoc Dung Huynh,Phuc H. Le-Khac,Wamiq Reyaz Para,Ankit Singh,Sanath Narayan

Main category: cs.CV

TL;DR: SalBench是一个评估大型视觉语言模型(LVLM)检测视觉显著特征能力的基准测试,揭示LVLM在识别明显视觉异常上的局限性。

  • Motivation: 评估LVLM在检测人类视觉显著特征(如颜色、强度、方向等低层次特征)上的能力,填补现有基准的不足。
  • Method: 设计包含三个任务的SalBench基准测试(Odd-One-Out Detection、Referring Odd-One-Out、Visual Referring Odd-One-Out),并评估多个先进LVLM模型。
  • Result: LVLM在识别明显视觉异常上表现不佳,GPT-4o的准确率仅为47.6%。
  • Conclusion: SalBench为衡量LVLM与人类注意力对齐的能力提供了重要工具,揭示了现有模型的局限性。

[187] MatDecompSDF: High-Fidelity 3D Shape and PBR Material Decomposition from Multi-View Images

Chengyu Wang,Isabella Bennett,Henry Scott,Liang Zhang,Mei Chen,Hao Li,Rui Zhao

Main category: cs.CV

TL;DR: MatDecompSDF是一个新框架,用于从多视角图像中恢复高保真3D形状并分解其基于物理的材料属性。

  • Motivation: 逆向渲染的核心挑战是从2D观测中解耦几何、材料和光照,这是一个病态问题。
  • Method: 方法联合优化三个神经组件:神经SDF表示几何、神经场预测PBR材料参数、MLP模型捕捉光照,并通过物理可微渲染层连接。
  • Result: 在合成和真实数据集(如DTU)上,MatDecompSDF在几何精度、材料保真度和新视角合成上优于现有方法。
  • Conclusion: 该方法生成可编辑和可重照明的资产,适用于数字内容创作。

[188] MCFormer: A Multi-Cost-Volume Network and Comprehensive Benchmark for Particle Image Velocimetry

Zicheng Lin,Xiaoqiang Li,Yichao Wang,Chuan Zhu

Main category: cs.CV

TL;DR: 论文提出了一个合成PIV基准数据集和MCFormer网络架构,用于标准化评估光学流模型在PIV数据上的性能,并展示了MCFormer的优越性。

  • Motivation: 当前缺乏对光学流模型在PIV数据上的全面评估,阻碍了进展。
  • Method: 生成合成PIV基准数据集,并提出MCFormer网络架构,利用多帧时间信息和多成本体积。
  • Result: MCFormer显著优于现有方法,达到最低的归一化端点误差(NEPE)。
  • Conclusion: 该工作为PIV研究提供了基准资源和先进方法,推动了领域发展。

[189] Robustifying 3D Perception through Least-Squares Multi-Agent Graphs Object Tracking

Maria Damanaki,Ioulia Kapsali,Nikos Piperigkos,Alexandros Gkillas,Aris S. Lalos

Main category: cs.CV

TL;DR: 论文提出了一种基于最小二乘图的多智能体3D LiDAR场景对抗噪声缓解框架,通过多车检测融合和跟踪抑制对抗威胁,显著优于现有方法。

  • Motivation: 提升EdgeAI系统(如自动驾驶车辆)在对抗威胁下的感知能力,通过多智能体合作增强情境理解和鲁棒性。
  • Method: 使用最小二乘图工具减少检测中心点的位置误差,通过重叠边界框和锚点进行多车检测融合与跟踪。
  • Result: 在V2V4Real数据集上,该方法比现有单智能体和多智能体跟踪框架性能提升高达23.3%。
  • Conclusion: 该方法无需额外防御机制即可作为对抗威胁的鲁棒解决方案。

[190] GraphBrep: Learning B-Rep in Graph Structure for Efficient CAD Generation

Weilin Lai,Tie Xu,Hu Wang

Main category: cs.CV

TL;DR: GraphBrep提出了一种显式表示和学习紧凑拓扑的B-Rep生成模型,通过图扩散模型学习拓扑,显著降低了计算成本。

  • Motivation: 直接B-Rep生成在CAD工作流程中越来越重要,但现有方法将拓扑隐式嵌入几何特征,导致冗余信息和高计算成本。
  • Method: 构建无向加权图表示表面拓扑,使用图扩散模型学习拓扑,并基于表面特征确定原始表面之间的连接性。
  • Result: 在两个大规模无条件数据集和一个类别条件数据集上,GraphBrep显著减少了训练和推理时间(分别高达31.3%和56.3%),同时保持高质量的CAD生成。
  • Conclusion: GraphBrep通过显式拓扑表示有效降低了计算成本,同时保持了生成质量,为B-Rep生成提供了高效解决方案。

Zexi Jia,Chuanwei Huang,Yeshuang Zhu,Hongyan Fei,Ying Deng,Zhiqiang Yuan,Jiapei Zhang,Jinchao Zhang,Jie Zhou

Main category: cs.CV

TL;DR: 论文提出ArtBulb框架,结合多模态聚类方法和MLLM,解决AI艺术版权判定问题,并发布首个AI艺术版权基准数据集AICD。

  • Motivation: 当前法律框架缺乏系统标准和可靠方法评估AI艺术版权,需填补技术与法律间的鸿沟。
  • Method: 通过法律案例分析确立三个艺术风格判定标准,提出ArtBulb框架及AICD数据集。
  • Result: ArtBulb在定量和定性评估中优于现有模型。
  • Conclusion: 研究旨在推动AI艺术版权问题的社会关注,并连接法律与技术领域。

[192] Model Compression using Progressive Channel Pruning

Jinyang Guo,Weichen Zhang,Wanli Ouyang,Dong Xu

Main category: cs.CV

TL;DR: 提出了一种渐进式通道剪枝框架(PCP),通过迭代剪枝少量通道来加速CNN,优于现有方法。

  • Motivation: 现有通道剪枝方法通常逐层一次性剪枝,可能导致精度下降较大,PCP旨在通过渐进式剪枝减少精度损失。
  • Method: PCP采用三步流程(尝试-选择-剪枝),每次迭代剪枝少量通道,并扩展到迁移学习场景。
  • Result: 在多个基准数据集上,PCP在监督学习和迁移学习场景中均优于现有方法。
  • Conclusion: PCP是一种高效且通用的通道剪枝框架,适用于多种学习场景。

[193] PointGAC: Geometric-Aware Codebook for Masked Point Cloud Modeling

Abiao Li,Chenlei Lv,Yuming Fang,Yifan Zuo,Jian Zhang,Guofeng Mei

Main category: cs.CV

TL;DR: PointGAC是一种基于聚类的掩码点云建模方法,通过在线码本引导的师生框架,专注于对齐掩码区域的特征分布,而非细节重建,从而学习更通用的特征表示。

  • Motivation: 现有掩码点云建模方法过度关注掩码区域的细节重建,导致无法捕捉通用特征。
  • Method: 提出PointGAC方法,采用几何感知分区策略提取初始补丁,通过在线k-means更新码本,师生模型对齐特征分配。
  • Result: 实验证明该方法在下游任务中有效,码本维护机制提升了语义特征学习效率。
  • Conclusion: PointGAC通过聚类中心对齐策略,成功学习到更通用的特征表示,优于传统回归方法。

[194] UDF-GMA: Uncertainty Disentanglement and Fusion for General Movement Assessment

Zeqi Luo,Ali Gooya,Edmond S. L. Ho

Main category: cs.CV

TL;DR: 本文提出了一种名为UDF-GMA的方法,通过显式建模模型参数的认识不确定性和数据噪声的随机不确定性,改进了基于姿态的自动化通用运动评估(GMA)的可靠性。

  • Motivation: 主流基于姿态的自动化GMA方法因高质量数据有限和姿态估计噪声导致不确定性,缺乏可靠的临床可靠性。
  • Method: UDF-GMA通过直接建模随机不确定性,并通过贝叶斯近似估计认识不确定性,有效分离不确定性。进一步提出将这些不确定性与嵌入的运动表示融合以增强类别分离。
  • Result: 在Pmi-GMA基准数据集上的大量实验表明,该方法在预测不良运动模式方面具有有效性和泛化性。
  • Conclusion: UDF-GMA通过显式建模和融合不确定性,显著提升了基于姿态的自动化GMA的临床可靠性。

[195] From Vision To Language through Graph of Events in Space and Time: An Explainable Self-supervised Approach

Mihai Masala,Marius Leordeanu

Main category: cs.CV

TL;DR: 论文提出了一种基于时空事件图的共享表示方法,用于生成复杂的长视频描述,并通过自监督的神经分析系统验证其有效性。

  • Motivation: 当前数据集缺乏复杂语言的视频描述,且现有方法难以解释视觉与语言之间的关系。
  • Method: 提出基于时空事件图的共享表示方法,结合自监督神经分析系统生成视频描述。
  • Result: 方法在多个数据集上生成连贯、丰富且相关的文本描述,并通过标准评估和人工验证。
  • Conclusion: 提出的可解释神经分析方法有效解决了复杂视频描述生成问题,并可作为自动教师训练端到端模型。

[196] SeqGrowGraph: Learning Lane Topology as a Chain of Graph Expansions

Mengwei Xie,Shuang Zeng,Xinyuan Chang,Xinran Liu,Zheng Pan,Mu Xu,Xing Wei

Main category: cs.CV

TL;DR: SeqGrowGraph是一种新颖的框架,通过链式图扩展学习车道拓扑,模拟人类绘图过程,在nuScenes和Argoverse 2数据集上表现优异。

  • Motivation: 传统方法难以建模真实道路中的复杂非线性结构(如环路和双向车道),因此需要一种更有效的方法来准确捕捉车道拓扑。
  • Method: SeqGrowGraph将车道图表示为有向图,逐步扩展顶点和邻接矩阵,使用几何矩阵捕捉中心线形状,并通过Transformer模型自回归预测扩展序列。
  • Result: 在nuScenes和Argoverse 2数据集上,SeqGrowGraph取得了最先进的性能。
  • Conclusion: SeqGrowGraph通过模拟人类绘图过程,有效解决了复杂车道拓扑建模问题,为自动驾驶提供了更准确的车道结构表示。

[197] RIPE: Reinforcement Learning on Unlabeled Image Pairs for Robust Keypoint Extraction

Johannes Künzel,Anna Hilsmann,Peter Eisert

Main category: cs.CV

TL;DR: RIPE是一种基于强化学习的弱监督关键点提取框架,仅需二元标签即可训练,显著简化数据准备并提升泛化能力。

  • Motivation: 传统关键点提取方法依赖人工变换或预生成模型,数据准备复杂且泛化能力有限。RIPE旨在通过弱监督学习减少数据依赖并提升性能。
  • Method: RIPE利用强化学习框架,通过二元标签训练关键点提取器,采用超列方法整合多尺度信息,并引入辅助损失增强描述符区分能力。
  • Result: 在标准基准测试中,RIPE在简化数据准备的同时,性能与现有最优技术相当。
  • Conclusion: RIPE为关键点提取领域提供了更高效且泛化能力强的解决方案,代码已开源。

[198] CMET: Clustering guided METric for quantifying embedding quality

Sourav Ghosh,Chayan Maitra,Rajat K. De

Main category: cs.CV

TL;DR: 提出了一种名为CMET的新度量方法,用于量化嵌入质量,评估嵌入数据与原始数据的局部和全局结构保留情况。

  • Motivation: 现有度量方法在时间和空间复杂度上较高,需要一种更高效的量化嵌入质量的方法。
  • Method: 设计了CMET,包含CMET_L和CMET_G两个分数,分别衡量局部和全局结构保留能力。
  • Result: CMET在多种数据集上表现优于现有方法,具有低复杂度和稳定性。
  • Conclusion: CMET是一种可靠且高效的嵌入质量度量方法,适用于不同规模和类型的数据。

[199] Efficient SAR Vessel Detection for FPGA-Based On-Satellite Sensing

Colin Laganier,Liam Fletcher,Elim Kwan,Richard Walters,Victoria Nockles

Main category: cs.CV

TL;DR: 论文提出了一种高效且高性能的SAR船舶检测模型,基于定制化的YOLOv8架构,专为卫星部署优化,解决了传统模型体积大、功耗高的问题。

  • Motivation: 现代卫星生成的数据量巨大,传统地面处理延迟高,而现有ML模型因体积和功耗问题难以在卫星上部署。SAR船舶检测作为时间敏感任务,亟需高效解决方案。
  • Method: 采用定制化的YOLOv8架构,针对FPGA处理优化,训练和评估基于xView3-SAR数据集,并在Kria KV260 MPSoC上部署。
  • Result: FPGA模型在检测和分类性能上仅比GPU模型低2%和3%,但体积小2-3个数量级,功耗低于10W。
  • Conclusion: 该研究展示了小型高性能ML模型在SAR分析中的潜力,为更自主、响应更快的地球观测系统铺平了道路。

[200] Semantically Consistent Discrete Diffusion for 3D Biological Graph Modeling

Chinmay Prabhakar,Suprosanna Shit,Tamaz Amiranashvili,Hongwei Bran Li,Bjoern Menze

Main category: cs.CV

TL;DR: 提出了一种新的3D生物图生成方法,通过投影算子和改进的噪声处理,生成结构合理的生物图,并在下游任务中表现优异。

  • Motivation: 现有扩散方法在生成3D生物图时难以保持解剖学有效性,限制了其应用。
  • Method: 采用新颖的投影算子修复不一致性,并改进噪声处理以适应稀疏生物图。
  • Result: 在人类Willis环和肺气道数据集上表现优于现有方法,生成的样本显著提升了下游图标注性能。
  • Conclusion: 该方法不仅生成效果优异,还能作为开箱即用的链接预测工具。

[201] Transcribing Spanish Texts from the Past: Experiments with Transkribus, Tesseract and Granite

Yanco Amor Torterolo-Orta,Jaione Macicior-Mitxelena,Marina Miguez-Lamanuzzi,Ana García-Serrano

Main category: cs.CV

TL;DR: GRESEL团队在IberLEF 2025共享任务中进行了三种实验,比较了不同方法的效果,结果尚可但仍有改进空间。

  • Motivation: 参与共享任务并比较不同方法的效果。
  • Method: 使用了基于网络的OCR服务、传统OCR引擎和紧凑多模态模型。
  • Result: 实验结果满意,但仍有改进空间。
  • Conclusion: 未来将探索新技术,并与西班牙国家图书馆合作。

[202] HGNet: High-Order Spatial Awareness Hypergraph and Multi-Scale Context Attention Network for Colorectal Polyp Detection

Xiaofang Liu,Lingling Sun,Xuqing Zhang,Yuannong Ye,Bin zhao

Main category: cs.CV

TL;DR: HGNet通过高阶空间感知超图和多尺度上下文注意力提升结直肠癌小病变检测性能,达到94%准确率和90%召回率。

  • Motivation: 当前模型在检测小病变、精确定位边界和提供可解释决策方面存在不足,HGNet旨在解决这些问题。
  • Method: HGNet结合高效多尺度上下文注意力模块、空间超图卷积模块、迁移学习和Eigen-CAM决策可视化。
  • Result: 实验结果显示HGNet在准确率(94%)、召回率(90.6%)和[email protected](90%)上表现优异。
  • Conclusion: HGNet显著提升了小病变检测和临床可解释性,代码将公开。

[203] HV-MMBench: Benchmarking MLLMs for Human-Centric Video Understanding

Yuxuan Cai,Jiangning Zhang,Zhenye Gan,Qingdong He,Xiaobin Hu,Junwei Zhu,Yabiao Wang,Chengjie Wang,Zhucun Xue,Xinwei He,Xiang Bai

Main category: cs.CV

TL;DR: HV-MMBench是一个新的多模态大语言模型(MLLM)评估基准,专注于人类中心视频理解,提供多样化的任务、数据类型和多领域覆盖。

  • Motivation: 现有的人类中心视频评估基准过于简单,缺乏对感知和认知能力的全面评估,因此需要更全面的基准。
  • Method: 设计了HV-MMBench基准,包含15个任务、多种数据类型和多领域视频覆盖,支持从短时到长时的视频分析。
  • Result: HV-MMBench提供了更全面的评估维度,包括基本属性感知和高级认知推理,支持多样化的评估指标。
  • Conclusion: HV-MMBench填补了现有基准的不足,为MLLM在人类中心视频理解领域的评估提供了更全面的工具。

[204] Leveraging Self-Supervised Features for Efficient Flooded Region Identification in UAV Aerial Images

Dibyabha Deb,Ujjwal Verma

Main category: cs.CV

TL;DR: 利用自监督学习特征(DINOv2)识别无人机航拍图像中的洪水区域,减少对人工标注的依赖。

  • Motivation: 传统方法依赖人工标注,耗时且易出错,需探索更高效、客观的灾害评估方法。
  • Method: 提出两种基于编码器-解码器的分割方法,结合DINOv2的自监督特征与传统编码器。
  • Result: DINOv2在非航拍图像上预训练的特征可迁移至航拍图像分割,显著减少标注需求。
  • Conclusion: 自监督特征为航拍图像分割提供高效解决方案,降低人工标注负担。

[205] RainShift: A Benchmark for Precipitation Downscaling Across Geographies

Paula Harder,Luca Schmidt,Francis Pelletier,Nicole Ludwig,Matthew Chantry,Christian Lessig,Alex Hernandez-Garcia,David Rolnick

Main category: cs.CV

TL;DR: 论文提出了RainShift数据集和基准,用于评估深度学习超分辨率模型在地理分布变化下的降尺度性能,发现模型在分布外区域表现显著下降,并提出数据对齐等方法改善泛化能力。

  • Motivation: 解决地球系统模型(ESM)在局部尺度风险评估中分辨率不足的问题,同时评估深度学习降尺度模型在不同地理区域的泛化能力。
  • Method: 引入RainShift数据集和基准,评估包括GAN和扩散模型在内的先进降尺度方法在南北半球数据差异下的表现。
  • Result: 模型在分布外区域性能显著下降,扩展训练域可部分改善泛化,但不足以应对地理差异。数据对齐等方法能提升空间泛化。
  • Conclusion: 研究提升了降尺度方法的全球适用性,减少了高分辨率气候信息获取的不平等。

[206] ReLoop: "Seeing Twice and Thinking Backwards" via Closed-loop Training to Mitigate Hallucinations in Multimodal understanding

Jianjiang Yang,Ziyan Huang,Yanshu Li

Main category: cs.CV

TL;DR: ReLoop是一个闭环训练框架,通过多模态一致性反馈机制减少MLLMs中的幻觉问题。

  • Motivation: 现有的多模态大语言模型(MLLMs)在开放视觉问答中表现优异,但容易产生幻觉输出,缺乏内部验证机制。
  • Method: 提出ReLoop框架,采用环形结构,结合语义重建、视觉描述和注意力监督模块,实现多模态一致性反馈。
  • Result: 实验表明ReLoop有效降低了多个基准测试中的幻觉率。
  • Conclusion: ReLoop为MLLMs中的幻觉问题提供了稳健的解决方案,代码和数据将公开。

[207] Taming the Tri-Space Tension: ARC-Guided Hallucination Modeling and Control for Text-to-Image Generation

Jianjiang Yang,Ziyan Huang

Main category: cs.CV

TL;DR: 论文提出了一种认知启发的视角,将文本到图像(T2I)扩散模型中的幻觉问题重新解释为潜在对齐空间中的轨迹漂移,并提出了一个三轴空间(Hallucination Tri-Space)和动态向量表示(ARC)来量化对齐张力,最终开发了轻量级控制器TM-ARC以减少幻觉。

  • Motivation: 尽管T2I扩散模型在图像质量和提示保真度上取得了显著进展,但仍存在幻觉问题,即生成内容与提示语义不一致。作者认为这些失败反映了生成过程中更深层次的结构性错位。
  • Method: 论文提出了Hallucination Tri-Space(三轴空间)和Alignment Risk Code(ARC),用于量化生成过程中的对齐张力,并开发了TensionModulator(TM-ARC)控制器,通过实时监测ARC信号并施加针对性干预来减少幻觉。
  • Result: 实验表明,TM-ARC在标准T2I基准测试中显著减少了幻觉,同时保持了图像质量和多样性。
  • Conclusion: 该框架为理解和缓解基于扩散的T2I系统中的生成失败提供了一种统一且可解释的方法。

[208] DC-AR: Efficient Masked Autoregressive Image Generation with Deep Compression Hybrid Tokenizer

Yecheng Wu,Junyu Chen,Zhuoyang Zhang,Enze Xie,Jincheng Yu,Junsong Chen,Jinyi Hu,Yao Lu,Song Han,Han Cai

Main category: cs.CV

TL;DR: DC-AR是一种新型的自回归文本到图像生成框架,通过深度压缩混合分词器(DC-HT)提升生成质量和效率,优于现有扩散模型和自回归模型。

  • Motivation: 解决现有掩码自回归模型因分词器限制在质量和效率上落后于扩散模型的问题。
  • Method: 引入DC-HT分词器实现32倍空间压缩,并基于此扩展MaskGIT框架,结合离散和残差令牌生成图像。
  • Result: 在MJHQ-30K上gFID为5.49,GenEval得分为0.69,吞吐量提高1.5-7.9倍,延迟降低2.0-3.5倍。
  • Conclusion: DC-AR在图像生成质量和计算效率上均达到领先水平。

[209] Boosting Temporal Sentence Grounding via Causal Inference

Kefan Tang,Lihuo He,Jisheng Dang,Xinbo Gao

Main category: cs.CV

TL;DR: 提出了一种基于因果推理的TSG框架,通过因果干预和反事实推理消除虚假相关性,提升模型鲁棒性。

  • Motivation: 现有TSG方法忽视视频与文本查询间的虚假相关性,导致模型预测不可靠且泛化能力差。
  • Method: 从因果视角建模TSG任务,提出文本因果干预和视觉反事实推理,消除偏差。
  • Result: 在公开数据集上验证了方法的优越性。
  • Conclusion: 提出的框架有效解决了虚假相关性问题,提升了TSG任务的性能。

[210] Hear-Your-Click: Interactive Video-to-Audio Generation via Object-aware Contrastive Audio-Visual Fine-tuning

Yingshan Liang,Keyu Fan,Zhicheng Du,Yiran Wang,Qingyang Shi,Xinyu Zhang,Jiasheng Lu,Peiwu Qin

Main category: cs.CV

TL;DR: Hear-Your-Click是一个交互式视频到音频(V2A)生成框架,允许用户通过点击视频帧为特定对象生成声音。

  • Motivation: 当前V2A方法依赖全局视频信息,难以处理复杂场景,无法为视频中的特定对象或区域生成音频。
  • Method: 提出Object-aware Contrastive Audio-Visual Fine-tuning (OCAV)和Mask-guided Visual Encoder (MVE),结合两种数据增强策略(RVS和MLM),并设计新的评估指标CAV score。
  • Result: 实验表明,该框架在多种指标上提供了更精确的控制和更好的生成性能。
  • Conclusion: Hear-Your-Click解决了现有V2A方法的局限性,实现了更精准的对象级音频生成。

[211] InterGSEdit: Interactive 3D Gaussian Splatting Editing with 3D Geometry-Consistent Attention Prior

Minghao Wen,Shengjie Wu,Kangkan Wang,Dong Liang

Main category: cs.CV

TL;DR: InterGSEdit提出了一种基于交互式选择关键视图的3D高斯泼溅编辑框架,通过语义一致性选择和注意力融合网络解决多视图编辑中的局部不一致问题。

  • Motivation: 现有3D高斯泼溅编辑方法在多视图编辑中存在局部不一致问题,且完全依赖文本提示导致编辑过程缺乏灵活性。
  • Method: 提出CLIP语义一致性选择策略筛选参考视图,构建3D几何一致性注意力先验,并通过注意力融合网络动态融合2D和3D注意力。
  • Result: 实验表明,InterGSEdit在3DGS编辑中实现了最先进的性能,提供了高保真且一致的编辑效果。
  • Conclusion: InterGSEdit通过交互式选择和动态注意力融合,显著提升了3D编辑的一致性和用户体验。

[212] Can Video LLMs Refuse to Answer? Alignment for Answerability in Video Large Language Models

Eunseop Yoon,Hee Suk Yoon,Mark A. Hasegawa-Johnson,Chang D. Yoo

Main category: cs.CV

TL;DR: 论文提出了一种针对视频大语言模型(Video-LLMs)的框架,使其能够评估问题的相关性并拒绝超出视频范围的问题。

  • Motivation: 现有Video-LLMs在回答超出视频内容范围的问题时表现不佳,因为它们未经过训练来识别和拒绝此类问题。
  • Method: 提出了一个'answerability alignment'框架,并开发了一个评估框架和数据集生成流程。
  • Result: 实验表明,现有Video-LLMs无法有效拒绝不相关问题,而提出的框架显著改善了这一点。
  • Conclusion: 通过训练Video-LLMs评估问题相关性并拒绝不相关问题,可以提升其在实际场景中的实用性。

[213] Parameterized Diffusion Optimization enabled Autoregressive Ordinal Regression for Diabetic Retinopathy Grading

Qinkai Yu,Wei Zhou,Hantao Liu,Yanyu Xu,Meng Wang,Yitian Zhao,Huazhu Fu,Xujiong Ye,Yalin Zheng,Yanda Meng

Main category: cs.CV

TL;DR: 论文提出了一种名为AOR-DR的自回归序数回归方法,用于解决糖尿病视网膜病变(DR)严重程度分类中的长尾分布和类别边界模糊问题。

  • Motivation: 糖尿病视网膜病变(DR)进展缓慢,但其严重程度的准确评估对及时治疗至关重要。传统分类方法难以处理DR数据的长尾分布和类别边界模糊问题。
  • Method: AOR-DR方法通过自回归方式分解DR分级任务,结合扩散过程建模条件概率,利用预训练的大规模基础模型提取全局图像特征。
  • Result: 在四个大型公开彩色眼底数据集上的实验表明,AOR-DR优于六种最新的序数回归方法。
  • Conclusion: AOR-DR通过结合临床知识和自回归技术,显著提升了DR严重程度分类的准确性和鲁棒性。

[214] TLB-VFI: Temporal-Aware Latent Brownian Bridge Diffusion for Video Frame Interpolation

Zonglin Lyu,Chen Chen

Main category: cs.CV

TL;DR: 论文提出了一种高效的视频帧插值方法TLB-VFI,通过3D小波门控和时间感知自编码器提取时间信息,显著提升了性能并减少了参数和训练数据需求。

  • Motivation: 现有基于图像的扩散模型无法提取时间信息且效率低,而基于视频的扩散模型则因规模和计算成本过高而不实用。
  • Method: 提出TLB-VFI方法,结合3D小波门控和时间感知自编码器提取时间信息,并引入光流指导以减少训练数据和参数。
  • Result: 在最具挑战性的数据集上FID提升20%,参数减少3倍,速度提升2.3倍,训练数据需求减少9000倍。
  • Conclusion: TLB-VFI是一种高效且性能优越的视频帧插值方法,显著优于现有技术。

[215] AI for the Routine, Humans for the Complex: Accuracy-Driven Data Labelling with Mixed Integer Linear Programming

Mohammad Hossein Amini,Mehrdad Sabetzadeh,Shiva Nejati

Main category: cs.CV

TL;DR: OPAL是一种基于混合整数线性规划(MILP)的人工辅助标注方法,旨在以最小人工标注努力实现高精度标注。

  • Motivation: 深度学习(DL)中准确标注数据的稀缺是一个主要挑战,测试阶段的高精度标注尤为重要。
  • Method: OPAL采用MILP优化标注努力,同时满足指定精度目标,并评估其在测试视觉系统中的自动标注和验证任务。
  • Result: OPAL在七大数据集上平均精度达98.8%,人工标注减少超50%,显著优于基线方法。
  • Conclusion: OPAL通过MILP和主动学习进一步优化,显著减少人工标注需求且保持高精度。

[216] Robust Incomplete-Modality Alignment for Ophthalmic Disease Grading and Diagnosis via Labeled Optimal Transport

Qinkai Yu,Jianyang Xie,Yitian Zhao,Cheng Chen,Lijun Zhang,Liming Chen,Jun Cheng,Lu Liu,Yalin Zheng,Yanda Meng

Main category: cs.CV

TL;DR: 提出了一种新的多模态对齐和融合框架,用于处理眼科诊断中模态缺失的问题,通过最优传输实现特征对齐,并在多个数据集上验证了其优越性能。

  • Motivation: 全球医疗资源分布不均导致实际临床中多模态数据不完整,现有方法(如模态填补和蒸馏)在重建关键病变特征或依赖完全配对数据方面存在局限。
  • Method: 利用最优传输进行多尺度模态特征对齐(类间和特征间),并提出非对称融合策略以利用OCT和眼底图像的不同特性。
  • Result: 在三个大型眼科多模态数据集上验证,模型在模态完整和不完整情况下均表现优异,达到Sota性能。
  • Conclusion: 该框架能有效处理模态缺失问题,提升眼科诊断的准确性。

[217] Multi-modal Representations for Fine-grained Multi-label Critical View of Safety Recognition

Britty Baby,Vinkle Srivastav,Pooja P. Jain,Kun Yuan,Pietro Mascagni,Nicolas Padoy

Main category: cs.CV

TL;DR: 论文提出CVS-AdaptNet,一种多标签适应策略,通过图像嵌入与文本描述对齐,提升CVS识别的性能。

  • Motivation: CVS识别在腹腔镜胆囊切除术中至关重要,但现有方法依赖高成本的视觉标注,且多模态模型在多标签任务上表现不佳。
  • Method: 提出CVS-AdaptNet,结合图像和文本描述,通过正负提示对齐嵌入,优化多标签分类。
  • Result: 在Endoscapes-CVS201数据集上,CVS-AdaptNet达到57.6 mAP,比纯图像方法提升6点。
  • Conclusion: CVS-AdaptNet展示了多模态模型在专业手术任务中的潜力,但仍需进一步改进以匹配基于空间标注的方法。

[218] Adaptation of Multi-modal Representation Models for Multi-task Surgical Computer Vision

Soham Walimbe,Britty Baby,Vinkle Srivastav,Nicolas Padoy

Main category: cs.CV

TL;DR: MML-SurgAdapt是一个统一的多任务框架,利用视觉语言模型(如CLIP)处理多样化的外科任务,通过自然语言监督和单正多标签学习(SPML)解决部分标注问题。

  • Motivation: 传统模型针对单一任务设计,缺乏灵活性,需要为每个任务单独训练模型。MML-SurgAdapt旨在通过多任务学习和减少标注负担来解决这一问题。
  • Method: 结合视觉语言模型(CLIP)和单正多标签学习(SPML),整合多个外科任务的数据,即使标注不完整或噪声较多也能有效学习。
  • Result: 在Cholec80、Endoscapes2023和CholecT50数据集上表现与任务专用基准相当,且优于现有SPML框架,标注需求减少23%。
  • Conclusion: MML-SurgAdapt为外科计算机视觉中的多任务学习提供了新颖且通用的解决方案,显著减轻了临床医生的标注负担。

[219] Estimating Object Physical Properties from RGB-D Vision and Depth Robot Sensors Using Deep Learning

Ricardo Cardoso,Plinio Moreno

Main category: cs.CV

TL;DR: 论文提出了一种结合稀疏点云数据和RGB图像来估计物体质量的新方法,显著优于现有基准。

  • Motivation: 惯性质量在机器人应用中至关重要,但仅通过视觉传感器估计质量的研究较少。
  • Method: 结合稀疏点云和RGB图像,利用合成数据集训练深度估计模型,增强现有数据集。
  • Result: 方法在所有评估指标上显著优于现有基准。
  • Conclusion: 该方法为机器人任务中的质量估计提供了有效解决方案,并开源了相关数据和模型。

[220] INTER: Mitigating Hallucination in Large Vision-Language Models by Interaction Guidance Sampling

Xin Dong,Shichao Dong,Jin Wang,Jing Huang,Li Zhou,Zenghui Sun,Lihua Jing,Jingsong Lan,Xiaoyong Zhu,Bo Zheng

Main category: cs.CV

TL;DR: 论文提出了一种名为INTER的训练无关算法,通过显式引导大型视觉语言模型(LVLM)在生成响应时有效利用多模态交互信息,以减少幻觉现象。

  • Motivation: 人类能有效利用多模态交互信息,而LVLM生成的响应常与视觉内容不一致,导致幻觉问题。论文旨在缩小这一差距。
  • Method: 提出INTER算法,无需额外数据或训练,通过显式引导LVLM在生成响应时重新应用多模态交互信息。
  • Result: 在六个基准测试(包括VQA和图像描述任务)上,INTER平均提升了3.4%,优于现有解码策略。
  • Conclusion: INTER能有效减少LVLM的幻觉现象,且无需额外训练或数据,具有实际应用潜力。

[221] AI-Driven Cytomorphology Image Synthesis for Medical Diagnostics

Jan Carreras Boada,Rao Muhammad Umer,Carsten Marr

Main category: cs.CV

TL;DR: 通过微调的稳定扩散模型生成合成图像,显著提升了单白细胞分类器的性能,解决了生物医学数据样本不平衡和隐私限制的问题。

  • Motivation: 生物医学数据集通常存在样本不平衡和隐私限制,阻碍了机器学习模型的开发。合成图像可以改善数据可用性并保护隐私,但生成高质量合成图像仍具挑战性。
  • Method: 使用LoRA权重微调的稳定扩散模型生成合成图像,并结合少量真实样本指导,用于训练ResNet和CLIP分类器。
  • Result: ResNet分类器准确率从27.3%提升至78.4%,CLIP分类器从61.8%提升至76.8%。合成图像与真实图像高度相似。
  • Conclusion: 合成图像是生物医学研究中克服数据限制、提升模型泛化能力的有效工具,有助于医学诊断和研究。

[222] ICAS: Detecting Training Data from Autoregressive Image Generative Models

Hongyao Yu,Yixiang Qiu,Yiheng Yang,Hao Fang,Tianqu Zhuang,Jiaxin Hong,Bin Chen,Hao Wu,Shu-Tao Xia

Main category: cs.CV

TL;DR: 该论文研究了自回归图像生成模型在数据隐私和版权方面的脆弱性,提出了一种基于成员推理的检测方法,并验证了其有效性。

  • Motivation: 随着自回归图像生成模型的快速发展,数据隐私和版权问题日益突出,需要检测未经授权的数据使用。
  • Method: 提出了一种包含隐式分类和自适应分数聚合策略的方法,用于检测训练数据的使用情况。
  • Result: 实验表明该方法在类别条件和文本到图像场景中表现优越,并揭示了大型基础模型的脆弱性。
  • Conclusion: 自回归图像生成模型的训练数据更容易被检测,且该方法具有强鲁棒性和泛化能力。

[223] MoDiT: Learning Highly Consistent 3D Motion Coefficients with Diffusion Transformer for Talking Head Generation

Yucheng Wang,Dan Xu

Main category: cs.CV

TL;DR: 论文提出MoDiT框架,结合3DMM与扩散Transformer,解决音频驱动说话头生成中的时间抖动、身份漂移和不自然眨眼问题。

  • Motivation: 音频驱动说话头生成在虚拟助手、游戏和电影中至关重要,但现有方法存在时间抖动、身份漂移和不自然眨眼等问题。
  • Method: 提出MoDiT框架,结合3DMM与扩散Transformer,采用分层去噪策略、3DMM系数和优化眨眼策略。
  • Result: 有效减少时间抖动,保持身份一致性,并生成更自然的眨眼行为。
  • Conclusion: MoDiT框架显著提升了说话头生成的质量和一致性。

[224] Reviving Cultural Heritage: A Novel Approach for Comprehensive Historical Document Restoration

Yuyi Zhang,Peirong Zhang,Zhenhua Yang,Pengyu Yan,Yongxin Shi,Pengwei Liu,Fengjun Guo,Lianwen Jin

Main category: cs.CV

TL;DR: 提出了一种全页历史文档修复数据集(FPHDR)和自动化修复方法(AutoHDR),显著提升了OCR准确率,支持人机协作。

  • Motivation: 现有历史文档修复方法局限于单模态或小规模修复,无法满足实际需求。
  • Method: AutoHDR采用三阶段方法:OCR辅助损伤定位、视觉-语言上下文预测、补丁自回归外观修复。
  • Result: AutoHDR将严重受损文档的OCR准确率从46.83%提升至84.05%,人机协作下可达94.25%。
  • Conclusion: 该工作推动了自动化历史文档修复的进展,对文化遗产保护有重要贡献。

[225] VOTE: Vision-Language-Action Optimization with Trajectory Ensemble Voting

Juyi Lin,Amir Taherin,Arash Akbari,Arman Akbari,Lei Lu,Guangyu Chen,Taskin Padir,Xiaomeng Yang,Weiwei Chen,Yiqian Li,Xue Lin,David Kaeli,Pu Zhao,Yanzhi Wang

Main category: cs.CV

TL;DR: 提出了一种高效通用的VLA模型优化框架VOTE,通过无分词器微调和集成投票策略,显著提升推理速度和泛化能力。

  • Motivation: 现有VLA模型在新对象或陌生环境中的泛化能力有限,且引入额外组件导致计算开销大。
  • Method: 采用无分词器微调方法并行预测动作,结合集成投票策略优化动作采样。
  • Result: 实验显示,方法实现35倍推理加速和145 Hz吞吐量,达到SOTA性能。
  • Conclusion: VOTE框架高效且通用,代码将开源。

[226] VERITAS: Verification and Explanation of Realness in Images for Transparency in AI Systems

Aadi Srivastava,Vignesh Natarajkumar,Utkarsh Bheemanaboyna,Devisree Akashapu,Nagraj Gaonkar,Archit Joshi

Main category: cs.CV

TL;DR: VERITAS是一个框架,不仅能检测小尺寸(32x32)AI生成图像,还能通过定位伪影和语义推理解释分类原因。

  • Motivation: AI生成内容模糊了真实与合成图像的界限,现有检测方法缺乏透明度,用户难以理解分类依据。
  • Method: VERITAS结合伪影定位和语义推理,生成人类可读的解释,描述合成图像中的关键伪影。
  • Result: 该框架为零样本合成图像检测任务提供了清晰的解释基础。
  • Conclusion: VERITAS通过透明化的决策过程,提升了AI生成图像检测的可解释性和实用性。

[227] LAID: Lightweight AI-Generated Image Detection in Spatial and Spectral Domains

Nicholas Chivaran,Jianbing Ni

Main category: cs.CV

TL;DR: 论文提出LAID框架,评估轻量级神经网络在AI生成图像检测中的性能与效率,证明其在高效率和低计算成本下仍能保持竞争力。

  • Motivation: AI生成图像的滥用问题日益严重,现有检测方法计算成本高,难以实时大规模部署。
  • Method: 通过LAID框架,在GenImage数据集上训练和评估轻量级模型,涵盖空间、频谱和融合图像领域。
  • Result: 轻量级模型在对抗条件下仍能保持高准确率,且计算和内存成本显著低于现有方法。
  • Conclusion: 研究为高效、可扩展的AI生成图像检测系统提供了基础,平衡了性能与效率的权衡。

[228] 4DSloMo: 4D Reconstruction for High Speed Scene with Asynchronous Capture

Yutian Chen,Shi Guo,Tianshuo Yang,Lihe Ding,Xiuyuan Yu,Jinwei Gu,Tianfan Xue

Main category: cs.CV

TL;DR: 提出了一种使用低帧率相机实现高速4D重建的系统,通过异步捕获和生成模型优化稀疏视图重建。

  • Motivation: 现有4D捕获系统帧率低,直接重建高速运动会导致不良结果。
  • Method: 采用异步捕获方案提高有效帧率,结合生成模型修复稀疏视图重建的伪影。
  • Result: 实验表明,该方法显著优于同步捕获,等效帧率达100-200 FPS。
  • Conclusion: 该方法无需高速相机即可实现高质量高速4D重建。

[229] Differential Attention for Multimodal Crisis Event Analysis

Nusrat Munia,Junfeng Zhu,Olfa Nasraoui,Abdullah-Al-Zubaer Imran

Main category: cs.CV

TL;DR: 该论文探讨了利用视觉语言模型(VLMs)和先进融合策略提升危机数据分类的方法,结合LLaVA生成文本和CLIP嵌入,并通过Guided CA和Differential Attention优化多模态融合,显著提升了分类准确率。

  • Motivation: 社交媒体在危机事件中提供大量多模态数据,但从中提取有效信息并整合异构数据仍具挑战性。
  • Method: 采用VLMs(如LLaVA和CLIP)生成文本和嵌入,结合Guided CA和Differential Attention机制优化多模态融合。
  • Result: 在CrisisMMD数据集上,该方法在分类准确率上优于现有模型,提升了灾难响应任务的可靠性。
  • Conclusion: 结合预训练VLMs、增强文本描述和自适应融合策略,显著提升了多模态危机数据分类性能。

[230] Semantic Frame Interpolation

Yijia Hong,Jiangning Zhang,Ran Yi,Yuji Wang,Weijian Cao,Xiaobin Hu,Zhucun Xue,Yabiao Wang,Chengjie Wang,Lizhuang Ma

Main category: cs.CV

TL;DR: 论文提出了一种新的语义帧插值(SFI)任务,并开发了SemFi模型和SFI-300K数据集,以支持多帧率推理和高质量内容生成。

  • Motivation: 传统帧插值任务局限于少量帧和无文本控制,且缺乏官方定义和基准。本文旨在解决这些问题。
  • Method: 基于Wan2.1构建SemFi模型,引入Mixture-of-LoRA模块,并创建SFI-300K数据集和评估指标。
  • Result: 实验表明SemFi在SFI任务中表现优异,尤其在一致性和多样性方面。
  • Conclusion: SemFi和SFI-300K为语义帧插值任务提供了有效的解决方案和基准。

[231] φ-Adapt: A Physics-Informed Adaptation Learning Approach to 2D Quantum Material Discovery

Hoang-Quan Nguyen,Xuan Bac Nguyen,Sankalp Pandey,Tim Faltermeier,Nicholas Borys,Hugh Churchill,Khoa Luu

Main category: cs.CV

TL;DR: 提出了一种物理信息自适应学习方法,解决量子薄片厚度估计中的数据稀缺和泛化问题,通过合成数据生成和物理信息适应方法,显著提升了性能。

  • Motivation: 量子薄片的质量直接影响量子比特性能,但现有计算机视觉方法在厚度估计中面临数据稀缺、泛化差等问题。
  • Method: 提出合成数据生成框架和物理信息自适应方法(φ-Adapt),结合物理建模与领域适应。
  • Result: 在多个基准测试中达到最优性能,优于现有方法。
  • Conclusion: 该方法推动了物理建模与领域适应的结合,为二维材料分析提供了实用工具。

[232] Satellite-based Rabi rice paddy field mapping in India: a case study on Telangana state

Prashanth Reddy Putta,Fabio Dell'Acqua

Main category: cs.CV

TL;DR: 该研究开发了一种基于物候学的分类框架,用于监测印度特伦甘纳邦小农户地区的稻田面积,显著提高了准确性。

  • Motivation: 传统遥感方法难以应对碎片化农业景观的时空异质性,因此需要一种适应本地农业生态变化的监测方法。
  • Method: 研究采用物候驱动的分类框架,针对特伦甘纳邦32个地区进行本地化校准,分析了物候时间和田块大小的多样性。
  • Result: 该方法整体准确率达93.3%,比传统方法提高8.0个百分点,成功绘制了732,345公顷稻田,并揭示了南北地区的农业周期差异。
  • Conclusion: 研究表明,遥感框架应适应而非简化景观复杂性,为区域化农业监测和政策应用提供了科学依据。

[233] All in One: Visual-Description-Guided Unified Point Cloud Segmentation

Zongyan Han,Mohamed El Amine Boudjoghra,Jiahua Dong,Jinhong Wang,Rao Muhammad Anwer

Main category: cs.CV

TL;DR: VDG-Uni3DSeg提出了一种结合视觉语言模型和大语言模型的新框架,通过多模态线索提升3D点云分割性能。

  • Motivation: 解决3D点云分割中稀疏结构、标注不足和细粒度类别区分困难的问题。
  • Method: 整合预训练的视觉语言模型(如CLIP)和大语言模型(LLM),利用LLM生成的文本描述和网络参考图像,设计语义-视觉对比损失和空间增强模块。
  • Result: 在语义、实例和全景分割任务中达到最先进水平。
  • Conclusion: VDG-Uni3DSeg为3D场景理解提供了可扩展且实用的解决方案。

[234] CTA: Cross-Task Alignment for Better Test Time Training

Samuel Barbeau,Pedram Fekri,David Osowiechi,Ali Bahri,Moslem YazdanpanahMasih Aminbeidokhti,Christian Desrosiers

Main category: cs.CV

TL;DR: 本文提出了一种名为CTA的新方法,通过跨任务对齐提升测试时训练(TTT)的效果,无需专用架构,利用多模态对比学习增强模型鲁棒性。

  • Motivation: 解决深度学习模型在分布变化(如领域或数据集变化)时性能下降的问题,提升模型鲁棒性。
  • Method: CTA通过将监督编码器与自监督编码器对齐,利用多模态对比学习避免梯度干扰,保留自监督学习的鲁棒性。
  • Result: 实验显示CTA在多个基准数据集上显著提升了鲁棒性和泛化能力。
  • Conclusion: CTA是一种无需专用架构的有效方法,显著提升了测试时训练的效果。

[235] Self-Supervised Real-Time Tracking of Military Vehicles in Low-FPS UAV Footage

Markiyan Kostiv,Anatolii Adamovskyi,Yevhen Cherniavskyi,Mykyta Varenyk,Ostap Viniavskyi,Igor Krashenyi,Oles Dobosevych

Main category: cs.CV

TL;DR: 论文提出了一种基于单帧注释的实例关联学习方法,用于解决低帧率无人机视频中的多目标跟踪问题,并展示了其在复杂场景中的鲁棒性。

  • Motivation: 在实战场景中,无人机拍摄的低帧率视频因目标外观和位置的快速变化以及图像退化问题,使得多目标跟踪任务极具挑战性。
  • Method: 通过从单帧注释中学习实例关联,并利用场景的全局特征提供上下文信息,以提高跟踪的鲁棒性。
  • Result: 该方法在降低输入图像分辨率和潜在表示大小的情况下仍能保持高关联质量,并提出了一个军事车辆的标注基准数据集。
  • Conclusion: 该方法在复杂场景中表现出色,为低帧率视频的多目标跟踪提供了有效的解决方案。

[236] Physics-Guided Dual Implicit Neural Representations for Source Separation

Yuan Ni,Zhantao Chen,Alexander N. Petsch,Edmund Xu,Cheng Peng,Alexander I. Kolesnikov,Sugata Chowdhury,Arun Bansil,Jana B. Thayer,Joshua J. Turner

Main category: cs.CV

TL;DR: 提出了一种自监督机器学习方法,通过双隐式神经表示框架分离信号中的背景和失真,无需标记数据或预定义字典。

  • Motivation: 解决先进实验和观测技术中信号分析的低效问题,因信号常包含背景和失真干扰。
  • Method: 使用双神经网络框架,一个学习信号失真,另一个学习背景贡献,通过最小化重建损失函数直接从原始数据学习。
  • Result: 在四维参数空间的大规模模拟和实验数据中成功分离物理信号,即使信号特性变化。
  • Conclusion: 该方法为多领域源分离问题提供了通用框架。

[237] From Marginal to Joint Predictions: Evaluating Scene-Consistent Trajectory Prediction Approaches for Automated Driving

Fabian Konstantinidis,Ariel Dallari Guerreiro,Raphael Trumpp,Moritz Sackmann,Ulrich Hofmann,Marco Caccamo,Christoph Stiller

Main category: cs.CV

TL;DR: 该论文系统研究了联合运动预测的不同方法,比较了后处理、显式训练和生成任务三种方法,分析了其预测准确性、多模态性和推理效率。

  • Motivation: 动态环境中自动驾驶车辆的安全高效运行依赖于对周围交通参与者运动的准确预测,而现有的独立预测模型往往导致次优规划决策。
  • Method: 研究比较了三种联合预测方法:后处理独立预测、显式训练联合预测模型以及将问题视为生成任务。
  • Result: 评估了每种方法在预测准确性、多模态性和推理效率方面的表现,提供了全面分析。
  • Conclusion: 论文为联合运动预测提供了系统比较,揭示了不同方法的优缺点,为未来研究提供了参考。

[238] Open Vision Reasoner: Transferring Linguistic Cognitive Behavior for Visual Reasoning

Yana Wei,Liang Zhao,Jianjian Sun,Kangheng Lin,Jisheng Yin,Jingcheng Hu,Yinmin Zhang,En Yu,Haoran Lv,Zejia Weng,Jia Wang,Chunrui Han,Yuang Peng,Qi Han,Zheng Ge,Xiangyu Zhang,Daxin Jiang,Vishal M. Patel

Main category: cs.CV

TL;DR: 该研究通过两阶段范式(大规模语言冷启动微调+多模态强化学习)提升多模态大语言模型的视觉推理能力,揭示了行为转移的早期出现、冷启动的广泛记忆效应及强化学习的关键作用,最终模型在多个基准测试中达到最优表现。

  • Motivation: 探索如何将大语言模型的推理能力迁移到多模态大语言模型(MLLMs)中,以解锁高级视觉推理能力。
  • Method: 采用两阶段范式:1)大规模语言冷启动微调;2)多模态强化学习(RL),共近1000步训练。
  • Result: 模型Open-Vision-Reasoner (OVR)在多个推理基准测试中表现优异(如MATH500 95.3%、MathVision 51.8%、MathVerse 54.6%)。
  • Conclusion: 该研究为开发更强大的多模态推理模型提供了关键见解,并公开了模型、数据及训练动态以推动领域发展。

[239] SegmentDreamer: Towards High-fidelity Text-to-3D Synthesis with Segmented Consistency Trajectory Distillation

Jiahao Zhu,Zixuan Chen,Guangcong Wang,Xiaohua Xie,Yi Zhou

Main category: cs.CV

TL;DR: SegmentDreamer通过Segmented Consistency Trajectory Distillation (SCTD)解决Score Distillation Sampling (SDS)中的自一致性和跨一致性问题,提升文本到3D生成的视觉质量。

  • Motivation: 现有基于Consistency Distillation (CD)的方法因自一致性和跨一致性不平衡导致生成结果不理想。
  • Method: 提出SegmentDreamer框架,采用SCTD重新定义自一致性和跨一致性关系,并分割PF-ODE轨迹以确保各段一致性。
  • Result: 实验表明,SegmentDreamer在视觉质量上优于现有方法,支持高保真3D资产生成。
  • Conclusion: SegmentDreamer通过SCTD有效解决了CD方法的局限性,实现了高质量的文本到3D生成。

[240] Spatio-Temporal LLM: Reasoning about Environments and Actions

Haozhen Zheng,Beitong Tian,Mingyuan Wu,Zhenggang Tang,Klara Nahrstedt,Alex Schwing

Main category: cs.CV

TL;DR: 论文提出了一种名为ST-LLM的模型,旨在解决多模态大语言模型(MLLMs)在时空理解上的不足,并通过新数据集REA验证了其有效性。

  • Motivation: 现有MLLMs难以全面理解环境空间和动作时间信息,而这对现实世界中的智能体至关重要。
  • Method: 开发了REA数据集,并提出了ST-LLM模型,通过投影器增强空间和时间理解能力。
  • Result: ST-LLM在REA数据集上显著优于现有方法。
  • Conclusion: ST-LLM有效提升了MLLMs的时空理解能力,为智能体在复杂环境中的操作提供了支持。

[241] Beyond Simple Edits: X-Planner for Complex Instruction-Based Image Editing

Chun-Hsiao Yeh,Yilin Wang,Nanxuan Zhao,Richard Zhang,Yuheng Li,Yi Ma,Krishna Kumar Singh

Main category: cs.CV

TL;DR: X-Planner是一种基于多模态大语言模型(MLLM)的系统,通过分解复杂指令为子指令,自动生成编辑类型和分割掩码,解决了现有扩散模型在复杂指令理解和身份保持上的不足。

  • Motivation: 现有扩散模型在复杂指令理解、身份保持和依赖手动掩码方面存在不足,X-Planner旨在解决这些问题。
  • Method: X-Planner利用链式思维推理分解复杂指令,自动生成编辑类型和分割掩码,并通过新的大规模数据生成管道进行训练。
  • Result: X-Planner在现有基准和新提出的复杂编辑基准上均达到最先进水平。
  • Conclusion: X-Planner通过系统化规划和自动化掩码生成,显著提升了复杂指令下的图像编辑效果。

[242] Beyond One Shot, Beyond One Perspective: Cross-View and Long-Horizon Distillation for Better LiDAR Representations

Xiang Xu,Lingdong Kong,Song Wang,Chuanwei Zhou,Qingshan Liu

Main category: cs.CV

TL;DR: LiMA是一种新型的长时图像到LiDAR记忆聚合框架,通过捕捉长时程时间相关性来增强LiDAR表示学习,显著提升了LiDAR语义分割和3D目标检测性能。

  • Motivation: 现有LiDAR表示策略忽视了LiDAR序列中的时空线索,限制了其有效性。LiMA旨在通过长时程时间相关性提升表示学习效果。
  • Method: LiMA包含三个关键模块:跨视图聚合、长时特征传播和跨序列记忆对齐,分别用于构建统一记忆库、增强时间一致性和提升泛化能力。
  • Result: 在主流LiDAR感知基准测试中,LiMA显著提升了语义分割和3D目标检测性能,且不影响下游任务的计算效率。
  • Conclusion: LiMA为自动驾驶提供了更有效的预训练范式,代码已公开以促进未来研究。

cs.AI

[243] Exploring Object Status Recognition for Recipe Progress Tracking in Non-Visual Cooking

Franklin Mingzhe Li,Kaitlyn Ng,Bin Zhu,Patrick Carrington

Main category: cs.AI

TL;DR: OSCAR利用物体状态识别技术,为非视觉烹饪提供实时步骤跟踪支持,显著提高了步骤预测准确性。

  • Motivation: 烹饪对视力障碍者具有挑战性,现有技术缺乏对物体状态的跟踪和反馈支持。
  • Method: OSCAR整合了食谱解析、物体状态提取、视觉对齐和时间因果建模,构建了实时步骤跟踪技术。
  • Result: 在173个教学视频和12个真实烹饪会话中,OSCAR显著提高了步骤预测准确性,并识别了影响性能的关键因素。
  • Conclusion: OSCAR为非视觉烹饪提供了有效的上下文感知支持,并为未来辅助系统设计提供了重要见解。

[244] Animation Needs Attention: A Holistic Approach to Slides Animation Comprehension with Visual-Language Models

Yifan Jiang,Yibo Xue,Yukun Kang,Pin Zheng,Jian Peng,Feiran Wu,Changliang Xu

Main category: cs.AI

TL;DR: 论文提出了首个公开的幻灯片动画数据集,并使用LoRA微调Qwen-2.5-VL-7B模型,在多项指标上超越GPT-4.1和Gemini-2.5-Pro。

  • Motivation: 现有AI驱动的幻灯片生成工具缺乏动画支持,且视觉语言模型因缺少数据集和时序推理能力而表现不佳。
  • Method: 发布包含12,000组自然语言描述、动画JSON文件和渲染视频的数据集,并使用LoRA微调Qwen-2.5-VL-7B模型。
  • Result: LoRA模型在BLEU-4、ROUGE-L、SPICE和CODA指标上显著优于基线模型,尤其在细节保真度上提升明显。
  • Conclusion: 数据集、LoRA模型和CODA指标为未来动态幻灯片生成研究提供了基准和基础。

[245] Clustering via Self-Supervised Diffusion

Roy Uziel,Irit Chelly,Oren Freifeld,Ari Pakman

Main category: cs.AI

TL;DR: CLUDI是一种结合扩散模型和预训练视觉Transformer的自监督聚类框架,通过师生范式实现高鲁棒性和准确性。

  • Motivation: 扩散模型在生成任务中表现出色,但尚未应用于聚类任务,因此提出CLUDI以填补这一空白。
  • Method: CLUDI采用师生范式,教师模型通过扩散采样生成多样聚类分配,学生模型将其优化为稳定预测。
  • Result: CLUDI在多个数据集上表现优异,实现了无监督分类的最先进性能。
  • Conclusion: CLUDI为高维数据聚类提供了新方法,具有鲁棒性和适应性。

[246] Thousand-Brains Systems: Sensorimotor Intelligence for Rapid, Robust Learning and Inference

Niels Leadholm,Viviane Clay,Scott Knudstrup,Hojae Lee,Jeff Hawkins

Main category: cs.AI

TL;DR: 论文提出并评估了首个千脑系统Monty,展示了其在3D物体感知任务中的优势,包括快速学习、结构化表示和高效推理。

  • Motivation: 当前AI系统缺乏生物智能的核心特征,如快速持续学习和基于感觉运动的表示。论文旨在通过模拟大脑皮层柱结构来缩小这一差距。
  • Method: 利用YCB数据集评估Monty在物体识别和姿态估计任务中的表现,测试其感觉运动学习、模块化架构和投票算法。
  • Result: Monty表现出强大的泛化能力,能自然检测物体对称性,并通过模型无关和基于模型的策略加速推理。
  • Conclusion: 千脑系统Monty展示了在AI领域的潜力,支持其作为未来发展的有前景方向。

[247] FurniMAS: Language-Guided Furniture Decoration using Multi-Agent System

Toan Nguyen,Tri Le,Quang Nguyen,Anh Nguyen

Main category: cs.AI

TL;DR: FurniMAS是一个基于多智能体系统的家具装饰自动化工具,通过协作生成高质量3D装饰效果。

  • Motivation: 家具装饰需要专业艺术技能且耗时,多智能体系统可自动化此过程。
  • Method: FurniMAS结合LLM和非LLM智能体,通过协作、逻辑推理和验证完成装饰任务。
  • Result: 实验表明FurniMAS在生成高质量3D装饰上显著优于基线方法。
  • Conclusion: FurniMAS为家具装饰提供高效自动化解决方案。

[248] When Imitation Learning Outperforms Reinforcement Learning in Surgical Action Planning

Maxence Boels,Harry Robertshaw,Alejandro Granados,Prokar Dasgupta,Sebastien Ourselin

Main category: cs.AI

TL;DR: 论文比较了模仿学习(IL)与强化学习(RL)在手术动作规划中的表现,发现IL优于RL。

  • Motivation: 研究动机是探索IL和RL在手术动作规划中的表现差异,以提供实时辅助。
  • Method: 提出了双任务自回归模仿学习(DARIL)基线,并评估了三种RL变体:基于世界模型的RL、直接视频RL和逆RL增强。
  • Result: DARIL在动作三元组识别和下一帧预测中表现最佳(34.6%和33.6% mAP),而所有RL方法均表现不佳(最低3.1% mAP)。
  • Conclusion: 研究挑战了RL在序列决策中的优越性假设,为手术AI开发提供了重要见解。

[249] MedGemma Technical Report

Andrew Sellergren,Sahar Kazemzadeh,Tiam Jaroensri,Atilla Kiraly,Madeleine Traverse,Timo Kohlberger,Shawn Xu,Fayaz Jamil,Cían Hughes,Charles Lau,Justin Chen,Fereshteh Mahvar,Liron Yatziv,Tiffany Chen,Bram Sterling,Stefanie Anna Baby,Susanna Maria Baby,Jeremy Lai,Samuel Schmidgall,Lu Yang,Kejia Chen,Per Bjornsson,Shashir Reddy,Ryan Brush,Kenneth Philbrick,Howard Hu,Howard Yang,Richa Tiwari,Sunny Jansen,Preeti Singh,Yun Liu,Shekoofeh Azizi,Aishwarya Kamath,Johan Ferret,Shreya Pathak,Nino Vieillard,Ramona Merhej,Sarah Perrin,Tatiana Matejovicova,Alexandre Ramé,Morgane Riviere,Louis Rouillard,Thomas Mesnard,Geoffrey Cideron,Jean-bastien Grill,Sabela Ramos,Edouard Yvinec,Michelle Casbon,Elena Buchatskaya,Jean-Baptiste Alayrac,Dmitry,Lepikhin,Vlad Feinberg,Sebastian Borgeaud,Alek Andreev,Cassidy Hardin,Robert Dadashi,Léonard Hussenot,Armand Joulin,Olivier Bachem,Yossi Matias,Katherine Chou,Avinatan Hassidim,Kavi Goel,Clement Farabet,Joelle Barral,Tris Warkentin,Jonathon Shlens,David Fleet,Victor Cotruta,Omar Sanseviero,Gus Martins,Phoebe Kirk,Anand Rao,Shravya Shetty,David F. Steiner,Can Kirmizibayrak,Rory Pilgrim,Daniel Golden,Lin Yang

Main category: cs.AI

TL;DR: MedGemma是一组基于Gemma 3的医学视觉语言基础模型,在医疗任务中表现出色,性能接近专用模型,同时保持通用能力。

  • Motivation: 解决医疗AI应用中数据多样性、任务复杂性和隐私保护等挑战,加速医疗AI发展。
  • Method: 基于Gemma 3 4B和27B构建MedGemma,并引入MedSigLIP作为视觉编码器。
  • Result: 在多项医疗任务中表现优异,如医学多模态问答、胸部X光分类等,性能显著提升。
  • Conclusion: MedGemma为医疗研究和下游应用提供了强大的基础,潜力巨大。

q-bio.QM

[250] SPATIA: Multimodal Model for Prediction and Generation of Spatial Cell Phenotypes

Zhenglun Kong,Mufan Qiu,John Boesen,Xiang Lin,Sukwon Yun,Tianlong Chen,Manolis Kellis,Marinka Zitnik

Main category: q-bio.QM

TL;DR: SPATIA是一种多尺度生成和预测模型,用于整合细胞形态、基因表达和空间背景,在多个任务中优于现有方法。

  • Motivation: 理解细胞形态、基因表达和空间组织如何共同影响组织功能是生物学中的核心挑战,现有方法通常单独分析这些模态或分辨率有限。
  • Method: SPATIA通过跨注意力融合图像和转录组数据生成细胞级嵌入,并使用Transformer模块在空间邻域和组织水平上聚合,结合扩散解码器生成高分辨率细胞图像。
  • Result: SPATIA在12个任务中优于13个现有模型,能够生成反映转录组扰动的真实细胞形态。
  • Conclusion: SPATIA为空间转录组学提供了一种统一的多尺度表示方法,显著提升了性能。

physics.geo-ph

[251] Automated Workflow for the Detection of Vugs

M. Quamer Nasim,T. Maiti,N. Mosavat,P. V. Grech,T. Singh,P. Nath Singha Roy

Main category: physics.geo-ph

TL;DR: 该论文提出了一种自动化的Vug检测模型,利用计算机视觉技术优化地下岩层中vug的识别过程,解决了人工和半自动化方法的局限性。

  • Motivation: 传统的人工和半自动化vug识别方法存在主观偏差、劳动强度大和参数调整不灵活等问题,亟需一种更高效、准确的自动化解决方案。
  • Method: 采用六步法进行vug识别,包括预处理、模式提取、自适应阈值、轮廓识别、聚合和高级过滤,并结合统计分析。
  • Result: 模型在准确性上优于专家手动识别,并通过详细指标(如vug面积统计)展示了其优势。
  • Conclusion: 该自动化模型显著提升了vug识别的效率和准确性,有助于更深入地理解储层特性。

cs.LG

[252] Regulation Compliant AI for Fusion: Real-Time Image Analysis-Based Control of Divertor Detachment in Tokamaks

Nathaniel Chen,Cheolsik Byun,Azarakash Jalalvand,Sangkyeun Kim,Andrew Rothstein,Filippo Scotti,Steve Allen,David Eldon,Keith Erickson,Egemen Kolemen

Main category: cs.LG

TL;DR: 研究实现了一种实时、可解释的AI控制系统,用于核聚变中的偏滤器分离控制,验证了其高精度和合规性。

  • Motivation: AI在核聚变控制中具有潜力,但其黑箱特性在监管环境中难以合规实现,因此需要开发可解释的AI控制系统。
  • Method: 利用DIII-D下偏滤器摄像头,结合D2气体,实现反馈控制,采用自动训练和线性处理框架。
  • Result: 反馈控制的目标偏差平均为2%,成功实现了偏滤器的分离和重新附着控制。
  • Conclusion: 该框架可扩展至其他基于图像的诊断系统,为未来核聚变反应堆的合规控制器提供了解决方案。

[253] Frequency-Aligned Knowledge Distillation for Lightweight Spatiotemporal Forecasting

Yuqi Li,Chuanguang Yang,Hansheng Zeng,Zeyu Dong,Zhulin An,Yongjun Xu,Yingli Tian,Hao Wu

Main category: cs.LG

TL;DR: 提出轻量级框架SDKD,通过频谱解耦知识蒸馏,将复杂教师模型的多尺度时空表征迁移到轻量学生网络,显著提升性能并降低计算复杂度。

  • Motivation: 解决时空预测任务中复杂模型训练效率低、内存消耗高的问题。
  • Method: 采用频率对齐的知识蒸馏策略,从教师模型的潜在空间提取多尺度频谱特征,指导学生模型捕捉局部细节和全局模式。
  • Result: 在Navier-Stokes方程数据集上,MSE降低81.3%,MAE降低52.3%。
  • Conclusion: SDKD框架有效平衡高频细节和长期趋势,同时降低计算复杂度。

[254] MedGround-R1: Advancing Medical Image Grounding via Spatial-Semantic Rewarded Group Relative Policy Optimization

Huihui Xu,Yuanpeng Nie,Hualiang Wang,Ying Chen,Wei Li,Junzhi Ning,Lihao Liu,Hongqiu Wang,Lei Zhu,Jiyao Liu,Xiaomeng Li,Junjun He

Main category: cs.LG

TL;DR: 本文提出了一种无需链式思维(CoT)标注的医学图像定位方法,通过空间语义奖励和链式框模板优化视觉语言模型。

  • Motivation: 现有医学图像定位方法依赖昂贵的链式思维标注,本文旨在通过强化学习框架减少标注需求。
  • Method: 采用空间语义奖励和链式框模板,结合GRPO强化学习框架,优化模型的空间推理能力。
  • Result: 在三个数据集上达到最优性能,消融实验验证了各模块的有效性。
  • Conclusion: 该方法无需CoT标注,通过空间语义奖励和链式框模板显著提升医学图像定位性能。

[255] What to Do Next? Memorizing skills from Egocentric Instructional Video

Jing Bi,Chenliang Xu

Main category: cs.LG

TL;DR: 论文提出了一种结合拓扑可用性记忆和Transformer架构的新方法,用于在模拟环境中从自我中心视角规划高级目标导向动作。

  • Motivation: 研究如何通过观察从环境中提取有意义的信息,以完成演示活动。
  • Method: 提出了一种结合拓扑可用性记忆和Transformer架构的方法,通过提取环境的可用性来记忆其结构,并根据上下文选择适当的动作。
  • Result: 实验结果表明,该方法能学习到有意义的表示,提高性能并在动作偏差时表现稳健。
  • Conclusion: 该方法在模拟环境中表现出色,能够有效规划目标导向动作并处理动作偏差。

[256] Rethinking Data Protection in the (Generative) Artificial Intelligence Era

Yiming Li,Shuo Shao,Yu He,Junfeng Guo,Tianwei Zhang,Zhan Qin,Pin-Yu Chen,Michael Backes,Philip Torr,Dacheng Tao,Kui Ren

Main category: cs.LG

TL;DR: 论文提出了一种四层分类法,用于定义和保护生成式AI中的数据,强调数据保护在现代AI系统中的紧迫性。

  • Motivation: 传统数据保护方法在生成式AI时代已不足,需要明确界定保护范围并强制执行。
  • Method: 提出四层分类法(非可用性、隐私保护、可追溯性和可删除性),分析技术方法和监管盲点。
  • Result: 框架为AI技术和治理提供了结构化视角,平衡数据效用与控制。
  • Conclusion: 需重新思考现代AI技术中的数据保护,为开发者、研究者和监管者提供指导。

[257] Neural Dynamic Modes: Computational Imaging of Dynamical Systems from Sparse Observations

Ali SaraerToosi,Renbo Tu,Kamyar Azizzadenesheli,Aviad Levis

Main category: cs.LG

TL;DR: NeuralDMD结合神经隐式表示和动态模态分解(DMD),从稀疏、噪声的测量中重建时空动态,并在实际应用中表现优于基线方法。

  • Motivation: 科学成像常面临从未见过的动态系统,测量数据稀疏且噪声大,需要一种模型无关的方法来重建复杂动态。
  • Method: NeuralDMD框架结合神经网络的表达能力与DMD的线性动态模态,支持低维表示和预测。
  • Result: 在风速场重建和等离子体演化恢复任务中,NeuralDMD表现优于现有方法。
  • Conclusion: NeuralDMD是一种通用工具,适用于地球科学、天文学等领域的动态系统成像。

[258] Adopting a human developmental visual diet yields robust, shape-based AI vision

Zejin Lu,Sushrut Thorat,Radoslaw M Cichy,Tim C Kietzmann

Main category: cs.LG

TL;DR: 论文提出了一种基于人类视觉发展过程的AI视觉训练方法(DVD),显著提升了AI在形状识别、抗干扰和对抗攻击方面的性能。

  • Motivation: 尽管AI系统规模不断扩大,但其与人类视觉仍存在显著差异,如过度依赖纹理特征、缺乏形状信息、抗干扰能力差等。为解决这一问题,研究者从人类视觉发展过程中寻找灵感。
  • Method: 通过整合数十年的心理物理学和神经生理学研究,提出了一种新型的视觉发展饮食(DVD)方法,模拟人类从婴儿到成人的视觉发展过程来训练AI模型。
  • Result: 该方法在多个方面显著提升了AI性能,包括更强的形状依赖、抽象形状识别能力、抗图像干扰能力和对抗攻击的鲁棒性,甚至优于参数更多、数据量更大的基础模型。
  • Conclusion: 研究表明,通过优化学习方式而非单纯增加学习量,可以实现更高效、更接近人类视觉的AI系统,为资源节约型AI发展提供了新思路。

[259] A Rigorous Behavior Assessment of CNNs Using a Data-Domain Sampling Regime

Shuning Jiang,Wei-Lun Chao,Daniel Haehn,Hanspeter Pfister,Jian Chen

Main category: cs.LG

TL;DR: 本文提出了一种数据域采样方法,用于量化CNN在图表感知中的行为,发现CNN在条形图比例估计中表现优于人类,且其偏差仅取决于训练-测试距离。

  • Motivation: 研究CNN在图表感知中的行为,评估其对训练-测试分布差异的敏感性、对有限样本的稳定性以及与人类观察者的相对表现。
  • Method: 通过数据域采样方法,分析了800个CNN模型的1600万次试验和113名人类参与者的6825次试验。
  • Result: CNN在条形图比例估计中表现优于人类,其偏差仅与训练-测试距离相关。
  • Conclusion: CNN在图表解释中表现出简单而优雅的行为,其性能优于人类且偏差可预测。

[260] Transformer Model for Alzheimer's Disease Progression Prediction Using Longitudinal Visit Sequences

Mahdi Moghaddami,Clayton Schubring,Mohammad-Reza Siadat

Main category: cs.LG

TL;DR: 提出了一种基于Transformer的模型,用于预测阿尔茨海默病(AD)患者下次临床就诊时的疾病阶段,并与RNN模型进行了比较。

  • Motivation: 阿尔茨海默病早期检测对延缓疾病进展至关重要,但现有方法在预测疾病阶段转换方面存在挑战。
  • Method: 使用患者历史就诊数据序列,构建Transformer模型,并与LSTM、GRU等RNN模型进行比较。
  • Result: 模型在预测疾病阶段转换方面表现优异,尤其在数据缺失或不平衡的情况下。
  • Conclusion: 该模型有望提升AD的早期诊断效果和患者预后。

Shubin Ma,Liang Zhao,Mingdong Lu,Yifan Guo,Bo Xu

Main category: cs.LG

TL;DR: 提出了一种名为CAPIMAC的方法,用于解决多模态数据中不平衡和未对齐数据的填充问题,通过自排斥贪婪锚点搜索和一致性感知填充模块提升数据融合质量。

  • Motivation: 多模态数据常因传感器频率不一致或设备故障导致数据不完整和未对齐,现有研究未能有效解决这一问题,影响了数据融合的质量。
  • Method: 提出自排斥贪婪锚点搜索模块(SRGASM)和一致性感知填充模块(CAPM),分别用于识别锚点和填充未对齐数据。
  • Result: 实验结果表明,该方法在基准数据集上表现优越。
  • Conclusion: CAPIMAC有效解决了多模态数据中的不平衡和未对齐问题,提升了数据融合质量。

[262] Attributing Data for Sharpness-Aware Minimization

Chenyang Ren,Yifan Jia,Huanyi Xie,Zhaobin Xu,Tianxing Wei,Liangyu Wang,Lijie Hu,Di Wang

Main category: cs.LG

TL;DR: 本文提出了两种基于影响函数(IF)的数据评估方法,用于解决Sharpness-aware Minimization(SAM)中的数据影响评估问题。

  • Motivation: SAM通过损失景观几何改善泛化性能,但面临噪声数据和隐私问题,现有数据影响评估工具(如IF)直接应用于SAM不适用或不准确。
  • Method: 开发了两种创新方法:基于Hessian的IF和基于梯度轨迹的IF,分别适用于不同场景。
  • Result: 实验证明这两种方法在数据评估和参数调优中有效,可用于识别错误标记数据、模型编辑和增强可解释性。
  • Conclusion: 提出的方法为SAM中的数据影响评估提供了高效解决方案,具有广泛的应用潜力。

[263] Accurate and Efficient World Modeling with Masked Latent Transformers

Maxime Burchi,Radu Timofte

Main category: cs.LG

TL;DR: EMERALD提出了一种高效且准确的世界建模方法,通过空间潜在状态和MaskGIT预测生成潜在空间中的轨迹,显著提升了智能体性能。

  • Motivation: Dreamer算法的潜在空间压缩可能导致关键信息丢失,影响智能体性能。现有方法如Δ-IRIS和DIAMOND虽能提高世界模型准确性,但直接从像素训练降低了效率。
  • Method: 引入EMERALD,使用空间潜在状态和MaskGIT预测生成潜在空间轨迹,避免直接从像素训练。
  • Result: 在Crafter基准测试中,EMERALD实现了新的最先进性能,首次在10M环境步骤内超越人类专家表现,并解锁全部22项成就。
  • Conclusion: EMERALD提供了一种高效且准确的世界建模方法,显著提升了智能体性能。

[264] When Data-Free Knowledge Distillation Meets Non-Transferable Teacher: Escaping Out-of-Distribution Trap is All You Need

Ziming Hong,Runnan Chen,Zengmao Wang,Bo Han,Bo Du,Tongliang Liu

Main category: cs.LG

TL;DR: 论文提出了一种对抗陷阱逃逸(ATEsc)方法,用于解决数据自由知识蒸馏(DFKD)中非可迁移学习(NTL)教师模型误导生成器的问题。

  • Motivation: 现有DFKD方法假设教师模型可信,但未研究不可信教师模型对DFKD的鲁棒性和安全性影响。本文首次探讨了NTL教师模型在DFKD中的问题。
  • Method: 提出ATEsc方法,通过识别并过滤OOD类合成样本,将样本分为脆弱组(ID类)和鲁棒组(OOD类),分别用于知识蒸馏和遗忘OOD知识。
  • Result: 实验证明ATEsc能有效提升DFKD对NTL教师模型的鲁棒性。
  • Conclusion: ATEsc方法成功解决了NTL教师模型在DFKD中的误导问题,提高了知识蒸馏的效果。

[265] An Explainable Transformer Model for Alzheimer's Disease Detection Using Retinal Imaging

Saeed Jamshidiha,Alireza Rezaee,Farshid Hajati,Mojtaba Golzan,Raymond Chiong

Main category: cs.LG

TL;DR: 提出了一种基于Transformer的Retformer模型,用于通过视网膜影像检测阿尔茨海默病,结合可解释AI技术,性能优于现有方法。

  • Motivation: 阿尔茨海默病缺乏有效治疗手段,早期诊断至关重要。视网膜影像作为一种非侵入性方法,具有潜在诊断价值。
  • Method: 使用Transformer架构的Retformer模型,结合Gradient-weighted Class Activation Mapping算法可视化特征重要性。
  • Result: Retformer在多种性能指标上优于基准算法,最高提升11%。
  • Conclusion: Retformer为阿尔茨海默病的早期诊断提供了高效且可解释的新方法。

[266] Time2Agri: Temporal Pretext Tasks for Agricultural Monitoring

Moti Rattan Gupta,Anupam Sobti

Main category: cs.LG

TL;DR: 论文提出三种农业特定的自监督学习任务(TD、FP、FF),在SICKLE和FTW India数据集上表现优于基线方法。

  • Motivation: 现有遥感基础模型(RSFMs)的自监督学习任务忽视了农业景观的独特时间特性(如自然周期),因此提出针对农业的预训练任务。
  • Method: 提出三种农业特定的预训练任务:时间差异预测(TD)、时间频率预测(FP)和未来帧预测(FF)。
  • Result: FF在作物分类上达到69.6% IoU,FP将产量预测误差降至30.7% MAPE,TD在多数任务中表现优异。FF在印度全国尺度上达到54.2% IoU。
  • Conclusion: 农业特定的预训练任务显著提升了遥感基础模型在农业应用中的性能。

[267] Information-Guided Diffusion Sampling for Dataset Distillation

Linfeng Ye,Shayan Mohajer Hamidi,Guang Li,Takahiro Ogawa,Miki Haseyama,Konstantinos N. Plataniotis

Main category: cs.LG

TL;DR: 论文提出了一种基于信息论的扩散模型采样方法(IGDS),通过在采样过程中最大化原型信息和上下文信息,解决了低IPC设置下数据集蒸馏的多样性问题。

  • Motivation: 扩散模型在数据集蒸馏任务中表现良好,但在低IPC(每类图像数)设置下生成的样本缺乏多样性。
  • Method: 从信息论角度识别并最大化原型信息(I(X;Y))和上下文信息(H(X|Y)),提出IGDS方法,通过变分估计实现。
  • Result: 在Tiny ImageNet和ImageNet子集上的实验表明,IGDS显著优于现有方法,尤其在低IPC场景下。
  • Conclusion: IGDS通过信息引导的扩散采样,有效提升了数据集蒸馏的性能,特别是在低IPC设置下。

[268] DANCE: Resource-Efficient Neural Architecture Search with Data-Aware and Continuous Adaptation

Maolin Wang,Tianshuo Wei,Sheng Zhang,Ruocheng Guo,Wanyu Wang,Shanshan Ye,Lixin Zou,Xuetao Wei,Xiangyu Zhao

Main category: cs.LG

TL;DR: DANCE提出了一种动态神经架构搜索方法,通过连续演化学习架构分布,解决了现有NAS方法在适应性、搜索成本和性能一致性上的问题。

  • Motivation: 现有NAS方法在真实部署中存在适应性差、搜索成本高和性能不一致的问题,需要一种更高效的解决方案。
  • Method: DANCE将架构搜索重新定义为连续演化问题,引入连续架构分布、统一架构空间和多阶段训练策略。
  • Result: 在五个数据集上的实验表明,DANCE在准确性和搜索成本上优于现有NAS方法,并能适应不同硬件需求。
  • Conclusion: DANCE通过动态架构演化,显著提升了NAS的适应性和效率,适用于多样化部署场景。

[269] Identify, Isolate, and Purge: Mitigating Hallucinations in LVLMs via Self-Evolving Distillation

Wenhao Li,Xiu Su,Jingyi Wu,Feng Yang,Yang Liu,Yi Chen,Shan You,Chang Xu

Main category: cs.LG

TL;DR: 论文提出了一种名为SEED的自进化蒸馏方法,通过识别和消除LVLM内部幻觉知识,并将净化后的知识蒸馏回模型,显著减少了幻觉问题。

  • Motivation: 大型视觉语言模型(LVLM)在多领域表现出色,但幻觉问题限制了其可信度和应用潜力。现有方法依赖外部工具或多轮推理比较,增加了推理时间。
  • Method: 提出SEED方法,包括识别和消除幻觉知识、模式寻求蒸馏以避免输出空间空洞,以及引入幻觉消除适配器学习净化知识。
  • Result: 在多个基准测试中验证了SEED的优越性,显著减少了幻觉问题。例如,LLaVA-1.5在POPE-Random上的F1分数从81.3提升到88.3。
  • Conclusion: SEED通过自进化蒸馏和模式寻求方法,有效减少了LVLM的幻觉问题,提升了模型性能。

[270] Bridging KAN and MLP: MJKAN, a Hybrid Architecture with Both Efficiency and Expressiveness

Hanseon Joo,Hayoung Choi,Ook Lee,Minjong Cheon

Main category: cs.LG

TL;DR: MJKAN是一种新型神经网络层,结合了KAN的非线性表达能力和MLP的效率,在函数回归任务中表现优异,但在图像和文本分类中需调整基函数数量以避免过拟合。

  • Motivation: KANs在通用分类任务中存在高计算成本和性能不足的问题,MJKAN旨在解决这些挑战。
  • Method: MJKAN结合了类似FiLM的机制和RBF激活函数,形成混合架构。
  • Result: MJKAN在函数回归中优于MLPs,但在图像和文本分类中表现与MLPs相当,基函数数量对性能有显著影响。
  • Conclusion: MJKAN继承了KAN的理论优势,同时提高了计算效率和实用性。

[271] ConBatch-BAL: Batch Bayesian Active Learning under Budget Constraints

Pablo G. Morato,Charalampos P. Andriotis,Seyran Khademi

Main category: cs.LG

TL;DR: 论文提出两种预算约束下的贝叶斯主动学习策略(ConBatch-BAL),通过动态阈值和贪婪选择方法优化样本选择,降低标注成本。

  • Motivation: 现实应用中,数据点标注成本差异和预算限制阻碍了主动学习策略的采用。
  • Method: 基于贝叶斯神经网络的不确定性度量,开发动态阈值和贪婪策略,分别通过预算重新分配和逐步选择样本。
  • Result: 在真实地理空间数据集上,ConBatch-BAL策略减少了主动学习迭代和成本,甚至优于无约束基线。
  • Conclusion: ConBatch-BAL策略在预算和成本约束下有效,适用于高标注成本场景。

[272] Critiques of World Models

Eric Xing,Mingkai Deng,Jinyu Hou,Zhiting Hu

Main category: cs.LG

TL;DR: 本文探讨了世界模型的概念及其在人工智能中的作用,提出了一个基于分层、多级和混合连续/离散表示的新架构,并展望了由其支持的物理、代理和嵌套(PAN)AGI系统。

  • Motivation: 随着对具有人工(通用)智能的虚拟代理的需求增加,世界模型成为一个重要话题。本文旨在澄清世界模型的本质、构建方法、用途和评估标准。
  • Method: 通过批判现有世界模型理论,提出了一种基于分层、多级和混合连续/离散表示的新架构,并结合生成和自监督学习框架。
  • Result: 提出了一个通用世界模型的新架构,并展望了由其支持的PAN AGI系统。
  • Conclusion: 世界模型的主要目标是模拟现实世界的所有可行动可能性,以支持有目的的推理和行动。新架构为实现这一目标提供了潜在路径。

cs.SD

[273] EXPOTION: Facial Expression and Motion Control for Multimodal Music Generation

Fathinah Izzati,Xinyue Li,Gus Xia

Main category: cs.SD

TL;DR: Expotion是一个利用面部表情和上半身动作等多模态视觉控制及文本提示生成音乐的模型,通过参数高效微调和时间平滑策略提升音乐质量。

  • Motivation: 现有视频到音乐生成模型在音乐表现力和时间同步性上存在不足,需结合多模态控制提升生成质量。
  • Method: 采用参数高效微调(PEFT)和时间平滑策略,结合文本和视觉特征生成音乐。
  • Result: 实验表明,Expotion在音乐性、创造力、节拍一致性、时间对齐和文本遵循上优于现有模型。
  • Conclusion: Expotion通过多模态控制和高效微调显著提升了音乐生成质量,并提供了新的数据集支持未来研究。

cs.CR

[274] Evaluating the Evaluators: Trust in Adversarial Robustness Tests

Antonio Emanuele Cinà,Maura Pintor,Luca Demetrio,Ambra Demontis,Battista Biggio,Fabio Roli

Main category: cs.CR

TL;DR: AttackBench是一个标准化评估梯度对抗攻击效果的基准框架,旨在解决现有评估方法的不一致性和不可靠性问题。

  • Motivation: 现有对抗攻击评估方法存在不一致和不可靠的问题,导致结果偏差和虚假的安全感。
  • Method: 提出AttackBench框架,通过标准化和可复现的条件评估梯度攻击效果,并使用新的最优性指标排名攻击实现。
  • Result: AttackBench能够识别最可靠和有效的攻击方法,为鲁棒性验证提供可靠基础。
  • Conclusion: AttackBench通过标准化评估条件,提升了对抗攻击评估的可靠性,为研究者和实践者提供了实用工具。

[275] SecureT2I: No More Unauthorized Manipulation on AI Generated Images from Prompts

Xiaodong Wu,Xiangman Li,Qi Li,Jianbing Ni,Rongxing Lu

Main category: cs.CR

TL;DR: SecureT2I是一个安全框架,用于防止基于扩散模型的文本引导图像编辑中的未经授权修改。它通过分类图像为允许和禁止集,并设计不同的训练目标来实现选择性编辑。

  • Motivation: 解决文本引导图像编辑中的伦理和版权问题,防止未经授权的修改。
  • Method: 将图像分类为允许和禁止集,设计不同的损失函数以鼓励模糊或语义模糊的输出,同时保持允许集的高质量编辑。
  • Result: SecureT2I有效降低了禁止集图像的编辑质量,同时保持了允许集的性能,并在未见输入上表现优于基线。
  • Conclusion: SecureT2I提供了一种轻量级且兼容性强的解决方案,用于控制扩散模型中的安全编辑。

[276] README: Robust Error-Aware Digital Signature Framework via Deep Watermarking Model

Hyunwook Choi,Sangyun Won,Daeyeon Hwang,Junhyeok Choi

Main category: cs.CR

TL;DR: README框架通过结合裁剪容量扩展和ERPA错误校正模块,显著提升了图像中嵌入2048位数字签名的零比特错误率,适用于高安全性应用。

  • Motivation: 现有深度学习水印模型在嵌入容量和抗比特错误方面不足,无法满足密码学应用(如数字签名)的需求。
  • Method: 结合裁剪容量扩展机制和ERPA错误校正模块(基于DCSS),无需微调现有模型。
  • Result: 零比特错误率从1.2%提升至86.3%,支持2048位数字签名嵌入。
  • Conclusion: README填补了信号级水印与密码学安全之间的空白,适用于高保障性应用。

cs.DL

[277] An HTR-LLM Workflow for High-Accuracy Transcription and Analysis of Abbreviated Latin Court Hand

Joshua D. Isom

Main category: cs.DL

TL;DR: 本文提出并验证了一个四阶段工作流程,用于高精度转录和分析中世纪法律文件,结合了手写文本识别(HTR)和大语言模型(LLM),显著降低了错误率。

  • Motivation: 解决中世纪法律文件转录和分析的挑战,通过自动化减少人工劳动,同时提高准确性。
  • Method: 1. 使用HTR模型生成基线转录;2. 结合图像和转录通过LLM进行多模态校正;3. 使用LLM将缩写文本扩展为完整拉丁文;4. 通过LLM进行命名实体校正(NEC)。
  • Result: 在详细案例研究中,词错误率(WER)降至2-7%,验证了工作流程的有效性。
  • Conclusion: 该混合多阶段方法显著提升了转录效率和质量,为当前技术环境提供了实用解决方案。

cs.GR

[278] MoDA: Multi-modal Diffusion Architecture for Talking Head Generation

Xinyang Li,Gen Li,Zhihui Lin,Yichen Qian,GongXin Yao,Weinan Jia,Weihua Chen,Fan Wang

Main category: cs.GR

TL;DR: MoDA提出了一种基于扩散模型的方法,通过联合参数空间和多模态架构解决说话头生成中的低效推理和表情不足问题。

  • Motivation: 解决扩散模型在说话头生成中的低效推理和视觉伪影问题,以及提升多模态信息交互以生成更真实的面部表情和头部动作。
  • Method: 1) 定义联合参数空间连接运动生成与神经渲染,利用流匹配简化扩散学习;2) 引入多模态扩散架构建模噪声运动、音频和辅助条件的交互。
  • Result: MoDA显著提升了视频多样性、真实感和效率,适用于实际应用。
  • Conclusion: MoDA通过联合参数空间和多模态架构,有效解决了扩散模型在说话头生成中的问题,提升了生成效果和实用性。

[279] 3D PixBrush: Image-Guided Local Texture Synthesis

Dale Decatur,Itai Lang,Kfir Aberman,Rana Hanocka

Main category: cs.GR

TL;DR: 3D PixBrush是一种无需用户输入即可在3D网格上实现图像驱动局部编辑的方法,通过预测定位掩码和纹理合成,实现全局一致性和局部精确性。

  • Motivation: 解决3D网格局部编辑中需要用户输入(如涂鸦或边界框)的问题,实现自动化和高精度的编辑。
  • Method: 提出一种改进的分数蒸馏采样技术(localization-modulated image guidance),结合预测的定位掩码和参考图像,实现自动定位和纹理合成。
  • Result: 在多种3D网格和图像上验证了方法的有效性,能够实现全局一致和局部精确的编辑效果。
  • Conclusion: 3D PixBrush为3D网格的局部编辑提供了一种高效且无需用户干预的解决方案。

[280] F-Hash: Feature-Based Hash Design for Time-Varying Volume Visualization via Multi-Resolution Tesseract Encoding

Jianxin Sun,David Lenz,Hongfeng Yu,Tom Peterka

Main category: cs.GR

TL;DR: 论文提出了一种名为F-Hash的新型特征多分辨率编码架构,用于加速时间变化体积数据的隐式神经表示(INR)训练,并优化渲染速度。

  • Motivation: 时间变化体积数据的可视化因数据量大和时空特征复杂而具有挑战性,现有INR方法训练收敛速度慢。
  • Method: 提出F-Hash,一种基于特征的多分辨率编码架构,结合多级无冲突哈希函数,高效映射动态4D多分辨率嵌入网格。
  • Result: F-Hash在多种时间变化体积数据集上实现了最先进的训练收敛速度,并优化了渲染效率。
  • Conclusion: F-Hash为时间变化特征跟踪和演化可视化提供了一种高效的统一编码解决方案。

[281] Attention-Guided Multi-Scale Local Reconstruction for Point Clouds via Masked Autoencoder Self-Supervised Learning

Xin Cao,Haoyu Wang,Yuzhu Mao,Xinda Liu,Linzhi Su,Kang Li

Main category: cs.GR

TL;DR: PointAMaLR是一种新型的自监督学习框架,通过注意力引导的多尺度局部重建提升点云处理的特征表示和精度。

  • Motivation: 现有模型在点云处理中主要关注高层编码器的重建任务,忽视了低层局部特征的有效利用。
  • Method: PointAMaLR采用分层重建策略,低层关注细粒度特征恢复,高层处理粗粒度特征重建,并嵌入局部注意力模块增强语义理解。
  • Result: 在ModelNet、ShapeNet、ScanObjectNN和S3DIS数据集上,PointAMaLR在分类和重建任务中表现出色。
  • Conclusion: PointAMaLR不仅验证了多尺度语义理解的有效性,还展示了其在真实场景中的实用性。

[282] A3FR: Agile 3D Gaussian Splatting with Incremental Gaze Tracked Foveated Rendering in Virtual Reality

Shuo Xin,Haiyu Wang,Sai Qian Zhang

Main category: cs.GR

TL;DR: 论文提出了一种名为A3FR的高效渲染框架,通过并行化注视跟踪和注视点渲染过程,显著降低了实时渲染的延迟。

  • Motivation: 虚拟现实(VR)中的图像渲染对计算资源要求高,传统的注视点渲染方法虽然能降低渲染成本,但注视跟踪过程本身的计算开销可能导致延迟增加。
  • Method: 提出A3FR框架,并行化注视跟踪和注视点渲染过程,并采用3D高斯泼溅技术作为渲染算法。
  • Result: 实验表明,A3FR能将端到端渲染延迟降低至多2倍,同时保持视觉质量。
  • Conclusion: A3FR框架有效解决了注视点渲染中的延迟问题,为VR应用提供了更高效的解决方案。

[283] Neuralocks: Real-Time Dynamic Neural Hair Simulation

Gene Wei-Chin Lin,Egor Larionov,Hsiao-yu Chen,Doug Roble,Tuur Stuyck

Main category: cs.GR

TL;DR: 提出了一种新型神经网络方法,实现高效稳定的动态头发模拟,优于现有方法。

  • Motivation: 实时头发模拟对虚拟角色真实感至关重要,但现有方法无法捕捉动态行为。
  • Method: 采用完全自监督的神经网络方法,无需人工干预或艺术家生成数据,支持端到端自动重建。
  • Result: 通过多种发型验证了方法的有效性,展示了实际应用潜力。
  • Conclusion: 新方法突破了现有技术的限制,为动态头发模拟提供了高效解决方案。

eess.IV

[284] Outcome prediction and individualized treatment effect estimation in patients with large vessel occlusion stroke

Lisa Herzog,Pascal Bühler,Ezequiel de la Rosa,Beate Sick,Susanne Wegener

Main category: eess.IV

TL;DR: 研究开发了可解释的深度学习模型,结合临床数据和影像学特征,预测大血管闭塞卒中患者的功能性结果和个体化治疗效果。

  • Motivation: 尽管机械取栓已成为大血管闭塞卒中的标准治疗,但仅50%的患者预后良好,因此需要更精准的预测模型。
  • Method: 使用449名患者的临床数据和影像学特征(NCCT和CTA),结合深度学习模型进行预测和个体化治疗效果分析。
  • Result: 临床变量对预测功能结果有较好效果(AUC 0.719),加入CTA影像后略有提升(AUC 0.737)。个体化治疗效果预测能力有限(C-for-Benefit 约0.55)。
  • Conclusion: 模型整合了影像和临床数据,性能达到先进水平,但个体化治疗效果预测仍需改进。

[285] EvRWKV: A RWKV Framework for Effective Event-guided Low-Light Image Enhancement

WenJie Cai,Qingguo Meng,Zhenyu Wang,Xingbo Dong,Zhe Jin

Main category: eess.IV

TL;DR: EvRWKV是一种新型框架,通过双域处理和跨模态交互,有效解决低光条件下图像增强的噪声、模糊和对齐问题。

  • Motivation: 传统低光增强方法在噪声放大和细节保留方面表现不佳,事件相机虽具潜力,但现有融合方法存在策略简单和对齐不足的问题。
  • Method: EvRWKV结合Cross-RWKV模块(基于RWKV架构的细粒度跨模态融合)和EISFE模块(自适应频域降噪和空域对齐)。
  • Result: 在多个真实低光数据集上,EvRWKV表现优异,显著抑制噪声、恢复细节并提升视觉清晰度。
  • Conclusion: EvRWKV为低光图像增强提供了高效解决方案,具有实际应用潜力。

[286] Event2Audio: Event-Based Optical Vibration Sensing

Mingxuan Cai,Dekel Galor,Amit Pal Singh Kohli,Jacob L. Yates,Laura Waller

Main category: eess.IV

TL;DR: 利用事件相机改进主动传感方法,从微小振动中恢复音频,实现接近实时处理。

  • Motivation: 微小振动可揭示声音和材料特性等非视觉信息,但传统方法在速度和环境干扰下表现有限。
  • Method: 采用事件相机高效捕捉快速运动,改进主动传感方法,从振动中恢复音频。
  • Result: 实验证明,即使在多源振动和环境干扰下,也能高质量恢复音频,速度接近实时。
  • Conclusion: 该方法在重建质量上达到最新水平,同时显著提升处理速度,适用于实时应用。

[287] Towards Interpretable PolSAR Image Classification: Polarimetric Scattering Mechanism Informed Concept Bottleneck and Kolmogorov-Arnold Network

Jinqi Zhang,Fangzhou Han,Di Zhuang,Lamei Zhang,Bin Zou,Li Yuan

Main category: eess.IV

TL;DR: 该论文提出了一种基于极化目标分解(PTD)和并行概念瓶颈网络(PaCBM)的方法,以提高深度学习在极化合成孔径雷达(PolSAR)图像分类中的可解释性。

  • Motivation: 深度学习在PolSAR图像分类中表现优异,但其“黑盒”特性导致高维特征和决策过程难以解释。
  • Method: 结合PTD和PaCBM,将高维特征转化为可理解的极化散射机制概念,并使用Kolmogorov-Arnold网络(KAN)替代MLP以简化映射过程。
  • Result: 实验表明,该方法在保持分类精度的同时实现了特征的可解释性,并通过样条函数获得类别预测的分析功能。
  • Conclusion: 该方法推动了深度学习在PolSAR图像分类中的可解释性研究。

[288] Cancer cytoplasm segmentation in hyperspectral cell image with data augmentation

Rebeka Sultana,Hibiki Horibe,Tomoaki Murakami,Ikuko Shimizu

Main category: eess.IV

TL;DR: 提出了一种利用深度学习和数据增强方法从高光谱图像中检测癌细胞细胞质的方法,解决了数据不足和噪声问题。

  • Motivation: H&E染色图像常用于检测癌细胞区域,但CMOS图像缺乏诊断所需的详细信息,而高光谱图像能提供更全面的信息。然而,高光谱图像数据获取困难且易受噪声干扰。
  • Method: 使用深度学习模型检测高光谱图像中的癌细胞细胞质,并通过CMOS图像进行数据增强以解决数据不足和噪声问题。
  • Result: 实验结果表明,所提出的数据增强方法在定量和定性上均有效。
  • Conclusion: 该方法通过数据增强有效解决了高光谱图像数据不足和噪声问题,提升了癌细胞细胞质检测的准确性。

[289] UltraDfeGAN: Detail-Enhancing Generative Adversarial Networks for High-Fidelity Functional Ultrasound Synthesis

Zhuo Li,Xuhang Chen,Shuqiang Wang

Main category: eess.IV

TL;DR: 本文提出了一种基于GAN的功能性超声(fUS)图像生成方法,通过架构改进提升了生成图像的逼真度和生理合理性,并在下游任务中验证了其有效性。

  • Motivation: 功能性超声(fUS)在临床应用中潜力巨大,但面临数据稀缺和图像生成逼真度不足的挑战。
  • Method: 采用生成对抗网络(GAN)框架,结合特征增强模块和归一化技术,优化fUS图像生成。
  • Result: 实验表明,该方法生成的fUS图像质量优于现有模型,且能提升下游分类任务的准确性。
  • Conclusion: 该框架有效解决了fUS数据稀缺问题,为临床研究提供了新工具。

[290] Hybrid-View Attention for csPCa Classification in TRUS

Zetian Feng,Juan Fu,Xuebin Zou,Hongsheng Ye,Hong Wu,Jianhua Zhou,Yi Wang

Main category: eess.IV

TL;DR: 提出了一种新型混合视图注意力(HVA)网络,用于3D TRUS中的临床显著前列腺癌分类,结合了CNN和Transformer架构,通过跨视图注意力增强特征表示。

  • Motivation: 前列腺癌是男性癌症相关死亡的主要原因,准确识别临床显著前列腺癌对及时干预至关重要。TRUS的低对比度和各向异性空间分辨率限制了诊断效果。
  • Method: 采用CNN-Transformer混合架构,卷积层提取局部特征,HVA模块通过跨视图注意力整合全局信息,并动态融合特征。
  • Result: 在590名患者的内部数据集上验证了方法的有效性,比较和消融实验证明了其优势。
  • Conclusion: HVA网络显著提升了3D TRUS中临床显著前列腺癌的分类性能。

[291] PhotIQA: A photoacoustic image data set with image quality ratings

Anna Breger,Janek Gröhl,Clemens Karner,Thomas R Else,Ian Selby,Jonathan Weir-McCall,Carola-Bibiane Schönlieb

Main category: eess.IV

TL;DR: 该论文提出了一个名为PhotIQA的数据集,用于开发和测试图像质量评估(IQA)方法,特别是在光声成像(PAI)领域。数据集包含1134张专家评分的图像,并展示了HaarPSImed在相关性上优于SSIM。

  • Motivation: 由于缺乏质量评分的医学图像,现有的IQA方法主要针对自然图像开发,导致在医学图像(如光声成像)中应用不一致。
  • Method: 作者构建了PhotIQA数据集,包含1134张光声图像,由专家评分五个质量属性,并提供了高度表征的成像测试对象作为参考。
  • Result: 实验表明,HaarPSImed在相关性上显著优于SSIM(SRCC: 0.83 vs. 0.62)。
  • Conclusion: PhotIQA数据集为IQA方法的开发和测试提供了重要资源,尤其在光声成像领域,并展示了HaarPSImed的优越性。

[292] Dual-Alignment Knowledge Retention for Continual Medical Image Segmentation

Yuxin Ye,Yan Liu,Shujian Yu

Main category: eess.IV

TL;DR: 提出了一种新的持续学习框架,通过双对齐策略(CNA和CRA模块)缓解医学图像分割中的灾难性遗忘问题。

  • Motivation: 解决医学图像分割中因任务干扰导致的灾难性遗忘问题,现有方法未能捕捉任务间复杂依赖关系。
  • Method: 引入双对齐策略:CNA模块对齐当前与历史网络的瓶颈层特征,CRA模块对齐当前网络从历史缓冲数据和当前输入数据学习的特征。
  • Result: 实验证明该框架在医学图像分割任务中有效缓解了领域偏移下的灾难性遗忘。
  • Conclusion: 提出的双对齐策略显著提升了持续学习性能,适用于复杂依赖关系的任务。

[293] Segmentation of separated Lumens in 3D CTA images of Aortic Dissection

Christophe Lohou,Bruno Miguel

Main category: eess.IV

TL;DR: 本文提出了一种利用填充撕裂表面的方法分离主动脉夹层中的真假腔,为诊断提供可视化支持。

  • Motivation: 主动脉夹层是一种紧急病理情况,需要快速诊断。通过分离真假腔,可以为医生提供更直观的诊断工具。
  • Method: 利用数学形态学操作和Aktouf等人提出的闭合算法生成填充撕裂的3D表面,并以此分离真假腔。
  • Result: 成功分离了真假腔,并首次将填充表面用作图像处理操作,为诊断提供了新的可视化工具。
  • Conclusion: 该方法不仅有助于诊断,还可能提升其他相关研究(如配准、分割和血流动力学分析)。

[294] Inverse Synthetic Aperture Fourier Ptychography

Matthew A. Chan,Casey J. Pellizzari,Christopher A. Metzler

Main category: eess.IV

TL;DR: 提出了一种基于目标运动的傅里叶叠层成像新方法,无需改变照明角度或相机位置,并通过学习估计k空间坐标。

  • Motivation: 传统傅里叶叠层成像方法需要改变照明角度或相机位置,增加了成本和复杂性,因此需要一种更简便的方法。
  • Method: 通过目标运动引入测量多样性,并提出基于学习的k空间坐标估计方法。
  • Result: 在仿真和实验光学系统中验证了方法的有效性。
  • Conclusion: 新方法简化了傅里叶叠层成像的测量过程,同时保持了高分辨率和宽视场。

[295] PLUS: Plug-and-Play Enhanced Liver Lesion Diagnosis Model on Non-Contrast CT Scans

Jiacheng Hao,Xiaoming Zhang,Wei Liu,Xiaoli Yin,Yuan Gao,Chunli Li,Ling Zhang,Le Lu,Yu Shi,Xu Han,Ke Yan

Main category: eess.IV

TL;DR: PLUS是一个即插即用的框架,用于增强非对比CT(NCCT)图像上的肝脏病变分析,显著提高了良恶性病变的区分能力。

  • Motivation: 现有3D分割方法在区分肝脏良恶性病变时存在局限性,且依赖专用成像模态,而NCCT更常见。
  • Method: 提出PLUS框架,通过改进现有3D分割模型,增强NCCT图像上的病变分析能力。
  • Result: 在8,651名患者的实验中,PLUS显著提升了病变和患者级别的F1分数。
  • Conclusion: PLUS有潜力通过广泛可用的NCCT成像显著改善恶性肝脏病变的筛查。

[296] EdgeSRIE: A hybrid deep learning framework for real-time speckle reduction and image enhancement on portable ultrasound systems

Hyunwoo Cho,Jongsoo Lee,Jinbum Kang,Yangmo Yoo

Main category: eess.IV

TL;DR: EdgeSRIE是一种轻量级混合深度学习框架,用于便携式超声成像中的实时斑点抑制和图像增强,具有低计算成本和高效性能。

  • Motivation: 超声图像中的斑点模式会掩盖解剖细节,导致诊断不确定性。现有的深度学习方法计算成本高,难以在低资源设备上应用。
  • Method: EdgeSRIE包含两个分支:无监督去斑点分支和去模糊分支,网络量化后部署在低功耗SoC上。
  • Result: 在性能评估中,EdgeSRIE的对比噪声比(CNR)和平均梯度幅度(AGM)表现最佳,并实现60帧/秒的实时推理。
  • Conclusion: EdgeSRIE证明了在资源有限环境下实现实时高质量超声成像的可行性。

[297] PASC-Net:Plug-and-play Shape Self-learning Convolutions Network with Hierarchical Topology Constraints for Vessel Segmentation

Xiao Zhang,Zhuo Jin,Shaoxuan Wu,Fengyu Wang,Guansheng Peng,Xiang Zhang,Ying Huang,JingKun Chen,Jun Feng

Main category: eess.IV

TL;DR: 提出了一种名为PASC Net的新型血管分割框架,通过SSL模块优化卷积核设计,HTC模块确保血管连通性,显著提升了血管分割性能。

  • Motivation: 现有血管分割算法难以处理血管的低对比度和复杂拓扑结构,导致分割不完整或拓扑错误。
  • Method: PASC Net包含SSL模块(优化卷积核为可学习条状卷积)和HTC模块(分层拓扑约束),应用于多种网络架构。
  • Result: 在多种架构中性能一致提升,集成到nnUNet时达到最先进的血管分割效果。
  • Conclusion: PASC Net通过优化卷积和拓扑约束,有效解决了血管分割的挑战。

[298] Grid-Reg: Grid-Based SAR and Optical Image Registration Across Platforms

Xiaochen Wei,Weiwei Guo,Zenghui Zhang,Wenxian Yu

Main category: eess.IV

TL;DR: 提出了一种基于网格的多模态配准框架(Grid-Reg),用于解决机载SAR与星载光学图像的配准问题,通过全局匹配损失和网格求解器实现高效配准。

  • Motivation: 机载SAR与星载光学图像的配准因几何和辐射差异大而具有挑战性,现有方法难以处理。
  • Method: 提出Grid-Reg框架,包括域鲁棒描述符提取网络(HSCMLNet)和基于网格的求解器(Grid-solver),采用全局匹配损失和粗到细策略。
  • Result: 在真实数据集上验证,Grid-Reg表现优于现有方法。
  • Conclusion: Grid-Reg通过全局匹配和网格求解器,显著提升了跨平台异构图像的配准性能。

[299] Deep-Learning-Assisted Highly-Accurate COVID-19 Diagnosis on Lung Computed Tomography Images

Yinuo Wang,Juhyun Bae,Ka Ho Chow,Shenyang Chen,Shreyash Gupta

Main category: eess.IV

TL;DR: 提出了一种基于GAN和滑动窗口的CT图像质量控制管道,并结合LDAM Loss和CB Loss解决数据长尾问题,模型在测试集上MCC达到0.983。

  • Motivation: COVID-19诊断中CT图像质量影响诊断效果,且数据存在长尾分布问题,需优化图像质量和分类性能。
  • Method: 使用GAN和滑动窗口优化CT图像质量,结合LDAM Loss和CB Loss解决长尾问题。
  • Result: 模型在测试集上的MCC达到0.983。
  • Conclusion: 提出的方法有效提升了CT图像质量和分类性能,为COVID-19诊断提供了可靠支持。

[300] Surg-SegFormer: A Dual Transformer-Based Model for Holistic Surgical Scene Segmentation

Fatimaelzahraa Ahmed,Muraam Abdel-Ghani,Muhammad Arsalan,Mahmoud Ali,Abdulaziz Al-Ali,Shidin Balakrishnan

Main category: eess.IV

TL;DR: Surg-SegFormer是一种无需提示的新型模型,用于机器人辅助手术中的整体场景分割,性能优于现有技术。

  • Motivation: 手术中时间紧迫,专家资源有限,需要自动化工具帮助学员理解手术场景。
  • Method: 提出Surg-SegFormer,一种无需用户提示的语义分割模型。
  • Result: 在EndoVis2018和EndoVis2017数据集上分别达到0.80和0.54的mIoU。
  • Conclusion: 该模型显著减轻专家负担,帮助学员独立理解复杂手术环境。

[301] CLIP-RL: Surgical Scene Segmentation Using Contrastive Language-Vision Pretraining & Reinforcement Learning

Fatmaelzahraa Ali Ahmed,Muhammad Arsalan,Abdulaziz Al-Ali,Khalid Al-Jalham,Shidin Balakrishnan

Main category: eess.IV

TL;DR: CLIP-RL是一种新型对比语言-图像预训练模型,专为手术场景的语义分割设计,结合强化学习和课程学习,显著提升分割性能。

  • Motivation: 通过处理手术视频数据,提升医疗质量,并利用这些数据训练复杂模型。
  • Method: 结合对比学习、强化学习和课程学习,动态优化分割掩码。
  • Result: 在EndoVis 2018和2017数据集上分别取得81%和74.12%的mIoU,优于现有模型。
  • Conclusion: CLIP-RL通过多方法融合,显著提升了手术场景分割的鲁棒性和准确性。

[302] ViTaL: A Multimodality Dataset and Benchmark for Multi-pathological Ovarian Tumor Recognition

You Zhou,Lijiang Chen,Guangxia Cui,Wenpei Bai,Yu Guo,Shuchang Lyu,Guangliang Cheng,Qi Zhao

Main category: eess.IV

TL;DR: 论文提出了一种名为ViTaL的多模态卵巢肿瘤病理识别数据集,并基于THOAM机制设计了ViTaL-Net模型,用于多病理分类,实验表现优异。

  • Motivation: 早期卵巢肿瘤检测对女性健康至关重要,但现有公开数据集有限,阻碍了深度学习在此领域的进展。
  • Method: 引入ViTaL数据集(包含视觉、表格和语言模态数据),并提出基于THOAM的ViTaL-Net模型进行多模态特征融合和多病理分类。
  • Result: ViTaL-Net在两种常见卵巢肿瘤病理类型上准确率超过90%,整体性能达85%。
  • Conclusion: ViTaL数据集和ViTaL-Net为卵巢肿瘤的多病理多模态分类提供了有效工具,实验验证了其优越性。

[303] Dynamic Frequency Feature Fusion Network for Multi-Source Remote Sensing Data Classification

Yikang Zhao,Feng Gao,Xuepeng Jin,Junyu Dong,Qian Du

Main category: eess.IV

TL;DR: 提出了一种动态频率特征融合网络(DFFNet),用于高光谱图像(HSI)与SAR/LiDAR数据的联合分类,通过动态学习频率域特征和跨模态融合提升分类性能。

  • Motivation: 多源数据分类在遥感图像解译中至关重要,但现有方法对多样性地物类型的频率域特征建模缺乏适应性。
  • Method: 设计了动态滤波器块动态学习频率域特征,并通过谱-空间自适应融合块实现跨模态特征融合。
  • Result: 在两个基准数据集上,DFFNet优于现有方法。
  • Conclusion: DFFNet通过动态频率特征学习和跨模态融合,显著提升了多源数据分类性能。

[304] FB-Diff: Fourier Basis-guided Diffusion for Temporal Interpolation of 4D Medical Imaging

Xin You,Runze Yang,Chuyan Zhang,Zhongliang Jiang,Jie Yang,Nassir Navab

Main category: eess.IV

TL;DR: FB-Diff是一种基于傅里叶基的扩散模型,用于4D医学影像的时间插值任务,通过结合生理运动先验和频谱信息,实现了更好的呼吸运动模拟和插值效果。

  • Motivation: 现有方法基于线性运动假设,无法准确模拟非线性、准周期性的呼吸运动,因此需要从频率角度解决插值问题。
  • Method: 提出FB-Diff模型,结合生理运动先验和傅里叶基提取,通过扩散模型生成中间帧。
  • Result: FB-Diff在感知性能和时序一致性上达到SOTA,同时保持良好重建指标。
  • Conclusion: FB-Diff通过频率视角和生成式方法,显著提升了呼吸运动建模的插值效果。

[305] Comprehensive Modeling of Camera Spectral and Color Behavior

Sanush K Abeysekera,Ye Chow Kuang,Melanie Po-Leen Ooi

Main category: eess.IV

TL;DR: 提出了一种新的RGB数码相机光谱响应建模技术,填补了现有模型的空白,并在多种光照条件下验证了其有效性。

  • Motivation: 目前缺乏一个全面的端到端光谱响应模型,而准确的模型对颜色和光谱数据解释至关重要。
  • Method: 通过变化光照条件测试和验证所提出的光谱响应模型。
  • Result: 模型显著提高了颜色保真度和光谱准确性,适用于机器视觉、遥感和光谱成像等领域。
  • Conclusion: 该模型为科学、工业和创意领域中需要光谱精度的相机系统优化提供了有力工具。

[306] A Deep Unfolding Framework for Diffractive Snapshot Spectral Imaging

Zhengyue Zhuge,Jiahui Xu,Shiqi Chen,Hao Xu,Yueting Chen,Zhihai Xu,Huajun Feng

Main category: eess.IV

TL;DR: 提出了一种名为DDU的高效深度展开框架,用于解决DSSI系统中的重建问题,通过分析解和网络初始化策略提升性能。

  • Motivation: DSSI系统的重建算法研究有限,现有方法因光学编码机制不兼容而效果不佳。
  • Method: 提出DDU框架,结合分析解和网络初始化策略,优化迭代重建过程。
  • Result: 实验验证DDU性能优越,兼容现有SOTA模型,参数和计算复杂度可控。
  • Conclusion: DDU为DSSI中的展开方法提供了坚实基础,未来可进一步优化。

[307] CP-Dilatation: A Copy-and-Paste Augmentation Method for Preserving the Boundary Context Information of Histopathology Images

Sungrae Hong,Sol Lee,Mun Yong Yi

Main category: eess.IV

TL;DR: 提出了一种基于传统Copy-Paste(CP)增强技术的新数据增强方法CP-Dilatation,用于解决医学图像分割中训练数据不足的问题。

  • Motivation: 医学AI诊断(如组织病理学分割)依赖大量训练数据,但医学图像标注成本高昂且专家稀缺。
  • Method: 在传统CP技术基础上加入膨胀操作,以保留恶性肿瘤边界上下文信息。
  • Result: 在组织病理学基准数据集上的实验表明,该方法优于其他先进基线。
  • Conclusion: CP-Dilatation能有效提升医学图像分割性能,尤其在边界模糊的情况下。

[308] SPIDER: Structure-Preferential Implicit Deep Network for Biplanar X-ray Reconstruction

Tianqi Yu,Xuanyu Tian,Jiawen Yang,Dongming He,Jingyi Yu,Xudong Wang,Yuyao Zhang

Main category: eess.IV

TL;DR: SPIDER是一种新型监督框架,用于从双平面X射线图像重建CT体积,通过结合解剖结构先验和隐式神经表示解码器,解决了稀疏输入和结构模糊性问题。

  • Motivation: 双平面X射线成像在临床应用中存在3D重建的深度信息缺失和软组织模糊问题,现有方法在骨骼结构和CT体积重建中效果有限。
  • Method: SPIDER通过统一编码器-解码器架构,将组织结构和图像强度联合学习,直接嵌入解剖约束以增强结构连续性和减少伪影。
  • Result: 在临床头部CT数据集上的实验表明,SPIDER仅需两个投影即可生成解剖学上准确的3D重建,并在下游分割任务中表现优异。
  • Conclusion: SPIDER在个性化治疗规划和图像引导手术导航中具有潜在应用价值。

[309] Efficacy of Image Similarity as a Metric for Augmenting Small Dataset Retinal Image Segmentation

Thomas Wallace,Ik Siong Heng,Senad Subasic,Chris Messenger

Main category: eess.IV

TL;DR: 研究探讨了合成图像(通过PGGAN生成)在增强糖尿病性黄斑水肿(DME)分割任务中的效果,发现FID越低,合成图像对U-Net模型性能提升越显著。

  • Motivation: 解决医学图像数据集有限的问题,探索合成图像作为数据增强手段的有效性。
  • Method: 使用PGGAN生成合成图像,通过FID评估图像相似性,并用U-Net模型进行DME分割任务。
  • Result: FID越低,合成图像对模型性能提升越显著;合成数据比标准增强技术更有效。
  • Conclusion: 合成图像在FID较低时能显著提升模型性能,但需注意图像的相似性阈值。

[310] Uncovering Neuroimaging Biomarkers of Brain Tumor Surgery with AI-Driven Methods

Carmen Jimenez-Mesa,Yizhou Wan,Guilio Sansone,Francisco J. Martinez-Murcia,Javier Ramirez,Pietro Lio,Juan M. Gorriz,Stephen J. Price,John Suckling,Michail Mamalakis

Main category: eess.IV

TL;DR: 提出了一种结合可解释AI(XAI)和神经影像特征工程的框架,用于脑肿瘤切除术后的生存评估,优化手术决策。

  • Motivation: 脑肿瘤切除术对患者生存和生活质量有重大影响,预测患者结果有助于选择最佳治疗方案。
  • Method: 利用49例手术前后患者的临床MRI数据,提出全局解释优化器,改进深度学习模型的生存相关特征归因。
  • Result: 研究发现生存与认知和感觉功能相关区域的改变有关,全局解释优化器在解释的准确性和可理解性上优于现有XAI方法。
  • Conclusion: 该框架为脑肿瘤精准治疗提供了重要工具,强调了手术中保护决策和情绪调节区域的重要性。

[311] MurreNet: Modeling Holistic Multimodal Interactions Between Histopathology and Genomic Profiles for Survival Prediction

Mingxin Liu,Chengfei Cai,Jun Li,Pengbo Xu,Jinze Li,Jiquan Ma,Jun Xu

Main category: eess.IV

TL;DR: 该论文提出了一种名为MurreNet的多模态表示解耦网络,用于改进癌症生存分析,通过分解模态特定和模态共享表示,并结合新型训练正则化策略,显著提升了预测性能。

  • Motivation: 癌症生存预测需要整合病理全切片图像和基因组数据,但现有方法未能充分捕捉模态间和模态内的复杂交互,导致预测性能受限。
  • Method: 提出多模态表示分解模块(MRD)解耦模态特定和共享表示,结合训练正则化策略优化特征分布,最后通过深度整体正交融合(DHOF)整合特征。
  • Result: 在六个TCGA癌症队列上的实验表明,MurreNet在生存预测中达到了最先进的性能。
  • Conclusion: MurreNet通过解耦和优化多模态表示,显著提升了癌症生存预测的准确性和鲁棒性。

[312] Sequential Attention-based Sampling for Histopathological Analysis

Tarun G,Naman Malpani,Gugan Thoppe,Sridharan Devarajan

Main category: eess.IV

TL;DR: SASHA是一种基于深度强化学习的方法,用于高效分析病理图像,通过智能采样和选择性放大,仅需处理10-20%的高分辨率区域即可实现可靠诊断。

  • Motivation: 全切片图像(WSI)通常为千兆像素级别,计算成本高;诊断标签通常仅在切片级别可用,细粒度标注昂贵且耗时;且诊断信息通常仅占切片的一小部分。
  • Method: SASHA结合轻量级分层注意力多实例学习(MIL)模型学习特征,并通过深度强化学习智能采样和选择性放大高分辨率区域。
  • Result: SASHA在计算和内存成本显著降低的情况下,匹配全高分辨率分析方法的性能,并显著优于稀疏采样方法。
  • Conclusion: SASHA是一种适用于大尺寸图像且信息稀疏的医学影像诊断任务的智能采样模型。

[313] SV-DRR: High-Fidelity Novel View X-Ray Synthesis Using Diffusion Model

Chun Xie,Yuichi Yoshii,Itaru Kitahara

Main category: eess.IV

TL;DR: 提出一种基于扩散变换器的单视角X射线图像生成多视角图像的方法,解决了传统方法在角度范围、分辨率和图像质量上的限制。

  • Motivation: 多视角X射线成像虽能提供互补信息,但会增加辐射暴露和临床工作流程的复杂性。
  • Method: 采用扩散变换器和弱到强训练策略,生成高分辨率多视角图像。
  • Result: 实验表明,该方法能生成更高分辨率、角度可控的多视角图像。
  • Conclusion: 该方法在临床、医学教育和数据扩展方面具有重要应用价值。

[314] Latent Motion Profiling for Annotation-free Cardiac Phase Detection in Adult and Fetal Echocardiography Videos

Yingyu Yang,Qianye Yang,Kangning Cui,Can Peng,Elena D'Alberti,Netzahualcoyotl Hernandez-Cruz,Olga Patey,Aris T. Papageorghiou,J. Alison Noble

Main category: eess.IV

TL;DR: 提出一种无监督框架,通过自监督学习从超声心动图视频中检测心脏舒张末期(ED)和收缩末期(ES),无需人工标注。

  • Motivation: 传统自动方法需要大量标注,费时费力,因此开发无监督方法以减少对标注的依赖。
  • Method: 通过自监督学习重建模型,编码可解释的时空运动模式,无需ED/ES标注、分割或容积测量。
  • Result: 在EchoNet-Dynamic基准测试中,ED和ES检测的误差分别为3帧(58.3 ms)和2帧(38.8 ms),与监督方法相当。胎儿超声心动图中表现稳健。
  • Conclusion: 该策略在成人和胎儿超声心动图中具有潜力,为缺乏标注数据的临床群体提供可扩展解决方案。

[315] RAM-W600: A Multi-Task Wrist Dataset and Benchmark for Rheumatoid Arthritis

Songxiao Yang,Haolin Wang,Yao Fu,Ye Tian,Tamotsu Kamishima,Masayuki Ikebe,Yafei Ou,Masatoshi Okutomi

Main category: eess.IV

TL;DR: 该论文提出了一个用于手腕骨的多任务数据集,支持类风湿性关节炎(RA)的计算机辅助诊断研究,包括实例分割和骨侵蚀评分任务。

  • Motivation: 由于手腕骨结构复杂且RA病变导致标注困难,现有研究受限,因此需要高质量数据集推动相关研究。
  • Method: 构建包含621张手腕CR图像的数据集,提供像素级实例分割标注和SvdH骨侵蚀评分。
  • Result: 数据集包含443张图像的实例分割标注和548张图像的骨侵蚀评分,支持多种RA相关研究任务。
  • Conclusion: 该数据集有望降低RA研究门槛,加速计算机辅助诊断在RA领域的进展。

cs.HC

[316] More than One Step at a Time: Designing Procedural Feedback for Non-visual Makeup Routines

Franklin Mingzhe Li,Akihiko Oharazawa,Chloe Qingyu Zhu,Misty Fan,Daisuke Sato,Chieko Asakawa,Patrick Carrington

Main category: cs.HC

TL;DR: 论文探讨了辅助技术如何帮助视障人士完成化妆流程,包括步骤协调、产品管理和实时反馈需求。

  • Motivation: 化妆对自我表达和自信至关重要,但现有工具未能满足视障人士在化妆流程中的复杂需求。
  • Method: 通过15名视障化妆用户的实地调查和5名专业化妆师的访谈,分析化妆行为和反馈需求。
  • Result: 研究发现视障用户依赖触觉策略,面临对称性和评估挑战,并需要实时、目标对齐的反馈。
  • Conclusion: 论文提出了非视觉化妆反馈需求的分类,并设计了未来辅助系统的方向,强调无手操作和情境感知支持。

eess.SP

[317] Differentiable High-Performance Ray Tracing-Based Simulation of Radio Propagation with Point Clouds

Niklas Vaara,Pekka Sangi,Miguel Bordallo López,Janne Heikkilä

Main category: eess.SP

TL;DR: 提出了一种基于点云的可微分射线追踪无线电传播模拟器,高效模拟多反射路径,并利用语义标签学习环境电磁特性。

  • Motivation: 射线追踪是无线电传播模拟的常用方法,但其精度依赖于环境模型和电磁特性。计算机视觉和机器学习的进步使得重建详细环境模型成为可能。
  • Method: 开发了一种可微分射线追踪模拟器,直接在点云上操作,模拟多反射路径(最多五次交互),并在两个室内场景中验证效率(每次模拟少于90毫秒)。
  • Result: 展示了模拟器的高效性,并证明了电磁计算的可微分性与语义标签结合可学习环境电磁特性。
  • Conclusion: 该方法为无线电传播模拟提供了高效且可学习的解决方案,结合了射线追踪和机器学习的优势。

cs.RO

[318] AutoLayout: Closed-Loop Layout Synthesis via Slow-Fast Collaborative Reasoning

Weixing Chen,Dafeng Chi,Yang Liu,Yuxi Yang,Yexin Zhang,Yuzheng Zhuang,Xingyue Quan,Jianye Hao,Guanbin Li,Liang Lin

Main category: cs.RO

TL;DR: AutoLayout提出了一种双系统框架,通过慢速系统(RRG管道)和快速系统协同工作,结合LLM自适应关系库,有效减少空间幻觉,提升布局生成的物理合理性和语义一致性。

  • Motivation: 现有布局生成方法存在空间幻觉问题,难以平衡语义保真度和物理合理性,导致布局中出现物体漂浮、重叠或堆叠关系错位等问题。
  • Method: AutoLayout采用双系统框架:慢速系统通过RRG管道提取对象属性和空间约束,快速系统生成离散坐标和拓扑关系集,并通过LLM自适应关系库验证。
  • Result: 在8种场景中,AutoLayout在物理合理性、语义一致性和功能完整性上比SOTA方法提升了10.1%。
  • Conclusion: AutoLayout通过慢速-快速协同推理和自验证机制,显著改善了布局生成的质量,为自动化布局提供了高效解决方案。

[319] Interaction-Merged Motion Planning: Effectively Leveraging Diverse Motion Datasets for Robust Planning

Giwon Lee,Wooseong Jeong,Daehee Park,Jaewoo Jeong,Kuk-Jin Yoon

Main category: cs.RO

TL;DR: 提出了一种名为IMMP的新方法,通过合并参数检查点来解决运动规划中的领域适应问题,优于传统方法。

  • Motivation: 由于不同领域间代理交互和环境特征的差异,传统方法在利用多源数据集时存在领域不平衡、灾难性遗忘和高计算成本的问题。
  • Method: IMMP采用两步流程:预合并以捕捉代理行为和交互,充分提取源领域信息;合并以构建适应目标领域的模型。
  • Result: 在多个规划基准和模型上评估,IMMP表现优于传统方法。
  • Conclusion: IMMP有效解决了领域适应问题,提升了运动规划的性能。

[320] Piggyback Camera: Easy-to-Deploy Visual Surveillance by Mobile Sensing on Commercial Robot Vacuums

Ryo Yonetani

Main category: cs.RO

TL;DR: Piggyback Camera系统利用商用扫地机器人进行视觉监控,通过智能手机和IMU实现无需硬件修改的部署,结合神经惯性导航和RAE方法提升定位精度,最终在零售环境中验证了其有效性。

  • Motivation: 开发一种无需修改硬件、易于部署的视觉监控系统,利用商用扫地机器人实现环境监测和物体定位。
  • Method: 在机器人上安装带摄像头的智能手机和IMU,通过神经惯性导航估计机器人位姿,采用RAE方法减少领域差距,并利用机器人清洁模式优化位姿估计。
  • Result: 在零售环境中,系统实现了0.83米的机器人定位误差和0.97米的物体定位误差(超过100个物品)。
  • Conclusion: Piggyback Camera系统提供了一种高效、低成本的视觉监控解决方案,适用于商用扫地机器人。

[321] EmbodieDreamer: Advancing Real2Sim2Real Transfer for Policy Training via Embodied World Modeling

Boyuan Wang,Xinpan Meng,Xiaofeng Wang,Zheng Zhu,Angen Ye,Yang Wang,Zhiqin Yang,Chaojun Ni,Guan Huang,Xingang Wang

Main category: cs.RO

TL;DR: EmbodieDreamer框架通过PhysAligner和VisAligner分别减少物理和视觉上的Real2Sim2Real差距,显著提升了机器人策略的训练效果。

  • Motivation: 由于真实世界数据收集成本高且效率低,仿真环境成为训练机器人策略的重要替代方案,但Real2Sim2Real差距(尤其是物理动态和视觉外观)仍是关键瓶颈。
  • Method: 提出PhysAligner(可微分物理模块)优化机器人参数以减少物理差距,以及VisAligner(条件视频扩散模型)提升仿真渲染的视觉真实感。
  • Result: PhysAligner将物理参数估计误差降低3.74%,优化速度提升89.91%;VisAligner生成的逼真环境使任务成功率提升29.17%。
  • Conclusion: EmbodieDreamer有效缩小了Real2Sim2Real差距,为机器人策略训练提供了高质量仿真环境。

[322] NavigScene: Bridging Local Perception and Global Navigation for Beyond-Visual-Range Autonomous Driving

Qucheng Peng,Chen Bai,Guoxiang Zhang,Bo Xu,Xiaotong Liu,Xiaoyin Zheng,Chen Chen,Cheng Lu

Main category: cs.RO

TL;DR: 论文提出NavigScene数据集和三种导航引导范式,显著提升自动驾驶系统的感知、预测、规划和问答能力。

  • Motivation: 解决自动驾驶系统在全局导航信息整合上的不足,模拟人类驾驶环境以增强系统能力。
  • Method: 1. 导航引导推理;2. 导航引导偏好优化;3. 导航引导视觉-语言-动作模型。
  • Result: 实验表明方法显著提升任务性能,增强系统在复杂环境中的适应性和安全性。
  • Conclusion: 该研究为自动驾驶系统在复杂环境中的可靠性和安全性提供了重要进展。

[323] StreamVLN: Streaming Vision-and-Language Navigation via SlowFast Context Modeling

Meng Wei,Chenyang Wan,Xiqian Yu,Tai Wang,Yuqiang Yang,Xiaohan Mao,Chenming Zhu,Wenzhe Cai,Hanqing Wang,Yilun Chen,Xihui Liu,Jiangmiao Pang

Main category: cs.RO

TL;DR: StreamVLN是一个流式视觉与语言导航框架,通过慢-快上下文建模策略实现高效的多模态推理,平衡视觉理解、长期上下文建模和计算效率。

  • Motivation: 解决现有基于Video-LLM的VLN方法在细粒度视觉理解、长期上下文建模和计算效率之间的权衡问题。
  • Method: 采用混合慢-快上下文建模策略:快速流式对话上下文通过滑动窗口生成响应动作,慢速更新内存上下文通过3D感知令牌剪枝压缩历史视觉状态。
  • Result: 在VLN-CE基准测试中表现优异,实现低延迟和高效率。
  • Conclusion: StreamVLN在实时部署中表现出鲁棒性和高效性,支持长视频流和连贯的多轮对话。

physics.med-ph

[324] Emerging Frameworks for Objective Task-based Evaluation of Quantitative Medical Imaging Methods

Yan Liu,Huitian Xia,Nancy A. Obuchowski,Richard Laforest,Arman Rahmim,Barry A. Siegel,Abhinav K. Jha

Main category: physics.med-ph

TL;DR: 本文概述了四种用于评估定量成像(QI)方法的框架,包括虚拟成像试验(VITs)、无金标准评估框架、联合检测与量化任务评估框架以及多维参数输出评估框架,并讨论了它们的优缺点及未来研究方向。

  • Motivation: 定量成像(QI)在临床应用中显示出巨大潜力,但需要客观评估以推动其临床转化。本文旨在填补这一需求,提供多种评估策略。
  • Method: 基于文献回顾,提出了四种评估框架:VITs、无金标准评估、联合检测与量化任务评估、多维参数输出评估,并以PET技术为例进行讨论。
  • Result: 这些框架为QI方法的评估提供了多样化工具,各有其适用场景和局限性。
  • Conclusion: 本文为QI方法的评估提供了系统化的框架,并指出了未来研究方向,特别是在PET技术中的应用前景。

cs.IT

[325] LVM4CSI: Enabling Direct Application of Pre-Trained Large Vision Models for Wireless Channel Tasks

Jiajia Guo,Peiwen Jiang,Chao-Kai Wen,Shi Jin,Jun Zhang

Main category: cs.IT

TL;DR: LVM4CSI利用计算机视觉预训练大模型处理无线通信中的CSI任务,无需微调,性能优于任务专用神经网络。

  • Motivation: 解决现有AI方法依赖任务专用神经网络和大量训练数据的问题,提高通用性和实用性。
  • Method: 将CSI任务映射为计算机视觉任务,转换CSI为视觉格式,集成轻量可训练层适配通信目标。
  • Result: 在信道估计、活动识别和用户定位任务中性能优于专用网络,参数更少。
  • Conclusion: LVM4CSI为无线通信提供了一种高效通用的解决方案,减少了对任务专用设计的依赖。

quant-ph

[326] QMoE: A Quantum Mixture of Experts Framework for Scalable Quantum Neural Networks

Hoang-Quan Nguyen,Xuan-Bac Nguyen,Sankalp Pandey,Samee U. Khan,Ilya Safro,Khoa Luu

Main category: quant-ph

TL;DR: 提出了一种名为QMoE的新型量子架构,将混合专家(MoE)范式引入量子机器学习(QML),在量子分类任务中表现优于标准量子神经网络。

  • Motivation: 量子机器学习在NISQ时代具有潜力,但面临可扩展性和表达能力受限的问题。QMoE旨在解决这些问题。
  • Method: QMoE结合多个参数化量子电路作为专家模型,并采用可学习的量子路由机制选择和聚合专家。
  • Result: 实验表明,QMoE在量子分类任务中优于标准量子神经网络。
  • Conclusion: QMoE为可扩展和可解释的量子学习框架奠定了基础。

cs.NE

[327] Online Continual Learning via Spiking Neural Networks with Sleep Enhanced Latent Replay

Erliang Lin,Wenbin Luo,Wei Jia,Yu Chen,Shaofu Yang

Main category: cs.NE

TL;DR: SESLR是一种新型在线持续学习方法,结合睡眠增强潜在重放和脉冲神经网络,显著降低内存开销并减少对新任务的分类偏差。

  • Motivation: 解决现有在线持续学习方法内存开销高和对新任务分类偏差的问题。
  • Method: 采用睡眠增强潜在重放方案和脉冲神经网络(SNNs),利用SNNs的二进制脉冲特性存储重放特征,并通过噪声增强睡眠阶段减少偏差。
  • Result: 在多个数据集上表现优异,Split CIFAR10上平均准确率提升近30%,内存消耗仅为基线方法的三分之一;Split CIFAR10-DVS上准确率提升约10%,内存开销减少32倍。
  • Conclusion: SESLR是资源受限边缘计算场景中在线持续学习的有前景解决方案。

physics.soc-ph

[328] Street design and driving behavior: evidence from a large-scale study in Milan, Amsterdam, and Dubai

Giacomo Orsi,Titus Venverloo,Andrea La Grotteria,Umberto Fugiglando,Fábio Duarte,Paolo Santi,Carlo Ratti

Main category: physics.soc-ph

TL;DR: 研究探讨了米兰30公里/小时限速的驾驶员遵守情况,发现仅降低限速不足以有效减少车速,需结合街道设计。通过计算机视觉分析,发现窄街和高密度建筑环境有助于降低车速,而视野开阔的道路则相反。研究还验证了方法在阿姆斯特丹和迪拜的适用性,并开发了机器学习模型预测车速。

  • Motivation: 城市降低限速以提升道路安全、减少噪音污染和促进可持续交通,但驾驶员遵守限速仍是挑战。研究旨在理解街道特征如何影响驾驶行为。
  • Method: 使用计算机视觉语义分割模型分析Google街景图像,研究街道特征与车速的关系,并在米兰、阿姆斯特丹和迪拜验证。开发机器学习模型预测车速。
  • Result: 窄街和高密度建筑环境降低车速,开阔视野道路增加车速。方法在多城市验证有效。机器学习模型能预测限速遵守情况。
  • Conclusion: 街道设计对限速遵守至关重要,研究提供工具支持城市规划者设计干预措施。

上次更新于: