Skip to content
每日arXiv - 2025年5月20日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] Improving Open-Set Semantic Segmentation in 3D Point Clouds by Conditional Channel Capacity Maximization: Preliminary Results

Wang Fang,Shirin Rahimi,Olivia Bennett,Sophie Carter,Mitra Hassani,Xu Lan,Omid Javadi,Lucas Mitchell

Main category: cs.CV

TL;DR: 本文提出了一种用于开放集语义分割(O3S)的即插即用框架,通过条件马尔可夫链建模分割流程,并引入新的正则化项3CM,以增强模型对未知类别的识别能力。

  • Motivation: 现有深度模型在封闭集上表现优异,但难以识别或分割训练集外的类别,因此需要开发开放集语义分割方法。
  • Method: 提出条件通道容量最大化(3CM)正则化项,通过最大化特征与预测之间的条件互信息,保留更丰富的标签相关特征。
  • Result: 实验证明该方法能有效检测未知对象。
  • Conclusion: 该方法为开放集语义分割提供了有效解决方案,并展望了动态开放世界适应和信息论估计的未来方向。

[2] Questioning Representational Optimism in Deep Learning: The Fractured Entangled Representation Hypothesis

Akarsh Kumar,Jeff Clune,Joel Lehman,Kenneth O. Stanley

Main category: cs.CV

TL;DR: 论文探讨了AI系统性能提升是否意味着内部表征的优化,通过比较SGD训练和进化搜索的神经网络,发现两者输出相同但内部表征差异显著。

  • Motivation: 挑战性能提升必然优化内部表征的观点,揭示不同训练方法对表征的影响。
  • Method: 比较SGD训练和进化搜索的神经网络在生成单张图像任务中的表现,可视化神经元行为。
  • Result: SGD网络出现Fractured Entangled Representation (FER),进化网络接近Unified Factored Representation (UFR)。
  • Conclusion: FER可能损害模型能力,理解并减少FER对表征学习至关重要。

[3] Improved Bag-of-Words Image Retrieval with Geometric Constraints for Ground Texture Localization

Aaron Wilhelm,Nils Napp

Main category: cs.CV

TL;DR: 提出了一种改进的BoW图像检索系统,用于地面纹理定位,显著提高了全局定位精度和SLAM中的闭环检测性能。

  • Motivation: 地面纹理定位是一种低成本、高精度的解决方案,适用于动态环境且无需环境修改。现有BoW系统需要改进以满足不同需求。
  • Method: 采用近似k均值(AKM)词汇表和软分配,利用地面纹理定位的固定方向和尺度约束,提出高精度和高速算法版本。
  • Result: 通过消融研究验证改进效果,证明方法在全局定位和闭环检测中的有效性。
  • Conclusion: 该方法可直接替换现有BoW系统,显著提升性能。

[4] BandRC: Band Shifted Raised Cosine Activated Implicit Neural Representations

Pandula Thennakoon,Avishka Ranasinghe,Mario De Silva,Buwaneka Epakanda,Roshan Godaliyadda,Parakrama Ekanayake,Vijitha Herath

Main category: cs.CV

TL;DR: 论文提出了一种新的激活函数BandRC,用于提升隐式神经表示(INRs)的信号表示能力,解决了现有激活函数在频谱偏差、噪声鲁棒性和特征捕获等方面的挑战。

  • Motivation: 现有激活函数在INRs中存在频谱偏差、噪声鲁棒性差、难以同时捕获局部和全局特征等问题,且需要手动调参。
  • Method: 提出BandRC激活函数,并结合任务特定模型从信号中提取深度先验知识进行调整。
  • Result: 在图像重建(PSNR提升8.93 dB)、去噪(PSNR提升0.46 dB)、超分辨率(6X超分辨率PSNR提升1.03 dB)等任务中表现优于现有SOTA方法。
  • Conclusion: BandRC在多种计算机视觉任务中显著优于现有激活函数,解决了INRs中的关键挑战。

[5] DPSeg: Dual-Prompt Cost Volume Learning for Open-Vocabulary Semantic Segmentation

Ziyu Zhao,Xiaoguang Li,Linjia Shi,Nasrin Imanpour,Song Wang

Main category: cs.CV

TL;DR: 论文提出了一种双提示框架DPSeg,用于开放词汇语义分割,通过结合双提示成本体积生成、成本体积引导的解码器和语义引导的提示细化策略,解决了图像与文本嵌入之间的领域差距问题,并提升了分割精度。

  • Motivation: 当前方法依赖预训练的视觉语言模型(如CLIP)的文本嵌入,但存在图像与文本嵌入的领域差距问题,且缺乏浅层特征引导,影响了小物体和细节的分割精度。
  • Method: 提出DPSeg框架,结合双提示成本体积生成、成本体积引导的解码器和语义引导的提示细化策略,利用视觉提示编码器减少领域差距并提供多级特征引导。
  • Result: 实验表明,该方法在多个公共数据集上显著优于现有最先进方法。
  • Conclusion: DPSeg通过双提示框架有效解决了开放词汇语义分割中的领域差距和特征引导问题,提升了分割性能。

[6] LoFT: LoRA-fused Training Dataset Generation with Few-shot Guidance

Jae Myung Kim,Stephan Alaniz,Cordelia Schmid,Zeynep Akata

Main category: cs.CV

TL;DR: LoFT是一种新的数据集生成框架,通过微调LoRA权重并结合少量真实图像,生成具有高保真和多样性的合成数据,显著提升监督学习性能。

  • Motivation: 现有合成数据方法难以准确捕捉真实数据的分布,导致性能提升有限。
  • Method: LoFT通过微调LoRA权重并结合少量真实图像,生成合成数据。
  • Result: 在10个数据集上的实验表明,LoFT生成的合成数据性能优于其他方法,且随着数据量增加,准确性显著提高。
  • Conclusion: LoFT能生成高保真和多样性的合成数据,有效提升下游模型训练效果。

[7] Attend to Not Attended: Structure-then-Detail Token Merging for Post-training DiT Acceleration

Haipeng Fang,Sheng Tang,Juan Cao,Enshuo Zhang,Fan Tang,Tong-Yee Lee

Main category: cs.CV

TL;DR: 提出了一种基于扩散模型先验的动态令牌合并方法SDTM,显著加速视觉生成任务,同时保持图像质量。

  • Motivation: 现有令牌缩减技术忽略扩散模型的去噪先验,导致加速效果不佳且图像质量下降。
  • Method: 分析特征冗余的位置和程度,提出动态令牌合并方法SDTM,包括动态视觉令牌合并、压缩比调整和提示重加权。
  • Result: 实验表明,SDTM在多种架构、调度器和数据集上表现优异,例如实现1.55倍加速且图像质量影响可忽略。
  • Conclusion: SDTM是一种高效且通用的方法,可无缝集成到任何DiT架构中,显著提升计算效率。

[8] EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video

Ryan Hoque,Peide Huang,David J. Yoon,Mouli Sivapurapu,Jian Zhang

Main category: cs.CV

TL;DR: 论文提出了EgoDex数据集,用于解决模仿学习中数据稀缺的问题,包含829小时的自我中心视角视频和3D手部追踪数据。

  • Motivation: 模仿学习在操作任务中存在数据稀缺问题,现有数据集缺乏手部姿态标注和操作任务多样性。
  • Method: 使用Apple Vision Pro收集EgoDex数据集,包含多样化的日常操作任务和精确的手部追踪数据。
  • Result: EgoDex是目前最大、最多样化的手部操作数据集,并用于训练模仿学习策略。
  • Conclusion: 通过发布EgoDex数据集,推动机器人、计算机视觉和基础模型的发展。

[9] UGoDIT: Unsupervised Group Deep Image Prior Via Transferable Weights

Shijun Liang,Ismail R. Alkhouri,Siddhant Gautam,Qing Qu,Saiprasad Ravishankar

Main category: cs.CV

TL;DR: UGoDIT是一种无监督的Group DIP方法,通过可转移权重在低数据量情况下实现图像重建,无需大量干净训练数据。

  • Motivation: 现有数据驱动的深度生成模型(如扩散模型)需要大量干净训练数据,而训练数据无关方法(如DIP)存在噪声过拟合和计算成本高的问题。UGoDIT旨在解决这些问题。
  • Method: UGoDIT通过优化共享编码器和M个解耦解码器学习可转移权重,测试时固定部分参数并优化其余参数以实现测量一致性。
  • Result: UGoDIT在医学和自然图像恢复任务中表现优异,加速收敛并显著提升重建质量,性能接近SOTA方法。
  • Conclusion: UGoDIT在低数据量情况下提供高效图像重建,无需依赖大量干净数据,具有实际应用潜力。

[10] Semantically-Aware Game Image Quality Assessment

Kai Zhu,Vignesh Edithal,Le Zhang,Ilia Blank,Imran Junejo

Main category: cs.CV

TL;DR: 提出了一种针对游戏图形的无参考质量评估模型,结合语义门控和知识蒸馏技术,有效解决了游戏特有失真问题。

  • Motivation: 游戏图形的视觉质量评估因缺乏参考图像和独特失真类型而具有挑战性,现有方法无法适应游戏环境。
  • Method: 使用知识蒸馏的游戏失真特征提取器(GDFE)检测游戏特有失真,并引入CLIP嵌入的语义门控动态加权特征重要性。
  • Result: 模型在训练数据外表现出色,优于跨领域方法,并在同类型游戏中展现稳定的质量趋势。
  • Conclusion: 该研究为游戏图形质量自动评估奠定了基础,推动了无参考质量评估方法在游戏领域的应用。

[11] X-Edit: Detecting and Localizing Edits in Images Altered by Text-Guided Diffusion Models

Valentina Bazyleva,Nicolo Bonettini,Gaurav Bharaj

Main category: cs.CV

TL;DR: X-Edit是一种新方法,用于定位基于扩散模型的图像编辑区域,通过反转图像特征并结合分割网络,显著提升了编辑区域的检测准确性。

  • Motivation: 随着文本引导扩散模型在图像编辑中的广泛应用,其潜在的恶意使用(如深度伪造)带来了检测挑战,因此需要一种有效的方法来定位这些编辑。
  • Method: X-Edit通过预训练扩散模型反转图像特征,输入到结合通道和空间注意力的分割网络,并通过分割损失和相关性损失优化模型。
  • Result: 实验表明,X-Edit在PSNR和SSIM指标上优于基线方法,能够准确检测扩散模型编辑的区域。
  • Conclusion: X-Edit作为一种强大的取证工具,能够有效检测和定位高级图像编辑技术引入的篡改。

[12] Generalizable Vision-Language Few-Shot Adaptation with Predictive Prompts and Negative Learning

Sriram Mandalika

Main category: cs.CV

TL;DR: PromptFuseNL是一个统一框架,通过结合预测提示调优和双分支正负学习,提升少样本泛化能力,并在噪声支持样本下表现优异。

  • Motivation: 解决少样本适应问题,尤其是在有限监督和噪声支持样本下的挑战。
  • Method: 结合预测提示调优与双分支正负学习,通过任务条件残差、多阶段跨模态协调和语义硬负样本挖掘优化类原型,并引入无监督实例重加权策略处理标签噪声。
  • Result: 在15个基准测试中均优于现有方法,训练速度提升300倍,FLOPs降低1000倍,达到新的SOTA。
  • Conclusion: PromptFuseNL为少样本视觉语言适应提供了高效且鲁棒的解决方案。

[13] Technical Report for ICRA 2025 GOOSE 2D Semantic Segmentation Challenge: Boosting Off-Road Segmentation via Photometric Distortion and Exponential Moving Average

Wonjune Kim,Lae-kyoung Lee,Su-Yong An

Main category: cs.CV

TL;DR: 论文提出了一种基于FlashInternImage-B和UPerNet的高容量语义分割方法,用于非结构化越野场景的语义分割挑战。

  • Motivation: 针对越野场景的特殊条件,通过改进现有技术而非设计新方法,提升语义分割的准确性。
  • Method: 采用FlashInternImage-B作为主干网络,UPerNet作为解码器,结合强光增强和EMA权重平均技术。
  • Result: 在GOOSE验证集上达到88.8%的mIoU。
  • Conclusion: 该方法在越野场景中表现出色,证明了现有技术的适应性。

[14] Self-NPO: Negative Preference Optimization of Diffusion Models by Simply Learning from Itself without Explicit Preference Annotations

Fu-Yun Wang,Keqiang Sun,Yao Teng,Xihui Liu,Jiaming Song,Hongsheng Li

Main category: cs.CV

TL;DR: Self-NPO是一种无需人工标注或奖励模型训练的负偏好优化方法,通过从模型自身学习,提升生成质量和人类偏好对齐。

  • Motivation: 现有负偏好优化方法依赖显式偏好标注,成本高且不实用,尤其在数据稀缺领域。Self-NPO旨在解决这一问题。
  • Method: Self-NPO通过模型自身学习负偏好,无需人工标注或奖励模型训练,高效且无需大量数据采样。
  • Result: Self-NPO在多种扩散模型(如SD1.5、SDXL、CogVideoX)中表现优异,提升生成质量和人类偏好对齐。
  • Conclusion: Self-NPO为负偏好优化提供了一种高效、实用的解决方案,适用于数据稀缺场景。

[15] CL-CaGAN: Capsule differential adversarial continuous learning for cross-domain hyperspectral anomaly detection

Jianing Wang,Siying Guo,Zheng Hua,Runhu Huang,Jinyu Hu,Maoguo Gong

Main category: cs.CV

TL;DR: 提出了一种基于持续学习的胶囊差分生成对抗网络(CL-CaGAN),用于提升高光谱异常检测的跨场景学习性能,解决了先验信息不足和灾难性遗忘问题。

  • Motivation: 现有深度学习方法在开放跨域场景中因先验信息不足和灾难性遗忘问题表现不佳,需要改进。
  • Method: 结合改进的胶囊结构、对抗学习网络、聚类样本回放策略和自蒸馏正则化,增强生成能力和持续学习性能。
  • Result: 实验表明CL-CaGAN在跨域场景中具有更高的检测性能和持续学习能力。
  • Conclusion: CL-CaGAN有效解决了高光谱异常检测中的跨域挑战,提升了实际应用潜力。

[16] CL-BioGAN: Biologically-Inspired Cross-Domain Continual Learning for Hyperspectral Anomaly Detection

Jianing Wang,Zheng Hua,Wan Zhang,Shengjia Hao,Yuqiong Yao,Maoguo Gong

Main category: cs.CV

TL;DR: 论文提出了一种受生物启发的持续学习生成对抗网络(CL-BioGAN),用于跨场景高光谱异常检测(HAD)任务,通过主动遗忘历史知识和引入回放策略,提升模型的稳定性和灵活性。

  • Motivation: 生物神经网络能够通过调节学习触发的突触扩展和收敛来主动遗忘与学习新经验冲突的历史知识,这启发了研究团队设计一种新的持续学习方法。
  • Method: 提出了CL-BioGAN,结合了持续学习生物启发损失(CL-Bio Loss)和自注意力生成对抗网络(BioGAN),通过主动遗忘损失(AF Loss)和CL损失实现参数释放与增强,并利用L2范数增强自注意力机制。
  • Result: 实验结果表明,CL-BioGAN在跨域HAD任务中能以更少的参数和计算成本实现更鲁棒和满意的准确率。
  • Conclusion: 该方法不仅提升了持续学习性能,还为开放场景HAD任务中的神经适应机制提供了新见解。

[17] Self-Learning Hyperspectral and Multispectral Image Fusion via Adaptive Residual Guided Subspace Diffusion Model

Jian Zhu,He Wang,Yang Xu,Zebin Wu,Zhihui Wei

Main category: cs.CV

TL;DR: 提出了一种自学习的自适应残差引导子空间扩散模型(ARGS-Diff),用于高光谱和多光谱图像融合,无需额外训练数据。

  • Motivation: 现有深度学习方法依赖大量高光谱数据训练,但实际应用中数据稀缺。
  • Method: 设计轻量级光谱和空间扩散模型,分别学习光谱和空间分布,并通过自适应残差引导模块优化重建过程。
  • Result: 实验表明ARGS-Diff在性能和计算效率上优于现有方法。
  • Conclusion: ARGS-Diff为HSI-MSI融合提供了一种高效且无需额外数据的方法。

[18] Are vision language models robust to uncertain inputs?

Xi Wang,Eric Nalisnick

Main category: cs.CV

TL;DR: 研究发现,尽管大规模视觉语言模型(VLMs)在不确定性和模糊输入方面表现优于早期模型,但仍存在过度自信的问题。通过简单提示模型避免不确定预测,可以显著提升可靠性,但在特定领域任务中仍存在局限性。

  • Motivation: 探讨大规模视觉语言模型在面对不确定和模糊输入时的鲁棒性,并分析其局限性。
  • Method: 使用异常检测和模糊分类任务评估模型,提出基于标题多样性的新机制来揭示模型内部不确定性。
  • Result: 新模型表现更好,但仍易过度自信;简单提示可提升可靠性,但特定领域任务仍受限。
  • Conclusion: 提出新机制帮助预测模型行为,但需进一步解决领域知识不足的问题。

[19] Image-based Visibility Analysis Replacing Line-of-Sight Simulation: An Urban Landmark Perspective

Zicheng Fan,Kunihiko Fujiwara,Pengyuan Liu,Fan Zhang,Filip Biljecki

Main category: cs.CV

TL;DR: 提出了一种基于图像的新方法,利用视觉语言模型(VLM)分析城市地标的可见性,补充了传统的视线(LoS)方法,并在案例研究中验证了其有效性。

  • Motivation: 传统基于几何交点的视线分析方法无法捕捉城市地标在真实世界中的上下文和感知维度,因此需要一种更全面的方法。
  • Method: 应用VLM在街景图像中检测目标地标,构建异质可见性图以分析观察者与目标对象的复杂互动。
  • Result: 在案例研究中,方法对全球六个地标的可见性检测准确率达87%,并揭示了伦敦泰晤士河沿岸地标的连接形式和强度。
  • Conclusion: 该方法增强了传统LoS分析,为城市规划、遗产保护等提供了新视角。

[20] SGD-Mix: Enhancing Domain-Specific Image Classification with Label-Preserving Data Augmentation

Yixuan Dong,Fang-Yi Su,Jung-Hsien Chiang

Main category: cs.CV

TL;DR: 提出了一种新的数据增强框架,通过显式整合多样性、忠实性和标签清晰性,解决了现有方法在生成数据时的不足。

  • Motivation: 现有基于扩散模型的数据增强方法未能同时解决多样性、忠实性和标签清晰性,且忽视了扩散模型的固有挑战。
  • Method: 采用显著性引导的混合和微调扩散模型,保留前景语义、丰富背景多样性并确保标签一致性。
  • Result: 在细粒度、长尾、少样本和背景鲁棒性任务中表现优于现有方法。
  • Conclusion: 该框架有效解决了数据增强中的关键问题,提升了性能。

[21] UniMoCo: Unified Modality Completion for Robust Multi-Modal Embeddings

Jiajun Qin,Yuan Pu,Zhuolun He,Seunggeun Kim,David Z. Pan,Bei Yu

Main category: cs.CV

TL;DR: UniMoCo提出了一种新的视觉语言模型架构,通过模态补全模块和专门训练策略,解决了多模态嵌入任务中模态组合多样性的挑战,显著提升了性能。

  • Motivation: 现实场景中多模态组合的多样性导致现有模型难以在统一嵌入空间中对齐所有模态组合,影响推理性能。
  • Method: 引入模态补全模块生成视觉特征,开发专门训练策略对齐原始和补全模态的嵌入。
  • Result: UniMoCo在实验中表现优于现有方法,并展示了跨多样设置的鲁棒性。
  • Conclusion: UniMoCo通过模态补全范式解决了传统方法因训练数据模态不平衡导致的偏差问题。

[22] Continuous Subspace Optimization for Continual Learning

Quan Cheng,Yuanyu Wan,Lingyu Wu,Chenping Hou,Lijun Zhang

Main category: cs.CV

TL;DR: CoSO提出了一种连续子空间优化方法,通过动态确定子空间并正交化历史任务子空间,解决了持续学习中灾难性遗忘的问题,显著优于现有方法。

  • Motivation: 持续学习中灾难性遗忘问题限制了模型在新任务上的表现,现有低秩适应方法因固定子空间限制了学习能力。
  • Method: CoSO通过梯度奇异值分解动态确定子空间,正交化历史任务子空间,并维护任务特定组件以捕获关键更新方向。
  • Result: 在多个数据集上,CoSO显著优于现有方法,尤其在长任务序列场景中表现突出。
  • Conclusion: CoSO通过动态子空间优化和正交化策略,有效解决了灾难性遗忘问题,提升了持续学习性能。

[23] Robust Cross-View Geo-Localization via Content-Viewpoint Disentanglement

Ke Li,Di Wang,Xiaowei Wang,Zhihong Wu,Yiming Zhang,Yifeng Wang,Quan Wang

Main category: cs.CV

TL;DR: 论文提出了一种新的跨视角地理定位框架CVD,通过显式解耦内容和视角因素,解决了现有方法因视角差异导致的特征不一致问题。

  • Motivation: 跨视角地理定位(CVGL)因视角变化导致的外观和空间扭曲问题极具挑战性,现有方法假设特征可直接对齐,但忽视了视角差异的固有冲突。
  • Method: CVD框架从流形学习角度建模特征空间,引入内容与视角的解耦,并通过最小化互信息和跨视角重建约束实现有效解耦。
  • Result: 在四个基准数据集上的实验表明,CVD显著提升了定位精度和泛化能力。
  • Conclusion: CVD作为一种即插即用模块,可无缝集成到现有地理定位流程中,有效解决了视角差异带来的挑战。

[24] Bootstrapping Diffusion: Diffusion Model Training Leveraging Partial and Corrupted Data

Xudong Ma

Main category: cs.CV

TL;DR: 论文提出了一种利用部分数据训练扩散模型的方法,通过分别训练每个数据视图的扩散模型和残差评分函数,实现了更高的数据效率。

  • Motivation: 获取大规模高质量数据困难,而部分数据(如低分辨率图像或带水印视频)通常被视为损坏或残缺。研究探讨了这些部分数据是否可用于训练扩散模型。
  • Method: 提出一种方法,分别训练每个数据视图的扩散模型,再训练残差评分函数预测模型。理论分析表明,适当正则化可降低泛化误差。
  • Result: 证明了残差评分函数训练的难度与部分数据未捕获的信号相关性成正比,方法实现了接近一阶最优的数据效率。
  • Conclusion: 利用部分数据训练扩散模型是可行的,且通过残差评分函数和正则化可显著提升数据效率。

[25] CoT-Vid: Dynamic Chain-of-Thought Routing with Self Verification for Training-Free Video Reasoning

Hongbo Jin,Ruyang Liu,Wenhao Zhang,Guibo Luo,Ge Li

Main category: cs.CV

TL;DR: CoT-Vid是一种无需训练的视频推理新范式,通过多阶段复杂推理设计,显著提升性能,优于现有视频LLM。

  • Motivation: 当前复杂视频推理研究存在空白,CoT-Vid旨在填补这一空白,并探索显式推理机制的优势。
  • Method: 采用动态推理路径路由、问题解耦策略和视频自一致性验证三部分设计。
  • Result: 在多个基准测试中表现优异,Egochema提升9.3%,VideoEspresso提升5.6%,甚至超越GPT-4V等大模型。
  • Conclusion: CoT-Vid为视频推理领域提供了高效、无需训练的新方法,性能显著优于现有技术。

[26] RVTBench: A Benchmark for Visual Reasoning Tasks

Yiqing Shen,Chenjia Li,Chenxiao Fan,Mathias Unberath

Main category: cs.CV

TL;DR: 该论文提出了推理视觉任务(RVTs)的统一框架,扩展了传统的视频推理分割,支持多种输出格式。通过数字孪生(DT)技术构建了RVTBench基准,并提出了RVTagent框架,实现零样本泛化。

  • Motivation: 当前视觉推理任务缺乏相关基准,且现有基准依赖大语言模型(LLMs),难以捕捉复杂的时空关系和多步推理链。
  • Method: 提出自动化RVT基准构建流程,利用数字孪生(DT)作为感知与隐式文本查询之间的结构化中介,构建RVTBench基准。
  • Result: 构建了包含3,896个查询、120万标记的RVTBench基准,涵盖四种任务类型、三种推理类别和四个难度级别。
  • Conclusion: RVTagent框架无需任务特定微调即可实现跨任务零样本泛化,为视觉推理任务提供了新方向。

[27] Video-SafetyBench: A Benchmark for Safety Evaluation of Video LVLMs

Xuannan Liu,Zekun Li,Zheqi He,Peipei Li,Shuhan Xia,Xing Cui,Huaibo Huang,Xi Yang,Ran He

Main category: cs.CV

TL;DR: Video-SafetyBench是首个评估大型视觉语言模型(LVLMs)在视频文本攻击下安全性的基准测试,包含2,264个视频文本对,覆盖48种细粒度不安全类别。

  • Motivation: 现有安全评估主要关注静态图像输入,忽略了视频的动态特性可能引发的独特安全风险,因此需要填补这一空白。
  • Method: 设计了可控的视频生成管道,将视频语义分解为主题图像和运动文本,并提出了RJScore评估指标,结合法官模型置信度和人类对齐决策阈值校准。
  • Result: 实验表明,良性查询视频组合的平均攻击成功率为67.2%,揭示了视频诱导攻击的持续漏洞。
  • Conclusion: Video-SafetyBench将推动未来视频安全评估和防御策略的研究。

[28] ElderFallGuard: Real-Time IoT and Computer Vision-Based Fall Detection System for Elderly Safety

Tasrifur Riahi,Md. Azizul Hakim Bappy,Md. Mehedi Islam

Main category: cs.CV

TL;DR: ElderFallGuard是一种基于计算机视觉的物联网系统,用于实时检测老年人跌倒并通知护理人员,通过MediaPipe进行姿态估计,使用随机森林分类器,准确率高达100%。

  • Motivation: 老年人跌倒可能导致严重伤害和失去独立性,因此需要一种非侵入式的实时检测和通知系统。
  • Method: 利用MediaPipe进行人体姿态估计,构建包含7200个样本的自定义数据集,训练随机森林分类器,并通过特定逻辑(如特定姿势持续时间和运动下降)检测跌倒。
  • Result: 系统在测试中达到100%的准确率、精确率、召回率和F1分数。
  • Conclusion: ElderFallGuard是一种有效的解决方案,能提升老年人安全并为护理人员提供及时警报。

[29] MedSG-Bench: A Benchmark for Medical Image Sequences Grounding

Jingkun Yue,Siqi Zhang,Zinan Jia,Huihuan Xu,Zongbo Han,Xiaohong Liu,Guangyu Wang

Main category: cs.CV

TL;DR: 论文提出了MedSG-Bench,首个针对医学图像序列的视觉定位基准,包含8种VQA任务,涵盖76个公共数据集和9,630个问答对。同时构建了MedSG-188K数据集和MedSeq-Grounder模型,以推动医学序列图像的理解研究。

  • Motivation: 现有医学视觉定位基准主要关注单图像场景,而实际临床应用中常涉及序列图像,需要跨图像的细粒度语义对齐和上下文感知推理。
  • Method: 提出MedSG-Bench基准,包含两种任务范式:图像差异定位和图像一致性定位。构建MedSG-188K数据集和MedSeq-Grounder模型。
  • Result: 实验表明,即使是先进的MLLM在医学序列定位任务中表现仍有显著局限。
  • Conclusion: MedSG-Bench及相关资源为医学序列图像的细粒度理解研究提供了重要支持。

[30] MonoMobility: Zero-Shot 3D Mobility Analysis from Monocular Videos

Hongyi Zhou,Xiaogang Wang,Yulan Guo,Kai Xu

Main category: cs.CV

TL;DR: 提出了一种从单目视频中零样本分析3D运动部分的创新框架,无需标注数据,通过深度估计、光流分析和点云配准等方法精确解析运动部分及其属性。

  • Motivation: 现有方法依赖密集多视角图像或详细标注,限制了动态环境中运动分析的灵活性和实用性。
  • Method: 结合深度估计、光流分析和点云配准初步分析运动部分及属性,利用2D高斯泼溅表示场景,并通过端到端动态场景优化算法细化结果。
  • Result: 实验验证了方法在无标注情况下有效分析铰接物体运动的能力,展示了在具身智能应用中的潜力。
  • Conclusion: 该框架在零样本条件下实现了高灵活性和多功能性,为动态环境分析提供了新思路。

[31] PRS-Med: Position Reasoning Segmentation with Vision-Language Model in Medical Imaging

Quoc-Huy Trinh,Minh-Van Nguyen,Jung Peng,Ulas Bagci,Debesh Jha

Main category: cs.CV

TL;DR: PRS-Med是一个结合视觉语言模型和分割能力的框架,用于生成精确的分割掩码和空间推理输出,同时引入MMRS数据集解决医学影像中位置推理数据不足的问题。

  • Motivation: 现有方法在医生需要通过自然语言交互或进行位置推理时面临挑战,PRS-Med旨在解决这些问题。
  • Method: PRS-Med整合视觉语言模型与分割能力,生成分割掩码和空间推理输出,并引入MMRS数据集。
  • Result: PRS-Med在六种成像模态中表现优异,显著优于现有方法,同时支持自然语言交互。
  • Conclusion: PRS-Med和MMRS数据集为医学应用中的空间感知多模态推理提供了高效工具,促进进一步研究。

[32] Revisiting Residual Connections: Orthogonal Updates for Stable and Efficient Deep Networks

Giyeong Oh,Woohyun Cho,Siyeol Kim,Suhwan Choi,Younjae Yu

Main category: cs.CV

TL;DR: 提出正交残差更新方法,通过分解模块输出以仅添加与输入流正交的分量,提升特征学习和训练效率。

  • Motivation: 标准残差连接可能仅强化或调制现有流方向,未能充分利用模块学习新特征的能力。
  • Method: 引入正交残差更新,分解模块输出并仅添加正交分量。
  • Result: 在多种架构和数据集上提升泛化准确性和训练稳定性,如ViT-B在ImageNet-1k上提升4.3% top-1准确率。
  • Conclusion: 正交残差更新方法有效促进新特征学习,提升模型性能。

[33] GenZSL: Generative Zero-Shot Learning Via Inductive Variational Autoencoder

Shiming Chen,Dingjie Fu,Salman Khan,Fahad Shahbaz Khan

Main category: cs.CV

TL;DR: GenZSL是一种基于变分自编码器的生成式零样本学习方法,通过从相似类别中归纳新类样本,并结合多样性增强和信息提升策略,显著提升了生成性能。

  • Motivation: 现有生成式ZSL方法仅依赖专家标注的强类别语义向量生成视觉特征,导致生成性能不佳且泛化能力有限。
  • Method: GenZSL利用弱类别语义向量(如CLIP文本嵌入)从相似类别中归纳新类样本,并结合类多样性提升和目标类引导信息优化策略。
  • Result: 在三个基准数据集上,GenZSL表现优于f-VAEGAN,性能提升24.7%,训练速度提升60倍以上。
  • Conclusion: GenZSL通过模仿人类概念学习方式,显著提升了生成式ZSL的效能和效率。

[34] Facial Recognition Leveraging Generative Adversarial Networks

Zhongwen Li,Zongwei Li,Xiaoqi Li

Main category: cs.CV

TL;DR: 本文提出了一种基于GAN的数据增强方法,通过改进生成器和判别器设计,显著提升了小样本下的人脸识别性能。

  • Motivation: 深度学习人脸识别依赖大规模训练数据,但实际应用中数据获取困难,因此需要一种有效的数据增强方法。
  • Method: 提出了一种残差嵌入生成器、基于Inception ResNet-V1的判别器,以及端到端联合优化框架。
  • Result: 在LFW基准测试中,识别准确率提升了12.7%,且在小样本下表现良好。
  • Conclusion: 该方法有效解决了小样本数据下的训练问题,提升了人脸识别性能。

[35] Adversarial Robustness for Unified Multi-Modal Encoders via Efficient Calibration

Chih-Ting Liao,Bin Ren,Guofeng Mei,Xu Zheng

Main category: cs.CV

TL;DR: 本文首次全面研究了统一多模态编码器在对抗扰动下的脆弱性,并提出了一种高效的对抗校准框架以提升鲁棒性。

  • Motivation: 尽管统一多模态编码器在多模态任务中表现出色,但其在对抗扰动下的鲁棒性尚未充分研究,这对安全敏感应用至关重要。
  • Method: 提出了一种对抗校准框架,通过模态特定的投影头(仅用对抗样本训练)提升鲁棒性,同时保持预训练编码器和语义中心不变。探索了三种训练目标,并引入正则化策略。
  • Result: 在六种模态和三种Bind风格模型上的实验表明,该方法在epsilon=4/255时鲁棒性提升高达47.3%,且干净数据的零样本和检索性能保持或提升,仅需不到1%的可训练参数。
  • Conclusion: 该对抗校准框架显著提升了多模态编码器的鲁棒性,同时保持了与现有基础模型的兼容性。

[36] FiGKD: Fine-Grained Knowledge Distillation via High-Frequency Detail Transfer

Seonghak Kim

Main category: cs.CV

TL;DR: FiGKD提出了一种基于频率感知的知识蒸馏方法,通过分解教师模型的输出为低频和高频成分,选择性传递高频细节,提升细粒度视觉任务性能。

  • Motivation: 现有知识蒸馏方法在细粒度视觉任务中表现不佳,因其将教师模型的输出视为单一信号,忽略了细节信息的重要性。
  • Method: 使用离散小波变换(DWT)分解教师模型的输出为低频和高频成分,仅传递高频细节部分。
  • Result: 在多个数据集上,FiGKD优于现有基于输出和特征的知识蒸馏方法。
  • Conclusion: 频率感知的分解方法能更高效地传递知识,尤其在资源受限的场景中表现突出。

[37] GTR: Gaussian Splatting Tracking and Reconstruction of Unknown Objects Based on Appearance and Geometric Complexity

Takuya Ikeda,Sergey Zakharov,Muhammad Zubair Irshad,Istvan Balazs Opra,Shun Iwase,Dian Chen,Mark Tjersland,Robert Lee,Alexandre Dilly,Rares Ambrus,Koichi Nishiwaki

Main category: cs.CV

TL;DR: 提出了一种基于单目RGBD视频的6-DoF物体跟踪和高保真3D重建新方法,解决了复杂物体(如对称、复杂几何或外观)的挑战。

  • Motivation: 现有方法在处理复杂物体时表现不佳,尤其是对称、复杂几何或外观的物体。
  • Method: 结合3D高斯溅射、混合几何/外观跟踪和关键帧选择的自适应方法。
  • Result: 在多样化物体上实现了鲁棒跟踪和精确重建,并提供了高质量标注的基准测试。
  • Conclusion: 该方法在高保真物体网格恢复方面表现优异,为开放环境中的单传感器3D重建设定了新标准。

[38] Are Multimodal Large Language Models Ready for Omnidirectional Spatial Reasoning?

Zihao Dongfang,Xu Zheng,Ziqiao Weng,Yuanhuiyi Lyu,Danda Pani Paudel,Luc Van Gool,Kailun Yang,Xuming Hu

Main category: cs.CV

TL;DR: 论文研究了多模态大语言模型(MLLMs)在全景空间推理中的表现,并提出了首个专门用于此场景的基准测试OSR-Bench。

  • Motivation: 尽管MLLMs在视觉空间推理方面表现出潜力,但现有研究主要集中在标准针孔视图图像上,全景感知尚未充分探索。
  • Method: 作者设计了OSR-Bench基准,包含15.3万个多样化问答对,并提出负采样策略和两阶段评估框架。
  • Result: 评估了8种先进MLLMs,发现它们在全景空间推理中表现不佳。
  • Conclusion: 研究表明当前MLLMs在全景空间推理中存在不足,需进一步改进。OSR-Bench和代码将公开。

[39] DC-Seg: Disentangled Contrastive Learning for Brain Tumor Segmentation with Missing Modalities

Haitao Li,Ziyu Li,Yiheng Mao,Zhengyao Ding,Zhengxing Huang

Main category: cs.CV

TL;DR: DC-Seg提出了一种新方法,通过解耦模态不变和解耦模态特定的表示,提升多模态脑图像分割的鲁棒性。

  • Motivation: 临床数据中可能缺失某些模态,现有方法未能充分利用各模态的独特信息。
  • Method: 使用解剖对比学习和模态对比学习,解耦图像为模态不变和解耦模态特定的表示,并引入分割正则化器。
  • Result: 在BraTS 2020和WMH数据集上,DC-Seg优于现有方法,尤其在处理缺失模态时表现更优。
  • Conclusion: DC-Seg通过解耦表示和正则化,显著提升了多模态脑图像分割的鲁棒性和泛化能力。

[40] SafeVid: Toward Safety Aligned Video Large Multimodal Models

Yixu Wang,Jiaxin Song,Yifeng Gao,Xin Wang,Yang Yao,Yan Teng,Xingjun Ma,Yingchun Wang,Yu-Gang Jiang

Main category: cs.CV

TL;DR: SafeVid框架通过文本视频描述和LLM驱动的安全推理,显著提升视频大模型(VLMMs)的安全性,并公开了SafeVid-350K数据集。

  • Motivation: 视频大模型(VLMMs)的复杂性导致静态安全对齐在动态视频场景中失效,亟需针对视频的安全对齐方法。
  • Method: SafeVid通过生成SafeVid-350K数据集、使用DPO对齐VLMMs,并基于SafeVidBench评估,实现视频安全对齐。
  • Result: SafeVid显著提升VLMMs安全性,如LLaVA-NeXT-Video在SafeVidBench上性能提升达42.39%。
  • Conclusion: SafeVid通过文本描述桥接安全推理,为VLMMs提供了有效的安全对齐框架和资源。

[41] iSegMan: Interactive Segment-and-Manipulate 3D Gaussians

Yian Zhao,Wanshi Xu,Ruochong Zheng,Pengchong Qiao,Chang Liu,Jie Chen

Main category: cs.CV

TL;DR: iSegMan提出了一种交互式分割与操纵框架,通过2D用户交互实现高效3D场景操纵,无需场景特定训练。

  • Motivation: 现有3D场景操纵方法在控制区域和交互反馈方面存在不足,且分割框架需要预训练,效率低。
  • Method: 结合Epipolar-guided Interaction Propagation(EIP)和Visibility-based Gaussian Voting(VGV),实现高效区域控制和分割。
  • Result: iSegMan在3D场景操纵和分割任务中表现出显著优势。
  • Conclusion: iSegMan通过高效区域控制和交互工具提升了场景操纵的灵活性和实用性。

[42] Top-Down Compression: Revisit Efficient Vision Token Projection for Visual Instruction Tuning

Bonan li,Zicheng Zhang,Songhua Liu,Weihao Yu,Xinchao Wang

Main category: cs.CV

TL;DR: LLaVA-Meteor提出了一种新的视觉指令调优方法,通过Top-Down Compression范式压缩视觉标记,同时保持核心信息,显著提升了效率。

  • Motivation: 现有方法在视觉到语言的投影中存在准确性与效率之间的权衡问题,LLaVA-Meteor旨在解决这一难题。
  • Method: 采用Top-Down Compression范式,结合Flash Global Fusion模块和局部到单点扫描方式,同时引入Visual-Native Selection机制以降低计算开销。
  • Result: 实验表明,该方法减少了75-95%的视觉标记,同时在12个基准测试中表现相当或更优。
  • Conclusion: LLaVA-Meteor在保持性能的同时显著提升了效率,为视觉指令调优提供了新思路。

[43] Advanced Integration of Discrete Line Segments in Digitized P&ID for Continuous Instrument Connectivity

Soumya Swarup Prusty,Astha Agarwal,Srinivasan Iyenger

Main category: cs.CV

TL;DR: 论文提出了一种通过计算机视觉模型检测并合并P&ID中的线段,实现数字化P&ID的方法,以解决手动映射耗时且易错的问题。

  • Motivation: 手动映射P&ID信息耗时(3-6个月)、易错且依赖专家经验,亟需数字化解决方案。
  • Method: 使用计算机视觉模型检测线段并合并,构建设备与线段间的连接,生成数字化P&ID。
  • Result: 实现了数字化P&ID,信息可存储于知识图谱,支持优化路径、检测系统循环等任务。
  • Conclusion: 该方法显著提升了P&ID信息处理的效率和准确性,为后续高级算法应用奠定了基础。

[44] AoP-SAM: Automation of Prompts for Efficient Segmentation

Yi Chen,Mu-Young Son,Chuanbo Hua,Joo-Young Kim

Main category: cs.CV

TL;DR: AoP-SAM是一种自动生成提示的方法,提升SAM在图像分割中的效率和实用性,无需手动输入。

  • Motivation: 手动提示不适用于实际应用,尤其是在需要快速提供提示和资源效率的场景。
  • Method: 使用轻量级Prompt Predictor模型自动检测关键实体和最佳提示位置,结合自适应采样和过滤机制。
  • Result: 在三个数据集上评估,AoP-SAM显著提高了提示生成效率和掩码生成准确性。
  • Conclusion: AoP-SAM使SAM更适合自动化分割任务,提升了其实际应用价值。

[45] Online Iterative Self-Alignment for Radiology Report Generation

Ting Xiao,Lei Shi,Yang Zhang,HaoFeng Yang,Zhe Wang,Chenjia Bai

Main category: cs.CV

TL;DR: 本文提出了一种新颖的在线迭代自对齐(OISA)方法,用于放射学报告生成(RRG),通过自我生成多样化数据、自我评估多目标偏好数据、自我对齐多目标优化和自我迭代改进,显著提升了模型性能。

  • Motivation: 现有RRG模型主要依赖监督微调(SFT),但高质量标注数据覆盖有限,易导致过拟合和泛化问题。本文旨在通过自对齐方法解决这些问题。
  • Method: 提出OISA方法,包含四个阶段:自我生成多样化数据、自我评估多目标偏好数据、自我对齐多目标优化和自我迭代改进。
  • Result: 实验结果表明,该方法在多个评估指标上优于现有方法,达到最先进性能。
  • Conclusion: OISA方法通过迭代多目标优化显著提升了RRG模型的数据质量和性能,为临床目标定制多样化报告提供了有效解决方案。

[46] SpatialCrafter: Unleashing the Imagination of Video Diffusion Models for Scene Reconstruction from Limited Observations

Songchun Zhang,Huiyao Xu,Sitong Guo,Zhongwei Xie,Pengwei Liu,Hujun Bao,Weiwei Xu,Changqing Zou

Main category: cs.CV

TL;DR: SpatialCrafter利用视频扩散模型生成额外观测,解决稀疏或单视图输入下的3D场景重建问题,通过几何约束和尺度估计提升重建质量。

  • Motivation: 现有技术依赖密集多视图观测,限制了应用范围,因此需要从稀疏或单视图输入中重建逼真3D场景。
  • Method: 结合可训练相机编码器和极线注意力机制实现几何约束,利用统一尺度估计策略处理数据集尺度差异,并通过混合网络结构高效处理长序列特征。
  • Result: 实验表明,该方法提升了稀疏视图重建质量,恢复了3D场景的真实外观。
  • Conclusion: SpatialCrafter为稀疏或单视图输入下的3D场景重建提供了有效解决方案。

[47] Multimodal Cancer Survival Analysis via Hypergraph Learning with Cross-Modality Rebalance

Mingcheng Qu,Guang Yang,Donglin,Tonghua Su,Yue Gao,Yang Song,Lei Fan

Main category: cs.CV

TL;DR: 提出了一种结合超图学习和模态再平衡机制的多模态生存预测框架,解决了病理图像与基因组数据的不平衡问题,性能优于现有方法。

  • Motivation: 现有研究多采用多实例学习聚合病理图像特征,但忽略了上下文和层次细节的信息丢失,且病理与基因组数据在粒度和维度上的差异导致模态不平衡。
  • Method: 提出超图学习捕捉病理图像的上下文和层次细节,采用模态再平衡机制和交互对齐融合策略动态调整两模态的贡献。
  • Result: 在五个TCGA数据集上的实验表明,模型在C-Index性能上优于先进方法3.4%以上。
  • Conclusion: 该框架有效解决了病理-基因组数据的不平衡问题,提升了生存预测性能。

[48] IQBench: How "Smart'' Are Vision-Language Models? A Study with Human IQ Tests

Tan-Hanh Pham,Phu-Vinh Nguyen,Dang The Hung,Bui Trong Duong,Vu Nguyen Thanh,Chris Ngo,Tri Quang Truong,Truong-Son Hy

Main category: cs.CV

TL;DR: IQBench是一个新的视觉IQ测试基准,用于评估视觉语言模型(VLMs)的流体智能和推理能力,强调从图像信息中推理而非依赖文本知识。

  • Motivation: 尽管VLMs在多模态任务中表现优异,但其在人类IQ测试中的推理能力尚未充分探索,因此需要专门评估其流体智能。
  • Method: 通过手动收集和标注500个视觉IQ问题,构建IQBench基准,评估模型的推理过程和最终答案准确性。
  • Result: 实验显示模型在3D空间和字谜推理任务中表现不佳,推理得分与最终答案准确性存在不一致。
  • Conclusion: 评估推理过程的重要性不亚于最终答案准确性,当前VLMs在通用推理能力上仍有显著局限。

[49] CHRIS: Clothed Human Reconstruction with Side View Consistency

Dong Liu,Yifan Yang,Zixiong Huang,Yuxin Gao,Mingkui Tan

Main category: cs.CV

TL;DR: CHRIS方法通过侧视一致性提升单视角RGB图像生成穿衣人体模型的真实感,包括侧视法线判别器和多对一梯度计算。

  • Motivation: 单视角图像缺乏侧视信息,导致生成模型在全局拓扑和局部表面一致性上不真实。
  • Method: 1) 侧视法线判别器增强全局合理性;2) 多对一梯度计算确保局部表面一致性。
  • Result: 在公开基准测试中达到最优性能,优于现有方法。
  • Conclusion: CHRIS通过侧视一致性显著提升了穿衣人体模型的真实感。

[50] Multi-modal Collaborative Optimization and Expansion Network for Event-assisted Single-eye Expression Recognition

Runduo Han,Xiuping Liu,Shangxuan Yi,Yi Zhang,Hongchen Tan

Main category: cs.CV

TL;DR: 提出了一种多模态协作优化与扩展网络(MCO-E Net),用于解决单眼表情识别任务中的低光、高曝光和高动态范围等挑战。

  • Motivation: 解决单眼表情识别在复杂光照条件下的性能问题。
  • Method: 引入MCO-Mamba和HCE-MoE两种创新设计,分别通过双模态联合优化和动态路由机制实现模态协作与扩展。
  • Result: 在单眼表情识别任务中表现出色,尤其在恶劣光照条件下。
  • Conclusion: MCO-E Net通过多模态协作和异构架构有效提升了表情识别的鲁棒性。

[51] Black-box Adversaries from Latent Space: Unnoticeable Attacks on Human Pose and Shape Estimation

Zhiying Li,Guanggang Geng,Yeying Jin,Zhizhi Guo,Bruce Gu,Jidong Huo,Zhaoxin Fan,Wenjun Wu

Main category: cs.CV

TL;DR: 论文提出了一种针对EHPS模型的隐蔽黑盒攻击方法(UBA),通过潜在空间表示生成对抗噪声,无需模型内部信息即可显著提升估计误差。

  • Motivation: 现有EHPS模型多关注估计精度,忽视安全漏洞,且现有攻击方法需白盒访问或生成明显扰动,实用性不足。
  • Method: UBA利用自然图像的潜在空间表示生成对抗噪声,通过迭代优化攻击方向和噪声模式,仅依赖模型输出查询。
  • Result: UBA平均将EHPS模型的姿态估计误差提升17.27%-58.21%,揭示了严重安全漏洞。
  • Conclusion: 研究强调了数字人生成系统安全风险的紧迫性,需采取措施缓解。

[52] Cross-Model Transfer of Task Vectors via Few-Shot Orthogonal Alignment

Kazuhiko Kawamoto,Atsuhiro Endo,Hiroshi Kera

Main category: cs.CV

TL;DR: 论文提出了一种基于少样本正交对齐的方法,用于在不同预训练模型间对齐任务向量,提升跨模型迁移的准确性。

  • Motivation: 任务算术假设源模型和目标模型初始化为相同预训练参数,限制了其在跨模型迁移中的应用。本文旨在解决这一问题。
  • Method: 采用少样本正交对齐方法,将任务向量对齐到不同预训练目标模型的参数空间,保留向量关键属性(如范数和秩)。
  • Result: 实验表明,该方法在八个分类数据集上优于直接应用任务向量,性能接近少样本微调,同时保持任务向量的模块化和可重用性。
  • Conclusion: 提出的方法有效解决了跨模型迁移中任务向量的对齐问题,提升了迁移准确性,且代码开源。

[53] FIGhost: Fluorescent Ink-based Stealthy and Flexible Backdoor Attacks on Physical Traffic Sign Recognition

Shuai Yuan,Guowen Xu,Hongwei Li,Rui Zhang,Xinyuan Qian,Wenbo Jiang,Hangcheng Cao,Qingchuan Zhao

Main category: cs.CV

TL;DR: FIGhost是一种利用荧光墨水作为触发器的物理世界后门攻击方法,具有隐蔽性、灵活性和不可追踪性,能有效对抗先进检测器和VLMs。

  • Motivation: 现有物理后门攻击缺乏隐蔽性或灵活性,且未考虑新兴的视觉-大语言模型(VLMs)。FIGhost通过荧光触发器填补了这一空白。
  • Method: 利用荧光墨水作为触发器,通过紫外线激活;采用基于插值的荧光模拟算法增强鲁棒性;开发自动化后门样本生成方法支持三种攻击目标。
  • Result: 物理世界评估表明,FIGhost对先进检测器和VLMs有效,且能抵御环境变化和现有防御措施。
  • Conclusion: FIGhost为物理世界后门攻击提供了隐蔽、灵活且鲁棒的解决方案。

[54] Accelerating Diffusion-based Super-Resolution with Dynamic Time-Spatial Sampling

Rui Qin,Qijie Wang,Ming Sun,Haowei Zhu,Chao Zhou,Bin Wang

Main category: cs.CV

TL;DR: 该论文提出了一种时间-空间感知采样策略(TSS),用于加速扩散超分辨率任务,无需额外训练成本,显著减少迭代步骤并提升性能。

  • Motivation: 现有扩散超分辨率方法计算成本高,且现有加速技术未能充分利用低层任务特性。
  • Method: 通过分析扩散超分辨率方法的频域和空间域特性,提出TSS策略,结合时间动态采样(TDS)和空间动态采样(SDS)。
  • Result: TSS在多个基准测试中表现优异,仅用一半迭代步骤即超越现有加速方法,MUSIQ分数提升0.2-3.0。
  • Conclusion: TSS是一种高效且无需额外训练的扩散超分辨率加速方法,显著提升性能。

[55] VFRTok: Variable Frame Rates Video Tokenizer with Duration-Proportional Information Assumption

Tianxiong Zhong,Xingye Tian,Boyuan Jiang,Xuebo Wang,Xin Tao,Pengfei Wan,Zhiwei Zhang

Main category: cs.CV

TL;DR: 论文提出了一种基于Transformer的视频分词器VFRTok,通过可变帧率编码和解码解决了现有视频生成框架的效率问题,并引入了Partial RoPE提升生成质量。

  • Motivation: 现有视频生成框架因固定时间压缩率导致计算成本随帧率线性增长,效率低下。
  • Method: 提出Duration-Proportional Information Assumption,设计VFRTok实现可变帧率编码,引入Partial RoPE解耦位置与内容建模。
  • Result: VFRTok仅用1/8的token即可实现竞争性重建质量和最佳生成保真度。
  • Conclusion: VFRTok通过紧凑连续时空表示显著提升了视频生成效率和质量。

[56] Beluga Whale Detection from Satellite Imagery with Point Labels

Yijie Zheng,Jinxuan Yang,Yu Chen,Yaxuan Wang,Yihang Lu,Guoqing Li

Main category: cs.CV

TL;DR: 该论文提出了一种自动化流程,利用点标注和Segment Anything Model(SAM)生成精确的边界框标注,用于训练YOLOv8进行多类别检测(确定鲸鱼、不确定鲸鱼和竖琴海豹),显著提高了检测性能并减少了人工标注的工作量。

  • Motivation: 现有的基于深度学习的鲸鱼检测方法需要大量高质量的手动标注边界框,且常忽略不确定鲸鱼,限制了模型的实际应用。
  • Method: 结合点标注和SAM生成精确边界框,训练YOLOv8进行多类别检测。
  • Result: SAM生成的标注显著提升了检测性能,YOLOv8在鲸鱼和海豹检测中分别达到72.2%和70.3%的F1分数。
  • Conclusion: 该方法不仅降低了标注成本,还提升了不确定鲸鱼的检测能力,为海洋动物监测提供了更全面的解决方案,并具有扩展到其他物种和平台的潜力。

[57] MT-CYP-Net: Multi-Task Network for Pixel-Level Crop Yield Prediction Under Very Few Samples

Shenzhou Liu,Di Wang,Haonan Guo,Chengxi Han,Wenzhi Zeng

Main category: cs.CV

TL;DR: 提出了一种多任务作物产量预测网络(MT-CYP-Net),通过共享特征和融合信息,解决了卫星遥感数据中地面真值稀缺的问题,实现了稀疏标签下的像素级产量预测。

  • Motivation: 全球农业需要精确的作物产量预测,但卫星遥感数据的地面真值稀缺限制了像素级预测的准确性。
  • Method: MT-CYP-Net采用多任务特征共享策略,结合产量预测和作物分类解码器,利用稀疏标签训练。
  • Result: 在黑龙江8个农场的实验中,MT-CYP-Net优于传统方法,展示了在有限标签下进行精确像素级预测的潜力。
  • Conclusion: MT-CYP-Net为稀疏标签下的作物产量预测提供了有效解决方案,推动了精准农业的发展。

[58] Denoising Mutual Knowledge Distillation in Bi-Directional Multiple Instance Learning

Chen Shu,Boyu Fu,Yiman Li,Ting Yin,Wenchuan Zhang,Jie Chen,Yuhao Yi,Hong Bu

Main category: cs.CV

TL;DR: 该论文提出了一种结合伪标签校正的方法,以提升多示例学习(MIL)在数字病理学中的性能,弥补MIL与全监督学习之间的差距。

  • Motivation: 尽管MIL避免了细粒度标注的需求,但其在袋级和实例级分类的准确性仍存疑。现有方法可能引入噪声标签,因此需要一种更可靠的学习框架。
  • Method: 通过伪标签校正增强袋级和实例级学习过程,利用从弱到强的泛化技术提升性能。
  • Result: 实验表明,该方法在公共病理数据集上提升了双级MIL算法的袋级和实例级预测性能。
  • Conclusion: 该方法有效弥补了MIL与全监督学习之间的差距,提升了分类性能。

[59] VisionReasoner: Unified Visual Perception and Reasoning via Reinforcement Learning

Yuqi Liu,Tianyuan Qu,Zhisheng Zhong,Bohao Peng,Shu Liu,Bei Yu,Jiaya Jia

Main category: cs.CV

TL;DR: VisionReasoner是一个统一框架,通过多目标认知学习策略和任务重构,增强视觉推理能力,在检测、分割和计数任务中表现优异。

  • Motivation: 大型视觉语言模型具备处理多样化视觉感知任务的潜力,但需要一个统一框架来提升推理能力和任务适应性。
  • Method: 设计了多目标认知学习策略和系统任务重构,生成结构化推理过程以响应多样化任务。
  • Result: 在COCO(检测)、ReasonSeg(分割)和CountBench(计数)任务中,分别以29.1%、22.1%和15.3%的相对优势超越Qwen2.5VL。
  • Conclusion: VisionReasoner展示了作为统一模型在多样化视觉感知任务中的卓越性能,验证了其方法的有效性。

[60] LOVE: Benchmarking and Evaluating Text-to-Video Generation and Video-to-Text Interpretation

Jiarui Wang,Huiyu Duan,Ziheng Jia,Yu Zhao,Woo Yi Yang,Zicheng Zhang,Zijian Chen,Juntong Wang,Yuke Xing,Guangtao Zhai,Xiongkuo Min

Main category: cs.CV

TL;DR: 论文提出了AIGVE-60K数据集和LOVE评估指标,用于评估AI生成视频的质量和文本-视频对齐,展示了其在多任务和多维度上的优越性能。

  • Motivation: 当前AI生成视频在感知质量和文本-视频对齐方面存在不足,需要可靠且可扩展的自动评估模型。
  • Method: 构建AIGVE-60K数据集,包含大规模人工标注和双向评测任务,并提出基于LMM的LOVE评估指标。
  • Result: LOVE在AIGVE-60K上表现优异,并能泛化到其他评估基准。
  • Conclusion: AIGVE-60K数据集和LOVE指标为AI生成视频评估提供了重要工具。

[61] TinyRS-R1: Compact Multimodal Language Model for Remote Sensing

Aybora Koksal,A. Aydin Alatan

Main category: cs.CV

TL;DR: TinyRS是一种2B参数的多模态小型语言模型(MSLM),专为遥感任务优化,其增强版TinyRS-R1在性能上媲美或超越7B参数模型,同时显著降低内存和延迟需求。

  • Motivation: 解决边缘硬件无法运行大型多模态语言模型的问题,为遥感任务提供高效解决方案。
  • Method: 基于Qwen2-VL-2B,通过四阶段训练:卫星图像预训练、视觉指令微调、Chain-of-Thought(CoT)标注微调、GRPO对齐。
  • Result: TinyRS-R1在分类、VQA、视觉定位和开放式问答任务中表现优异,内存和延迟仅为7B模型的三分之一。
  • Conclusion: TinyRS-R1是首个专为遥感任务设计的GRPO对齐CoT推理MSLM,CoT显著提升空间定位和场景理解能力。

[62] EarthSynth: Generating Informative Earth Observation with Diffusion Models

Jiancheng Pan,Shiye Lei,Yuqian Fu,Jiahao Li,Yanxing Liu,Yuze Sun,Xiao He,Long Peng,Xiaomeng Huang,Bo Zhao

Main category: cs.CV

TL;DR: EarthSynth是一种基于扩散的生成基础模型,用于合成多类别、跨卫星标记的地球观测数据,以解决遥感图像解释中标记数据稀缺的问题。

  • Motivation: 遥感图像解释任务因标记数据稀缺而受限,需要一种方法生成多样化的标记数据以提升性能。
  • Method: EarthSynth采用Counterfactual Composition训练策略和R-Filter规则方法,生成并筛选高质量合成数据。
  • Result: EarthSynth在场景分类、目标检测和语义分割等任务中表现优异,为遥感图像解释提供了实用解决方案。
  • Conclusion: EarthSynth是首个探索多任务生成的遥感模型,通过合成数据有效提升了遥感图像解释的性能。

[63] Keypoints as Dynamic Centroids for Unified Human Pose and Segmentation

Niaz Ahmad,Jawad Khan,Kang G. Shin,Youngmoon Lee,Guanghui Wang

Main category: cs.CV

TL;DR: 提出了一种基于动态质心的新方法(KDC),用于统一的人体姿态估计和实例级分割,解决了重叠关节和快速变化姿态的挑战。

  • Motivation: 现有方法在重叠关节或快速变化姿态的场景中表现不佳,需要更鲁棒的解决方案。
  • Method: 采用自下而上的范式生成关键点热图,引入KeyCentroids和MaskCentroids动态聚类像素。
  • Result: 在CrowdPose、OCHuman和COCO基准测试中表现出色,兼具准确性和实时性。
  • Conclusion: KDC方法在复杂场景中具有高效性和通用性,适用于实时环境。

[64] Learning to Highlight Audio by Watching Movies

Chao Huang,Ruohan Gao,J. M. F. Tsang,Jan Kurcius,Cagdas Bilen,Chenliang Xu,Anurag Kumar,Sanjeel Parekh

Main category: cs.CV

TL;DR: 论文提出了一种视觉引导的音频高亮任务,通过多模态框架和伪数据生成方法提升音视频体验。

  • Motivation: 视频内容创作中视觉与音频的协调不足,导致音视频体验不和谐。
  • Method: 采用基于Transformer的多模态框架,并引入伪数据生成方法模拟真实场景。
  • Result: 方法在定量和主观评估中均优于基线,并研究了不同上下文指导和数据集难度的影响。
  • Conclusion: 视觉引导的音频高亮任务有效提升了音视频协调性,为未来研究提供了新方向。

[65] SoftPQ: Robust Instance Segmentation Evaluation via Soft Matching and Tunable Thresholds

Ranit Karmakar,Simon F. Nørrelykke

Main category: cs.CV

TL;DR: 论文提出了一种新的实例分割评估指标SoftPQ,通过引入可调的上限和下限IoU阈值以及非线性惩罚函数,解决了传统二元评估指标的局限性。

  • Motivation: 传统分割评估指标(如IoU、Dice、PQ)依赖二元逻辑,无法区分不同程度的错误或奖励逐步改进。SoftPQ旨在提供更灵活、更细致的评估方式。
  • Method: SoftPQ通过定义部分匹配区域和应用非线性惩罚函数,将评估转化为连续分级而非二元分类。
  • Result: 实验表明,SoftPQ能更敏感地捕捉分割质量的差异,并提供更稳健的反馈。
  • Conclusion: SoftPQ是一种实用且原则性的替代方案,适用于基准测试和模型迭代优化。

[66] Ditch the Denoiser: Emergence of Noise Robustness in Self-Supervised Learning from Data Curriculum

Wenquan Lu,Jiaqi Zhang,Hugues Van Assel,Randall Balestriero

Main category: cs.CV

TL;DR: 论文提出了一种自监督学习框架,能够在噪声数据上学习鲁棒表示,无需推理时的去噪器或下游微调。

  • Motivation: 当前自监督学习研究主要针对干净、高质量数据集,而噪声数据的应用(如天体物理学、医学影像等)仍具挑战性。
  • Method: 方法包括:1) 在噪声数据上训练自监督去噪器;2) 构建去噪到噪声的数据课程;3) 结合教师引导的正则化,锚定噪声嵌入到去噪版本。
  • Result: 在极端高斯噪声下(σ=255),方法比DINOv2提高了4.8%的线性探测准确率。
  • Conclusion: 研究表明,通过噪声感知预训练可以实现无需去噪器的鲁棒性,简化部署。

[67] Always Clear Depth: Robust Monocular Depth Estimation under Adverse Weather

Kui Jiang,Jing Cao,Zhaocheng Yu,Junjun Jiang,Jingchun Zhou

Main category: cs.CV

TL;DR: 提出了一种名为ACDepth的鲁棒单目深度估计方法,通过高质量训练数据生成和域适应提升在恶劣天气下的性能。

  • Motivation: 现有方法在恶劣天气下性能下降,主要由于域偏移和场景信息提取困难。
  • Method: 采用扩散模型生成恶劣天气样本,结合LoRA适配器、循环一致性损失和对抗训练,并引入多粒度知识蒸馏策略(MKD)和序数引导蒸馏机制(OGD)。
  • Result: 在nuScenes数据集上,ACDepth在夜间和雨天场景的absRel指标上分别超越md4all-DD 2.50%和2.61%。
  • Conclusion: ACDepth通过数据生成和域适应策略有效提升了恶劣天气下的深度估计性能。

[68] CompBench: Benchmarking Complex Instruction-guided Image Editing

Bohan Jia,Wenxuan Huang,Yuntian Tang,Junbo Qiao,Jincheng Liao,Shaosheng Cao,Fei Zhao,Zhaopeng Feng,Zhouhong Gu,Zhenfei Yin,Lei Bai,Wanli Ouyang,Lin Chen,Fei Zhao,Zihan Wang,Yuan Xie,Shaohui Lin

Main category: cs.CV

TL;DR: 提出了一个名为CompBench的大规模基准测试,专注于复杂指令引导的图像编辑任务,填补了现有基准测试在任务复杂性和细粒度指令上的不足。

  • Motivation: 现实应用对复杂场景操作的需求日益增长,但现有基准测试往往过于简化任务且缺乏细粒度指令。
  • Method: 提出了一个MLLM-人类协作框架和任务流水线,并采用指令解耦策略将编辑意图分为四个维度:位置、外观、动态和对象。
  • Result: CompBench揭示了当前图像编辑模型的基本局限性,并为下一代系统开发提供了关键见解。
  • Conclusion: CompBench为复杂指令引导的图像编辑提供了全面评估工具,推动了该领域的发展。

[69] Road Segmentation for ADAS/AD Applications

Mathanesh Vellingiri Ramasamy,Dimas Rizky Kurniasalim

Main category: cs.CV

TL;DR: 研究探讨了模型架构和数据集选择对道路分割的影响,通过在不同数据集上训练VGG-16和U-Net,发现VGG-16在跨数据集测试中表现更优。

  • Motivation: 精确的道路分割对自动驾驶和ADAS至关重要,但模型架构和数据集选择的影响尚不明确。
  • Method: 在Comma10k数据集上训练改进的VGG-16,在KITTI Road数据集上训练改进的U-Net,并进行跨数据集测试。
  • Result: VGG-16在跨数据集测试中表现优于U-Net,尽管U-Net训练了更多轮次。
  • Conclusion: 模型架构和数据集选择对道路分割性能有显著影响,VGG-16在跨数据集场景下更具优势。

[70] Can Large Multimodal Models Understand Agricultural Scenes? Benchmarking with AgroMind

Qingmei Li,Yang Zhang,Zurong Mai,Yuhang Chen,Shuohong Lou,Henglian Huang,Jiarui Zhang,Zhiwei Zhang,Yibin Wen,Weijia Li,Haohuan Fu,Jianxi Huang,Juepeng Zheng

Main category: cs.CV

TL;DR: AgroMind是一个全面的农业遥感基准测试,涵盖四个任务维度,评估了18个开源和3个闭源LMM模型,揭示了其在空间推理和细粒度识别上的性能差距。

  • Motivation: 现有农业遥感基准测试在场景多样性和任务设计上存在不足,AgroMind旨在填补这一空白。
  • Method: 整合多个数据集,定义多样化的农业相关问题,利用LMM进行推理和评估。
  • Result: 实验显示LMM在空间推理和细粒度识别上表现不佳,但部分模型优于人类。
  • Conclusion: AgroMind为农业遥感提供了标准化评估框架,揭示了LMM的领域知识局限性,为未来研究指明了方向。

[71] Hyperspectral Image Land Cover Captioning Dataset for Vision Language Models

Aryan Das,Tanishq Rachamalla,Pravendra Singh,Koushik Biswas,Vinay Kumar Verma,Swalpa Kumar Roy

Main category: cs.CV

TL;DR: HyperCap是一个大规模高光谱字幕数据集,结合光谱数据和像素级文本注释,提升遥感应用中模型的分类和特征提取性能。

  • Motivation: 传统高光谱数据集仅关注分类任务,缺乏语义理解,HyperCap填补了这一空白,为高光谱图像提供更深入的语义分析。
  • Method: 通过混合自动和手动方法对四个基准数据集进行标注,确保数据准确性和一致性。
  • Result: 使用先进编码器和多种融合技术进行实验,分类性能显著提升。
  • Conclusion: HyperCap展示了视觉-语言学习在高光谱领域的潜力,为未来研究奠定基础。

[72] From Low Field to High Value: Robust Cortical Mapping from Low-Field MRI

Karthik Gopinath,Annabel Sorby-Adams,Jonathan W. Ramirez,Dina Zemlyanker,Jennifer Guo,David Hunt,Christine L. Mac Donald,C. Dirk Keene,Timothy Coalson,Matthew F. Glasser,David Van Essen,Matthew S. Rosen,Oula Puonti,W. Taylor Kimberly,Juan Eugenio Iglesias

Main category: cs.CV

TL;DR: 提出了一种基于机器学习的3D重建方法,用于便携式低场MRI的皮质表面分析,无需重新训练即可直接使用。

  • Motivation: 高场MRI(HF-MRI)的可用性有限,而低场MRI(LF-MRI)成本低且易获取,但现有工具对其低信噪比和分辨率表现不佳。
  • Method: 使用3D U-Net在合成LF-MRI上训练,预测皮质表面的有符号距离函数,并通过几何处理确保拓扑准确性。
  • Result: 在HF/LF-MRI配对扫描中验证,LF-MRI重建精度与扫描参数相关,3mm各向同性T2加权扫描在4分钟内完成,与HF-MRI结果高度一致。
  • Conclusion: 该方法为便携式LF-MRI的皮质表面分析提供了可行方案,代码已开源。

[73] NOFT: Test-Time Noise Finetune via Information Bottleneck for Highly Correlated Asset Creation

Jia Li,Nan Gao,Huaibo Huang,Ran He

Main category: cs.CV

TL;DR: 论文提出了一种名为NOFT的模块,通过优化噪声潜在空间实现高保真和多样化的图像生成。

  • Motivation: 现有方法未充分利用扩散噪声中的拓扑和纹理信息,NOFT旨在填补这一空白。
  • Method: 使用最优传输信息瓶颈(OT-IB)微调种子噪声或逆噪声,仅需14K可训练参数和10分钟训练。
  • Result: NOFT能高效生成高保真且多样化的图像,适用于2D/3D AIGC资产。
  • Conclusion: NOFT是一种高效的通用方法,适用于文本或图像引导的生成任务。

[74] From Shots to Stories: LLM-Assisted Video Editing with Unified Language Representations

Yuzhi Li,Haojun Xu,Feng Tian

Main category: cs.CV

TL;DR: 本文首次系统研究了LLMs在视频编辑中的应用,提出L-Storyboard作为视觉信息与语言推理的桥梁,并分类视频编辑任务为收敛与发散任务。通过StoryFlow策略提升任务准确性和逻辑一致性。

  • Motivation: 探索LLMs和VLMs在视频编辑中的潜力,填补视觉信息与语言推理之间的鸿沟。
  • Method: 引入L-Storyboard将视频片段转化为结构化语言描述,提出StoryFlow策略优化发散任务输出。
  • Result: L-Storyboard显著提升视频编辑任务的可解释性和隐私保护,StoryFlow增强了逻辑一致性和输出稳定性。
  • Conclusion: LLMs在智能视频编辑中具有巨大潜力,L-Storyboard和StoryFlow为未来研究提供了有效工具。

[75] SEPT: Standard-Definition Map Enhanced Scene Perception and Topology Reasoning for Autonomous Driving

Muleilan Pei,Jiayao Shan,Peiliang Li,Jieqi Shi,Jing Huo,Yang Gao,Shaojie Shen

Main category: cs.CV

TL;DR: 论文提出了一种SD地图增强的场景感知与拓扑推理框架(SEPT),通过融合SD地图和BEV特征提升自动驾驶场景理解能力。

  • Motivation: 在线场景感知和拓扑推理对自动驾驶至关重要,但现有方法在长距离或遮挡场景中仍存在局限。
  • Method: 提出混合特征融合策略,结合SD地图和BEV特征,并设计交叉感知关键点检测任务。
  • Result: 在OpenLane-V2数据集上,SEPT框架显著优于现有方法。
  • Conclusion: SD地图作为先验知识能有效提升场景感知与拓扑推理性能。

[76] SMFusion: Semantic-Preserving Fusion of Multimodal Medical Images for Enhanced Clinical Diagnosis

Haozhe Xiang,Han Zhang,Yu Cheng,Xiongwen Quan,Wanwan Huang

Main category: cs.CV

TL;DR: 提出了一种语义引导的多模态医学图像融合方法,首次将医学先验知识融入融合过程,显著提升了医学信息的保留和诊断效果。

  • Motivation: 现有方法忽视了医学图像中丰富的语义信息,导致融合结果在临床应用中的效果受限。
  • Method: 构建多模态医学图像-文本数据集,通过语义交互对齐模块将文本描述与图像特征在高维空间对齐,并设计医学语义损失函数。
  • Result: 实验表明,该方法在定性和定量评估中均表现优异,保留了更多关键医学信息。
  • Conclusion: 该方法为医学图像融合提供了新思路,显著提升了融合结果的临床适用性。

[77] LLaVA-4D: Embedding SpatioTemporal Prompt into LMMs for 4D Scene Understanding

Hanyu Zhou,Gim Hee Lee

Main category: cs.CV

TL;DR: LLaVA-4D提出了一种新的时空提示方法,用于增强4D场景理解中的动态对象表示。

  • Motivation: 现有3D大模型缺乏对动态对象的时空表示能力,限制了其在物理世界中的应用。
  • Method: 通过编码3D位置和1D时间生成动态感知的4D坐标嵌入,并将其与视觉特征对齐。
  • Result: 实验证明该方法能有效区分背景与动态对象,提升4D场景理解能力。
  • Conclusion: LLaVA-4D通过时空提示增强了模型对静态背景和动态对象的理解能力。

[78] MMS-VPR: Multimodal Street-Level Visual Place Recognition Dataset and Benchmark

Yiwei Ou,Xiaobin Ren,Ronggui Sun,Guansong Gao,Ziyi Jiang,Kaiqi Zhao,Manfredo Manfredini

Main category: cs.CV

TL;DR: MMS-VPR是一个大规模多模态数据集,用于复杂步行环境中的街景地点识别,填补了现有数据集的不足。

  • Motivation: 现有视觉地点识别数据集主要依赖车载图像,缺乏多模态多样性,且未充分代表非西方城市环境中的密集混合用途街道空间。
  • Method: MMS-VPR包含78,575张标注图像和2,512个视频片段,覆盖中国成都一个商业区的207个地点,采用系统化数据收集协议。
  • Result: 实验表明,利用多模态和结构线索时,传统VPR模型和图神经网络性能显著提升。
  • Conclusion: MMS-VPR为计算机视觉、地理空间理解和多模态推理的交叉研究提供了支持,数据集已公开。

[79] PMQ-VE: Progressive Multi-Frame Quantization for Video Enhancement

ZhanFeng Feng,Long Peng,Xin Di,Yong Guo,Wenbo Li,Yulun Zhang,Renjing Pei,Yang Wang,Yang Cao,Zheng-Jun Zha

Main category: cs.CV

TL;DR: 提出了一种新的视频增强量化方法PMQ-VE,通过两阶段过程(BMFQ和PMTD)解决现有量化方法在视频增强任务中的性能下降问题,并在实验中表现优异。

  • Motivation: 现有Transformer-based视频增强方法计算和内存需求高,难以部署在边缘设备上,而直接量化会导致性能下降和细节丢失。
  • Method: 提出PMQ-VE框架,包括BMFQ(基于百分位数初始化和回溯搜索的量化)和PMTD(渐进多教师蒸馏)。
  • Result: 实验表明,PMQ-VE在多个任务和基准测试中优于现有方法,达到最先进性能。
  • Conclusion: PMQ-VE通过两阶段量化策略有效解决了视频增强中的量化问题,提升了低比特模型的性能。

[80] Context-Aware Autoregressive Models for Multi-Conditional Image Generation

Yixiao Chen,Zhiyuan Ma,Guoli Jia,Che Jiang,Jianjun Li,Bowen Zhou

Main category: cs.CV

TL;DR: ContextAR是一种用于多条件图像生成的灵活框架,通过将不同条件嵌入到统一的令牌序列中,结合混合位置编码和条件感知注意力机制,实现了高效且可控的图像生成。

  • Motivation: 自回归变换器在多条件图像生成任务中具有潜力,但需要一种统一且灵活的方法来整合多种条件并保持空间对齐。
  • Method: 提出ContextAR框架,通过混合位置编码(Rotary与可学习位置编码结合)和条件感知注意力机制,将多种条件嵌入令牌序列。
  • Result: 实验表明,ContextAR在多条件驱动场景下具有强大的可控性和通用性,性能与现有自回归基线相当。
  • Conclusion: ContextAR为多条件图像生成提供了一种简洁高效的解决方案,展示了自回归模型在此任务中的潜力。

[81] Temporal-Spectral-Spatial Unified Remote Sensing Dense Prediction

Sijie Zhao,Feng Liu,Xueliang Zhang,Hao Chen,Pengfeng Xiao,Lei Bai

Main category: cs.CV

TL;DR: TSSUN是一种新型网络架构,旨在统一处理遥感数据的时空谱特征和任务类型,通过标准化输入输出结构和局部-全局注意力机制,实现高性能和通用性。

  • Motivation: 遥感数据的时空谱异质性导致现有深度学习模型在处理不同任务时性能下降或需要重新训练,亟需一种通用解决方案。
  • Method: 提出TSSUN网络,采用时空谱统一策略标准化输入输出,并引入局部-全局窗口注意力机制增强特征提取能力。
  • Result: 实验表明,TSSUN能适应异构输入并统一多种密集预测任务,性能达到或超过现有最优方法。
  • Conclusion: TSSUN展示了在复杂遥感应用中的鲁棒性和通用性,无需任务特定修改。

[82] LogicOCR: Do Your Large Multimodal Models Excel at Logical Reasoning on Text-Rich Images?

Maoyuan Ye,Jing Zhang,Juhua Liu,Bo Du,Dacheng Tao

Main category: cs.CV

TL;DR: LogicOCR是一个新的基准测试,包含1100道多选题,用于评估大型多模态模型(LMMs)在文本丰富图像上的逻辑推理能力。

  • Motivation: 尽管LMMs在推理和OCR方面有显著进步,但其在复杂逻辑推理任务中的表现尚未充分研究。
  • Method: 通过从中国国家公务员考试中筛选文本语料库,并开发自动化流程将其转化为多模态样本,生成多样化的图像并手动验证。
  • Result: LMMs在多模态推理上仍落后于纯文本输入,未完全实现视觉阅读与推理的结合。
  • Conclusion: LogicOCR有望成为推动多模态推理研究的重要资源。

[83] DNOI-4DRO: Deep 4D Radar Odometry with Differentiable Neural-Optimization Iterations

Shouyi Lu,Huanyu Zhou,Guirong Zhuo

Main category: cs.CV

TL;DR: 提出了一种结合学习与优化的4D雷达里程计模型DNOI-4DRO,通过神经优化迭代算子将几何优化与神经网络训练结合,显著提升了性能。

  • Motivation: 传统几何优化与神经网络训练的结合可以提升雷达里程计的精度和鲁棒性,尤其是在稀疏4D雷达点云场景下。
  • Method: 模型首先通过神经网络估计点运动流,构建基于点运动与3D位姿关系的成本函数,利用高斯牛顿更新优化雷达位姿,并设计了双流4D雷达骨干网络增强点云表示。
  • Result: 在VoD和Snail-Radar数据集上表现优异,甚至接近基于LiDAR的A-LOAM方法。
  • Conclusion: DNOI-4DRO模型在4D雷达里程计任务中表现出色,结合了学习与优化的优势,为稀疏点云处理提供了新思路。

[84] Visuospatial Cognitive Assistant

Qi Feng,Hidetoshi Shimodaira

Main category: cs.CV

TL;DR: 论文提出了ViCA-322K数据集和ViCA-7B模型,用于提升视频空间认知能力,并在多个任务中取得最优性能。

  • Motivation: 解决当前视觉语言模型在视频空间认知方面的不足,推动机器人技术和具身AI的发展。
  • Method: 引入ViCA-322K数据集,并基于此微调ViCA-7B模型,同时开发ViCA-Thinking-2.68K数据集以提升模型解释性。
  • Result: ViCA-7B在八个VSI-Bench任务中表现最优,例如在绝对距离任务上提升26.1分。
  • Conclusion: 研究表明针对性数据和改进时空建模的重要性,并公开所有资源以促进研究。

[85] Improving Out-of-Domain Robustness with Targeted Augmentation in Frequency and Pixel Spaces

Ruoqi Wang,Haitao Wang,Shaojie Guo,Qiong Luo

Main category: cs.CV

TL;DR: 论文提出了一种名为Frequency-Pixel Connect的领域自适应框架,通过在频率空间和像素空间引入目标增强,提升了模型在分布偏移下的鲁棒性。

  • Motivation: 现实应用中,领域自适应场景下模型对分布外数据的鲁棒性是一个关键挑战。通用数据增强方法效果有限,而特定数据集的目标增强需要专家知识。
  • Method: 提出Frequency-Pixel Connect框架,通过混合源图像和目标图像的频谱和像素内容生成增强样本,增加领域多样性并保留语义结构。
  • Result: 在视觉、医学、音频和天文领域的四个真实基准测试中,该方法显著优于通用方法和特定数据集的目标增强方法。
  • Conclusion: Frequency-Pixel Connect是一种数据集无关的方法,能够灵活应用于多种领域,显著提升跨领域连接性和模型性能。

[86] Is Artificial Intelligence Generated Image Detection a Solved Problem?

Ziqiang Li,Jiazhen Yan,Ziwen He,Kai Zeng,Weiwei Jiang,Lizhi Xiong,Zhangjie Fu

Main category: cs.CV

TL;DR: AIGIBench是一个用于评估AI生成图像检测器鲁棒性和泛化能力的综合基准,揭示了现有检测器在真实场景中的局限性。

  • Motivation: 生成模型(如GANs和Diffusion模型)生成的图像高度逼真,引发了关于虚假信息、深度伪造和版权侵权的担忧。现有检测器在真实场景中的有效性存疑。
  • Method: 提出AIGIBench基准,通过多源泛化、图像退化鲁棒性、数据增强敏感性和测试时预处理影响四项任务评估检测器。包含23种假图像子集和真实样本。
  • Result: 11种先进检测器在真实数据上性能显著下降,常见增强效果有限,预处理影响复杂,显示需要更鲁棒的检测策略。
  • Conclusion: AIGIBench为未来研究提供了统一且现实的评估框架,推动开发更可靠和泛化的AI生成图像检测方法。

[87] Towards Open-world Generalized Deepfake Detection: General Feature Extraction via Unsupervised Domain Adaptation

Midou Guo,Qilin Yin,Wei Lu,Xiangyang Luo

Main category: cs.CV

TL;DR: 提出了一种新的开放世界深度伪造检测任务,并设计了一种增强训练策略(OWG-DS),通过优化域距离和类边界分离来提高模型泛化能力。

  • Motivation: 由于生成式AI的发展,伪造方法快速涌现,社交平台上大量未标记数据使得现有监督检测方法难以应对未知伪造方法。
  • Method: 提出OWG-DS策略,包括域距离优化(DDO)模块和相似性类边界分离(SCBS)模块,结合对抗训练学习域不变特征。
  • Result: 实验表明,该方法在跨方法和跨数据集场景中表现优异,显著提升了模型泛化能力。
  • Conclusion: OWG-DS策略有效解决了开放世界深度伪造检测的挑战,为未来研究提供了新思路。

[88] DIMM: Decoupled Multi-hierarchy Kalman Filter for 3D Object Tracking

Jirong Zha,Yuxuan Fan,Kai Li,Han Li,Chen Gao,Xinlei Chen,Yong Li

Main category: cs.CV

TL;DR: 论文提出DIMM框架,通过方向解耦的多层次滤波器组和自适应融合网络,显著提升3D物体跟踪精度。

  • Motivation: 现有IMM方法在模型组合解空间和权重计算上存在局限,无法充分处理目标的多方向运动特性和测量不确定性。
  • Method: DIMM设计3D解耦的多层次滤波器组扩展解空间,并采用自适应融合网络生成更可靠的权重矩阵。
  • Result: 实验显示DIMM将跟踪精度提升31.61%~99.23%。
  • Conclusion: DIMM通过方向解耦和自适应权重分配,显著改进3D物体跟踪性能。

[89] Towards Visuospatial Cognition via Hierarchical Fusion of Visual Experts

Qi Feng,Hidetoshi Shimodaira

Main category: cs.CV

TL;DR: ViCA2是一种新型多模态大语言模型,专注于提升空间推理能力,通过双视觉编码器和专用数据集ViCA-322K,在VSI-Bench基准测试中表现优异。

  • Motivation: 现有模型在空间布局、关系和动态推理方面表现不足,缺乏专用架构和训练数据。
  • Method: ViCA2采用双视觉编码器(SigLIP和Hiera)和令牌比例控制机制,并使用ViCA-322K数据集进行指令微调。
  • Result: ViCA2-7B在VSI-Bench上以56.8的平均分超越开源和专有模型。
  • Conclusion: ViCA2展示了紧凑模型在空间智能上的高效性,并开源了模型和数据集以推动研究。

[90] CLIP-aware Domain-Adaptive Super-Resolution

Zhengyang Lu,Qian Xia,Weifan Wang,Feng Wang

Main category: cs.CV

TL;DR: CDASR是一种利用CLIP语义能力的新型超分辨率框架,通过特征对齐和元学习策略实现跨域泛化,显著提升性能。

  • Motivation: 解决单图像超分辨率中域泛化的关键挑战,利用CLIP的语义能力提升跨域性能。
  • Method: 结合CLIP引导的特征对齐机制和元学习策略,通过多阶段转换和自定义模块融合语义信息。
  • Result: 在Urban100数据集上,CDASR在×8和×16缩放下分别取得0.15dB和0.30dB的PSNR提升。
  • Conclusion: CDASR在跨域超分辨率任务中表现出色,尤其在极端缩放场景下性能显著优于现有方法。

[91] ViEEG: Hierarchical Neural Coding with Cross-Modal Progressive Enhancement for EEG-Based Visual Decoding

Minxu Liu,Donghai Guan,Chuhang Zheng,Chunwei Tian,Jie Wen,Qi Zhu

Main category: cs.CV

TL;DR: ViEEG是一种受生物学启发的分层EEG解码框架,通过模拟视觉处理层级结构,显著提升了脑电图(EEG)解码性能。

  • Motivation: 现有EEG解码方法依赖于平坦的神经表示,忽视了大脑的视觉层级结构,ViEEG旨在解决这一问题。
  • Method: ViEEG将视觉刺激分解为三个生物对齐的组件,并通过三流EEG编码器和跨注意力路由模拟视觉皮层信息流,结合分层对比学习与CLIP嵌入对齐。
  • Result: 在THINGS-EEG数据集上,ViEEG在受试者依赖和跨受试者设置中分别达到40.9%和22.9%的Top-1准确率,性能提升超过45%。
  • Conclusion: ViEEG不仅提升了性能,还为基于生物学的脑解码在AI中设定了新范式。

[92] Kornia-rs: A Low-Level 3D Computer Vision Library In Rust

Edgar Riba,Jian Shi,Aditya Kumar,Andrew Shen,Gary Bradski

Main category: cs.CV

TL;DR: kornia-rs是一个用Rust编写的高性能3D计算机视觉库,专为安全关键和实时应用设计,提供内存和线程安全,性能优于原生Rust替代方案。

  • Motivation: 解决Rust生态系统中缺乏高性能3D计算机视觉库的问题,同时利用Rust的所有权模型和类型系统确保安全性。
  • Method: 采用静态类型张量系统和模块化crate设计,提供高效的图像I/O、处理和3D操作,并通过Python绑定实现跨平台兼容性。
  • Result: 在图像变换任务中比原生Rust快3~5倍,性能与C++包装库相当,填补了Rust生态中3D视觉的空白。
  • Conclusion: kornia-rs展示了在真实计算机视觉应用中的高效性和实用性。

[93] DragLoRA: Online Optimization of LoRA Adapters for Drag-based Image Editing in Diffusion Model

Siwei Xia,Li Sun,Tiantian Sun,Qingli Li

Main category: cs.CV

TL;DR: DragLoRA是一种基于LoRA适配器的拖拽编辑框架,通过改进特征表示和优化效率,显著提升了拖拽编辑的精度和速度。

  • Motivation: 传统拖拽编辑方法因特征表示能力不足和搜索空间大而精度低、效率差。
  • Method: 引入LoRA适配器,结合去噪分数蒸馏损失和自适应优化方案,改进特征表示和优化效率。
  • Result: DragLoRA显著提升了拖拽编辑的控制精度和计算效率。
  • Conclusion: DragLoRA为拖拽编辑提供了一种高效且精确的解决方案。

[94] DPCD: A Quality Assessment Database for Dynamic Point Clouds

Yating Liu,Yujie Zhang,Qi Yang,Yiling Xu,Zhu Li,Ye-Kui Wang

Main category: cs.CV

TL;DR: 该论文提出了一个用于动态点云质量评估(DPCQA)的大规模数据库DPCD,填补了该领域的研究空白,并通过主观实验验证了其可靠性和异构性。

  • Motivation: 动态点云(DPC)能更准确地模拟现实世界的变化,但缺乏对其质量评估的研究,阻碍了相关应用的发展。
  • Method: 构建了包含15个参考DPC和525个失真DPC的数据库DPCD,通过主观实验获取MOS,并评估多种客观指标的性能。
  • Result: 实验表明DPCQA比静态点云更具挑战性,DPCD数据库为相关研究提供了可靠基础。
  • Conclusion: DPCD数据库公开可用,将推动DPCQA领域的新研究。

[95] SRLoRA: Subspace Recomposition in Low-Rank Adaptation via Importance-Based Fusion and Reinitialization

Haodong Yang,Lei Wang,Md Zakir Hossain

Main category: cs.CV

TL;DR: SRLoRA通过动态重组低秩子空间提升LoRA的表达能力,不增加参数但提高性能。

  • Motivation: LoRA的低秩子空间限制可能影响性能,SRLoRA旨在增强其表达能力。
  • Method: 基于重要性评分动态融合和重新初始化LoRA对,利用SVD提取未使用的主方向。
  • Result: 在语言和视觉任务中,SRLoRA比标准LoRA收敛更快且准确率更高。
  • Conclusion: SRLoRA是一种高效且通用的PEFT方法,具有广泛应用潜力。

[96] VideoRFT: Incentivizing Video Reasoning Capability in MLLMs via Reinforced Fine-Tuning

Qi Wang,Yanrui Yu,Ye Yuan,Rui Mao,Tianfei Zhou

Main category: cs.CV

TL;DR: VIDEORFT扩展了RFT范式,通过自动生成高质量视频CoT数据集和引入语义一致性奖励,显著提升了多模态大语言模型(MLLMs)的视频推理能力。

  • Motivation: 视频推理是人类智能的基础,但由于视频数据的复杂逻辑和时空结构,现有方法面临挑战。VIDEORFT旨在填补这一空白。
  • Method: 采用两阶段RFT方案:1)基于CoT注释的监督微调(SFT);2)强化学习(RL)提升泛化能力。通过自动CoT生成和视觉一致性修正构建数据集,并引入语义一致性奖励。
  • Result: 在六个视频推理基准测试中达到最先进性能。
  • Conclusion: VIDEORFT通过创新的数据集生成和奖励机制,成功提升了MLLMs的视频推理能力。

[97] SSR: Enhancing Depth Perception in Vision-Language Models via Rationale-Guided Spatial Reasoning

Yang Liu,Ming Ma,Xiaomin Yu,Pengxiang Ding,Han Zhao,Mingyang Sun,Siteng Huang,Donglin Wang

Main category: cs.CV

TL;DR: SSR是一种新方法,将深度数据转化为结构化文本,增强视觉语言模型的空间推理能力,并通过知识蒸馏压缩为紧凑嵌入。

  • Motivation: 现有视觉语言模型依赖RGB输入,缺乏精确的空间理解,且现有深度信息整合方法效果不佳。
  • Method: SSR将深度数据转化为结构化文本,并通过知识蒸馏生成紧凑嵌入,无需重新训练即可集成到现有模型中。
  • Result: 实验表明,SSR显著提升了深度信息利用和空间推理能力。
  • Conclusion: SSR推动了视觉语言模型向更接近人类的多模态理解发展。

[98] Spectral-Spatial Self-Supervised Learning for Few-Shot Hyperspectral Image Classification

Wenchen Chen,Yanmei Zhang,Zhongwei Xiao,Jianping Chu,Xingbo Wang

Main category: cs.CV

TL;DR: 提出了一种结合自监督学习和少样本学习的方法S4L-FSC,用于解决高光谱图像分类中标记样本稀缺的问题。

  • Motivation: 高光谱图像分类中标记样本稀缺,现有方法难以适应空间几何多样性和缺乏光谱先验知识。
  • Method: 通过旋转镜像自监督学习和少样本学习预训练空间特征提取器,结合掩码重建自监督学习和少样本学习预训练光谱特征提取器。
  • Result: 在四个高光谱数据集上的实验验证了S4L-FSC的有效性和优越性。
  • Conclusion: S4L-FSC通过结合异构和同构数据源的知识,显著提升了少样本高光谱图像分类的性能。

[99] Guiding Diffusion with Deep Geometric Moments: Balancing Fidelity and Variation

Sangmin Jung,Utkarsh Nath,Yezhou Yang,Giulia Pedrielli,Joydeep Biswas,Amy Zhang,Hassan Ghasemzadeh,Pavan Turaga

Main category: cs.CV

TL;DR: 论文提出了一种名为Deep Geometric Moments(DGM)的新方法,用于在文本到图像生成中提供细粒度控制,平衡控制与多样性。

  • Motivation: 现有方法(如分割图和深度图)在控制生成图像时引入了空间刚性,限制了扩散模型的多样性。DGM旨在通过几何先验捕捉视觉特征和细节,提供更灵活的控制。
  • Method: DGM通过学习几何先验,专注于生成对象本身的视觉特征,避免了DINO或CLIP特征对全局图像或语义的过度关注。与ResNets不同,DGM依赖鲁棒的几何矩。
  • Result: 实验表明,DGM在基于扩散的图像生成中有效平衡了控制与多样性,提供了灵活的扩散过程引导机制。
  • Conclusion: DGM作为一种新型引导方法,能够在不牺牲多样性的情况下实现细粒度控制,为文本到图像生成提供了新思路。

[100] Video-GPT via Next Clip Diffusion

Shaobin Zhuang,Zhipeng Huang,Ying Zhang,Fangyikang Wang,Canmiao Fu,Binxin Yang,Chong Sun,Chen Li,Yali Wang

Main category: cs.CV

TL;DR: Video-GPT将视频视为新的语言进行视觉世界建模,通过新颖的下一片段扩散范式实现短时生成和长时预测,性能优于现有方法。

  • Motivation: 语言序列不足以描述视觉世界的时空细节,而视频序列能更好地捕捉这些细节。
  • Method: 提出Video-GPT,采用下一片段扩散范式进行预训练,通过自回归去噪处理历史片段中的噪声片段。
  • Result: 在视频预测任务中达到SOTA性能(Physics-IQ Benchmark:34.97),并在6个主流视频任务中表现优异。
  • Conclusion: Video-GPT在视频生成和理解任务中具有强大的泛化能力,是视觉世界建模的关键工具。

[101] Rebalancing Contrastive Alignment with Learnable Semantic Gaps in Text-Video Retrieval

Jian Xiao,Zijie Song,Jialong Hu,Hao Cheng,Zhenzhen Hu,Jia Li,Richang Hong

Main category: cs.CV

TL;DR: GARE框架通过引入可学习的增量Delta_ij缓解文本-视频检索中的模态间隙和假阴性问题,优化梯度冲突,提升检索性能。

  • Motivation: 现有方法忽视了模态间隙和批量采样中的假阴性问题,导致梯度冲突和不稳定对齐。
  • Method: 提出GARE框架,通过泰勒近似推导Delta_ij的理想形式,并设计轻量级模块计算Delta_ij,结合正则化稳定学习。
  • Result: 在四个检索基准测试中,GARE显著提升了对齐准确性和对噪声监督的鲁棒性。
  • Conclusion: GARE通过缓解梯度冲突和模态间隙,有效提升了文本-视频检索的性能和稳定性。

[102] GlobalGeoTree: A Multi-Granular Vision-Language Dataset for Global Tree Species Classification

Yang Mu,Zhitong Xiong,Yi Wang,Muhammad Shahzad,Franz Essl,Mark van Kleunen,Xiao Xiang Zhu

Main category: cs.CV

TL;DR: GlobalGeoTree是一个全球树种类数据集,包含630万条地理标记数据,用于遥感分类。GeoTreeCLIP模型在零样本和少样本分类上表现优异。

  • Motivation: 解决全球树种类分类中大规模标记数据稀缺的问题。
  • Method: 引入GlobalGeoTree数据集,包含遥感图像和环境变量,并开发GeoTreeCLIP模型。
  • Result: GeoTreeCLIP在零样本和少样本分类上显著优于现有模型。
  • Conclusion: 数据集和模型的公开将推动树种类分类和生态研究的发展。

[103] Exploring Sparsity for Parameter Efficient Fine Tuning Using Wavelets

Ahmet Bilican,M. Akın Yılmaz,A. Murat Tekalp,R. Gökberk Cinbiş

Main category: cs.CV

TL;DR: WaveFT是一种新型参数高效微调方法,通过在小波域学习稀疏更新,显著优于现有方法(如LoRA),尤其在极低参数量下表现优异。

  • Motivation: 在计算和内存资源有限的情况下,高效适应大型基础模型至关重要。现有PEFT方法(如LoRA)在参数量极少时效果有限。
  • Method: 提出WaveFT方法,在小波域学习残差矩阵的稀疏更新,精确控制可训练参数,实现细粒度调整。
  • Result: 在个性化文本到图像生成任务中,WaveFT显著优于LoRA和其他PEFT方法,尤其在低参数量下表现更优。
  • Conclusion: WaveFT为极端参数高效场景提供了一种高效解决方案,具有广泛的应用潜力。

[104] ProMi: An Efficient Prototype-Mixture Baseline for Few-Shot Segmentation with Bounding-Box Annotations

Florent Chiaroni,Ali Ayub,Ola Ahmad

Main category: cs.CV

TL;DR: 提出了一种基于边界框注释的少样本二值分割方法ProMi,无需训练,简单高效,显著优于现有基线。

  • Motivation: 机器人应用中,像素级注释耗时且昂贵,而少样本分割能减少训练数据需求。
  • Method: 采用原型混合方法,将背景类视为分布混合,适应粗粒度注释。
  • Result: 在不同数据集上表现最佳,显著优于基线,适用于移动机器人任务。
  • Conclusion: ProMi方法高效且实用,适用于真实场景的机器人任务。

[105] VGGT-SLAM: Dense RGB SLAM Optimized on the SL(4) Manifold

Dominic Maggio,Hyungtae Lim,Luca Carlone

Main category: cs.CV

TL;DR: VGGT-SLAM是一种基于未校准单目相机的稠密RGB SLAM系统,通过全局对齐子地图实现场景重建。相比传统相似变换方法,它优化SL(4)流形以处理15自由度投影变换,显著提升地图质量。

  • Motivation: 未校准相机场景重建存在15自由度投影变换的模糊性,传统相似变换方法不适用,需更灵活的对齐方式。
  • Method: 采用SL(4)流形优化,估计15自由度单应变换对齐子地图,并处理闭环约束。
  • Result: 实验表明,VGGT-SLAM在长视频序列中显著提升地图质量,克服了VGGT的高GPU需求限制。
  • Conclusion: VGGT-SLAM通过全局对齐和投影变换优化,为未校准相机SLAM提供了更优解决方案。

[106] Coarse Attribute Prediction with Task Agnostic Distillation for Real World Clothes Changing ReID

Priyank Pathak,Yogesh S Rawat

Main category: cs.CV

TL;DR: 论文提出RLQ框架,通过CAP和TAD提升衣物更换重识别(CC-ReID)在低质量图像上的性能。

  • Motivation: 现有方法在高质量图像上表现良好,但在低质量图像(如像素化、模糊)中表现不佳,导致特征表示受损。
  • Method: RLQ框架结合CAP(粗粒度属性预测)和TAD(任务无关蒸馏),CAP减少噪声输入影响,TAD通过自监督和蒸馏提升特征表示。
  • Result: RLQ在LaST、DeepChange等数据集上Top-1提升1.6%-2.9%,在PRCC上提升5.3%-6%。
  • Conclusion: RLQ显著提升了CC-ReID在低质量图像上的性能,代码将开源。

[107] Event-based Star Tracking under Spacecraft Jitter: the e-STURT Dataset

Samya Bagchi,Peter Anastasiou,Matthew Tetlow,Tat-Jun Chin,Yasir Latif

Main category: cs.CV

TL;DR: 论文介绍了首个基于事件相机的星跟踪数据集e-STURT,用于模拟航天器抖动条件下的星观测,并提出了高频抖动估计算法。

  • Motivation: 航天器抖动影响光学通信等任务的精确指向能力,需高保真传感器数据开发抖动补偿算法。
  • Method: 使用压电执行器模拟系统性和可重复的抖动,生成200个序列的公开数据集,并提出基于事件流的高频抖动估计算法。
  • Result: 成功创建了e-STURT数据集,为任务关键型事件空间感知应用提供算法开发基础。
  • Conclusion: e-STURT数据集将促进抖动感知算法的发展,支持航天任务中的精确传感需求。

[108] SurveillanceVQA-589K: A Benchmark for Comprehensive Surveillance Video-Language Understanding with Large Models

Bo Liu,Pengfei Qiao,Minhan Ma,Xuange Zhang,Yinan Tang,Peng Xu,Kun Liu,Tongtong Yuan

Main category: cs.CV

TL;DR: SurveillanceVQA-589K是一个针对监控视频的最大开放式视频问答基准数据集,包含589,380个问答对,涵盖12种认知多样的问题类型,旨在推动视频语言理解在安全关键应用中的发展。

  • Motivation: 监控视频内容的理解在视觉语言研究中是一个关键但未充分探索的挑战,因其复杂性、不规则事件动态和安全关键性。
  • Method: 通过结合时间对齐的人工标注和基于提示的大型视觉语言模型辅助生成问答对,构建了数据集,并提出了多维评估协议。
  • Result: 评估了八个大型视觉语言模型,发现其在因果和异常相关任务中存在显著性能差距。
  • Conclusion: 该基准为安全关键应用中的视频语言理解提供了实用且全面的资源。

[109] Learning Cross-Spectral Point Features with Task-Oriented Training

Mia Thomas,Trevor Ablett,Jonathan Kelly

Main category: cs.CV

TL;DR: 论文提出了一种基于学习的跨光谱(热-可见光)点特征方法,用于将热成像整合到无人机导航系统中,通过匹配和配准任务训练特征网络,显著提高了在低能见度条件下的性能。

  • Motivation: 无人机在低能见度条件下依赖可见光谱相机的导航系统性能受限,热成像相机在此类环境中表现更优,但现有方法未能充分利用数据。
  • Method: 提出通过匹配和配准任务训练特征网络,结合可微分配准流程,优化网络响应。
  • Result: 在MultiPoint数据集上,75%以上的配准误差低于10像素,模型还可用于经典匹配和配准流程。
  • Conclusion: 该方法有效整合了热成像数据,提升了无人机在低能见度环境中的导航能力。

[110] Temporal-Oriented Recipe for Transferring Large Vision-Language Model to Video Understanding

Thong Nguyen,Zhiyuan Hu,Xu Lin,Cong-Duy Nguyen,See-Kiong Ng,Luu Anh Tuan

Main category: cs.CV

TL;DR: 本文通过实证研究揭示了影响大型视觉语言模型(LVLMs)时间理解能力的关键组件,并提出了一种时间导向的改进方案。

  • Motivation: 现有LVLMs依赖隐式时间理解能力处理视频任务,但未明确关键组件,限制了其潜力。
  • Method: 通过实证研究分析关键组件,提出时间导向的训练方案和升级接口。
  • Result: 最终模型在标准视频理解任务中显著优于之前的LVLMs。
  • Conclusion: 时间导向的改进方案有效提升了LVLMs的视频理解能力。

[111] Diff-MM: Exploring Pre-trained Text-to-Image Generation Model for Unified Multi-modal Object Tracking

Shiyu Xuan,Zechao Li,Jinhui Tang

Main category: cs.CV

TL;DR: 论文提出了一种多模态目标跟踪方法Diff-MM,利用预训练的文本到图像生成模型的多模态理解能力,通过并行特征提取管道和子模块调优方法,实现了在RGB-N/D/T/E跟踪中的统一性能提升。

  • Motivation: 现有方法受限于有限的多模态训练数据,性能不佳。本文旨在通过预训练生成模型的多模态理解能力,提升复杂场景下的跟踪稳定性。
  • Method: 利用预训练的Stable Diffusion的UNet作为特征提取器,提出并行特征提取管道和多模态子模块调优方法,实现不同模态间的互补信息获取。
  • Result: 实验结果表明,Diff-MM在TNL2K数据集上的AUC比OneTracker高出8.3%,性能优于近期提出的跟踪器。
  • Conclusion: Diff-MM通过预训练生成模型的多模态理解能力,实现了统一的多模态跟踪,性能显著提升。

[112] BusterX: MLLM-Powered AI-Generated Video Forgery Detection and Explanation

Haiquan Wen,Yiwei He,Zhenglin Huang,Tianxiao Li,Zihan YU,Xingru Huang,Lu Qi,Baoyuan Wu,Xiangtai Li,Guangliang Cheng

Main category: cs.CV

TL;DR: 论文提出GenBuster-200K数据集和BusterX框架,解决AI生成视频检测中数据集不足和模型解释性差的问题。

  • Motivation: AI生成视频技术快速发展,但缺乏高质量数据集和可解释的检测方法,导致虚假内容风险增加。
  • Method: 提出GenBuster-200K数据集(20万高清视频)和BusterX框架(结合MLLM和强化学习),用于检测和解释AI生成视频。
  • Result: 实验证明BusterX在检测效果和泛化性上优于现有方法。
  • Conclusion: GenBuster-200K和BusterX填补了AI生成视频检测领域的空白,提供了高质量数据集和可解释的检测框架。

[113] Degradation-Aware Feature Perturbation for All-in-One Image Restoration

Xiangpeng Tian,Xiangyu Liao,Xiao Liu,Meng Li,Chao Ren

Main category: cs.CV

TL;DR: DFPIR提出了一种基于退化感知特征扰动的全功能图像修复方法,通过通道和注意力扰动调整特征空间,以解决多任务干扰问题。

  • Motivation: 解决全功能图像修复中不同退化类型导致的梯度更新方向冲突问题。
  • Method: 引入退化感知特征扰动(DFP),包括通道扰动和注意力扰动,通过DGPB模块实现。
  • Result: 在去噪、去雾、去雨、运动去模糊和低光增强等任务中达到SOTA性能。
  • Conclusion: DFPIR通过特征扰动有效解决了多任务干扰问题,提升了全功能图像修复的性能。

[114] Multi-Resolution Haar Network: Enhancing human motion prediction via Haar transform

Li Lin

Main category: cs.CV

TL;DR: HaarMoDic网络通过2D Haar变换和多分辨率Haar块(MR-Haar)提升3D人体姿态预测性能,优于现有方法。

  • Motivation: 现有方法因忽略人体运动在时空轴上的任意性,难以处理复杂动作预测。
  • Method: 提出HaarMoDic网络,利用2D Haar变换将关节投影到高分辨率坐标,MR-Haar块同时提取时空信息。
  • Result: 在Human3.6M数据集上,HaarMoDic在MPJPE指标上全面超越现有方法。
  • Conclusion: MR-Haar块通过混合高分辨率坐标显著提升预测性能,适用于复杂动作。

[115] Scalable Video-to-Dataset Generation for Cross-Platform Mobile Agents

Yunseok Jang,Yeda Song,Sungryull Sohn,Lajanugen Logeswaran,Tiange Luo,Dong-Ki Kim,Kyunghoon Bae,Honglak Lee

Main category: cs.CV

TL;DR: MONDAY是一个大规模移动OS导航数据集,通过自动化框架从YouTube视频中提取,显著提升了模型的跨平台泛化能力。

  • Motivation: 开发GUI视觉代理需要多样化、大规模的数据集,而现有数据集通常局限于单一操作系统。
  • Method: 利用自动化框架从公开视频中提取数据,包括OCR场景检测、UI元素检测和多步动作识别。
  • Result: 模型在预训练中使用MONDAY后,跨平台性能提升18.11%,且自动化框架高效(F1分数95.04%,命中率99.87%)。
  • Conclusion: MONDAY和自动化框架为移动OS导航研究提供了重要资源,支持未来持续扩展。

[116] MVPainter: Accurate and Detailed 3D Texture Generation via Multi-View Diffusion with Geometric Control

Mingqi Shao,Feng Xiong,Zhaoxu Sun,Mu Xu

Main category: cs.CV

TL;DR: MVPainter提出了一种改进3D纹理生成的方法,通过数据过滤、增强和几何条件控制,提升了纹理质量和对齐效果,并支持PBR渲染。

  • Motivation: 当前3D纹理生成研究不足,而几何生成已有显著进展,因此系统性地探索纹理生成的核心问题(如对齐、一致性和局部质量)具有重要意义。
  • Method: 采用数据过滤和增强策略提升纹理细节,引入ControlNet几何条件控制以改善对齐,并提取PBR属性生成适用于实际渲染的网格。
  • Result: MVPainter在三个核心维度上均达到最先进水平,并通过人类评估验证。
  • Conclusion: MVPainter为3D纹理生成提供了高效解决方案,并开源了完整流程以促进研究。

[117] Single Image Reflection Removal via inter-layer Complementarity

Yue Huang,Zi'ang Li,Tianle Hu,Jie Wen,Guanbin Li,Jinglin Zhang,Guoxu Zhou,Xiaozhao Fang

Main category: cs.CV

TL;DR: 论文提出了一种改进的双流架构,通过增强层间互补性模型和引入高效的层间互补注意力机制,显著提升了单图像反射去除的质量和效率。

  • Motivation: 现有的双流架构在单图像反射去除中未能充分利用层间互补性,限制了图像分离的质量。
  • Method: 1. 提出新型层间互补性模型,利用低频和高频分量增强层间互补性;2. 设计高效的层间互补注意力机制,通过通道级重组和注意力计算优化分离效果。
  • Result: 实验表明,该方法在多个公开数据集上实现了最优的分离质量,同时显著降低了计算成本和模型复杂度。
  • Conclusion: 该方法通过改进层间互补性,显著提升了反射去除的性能和效率。

[118] Use as Many Surrogates as You Want: Selective Ensemble Attack to Unleash Transferability without Sacrificing Resource Efficiency

Bo Yang,Hengwei Zhang,Jindong Wang,Yuchen Ren,Chenhao Lin,Chao Shen,Zhengyu Zhao

Main category: cs.CV

TL;DR: 论文提出选择性集成攻击(SEA),通过动态选择多样化的预训练模型,解决了传统攻击方法在迁移性和效率之间的权衡问题。

  • Motivation: 现有攻击方法在迁移性和效率之间存在权衡,限制了攻击效果。论文认为这种权衡源于不必要的假设(所有模型在迭代中相同),提出打破这一假设。
  • Method: 提出SEA方法,动态选择多样化模型,固定每次迭代的模型数量以保证效率,同时增加跨迭代的模型多样性以提高迁移性。
  • Result: 在ImageNet上的实验显示,SEA在相同效率下迁移性比现有方法高8.5%,且适用于商业API和大型视觉语言模型。
  • Conclusion: SEA为根据资源需求自适应平衡迁移性和效率提供了可能。

[119] AutoMat: Enabling Automated Crystal Structure Reconstruction from Microscopy via Agentic Tool Use

Yaotian Yang,Yiwen Tang,Yizhe Chen,Xiao Chen,Jiangjie Qiu,Hao Xiong,Haoyu Yin,Zhiyao Luo,Yifei Zhang,Sijia Tao,Wentao Li,Qinghua Zhang,Yuqiang Li,Wanli Ouyang,Bin Zhao,Xiaonan Wang,Fei Wei

Main category: cs.CV

TL;DR: AutoMat是一个端到端的自动化流程,将STEM图像转换为原子晶体结构并预测其物理性质,显著优于现有工具。

  • Motivation: 实验数据稀缺且转换过程繁琐,阻碍了机器学习模型的训练和验证。
  • Method: 结合模式自适应去噪、物理引导模板检索、对称性原子重建、快速松弛和性质预测。
  • Result: 在450个结构样本上,AutoMat表现优于现有多模态大语言模型和工具。
  • Conclusion: AutoMat和STEM2Mat-Bench为材料科学中显微镜与原子模拟的桥梁提供了关键进展。

[120] SPKLIP: Aligning Spike Video Streams with Natural Language

Yongchang Gao,Meiling Jin,Zhaofei Yu,Tiejun Huang,Guozhang Chen

Main category: cs.CV

TL;DR: SPKLIP是一种专为Spike-VLA设计的架构,通过分层特征提取和对比学习解决模态不匹配问题,实现了高效的少样本学习和能量效率。

  • Motivation: 解决Spike相机输出稀疏异步导致的语义理解挑战,特别是Spike-VLA任务中CLIP等模型的性能不足问题。
  • Method: 采用分层Spike特征提取器建模多尺度时间动态,结合Spike-文本对比学习直接对齐Spike视频与语言,并引入全Spiking视觉编码器提升能效。
  • Result: 在基准Spike数据集上达到SOTA性能,并在新贡献的真实数据集上表现出强少样本泛化能力。
  • Conclusion: SPKLIP在事件驱动的多模态研究中具有潜力,特别适合神经形态部署。

[121] Predicting Reaction Time to Comprehend Scenes with Foveated Scene Understanding Maps

Ziqi Wen,Jonathan Skaza,Shravan Murlidaran,William Y. Wang,Miguel P. Eckstein

Main category: cs.CV

TL;DR: 提出了一种基于视觉语言模型和中心凹视觉的新型图像计算模型F-SUM,用于预测人类场景理解时间,其性能优于传统图像指标。

  • Motivation: 现有模型难以预测人类场景理解时间,而视觉语言模型的发展为建模提供了新机会。假设人类场景理解的主要瓶颈是中心凹视觉与任务相关信息的空间分布。
  • Method: 结合中心凹视觉与视觉语言模型,生成空间分辨的场景理解图(F-SUM)及其评分。
  • Result: F-SUM评分与人类反应时间(r=0.47)、眼跳次数(r=0.51)和描述准确性(r=-0.56)显著相关,优于传统指标。
  • Conclusion: F-SUM是一种有效的图像计算指标,证明了中心凹视觉处理对理解难度的重要性。

[122] Safe-Sora: Safe Text-to-Video Generation via Graphical Watermarking

Zihan Su,Xuerui Qiu,Hongbin Xu,Tangyu Jiang,Junhao Zhuang,Chun Yuan,Ming Li,Shengfeng He,Fei Richard Yu

Main category: cs.CV

TL;DR: Safe-Sora是首个将图形水印直接嵌入视频生成过程的框架,通过分层自适应匹配机制和3D小波变换增强的Mamba架构,实现了高效且鲁棒的水印保护。

  • Motivation: 解决AI生成视频内容版权保护的不足,尤其是隐形水印在视频生成领域的未充分探索问题。
  • Method: 采用分层粗到细的自适应匹配机制,将水印图像分块并分配到最相似的视频帧中,结合3D小波变换增强的Mamba架构实现时空融合。
  • Result: 实验表明,Safe-Sora在视频质量、水印保真度和鲁棒性方面达到最先进水平。
  • Conclusion: Safe-Sora为视频生成中的版权保护提供了高效且鲁棒的解决方案,并首次将状态空间模型应用于水印领域。

[123] TS-VLM: Text-Guided SoftSort Pooling for Vision-Language Models in Multi-View Driving Reasoning

Lihong Chen,Hossein Hassani,Soodeh Nikan

Main category: cs.CV

TL;DR: 论文提出了一种轻量级视觉语言模型TS-VLM,通过TGSSP模块动态融合多视角视觉特征,显著提升自动驾驶场景的推理能力,同时降低计算成本。

  • Motivation: 现有视觉语言模型在自动驾驶中存在计算开销大和多视角数据融合效率低的问题,难以满足实时安全需求。
  • Method: 设计了TS-VLM模型,引入TGSSP模块,通过输入查询语义动态排序和融合多视角特征,避免使用高成本注意力机制。
  • Result: 在DriveLM基准测试中,TS-VLM性能优于现有模型(BLEU-4 56.82,METEOR 41.91等),计算成本降低90%,参数仅20.1M。
  • Conclusion: TS-VLM通过轻量化和高效的多视角融合,为自动驾驶实时部署提供了实用解决方案。

[124] Few-Step Diffusion via Score identity Distillation

Mingyuan Zhou,Yi Gu,Zhendong Wang

Main category: cs.CV

TL;DR: 论文提出了一种名为SiD的数据无关、一步蒸馏框架,用于加速高分辨率文本到图像扩散模型(如SDXL),并通过理论分析和实验验证其有效性。

  • Motivation: 解决现有方法依赖真实或合成图像的问题,以及分类器自由引导(CFG)在文本图像对齐和生成多样性之间的权衡。
  • Method: 提出Score identity Distillation(SiD)框架,结合理论分析优化少步生成;引入Diffusion GAN对抗损失和两种新引导策略(Zero-CFG和Anti-CFG)。
  • Result: 在SD1.5和SDXL上实现最先进的性能,支持少步生成,并在无真实图像时表现稳健。
  • Conclusion: SiD框架在高效性和性能上均优于现有方法,为文本到图像生成提供了新思路。

[125] CURE: Concept Unlearning via Orthogonal Representation Editing in Diffusion Models

Shristi Das Biswas,Arani Roy,Kaushik Roy

Main category: cs.CV

TL;DR: CURE是一种无需训练的概念遗忘框架,通过权重空间直接操作预训练扩散模型,高效抑制不良概念。

  • Motivation: 现有安全干预措施存在概念移除不彻底、易被绕过、计算效率低或影响无关能力的问题。
  • Method: 提出Spectral Eraser模块,利用奇异值分解识别并隔离不良概念特征,通过单步更新实现模型编辑。
  • Result: CURE在2秒内高效清除目标概念,同时保留原始生成能力,并增强对抗攻击的鲁棒性。
  • Conclusion: CURE提供了一种快速、可解释且高效的概念遗忘方法,优于现有技术。

[126] Mamba-Adaptor: State Space Model Adaptor for Visual Recognition

Fei Xie,Jiahao Nie,Yujin Tang,Wenkang Zhang,Hongshen Zhao

Main category: cs.CV

TL;DR: Mamba-Adaptor通过两个模块(Adaptor-T和Adaptor-S)解决了Mamba模型在视觉任务中的性能问题,提升了全局上下文建模和空间结构建模能力。

  • Motivation: Mamba模型在视觉任务中表现不佳,主要由于因果计算无法访问全局上下文、长程遗忘问题以及空间结构建模能力弱。
  • Method: 提出Mamba-Adaptor,包含Adaptor-T(缓解长程遗忘)和Adaptor-S(增强空间建模),并探索了三种应用方式。
  • Result: 在ImageNet和COCO基准测试中达到最先进性能。
  • Conclusion: Mamba-Adaptor有效解决了Mamba模型的局限性,提升了视觉任务的性能。

[127] TACOcc:Target-Adaptive Cross-Modal Fusion with Volume Rendering for 3D Semantic Occupancy

Luyao Lei,Shuo Xu,Yifan Bai,Xing Wei

Main category: cs.CV

TL;DR: 提出了一种自适应多模态融合框架TACOcc,通过双向对称检索机制和体积渲染监督,解决了3D占用预测中的几何-语义不匹配和表面细节丢失问题。

  • Motivation: 多模态3D占用预测性能受限于无效融合,主要原因是固定融合策略导致的几何-语义不匹配和稀疏噪声标注导致的表面细节丢失。
  • Method: 提出目标尺度自适应的双向对称检索机制,动态调整邻域大小以优化跨模态特征对齐;改进基于3D高斯泼溅的体积渲染管线,增强表面细节重建。
  • Result: 在nuScenes和SemanticKITTI基准测试中验证了方法的有效性。
  • Conclusion: TACOcc框架通过自适应融合和体积渲染监督,显著提升了3D语义占用预测的性能。

[128] Long-RVOS: A Comprehensive Benchmark for Long-term Referring Video Object Segmentation

Tianming Liang,Haichao Jiang,Yuting Yang,Chaolei Tan,Shuai Li,Wei-Shi Zheng,Jian-Fang Hu

Main category: cs.CV

TL;DR: Long-RVOS是一个新的大规模长视频基准数据集,用于推动基于语言描述的视频对象分割任务,解决了现有数据集在长视频和复杂场景中的不足。

  • Motivation: 现有数据集集中在短视频片段,且对象在大多数帧中可见,无法满足实际场景需求。Long-RVOS旨在填补这一空白,提供更复杂的长视频数据。
  • Method: 提出Long-RVOS数据集,包含2000+平均时长超60秒的视频,涵盖遮挡、消失重现和镜头切换等复杂场景。同时提出ReferMo方法,结合运动信息扩展时间感受野,采用局部到全局架构。
  • Result: 现有方法在长视频任务中表现不佳,而ReferMo在长视频场景中显著优于现有方法。
  • Conclusion: Long-RVOS和ReferMo为未来研究提供了更现实的挑战和基线方法,推动长视频对象分割的发展。

[129] SpatialLLM: From Multi-modality Data to Urban Spatial Intelligence

Jiabin Chen,Haiping Wang,Jinpeng Li,Yuan Liu,Zhen Dong,Bisheng Yang

Main category: cs.CV

TL;DR: SpatialLLM是一种无需训练或专家干预的统一语言模型,通过结构化场景描述直接处理复杂城市空间智能任务。

  • Motivation: 传统方法依赖地理分析工具或领域专家,限制了空间智能任务的普及和效率。SpatialLLM旨在通过预训练语言模型实现零样本任务执行。
  • Method: 通过从原始空间数据构建详细的结构化场景描述,直接提示预训练LLM进行场景分析。
  • Result: 实验表明,预训练LLM能准确感知空间分布信息,零样本执行城市规划、生态分析等高级任务。
  • Conclusion: SpatialLLM为城市智能分析提供了新视角,多领域知识、上下文长度和推理能力是关键影响因素。

[130] Any-to-Any Learning in Computational Pathology via Triplet Multimodal Pretraining

Qichen Sun,Zhengrui Guo,Rui Peng,Hao Chen,Jinzhuo Wang

Main category: cs.CV

TL;DR: ALTER是一种多模态预训练框架,整合了WSI、基因组学和病理报告,解决了病理学中数据融合、模态缺失和任务多样性的挑战。

  • Motivation: 解决病理学中多模态数据融合的高计算成本、模态缺失的鲁棒性需求以及下游任务多样性问题。
  • Method: 提出ALTER框架,支持任意模态子集的预训练,学习跨模态表示。
  • Result: 在生存预测、癌症分型、基因突变预测和报告生成等任务中表现优异或与现有最佳方法相当。
  • Conclusion: ALTER为病理学中的多模态学习提供了灵活且强大的解决方案。

[131] IA-MVS: Instance-Focused Adaptive Depth Sampling for Multi-View Stereo

Yinzhe Wang,Yiwen Xiao,Hu Wang,Yiping Xu,Yan Tian

Main category: cs.CV

TL;DR: 提出了一种基于实例自适应的多视角立体(IA-MVS)方法,通过缩小深度假设范围和实例级细化提升深度估计精度,并结合连续性先验增强鲁棒性。

  • Motivation: 现有方法未充分利用实例深度覆盖范围小于整个场景的潜力,且初始阶段的偏差会累积,限制了深度估计精度的进一步提升。
  • Method: 提出IA-MVS,通过实例级深度假设范围缩小和细化,结合基于连续性先验的过滤机制,并开发了基于条件概率的置信度估计模型。
  • Result: 在DTU基准测试中达到最先进性能,且无需额外训练负担。
  • Conclusion: IA-MVS通过实例自适应和鲁棒性增强显著提升了深度估计精度,适用于基于MVSNet的模型。

[132] VLC Fusion: Vision-Language Conditioned Sensor Fusion for Robust Object Detection

Aditya Taparia,Noel Ngu,Mario Leiva,Joshua Shay Kricheli,John Corcoran,Nathaniel D. Bastian,Gerardo Simari,Paulo Shakarian,Ransalu Senanayake

Main category: cs.CV

TL;DR: VLC Fusion是一种新颖的多模态融合框架,利用视觉语言模型动态调整模态权重,提升目标检测性能。

  • Motivation: 现有融合方法难以适应环境条件和传感器输入的细微变化,导致性能受限。
  • Method: 通过视觉语言模型捕获高级环境上下文(如黑暗、雨天、相机模糊),动态调整模态权重。
  • Result: 在自动驾驶和军事目标检测数据集上,VLC Fusion优于传统融合方法,检测精度更高。
  • Conclusion: VLC Fusion能有效适应环境变化,提升多模态目标检测性能。

[133] FLASH: Latent-Aware Semi-Autoregressive Speculative Decoding for Multimodal Tasks

Zihua Wang,Ruibo Li,Haozhe Du,Joey Tianyi Zhou,Yu Zhang,Xu Yang

Main category: cs.CV

TL;DR: FLASH是一种专为多模态模型设计的推测解码框架,通过轻量级潜在感知令牌压缩和半自回归解码策略,显著加速推理速度。

  • Motivation: 大型语言和多模态模型的解码速度较慢,尤其是在视觉输入令牌冗余且信息密度低的情况下,现有方法未能充分利用视觉输入特性。
  • Method: 提出FLASH框架,结合潜在感知令牌压缩和半自回归解码策略,优化多模态数据的解码效率。
  • Result: FLASH在视频字幕和视觉指令调优任务中分别实现了2.68倍和2.55倍的加速。
  • Conclusion: FLASH通过针对多模态数据特性的优化,显著提升了推理速度,同时保持输出质量。

[134] MVAR: Visual Autoregressive Modeling with Scale and Spatial Markovian Conditioning

Jinhua Zhang,Wei Long,Minghao Han,Weiyi You,Shuhang Gu

Main category: cs.CV

TL;DR: MVAR提出了一种新的自回归框架,通过引入尺度和空间马尔可夫假设,减少条件概率建模的复杂性,显著降低计算和内存消耗。

  • Motivation: 传统方法在视觉生成中存在尺度和空间冗余问题,导致计算复杂度和内存消耗高。
  • Method: MVAR引入尺度马尔可夫轨迹和空间马尔可夫注意力,仅依赖相邻尺度和局部邻域信息,降低复杂度。
  • Result: 实验表明,MVAR在性能相当或更优的同时,GPU内存占用减少3.0倍,计算复杂度从O(N^2)降至O(Nk)。
  • Conclusion: MVAR通过高效建模视觉先验,显著提升了生成效率和资源利用率。

[135] LiDAR MOT-DETR: A LiDAR-based Two-Stage Transformer for 3D Multiple Object Tracking

Martha Teiko Teye,Ori Maoz,Matthias Rottmann

Main category: cs.CV

TL;DR: 论文提出了一种基于LiDAR的两阶段DETR变换器方法,用于解决稀疏不规则点云数据中的多目标跟踪问题,通过平滑和跟踪阶段提升性能。

  • Motivation: LiDAR点云数据稀疏且不规则,传统跟踪方法依赖手工特征和运动模型,难以在拥挤或快速移动场景中保持目标一致性。
  • Method: 采用两阶段DETR变换器:平滑阶段优化检测结果,跟踪阶段通过注意力机制关联目标。
  • Result: 在nuScenes和KITTI数据集上表现优异,在线模式aMOTA为0.722,aMOTP为0.475,离线模式性能进一步提升。
  • Conclusion: 该方法在LiDAR多目标跟踪中优于基线模型和SOTA方法,尤其在在线模式下表现突出。

[136] It's not you, it's me -- Global urban visual perception varies across demographics and personalities

Matias Quintana,Youlong Gu,Xiucheng Liang,Yujun Hou,Koichi Ito,Yihan Zhu,Mahmoud Abdelrahman,Filip Biljecki

Main category: cs.CV

TL;DR: 论文通过全球街景视觉感知调查,分析了人口统计特征和人格特质对街道感知的影响,提出了新的数据集SPECS,并揭示了现有机器学习模型在感知预测中的偏差。

  • Motivation: 当前城市规划方法常忽视人口统计差异,可能导致偏见放大,因此需要更细致地研究不同人群对街道的感知差异。
  • Method: 通过全球街景图像进行大规模视觉感知调查,收集了1000名来自5个国家、45种国籍的参与者的数据,分析了人口统计和人格特质对感知的影响。
  • Result: 发现感知评分在人口统计和人格特质间存在显著差异,现有机器学习模型会高估正面指标、低估负面指标。
  • Conclusion: 研究呼吁在城市规划中更细致地考虑人口统计和人格特质,以避免偏见并提升决策的针对性。

[137] Reasoning-OCR: Can Large Multimodal Models Solve Complex Logical Reasoning Problems from OCR Cues?

Haibin He,Maoyuan Ye,Jing Zhang,Xiantao Cai,Juhua Liu,Bo Du,Dacheng Tao

Main category: cs.CV

TL;DR: 论文提出了一个名为Reasoning-OCR的基准测试,用于评估大型多模态模型(LMMs)在基于OCR线索的复杂逻辑推理能力上的表现。

  • Motivation: 现有的OCR相关基准测试主要关注简单的视觉问答和视觉文本解析能力,而LMMs在复杂逻辑推理方面的能力尚未充分探索。
  • Method: 通过设计涵盖六种视觉场景和六类推理挑战的150个问题,构建了Reasoning-OCR基准测试,并尽量减少领域专业知识的影响。
  • Result: 评估结果显示,现有LMMs在复杂推理任务上的表现有待提升,为未来研究提供了方向。
  • Conclusion: Reasoning-OCR为提升基于OCR线索的复杂推理能力提供了研究基础,并公开了数据集以促进未来研究。

[138] Pyramid Sparse Transformer: Enhancing Multi-Scale Feature Fusion with Dynamic Token Selection

Junyi Hu,Tian Bai,Fengyi Wu,Zhengming Peng,Yi Zhang

Main category: cs.CV

TL;DR: 提出了一种轻量级的Pyramid Sparse Transformer (PST)模块,通过粗到细的token选择和共享注意力参数降低计算复杂度,提升视觉模型的性能。

  • Motivation: 现有基于注意力的特征融合方法计算复杂且实现困难,限制了在资源受限环境中的效率。
  • Method: PST模块结合了粗到细的token选择和共享注意力参数,训练时仅需粗粒度注意力,推理时可无缝激活以提升精度。
  • Result: 在YOLOv11和ResNet等模型上,PST显著提升了检测和分类任务的性能(如mAP和Top-1准确率)。
  • Conclusion: PST是一种简单且硬件友好的增强模块,适用于检测和分类任务。

[139] Enhancing Transformers Through Conditioned Embedded Tokens

Hemanth Saratchandran,Simon Lucey

Main category: cs.CV

TL;DR: 论文提出一种改进Transformer注意力机制的方法,通过优化嵌入令牌的条件性,解决其固有的病态问题,从而提升训练效率和稳定性。

  • Motivation: Transformer的注意力机制存在病态问题,影响梯度优化和训练效率。
  • Method: 提出理论框架分析注意力机制的条件性,并引入条件化嵌入令牌方法改进。
  • Result: 方法显著缓解病态问题,提升训练效率和稳定性,在多任务中验证有效。
  • Conclusion: 条件化嵌入令牌方法能广泛提升Transformer的性能和训练效率。

[140] Informed Mixing -- Improving Open Set Recognition via Attribution-based Augmentation

Jiawen Xu,Odej Kao,Margret Keuper

Main category: cs.CV

TL;DR: GradMix是一种数据增强方法,通过动态利用梯度属性图来掩盖已学习概念,从而促进模型学习更多样化的特征,提升开放集识别性能。

  • Motivation: 开放集识别(OSR)需要检测未见过的类别,但现有模型难以从数据中学习到对未见类别有区分性的特征。
  • Method: 提出GradMix方法,利用训练过程中的梯度属性图动态掩盖已学习概念,鼓励模型从相同数据源学习更全面的代表性特征。
  • Result: 在开放集识别、闭集分类和分布外检测任务中,GradMix表现优于现有方法,并提升了模型鲁棒性和自监督学习性能。
  • Conclusion: GradMix通过优化特征学习过程,显著提升了模型在开放集识别和其他任务中的泛化能力。

[141] Rethinking Features-Fused-Pyramid-Neck for Object Detection

Hulin Li

Main category: cs.CV

TL;DR: 论文提出了一种独立层次金字塔(IHP)架构,通过特征非融合金字塔颈解决多尺度检测中的特征错位问题,并引入软最近邻插值(SNI)和特征自适应选择方法(ESD)提升检测性能。

  • Motivation: 多尺度检测中特征金字塔的强制点对点融合会导致特征错位,影响检测效果。
  • Method: 设计了IHP架构,引入SNI和ESD方法,结合GSConvE技术优化特征对齐。
  • Result: 在Pascal VOC和MS COCO上实现了实时检测的SOTA效果。
  • Conclusion: 提出的二次特征对齐解决方案(SA)有效解决了特征错位问题,提升了检测性能。

[142] Mitigating Hallucination in VideoLLMs via Temporal-Aware Activation Engineering

Jianfeng Cai,Wengang Zhou,Zongmeng Zhang,Jiale Hong,Nianji Zhan,Houqiang Li

Main category: cs.CV

TL;DR: 本文提出了一种时间感知的激活工程框架,用于减少视频大语言模型(VideoLLMs)中的幻觉现象,通过自适应识别和操作对时间变化敏感的模块,显著降低幻觉。

  • Motivation: 视频大语言模型在视频理解方面取得了显著进展,但幻觉问题(模型生成看似合理但错误的输出)仍未得到充分解决。激活工程在LLMs和ImageLLMs中已成功减少幻觉,但其在VideoLLMs中的应用尚未探索。
  • Method: 研究了激活工程的关键因素,发现模型对幻觉的敏感性与时间变化相关。提出了时间感知的激活工程框架,自适应识别和操作敏感模块。
  • Result: 实验表明,该方法显著减少了VideoLLMs中的幻觉现象,验证了其有效性。
  • Conclusion: 时间感知的激活工程框架是减少VideoLLMs幻觉的有效方法,无需额外微调。

[143] A Study on the Refining Handwritten Font by Mixing Font Styles

Avinash Kumar,Kyeolhee Kang,Ammar ul Hassan,Jaeyoung Choi

Main category: cs.CV

TL;DR: FontFusionGAN (FFGAN) 结合手写体和印刷体字体,利用GAN生成兼具可读性和美观性的字体。

  • Motivation: 手写体字体虽具表现力,但可读性差,需改进。
  • Method: 使用GAN训练手写体和印刷体字体数据集,生成混合字体。
  • Result: 显著提升手写体可读性,同时保留其美学特征。
  • Conclusion: FFGAN 可应用于复杂字符集字体生成及其他文本图像任务。

[144] Accelerate TarFlow Sampling with GS-Jacobi Iteration

Ben Liu,Zhen Qin

Main category: cs.CV

TL;DR: 本文提出了一种基于GS-Jacobi迭代方法的优化策略,显著加速了TarFlow模型的采样过程,同时保持了生成图像的质量。

  • Motivation: TarFlow模型的采样过程由于因果形式的注意力机制导致计算速度极慢,影响了实际应用。
  • Method: 通过分析TarFlow模型中各块的重要性差异,提出了CRM和IGM两种度量方法,结合GS-Jacobi迭代优化采样过程。
  • Result: 实验表明,优化后的采样速度在多个数据集上提升了2.51x至5.32x,且未降低FID分数或样本质量。
  • Conclusion: GS-Jacobi方法有效解决了TarFlow采样速度问题,为图像生成模型的优化提供了新思路。

[145] The Way Up: A Dataset for Hold Usage Detection in Sport Climbing

Anna Maschek,David C. Schedl

Main category: cs.CV

TL;DR: 论文提出了一种带注释的攀岩数据集,用于检测运动员位置和抓握点使用情况,并评估了基于关键点的姿态估计模型在攀岩中的应用。

  • Motivation: 目前缺乏详细的攀岩抓握点使用标注数据集,阻碍了相关应用的发展。
  • Method: 通过22个标注视频提供抓握点位置、使用顺序和时间,并利用关键点姿态估计模型分析抓握点使用。
  • Result: 评估了多种先进模型,识别了攀岩特有的挑战,并展示了模型的准确性。
  • Conclusion: 数据集和结果为攀岩姿态估计研究奠定了基础,支持未来AI辅助攀岩系统的发展。

[146] Towards a Universal Image Degradation Model via Content-Degradation Disentanglement

Wenbo Yang,Zhongling Wang,Zhou Wang

Main category: cs.CV

TL;DR: 提出了一种通用的图像退化模型,能够合成多种复杂且真实的退化效果,包括全局和空间变化的成分。

  • Motivation: 现有模型只能生成特定或狭窄范围的退化效果,缺乏通用性和适应性。
  • Method: 通过解耦压缩方法分离退化信息,并设计新模块提取和整合空间变化的退化成分。
  • Result: 模型在胶片颗粒模拟和盲图像恢复任务中表现出高准确性和适应性。
  • Conclusion: 该模型为图像退化合成提供了通用解决方案,具有广泛的应用潜力。

[147] Robust Multimodal Segmentation with Representation Regularization and Hybrid Prototype Distillation

Jiaqi Tan,Xu Zheng,Yang Liu

Main category: cs.CV

TL;DR: 提出RobustSeg框架,通过HPDM和RRM增强多模态鲁棒性,显著提升分割性能。

  • Motivation: 解决多模态语义分割在动态环境、传感器故障和噪声干扰下的性能差距问题。
  • Method: 两阶段框架:预训练多模态教师模型,学生模型通过HPDM和RRM学习教师知识。
  • Result: 在三个公开基准上分别提升2.76%、4.56%和0.98%,优于现有方法。
  • Conclusion: RobustSeg通过知识蒸馏和表示正则化有效提升多模态分割的鲁棒性。

[148] ORQA: A Benchmark and Foundation Model for Holistic Operating Room Modeling

Ege Özsoy,Chantal Pellegrini,David Bani-Harouni,Kun Yuan,Matthias Keicher,Nassir Navab

Main category: cs.CV

TL;DR: ORQA是一个新型手术室问答基准和多模态基础模型,旨在提升手术室智能。通过整合四个公共数据集,支持多样化任务,并采用渐进式知识蒸馏优化模型性能。

  • Motivation: 手术复杂性要求系统具备全面理解能力,但现有研究局限于单任务,缺乏通用性。ORQA旨在解决这一问题。
  • Method: 整合多模态数据(视觉、听觉、结构化数据),提出渐进式知识蒸馏方法,生成适应不同需求的模型家族。
  • Result: ORQA在基准测试中表现优异,具备零样本泛化能力,推动了手术室多模态智能的发展。
  • Conclusion: ORQA为手术室建模提供了可扩展的统一框架,显著推进了多模态手术智能的研究。

[149] EPIC: Explanation of Pretrained Image Classification Networks via Prototype

Piotr Borycki,Magdalena Trędowicz,Szymon Janusz,Jacek Tabor,Przemysław Spurek,Arkadiusz Lewicki,Łukasz Struski

Main category: cs.CV

TL;DR: EPIC是一种新型的XAI方法,结合了后处理和原型解释的优点,无需修改预训练模型即可提供直观的原型解释。

  • Motivation: 现有XAI方法中,后处理解释粗糙,原型解释需要专用架构和训练。EPIC旨在填补这一空白。
  • Method: EPIC在预训练模型上操作,无需架构修改,通过原型解释模型决策。
  • Result: EPIC在CUB-200-2011、Stanford Cars和ImageNet等数据集上验证了其解释能力。
  • Conclusion: EPIC首次在后处理方法中完全复制了原型解释的核心能力,提供了灵活且易于理解的解释工具。

[150] Towards Low-Latency Event Stream-based Visual Object Tracking: A Slow-Fast Approach

Shiao Wang,Xiao Wang,Liye Jin,Bo Jiang,Lin Zhu,Lan Chen,Yonghong Tian,Bin Luo

Main category: cs.CV

TL;DR: 提出了一种基于事件相机的慢快跟踪范式(SFTrack),通过两种互补模式适应不同资源需求,实现低延迟高效跟踪。

  • Motivation: 传统基于RGB相机的跟踪算法在低延迟和资源受限环境下表现不佳,事件相机因其优势成为研究热点。
  • Method: 采用图表示学习从事件流中提取信息,结合FlashAttention视觉骨干网络,设计慢快两种跟踪器,并通过知识蒸馏优化性能。
  • Result: 在多个公开数据集上验证了方法的有效性和高效性,适用于不同实际场景。
  • Conclusion: SFTrack在资源受限和低延迟需求场景中表现出色,为事件相机跟踪提供了新思路。

[151] Dynamic Graph Induced Contour-aware Heat Conduction Network for Event-based Object Detection

Xiao Wang,Yu Jin,Lan Chen,Bo Jiang,Lin Zhu,Yonghong Tian,Jin Tang,Bin Luo

Main category: cs.CV

TL;DR: 提出了一种名为CvHeat-DET的动态图诱导轮廓感知热传导网络,用于基于事件流的物体检测,解决了现有方法在轮廓建模和多尺度特征利用上的不足。

  • Motivation: 事件视觉传感器(EVS)在低光、高速运动捕捉和低延迟方面具有优势,但现有基于CNN或Transformer的检测算法在局部特征捕获或计算成本上存在局限。
  • Method: 提出动态图诱导轮廓感知热传导网络,利用事件流的清晰轮廓信息预测热传导系数,并整合多尺度图特征。
  • Result: 在三个基准数据集上的实验验证了模型的有效性。
  • Conclusion: CvHeat-DET在事件流物体检测中表现出色,代码将开源。

[152] HiERO: understanding the hierarchy of human behavior enhances reasoning on egocentric videos

Simone Alberto Peirone,Francesca Pistilli,Giuseppe Averta

Main category: cs.CV

TL;DR: HiERO是一种弱监督方法,通过层次化活动线程丰富视频片段特征,利用视频与描述的对齐实现上下文、语义和时间推理,在多个基准测试中表现优异。

  • Motivation: 人类活动复杂多变,但其变异性具有层次化的动作模式结构,可以利用未脚本视频中的这种结构更好地推理内容。
  • Method: HiERO通过视频片段与叙述描述的对齐,采用层次化架构推断上下文、语义和时间关系。
  • Result: 在EgoMCQ、EgoNLQ等基准测试中表现优异,零样本下在程序学习任务中显著优于全监督方法(EgoProceL上F1提高12.5%)。
  • Conclusion: 层次化人类活动知识在自我中心视觉的多重推理任务中具有重要价值。

[153] Uniformity First: Uniformity-aware Test-time Adaptation of Vision-language Models against Image Corruption

Kazuki Adachi,Shin'ya Yamaguchi,Tomoki Hamagami

Main category: cs.CV

TL;DR: 论文提出了一种名为UnInfo的方法,用于解决预训练视觉语言模型(如CLIP)在传感器退化导致的分布偏移问题中的脆弱性。通过均匀性感知信息平衡的测试时适应(TTA),UnInfo显著提升了模型在传感器退化情况下的分类准确性。

  • Motivation: CLIP等预训练视觉语言模型在分布偏移(尤其是传感器退化)时表现不佳,而收集新数据成本高昂,因此需要一种无需标记数据的测试时适应方法。
  • Method: 提出了UnInfo方法,包括均匀性感知置信度最大化、信息感知损失平衡和EMA教师的知识蒸馏,以解决图像嵌入的均匀性损坏问题。
  • Result: 实验表明,UnInfo通过保持均匀性信息,显著提升了模型在传感器退化情况下的准确性。
  • Conclusion: UnInfo是一种有效的测试时适应方法,能够显著提升CLIP在传感器退化情况下的鲁棒性。

[154] LatentINDIGO: An INN-Guided Latent Diffusion Algorithm for Image Restoration

Di You,Daniel Siromani,Pier Luigi Dragotti

Main category: cs.CV

TL;DR: 论文提出了一种基于小波可逆神经网络的潜在扩散模型,用于解决图像恢复任务中的复杂或未知退化问题,并减少计算开销。

  • Motivation: 现有方法依赖预定义的退化算子,难以处理复杂或未知退化,且在潜在空间中缺乏稳定指导,计算开销大。
  • Method: 引入小波启发的可逆神经网络(INN),通过前向变换模拟退化,逆向变换恢复细节,并将其集成到潜在扩散模型中。
  • Result: 实验表明,该方法在合成和真实低质量图像上达到最优性能,并可适应任意输出尺寸。
  • Conclusion: 提出的方法有效解决了复杂退化问题,减少了计算开销,提升了图像恢复性能。

[155] Multiscale Adaptive Conflict-Balancing Model For Multimedia Deepfake Detection

Zihan Xiong,Xiaohua Wu,Lei Chen,Fangqi Lou

Main category: cs.CV

TL;DR: 提出了一种音频-视觉联合学习方法(MACB-DF),通过对比学习和多模态融合解决模态冲突和忽视问题,显著提升了深度伪造检测性能。

  • Motivation: 深度伪造技术模糊了真实与伪造媒体的界限,现有检测方法因模态间学习不平衡而受限。
  • Method: 采用对比学习和多级跨模态融合,设计正交化多模态帕累托模块以保留单模态信息并解决梯度冲突。
  • Result: 在主流数据集上平均准确率达95.5%,跨数据集泛化能力显著提升,ACC分数比之前最佳方法提高8.0%和7.7%。
  • Conclusion: MACB-DF方法有效平衡并利用了多模态信息,显著提升了深度伪造检测的性能和泛化能力。

[156] A Skull-Adaptive Framework for AI-Based 3D Transcranial Focused Ultrasound Simulation

Vinkle Srivastav,Juliette Puel,Jonathan Vappou,Elijah Van Houten,Paolo Cabras,Nicolas Padoy

Main category: cs.CV

TL;DR: TFUScapes是一个大规模高分辨率数据集,用于模拟经颅聚焦超声(tFUS)在真实人类头骨中的传播,并提出了DeepTFUS深度学习模型,直接从CT体积和换能器位置估计压力场。

  • Motivation: 解决tFUS在人类头骨中传播时因异质性和各向异性导致的波前失真问题,减少患者特异性规划和数值求解的时间。
  • Method: 使用k-Wave伪谱求解器构建TFUScapes数据集,开发DeepTFUS模型,基于U-Net架构结合换能器感知条件和多种特征融合机制。
  • Result: DeepTFUS能够直接从CT体积和换能器位置估计高保真压力场,TFUScapes数据集公开发布以促进相关研究。
  • Conclusion: TFUScapes和DeepTFUS为tFUS研究提供了数据驱动的方法,加速了计算声学、神经技术和深度学习的交叉研究。

[157] Anti-Inpainting: A Proactive Defense against Malicious Diffusion-based Inpainters under Unknown Conditions

Yimao Guo,Zuomin Qu,Wei Lu,Xiangyang Luo

Main category: cs.CV

TL;DR: 论文提出了一种名为Anti-Inpainting的主动防御方法,通过三重机制保护图像免受未知条件下的恶意篡改。

  • Motivation: 当前大多数主动防御方法仅能在已知条件下保护图像,无法应对恶意用户设计的未知篡改条件。
  • Method: 提出多级深度特征提取器、多尺度语义保留数据增强和基于选择的分布偏差优化策略。
  • Result: 实验表明,Anti-Inpainting在InpaintGuardBench和CelebA-HQ数据集上对未知条件的篡改具有显著防御效果,且具有鲁棒性和迁移性。
  • Conclusion: Anti-Inpainting为未知条件下的图像篡改提供了有效的主动防御解决方案。

[158] Expert-Like Reparameterization of Heterogeneous Pyramid Receptive Fields in Efficient CNNs for Fair Medical Image Classification

Xiao Wu,Xiaoqing Zhang,Zunjie Xiao,Lingxi Hu,Risa Higashita,Jiang Liu

Main category: cs.CV

TL;DR: 提出了一种名为ERoHPRF的新方法,通过异构金字塔感受野和多专家咨询模式,提升医学图像分类的性能和公平性。

  • Motivation: 解决现有CNN在医学图像分类中无法高效捕捉多样化病灶特征和预测不公平的问题。
  • Method: 设计了异构金字塔感受野袋和专家级结构重参数化技术,结合两阶段策略优化计算成本和推理速度。
  • Result: 实验表明,该方法在分类性能、公平性和计算开销方面优于现有技术。
  • Conclusion: ERoHPRF为医学图像分类提供了一种高效且公平的解决方案,代码即将公开。

[159] A Generalized Label Shift Perspective for Cross-Domain Gaze Estimation

Hao-Ran Yang,Xiaohui Chen,Chuan-Xian Ren

Main category: cs.CV

TL;DR: 本文提出了一种基于广义标签偏移(GLS)理论的新视角,用于跨域注视估计(CDGE),通过标签和条件偏移建模问题,并提出了一个修正框架。

  • Motivation: 现有CDGE方法通常提取域不变特征以缓解特征空间中的域偏移,但GLS理论证明其不足。
  • Method: 引入基于截断高斯分布的重要性重加权策略,并提出概率感知的条件算子差异估计。
  • Result: 在标准CDGE任务上的实验验证了方法的优越泛化能力和适用性。
  • Conclusion: 提出的GLS修正框架有效解决了跨域注视估计中的标签和条件偏移问题。

[160] RGB-to-Polarization Estimation: A New Task and Benchmark Study

Beibei Lin,Zifeng Yuan,Tingting Chen

Main category: cs.CV

TL;DR: 论文提出了一种新任务:从RGB图像直接估计偏振信息,建立了首个综合基准,评估了多种深度学习模型,并分析了其优缺点。

  • Motivation: 偏振图像比标准RGB图像提供更多物理信息,但获取偏振图像成本高且复杂。研究旨在通过RGB图像推断偏振信息,降低应用门槛。
  • Method: 利用现有偏振数据集,评估多种深度学习模型(包括修复和生成架构),进行定量和定性分析。
  • Result: 基准确定了RGB到偏振估计的性能上限,揭示了不同模型家族的优缺点(如直接重建与生成合成,任务特定训练与大规模预训练)。
  • Conclusion: 研究为偏振估计提供了基础资源,并指出了未来研究方向。

[161] 3D Visual Illusion Depth Estimation

CHengtang Yao,Zhidan Liu,Jiaxi Zeng,Lidong Yu,Yuwei Wu,Yunde Jia

Main category: cs.CV

TL;DR: 论文揭示机器视觉系统会被3D视觉错觉欺骗,并提出一种结合视觉语言模型的深度估计框架,优于现有方法。

  • Motivation: 探索3D视觉错觉对深度估计的影响,并解决现有方法在此问题上的不足。
  • Method: 收集大规模数据集,训练和评估现有深度估计方法,并提出一种结合视觉语言模型的框架。
  • Result: 现有深度估计方法均被3D视觉错觉欺骗,而新方法表现最佳。
  • Conclusion: 新方法在3D视觉错觉场景下显著优于现有技术。

[162] Cross-modal feature fusion for robust point cloud registration with ambiguous geometry

Zhaoyi Wang,Shengyu Huang,Jemil Avers Butt,Yuanzhou Cai,Matej Varga,Andreas Wieser

Main category: cs.CV

TL;DR: CoFF提出了一种跨模态特征融合方法,结合点云几何和RGB图像信息,显著提升了点云配准性能。

  • Motivation: 现有方法忽视RGB图像的辐射信息,导致在几何数据不足的区域配准效果不佳。
  • Method: CoFF通过两阶段融合3D点云特征和2D图像特征,包括像素级和块级特征融合,以及粗到细的匹配模块。
  • Result: 在多个数据集上达到最先进性能,3DMatch和3DLoMatch的配准召回率分别为95.9%和81.6%。
  • Conclusion: CoFF有效利用跨模态信息,显著提升了点云配准的准确性和鲁棒性。

[163] Touch2Shape: Touch-Conditioned 3D Diffusion for Shape Exploration and Reconstruction

Yuanbo Wang,Zhaoxuan Zhang,Jiajin Qiu,Dilong Sun,Zhengyu Meng,Xiaopeng Wei,Xin Yang

Main category: cs.CV

TL;DR: 论文提出Touch2Shape模型,利用触觉图像捕捉局部3D信息,结合扩散模型和强化学习,提升复杂形状的细节重建和探索能力。

  • Motivation: 现有3D扩散模型在全局上下文理解上表现优异,但难以捕捉复杂形状的局部细节,且受限于遮挡和光照条件。
  • Method: 提出Touch2Shape模型,包括触觉嵌入模块和触觉形状融合模块,结合扩散模型与强化学习训练探索策略。
  • Result: 实验验证了重建质量,触觉探索策略进一步提升了重建性能。
  • Conclusion: Touch2Shape模型有效克服了现有方法的局限性,提升了局部细节重建和形状探索能力。

[164] Industry-focused Synthetic Segmentation Pre-training

Shinichi Mae,Ryosuke Yamada,Hirokatsu Kataoka

Main category: cs.CV

TL;DR: 提出InsCore,一种基于合成数据的预训练数据集,用于工业应用中的实例分割,无需真实图像或人工标注,性能优于COCO、ImageNet-21k和微调SAM。

  • Motivation: 工业应用面临法律限制和领域差距问题,现有模型(如SAM)在工业场景中性能下降。
  • Method: 使用公式驱动的监督学习(FDSL)生成合成数据集InsCore,模拟工业数据特征。
  • Result: 在五个工业数据集上,InsCore预训练模型平均提升6.2点实例分割性能,数据效率高(仅需10万张合成图像)。
  • Conclusion: InsCore是一种实用且无许可限制的工业视觉基础模型。

[165] ARIW-Framework: Adaptive Robust Iterative Watermarking Framework

Shaowu Wu,Liting Zeng,Wei Lu,Xiangyang Luo

Main category: cs.CV

TL;DR: 本文提出了一种自适应鲁棒迭代水印框架(ARIW-Framework),通过优化编码器和并行优化策略,显著提升了水印图像的视觉质量、鲁棒性和泛化性能。

  • Motivation: 随着大模型的快速发展,生成图像内容的版权保护成为关键安全挑战。现有深度学习水印技术在视觉质量、鲁棒性和泛化性方面存在局限。
  • Method: 提出ARIW-Framework,采用迭代方法优化编码器生成鲁棒残差,结合噪声层和解码器计算鲁棒权重,并通过并行优化策略增强对多种噪声攻击的鲁棒性。利用图像梯度确定嵌入强度,提升视觉质量。
  • Result: 实验表明,该方法在保持高视觉质量的同时,对噪声攻击表现出卓越的鲁棒性和泛化性能。
  • Conclusion: ARIW-Framework有效解决了现有水印技术的局限性,为生成图像内容的版权保护提供了高效解决方案。

[166] Just Dance with π! A Poly-modal Inductor for Weakly-supervised Video Anomaly Detection

Snehashis Majhi,Giacomo D'Amicantonio,Antitza Dantcheva,Quan Kong,Lorenzo Garattoni,Gianpiero Francesca,Egor Bondarev,Francois Bremond

Main category: cs.CV

TL;DR: 论文提出了一种多模态增强的弱监督视频异常检测方法PI-VAD,通过引入五种额外模态来提升RGB特征的区分能力,并在训练时使用辅助任务生成原型表示,最终在多个数据集上达到SOTA性能。

  • Motivation: 现有基于RGB时空特征的弱监督视频异常检测方法在复杂真实场景中可靠性不足,因为RGB特征难以区分视觉相似的事件(如盗窃与正常行为)。
  • Method: PI-VAD通过五种额外模态(姿态、深度、全景掩码、光流和语言线索)增强RGB特征,设计了伪模态生成模块和跨模态诱导模块,利用辅助任务生成原型表示。
  • Result: 在三个主流视频异常检测数据集上实现了SOTA性能,且推理时无需额外模态主干网络。
  • Conclusion: 多模态增强显著提升了视频异常检测的鲁棒性,PI-VAD为复杂场景提供了一种高效解决方案。

[167] Adaptive Image Restoration for Video Surveillance: A Real-Time Approach

Muhammad Awais Amin,Adama Ilboudo,Abdul Samad bin Shahid,Amjad Ali,Waqas Haider Khan Bangyal

Main category: cs.CV

TL;DR: 开发了一种基于ResNet_50的实时图像修复模型,用于视频监控中的多退化类型识别与修复。

  • Motivation: 图像退化(如雨、雾、光照等)影响计算机视觉任务的自动化决策,现有修复模型难以满足实时处理需求。
  • Method: 利用迁移学习与ResNet_50,开发能自动识别图像退化类型并选择修复方法的模型。
  • Result: 模型具有灵活性和可扩展性,适用于实时视频监控。
  • Conclusion: 该研究为实时图像修复提供了一种高效解决方案。

[168] Learning to Adapt to Position Bias in Vision Transformer Classifiers

Robert-Jan Bruintjes,Jan van Gemert

Main category: cs.CV

TL;DR: 论文研究了位置信息对图像分类的重要性,提出了一种衡量位置偏差的方法Position-SHAP,并开发了Auto-PE嵌入技术以优化分类性能。

  • Motivation: 探讨位置信息在图像分类中的作用,尤其是在不同数据集中的表现差异,以及如何利用位置偏差提升模型性能。
  • Method: 提出Position-SHAP方法量化位置偏差,并设计Auto-PE嵌入技术,动态调整位置嵌入的范数以适应不同数据集。
  • Result: 在不同数据集中观察到不同程度的位置偏差,Auto-PE能够结合现有嵌入技术提升分类准确率。
  • Conclusion: 位置偏差对视觉Transformer分类器性能至关重要,Auto-PE是一种灵活且有效的解决方案。

[169] CacheFlow: Fast Human Motion Prediction by Cached Normalizing Flow

Takahiro Maeda,Jinkun Cao,Norimichi Ukita,Kris Kitani

Main category: cs.CV

TL;DR: CacheFlow是一种基于流的快速3D人体运动预测方法,通过预计算和缓存技术显著提升推理速度,同时保持预测精度。

  • Motivation: 解决现有3D人体运动预测方法推理时间过长的问题,提出更高效的密度估计技术。
  • Method: 采用两阶段方法:1) 预计算基于流的生成模型结果并缓存;2) 使用轻量级模型完成条件预测。
  • Result: 推理时间仅需1毫秒,比VAE快4倍,比扩散方法快30倍,且在Human3.6M上密度估计精度更高。
  • Conclusion: CacheFlow在速度和精度上均优于现有方法,适合实时应用。

[170] FlowCut: Unsupervised Video Instance Segmentation via Temporal Mask Matching

Alp Eren Sari,Paolo Favaro

Main category: cs.CV

TL;DR: FlowCut是一种简单有效的无监督视频实例分割方法,通过三阶段框架生成高质量伪标签视频数据集,并在多个基准测试中取得最佳性能。

  • Motivation: 当前无监督视频实例分割领域缺乏高质量的伪标签数据集,FlowCut旨在填补这一空白。
  • Method: FlowCut采用三阶段框架:1) 利用图像和光流特征生成伪实例掩码;2) 通过时间匹配构建高质量短视频段;3) 从YouTubeVIS-2021提取训练集并训练模型。
  • Result: FlowCut在YouTubeVIS-2019、YouTubeVIS-2021、DAVIS-2017等基准测试中达到最先进性能。
  • Conclusion: FlowCut为无监督视频实例分割提供了高效解决方案,并展示了伪标签数据集的潜力。

[171] Emergence of Fixational and Saccadic Movements in a Multi-Level Recurrent Attention Model for Vision

Pengcheng Pan,Yonekura Shogo,Yasuo Kuniyoshi

Main category: cs.CV

TL;DR: MRAM提出了一种新型硬注意力框架,通过模拟人类视觉处理的神经层次结构,实现了更接近人类眼动行为的注意力动态。

  • Motivation: 现有硬注意力模型(如RAM和DRAM)未能模拟人类视觉系统的层次结构,导致注意力动态偏离人类眼动行为。
  • Method: MRAM通过将瞥视位置生成和任务执行功能解耦到两个循环层中,模拟人类视觉处理的神经层次结构。
  • Result: MRAM不仅实现了更接近人类眼动行为的注意力动态,还在标准图像分类基准上优于CNN、RAM和DRAM基线。
  • Conclusion: MRAM通过层次化建模,显著提升了硬注意力模型的性能和人类行为相似性。

[172] MatPredict: a dataset and benchmark for learning material properties of diverse indoor objects

Yuzhen Chen,Hojun Son,Arpan Kusari

Main category: cs.CV

TL;DR: MatPredict数据集结合了Replica和MatSynth的数据,生成了18种常见物体和14种不同材质的合成数据,用于从视觉图像推断材质属性,并提供了光照和相机位置的多样性。

  • Motivation: 通过从相机图像中确定材质属性,提升消费机器人对复杂物体的识别能力。
  • Method: 选择特定前景物体的3D网格,用不同材质渲染,生成多样化的合成数据,并测试神经网络模型在材质推断上的性能。
  • Result: 通过模拟光线与材质的交互,增强了数据集的真实感,为大规模仿真训练提供了有效支持。
  • Conclusion: MatPredict数据集有望革新消费机器人的感知能力,相关数据和代码已公开。

[173] MAGI-1: Autoregressive Video Generation at Scale

Sand. ai,Hansi Teng,Hongyu Jia,Lei Sun,Lingzhi Li,Maolin Li,Mingqiu Tang,Shuai Han,Tianning Zhang,W. Q. Zhang,Weifeng Luo,Xiaoyang Kang,Yuchen Sun,Yue Cao,Yunpeng Huang,Yutong Lin,Yuxin Fang,Zewei Tao,Zheng Zhang,Zhongshu Wang,Zixun Liu,Dai Shi,Guoli Su,Hanwen Sun,Hong Pan,Jie Wang,Jiexin Sheng,Min Cui,Min Hu,Ming Yan,Shucheng Yin,Siran Zhang,Tingting Liu,Xianping Yin,Xiaoyu Yang,Xin Song,Xuan Hu,Yankai Zhang,Yuqiao Li

Main category: cs.CV

TL;DR: MAGI-1是一种通过自回归预测视频块序列生成视频的世界模型,支持流式生成,并在图像到视频任务中表现出色。

  • Motivation: 解决视频生成中的时间一致性和可扩展性问题,支持可控生成和实时部署。
  • Method: 采用自回归预测视频块,通过单调增加的噪声去噪训练,支持块级提示和恒定推理成本。
  • Result: MAGI-1在图像到视频任务中表现优异,支持高达240亿参数和400万token的上下文长度。
  • Conclusion: MAGI-1展示了视频生成的可扩展性和鲁棒性,代码和模型已开源。

[174] RB-SCD: A New Benchmark for Semantic Change Detection of Roads and Bridges in Traffic Scenes

Qingling Shu,Sibao Chen,Zhihui You,Wei Lu,Jin Tang,Bin Luo

Main category: cs.CV

TL;DR: 论文提出了RB-SCD数据集和MFDCD框架,用于精细语义变化检测,解决了现有方法在交通场景中缺乏高质量标注数据的问题。

  • Motivation: 现有方法在道路和桥梁的精细语义变化检测上表现不佳,主要由于缺乏高质量标注数据集。
  • Method: 提出RB-SCD数据集和MFDCD框架,结合多模态特征和频率域分析,包括动态频率耦合器和文本频率滤波器。
  • Result: 在RB-SCD和三个公共基准测试中验证了方法的有效性。
  • Conclusion: RB-SCD和MFDCD为道路桥梁语义变化检测提供了新的解决方案。

[175] Hybrid 3D-4D Gaussian Splatting for Fast Dynamic Scene Representation

Seungjun Oh,Younggeun Lee,Hyejin Jeon,Eunbyung Park

Main category: cs.CV

TL;DR: 提出了一种混合3D-4D高斯泼溅方法(3D-4DGS),通过自适应地将静态区域表示为3D高斯,动态区域保留为4D高斯,显著减少了计算和内存开销,同时保持了视觉质量。

  • Motivation: 现有4D高斯泼溅方法在静态区域冗余分配4D高斯,导致计算和内存开销大,且可能降低图像质量。
  • Method: 从完全4D高斯表示开始,迭代地将时间不变的高斯转换为3D,动态高斯保留4D表示。
  • Result: 相比基线4D高斯泼溅方法,训练时间显著缩短,视觉质量保持或提升。
  • Conclusion: 3D-4DGS是一种高效且高保真的动态3D场景重建方法。

[176] Swin DiT: Diffusion Transformer using Pseudo Shifted Windows

Jiafu Wu,Yabiao Wang,Jian Li,Jinlong Peng,Yun Cao,Chengjie Wang,Jiangning Zhang

Main category: cs.CV

TL;DR: Swin-DiT通过PSWA和PCCA策略优化了传统DiT的全局计算冗余问题,显著提升了图像生成性能。

  • Motivation: 传统DiT在处理高分辨率图像时计算成本高,且全局信息依赖性被高估,导致冗余。
  • Method: 提出PSWA(伪移位窗口注意力)和PCCA(渐进覆盖通道分配)策略,减少全局计算冗余并优化注意力机制。
  • Result: Swin-DiT-L在FID指标上比DiT-XL/2提升54%,且计算成本更低。
  • Conclusion: Swin-DiT通过局部-全局信息交互和高频信息补充,显著提升了图像生成效率与质量。

[177] Automatic Complementary Separation Pruning Toward Lightweight CNNs

David Levin,Gonen Singer

Main category: cs.CV

TL;DR: ACSP是一种全自动的卷积神经网络剪枝方法,结合结构化剪枝和基于激活的剪枝,高效移除冗余组件,同时保留关键部分。

  • Motivation: 旨在解决传统剪枝方法需要手动定义剪枝量的问题,提高剪枝的自动化和实用性。
  • Method: 通过构建图空间编码组件的分离能力,利用互补选择和聚类算法,自动确定每层最优组件子集。
  • Result: 在多种架构和数据集上验证,ACSP在保持高精度的同时显著降低计算成本。
  • Conclusion: ACSP是一种高效、全自动的剪枝方法,适用于实际部署。

[178] From Local Details to Global Context: Advancing Vision-Language Models with Attention-Based Selection

Lincan Cai,Jingxuan Kang,Shuang Li,Wenxuan Ma,Binhui Xie,Zhida Qin,Jian Liang

Main category: cs.CV

TL;DR: ABS方法通过注意力引导的裁剪和特征选择,提升视觉语言模型的零样本性能,避免随机增强的负面影响。

  • Motivation: 随机视觉增强可能导致模型过度关注局部细节而忽略全局语义,需改进。
  • Method: 提出ABS方法,结合注意力引导的裁剪和特征选择,辅以软匹配技术优化LLM描述对齐。
  • Result: ABS在分布外泛化和零样本分类任务中达到SOTA性能,且无需训练。
  • Conclusion: ABS是一种高效且无需训练的方法,显著提升零样本任务性能。

[179] WriteViT: Handwritten Text Generation with Vision Transformer

Dang Hoai Nam,Huynh Tong Dang Khoa,Vo Nguyen Le Duy

Main category: cs.CV

TL;DR: WriteViT是一个基于Vision Transformers的单样本手写文本合成框架,通过分离内容和风格,在低数据环境下生成高质量手写文本。

  • Motivation: 人类能快速从单一样本中泛化手写风格,但机器在低数据环境下难以捕捉细微的空间和风格线索。
  • Method: WriteViT结合ViT提取风格嵌入,使用多尺度生成器和轻量级ViT识别器,利用Transformer捕捉细节和风格信息。
  • Result: 在越南语和英语数据集上,WriteViT生成高质量、风格一致的手写文本,并在低资源场景下保持强识别性能。
  • Conclusion: 基于Transformer的设计在多语言手写生成和高效风格适应中具有潜力。

[180] Joint Depth and Reflectivity Estimation using Single-Photon LiDAR

Hashan K. Weerasooriya,Prateek Chennuri,Weijian Zhang,Istvan Gyongy,Stanley H. Chan

Main category: cs.CV

TL;DR: 论文提出了一种名为SPLiDER的新方法,用于在快速移动场景中同时恢复深度和反射率,优于现有方法。

  • Motivation: 现有SP-LiDAR方法通常单独或顺序恢复深度和反射率,且在动态场景中效率不足,需要更直接处理时间戳的方法。
  • Method: 提出SPLiDER方法,通过理论分析深度与反射率的互相关性,并利用共享信息增强信号恢复。
  • Result: 在合成和真实SP-LiDAR数据上,SPLiDER方法在联合重建质量上优于现有方法。
  • Conclusion: SPLiDER方法在动态场景中高效且有效,为SP-LiDAR技术提供了更好的解决方案。

[181] Unlocking the Potential of Difficulty Prior in RL-based Multimodal Reasoning

Mingrui Chen,Haogeng Liu,Hao Liang,Huaibo Huang,Wentao Zhang,Ran He

Main category: cs.CV

TL;DR: 本文探讨了如何通过显式建模问题的难度先验信息来提升基于强化学习的多模态推理微调效果,提出了离线数据筛选、在线优势差异化和难度提示三种方法,显著提升了性能。

  • Motivation: 研究如何利用问题难度信息优化强化学习在多模态推理任务中的微调效果。
  • Method: 1. 离线数据筛选:通过多轮采样分析数据集的U型难度分布,过滤过于简单或困难的样本;2. 在线优势差异化:基于组内准确率动态调整优势估计权重;3. 难度提示:在第二阶段训练中为复杂样本添加显式提示。
  • Result: 在仅使用2K+0.6K训练数据的情况下,在多模态数学推理基准测试中表现显著提升。
  • Conclusion: 显式建模难度信息能有效提升多模态推理任务的强化学习微调效果。

[182] DB3D-L: Depth-aware BEV Feature Transformation for Accurate 3D Lane Detection

Yehao Liu,Xiaosu Xu,Zijian Wang,Yiqing Yao

Main category: cs.CV

TL;DR: 提出了一种基于深度感知BEV特征转换的3D车道检测方法,通过整合深度信息简化视图变换,并在合成和真实数据集上表现优异。

  • Motivation: 现有方法因缺乏深度信息而依赖平坦地面假设,深度估计与车道检测任务融合效果不佳。
  • Method: 设计特征提取模块(含Depth Net)、特征降维模块和融合模块,结合FV特征与深度信息构建BEV特征。
  • Result: 在Apollo和OpenLane数据集上表现与最先进方法相当。
  • Conclusion: 深度感知BEV特征转换方法有效提升了3D车道检测的准确性。

[183] Event-Driven Dynamic Scene Depth Completion

Zhiqiang Yan,Jianhao Jiao,Zhengxue Wang,Gim Hee Lee

Main category: cs.CV

TL;DR: 论文提出EventDC,首个基于事件的深度补全框架,通过事件调制对齐和局部深度过滤模块,在动态场景中提升深度补全效果。

  • Motivation: 动态场景中,快速自我运动和物体运动会导致RGB图像和LiDAR测量质量下降,传统RGB-D传感器难以精确对齐和捕获可靠深度。事件相机的高时间分辨率和运动敏感性为此提供了互补信息。
  • Method: EventDC包含事件调制对齐(EMA)和局部深度过滤(LDF)两个模块,分别通过学习事件流驱动的卷积偏移和权重,实现RGB-D特征对齐和深度估计优化。
  • Result: 实验表明EventDC在动态场景中表现优越,并建立了首个基于事件的深度补全基准数据集。
  • Conclusion: EventDC通过事件驱动的方法有效解决了动态场景中的深度补全问题,为未来研究提供了新方向。

[184] Computer Vision Models Show Human-Like Sensitivity to Geometric and Topological Concepts

Zekun Wang,Sashank Varma

Main category: cs.CV

TL;DR: 研究探讨计算机视觉模型与人类对几何和拓扑(GT)概念敏感性的对齐问题,发现Transformer模型表现最佳且与儿童表现一致,而视觉语言模型表现较差。

  • Motivation: 探讨GT概念是先天还是通过日常互动习得的,并评估计算机视觉模型在此问题上的表现。
  • Method: 使用三类模型(CNN、Transformer、视觉语言模型)在包含43个GT概念的odd-one-out任务上进行测试。
  • Result: Transformer模型表现最佳,与儿童表现一致;视觉语言模型表现较差且偏离人类表现。
  • Conclusion: 支持学习解释人类GT敏感性,同时指出多模态整合可能带来负面影响。

[185] DD-Ranking: Rethinking the Evaluation of Dataset Distillation

Zekai Li,Xinhao Zhong,Samir Khaki,Zhiyuan Liang,Yuhao Zhou,Mingjia Shi,Ziqiao Wang,Xuanlei Zhao,Wangbo Zhao,Ziheng Qin,Mengxuan Wu,Pengfei Zhou,Haonan Wang,David Junhao Zhang,Jia-Wei Liu,Shaobo Wang,Dai Liu,Linfeng Zhang,Guang Li,Kun Wang,Zheng Zhu,Zhiheng Ma,Joey Tianyi Zhou,Jiancheng Lv,Yaochu Jin,Peihao Wang,Kaipeng Zhang,Lingjuan Lyu,Yiran Huang,Zeynep Akata,Zhiwei Deng,Xindi Wu,George Cazenavette,Yuzhang Shang,Justin Cui,Jindong Gu,Qian Zheng,Hao Ye,Shuo Wang,Xiaobo Wang,Yan Yan,Angela Yao,Mike Zheng Shou,Tianlong Chen,Hakan Bilen,Baharan Mirzasoleiman,Manolis Kellis,Konstantinos N. Plataniotis,Zhangyang Wang,Bo Zhao,Yang You,Kai Wang

Main category: cs.CV

TL;DR: 论文提出DD-Ranking框架,解决数据集蒸馏评估中的准确性指标不可靠问题,并提出新评估标准。

  • Motivation: 现有数据集蒸馏方法依赖准确性指标,但其改进可能源于额外技术而非图像本身质量,导致评估不公。
  • Method: 提出DD-Ranking框架和新评估指标,关注蒸馏数据集的实际信息增强。
  • Result: DD-Ranking提供了更全面、公平的评估标准,揭示了不同方法的真实性能提升。
  • Conclusion: DD-Ranking为未来研究提供了更可靠的评估工具,促进数据集蒸馏领域的健康发展。

[186] GMM-Based Comprehensive Feature Extraction and Relative Distance Preservation For Few-Shot Cross-Modal Retrieval

Chengsong Sun,Weiping Li,Xiang Li,Yuankun Liu,Lianlei Shan

Main category: cs.CV

TL;DR: 论文提出了一种名为GCRDP的新方法,用于解决少样本跨模态检索中的偏差问题,通过高斯混合模型和多正样本对比学习机制提升性能。

  • Motivation: 传统跨模态检索方法假设训练和测试数据类别分布相同,而少样本检索中数据稀疏且分布复杂,现有方法难以建模多峰分布,导致潜在语义空间中的偏差。
  • Method: 提出GCRDP方法,利用高斯混合模型捕捉数据多峰分布,结合多正样本对比学习机制和新的跨模态语义对齐策略。
  • Result: 在四个基准数据集上的实验表明,GCRDP优于六种现有方法。
  • Conclusion: GCRDP通过建模复杂数据分布和优化语义对齐,显著提升了少样本跨模态检索的准确性。

[187] eStonefish-scenes: A synthetically generated dataset for underwater event-based optical flow prediction tasks

Jad Mansour,Sebastian Realpe,Hayat Rajani,Michele Grimaldi,Rafael Garcia,Nuno Gracias

Main category: cs.CV

TL;DR: 论文提出了一种基于Stonefish模拟器的合成事件光流数据集eStonefish-scenes,用于解决水下应用中事件视觉数据缺乏的问题,并提供了数据处理库eWiz。

  • Motivation: 现有的事件视觉数据集多样性不足且难以收集,尤其是水下应用领域缺乏标记数据集,阻碍了事件视觉与自主水下机器人的结合。
  • Method: 通过Stonefish模拟器生成合成数据集eStonefish-scenes,并开发数据生成管道以模拟动态水下场景,同时提供数据处理库eWiz。
  • Result: 成功创建了可定制的水下环境数据集和数据处理工具,支持动态场景模拟和数据管理。
  • Conclusion: 合成数据集和工具填补了水下事件视觉数据的空白,为相关研究提供了支持。

[188] Denoising Diffusion Probabilistic Model for Point Cloud Compression at Low Bit-Rates

Gabriele Spadaro,Alberto Presta,Jhony H. Giraldo,Marco Grangetto,Wei Hu,Giuseppe Valenzise,Attilio Fiandrotti,Enzo Tartaglione

Main category: cs.CV

TL;DR: 本文提出了一种基于DDPM的低比特率点云压缩方法(DDPM-PCC),通过PointNet编码器和可学习量化器实现低比特率下的高质量压缩。

  • Motivation: 现有技术主要关注高保真重建,需要较多比特,而低比特率点云压缩在带宽受限应用中至关重要。
  • Method: 采用DDPM架构,结合PointNet编码器生成条件向量,并通过可学习量化器进行量化。
  • Result: 在ShapeNet和ModelNet40上的实验表明,该方法在低比特率下优于标准和最新方法。
  • Conclusion: DDPM-PCC在低比特率下实现了更好的率失真性能,代码已公开。

[189] VesselGPT: Autoregressive Modeling of Vascular Geometry

Paula Feldman,Martin Sinnona,Viviana Siless,Claudio Delrieux,Emmanuel Iarussi

Main category: cs.CV

TL;DR: 提出了一种基于自回归方法合成解剖树的技术,结合VQ-VAE和GPT-2模型,实现了高保真度的血管树重建。

  • Motivation: 解剖树的复杂几何结构使其准确表示成为挑战,而大型语言模型的进展为这一问题提供了新思路。
  • Method: 使用VQ-VAE将血管结构嵌入离散词汇表,再通过GPT-2自回归建模生成血管树,并采用B样条表示血管横截面。
  • Result: 方法能够捕捉复杂几何和分支模式,实现高保真重建,并保留关键形态细节。
  • Conclusion: 这是首个以自回归方式生成血管的工作,代码和数据将公开。

[190] Benchmarking Unified Face Attack Detection via Hierarchical Prompt Tuning

Ajian Liu,Haocheng Yuan,Xiao Guo,Hui Ma,Wanyi Zhuang,Changtao Miao,Yan Hong,Chuanbiao Song,Jun Lan,Qi Chu,Tao Gong,Yanyan Liang,Weiqiang Wang,Jun Wan,Xiaoming Liu,Zhen Lei

Main category: cs.CV

TL;DR: 论文提出了一种统一的人脸攻击检测模型,通过构建大规模数据集UniAttackData+和基于视觉语言模型的分层提示调优框架HiPTune,解决了现有方法在多样攻击下的不足。

  • Motivation: 现有的人脸攻击检测模型分别针对物理介质攻击和数字编辑攻击进行训练,导致对未知攻击的脆弱性和部署负担。缺乏统一模型的主要原因是缺乏足够的基准数据集和可靠的分类标准。
  • Method: 1. 提出UniAttackData+数据集,包含2,875个身份和54种伪造样本,共697,347个视频。2. 设计HiPTune框架,通过视觉提示树和动态提示集成模块,从不同语义空间自适应探索分类标准。
  • Result: 在12个数据集上的实验证明了方法的有效性,为统一人脸攻击检测领域提供了新的思路。
  • Conclusion: UniAttackData+和HiPTune框架为处理多样化攻击提供了有效解决方案,推动了统一人脸攻击检测领域的发展。

[191] RoPECraft: Training-Free Motion Transfer with Trajectory-Guided RoPE Optimization on Diffusion Transformers

Ahmet Berke Gokmen,Yigit Ekin,Bahri Batuhan Bilecen,Aysegul Dundar

Main category: cs.CV

TL;DR: RoPECraft是一种无需训练的视频运动迁移方法,通过修改扩散变换器的旋转位置嵌入(RoPE)实现,结合光流和傅里叶相位正则化,性能优于现有方法。

  • Motivation: 现有视频运动迁移方法通常需要复杂训练,RoPECraft旨在通过修改RoPE实现无需训练的高效迁移。
  • Method: 提取参考视频的光流,利用运动偏移扭曲RoPE的复数张量,通过流匹配目标优化轨迹对齐,并引入傅里叶相位正则化抑制高频伪影。
  • Result: 实验表明,RoPECraft在定性和定量上均优于最新方法。
  • Conclusion: RoPECraft通过RoPE修改和正则化实现了高效且高质量的视频运动迁移,无需训练。

[192] Faster Video Diffusion with Trainable Sparse Attention

Peiyuan Zhang,Haofeng Huang,Yongqi Chen,Will Lin,Zhengzhong Liu,Ion Stoica,Eric P. Xing,Hao Zhang

Main category: cs.CV

TL;DR: VSA是一种高效的稀疏注意力机制,通过分阶段处理减少计算量,显著提升视频扩散模型的训练和推理效率。

  • Motivation: 视频扩散变换器(DiTs)的3D注意力机制计算复杂度高,限制了模型扩展。VSA旨在通过稀疏注意力解决这一问题。
  • Method: VSA分为粗粒度阶段(池化token并识别关键token)和细粒度阶段(仅在关键区域计算token级注意力),形成单一可微核。
  • Result: VSA减少训练FLOPS2.53倍,推理速度提升6倍,生成时间从31秒降至18秒,且保持模型质量。
  • Conclusion: VSA为视频扩散模型提供了一种高效且可训练的稀疏注意力替代方案,支持进一步扩展。

[193] FEALLM: Advancing Facial Emotion Analysis in Multimodal Large Language Models with Emotional Synergy and Reasoning

Zhuozhao Hu,Kaishen Yuan,Xin Liu,Zitong Yu,Yuan Zong,Jingang Shi,Huanjing Yue,Jingyu Yang

Main category: cs.CV

TL;DR: 论文提出了一种新的面部情感分析(FEA)方法,通过构建专用数据集和新型多模态大语言模型(FEALLM),解决了传统方法在解释性和泛化能力上的不足。

  • Motivation: 传统面部情感分析方法在解释性和泛化能力上存在局限,且缺乏专门的数据集和模型来捕捉面部表情(FEs)与动作单元(AUs)之间的复杂关系。
  • Method: 构建了FEA指令数据集(FEABench),并提出新型MLLM架构FEALLM,以捕捉更详细的面部信息。
  • Result: FEALLM在FEABench上表现优异,并在多个数据集(RAF-DB、AffectNet等)的零样本评估中展现出强大的泛化能力。
  • Conclusion: 该方法在FEA任务中具有鲁棒性和有效性,数据集和代码将公开。

[194] G1: Bootstrapping Perception and Reasoning Abilities of Vision-Language Model via Reinforcement Learning

Liang Chen,Hongcheng Gao,Tianyu Liu,Zhiqi Huang,Flood Sung,Xinyu Zhou,Yuxin Wu,Baobao Chang

Main category: cs.CV

TL;DR: VLM-Gym是一个专为多游戏并行训练设计的强化学习环境,通过训练G0和G1模型,解决了视觉语言模型在交互式环境中的决策能力不足问题。G1模型表现优于现有领先模型。

  • Motivation: 视觉语言模型在多模态任务中表现优异,但在交互式环境中的决策能力不足,限制了其作为自主代理的潜力。
  • Method: 引入VLM-Gym环境,通过纯强化学习训练G0模型,并开发感知增强的G1模型,结合冷启动和RL微调。
  • Result: G1模型在所有游戏中表现优于其教师模型和领先的专有模型,感知与推理能力在训练中相互促进。
  • Conclusion: VLM-Gym和G1模型为提升视觉语言模型在交互式环境中的能力提供了有效方法,代码已开源以促进未来研究。

[195] Understanding Complexity in VideoQA via Visual Program Generation

Cristobal Eyzaguirre,Igor Vasiljevic,Achal Dave,Jiajun Wu,Rares Andrei Ambrus,Thomas Kollar,Juan Carlos Niebles,Pavel Tokmakov

Main category: cs.CV

TL;DR: 提出了一种数据驱动的方法来分析视频问答中的查询复杂度,通过代码生成技术自动评估问题难度,优于人工预测。

  • Motivation: 现有基准设计依赖人工设计难题,但实验表明人类难以预测模型认为的难题。
  • Method: 利用代码生成技术,以生成代码的复杂度作为问题难度的代理指标,并提出算法从代码中估计复杂度。
  • Result: 该方法与模型性能的相关性显著优于人工估计,并能自动生成更难的基准(比NExT-QA难1.9倍)。
  • Conclusion: 该方法为视频问答领域提供了一种可扩展的自动评估和生成难题的工具。

[196] KinTwin: Imitation Learning with Torque and Muscle Driven Biomechanical Models Enables Precise Replication of Able-Bodied and Impaired Movement from Markerless Motion Capture

R. James Cotton

Main category: cs.CV

TL;DR: 通过模仿学习应用于生物力学模型,KinTwin能够准确复现多种运动的运动学特征,并推断关节扭矩和肌肉激活的临床差异,为临床实践提供高质量运动分析。

  • Motivation: 提高运动科学和康复领域的运动分析质量,以更详细地描述运动障碍和干预反应,甚至早期检测神经系统疾病或跌倒风险。
  • Method: 使用模仿学习技术,基于大量健康及运动障碍个体的运动数据,训练生物力学模型(KinTwin),推断逆动力学(如地面反作用力、关节扭矩和肌肉激活)。
  • Result: KinTwin能准确复现多种运动的运动学特征,包括使用辅助设备或治疗师协助的运动,并能推断出具有临床意义的关节扭矩和肌肉激活差异。
  • Conclusion: 模仿学习在临床实践中具有潜力,能够实现高质量的运动分析。

[197] FinePhys: Fine-grained Human Action Generation by Explicitly Incorporating Physical Laws for Effective Skeletal Guidance

Dian Shao,Mingfei Shi,Shengda Xu,Haodong Chen,Yongle Huang,Binglu Wang

Main category: cs.CV

TL;DR: FinePhys是一个结合物理学的细粒度人类动作生成框架,通过2D姿态估计和3D提升,结合物理运动重估计,显著提升了动作生成的逼真度。

  • Motivation: 当前视频生成方法在细粒度语义和复杂时间动态建模上表现不佳,尤其是体操等高难度动作生成效果不理想。
  • Method: FinePhys通过在线2D姿态估计、2D到3D提升、基于物理的运动重估计(使用欧拉-拉格朗日方程)和多尺度热图引导扩散过程。
  • Result: 在FineGym的三个子集上,FinePhys显著优于基线方法,生成的动作更自然和合理。
  • Conclusion: FinePhys通过结合数据驱动和物理方法,有效解决了细粒度人类动作生成的挑战。

[198] VTBench: Evaluating Visual Tokenizers for Autoregressive Image Generation

Huawei Lin,Tong Geng,Zhaozhuo Xu,Weijie Zhao

Main category: cs.CV

TL;DR: 论文提出了VTBench,一个系统性评估视觉分词器(VT)性能的基准测试,发现连续VAE优于离散VT,并讨论了GPT-4o的潜在自回归特性。

  • Motivation: 当前离散VT在图像重建和细节保留上表现不佳,缺乏专门评估VT性能的基准,因此需要系统性评估和改进。
  • Method: 引入VTBench,通过图像重建、细节保留和文本保留三个核心任务评估VT性能,并使用多种指标分析。
  • Result: 连续VAE在视觉表示上优于离散VT,离散VT在重建时易失真且丢失细节。
  • Conclusion: 呼吁开发更强、通用的开源VT,并公开了基准和代码以支持研究。

[199] Recollection from Pensieve: Novel View Synthesis via Learning from Uncalibrated Videos

Ruoyu Wang,Yi Ma,Shenghua Gao

Main category: cs.CV

TL;DR: 提出一种两阶段策略,从原始视频帧或多视角图像训练视图合成模型,无需相机参数或其他先验。

  • Motivation: 现有方法依赖校准相机或几何先验,限制了大规模未校准数据的应用。
  • Method: 第一阶段在隐式潜在空间重建场景;第二阶段通过3D高斯基元显式优化,结合渲染和深度投影损失。
  • Result: 实验表明,该方法在视图合成和相机姿态估计上优于依赖校准或深度监督的方法。
  • Conclusion: 两阶段策略互补,实现了高质量视图合成和准确的3D一致性。

eess.IV

[200] MedVKAN: Efficient Feature Extraction with Mamba and KAN for Medical Image Segmentation

Hancan Zhu,Jinhao Chen,Guanghua He

Main category: eess.IV

TL;DR: MedVKAN结合Mamba和KAN,提出了一种高效的医学图像分割模型,解决了CNN和Transformer的局限性,并在多个数据集上取得领先性能。

  • Motivation: CNN感受野有限,Transformer计算复杂度高,限制了医学图像分割的性能。
  • Method: 提出MedVKAN模型,集成Mamba和KAN,设计了EFC-KAN和VKAN模块以提升特征提取能力。
  • Result: 在五个公开数据集上,MedVKAN在四个数据集上表现最佳,另一个排名第二。
  • Conclusion: MedVKAN展示了Mamba和KAN在医学图像分割中的潜力,提供了一种高效的特征提取框架。

[201] Patient-Specific Autoregressive Models for Organ Motion Prediction in Radiotherapy

Yuxiang Lai,Jike Zhong,Vanessa Su,Xiaofeng Yang

Main category: eess.IV

TL;DR: 该论文提出了一种基于自回归模型的器官运动预测方法,用于放疗前精确预测器官运动,优于现有方法。

  • Motivation: 放疗期间器官运动会影响辐射精度,现有方法依赖主成分分析(PCA),难以捕捉周期性动态。
  • Method: 将器官运动预测重新定义为自回归过程,利用4D CT扫描数据训练模型预测未来运动相位。
  • Result: 在50名患者和公开数据集上测试,预测肺部和心脏运动表现优于基准方法。
  • Conclusion: 该方法有望提升放疗前计划精度,实现更精准的辐射治疗。

[202] Bridging the Inter-Domain Gap through Low-Level Features for Cross-Modal Medical Image Segmentation

Pengfei Lyu,Pak-Hei Yeung,Xiaosheng Yu,Jing Xia,Jianning Chi,Chengdong Wu,Jagath C. Rajapakse

Main category: eess.IV

TL;DR: 本文提出了一种模型无关的无监督域适应框架LowBridge,通过利用跨模态图像的低级特征(如边缘)实现医学图像分割。

  • Motivation: 解决跨模态医学图像分割任务,利用无监督域适应方法减少对标注数据的依赖。
  • Method: 训练生成模型从边缘特征恢复源图像,再训练分割模型;测试时用目标图像的边缘特征生成源风格图像并分割。
  • Result: 在多个公开数据集上表现优异,超越11种现有方法,且与不同生成和分割模型兼容。
  • Conclusion: LowBridge简单高效,未来可与更先进模型结合,潜力巨大。

[203] Joint Manifold Learning and Optimal Transport for Dynamic Imaging

Sven Dummer,Puru Vaish,Christoph Brune

Main category: eess.IV

TL;DR: 论文提出了一种结合低维图像流形假设和最优传输(OT)正则化的方法,用于解决动态成像中时间序列数据和时间点不足的问题。

  • Motivation: 动态成像在医学和细胞生物学中至关重要,但时间序列数据和时间点的稀缺性限制了有意义模式的学习。现有方法要么忽略时间先验,要么忽视其他时间序列的信息。
  • Method: 提出了一种潜在模型表示图像流形,并确保其与时间序列数据和OT先验的一致性。结合了低维假设和OT正则化。
  • Result: 该方法能够更有效地利用时间序列数据和OT先验,提升动态成像的分析能力。
  • Conclusion: 结合低维流形假设和OT正则化可以显著改善动态成像中的信息提取和分析效果。

[204] Bayesian Deep Learning Approaches for Uncertainty-Aware Retinal OCT Image Segmentation for Multiple Sclerosis

Samuel T. M. Ball

Main category: eess.IV

TL;DR: 该研究利用贝叶斯卷积神经网络(BCNNs)对OCT图像进行视网膜层分割,提供不确定性估计,提高了分割性能和临床适用性。

  • Motivation: 传统OCT视网膜层分割耗时且易受人为偏差影响,现有深度学习方法缺乏不确定性估计,导致模型可能产生错误结果。
  • Method: 应用贝叶斯卷积神经网络(BCNNs)对公开的OCT数据集进行分割,生成不确定性图并识别不确定样本。
  • Result: 模型在分割任务中Dice分数达95.65%,并能提供层厚度等医学相关测量的不确定性估计。
  • Conclusion: 贝叶斯方法提升了OCT分割的临床适用性、统计稳健性和性能。

[205] NTIRE 2025 Challenge on Efficient Burst HDR and Restoration: Datasets, Methods, and Results

Sangmin Lee,Eunpil Park,Angel Canelo,Hyunhee Park,Youngjo Kim,Hyung-Ju Chun,Xin Jin,Chongyi Li,Chun-Le Guo,Radu Timofte,Qi Wu,Tianheng Qiu,Yuchun Dong,Shenglin Ding,Guanghua Pan,Weiyu Zhou,Tao Hu,Yixu Feng,Duwei Dai,Yu Cao,Peng Wu,Wei Dong,Yanning Zhang,Qingsen Yan,Simon J. Larsen,Ruixuan Jiang,Senyan Xu,Xingbo Wang,Xin Lu,Marcos V. Conde,Javier Abad-Hernandez,Alvaro Garcıa-Lara,Daniel Feijoo,Alvaro Garcıa,Zeyu Xiao,Zhuoyuan Li

Main category: eess.IV

TL;DR: 本文回顾了NTIRE 2025高效多帧HDR与修复挑战赛,旨在推动高效多帧高动态范围(HDR)和修复技术的发展。挑战基于一个新颖的RAW多帧融合数据集,参与者需在严格效率限制下开发解决方案。最终六支团队提交方案,最佳方法PSNR达43.22 dB。

  • Motivation: 推动高效多帧HDR和修复技术的发展,提供新的数据集和效率限制下的解决方案。
  • Method: 基于RAW多帧融合数据集,参与者开发解决方案,限制模型参数少于3000万,计算量低于4.0万亿FLOPs。
  • Result: 217人注册,六支团队提交方案,最佳方法PSNR为43.22 dB。
  • Conclusion: 挑战赛展示了高效多帧HDR和修复领域的潜力,为研究者提供了有价值的参考。

[206] HISTAI: An Open-Source, Large-Scale Whole Slide Image Dataset for Computational Pathology

Dmitry Nechaev,Alexey Pchelnikov,Ekaterina Ivanova

Main category: eess.IV

TL;DR: HISTAI数据集是一个大规模、多模态、开放访问的WSI集合,包含60,000多张来自不同组织类型的切片,旨在解决现有公开数据集在规模、多样性和临床元数据方面的不足。

  • Motivation: 现有公开WSI数据集规模小、组织多样性不足且缺乏临床元数据,限制了AI模型的鲁棒性和泛化能力。
  • Method: 通过构建HISTAI数据集,提供60,000多张WSI切片,并附带丰富的临床元数据和病理注释。
  • Result: HISTAI数据集填补了现有资源的空白,支持创新、可重复性和临床相关计算病理学解决方案的开发。
  • Conclusion: HISTAI数据集为AI在数字病理学中的应用提供了更全面和多样化的资源。

[207] CTLformer: A Hybrid Denoising Model Combining Convolutional Layers and Self-Attention for Enhanced CT Image Reconstruction

Zhiting Zheng,Shuqi Wu,Wen Ding

Main category: eess.IV

TL;DR: 本文提出了一种结合卷积结构和Transformer架构的CTLformer模型,用于低剂量CT图像去噪,通过多尺度注意力机制和动态注意力控制机制显著提升了去噪性能。

  • Motivation: 低剂量CT图像常伴随显著噪声,影响图像质量和诊断准确性。现有方法在多尺度特征融合和噪声分布多样性方面存在挑战。
  • Method: CTLformer结合卷积结构和Transformer架构,提出多尺度注意力机制和动态注意力控制机制,并通过卷积层和重叠推理增强去噪能力。
  • Result: 在2016年NIH AAPM Mayo Clinic LDCT数据集上,CTLformer在去噪性能和模型效率上显著优于现有方法。
  • Conclusion: CTLformer为低剂量CT去噪提供了高效解决方案,并在医学图像分析中展现出广泛潜力。

[208] PRETI: Patient-Aware Retinal Foundation Model via Metadata-Guided Representation Learning

Yeonkyung Lee,Woojung Han,Youngjun Jun,Hyeonmin Kim,Jungkyung Cho,Seong Jae Hwang

Main category: eess.IV

TL;DR: PRETI是一种视网膜基础模型,结合元数据感知学习和自监督学习,通过动态元数据嵌入和患者级数据对提升性能,并在视网膜图像分析中取得领先结果。

  • Motivation: 临床报告获取成本高且困难,而元数据(如年龄、性别)广泛可用,可用于疾病进展分析。PRETI旨在利用元数据增强视网膜图像理解。
  • Method: 提出Learnable Metadata Embedding(LME)动态优化元数据表示,构建患者级数据对,并引入Retina-Aware Adaptive Masking(RAAM)选择性掩码训练。
  • Result: PRETI在多种疾病和生物标志物预测中取得领先性能,验证了元数据引导模型的重要性。
  • Conclusion: PRETI通过结合元数据和自监督学习,显著提升了视网膜图像分析的性能,为疾病诊断提供了新思路。

[209] Attention-Enhanced U-Net for Accurate Segmentation of COVID-19 Infected Lung Regions in CT Scans

Amal Lahchim,Lazar Davic

Main category: eess.IV

TL;DR: 提出了一种基于改进U-Net架构的自动分割方法,用于COVID-19 CT扫描中的感染区域分割,表现优于其他方法。

  • Motivation: COVID-19 CT扫描中感染区域的自动分割对临床诊断和治疗至关重要,但现有方法性能有限。
  • Method: 采用改进的U-Net架构,结合注意力机制、数据增强和后处理技术。
  • Result: Dice系数0.8658,平均IoU 0.8316,表现优于其他方法。
  • Conclusion: 方法表现优异,未来将扩展数据集、探索3D分割并推进临床部署。

[210] Mutual Evidential Deep Learning for Medical Image Segmentation

Yuanpeng He,Yali Bi,Lijian Li,Chi-Man Pun,Wenpin Jiao,Zhi Jin

Main category: eess.IV

TL;DR: 论文提出了一种基于互证深度学习的框架(MEDL),通过改进伪标签生成策略和渐进式学习策略,解决了半监督医学分割中低质量伪标签导致的模型性能下降问题。

  • Motivation: 现有半监督医学分割框架因伪标签质量低而影响模型性能,且未能充分利用不同来源伪标签的可靠性。
  • Method: 1. 引入不同架构的网络生成互补证据,采用改进的类感知证据融合策略;2. 设计基于渐进Fisher信息的证据学习策略,逐步关注不同质量的伪标签样本。
  • Result: 在五个主流数据集上的实验表明,MEDL实现了最先进的性能。
  • Conclusion: MEDL通过优化伪标签生成和学习策略,显著提升了半监督医学分割的性能。

[211] FreqSelect: Frequency-Aware fMRI-to-Image Reconstruction

Junliang Ye,Lei Wang,Md Zakir Hossain

Main category: eess.IV

TL;DR: FreqSelect是一个轻量级自适应模块,通过选择性过滤空间频率带提升fMRI图像重建质量。

  • Motivation: 解决fMRI信号与视觉刺激丰富性之间的不匹配问题,改进现有两阶段模型对所有空间频率成分的均等处理。
  • Method: 引入FreqSelect模块,动态选择预测性频率带并抑制无关噪声,无需额外监督。
  • Result: 在Natural Scenes数据集上,FreqSelect显著提升了重建质量,并提供了对大脑视觉频率表征的可解释性。
  • Conclusion: FreqSelect不仅提高了解码准确性,还为神经科学研究提供了新视角,具有广泛适用性。

[212] The Gaussian Latent Machine: Efficient Prior and Posterior Sampling for Inverse Problems

Muhamed Kuric,Martin Zach,Andreas Habring,Michael Unser,Thomas Pock

Main category: eess.IV

TL;DR: 论文提出了一种基于高斯潜在变量的通用采样方法,适用于贝叶斯成像中的先验和后验分布采样,并通过实验验证了其高效性和有效性。

  • Motivation: 解决贝叶斯成像中先验和后验分布采样的通用性问题,统一并推广现有采样算法。
  • Method: 提出高斯潜在机器模型,采用两区块Gibbs采样方法,并在特定情况下实现直接采样。
  • Result: 实验表明该方法在多种贝叶斯成像问题中高效且有效。
  • Conclusion: 高斯潜在机器模型为贝叶斯成像中的采样问题提供了通用且高效的解决方案。

[213] RetinaLogos: Fine-Grained Synthesis of High-Resolution Retinal Images Through Captions

Junzhi Ning,Cheng Tang,Kaijin Zhou,Diping Song,Lihao Liu,Ming Hu,Wei Li,Yanzhou Su,Tianbing Li,Jiyao Liu,Yejin,Sheng Zhang,Yuanfeng Ji,Junjun He

Main category: eess.IV

TL;DR: 论文提出了一种创新方法RetinaLogos-1400k,通过合成大规模视网膜图像数据集,解决了高质量标注数据稀缺的问题,并显著提升了机器学习模型在眼科领域的性能。

  • Motivation: 高质量标注视网膜图像的稀缺性阻碍了机器学习模型在眼科领域的发展,现有方法无法生成多样化和细粒度的解剖结构图像。
  • Method: 引入RetinaLogos-1400k数据集,利用大语言模型生成视网膜图像描述,并采用三步训练框架实现细粒度语义控制。
  • Result: 62.07%的合成图像被眼科医生认为与真实图像无法区分,合成数据在糖尿病视网膜病变分级和青光眼检测中提升了10%-25%的准确率。
  • Conclusion: RetinaLogos-1400k为眼科数据集提供了一种可扩展的解决方案,显著提升了模型性能。

[214] Segmentation of temporomandibular joint structures on mri images using neural networks for diagnosis of pathologies

Maksim I. Ivanov,Olga E. Mendybaeva,Yuri E. Karyakin,Igor N. Glukhikh,Aleksey V. Lebedev

Main category: eess.IV

TL;DR: 本文探讨了利用人工智能(AI)诊断颞下颌关节(TMJ)病理的方法,特别是通过MRI图像分割关节盘。研究分析了现有解决方案的不足,并提出了一种基于Roboflow模型的新方法。

  • Motivation: TMJ病理的高发率及医疗诊断中对准确性和速度的需求推动了这项研究。现有工具(如Diagnocat、MandSeg)因专注于骨结构而无法有效分析关节盘。
  • Method: 研究收集了94张包含TMJ和颌骨类别的图像数据集,并通过数据增强扩充样本。随后训练并比较了U-Net、YOLOv8n、YOLOv11n和Roboflow模型,使用Dice Score等指标评估性能。
  • Result: 实验结果表明,Roboflow模型在TMJ分割任务中表现最佳。
  • Conclusion: 未来计划开发测量颌间距离和确定关节盘位置的算法,以进一步提升TMJ病理诊断的准确性。

[215] Enhancing Diffusion-Weighted Images (DWI) for Diffusion MRI: Is it Enough without Non-Diffusion-Weighted B=0 Reference?

Yinzhe Wu,Jiahao Huang,Fanwen Wang,Mengze Gao,Congyu Liao,Guang Yang,Kawin Setsompop

Main category: eess.IV

TL;DR: 论文提出了一种新的比率损失函数,用于改善扩散MRI(dMRI)超分辨率成像中DWI与b=0图像比率的准确性,从而提升扩散度量的计算质量。

  • Motivation: 高分辨率dMRI成像面临采集时间与信噪比的权衡,传统方法仅优化DWI而忽略其与b=0图像的关系,导致扩散度量计算不准确。
  • Method: 提出比率损失函数,定义为预测与真实DWI/b=0比率的对数之间的MSE损失,以优化比率误差。
  • Result: 比率损失显著降低了比率误差,略微提升了生成DWI的PSNR,改善了超分辨率成像和扩散度量特征保留。
  • Conclusion: 比率损失函数有效提升了dMRI超分辨率的准确性,对临床诊断具有重要意义。

[216] A generalisable head MRI defacing pipeline: Evaluation on 2,566 meningioma scans

Lorena Garcia-Foncillas Macias,Aaron Kujawa,Aya Elshalakany,Jonathan Shapey,Tom Vercauteren

Main category: eess.IV

TL;DR: 提出了一种可靠的MRI去标识化方法,结合基于图谱的配准和脑部掩膜技术,成功率高且解剖结构保存良好。

  • Motivation: 保护患者隐私的同时保留脑部解剖结构,解决现有方法去标识化不彻底或损伤脑组织的问题。
  • Method: 采用基于图谱的配准与脑部掩膜结合的管道,适用于高分辨率MRI。
  • Result: 在2566例临床扫描中,视觉检查成功率达99.92%,解剖结构保存优异(Dice系数0.9975±0.0023)。
  • Conclusion: 该方法高效可靠,适用于临床研究,源代码已公开。

[217] Higher fidelity perceptual image and video compression with a latent conditioned residual denoising diffusion model

Jonas Brenig,Radu Timofte

Main category: eess.IV

TL;DR: 本文提出了一种混合压缩方案,结合解码器网络和扩散模型,在保持感知质量的同时减少失真。

  • Motivation: 扩散模型在图像生成任务中表现出色,但在图像压缩中可能导致高失真。本文旨在通过混合方法优化感知质量并减少失真。
  • Method: 使用解码器网络生成初始图像以优化失真,再通过扩散模型预测残差以提升感知质量。
  • Result: 在标准基准测试中,PSNR提高了2dB,同时保持与CDC相当的LPIPS和FID分数。
  • Conclusion: 该方法在图像和视频压缩中均有效,显著提升了保真度而不牺牲感知质量。

[218] GuidedMorph: Two-Stage Deformable Registration for Breast MRI

Yaqian Chen,Hanxue Gu,Haoyu Dong,Qihang Li,Yuwen Chen,Nicholas Konz,Lin Li,Maciej A. Mazurowski

Main category: eess.IV

TL;DR: 提出了一种名为GuidedMorph的两阶段配准框架,用于更精确地对齐乳腺MR图像中的密集组织,通过引入双空间变换网络和基于欧几里得距离变换的变形方法,显著提升了配准精度。

  • Motivation: 乳腺MR图像的多时间点配准对癌症检测和治疗规划至关重要,但传统方法难以处理密集组织的复杂性和非刚性变形。
  • Method: 采用两阶段框架,结合单尺度网络进行全局结构对齐,并利用密集组织信息跟踪乳腺运动;引入双空间变换网络(DSTN)融合变换场,提出基于欧几里得距离变换(EDT)的变形方法。
  • Result: 在ISPY2和内部数据集上验证,密集组织Dice提升13.01%,乳腺Dice提升3.13%,乳腺SSIM提升1.21%。
  • Conclusion: GuidedMorph框架在乳腺配准中表现出色,支持多种范式,为乳腺癌诊疗提供了更精确的工具。

cs.LG

[219] Concept-Guided Interpretability via Neural Chunking

Shuchen Wu,Stephan Alaniz,Shyamgopal Karthik,Peter Dayan,Eric Schulz,Zeynep Akata

Main category: cs.LG

TL;DR: 论文提出“反射假说”,认为神经网络的活动模式反映了训练数据的规律,并通过三种方法(DSC、PA、UCD)提取可解释的实体,提升了模型的可解释性。

  • Motivation: 解决神经网络作为黑盒难以理解的问题,提出其活动模式实际反映了数据的规律性。
  • Method: 提出三种方法:离散序列分块(DSC)、群体平均(PA)和无监督分块发现(UCD),用于从神经网络中提取可解释的实体。
  • Result: 方法在不同规模的模型中有效,提取的实体与具体或抽象概念对应,并能通过人工诱导改变网络生成的概念。
  • Conclusion: 结合认知原理和自然数据结构的可解释性方法,为理解复杂学习系统提供了新方向。

[220] SageAttention3: Microscaling FP4 Attention for Inference and An Exploration of 8-Bit Training

Jintao Zhang,Jia Wei,Pengle Zhang,Xiaoming Xu,Haofeng Huang,Haoxu Wang,Kai Jiang,Jun Zhu,Jianfei Chen

Main category: cs.LG

TL;DR: 论文通过FP4 Tensor Cores和8-bit注意力机制提升注意力效率,分别针对推理和训练任务。

  • Motivation: 注意力机制的二次时间复杂度影响效率,需优化推理和训练任务中的计算速度。
  • Method: 1. 使用FP4 Tensor Cores加速推理任务;2. 设计8-bit注意力机制用于训练任务。
  • Result: FP4注意力在RTX5090上实现5倍加速;8-bit注意力在微调任务中无损性能,但在预训练中收敛较慢。
  • Conclusion: FP4和8-bit注意力分别有效提升推理和训练效率,但预训练任务需进一步优化。

[221] Urban Representation Learning for Fine-grained Economic Mapping: A Semi-supervised Graph-based Approach

Jinzhou Cao,Xiangxu Wang,Jiashi Chen,Wei Tu,Zhenhui Li,Xindong Yang,Tianhong Zhao,Qingquan Li

Main category: cs.LG

TL;DR: SemiGTX是一种半监督图学习框架,用于多任务经济映射,结合地理空间数据模态,通过半信息损失函数提升区域表示效果,并在实验中表现优异。

  • Motivation: 现有方法在数据稀缺场景中忽视半监督学习,且缺乏统一的多任务框架,无法全面分析经济部门。
  • Method: 提出SemiGTX框架,融合多种地理空间数据模态,设计半信息损失函数,结合自监督和局部监督回归,实现多任务学习。
  • Result: 在珠江三角洲地区实验中,GDP预测R2得分分别为0.93、0.96和0.94(第一、二、三产业),跨区域实验验证了其泛化能力。
  • Conclusion: SemiGTX通过多样化数据整合提升了经济监测能力,为精准经济预测提供了可靠基础。

[222] EnvInjection: Environmental Prompt Injection Attack to Multi-modal Web Agents

Xilong Wang,John Bloch,Zedian Shao,Yuepeng Hu,Shuyan Zhou,Neil Zhenqiang Gong

Main category: cs.LG

TL;DR: EnvInjection是一种针对多模态大语言模型(MLLM)网络代理的新型攻击方法,通过修改网页源代码添加扰动,诱导代理执行目标动作。

  • Motivation: 现有攻击方法在有效性、隐蔽性或实用性上存在不足,EnvInjection旨在解决这些限制。
  • Method: 通过优化问题设计扰动,训练神经网络近似非可微的像素到截图的映射,并使用投影梯度下降求解。
  • Result: 在多个网页数据集上的评估表明,EnvInjection显著优于现有基线方法。
  • Conclusion: EnvInjection是一种高效且实用的攻击方法,能够有效诱导网络代理执行目标动作。

[223] MINGLE: Mixtures of Null-Space Gated Low-Rank Experts for Test-Time Continual Model Merging

Zihuan Qiu,Yi Xu,Chiyuan He,Fanman Meng,Linfeng Xu,Qingbo Wu,Hongliang Li

Main category: cs.LG

TL;DR: MINGLE提出了一种测试时持续模型合并框架,通过动态调整合并过程解决参数干扰和分布适应性不足的问题,显著减少遗忘并提升性能。

  • Motivation: 当前持续模型合并方法存在参数干扰和适应新任务分布能力不足的问题,导致灾难性遗忘和适应性差。
  • Method: MINGLE采用混合专家架构和低秩专家,结合零空间约束门控和自适应松弛策略,动态调整合并过程。
  • Result: 实验表明,MINGLE在持续合并基准测试中平均性能提升7-9%,显著减少遗忘并增强鲁棒性。
  • Conclusion: MINGLE通过测试时适应和动态约束,有效解决了持续模型合并中的关键挑战,性能优于现有方法。

[224] Parameter Efficient Continual Learning with Dynamic Low-Rank Adaptation

Prashant Shivaram Bhat,Shakib Yazdani,Elahe Arani,Bahram Zonooz

Main category: cs.LG

TL;DR: PEARL是一种无需回放的持续学习框架,通过动态分配LoRA组件的秩来解决灾难性遗忘问题,显著优于现有基线。

  • Motivation: 灾难性遗忘是持续学习中的关键挑战,现有参数高效微调方法对秩选择敏感,导致资源分配和性能不佳。
  • Method: PEARL利用参考任务权重动态分配LoRA组件的秩,根据当前任务与参考任务在参数空间中的接近程度自适应调整。
  • Result: 在三种视觉架构和多种持续学习场景中,PEARL大幅优于所有基线方法。
  • Conclusion: PEARL通过动态秩分配有效解决了灾难性遗忘问题,展示了其在持续学习中的优越性。

[225] Model alignment using inter-modal bridges

Ali Gholamzadeh,Noor Sajid

Main category: cs.LG

TL;DR: 提出了一种半监督方法,通过条件流匹配实现跨模态模型对齐,减少了对大量配对数据的需求。

  • Motivation: 解决跨模态模型重用中内部表示对齐的难题,现有方法需要大量配对数据或局限于特定领域。
  • Method: 采用条件流匹配方法,学习不同模态潜在空间之间的条件流,包括最优传输问题和基于标记样本的高效对齐。
  • Result: 在MNIST、ImageNet等数据集上,下游任务性能与端到端训练模型相当,尤其在标记数据稀缺时表现优异。
  • Conclusion: 该方法为跨模态模型对齐提供了数据高效的解决方案,仅需少量监督。

[226] Mitigating Hallucinations via Inter-Layer Consistency Aggregation in Large Vision-Language Models

Kai Tang,Jinhao You,Xiuqi Ge,Hanze Li,Yichen Guo,Xiande Huang

Main category: cs.LG

TL;DR: 提出了一种无需重新训练的解码机制DCLA,通过层聚合增强层间一致性,有效减少大型视觉语言模型的幻觉问题。

  • Motivation: 现有方法在幻觉缓解上表现不稳定且对超参数敏感,限制了实用性。
  • Method: DCLA通过聚合前层表示构建动态语义参考,并校正语义偏离的层以增强一致性。
  • Result: 在MME和POPE等基准测试中,DCLA显著减少幻觉并提升模型可靠性。
  • Conclusion: DCLA是一种高效且无需额外训练的幻觉缓解方法,适用于多种LVLM。

[227] STAR: Stage-Wise Attention-Guided Token Reduction for Efficient Large Vision-Language Models Inference

Yichen Guo,Hanze Li,Zonghao Zhang,Jinhao You,Kai Tang,Xiande Huang

Main category: cs.LG

TL;DR: STAR是一种无需训练、即插即用的框架,通过两阶段注意力引导的token剪枝,显著降低计算成本并保持性能。

  • Motivation: 现有单阶段token剪枝方法因局部视角导致性能下降,尤其在高压缩比下。
  • Method: STAR采用两阶段剪枝:早期基于视觉自注意力剪枝冗余低层特征,后期基于跨模态注意力剪枝任务无关token。
  • Result: 实验表明STAR在多种LVLM架构和基准测试中实现加速且性能接近或提升。
  • Conclusion: STAR通过全局视角的token剪枝,有效平衡计算效率和任务性能。

[228] Observe-R1: Unlocking Reasoning Abilities of MLLMs with Dynamic Progressive Reinforcement Learning

Zirun Guo,Minjie Hong,Tao Jin

Main category: cs.LG

TL;DR: Observe-R1是一个新颖的框架,通过渐进式学习和多模态格式约束,提升多模态大语言模型的推理能力。

  • Motivation: 探索如何将强化学习应用于多模态数据,以提升模型的推理能力。
  • Method: 提出渐进式学习范式,构建NeuraLadder数据集,引入多模态格式约束和奖励系统。
  • Result: 在Qwen2.5-VL模型上表现优于其他推理模型,推理链更清晰简洁。
  • Conclusion: Observe-R1框架在多模态推理任务中表现出色,具有鲁棒性和泛化能力。

[229] Joint Embedding vs Reconstruction: Provable Benefits of Latent Space Prediction for Self Supervised Learning

Hugues Van Assel,Mark Ibrahim,Tommaso Biancalani,Aviv Regev,Randall Balestriero

Main category: cs.LG

TL;DR: 论文比较了自监督学习中重建和联合嵌入两种范式,揭示了它们的核心机制及其对表示学习的影响。

  • Motivation: 缺乏明确指导选择重建或联合嵌入方法,研究旨在揭示两种范式的核心区别及其适用场景。
  • Method: 利用闭式解分析视图生成过程对表示学习的影响,比较两种范式对无关特征的依赖。
  • Result: 联合嵌入方法在无关特征影响较大时表现更优,因其对齐条件较弱。
  • Conclusion: 研究明确了两种范式的权衡,支持了联合嵌入方法在现实数据集中的成功应用。

[230] Scalable Strategies for Continual Learning with Replay

Truman Hickok

Main category: cs.LG

TL;DR: 论文提出了一种结合低秩适应、阶段性回放和顺序合并的持续学习方法,显著提升了可扩展性和性能。

  • Motivation: 未来深度学习模型需要持续学习,但现有回放方法成本高且未充分利用多任务微调技术。
  • Method: 应用低秩适应,提出阶段性回放(减少样本需求)和顺序合并(结合任务算术)。
  • Result: 方法协同作用,显著减少回放样本(55%),并提升性能。
  • Conclusion: 开发的可扩展工具集优于独立方法,为持续学习提供高效解决方案。

[231] An approach based on class activation maps for investigating the effects of data augmentation on neural networks for image classification

Lucas M. Dorneles,Luan Fonseca Garcia,Joel Luís Carbonera

Main category: cs.LG

TL;DR: 该论文提出了一种分析数据增强对卷积神经网络在图像分类任务中学习模式影响的方法和指标。

  • Motivation: 尽管数据增强被广泛采用,但缺乏研究分析其对神经网络模型学习模式的影响,尤其是在复杂数据集上。
  • Method: 使用类别激活图(CAM)来量化数据增强的影响,通过提取和分析不同数据增强策略下生成的CAM的相似性和差异性。
  • Result: 实验表明,该方法不仅能分析数据增强的影响,还能识别其对训练模型的不同影响模式。
  • Conclusion: 提出的方法和指标为数据增强对神经网络模型的影响提供了定量分析工具。

[232] Two out of Three (ToT): using self-consistency to make robust predictions

Jung Hoon Lee,Sujith Vijayan

Main category: cs.LG

TL;DR: 论文提出了一种名为'Two out of Three (ToT)'的算法,旨在通过让深度学习模型在不确定时选择不回答,以提高其决策的鲁棒性。

  • Motivation: 深度学习模型的决策原理不透明,可能导致高风险领域中的错误,因此需要一种方法增强其决策的可信度。
  • Method: ToT算法通过生成两个额外预测,并结合原始预测来决定是否提供答案。
  • Result: 该方法通过模拟人脑对冲突信息的敏感性,提升了模型在不确定情况下的决策能力。
  • Conclusion: ToT算法为深度学习模型提供了一种机制,使其在不确定时能够选择不回答,从而降低高风险领域中的潜在风险。

[233] On the Mechanisms of Adversarial Data Augmentation for Robust and Adaptive Transfer Learning

Hana Satou,Alan Mitkiy

Main category: cs.LG

TL;DR: 该论文研究了对抗性数据增强(ADA)在迁移学习中的作用,提出了一种结合ADA、一致性正则化和域不变表示学习的统一框架,显著提升了目标域性能。

  • Motivation: 解决分布偏移下迁移学习的挑战,探索对抗性扰动作为数据增强工具的潜力。
  • Method: 提出统一框架,整合ADA、一致性正则化和域不变表示学习,通过对抗性样本增强决策边界。
  • Result: 在多个基准数据集(如VisDA、DomainNet、Office-Home)上验证了方法的有效性,显著提升了目标域性能。
  • Conclusion: 对抗性学习可以转化为跨域迁移的正则化工具,提升模型的鲁棒性和适应性。

[234] Structure-based Anomaly Detection and Clustering

Filippo Leveni

Main category: cs.LG

TL;DR: 该论文提出了新的无监督异常检测方法,包括基于结构的检测和流数据检测,并在合成和真实数据上表现优异。

  • Motivation: 异常检测在医疗、制造和网络安全等领域至关重要,但现有方法在结构和流数据场景中存在局限性。
  • Method: 提出了Preference Isolation Forest (PIF)及其变体Voronoi-iForest和RuzHash-iForest,以及Sliding-PIF用于流数据;MultiLink用于多类结构恢复;Online-iForest用于流数据在线检测;以及基于Gradient Boosting的恶意软件分类方法。
  • Result: 方法在合成和真实数据上优于现有技术,MultiLink在速度和鲁棒性上表现突出,Online-iForest在实时应用中高效。
  • Conclusion: 论文提出的方法在异常检测的多个场景中表现优异,并已应用于实际生产系统。

[235] TinyAlign: Boosting Lightweight Vision-Language Models by Mitigating Modal Alignment Bottlenecks

Yuanze Hu,Zhaoxin Fan,Xinyu Wang,Gen Li,Ye Qiu,Zhichao Yang,Wenjun Wu,Kejian Wu,Yifan Sun,Xiaotie Deng,Jin Dong

Main category: cs.LG

TL;DR: TinyAlign框架通过检索增强生成策略提升轻量级视觉语言模型的对齐性能,显著减少训练损失并提高数据效率。

  • Motivation: 现有方法依赖冻结的视觉编码器和语言模型,但轻量级模型的能力有限,导致对齐质量下降。
  • Method: 提出TinyAlign框架,利用检索增强生成技术从记忆库中检索相关上下文以增强多模态输入的对齐。
  • Result: 实验表明TinyAlign显著降低训练损失、加速收敛,并仅需40%微调数据即可达到基线性能。
  • Conclusion: TinyAlign为轻量级视觉语言模型提供了一种高效对齐方法,并为其理论理解提供了新视角。

[236] CALM-PDE: Continuous and Adaptive Convolutions for Latent Space Modeling of Time-dependent PDEs

Jan Hagnberger,Daniel Musekamp,Mathias Niepert

Main category: cs.LG

TL;DR: CALM-PDE是一种新型的连续卷积编码器-解码器架构,用于高效解决任意离散化的偏微分方程(PDE),在内存和推理时间效率上优于基于Transformer的方法。

  • Motivation: 传统方法在物理空间直接计算PDE计算成本高,现有神经代理模型虽降低复杂度但内存消耗大。CALM-PDE旨在解决这一问题。
  • Method: 提出连续卷积编码器-解码器架构,使用epsilon邻域约束核,自适应优化查询点。
  • Result: CALM-PDE在多种PDE上表现优异,内存和推理效率显著优于Transformer方法。
  • Conclusion: CALM-PDE为高效解决任意离散化PDE提供了新思路,具有实际应用潜力。

[237] Walking the Tightrope: Disentangling Beneficial and Detrimental Drifts in Non-Stationary Custom-Tuning

Xiaoyu Yang,Jie Lu,En Yu

Main category: cs.LG

TL;DR: 论文揭示了多模态大语言模型(MLLMs)中链式思维(CoT)推理在非平稳强化微调(RFT)过程中的有害概念漂移现象,并提出了一种基于反事实感知的RFT方法(CPO)来解决这一问题。

  • Motivation: 研究发现CoT推理中的概念漂移会导致预测偏差,亟需理论和方法来解决这一问题。
  • Method: 通过将CoT的自回归令牌流形式化为非平稳分布,提出了反事实感知RFT方法(CPO),利用概念图驱动的LLM专家生成反事实推理轨迹。
  • Result: 实验表明CPO在非平稳环境中具有优越的鲁棒性、泛化性和协调性,并贡献了大规模数据集CXR-CounterFact(CCF)。
  • Conclusion: CPO方法有效解决了RFT中的概念漂移问题,并在医疗领域展示了实际应用潜力。

[238] RECON: Robust symmetry discovery via Explicit Canonical Orientation Normalization

Alonso Urbano,David W. Romero,Max Zimmer,Sebastian Pokutta

Main category: cs.LG

TL;DR: RECON框架通过数据驱动方法发现输入数据的固有对称性分布,无需预先固定变换群,提升了对称性建模的灵活性。

  • Motivation: 现实数据常具有未知或近似对称性,但现有等变网络需预先固定变换群,导致性能下降。
  • Method: 利用类-姿态分解和数据驱动归一化,将任意参考系对齐到共同自然姿态,生成可比较的对称性描述符。
  • Result: 在2D图像基准测试中有效发现对称性,并首次扩展到3D变换群。
  • Conclusion: RECON为更灵活的等变建模铺平了道路。

[239] Fine-tuning Quantized Neural Networks with Zeroth-order Optimization

Sifeng Shang,Jiayi Zhou,Chenyu Lin,Minxian Li,Kaiyang Zhou

Main category: cs.LG

TL;DR: 论文提出了一种名为QZO的内存高效训练方法,通过零阶优化和模型量化显著减少GPU内存使用。

  • Motivation: 随着大语言模型规模的指数增长,GPU内存成为下游任务适配的瓶颈,需要一种统一框架来最小化内存占用。
  • Method: 采用零阶优化消除梯度和优化器状态,并结合模型量化(如bfloat16转int4),提出QZO方法处理量化权重的梯度估计问题。
  • Result: QZO在4位LLM上比bfloat16全参数微调减少18倍以上内存,可在24GB GPU上微调Llama-2-13B和Stable Diffusion 3.5 Large。
  • Conclusion: QZO是一种高效的内存优化方法,适用于大规模模型的微调任务。

[240] Mean Flows for One-step Generative Modeling

Zhengyang Geng,Mingyang Deng,Xingjian Bai,J. Zico Kolter,Kaiming He

Main category: cs.LG

TL;DR: 提出了一种名为MeanFlow的单步生成建模框架,通过平均速度概念改进流匹配方法,无需预训练或课程学习,显著提升了性能。

  • Motivation: 改进现有流匹配方法中瞬时速度的局限性,提出平均速度概念,以缩小单步与多步生成模型之间的性能差距。
  • Method: 引入平均速度与瞬时速度之间的恒等式,指导神经网络训练,构建自包含的MeanFlow模型。
  • Result: 在ImageNet 256x256上,单次评估(1-NFE)FID达到3.43,显著优于现有单步扩散/流模型。
  • Conclusion: MeanFlow显著缩小了单步与多步模型的性能差距,为未来研究提供了新的方向。

cs.HC

[241] Behind the Screens: Uncovering Bias in AI-Driven Video Interview Assessments Using Counterfactuals

Dena F. Mujtaba,Nihar R. Mahapatra

Main category: cs.HC

TL;DR: 论文提出了一种基于反事实的框架,用于评估和量化AI驱动的人格评估中的偏见,利用GAN生成反事实表示,支持多模态公平性分析。

  • Motivation: AI在人格评估中的应用存在偏见问题,可能导致基于性别、种族和年龄的歧视性结果,需要一种方法来系统评估和解决这些偏见。
  • Method: 采用生成对抗网络(GAN)生成反事实的求职者表示,通过改变受保护属性进行公平性分析,支持多模态(视觉、音频、文本)评估。
  • Result: 应用于先进的人格预测模型时,该方法揭示了不同人口群体间的显著差异,并通过受保护属性分类器验证了反事实生成的有效性。
  • Conclusion: 该框架为商业AI招聘平台的公平性审计提供了可扩展工具,尤其在黑盒设置下,强调了反事实方法在提高情感计算伦理透明度中的重要性。

cs.SD

[242] VoiceCloak: A Multi-Dimensional Defense Framework against Unauthorized Diffusion-based Voice Cloning

Qianyue Hu,Junyan Wu,Wei Lu,Xiangyang Luo

Main category: cs.SD

TL;DR: VoiceCloak是一种针对扩散模型(DMs)的多维度主动防御框架,旨在通过对抗性扰动干扰未经授权的语音克隆(VC),保护说话人身份和语音质量。

  • Motivation: 扩散模型在语音克隆中表现出色,但也增加了恶意滥用的风险。现有防御方法不适用于扩散模型,因此需要新的解决方案。
  • Method: VoiceCloak通过分析扩散模型的漏洞,引入对抗性扰动,干扰说话人身份表示学习和条件引导过程,并破坏语音质量。
  • Result: 实验表明,VoiceCloak在防御扩散模型语音克隆方面表现出色。
  • Conclusion: VoiceCloak为扩散模型语音克隆提供了一种有效的主动防御方法。

[243] Unified Cross-modal Translation of Score Images, Symbolic Music, and Performance Audio

Jongmin Jung,Dongmin Kim,Sihun Lee,Seola Cho,Hyungjoon Soh,Irmak Bukey,Chris Donahue,Dasaem Jeong

Main category: cs.SD

TL;DR: 提出了一种统一的多模态音乐翻译方法,通过大规模数据集和统一的分词框架,显著提升了多种翻译任务的性能。

  • Motivation: 过去的多模态音乐翻译任务通常针对单一任务训练专用模型,缺乏统一性。本文旨在通过统一模型和数据集解决这一问题。
  • Method: 使用大规模配对音频-乐谱图像数据集和统一的分词框架,将不同模态离散化为序列,通过单一编码器-解码器Transformer处理多任务。
  • Result: 统一模型在多个任务中表现优于单任务基线,如光学音乐识别的符号错误率从24.58%降至13.67%,并首次实现了乐谱图像条件音频生成。
  • Conclusion: 统一方法在多模态音乐翻译中具有显著优势,为跨模态音乐生成开辟了新方向。

q-bio.NC

[244] BrainNetMLP: An Efficient and Effective Baseline for Functional Brain Network Classification

Jiacheng Hou,Zhenjie Song,Ercan Engin Kuruoglu

Main category: q-bio.NC

TL;DR: 论文提出了一种基于纯MLP的方法BrainNetMLP,用于功能性脑网络分类,展示了简单模型也能达到先进性能。

  • Motivation: 尽管深度学习模型复杂度增加,但性能提升不明显,因此重新审视最简单的MLP架构,探索其潜力。
  • Method: 提出BrainNetMLP,采用双分支结构联合捕捉空间连接和频谱信息,实现精确的时空特征融合。
  • Result: 在HCP和ABIDE数据集上,BrainNetMLP达到了先进性能。
  • Conclusion: MLP模型可以作为功能性脑网络分类中高效且有效的替代方案。

cs.GR

[245] Modeling Aesthetic Preferences in 3D Shapes: A Large-Scale Paired Comparison Study Across Object Categories

Kapil Dev

Main category: cs.GR

TL;DR: 该研究通过大规模人类偏好调查,结合非线性建模和跨类别分析,揭示了3D形状美学的几何驱动因素,为设计提供了实用指导。

  • Motivation: 研究动机是填补现有计算美学模型缺乏大规模人类判断实证基础的空白,提升其实际应用价值。
  • Method: 方法包括收集22,301对比较数据,应用Bradley-Terry模型推断潜在美学评分,并使用随机森林和SHAP分析识别关键几何特征。
  • Result: 结果揭示了美学偏好的普遍原则和领域特定趋势,如对称性、曲率和紧凑性等特征的影响。
  • Conclusion: 结论是通过人本数据驱动框架推进了对3D形状美学的理解,为设计师提供了透明且可操作的见解。

[246] UniHM: Universal Human Motion Generation with Object Interactions in Indoor Scenes

Zichen Geng,Zeeshan Hayder,Wei Liu,Ajmal Mian

Main category: cs.GR

TL;DR: UniHM是一个统一的运动语言模型,利用扩散生成技术合成场景感知的人体运动,支持复杂3D场景中的文本到运动和文本到人-物交互任务。

  • Motivation: 现有语言条件运动模型在场景感知运动生成方面表现不佳,主要由于运动标记化导致信息丢失和无法捕捉3D人体运动的连续性和上下文依赖性。
  • Method: 提出UniHM框架,包括混合运动表示、新型LFQ-VAE和增强的Lingo数据集,以改进运动真实性和生成性能。
  • Result: 实验表明,UniHM在OMOMO和HumanML3D基准测试中表现优异,尤其在文本到人-物交互和一般文本条件运动生成任务中。
  • Conclusion: UniHM通过创新的混合表示和量化方法,显著提升了场景感知运动合成的能力,为复杂3D场景中的运动生成提供了新思路。

[247] AdaToken-3D: Dynamic Spatial Gating for Efficient 3D Large Multimodal-Models Reasoning

Kai Zhang,Xingyu Chen,Xiaofeng Zhang

Main category: cs.GR

TL;DR: AdaToken-3D是一种自适应空间令牌优化框架,通过动态修剪冗余令牌提升3D大型多模态模型的效率。

  • Motivation: 当前3D多模态模型存在计算开销大和信息冗余的问题,需要优化空间令牌的使用效率。
  • Method: 提出AdaToken-3D框架,通过空间贡献分析和注意力模式挖掘动态修剪冗余令牌。
  • Result: 在LLaVA-3D上实现21%的推理速度提升和63%的FLOPs减少,同时保持任务准确性。
  • Conclusion: 该工作不仅提升效率,还通过定量分析揭示了多模态空间信息流中的冗余模式,为高效3D多模态学习奠定理论基础。

math.OC

[248] Deep Unrolled Meta-Learning for Multi-Coil and Multi-Modality MRI with Adaptive Optimization

Merham Fouladvand,Peuroly Batra

Main category: math.OC

TL;DR: 提出了一种统一的深度元学习框架,用于加速MRI成像,结合多线圈重建和跨模态合成,优于传统方法。

  • Motivation: 传统方法在处理欠采样数据和缺失模态时存在局限性。
  • Method: 将可证明收敛的优化算法展开为结构化神经网络架构,结合数据保真度和非凸正则化,并集成元学习以适应不同采集设置。
  • Result: 在公开数据集上评估,PSNR和SSIM显著优于传统监督学习,尤其在激进欠采样和领域偏移下表现突出。
  • Conclusion: 展示了展开优化、任务感知元学习和模态融合的协同作用,为临床MRI重建提供了可扩展和通用的解决方案。

physics.med-ph

[249] OpenPros: A Large-Scale Dataset for Limited View Prostate Ultrasound Computed Tomography

Hanchen Wang,Yixuan Wu,Yinan Feng,Peng Jin,Shihang Feng,Yiming Mao,James Wiskin,Baris Turkbey,Peter A. Pinto,Bradford J. Wood,Songting Luo,Yinpeng Chen,Emad Boctor,Youzuo Lin

Main category: physics.med-ph

TL;DR: OpenPros是首个针对有限视角前列腺超声计算机断层扫描(USCT)的大规模基准数据集,旨在解决传统超声方法在前列腺癌早期检测中的不足。

  • Motivation: 前列腺癌是男性常见且致命的癌症,早期检测至关重要。传统超声方法灵敏度低,尤其在检测前部肿瘤时,而USCT虽能定量组织表征,但在有限视角采集条件下临床实施困难。
  • Method: OpenPros数据集包含28万对模拟的2D声速(SOS)幻影和超声全波形数据,基于真实临床MRI/CT扫描和离体超声测量生成的3D数字前列腺模型,并由医学专家标注。使用有限差分时域和Runge-Kutta声波求解器进行模拟。
  • Result: 实验表明,深度学习方法在推理效率和重建精度上优于传统物理方法,但仍无法生成临床可接受的高分辨率图像。
  • Conclusion: 通过公开OpenPros数据集,鼓励开发更先进的机器学习算法,以缩小性能差距并生成临床可用的高分辨率前列腺超声图像。

cs.CL

[250] FlightGPT: Towards Generalizable and Interpretable UAV Vision-and-Language Navigation with Vision-Language Models

Hengxing Cai,Jinhan Dong,Jingjun Tan,Jingcheng Deng,Sihang Li,Zhifeng Gao,Haidong Wang,Zicheng Su,Agachai Sumalee,Renxin Zhong

Main category: cs.CL

TL;DR: FlightGPT是一种基于视觉语言模型(VLM)的新型无人机视觉与语言导航(VLN)框架,通过两阶段训练和链式思维推理机制,解决了多模态融合不足、泛化能力弱和可解释性差的问题。

  • Motivation: 无人机视觉与语言导航在灾害响应、物流配送和城市检查等应用中至关重要,但现有方法在多模态融合、泛化和可解释性方面表现不佳。
  • Method: 采用两阶段训练:监督微调(SFT)和基于复合奖励的组相对策略优化(GRPO),并引入链式思维(CoT)推理机制。
  • Result: 在CityNav数据集上,FlightGPT在未见环境中成功率比最强基线高9.22%。
  • Conclusion: FlightGPT在无人机VLN任务中表现出色,具有更高的成功率和可解释性。

[251] RBF++: Quantifying and Optimizing Reasoning Boundaries across Measurable and Unmeasurable Capabilities for Chain-of-Thought Reasoning

Qiguang Chen,Libo Qin,Jinhao Liu,Yue Liao,Jiaqi Wang,Jingxuan Zhou,Wanxiang Che

Main category: cs.CL

TL;DR: 论文提出Reasoning Boundary Framework++(RBF++),用于量化评估和优化Chain-of-Thought(CoT)能力的边界,解决现有研究中的两个主要挑战。

  • Motivation: 当前CoT研究缺乏量化指标和可操作指南,且无法评估多模态感知等不可测量能力。
  • Method: 提出推理边界(RB)定义和组合定律,用于量化分析;引入常数假设和推理边界划分机制,处理不可测量RB。
  • Result: 在13个任务和38个模型上的实验验证了框架的可行性,并扩展了评估基准。
  • Conclusion: RBF++为理解LLM推理边界和优化策略提供了新视角,推动了相关研究。

[252] ChartMuseum: Testing Visual Reasoning Capabilities of Large Vision-Language Models

Liyan Tang,Grace Kim,Xinyu Zhao,Thom Lake,Wenxuan Ding,Fangcong Yin,Prasann Singhal,Manya Wadhwa,Zeyu Leo Liu,Zayne Sprague,Ramya Namuduri,Bodun Hu,Juan Diego Rodriguez,Puyuan Peng,Greg Durrett

Main category: cs.CL

TL;DR: 当前大型视觉语言模型(LVLMs)在图表理解任务中表现出视觉推理能力不足,尤其在复杂视觉推理方面表现显著下降。研究通过合成数据集和新的基准测试ChartMuseum揭示了模型与人类性能的显著差距。

  • Motivation: 研究动机是探索LVLMs在图表理解任务中的局限性,尤其是视觉推理能力的不足,并通过新基准测试评估模型的性能差距。
  • Method: 方法包括使用合成数据集验证模型在视觉推理上的表现,并构建ChartMuseum基准测试,包含1,162个专家标注的问题,覆盖多种推理类型。
  • Result: 结果显示,人类准确率为93%,而最佳模型Gemini-2.5-Pro仅达到63.0%,开源模型Qwen2.5-VL-72B-Instruct为38.5%。视觉推理问题的性能下降尤为显著。
  • Conclusion: 结论指出当前LVLMs在视觉推理方面存在明显不足,ChartMuseum基准测试为未来研究提供了重要工具。

cs.AI

[253] Scaling Computer-Use Grounding via User Interface Decomposition and Synthesis

Tianbao Xie,Jiaqi Deng,Xiaochuan Li,Junlin Yang,Haoyuan Wu,Jixuan Chen,Wenjing Hu,Xinyuan Wang,Yuhui Xu,Zekun Wang,Yiheng Xu,Junli Wang,Doyen Sahoo,Tao Yu,Caiming Xiong

Main category: cs.AI

TL;DR: 论文介绍了OSWorld-G和Jedi数据集,用于解决GUI grounding的复杂性,并通过实验验证了其有效性。

  • Motivation: 当前GUI grounding基准过于简化,无法捕捉真实交互的复杂性,需要新的数据集和方法。
  • Method: 引入OSWorld-G基准和Jedi数据集,通过多尺度模型训练验证效果。
  • Result: 模型在多个基准上表现优异,并将基础模型的性能从5%提升到27%。
  • Conclusion: Jedi数据集和OSWorld-G基准显著提升了GUI grounding能力,支持开源。

[254] StarFT: Robust Fine-tuning of Zero-shot Models via Spuriosity Alignment

Younghyun Kim,Jongheon Jeong,Sangkyung Kwak,Kyungmin Lee,Juho Lee,Jinwoo Shin

Main category: cs.AI

TL;DR: StarFT是一种新颖的微调框架,通过防止模型学习虚假特征来增强零样本模型的鲁棒性。

  • Motivation: 零样本模型(如CLIP)在微调时容易学习虚假特征(如背景或纹理),导致鲁棒性下降。
  • Method: 提出StarFT框架,通过正则化方法将虚假标签的输出分布与原始零样本模型对齐,利用语言模型生成虚假标签。
  • Result: StarFT在Waterbirds场景中显著提升了最差组和平均准确率(14.30%和3.02%)。
  • Conclusion: StarFT有效提升了零样本模型的鲁棒性和泛化能力。

[255] Advancing Generalization Across a Variety of Abstract Visual Reasoning Tasks

Mikołaj Małkiński,Jacek Mańdziuk

Main category: cs.AI

TL;DR: 论文提出了一种名为PoNG的新神经网络架构,用于提升抽象视觉推理(AVR)任务的泛化能力,尤其在非独立同分布(o.o.d.)场景下表现优异。

  • Motivation: 当前AVR领域在独立同分布(i.i.d.)场景下取得进展,但在非独立同分布(o.o.d.)场景下的泛化能力仍具挑战性,因此需要新的方法。
  • Method: 提出PoNG模型,结合组卷积、归一化和并行设计,以增强泛化能力。
  • Result: 实验表明,PoNG在多种AVR基准测试中表现优异,部分场景超越现有方法。
  • Conclusion: PoNG模型在提升AVR任务泛化能力方面具有潜力,尤其在o.o.d.场景下表现突出。

[256] MM-PRM: Enhancing Multimodal Mathematical Reasoning with Scalable Step-Level Supervision

Lingxiao Du,Fanqing Meng,Zongkai Liu,Zhixiang Zhou,Ping Luo,Qiaosheng Zhang,Wenqi Shao

Main category: cs.AI

TL;DR: MM-PRM通过自动化框架训练过程奖励模型,提升多模态大语言模型在复杂推理中的逻辑一致性。

  • Motivation: 多模态大语言模型在复杂推理中表现不佳,缺乏对中间推理步骤的细粒度监督。
  • Method: 提出MM-PRM,基于MM-Policy和MM-K12数据集,利用MCTS生成大量无标注的步骤级注释,训练过程奖励模型。
  • Result: 在多个基准测试中显著提升推理性能,验证了软标签、小学习率和路径多样性的有效性。
  • Conclusion: 过程监督是增强多模态推理系统逻辑鲁棒性的有效工具。

cs.RO

[257] Bridging Human Oversight and Black-box Driver Assistance: Vision-Language Models for Predictive Alerting in Lane Keeping Assist Systems

Yuhang Wang,Hao Zhou

Main category: cs.RO

TL;DR: LKAlert是一种新型监督预警系统,利用VLM预测LKA风险,提供预警和解释,增强驾驶员信任和意识。

  • Motivation: 解决LKA系统因黑盒特性导致的不可预测故障和驾驶员信任不足问题。
  • Method: 结合VLM和可解释模型,处理视频和CAN数据,生成预警和自然语言解释。
  • Result: 预测准确率69.8%,F1分数58.6%,解释质量高(71.7 ROUGE-L),实时性2 Hz。
  • Conclusion: LKAlert提升ADAS安全性和可用性,为黑盒系统监督提供可扩展范例。

[258] GLOVER++: Unleashing the Potential of Affordance Learning from Human Behaviors for Robotic Manipulation

Teli Ma,Jia Zheng,Zifan Wang,Ziyao Gao,Jiaming Zhou,Junwei Liang

Main category: cs.RO

TL;DR: 论文提出了HOVA-500K数据集和GLOVER++框架,用于从人类演示视频中学习机器人操作技能,解决了数据标注不足和多样性探索不足的问题,并在多模态推理任务中取得了先进成果。

  • Motivation: 当前从人类演示视频中学习机器人操作技能存在两大挑战:缺乏大规模精确标注的数据集和对多样化操作场景中可操作性的探索不足。
  • Method: 通过构建HOVA-500K数据集(50万张图像,1726种物体类别,675种动作)并开发GLOVER++框架(全局到局部可操作性训练),实现了从人类演示到开放词汇推理任务的知识迁移。
  • Result: GLOVER++在HOVA-500K基准测试中达到最先进水平,并在多样化机器人操作任务中表现出强大的泛化能力。
  • Conclusion: HOVA-500K数据集和GLOVER++框架为弥合人类演示与机器人操作能力之间的差距提供了宝贵资源。

[259] Experimental Study on Automatically Assembling Custom Catering Packages With a 3-DOF Delta Robot Using Deep Learning Methods

Reihaneh Yourdkhani,Arash Tavoosian,Navid Asadi Khomami,Mehdi Tale Masouleh

Main category: cs.RO

TL;DR: 本文提出了一种基于深度学习的自动化包装方法,使用Delta并联机器人和两指夹爪,结合YOLOV5和FastSAM模型实现物体检测与分割,并通过几何方法计算抓取点,成功率达到80%以上。

  • Motivation: 解决餐饮包装自动化中的抓取和包装问题,提升机器人系统的实用性和效率。
  • Method: 使用YOLOV5进行物体检测,FastSAM进行分割,通过几何方法计算抓取点,并将信息传输给Delta并联机器人实现自动化包装。
  • Result: 实验验证了模型的有效性,实现了实时检测和完全自主的包装过程,抓取成功率达80%以上。
  • Conclusion: 该研究为包装自动化领域的机器人系统提供了新的解决方案,具有重要的实际应用价值。

[260] Emergent Active Perception and Dexterity of Simulated Humanoids from Visual Reinforcement Learning

Zhengyi Luo,Chen Tessler,Toru Lin,Ye Yuan,Tairan He,Wenli Xiao,Yunrong Guo,Gal Chechik,Kris Kitani,Linxi Fan,Yuke Zhu

Main category: cs.RO

TL;DR: PDC是一个基于视觉感知的灵巧全身控制框架,仅依赖自我中心视觉完成任务,无需特权状态信息。

  • Motivation: 受人类视觉感知和行为适应性的启发,研究如何通过视觉驱动控制实现复杂任务。
  • Method: 提出PDC框架,利用强化学习从零开始训练单一策略,完成多种家庭任务。
  • Result: PDC能够实现物体搜索、抓取、放置等任务,并涌现出主动搜索等行为。
  • Conclusion: 视觉驱动控制是实现人类行为模拟的关键,适用于动画、机器人和具身AI。

[261] Structureless VIO

Junlin Song,Miguel Olivares-Mendez

Main category: cs.RO

TL;DR: 提出了一种无结构的视觉惯性里程计(VIO),通过移除视觉地图,显著提高了计算效率和精度。

  • Motivation: 传统的视觉里程计(VO)和视觉惯性里程计(VIO)依赖紧密耦合的定位与建图模块,导致效率受限。本文旨在探索无需地图的高效定位方案。
  • Method: 提出了一种无结构的VIO框架,移除了视觉地图,简化了系统设计。
  • Result: 实验表明,无结构VIO在计算效率和精度上均优于传统结构化的VIO基线。
  • Conclusion: 无结构VIO是一种高效且精确的替代方案,为视觉惯性里程计提供了新的设计思路。

[262] TeleOpBench: A Simulator-Centric Benchmark for Dual-Arm Dexterous Teleoperation

Hangyu Li,Qin Zhao,Haoran Xu,Xinyu Jiang,Qingwei Ben,Feiyu Jia,Haoyu Zhao,Liang Xu,Jia Zeng,Hanqing Wang,Bo Dai,Junting Dong,Jiangmiao Pang

Main category: cs.RO

TL;DR: TeleOpBench是一个专注于双手机器人灵巧操作的模拟基准测试,包含30个任务环境,并评估了四种代表性操作方式,验证了模拟与真实世界性能的相关性。

  • Motivation: 目前缺乏统一的基准测试来公平、可重复地比较不同的灵巧操作硬件系统,因此提出了TeleOpBench。
  • Method: 设计了30个高保真任务环境,涵盖多种操作难度,并实现了四种操作方式(MoCap、VR设备、外骨骼和单目视觉跟踪),通过共同协议和指标进行评估。
  • Result: 在模拟和真实硬件实验中,性能表现高度相关,验证了TeleOpBench的外部有效性。
  • Conclusion: TeleOpBench为灵巧操作研究提供了统一标准,并为未来算法和硬件创新提供了可扩展平台。

cs.IR

[263] MIRACL-VISION: A Large, multilingual, visual document retrieval benchmark

Radek Osmulsk,Gabriel de Souza P. Moreira,Ronay Ak,Mengyao Xu,Benedikt Schifferer,Even Oldridge

Main category: cs.IR

TL;DR: MIRACL-VISION是一个多语言视觉文档检索评估基准,扩展自MIRACL数据集,覆盖18种语言,旨在解决现有视觉文档检索基准的局限性。

  • Motivation: 现有视觉文档检索基准主要局限于英语、依赖合成问题且语料库规模小,无法满足多语言和复杂布局文档的需求。
  • Method: 通过消除语料库中的“简单”负样本,减少语料库规模以优化计算效率,同时保持数据集的挑战性。
  • Result: 实验显示,基于视觉语言模型(VLM)的多语言检索准确率比文本模型低59.7%,英语环境下低12.1%。
  • Conclusion: MIRACL-VISION为视觉检索管道提供了一个具有挑战性和代表性的多语言评估基准,有助于构建更鲁棒的文档检索模型。

cs.MM

[264] Enhanced Multimodal Hate Video Detection via Channel-wise and Modality-wise Fusion

Yinghui Zhang,Tailin Chen,Yuchen Zhang,Zeyu Fu

Main category: cs.MM

TL;DR: CMFusion是一种新型多模态仇恨视频检测模型,通过通道和模态融合机制显著提升检测性能。

  • Motivation: 当前单模态方法难以捕捉仇恨视频的隐含特征,多模态方法未能有效整合时间动态和模态交互。
  • Method: CMFusion利用预训练模型提取文本、音频和视频特征,结合时间交叉注意力机制和通道/模态融合模块。
  • Result: 实验表明CMFusion在准确率、精确率、召回率和F1分数上优于五种基线方法。
  • Conclusion: CMFusion通过有效融合多模态特征和时间动态,显著提升了仇恨视频检测效果。

上次更新于: