Skip to content
每日arXiv - 2025年5月29日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] Enhancing Vision Transformer Explainability Using Artificial Astrocytes

Nicolas Echevarrieta-Catalan,Ana Ribas-Rodriguez,Francisco Cedron,Odelia Schwartz,Vanessa Aguiar-Pulido

Main category: cs.CV

TL;DR: 论文提出了一种无需训练的ViTA方法,通过模拟神经科学中的星形胶质细胞,提升预训练深度神经网络的解释性,使其更符合人类感知。

  • Motivation: 现有机器学习模型虽然精度高,但解释性差,且随着模型复杂度增加,解释性进一步降低。现有方法(如XAI技术或训练时加入解释性约束)效果有限。
  • Method: 提出ViTA方法,通过引入人工星形胶质细胞增强预训练网络的推理能力,生成更符合人类理解的解释。使用Grad-CAM和Grad-CAM++技术进行评估。
  • Result: 实验结果表明,ViTA方法显著提升了模型解释与人类感知的对齐程度,在所有XAI技术和指标上均有统计学意义的改进。
  • Conclusion: ViTA是一种无需训练的有效方法,能够显著提升模型解释性,使其更符合人类认知。

[2] Do DeepFake Attribution Models Generalize?

Spiros Baxavanakis,Manos Schinas,Symeon Papadopoulos

Main category: cs.CV

TL;DR: 论文探讨了DeepFake检测的局限性,提出多类别和归因模型的重要性,并通过实验验证了对比方法在跨数据集泛化中的有效性。

  • Motivation: DeepFake技术的普及威胁信息真实性,现有检测模型未能区分不同篡改方法,归因模型可提升可信度和可解释性。
  • Method: 利用五种骨干模型在六个数据集上实验,比较二元与多类别模型,评估归因模型和对比方法的泛化能力。
  • Result: 二元模型泛化能力更强,但更大模型、对比方法和高质量数据可提升归因模型性能。
  • Conclusion: 归因模型在DeepFake检测中具有潜力,未来需优化模型和数据以提高性能。

[3] CIM-NET: A Video Denoising Deep Neural Network Model Optimized for Computing-in-Memory Architectures

Shan Gao,Zhiqiang Wu,Yawen Niu,Xiaotao Li,Qingqing Xu

Main category: cs.CV

TL;DR: 论文提出了一种硬件-算法协同设计框架CIM-NET,用于优化视频去噪在内存计算芯片上的部署,显著减少矩阵向量乘法操作,同时保持性能。

  • Motivation: 现有DNN模型未考虑内存计算(CIM)架构的限制,导致在边缘设备上实时和能效表现不佳。
  • Method: 提出CIM-NET架构和伪卷积算子CIM-CONV,结合滑动窗口处理和全连接变换,优化大感受野操作和矩阵向量乘法加速。
  • Result: CIM-NET将矩阵向量乘法操作减少至1/77,PSNR仅轻微下降(35.11 dB vs. 35.56 dB)。
  • Conclusion: CIM-NET框架显著提升了CIM芯片上的推理速度,同时保持了视频去噪的竞争性能。

[4] Learning Shared Representations from Unpaired Data

Amitai Yacobi,Nir Ben-Ari,Ronen Talmon,Uri Shaham

Main category: cs.CV

TL;DR: 该论文提出了一种从非配对数据中学习共享表示的方法,通过独立构建单模态表示的随机游走矩阵的谱嵌入,实现了跨模态的高效表示学习。

  • Motivation: 当前共享嵌入空间的方法严重依赖配对样本,而非配对数据更容易获取。本文旨在证明可以从非配对数据中学习共享表示。
  • Method: 基于单模态表示的随机游走矩阵的谱嵌入,独立构建跨模态共享表示。
  • Result: 实验结果表明,该方法在检索、生成、算术、零样本和跨域分类任务中表现优异,证明了非配对数据的有效性。
  • Conclusion: 本文首次证明可以从非配对数据中学习跨模态共享表示,提出了一种通用的跨模态嵌入方法。

[5] UniDB++: Fast Sampling of Unified Diffusion Bridge

Mokai Pan,Kaizhen Zhu,Yuexin Ma,Yanwei Fu,Jingyi Yu,Jingya Wang,Ye Shi

Main category: cs.CV

TL;DR: UniDB++提出了一种无需训练的采样算法,显著改进了UniDB框架在计算效率和生成质量上的不足,通过精确求解反向时间SDE和引入SDE-Corrector机制,实现了更快的推理速度和更高的生成质量。

  • Motivation: UniDB框架虽然实现了高保真图像生成,但其依赖的迭代Euler采样方法导致推理速度慢且计算成本高,现有加速技术未能解决其独特挑战。
  • Method: UniDB++通过精确求解反向时间SDE的闭式解,减少误差累积,并引入数据预测模型和SDE-Corrector机制,提升稳定性和低步数下的生成质量。
  • Result: 实验表明,UniDB++在图像修复任务中表现优异,推理速度显著提升,生成质量优于基于Euler的方法。
  • Conclusion: UniDB++在理论通用性和实际效率之间架起桥梁,为SOC驱动的扩散桥模型提供了高效解决方案。

[6] How Much Do Large Language Models Know about Human Motion? A Case Study in 3D Avatar Control

Kunhang Li,Jason Naradowsky,Yansong Feng,Yusuke Miyao

Main category: cs.CV

TL;DR: LLMs在3D虚拟角色控制中展示了对高级运动计划的理解能力,但在精确身体部位定位和多步复杂动作上表现不佳。

  • Motivation: 探索LLMs在人类运动知识方面的能力,尤其是通过3D虚拟角色控制验证其运动计划和执行效果。
  • Method: 通过高级运动计划和低级身体部位定位两步法生成动画,并设计20种代表性运动指令进行全面评估。
  • Result: LLMs擅长解释高级运动计划,但在精确定位和多步动作上表现不足,但在创意动作和文化特定动作上有潜力。
  • Conclusion: LLMs在运动控制中有潜力,但需改进精确性和多步动作处理能力。

[7] EvidenceMoE: A Physics-Guided Mixture-of-Experts with Evidential Critics for Advancing Fluorescence Light Detection and Ranging in Scattering Media

Ismail Erbas,Ferhat Demirkiran,Karthik Swaminathan,Naigang Wang,Navid Ibtehaj Nizam,Stefan T. Radev,Kaoutar El Maghraoui,Xavier Intes,Vikas Pandey

Main category: cs.CV

TL;DR: 论文提出了一种基于物理指导的混合专家(MoE)框架,用于解决荧光LiDAR在散射介质中深度和荧光寿命估计的挑战。

  • Motivation: 荧光LiDAR在散射介质中面临信号复杂、难以分离光子飞行时间和荧光寿命的问题,现有方法效果有限。
  • Method: 采用物理指导的MoE框架,结合基于证据的Dirichlet批评器(EDCs)和决策网络,自适应融合专家预测。
  • Result: 在模拟的荧光LiDAR数据中,深度估计的NRMSE为0.030,荧光寿命的NRMSE为0.074。
  • Conclusion: 该方法显著提升了荧光LiDAR在复杂环境中的性能,为医学等领域提供了更可靠的解决方案。

[8] Self-Organizing Visual Prototypes for Non-Parametric Representation Learning

Thalles Silva,Helio Pedrini,Adín Ramírez Rivera

Main category: cs.CV

TL;DR: SOP是一种新的无监督视觉特征学习训练技术,通过多个语义相似的表示(支持嵌入)来表征原型,优于传统的单原型方法。

  • Motivation: 现有自监督学习方法依赖单一原型编码隐藏簇的所有特征,限制了性能。SOP旨在通过多支持嵌入更全面地表征数据区域。
  • Method: 提出SOP策略,使用多个支持嵌入表征原型,并引入非参数损失函数和SOP-MIM任务(基于多支持嵌入的掩码图像建模)。
  • Result: SOP预训练编码器在多个基准测试(检索、线性评估、微调、目标检测)中达到最先进性能,且性能随编码器复杂度提升。
  • Conclusion: SOP通过多支持嵌入和非参数方法显著提升了无监督视觉特征学习的性能。

[9] Is Attention Required for Transformer Inference? Explore Function-preserving Attention Replacement

Yuxin Ren,Maxwell D Collins,Miao Hu,Huanrui Yang

Main category: cs.CV

TL;DR: FAR框架通过用LSTM等序列模块替换Transformer中的注意力机制,提升推理效率,同时保持模型性能。

  • Motivation: Transformer的注意力机制在推理时效率低,尤其是在资源有限的设备上,而研究发现推理时的注意力冗余较高。
  • Method: 提出FAR框架,用可学习的序列模块(如LSTM)替换注意力块,并通过蒸馏和剪枝优化LSTM架构。
  • Result: 在DeiT视觉Transformer上验证,FAR在保持ImageNet和下游任务精度的同时减少了参数和延迟。
  • Conclusion: FAR成功保留了注意力模块的语义关系,实现了高效推理。

[10] Caption This, Reason That: VLMs Caught in the Middle

Zihan Weng,Lucas Gomez,Taylor Whittington Webb,Pouya Bashivan

Main category: cs.CV

TL;DR: 论文分析了视觉语言模型(VLMs)在认知能力上的局限性,提出通过认知科学方法评估其表现,并发现改进方向。

  • Motivation: VLMs在视觉理解上取得进展,但在计数或关系推理等任务上仍落后于人类,需研究其认知瓶颈。
  • Method: 采用认知科学方法,评估VLMs在感知、注意力和记忆等核心认知轴上的表现,并进行视觉-文本解耦分析。
  • Result: 发现VLMs在空间理解或选择性注意力任务上存在显著差距,但通过生成文本推理或针对性微调可改善表现。
  • Conclusion: 研究揭示了VLMs的认知瓶颈,并提出简单有效的改进方法,为未来优化提供了方向。

[11] Equivariant Flow Matching for Point Cloud Assembly

Ziming Wang,Nan Xue,Rebecka Jörnsten

Main category: cs.CV

TL;DR: 提出了一种基于流匹配模型的等变求解器(Eda),用于点云组装任务,能够高效学习等变分布并处理非重叠输入。

  • Motivation: 点云组装任务需要对齐多个点云片段以重建完整3D形状,现有方法在非重叠情况下表现不佳。
  • Method: 通过理论分析,提出学习相关向量场以实现等变分布,并构建等变路径(Eda模型)以提高训练效率。
  • Result: 数值结果表明Eda在实际数据集中表现优异,并能处理非重叠输入。
  • Conclusion: Eda是一种高效且鲁棒的点云组装方法,特别适用于复杂场景。

[12] DiffDecompose: Layer-Wise Decomposition of Alpha-Composited Images via Diffusion Transformers

Zitong Wang,Hang Zhao,Qianyu Zhou,Xuequan Lu,Xiangtai Li,Yiren Song

Main category: cs.CV

TL;DR: 本文提出了一种新任务:Alpha合成图像的逐层分解,并构建了首个大规模高质量数据集AlphaBlend,同时提出了基于扩散Transformer的框架DiffDecompose,解决了透明/半透明层分解的挑战。

  • Motivation: 现有图像分解方法在处理透明/半透明层时存在依赖掩码先验、静态对象假设和数据缺乏等问题,因此需要一种新方法来解决这些挑战。
  • Method: 提出了DiffDecompose框架,利用扩散Transformer学习输入图像、语义提示和混合类型的条件后验分布,并通过上下文分解和层位置编码克隆技术实现无需逐层监督的层预测。
  • Result: 在AlphaBlend和公开LOGO数据集上的实验验证了DiffDecompose的有效性。
  • Conclusion: DiffDecompose在透明/半透明层分解任务中表现出色,代码和数据集将公开。

[13] Vision Meets Language: A RAG-Augmented YOLOv8 Framework for Coffee Disease Diagnosis and Farmer Assistance

Semanto Mondal

Main category: cs.CV

TL;DR: 论文提出了一种结合对象检测、大语言模型(LLM)和检索增强生成(RAG)的混合方法,用于精准农业中的作物病害检测与诊断。

  • Motivation: 传统农业效率低且对环境不友好,精准农业技术可优化资源利用。
  • Method: 结合YOLOv8、NLP和RAG技术,构建一个能检测咖啡叶病害并提供治疗建议的系统。
  • Result: 系统能实时检测病害并生成环境友好的治疗方案,减少农药使用。
  • Conclusion: 该框架具有可扩展性和用户友好性,未来可广泛应用于农业领域。

[14] Corruption-Aware Training of Latent Video Diffusion Models for Robust Text-to-Video Generation

Chika Maduabuchi,Hao Chen,Yujin Han,Jindong Wang

Main category: cs.CV

TL;DR: CAT-LVDM是一种针对LVDMs的鲁棒性训练框架,通过数据对齐的噪声注入提升生成质量。

  • Motivation: 解决LVDMs在噪声视频-文本数据上的语义漂移和时间不一致性问题。
  • Method: 提出Batch-Centered Noise Injection (BCNI)和Spectrum-Aware Contextual Noise (SACN)两种噪声注入方法。
  • Result: BCNI在WebVid-2M等数据集上FVD降低31.9%,SACN在UCF-101上提升12.3%。
  • Conclusion: CAT-LVDM为多模态噪声下的视频扩散模型提供了可扩展的鲁棒训练方法。

[15] Image Tokens Matter: Mitigating Hallucination in Discrete Tokenizer-based Large Vision-Language Models via Latent Editing

Weixing Wang,Zifeng Ding,Jindong Gu,Rui Cao,Christoph Meinel,Gerard de Melo,Haojin Yang

Main category: cs.CV

TL;DR: 论文研究了大型视觉语言模型(LVLMs)中幻觉问题,提出通过图神经网络和对比学习减少幻觉。

  • Motivation: 发现LVLMs会因视觉先验导致幻觉,即模型可能因图像标记的共现关联而生成不存在的对象。
  • Method: 构建图像标记共现图,用GNN和对比学习聚类标记,并通过修改潜在图像嵌入抑制幻觉。
  • Result: 实验表明该方法有效减少幻觉,同时保持模型表达能力。
  • Conclusion: 提出的方法通过抑制视觉缺失标记的影响,显著减少了幻觉现象。

[16] Distill CLIP (DCLIP): Enhancing Image-Text Retrieval via Cross-Modal Transformer Distillation

Daniel Csizmadia,Andrei Codreanu,Victor Sim,Vighnesh Prabeau,Michael Lu,Kevin Zhu,Sean O'Brien,Vasu Sharma

Main category: cs.CV

TL;DR: DCLIP通过元教师-学生蒸馏框架改进CLIP模型,提升多模态图像-文本检索能力,同时保留零样本分类性能。

  • Motivation: CLIP模型在图像分辨率固定和上下文有限的约束下,难以满足需要细粒度跨模态理解的检索任务需求。
  • Method: 采用跨模态Transformer教师模型,通过双向跨注意力机制生成丰富嵌入,指导轻量学生模型训练,结合对比学习和余弦相似度目标。
  • Result: DCLIP在少量数据集上显著提升检索指标(Recall@K, MAP),同时保留94%的零样本分类性能。
  • Conclusion: DCLIP有效平衡任务专业化和泛化能力,为高级视觉语言任务提供高效、自适应且细节敏感的解决方案。

[17] Benign-to-Toxic Jailbreaking: Inducing Harmful Responses from Harmless Prompts

Hee-Seon Kim,Minbeom Kim,Wonjun Lee,Kihyun Kim,Changick Kim

Main category: cs.CV

TL;DR: 论文提出了一种新的范式Benign-to-Toxic (B2T) jailbreak,通过优化对抗性图像从良性条件诱导毒性输出,优于现有方法。

  • Motivation: 现有Toxic-Continuation范式在缺乏明确毒性信号时效果不佳,需探索新的漏洞。
  • Method: 优化对抗性图像,使其在良性条件下诱导模型生成毒性输出。
  • Result: B2T方法优于现有方法,适用于黑盒场景,并能与基于文本的攻击互补。
  • Conclusion: 揭示了多模态对齐中的新漏洞,为jailbreak方法提供了新方向。

[18] Analytical Calculation of Weights Convolutional Neural Network

Polad Geidarov

Main category: cs.CV

TL;DR: 提出一种无需标准训练过程的CNN权重和阈值分析方法,仅需10张MNIST图像即可确定参数。

  • Motivation: 探索无需训练的CNN构建方法,简化模型初始化过程。
  • Method: 通过解析计算确定CNN权重、阈值和通道数,并用C++实现。
  • Result: 未经训练的CNN可识别半数以上测试图像,推理速度极快。
  • Conclusion: 证明CNN可通过纯解析计算直接用于分类任务,无需训练。

[19] A Novel Convolutional Neural Network-Based Framework for Complex Multiclass Brassica Seed Classification

Elhoucine Elfatimia,Recep Eryigitb,Lahcen Elfatimi

Main category: cs.CV

TL;DR: 本文提出了一种基于卷积神经网络(CNN)的新框架,用于高效分类十种常见芸苔属种子,解决了种子图像纹理相似性的挑战,准确率达93%。

  • Motivation: 农民因作物生产和农场运营需求缺乏时间和资源进行实地研究,种子分类对质量控制、生产效率和杂质检测至关重要。早期识别种子类型可降低田间出苗的成本和风险。
  • Method: 采用自定义设计的CNN架构,针对种子图像纹理相似性问题进行优化,并与多种预训练的最先进架构进行性能对比。
  • Result: 实验结果表明,所提模型在芸苔属种子数据集上实现了93%的高准确率。
  • Conclusion: 该CNN框架为种子分类提供了高效解决方案,有助于提升种子质量管理和产量预估的精确性。

[20] Knowledge Distillation Approach for SOS Fusion Staging: Towards Fully Automated Skeletal Maturity Assessment

Omid Halimi Milani,Amanda Nikho,Marouane Tliba,Lauren Mills,Ahmet Enis Cetin,Mohammed H Elnagar

Main category: cs.CV

TL;DR: 提出了一种用于自动评估蝶枕软骨结合(SOS)融合的新型深度学习框架,通过双模型架构和知识蒸馏提高诊断准确性。

  • Motivation: 蝶枕软骨结合(SOS)融合是正畸学和法医人类学中的重要诊断标志,但现有方法依赖外部裁剪或分割工具,效率低且不一致。
  • Method: 采用双模型架构,教师模型基于裁剪图像训练,学生模型通过新设计的损失函数(结合空间逻辑和对齐梯度注意力)学习未裁剪图像。
  • Result: 框架实现了高诊断准确性,无需额外预处理工具,适用于临床环境。
  • Conclusion: 该框架提升了骨骼成熟度评估的效率和一致性,具有临床实用性。

[21] Multi-instance Learning as Downstream Task of Self-Supervised Learning-based Pre-trained Model

Koki Matsuishi,Tsuyoshi Okita

Main category: cs.CV

TL;DR: 论文提出了一种使用自监督学习预训练模型的方法,解决了在脑血肿CT中多实例学习因实例数量增加而难以训练的问题。

  • Motivation: 在脑血肿CT中,当每个包中的实例数量增加到256时,传统的多实例学习方法难以有效学习。
  • Method: 采用自监督学习预训练模型作为多实例学习器的下游任务。
  • Result: 在脑血肿CT的低密度标记分类任务中,准确率提高了5%至13%,F1分数提高了40%至55%。
  • Conclusion: 自监督学习预训练模型能显著提升多实例学习在实例数量较多时的性能。

[22] Diffusion Model-based Activity Completion for AI Motion Capture from Videos

Gao Huayu,Huang Tengjiu,Ye Xiaolong,Tsuyoshi Okita

Main category: cs.CV

TL;DR: 论文提出了一种基于扩散模型的运动补全技术,用于AI动作捕捉,解决了传统方法中动作需预定义的限制,并在Human3.6M数据集上取得了竞争性结果。

  • Motivation: 传统AI动作捕捉方法依赖预定义的视频序列,无法处理未观察到的动作。本文旨在通过虚拟人类应用,实现更灵活的动作捕捉。
  • Method: 提出扩散模型的动作补全技术,结合门模块和位置-时间嵌入模块,生成平滑连续的运动序列。
  • Result: MDC-Net在ADE、FDE和MMADE上优于现有方法,模型更小(16.84M),生成的运动序列更自然。
  • Conclusion: 该方法为AI动作捕捉提供了更灵活的解决方案,尤其在虚拟人类应用中表现出色。

[23] EaqVLA: Encoding-aligned Quantization for Vision-Language-Action Models

Feng Jiang,Zihao Zheng,Xiuping Cui,Maoliang Li,JIayu Chen,Xiang Chen

Main category: cs.CV

TL;DR: 提出了一种名为EaqVLA的优化框架,通过编码对齐量化解决VLA模型的量化问题,实验表明其性能优于现有方法。

  • Motivation: 现有VLA模型的计算/存储成本高昂,且现有量化方法因token对齐问题难以应用。
  • Method: 提出编码对齐量化框架EaqVLA,包括多粒度对齐分析和混合精度量化方法。
  • Result: EaqVLA在端到端动作控制中量化损失最小,且实现了计算加速。
  • Conclusion: EaqVLA有效解决了VLA模型的量化问题,性能优于现有方法。

[24] Thickness-aware E(3)-Equivariant 3D Mesh Neural Networks

Sungwon Kim,Namkyeong Lee,Yunyoung Doh,Seungmin Shin,Guimok Cho,Seung-Won Jeon,Sangkook Kim,Chanyoung Park

Main category: cs.CV

TL;DR: 论文提出了一种厚度感知的3D网格神经网络(T-EMNN),解决了现有方法忽略物体厚度的问题,同时保持了计算效率。

  • Motivation: 现有3D静态分析方法主要关注表面拓扑和几何形状,忽略了物体厚度及其对行为的影响。
  • Method: 提出了T-EMNN框架,结合厚度信息并保持E(3)-等变性,同时引入数据驱动的坐标编码空间信息。
  • Result: 在工业数据集上验证了T-EMNN能准确预测节点级3D变形,有效捕捉厚度效应。
  • Conclusion: T-EMNN在保持计算效率的同时,显著提升了3D变形预测的准确性。

[25] Do We Need All the Synthetic Data? Towards Targeted Synthetic Image Augmentation via Diffusion Models

Dang Nguyen,Jiping Li,Jinghao Zheng,Baharan Mirzasoleiman

Main category: cs.CV

TL;DR: 通过仅增强部分未在训练早期学习的数据,提升图像分类器的泛化能力,优于全数据增强方法。

  • Motivation: 现有数据增强方法难以保证生成多样性且需大幅增加数据量(10-30倍)以提升性能,而部分数据增强策略可能更高效。
  • Method: 分析双层CNN,证明仅增强30%-40%未早期学习的数据,可促进特征学习速度的均匀性,避免噪声放大。
  • Result: 在多种场景(ResNet、ViT、DenseNet,CIFAR-10/100、TinyImageNet,SGD/SAM优化器)中,性能提升达2.8%,甚至超越SOTA优化器SAM。
  • Conclusion: 部分数据增强策略高效且兼容现有强弱增强方法,显著提升模型性能。

[26] Do you see what I see? An Ambiguous Optical Illusion Dataset exposing limitations of Explainable AI

Carina Newen,Luca Hinkamp,Maria Ntonti,Emmanuel Müller

Main category: cs.CV

TL;DR: 论文介绍了一个新颖的光学幻觉数据集,旨在研究机器和人类感知的局限性,并探讨视觉学习中的概念重要性。

  • Motivation: 在安全关键领域(如自动驾驶和医疗诊断)中,机器学习算法的准确性至关重要。光学幻觉为研究人类和机器感知的局限性提供了独特视角,但相关数据集稀缺。
  • Method: 通过系统生成包含动物对的光学幻觉数据集,重点关注视线方向和眼睛线索等视觉概念,以评估模型在感知模糊性下的表现。
  • Result: 研究发现,视觉概念(如视线方向)对模型准确性有显著影响,为研究机器与人类视觉的偏差和对齐提供了基础。
  • Conclusion: 该数据集为研究视觉学习中的概念重要性及机器与人类感知的对齐提供了新工具,代码和数据集已公开。

[27] Any-to-Bokeh: One-Step Video Bokeh via Multi-Plane Image Guided Diffusion

Yang Yang,Siming Zheng,Jinwei Chen,Boxi Wu,Xiaofei He,Deng Cai,Bo Li,Peng-Tao Jiang

Main category: cs.CV

TL;DR: 提出了一种新颖的一步视频散景框架,解决了现有方法在时间一致性和深度控制上的不足。

  • Motivation: 现有视频编辑模型无法明确控制焦点平面或调整散景强度,且图像散景方法扩展到视频时会导致时间闪烁和边缘模糊过渡不理想。
  • Method: 利用多平面图像(MPI)表示和逐步扩展的深度采样函数,结合单步视频扩散模型和预训练模型的3D先验,实现深度感知的散景效果。
  • Result: 实验表明,该方法能生成高质量、可控的散景效果,并在多个评估基准上达到最先进性能。
  • Conclusion: 该方法通过几何引导和渐进训练策略,实现了时间一致且深度感知的视频散景效果。

[28] Object Concepts Emerge from Motion

Haoqian Liang,Xiaohui Wang,Zhichao Li,Ya Yang,Naiyan Wang

Main category: cs.CV

TL;DR: 论文提出了一种基于生物启发的无监督学习方法,通过运动边界信号学习物体中心视觉表征,并在多个下游任务中表现优异。

  • Motivation: 受婴儿通过观察运动获取物体理解的启发,研究旨在开发一种无需标签和相机校准的物体中心表征学习方法。
  • Method: 利用现成的光流和聚类算法生成基于运动的实例掩码,并通过对比学习训练视觉编码器。
  • Result: 在单目深度估计、3D物体检测和占用预测任务中,模型表现优于现有监督和自监督基线,并具有强泛化能力。
  • Conclusion: 运动诱导的物体表征为视觉基础模型提供了新的替代方案,捕捉了视觉实例这一关键抽象层次。

[29] BaryIR: Learning Multi-Source Unified Representation in Continuous Barycenter Space for Generalizable All-in-One Image Restoration

Xiaole Tang,Xiaoyi He,Xiang Gu,Jian Sun

Main category: cs.CV

TL;DR: BaryIR提出了一种多源表示学习框架,通过分解潜在空间为连续重心空间和源特定子空间,提升了全合一图像修复的泛化能力。

  • Motivation: 现有全合一图像修复方法对分布外退化和图像表现不佳,限制了实际应用。
  • Method: 引入多源潜在最优传输重心问题,学习连续重心映射,将潜在表示传输到重心空间,同时保持源特定子空间的正交性。
  • Result: BaryIR在实验中表现优于现有方法,尤其在真实数据和未见退化上展现出更强的泛化能力。
  • Conclusion: BaryIR通过多源表示学习框架,显著提升了全合一图像修复的泛化性和实用性。

[30] Geometric Feature Prompting of Image Segmentation Models

Kenneth Ball,Erin Taylor,Nirav Patel,Andrew Bartels,Gary Koplik,James Polly,Jay Hineman

Main category: cs.CV

TL;DR: 论文提出了一种几何驱动的提示生成器(GeomPrompt),用于自动生成与特定特征相关的提示点,从而优化SAM在科学图像分析任务(如植物根系分割)中的表现。

  • Motivation: 传统的手动标注植物根系图像耗时且主观,而现有的SAM模型需要依赖人工提示。本文旨在通过几何方法自动生成提示点,提高分割的敏感性和特异性。
  • Method: 使用几何方法(GeomPrompt)生成与图像特征(如局部脊线)相关的提示点,并将其输入SAM模型进行自动分割。
  • Result: GeomPrompt结合SAM能够以较少的提示点自动生成高精度分割结果,显著提升了植物根系图像的处理效率。
  • Conclusion: 几何驱动的提示生成方法为科学图像分析任务提供了高效、自动化的解决方案,并已开源实现(geomprompt软件包)。

[31] QuARI: Query Adaptive Retrieval Improvement

Eric Xing,Abby Stylianou,Robert Pless,Nathan Jacobs

Main category: cs.CV

TL;DR: 本文提出一种通过学习查询特定的特征空间变换来改进大规模图像检索性能的方法,显著优于现有技术。

  • Motivation: 现有视觉语言模型在大规模图像检索任务中表现不佳,需要更高效的改进方法。
  • Method: 通过学习查询特定的线性特征空间变换,并将其应用于图像嵌入,以提升检索性能。
  • Result: 该方法在性能上优于现有技术,且计算成本较低。
  • Conclusion: 查询特定的特征空间变换是一种高效且有效的大规模图像检索改进方法。

[32] Right Side Up? Disentangling Orientation Understanding in MLLMs with Fine-grained Multi-axis Perception Tasks

Keanu Nichols,Nazia Tasnim,Yan Yuting,Nicholas Ikechukwu,Elva Zou,Deepti Ghadiyaram,Bryan Plummer

Main category: cs.CV

TL;DR: DORI是一个专注于评估多模态系统对物体方向感知能力的基准测试,揭示了现有模型在方向理解上的局限性。

  • Motivation: 当前视觉语言基准测试未能单独评估物体方向理解能力,DORI旨在填补这一空白。
  • Method: DORI通过11个数据集的67个物体类别,设计了四个维度的方向理解任务。
  • Result: 评估15个先进模型发现,最佳模型在粗粒度任务中准确率为54.2%,细粒度任务中为33.0%。
  • Conclusion: DORI揭示了模型在方向理解上的不足,为改进机器人控制和3D场景重建提供了方向。

[33] Think Before You Diffuse: LLMs-Guided Physics-Aware Video Generation

Ke Zhang,Cihan Xiao,Yiqun Mei,Jiacong Xu,Vishal M. Patel

Main category: cs.CV

TL;DR: DiffPhy是一个通过微调预训练视频扩散模型实现物理正确和逼真视频生成的通用框架,利用LLM和MLLM指导生成。

  • Motivation: 现有视频扩散模型在生成视觉效果上表现良好,但在物理效果合成方面仍有挑战,需解决复杂物理运动、交互和动力学的学习问题。
  • Method: DiffPhy利用LLM从文本提示中推理物理上下文,并通过MLLM作为监督信号,引入新训练目标以同时保证物理正确性和语义一致性。
  • Result: 在公共基准测试中,DiffPhy在多种物理相关场景中生成最先进的结果。
  • Conclusion: DiffPhy通过结合LLM和MLLM,成功实现了物理正确且逼真的视频生成,并建立了高质量物理视频数据集以支持微调。

[34] Scalable Segmentation for Ultra-High-Resolution Brain MR Images

Xiaoling Hu,Peirong Liu,Dina Zemlyanker,Jonathan Williams Ramirez,Oula Puonti,Juan Eugenio Iglesias

Main category: cs.CV

TL;DR: 提出了一种利用低分辨率粗标签作为空间参考的新框架,通过回归带符号距离变换图实现边界感知监督,并引入可扩展的类条件分割策略,提升效率和泛化能力。

  • Motivation: 解决超高分辨率脑MRI分割中标注数据不足和计算需求高的问题。
  • Method: 利用低分辨率粗标签作为参考,回归带符号距离变换图,采用类条件分割策略逐类分割。
  • Result: 在合成和真实数据集上验证了方法的优越性能和可扩展性。
  • Conclusion: 该框架在减少标注成本和计算需求的同时,实现了高效且泛化能力强的分割。

[35] MedBridge: Bridging Foundation Vision-Language Models to Medical Image Diagnosis

Yitong Li,Morteza Ghahremani,Christian Wachinger

Main category: cs.CV

TL;DR: MedBridge是一个轻量级多模态适应框架,通过重新利用预训练的视觉语言模型(VLM)来提升医学图像诊断的准确性,无需大量资源。

  • Motivation: 现有视觉语言基础模型在自然图像分类上表现优异,但在医学图像上因领域差异表现不佳,而训练医学基础模型需要大量资源和标注数据。
  • Method: MedBridge包含三个关键组件:Focal Sampling模块提取高分辨率局部区域;Query Encoder(QEncoder)注入可学习查询以对齐医学语义;Mixture of Experts机制利用多种VLM的互补优势。
  • Result: 在五个医学影像基准测试中,MedBridge在跨领域和领域内适应任务中表现优异,尤其在多标签胸部疾病诊断中AUC提升6-15%。
  • Conclusion: MedBridge通过轻量级框架有效利用基础模型,实现了高效且准确的医学诊断。

[36] OmniResponse: Online Multimodal Conversational Response Generation in Dyadic Interactions

Cheng Luo,Jianghui Wang,Bing Li,Siyang Song,Bernard Ghanem

Main category: cs.CV

TL;DR: 论文提出了一种新型任务OMCRG,旨在在线生成同步的言语和非言语听众反馈,并提出了OmniResponse模型和ResponseNet数据集。

  • Motivation: 研究自然对话中听众的多模态反馈同步问题,填补现有研究的空白。
  • Method: 通过引入文本作为中间模态,提出OmniResponse模型,结合Chrono-Text和TempoVoice组件实现同步。
  • Result: OmniResponse在语义内容、视听同步和生成质量上显著优于基线模型。
  • Conclusion: OmniResponse和ResponseNet为多模态对话反馈生成提供了有效解决方案。

[37] Moment kernels: a simple and scalable approach for equivariance to rotations and reflections in deep convolutional networks

Zachary Schlamowitz,Andrew Bennecke,Daniel J. Tward

Main category: cs.CV

TL;DR: 论文提出了一种称为“矩核”的简单卷积核形式,用于实现旋转和反射对称性等变,解决了传统方法依赖复杂数学工具的问题,并在生物医学图像分析任务中验证了其有效性。

  • Motivation: 旋转和反射对称性在生物医学图像分析中至关重要,但传统利用这些对称性的方法依赖复杂的数学工具(如表示理论),限制了其广泛应用。
  • Method: 提出“矩核”作为简单卷积核形式,证明所有等变核必须采用这种形式,并基于标准卷积模块实现等变神经网络。
  • Result: 在分类、3D图像配准和细胞分割等生物医学图像分析任务中验证了方法的有效性。
  • Conclusion: 矩核提供了一种简单且通用的方式实现对称性等变,为生物医学图像分析提供了新工具。

[38] What is Adversarial Training for Diffusion Models?

Briglia Maria Rosaria,Mujtaba Hussain Mirza,Giuseppe Lisanti,Iacopo Masi

Main category: cs.CV

TL;DR: 对抗训练(AT)在扩散模型(DMs)中的作用与分类器不同,它要求等变性以保持扩散过程与数据分布对齐,从而提高对异常值和噪声的鲁棒性。

  • Motivation: 研究对抗训练在扩散模型中的独特作用,区别于分类器中的输出不变性,以提升模型对噪声和异常数据的处理能力。
  • Method: 通过在扩散训练中随机添加噪声(类似随机平滑)或对抗噪声(类似AT),无需假设噪声模型,无缝集成到训练中。
  • Result: 在低维和高维数据集上验证了方法的有效性,并在CIFAR-10、CelebA和LSUN Bedroom等基准测试中表现出色。
  • Conclusion: 对抗训练在扩散模型中通过等变性提升鲁棒性,适用于噪声数据、异常值和对抗攻击场景。

[39] Learning to See More: UAS-Guided Super-Resolution of Satellite Imagery for Precision Agriculture

Arif Masrur,Peder A. Olsen,Paul R. Adler,Carlan Jackson,Matthew W. Myers,Nathan Sedghi,Ray R. Weil

Main category: cs.CV

TL;DR: 研究提出了一种融合卫星和无人机(UAS)影像的超分辨率框架,通过光谱和空间扩展,显著提高了农作物生物量和氮含量的估算精度。

  • Motivation: 卫星和无人机在精准农业中各具优势与局限,卫星覆盖广但分辨率低,无人机分辨率高但成本高。研究旨在结合两者优势,提供经济高效的解决方案。
  • Method: 采用超分辨率方法融合卫星和无人机影像,通过光谱扩展和空间扩展提升数据质量,并以覆盖作物生物量和氮含量为案例验证。
  • Result: 光谱扩展使生物量和氮含量估算精度分别提高18%和31%,空间扩展模型优于原始无人机影像模型。
  • Conclusion: 该框架轻量且可扩展,适用于农场实际应用,减少无人机飞行需求,提升数据利用效率。

[40] Visual Loop Closure Detection Through Deep Graph Consensus

Martin Büchner,Liza Dahiya,Simon Dorer,Vipul Ramtekkar,Kenji Nishimiya,Daniele Cattaneo,Abhinav Valada

Main category: cs.CV

TL;DR: LoopGNN是一种基于图神经网络的视觉闭环检测方法,通过利用多关键帧邻域信息提高检测精度和效率。

  • Motivation: 传统视觉闭环检测依赖计算密集的RANSAC几何验证,限制了在线SLAM场景中的实时性。
  • Method: 提出LoopGNN,利用图神经网络在视觉相似关键帧群中传播深度特征编码,估计闭环共识。
  • Result: 在TartanDrive 2.0和NCLT数据集上表现优于传统方法,且计算效率更高。
  • Conclusion: LoopGNN在保持高召回率的同时显著提升闭环检测精度,适用于多种深度特征编码。

[41] FRAMES-VQA: Benchmarking Fine-Tuning Robustness across Multi-Modal Shifts in Visual Question Answering

Chengyue Huang,Brisa Maneechotesuwan,Shivang Chopra,Zsolt Kira

Main category: cs.CV

TL;DR: 提出了一个新的基准FRAMES-VQA,用于评估VQA任务中的鲁棒微调,涵盖多模态分布偏移。

  • Motivation: 现有评估设置多为单模态或特定OOD类型,难以应对多模态上下文中的复杂挑战。
  • Method: 利用十个现有VQA基准,分类为ID、近OOD和远OOD数据集,计算Mahalanobis距离量化分布偏移。
  • Result: 全面比较现有鲁棒微调方法,分析单模态与多模态偏移的交互及模态重要性。
  • Conclusion: 为开发更鲁棒的微调方法提供了指导,以处理多模态分布偏移。

[42] MMTBENCH: A Unified Benchmark for Complex Multimodal Table Reasoning

Prasham Yatinkumar Titiya,Jainil Trivedi,Chitta Baral,Vivek Gupta

Main category: cs.CV

TL;DR: MMTBENCH是一个包含500个真实世界多模态表格的基准测试,用于评估现有视觉语言模型在复杂表格推理任务中的表现,发现其在视觉推理和多步推理方面存在显著不足。

  • Motivation: 当前视觉语言模型在文本和图像理解方面表现优异,但在处理真实世界中的复杂多模态表格时能力尚未被充分探索。
  • Method: 通过构建MMTBENCH基准测试,包含500个多模态表格和4021个问题对,覆盖多种问题类型、推理类型和表格类型。
  • Result: 评估显示现有模型在视觉推理和多步推理任务上表现不佳,表明需要改进架构以更好地整合视觉和语言处理。
  • Conclusion: MMTBENCH为未来多模态表格研究提供了高质量资源,并强调了改进模型架构的紧迫性。

[43] Compositional Scene Understanding through Inverse Generative Modeling

Yanbo Wang,Justin Dauwels,Yilun Du

Main category: cs.CV

TL;DR: 该论文探讨了如何利用生成模型不仅生成视觉内容,还能通过逆向生成建模理解场景属性,提出了一种组合式视觉生成模型方法。

  • Motivation: 研究生成模型在场景理解中的应用,尤其是如何通过逆向生成建模从自然图像中推断场景结构。
  • Method: 将场景理解建模为逆向生成问题,通过组合式视觉生成模型推断场景中的对象和全局因素。
  • Result: 该方法能够从训练数据之外的图像中推断场景结构,支持对新场景中更多对象和新形状的泛化。
  • Conclusion: 该方法可直接应用于预训练的文本到图像生成模型,实现零样本多对象感知。

[44] SANSA: Unleashing the Hidden Semantics in SAM2 for Few-Shot Segmentation

Claudia Cuttano,Gabriele Trivigno,Giuseppe Averta,Carlo Masone

Main category: cs.CV

TL;DR: SANSA通过重新利用SAM2的语义特征,提出了一种用于少样本分割的框架,性能优于现有方法。

  • Motivation: 少样本分割需要跨图像的语义关联和准确分割,但SAM2的特征与任务特定线索纠缠,限制了其在高层次语义任务中的应用。
  • Method: 提出SANSA框架,显式提取SAM2的潜在语义结构,并通过少量任务特定修改将其重新用于少样本分割。
  • Result: SANSA在少样本分割基准测试中达到最先进性能,支持多种交互方式,且速度更快、模型更紧凑。
  • Conclusion: SANSA成功利用SAM2的语义特征,为少样本分割提供了高效且灵活的解决方案。

[45] ALTER: All-in-One Layer Pruning and Temporal Expert Routing for Efficient Diffusion Generation

Xiaomeng Yang,Lei Lu,Qihui Fan,Changdi Yang,Juyi Lin,Yanzhi Wang,Xuan Zhang,Shangqian Gao

Main category: cs.CV

TL;DR: ALTER框架通过统一层剪枝、专家路由和微调,显著提升了扩散模型的效率,同时保持生成质量。

  • Motivation: 扩散模型在生成高保真图像方面表现优异,但迭代去噪过程导致计算开销大,限制了其在资源受限环境中的实际部署。现有加速方法未能充分捕捉扩散生成的时间变化,且剪枝与微调策略存在不匹配问题。
  • Method: ALTER框架采用可训练超网络,动态生成层剪枝决策并管理时间步路由,将扩散模型转化为高效时间专家混合体。
  • Result: ALTER在仅使用25.9%计算量和20推理步数的情况下,达到与原始50步Stable Diffusion v2.1相同的视觉保真度,实现3.64倍加速和35%稀疏度。
  • Conclusion: ALTER通过统一优化策略,显著提升了扩散模型的效率,同时保持了生成质量,为资源受限环境提供了实用解决方案。

[46] HDRSDR-VQA: A Subjective Video Quality Dataset for HDR and SDR Comparative Evaluation

Bowen Chen,Cheng-han Lee,Yixu Chen,Zaixi Shang,Hai Wei,Alan C. Bovik

Main category: cs.CV

TL;DR: HDRSDR-VQA是一个大规模视频质量评估数据集,支持HDR和SDR内容的直接比较,包含960个视频和22,000对主观评分。

  • Motivation: 促进HDR和SDR内容在真实观看条件下的比较分析,填补现有数据集仅关注单一动态范围格式的不足。
  • Method: 从54个源序列生成960个视频,涵盖9种失真级别,通过145名参与者进行主观研究,收集22,000对评分并转换为JOD分数。
  • Result: 数据集支持HDR和SDR内容的直接比较,揭示了格式偏好的具体场景和原因。
  • Conclusion: HDRSDR-VQA为视频质量评估、自适应流和感知模型研究提供了开放资源。

[47] UniMoGen: Universal Motion Generation

Aliasghar Khani,Arianna Rampini,Evan Atherton,Bruno Roy

Main category: cs.CV

TL;DR: UniMoGen是一种基于UNet的扩散模型,用于骨架无关的运动生成,支持多样化的角色运动,并具有高效性和可控性。

  • Motivation: 现有方法依赖特定骨架结构,限制了其通用性。UniMoGen旨在克服这一限制,实现跨角色运动生成。
  • Method: 采用UNet架构的扩散模型,动态处理不同角色的关节,无需预定义最大关节数。支持风格和轨迹输入控制,并能延续历史帧运动。
  • Result: 在100style和LAFAN1数据集上表现优异,优于现有方法,同时提高了跨骨架的效率和性能。
  • Conclusion: UniMoGen为角色动画提供了灵活、高效且可控的解决方案,具有广泛应用潜力。

[48] Test-Time Adaptation of Vision-Language Models for Open-Vocabulary Semantic Segmentation

Mehrdad Noori,David Osowiechi,Gustavo Adolfo Vargas Hakim,Ali Bahri,Moslem Yazdanpanah,Sahar Dastani,Farzad Beizaee,Ismail Ben Ayed,Christian Desrosiers

Main category: cs.CV

TL;DR: 本文提出了一种针对开放词汇语义分割(OVSS)的测试时适应(TTA)方法MLMP,通过多级多提示熵最小化优化视觉语言模型,无需额外数据或标签。

  • Motivation: 现有TTA方法主要关注图像分类,而密集预测任务如OVSS被忽视,本文旨在填补这一空白。
  • Method: MLMP方法整合中间视觉编码器层特征,并在全局CLS标记和局部像素级别使用多文本提示模板进行熵最小化。
  • Result: 实验表明,MLMP在82种测试场景中显著优于直接采用TTA分类基线。
  • Conclusion: MLMP为OVSS提供了一种有效的TTA解决方案,并建立了标准化评测基准。

[49] RePaViT: Scalable Vision Transformer Acceleration via Structural Reparameterization on Feedforward Network Layers

Xuwei Xu,Yang Li,Yudong Chen,Jiajun Liu,Sen Wang

Main category: cs.CV

TL;DR: 研究发现FFN层是ViT推理延迟的主要来源,提出一种通道空闲机制,通过结构重参数化优化FFN层,显著降低延迟且保持或提升精度。

  • Motivation: 揭示FFN层对ViT推理延迟的关键影响,探索优化大规模ViT效率的方法。
  • Method: 提出通道空闲机制,允许部分特征通道绕过非线性激活,形成线性路径以实现结构重参数化。
  • Result: RePaViT系列模型在延迟显著降低的同时,精度保持或提升,尤其在大型模型中表现突出。
  • Conclusion: RePaViT首次将结构重参数化应用于FFN层,为高效ViT提供了新方向。

[50] FPAN: Mitigating Replication in Diffusion Models through the Fine-Grained Probabilistic Addition of Noise to Token Embeddings

Jingqi Xu,Chenghao Li,Yuke Zhang,Peter A. Beerel

Main category: cs.CV

TL;DR: 论文提出了一种细粒度噪声注入技术(FPAN),以减少扩散模型对训练数据的复制,同时保持图像质量。

  • Motivation: 扩散模型在生成高质量图像时可能复制训练数据中的敏感信息,引发隐私问题。现有方法效果有限,需要更优解决方案。
  • Method: 通过分析不同噪声量的影响,提出FPAN技术,概率性地向标记嵌入添加更大噪声。
  • Result: FPAN平均减少28.78%的数据复制,优于基线模型和现有噪声添加方法,且图像质量影响小。结合其他方法可进一步减少复制。
  • Conclusion: FPAN是一种有效的隐私保护方法,显著减少数据复制,同时保持图像质量。

[51] Beyond Perception: Evaluating Abstract Visual Reasoning through Multi-Stage Task

Yanbei Jiang,Yihao Ding,Chao Lei,Jiayang Ao,Jey Han Lau,Krista A. Ehinger

Main category: cs.CV

TL;DR: 论文提出了MultiStAR基准和MSEval指标,用于评估多模态大语言模型在抽象视觉推理中的多阶段表现,发现现有模型在复杂规则检测阶段仍有困难。

  • Motivation: 当前多模态大语言模型在抽象视觉推理(AVR)中表现不足,现有基准仅关注单步推理,缺乏对多阶段推理过程的评估。
  • Method: 基于RAVEN设计MultiStAR基准,并提出MSEval指标,同时评估中间步骤和最终结果的正确性。
  • Result: 实验表明,现有模型在基础感知任务中表现良好,但在复杂规则检测阶段仍存在挑战。
  • Conclusion: MultiStAR和MSEval填补了现有评估方法的不足,揭示了模型在复杂推理中的局限性。

[52] Rethinking Gradient-based Adversarial Attacks on Point Cloud Classification

Jun Chen,Xinke Li,Mingyue Xu,Tianrui Li,Chongshou Li

Main category: cs.CV

TL;DR: 论文提出两种新策略(WAAttack和SubAttack)改进基于梯度的对抗攻击方法,针对点云分类模型,提升攻击效果和不可感知性。

  • Motivation: 现有基于梯度的对抗攻击方法未考虑点云的异构性,导致扰动过大且明显。
  • Method: 1. WAAttack:引入加权梯度和自适应步长策略,动态调整更新;2. SubAttack:将点云分解为子集,聚焦关键区域扰动。
  • Result: 实验表明,新方法在生成不可感知对抗样本方面优于现有基线。
  • Conclusion: 通过重新设计梯度更新机制,显著提升了点云对抗攻击的效果和隐蔽性。

[53] Towards Scalable Language-Image Pre-training for 3D Medical Imaging

Chenhui Zhao,Yiwei Lyu,Asadur Chowdury,Edward Harake,Akhil Kondepudi,Akshay Rao,Xinhai Hou,Honglak Lee,Todd Hollon

Main category: cs.CV

TL;DR: HLIP是一种用于3D医学影像的可扩展预训练框架,通过分层注意力机制显著提升了性能,并在多个基准测试中达到最优结果。

  • Motivation: 解决3D医学影像(如CT和MRI)在语言-图像预训练中因计算需求高而受限的问题。
  • Method: 采用轻量级分层注意力机制(切片、扫描、研究层次),在未筛选的大规模临床数据集上直接训练。
  • Result: 在多个基准测试中表现优异,如Rad-ChestCT(+4.3% AUC)、Pub-Brain-5(+32.4% ACC)等。
  • Conclusion: HLIP证明直接在未筛选临床数据集上预训练是3D医学影像语言-图像预训练的有效方向。

[54] GETReason: Enhancing Image Context Extraction through Hierarchical Multi-Agent Reasoning

Shikhhar Siingh,Abhinav Rawat,Vivek Gupta,Chitta Baral

Main category: cs.CV

TL;DR: GETReason框架通过提取全球事件、时间和地理空间信息,提升图像上下文理解的深度,并引入GREAT评估指标验证其效果。

  • Motivation: 现有方法难以准确提取图像中的上下文信息,而这对新闻和教育至关重要。
  • Method: 提出GETReason框架和GREAT评估指标,采用分层多代理方法。
  • Result: 实验证明该方法能有效推断图像与事件背景的关联。
  • Conclusion: GETReason和GREAT为图像理解提供了更深层次的上下文推理能力。

[55] Cross-DINO: Cross the Deep MLP and Transformer for Small Object Detection

Guiping Cao,Wenjian Huang,Xiangyuan Lan,Jianguo Zhang,Dongmei Jiang,Yaowei Wang

Main category: cs.CV

TL;DR: 论文提出Cross-DINO方法,通过结合深度MLP网络和新的Cross Coding Twice Module(CCTM)提升小目标检测性能,并引入Category-Size(CS)软标签和Boost Loss损失函数。

  • Motivation: 小目标检测(SOD)因信息有限和模型预测分数低而具有挑战性,现有Transformer检测器在SOD中表现不足。
  • Method: 提出Cross-DINO方法,结合深度MLP网络和CCTM模块增强小目标特征,并引入CS软标签和Boost Loss。
  • Result: 在多个数据集上验证,Cross-DINO显著提升性能,如COCO上APs达36.4%,优于DINO。
  • Conclusion: Cross-DINO有效解决了SOD问题,性能优于现有方法,且参数和计算量更少。

[56] EPiC: Efficient Video Camera Control Learning with Precise Anchor-Video Guidance

Zun Wang,Jaemin Cho,Jialu Li,Han Lin,Jaehong Yoon,Yue Zhang,Mohit Bansal

Main category: cs.CV

TL;DR: EPiC是一种高效精确的相机控制学习框架,通过自动构建高质量锚视频,无需昂贵的相机轨迹标注,显著减少训练参数和步骤。

  • Motivation: 现有方法依赖点云估计和相机轨迹标注,导致锚视频不准确且资源消耗大。
  • Method: EPiC通过基于首帧可见性的掩码源视频生成高质量锚视频,并引入轻量级Anchor-ControlNet模块。
  • Result: EPiC在RealEstate10K和MiraData上实现SOTA性能,支持零样本泛化。
  • Conclusion: EPiC提供了一种高效、精确且通用的相机控制解决方案。

[57] Hyperspectral Gaussian Splatting

Sunil Kumar Narayanan,Lingjun Zhao,Lu Gan,Yongsheng Chen

Main category: cs.CV

TL;DR: 提出了一种结合3D高斯溅射和扩散模型的新方法HS-GS,用于高光谱场景的3D显式重建和新视角合成,显著提升了性能。

  • Motivation: 解决NeRF在高光谱成像中训练时间长和渲染速度慢的问题,同时提升对光谱细节的捕捉能力。
  • Method: 结合3D高斯溅射和扩散模型,引入波长编码器和KL散度损失函数,优化光谱重建和去噪。
  • Result: 在Hyper-NeRF数据集上验证,HS-GS性能优于现有方法。
  • Conclusion: HS-GS为高光谱成像提供了一种高效且高性能的解决方案,代码将公开。

[58] Concentrate on Weakness: Mining Hard Prototypes for Few-Shot Medical Image Segmentation

Jianchao Jiang,Haofeng Zhang

Main category: cs.CV

TL;DR: 论文提出了一种改进的少样本医学图像分割方法,通过关注弱特征和边界优化,显著提升了分割性能。

  • Motivation: 现有原型生成方法因随机采样或局部平均导致边界模糊,影响分割效果。
  • Method: 设计了支持自预测模块(SSP)识别弱特征,硬原型生成模块(HPG)生成硬原型,多相似度图融合模块(MSMF)优化分割,并引入边界损失。
  • Result: 在三个公开医学图像数据集上实现了最先进的性能。
  • Conclusion: 该方法通过关注弱特征和边界优化,显著提升了少样本医学图像分割的效果。

[59] CAST: Contrastive Adaptation and Distillation for Semi-Supervised Instance Segmentation

Pardis Taghavi,Tian Liu,Renjie Li,Reza Langari,Zhengzhong Tu

Main category: cs.CV

TL;DR: CAST是一种半监督知识蒸馏框架,通过压缩预训练的视觉基础模型(VFM)为紧凑专家模型,利用有限标注和大量未标注数据提升实例分割性能。

  • Motivation: 实例分割需要昂贵的像素级标注和大模型,CAST旨在通过半监督学习减少标注需求并提升模型效率。
  • Method: CAST分为三个阶段:1)通过自训练和对比像素校准进行VFM教师模型的领域适应;2)通过多目标损失(结合监督学习和伪标签)蒸馏到紧凑学生模型;3)在标注数据上微调以消除伪标签偏差。核心是实例感知的像素级对比损失。
  • Result: 在Cityscapes和ADE20K数据集上,CAST的学生模型(比教师模型小11倍)性能分别提升3.4 AP和1.5 AP,优于现有半监督方法。
  • Conclusion: CAST通过结合领域适应、知识蒸馏和对比学习,显著提升了实例分割的性能和效率。

[60] Reference-Guided Identity Preserving Face Restoration

Mo Zhou,Keren Ye,Viraj Shah,Kangfu Mei,Mauricio Delbracio,Peyman Milanfar,Vishal M. Patel,Hossein Talebi

Main category: cs.CV

TL;DR: 提出了一种新方法,通过最大化参考人脸的效用,改进人脸修复和身份保留。

  • Motivation: 解决扩散基图像修复中身份保留的挑战,现有方法未能充分利用参考人脸的潜力。
  • Method: 1) 复合上下文,融合参考人脸的多层次信息;2) 硬样本身份损失,改进身份学习效率;3) 无需训练的多参考输入适应方法。
  • Result: 在FFHQ-Ref和CelebA-Ref-Test等基准测试中表现优异,优于现有方法。
  • Conclusion: 新方法显著提升了人脸修复质量和身份保留效果,达到最先进水平。

[61] AlignGen: Boosting Personalized Image Generation with Cross-Modality Prior Alignment

Yiheng Lin,Shifang Zhao,Ting Liu,Xiaochao Qu,Luoqi Liu,Yao Zhao,Yunchao Wei

Main category: cs.CV

TL;DR: AlignGen提出了一种跨模态先验对齐机制,解决个性化图像生成中文本与参考图像不对齐的问题。

  • Motivation: 现有零样本方法在文本与参考图像不对齐时,生成结果偏向文本先验,导致参考内容丢失。
  • Method: 1) 引入可学习token桥接文本与视觉先验;2) 采用鲁棒训练策略确保先验对齐;3) 使用选择性跨模态注意力掩码。
  • Result: AlignGen在实验中优于现有零样本方法,甚至超越流行的测试时优化方法。
  • Conclusion: AlignGen通过跨模态先验对齐机制,显著提升个性化图像生成效果。

[62] LiDARDustX: A LiDAR Dataset for Dusty Unstructured Road Environments

Chenfeng Wei,Qi Wu,Si Zuo,Jiahua Xu,Boyang Zhao,Zeyu Yang,Guotao Xie,Shenhong Wang

Main category: cs.CV

TL;DR: 论文介绍了LiDARDustX数据集,专为高粉尘环境下的感知任务设计,填补了现有数据集在非结构化场景中的空白。

  • Motivation: 现有自动驾驶数据集主要针对结构化城市环境,缺乏对高粉尘等非结构化场景的覆盖,限制了相关算法的验证。
  • Method: 通过六种LiDAR传感器采集30,000帧数据,包含3D边界框标注和点云语义分割,80%以上为粉尘场景。
  • Result: 建立了3D检测与分割算法的基准,分析了粉尘对感知精度的影响及其原因。
  • Conclusion: LiDARDustX数据集为高粉尘环境下的感知研究提供了重要资源,推动了相关算法的发展。

[63] BD Open LULC Map: High-resolution land use land cover mapping & benchmarking for urban development in Dhaka, Bangladesh

Mir Sazzat Hossain,Ovi Paul,Md Akil Raihan Iftee,Rakibul Hasan Rajib,Abu Bakar Siddik Nayem,Anis Sarker,Arshad Momen,Md. Ashraful Amin,Amin Ahsan Ali,AKM Mahbubur Rahman

Main category: cs.CV

TL;DR: BD Open LULC Map (BOLM) 提供了高分辨率的像素级土地覆盖分类数据,用于支持深度学习模型和领域适应任务,填补了南亚/东亚地区的数据空白。

  • Motivation: 由于南亚/东亚发展中国家缺乏标注的卫星数据,限制了土地覆盖分类的可靠性,因此需要创建高质量的数据集以支持研究和应用。
  • Method: 使用高分辨率 Bing 卫星影像(2.22 米/像素)标注了 11 类土地覆盖数据,并通过 GIS 专家验证。采用 DeepLab V3+ 进行基准测试,比较 Bing 和 Sentinel-2A 影像的性能。
  • Result: BOLM 覆盖了 4,392 平方公里(8.91 亿像素),并提供了可靠的标注数据。
  • Conclusion: BOLM 填补了南亚/东亚地区土地覆盖数据集的空白,为深度学习模型和领域适应任务提供了支持。

[64] InfoSAM: Fine-Tuning the Segment Anything Model from An Information-Theoretic Perspective

Yuanhong Zhang,Muyao Yuan,Weizhan Zhang,Tieliang Gong,Wen Wen,Jiangyong Ying,Weijie Shi

Main category: cs.CV

TL;DR: InfoSAM提出了一种基于信息论的方法,通过保留预训练模型中的领域不变关系,优化SAM在特定领域的微调效果。

  • Motivation: SAM在通用任务中表现出色,但在专业领域表现不佳,现有PEFT方法忽略了预训练模型中的领域不变关系。
  • Method: 通过两个互信息目标:压缩领域不变关系并排除伪不变信息,以及最大化教师(预训练SAM)与学生(微调模型)之间的互信息。
  • Result: 实验证明InfoSAM能显著提升SAM在真实任务中的性能,尤其在专业领域表现出优越性。
  • Conclusion: InfoSAM为SAM的PEFT提供了稳健的知识蒸馏框架,适用于专业场景。

[65] Point-to-Region Loss for Semi-Supervised Point-Based Crowd Counting

Wei Lin,Chenyang Zhao,Antoni B. Chan

Main category: cs.CV

TL;DR: 论文提出了一种基于伪标签的半监督计数框架,通过点对区域(P2R)方案替代点对点(P2P)监督,解决了伪标签置信度传播问题。

  • Motivation: 点检测方法在密集人群定位和计数中表现优异,但标注成本高。论文旨在通过半监督学习减少标注需求。
  • Method: 提出点特定激活图(PSAM)分析训练问题,并设计P2R方案,通过分割局部区域共享伪点置信度。
  • Result: 实验表明P2R在半监督计数和无监督域适应中有效解决了PSAM发现的问题。
  • Conclusion: P2R方案优于P2P,显著提升了半监督计数性能。

[66] UniTalk: Towards Universal Active Speaker Detection in Real World Scenarios

Le Thien Phuc Nguyen,Zhuoran Yu,Khoa Quang Nhat Cao,Yuwei Guo,Tu Ho Manh Pham,Tuan Tai Nguyen,Toan Ngo Duc Vo,Lucas Poon,Soochahn Lee,Yong Jae Lee

Main category: cs.CV

TL;DR: UniTalk是一个专为主动说话人检测任务设计的新数据集,强调挑战性场景以提升模型泛化能力。相比传统基准如AVA,UniTalk更关注多样化的真实世界条件,包括低资源语言、嘈杂背景和拥挤场景。实验表明,现有模型在UniTalk上表现不佳,但训练后的模型在真实场景中泛化能力更强。

  • Motivation: 传统基准如AVA主要基于老电影,存在显著的领域差距,无法充分反映真实世界的多样性。UniTalk旨在填补这一空白,提供更具挑战性的数据集。
  • Method: UniTalk包含44.5小时视频,涵盖48,693个说话人身份,并标注了帧级主动说话人信息。数据集覆盖多种真实场景,如多语言、嘈杂环境和多人同时说话。
  • Result: 现有模型在AVA上表现优异,但在UniTalk上未能饱和,表明真实条件下的主动说话人检测任务尚未解决。然而,UniTalk训练的模型在Talkies、ASW等真实数据集上泛化能力更强。
  • Conclusion: UniTalk为主动说话人检测提供了新的基准,有助于开发更具适应性和鲁棒性的模型。

[67] Towards Comprehensive Scene Understanding: Integrating First and Third-Person Views for LVLMs

Insu Lee,Wooje Park,Jaeyun Jang,Minyoung Noh,Kyuhong Shim,Byonghyo Shim

Main category: cs.CV

TL;DR: 论文提出了一种结合第一人称和第三人称视角的框架,以增强大型视觉语言模型(LVLMs)在多视角问答任务中的表现,并提出了E3VQA基准和M3CoT提示技术。

  • Motivation: 解决第一人称视角在空间或上下文复杂查询中的局限性,通过结合第三人称视角提供全局信息。
  • Method: 引入E3VQA基准和M3CoT提示技术,整合多视角场景图以提升模型推理能力。
  • Result: M3CoT显著提升了模型性能(GPT-4o提升4.84%,Gemini 2.0 Flash提升5.94%)。
  • Conclusion: 多视角输入对LVLMs在多视角推理中具有重要价值,同时揭示了其局限性。

[68] Cross-modal RAG: Sub-dimensional Retrieval-Augmented Text-to-Image Generation

Mengdan Zhu,Senhao Cheng,Guangji Bai,Yifei Zhang,Liang Zhao

Main category: cs.CV

TL;DR: 论文提出了一种跨模态检索增强生成框架(Cross-modal RAG),通过分解查询和图像的子维度组件,解决了现有方法在复杂查询下无法检索到包含所有所需元素的单一图像的问题。

  • Motivation: 现有检索增强生成方法在复杂查询下表现不佳,因为无法从单一图像中获取所有所需元素。
  • Method: 提出了一种混合检索策略,结合稀疏和稠密检索器,识别帕累托最优图像集,并在生成阶段通过多模态大语言模型选择性地结合相关视觉特征。
  • Result: 在多个数据集上的实验表明,Cross-modal RAG在检索和生成质量上显著优于现有基线,同时保持高效性。
  • Conclusion: Cross-modal RAG通过子维度分解和混合检索策略,有效提升了复杂查询下的文本到图像生成性能。

[69] One-Way Ticket:Time-Independent Unified Encoder for Distilling Text-to-Image Diffusion Models

Senmao Li,Lei Wang,Kai Wang,Tao Liu,Jiehang Xie,Joost van de Weijer,Fahad Shahbaz Khan,Shiqi Yang,Yaxing Wang,Jian Yang

Main category: cs.CV

TL;DR: TiUE是一种新型的文本到图像扩散模型蒸馏方法,通过共享UNet编码器特征,显著减少推理时间,同时提升生成图像的多样性和质量。

  • Motivation: 现有蒸馏T2I模型在减少采样步数时面临多样性和质量下降的问题,尤其是单步模型。研究发现UNet编码器存在冗余计算,而解码器能更好地捕捉语义信息。
  • Method: 提出Time-independent Unified Encoder (TiUE),共享多时间步解码器的编码器特征,实现并行采样,并引入KL散度项正则化噪声预测。
  • Result: TiUE在生成多样性和真实性上优于LCM、SD-Turbo和SwiftBrushv2,同时保持计算效率。
  • Conclusion: TiUE为T2I扩散模型提供了一种高效且高质量的蒸馏方法,解决了推理速度与图像质量的权衡问题。

[70] A2Seek: Towards Reasoning-Centric Benchmark for Aerial Anomaly Understanding

Mengjingcheng Mo,Xinyang Tong,Jiaxu Leng,Mingpi Tan,Jiankang Zheng,Yiran Liu,Haosheng Chen,Ji Gan,Weisheng Li,Xinbo Gao

Main category: cs.CV

TL;DR: 论文提出A2Seek数据集和A2Seek-R1框架,用于无人机视角下的异常检测,解决了动态视角和复杂场景的挑战,显著提升了性能。

  • Motivation: 现有数据集和方法主要针对固定地面视角,难以适应无人机视角的动态变化和复杂场景,导致性能下降。
  • Method: 提出A2Seek数据集,包含高分辨率视频和详细标注;开发A2Seek-R1框架,结合图思维引导的微调和A-GRPO奖励函数,并引入“搜索”机制模拟无人机行为。
  • Result: A2Seek-R1在预测准确率和异常定位上分别提升22.04%和13.9%,在复杂环境和分布外场景中表现优异。
  • Conclusion: A2Seek数据集和A2Seek-R1框架为无人机视角异常检测提供了有效解决方案,具有广泛适用性。

[71] DvD: Unleashing a Generative Paradigm for Document Dewarping via Coordinates-based Diffusion Model

Weiguang Zhang,Huangcheng Lu,Maizhen Ning,Xiaowei Huang,Wei Wang,Kaizhu Huang,Qiufeng Wang

Main category: cs.CV

TL;DR: 本文提出了一种名为DvD的生成模型,首次通过扩散框架解决文档去扭曲问题,并引入坐标级去噪和时间变体条件细化机制,显著提升了文档结构的保留能力。同时,作者还提出了一个大规模基准AnyPhotoDoc6300,用于全面评估去扭曲模型的性能。

  • Motivation: 文档去扭曲技术虽已取得进展,但在保留文档结构方面仍具挑战性。扩散模型的最新发展为解决这一问题提供了潜在途径,但其在复杂文档图像上的控制能力不足。
  • Method: DvD采用坐标级去噪而非传统的像素级去噪,生成变形校正映射,并引入时间变体条件细化机制以增强文档结构的保留。
  • Result: 实验表明,DvD在多个基准测试(如DocUNet、DIR300和AnyPhotoDoc6300)上均达到最先进性能,且计算效率可接受。
  • Conclusion: DvD通过创新的扩散框架和条件细化机制,显著提升了文档去扭曲的效果,同时提出的AnyPhotoDoc6300基准为未来研究提供了更全面的评估工具。

[72] Learning World Models for Interactive Video Generation

Taiye Chen,Xun Hu,Zihan Ding,Chi Jin

Main category: cs.CV

TL;DR: 论文提出了一种视频检索增强生成(VRAG)方法,通过显式全局状态条件化,显著减少了长期复合错误并提高了世界模型的时空一致性。

  • Motivation: 现有长视频生成模型因复合错误和内存机制不足而缺乏有效的世界建模能力,需要改进以支持交互性和时空一致性。
  • Method: 通过动作条件和自回归框架增强图像到视频模型,并提出VRAG方法,结合显式全局状态条件化。
  • Result: VRAG显著减少了长期复合错误,提高了世界模型的时空一致性,而传统自回归生成和检索增强生成效果较差。
  • Conclusion: 研究揭示了视频世界模型的基本挑战,并为改进视频生成模型的世界建模能力提供了基准。

[73] D-Fusion: Direct Preference Optimization for Aligning Diffusion Models with Visually Consistent Samples

Zijing Hu,Fengda Zhang,Kun Kuang

Main category: cs.CV

TL;DR: 论文提出D-Fusion方法,通过视觉一致性样本优化扩散模型的提示-图像对齐问题。

  • Motivation: 扩散模型在生成图像与文本提示对齐方面存在局限性,直接偏好优化(DPO)因视觉不一致性问题效果受限。
  • Method: D-Fusion通过掩码引导的自注意力融合生成视觉一致性样本,并保留去噪轨迹以支持DPO训练。
  • Result: 实验表明D-Fusion能有效提升不同强化学习算法中的提示-图像对齐效果。
  • Conclusion: D-Fusion解决了视觉不一致性问题,显著改善了扩散模型的对齐能力。

[74] Event-based Egocentric Human Pose Estimation in Dynamic Environment

Wataru Ikeda,Masashi Hatano,Ryosei Hara,Mariko Isogawa

Main category: cs.CV

TL;DR: 提出了一种基于事件相机的前向视角人体姿态估计框架D-EventEgo,通过头部姿态估计和动态对象分割提升动态环境下的性能。

  • Motivation: 解决现有RGB相机方法在低光环境和运动模糊下的不足,利用事件相机优势。
  • Method: 先估计头部姿态,再生成身体姿态,引入动态对象分割模块提升头部姿态估计准确性。
  • Result: 在合成事件数据集上,动态环境中五项指标中有四项优于基线。
  • Conclusion: D-EventEgo在动态环境下表现优越,为事件相机人体姿态估计提供了新思路。

[75] Prototype Embedding Optimization for Human-Object Interaction Detection in Livestreaming

Menghui Zhang,Jing Zhang,Lin Chen,Li Zhuo

Main category: cs.CV

TL;DR: 论文提出了一种原型嵌入优化方法(PeO-HOI),用于解决直播中人类-物体交互(HOI)检测中的物体偏差问题,显著提升了检测性能。

  • Motivation: 直播中人类与物体的交互行为识别存在物体偏差问题,即现有方法过于关注物体而忽视其与主播的交互。
  • Method: 通过预处理提取人类-物体对特征,采用原型嵌入优化减少物体偏差影响,并建模时空上下文,最终通过预测头获得HOI检测结果。
  • Result: 在公开数据集VidHOI和自建数据集BJUT-HOI上,PeO-HOI的检测准确率显著提升,尤其在非稀有类别中表现优异。
  • Conclusion: PeO-HOI方法有效解决了直播中HOI检测的物体偏差问题,提升了检测性能。

[76] PanoWan: Lifting Diffusion Video Generation Models to 360° with Latitude/Longitude-aware Mechanisms

Yifei Xia,Shuchen Weng,Siqi Yang,Jingqi Liu,Chengxuan Zhu,Minggui Teng,Zijian Jia,Han Jiang,Boxin Shi

Main category: cs.CV

TL;DR: PanoWan利用预训练的文本到视频模型生成高质量全景视频,通过纬度感知采样和旋转语义去噪等技术解决现有模型的局限性,并贡献了一个高质量全景视频数据集PanoVid。

  • Motivation: 现有全景视频生成模型难以利用预训练生成先验,主要受限于数据集规模和空间特征表示的差异。
  • Method: PanoWan采用纬度感知采样避免纬度失真,通过旋转语义去噪和填充像素解码确保经度边界无缝过渡。
  • Result: PanoWan在全景视频生成中表现优异,并在零样本下游任务中展现鲁棒性。
  • Conclusion: PanoWan通过创新方法提升了全景视频生成的质量和多样性,同时贡献了高质量数据集PanoVid。

[77] GL-PGENet: A Parameterized Generation Framework for Robust Document Image Enhancement

Zhihong Tang,Yang Li

Main category: cs.CV

TL;DR: GL-PGENet是一种用于多退化彩色文档图像增强的新架构,通过分层增强框架、双分支局部细化网络和改进的NestUNet结构,实现了高效且鲁棒的增强效果。

  • Motivation: 现有方法局限于单退化恢复或灰度图像处理,无法满足多退化彩色文档图像的需求,因此提出了GL-PGENet。
  • Method: 采用分层增强框架、双分支局部细化网络和改进的NestUNet结构,结合两阶段训练策略(大规模预训练和任务特定微调)。
  • Result: 在DocUNet和RealDAE数据集上分别达到0.7721和0.9480的SSIM分数,表现出卓越的跨域适应性和计算效率。
  • Conclusion: GL-PGENet在多退化彩色文档图像增强任务中表现出色,具有实际应用价值。

[78] Learnable Burst-Encodable Time-of-Flight Imaging for High-Fidelity Long-Distance Depth Sensing

Manchao Bao,Shengjiang Fang,Tao Yue,Xuemei Hu

Main category: cs.CV

TL;DR: 提出了一种新型的ToF成像范式BE-ToF,通过突发模式发射光脉冲并优化编码函数与深度重建网络,解决了传统iToF的相位缠绕和低信噪比问题。

  • Motivation: 长距离深度成像在自动驾驶和机器人等领域有重要应用,但现有dToF和iToF技术分别存在硬件要求高和相位缠绕、低信噪比的问题。
  • Method: 提出BE-ToF系统,采用突发模式发射光脉冲,避免相位缠绕;设计端到端可学习框架,联合优化编码函数和深度重建网络,提升信噪比。
  • Result: 通过仿真和原型实验验证了BE-ToF的有效性和实用性。
  • Conclusion: BE-ToF为长距离高保真深度成像提供了一种可行方案。

[79] Guess the Age of Photos: An Interactive Web Platform for Historical Image Age Estimation

Hasan Yucedag,Adam Jatowt

Main category: cs.CV

TL;DR: 论文介绍了一个名为“Guess the Age of Photos”的网页平台,通过两种游戏化模式让用户估计历史照片的年代。平台使用Python等技术构建,评估结果显示用户更擅长相对比较而非绝对年份猜测。

  • Motivation: 通过互动方式提升用户对历史照片年代的理解,同时为研究人类对图像时间线索的感知提供资源。
  • Method: 平台基于Python、Flask等技术,使用10,150张历史照片数据集,设计了两种游戏模式,并通过动态评分和排行榜提升参与度。
  • Result: 113名用户参与测试,满意度4.25/5。用户在相对比较中表现更好(65.9%准确率),绝对年份猜测准确率为25.6%。
  • Conclusion: 该平台不仅作为教育工具促进历史意识,还为计算机视觉模型提供了潜在的数据标注资源。

[80] Balanced Token Pruning: Accelerating Vision Language Models Beyond Local Optimization

Kaiyuan Li,Xiaoyue Chen,Chen Gao,Yong Li,Xinlei Chen

Main category: cs.CV

TL;DR: 提出了一种平衡令牌修剪(BTP)方法,通过分阶段修剪减少视觉令牌数量,显著降低计算开销,同时保持模型性能。

  • Motivation: 大型视觉语言模型(LVLMs)因图像令牌数量庞大导致计算开销高,现有修剪方法忽视了对局部和全局输出的联合影响。
  • Method: BTP方法利用校准集分阶段修剪,早期关注后续层影响,后期注重局部输出一致性。
  • Result: 实验显示,BTP方法平均压缩率达78%,同时保留96.7%的原始模型性能。
  • Conclusion: BTP是一种高效且通用的视觉令牌修剪方法,适用于多种LVLMs。

[81] OmniAD: Detect and Understand Industrial Anomaly via Multimodal Reasoning

Shifang Zhao,Yiheng Lin,Lu Han,Yao Zhao,Yunchao Wei

Main category: cs.CV

TL;DR: OmniAD是一个结合视觉和文本推理的多模态框架,用于细粒度异常检测与分析,通过集成训练策略在多个基准测试中表现优异。

  • Motivation: 工业知识在异常检测中的详细分析仍具挑战性,OmniAD旨在填补这一空白。
  • Method: OmniAD结合视觉推理(Text-as-Mask Encoding)和文本推理(Visual Guided Textual Reasoning),采用监督微调与强化学习(GRPO)的集成训练策略。
  • Result: 在MMAD基准测试中达到79.1分,优于Qwen2.5-VL-7B和GPT-4o,并在多个异常检测基准中表现强劲。
  • Conclusion: 增强视觉感知对异常理解的有效推理至关重要,OmniAD的代码和模型将公开。

[82] LatentMove: Towards Complex Human Movement Video Generation

Ashkan Taghipour,Morteza Ghahremani,Mohammed Bennamoun,Farid Boussaid,Aref Miri Rekavandi,Zinuo Li,Qiuhong Ke,Hamid Laga

Main category: cs.CV

TL;DR: LatentMove是一个基于DiT的框架,专注于生成高度动态的人体动画,通过条件控制分支和可学习的面部/身体标记提升视频生成的细节和一致性。

  • Motivation: 现有方法在处理复杂、非重复的人体运动时表现不佳,导致不自然的变形,因此需要一种更强大的解决方案。
  • Method: 采用DiT框架,结合条件控制分支和可学习的面部/身体标记,并引入CHV数据集和两个新评估指标。
  • Result: 实验表明,LatentMove显著提升了人体动画质量,尤其在处理快速复杂运动时表现突出。
  • Conclusion: LatentMove推动了I2V生成技术的发展,代码、数据集和评估指标将开源。

[83] AquaMonitor: A multimodal multi-view image sequence dataset for real-life aquatic invertebrate biodiversity monitoring

Mikko Impiö,Philipp M. Rehsen,Tiina Laamanen,Arne J. Beermann,Florian Leese,Jenni Raitoharju

Main category: cs.CV

TL;DR: AquaMonitor是首个大型水生无脊椎动物计算机视觉数据集,用于环境监测,包含2.7M图像和多模态数据,定义了三个基准任务并提供了基线。

  • Motivation: 现有物种识别数据集缺乏标准化采集协议,且未聚焦水生无脊椎动物,AquaMonitor填补了这一空白,支持自动化识别方法在真实监测场景中的评估。
  • Method: 通过两年监测采集数据,包括图像、DNA序列、干质量和尺寸测量,定义了三个基准任务(监测、分类和少样本分类)。
  • Result: 数据集包含2.7M图像、43,189个标本,提供多模态数据,并针对三个基准任务提供了强基线。
  • Conclusion: AquaMonitor为水生生物多样性监测提供了重要工具,可直接改进水质评估的立法监测工作。

[84] From Failures to Fixes: LLM-Driven Scenario Repair for Self-Evolving Autonomous Driving

Xinyu Xia,Xingjun Ma,Yunfeng Hu,Ting Qu,Hong Chen,Xun Gong

Main category: cs.CV

TL;DR: SERA是一个基于LLM的框架,通过针对性场景推荐修复自动驾驶系统的失败案例,提升性能和泛化能力。

  • Motivation: 现有场景生成和选择方法缺乏适应性和语义相关性,限制了性能改进。SERA旨在通过自适应修复失败案例解决这一问题。
  • Method: SERA分析性能日志,识别失败模式,动态检索语义对齐场景,并利用LLM机制优化推荐,进行少样本微调。
  • Result: 实验表明,SERA在基准测试中显著提升关键指标,适用于安全关键场景。
  • Conclusion: SERA通过自适应场景推荐和微调,有效提升自动驾驶系统的鲁棒性和泛化能力。

[85] Bringing CLIP to the Clinic: Dynamic Soft Labels and Negation-Aware Learning for Medical Analysis

Hanbin Ko,Chang-Min Park

Main category: cs.CV

TL;DR: 论文提出了一种结合临床增强动态软标签和医学图形对齐的新方法,改进了医学视觉语言处理(VLP)中的对比损失应用,并通过否定硬负样本提升临床语言理解。

  • Motivation: 通用领域架构(如CLIP)直接应用于医学数据时面临否定处理和数据不平衡的挑战,需改进医学VLP的临床理解和适用性。
  • Method: 整合临床增强动态软标签和医学图形对齐,引入否定硬负样本,优化医学CLIP训练流程。
  • Result: 在零样本、微调分类和报告检索等任务中达到最优性能,并通过CXR-Align基准验证临床语言理解能力。
  • Conclusion: 方法易于实现且能泛化至对比学习框架,显著提升医学VLP能力和临床语言理解。

[86] MObyGaze: a film dataset of multimodal objectification densely annotated by experts

Julie Tores,Elisa Ancarani,Lucile Sassatelli,Hui-Yin Wu,Clement Bergman,Lea Andolfi,Victor Ecrement,Remy Sun,Frederic Precioso,Thierry Devars,Magali Guaresi,Virginie Julliard,Sarah Lecossais

Main category: cs.CV

TL;DR: 本文提出了一种新的AI任务,通过多模态(视觉、语音、音频)时间模式来表征和量化电影中的物化现象,并发布了MObyGaze数据集。

  • Motivation: 理解性别表征差异及其在视听内容中的物化现象,以揭示刻板印象的传播机制。
  • Method: 基于电影研究和心理学定义了物化的结构化分类,构建了MObyGaze数据集,并提出了多种学习任务和模型基准测试。
  • Result: 展示了任务的可行性,并提供了包含6072个片段、43小时视频的密集标注数据集。
  • Conclusion: 该研究为多模态物化分析提供了新工具和数据集,推动了相关领域的发展。

[87] Fast Feature Matching of UAV Images via Matrix Band Reduction-based GPU Data Schedule

San Jiang,Kan You,Wanshou Jiang,Qingquan Li

Main category: cs.CV

TL;DR: 提出了一种基于GPU数据调度算法的高效无人机图像特征匹配方法,通过矩阵带缩减(MBR)和GPU加速级联哈希提升效率。

  • Motivation: 特征匹配在运动恢复结构(SfM)中耗时严重,需提升无人机图像特征匹配效率。
  • Method: 1. 使用图像检索技术选择匹配对;2. 基于MBR生成紧凑图像块,减少冗余IO;3. GPU加速级联哈希执行特征匹配,结合几何约束和RANSAC验证。
  • Result: 相比KD-Tree方法,速度提升77-100倍,且精度与BA相当。
  • Conclusion: 该算法是无人机图像特征匹配的高效解决方案。

[88] UAVPairs: A Challenging Benchmark for Match Pair Retrieval of Large-scale UAV Images

Junhuan Liu,San Jiang,Wei Ge,Wei Huang,Bingxuan Guo,Qingquan Li

Main category: cs.CV

TL;DR: 论文提出了UAVPairs数据集和训练流程,用于大规模无人机图像匹配对检索,通过几何相似性和批量非平凡样本挖掘策略优化训练,并设计了排名列表损失以提高检索模型的区分度。实验验证了其有效性。

  • Motivation: 解决大规模无人机图像匹配对检索中数据集不足、训练样本挖掘成本高以及传统损失函数区分度不足的问题。
  • Method: 构建UAVPairs数据集,利用几何相似性定义匹配对;提出批量非平凡样本挖掘策略;设计排名列表损失优化全局相似性结构。
  • Result: 实验表明,使用UAVPairs数据集和排名列表损失的模型在检索准确性、视图图连通性和3D重建质量上显著优于现有方法。
  • Conclusion: UAVPairs数据集和训练流程为大规模无人机图像匹配对检索提供了高效解决方案,数据集将公开。

[89] On the Transferability and Discriminability of Repersentation Learning in Unsupervised Domain Adaptation

Wenwen Qiang,Ziyin Gu,Lingyu Si,Jiangmeng Li,Changwen Zheng,Fuchun Sun,Hui Xiong

Main category: cs.CV

TL;DR: 论文提出了一种新的对抗性无监督域适应框架RLGLC,通过结合域对齐和目标域可区分性增强约束,解决了传统方法忽视目标域特征可区分性的问题。

  • Motivation: 传统对抗性域适应方法仅依赖分布对齐和源域经验风险最小化,忽视了目标域特征的可区分性,导致性能不佳。
  • Method: 提出RLGLC框架,结合域对齐目标和可区分性增强约束,使用AR-WWD处理类别不平衡和语义维度加权,并通过局部一致性机制保留目标域细粒度信息。
  • Result: 在多个基准数据集上的实验表明,RLGLC显著优于现有方法。
  • Conclusion: 论文证明了在对抗性域适应中同时保证可迁移性和可区分性的必要性,RLGLC框架为此提供了有效解决方案。

[90] Adapting Segment Anything Model for Power Transmission Corridor Hazard Segmentation

Hang Chen,Maoyuan Ye,Peng Yang,Haibin He,Juhua Liu,Bo Du

Main category: cs.CV

TL;DR: 论文提出ELE-SAM模型,针对电力传输走廊危险分割任务优化SAM模型,通过上下文感知提示适配器和高保真掩码解码器提升性能,并构建了首个大规模数据集ELE-40K。

  • Motivation: 电力传输走廊危险分割对保障电力传输安全至关重要,但现有SAM模型在复杂场景中处理精细结构目标时表现不佳。
  • Method: 提出ELE-SAM模型,包括上下文感知提示适配器(整合全局-局部特征)和高保真掩码解码器(利用多粒度掩码特征)。构建ELE-40K数据集用于训练和评估。
  • Result: ELE-SAM在ELE-40K上平均mIoU提升16.8%,mBIoU提升20.6%;在HQSeg-44K上分别提升2.9%和3.8%。
  • Conclusion: ELE-SAM显著提升了电力传输走廊危险分割任务的性能,验证了其在复杂场景和高精度分割中的有效性。

[91] Autoregression-free video prediction using diffusion model for mitigating error propagation

Woonho Ko,Jin Bok Park,Il Yong Chun

Main category: cs.CV

TL;DR: 提出首个基于扩散模型的非自回归视频预测框架ARFree,解决自回归方法中误差传播问题。

  • Motivation: 现有自回归视频预测方法在远距离未来帧中误差传播严重,需改进。
  • Method: ARFree直接预测未来帧组,包含运动预测模块和训练方法以提升运动连续性和上下文一致性。
  • Result: 在两个基准数据集上,ARFree优于多种先进视频预测方法。
  • Conclusion: ARFree框架有效解决了自回归方法的局限性,性能显著提升。

[92] SridBench: Benchmark of Scientific Research Illustration Drawing of Image Generation Model

Yifan Chang,Yukang Feng,Jianwen Sun,Jiaxin Ai,Chuanhao Li,S. Kevin Zhou,Kaipeng Zhang

Main category: cs.CV

TL;DR: 论文介绍了首个科学图表生成基准SridBench,评估了AI在科学插图生成中的表现,发现即使顶级模型如GPT-4o-image也落后于人类。

  • Motivation: 科学插图生成需要高精度和专业知识,但目前缺乏评估AI在此任务上的基准。
  • Method: 构建了包含1,120个实例的SridBench基准,涵盖13个学科,并由专家和多模态大语言模型评估。
  • Result: 实验显示,顶级模型在语义保真度和结构准确性等方面仍不及人类。
  • Conclusion: 研究强调了需要更先进的推理驱动视觉生成能力。

[93] Real-Time Blind Defocus Deblurring for Earth Observation: The IMAGIN-e Mission Approach

Alejandro D. Mousist

Main category: cs.CV

TL;DR: 该论文提出了一种针对ISS上IMAGIN-e任务中地球观测图像机械散焦的盲去模糊方法,利用Sentinel-2数据在GAN框架中估计散焦核并训练恢复模型,无需参考图像。

  • Motivation: 解决空间边缘计算约束下地球观测图像的机械散焦问题,提升图像质量以支持实际应用。
  • Method: 基于Sentinel-2数据估计散焦核,并在GAN框架中训练恢复模型,无需参考图像。
  • Result: 在合成退化的Sentinel-2图像上,SSIM提升72.47%,PSNR提升25.00%;在IMAGIN-e上,NIQE提升60.66%,BRISQUE提升48.38%。
  • Conclusion: 该方法在IMAGIN-e任务中成功部署,验证了其在资源受限的空间环境中的实用性和高效性。

[94] What Makes for Text to 360-degree Panorama Generation with Stable Diffusion?

Jinhong Ni,Chang-Bin Zhang,Qiang Zhang,Jing Zhang

Main category: cs.CV

TL;DR: 本文探讨了如何通过微调预训练的扩散模型(如Stable Diffusion)生成360度全景图像,揭示了注意力模块中不同矩阵的作用,并提出了一种高效的方法UniPano。

  • Motivation: 研究预训练扩散模型在生成全景图像时的适应机制,以解决视角与全景图像之间的领域差距问题。
  • Method: 分析了注意力模块中查询、键、值和输出权重矩阵的作用,并提出了UniPano框架,专注于优化关键矩阵以减少计算开销。
  • Result: UniPano在性能上优于现有方法,同时显著降低了内存使用和训练时间,适用于高分辨率全景生成。
  • Conclusion: 研究揭示了预训练扩散模型在全景生成中的适应机制,UniPano为未来研究提供了一个高效且可扩展的基线。

[95] FaceEditTalker: Interactive Talking Head Generation with Facial Attribute Editing

Guanwen Feng,Zhiyuan Ma,Yunan Li,Junwei Jing,Jiahao Yang,Qiguang Miao

Main category: cs.CV

TL;DR: FaceEditTalker是一个统一框架,支持在生成高质量音频同步的说话头部视频时进行可控的面部属性编辑。

  • Motivation: 现有音频驱动说话头部生成方法忽视了面部属性编辑的重要性,而这一功能对个性化、品牌适配等应用至关重要。
  • Method: 方法包括图像特征空间编辑模块(提取语义和细节特征)和音频驱动视频生成模块(融合编辑特征与音频引导的面部标志)。
  • Result: 实验表明,该方法在唇同步准确性、视频质量和属性可控性上优于现有技术。
  • Conclusion: FaceEditTalker实现了时间一致性、视觉保真度和身份保持,适用于多种实际应用。

[96] 3D Question Answering via only 2D Vision-Language Models

Fengyun Wang,Sicheng Yu,Jiawei Wu,Jinhui Tang,Hanwang Zhang,Qianru Sun

Main category: cs.CV

TL;DR: 论文提出了一种名为cdViews的方法,通过自动选择关键且多样化的2D视图,利用2D大视觉语言模型(LVLMs)在零样本条件下解决3D场景理解任务,如3D问答(3D-QA)。

  • Motivation: 探索如何利用2D LVLMs的潜力解决3D任务,避免资源密集型的3D LVLMs训练。
  • Method: 提出cdViews方法,包含viewSelector(选择关键视图)和viewNMS(增强视图多样性),通过2D模型处理3D点云的采样视图。
  • Result: 在ScanQA和SQA基准测试中达到最先进性能,仅依赖2D模型且无需微调。
  • Conclusion: 2D LVLMs是目前解决3D任务最有效的替代方案。

[97] Flexible Tool Selection through Low-dimensional Attribute Alignment of Vision and Language

Guangfu Hao,Haojie Wen,Liangxuna Guo,Yang Chen,Yanchao Bi,Shan Yu

Main category: cs.CV

TL;DR: 论文提出了一种基于低维属性表示的框架,用于连接视觉工具感知和语言任务理解,显著提升了工具选择任务的准确性。

  • Motivation: 人类在工具选择上展现出复杂的认知能力,而现有的计算模型对此能力模拟不足。
  • Method: 使用视觉编码器(ResNet或ViT)从工具图像中提取属性,同时通过微调的语言模型(GPT-2、LLaMA、DeepSeek)从任务描述中推导所需属性。
  • Result: 该方法在工具选择任务中达到74%的准确率,显著优于直接工具匹配(20%)和小型多模态模型(21%-58%),且接近GPT-4o(73%)的性能。
  • Conclusion: 该研究提供了一种参数高效、可解释的解决方案,模拟了人类工具认知,推动了认知科学理解和工具选择任务的实际应用。

[98] Improving Brain-to-Image Reconstruction via Fine-Grained Text Bridging

Runze Xia,Shuo Feng,Renzhi Wang,Congchi Yin,Xuyun Wen,Piji Li

Main category: cs.CV

TL;DR: 论文提出了一种名为FgB2I的方法,通过细粒度文本作为桥梁,改进脑活动到图像的细粒度重建。

  • Motivation: 现有脑活动到图像重建方法常缺失细节和语义一致性,可能因语义信息不足。
  • Method: FgB2I包含三个阶段:细节增强、解码细粒度文本描述、文本桥接的脑到图像重建。利用视觉语言模型生成细粒度描述,并通过奖励指标指导解码。
  • Result: 细粒度文本描述可整合到现有重建方法中,实现细粒度脑到图像重建。
  • Conclusion: FgB2I通过细粒度文本提升重建质量,解决了语义信息不足的问题。

[99] Learning A Robust RGB-Thermal Detector for Extreme Modality Imbalance

Chao Tian,Chao Yang,Guoqing Zhu,Qiang Wang,Zhenyu He

Main category: cs.CV

TL;DR: 提出了一种基于基础-辅助检测器架构的新方法,通过模态交互模块和伪退化技术解决RGB-T检测中的极端模态不平衡问题。

  • Motivation: 现实场景中,RGB-T检测常因模态退化导致极端不平衡,影响模型性能。
  • Method: 采用基础-辅助检测器架构,引入模态交互模块和伪退化技术,自适应加权模态并模拟真实退化。
  • Result: 实验显示,方法显著降低缺失率(55%),并提升多种基线检测器的性能。
  • Conclusion: 该方法有效提升了RGB-T检测在极端模态不平衡下的鲁棒性和可靠性。

[100] Q-VDiT: Towards Accurate Quantization and Distillation of Video-Generation Diffusion Transformers

Weilun Feng,Chuanguang Yang,Haotong Qin,Xiangqi Li,Yu Wang,Zhulin An,Libo Huang,Boyu Diao,Zixiang Zhao,Yongjun Xu,Michele Magno

Main category: cs.CV

TL;DR: Q-VDiT是一个专为视频DiT模型设计的量化框架,通过Token-aware Quantization Estimator(TQE)和Temporal Maintenance Distillation(TMD)解决了量化信息丢失和优化目标不对齐的问题,显著提升了性能。

  • Motivation: 现有的图像生成模型量化方法不适用于视频生成任务,主要面临量化信息丢失和优化目标与视频生成需求不匹配的挑战。
  • Method: 提出TQE补偿量化误差,TMD保持帧间时空相关性,优化整体视频上下文。
  • Result: W3A6 Q-VDiT在场景一致性上达到23.40,比现有量化方法性能提升1.9倍。
  • Conclusion: Q-VDiT为视频DiT模型的量化提供了有效解决方案,显著提升了性能并设定了新基准。

[101] S2AFormer: Strip Self-Attention for Efficient Vision Transformer

Guoan Xu,Wenfeng Huang,Wenjing Jia,Jiamao Li,Guangwei Gao,Guo-Jun Qi

Main category: cs.CV

TL;DR: S2AFormer提出了一种高效的Vision Transformer架构,通过Strip Self-Attention(SSA)和Hybrid Perception Blocks(HPBs)结合CNN的局部感知与Transformer的全局建模,显著降低计算开销。

  • Motivation: Vision Transformer(ViT)的计算需求随token数量二次增长,限制了其实际效率。现有方法结合卷积与自注意力,但自注意力的复杂矩阵操作仍是瓶颈。
  • Method: 设计SSA,通过压缩空间和通道维度减少计算开销;引入HPBs整合CNN的局部感知与Transformer的全局建模。
  • Result: 在ImageNet-1k、ADE20k和COCO等基准测试中,S2AFormer在GPU和非GPU环境下均表现出高效性和准确性。
  • Conclusion: S2AFormer在效率和效果间取得平衡,是高效Vision Transformer的有力候选。

[102] Investigating Mechanisms for In-Context Vision Language Binding

Darshana Saravanan,Makarand Tapaswi,Vineet Gandhi

Main category: cs.CV

TL;DR: 研究了视觉语言模型(VLMs)中图像与文本绑定的机制,提出Binding ID概念,并通过实验验证其有效性。

  • Motivation: 探索VLMs如何通过Binding ID机制实现图像与文本的跨模态关联。
  • Method: 使用合成数据集和任务,分析VLMs中图像与文本的绑定机制。
  • Result: 实验表明,VLMs为图像和文本分配了独特的Binding ID,实现了上下文关联。
  • Conclusion: Binding ID机制在VLMs中有效支持图像与文本的跨模态绑定。

[103] A Survey on Training-free Open-Vocabulary Semantic Segmentation

Naomi Kombol,Ivan Martinović,Siniša Šegvić

Main category: cs.CV

TL;DR: 该论文综述了无需训练的开放词汇语义分割方法,利用现有多模态分类模型,覆盖了历史、方法和最新研究。

  • Motivation: 传统语义分割方法需要大量计算资源和标注数据,而开放词汇分割要求模型分类超出学习类别,因此研究者转向无需训练的方法。
  • Method: 论文首先定义任务,然后概述流行模型类型,并分类30多种方法,包括纯CLIP模型、辅助视觉基础模型和生成方法。
  • Result: 总结了当前研究的局限性和潜在问题,并提出了未来研究的未探索方向。
  • Conclusion: 该综述为新研究者提供了入门指南,并有望激发对该领域的兴趣。

[104] Look & Mark: Leveraging Radiologist Eye Fixations and Bounding boxes in Multimodal Large Language Models for Chest X-ray Report Generation

Yunsoo Kim,Jinge Wu,Su-Hwan Kim,Pardeep Vasudev,Jiashu Shen,Honghan Wu

Main category: cs.CV

TL;DR: Look & Mark (L&M) 是一种新的视觉提示策略,通过结合放射科医生的注视点和标注框,显著提升了多模态大语言模型在医学影像分析中的性能,减少了临床错误。

  • Motivation: 现有的多模态大语言模型在医学影像分析中存在幻觉和临床错误,限制了其实际应用的可靠性。
  • Method: 提出 Look & Mark (L&M) 策略,结合放射科医生的注视点(Look)和标注框(Mark),通过上下文学习提升模型性能,无需重新训练。
  • Result: L&M 显著提升了模型性能,如 CXR-LLaVA 的 A.AVG 提升 1.2%,LLaVA-Med 提升 9.2%,并减少了临床错误(平均每报告减少 0.43 个错误)。
  • Conclusion: L&M 是一种高效、可扩展的解决方案,有望提升低资源临床环境中的诊断工作流程。

[105] Hadaptive-Net: Efficient Vision Models via Adaptive Cross-Hadamard Synergy

Xuyang Zhang,Xi Zhang,Liang Chen,Hao Shi,Qingshan Guo

Main category: cs.CV

TL;DR: 本文提出了一种基于Hadamard积的高效模块ACH,并构建了轻量级网络Hadaptive-Net,在视觉任务中实现了速度与精度的平衡。

  • Motivation: 尽管Hadamard积在增强网络表示能力和维度压缩方面具有潜力,但其实际应用尚未充分开发。本文旨在系统探索其优势并有效应用于实践。
  • Method: 分析了Hadamard积在跨通道交互和通道扩展中的优势,提出了自适应跨通道Hadamard积模块(ACH),并构建了轻量级网络Hadaptive-Net。
  • Result: 实验表明,Hadaptive-Net通过ACH模块在视觉任务中实现了前所未有的推理速度与精度的平衡。
  • Conclusion: 本文成功将Hadamard积的理论潜力转化为实际应用,为轻量级网络设计提供了新思路。

[106] GoMatching++: Parameter- and Data-Efficient Arbitrary-Shaped Video Text Spotting and Benchmarking

Haibin He,Jing Zhang,Maoyuan Ye,Juhua Liu,Bo Du,Dacheng Tao

Main category: cs.CV

TL;DR: GoMatching++是一种参数和数据高效的方法,将现成的图像文本检测器转化为视频文本检测器,通过轻量级可训练跟踪器和领域适应机制提升性能,并在多个基准测试中创下新记录。

  • Motivation: 当前视频文本检测方法在识别能力上存在局限,即使经过端到端训练,性能仍不及图像文本检测。
  • Method: 冻结图像文本检测器,引入轻量级可训练跟踪器(LST-Matcher),并设计重评分机制以弥合图像与视频数据的领域差距。
  • Result: 在ICDAR15-video、DSText和BOVText等基准测试中创下新记录,同时显著降低训练成本。
  • Conclusion: GoMatching++和ArTVideo基准将推动视频文本检测的未来发展。

[107] Enjoying Information Dividend: Gaze Track-based Medical Weakly Supervised Segmentation

Zhisong Wang,Yiwen Ye,Ziyang Chen,Yong Xia

Main category: cs.CV

TL;DR: GradTrack利用医生的注视轨迹(包括注视点、持续时间和时间顺序)提升医学图像弱监督语义分割(WSSS)性能,优于现有方法。

  • Motivation: 医学图像WSSS中稀疏标注的有效利用不足,现有基于注视的方法未充分利用注视数据中的丰富信息。
  • Method: 提出GradTrack框架,包含注视轨迹图生成和轨迹注意力两个组件,通过多级注视监督逐步优化特征。
  • Result: 在Kvasir-SEG和NCI-ISBI数据集上,Dice分数分别提升3.21%和2.61%,显著缩小与全监督模型的差距。
  • Conclusion: GradTrack有效利用注视数据提升WSSS性能,为医学图像分割提供新思路。

[108] StateSpaceDiffuser: Bringing Long Context to Diffusion World Models

Nedko Savov,Naser Kazemi,Deheng Zhang,Danda Pani Paudel,Xi Wang,Luc Van Gool

Main category: cs.CV

TL;DR: StateSpaceDiffuser通过结合状态空间模型(Mamba)的序列表示,解决了扩散模型在长上下文任务中缺乏持久环境状态的问题,显著提升了视觉一致性和长期记忆能力。

  • Motivation: 当前扩散模型在长序列任务中因缺乏持久环境状态,导致视觉一致性快速崩溃,无法保持长期上下文信息。
  • Method: 引入StateSpaceDiffuser,将状态空间模型的序列表示整合到扩散模型中,以恢复长期记忆并保持高保真合成。
  • Result: 实验表明,StateSpaceDiffuser在2D迷宫导航和复杂3D环境中均能保持视觉一致性,性能显著优于纯扩散模型基线。
  • Conclusion: 结合状态空间表示与扩散模型,能有效同时实现高保真视觉细节和长期记忆能力。

[109] YH-MINER: Multimodal Intelligent System for Natural Ecological Reef Metric Extraction

Mingzhuang Wang,Yvyang Li,Xiyang Zhang,Fei Tan,Qi Shi,Guotao Zhang,Siqi Chen,Yufei Liu,Lei Lei,Ming Zhou,Qiang Lin,Hongqiang Yang

Main category: cs.CV

TL;DR: 本研究开发了YH-OSI系统,基于多模态大模型(MLLM)实现珊瑚礁生态监测的智能化框架,提升了检测和分类效率。

  • Motivation: 珊瑚礁生态监测面临人工分析效率低和复杂水下场景分割精度不足的双重挑战。
  • Method: 系统采用‘目标检测-语义分割-先验输入’框架,结合多模态模型实现珊瑚实例的像素级分割和分类。
  • Result: 目标检测模块[email protected]达0.78,分类准确率88%,并能提取核心生态指标。
  • Conclusion: YH-OSI系统为未来水下机器人集成和全流程自动化监测奠定了基础。

[110] Domain Adaptation of Attention Heads for Zero-shot Anomaly Detection

Kiyoon Jeong,Jaehyuk Heo,Junyeong Son,Pilsung Kang

Main category: cs.CV

TL;DR: HeadCLIP是一种零样本异常检测方法,通过自适应文本和图像编码器,结合可学习提示和动态调整的注意力头权重,显著提升了工业与医疗领域的检测性能。

  • Motivation: 现有零样本异常检测方法在域适应方面存在局限,未充分调整通用模型到异常检测领域。
  • Method: HeadCLIP通过可学习提示调整文本编码器,动态调整图像编码器的注意力头权重,并引入联合异常评分。
  • Result: 在工业和医疗领域,HeadCLIP在像素和图像级别均优于现有方法,性能提升显著。
  • Conclusion: HeadCLIP通过全面的域适应策略,显著提升了零样本异常检测的效果。

[111] Learning Fine-Grained Geometry for Sparse-View Splatting via Cascade Depth Loss

Wenjun Lu,Haodong Chen,Anqi Yi,Yuk Ying Chung,Zhiyong Wang,Kun Hu

Main category: cs.CV

TL;DR: 论文提出了一种名为HDGS的深度监督框架,通过多尺度深度一致性提升稀疏视图下的新视角合成质量。

  • Motivation: 稀疏视图条件下,现有方法(如NeRF和3DGS)因几何线索不足导致重建质量下降,尤其是细节模糊和结构伪影。
  • Method: 引入层次化深度引导的HDGS框架,采用CPCL损失函数在多空间尺度上对齐渲染和估计的单目深度。
  • Result: 在LLFF和DTU基准测试中,HDGS在稀疏视图下实现了最先进的性能,同时保持高效高质量的渲染。
  • Conclusion: HDGS通过多尺度深度一致性显著提升了稀疏视图下的结构保真度,为新视角合成提供了有效解决方案。

[112] From Controlled Scenarios to Real-World: Cross-Domain Degradation Pattern Matching for All-in-One Image Restoration

Junyu Fan,Chuanlin Liao,Yi Lin

Main category: cs.CV

TL;DR: 论文提出了一种统一域自适应图像恢复(UDAIR)框架,通过域适应策略和对比学习机制,解决了多退化模式图像恢复在真实场景中的性能下降问题。

  • Motivation: 现有方法在封闭场景表现良好,但在真实场景中因数据分布差异导致性能下降,需提升退化识别能力。
  • Method: 设计了代码本表示退化模式,采用跨样本对比学习捕获共享特征,并提出域适应策略和测试时自适应机制。
  • Result: 在10个开源数据集上取得最优性能,特征聚类验证了未知条件下的退化识别能力。
  • Conclusion: UDAIR框架在真实场景中表现出强大的泛化能力,为多退化图像恢复提供了有效解决方案。

[113] Neural Restoration of Greening Defects in Historical Autochrome Photographs Based on Purely Synthetic Data

Saptarshi Neil Sinha,P. Julius Kuehn,Johannes Koppe,Arjan Kuijper,Michael Weinmann

Main category: cs.CV

TL;DR: 提出了一种基于合成数据集和生成式AI的方法,用于自动修复数字化奥托克罗姆照片中的绿色缺陷。

  • Motivation: 早期视觉艺术(如彩色照片)因老化和不当存储导致模糊、划痕、颜色渗出和褪色等问题,亟需自动修复方法。
  • Method: 通过合成数据集生成和生成式AI技术,设计了加权损失函数以解决颜色不平衡问题。
  • Result: 该方法能高效修复绿色缺陷,减少时间需求,优于现有方法。
  • Conclusion: 该方法为视觉艺术修复提供了一种高效且自动化的解决方案。

[114] CADReview: Automatically Reviewing CAD Programs with Error Detection and Correction

Jiali Chen,Xusen Hei,HongFei Liu,Yuancheng Wei,Zikun Deng,Jiayuan Xie,Yi Cai,Li Qing

Main category: cs.CV

TL;DR: 论文提出ReCAD框架,用于自动检测和修正CAD程序中的错误,确保3D对象与参考图像一致,并创建了CADReview数据集。

  • Motivation: 设计师在CAD设计流程中需耗费大量时间检查和修正原型,现有MLLMs在识别几何组件和空间操作方面表现不佳。
  • Method: 提出ReCAD框架,结合CADReview数据集(20K程序-图像对),检测并修正CAD程序错误。
  • Result: 实验表明ReCAD显著优于现有MLLMs,展示了在设计应用中的潜力。
  • Conclusion: ReCAD框架有效解决了CAD程序错误检测与修正问题,提升了设计效率。

[115] IKIWISI: An Interactive Visual Pattern Generator for Evaluating the Reliability of Vision-Language Models Without Ground Truth

Md Touhidul Islam,Imran Kabir,Md Alimoor Reza,Syed Masum Billah

Main category: cs.CV

TL;DR: IKIWISI是一种交互式视觉模式生成器,用于在无真实数据时评估视觉语言模型的视频对象识别能力,通过热图可视化模型输出,并利用人类模式识别能力评估模型可靠性。

  • Motivation: 传统评估方法在缺乏真实数据时难以评估视觉语言模型的可靠性,IKIWISI旨在通过可视化工具填补这一空白。
  • Method: IKIWISI将模型输出转化为二值热图(绿色表示对象存在,红色表示不存在),并引入“间谍对象”检测模型幻觉。
  • Result: 15名用户研究发现,IKIWISI易于使用,评估结果与客观指标相关,且仅需少量热图单元即可得出结论。
  • Conclusion: IKIWISI不仅补充了传统评估方法,还揭示了改进视觉语言系统与人类感知对齐的机会。

[116] Learning to Infer Parameterized Representations of Plants from 3D Scans

Samara Ghrer,Christophe Godin,Stefanie Wuhrer

Main category: cs.CV

TL;DR: 提出了一种统一的方法,通过3D扫描植物推断其参数化表示,适用于重建、分割和骨架化等任务。

  • Motivation: 植物3D重建因自遮挡和器官空间接近性而复杂,现有方法多为逆向建模或特定任务,缺乏统一解决方案。
  • Method: 使用基于L系统的程序模型生成虚拟植物,训练递归神经网络,从3D点云推断参数化树状表示。
  • Result: 在合成植物上验证,方法在重建、分割和骨架化任务中表现与现有技术相当。
  • Conclusion: 统一框架适用于多种任务,为植物3D表示提供了高效解决方案。

[117] Progressive Data Dropout: An Embarrassingly Simple Approach to Faster Training

Shriram M S,Xinyue Hao,Shihao Hou,Yang Lu,Laura Sevilla-Lara,Anurag Arnab,Shreyank N Gowda

Main category: cs.CV

TL;DR: 论文提出了一种名为Progressive Data Dropout的新训练范式,显著减少训练所需的epoch数量(降至基线的12.4%),同时提升模型精度(最高4.82%)。该方法无需修改模型架构或优化器,易于实现和推广。

  • Motivation: 当前机器学习依赖大规模数据集训练,成本高昂。尽管模型压缩研究较多,但数据利用效率的研究较少。论文旨在探索更高效的数据利用方法。
  • Method: 结合硬数据挖掘和dropout的见解,提出Progressive Data Dropout方法,通过逐步丢弃数据减少训练epoch,同时保持或提升模型性能。
  • Result: 实验显示,该方法将有效epoch减少至基线的12.4%,且精度提升最高达4.82%。
  • Conclusion: Progressive Data Dropout是一种简单高效的训练方法,无需额外修改即可广泛应用,具有广泛推广潜力。

[118] Task-Driven Implicit Representations for Automated Design of LiDAR Systems

Nikhil Behari,Aaron Young,Akshat Dave,Ramesh Raskar

Main category: cs.CV

TL;DR: 提出了一种基于任务驱动的自动化LiDAR系统设计框架,通过生成模型和期望最大化方法优化设计。

  • Motivation: LiDAR设计复杂且耗时,传统方法依赖人工,难以满足多样化的空间和时间采样需求。
  • Method: 在六维设计空间中表示LiDAR配置,通过流式生成模型学习任务特定的隐式密度,并使用期望最大化方法合成新系统。
  • Result: 在3D视觉任务中验证了方法的有效性,适用于人脸扫描、机器人跟踪和物体检测等应用。
  • Conclusion: 该框架能够高效、自动化地设计满足约束条件的LiDAR系统。

[119] VME: A Satellite Imagery Dataset and Benchmark for Detecting Vehicles in the Middle East and Beyond

Noora Al-Emadi,Ingmar Weber,Yin Yang,Ferda Ofli

Main category: cs.CV

TL;DR: 论文提出了VME和CDSI数据集,用于提升卫星图像中车辆检测的准确性,特别是在中东地区和全球范围内。

  • Motivation: 现有数据集存在地理偏见,忽略中东地区,导致车辆检测模型在该区域表现不佳。
  • Method: 创建VME数据集(覆盖中东12国的54个城市)和CDSI数据集(结合多源图像),并采用手动和半自动标注方法。
  • Result: VME显著提升中东地区的检测准确率;CDSI训练的模型在全球范围内表现更优。
  • Conclusion: VME和CDSI填补了地理偏见的数据缺口,提升了车辆检测的全球适用性。

[120] Identity-Preserving Text-to-Image Generation via Dual-Level Feature Decoupling and Expert-Guided Fusion

Kewen Chen,Xiaobin Hu,Wenqi Ren

Main category: cs.CV

TL;DR: 提出了一种新框架,通过解耦身份相关与无关特征并引入特征融合机制,提升文本到图像生成的质量和文本对齐。

  • Motivation: 当前方法难以区分输入图像中身份相关与无关信息,导致过拟合或身份丢失。
  • Method: 框架包含隐式-显式前景-背景解耦模块(IEDM)和基于专家混合(MoE)的特征融合模块(FFM),结合三种损失函数指导解耦。
  • Result: 实验表明,该方法提高了生成图像质量、场景适应性和输出多样性。
  • Conclusion: 新框架有效解决了身份信息解耦问题,提升了生成效果。

[121] DAM: Domain-Aware Module for Multi-Domain Dataset Condensation

Jaehyun Choi,Gyojin Han,Dong-Jae Lee,Sunghyun Baek,Junmo Kim

Main category: cs.CV

TL;DR: 论文提出了一种多域数据集压缩方法(MDDC),通过引入域感知模块(DAM)来提升压缩数据在单域和多域场景下的泛化能力。

  • Motivation: 现代数据集通常是多域异构的,而现有数据集压缩方法忽视了这一点,导致压缩数据在多域场景下表现不佳。
  • Method: 提出了域感知模块(DAM),通过可学习的空间掩码将域相关特征嵌入合成图像,并使用基于频率的伪域标签方法。
  • Result: 实验表明,DAM在域内、域外和跨架构性能上均优于基线数据集压缩方法。
  • Conclusion: MDDC通过DAM有效提升了数据集压缩在多域场景下的性能,且无需显式域标签。

[122] PacTure: Efficient PBR Texture Generation on Packed Views with Visual Autoregressive Models

Fan Fei,Jiajun Tang,Fei-Peng Tian,Boxin Shi,Ping Tan

Main category: cs.CV

TL;DR: PacTure是一个新框架,通过未纹理化的3D网格、文本描述和可选图像提示生成基于物理的渲染(PBR)材质纹理。它解决了现有方法在全局一致性和分辨率上的限制。

  • Motivation: 现有方法在生成纹理时存在全局不一致性和分辨率限制的问题,PacTure旨在通过新技术解决这些问题。
  • Method: 引入视图打包技术,将多视图映射问题转化为2D矩形装箱问题,提高分辨率;结合多域生成框架,提升效率。
  • Result: 实验表明,PacTure在生成PBR纹理的质量和训练/推理效率上优于现有方法。
  • Conclusion: PacTure通过创新技术解决了纹理生成中的关键问题,显著提升了效果和效率。

[123] Zooming from Context to Cue: Hierarchical Preference Optimization for Multi-Image MLLMs

Xudong Li,Mengdan Zhang,Peixian Chen,Xiawu Zheng,Yan Zhang,Jingyuan Zheng,Yunhang Shen,Ke Li,Chaoyou Fu,Xing Sun,Rongrong Ji

Main category: cs.CV

TL;DR: CcDPO是一种多级偏好优化框架,通过从全局上下文到局部细节的视觉线索增强多图像任务中的感知能力,显著减少幻觉现象。

  • Motivation: 多模态大语言模型(MLLMs)在单图像任务中表现优异,但在多图像理解中因跨模态对齐问题导致幻觉现象(如上下文遗漏、混淆和误解)。现有方法(如DPO)仅优化单一图像参考,忽略了全局上下文建模。
  • Method: 提出CcDPO框架,包括上下文级优化(重新评估MLLMs的多图像认知偏差并整合低成本全局序列偏好)和细节级优化(通过区域目标视觉提示和多模态偏好监督关注细粒度视觉细节)。构建MultiScope-42k数据集支持优化。
  • Result: 实验表明,CcDPO显著减少幻觉现象,并在单图像和多图像任务中均取得性能提升。
  • Conclusion: CcDPO通过多级优化有效解决了MLLMs在多图像任务中的幻觉问题,为跨模态对齐提供了新思路。

[124] Self-Reflective Reinforcement Learning for Diffusion-based Image Reasoning Generation

Jiadong Pan,Zhiyuan Ma,Kaiyan Zhang,Ning Ding,Bowen Zhou

Main category: cs.CV

TL;DR: SRRL是一种基于自反思强化学习的扩散模型算法,通过多轮反思去噪过程实现逻辑图像生成。

  • Motivation: 现有图像生成方法在逻辑中心任务中表现不佳,受Chain of Thought和强化学习启发,提出SRRL以改进推理生成。
  • Method: SRRL将去噪轨迹视为CoT步骤,引入条件引导前向过程,实现多轮反思迭代。
  • Result: 实验表明SRRL在逻辑图像生成任务中表现优异,甚至优于GPT-4o。
  • Conclusion: SRRL首次将图像推理引入生成任务,为物理规律和非传统物理现象的图像生成提供了新方法。

[125] Frugal Incremental Generative Modeling using Variational Autoencoders

Victor Enescu,Hichem Sahbi

Main category: cs.CV

TL;DR: 提出了一种基于变分自编码器(VAE)的无回放增量学习模型,解决了增量学习中数据量增长和灾难性遗忘的问题。

  • Motivation: 增量学习在深度学习中潜力巨大,但面临灾难性遗忘和数据量增长的挑战。现有方法(如回放法)在任务增加时数据量急剧膨胀,导致可扩展性问题。
  • Method: 设计了一种基于多模态潜在空间的增量生成模型,并引入正交性准则以减少VAE的灾难性遗忘。模型分为静态和动态两种变体,参数数量可控。
  • Result: 实验表明,该方法在内存占用上比相关方法节省至少一个数量级,同时达到SOTA准确率。
  • Conclusion: 提出的方法有效解决了增量学习中的数据增长和遗忘问题,具有高效性和可扩展性。

[126] GeoDrive: 3D Geometry-Informed Driving World Model with Precise Action Control

Anthony Chen,Wenzhao Zheng,Yida Wang,Xueyang Zhang,Kun Zhan,Peng Jia,Kurt Keutzer,Shangbang Zhang

Main category: cs.CV

TL;DR: GeoDrive通过将3D几何条件整合到驾驶世界模型中,提升了自动驾驶的空间理解和动作可控性,显著优于现有模型。

  • Motivation: 当前方法在保持3D几何一致性或处理遮挡时存在缺陷,影响自动驾驶的安全评估。
  • Method: 从输入帧提取3D表示,基于用户指定的轨迹生成2D渲染,并通过动态编辑模块增强渲染效果。
  • Result: 实验表明,GeoDrive在动作准确性和3D空间感知上优于现有模型,并能泛化到新轨迹和提供交互式场景编辑。
  • Conclusion: GeoDrive为自动驾驶提供了更真实、适应性强且可靠的场景建模,提升了安全性。

[127] RC-AutoCalib: An End-to-End Radar-Camera Automatic Calibration Network

Van-Tin Luu,Yon-Lin Cai,Vu-Hoang Tran,Wei-Chen Chiu,Yi-Ting Chen,Ching-Chun Huang

Main category: cs.CV

TL;DR: 本文提出了一种首创的雷达与相机系统的在线自动几何校准方法,通过双视角表示和选择性融合机制解决雷达高度数据稀疏和不确定性问题。

  • Motivation: 雷达高度数据的稀疏性和测量不确定性使得系统运行期间的自动校准成为长期挑战。
  • Method: 采用双视角表示(前视图和鸟瞰图)和选择性融合机制,结合多模态交叉注意力机制和抗噪声匹配器。
  • Result: 在nuScenes数据集上测试,显著优于现有雷达-相机和LiDAR-相机校准方法。
  • Conclusion: 该方法为未来研究设立了新基准,代码已开源。

[128] Zero-Shot 3D Visual Grounding from Vision-Language Models

Rong Li,Shijie Li,Lingdong Kong,Xulei Yang,Junwei Liang

Main category: cs.CV

TL;DR: SeeGround是一个零样本3D视觉定位框架,利用2D视觉语言模型,无需3D特定训练,通过混合输入格式和核心模块提升定位精度。

  • Motivation: 现有3D视觉定位方法依赖标注数据和预定义类别,难以扩展到开放世界场景。
  • Method: 提出SeeGround框架,结合查询对齐的渲染视图和空间增强文本描述,包含视角适应模块和融合对齐模块。
  • Result: 在ScanRefer和Nr3D上显著优于零样本基线,提升7.7%和7.1%,接近全监督方法。
  • Conclusion: SeeGround展示了在挑战性条件下的强泛化能力,为3D视觉定位提供了新思路。

[129] Distance Transform Guided Mixup for Alzheimer's Detection

Zobia Batool,Huseyin Ozkan,Erchan Aptoula

Main category: cs.CV

TL;DR: 该研究提出了一种基于距离变换和分层混合的单域泛化方法,用于解决阿尔茨海默病检测中的数据集不平衡和多样性不足问题。

  • Motivation: 医学数据集存在类别不平衡、成像协议差异和多样性有限等问题,影响了模型的泛化能力。
  • Method: 通过计算MRI扫描的距离变换,将其分层并混合不同样本的层,生成多样化的增强图像。
  • Result: 实验表明,该方法在ADNI和AIBL数据集上提高了泛化性能。
  • Conclusion: 提出的方法能有效生成多样化数据并提升模型泛化能力。

[130] Can NeRFs See without Cameras?

Chaitanya Amballa,Sattwik Basu,Yu-Lin Wei,Zhijian Yang,Mehmet Ergezer,Romit Roy Choudhury

Main category: cs.CV

TL;DR: NeRFs被重新设计以学习多径信号,从而推断环境,如从稀疏WiFi测量中推断室内平面图。

  • Motivation: 探索是否可以通过多径信号(如RF/音频)推断环境,类似于NeRFs通过光学射线推断3D场景。
  • Method: 重新设计NeRFs,使其能够从多径信号中学习,应用于稀疏WiFi测量数据。
  • Result: 学习到的隐含平面图效果良好,支持室内信号预测和基本光线追踪。
  • Conclusion: NeRFs可扩展至多径信号学习,为环境推断提供新方法。

[131] On Geometry-Enhanced Parameter-Efficient Fine-Tuning for 3D Scene Segmentation

Liyao Tang,Zhe Chen,Dacheng Tao

Main category: cs.CV

TL;DR: 论文提出了一种几何感知的参数高效微调模块GEM,用于3D点云模型,解决了现有方法忽视几何和空间结构的问题。

  • Motivation: 大规模预训练点云模型在3D场景理解中表现优异,但全参数微调计算和存储成本高,现有参数高效微调方法在3D任务中表现不佳。
  • Method: 引入GEM模块,结合细粒度局部位置编码和轻量级潜在注意力机制,捕捉全局几何上下文。
  • Result: GEM性能接近或超过全参数微调,仅更新1.6%参数,训练时间和内存需求显著降低。
  • Conclusion: GEM为大规模3D点云模型的高效、可扩展和几何感知微调设定了新基准。

[132] NFR: Neural Feature-Guided Non-Rigid Shape Registration

Puhua Jiang,Zhangquan Chen,Mingze Sun,Ruqi Huang

Main category: cs.CV

TL;DR: 提出了一种基于学习的3D形状配准框架,无需训练时的对应标注,通过结合神经特征和几何配准流程,显著提升非刚性变形和部分形状匹配的准确性。

  • Motivation: 解决非刚性变形和部分形状匹配的挑战,同时避免依赖标注数据。
  • Method: 结合深度学习形状匹配网络的神经特征与迭代几何配准流程,动态更新和过滤对应关系。
  • Result: 在多个基准测试中取得最优结果,即使训练数据有限,也能处理未见过的复杂变形形状。
  • Conclusion: 该方法在非刚性配准和部分匹配任务中表现出色,优于传统和固有方法。

[133] Fostering Video Reasoning via Next-Event Prediction

Haonan Wang,Hongfu Liu,Xiangyan Liu,Chao Du,Kenji Kawaguchi,Ye Wang,Tianyu Pang

Main category: cs.CV

TL;DR: 论文提出了一种名为“下一事件预测”(NEP)的自监督学习任务,旨在提升多模态大语言模型(MLLMs)在视频输入上的时序推理能力。

  • Motivation: 现有视频任务(如视频问答和视频描述)依赖人工标注或强模型,且常将时序推理与空间信息混为一谈。NEP通过利用未来视频片段作为自监督信号,填补了这一空白。
  • Method: 将视频分割为过去和未来帧,MLLM以过去帧为输入,预测未来帧的事件摘要。同时构建了V1-33K数据集,并探索了多种视频指令调优策略。
  • Result: 实验表明,NEP是一种可扩展且有效的训练范式,能显著提升MLLMs的时序推理能力。
  • Conclusion: NEP为MLLMs的时序推理提供了一种新的自监督学习框架,并通过FutureBench验证了其有效性。

[134] Universal Domain Adaptation for Semantic Segmentation

Seun-An Choe,Keon-Hee Park,Jinwoo Choi,Gyeong-Moon Park

Main category: cs.CV

TL;DR: 论文提出了一种名为UniMAP的新框架,用于解决无监督领域自适应语义分割(UDA-SS)中的类别设置未知问题,通过域特定原型区分和目标图像匹配提升性能。

  • Motivation: 传统UDA-SS方法假设源域和目标域的类别设置已知,这在现实中不成立,导致性能下降。UniDA-SS旨在解决这一问题。
  • Method: UniMAP框架包含两个关键组件:域特定原型区分(DSPD)和目标图像匹配(TIM),分别用于细化特征分离和促进共同类学习。
  • Result: 实验表明,UniMAP在UniDA-SS基准测试中显著优于基线方法。
  • Conclusion: UniMAP通过新颖的框架设计,有效解决了类别设置未知的挑战,提升了语义分割的适应性。

[135] SHTOcc: Effective 3D Occupancy Prediction with Sparse Head and Tail Voxels

Qiucheng Yu,Yuan Xie,Xin Tan

Main category: cs.CV

TL;DR: SHTOcc通过稀疏头尾体素构建和分离学习,解决了3D占用预测中的长尾问题和几何分布问题,显著提升了性能。

  • Motivation: 现有方法未探索体素的本质分布模式,导致结果不理想。本文研究了体素的类间分布和几何分布,以解决长尾问题和几何分布导致的性能问题。
  • Method: 提出SHTOcc,采用稀疏头尾体素构建和分离学习,平衡关键体素并减少模型对主导类的偏向。
  • Result: 实验显示,SHTOcc在多个基准上显著改进:GPU内存减少42.2%,推理速度提升58.6%,准确率提高约7%。
  • Conclusion: SHTOcc在效率和效果上均表现出色,验证了其方法的有效性。

[136] Single Domain Generalization for Alzheimer's Detection from 3D MRIs with Pseudo-Morphological Augmentations and Contrastive Learning

Zobia Batool,Huseyin Ozkan,Erchan Aptoula

Main category: cs.CV

TL;DR: 论文提出了一种结合可学习伪形态模块和监督对比学习的方法,用于提升阿尔茨海默病MRI检测的泛化能力,解决了类别不平衡和协议变化的问题。

  • Motivation: 现有深度学习模型在阿尔茨海默病MRI检测中面临类别不平衡、协议多样性和数据集有限等问题,影响了泛化能力。
  • Method: 提出可学习伪形态模块生成形状感知的解剖学有意义增强数据,结合监督对比学习模块提取鲁棒的类别特异性表示。
  • Result: 在三个数据集上的实验表明,该方法在类别不平衡和成像协议变化下表现优异,提升了泛化能力。
  • Conclusion: 该方法有效解决了单域泛化问题,为阿尔茨海默病检测提供了更鲁棒的解决方案。

[137] ProCrop: Learning Aesthetic Image Cropping from Professional Compositions

Ke Zhang,Tianyu Ding,Jiachen Jiang,Tianyi Chen,Ilya Zharkov,Vishal M. Patel,Luming Liang

Main category: cs.CV

TL;DR: ProCrop是一种基于检索的图像裁剪方法,利用专业摄影数据指导裁剪决策,显著提升性能,并提供了一个大规模弱标注数据集。

  • Motivation: 现有基于规则或数据驱动的图像裁剪方法缺乏多样性或需要标注数据,ProCrop旨在通过学习专业摄影构图解决这一问题。
  • Method: ProCrop通过融合专业照片特征与查询图像特征,学习专业构图,并利用大规模弱标注数据集生成高质量裁剪建议。
  • Result: ProCrop在监督和弱监督设置下均显著优于现有方法,甚至与全监督方法表现相当。
  • Conclusion: ProCrop和其数据集将公开,推动图像美学和构图分析研究。

[138] The Meeseeks Mesh: Spatially Consistent 3D Adversarial Objects for BEV Detector

Aixuan Li,Mochu Xiang,Jing Zhang,Yuchao Dai

Main category: cs.CV

TL;DR: 该论文研究了3D物体检测模型对3D对抗攻击的脆弱性,提出了一种生成非侵入式3D对抗对象的方法,以评估模型的鲁棒性。

  • Motivation: 3D物体检测在自动驾驶中至关重要,但其对对抗攻击的脆弱性尚未充分研究。通过生成真实场景中的对抗对象,可以评估模型的鲁棒性。
  • Method: 采用可微分渲染技术建模对抗对象与目标车辆的空间关系,引入遮挡感知模块增强视觉一致性,并设计BEV空间特征优化策略。
  • Result: 实验表明,该方法能有效抑制先进3D检测器的预测,且对抗对象在不同位置和距离下仍保持攻击效果。
  • Conclusion: 该方法为3D物体检测模型的鲁棒性测试提供了重要工具,对抗对象具有强泛化能力。

[139] PathFL: Multi-Alignment Federated Learning for Pathology Image Segmentation

Yuan Zhang,Feng Chen,Yaolei Qi,Guanyu Yang,Huazhu Fu

Main category: cs.CV

TL;DR: PathFL是一种新颖的多对齐联邦学习框架,通过图像、特征和模型聚合的三级对齐策略解决病理图像分割中的异质性问题。

  • Motivation: 病理图像分割在多中心环境中面临成像模态、器官和扫描设备等异质性带来的表示偏差和泛化性挑战。
  • Method: PathFL采用三级对齐策略:图像级的协作风格增强模块、特征级的自适应特征对齐模块和模型聚合层的分层相似性聚合策略。
  • Result: 在四种异质性病理图像数据集上的评估表明,PathFL在性能和鲁棒性方面优于其他方法。
  • Conclusion: PathFL通过多级对齐策略有效解决了病理图像分割中的异质性问题,提升了模型的泛化能力。

[140] PrismLayers: Open Data for High-Quality Multi-Layer Transparent Image Generative Models

Junwen Chen,Heyang Jiang,Yanbin Wang,Keming Wu,Ji Li,Chao Zhang,Keiji Yanai,Dong Chen,Yuhui Yuan

Main category: cs.CV

TL;DR: 论文提出了PrismLayersPro数据集和ART+模型,解决了多层透明图像生成的数据和模型问题。

  • Motivation: 解决多层透明图像生成领域缺乏高质量数据集的问题,推动创意控制的发展。
  • Method: 发布PrismLayersPro数据集,提出无训练合成管道,开发ART+模型(包含LayerFLUX和MultiLayerFLUX)。
  • Result: ART+在用户研究中优于原ART模型,视觉质量接近FLUX.1-[dev]模型。
  • Conclusion: 为多层透明图像生成任务奠定了数据集基础,支持精确、可编辑的分层图像研究与应用。

[141] Thinking with Generated Images

Ethan Chern,Zhulin Hu,Steffi Chern,Siqi Kou,Jiadi Su,Yan Ma,Zhijie Deng,Pengfei Liu

Main category: cs.CV

TL;DR: 提出了一种新范式,通过生成中间视觉步骤,使多模态模型能在视觉推理中跨模态思考,显著提升复杂场景处理能力。

  • Motivation: 当前多模态模型的视觉推理局限于固定图像或纯文本推理,缺乏动态生成和迭代优化的能力。
  • Method: 通过两种机制实现:(1) 分解视觉任务为子目标并逐步生成;(2) 生成初始视觉假设后通过自我批判优化。
  • Result: 实验显示在复杂多对象场景中相对基线提升50%(从38%到57%)。
  • Conclusion: 该方法为AI模型提供了类似人类的视觉想象和迭代优化能力,适用于多领域应用。

[142] RiverMamba: A State Space Model for Global River Discharge and Flood Forecasting

Mohamad Hakam Shams Eddin,Yikui Zhang,Stefan Kollet,Juergen Gall

Main category: cs.CV

TL;DR: RiverMamba是一种新型深度学习模型,用于全球河流流量和洪水预测,通过时空建模和长期再分析数据预训练,显著提升了预测准确性。

  • Motivation: 现有深度学习方法在洪水预测中局限于局部应用,未能充分利用水体的空间连接,需要新的时空建模方法。
  • Method: RiverMamba利用高效的Mamba块捕获全球尺度河道网络路由,结合ECMWF HRES气象预测数据,并通过时空建模处理其不准确性。
  • Result: RiverMamba在河流流量和极端洪水预测中表现优于现有的AI和物理模型。
  • Conclusion: RiverMamba为科学和操作应用提供了可靠的全球洪水预测工具。

[143] Scaling-up Perceptual Video Quality Assessment

Ziheng Jia,Zicheng Zhang,Zeyu Zhang,Yingji Liang,Xiaorong Zhu,Chunyi Li,Jinliang Han,Haoning Wu,Bin Wang,Haoran Zhang,Guanyu Zhu,Qiyong Zhao,Xiaohong Liu,Guangtao Zhai,Xiongkuo Min

Main category: cs.CV

TL;DR: OmniVQA框架通过构建大规模多模态指令数据库(MIDB)和数据集,解决了感知视频质量评估(VQA)领域数据稀缺问题,并在质量和评分任务中取得最优性能。

  • Motivation: 解决VQA领域因数据稀缺和数据集规模不足而未能充分利用数据缩放定律的问题。
  • Method: 提出OmniVQA框架,构建高质量MIDB和数据集,采用互补训练策略,并引入细粒度评估基准。
  • Result: 模型在质量理解和评分任务中均达到最优性能。
  • Conclusion: OmniVQA框架通过数据扩展和互补训练策略,显著提升了VQA任务的性能。

[144] Deep Learning-Based BMD Estimation from Radiographs with Conformal Uncertainty Quantification

Long Hui,Wai Lok Yeung

Main category: cs.CV

TL;DR: 利用深度学习从膝关节X光片中预测骨密度,通过不确定性量化提升临床可信度。

  • Motivation: DXA设备有限,阻碍骨质疏松筛查,希望通过广泛可用的膝关节X光片实现骨密度估计。
  • Method: 使用EfficientNet模型在OAI数据集上训练,比较两种测试时间增强方法,并采用Split Conformal Prediction提供统计严格的预测区间。
  • Result: 皮尔逊相关系数为0.68,多样本方法产生更紧的置信区间,同时保持覆盖率。
  • Conclusion: 尽管膝关节X光片与标准DXA存在解剖学差异,但该方法为基于常规X光片的可信AI辅助骨密度筛查奠定了基础。

[145] MultiFormer: A Multi-Person Pose Estimation System Based on CSI and Attention Mechanism

Yanyi Qu,Haoyang Ma,Wenhui Xiong

Main category: cs.CV

TL;DR: MultiFormer是一种基于CSI的无线感知系统,通过Transformer和特征融合网络实现高精度人体姿态估计。

  • Motivation: 解决多人体姿态识别和CSI特征学习的挑战,提升非侵入式人体活动监测的准确性。
  • Method: 采用基于Transformer的时频双令牌特征提取器和多阶段特征融合网络(MSFN)。
  • Result: 在公开和自收集数据集上表现优于现有方法,尤其是对高动态关键点的估计。
  • Conclusion: MultiFormer在人体姿态估计中表现出更高的准确性和鲁棒性。

[146] PRISM: Video Dataset Condensation with Progressive Refinement and Insertion for Sparse Motion

Jaehyun Choi,Jiwan Hur,Gyojin Han,Jaemyung Yu,Junmo Kim

Main category: cs.CV

TL;DR: PRISM是一种新颖的视频数据集压缩方法,通过渐进式细化和插入稀疏运动帧,保留时空动态的相互依赖关系,优于现有方法。

  • Motivation: 解决大规模视频数据处理中的计算挑战,同时保留视频中空间内容和时间动态的复杂关系。
  • Method: 提出PRISM方法,渐进式细化和插入稀疏运动帧,考虑每帧的梯度关系,保留静态内容与动态运动的相互依赖。
  • Result: 在标准视频动作识别基准测试中表现优于现有方法,同时保持紧凑的存储需求。
  • Conclusion: PRISM为资源受限环境提供高效视频数据集压缩方案,同时提升性能。

[147] Universal Visuo-Tactile Video Understanding for Embodied Interaction

Yifan Xie,Mingyang Li,Shoujie Li,Xingting Li,Guangyu Chen,Fei Ma,Fei Richard Yu,Wenbo Ding

Main category: cs.CV

TL;DR: VTV-LLM是一个多模态大语言模型,用于视觉-触觉视频(VTV)理解,填补了触觉感知与自然语言之间的空白。

  • Motivation: 触觉感知对理解物体的物理属性至关重要,但现有方法未能有效整合触觉信息。
  • Method: 提出VTV150K数据集和三级训练范式,包括VTV增强、VTV-文本对齐和文本提示微调。
  • Result: VTV-LLM在触觉视频理解任务中表现优异,支持复杂触觉推理。
  • Conclusion: 该框架为触觉领域的人机交互奠定了基础。

[148] ImageReFL: Balancing Quality and Diversity in Human-Aligned Diffusion Models

Dmitrii Sorokin,Maksim Nakhodnov,Andrey Kuznetsov,Aibek Alanov

Main category: cs.CV

TL;DR: 论文提出两种方法改进扩散模型与人类偏好的对齐问题:结合生成策略和ImageReFL微调方法,平衡质量与多样性。

  • Motivation: 扩散模型在图像生成方面表现优异,但与人类偏好的对齐仍具挑战性,传统奖励微调方法常损害多样性。
  • Method: 1. 结合生成策略:在生成后期应用奖励调优模型,保留基础模型以维持多样性;2. ImageReFL微调方法:通过真实图像训练和多正则化器提升多样性。
  • Result: 方法在质量和多样性指标上优于传统奖励调优,用户研究证实其更好地平衡对齐与多样性。
  • Conclusion: 论文提出的方法有效解决了对齐与多样性的权衡问题,代码已开源。

[149] Tell me Habibi, is it Real or Fake?

Kartik Kuckreja,Parul Gupta,Injy Hamed,Thamar Solorio,Muhammad Haris Khan,Abhinav Dhall

Main category: cs.CV

TL;DR: 论文介绍了首个大规模阿拉伯语-英语音视频深度伪造数据集ArEnAV,包含387k视频和765小时内容,用于解决多语言和语码转换的深度伪造检测挑战。

  • Motivation: 现有深度伪造检测研究多集中于单语内容,忽略了多语言和语码转换(如阿拉伯语与英语混合)带来的挑战。
  • Method: 通过整合四种文本到语音和两种唇同步模型生成数据集,并对比现有单语和多语数据集及检测模型进行基准测试。
  • Result: ArEnAV数据集填补了多语言深度伪造检测的空白,并展示了其在推动研究中的潜力。
  • Conclusion: 该数据集为多语言和语码转换的深度伪造检测提供了重要资源,有助于提升检测技术的鲁棒性。

[150] SAM-R1: Leveraging SAM for Reward Feedback in Multimodal Segmentation via Reinforcement Learning

Jiaqi Huang,Zunnan Xu,Jun Zhou,Ting Liu,Yicheng Xiao,Mingwen Ou,Bowen Ji,Xiu Li,Kehong Yuan

Main category: cs.CV

TL;DR: SAM-R1是一种新颖的多模态大型模型框架,通过强化学习赋予模型图像分割的细粒度推理能力,无需依赖昂贵的人工标注数据。

  • Motivation: 现有方法依赖人工标注的推理数据,成本高且耗时。强化学习可赋予模型推理能力,无需此类数据。
  • Method: 结合细粒度分割设置和任务特定奖励,优化目标对齐推理与分割。利用SAM作为奖励提供者。
  • Result: 仅用3k训练样本,SAM-R1在多个基准测试中表现优异。
  • Conclusion: 强化学习能有效为多模态模型提供分割导向的推理能力。

[151] Adversarially Robust AI-Generated Image Detection for Free: An Information Theoretic Perspective

Ruixuan Zhang,He Wang,Zhengyu Zhao,Zhiqing Guo,Xun Yang,Yunfeng Diao,Meng Wang

Main category: cs.CV

TL;DR: 论文提出了一种无需训练的对抗防御方法TRIM,用于检测AI生成图像(AIGI)中的伪造内容,通过信息论方法解决特征纠缠问题,显著优于现有防御方法。

  • Motivation: AI生成图像的恶意使用(如伪造和虚假信息)日益严重,现有检测器对抗攻击的防御手段稀缺且效果不佳,尤其是对抗训练(AT)在AIGI检测中表现崩溃。
  • Method: 提出TRIM方法,基于标准检测器,利用预测熵和KL散度量特征偏移,无需额外训练即可防御对抗攻击。
  • Result: 实验表明,TRIM在多个数据集和攻击场景下表现优异,例如在ProGAN和GenImage上分别比现有最佳防御方法提升33.88%和28.91%,同时保持原始检测精度。
  • Conclusion: TRIM是一种高效且无需训练的对抗防御方法,显著提升了AIGI检测的鲁棒性。

[152] RICO: Improving Accuracy and Completeness in Image Recaptioning via Visual Reconstruction

Yuchi Wang,Yishuo Cai,Shuhuai Ren,Sihan Yang,Linli Yao,Yuanxin Liu,Yuanxing Zhang,Pengfei Wan,Xu Sun

Main category: cs.CV

TL;DR: RICO通过视觉重建改进图像描述,利用文本到图像模型和MLLM迭代优化描述,显著提升准确性和完整性。

  • Motivation: 现有图像重描述方法因幻觉和细节缺失导致不准确,需改进。
  • Method: RICO框架通过文本到图像模型重建参考图像,MLLM识别差异并迭代优化描述。RICO-Flash通过DPO学习生成类似RICO的描述。
  • Result: 在CapsBench和CompreCap上优于基线约10%。
  • Conclusion: RICO显著提升描述质量,计算成本通过RICO-Flash优化。

[153] PS4PRO: Pixel-to-pixel Supervision for Photorealistic Rendering and Optimization

Yezhi Shen,Qiuchen Zhai,Fengqing Zhu

Main category: cs.CV

TL;DR: 提出了一种基于视频帧插值的数据增强方法(PS4PRO)用于神经渲染,提升3D重建质量。

  • Motivation: 神经渲染在复杂动态场景中因输入视角有限导致重建质量受限。
  • Method: 设计轻量级视频帧插值模型PS4PRO,通过多样视频数据训练,隐式建模相机运动和3D几何。
  • Result: 实验表明该方法在静态和动态场景中均提升了重建性能。
  • Conclusion: PS4PRO作为隐式世界先验,有效增强神经渲染数据集的监督信息。

[154] ObjectClear: Complete Object Removal via Object-Effect Attention

Jixin Zhao,Shangchen Zhou,Zhouxia Wang,Peiqing Yang,Chen Change Loy

Main category: cs.CV

TL;DR: 论文提出了一个名为OBER的新数据集和ObjectClear框架,用于解决扩散修复方法在去除物体及其视觉效应时的不足。

  • Motivation: 现有扩散修复方法在去除物体及其效应(如阴影和反射)时存在生成伪影、内容幻觉和背景改变等问题。
  • Method: 提出了OBER数据集,包含成对图像和精确掩码;设计了ObjectClear框架,利用物体效应注意力机制和注意力引导融合策略。
  • Result: ObjectClear在复杂场景中表现优于现有方法,提升了物体效应去除质量和背景保真度。
  • Conclusion: OBER数据集和ObjectClear框架有效解决了物体效应去除问题,尤其在复杂场景中表现突出。

[155] SPIRAL: Semantic-Aware Progressive LiDAR Scene Generation

Dekai Zhu,Yixuan Hu,Youquan Liu,Dongyue Lu,Lingdong Kong,Slobodan Ilic

Main category: cs.CV

TL;DR: Spiral是一种新型的LiDAR扩散模型,同时生成深度、反射图像和语义图,解决了现有范围视图方法无法生成标记LiDAR场景的问题。

  • Motivation: 现有范围视图方法只能生成未标记的LiDAR场景,依赖预训练分割模型预测语义图会导致跨模态一致性不佳。
  • Method: 提出Spiral模型,结合范围视图表示的计算效率和简化网络设计,同时生成深度、反射图像和语义图,并引入新的语义感知指标评估生成数据质量。
  • Result: 在SemanticKITTI和nuScenes数据集上,Spiral以最小参数量实现最优性能,优于结合生成和分割模型的两步方法。
  • Conclusion: Spiral生成的范围图像可用于下游分割训练的合成数据增强,显著减少LiDAR数据的标注工作量。

[156] Let Them Talk: Audio-Driven Multi-Person Conversational Video Generation

Zhe Kong,Feng Gao,Yong Zhang,Zhuoliang Kang,Xiaoming Wei,Xunliang Cai,Guanying Chen,Wenhan Luo

Main category: cs.CV

TL;DR: 论文提出了一种新任务——多人物对话视频生成,并提出了MultiTalk框架,解决了多音频输入时的绑定问题,同时提升了指令跟随能力。

  • Motivation: 现有方法主要关注单人物动画,难以处理多音频输入时的绑定问题,且指令跟随能力有限。
  • Method: 提出了Label Rotary Position Embedding (L-RoPE)方法解决音频与人物绑定问题,并通过部分参数训练和多任务训练保留基础模型的指令跟随能力。
  • Result: MultiTalk在多个数据集上表现优于其他方法,展示了强大的生成能力。
  • Conclusion: MultiTalk框架有效解决了多人物对话视频生成中的挑战,具有广泛的应用潜力。

[157] Sherlock: Self-Correcting Reasoning in Vision-Language Models

Yi Ding,Ruqi Zhang

Main category: cs.CV

TL;DR: 论文提出Sherlock框架,通过自校正策略提升视觉语言模型的推理能力,仅需少量标注数据即可实现持续自我改进,并在多个基准测试中表现优异。

  • Motivation: 现有视觉语言模型对推理错误敏感,依赖大量标注数据或验证器,且泛化能力有限,因此探索自校正策略以解决这些问题。
  • Method: 引入Sherlock框架,包括轨迹级自校正目标、基于视觉扰动的偏好数据构建方法及动态β偏好调整。
  • Result: 在八个基准测试中,Sherlock平均准确率达64.1(直接生成)和65.4(自校正后),优于其他模型且仅需20%标注数据。
  • Conclusion: 自校正策略显著提升了视觉语言模型的推理能力和数据效率,具有广泛应用潜力。

[158] VScan: Rethinking Visual Token Reduction for Efficient Large Vision-Language Models

Ce Zhang,Kaixin Ma,Tianqing Fang,Wenhao Yu,Hongming Zhang,Zhisong Zhang,Yaqi Xie,Katia Sycara,Haitao Mi,Dong Yu

Main category: cs.CV

TL;DR: VScan是一个两阶段视觉令牌减少框架,通过全局和局部扫描结合令牌合并以及语言模型中间层剪枝,显著加速推理并保持高性能。

  • Motivation: 大型视觉语言模型(LVLM)因视觉令牌序列过长导致计算成本高,难以实时部署。
  • Method: 提出VScan框架:1)在视觉编码阶段结合全局和局部扫描与令牌合并;2)在语言模型中间层引入剪枝。
  • Result: 在四个LVLM上验证,VScan显著加速推理(LLaVA-NeXT-7B提速2.91倍,FLOPs减少10倍),性能保留95.4%。
  • Conclusion: VScan通过优化令牌处理,在加速推理的同时保持高性能,优于现有方法。

[159] 3DLLM-Mem: Long-Term Spatial-Temporal Memory for Embodied 3D Large Language Model

Wenbo Hu,Yining Hong,Yanjun Wang,Leison Gao,Zibu Wei,Xingcheng Yao,Nanyun Peng,Yonatan Bitton,Idan Szpektor,Kai-Wei Chang

Main category: cs.CV

TL;DR: 论文提出了一种针对大型语言模型(LLMs)在3D环境中空间-时间记忆建模不足的问题,通过3DMem-Bench基准测试和3DLLM-Mem模型,显著提升了任务表现。

  • Motivation: 当前LLMs在动态多房间3D环境中规划和行动能力不足,主要原因是缺乏有效的3D空间-时间记忆建模。
  • Method: 提出3DLLM-Mem模型,利用工作记忆令牌动态选择和融合过去观察的特征,优化记忆管理。
  • Result: 3DLLM-Mem在3DMem-Bench上表现最优,挑战性任务成功率提升16.5%。
  • Conclusion: 3DLLM-Mem通过动态记忆管理显著提升了LLMs在复杂3D环境中的表现。

[160] Training Free Stylized Abstraction

Aimon Rahman,Kartik Narayan,Vishal M. Patel

Main category: cs.CV

TL;DR: 提出了一种无需训练的方法,通过视觉语言模型和跨域校正流反转策略生成风格化抽象图像,支持多轮生成且无需微调。

  • Motivation: 解决风格化抽象任务中如何平衡识别性与风格化的问题,尤其是在分布外个体上的挑战。
  • Method: 利用推理时缩放提取身份特征,结合跨域校正流反转策略动态恢复结构,并通过风格感知时间调度实现高保真重建。
  • Result: 实验表明,该方法在多种风格(如乐高、针织玩偶、南方公园)上对未见过的身份和风格具有强泛化能力。
  • Conclusion: 提出的框架在开源环境下表现优异,适用于风格化抽象任务。

[161] Zero-Shot Vision Encoder Grafting via LLM Surrogates

Kaiyu Yue,Vasu Singla,Menglin Jia,John Kirchenbauer,Rifaa Qadri,Zikui Cai,Abhinav Bhatele,Furong Huang,Tom Goldstein

Main category: cs.CV

TL;DR: 通过训练小型“替代模型”以减少视觉语言模型(VLM)的训练成本,该方法称为零-shot嫁接,效果接近全模型训练。

  • Motivation: 降低大型语言模型(如Llama-70B)作为解码器时的高训练成本。
  • Method: 构建小型替代模型,继承目标大模型的浅层,训练视觉编码器后直接迁移到大模型。
  • Result: 嫁接后的模型性能优于编码器-替代模型组合,某些基准测试中甚至媲美全模型训练,训练成本降低约45%。
  • Conclusion: 零-shot嫁接是一种高效且经济的VLM训练策略。

cs.LG

[162] Temporal Restoration and Spatial Rewiring for Source-Free Multivariate Time Series Domain Adaptation

Peiliang Gong,Yucheng Wang,Min Wu,Zhenghua Chen,Xiaoli Li,Daoqiang Zhang

Main category: cs.LG

TL;DR: TERSE是一种针对多变量时间序列(MTS)的无源域适应(SFDA)方法,通过时空特征编码和任务设计,解决了现有方法忽视空间相关性的问题。

  • Motivation: 现有SFDA方法在多变量时间序列上表现不佳,因为它们未考虑数据的空间相关性,而TERSE旨在解决这一问题。
  • Method: TERSE结合了时空特征编码、时间恢复和空间重连任务,以捕捉和转移时空依赖性。
  • Result: 在三个真实时间序列数据集上的实验证明了TERSE的有效性和通用性。
  • Conclusion: TERSE是首个同时考虑时空一致性的MTS-SFDA方法,可作为插件模块集成到现有SFDA方法中。

[163] Taming Transformer Without Using Learning Rate Warmup

Xianbiao Qi,Yelin He,Jiaquan Ye,Chun-Guang Li,Bojia Zi,Xili Dai,Qin Zou,Rong Xiao

Main category: cs.LG

TL;DR: 论文提出了一种新的优化策略,通过平滑权重更新避免Transformer训练中的谱能量集中问题,从而稳定训练过程。

  • Motivation: 解决Transformer大规模训练中因谱能量集中导致的模型崩溃问题,避免依赖学习率预热等技术。
  • Method: 基于Weyl不等式,提出动态调整学习率的策略,防止权重更新过程中的谱能量集中。
  • Result: 实验证明该方法能有效稳定训练ViT、Swin-Transformer和GPT,无需学习率预热。
  • Conclusion: 该优化策略为Transformer训练提供了理论支持和实用解决方案,避免了模型崩溃。

[164] From Dormant to Deleted: Tamper-Resistant Unlearning Through Weight-Space Regularization

Shoaib Ahmed Siddiqui,Adrian Weller,David Krueger,Gintare Karolina Dziugaite,Michael Curtis Mozer,Eleni Triantafillou

Main category: cs.LG

TL;DR: 论文发现LLM的遗忘方法易受再学习攻击,即使微调少量无关样本,遗忘的知识也会恢复。通过实验发现,仅用保留集微调即可使遗忘集准确率从50%恢复至近100%。提出基于权重空间特性的新方法,显著提升抗再学习攻击能力。

  • Motivation: 研究LLM遗忘方法在再学习攻击下的脆弱性,探索其背后的机制并提出改进方案。
  • Method: 在视觉分类器中控制实验,分析不同遗忘方法的表现,发现权重空间特性(如L2距离和线性模式连接性)与抗再学习能力相关。
  • Result: 遗忘集准确率可通过保留集微调从50%恢复至近100%,而从头训练的模型保持50%。新方法显著提升抗攻击能力。
  • Conclusion: 权重空间特性是抗再学习攻击的关键,新方法在实验中表现最优。

[165] A Closer Look at Multimodal Representation Collapse

Abhra Chaudhuri,Anjan Dutta,Tu Bui,Serban Georgescu

Main category: cs.LG

TL;DR: 论文研究了模态崩溃现象,提出了一种通过显式基重分配防止模态崩溃的算法,并在多模态基准测试中验证了其有效性。

  • Motivation: 理解模态崩溃现象,即多模态融合模型倾向于依赖部分模态而忽略其他模态的原因。
  • Method: 通过理论分析发现模态崩溃是由于噪声特征与预测特征通过共享神经元纠缠所致,提出利用跨模态知识蒸馏和显式基重分配算法解决。
  • Result: 实验验证了跨模态知识蒸馏能够解耦特征表示,提出的算法有效防止模态崩溃。
  • Conclusion: 研究揭示了模态崩溃的机制,并提出了一种实用解决方案,适用于处理缺失模态的场景。

[166] Understanding Adversarial Training with Energy-based Models

Mujtaba Hussain Mirza,Maria Rosaria Briglia,Filippo Bartolucci,Senad Beadini,Giuseppe Lisanti,Iacopo Masi

Main category: cs.LG

TL;DR: 该研究利用基于能量的模型(EBM)框架分析对抗训练(AT)中的灾难性过拟合(CO)和鲁棒过拟合(RO),并提出Delta能量正则化器(DER)以缓解这些问题。同时,探讨了鲁棒分类器的生成能力及其改进方法。

  • Motivation: 通过能量视角理解对抗训练中的过拟合现象,并探索鲁棒分类器的生成潜力。
  • Method: 采用EBM框架分析样本能量变化,提出DER正则化器,并结合局部类PCA和能量引导改进生成能力。
  • Result: DER有效缓解CO和RO,改进的生成方法在IS和FID指标上表现优异。
  • Conclusion: 能量视角为对抗训练和生成模型提供了新见解,DER和生成改进方法具有实际应用价值。

cs.RO

[167] CogAD: Cognitive-Hierarchy Guided End-to-End Autonomous Driving

Zhennan Wang,Jianing Teng,Canqun Xiang,Kangliang Chen,Xing Pan,Lu Deng,Weihao Gu

Main category: cs.RO

TL;DR: CogAD是一种新型端到端自动驾驶模型,模拟人类驾驶员的层次认知机制,在感知和规划方面优于现有方法。

  • Motivation: 现有端到端自动驾驶方法与人类认知原则不一致,CogAD旨在通过模拟人类认知机制解决这一问题。
  • Method: CogAD采用双重层次机制:全局到局部上下文处理(感知)和意图条件多模式轨迹生成(规划)。
  • Result: 在nuScenes和Bench2Drive数据集上,CogAD表现出卓越性能,尤其在长尾场景和复杂现实驾驶条件下。
  • Conclusion: CogAD通过层次感知和多级规划,实现了更全面的环境理解和鲁棒的规划探索,展示了优越的端到端规划性能。

[168] Vision-Language-Action Model with Open-World Embodied Reasoning from Pretrained Knowledge

Zhongyi Zhou,Yichen Zhu,Junjie Wen,Chaomin Shen,Yi Xu

Main category: cs.RO

TL;DR: ChatVLA-2是一种新型的混合专家VLA模型,通过三阶段训练管道保留VLM的核心能力,同时实现可操作的推理,显著提升了数学推理和OCR能力。

  • Motivation: 现有端到端VLA系统在微调时会丢失VLM的关键能力,因此需要一种能保留并扩展VLM核心能力的通用VLA模型。
  • Method: 采用混合专家模型和三阶段训练管道,结合数学匹配任务验证模型能力。
  • Result: 模型展现出卓越的数学推理、OCR和空间推理能力,超越现有模仿学习方法。
  • Conclusion: ChatVLA-2为开发具有强大推理能力的通用机器人基础模型提供了重要进展。

[169] Learning Compositional Behaviors from Demonstration and Language

Weiyu Liu,Neil Nie,Ruohan Zhang,Jiayuan Mao,Jiajun Wu

Main category: cs.RO

TL;DR: BLADE框架结合模仿学习和基于模型的规划,通过语言标注演示和大型语言模型提取抽象动作知识,实现长时程机器人操作。

  • Motivation: 解决长时程机器人操作中复杂任务的泛化问题,尤其是面对新初始状态、外部扰动和新目标时的适应性。
  • Method: 利用语言标注演示和LLMs提取动作知识,构建结构化高层动作表示库,包括视觉感知的预条件和效果,以及神经网络策略控制器。
  • Result: BLADE能自动恢复结构化表示,无需手动标注或符号定义,在仿真和真实机器人实验中表现优异,适应新情境。
  • Conclusion: BLADE通过语言和演示结合,显著提升了机器人操作的泛化能力和适应性。

[170] ForceVLA: Enhancing VLA Models with a Force-aware MoE for Contact-rich Manipulation

Jiawen Yu,Hairuo Liu,Qiaojun Yu,Jieji Ren,Ce Hao,Haitong Ding,Guangyu Huang,Guofan Huang,Yan Song,Panpan Cai,Cewu Lu,Wenqiang Zhang

Main category: cs.RO

TL;DR: ForceVLA提出了一种新型的端到端机器人操作框架,通过将外力感知作为VLA系统中的首要模态,显著提升了接触密集型任务的性能。

  • Motivation: 现有VLA模型在需要精细力控制的接触密集型任务中表现不佳,尤其是在视觉遮挡或动态不确定的情况下。
  • Method: ForceVLA引入了FVLMoE模块,动态整合预训练的视觉-语言嵌入与实时6轴力反馈,并通过ForceVLA-Data数据集支持多模态学习。
  • Result: ForceVLA在接触密集型任务中平均成功率提高了23.2%,在插头插入等任务中达到80%的成功率。
  • Conclusion: ForceVLA强调了多模态整合在灵巧操作中的重要性,为物理智能机器人控制设定了新基准。

[171] LiDAR Based Semantic Perception for Forklifts in Outdoor Environments

Benjamin Serfling,Hannes Reichert,Lorenzo Bayerlein,Konrad Doll,Kati Radkhah-Lens

Main category: cs.RO

TL;DR: 提出了一种基于双LiDAR的语义分割框架,专为复杂户外环境中的自动叉车设计,提高障碍物检测和场景理解能力。

  • Motivation: 针对工业物料搬运任务中复杂户外环境的需求,开发一种能够精确检测动态和静态障碍物的语义分割方法。
  • Method: 集成双LiDAR系统(前向和向下倾斜),利用高分辨率3D点云数据,采用轻量级算法分割安全关键实例和环境类别。
  • Result: 实验验证表明,该方法在满足实时性要求的同时,实现了高分割精度。
  • Conclusion: 该方法适用于动态仓库和场地环境中的安全感知全自动叉车导航。

[172] UP-SLAM: Adaptively Structured Gaussian SLAM with Uncertainty Prediction in Dynamic Environments

Wancai Zheng,Linlin Ou,Jiajie He,Libo Zhou,Xinyi Yu,Yan Wei

Main category: cs.RO

TL;DR: UP-SLAM是一种实时RGB-D SLAM系统,通过并行化框架解耦跟踪与映射,采用概率八叉树管理高斯基元,并提出无训练不确定性估计器和时间编码器,显著提升动态环境中的定位精度和渲染质量。

  • Motivation: 现有3DGS技术在动态环境中存在实时性和鲁棒性不足的问题,UP-SLAM旨在通过并行化框架和多模态融合方法解决这些限制。
  • Method: 使用概率八叉树自适应管理高斯基元,提出无训练不确定性估计器融合多模态残差,设计时间编码器提升渲染质量,并通过浅层MLP构建DINO特征增强高斯场。
  • Result: 在多个数据集上,UP-SLAM的定位精度提升59.8%,渲染质量提升4.57 dB PSNR,同时保持实时性能。
  • Conclusion: UP-SLAM在动态环境中表现出色,定位和渲染性能显著优于现有方法,且无需依赖语义标签。

cs.CY

[173] Detecting Cultural Differences in News Video Thumbnails via Computational Aesthetics

Marvin Limpijankit,John Kender

Main category: cs.CY

TL;DR: 论文提出了一种两步法分析不同文化背景下图像风格的差异,通过聚类和美学特征比较,发现中美YouTube缩略图在风格上存在显著差异。

  • Motivation: 研究不同文化背景下图像风格的差异,为视觉宣传分析提供基线。
  • Method: 首先将图像按内容聚类为更细的视觉主题,然后比较美学特征。测试数据为2400张中美YouTube缩略图。
  • Result: 中国缩略图更随意、生动,而美国缩略图更正式、精细、色彩饱和且构图更紧凑。
  • Conclusion: 这些差异反映了文化偏好,方法可用于视觉宣传的检测与比较。

cs.IT

[174] Synonymous Variational Inference for Perceptual Image Compression

Zijian Liang,Kai Niu,Changshuo Wang,Jin Xu,Ping Zhang

Main category: cs.IT

TL;DR: 本文提出了一种基于同义关系的变分推理方法(SVI),用于重新分析感知图像压缩问题,并通过实验验证了其有效性。

  • Motivation: 语义信息理论揭示了语义与句法信息之间的同义关系,本文基于这一观点,探索感知图像压缩的优化方向。
  • Method: 提出同义变分推理(SVI)方法,以感知相似性为同义标准构建理想同义集(Synset),并通过最小化部分语义KL散度近似其后验表示。
  • Result: 理论证明感知图像压缩的优化方向遵循三重权衡,实验结果显示单一渐进式同义图像压缩(SIC)编解码器具有可比的性能。
  • Conclusion: 提出的SVI分析方法有效,且SIC编解码器在实际应用中展现了潜力。

quant-ph

[175] Physics-inspired Generative AI models via real hardware-based noisy quantum diffusion

Marco Parigi,Stefano Martina,Francesco Aldo Venturelli,Filippo Caruso

Main category: quant-ph

TL;DR: 量子扩散模型(QDMs)利用量子特性提升生成AI性能,但现有算法因量子设备限制难以扩展。论文提出两种物理启发协议:一种通过量子随机游走提升模型统计稳健性,另一种利用IBM量子硬件噪声生成图像。

  • Motivation: 解决量子扩散模型在近量子设备上的可扩展性问题,探索量子噪声作为资源的潜力。
  • Method: 1. 使用量子随机游走形式,结合量子与经典动力学提升模型稳健性;2. 利用IBM量子硬件噪声实现图像生成。
  • Result: 第一种方法生成MNIST图像的FID更低;第二种方法仅用4量子比特实现图像生成。
  • Conclusion: 为量子生成AI的大规模算法开辟新方向,量子噪声可被利用而非抑制。

cs.GR

[176] RenderFormer: Transformer-based Neural Rendering of Triangle Meshes with Global Illumination

Chong Zeng,Yue Dong,Pieter Peers,Hongzhi Wu,Xin Tong

Main category: cs.GR

TL;DR: RenderFormer是一种神经渲染管道,直接从三角形表示的场景渲染图像,支持全局光照效果,无需针对每个场景进行训练或微调。

  • Motivation: 传统渲染方法通常基于物理模拟,计算复杂且耗时。RenderFormer旨在通过序列到序列的转换简化渲染过程,提高效率。
  • Method: 采用两阶段管道:视图无关阶段建模三角形间的光传输,视图相关阶段将光线束转换为像素值。两者均基于Transformer架构。
  • Result: 在形状和光传输复杂度不同的场景中进行了验证,展示了其有效性。
  • Conclusion: RenderFormer提供了一种高效且灵活的渲染方法,无需物理模拟或场景特定训练。

[177] STDR: Spatio-Temporal Decoupling for Real-Time Dynamic Scene Rendering

Zehao Li,Hao Jiang,Yujun Cai,Jianing Chen,Baolong Bi,Shuqin Gao,Honglong Zhao,Yiwei Wang,Tianlu Mao,Zhaoqi Wang

Main category: cs.GR

TL;DR: 论文提出STDR模块,通过解耦时空概率分布提升动态场景重建质量。

  • Motivation: 现有3DGS方法在动态重建中存在时空不连贯问题,导致运动建模不准确。
  • Method: STDR引入时空掩码、分离变形场和一致性正则化,解耦时空模式。
  • Result: 实验表明,STDR显著提升了重建质量和时空一致性。
  • Conclusion: STDR为动态场景重建提供了高效且高质量的解决方案。

[178] Neural Face Skinning for Mesh-agnostic Facial Expression Cloning

Sihun Cha,Serin Yoon,Kwanggyoon Seo,Junyong Noh

Main category: cs.GR

TL;DR: 提出了一种结合全局和局部变形模型的方法,用于面部动画重定向,实现精确的表情克隆和直观控制。

  • Motivation: 现有方法在全局编码中难以捕捉局部细节,而局部变形方法又导致整体控制复杂化。
  • Method: 通过预测目标网格的蒙皮权重,将全局潜在代码的影响局部化,结合FACS-based blendshapes监督。
  • Result: 在表情保真度、变形转移准确性和跨网格适应性上优于现有方法。
  • Conclusion: 该方法在保持直观控制的同时,实现了高精度的局部表情重定向。

cs.CR

[179] VideoMarkBench: Benchmarking Robustness of Video Watermarking

Zhengyuan Jiang,Moyang Guo,Kecen Li,Yuepeng Hu,Yupu Wang,Zhicong Huang,Cheng Hong,Neil Zhenqiang Gong

Main category: cs.CR

TL;DR: 论文提出了VideoMarkBench,首个系统性评估视频水印在去除和伪造攻击下鲁棒性的基准,发现现有方法存在显著漏洞。

  • Motivation: 随着视频生成模型的快速发展,合成视频的真实性引发伦理问题,现有视频水印方法的鲁棒性研究不足。
  • Method: 通过生成统一数据集,结合多种水印方法和检测策略,评估12种扰动类型在不同威胁模型下的表现。
  • Result: 研究发现当前水印方法存在显著漏洞,亟需更鲁棒的解决方案。
  • Conclusion: VideoMarkBench为视频水印鲁棒性评估提供了首个系统性基准,揭示了现有方法的不足。

cs.CL

[180] More Thinking, Less Seeing? Assessing Amplified Hallucination in Multimodal Reasoning Models

Chengzhi Liu,Zhongxing Xu,Qingyue Wei,Juncheng Wu,James Zou,Xin Eric Wang,Yuyin Zhou,Sheng Liu

Main category: cs.CL

TL;DR: 论文研究了多模态大语言模型在长推理链中视觉基础减少和幻觉增加的现象,提出了RH-AUC指标和RH-Bench基准,发现模型大小和训练数据类型对推理与感知平衡的影响。

  • Motivation: 探索多模态大语言模型在长推理链中视觉基础减少和幻觉增加的现象,以改进模型性能。
  • Method: 引入RH-AUC指标量化模型感知准确性随推理长度的变化,并发布RH-Bench基准评估推理能力与幻觉的权衡。
  • Result: 较大模型在推理与感知之间平衡更好,且训练数据的类型和领域比总量更影响这一平衡。
  • Conclusion: 强调需要同时考虑推理质量和感知保真度的评估框架。

[181] VRAG-RL: Empower Vision-Perception-Based RAG for Visually Rich Information Understanding via Iterative Reasoning with Reinforcement Learning

Qiuchen Wang,Ruixue Ding,Yu Zeng,Zehui Chen,Lin Chen,Shihang Wang,Pengjun Xie,Fei Huang,Feng Zhao

Main category: cs.CL

TL;DR: 论文提出VRAG-RL,一种基于强化学习的框架,用于解决视觉丰富信息检索与推理中的问题,优化视觉语言模型在RAG任务中的表现。

  • Motivation: 传统文本方法无法处理视觉信息,现有视觉RAG方法因固定流程和推理能力不足而受限。强化学习被证明有助于模型推理,因此设计了VRAG-RL框架。
  • Method: VRAG-RL通过视觉感知令牌与搜索引擎交互,自主采样单轮或多轮推理轨迹,并持续优化。定义了针对视觉输入的动作空间(如裁剪和缩放),并设计奖励机制。
  • Result: VRAG-RL解决了多模态RAG中推理令牌分配不足和视觉感知缺失的问题,优化了模型与搜索引擎的交互,提升了检索性能。
  • Conclusion: VRAG-RL通过强化学习策略优化视觉语言模型,使其更适应实际应用,代码已开源。

[182] Advancing Multimodal Reasoning via Reinforcement Learning with Cold Start

Lai Wei,Yuting Li,Kaipeng Zheng,Chen Wang,Yue Wang,Linghe Kong,Lichao Sun,Weiran Huang

Main category: cs.CL

TL;DR: 论文提出了一种两阶段方法(监督微调+强化学习)来提升多模态推理能力,显著优于单独使用任一方法,并在多个基准测试中达到最先进性能。

  • Motivation: 研究多模态大语言模型(MLLMs)中自修正模式的存在及其与推理性能的关系,并探索如何通过两阶段方法提升推理能力。
  • Method: 1. 监督微调(SFT)作为冷启动,引入结构化思维链推理模式;2. 使用GRPO强化学习进一步优化。
  • Result: 两阶段方法在3B和7B规模的MLLMs中均表现优异,7B模型在MathVista和We-Math上分别提升7.1%和7.5%,3B模型性能接近部分7B模型。
  • Conclusion: 该研究为构建先进多模态推理模型提供了实用指导,两阶段方法显著优于单一方法。

[183] Unsupervised Post-Training for Multi-Modal LLM Reasoning via GRPO

Lai Wei,Yuting Li,Chen Wang,Yue Wang,Linghe Kong,Weiran Huang,Lichao Sun

Main category: cs.CL

TL;DR: MM-UPT是一种基于GRPO的无监督后训练框架,通过自奖励机制提升多模态大语言模型的推理能力,无需外部监督。

  • Motivation: 传统监督方法(如SFT和RL)依赖昂贵的人工标注数据,且无监督方法复杂难迭代,因此探索一种稳定、可扩展的无监督后训练方法。
  • Method: 提出MM-UPT框架,利用GRPO算法和基于多数投票的自奖励机制,无需外部监督数据。
  • Result: 在MathVista和We-Math数据集上显著提升模型性能(如66.3%→72.9%),优于其他无监督基线,接近监督方法效果。
  • Conclusion: MM-UPT为无监督环境下持续增强MLLM提供新范式,展示了自生成问题的潜力。

[184] Chain-of-Talkers (CoTalk): Fast Human Annotation of Dense Image Captions

Yijun Shen,Delong Chen,Fan Liu,Xingyu Wang,Chuanyi Zhang,Liang Yao,Yuhui Zheng

Main category: cs.CL

TL;DR: CoTalk是一种AI辅助的标注方法,通过顺序标注和多模态界面优化标注效率,在固定预算下提升标注数量和全面性。

  • Motivation: 现有密集标注方法在优化人类标注效率方面研究不足,需系统性改进。
  • Method: 采用顺序标注减少冗余,结合多模态界面(阅读输入、语音输出)提升效率。
  • Result: 实验显示CoTalk在标注速度(0.42单位/秒)和检索性能(41.13%)上优于并行方法。
  • Conclusion: CoTalk通过AI辅助和顺序标注,显著提升标注效率和实用性。

[185] Spatial Knowledge Graph-Guided Multimodal Synthesis

Yida Xue,Zhen Bi,Jinnan Yang,Jungang Lou,Huajun Chen,Ningyu Zhang

Main category: cs.CL

TL;DR: SKG2Data利用空间知识图谱指导多模态数据合成,提升多模态大语言模型的空间感知能力。

  • Motivation: 多模态大语言模型的空间感知能力有限,需要一种方法合成符合空间常识的数据。
  • Method: 提出SKG2Data方法,通过构建空间知识图谱(SKG)模拟人类空间感知,指导数据合成。
  • Result: 实验表明,合成的数据显著提升了模型的空间感知和推理能力,并具有强泛化性。
  • Conclusion: 基于知识的数据合成有望推动空间智能的发展。

eess.IV

[186] High-Fidelity Functional Ultrasound Reconstruction via A Visual Auto-Regressive Framework

Xuhang Chen,Zhuo Li,Yanyan Shen,Mufti Mahmud,Hieu Pham,Chi-Man Pun,Shuqiang Wang

Main category: eess.IV

TL;DR: fUS成像在神经血管映射中具有高分辨率,但数据稀缺和信号衰减限制了其应用和机器学习模型的公平性。

  • Motivation: 解决fUS成像中数据稀缺和信号衰减的问题,以提升其实际应用和机器学习模型的性能。
  • Method: 未明确提及具体方法,但问题集中在数据稀缺和信号衰减。
  • Result: 未明确提及具体结果,但指出了当前fUS成像的局限性。
  • Conclusion: 需要解决数据稀缺和信号衰减问题,以推动fUS成像的广泛应用。

[187] Image denoising as a conditional expectation

Sajal Chakroborty,Suddhasattwa Das

Main category: eess.IV

TL;DR: 论文提出了一种基于概率空间和核积分算子的去噪方法,将真实图像恢复为条件期望,并在RKHS中求解最小二乘问题。

  • Motivation: 传统去噪方法通过投影到子空间估计真实图像,但这种方法可能不无偏且不收敛。论文旨在提出一种更优的数据驱动方法。
  • Method: 将噪声图像视为概率空间的样本,通过核积分算子估计真实图像作为条件期望,并在RKHS中求解最小二乘问题。
  • Result: 方法在像素数趋于无穷时收敛,并可优化有限像素图像的去噪参数。
  • Conclusion: 提出的方法在理论和实践中均优于传统投影方法,适用于连续和有限像素图像。

[188] Taylor expansion-based Kolmogorov-Arnold network for blind image quality assessment

Ze Chen,Shaode Yu

Main category: eess.IV

TL;DR: TaylorKAN通过泰勒展开作为可学习激活函数,提升了局部逼近能力,并在高维特征处理中表现优于其他KAN相关模型。

  • Motivation: 解决KAN及其变体在高维特征处理中的性能瓶颈和计算成本问题。
  • Method: 提出TaylorKAN,利用泰勒展开作为激活函数,结合网络深度缩减和特征维度压缩。
  • Result: 在五个数据库上实验表明,TaylorKAN性能优于其他KAN模型,验证了其泛化能力。
  • Conclusion: TaylorKAN是一种高效且鲁棒的高维分数回归模型。

[189] Optimizing Deep Learning for Skin Cancer Classification: A Computationally Efficient CNN with Minimal Accuracy Trade-Off

Abdullah Al Mamun,Pollob Chandra Ray,Md Rahat Ul Nasib,Akash Das,Jia Uddin,Md Nurul Absur

Main category: eess.IV

TL;DR: 提出了一种轻量级CNN模型,显著减少参数和计算量,同时保持高分类精度,适用于资源受限的皮肤癌诊断。

  • Motivation: 现有深度学习模型(如ResNet50)计算开销大,难以在资源受限环境中部署。
  • Method: 设计了一种自定义CNN模型,大幅减少参数和FLOPs。
  • Result: 模型参数减少96.7%,FLOPs显著降低,分类精度偏差小于0.022%。
  • Conclusion: 轻量级CNN在资源受限环境中更具实用性,平衡了模型复杂性和实际可行性。

[190] Laparoscopic Image Desmoking Using the U-Net with New Loss Function and Integrated Differentiable Wiener Filter

Chengyu Yang,Chengjun Liu

Main category: eess.IV

TL;DR: 提出了一种结合U-Net深度学习、新损失函数和可微分Wiener滤波器的ULW方法,用于消除腹腔镜手术中的烟雾,提升图像清晰度。

  • Motivation: 腹腔镜手术中烟雾导致视觉模糊,影响手术和计算机辅助技术,需高效去烟雾方法。
  • Method: ULW方法结合结构相似性损失、感知损失和均方误差损失,并集成可学习Wiener滤波器。
  • Result: 在公开数据集上验证,ULW方法在视觉清晰度和量化评估中表现优异。
  • Conclusion: ULW方法为实时腹腔镜图像增强提供了有效解决方案。

[191] STA-Risk: A Deep Dive of Spatio-Temporal Asymmetries for Breast Cancer Risk Prediction

Zhengbo Zhou,Dooman Arefan,Margarita Zuley,Jules Sumkin,Shandong Wu

Main category: eess.IV

TL;DR: STA-Risk是一种基于Transformer的模型,通过捕捉乳腺影像的空间和时间不对称性来预测乳腺癌风险,性能优于现有方法。

  • Motivation: 现有风险模型性能有限,且忽视乳腺组织在纵向影像中的时空演变细节,因此需要更精细的预测方法。
  • Method: 提出STA-Risk模型,结合侧向编码和时间编码学习时空不对称性,并采用定制的不对称损失函数。
  • Result: 在两个独立乳腺影像数据集上,STA-Risk在1至5年风险预测中表现优于四种代表性SOTA模型。
  • Conclusion: STA-Risk通过捕捉时空不对称性显著提升了乳腺癌风险预测的准确性,具有临床应用潜力。

[192] Privacy-Preserving Chest X-ray Report Generation via Multimodal Federated Learning with ViT and GPT-2

Md. Zahid Hossain,Mustofa Ahmed,Most. Sharmin Sultana Samu,Md. Rakibul Islam

Main category: eess.IV

TL;DR: 该研究提出了一种多模态联邦学习框架,用于从胸部X光图像生成放射学报告,解决了隐私问题,并评估了三种联邦学习聚合策略。

  • Motivation: 传统集中式方法需要传输敏感数据,引发隐私问题,因此需要一种隐私保护的解决方案。
  • Method: 使用Vision Transformer(ViT)作为编码器,GPT-2作为报告生成器,并评估了FedAvg、Krum Aggregation和L-FedAvg三种联邦学习策略。
  • Result: Krum Aggregation在ROUGE、BLEU、BERTScore和RaTEScore等指标上表现最佳,联邦学习模型可媲美或超越集中式模型。
  • Conclusion: 该框架为隐私保护的协作医疗AI开发提供了可行方案。

[193] MAMBO-NET: Multi-Causal Aware Modeling Backdoor-Intervention Optimization for Medical Image Segmentation Network

Ruiguo Yu,Yiyang Zhang,Yuan Tian,Yujie Diao,Di Jin,Witold Pedrycz

Main category: eess.IV

TL;DR: MAMBO-NET提出了一种多因果感知建模的后门干预优化网络,用于解决医学图像分割中的混淆因素问题,显著提升了分割精度。

  • Motivation: 医学图像分割通常假设图像到分割的过程无偏,但实际中存在混淆因素(如解剖变异和成像模态限制),影响分割结果。
  • Method: 利用多高斯分布自建模拟合混淆因素,引入因果干预技术,并设计后验概率约束训练分布,结合后门干预技术优化分割过程。
  • Result: 在五个医学图像数据集上的实验表明,该方法显著减少了混淆因素的影响,提高了分割准确性。
  • Conclusion: MAMBO-NET通过因果干预和后验约束有效解决了医学图像分割中的混淆问题,提升了分割性能。

[194] Subspecialty-Specific Foundation Model for Intelligent Gastrointestinal Pathology

Lianghui Zhu,Xitong Ling,Minxi Ouyang,Xiaoping Liu,Mingxi Fu,Tian Guan,Fanglei Fu,Xuanyu Wang,Maomao Zeng,Mingxi Zhu,Yibo Jin,Liming Liu,Song Duan,Qiming He,Yizhi Wang,Luxi Xie,Houqiang Li,Yonghong He,Sufang Tian

Main category: eess.IV

TL;DR: Digepath是一种针对胃肠道病理学的专用基础模型,通过双阶段迭代优化策略,显著提升了诊断准确性和效率,尤其在早期癌症筛查中表现优异。

  • Motivation: 传统组织病理学诊断依赖病理学家的主观判断,存在可重复性低和诊断变异性的问题,需要更精确的AI驱动方法。
  • Method: 开发Digepath模型,采用双阶段迭代优化策略(预训练与精细筛查),基于超过35.3亿个图像块和20万张胃肠道疾病切片进行训练。
  • Result: 在34项任务中的33项达到最优性能,包括病理诊断、分子预测等,早期癌症筛查灵敏度达99.6%。
  • Conclusion: Digepath填补了组织病理学实践的关键空白,为其他病理学亚专科提供了可转移的范例。

[195] Cascaded 3D Diffusion Models for Whole-body 3D 18-F FDG PET/CT synthesis from Demographics

Siyeop Yoon,Sifan Song,Pengfei Jin,Matthew Tivnan,Yujin Oh,Sekeun Kim,Dufan Wu,Xiang Li,Quanzheng Li

Main category: eess.IV

TL;DR: 提出了一种级联3D扩散模型框架,直接从人口统计学变量合成高保真3D PET/CT图像,解决了肿瘤成像、虚拟试验和AI数据增强中对数字孪生的需求。

  • Motivation: 解决传统确定性模型依赖预定义模板的局限性,提供更灵活的合成方法。
  • Method: 采用两阶段生成过程:首先基于分数的扩散模型生成低分辨率图像,再用超分辨率残差扩散模型提升分辨率。
  • Result: 合成图像与真实数据在器官体积和代谢活性上高度一致,代谢值偏差在3-5%以内。
  • Conclusion: 级联3D扩散模型能生成解剖和代谢准确的图像,为临床和研究提供可扩展的合成数据。

[196] Risk-Sensitive Conformal Prediction for Catheter Placement Detection in Chest X-rays

Long Hui

Main category: eess.IV

TL;DR: 提出了一种结合多任务学习和风险敏感共形预测的新方法,用于胸部X光片中导管和管线位置的检测,显著提高了临床可靠性。

  • Motivation: 解决临床中对导管和管线位置检测的高可靠性需求,特别是在关键临床发现中避免高风险误判。
  • Method: 采用多任务学习同时进行分类、分割和标志点检测,并结合风险敏感共形预测提供统计保证的预测集。
  • Result: 实验结果显示90.68%的总体覆盖率和99.29%的关键条件覆盖率,且零高风险误判。
  • Conclusion: 该方法在准确预测和可靠量化不确定性方面表现出色,适合临床部署。

[197] Surf2CT: Cascaded 3D Flow Matching Models for Torso 3D CT Synthesis from Skin Surface

Siyeop Yoon,Yujin Oh,Pengfei Jin,Sifan Song,Matthew Tivnan,Dufan Wu,Xiang Li,Quanzheng Li

Main category: eess.IV

TL;DR: Surf2CT是一种新型级联流匹配框架,仅通过外部表面扫描和简单人口统计数据生成完整3D CT图像,无需内部成像。

  • Motivation: 旨在通过非侵入性方法生成内部解剖图像,为家庭医疗、预防医学和个性化临床评估提供新途径。
  • Method: 分三阶段:表面补全、粗略CT合成和CT超分辨率,均使用3D流匹配技术。
  • Result: 在700例测试中表现出高解剖保真度,器官体积误差小(-11.1%至4.4%),肌肉/脂肪组成相关性高(0.67至0.96)。
  • Conclusion: Surf2CT为非侵入性内部成像开辟了新范式,具有广泛临床应用潜力。

[198] Multipath cycleGAN for harmonization of paired and unpaired low-dose lung computed tomography reconstruction kernels

Aravind R. Krishnan,Thomas Z. Li,Lucas W. Remedios,Michael E. Kim,Chenyu Gao,Gaurav Rudravaram,Elyssa M. McMaster,Adam M. Saunders,Shunxing Bao,Kaiwen Xu,Lianrui Zuo,Kim L. Sandler,Fabien Maldonado,Yuankai Huo,Bennett A. Landman

Main category: eess.IV

TL;DR: 提出一种多路径cycleGAN模型,用于CT核的标准化,以减少定量成像测量中的系统性变异,改善肺气肿量化的一致性。

  • Motivation: CT重建核影响空间分辨率和噪声特性,导致定量成像测量(如肺气肿量化)的系统性变异,选择合适的核对一致性分析至关重要。
  • Method: 使用多路径cycleGAN模型,结合配对和非配对数据训练,共享潜在空间,并针对每个域定制判别器。在NLST数据集上训练42种核组合,评估性能。
  • Result: 模型减少了配对核的肺气肿评分偏差(p<0.05),消除了非配对核的混淆差异(p>0.05),同时保持了肌肉和脂肪解剖的保真度。
  • Conclusion: 共享潜在空间的多路径cycleGAN能有效标准化CT核,提升肺气肿量化的一致性并保持解剖保真度。

[199] Comparative Analysis of Machine Learning Models for Lung Cancer Mutation Detection and Staging Using 3D CT Scans

Yiheng Li,Francisco Carrillo-Perez,Mohammed Alawad,Olivier Gevaert

Main category: eess.IV

TL;DR: 比较两种机器学习模型在肺癌突变检测和分期中的表现,监督模型在突变检测中表现更优,自监督模型在分期中更具泛化能力。

  • Motivation: 肺癌是全球癌症死亡的主要原因,非侵入性方法检测关键突变和分期对改善患者预后至关重要。
  • Method: 比较FMCIB+XGBoost(监督模型)和Dinov2+ABMIL(自监督模型)在3D肺结节数据上的性能。
  • Result: FMCIB+XGBoost在KRAS和EGFR突变检测中表现更优(准确率0.846和0.883),Dinov2+ABMIL在T分期预测中表现较好(准确率0.797)。
  • Conclusion: 监督模型在突变检测中更具临床实用性,自监督模型在分期中表现潜力,但突变敏感性有待提升。

[200] Chest Disease Detection In X-Ray Images Using Deep Learning Classification Method

Alanna Hazlett,Naomi Ohashi,Timothy Rodriguez,Sodiq Adewole

Main category: eess.IV

TL;DR: 研究通过迁移学习技术,利用预训练的CNN模型对胸部X光图像进行分类,结果显示高准确率和良好的性能指标。

  • Motivation: 探索多分类模型在胸部X光图像中对COVID-19、肺炎、结核病和正常病例的分类性能。
  • Method: 使用预训练的CNN模型进行微调,并应用Grad-CAM提高模型可解释性。
  • Result: 初步结果显示高准确率和强分类性能(如精确率、召回率和F1分数)。
  • Conclusion: 该方法在临床应用中具有潜力,通过可视化解释提升了模型的透明度和可信度。

cs.MM

[201] Mitigating Audiovisual Mismatch in Visual-Guide Audio Captioning

Le Xu,Chenxing Li,Yong Ren,Yujie Chen,Yu Gu,Ruibo Fu,Shan Yang,Dong Yu

Main category: cs.MM

TL;DR: 提出了一种基于熵感知的门控融合框架,通过跨模态不确定性量化动态调节视觉信息流,解决了视听不对齐问题,并在AudioCaps基准测试中表现优异。

  • Motivation: 当前视觉引导的音频字幕系统在真实场景中(如配音或画外音)常因视听不对齐而失效,亟需解决这一关键问题。
  • Method: 采用注意力熵分析在跨注意力层中自动识别并抑制误导性视觉线索,同时开发了批量视听混洗技术生成合成不匹配训练对。
  • Result: 在AudioCaps基准测试中表现优于现有基线,尤其在模态不匹配场景下,推理速度提升约6倍。
  • Conclusion: 提出的框架有效解决了视听不对齐问题,显著提升了模型性能和效率。

stat.ML

[202] Higher-Order Group Synchronization

Adriana L. Duncan,Joe Kileel

Main category: stat.ML

TL;DR: 本文提出了一种新颖的高阶群同步问题,通过超图处理高阶局部测量以获取全局估计,并提出了首个计算框架,展示了其在旋转和角度同步中的优势。

  • Motivation: 高阶群同步的动机源于计算机视觉和图像处理等应用,旨在解决传统群同步方法无法处理高阶测量的问题。
  • Method: 定义了高阶群同步问题并给出其数学基础,提出了基于消息传递算法的计算框架,并讨论了理论保证。
  • Result: 实验表明,该方法在旋转和角度同步中优于传统方法,对异常值更鲁棒,且在模拟冷冻电镜数据中表现与标准方法相当。
  • Conclusion: 高阶群同步方法为处理高阶测量提供了有效框架,并在特定应用中展示了优越性能。

cs.SD

[203] RESOUND: Speech Reconstruction from Silent Videos via Acoustic-Semantic Decomposed Modeling

Long-Khanh Pham,Thanh V. T. Tran,Minh-Tan Pham,Van Nguyen

Main category: cs.SD

TL;DR: RESOUND是一种新的唇语转语音(L2S)系统,通过分离声学和语义路径,结合语音单元和梅尔频谱图,生成清晰且富有表现力的语音。

  • Motivation: 现有L2S系统在准确性和自然度上存在挑战,主要由于有限的监督难以捕捉语言内容、口音和韵律。
  • Method: RESOUND采用源-滤波器理论,分为声学路径预测韵律和语义路径提取语言特征,并引入语音单元增强波形生成。
  • Result: 在两个标准L2S基准测试中,RESOUND在多项指标上表现优异。
  • Conclusion: RESOUND通过分离和优化声学与语义表示,成功提升了L2S系统的性能。

physics.optics

[204] Large-Area Fabrication-aware Computational Diffractive Optics

Kaixuan Wei,Hector A. Jimenez-Romero,Hadi Amata,Jipeng Sun,Qiang Fu,Felix Heide,Wolfgang Heidrich

Main category: physics.optics

TL;DR: 论文提出了一种制造感知的设计流程,用于大规模生产衍射光学元件,并通过神经光刻模型和并行计算框架解决了仿真与制造之间的质量差距。

  • Motivation: 现有衍射光学系统的仿真与制造之间存在显著质量差距,限制了其实际应用。论文旨在消除这一技术障碍,推动可微分光学设计的实际应用。
  • Method: 提出制造感知的设计流程,结合神经光刻模型预测制造过程中的3D几何形状,并开发并行计算框架以支持大规模仿真。
  • Result: 实现了仿真与制造原型之间的良好一致性,并在单衍射光学元件成像系统中获得高质量图像。
  • Conclusion: 论文的研究成果为衍射光学和可微分光学设计的实际应用提供了制造方面的突破。

stat.CO

[205] tenSVD algorithm for compression

Michele Gallo

Main category: stat.CO

TL;DR: 论文提出了一种基于张量的高效图像存储方法,通过Tucker模型压缩数据,减少存储、传输和处理能耗,并在R中实现与基准算法对比。

  • Motivation: 高维数据管理需求增加,张量分析在多领域应用广泛,研究旨在优化存储、传输和处理的资源消耗。
  • Method: 将原始数据组织为高阶张量,应用Tucker模型压缩,并在R中实现,与基准算法对比。
  • Result: 通过模拟和真实数据集评估,关注计算时间和信息保留质量,定量分析能耗可持续性。
  • Conclusion: 方法在资源消耗和性能上表现优越,具有实际应用潜力。

cs.AI

[206] Efficiently Enhancing General Agents With Hierarchical-categorical Memory

Changze Qiao,Mingming Lu

Main category: cs.AI

TL;DR: 论文提出了一种名为EHC的通用代理,无需参数更新即可学习,通过分层记忆检索和任务分类经验学习模块,实现了在多模态任务中的高效表现。

  • Motivation: 现有方法要么依赖计算成本高的端到端训练,要么缺乏持续学习和适应新环境的能力,因此需要一种更高效的解决方案。
  • Method: EHC包含分层记忆检索(HMR)模块和任务分类经验学习(TOEL)模块,分别用于快速检索记忆和分类任务经验。
  • Result: 在多个标准数据集上的实验表明,EHC优于现有方法,达到了最先进的性能。
  • Conclusion: EHC作为一种通用代理,能够高效处理复杂多模态任务,展示了其有效性和潜力。

上次更新于: