Skip to content
每日arXiv - 2025年5月14日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] MilChat: Introducing Chain of Thought Reasoning and GRPO to a Multimodal Small Language Model for Remote Sensing

Aybora Koksal,A. Aydin Alatan

Main category: cs.CV

TL;DR: MilChat是一种轻量级多模态语言模型,专为分析偏远地区的遥感图像(如导弹发射场)而设计,通过专家验证的数据集和强化学习优化,显著优于通用模型。

  • Motivation: 现有MLLMs在专业领域(如军事遥感)的适应性和效率不足,需针对性优化。
  • Method: 使用2B参数的开源MLLM进行监督微调,结合CoT推理和GRPO强化学习,提升对军事特征的检测能力。
  • Result: 在MilData基准测试中达到80%召回率和98%精确率,优于通用模型和现有遥感方法。
  • Conclusion: 目标微调和强化学习在专业领域应用中效果显著,MilChat展示了高效适应能力。

[2] Vision Foundation Model Embedding-Based Semantic Anomaly Detection

Max Peter Ronecker,Matthew Foutter,Amine Elhafsi,Daniele Gammelli,Ihor Barakaiev,Marco Pavone,Daniel Watzenig

Main category: cs.CV

TL;DR: 提出了一种基于视觉基础模型的语义异常检测框架,通过比较运行时图像的局部嵌入与安全场景数据库,实现异常检测。

  • Motivation: 语义异常可能导致自主系统推理失败,需有效检测方法。
  • Method: 提出两种框架变体:基于原始网格嵌入和基于实例分割的对象中心表示,并引入过滤机制减少误报。
  • Result: 在CARLA模拟异常中,带过滤的实例方法性能接近GPT-4o,且能精确定位异常。
  • Conclusion: 视觉基础模型的嵌入在实时异常检测中具有潜力。

[3] RDD: Robust Feature Detector and Descriptor using Deformable Transformer

Gonglin Chen,Tianwen Fu,Haiwei Chen,Wenbin Teng,Hanyuan Xiao,Yajie Zhao

Main category: cs.CV

TL;DR: 论文提出了一种基于可变形变换器的鲁棒关键点检测器/描述符(RDD),通过可变形自注意力机制捕获全局上下文和几何不变性,显著提升了在视角变化等挑战性场景下的性能。

  • Motivation: 在结构从运动和SLAM中,鲁棒的特征检测和描述在视角变化等挑战性场景下仍未完全解决,现有方法未能有效学习长距离关系中的视觉线索。
  • Method: 提出RDD方法,利用可变形变换器通过可变形自注意力机制捕获全局上下文和几何不变性,并收集了Air-to-Ground数据集进行训练。
  • Result: RDD在稀疏匹配任务中优于所有现有方法,并能进行半稠密匹配,同时引入了两个新的挑战性基准进行评估。
  • Conclusion: RDD通过可变形注意力机制显著提升了关键点检测和描述的性能,适用于复杂场景,并提供了新的评估基准。

[4] Visually Interpretable Subtask Reasoning for Visual Question Answering

Yu Cheng,Arushi Goel,Hakan Bilen

Main category: cs.CV

TL;DR: VISTAR是一个基于子任务的训练框架,通过生成文本和视觉解释提升多模态大语言模型(MLLMs)的可解释性和推理能力。

  • Motivation: 解决现有方法在复杂视觉问题中计算成本高且准确性低的问题。
  • Method: 通过微调MLLMs生成结构化的“子任务思维”推理序列,无需依赖外部模型。
  • Result: 在两个基准测试中,VISTAR显著提升了推理准确性,同时保持了可解释性。
  • Conclusion: VISTAR为复杂视觉问题的多步推理提供了一种高效且可解释的解决方案。

[5] Multi-modal wound classification using wound image and location by Xception and Gaussian Mixture Recurrent Neural Network (GMRNN)

Ramin Mousa,Ehsan Matbooe,Hakimeh Khojasteh,Amirali Bengari,Mohammadmahdi Vahediahmar

Main category: cs.CV

TL;DR: 本文提出了一种基于迁移学习的多模态AI模型,结合Xception和GMRNN架构,用于伤口分类,显著提高了诊断准确性。

  • Motivation: 急性及难愈合伤口的有效诊断对临床治疗至关重要,传统方法常因感染、血管疾病等因素导致效果不佳。AI工具可加速医学图像解读,提升早期检测能力。
  • Method: 采用迁移学习技术,结合Xception和GMRNN架构,构建多模态网络,通过特征融合对糖尿病、压力、手术和静脉溃疡进行分类。
  • Result: 实验结果显示,伤口分类准确率在78.77%至100%之间,显著优于传统深度神经网络。
  • Conclusion: 该方法在常见伤口类型的分类中表现出卓越的准确性,为临床诊断提供了高效工具。

[6] Topology-Guided Knowledge Distillation for Efficient Point Cloud Processing

Luu Tung Hai,Thinh D. Le,Zhicheng Ding,Qing Tian,Truong-Son Hy

Main category: cs.CV

TL;DR: 提出了一种基于拓扑感知表示和梯度引导知识蒸馏的新框架,用于在资源受限环境中高效部署高性能点云处理模型。

  • Motivation: 由于高性能点云处理模型(如Point Transformer V3)在资源受限环境中的高计算和内存需求,部署困难。
  • Method: 利用拓扑感知表示和梯度引导知识蒸馏,将高容量教师模型的知识有效迁移到轻量级学生模型。
  • Result: 在Nuscenes、SemanticKITTI和Waymo数据集上表现优异,模型大小减少约16倍,推理时间降低近1.9倍,并在NuScenes上达到知识蒸馏技术的SOTA性能。
  • Conclusion: 该方法在保持高性能的同时显著降低了模型的计算和内存需求,适用于资源受限环境。

[7] Sleep Position Classification using Transfer Learning for Bed-based Pressure Sensors

Olivier Papillon,Rafik Goubran,James Green,Julien Larivière-Chartier,Caitlin Higginson,Frank Knoefel,Rébecca Robillard

Main category: cs.CV

TL;DR: 利用预训练的Vision Transformer模型(ViTMAE和ViTPose)对低分辨率压力敏感垫数据进行睡眠姿势分类,优于传统方法和深度学习模型。

  • Motivation: 睡眠姿势影响睡眠质量和睡眠障碍(如呼吸暂停),但临床环境中标记数据稀缺,需解决低分辨率数据的分类问题。
  • Method: 采用迁移学习,利用预训练的ViTMAE和ViTPose模型,对低分辨率压力敏感垫数据进行分类。
  • Result: 在112晚患者数据上表现优于传统机器学习(SVM、XGBoost、随机森林)和深度学习模型(TCN),并在高分辨率数据集上验证。
  • Conclusion: 该方法在临床环境中具有实际应用潜力,尽管低分辨率数据分类存在挑战。

[8] Now you see it, Now you don't: Damage Label Agreement in Drone & Satellite Post-Disaster Imagery

Thomas Manzini,Priyankari Perali,Jayesh Tripathi,Robin Murphy

Main category: cs.CV

TL;DR: 研究发现卫星和无人机图像在建筑物损坏标签上存在29.02%的分歧,且分布显著不同,可能对机器学习评估系统带来风险。

  • Motivation: 目前尚无研究比较无人机和卫星图像在建筑物损坏标签上的一致性,且现有研究因标签不一致、数据量少等问题受限。
  • Method: 通过比较三场飓风(Ian、Michael、Harvey)中15,814栋建筑物的卫星和无人机图像标签,使用相同的标签标准和建筑物位置。
  • Result: 卫星标签比无人机标签少报告至少20.43%的损坏(p<1.2x10^-117),且两者分布显著不同(p<5.1x10^-175)。
  • Conclusion: 这种标签分岐可能导致计算机视觉模型误判实际状况,带来伦理和社会风险,并提出四条改进建议以减少潜在危害。

[9] JSover: Joint Spectrum Estimation and Multi-Material Decomposition from Single-Energy CT Projections

Qing Wu,Hongjiang Wei,Jingyi Yu,S. Kevin Zhou,Yuyao Zhang

Main category: cs.CV

TL;DR: JSover是一种新型的单能CT多材料分解框架,通过联合重建和能量谱估计,显著提高了分解的准确性和可靠性。

  • Motivation: 传统多材料分解方法依赖光谱CT和预测量能量谱,限制了临床应用。单能CT分解方法虽发展迅速,但两步分解流程引入伪影和噪声。
  • Method: 提出JSover框架,一步完成多材料分解和能量谱估计,结合物理先验和隐式神经表示(INR)优化求解。
  • Result: 实验表明,JSover在模拟和真实CT数据上均优于现有方法,准确性和计算效率更高。
  • Conclusion: JSover为单能CT多材料分解提供了更可靠的解决方案,具有临床潜力。

[10] SLAG: Scalable Language-Augmented Gaussian Splatting

Laszlo Szilagyi,Francis Engelmann,Jeannette Bohg

Main category: cs.CV

TL;DR: SLAG是一种多GPU框架,用于语言增强的高斯泼溅,提升大规模场景嵌入的速度和可扩展性。

  • Motivation: 解决时间敏感且数据密集型场景中快速编码的需求,同时适应有限计算资源的机器人部署。
  • Method: 集成2D视觉语言模型特征到3D场景,通过归一化加权平均计算语言嵌入,无需损失函数。
  • Result: 在16-GPU设置下,嵌入计算速度提升18倍,同时保持ScanNet和LERF数据集的嵌入质量。
  • Conclusion: SLAG为大规模机器人应用提供了一种高效且可扩展的语言增强场景表示解决方案。

[11] Asynchronous Multi-Object Tracking with an Event Camera

Angus Apps,Ziwei Wang,Vladimir Perejogin,Timothy Molloy,Robert Mahony

Main category: cs.CV

TL;DR: AEMOT算法通过异步处理原始事件检测和跟踪多目标,利用新颖的光流特征和分类验证,在蜜蜂群数据集中表现优于其他事件算法。

  • Motivation: 事件相机在动态环境中具有低延迟、高时间分辨率和动态范围的优势,适合多目标检测与跟踪。
  • Method: AEMOT通过光流特征检测事件斑块,使用AEB跟踪器构建候选对象,并通过分类验证筛选对象。
  • Result: 在蜜蜂群数据集中,AEMOT的精度和召回率比其他算法高37%。
  • Conclusion: AEMOT算法高效且性能优越,代码和数据集将开源。

[12] MoKD: Multi-Task Optimization for Knowledge Distillation

Zeeshan Hayder,Ali Cheraghian,Lars Petersson,Mehrtash Harandi

Main category: cs.CV

TL;DR: MoKD通过多任务优化和子空间学习框架解决了知识蒸馏中的梯度冲突和梯度主导问题,提升了模型性能。

  • Motivation: 解决知识蒸馏中学习目标与教师指导的平衡问题,以及教师与学生模型知识表示的差异。
  • Method: 提出MoKD,将知识蒸馏重新定义为多目标优化问题,并引入子空间学习框架。
  • Result: 在ImageNet-1K和COCO数据集上,MoKD表现优于现有方法,达到最先进性能。
  • Conclusion: MoKD有效解决了知识蒸馏中的关键问题,提升了模型效率和性能。

[13] Empowering Vision Transformers with Multi-Scale Causal Intervention for Long-Tailed Image Classification

Xiaoshuo Yan,Zhaochuan Li,Lei Meng,Zhuang Qi,Wei Wu,Zixuan Li,Xiangxu Meng

Main category: cs.CV

TL;DR: 论文提出TSCNet,一种两阶段因果建模方法,通过多尺度因果干预解决ViT中细粒度因果关联建模的困难,提升长尾分类性能。

  • Motivation: 现有因果模型在ViT上性能不佳,因其全局特征表示难以建模细粒度特征与预测的关联,导致尾部分类困难。
  • Method: TSCNet分两阶段:HCRL阶段通过多尺度干预增强细粒度因果表示;CLBC阶段通过反事实平衡数据分布优化决策边界。
  • Result: 实验表明TSCNet能消除数据不平衡引入的偏差,优于现有方法。
  • Conclusion: TSCNet通过两阶段因果建模有效解决了ViT中的长尾分类问题。

[14] Monocular Depth Guided Occlusion-Aware Disparity Refinement via Semi-supervised Learning in Laparoscopic Images

Ziteng Liu,Dongdong He,Chenghong Zhang,Wenpeng Gao,Yili Fu

Main category: cs.CV

TL;DR: 论文提出DGORNet,利用单目深度信息优化视差图,解决腹腔镜图像中的遮挡和标记数据稀缺问题。

  • Motivation: 腹腔镜图像中遮挡和标记数据稀缺是视差估计的主要挑战。
  • Method: 提出DGORNet,结合位置嵌入模块和光流差异损失,利用单目深度信息和时空连续性优化视差。
  • Result: 在SCARED数据集上,DGORNet在EPE和RMSE指标上优于现有方法,尤其在遮挡和无纹理区域。
  • Conclusion: DGORNet有效提升腹腔镜手术的视差估计,为解决数据限制和视差挑战提供实用方案。

[15] Unsupervised Raindrop Removal from a Single Image using Conditional Diffusion Models

Lhuqita Fazry,Valentino Vito

Main category: cs.CV

TL;DR: 提出了一种基于扩散模型的单图像雨滴去除新方法。

  • Motivation: 单图像雨滴去除任务具有挑战性,现有方法多依赖GAN,而扩散模型在图像修复中表现优异。
  • Method: 采用扩散模型进行图像修复,结合雨滴区域检测技术。
  • Result: 实现了基于扩散模型的雨滴去除,效果优于传统方法。
  • Conclusion: 扩散模型在雨滴去除任务中具有潜力,为未来研究提供了新方向。

[16] ADC-GS: Anchor-Driven Deformable and Compressed Gaussian Splatting for Dynamic Scene Reconstruction

He Huang,Qi Yang,Mufan Liu,Yiling Xu,Zhu Li

Main category: cs.CV

TL;DR: ADC-GS提出了一种基于锚点的动态场景重建方法,通过分层处理和优化策略,显著提升了渲染速度和存储效率。

  • Motivation: 现有4D高斯泼溅方法忽略了相邻高斯基元间的冗余性,导致性能不佳。
  • Method: ADC-GS采用锚点驱动结构,结合分层处理和率失真优化,减少冗余并提升效率。
  • Result: 实验显示,ADC-GS渲染速度提升300%-800%,存储效率达到最优。
  • Conclusion: ADC-GS在动态场景重建中实现了高效且高质量的表示。

[17] Visual Watermarking in the Era of Diffusion Models: Advances and Challenges

Junxian Duan,Jiyang Guang,Wenkui Yang,Ran He

Main category: cs.CV

TL;DR: 论文探讨了生成式AI技术(如Stable Diffusion)对视觉内容的潜在滥用风险,提出利用扩散模型嵌入水印以提高检测准确性,并分析了相关技术的优劣势。

  • Motivation: 随着生成式AI技术的发展,视觉内容面临版权侵权的风险增加,亟需创新的水印技术保护数字内容所有权。
  • Method: 通过扩散模型嵌入不可察觉且鲁棒的水印,提升检测准确性,并分析其在水印生成中的应用。
  • Result: 扩散模型能够有效学习特征,增强水印的鲁棒性,对抗复杂的伪造威胁。
  • Conclusion: 论文强调开发创新水印技术的重要性,以保护数字内容所有权,应对生成式AI时代的挑战。

[18] Object detection in adverse weather conditions for autonomous vehicles using Instruct Pix2Pix

Unai Gurbindo,Axel Brando,Jaume Abella,Caroline König

Main category: cs.CV

TL;DR: 该论文提出了一种利用扩散模型Instruct Pix2Pix生成天气增强数据的方法,以提升目标检测模型在恶劣天气下的鲁棒性,并在仿真和真实环境中验证了其有效性。

  • Motivation: 提升目标检测系统在恶劣天气条件下的鲁棒性,以推动自动驾驶技术的发展。
  • Method: 使用Instruct Pix2Pix扩散模型生成天气增强数据,并在CARLA仿真器及真实数据集BDD100K和ACDC上进行实验。
  • Result: 实验表明,该方法能显著缩小目标检测模型在恶劣天气下的性能差距,并提升其鲁棒性。
  • Conclusion: 该研究为提升感知系统在恶劣环境中的可靠性奠定了基础,并为自动驾驶技术的未来发展提供了路径。

[19] HMPNet: A Feature Aggregation Architecture for Maritime Object Detection from a Shipborne Perspective

Yu Zhang,Fengyuan Liu,Juan Lyu,Yi Wei,Changdong Yu

Main category: cs.CV

TL;DR: 论文提出Navigation12数据集和HMPNet模型,用于船舶视角下的目标检测,提升精度和计算效率。

  • Motivation: 解决海事领域缺乏专用数据的问题,推动智能航海导航技术的发展。
  • Method: 基于Navigation12数据集,设计HMPNet模型,采用层次动态调制主干、矩阵级联多尺度颈部和聚合权重共享检测器。
  • Result: HMPNet在精度上超越YOLOv11n 3.3%,参数减少23%。
  • Conclusion: HMPNet为海事目标检测提供了高效解决方案,具有实际应用潜力。

[20] G-MSGINet: A Grouped Multi-Scale Graph-Involution Network for Contactless Fingerprint Recognition

Santhoshkumar Peddi,Soham Bandyopadhyay,Debasis Samanta

Main category: cs.CV

TL;DR: G-MSGINet是一种高效的无接触指纹识别框架,通过GMSGI层联合处理局部细节和全局拓扑特征,无需复杂预处理,性能优于现有方法。

  • Motivation: 现有方法依赖多分支架构或复杂预处理,限制了实际应用中的扩展性和泛化能力。
  • Method: 提出GMSGI层,结合分组像素级卷积、动态多尺度核生成和图关系建模,通过端到端优化逐步优化特征。
  • Result: 在三个基准数据集上,F1分数达0.83±0.02,Rank-1准确率97.0%-99.1%,EER低至0.5%,参数和计算量显著减少。
  • Conclusion: G-MSGINet在性能和效率上均优于现有方法,适用于实际无接触生物识别场景。

[21] Removing Watermarks with Partial Regeneration using Semantic Information

Krti Tallam,John Kevin Cava,Caleb Geniesse,N. Benjamin Erichson,Michael W. Mahoney

Main category: cs.CV

TL;DR: 论文提出了一种名为SemanticRegen的三阶段攻击方法,能够有效擦除最先进的语义和不可见水印,同时保持图像的表观意义。该方法在四种水印系统中表现出色,并揭示了当前水印防御与自适应攻击能力之间的差距。

  • Motivation: 随着AI生成图像的普及,不可见水印成为版权和来源保护的主要手段。然而,现有水印方案对自适应攻击的鲁棒性尚未充分研究。
  • Method: SemanticRegen是一种三阶段、无标签攻击方法,包括(i)使用视觉语言模型获取细粒度描述,(ii)通过零样本分割提取前景掩码,(iii)通过LLM引导的扩散模型仅修复背景,保留显著对象和风格线索。
  • Result: 在四种水印系统(TreeRing、StegaStamp、StableSig和DWT/DCT)上评估,SemanticRegen是唯一能击败TreeRing水印的方法(p = 0.10 > 0.05),同时保持高感知质量(masked SSIM = 0.94 +/- 0.01)。
  • Conclusion: 研究揭示了当前水印防御与自适应攻击能力之间的差距,强调了需要开发对内容保持再生攻击具有鲁棒性的水印算法。

[22] EventDiff: A Unified and Efficient Diffusion Model Framework for Event-based Video Frame Interpolation

Hanle Zheng,Xujie Han,Zegang Peng,Shangbin Zhang,Guangxun Du,Zhuo Zou,Xilin Wang,Jibin Wu,Hao Guo,Lei Deng

Main category: cs.CV

TL;DR: EventDiff是一种基于事件的扩散模型框架,用于视频帧插值(VFI),通过潜在空间的去噪过程实现高效插值,并在多个数据集上表现优异。

  • Motivation: 解决传统事件VFI方法在大运动和复杂场景下高保真图像重建的不足,同时利用扩散模型避免显式运动建模。
  • Method: 提出Event-Frame Hybrid AutoEncoder(HAE)和Spatial-Temporal Cross Attention(STCA)模块,结合两阶段训练策略。
  • Result: 在Vimeo90K-Triplet上PSNR提升1.98dB,推理速度比扩散方法快4.24倍。
  • Conclusion: EventDiff在多样化和挑战性VFI场景中表现鲁棒,优于现有方法。

[23] Congenital Heart Disease recognition using Deep Learning/Transformer models

Aidar Amangeldi,Vladislav Yarovenko,Angsar Taigonyrov

Main category: cs.CV

TL;DR: 论文研究了双模态(声音和图像)深度学习方法在先天性心脏病(CHD)诊断中的应用,取得了73.9%和80.72%的准确率。

  • Motivation: 先天性心脏病是婴儿发病和死亡的主要原因,但非侵入性筛查方法常出现假阴性,因此需要更有效的检测手段。
  • Method: 采用双模态(声音和图像)深度学习方法进行CHD诊断。
  • Result: 在ZCHSound数据集上准确率为73.9%,在DICOM胸部X光数据集上准确率为80.72%。
  • Conclusion: 双模态深度学习方法在CHD诊断中显示出潜力,但仍需进一步提升准确率。

[24] Identifying Memorization of Diffusion Models through p-Laplace Analysis

Jonathan Brokman,Amit Giloni,Omer Hofman,Roman Vainshtein,Hisashi Kojima,Guy Gilboa

Main category: cs.CV

TL;DR: 该论文研究了扩散模型中的得分函数是否能用于计算高阶微分(p-Laplace算子),并展示了其在识别记忆训练数据中的应用。

  • Motivation: 探索扩散模型得分函数的进一步应用,特别是高阶微分在数据记忆识别中的潜力。
  • Method: 提出基于学习得分函数的p-Laplace数值近似方法,并在高斯混合模型和图像生成模型中验证其有效性。
  • Result: p-Laplace算子能有效识别概率分布的关键特征,首次在图像生成模型中实现了记忆识别。
  • Conclusion: 得分函数的高阶微分可用于数据记忆识别,为生成模型的分析提供了新工具。

[25] CNN and ViT Efficiency Study on Tiny ImageNet and DermaMNIST Datasets

Aidar Amangeldi,Angsar Taigonyrov,Muhammad Huzaid Jawad,Chinedu Emmanuel Mbonu

Main category: cs.CV

TL;DR: 比较卷积和Transformer架构在医学和通用图像分类任务中的表现,通过微调策略优化Vision Transformer,实现低延迟和低复杂度。

  • Motivation: 评估卷积和Transformer架构在资源受限环境中的适用性,目标是减少推理延迟和模型复杂度。
  • Method: 以ResNet-18为基线,对四种Vision Transformer变体(Tiny、Small、Base、Large)进行微调,应用于DermatologyMNIST和TinyImageNet数据集。
  • Result: 适当微调的Vision Transformer性能可匹配或超越基线,同时实现更快推理和更少参数。
  • Conclusion: Vision Transformer在资源受限环境中具有部署潜力。

[26] Few-shot Novel Category Discovery

Chunming Li,Shidong Wang,Haofeng Zhang

Main category: cs.CV

TL;DR: 论文提出了一种名为FSNCD的新设置,结合了Few-Shot学习和新类别发现,通过SHC和UKC方法提升了模型性能。

  • Motivation: 现有NCD方法的局限性限制了其在真实场景中的应用,而少量标注数据可以缓解这一问题。
  • Method: 提出了FSNCD框架,结合了Few-Shot学习和聚类算法,并引入了SHC和UKC方法。
  • Result: 在五个常用数据集上的实验表明,该方法在不同任务设置和场景中均表现领先。
  • Conclusion: FSNCD框架通过结合Few-Shot学习和聚类算法,显著提升了新类别发现的性能。

Yanbin Wei,Xuehao Wang,Zhan Zhuang,Yang Chen,Shuhao Chen,Yulong Zhang,Yu Zhang,James Kwok

Main category: cs.CV

TL;DR: 论文提出了一种名为GVN的框架,将视觉感知引入MPNNs,显著提升了链接预测任务的性能。

  • Motivation: 尽管MPNNs和结构特征是链接预测的核心,但视觉感知的潜力在MPNN社区中被忽视了。
  • Method: 提出了Graph Vision Network (GVN)及其高效变体E-GVN,将视觉结构意识融入MPNNs。
  • Result: 在七个链接预测数据集上,GVN通过视觉增强显著提升了性能,并在大规模图上取得了新的SOTA结果。
  • Conclusion: GVN为链接预测开辟了新的研究方向,展示了视觉感知与MPNNs结合的潜力。

[28] IrrMap: A Large-Scale Comprehensive Dataset for Irrigation Method Mapping

Nibir Chandra Mandal,Oishee Bintey Hoque,Abhijin Adiga,Samarth Swarup,Mandy Wilson,Lu Feng,Yangfeng Ji,Miaomiao Zhang,Geoffrey Fox,Madhav Marathe

Main category: cs.CV

TL;DR: IrrMap是一个用于灌溉方法映射的大规模数据集,包含多分辨率卫星图像和辅助数据,覆盖美国西部多个州的农田,并提供完整的深度学习训练流程。

  • Motivation: 为灌溉分析提供丰富多样的数据集,支持深度学习模型训练和基准测试,并促进农业和地理空间分析的研究。
  • Method: 数据集包含标准化的224x224 GeoTIFF图像块、多输入模态、训练-测试分割数据及数据加载器,同时提供数据集生成管道。
  • Result: 分析了不同作物组的灌溉方法分布、空间灌溉模式及灌溉面积变化,揭示了区域和分辨率差异。
  • Conclusion: IrrMap及其配套资源(数据集、基准模型和代码)已公开,以促进进一步研究和应用。

[29] Ultra Lowrate Image Compression with Semantic Residual Coding and Compression-aware Diffusion

Anle Ke,Xu Zhang,Tong Chen,Ming Lu,Chao Zhou,Jiawen Gu,Zhan Ma

Main category: cs.CV

TL;DR: ResULIC提出了一种基于残差信号的多模态图像压缩框架,结合语义残差编码和感知优化器,显著提升了压缩效率和重建质量。

  • Motivation: 现有方法在语义检索、潜在压缩和生成模型的整合上存在碎片化问题,导致重建保真度和编码效率不佳。
  • Method: 引入语义残差编码(SRC)捕捉原始图像与压缩表示间的语义差异,并采用压缩感知扩散模型(CDM)优化比特率与扩散步长的对齐。
  • Result: 实验表明,ResULIC在LPIPS和FID指标上分别实现了-80.7%和-66.3%的BD-rate节省,优于现有方法。
  • Conclusion: ResULIC通过残差信号和扩散模型的协同优化,显著提升了超低码率图像压缩的性能。

[30] Disruptive Transformation of Artworks in Master-Disciple Relationships: The Case of Ukiyo-e Artworks

Honna Shinichi,Akira Matsui

Main category: cs.CV

TL;DR: 论文通过机器学习定量分析日本浮世绘的创造力,发现其整体创造力随文化成熟下降,但风格创造力保持高水平。

  • Motivation: 传统艺术研究依赖主观判断,机器学习可定量分析人类难以发现的特性,而东方绘画(如浮世绘)缺乏类似西方绘画的全面分析。
  • Method: 使用11,000张高分辨率浮世绘图像,基于网络计算创造力概念,分析作品和艺术家的创造力。
  • Result: 浮世绘整体创造力随文化成熟下降,但风格创造力因文化细分保持高水平。
  • Conclusion: 研究为浮世绘提供新见解,展示其在东方艺术分析中的文化意义。

[31] FauForensics: Boosting Audio-Visual Deepfake Detection with Facial Action Units

Jian Wang,Baoyuan Wu,Li Liu,Qingshan Liu

Main category: cs.CV

TL;DR: 提出了一种名为FauForensics的新框架,利用生物不变的面部动作单元(FAUs)作为抗伪造特征,结合多模态融合模块,显著提升了深度伪造检测的性能和跨数据集泛化能力。

  • Motivation: 生成式AI的快速发展导致音频-视觉深度伪造威胁加剧,现有单模态检测方法难以应对多模态伪造,亟需更鲁棒的解决方案。
  • Method: 引入生物不变的面部动作单元(FAUs)作为抗伪造特征,设计多模态融合模块动态对齐时空唇-音频关系,减少特征异质性。
  • Result: 在FakeAVCeleb和LAV-DF数据集上取得最优性能,平均比现有方法提升4.83%,并表现出卓越的跨数据集泛化能力。
  • Conclusion: FauForensics通过生物不变特征和多模态动态对齐,显著提升了深度伪造检测的鲁棒性和泛化性,为多模态伪造检测提供了新思路。

[32] Knowledge-Informed Deep Learning for Irrigation Type Mapping from Remote Sensing

Oishee Bintey Hoque,Nibir Chandra Mandal,Abhijin Adiga,Samarth Swarup,Sayjro Kossi Nouwakpo,Amanda Wilson,Madhav Marathe

Main category: cs.CV

TL;DR: KIIM是一种基于Swin-Transformer的新方法,通过多模态信息融合和迁移学习,显著提高了灌溉分类的准确性,减少了对大量标注数据的依赖。

  • Motivation: 现有基于光谱特征的卫星图像模型在复杂农业景观和有限训练数据下效果不佳,需要更高效的灌溉分类方法。
  • Method: KIIM结合了作物到灌溉概率的投影矩阵、空间注意力图、双向交叉注意力和加权集成方法,并采用两阶段迁移学习。
  • Result: 在五个州的实验中,KIIM比基线提高了22.9%(IoU),滴灌分类提升了71.4%;迁移学习在标注数据有限的州实现了51%的IoU提升。
  • Conclusion: KIIM通过高效利用数据和迁移学习,为大规模自动化灌溉制图提供了可行且经济的解决方案。

[33] An incremental algorithm for non-convex AI-enhanced medical image processing

Elena Morotti

Main category: cs.CV

TL;DR: 论文提出了一种结合深度学习和增量模型优化的混合框架incDG,用于高效解决非凸正则化逆问题,尤其在医学成像中表现优异。

  • Motivation: 非凸正则化逆问题因其复杂的优化空间和多个局部极小值而难以解决,但其能提供高质量、任务导向的解,尤其在医学成像中需要增强临床相关特征而非仅最小化全局误差。
  • Method: incDG框架结合深度学习与增量模型优化,利用深度神经网络生成初始解,再通过非凸变分解算器进行正则化增量迭代优化。
  • Result: 在TpV正则化优化任务中,incDG在医学图像去模糊和断层扫描重建中表现优于传统迭代解算器和深度学习方法,且无需真实数据训练时性能仍稳定。
  • Conclusion: incDG是一种高效、稳健的工具,适用于解决成像及其他领域的非凸逆问题。

[34] A computer vision-based model for occupancy detection using low-resolution thermal images

Xue Cui,Vincent Gbouna Zakka,Minhyun Lee

Main category: cs.CV

TL;DR: 论文提出了一种基于低分辨率热成像和计算机视觉的占用检测模型,解决了隐私问题并降低了计算资源需求。

  • Motivation: 传统HVAC系统基于固定时间表运行,不考虑实际占用情况,而基于RGB图像的占用检测存在隐私问题。
  • Method: 采用低分辨率热成像和YOLOv5模型进行迁移学习,开发占用检测模型。
  • Result: 模型性能优异,精确度、召回率和mAP50值接近1.000。
  • Conclusion: 该模型不仅缓解了隐私问题,还减少了计算资源需求。

[35] FAD: Frequency Adaptation and Diversion for Cross-domain Few-shot Learning

Ruixiao Shi,Fu Feng,Yucheng Xie,Jing Wang,Xin Geng

Main category: cs.CV

TL;DR: 论文提出了一种频率感知框架FAD,通过频率域的分频带适配提升跨域小样本学习的泛化能力。

  • Motivation: 现有方法仅关注空间域,忽略了频率域的变化对跨域泛化的重要性。
  • Method: FAD框架通过离散傅里叶变换分频带处理,并针对不同频带设计适配分支。
  • Result: 在Meta-Dataset基准测试中,FAD显著优于现有方法。
  • Conclusion: 频率域表示和分频带适配对提升跨域小样本学习泛化能力有效。

[36] STORYANCHORS: Generating Consistent Multi-Scene Story Frames for Long-Form Narratives

Bo Wang,Haoyang Huang,Zhiyin Lu,Fengyuan Liu,Guoqing Ma,Jianlong Yuan,Yuan Zhang,Nan Duan

Main category: cs.CV

TL;DR: StoryAnchors是一个统一框架,用于生成高质量、多场景且具有强时序一致性的故事帧。它通过双向故事生成器和特定条件提升叙事丰富性,并在实验中表现优异。

  • Motivation: 解决多场景故事帧生成中的时序一致性和叙事连贯性问题,同时支持可编辑和扩展的故事帧生成。
  • Method: 采用双向故事生成器整合过去和未来上下文,引入Multi-Event Story Frame Labeling和Progressive Story Frame Training提升生成质量。
  • Result: 在一致性、叙事连贯性和场景多样性上优于现有开源模型,与GPT-4o在叙事一致性和故事丰富性上表现相当。
  • Conclusion: StoryAnchors为故事驱动帧生成提供了可扩展、灵活且高度可编辑的基础,推动了该领域的研究边界。

[37] DArFace: Deformation Aware Robustness for Low Quality Face Recognition

Sadaf Gulshad,Abdullah Aldahlawi Thakaa

Main category: cs.CV

TL;DR: DArFace是一种新的面部识别框架,通过模拟真实低质量条件(全局变换和局部弹性变形)提升鲁棒性,无需配对高低质量训练样本。

  • Motivation: 现实场景中低质量面部图像(如低分辨率、运动模糊)导致识别性能下降,现有方法常忽略局部非刚性变形。
  • Method: DArFace通过对抗性训练整合全局变换和局部弹性变形,并引入对比目标以保持身份一致性。
  • Result: 在TinyFace、IJB-B和IJB-C等低质量基准测试中,DArFace显著优于现有方法。
  • Conclusion: 局部变形建模是提升低质量面部识别鲁棒性的关键因素。

[38] DHECA-SuperGaze: Dual Head-Eye Cross-Attention and Super-Resolution for Unconstrained Gaze Estimation

Franko Šikić,Donik Vršnak,Sven Lončarić

Main category: cs.CV

TL;DR: DHECA-SuperGaze是一种基于深度学习的方法,通过超分辨率和双头眼交叉注意力模块改进视线预测,显著降低了角度误差。

  • Motivation: 解决无约束环境中视线估计的挑战,如低分辨率图像和现有方法对头眼交互建模不足的问题。
  • Method: 使用双分支卷积主干处理眼部和多尺度超分辨率头部图像,并通过DHECA模块实现双向特征细化。
  • Result: 在Gaze360和GFIE数据集上,静态和动态配置下的角度误差分别降低了0.48°-3.00°和1.53°-3.99°。
  • Conclusion: DHECA-SuperGaze在性能和泛化能力上优于现有方法,解决了数据标注错误并提升了视线估计的准确性。

[39] Visual Image Reconstruction from Brain Activity via Latent Representation

Yukiyasu Kamitani,Misato Tanaka,Ken Shirakawa

Main category: cs.CV

TL;DR: 视觉图像重建通过深度神经网络和生成模型从脑活动中解码感知内容,取得了显著进展。本文回顾了该领域从早期分类方法到捕捉详细主观视觉体验的复杂重建的演变,强调了分层潜在表示、组合策略和模块化架构的作用。尽管进展显著,但仍面临挑战,如实现真正的零样本泛化和准确建模感知的复杂主观方面。讨论了多样化数据集、与人类感知判断一致的评估指标以及增强模型鲁棒性和泛化能力的组合表示的需求。强调了隐私、同意和潜在滥用等伦理问题。视觉图像重建为神经编码提供了新见解,并在临床诊断和脑机接口等领域有广泛应用。

  • Motivation: 视觉图像重建领域通过深度神经网络和生成模型取得了显著进展,但仍面临零样本泛化和主观感知建模等挑战。本文旨在回顾该领域的演变,并探讨未来发展方向和伦理问题。
  • Method: 本文回顾了视觉图像重建的演变,从早期分类方法到使用分层潜在表示、组合策略和模块化架构的复杂重建方法。
  • Result: 尽管进展显著,但仍需解决零样本泛化、主观感知建模等问题,并需要多样化数据集和更精确的评估指标。伦理问题如隐私和潜在滥用也需关注。
  • Conclusion: 视觉图像重建为神经编码提供了新见解,并在临床和脑机接口等领域有广泛应用,但需进一步解决技术和伦理挑战。

[40] TT-DF: A Large-Scale Diffusion-Based Dataset and Benchmark for Human Body Forgery Detection

Wenkui Yang,Zhida Zhang,Xiaoqiang Zhou,Junxian Duan,Jie Cao

Main category: cs.CV

TL;DR: 论文介绍了TikTok-DeepFake(TT-DF)数据集,专注于人体伪造检测,并提出了一种新的检测模型TOF-Net,性能优于现有面部伪造检测模型。

  • Motivation: 由于人体伪造数据集和检测方法的缺乏,研究旨在填补这一空白,提供更全面的伪造数据模拟和检测方案。
  • Method: 提出TT-DF数据集,包含多种伪造方法和配置;设计TOF-Net模型,利用时空不一致性和光流分布差异进行检测。
  • Result: TOF-Net在TT-DF上表现优异,超越现有面部伪造检测模型。
  • Conclusion: TT-DF和TOF-Net为人体伪造检测提供了有效的数据集和方法,具有实际应用价值。

[41] A Survey of 3D Reconstruction with Event Cameras: From Event-based Geometry to Neural 3D Rendering

Chuanzhi Xu,Haoxian Zhou,Langyi Chen,Haodong Chen,Ying Zhou,Vera Chung,Qiang Qu

Main category: cs.CV

TL;DR: 这篇综述首次全面回顾了基于事件相机的3D重建方法,分类总结了现有工作,并指出了当前研究的局限性和未来方向。

  • Motivation: 事件相机因其异步捕捉像素亮度变化的能力,在3D重建中表现出潜力,尤其是在极端环境下。
  • Method: 将现有工作按输入模态(立体、单目、多模态)和重建方法(几何、深度学习、神经渲染)分类,并总结了相关数据集。
  • Result: 总结了当前研究的局限性,包括数据可用性、评估、表示和动态场景处理。
  • Conclusion: 该综述旨在为事件驱动的3D重建提供全面参考和未来发展的路线图。

[42] VCRBench: Exploring Long-form Causal Reasoning Capabilities of Large Video Language Models

Pritam Sarkar,Ali Etemad

Main category: cs.CV

TL;DR: 论文介绍了VCRBench,一个评估视频语言模型在长形式因果推理能力的新基准,发现现有模型表现不佳,并提出了一种分解方法RRD,显著提升了性能。

  • Motivation: 现有大型视频语言模型(LVLMs)在视频因果推理方面的能力尚未充分探索,缺乏相关基准。
  • Method: 提出VCRBench基准,通过打乱日常活动视频片段测试模型因果推理能力;并提出RRD方法,将任务分解为视频识别和因果推理。
  • Result: 实验显示现有LVLMs在VCRBench上表现不佳,RRD方法能提升25.2%的准确率。
  • Conclusion: LVLMs在复杂视频因果推理中依赖语言知识,RRD方法有效提升了性能。

[43] A Deep Learning-Driven Framework for Inhalation Injury Grading Using Bronchoscopy Images

Yifan Li,Alan W Pang,Jo Woon Chong

Main category: cs.CV

TL;DR: 本研究提出了一种基于深度学习的框架,用于通过支气管镜图像对吸入性损伤进行分级,并使用机械通气持续时间作为客观指标。通过改进的StarGAN生成高质量合成图像,显著提升了分类性能。

  • Motivation: 传统方法(如AIS)依赖主观评估且与临床结果相关性弱,吸入性损伤的临床诊断和分级面临挑战。
  • Method: 采用改进的StarGAN(结合Patch Loss和SSIM Loss)生成合成图像,并使用Swin Transformer进行分类评估。
  • Result: 改进的StarGAN生成的数据集将分类准确率提升至77.78%(提升11.11%),FID得分最低为30.06,生成的图像被烧伤外科医生认可。
  • Conclusion: 改进的StarGAN能有效解决数据限制问题,提升吸入性损伤分级的准确性。

[44] Attention-based Generative Latent Replay: A Continual Learning Approach for WSI Analysis

Pratibha Kumari,Daniel Reisenbüchler,Afshin Bozorgpour,Nadine S. Schaadt,Friedrich Feuerhake,Dorit Merhof

Main category: cs.CV

TL;DR: 提出了一种基于注意力的生成潜在重放持续学习框架(AGLR-CL),用于解决全切片图像(WSI)分类中的域偏移问题,无需显式存储原始数据。

  • Motivation: 全切片图像分类在计算病理学中具有重要应用,但受限于不同器官、疾病或机构间的域偏移问题。
  • Method: 采用高斯混合模型(GMMs)合成WSI表示和补丁计数分布,结合注意力过滤步骤选择最显著的补丁嵌入。
  • Result: 在多个公共数据集上验证了AGLR-CL的性能,显示其能够保留先验知识并适应新域,且优于无缓冲区的同类方法。
  • Conclusion: AGLR-CL为WSI分类中的域增量持续学习提供了一种高效且隐私保护的方法。

[45] Dynamic Snake Upsampling Operater and Boundary-Skeleton Weighted Loss for Tubular Structure Segmentation

Yiqi Chen,Ganghai Huang,Sheng Zhang,Jianglin Dai

Main category: cs.CV

TL;DR: 论文提出了一种动态蛇形上采样操作符和边界-骨架加权损失,用于提升管状拓扑结构的分割精度。

  • Motivation: 传统上采样操作符难以处理管状结构的细长性和形态曲率,影响分割精度和拓扑一致性。
  • Method: 设计了基于自适应采样域的蛇形上采样操作符,动态调整采样步长;提出骨架到边界递增加权损失,平衡主体和边界权重。
  • Result: 实验表明,该方法在多个数据集和骨干网络上提升了像素级分割精度和拓扑一致性。
  • Conclusion: 动态蛇形上采样和边界-骨架加权损失是提升管状结构分割的有效方法。

[46] Leveraging Segment Anything Model for Source-Free Domain Adaptation via Dual Feature Guided Auto-Prompting

Zheang Huai,Hui Tang,Yi Li,Zhuangzhuang Chen,Xiaomeng Li

Main category: cs.CV

TL;DR: 该论文提出了一种基于Segment Anything Model(SAM)的双特征引导(DFG)自动提示方法,用于无源域自适应分割(SFDA),通过自动生成准确的边界框提示来解决域差距问题。

  • Motivation: 无源域自适应分割(SFDA)需要仅使用源模型和未标记的目标数据来适应目标域,但现有方法生成的边界框提示因域差距而存在缺陷。
  • Method: 提出DFG方法,分两阶段:1)特征聚合阶段,初步适应目标域并准备特征分布;2)基于目标模型特征和SAM特征,逐步扩展边界框提示,并通过连通性分析后处理伪标签。
  • Result: 在3D和2D数据集上的实验表明,该方法优于传统方法。
  • Conclusion: DFG方法通过双特征引导和自动提示,有效解决了SFDA中的域差距问题,提升了分割性能。

[47] The RaspGrade Dataset: Towards Automatic Raspberry Ripeness Grading with Deep Learning

Mohamed Lamine Mekhalfi,Paul Chippendale,Fabio Poiesi,Samuele Bonecher,Gilberto Osler,Nicola Zancanella

Main category: cs.CV

TL;DR: 研究探讨了计算机视觉在快速、准确、非侵入性食品质量评估中的应用,专注于工业环境中实时将覆盆子分为五类的挑战。

  • Motivation: 解决工业环境中覆盆子实时分级的难题,提高食品质量评估的效率和准确性。
  • Method: 使用RaspGrade数据集进行实例分割实验,获取水果级掩码并分类。
  • Result: 某些覆盆子等级因颜色相似和遮挡难以分类,而其他等级基于颜色较易区分。
  • Conclusion: RaspGrade数据集已公开,为覆盆子分级研究提供了资源。

Haroon Wahab,Hassan Ugail,Irfan Mehmood

Main category: cs.CV

TL;DR: DFA-CON是一种基于对比学习的框架,用于检测AI生成的艺术作品中的版权侵权或伪造行为,表现优于现有预训练模型。

  • Motivation: 生成式AI工具在视觉内容创作中的广泛应用引发了版权侵权和伪造的担忧,需要一种有效的检测方法。
  • Method: DFA-CON通过对比学习框架学习判别性表示空间,区分原始艺术作品及其伪造版本,并针对多种攻击类型进行训练。
  • Result: 评估结果显示,DFA-CON在大多数攻击类型中表现出稳健的检测性能,优于现有预训练模型。
  • Conclusion: DFA-CON为检测AI生成艺术作品的版权侵权和伪造提供了有效解决方案,代码和模型将公开。

[49] Reinforcement Learning meets Masked Video Modeling : Trajectory-Guided Adaptive Token Selection

Ayush K. Rai,Kyle Min,Tarun Krishna,Feiyan Hu,Alan F. Smeaton,Noel E. O'Connor

Main category: cs.CV

TL;DR: 提出了一种新的轨迹感知自适应令牌采样器(TATS),用于视频建模中的动态令牌选择,并结合MAE框架和PPO优化策略,实现了高效预训练和下游任务性能提升。

  • Motivation: 解决视频建模中预训练时如何选择合适掩码策略的挑战,避免依赖外部模型或固定掩码方法。
  • Method: 提出TATS模型动态选择运动中心令牌,结合MAE框架和PPO联合优化策略,支持高掩码率下的高效预训练。
  • Result: 在多个基准测试(如Something-Something v2、Kinetics-400等)中表现优异,验证了方法的有效性、泛化性和效率。
  • Conclusion: TATS与MAE结合的方法在视频建模中显著提升了预训练效率和下游任务性能,为动态令牌选择提供了新思路。

[50] Thermal Detection of People with Mobility Restrictions for Barrier Reduction at Traffic Lights Controlled Intersections

Xiao Ni,Carsten Kuehnel,Xiaoyi Jiang

Main category: cs.CV

TL;DR: 论文提出了一种基于热成像的交通信号灯系统,旨在解决RGB摄像头在恶劣天气或低能见度条件下的性能限制,并关注行动不便人群的需求。通过开发YOLO-Thermal模型和TD4PWMR数据集,系统实现了更高的检测精度和鲁棒性。

  • Motivation: 现有RGB摄像头交通信号系统忽视行动不便人群需求,且在恶劣天气或隐私方面存在不足。
  • Method: 提出基于热成像的交通信号系统,开发YOLO-Thermal模型和TD4PWMR数据集,结合特征提取和注意力机制。
  • Result: YOLO-Thermal在热成像检测中优于现有方法,系统有效提升无障碍交叉路口体验。
  • Conclusion: 热成像系统在隐私和恶劣条件下表现优越,为行动不便人群提供了更安全的交通解决方案。

[51] ReSurgSAM2: Referring Segment Anything in Surgical Video via Credible Long-term Tracking

Haofeng Liu,Mingqi Gao,Xuxiao Luo,Ziyue Wang,Guanyi Qin,Junde Wu,Yueming Jin

Main category: cs.CV

TL;DR: ReSurgSAM2是一个两阶段的手术场景分割框架,结合了Segment Anything Model 2和多样性驱动的长期记忆机制,显著提升了分割和跟踪的准确性与效率。

  • Motivation: 现有的手术场景分割方法效率低且跟踪时间短,难以适应复杂的手术场景,因此需要一种更高效、更稳定的解决方案。
  • Method: 采用两阶段框架:第一阶段使用跨模态时空Mamba进行目标检测和分割;第二阶段通过可信初始帧选择和多样性驱动的长期记忆机制实现跟踪。
  • Result: ReSurgSAM2在准确性和效率上显著优于现有方法,实时运行速度达61.2 FPS。
  • Conclusion: ReSurgSAM2为手术场景分割提供了高效、稳定的解决方案,适用于复杂的手术环境。

[52] A Large-scale Benchmark on Geological Fault Delineation Models: Domain Shift, Training Dynamics, Generalizability, Evaluation and Inferential Behavior

Jorge Quesada,Chen Zhou,Prithwijit Chowdhury,Mohammad Alotaibi,Ahmad Mustafa,Yusufjon Kumamnov,Mohit Prabhushankar,Ghassan AlRegib

Main category: cs.CV

TL;DR: 论文通过大规模基准研究,评估了地震解释中模型在域迁移策略中的表现,揭示了当前微调实践的脆弱性,并提出了改进方向。

  • Motivation: 地震解释中机器学习模型的泛化能力缺乏系统性研究,域迁移、数据差异和评估不一致是主要障碍。
  • Method: 训练和评估200多个模型,涵盖三个异构数据集,系统分析预训练、微调和联合训练策略。
  • Result: 研究发现当前微调实践脆弱,存在灾难性遗忘问题,并揭示了性能评估的挑战。
  • Conclusion: 研究为地震解释工作流中模型的部署提供了指导,并指出了开发更通用、可解释和有效模型的方向。

[53] PrePrompt: Predictive prompting for class incremental learning

Libo Huang,Zhulin An,Chuanguang Yang,Boyu Diao,Fei Wang,Yan Zeng,Zhifeng Hao,Yongjun Xu

Main category: cs.CV

TL;DR: PrePrompt提出了一种基于预训练模型的任务特定提示预测框架,解决了传统相关性方法在类增量学习中的局限性,并通过特征翻译平衡稳定性和可塑性。

  • Motivation: 传统基于相关性的方法在类增量学习中难以用少量可训练提示拟合所有任务的特征空间。
  • Method: PrePrompt将类增量学习分解为两阶段预测框架:任务特定提示预测和标签预测,并引入特征翻译以减少对近期类的偏差。
  • Result: 实验证明PrePrompt在多个基准测试中优于现有基于提示的类增量学习方法。
  • Conclusion: PrePrompt通过预测任务特定提示和动态平衡稳定性和可塑性,显著提升了类增量学习的性能。

[54] MESSI: A Multi-Elevation Semantic Segmentation Image Dataset of an Urban Environment

Barak Pinkovich,Boaz Matalon,Ehud Rivlin,Hector Rotstein

Main category: cs.CV

TL;DR: MESSI数据集包含2525张无人机拍摄的密集城市环境图像,支持多高度语义分割研究,并公开作为评估基准。

  • Motivation: 研究深度对语义分割的影响,并覆盖无人机3D飞行中的视觉多样性。
  • Method: 使用多种神经网络模型进行语义分割,并提供图像的位置、方向和相机参数。
  • Result: MESSI数据集可用于训练深度神经网络,支持语义分割、定位、导航等应用。
  • Conclusion: MESSI将作为公开数据集,为无人机图像语义分割提供评估基准。

[55] Rejoining fragmented ancient bamboo slips with physics-driven deep learning

Jinchi Zhu,Zhou Zhao,Hailong Lei,Xiaoguang Wang,Jialiang Lu,Jing Li,Qianqian Tang,Jiachen Shen,Gui-Song Xia,Bo Du,Yongchao Xu

Main category: cs.CV

TL;DR: WisePanda是一个基于物理原理的深度学习框架,用于拼接破碎的竹简,显著提高了匹配准确性和效率。

  • Motivation: 竹简是记录东亚古代文明的重要媒介,但许多出土竹简已破碎成不规则碎片,拼接困难且耗时。
  • Method: 结合断裂和材料退化的物理原理,自动生成合成训练数据,训练匹配网络,无需人工配对样本。
  • Result: Top-50匹配准确率从36%提升至52%,拼接效率提高约20倍。
  • Conclusion: 物理驱动的深度学习显著提升了古代文物修复的性能,为数据稀缺问题提供了新范式。

[56] Unsupervised Out-of-Distribution Detection in Medical Imaging Using Multi-Exit Class Activation Maps and Feature Masking

Yu-Jen Chen,Xueyang Li,Yiyu Shi,Tsung-Yi Ho

Main category: cs.CV

TL;DR: 提出了一种基于多出口类激活图(MECAM)的无监督OOD检测方法,通过特征掩码和多分辨率CAM提升检测鲁棒性。

  • Motivation: 观察到ID数据的CAM通常集中在预测相关区域,而OOD数据缺乏这种聚焦,利用这一差异进行检测。
  • Method: 使用多出口网络结合不同分辨率和深度的CAM,通过特征掩码区分ID和OOD数据。
  • Result: 在多个医学和自然图像数据集上验证了MECAM的有效性,优于现有方法。
  • Conclusion: 多出口网络和特征掩码为医学影像中的OOD检测提供了可靠且可解释的解决方案。

[57] Leveraging Multi-Modal Information to Enhance Dataset Distillation

Zhe Li,Hadrien Reynaud,Bernhard Kainz

Main category: cs.CV

TL;DR: 论文提出两种改进数据集蒸馏的方法:基于文本的监督和对象中心掩码,显著提升了合成数据集的质量。

  • Motivation: 现有方法主要关注视觉表示优化,但结合多模态信息和细化对象级信息可以进一步提升蒸馏数据集的质量。
  • Method: 引入两种策略利用文本信息:特征拼接和文本匹配;同时使用分割掩码隔离目标对象,提出两种对象中心损失函数。
  • Result: 实验表明,结合文本指导和对象中心掩码能显著提升数据集蒸馏效果,合成数据集在下游任务中表现更优。
  • Conclusion: 文本监督和对象中心掩码是提升数据集蒸馏质量的有效方法。

[58] Boosting Zero-shot Stereo Matching using Large-scale Mixed Images Sources in the Real World

Yuran Wang,Yingping Liang,Ying Fu

Main category: cs.CV

TL;DR: 论文提出BooSTer框架,结合视觉基础模型和大规模混合图像数据(合成、真实和单视图图像),解决立体匹配中标注数据稀缺和域适应问题。

  • Motivation: 立体匹配方法依赖密集像素级标注数据,但真实数据标注成本高,且合成与真实图像间存在域差距。
  • Method: 1. 通过单目深度估计和扩散模型从单视图图像生成密集立体匹配数据;2. 利用单目深度估计模型的伪标签和动态尺度不变损失解决真实数据稀疏标注问题;3. 引入视觉基础模型作为编码器提取鲁棒特征。
  • Result: 在基准数据集上实验表明,BooSTer显著提升了精度,尤其在标注数据有限和域偏移场景中。
  • Conclusion: BooSTer通过混合数据源和知识迁移,有效解决了立体匹配中的数据稀缺和域适应问题,提升了模型性能。

[59] WaveGuard: Robust Deepfake Detection and Source Tracing via Dual-Tree Complex Wavelet and Graph Neural Networks

Ziyuan He,Zhiqing Guo,Liejun Wang,Gaobo Yang,Yunfeng Diao,Dan Ma

Main category: cs.CV

TL;DR: WaveGuard是一种主动水印框架,通过频域嵌入和图结构一致性增强鲁棒性和不可感知性,有效应对Deepfake技术的隐私和身份盗窃风险。

  • Motivation: Deepfake技术带来的隐私侵犯和身份盗窃风险日益增加,需要一种更鲁棒且不可感知的水印技术来应对这些威胁。
  • Method: 使用双树复小波变换(DT-CWT)将水印嵌入高频子带,并采用结构一致性图神经网络(SC-GNN)保持视觉质量,同时设计了注意力模块以提高嵌入精度。
  • Result: 在面部交换和重演任务上的实验表明,WaveGuard在鲁棒性和视觉质量上均优于现有方法。
  • Conclusion: WaveGuard通过频域嵌入和图结构一致性,提供了一种高效且不可感知的水印解决方案,适用于对抗Deepfake技术。

[60] OpenThinkIMG: Learning to Think with Images via Visual Tool Reinforcement Learning

Zhaochen Su,Linjie Li,Mingyang Song,Yunzhuo Hao,Zhengyuan Yang,Jun Zhang,Guanjie Chen,Jiawei Gu,Juntao Li,Xiaoye Qu,Yu Cheng

Main category: cs.CV

TL;DR: OpenThinkIMG是一个开源框架,用于增强大型视觉语言模型(LVLMs)的动态工具调用能力,通过强化学习(V-ToolRL)显著提升任务表现。

  • Motivation: 当前缺乏标准化基础设施,阻碍了多样化工具的集成和交互数据的生成,限制了LVLMs的动态适应性。
  • Method: 提出OpenThinkIMG框架,包括标准化视觉工具接口、可扩展轨迹生成和灵活训练环境;并设计V-ToolRL强化学习框架优化工具调用策略。
  • Result: 在图表推理任务中,RL训练的模型(基于Qwen2-VL-2B)显著优于SFT初始化和基线模型,甚至超越GPT-4.1。
  • Conclusion: OpenThinkIMG为动态视觉推理提供了基础框架,有望推动AI代理真正实现“图像思维”。

[61] DLO-Splatting: Tracking Deformable Linear Objects Using 3D Gaussian Splatting

Holly Dinkel,Marcel Büsching,Alberta Longhini,Brian Coltin,Trey Smith,Danica Kragic,Mårten Björkman,Timothy Bretl

Main category: cs.CV

TL;DR: DLO-Splatting算法通过多视角RGB图像和夹爪状态信息预测-更新滤波估计可变形线性物体的3D形状。

  • Motivation: 现有视觉方法在复杂场景(如打结)中表现不佳,需结合动态模型和视觉优化。
  • Method: 使用基于位置的动力学模型预测形状,通过3D高斯渲染损失优化对齐视觉观测。
  • Result: 初步实验在打结场景中表现良好,优于纯视觉方法。
  • Conclusion: DLO-Splatting结合动态模型与视觉优化,有效提升复杂场景下的3D形状估计。

[62] SkillFormer: Unified Multi-View Video Understanding for Proficiency Estimation

Edoardo Bianchi,Antonio Liotta

Main category: cs.CV

TL;DR: SkillFormer是一种高效的多视角技能评估架构,通过跨视角融合模块和低秩适配技术,显著减少了训练成本,并在EgoExo4D数据集上实现了最先进的性能。

  • Motivation: 评估复杂活动中的人类技能水平在体育、康复和培训中有重要应用,但现有方法在多视角数据融合和计算效率上存在不足。
  • Method: 基于TimeSformer架构,SkillFormer引入了跨视角融合模块(CrossViewFusion),结合多头交叉注意力、可学习门控和自适应自校准,并采用低秩适配技术(Low-Rank Adaptation)微调少量参数。
  • Result: 在EgoExo4D数据集上,SkillFormer在多视角设置中达到最优性能,参数减少4.5倍,训练周期减少3.75倍,计算效率显著提升。
  • Conclusion: SkillFormer证明了多视角融合在细粒度技能评估中的价值,同时展示了参数高效设计的优势。

[63] Calibration and Uncertainty for multiRater Volume Assessment in multiorgan Segmentation (CURVAS) challenge results

Meritxell Riera-Marin,Sikha O K,Julia Rodriguez-Comas,Matthias Stefan May,Zhaohong Pan,Xiang Zhou,Xiaokun Liang,Franciskus Xaverius Erick,Andrea Prenner,Cedric Hemon,Valentin Boussot,Jean-Louis Dillenseger,Jean-Claude Nunes,Abdul Qayyum,Moona Mazher,Steven A Niederer,Kaisar Kushibar,Carlos Martin-Isla,Petia Radeva,Karim Lekadir,Theodore Barfoot,Luis C. Garcia Peraza Herrera,Ben Glocker,Tom Vercauteren,Lucas Gago,Justin Englemann,Joy-Marie Kleiss,Anton Aubanell,Andreu Antolin,Javier Garcia-Lopez,Miguel A. Gonzalez Ballester,Adrian Galdran

Main category: cs.CV

TL;DR: CURVAS挑战赛通过多标注者数据评估深度学习模型在医学图像分割中的校准和不确定性,强调模型校准与结果质量的相关性。

  • Motivation: 解决医学图像分割中标注变异性、校准和不确定性估计的挑战,提升模型的临床可靠性。
  • Method: 利用多标注者数据建立综合基准,评估七种DL模型在DSC、ECE和CRPS等指标上的表现。
  • Result: 校准良好的模型表现更优,预训练模型在非标准解剖结构中更具鲁棒性。
  • Conclusion: 多标注者基准、校准评估和不确定性感知是开发可靠医学图像分割模型的关键。

[64] SPAST: Arbitrary Style Transfer with Style Priors via Pre-trained Large-scale Model

Zhanjie Zhang,Quanwei Zhang,Junsheng Luan,Mengyuan Yang,Yun Wang,Lei Zhao

Main category: cs.CV

TL;DR: SPAST框架结合局部全局窗口大小风格化模块和风格先验损失,实现高质量风格迁移且减少推理时间。

  • Motivation: 现有方法要么生成质量低,要么推理时间长,无法同时满足高质量和高效需求。
  • Method: 设计LGWSSM模块融合风格特征,引入风格先验损失从预训练大模型中提取先验。
  • Result: 实验证明SPAST能生成高质量风格化图像且推理时间更短。
  • Conclusion: SPAST在质量和效率上均优于现有方法。

[65] Controllable Image Colorization with Instance-aware Texts and Masks

Yanru An,Ling Gui,Qiang Hu,Chunlei Cai,Tianxiao Ye,Xiaoyun Zhang,Yanfeng Wang

Main category: cs.CV

TL;DR: 提出了一种基于扩散模型的实例感知图像着色方法MT-Color,解决了颜色溢出和绑定错误问题,并引入了多实例采样策略和专用数据集GPT-color。

  • Motivation: 当前主流图像着色模型存在颜色溢出和绑定错误问题,且无法实现实例级着色。
  • Method: 设计了像素级掩码注意力机制和实例掩码与文本引导模块,采用多实例采样策略,并构建了专用数据集GPT-color。
  • Result: 定性和定量实验表明,模型和数据集优于先前方法。
  • Conclusion: MT-Color实现了精确的实例感知着色,解决了现有问题,性能优越。

[66] TiMo: Spatiotemporal Foundation Model for Satellite Image Time Series

Xiaolei Qin,Di Wang,Jing Zhang,Fengxiang Wang,Xin Su,Bo Du,Liangpei Zhang

Main category: cs.CV

TL;DR: TiMo是一种新型的分层视觉变换器基础模型,专为卫星图像时间序列(SITS)分析设计,通过动态捕捉多尺度时空关系,显著提升了下游任务的性能。

  • Motivation: 现有的时空基础模型依赖普通视觉变换器,未能显式捕捉多尺度时空关系,限制了其在下游任务中的效果。
  • Method: 提出TiMo模型,引入时空陀螺仪注意力机制,动态捕捉多尺度时空模式,并利用MillionST数据集进行预训练。
  • Result: 在多项时空任务中,TiMo表现优于现有方法,包括森林砍伐监测、土地覆盖分割等。
  • Conclusion: TiMo通过显式建模多尺度时空关系,显著提升了SITS分析的性能,代码和数据集将开源。

[67] Extending Large Vision-Language Model for Diverse Interactive Tasks in Autonomous Driving

Zongchuang Zhao,Haoyu Fu,Dingkang Liang,Xin Zhou,Dingyuan Zhang,Hongwei Xie,Bing Wang,Xiang Bai

Main category: cs.CV

TL;DR: 论文提出NuInteract数据集和DriveMonkey框架,解决LVLMs在3D场景理解中的不足,显著提升3D视觉定位任务性能。

  • Motivation: 现有LVLMs在自动驾驶场景中缺乏对多视角和3D关系的全面理解,限制了其应用效果。
  • Method: 引入NuInteract数据集(150万对多视角图像语言数据),并提出DriveMonkey框架,结合空间处理器提升3D感知。
  • Result: DriveMonkey在3D视觉定位任务中表现优于通用LVLMs,提升9.86%。
  • Conclusion: DriveMonkey和NuInteract为LVLMs在3D场景理解中的应用提供了有效解决方案。

[68] Advancing Food Nutrition Estimation via Visual-Ingredient Feature Fusion

Huiyan Qi,Bin Zhu,Chong-Wah Ngo,Jingjing Chen,Ee-Peng Lim

Main category: cs.CV

TL;DR: 论文介绍了一个名为FastFood的数据集,包含84,446张图像和908个快餐类别,带有成分和营养标注。提出了一种新的模型无关的视觉-成分特征融合方法(VIF²),通过结合视觉和成分特征提升营养估计准确性。

  • Motivation: 营养估计对健康饮食和降低饮食相关健康风险至关重要,但现有数据集缺乏营养标注,限制了该领域的发展。
  • Method: 提出VIF²方法,通过视觉-成分特征融合模块结合视觉和成分特征,并采用同义词替换和重采样策略增强成分鲁棒性。测试时使用多模态模型通过数据增强和多数投票优化成分预测。
  • Result: 在FastFood和Nutrition5k数据集上的实验验证了VIF²方法的有效性,支持不同骨干网络(如Resnet、InceptionV3和ViT),证明了成分信息在营养估计中的重要性。
  • Conclusion: FastFood数据集和VIF²方法为营养估计提供了新工具,强调了成分信息的关键作用。

[69] Towards Autonomous UAV Visual Object Search in City Space: Benchmark and Agentic Methodology

Yatai Ji,Zhengqiu Zhu,Yong Zhao,Beidan Liu,Chen Gao,Yihao Zhao,Sihang Qiu,Yue Hu,Quanjun Yin,Yong Li

Main category: cs.CV

TL;DR: 论文提出了CityAVOS数据集和PRPSearcher方法,用于解决无人机在复杂城市环境中自主视觉目标搜索(AVOS)任务的挑战,并展示了优于现有方法的性能。

  • Motivation: 现有方法在复杂城市环境中存在语义冗余、相似对象区分和探索-利用困境等问题,需要新的数据集和方法来支持AVOS任务。
  • Method: 提出了PRPSearcher方法,基于多模态大语言模型(MLLMs),构建三种专用地图(动态语义地图、3D认知地图和3D不确定性地图),并引入去噪机制和IPT提示机制。
  • Result: 在CityAVOS数据集上,PRPSearcher在成功率和搜索效率上显著优于基线方法(平均:+37.69% SR,+28.96% SPL,-30.69% MSS,-46.40% NE)。
  • Conclusion: PRPSearcher为AVOS任务提供了新方法,但与人类性能仍有差距,未来需改进语义推理和空间探索能力。

cs.CR

[70] Where the Devil Hides: Deepfake Detectors Can No Longer Be Trusted

Shuaiwei Yuan,Junyu Dong,Yuezun Li

Main category: cs.CR

TL;DR: 论文探讨了Deepfake检测器因使用第三方数据集可能被植入后门的风险,并提出了一种生成隐蔽触发模式的方法,通过两种投毒场景验证其有效性。

  • Motivation: 随着AI生成技术的发展,Deepfake检测器依赖第三方数据集可能被恶意植入后门,导致检测失效,亟需研究其安全风险与解决方案。
  • Method: 开发了一种生成隐蔽触发模式的触发器,支持密码控制、语义抑制、自适应和不可见特性,并通过脏标签和干净标签两种投毒场景植入后门。
  • Result: 实验证明该方法在隐蔽性和有效性上优于基线方法,具有实际应用潜力。
  • Conclusion: 研究揭示了Deepfake检测器的后门风险,并提出了一种高效隐蔽的触发模式生成方法,为相关安全防护提供了新思路。

eess.IV

[71] Evaluation of UAV-Based RGB and Multispectral Vegetation Indices for Precision Agriculture in Palm Tree Cultivation

Alavikunhu Panthakkan,S M Anzar,K. Sherin,Saeed Al Mansoori,Hussain Al-Ahmad

Main category: eess.IV

TL;DR: 本研究评估了无人机(UAV)在迪拜棕榈树种植区的植被健康监测效果,发现基于RGB图像的植被指数与昂贵的多光谱指数性能相当,为大规模农业监测提供了一种经济高效的替代方案。

  • Motivation: 精准农业需要高效的植被监测方法以提高作物产量和可持续性,本研究旨在验证RGB图像在植被健康评估中的实用性。
  • Method: 使用配备多光谱传感器的无人机计算NDVI和SAVI指数,同时比较RGB图像生成的VARI和MGRVI指数,分类植被健康状况。
  • Result: RGB指数在多光谱指数的植被分类和胁迫检测中表现相似,验证了其成本效益和实用性。
  • Conclusion: RGB图像在精准农业中具有潜力,可降低成本并推广数据驱动的作物管理决策。

[72] Pose Estimation for Intra-cardiac Echocardiography Catheter via AI-Based Anatomical Understanding

Jaeyoung Huh,Ankur Kapoor,Young-Ho Kim

Main category: eess.IV

TL;DR: 提出一种基于视觉变换器(ViT)的深度学习模型,仅通过ICE图像估计导管位置和方向,无需外部跟踪传感器,提高了手术效率和准确性。

  • Motivation: 现有导航方法依赖电磁跟踪或手动调整,易受干扰且需要专业知识,限制了ICE在EP和SHD干预中的应用。
  • Method: 使用ViT模型处理ICE图像,通过16x16嵌入块和变换器网络预测位置和方向,训练于851例临床数据集,优化采用MSE损失函数。
  • Result: 实验显示平均位置误差9.48 mm,方向误差(16.13°, 8.98°, 10.47°),验证了模型准确性。
  • Conclusion: 该系统提升了手术效率,减少操作负担,支持无跟踪实时定位,可独立或补充现有映射系统。

[73] Computationally Efficient Diffusion Models in Medical Imaging: A Comprehensive Review

Abdullah,Tao Huang,Ickjai Lee,Euijoon Ahn

Main category: eess.IV

TL;DR: 论文总结了扩散模型在生成高质量合成图像中的优势,重点分析了DDPM、LDM和WDM三种模型在自然和医学影像中的应用及其计算效率问题。

  • Motivation: 扩散模型在生成人工智能领域表现优异,但高计算成本限制了其应用,尤其是在医学影像中快速生成高质量图像的需求。
  • Method: 研究分类分析了DDPM、LDM和WDM三种扩散模型,探讨了它们在自然和医学影像中的计算效率和应用。
  • Result: 三种模型在医学影像中填补了计算复杂性的空白,但仍存在局限性。
  • Conclusion: 研究指出了扩散模型在医学影像中的未来研究方向和改进机会。

[74] Skeleton-Guided Diffusion Model for Accurate Foot X-ray Synthesis in Hallux Valgus Diagnosis

Midi Wan,Pengfei Li,Yizhuo Liang,Di Wu,Yushan Pan,Guangzhen Zhu,Hao Wang

Main category: eess.IV

TL;DR: 论文提出了一种骨骼约束条件扩散模型(SCCDM)和基于骨骼标志的足部评估方法(KCC),用于提升医学图像合成的准确性和临床适用性。

  • Motivation: 解决现有X射线模型在图像保真度、骨骼一致性和物理约束之间的平衡问题,特别是缺乏骨骼引导的扩散方法。
  • Method: 提出SCCDM模型,结合多尺度特征提取和注意力机制,并引入KCC评估方法。
  • Result: SSIM提升5.72%(0.794),PSNR提升18.34%(21.40 dB),结合KCC后平均得分0.85。
  • Conclusion: SCCDM在医学图像合成中表现出优异的性能和临床适用性。

[75] An integrated language-vision foundation model for conversational diagnostics and triaging in primary eye care

Zhi Da Soh,Yang Bai,Kai Yu,Yang Zhou,Xiaofeng Lei,Sahil Thakur,Zann Lee,Lee Ching Linette Phang,Qingsheng Peng,Can Can Xue,Rachel Shujuan Chong,Quan V. Hoang,Lavanya Raghavan,Yih Chung Tham,Charumathi Sabanayagam,Wei-Chi Wu,Ming-Chih Ho,Jiangnan He,Preeti Gupta,Ecosse Lamoureux,Seang Mei Saw,Vinay Nangia,Songhomitra Panda-Jonas,Jie Xu,Ya Xing Wang,Xinxing Xu,Jost B. Jonas,Tien Yin Wong,Rick Siow Mong Goh,Yong Liu,Ching-Yu Cheng

Main category: eess.IV

TL;DR: Meta-EyeFM是一个结合大型语言模型(LLM)和视觉基础模型(VFM)的多功能基础模型,用于眼科疾病评估。通过路由机制和低秩适应微调,该模型在疾病检测、严重程度区分和常见体征识别方面表现出色,准确率超过82.2%。

  • Motivation: 当前深度学习模型多为任务专用且缺乏用户友好界面,Meta-EyeFM旨在解决这一问题,提供多功能、高精度的眼科疾病评估工具。
  • Method: Meta-EyeFM结合LLM与VFM,利用路由机制和低秩适应微调技术,实现基于文本查询的任务分析。
  • Result: 模型在路由任务中达到100%准确率,疾病检测准确率≥82.2%,严重程度区分≥89%,体征识别≥76%,优于Gemini-1.5-flash和ChatGPT-4o。
  • Conclusion: Meta-EyeFM提升了可用性和诊断性能,是初级眼科护理或在线眼底评估的有价值决策支持工具。

[76] GNCAF: A GNN-based Neighboring Context Aggregation Framework for Tertiary Lymphoid Structures Semantic Segmentation in WSI

Lei Su

Main category: eess.IV

TL;DR: 提出了一种基于GNN的邻近上下文聚合框架(GNCAF),用于端到端分割TLS区域和成熟阶段,显著提升了性能。

  • Motivation: 现有方法依赖细胞代理任务且需额外后处理,无法充分利用邻近上下文信息。
  • Method: GNCAF通过多跳邻近上下文聚合和自注意力机制,增强分割模型对上下文信息的感知。
  • Result: 在TCGA-COAD和INHOUSE-PAAD数据集上,mF1和mIoU分别提升22.08%和26.57%。
  • Conclusion: GNCAF在TLS语义分割任务中表现优异,且具备任务扩展性。

[77] A portable diagnosis model for Keratoconus using a smartphone

Yifan Li,Myeongjun Kim,Yanjing Jin,Peter Ho,Jo Woon Chong

Main category: eess.IV

TL;DR: 提出了一种基于智能手机的便携式圆锥角膜诊断框架,通过两阶段检测流程实现高精度分类和可视化。

  • Motivation: 解决传统Placido盘地形图依赖专业设备的问题,提高圆锥角膜诊断的可及性。
  • Method: 使用智能手机屏幕显示Placido盘,捕获角膜反射,采用两阶段检测流程(WSVM分类和彩色图可视化)。
  • Result: 在多种智能手机上实现最高92.93%的准确率,并通过统计验证特征区分能力。
  • Conclusion: 智能手机框架为圆锥角膜诊断提供了便携且准确的解决方案。

[78] VIViT: Variable-Input Vision Transformer Framework for 3D MR Image Segmentation

Badhan Kumar Das,Ajay Singh,Gengyan Zhao,Han Liu,Thomas J. Re,Dorin Comaniciu,Eli Gibson,Andreas Maier

Main category: eess.IV

TL;DR: 论文提出了一种基于Transformer的框架VIViT,用于自监督预训练和可变对比度的分割微调,解决了MR研究中输入对比度不一致的问题。

  • Motivation: 现实世界的MR研究通常包含不同对比度的数据,而现有深度学习方法需要固定输入模态,限制了大规模预训练和下游任务的适应性。
  • Method: 提出VIViT框架,支持自监督预训练和针对不同对比度的分割微调,最大化数据利用率并适应输入变化。
  • Result: 在脑梗死和脑肿瘤分割任务中,VIViT分别达到0.624和0.883的平均Dice分数,优于现有CNN和ViT模型。
  • Conclusion: VIViT框架在异构MR数据任务中表现出更强的适应性和性能。

cs.LG

[79] A Reproduction Study: The Kernel PCA Interpretation of Self-Attention Fails Under Scrutiny

Karahan Sarıtaş,Çağatay Yıldız

Main category: cs.LG

TL;DR: 本文重新验证了自注意力机制是否实现核主成分分析(KPCA)的结论,发现缺乏实证支持。

  • Motivation: 质疑Teo等人(2024)关于自注意力机制实现KPCA的结论,验证其正确性。
  • Method: 通过分析自注意力值向量与KPCA特征向量的相似性、重构损失差异及Gram矩阵特征值统计,检验KPCA解释的合理性。
  • Result: 发现自注意力值与KPCA特征向量相似性低(最优余弦相似性≤0.32),重构损失差异显著(∼10³),Gram矩阵特征值统计不可复现。
  • Conclusion: 自注意力的KPCA解释缺乏实证支持,结论不成立。

[80] Fréchet Power-Scenario Distance: A Metric for Evaluating Generative AI Models across Multiple Time-Scales in Smart Grids

Yuting Cai,Shaohuai Liu,Chao Tian,Le Xie

Main category: cs.LG

TL;DR: 提出了一种基于Fréchet距离的新指标,用于评估智能电网中生成AI模型产生的合成数据质量。

  • Motivation: 传统欧氏距离指标无法有效评估合成数据集的整体质量差异,需从分布角度提出新方法。
  • Method: 使用Fréchet距离在特征空间中估计两组数据集的距离,从分布层面评估生成质量。
  • Result: 实证结果表明,新指标在不同时间尺度和模型中表现优越,提升了智能电网数据驱动决策的可靠性。
  • Conclusion: 基于Fréchet距离的指标能更有效地评估生成数据的质量,为智能电网应用提供支持。

[81] Decoupled Multimodal Prototypes for Visual Recognition with Missing Modalities

Jueqing Lu,Yuanyuan Qi,Xiaohao Yang,Shujie Zhou,Lan Du

Main category: cs.LG

TL;DR: 提出了一种基于解耦原型的多模态学习输出头,动态适应缺失模态场景,显著提升性能。

  • Motivation: 现有方法假设所有模态可用,但实际应用中常缺失,需解决性能下降问题。
  • Method: 引入解耦原型输出头,利用模态特定的类原型,动态适应缺失情况。
  • Result: 实验表明,该方法在多种缺失场景和缺失率下显著提升性能。
  • Conclusion: 提出的输出头有效解决模态缺失问题,兼容现有提示方法。

[82] Efficient Unstructured Pruning of Mamba State-Space Models for Resource-Constrained Environments

Ibne Farabi Shihab,Sanjeda Akter,Anuj Sharma

Main category: cs.LG

TL;DR: 提出了一种针对Mamba模型的无结构化剪枝框架,参数减少70%的同时保留95%的性能。

  • Motivation: Mamba模型参数量大,资源受限环境下部署困难。
  • Method: 结合梯度感知的幅度剪枝、迭代剪枝计划和全局剪枝策略。
  • Result: 在多个基准测试中实现高效能,性能损失极小。
  • Conclusion: 该框架揭示了Mamba模型的冗余性,提升了其在资源受限环境中的适用性。

[83] GradMix: Gradient-based Selective Mixup for Robust Data Augmentation in Class-Incremental Learning

Minsu Kim,Seong-Hyeon Hwang,Steven Euijong Whang

Main category: cs.LG

TL;DR: 论文提出GradMix,一种针对类增量学习中灾难性遗忘问题的数据增强方法,通过梯度选择性混合样本,优于现有基线。

  • Motivation: 持续学习中,新知识获取与旧知识保持的平衡是一大挑战,现有方法如经验回放虽有效,但随机混合样本可能损害旧知识。
  • Method: 提出GradMix方法,基于梯度选择性混合样本,仅混合有益类对,避免有害类对。
  • Result: 实验表明,GradMix在多个真实数据集上优于基线方法,显著减少遗忘。
  • Conclusion: GradMix通过选择性混合样本,有效缓解灾难性遗忘,提升模型性能。

cs.AI

[84] Arrow-Guided VLM: Enhancing Flowchart Understanding via Arrow Direction Encoding

Takamitsu Omasa,Ryo Koshihara,Masumi Morishige

Main category: cs.AI

TL;DR: 提出了一种七阶段流程,通过箭头感知检测、OCR提取文本和结构化提示,显著提升VLM对流程图的解读准确率。

  • Motivation: 当前视觉语言模型(VLM)常误解流程图的箭头和拓扑结构,影响其解读效果。
  • Method: 采用七阶段流程,分为箭头感知检测、OCR提取节点文本和结构化提示构建三部分。
  • Result: 在90个问题的基准测试中,准确率从80%提升至89%,尤其是下一步查询准确率达100%。
  • Conclusion: 方法有效提升了VLM对流程图的理解,但依赖检测器和OCR精度,未来将扩展评估集和测试BPMN/UML。

[85] Decoding Neighborhood Environments with Large Language Models

Andrew Cart,Shaohu Zhang,Melanie Escue,Xugui Zhou,Haitao Zhao,Prashanth BusiReddyGari,Beiyu Lin,Shuang Li

Main category: cs.AI

TL;DR: 研究探讨了利用大型语言模型(LLMs)如ChatGPT和Gemini自动分析邻里环境的可行性,结合YOLOv11模型和多数投票策略,实现了高精度检测。

  • Motivation: 传统方法(如实地调查和GIS)资源密集且难以规模化,而机器学习的数据标注和模型可访问性限制了自动化分析的潜力。
  • Method: 训练YOLOv11模型检测六种环境指标,评估四种LLMs的可行性和鲁棒性,采用多数投票策略提升准确性。
  • Result: YOLOv11模型平均准确率达99.13%,LLMs结合多数投票策略准确率超过88%。
  • Conclusion: LLMs无需训练即可作为解码邻里环境的有效工具,展示了其在规模化分析中的潜力。

[86] Visually Guided Decoding: Gradient-Free Hard Prompt Inversion with Language Models

Donghoon Kim,Minji Bae,Kyuhong Shim,Byonghyo Shim

Main category: cs.AI

TL;DR: 本文提出了一种名为VGD的无梯度方法,利用LLMs和CLIP指导生成连贯且语义对齐的提示,解决了现有提示反转技术的不足。

  • Motivation: 现有提示反转技术(如软提示和硬提示)在生成连贯且可解释的提示方面效果不佳,影响了文本到图像模型的交互体验。
  • Method: VGD结合LLMs的文本生成能力和CLIP评分,生成语义对齐且可读性强的提示,无需额外训练。
  • Result: 实验表明,VGD在生成可理解和上下文相关的提示方面优于现有技术。
  • Conclusion: VGD通过提升提示的连贯性和语义对齐,改善了与文本到图像模型的交互体验。

cs.AR

[87] SpNeRF: Memory Efficient Sparse Volumetric Neural Rendering Accelerator for Edge Devices

Yipu Zhang,Jiawei Liang,Jian Peng,Jiang Xu,Wei Zhang

Main category: cs.AR

TL;DR: SpNeRF提出了一种软硬件协同设计的稀疏体素神经渲染方法,显著减少内存占用并提升实时性能。

  • Motivation: 神经渲染在AR/VR中应用广泛,但传统方法因体素网格数据量大且访问模式不规则,难以在边缘设备上实时处理。
  • Method: 通过预处理(哈希映射)和在线解码(位图掩码)减少内存占用,并设计专用硬件架构优化性能。
  • Result: 实验显示SpNeRF内存占用平均减少21.07倍,性能提升显著,能效比最高提升625.6倍。
  • Conclusion: SpNeRF有效解决了神经渲染在边缘设备上的内存和性能瓶颈,为实时应用提供了可行方案。

cs.CE

[88] Improving Unsupervised Task-driven Models of Ventral Visual Stream via Relative Position Predictivity

Dazhong Rong,Hao Dong,Xing Gao,Jiyu Wei,Di Hong,Yaoyao Hao,Qinming He,Yueming Wang

Main category: cs.CE

TL;DR: 论文提出了一种新的无监督任务驱动方法,结合相对位置(RP)预测与对比学习,以更符合生物现实的方式建模腹侧视觉流(VVS),并验证了其对物体识别和RP预测能力的提升。

  • Motivation: 当前基于对比学习的无监督方法仅关注VVS的物体识别功能,忽略了其可能涉及的其他功能(如相对位置预测)。论文旨在扩展VVS的功能建模。
  • Method: 提出了一种结合RP预测与对比学习的新方法,通过理论分析指出对比学习可能无法实现RP预测能力,并实验验证了新方法的有效性。
  • Result: 实验表明,新方法显著提升了物体识别的下游性能,同时增强了RP预测能力,且RP预测能力普遍提高了模型与大脑的相似性。
  • Conclusion: 研究从计算角度为VVS参与位置感知(尤其是RP预测)提供了有力证据,扩展了对VVS功能的理解。

cs.GR

[89] Monocular Online Reconstruction with Enhanced Detail Preservation

Songyin Wu,Zhaoyang Lv,Yufeng Zhu,Duncan Frost,Zhengqin Li,Ling-Qi Yan,Carl Ren,Richard Newcombe,Zhao Dong

Main category: cs.GR

TL;DR: 提出了一种基于3D高斯的在线密集映射框架,用于从单目图像流中重建逼真细节。

  • Motivation: 解决单目在线重建中的两个关键挑战:无需深度图的高斯分布以及局部和全局一致性的保持。
  • Method: 引入分层高斯管理模块和全局一致性优化模块,并提出多级占用哈希体素(MOHV)结构。
  • Result: 在仅RGB甚至RGB-D方法中,实现了更高的重建质量和计算效率。
  • Conclusion: 框架具有通用性和可扩展性,可无缝集成多种跟踪系统。

[90] ACT-R: Adaptive Camera Trajectories for 3D Reconstruction from Single Image

Yizhi Wang,Mingrui Zhao,Ali Mahdavi-Amiri,Hao Zhang

Main category: cs.GR

TL;DR: 提出自适应视角规划方法,通过动态相机轨迹提升多视角合成的遮挡揭示和3D一致性。

  • Motivation: 解决单视角3D重建中遮挡问题和3D一致性问题,通过动态视角序列优化重建效果。
  • Method: 计算自适应相机轨迹(ACT),生成最优视角序列,结合视频扩散模型和多视角3D重建模型。
  • Result: 在GSO数据集上显著提升3D重建效果,定量和定性均优于现有方法。
  • Conclusion: 自适应视角规划有效提升多视角合成的遮挡揭示和3D一致性,无需运行时训练,高效且效果显著。

[91] M3G: Multi-Granular Gesture Generator for Audio-Driven Full-Body Human Motion Synthesis

Zhizhuo Yin,Yuk Hang Tsui,Pan Hui

Main category: cs.GR

TL;DR: 提出了一种名为M3G的新框架,用于从音频生成全身手势,解决了现有方法因固定粒度无法建模不同手势模式的问题。

  • Motivation: 现有系统因固定粒度的手势标记无法捕捉不同手势模式的动态变化,限制了虚拟角色手势生成的表达性。
  • Method: 提出多粒度VQ-VAE(MGVQ-VAE)标记运动模式,并结合多粒度标记预测器从音频中提取信息并预测运动标记。
  • Result: 实验表明M3G在生成自然且富有表现力的全身手势方面优于现有方法。
  • Conclusion: M3G通过多粒度建模显著提升了音频驱动手势生成的质量。

[92] Claycode: Stylable and Deformable 2D Scannable Codes

Marco Maida,Alberto Crescini,Marco Perronet,Elena Camuffo

Main category: cs.GR

TL;DR: Claycode是一种新型的2D可扫描码,支持高度样式化和变形,基于树结构编码,优于传统二维码。

  • Motivation: 传统二维码(如QR码)在样式化和变形方面受限,Claycode旨在解决这一问题。
  • Method: 通过树结构编码信息,将比特映射到拓扑树中,并以颜色区域嵌套形式绘制在目标多边形内。解码时实时从摄像头流中提取。
  • Result: Claycode在高度变形情况下仍能保持功能,表现优于传统二维码。
  • Conclusion: Claycode为2D可扫描码提供了更高的样式化和变形容忍度。

[93] CAD-Coder:Text-Guided CAD Files Code Generation

Changqi He,Shuhan Zhang,Liguo Zhang,Jiajun Miao

Main category: cs.GR

TL;DR: CAD-Coder是一个将自然语言指令转换为CAD脚本代码的框架,生成可编辑的CAD文件,解决了现有生成方法缺乏交互性和几何注释的问题。

  • Motivation: 传统CAD依赖专家手工绘制或修改现有库文件,无法快速个性化。生成式AI虽提供了便利,但现有方法生成的输出缺乏交互编辑性和几何注释,限制了实际应用。
  • Method: 提出CAD-Coder框架,将自然语言指令转换为可执行的CAD脚本代码,生成可编辑的CAD文件(.Dxf)。构建了包含29,130个Dxf文件及其对应脚本代码的数据集。
  • Result: 在多种2D/3D CAD生成任务中,CAD-Coder表现出优于现有方法的交互能力,并能生成带有几何注释的可编辑草图。
  • Conclusion: CAD-Coder为交互式生成CAD提供了有效解决方案,填补了现有生成方法在编辑性和注释功能上的不足。

cs.IR

[94] OMGM: Orchestrate Multiple Granularities and Modalities for Efficient Multimodal Retrieval

Wei Yang,Jingjing Fu,Rui Wang,Jinyu Wang,Lei Song,Jiang Bian

Main category: cs.IR

TL;DR: 提出了一种多模态RAG系统,通过粗到细的多步检索协调多粒度和多模态,提升KB-VQA任务的效果。

  • Motivation: 现有方法未充分利用查询与知识库中多模态和多粒度之间的潜在交互,导致检索效果受限。
  • Method: 采用粗到细的多步检索策略,包括初始粗粒度对齐、多模态融合重排序和文本重排序,以优化检索和生成。
  • Result: 在InfoSeek和Encyclopedic-VQA基准测试中,检索性能达到SOTA,回答结果具有高度竞争力。
  • Conclusion: 该方法显著提升了KB-VQA系统的性能,证明了多模态和多粒度协调的有效性。

cs.CL

[95] Judging the Judges: Can Large Vision-Language Models Fairly Evaluate Chart Comprehension and Reasoning?

Md Tahmid Rahman Laskar,Mohammed Saidul Islam,Ridwan Mahbub,Ahmed Masry,Mizanur Rahman,Amran Bhuiyan,Mir Tafseer Nayeem,Shafiq Joty,Enamul Hoque,Jimmy Huang

Main category: cs.CL

TL;DR: 论文提出了一种评估开源大型视觉语言模型(LVLMs)作为图表理解任务自动评估工具的方法,发现部分模型性能接近GPT-4,但存在偏见问题。

  • Motivation: 现有LVLMs评估成本高且耗时,限制了实际应用,因此需要探索低成本的开源模型作为替代评估工具。
  • Method: 设计了成对和点对评估任务,覆盖事实准确性、信息量和相关性等标准,并分析模型在格式、位置一致性、长度偏见和指令遵循方面的表现。
  • Result: 实验显示部分开源LVLMs评估性能接近GPT-4(约80%一致),但其他模型表现较差(低于10%一致),且存在位置偏好和长度偏见。
  • Conclusion: 开源LVLMs可作为图表任务的低成本自动评估工具,但需解决偏见问题。

[96] Aya Vision: Advancing the Frontier of Multilingual Multimodality

Saurabh Dash,Yiyang Nan,John Dang,Arash Ahmadian,Shivalika Singh,Madeline Smith,Bharat Venkitesh,Vlad Shmyhlo,Viraat Aryabumi,Walter Beller-Morales,Jeremy Pekmez,Jason Ozuzu,Pierre Richemond,Acyr Locatelli,Nick Frosst,Phil Blunsom,Aidan Gomez,Ivan Zhang,Marzieh Fadaee,Manoj Govindassamy,Sudip Roy,Matthias Gallé,Beyza Ermis,Ahmet Üstün,Sara Hooker

Main category: cs.CL

TL;DR: 论文提出了一种解决多语言多模态模型构建挑战的新方法,包括数据合成和模型合并技术,显著提升了性能。

  • Motivation: 构建多语言多模态模型面临对齐视觉与语言、高质量数据稀缺及文本能力退化等挑战,尤其在多语言环境下问题更突出。
  • Method: 开发了合成注释框架以生成高质量多语言多模态数据,并提出跨模态模型合并技术以减少灾难性遗忘。
  • Result: Aya-Vision-8B和Aya-Vision-32B在性能上超越了许多更大的模型,如Qwen-2.5-VL-7B和LLaMA-3.2-90B-Vision。
  • Conclusion: 该研究推动了多语言多模态领域的发展,并提供了高效计算与高性能兼顾的技术方案。

cond-mat.mtrl-sci

[97] Image-Guided Microstructure Optimization using Diffusion Models: Validated with Li-Mn-rich Cathode Precursors

Geunho Choi,Changhwan Lee,Jieun Kim,Insoo Ye,Keeyoung Jung,Inchul Park

Main category: cond-mat.mtrl-sci

TL;DR: 论文提出了一种基于AI的图像驱动框架,用于锂离子电池正极前驱体合成的预测设计与优化,结合了扩散图像生成、定量图像分析和粒子群优化算法。

  • Motivation: 微观结构对材料性能至关重要,但由于难以量化、预测和优化,很少被作为设计变量。本文旨在解决这一问题。
  • Method: 框架整合了扩散图像生成模型、定量图像分析流程和粒子群优化算法,通过SEM图像提取形态特征并预测合成条件。
  • Result: 平台能准确预测特定共沉淀条件下的SEM形态,并通过实验验证了预测与合成结构的高度一致性。
  • Conclusion: 该框架为数据驱动的材料设计提供了实用策略,支持正向预测和逆向设计,推动了自主微观结构工程的发展。

cs.RO

[98] UniSkill: Imitating Human Videos via Cross-Embodiment Skill Representations

Hanjung Kim,Jaehyun Kang,Hyolim Kang,Meedeum Cho,Seon Joo Kim,Youngwoon Lee

Main category: cs.RO

TL;DR: UniSkill框架通过无标签的大规模跨身体视频数据学习技能表示,实现从人类视频提示到机器人策略的有效迁移。

  • Motivation: 模仿是人类学习新任务的基本机制,但将其应用于机器人存在挑战,主要因人类与机器人在视觉和物理能力上的差异。
  • Method: 提出UniSkill框架,利用无标签的跨身体视频数据学习技能表示,无需对齐数据。
  • Result: 实验证明,UniSkill能在模拟和真实环境中成功指导机器人选择合适动作,即使面对未见过的视频提示。
  • Conclusion: UniSkill为跨身体技能迁移提供了一种有效方法,无需复杂的数据对齐。

上次更新于: