Skip to content
每日arXiv - 2025年5月12日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] Data extraction and processing methods to aid the study of driving behaviors at intersections in naturalistic driving

Shrinivas Pundlik,Seonggyu Choe,Patrick Baker,Chen-Yuan Lee,Naser Al-Madi,Alex R. Bowers,Gang Luo

Main category: cs.CV

TL;DR: 论文描述了从自然驾驶研究中提取和表征驾驶员在交叉路口头部扫描的自动化方法,结合多种数据处理技术,取得了高准确率的结果。

  • Motivation: 自然驾驶研究产生大量多样化数据,需要自动化处理以提取驾驶员行为特征,特别是交叉路口的头部扫描行为。
  • Method: 开发定制工具标记交叉路口,同步位置和视频数据,使用AI模型检测头部姿态,YOLO模型处理场景视频,结合规则算法推断交叉路口类型和动作。
  • Result: 处理190个交叉路口,自动化算法在检测标志和动作上分别达到100%和94%的准确率,时间和空间误差较小。
  • Conclusion: 自动化方法能高效准确地处理自然驾驶数据,为驾驶员行为研究提供可靠工具。

[2] From Events to Enhancement: A Survey on Event-Based Imaging Technologies

Yunfan Lu,Xiaogang Xu,Pengteng Li,Yusheng Wang,Yi Cui,Huizai Yao,Hui Xiong

Main category: cs.CV

TL;DR: 本文综述了事件相机在成像领域的最新进展与挑战,包括其物理模型、特性、图像/视频增强任务的应用,以及高级任务如光场估计和多视图生成,并探讨了未来的研究方向。

  • Motivation: 事件相机因其高动态范围和低延迟成为成像领域的颠覆性技术,但目前缺乏对其最新进展和挑战的全面研究,限制了其在通用成像应用中的潜力。
  • Method: 首先介绍事件传感器的物理模型和特性,随后分析图像/视频增强任务与事件的交互,并探讨高级任务如光场估计和多视图生成。
  • Result: 总结了事件相机在成像任务中的应用进展,并提出了新的挑战和开放性问题。
  • Conclusion: 事件相机在成像领域具有巨大潜力,但仍需进一步研究以解决现有挑战,推动其广泛应用。

[3] MDDFNet: Mamba-based Dynamic Dual Fusion Network for Traffic Sign Detection

TianYi Yu

Main category: cs.CV

TL;DR: 论文提出了一种名为MDDFNet的新型目标检测网络,用于解决小目标(如交通标志)检测中的特征单一性和多尺度问题。通过动态双融合模块和Mamba主干网络,MDDFNet在TT100K数据集上表现优于现有方法。

  • Motivation: 小目标检测(尤其是交通标志)在自动驾驶中至关重要,但现有方法存在特征单一性和多尺度处理不足的问题。
  • Method: 提出MDDFNet,结合动态双融合模块(增强特征多样性)和Mamba主干网络(自适应特征融合)。
  • Result: 在TT100K数据集上,MDDFNet优于其他先进检测器,同时保持实时处理能力。
  • Conclusion: MDDFNet有效解决了小交通标志检测的挑战,性能优越。

[4] DetoxAI: a Python Toolkit for Debiasing Deep Learning Models in Computer Vision

Ignacy Stępka,Lukasz Sztukiewicz,Michał Wiliński,Jerzy Stefanowski

Main category: cs.CV

TL;DR: DetoxAI是一个开源Python库,旨在通过后处理去偏技术提升深度学习视觉分类器的公平性。

  • Motivation: 现有公平性解决方案多针对表格数据,不适用于依赖深度学习的视觉分类任务,DetoxAI填补了这一空白。
  • Method: DetoxAI实现了先进的去偏算法、公平性指标和可视化工具,支持通过干预内部表征进行去偏。
  • Result: DetoxAI提供了基于归因的可视化工具和定量公平性指标,展示了偏见的缓解效果。
  • Conclusion: DetoxAI为工程师和研究人员提供了实用工具,显著提升了视觉分类任务的公平性。

[5] Learning 3D Persistent Embodied World Models

Siyuan Zhou,Yilun Du,Yuncong Yang,Lei Han,Peihao Chen,Dit-Yan Yeung,Chuang Gan

Main category: cs.CV

TL;DR: 提出了一种具有显式记忆的持久性世界模型,用于智能体在复杂环境中进行长期一致的模拟和规划。

  • Motivation: 现有视频模型缺乏对未观测场景的记忆,导致智能体在部分观测的复杂环境中无法进行长期一致的规划。
  • Method: 采用视频扩散模型预测未来RGB-D视频,并将其聚合为持久性3D环境地图,通过条件化视频模型实现世界模拟。
  • Result: 模型能够准确模拟已观测和未观测的世界部分,支持有效的规划和策略学习。
  • Conclusion: 提出的持久性世界模型显著提升了智能体在复杂环境中的长期规划能力。

[6] Preliminary Explorations with GPT-4o(mni) Native Image Generation

Pu Cao,Feng Zhou,Junyi Ji,Qingye Kong,Zhixiang Lv,Mingjian Zhang,Xuekun Zhao,Siqi Wu,Yinghui Lin,Qing Song,Lu Yang

Main category: cs.CV

TL;DR: GPT-4o展示了强大的多模态生成能力,但在空间推理、知识密集型任务和领域特定场景中仍有局限。

  • Motivation: 探索GPT-4o在多模态任务中的能力,评估其在图像生成和理解方面的表现。
  • Method: 构建任务分类和测试样本集,对GPT-4o在六类任务中进行定性测试。
  • Result: GPT-4o在通用合成任务中表现优异,但在空间推理、知识密集型任务和领域特定场景中存在不足。
  • Conclusion: GPT-4o在多模态生成方面有显著进步,但尚未达到专业或安全关键领域的可靠应用水平。

[7] Apply Hierarchical-Chain-of-Generation to Complex Attributes Text-to-3D Generation

Yiming Qin,Zhu Xu,Yang Liu

Main category: cs.CV

TL;DR: HCoG提出了一种自动化方法,通过分层生成链解决复杂属性3D对象生成问题。

  • Motivation: 现有文本到3D模型在复杂属性对象上表现不佳,主要因文本编码器对长描述理解有限,以及遮挡部分需明确生成顺序和解耦。
  • Method: 利用大语言模型分解长描述为对象部分块,按遮挡顺序从内到外生成,通过目标区域定位和3D高斯核优化精确绑定属性。
  • Result: 实验证明HCoG能生成结构连贯、属性准确的复杂3D对象。
  • Conclusion: HCoG通过分层生成链和优化技术,显著提升了复杂属性3D对象的生成质量。

[8] Occupancy World Model for Robots

Zhang Zhang,Qiang Zhang,Wei Cui,Shuai Shi,Yijie Guo,Gang Han,Wen Zhao,Jingkai Sun,Jiahang Cao,Jiaxu Wang,Hao Cheng,Xiaozhu Ju,Zhengping Che,Renjing Xu,Jian Tang

Main category: cs.CV

TL;DR: 提出了一种名为RoboOccWorld的新框架,用于预测室内3D占用场景的演化,结合了时空感受野和自回归变换器,并在实验中表现优于现有方法。

  • Motivation: 现有方法主要关注室外结构化道路场景,而忽略了室内机器人场景的3D占用场景演化预测。
  • Method: 提出了基于条件因果状态注意力(CCSA)和混合时空聚合(HSTA)的占用世界模型,结合多尺度时空窗口。
  • Result: 实验结果表明,RoboOccWorld在室内3D占用场景演化预测任务中优于现有方法。
  • Conclusion: RoboOccWorld为室内场景演化预测提供了有效框架,代码即将发布。

[9] Exploring Convolutional Neural Networks for Rice Grain Classification: An Explainable AI Approach

Muhammad Junaid Asif,Hamza Khan,Rabia Tehseen,Syed Tahir Hussain Rizvi,Mujtaba Asad,Shazia Saqib,Rana Fayyaz Ahmad

Main category: cs.CV

TL;DR: 提出了一种基于卷积神经网络(CNN)的自动框架,用于高效分类不同品种的稻米,并通过性能指标和可解释性技术验证了其有效性。

  • Motivation: 稻米是全球重要主食,其质量检查与分类传统上依赖人工,效率低且易出错,因此需要自动化解决方案。
  • Method: 采用卷积神经网络(CNN)对稻米进行分类,并通过准确率、召回率、精确率和F1分数等指标评估模型性能,同时结合LIME和SHAP技术解释模型决策。
  • Result: CNN模型在训练和验证中表现出色,准确率高,ROC曲线下面积完美,混淆矩阵显示误分类极少。
  • Conclusion: 该自动框架能高效区分不同稻米品种,结合可解释性技术增强了模型透明度,为稻米质量检查提供了可靠解决方案。

[10] Web2Grasp: Learning Functional Grasps from Web Images of Hand-Object Interactions

Hongyi Chen,Yunchao Yao,Yufei Ye,Zhixuan Xu,Homanga Bharadhwaj,Jiashun Wang,Shubham Tulsiani,Zackory Erickson,Jeffrey Ichnowski

Main category: cs.CV

TL;DR: 该论文提出了一种从网络图像中提取人类抓取信息的方法,用于训练功能性抓取模型,避免了昂贵的机器人演示需求。通过重建3D手-物体交互网格并利用模拟器扩展数据集,模型在仿真和真实机器人上均表现出色。

  • Motivation: 功能性抓取对机器人多指手的操作至关重要,但现有方法多依赖强力抓取或昂贵的演示数据。本文旨在利用网络图像中的自然抓取信息,降低数据获取成本。
  • Method: 从RGB图像重建3D手-物体交互网格,将人手动作迁移到机器人手上,并与精确3D物体模型对齐。利用模拟器生成更多抓取数据,扩展训练集。
  • Result: 模型在仿真中达到75.8%的成功率(已知物体)和61.8%(所有物体),模拟器增强后提升至83.4%。真实机器人测试成功率为85%。
  • Conclusion: 网络图像可作为低成本的功能性抓取数据源,结合模拟器扩展数据,显著提升模型性能。

[11] Real-Time Privacy Preservation for Robot Visual Perception

Minkyu Choi,Yunhao Yang,Neel P. Bhatt,Kushagra Gupta,Sahil Shah,Aditya Rai,David Fridovich-Keil,Ufuk Topcu,Sandeep P. Chinchali

Main category: cs.CV

TL;DR: PCVS是一种实时视频流隐私保护方法,通过逻辑规范和对象模糊化确保敏感对象完全隐藏,并利用保形预测提供理论保证。

  • Motivation: 现有隐私保护方法无法完全隐藏敏感对象且不适用于实时视频流,PCVS旨在解决这一问题。
  • Method: PCVS结合逻辑规范、对象检测模型和模糊化技术,实时处理视频帧,并通过保形预测提供理论保证。
  • Result: PCVS在多个数据集上实现超过95%的规范满足率,显著优于其他方法,且实际部署中机器人运行正常。
  • Conclusion: PCVS为实时视频流隐私保护提供了高效且理论可靠的方法,适用于机器人等实时应用场景。

[12] GaMNet: A Hybrid Network with Gabor Fusion and NMamba for Efficient 3D Glioma Segmentation

Chengwei Ye,Huanzhen Zhang,Yufei Lin,Kangsheng Wang,Linuo Xu,Shuyan Liu

Main category: cs.CV

TL;DR: GaMNet结合NMamba模块和多尺度CNN,用于高效脑胶质瘤分割,提升准确性和实时性。

  • Motivation: 现有CNN和Transformer模型在脑胶质瘤分割中缺乏全局上下文建模或计算量大,难以在移动医疗设备上实时应用。
  • Method: 提出GaMNet,集成NMamba模块进行全局建模,多尺度CNN提取局部特征,并使用Gabor滤波器提升可解释性。
  • Result: 实验表明GaMNet在减少参数和计算时间的同时,分割准确性优于现有方法,显著降低假阳性和假阴性。
  • Conclusion: GaMNet为脑胶质瘤分割提供了一种高效、可靠的解决方案,适合临床诊断应用。

[13] X-Transfer Attacks: Towards Super Transferable Adversarial Attacks on CLIP

Hanxun Huang,Sarah Erfani,Yige Li,Xingjun Ma,James Bailey

Main category: cs.CV

TL;DR: X-Transfer是一种新型攻击方法,揭示了CLIP模型的通用对抗漏洞,通过动态选择代理模型实现高效攻击。

  • Motivation: CLIP模型在多任务和领域中的广泛应用使其对抗扰动的脆弱性成为关键问题。
  • Method: X-Transfer利用代理缩放策略生成通用对抗扰动(UAP),动态选择少量合适的代理模型。
  • Result: X-Transfer显著优于现有UAP方法,实现了跨数据、跨领域、跨模型和跨任务的对抗迁移性。
  • Conclusion: X-Transfer为CLIP模型的对抗迁移性设定了新基准,代码已开源。

[14] OXSeg: Multidimensional attention UNet-based lip segmentation using semi-supervised lip contours

Hanie Moghaddasi,Christina Chambers,Sarah N. Mattson,Jeffrey R. Wozniak,Claire D. Coles,Raja Mukherjee,Michael Suttie

Main category: cs.CV

TL;DR: 提出了一种结合注意力UNet和多维输入的唇部分割方法,显著提高了分割精度,并在胎儿酒精综合征(FAS)诊断中表现出色。

  • Motivation: 唇部分割在多个领域至关重要,但现有方法受限于训练数据、图像质量和光照条件,导致边界检测不准确。
  • Method: 使用局部二值模式提取面部图像的微模式,构建多维输入;通过顺序注意力UNet重建唇部轮廓;引入基于解剖标志的掩模生成方法提升分割精度。
  • Result: 上唇分割的平均Dice分数为84.75%,像素精度为99.77%;在FAS识别中,GAN分类器准确率达98.55%。
  • Conclusion: 该方法显著提升了唇部分割精度,尤其在丘比特弓区域,并为FAS的唇部特征研究提供了新思路。

[15] Benchmarking Vision, Language, & Action Models in Procedurally Generated, Open Ended Action Environments

Pranav Guruprasad,Yangyue Wang,Sudipta Chowdhury,Harshvardhan Sikka

Main category: cs.CV

TL;DR: MultiNet v0.2是一个用于评估视觉-语言-动作(VLA)模型在零样本泛化能力上的基准测试,揭示了当前模型在分布外(OOD)任务中的局限性。

  • Motivation: 现有VLA模型在零样本泛化能力上的系统性评估不足,尤其是在OOD环境中的表现。
  • Method: 引入MultiNet v0.2基准,评估了包括GPT-4o、GPT-4.1、OpenVLA等在内的多种VLA和VLM模型在Procgen任务上的表现。
  • Result: 发现所有模型在OOD任务中表现有限,VLA模型因架构设计更优而表现更好,VLM模型在适当约束下有明显改进。
  • Conclusion: 模型性能受动作表示和任务复杂度影响,提示工程对VLM模型至关重要。

[16] Prompt to Polyp: Clinically-Aware Medical Image Synthesis with Diffusion Models

Mikhail Chaichuk,Sushant Gautam,Steven Hicks,Elena Tutubalina

Main category: cs.CV

TL;DR: 论文研究了医疗领域文本到图像合成的两种方法:微调大型预训练模型与训练小型领域特定模型,并提出了一种优化架构MSDM。

  • Motivation: 解决医疗AI中的数据稀缺问题,同时保护患者隐私。
  • Method: 比较两种方法:微调大型预训练模型(FLUX, Kandinsky)和训练小型领域特定模型(MSDM)。MSDM整合了临床文本编码器、变分自编码器和交叉注意力机制。
  • Result: 大型模型生成图像保真度更高,但MSDM在计算成本更低的情况下质量相当。
  • Conclusion: MSDM在医疗领域文本到图像合成中具有高效性和实用性。

[17] Steepest Descent Density Control for Compact 3D Gaussian Splatting

Peihao Wang,Yuehao Wang,Dilin Wang,Sreyas Mohan,Zhiwen Fan,Lemeng Wu,Ruisi Cai,Yu-Ying Yeh,Zhangyang Wang,Qiang Liu,Rakesh Ranjan

Main category: cs.CV

TL;DR: 3D高斯泼溅(3DGS)是一种高效实时新视角合成技术,但点云冗余问题导致内存和性能问题。本文提出SteepGS框架,通过理论分析和优化方法减少50%高斯点,提升效率。

  • Motivation: 3DGS在实时高分辨率新视角合成中表现优异,但点云冗余导致内存和性能问题,限制了其在资源受限设备上的应用。
  • Method: 提出理论框架分析密度控制,确定高斯分裂的必要条件、最小后代数量、参数更新方向及透明度归一化方法,并引入SteepGS策略。
  • Result: SteepGS减少50%高斯点,保持渲染质量,显著提升效率和可扩展性。
  • Conclusion: SteepGS通过理论优化解决了3DGS的点云冗余问题,为资源受限设备提供了高效解决方案。

[18] ReactDance: Progressive-Granular Representation for Long-Term Coherent Reactive Dance Generation

Jingzhong Lin,Yuanyuan Qi,Xinru Li,Wenxuan Huang,Xiangfeng Xu,Bangyan Li,Xuejiao Wang,Gaoqi He

Main category: cs.CV

TL;DR: ReactDance是一个基于扩散模型的新框架,用于高保真的反应性舞蹈生成,解决了现有方法在全局约束和优化中忽视局部信息的问题。

  • Motivation: 现有方法在反应性舞蹈生成中过于强调全局约束,忽略了局部信息(如细粒度空间交互和局部时间上下文),导致交互保真度、同步性和时间一致性不足。
  • Method: 提出了两种创新:1) GRFSQ(多尺度解耦运动表示),捕捉从粗粒度身体节奏到细粒度关节动态的交互语义;2) BLC(采样策略),通过局部块因果掩码和周期性位置编码消除长序列生成中的误差累积。
  • Result: 在标准基准测试中,ReactDance超越了现有方法,实现了最先进的性能。
  • Conclusion: ReactDance通过多尺度解耦表示和局部上下文采样策略,显著提升了反应性舞蹈生成的质量和可控性。

[19] QuickSplat: Fast 3D Surface Reconstruction via Learned Gaussian Initialization

Yueh-Cheng Liu,Lukas Höllein,Matthias Nießner,Angela Dai

Main category: cs.CV

TL;DR: QuickSplat利用数据驱动先验生成2D高斯泼溅优化的密集初始化,加速大规模室内场景重建,提升几何精度。

  • Motivation: 现有基于体积渲染的方法优化速度慢,难以处理低纹理区域,需要改进。
  • Method: 学习数据驱动先验生成密集初始化,联合估计场景参数更新,提出基于渲染梯度的密度网络。
  • Result: 实验显示,运行速度提升8倍,深度误差降低48%。
  • Conclusion: QuickSplat通过数据驱动优化显著提升了重建效率和精度。

[20] Enhancing Satellite Object Localization with Dilated Convolutions and Attention-aided Spatial Pooling

Seraj Al Mahmud Mostafa,Chenxi Wang,Jia Yue,Yuta Hozumi,Jianwu Wang

Main category: cs.CV

TL;DR: 论文提出了一种改进的YOLOv5模型YOLO-DCAP,用于解决卫星图像中物体定位的挑战,包括多尺度特征捕获和全局空间注意力机制,实验显示其性能显著优于基准模型和现有方法。

  • Motivation: 卫星图像中物体定位面临高变异性、低分辨率和噪声干扰等挑战,尤其是重力波、中气层波和海洋涡旋等复杂场景。
  • Method: YOLO-DCAP引入多尺度扩张残差卷积块(MDRC)和注意力辅助空间池化模块(AaSP),以捕获多尺度特征并聚焦全局相关区域。
  • Result: 实验表明,YOLO-DCAP在mAP50和IoU上分别比基准模型平均提升20.95%和32.23%,比现有方法提升7.35%和9.84%。
  • Conclusion: YOLO-DCAP在多个卫星数据集上表现稳健且通用,代码已开源。

[21] A Preliminary Study for GPT-4o on Image Restoration

Hao Yang,Yan Yang,Ruikun Zhang,Liyuan Pan

Main category: cs.CV

TL;DR: GPT-4o在图像生成中表现优异,但在图像修复任务中存在像素级结构保真度问题。研究发现其输出可作为视觉先验,显著提升现有去雾网络的性能。

  • Motivation: 探讨GPT-4o在图像修复领域的潜力,并评估其表现。
  • Method: 系统评估GPT-4o在多种修复任务中的表现,以去雾、去雨和低光增强为例。
  • Result: GPT-4o输出视觉效果好,但结构保真度不足;可作为视觉先验提升现有网络性能。
  • Conclusion: GPT-4o为图像修复提供了新思路,未来有望加速图像生成领域的创新。

[22] Looking Beyond Language Priors: Enhancing Visual Comprehension and Attention in Multimodal Models

Aarti Ghatkesar,Uddeshya Upadhyay,Ganesh Venkatesh

Main category: cs.CV

TL;DR: 论文提出了一种方法,通过增强视觉理解能力来改善多模态大语言模型(MLLMs)中视觉与语言的深度对齐问题。

  • Motivation: 当前MLLMs未能充分利用视觉输入,过于依赖语言先验,导致视觉与语言对齐不足。
  • Method: 通过分析模型内部对图像区域的视觉理解,并引入技术增强这种能力,同时确保视觉信息指导语言生成。
  • Result: 模型在视觉依赖的标记预测能力上表现优异,并在视觉挑战任务中提升了10个百分点。
  • Conclusion: 该方法显著提升了MLLMs的多模态理解能力,实现了视觉与语言的深度对齐。

[23] VR-RAG: Open-vocabulary Species Recognition with RAG-Assisted Large Multi-Modal Models

Faizan Farooq Khan,Jun Chen,Youssef Mohamed,Chun-Mei Feng,Mohamed Elhoseiny

Main category: cs.CV

TL;DR: 论文提出了一种名为VR-RAG的新框架,用于解决开放词汇鸟类物种识别问题,通过结合视觉相似性和文本知识提升性能。

  • Motivation: 开放词汇识别在计算机视觉中具有挑战性,尤其是在自然界中,新物种不断出现。传统方法在开放词汇设定下性能大幅下降。
  • Method: 提出VR-RAG框架,结合视觉相似性重排序多模态视觉语言编码器检索的候选结果,并利用GPT-4o从维基百科提取文本知识。
  • Result: 在五个分类基准测试中,VR-RAG将最先进模型QWEN2.5-VL的平均性能提升了15.4%,优于传统方法。
  • Conclusion: VR-RAG通过结合百科全书知识和视觉识别,推动了开放词汇识别的发展,为生物多样性监测提供了灵活、可扩展的解决方案。

[24] Semantic Style Transfer for Enhancing Animal Facial Landmark Detection

Anadil Hussein,Anna Zamansky,George Martvel

Main category: cs.CV

TL;DR: 该研究探讨了神经风格迁移(NST)在提升动物面部关键点检测器训练中的应用,通过改进风格迁移方法和数据增强策略,显著提升了模型性能。

  • Motivation: 研究旨在利用NST技术增强动物面部关键点检测器的训练效果,特别是在数据增强和域适应方面的潜力。
  • Method: 采用监督风格迁移(SST)方法,选择风格源时基于关键点准确性,并在猫面部关键点检测数据集CatFLW上进行实验。
  • Result: 实验表明,风格迁移提升了生成图像的结构一致性,SST保留了98%的基线准确性,数据增强进一步提高了模型鲁棒性。
  • Conclusion: 语义风格迁移是一种有效的数据增强策略,可推广至其他物种和关键点检测模型。

[25] The Moon's Many Faces: A Single Unified Transformer for Multimodal Lunar Reconstruction

Tom Sander,Moritz Tenthoff,Kay Wohlfarth,Christian Wöhler

Main category: cs.CV

TL;DR: 本文提出了一种基于多模态学习的统一Transformer架构,用于从灰度图像中预测DEM和反照率图,解决了行星表面3D重建和光度参数分离问题。

  • Motivation: 多模态学习在行星科学中应用较少,本文旨在通过多模态学习解决反射率参数估计和基于图像的3D重建问题。
  • Method: 提出了一种统一的Transformer架构,支持多种输入模态(如灰度图像、DEM、表面法线和反照率图)之间的灵活转换。
  • Result: 模型能够学习四种模态之间的物理合理关系,并成功预测DEM和反照率图。
  • Conclusion: 该基础模型为未来扩展更多输入模态(如光度归一化和共配准)提供了可能。

[26] Lost in OCR Translation? Vision-Based Approaches to Robust Document Retrieval

Alexander Most,Joseph Winjum,Ayan Biswas,Shawn Jones,Nishath Rajiv Ranasinghe,Dan O'Malley,Manish Bhattarai

Main category: cs.CV

TL;DR: 比较视觉基础的RAG(ColPali)与传统OCR基础的RAG(Llama 3.2和Nougat OCR)在不同文档质量下的表现,发现视觉RAG在特定文档上表现好,而OCR RAG泛化能力更强。

  • Motivation: 传统OCR在复杂文档中可能引入错误,视觉语言方法(如ColPali)直接嵌入文档图像,避免OCR问题。
  • Method: 系统比较视觉RAG与OCR RAG的性能,引入语义答案评估基准。
  • Result: 视觉RAG在特定文档上表现好,OCR RAG泛化能力更强;计算效率与语义准确性需权衡。
  • Conclusion: 为RAG实践者提供选择OCR或视觉基础系统的实用建议。

[27] TeGA: Texture Space Gaussian Avatars for High-Resolution Dynamic Head Modeling

Gengyan Li,Paulo Gotardo,Timo Bolkart,Stephan Garbin,Kripasindhu Sarkar,Abhimitra Meka,Alexandros Lattas,Thabo Beeler

Main category: cs.CV

TL;DR: 提出了一种基于3D高斯溅射的高细节3D头部头像模型,通过改进变形场和拟合方法,显著提升了动画保真度和渲染质量。

  • Motivation: 现有动画模型因运动估计不准确和内存限制导致细节丢失,无法满足高保真需求。
  • Method: 结合3D可变形模型和UVD切线空间中的高斯溅射,引入新型UVD变形场以捕捉局部运动。
  • Result: 模型在4K分辨率下渲染质量显著提升,细节保留更优。
  • Conclusion: 新方法有效解决了动画模型细节丢失问题,为高保真头像应用提供了可行方案。

[28] InstanceGen: Image Generation with Instance-level Instructions

Etai Sella,Yanir Kleiman,Hadar Averbuch-Elor

Main category: cs.CV

TL;DR: 论文提出了一种结合图像生成模型和LLM的方法,以解决复杂提示下语义捕捉不足的问题。

  • Motivation: 预训练的文本到图像模型在捕捉复杂提示(包含多个对象和实例级属性)的语义时表现不佳,因此需要引入额外的结构约束。
  • Method: 利用图像生成模型提供的细粒度结构初始化,结合LLM的实例级指令,生成符合文本提示的图像。
  • Result: 生成的图像能够准确反映文本提示中的对象数量、实例级属性和空间关系。
  • Conclusion: 该方法通过结合图像和文本的结构化指导,显著提升了复杂提示下的图像生成质量。

[29] Fine-Tuning Video-Text Contrastive Model for Primate Behavior Retrieval from Unlabeled Raw Videos

Giulio Cesare Mastrocinque Santo,Patrícia Izar,Irene Delval,Victor de Napole Gregolin,Nina S. T. Hirata

Main category: cs.CV

TL;DR: 通过微调预训练的视频-文本基础模型,针对卷尾猴的自然行为视频,提出了一种基于未标记视频和弱音频描述的两阶段方法,显著提升了检索性能。

  • Motivation: 研究野生非人灵长类动物行为时,视频是重要数据源,但缺乏标记数据且内容噪声大,需要高效检索有用片段。
  • Method: 提出两阶段方法:1) 代理数据处理管道从原始视频中提取干净的视频-文本对;2) 使用LoRA微调预训练的X-CLIP模型。
  • Result: 在领域数据上,16帧模型Hits@5提升167%,8帧模型提升114%;NDCG@K结果显示模型能有效排序行为。
  • Conclusion: 该方法显著提升了视频检索性能,适用于噪声大的未标记数据,代码将公开。

[30] HyperspectralMAE: The Hyperspectral Imagery Classification Model using Fourier-Encoded Dual-Branch Masked Autoencoder

Wooyoung Jeong,Hyun Jae Park,Seonghun Jeong,Jong Wook Jang,Tae Hoon Lim,Dae Seoung Kim

Main category: cs.CV

TL;DR: 提出了一种基于Transformer的双掩码预训练模型HyperspectralMAE,用于高光谱数据的表示学习,通过空间和光谱维度的双重掩码策略提升模型性能。

  • Motivation: 高光谱数据的高维特性带来了独特的挑战,需要一种能够同时处理空间和光谱信息的强大表示学习方法。
  • Method: 采用双掩码策略(50%空间块和50%光谱带掩码),结合谐波傅里叶位置嵌入和MSE+SAM重建目标,预训练大模型。
  • Result: 在Indian Pines基准测试中达到最先进的迁移学习准确率,验证了双掩码预训练的有效性。
  • Conclusion: 双掩码和波长感知嵌入显著提升了高光谱图像的重建和下游任务性能。

[31] DiGIT: Multi-Dilated Gated Encoder and Central-Adjacent Region Integrated Decoder for Temporal Action Detection Transformer

Ho-Joong Kim,Yearang Lee,Jung-Ho Hong,Seong-Whan Lee

Main category: cs.CV

TL;DR: 论文提出了一种名为DiGIT的时序动作检测方法,通过多扩张门控编码器和中心-邻域集成解码器解决了现有查询式检测器的冗余和上下文不足问题。

  • Motivation: 现有基于查询的时序动作检测器直接沿用目标检测架构,导致多尺度特征冗余和时序上下文捕捉能力不足。
  • Method: 提出多扩张门控编码器和中心-邻域集成解码器,前者减少冗余信息,后者通过更全面的采样策略捕捉关键信息。
  • Result: DiGIT在THUMOS14、ActivityNet v1.3和HACS-Segment上实现了最先进的性能。
  • Conclusion: DiGIT有效解决了时序动作检测中的冗余和上下文问题,性能优越。

[32] Semantic-Space-Intervened Diffusive Alignment for Visual Classification

Zixuan Li,Lei Meng,Guoqing Chao,Wei Wu,Xiaoshuo Yan,Yimeng Yang,Zhuang Qi,Xiangxu Meng

Main category: cs.CV

TL;DR: 本文提出了一种名为SeDA的新方法,通过语义空间干预的扩散对齐技术,逐步实现视觉与文本模态的对齐,提升了分类性能。

  • Motivation: 现有方法在视觉特征到文本特征的一步映射中存在困难,主要由于两种模态在样本分布和特征值范围上的差异。
  • Method: SeDA采用双阶段扩散框架,首先通过扩散控制语义学习器建模视觉特征的语义空间,然后通过扩散控制语义翻译器学习文本特征的分布,并结合逐步特征交互网络。
  • Result: 实验表明,SeDA在多场景中实现了更强的跨模态特征对齐,性能优于现有方法。
  • Conclusion: SeDA通过渐进式对齐和语义空间干预,有效解决了跨模态对齐问题,提升了分类效果。

[33] You Are Your Best Teacher: Semi-Supervised Surgical Point Tracking with Cycle-Consistent Self-Distillation

Valay Bundele,Mehran Hosseinzadeh,Hendrik Lensch

Main category: cs.CV

TL;DR: SurgTracker是一种半监督框架,通过自蒸馏方法将合成训练的点追踪器适应于手术视频,解决了领域偏移和标注数据不足的问题。

  • Motivation: 合成数据集在点追踪中取得了进展,但在实际手术视频中部署时,由于复杂的组织变形、遮挡和光照变化,领域偏移和标注数据不足成为挑战。
  • Method: SurgTracker采用自蒸馏方法,通过固定教师模型在线生成伪标签,并利用循环一致性约束过滤不一致的轨迹,确保几何一致性。
  • Result: 在STIR基准测试中,SurgTracker仅使用80个未标记视频就显著提升了追踪性能。
  • Conclusion: SurgTracker展示了在高偏移、数据稀缺领域中稳健适应的潜力。

[34] Dome-DETR: DETR with Density-Oriented Feature-Query Manipulation for Efficient Tiny Object Detection

Zhangchi Hu,Peixi Wu,Jie Chen,Huyue Zhu,Yijun Wang,Yansong Peng,Hebei Li,Xiaoyan Sun

Main category: cs.CV

TL;DR: Dome-DETR提出了一种高效的小物体检测框架,通过密度导向的特征查询操作减少冗余计算,提升性能。

  • Motivation: 现有小物体检测方法存在特征利用效率低和计算成本高的问题,Dome-DETR旨在解决这些问题。
  • Method: 采用DeFE生成紧凑前景掩码,结合MWAS稀疏注意力机制和PAQI自适应查询分配。
  • Result: 在AI-TOD-V2和VisDrone数据集上分别提升3.3 AP和2.5 AP,同时保持低计算复杂度。
  • Conclusion: Dome-DETR在性能和效率上均优于现有方法,适用于无人机监控等场景。

[35] kFuse: A novel density based agglomerative clustering

Huan Yan,Junjie Hu

Main category: cs.CV

TL;DR: 提出了一种基于密度的凝聚聚类方法kFuse,解决了传统方法参数依赖和结果不稳定的问题。

  • Motivation: 传统凝聚聚类方法需要额外参数且结果不稳定,缺乏先验知识时难以适用。
  • Method: kFuse通过自然邻居划分子簇,计算边界连接性和密度相似性,并制定合并规则。
  • Result: 实验验证了kFuse在合成和真实数据集上的有效性。
  • Conclusion: kFuse显著提升了聚类准确性和识别能力。

[36] Automating Infrastructure Surveying: A Framework for Geometric Measurements and Compliance Assessment Using Point Cloud Data

Amin Ghafourian,Andrew Lee,Dechen Gao,Tyler Beer,Kin Yen,Iman Soltani

Main category: cs.CV

TL;DR: 本文提出了一种基于点云数据的自动化几何测量和合规性评估框架,结合深度学习和几何信号处理技术,用于基础设施调查。以ADA合规性为例验证了方法的准确性和可靠性。

  • Motivation: 自动化在基础设施调查中可提高效率、准确性和可扩展性,本文旨在通过点云数据实现这一目标。
  • Method: 结合深度学习检测与分割、几何和信号处理技术,开发自动化调查框架,并应用于ADA合规性评估。
  • Result: 实验验证了方法的准确性和可靠性,显著减少人工工作量,并提高了评估一致性。
  • Conclusion: 该框架为基础设施调查和自动化建筑评估提供了基础,推动了点云数据在这些领域的广泛应用。

[37] A review of advancements in low-light image enhancement using deep learning

Fangxue Liu,Lei Fan

Main category: cs.CV

TL;DR: 本文综述了2020年以来基于深度学习的低光照图像增强方法,分析了其机制及对下游视觉任务的影响,并提出了未来研究方向。

  • Motivation: 低光照环境下计算机视觉算法性能下降,缺乏对深度学习增强方法的系统综述,本文旨在填补这一空白。
  • Method: 详细阐述2020年以来各种低光照图像增强方法的操作机制,并辅以图示说明。
  • Result: 分析了不同增强技术对后续视觉任务的影响,并评估了其优缺点。
  • Conclusion: 本文为低光照图像增强技术选择和视觉任务性能优化提供了参考,并指出了未来研究方向。

[38] Describe Anything in Medical Images

Xi Xiao,Yunbei Zhang,Thanh-Huy Nguyen,Ba-Thinh Lam,Janet Wang,Jihun Hamm,Tianyang Wang,Xingjian Li,Xiao Wang,Hao Xu,Tianming Liu,Min Xu

Main category: cs.CV

TL;DR: MedDAM是一个针对医学图像的局部描述生成框架,通过专家设计的提示和评估基准,显著优于其他大型视觉语言模型。

  • Motivation: 解决医学图像中区域特异性描述生成的需求,弥补现有模型在专业领域应用的不足。
  • Method: 利用医学专家设计的提示和评估基准,包括数据预处理和QA模板库,验证临床事实性。
  • Result: 在多个数据集上表现优于GPT-4o等领先模型,展示了区域级语义对齐的重要性。
  • Conclusion: MedDAM为临床视觉语言集成提供了有前景的基础。

[39] Image Segmentation via Variational Model Based Tailored UNet: A Deep Variational Framework

Kaili Qi,Wenli Yang,Ye Li,Zhongyi Huang

Main category: cs.CV

TL;DR: 提出了一种结合变分模型和UNet的混合框架VM_TUNet,兼具数学可解释性和自适应特征学习能力。

  • Motivation: 传统变分模型数学可解释性强但计算成本高,深度学习模型如UNet轻量但缺乏理论解释性,需大量标注数据。结合两者优势。
  • Method: 将四阶修正Cahn-Hilliard方程与UNet结合,引入数据驱动算子替代手动调参,采用TFPM保证高精度边界。
  • Result: 在基准数据集上表现优于现有方法,尤其在精细边界分割上。
  • Conclusion: VM_TUNet成功结合了变分模型和深度学习的优势,提升了分割性能。

[40] Accelerating Diffusion Transformer via Increment-Calibrated Caching with Channel-Aware Singular Value Decomposition

Zhiyuan Chen,Keyi Li,Yifan Jia,Le Ye,Yufei Ma

Main category: cs.CV

TL;DR: 提出了一种无需训练的DiT加速方法,通过增量校准缓存和通道感知SVD,显著减少计算量并保持生成质量。

  • Motivation: 扩散模型的高计算复杂度限制了部署效率,现有缓存方法缺乏校正可能导致质量下降。
  • Method: 采用增量校准缓存和通道感知SVD,利用预训练模型生成校准参数,减少冗余计算。
  • Result: 在相似计算资源下优于现有缓存方法,减少45%计算量,IS提升12,FID仅增加0.06。
  • Conclusion: 该方法高效且无需额外训练,显著提升了DiT的实用性和性能。

[41] Dual-level Fuzzy Learning with Patch Guidance for Image Ordinal Regression

Chunlai Dong,Haochao Ying,Qibo Qiu,Jinhong Wang,Danny Chen,Jian Wu

Main category: cs.CV

TL;DR: 论文提出了一种名为DFPG的双层次模糊学习框架,通过补丁引导从模糊的序数标签中学习精确的特征分级边界。

  • Motivation: 当前方法仅依赖图像级序数标签,忽略了细粒度的补丁级特征,而人类专家依赖补丁级特征进行决策。
  • Method: 提出补丁标记和过滤策略,设计双层次模糊学习模块,从补丁和通道角度处理标签模糊性。
  • Result: 在多个图像序数回归数据集上表现优异,尤其在难分类样本区分上。
  • Conclusion: DFPG框架能有效利用补丁级特征,提升序数回归性能。

[42] Automated Knot Detection and Pairing for Wood Analysis in the Timber Industry

Guohao Lin,Shidong Pan,Rasul Khanbayov,Changxi Yang,Ani Khaloian-Sarnaghi,Andriy Kovryga

Main category: cs.CV

TL;DR: 提出了一种基于机器学习的轻量级自动化管道,用于木材中结节的检测与配对,显著提高了效率和准确性。

  • Motivation: 木材中的结节对美观和结构完整性至关重要,传统手动标注效率低下,亟需自动化解决方案。
  • Method: 使用工业级相机采集高分辨率图像,构建数据集并通过YOLOv8l进行检测;采用三元组神经网络和多维特征提取实现结节配对。
  • Result: 检测阶段[email protected]达0.887,配对阶段准确率为0.85;结节起始点和终点的位置信息对配对至关重要。
  • Conclusion: 实验验证了该方法的有效性,展示了AI在木材科学与工业中的潜力。

[43] RefRef: A Synthetic Dataset and Benchmark for Reconstructing Refractive and Reflective Objects

Yue Yin,Enze Tao,Weijian Deng,Dylan Campbell

Main category: cs.CV

TL;DR: 论文提出了RefRef数据集和基准测试,用于从姿态图像重建包含折射和反射物体的场景,并展示了现有方法在此任务上的局限性。

  • Motivation: 现有3D重建和新视角合成方法在处理折射和反射材料时表现不佳,且缺乏相关数据集。
  • Method: 提出合成RefRef数据集,包含150个场景;提出基于几何和折射率的oracle方法及无需这些假设的替代方法。
  • Result: 所有现有方法在RefRef数据集上的表现显著落后于oracle方法。
  • Conclusion: 折射和反射场景的重建仍具挑战性,RefRef数据集为未来研究提供了基准。

[44] PICD: Versatile Perceptual Image Compression with Diffusion Rendering

Tongda Xu,Jiahao Li,Bin Li,Yan Wang,Ya-Qin Zhang,Yan Lu

Main category: cs.CV

TL;DR: 提出了一种基于扩散渲染的通用感知屏幕图像压缩方法(PICD),适用于屏幕和自然图像,显著提升了文本压缩质量。

  • Motivation: 现有感知图像压缩方法在处理屏幕内容(尤其是文本)时会产生明显伪影,需要一种更通用的解决方案。
  • Method: 通过分离编码文本和图像,并利用扩散模型在三个层次(域、适配器和实例)上整合条件信息进行渲染。
  • Result: PICD在文本准确性和感知质量上优于现有方法,同时适用于自然图像压缩。
  • Conclusion: PICD是一种高效且通用的图像压缩方法,特别适合处理屏幕内容和自然图像。

[45] Decoupling Multi-Contrast Super-Resolution: Pairing Unpaired Synthesis with Implicit Representations

Hongyu Rui,Yinzhe Wu,Fanwen Wang,Jiahao Huang,Liutao Yang,Zi Wang,Guang Yang

Main category: cs.CV

TL;DR: 提出了一种模块化多对比超分辨率(MCSR)框架,无需配对训练数据,支持任意放大,通过两阶段设计实现高保真重建。

  • Motivation: MRI的多对比特性为跨模态增强提供了机会,但现有方法依赖配对数据和固定分辨率,难以适应临床环境。
  • Method: 分为两个阶段:无配对跨模态合成(U-CMS)和无监督超分辨率(U-SR),利用隐式神经表示(INRs)实现任意放大。
  • Result: 在4倍和8倍放大下表现优异,保真度和解剖一致性优于现有基线。
  • Conclusion: 该框架具有在真实临床环境中实现可扩展、个性化且数据高效MCSR的潜力。

[46] Towards Facial Image Compression with Consistency Preserving Diffusion Prior

Yimin Zhou,Yichong Xia,Bin Chen,Baoyi An,Haoqian Wang,Zhi Wang,Yaowei Wang,Zikun Zhou

Main category: cs.CV

TL;DR: FaSDiff是一种基于稳定扩散先验的人脸图像压缩方法,通过频率增强保持一致性,平衡人类视觉质量和机器视觉准确性。

  • Motivation: 现有的人脸图像压缩方法在低比特率下重建质量不佳,且高频信息保留不足,影响下游应用。
  • Method: FaSDiff采用高频敏感压缩器和低频增强模块,结合视觉提示和扩散先验,优化图像细节和语义一致性。
  • Result: 实验表明FaSDiff在人类视觉质量和机器视觉准确性上优于现有方法。
  • Conclusion: FaSDiff通过频率增强和扩散先验,实现了高质量的人脸图像压缩。

[47] Register and CLS tokens yield a decoupling of local and global features in large ViTs

Alexander Lappe,Martin A. Giese

Main category: cs.CV

TL;DR: DINOv2模型的注意力图存在伪影,影响解释性和密集图像任务性能。引入寄存器令牌虽改善注意力图,但全局信息仍主导局部信息。CLS令牌也有类似问题,需谨慎解释大型ViT的注意力图。

  • Motivation: 解决DINOv2模型中注意力图伪影问题,提升模型解释性和密集任务性能。
  • Method: 引入寄存器令牌存储全局信息,分析其对全局与局部特征关系的影响。
  • Result: 寄存器令牌使注意力图更清晰,但全局信息主导局部信息,导致特征分离。CLS令牌也有类似问题。
  • Conclusion: 需谨慎解释大型ViT的注意力图,明确寄存器与CLS令牌的问题,为更可解释的视觉模型提供方向。

[48] Leveraging Vision-Language Models for Visual Grounding and Analysis of Automotive UI

Benjamin Raphael Ernhofer,Daniil Prokhorov,Jannica Langner,Dominik Bollmann

Main category: cs.CV

TL;DR: 提出了一种基于视觉语言框架的汽车信息娱乐系统交互方法,并发布了开源数据集和合成数据生成工具,通过LoRa微调模型ELAM取得了显著性能提升。

  • Motivation: 现代汽车信息娱乐系统需要智能且自适应的解决方案以应对频繁的UI更新和多样化设计。
  • Method: 采用视觉语言框架,结合合成数据生成和LoRa微调技术,开发了ELAM模型。
  • Result: ELAM在AutomotiveUI-Bench-4K上表现优异,跨领域泛化能力提升5.2%,ScreenSpot平均准确率达80.4%。
  • Conclusion: 研究表明数据收集和微调可推动汽车UI理解的AI进展,方法成本低且适用于消费级GPU。

[49] Examining the Source of Defects from a Mechanical Perspective for 3D Anomaly Detection

Hanzhe Liang,Aoran Wang,Jie Zhou,Xin Jin,Can Gao,Jinbao Wang

Main category: cs.CV

TL;DR: 论文提出了一种基于异常原因的3D异常检测框架MC4AD,通过生成纠正力来检测异常,并结合多样化的异常生成模块和纠正力预测网络,实现了高效且参数少的检测。

  • Motivation: 传统异常检测仅关注结构特征,而忽略了异常原因。论文旨在通过模拟内部和外部纠正力,更全面地检测异常。
  • Method: 提出MC4AD框架,包括DA-Gen模块模拟异常,CFP-Net预测纠正力,并结合对称损失和整体损失优化模型。
  • Result: 在多个数据集上取得九项最优性能,且参数最少、推理速度最快。
  • Conclusion: MC4AD框架为3D异常检测提供了更全面的解决方案,尤其在工业应用中表现突出。

[50] DFEN: Dual Feature Equalization Network for Medical Image Segmentation

Jianjian Yin,Yi Chen,Chengyu Li,Zhichao Zheng,Yanhui Gu,Junsheng Zhou

Main category: cs.CV

TL;DR: 提出了一种基于Swin Transformer和CNN的双特征均衡网络,通过图像级和类别级特征均衡增强像素特征表示,提升医学图像分割性能。

  • Motivation: 现有医学图像分割方法未考虑边界像素和低类别像素区域的上下文特征信息不均衡问题,导致误分类。
  • Method: 设计了图像级和类别级特征均衡模块,结合Swin Transformer和CNN,增强像素特征表示。
  • Result: 在多个数据集(BUSI、ISIC2017、ACDC、PH2)上实现了最先进的性能。
  • Conclusion: 双特征均衡网络有效解决了特征信息不均衡问题,提升了分割精度。

[51] CGTrack: Cascade Gating Network with Hierarchical Feature Aggregation for UAV Tracking

Weihong Li,Xiaoqiong Liu,Heng Fan,Libo Zhang

Main category: cs.CV

TL;DR: CGTrack是一种新型无人机跟踪器,通过结合显式和隐式技术提升网络容量,解决了轻量级网络在无人机跟踪中的性能下降问题。

  • Motivation: 无人机跟踪中轻量级网络容量不足导致性能下降,尤其在遮挡和视角变化时表现不佳。
  • Method: 提出HFC模块和LGCH头,前者通过特征重用增强网络容量,后者利用门控机制解耦目标坐标。
  • Result: 在三个无人机跟踪基准测试中表现优异,速度也快。
  • Conclusion: CGTrack在性能和效率上均达到先进水平。

[52] Achieving 3D Attention via Triplet Squeeze and Excitation Block

Maan Alhazmi,Abdulrahman Altahhan

Main category: cs.CV

TL;DR: 论文提出了一种结合Triplet注意力与Squeeze-and-Excitation(TripSE)的新机制,并在多种CNN架构中验证其有效性,尤其在ConvNeXt上表现突出。

  • Motivation: CNN模型在视觉任务中仍具潜力,尤其是在面部表情识别(FER)领域。通过引入新的注意力机制,进一步提升性能。
  • Method: 提出四种TripSE变体,应用于ResNet18、DenseNet和ConvNeXt架构,并在多个数据集上验证。
  • Result: TripSE显著提升了模型性能,ConvNeXt结合TripSE在FER2013数据集上达到78.27%的准确率,创下新纪录。
  • Conclusion: TripSE机制有效增强了CNN模型的性能,尤其在ConvNeXt架构上表现卓越,为FER任务提供了新思路。

[53] Task-Adapter++: Task-specific Adaptation with Order-aware Alignment for Few-shot Action Recognition

Congqi Cao,Peiheng Han,Yueran zhang,Yating Yu,Qinyi Lv,Lingtong Min,Yanning zhang

Main category: cs.CV

TL;DR: 论文提出Task-Adapter++,一种参数高效的双重适应方法,解决预训练模型在少样本动作识别中的问题,包括泛化能力下降、任务信息不足、语义顺序忽略和跨模态对齐问题。

  • Motivation: 预训练模型在少样本动作识别中表现不佳,存在泛化能力下降、任务信息不足、语义顺序忽略和跨模态对齐问题。
  • Method: 设计任务特定的图像编码器适配器,利用LLM生成子动作描述并引入语义顺序适配器,开发细粒度跨模态对齐策略。
  • Result: 在5个基准测试中取得最优性能,代码已开源。
  • Conclusion: Task-Adapter++有效解决了现有问题,性能优越。

[54] From Pixels to Perception: Interpretable Predictions via Instance-wise Grouped Feature Selection

Moritz Vandenhirtz,Julia E. Vogt

Main category: cs.CV

TL;DR: 提出了一种通过实例级稀疏化输入图像实现可解释预测的方法,并在半合成和自然图像数据集上验证其效果优于现有方法。

  • Motivation: 理解机器学习模型的决策过程对任务、数据和模型失败原因具有重要意义。
  • Method: 在语义有意义的像素区域学习掩码,而非像素级,并动态确定每个实例所需的稀疏度。
  • Result: 实验表明,该方法生成的预测更具人类可理解性,优于现有基准。
  • Conclusion: 该方法提供了一种更直观、可解释的预测方式。

[55] Document Image Rectification Bases on Self-Adaptive Multitask Fusion

Heng Li,Xiangping Wu,Qingcai Chen

Main category: cs.CV

TL;DR: 提出了一种自适应的多任务融合网络SalmRec,通过任务间特征聚合和门控机制提升文档图像矫正性能。

  • Motivation: 现有方法忽略了多任务间的互补特征和交互作用,影响了文档图像矫正的效果。
  • Method: 设计了SalmRec网络,包含任务间特征聚合模块和门控机制,以自适应地提升几何畸变感知和特征互补性。
  • Result: 在DIR300、DocUNet和DocReal三个基准测试中表现优异,显著提升了矫正性能。
  • Conclusion: SalmRec通过多任务协同和自适应机制,有效提升了文档图像矫正的准确性和鲁棒性。

[56] Towards Better Cephalometric Landmark Detection with Diffusion Data Generation

Dongqian Guo,Wencheng Han,Pang Lyu,Yuxi Zhou,Jianbing Shen

Main category: cs.CV

TL;DR: 提出了一种创新的数据生成方法,用于生成多样化的头颅X光图像及标注,解决了数据稀缺问题,并提升了深度学习模型的检测性能。

  • Motivation: 头颅标志点检测对正畸诊断和治疗计划至关重要,但数据稀缺和人工标注成本高限制了深度学习方法的有效性。
  • Method: 通过解剖学先验构建新标注,使用扩散模型生成逼真X光图像,并引入提示数据集以控制样本属性。
  • Result: 实验表明,使用生成数据训练模型显著提升了性能,检测成功率(SDR)提高了6.5%,达到82.2%。
  • Conclusion: 该方法通过生成多样化数据,显著提升了头颅标志点检测的准确性,为相关领域提供了有效解决方案。

[57] Noise-Consistent Siamese-Diffusion for Medical Image Synthesis and Segmentation

Kunpeng Qiu,Zhiqiang Gao,Zhiying Zhou,Mingjie Sun,Yongxin Guo

Main category: cs.CV

TL;DR: Siamese-Diffusion模型通过双组件设计提升医学图像分割的形态保真度,显著提高了分割性能。

  • Motivation: 解决医学图像分割中标注数据稀缺和传统模型生成图像保真度低的问题。
  • Method: 提出Siamese-Diffusion模型,包含Mask-Diffusion和Image-Diffusion,通过噪声一致性损失提升形态保真度。
  • Result: 在Polyps和ISIC2018数据集上,分别提升SANet和UNet的分割性能。
  • Conclusion: Siamese-Diffusion有效解决了数据稀缺和形态保真度问题,显著提升了分割模型的性能。

[58] Camera-Only Bird's Eye View Perception: A Neural Approach to LiDAR-Free Environmental Mapping for Autonomous Vehicles

Anupkumar Bochare

Main category: cs.CV

TL;DR: 提出了一种仅使用相机的感知框架,通过结合YOLOv11目标检测和DepthAnythingV2深度估计,实现360度场景理解,性能接近LiDAR。

  • Motivation: 传统自动驾驶感知系统依赖昂贵的LiDAR传感器,本文旨在通过深度学习仅使用相机实现高效且精确的环境感知。
  • Method: 扩展Lift-Splat-Shoot架构,结合YOLOv11目标检测和DepthAnythingV2单目深度估计,处理多摄像头输入生成BEV地图。
  • Result: 在OpenLane-V2和NuScenes数据集上,道路分割准确率达85%,车辆检测率85-90%,位置误差平均1.2米。
  • Conclusion: 仅使用相机的深度学习方法能高效提取空间信息,实现低成本且高精度的自动驾驶导航。

[59] Photovoltaic Defect Image Generator with Boundary Alignment Smoothing Constraint for Domain Shift Mitigation

Dongying Li,Binyi Su,Hua Zhang,Yong Li,Haiyong Chen

Main category: cs.CV

TL;DR: PDIG是一种基于稳定扩散的光伏缺陷图像生成器,通过语义概念嵌入和工业风格适配器提升生成质量,显著优于现有方法。

  • Motivation: 光伏电池缺陷检测对智能制造至关重要,但数据稀缺导致模型训练困难,现有生成方法存在不稳定、多样性不足和领域偏移问题。
  • Method: PDIG结合语义概念嵌入模块(SCE)和轻量级工业风格适配器(LISA),利用文本-图像双空间约束(TIDSC)提升生成质量。
  • Result: PDIG在FID指标上优于现有方法19.16分,并显著提升下游缺陷检测性能。
  • Conclusion: PDIG通过结合稳定扩散和领域特定模块,有效解决了光伏缺陷数据稀缺问题,生成图像质量高且多样。

[60] BrainSegDMlF: A Dynamic Fusion-enhanced SAM for Brain Lesion Segmentation

Hongming Wang,Yifeng Wu,Huimin Huang,Hongtao Wu,Jia-Xuan Jiang,Xiaodong Zhang,Hao Zheng,Xian Wu,Yefeng Zheng,Jinping Xu,Jing Cheng

Main category: cs.CV

TL;DR: 论文提出了一种名为BrainSegDMLF的全自动脑部病变分割模型,解决了现有方法在多模态数据整合、小病变检测和自动化分割方面的不足。

  • Motivation: 脑部病变分割在医学图像分割中具有重要意义,但现有方法存在多模态信息利用不足、小病变检测困难以及依赖外部提示等问题。
  • Method: 开发了BrainSegDMLF模型,包含动态模态交互融合模块、逐层上采样解码器和自动分割掩码功能。
  • Result: 模型能够整合多模态数据、检测小病变并实现全自动分割。
  • Conclusion: BrainSegDMLF模型显著提升了脑部病变分割的准确性和效率。

[61] MM-Skin: Enhancing Dermatology Vision-Language Model with an Image-Text Dataset Derived from Textbooks

Wenqi Zeng,Yuqi Sun,Chenxi Ma,Weimin Tan,Bo Yan

Main category: cs.CV

TL;DR: 论文提出了MM-Skin数据集和SkinVL模型,解决了皮肤病领域视觉语言模型(VLM)缺乏专业文本描述的问题,并展示了其在多项任务中的优异表现。

  • Motivation: 当前皮肤病领域的多模态数据集缺乏专业文本描述,限制了皮肤病VLM的发展。
  • Method: 构建了包含3种成像模态和近10k高质量图像-文本对的MM-Skin数据集,并生成27k多样化的VQA样本;基于此开发了皮肤病专用VLM模型SkinVL。
  • Result: SkinVL在VQA、监督微调和零样本分类任务中表现优异,优于通用和医学VLM模型。
  • Conclusion: MM-Skin和SkinVL为皮肤病VLM的发展提供了重要贡献。

[62] DiffLocks: Generating 3D Hair from a Single Image using Diffusion Models

Radu Alexandru Rosu,Keyu Wu,Yao Feng,Youyi Zheng,Michael J. Black

Main category: cs.CV

TL;DR: DiffLocks是一个新框架,通过合成数据集和扩散变换模型,从单张图像直接生成详细的3D头发几何,解决了现有方法在多样发型和细节重建上的局限性。

  • Motivation: 现有方法因缺乏配对数据和低维表示限制,难以重建复杂发型(如卷发),且依赖后处理。
  • Method: 1. 创建大规模合成头发数据集(40K发型);2. 基于扩散变换模型,从单张图像生成3D发丝,无需后处理。
  • Result: DiffLocks首次实现了从单张图像重建高度卷曲发型(如非洲发型),且泛化能力强。
  • Conclusion: DiffLocks通过合成数据和直接解码策略,显著提升了单图像3D头发重建的多样性和细节表现。

[63] Adapting a Segmentation Foundation Model for Medical Image Classification

Pengfei Gu,Haoteng Tang,Islam A. Ebeid,Jose A. Nunez,Fabian Vazquez,Diego Adame,Marcus Zhan,Huimin Li,Bin Fu,Danny Z. Chen

Main category: cs.CV

TL;DR: 本文提出了一种新框架,将Segment Anything Model (SAM) 应用于医学图像分类,通过冻结SAM编码器权重并引入空间局部通道注意力机制 (SLCA) 提升分类性能。

  • Motivation: 尽管SAM在图像分割任务中表现优异,但其在医学图像分类中的应用尚未充分探索。本文旨在填补这一空白。
  • Method: 利用SAM编码器提取特征,结合SLCA机制计算空间局部注意力权重,增强分类模型对关键区域的关注。
  • Result: 在三个公开医学图像分类数据集上的实验证明了方法的有效性和数据效率。
  • Conclusion: 该框架成功将SAM适应于医学图像分类任务,为相关研究提供了新思路。

[64] VIN-NBV: A View Introspection Network for Next-Best-View Selection for Resource-Efficient 3D Reconstruction

Noah Frahm,Dongxu Zhao,Andrea Dunn Beltran,Ron Alterovitz,Jan-Michael Frahm,Junier Oliva,Roni Sengupta

Main category: cs.CV

TL;DR: 提出了一种基于视图内省网络(VIN)的NBV算法,通过预测视图对重建质量的直接改进来选择最优视图,显著提升了重建质量。

  • Motivation: 现有NBV算法依赖场景先验知识或额外图像捕获,且通常以覆盖率为目标,但复杂场景中覆盖率最大化未必直接提升重建质量。
  • Method: 设计VIN网络,进行3D感知特征提取,并通过模仿学习训练预测重建改进分数;提出VIN-NBV策略,贪婪选择改进分数最高的视图。
  • Result: VIN-NBV在捕获次数或时间受限时,重建质量比覆盖率最大化基线提升约30%。
  • Conclusion: VIN-NBV通过直接预测重建改进分数,显著提升了复杂场景下的3D重建效率和质量。

cs.RO

[65] Learning to Drive Anywhere with Model-Based Reannotation11

Noriaki Hirose,Lydia Ignatova,Kyle Stachowicz,Catherine Glossop,Sergey Levine,Dhruv Shah

Main category: cs.RO

TL;DR: 论文提出MBRA框架,利用模型重新标注被动收集的数据,训练出LogoNav导航策略,在未见环境中表现优异。

  • Motivation: 解决机器人视觉导航策略泛化性不足的问题,因高质量训练数据有限。
  • Method: 利用被动收集的数据(如众包遥操作数据和YouTube视频),通过MBRA框架重新标注动作,训练LogoNav策略。
  • Result: LogoNav在未见环境中实现超过300米的稳健导航,并在多城市测试中表现优异。
  • Conclusion: MBRA和LogoNav显著提升了导航策略的泛化性和性能。

[66] 3D CAVLA: Leveraging Depth and 3D Context to Generalize Vision Language Action Models for Unseen Tasks

Vineet Bhat,Yu-Hsiang Lan,Prashanth Krishnamurthy,Ramesh Karri,Farshad Khorrami

Main category: cs.RO

TL;DR: 论文提出了一种改进视觉-语言-动作模型的方法,通过整合链式思维推理、深度感知和任务导向的兴趣区域检测,提升了场景上下文感知能力。实验表明,该方法在LIBERO仿真环境中显著提高了任务成功率,并在零样本任务中表现出色。

  • Motivation: 提升机器人3D操作中的场景上下文感知能力,以更好地将视觉和语言输入映射到低级别控制。
  • Method: 整合链式思维推理、深度感知和任务导向的兴趣区域检测,改进现有视觉-语言-动作模型。
  • Result: 在LIBERO仿真环境中,平均任务成功率达到98.1%,零样本任务中绝对提升8.8%。
  • Conclusion: 3D场景感知能力显著提升了模型的鲁棒性和适应性,尤其在未见任务中表现优异。

[67] TREND: Tri-teaching for Robust Preference-based Reinforcement Learning with Demonstrations

Shuaiyi Huang,Mara Levy,Anubhav Gupta,Daniel Ekpo,Ruijie Zheng,Abhinav Shrivastava

Main category: cs.RO

TL;DR: TREND框架通过结合少量专家演示和三重教学策略,有效减少偏好反馈中的噪声,提升强化学习性能。

  • Motivation: 解决偏好反馈中的噪声问题,提高偏好强化学习的准确性。
  • Method: 提出TREND框架,训练三个奖励模型,通过小损失偏好对互相教学。
  • Result: 在机器人操作任务中,即使噪声高达40%,成功率仍达90%。
  • Conclusion: TREND在噪声环境下表现优异,仅需少量专家演示即可实现高性能。

[68] Let Humanoids Hike! Integrative Skill Development on Complex Trails

Kwan-Yee Lin,Stella X. Yu

Main category: cs.RO

TL;DR: 论文提出了一种名为LEGO-H的学习框架,旨在让仿人机器人能够在复杂的小径上自主徒步,结合视觉感知、决策和运动执行。

  • Motivation: 当前仿人机器人研究在徒步任务中存在局限性,运动技能缺乏长期目标和情境感知,而语义导航忽略了现实世界的具体化和地形变化。
  • Method: 1) 使用时间视觉变换器变体,结合分层强化学习框架,预测未来局部目标以指导运动;2) 通过潜在关节运动模式表示和分层度量学习,实现从特权训练到实际执行的平滑策略迁移。
  • Result: LEGO-H在多样化的模拟小径和机器人形态中表现出多功能性和鲁棒性。
  • Conclusion: 徒步任务为具身自主性提供了有力测试平台,LEGO-H为未来仿人机器人发展奠定了基础。

quant-ph

[69] Efficient Quantum Convolutional Neural Networks for Image Classification: Overcoming Hardware Constraints

Peter Röseler,Oliver Schaudt,Helmut Berg,Christian Bauckhage,Matthias Koch

Main category: quant-ph

TL;DR: 该论文提出了一种量子卷积神经网络(QCNN)的编码方案,减少输入维度,并在NISQ设备上实现高效图像分类。

  • Motivation: 量子计算为神经网络架构提供了新机会,但当前NISQ设备的硬件限制阻碍了QCNN的实现。
  • Method: 引入编码方案降低输入维度,提出基于可表达性、纠缠和复杂度的自动化框架设计QCNN。
  • Result: 在IBM Heron r2量子处理器上实现96.08%的分类准确率,超越传统方法的71.74%。
  • Conclusion: 验证了量子计算在图像分类中的潜力,为未来研究提供了方向。

cs.NE

[70] How to Train Your Metamorphic Deep Neural Network

Thomas Sommariva,Simone Calderara,Angelo Porrello

Main category: cs.NE

TL;DR: NeuMeta是一种基于INR的神经网络生成方法,支持不同宽度和深度的网络生成。本文提出一种训练算法,扩展NeuMeta能力以实现全网络变形,同时保持高精度。

  • Motivation: 原始NeuMeta仅适用于模型的最后几层,限制了其广泛应用。本文旨在扩展其能力,实现全网络变形。
  • Method: 采用分块增量训练、INR初始化和替换批归一化策略,提升NeuMeta的全网络变形能力。
  • Result: 生成的变形网络在多种压缩比下保持竞争力,适用于高效部署。
  • Conclusion: 本文方法为深度模型的可适应和高效部署提供了可扩展解决方案。

eess.IV

[71] Image Restoration via Multi-domain Learning

Xingyu Jiang,Ning Gao,Xiuhui Zhang,Hongkun Dou,Shaowen Fu,Xiaoqing Zhong,Hongjue Li,Yue Deng

Main category: eess.IV

TL;DR: 论文提出了一种结合多域学习的Transformer框架,用于图像恢复任务,通过多域建模和多尺度学习提升性能。

  • Motivation: 自然图像因大气和成像条件导致多种退化现象,现有方法多关注单一任务且模型复杂度高,缺乏对退化共性的研究。
  • Method: 提出Spatial-Wavelet-Fourier多域结构替代传统自注意力,并在前馈网络中融入多尺度学习。
  • Result: 在十项恢复任务中表现优于现有方法,平衡了性能、参数规模和计算成本。
  • Conclusion: 多域学习框架显著提升了图像恢复效果,为复杂退化问题提供了高效解决方案。

[72] StereoINR: Cross-View Geometry Consistent Stereo Super Resolution with Implicit Neural Representation

Yi Liu,Xinyi Liu,Panwang Xia,Qiong Wu,Yi Wan,Yongjun Zhang

Main category: eess.IV

TL;DR: 提出StereoINR方法,通过隐式神经表示实现任意尺度立体图像超分辨率,结合空间扭曲和交叉注意力机制提升几何一致性。

  • Motivation: 现有立体超分辨率方法忽视跨视角几何一致性且仅限于固定尺度上采样,缺乏跨视角和非局部信息感知。
  • Method: 提出StereoINR,将立体图像对建模为连续隐式表示,结合空间扭曲和交叉注意力机制实现跨视角信息融合。
  • Result: 在多个数据集上实验表明,StereoINR在训练分布内外尺度上均表现优异,几何一致性显著提升。
  • Conclusion: StereoINR为立体超分辨率提供了一种灵活且高效的解决方案,突破了尺度限制并提升了性能。

[73] Guidance for Intra-cardiac Echocardiography Manipulation to Maintain Continuous Therapy Device Tip Visibility

Jaeyoung Huh,Ankur Kapoor,Young-Ho Kim

Main category: eess.IV

TL;DR: 提出一种AI驱动的跟踪模型,通过估计设备尖端入射角和通过点,确保在ICE成像平面中的连续可见性,并支持机器人ICE导管控制。

  • Motivation: 手动ICE导管操作中,保持治疗设备尖端的连续可见性具有挑战性,需频繁调整。
  • Method: 结合临床ICE序列和合成数据增强生成混合数据集,利用预训练的超声基础模型和基于transformer的网络进行特征提取和预测。
  • Result: 模型实现了3.32度的入射角误差和12.76度的旋转角误差。
  • Conclusion: 该AI框架为实时机器人ICE导管调整奠定了基础,未来将扩展临床数据集以增强模型泛化能力。

[74] Score-based Self-supervised MRI Denoising

Jiachen Tu,Yaokun Shi,Fan Lam

Main category: eess.IV

TL;DR: C2S是一种新型的自监督MRI去噪框架,通过广义去噪分数匹配损失和噪声水平重参数化,直接从噪声数据中学习去噪,并在多噪声条件和MRI对比度下表现优异。

  • Motivation: MRI图像中的噪声会降低图像质量和诊断准确性,现有监督学习方法需要高SNR标签,而自监督方法容易过度平滑细节。C2S旨在解决标签稀缺问题并提升去噪性能。
  • Method: 提出C2S框架,采用广义去噪分数匹配损失(GDSM)直接从噪声数据学习,引入噪声水平重参数化和细节细化扩展,支持多对比度去噪。
  • Result: 在M4Raw和fastMRI数据集上,C2S在自监督方法中达到最优性能,与监督方法相比表现竞争力。
  • Conclusion: C2S是一种高效的自监督MRI去噪方法,能够平衡噪声去除与细节保留,适用于多种噪声条件和MRI对比度。

[75] UltraGauss: Ultrafast Gaussian Reconstruction of 3D Ultrasound Volumes

Mark C. Eid,Ana I. L. Namburete,João F. Henriques

Main category: eess.IV

TL;DR: UltraGauss是一种新型的2D到3D超声重建框架,通过高斯泼溅技术提高计算效率和重建精度,显著优于现有方法。

  • Motivation: 解决传统2D超声成像操作依赖性强、变异性高的问题,同时克服现有3D重建方法计算成本高或不符合超声物理特性的限制。
  • Method: 提出UltraGauss框架,基于高斯泼溅技术,模拟超声波的3D传播,优化GPU并行化和数值稳定性。
  • Result: 在真实临床数据上,UltraGauss在5分钟内实现最佳重建效果,20分钟内SSIM达0.99,专家评价其重建效果最真实。
  • Conclusion: UltraGauss为超声成像提供了一种高效、准确的3D重建方法,具有临床应用潜力。

[76] V-EfficientNets: Vector-Valued Efficiently Scaled Convolutional Neural Network Models

Guilherme Vieira Neto,Marcos Eduardo Valle

Main category: eess.IV

TL;DR: V-EfficientNets是EfficientNet的扩展,用于处理向量值数据,在医学图像分类任务中表现优异,准确率达99.46%。

  • Motivation: 传统神经网络在训练中学习特征通道间的相关性,而向量值神经网络将多维数据视为整体,利用通道间固有关系。
  • Method: 提出V-EfficientNets,通过联合优化网络宽度、深度和分辨率,处理任意向量值数据。
  • Result: 在ALL-IDB2数据集上达到99.46%的准确率,参数更少且优于现有模型。
  • Conclusion: V-EfficientNets在效率和性能上均优于传统方法,适用于向量值数据任务。

[77] Equivariant Imaging Biomarkers for Robust Unsupervised Segmentation of Histopathology

Fuyao Chen,Yuexi Du,Tal Zeevi,Nicha C. Dvornek,John A. Onofrey

Main category: eess.IV

TL;DR: 论文提出了一种基于对称卷积核的无监督分割方法,用于提取具有旋转不变性的病理图像生物标志物,以提高机器学习模型在数字病理学中的泛化能力和准确性。

  • Motivation: 传统病理学分析耗时且易受主观影响,而现有机器学习模型缺乏对旋转和反射的不变性,限制了其在病理图像分析中的泛化能力。
  • Method: 通过无监督分割和对称卷积核开发了具有旋转不变性的生物标志物,并在前列腺组织微阵列图像上验证。
  • Result: 该方法提取的生物标志物比标准卷积核模型更具鲁棒性和泛化能力。
  • Conclusion: 该研究有望提升数字病理学中机器学习模型的准确性和一致性,并扩展至其他癌症的诊断和预后。

[78] Hybrid Learning: A Novel Combination of Self-Supervised and Supervised Learning for MRI Reconstruction without High-Quality Training Reference

Haoyang Pei,Ding Xia,Xiang Xu,William Moore,Yao Wang,Hersh Chandarana,Li Feng

Main category: eess.IV

TL;DR: 提出了一种混合学习框架,结合自监督和监督学习,用于在参考图像质量低或缺失的情况下进行MRI重建。

  • Motivation: 传统监督学习需要高质量参考图像,而自监督学习在高加速率下性能下降,混合学习旨在解决这些问题。
  • Method: 分两阶段:自监督学习生成伪真值,监督学习进一步优化重建性能。
  • Result: 在肺MRI和脑T1映射中,混合学习在图像质量和定量准确性上优于自监督和监督方法。
  • Conclusion: 混合学习为低质量参考数据下的MRI重建提供了有效解决方案,具有临床推广潜力。

[79] Predicting Diabetic Macular Edema Treatment Responses Using OCT: Dataset and Methods of APTOS Competition

Weiyi Zhang,Peranut Chotcomwongse,Yinwen Li,Pusheng Xu,Ruijie Yao,Lianhao Zhou,Yuxuan Zhou,Hui Feng,Qiping Zhou,Xinyue Wang,Shoujin Huang,Zihao Jin,Florence H. T. Chung,Shujun Wang,Yalin Zheng,Mingguang He,Danli Shi,Paisan Ruamviboonsuk

Main category: eess.IV

TL;DR: 该研究通过亚太远程眼科学会大数据竞赛,探索了利用OCT图像预测糖尿病黄斑水肿(DME)患者对抗VEGF治疗反应的潜力,展示了AI在个性化治疗中的价值。

  • Motivation: 糖尿病黄斑水肿(DME)患者的治疗反应差异大,需要个性化治疗策略,但目前缺乏预测方法。
  • Method: 通过组织大数据竞赛,提供包含数千张OCT图像的数据集,鼓励团队开发预测模型。
  • Result: 竞赛吸引了170个团队参与,最终41个团队进入决赛,最佳团队的AUC达到80.06%。
  • Conclusion: AI在预测DME治疗反应方面具有潜力,可为临床决策提供支持。

[80] S2MNet: Speckle-To-Mesh Net for Three-Dimensional Cardiac Morphology Reconstruction via Echocardiogram

Xilin Gong,Yongkai Chen,Shushan Wu,Fang Wang,Ping Ma,Wenxuan Zhong

Main category: eess.IV

TL;DR: 提出了一种名为S2MNet的深度学习框架,通过整合六张常规2D超声心动图视图,重建连续且高保真的3D心脏模型。

  • Motivation: 尽管超声心动图因其无创性、实时性和成本效益成为心脏评估的主要方法,但其2D视图限制了三维解剖和功能的全面评估,而现有3D技术存在分辨率低、可用性有限和成本高的问题。
  • Method: S2MNet通过模拟六张2D超声心动图图像来避免训练数据获取的困难,并引入基于变形场的方法以避免空间不连续或结构伪影。
  • Result: 验证表明,重建的左心室体积与医生测量的GLPS(一种临床指标)呈强相关性,证实了方法的可靠性。
  • Conclusion: S2MNet提供了一种可靠且高效的3D心脏模型重建方法,克服了现有技术的局限性。

[81] The Application of Deep Learning for Lymph Node Segmentation: A Systematic Review

Jingguo Qu,Xinyang Han,Man-Lik Chui,Yao Pu,Simon Takadiyi Gunda,Ziman Chen,Jing Qin,Ann Dorothy King,Winnie Chiu-Wing Chu,Jing Cai,Michael Tin-Cheung Ying

Main category: eess.IV

TL;DR: 本文综述了深度学习在淋巴结分割中的应用,探讨了不同架构的优缺点,并提出了未来研究方向。

  • Motivation: 传统淋巴结分割方法受限于人工标注和操作者水平,深度学习为提高准确性提供了新可能。
  • Method: 评估了卷积神经网络、编码器-解码器网络和Transformer等架构在医学影像分析中的应用。
  • Result: 尽管有进展,但仍面临淋巴结形状多样、标注数据稀缺及跨模态泛化能力不足等挑战。
  • Conclusion: 本文首次全面综述了深度学习在淋巴结分割中的应用,并提出了未来研究方向,如多模态融合和迁移学习。

[82] Topo-VM-UNetV2: Encoding Topology into Vision Mamba UNet for Polyp Segmentation

Diego Adame,Jose A. Nunez,Fabian Vazquez,Nayeli Gurrola,Huimin Li,Haoteng Tang,Bin Fu,Pengfei Gu

Main category: eess.IV

TL;DR: 论文提出了一种名为Topo-VM-UNetV2的新方法,通过将拓扑特征编码到基于Mamba的VM-UNetV2模型中,改进了息肉分割的准确性。

  • Motivation: 现有的CNN和Transformer模型在息肉分割中存在局限性:CNN难以建模长距离依赖,而Transformer计算复杂度高。Mamba模型虽然解决了这些问题,但仍无法有效捕捉拓扑特征,导致边界分割不准确。
  • Method: 方法分为两阶段:1)使用VM-UNetV2生成概率图并计算拓扑注意力图;2)将拓扑注意力图集成到VM-UNetV2的SDI模块中,形成Topo-SDI模块以增强分割结果。
  • Result: 在五个公开的息肉分割数据集上的实验证明了该方法的有效性。
  • Conclusion: Topo-VM-UNetV2通过引入拓扑特征,显著提升了息肉分割的准确性,同时保持了计算效率。

cs.LG

[83] Automated Learning of Semantic Embedding Representations for Diffusion Models

Limai Jiang,Yunpeng Cai

Main category: cs.LG

TL;DR: 论文提出了一种多级去噪自编码器框架,扩展了去噪扩散模型的表示能力,通过自条件扩散学习生成语义丰富的嵌入表示。

  • Motivation: 去噪扩散模型(DDMs)在生成任务中表现出色,但在高效表示学习方面存在不足,需要扩展其表示能力。
  • Method: 采用多级去噪自编码器框架,引入序列一致的扩散变换器和时间步相关编码器,通过自条件扩散学习获取嵌入表示。
  • Result: 实验表明,该方法生成的嵌入表示在语义上优于当前最先进的自监督学习方法。
  • Conclusion: DDMs不仅适用于生成任务,还具有通用深度学习应用的潜力。

[84] Improving Generalizability of Kolmogorov-Arnold Networks via Error-Correcting Output Codes

Youngjoon Lee,Jinu Gong,Joonhyuk Kang

Main category: cs.LG

TL;DR: 将ECOC集成到KAN框架中,通过多二进制任务提升多分类性能,在医疗图像分类中表现优异。

  • Motivation: 提升KAN在多分类任务中的鲁棒性和准确性,特别是在医疗AI应用中。
  • Method: 将ECOC与KAN结合,利用汉明距离解码将多分类转化为多个二进制任务。
  • Result: 在血液细胞分类数据集上表现优于原始KAN,且在不同超参数下均表现稳定。
  • Conclusion: ECOC显著提升了KAN的泛化能力,适用于医疗图像分类等关键应用。

[85] Wasserstein Distances Made Explainable: Insights into Dataset Shifts and Transport Phenomena

Philip Naumann,Jacob Kauffmann,Grégoire Montavon

Main category: cs.LG

TL;DR: 提出了一种基于可解释AI的新方法,用于高效准确地归因Wasserstein距离到数据的不同组成部分。

  • Motivation: 单纯计算Wasserstein距离或分析其传输图不足以理解影响距离高低的因素。
  • Method: 基于可解释AI的解决方案,归因Wasserstein距离到数据子组、输入特征或可解释子空间。
  • Result: 方法在多样化数据集和Wasserstein距离规格中表现出高准确性,并通过两个用例验证了实用性。
  • Conclusion: 该方法为理解Wasserstein距离的贡献因素提供了有效工具。

[86] Brain Hematoma Marker Recognition Using Multitask Learning: SwinTransformer and Swin-Unet

Kodai Hirata,Tsuyoshi Okita

Main category: cs.LG

TL;DR: MTL-Swin-Unet方法通过多任务学习和Transformer提升分类与语义分割性能,解决虚假相关性问题。

  • Motivation: 解决虚假相关性(spurious-correlation)问题,提升图像表示能力。
  • Method: 结合语义分割和图像重建的表示,通过多任务学习和Transformer架构实现分类与分割。
  • Result: 在无协变量偏移(相同患者切片)时F值更优,有协变量偏移(不同患者切片)时AUC更优。
  • Conclusion: MTL-Swin-Unet在多任务学习和Transformer支持下,显著提升了分类与分割性能。

q-bio.QM

[87] Multimodal Integrated Knowledge Transfer to Large Language Models through Preference Optimization with Biomedical Applications

Da Wu,Zhanliang Wang,Quan Nguyen,Zhuoran Xu,Kai Wang

Main category: q-bio.QM

TL;DR: MINT框架通过偏好优化将单模态大模型与多模态生物医学数据对齐,提升其在文本或图像输入任务中的表现。

  • Motivation: 高质量多模态生物医学数据稀缺,限制了预训练大模型在专业任务中的微调效果。
  • Method: 采用MINT框架,结合ORPO偏好优化,利用多模态模型将领域知识迁移至单模态模型。
  • Result: 在罕见遗传病预测和组织类型分类任务中,MINT显著优于其他方法,甚至超越更大规模的模型。
  • Conclusion: MINT为通过偏好优化将单模态模型与多模态专业知识对齐提供了有效策略。

cs.AI

[88] ArtRAG: Retrieval-Augmented Generation with Structured Context for Visual Art Understanding

Shuai Wang,Ivona Najdenkoska,Hongyi Zhu,Stevan Rudinac,Monika Kackovic,Nachoem Wijnberg,Marcel Worring

Main category: cs.AI

TL;DR: ArtRAG是一个无需训练的新框架,结合结构化知识和检索增强生成(RAG),为艺术品提供多视角解释。

  • Motivation: 现有MLLMs在艺术品解释中缺乏文化、历史和风格的深度理解。
  • Method: 通过构建艺术上下文知识图(ACKG)和检索相关子图,引导MLLMs生成解释。
  • Result: 在SemArt和Artpedia数据集上表现优于基线,人类评估显示生成内容更具文化深度和连贯性。
  • Conclusion: ArtRAG为艺术品解释提供了一种高效且文化敏感的方法。

[89] Why Are You Wrong? Counterfactual Explanations for Language Grounding with 3D Objects

Tobias Preintner,Weixuan Yuan,Qi Huang,Adrian König,Thomas Bäck,Elena Raponi,Niki van Stein

Main category: cs.AI

TL;DR: 本文提出了一种生成反事实示例的方法,用于解释模型在对象指代识别任务中的错误预测。

  • Motivation: 研究动机是理解神经网络模型在语言描述和3D对象空间关系复杂任务中的行为,尤其是在模型预测错误时提供解释。
  • Method: 方法是通过生成反事实示例,即对错误分类样本生成语义相似但能导致正确预测的替代描述。
  • Result: 实验在ShapeTalk数据集和三个模型上进行,结果显示反事实示例能揭示描述弱点、模型偏差,并增强对模型行为的理解。
  • Conclusion: 结论是该方法有助于实践者更好地与系统交互,并帮助工程师改进模型。

[90] Neuro-Symbolic Concepts

Jiayuan Mao,Joshua B. Tenenbaum,Jiajun Wu

Main category: cs.AI

TL;DR: 本文提出了一种以概念为中心的范式,用于构建能够持续学习和灵活推理的智能体。该智能体利用神经符号概念的词汇,这些概念基于感官输入和动作输出,具有组合性,并能通过结构组合创建新概念。

  • Motivation: 为了解决智能体在不同领域任务中的高效学习、组合泛化、持续学习和零样本迁移问题。
  • Method: 采用神经符号概念,结合符号程序和神经网络表示,支持概念的组合和推理。
  • Result: 智能体能够在2D图像、视频、3D场景和机器人操作任务中高效学习和重组概念。
  • Conclusion: 概念中心框架具有数据高效性、组合泛化、持续学习和零样本迁移的优势。

cs.GR

[91] MonetGPT: Solving Puzzles Enhances MLLMs' Image Retouching Skills

Niladri Shekhar Dutt,Duygu Ceylan,Niloy J. Mitra

Main category: cs.GR

TL;DR: 论文探讨了利用多模态大语言模型(MLLM)进行照片后期修饰的可行性,通过训练模型理解图像处理操作并生成编辑序列,优于现有生成式和传统方法。

  • Motivation: 传统修饰方法保守但专业,而生成式编辑易改变原始对象身份。研究旨在结合MLLM的能力,提供可解释且保留细节的修饰方案。
  • Method: 训练MLLM通过视觉谜题理解图像操作,利用专家编辑照片合成推理数据集,微调模型以规划和生成编辑序列。
  • Result: 实验表明,该方法在可解释性和身份保留方面优于生成式和其他传统方法。
  • Conclusion: MLLM可有效用于照片修饰,提供用户可理解且灵活的编辑方案。

[92] Anymate: A Dataset and Baselines for Learning 3D Object Rigging

Yufan Deng,Yuhao Zhang,Chen Geng,Shangzhe Wu,Jiajun Wu

Main category: cs.GR

TL;DR: 论文提出Anymate数据集和基于学习的自动绑定框架,显著优于现有方法。

  • Motivation: 传统自动绑定方法依赖几何启发式,难以处理复杂几何体;数据驱动方法受限于训练数据规模。
  • Method: 提出三个顺序模块(关节、连接、蒙皮权重预测)的学习框架,并设计多种架构作为基线。
  • Result: 模型在Anymate数据集上表现显著优于现有方法。
  • Conclusion: Anymate数据集和框架为自动绑定和蒙皮提供了新基准。

physics.med-ph

[93] Towards order of magnitude X-ray dose reduction in breast cancer imaging using phase contrast and deep denoising

Ashkan Pakzad,Robert Turnbull,Simon J. Mutch,Thomas A. Leatham,Darren Lockie,Jane Fox,Beena Kumar,Daniel Häsermann,Christopher J. Hall,Anton Maksimenko,Benedicta D. Arhatari,Yakov I. Nesterets,Amir Entezam,Seyedamir T. Taba,Patrick C. Brennan,Timur E. Gureyev,Harry M. Quiney

Main category: physics.med-ph

TL;DR: 研究提出了一种基于深度学习的图像去噪方法,结合相位对比计算机断层扫描(PCT),可在降低16倍辐射剂量的同时保持乳腺癌图像质量。

  • Motivation: 现有乳腺癌筛查方法(如X射线乳腺摄影和数字乳腺断层合成)存在灵敏度、特异性不足及患者不适的问题,PCT虽为潜在替代方案,但高剂量需求限制了其应用。
  • Method: 使用PCT对新鲜乳腺切除样本成像,并应用深度学习图像去噪技术,评估其在降低辐射剂量时的图像质量。
  • Result: 实验表明,深度学习去噪可将PCT辐射剂量降低16倍以上,且图像质量(空间分辨率和对比噪声比)未受影响。
  • Conclusion: 该方法为未来在同步辐射设施中开展活体患者PCT乳腺癌成像奠定了基础。

eess.SP

[94] ECGDeDRDNet: A deep learning-based method for Electrocardiogram noise removal using a double recurrent dense network

Sainan xiao,Wangdong Yang,Buwen Cao,Jintao Wu

Main category: eess.SP

TL;DR: 提出了一种基于深度学习的ECG去噪框架ECGDeDRDNet,采用双循环密集网络架构,结合波形和图像信息,显著提升去噪效果。

  • Motivation: ECG信号常受噪声干扰(如基线漂移、肌肉伪影等),影响诊断价值,需要高效去噪方法。
  • Method: 使用LSTM层与DenseNet块结合的双循环架构,迭代利用ECG波形和估计的干净图像信息。
  • Result: 在MIT-BIH数据集上,PSNR和SSIM优于传统图像去噪方法,SNR和RMSE优于经典ECG去噪技术。
  • Conclusion: ECGDeDRDNet通过双循环设计有效结合时空信息,显著提升ECG去噪性能。

[95] A New k-Space Model for Non-Cartesian Fourier Imaging

Chin-Cheng Chan,Justin P. Haldar

Main category: eess.SP

TL;DR: 论文提出了一种基于傅里叶域基展开的新模型,解决了传统体素模型的高计算成本、慢收敛和伪影问题,并在非笛卡尔MRI重建中展示了改进的图像质量和计算效率。

  • Motivation: 传统体素模型存在高计算成本、慢收敛和伪影等长期限制,且可能被忽视的新问题(如近似误差、周期性和零空间特性)。
  • Method: 提出了一种基于傅里叶域基展开的新模型,替代传统的图像域体素模型。
  • Result: 新模型在非笛卡尔MRI重建中表现出更优的图像质量(减少伪影)和/或更低的计算复杂度(更快计算和更好收敛)。
  • Conclusion: 新模型对传统方法的局限性(包括新发现的问题)更具鲁棒性,为傅里叶成像数据重建提供了更优方案。

上次更新于: