Skip to content
每日arXiv - 2025年6月26日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] Computer Vision based Automated Quantification of Agricultural Sprayers Boom Displacement

Aryan Singh Dalal,Sidharth Rai,Rahul Singh,Treman Singh Kaloya,Rahul Harsha Cheppally,Ajay Sharda

Main category: cs.CV

TL;DR: 开发了一种基于计算机视觉的系统,用于量化农业喷雾器喷杆的运动,以提高喷雾精度。

  • Motivation: 喷雾器喷杆的不稳定性是喷雾应用误差的主要因素之一,但目前缺乏定量数据来指导喷杆设计和控制系统开发。
  • Method: 使用YOLO V7、V8和V11神经网络模型实时跟踪喷杆边缘目标,并结合倾角传感器验证模型输出。
  • Result: 模型检测目标准确率超过90%,距离估计误差在0.026米以内。
  • Conclusion: 该系统可量化喷杆运动,为喷杆设计和稳定性改进提供数据支持。

[2] EBC-ZIP: Improving Blockwise Crowd Counting with Zero-Inflated Poisson Regression

Yiming Ma,Victor Sanchez,Tanaya Guha

Main category: cs.CV

TL;DR: 论文提出EBC-ZIP框架,通过零膨胀泊松回归改进人群计数中的密度图估计,解决现有方法对稀疏区域的忽略问题。

  • Motivation: 现有方法忽视地面真实密度图的极端稀疏性,导致模型在稀疏区域表现不佳,且传统损失函数不适合离散计数数据。
  • Method: 提出EBC-ZIP框架,使用零膨胀泊松回归替代传统回归损失,结合增强块分类框架的优势。
  • Result: 在四个基准测试中,EBC-ZIP表现优于EBC并达到最先进水平。
  • Conclusion: EBC-ZIP通过更合理的概率损失函数,显著提升了人群计数的性能。

[3] ToSA: Token Merging with Spatial Awareness

Hsiang-Wei Huang,Wenhao Chai,Kuang-Ming Chen,Cheng-Yen Yang,Jenq-Neng Hwang

Main category: cs.CV

TL;DR: ToSA是一种结合语义和空间感知的令牌合并方法,通过深度图像生成伪空间令牌,优化ViT的计算效率。

  • Motivation: 现有令牌合并方法仅依赖视觉令牌的特征相似性,忽略了空间信息在早期ViT层中的潜在作用。
  • Method: 提出ToSA,利用深度图像生成伪空间令牌,结合语义和空间信息指导令牌合并。
  • Result: ToSA在多个视觉和具身问答基准上优于现有方法,显著减少ViT运行时间。
  • Conclusion: ToSA是一种高效的ViT加速解决方案,能更好地保留场景结构。

[4] BrokenVideos: A Benchmark Dataset for Fine-Grained Artifact Localization in AI-Generated Videos

Jiahao Lin,Weixuan Peng,Bojia Zi,Yifeng Gao,Xianbiao Qi,Xingjun Ma,Yu-Gang Jiang

Main category: cs.CV

TL;DR: 论文提出了BrokenVideos数据集,用于定位AI生成视频中的视觉伪影,填补了现有研究的空白。

  • Motivation: AI生成视频的视觉伪影(如不一致运动、不合理轨迹等)影响了真实性和用户信任,但缺乏针对伪影定位的基准数据集。
  • Method: 引入BrokenVideos数据集,包含3,254个AI生成视频,带有像素级标注的伪影区域,并通过人工验证确保标注质量。
  • Result: 实验表明,在BrokenVideos上训练的模型能显著提升伪影定位能力。
  • Conclusion: BrokenVideos为生成视频模型的伪影定位研究提供了重要基准。

[5] From 2D to 3D Cognition: A Brief Survey of General World Models

Ningwei Xie,Zizi Tian,Lei Yang,Xiao-Ping Zhang,Meng Guo,Jie Li

Main category: cs.CV

TL;DR: 该论文综述了从2D感知到3D认知的世界模型发展,提出了一个概念框架,并分析了3D表示和世界知识两大技术驱动力。

  • Motivation: 填补3D认知世界模型领域缺乏系统性分析的空白,推动从2D感知到3D认知的过渡。
  • Method: 引入概念框架,分类新兴技术,并分析3D物理场景生成、3D空间推理和3D空间交互三大核心能力。
  • Result: 总结了3D世界模型在具体应用中的部署,并指出了数据、建模和部署方面的挑战。
  • Conclusion: 提出了未来发展方向,以推动更稳健和通用的3D世界模型。

[6] EAR: Erasing Concepts from Unified Autoregressive Models

Haipeng Fan,Shiyuan Zhang,Baohunesitu,Zihang Guo,Huaiwen Zhang

Main category: cs.CV

TL;DR: 论文提出了一种名为EAR的微调方法,用于在自回归模型中有效且保持性能地删除不需要的概念,并引入了WGA和TLM策略以及新的基准ECGVF。

  • Motivation: 自回归模型在视觉理解和图像生成任务中表现优异,但如何在删除不需要的概念的同时保持生成质量仍是一个挑战。
  • Method: 提出了EAR方法,包括WGA策略和TLM策略,并设计了ECGVF基准来评估概念删除效果。
  • Result: 实验表明,EAR在删除效果和模型性能保持上均有显著提升。
  • Conclusion: EAR方法在自回归模型中实现了高效且性能保留的概念删除。

[7] Loss-Aware Automatic Selection of Structured Pruning Criteria for Deep Neural Network Acceleration

Deepak Ghimire,Kilho Lee,Seong-heum Kim

Main category: cs.CV

TL;DR: 本文提出了一种高效的损失感知自动选择结构化剪枝标准(LAASP)方法,用于压缩和加速深度神经网络。该方法通过剪枝与训练相结合的方式,自动选择剪枝标准和层,并通过短暂重训练减少精度损失。实验表明,该方法在减少FLOPs的同时显著提高了模型精度。

  • Motivation: 结构化剪枝是压缩神经网络的有效方法,但现有方法通常需要繁琐的三阶段流程(训练、剪枝、微调),且剪枝标准和层选择依赖人工。本文旨在提出一种更高效的剪枝方法,自动优化剪枝过程。
  • Method: 提出LAASP方法,采用剪枝与训练相结合的策略,自动从候选标准中选择剪枝标准和层,并通过短暂重训练减少精度损失。剪枝率自动优化,无需人工分配。
  • Result: 在VGGNet和ResNet模型上的实验表明,该方法显著减少了FLOPs(如ResNet56减少52%),同时提高了精度(如ResNet56在CIFAR-10上优于现有方法)。ImageNet上的ResNet50减少42% FLOPs,仅损失0.33%的top-5精度。
  • Conclusion: LAASP方法通过自动选择和优化剪枝过程,显著提升了剪枝效率和模型性能,适用于资源受限的边缘设备部署。

[8] Towards Efficient Exemplar Based Image Editing with Multimodal VLMs

Avadhoot Jadhav,Ashutosh Srivastava,Abhinav Java,Silky Singh,Tarun Ram Menta,Surgan Jandial,Balaji Krishnamurthy

Main category: cs.CV

TL;DR: 本文提出了一种基于示例对的图像编辑方法,利用预训练的文本到图像扩散模型和多模态VLM,无需优化即可高效完成任务。

  • Motivation: 仅通过文本描述难以捕捉所有类型的图像编辑需求,而示例对能更直观地表达模糊的编辑意图。
  • Method: 利用预训练的文本到图像扩散模型和多模态VLM,构建端到端无优化的编辑流程。
  • Result: 实验表明,该方法在多种编辑类型上优于基线方法,且速度快约4倍。
  • Conclusion: 该方法为基于示例的图像编辑提供了一种高效且性能优越的解决方案。

[9] Seeing is Believing? Mitigating OCR Hallucinations in Multimodal Large Language Models

Zhentao He,Can Zhang,Ziheng Wu,Zhenghao Chen,Yufei Zhan,Yifan Li,Zhao Zhang,Xian Wang,Minghui Qiu

Main category: cs.CV

TL;DR: 论文提出KIE-HVQA基准和GRPO框架,解决多模态大语言模型在视觉退化场景下的幻觉问题,实验显示性能显著提升。

  • Motivation: 现有模型在视觉退化场景下依赖语言先验或视觉-文本推理错位,导致幻觉内容生成,需改进。
  • Method: 提出KIE-HVQA基准和GRPO框架,结合视觉不确定性自感知和拒绝回答机制。
  • Result: 7B参数模型在KIE-HVQA上比GPT-4o幻觉减少22%,标准任务性能未显著下降。
  • Conclusion: GRPO框架有效减少幻觉,提升模型在视觉退化场景下的鲁棒性。

[10] Towards Scalable and Generalizable Earth Observation Data Mining via Foundation Model Composition

Man Duc Chuc

Main category: cs.CV

TL;DR: 研究探讨了结合预训练基础模型提升地球观测任务性能的潜力,发现特征级集成小模型可媲美或超越大模型,同时减少资源消耗。

  • Motivation: 探索预训练模型在地球观测任务中的复用与结合,以提供更通用、可扩展的解决方案。
  • Method: 使用GEO-Bench基准测试,评估包括Prithvi、Hiera和DOFA在内的多个模型在11个数据集上的表现,采用特征级集成和知识蒸馏。
  • Result: 特征级集成小模型性能可媲美或超越大模型,且训练时间和计算资源需求更低。
  • Conclusion: 预训练模型的结合与知识蒸馏为地球观测任务提供了高效、实用的解决方案。

[11] Progressive Alignment Degradation Learning for Pansharpening

Enzhe Zhao,Zhichang Guo,Yao Li,Fanghui Song,Boying Wu

Main category: cs.CV

TL;DR: 论文探讨了Wald协议在深度学习全色锐化中的局限性,并提出了一种新的渐进对齐退化模块(PADM)和高频差异嵌入方法(HFreqdiff),显著提升了图像质量。

  • Motivation: Wald协议生成的合成数据无法准确模拟真实世界的退化模式,限制了深度学习模型的泛化能力。
  • Method: 提出PADM模块,通过两个子网络(PAlignNet和PDegradeNet)自适应学习退化过程;引入HFreqdiff,嵌入高频细节并结合CFB和BACM模块。
  • Result: 实验表明,该方法在空间锐度和图像质量上优于现有技术。
  • Conclusion: PADM和HFreqdiff有效解决了Wald协议的局限性,提升了全色锐化模型的性能。

[12] UniCode2: Cascaded Large-scale Codebooks for Unified Multimodal Understanding and Generation

Yanzhe Chen,Huasong Zhong,Yan Li,Zhenheng Yang

Main category: cs.CV

TL;DR: UniCode^2提出了一种级联码本框架,用于大规模、语义对齐且稳定的视觉标记化,解决了现有方法在词汇量小或训练不稳定上的问题。

  • Motivation: 现有视觉码本方法要么词汇量小缺乏细粒度语义,要么简单扩展导致标记利用率低和训练不稳定。
  • Method: 通过聚类数百万SigLIP序列嵌入构建500K条目码本,采用级联设计(冻结码本锚定嵌入空间,可训练码本优化任务语义)。
  • Result: UniCode^2在多样化基准测试中表现优异,支持高质量视觉合成且无需牺牲稳定性或语义对齐。
  • Conclusion: UniCode^2证明了在不牺牲稳定性、语义或模块化的情况下扩展视觉标记空间的可行性。

[13] Dynamic Bandwidth Allocation for Hybrid Event-RGB Transmission

Pujing Yang,Guangyi Zhang,Yunlong Cai,Lei Yu,Guanding Yu

Main category: cs.CV

TL;DR: 提出了一种联合事件和图像(E-I)传输框架,通过贝叶斯建模和信息瓶颈方法消除冗余,优化带宽利用,同时实现实时去模糊。

  • Motivation: 混合系统中事件和RGB图像传输量大,存在冗余信息,需优化带宽利用并提升重建质量。
  • Method: 采用贝叶斯建模和信息瓶颈方法,分离共享和领域特定信息,动态分配传输带宽。
  • Result: 仿真结果表明,该方案在重建质量和去模糊性能上优于传统系统。
  • Conclusion: 提出的框架有效解决了混合系统的传输冗余问题,提升了性能。

[14] Recognizing Surgical Phases Anywhere: Few-Shot Test-time Adaptation and Task-graph Guided Refinement

Kun Yuan,Tingxuan Chen,Shi Li,Joel L. Lavanchy,Christian Heiliger,Ege Özsoy,Yiming Huang,Long Bai,Nassir Navab,Vinkle Srivastav,Hongliang Ren,Nicolas Padoy

Main category: cs.CV

TL;DR: SPA是一个轻量级框架,通过少量标注和自然语言定义,实现跨机构和跨手术的工作流理解,提升手术阶段识别的性能。

  • Motivation: 手术工作流的复杂性和多样性导致通用模型难以适应不同机构和手术环境,现有基础模型的零样本性能受限于领域偏移。
  • Method: SPA结合少量样本空间适应、扩散模型确保时间一致性,以及动态测试时适应,提升模型在未见手术环境中的表现。
  • Result: SPA在少量标注情况下,跨机构和手术的识别性能达到最优,甚至超过全样本模型。
  • Conclusion: SPA为手术工作流理解提供了一种高效且适应性强的解决方案。

[15] A Transformer Based Handwriting Recognition System Jointly Using Online and Offline Features

Ayush Lodh,Ritabrata Chakraborty,Shivakumara Palaiahnakote,Umapada Pal

Main category: cs.CV

TL;DR: 提出了一种结合离线图像和在线笔画数据的端到端网络,通过早期融合提升手写识别性能,实现了SOTA准确率。

  • Motivation: 手写识别通常仅利用单一模态(如离线图像或在线笔画数据),而忽略了二者的互补性。
  • Method: 设计了一个端到端网络,将离线图像和在线笔画数据在共享潜在空间中进行早期融合,使用补丁编码器和轻量级Transformer分别处理两种数据,并通过可学习的潜在查询联合关注两种数据流。
  • Result: 在IAMOn-DB和VNOn-DB数据集上实现了SOTA准确率,比之前最佳结果提升了1%。
  • Conclusion: 早期融合离线图像和在线笔画数据能显著提升手写识别性能,并增强书写者独立性。

[16] Hierarchical Mask-Enhanced Dual Reconstruction Network for Few-Shot Fine-Grained Image Classification

Ning Luo,Meiyin Hu,Huan Wan,Yanyan Yang,Zhuohang Jiang,Xin Wei

Main category: cs.CV

TL;DR: HMDRN通过双层次特征重建和掩码增强处理,显著提升了小样本细粒度图像分类性能。

  • Motivation: 现有方法在细粒度图像分类中存在空间信息丢失和局部特征对齐问题,以及缺乏层次特征利用和判别区域聚焦机制。
  • Method: 提出HMDRN,结合双层次特征重建与掩码增强的自重建模块,平衡高层语义和中层结构信息。
  • Result: 在三个数据集上优于现有方法,双层次重建增强类间区分,掩码变换减少类内差异。
  • Conclusion: HMDRN通过改进特征重建和聚焦判别区域,有效提升了细粒度分类性能。

[17] Forensic Study of Paintings Through the Comparison of Fabrics

Juan José Murillo-Fuentes,Pablo M. Olmos,Laura Alba-Carcelén

Main category: cs.CV

TL;DR: 提出了一种基于深度学习的纺织品相似性评估方法,用于艺术品中画布的认证和比较。

  • Motivation: 传统方法依赖线密度图匹配,无法适用于非连续位置的画布。
  • Method: 设计了Siamese深度学习模型,通过图像对比较特征表示,并提出相似性估计方法。
  • Result: 在Museo Nacional del Prado的画布上验证了方法的可行性,即使线密度相似也能有效比较。
  • Conclusion: 该方法为艺术品分析提供了新途径,证明了其准确性和实用性。

[18] From Ideal to Real: Unified and Data-Efficient Dense Prediction for Real-World Scenarios

Changliang Xia,Chengyou Jia,Zhuohang Dang,Minnan Luo

Main category: cs.CV

TL;DR: 论文提出了DenseWorld基准和DenseDiT方法,用于解决密集预测任务在现实场景中的泛化问题,显著优于现有方法。

  • Motivation: 密集预测任务在计算机视觉中很重要,但现有方法在现实场景中泛化能力有限且数据稀缺。
  • Method: 提出DenseDiT,利用生成模型的视觉先验,通过参数复用机制和轻量级分支实现多尺度上下文自适应集成。
  • Result: 在DenseWorld基准上,DenseDiT显著优于现有基线方法,仅需0.01%的训练数据。
  • Conclusion: DenseDiT在现实场景中具有优越性能和实用价值,为密集预测任务提供了新解决方案。

[19] Breaking Spatial Boundaries: Spectral-Domain Registration Guided Hyperspectral and Multispectral Blind Fusion

Kunjing Yang,Libin Zheng,Minru Bai,Ting Lu,Leyuan Fang

Main category: cs.CV

TL;DR: 提出了一种基于光谱域的未配准高光谱图像(HSI)和多光谱图像(MSI)融合方法,通过轻量级光谱先验学习(SPL)网络和盲稀疏融合(BSF)方法,解决了配准和融合问题。

  • Motivation: 现有方法通过空间变换配准HSI和MSI,但由于分辨率差异大且耗时,效果不佳。因此,从光谱域入手解决配准问题。
  • Method: 1. 开发SPL网络提取HSI光谱特征并增强MSI光谱分辨率;2. 通过空间下采样生成配准HSI;3. 提出BSF方法,利用群稀疏正则化等效促进图像低秩性;4. 使用PAO算法求解BSF模型。
  • Result: 在模拟和真实数据集上的实验验证了方法在配准、融合和分类性能提升方面的有效性。
  • Conclusion: 该方法通过光谱域处理解决了配准问题,并显著提升了融合效率和分类性能。

[20] Ctrl-Z Sampling: Diffusion Sampling with Controlled Random Zigzag Explorations

Shunqi Mao,Wei Guo,Chaoyi Zhang,Weidong Cai

Main category: cs.CV

TL;DR: 提出了一种名为Ctrl-Z Sampling的新采样策略,用于在条件生成中检测并逃离局部最优解,提升生成质量。

  • Motivation: 扩散模型在条件生成中容易陷入局部最优解,导致全局不一致或条件不匹配的问题。
  • Method: 通过奖励模型识别局部最优解,注入噪声并回退到更早状态以逃离,动态交替进行前向优化和后向探索。
  • Result: 实验表明,Ctrl-Z Sampling显著提升了生成质量,仅增加约7.6倍的函数评估。
  • Conclusion: Ctrl-Z Sampling是一种模型无关的方法,可有效提升扩散模型的生成质量。

[21] TDiR: Transformer based Diffusion for Image Restoration Tasks

Abbas Anwar,Mohammad Shullar,Ali Arshad Nasir,Mudassir Masood,Saeed Anwar

Main category: cs.CV

TL;DR: 提出了一种基于Transformer的扩散模型,用于图像恢复任务,表现优于现有深度学习方法。

  • Motivation: 解决挑战性环境中图像因噪声、色偏、模糊和光散射等问题导致的质量下降,影响下游任务应用。
  • Method: 结合Transformer的扩散模型,用于图像增强、去噪和去雨等任务。
  • Result: 在公开数据集上,模型性能优于现有方法,提升了图像质量。
  • Conclusion: 扩散模型与Transformer结合在图像恢复任务中表现优异,扩展了高质量视觉数据的应用潜力。

[22] Radiomic fingerprints for knee MR images assessment

Yaxi Chen,Simin Ni,Shaheer U. Saeed,Aleksandra Ivanova,Rikin Hargunani,Jie Huang,Chaozong Liu,Yipeng Hu

Main category: cs.CV

TL;DR: 提出了一种动态构建放射组学指纹的新方法,通过深度学习模型为每位患者个性化选择特征,提高了诊断准确性并保持了可解释性。

  • Motivation: 传统放射组学方法使用固定特征集,难以捕捉个体病理差异,导致性能受限。动态特征选择有望解决这一问题。
  • Method: 提出放射组学指纹框架,通过DL模型为每位患者动态选择特征,并结合低维逻辑回归进行分类。
  • Result: 在多项诊断任务中表现优于或媲美端到端DL模型,同时提供了临床可解释性。
  • Conclusion: 动态放射组学指纹方法在保持可解释性的同时提高了诊断性能,为临床提供了有价值的见解。

[23] On the Burstiness of Faces in Set

Jiong Wang

Main category: cs.CV

TL;DR: 论文研究了在人脸识别中普遍存在的“突发性”现象,并提出三种策略来检测和抑制这种现象,从而提高识别性能。

  • Motivation: 突发性现象在基于集合的人脸识别中广泛存在,导致训练和评估性能下降,因此需要检测和抑制。
  • Method: 提出基于Quickshift++、特征自相似性和广义最大池化(GMP)的三种策略来检测突发性人脸,并在训练和评估阶段调整采样比例或贡献。
  • Result: 实验证明突发性现象普遍存在,抑制突发性显著提高了识别性能。
  • Conclusion: 通过检测和抑制突发性现象,可以有效提升基于集合的人脸识别性能。

[24] From Codicology to Code: A Comparative Study of Transformer and YOLO-based Detectors for Layout Analysis in Historical Documents

Sergio Torres Aguilar

Main category: cs.CV

TL;DR: 本文评估了五种目标检测架构在三个历史文档数据集上的表现,发现Transformer模型在结构化布局上表现优异,而CNN-OBB模型在复杂文档上更具优势。

  • Motivation: 历史文档布局分析(DLA)对自动化处理复杂页面组织至关重要,需要评估不同模型在多样化数据集上的表现。
  • Method: 比较了两种Transformer模型(Co-DETR, Grounding DINO)和三种YOLO变体(AABB, OBB, YOLO-World)在三个数据集(e-NDP, CATMuS, HORAE)上的性能。
  • Result: Co-DETR在e-NDP上表现最佳(0.752 mAP),而YOLOv11x-OBB在更复杂的CATMuS和HORAE上显著优于其他模型(0.564和0.568)。
  • Conclusion: OBB是建模历史文档非笛卡尔特性的关键,Transformer适合结构化布局,而CNN-OBB在复杂文档上更具泛化能力。

[25] Feature Hallucination for Self-supervised Action Recognition

Lei Wang,Piotr Koniusz

Main category: cs.CV

TL;DR: 提出了一种深度翻译动作识别框架,通过联合预测动作概念和辅助特征提升识别精度,并引入两种新颖的领域特定描述符(ODF和SDF)来增强特征表示。

  • Motivation: 视频中的人类动作识别需要高级语义推理和多模态特征的有效整合,而现有方法在特征表示和计算效率上存在不足。
  • Method: 提出了一种框架,结合对象检测特征(ODF)和显著性检测特征(SDF),并整合光学流、骨架数据等多种辅助模态,同时引入不确定性建模和鲁棒损失函数。
  • Result: 在多个基准测试(如Kinetics-400、Kinetics-600等)上实现了最先进的性能。
  • Conclusion: 该框架通过多模态自监督学习有效捕捉细粒度动作动态,显著提升了动作识别的准确性。

[26] InvZW: Invariant Feature Learning via Noise-Adversarial Training for Robust Image Zero-Watermarking

Abdullah All Tanvir,Xin Zhong

Main category: cs.CV

TL;DR: 提出了一种基于失真不变特征学习的深度学习框架,用于鲁棒的图像零水印技术,保持原始图像不变并通过特征空间优化学习参考签名。

  • Motivation: 传统水印技术可能破坏图像质量,而零水印技术无需修改原始图像,但需要更强的鲁棒性以应对失真。
  • Method: 框架包含两个模块:1) 通过噪声对抗学习训练特征提取器,生成对失真不变且语义丰富的特征;2) 设计基于学习的多比特零水印方案,将特征投影到优化的参考代码上以匹配目标二进制消息。
  • Result: 在多种图像数据集和失真条件下,方法在特征稳定性和水印恢复方面达到了最先进的鲁棒性。
  • Conclusion: 该框架在泛化性和鲁棒性上优于现有的自监督和深度水印技术。

[27] Exploiting Lightweight Hierarchical ViT and Dynamic Framework for Efficient Visual Tracking

Ben Kang,Xin Chen,Jie Zhao,Chunjuan Bo,Dong Wang,Huchuan Lu

Main category: cs.CV

TL;DR: HiT和DyHiT是高效的视觉跟踪模型,通过轻量级Transformer和动态路由技术,实现了高速度和性能的平衡。

  • Motivation: 解决Transformer跟踪器在资源受限设备上速度慢的问题。
  • Method: HiT采用Bridge Module和双图像位置编码;DyHiT通过动态路由分类场景并选择计算路径。
  • Result: HiT达61 fps和64.6% AUC;DyHiT达111 fps和62.4% AUC。
  • Conclusion: HiT和DyHiT在速度和性能上优于现有高效跟踪器,动态路由方法可加速高性能跟踪器。

[28] A Novel Large Vision Foundation Model (LVFM)-based Approach for Generating High-Resolution Canopy Height Maps in Plantations for Precision Forestry Management

Shen Tan,Xin Zhang,Liangxiu Han,Huaguo Huang,Han Wang

Main category: cs.CV

TL;DR: 提出了一种基于大型视觉基础模型(LVFM)的高分辨率冠层高度图(CHM)生成方法,用于低成本、高精度监测人工林地上生物量(AGB)。

  • Motivation: 传统激光雷达方法成本高昂,而基于RGB图像的深度学习方法在提取冠层高度特征时精度不足。
  • Method: 开发了一种结合特征提取器、自监督特征增强模块和高度估计器的新模型。
  • Result: 在北京房山区的测试中,模型表现优于现有方法,平均绝对误差0.09米,均方根误差0.24米,与激光雷达CHM的相关系数为0.78。
  • Conclusion: 该方法为碳汇评估提供了可扩展的工具,适用于人工林和天然林。

[29] Med-Art: Diffusion Transformer for 2D Medical Text-to-Image Generation

Changlu Guo,Anders Nymark Christensen,Morten Rieger Hannemose

Main category: cs.CV

TL;DR: Med-Art是一个针对有限数据的医学图像生成框架,利用视觉语言模型生成医学图像描述,并基于Diffusion Transformer实现高性能生成。

  • Motivation: 解决医学图像生成中数据集小、医学文本数据稀缺的挑战。
  • Method: 结合视觉语言模型生成图像描述,采用PixArt-α模型和创新的HLDF方法进行微调。
  • Result: 在两个医学图像数据集上取得了FID、KID和下游分类任务的最先进性能。
  • Conclusion: Med-Art在有限数据下实现了高性能的医学图像生成,解决了现有挑战。

[30] HiWave: Training-Free High-Resolution Image Generation via Wavelet-Based Diffusion Sampling

Tobias Vontobel,Seyedmorteza Sadat,Farnood Salehi,Romann M. Weber

Main category: cs.CV

TL;DR: HiWave是一种无需训练的零样本方法,通过两阶段流程提升预训练扩散模型在超高分辨率图像合成中的视觉保真度和结构一致性。

  • Motivation: 高分辨率扩散模型训练计算成本高,现有零样本方法在超出训练分辨率时易产生伪影和空间不连贯。
  • Method: 采用两阶段流程:生成基础图像后,进行补丁式DDIM反演和基于小波的细节增强模块。
  • Result: HiWave显著减少了伪影,在用户研究中80%以上优于现有方法。
  • Conclusion: HiWave无需重新训练或架构修改,即可实现高质量超高分辨率图像合成。

[31] A Deep Learning Approach to Identify Rock Bolts in Complex 3D Point Clouds of Underground Mines Captured Using Mobile Laser Scanners

Dibyayan Patra,Pasindu Ranasinghe,Bikram Banerjee,Simit Raval

Main category: cs.CV

TL;DR: 论文提出了一种名为DeepBolt的两阶段深度学习架构,用于自动识别地下矿山3D点云中的锚杆,解决了数据噪声、环境变化和目标遮挡等问题,性能显著优于现有方法。

  • Motivation: 地下矿山中锚杆的频繁评估对安全至关重要,但手动检测困难且耗时,因此需要自动化解决方案。现有方法在复杂环境中表现不佳,亟需更鲁棒的识别技术。
  • Method: 提出DeepBolt,一种两阶段深度学习架构,专门处理类别不平衡问题,用于复杂3D点云中锚杆的高效识别。
  • Result: DeepBolt在IoU指标上比现有语义分割模型提升42.5%,分类精度和召回率分别达到96.41%和96.96%。
  • Conclusion: DeepBolt在复杂地下环境中表现出色,为锚杆自动识别提供了高效且鲁棒的解决方案。

[32] AI-assisted radiographic analysis in detecting alveolar bone-loss severity and patterns

Chathura Wimalasiri,Piumal Rathnayake,Shamod Wijerathne,Sumudu Rasnayaka,Dhanushka Leuke Bandara,Roshan Ragel,Vajira Thambawita,Isuru Nawinne

Main category: cs.CV

TL;DR: 提出了一种基于AI的深度学习框架,用于自动检测和量化牙槽骨流失及其模式,通过结合YOLOv8和Keypoint R-CNN模型,实现了高精度的骨流失评估。

  • Motivation: 牙周炎严重影响口腔健康和生活质量,准确评估骨流失程度和模式对诊断和治疗至关重要。
  • Method: 结合YOLOv8进行牙齿检测,Keypoint R-CNN识别解剖标志,YOLOv8x-seg模型分割骨水平和牙齿掩模,通过几何分析确定骨流失模式。
  • Result: 在1000张X光片数据集上评估,骨流失严重程度检测的ICC达0.80,模式分类准确率为87%。
  • Conclusion: 该自动化系统为牙周评估提供了快速、客观且可重复的工具,有望改善早期诊断和个性化治疗。

[33] Pay Less Attention to Deceptive Artifacts: Robust Detection of Compressed Deepfakes on Online Social Networks

Manyi Li,Renshuai Tao,Yufan Liu,Chuangchuang Tan,Haotong Qin,Bing Li,Yunchao Wei,Yao Zhao

Main category: cs.CV

TL;DR: PLADA框架通过消除块效应和利用开放数据聚合,显著提升了社交媒体上深度伪造图像的检测性能。

  • Motivation: 现有深度伪造检测方法忽视了社交媒体压缩引入的块效应,且依赖原始图像,难以应对实际场景。
  • Method: PLADA包含块效应消除器(B2E)和开放数据聚合(ODA)模块,分别处理压缩效应和数据不足问题。
  • Result: 在26个数据集上的实验表明,PLADA在检测社交媒体上的深度伪造图像时优于现有方法。
  • Conclusion: PLADA不仅解决了块效应问题,还为开放世界场景提供了鲁棒的深度伪造检测方案。

[34] Lightweight Multi-Frame Integration for Robust YOLO Object Detection in Videos

Yitong Quan,Benjamin Kiefer,Martin Messmer,Andreas Zell

Main category: cs.CV

TL;DR: 提出了一种简单有效的多帧输入策略,利用YOLO检测器处理视频中的时序信息,提升检测鲁棒性,同时保持模型的轻量化和实时性。

  • Motivation: 现有单帧检测方法忽略视频中的时序信息,而复杂时序模块会增加模型负担。针对运动模糊、遮挡等问题,需提升检测性能。
  • Method: 将连续多帧堆叠输入YOLO检测器,仅监督目标帧输出,以最小修改利用时序信息。
  • Result: 在MOT20Det和BOAT360数据集上验证,方法显著提升检测鲁棒性,缩小轻量与重型网络差距。
  • Conclusion: 该方法简单高效,适用于实际场景,并贡献了BOAT360数据集支持未来研究。

[35] AdvMIM: Adversarial Masked Image Modeling for Semi-Supervised Medical Image Segmentation

Lei Zhu,Jun Zhou,Rick Siow Mong Goh,Yong Liu

Main category: cs.CV

TL;DR: 提出了一种对抗性掩码图像建模方法,用于半监督医学图像分割,通过增强监督信号和减少域差距,显著提升性能。

  • Motivation: 解决Transformer在标注数据稀缺的半监督学习场景中表现不佳的问题,通过掩码图像建模增强监督信号。
  • Method: 构建辅助掩码域,利用原始标签和伪标签训练Transformer预测完整分割掩码,并设计对抗训练损失减少域差距。
  • Result: 在三个公开医学图像分割数据集上显著优于现有方法。
  • Conclusion: 对抗性掩码图像建模方法有效提升了半监督医学图像分割的性能,代码已开源。

[36] Show, Tell and Summarize: Dense Video Captioning Using Visual Cue Aided Sentence Summarization

Zhiwang Zhang,Dong Xu,Wanli Ouyang,Chuanqi Tan

Main category: cs.CV

TL;DR: 提出了一种基于分割与摘要(DaS)的密集视频描述框架,通过两阶段LSTM和分层注意力机制生成描述性句子。

  • Motivation: 解决长视频中密集事件描述的问题,通过分割视频并利用视觉特征辅助句子摘要。
  • Method: 将视频分割为事件提案,提取视觉特征并生成句子描述,采用两阶段LSTM和分层注意力机制进行摘要。
  • Result: 在ActivityNet Captions数据集上验证了DaS框架的有效性。
  • Conclusion: DaS框架通过结合视觉特征和语义信息,成功实现了密集视频描述。

[37] Causal Representation Learning with Observational Grouping for CXR Classification

Rajat Rasal,Avinash Kori,Ben Glocker

Main category: cs.CV

TL;DR: 论文提出了一种通过分组观察学习可识别因果表示的方法,用于胸部X光片的疾病分类,提高了模型的泛化性和鲁棒性。

  • Motivation: 在医学影像中,识别因果关系可以提高任务特定潜在特征的泛化性和鲁棒性。
  • Method: 通过分组观察学习可识别表示,采用端到端框架,并在实验中利用分组强制表示对种族、性别和成像视角的不变性。
  • Result: 实验表明,这种因果表示在多个分类任务中提高了泛化性和鲁棒性。
  • Conclusion: 分组观察学习可识别因果表示是一种有效的方法,能够提升医学影像分类任务的性能。

[38] Dense Video Captioning using Graph-based Sentence Summarization

Zhiwang Zhang,Dong Xu,Wanli Ouyang,Luping Zhou

Main category: cs.CV

TL;DR: 提出了一种基于图的分割与总结(GPaS)框架,用于密集视频字幕生成,通过分割事件为短片段并总结描述信息,结合GCN和LSTM提升性能。

  • Motivation: 现有方法在场景变化较长的视频事件中表现不佳,未能充分探索事件内的场景演化。
  • Method: 采用两阶段框架:分割阶段将事件分成短片段生成字幕;总结阶段通过GCN-LSTM交互模块整合语义信息。
  • Result: 在ActivityNet Captions和YouCook II数据集上优于现有方法。
  • Conclusion: GPaS框架有效解决了长事件字幕生成的场景变化问题,结合GCN和LSTM提升了性能。

[39] Learning-Based Distance Estimation for 360° Single-Sensor Setups

Yitong Quan,Benjamin Kiefer,Martin Messmer,Andreas Zell

Main category: cs.CV

TL;DR: 提出了一种基于神经网络的单目360度鱼眼相机距离估计方法,优于传统几何方法。

  • Motivation: 解决全向成像中传统几何方法因镜头畸变和环境变化导致的距离估计不准确问题。
  • Method: 使用神经网络直接从原始全向输入中学习并推断物体距离,无需精确镜头标定。
  • Result: 在三个360度数据集上验证,模型在准确性和鲁棒性上优于传统方法和其他学习基线。
  • Conclusion: 深度学习在全向距离估计中具有潜力,适用于低成本机器人、自主导航和监控应用。

[40] TRIM: A Self-Supervised Video Summarization Framework Maximizing Temporal Relative Information and Representativeness

Pritam Mishra,Coloma Ballester,Dimosthenis Karatzas

Main category: cs.CV

TL;DR: 提出了一种自监督视频摘要模型,无需注意力机制或复杂架构,性能优于现有无监督方法,媲美有监督模型。

  • Motivation: 视频内容普及导致对高效摘要的需求增加,但现有方法依赖标注或复杂模型,难以跨域应用。
  • Method: 采用马尔可夫过程驱动的损失指标和两阶段自监督学习,避免注意力、RNN或Transformer。
  • Result: 在SUMME和TVSUM数据集上表现优异,超越无监督方法,媲美有监督模型。
  • Conclusion: 展示了无标注高效架构的潜力,挑战了对复杂模型的依赖,推动了通用视频摘要技术的发展。

[41] WonderFree: Enhancing Novel View Quality and Cross-View Consistency for 3D Scene Exploration

Chaojun Ni,Jie Li,Haoyun Li,Hengyu Liu,Xiaofeng Wang,Zheng Zhu,Guosheng Zhao,Boyuan Wang,Chenxin Li,Guan Huang,Wenjun Mei

Main category: cs.CV

TL;DR: WonderFree是一个交互式3D场景生成模型,解决了现有方法在视角探索中的限制,通过WorldRestorer和ConsistView提升新视角质量和跨视角一致性。

  • Motivation: 当前3D生成方法在探索性上受限,无法在超出原始视角的大范围移动中生成高质量图像。
  • Method: 提出WonderFree模型,包括WorldRestorer(消除新视角中的浮动物体和伪影)和ConsistView(多视角联合恢复机制)。
  • Result: 实验显示WonderFree显著提升了渲染质量和全局一致性,用户偏好率达77.20%。
  • Conclusion: WonderFree为3D场景探索提供了无缝且沉浸式的体验,代码和模型将公开。

[42] SFNet: Fusion of Spatial and Frequency-Domain Features for Remote Sensing Image Forgery Detection

Ji Qi,Xinchang Zhang,Dingqi Ye,Yongjia Ruan,Xin Guo,Shaowen Wang,Haifeng Li

Main category: cs.CV

TL;DR: SFNet是一种新型的伪造检测框架,结合空间和频域特征,显著提升了遥感图像伪造检测的准确性和泛化能力。

  • Motivation: 生成式AI的快速发展导致伪造遥感图像难以检测,可能引发错误情报和虚假信息。现有方法依赖单一视觉特征,难以应对多样化的伪造场景。
  • Method: SFNet采用两个独立的特征提取器分别捕获空间和频域特征,并通过特征映射和混合域特征细化模块(CBAM注意力)对齐和融合多域特征。
  • Result: 在三个数据集上,SFNet比现有方法准确率提升4%-15.18%,并展现出强大的泛化能力。
  • Conclusion: SFNet通过结合多域特征,显著提升了伪造检测的准确性和适应性,适用于多样化的遥感数据。

[43] Video Perception Models for 3D Scene Synthesis

Rui Huang,Guangyao Zhai,Zuria Bauer,Marc Pollefeys,Federico Tombari,Leonidas Guibas,Gao Huang,Francis Engelmann

Main category: cs.CV

TL;DR: VIPScene利用视频生成模型的3D物理世界常识知识,通过文本和图像提示生成高真实性和结构一致性的3D场景。

  • Motivation: 传统3D场景合成需要专家知识和大量手动操作,自动化此过程对建筑设计、机器人模拟等领域有重要意义。现有方法(如LLMs或图像生成模型)在3D空间推理或多视角一致性方面存在局限。
  • Method: VIPScene结合视频生成、前馈3D重建和开放词汇感知模型,通过文本和图像提示生成场景,并引入FPVScore评估一致性和合理性。
  • Result: 实验表明VIPScene显著优于现有方法,且能泛化到多样场景。
  • Conclusion: VIPScene通过视频生成模型的3D常识知识,实现了高真实性和一致性的3D场景合成,具有广泛应用潜力。

[44] Shape2Animal: Creative Animal Generation from Natural Silhouettes

Quoc-Duy Tran,Anh-Tuan Vo,Dinh-Khoi Vo,Tam V. Nguyen,Minh-Triet Tran,Trung-Nghia Le

Main category: cs.CV

TL;DR: Shape2Animal框架通过重新解释自然物体轮廓(如云、石头或火焰)为动物形态,模拟人类的pareidolia现象。

  • Motivation: 模仿人类在模糊刺激中感知有意义模式的能力,探索视觉创意和应用的潜力。
  • Method: 使用开放词汇分割提取轮廓,结合视觉语言模型和文本到图像扩散模型生成动物图像并融入原始场景。
  • Result: 在多样化真实输入上验证了框架的鲁棒性和创造力。
  • Conclusion: Shape2Animal为视觉叙事、教育内容、数字艺术和交互媒体设计提供了新机会。

[45] Joint attitude estimation and 3D neural reconstruction of non-cooperative space objects

Clément Forray,Pauline Delporte,Nicolas Delaygue,Florence Genin,Dawa Derksen

Main category: cs.CV

TL;DR: 利用NeRF从模拟图像中重建非合作空间物体的3D模型,重点优化相机姿态,实验表明逐帧训练效果最佳。

  • Motivation: 了解地球轨道物体的状态和行为对碎片清除、轨道维护和异常检测等应用至关重要,3D模型是太空态势感知的重要信息来源。
  • Method: 使用NeRF进行3D重建,针对单色图像、未知物体方向和有限视角等挑战,优化相机姿态,并采用正则化防止姿态变化过大。
  • Result: 实验表明,逐帧训练图像并结合均匀旋转优化相机姿态,能实现最准确的3D重建。
  • Conclusion: 优化相机姿态与NeRF联合训练的方法在非合作空间物体3D重建中表现优异,尤其适合逐帧处理。

[46] Disentangled representations of microscopy images

Jacopo Dapueto,Vito Paolo Pastore,Nicoletta Noceti,Francesca Odone

Main category: cs.CV

TL;DR: 提出了一种基于解耦表示学习(DRL)的方法,用于提升显微镜图像分类模型的可解释性,并在多个数据集上验证了其效果。

  • Motivation: 显微镜图像分析在多个领域至关重要,但深度学习模型的可解释性仍是一个挑战。
  • Method: 采用解耦表示学习(DRL)框架,通过从合成数据迁移学习表示,提升模型的可解释性。
  • Result: 在浮游生物、酵母液泡和人类细胞三个数据集上,DRL框架在准确性和可解释性之间取得了良好平衡。
  • Conclusion: DRL方法为显微镜图像分类提供了一种兼具高准确性和可解释性的解决方案。

Jinming Wu,Zihao Deng,Wei Li,Yiding Liu,Bo You,Bo Li,Zejun Ma,Ziwei Liu

Main category: cs.CV

TL;DR: MMSearch-R1是一个基于强化学习的端到端框架,用于优化大型多模态模型(LMMs)在实时互联网环境中的多轮搜索行为,减少搜索调用次数并提升性能。

  • Motivation: 现有方法(如RAG和提示工程搜索代理)依赖固定流程,导致搜索效率低下或过度搜索,需要更灵活高效的解决方案。
  • Method: 提出MMSearch-R1框架,结合图像和文本搜索工具,通过基于结果的奖励和搜索惩罚机制,指导模型动态决定搜索时机和方式。
  • Result: 实验表明,MMSearch-R1在相同模型规模下优于RAG基线,且搜索调用减少30%以上,性能与更大RAG模型相当。
  • Conclusion: MMSearch-R1为多模态搜索研究提供了高效、按需的解决方案,并揭示了关键实证发现以推动未来研究。

[48] IPFormer: Visual 3D Panoptic Scene Completion with Context-Adaptive Instance Proposals

Markus Gross,Aya Fahmy,Danit Niwattananan,Dominik Muhle,Rui Song,Daniel Cremers,Henri Meeß

Main category: cs.CV

TL;DR: IPFormer提出了一种基于视觉的3D全景场景补全方法,通过动态实例提案和注意力机制提升性能。

  • Motivation: 解决现有方法在测试时静态查询的局限性,提升场景理解的动态适应性。
  • Method: 利用图像上下文动态初始化实例提案,并通过注意力机制优化语义实例-体素关系。
  • Result: 在PQ和PQ-All指标上超越现有方法,运行时间减少14倍以上。
  • Conclusion: 动态实例提案显著提升性能,为视觉3D全景场景补全提供了新思路。

quant-ph

[49] Practical insights on the effect of different encodings, ansätze and measurements in quantum and hybrid convolutional neural networks

Jesús Lozano-Cruz,Albert Nieto-Morales,Oriol Balló-Gimbernat,Adan Garriga,Antón Rodríguez-Otero,Alejandro Borrallo-Rentero

Main category: quant-ph

TL;DR: 研究了参数化量子电路(PQCs)在量子卷积神经网络(QCNN)和混合量子-经典神经网络(HQNN)中的设计选择,用于卫星图像分类任务。

  • Motivation: 探索PQCs在量子神经网络中的设计选择对性能的影响,特别是在卫星图像分类任务中。
  • Method: 系统评估了约500种不同模型配置中的数据编码技术、变分ansätze和测量策略。
  • Result: 混合架构中,数据编码策略对性能影响最大(验证精度变化超30%),而变分ansätze和测量基影响较小(变化低于5%)。纯量子模型中,测量协议和数据-振幅映射对性能影响显著。
  • Conclusion: 数据编码策略在混合架构中起主导作用,而纯量子模型更依赖测量协议和编码映射。

eess.IV

[50] VoxelOpt: Voxel-Adaptive Message Passing for Discrete Optimization in Deformable Abdominal CT Registration

Hang Zhang,Yuxi Zhang,Jiazheng Wang,Xiang Chen,Renjiu Hu,Xin Tian,Gaolei Li,Min Liu

Main category: eess.IV

TL;DR: VoxelOpt结合学习和迭代方法的优势,通过离散优化框架在图像配准中实现精度与效率的平衡。

  • Motivation: 解决学习型方法在数据有限、大变形和无监督情况下表现不佳,以及迭代方法速度慢的问题。
  • Method: 使用位移熵衡量信号强度,引入体素自适应消息传递、多级图像金字塔和预训练分割模型提取特征。
  • Result: 在腹部CT配准中,VoxelOpt在效率和精度上均优于领先的迭代方法,并匹配有监督学习型方法。
  • Conclusion: VoxelOpt通过创新方法在图像配准领域取得了显著进展。

[51] MS-IQA: A Multi-Scale Feature Fusion Network for PET/CT Image Quality Assessment

Siqiao Li,Chen Hui,Wei Zhang,Rui Liang,Chenyue Song,Feng Jiang,Haiqi Zhu,Zhixuan Li,Hong Huang,Xiang Li

Main category: eess.IV

TL;DR: 提出了一种多尺度特征融合网络MS-IQA,用于PET/CT图像质量评估,结合ResNet和Swin Transformer的多尺度特征,并构建了PET-CT-IQA-DS数据集。

  • Motivation: 现有医学图像质量评估方法无法同时考虑低层特征(如失真)和高层特征(如器官解剖结构),导致诊断不确定性增加。
  • Method: 提出MS-IQA网络,利用ResNet和Swin Transformer的多尺度特征,结合动态加权通道注意力机制融合高低层信息。
  • Result: 在PET-CT-IQA-DS和LDCTIQAC2023数据集上,MS-IQA在多种IQA指标上优于现有方法。
  • Conclusion: MS-IQA为PET/CT提供了一种准确高效的图像质量评估方法,填补了数据集空白。

[52] Opportunistic Osteoporosis Diagnosis via Texture-Preserving Self-Supervision, Mixture of Experts and Multi-Task Integration

Jiaxing Huang,Heng Guo,Le Lu,Fan Yang,Minfeng Xu,Ge Yang,Wei Luo

Main category: eess.IV

TL;DR: 提出了一种基于深度学习的统一框架,用于骨质疏松症的诊断,通过自监督学习、混合专家架构和多任务学习解决现有方法的局限性。

  • Motivation: 骨质疏松症诊断在资源有限地区受限,现有方法存在未充分利用无标签数据、设备偏差和临床知识整合不足的问题。
  • Method: 采用自监督学习利用无标签CT数据,混合专家架构增强跨设备适应性,多任务学习整合诊断、BMD回归和椎体定位。
  • Result: 在三个临床站点和外部医院验证中,该方法表现出优于现有方法的泛化性和准确性。
  • Conclusion: 该框架为骨质疏松症的筛查和诊断提供了高效、通用的解决方案。

[53] FundaQ-8: A Clinically-Inspired Scoring Framework for Automated Fundus Image Quality Assessment

Lee Qi Zun,Oscar Wong Jin Hao,Nor Anita Binti Che Omar,Zalifa Zakiah Binti Asnir,Mohamad Sabri bin Sinal Zainal,Goh Man Fye

Main category: eess.IV

TL;DR: FundaQ-8是一个专家验证的框架,用于系统性评估眼底图像质量,并基于此开发了一个ResNet18回归模型,验证了其可靠性和临床实用性。

  • Motivation: 眼底图像质量评估(FIQA)因图像采集差异和专家主观评价而具有挑战性,需要一种系统化的方法。
  • Method: 使用FundaQ-8作为评分参考,开发了基于ResNet18的回归模型,通过迁移学习和标准化预处理训练。
  • Result: 模型在验证数据集上表现可靠,且质量感知训练提升了糖尿病视网膜病变分级的鲁棒性。
  • Conclusion: FundaQ-8框架及其模型在临床应用中具有价值,尤其在质量感知训练方面。

[54] EAGLE: An Efficient Global Attention Lesion Segmentation Model for Hepatic Echinococcosis

Jiayan Chen,Kai Li,Yulu Zhao,Jianqiang Huang,Zhan Wang

Main category: eess.IV

TL;DR: 论文提出了一种名为EAGLE的U型网络,结合PVSS编码器和HVSS解码器,用于高效准确地分割肝包虫病病灶,性能优于现有方法。

  • Motivation: 肝包虫病在医疗资源有限的牧区广泛存在,现有CNN和Transformer模型在全局上下文建模或计算效率上存在不足。
  • Method: EAGLE网络采用PVSS编码器和HVSS解码器,结合CVSSB模块融合局部与全局特征,HWTB模块实现无损下采样。
  • Result: 在260名患者的CT数据上,EAGLE的DSC达到89.76%,优于MSVM-UNet 1.61%。
  • Conclusion: EAGLE通过结合状态空间模型,实现了高效准确的肝包虫病病灶分割。

[55] Fusing Radiomic Features with Deep Representations for Gestational Age Estimation in Fetal Ultrasound Images

Fangyijie Wang,Yuan Liang,Sourav Bhattacharjee,Abey Campbell,Kathleen M. Curran,Guénolé Silvestre

Main category: eess.IV

TL;DR: 提出了一种基于深度学习和放射组学特征融合的框架,用于从胎儿超声图像中自动估计孕龄,无需手动测量,性能优于现有方法。

  • Motivation: 手动测量孕龄依赖操作者且耗时,临床需要自动化的计算机辅助方法。
  • Method: 结合深度学习模型提取的深度表征和放射组学特征,通过特征融合估计孕龄。
  • Result: 在三孕期内的平均绝对误差为8.0天,优于现有机器学习方法,且在不同地理区域人群中表现稳健。
  • Conclusion: 该框架为孕龄估计提供了高效、自动化的解决方案,具有临床实用价值。

[56] Weighted Mean Frequencies: a handcraft Fourier feature for 4D Flow MRI segmentation

Simon Perrin,Sébastien Levilly,Huajun Sun,Harold Mouchère,Jean-Michel Serfaty

Main category: eess.IV

TL;DR: 提出了一种名为WMF的新特征,用于改善4D Flow MRI图像的分割效果,实验显示其性能优于现有方法。

  • Motivation: 4D Flow MRI图像分辨率低且噪声多,影响生物标志物的准确性,尤其是血管分割。
  • Method: 引入WMF特征,通过加权平均频率揭示脉动流经过的三维区域,并采用最优阈值和深度学习方法进行分割。
  • Result: 实验表明,WMF特征在IoU和Dice指标上分别提高了0.12和0.13,优于PC-MRA特征。
  • Conclusion: WMF特征有望为其他血管区域(如心脏或大脑)的分割提供新思路。

eess.SP

[57] A Multi-Modal Spatial Risk Framework for EV Charging Infrastructure Using Remote Sensing

Oktay Karakuş,Padraig Corcoran

Main category: eess.SP

TL;DR: 本文提出了一种名为RSERI-EV的多模态风险评估框架,用于评估电动汽车充电站在环境和基础设施压力下的脆弱性,结合了遥感数据和空间图分析。

  • Motivation: 电动汽车充电基础设施对可持续交通系统至关重要,但其在环境和基础设施压力下的韧性尚未充分研究。
  • Method: RSERI-EV框架整合了洪水风险图、地表温度极端值、植被指数、土地利用/覆盖、与变电站的距离和道路可达性等多源数据,生成综合韧性评分,并应用于威尔士的充电站数据集。
  • Result: 通过构建空间k近邻图,实现了基于邻域的比较和图感知诊断,展示了多源数据融合和可解释空间推理的价值。
  • Conclusion: 该框架为气候韧性和基础设施感知的电动汽车部署提供了支持。

cs.LG

[58] Any-Order GPT as Masked Diffusion Model: Decoupling Formulation and Architecture

Shuchen Xue,Tianyu Xie,Tianyang Hu,Zijin Feng,Jiacheng Sun,Kenji Kawaguchi,Zhenguo Li,Zhi-Ming Ma

Main category: cs.LG

TL;DR: 该研究通过将掩码扩散模型(MDM)与自回归模型(AR)在解码器框架下公平比较,揭示了MDM作为任意顺序自回归(AO-AR)的潜力,并探讨了架构对模型性能的影响。

  • Motivation: 比较AR和MDM范式时,由于架构差异(解码器vs编码器),直接比较不公平。研究旨在分离范式与架构的影响,提供更清晰的对比。
  • Method: 在解码器框架下评估MDM,将其视为AO-AR,并与标准AR比较。同时研究解码器与编码器架构对MDM性能的影响。
  • Result: 解码器MDM在生成速度上显著提升(约25倍),且困惑度与编码器MDM相当。AO-AR目标可能需要优化,因部分排列信息量较低。
  • Conclusion: 研究成功分离了范式与架构的影响,为未来模型设计提供了重要启示,尤其是解码器MDM在速度和性能上的优势。

[59] MIRAGE: A Benchmark for Multimodal Information-Seeking and Reasoning in Agricultural Expert-Guided Conversations

Vardhan Dongre,Chi Gui,Shubham Garg,Hooshang Nayyeri,Gokhan Tur,Dilek Hakkani-Tür,Vikram S. Adve

Main category: cs.LG

TL;DR: MIRAGE是一个用于多模态专家级推理和决策的新基准,专注于农业领域,结合自然用户查询、专家响应和图像上下文,支持真实世界中的复杂推理和生成任务。

  • Motivation: 现有基准通常依赖明确输入和封闭分类,无法满足真实世界中模糊、开放场景的需求。MIRAGE旨在填补这一空白,提供更贴近实际的评估环境。
  • Method: 基于35,000+真实用户-专家交互数据,通过多步骤流程构建,涵盖作物健康、害虫诊断等多样化场景,包含7,000+生物实体。
  • Result: MIRAGE成为目前分类最多样化的视觉语言模型基准之一,支持开放世界设置下的推理和交互。
  • Conclusion: MIRAGE为多模态模型在真实世界知识密集型任务中的评估提供了高保真基准,推动了复杂推理和生成能力的研究。

[60] FedBKD: Distilled Federated Learning to Embrace Gerneralization and Personalization on Non-IID Data

Yushan Zhao,Jinyuan He,Donglai Chen,Weijie Luo,Chong Xie,Ri Zhang,Yonghong Chen,Yan Xu

Main category: cs.LG

TL;DR: 论文提出了一种名为FedBKD的无数据蒸馏框架,通过生成对抗网络(GAN)合成数据,实现全局和局部模型之间的双向知识蒸馏,解决了联邦学习中非独立同分布数据的挑战。

  • Motivation: 解决联邦学习中非独立同分布(non-IID)数据的挑战,同时避免引入公共数据集导致的数据隐私泄露风险。
  • Method: 使用GAN生成合成数据,局部模型作为判别器,参数冻结;通过合成数据实现全局和局部模型的双向知识蒸馏。
  • Result: 在4个基准测试中,FedBKD在不同非IID设置下均达到最优性能。
  • Conclusion: FedBKD能够同时提升全局和局部模型的性能,且无需依赖公共数据集,有效保护数据隐私。

[61] Learning Moderately Input-Sensitive Functions: A Case Study in QR Code Decoding

Kazuki Yoda,Kazuhiko Kawamoto,Hiroshi Kera

Main category: cs.LG

TL;DR: 该研究首次提出基于学习的QR码解码方法,探讨中等输入敏感性的学习函数,发现Transformer能突破理论纠错限制解码QR码。

  • Motivation: 研究动机是探索输入敏感性对学习函数的影响,尤其是中等敏感性的任务,如QR码解码。
  • Method: 使用Transformer模型学习QR码的结构,特别是嵌入文本的模式。
  • Result: 实验显示Transformer能成功解码QR码,甚至超越理论纠错限制,并能泛化到其他语言和随机字符串。
  • Conclusion: Transformer解码机制与传统QR码阅读器不同,更关注数据位而非纠错位。

cs.CL

[62] An Agentic System for Rare Disease Diagnosis with Traceable Reasoning

Weike Zhao,Chaoyi Wu,Yanjie Fan,Xiaoman Zhang,Pengcheng Qiu,Yuze Sun,Xiao Zhou,Yanfeng Wang,Ya Zhang,Yongguo Yu,Kun Sun,Weidi Xie

Main category: cs.CL

TL;DR: DeepRare是一种基于大型语言模型(LLM)的罕见病诊断系统,通过处理异构临床输入生成排名诊断假设,并提供透明的推理链。

  • Motivation: 罕见病诊断面临临床异质性、低流行率和医生熟悉度不足的挑战,需要高效准确的解决方案。
  • Method: DeepRare由中央主机、长期记忆模块和专用代理服务器组成,整合40多种工具和最新医学知识。
  • Result: 在8个数据集上评估,DeepRare对2919种疾病诊断准确率达100%(1013种疾病),显著优于其他15种方法。
  • Conclusion: DeepRare在罕见病诊断中表现出色,提供透明推理链,已实现为易用网页应用。

cs.GR

[63] X-SiT: Inherently Interpretable Surface Vision Transformers for Dementia Diagnosis

Fabian Bongratz,Tom Nuno Wolf,Jaume Gual Ramon,Christian Wachinger

Main category: cs.GR

TL;DR: 论文提出了一种可解释的表面视觉变换器(X-SiT),用于基于可解释的皮层特征进行医学图像分析,特别针对阿尔茨海默病和额颞叶痴呆的检测。

  • Motivation: 3D体积数据的复杂性和可视化困难促使研究者开发更易理解的皮层表面渲染方法,以支持临床决策。
  • Method: X-SiT结合了原型表面补丁解码器,通过基于案例的推理和空间对应的皮层原型进行分类。
  • Result: X-SiT在检测阿尔茨海默病和额颞叶痴呆方面表现出色,同时提供了与已知疾病模式一致的原型。
  • Conclusion: X-SiT不仅性能优越,还能提供可解释的预测,有助于临床理解和决策。

[64] DreamAnywhere: Object-Centric Panoramic 3D Scene Generation

Edoardo Alberto Dominici,Jozef Hladky,Floor Verhoeven,Lukas Radl,Thomas Deixelberger,Stefan Ainetter,Philipp Drescher,Stefan Hauswiesner,Arno Coomans,Giacomo Nazzaro,Konstantinos Vardis,Markus Steinberger

Main category: cs.GR

TL;DR: DreamAnywhere是一个模块化系统,用于快速生成和原型化3D场景,解决了现有方法在视觉保真度、场景理解和适应性方面的不足。

  • Motivation: 现有文本到3D场景生成方法存在场景单一、视觉保真度低、场景理解有限且仅适用于特定环境的问题。
  • Method: 系统通过合成360度全景图像,分解为背景和对象,通过混合修复构建完整3D表示,并将对象掩码提升为详细3D对象。
  • Result: DreamAnywhere在新视角合成一致性和图像质量上显著优于现有方法,用户研究显示其更受欢迎。
  • Conclusion: DreamAnywhere为低成本电影制作等场景提供了快速迭代和直观编辑的能力,具有实际应用价值。

[65] EditP23: 3D Editing via Propagation of Image Prompts to Multi-View

Roi Bar-On,Dana Cohen-Bar,Daniel Cohen-Or

Main category: cs.GR

TL;DR: EditP23是一种无需掩码的3D编辑方法,通过2D图像编辑在多视角表示中实现3D一致的编辑。

  • Motivation: 传统方法依赖文本提示或显式空间掩码,而EditP23通过一对图像(原始视图和用户编辑后的视图)实现直观编辑。
  • Method: 利用预训练的多视角扩散模型的潜在空间中的编辑感知流,将编辑一致地传播到多视角中,无需优化。
  • Result: 在多种对象类别和编辑场景中表现出色,保持原始对象的结构和外观,且无需手动掩码。
  • Conclusion: EditP23提供了一种高效且直观的3D编辑方法,具有高保真度和无需掩码的优势。

cs.RO

[66] Consensus-Driven Uncertainty for Robotic Grasping based on RGB Perception

Eric C. Joyce,Qianwen Zhao,Nathaniel Burgdorfer,Long Wang,Philippos Mordohai

Main category: cs.RO

TL;DR: 提出了一种训练轻量级深度网络的方法,用于预测基于图像姿态估计的抓取是否成功。

  • Motivation: 解决深度物体姿态估计器过度自信的问题,避免高不确定性下的任务失败。
  • Method: 通过真实图像的物体姿态估计和模拟抓取生成训练数据,训练网络预测抓取成功率。
  • Result: 发现网络在联合训练所有物体时表现更好,表明多样化的物体对目标有共同贡献。
  • Conclusion: 该方法能有效预测抓取成功率,提升机器人抓取任务的可靠性。

[67] HRIBench: Benchmarking Vision-Language Models for Real-Time Human Perception in Human-Robot Interaction

Zhonghao Shi,Enyu Zhao,Nathaniel Dennler,Jingzhen Wang,Xinyang Xu,Kaleen Shrestha,Mengxue Fu,Daniel Seita,Maja Matarić

Main category: cs.RO

TL;DR: HRIBench是一个用于评估视觉语言模型(VLMs)在人类感知任务中的性能和延迟权衡的基准测试,涵盖五个关键领域。研究发现当前VLMs在实时部署中表现不佳,需要进一步优化。

  • Motivation: 研究VLMs在实时人机交互(HRI)中的感知能力和延迟问题,以提升用户体验和模型适用性。
  • Method: 构建HRIBench基准测试,包含1000个视觉问答问题,覆盖五个HRI关键领域,并对11种VLMs进行全面评估。
  • Result: 当前VLMs在核心感知能力上表现不足,且无法满足实时部署的性能-延迟权衡需求。
  • Conclusion: 未来需开发更小、低延迟的VLMs以提升HRI中的感知能力,HRIBench为此提供了评估工具。

上次更新于: