Skip to content
每日arXiv - 2025年6月25日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] Correspondence-Free Multiview Point Cloud Registration via Depth-Guided Joint Optimisation

Yiran Zhou,Yingyu Wang,Shoudong Huang,Liang Zhao

Main category: cs.CV

TL;DR: 提出了一种无需特征匹配的多视角点云配准方法,通过全局深度图联合优化点云位姿,显著提升了复杂环境下的配准精度。

  • Motivation: 现有方法依赖特征提取和数据关联,难以在复杂环境中获得全局最优解。
  • Method: 将全局地图表示为深度图,利用原始深度信息构建非线性最小二乘优化问题,联合估计点云位姿和全局地图。
  • Result: 在真实数据集上验证,该方法在复杂环境中优于现有技术,尤其在特征提取和数据关联困难时表现更优。
  • Conclusion: 该方法通过隐式数据关联和动态优化,解决了传统特征依赖方法的局限性,为复杂环境下的点云配准提供了新思路。

[2] Connecting Vision and Emissions: A Behavioural AI Approach to Carbon Estimation in Road Design

Ammar K Al Mhdawi,Nonso Nnamoko,Safanah Mudheher Raafat,M. K. S. Al-Mhdawi,Amjad J Humaidi

Main category: cs.CV

TL;DR: 该论文提出了一种基于YOLOv8的实时车辆检测与分类框架,用于估算城市环境中的碳排放。通过结合深度OCR模块和外部数据库验证,实现了高精度的车牌识别和车辆分类。

  • Motivation: 解决YOLOv8在细粒度识别任务(如车牌读取和车辆属性分类)上的不足,为智能交通系统提供一种可扩展的碳排放监测方案。
  • Method: 改进YOLOv8架构,结合深度OCR模块和实时API验证,实现车辆检测、分割、跟踪及车牌识别。
  • Result: YOLOv8检测器的[email protected]为71%(边界框)和70%(分割掩码),OCR字符级准确率达99%。
  • Conclusion: 该方法证明了实时目标检测与深度OCR结合的可行性,为智能交通系统中的碳排放监测提供了高效解决方案。

[3] Interpretable and Granular Video-Based Quantification of Motor Characteristics from the Finger Tapping Test in Parkinson Disease

Tahereh Zarrat Ehsan,Michael Tangermann,Yağmur Güçlütürk,Bastiaan R. Bloem,Luc J. W. Evers

Main category: cs.CV

TL;DR: 提出了一种基于计算机视觉的量化帕金森病(PD)运动特征的方法,通过视频分析评估手指敲击测试,提高了MDS-UPDRS评分的准确性。

  • Motivation: 传统的手指敲击测试评估主观性强,存在评分者间和评分者内变异性,且无法捕捉个体运动特征。
  • Method: 使用视频记录和计算机视觉技术提取四组临床相关特征,量化运动障碍特征,并通过机器学习分类器预测MDS-UPDRS评分。
  • Result: 视频分析特征与四种运动缺陷对应,分类器在MDS-UPDRS评分预测中优于现有方法。
  • Conclusion: 该方法为PD运动特征的客观评估提供了实用解决方案,未来需验证其对症状治疗和疾病进展的响应性。

[4] Reinforcement Learning-Based Dynamic Grouping for Tubular Structure Tracking

Chong Di,Shuwang Zhou,Da Chen,Jean-Marie Mirebeau,Minglei Shu,Laurent D. Cohen

Main category: cs.CV

TL;DR: 提出了一种基于强化学习的段级跟踪方法,通过MDP和Q-Learning动态探索段图,显著优于现有方法。

  • Motivation: 现有段级方法计算效率低且依赖先验知识,无法适应复杂形态和环境变化。
  • Method: 将段级跟踪建模为MDP,利用Q-Learning动态探索段图,实时计算边权重并自适应扩展搜索空间。
  • Result: 在典型管状结构数据集上显著优于现有方法,能处理复杂拓扑且不依赖先验知识。
  • Conclusion: 该方法高效、鲁棒,适用于复杂形态的管状结构跟踪。

[5] Bird's-eye view safety monitoring for the construction top under the tower crane

Yanke Wang,Yu Hin Ng,Haobo Liang,Ching-Wei Chang,Hao Chen

Main category: cs.CV

TL;DR: 提出了一种基于AI的全自动塔吊安全监控系统,通过摄像头和LiDAR融合3D数据,实时监测施工现场人员与模块化建筑,避免碰撞并提升安全性。

  • Motivation: 随着塔吊操作自动化和智能化的发展,安全问题是首要任务,尤其是保护施工现场人员与塔吊之间的安全。现有摄像头和LiDAR数据未充分利用。
  • Method: 开发了一个AI驱动的安全监控系统,融合摄像头和LiDAR的3D数据,定位人员和模块化建筑,并集成硬件与显示系统。
  • Result: 系统通过3D数据融合实现了高精度定位,验证了方法的准确性和有效性,现场可视化证明了其作为安全监控工具的价值。
  • Conclusion: 该系统为施工现场提供了一种高效的安全监控解决方案,显著提升了塔吊操作的安全性。

[6] Damba-ST: Domain-Adaptive Mamba for Efficient Urban Spatio-Temporal Prediction

Rui An,Yifeng Zhang,Ziran Liang,Wenqi Fan,Yuxuan Liang,Xuequn Shang,Qing Li

Main category: cs.CV

TL;DR: 论文提出Damba-ST模型,通过域自适应状态空间模型和域适配器,解决了Mamba模型在时空预测中的负迁移问题,提升了跨域泛化能力和效率。

  • Motivation: 训练通用的城市时空基础模型以适用于不同地区和城市,但现有Transformer模型因计算复杂度和内存开销高而受限。Mamba虽高效,但直接应用于时空预测会导致性能下降。
  • Method: 提出Damba-ST模型,包含域自适应状态空间模型(共享和独立子空间)和三种域适配器,以提升跨域适应能力。
  • Result: Damba-ST在预测任务中表现优异,具备零样本泛化能力,无需大量微调即可部署到新环境。
  • Conclusion: Damba-ST结合了Mamba的高效性和域自适应机制,显著提升了跨域时空预测的性能和实用性。

[7] From Pixels and Words to Waves: A Unified Framework for Spectral Dictionary vLLMs

Andrew Kiruluta,Priscilla Burity

Main category: cs.CV

TL;DR: SDict-VLM是一种新型视觉语言模型,通过频谱字典标记混合器替代卷积和自注意力,实现了高效且可解释的多模态处理。

  • Motivation: 现有视觉语言模型依赖计算密集的卷积和自注意力机制,限制了效率和可扩展性。
  • Method: 引入频谱字典标记混合器,将图像块或词片段表示为稀疏频率原子的组合。
  • Result: 在MS-COCO和VQAv2任务上表现优异,性能接近BLIP-2,但参数和计算成本更低。
  • Conclusion: SDict-VLM为高效且透明的视觉语言模型提供了新方向。

[8] DiffRIS: Enhancing Referring Remote Sensing Image Segmentation with Pre-trained Text-to-Image Diffusion Models

Zhe Dong,Yuzhe Sun,Tianzhu Liu,Yanfeng Gu

Main category: cs.CV

TL;DR: DiffRIS利用预训练的文本到图像扩散模型,通过上下文感知适配器和渐进式跨模态推理解码器,显著提升了遥感图像分割的精度。

  • Motivation: 当前遥感图像分割方法在处理复杂对象特征(如尺度变化、多样方向和语义模糊)时存在局限性,需要更高效的跨模态对齐方法。
  • Method: 提出DiffRIS框架,包含上下文感知适配器(CP-adapter)和渐进式跨模态推理解码器(PCMRD),分别用于动态优化语言特征和多尺度视觉-文本对齐。
  • Result: 在三个基准数据集上,DiffRIS在所有标准指标上均优于现有方法,实现了新的最先进性能。
  • Conclusion: DiffRIS通过预训练扩散模型和自适应框架,显著提升了遥感图像分割任务的性能。

[9] GLIMPSE: Gradient-Layer Importance Mapping for Prompted Visual Saliency Explanation for Generative LVLMs

Guanxi Shen

Main category: cs.CV

TL;DR: GLIMPSE是一个轻量级、模型无关的框架,用于可视化大型视觉语言模型(LVLM)在开放视觉问答(VQA)中依赖的图像区域,并揭示多模态文本显著性。

  • Motivation: 理解LVLM在生成自由形式文本响应时的视觉注意力分布对模型行为理解、幻觉诊断、偏见暴露和透明度至关重要。
  • Method: GLIMPSE结合梯度加权注意力、自适应层传播和加权令牌聚合,生成响应级别的归因热图,用于解释跨模态推理。
  • Result: GLIMPSE在人类对齐方面优于先前的可解释性方法,能够揭示LVLM的跨模态归因细节、令牌级推理动态以及人类注意力错位、幻觉和偏见。
  • Conclusion: GLIMPSE为分析LVLM的跨模态推理提供了细粒度的解释工具,有助于提升模型透明度和可解释性。

[10] Diffusion Transformer-to-Mamba Distillation for High-Resolution Image Generation

Yuan Yao,Yicong Hong,Difan Liu,Long Mai,Feng Liu,Jiebo Luo

Main category: cs.CV

TL;DR: 论文提出了一种名为T2MD的方法,通过蒸馏技术将自注意力机制的扩散变压器转换为线性复杂度的Mamba模型,以降低高分辨率图像生成的计算成本。

  • Motivation: 自注意力机制在扩散变压器中的二次计算复杂度导致高分辨率图像生成的计算成本过高,而直接训练Mamba模型存在实际困难。
  • Method: 提出T2MD方法,结合自注意力与Mamba的混合模型,通过层级的教师强制和基于特征的知识蒸馏,实现高效训练。
  • Result: 实验表明,T2MD能够以较低开销生成高质量的文本到图像,并支持2048×2048分辨率图像生成。
  • Conclusion: T2MD证明了使用Mamba模型生成非因果视觉输出的可行性,为未来研究提供了潜在方向。

[11] Orthogonal Projection Subspace to Aggregate Online Prior-knowledge for Continual Test-time Adaptation

Jinlong Li,Dong Zhao,Qi Zang,Zequn Jie,Lin Ma,Nicu Sebe

Main category: cs.CV

TL;DR: 提出了一种名为OoPk的新方法,通过正交投影子空间和在线先验知识聚合策略,解决了持续测试时间适应(CTTA)中的灾难性遗忘和错误累积问题,并在语义分割任务中表现出色。

  • Motivation: 现有CTTA方法在平衡性能和高效模型适应方面存在不足,尤其是在复杂任务如语义分割中。
  • Method: 提出正交投影子空间以保留预训练模型知识,同时采用在线先验知识聚合策略增强域适应性。
  • Result: 实验表明,该方法在多个CTTA基准测试中超越了现有方法,性能优异。
  • Conclusion: OoPk方法有效解决了CTTA中的关键问题,并在语义分割任务中取得了显著成果。

[12] LEGATO: Large-scale End-to-end Generalizable Approach to Typeset OMR

Guang Yang,Victoria Ebert,Nazif Tamer,Luiza Pozzobon,Noah A. Smith

Main category: cs.CV

TL;DR: Legato是一种端到端的Transformer模型,用于光学音乐识别(OMR),能够识别全页或多页排版乐谱,并以ABC符号生成文档。

  • Motivation: 解决现有OMR模型无法处理全页或多页乐谱,以及缺乏标准化评估的问题。
  • Method: 结合预训练的视觉编码器和ABC解码器,训练于214K图像数据集。
  • Result: 在多种数据集上实现最先进性能,并通过多样化指标验证。
  • Conclusion: Legato在OMR任务中表现出色,为端到端OMR提供了新的基准。

[13] HAWAII: Hierarchical Visual Knowledge Transfer for Efficient Vision-Language Models

Yimu Wang,Mozhgan Nasr Azadani,Sean Sedwards,Krzysztof Czarnecki

Main category: cs.CV

TL;DR: HAWAII框架通过知识蒸馏将多个视觉专家的能力整合到单一视觉编码器中,减少计算开销。

  • Motivation: 提升视觉语言模型的视觉理解能力,同时避免多专家模型的高计算成本。
  • Method: 使用教师特定的LoRA适配器和路由器,结合细粒度和粗粒度知识蒸馏。
  • Result: 在多种视觉语言任务中表现优于主流开源视觉语言模型。
  • Conclusion: HAWAII框架高效且性能优越,适用于视觉语言任务。

[14] Reading Smiles: Proxy Bias in Foundation Models for Facial Emotion Recognition

Iosif Tsangko,Andreas Triantafyllopoulos,Adem Abdelmoula,Adria Mallol-Ragolta,Bjoern W. Schuller

Main category: cs.CV

TL;DR: 论文探讨了基础模型(FMs)在情感计算(AC)中的应用,特别是视觉语言模型(VLMs)如何依赖视觉线索推断情感,并分析了这些线索是否具有心理学基础。

  • Motivation: 研究动机是探究VLMs在零样本设置下识别情感时所依赖的视觉线索,以及这些线索是否具有心理学依据,而非表面学习。
  • Method: 方法包括在AffectNet数据集的牙齿标注子集上对不同规模的VLMs进行基准测试,并通过结构化内省分析最佳模型(GPT-4o)的情感推理机制。
  • Result: 结果显示,模型性能受可见牙齿的影响,且面部属性(如眉毛位置)驱动了GPT-4o的情感推理,其效价-唤醒预测具有高度内部一致性。
  • Conclusion: 结论指出FMs的行为具有涌现性,但也存在捷径学习、偏见和公平性问题,尤其是在心理健康和教育等敏感领域。

[15] RareSpot: Spotting Small and Rare Wildlife in Aerial Imagery with Multi-Scale Consistency and Context-Aware Augmentation

Bowen Zhang,Jesse T. Boulerice,Nikhil Kuniyil,Charvi Mendiratta,Satish Kumar,Hila Shamon,B. S. Manjunath

Main category: cs.CV

TL;DR: RareSpot是一个用于检测空中影像中小型稀有野生动物的框架,通过多尺度一致性学习和上下文感知增强,显著提高了检测精度。

  • Motivation: 小型稀有野生动物(如草原犬鼠)的检测对生态保护至关重要,但由于其体型小、分布稀疏和视觉特征不明显,现有方法效果不佳。
  • Method: RareSpot结合多尺度一致性学习和上下文感知增强,前者通过特征金字塔结构化对齐增强细粒度表示,后者通过合成困难样本提升模型性能。
  • Result: 在专家标注的草原犬鼠无人机影像基准测试中,RareSpot的检测精度比基线方法提高了35%以上,并能泛化到其他野生动物数据集。
  • Conclusion: RareSpot为复杂空中场景中小型稀有物种的检测提供了新方法,支持生态监测并具有广泛适用性。

[16] Inverse-and-Edit: Effective and Fast Image Editing by Cycle Consistency Models

Ilia Beletskii,Andrey Kuznetsov,Aibek Alanov

Main category: cs.CV

TL;DR: 提出了一种基于一致性模型的新框架,仅需四步即可实现高质量图像编辑,显著提升了重建精度和编辑效率。

  • Motivation: 现有扩散模型在图像编辑中计算量大,而蒸馏模型因反转质量差导致编辑能力受限,需改进高保真反转和重建。
  • Method: 引入循环一致性优化策略,结合一致性模型提升反转质量,平衡编辑性与内容保留。
  • Result: 在多种图像编辑任务和数据集上达到最优性能,效率显著高于全步扩散模型。
  • Conclusion: 该方法在高效性和编辑质量上均优于现有技术,代码已开源。

[17] PrITTI: Primitive-based Generation of Controllable and Editable 3D Semantic Scenes

Christina Ourania Tze,Daniel Dauner,Yiyi Liao,Dzmitry Tsishkou,Andreas Geiger

Main category: cs.CV

TL;DR: PrITTI是一种基于潜在扩散的框架,利用3D基元生成可控、可编辑的3D语义场景布局,优于体素方法,且内存需求更低。

  • Motivation: 解决体素表示在3D场景生成中的内存密集、分辨率固定和难以编辑的问题。
  • Method: 采用混合表示,地面以栅格化格式建模,物体以向量化3D基元编码,并引入稳定的Cholesky参数化解码对象大小和方向。
  • Result: 在KITTI-360数据集上,PrITTI生成质量优于体素基线,内存需求减少3倍,支持实例级操作和多种下游应用。
  • Conclusion: PrITTI为3D语义场景生成提供了一种高效、灵活且可控的解决方案。

[18] Lightweight RGB-T Tracking with Mobile Vision Transformers

Mahdi Falaki,Maria A. Amer

Main category: cs.CV

TL;DR: 提出了一种基于MobileViT的轻量级RGB-T跟踪算法,通过渐进融合框架和可分离注意力实现高效多模态跟踪。

  • Motivation: 解决单模态跟踪在低光照和恶劣天气条件下的困难,同时降低现有多模态跟踪器的计算成本。
  • Method: 采用MobileViT构建轻量级模型,引入渐进融合框架和可分离注意力学习模态内和模态间交互。
  • Result: 模型参数少于400万,GPU推理速度达122帧/秒,性能与现有高效多模态跟踪器相当。
  • Conclusion: 首次将MobileViT应用于RGB-T跟踪,实现了高效、轻量的多模态跟踪。

[19] PRISM: Perceptual Recognition for Identifying Standout Moments in Human-Centric Keyframe Extraction

Mert Can Cakmak,Nitin Agarwal,Diwash Poudel

Main category: cs.CV

TL;DR: PRISM是一种轻量级、基于感知的关键帧提取框架,适用于实时和资源受限环境,无需训练且高效。

  • Motivation: 在线视频在政治话语和网络社交威胁(如错误信息、宣传和极端化)中起重要作用,检测视频中的关键帧对内容审核和总结至关重要。
  • Method: PRISM在CIELAB色彩空间中使用感知色差指标提取关键帧,无需深度学习,具有可解释性和高效性。
  • Result: 在BBC、TVSum、SumMe和ClipShots数据集上,PRISM表现出高准确性和压缩比。
  • Conclusion: PRISM是一种可扩展的工具,适用于分析和审核在线平台中的有害或政治敏感媒体。

[20] MOSCARD -- Causal Reasoning and De-confounding for Multimodal Opportunistic Screening of Cardiovascular Adverse Events

Jialu Pi,Juan Maria Farina,Rimita Lahiri,Jiwoong Jeong,Archana Gurudu,Hyung-Bok Park,Chieh-Ju Chao,Chadi Ayoub,Reza Arsanjani,Imon Banerjee

Main category: cs.CV

TL;DR: 提出了一种多模态因果推理框架MOSCARD,整合胸片和心电图数据,以更全面地评估心血管事件风险,优于传统单模态方法。

  • Motivation: 心血管事件是全球主要死因,现有筛查方法受限于单模态数据和采样偏差,需更全面的风险评估方法。
  • Method: 提出MOSCARD框架,结合胸片和心电图数据,通过多模态对齐、因果推理和去混杂图技术优化风险预测。
  • Result: 在内部和外部数据集上,MOSCARD的AUC表现优于单模态和现有基础模型(0.75、0.83、0.71)。
  • Conclusion: MOSCARD为低成本筛查提供早期干预机会,改善患者预后并减少差异。

[21] OpenWildlife: Open-Vocabulary Multi-Species Wildlife Detector for Geographically-Diverse Aerial Imagery

Muhammed Patel,Javier Noa Turnes,Jayden Hsiao,Linlin Xu,David Clausi

Main category: cs.CV

TL;DR: OpenWildlife (OW) 是一种开放词汇的野生动物检测器,用于多样化的航空图像中的多物种识别。它通过语言感知嵌入和改进的 Grounding-DINO 框架,实现了跨物种和环境的泛化能力,并在多个数据集上表现优异。

  • Motivation: 现有自动化方法在特定场景下表现良好,但难以泛化到不同物种和环境,主要受限于有限的分类覆盖和固定模型架构。
  • Method: OW 结合语言感知嵌入和改进的 Grounding-DINO 框架,支持自然语言输入识别物种,并引入高效的搜索算法优化检测效率。
  • Result: OW 在 15 个数据集上表现优异,mAP50 达到 0.981(微调后)和 0.597(新物种数据集)。搜索算法仅需探索 33% 的图像即可覆盖 95% 的物种。
  • Conclusion: OW 是一种灵活且经济高效的全球生物多样性评估解决方案,代码和数据集已公开以支持可重复性。

[22] Ancient Script Image Recognition and Processing: A Review

Xiaolei Diao,Rite Bo,Yanling Xiao,Lida Shi,Zhihan Zhou,Hao Xu,Chuntao Li,Xiongfeng Tang,Massimo Poesio,Cédric M. John,Daqian Shi

Main category: cs.CV

TL;DR: 该论文综述了古代文字图像识别的方法,分类分析了不同文字类型及其识别技术,探讨了数据不平衡和图像退化等独特挑战,并总结了当前局限与未来方向。

  • Motivation: 古代文字是人类文明的重要载体,自动化识别技术对考古学和数字人文学科的研究至关重要。深度学习的发展推动了这一领域的进步,但不同文字系统的差异和共同挑战需要系统性总结。
  • Method: 论文首先根据文字类型分类现有研究,分析各自的识别方法,强调差异与共享策略;随后聚焦古代文字的独特挑战,系统考察其影响并综述最新解决方案。
  • Result: 论文总结了古代文字识别领域的现状,包括数据不平衡和图像退化等问题的解决方案,如少样本学习和抗噪声技术。
  • Conclusion: 论文提供了结构化、前瞻性的视角,支持古代文字识别、解释和破译的持续发展,并指出了未来的研究方向。

[23] MedErr-CT: A Visual Question Answering Benchmark for Identifying and Correcting Errors in CT Reports

Sunggu Kyung,Hyungbin Park,Jinyoung Seo,Jimin Sung,Jihyun Kim,Dongyeong Kim,Wooyoung Jo,Yoojin Nam,Sangah Park,Taehee Kwon,Sang Min Lee,Namkug Kim

Main category: cs.CV

TL;DR: MedErr-CT是一个新的基准测试,用于评估医学多模态大语言模型(MLLMs)在CT报告中识别和纠正错误的能力,旨在提高临床诊断的准确性。

  • Motivation: 随着CT检查需求的增加,诊断错误的风险上升,而现有的医学视觉问答(VQA)基准缺乏临床相关性和对专家级知识的评估。
  • Method: MedErr-CT通过VQA框架评估MLLMs,涵盖六类错误(四种视觉中心错误和两种词汇错误),并分为分类、检测和纠正三个任务级别。
  • Result: 评估显示,现有3D医学MLLMs在不同错误类型上的表现差异显著。
  • Conclusion: MedErr-CT有助于开发更可靠且临床适用的MLLMs,减少诊断错误并提高临床准确性。

[24] Video-XL-2: Towards Very Long-Video Understanding Through Task-Aware KV Sparsification

Minghao Qin,Xiangrui Liu,Zhengyang Liang,Yan Shu,Huaying Yuan,Juenjie Zhou,Shitao Xiao,Bo Zhao,Zheng Liu

Main category: cs.CV

TL;DR: Video-XL-2是一种新型多模态大语言模型,通过任务感知的KV稀疏化技术,显著提升了长视频理解的性能和效率。

  • Motivation: 当前多模态大语言模型在长视频理解中面临高内存和计算成本的问题,难以同时实现高性能和高效率。
  • Method: 采用基于分块的预填充和双层键值解码技术,通过分块稀疏注意力减少计算和内存开销,并根据任务相关性选择性加载键值。
  • Result: Video-XL-2在多个长视频理解基准测试中达到最先进性能,并展示了高效处理能力,如单GPU处理超过10,000帧。
  • Conclusion: Video-XL-2通过创新的稀疏化技术,成功解决了长视频理解中的效率和性能问题,具有广泛应用潜力。

[25] MSR-Align: Policy-Grounded Multimodal Alignment for Safety-Aware Reasoning in Vision-Language Models

Yinan Xia,Yilei Jiang,Yingshui Tan,Xiaoyong Zhu,Xiangyu Yue,Bo Zheng

Main category: cs.CV

TL;DR: 论文提出了一种名为MSR-Align的多模态安全推理数据集,用于增强视觉语言模型(VLMs)的安全性,同时保持其推理能力。

  • Motivation: 现有安全对齐方法主要针对单模态语言模型,无法有效应对多模态输入带来的复杂安全风险,且当前数据集缺乏细粒度的政策基础推理。
  • Method: 通过构建MSR-Align数据集,支持基于标准化安全政策的细粒度多模态推理,并采用严格的质量过滤。
  • Result: 实验表明,基于MSR-Align微调的VLMs显著提升了对抗文本和视觉语言攻击的鲁棒性,同时保持或增强一般推理性能。
  • Conclusion: MSR-Align为提升多模态模型的安全性提供了可扩展且有效的基础。

[26] Automated Image Recognition Framework

Quang-Binh Nguyen,Trong-Vu Hoang,Ngoc-Do Tran,Tam V. Nguyen,Minh-Triet Tran,Trung-Nghia Le

Main category: cs.CV

TL;DR: 提出了一种基于生成AI的自动图像识别框架(AIR),通过合成高质量预标注数据集和自动训练模型,解决了数据收集和标注的挑战。

  • Motivation: 解决特定任务中数据收集和标注的高成本问题,尤其是在缺乏相关数据集的新颖或敏感主题上。
  • Method: 提出AIR框架,包含数据合成过程AIR-Gen和AIR-Aug,利用生成AI和自动提示工程模块生成高质量数据集,并通过分布调整算法优化数据。
  • Result: 实验证明生成的数据能有效训练深度学习模型,用户研究显示AIR获得4.4/5的高评分。
  • Conclusion: AIR框架为图像识别任务提供了一种高效、低成本的数据生成和模型训练解决方案。

[27] 3D-SSM: A Novel 3D Selective Scan Module for Remote Sensing Change Detection

Rui Huang,Jincheng Zeng,Sen Gao,Yan Xing

Main category: cs.CV

TL;DR: 提出了一种3D选择性扫描模块(3D-SSM)以解决现有Mamba方法在遥感变化检测中长距离依赖捕获不足的问题,并结合时空交互模块(SIM)和多分支特征提取模块(MBFEM)提升性能。

  • Motivation: 现有Mamba方法在遥感变化检测中无法有效捕获图像通道间的长距离依赖,限制了特征表示能力。
  • Method: 提出3D-SSM模块捕获全局信息,并结合SIM和MBFEM模块实现时空交互和多分支特征提取。
  • Result: 在五个基准数据集上优于现有方法。
  • Conclusion: 3D-SSM及相关模块显著提升了遥感变化检测的性能。

[28] Self-Paced Collaborative and Adversarial Network for Unsupervised Domain Adaptation

Weichen Zhang,Dong Xu,Wanli Ouyang,Wen Li

Main category: cs.CV

TL;DR: 提出了一种名为CAN的无监督域适应方法,结合域协作和域对抗学习策略,通过正负权重损失统一两种学习方式,并设计了协作对抗训练方案。进一步提出SPCAN,通过自步学习选择伪标签目标样本提升性能。实验表明其在多个基准数据集上达到最优性能。

  • Motivation: 解决无监督域适应中域分布不匹配和目标域判别性不足的问题。
  • Method: 结合域协作学习(保留目标域判别性)和域对抗学习(减少域分布差异),设计协作对抗训练方案,并提出自步学习策略SPCAN。
  • Result: 在多个基准数据集(如Office-31、ImageCLEF-DA等)上达到最优性能。
  • Conclusion: CAN和SPCAN方法有效解决了无监督域适应问题,显著提升了性能。

[29] AirV2X: Unified Air-Ground Vehicle-to-Everything Collaboration

Xiangbo Gao,Yuheng Wu,Xuewen Luo,Keshu Wu,Xinghao Chen,Yuping Wang,Chenxi Liu,Yang Zhou,Zhengzhong Tu

Main category: cs.CV

TL;DR: AirV2X-Perception是一个基于无人机的V2X感知数据集,用于解决传统基础设施V2X系统的高成本和覆盖不足问题。

  • Motivation: 传统V2X系统部署成本高且在农村和郊区存在覆盖盲区,无人机提供了一种灵活且低成本的替代方案。
  • Method: 利用无人机作为移动感知节点,收集城市、郊区和农村多种环境下的驾驶场景数据。
  • Result: 数据集包含6.73小时的无人机辅助驾驶场景数据,支持V2D算法的开发和标准化评估。
  • Conclusion: AirV2X-Perception填补了空中辅助自动驾驶系统的空白,数据集已开源。

[30] Da Yu: Towards USV-Based Image Captioning for Waterway Surveillance and Scene Understanding

Runwei Guan,Ningwei Ouyang,Tianhao Xu,Shaofeng Liang,Wei Dai,Yafeng Sun,Shang Gao,Songning Lai,Shanliang Yao,Xuming Hu,Ryan Wen Liu,Yutao Yue,Hui Xiong

Main category: cs.CV

TL;DR: 论文提出了WaterCaption数据集和Da Yu模型,用于提升无人水面艇(USV)对水道环境的全局语义理解能力。

  • Motivation: 现有水道感知模型局限于实例级对象感知,缺乏全局语义理解能力,限制了大规模监测和结构化日志生成。
  • Method: 利用视觉语言模型(VLM)和图像描述技术,构建了WaterCaption数据集,并提出边缘可部署的多模态大语言模型Da Yu,其核心是Nano Transformer Adaptor(NTA)。
  • Result: Da Yu在WaterCaption和其他描述基准上表现优异,平衡了性能与效率。
  • Conclusion: WaterCaption和Da Yu为水道环境的视觉地理理解和空间场景认知提供了新方向。

[31] HoliGS: Holistic Gaussian Splatting for Embodied View Synthesis

Xiaoyuan Wang,Yizhou Zhao,Botao Ye,Xiaojun Shan,Weijie Lyu,Lu Qi,Kelvin C. K. Chan,Yinxiao Li,Ming-Hsuan Yang

Main category: cs.CV

TL;DR: HoliGS是一种新颖的可变形高斯泼溅框架,用于从长单目RGB视频中进行视图合成,通过分层变形策略实现高效动态场景重建。

  • Motivation: 解决现有4D高斯泼溅和动态NeRF方法在长时间捕获中的训练开销问题,提供更高效、精确的动态环境重建方案。
  • Method: 将场景分解为静态背景和时间变化对象,利用可逆高斯泼溅变形网络实现全局刚性变换、骨架驱动和细微非刚性变形。
  • Result: 在挑战性数据集上实现优越的重建质量,显著减少训练和渲染时间。
  • Conclusion: HoliGS为现实场景中的EVS提供了实用且可扩展的解决方案。

[32] Open-Vocabulary Camouflaged Object Segmentation with Cascaded Vision Language Models

Kai Zhao,Wubang Yuan,Zheng Wang,Guanyi Li,Xiaoqiang Zhu,Deng-ping Fan,Dan Zeng

Main category: cs.CV

TL;DR: 论文提出了一种基于视觉语言模型(VLM)引导的级联框架,用于开放词汇伪装目标分割(OVCOS),解决了现有方法在分割和分类中的域差距和边界模糊问题。

  • Motivation: 现有方法在OVCOS中存在两个主要问题:一是视觉语言模型(VLM)的全图像训练与裁剪区域推理之间的域差距;二是通用分割模型对伪装目标的边界处理不精确。
  • Method: 提出了一种VLM引导的级联框架,利用SAM进行分割,并通过VLM特征作为显式提示;分类阶段则通过alpha通道保留完整图像上下文,避免硬裁剪。
  • Result: 在OVCOS和传统伪装目标分割基准测试中,该方法表现出显著优势,证明了VLM语义在分割和分类中的有效性。
  • Conclusion: 该方法通过VLM引导的分割和分类,显著提升了伪装目标分割和分类的准确性和上下文感知能力。

[33] Airway Skill Assessment with Spatiotemporal Attention Mechanisms Using Human Gaze

Jean-Paul Ainam,Rahul,Lora Cavuoto,Matthew Hackett,Jack Norfleet,Suvranu De

Main category: cs.CV

TL;DR: 论文提出了一种基于机器学习和人类注视数据的方法,用于评估气道管理技能(如气管插管),通过注意力机制和视觉掩模提高识别准确性。

  • Motivation: 传统的气道管理技能评估方法主观性强,难以在真实场景中准确衡量能力。
  • Method: 利用人类注视数据和视频记录,结合注意力机制和视觉掩模,通过自编码器网络提取特征,分类器输出评分。
  • Result: 该方法提高了预测准确性、敏感性和可信度,优于传统方法。
  • Conclusion: 结合人类注视数据的方法为临床技能评估提供了客观工具,有望改善紧急医学中的培训和患者结果。

[34] Capturing Fine-Grained Alignments Improves 3D Affordance Detection

Junsei Tokumitsu,Yuiga Wada

Main category: cs.CV

TL;DR: 提出了一种名为LM-AD的新方法,用于3D点云中的功能检测,通过引入Affordance Query Module (AQM)提升细粒度对齐能力。

  • Motivation: 现有方法在3D点云与文本的细粒度对齐上表现不佳,主要依赖于简单的余弦相似度,缺乏表达能力。
  • Method: 提出LM-AD方法,结合预训练语言模型,通过AQM模块高效捕捉点云与文本的细粒度对齐。
  • Result: 在3D AffordanceNet数据集上,LM-AD在准确率和平均IoU上优于现有方法。
  • Conclusion: LM-AD通过引入AQM模块,显著提升了3D点云功能检测的性能。

[35] Progressive Modality Cooperation for Multi-Modality Domain Adaptation

Weichen Zhang,Dong Xu,Jing Zhang,Wanli Ouyang

Main category: cs.CV

TL;DR: 提出了一种名为渐进式模态合作(PMC)的多模态域适应框架,用于在MMDA和MMDA-PI设置下利用多模态线索(如RGB和深度)进行知识迁移。

  • Motivation: 解决多模态域适应问题,特别是在目标域中某些模态缺失的情况下,如何有效利用源域的多模态数据。
  • Method: 提出PMC框架,包括两个新模块:多模态合作选择可靠伪标签目标样本,以及PMC-PI方法,通过多模态数据生成网络(MMG)生成目标域缺失的模态。
  • Result: 在三个图像数据集和八个视频数据集上的实验表明,PMC框架在MMDA和MMDA-PI设置下均有效。
  • Conclusion: PMC框架在多模态跨域视觉识别任务中表现出色,特别是在处理目标域模态缺失的情况下。

[36] Continual Retinal Vision-Language Pre-training upon Incremental Imaging Modalities

Yuang Yao,Ruiqi Wu,Yi Zhou,Tao Zhou

Main category: cs.CV

TL;DR: RetCoP是一种持续视觉语言预训练框架,用于整合多模态眼底图像和文本特征,通过排练策略和信息蒸馏减少遗忘。

  • Motivation: 传统眼底图像分析模型忽视多模态互补性,现有基础模型多为单模态,需动态整合多模态数据。
  • Method: 提出RetCoP框架,采用排练策略和离对角线信息蒸馏方法,持续整合多模态图像和文本特征。
  • Result: 实验表明RetCoP优于其他方法,具有最佳泛化能力和最低遗忘率。
  • Conclusion: RetCoP成功整合多模态数据,为动态环境下的眼底图像分析提供了有效解决方案。

[37] Memory-Augmented Incomplete Multimodal Survival Prediction via Cross-Slide and Gene-Attentive Hypergraph Learning

Mingcheng Qu,Guang Yang,Donglin Di,Yue Gao,Tonghua Su,Yang Song,Lei Fan

Main category: cs.CV

TL;DR: 提出了一种基于超图学习的多模态生存预测框架,有效整合病理切片和基因组数据,解决了模态不平衡问题,并通过记忆机制处理不完整模态。

  • Motivation: 现有方法主要整合FFPE切片和基因组数据,忽略了其他保存方式(如FF切片),且高分辨率病理数据主导跨模态融合,导致模态不平衡和不完整模态问题。
  • Method: 采用超图学习整合多WSI信息和跨模态交互,引入记忆机制动态补偿不完整模态。
  • Result: 在五个TCGA数据集上,模型C-Index超过先进方法2.3%,在不完整模态情况下优于仅病理(3.3%)和仅基因模型(7.9%)。
  • Conclusion: 提出的框架在多模态生存预测中表现优异,解决了模态不平衡和不完整模态问题。

[38] Comparative Performance of Finetuned ImageNet Pre-trained Models for Electronic Component Classification

Yidi Shao,Longfei Zhou,Fangshuo Tang,Xinyi Shi,Dalang Chen,Shengtao Xia

Main category: cs.CV

TL;DR: 本文比较了12种ImageNet预训练模型在电子元件分类中的性能,发现MobileNet-V2准确率最高(99.95%),EfficientNet-B0最低(92.26%),验证了预训练模型在电子制造中的实用性。

  • Motivation: 电子元件分类在制造业中至关重要,能显著降低人工成本并推动技术发展。预训练模型(尤其是基于ImageNet的)在图像分类中表现优异,适合数据有限的研究。
  • Method: 比较12种ImageNet预训练模型在电子元件分类任务中的性能。
  • Result: 所有模型均表现良好,MobileNet-V2准确率最高(99.95%),EfficientNet-B0最低(92.26%)。
  • Conclusion: ImageNet预训练模型在电子元件分类中效果显著,适用于电子制造业。

[39] Segment Any 3D-Part in a Scene from a Sentence

Hongyu Wu,Pengwan Yang,Yuki M. Asano,Cees G. M. Snoek

Main category: cs.CV

TL;DR: 论文提出了一种基于自然语言描述的3D场景部分分割方法,解决了数据和方法的双重挑战,并引入了首个大规模3D-PU数据集和OpenPart3D框架。

  • Motivation: 传统3D场景理解局限于对象级别,且数据获取和标注成本高昂。本文旨在扩展至部分级别,解决数据和方法的不足。
  • Method: 提出3D-PU数据集,采用创新的低成本方法生成合成3D场景和细粒度部分标注;开发OpenPart3D框架,仅需3D输入即可实现部分分割。
  • Result: 实验表明,该方法在部分级别的开放词汇3D场景理解任务中表现优越,且在不同数据集上具有强泛化能力。
  • Conclusion: 本文通过数据集和方法的创新,推动了3D部分级别场景理解的发展。

[40] Trajectory Prediction in Dynamic Object Tracking: A Critical Study

Zhongping Dong,Liming Chen,Mohand Tahar Kechadi

Main category: cs.CV

TL;DR: 本文综述了动态目标跟踪(DOT)和轨迹预测(TP)方法的最新进展,包括其应用和挑战,并提出了未来研究方向。

  • Motivation: 研究动机在于总结DOT和TP技术的现状,评估其在不同领域的应用效果,并指出当前面临的挑战。
  • Method: 方法包括对特征、分割、估计和学习等不同方法的分析,评估其在实际场景中的表现和局限性。
  • Result: 结果表明这些技术在汽车、安防、医疗和工业自动化等领域有显著影响,但仍存在泛化性、计算效率和数据依赖性等问题。
  • Conclusion: 结论指出未来需关注多模态数据整合、语义信息融合和上下文感知系统的发展,同时需解决伦理和隐私问题。

[41] Image Segmentation using Chan-Vese Active Contours

Pranav Shenoy K. P

Main category: cs.CV

TL;DR: 本文全面推导并实现了Chan-Vese主动轮廓模型用于图像分割,展示了其在噪声图像和弱边界图像中的有效性。

  • Motivation: 解决噪声图像或弱边界图像的分割问题,提供一种基于区域强度差异而非图像梯度的分割方法。
  • Method: 基于Mumford-Shah变分框架,推导水平集公式,使用散度定理和曲线演化理论处理能量项,并在Python中实现有限差分方法。
  • Result: 在医学和合成图像上实现准确分割,对噪声具有鲁棒性,性能优于传统基于边缘的方法。
  • Conclusion: Chan-Vese模型适用于复杂分割任务,具有实际成像应用的潜力。

[42] Training-Free Motion Customization for Distilled Video Generators with Adaptive Test-Time Distillation

Jintao Rong,Xin Xie,Xinyi Yu,Linlin Ou,Xinyu Zhang,Chunhua Shen,Dong Gong

Main category: cs.CV

TL;DR: MotionEcho是一种无需训练的测试时蒸馏框架,通过扩散教师强制实现运动定制,显著提升生成质量和运动保真度。

  • Motivation: 现有方法在蒸馏视频生成模型中难以实现运动定制,尤其是在无需训练的情况下。
  • Method: 利用高质量慢速教师模型通过端点预测和插值指导快速学生模型,动态分配计算资源。
  • Result: 实验表明,MotionEcho显著提高了运动保真度和生成质量,同时保持高效性。
  • Conclusion: MotionEcho为蒸馏视频生成模型提供了一种高效的无需训练的运动定制解决方案。

[43] Online camera-pose-free stereo endoscopic tissue deformation recovery with tissue-invariant vision-biomechanics consistency

Jiahe Chen,Naoki Tomii,Ichiro Sakuma,Etsuko Kobayashi

Main category: cs.CV

TL;DR: 该论文提出了一种基于立体内窥镜图像的组织变形恢复方法,通过建模几何和变形,解决了相机运动、遮挡等问题,并在实验中验证了其高精度和稳定性。

  • Motivation: 组织变形恢复对手术导航和自主软组织操作至关重要,但现有研究受限于相机运动、遮挡等问题,缺乏实时处理能力。
  • Method: 将组织几何建模为3D点和导数图,变形建模为3D位移和局部变形图,通过相机中心设置优化帧间变形,无需估计相机姿态。
  • Result: 实验显示,非遮挡和遮挡区域的3D重建精度分别为0.37±0.27 mm和0.39±0.21 mm,并能估计表面应变分布。
  • Conclusion: 该方法在复杂条件下稳定建模组织几何和变形,为机械分析提供了额外模态。

[44] Emergence of Text Readability in Vision Language Models

Jaeyoo Park,Sanghyuk Chun,Wonjae Kim,Sangdoo Yun,Bohyung Han

Main category: cs.CV

TL;DR: 研究发现,视觉语言模型(VLMs)在训练过程中,图像中文本识别能力(文本可读性)会突然出现,而语义理解能力则从早期逐渐发展。对比学习可能优先关注通用语义理解,而文本处理能力发展较晚。

  • Motivation: 探索视觉语言模型在训练过程中文本识别能力的出现方式,以优化多模态学习策略。
  • Method: 分析VLMs训练过程中文本可读性和语义理解能力的发展模式。
  • Result: 文本识别能力在训练后期突然出现,而语义理解能力从早期逐渐发展;文本匹配能力发展更慢。
  • Conclusion: 研究强调了针对文本理解的定制化训练策略的必要性,为未来多模态学习优化提供基础。

[45] Generate the Forest before the Trees -- A Hierarchical Diffusion model for Climate Downscaling

Declan J. Curran,Sanaa Hobeichi,Hira Saleem,Hao Xue,Flora D. Salim

Main category: cs.CV

TL;DR: 提出了一种名为HDD的分层扩散降尺度模型,显著降低了计算负担,同时保持高精度。

  • Motivation: 传统降尺度方法计算量大,AI降尺度模型(如扩散模型)虽有效但仍计算密集。
  • Method: 引入分层采样过程,采用从粗到细的层次结构,通过简单下采样方案实现。
  • Result: 在ERA5和CMIP6数据集上表现优异,计算量减少一半,且模型可跨分辨率迁移。
  • Conclusion: HDD为概率气候降尺度提供了轻量级解决方案,支持大规模高分辨率气候预测。

[46] A Global-Local Cross-Attention Network for Ultra-high Resolution Remote Sensing Image Semantic Segmentation

Chen Yi,Shan LianLei

Main category: cs.CV

TL;DR: GLCANet是一种轻量级语义分割框架,用于超高分辨率遥感图像,通过双流架构和注意力机制提升计算效率和特征融合。

  • Motivation: 现有方法在计算效率和多尺度特征融合方面存在不足,需要更高效的解决方案。
  • Method: 采用双流架构和自注意力机制,结合掩码交叉注意力机制,融合全局语义和局部细节。
  • Result: 实验表明GLCANet在精度和计算效率上优于现有方法,能高效处理大尺寸高分辨率图像。
  • Conclusion: GLCANet为遥感应用提供了高效且准确的语义分割解决方案。

[47] EvDetMAV: Generalized MAV Detection from Moving Event Cameras

Yin Zhang,Zian Ning,Xiaoyu Zhang,Shiliang Guo,Peidong Liu,Shiyu Zhao

Main category: cs.CV

TL;DR: 该论文提出了一种基于事件相机检测微型飞行器(MAV)的新方法,通过利用螺旋桨在事件流中的特征,显著提升了检测性能。

  • Motivation: 现有MAV检测方法主要依赖RGB图像中的外观特征,但多样性导致泛化能力不足。事件流中螺旋桨的独特特征为检测提供了新思路。
  • Method: 提出三个模块,从原始事件流中提取螺旋桨的显著时空特征,同时过滤背景噪声和相机运动干扰。
  • Result: 在未训练的情况下,方法显著优于现有技术,测试数据集上精确率达83.0%(+30.3%),召回率达81.5%(+36.4%)。
  • Conclusion: 该方法通过事件流特征实现了高效MAV检测,并发布了首个事件基MAV数据集,为社区提供了新资源。

[48] Mem4Nav: Boosting Vision-and-Language Navigation in Urban Environments with a Hierarchical Spatial-Cognition Long-Short Memory System

Lixuan He,Haoyu Dong,Zhenxing Chen,Yangcheng Yu,Jie Feng,Yong Li

Main category: cs.CV

TL;DR: Mem4Nav是一种分层空间认知长短记忆系统,用于增强视觉与语言导航(VLN)任务,通过结合稀疏八叉树和语义拓扑图,显著提升了任务完成率和导航效率。

  • Motivation: 解决现有VLN方法中模块化管道缺乏统一内存,以及端到端方法受限于固定上下文窗口和隐式空间推理的问题。
  • Method: 提出Mem4Nav系统,结合稀疏八叉树和语义拓扑图,通过可逆Transformer嵌入存储,实现长短记忆的动态管理。
  • Result: 在多个基准测试中,Mem4Nav显著提升了任务完成率(7-13 pp),减少了路径偏差,并改善了导航效率(>10 pp nDTW)。
  • Conclusion: Mem4Nav通过分层地图和双记忆模块的有效结合,显著提升了VLN任务的性能,代码已开源。

[49] AMF-MedIT: An Efficient Align-Modulation-Fusion Framework for Medical Image-Tabular Data

Congjing Yu,Jing Ye,Yang Liu,Xiaodong Zhang,Zhiyong Zhang

Main category: cs.CV

TL;DR: AMF-MedIT提出了一种高效的医疗图像与表格数据融合框架,通过自适应调制与融合模块解决跨模态差异和数据稀缺问题。

  • Motivation: 医疗多模态分析中,图像与表格数据的有效融合因特征维度差异和噪声问题而具有挑战性。
  • Method: 提出AMF模块和FT-Mamba表格编码器,通过调制目标和模态置信比实现动态融合,并处理噪声数据。
  • Result: 实验表明AMF-MedIT在多模态性能与数据效率间取得平衡,且适应不完整表格数据。
  • Conclusion: AMF-MedIT框架在医疗多模态分析中表现出高效性和适应性,FT-Mamba编码器具有显著特征提取能力。

[50] Sampling Matters in Explanations: Towards Trustworthy Attribution Analysis Building Block in Visual Models through Maximizing Explanation Certainty

Róisín Luo,James McDermott,Colm O'Riordan

Main category: cs.CV

TL;DR: 论文提出了一种半最优采样方法,通过抑制输入特征来解决梯度积分中样本分布与自然图像分布不对齐的问题,从而提高解释的确定性。

  • Motivation: 现有方法通过向图像添加噪声作为样本,但噪声分布可能导致解释确定性低。论文旨在解决样本分布不对齐问题,构建更可信的图像归因分析。
  • Method: 提出半最优采样方法,通过抑制输入特征生成样本,使其分布接近自然图像分布。
  • Result: 在ImageNet上的大量实验表明,该方法优于现有基线,能生成更满意的解释。
  • Conclusion: 通过抑制特征而非添加噪声,解决了样本分布不对齐问题,提升了归因分析的可信度。

[51] Deblurring in the Wild: A Real-World Dataset from Smartphone High-Speed Videos

Mahdi Mohd Hossain Noki,Syed Mumtahin Mahmud,Prothito Shovon Majumder,Abdul Mohaimen Al Radi,Md. Haider Ali,Md. Mosaddek Khan

Main category: cs.CV

TL;DR: 论文提出了一个基于智能手机慢动作视频构建的最大真实世界图像去模糊数据集,包含42,000对高分辨率模糊-清晰图像,并验证了现有去模糊模型的性能下降。

  • Motivation: 现有去模糊数据集规模小且场景单一,无法满足复杂真实场景的需求,因此需要构建更大、更多样化的数据集。
  • Method: 通过智能手机慢动作视频(240帧/秒)模拟长曝光模糊,平均多帧生成模糊图像,并选取中间帧作为清晰参考。
  • Result: 数据集规模是现有常用数据集的10倍,场景多样性为8倍,测试显示现有SOTA模型性能显著下降。
  • Conclusion: 该数据集为去模糊模型提供了更具挑战性和泛化性的新基准。

[52] Stylized Structural Patterns for Improved Neural Network Pre-training

Farnood Salehi,Vandit Sharma,Amirhossein Askari Farsangi,Tunç Ozan Aydın

Main category: cs.CV

TL;DR: 论文提出两步法改进合成数据质量:改进神经分形生成新合成数据,反向风格化增强数据有效性,显著缩小与真实数据的分布差距,提升模型性能。

  • Motivation: 解决真实图像数据集难以获取且存在隐私和法律问题,以及现有合成数据训练模型性能不足的问题。
  • Method: 1. 改进神经分形生成新合成数据;2. 提出反向风格化技术,将小规模真实图像特征迁移到合成数据中。
  • Result: 显著降低合成数据与真实数据的分布差距(KID指标),EDM2扩散模型FID降低11%,ViT-S分类模型在ImageNet-100上准确率提升10%。
  • Conclusion: 该方法为缺乏大规模真实数据时训练实用模型提供了新可能。

[53] Surgery-R1: Advancing Surgical-VQLA with Reasoning Multimodal Large Language Model via Reinforcement Learning

Pengfei Hao,Shuaibo Li,Hongqiu Wang,Zhizhuo Kou,Junhang Zhang,Guang Yang,Lei Zhu

Main category: cs.CV

TL;DR: 论文提出了一种用于手术场景视觉问答定位任务(Surgical-VQLA)的推理多模态大语言模型(Surgery-R1),通过两阶段微调机制提升推理能力,并在实验中表现优于现有模型。

  • Motivation: 现有Surgical-VQLA模型缺乏深度推理能力和可解释性,限制了其在临床应用中的可靠性和发展潜力。
  • Method: 构建Surgery-R1-54k数据集,设计两阶段微调机制(SFT和RFT),并引入多模态一致性奖励机制以减少位置错觉。
  • Result: Surgery-R1在Surgical-VQLA任务中表现优于现有SOTA模型和其他广泛使用的MLLM,验证了其推理能力和方法的有效性。
  • Conclusion: Surgery-R1通过创新的数据集和微调机制,显著提升了手术场景中的推理能力,为临床应用提供了更可靠的解决方案。

[54] USIS16K: High-Quality Dataset for Underwater Salient Instance Segmentation

Lin Hong,Xin Wang,Yihao Li,Xia Wang

Main category: cs.CV

TL;DR: 论文提出了一个名为USIS16K的大规模水下显著实例分割数据集,包含16,151张高分辨率图像,涵盖158类水下物体,并提供了基准评估。

  • Motivation: 水下显著实例分割(USIS)因水下环境的动态性和数据稀缺性而未被充分研究,需要高质量数据集推动研究。
  • Method: 收集并标注了16,151张水下图像,构建USIS16K数据集,并提供基准模型评估。
  • Result: USIS16K在多样性、复杂性和可扩展性上显著提升,为水下目标检测和USIS任务提供了基准。
  • Conclusion: USIS16K数据集和基准模型公开可用,将促进水下显著实例分割领域的研究。

[55] HMSViT: A Hierarchical Masked Self-Supervised Vision Transformer for Corneal Nerve Segmentation and Diabetic Neuropathy Diagnosis

Xin Zhang,Liangxiu Han,Yue Shi,Yanlin Zheng,Alam Uazman,Maryam Ferdousi,Rayaz Malik

Main category: cs.CV

TL;DR: HMSViT是一种新型的分层掩码自监督视觉变换器,用于角膜神经分割和糖尿病周围神经病变(DPN)诊断,通过高效的多尺度特征提取和自监督学习,显著提升了性能。

  • Motivation: 糖尿病周围神经病变(DPN)影响近半数糖尿病患者,需要早期检测。现有的自动诊断方法存在特征提取效率低、依赖手工先验和数据不足等问题。
  • Method: HMSViT采用基于池化的分层和双重注意力机制,结合绝对位置编码,实现高效多尺度特征提取;设计了块掩码自监督学习框架,减少对标记数据的依赖;使用多尺度解码器进行分割和分类。
  • Result: 在临床CCM数据集上,HMSViT在神经分割任务中达到61.34% mIoU,诊断准确率为70.40%,优于Swin Transformer和HiViT等模型,且参数更少。
  • Conclusion: HMSViT在性能和临床实用性上表现出色,具备在实际诊断中大规模部署的潜力。

[56] SceneCrafter: Controllable Multi-View Driving Scene Editing

Zehao Zhu,Yuliang Zou,Chiyu Max Jiang,Bo Sun,Vincent Casser,Xiukun Huang,Jiahao Wang,Zhenpei Yang,Ruiqi Gao,Leonidas Guibas,Mingxing Tan,Dragomir Anguelov

Main category: cs.CV

TL;DR: 论文提出SceneCrafter,一种用于多摄像头捕捉的驾驶场景的3D一致性编辑工具,解决了现有仿真技术中的现实性和一致性挑战。

  • Motivation: 现有仿真技术生成的场景缺乏现实基础,难以确保结果的可靠性。编辑模型虽能利用真实驾驶数据,但在跨摄像头3D一致性、学习无遮挡街道先验和生成配对图像方面存在挑战。
  • Method: 基于多视图扩散模型,提出可控框架SceneCrafter,支持多模态条件编辑。通过Prompt-to-Prompt生成几何一致的合成配对数据,并利用alpha-blending框架处理局部编辑。
  • Result: SceneCrafter在真实性、可控性、3D一致性和场景编辑质量上达到最先进水平。
  • Conclusion: SceneCrafter为驾驶场景的3D一致性编辑提供了高效解决方案,显著提升了仿真技术的现实性和实用性。

[57] Visual hallucination detection in large vision-language models via evidential conflict

Tao Huang,Zhekun Liu,Rui Wang,Yang Zhang,Liping Jing

Main category: cs.CV

TL;DR: 论文提出了一种评估大型视觉语言模型(LVLM)视觉幻觉的新方法,包括感知和推理能力的系统性评估,并提出了一种基于Dempster-Shafer理论(DST)的检测方法。

  • Motivation: 现有评估标准主要关注感知能力,忽略了推理能力导致的视觉幻觉,这在高风险AI应用中存在可靠性问题。
  • Method: 开发了PRE-HAL数据集,系统性评估LVLM的感知和推理能力;提出基于DST的视觉幻觉检测方法,通过不确定性估计高效捕捉特征冲突。
  • Result: 新方法在三种LVLM上表现优于五种基线不确定性指标,AUROC平均提升4%、10%和7%。
  • Conclusion: PRE-HAL数据集和DST方法显著提升了LVLM视觉幻觉的检测能力,尤其在关系推理任务中表现突出。

[58] ReMAR-DS: Recalibrated Feature Learning for Metal Artifact Reduction and CT Domain Transformation

Mubashara Rehman,Niki Martinel,Michele Avanzo,Riccardo Spizzo,Christian Micheloni

Main category: cs.CV

TL;DR: 提出了一种名为ReMAR-DS的深度学习框架,用于减少kVCT成像中的金属伪影,并将其转换为MVCT图像,提升放疗计划质量。

  • Motivation: kVCT成像中的伪影影响图像质量,进而影响临床决策。传统方法无法有效解决高分辨率kVCT与抗伪影MVCT之间的差距。
  • Method: 采用编码器-解码器架构,结合特征重校准技术,专注于伪影区域和关键解剖结构,实现高质量MVCT重建。
  • Result: 通过定性和定量评估验证,模型能有效减少伪影并保留解剖结构,生成高质量的MVCT样重建图像。
  • Conclusion: 该方法减少了重复高剂量MVCT扫描的需求,降低了患者的辐射暴露,为临床决策提供了更可靠的依据。

[59] Identifying Physically Realizable Triggers for Backdoored Face Recognition Networks

Ankita Raj,Ambar Pal,Chetan Arora

Main category: cs.CV

TL;DR: 提出了一种检测和识别面部识别系统中自然触发器的后门攻击的新方法。

  • Motivation: 后门攻击通过隐藏触发器使系统在特定输入下表现异常,对高安全性应用构成威胁。
  • Method: 开发了一种技术,用于检测和识别面部识别网络中的自然触发器。
  • Result: 在受感染的网络中,识别触发器的前5准确率达到74%,优于基线方法。
  • Conclusion: 该方法有效提升了后门攻击的检测和触发器识别能力。

[60] General Methods Make Great Domain-specific Foundation Models: A Case-study on Fetal Ultrasound

Jakob Ambsdorf,Asbjørn Munk,Sebastian Llambias,Anders Nymark Christensen,Kamil Mikolaj,Randall Balestriero,Martin Tolsgaard,Aasa Feragen,Mads Nielsen

Main category: cs.CV

TL;DR: 研究探讨了在医疗数据上预训练定制基础模型与从通用模型迁移学习的优劣,并通过胎儿超声数据集实验证明定制预训练的价值。

  • Motivation: 解决在医疗数据上是否应预训练定制模型或使用迁移学习的问题,以及是否需要新方法。
  • Method: 使用DINOv2方法在2M胎儿超声图像上预训练基础模型,并与多种预训练模型对比。
  • Result: 定制预训练在超声任务上表现优于通用模型,且无需超参数调整或方法创新。
  • Conclusion: 在资源有限时,应避免方法创新偏见,优先选择定制预训练。

[61] MambaOutRS: A Hybrid CNN-Fourier Architecture for Remote Sensing Image Classification

Minjong Cheon,Changbae Mun

Main category: cs.CV

TL;DR: MambaOutRS是一种新型混合卷积架构,用于遥感图像分类,通过傅里叶滤波门模块高效捕获全局上下文信息,在多个数据集上实现SOTA性能。

  • Motivation: 现有状态空间模型(如Mamba)在2D视觉数据上的适应需要复杂修改,可能降低效率,因此研究是否需要递归SSMs。
  • Method: MambaOutRS采用四阶段分层设计,结合门控CNN块和傅里叶滤波门(FFG)模块,在频域中捕获全局信息。
  • Result: 在UC Merced和AID等数据集上,MambaOutRS-t(24.0M参数)分别达到98.41%和95.99%的F1分数,显著优于现有基线。
  • Conclusion: 研究表明,门控卷积和频域门的组合可以高效替代递归SSMs,为遥感等领域提供高性能且计算高效的模型。

[62] SMARTIES: Spectrum-Aware Multi-Sensor Auto-Encoder for Remote Sensing Images

Gencer Sumbul,Chang Xu,Emanuele Dalsasso,Devis Tuia

Main category: cs.CV

TL;DR: SMARTIES是一个通用的基础模型,能够处理多样化的遥感传感器数据,通过将异构传感器数据映射到共享的频谱感知空间,实现跨传感器的灵活组合。

  • Motivation: 现有深度学习模型通常针对单一传感器或固定组合,限制了跨传感器的可扩展性和泛化能力。SMARTIES旨在解决这一问题,实现多传感器数据的灵活处理。
  • Method: SMARTIES通过训练一个统一的Transformer模型,重建掩码的多传感器数据,并采用跨传感器令牌混合技术,实现传感器无关的特征表示。
  • Result: SMARTIES在单模态和多模态任务中表现优于依赖传感器特定预训练的模型。
  • Conclusion: SMARTIES为多传感器遥感数据处理提供了灵活、可扩展的解决方案,推动了跨传感器模型的发展。

[63] Vision Transformer-Based Time-Series Image Reconstruction for Cloud-Filling Applications

Lujun Li,Yiqun Wang,Radu State

Main category: cs.CV

TL;DR: 提出了一种基于Vision Transformer的时间序列多光谱图像重建框架,结合SAR数据,显著提升了云覆盖区域的图像重建效果。

  • Motivation: 多光谱图像(MSI)在云覆盖下信息缺失或损坏,而合成孔径雷达(SAR)数据虽不受云干扰,但光谱细节不足,需结合两者优势。
  • Method: 利用Vision Transformer(ViT)的时间序列注意力机制,结合MSI的时间相干性和SAR的互补信息,重建云覆盖区域的MSI数据。
  • Result: 实验表明,该框架在云覆盖区域的MSI重建效果显著优于仅使用非时间序列MSI和SAR或仅时间序列MSI的基线方法。
  • Conclusion: 提出的时间序列ViT框架有效解决了云覆盖下MSI数据重建问题,为早期作物制图提供了可靠解决方案。

[64] Implementing blind navigation through multi-modal sensing and gait guidance

Feifan Yan,Tianle Zeng,Meixi He

Main category: cs.CV

TL;DR: 本文提出了一种基于步态分析的盲人导航设备,通过多模态感知环境信息,实验表明其性能优于传统导盲杖。

  • Motivation: 全球视力受损人口超过2.2亿,传统辅助工具如导盲杖和导盲犬存在不足,需改进。
  • Method: 采用步态分析导航和多模态环境感知技术,设计可穿戴盲人导航设备。
  • Result: 实验证明该设备在室内外导航中性能优于传统导盲杖。
  • Conclusion: 该设备为盲人导航提供了更有效的解决方案。

[65] Self-Supervised Multimodal NeRF for Autonomous Driving

Gaurav Sharma,Ravi Kothari,Josef Schmid

Main category: cs.CV

TL;DR: 提出了一种基于NeRF的自监督框架NVSF,用于联合学习LiDAR和相机的时空场景表示,无需3D标注,并在KITTI-360数据集上表现最佳。

  • Motivation: 解决现有动态NeRF方法需要3D标注的问题,提出自监督框架以降低标注成本。
  • Method: 采用启发式图像像素采样和双梯度掩码,高效训练并保留LiDAR局部特征。
  • Result: 在KITTI-360数据集上优于基线模型,LiDAR和相机领域均表现最佳。
  • Conclusion: NVSF是一种高效、自监督的多模态动态场景表示框架,适用于自动驾驶场景。

[66] VideoPCDNet: Video Parsing and Prediction with Phase Correlation Networks

Noel José Rodrigues Vicente,Enrique Lehner,Angel Villar-Corrales,Jan Nogga,Sven Behnke

Main category: cs.CV

TL;DR: VideoPCDNet是一种无监督框架,用于视频对象分解和预测,通过频域相位相关技术解析视频对象,并学习可解释的对象原型和运动表示。

  • Motivation: 动态环境中理解和预测视频内容对规划和推理至关重要,但无监督学习对象表示和动态仍具挑战性。
  • Method: 使用频域相位相关技术递归解析视频为对象组件,并通过轻量级学习模块建模对象运动。
  • Result: 在多个合成数据集上,VideoPCDNet在无监督跟踪和预测任务中优于基线模型。
  • Conclusion: VideoPCDNet能够准确无监督跟踪和预测未来视频帧,同时学习可解释的对象和运动表示。

[67] HOIverse: A Synthetic Scene Graph Dataset With Human Object Interactions

Mrunmai Vivek Phatak,Julian Lorenz,Nico Hörmann,Jörg Hähner,Rainer Lienhart

Main category: cs.CV

TL;DR: HOIverse是一个合成数据集,结合场景图和人物-物体交互,提供精确的关系标注,用于室内场景理解研究。

  • Motivation: 当前研究缺乏可靠的室内场景理解数据集,尤其是包含人物的场景。
  • Method: 通过生成场景图的结构化表示,计算物体和人物-物体对的参数化关系。
  • Result: HOIverse数据集包含RGB图像、分割掩码、深度图像和人物关键点,并提供了精确的关系标注。
  • Conclusion: 该数据集旨在推动涉及人物的场景理解研究,并在最先进的场景图生成模型上进行了基准测试。

[68] PEVLM: Parallel Encoding for Vision-Language Models

Letian Kang,Shixian Luo,Yiqiang Li,Xiaoyang Yu,Shenxuan Zhou,Yong Wu

Main category: cs.CV

TL;DR: PEVLM是一种并行编码策略,旨在提高视觉语言模型(VLM)的长视频理解效率,无需微调模型,显著降低计算复杂度并保持高精度。

  • Motivation: 标准注意力机制的二次复杂度限制了视觉语言模型在长视频理解中的应用。
  • Method: PEVLM将输入分块处理,保留全注意力位置嵌入,并通过对齐注意力权重模拟全注意力分布。
  • Result: 在LongVideoBench基准测试中,PEVLM实现了8.37%的精度提升,7.47倍注意力计算加速和40%端到端延迟降低。
  • Conclusion: PEVLM在低延迟、长上下文视频理解中表现出色,适用于自动驾驶等实际应用。

[69] Video Compression for Spatiotemporal Earth System Data

Oscar J. Pellicer-Valero,Cesar Aybar,Gustau Camps Valls

Main category: cs.CV

TL;DR: xarrayvideo是一个Python库,通过将多通道时空数据集编码为视频,利用ffmpeg实现高效压缩,压缩比高达250倍,同时保持高保真度。

  • Motivation: 处理大规模地球系统数据集的快速增长,利用视频压缩技术解决数据冗余问题。
  • Method: 通过xarrayvideo库将多通道时空数据集编码为视频,利用ffmpeg进行压缩。
  • Result: 在四个真实数据集上实现高压缩比(250x)和高PSNR值(最高65.91 dB),且不影响下游深度学习任务性能。
  • Conclusion: xarrayvideo为地球科学社区提供了一种高效的数据压缩解决方案,适用于快速增长的观测数据集。

[70] SAM2-SGP: Enhancing SAM2 for Medical Image Segmentation via Support-Set Guided Prompting

Yang Xing,Jiong Wu,Yuheng Bu,Kuang Gong

Main category: cs.CV

TL;DR: SAM2-SGP通过支持集引导提示和低秩适应策略,解决了SAM2在医学图像分割中的手动提示需求和领域偏移问题,显著提升了性能。

  • Motivation: 解决SAM2在医学图像分割中依赖人工提示和领域偏移的问题。
  • Method: 提出SAM2-SGP框架,包括伪掩码生成模块(PMG)和伪掩码注意力模块(PMA),并采用低秩适应(LoRA)策略。
  • Result: 在多种医学影像模态上显著优于现有模型(如nnUNet、SwinUNet、SAM2和MedSAM2)。
  • Conclusion: SAM2-SGP有效解决了医学图像分割中的关键挑战,性能显著提升。

[71] Recurrent Visual Feature Extraction and Stereo Attentions for CT Report Generation

Yuanhe Tian,Lei Mao,Yan Song

Main category: cs.CV

TL;DR: 提出了一种基于大语言模型(LLM)的CT报告生成方法,通过循环视觉特征提取和立体注意力机制,显著提升了性能。

  • Motivation: 现有方法未充分考虑CT切片间的变换关系和多层次特征整合,尤其是特定器官病变的特征,影响了报告生成的准确性。
  • Method: 使用视觉Transformer循环处理CT切片,并通过立体注意力机制选择重要视觉信息,与文本特征对齐,指导LLM生成报告。
  • Result: 在M3D-Cap数据集上超越了基线模型,达到最优性能。
  • Conclusion: 该方法有效整合了CT切片的多层次特征,显著提升了报告生成的准确性和效果。

[72] Genome-Anchored Foundation Model Embeddings Improve Molecular Prediction from Histology Images

Cheng Jin,Fengtao Zhou,Yunfang Yu,Jiabo Ma,Yihui Wang,Yingxue Xu,Huajun Zhou,Hao Jiang,Luyang Luo,Luhui Mao,Zifan He,Xiuming Zhang,Jing Zhang,Ronald Chan,Herui Yao,Hao Chen

Main category: cs.CV

TL;DR: PathLUPI利用转录组特权信息训练,从全切片图像(WSI)中提取基因组锚定的组织学嵌入,显著提升了分子预测性能。

  • Motivation: 精准肿瘤学需要准确的分子信息,但直接从基因组学获取成本高且耗时。PathLUPI旨在通过WSI预测分子特征和患者预后,解决现有深度学习方法的局限性。
  • Method: PathLUPI在训练阶段利用转录组特权信息,生成基因组锚定的组织学嵌入,仅需WSI即可进行推理。
  • Result: 在49项分子肿瘤学任务中,PathLUPI表现优于传统方法,14项任务AUC≥0.80,5种癌症的生存队列C-index≥0.70。
  • Conclusion: PathLUPI通过编码分子上下文优化WSI表征,为临床病理工作流程提供了一种新策略。

[73] Semantic Scene Graph for Ultrasound Image Explanation and Scanning Guidance

Xuesong Li,Dianye Huang,Yameng Zhang,Nassir Navab,Zhongliang Jiang

Main category: cs.CV

TL;DR: 论文提出了一种基于场景图(SG)的方法,通过LLMs和Transformer模型提升超声图像的解读和扫描指导,特别针对非专业用户。

  • Motivation: 解决超声图像因参数差异导致的视觉变异性问题,并满足非专业用户(如即时医疗场景)对图像解读和扫描指导的需求。
  • Method: 使用Transformer模型生成超声图像场景图(SG),结合LLMs细化用户查询,提供图像解释和扫描指导。
  • Result: 在颈部区域(颈动脉和甲状腺)的五名志愿者图像上验证了方法的有效性,提升了超声的解读和可用性。
  • Conclusion: 该方法有望通过提升超声的解读和可用性,使其更广泛地普及。

[74] UltraAD: Fine-Grained Ultrasound Anomaly Classification via Few-Shot CLIP Adaptation

Yue Zhou,Yuan Bi,Wenjuan Tong,Wei Wang,Nassir Navab,Zhongliang Jiang

Main category: cs.CV

TL;DR: UltraAD是一种基于视觉语言模型的方法,利用少量超声图像示例进行异常定位和细粒度分类,显著优于现有方法。

  • Motivation: 解决医学图像中异常检测的细粒度区分不足以及超声图像因设备和参数变化导致的域差距问题。
  • Method: 结合视觉原型与文本嵌入,构建记忆库存储少量图像样本和文本描述,优化图像特征与医学数据的对齐。
  • Result: 在三个乳腺超声数据集上表现优异,优于现有方法。
  • Conclusion: UltraAD在异常定位和细粒度分类方面具有显著优势,适用于医学图像分析。

[75] Systematic Comparison of Projection Methods for Monocular 3D Human Pose Estimation on Fisheye Images

Stephanie Käs,Sven Peter,Henrik Thillmann,Anton Burenko,David Benjamin Adrian,Dennis Mack,Timm Linder,Bastian Leibe

Main category: cs.CV

TL;DR: 论文研究了鱼眼相机在3D人体姿态估计中的投影模型选择问题,提出了一种基于检测边界框的启发式方法,并引入了新数据集FISHnCHIPS。

  • Motivation: 鱼眼相机在广视角下捕捉人体姿态具有优势,但图像畸变导致姿态估计困难,现有方法的有效性尚未系统评估。
  • Method: 评估了针孔、等距、双球面相机模型及圆柱投影方法对3D人体姿态估计的影响,并提出启发式选择模型。
  • Result: 近距离场景下针孔投影效果不佳,双球面模型显著提升精度,最优投影方法随视角范围变化。
  • Conclusion: 提出基于边界框的投影模型选择启发式方法,并发布包含广视角和极端角度的新数据集FISHnCHIPS。

[76] CoCo4D: Comprehensive and Complex 4D Scene Generation

Junwei Zhou,Xueting Li,Lu Qi,Ming-Hsuan Yang

Main category: cs.CV

TL;DR: CoCo4D是一个从文本提示生成动态4D场景的框架,支持多视角一致性和沉浸感,通过分离动态前景和背景优化合成效果。

  • Motivation: 现有4D合成方法局限于对象级生成或有限视角的动态场景,无法实现多视角一致且沉浸的动态4D场景。
  • Method: CoCo4D将4D场景合成分为动态前景建模和背景演化两部分,利用参考运动序列和渐进式外绘方案生成一致场景。
  • Result: 实验表明CoCo4D在4D场景生成中性能优于或媲美现有方法,实现了高效且逼真的合成效果。
  • Conclusion: CoCo4D通过分离前景与背景优化动态4D场景生成,展示了其高效性和实用性。

[77] One Prototype Is Enough: Single-Prototype Activation for Interpretable Image Classification

Yitao Peng,Lianghua He,Die Hu

Main category: cs.CV

TL;DR: ProtoSolo是一种新型深度神经网络架构,通过单原型激活实现可解释的图像分类,简化解释复杂度,并利用特征图进行相似性比较。

  • Motivation: 现有原型网络依赖多原型协作决策,增加了认知复杂度。ProtoSolo旨在通过单原型激活简化分类和解释过程。
  • Method: 提出基于特征图的相似性比较方法,以及非原型投影学习策略,保留原型与训练图像块的信息关联。
  • Result: 在CUB-200-2011和Stanford Cars数据集上,ProtoSolo在分类任务和解释复杂度方面表现优异。
  • Conclusion: ProtoSolo通过单原型激活和特征图比较,实现了高效且易解释的图像分类。

[78] Bind-Your-Avatar: Multi-Talking-Character Video Generation with Dynamic 3D-mask-based Embedding Router

Yubo Huang,Weiqiang Wang,Sirui Zhao,Tong Xu,Lin Liu,Enhong Chen

Main category: cs.CV

TL;DR: 论文提出了一种名为Bind-Your-Avatar的模型,用于生成同一场景中多个角色的对话视频,解决了音频与角色对应控制及数据集缺乏的问题。

  • Motivation: 现有方法主要关注单角色场景,而多角色在同一空间环境中的对话视频生成仍未被充分解决,尤其是音频与角色对应控制和数据集缺乏的挑战。
  • Method: 提出了基于MM-DiT的模型,包括细粒度Embedding Router绑定角色与音频,3D-mask嵌入路由器和掩码优化策略,并构建了首个多角色对话视频数据集。
  • Result: 实验表明,该方法在双角色对话视频生成任务中表现优于现有技术。
  • Conclusion: Bind-Your-Avatar模型有效解决了多角色对话视频生成的关键挑战,为未来研究提供了新方向。

[79] SimpleGVR: A Simple Baseline for Latent-Cascaded Video Super-Resolution

Liangbin Xie,Yu Li,Shian Du,Menghan Xia,Xintao Wang,Fanghua Yu,Ziyan Chen,Pengfei Wan,Jiantao Zhou,Chao Dong

Main category: cs.CV

TL;DR: 论文提出了一种两阶段视频生成方法,通过语义内容生成和细节合成实现高效高分辨率视频生成,重点研究了级联视频超分辨率(VSR)模型的设计原则。

  • Motivation: 随着用户对高分辨率视频生成的需求增加,仅依赖潜在计算已不足,需要探索更高效的方法。
  • Method: 提出两阶段方法:1)低分辨率下使用计算密集型基础模型生成语义内容;2)轻量级级联VSR模型实现高分辨率输出。研究了VSR模型的设计原则,包括训练对生成策略、时间步采样和噪声增强分析。
  • Result: 实验表明该方法优于现有方法,消融研究验证了各设计选择的有效性。
  • Conclusion: 论文为级联视频超分辨率生成提供了简单有效的基线,为未来高效级联合成系统的研究提供了实用指导。

[80] Improving Progressive Generation with Decomposable Flow Matching

Moayed Haji-Ali,Willi Menapace,Ivan Skorokhodov,Arpit Sahni,Sergey Tulyakov,Vicente Ordonez,Aliaksandr Siarohin

Main category: cs.CV

TL;DR: Decomposable Flow Matching (DFM) 是一种简单有效的渐进生成视觉媒体的框架,通过独立应用 Flow Matching 在多尺度表示中,提升了图像和视频的视觉质量。

  • Motivation: 解决高维视觉模态生成的计算密集型问题,避免现有多阶段架构的复杂性和定制需求。
  • Method: DFM 在用户定义的多尺度表示(如拉普拉斯金字塔)的每个层级独立应用 Flow Matching。
  • Result: 在 Imagenet-1k 512px 上,DFM 的 FDD 分数比基础架构提升 35.2%,比最佳基线提升 26.4%,且收敛速度更快。
  • Conclusion: DFM 通过单一模型和简单架构实现了显著性能提升,且对现有训练流程改动最小。

[81] GenHSI: Controllable Generation of Human-Scene Interaction Videos

Zekun Li,Rui Zhou,Rahul Sajnani,Xiaoyan Cong,Daniel Ritchie,Srinath Sridhar

Main category: cs.CV

TL;DR: GenHSI是一种无需训练的方法,用于生成长时间的人-场景交互视频,通过分阶段任务(脚本编写、预可视化、动画)解决现有问题。

  • Motivation: 现有大规模预训练视频扩散模型在生成长电影式视频时面临人-场景交互不真实、主体身份保留不足和训练成本高的问题。
  • Method: GenHSI将任务分为三阶段:脚本编写(分解复杂任务)、预可视化(生成3D关键帧)、动画(利用现成模型渲染)。
  • Result: 实验表明,GenHSI能从单张图像生成长视频,保留场景内容和角色身份,实现合理的人-场景交互。
  • Conclusion: GenHSI首次实现了无需训练的长视频生成,具有一致的相机姿态和丰富的角色动作。

[82] Active View Selector: Fast and Accurate Active View Selection with Cross Reference Image Quality Assessment

Zirui Wang,Yash Bhalgat,Ruining Li,Victor Adrian Prisacariu

Main category: cs.CV

TL;DR: 论文提出了一种基于2D图像质量评估(IQA)的主动视图选择方法,避免了传统3D空间建模的复杂性,并在速度和性能上优于现有方法。

  • Motivation: 现有方法如FisheRF和ActiveNeRF在3D空间中通过最小化不确定性或最大化信息增益来选择最佳视图,但需要针对不同3D表示进行专门设计且建模复杂。
  • Method: 将视图选择问题重新定义为2D图像质量评估任务,利用多视图上下文训练模型预测SSIM,并以此指导视图选择。
  • Result: 提出的跨参考IQA框架在标准基准测试中实现了显著的定量和定性改进,且运行速度比现有方法快14-33倍。
  • Conclusion: 该方法不仅对3D表示无关,还显著提升了视图选择的效率和效果。

[83] A Comparative Study of NAFNet Baselines for Image Restoration

Vladislav Esaulov,M. Moein Esfahani

Main category: cs.CV

TL;DR: NAFNet是一种简单高效的图像修复深度学习基线模型,通过CIFAR10噪声和模糊图像进行消融研究,验证了其核心组件的有效性。

  • Motivation: 研究NAFNet在图像修复中的性能,探索其核心组件(如SimpleGate激活、简化通道激活和LayerNorm)的作用。
  • Method: 使用CIFAR10噪声和模糊图像进行消融实验,比较不同变体的性能(PSNR、SSIM)。
  • Result: SimpleGate和简化注意力机制优于传统方法,LayerNorm对训练稳定性至关重要。
  • Conclusion: NAFNet设计有效,未来可进一步优化和改进。

[84] ScaleCap: Inference-Time Scalable Image Captioning via Dual-Modality Debiasing

Long Xing,Qidong Huang,Xiaoyi Dong,Pan Zhang,Yuhang Zang,Yuhang Cao,Jinsong Li,Shuangrui Ding,Weiming Zhang,Nenghai Yu,Jiaqi Wang,Feng Wu,Dahua Lin

Main category: cs.CV

TL;DR: ScaleCap是一种可扩展的图像描述生成策略,通过启发式问答和对比句子评分解决多模态和语言偏见问题,生成更准确、平衡和详细的图像描述。

  • Motivation: 解决现有LVLMs在图像描述中存在的多模态偏见(描述粒度不平衡)和语言偏见(幻觉描述)问题。
  • Method: 提出启发式问答和对比句子评分两种新组件,逐步注入相关信息并消除幻觉描述。
  • Result: 在11个基准测试中表现优异,生成描述更丰富且准确,支持VQA和图像重建任务。
  • Conclusion: ScaleCap通过可扩展策略显著提升图像描述的质量和多样性,适用于多种视觉语言任务。

[85] Unified Vision-Language-Action Model

Yuqi Wang,Xinghang Li,Wenxuan Wang,Junbo Zhang,Yingyan Li,Yuntao Chen,Xinlong Wang,Zhaoxiang Zhang

Main category: cs.CV

TL;DR: UniVLA是一种统一的多模态视觉-语言-动作模型,通过自回归建模视觉、语言和动作信号,结合世界建模,显著提升了长期任务的表现,并在多个基准测试中取得最佳成绩。

  • Motivation: 现有视觉-语言-动作模型主要依赖视觉-语言模型的通用理解能力,忽视了视觉观察中的时间和因果结构。
  • Method: UniVLA将视觉、语言和动作信号建模为离散标记序列,结合世界建模从大规模视频数据中学习因果动态。
  • Result: UniVLA在CALVIN、LIBERO等基准测试中表现优异,例如LIBERO上平均成功率95.5%,显著超越之前的方法。
  • Conclusion: UniVLA展示了在机器人操作和自动驾驶等实际任务中的广泛应用潜力。

[86] AnimaX: Animating the Inanimate in 3D with Joint Video-Pose Diffusion Models

Zehuan Huang,Haoran Feng,Yangtian Sun,Yuanchen Guo,Yanpei Cao,Lu Sheng

Main category: cs.CV

TL;DR: AnimaX是一个基于视频扩散模型和骨架动画的3D动画框架,支持多样化的骨架结构,通过多视角2D姿态映射和联合视频-姿态扩散实现高效3D动画生成。

  • Motivation: 传统运动合成方法受限于固定骨架结构或需要高维变形空间的优化,AnimaX旨在将视频运动知识迁移到3D领域,支持任意骨架的多样化动画。
  • Method: AnimaX将3D运动表示为多视角、多帧2D姿态映射,通过联合视频-姿态扩散和共享位置编码实现视频与姿态序列的时空对齐,最终通过三角测量和逆运动学生成3D动画。
  • Result: 在VBench上,AnimaX在泛化性、运动保真度和效率方面达到最先进水平。
  • Conclusion: AnimaX为类别无关的3D动画提供了可扩展的解决方案。

[87] Radial Attention: O(nlogn) Sparse Attention with Energy Decay for Long Video Generation

Xingyang Li,Muyang Li,Tianle Cai,Haocheng Xi,Shuo Yang,Yujun Lin,Lvmin Zhang,Songlin Yang,Jinbo Hu,Kelly Peng,Maneesh Agrawala,Ion Stoica,Kurt Keutzer,Song Han

Main category: cs.CV

TL;DR: 论文提出Radial Attention,一种高效的稀疏注意力机制,通过模拟时空能量衰减现象,显著降低视频扩散模型的计算成本。

  • Motivation: 视频扩散模型的高计算成本限制了长视频的生成能力,作者发现时空能量衰减现象,并据此提出解决方案。
  • Method: 提出Radial Attention,利用静态注意力掩码,使每个token仅关注空间邻近的token,且注意力窗口随时间距离缩小。
  • Result: 实验表明,Radial Attention在保持视频质量的同时,显著提升训练和推理效率,支持更长的视频生成。
  • Conclusion: Radial Attention是一种高效且可扩展的注意力机制,为长视频生成提供了实用解决方案。

eess.IV

[88] Assessing Risk of Stealing Proprietary Models for Medical Imaging Tasks

Ankita Raj,Harsh Swaika,Deepankar Varma,Chetan Arora

Main category: eess.IV

TL;DR: 论文研究了医疗影像黑盒模型在模型窃取攻击中的脆弱性,提出了一种名为QueryWise的两步攻击方法,并在胆囊癌和COVID-19分类模型中验证了其有效性。

  • Motivation: 尽管深度学习在医疗影像应用中取得成功,但专有模型面临模型窃取攻击的风险,而这一领域的研究尚不充分。
  • Method: 提出QueryWise方法,利用公开数据集和代理分布的无标签数据,在有限查询预算下高效窃取模型。
  • Result: 实验证明,该方法在胆囊癌和COVID-19分类任务中能有效克隆目标模型。
  • Conclusion: 医疗影像模型对模型窃取攻击具有显著脆弱性,QueryWise方法为攻击者提供了高效工具。

[89] NIC-RobustBench: A Comprehensive Open-Source Toolkit for Neural Image Compression and Robustness Analysis

Georgii Bychkov,Khaled Abud,Egor Kovalev,Alexander Gushchin,Dmitriy Vatolin,Anastasia Antsiferova

Main category: eess.IV

TL;DR: NIC-RobustBench是一个开源框架,用于评估神经图像压缩(NIC)的鲁棒性和对抗防御效率,同时比较率失真(RD)性能。

  • Motivation: 随着JPEG AI标准的发布,评估NIC鲁棒性变得至关重要,但此前研究局限于少数编解码器和攻击方式。
  • Method: 提出了NIC-RobustBench框架,包含最多编解码器,易于扩展。
  • Result: 框架提供了全面的NIC鲁棒性分析,并展示了其功能。
  • Conclusion: NIC-RobustBench为NIC鲁棒性研究提供了重要工具,代码已开源。

[90] Xray2Xray: World Model from Chest X-rays with Volumetric Context

Zefan Yang,Xinrui Song,Xuanang Xu,Yongyi Shi,Ge Wang,Mannudeep K. Kalra,Pingkun Yan

Main category: eess.IV

TL;DR: Xray2Xray是一种新型世界模型,通过从胸部X光片中学习3D结构信息的潜在表示,解决了2D投影图像的局限性,并在疾病诊断和风险预测任务中表现优异。

  • Motivation: 2D胸部X光片因结构叠加限制了其在精确疾病诊断和风险预测中的效果,Xray2Xray旨在通过3D结构信息提升诊断能力。
  • Method: Xray2Xray通过视觉模型和过渡模型学习不同角度X光投影的潜在表示,并用于下游任务。
  • Result: Xray2Xray在心血管疾病风险预测中优于监督和自监督方法,并在五种病理分类中表现优异,还能重建体积上下文。
  • Conclusion: Xray2Xray通过3D潜在表示显著提升了胸部X光片的诊断能力,具有广泛的应用潜力。

[91] Staining normalization in histopathology: Method benchmarking using multicenter dataset

Umair Khan,Jouni Härkönen,Marjukka Friman,Leena Latonen,Teijo Kuopio,Pekka Ruusuvuori

Main category: eess.IV

TL;DR: 论文研究了H&E染色在不同实验室间的变异问题,通过多中心数据集比较了八种染色归一化方法的性能。

  • Motivation: H&E染色在不同实验室间的显著变异对病理学家和AI分析构成挑战,研究旨在减少这种变异。
  • Method: 收集多中心组织图像数据集,比较八种染色归一化方法(四种传统方法和四种深度学习方法)。
  • Result: 通过定量和定性评估比较了各方法的性能,数据集可用于提升模型泛化能力。
  • Conclusion: 研究为减少染色变异提供了方法比较,数据集有助于改进AI模型的训练策略。

[92] A Deep Learning Based Method for Fast Registration of Cardiac Magnetic Resonance Images

Benjamin Graham

Main category: eess.IV

TL;DR: 提出了一种快速、轻量的深度学习模型(FLIR)用于心脏图像配准,以量化心脏应变,同时保持高精度和高效性。

  • Motivation: 医学图像配准(如心脏运动跟踪)需要高效且准确的方法,但现有深度学习方法速度慢,而快速方法可能影响精度。
  • Method: 设计了一种高效的卷积架构(DLNN),实现快速且高精度的体积配准,用于量化心脏应变。
  • Result: FLIR模型在保持与现有先进模型相似精度的同时,显著提高了推理速度,且应变计算结果一致性高。
  • Conclusion: FLIR模型为心脏图像配准提供了一种快速、轻量且高精度的解决方案,适用于研究和临床环境。

[93] Deformable Medical Image Registration with Effective Anatomical Structure Representation and Divide-and-Conquer Network

Xinke Ma,Yongsheng Pan,Qingjie Zeng,Mengkang Lu,Bolysbek Murat Yerzhanuly,Bazargul Matkerim,Yong Xia

Main category: eess.IV

TL;DR: 论文提出了一种名为EASR-DCN的新方法,通过有效表示和独立对齐ROI来提升医学图像配准性能,无需依赖标签。

  • Motivation: 当前基于学习的DMIR方法存在局限性:无监督方法忽略ROI表示,弱监督方法依赖标签约束。
  • Method: 使用高斯混合模型进行强度分析表示ROI,提出Divide-and-Conquer Network(DCN)独立对齐ROI。
  • Result: 在多个数据集上表现优异,Dice分数显著提升(如脑MRI提升10.31%)。
  • Conclusion: EASR-DCN在精度和变形减少方面表现突出,具有临床应用潜力。

[94] Quantitative Benchmarking of Anomaly Detection Methods in Digital Pathology

Can Cui,Xindong Zheng,Ruining Deng,Quan Liu,Tianyuan Yao,Keith T Wilson,Lori A Coburn,Bennett A Landman,Haichun Yang,Yaohong Wang,Yuankai Huo

Main category: eess.IV

TL;DR: 论文对数字病理图像中的异常检测方法进行了系统性评估,比较了20多种经典和流行方法的性能,并分析了图像尺度、异常模式类型和训练策略对结果的影响。

  • Motivation: 数字病理图像中的异常检测具有重要应用价值,但其独特特性(如大尺寸、多尺度结构等)给现有方法带来了挑战,因此需要系统性评估和比较。
  • Method: 通过五个真实和合成的数字病理数据集,对20多种异常检测方法进行了实验,研究了图像尺度、异常模式类型和训练策略的影响。
  • Result: 实验提供了每种方法的优缺点详细比较,为数字病理图像异常检测的未来研究提供了基准。
  • Conclusion: 研究为数字病理图像异常检测领域提供了全面的基准,指导未来方法的选择和改进。

[95] Explicit Residual-Based Scalable Image Coding for Humans and Machines

Yui Tatsumi,Ziyue Zeng,Hiroshi Watanabe

Main category: eess.IV

TL;DR: 论文提出两种可扩展图像压缩方法(FR-ICMH和PR-ICMH),通过显式残差压缩机制提升编码效率和可解释性,适用于多种机器视觉任务。

  • Motivation: 近年来,图像不仅被人类观看,还被机器识别模型使用,因此需要一种同时服务于机器和人类视觉的可扩展图像压缩方法(ICMH)。现有方法过度依赖学习能力,架构设计不足。
  • Method: 提出两种互补方法:基于特征残差的可扩展编码(FR-ICMH)和基于像素残差的可扩展编码(PR-ICMH),结合显式残差压缩机制。
  • Result: 实验证明PR-ICMH比之前工作节省了29.57%的BD-rate。
  • Conclusion: 提出的方法在编码效率和适应性上表现优异,适用于多样化应用需求。

[96] Reconsidering Explicit Longitudinal Mammography Alignment for Enhanced Breast Cancer Risk Prediction

Solveig Thrun,Stine Hansen,Zijun Sun,Nele Blum,Suaiba A. Salahuddin,Kristoffer Wickstrøm,Elisabeth Wetzer,Robert Jenssen,Maik Stille,Michael Kampffmeyer

Main category: eess.IV

TL;DR: 研究探讨了在乳腺X光检查中,显式对齐(explicit alignment)的最佳方法,比较了输入空间和表示空间的对齐效果,并发现图像级对齐优于表示级对齐。

  • Motivation: 调整高风险人群的筛查间隔需要准确跟踪乳腺组织随时间的变化,而显式对齐方法在此方面的最优策略尚未明确。
  • Method: 研究比较了输入空间和表示空间的显式对齐方法,并探讨了对齐与风险预测是否应联合优化。
  • Result: 图像级对齐在变形场质量和风险预测准确性上优于表示级对齐。
  • Conclusion: 图像级显式对齐是乳腺X光检查中更优的策略,能同时提升对齐质量和预测性能。

[97] NAADA: A Noise-Aware Attention Denoising Autoencoder for Dental Panoramic Radiographs

Khuram Naveed,Bruna Neves de Freitas,Ruben Pauwels

Main category: eess.IV

TL;DR: 提出了一种噪声感知自注意力方法(NAADA网络),用于增强牙科全景X光片的去噪效果,特别关注高频细节的恢复。

  • Motivation: 传统卷积去噪自编码器(DAEs)在恢复高频细节方面表现不佳,而现有的注意力机制往往忽略噪声区域的关键特征。
  • Method: 提出噪声感知自注意力方法,构建NAADA网络,专注于噪声区域的关键特征恢复。
  • Result: 相比现有方法(如Uformer、MResDNN),NAADA在细节重建和图像质量上表现更优。
  • Conclusion: NAADA网络显著提升了牙科X光片的去噪效果和诊断准确性。

[98] Angio-Diff: Learning a Self-Supervised Adversarial Diffusion Model for Angiographic Geometry Generation

Zhifeng Wang,Renjiao Yi,Xin Wen,Chenyang Zhu,Kai Xu,Kunlun He

Main category: eess.IV

TL;DR: 提出了一种基于扩散模型的自监督方法,将非血管造影X射线转换为血管造影X射线,解决了数据不足问题,并提升了血管几何结构的合成质量。

  • Motivation: 血管造影X射线诊断效果好,但辐射高;非血管造影X射线辐射低但缺乏血管细节。现有方法在血管几何结构合成上表现不佳。
  • Method: 采用扩散模型学习血管数据分布,结合生成器和对抗模块,提出参数化血管模型增强几何准确性。
  • Result: 实验表明,该方法在合成血管造影图像质量和几何结构准确性上达到最优性能。
  • Conclusion: 该方法为血管造影合成提供了新思路和数据集,代码已开源。

[99] Learning from Anatomy: Supervised Anatomical Pretraining (SAP) for Improved Metastatic Bone Disease Segmentation in Whole-Body MRI

Joris Wuts,Jakub Ceranka,Nicolas Michoux,Frédéric Lecouvet,Jef Vandemeulebroucke

Main category: eess.IV

TL;DR: 提出了一种名为SAP的监督解剖预训练方法,用于解决全身MRI中转移性骨病(MBD)分割的挑战性问题。该方法通过学习有限的解剖标签数据,显著优于基线方法和自监督学习方法。

  • Motivation: 由于转移性骨病(MBD)在全身MRI中的分割面临病变外观多样、边界模糊和类别不平衡等挑战,需要大量标注数据。然而,生成这样的数据集耗时且容易出错。自监督学习(SSL)虽然可以利用未标注数据,但难以捕捉病变的细微特征。
  • Method: 提出了一种监督解剖预训练(SAP)方法,首先在健康个体的全身MRI扫描上训练骨骼分割模型,然后将其应用于44名转移性前列腺癌患者的MBD分割任务,与基线随机初始化和SSL方法进行比较。
  • Result: SAP方法显著优于基线方法和SSL方法,在标准化表面Dice系数和Dice系数上分别达到0.76和0.64,病变检测F2得分为0.44。对于大于1毫升的临床相关病变,检测灵敏度在28/32患者中达到100%。
  • Conclusion: 通过解剖学学习骨骼形态,可以为骨病变分割任务提供有效的领域相关归纳偏置。所有代码和模型均已公开。

[100] Filling of incomplete sinograms from sparse PET detector configurations using a residual U-Net

Klara Leffler,Luigi Tommaso Luppino,Samuel Kuttner,Karin Söderkvist,Jan Axelsson

Main category: eess.IV

TL;DR: 提出了一种深度学习方法来恢复稀疏PET扫描仪缺失的投影数据,以降低成本,同时保持图像质量。

  • Motivation: 传统长轴向PET扫描仪成本高,限制了临床应用。稀疏配置虽降低成本,但牺牲了图像质量。
  • Method: 使用改进的Residual U-Net,通过模拟移除50%探测器(棋盘模式)训练模型,恢复缺失数据。
  • Result: 模型成功恢复缺失数据,误差低,优于2D插值法,但图像细节略有模糊。
  • Conclusion: 稀疏配置结合深度学习是可行的低成本PET扫描方案,有望推动全身PET扫描仪发展。

[101] ReCoGNet: Recurrent Context-Guided Network for 3D MRI Prostate Segmentation

Ahmad Mustafa,Reza Rastegar,Ghassan AlRegib

Main category: eess.IV

TL;DR: 提出一种结合2D和3D方法的混合架构,用于前列腺MRI分割,解决了传统方法的局限性。

  • Motivation: 传统2D CNN方法未能利用切片间的解剖连续性,而3D模型需要大量标注数据,临床实用性受限。
  • Method: 使用预训练的DeepLabV3提取每张MRI切片的高级语义特征,并通过ConvLSTM层整合切片间信息。
  • Result: 在PROMISE12基准测试中,该方法在精度、召回率、IoU和DSC上优于现有2D和3D模型。
  • Conclusion: 该方法在数据有限和噪声条件下表现优异,具有临床应用的潜力。

[102] NeRF-based CBCT Reconstruction needs Normalization and Initialization

Zhuowei Xu,Han Li,Dai Sun,Zhicheng Li,Yujia Li,Qingpeng Kong,Zhiwei Cheng,Nassir Navab,S. Kevin Zhou

Main category: eess.IV

TL;DR: 论文提出了一种归一化哈希编码器和映射一致性初始化策略,以解决CBCT重建中局部-全局优化不匹配问题,提升训练稳定性和重建质量。

  • Motivation: CBCT重建因投影数据有限而成为病态问题,现有NeRF方法因哈希编码器与神经网络的局部-全局训练不匹配导致特征不一致,影响训练稳定性和重建质量。
  • Method: 引入归一化哈希编码器增强特征一致性,并提出映射一致性初始化策略,利用预训练模型的全局映射特性初始化神经网络。
  • Result: 方法在128个CT案例上显著提升训练效率和重建性能,覆盖7个不同解剖区域。
  • Conclusion: 归一化哈希编码器和映射一致性初始化策略有效解决了局部-全局优化不匹配问题,方法简单高效且适用范围广。

[103] Systematic Review of Pituitary Gland and Pituitary Adenoma Automatic Segmentation Techniques in Magnetic Resonance Imaging

Mubaraq Yakubu,Navodini Wijethilake,Jonathan Shapey,Andrew King,Alexander Hammers

Main category: eess.IV

TL;DR: 本文系统回顾了34项研究,评估了自动和半自动分割方法在MRI中垂体腺瘤和垂体腺分割的准确性和效率。

  • Motivation: 准确分割MRI中的垂体腺和腺瘤对诊断和治疗至关重要,但现有方法在性能和一致性上仍有不足。
  • Method: 回顾了34项研究,提取并分析了分割技术和性能指标(如Dice分数)。
  • Result: 深度学习(尤其是U-Net)是主流方法,自动分割的Dice分数为0.19-89.00%(垂体腺)和4.60-96.41%(腺瘤);半自动方法为80.00-92.10%(垂体腺)和75.90-88.36%(腺瘤)。
  • Conclusion: 多数研究未报告关键指标(如MR场强、年龄和腺瘤大小)。U-Net等方法在腺瘤分割中表现良好,但对小结构(如正常垂体腺)仍需改进。未来需更大、更多样化的数据集以提升临床应用。

q-bio.NC

[104] Convergent and divergent connectivity patterns of the arcuate fasciculus in macaques and humans

Jiahao Huang,Ruifeng Li,Wenwen Yu,Anan Li,Xiangning Li,Mingchao Yan,Lei Xie,Qingrun Zeng,Xueyan Jia,Shuxin Wang,Ronghui Ju,Feng Chen,Qingming Luo,Hui Gong,Xiaoquan Yang,Yuanjing Feng,Zheng Wang

Main category: q-bio.NC

TL;DR: 比较人类和猕猴弓状束(AF)的解剖差异,揭示其与语言网络进化的关系。

  • Motivation: 探索非人类灵长类动物与人类弓状束的组织和连接差异,以理解语言网络的进化基础。
  • Method: 结合猕猴的单神经元追踪和11.7T扩散MRI,以及人类的7.0T MRI谱嵌入分析,进行跨物种比较。
  • Result: 猕猴AF起源于颞顶皮层,而人类AF扩展到中颞回,前额和顶盖连接更强,支持语言处理的进化。
  • Conclusion: 人类AF的广泛颞叶整合和强化前额顶盖连接可能是高级语言处理的神经基础,并为AF相关疾病提供了解剖框架。

cs.RO

[105] Fake or Real, Can Robots Tell? Evaluating Embodied Vision-Language Models on Real and 3D-Printed Objects

Federico Tavella,Kathryn Mearns,Angelo Cangelosi

Main category: cs.RO

TL;DR: 比较了机器人场景理解中不同视觉语言模型(VLMs)的性能,重点研究了单视角与多视角描述、真实物体与3D打印物体的识别差异。

  • Motivation: 研究视觉语言模型在机器人场景理解中的适用性,特别是在生成自然语言描述方面的表现。
  • Method: 通过机器人臂搭载RGB相机采集多视角图像,评估BLIP和VLMs等模型在生成场景描述时的性能。
  • Result: VLMs在常见物体识别中表现良好,但对新颖表征泛化能力不足。
  • Conclusion: 为实际部署基础模型于机器人场景提供了实用见解。

[106] CronusVLA: Transferring Latent Motion Across Time for Multi-Frame Prediction in Manipulation

Hao Li,Shuai Yang,Yilun Chen,Yang Tian,Xiaoda Yang,Xinyi Chen,Hanqing Wang,Tai Wang,Feng Zhao,Dahua Lin,Jiangmiao Pang

Main category: cs.RO

TL;DR: CronusVLA扩展了单帧视觉语言动作模型至多帧范式,通过高效的后训练阶段提升性能,减少计算冗余,并在多个任务中实现最佳表现。

  • Motivation: 现有视觉语言动作模型受限于单帧观察,无法充分利用多帧运动信息,计算成本高且延迟大。
  • Method: CronusVLA通过单帧预训练、多帧编码和跨帧解码三部分,高效整合历史帧信息,减少冗余计算。
  • Result: 在SimperEnv上成功率70.9%,LIBERO上比OpenVLA提升12.7%,实际机器人实验表现优异。
  • Conclusion: CronusVLA通过多帧处理和高效推理,显著提升了视觉语言动作模型的性能和实用性。

[107] Look to Locate: Vision-Based Multisensory Navigation with 3-D Digital Maps for GNSS-Challenged Environments

Ola Elmaghraby,Eslam Mounier,Paulo Ricardo Marques de Araujo,Aboelmagd Noureldin

Main category: cs.RO

TL;DR: 论文提出了一种低成本、基于视觉的多传感器导航系统,用于GNSS信号缺失环境下的车辆定位,结合单目深度估计、语义过滤和视觉地图注册,实现了高精度定位。

  • Motivation: 在GNSS信号缺失的环境(如室内停车场或密集城市峡谷)中,实现准确且鲁棒的车辆定位是一个重大挑战。
  • Method: 系统集成了单目深度估计、语义过滤和视觉地图注册(VMR)技术,并结合3D数字地图。
  • Result: 在真实驾驶场景中测试,室内定位精度达92%(亚米级),室外超过80%,平均水平定位和航向误差分别为0.98米和1.25度。相比基线方法,定位精度平均提高了88%。
  • Conclusion: 研究表明,低成本单目视觉系统结合3D地图在陆地车辆导航中具有潜力,可实现不依赖GNSS的可扩展导航。

cs.ET

[108] Experimental Assessment of Neural 3D Reconstruction for Small UAV-based Applications

Genís Castillo Gómez-Raya,Álmos Veres-Vitályos,Filip Lemic,Pablo Royo,Mario Montagud,Sergi Fernández,Sergi Abadal,Xavier Costa-Pérez

Main category: cs.ET

TL;DR: 该论文提出了一种将神经3D重建(N3DR)与小型无人机系统集成的方法,以解决无人机在室内和难以到达区域飞行时的动态和功耗问题,并通过实验验证了其显著提升3D重建质量的能力。

  • Motivation: 随着无人机小型化的发展,其在室内和难以到达区域的部署潜力增加,但飞行动态和功耗问题限制了其自主性和任务能力。本文旨在通过N3DR技术克服这些限制。
  • Method: 设计、实现并评估了一个基于N3DR的流程,利用Instant-ngp、Nerfacto和Splatfacto等先进模型,通过小型无人机捕获的图像进行精细3D重建,并与传统的SfM算法进行对比。
  • Result: 实验结果表明,N3DR增强的流程显著提高了重建质量,使小型无人机能够在受限环境中支持高精度3D映射和异常检测。
  • Conclusion: 研究结果突出了N3DR技术在提升小型无人机系统能力方面的潜力。

cs.LG

[109] ConCM: Consistency-Driven Calibration and Matching for Few-Shot Class-Incremental Learning

QinZhe Wang,Zixuan Chen,Keke Huang,Xiu Su,Chunhua Yang,Chang Xu

Main category: cs.LG

TL;DR: 论文提出了一种一致性驱动的校准与匹配框架(ConCM),通过优化特征-结构双重一致性,解决了Few-Shot类增量学习(FSCIL)中的知识冲突问题。

  • Motivation: 现有方法通过预留空间适应新类,但原型偏差和结构固定性限制了嵌入空间的表达能力。
  • Method: 设计了基于海马体联想记忆的记忆感知原型校准和动态结构匹配,确保特征和结构的一致性。
  • Result: 在mini-ImageNet和CUB200基准测试中,ConCM在增量会话的调和准确率上分别超过当前最优方法3.20%和3.68%。
  • Conclusion: ConCM通过几何最优性和最大匹配性,无需类数先验,显著提升了FSCIL的性能。

[110] Noise Consistency Training: A Native Approach for One-Step Generator in Learning Additional Controls

Yihong Luo,Shuchen Xue,Tianyang Hu,Jing Tang

Main category: cs.LG

TL;DR: 论文提出了一种名为Noise Consistency Training(NCT)的轻量级方法,用于在预训练的一步生成器中直接集成新的控制信号,无需访问原始训练图像或重新训练基础扩散模型。

  • Motivation: 高效且可控的高质量内容生成是AIGC的核心挑战,现有方法在适应新控制条件时计算成本高。
  • Method: NCT通过引入适配器模块和噪声一致性损失,在生成器的噪声空间中对齐生成行为,以隐式引导模型遵循新控制。
  • Result: 实验表明,NCT在单次前向传递中实现了最先进的可控生成,超越了现有的多步和基于蒸馏的方法。
  • Conclusion: NCT是一种模块化、数据高效且易于部署的方法,显著提升了生成质量和计算效率。

[111] Orthogonal Finetuning Made Scalable

Zeju Qiu,Weiyang Liu,Adrian Weller,Bernhard Schölkopf

Main category: cs.LG

TL;DR: OFTv2通过输入中心化重构和高效的Cayley-Neumann参数化,显著降低了正交微调的计算和内存开销,同时保持了性能。

  • Motivation: 解决正交微调(OFT)的高运行时和内存需求问题,以提升实际部署的可行性。
  • Method: 提出OFTv2,采用输入中心化重构(矩阵-向量乘法)和Cayley-Neumann参数化,降低计算复杂度。
  • Result: OFTv2实现了10倍训练速度提升和3倍GPU内存节省,且在量化模型微调中优于QLoRA。
  • Conclusion: OFTv2是一种高效、内存友好的正交微调方法,适用于量化模型微调。

cs.CL

[112] MemeMind: A Large-Scale Multimodal Dataset with Chain-of-Thought Reasoning for Harmful Meme Detection

Hexiang Gu,Qifan Yu,Saihui Hou,Zhiqin Fang,Huijia Wu,Zhaofeng He

Main category: cs.CL

TL;DR: 论文提出MemeMind数据集和MemeGuard框架,用于解决有害模因检测中的数据集不足和模型性能问题。

  • Motivation: 社交媒体的快速发展加剧了有害内容的传播,而现有数据集在规模、多样性和可解释性上的不足阻碍了进一步研究。
  • Method: 提出MemeMind数据集,具有大规模、多样性、双语支持和详细推理标注;并设计MemeGuard框架,整合多模态信息和推理建模。
  • Result: 在MemeMind数据集上的实验表明,MemeGuard显著优于现有方法。
  • Conclusion: MemeMind和MemeGuard为有害模因检测提供了更全面的数据集和更有效的模型。

cs.GR

[113] SOF: Sorted Opacity Fields for Fast Unbounded Surface Reconstruction

Lukas Radl,Felix Windisch,Thomas Deixelberger,Jozef Hladky,Michael Steiner,Dieter Schmalstieg,Markus Steinberger

Main category: cs.GR

TL;DR: 提出了一种名为SOF的方法,用于从3D高斯表示中高效且精确地提取表面,改进了深度估计和排序策略,显著提升了重建质量和速度。

  • Motivation: 现有的3D高斯表示方法在提取精确表面(尤其是大规模无边界环境)时存在困难,依赖近似深度估计和全局排序启发式方法,容易引入伪影并限制网格保真度。
  • Method: SOF方法通过引入分层重新排序和鲁棒的高斯深度公式,结合水平集正则化和几何一致性损失,并开发了并行化的Marching Tetrahedra算法。
  • Result: SOF在重建精度上表现更优,同时将总处理时间减少了三倍以上。
  • Conclusion: SOF在将高效的高斯渲染转化为高效的几何提取方面迈出了重要一步。

[114] Virtual Memory for 3D Gaussian Splatting

Jonathan Haberl,Philipp Fleck,Clemens Arth

Main category: cs.GR

TL;DR: 提出了一种利用虚拟内存技术高效渲染大规模3D高斯泼溅场景的方法,通过动态流式传输可见高斯分布到GPU,减少内存占用并加速渲染。

  • Motivation: 解决大规模3D高斯泼溅场景在渲染时内存占用高和性能瓶颈的问题。
  • Method: 结合虚拟内存和虚拟纹理技术,动态识别并流式传输可见高斯分布,同时引入细节层次(LOD)优化渲染速度。
  • Result: 减少了内存使用,显著提升了渲染速度,特别是在复杂场景中,并在桌面和移动设备上进行了验证。
  • Conclusion: 该方法为大规模3D高斯泼溅场景的实时渲染提供了高效解决方案,具有实际应用价值。

[115] Uncovering Conceptual Blindspots in Generative Image Models Using Sparse Autoencoders

Matyas Bohacek,Thomas Fel,Maneesh Agrawala,Ekdeep Singh Lubana

Main category: cs.GR

TL;DR: 论文提出了一种系统方法,通过稀疏自编码器(SAEs)识别生成图像模型中的‘概念盲点’,并量化比较真实与生成图像中的概念差异。

  • Motivation: 尽管生成图像模型在大规模数据集上表现优异,但在生成简单概念(如人手或四件物品)时仍存在明显失败,这些失败是否反映模型的结构性限制尚不明确。
  • Method: 利用稀疏自编码器(SAEs)提取可解释的概念嵌入,训练一个包含32,000个概念的原型SAE(RA-SAE),并应用于四种流行生成模型。
  • Result: 发现了特定被抑制的盲点(如鸟食器、DVD光盘)和被夸大的盲点(如木质背景纹理),并分离出记忆伪影。
  • Conclusion: 提出了一个理论框架,通过评估生成模型的概念保真度,系统识别其概念盲点。

cs.AI

[116] KnowRL: Exploring Knowledgeable Reinforcement Learning for Factuality

Baochang Ren,Shuofei Qiao,Wenhao Yu,Huajun Chen,Ningyu Zhang

Main category: cs.AI

TL;DR: KnowRL通过将基于知识验证的事实性奖励整合到强化学习训练中,减少慢思考模型中的幻觉问题。

  • Motivation: 解决慢思考模型因无法准确识别知识边界而产生的严重幻觉问题。
  • Method: 提出KnowRL方法,将事实性奖励整合到强化学习训练中,指导模型进行基于事实的慢思考。
  • Result: 在三个幻觉评估数据集和两个推理评估数据集上,KnowRL有效减少了幻觉并保持了模型的推理能力。
  • Conclusion: KnowRL通过事实性奖励显著降低了慢思考模型的幻觉问题,同时保持了其推理能力。

cs.CR

[117] SoK: Can Synthetic Images Replace Real Data? A Survey of Utility and Privacy of Synthetic Image Generation

Yunsung Chung,Yunbei Zhang,Nassir Marrouche,Jihun Hamm

Main category: cs.CR

TL;DR: 本文综述了隐私保护数据合成(PPDS)中的合成图像生成方法,系统分类了生成-采样-分类流程中的方法、隐私攻击及缓解措施,并通过基准测试比较了不同方法的隐私风险与实用性。

  • Motivation: 当前缺乏对合成图像生成方法的全面调查与比较,特别是在用于训练分类器时,需要评估其隐私保护效果与实用性。
  • Method: 系统分类现有方法,使用模型无关的成员推理攻击(MIA)作为隐私风险度量,并通过基准测试比较不同生成方法。
  • Result: 研究回答了合成数据能否替代真实数据、如何平衡实用性与隐私、缓解措施是否有效等关键问题。
  • Conclusion: 研究为合成数据生成的实用性与隐私权衡提供了实用见解,并指导了实际应用中的数据发布策略。

上次更新于: