Skip to content
每日arXiv - 2025年6月12日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] ReStNet: A Reusable & Stitchable Network for Dynamic Adaptation on IoT Devices

Maoyu Wang,Yao Lu,Jiaqi Nie,Zeyu Wang,Yun Lin,Qi Xuan,Guan Gui

Main category: cs.CV

TL;DR: ReStNet提出了一种可重用和可拼接的网络,通过动态拼接两个预训练模型来适应异构资源约束,解决了传统压缩方法的不足。

  • Motivation: 由于IoT设备资源异构性,传统压缩方法(如剪枝、量化)无法灵活适应动态资源需求,因此需要一种更灵活的模型部署方案。
  • Method: 通过计算层间相似性(CKA)选择拼接点,保留大模型早期层和小模型深层,仅微调拼接层,支持同构和异构模型拼接。
  • Result: 实验表明,ReStNet能灵活权衡精度与效率,显著降低训练成本。
  • Conclusion: ReStNet为动态资源环境提供了一种高效、灵活的模型部署方案。

[2] Enhancing the Safety of Medical Vision-Language Models by Synthetic Demonstrations

Zhiyu Xue,Reza Abbasi-Asl,Ramtin Pedarsani

Main category: cs.CV

TL;DR: 本文提出了一种针对生成式医学视觉-语言模型(Med-VLMs)的安全防御策略,旨在抵御有害查询,同时避免过度防御影响模型性能。

  • Motivation: Med-VLMs在生成复杂医学文本时可能面临有害查询的安全漏洞,而现有防御机制可能导致过度防御,影响正常临床查询的处理。
  • Method: 提出了一种基于合成临床演示的推理时防御策略,通过多样化医学影像数据集验证其有效性,并引入混合演示策略以平衡安全性与性能。
  • Result: 实验表明,该策略能有效抵御视觉和文本攻击,且增加演示预算可缓解过度防御问题。
  • Conclusion: 混合演示策略在有限演示预算下实现了安全性与性能的平衡。

[3] BG-HOP: A Bimanual Generative Hand-Object Prior

Sriram Krishna,Sravan Chittupalli,Sungjae Park

Main category: cs.CV

TL;DR: BG-HOP是一种生成先验模型,用于建模3D中的双手-物体交互,通过扩展单手生成先验解决数据不足问题。

  • Motivation: 解决双手交互数据有限的问题,扩展单手生成先验以建模双手与物体的联合分布。
  • Method: 扩展单手生成先验,构建BG-HOP模型,生成双手交互并合成物体抓取。
  • Result: 实验展示了模型生成双手交互及物体抓取的能力,代码和模型已公开。
  • Conclusion: BG-HOP为双手-物体交互建模提供了有效方法,解决了数据不足问题。

[4] Segment Any Architectural Facades (SAAF):An automatic segmentation model for building facades, walls and windows based on multimodal semantics guidance

Peilin Li,Jun Yin,Jing Zhong,Ran Luo,Pengyu Zeng,Miao Zhang

Main category: cs.CV

TL;DR: SAAF模型通过多模态语义引导实现建筑立面墙窗自动分割,结合自然语言处理提升语义理解,端到端训练框架减少人工干预,实验显示其在mIoU指标上优于现有方法。

  • Motivation: 提高建筑信息模型和计算机辅助设计的效率,解决墙窗自动分割的准确性和泛化能力问题。
  • Method: 提出SAAF模型,结合多模态语义协作特征提取机制和端到端训练框架,融合文本描述与图像特征。
  • Result: 在多个立面数据集上实验,SAAF的mIoU指标优于现有方法,展现了高精度分割能力。
  • Conclusion: SAAF在墙窗分割任务中取得进展,为建筑计算机视觉技术和多模态学习应用提供了新思路。

[5] VersaVid-R1: A Versatile Video Understanding and Reasoning Model from Question Answering to Captioning Tasks

Xinlong Chen,Yuanxing Zhang,Yushuo Guan,Bohan Zeng,Yang Shi,Sihan Yang,Pengfei Wan,Qiang Liu,Liang Wang,Tieniu Tan

Main category: cs.CV

TL;DR: 论文提出了两个新数据集DarkEventInfer和MixVidQA,用于提升视频理解和推理能力,并开发了VersaVid-R1模型,在多项任务中表现优异。

  • Motivation: 视频推理领域因缺乏高质量数据和有效训练方法而发展不足,论文旨在填补这一空白。
  • Method: 通过DarkEventInfer和MixVidQA数据集训练模型,结合强化学习,开发了VersaVid-R1模型。
  • Result: VersaVid-R1在多项视频理解和推理任务中显著优于现有模型。
  • Conclusion: 论文成功扩展了Reason-Then-Respond范式到视频推理领域,并验证了数据和方法有效性。

[6] FlagEvalMM: A Flexible Framework for Comprehensive Multimodal Model Evaluation

Zheqi He,Yesheng Liu,Jing-shu Zheng,Xuejing Li,Richeng Xuan,Jin-Ge Yao,Xi Yang

Main category: cs.CV

TL;DR: FlagEvalMM是一个开源的多模态模型评估框架,支持多种视觉-语言任务,通过独立评估服务和高效工具提升评估效率。

  • Motivation: 为多模态研究提供一个全面、灵活且高效的评估工具,以促进模型性能的准确分析。
  • Method: 通过独立评估服务解耦模型推理与评估,利用vLLM、SGLang等工具加速推理,并采用异步数据加载。
  • Result: 实验表明FlagEvalMM能高效准确地评估模型性能,揭示其优缺点。
  • Conclusion: FlagEvalMM是一个有价值的工具,有助于推动多模态研究的发展。

[7] AVA-Bench: Atomic Visual Ability Benchmark for Vision Foundation Models

Zheda Mai,Arpita Chowdhury,Zihe Wang,Sooyoung Jeon,Lemeng Wang,Jiacheng Hou,Jihyung Kil,Wei-Lun Chao

Main category: cs.CV

TL;DR: AVA-Bench是一个新的基准测试,旨在通过解耦14种原子视觉能力(AVAs)来系统评估视觉基础模型(VFMs),解决了传统VQA基准测试的数据分布不对齐和多能力混淆问题。

  • Motivation: 传统VQA基准测试存在两个盲点:指令调优数据与测试分布不匹配,以及多能力任务难以定位具体缺陷。AVA-Bench通过解耦AVAs,提供更精确的评估。
  • Method: 引入AVA-Bench,将视觉能力分解为14种原子能力,并在每种能力内匹配训练和测试分布,以明确VFMs的优势和不足。
  • Result: AVA-Bench揭示了VFMs的独特“能力指纹”,并发现较小的LLM(0.5B)与较大LLM(7B)在VFM排名上表现相似,但效率更高。
  • Conclusion: AVA-Bench为下一代VFMs提供了全面透明的评估基础,使模型选择从猜测转向工程化决策。

[8] BakuFlow: A Streamlining Semi-Automatic Label Generation Tool

Jerry Lin,Partick P. W. Chen

Main category: cs.CV

TL;DR: BakuFlow是一种半自动标注工具,通过像素级手动修正、交互式数据增强、标签传播和自动标注模块,显著减少标注工作量并提高效率。

  • Motivation: 大规模数据标注耗时且易错,现有工具仍需人工标注每张图像,亟需更高效的解决方案。
  • Method: BakuFlow结合可调放大镜、交互式数据增强、标签传播和基于改进YOLOE的自动标注模块。
  • Result: 工具显著减少标注工作量,适用于动态数据集,提升计算机视觉和工业场景的效率。
  • Conclusion: BakuFlow为半自动标注提供了高效灵活的解决方案,特别适用于目标检测和跟踪任务。

[9] Bias Analysis in Unconditional Image Generative Models

Xiaofeng Zhang,Michelle Lin,Simon Lacoste-Julien,Aaron Courville,Yash Goyal

Main category: cs.CV

TL;DR: 研究探讨生成式AI模型中的偏见机制,发现偏见变化较小且对属性分类器敏感,需改进评估框架。

  • Motivation: 生成式AI模型的广泛使用引发了对偏见和歧视性结果的担忧,但偏见机制尚未清晰。
  • Method: 训练无条件图像生成模型,采用常用偏见评估框架分析训练与生成分布间的偏见变化。
  • Result: 实验显示偏见变化较小,且对属性分类器敏感,尤其在属性值呈连续谱时。
  • Conclusion: 需改进标签实践、深入评估框架,并认识属性的社会复杂性以更准确评估偏见。

[10] CAIRe: Cultural Attribution of Images by Retrieval-Augmented Evaluation

Arnav Yayavaram,Siddharth Yayavaram,Simran Khanuja,Michael Saxon,Graham Neubig

Main category: cs.CV

TL;DR: CAIRe是一种新的评估指标,用于衡量图像在不同文化背景下的相关性,解决了现有方法在测量文化偏见方面的不足。

  • Motivation: 解决文本到图像模型在跨文化背景下的公平性问题,并克服现有方法在性能、准确性和输出适当性上的权衡问题。
  • Method: 提出CAIRe框架,通过将图像中的实体和概念与知识库关联,利用事实信息为每个文化标签提供独立评分。
  • Result: CAIRe在手动构建的数据集上比基线方法提高了28%的F1分数,并在两个数据集上与人类评分的相关性分别达到0.56和0.66。
  • Conclusion: CAIRe能够有效评估图像的文化相关性,并与人类判断高度一致,适用于多样化的图像来源。

[11] Seedance 1.0: Exploring the Boundaries of Video Generation Models

Yu Gao,Haoyuan Guo,Tuyen Hoang,Weilin Huang,Lu Jiang,Fangyuan Kong,Huixia Li,Jiashi Li,Liang Li,Xiaojie Li,Xunsong Li,Yifu Li,Shanchuan Lin,Zhijie Lin,Jiawei Liu,Shu Liu,Xiaonan Nie,Zhiwu Qing,Yuxi Ren,Li Sun,Zhi Tian,Rui Wang,Sen Wang,Guoqiang Wei,Guohong Wu,Jie Wu,Ruiqi Xia,Fei Xiao,Xuefeng Xiao,Jiangqiao Yan,Ceyuan Yang,Jianchao Yang,Runkai Yang,Tao Yang,Yihang Yang,Zilyu Ye,Xuejiao Zeng,Yan Zeng,Heng Zhang,Yang Zhao,Xiaozheng Zheng,Peihao Zhu,Jiaxin Zou,Feilong Zuo

Main category: cs.CV

TL;DR: Seedance 1.0是一种高性能、高效的视频生成基础模型,通过多源数据增强、高效架构设计、优化训练和加速技术,显著提升了视频生成的质量和速度。

  • Motivation: 当前视频生成基础模型在平衡提示跟随、运动合理性和视觉质量方面仍面临挑战,Seedance 1.0旨在解决这些问题。
  • Method: 采用多源数据增强、高效架构设计、优化训练范式(如多任务学习)和视频特定RLHF,并结合多阶段蒸馏和系统优化加速推理。
  • Result: Seedance 1.0在1080p分辨率下仅需41.4秒生成5秒视频,具有高质量、快速生成、时空流畅性和多主题一致性。
  • Conclusion: Seedance 1.0在视频生成领域表现出色,尤其在复杂场景下的提示跟随和多镜头叙事连贯性方面优于现有技术。

[12] Cross-Frame Representation Alignment for Fine-Tuning Video Diffusion Models

Sungwon Hwang,Hyojin Jang,Kinam Kim,Minho Park,Jaegul choo

Main category: cs.CV

TL;DR: 论文提出了一种名为CREPA的新方法,用于改进视频扩散模型的微调,通过跨帧表示对齐提升视觉保真度和语义一致性。

  • Motivation: 尽管视频扩散模型(VDMs)在用户级微调中具有实际重要性,但其在保留训练数据特定属性方面仍存在挑战且研究不足。
  • Method: 论文首先尝试将REPA方法直接应用于VDMs,发现其在语义一致性上表现不佳,随后提出CREPA方法,通过跨帧对齐隐藏状态与外部特征来优化模型。
  • Result: 在大规模VDMs(如CogVideoX-5B和Hunyuan Video)上的实验表明,CREPA显著提升了视觉保真度和跨帧语义一致性。
  • Conclusion: CREPA是一种广泛适用的正则化技术,能够有效改进视频扩散模型的微调效果。

[13] PatchGuard: Adversarially Robust Anomaly Detection and Localization through Vision Transformers and Pseudo Anomalies

Mojtaba Nafez,Amirhossein Koochakian,Arad Maleki,Jafar Habibi,Mohammad Hossein Rohban

Main category: cs.CV

TL;DR: PatchGuard是一种基于Vision Transformer的对抗性鲁棒异常检测和定位方法,通过引入伪异常样本和定位掩码,显著提升了对抗环境下的性能。

  • Motivation: 当前异常检测和定位方法因训练数据限制(仅包含正常样本)易受对抗攻击,PatchGuard旨在解决这一漏洞。
  • Method: 利用前景感知伪异常样本和ViT架构,结合对抗训练和新颖的损失函数,提升模型鲁棒性。
  • Result: 在工业和医学数据集上,PatchGuard在对抗环境下AD和AL性能分别提升53.2%和68.5%,非对抗环境下表现仍具竞争力。
  • Conclusion: PatchGuard通过伪异常和理论支持的注意力机制,显著提升了对抗性鲁棒性,为高可靠性领域提供了有效解决方案。

[14] UFM: A Simple Path towards Unified Dense Correspondence with Flow

Yuchen Zhang,Nikhil Keetha,Chenwei Lyu,Bhuvan Jhamb,Yutian Chen,Yuheng Qiu,Jay Karhade,Shreyas Jha,Yaoyu Hu,Deva Ramanan,Sebastian Scherer,Wenshan Wang

Main category: cs.CV

TL;DR: 本文提出了一种统一流与匹配模型(UFM),通过统一训练数据直接回归(u,v)流,在宽基线和光流估计任务中均优于现有方法。

  • Motivation: 解决宽基线和光流估计任务中密集图像对应问题,避免传统方法分开处理的局限性。
  • Method: 使用简单的通用Transformer架构,直接回归(u,v)流,无需传统粗到细成本体积。
  • Result: UFM比最先进的光流方法(Unimatch)准确率高28%,比宽基线匹配器(RoMa)误差低62%,速度快6.7倍。
  • Conclusion: 统一训练在多个领域优于专用方法,为多模态、长距离和实时对应任务开辟新方向。

[15] Lightweight Object Detection Using Quantized YOLOv4-Tiny for Emergency Response in Aerial Imagery

Sindhu Boddu,Arindam Mukherjee

Main category: cs.CV

TL;DR: 本文提出了一种轻量级、高能效的空中图像目标检测方案,适用于应急响应场景。通过优化YOLOv4-Tiny模型并使用INT8量化,显著减小模型体积并提升推理速度。

  • Motivation: 现有公开数据集缺乏无人机视角的应急图像,因此作者创建了自定义数据集,并优化模型以适应低功耗边缘设备的实时检测需求。
  • Method: 采用YOLOv4-Tiny模型,通过后训练量化至INT8精度,并在自建数据集(10,820张标注图像)上训练。
  • Result: 量化后的YOLOv4-Tiny模型体积减小71%(6.4 MB),推理速度提升44%,检测性能与YOLOv5-small相当。
  • Conclusion: 量化后的YOLOv4-Tiny模型适合在低功耗边缘设备上实现实时应急检测。

[16] Efficient Edge Deployment of Quantized YOLOv4-Tiny for Aerial Emergency Object Detection on Raspberry Pi 5

Sindhu Boddu,Arindam Mukherjee

Main category: cs.CV

TL;DR: 本文介绍了在资源受限的边缘设备(Raspberry Pi 5)上部署量化YOLOv4-Tiny模型用于实时空中紧急图像目标检测的性能评估。

  • Motivation: 研究旨在探索低功耗嵌入式AI系统在安全关键应急响应应用中的实时部署潜力。
  • Method: 使用TensorFlow Lite后训练量化技术将YOLOv4-Tiny模型量化为INT8精度,并在嵌入式部署条件下评估检测速度、功耗和热可行性。
  • Result: 量化模型每张图像的推理时间为28.2毫秒,平均功耗为13.85瓦,相比FP32版本显著降低。检测精度在关键应急类别(如救护车、警车、消防车和车祸)中保持稳健。
  • Conclusion: 结果表明,低功耗嵌入式AI系统在安全关键应急响应应用中具有实时部署的潜力。

[17] MSSDF: Modality-Shared Self-supervised Distillation for High-Resolution Multi-modal Remote Sensing Image Learning

Tong Wang,Guanzhou Chen,Xiaodong Zhang,Chenxi Liu,Jiaqi Wang,Xiaoliang Tan,Wenchao Guo,Qingyuan Yang,Kaiqi Zhang

Main category: cs.CV

TL;DR: 提出了一种多模态自监督学习框架,利用RGB图像、多光谱数据和DSM进行预训练,显著提升遥感图像任务性能。

  • Motivation: 解决高质量标注数据获取成本高、耗时长的问题。
  • Method: 设计了信息感知自适应掩码策略、跨模态掩码机制和多任务自监督目标,捕捉模态间相关性和模态内特征结构。
  • Result: 在15个数据集上验证,多数任务表现优于现有预训练方法,如Potsdam和Vaihingen语义分割任务mIoU达78.30%和76.50%。
  • Conclusion: 该方法在遥感图像任务中具有显著优势,代码和数据集已开源。

[18] CheckManual: A New Challenge and Benchmark for Manual-based Appliance Manipulation

Yuxing Long,Jiyao Zhang,Mingjie Pan,Tianshu Wu,Taewhan Kim,Hao Dong

Main category: cs.CV

TL;DR: 论文提出首个基于手册的电器操作基准CheckManual,通过大模型辅助生成手册数据,并设计任务、指标和仿真环境。

  • Motivation: 电器操作需依赖手册,但现有研究多局限于问答任务或忽视手册作用,无法处理多页手册。
  • Method: 设计大模型辅助的人工修订数据生成流程,创建手册并建立任务、指标及仿真环境;提出手册操作规划模型ManualPlan。
  • Result: 构建了CheckManual基准,为模型性能评估提供新挑战和标准。
  • Conclusion: CheckManual填补了手册操作研究的空白,ManualPlan为基准提供了基线模型。

[19] An Effective End-to-End Solution for Multimodal Action Recognition

Songping Wang,Xiantao Hu,Yueming Lyu,Caifeng Shan

Main category: cs.CV

TL;DR: 提出了一种综合多模态动作识别方案,通过数据增强、迁移学习、空间-时间特征提取及预测增强方法,实现了高精度动作识别。

  • Motivation: 由于三模态数据稀缺,多模态动作识别任务面临挑战,需开发有效利用多模态信息的解决方案。
  • Method: 优化数据增强技术扩展数据规模,预训练骨干网络,结合2D CNNs和TSM提取空间-时间特征,并采用SWA、Ensemble和TTA等预测增强方法。
  • Result: 在竞赛排行榜上取得Top-1准确率99%和Top-5准确率100%。
  • Conclusion: 该方案在多模态动作识别任务中表现出优越性,验证了其有效性。

[20] Autoregressive Adversarial Post-Training for Real-Time Interactive Video Generation

Shanchuan Lin,Ceyuan Yang,Hao He,Jianwen Jiang,Yuxi Ren,Xin Xia,Yang Zhao,Xuefeng Xiao,Lu Jiang

Main category: cs.CV

TL;DR: 提出了一种自回归对抗后训练(AAPT)方法,将预训练的潜在视频扩散模型转化为实时交互式视频生成器。

  • Motivation: 现有的大规模视频生成模型计算密集,无法满足实时和交互式应用的需求。
  • Method: 采用自回归方式逐帧生成潜在帧,利用单次神经函数评估(1NFE),并结合对抗训练以减少误差累积。
  • Result: 8B模型在单块H100上实现24fps的736x416分辨率实时视频生成,或在8xH100上实现1280x720分辨率长达一分钟的视频生成。
  • Conclusion: AAPT方法通过对抗训练和高效架构设计,实现了实时交互式视频生成,显著提升了生成效率。

[21] A new approach for image segmentation based on diffeomorphic registration and gradient fields

Junchao Zhou

Main category: cs.CV

TL;DR: 提出了一种基于变分框架和微分同胚变换的2D图像分割新方法,结合形状分析和LDDMM框架,无需依赖大数据集即可实现精确分割。

  • Motivation: 传统图像分割方法如边缘检测和变分方法已广泛研究,但深度学习方法需要大量训练数据。本文旨在提出一种不依赖大数据集的理论基础强且灵活的分割方法。
  • Method: 通过微分同胚变换将模板曲线变形为图像分割结果,利用LDDMM框架和变分表示几何形状的损失函数引导曲线演化,使用PyKeops库实现GPU加速。
  • Result: 该方法实现了精确的图像分割,无需依赖大数据集,且具有理论支持。
  • Conclusion: 提出的变分框架结合微分同胚变换和形状分析,为图像分割提供了一种灵活且理论可靠的新方法。

[22] SAGE: Exploring the Boundaries of Unsafe Concept Domain with Semantic-Augment Erasing

Hongguang Zhu,Yunchao Wei,Mengyu Wang,Siyu Jiao,Yan Fang,Jiannan Huang,Yao Zhao

Main category: cs.CV

TL;DR: SAGE提出了一种语义增强擦除方法,通过循环自检和自擦除将概念词擦除转化为概念域擦除,解决了现有方法在扩散模型中无法泛化擦除相关概念的问题。

  • Motivation: 扩散模型在文本到图像生成中表现优异,但预训练中敏感信息的引入带来了安全风险,如不安全内容生成和版权侵权。现有方法将不安全概念视为固定词反复擦除,导致模型陷入“词概念深渊”,无法泛化擦除相关概念。
  • Method: SAGE通过语义增强擦除将概念词擦除转化为概念域擦除,利用原始和训练扩散模型之间的语义空间关系探索和擦除概念域边界表示。同时,提出全局-局部协作保留机制,结合全局语义关系对齐和局部预测噪声保留,减少无关概念的保留退化。
  • Result: 实验表明,SAGE在扩散模型的安全生成方面全面优于其他方法。
  • Conclusion: SAGE通过语义增强擦除和全局-局部协作保留机制,有效解决了扩散模型中的安全生成问题,代码和权重已开源。

[23] ScaleLSD: Scalable Deep Line Segment Detection Streamlined

Zeran Ke,Bin Tan,Xianwei Zheng,Yujun Shen,Tianfu Wu,Nan Xue

Main category: cs.CV

TL;DR: ScaleLSD是一种自监督学习的线检测模型,旨在通过大规模无标签图像训练,实现高效且通用的线几何表征。

  • Motivation: 研究目标是开发一种领域无关的鲁棒线检测模型,适用于任何自然图像。
  • Method: 通过重新设计和优化现有线检测方法(深度与非深度),提出ScaleLSD,利用超过1000万张无标签图像进行自监督学习。
  • Result: ScaleLSD在零样本检测、单视图3D几何估计、双视图线匹配及多视图3D线映射中表现优异,首次全面超越传统非深度方法。
  • Conclusion: ScaleLSD是首个在各方面超越传统方法的深度线检测模型,显著提升了线几何表征的通用性和准确性。

[24] UniForward: Unified 3D Scene and Semantic Field Reconstruction via Feed-Forward Gaussian Splatting from Only Sparse-View Images

Qijian Tian,Xin Tan,Jingyu Gong,Yuan Xie,Lizhuang Ma

Main category: cs.CV

TL;DR: 提出了一种名为UniForward的前馈高斯泼溅模型,用于统一3D场景和语义场重建,仅需未校准的稀疏视图图像输入。

  • Motivation: 结合3D场景与语义场有助于环境感知和理解,但需解决语义嵌入、实时重建和仅用图像输入的挑战。
  • Method: 通过双分支解耦解码器将语义特征嵌入3D高斯,提出损失引导视图采样器和端到端训练方法。
  • Result: 实现了高质量的3D场景渲染和视图一致的语义场重建,支持开放词汇的密集分割掩码生成。
  • Conclusion: UniForward在3D场景与语义场统一重建中达到最先进性能。

[25] ReID5o: Achieving Omni Multi-modal Person Re-identification in a Single Model

Jialong Zuo,Yongtai Deng,Mengdan Tan,Rui Jin,Dongyue Wu,Nong Sang,Liang Pan,Changxin Gao

Main category: cs.CV

TL;DR: 论文提出了一种新的多模态行人重识别问题(OM-ReID),并构建了首个高质量多模态数据集ORBench,同时提出了多模态学习框架ReID5o。

  • Motivation: 现有方法和数据集局限于有限模态,无法满足实际场景中多模态查询的需求,因此需要研究更灵活的多模态行人重识别方法。
  • Method: 构建了ORBench数据集(包含RGB、红外、彩色铅笔、素描和文本描述五种模态),并提出了ReID5o框架,支持任意模态组合的协同融合和跨模态对齐。
  • Result: 实验验证了ORBench的先进性和实用性,ReID5o在多种模型比较中表现最佳。
  • Conclusion: ORBench和ReID5o为多模态行人重识别提供了理想平台和解决方案,数据集和代码将公开。

[26] Improving Out-of-Distribution Detection via Dynamic Covariance Calibration

Kaiyu Guo,Zijian Wang,Brian C. Lovell,Mahsa Baktashmotlagh

Main category: cs.CV

TL;DR: 本文提出了一种动态调整先验几何的方法,通过实时更新协方差矩阵来纠正不良分布样本的影响,显著提升了OOD检测性能。

  • Motivation: 现有基于子空间的方法因静态提取信息几何而无法处理不良分布样本导致的几何失真,需动态调整先验几何以纠正这一问题。
  • Method: 动态更新先验协方差矩阵,沿实时输入特征方向减少协方差,并在残差空间中约束调整,保留关键数据特征。
  • Result: 在CIFAR和ImageNet-1k数据集上的实验表明,该方法显著提升了多种模型的OOD检测性能。
  • Conclusion: 动态调整先验几何能有效纠正不良分布样本的影响,提升OOD检测的鲁棒性。

[27] SRPL-SFDA: SAM-Guided Reliable Pseudo-Labels for Source-Free Domain Adaptation in Medical Image Segmentation

Xinya Liu,Jianghao Wu,Tao Lu,Shaoting Zhang,Guotai Wang

Main category: cs.CV

TL;DR: 提出了一种基于SAM的可靠伪标签方法(SRPL-SFDA),用于无源域适应(SFDA),通过增强伪标签质量和可靠性感知训练提升性能。

  • Motivation: 解决无源域适应(SFDA)中目标域无标签数据监督不足的问题,同时应对隐私和访问限制的挑战。
  • Method: 1) T3IE增强伪标签质量并适配SAM;2) 基于CMSO的可靠伪标签选择;3) 可靠性感知训练。
  • Result: 在两个医学图像分割数据集上表现优于现有SFDA方法,接近目标域监督训练性能。
  • Conclusion: SRPL-SFDA有效提升伪标签质量,显著改善SFDA性能,代码已开源。

[28] Synthetic Human Action Video Data Generation with Pose Transfer

Vaclav Knapp,Matyas Bohacek

Main category: cs.CV

TL;DR: 提出了一种基于姿态迁移的合成人类动作视频数据生成方法,解决了合成数据在视频理解任务中的‘诡异特征’问题,并在动作识别任务中表现优异。

  • Motivation: 合成数据在人类动作视频理解任务中常因‘诡异特征’而效果不佳,限制了其在手语翻译、手势识别等任务中的应用潜力。
  • Method: 使用可控3D高斯虚拟人模型进行姿态迁移,生成合成人类动作视频数据。
  • Result: 在Toyota Smarthome和NTU RGB+D数据集上验证了方法的有效性,提升了动作识别性能,并能扩展少样本数据集。
  • Conclusion: 该方法不仅提升了合成数据的实用性,还开源了RANDOM People数据集,为姿态迁移提供了多样化背景和新身份的视频资源。

[29] Noise Conditional Variational Score Distillation

Xinyu Peng,Ziyang Zheng,Yaoming Wang,Han Li,Nuowen Kan,Wenrui Dai,Chenglin Li,Junni Zou,Hongkai Xiong

Main category: cs.CV

TL;DR: NCVSD是一种新方法,将预训练扩散模型蒸馏为生成去噪器,通过揭示无条件评分函数隐含地表征去噪后验分布的评分函数。该方法支持快速生成和迭代优化,并在实验中表现优异。

  • Motivation: 旨在通过蒸馏扩散模型,实现高效生成去噪器,同时保留迭代优化的优势。
  • Method: 将无条件评分函数融入VSD框架,学习生成去噪器,支持从高噪声水平到低噪声水平的广泛采样。
  • Result: NCVSD在类条件图像生成和逆问题求解中表现优异,优于教师扩散模型,并与更大规模的一致性模型相当。
  • Conclusion: NCVSD通过高效采样和迭代优化,在生成质量和计算效率上取得突破,适用于多种任务。

[30] ODG: Occupancy Prediction Using Dual Gaussians

Yunxiao Shi,Yinhao Zhu,Shizhong Han,Jisoo Jeong,Amin Ansari,Hong Cai,Fatih Porikli

Main category: cs.CV

TL;DR: 提出了一种结合BEV和稀疏点表示的双分支3D占用预测方法ODG,解决了现有方法在计算成本和小物体检测上的不足。

  • Motivation: 现有3D占用预测方法计算成本高,BEV对小物体信息损失严重,稀疏点对平坦表面或大物体效率低。
  • Method: 采用双分支设计:基于查询的稀疏点分支和BEV分支,通过交叉注意力共享信息并融合输出。
  • Result: 在Occ3D-nuScenes和Occ3D-Waymo基准测试中表现优越,推理速度与最新高效方法相当。
  • Conclusion: ODG结合BEV和稀疏点的优势,显著提升了3D占用预测的性能和效率。

[31] A High-Quality Dataset and Reliable Evaluation for Interleaved Image-Text Generation

Yukang Feng,Jianwen Sun,Chuanhao Li,Zizhen Li,Jiaxin Ai,Fanrui Zhang,Yifan Chang,Sizhuo Zhou,Shenglin Zhang,Yu Dai,Kaipeng Zhang

Main category: cs.CV

TL;DR: 论文提出InterSyn数据集和SEIR方法,用于提升多模态模型的图像-文本交织生成能力,并引入SynJudge评估工具。

  • Motivation: 当前多模态模型在生成紧密交织的图像-文本输出时表现不佳,主要由于训练数据规模、质量和指令丰富度不足。
  • Method: 使用SEIR方法构建InterSyn数据集,包含多轮指令驱动对话和紧密交织的图像-文本响应,并通过SynJudge评估模型输出。
  • Result: SEIR方法显著提升数据集质量,基于InterSyn训练的模型在所有评估指标上均有提升。
  • Conclusion: InterSyn和SynJudge为下一代多模态模型的训练和评估提供了有效工具。

[32] A Novel Lightweight Transformer with Edge-Aware Fusion for Remote Sensing Image Captioning

Swadhin Das,Divyansh Mundra,Priyanshu Dayal,Raksha Sharma

Main category: cs.CV

TL;DR: 提出了一种轻量级Transformer架构,通过降低编码器维度并使用蒸馏版GPT-2解码器,结合知识蒸馏和边缘感知增强策略,显著提升了遥感图像描述的质量。

  • Motivation: 现有Transformer模型在遥感图像描述中计算成本高,且忽视细粒度结构特征,如边缘和轮廓。
  • Method: 采用轻量级Transformer架构,降低编码器维度,使用蒸馏版GPT-2解码器,结合知识蒸馏和边缘感知增强策略。
  • Result: 实验表明,该方法显著提升了描述质量,优于现有技术。
  • Conclusion: 轻量级架构和边缘感知策略有效解决了计算成本和细粒度特征提取问题。

[33] TOGA: Temporally Grounded Open-Ended Video QA with Weak Supervision

Ayush Gupta,Anirban Roy,Rama Chellappa,Nathaniel D. Bastian,Alvaro Velasquez,Susmit Jha

Main category: cs.CV

TL;DR: 论文提出TOGA模型,用于弱监督下的视频问答任务,无需时间标注即可生成开放答案及其时间定位。通过伪标签和一致性约束提升性能,在多个基准测试中达到最优。

  • Motivation: 解决弱监督下视频问答任务中时间定位的问题,避免依赖时间标注。
  • Method: 提出TOGA模型,联合生成答案和时间定位,利用伪标签和一致性约束优化性能。
  • Result: 在NExT-GQA、MSVD-QA和ActivityNet-QA基准测试中达到最优性能。
  • Conclusion: TOGA模型在弱监督下有效提升了视频问答和时间定位的性能。

[34] Harmonizing and Merging Source Models for CLIP-based Domain Generalization

Yuhe Ding,Jian Liang,Bo Jiang,Zi Wang,Aihua Zheng,Bin Luo

Main category: cs.CV

TL;DR: HAM框架通过无冲突样本增强和模型合并,提升CLIP在多源域泛化中的性能。

  • Motivation: 解决多源域训练中的样本冲突和优化冲突问题,提升模型泛化能力。
  • Method: 提出HAM框架,包括无冲突样本增强、模型更新方向协调和冗余感知的历史模型合并。
  • Result: 在五个基准数据集上取得最优性能。
  • Conclusion: HAM有效整合多源域信息,显著提升泛化能力。

[35] Evidential Deep Learning with Spectral-Spatial Uncertainty Disentanglement for Open-Set Hyperspectral Domain Generalization

Amirreza Khoshbakht,Erchan Aptoula

Main category: cs.CV

TL;DR: 提出了一种新的开放集域泛化框架,用于高光谱图像分类,结合频谱不变频率解耦、双通道残差网络、证据深度学习和频谱空间不确定性解耦,解决了未知类和域偏移问题。

  • Motivation: 现有域适应方法在训练时需要目标域数据,且无法处理未知类导致的域偏移问题,导致负迁移和分类性能下降。
  • Method: 结合频谱不变频率解耦(SIFD)、双通道残差网络(DCRN)、证据深度学习(EDL)和频谱空间不确定性解耦(SSUD),提取域无关特征并实现可靠开放集分类。
  • Result: 在三个跨场景高光谱分类任务中,性能与最先进的域适应方法相当,且无需训练时访问目标域数据。
  • Conclusion: 提出的框架有效解决了开放集域泛化问题,性能优越且无需目标域数据,具有实际应用潜力。

[36] Optimizing Cooperative Multi-Object Tracking using Graph Signal Processing

Maria Damanaki,Nikos Piperigkos,Alexandros Gkillas,Aris S. Lalos

Main category: cs.CV

TL;DR: 提出了一种基于图拓扑感知优化的多智能体协同多目标跟踪框架,显著提升了3D LiDAR场景中的跟踪精度。

  • Motivation: 单智能体多目标跟踪因遮挡和传感器故障等问题受限,需多智能体信息融合以实现环境全面感知。
  • Method: 利用检测到的边界框构建全连接图拓扑,采用图拉普拉斯优化技术平滑位置误差并融合多智能体信息,分两阶段关联跟踪对象。
  • Result: 在V2V4Real数据集上显著优于基线框架及前沿方法DMSTrack和V2V4Real。
  • Conclusion: 多智能体协同框架有效提升了跟踪精度,验证了图拓扑优化在多目标跟踪中的潜力。

[37] Provoking Multi-modal Few-Shot LVLM via Exploration-Exploitation In-Context Learning

Cheng Chen,Yunpeng Zhai,Yifan Zhao,Jinyang Gao,Bolin Ding,Jia Li

Main category: cs.CV

TL;DR: 本文提出了一种基于探索-利用强化学习框架的多模态演示选择策略,用于提升大型视觉语言模型(LVLMs)的上下文学习能力,解决了现有方法依赖预定义演示或启发式策略的不足。

  • Motivation: 现有上下文学习方法依赖预定义演示或启发式选择策略,无法覆盖多样化任务需求且忽略了演示间的交互,导致性能受限。
  • Method: 提出探索-利用强化学习框架,动态融合多模态信息并自适应选择演示,通过自我探索优化选择策略。
  • Result: 在四个视觉问答数据集上验证了方法的优越性,显著提升了少样本LVLMs的泛化能力。
  • Conclusion: 该方法通过自适应演示选择策略,有效提升了LVLMs在上下文学习中的性能,为多模态任务提供了新思路。

[38] Urban1960SatSeg: Unsupervised Semantic Segmentation of Mid-20th century Urban Landscapes with Satellite Imageries

Tianxiang Hao,Lixian Zhang,Yingjia Zhang,Mengxuan Chen,Jinxiao Zhang,Haohuan Fu

Main category: cs.CV

TL;DR: 论文提出了一个基于历史卫星影像的标注分割数据集Urban1960SatBench和一个无监督分割框架Urban1960SatUSM,用于解决历史遥感影像质量差和标注缺失的问题。

  • Motivation: 历史卫星影像(如20世纪中期的Keyhole数据)为研究早期城市发展和长期变化提供了独特视角,但影像质量差和标注缺失阻碍了语义分割的应用。
  • Method: 提出了Urban1960SatBench数据集和Urban1960SatUSM框架,后者采用置信度对齐机制和焦点置信度损失,基于自监督学习架构生成伪标签。
  • Result: Urban1960SatUSM在Urban1960SatSeg上显著优于现有无监督分割方法,为历史城市场景的分割提供了新工具。
  • Conclusion: 该研究为利用现代计算机视觉技术定量研究长期城市变化奠定了基础,数据集和框架已开源。

[39] TinySplat: Feedforward Approach for Generating Compact 3D Scene Representation

Zetian Song,Jiaye Fu,Jiaqi Zhang,Xiaohan Lu,Chuanmin Jia,Siwei Ma,Wen Gao

Main category: cs.CV

TL;DR: TinySplat提出了一种新的前馈方法,用于生成紧凑的3D场景表示,解决了3D高斯泼溅(3DGS)的高存储成本问题。

  • Motivation: 现有的3DGS压缩方法依赖于场景级优化,与前馈架构不兼容,因此需要一种新的压缩方法。
  • Method: TinySplat集成了无训练压缩框架,包括视图投影变换(VPT)减少几何冗余,可见性感知基减少(VABR)减少感知冗余,以及视频编解码器减少空间冗余。
  • Result: 实验表明,TinySplat实现了100倍以上的压缩率,存储大小仅为现有最佳方法的6%,编码时间减少75%,解码时间减少99%。
  • Conclusion: TinySplat是一种高效的前馈压缩方法,显著降低了3DGS的存储成本,同时保持高质量。

[40] Marrying Autoregressive Transformer and Diffusion with Multi-Reference Autoregression

Dingcheng Zhen,Qian Qiao,Tan Yu,Kangxi Wu,Ziwei Zhang,Siyuan Liu,Shunshun Yin,Ming Tao

Main category: cs.CV

TL;DR: TransDiff结合自回归Transformer和扩散模型,显著提升图像生成性能,并引入多参考自回归(MRAR)进一步优化。

  • Motivation: 结合自回归Transformer和扩散模型的优势,提升图像生成的质量和效率。
  • Method: TransDiff联合建模框架,编码标签和图像为高级语义特征,扩散模型估计样本分布;MRAR通过多参考图像改进生成。
  • Result: 在ImageNet 256x256上,FID 1.61,IS 293.4,推理速度显著快于现有方法;MRAR将FID降至1.42。
  • Conclusion: TransDiff为图像生成领域开辟新方向,结合MRAR进一步提升了性能。

[41] Generalized Gaussian Entropy Model for Point Cloud Attribute Compression with Dynamic Likelihood Intervals

Changhao Peng,Yuqi Ye,Wei Gao

Main category: cs.CV

TL;DR: 论文提出了一种广义高斯熵模型和动态调整似然区间的MED方法,显著提升了点云属性压缩的性能。

  • Motivation: 现有方法在熵参数估计中存在未利用的信息,且固定似然区间限制了模型性能。
  • Method: 引入广义高斯熵模型控制尾部形状,并提出MED动态调整似然区间。
  • Result: 实验表明,该方法显著提升了三种基于VAE的点云属性压缩模型的率失真性能。
  • Conclusion: 该方法不仅适用于点云压缩,还可推广至图像和视频压缩任务。

[42] HAIF-GS: Hierarchical and Induced Flow-Guided Gaussian Splatting for Dynamic Scene

Jianing Chen,Zehao Li,Yujun Cai,Hao Jiang,Chengxuan Qian,Juyuan Kang,Shuqin Gao,Honglong Zhao,Tianlu Mao,Yucheng Zhang

Main category: cs.CV

TL;DR: HAIF-GS提出了一种基于稀疏锚点驱动的动态建模框架,解决了动态3D场景重建中的冗余更新、运动监督不足和非刚性变形建模问题。

  • Motivation: 动态3D场景重建在单目视频中仍具挑战性,现有方法存在冗余高斯更新、运动监督不足和非刚性变形建模弱的问题。
  • Method: HAIF-GS通过锚点过滤器识别运动相关区域,利用自监督流引导变形模块和多层次锚点传播机制,实现高效动态建模。
  • Result: 实验表明,HAIF-GS在渲染质量、时间一致性和重建效率上显著优于现有动态3DGS方法。
  • Conclusion: HAIF-GS为动态3D场景重建提供了一种高效且一致的解决方案。

[43] Revisit What You See: Disclose Language Prior in Vision Tokens for Efficient Guided Decoding of LVLMs

Beomsik Cho,Jaehyung Kim

Main category: cs.CV

TL;DR: ReVisiT是一种简单有效的解码方法,通过引用视觉标记引导LVLMs的文本生成,提升视觉基础性,减少计算成本。

  • Motivation: 传统LVLMs的解码策略未能充分利用视觉信息,导致视觉无关的响应。现有方法通常需要额外训练或多步推理,ReVisiT旨在解决这一问题。
  • Method: 通过将视觉标记投影到文本标记分布空间,动态选择最相关的视觉标记,并通过约束差异最小化优化输出分布。
  • Result: 在三个LVLM幻觉基准测试中,ReVisiT显著提升了视觉基础性,计算成本降低至2倍。
  • Conclusion: ReVisiT在视觉基础性和计算效率上优于现有方法,为LVLMs的解码提供了高效解决方案。

[44] Gaussian Herding across Pens: An Optimal Transport Perspective on Global Gaussian Reduction for 3DGS

Tao Wang,Mengyu Li,Geduo Zeng,Cheng Meng,Qiong Zhang

Main category: cs.CV

TL;DR: 本文提出了一种基于最优传输的3D高斯泼溅(3DGS)压缩方法,通过全局高斯混合减少实现高效渲染。

  • Motivation: 传统3DGS需要大量冗余高斯基元,占用过多内存和渲染资源,且现有压缩方法缺乏全局保真度保证。
  • Method: 采用最优传输视角,通过KD树分区最小化复合传输散度,生成紧凑几何表示,并解耦外观与几何属性进行微调。
  • Result: 实验表明,仅需10%的高斯基元即可保持与原始3DGS相当的渲染质量(PSNR、SSIM、LPIPS),并优于现有压缩技术。
  • Conclusion: 该方法为轻量级神经渲染提供了一种高效且通用的解决方案,适用于任何3DGS流程。

[45] AngleRoCL: Angle-Robust Concept Learning for Physically View-Invariant T2I Adversarial Patches

Wenjun Ji,Yuxiang Fu,Luyang Ying,Deng-Ping Fan,Yuyi Wang,Ming-Ming Cheng,Ivor Tsang,Qing Guo

Main category: cs.CV

TL;DR: 本文研究了文本到图像(T2I)扩散模型生成的对抗性补丁的角度鲁棒性问题,并提出了一种名为AngleRoCL的方法,通过学习通用概念来生成角度鲁棒的补丁。

  • Motivation: 现有方法忽视了T2I补丁在物理世界中不同视角下的攻击效果,本文旨在揭示其角度鲁棒性问题,并提出改进方案。
  • Method: 提出Angle-Robust Concept Learning(AngleRoCL),通过学习通用概念(文本嵌入)来生成角度鲁棒的补丁。
  • Result: 实验表明,AngleRoCL显著提升了补丁的角度鲁棒性,攻击成功率在多个视角下保持较高水平。
  • Conclusion: 本研究深化了对物理角度鲁棒补丁的理解,并揭示了文本概念与物理属性之间的关系。

[46] 3DGeoDet: General-purpose Geometry-aware Image-based 3D Object Detection

Yi Zhang,Yi Wang,Yawen Cui,Lap-Pui Chau

Main category: cs.CV

TL;DR: 3DGeoDet是一种新颖的几何感知3D物体检测方法,通过显式和隐式3D几何表示提升性能,无需3D信号监督,在多个数据集上表现优异。

  • Motivation: 解决基于图像的3D物体检测中因缺乏3D几何线索导致的图像与3D表示对应模糊问题。
  • Method: 利用预测深度生成显式(体素占用注意力)和隐式(TSDF)3D几何表示,结合端到端训练。
  • Result: 在SUN RGB-D、ScanNetV2和KITTI数据集上分别提升9.3 [email protected]、3.3 [email protected]和0.19 [email protected]
  • Conclusion: 3DGeoDet通过几何表示显著提升3D物体检测性能,具有通用性和高效性。

[47] GLD-Road:A global-local decoding road network extraction model for remote sensing images

Ligao Deng,Yupeng Deng,Yu Meng,Jingbo Chen,Zhihao Xi,Diyou Liu,Qifeng Chu

Main category: cs.CV

TL;DR: GLD-Road是一种两阶段模型,结合全局效率和局部精度,显著提升道路网络提取性能。

  • Motivation: 手动标注道路网络成本高,现有深度学习方法存在效率或精度问题,需要一种兼顾两者的解决方案。
  • Method: GLD-Road分两阶段:全局检测道路节点并连接,局部迭代修复断裂道路。
  • Result: 实验表明,GLD-Road在APLS指标上优于现有方法(City-Scale提升1.9%,SpaceNet3提升0.67%),并显著减少检索时间(比Sat2Graph快40%,比RNGDet++快92%)。
  • Conclusion: GLD-Road在道路网络提取中实现了高效与高精度的平衡,具有实际应用潜力。

[48] AD^2-Bench: A Hierarchical CoT Benchmark for MLLM in Autonomous Driving under Adverse Conditions

Zhaoyang Wei,Chenhui Qiang,Bowen Jiang,Xumeng Han,Xuehui Yu,Zhenjun Han

Main category: cs.CV

TL;DR: AD^2-Bench是首个针对恶劣天气和复杂场景下自动驾驶的Chain-of-Thought(CoT)基准测试,填补了现有评估的空白,包含5.4k高质量标注实例,评估结果显示当前MLLMs准确率不足60%。

  • Motivation: 现有基准测试未充分评估CoT在恶劣天气和复杂交通环境中的表现,AD^2-Bench旨在填补这一关键空白。
  • Method: 构建AD^2-Bench基准,覆盖多样恶劣环境,提供细粒度标注和多步推理支持,设计专用评估框架。
  • Result: 评估显示当前MLLMs在AD^2-Bench上的准确率低于60%,表明其难度和需改进空间。
  • Conclusion: AD^2-Bench为自动驾驶中的MLLMs推理提供了标准化评估平台,推动研究发展。

[49] SemanticSplat: Feed-Forward 3D Scene Understanding with Language-Aware Gaussian Fields

Qijing Li,Jingxiang Sun,Liang An,Zhaoqi Su,Hongwen Zhang,Yebin Liu

Main category: cs.CV

TL;DR: SemanticSplat是一种基于3D高斯和潜在语义属性的前馈语义感知3D重建方法,通过融合多模态特征和两阶段蒸馏框架,实现了对稀疏视图图像的全场景多模态语义特征重建。

  • Motivation: 现有方法(如LSM)仅能提取基于语言的语义,且几何重建质量低、噪声多;而基于每场景优化的方法需要密集输入视图,实用性差。因此,需要一种能联合建模几何、外观和语义的方法。
  • Method: 提出SemanticSplat,融合LSeg和SAM等多模态特征,利用成本体积表示存储跨视图特征相似性,并通过两阶段蒸馏框架从稀疏视图图像重建语义特征场。
  • Result: 实验表明,该方法在可提示和开放词汇分割等3D场景理解任务中表现优异。
  • Conclusion: SemanticSplat通过联合建模几何、外观和语义,实现了高质量的全场景理解,适用于增强现实和机器人交互等应用。

[50] Consistent Story Generation with Asymmetry Zigzag Sampling

Mingxiao LI,mang ning,Marie-Francine Moens

Main category: cs.CV

TL;DR: 提出了一种名为Zigzag Sampling的训练无关采样策略,通过非对称提示和视觉共享增强视觉故事生成中的主题一致性。

  • Motivation: 现有方法在保持多图像主题一致性上效果有限,且资源消耗大。
  • Method: 采用Zigzag采样机制,结合非对称提示和视觉共享模块。
  • Result: 实验表明,该方法在生成连贯一致的视觉故事上显著优于现有方法。
  • Conclusion: 该方法为视觉故事生成提供了一种高效且一致的解决方案。

[51] ECAM: A Contrastive Learning Approach to Avoid Environmental Collision in Trajectory Forecasting

Giacomo Rosin,Muhammad Rameez Ur Rahman,Sebastiano Vascon

Main category: cs.CV

TL;DR: 论文提出了一种基于对比学习的模块ECAM,用于增强轨迹预测模型的环境碰撞避免能力,显著降低了碰撞率。

  • Motivation: 现有轨迹预测方法常忽略环境因素的影响,导致预测轨迹与障碍物碰撞。本文旨在通过ECAM模块解决这一问题。
  • Method: 引入ECAM模块,基于对比学习,可集成到现有轨迹预测模型中,提升其生成无碰撞预测的能力。
  • Result: 在ETH/UCY数据集上验证,实验表明集成ECAM模块的模型碰撞率显著降低(-40/50%)。
  • Conclusion: ECAM模块有效提升了轨迹预测模型的环境碰撞避免能力,具有实际应用价值。

[52] HSENet: Hybrid Spatial Encoding Network for 3D Medical Vision-Language Understanding

Yanzhao Shi,Xiaodan Zhang,Junzhong Ji,Haoning Jiang,Chengxin Zheng,Yinong Wang,Liangqiong Qu

Main category: cs.CV

TL;DR: HSENet提出了一种结合3D医学图像和语言理解的框架,通过双3D视觉编码器和空间压缩技术提升诊断准确性。

  • Motivation: 现有方法主要针对2D医学图像,无法捕捉复杂3D解剖结构,导致误诊和诊断幻觉。
  • Method: HSENet采用双3D视觉编码器感知全局和细节,结合Spatial Packer压缩高分辨率3D区域为视觉标记。
  • Result: 在3D视觉-语言检索、医学报告生成和视觉问答任务中取得SOTA性能。
  • Conclusion: HSENet通过高效3D视觉编码和压缩技术,显著提升了3D医学图像与语言理解的性能。

[53] DGAE: Diffusion-Guided Autoencoder for Efficient Latent Representation Learning

Dongxu Liu,Yuang Peng,Haomiao Tang,Yuwei Chen,Chunrui Han,Zheng Ge,Daxin Jiang,Mingxue Liao

Main category: cs.CV

TL;DR: DGAE通过扩散模型引导解码器,提升高压缩比下的性能,同时减少潜在空间维度,实现更高效的表示。

  • Motivation: 解决GAN导致的训练不稳定性和高压缩比下的性能下降问题,同时最小化潜在空间维度。
  • Method: 提出DGAE,利用扩散模型引导解码器恢复未完全解码的信息信号。
  • Result: DGAE在高空间压缩率下有效缓解性能下降,潜在空间缩小2倍,与扩散模型结合在ImageNet-1K上表现优异。
  • Conclusion: DGAE通过改进解码器表达力,实现了高效紧凑的表示,并加速扩散模型的收敛。

[54] HopaDIFF: Holistic-Partial Aware Fourier Conditioned Diffusion for Referring Human Action Segmentation in Multi-Person Scenarios

Kunyu Peng,Junchao Huang,Xiangsheng Huang,Di Wen,Junwei Zheng,Yufan Chen,Kailun Yang,Jiamin Wu,Chongqing Hao,Rainer Stiefelhagen

Main category: cs.CV

TL;DR: 本文提出了一种基于文本参考的多人物动作分割方法,并引入新数据集RHAS133。通过HopaDIFF框架,结合傅里叶条件和注意力机制,实现了先进的动作分割性能。

  • Motivation: 现有方法主要针对单人物固定动作序列,忽视了多人物场景。本文旨在解决多人物动作分割问题,并通过文本描述指定目标人物。
  • Method: 提出HopaDIFF框架,结合交叉输入门注意力xLSTM和傅里叶条件,增强整体-局部长程推理和细粒度控制。
  • Result: 在RHAS133数据集上,HopaDIFF取得了最先进的性能。
  • Conclusion: HopaDIFF在多人物动作分割任务中表现出色,为未来研究提供了新方向。

[55] Self-Supervised Multi-Part Articulated Objects Modeling via Deformable Gaussian Splatting and Progressive Primitive Segmentation

Haowen Wang,Xiaoping Yuan,Zhao Jin,Zhen Zhao,Zhengping Che,Yousong Xue,Jin Tian,Yakun Huang,Jian Tang

Main category: cs.CV

TL;DR: DeGSS是一种统一框架,通过可变形3D高斯场编码铰接物体,实现几何、外观和运动的紧凑表示,无需人工标注。

  • Motivation: 现有方法在无人工标注时难以构建多运动部件的统一表示,DeGSS旨在解决这一问题。
  • Method: DeGSS将每个交互状态建模为共享场的平滑变形,通过变形轨迹实现无监督的渐进式部件分割。
  • Result: 方法在合成和真实数据集上表现优异,精度和稳定性均优于现有方法。
  • Conclusion: DeGSS为铰接物体提供了连续、解耦的部件级描述,支持精确的运动建模。

[56] CINeMA: Conditional Implicit Neural Multi-Modal Atlas for a Spatio-Temporal Representation of the Perinatal Brain

Maik Dannecker,Vasiliki Sideri-Lampretsa,Sophie Starck,Angeline Mihailov,Mathieu Milh,Nadine Girard,Guillaume Auzias,Daniel Rueckert

Main category: cs.CV

TL;DR: CINeMA是一种新型框架,用于在低数据环境下创建高分辨率、多模态的胎儿和新生儿脑图谱,显著提高了效率和灵活性。

  • Motivation: 研究胎儿和新生儿大脑的快速神经发育需要高时空分辨率的脑图谱,但传统方法和深度学习依赖大量数据,难以应对病理情况下的数据稀缺问题。
  • Method: CINeMA在潜在空间中操作,避免了计算密集的图像配准,显著缩短了图谱构建时间,并支持基于解剖特征的灵活条件。
  • Result: CINeMA在准确性、效率和多功能性上超越现有方法,支持组织分割、年龄预测等任务,并能生成合成数据。
  • Conclusion: CINeMA为脑研究提供了强大工具,代码和图谱已开源。

[57] Reasoning Models Are More Easily Gaslighted Than You Think

Bin Zhu,Hailong Yin,Jingjing Chen,Yu-Gang Jiang

Main category: cs.CV

TL;DR: 论文评估了三种先进推理模型在误导性用户输入下的表现,发现其准确性显著下降,并提出了新基准GaslightingBench-R以进一步测试模型的抗干扰能力。

  • Motivation: 现有推理模型在误导性用户输入下的鲁棒性尚未充分研究,论文旨在填补这一空白。
  • Method: 系统评估了三种模型(o4-mini、Claude-3.7-Sonnet、Gemini-2.5-Flash)在三个多模态基准(MMMU、MathVista、CharXiv)上的表现,并设计了GaslightingBench-R基准。
  • Result: 模型在误导性提示下准确性平均下降25-29%,新基准下下降超过53%。
  • Conclusion: 推理模型在逐步推理与信念坚持之间存在显著鲁棒性缺陷。

[58] Adding simple structure at inference improves Vision-Language Compositionality

Imanol Miranda,Ander Salaberria,Eneko Agirre,Gorka Azkune

Main category: cs.CV

TL;DR: 提出一种推理时技术,通过分割图像和文本片段并匹配对齐,提升视觉语言模型(VLM)的组合性能力,无需额外训练。

  • Motivation: 现有双编码器视觉语言模型(如CLIP)在组合性任务上表现不佳,推理时技术研究较少,本文旨在填补这一空白。
  • Method: 在推理时分割图像为小区域,提取文本片段(对象、属性、关系),用VLM对齐匹配,并聚合相似度得分。
  • Result: 方法显著提升模型性能,尤其在属性-对象绑定任务上表现突出,且无需额外训练。
  • Conclusion: 推理时技术潜力巨大,图像分割是关键,未来可进一步优化推理方法。

[59] Towards Practical Alzheimer's Disease Diagnosis: A Lightweight and Interpretable Spiking Neural Model

Changwei Wu,Yifei Chen,Yuxin Du,Jinying Zong,Jie Dong,Mingxuan Liu,Yong Peng,Jin Fan,Feiwei Qin,Changmiao Wang

Main category: cs.CV

TL;DR: FasterSNN是一种混合神经架构,结合了生物启发的LIF神经元和区域自适应卷积与多尺度脉冲注意力,用于高效、稀疏处理3D MRI数据,以提升阿尔茨海默病(AD)早期诊断的效率和稳定性。

  • Motivation: 阿尔茨海默病(AD)的早期诊断(尤其是轻度认知障碍阶段)至关重要,但受限于主观评估和多模态成像的高成本。现有深度学习方法能效低且计算需求高,难以在资源受限环境中部署。
  • Method: 提出FasterSNN,结合LIF神经元、区域自适应卷积和多尺度脉冲注意力,以稀疏且高效的方式处理3D MRI数据。
  • Result: 在基准数据集上,FasterSNN表现出竞争性性能,显著提升了效率和训练稳定性。
  • Conclusion: FasterSNN为AD筛查提供了一种高效、稳定的解决方案,具有实际应用潜力。

[60] CHIP: A multi-sensor dataset for 6D pose estimation of chairs in industrial settings

Mattia Nardon,Mikel Mujika Agirre,Ander González Tomé,Daniel Sedano Algarabel,Josep Rueda Collell,Ana Paola Caro,Andrea Caraffa,Fabio Poiesi,Paul Ian Chippendale,Davide Boscaini

Main category: cs.CV

TL;DR: CHIP是首个针对工业环境中机器人操作椅子的6D姿态估计数据集,填补了现有数据集的不足,并提供了真实工业场景的挑战。

  • Motivation: 现有6D姿态估计数据集多关注家庭环境,缺乏工业场景的真实数据,CHIP旨在解决这一问题。
  • Method: CHIP包含7种椅子,使用3种RGBD技术采集,提供77,811张带自动标注的RGBD图像,并测试了3种零样本6D姿态估计方法。
  • Result: 基准测试显示现有方法在CHIP数据集上仍有较大改进空间,尤其是在遮挡和传感器差异方面。
  • Conclusion: CHIP为工业环境中的6D姿态估计提供了新基准,并将公开以促进研究。

[61] Non-Contact Health Monitoring During Daily Personal Care Routines

Xulin Ma,Jiankai Tang,Zhang Jiang,Songqin Cheng,Yuanchun Shi,Dong LI,Xin Liu,Daniel McDuff,Xiaojing Liu,Yuntao Wang

Main category: cs.CV

TL;DR: LADH数据集结合RGB和红外视频,提升远程光电容积描记术(rPPG)在长期健康监测中的准确性和鲁棒性。

  • Motivation: 解决rPPG在高海拔环境中因光照变化、遮挡和动态面部姿势带来的挑战。
  • Method: 提出LADH数据集,包含240个同步RGB和红外面部视频,结合多任务学习。
  • Result: RGB和红外视频结合使心率估计的平均绝对误差降至4.99 BPM。
  • Conclusion: 多任务学习和多模态输入显著提升了非接触生理监测性能。

[62] The Four Color Theorem for Cell Instance Segmentation

Ye Zhang,Yu Zhou,Yifeng Wang,Jun Xiao,Ziyue Wang,Yongbing Zhang,Jianxu Chen

Main category: cs.CV

TL;DR: 提出一种基于四色定理的新型细胞实例分割方法,通过四色编码简化实例区分,实现高效且高性能的分割。

  • Motivation: 生物医学图像中紧密接触细胞的准确区分是一个持续挑战,现有方法在性能与计算效率间难以平衡。
  • Method: 将细胞类比为国家,组织为海洋,引入四色编码方案,将实例分割转化为仅需预测四类的语义分割问题,并设计了渐进训练策略和编码转换方法解决训练不稳定性。
  • Result: 在多种模式下实验表明,该方法达到了最先进的性能。
  • Conclusion: 提出的四色编码方法有效简化了细胞实例分割,同时保持了高性能。

[63] MPFNet: A Multi-Prior Fusion Network with a Progressive Training Strategy for Micro-Expression Recognition

Chuang Ma,Shaokai Zhao,Dongdong Zhou,Yu Pei,Zhiguo Luo,Liang Xie,Ye Yan,Erwei Yin

Main category: cs.CV

TL;DR: 该论文提出了一种多先验融合网络(MPFNet),通过渐进式训练策略优化微表情识别任务,显著提高了识别准确率。

  • Motivation: 微表情识别(MER)因其短暂性和低强度而比宏表情更具挑战性。现有方法多依赖单一先验知识,未能充分利用多源信息。
  • Method: 提出了基于I3D和坐标注意力机制的两个互补编码器(GFE和AFE),并设计了MPFNet-P和MPFNet-C两种变体,分别对应平行和层次处理模式。
  • Result: 在SMIC、CASME II和SAMM数据集上分别达到0.811、0.924和0.857的准确率,在SMIC和SAMM上达到最优性能。
  • Conclusion: MPFNet通过多源先验知识融合显著提升了MER性能,为微表情识别提供了新思路。

[64] Vision Matters: Simple Visual Perturbations Can Boost Multimodal Math Reasoning

Yuting Li,Lai Wei,Kaipeng Zheng,Jingyuan Huang,Linghe Kong,Lichao Sun,Weiran Huang

Main category: cs.CV

TL;DR: 研究发现,当前多模态大语言模型(MLLMs)在视觉处理上表现不足,仅通过图像描述的语言模型性能可媲美甚至超越MLLMs。为此,作者提出了一种无需算法修改或额外数据的视觉扰动框架,显著提升了模型的数学推理能力。

  • Motivation: 当前MLLMs在视觉与语言整合上表现不佳,仅依赖语言模型也能达到类似效果,揭示了视觉处理的重要性。
  • Method: 提出三种视觉扰动策略(干扰拼接、保持优势的混合、随机旋转),可无缝集成到现有训练流程中。
  • Result: 实验表明,该方法在多个数据集上显著提升了数学推理性能,训练出的模型在开源7B RL调优模型中表现优异。
  • Conclusion: 视觉扰动对多模态数学推理至关重要,揭示了‘更好的推理始于更好的视觉处理’。

[65] ELBO-T2IAlign: A Generic ELBO-Based Method for Calibrating Pixel-level Text-Image Alignment in Diffusion Models

Qin Zhou,Zhiyang Zhang,Jinglong Wang,Xiaobin Li,Jing Zhang,Qian Yu,Lu Sheng,Dong Xu

Main category: cs.CV

TL;DR: 论文提出了一种基于零样本参考图像分割的方法,评估扩散模型的像素级图像与文本对齐,并通过ELBO-T2IAlign校准对齐问题。

  • Motivation: 扩散模型在图像生成中表现优异,但其文本-图像对齐假设并不完美,导致下游任务效果受限。
  • Method: 使用零样本参考图像分割评估对齐问题,提出基于ELBO的校准方法ELBO-T2IAlign。
  • Result: 实验验证了该方法在多种扩散模型架构中的有效性。
  • Conclusion: ELBO-T2IAlign是一种无需训练、通用的校准方法,能显著改善扩散模型的文本-图像对齐。

[66] Class Similarity-Based Multimodal Classification under Heterogeneous Category Sets

Yangrui Zhu,Junhua Bao,Yipan Wei,Yapeng Li,Bo Du

Main category: cs.CV

TL;DR: 论文提出了一种多模态异构类别集学习(MMHCL)任务,并提出了基于类别相似性的跨模态融合模型(CSCF)来解决该任务。实验表明CSCF显著优于现有方法。

  • Motivation: 现实应用中多模态数据的类别分布存在不一致性,现有方法假设模态共享相同类别集,导致模型无法有效利用跨模态信息识别所有类别。
  • Method: CSCF将模态特征对齐到共享语义空间,通过不确定性估计选择最具判别性的模态进行决策融合,并基于类别相似性整合跨模态信息。
  • Result: CSCF在多个基准数据集上显著优于现有方法,有效解决了MMHCL任务。
  • Conclusion: CSCF通过共享语义空间和类别相似性融合跨模态信息,成功解决了多模态异构类别集学习问题。

[67] Hierarchical Image Matching for UAV Absolute Visual Localization via Semantic and Structural Constraints

Xiangkai Zhang,Xiang Zhou,Mao Chen,Yuchen Lu,Xu Yang,Zhiyong Liu

Main category: cs.CV

TL;DR: 提出了一种用于无人机绝对定位的分层跨源图像匹配方法,结合语义感知和结构约束的粗匹配模块与轻量级细粒度匹配模块,显著提升了定位精度和鲁棒性。

  • Motivation: 在GNSS信号不可用时,无人机绝对定位面临挑战,现有视觉定位方法因跨源差异和时间变化导致匹配困难。
  • Method: 采用分层匹配策略,先通过语义特征进行粗匹配,再通过细粒度特征进行精确匹配,构建了不依赖相对定位技术的视觉定位流程。
  • Result: 在公开基准数据集和新引入的CS-UAV数据集上验证了方法的优越性和鲁棒性。
  • Conclusion: 该方法有效解决了跨源差异和时间变化带来的定位难题,为GNSS受限场景提供了可靠解决方案。

[68] Inverting Black-Box Face Recognition Systems via Zero-Order Optimization in Eigenface Space

Anton Razzhigaev,Matvey Mikhalchuk,Klim Kireev,Igor Udovichenko,Andrey Kuznetsov,Aleksandr Petiushko

Main category: cs.CV

TL;DR: DarkerBB通过仅使用相似性分数从黑盒识别模型中重建彩色人脸图像,提出了一种零阶优化的新方法,并在多个基准测试中取得了最佳验证精度。

  • Motivation: 研究如何仅通过相似性分数从黑盒模型中重建人脸图像,以应对隐私威胁。
  • Method: 使用PCA特征脸空间进行零阶优化,仅依赖相似性分数。
  • Result: 在LFW、AgeDB-30和CFP-FP基准测试中达到最佳验证精度,查询效率高。
  • Conclusion: DarkerBB在仅使用相似性分数的条件下,实现了高效且准确的人脸图像重建。

[69] Q-SAM2: Accurate Quantization for Segment Anything Model 2

Nicola Farronato,Florian Scheidegger,Mattia Rigotti,Cristiano Malossi,Michele Magno,Haotong Qin

Main category: cs.CV

TL;DR: Q-SAM2是一种针对SAM2的低比特量化方法,通过线性层校准和量化感知训练,显著提升了效率并保持了高精度。

  • Motivation: 解决SAM2在资源受限场景下计算和内存消耗过高的问题。
  • Method: 提出线性层校准方法和量化感知训练(QAT)流程,优化权重分布并抑制异常值。
  • Result: Q-SAM2在超低2比特量化下表现优异,比现有量化方案更准确,且在校准后模型上提升66% mIoU。
  • Conclusion: Q-SAM2是一种高效且准确的量化方法,适用于资源受限环境。

[70] Accurate and efficient zero-shot 6D pose estimation with frozen foundation models

Andrea Caraffa,Davide Boscaini,Fabio Poiesi

Main category: cs.CV

TL;DR: FreeZeV2是一种无需训练的6D姿态估计方法,通过预训练的几何和视觉基础模型实现对新物体的强泛化,显著提升了准确性和效率。

  • Motivation: 解决现有方法需要大量任务特定训练数据的问题,探索是否可以通过预训练模型实现高效准确的6D姿态估计。
  • Method: 采用稀疏特征提取、特征感知评分机制和模块化设计,支持实例分割模型集成。
  • Result: 在BOP Benchmark的七个核心数据集上达到新SOTA,速度提升8倍,准确性提高5%;使用分割模型集成时,准确性再提升8%,速度仍快2.5倍。
  • Conclusion: FreeZeV2证明了无需任务特定训练即可实现高效准确的6D姿态估计,并在BOP Challenge 2024中获最佳方法奖。

[71] DreamCS: Geometry-Aware Text-to-3D Generation with Unpaired 3D Reward Supervision

Xiandong Zou,Ruihao Xia,Hongsong Wang,Pan Zhou

Main category: cs.CV

TL;DR: 论文提出了一种名为DreamCS的框架,通过构建3D-MeshPref数据集和RewardCS奖励模型,解决了现有文本到3D生成方法中的人偏好对齐问题,显著提升了生成质量。

  • Motivation: 现有文本到3D生成方法难以生成符合人类偏好的3D资产,且偏好对齐技术依赖于难以收集的多视角2D图像,导致几何伪影。
  • Method: 构建3D-MeshPref数据集,开发基于Cauchy-Schwarz散度目标的RewardCS奖励模型,并集成到DreamCS框架中。
  • Result: 实验表明,DreamCS优于现有方法,生成的3D资产几何准确且符合人类偏好。
  • Conclusion: DreamCS为文本到3D生成提供了一种高效的人偏好对齐解决方案,代码和模型将公开。

[72] MMME: A Spontaneous Multi-Modal Micro-Expression Dataset Enabling Visual-Physiological Fusion

Chuang Maa,Yu Peia,Jianhang Zhanga,Shaokai Zhaoa,Bowen Jib,Liang Xiea,Ye Yana,Erwei Yin

Main category: cs.CV

TL;DR: 该论文提出了一个新型的多模态微表情数据集MMME,首次同步采集了面部动作信号、中枢神经系统信号和外周生理信号,显著提升了微表情识别和检测性能。

  • Motivation: 现有微表情研究仅依赖单一视觉模态,忽略了其他生理模态的丰富情感信息,导致性能不足。因此,探索视觉特征与生理信号的跨模态关联机制,开发多模态融合框架,是推动微表情分析的关键。
  • Method: 研究引入了MMME数据集,包含634个微表情、2841个宏表情和2890个同步多模态生理信号试验,并进行了广泛的实验验证。
  • Result: 实验表明,结合生理信号显著提升了微表情的识别和检测性能,MMME是目前模态多样性最全面的微表情数据集。
  • Conclusion: MMME为探索微表情的神经机制和视觉-生理协同效应提供了关键数据支持,推动了微表情研究从单模态视觉分析向多模态融合的范式转变。

[73] DynaSplat: Dynamic-Static Gaussian Splatting with Hierarchical Motion Decomposition for Scene Reconstruction

Junli Deng,Ping Shi,Qipei Li,Jinyang Guo

Main category: cs.CV

TL;DR: DynaSplat通过动态-静态分离和分层运动建模扩展高斯泼溅技术,实现复杂动态场景的高精度重建。

  • Motivation: 现有方法难以处理真实世界动态场景的复杂性,需要一种更高效、直观的动态场景重建方案。
  • Method: 结合变形偏移统计和2D运动流一致性分类静态与动态元素,采用分层运动建模处理全局与局部运动,并引入基于物理的不透明度估计。
  • Result: 在多个数据集上,DynaSplat在精度和真实感上超越现有方法,且更紧凑高效。
  • Conclusion: DynaSplat为动态场景重建提供了一种高精度、直观且高效的解决方案。

[74] OctoNav: Towards Generalist Embodied Navigation

Chen Gao,Liankai Jin,Xingyu Peng,Jiazhao Zhang,Yue Deng,Annan Li,He Wang,Si Liu

Main category: cs.CV

TL;DR: 本文提出了一种通用导航代理OctoNav-R1,通过多模态和多能力的自由指令实现导航,并设计了OctoNav-Bench基准和Think-Before-Action数据集。

  • Motivation: 现有导航研究分散在不同任务中,缺乏通用性,本文旨在开发能处理多模态和多能力指令的通用导航代理。
  • Method: 提出OctoNav-Bench基准和TBA-CoT数据集,构建基于MLLMs的OctoNav-R1模型,采用三阶段混合训练范式(HTP)。
  • Result: OctoNav-R1在性能上优于现有方法。
  • Conclusion: 通过TBA-SFT和Nav-GPRO设计,实现了导航领域的思考能力,提升了模型的通用性。

[75] Learning to Align: Addressing Character Frequency Distribution Shifts in Handwritten Text Recognition

Panagiotis Kaliosis,John Pavlopoulos

Main category: cs.CV

TL;DR: 提出了一种基于Wasserstein距离的损失函数,用于提升手写文本识别的准确性和鲁棒性,特别是在处理时间和上下文变化时。

  • Motivation: 手写文本识别因字符集随时间变化和频率分布差异而具有挑战性,传统模型在特定子集上表现不佳。
  • Method: 提出了一种新的损失函数,利用Wasserstein距离对齐预测文本与目标字符频率分布,并通过引导解码方案提升现有模型。
  • Result: 实验证明该方法在多个数据集和架构上显著提升了泛化能力和性能。
  • Conclusion: 该方法有效解决了手写文本识别中的分布偏移问题,并开源了代码。

[76] IntPhys 2: Benchmarking Intuitive Physics Understanding In Complex Synthetic Environments

Florian Bordes,Quentin Garrido,Justine T Kao,Adina Williams,Michael Rabbat,Emmanuel Dupoux

Main category: cs.CV

TL;DR: IntPhys 2是一个视频基准测试,用于评估深度学习模型对直观物理的理解能力,基于四个核心原则,结果显示当前模型与人类表现存在显著差距。

  • Motivation: 评估深度学习模型对直观物理的理解能力,填补当前模型与人类认知之间的差距。
  • Method: 基于违反期望框架,设计了一套测试,涵盖四个核心原则(持久性、不变性、时空连续性和固体性),并在多样化虚拟环境中评估模型表现。
  • Result: 当前模型在复杂场景中对直观物理的理解表现接近随机水平(50%),远低于人类近乎完美的表现。
  • Conclusion: 当前模型在直观物理理解方面存在显著不足,需改进模型架构和训练方法。

[77] Leveraging Depth and Language for Open-Vocabulary Domain-Generalized Semantic Segmentation

Siyu Chen,Ting Han,Chengzheng Fu,Changshe Zhang,Chaolei Wang,Jinhe Su,Guorong Cai,Meiliu Wu

Main category: cs.CV

TL;DR: 论文提出了一种名为Vireo的单阶段框架,用于开放词汇领域通用语义分割(OV-DGSS),结合了开放词汇语义分割(OVSS)和领域通用语义分割(DGSS)的优势。

  • Motivation: OV-DGSS旨在为未见类别生成像素级掩码,同时在未见领域中保持鲁棒性,这对自动驾驶等实际场景至关重要。
  • Method: Vireo基于冻结的视觉基础模型(VFMs),通过深度VFMs引入场景几何特征,并提出了GeoText Prompts、CMPE和DOV-VEH三个关键组件。
  • Result: Vireo在领域通用性和开放词汇识别方面均取得显著性能提升,超越了现有方法。
  • Conclusion: Vireo提供了一个统一且可扩展的解决方案,适用于多样化和动态环境中的鲁棒视觉理解。

[78] 3D-Aware Vision-Language Models Fine-Tuning with Geometric Distillation

Seonho Lee,Jiho Choi,Inha Kang,Jiwook Kim,Junsung Park,Hyunjung Shim

Main category: cs.CV

TL;DR: 本文提出了一种名为Geometric Distillation的轻量级微调框架,通过注入几何线索提升视觉语言模型(VLMs)的3D空间理解能力,无需修改模型架构。

  • Motivation: 现有的视觉语言模型在3D空间结构理解上存在根本性限制,需要一种高效的方法来增强其3D感知能力。
  • Method: 通过从现成的3D基础模型(如MASt3R、VGGT)中提取稀疏对应、相对深度关系和密集成本体积,将这些几何线索注入预训练的VLMs中。
  • Result: 在3D视觉语言推理和3D感知基准测试中,该方法显著优于现有方法,且计算成本更低。
  • Conclusion: Geometric Distillation为2D训练的VLMs提供了一条可扩展且高效的路径,使其具备3D理解能力,适用于空间多模态任务。

[79] The Less You Depend, The More You Learn: Synthesizing Novel Views from Sparse, Unposed Images without Any 3D Knowledge

Haoru Wang,Kai Ye,Yangyan Li,Wenzheng Chen,Baoquan Chen

Main category: cs.CV

TL;DR: 论文研究了可泛化的新视角合成(NVS)问题,提出了一种减少3D先验知识和姿态依赖的方法,通过数据驱动实现高性能。

  • Motivation: 探索3D知识在新视角合成中的作用,发现减少3D依赖的方法在大规模数据下表现更优。
  • Method: 提出了一种最小化3D先验和姿态依赖的NVS框架,直接从稀疏2D图像中学习隐式3D感知。
  • Result: 实验表明,该方法能生成逼真且3D一致的新视角,性能与依赖姿态输入的方法相当。
  • Conclusion: 数据驱动的范式在减少3D依赖方面具有可行性和有效性。

[80] EquiCaps: Predictor-Free Pose-Aware Pre-Trained Capsule Networks

Athinoulla Konstantinou,Georgios Leontidis,Mamatha Thota,Aiden Durrant

Main category: cs.CV

TL;DR: 论文提出EquiCaps,一种基于胶囊网络的自我监督方法,无需专用预测器即可实现姿态感知,并在姿态估计任务中表现优异。

  • Motivation: 探索如何利用胶囊网络固有的姿态感知能力,避免依赖预测器架构来实现等变性。
  • Method: 引入EquiCaps,利用胶囊网络的特性进行姿态感知自我监督,并通过多几何变换任务验证其性能。
  • Result: EquiCaps在3DIEBench旋转预测基准上表现优于现有方法,R²达0.78,且在多几何变换下仍保持稳健。
  • Conclusion: 胶囊网络架构在无需预测器的情况下展现出强大的等变性和泛化能力,为姿态感知任务提供了新思路。

[81] CEM-FBGTinyDet: Context-Enhanced Foreground Balance with Gradient Tuning for tiny Objects

Tao Liu,Zhenchao Cui

Main category: cs.CV

TL;DR: 论文提出E-FPN-BS架构,通过多尺度特征增强和自适应优化解决小目标检测中高、低层特征训练不足的问题。

  • Motivation: 传统特征金字塔网络在小目标检测中存在高层特征因零正锚点而未被训练的问题,导致语义信息浪费和低层特征缺乏语义上下文。
  • Method: 提出E-FPN-BS架构,包含上下文增强模块(CEM)和前景-背景分离模块(FBSM),并引入动态梯度平衡损失(DCLoss)。
  • Result: 在多个基准数据集上验证了方法的优异性能和泛化能力。
  • Conclusion: E-FPN-BS通过有效利用高层语义信息和动态梯度平衡,显著提升了小目标检测的效果。

[82] Only-Style: Stylistic Consistency in Image Generation without Content Leakage

Tilemachos Aravanis,Panagiotis Filntisis,Petros Maragos,George Retsinas

Main category: cs.CV

TL;DR: 论文提出Only-Style方法,通过定位内容泄漏并自适应调整参数,解决风格一致图像生成中的内容泄漏问题。

  • Motivation: 现有方法在风格一致图像生成中难以有效分离语义内容和风格元素,导致内容泄漏。
  • Method: Only-Style通过定位内容泄漏并自适应调整风格对齐参数,平衡风格一致性和泄漏消除。
  • Result: 方法显著优于现有技术,实现无内容泄漏的稳健风格一致性。
  • Conclusion: Only-Style为风格一致图像生成提供了一种有效解决方案,并通过新评估框架验证其性能。

[83] MetricHMR: Metric Human Mesh Recovery from Monocular Images

He Zhang,Chentao Song,Hongwen Zhang,Tao Yu

Main category: cs.CV

TL;DR: MetricHMR是一种从单目图像中恢复具有准确全局平移的度量尺度人体网格的方法,解决了现有HMR方法的尺度和深度模糊问题。

  • Motivation: 现有HMR方法存在严重的尺度和深度模糊问题,导致重建结果在几何上不合理。MetricHMR旨在解决这一问题,实现度量尺度的人体网格恢复。
  • Method: 通过系统分析现有HMR方法的相机模型,强调标准透视投影模型的关键作用,并提出一种基于射线图的新方法,联合编码边界框信息、相机参数和几何线索,实现端到端度量HMR。
  • Result: 实验表明,MetricHMR在度量姿态、形状和全局平移估计方面达到最先进性能,优于现有方法。
  • Conclusion: MetricHMR通过标准透视投影模型和射线图方法,成功实现了度量尺度的人体网格恢复,解决了尺度和深度模糊问题。

[84] Structural-Spectral Graph Convolution with Evidential Edge Learning for Hyperspectral Image Clustering

Jianhan Qi,Yuheng Jia,Hui Liu,Junhui Hou

Main category: cs.CV

TL;DR: 论文提出了一种针对高光谱图像(HSI)聚类的结构-光谱图卷积算子(SSGCO)和证据引导的自适应边缘学习(EGAEL)模块,通过联合提取空间和光谱特征提升聚类精度。

  • Motivation: 现有基于图神经网络(GNNs)的方法未能充分利用HSI的光谱信息,且超像素拓扑图的不准确性可能导致信息聚合中的语义混淆。
  • Method: 提出SSGCO用于空间和光谱特征的联合提取,并设计EGAEL模块自适应优化超像素拓扑图的边权重,结合对比学习框架实现聚类。
  • Result: 在四个HSI数据集上,聚类精度分别提升了2.61%、6.06%、4.96%和3.15%。
  • Conclusion: SSGCO和EGAEL模块有效提升了HSI聚类的精度,解决了现有方法的局限性。

[85] HadaNorm: Diffusion Transformer Quantization through Mean-Centered Transformations

Marco Federici,Riccardo Del Chiaro,Boris van Breugel,Paul Whatmough,Markus Nagel

Main category: cs.CV

TL;DR: HadaNorm是一种新型线性变换方法,通过归一化和Hadamard变换有效减少异常值,实现更激进的激活量化,提升扩散模型的效率。

  • Motivation: 扩散模型在图像生成领域表现优异,但其高内存和计算需求限制了在资源受限设备上的部署。后训练量化(PTQ)是一种解决方案,但标准方法难以处理异常值。
  • Method: 提出HadaNorm方法,通过归一化激活特征通道并应用Hadamard变换,减少异常值影响,实现更高效的量化。
  • Result: HadaNorm在Transformer块的各组件中一致减少量化误差,在效率与性能的权衡上优于现有方法。
  • Conclusion: HadaNorm为扩散模型的量化提供了一种高效解决方案,显著提升了在资源受限设备上的部署潜力。

[86] LEO-VL: Towards 3D Vision-Language Generalists via Data Scaling with Efficient Representation

Jiangyong Huang,Xiaojian Ma,Xiongkun Linghu,Yue Fan,Junchao He,Wenxin Tan,Qing Li,Song-Chun Zhu,Yixin Chen,Baoxiong Jia,Siyuan Huang

Main category: cs.CV

TL;DR: LEO-VL提出了一种基于CFG的高效3D场景表示方法,解决了3D-VL通用模型的数据扩展性问题,并在多个任务上取得SOTA性能。

  • Motivation: 开发能够理解3D场景并遵循自然语言指令执行任务的3D-VL通用模型,但现有模型在能力和鲁棒性上落后于2D模型,主要障碍是数据扩展性不足。
  • Method: 提出LEO-VL模型,基于CFG(压缩特征网格)高效表示3D场景,减少计算开销,并收集了大规模高质量3D-VL数据。
  • Result: LEO-VL在多个3D QA基准测试中达到SOTA性能,验证了CFG的高效性和数据多样性重要性。
  • Conclusion: LEO-VL和SceneDPO为开发可扩展且鲁棒的3D-VL通用模型提供了重要贡献。

[87] CausalVQA: A Physically Grounded Causal Reasoning Benchmark for Video Models

Aaron Foss,Chloe Evans,Sasha Mitts,Koustuv Sinha,Ammar Rizvi,Justine T. Kao

Main category: cs.CV

TL;DR: CausalVQA是一个用于视频问答(VQA)的基准数据集,专注于测试模型对物理世界中因果关系的理解能力。

  • Motivation: 填补现有VQA数据集在真实场景中因果推理问题上的空白,挑战模型对动作和事件结果的预测能力。
  • Method: 设计包含五种问题类型(反事实、假设、预期、规划和描述性)的基准数据集,并通过质量控制机制避免模型利用语言线索作弊。
  • Result: 当前前沿多模态模型在CausalVQA上的表现远低于人类,尤其在预期和假设问题上。
  • Conclusion: CausalVQA揭示了当前系统在时空推理、物理原理理解和替代方案预测方面的不足。

[88] UniPre3D: Unified Pre-training of 3D Point Cloud Models with Cross-Modal Gaussian Splatting

Ziyi Wang,Yanran Zhang,Jie Zhou,Jiwen Lu

Main category: cs.CV

TL;DR: UniPre3D是一种统一预训练方法,适用于任何尺度的点云和任何架构的3D模型,通过高斯基元预测和可微分高斯渲染实现端到端优化。

  • Motivation: 解决点云数据尺度多样性带来的统一表示学习挑战,填补对象和场景级点云预训练方法的空白。
  • Method: 预测高斯基元作为预训练任务,利用可微分高斯渲染生成图像,结合2D特征引入纹理知识。
  • Result: 在多种对象和场景级任务中验证了方法的普适性,支持多种点云模型作为骨干。
  • Conclusion: UniPre3D是首个适用于任意尺度和架构的统一预训练方法,实验证明其有效性。

[89] Outside Knowledge Conversational Video (OKCV) Dataset -- Dialoguing over Videos

Benjamin Reichman,Constantin Patsch,Jack Truxal,Atishay Jain,Larry Heck

Main category: cs.CV

TL;DR: 论文提出了一种基于视频的视觉问答任务扩展,要求模型结合外部知识和对话上下文回答问题,并发布了一个包含2017个视频和5986个对话的数据集。

  • Motivation: 探索在视频对话中结合视觉信息和外部知识回答问题的挑战,填补现有研究的空白。
  • Method: 构建了一个包含2017个视频和5986个对话的数据集,对话问题需要外部知识支持。提供了多个基线模型进行评估。
  • Result: 展示了数据集和基线模型的表现,指出了任务中的未来挑战。
  • Conclusion: 该任务为结合视觉和外部知识的对话系统提供了新的研究方向,数据集公开以促进进一步研究。

[90] Vision Generalist Model: A Survey

Ziyi Wang,Yongming Rao,Shuofeng Sun,Xinrun Liu,Yi Wei,Xumin Yu,Zuyan Liu,Yanbo Wang,Hongmin Liu,Jie Zhou,Jiwen Lu

Main category: cs.CV

TL;DR: 本文综述了视觉通用模型的特点和能力,回顾了背景、框架设计和技术,探讨了相关领域联系,并提出了未来研究方向。

  • Motivation: 通用模型在自然语言处理中表现优异,但视觉任务的输入输出多样性使其难以统一表示,因此需要研究视觉通用模型。
  • Method: 回顾背景、分析现有框架设计和技术,探讨相关领域联系,并提供应用场景和挑战分析。
  • Result: 总结了视觉通用模型的特点、能力和潜在应用,同时指出了当前挑战。
  • Conclusion: 视觉通用模型具有潜力,但仍需解决多样性和统一表示问题,未来研究应关注这些方向。

[91] Kvasir-VQA-x1: A Multimodal Dataset for Medical Reasoning and Robust MedVQA in Gastrointestinal Endoscopy

Sushant Gautam,Michael A. Riegler,Pål Halvorsen

Main category: cs.CV

TL;DR: Kvasir-VQA-x1是一个新的大规模胃肠道内窥镜数据集,旨在提升医学视觉问答(MedVQA)的临床复杂性和视觉多样性。

  • Motivation: 现有MedVQA数据集缺乏临床复杂性和视觉多样性,限制了临床决策支持系统的发展。
  • Method: 通过大型语言模型生成159,549个新问题-答案对,并引入视觉增强以模拟常见成像伪影。
  • Result: 数据集支持标准VQA性能和模型鲁棒性评估,为临床AI系统提供更具挑战性的基准。
  • Conclusion: Kvasir-VQA-x1有望推动更可靠的多模态AI系统在临床中的应用,并遵循FAIR数据原则。

[92] Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing

Junfei Wu,Jian Guan,Kaituo Feng,Qiang Liu,Shu Wu,Liang Wang,Wei Wu,Tieniu Tan

Main category: cs.CV

TL;DR: 论文提出了一种通过视觉空间中的绘图操作增强大型视觉语言模型(LVLMs)空间推理能力的新范式,显著提升了模型在空间推理任务中的表现。

  • Motivation: 现有方法主要依赖纯文本推理,难以满足需要精确几何理解和连续空间跟踪的任务需求,因此需要一种新的视觉推理方法。
  • Method: 提出了一种通过基础绘图操作(如标注边界框和绘制辅助线)进行视觉推理的范式,并开发了一个三阶段训练框架:冷启动训练、反射拒绝采样和强化学习。
  • Result: 实验表明,模型VILASR在多种空间推理基准测试中平均提升了18.4%。
  • Conclusion: 通过视觉绘图操作进行推理是一种有效的方法,显著提升了LVLMs的空间推理能力。

[93] Vectorized Region Based Brush Strokes for Artistic Rendering

Jeripothula Prudviraj,Vikram Jamwal

Main category: cs.CV

TL;DR: 本文提出了一种图像到绘画的方法,通过语义引导、笔画参数计算和顺序渲染,解决了现有笔画绘画系统在艺术原则和意图对齐上的不足。

  • Motivation: 现有笔画绘画系统在捕捉笔画细节时,难以生成符合艺术原则和意图的笔画组合,因此需要一种新方法来填补这一差距。
  • Method: 该方法通过语义引导目标区域的笔画、计算笔画参数,并建立片段和笔画的顺序来渲染最终绘画。
  • Result: 实验结果表明,该方法在多种输入图像类型上均能实现高保真和高质量的笔画渲染。
  • Conclusion: 该方法成功实现了基于区域的绘画策略,同时提升了笔画质量和绘画保真度。

[94] Efficient Part-level 3D Object Generation via Dual Volume Packing

Jiaxiang Tang,Ruijie Lu,Zhaoshuo Li,Zekun Hao,Xuan Li,Fangyin Wei,Shuran Song,Gang Zeng,Ming-Yu Liu,Tsung-Yi Lin

Main category: cs.CV

TL;DR: 提出了一种新的端到端框架,用于生成具有任意数量语义部分的3D对象,解决了现有方法中部分融合无法编辑的问题。

  • Motivation: 现有3D对象生成方法通常生成单一融合网格,限制了部分编辑能力,且不同对象的部件数量可能不同。
  • Method: 采用双体积打包策略,将所有部件组织到两个互补的体积中,生成完整且语义明确的部分。
  • Result: 实验表明,该方法在质量、多样性和泛化能力上优于之前的基于图像的部分级生成方法。
  • Conclusion: 该框架成功实现了高质量、可编辑的3D对象生成,具有广泛的应用潜力。

[95] ReSim: Reliable World Simulation for Autonomous Driving

Jiazhi Yang,Kashyap Chitta,Shenyuan Gao,Long Chen,Yuqian Shao,Xiaosong Jia,Hongyang Li,Andreas Geiger,Xiangyu Yue,Li Chen

Main category: cs.CV

TL;DR: 论文提出ReSim模型,通过结合真实驾驶数据和模拟器中的非专家数据,提升驾驶场景模拟的多样性和可靠性,并引入Video2Reward模块评估动作奖励。

  • Motivation: 现有驾驶世界模型仅基于真实安全驾驶数据,难以模拟危险或非专家行为,限制了其在策略评估等任务中的应用。
  • Method: 结合真实驾驶数据和模拟器数据,构建可控世界模型;采用扩散变换器架构的视频生成器,改进条件信号集成和预测可控性。
  • Result: ReSim模型在视觉保真度上提升44%,专家和非专家动作的可控性提高50%以上,NAVSIM上的规划和策略选择性能分别提升2%和25%。
  • Conclusion: ReSim通过数据多样化和可控性改进,显著提升了驾驶场景模拟的可靠性和应用价值。

[96] AnimateAnyMesh: A Feed-Forward 4D Foundation Model for Text-Driven Universal Mesh Animation

Zijie Wu,Chaohui Yu,Fan Wang,Xiang Bai

Main category: cs.CV

TL;DR: AnimateAnyMesh是一个基于文本驱动的3D网格动画生成框架,通过DyMeshVAE架构和Rectified Flow训练策略,实现了高效且高质量的动画生成。

  • Motivation: 当前4D内容生成面临建模时空分布的复杂性和训练数据稀缺的挑战,因此需要一种高效且通用的解决方案。
  • Method: 采用DyMeshVAE架构分离时空特征,结合Rectified Flow训练策略,在压缩潜在空间中实现文本条件生成。
  • Result: 实验表明,该方法能快速生成语义准确且时间连贯的动画,质量和效率显著优于现有方法。
  • Conclusion: AnimateAnyMesh推动了4D内容生成的普及和实用性,并将开源数据、代码和模型。

[97] InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions

Zhenzhi Wang,Jiaqi Yang,Jianwen Jiang,Chao Liang,Gaojie Lin,Zerong Zheng,Ceyuan Yang,Dahua Lin

Main category: cs.CV

TL;DR: 提出了一种新框架,通过区域特定的条件绑定实现多概念人类动画的精确控制。

  • Motivation: 现有方法仅能处理单一主体且全局注入条件,无法满足多概念交互场景的需求。
  • Method: 利用掩码预测器自动推断布局信息,并通过迭代方式将局部音频条件注入对应区域。
  • Result: 实验验证了显式布局控制对多模态条件的有效性。
  • Conclusion: 新框架实现了高质量、可控的多概念人类中心视频生成。

[98] A Shortcut-aware Video-QA Benchmark for Physical Understanding via Minimal Video Pairs

Benno Krojer,Mojtaba Komeili,Candace Ross,Quentin Garrido,Koustuv Sinha,Nicolas Ballas,Mahmoud Assran

Main category: cs.CV

TL;DR: 论文提出了MVP基准,通过最小变化对来评估视频语言模型的物理理解能力,避免基于表面视觉或文本线索的捷径解决方案。

  • Motivation: 现有基准因依赖表面线索导致评分虚高,需更准确评估模型性能。
  • Method: 引入MVP基准,包含55K高质量多选题视频QA样本,每个样本有最小变化对以消除捷径。
  • Result: 人类表现92.9%,最佳开源模型40.2%,随机表现25%。
  • Conclusion: MVP基准有效评估模型物理理解能力,避免捷径解决方案。

[99] EditInspector: A Benchmark for Evaluation of Text-Guided Image Edits

Ron Yosef,Moran Yanuka,Yonatan Bitton,Dani Lischinski

Main category: cs.CV

TL;DR: EditInspector是一个用于评估文本引导图像编辑的新基准,基于人工标注,用于验证编辑质量。研究发现当前模型在评估编辑时表现不佳,并提出了两种新方法以改进。

  • Motivation: 随着生成式AI的发展,文本引导图像编辑日益普及,但缺乏全面评估编辑质量的框架。
  • Method: 引入EditInspector基准,利用人工标注评估编辑质量,并测试现有模型在多维度的表现。
  • Result: 当前模型在评估编辑时表现不全面且易产生幻觉,提出的新方法在伪影检测和差异描述生成上优于现有模型。
  • Conclusion: EditInspector为文本引导图像编辑提供了有效的评估工具,新方法显著提升了评估性能。

[100] Hearing Hands: Generating Sounds from Physical Interactions in 3D Scenes

Yiming Dou,Wonseok Oh,Yuqing Luo,Antonio Loquercio,Andrew Owens

Main category: cs.CV

TL;DR: 研究如何通过预测人手与3D场景交互的声音,实现交互式3D场景重建。

  • Motivation: 探索如何通过声音增强3D场景的交互性,使其更逼真。
  • Method: 记录人手操作3D场景的视频和声音,训练一个校正流模型,将3D手部轨迹映射到对应音频。测试时,用户可通过手部姿势序列查询模型生成声音。
  • Result: 生成的声音能准确传达材质属性和动作,且人类观察者难以区分其与真实声音。
  • Conclusion: 该方法成功实现了通过声音增强3D场景交互性的目标,生成的声音质量高。

[101] Text-Aware Image Restoration with Diffusion Models

Jaewon Min,Jin Hyeon Kim,Paul Hyunbin Cho,Jaeeun Lee,Jihye Park,Minkyu Park,Sangpil Kim,Hyunhee Park,Seungryong Kim

Main category: cs.CV

TL;DR: 论文提出了一种新的图像修复任务TAIR,专注于同时恢复视觉内容和文本保真度,并提出了TeReDiff框架和SA-Text基准数据集。

  • Motivation: 现有扩散修复方法在文本区域重建上表现不佳,常生成错误文本模式(文本图像幻觉),因此需要一种新方法解决这一问题。
  • Method: 提出TeReDiff框架,结合扩散模型内部特征与文本检测模块,通过联合训练提取丰富文本表征作为去噪提示。
  • Result: 实验表明,TeReDiff在文本识别准确率上显著优于现有方法。
  • Conclusion: TAIR任务和TeReDiff框架有效解决了文本图像幻觉问题,提升了文本区域的修复质量。

[102] PlayerOne: Egocentric World Simulator

Yuanpeng Tu,Hao Luo,Xi Chen,Xiang Bai,Fan Wang,Hengshuang Zhao

Main category: cs.CV

TL;DR: PlayerOne是首个以自我为中心的逼真世界模拟器,能动态生成与用户真实动作严格对齐的沉浸式视频。

  • Motivation: 解决自我中心视角下动态环境模拟的挑战,推动世界建模的新领域探索。
  • Method: 采用粗到细的训练流程,包括大规模文本-视频预训练和同步运动-视频数据微调,并设计部分解耦运动注入方案和联合重建框架。
  • Result: 实验显示其在精确控制人体运动和多样化场景一致性建模方面具有强大泛化能力。
  • Conclusion: PlayerOne开创了自我中心真实世界模拟的先河,为世界建模及其应用开辟了新方向。

cs.GR

[103] SILK: Smooth InterpoLation frameworK for motion in-betweening A Simplified Computational Approach

Elly Akhoundi,Hung Yu Ling,Anup Anand Deshmukh,Judith Butepage

Main category: cs.GR

TL;DR: 提出了一种基于Transformer的简单框架,用于运动插值任务,强调数据建模选择的重要性。

  • Motivation: 现有运动插值方法依赖复杂模型,而本文旨在探索简单模型是否也能实现高质量动画。
  • Method: 使用单一Transformer编码器,重点优化数据建模(如数据量、姿态表示和速度输入特征)。
  • Result: 实验表明,数据建模选择(而非模型复杂度)对动画质量起关键作用。
  • Conclusion: 挑战了模型复杂度决定动画质量的假设,提倡以数据为中心的运动插值方法。

[104] VideoMat: Extracting PBR Materials from Video Diffusion Models

Jacob Munkberg,Zian Wang,Ruofan Liang,Tianchang Shen,Jon Hasselgren

Main category: cs.GR

TL;DR: 利用视频扩散模型、视频内在分解和基于物理的可微分渲染,从文本提示或单张图像生成高质量3D模型材质。

  • Motivation: 为3D模型生成高质量材质,支持文本或单张图像输入,提升内容创作效率。
  • Method: 1. 微调视频扩散模型以符合输入几何和光照条件;2. 从生成视频中提取内在属性(基础色、粗糙度、金属性);3. 结合可微分路径追踪提取PBR材质。
  • Result: 生成多视角一致的3D模型材质,兼容常见内容创作工具。
  • Conclusion: 该方法通过结合生成模型与物理渲染,实现了高效且高质量的3D材质生成。

[105] DGS-LRM: Real-Time Deformable 3D Gaussian Reconstruction From Monocular Videos

Chieh Hubert Lin,Zhaoyang Lv,Songyin Wu,Zhen Xu,Thu Nguyen-Phuoc,Hung-Yu Tseng,Julian Straub,Numair Khan,Lei Xiao,Ming-Hsuan Yang,Yuheng Ren,Richard Newcombe,Zhao Dong,Zhengqin Li

Main category: cs.GR

TL;DR: DGS-LRM是首个基于单目视频的实时动态场景重建方法,通过可变形3D高斯点表示和大型Transformer网络实现高质量重建。

  • Motivation: 现有前馈方法多限于静态场景,动态场景重建面临数据稀缺和3D表示等挑战。
  • Method: 提出大规模合成数据集、可变形3D高斯点表示和大型Transformer网络。
  • Result: 在动态重建质量上媲美优化方法,优于现有预测方法,且适用于长程3D追踪。
  • Conclusion: DGS-LRM为动态场景重建提供了高效且通用的解决方案。

quant-ph

[106] Devanagari Digit Recognition using Quantum Machine Learning

Sahaj Raj Malla

Main category: quant-ph

TL;DR: 本文提出了一种混合量子-经典架构,用于Devanagari手写数字识别,结合CNN和量子电路,实现了99.80%的测试准确率,优于传统方法。

  • Motivation: Devanagari等区域脚本的手写数字识别对多语言文档数字化和教育工具至关重要,但其复杂结构和有限标注数据对传统模型构成挑战。
  • Method: 采用CNN提取空间特征,结合10量子比特的变分量子电路(VQC)进行量子增强分类。
  • Result: 在DHCD数据集上,模型测试准确率达99.80%,测试损失为0.2893,F1分数为0.9980,优于经典CNN。
  • Conclusion: 该工作为区域脚本识别设定了新基准,展示了量子机器学习在低资源语言场景中的潜力。

cs.AI

[107] Ming-Omni: A Unified Multimodal Model for Perception and Generation

Inclusion AI,Biao Gong,Cheng Zou,Chuanyang Zheng,Chunluan Zhou,Canxiang Yan,Chunxiang Jin,Chunjie Shen,Dandan Zheng,Fudong Wang,Furong Xu,GuangMing Yao,Jun Zhou,Jingdong Chen,Jianxin Sun,Jiajia Liu,Jianjiang Zhu,Jun Peng,Kaixiang Ji,Kaiyou Song,Kaimeng Ren,Libin Wang,Lixiang Ru,Lele Xie,Longhua Tan,Lyuxin Xue,Lan Wang,Mochen Bai,Ning Gao,Pei Chen,Qingpei Guo,Qinglong Zhang,Qiang Xu,Rui Liu,Ruijie Xiong,Sirui Gao,Tinghao Liu,Taisong Li,Weilong Chai,Xinyu Xiao,Xiaomei Wang,Xiaoxue Chen,Xiao Lu,Xiaoyu Li,Xingning Dong,Xuzheng Yu,Yi Yuan,Yuting Gao,Yunxiao Sun,Yipeng Chen,Yifei Wu,Yongjie Lyu,Ziping Ma,Zipeng Feng,Zhijiang Fang,Zhihao Qiu,Ziyuan Huang,Zhengyu He

Main category: cs.AI

TL;DR: Ming-Omni是一个统一的多模态模型,支持图像、文本、音频和视频处理,并在语音和图像生成方面表现出色。

  • Motivation: 旨在提供一个统一框架,高效处理多模态输入,避免使用多个单独模型或任务特定调整。
  • Method: 采用专用编码器提取多模态标记,通过MoE架构和模态特定路由器处理。
  • Result: 实验表明Ming-Omni在统一感知和生成任务中表现强大,支持音频和图像生成。
  • Conclusion: Ming-Omni是首个开源模型,在多模态支持上与GPT-4o相当,代码和模型权重已公开。

[108] V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning

Mido Assran,Adrien Bardes,David Fan,Quentin Garrido,Russell Howes,Mojtaba,Komeili,Matthew Muckley,Ammar Rizvi,Claire Roberts,Koustuv Sinha,Artem Zholus,Sergio Arnaud,Abha Gejji,Ada Martin,Francois Robert Hogan,Daniel Dugas,Piotr Bojanowski,Vasil Khalidov,Patrick Labatut,Francisco Massa,Marc Szafraniec,Kapil Krishnakumar,Yong Li,Xiaodong Ma,Sarath Chandar,Franziska Meier,Yann LeCun,Michael Rabbat,Nicolas Ballas

Main category: cs.AI

TL;DR: 论文提出了一种结合互联网视频数据和少量机器人交互数据的自监督学习方法,开发了能够理解、预测和规划物理世界的模型V-JEPA 2,并在多个任务上取得领先性能。

  • Motivation: 解决现代AI通过观察学习理解和行动的主要挑战,探索自监督学习在大规模视频数据和小规模交互数据中的应用。
  • Method: 预训练无动作的联合嵌入预测架构V-JEPA 2,结合语言模型,并应用于机器人规划任务。
  • Result: V-JEPA 2在运动理解和人类动作预测任务中表现优异,机器人规划任务中零样本部署成功。
  • Conclusion: 自监督学习结合大规模网络数据和小规模机器人数据,可生成能规划物理世界的世界模型。

q-bio.QM

[109] Reconstructing Heterogeneous Biomolecules via Hierarchical Gaussian Mixtures and Part Discovery

Shayan Shekarforoush,David B. Lindell,Marcus A. Brubaker,David J. Fleet

Main category: q-bio.QM

TL;DR: CryoSPIRE是一种新的冷冻电镜3D重建框架,通过分层高斯混合模型处理非刚体构象灵活性和成分变化,显著提升了复杂实验数据的分析能力。

  • Motivation: 冷冻电镜在分子生物学中具有革命性意义,但如何建模非刚体构象灵活性和成分变化的分子结构仍是一个挑战。
  • Method: 采用分层高斯混合模型,结合高斯泼溅技术,通过部分分割提供归纳偏置,处理构象和成分变化。
  • Result: CryoSPIRE在复杂实验数据中揭示了生物学意义的结构,并在CryoBench基准测试中达到新最优水平。
  • Conclusion: CryoSPIRE为冷冻电镜中的非刚体结构建模提供了高效解决方案,推动了该领域的技术进步。

cs.CL

[110] Using Sign Language Production as Data Augmentation to enhance Sign Language Translation

Harry Walsh,Maksym Ivashechkin,Richard Bowden

Main category: cs.CL

TL;DR: 利用手语生成技术增强手语翻译模型性能,通过骨架生成、拼接和生成模型SignGAN与SignSplat,提升翻译准确率19%。

  • Motivation: 手语数据集稀缺且规模小,限制了手语翻译模型的性能。
  • Method: 采用骨架生成、拼接技术和生成模型SignGAN与SignSplat生成多样化数据。
  • Result: 翻译模型性能提升19%。
  • Conclusion: 该方法有效增强数据集,提升翻译模型性能,适用于资源受限环境。

[111] ComfyUI-R1: Exploring Reasoning Models for Workflow Generation

Zhenran Xu,Yiyu Wang,Xue Yang,Longyue Wang,Weihua Luo,Kaifu Zhang,Baotian Hu,Min Zhang

Main category: cs.CL

TL;DR: ComfyUI-R1是一个大型推理模型,用于自动化生成AI工作流,通过两阶段训练框架显著提升了格式有效性和结构完整性。

  • Motivation: 解决用户在ComfyUI平台上构建复杂工作流时面临的高学习曲线问题。
  • Method: 使用两阶段训练框架:链式思维微调(CoT)和强化学习,结合细粒度奖励机制。
  • Result: 7B参数模型在格式有效性、节点和图级别F1分数上显著优于GPT-4o和Claude系列。
  • Conclusion: 长链式思维推理和代码化工作流在AI艺术创作中具有重要潜力。

[112] Dataset of News Articles with Provenance Metadata for Media Relevance Assessment

Tomas Peterka,Matyas Bohacek

Main category: cs.CL

TL;DR: 论文提出了一种检测新闻图像来源相关性的方法,并构建了一个包含来源标记的数据集,评估了六种大型语言模型在位置和时间相关性任务上的表现。

  • Motivation: 当前检测方法仅关注图像与文本语义的匹配,忽略了来源信息的重要性,导致误判。
  • Method: 构建了News Media Provenance Dataset,设计了位置来源相关性(LOR)和时间来源相关性(DTOR)任务,并测试了六种LLM的零样本性能。
  • Result: LOR任务表现良好,但DTOR任务表现较差,表明需要进一步优化模型架构。
  • Conclusion: 研究揭示了来源信息检测的挑战,为未来改进提供了方向。

cs.RO

[113] WD-DETR: Wavelet Denoising-Enhanced Real-Time Object Detection Transformer for Robot Perception with Event Cameras

Yangjie Cui,Boyang Gao,Yiwei Zhang,Xin Dong,Jinwu Xiang,Daochun Li,Zhan Tu

Main category: cs.RO

TL;DR: 论文提出了一种基于小波去噪的检测变换器(WD-DETR)网络,用于解决事件相机中密集事件表示中的噪声问题,并在多个数据集上验证了其优越性能。

  • Motivation: 密集事件表示中的累积噪声降低了表示质量并增加了漏检概率,需要一种有效的去噪方法。
  • Method: 提出WD-DETR网络,包括密集事件表示、小波变换去噪、基于变换器的目标预测,以及动态重组卷积块(DRCB)以减少推理时间。
  • Result: 在DSEC、Gen1和1Mpx数据集上表现优于现有方法,并在NVIDIA Jetson Orin NX上实现约35 FPS的高帧率。
  • Conclusion: WD-DETR是一种高效且适用于实时机器人感知的事件相机目标检测方法。

[114] Perception Characteristics Distance: Measuring Stability and Robustness of Perception System in Dynamic Conditions under a Certain Decision Rule

Boyu Jiang,Liang Shi,Zhengzhi Lin,Loren Stowe,Feng Guo

Main category: cs.RO

TL;DR: 论文提出了一种新的感知评估指标PCD,用于量化自动驾驶系统中对象检测的最远可靠距离,并考虑了模型输出的不确定性。同时发布了SensorRainFall数据集,用于评估不同天气条件下的感知性能。

  • Motivation: 传统评估指标无法捕捉感知系统在不同距离和天气条件下的性能波动,因此需要一种动态、分布感知的评估方法。
  • Method: 提出了Perception Characteristics Distance (PCD)指标,结合SensorRainFall数据集(包含晴天和雨天场景),通过统计分析和均值计算(mPCD)评估感知性能。
  • Result: PCD能够捕捉天气变化对感知性能的影响,而传统静态指标无法做到。
  • Conclusion: PCD为自动驾驶系统提供了一种更安全、更鲁棒的感知性能评估方法,SensorRainFall数据集为相关研究提供了基准。

[115] UAD: Unsupervised Affordance Distillation for Generalization in Robotic Manipulation

Yihe Tang,Wenlong Huang,Yingke Wang,Chengshu Li,Roy Yuan,Ruohan Zhang,Jiajun Wu,Li Fei-Fei

Main category: cs.RO

TL;DR: UAD是一种无需人工标注的方法,通过利用基础模型提取物体功能知识,训练轻量级任务条件解码器,实现了在开放任务指令下的机器人操作泛化能力。

  • Motivation: 现有视觉功能预测方法依赖人工标注或预定义任务集,限制了在非结构化环境中的应用。
  • Method: UAD结合大型视觉模型和视觉语言模型,自动标注大规模数据集,训练任务条件解码器。
  • Result: UAD在仿真环境中训练后,表现出对真实场景和人类活动的泛化能力,模仿学习策略在少量演示后能泛化到新对象和任务。
  • Conclusion: UAD为机器人操作提供了一种无需人工标注的功能预测方法,具有广泛的应用潜力。

[116] DCIRNet: Depth Completion with Iterative Refinement for Dexterous Grasping of Transparent and Reflective Objects

Guanghu Xie,Zhiduo Jiang,Yonglong Zhang,Yang Liu,Zongwu Xie,Baoshi Cao,Hong Liu

Main category: cs.RO

TL;DR: DCIRNet是一种新型多模态深度补全网络,通过融合RGB图像和深度图提升透明和反射物体的深度估计质量。

  • Motivation: 透明和反射物体的独特视觉特性(如镜面反射和光线透射)导致深度传感器估计不完整或不准确,影响下游视觉任务。
  • Method: 提出DCIRNet,结合RGB图像和深度图,采用多模态特征融合模块和多阶段监督策略,逐步优化深度补全。
  • Result: 在公开数据集上表现优异,抓取透明和反射物体的成功率提升44%。
  • Conclusion: DCIRNet有效解决了透明和反射物体的深度估计问题,具有强泛化能力。

[117] Enhancing Human-Robot Collaboration: A Sim2Real Domain Adaptation Algorithm for Point Cloud Segmentation in Industrial Environments

Fatemeh Mohammadi Amin,Darwin G. Caldwell,Hans Wernher van de Venn

Main category: cs.RO

TL;DR: 论文提出了一种双流网络架构(FUSION),结合DGCNN和CNN,用于3D点云数据的Sim2Real域适应,提升人机协作中的语义分割性能。

  • Motivation: 解决人机协作(HRC)中3D环境语义分割的数据标注需求问题,通过Sim2Real域适应提升模型在真实工业环境中的实用性。
  • Method: 提出双流网络FUSION,结合DGCNN和CNN,并引入残差层,用于模拟到真实环境的域适应。
  • Result: 在真实HRC和模拟工业点云数据上测试,模型达到97.76%的分割准确率,性能优于现有方法。
  • Conclusion: FUSION架构显著提升了语义分割的准确性和鲁棒性,为人机协作的安全性和效率提供了有效支持。

[118] From Intention to Execution: Probing the Generalization Boundaries of Vision-Language-Action Models

Irving Fang,Juexiao Zhang,Shengbang Tong,Chen Feng

Main category: cs.RO

TL;DR: 本文介绍了Vision-Language-Action (VLA)模型的局限性,并提出了一套统一的仿真任务套件用于评估其泛化能力。

  • Motivation: 当前VLA模型的评估不足,缺乏语言指令的基准测试,且现有研究难以复现和访问。
  • Method: 作者引入了一个包含50个仿真任务的套件,涵盖语言指令、视觉和物体操作,并评估了多种VLA架构。
  • Result: VLA模型在感知理解和高级规划方面表现良好,但在精确动作执行上存在问题,且微调可能损害其泛化能力。
  • Conclusion: 作者发布了任务套件和评估代码,以推动VLA研究并弥合感知与动作之间的差距。

[119] Fluoroscopic Shape and Pose Tracking of Catheters with Custom Radiopaque Markers

Jared Lawson,Rohan Chitale,Nabil Simaan

Main category: cs.RO

TL;DR: 论文提出了一种在双平面荧光透视下通过定制不透射线标记物实现导管形状和姿态同步估计的方法,适用于神经介入中的微导管导航。

  • Motivation: 目前导管导航依赖于医生从双平面荧光透视图像中重建和预测导管运动,增加了感知负担,现有跟踪方法不适用于微导管。
  • Method: 在导管上布置定制不透射线标记物,并提出设计准则以减少标记物跟踪不确定性对结果的敏感性。
  • Result: 在小于2mm外径的微导管上验证,形状跟踪误差小于1mm,导管滚动误差低于40度。
  • Conclusion: 该方法为可操纵导管在双平面成像下的自主导航提供了可能。

[120] Chain-of-Action: Trajectory Autoregressive Modeling for Robotic Manipulation

Wenbo Zhang,Tianrun Hu,Yanyuan Qiao,Hanbo Zhang,Yuchu Qin,Yang Li,Jiajun Liu,Tao Kong,Lingqiao Liu,Xiao Ma

Main category: cs.RO

TL;DR: Chain-of-Action (CoA) 是一种基于轨迹自回归建模的新型视觉运动策略范式,通过反向推理生成完整轨迹,实现了全局到局部的动作约束,并在多个任务中达到最先进性能。

  • Motivation: 传统方法仅预测下一步动作,缺乏对全局目标的直接约束。CoA 旨在通过反向推理和任务目标驱动的动作链(Chain-of-Thought)过程,实现更高效和精确的动作规划。
  • Method: CoA 采用自回归结构,首先生成任务目标的关键帧动作,随后基于关键帧和已预测动作逐步生成后续动作。设计了连续动作表示、动态停止、反向时间集成和多令牌预测等技术。
  • Result: 在 60 个 RLBench 任务和 8 个真实世界操作任务中,CoA 实现了最先进的性能,表现出强大的空间泛化能力。
  • Conclusion: CoA 通过反向推理和全局约束,显著提升了视觉运动策略的性能和泛化能力,为复杂任务的动作规划提供了新思路。

cs.LG

[121] MultiNet: An Open-Source Software Toolkit & Benchmark Suite for the Evaluation and Adaptation of Multimodal Action Models

Pranav Guruprasad,Yangyue Wang,Harshvardhan Sikka

Main category: cs.LG

TL;DR: MultiNet是一个开源的多模态动作模型基准和生态系统,用于评估和适应视觉、语言和动作领域的模型,并提供标准化评估协议和数据集。

  • Motivation: 开发通用智能代理系统需要结合视觉理解、语言理解和动作生成,MultiNet旨在提供一个统一的评估和适应平台。
  • Method: MultiNet提供开源软件、标准化评估协议和包含多种任务(如图像标注、视觉问答、机器人控制等)的复合数据集。
  • Result: MultiNet已被用于下游研究,探索视觉-语言-动作模型的泛化能力限制。
  • Conclusion: MultiNet为多模态动作模型的研究提供了重要的基准和工具,推动了该领域的发展。

[122] LPO: Towards Accurate GUI Agent Interaction via Location Preference Optimization

Jiaqi Tang,Yu Xia,Yi-Feng Wu,Yuwei Hu,Yuhui Chen,Qing-Guo Chen,Xiaogang Xu,Xiangyu Wu,Hao Lu,Yanqing Ma,Shiyin Lu,Qifeng Chen

Main category: cs.LG

TL;DR: 论文提出了一种名为LPO的新方法,通过利用位置数据和信息熵优化GUI交互,显著提升了交互精度。

  • Motivation: 现有GUI代理在空间定位上存在局限性,尤其是SFT方法对位置数据的感知能力不足,导致交互效果受限。
  • Method: LPO结合信息熵预测交互位置,并引入动态位置奖励函数,辅以GRPO方法进行优化。
  • Result: 实验表明LPO在离线和在线评估中均达到SOTA性能。
  • Conclusion: LPO为GUI交互提供了一种高效且精确的解决方案,代码将开源。

[123] Athena: Enhancing Multimodal Reasoning with Data-efficient Process Reward Models

Shuai Wang,Zhenhua Liu,Jiaheng Wei,Xuanwu Yin,Dong Li,Emad Barsoum

Main category: cs.LG

TL;DR: Athena-PRM是一种多模态过程奖励模型,用于评估复杂推理问题中每一步的奖励分数,通过弱和强完成者之间的一致性生成高质量标签,仅需5000样本即可高效工作。

  • Motivation: 传统自动化标注方法(如蒙特卡洛估计)生成噪声标签且计算成本高,需要高效生成高质量过程标注数据。
  • Method: 利用弱和强完成者之间预测一致性识别可靠过程标签,并采用ORM初始化和负数据上采样策略提升性能。
  • Result: 在多个场景和基准测试中表现优异,如Qwen2.5-VL-7B模型上性能提升10.2和7.1分,并在VisualProcessBench上超越之前SoTA 3.9 F1分数。
  • Conclusion: Athena-PRM能准确评估推理步骤正确性,作为奖励模型开发的Athena-7B在多个基准测试中显著优于基线。

[124] FedVLMBench: Benchmarking Federated Fine-Tuning of Vision-Language Models

Weiying Zheng,Ziyue Lin,Pengxin Guo,Yuyin Zhou,Feifei Wang,Liangqiong Qu

Main category: cs.LG

TL;DR: 本文介绍了FedVLMBench,首个用于联邦学习(FL)中视觉语言模型(VLM)微调的系统性基准测试,涵盖多种架构、策略和任务。

  • Motivation: 现有VLM微调方法依赖集中式训练,难以满足隐私要求严格的领域(如医疗)的需求,而联邦学习为解决这一问题提供了可能。
  • Method: FedVLMBench整合了两种主流VLM架构、四种微调策略、五种FL算法及六种多模态数据集,通过实验评估不同配置的性能。
  • Result: 实验发现,对于基于编码器的VLM,2层MLP连接器与并发调优是最优配置;FL方法对视觉中心任务的数据异质性更敏感。
  • Conclusion: FedVLMBench为研究社区提供了标准化工具和指导,推动了隐私保护的多模态基础模型的联邦训练发展。

[125] AtmosMJ: Revisiting Gating Mechanism for AI Weather Forecasting Beyond the Year Scale

Minjong Cheon

Main category: cs.LG

TL;DR: AtmosMJ挑战了传统观点,证明标准经纬度网格也能实现长期稳定的天气预测,通过GRF机制和高效架构设计,无需非标准数据表示。

  • Motivation: 研究是否能在标准经纬度网格上实现长期稳定的天气预测,挑战非标准空间域表示的必要性。
  • Method: 引入AtmosMJ,一种直接在ERA5数据上运行的深度卷积网络,采用GRF机制防止误差累积。
  • Result: AtmosMJ实现约500天的稳定预测,10天预测精度与先进模型相当,训练成本极低。
  • Conclusion: 高效架构设计是实现长期稳定天气预测的关键,非标准数据表示并非必需。

[126] Canonical Latent Representations in Conditional Diffusion Models

Yitao Xu,Tong Zhang,Ehsan Pajouheshgar,Sabine Süsstrunk

Main category: cs.LG

TL;DR: 论文提出了一种名为CLAReps的潜在表示方法,用于从条件扩散模型中提取核心类别信息,同时去除无关背景信号,并开发了基于扩散的特征蒸馏范式CaDistill。

  • Motivation: 条件扩散模型(CDMs)在生成任务中表现出色,但其建模能力导致类别特征与无关背景信号纠缠,难以提取鲁棒且可解释的表示。
  • Method: 通过识别CLAReps(保留核心类别信息的潜在代码),并开发CaDistill范式,利用CDM作为教师模型,仅通过CLAReps传递核心类别知识。
  • Result: 学生模型在训练后表现出强大的对抗鲁棒性和泛化能力,更关注类别信号而非虚假背景线索。
  • Conclusion: CDMs不仅可以作为图像生成器,还能作为紧凑、可解释的教师模型,推动鲁棒表示学习。

cs.CR

[127] DAVSP: Safety Alignment for Large Vision-Language Models via Deep Aligned Visual Safety Prompt

Yitong Zhang,Jia Li,Liyi Cai,Ge Li

Main category: cs.CR

TL;DR: DAVSP通过视觉安全提示和深度对齐技术,提升大型视觉语言模型对恶意查询的防御能力,同时保持良性输入的实用性。

  • Motivation: 现有对齐方法难以有效抵御恶意查询且保持良性输入的功能,DAVSP旨在解决这一问题。
  • Method: 引入视觉安全提示(可训练填充区域)和深度对齐技术(激活空间监督训练)。
  • Result: 在五个基准测试中,DAVSP有效抵御恶意查询并保持良性输入实用性,且具备跨模型泛化能力。
  • Conclusion: DAVSP通过视觉安全提示和深度对齐技术的结合,显著提升了模型的安全性和实用性。

eess.IV

[128] Exploring Image Transforms derived from Eye Gaze Variables for Progressive Autism Diagnosis

Abigail Copiaco,Christian Ritz,Yassine Himeur,Valsamma Eapen,Ammar Albanna,Wathiq Mansoor

Main category: eess.IV

TL;DR: 本文提出了一种基于AI的辅助技术,通过眼动变量和迁移学习优化自闭症谱系障碍(ASD)的诊断和管理,提高效率并保护隐私。

  • Motivation: ASD诊断方法耗时且成本高,亟需更便捷、高效的技术来改善诊断和管理流程。
  • Method: 结合迁移学习和眼动变量的图像变换技术,实现ASD诊断。
  • Result: 该方法支持家庭定期诊断,减少压力,保护隐私,并改善监护人与治疗师之间的沟通。
  • Conclusion: 该技术为ASD提供了及时、可访问的诊断方案,同时保护隐私,改善患者预后。

[129] Foundation Models in Medical Imaging -- A Review and Outlook

Vivien van Veldhuizen,Vanessa Botha,Chunyao Lu,Melis Erdal Cesur,Kevin Groot Lipman,Edwin D. de Jong,Hugo Horlings,Clárisa Sanchez,Cees Snoek,Ritse Mann,Eric Marcus,Jonas Teuwen

Main category: eess.IV

TL;DR: 综述探讨了基础模型(FMs)在医学影像分析中的应用,包括病理学、放射学和眼科,总结了150多项研究,并讨论了模型架构、自监督学习方法及下游适应策略。

  • Motivation: 传统医学影像分析依赖人工标注数据,而FMs通过大规模无标注数据预训练,能够学习通用视觉特征,减少后续监督需求。
  • Method: 综述分析了FMs的核心组件,包括模型架构、自监督学习方法及下游任务适应策略,并比较了不同应用领域的设计选择。
  • Result: FMs在病理学、放射学和眼科等多个医学影像领域展现出潜力,能够通过预训练特征适应具体临床任务。
  • Conclusion: 尽管FMs在医学影像分析中表现优异,但仍存在挑战和未解决问题,需进一步研究。

[130] Low-Rank Augmented Implicit Neural Representation for Unsupervised High-Dimensional Quantitative MRI Reconstruction

Haonan Zhang,Guoyan Lao,Yuyao Zhang,Hongjiang Wei

Main category: eess.IV

TL;DR: LoREIN是一种新型无监督双先验集成框架,用于加速3D多参数定量MRI重建,结合低秩先验和连续性先验,提高重建精度。

  • Motivation: 当前重建方法仅依赖单一先验或物理模型,导致高度不适定逆问题的重建结果不理想。
  • Method: LoREIN结合低秩表示(LRR)和隐式神经表示(INR)两种先验,通过零样本学习范式实现高保真重建。
  • Result: 该方法显著提高了加权图像和定量参数图的重建精度。
  • Conclusion: LoREIN为复杂时空和高维图像重建任务提供了广泛潜力,推动了医学影像领域的进步。

[131] An Explainable Deep Learning Framework for Brain Stroke and Tumor Progression via MRI Interpretation

Rajan Das Gupta,Md Imrul Hasan Showmick,Mushfiqur Rahman Abir,Shanjida Akter,Md. Yeasin Rahat,Md. Jakir Hossen

Main category: eess.IV

TL;DR: 提出了一种基于深度学习的系统,利用MobileNet V2和ResNet-50从MRI图像中检测脑肿瘤和中风及其阶段,训练准确率达93%,验证准确率达88%。

  • Motivation: 早期准确检测脑部异常(如肿瘤和中风)对及时干预和改善患者预后至关重要。
  • Method: 使用卷积神经网络(MobileNet V2和ResNet-50)通过迁移学习对MRI图像进行分类,数据集经过平衡和增强,采用dropout和数据增强防止过拟合。
  • Result: 模型表现优异,ResNet-50略优,但MobileNet V2因其轻量级架构适合资源有限场景。
  • Conclusion: 该研究为早期脑部异常检测提供了实用的AI解决方案,具有临床部署潜力,未来可通过更大数据集和多模态输入进一步优化。

[132] The RSNA Lumbar Degenerative Imaging Spine Classification (LumbarDISC) Dataset

Tyler J. Richards,Adam E. Flanders,Errol Colak,Luciano M. Prevedello,Robyn L. Ball,Felipe Kitamura,John Mongan,Maryam Vazirabad,Hui-Ming Lin,Anne Kendell,Thanat Kanthawang,Salita Angkurawaranon,Emre Altinmakas,Hakan Dogan,Paulo Eduardo de Aguiar Kuriki,Arjuna Somasundaram,Christopher Ruston,Deniz Bulja,Naida Spahovic,Jennifer Sommer,Sirui Jiang,Eduardo Moreno Judice de Mattos Farina,Eduardo Caminha Nunes,Michael Brassil,Megan McNamara,Johanna Ortiz,Jacob Peoples,Vinson L. Uytana,Anthony Kam,Venkata N. S. Dola,Daniel Murphy,David Vu,Dataset Contributor Group,Dataset Annotator Group,Competition Data Notebook Group,Jason F. Talbott

Main category: eess.IV

TL;DR: RSNA发布了最大的公开腰椎退行性影像数据集LumbarDISC,用于机器学习和腰椎影像研究,旨在改善患者护理和临床效率。

  • Motivation: 促进机器学习和腰椎影像研究,提升患者护理和临床效率。
  • Method: 数据集包含2,697名患者的8,593个MRI图像系列,由专家标注退行性变化,用于深度学习模型竞赛。
  • Result: 数据集免费提供,支持非商业用途,标注了腰椎退行性变化的程度。
  • Conclusion: LumbarDISC数据集为腰椎退行性影像研究提供了重要资源,有助于推动相关技术进步。

[133] A Cytology Dataset for Early Detection of Oral Squamous Cell Carcinoma

Garima Jain,Sanghamitra Pati,Mona Duggal,Amit Sethi,Abhijeet Patil,Gururaj Malekar,Nilesh Kowe,Jitender Kumar,Jatin Kashyap,Divyajeet Rout,Deepali,Hitesh,Nishi Halduniya,Sharat Kumar,Heena Tabassum,Rupinder Singh Dhaliwal,Sucheta Devi Khuraijam,Sushma Khuraijam,Sharmila Laishram,Simmi Kharb,Sunita Singh,K. Swaminadtan,Ranjana Solanki,Deepika Hemranjani,Shashank Nath Singh,Uma Handa,Manveen Kaur,Surinder Singhal,Shivani Kalhan,Rakesh Kumar Gupta,Ravi. S,D. Pavithra,Sunil Kumar Mahto,Arvind Kumar,Deepali Tirkey,Saurav Banerjee,L. Sreelakshmi

Main category: eess.IV

TL;DR: 该论文介绍了首个大型多中心口腔细胞学数据集,旨在通过人工智能改进口腔鳞状细胞癌(OSCC)的早期诊断,特别是在资源有限的地区。

  • Motivation: 传统组织病理学诊断在资源匮乏地区难以普及,而口腔细胞学刷检虽成本低且微创,但仍需解决观察者间差异和专家缺乏的问题。
  • Method: 研究团队收集了来自印度十个三级医疗中心的PAP和MGG染色口腔细胞学切片,由专家标注,用于训练和验证AI模型。
  • Result: 该数据集填补了公开口腔细胞学数据的空白,有望提升自动化检测的准确性,减少诊断错误。
  • Conclusion: 这一资源将促进AI驱动的诊断方法发展,改善资源有限地区的OSCC早期诊断,从而降低死亡率并提升患者预后。

[134] Sampling Theory for Super-Resolution with Implicit Neural Representations

Mahrokh Najaf,Gregory Ongie

Main category: eess.IV

TL;DR: 研究了隐式神经表示(INRs)在解决线性逆问题中的样本复杂性,通过单隐藏层INR和傅里叶特征层恢复连续域图像。

  • Motivation: 探索INRs在计算机视觉和计算成像中解决逆问题的潜力,特别是其样本复杂性和恢复能力。
  • Method: 使用单隐藏层INR和ReLU激活函数,结合傅里叶特征层和广义权重衰减正则化,研究从低通傅里叶样本中恢复图像。
  • Result: 确定了INR训练问题中图像可精确恢复的傅里叶样本数量,并通过实验验证了低宽度INR的恢复概率。
  • Conclusion: INRs在连续域图像恢复中具有潜力,理论支持其精确恢复能力,实验验证了其性能。

cs.SD

[135] Training-Free Voice Conversion with Factorized Optimal Transport

Alexander Lobashev,Assel Yermekova,Maria Larchenko

Main category: cs.SD

TL;DR: Factorized MKL-VC是一种无需训练的kNN-VC改进方法,仅需5秒参考音频即可实现高质量的跨语言语音转换。

  • Motivation: 解决kNN-VC在短参考音频下内容保留和鲁棒性不足的问题。
  • Method: 用因子化的最优传输映射替代kNN回归,基于WavLM嵌入子空间和Monge-Kantorovich线性解。
  • Result: 在LibriSpeech和FLEURS数据集上表现优于kNN-VC,尤其在跨语言语音转换中接近FACodec性能。
  • Conclusion: MKL-VC在短参考音频下显著提升性能,适用于跨语言语音转换。

上次更新于: