Skip to content
每日arXiv - 2025年7月1日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] Robust Perspective Correction for Real-World Crack Evolution Tracking in Image-Based Structural Health Monitoring

Xinxin Sun,Peter Chang

Main category: cs.CV

TL;DR: 提出了一种基于物理信息的图像对齐框架,针对结构健康监测中的裂纹定位问题,通过非线性扩散和RANSAC方法实现高精度对齐。

  • Motivation: 传统特征检测方法(如SIFT、SURF)在高频边缘(如裂纹)定位上表现不佳,而轻量级方法(如ORB、BRISK)在复杂条件下重复性差。
  • Method: 采用非线性各向异性扩散构建裂纹保留的尺度空间,结合RANSAC单应性估计,无需训练或参数调优。
  • Result: 在多种实际条件下,裂纹面积和长度误差分别减少70%和90%,关键指标对齐误差低于5%。
  • Conclusion: 该方法为裂纹演化跟踪提供了一种无监督、可解释且计算高效的解决方案,适用于移动平台部署。

[2] Counting with Confidence: Accurate Pest Monitoring in Water Traps

Xumin Gao,Mark Stevens,Grzegorz Cielniak

Main category: cs.CV

TL;DR: 本文提出了一种基于计数结果信息和外部环境条件的害虫计数置信度评估方法,通过多因素敏感性分析和自适应DBSCAN聚类算法,显著提升了评估准确性。

  • Motivation: 现有害虫计数研究在真实场景中缺乏对计数结果可靠性的评估,本文旨在填补这一空白。
  • Method: 结合害虫检测网络、图像质量与复杂度评估、害虫分布均匀性分析,并通过回归模型预测计数置信度。
  • Result: 实验表明,该方法在害虫计数置信度测试集上MSE降低31.7%,R2提升15.2%。
  • Conclusion: 本研究首次全面评估计数置信度,并量化影响因素与置信度的关系,为精准农业决策提供了可靠工具。

[3] Modulated Diffusion: Accelerating Generative Modeling with Modulated Quantization

Weizhi Gao,Zhichao Hou,Junqi Yin,Feiyi Wang,Linyu Peng,Xiaorui Liu

Main category: cs.CV

TL;DR: MoDiff是一种创新的扩散模型加速框架,通过调制量化和误差补偿提高生成效率,同时保持性能。

  • Motivation: 扩散模型的高计算成本是主要瓶颈,现有加速技术(如缓存和量化)在计算误差和生成质量上存在局限。
  • Method: 提出MoDiff框架,结合调制量化和误差补偿,作为通用加速方法适用于所有扩散模型。
  • Result: 实验表明,MoDiff在CIFAR-10和LSUN数据集上将激活量化从8位降至3位,且性能无损。
  • Conclusion: MoDiff通过理论分析和实验验证,为扩散模型提供了一种高效且通用的加速方案。

[4] ViFusionTST: Deep Fusion of Time-Series Image Representations from Load Signals for Early Bed-Exit Prediction

Hao Liu,Yu Hu,Rakiba Rayhana,Ling Bai,Zheng Liu

Main category: cs.CV

TL;DR: 论文提出了一种基于低成本负载传感器的床离开意图预测方法,通过图像融合和双流Swin Transformer实现高精度预测。

  • Motivation: 床相关跌倒仍是医院和长期护理机构的主要伤害来源,现有商业警报通常在患者已离开床后才触发,缺乏早期预测能力。
  • Method: 使用四个低成本负载传感器采集信号,转换为互补图像(RGB线图和三种纹理图),并设计ViFusionTST双流Swin Transformer进行并行处理和跨模态融合。
  • Result: 在真实数据集上,ViFusionTST达到0.885的准确率和0.794的F1分数,优于现有1D和2D时间序列基线。
  • Conclusion: 基于图像融合的负载信号分类方法是一种实用且有效的实时隐私保护跌倒预防解决方案。

[5] Scalable Dynamic Origin-Destination Demand Estimation Enhanced by High-Resolution Satellite Imagery Data

Jiachao Liu,Pablo Guarda,Koichiro Niinuma,Sean Qian

Main category: cs.CV

TL;DR: 该研究提出了一种新颖的多类别中观网络模型中动态起讫点需求估计(DODE)的集成框架,结合高分辨率卫星图像和传统传感器数据,显著提升了估计性能。

  • Motivation: 传统局部传感器数据稀疏,无法提供全面的城市交通信息,而卫星图像能提供一致的、城市范围内的停车和移动车辆信息,弥补了数据可用性的限制。
  • Method: 设计了计算机视觉流程,用于特定类别车辆检测和地图匹配,生成车辆类别的链路级交通密度观测数据,并基于此构建了计算图模型,联合校准动态网络状态。
  • Result: 实验结果表明,补充卫星图像数据显著提高了估计性能,尤其是在缺乏局部传感器的链路上,且框架能处理大规模网络。
  • Conclusion: 该框架具有实际部署潜力,适用于不同规模的城市,且对卫星图像数据质量的敏感性分析进一步验证了其稳健性。

[6] Visual-Semantic Knowledge Conflicts in Operating Rooms: Synthetic Data Curation for Surgical Risk Perception in Multimodal Large Language Models

Weiyi Zhao,Xiaoyu Tan,Liang Liu,Sijia Li,Youwei Song,Xihe Qiu

Main category: cs.CV

TL;DR: 该论文提出了一个用于检测手术室风险的数据集OR-VSKC,通过合成图像和人工标注解决视觉-语义知识冲突问题,并验证了微调MLLMs的效果。

  • Motivation: 手术风险识别对患者安全至关重要,但现有MLLMs在视觉安全违规检测中存在视觉-语义知识冲突(VS-KC)问题,需要解决。
  • Method: 引入包含34,000张合成图像和214张人工标注图像的OR-VSKC数据集,用于训练和验证MLLMs。
  • Result: 微调后的MLLMs在训练过的冲突实体检测上表现显著提升,但对未训练实体类型效果不佳。
  • Conclusion: OR-VSKC数据集有效暴露了VS-KC问题,为未来研究提供了资源,但需更全面的训练以提升泛化能力。

[7] How Can Multimodal Remote Sensing Datasets Transform Classification via SpatialNet-ViT?

Gautam Siddharth Kashyap,Manaswi Kulahara,Nipun Joshi,Usman Naseem

Main category: cs.CV

TL;DR: 提出了一种结合Vision Transformers和多任务学习的新模型SpatialNet-ViT,以提高遥感分类任务的准确性和泛化能力。

  • Motivation: 现有研究多局限于狭窄任务或数据集,难以泛化到多样化的遥感分类挑战。
  • Method: 利用Vision Transformers和多任务学习,结合数据增强、迁移学习等技术提升模型鲁棒性。
  • Result: 模型在分类准确性和泛化能力上均有显著提升。
  • Conclusion: SpatialNet-ViT为遥感分类任务提供了一种高效且可扩展的解决方案。

[8] What Makes a Dribble Successful? Insights From 3D Pose Tracking Data

Michiel Schepers,Pieter Robberechts,Jan Van Haaren,Jesse Davis

Main category: cs.CV

TL;DR: 研究利用3D姿势追踪数据改进足球盘带技能评估,发现平衡和方向对齐等姿势特征能显著提升预测盘带成功的模型性能。

  • Motivation: 传统2D位置数据无法全面捕捉盘带中的平衡、方向和控球等关键因素,限制了评估深度。
  • Method: 从2022/23赛季欧冠的1,736次盘带中提取姿势特征,并结合传统2D数据评估其对盘带成功的影响。
  • Result: 攻击者的平衡和与防守者的方向对齐等姿势特征对预测盘带成功具有信息量,结合姿势特征显著提升模型性能。
  • Conclusion: 3D姿势数据为足球盘带技能评估提供了更深入的洞察,补充了传统2D数据的不足。

[9] Patch2Loc: Learning to Localize Patches for Unsupervised Brain Lesion Detection

Hassan Baker,Austin J. Brockmeier

Main category: cs.CV

TL;DR: 提出了一种名为Patch2Loc的无监督学习方法,通过训练神经网络从正常脑部MRI中学习空间位置映射,以检测异常脑组织。

  • Motivation: 脑部病变检测对诊断和治疗至关重要,但现有监督学习方法需要标注数据,限制了应用范围。
  • Method: 使用无监督方法训练神经网络,通过预测正常脑部MRI中patch的空间位置,检测异常patch的高误差或方差。
  • Result: 在多个数据集上验证了模型对异常脑组织的分割能力,优于现有无监督方法。
  • Conclusion: Patch2Loc为无监督脑部病变检测提供了有效解决方案,代码已开源。

[10] Weakly Supervised Object Segmentation by Background Conditional Divergence

Hassan Baker,Matthew S. Emigh,Austin J. Brockmeier

Main category: cs.CV

TL;DR: 提出了一种利用弱监督(图像级标签)训练掩码网络进行二值目标分割的方法,通过反事实背景图像增强对比学习,实验证明在声纳和自然图像上表现优于无监督基线。

  • Motivation: 在缺乏大量标注数据的专业图像领域(如声纳、遥感、生物医学图像),像素级分割成本高昂,因此探索利用弱监督(图像级标签)进行高效分割。
  • Method: 通过聚类背景图像,生成反事实背景图像(将目标与不同背景结合),利用样本间差异和背景监督损失训练网络。
  • Result: 在声纳和自然图像上表现优于无监督基线,且无需预训练网络、生成网络或对抗判别器。
  • Conclusion: 该方法在弱监督下实现了高效目标分割,适用于多种专业图像领域,具有通用性和实用性。

[11] FreeDNA: Endowing Domain Adaptation of Diffusion-Based Dense Prediction with Training-Free Domain Noise Alignment

Hang Xu,Jie Huang,Linjiang Huang,Dong Li,Yidi Liu,Feng Zhao

Main category: cs.CV

TL;DR: 提出了一种无需训练的域适应方法(DNA),通过调整扩散采样过程中的噪声统计量,提升密集预测模型的域适应能力。

  • Motivation: 扩散模型在建模包含域信息的分布变换时表现优异,但噪声统计偏差会导致域偏移,因此需要一种方法来对齐噪声统计量以实现域适应。
  • Method: 提出Domain Noise Alignment (DNA)方法,通过对齐源域和目标域的噪声统计量实现域适应;对于无源域情况,利用高置信区域的统计量逐步调整噪声。
  • Result: 在四种常见的密集预测任务中验证了DNA方法的有效性。
  • Conclusion: DNA方法无需训练即可显著提升扩散密集预测模型的域适应能力。

[12] Lightning the Night with Generative Artificial Intelligence

Tingting Zhou,Feng Zhang,Haoyang Fu,Baoxiang Pan,Renhe Zhang,Feng Lu,Zhixin Yang

Main category: cs.CV

TL;DR: 该研究利用生成扩散模型,基于FY4B卫星的多波段热红外数据,开发了RefDiff模型,实现了夜间可见光反射率的高精度反演,显著提升了复杂云结构区域的准确性。

  • Motivation: 解决夜间因缺乏可见光而无法进行全天候气象观测的问题。
  • Method: 基于FY4B卫星的AGRI多波段热红外数据,开发生成扩散模型RefDiff,实现夜间可见光反射率反演。
  • Result: RefDiff的SSIM指数达0.90,在复杂云结构和厚云区域表现显著优于经典模型,并通过VIIRS夜间产品验证了其性能。
  • Conclusion: 研究显著提升了夜间可见光反射率反演能力,拓展了夜间可见光数据的应用潜力。

[13] Automated Defect Identification and Categorization in NDE 4.0 with the Application of Artificial Intelligence

Aditya Sharma

Main category: cs.CV

TL;DR: 提出了一种用于现代放射摄影的自动化故障检测和组织框架,通过虚拟缺陷增强和NDE测量验证其可行性。

  • Motivation: 解决现有信息不足的问题,优化虚拟缺陷增强,验证框架在NDE测量中的实用性。
  • Method: 收集223张飞机焊缝CR照片,使用虚拟缺陷增强和标准增强扩展数据,训练改进的U-net模型进行语义故障分割。
  • Result: 模型在缺陷检测中表现出高敏感性,尤其在a90/95特征下表现优异,扩展方法在焊缝区域效果显著。
  • Conclusion: 框架具有快速推理能力,专业评估认为其可作为测试周期的支持工具,不受设备和软件限制。

[14] Container damage detection using advanced computer vision model Yolov12 vs Yolov11 vs RF-DETR A comparative analysis

Subhadip Kumar

Main category: cs.CV

TL;DR: 比较了Yolov12、Yolov11和RF-DETR三种计算机视觉模型在集装箱损伤检测中的性能,发现RF-DETR在不常见损伤检测中表现更优。

  • Motivation: 集装箱损伤检测对延长使用寿命和避免安全隐患至关重要,需要高效准确的检测方法。
  • Method: 使用278张标注图像数据集训练和测试三种模型,比较mAP和精度。
  • Result: Yolov11和12的mAP@50为81.9%,RF-DETR为77.7%,但RF-DETR在不常见损伤检测中表现更优。
  • Conclusion: RF-DETR在不常见损伤检测中更具优势,适合实际应用。

[15] Preserve Anything: Controllable Image Synthesis with Object Preservation

Prasen Kumar Sharma,Neeraj Matiyali,Siddharth Srivastava,Gaurav Sharma

Main category: cs.CV

TL;DR: 提出了一种名为Preserve Anything的新方法,用于解决文本到图像生成中的对象保存和语义一致性问题,通过N-channel ControlNet实现多对象保存、语义对齐和场景控制。

  • Motivation: 现有方法在多对象保存、语义对齐和场景控制方面存在不足,需要一种更高效的解决方案。
  • Method: 采用N-channel ControlNet,结合对象保存模块、背景引导模块和高频覆盖模块,确保细节保留和语义一致性。
  • Result: 在特征空间保真度(FID 15.26)和语义对齐(CLIP-S 32.85)上达到最先进水平,用户研究显示显著提升。
  • Conclusion: Preserve Anything在对象保存、语义一致性和用户控制方面表现优异,显著优于现有方法。

[16] Seamless Interaction: Dyadic Audiovisual Motion Modeling and Large-Scale Dataset

Vasu Agrawal,Akinniyi Akinyemi,Kathryn Alvero,Morteza Behrooz,Julia Buffalini,Fabio Maria Carlucci,Joy Chen,Junming Chen,Zhang Chen,Shiyang Cheng,Praveen Chowdary,Joe Chuang,Antony D'Avirro,Jon Daly,Ning Dong,Mark Duppenthaler,Cynthia Gao,Jeff Girard,Martin Gleize,Sahir Gomez,Hongyu Gong,Srivathsan Govindarajan,Brandon Han,Sen He,Denise Hernandez,Yordan Hristov,Rongjie Huang,Hirofumi Inaguma,Somya Jain,Raj Janardhan,Qingyao Jia,Christopher Klaiber,Dejan Kovachev,Moneish Kumar,Hang Li,Yilei Li,Pavel Litvin,Wei Liu,Guangyao Ma,Jing Ma,Martin Ma,Xutai Ma,Lucas Mantovani,Sagar Miglani,Sreyas Mohan,Louis-Philippe Morency,Evonne Ng,Kam-Woh Ng,Tu Anh Nguyen,Amia Oberai,Benjamin Peloquin,Juan Pino,Jovan Popovic,Omid Poursaeed,Fabian Prada,Alice Rakotoarison,Alexander Richard,Christophe Ropers,Safiyyah Saleem,Vasu Sharma,Alex Shcherbyna,Jia Shen,Jie Shen,Anastasis Stathopoulos,Anna Sun,Paden Tomasello,Tuan Tran,Arina Turkatenko,Bo Wan,Chao Wang,Jeff Wang,Mary Williamson,Carleigh Wood,Tao Xiang,Yilin Yang,Julien Yao,Chen Zhang,Jiemin Zhang,Xinyue Zhang,Jason Zheng,Pavlo Zhyzheria,Jan Zikes,Michael Zollhoefer

Main category: cs.CV

TL;DR: 论文介绍了Seamless Interaction Dataset,用于开发能理解和生成双向行为动态的AI模型,并展示了一系列基于该数据集的模型,用于生成与人类语音对齐的动作和表情。

  • Motivation: 开发社交智能AI技术需要理解双向行为动态,以提升虚拟代理、远程呈现和多模态内容分析的能力。
  • Method: 构建大规模数据集(Seamless Interaction Dataset),并开发模型生成与语音对齐的动作和表情,支持情感和语义控制。
  • Result: 模型能够生成与语音同步的动作和表情,并支持情感和语义调整,展示了更直观的人机交互潜力。
  • Conclusion: 该研究为开发更自然的虚拟代理和交互式AI技术奠定了基础。

[17] Recomposed realities: animating still images via patch clustering and randomness

Markus Juvonen,Samuli Siltanen

Main category: cs.CV

TL;DR: 提出一种基于图像块的重建与动画方法,利用现有图像数据为静态图像添加动态效果。

  • Motivation: 通过重新解释而非复制,使静态图像具有动态效果,同时允许源域和目标域在概念上不同但共享局部结构。
  • Method: 使用k-means聚类对图像块进行分组,通过匹配和随机采样从聚类中重建新目标图像。
  • Result: 实现了静态图像的动态化,且源域与目标域在概念上可以不同。
  • Conclusion: 该方法为图像动画提供了一种灵活的重建方式,强调局部结构的共享而非完全复制。

[18] Improving Token-based Object Detection with Video

Abhineet Singh,Nilanjan Ray

Main category: cs.CV

TL;DR: 本文扩展了Pix2Seq目标检测器,提出了一种新的端到端视频目标检测方法,通过将对象表示为离散标记序列,解决了传统检测器的稀疏损失和后处理问题,并直接输出3D框或轨迹。

  • Motivation: 改进现有视频目标检测方法,解决传统方法中因采样所有可能框而导致的训练稀疏损失和推理后处理问题,并直接生成3D对象表示。
  • Method: 将视频对象表示为可变长度的离散标记序列,避免定位提示的注入,直接输出3D框或轨迹,支持灵活的视频子序列输入。
  • Result: 在多个数据集上优于Pix2Seq静态检测器,并在UA-DETRAC上与当前最优方法竞争,尽管受限于计算资源。
  • Conclusion: 提出的方法在视频目标检测中表现优异,解决了传统方法的局限性,且代码和模型已公开。

[19] Unifying Biomedical Vision-Language Expertise: Towards a Generalist Foundation Model via Multi-CLIP Knowledge Distillation

Shansong Wang,Zhecheng Jin,Mingzhe Hu,Mojtaba Safari,Feng Zhao,Chih-Wei Chang,Richard LJ Qiu,Justin Roper,David S. Yu,Xiaofeng Yang

Main category: cs.CV

TL;DR: MMKD-CLIP通过多教师知识蒸馏构建高性能生物医学基础模型,解决了生物医学领域数据稀缺和异构性问题。

  • Motivation: 生物医学领域缺乏大规模图像-文本数据,且数据标准和模态多样,限制了通用基础模型的开发。
  • Method: 采用两阶段训练:首先在290万生物医学图像-文本对上预训练,然后从9个教师模型中提取1920万特征对进行特征级蒸馏。
  • Result: 在58个数据集上评估,涵盖1080万图像和9种模态,MMKD-CLIP在所有任务中表现优于教师模型。
  • Conclusion: 多教师知识蒸馏是构建高性能生物医学基础模型的有效方法。

[20] Dual Atrous Separable Convolution for Improving Agricultural Semantic Segmentation

Chee Mei Ling,Thangarajah Akilan,Aparna Ravinda Phalke

Main category: cs.CV

TL;DR: 提出了一种基于DeepLabV3的高效农业图像语义分割方法,通过DAS Conv模块和优化的跳跃连接提升性能,同时保持较低计算复杂度。

  • Motivation: 农业图像语义分割对精准农业至关重要,但现有方法在效率和性能之间难以平衡。
  • Method: 集成Dual Atrous Separable Convolution (DAS Conv)模块和优化的跳跃连接,提升模型性能。
  • Result: 在Agriculture Vision数据集上性能优于基线模型,效率提升66%。
  • Conclusion: 该方法为农业图像语义分割提供了一种高效且高性能的解决方案。

[21] LIGHT: Multi-Modal Text Linking on Historical Maps

Yijun Lin,Rhett Olson,Junhan Wu,Yao-Yi Chiang,Jerod Weinman

Main category: cs.CV

TL;DR: LIGHT是一种多模态方法,结合语言、图像和几何特征,用于链接历史地图上的文本,优于现有方法。

  • Motivation: 历史地图上的文本信息对研究有重要价值,但现有方法难以有效链接文本片段,尤其是多词地名。
  • Method: LIGHT整合几何、视觉和语言特征,通过几何感知嵌入模块和双向学习策略预测文本顺序。
  • Result: LIGHT在ICDAR 2024/2025 MapText竞赛数据上表现优于现有方法。
  • Conclusion: 多模态学习能有效提升历史地图文本链接的准确性。

[22] BrainMT: A Hybrid Mamba-Transformer Architecture for Modeling Long-Range Dependencies in Functional MRI Data

Arunkumar Kannan,Martin A. Lindquist,Brian Caffo

Main category: cs.CV

TL;DR: BrainMT是一种新型混合框架,结合Mamba块和Transformer块,有效捕捉fMRI数据中的长程时空依赖关系,显著优于现有方法。

  • Motivation: 现有基于卷积神经网络或Transformer的方法难以建模fMRI数据中的复杂关系,尤其是长程时空依赖。
  • Method: BrainMT采用两阶段框架:1) 双向Mamba块捕捉全局时间交互;2) Transformer块建模空间关系。
  • Result: 在UKBioBank和Human Connectome Project数据集上,BrainMT在分类和回归任务中均达到最优性能。
  • Conclusion: BrainMT通过高效学习长程时空属性,显著提升了fMRI数据分析的性能。

[23] Seg-R1: Segmentation Can Be Surprisingly Simple with Reinforcement Learning

Zuyao You,Zuxuan Wu

Main category: cs.CV

TL;DR: Seg-R1利用强化学习增强大型多模态模型的像素级理解能力,通过GRPO策略在分割任务中表现出色,无需复杂修改即可实现高性能,并展示出强大的开放世界泛化能力。

  • Motivation: 探索如何通过强化学习提升大型多模态模型在像素级任务(如前景分割)中的理解和推理能力。
  • Method: 采用Group Relative Policy Optimization (GRPO)策略,通过点提示和边界框提示引导SAM2生成分割掩码,仅使用RL训练。
  • Result: 在COD10K上达到0.873 S-measure,在RefCOCOg和ReasonSeg上分别实现71.4 cIoU和56.7 gIoU的零样本性能,优于全监督模型。
  • Conclusion: Seg-R1展示了纯RL训练在像素级任务中的高效性和泛化能力,为未来研究提供了新方向。

[24] ReCo: Reminder Composition Mitigates Hallucinations in Vision-Language Models

Sotirios Panagiotis Chytas,Miso Choi,Hyunwoo J. Kim,Vikas Singh

Main category: cs.CV

TL;DR: 论文提出了一种名为ReCo的轻量级模块,用于缓解视觉语言模型(VLMs)中的幻觉问题,通过几何代数和关系组合的方法提升性能。

  • Motivation: VLMs在视觉和语言数据整合中表现出色,但存在幻觉问题,即生成与视觉输入无关或矛盾的文本。研究旨在控制这一行为。
  • Method: 在现有VLM上添加一个可训练的小模块ReCo,无需其他修改,利用几何代数和关系组合的方法。
  • Result: ReCo模块在InstructBLIP、LlaVA和MiniGPT4三种主流VLM上有效缓解了幻觉问题,并在多个基准测试中提升了性能。
  • Conclusion: ReCo是一种轻量且兼容性强的解决方案,可与其他减少幻觉的方法结合,进一步提升效果。

[25] CaO2: Rectifying Inconsistencies in Diffusion-Based Dataset Distillation

Haoxuan Wang,Zhenghao Zhao,Junyi Wu,Yuzhang Shang,Gaowen Liu,Yan Yan

Main category: cs.CV

TL;DR: CaO2框架通过两阶段扩散模型解决了数据集蒸馏中的目标不一致和条件不一致问题,显著提升了性能。

  • Motivation: 当前基于扩散模型的数据集蒸馏方法存在目标不一致和条件不一致的问题,影响了蒸馏效果。
  • Method: 提出CaO2框架,包括概率信息样本选择管道和潜在表示优化两阶段。
  • Result: 在ImageNet及其子集上表现优异,平均准确率提升2.3%。
  • Conclusion: CaO2通过优化蒸馏过程与评估目标的一致性,显著提升了数据集蒸馏的性能。

[26] 3D Shape Generation: A Survey

Nicolas Caytuiro,Ivan Sipiran

Main category: cs.CV

TL;DR: 本文综述了3D形状生成的最新进展,重点讨论了形状表示、生成方法和评估协议,并提出了未来研究方向。

  • Motivation: 深度学习推动了3D形状生成的发展,本文旨在为研究人员提供全面的领域概述和未来方向。
  • Method: 分类讨论了3D形状的显式、隐式和混合表示,并回顾了前馈架构的生成方法。
  • Result: 总结了常用数据集和评估指标,分析了生成形状的保真度、多样性和真实性。
  • Conclusion: 提出了可控、高效和高质量3D形状生成的开放挑战和未来研究方向。

[27] LightBSR: Towards Lightweight Blind Super-Resolution via Discriminative Implicit Degradation Representation Learning

Jiang Yuan,JI Ma,Bo Wang,Guanzhou Ke,Weiming Hu

Main category: cs.CV

TL;DR: 论文提出了一种基于隐式退化估计的盲超分辨率方法(LightBSR),通过优化隐式退化表示(IDR)的判别性,设计了一个轻量级模型。

  • Motivation: 现有方法忽视了IDR判别性对盲超分辨率的重要性,且过度复杂化适应过程,导致模型参数和计算量显著增加。
  • Method: 采用基于知识蒸馏的学习框架,包括退化先验约束的对比学习技术和特征对齐技术。
  • Result: LightBSR在多种盲超分辨率任务中表现出色,且复杂度极低。
  • Conclusion: 优化IDR判别性可显著提升盲超分辨率效果,LightBSR为轻量级高性能模型提供了新思路。

[28] Part Segmentation and Motion Estimation for Articulated Objects with Dynamic 3D Gaussians

Jun-Jee Chao,Qingyuan Jiang,Volkan Isler

Main category: cs.CV

TL;DR: 提出了一种联合解决部分分割和运动估计的方法,通过3D高斯表示处理动态点云序列,适用于遮挡和多传感器异步采集场景。

  • Motivation: 解决动态点云序列中部分分割和运动估计的挑战,特别是在点云非固定采样或存在遮挡的情况下。
  • Method: 使用3D高斯表示物体,参数化时间依赖的旋转、平移和缩放,通过点与高斯的对应关系实现分割和运动估计。
  • Result: 在遮挡场景下,部分分割性能优于现有方法13%,且对缺失点更鲁棒。
  • Conclusion: 该方法在动态点云分析中表现出色,尤其在遮挡和复杂采样场景下优于传统点对应方法。

[29] Deterministic Object Pose Confidence Region Estimation

Jinghao Wang,Zhang Li,Zi Wang,Banglei Guan,Yang Shang,Qifeng Yu

Main category: cs.CV

TL;DR: 提出了一种确定性方法,通过归纳共形预测和隐函数定理,高效估计6D姿态置信区域,解决了采样方法速度慢和区域过大的问题。

  • Motivation: 当前基于采样的6D姿态置信区域估计方法存在速度慢和置信区域过大的问题,限制了实际应用。
  • Method: 使用归纳共形预测校准高斯关键点分布为2D关键点置信区域,并通过隐函数定理直接传播到6D姿态置信区域。
  • Result: 在LineMOD Occlusion和SPEED数据集上,方法提高了姿态估计精度,减少了计算时间,置信区域体积显著缩小(旋转减少99.9%,平移减少99.8%)。
  • Conclusion: 该方法高效且准确,提供了紧凑的置信区域,适用于实际部署。

[30] XTransfer: Cross-Modality Model Transfer for Human Sensing with Few Data at the Edge

Yu Zhang,Xi Zhang,Hualin zhou,Xinyuan Chen,Shang Gao,Hong Jia,Jianfei Yang,Yuankai Qi,Tao Gu

Main category: cs.CV

TL;DR: XTransfer是一种资源高效、模态无关的模型迁移方法,通过模型修复和层重组解决边缘系统中深度学习模型的模态偏移和资源限制问题。

  • Motivation: 边缘系统中深度学习模型的训练和开发受限于传感器数据的稀缺和资源限制,现有方法存在模态偏移、资源需求高和适应性差的问题。
  • Method: XTransfer通过模型修复(修复模态偏移)和层重组(高效搜索和重组源模型层)实现资源高效的模型迁移。
  • Result: XTransfer在多种人类感知任务中达到最优性能,显著降低了数据收集、模型训练和边缘部署的成本。
  • Conclusion: XTransfer为边缘系统中的人类感知任务提供了一种高效、适应性强的解决方案。

[31] UniFuse: A Unified All-in-One Framework for Multi-Modal Medical Image Fusion Under Diverse Degradations and Misalignments

Dayong Su,Yafei Zhang,Huafeng Li,Jinxing Li,Yu Liu

Main category: cs.CV

TL;DR: UniFuse是一个通用的多模态医学图像融合框架,通过退化感知提示学习模块和Omni统一特征表示方案,解决了现有方法对高质量和对齐图像的依赖问题。

  • Motivation: 现有方法在图像未对齐或质量退化时效果不佳,需要一种能同时处理对齐、恢复和融合的统一框架。
  • Method: UniFuse结合退化感知提示学习、Omni统一特征表示和自适应LoRA协同网络(ALSN),实现单阶段对齐、恢复和融合。
  • Result: 实验证明UniFuse在多个数据集上优于现有方法。
  • Conclusion: UniFuse通过统一框架显著提升了多模态医学图像融合的效果。

[32] Deep Learning based Joint Geometry and Attribute Up-sampling for Large-Scale Colored Point Clouds

Yun Zhang,Feifan Chen,Na Li,Zhiwei Guo,Xu Wang,Fen Miao,Sam Kwong

Main category: cs.CV

TL;DR: 提出了一种基于深度学习的联合几何和属性上采样方法(JGAU),用于生成高质量的大规模彩色点云,并通过实验验证了其优越性。

  • Motivation: 彩色点云在3D应用中具有重要作用,但现有方法难以同时处理几何和属性的上采样问题,因此需要一种更高效的方法。
  • Method: 提出了JGAU框架,包括几何上采样网络和属性上采样网络,并引入两种粗属性上采样方法(GDWAI和DLAI)及属性增强模块。
  • Result: 实验表明,JGAU在4倍、8倍、12倍和16倍上采样率下的PSNR分别为33.90、32.10、31.10和30.39分贝,优于现有方法。
  • Conclusion: JGAU通过联合建模几何和属性模式,显著提升了彩色点云的上采样质量。

[33] Degradation-Modeled Multipath Diffusion for Tunable Metalens Photography

Jianing Zhang,Jiayi Zhu,Feiyu Ji,Xiaokang Yang,Xiaoyun Yuan

Main category: cs.CV

TL;DR: 提出了一种基于预训练模型的金属透镜摄影方法,通过多路径扩散和伪数据增强,实现了高保真图像重建。

  • Motivation: 解决金属透镜成像中的光学退化和计算恢复难题,避免依赖大量配对数据或精确光学校准。
  • Method: 采用多路径扩散框架(正、中、负提示路径)和伪数据增强,结合可调解码器和空间变化退化感知注意力模块(SVDA)。
  • Result: 在真实世界验证中,方法优于现有技术,实现了高保真和锐利的图像重建。
  • Conclusion: 该方法为金属透镜摄影提供了一种高效且可控的解决方案,显著提升了图像质量。

[34] RoboPearls: Editable Video Simulation for Robot Manipulation

Tao Tang,Likui Zhang,Youpeng Wen,Kaidong Zhang,Jia-Wang Bian,xia zhou,Tianyi Yan,Kun Zhan,Peng Jia,Hefeng Wu,Liang Lin,Xiaodan Liang

Main category: cs.CV

TL;DR: RoboPearls是一个基于3D高斯散射的可编辑视频仿真框架,用于机器人操作,通过结合大语言模型和视觉语言模型,实现高效仿真和性能提升。

  • Motivation: 解决真实世界演示数据采集成本高、效率低的问题,以及仿真与现实的差距挑战。
  • Method: 利用3D高斯散射(3DGS)构建逼真仿真,结合增量语义蒸馏(ISD)和3D正则化NNFM损失(3D-NNFM)等模块,并通过大语言模型(LLMs)和视觉语言模型(VLM)自动化仿真流程。
  • Result: 在多个数据集和场景(如RLBench、COLOSSEUM等)中展示了满意的仿真性能。
  • Conclusion: RoboPearls为机器人操作提供了一种高效、可扩展的仿真解决方案,有效缩小了仿真与现实的差距。

[35] VSRM: A Robust Mamba-Based Framework for Video Super-Resolution

Dinh Phu Tran,Dao Duy Hung,Daeyoung Kim

Main category: cs.CV

TL;DR: VSRM是一种基于Mamba的视频超分辨率框架,通过时空Mamba块和可变形交叉Mamba对齐模块,高效提取长程时空特征并增强感受野,同时提出频率域损失函数提升视觉质量。

  • Motivation: 解决CNN和Transformer在视频超分辨率任务中的局限性,如CNN的局部感受野和Transformer的二次复杂度问题。
  • Method: 提出VSRM框架,包括时空Mamba块、可变形交叉Mamba对齐模块和频率Charbonnier-like损失函数。
  • Result: 在多个基准测试中取得最先进的结果。
  • Conclusion: VSRM为未来研究提供了坚实基础,展示了Mamba在视频超分辨率中的潜力。

[36] PhonemeFake: Redefining Deepfake Realism with Language-Driven Segmental Manipulation and Adaptive Bilevel Detection

Oguzhan Baser,Ahmet Ege Tanriverdi,Sriram Vishwanath,Sandeep P. Chinchali

Main category: cs.CV

TL;DR: 论文提出PhonemeFake(PF)攻击方法,通过语言推理操纵关键语音片段,显著降低人类感知和基准准确率,并发布易用的数据集和开源检测模型。

  • Motivation: 现有Deepfake数据集未能真实模拟攻击对人类感知的影响,需更现实的攻击向量。
  • Method: 引入PF攻击方法,利用语言推理操纵关键语音片段,并开发自适应优先计算的双层检测模型。
  • Result: PF攻击降低人类感知42%,基准准确率94%;检测模型降低EER 91%,速度提升90%,计算开销小。
  • Conclusion: PF攻击和检测模型为Deepfake攻击提供了更现实的测试和高效解决方案。

[37] Single-Frame Point-Pixel Registration via Supervised Cross-Modal Feature Matching

Yu Han,Zhiwei Huang,Yanting Zhang,Fangjun Ding,Shen Cai,Rui Fan

Main category: cs.CV

TL;DR: 提出了一种基于无检测器匹配框架的点像素配准方法,用于LiDAR点云与相机图像的跨模态匹配,解决了单帧LiDAR稀疏性问题。

  • Motivation: 解决LiDAR点云与相机图像之间的模态差异及单帧LiDAR稀疏性带来的挑战。
  • Method: 通过将LiDAR强度图投影到2D视图,并利用基于注意力的无检测器匹配网络进行跨模态匹配,引入重复性评分机制提升可靠性。
  • Result: 在KITTI、nuScenes和MIAS-LCEC-TF70基准测试中表现优异,优于依赖多帧点云的方法。
  • Conclusion: 该方法在单帧LiDAR条件下实现了跨模态匹配的先进性能,提升了稀疏输入下的鲁棒性。

[38] RGE-GS: Reward-Guided Expansive Driving Scene Reconstruction via Diffusion Priors

Sicong Du,Jiarun Liu,Qifeng Chen,Hao-Xiang Chen,Tai-Jiang Mu,Sheng Yang

Main category: cs.CV

TL;DR: RGE-GS是一种新颖的扩展重建框架,结合扩散生成和奖励引导的高斯集成,解决了现有3D高斯泼溅技术中的物理不一致性和训练效率问题。

  • Motivation: 单次驾驶片段常导致道路结构扫描不完整,需要扩展重建以支持传感器模拟器有效回归驾驶行为。
  • Method: RGE-GS引入奖励网络选择扩散输出,并采用差异化训练策略调整高斯优化进度。
  • Result: 在公开数据集上,RGE-GS在重建质量上达到最先进水平。
  • Conclusion: RGE-GS通过奖励引导和差异化训练,显著提升了重建质量和训练效率。

[39] Intervening in Black Box: Concept Bottleneck Model for Enhancing Human Neural Network Mutual Understanding

Nuoye Xiong,Anqi Dong,Ning Wang,Cong Hua,Guangming Zhu,Mei Lin,Peiyi Shen,Liang Zhang

Main category: cs.CV

TL;DR: 提出了一种基于概念瓶颈模型(CBM-HNMU)的方法,通过自动识别和修正有害概念,提升深度模型的解释性和准确性。

  • Motivation: 深度模型复杂度增加导致解释性下降,现有方法缺乏有效干预或仅针对样本级别。
  • Method: 利用CBM作为可解释框架,通过全局梯度贡献识别和修正有害概念,并将修正后的知识蒸馏回黑盒模型。
  • Result: 在多个数据集和模型上测试,最高准确率提升2.64%,平均准确率提升1.03%。
  • Conclusion: CBM-HNMU有效提升了模型的解释性和性能,为深度学习的可解释性提供了新思路。

[40] Concept Pinpoint Eraser for Text-to-image Diffusion Models via Residual Attention Gate

Byung Hyun Lee,Sungjin Lim,Seunggyu Lee,Dong Un Kang,Se Young Chun

Main category: cs.CV

TL;DR: 本文提出了一种名为Concept Pinpoint Eraser (CPE)的新框架,通过非线性Residual Attention Gates (ResAGs)选择性删除目标概念,同时保护其他概念,优于现有方法。

  • Motivation: 解决现有概念擦除方法仅更新交叉注意力层可能导致其他概念失真的问题。
  • Method: 提出CPE框架,结合非线性ResAGs和注意力锚定损失,迭代训练以增强鲁棒性。
  • Result: 实验表明CPE在擦除名人、艺术风格和不良内容时表现优异,且能抵抗攻击提示。
  • Conclusion: CPE通过非线性模块和对抗训练,实现了高效且鲁棒的概念擦除。

[41] FreqDGT: Frequency-Adaptive Dynamic Graph Networks with Transformer for Cross-subject EEG Emotion Recognition

Yueyang Li,Shengyu Gong,Weiming Zeng,Nizhuan Wang,Wai Ting Siok

Main category: cs.CV

TL;DR: FreqDGT是一种频率自适应动态图变换器,通过整合频率自适应处理、动态图学习和多尺度时间解缠网络,显著提高了跨被试情绪识别的准确性。

  • Motivation: 解决脑电图(EEG)情绪识别中因个体差异导致的跨被试泛化问题。
  • Method: 结合频率自适应处理(FAP)、自适应动态图学习(ADGL)和多尺度时间解缠网络(MTDN)。
  • Result: 显著提高了跨被试情绪识别的准确性。
  • Conclusion: FreqDGT通过频率、空间和时间建模的整合,有效解决了跨被试情绪识别的挑战。

[42] Efficient Multi-Crop Saliency Partitioning for Automatic Image Cropping

Andrew Hamara,Andrew C. Freeman

Main category: cs.CV

TL;DR: 论文提出了一种扩展的固定纵横比裁剪算法,用于高效提取多个不重叠的视觉显著区域,避免了传统方法的局限性。

  • Motivation: 传统基于显著性的裁剪方法仅优化单个边界框,无法满足需要多个不连续裁剪的应用需求。
  • Method: 扩展固定纵横比裁剪算法,动态调整注意力阈值并移除已选区域,无需重新计算整个显著性图。
  • Result: 实现了线性时间内提取多个非重叠裁剪区域,并展示了定性结果。
  • Conclusion: 该方法为未来数据集和基准测试提供了潜力。

[43] Unleashing the Multi-View Fusion Potential: Noise Correction in VLM for Open-Vocabulary 3D Scene Understanding

Xingyilang Yin,Jiale Wang,Xi Yang,Mutian Xu,Xu Gu,Nannan Wang

Main category: cs.CV

TL;DR: MVOV3D是一种新方法,通过减少2D多视图融合中的固有噪声,提升开放词汇3D场景理解的性能,无需训练即可增强通用性。

  • Motivation: 现有方法在有限词汇的基准测试中表现良好,但难以处理多样化的对象类别,且3D数据量限制了开放词汇模型的训练。2D多视图融合方法在理解3D场景中表现优异,但视觉语言模型的固有噪声影响了其性能。
  • Method: MVOV3D通过利用CLIP编码器提取精确的区域级图像和文本特征,并结合3D几何先验优化多视图融合,减少噪声。
  • Result: MVOV3D在ScanNet200和Matterport160数据集上分别实现了14.7%和16.2%的mIoU,显著优于现有方法。
  • Conclusion: MVOV3D通过优化多视图融合,显著提升了开放词汇3D场景理解的性能,无需额外训练即可实现通用性增强。

[44] Prompting without Panic: Attribute-aware, Zero-shot, Test-Time Calibration

Ramya Hebbalaguppe,Tamoghno Kandar,Abhinav Nagpal,Chetan Arora

Main category: cs.CV

TL;DR: 该论文提出了一种改进视觉语言模型(VLM)测试时提示调优(TPT)的方法,通过初始化提示和正则化损失来提升校准性能。

  • Motivation: TPT方法在提升准确率的同时导致置信度校准退化,限制了其在关键应用中的适用性。
  • Method: 1. 使用大语言模型(LLM)初始化提示以减少过拟合;2. 提出正则化损失以减少类内距离并增加类间距离。
  • Result: 在15个数据集上,TCA方法的平均ECE为4.11,显著优于其他方法。
  • Conclusion: 提出的TCA方法有效解决了TPT的校准问题,提升了模型的实用性。

[45] Listener-Rewarded Thinking in VLMs for Image Preferences

Alexander Gambashidze,Li Pengyi,Matvey Skripkin,Andrey Galichin,Anton Gusarov,Konstantin Sobolev,Andrey Kuznetsov,Ivan Oseledets

Main category: cs.CV

TL;DR: 论文提出了一种基于听众增强的GRPO框架,通过重新评估推理链来校准奖励信号,显著提升了模型在人类视觉偏好任务中的泛化能力和准确性。

  • Motivation: 当前奖励模型在泛化性上表现不佳,且监督微调容易导致记忆化问题,需要复杂的标注流程。
  • Method: 引入听众增强的GRPO框架,利用冻结的视觉语言模型(听众)重新评估推理链,生成密集的校准置信度分数,以优化强化学习的奖励信号。
  • Result: 在ImageReward基准测试中达到67.4%的准确率,大规模人类偏好数据集上的OOD性能提升6%,并减少了推理矛盾。
  • Conclusion: 听众增强的奖励机制为视觉语言模型与人类偏好对齐提供了可扩展且高效的数据路径。

[46] SemFaceEdit: Semantic Face Editing on Generative Radiance Manifolds

Shashikant Verma,Shanmuganathan Raman

Main category: cs.CV

TL;DR: SemFaceEdit是一种基于生成辐射流形的新方法,通过语义场实现面部图像的局部编辑,同时保持其他区域的完整性。

  • Motivation: 解决现有3D感知GAN技术在局部编辑能力上的不足,提供更精细的面部语义编辑。
  • Method: 结合几何模块和外观模块,通过对抗训练学习语义感知的几何和外观描述符,并利用潜在码实现解耦。
  • Result: 实验表明,SemFaceEdit在语义场编辑和辐射场解耦方面表现优越。
  • Conclusion: SemFaceEdit为面部图像的局部编辑提供了一种高效且精确的解决方案。

[47] FOCUS: Fine-grained Optimization with Semantic Guided Understanding for Pedestrian Attributes Recognition

Hongyan An,Kuan Zhu,Xin He,Haiyun Guo,Chaoyang Zhao,Ming Tang,Jinqiao Wang

Main category: cs.CV

TL;DR: 论文提出FOCUS方法,通过多粒度混合令牌和属性引导视觉特征提取模块,自适应地提取细粒度属性级特征,解决了现有方法在行人属性识别中的局限性。

  • Motivation: 现有方法通过区域特征预测固定属性集,限制了性能和实用性,无法泛化到未见属性。
  • Method: 提出FOCUS方法,包括多粒度混合令牌(MGMT)、属性引导视觉特征提取(AVFE)模块和区域感知对比学习(RACL)。
  • Result: 在PA100K、PETA和RAPv1数据集上验证了方法的有效性和强泛化能力。
  • Conclusion: FOCUS方法能够自适应提取细粒度特征,适用于可见和未见属性,提升了行人属性识别的性能。

[48] AG-VPReID 2025: Aerial-Ground Video-based Person Re-identification Challenge Results

Kien Nguyen,Clinton Fookes,Sridha Sridharan,Huy Nguyen,Feng Liu,Xiaoming Liu,Arun Ross,Dana Michalski,Tamás Endrei,Ivan DeAndres-Tame,Ruben Tolosana,Ruben Vera-Rodriguez,Aythami Morales,Julian Fierrez,Javier Ortega-Garcia,Zijing Gong,Yuhao Wang,Xuehu Liu,Pingping Zhang,Md Rashidunnabi,Hugo Proença,Kailash A. Hambarde,Saeid Rezaei

Main category: cs.CV

TL;DR: AG-VPReID 2025 Challenge是首个专注于高空(80-120米)无人机与地面摄像头间行人重识别的视频竞赛,基于新数据集AG-VPReID,包含3,027个身份和约3.7百万帧。领先方法X-TFCLIP在两种场景下分别达到72.28%和70.77%的Rank-1准确率。

  • Motivation: 解决无人机与地面摄像头间行人重识别的挑战,如视角差异、尺度变化和遮挡问题。
  • Method: 竞赛中团队采用了多流架构、基于Transformer的时间推理和物理信息建模等方法。
  • Result: 领先方法X-TFCLIP在无人机到地面和地面到无人机的ReID任务中分别达到72.28%和70.77%的Rank-1准确率。
  • Conclusion: AG-VPReID 2025 Challenge展示了高空与地面间行人重识别的进展,同时凸显了数据集的复杂性。

[49] DMD-Net: Deep Mesh Denoising Network

Aalok Gangopadhyay,Shashikant Verma,Shanmuganathan Raman

Main category: cs.CV

TL;DR: DMD-Net是一种端到端的深度学习框架,用于网格去噪,通过图卷积神经网络和双流网络实现,性能优于现有方法。

  • Motivation: 解决网格去噪问题,通过深度学习框架提升去噪效果和鲁棒性。
  • Method: 使用图卷积神经网络(GCN)和双流网络(原始图和双图),结合特征引导变换器(FGT)提取特征并去噪。
  • Result: 在大规模3D数据集上训练,性能优于现有方法,对高噪声具有鲁棒性。
  • Conclusion: DMD-Net在网格去噪中表现出色,各组件对性能至关重要。

[50] Mask-aware Text-to-Image Retrieval: Referring Expression Segmentation Meets Cross-modal Retrieval

Li-Cheng Shen,Jih-Kang Hsieh,Wei-Hua Li,Chu-Song Chen

Main category: cs.CV

TL;DR: MaTIR任务结合文本到图像检索(TIR)和参考表达式分割(RES),提出两阶段框架,提升检索和分割效果。

  • Motivation: 现有TIR方法缺乏解释性,而RES在大规模图像集合中计算成本高,需统一两者。
  • Method: 两阶段框架:第一阶段为分割感知的图像检索,第二阶段用MLLM重新排序和对象定位。利用SAM 2和Alpha-CLIP离线生成掩码和区域嵌入。
  • Result: 在COCO和D3数据集上,检索精度和分割质量显著优于现有方法。
  • Conclusion: MaTIR任务和两阶段框架有效统一了TIR和RES,提升了性能。

[51] Region-Aware CAM: High-Resolution Weakly-Supervised Defect Segmentation via Salient Region Perception

Hang-Cheng Dong,Lu Zou,Bingguo Liu,Dong Ye,Guodong Liu

Main category: cs.CV

TL;DR: 提出了一种弱监督语义分割框架,结合区域感知CAM和伪标签训练,解决工业缺陷检测中标注数据不足的问题。

  • Motivation: 工业缺陷检测依赖大规模标注数据,但实际场景中标注资源有限,需要弱监督方法。
  • Method: 引入过滤引导反向传播(FGBP)优化CAM,提出区域感知加权模块提升空间精度,并通过伪标签迭代优化模型。
  • Result: 在工业缺陷数据集上验证了方法的优越性,实现了高精度缺陷分割。
  • Conclusion: 框架有效填补了弱监督学习与高精度缺陷分割间的鸿沟,适用于资源受限的工业场景。

[52] STR-Match: Matching SpatioTemporal Relevance Score for Training-Free Video Editing

Junsung Lee,Junoh Kang,Bohyung Han

Main category: cs.CV

TL;DR: STR-Match是一种无需训练的视频编辑算法,通过新的STR分数优化潜在空间,解决了现有方法的时间不一致性和运动失真问题。

  • Motivation: 现有文本引导视频编辑方法存在时间不一致、运动失真和领域转换受限的问题,主要原因是时空像素相关性建模不足。
  • Method: 提出STR-Match算法,利用2D空间注意力和1D时间模块计算STR分数,结合潜在优化框架和潜在掩码生成视频。
  • Result: 实验表明,STR-Match在视觉质量和时空一致性上优于现有方法,尤其在显著领域转换下表现优异。
  • Conclusion: STR-Match通过优化时空像素相关性建模,显著提升了视频编辑的时空一致性和视觉质量。

[53] Decoupled Seg Tokens Make Stronger Reasoning Video Segmenter and Grounder

Dang Jisheng,Wu Xudong,Wang Bimei,Lv Ning,Chen Jiayu,Jingwen Zhao,Yichu liu,Jizhao Liu,Juncheng Li,Teng Wang

Main category: cs.CV

TL;DR: DeSa2VA提出了一种解耦增强的提示方案,通过文本预训练和线性解耦模块,解决了现有视频分割和接地方法中动态视觉信息与静态语义纠缠的问题。

  • Motivation: 现有方法(如Sa2VA)直接将特征融合到分割模型中,导致动态视觉信息与静态语义纠缠,降低了分割准确性。
  • Method: DeSa2VA通过文本预训练生成点级提示和文本掩码,使用线性投影解耦隐藏状态,并通过动态掩码融合策略结合解耦特征。
  • Result: 实验表明,DeSa2VA在图像分割、图像问答、视频分割和视频问答等任务中达到了最先进的性能。
  • Conclusion: DeSa2VA通过解耦和动态融合策略,显著提升了分割和接地任务的性能。

[54] How Semantically Informative is an Image?: Measuring the Covariance-Weighted Norm of Contrastive Learning Embeddings

Fumiya Uchiyama,Rintaro Yanagi,Shohei Taniguchi,Shota Takashiro,Masahiro Suzuki,Hirokatsu Kataoka,Yusuke Iwasawa,Yutaka Matsuo

Main category: cs.CV

TL;DR: 该论文提出了一种基于对比学习的语义信息度量方法,用于量化图像和文本之间的信息增益,并验证了其有效性。

  • Motivation: 尽管对比学习能够建模多模态概率分布并估计语义相似性,但其是否能表示绝对语义信息尚不明确。本文旨在填补这一空白。
  • Method: 通过对比学习模型计算图像和文本的语义信息度量,重新定义信息增益概念,并验证其与嵌入范数的相关性。
  • Result: 实验结果显示,信息增益得分低的图像通常为占位图标(如“未找到图像”),且与嵌入范数有强相关性(R²=0.98-1.00)。
  • Conclusion: 该方法计算成本低,适用于公开模型,为多模态语义信息量化提供了有效工具。

[55] CP-Guard: A Unified, Probability-Agnostic, and Adaptive Framework for Malicious Agent Detection and Defense in Multi-Agent Embodied Perception Systems

Senkang Hu,Yihang Tao,Guowen Xu,Xinyuan Qian,Yiqin Deng,Xianhao Chen,Sam Tak Wu Kwong,Yuguang Fang

Main category: cs.CV

TL;DR: CP-Guard是一个用于协作感知(CP)的统一防御框架,旨在检测和消除恶意代理,通过共识机制和动态阈值调整提升系统安全性。

  • Motivation: 协作感知在多代理系统中提升感知性能,但易受恶意代理攻击,需要一种可靠的防御机制。
  • Method: 提出PASAC方法采样验证共识,定义CCLoss捕捉差异,并动态调整阈值。
  • Result: 实验证明CP-Guard能有效检测和消除恶意代理。
  • Conclusion: CP-Guard为协作感知提供了概率无关且自适应的防御方案。

[56] Neural Cellular Automata: From Cells to Pixels

Ehsan Pajouheshgar,Yitao Xu,Ali Abbasi,Alexander Mordvintsev,Wenzel Jakob,Sabine Süsstrunk

Main category: cs.CV

TL;DR: 通过结合隐式解码器和新型损失函数,解决了神经细胞自动机(NCA)在高分辨率网格上的扩展问题,实现了实时高清输出。

  • Motivation: NCA在低分辨率网格上表现良好,但在高分辨率下因计算和内存需求剧增、信息传播局限等问题受限。
  • Method: 引入共享隐式解码器,在粗网格上进行NCA演化,再通过轻量解码器生成任意分辨率图像,并设计针对高分辨率任务的损失函数。
  • Result: 实现了实时高清输出,保持了自组织和涌现特性,且计算高效并行。
  • Conclusion: 该方法成功扩展了NCA的应用范围,适用于多种任务和网格类型,显著提升了质量和效率。

[57] MOTOR: Multimodal Optimal Transport via Grounded Retrieval in Medical Visual Question Answering

Mai A. Shaaban,Tausifa Jan Saleem,Vijay Ram Papineni,Mohammad Yaqub

Main category: cs.CV

TL;DR: MOTOR是一种新颖的多模态检索和重排序方法,通过结合文本和视觉信息提升医学视觉问答(MedVQA)的准确性。

  • Motivation: 现有方法在医学视觉问答中常因检索无关上下文而降低模型推理能力,且忽视了视觉或多模态信息的重要性。
  • Method: MOTOR利用基于文本和视觉信息的检索重排序方法,结合基础标题和最优传输技术。
  • Result: MOTOR在MedVQA数据集上平均准确率提升6.45%,优于现有方法。
  • Conclusion: MOTOR通过多模态检索和重排序显著提升了医学视觉问答的准确性和临床相关性。

[58] Point Cloud Compression and Objective Quality Assessment: A Survey

Yiling Xu,Yujie Zhang,Shuting Xia,Kaifa Yang,He Huang,Ziyu Shan,Wenjie Huang,Qi Yang,Le Yang

Main category: cs.CV

TL;DR: 本文综述了3D点云压缩(PCC)和质量评估(PCQA)的最新进展,分析了手工和基于学习的算法,并提出了未来研究方向。

  • Motivation: 3D点云数据的快速增长及其在自动驾驶、机器人等领域的应用需求,推动了高效压缩和质量评估技术的发展。
  • Method: 通过分析手工和基于学习的PCC算法及PCQA指标,并在新兴数据集上对代表性方法进行基准测试。
  • Result: 提供了详细的方法比较和实用性见解,指出了当前技术的优势和局限性。
  • Conclusion: 未来研究方向包括混合压缩框架和高级特征提取策略,以支持更高效、沉浸式和智能的3D应用。

[59] MagShield: Towards Better Robustness in Sparse Inertial Motion Capture Under Magnetic Disturbances

Yunzhe Shao,Xinyu Yi,Lu Yin,Shihui Guo,Junhai Yong,Feng Xu

Main category: cs.CV

TL;DR: MagShield是一种新方法,用于解决稀疏惯性动作捕捉系统中的磁干扰问题,通过检测和校正策略提高准确性。

  • Motivation: 现有IMU系统在磁干扰环境下易产生方向估计错误,限制了实际应用。
  • Method: 采用“检测-校正”策略,通过多IMU联合分析检测磁干扰,并利用人体运动先验校正方向错误。
  • Result: 实验表明,MagShield显著提高了磁干扰下的动作捕捉准确性,且兼容多种稀疏惯性动作捕捉系统。
  • Conclusion: MagShield是一种有效的解决方案,可提升稀疏惯性动作捕捉系统在磁干扰环境中的性能。

[60] Attention to Burstiness: Low-Rank Bilinear Prompt Tuning

Yuzhu Wang,Manni Duan,Shu Kong

Main category: cs.CV

TL;DR: 论文提出了一种名为Bilinear Prompt Tuning (BPT)的方法,通过数据白化和低秩分解优化视觉提示调谐(VPT),显著提升性能和效率。

  • Motivation: VPT中图像块嵌入与Transformer自注意力模块的交互导致非高斯分布,增加了提示学习的难度。
  • Method: 提出数据白化和低秩分解方法,通过白化矩阵和双线性模型优化提示学习。
  • Result: BPT方法在CUB数据集上提升超过25个准确率点,同时减少参数和计算开销。
  • Conclusion: BPT不仅优于现有VPT方法,还提高了效率和性能。

[61] Towards Explainable Bilingual Multimodal Misinformation Detection and Localization

Yiwei He,Xiangtai Li,Zhenglin Huang,Yi Dong,Hao Fei,Jiangning Zhang,Baoyuan Wu,Guangliang Cheng

Main category: cs.CV

TL;DR: BiMi是一个双语多模态框架,用于检测新闻媒体中的虚假信息,通过区域级定位、跨模态和跨语言一致性检测以及自然语言解释来提高准确性。

  • Motivation: 多模态内容的真实性增加使得虚假信息更难以检测,尤其是在双语字幕新闻中,局部图像编辑和跨语言不一致性共同扭曲了信息。
  • Method: BiMi框架结合区域级定位、跨模态和跨语言一致性检测,并引入在线检索模块和GRPO优化解释质量。
  • Result: BiMi在分类准确率上提升8.9,定位准确率提升15.9,解释BERTScore提升2.5,显著优于基线方法。
  • Conclusion: BiMi在现实多语言虚假信息检测中表现出色,推动了该领域的最新进展。

[62] Utilizing a Novel Deep Learning Method for Scene Categorization in Remote Sensing Data

Ghufran A. Omran,Wassan Saad Abduljabbar Hayale,Ahmad AbdulQadir AlRababah,Israa Ibraheem Al-Barazanchi,Ravi Sekhar,Pritesh Shah,Sushma Parihar,Harshavardhan Reddy Penubadi

Main category: cs.CV

TL;DR: 本文提出了一种名为CO-BRNN的新方法,用于遥感数据的场景分类,并在多个现有技术上取得了最高准确率。

  • Motivation: 遥感图像场景分类在多个领域有广泛应用,但传统深度学习方法需要大量数据且难以应对噪声。
  • Method: 采用Cuttlefish优化的双向循环神经网络(CO-BRNN),并与多种现有技术进行比较。
  • Result: CO-BRNN达到97%的最高准确率,优于其他方法(如LSTM-CRF的90%)。
  • Conclusion: 研究强调了物理验证的重要性,以确保卫星数据的有效性。

[63] YM-WML: A new Yolo-based segmentation Model with Weighted Multi-class Loss for medical imaging

Haniyeh Nikkhah,Jafar Tanha,Mahdi Zarrin,SeyedEhsan Roshan,Amin Kazempour

Main category: cs.CV

TL;DR: YM-WML模型通过结合强大的特征提取、多尺度特征聚合和注意力机制,提出了一种新的心脏图像分割方法,并引入WME损失函数解决类别不平衡问题,在ACDC数据集上表现优异。

  • Motivation: 医学图像分割面临类别不平衡和复杂结构的挑战,需要更精确的解决方案。
  • Method: YM-WML模型结合了强大的特征提取骨干、YOLOv11颈部用于多尺度特征聚合,以及基于注意力的分割头,并引入WME损失函数。
  • Result: 在ACDC数据集上,Dice相似系数达到91.02,优于现有方法。
  • Conclusion: YM-WML在心脏分割任务中表现出稳定的训练、精确的分割和强泛化能力,成为新的基准。

[64] Peccavi: Visual Paraphrase Attack Safe and Distortion Free Image Watermarking Technique for AI-Generated Images

Shreyas Dixit,Ashhar Aziz,Shashwat Bajpai,Vasu Sharma,Aman Chadha,Vinija Jain,Amitava Das

Main category: cs.CV

TL;DR: 论文提出PECCAVI,一种抗视觉转述攻击的无失真图像水印技术,通过在多通道频域嵌入水印并利用噪声抛光增强耐久性。

  • Motivation: 随着生成式AI的普及,90%的在线内容可能由AI生成,引发政治虚假信息担忧。现有水印技术易被篡改或绕过,尤其是视觉转述攻击。
  • Method: PECCAVI将水印嵌入非融化点(NMPs),采用多通道频域水印技术,并引入噪声抛光防止逆向工程。
  • Result: PECCAVI能有效抵抗视觉转述攻击,保持图像无失真,且模型无关。
  • Conclusion: PECCAVI为AI生成内容的水印提供了更安全的解决方案,相关资源将开源。

[65] ActAlign: Zero-Shot Fine-Grained Video Classification via Language-Guided Sequence Alignment

Amir Aghdam,Vincent Tao Hu

Main category: cs.CV

TL;DR: ActAlign是一种零样本视频分类框架,通过语言模型生成子动作序列,并与视频帧对齐,无需视频文本监督或微调,在ActionAtlas基准上表现优异。

  • Motivation: 解决零样本细粒度视频分类问题,现有对比视觉语言模型无法捕捉关键的时间结构。
  • Method: 使用大型语言模型生成有序子动作序列,通过动态时间规整(DTW)在共享嵌入空间中对齐视频帧。
  • Result: 在ActionAtlas基准上达到30.5%准确率,优于十亿参数视频语言模型,且参数量减少8倍。
  • Conclusion: 结合结构化语言先验和经典对齐技术,可扩展且通用地释放视觉语言模型在细粒度视频理解中的潜力。

[66] Probabilistic Prototype Calibration of Vision-Language Models for Generalized Few-shot Semantic Segmentation

Jie Liu,Jiayi Shen,Pan Zhou,Jan-Jakob Sonke,Efstratios Gavves

Main category: cs.CV

TL;DR: FewCLIP提出了一种概率原型校准框架,通过多模态原型学习改进广义少样本语义分割(GFSS)的性能。

  • Motivation: 现有基于原型的方法具有确定性,难以适应多样样本,尤其是标注稀缺的新类别。
  • Method: FewCLIP引入原型校准机制和分布正则化,优化多模态原型学习。
  • Result: 在PASCAL-5i和COCO-20i数据集上显著优于现有方法。
  • Conclusion: FewCLIP通过概率原型校准提高了GFSS的适应性和泛化能力。

[67] Revisiting CroPA: A Reproducibility Study and Enhancements for Cross-Prompt Adversarial Transferability in Vision-Language Models

Atharv Mittal,Agam Pandey,Amritanshu Tiwari,Sukrit Jindal,Swadesh Swain

Main category: cs.CV

TL;DR: 本文研究了视觉语言模型(VLMs)对抗攻击的跨提示转移性,验证了CroPA方法的优越性,并提出改进策略以提高攻击成功率。

  • Motivation: 大型视觉语言模型(VLMs)在计算机视觉任务中表现优异,但其对抗攻击的脆弱性尚未充分研究,尤其是在多模态场景下。
  • Method: 通过验证CroPA方法,提出改进策略:新颖初始化方法、跨图像扰动学习和针对视觉编码器注意机制的损失函数。
  • Result: 改进后的方法在Flamingo、BLIP-2等VLMs上验证了CroPA的优越性,并显著提升了攻击成功率。
  • Conclusion: 研究强调了VLMs对抗漏洞的重要性,为生成可转移对抗样本提供了更鲁棒的框架。

[68] A Novel Frame Identification and Synchronization Technique for Smartphone Visible Light Communication Systems Based on Convolutional Neural Networks

Vaigai Nayaki Yokar,Hoa Le-Minh,Xicong Li,Wai Lok Woo,Luis Nero Alves,Stanislav Zvanovec,Tran The Son,Zabih Ghassemlooy

Main category: cs.CV

TL;DR: 提出了一种基于CNN的轻量级监督学习方法,用于屏幕到相机(S2C)可见光通信系统中的帧识别与同步,实验显示准确率达98.74%。

  • Motivation: 解决S2C通信中因模糊、裁剪和旋转图像等实时挑战导致的性能问题。
  • Method: 使用Python和TensorFlow Keras框架构建CNN模型,通过三个实时实验训练,数据集针对S2C通信问题设计。
  • Result: 模型在实验中达到98.74%的准确率,显著提升了系统性能。
  • Conclusion: 该方法有效解决了S2C VLC系统中的帧识别与同步问题,具有高准确性和实用性。

[69] MusiXQA: Advancing Visual Music Understanding in Multimodal Large Language Models

Jian Chen,Wenye Ma,Penghang Liu,Wei Wang,Tengwei Song,Ming Li,Chenguang Wang,Ruiyi Zhang,Changyou Chen

Main category: cs.CV

TL;DR: 论文介绍了MusiXQA数据集,用于评估和改进多模态大语言模型(MLLMs)在乐谱理解方面的能力,并提出了Phi-3-MusiX模型,性能优于GPT方法。

  • Motivation: 当前MLLMs在乐谱理解方面的能力尚未充分探索,需要填补这一空白。
  • Method: 使用MusiXTeX生成高质量合成乐谱,构建MusiXQA数据集,并开发Phi-3-MusiX模型进行微调。
  • Result: 实验表明当前MLLMs在乐谱理解方面存在显著局限性,Phi-3-MusiX模型性能优于GPT方法。
  • Conclusion: MusiXQA数据集和Phi-3-MusiX模型为未来MLLMs在乐谱理解领域的发展奠定了基础。

[70] VisionScores -- A system-segmented image score dataset for deep learning tasks

Alejandro Romero Amezcua,Mariano José Juan Rivera Meraz

Main category: cs.CV

TL;DR: VisionScores是首个系统分割的图像乐谱数据集,专注于双手钢琴曲目,提供结构丰富、信息密集的图像,适用于机器和深度学习任务。

  • Motivation: 为机器和深度学习任务提供结构丰富且信息密集的图像乐谱数据,同时考虑图形相似性和作曲模式。
  • Method: 数据集包含24.8k样本,分为两种场景:同一作曲类型不同作者(14k样本)和同一作者不同作曲类型(10.8k样本)。所有样本为128×512像素的灰度图像。
  • Result: 提供了格式化样本、系统顺序、乐谱元数据、未分割的全页乐谱和预格式化图像。
  • Conclusion: VisionScores为乐谱分析任务提供了全面的数据集支持。

[71] Inpainting is All You Need: A Diffusion-based Augmentation Method for Semi-supervised Medical Image Segmentation

Xinrong Hu,Yiyu Shi

Main category: cs.CV

TL;DR: AugPaint是一种数据增强框架,利用潜在扩散模型生成高质量的图像-标签对,显著提升医学图像分割性能。

  • Motivation: 医学数据集的像素级标注成本高且耗时,如何在标注数据稀缺的情况下提升分割性能是关键挑战。
  • Method: AugPaint通过潜在扩散模型进行图像修复,无需重新训练,生成与标签掩码匹配的合成图像。
  • Result: 在四个公共医学图像分割数据集上,AugPaint优于现有方法,显著提升分割性能。
  • Conclusion: AugPaint为标注稀缺的医学图像分割提供了高效的数据增强解决方案。

[72] From Coarse to Fine: Learnable Discrete Wavelet Transforms for Efficient 3D Gaussian Splatting

Hung Nguyen,An Le,Runfa Li,Truong Nguyen

Main category: cs.CV

TL;DR: AutoOpti3DGS通过小波变换控制高斯增殖,优化3D高斯泼溅技术的内存占用,同时保持视觉质量。

  • Motivation: 3D高斯泼溅技术在快速训练和渲染时,高斯基元数量不断增加,导致内存和带宽压力。
  • Method: 使用可学习的离散小波变换序列,固定低通滤波器,学习高通滤波器,并通过正交性损失逐步激活高频细节。
  • Result: AutoOpti3DGS仅需一个超参数,能无缝集成现有框架,生成更稀疏的场景表示。
  • Conclusion: 该方法有效减少冗余高斯基元,适用于内存受限的硬件。

[73] Ovis-U1 Technical Report

Guo-Hua Wang,Shanshan Zhao,Xinjie Zhang,Liangfu Cao,Pengxin Zhan,Lunhao Duan,Shiyin Lu,Minghao Fu,Xiaohao Chen,Jianshan Zhao,Yang Li,Qing-Guo Chen

Main category: cs.CV

TL;DR: Ovis-U1是一个30亿参数的多模态统一模型,集成了多模态理解、文本到图像生成和图像编辑功能,性能优于当前先进模型。

  • Motivation: 旨在通过统一训练方法提升多模态任务的表现,整合理解和生成任务。
  • Method: 采用扩散式视觉解码器和双向令牌细化器,基于语言模型进行统一训练。
  • Result: 在OpenCompass等多模态基准测试中表现优异,生成和编辑任务得分领先。
  • Conclusion: Ovis-U1在多模态任务中实现了突破,为后续统一模型系列奠定了基础。

[74] Empowering Small VLMs to Think with Dynamic Memorization and Exploration

Jiazhen Liu,Yuchuan Deng,Long Chen

Main category: cs.CV

TL;DR: 论文提出DyME训练范式,动态选择记忆(SFT)和探索(RLVR)模式,以提升小规模视觉语言模型(SVLMs)的可靠思维能力。

  • Motivation: 现有训练范式(如SFT和RLVR)对SVLMs能力要求过高,导致伪思维痕迹和优势崩溃,影响性能和可靠性。
  • Method: DyME动态选择记忆(SFT)或探索(RLVR)模式,确保每次优化更新都促进平衡。
  • Result: 实验表明DyME能有效平衡并显著提升SVLMs性能。
  • Conclusion: DyME是提升SVLMs可靠思维能力的实用有效解决方案。

[75] CoreMark: Toward Robust and Universal Text Watermarking Technique

Jiale Meng,Yiming Li,Zheming Lu,Zewei He,Hao Luo,Tianwei Zhang

Main category: cs.CV

TL;DR: 本文提出了一种名为CORE的新嵌入范式,并基于此构建了文本水印框架CoreMark,通过动态提取和调整COREs的厚度嵌入数据,实现了鲁棒性、通用性和不可感知性的平衡。

  • Motivation: 现有文本水印方案在鲁棒性、通用性和不可感知性方面仍面临挑战,需要一种新的嵌入范式来解决这些问题。
  • Method: 提出CORE嵌入范式,动态提取COREs并根据其长度选择字符,通过调整CORE厚度嵌入数据,同时引入嵌入强度调制器以适应不同字体大小。
  • Result: CoreMark在多语言和字体中表现出色,显著提升了抗截图、打印扫描和打印相机攻击的能力,同时保持不可感知性。
  • Conclusion: CoreMark通过创新的CORE嵌入范式,成功解决了文本水印的关键挑战,为实际应用提供了高效解决方案。

[76] Unsupervised 3D Braided Hair Reconstruction from a Single-View Image

Jing Gao

Main category: cs.CV

TL;DR: 提出了一种无监督的单视图3D编发重建方法,优于现有技术。

  • Motivation: 现有方法难以捕捉编发的精细几何结构,尤其是复杂交织拓扑。
  • Method: 利用受编发理论启发的合成模型,捕捉编发的交织结构。
  • Result: 实验表明,该方法在准确性、真实性和效率上优于现有方法。
  • Conclusion: 支持数字人类中更具表现力的发型建模。

[77] Learning Counterfactually Decoupled Attention for Open-World Model Attribution

Yu Zheng,Boyang Gong,Fanye Kong,Yueqi Duan,Bingyao Yu,Wenzhao Zheng,Lei Chen,Jiwen Lu,Jie Zhou

Main category: cs.CV

TL;DR: 提出了一种反事实解耦注意力学习方法(CDAL),用于开放世界模型归因,通过建模注意力视觉痕迹与源模型归因的因果关系,解耦混淆源偏差,提升对未见攻击的泛化能力。

  • Motivation: 现有方法依赖手工设计的区域划分或特征空间,易受虚假统计相关性干扰,难以应对开放世界中的新型攻击。
  • Method: CDAL通过反事实解耦,分离模型特异性伪影与混淆源偏差,利用因果效应量化注意力图质量,最大化泛化能力。
  • Result: 在开放世界模型归因基准测试中,CDAL以最小计算开销显著提升现有模型性能,尤其对未见攻击表现优异。
  • Conclusion: CDAL通过因果建模和解耦方法,有效提升开放世界模型归因的泛化性和鲁棒性。

[78] Dynamic Contrastive Learning for Hierarchical Retrieval: A Case Study of Distance-Aware Cross-View Geo-Localization

Suofei Zhang,Xinxin Wang,Xiaofu Wu,Quan Zhou,Haifeng Hu

Main category: cs.CV

TL;DR: 论文提出了一种动态对比学习框架(DyCL),用于解决距离感知的跨视角地理定位问题(DACVGL),并通过构建首个多分辨率距离标注基准(DA-Campus)验证其有效性。

  • Motivation: 现有方法主要关注跨域图像匹配的准确性,而忽略了目标周围上下文信息的全面捕捉和定位误差的最小化。
  • Method: 将DACVGL问题建模为跨域分层检索问题,并提出DyCL框架,通过对比学习逐步对齐特征表示。
  • Result: 实验表明,DyCL与现有多尺度度量学习方法高度互补,显著提升了分层检索性能和跨视角地理定位的总体准确性。
  • Conclusion: DyCL为解决复杂空间关系的地理定位问题提供了有效方案,代码和基准已开源。

[79] Frequency-enhanced Multi-granularity Context Network for Efficient Vertebrae Segmentation

Jian Shi,Tianqi You,Pingping Zhang,Hongli Zhang,Rui Xu,Haojie Li

Main category: cs.CV

TL;DR: 提出了一种频率增强的多粒度上下文网络(FMC-Net),用于提高3D CT和MRI图像中椎骨分割的准确性,通过小波变换和多粒度状态空间模型处理模糊图像和区分相似椎骨。

  • Motivation: 当前成像技术和脊柱结构的复杂性导致现有方法难以减少图像模糊的影响并区分相似椎骨,因此需要一种更准确的分割方法。
  • Method: 使用小波变换进行无损下采样,分别处理高频和低频成分。高频部分通过高频特征细化(HFR)增强关键特征,低频部分通过多粒度状态空间模型(MG-SSM)提取不同感受野的特征。
  • Result: 实验表明,该方法在CT和MRI椎骨分割数据集上优于现有技术。
  • Conclusion: FMC-Net通过频率增强和多粒度上下文处理,显著提高了椎骨分割的准确性,代码已开源。

[80] Where, What, Why: Towards Explainable Driver Attention Prediction

Yuchen Zhou,Jiayu Tang,Xiaoyan Xiao,Yueyao Lin,Linkai Liu,Zipeng Guo,Hao Fei,Xiaobo Xia,Chao Gou

Main category: cs.CV

TL;DR: 论文提出了一种可解释的驾驶员注意力预测任务范式(W3DA数据集和LLada框架),结合空间注意力区域预测、语义解析和认知推理,以深入理解注意力机制。

  • Motivation: 现有方法仅通过生成空间热图预测驾驶员注视点,缺乏对注意力分配背后认知动机的理解,限制了注意力机制的深入研究。
  • Method: 提出W3DA数据集(包含详细语义和因果注释)和LLada框架(结合像素建模、语义解析和认知推理的端到端架构)。
  • Result: LLada在多个数据集和驾驶条件下表现出强大的泛化能力。
  • Conclusion: 该研究为深入理解驾驶员注意力机制迈出关键一步,对自动驾驶、智能驾驶员培训和HCI有重要意义。

[81] DC-TTA: Divide-and-Conquer Framework for Test-Time Adaptation of Interactive Segmentation

Jihun Kim,Hoyong Kwon,Hyeokjun Kweon,Wooseong Jeong,Kuk-Jin Yoon

Main category: cs.CV

TL;DR: DC-TTA是一种新颖的测试时适应框架,通过用户交互监督改进SAM在复杂场景中的表现,显著提升了分割精度。

  • Motivation: 解决SAM在专业领域或复杂场景(如伪装或多部分对象)中的表现不足问题。
  • Method: 提出DC-TTA框架,将用户点击划分为更一致的子集,每个子集通过独立模型进行TTA,最后合并模型。
  • Result: 实验表明,DC-TTA显著优于SAM的零样本结果和传统TTA方法,减少了交互次数并提高了准确性。
  • Conclusion: DC-TTA通过分而治之策略有效提升了SAM在复杂任务中的表现。

[82] Computer-Aided Multi-Stroke Character Simplification by Stroke Removal

Ryo Ishiyama,Shinnosuke Matsuo,Seiichi Uchida

Main category: cs.CV

TL;DR: 提出了一种通过选择性移除笔画来简化多笔画汉字的方法,旨在降低学习难度并提高字体设计效率。

  • Motivation: 多笔画汉字对非母语学习者构成挑战,简化字符可降低学习门槛并优化字体设计。
  • Method: 使用高精度字符识别模型评估可读性,选择性移除对可读性影响最小的笔画。
  • Result: 实验表明,即使移除多笔画,许多字符仍可区分,支持进一步简化策略的可行性。
  • Conclusion: 该方法为多笔画汉字的系统性简化提供了潜在方向。

[83] Hierarchical Corpus-View-Category Refinement for Carotid Plaque Risk Grading in Ultrasound

Zhiyuan Zhu,Jian Wang,Yong Jiang,Tong Han,Yuhao Huang,Ang Zhang,Kaiwen Yang,Mingyuan Luo,Zhe Liu,Yaofei Duan,Dong Ni,Tianhong Tang,Xin Yang

Main category: cs.CV

TL;DR: 提出了一种新的多级细化框架CVC-RF,用于颈动脉斑块分级(CPG),通过全局建模和多尺度特征融合,显著提升了性能。

  • Motivation: 现有深度学习方法在多视图分类中忽略了表示学习和类别特征的差异,导致CPG任务表现不佳。
  • Method: CVC-RF框架从语料库、视图和类别三个层次处理信息,包括中心记忆对比损失、级联下采样注意力模块和无参数专家混合加权策略。
  • Result: 实验表明CVC-RF在CPG任务中实现了最先进的性能。
  • Conclusion: CVC-RF通过多级细化有效建模全局特征,为CPG任务提供了高效解决方案。

[84] MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings

Haonan Chen,Hong Liu,Yuping Luo,Liang Wang,Nan Yang,Furu Wei,Zhicheng Dou

Main category: cs.CV

TL;DR: MoCa是一个两阶段框架,将预训练的因果视觉语言模型(VLM)转化为高效的双向多模态嵌入模型,解决了当前方法的三个关键限制。

  • Motivation: 当前多模态嵌入模型存在因果注意力不适用于嵌入任务、依赖高质量标注数据导致可扩展性差、训练目标和数据多样性不足等问题。
  • Method: MoCa包括两个阶段:1)模态感知的持续预训练,通过联合重建目标增强双向上下文感知;2)异构对比微调,利用多样化多模态数据提升泛化和对齐能力。
  • Result: MoCa在MMEB和ViDoRe-v2基准测试中表现优异,达到新SOTA,并在模型规模和训练数据上展现出强可扩展性。
  • Conclusion: MoCa通过双向注意力、大规模无标签数据和多样化训练目标,显著提升了多模态嵌入模型的性能和鲁棒性。

[85] Enhancing Spatial Reasoning in Multimodal Large Language Models through Reasoning-based Segmentation

Zhenhua Ning,Zhuotao Tian,Shaoshuai Shi,Guangming Lu,Daojing He,Wenjie Pei,Li Jiang

Main category: cs.CV

TL;DR: 提出了一种基于推理的分割框架R²S和数据集3D ReasonSeg,以增强3D点云感知的空间推理能力。

  • Motivation: 现有方法在处理需要精确空间推理的复杂指令时存在挑战,尽管3D点云数据提供了详细的空间线索。
  • Method: R²S框架模拟人类认知过程,将空间推理分解为两个阶段:先识别相关元素,再基于视觉先验处理指令。
  • Result: 实验表明R²S和3D ReasonSeg显著提升了3D点云感知的空间推理能力。
  • Conclusion: R²S和3D ReasonSeg为未来研究提供了新的基线和基准。

[86] Dare to Plagiarize? Plagiarized Painting Recognition and Retrieval

Sophie Zhou,Shu Kong

Main category: cs.CV

TL;DR: 论文提出了一种基于视觉基础模型DINOv2的艺术抄袭检测方法,通过检索相似真实艺术品来识别并解释抄袭。基线方法准确率高但检索精度低,微调后检索性能提升但准确率下降。

  • Motivation: 艺术抄袭检测对保护艺术家版权至关重要,但现有方法在法医分析中仍具挑战性。
  • Method: 构建数据集并使用DINOv2提取特征,通过相似度阈值分类抄袭;进一步微调模型以提升检索性能。
  • Result: 基线方法准确率97.2%,检索精度29.0% AP;微调后检索性能提升12% AP,但准确率降至92.7%。
  • Conclusion: 研究揭示了准确率与检索性能的权衡,并提出了未来研究方向。

[87] RoboScape: Physics-informed Embodied World Model

Yu Shang,Xin Zhang,Yinzhou Tang,Lei Jin,Chen Gao,Wei Wu,Yong Li

Main category: cs.CV

TL;DR: RoboScape是一个统一的世界模型,结合了RGB视频生成和物理知识,通过时间深度预测和关键点动态学习提升视频的物理一致性。

  • Motivation: 当前的世界模型在物理感知方面存在局限,尤其是在3D几何和运动动力学建模上,导致接触丰富的机器人场景视频生成不真实。
  • Method: 提出了RoboScape模型,通过时间深度预测和关键点动态学习两个任务,联合训练RGB视频生成和物理知识。
  • Result: 实验表明,RoboScape生成的视频在视觉保真度和物理合理性上表现优异,并验证了其在机器人策略训练和评估中的实用性。
  • Conclusion: RoboScape为构建高效的物理感知世界模型提供了新思路,推动了具身智能研究的发展。

[88] VisualPrompter: Prompt Optimization with Visual Feedback for Text-to-Image Synthesis

Shiyu Wu,Mingzhen Sun,Weining Wang,Yequan Wang,Jing Liu

Main category: cs.CV

TL;DR: VisualPrompter是一个无需训练的新提示工程框架,通过自反模块和细粒度优化机制提升文本到图像生成中的语义对齐。

  • Motivation: 解决现有提示工程方法在生成图像时忽视语义对齐的问题,导致图像内容与用户描述不符。
  • Method: 利用自反模块识别缺失概念,并通过细粒度优化机制修正提示。
  • Result: 在多个文本-图像对齐评估基准上达到最新最优性能,且具有即插即用设计。
  • Conclusion: VisualPrompter有效提升了生成图像与用户描述的语义一致性,适用于多种生成模型。

[89] AlignCVC: Aligning Cross-View Consistency for Single-Image-to-3D Generation

Xinyue Liang,Zhiyuan Ma,Lingchen Sun,Yanjun Guo,Lei Zhang

Main category: cs.CV

TL;DR: AlignCVC提出了一种通过分布对齐而非严格回归损失的单图像到3D生成新框架,显著提升了跨视图一致性(CVC)和生成效率。

  • Motivation: 现有方法因中间多视图图像缺乏跨视图一致性(CVC)而影响3D重建性能,且传统反馈方法受限于噪声和不稳定的重建输出。
  • Method: AlignCVC通过软硬对齐策略,分别优化生成和重建模型的多视图分布,使其对齐真实多视图分布。
  • Result: 实验表明AlignCVC显著提升了生成质量和效率,推理步骤可减少至4步。
  • Conclusion: AlignCVC作为一种即插即用范式,有效整合了多视图生成与3D重建模型,为单图像到3D生成提供了新思路。

[90] MEMFOF: High-Resolution Training for Memory-Efficient Multi-Frame Optical Flow Estimation

Vladislav Bargatin,Egor Chistov,Alexander Yakovenko,Dmitriy Vatolin

Main category: cs.CV

TL;DR: MEMFOF是一种内存高效的多帧光流估计方法,显著降低了GPU内存消耗,同时在高分辨率输入下保持高精度。

  • Motivation: 当前光流估计方法在追求高精度时导致GPU内存消耗剧增,尤其是在高分辨率(如FullHD)输入下。MEMFOF旨在解决这一问题。
  • Method: 通过优化RAFT-like架构的设计选择,包括减少相关体积和高分辨率训练协议,结合多帧估计,实现内存高效的光流估计。
  • Result: MEMFOF在多个基准测试中表现优异,内存消耗显著降低(运行时2.09 GB,训练时28.5 GB),并在Spring、Sintel和KITTI-2015等基准上取得领先成绩。
  • Conclusion: MEMFOF在保持高精度的同时大幅降低内存需求,为高分辨率光流估计提供了高效且鲁棒的解决方案。

[91] Dynamic View Synthesis from Small Camera Motion Videos

Huiqiang Sun,Xingyi Li,Juewen Peng,Liao Shen,Zhiguo Cao,Ke Xian,Guosheng Lin

Main category: cs.CV

TL;DR: 论文提出了一种新的分布深度正则化(DDR)方法,解决了小相机运动下动态3D场景新视角合成的几何表示和相机参数估计问题。

  • Motivation: 动态3D场景的新视角合成在相机运动范围有限或静止时,现有方法难以准确表示场景几何和估计相机参数。
  • Method: 提出DDR方法,通过Gumbel-softmax采样点并约束体积密度,同时引入相机参数学习。
  • Result: 实验表明,该方法在小相机运动输入下表现优于现有方法。
  • Conclusion: DDR方法有效解决了小相机运动下的场景表示问题,提升了合成效果。

[92] Self-Supervised Contrastive Learning for Multi-Label Images

Jiale Chen

Main category: cs.CV

TL;DR: 论文提出了一种针对多标签图像的自监督学习方法,通过块级增强和图像感知对比损失,减少了预训练开销并提升了语义一致性。

  • Motivation: 主流自监督学习方法依赖单标签高数据量数据集(如ImageNet),忽略了多标签图像的丰富语义信息和广泛适用性。
  • Method: 提出块级增强模块提取多标签图像的潜在正视图对,并设计图像感知对比损失以建立视图间的联系。
  • Result: 在样本质量和数量有限的情况下,通过线性微调和迁移学习验证了方法的竞争力。
  • Conclusion: 该方法在多标签图像上表现出色,为自监督学习提供了更高效的解决方案。

[93] STD-GS: Exploring Frame-Event Interaction for SpatioTemporal-Disentangled Gaussian Splatting to Reconstruct High-Dynamic Scene

Hanyu Zhou,Haonan Wang,Haoyue Liu,Yuxing Duan,Luxin Yan,Gim Hee Lee

Main category: cs.CV

TL;DR: 提出了一种时空解耦的高斯泼溅框架,用于高动态场景重建,通过事件相机补偿帧相机的不足,区分背景与对象的时空特征。

  • Motivation: 现有方法采用统一表示模型(如高斯)难以处理动态场景中潜在的时空特征不连续性和背景与对象的异质性。
  • Method: 引入事件相机,提出时空解耦的高斯泼溅框架,通过聚类区分背景与对象的时空特征,并利用高斯表示与事件数据的一致性指导对象高斯解耦。
  • Result: 实验验证了所提方法的优越性,能够提升背景与对象的时空区分能力,实现时间连续的动态场景渲染。
  • Conclusion: 该方法通过时空解耦和事件相机补偿,有效解决了高动态场景重建中的时空特征不匹配问题。

[94] Trident: Detecting Face Forgeries with Adversarial Triplet Learning

Mustafa Hakan Kara,Aysegul Dundar,Uğur Güdükbay

Main category: cs.CV

TL;DR: 提出了一种名为Trident的人脸伪造检测框架,通过三元组学习和Siamese网络架构增强对不同伪造方法的适应性。

  • Motivation: 随着深度神经网络生成的人脸伪造技术日益复杂,检测数字媒体中的人脸操纵变得更具挑战性,强调了维护数字媒体完整性和打击视觉虚假信息的重要性。
  • Method: Trident采用三元组学习和Siamese网络架构,结合领域对抗训练和伪造判别器,以捕捉伪造样本的细微差异并提高对未见伪造方法的鲁棒性。
  • Result: 在多个基准测试和消融研究中,Trident表现出色,证明了其有效性。
  • Conclusion: Trident框架通过三元组学习和对抗训练,显著提升了人脸伪造检测的泛化能力和鲁棒性。

[95] DEL: Dense Event Localization for Multi-modal Audio-Visual Understanding

Mona Ahmadian,Amir Shirian,Frank Guerin,Andrew Gilbert

Main category: cs.CV

TL;DR: DEL框架通过多模态交互建模,在未修剪长视频中实现密集语义动作定位,性能优于现有方法。

  • Motivation: 现实世界视频中的重叠事件和复杂时间依赖关系使多模态交互建模具有挑战性,需要更精确的动作检测和分类方法。
  • Method: DEL采用两个关键模块:音频和视觉特征对齐(利用掩码自注意力增强模态内一致性)和多模态交互细化模块(建模跨模态多尺度依赖关系)。
  • Result: 在多个TAL数据集(UnAV-100、THUMOS14等)上取得SOTA性能,平均mAP提升显著(最高+3.3%)。
  • Conclusion: DEL框架有效解决了多模态动作定位问题,性能显著优于现有方法。

[96] Transformer-Based Person Search with High-Frequency Augmentation and Multi-Wave Mixing

Qilin Shu,Qixian Zhang,Qi Zhang,Hongyun Zhang,Duoqian Miao,Cairong Zhao

Main category: cs.CV

TL;DR: 提出了一种名为HAMW的新方法,通过高频增强和多波混合技术改进基于transformer的人物搜索模型,解决了自注意力机制抑制高频特征和计算成本高的问题。

  • Motivation: 当前transformer模型在人物搜索任务中存在自注意力机制抑制高频特征和计算成本高的问题,影响了性能。
  • Method: 提出HAMW方法,采用三阶段框架优化检测和重识别性能,通过高频增强输入和多级Haar小波融合策略替代自注意力层。
  • Result: 在CUHK-SYSU和PRW数据集上实现了最先进的性能。
  • Conclusion: HAMW方法有效提升了特征提取能力,降低了计算复杂度,解决了高频特征抑制问题。

[97] BridgeShape: Latent Diffusion Schrödinger Bridge for 3D Shape Completion

Dequan Kong,Zhe Zhu,Honghua Chen,Mingqiang Wei

Main category: cs.CV

TL;DR: BridgeShape提出了一种基于潜在扩散Schrödinger桥的3D形状补全框架,通过最优传输问题和深度增强的VQ-VAE,解决了现有方法在全局路径建模和分辨率限制上的不足。

  • Motivation: 现有基于扩散的3D形状补全方法未能显式建模最优全局传输路径,且受限于体素空间的分辨率约束,导致补全效果不佳。
  • Method: BridgeShape将形状补全建模为最优传输问题,并引入深度增强的VQ-VAE,在紧凑的潜在空间中实现高保真补全。
  • Result: BridgeShape在大规模3D形状补全基准测试中达到最先进性能,支持更高分辨率和未见过的物体类别。
  • Conclusion: BridgeShape通过显式建模全局传输路径和潜在空间操作,显著提升了3D形状补全的效率和保真度。

[98] TVG-SLAM: Robust Gaussian Splatting SLAM with Tri-view Geometric Constraints

Zhen Tan,Xieyuanli Chen,Lei Feng,Yangbing Ge,Shuaifeng Zhi,Jiaxiong Liu,Dewen Hu

Main category: cs.CV

TL;DR: TVG-SLAM是一种基于3D高斯泼溅的RGB-only SLAM系统,通过三视图几何范式提升跟踪和建图的鲁棒性,适用于复杂户外环境。

  • Motivation: 现有RGB-only SLAM系统依赖光度渲染损失,在户外无边界环境中因视角和光照变化导致鲁棒性不足。
  • Method: 提出三视图匹配模块和混合几何约束,结合光度损失;引入概率初始化策略和动态衰减机制。
  • Result: 在多个户外数据集上表现优异,显著降低轨迹误差(ATE减少69.0%),并实现高质量渲染。
  • Conclusion: TVG-SLAM通过几何约束和动态机制显著提升了RGB-only SLAM的鲁棒性和渲染质量。

[99] A Hierarchical Slice Attention Network for Appendicitis Classification in 3D CT Scans

Chia-Wen Huang,Haw Hwai,Chien-Chang Lee,Pei-Yuan Wu

Main category: cs.CV

TL;DR: 提出一种基于3D CT扫描和切片注意力机制的深度学习模型,用于阑尾炎分类,并通过预训练的2D模型区分简单和复杂阑尾炎,显著提升诊断性能。

  • Motivation: 阑尾炎的及时准确诊断至关重要,但CT扫描数量增加可能导致放射科医生负担过重,引发延误。
  • Method: 结合3D CT扫描和切片注意力机制,利用外部2D数据集增强小病灶检测;引入分层分类框架,使用预训练2D模型区分简单和复杂阑尾炎。
  • Result: 阑尾炎分类的AUC提升3%,复杂阑尾炎分类的AUC提升5.9%。
  • Conclusion: 该方法比现有方案更高效可靠,为阑尾炎诊断提供了更好的解决方案。

[100] UrbanLLaVA: A Multi-modal Large Language Model for Urban Intelligence with Spatial Reasoning and Understanding

Jie Feng,Shengyuan Wang,Tianhui Liu,Yanxin Xi,Yong Li

Main category: cs.CV

TL;DR: 论文提出了一种名为UrbanLLaVA的多模态大语言模型,旨在统一处理城市研究中的多模态数据,并在多种城市任务中表现优于现有模型。

  • Motivation: 当前城市研究方法通常针对特定数据类型,缺乏统一框架处理多模态数据,多模态大语言模型(MLLMs)的成功为解决这一问题提供了机会。
  • Method: 通过构建多样化的城市指令数据集,并提出多阶段训练框架,将空间推理增强与领域知识学习解耦,提升模型性能。
  • Result: 实验结果表明,UrbanLLaVA在单模态和跨模态任务中均优于开源和专有MLLMs,并展现出跨城市的强泛化能力。
  • Conclusion: UrbanLLaVA为城市研究提供了一个高效的多模态数据处理框架,代码和数据已开源。

[101] High-quality Pseudo-labeling for Point Cloud Segmentation with Scene-level Annotation

Lunhao Duan,Shanshan Zhao,Xingxing Weng,Jing Zhang,Gui-Song Xia

Main category: cs.CV

TL;DR: 本文提出了一种基于场景级标注的室内点云语义分割方法,通过多模态信息和区域-点语义一致性生成高质量伪标签,显著提升了分割性能。

  • Motivation: 当前方法依赖稀疏点级标签生成伪标签,但在场景级标注下,生成准确的伪标签具有挑战性,影响了分割性能。
  • Method: 提出跨模态特征引导模块和区域-点语义一致性模块,利用2D-3D对应关系和区域投票策略优化伪标签生成。
  • Result: 在ScanNet v2和S3DIS数据集上显著优于现有方法,消融实验验证了各模块的有效性。
  • Conclusion: 该方法通过多模态和一致性模块有效解决了场景级标注下的伪标签生成问题,提升了分割精度。

[102] VolumetricSMPL: A Neural Volumetric Body Model for Efficient Interactions, Contacts, and Collisions

Marko Mihajlovic,Siwei Zhang,Gen Li,Kaifeng Zhao,Lea Müller,Siyu Tang

Main category: cs.CV

TL;DR: VolumetricSMPL是一种基于神经混合权重(NBW)的神经体积人体模型,显著提升了计算效率和表达能力,适用于多种复杂任务。

  • Motivation: 传统的人体模型使用表面网格,难以高效处理与其他几何实体的交互,而现有的体积神经隐式模型在复杂人体关节上不够鲁棒或计算成本高。
  • Method: VolumetricSMPL利用NBW动态混合少量学习权重矩阵,生成紧凑高效的MLP解码器,显著降低计算和内存成本。
  • Result: VolumetricSMPL在推理速度、GPU内存使用、精度和接触建模方面优于COAP模型,并在四项任务中表现出色。
  • Conclusion: VolumetricSMPL在广泛的应用中展现了显著的性能和效率优势。

[103] Aggregating Local Saliency Maps for Semi-Global Explainable Image Classification

James Hinns,David Martens

Main category: cs.CV

TL;DR: 提出Segment Attribution Tables (SATs)方法,通过汇总局部显著性解释提供半全局洞察,帮助分析图像分类器的依赖模式和虚假相关性。

  • Motivation: 深度学习在图像分类中表现优异,但模型预测的解释仍具挑战性。现有局部解释方法(如显著性图)难以总结模式,而全局方法又过于简化。
  • Method: SATs利用图像片段(如“眼睛”)和显著性图量化其影响,揭示模型依赖的概念和虚假相关性。
  • Result: SATs能够识别模型依赖的片段(如背景或水印),即使测试性能变化不大,仍能发现潜在问题。
  • Conclusion: SATs填补了局部与全局解释之间的空白,为图像分类器的分析和调试提供了实用工具。

[104] DGE-YOLO: Dual-Branch Gathering and Attention for Accurate UAV Object Detection

Kunwei Lv,Ping Lan

Main category: cs.CV

TL;DR: DGE-YOLO是一种改进的YOLO框架,通过双分支架构和EMA机制提升多模态无人机目标检测性能。

  • Motivation: 无人机目标检测在复杂条件下对小物体的检测性能不足,现有方法在处理多模态输入时表现不佳。
  • Method: 提出双分支架构处理红外和可见光图像,引入EMA机制增强多尺度特征学习,并使用Gather-and-Distribute模块替代传统neck。
  • Result: 在Drone Vehicle数据集上表现优于现有方法。
  • Conclusion: DGE-YOLO在多模态无人机目标检测任务中具有显著优势。

[105] PixelBoost: Leveraging Brownian Motion for Realistic-Image Super-Resolution

Aradhana Mishra,Bumshik Lee

Main category: cs.CV

TL;DR: PixelBoost是一种新型扩散模型,通过利用布朗运动的随机性提升图像超分辨率,兼顾真实性和计算效率。

  • Motivation: 现有扩散模型在图像超分辨率中存在真实性与计算效率的权衡问题,减少采样步骤会导致图像模糊。
  • Method: 引入布朗运动的随机性,通过控制随机性训练避免局部最优,采用Sigmoidal噪声序列方法简化训练。
  • Result: 在LPIPS、LOE、PSNR、SSIM等指标上表现优异,边缘重建能力更强,且推理速度更快。
  • Conclusion: PixelBoost通过随机性整合和噪声序列优化,显著提升了图像超分辨率的真实性和效率。

[106] PCLVis: Visual Analytics of Process Communication Latency in Large-Scale Simulation

Chongke Bi,Xin Gao,Baofeng Fu,Yuheng Zhao,Siming Chen,Ying Zhao,Yunhai Wang

Main category: cs.CV

TL;DR: PCLVis框架通过MPI通信数据分析通信延迟事件,帮助用户优化大规模模拟。

  • Motivation: 解决超级计算机大规模模拟中通信延迟分析的问题,现有方法依赖管理员才能获取的物理链路层信息。
  • Method: 1. 空间PCL事件定位方法;2. 构建通信依赖DAG分析传播路径;3. 设计CS-Glyph展示通信状态;4. 提出PCL事件归因策略。
  • Result: 在TH-1A超级计算机上验证了框架有效性,显著提升模拟效率。
  • Conclusion: PCLVis为普通用户提供了一种无需物理链路层信息的通信延迟分析工具,优化模拟性能。

[107] Causal-Entity Reflected Egocentric Traffic Accident Video Synthesis

Lei-lei Li,Jianwu Fang,Junbin Xiao,Shanmin Pang,Hongkai Yu,Chen Lv,Jianru Xue,Tat-Seng Chua

Main category: cs.CV

TL;DR: 该论文提出了一种名为Causal-VidSyn的扩散模型,用于合成以自我为中心的交通事故视频,强调识别事故参与者和行为的重要性,并通过实验验证其优越性。

  • Motivation: 提升自动驾驶汽车对事故因果关系的理解能力,通过合成具有因果关系的视频来测试其应对能力。
  • Method: 提出Causal-VidSyn扩散模型,利用原因描述和驾驶员注视点识别事故参与者和行为,结合事故原因回答和注视条件选择模块。
  • Result: Causal-VidSyn在帧质量和因果敏感性方面优于现有视频扩散模型,适用于多种任务。
  • Conclusion: Causal-VidSyn为合成具有因果关系的交通事故视频提供了有效方法,推动了自动驾驶安全测试的发展。

[108] Token Activation Map to Visually Explain Multimodal LLMs

Yi Li,Hualiang Wang,Xinpeng Ding,Haonan Wang,Xiaomeng Li

Main category: cs.CV

TL;DR: 提出了一种名为Token Activation Map (TAM)的方法,用于解决多模态大语言模型(MLLMs)解释性不足的问题,通过因果推断和高斯滤波减少冗余激活干扰。

  • Motivation: MLLMs的解释性研究不足,冗余激活干扰影响解释可靠性,需要一种新方法来提升解释质量。
  • Method: 提出TAM方法,结合因果推断和高斯滤波,减少冗余激活干扰,关注token间的交互。
  • Result: TAM显著优于现有方法,支持多种应用场景(如目标定位、失败案例分析等)。
  • Conclusion: TAM为MLLMs提供了高质量的解释和可视化工具,增强了模型的可信度和理解。

[109] Mettle: Meta-Token Learning for Memory-Efficient Audio-Visual Adaptation

Jinxing Zhou,Zhihui Li,Yongqiang Yu,Yanghao Zhou,Ruohao Guo,Guangyao Li,Yuxin Mao,Mingfei Han,Xiaojun Chang,Meng Wang

Main category: cs.CV

TL;DR: Mettle是一种高效适应预训练Transformer模型到下游视听任务的方法,通过轻量级LCD模块并行提取特征为元标记,支持分类和分割任务。

  • Motivation: 解决大规模预训练模型在适应下游任务时内存占用高、训练时间长的问题。
  • Method: 使用Layer-Centric Distillation (LCD)模块并行提取特征为元标记,并通过Meta-Token Injection (MTI)模块支持细粒度分割任务。
  • Result: 显著减少内存使用和训练时间,同时保持参数效率和竞争性准确率。
  • Conclusion: Mettle是一种高效且通用的适应方法,适用于多种视听任务。

[110] Why Settle for One? Text-to-ImageSet Generation and Evaluation

Chengyou Jia,Xin Shen,Zhuohang Dang,Zhuohang Dang,Changliang Xia,Weijia Wu,Xinyu Zhang,Hangwei Qian,Ivor W. Tsang,Minnan Luo

Main category: cs.CV

TL;DR: 论文提出Text-to-ImageSet (T2IS)生成问题,旨在根据用户指令生成满足多种一致性要求的图像集。作者构建了T2IS-Bench数据集和T2IS-Eval评估框架,并提出了训练无关的AutoT2IS方法,显著优于现有方法。

  • Motivation: 现有方法在生成一致性图像集时局限于特定领域,泛化能力不足。本文旨在解决更广泛的T2IS生成问题。
  • Method: 提出T2IS-Bench数据集和T2IS-Eval评估框架,并开发了AutoT2IS方法,利用预训练扩散变换器的上下文能力实现图像级和集合级一致性。
  • Result: 实验表明AutoT2IS显著优于现有方法,并能支持多种实际应用。
  • Conclusion: AutoT2IS在T2IS生成中表现出色,具有广泛的实际应用价值。

[111] Autoregressive Denoising Score Matching is a Good Video Anomaly Detector

Hanwen Zhang,Congqi Cao,Qinyi Lv,Lingtong Min,Yanning Zhang

Main category: cs.CV

TL;DR: 该论文提出了一种基于生成模型的视频异常检测方法,通过填补场景、运动和外观三个独特差距,提升了异常检测的全面性。

  • Motivation: 传统基于似然的方法无法检测到局部模式附近的异常,因此需要解决场景、运动和外观三个方面的盲区。
  • Method: 构建噪声条件评分变换器,引入场景依赖和运动感知评分函数,并通过自回归去噪评分匹配机制整合未受影响的视觉信息。
  • Result: 在三个流行的视频异常检测基准测试中,该方法表现出最先进的性能。
  • Conclusion: 通过综合考虑场景、运动和外观三个差距,该方法能够生成更全面的异常指示器。

[112] MoMa: Modulating Mamba for Adapting Image Foundation Models to Video Recognition

Yuhuan Yang,Chaofan Ma,Zhenjie Mao,Jiangchao Yao,Ya Zhang,Yanfeng Wang

Main category: cs.CV

TL;DR: MoMa是一个高效的适配器框架,通过将Mamba的选择性状态空间建模集成到图像基础模型(IFMs)中,实现全时空建模,提升视频理解能力。

  • Motivation: 现有方法在处理视频时空信息时往往分开处理,难以捕捉视频动态的复杂性。
  • Method: 提出SeqMod操作和Divide-and-Modulate架构,将时空信息注入预训练的IFMs中,不破坏原始特征。
  • Result: 在多个视频基准测试中表现优异,计算成本更低。
  • Conclusion: MoMa通过高效的全时空建模,显著提升了视频理解性能。

[113] Competitive Distillation: A Simple Learning Strategy for Improving Visual Classification

Daqian Shi,Xiaolei Diao,Xu Chen,Cédric M. John

Main category: cs.CV

TL;DR: 提出了一种新颖的竞争蒸馏策略,通过动态选择教师网络和引入竞争优化,提升多网络协作训练的效果。

  • Motivation: 现有蒸馏方法在多网络协作训练中效果有限,主要因为缺乏对不同迭代中学习方向影响的深入理解。
  • Method: 提出竞争蒸馏策略,动态选择教师网络,引入竞争优化和随机扰动,以提升学习性能。
  • Result: 实验表明,竞争蒸馏在多种任务和数据集上表现优异。
  • Conclusion: 竞争蒸馏通过动态竞争和随机扰动,显著提升了多网络协作训练的效果。

[114] DDL: A Dataset for Interpretable Deepfake Detection and Localization in Real-World Scenarios

Changtao Miao,Yi Zhang,Weize Gao,Man Luo,Weiwei Feng,Zhiya Tan,Jianshu Li,Ajian Liu,Yunfeng Diao,Qi Chu,Tao Gong,Zhe Li,Weibin Yao,Joey Tianyi Zhou

Main category: cs.CV

TL;DR: 论文提出了一种新的大规模深度伪造检测与定位数据集(DDL),包含180万伪造样本和75种深度伪造方法,旨在解决现有数据集在多样性和规模上的不足,为复杂现实场景提供支持。

  • Motivation: 深度伪造技术的滥用日益严重,现有检测方法缺乏可解释性,且数据集在多样性、规模和标注上存在局限,无法满足复杂现实场景需求。
  • Method: 构建了DDL数据集,包含多样伪造场景、全面深度伪造方法、多种操纵模式和细粒度伪造标注。
  • Result: DDL数据集提供了更具挑战性的基准,支持下一代深度伪造检测、定位和可解释性方法的发展。
  • Conclusion: DDL数据集通过创新设计解决了现有数据集的不足,为深度伪造检测领域提供了重要支持。

[115] DiffFit: Disentangled Garment Warping and Texture Refinement for Virtual Try-On

Xiang Xu

Main category: cs.CV

TL;DR: DiffFit是一种新颖的两阶段潜在扩散框架,用于高保真虚拟试穿,通过几何感知的服装变形和纹理细化解决现有方法的不足。

  • Motivation: 虚拟试穿(VTON)在电子商务和数字时尚中有广泛应用,但现有方法在保留服装细节、精确对齐、推理效率和泛化能力方面存在挑战。
  • Method: DiffFit采用两阶段生成策略:第一阶段进行几何感知的服装变形,第二阶段通过跨模态条件扩散模型细化纹理。
  • Result: 实验表明,DiffFit在定量指标和感知评估上均优于现有最先进方法。
  • Conclusion: DiffFit通过解耦几何对齐和外观细化,显著提升了虚拟试穿的生成稳定性和视觉真实感。

[116] Endo-4DGX: Robust Endoscopic Scene Reconstruction and Illumination Correction with Gaussian Splatting

Yiming Huang,Long Bai,Beilei Cui,Yanheng Li,Tong Chen,Jie Wang,Jinlin Wu,Zhen Lei,Hongbin Liu,Hongliang Ren

Main category: cs.CV

TL;DR: Endo-4DGX是一种针对内窥镜场景中光照不均问题的新型重建方法,通过光照自适应高斯泼溅技术提升渲染质量。

  • Motivation: 在图像引导机器人手术中,软组织的精确重建至关重要,但现有3DGS方法在极端光照条件下表现不佳。
  • Method: 结合光照嵌入、区域感知增强模块和空间感知调整模块,实现光照自适应优化。
  • Result: 在低光和过曝条件下,Endo-4DGX显著优于现有方法,同时保持几何精度。
  • Conclusion: Endo-4DGX在挑战性光照环境中表现出色,有望推动机器人辅助手术的发展。

[117] FastSeg: Efficient Training-Free Open-Vocabulary Segmentation via Hierarchical Attention Refinement Method

Quang-Huy Che,Vinh-Tiep Nguyen

Main category: cs.CV

TL;DR: FastSeg是一种高效的无训练框架,通过预训练扩散模型(如Stable Diffusion)的(1+1)步反向过程实现开放词汇语义分割(OVSS),并在多类别分割中表现出色。

  • Motivation: 现有对比学习模型在零样本分割中丢失像素级空间精度,而扩散模型虽能捕捉细粒度空间特征,但难以平衡迭代次数与分割质量。
  • Method: FastSeg采用双提示机制、分层注意力细化方法(HARD)和测试时翻转(TTF)方案,提升分割质量与效率。
  • Result: 在PASCAL VOC、PASCAL Context和COCO Object基准测试中,FastSeg平均mIoU达43.8%,表现优异。
  • Conclusion: FastSeg在分割质量和推理效率间取得平衡,为扩展性提供了坚实基础。

[118] IR3D-Bench: Evaluating Vision-Language Model Scene Understanding as Agentic Inverse Rendering

Parker Liu,Chenxin Li,Zhengxin Li,Yipeng Wu,Wuyang Li,Zhiqin Yang,Zhenyuan Zhang,Yunlong Lin,Sirui Han,Brandon Y. Feng

Main category: cs.CV

TL;DR: IR3D-Bench是一个新的基准测试,通过要求视觉语言模型(VLMs)主动使用工具重建图像的3D结构,评估其场景理解能力,而不仅仅是描述或对话能力。

  • Motivation: 探讨VLMs是否真正理解场景,而非仅擅长描述任务。
  • Method: 基于分析-合成范式,要求视觉语言代理(VLAs)使用编程和渲染工具逆向渲染输入图像的3D结构。
  • Result: 初步实验显示当前VLMs在视觉精度而非基本工具使用上存在局限。
  • Conclusion: IR3D-Bench为系统研究和开发工具使用的VLAs提供了数据和评估协议,以推动真正的场景理解。

[119] CycleVAR: Repurposing Autoregressive Model for Unsupervised One-Step Image Translation

Yi Liu,Shengqian Li,Zuzeng Lin,Feng Wang,Si Liu

Main category: cs.CV

TL;DR: 论文提出了一种基于Softmax Relaxed Quantization的CycleVAR方法,用于无监督图像翻译,解决了传统量化方法梯度中断的问题,并在质量和速度上优于现有方法。

  • Motivation: 当前的自回归图像生成方法在无监督图像翻译领域潜力未充分挖掘,传统量化方法导致梯度中断,限制了端到端优化。
  • Method: 提出Softmax Relaxed Quantization,将码本选择转化为连续概率混合过程;基于此,设计CycleVAR,通过多尺度源图像令牌作为上下文提示,实现图像条件自回归生成。
  • Result: 实验表明,CycleVAR在无监督场景下,并行单步生成模式在翻译质量和推理速度上优于串行多步模式,并超越现有方法如CycleGAN-Turbo。
  • Conclusion: CycleVAR通过保留梯度的量化方法和多模式生成策略,显著提升了无监督图像翻译的性能。

[120] GeoProg3D: Compositional Visual Reasoning for City-Scale 3D Language Fields

Shunsuke Yasuki,Taiki Miyanishi,Nakamasa Inoue,Shuhei Kurita,Koya Sakamoto,Daichi Azuma,Masato Taki,Yutaka Matsuo

Main category: cs.CV

TL;DR: GeoProg3D是一个视觉编程框架,通过自然语言实现城市规模高保真3D场景的交互,结合地理感知和视觉API,显著优于现有方法。

  • Motivation: 现有3D语言方法在小规模环境中表现良好,但缺乏处理大规模复杂城市环境的能力,需要更高效和可扩展的解决方案。
  • Method: GeoProg3D包含地理感知城市规模3D语言场(GCLF)和地理视觉API(GV-APIs),利用大语言模型动态组合工具完成任务。
  • Result: 在GeoEval3D基准测试中,GeoProg3D在多种任务上显著优于现有方法。
  • Conclusion: GeoProg3D是首个支持城市规模高保真3D场景的自然语言组合推理框架,具有广泛应用潜力。

[121] Layer Decomposition and Morphological Reconstruction for Task-Oriented Infrared Image Enhancement

Siyuan Chai,Xiaodong Guo,Tong Liu

Main category: cs.CV

TL;DR: 提出了一种面向任务的红外图像增强方法,通过层分解和显著性信息提取提升图像质量,适用于复杂天气条件下的自动驾驶感知。

  • Motivation: 红外图像在复杂天气条件下(如雾、雨、低光)能提升自动驾驶感知能力,但低对比度和噪声问题影响下游视觉任务性能。
  • Method: 方法包括层分解和基于形态学重建的显著性提取,增强场景细节并保留暗区特征,同时避免噪声放大。
  • Result: 实验表明,该方法在目标检测和语义分割任务中优于现有技术。
  • Conclusion: 该方法有效解决了红外图像低对比度和噪声问题,提升了自动驾驶感知任务的性能。

[122] OmniVCus: Feedforward Subject-driven Video Customization with Multimodal Control Conditions

Yuanhao Cai,He Zhang,Xi Chen,Jinbo Xing,Yiwei Hu,Yuqian Zhou,Kai Zhang,Zhifei Zhang,Soo Ye Kim,Tianyu Wang,Yulun Zhang,Xiaokang Yang,Zhe Lin,Alan Yuille

Main category: cs.CV

TL;DR: 本文提出了一种多主体视频定制方法,通过数据构造管道VideoCus-Factory和扩散Transformer框架OmniVCus,实现了对视频中主体的控制和编辑。

  • Motivation: 现有方法主要研究单主体场景,且缺乏对多主体训练数据对和控制信号(如深度、遮罩等)的探索。
  • Method: 提出VideoCus-Factory数据构造管道和IVTM训练方法,结合扩散Transformer框架OmniVCus,采用Lottery Embedding和Temporally Aligned Embedding机制。
  • Result: 实验表明,该方法在定量和定性评估上均显著优于现有技术。
  • Conclusion: 该方法为多主体视频定制和控制提供了有效解决方案。

[123] SIEDD: Shared-Implicit Encoder with Discrete Decoders

Vikram Rangarajan,Shishira Maiya,Max Ehrlich,Abhinav Shrivastava

Main category: cs.CV

TL;DR: SIEDD是一种新型架构,通过共享隐式编码器和离散解码器,显著加速INR编码速度20-30倍,同时保持高质量重建和压缩比。

  • Motivation: 解决现有INR编码速度慢且难以兼顾重建质量和坐标级控制的问题。
  • Method: SIEDD采用共享坐标编码器捕获全局低频特征,再并行训练轻量离散解码器,结合激进采样加速。
  • Result: 在HD和4K基准测试中,编码速度提升20-30倍,保持高质量重建和压缩比,支持连续分辨率解码。
  • Conclusion: SIEDD显著提升了高保真神经视频压缩的实用性,为实际部署提供了可行方案。

[124] A High-Throughput Platform to Bench Test Smartphone-Based Heart Rate Measurements Derived From Video

Ming-Zher Poh,Jonathan Wang,Jonathan Hsu,Lawrence Cai,Eric Teasley,James A. Taylor,Jameson K. Rogers,Anupam Pathak,Shwetak Patel

Main category: cs.CV

TL;DR: 本文提出了一种新型高通量测试平台,用于评估智能手机心率监测应用的性能和设备兼容性,解决了设备多样性和标准化测试方法的不足。

  • Motivation: 智能手机心率监测应用因设备多样性和缺乏标准化测试方法而面临性能评估和兼容性挑战,手动测试不切实际。
  • Method: 设计了一个包含12部智能手机并行测试的测试系统,生成可控心率和信号质量的合成PPG测试视频,并通过主机协调视频播放和数据记录。
  • Result: 系统在输入和测量心率之间的平均绝对百分比误差为0.11%,PPG信号的相关系数为0.92,20款智能手机均符合ANSI/CTA标准。
  • Conclusion: 该平台为智能手机心率应用提供了可扩展的预部署测试解决方案,提升了应用性能和设备兼容性,推动了移动健康领域的发展。

[125] Why Settle for Mid: A Probabilistic Viewpoint to Spatial Relationship Alignment in Text-to-image Models

Parham Rezaei,Arash Marioriyad,Mahdieh Soleymani Baghshah,Mohammad Hossein Rohban

Main category: cs.CV

TL;DR: 提出了一种基于概率优势(PoS)的新框架,用于改进文本到图像模型在空间关系生成中的准确性,并引入了新的评估指标(PSE)和生成方法(PSG)。

  • Motivation: 解决文本到图像模型在生成复杂空间关系时的不足,特别是空间配置的准确性。
  • Method: 1. 提出PSE评估指标,基于PoS衡量文本与图像的空间关系对齐;2. 提出PSG生成方法,通过梯度引导或噪声向量搜索优化空间关系生成。
  • Result: PSE指标比传统方法更符合人类判断;PSG显著提升了模型在空间关系生成上的表现。
  • Conclusion: PoS框架有效改进了文本到图像模型的空间关系生成能力,PSE和PSG为相关研究提供了新工具。

[126] Detecting What Matters: A Novel Approach for Out-of-Distribution 3D Object Detection in Autonomous Vehicles

Menna Taha,Aya Ahmed,Mohammed Karmoose,Yasser Gadallah

Main category: cs.CV

TL;DR: 论文提出了一种新的目标检测方法,将重点从传统的基于类别的分类转向对象危害性判定,以提升自动驾驶车辆对未知物体的检测能力。

  • Motivation: 自动驾驶车辆的传统目标检测方法无法有效识别分布外(OOD)物体,可能导致安全隐患。
  • Method: 通过对象相对于车辆的位置和轨迹,将其分类为‘有害’或‘无害’。
  • Result: 模型能有效检测OOD物体并评估其危害性,提升决策效果。
  • Conclusion: 该方法增强了自动驾驶车辆在动态环境中的安全性。

[127] Towards foundational LiDAR world models with efficient latent flow matching

Tianran Liu,Shengwen Zhao,Nicholas Rhinehart

Main category: cs.CV

TL;DR: LiDAR世界模型在跨领域迁移中表现优异,显著减少对标注数据的依赖,并提出高效训练框架。

  • Motivation: 探索LiDAR世界模型在多领域的可迁移性,解决现有模型领域局限性问题。
  • Method: 提出潜在条件流匹配(CFM)框架,优化数据压缩和训练目标。
  • Result: 单预训练模型在跨领域任务中表现优于从头训练,数据需求减少95%,计算效率提升23倍。
  • Conclusion: LiDAR世界模型具有强大跨领域迁移能力,CFM框架显著提升效率和性能。

[128] PathDiff: Histopathology Image Synthesis with Unpaired Text and Mask Conditions

Mahesh Bhosale,Abdul Wasi,Yuanhao Zhai,Yunjie Tian,Samuel Border,Nan Xi,Pinaki Sarder,Junsong Yuan,David Doermann,Xuan Gong

Main category: cs.CV

TL;DR: PathDiff是一种扩散框架,通过整合未配对的掩码和文本数据生成高质量的病理图像,提升语义和空间细节的控制。

  • Motivation: 解决病理图像数据稀缺问题,同时利用文本和掩码数据增强生成图像的质量和控制能力。
  • Method: 提出PathDiff框架,将未配对的掩码和文本数据整合到统一的条件空间中,生成高质量图像。
  • Result: PathDiff在图像保真度、文本-图像对齐和下游任务(如核分割和分类)中表现优于现有方法。
  • Conclusion: PathDiff通过结合文本和掩码数据,显著提升了病理图像生成的语义准确性和空间控制能力。

[129] Contrastive Learning with Diffusion Features for Weakly Supervised Medical Image Segmentation

Dewen Zeng,Xinrong Hu,Yu-Jen Chen,Yawen Wu,Xiaowei Xu,Yiyu Shi

Main category: cs.CV

TL;DR: 论文提出了一种名为CLDF的新方法,通过对比学习将扩散模型的特征映射到低维嵌入空间,以改进弱监督语义分割中传统CAM方法的局限性。

  • Motivation: 传统CAM方法在弱监督语义分割中存在部分激活和边界不精确的问题,而基于条件扩散模型的方法虽能生成分割掩码,但容易受到反向扩散中背景噪声的影响。
  • Method: CLDF结合对比学习,利用冻结的条件扩散模型生成的特征,通过梯度图和CAM识别前景和背景像素,训练像素解码器生成低维嵌入空间。
  • Result: 在两个公共医学数据集的四个分割任务上,CLDF显著优于现有基线方法。
  • Conclusion: CLDF通过对比学习有效减少了噪声,提升了弱监督语义分割的性能。

[130] Time-variant Image Inpainting via Interactive Distribution Transition Estimation

Yun Xing,Qing Guo,Xiaoguang Li,Yihao Huang,Xiaofeng Cao,Di Lin,Ivor Tsang,Lei Ma

Main category: cs.CV

TL;DR: 论文提出了一种新任务TAMP(时间变异图像修复),通过参考图像修复目标图像,解决了时间变异图像修复中的挑战,并提出了InDiTE-Diff方法。

  • Motivation: 时间变异图像修复(TAMP)在实际生活中常见,但现有方法因图像内容差异和损坏无法有效解决。
  • Method: 提出InDiTE模块和InDiTE-Diff方法,结合扩散模型进行修复。
  • Result: 实验表明,InDiTE-Diff在TAMP任务中优于现有方法。
  • Conclusion: InDiTE-Diff为时间变异图像修复提供了有效解决方案。

[131] Sanitizing Manufacturing Dataset Labels Using Vision-Language Models

Nazanin Mahjourian,Vinh Nguyen

Main category: cs.CV

TL;DR: 论文提出了一种基于视觉-语言的方法VLSR,用于清洗和优化多标签制造图像数据集中的标签噪声,通过CLIP模型嵌入图像和文本标签到共享语义空间,利用余弦相似度进行标签清洗和聚类,显著提升了数据集质量。

  • Motivation: 工业应用中机器学习模型的成功依赖于高质量的训练数据集,但大规模数据集(尤其是众包和网络爬取的数据)常存在标签噪声和不一致问题,特别是在制造领域,获取高质量标签成本高且耗时。
  • Method: VLSR框架利用CLIP模型将图像和文本标签嵌入共享语义空间,通过余弦相似度进行标签清洗(识别并修正不相关或错误的标签),并通过密度聚类和迭代合并对语义相似的标签进行分组。
  • Result: 在Factorynet数据集上的实验表明,VLSR能有效识别问题标签并提升标签一致性,显著减少标签词汇量,从而提升数据集质量。
  • Conclusion: VLSR框架能以最小人工干预显著提升工业应用中机器学习模型的训练数据集质量。

[132] AdFair-CLIP: Adversarial Fair Contrastive Language-Image Pre-training for Chest X-rays

Chenlang Yi,Zizhan Xiong,Qi Qi,Xiyuan Wei,Girish Bathla,Ching-Long Lin,Bobak Jack Mortazavi,Tianbao Yang

Main category: cs.CV

TL;DR: AdFair-CLIP通过对抗性特征干预减少CLIP模型中的种族和性别偏见,提升胸部X光分类的公平性和准确性。

  • Motivation: CLIP模型在医学图像分类中表现优异,但存在种族和性别偏见,导致诊断结果不公平。
  • Method: 提出AdFair-CLIP框架,利用对抗性特征干预抑制敏感属性,减少虚假相关性。
  • Result: 在胸部X光数据集上,AdFair-CLIP显著提高了公平性和诊断准确性,并在零样本和少样本场景中保持稳健。
  • Conclusion: AdFair-CLIP为基于CLIP的医学诊断模型设定了公平性学习的新标准。

[133] NavMorph: A Self-Evolving World Model for Vision-and-Language Navigation in Continuous Environments

Xuan Yao,Junyu Gao,Changsheng Xu

Main category: cs.CV

TL;DR: NavMorph是一个自演化的世界模型框架,用于提升视觉与语言导航(VLN-CE)任务中的环境理解和决策能力,通过紧凑的潜在表示和上下文演化记忆实现适应性规划。

  • Motivation: 当前方法在泛化到新环境和适应导航过程中的持续变化方面表现不佳,NavMorph受人类认知启发,旨在解决这一问题。
  • Method: NavMorph采用紧凑潜在表示建模环境动态,结合上下文演化记忆,支持适应性规划和策略优化。
  • Result: 实验表明,NavMorph在VLN-CE基准测试中取得了显著的性能提升。
  • Conclusion: NavMorph通过自演化框架和上下文记忆,有效提升了导航任务的适应性和性能。

[134] Interactive Interface For Semantic Segmentation Dataset Synthesis

Ngoc-Do Tran,Minh-Tuan Huynh,Tam V. Nguyen,Minh-Triet Tran,Trung-Nghia Le

Main category: cs.CV

TL;DR: SynthLab是一个模块化平台,用于视觉数据合成,解决高质量标注数据集创建的高成本和隐私问题。

  • Motivation: AI和计算机视觉的快速发展需要高质量标注数据集,但创建这些数据集成本高且涉及隐私问题。
  • Method: SynthLab采用模块化架构和用户友好界面,支持拖拽操作定制数据流程。
  • Result: 用户研究表明SynthLab具有高灵活性和易用性,适合不同背景用户。
  • Conclusion: SynthLab为AI应用提供了高效、可扩展的数据合成解决方案。

[135] GeoCD: A Differential Local Approximation for Geodesic Chamfer Distance

Pedro Alonso,Tianrui Li,Chongshou Li

Main category: cs.CV

TL;DR: GeoCD是一种基于拓扑感知和可微分的测地距离近似方法,用于改进3D点云学习中的Chamfer Distance(CD)指标。

  • Motivation: Chamfer Distance(CD)虽然简单高效,但仅依赖欧氏距离,无法捕捉3D形状的内在几何特征。
  • Method: 提出GeoCD,一种拓扑感知且完全可微分的测地距离近似方法,用于替代CD。
  • Result: 实验表明,GeoCD在各种架构和数据集上均能显著提升重建质量,仅需一个epoch的微调即可在多指标上取得显著改进。
  • Conclusion: GeoCD是一种有效的改进CD的方法,能够更好地捕捉3D形状的几何特征。

[136] Instant GaussianImage: A Generalizable and Self-Adaptive Image Representation via 2D Gaussian Splatting

Zhaojie Zeng,Yuesong Wang,Chao Yang,Tao Guan,Lili Ju

Main category: cs.CV

TL;DR: 提出了一种基于2D高斯泼溅的自适应图像表示框架,显著减少训练时间并动态调整高斯点数量。

  • Motivation: 解决Implicit Neural Representation (INR)的高GPU资源需求和GaussianImage训练慢、适应性差的问题。
  • Method: 使用网络快速生成粗略高斯表示,再通过少量微调步骤,动态调整高斯点数量以适应图像复杂度。
  • Result: 在DIV2K和Kodak数据集上,训练时间减少一个数量级,渲染性能优于或匹配GaussianImage。
  • Conclusion: 该方法高效、灵活,显著提升了图像表示的实用性和适应性。

[137] Evaluation of Geolocation Capabilities of Multimodal Large Language Models and Analysis of Associated Privacy Risks

Xian Zhang,Xiang Cheng

Main category: cs.CV

TL;DR: 多模态大语言模型(MLLMs)在推理能力上的进步引发了隐私和伦理问题,尤其是通过图像推断地理位置的能力。研究分析了现有技术,发现模型能在1公里半径内以49%的准确率定位街景图像,并提出了隐私保护对策。

  • Motivation: 探讨MLLMs在图像地理定位中的能力及其对隐私的潜在威胁。
  • Method: 系统综述现有地理定位技术,并评估先进视觉推理模型在街景图像定位任务中的表现。
  • Result: 最先进的视觉大模型能在1公里半径内以49%的准确率定位街景图像。
  • Conclusion: 研究揭示了地理定位的关键视觉元素,并讨论了隐私风险及可能的对策。

[138] MTADiffusion: Mask Text Alignment Diffusion Model for Object Inpainting

Jun Huang,Ting Liu,Yihang Wu,Xiaochao Qu,Luoqi Liu,Xiaolin Hu

Main category: cs.CV

TL;DR: MTADiffusion是一种用于对象修复的Mask-Text Alignment扩散模型,通过MTAPipeline自动标注掩码和详细描述,构建了包含500万图像和2500万掩码-文本对的新数据集,并采用多任务训练策略和风格一致性损失,显著提升了修复效果。

  • Motivation: 现有修复方法存在语义不对齐、结构扭曲和风格不一致等问题,MTADiffusion旨在解决这些问题。
  • Method: 提出MTAPipeline自动标注掩码和描述,构建MTADataset;采用多任务训练策略(修复和边缘预测);引入风格一致性损失。
  • Result: 在BrushBench和EditBench上评估,MTADiffusion达到最先进性能。
  • Conclusion: MTADiffusion通过改进语义对齐、结构稳定性和风格一致性,显著提升了对象修复的效果。

[139] Qwen-GUI-3B: A Lightweight Vision-Language Model for Cross-Resolution GUI Grounding

ZongHan Hsieh,Tzer-Jen Wei

Main category: cs.CV

TL;DR: Qwen-GUI-3B是一个轻量级视觉语言模型,专为图形用户界面(GUI)任务设计,性能媲美更大模型,且可在单GPU上训练。

  • Motivation: 解决大规模视觉语言模型计算资源需求高的问题,同时提升GUI任务的数据稀缺和多样性挑战。
  • Method: 结合跨平台多分辨率数据集、两阶段微调策略及数据去冗余技术。
  • Result: 在标准GUI基准测试中表现优异,ScreenSpot达84.9%,ScreenSpot-v2达86.4%。
  • Conclusion: Qwen-GUI-3B通过创新方法在轻量级模型中实现了高性能,适合消费级硬件。

[140] LLM-enhanced Action-aware Multi-modal Prompt Tuning for Image-Text Matching

Mengxiao Tian,Xinxiao Wu,Shuo Yang

Main category: cs.CV

TL;DR: 论文提出了一种基于LLM增强的动作感知多模态提示调优方法,以提升CLIP模型对细粒度动作的理解能力。

  • Motivation: CLIP模型在图像-文本匹配任务中表现优异,但缺乏对细粒度动作的理解能力,这限制了其在描述对象状态或关系时的表现。
  • Method: 设计了动作三元组提示和动作状态提示,利用LLM生成的动作相关知识,并通过自适应交互模块聚合视觉特征。
  • Result: 在两个基准数据集上的实验证明了该方法的有效性。
  • Conclusion: 通过引入LLM增强的动作感知提示调优,显著提升了CLIP模型在细粒度动作理解方面的性能。

[141] Improve Underwater Object Detection through YOLOv12 Architecture and Physics-informed Augmentation

Tinh Nguyen

Main category: cs.CV

TL;DR: 该研究通过结合物理增强技术和YOLOv12架构,提升了水下目标检测的精度和效率,尤其在低能见度条件下表现优异。

  • Motivation: 水下目标检测因光线衰减、浑浊和遮挡等问题面临挑战,现有方法在实时性和准确性上难以兼顾。
  • Method: 采用YOLOv12架构,结合Residual ELAN块和区域注意力机制,并引入领域特定的增强技术(如湍流自适应模糊、生物遮挡模拟和光谱HSV变换)。
  • Result: 在四个数据集上表现优异,Brackish数据达到98.30% mAP和142 FPS,遮挡鲁棒性提升18.9%,小目标召回率提高22.4%。
  • Conclusion: 该研究为水下机器人和保护应用提供了高效、精确的解决方案,验证了增强策略的关键作用。

[142] ViewPoint: Panoramic Video Generation with Pretrained Diffusion Models

Zixun Fang,Kai Zhu,Zhiheng Liu,Yu Liu,Wei Zhai,Yang Cao,Zheng-Jun Zha

Main category: cs.CV

TL;DR: 提出了一种利用预训练视角视频模型生成全景视频的新框架,通过ViewPoint map和Pano-Perspective注意力机制,解决了全景数据与视角数据之间的模态差距问题。

  • Motivation: 现有方法因全景数据与视角数据之间的模态差距,难以生成高质量全景视频,影响了VR、世界模型和空间智能领域的应用。
  • Method: 设计了具有全局空间连续性和精细视觉细节的ViewPoint map,并提出了Pano-Perspective注意力机制,利用预训练视角先验捕捉全景空间关联。
  • Result: 实验表明,该方法能生成动态性强且空间一致的全景视频,性能优于现有方法。
  • Conclusion: 该框架通过有效利用预训练模型,显著提升了全景视频生成的质量和一致性。

[143] WAVE: Warp-Based View Guidance for Consistent Novel View Synthesis Using a Single Image

Jiwoo Park,Tae Eun Choi,Youngjun Jun,Seong Jae Hwang

Main category: cs.CV

TL;DR: 提出一种无需额外模块的扩散模型方法,通过自适应注意力操纵和噪声重新初始化提升视图一致性。

  • Motivation: 解决扩散模型在多视图合成中空间连续性不足的问题,避免复杂多步流程的效率低下。
  • Method: 利用视图引导的变形技术,实现训练自由的自适应注意力操纵和噪声重新初始化。
  • Result: 通过综合指标验证,该方法显著提升了多种扩散模型的视图一致性。
  • Conclusion: 该方法具有广泛适用性,为单图像多视图合成提供了高效解决方案。

[144] From Sight to Insight: Unleashing Eye-Tracking in Weakly Supervised Video Salient Object Detection

Qi Qin,Runmin Cong,Gen Zhan,Yiting Liao,Sam Kwong

Main category: cs.CV

TL;DR: 论文提出了一种利用眼动追踪信息辅助视频显著物体检测的方法,通过位置和语义嵌入模块以及对比学习范式,在弱监督下提升性能。

  • Motivation: 眼动追踪数据更易获取且更符合人类视觉模式,因此研究如何利用这些数据辅助视频显著物体检测。
  • Method: 设计了位置和语义嵌入模块(PSE)提供指导,并提出了语义和局部查询竞争器(SLQ)以及混合对比学习模型(IIMC)进行时空特征建模。
  • Result: 在五个流行的VSOD基准测试中,模型在多种评估指标上优于其他方法。
  • Conclusion: 通过结合眼动追踪信息和弱监督学习,显著提升了视频显著物体检测的性能。

[145] Lightweight Temporal Transformer Decomposition for Federated Autonomous Driving

Tuong Do,Binh X. Nguyen,Quang D. Tran,Erman Tjiputra,Te-Chuan Chiu,Anh Nguyen

Main category: cs.CV

TL;DR: 提出轻量级时序Transformer分解方法,通过分解大注意力图为小矩阵,降低模型复杂度,提升自动驾驶性能。

  • Motivation: 传统基于视觉的自动驾驶系统在复杂环境中依赖单帧图像输入时表现不佳,而现有高性能方法通常依赖资源密集型融合网络,不适用于联邦学习。
  • Method: 轻量级时序Transformer分解,处理连续图像帧和时序转向数据,分解大注意力图为小矩阵以降低复杂度。
  • Result: 在三个数据集上表现优于现有方法,实现实时性能,机器人实验验证了有效性。
  • Conclusion: 该方法高效、轻量,显著提升了自动驾驶系统在复杂环境中的性能。

[146] When Test-Time Adaptation Meets Self-Supervised Models

Jisu Han,Jihee Park,Dongyoon Han,Wonjun Hwang

Main category: cs.CV

TL;DR: 提出了一种自监督测试时适应(TTA)协议,通过协作学习框架结合自监督学习和TTA,提升模型性能,无需依赖源域预训练。

  • Motivation: 现有TTA方法在自监督模型上表现不佳,尤其是在源域准确性较低时,因此需要一种不依赖源预训练的自适应方法。
  • Method: 提出协作学习框架,结合对比学习和知识蒸馏,逐步优化表示。验证了包括DINO、MoCo和iBOT在内的多种自监督模型。
  • Result: 实验表明,该方法在自监督学习中表现优异,即使没有源预训练也能达到竞争性性能。
  • Conclusion: 自监督TTA协议和协作学习框架有效提升了模型在动态环境中的适应能力。

[147] GViT: Representing Images as Gaussians for Visual Recognition

Jefferson Hernandez,Ruozhen He,Guha Balakrishnan,Alexander C. Berg,Vicente Ordonez

Main category: cs.CV

TL;DR: GVIT是一种分类框架,用可学习的2D高斯集合替代传统像素或块网格输入表示,结合ViT分类器优化高斯参数,性能接近传统ViT。

  • Motivation: 传统像素或块网格输入表示可能效率不高,GVIT旨在通过更紧凑的高斯表示提升分类性能。
  • Method: 图像编码为几百个高斯参数(位置、尺度、方向、颜色、透明度),与ViT分类器联合优化,利用分类器梯度指导高斯聚焦于类别显著区域。
  • Result: GVIT在Imagenet-1k上达到76.9%的top-1准确率,性能接近传统ViT。
  • Conclusion: GVIT通过高斯输入表示和梯度指导,实现了与传统ViT相当的性能,展示了新输入表示的有效性。

[148] Uncertainty-aware Diffusion and Reinforcement Learning for Joint Plane Localization and Anomaly Diagnosis in 3D Ultrasound

Yuhao Huang,Yueyue Xu,Haoran Dou,Jiaxiao Deng,Xin Yang,Hongyu Zheng,Dong Ni

Main category: cs.CV

TL;DR: 提出了一种智能系统,用于同时自动定位平面和诊断先天性子宫异常(CUA),结合去噪扩散模型和强化学习框架,显著提升了诊断准确性。

  • Motivation: 先天性子宫异常(CUA)可能导致不孕、流产和妊娠并发症,传统2D超声难以准确评估,3D超声能提供更清晰的子宫形态可视化。
  • Method: 1)开发了带局部和全局引导的去噪扩散模型;2)引入基于强化学习的框架提取关键切片;3)通过文本驱动的不确定性建模优化分类概率。
  • Result: 在大规模3D子宫超声数据集上验证了方法的有效性,显著提升了平面定位和CUA诊断的准确性。
  • Conclusion: 该方法为CUA诊断提供了一种高效、自动化的解决方案,具有临床应用潜力。

[149] Consistent Time-of-Flight Depth Denoising via Graph-Informed Geometric Attention

Weida Wang,Changyong He,Jin Zeng,Di Qiu

Main category: cs.CV

TL;DR: 提出了一种基于运动不变图融合的ToF深度去噪网络,通过跨帧几何注意力增强时间稳定性和空间清晰度。

  • Motivation: 解决现有方法在ToF深度去噪中忽略跨帧深度变化导致的时间不一致和空间模糊问题。
  • Method: 利用图结构的时序自相似性进行图融合,结合图像平滑先验和ToF噪声分布,构建最大后验问题,并通过迭代滤波器实现。
  • Result: 在合成DVToF数据集上达到最优性能,并在真实Kinectv2数据集上表现出鲁棒泛化能力。
  • Conclusion: 该方法在ToF深度去噪中实现了高精度和一致性,具有可解释性和高性能。

[150] Pyramidal Patchification Flow for Visual Generation

Hui Li,Baoyou Chen,Liwei Zhang,Jiaye Li,Jingdong Wang,Siyu Zhu

Main category: cs.CV

TL;DR: PPFlow通过动态调整patch大小和线性投影,优化了DiTs的计算成本,实现了更快的推理速度和相似的生成性能。

  • Motivation: 传统DiTs使用固定patch大小,无法灵活适应不同噪声水平的timesteps,导致计算效率低下。
  • Method: 提出PPFlow方法,根据噪声水平动态调整patch大小,并为每个patch大小学习线性投影,同时修改Unpatchify。
  • Result: 训练结果显示,PPFlow在推理速度上比SiT-B/2快1.6倍(2.0倍),且生成性能相似。
  • Conclusion: PPFlow通过动态patch调整显著提升了DiTs的效率,同时保持了生成质量。

[151] Oneta: Multi-Style Image Enhancement Using Eigentransformation Functions

Jiwon Kim,Soohyun Hwang,Dong-O Kim,Changsu Han,Min Kyu Park,Chang-Su Kim

Main category: cs.CV

TL;DR: 提出了一种名为Oneta的多风格图像增强算法,通过两步操作(强度增强和颜色校正)实现高性能,支持多种风格任务。

  • Motivation: 解决多风格图像增强任务,通过简单但高效的两步模型实现广泛适用性。
  • Method: 使用Y-Net和C-Net分别预测eigenTF和CCM参数,通过K个可学习令牌支持多种风格。
  • Result: 在30个数据集上成功完成六种增强任务,表现优异。
  • Conclusion: Oneta是一种高效且通用的多风格图像增强方法。

[152] JAM-Flow: Joint Audio-Motion Synthesis with Flow Matching

Mingi Kwon,Joonghyuk Shin,Jaeseok Jung,Jaesik Park,Youngjung Uh

Main category: cs.CV

TL;DR: JAM-Flow是一个统一框架,通过流匹配和多模态扩散变换器(MM-DiT)同时合成面部运动和语音,支持多种输入条件。

  • Motivation: 现有生成模型通常将面部运动和语音合成视为独立任务,忽视了二者的内在联系。
  • Method: 采用流匹配和MM-DiT架构,结合Motion-DiT和Audio-DiT模块,通过选择性联合注意力层实现跨模态交互。
  • Result: JAM-Flow支持多种输入条件(如文本、参考音频和运动),实现同步的说话头部生成和音频驱动动画。
  • Conclusion: JAM-Flow为多模态生成建模提供了实用解决方案,推动了音频-视觉合成的整体发展。

[153] LH2Face: Loss function for Hard High-quality Face

Fan Xie,Pan Cao

Main category: cs.CV

TL;DR: 提出了一种名为LH2Face的新型损失函数,通过自适应边距和质量感知策略提升人脸识别性能。

  • Motivation: 现有基于余弦相似度和softmax分类的人脸识别方法在处理困难样本时表现不佳,且缺乏对样本质量和识别难度的考虑。
  • Method: 结合vMF分布相似性度量、自适应边距的多分类方法、代理损失函数以及人脸重建优化。
  • Result: 在IJB-B数据集上达到49.39%的准确率,优于第二名2.37%。
  • Conclusion: LH2Face通过质量感知和自适应策略显著提升了困难高质量人脸的识别性能。

[154] OcRFDet: Object-Centric Radiance Fields for Multi-View 3D Object Detection in Autonomous Driving

Mingqian Ji,Jian Yang,Shanshan Zhang

Main category: cs.CV

TL;DR: 论文提出了一种基于物体中心辐射场(OcRF)的多视角3D目标检测方法,通过专注于前景物体建模提升检测性能。

  • Motivation: 现有方法通过深度估计或3D位置编码隐式地将2D特征转换为3D空间,限制了检测性能。辐射场在3D重建中的成功启发了其用于增强3D几何估计能力。
  • Method: 提出物体中心辐射场(OcRF),专注于前景物体建模,并通过高度感知不透明度注意力(HOA)增强2D特征。
  • Result: 在nuScenes测试集上达到57.2% mAP和64.8% NDS,优于现有方法。
  • Conclusion: OcRFDet通过专注于前景物体建模和背景噪声消除,显著提升了3D目标检测性能。

[155] Metadata, Wavelet, and Time Aware Diffusion Models for Satellite Image Super Resolution

Luigi Sigillo,Renato Giamba,Danilo Comminiello

Main category: cs.CV

TL;DR: MWT-Diff是一种结合潜在扩散模型和小波变换的卫星图像超分辨率框架,通过MWT-Encoder生成嵌入特征,逐步重建高分辨率图像,优于现有方法。

  • Motivation: 高分辨率卫星图像获取受限于传感器时空限制和高成本,影响环境监测等应用。
  • Method: 提出MWT-Diff框架,结合潜在扩散模型和小波变换,利用MWT-Encoder生成嵌入特征指导扩散过程。
  • Result: 在多个数据集上表现优于现有方法,FID和LPIPS等指标验证了其优越性。
  • Conclusion: MWT-Diff能有效解决卫星图像超分辨率问题,保留关键空间特征,适用于遥感分析。

[156] Event-based Tiny Object Detection: A Benchmark Dataset and Baseline

Nuo Chen,Chao Xiao,Yimian Dai,Shiman He,Miao Li,Wei An

Main category: cs.CV

TL;DR: 论文提出了首个针对反无人机任务的大规模、多样化事件相机小目标检测数据集EV-UAV,并提出了基于时空相关性的稀疏分割网络EV-SpSegNet。

  • Motivation: 传统帧相机在复杂环境中检测小目标效果不佳,而现有事件相机数据集规模小且目标大,缺乏多样性,无法满足小目标检测需求。
  • Method: 提出EV-UAV数据集,包含147个序列和230万事件级标注;设计EV-SpSegNet网络和STC损失函数,利用运动连续性优化事件分割。
  • Result: 在EV-UAV数据集上验证了方法的优越性,为未来研究提供了基准。
  • Conclusion: EV-UAV数据集和EV-SpSegNet为事件相机小目标检测提供了有效解决方案和基准。

[157] StackCLIP: Clustering-Driven Stacked Prompt in Zero-Shot Industrial Anomaly Detection

Yanning Hou,Yanran Ruan,Junfa Li,Shanshan Wang,Jianfeng Qiu,Ke Xu

Main category: cs.CV

TL;DR: 提出了一种通过多类别名称堆叠生成堆叠提示的方法,构建了StackCLIP模型,包含CSP和EFA模块,显著提升了零样本异常检测性能。

  • Motivation: 解决CLIP模型中文本与图像特征对齐的挑战,避免因特定类别提示导致的过拟合和泛化能力受限问题。
  • Method: 通过多类别名称堆叠生成堆叠提示,结合CSP模块构建通用提示,EFA模块训练知识特定线性层并自适应集成。
  • Result: 在七个工业异常检测数据集上实现了最先进的性能。
  • Conclusion: StackCLIP模型在零样本异常检测和分割任务中表现优异,具有强大的泛化能力。

[158] Dataset Distillation via Vision-Language Category Prototype

Yawen Zou,Guang Li,Duo Su,Zi Wang,Jun Yu,Chao Zhang

Main category: cs.CV

TL;DR: 该研究提出了一种结合视觉-语言方法的数据集蒸馏技术,通过引入文本原型和图像原型协同合成数据,提升了性能。

  • Motivation: 传统数据集蒸馏方法主要关注图像信息,忽略了语义信息,导致模型泛化能力不足。
  • Method: 利用开源大语言模型生成的描述性文本信息作为文本原型,与图像原型协同合成数据。
  • Result: 该方法生成了逻辑一致的图像,验证性能达到最优,并表现出强大的泛化能力。
  • Conclusion: 该框架扩展了数据集蒸馏的应用范围,适用于无文本描述的数据集,性能优于传统方法。

[159] PBCAT: Patch-based composite adversarial training against physically realizable attacks on object detection

Xiao Li,Yiming Zhu,Yifan Huang,Wei Zhang,Yingzhe He,Jie Shi,Xiaolin Hu

Main category: cs.CV

TL;DR: 论文提出了一种名为PBCAT的统一对抗训练方法,用于防御多种物理可实现攻击,显著提升了目标检测器的鲁棒性。

  • Motivation: 目标检测在安全敏感应用中至关重要,但易受物理可实现攻击(如对抗性补丁和纹理)的威胁。现有对抗训练方法主要针对分类模型,对目标检测器的防御研究不足。
  • Method: 提出PBCAT方法,结合小区域梯度引导对抗补丁和全局不可察觉对抗扰动,优化模型。
  • Result: 实验表明,PBCAT显著提升了对抗多种物理可实现攻击的鲁棒性,检测准确率比现有防御方法提高了29.7%。
  • Conclusion: PBCAT是一种有效的统一对抗训练方法,能够防御多种物理可实现攻击,为目标检测安全提供了新思路。

[160] CAI: Caption-Sensitive Attention Intervention for Mitigating Object Hallucination in Large Vision-Language Models

Qiming Li,Zekai Ye,Xiaocheng Feng,Weihong Zhong,Libo Qin,Ruihan Chen,Baohang Li,Kui Jiang,Yaowei Wang,Ting Liu,Bing Qin

Main category: cs.CV

TL;DR: 提出了一种无需训练的Caption-sensitive Attention Intervention (CAI)方法,通过利用LVLMs在回答caption查询时的注意力模式,减少视觉信息偏差和对象幻觉。

  • Motivation: 解决LVLMs在视觉信息解释中常出现的对象幻觉问题,避免依赖昂贵的手动标注和训练成本。
  • Method: 利用caption查询时的注意力激活模式,设计了一种即插即用的CAI方法,增强LVLMs的视觉感知能力。
  • Result: 在四个基准测试中,CAI以最小的额外推理成本实现了最先进的幻觉缓解性能。
  • Conclusion: CAI是一种高效且无需训练的幻觉缓解方法,适用于多种任务。

[161] AI-Generated Lecture Slides for Improving Slide Element Detection and Retrieval

Suyash Maniyar,Vishvesh Trivedi,Ajoy Mondal,Anand Mishra,C. V. Jawahar

Main category: cs.CV

TL;DR: 论文提出了一种基于大语言模型(LLM)的合成幻灯片生成方法SynLecSlideGen,用于解决幻灯片元素检测和检索任务中标注数据不足的问题,并通过实验证明合成数据能显著提升模型性能。

  • Motivation: 解决幻灯片理解任务中需要大量人工标注数据的问题,减少标注成本。
  • Method: 提出SynLecSlideGen,利用LLM生成高质量合成幻灯片;创建RealSlide基准数据集;通过少样本迁移学习验证合成数据的有效性。
  • Result: 实验表明,基于合成数据的预训练显著优于仅使用真实数据的训练。
  • Conclusion: 合成数据可以有效弥补真实标注数据的不足,提升模型性能。

[162] SG-LDM: Semantic-Guided LiDAR Generation via Latent-Aligned Diffusion

Zhengkang Xiang,Zizhao Li,Amir Khodabandeh,Kourosh Khoshelham

Main category: cs.CV

TL;DR: SG-LDM是一种基于语义引导的激光雷达扩散模型,通过潜在对齐实现语义到激光雷达的合成,显著提升了生成质量和下游任务性能。

  • Motivation: 解决现有激光雷达点云生成方法缺乏语义引导的问题,以增强数据多样性和下游感知性能。
  • Method: 提出SG-LDM模型,利用潜在对齐和显式语义条件,直接在激光雷达空间操作,并开发扩散式激光雷达翻译框架。
  • Result: SG-LDM在生成高保真激光雷达点云方面表现优异,翻译框架进一步提升了数据增强效果。
  • Conclusion: SG-LDM及其翻译框架为激光雷达数据合成和领域适应提供了高效解决方案。

[163] PGOV3D: Open-Vocabulary 3D Semantic Segmentation with Partial-to-Global Curriculum

Shiqi Zhang,Sha Zhang,Jiajun Deng,Yedong Shen,Mingxiao MA,Yanyong Zhang

Main category: cs.CV

TL;DR: PGOV3D提出了一种新的两阶段训练框架,通过部分到全局的课程学习改进开放词汇3D语义分割。

  • Motivation: 现有方法仅将多视角图像作为开放词汇信息的中介,忽略了其丰富的语义内容和跨视角对应关系,限制了模型效果。
  • Method: 采用两阶段训练策略:第一阶段在部分场景上预训练,利用多模态大语言模型和2D分割基础模型生成开放词汇标签;第二阶段在完整场景上微调,通过伪标签桥接语义差距。
  • Result: 在ScanNet、ScanNet200和S3DIS基准测试中表现优异。
  • Conclusion: PGOV3D通过部分到全局的课程学习和多模态监督,显著提升了开放词汇3D语义分割的性能。

[164] AttentionGS: Towards Initialization-Free 3D Gaussian Splatting via Structural Attention

Ziao Liu,Zhenjia Li,Yifeng Shi,Xiangang Li

Main category: cs.CV

TL;DR: AttentionGS是一种新的3D高斯点云重建框架,通过结构注意力直接从随机初始化进行重建,解决了传统3DGS依赖高质量点云的问题。

  • Motivation: 传统3DGS依赖高质量点云初始化,在纹理不足或视角受限的场景中表现不佳。
  • Method: 提出AttentionGS,结合几何注意力和纹理注意力,逐步优化全局结构和细节,并使用不透明度加权梯度指导高斯点云密度化。
  • Result: 在多个基准数据集上显著优于现有方法,尤其在点云初始化不可靠的场景中表现突出。
  • Conclusion: AttentionGS为3D高斯点云重建提供了更鲁棒和灵活的解决方案,适用于实际应用。

[165] TurboVSR: Fantastic Video Upscalers and Where to Find Them

Zhongdao Wang,Guodongfang Zhao,Jingjing Ren,Bailan Feng,Shifeng Zhang,Wenbo Li

Main category: cs.CV

TL;DR: TurboVSR是一种基于扩散模型的超高效视频超分辨率方法,通过高压缩比自动编码器、分解条件化和快捷模型设计,实现了与现有技术相当的效果,但速度快了100多倍。

  • Motivation: 当前基于扩散模型的视频超分辨率方法在细节生成上表现优异,但计算效率低下,处理短视频耗时过长。
  • Method: 1. 使用高压缩比(32×32×8)的自动编码器减少token数量;2. 引入分解条件化,先学习超分辨率初始帧,再基于高分辨率初始帧和低分辨率后续帧处理剩余帧;3. 将预训练扩散模型转换为快捷模型以减少采样步骤。
  • Result: TurboVSR在性能上与现有最佳方法相当,但速度快100多倍,仅需7秒处理2秒1080p视频,并支持4K图像超分辨率。
  • Conclusion: TurboVSR的高效设计显著提升了计算效率,为更高分辨率(如4K)的超分辨率任务提供了可能。

[166] Revisiting Audio-Visual Segmentation with Vision-Centric Transformer

Shaofei Huang,Rui Ling,Tianrui Hui,Hongyu Li,Xu Zhou,Shifeng Zhang,Si Liu,Richang Hong,Meng Wang

Main category: cs.CV

TL;DR: 论文提出了一种视觉中心Transformer(VCT)框架,通过视觉驱动的查询解决音频中心Transformer的感知模糊和视觉细节丢失问题,并在AVSBench数据集上取得最佳性能。

  • Motivation: 现有音频中心Transformer方法存在音频混合导致的感知模糊和视觉细节丢失问题,限制了分割性能。
  • Method: 提出VCT框架,利用视觉驱动查询迭代获取音频和视觉信息,并引入PPQG模块生成语义和视觉丰富的查询。
  • Result: 在AVSBench数据集的三个子集上实现了新的最佳性能。
  • Conclusion: VCT框架有效解决了音频中心方法的局限性,提升了音频-视觉分割的准确性。

[167] Brain Tumor Detection through Thermal Imaging and MobileNET

Roham Maiti,Debasmita Bhoumik

Main category: cs.CV

TL;DR: 论文提出了一种基于MobileNET的高效脑肿瘤检测方法,解决了传统方法和经典机器学习模型的高成本和计算资源需求问题,实现了98.5%的平均准确率。

  • Motivation: 脑肿瘤对人类健康构成重大威胁,传统检测方法(如活检、MRI和CT扫描)成本高且依赖专业医疗知识,经典机器学习模型也存在计算资源需求大、训练时间长等问题。
  • Method: 研究采用MobileNET模型,结合图像处理技术,构建了一个计算资源需求低、运行时间短的脑肿瘤检测模型。
  • Result: 提出的方法在脑肿瘤检测中实现了98.5%的平均准确率。
  • Conclusion: 该方法在高效性和准确性上表现优异,为脑肿瘤检测提供了一种可行的解决方案。

[168] Blending Concepts with Text-to-Image Diffusion Models

Lorenzo Olearo,Giorgio Longari,Alessandro Raganato,Rafael Peñaloza,Simone Melzi

Main category: cs.CV

TL;DR: 扩散模型在零样本框架下能够将不同概念(从具体对象到抽象想法)融合成新的视觉实体,研究了四种融合方法,发现每种方法在不同场景下表现最佳。

  • Motivation: 探索扩散模型是否能够在不额外训练的情况下,将多个概念的关键属性融合成单一新颖图像。
  • Method: 研究了四种融合方法,包括提示调度、嵌入插值和分层条件等,通过系统实验验证其效果。
  • Result: 扩散模型展现出创造性融合能力,但不同方法在不同条件下表现各异,用户研究表明没有单一方法在所有场景下最优。
  • Conclusion: 扩散模型具有显著的组合潜力,但对输入细节(如提示顺序和随机种子)敏感。

[169] Unified Multimodal Understanding via Byte-Pair Visual Encoding

Wanpeng Zhang,Yicheng Feng,Hao Luo,Yijiang Li,Zihao Yue,Sipeng Zheng,Zongqing Lu

Main category: cs.CV

TL;DR: 提出了一种基于字节对编码的统一多模态理解框架,通过优先级引导的编码方案和多阶段训练,提升了跨模态关系捕捉能力。

  • Motivation: 解决多模态大语言模型中不同模态对齐的根本挑战,提升视觉-语言理解能力。
  • Method: 采用字节对编码处理视觉标记,引入优先级引导的编码方案(考虑频率和空间一致性)和多阶段训练策略。
  • Result: 在多种视觉-语言任务中表现更优,验证了方法的有效性。
  • Conclusion: 通过统一视觉和文本表示,推动了更高效、更强大的多模态基础模型的发展。

[170] VAP-Diffusion: Enriching Descriptions with MLLMs for Enhanced Medical Image Generation

Peng Huang,Junhu Fu,Bowen Guo,Zeju Li,Yuanyuan Wang,Yi Guo

Main category: cs.CV

TL;DR: VAP-Diffusion框架利用多模态大语言模型(MLLMs)的外部知识,通过视觉属性提示生成更真实和多样化的医学图像。

  • Motivation: 医学图像的外观受多种因素影响,生成模型需要超越标签的丰富属性信息,但详细描述往往不可得。
  • Method: 设计基于Chain-of-Thoughts的提示从MLLMs获取描述,提出原型条件机制以增强生成器对新描述组合的鲁棒性。
  • Result: 在四种数据集上的实验验证了VAP-Diffusion的有效性。
  • Conclusion: VAP-Diffusion通过利用外部知识和原型条件机制,显著提升了医学图像生成的质量和多样性。

[171] MReg: A Novel Regression Model with MoE-based Video Feature Mining for Mitral Regurgitation Diagnosis

Zhe Liu,Yuhao Huang,Lian Liu,Chengrui Zhang,Haotian Lin,Tong Han,Zhiyuan Zhu,Yanlin Chen,Yuerui Chen,Dong Ni,Zhongshan Gou,Xin Yang

Main category: cs.CV

TL;DR: 提出了一种自动化MR诊断模型MReg,基于4腔心彩色多普勒超声视频,通过回归任务和特征选择机制提升诊断准确性和临床适用性。

  • Motivation: 现有智能MR诊断方法依赖性强且与临床工作流不符,导致准确性和可解释性不足。
  • Method: 采用回归任务捕捉类别连续性,设计特征选择与放大机制模拟超声医师逻辑,引入特征总结模块增强表征能力。
  • Result: 在1868例数据集上表现优于其他方法,诊断性能更优。
  • Conclusion: MReg模型显著提升了MR诊断的准确性和临床实用性。

[172] Towards Markerless Intraoperative Tracking of Deformable Spine Tissue

Connor Daly,Elettra Marconi,Marco Riva,Jinendra Ekanayake,Daniel S. Elson,Ferdinando Rodriguez y Baena

Main category: cs.CV

TL;DR: 论文介绍了首个用于脊柱手术的临床RGB-D数据集,开发了SpineAlign系统和CorrespondNet框架,用于无标记跟踪和变形捕捉。

  • Motivation: 减少手术时间和复杂性,通过无标记跟踪替代骨固定设备,推动临床实际应用。
  • Method: 开发SpineAlign系统捕捉变形,提出CorrespondNet多任务框架预测关键区域,并训练术中分割网络。
  • Result: 成功构建首个临床RGB-D数据集,实现术中与术前场景的无标记跟踪和变形捕捉。
  • Conclusion: 该方法具有高转化潜力,为脊柱手术提供了新的无标记跟踪解决方案。

[173] On the Domain Robustness of Contrastive Vision-Language Models

Mario Koddenbrock,Rudolf Hoffmann,David Brodmann,Erik Rodner

Main category: cs.CV

TL;DR: Deepbench是一个评估视觉语言模型(VLM)领域特定鲁棒性的框架,利用大语言模型(LLM)生成特定领域的图像损坏,无需标注数据。

  • Motivation: 尽管大型预训练基础模型在通用基准上表现出色,但在特定领域变化(如独特成像条件)下性能下降明显,缺乏透明性。
  • Method: Deepbench通过LLM生成特定领域的上下文感知图像损坏,评估多种对比视觉语言架构的鲁棒性。
  • Result: 在六个真实领域评估中,模型鲁棒性存在显著差异,表明需要针对领域的评估。
  • Conclusion: Deepbench作为开源工具发布,支持领域感知鲁棒性评估的进一步研究。

[174] Partial Forward Blocking: A Novel Data Pruning Paradigm for Lossless Training Acceleration

Dongyue Wu,Zilin Guo,Jialong Zuo,Nong Sang,Changxin Gao

Main category: cs.CV

TL;DR: 提出了一种名为Partial Forward Blocking (PFB)的新框架,通过自适应剪枝管道减少计算成本,提升训练效率。

  • Motivation: 解决现有数据剪枝方法因依赖梯度或代理模型而带来的额外计算成本问题。
  • Method: 基于浅层特征评估样本重要性,剪枝不重要样本以减少深层前向传播和反向传播的计算开销。
  • Result: 在ImageNet上,PFB在剪枝40%数据的情况下,实现了0.5%的准确率提升和33%的训练时间减少。
  • Conclusion: PFB在性能和速度上均表现出显著优势,是一种高效的无损训练加速方法。

[175] Pruning by Block Benefit: Exploring the Properties of Vision Transformer Blocks during Domain Adaptation

Patrick Glandorf,Bodo Rosenhahn

Main category: cs.CV

TL;DR: 提出了一种名为P3B的剪枝方法,通过全局评估块级贡献来优化资源分配,显著提升了剪枝性能,尤其在迁移学习任务中表现突出。

  • Motivation: Vision Transformer计算成本高,传统剪枝方法在未见数据域上表现不佳,导致资源分配不理想。
  • Method: P3B利用块级相对贡献全局分配参数资源,识别低影响组件并保留关键部分,通过层间保留比例确保后期收敛块的激活。
  • Result: P3B在70%参数减少的高稀疏度下仅损失0.64%准确率,成为当前最先进的剪枝方法。
  • Conclusion: P3B通过全局性能指标优化剪枝,显著提升了模型在资源受限硬件上的实用性。

[176] A Unified Framework for Stealthy Adversarial Generation via Latent Optimization and Transferability Enhancement

Gaozheng Pei,Ke Ma,Dongpeng Zhang,Chengzhi Sun,Qianqian Xu,Qingming Huang

Main category: cs.CV

TL;DR: 提出了一种统一框架,将传统对抗样本生成策略融入基于扩散模型的图像编辑方法,以提升其在更广泛下游任务中的泛化能力。

  • Motivation: 现有基于扩散模型的对抗样本生成方法依赖模型的判别能力,难以泛化到传统图像分类任务之外(如Deepfake检测),且传统增强策略难以适配。
  • Method: 设计了一个统一框架,将传统对抗样本生成策略与扩散模型结合,通过图像编辑生成对抗样本。
  • Result: 该方法在ACM MM25竞赛中获得第一名,验证了其有效性。
  • Conclusion: 提出的框架成功解决了扩散模型在对抗样本生成中的泛化和适配问题,适用于更广泛的任务。

[177] SynMotion: Semantic-Visual Adaptation for Motion Customized Video Generation

Shuai Tan,Biao Gong,Yujie Wei,Shiwei Zhang,Zhuoxin Liu,Dandan Zheng,Jingdong Chen,Yan Wang,Hao Ouyang,Kecheng Zheng,Yujun Shen

Main category: cs.CV

TL;DR: SynMotion是一个结合语义指导和视觉适应的视频运动定制生成模型,通过双嵌入语义理解机制和参数高效运动适配器,提升了运动保真度和时间一致性。

  • Motivation: 现有方法仅关注语义对齐或视觉表示,导致运动复杂性被忽视或语义混淆。SynMotion旨在同时解决这两方面问题。
  • Method: 提出双嵌入语义理解机制分离主体和运动表示,并引入参数高效运动适配器。采用交替优化训练策略和SPV数据集。
  • Result: 在T2V和I2V设置下,SynMotion优于现有基线方法。
  • Conclusion: SynMotion通过联合语义和视觉优化,实现了高质量的视频运动定制生成。

[178] Single Image Test-Time Adaptation via Multi-View Co-Training

Smriti Joshi,Richard Osuala,Lidia Garrucho,Kaisar Kushibar,Dimitri Kessler,Oliver Diaz,Karim Lekadir

Main category: cs.CV

TL;DR: 提出一种基于补丁的多视图协同训练方法,用于单图像测试时适应,解决了医学影像中实时推理的需求。

  • Motivation: 现有测试时适应方法依赖大数据集且仅适用于二维图像,无法满足医学影像的实时需求。
  • Method: 通过不确定性引导的自训练实现特征和预测一致性,仅需单张测试图像即可完成体积分割。
  • Result: 在三个公开乳腺MRI数据集上,性能接近监督基准,平均Dice系数优于现有方法3.75%。
  • Conclusion: 该方法在医学影像中实现了高效的实时适应,代码已开源。

[179] Subjective Camera: Bridging Human Cognition and Visual Reconstruction through Sequence-Aware Sketch-Guided Diffusion

Haoyang Chen,Dongfang Sun,Caoyuan Ma,Shiqin Wang,Kewei Zhang,Zheng Wang,Zhixiang Wang

Main category: cs.CV

TL;DR: Subjective Camera通过结合语言描述和渐进草图,将主观感知转化为逼真图像,解决了语言模糊性和草图抽象性的双重限制。

  • Motivation: 现有方法存在用户主观输入偏差、平面草图与3D先验之间的模态差距以及草图质量敏感性问题,需要资源密集型模型适应或不切实际的草图精度要求。
  • Method: 采用概念顺序生成,通过文本奖励优化建立外观先验,并实现顺序感知解耦生成;利用潜在优化桥接平面草图与3D先验;分层奖励引导框架支持粗糙草图。
  • Result: 在多样数据集上实现语义和空间一致性的最先进性能。
  • Conclusion: Subjective Camera通过创新方法有效解决了现有挑战,无需训练即可适应用户主观期望,且支持粗糙草图输入。

[180] Towards an Automated Multimodal Approach for Video Summarization: Building a Bridge Between Text, Audio and Facial Cue-Based Summarization

Md Moinul Islam,Sofoklis Kakouros,Janne Heikkilä,Mourad Oussalah

Main category: cs.CV

TL;DR: 本文提出了一种行为感知的多模态视频摘要框架,整合文本、音频和视觉线索生成时间戳对齐的摘要,显著优于传统方法。

  • Motivation: 随着视频内容在教育、职业和社交领域的增加,需要超越传统单模态方法的有效摘要技术。
  • Method: 通过提取韵律特征、文本线索和视觉指标,识别语义和情感重要时刻,并利用跨模态强调的“奖励词”提升摘要质量。
  • Result: 实验结果显示,ROUGE-1从0.4769提升至0.7929,BERTScore从0.9152提升至0.9536,视频评估F1-Score提高近23%。
  • Conclusion: 多模态整合在生成全面且行为感知的视频摘要方面具有巨大潜力。

[181] When Small Guides Large: Cross-Model Co-Learning for Test-Time Adaptation

Chang'an Yi,Xiaohui Deng,Guohao Chen,Yan Zhou,Qinghua Lu,Shuaicheng Niu

Main category: cs.CV

TL;DR: COCA是一个跨模型协同学习框架,通过互补知识和自我适应提升测试时适应(TTA)性能。

  • Motivation: 现有TTA方法仅关注单模型适应,本文探讨跨模型知识对TTA的影响。
  • Method: 提出COCA框架,包含协同适应(整合互补知识)和自我适应(增强模型独特性)。
  • Result: COCA显著提升性能,例如ViT-Base在ImageNet-C上的准确率从51.7%提升至64.5%。
  • Conclusion: 跨模型协同学习可有效提升TTA性能,COCA具有普适性和实用性。

[182] Proteus-ID: ID-Consistent and Motion-Coherent Video Customization

Guiyu Zhang,Chen Shi,Zijian Jiang,Xunzhi Xiang,Jingjing Qian,Shaoshuai Shi,Li Jiang

Main category: cs.CV

TL;DR: Proteus-ID 是一种基于扩散的框架,用于身份一致和运动连贯的视频定制,通过多模态身份融合、时间感知身份注入和自适应运动学习解决挑战。

  • Motivation: 视频身份定制任务面临身份一致性和运动自然性的挑战,需要一种新方法来统一视觉和文本线索并生成高质量视频。
  • Method: 提出 Proteus-ID 框架,包括 Multimodal Identity Fusion (MIF) 模块、Time-Aware Identity Injection (TAII) 机制和 Adaptive Motion Learning (AML) 策略。
  • Result: Proteus-ID 在身份保持、文本对齐和运动质量上优于现有方法,并建立了新的基准。
  • Conclusion: Proteus-ID 通过创新的模块和策略,为视频身份定制任务提供了高效解决方案,代码和数据已公开。

[183] Can We Challenge Open-Vocabulary Object Detectors with Generated Content in Street Scenes?

Annika Mütze,Sadia Ilyas,Christian Dörpelkus,Matthias Rottmann

Main category: cs.CV

TL;DR: 论文探讨了通过合成数据挑战开放词汇目标检测器的局限性,发现其性能依赖于物体位置而非语义。

  • Motivation: 开放词汇目标检测器在安全关键应用中存在局限性,但真实数据难以系统评估其泛化能力。
  • Method: 使用稳定扩散生成合成数据,通过WordNet和ChatGPT采样语义多样的物体,评估多个检测器。
  • Result: 合成数据能挑战检测器,发现其性能依赖物体位置而非语义。
  • Conclusion: 合成数据为挑战和改进开放词汇检测器提供了系统方法。

[184] Mamba-FETrack V2: Revisiting State Space Model for Frame-Event based Visual Object Tracking

Shiao Wang,Ju Huang,Qingchuan Ma,Jinfeng Gao,Chunyi Xu,Xiao Wang,Lan Chen,Bo Jiang

Main category: cs.CV

TL;DR: 提出了一种基于线性复杂度Vision Mamba网络的高效RGB-Event目标跟踪框架Mamba-FETrack V2,通过轻量级Prompt Generator和FEMamba主干网络实现跨模态特征提取与融合。

  • Motivation: 现有跨模态跟踪算法依赖高复杂度Vision Transformer架构,导致计算开销大且跨模态交互效果受限。
  • Method: 设计轻量级Prompt Generator生成模态特定提示向量,结合Vision Mamba网络FEMamba实现特征提取与融合。
  • Result: 在多个RGB-Event跟踪基准测试中表现出优越性能和效率。
  • Conclusion: Mamba-FETrack V2框架在计算效率和性能上均优于现有方法。

[185] Visual Textualization for Image Prompted Object Detection

Yongjian Wu,Yang Zhou,Jiya Saiyin,Bingzheng Wei,Yan Xu

Main category: cs.CV

TL;DR: VisTex-OVLM是一种新颖的图像提示目标检测方法,通过视觉文本化增强对象级视觉语言模型(OVLM)对罕见类别的检测能力。

  • Motivation: 解决OVLM在罕见类别检测上的不足,这些类别难以用文本描述且预训练数据中几乎不存在。
  • Method: 利用多尺度文本化块和多阶段融合策略,将视觉示例信息转化为文本特征空间中的视觉化文本标记。
  • Result: 在开放集数据集和少样本基准测试(PASCAL VOC和MSCOCO)上取得最先进性能。
  • Conclusion: VisTex-OVLM在保持OVLM原有架构和泛化能力的同时,显著提升了少样本场景下的检测性能。

[186] Controllable Reference-Based Real-World Remote Sensing Image Super-Resolution with Generative Diffusion Priors

Ce Wang,Wanjie Sun

Main category: cs.CV

TL;DR: 论文提出了一种名为CRefDiff的新型可控参考超分辨率扩散模型,用于解决遥感图像超分辨率中的现实挑战,如跨传感器分辨率差距和土地覆盖变化。

  • Motivation: 现有参考超分辨率方法在现实复杂场景中表现不佳,存在生成不足或过度依赖参考图像的问题。
  • Method: 基于预训练的Stable Diffusion模型,引入双分支融合机制自适应整合参考图像的局部和全局信息,并提出Better Start策略加速推理。
  • Result: 在Real-RefRSSRD数据集上,CRefDiff在多项指标上达到最优,并提升了下游任务性能。
  • Conclusion: CRefDiff通过可控参考和高效推理,显著提升了遥感图像超分辨率的性能和应用灵活性。

[187] Towards Initialization-free Calibrated Bundle Adjustment

Carl Olsson,Amanda Nilsson

Main category: cs.CV

TL;DR: 提出了一种利用已知相机标定的方法,通过引入成对相对旋转估计,实现近度量重建,解决了初始化自由BA中仅能获得投影变换解的问题。

  • Motivation: 传统初始化自由BA方法仅能获得投影变换解,无法利用相机标定信息,导致重建精度受限且需要更多数据。
  • Method: 引入成对相对旋转估计,结合相机标定信息,将旋转平均集成到pOSE框架中,实现近度量重建。
  • Result: 实验表明,该方法能够可靠优化目标函数,从随机初始解高概率收敛到全局最小值,获得准确的近度量重建。
  • Conclusion: 该方法成功将相机标定信息融入初始化自由BA,显著提升了重建的度量精度。

[188] MadCLIP: Few-shot Medical Anomaly Detection with CLIP

Mahshid Shiri,Cigdem Beyan,Vittorio Murino

Main category: cs.CV

TL;DR: 提出了一种基于CLIP模型的少样本异常检测方法,用于医学数据的图像级和像素级异常检测,通过双分支设计和可学习文本提示提升性能。

  • Motivation: 解决医学数据中少样本异常检测的挑战,利用预训练模型避免依赖合成数据或内存库。
  • Method: 采用双分支设计捕获正常和异常特征,使用可学习文本提示增强语义对齐,并应用SigLIP损失处理图像与文本提示的多对一关系。
  • Result: 在多模态数据上验证,性能优于现有方法,适用于同数据集和跨数据集评估。
  • Conclusion: 该方法无需合成数据或内存库,各组件通过消融实验验证有效性,代码已开源。

[189] Interpretable Zero-Shot Learning with Locally-Aligned Vision-Language Model

Shiming Chen,Bowen Duan,Salman Khan,Fahad Shahbaz Khan

Main category: cs.CV

TL;DR: LaZSL是一种基于局部视觉-语义对齐的可解释零样本学习方法,通过最优传输实现视觉区域与属性的对齐,提升了解释性和准确性。

  • Motivation: 大规模视觉-语言模型(如CLIP)在零样本学习中表现优异,但缺乏解释性。LaZSL旨在通过局部对齐提升模型的解释性和性能。
  • Method: LaZSL利用最优传输实现局部视觉特征与离散属性的对齐,无需额外训练即可提供可解释的相似性。
  • Result: 实验表明,LaZSL在解释性、准确性和领域泛化能力方面均有显著提升。
  • Conclusion: LaZSL为可解释零样本学习提供了一种有效方法,兼具高性能和解释性。

[190] Flash-VStream: Efficient Real-Time Understanding for Long Video Streams

Haoji Zhang,Yiqin Wang,Yansong Tang,Yong Liu,Jiashi Feng,Xiaojie Jin

Main category: cs.CV

TL;DR: Flash-VStream是一种高效的长视频语言模型,通过设计Flash Memory模块显著降低推理延迟,并在多个基准测试中表现优异。

  • Motivation: 现有模型在处理长视频时存在计算和内存开销大的问题,且方法效率低、泛化能力差。
  • Method: 提出Flash Memory模块,包含低容量上下文记忆和高容量增强记忆,分别聚合长时信息密度分布和检索详细空间信息。
  • Result: 在EgoSchema、MLVU等基准测试中达到最先进性能,显著降低推理延迟。
  • Conclusion: Flash-VStream高效处理长视频,适用于实时应用,代码已开源。

[191] Spatially Gene Expression Prediction using Dual-Scale Contrastive Learning

Mingcheng Qu,Yuncong Wu,Donglin Di,Yue Gao,Tonghua Su,Yang Song,Lei Fan

Main category: cs.CV

TL;DR: NH2ST框架通过整合空间上下文和多模态数据,显著提升了从病理图像预测基因表达的性能。

  • Motivation: 现有方法忽略了空间和分子间的复杂交互,导致预测性能受限。
  • Method: 提出NH2ST框架,结合查询分支和邻居分支,利用交叉注意力和对比学习捕获病理与基因表达间的关联。
  • Result: 在六个数据集上实验,性能优于现有方法,PCC指标提升超过20%。
  • Conclusion: NH2ST通过多模态和空间上下文整合,为基因表达预测提供了高效解决方案。

[192] Low-latency vision transformers via large-scale multi-head attention

Ronit D. Gross,Tal Halevi,Ella Koresh,Yarden Tzach,Ido Kanter

Main category: cs.CV

TL;DR: 研究发现多头注意力机制(MHA)在分类任务中会出现自发性对称破缺现象,通过量化单节点性能(SNP)发现每个头专注于部分标签。这一机制推广到大规模MHA(LS-MHA),通过单头性能(SHP)矩阵提高信噪比(SNR),提升分类精度。此外,用卷积层替换初始Transformer块可减少延迟且不影响精度。

  • Motivation: 探索多头注意力机制在分类任务中的学习机制,并推广到大规模MHA,以提高分类精度和效率。
  • Method: 通过量化单节点性能(SNP)和单头性能(SHP)矩阵,分析多头注意力机制的行为,并设计不同的ViT架构。
  • Result: 发现SHP矩阵包含多个单元簇,每个标签由少数头明确识别,信噪比提高,分类精度提升。用卷积层替换初始Transformer块可减少延迟。
  • Conclusion: 多头注意力机制的学习机制可推广到大规模MHA,并通过架构优化提升性能,为深度学习提供新见解。

[193] PointSSIM: A novel low dimensional resolution invariant image-to-image comparison metric

Oscar Ovanger,Ragnar Hauge,Jacob Skauvold,Michael J. Pyrcz,Jo Eidsvik

Main category: cs.CV

TL;DR: PointSSIM是一种新型的低维图像比较指标,具有分辨率不变性,适用于不同分辨率的二进制图像比较。

  • Motivation: 开发一种能够跨分辨率进行稳健比较的图像指标,解决二进制图像在不同分辨率下的结构分析需求。
  • Method: 通过将二进制图像转换为标记点模式表示,提取关键特征(锚点),并使用总结向量进行图像比较。
  • Result: 该方法在图像比较中表现出高效性和可靠性,尤其适用于跨分辨率的结构分析。
  • Conclusion: PointSSIM为跨分辨率的图像结构分析提供了一种有效的解决方案。

[194] Refine Any Object in Any Scene

Ziwei Chen,Ziling Liu,Zitong Huang,Mingqi Gao,Feng Zheng

Main category: cs.CV

TL;DR: RAISE提出了一种利用3D生成先验恢复缺失视角下物体几何和外观的框架,显著提升了新视角合成和几何补全任务的表现。

  • Motivation: 解决场景重建中因视角缺失导致物体建模不完整的问题,以支持需要详细物体理解的下游任务。
  • Method: 通过3D生成模型替换退化物体,分两阶段优化几何和纹理:先对齐代理物体,再校正空间和外观不一致。
  • Result: 在多个基准测试中,RAISE在新视角合成和几何补全任务上显著优于现有方法。
  • Conclusion: RAISE通过两阶段优化实现了高保真物体建模,同时保持场景一致性,为相关任务提供了有效解决方案。

[195] RGC-VQA: An Exploration Database for Robotic-Generated Video Quality Assessment

Jianing Jin,Jiangyong Ying,Huiyu Duan,Liu Yang,Sijing Wu,Yunhao Li,Yushuo Zheng,Xiongkuo Min,Guangtao Zhai

Main category: cs.CV

TL;DR: 论文提出了机器人生成内容(RGC)的概念,并建立了首个RGC视频数据库(RGCD),用于评估现有视频质量评估(VQA)模型的性能,发现其局限性。

  • Motivation: 随着机器人视频在流媒体平台上的普及,RGC视频的感知质量对人类-机器人交互至关重要,但目前缺乏专门的研究。
  • Method: 建立包含2,100个RGC视频的数据库(RGCD),进行主观VQA实验,并评估11种现有VQA模型的性能。
  • Result: 实验表明现有VQA模型在复杂RGC视频上表现不佳,需开发RGC专用模型。
  • Conclusion: RGCD填补了RGC视频质量评估的空白,为未来研究提供了基础。

[196] HiNeuS: High-fidelity Neural Surface Mitigating Low-texture and Reflective Ambiguity

Yida Wang,Xueyang Zhang,Kun Zhan,Peng Jia,Xianpeng Lang

Main category: cs.CV

TL;DR: HiNeuS是一个统一的神经表面重建框架,通过解决多视角辐射不一致性、纹理缺失区域的关键点丢失以及Eikonal约束过强导致的结构退化问题,实现了几何保真度和光度一致性的平衡。

  • Motivation: 现有方法在多视角辐射一致性、纹理缺失区域的关键点检测以及Eikonal约束的平衡方面存在不足,HiNeuS旨在通过统一框架解决这些问题。
  • Method: HiNeuS引入微分可见性验证、平面共形正则化和物理基础的Eikonal松弛,通过统一管道协同优化几何与外观约束。
  • Result: 在合成和真实数据集上表现优异,Chamfer距离减少21.4%,PSNR提升2.32 dB,并能恢复镜面反射、低纹理表面等复杂场景。
  • Conclusion: HiNeuS通过协同优化几何与外观约束,实现了高性能的表面重建,并在逆渲染任务中展示了良好的泛化能力。

[197] A Closer Look at Conditional Prompt Tuning for Vision-Language Models

Ji Zhang,Shihan Wu,Lianli Gao,Jingkuan Song,Nicu Sebe,Heng Tao Shen

Main category: cs.CV

TL;DR: 论文提出Class-adaptive Prompt Tuning (CaPT),通过基于文本类别信息(TCI)的动态提示解决Vision-Language Pretrained Models (VLPMs)中的Base-New Tradeoff (BNT)问题,显著提升模型在新任务上的泛化能力。

  • Motivation: 现有基于视觉图像信息(VII)的条件提示调优方法在解决BNT问题上表现不佳,甚至不如随机噪声条件提示。研究发现,基于文本类别信息(TCI)的动态提示是解决BNT问题的关键。
  • Method: 提出CaPT方法,通过学习基于TCI的动态提示,快速适应新类别。CaPT可作为插件提升现有无条件提示调优方法的性能。
  • Result: 在11个数据集上的实验表明,CaPT显著提升了五种无条件提示调优基线的性能,且额外计算成本可忽略。结合DePT框架的DeCaPT方法在条件提示调优中达到SOTA性能。
  • Conclusion: CaPT通过TCI-conditioned提示有效解决了BNT问题,且易于集成到现有方法中,显著提升了模型在新任务上的泛化能力。

[198] VMoBA: Mixture-of-Block Attention for Video Diffusion Models

Jianzong Wu,Liang Hou,Haotian Yang,Xin Tao,Ye Tian,Pengfei Wan,Di Zhang,Yunhai Tong

Main category: cs.CV

TL;DR: VMoBA是一种针对视频扩散模型(VDMs)的稀疏注意力机制,通过动态块分区和全局块选择优化计算效率,显著提升训练和推理速度,同时保持生成质量。

  • Motivation: 全注意力机制的二次复杂度限制了VDMs生成长时高分辨率视频的效率,现有稀疏注意力方法未能充分利用视频数据的时空特性。
  • Method: VMoBA基于预训练视频变换器的注意力模式分析,引入层递进块分区(1D-2D-3D)、全局块选择和阈值块选择三项改进。
  • Result: VMoBA在训练中实现2.92倍FLOPs和1.48倍延迟加速,推理中2.40倍FLOPs和1.35倍延迟加速,生成质量与全注意力相当或更优。
  • Conclusion: VMoBA高效解决了VDMs的注意力计算瓶颈,为长时高分辨率视频生成提供了实用解决方案。

[199] Puzzles: Unbounded Video-Depth Augmentation for Scalable End-to-End 3D Reconstruction

Jiahao Ma,Lei Wang,Miaomiao liu,David Ahmedt-Aristizabal,Chuong Nguyen

Main category: cs.CV

TL;DR: 论文提出了一种名为Puzzles的数据增强策略,通过单张图像或视频片段生成大量高质量的姿态-深度数据,显著提升了多视图3D重建的性能。

  • Motivation: 现有方法(如DUST3R)的性能受限于训练数据的多样性和规模,因此需要一种能生成更多样化数据的方法。
  • Method: Puzzles通过模拟多样化的相机轨迹和场景几何,对图像进行针对性变换,生成大量合成数据。
  • Result: 实验表明,Puzzles能显著提升现有3D重建管道的性能,即使仅使用10%的原始数据也能达到与完整数据集相当的精度。
  • Conclusion: Puzzles是一种高效的数据增强策略,无需修改网络架构即可提升3D重建性能。

[200] Spurious-Aware Prototype Refinement for Reliable Out-of-Distribution Detection

Reihaneh Zohrabi,Hosein Hasani,Mahdieh Soleymani Baghshah,Anna Rohrbach,Marcus Rohrbach,Mohammad Hossein Rohban

Main category: cs.CV

TL;DR: SPROD是一种新型原型OOD检测方法,通过优化类别原型减少虚假相关性影响,无需额外数据或调参,显著提升性能。

  • Motivation: 现有OOD检测方法易受虚假相关性误导,影响模型鲁棒性。
  • Method: 提出SPROD,通过后处理优化类别原型,减少虚假特征偏差。
  • Result: 在多个数据集上表现优异,AUROC提升4.7%,FPR@95降低9.3%。
  • Conclusion: SPROD有效解决虚假相关性挑战,适用于多种OOD检测场景。

[201] PriOr-Flow: Enhancing Primitive Panoramic Optical Flow with Orthogonal View

Longliang Liu,Miaojie Feng,Junda Cheng,Jijun Xiang,Xuan Zhu,Xin Yang

Main category: cs.CV

TL;DR: PriOr-Flow是一种新颖的双分支框架,通过正交视图的低失真特性提升全景光流估计性能,特别是在极地区域。

  • Motivation: 传统基于透视的光流方法在全景投影(如ERP)中因严重失真(尤其在极地区域)性能下降。
  • Method: 提出DCCL操作符联合检索原始和正交成本体积的相关信息,并设计ODDC模块迭代优化运动特征。
  • Result: PriOr-Flow在公开全景光流数据集上表现优异,达到最先进水平。
  • Conclusion: PriOr-Flow为宽视场运动估计设定了新基准,兼容多种迭代光流方法。

[202] GroundingDINO-US-SAM: Text-Prompted Multi-Organ Segmentation in Ultrasound with LoRA-Tuned Vision-Language Models

Hamza Rasaee,Taha Koleilat,Hassan Rivaz

Main category: cs.CV

TL;DR: 提出了一种基于提示驱动的视觉语言模型(VLM),结合Grounding DINO和SAM2,用于多器官超声图像分割,性能优于现有方法。

  • Motivation: 解决超声图像中因解剖变异性、成像协议多样性和标注数据有限导致的分割难题。
  • Method: 使用18个公共超声数据集,15个用于微调Grounding DINO(采用LoRA),3个用于测试未见分布的性能。
  • Result: 在多数数据集上优于UniverSeg、MedSAM等方法,且在未见数据集上表现良好。
  • Conclusion: VLM在超声图像分析中具有潜力,减少对大规模器官特定标注数据的依赖。

[203] Three-dimensional end-to-end deep learning for brain MRI analysis

Radhika Juglan,Marta Ligero,Zunamys I. Carrero,Asier Rabasco,Tim Lenz,Leo Misera,Gregory Patrick Veldhuizen,Paul Kuntke,Hagen H. Kitzler,Sven Nebelung,Daniel Truhn,Jakob Nikolas Kather

Main category: cs.CV

TL;DR: 研究发现,简单的全连接网络(SFCN)在脑影像分析中表现优于复杂的深度学习架构(如DenseNet和Swin Transformer),尤其是在跨数据集的泛化能力上。

  • Motivation: 评估深度学习模型在不同脑影像队列中对年龄和性别预测的泛化能力,尤其是考虑到年龄和性别是临床神经科学中的关键生物标志物。
  • Method: 使用三种3D架构(SFCN、DenseNet和Swin Transformer)在四个独立队列(UKB、DLBS、PPMI、IXI)的T1加权MRI数据上进行年龄和性别预测。
  • Result: SFCN在性别分类(AUC 1.00-0.85)和年龄预测(MAE 2.66-5.81)中表现最佳,且通过统计测试证实其优于Swin Transformer。
  • Conclusion: 简单的卷积网络在脑影像分析中比复杂的注意力架构更具泛化性,适合跨数据集应用。

[204] Thinking with Images for Multimodal Reasoning: Foundations, Methods, and Future Frontiers

Zhaochen Su,Peng Xia,Hangyu Guo,Zhenhua Liu,Yan Ma,Xiaoye Qu,Jiaqi Liu,Yanshu Li,Kaide Zeng,Zhengyuan Yang,Linjie Li,Yu Cheng,Heng Ji,Junxian He,Yi R.,Fung

Main category: cs.CV

TL;DR: 该论文探讨了多模态推理中的新范式,即从静态视觉输入转向动态视觉思维,提出了一个三阶段框架,并总结了方法、评估和应用。

  • Motivation: 解决文本链式思维(CoT)在处理视觉信息时的语义鸿沟问题,推动AI从静态视觉输入到动态视觉思维的范式转变。
  • Method: 提出了一个三阶段框架(外部工具探索、程序化操作、内在想象),并总结了各阶段的核心方法。
  • Result: 建立了动态视觉思维范式的基础原则,分析了评估基准和实际应用,并指出了未来研究方向。
  • Conclusion: 该研究为未来多模态AI的发展提供了清晰的路线图,目标是实现更强大且与人类认知对齐的智能系统。

[205] Evaluating the Impact of Khmer Font Types on Text Recognition

Vannkinh Nom,Souhail Bakkali,Muhammad Muzzamil Luqman,Mickael Coustaty,Jean-Marc Ogier

Main category: cs.CV

TL;DR: 研究评估了19种高棉字体对OCR准确性的影响,发现某些字体表现优异,而其他字体表现较差,强调了字体选择对高棉文本识别的重要性。

  • Motivation: 高棉字体的多样性及其独特的字符结构对OCR系统提出了挑战,研究旨在评估不同字体对文本识别准确性的影响。
  • Method: 使用Pytesseract对19种随机选择的高棉字体进行OCR性能比较。
  • Result: Khmer、Odor MeanChey、Siemreap、Sithi Manuss和Battambang字体表现优异,而iSeth First、Bayon和Dangrek表现较差。
  • Conclusion: 字体选择对高棉文本识别至关重要,研究结果为开发更鲁棒的OCR系统提供了重要参考。

[206] Visual and Memory Dual Adapter for Multi-Modal Object Tracking

Boyue Xu,Ruichao Hou,Tongwei Ren,Gangshan Wu

Main category: cs.CV

TL;DR: 提出了一种新颖的视觉与记忆双重适配器(VMDA),通过联合建模频率、空间和通道特征,以及利用人类记忆机制存储全局时序线索,显著提升了多模态跟踪的性能。

  • Motivation: 现有基于提示学习的多模态跟踪器在频率和时序领域的关键线索利用不足,导致提示学习不可靠。
  • Method: 设计了视觉适配器和记忆适配器,前者自适应地将辅助模态的判别线索传递到主导模态,后者存储全局时序线索并动态更新和检索。
  • Result: 在RGB-热成像、RGB-深度和RGB-事件等多模态跟踪任务中实现了最先进的性能。
  • Conclusion: VMDA通过更全面的特征建模和时序信息传播,显著提升了多模态跟踪的鲁棒性和判别性。

[207] Toward Simple and Robust Contrastive Explanations for Image Classification by Leveraging Instance Similarity and Concept Relevance

Yuliia Kaidashova,Bettina Finzel,Ute Schmid

Main category: cs.CV

TL;DR: 论文提出了一种基于概念的对比解释方法,用于图像分类模型,通过分析实例嵌入的相似性和概念相关性,生成解释并评估其复杂性和鲁棒性。

  • Motivation: 研究旨在理解分类模型为何对某些输入实例偏好特定类别,通过对比解释揭示模型决策的依据。
  • Method: 利用微调深度学习模型提取概念及其相关性分数,计算相似实例的对比,并基于解释复杂性进行评估。
  • Result: 高相关性的概念生成更简短的解释,低相关性则生成更复杂的解释;解释在不同图像增强下表现出不同程度的鲁棒性。
  • Conclusion: 研究为构建更可解释和鲁棒的AI系统提供了潜在方向。

[208] StyleDrive: Towards Driving-Style Aware Benchmarking of End-To-End Autonomous Driving

Ruiyang Hao,Bowen Jing,Haibao Yu,Zaiqing Nie

Main category: cs.CV

TL;DR: 论文提出了首个大规模真实世界数据集,用于支持端到端自动驾驶(E2EAD)中的个性化研究,并通过视觉语言模型(VLM)和人工验证生成高质量标注,建立了首个个性化E2EAD评估基准。

  • Motivation: 传统自动驾驶系统已探索个性化,但在端到端自动驾驶中仍被忽视,而用户对齐行为对信任和广泛采用至关重要。缺乏标注多样化驾驶偏好的大规模数据集阻碍了相关研究。
  • Method: 从真实道路拓扑提取静态环境特征,用微调VLM推断动态上下文线索,构建一致且细粒度的场景。通过行为分布分析和规则启发式生成客观偏好标注,并用VLM结合场景语义和驾驶行为生成主观标注,最终通过人工验证融合两者。
  • Result: 实验表明,结合个性化偏好的模型能生成更符合人类驾驶的行为。
  • Conclusion: 研究为个性化E2EAD奠定了基础,提供了标准化平台,推动以人为本的自动驾驶研究。

[209] Ella: Embodied Social Agents with Lifelong Memory

Hongxin Zhang,Zheyuan Zhang,Zeyuan Wang,Zunzhe Zhang,Lixing Fang,Qinhong Zhou,Chuang Gan

Main category: cs.CV

TL;DR: Ella是一个具身社交代理,能够在3D开放世界中通过终身学习和社交互动积累经验与知识,其核心是多模态记忆系统与基础模型的结合。

  • Motivation: 探索如何通过结构化记忆系统和基础模型提升具身智能体的学习和社交能力。
  • Method: Ella采用多模态记忆系统(语义记忆和情景记忆)与基础模型结合,实现信息存储、更新和检索,支持决策和社交互动。
  • Result: 实验表明Ella能有效影响、领导和合作其他智能体,展示其通过观察和社交互动的学习能力。
  • Conclusion: 结合结构化记忆系统与基础模型,为具身智能的发展提供了变革性潜力。

[210] Foundation Models for Zero-Shot Segmentation of Scientific Images without AI-Ready Data

Shubhabrata Mukherjee,Jack Lang,Obeen Kwon,Iryna Zenyuk,Valerie Brogden,Adam Weber,Daniela Ushizima

Main category: cs.CV

TL;DR: Zenesis是一个无代码交互平台,通过多模态适应技术和人机协作优化,显著提升了科学图像分析的准确性,尤其是在稀缺数据场景下。

  • Motivation: 解决零样本和提示技术在处理稀缺科学图像时的局限性,降低数据准备的门槛。
  • Method: 开发轻量级多模态适应技术,支持零样本操作,并结合人机协作和启发式时间增强。
  • Result: 在FIB-SEM数据上表现优异,准确率和IOU等指标显著优于传统方法。
  • Conclusion: Zenesis是科学图像分析的高效工具,尤其适用于缺乏高质量标注数据的领域。

[211] A Survey on Vision-Language-Action Models for Autonomous Driving

Sicong Jiang,Zilin Huang,Kangan Qian,Ziang Luo,Tianze Zhu,Yang Zhong,Yihong Tang,Menglin Kong,Yunlong Wang,Siwen Jiao,Hao Ye,Zihao Sheng,Xin Zhao,Tuopu Wen,Zheng Fu,Sikai Chen,Kun Jiang,Diange Yang,Seongjin Choi,Lijun Sun

Main category: cs.CV

TL;DR: 本文综述了视觉-语言-动作(VLA)范式在自动驾驶领域的应用,梳理了20多种代表性模型,并总结了现有数据集、基准及未来挑战。

  • Motivation: 随着多模态大语言模型(MLLM)的发展,VLA范式为自动驾驶提供了整合视觉感知、自然语言理解和控制的可能,但相关研究分散且快速扩展,亟需系统总结。
  • Method: 通过(i)形式化架构模块,(ii)追溯从早期解释器到推理中心模型的演变,(iii)比较20多种代表性模型,并整合数据集与基准。
  • Result: 综述提供了VLA4AD的全面概述,包括模型进展、数据集和基准,并指出当前挑战如鲁棒性、实时效率和形式验证。
  • Conclusion: 本文为推进可解释且社会对齐的自动驾驶提供了简明而完整的参考,并展望了未来研究方向。

[212] Continual Adaptation: Environment-Conditional Parameter Generation for Object Detection in Dynamic Scenarios

Deng Li,Aming Wu,Yang Li,Yaowei Wang,Yahong Han

Main category: cs.CV

TL;DR: 提出了一种基于参数生成的新机制,通过双路径LoRA适配器和条件扩散生成参数,提升目标检测器在持续测试时适应环境变化的能力。

  • Motivation: 解决目标检测器在环境变化时因封闭集假设导致的性能下降问题。
  • Method: 设计双路径LoRA适配器分离特征,结合条件扩散生成参数,并提出类中心最优传输对齐方法。
  • Result: 实验证明该方法有效,可视化显示生成参数能捕获更多目标相关信息。
  • Conclusion: 新机制显著提升了检测器的泛化能力,避免了性能退化。

[213] Imagine for Me: Creative Conceptual Blending of Real Images and Text via Blended Attention

Wonwoong Cho,Yanxia Zhang,Yan-Ying Chen,David I. Inouye

Main category: cs.CV

TL;DR: IT-Blender是一种T2I扩散适配器,通过结合预训练扩散模型和混合注意力机制,自动化视觉与文本概念的混合过程,提升人类创造力。

  • Motivation: 人类在跨模态概念混合中存在认知偏差(如设计固定),导致设计空间局部最优。IT-Blender旨在解决现有方法在细节保留和解耦输入方面的不足。
  • Method: 利用预训练扩散模型(SD和FLUX)混合干净参考图像和生成噪声图像的潜在表示,结合混合注意力机制实现细节保留和解耦。
  • Result: IT-Blender在视觉与文本概念混合任务中显著优于基线方法。
  • Conclusion: IT-Blender展示了图像生成模型在增强人类创造力方面的新应用潜力。

[214] MotionGPT3: Human Motion as a Second Modality

Bingfan Zhu,Biao Jiang,Sunyi Wang,Shixiang Tang,Tao Chen,Linjie Luo,Youyi Zheng,Xin Chen

Main category: cs.CV

TL;DR: MotionGPT3是一个双模态运动-语言模型,通过分离运动建模和保留语言智能,解决了运动与语言统一建模中的重建差距和语言智能退化问题。

  • Motivation: 尽管多模态模型在统一理解和生成方面取得了进展,但运动-语言统一模型的发展仍不足。需要解决运动模态与离散表示的重建差距以及统一训练中语言智能退化的问题。
  • Method: 提出MotionGPT3,采用专家混合方法,分离运动建模参数,通过共享注意力机制实现跨模态交互。使用运动变分自编码器(VAE)编码运动,并通过扩散头预测运动潜在表示。
  • Result: 实验表明,MotionGPT3在运动理解和生成任务中表现优异,同时保留了强大的语言能力。
  • Conclusion: MotionGPT3建立了一种在自回归框架内统一的双模态运动扩散模型,为运动-语言统一建模提供了有效解决方案。

[215] WaRA: Wavelet Low Rank Adaptation

Moein Heidari,Yasamin Medghalchi,Mahdi Khoursha,Reza Rezaeian,Ilker Hacihaliloglu

Main category: cs.CV

TL;DR: WaRA是一种基于小波变换的参数高效微调方法,通过多分辨率分析改进LoRA,在视觉和语言任务中表现优异。

  • Motivation: 现有PEFT方法(如LoRA)依赖全局低秩分解,忽略了局部或多尺度结构,无法捕捉权重更新的复杂模式。
  • Method: WaRA利用小波变换将权重更新矩阵分解为多分辨率表示,在频域进行低秩分解并通过逆变换重构,实现更灵活和稀疏的表示。
  • Result: WaRA在图像生成、分类和语义分割等任务中表现优异,显著提升生成质量并降低计算复杂度。
  • Conclusion: WaRA不仅适用于视觉任务,在语言任务中也表现出广泛适用性和泛化能力。

[216] MILo: Mesh-In-the-Loop Gaussian Splatting for Detailed and Efficient Surface Reconstruction

Antoine Guédon,Diego Gomez,Nissim Maruani,Bingchen Gong,George Drettakis,Maks Ovsjanikov

Main category: cs.CV

TL;DR: MILo是一种新型高斯泼溅框架,通过可微分地从3D高斯中提取网格,弥合了体积和表面表示之间的差距,实现了高质量3D场景重建。

  • Motivation: 当前方法通过昂贵的后处理步骤提取表面,导致几何细节丢失或生成密集网格,限制了最终网格保留训练期间捕获的所有几何结构的能力。
  • Method: 设计了一个完全可微分的过程,直接从高斯参数构建网格(包括顶点位置和连接性),并引入了双向一致性框架、自适应网格提取过程和基于高斯的有符号距离计算方法。
  • Result: MILo能够以最先进的质量重建完整场景,包括背景,且所需网格顶点数量比先前方法少一个数量级。
  • Conclusion: MILo生成的网格轻量且内部为空,非常适合物理模拟或动画等下游应用。

[217] DenseWorld-1M: Towards Detailed Dense Grounded Caption in the Real World

Xiangtai Li,Tao Zhang,Yanwei Li,Haobo Yuan,Shihao Chen,Yikang Zhou,Jiahao Meng,Yueyi Sun,Shilin Xu,Lu Qi,Tianheng Cheng,Yi Lin,Zilong Huang,Wenhao Huang,Jiashi Feng,Guang Shi

Main category: cs.CV

TL;DR: 提出了DenseWorld-1M数据集,填补了现有数据集中缺乏详细描述和关系的空白,并通过三阶段标注流程和两个VLM模型提升了标注效率和质量。

  • Motivation: 现有的大多数标注数据集缺乏视觉实体的位置和关系信息,且高分辨率图像上的详细描述和关系不足。
  • Method: 采用三阶段标注流程(开放世界感知、详细对象描述生成、密集描述合并)和两个VLM模型(Detailed Region Caption model和Spatial Caption Merging model)。
  • Result: DenseWorld-1M数据集在视觉语言理解、视觉定位和区域描述生成等任务中表现出色。
  • Conclusion: DenseWorld-1M为社区提供了一个高质量、详细的密集标注数据集,并通过创新方法提升了标注效率和质量。

[218] Epona: Autoregressive Diffusion World Model for Autonomous Driving

Kaiwen Zhang,Zhenyu Tang,Xiaotao Hu,Xingang Pan,Xiaoyang Guo,Yuan Liu,Jingwei Huang,Li Yuan,Qian Zhang,Xiao-Xiao Long,Xun Cao,Wei Yin

Main category: cs.CV

TL;DR: Epona是一种自回归扩散世界模型,通过解耦时空因子化和模块化轨迹视频预测,实现了长时程高分辨率视频生成,并在自动驾驶世界建模中表现优异。

  • Motivation: 现有基于视频扩散的世界模型在灵活长度、长时程预测和轨迹规划集成方面存在不足,需要改进。
  • Method: 提出Epona模型,采用解耦时空因子化和模块化轨迹视频预测,结合链式前向训练策略。
  • Result: 实验显示FVD提升7.4%,预测时长显著延长,并在NAVSIM基准测试中优于端到端规划器。
  • Conclusion: Epona在视频生成和自动驾驶规划中表现出色,代码将开源。

[219] TextMesh4D: High-Quality Text-to-4D Mesh Generation

Sisi Dai,Xinxin Su,Boyan Wan,Ruizhen Hu,Kai Xu

Main category: cs.CV

TL;DR: TextMesh4D 是一种新型框架,用于高质量文本到4D内容的生成,通过分解为静态对象创建和动态运动合成两阶段,结合灵活-刚性正则化优化,实现了高效且高质量的4D网格生成。

  • Motivation: 动态3D内容生成(文本到4D)在扩散生成模型中仍是一个未充分探索的挑战性问题。
  • Method: 采用基于面Jacobian的可微分网格表示,将4D生成分为静态对象创建和动态运动合成两阶段,并引入灵活-刚性正则化优化。
  • Result: 实验表明,TextMesh4D在时间一致性、结构保真度和视觉真实感方面达到最先进水平,且仅需单24GB GPU。
  • Conclusion: TextMesh4D为文本驱动的4D网格生成提供了高效且高质量的解决方案,代码将开源以促进未来研究。

[220] Calligrapher: Freestyle Text Image Customization

Yue Ma,Qingyan Bai,Hao Ouyang,Ka Leong Cheng,Qiuyu Wang,Hongyu Liu,Zichen Liu,Haofan Wang,Jingye Chen,Yujun Shen,Qifeng Chen

Main category: cs.CV

TL;DR: Calligrapher是一个基于扩散的框架,结合文本定制与艺术字体,解决了风格控制和数据依赖问题,通过自蒸馏、局部风格注入和上下文生成机制实现高质量字体生成。

  • Motivation: 解决数字书法和设计中精确风格控制和数据依赖的挑战。
  • Method: 1. 自蒸馏机制构建风格基准;2. 可训练风格编码器提取特征;3. 上下文生成机制嵌入参考图像。
  • Result: 在多种字体和设计场景中准确复现风格细节和字形定位,超越传统模型。
  • Conclusion: Calligrapher自动化生成高质量字体,适用于数字艺术、品牌设计和排版设计。

[221] FADRM: Fast and Accurate Data Residual Matching for Dataset Distillation

Jiacheng Cui,Xinyue Bi,Yaxin Luo,Xiaohan Zhao,Jiacheng Liu,Zhiqiang Shen

Main category: cs.CV

TL;DR: 论文提出了一种名为FADRM的新方法,通过数据级残差连接优化数据集蒸馏任务,显著提升了效率和性能。

  • Motivation: 探索数据级残差连接的潜力,解决数据信息消失问题,平衡新知识与原始数据信息。
  • Method: 引入数据残差匹配(Data Residual Matching),结合优化级改进,提升计算效率。
  • Result: 在ImageNet-1K上,单模型和多模型蒸馏分别达到47.7%和50.0%的测试准确率,效率提升50%。
  • Conclusion: FADRM在数据集蒸馏任务中实现了新的SOTA,显著优于现有方法。

[222] How to Design and Train Your Implicit Neural Representation for Video Compression

Matthew Gwilliam,Roy Zhang,Namitha Padmanabhan,Hongyang Du,Abhinav Shrivastava

Main category: cs.CV

TL;DR: 论文提出了一种名为Rabbit NeRV (RNeRV)的视频隐式神经表示(INR)压缩方法,通过优化组件设计提升性能,并探索超网络以解决编码速度问题。

  • Motivation: 传统INR方法因需要逐样本训练网络导致编码速度过慢,难以实际应用。
  • Method: 开发了一个库来分析NeRV系列方法的组件,提出RNeRV配置,并探索超网络预测INR权重以实现实时编码。
  • Result: RNeRV在相同训练时间下平均PSNR提升1.27%;超网络方法在UCF-101数据集上PSNR和MS-SSIM均提升1.7%。
  • Conclusion: RNeRV和超网络方法显著提升了视频INR压缩的性能和实用性。

cs.NI

[223] Wireless Home Automation Using Social Networking Websites

Divya Alok Gupta,Dwith Chenna,B. Aditya Vighnesh Ramakanth

Main category: cs.NI

TL;DR: 提出了一种基于社交媒体(如Twitter)安全认证的无线家庭自动化系统(WHAS),解决了安全性、单一接口控制和用户友好性等挑战。

  • Motivation: 随着物联网的发展,无线家庭自动化系统(WHAS)面临安全性、多设备统一控制和用户体验等挑战。
  • Method: 利用社交媒体(如Twitter)的安全认证系统,追踪用户活动并控制家用设备。
  • Result: 展示了WHAS的应用,并对比了其与传统家庭自动化系统的优势。
  • Conclusion: 提出的WHAS系统在安全性和用户体验上优于传统系统。

cs.CL

[224] SoMi-ToM: Evaluating Multi-Perspective Theory of Mind in Embodied Social Interactions

Xianzhe Fan,Xuhui Zhou,Chuanyang Jin,Kolby Nottingham,Hao Zhu,Maarten Sap

Main category: cs.CL

TL;DR: SoMi-ToM是一个评估多智能体复杂社交互动中多视角心智理论(ToM)的基准,填补了静态文本场景与真实互动之间的差距。

  • Motivation: 现有ToM基准多为静态文本场景,与真实动态社交互动存在显著差距,因此需要更全面的评估方法。
  • Method: 基于SoMi环境生成的多模态互动数据,设计多级评估框架:第一人称视角实时状态推断和第三人称视角全局目标行为推断。
  • Result: 人类在SoMi-ToM上的表现显著优于大型视觉语言模型(LVLMs),准确率差距分别为40.1%(第一人称)和26.4%(第三人称)。
  • Conclusion: 未来LVLMs需进一步提升在复杂社交互动中的ToM能力。

[225] EXPERT: An Explainable Image Captioning Evaluation Metric with Structured Explanations

Hyunjong Kim,Sangyeop Kim,Jongheon Jeong,Yeongjae Cho,Sungzoon Cho

Main category: cs.CL

TL;DR: 提出了EXPERT,一种基于流畅性、相关性和描述性的结构化解释的无参考评估指标,用于图像描述任务。

  • Motivation: 现有解释性评估指标缺乏标准化标准且解释质量未经验证,需改进。
  • Method: 构建大规模高质量结构化解释数据集,采用两阶段评估模板监督视觉语言模型进行评分和解释生成。
  • Result: 在基准数据集上达到最优性能,解释质量显著优于现有指标。
  • Conclusion: EXPERT提供高质量结构化解释,为图像描述评估提供有效工具。

cs.MM

[226] TAG-WM: Tamper-Aware Generative Image Watermarking via Diffusion Inversion Sensitivity

Yuzhuo Chen,Zehua Ma,Han Fang,Weiming Zhang,Nenghai Yu

Main category: cs.MM

TL;DR: 论文提出了一种名为TAG-WM的篡改感知生成图像水印方法,解决了AI生成内容(AIGC)的版权和真实性风险问题。该方法通过四个关键模块实现了高鲁棒性和篡改定位能力,同时保持生成质量无损。

  • Motivation: AI生成内容(AIGC)的普及带来了版权和真实性风险,现有水印方法在篡改鲁棒性和定位能力上存在不足。
  • Method: TAG-WM包含四个模块:双标记联合采样(DMJS)、水印潜在重建(WLR)、密集变化区域检测器(DVRD)和篡改感知解码(TAD)。
  • Result: 实验表明,TAG-WM在保持无损生成质量和256位容量的同时,实现了最先进的篡改鲁棒性和篡改定位能力。
  • Conclusion: TAG-WM为AIGC的版权保护和真实性验证提供了一种有效解决方案。

cs.GR

[227] ICP-3DGS: SfM-free 3D Gaussian Splatting for Large-scale Unbounded Scenes

Chenhao Zhang,Yezhi Shen,Fengqing Zhu

Main category: cs.GR

TL;DR: 论文提出了一种结合ICP与优化的方法,用于改进神经渲染中的相机姿态估计,并在大规模场景中引入体素化场景稠密化方法,显著提升了性能。

  • Motivation: 现有神经渲染方法(如NeRFs和3DGS)依赖预处理相机姿态和3D结构先验,但在户外场景中难以获取这些信息。
  • Method: 结合ICP与优化方法进行相机姿态估计,并引入体素化场景稠密化方法指导大规模场景重建。
  • Result: 实验表明,ICP-3DGS在相机姿态估计和新视角合成方面优于现有方法。
  • Conclusion: 该方法有效解决了大规模场景中相机姿态估计的挑战,并提升了神经渲染的性能。

[228] VoteSplat: Hough Voting Gaussian Splatting for 3D Scene Understanding

Minchao Jiang,Shunyu Jia,Jiaming Gu,Xiaoyuan Lu,Guangming Zhu,Anqi Dong,Liang Zhang

Main category: cs.GR

TL;DR: VoteSplat结合3D高斯溅射与霍夫投票,提出了一种高效的三维场景理解框架,降低了训练成本并提升了语义清晰度。

  • Motivation: 现有3D高斯溅射方法缺乏深度场景理解且训练成本高,VoteSplat旨在解决这些问题。
  • Method: 利用SAM进行实例分割,生成2D投票图,并通过高斯基元嵌入空间偏移向量,结合深度约束优化定位。
  • Result: 实验表明VoteSplat在开放词汇3D实例定位、点云理解等任务中表现优异。
  • Conclusion: VoteSplat为高效的三维场景理解提供了新思路,降低了训练成本并保持了语义清晰度。

[229] Confident Splatting: Confidence-Based Compression of 3D Gaussian Splatting via Learnable Beta Distributions

AmirHossein Naghi Razlighi,Elaheh Badali Golezani,Shohreh Kasaei

Main category: cs.GR

TL;DR: 提出一种基于Beta分布的可学习置信度分数的3D高斯泼溅压缩方法,减少存储和计算开销。

  • Motivation: 解决3D高斯泼溅因生成数百万个泼溅点导致的存储和计算开销过大的问题。
  • Method: 通过基于Beta分布的置信度分数优化每个泼溅点,利用重建感知损失进行剪枝,同时保持视觉保真度。
  • Result: 实验显示在压缩和保真度之间取得了良好的平衡。
  • Conclusion: 该方法架构无关,适用于任何高斯泼溅变体,且置信度平均值可作为场景质量评估的新指标。

[230] GaVS: 3D-Grounded Video Stabilization via Temporally-Consistent Local Reconstruction and Rendering

Zinuo You,Stamatios Georgoulis,Anpei Chen,Siyu Tang,Dengxin Dai

Main category: cs.GR

TL;DR: 论文提出了一种基于3D的视频稳定方法GaVS,通过局部重建和渲染范式解决现有方法的几何失真、过度裁剪等问题,并在定量和定性评估中表现优异。

  • Motivation: 现有视频稳定方法存在几何失真、过度裁剪和泛化能力差等问题,影响用户体验。
  • Method: GaVS采用3D相机姿态,通过高斯散射基元预测和测试时微调,结合多视角动态感知光度监督和跨帧正则化,实现时间一致的局部重建和渲染。
  • Result: 定量评估显示GaVS在任务指标和几何一致性上优于现有2D和2.5D方法;定性评估和用户研究验证了其优越性。
  • Conclusion: GaVS通过3D基础方法显著提升了视频稳定效果,解决了现有技术的局限性。

[231] Navigating with Annealing Guidance Scale in Diffusion Space

Shai Yehezkel,Omer Dahary,Andrey Voynov,Daniel Cohen-Or

Main category: cs.GR

TL;DR: 提出了一种动态调整指导尺度的退火指导调度器,显著提升了文本到图像生成的质量和提示对齐。

  • Motivation: 现有分类器自由指导(CFG)的指导尺度选择对生成图像的视觉吸引力和提示对齐有重要影响,但其行为不稳定。
  • Method: 通过基于条件噪声信号动态调整指导尺度的退火指导调度器,学习调度策略以优化CFG。
  • Result: 实验结果表明,该方法显著提升了图像质量和提示对齐,且无需额外激活或内存消耗。
  • Conclusion: 提出的调度器可无缝替代传统CFG,在提示对齐和质量之间提供了更好的权衡。

physics.med-ph

[232] Supervised Diffusion-Model-Based PET Image Reconstruction

George Webber,Alexander Hammers,Andrew P King,Andrew J Reader

Main category: physics.med-ph

TL;DR: 提出了一种基于监督扩散模型(DM)的PET图像重建方法,通过结合PET的Poisson似然模型和宽强度范围,显著提升了重建精度和不确定性估计。

  • Motivation: 现有基于DM的无监督方法未能显式建模DM先验与噪声测量数据的交互,限制了重建精度。
  • Method: 提出监督DM算法,强制PET的Poisson似然非负性并适应宽强度范围。
  • Result: 在真实脑PET数据上,方法在定量上优于或匹配现有深度学习方法,并展示了更准确的后验采样。
  • Conclusion: 该方法在PET重建中表现出色,并成功扩展到3D PET数据,具有实际应用潜力。

math.OC

[233] Maximum Dispersion, Maximum Concentration: Enhancing the Quality of MOP Solutions

Gladston Moreira,Ivan Meneghini,Elzabeth Wanner

Main category: math.OC

TL;DR: 该研究提出了一种多目标优化方法,通过在目标空间中定义感兴趣区域(ROI)并结合决策空间的均匀性度量,平衡解的多样性和收敛性,从而提高解的质量。

  • Motivation: 多目标优化问题(MOPs)需要在冲突目标之间进行权衡,同时最大化目标空间的多样性和收敛性。传统方法可能导致解在决策空间中偏向特定区域,因此需要一种新方法来平衡解的分散性和集中性。
  • Method: 研究提出了一种方法,通过在目标空间中基于锥形定义感兴趣区域(ROI),并结合决策空间的均匀性度量,优化解的分散性和集中性。
  • Result: 初步实验表明,该方法能有效平衡解的多样性和收敛性,减少决策空间中的偏差,生成更高质量的Pareto最优解。
  • Conclusion: 该方法通过结合目标空间的集中性和决策空间的分散性,显著提高了多目标优化解的质量,避免了传统方法中的偏差问题。

[234] Denoising Multi-Color QR Codes and Stiefel-Valued Data by Relaxed Regularizations

Robert Beinert,Jonas Bresch

Main category: math.OC

TL;DR: 本文扩展了一种高效的流形值数据去噪方法,适用于多二进制和Stiefel值数据,提出了基于TV和Tikhonov的去噪模型及其凸化求解方法。

  • Motivation: 流形值数据(如多二进制和Stiefel值数据)在图像处理和识别中有广泛应用,但现有去噪方法需要进一步扩展和优化。
  • Method: 将数据嵌入欧几里得空间,通过半正定固定秩矩阵编码流形,并松弛秩约束以实现凸化求解。
  • Result: 在合成实验中验证了所提方法的有效性。
  • Conclusion: 扩展的去噪方法适用于新数据类型,且易于求解,为实际应用提供了新工具。

cs.HC

[235] Deep Learning in Mild Cognitive Impairment Diagnosis using Eye Movements and Image Content in Visual Memory Tasks

Tomás Silva Santos Rocha,Anastasiia Mikhailova,Moreno I. Coco,José Santos-Victor

Main category: cs.HC

TL;DR: 研究利用眼动数据和深度学习模型VTNet区分健康人群与轻度认知障碍(MCI),模型性能与类似研究相当,为MCI自动化诊断工具开发提供支持。

  • Motivation: 全球痴呆症患病率预计到2050年翻倍,亟需可扩展的诊断工具。
  • Method: 使用眼动数据和VTNet深度学习模型,结合时间序列和空间数据,分析扫描路径、热图和图像内容。
  • Result: 最佳模型(700×700像素热图)达到68%敏感性和76%特异性,性能与类似研究相当。
  • Conclusion: 研究支持MCI自动化诊断工具开发,未来需优化模型并采用标准化长期视觉记忆任务。

cs.LG

[236] Riemannian-Geometric Fingerprints of Generative Models

Hae Jin Song,Laurent Itti

Main category: cs.LG

TL;DR: 论文提出了一种基于黎曼几何的生成模型指纹定义和计算方法,用于区分不同生成模型及其生成内容,解决了模型归属和合成数据识别的需求。

  • Motivation: 随着生成模型的广泛应用,模型归属和合成数据识别变得重要,但目前缺乏一个正式框架来定义和分析生成模型的指纹。
  • Method: 采用黎曼几何方法,提出新的指纹定义,并通过基于梯度的算法计算指纹,利用测地距离和黎曼中心质量替代欧几里得距离和最近邻搜索。
  • Result: 该方法在区分多种生成模型(涵盖不同数据集、分辨率和模态)上表现更优,显著提升了模型归属任务的效果。
  • Conclusion: 提出的黎曼几何框架为生成模型指纹分析提供了理论基础和实践工具,具有广泛的应用潜力。

[237] ReMem: Mutual Information-Aware Fine-tuning of Pretrained Vision Transformers for Effective Knowledge Distillation

Chengyu Dong,Huan Gui,Noveen Sachdeva,Long Jin,Ke Yin,Jingbo Shang,Lichan Hong,Ed H. Chi,Zhe Zhao

Main category: cs.LG

TL;DR: 论文提出了一种改进视觉Transformer(ViT)知识蒸馏的方法,通过互信息感知优化和MLP块重加权,提升小规模或不平衡数据集上的知识转移效果。

  • Motivation: 大规模预训练的强模型在知识蒸馏中效果下降,尤其是在小规模或不平衡数据集上。论文旨在解决这一问题。
  • Method: 提出互信息感知优化和MLP块重加权方法,以提升知识蒸馏效果。
  • Result: 方法使小规模学生模型能从最强预训练模型中受益。
  • Conclusion: 通过互信息优化和MLP块重加权,有效提升了知识蒸馏的效果。

[238] Forget-MI: Machine Unlearning for Forgetting Multimodal Information in Healthcare Settings

Shahad Hardan,Darya Taratynova,Abdelmajid Essofi,Karthik Nandakumar,Mohammad Yaqub

Main category: cs.LG

TL;DR: Forget-MI是一种新型的机器遗忘方法,专注于多模态医疗数据,通过损失函数和扰动技术实现遗忘,同时保持模型性能。

  • Motivation: 在医疗AI中,隐私保护至关重要,现有方法难以从多模态架构中移除敏感数据。
  • Method: 提出Forget-MI,通过损失函数和扰动技术遗忘单模态和联合数据表示,同时保留剩余数据知识。
  • Result: Forget-MI在遗忘数据集上表现优异,减少MIA攻击能力,测试集性能与原模型相当。
  • Conclusion: Forget-MI在多模态医疗数据遗忘中表现优于现有方法,平衡了隐私保护和模型性能。

[239] maneuverRecognition -- A Python package for Timeseries Classification in the domain of Vehicle Telematics

Jonathan Schuster,Fabian Transchel

Main category: cs.LG

TL;DR: 论文介绍了maneuverRecognition包,用于车辆遥测中的驾驶动作识别,支持数据预处理、建模和评估,并提供了一个可修改的LSTM网络结构。

  • Motivation: 驾驶动作识别可提升保险政策个性化、道路安全和环保驾驶,但缺乏现成的Python工具支持数据转换和模型构建。
  • Method: 开发了maneuverRecognition包,包含预处理、建模和评估功能,并提供一个LSTM网络结构。
  • Result: 使用三人智能手机传感器记录的驾驶数据验证了包的有效性。
  • Conclusion: maneuverRecognition包填补了驾驶动作识别领域工具缺失的空白,支持快速数据转换和模型构建。

[240] Single Image Inpainting and Super-Resolution with Simultaneous Uncertainty Guarantees by Universal Reproducing Kernels

Bálint Horváth,Balázs Csanád Csáji

Main category: cs.LG

TL;DR: 论文提出了一种统计学习方法,用于估计图像缺失像素,同时提供不确定性量化。方法基于RKHS假设,特别关注带限函数,并扩展了现有核方法。

  • Motivation: 解决图像修复和超分辨率问题中的缺失像素估计,并提供不确定性量化。
  • Method: 基于RKHS假设,提出SGKI方法,利用Schur补高效计算非渐近置信带,并扩展到向量值函数。
  • Result: SGKI不仅能估计缺失像素,还能为所有缺失像素构建同时保证的置信带。
  • Conclusion: SGKI在合成和基准图像数据集上表现良好,为图像处理提供了新工具。

[241] Sample Margin-Aware Recalibration of Temperature Scaling

Haolan Guo,Linwei Tao,Haoyang Luo,Minjing Dong,Chang Xu

Main category: cs.LG

TL;DR: SMART是一种轻量级、数据高效的后处理校准方法,通过基于logit间隙的精确调整,解决了神经网络过度自信的问题,同时提出了一种新的SoftECE目标函数。

  • Motivation: 现代神经网络在预测准确性上有所提升,但存在系统性过度自信的问题,尤其在安全关键场景中风险较大。现有校准方法面临全局调整偏差大或高维度噪声导致的方差高的困境。
  • Method: SMART利用logit间隙(top两个logit的差值)作为去噪标量信号,提出SoftECE目标函数,通过自适应分箱平衡偏差和方差。
  • Result: SMART在多种数据集和架构上实现了最先进的校准性能,且参数更少,效率更高。
  • Conclusion: SMART为神经网络预测中的不确定性量化提供了一种高效、稳健的解决方案。

[242] FedWSQ: Efficient Federated Learning with Weight Standardization and Distribution-Aware Non-Uniform Quantization

Seung-Wook Kim,Seongyeol Kim,Jiah Kim,Seowon Ji,Se-Ho Lee

Main category: cs.LG

TL;DR: FedWSQ框架通过权重标准化和非均匀量化提升联邦学习性能,减少通信开销并保持高精度。

  • Motivation: 解决联邦学习中数据异构性和通信限制导致的性能下降问题。
  • Method: 结合权重标准化(WS)和分布感知非均匀量化(DANUQ),过滤局部更新中的偏差并最小化量化误差。
  • Result: 在极端数据异构和超低比特通信场景下,FedWSQ优于现有方法。
  • Conclusion: FedWSQ显著提升联邦学习的鲁棒性和效率。

[243] Radioactive Watermarks in Diffusion and Autoregressive Image Generative Models

Michel Meintz,Jan Dubiński,Franziska Boenisch,Adam Dziedzic

Main category: cs.LG

TL;DR: 论文分析了扩散模型(DMs)和图像自回归模型(IARs)中水印的放射性问题,并提出了一种针对IARs的新型水印方法,以解决现有方法在放射性上的不足。

  • Motivation: 生成模型训练需要大量数据,但收集成本高。为避免未经授权使用生成图像训练新模型,水印技术需具备放射性(即水印在新模型中仍可识别)。现有方法在DMs中表现不佳,而IARs尚无相关研究。
  • Method: 提出了一种专为IARs设计的水印方法,借鉴了大型语言模型(LLMs)的自回归技术,确保水印在新模型中仍可识别。
  • Result: 实验表明,该方法在IARs中有效保留了水印的放射性,实现了强健的来源追踪,防止了生成图像的未经授权使用。
  • Conclusion: 该研究填补了IARs水印技术的空白,为生成图像的版权保护提供了新思路。

[244] Supercm: Revisiting Clustering for Semi-Supervised Learning

Durgesh Singh,Ahcene Boubekki,Robert Jenssen,Michael C. Kampffmeyer

Main category: cs.LG

TL;DR: 提出了一种新的半监督学习方法,通过可微聚类模块显式整合聚类假设,简化训练策略并提升性能。

  • Motivation: 现有半监督学习方法依赖复杂的训练策略,本文旨在通过聚类假设简化方法并提升效果。
  • Method: 扩展可微聚类模块,利用标注数据引导聚类中心,实现端到端训练。
  • Result: 模型性能优于仅监督学习的基线,并能与其他半监督方法结合进一步提升效果。
  • Conclusion: 该方法通过聚类假设简化了半监督学习,同时提升了性能,具有兼容性和扩展性。

[245] The Illusion of Progress? A Critical Look at Test-Time Adaptation for Vision-Language Models

Lijun Sheng,Jian Liang,Ran He,Zilei Wang,Tieniu Tan

Main category: cs.LG

TL;DR: TTA-VLM是一个用于评估视觉语言模型(VLM)测试时适应(TTA)方法的综合基准,解决了现有研究的局限性,提供了更全面的评估指标。

  • Motivation: 当前TTA研究存在结果重复、评估指标有限、实验设置不一致和分析不足等问题,阻碍了公平比较和实际应用。
  • Method: TTA-VLM实现了8种情景TTA和7种在线TTA方法,在统一框架下评估15个数据集,并扩展了模型和评估指标。
  • Result: 实验表明现有TTA方法提升有限,与训练时调优方法协作不佳,且准确性提升常以模型可信度下降为代价。
  • Conclusion: TTA-VLM为TTA方法提供了公平比较和全面评估,鼓励开发更可靠和通用的策略。

[246] Teaching Time Series to See and Speak: Forecasting with Aligned Visual and Textual Perspectives

Dong Sixun,Fan Wei,Teresa Wu,Fu Yanjie

Main category: cs.LG

TL;DR: 提出了一种多模态对比学习框架,将时间序列转化为视觉和文本视角,通过对比学习对齐这些视角,提升时间序列预测性能。

  • Motivation: 传统时间序列预测依赖单模态数值输入,难以捕捉高级语义模式;现有基于文本的方法受限于离散的标记序列,缺乏人类视觉直觉。
  • Method: 构建视觉和文本视角,通过对比学习对齐多模态表示,并引入变量选择模块识别信息量最大的变量。
  • Result: 在15个短期和6个长期预测基准测试中,性能优于单模态和跨模态基线方法。
  • Conclusion: 多模态对齐能有效增强时间序列预测,框架代码已开源。

cs.NE

[247] Towards Efficient and Accurate Spiking Neural Networks via Adaptive Bit Allocation

Xingting Yao,Qinghao Hu,Fei Zhou,Tielong Liu,Gang Li,Peisong Wang,Jian Cheng

Main category: cs.NE

TL;DR: 本文提出了一种自适应比特分配策略,用于直接训练的脉冲神经网络(SNN),通过细粒度的层间资源分配提升效率和准确性。

  • Motivation: 多比特SNN在追求高能效和高精度时,内存和计算需求急剧增加,导致性能提升不成比例。不同层的重要性不同,额外比特可能被浪费或干扰。
  • Method: 参数化权重和脉冲的时间长度和比特宽度,使其可通过梯度学习和控制。提出改进的脉冲神经元以处理可变比特宽度和时间长度,并解决步长不匹配问题。
  • Result: 在多个数据集上实验表明,该方法能降低内存和计算成本,同时提高准确性。例如,SEWResNet-34在ImageNet上实现了2.69%的准确率提升和4.16倍的比特预算降低。
  • Conclusion: 自适应比特分配策略显著提升了SNN的效率和准确性,为解决多比特SNN的资源分配问题提供了有效方案。

cs.RO

[248] DriveBLIP2: Attention-Guided Explanation Generation for Complex Driving Scenarios

Shihong Ling,Yue Wan,Xiaowei Jia,Na Du

Main category: cs.RO

TL;DR: DriveBLIP2框架基于BLIP2-OPT架构,通过注意力地图生成器提升自动驾驶场景中的解释质量。

  • Motivation: 现有视觉语言模型在复杂多目标环境中表现不佳,尤其在实时自动驾驶场景中。
  • Method: 提出注意力地图生成器,突出关键对象以生成更清晰的解释。
  • Result: 在DRAMA数据集上,BLEU、ROUGE、CIDEr和SPICE分数显著提升。
  • Conclusion: 定向注意力机制可增强实时自动驾驶中的可解释性。

[249] Pixels-to-Graph: Real-time Integration of Building Information Models and Scene Graphs for Semantic-Geometric Human-Robot Understanding

Antonello Longo,Chanyoung Chung,Matteo Palieri,Sung-Kyun Kim,Ali Agha,Cataldo Guaragnella,Shehryar Khattak

Main category: cs.RO

TL;DR: Pix2G是一种轻量级方法,通过图像像素和LiDAR地图实时生成结构化场景图,用于资源受限机器人平台的自主探索。

  • Motivation: 解决人类操作员与机器人之间在高风险任务中的高效合作问题,弥合2D BIM与3D地图之间的差距。
  • Method: 利用CPU实时处理图像和LiDAR数据,生成去噪的2D地图和结构分割的3D点云,并通过多层图连接。
  • Result: 在NASA JPL NeBula-Spot机器人上成功实现实时自主探索杂乱车库和城市办公环境。
  • Conclusion: Pix2G方法有效实现了资源受限平台上的实时场景图生成,提升了人机协作效率。

[250] InfGen: Scenario Generation as Next Token Group Prediction

Zhenghao Peng,Yuxin Liu,Bolei Zhou

Main category: cs.RO

TL;DR: InfGen是一个基于Transformer的交通场景生成框架,支持动态、长时程场景模拟,并能持续插入新车辆。

  • Motivation: 现有数据驱动的交通模拟方法依赖静态初始化或日志回放,难以模拟动态、长时程场景。
  • Method: InfGen将整个场景表示为包含交通信号、车辆状态和运动向量的令牌序列,通过Transformer模型进行自回归模拟。
  • Result: 实验表明InfGen能生成真实、多样且自适应的交通行为,强化学习策略在其生成的场景中表现更优。
  • Conclusion: InfGen是一个高保真度的自动驾驶模拟环境,支持动态场景生成。

eess.SP

[251] SegmentAnyMuscle: A universal muscle segmentation model across different locations in MRI

Roy Colglazier,Jisoo Lee,Haoyu Dong,Hanxue Gu,Yaqian Chen,Joseph Cao,Zafer Yildiz,Zhonghao Liu,Nicholas Konz,Jichen Yang,Jikai Zhang,Yuwen Chen,Lin Li,Adrian Camarena,Maciej A. Mazurowski

Main category: eess.SP

TL;DR: 开发了一个公开可用的深度学习模型,用于MRI中的肌肉分割,并在不同解剖位置和成像序列中验证了其适用性。

  • Motivation: 肌肉的数量和质量对健康结果具有重要预测价值,但MRI中精确测量肌肉仍具挑战性。
  • Method: 使用362例MRI数据开发模型,并在不同序列和异常情况下测试其性能。
  • Result: 模型在常见序列和异常情况下分别达到88.45%和86.21%的DSC,表现稳定。
  • Conclusion: 该模型为肌肉与健康关系的研究提供了可重复的工具。

cs.IR

[252] KiseKloset: Comprehensive System For Outfit Retrieval, Recommendation, And Try-On

Thanh-Tung Phan-Nguyen,Khoi-Nguyen Nguyen-Ngoc,Tam V. Nguyen,Minh-Triet Tran,Trung-Nghia Le

Main category: cs.IR

TL;DR: 论文提出了一种名为KiseKloset的系统,用于服装检索、推荐和虚拟试穿,通过两种检索方法和新型Transformer架构提升用户体验,并部署了轻量级虚拟试穿框架。用户研究显示84%的参与者认为系统非常有用。

  • Motivation: 提升全球时尚电商行业的个性化购物体验,通过推荐系统和虚拟试穿技术增强客户参与度。
  • Method: 采用两种服装检索方法(相似物品检索和文本反馈引导检索),引入新型Transformer架构推荐互补物品,并集成近似算法优化搜索流程。同时开发轻量级虚拟试穿框架。
  • Result: 84%的用户认为系统显著改善了在线购物体验。
  • Conclusion: KiseKloset系统通过综合技术方案有效提升了用户满意度和购物体验。

eess.IV

[253] High Resolution Isotropic 3D Cine imaging with Automated Segmentation using Concatenated 2D Real-time Imaging and Deep Learning

Mark Wrobel,Michele Pascale,Tina Yao,Ruaraidh Campbell,Elena Milano,Michael Quail,Jennifer Steeden,Vivek Muthurangu

Main category: eess.IV

TL;DR: 利用深度学习将2D实时自由呼吸电影图像拼接并转换为3D电影数据集,验证了其在心血管磁共振中的潜力。

  • Motivation: 传统心血管磁共振(CMR)在儿科和先天性心脏病中需要多次扫描,耗时较长。本研究旨在通过深度学习技术简化流程,提高效率。
  • Method: 训练了四种深度学习模型,分别用于对比校正、呼吸运动校正、超分辨率和心脏结构分割。在10名患者中验证了方法的有效性。
  • Result: 成功将所有实时数据转换为3D电影数据集,处理时间小于1分钟。心室体积和血管直径与传统方法结果一致。
  • Conclusion: 该方法能够快速生成3D电影数据集,显著缩短CMR检查时间,具有临床应用潜力。

[254] FedCLAM: Client Adaptive Momentum with Foreground Intensity Matching for Federated Medical Image Segmentation

Vasilis Siomos,Jonathan Passerat-Palmbach,Giacomo Tarroni

Main category: eess.IV

TL;DR: FedCLAM是一种联邦学习方法,通过客户端自适应动量和个性化阻尼因子解决医学影像中的特征差异问题,并引入强度对齐损失处理图像强度分布差异。

  • Motivation: 医学影像中设备与人群差异导致联邦学习全局模型效果下降,现有方法难以适应多样化场景。
  • Method: FedCLAM结合客户端自适应动量、个性化阻尼因子和强度对齐损失。
  • Result: 在两个数据集上,FedCLAM在医学分割任务中优于八种前沿方法。
  • Conclusion: FedCLAM有效解决了医学影像联邦学习中的特征差异问题,性能显著提升。

[255] ICME 2025 Generalizable HDR and SDR Video Quality Measurement Grand Challenge

Yixu Chen,Bowen Chen,Hai Wei,Alan C. Bovik,Baojun Li,Wei Sun,Linhan Cao,Kang Fu,Dandan Zhu,Jun Jia,Menghan Hu,Xiongkuo Min,Guangtao Zhai,Dounia Hammou,Fei Yin,Rafal Mantiuk,Amritha Premkumar,Prajit T Rajendran,Vignesh V Menon

Main category: eess.IV

TL;DR: ICME 2025 Grand Challenge聚焦于开发通用的HDR和SDR视频质量评估方法,现有模型在动态范围和失真类型上表现不一,挑战赛推动了新模型的开发。

  • Motivation: 随着HDR和SDR视频技术的发展,现有视频质量评估模型难以适应多样化的动态范围和失真类型,需要更通用的方法。
  • Method: 挑战赛收集了五个团队的七种模型,分别针对全参考和无参考视频质量评估任务进行测试。
  • Result: 四种模型表现优于VMAF基准,其中最优模型达到了最新技术水平。
  • Conclusion: 挑战赛成功推动了通用视频质量评估技术的发展,并为未来研究设定了新基准。

[256] CA-Diff: Collaborative Anatomy Diffusion for Brain Tissue Segmentation

Qilong Xing,Zikai Song,Yuteng Ye,Yuke Chen,Youjia Zhang,Na Feng,Junqing Yu,Wei Yang

Main category: eess.IV

TL;DR: 提出了一种结合解剖学特征的扩散模型CA-Diff,用于提升脑MRI分割精度,显著优于现有方法。

  • Motivation: 现有CNN和基于Transformer的方法在复杂脑结构分割上表现不佳,而扩散模型直接应用于脑MRI时因忽略解剖信息而效果有限。
  • Method: CA-Diff框架引入距离场作为解剖条件,结合协作扩散过程建模其联合分布,并设计一致性损失和时间适应通道注意力模块优化特征融合。
  • Result: 实验表明CA-Diff在脑MRI分割任务上优于当前最先进方法。
  • Conclusion: CA-Diff通过整合解剖学特征和优化扩散过程,显著提升了脑结构分割的准确性。

[257] Hierarchical Characterization of Brain Dynamics via State Space-based Vector Quantization

Yanwu Yang,Thomas Wolfers

Main category: eess.IV

TL;DR: 提出了一种名为HST的分层状态空间标记化网络,用于量化大脑状态和转换,并通过改进的VQ-VAE提升量化性能,验证了其在疾病诊断和重建中的潜力。

  • Motivation: 理解大脑动态是神经科学的基本挑战,现有方法忽略了大脑转换依赖性和稳定嵌入的量化。
  • Method: 基于状态空间模型的分层结构量化大脑状态和转换,引入改进的VQ-VAE结合量化误差反馈和聚类。
  • Result: 在两个公共fMRI数据集上验证了HST的有效性,展示了其在疾病诊断和重建性能中的潜力。
  • Conclusion: HST为大脑动态表征提供了有前景的框架,有助于分析稳定性。

[258] MedRegion-CT: Region-Focused Multimodal LLM for Comprehensive 3D CT Report Generation

Sunggu Kyung,Jinyoung Seo,Hyunseok Lim,Dongyeong Kim,Hyungbin Park,Jimin Sung,Jihyun Kim,Wooyoung Jo,Yoojin Nam,Namkug Kim

Main category: eess.IV

TL;DR: MedRegion-CT提出了一种区域聚焦的多模态大语言模型框架,通过区域代表令牌池化、通用分割模型和患者特定属性提取,显著提升了CT报告生成的临床相关性和自然语言质量。

  • Motivation: 现有方法主要关注全局特征,难以捕捉区域特异性细节,可能导致某些异常被忽略。
  • Method: 1. 引入区域代表令牌池化(R^2 Token Pooling)提取3D CT特征;2. 使用通用分割模型生成伪掩码并提取区域特征;3. 提取患者特定属性并转换为文本提示。
  • Result: 在RadGenome-Chest CT数据集上,MedRegion-CT在自然语言生成质量和临床相关性方面表现最优。
  • Conclusion: MedRegion-CT通过区域聚焦方法显著提升了CT报告生成的性能,同时保持了可解释性。

[259] CRISP-SAM2: SAM2 with Cross-Modal Interaction and Semantic Prompting for Multi-Organ Segmentation

Xinlei Yu,Chanmiao Wang,Hui Jin,Ahmed Elazab,Gangyong Jia,Xiang Wan,Changqing Zou,Ruiquan Ge

Main category: eess.IV

TL;DR: CRISP-SAM2是一种基于SAM2的多器官医学分割模型,通过跨模态交互和语义提示解决现有模型的细节不准确、依赖几何提示和空间信息丢失问题。

  • Motivation: 当前多器官分割模型存在细节不准确、依赖几何提示和空间信息丢失等问题,亟需改进。
  • Method: 采用跨模态上下文语义转换、语义提示策略、相似性排序自更新策略和掩码细化过程。
  • Result: 在七个公共数据集上的实验表明,CRISP-SAM2优于现有模型。
  • Conclusion: CRISP-SAM2通过创新方法有效解决了现有模型的局限性,性能优越。

[260] Score-based Diffusion Model for Unpaired Virtual Histology Staining

Anran Liu,Xiaofei Wang,Jing Cai,Chao Li

Main category: eess.IV

TL;DR: 提出了一种基于互信息引导的扩散模型,用于从H&E图像虚拟染色生成IHC图像,解决了现有方法在分解染色风格与组织结构、可控染色过程及结构一致性建模方面的挑战。

  • Motivation: H&E染色缺乏特异性标记,IHC染色受限于组织可用性和抗体特异性,虚拟染色技术有望高效生成IHC图像,但现有方法仍面临关键挑战。
  • Method: 设计了全局互信息引导的能量函数、时间步定制的反向扩散过程及局部互信息驱动的对比学习策略,以分解染色风格与组织结构、精确控制染色强度并确保细胞级结构一致性。
  • Result: 实验表明,该方法优于现有技术,展示了其生物医学潜力。
  • Conclusion: 该方法为虚拟染色提供了高效且可控的解决方案,代码将在接受后开源。

[261] Multi-Source COVID-19 Detection via Variance Risk Extrapolation

Runtian Yuan,Qingqiu Li,Junlin Hou,Jilan Xu,Yuejie Zhang,Rui Feng,Hao Chen

Main category: eess.IV

TL;DR: 提出了一种结合VREx和Mixup的方法,用于多源COVID-19检测任务,显著提升了跨域泛化能力。

  • Motivation: 解决多源数据中因成像协议、扫描仪和患者群体差异导致的域偏移问题。
  • Method: 结合Variance Risk Extrapolation (VREx)和Mixup数据增强,优化模型跨域一致性。
  • Result: 在验证集上平均宏F1得分为0.96,表现优异。
  • Conclusion: 该方法有效提升了模型在多源数据中的泛化性能。

[262] Improving Myocardial Infarction Detection via Synthetic ECG Pretraining

Lachin Naghashyar

Main category: eess.IV

TL;DR: 提出了一种生理感知的流程,通过合成12导联心电图(ECG)和自监督预训练,提升心肌梗死(MI)检测性能,尤其在数据稀缺时效果显著。

  • Motivation: 心肌梗死是全球主要死因,早期准确诊断至关重要。现有深度学习模型依赖大量标注数据,但实际中数据稀缺。
  • Method: 提出两步流程:(i) 合成可调MI形态和真实噪声的12导联ECG;(ii) 通过自监督掩码自编码和联合重建-分类目标预训练模型。
  • Result: 合成ECG保留了关键形态特征,预训练在低数据场景下显著提升分类性能(AUC提升高达4个百分点)。
  • Conclusion: 合成ECG可有效提升MI检测性能,尤其在临床数据有限时。

[263] BPD-Neo: An MRI Dataset for Lung-Trachea Segmentation with Clinical Data for Neonatal Bronchopulmonary Dysplasia

Rachit Saluja,Arzu Kovanlikaya,Candace Chien,Lauren Kathryn Blatt,Jeffrey M. Perlman,Stefan Worgall,Mert R. Sabuncu,Jonathan P. Dyke

Main category: eess.IV

TL;DR: 论文提出利用高分辨率3D MRI和语义分割算法辅助诊断早产儿支气管肺发育不良(BPD),并提供了40例患儿的MRI扫描和分割数据。

  • Motivation: 传统便携X射线诊断BPD存在辐射和镇静问题,而MRI提供无创且更详细的肺部机制信息。
  • Method: 使用StarVIBE系列自由呼吸3D径向梯度回波采集MRI数据,并开发语义分割算法。
  • Result: 提供了40例BPD患儿的MRI扫描、分割数据和基线模型,验证了临床评估的准确性。
  • Conclusion: MRI结合图像处理技术为BPD诊断提供了新工具,支持进一步研究和开发。

[264] SurgTPGS: Semantic 3D Surgical Scene Understanding with Text Promptable Gaussian Splatting

Yiming Huang,Long Bai,Beilei Cui,Kun Yuan,Guankun Wang,Mobarakol Islam,Nicolas Padoy,Nassir Navab,Hongliang Ren

Main category: eess.IV

TL;DR: SurgTPGS是一种新型的文本提示高斯泼溅方法,用于实时3D手术场景查询,结合语义特征学习和变形跟踪,显著提升了手术场景的重建质量和语义理解。

  • Motivation: 当前手术研究中,缺乏支持实时文本提示的3D查询方法,限制了手术规划和术中指导的精确性。
  • Method: 提出3D语义特征学习策略,结合Segment Anything模型和先进视觉语言模型,实现语义感知变形跟踪和区域感知优化。
  • Result: 在两个真实手术数据集上的实验表明,SurgTPGS优于现有方法,提升了重建质量和语义平滑性。
  • Conclusion: SurgTPGS通过增强手术精确性和安全性,为下一代智能手术系统的发展铺平了道路。

[265] Federated Breast Cancer Detection Enhanced by Synthetic Ultrasound Image Augmentation

Hongyi Pan,Ziliang Hong,Gorkem Durak,Ziyue Xu,Ulas Bagci

Main category: eess.IV

TL;DR: 论文提出了一种基于生成AI的数据增强框架,通过合成图像共享提升联邦学习在乳腺癌超声图像诊断中的性能。

  • Motivation: 解决联邦学习中数据不足和非独立同分布数据导致的模型性能下降问题。
  • Method: 使用两类特定的深度卷积生成对抗网络生成合成图像,并在联邦学习框架中结合真实数据进行训练。
  • Result: 实验表明,适量合成图像可将FedAvg的AUC从0.9206提升至0.9237,FedProx从0.9429提升至0.9538。
  • Conclusion: 生成AI数据增强能有效提升联邦学习性能,但需平衡真实与合成数据的比例。

[266] FD-DiT: Frequency Domain-Directed Diffusion Transformer for Low-Dose CT Reconstruction

Qiqing Liu,Guoquan Wei,Zekun Zhou,Yiyang Wen,Liu Shi,Qiegen Liu

Main category: eess.IV

TL;DR: FD-DiT是一种基于频率域导向的扩散变换器方法,用于低剂量CT图像重建,通过噪声渐进引入和频率解耦技术,显著提升了图像细节保留和噪声抑制能力。

  • Motivation: 低剂量CT(LDCT)虽减少辐射,但图像噪声和伪影影响诊断准确性,现有方法在保留细节方面存在局限。
  • Method: 提出FD-DiT方法,结合扩散模型和频率解耦技术,通过渐进噪声引入和混合去噪网络优化重建过程,并利用滑动稀疏局部注意力增强高频噪声识别。
  • Result: 实验表明,FD-DiT在相同剂量下,噪声和伪影抑制效果优于现有方法。
  • Conclusion: FD-DiT通过频率域和动态融合策略,显著提升了LDCT图像重建质量。

[267] UltraTwin: Towards Cardiac Anatomical Twin Generation from Multi-view 2D Ultrasound

Junxuan Yu,Yaofei Duan,Yuhao Huang,Yu Wang,Rongbo Ling,Weihao Luo,Ang Zhang,Jingxian Xu,Qiongying Ni,Yongsong Zhou,Binghan Li,Haoran Dou,Liping Liu,Yanfen Chu,Feng Geng,Zhe Sheng,Zhifeng Ding,Dingxin Zhang,Rui Huang,Yuhang Zhang,Xiaowei Xu,Tao Tan,Dong Ni,Zhongshan Gou,Xin Yang

Main category: eess.IV

TL;DR: 提出了一种名为UltraTwin的生成框架,用于从稀疏多视角2D超声图像构建心脏解剖孪生体,解决了数据稀缺、结构复杂和超声噪声等挑战。

  • Motivation: 2D超声在心脏检查中难以精确计算指标和直接观察3D结构,而3D超声分辨率低、视野小且实际应用受限。构建心脏解剖孪生体可提供精确治疗规划和临床量化。
  • Method: 1. 构建了高质量的真实世界数据集,包含严格配对的多视角2D超声和CT数据;2. 提出了一种从粗到细的分层重建优化方案;3. 引入了隐式自编码器以实现拓扑感知约束。
  • Result: 实验表明,UltraTwin能够重建高质量的解剖孪生体,优于其他强竞争方法。
  • Conclusion: UltraTwin推动了心脏解剖孪生体建模的发展,有望在个性化心脏护理中发挥潜在应用价值。

[268] Artificial Intelligence-assisted Pixel-level Lung (APL) Scoring for Fast and Accurate Quantification in Ultra-short Echo-time MRI

Bowen Xin,Rohan Hickey,Tamara Blake,Jin Jin,Claire E Wainwright,Thomas Benkert,Alto Stemmer,Peter Sly,David Coman,Jason Dowling

Main category: eess.IV

TL;DR: 本文提出了一种基于人工智能的像素级肺部评分(APL)方法,用于快速、准确地量化肺部MRI图像,特别是在囊性纤维化(CF)的诊断中。APL评分比传统网格级评分更快、更准确。

  • Motivation: 由于MRI无电离辐射,适合儿科疾病如囊性纤维化的诊断,但缺乏定量评分系统。APL评分旨在填补这一空白。
  • Method: APL评分包括五个步骤:图像加载、AI肺部分割、肺边界切片采样、像素级标注、量化和报告。
  • Result: APL评分每例仅需8.2分钟,比网格级评分快两倍以上,且准确性更高(p=0.021),与网格级评分强相关(R=0.973)。
  • Conclusion: APL评分有望优化临床肺部MRI工作流程,并可扩展至其他肺部疾病和MRI序列。

[269] AFUNet: Cross-Iterative Alignment-Fusion Synergy for HDR Reconstruction via Deep Unfolding Paradigm

Xinyue Li,Zhangkai Ni,Wenhan Yang

Main category: eess.IV

TL;DR: AFUNet通过交替优化的对齐与融合子任务,基于MAP估计理论,提升了多曝光HDR重建的性能。

  • Motivation: 现有方法依赖经验设计,缺乏理论支持,影响可靠性。
  • Method: AFUNet将HDR重建分解为对齐与融合子任务,通过交替优化和展开迭代实现端到端训练。
  • Result: AFUNet在定性和定量评估中均优于现有方法。
  • Conclusion: AFUNet通过理论驱动的设计和模块化优化,显著提升了HDR重建效果。

[270] A Clinically-Grounded Two-Stage Framework for Renal CT Report Generation

Renjie Liang,Zhengkang Fan,Jinqian Pan,Chenkun Sun,Russell Terry,Jie Xu

Main category: eess.IV

TL;DR: 提出了一种两阶段框架,用于从2D CT切片生成肾脏放射学报告,结合异常特征提取和视觉语言模型生成自然语言报告。

  • Motivation: 由于医学影像的复杂性和临床文档的变异性,生成放射学报告具有挑战性。
  • Method: 使用多任务学习模型提取结构化异常特征,再结合CT图像输入微调的视觉语言模型生成报告。
  • Result: 模型在所有异常类型上优于随机基线,生成的报告能合理捕捉关键临床内容。
  • Conclusion: 展示了模块化、基于特征的报告生成的可行性,未来将扩展到3D CT体积并提升临床保真度。

[271] Diffusion Model-based Data Augmentation Method for Fetal Head Ultrasound Segmentation

Fangyijie Wang,Kevin Whelan,Félix Balado,Guénolé Silvestre,Kathleen M. Curran

Main category: eess.IV

TL;DR: 提出了一种基于扩散模型的掩码引导生成AI方法,用于生成合成胎儿头部超声图像及其分割掩码,以增强真实数据集,从而提升分割模型性能。

  • Motivation: 医疗图像数据因隐私和监管限制难以获取,且标注成本高,合成数据生成成为解决方案。
  • Method: 采用扩散模型生成合成胎儿头部超声图像及分割掩码,用于增强真实数据集并微调Segment Anything Model(SAM)。
  • Result: 合成数据有效捕捉真实图像特征,在少量真实图像-掩码对训练下达到最佳分割效果(Dice分数分别为94.66%和94.38%)。
  • Conclusion: 掩码引导生成AI方法在有限真实数据下显著提升胎儿头部超声图像分割性能,代码和模型已开源。

[272] MedSAM-CA: A CNN-Augmented ViT with Attention-Enhanced Multi-Scale Fusion for Medical Image Segmentation

Peiting Tian,Xi Chen,Haixia Bi,Fan Li

Main category: eess.IV

TL;DR: MedSAM-CA是一种基于预训练模型MedSAM的架构级微调方法,通过引入CBR-Net和Atte-FFB组件,减少对大规模标注数据的依赖,提升医学图像分割的边界精度。

  • Motivation: 医学图像分割在临床诊断中至关重要,但现有深度学习方法依赖大量标注数据且难以应对低对比度和模糊边界等挑战。
  • Method: 提出MedSAM-CA,结合CBR-Net和Atte-FFB,通过卷积注意力增强边界细化与多级特征融合,优化分割性能。
  • Result: 在公开数据集上验证,仅用2%训练数据即可达到接近全数据训练的性能(94.43% Dice)。
  • Conclusion: MedSAM-CA在低资源临床环境中表现优异,显著减少标注需求并提升分割精度。

[273] MDPG: Multi-domain Diffusion Prior Guidance for MRI Reconstruction

Lingtong Zhang,Mengdie Song,Xiaohan Hao,Huayu Mai,Bensheng Qiu

Main category: eess.IV

TL;DR: 提出了一种名为MDPG的方法,利用预训练的潜在扩散模型(LDMs)在多域中提供先验指导,以增强MRI重建任务中的数据一致性。

  • Motivation: MRI重建在医学诊断中至关重要,但现有扩散模型因随机性难以生成高保真图像。LDMs在潜在域中提供了紧凑且详细的先验知识,可有效指导模型学习原始数据分布。
  • Method: 1. 构建基于Visual-Mamba的主干网络,高效编码和重建欠采样图像;2. 集成预训练LDMs,在潜在域和图像域提供条件先验;3. 提出Latent Guided Attention(LGA)实现多级潜在域高效融合;4. 通过Dual-domain Fusion Branch(DFB)融合欠采样图像与生成的全采样图像;5. 提出基于非自动校准信号(NACS)的k空间正则化策略。
  • Result: 在两个公开MRI数据集上的实验验证了方法的有效性。
  • Conclusion: MDPG通过多域先验指导和k空间正则化策略,显著提升了MRI重建的数据一致性。

[274] Deep Learning-Based Semantic Segmentation for Real-Time Kidney Imaging and Measurements with Augmented Reality-Assisted Ultrasound

Gijs Luijten,Roberto Maria Scardigno,Lisle Faray de Paiva,Peter Hoyer,Jens Kleesiek,Domenico Buongiorno,Vitoantonio Bevilacqua,Jan Egger

Main category: eess.IV

TL;DR: 论文提出了一种结合深度学习和增强现实的超声系统,用于实时自动化肾脏体积测量,以提高临床效率和减少认知负担。

  • Motivation: 超声检查虽然广泛可用且无辐射,但学习曲线陡峭,且操作时需要频繁切换注意力。传统肾脏体积测量耗时且易疲劳,亟需自动化解决方案。
  • Method: 通过深度学习实现实时肾脏分割,并结合增强现实技术将超声图像投射到医生视野中。提出了两种基于HoloLens-2的AR-DL辅助超声流程。
  • Result: 使用Open Kidney Dataset和开源分割模型评估了实时性和准确性,并提供了开源GitHub管道,支持无线流媒体和广泛设备兼容性。
  • Conclusion: 该技术显著提升了超声检查的效率和可用性,特别适用于即时诊断场景。

[275] Spatio-Temporal Representation Decoupling and Enhancement for Federated Instrument Segmentation in Surgical Videos

Zheng Fang,Xiaoming Qi,Chun-Mei Feng,Jialun Pei,Weixin Si,Yueming Jin

Main category: eess.IV

TL;DR: 提出了一种个性化联邦学习方案FedST,通过解耦和增强时空表示,结合手术领域知识提升分割性能。

  • Motivation: 解决手术器械分割在联邦学习中的挑战,如不同场景的解剖背景多样性和器械表示高度相似性,以及手术模拟器生成合成数据的潜力。
  • Method: 提出RSC机制在本地训练中解耦查询嵌入层,全局优化其他参数;设计文本引导的通道选择;在全局服务器训练中提出SERQ方法。
  • Result: 通过结合手术领域知识,提升了分割性能。
  • Conclusion: FedST方案有效解决了手术器械分割在联邦学习中的问题,提升了模型的泛化能力。

[276] ShapeKit

Junqi Liu,Dongli He,Wenxuan Li,Ningyu Wang,Alan L. Yuille,Zongwei Zhou

Main category: eess.IV

TL;DR: 提出了一种无需重新训练模型即可提升医学分割形状准确性的工具ShapeKit,性能提升超过8%。

  • Motivation: 发现形状优化工具比模型架构修改更能显著提升分割性能。
  • Method: 开发了ShapeKit工具包,专注于优化解剖形状。
  • Result: ShapeKit使分割性能提升超过8%,优于模型修改的3%。
  • Conclusion: 强调形状工具在医学分割中的潜在价值,呼吁社区关注。

[277] C3VDv2 -- Colonoscopy 3D video dataset with enhanced realism

Mayank V. Golhar,Lucas Sebastian Galeano Fretes,Loren Ayers,Venkata S. Akshintala,Taylor L. Bobrow,Nicholas J. Durr

Main category: eess.IV

TL;DR: C3VDv2是一个高仿真3D结肠镜视频数据集,旨在支持3D结肠重建算法的开发和评估。

  • Motivation: 现有3D结肠镜数据集的缺乏限制了计算机视觉技术在结肠镜诊断中的应用。
  • Method: 通过60个高仿真硅胶结肠模型采集192个视频序列,并提供多种真实场景下的标注数据。
  • Result: 数据集包含169个视频的标注数据,模拟了多种复杂场景,如粪便、血液和快速相机运动。
  • Conclusion: C3VDv2的高仿真性将促进更鲁棒和代表性的3D重建算法发展。

cs.CR

[278] General Autonomous Cybersecurity Defense: Learning Robust Policies for Dynamic Topologies and Diverse Attackers

Arun Ramamurthy,Neil Dhir

Main category: cs.CR

TL;DR: 论文探讨了在动态网络环境中开发通用自主网络安全防御系统(GACD)的方法,以解决现有系统因静态假设而导致的泛化能力不足问题。

  • Motivation: 现有自主网络安全防御系统(ACD)依赖静态网络假设,无法适应动态变化的网络拓扑,导致泛化能力不足。
  • Method: 研究开发通用自主网络安全防御系统(GACD),通过动态网络环境中的学习策略提升泛化能力。
  • Result: 提出了GACD框架,旨在解决动态网络环境中的适应性问题。
  • Conclusion: GACD为动态网络环境中的网络安全防御提供了新的解决方案,具有潜在的实际应用价值。

cs.AI

[279] MARBLE: A Hard Benchmark for Multimodal Spatial Reasoning and Planning

Yulun Jiang,Yekun Chai,Maria Brbić,Michael Moor

Main category: cs.AI

TL;DR: MARBLE是一个多模态推理基准测试,旨在评估多模态语言模型(MLLMs)在复杂多模态问题中的逐步推理能力。现有模型表现不佳,表明复杂推理仍是挑战。

  • Motivation: 现有推理基准测试主要关注文本或简单多模态问题,复杂多模态推理能力尚未被充分研究。
  • Method: MARBLE包含两个高难度任务(M-Portal和M-Cube),要求模型在空间、视觉和物理约束下进行多步规划。
  • Result: 12个先进模型在M-Portal上表现接近随机,M-Cube上准确率为0%,仅在简化子任务中部分模型优于随机基线。
  • Conclusion: MARBLE揭示了MLLMs在复杂多模态推理中的局限性,尤其是感知能力不足,希望推动下一代模型的开发。

[280] MMReason: An Open-Ended Multi-Modal Multi-Step Reasoning Benchmark for MLLMs Toward AGI

Huanjin Yao,Jiaxing Huang,Yawen Qiu,Michael K. Chen,Wenzheng Liu,Wei Zhang,Wenjie Zeng,Xikun Zhang,Jingyi Zhang,Yuxin Song,Wenhao Wu,Dacheng Tao

Main category: cs.AI

TL;DR: MMReason是一个新的基准测试,旨在全面评估多模态大语言模型(MLLM)的长链推理能力,通过多样、开放和具有挑战性的问题填补现有评测的不足。

  • Motivation: 现有MLLM评测在长链推理能力评估上存在不足,包括难度和多样性不足、易受猜测和记忆影响,以及对中间推理步骤评估不充分。
  • Method: MMReason通过以下方法设计:(1)从多个学科和难度级别筛选多步推理问题,(2)采用开放格式和多模型投票技术消除猜测和记忆的捷径,(3)标注详细步骤并设计三元评分机制评估推理步骤。
  • Result: MMReason对主流MLLM进行了评测,并深入分析了其推理能力。
  • Conclusion: MMReason有望成为推动MLLM推理研究的重要资源。

上次更新于: