Skip to content
每日arXiv - 2025年5月16日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] A Computational Pipeline for Advanced Analysis of 4D Flow MRI in the Left Atrium

Xabier Morales,Ayah Elsayed,Debbie Zhao,Filip Loncaric,Ainhoa Aguado,Mireia Masias,Gina Quill,Marc Ramos,Ada Doltra,Ana Garcia,Marta Sitges,David Marlevi,Alistair Young,Martyn Nash,Bart Bijnens,Oscar Camara

Main category: cs.CV

TL;DR: 本文提出了一种开源计算框架,用于分析左心房的4D Flow MRI数据,解决了传统超声分析的局限性,并评估了血流动力学参数作为预后生物标志物的潜力。

  • Motivation: 传统超声分析对左心房血流动力学的理解有限,而4D Flow MRI的低速度和空间分辨率限制了其应用。缺乏专用计算框架和多样化的采集协议进一步增加了研究难度。
  • Method: 开发了一个开源计算框架,支持对不同中心数据的鲁棒分析,实现了高精度的自动分割,并首次全面评估了左心房的能量、涡度和压力参数。
  • Result: 框架在有限训练数据下仍能实现高精度分割(Dice > 0.9,Hausdorff 95 < 3 mm),并成功分析了多种疾病中的血流动力学参数。
  • Conclusion: 该框架为左心房的4D Flow MRI分析提供了有效工具,血流动力学参数显示出作为预后生物标志物的潜力。

[2] Dyadic Mamba: Long-term Dyadic Human Motion Synthesis

Julian Tanke,Takashi Shibuya,Kengo Uchida,Koichi Saito,Yuki Mitsufuji

Main category: cs.CV

TL;DR: Dyadic Mamba利用状态空间模型(SSM)生成高质量的双人运动序列,解决了传统Transformer方法在长序列生成中的局限性。

  • Motivation: 现有基于Transformer的方法在生成长时间双人运动序列时表现不佳,主要受限于位置编码方案。
  • Method: 提出Dyadic Mamba,通过简单的架构设计(如序列拼接)促进信息流动,避免复杂的交叉注意力机制。
  • Result: 在短序列基准测试中表现优异,同时在长序列生成中显著优于Transformer方法。
  • Conclusion: SSM架构为长序列双人运动生成提供了新的研究方向。

[3] BoundarySeg:An Embarrassingly Simple Method To Boost Medical Image Segmentation Performance for Low Data Regimes

Tushar Kataria,Shireen Y. Elhabian

Main category: cs.CV

TL;DR: 提出了一种仅依赖现有标注的医学图像分割方法BoundarySeg,通过多任务框架结合边界预测任务提升分割精度,无需未标注数据。

  • Motivation: 医学数据获取和标注困难,半监督方法依赖未标注数据且效果受限。
  • Method: BoundarySeg框架,结合器官边界预测作为辅助任务,利用任务间一致性提供额外监督。
  • Result: 在低数据情况下表现优异,性能媲美或超越依赖未标注数据的半监督方法。
  • Conclusion: BoundarySeg提供了一种高效、无需未标注数据的医学图像分割解决方案。

[4] Mission Balance: Generating Under-represented Class Samples using Video Diffusion Models

Danush Kumar Venkatesh,Isabel Funke,Micha Pfeiffer,Fiona Kolbinger,Hanna Maria Schmeiser,Juergen Weitz,Marius Distler,Stefanie Speidel

Main category: cs.CV

TL;DR: 提出一种基于文本条件扩散的两阶段方法,用于生成高质量手术视频以解决数据不平衡问题。

  • Motivation: 手术视频数据集中严重的数据不平衡阻碍高性能模型的开发。
  • Method: 采用两阶段、基于文本条件的扩散方法,分离空间和时间建模,并通过拒绝采样策略选择最佳合成样本。
  • Result: 在手术动作识别和术中事件预测任务中,合成视频显著提升了模型性能。
  • Conclusion: 该方法有效解决了数据不平衡问题,并开源了实现代码。

[5] Few-Shot Learning of Visual Compositional Concepts through Probabilistic Schema Induction

Andrew Jun Lee,Taylor Webb,Trevor Bihl,Keith Holyoak,Hongjing Lu

Main category: cs.CV

TL;DR: 论文提出了一种名为PSI的原型模型,通过深度学习对少量结构化示例进行类比映射,形成组合概念。PSI在人类类似的学习表现上优于传统模型。

  • Motivation: 研究人类如何从有限示例中学习视觉概念,强调结构化表示和类比映射的重要性。
  • Method: 引入Probabilistic Schema Induction (PSI)模型,结合深度学习和结构化表示,通过权衡对象级相似性和关系相似性进行分类。
  • Result: PSI在人类类似学习表现上优于传统模型,其适应性策略增强了关系相似性。
  • Conclusion: 结构化表示和类比映射对快速学习组合视觉概念至关重要,深度学习可用于构建心理学模型。

[6] Large-Scale Gaussian Splatting SLAM

Zhe Xin,Chenyang Wu,Penghui Huang,Yanyong Zhang,Yinian Mao,Guoquan Huang

Main category: cs.CV

TL;DR: LSG-SLAM是一种基于3D高斯泼溅的大规模视觉SLAM方法,通过多模态策略和特征对齐约束提升室外场景的鲁棒性和重建质量。

  • Motivation: 现有方法多依赖RGBD传感器且仅适用于室内环境,大规模室外场景的重建鲁棒性尚未充分探索。
  • Method: 采用多模态策略估计初始位姿,引入特征对齐约束优化渲染损失,并使用连续高斯泼溅子图处理大规模场景。
  • Result: 在EuRoc和KITTI数据集上表现优于现有神经、3DGS及传统方法。
  • Conclusion: LSG-SLAM为大规模室外场景提供了高效且鲁棒的视觉SLAM解决方案。

[7] AdaptCLIP: Adapting CLIP for Universal Visual Anomaly Detection

Bin-Bin Gao,Yue Zhu,Jiangtao Yan,Yuezhi Cai,Weixi Zhang,Meng Wang,Jun Liu,Yong Liu,Lei Wang,Chengjie Wang

Main category: cs.CV

TL;DR: AdaptCLIP是一种基于CLIP模型的视觉异常检测方法,通过交替学习视觉和文本表示,并结合上下文和对齐残差特征,实现了跨领域的零/少样本泛化。

  • Motivation: 现有方法在视觉异常检测中存在灵活性不足的问题,如依赖复杂提示模板或额外微调。
  • Method: AdaptCLIP通过三个简单适配器(视觉、文本和提示查询适配器)交替学习表示,并结合上下文和残差特征。
  • Result: 在12个工业和医学领域的异常检测基准测试中,AdaptCLIP表现最优。
  • Conclusion: AdaptCLIP提供了一种简单高效的视觉异常检测解决方案,无需目标领域微调。

[8] DDFP: Data-dependent Frequency Prompt for Source Free Domain Adaptation of Medical Image Segmentation

Siqi Yin,Shaolei Liu,Manning Wang

Main category: cs.CV

TL;DR: 论文提出了一种新的源自由域适应(SFDA)框架,通过预适应和数据依赖频率提示改进伪标签质量和图像风格转换,实验证明其优于现有方法。

  • Motivation: 解决现有SFDA方法在伪标签质量和图像风格转换上的不足,以及在有限监督下训练效率低的问题。
  • Method: 引入预适应生成预适应模型,提出数据依赖频率提示改进风格转换,采用风格相关层微调策略。
  • Result: 在跨模态腹部和心脏SFDA分割任务中表现优于现有方法。
  • Conclusion: 新框架有效提升了SFDA的性能和效率。

[9] VRU-CIPI: Crossing Intention Prediction at Intersections for Improving Vulnerable Road Users Safety

Ahmed S. Abdelrahman,Mohamed Abdel-Aty,Quoc Dai Tran

Main category: cs.CV

TL;DR: 论文提出VRU-CIPI框架,通过GRU和Transformer自注意力机制预测VRU的过街意图,在UCF-VRU数据集上达到96.45%的准确率和实时推理速度。

  • Motivation: 提高城市交叉路口行人等VRU的过街意图预测准确性,以减少与车辆的冲突风险。
  • Method: 结合GRU捕捉时间动态和Transformer自注意力机制编码上下文与空间依赖。
  • Result: 在UCF-VRU数据集上实现96.45%的准确率和33帧/秒的实时推理速度。
  • Conclusion: VRU-CIPI框架能有效提升交叉路口安全性,结合I2V通信可提前预警车辆。

[10] Non-Registration Change Detection: A Novel Change Detection Task and Benchmark Dataset

Zhe Shan,Lei Zhou,Liu Mao,Shaofan Chen,Chuanqiu Ren,Xia Xie

Main category: cs.CV

TL;DR: 提出了一种新的遥感变化检测任务——非配准变化检测,以应对自然灾害、人为事故和军事打击等紧急情况。

  • Motivation: 解决现有研究中非配准变化检测问题讨论不足的现状,并应对实际场景中可能出现的八种非配准问题。
  • Method: 针对不同场景设计了独特的图像变换方案,将现有的配准变化检测数据集转换为非配准版本。
  • Result: 实验表明,非配准变化检测会对现有最先进方法造成灾难性影响。
  • Conclusion: 非配准变化检测是一个重要且具有挑战性的任务,代码和数据集已开源。

[11] CSPENet: Contour-Aware and Saliency Priors Embedding Network for Infrared Small Target Detection

Jiakun Deng,Kexuan Li,Xingye Cui,Jiaxuan Li,Chang Long,Tian Pu,Zhenming Peng

Main category: cs.CV

TL;DR: 提出了一种基于轮廓感知和显著性先验嵌入的网络(CSPENet),用于红外小目标检测,解决了现有方法在密集杂波环境下目标定位和轮廓信息感知的不足。

  • Motivation: 现有方法在红外小目标检测中存在目标定位不准确和轮廓信息感知不足的问题,限制了检测性能。
  • Method: 设计了包围收敛先验提取模块(SCPEM)捕获目标轮廓特征,提出双分支先验嵌入架构(DBPEA)优化特征融合,并开发注意力引导特征增强模块(AGFEM)提升特征表示。
  • Result: 在多个公开数据集上的实验表明,CSPENet优于其他最先进方法。
  • Conclusion: CSPENet通过结合轮廓感知和显著性先验,显著提升了红外小目标检测的性能。

[12] MambaControl: Anatomy Graph-Enhanced Mamba ControlNet with Fourier Refinement for Diffusion-Based Disease Trajectory Prediction

Hao Yang,Tao Tan,Shuai Tan,Weiqin Yang,Kunyan Cai,Calvin Chen,Yue Sun

Main category: cs.CV

TL;DR: MambaControl是一种新型框架,结合选择性状态空间建模和扩散过程,用于高保真预测医学图像轨迹,提升阿尔茨海默病预测性能。

  • Motivation: 现有方法在捕捉纵向依赖性和结构一致性方面存在不足,特别是在渐进性疾病中。
  • Method: MambaControl整合了Mamba长程建模和图引导解剖控制,并引入傅里叶增强谱图表示以捕捉空间一致性和多尺度细节。
  • Result: 定量和区域评估显示,MambaControl在预测质量和解剖保真度方面表现优异。
  • Conclusion: MambaControl在个性化预后和临床决策支持方面具有潜力。

[13] TKFNet: Learning Texture Key Factor Driven Feature for Facial Expression Recognition

Liqian Deng

Main category: cs.CV

TL;DR: 提出了一种基于纹理关键驱动因素(TKDF)的面部表情识别框架,通过纹理感知特征提取器(TAFE)和双上下文信息过滤(DCIF)提升性能。

  • Motivation: 解决野外面部表情识别中因表情特征细微和局部化以及面部外观复杂变化带来的挑战。
  • Method: 使用TAFE提取细粒度纹理特征,结合DCIF通过自适应池化和注意力机制优化特征。
  • Result: 在RAF-DB和KDEF数据集上达到最先进性能。
  • Conclusion: TKDF的引入有效提升了FER的准确性和鲁棒性。

[14] APCoTTA: Continual Test-Time Adaptation for Semantic Segmentation of Airborne LiDAR Point Clouds

Yuan Gao,Shaobo Xia,Sheng Nie,Cheng Wang,Xiaohuan Xi,Bisheng Yang

Main category: cs.CV

TL;DR: APCoTTA是一种针对ALS点云语义分割的连续测试时间适应方法,通过动态选择可训练层、熵一致性损失和随机参数插值机制,解决了领域偏移和灾难性遗忘问题。

  • Motivation: ALS点云分割在现实应用中面临领域偏移导致的性能下降问题,现有研究缺乏标准化数据集和长期适应中的灾难性遗忘与错误累积解决方案。
  • Method: 提出动态可训练层选择模块、熵一致性损失和随机参数插值机制,构建了两个基准数据集ISPRSC和H3DC。
  • Result: APCoTTA在两个基准上表现最佳,mIoU分别提升约9%和14%。
  • Conclusion: APCoTTA有效解决了ALS点云分割中的领域适应问题,并提供了新的基准和开源代码。

[15] High Quality Underwater Image Compression with Adaptive Correction and Codebook-based Augmentation

Yimin Zhou,Yichong Xia,Sicheng Pan,Bin Chen,Baoyi An,Haoqian Wang,Zhi Wang,Yaowei Wang,Zikun Zhou

Main category: cs.CV

TL;DR: HQUIC是一种新型水下图像压缩算法,通过自适应预测和动态加权多尺度频率组件,显著提升压缩效率。

  • Motivation: 现有水下图像压缩算法未能充分利用水下场景的独特性,导致性能不佳。
  • Method: HQUIC采用ALTC模块预测衰减系数和全局光信息,并利用代码本提取常见对象,动态加权多尺度频率组件。
  • Result: 在多样化水下数据集上的评估显示,HQUIC优于现有压缩方法。
  • Conclusion: HQUIC通过针对性优化,显著提升了水下图像压缩的性能。

[16] PointArena: Probing Multimodal Grounding Through Language-Guided Pointing

Long Cheng,Jiafei Duan,Yi Ru Wang,Haoquan Fang,Boyang Li,Yushan Huang,Elvis Wang,Ainaz Eftekhar,Jason Lee,Wentao Yuan,Rose Hendrix,Noah A. Smith,Fei Xia,Dieter Fox,Ranjay Krishna

Main category: cs.CV

TL;DR: PointArena是一个评估多模态指向能力的平台,包含数据集、交互式竞技场和机器人系统,测试显示Molmo-72B表现最佳。

  • Motivation: 现有基准仅关注对象定位任务,需更全面的多模态指向评估工具。
  • Method: 开发PointArena平台,包含Point-Bench数据集、Point-Battle交互竞技场和Point-Act机器人系统。
  • Result: Molmo-72B表现最优,专有模型性能接近,监督训练显著提升指向能力。
  • Conclusion: 精确指向能力对多模态模型连接抽象推理与实际行动至关重要。

[17] Descriptive Image-Text Matching with Graded Contextual Similarity

Jinhyun Jang,Jiyeong Lee,Kwanghoon Sohn

Main category: cs.CV

TL;DR: 论文提出了一种描述性图像-文本匹配方法(DITM),通过探索语言的描述灵活性来学习图像与文本之间的分级上下文相似性,解决了现有方法中稀疏二元监督的局限性。

  • Motivation: 现有方法采用稀疏二元监督,忽略了图像与文本之间的多对多关系以及从一般到具体描述的隐含连接。DITM旨在通过语言的描述灵活性更全面地捕捉这些关系。
  • Method: DITM通过计算句子的描述性分数(基于TF-IDF)来平衡成对相似性,并利用句子描述性动态调整正负对之间的连接性,同时按从一般到具体的顺序对齐相关句子。
  • Result: 在MS-COCO、Flickr30K和CxC数据集上的实验表明,DITM能更有效地表示复杂的图像-文本关系,并在HierarCaps基准测试中增强了模型的层次推理能力。
  • Conclusion: DITM通过超越二元监督,提升了图像-文本匹配的精确性和鲁棒性,为复杂关系的建模提供了新思路。

[18] From Air to Wear: Personalized 3D Digital Fashion with AR/VR Immersive 3D Sketching

Ying Zang,Yuanqi Hu,Xinyu Chen,Yuxia Xu,Suhui Wang,Chunan Yu,Lanyun Zhu,Deyi Ji,Xin Xu,Tianrun Chen

Main category: cs.CV

TL;DR: 提出了一种基于3D草图的3D服装生成框架,通过结合条件扩散模型和自适应课程学习策略,使普通用户也能在AR/VR环境中轻松设计高质量虚拟服装。

  • Motivation: 在AR/VR设备普及的背景下,现有3D服装设计工具对普通用户门槛过高,缺乏易用性和数据支持。
  • Method: 采用条件扩散模型、共享潜在空间的草图编码器和自适应课程学习策略,从自由手绘输入生成个性化服装。
  • Result: 实验和用户研究表明,该方法在逼真度和可用性上显著优于现有基线。
  • Conclusion: 该框架有望推动下一代消费平台上时尚设计的民主化。

[19] Application of YOLOv8 in monocular downward multiple Car Target detection

Shijie Lyu

Main category: cs.CV

TL;DR: 本文提出了一种基于YOLOv8的改进自主目标检测网络,通过结合结构重参数化技术和双向金字塔结构网络模型,显著提升了多尺度、小目标和远距离目标的检测效率和精度。

  • Motivation: 当前自动驾驶技术中的环境感知方法(如雷达、摄像头和传感器网络)存在高成本、易受天气和光照影响以及分辨率有限等问题,亟需改进。
  • Method: 在YOLOv8框架中集成结构重参数化技术、双向金字塔结构网络模型和新的检测流程。
  • Result: 实验结果显示,改进模型的检测精度达到65%,在多尺度、小目标和远距离目标检测中表现优异。
  • Conclusion: 该改进模型在自动驾驶竞赛(如FSAC)中具有实际应用潜力,尤其在单目标和小目标检测场景中表现出色。

[20] ORL-LDM: Offline Reinforcement Learning Guided Latent Diffusion Model Super-Resolution Reconstruction

Shijie Lyu

Main category: cs.CV

TL;DR: 本文提出了一种基于强化学习的潜在扩散模型(LDM)微调方法,用于遥感图像超分辨率重建,显著提升了图像质量。

  • Motivation: 现有深度学习方法在处理复杂场景和保留图像细节方面存在局限性,需要更有效的解决方案。
  • Method: 通过构建强化学习环境(状态、动作、奖励),在LDM模型的反向去噪过程中使用近端策略优化(PPO)优化决策目标。
  • Result: 在RESISC45数据集上,PSNR提升3-4dB,SSIM提高0.08-0.11,LPIPS降低0.06-0.10,尤其在结构化复杂场景中表现突出。
  • Conclusion: 该方法有效提升了超分辨率的质量和场景适应性。

[21] DeepSeqCoco: A Robust Mobile Friendly Deep Learning Model for Detection of Diseases in Cocos nucifera

Miit Daga,Dhriti Parikh,Swarna Priya Ramu

Main category: cs.CV

TL;DR: DeepSeqCoco是一种基于深度学习的模型,用于从椰树图像中自动准确识别疾病,优于现有方法,最高准确率达99.5%。

  • Motivation: 椰树疾病对农业产量构成严重威胁,尤其在发展中国家,传统诊断方法效率低且不可扩展。
  • Method: 使用深度学习模型DeepSeqCoco,测试了多种优化器设置(如SGD、Adam及混合配置),以平衡准确性、损失最小化和计算成本。
  • Result: 模型最高准确率达99.5%,混合SGD-Adam验证损失最低为2.81%,训练和预测时间分别减少18%和85%。
  • Conclusion: DeepSeqCoco展示了通过AI实现高效、可扩展的疾病监测系统,对精准农业具有潜力。

[22] Exploring the Deep Fusion of Large Language Models and Diffusion Transformers for Text-to-Image Synthesis

Bingda Tang,Boyang Zheng,Xichen Pan,Sayak Paul,Saining Xie

Main category: cs.CV

TL;DR: 本文对文本到图像合成中的LLM与DiT深度融合进行了详细探索,填补了现有研究的空白。

  • Motivation: 现有研究多关注整体性能,缺乏详细对比和公开设计细节,导致该方法潜力不明。
  • Method: 通过实证研究,进行控制性比较,分析设计选择,并提供可复现的大规模训练方案。
  • Result: 提供了有意义的数据点和实用指南。
  • Conclusion: 为多模态生成的未来研究提供了参考。

[23] Advances in Radiance Field for Dynamic Scene: From Neural Field to Gaussian Field

Jinlong Fan,Xuepu Zeng,Jing Zhang,Mingming Gong,Yuxiang Yang,Dacheng Tao

Main category: cs.CV

TL;DR: 这篇论文综述了动态场景表示与重建的最新进展,重点分析了基于神经辐射场和3D高斯泼溅技术的200多篇论文,并提出了统一的框架和未来研究方向。

  • Motivation: 动态场景表示与重建在近年来取得了显著进展,但缺乏系统性的综述和分类,本文旨在填补这一空白。
  • Method: 通过分析200多篇论文,从运动表示范式、重建技术、辅助信息整合和正则化方法等多个角度进行分类和评估。
  • Result: 提出了一个统一的表示框架,总结了动态场景重建的关键技术和挑战。
  • Conclusion: 本文为研究者提供了全面的参考,并指出了未来研究的潜在方向。

[24] PsOCR: Benchmarking Large Multimodal Models for Optical Character Recognition in Low-resource Pashto Language

Ijazul Haq,Yingjie Zhang,Irfan Ali Khan

Main category: cs.CV

TL;DR: 本文评估了大型多模态模型(LMMs)在低资源普什图语OCR任务中的表现,开发了合成数据集PsOCR,并比较了开源和闭源模型的性能。

  • Motivation: 普什图语的NLP面临脚本书写复杂和数据集稀缺的挑战,需开发适合的OCR数据集和评估模型性能。
  • Method: 创建了包含100万张图像的合成数据集PsOCR,涵盖多种字体和布局,并评估了11种LMMs的性能。
  • Result: Gemini在闭源模型中表现最佳,Qwen-7B在开源模型中表现突出。
  • Conclusion: 本研究为普什图语OCR提供了评估基准,并为类似脚本(如阿拉伯语、波斯语和乌尔都语)的研究奠定了基础。

[25] ToonifyGB: StyleGAN-based Gaussian Blendshapes for 3D Stylized Head Avatars

Rui-Yang Ju,Sheng-Yen Huang,Yi-Ping Hung

Main category: cs.CV

TL;DR: ToonifyGB是一个两阶段框架,用于从单目视频生成多样化的风格化3D头部虚拟形象,结合了改进的StyleGAN和高斯混合形状技术。

  • Motivation: 扩展Toonify框架以生成风格化的3D头部虚拟形象,解决传统StyleGAN在固定分辨率裁剪对齐面部时的局限性。
  • Method: 第一阶段使用改进的StyleGAN生成风格化视频;第二阶段从视频中学习风格化中性头部模型和表情混合形状,结合两者渲染风格化虚拟形象。
  • Result: 在Arcane和Pixar两种风格上验证了ToonifyGB的有效性,能够高效生成高质量动画。
  • Conclusion: ToonifyGB成功实现了风格化3D头部虚拟形象的实时重建和多样化表情渲染。

[26] MMRL++: Parameter-Efficient and Interaction-Aware Representation Learning for Vision-Language Models

Yuncheng Guo,Xiaodong Gu

Main category: cs.CV

TL;DR: 论文提出MMRL和MMRL++方法,通过共享模态无关表示空间和优化表示令牌,解决小样本数据下视觉语言模型的过拟合问题,提升泛化能力。

  • Motivation: 大规模预训练视觉语言模型在小样本数据下容易过拟合,泛化能力不足。
  • Method: MMRL引入共享模态无关表示空间,优化表示令牌和类令牌;MMRL++进一步减少参数并增强模态内交互。
  • Result: 在15个数据集上,MMRL和MMRL++均优于现有方法,平衡了任务适应和泛化能力。
  • Conclusion: MMRL和MMRL++通过优化表示空间和交互机制,显著提升了小样本学习中的泛化性能。

[27] Why 1 + 1 < 1 in Visual Token Pruning: Beyond Naive Integration via Multi-Objective Balanced Covering

Yangfu Li,Hongjian Zhan,Tianyi Chen,Qi Liu,Yue Lu

Main category: cs.CV

TL;DR: 论文提出了一种动态平衡视觉令牌修剪目标的方法(MoB),通过理论分析和实验验证,显著提升了性能和效率。

  • Motivation: 现有视觉令牌修剪方法采用静态策略,忽略了任务间目标重要性的差异,导致性能不稳定。
  • Method: 基于Hausdorff距离推导误差界,利用ε-覆盖理论揭示目标间的权衡,并提出多目标平衡覆盖(MoB)框架。
  • Result: MoB在LLaVA-1.5-7B上仅用11.1%的令牌保留96.4%性能,并加速LLaVA-Next-7B 1.3-1.5倍。
  • Conclusion: MoB在多种任务和模型中表现优异,验证了其普适性和高效性。

[28] IMITATE: Image Registration with Context for unknown time frame recovery

Ziad Kheil,Lucas Robinet,Laurent Risser,Soleakhena Ken

Main category: cs.CV

TL;DR: 提出了一种新的图像配准方法,通过条件U-Net架构估计未知条件下的图像,解决了放疗中4D-CT扫描的肿瘤运动重建问题。

  • Motivation: 解决4D-CT扫描中因不规则呼吸、滞后和呼吸信号与内部运动相关性差导致的重建伪影问题。
  • Method: 使用条件U-Net架构,无需固定图像,直接利用已知图像和条件信息建模。
  • Result: 在临床4D-CT数据上实现了无伪影的实时重建。
  • Conclusion: 该方法有效解决了复杂运动场景下的图像配准问题,代码已开源。

[29] Multi-Source Collaborative Style Augmentation and Domain-Invariant Learning for Federated Domain Generalization

Yikang Wei

Main category: cs.CV

TL;DR: 提出了一种多源协作风格增强和域不变学习方法(MCSAD),用于联邦域泛化,通过扩展风格空间和跨域特征对齐提升模型泛化能力。

  • Motivation: 现有风格增强方法在数据分散场景下风格空间有限,无法充分利用多源域信息。
  • Method: 设计了多源协作风格增强模块和域不变学习策略,通过特征对齐和关系蒸馏学习域不变模型。
  • Result: 在多个域泛化数据集上显著优于现有联邦域泛化方法。
  • Conclusion: MCSAD通过协作风格增强和域不变学习,有效提升了模型在未见目标域上的泛化性能。

[30] Modeling Saliency Dataset Bias

Matthias Kümmerer,Harneet Khanuja,Matthias Bethge

Main category: cs.CV

TL;DR: 论文提出了一种新架构,通过少量数据集特定参数解决跨数据集显著性预测中的泛化问题,显著提升了性能。

  • Motivation: 现有显著性预测模型在跨数据集应用时性能下降显著,主要由于数据集偏差。
  • Method: 扩展了数据集无关的编码器-解码器结构,引入少于20个数据集特定参数,控制多尺度结构、中心偏差和注视点扩散等机制。
  • Result: 模型在MIT/Tuebingen显著性基准测试中达到新最佳性能,泛化能力显著提升,仅需50样本即可实现大部分改进。
  • Conclusion: 新模型有效解决了跨数据集泛化问题,同时揭示了空间显著性的复杂多尺度效应。

[31] VolE: A Point-cloud Framework for Food 3D Reconstruction and Volume Estimation

Umair Haroon,Ahmad AlMughrabi,Thanasis Zoumpekas,Ricardo Marques,Petia Radeva

Main category: cs.CV

TL;DR: VolE是一种基于移动设备驱动的3D重建框架,用于精确估计食物体积,无需参考物或深度信息,性能优于现有方法。

  • Motivation: 当前食物体积估计方法受限于单核数据、专用硬件或依赖参考物,VolE旨在解决这些限制。
  • Method: 利用移动设备拍摄图像和相机位置,通过AR技术生成3D模型,并结合食物视频分割生成食物掩模。
  • Result: 实验显示VolE在多个数据集上表现优异,平均绝对百分比误差为2.22%。
  • Conclusion: VolE是一种高效、无需额外硬件的食物体积估计解决方案,适用于医疗营养管理和健康监测。

[32] Data-Agnostic Augmentations for Unknown Variations: Out-of-Distribution Generalisation in MRI Segmentation

Puru Vaish,Felix Meister,Tobias Heimann,Christoph Brune,Jelmer M. Wolterink

Main category: cs.CV

TL;DR: 论文探讨了医学图像分割模型在真实临床场景中的性能下降问题,提出MixUp和Auxiliary Fourier Augmentation两种数据增强方法,显著提升了模型的泛化能力和鲁棒性。

  • Motivation: 医学图像分割模型在真实临床环境中性能下降,传统数据增强方法不足以应对多样化的分布偏移。
  • Method: 系统评估MixUp和Auxiliary Fourier Augmentation两种增强策略,并集成到nnU-Net训练流程中。
  • Result: 这些方法显著提升了模型在心脏电影MRI和前列腺MRI分割中的泛化能力和鲁棒性,并改善了特征表示。
  • Conclusion: MixUp和Auxiliary Fourier Augmentation是简单有效的解决方案,可提升医学分割模型在真实应用中的可靠性。

[33] On the Interplay of Human-AI Alignment,Fairness, and Performance Trade-offs in Medical Imaging

Haozhe Luo,Ziyu Zhou,Zixin Shu,Aurélie Pahud de Mortanges,Robert Berke,Mauricio Reyes

Main category: cs.CV

TL;DR: 研究探讨了在医学影像中结合人类见解以减少AI偏见的方法,发现适度对齐可提升公平性和泛化能力。

  • Motivation: 解决深度神经网络在医学影像中的偏见问题,探索人类与AI对齐对公平性和泛化能力的影响。
  • Method: 系统研究人类与AI对齐对医学影像AI的影响,结合人类见解进行实验。
  • Result: 适度对齐可减少公平性差距并提升泛化能力,但过度对齐可能带来性能折衷。
  • Conclusion: 人类与AI对齐是开发公平、稳健医学AI系统的有效方法,需平衡专家指导和自动化效率。

[34] MTVCrafter: 4D Motion Tokenization for Open-World Human Image Animation

Yanbo Ding

Main category: cs.CV

TL;DR: MTVCrafter提出了一种直接建模3D运动序列的框架,通过4D运动标记和运动感知视频DiT,显著提升了人体图像动画的性能和泛化能力。

  • Motivation: 现有方法依赖2D姿态图像,限制了泛化能力并丢失了3D信息,MTVCrafter旨在解决这一问题。
  • Method: 引入4DMoT量化3D运动序列为4D运动标记,并设计MV-DiT利用这些标记进行动画生成。
  • Result: MTVCrafter在FID-VID上达到6.98,优于第二名65%,并能泛化到多种开放世界场景。
  • Conclusion: MTVCrafter为人体视频生成开辟了新方向,展示了3D运动建模的潜力。

[35] ADHMR: Aligning Diffusion-based Human Mesh Recovery via Direct Preference Optimization

Wenhao Shen,Wanqi Yin,Xiaofeng Yang,Cheng Chen,Chaoyue Song,Zhongang Cai,Lei Yang,Hao Wang,Guosheng Lin

Main category: cs.CV

TL;DR: ADHMR提出了一种基于扩散模型和偏好优化的方法,用于解决单图像人体网格恢复中的对齐和鲁棒性问题。

  • Motivation: 单图像人体网格恢复因深度模糊和遮挡问题具有挑战性,现有概率方法常与2D观测不对齐且对野外图像鲁棒性差。
  • Method: 训练HMR-Scorer评估预测质量,构建偏好数据集,通过直接偏好优化微调基础模型,并利用HMR-Scorer改进现有模型。
  • Result: ADHMR在实验中优于当前最先进方法。
  • Conclusion: ADHMR通过偏好优化和评估模型显著提升了人体网格恢复的精度和鲁棒性。

[36] Sage Deer: A Super-Aligned Driving Generalist Is Your Copilot

Hao Lu,Jiaqi Tang,Jiyao Wang,Yunfan LU,Xu Cao,Qingyong Hu,Yin Wang,Yuting Zhang,Tianxin Xie,Yunpeng Zhang,Yong Chen,Jiayu. Gao,Bin Huang,Dengbo He,Shuiguang Deng,Hao Chen,Ying-Cong Chen

Main category: cs.CV

TL;DR: 本文提出了一种名为SAGE DeeR的智能驾驶座舱代理,具备超级对齐、通用性和自我激发能力,旨在满足用户舒适、交互和安全需求。

  • Motivation: 智能驾驶座舱需要适应不同用户的舒适、交互和安全需求,因此需要一种能够个性化反应并理解多模态输入的代理。
  • Method: SAGE DeeR通过超级对齐技术实现个性化反应,通用性能力理解多模态输入,并通过自我激发技术提升能力。同时,构建了大规模基准测试数据集。
  • Result: SAGE DeeR能够根据用户偏好和输入数据推理生理指标、情绪和行为决策,并在基准测试中表现出色。
  • Conclusion: SAGE DeeR为智能驾驶座舱提供了一种高效、个性化的解决方案,具备广泛的应用潜力。

[37] Inferring Driving Maps by Deep Learning-based Trail Map Extraction

Michael Hubbertz,Pascal Colling,Qi Han,Tobias Meisen

Main category: cs.CV

TL;DR: 论文提出了一种新颖的离线地图构建方法,通过整合非正式路线(trails)并使用基于transformer的深度学习模型,解决了在线地图构建中的一致性和泛化性问题。

  • Motivation: 高精地图对自动驾驶规划至关重要,但传统在线地图构建方法在时间一致性、传感器遮挡和泛化性方面存在挑战。
  • Method: 整合车辆和其他交通参与者的非正式路线数据,利用transformer模型构建全局地图,支持持续更新且不依赖特定传感器。
  • Result: 在基准数据集上验证,性能优于现有在线地图方法,泛化性和鲁棒性显著提升。
  • Conclusion: 该方法为自动驾驶系统提供了一种高效、通用的离线地图构建解决方案。

[38] HandReader: Advanced Techniques for Efficient Fingerspelling Recognition

Pavel Korotaev,Petr Surovtsev,Alexander Kapitanov,Karina Kvanchiani,Aleksandr Nagaev

Main category: cs.CV

TL;DR: 论文提出HandReader,包含三种架构(RGB、KP、RGB+KP),用于手语拼写识别,在多个数据集上取得SOTA结果,并发布俄语手语数据集Znaki。

  • Motivation: 手语拼写识别中,现有方法在时间维度处理上仍有提升空间,需更高效利用RGB和关键点信息。
  • Method: 提出三种架构:HandReader_RGB(使用TSAM模块处理RGB)、HandReader_KP(基于TPE编码关键点)、HandReader_RGB+KP(联合编码RGB和关键点)。
  • Result: 在ChicagoFSWild、ChicagoFSWild+和Znaki数据集上取得最优性能。
  • Conclusion: HandReader架构有效提升手语拼写识别精度,并公开了Znaki数据集和预训练模型。

[39] MFogHub: Bridging Multi-Regional and Multi-Satellite Data for Global Marine Fog Detection and Forecasting

Mengqiu Xu,Kaixin Chen,Heng Guo,Yixiang Huang,Ming Wu,Zhenwei Shi,Chuang Zhang,Jun Guo

Main category: cs.CV

TL;DR: 论文提出了首个多区域、多卫星的海洋雾数据集MFogHub,解决了现有数据集单一性的问题,并通过实验验证了其有效性。

  • Motivation: 现有海洋雾数据集局限于单一区域或卫星,限制了模型评估和雾特征探索,因此需要更全面的数据集。
  • Method: 构建了包含15个沿海雾区和6颗卫星的68,000多个高分辨率样本的MFogHub数据集,并测试了16个基线模型。
  • Result: 实验表明MFogHub能揭示区域和卫星差异导致的泛化波动,并为雾预测技术开发提供资源。
  • Conclusion: MFogHub推动了全球海洋雾动态的监测和科学理解,数据集和代码已开源。

[40] MSCI: Addressing CLIP's Inherent Limitations for Compositional Zero-Shot Learning

Yue Wang,Shuai Xu,Xuelin Zhu,Yicong Li

Main category: cs.CV

TL;DR: 提出了一种多阶段跨模态交互模型(MSCI),通过利用CLIP视觉编码器的中间层信息,增强对细粒度局部特征的捕捉能力,显著提升了组合零样本学习的性能。

  • Motivation: 现有方法主要依赖CLIP的跨模态对齐能力,但忽视了其在捕捉细粒度局部特征方面的局限性。
  • Method: 设计了两个自适应聚合器,分别从低级和高级视觉特征中提取局部和全局信息,并通过分阶段交互机制逐步整合到文本表示中。
  • Result: 在三个广泛使用的数据集上验证了模型的有效性和优越性。
  • Conclusion: MSCI通过动态调整全局与局部视觉信息的注意力权重,灵活适应不同场景,显著提升了组合零样本学习的性能。

[41] StoryReasoning Dataset: Using Chain-of-Thought for Scene Understanding and Grounded Story Generation

Daniel A. P. Oliveira,David Martins de Matos

Main category: cs.CV

TL;DR: 论文提出StoryReasoning数据集和Qwen Storyteller模型,通过跨帧实体识别和推理减少视觉叙事中的幻觉问题。

  • Motivation: 视觉叙事系统常因角色身份不一致和动作与主体不匹配导致幻觉问题,需通过实体视觉基础解决。
  • Method: 使用跨帧对象重识别、思维链推理和视觉实体基础,构建StoryReasoning数据集并微调Qwen2.5-VL 7B模型。
  • Result: Qwen Storyteller将幻觉问题平均减少12.3%(从4.06降至3.56)。
  • Conclusion: StoryReasoning和Qwen Storyteller有效提升视觉叙事中实体一致性和减少幻觉。

[42] MIPHEI-ViT: Multiplex Immunofluorescence Prediction from H&E Images using ViT Foundation Models

Guillaume Balezo,Roger Trullo,Albert Pla Planas,Etienne Decenciere,Thomas Walter

Main category: cs.CV

TL;DR: MIPHEI是一种基于U-Net和ViT的模型,用于从H&E染色图像预测mIF信号,以低成本实现细胞类型识别。

  • Motivation: 解决mIF技术因成本和操作复杂性难以临床普及的问题,利用H&E图像预测mIF信号。
  • Method: 使用U-Net架构结合ViT编码器,训练于ORION数据集,并在两个独立数据集上验证。
  • Result: 模型在多个标记上表现优异,如Pan-CK(F1=0.88),显著优于基线方法。
  • Conclusion: MIPHEI为大规模H&E数据的细胞类型分析提供了可行方案,有助于研究细胞空间组织与患者预后的关系。

[43] A Unified and Scalable Membership Inference Method for Visual Self-supervised Encoder via Part-aware Capability

Jie Zhu,Jirong Zha,Ding Li,Leye Wang

Main category: cs.CV

TL;DR: 论文提出了一种名为PartCrop的统一成员推理方法,用于攻击未知训练细节的自监督视觉模型,验证了其有效性和泛化能力,并提出了防御方法。

  • Motivation: 自监督学习在利用无标签数据方面具有潜力,但也面临隐私问题,尤其是在视觉领域。攻击者通常面对的是黑盒系统,训练方法和细节未知。
  • Method: 提出PartCrop方法,通过裁剪图像中的部分对象并查询其在表示空间中的响应,利用模型对训练数据的部分感知能力进行攻击。
  • Result: 实验验证了PartCrop在不同训练协议和结构下的有效性,并提出了三种防御方法(提前停止、差分隐私和裁剪尺度范围缩小)。
  • Conclusion: PartCrop在自监督模型中表现出色,同时防御方法有效。研究还扩展到数据与模型规模的影响,并提出了改进版PartCrop-v2。

[44] SpikeVideoFormer: An Efficient Spike-Driven Video Transformer with Hamming Attention and O(T) Complexity

Shihao Zou,Qingfeng Li,Wei Ji,Jingjing Li,Yongkui Yang,Guoqi Li,Chao Dong

Main category: cs.CV

TL;DR: SpikeVideoFormer是一种高效的脉冲驱动视频Transformer,通过线性时间复杂度和优化的空间-时间注意力设计,在视频任务中表现优异,同时显著提升能效。

  • Motivation: 现有基于SNN的Transformer主要关注单图像任务,未充分利用SNN在视频任务中的高效性。本文旨在解决这一问题。
  • Method: 设计了脉冲驱动的Hamming注意力(SDHA),并分析多种空间-时间注意力方案,选择最优设计,保持线性时间复杂度。
  • Result: 在视频分类、姿态跟踪和语义分割任务中,性能优于现有SNN方法(提升15%以上),并匹配ANN方法,同时能效显著提升(16倍、10倍和5倍)。
  • Conclusion: SpikeVideoFormer展示了SNN在视频任务中的高效性和泛化能力,为未来研究提供了新方向。

[45] Learned Lightweight Smartphone ISP with Unpaired Data

Andrei Arhire,Radu Timofte

Main category: cs.CV

TL;DR: 提出一种无需成对数据的轻量级智能手机ISP训练方法,通过对抗性训练和多判别器实现高质量图像转换。

  • Motivation: 解决学习型ISP开发中获取像素对齐成对数据的困难和成本问题。
  • Method: 使用无配对方法,结合多损失函数和对抗性训练,利用预训练网络特征图保持内容结构。
  • Result: 在Zurich RAW to RGB和Fujifilm UltraISP数据集上表现优异,评估指标显示高保真度。
  • Conclusion: 无配对学习策略在轻量级架构中展现出强大潜力,代码和模型已开源。

[46] Vision language models have difficulty recognizing virtual objects

Tyler Tran,Sangeet Khemlani,J. G. Trafton

Main category: cs.CV

TL;DR: 论文探讨了视觉语言模型(VLMs)对图像中虚拟对象的理解能力,发现其表现不足。

  • Motivation: 研究VLMs是否能够理解图像中未直接呈现的虚拟对象及其空间关系,以测试其场景理解能力。
  • Method: 通过设计包含虚拟对象的提示(如“想象风筝卡在树上”),系统评估了当前先进的VLMs。
  • Result: 实验表明,VLMs在处理虚拟对象时表现不佳。
  • Conclusion: VLMs在理解虚拟对象和空间关系方面仍需改进。

[47] Consistent Quantity-Quality Control across Scenes for Deployment-Aware Gaussian Splatting

Fengdi Zhang,Hongkun Cao,Ruqi Huang

Main category: cs.CV

TL;DR: ControlGS是一种3D高斯溅射优化方法,通过用户指定的超参数实现语义明确且跨场景一致的量化-质量控制,同时保持高性能。

  • Motivation: 现有方法在3D高斯溅射中缺乏用户直观调整量化-质量权衡的能力,无法适应不同硬件和通信限制下的实际需求。
  • Method: 通过单次训练和用户指定的超参数,ControlGS自动找到不同场景下的理想量化-质量权衡点。
  • Result: ControlGS在减少高斯数量的同时提高了渲染质量,并支持广泛的调整范围和无级控制。
  • Conclusion: ControlGS提供了一种高效且灵活的方法,适用于从紧凑对象到大型户外场景的多样化需求。

[48] Logos as a Well-Tempered Pre-train for Sign Language Recognition

Ilya Ovodov,Petr Surovtsev,Karina Kvanchiani,Alexander Kapitanov,Alexander Nagaev

Main category: cs.CV

TL;DR: 该论文研究了孤立手语识别(ISLR)的两个问题:跨语言模型训练和相似手语的标注策略,并提出Logos数据集作为解决方案。

  • Motivation: 解决ISLR任务中数据量有限和相似手语标注模糊的问题。
  • Method: 提出Logos数据集,探索跨语言迁移学习方法,并研究联合训练和多分类头策略。
  • Result: Logos数据集支持跨语言任务,模型在WLASL和AUTSL数据集上表现优异。
  • Conclusion: Logos数据集和提出的方法显著提升了ISLR任务的性能。

[49] UniEval: Unified Holistic Evaluation for Unified Multimodal Understanding and Generation

Yi Li,Haonan Wang,Qixiang Zhang,Boyu Xiao,Chenchang Hu,Hualiang Wang,Xiaomeng Li

Main category: cs.CV

TL;DR: UniEval是一个新的评估框架,用于统一多模态模型,无需额外模型、图像或标注,简化评估过程。

  • Motivation: 当前多模态模型的评估缺乏统一框架,存在冗余、依赖标注、多样性不足等问题。
  • Method: 提出UniEval框架,包含UniBench基准和UniScore指标,支持高多样性评估。
  • Result: UniBench更具挑战性,UniScore与人类评估一致,优于现有指标。
  • Conclusion: UniEval为多模态模型提供了高效、统一的评估方法,揭示了新见解。

[50] CheXGenBench: A Unified Benchmark For Fidelity, Privacy and Utility of Synthetic Chest Radiographs

Raman Dutt,Pedro Sanchez,Yongchen Yao,Steven McDonagh,Sotirios A. Tsaftaris,Timothy Hospedales

Main category: cs.CV

TL;DR: CheXGenBench是一个用于评估合成胸部X光片生成的多方面框架,涵盖生成质量、隐私风险和临床实用性,并标准化了评估协议。

  • Motivation: 解决医学领域生成AI评估中的方法不一致、过时架构比较和临床价值忽视问题。
  • Method: 采用标准化数据分区和统一评估协议,包含20多个定量指标,评估11种领先的文本到图像生成架构。
  • Result: 发现现有评估协议在生成保真度评估中的不足,提出标准化基准并发布高质量合成数据集SynthCheX-75K。
  • Conclusion: CheXGenBench为医学AI社区提供了标准化基准,支持未来生成模型的客观比较和研究。

[51] MorphGuard: Morph Specific Margin Loss for Enhancing Robustness to Face Morphing Attacks

Iurii Medvedev,Nuno Goncalves

Main category: cs.CV

TL;DR: 提出一种双分支分类策略,增强人脸识别系统对变形攻击的鲁棒性。

  • Motivation: 人脸识别技术的进步使其面临变形攻击等安全威胁,需提升系统鲁棒性。
  • Method: 通过双分支分类策略处理变形图像的标签模糊性,将其纳入训练过程。
  • Result: 在公开基准测试中验证了方法的有效性,提升了对抗变形攻击的能力。
  • Conclusion: 该方法通用性强,可集成到现有训练流程中,改进分类识别方法。

[52] Enhancing Multi-Image Question Answering via Submodular Subset Selection

Aaryan Sharma,Shivansh Gupta,Samar Agarwal,Vishak Prasad C.,Ganesh Ramakrishnan

Main category: cs.CV

TL;DR: 本文提出了一种改进的检索框架,通过子模块子集选择技术提升多图像问答任务中的检索性能。

  • Motivation: 大型多模态模型在单图像任务中表现优异,但在多图像场景(如多图像问答)中面临扩展性和检索性能问题。
  • Method: 采用基于查询的子模块函数(如GraphCut)预选语义相关图像子集,并结合锚点查询和数据增强优化检索流程。
  • Result: 该方法在大量图像中显著提升了检索管道的有效性。
  • Conclusion: 子模块子集选择技术是提升多图像任务检索性能的有效方法。

[53] Exploring Implicit Visual Misunderstandings in Multimodal Large Language Models through Attention Analysis

Pengfei Wang,Guohai Xu,Weinong Wang,Junjie Yang,Jie Lou,Yunhua Xue

Main category: cs.CV

TL;DR: 论文提出了隐式视觉误解(IVM)的概念,并引入了一种新的评估指标——注意力准确度,用于量化MLLMs是否真正理解视觉输入。

  • Motivation: 现有基准主要评估答案正确性,忽略了模型是否真正理解视觉输入,因此需要一种更可靠的评估方法。
  • Method: 通过分析因果注意力模块中的视觉和文本模态解耦,提出注意力准确度指标,并设计新基准。
  • Result: 注意力分布随着网络层加深逐渐集中在正确答案相关的图像上,注意力准确度能可靠评估视觉理解。
  • Conclusion: 注意力准确度是一种通用且可靠的评估方法,适用于多模态和单模态场景。

[54] Does Feasibility Matter? Understanding the Impact of Feasibility on Synthetic Training Data

Yiwen Liu,Jessica Bader,Jae Myung Kim

Main category: cs.CV

TL;DR: 研究探讨了合成图像可行性对CLIP分类器性能的影响,发现可行性对性能影响极小,且混合可行与不可行图像训练无明显差异。

  • Motivation: 随着扩散模型的发展,合成数据训练效果提升,但生成的图像可能存在不现实特征(如漂浮的狗)。研究旨在验证合成图像可行性是否影响CLIP分类器的性能。
  • Method: 提出VariReal流程,通过文本提示对源图像进行最小编辑,生成可行或不可行属性图像,并在三个细粒度数据集上测试LoRA微调CLIP的性能。
  • Result: 可行性对CLIP性能影响极小(差异<0.3%),且混合可行与不可行图像训练无显著差异。不同属性对分类性能的影响各异。
  • Conclusion: 合成图像的可行性对CLIP分类器性能影响有限,混合训练可行与不可行图像是可行的策略。

[55] MathCoder-VL: Bridging Vision and Code for Enhanced Multimodal Mathematical Reasoning

Ke Wang,Junting Pan,Linda Wei,Aojun Zhou,Weikang Shi,Zimu Lu,Han Xiao,Yunqiao Yang,Houxing Ren,Mingjie Zhan,Hongsheng Li

Main category: cs.CV

TL;DR: 论文提出利用代码作为监督信号,解决数学图像与文本对齐问题,构建了最大图像-代码数据集和高质量数学指令数据集,训练模型在数学推理任务中表现优异。

  • Motivation: 现有自然语言图像描述数据集忽视数学图像的细节,阻碍多模态数学推理的发展。
  • Method: 利用代码作为跨模态对齐监督,开发图像到代码模型和数据集,并合成数学图像构建指令数据集。
  • Result: 模型在MathVista几何问题子集上超越GPT-4o和Claude 3.5 Sonnet,提升8.9%和9.2%。
  • Conclusion: 提出的方法显著提升多模态数学推理能力,数据集和模型将开源。

[56] End-to-End Vision Tokenizer Tuning

Wenxuan Wang,Fan Zhang,Yufeng Cui,Haiwen Diao,Zhuoyan Luo,Huchuan Lu,Jing Liu,Xinlong Wang

Main category: cs.CV

TL;DR: ETT是一种端到端的视觉标记器调优方法,通过联合优化视觉标记化和目标自回归任务,显著提升了多模态理解和视觉生成任务的性能。

  • Motivation: 现有视觉标记化方法将标记器优化与下游任务分离,导致视觉标记器无法适应不同任务的表示和语义需求,从而成为性能瓶颈。
  • Method: ETT利用视觉标记器代码本的嵌入表示,通过联合优化重建和标题生成目标,实现端到端的视觉标记器调优。
  • Result: 实验表明,ETT在多模态理解和视觉生成任务上比冻结标记器基线提升了2-6%的性能,同时保持了原始重建能力。
  • Conclusion: ETT是一种简单且强大的方法,有望在多模态基础模型中广泛应用。

[57] Depth Anything with Any Prior

Zehan Wang,Siyu Chen,Lihe Yang,Jialei Wang,Ziang Zhang,Hengshuang Zhao,Zhou Zhao

Main category: cs.CV

TL;DR: Prior Depth Anything框架结合不完整但精确的深度测量信息与相对但完整的几何结构,生成准确、密集且详细的深度图。

  • Motivation: 解决深度测量中信息不完整与预测中几何结构不精确的问题,提升深度图的准确性和泛化能力。
  • Method: 采用粗到细的流程,结合像素级度量对齐和距离感知加权,并通过条件单目深度估计模型优化噪声。
  • Result: 在7个真实数据集上表现优异,支持零样本泛化,并在混合先验和测试时改进中表现良好。
  • Conclusion: 该框架灵活高效,能随着MDE模型的进步而提升,为深度估计提供了新的解决方案。

[58] 3D-Fixup: Advancing Photo Editing with 3D Priors

Yen-Chi Cheng,Krishna Kumar Singh,Jae Shin Yoon,Alex Schwing,Liangyan Gui,Matheus Gadelha,Paul Guerrero,Nanxuan Zhao

Main category: cs.CV

TL;DR: 3D-Fixup是一个基于3D先验的2D图像编辑框架,支持复杂编辑任务(如平移和3D旋转),通过结合扩散模型和视频数据训练,实现了高质量的3D感知编辑。

  • Motivation: 尽管扩散模型在图像先验建模方面取得了进展,但单张图像的3D感知编辑仍具挑战性,需要新的方法支持复杂编辑任务。
  • Method: 利用视频数据生成训练对,结合扩散模型和Image-to-3D模型的3D引导,设计数据生成管道以确保高质量的3D先验。
  • Result: 3D-Fixup实现了复杂且身份一致的3D感知编辑,效果优于现有方法。
  • Conclusion: 通过整合3D先验,3D-Fixup推动了扩散模型在真实图像编辑中的应用,代码已开源。

eess.IV

[59] ImplicitStainer: Data-Efficient Medical Image Translation for Virtual Antibody-based Tissue Staining Using Local Implicit Functions

Tushar Kataria,Beatrice Knudsen,Shireen Y. Elhabian

Main category: eess.IV

TL;DR: ImplicitStainer利用局部隐函数改进虚拟染色技术,减少数据需求并提升性能。

  • Motivation: H&E染色无法提供全部诊断信息,IHC染色耗时且资源密集,虚拟染色技术成为替代方案。
  • Method: 提出ImplicitStainer,基于局部隐函数优化图像翻译,专注于像素级预测。
  • Result: 在有限数据下表现优异,优于15种现有GAN和扩散模型。
  • Conclusion: ImplicitStainer为虚拟染色提供高效解决方案,代码将公开。

[60] Ordered-subsets Multi-diffusion Model for Sparse-view CT Reconstruction

Pengfei Yu,Bin Huang,Minghui Zhang,Weiwen Wu,Shaoyu Wang,Qiegen Liu

Main category: eess.IV

TL;DR: 提出了一种名为OSMM的有序子集多扩散模型,用于稀疏视角CT重建,通过分块学习和全局约束提升细节重建效果。

  • Motivation: 传统扩散模型在稀疏视角CT重建中因数据冗余导致学习效率低和细节缺失,需改进。
  • Method: 将CT投影数据分为等量子集,用MSDM独立学习每个子集,并结合OWDM作为全局约束。
  • Result: OSMM在图像质量和噪声抗性上优于传统扩散模型,适应性强。
  • Conclusion: OSMM为稀疏视角CT提供了一种高效、鲁棒的解决方案。

[61] Visual Fidelity Index for Generative Semantic Communications with Critical Information Embedding

Jianhao Huang,Qunsong Zeng,Kaibin Huang

Main category: eess.IV

TL;DR: 论文提出了一种混合生成式语义通信系统(Gen-SemCom),通过结合文本提示和关键语义特征传输,解决了纯提示驱动生成丢失细节的问题,并设计了GVIF指标评估生成图像质量。

  • Motivation: 传统生成式语义通信仅依赖低维提示传输,导致视觉细节丢失,且缺乏系统性评估指标。
  • Method: 提出语义过滤方法选择关键特征,结合扩散生成模型重建图像;设计GVIF指标量化视觉保真度,并优化系统以适应信道状态。
  • Result: GVIF指标对视觉保真度敏感,优化系统在PSNR和FID分数上优于基准方案。
  • Conclusion: 混合Gen-SemCom系统通过GVIF指标和自适应优化,显著提升了生成图像的质量和通信效率。

[62] HWA-UNETR: Hierarchical Window Aggregate UNETR for 3D Multimodal Gastric Lesion Segmentation

Jiaming Liang,Lihuan Dai,Xiaoqi Sheng,Xiangguang Chen,Chun Yao,Guihua Tao,Qibin Leng,Honming Cai,Xi Zhong

Main category: eess.IV

TL;DR: 论文提出了一种新的3D分割框架HWA-UNETR,并公开了首个大规模胃癌多模态MRI数据集GCM 2025,解决了多模态医学图像分割中的挑战。

  • Motivation: 胃癌病变分析中多模态医学图像分割面临数据集稀缺和模态对齐问题,导致算法训练受限和资源浪费。
  • Method: 提出HWA-UNETR框架,使用HWA块和三元融合机制处理多模态特征,并在GCM 2025和BraTS 2021数据集上验证性能。
  • Result: 新方法在Dice分数上比现有方法提升1.68%,并保持稳健性。
  • Conclusion: HWA-UNETR和GCM 2025数据集为胃癌多模态图像分割提供了有效解决方案。

[63] Multi-contrast laser endoscopy for in vivo gastrointestinal imaging

Taylor L. Bobrow,Mayank Golhar,Suchapa Arayakarnkul,Anthony A. Song,Saowanee Ngamruengphong,Nicholas J. Durr

Main category: eess.IV

TL;DR: 多对比激光内窥镜(MLE)通过可调谐光谱、相干和定向照明,显著提升胃肠道病变检测的对比度和颜色差异。

  • Motivation: 白光内窥镜在检测胃肠道疾病时对比度不足,导致许多病例漏诊。
  • Method: MLE结合多光谱漫反射、激光散斑对比成像和光度立体技术,增强组织对比度、量化血流并表征黏膜地形。
  • Result: 在31个息肉样本中,MLE的对比度和颜色差异分别比白光和窄带成像提高了约3倍和5倍。
  • Conclusion: MLE作为一种临床工具,有望改善胃肠道成像,提供多类型互补的组织对比信息。

cs.LG

[64] RainPro-8: An Efficient Deep Learning Model to Estimate Rainfall Probabilities Over 8 Hours

Rafael Pablos Sarabia,Joachim Nyborg,Morten Birk,Jeppe Liborius Sjørup,Anders Lillevang Vesterholt,Ira Assent

Main category: cs.LG

TL;DR: 提出了一种深度学习模型,用于欧洲8小时高分辨率降水概率预报,结合雷达、卫星和数值天气预报数据,优于现有方法。

  • Motivation: 解决雷达深度学习模型预报时间短的问题,提升降水预报的准确性和不确定性量化能力。
  • Method: 整合雷达、卫星和数值天气预报数据,设计紧凑架构以捕获长程相互作用,实现高效训练和快速推理。
  • Result: 模型在实验中表现优于现有数值天气预报系统、外推方法和深度学习临近预报模型。
  • Conclusion: 该模型为欧洲高分辨率降水预报设立了新标准,平衡了准确性、可解释性和计算效率。

[65] PIF: Anomaly detection via preference embedding

Filippo Leveni,Luca Magri,Giacomo Boracchi,Cesare Alippi

Main category: cs.LG

TL;DR: 提出了一种名为PIF的新异常检测方法,结合自适应隔离和偏好嵌入的优势,通过PI-Forest在高维空间中计算异常分数。

  • Motivation: 解决基于结构化模式的异常检测问题。
  • Method: 提出PIF方法,结合自适应隔离和偏好嵌入,使用PI-Forest在高维空间中计算异常分数。
  • Result: 在合成和真实数据集上优于现有异常检测技术,PI-Forest在测量任意距离和隔离偏好空间中的点方面表现更好。
  • Conclusion: PIF方法在异常检测中表现出色,PI-Forest在复杂场景中更具优势。

[66] SEAL: Searching Expandable Architectures for Incremental Learning

Matteo Gambella,Vicente Javier Castro Solar,Manuel Roveri

Main category: cs.LG

TL;DR: SEAL是一个基于NAS的增量学习框架,通过动态调整模型结构和选择性扩展,平衡了学习新任务和保留旧知识的需求,同时减少了模型大小。

  • Motivation: 增量学习中,模型需要在学习新任务的同时保留旧知识,现有方法通常依赖模型扩展,导致资源浪费。SEAL旨在解决这一问题。
  • Method: SEAL通过容量估计指标动态扩展模型结构,并结合交叉蒸馏训练保持稳定性,同时NAS组件搜索最优架构和扩展策略。
  • Result: 实验表明,SEAL在减少遗忘和提高准确率方面优于现有方法,同时保持较小的模型规模。
  • Conclusion: SEAL展示了NAS与选择性扩展结合在增量学习中的潜力,为资源受限环境提供了高效解决方案。

[67] MASSV: Multimodal Adaptation and Self-Data Distillation for Speculative Decoding of Vision-Language Models

Mugilan Ganesan,Shane Segal,Ankur Aggarwal,Nish Sinnadurai,Sean Lie,Vithursan Thangarasa

Main category: cs.LG

TL;DR: MASSV提出了一种两阶段方法,将小型语言模型转化为高效的多模态草稿模型,以加速视觉语言模型的推理。

  • Motivation: 现有小型语言模型无法处理视觉输入且预测不匹配视觉上下文,限制了推测解码在视觉语言模型中的应用。
  • Method: 通过轻量级可训练投影器连接目标模型的视觉编码器,并利用目标模型生成的响应进行自蒸馏视觉指令调优。
  • Result: 在Qwen2.5-VL和Gemma3模型上,MASSV将接受长度提升30%,推理速度提升1.46倍。
  • Conclusion: MASSV为加速当前和未来的视觉语言模型提供了一种可扩展且兼容架构的方法。

cs.HC

[68] Visual Feedback of Pattern Separability Improves Myoelectric Decoding Performance of Upper Limb Prostheses

Ruichen Yang,György M. Lévay,Christopher L. Hunt,Dániel Czeiner,Megan C. Hodgson,Damini Agarwal,Rahul R. Kaliki,Nitish V. Thakor

Main category: cs.HC

TL;DR: 论文提出了一种名为Reviewer的3D视觉界面,通过实时反馈改进肌电假肢的模式识别控制,显著提升了操作效率和准确性。

  • Motivation: 现有肌电假肢的模式识别控制系统在复杂动作时难以区分EMG信号,传统训练方法依赖试错调整,效率低下。
  • Method: 研究通过10次实验,比较了使用Reviewer界面与传统虚拟手臂可视化训练的效果,评估了任务完成率和路径效率。
  • Result: 使用Reviewer的参与者任务完成率更高,路径效率和控制精度显著提升。
  • Conclusion: 3D视觉反馈通过结构化训练和实时反馈,显著改善了新手操作者的模式识别控制能力。

[69] SOS: A Shuffle Order Strategy for Data Augmentation in Industrial Human Activity Recognition

Anh Tuan Ha,Hoang Khang Phan,Thai Minh Tien Ngo,Anh Phan Truong,Nhat Tan Le

Main category: cs.HC

TL;DR: 论文提出了一种通过深度学习生成数据集的方法,并采用随机序列策略提升分类性能,显著提高了HAR系统的鲁棒性。

  • Motivation: 解决HAR领域中高质量和多样性数据获取的挑战,以及数据异质性对模型性能的影响。
  • Method: 使用注意力自编码器和条件生成对抗网络生成数据集,并通过随机序列重排策略打乱时间依赖性。
  • Result: 分类准确率达到0.70±0.03,宏F1分数为0.64±0.01,模型鲁棒性显著提升。
  • Conclusion: 随机序列策略不仅扩展了有效训练数据集,还为复杂场景下的HAR系统提供了改进方向。

cs.GR

[70] VRSplat: Fast and Robust Gaussian Splatting for Virtual Reality

Xuechang Tu,Lukas Radl,Michael Steiner,Markus Steinberger,Bernhard Kerbl,Fernando de la Torre

Main category: cs.GR

TL;DR: VRSplat结合并扩展了3DGS技术,解决了VR中的时间伪影、投影失真和帧率问题,实现了72+ FPS且消除了视觉干扰。

  • Motivation: 3DGS在VR中面临时间伪影、投影失真和帧率下降等问题,这些问题在VR环境中尤为突出。
  • Method: 结合Mini-Splatting、StopThePop和Optimal Projection技术,改进3DGS光栅化器,提出高效的中心凹光栅化器,并优化高斯参数。
  • Result: 用户研究显示VRSplat优于其他配置,实现了72+ FPS并消除了视觉干扰。
  • Conclusion: VRSplat是首个系统评估的3DGS方法,支持现代VR应用。

[71] Style Customization of Text-to-Vector Generation with Image Diffusion Priors

Peiying Zhang,Nanxuan Zhao,Jing Liao

Main category: cs.GR

TL;DR: 本文提出了一种两阶段风格定制管道,用于生成高质量的SVG图像,结合了前馈T2V模型和T2I先验的优势。

  • Motivation: 现有T2V方法在风格定制方面存在不足,无法同时保证结构规则性和内容与风格的解耦。
  • Method: 采用两阶段方法:首先训练路径级表示的T2V扩散模型,然后通过蒸馏定制T2I模型实现风格定制。
  • Result: 实验验证了该方法能高效生成高质量、多样化的定制风格SVG。
  • Conclusion: 该方法解决了风格定制问题,为实际应用提供了有效工具。

q-bio.QM

[72] Generative diffusion model surrogates for mechanistic agent-based biological models

Tien Comlekoglu,J. Quetzalcóatl Toledo-Marín,Douglas W. DeSimone,Shayn M. Peirce,Geoffrey Fox,James A. Glazier

Main category: q-bio.QM

TL;DR: 利用生成式AI(DDPM)加速细胞-波特模型(CPM)的计算,通过图像分类器辅助选择和验证,实现22倍计算时间减少。

  • Motivation: 解决CPM在大规模时空模拟中计算成本高的问题,探索生成式AI在生物系统数字孪生中的应用。
  • Method: 使用去噪扩散概率模型(DDPM)训练生成式AI替代模型,结合图像分类器优化参数空间选择和验证。
  • Result: 替代模型能提前生成20,000时间步的配置,计算时间减少约22倍。
  • Conclusion: DDPM为随机生物系统的数字孪生开发提供了可行路径。

cs.CL

[73] Multi-Token Prediction Needs Registers

Anastasios Gerontopoulos,Spyros Gidaris,Nikos Komodakis

Main category: cs.CL

TL;DR: MuToR是一种多令牌预测方法,通过插入可学习的寄存器令牌来预测未来目标,兼容现有预训练模型,适用于监督微调。

  • Motivation: 多令牌预测在预训练中表现良好,但在微调等场景中效果不一致,因此需要一种更通用的方法。
  • Method: MuToR在输入序列中插入可学习的寄存器令牌,每个令牌负责预测未来目标,无需额外参数或架构改动。
  • Result: MuToR在语言和视觉领域的生成任务中表现出色,适用于监督微调、参数高效微调和预训练。
  • Conclusion: MuToR是一种简单有效的多令牌预测方法,具有广泛适用性和可扩展性。

cs.RO

[74] FlowDreamer: A RGB-D World Model with Flow-based Motion Representations for Robot Manipulation

Jun Guo,Xiaojian Ma,Yikai Wang,Min Yang,Huaping Liu,Qing Li

Main category: cs.RO

TL;DR: FlowDreamer提出了一种基于3D场景流的RGB-D世界模型,通过显式运动表示提升机器人操作的视觉预测能力。

  • Motivation: 研究旨在改进机器人操作的视觉世界模型,通过显式处理动态预测以提升性能。
  • Method: FlowDreamer采用U-Net预测3D场景流,结合扩散模型生成未来帧,实现端到端训练。
  • Result: 在4个基准测试中,FlowDreamer在语义相似性、像素质量和成功率上分别提升7%、11%和6%。
  • Conclusion: FlowDreamer通过显式运动表示显著优于其他RGB-D世界模型。

上次更新于: