Skip to content
每日arXiv - 2025年5月22日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] Benchmarking Graph Neural Networks for Document Layout Analysis in Public Affairs

Miguel Lopez-Duran,Julian Fierrez,Aythami Morales,Ruben Tolosana,Oscar Delgado-Mohatar,Alvaro Ortigosa

Main category: cs.CV

TL;DR: 论文研究了使用图神经网络(GNN)对数字原生PDF文档的布局进行分类,提出了两种图构建方法,并通过多模态特征融合提升了分类效果。

  • Motivation: 由于PDF文档中文本和非文本元素的异构布局及文本元数据的不精确性,自动分析文档布局仍具挑战性。
  • Method: 引入k最近邻图和全连接图两种图结构,利用预训练的文本和视觉模型生成节点特征,避免手动特征工程。评估了三种实验框架(单模态、多模态拼接、双分支多模态)和四种GNN模型。
  • Result: 实验结果表明,GraphSAGE模型在k最近邻图和双分支配置下表现最佳,优于基线方法。
  • Conclusion: 研究证实了局部布局关系和多模态融合在GNN分析数字文档布局中的重要性。

[2] Beyond Modality Collapse: Representations Blending for Multimodal Dataset Distillation

Xin Zhang,Ziruo Zhang,Jiawei Du,Zuozhu Liu,Joey Tianyi Zhou

Main category: cs.CV

TL;DR: 论文提出RepBlend框架,通过表示混合和对称投影轨迹匹配解决多模态数据集蒸馏中的模态崩溃问题,显著提升性能。

  • Motivation: 现有方法在多模态数据集蒸馏中存在模态崩溃问题,表现为模态内表示过度集中和模态间分布差距扩大。
  • Method: 引入RepBlend框架,通过表示混合减弱跨模态监督的过度主导,并提出对称投影轨迹匹配以平衡优化。
  • Result: 在Flickr-30K和MS-COCO上,RepBlend显著优于现有方法,检索性能提升(如+9.4 IR@10),蒸馏速度提升6.7倍。
  • Conclusion: RepBlend有效缓解模态崩溃,提升多模态数据集蒸馏的性能和效率。

[3] CrypticBio: A Large Multimodal Dataset for Visually Confusing Biodiversity

Georgiana Manolache,Gerard Schouten,Joaquin Vanschoren

Main category: cs.CV

TL;DR: CrypticBio是一个公开的多模态数据集,专注于视觉上难以区分的物种,支持生物多样性AI模型的开发。

  • Motivation: 现有数据集多为单一分类群且规模小,无法解决广泛分类群中细微差异的识别问题。
  • Method: 从iNaturalist社区注释者的误识别趋势中提取数据,包含52K个独特加密组,覆盖67K物种和1.66亿图像。
  • Result: 数据集支持多模态AI研究,地理和时间数据增强了识别能力,基准测试显示地理上下文对零样本学习有显著影响。
  • Conclusion: CrypticBio旨在推动生物多样性AI模型的发展,解决物种模糊性的挑战。

[4] DraftAttention: Fast Video Diffusion via Low-Resolution Attention Guidance

Xuan Shen,Chenxia Han,Yufa Zhou,Yanyue Xie,Yifan Gong,Quanyi Wang,Yiwei Wang,Yanzhi Wang,Pu Zhao,Jiuxiang Gu

Main category: cs.CV

TL;DR: 提出了一种名为DraftAttention的无训练框架,用于加速视频扩散变换器,通过动态稀疏注意力在GPU上实现高效计算。

  • Motivation: 当前基于扩散变换器的视频生成模型(DiTs)计算成本高,注意力机制占用了80%以上的延迟,生成8秒720p视频需数十分钟,限制了实际应用和扩展性。
  • Method: 采用下采样技术对压缩潜在空间中的特征图进行处理,生成低分辨率草稿注意力图,揭示空间和时间冗余,并通过重排序实现结构化稀疏注意力计算。
  • Result: 实验结果表明,该方法在视频生成质量上优于现有稀疏注意力方法,并在GPU上实现了最高1.75倍的端到端加速。
  • Conclusion: DraftAttention通过动态稀疏注意力显著降低了计算成本,同时保持了生成质量,为视频扩散变换器的实际应用提供了可行方案。

[5] FastCar: Cache Attentive Replay for Fast Auto-Regressive Video Generation on the Edge

Xuan Shen,Weize Ma,Yufa Zhou,Enhao Tang,Yanyue Xie,Zhengang Li,Yifan Gong,Quanyi Wang,Henghui Ding,Yiwei Wang,Yanzhi Wang,Pu Zhao,Jun Lin,Jiuxiang Gu

Main category: cs.CV

TL;DR: FastCar框架通过利用时间冗余加速自回归视频生成的解码阶段,提出TAS和硬件加速器,显著提升解码速度和能效。

  • Motivation: 视频生成需要大量令牌,导致解码阶段开销大,MLP模块是延迟的主要来源,且相邻帧的MLP输出存在高时间冗余。
  • Method: 提出FastCar框架,利用TAS确定是否重用缓存的MLP输出以减少冗余计算,并开发基于FPGA的硬件加速器。
  • Result: FastCar比传统稀疏注意力方法快2.1倍,能效更高,且能提升稀疏注意力的性能。
  • Conclusion: FastCar在高分辨率和长视频生成中具有独特优势,结合稀疏注意力可进一步优化性能。

[6] KGAlign: Joint Semantic-Structural Knowledge Encoding for Multimodal Fake News Detection

Tuan-Vinh La,Minh-Hieu Nguyen,Minh-Son Dao

Main category: cs.CV

TL;DR: 提出了一种结合视觉、文本和知识图谱的多模态假新闻检测框架,通过细粒度对象细节和外部知识提升检测效果。

  • Motivation: 现有方法忽视局部对象细节和外部知识,导致假新闻检测效果受限。
  • Method: 采用自底向上注意力捕捉对象细节,CLIP处理全局图像语义,RoBERTa编码文本,并结合知识图谱实体选择。
  • Result: 实验表明模型优于现有方法,验证了邻居选择机制和多模态融合的有效性。
  • Conclusion: 通过知识驱动的多模态推理,将假新闻检测从特征融合转向语义验证,为未来研究提供了新范式。

[7] Enhancing Shape Perception and Segmentation Consistency for Industrial Image Inspection

Guoxuan Mao,Ting Cao,Ziyang Li,Yuan Dong

Main category: cs.CV

TL;DR: 提出了一种形状感知高效网络(SPENet),通过分别监督边界和主体信息提取,提升工业图像检测中的语义分割一致性。

  • Motivation: 传统语义分割模型在工业图像检测中因缺乏对物体轮廓的感知,难以保持固定组件在不同环境下的分割一致性,且需满足实时性和低计算复杂度。
  • Method: SPENet通过监督边界和主体信息提取,引入可变边界域(VBD)描述模糊边界,并提出一致性均方误差(CMSE)衡量分割一致性。
  • Result: SPENet在数据集上取得最佳分割精度和竞争性速度,CMSE指标较之前最优模型降低50%以上。
  • Conclusion: SPENet在工业图像检测中显著提升了分割一致性和效率,适用于实时场景。

[8] MSVIT: Improving Spiking Vision Transformer Using Multi-scale Attention Fusion

Wei Hua,Chenlin Zhou,Jibin Wu,Yansong Chua,Yangyang Shu

Main category: cs.CV

TL;DR: 论文提出了一种新型的脉冲驱动Transformer架构MSVIT,通过多尺度脉冲注意力(MSSA)解决了现有SNN-Transformer在提取多尺度特征上的瓶颈,性能优于现有SNN模型。

  • Motivation: 现有SNN-Transformer架构在多尺度特征提取上存在瓶颈,导致性能与ANN-Transformer存在差距。
  • Method: 提出MSVIT架构,首次引入多尺度脉冲注意力(MSSA)模块,增强脉冲注意力块的能力。
  • Result: 实验表明MSVIT在多个数据集上表现优于现有SNN模型,成为SNN-Transformer架构的SOTA方案。
  • Conclusion: MSVIT通过多尺度脉冲注意力显著提升了SNN-Transformer的性能,为高效能计算提供了新思路。

[9] MORALISE: A Structured Benchmark for Moral Alignment in Visual Language Models

Xiao Lin,Zhining Liu,Ze Yang,Gaotang Li,Ruizhong Qiu,Shuke Wang,Hui Liu,Haotian Li,Sumit Keswani,Vishwa Pardeshi,Huijun Zhao,Wei Fan,Hanghang Tong

Main category: cs.CV

TL;DR: MORALISE是一个用于评估视觉语言模型道德对齐的综合基准,基于真实数据,涵盖13个道德主题,包含2481个图像-文本对,揭示了当前模型的道德局限性。

  • Motivation: 确保视觉语言模型在高风险应用中符合人类道德价值观,克服现有研究仅关注文本或依赖AI生成图像的局限性。
  • Method: 提出基于Turiel领域理论的13个道德主题分类,手动标注2481个图像-文本对,设计道德判断和道德规范归因两个评估任务。
  • Result: 实验表明MORALISE对19种主流模型构成挑战,揭示了它们在道德对齐方面的局限性。
  • Conclusion: MORALISE为评估和改进视觉语言模型的道德对齐提供了重要工具,未来需进一步优化模型道德表现。

[10] Uncovering Cultural Representation Disparities in Vision-Language Models

Ram Mohan Rao Kadiyala,Siddhant Gupta,Jebish Purbey,Srishti Yadav,Alejandro Salamanca,Desmond Elliott

Main category: cs.CV

TL;DR: 该研究探讨了视觉语言模型(VLMs)在国家识别任务中表现的文化偏见,发现模型性能因国家和提问方式不同而存在显著差异。

  • Motivation: 尽管视觉语言模型在多任务中表现出色,但其潜在的文化偏见尚未充分研究。本文旨在评估VLMs在国家识别任务中的文化偏见程度。
  • Method: 使用Country211数据集,测试多种VLMs在不同提问策略(如开放式问题、多选题、多语言和对抗性设置)下的表现。
  • Result: 研究发现模型性能在不同国家和提问方式下存在显著差异,表明VLMs继承了预训练数据中的偏见。
  • Conclusion: VLMs虽具备强大的视觉理解能力,但其性能受预训练数据分布和规模影响,难以在全球范围内均匀泛化。

[11] Leveraging Generative AI Models to Explore Human Identity

Yunha Yeo,Daeho Um

Main category: cs.CV

TL;DR: 论文通过扩散模型生成人脸图像,探索人类身份与外部因素的关系,并创作了表达身份流动性的视频作品。

  • Motivation: 探索人类身份的形成过程及其对外部因素的依赖性。
  • Method: 使用扩散模型生成人脸图像,并通过实验观察外部输入变化对生成图像的影响。
  • Result: 实验表明外部因素显著影响生成的人脸图像,间接证实人类身份对外部因素的依赖。
  • Conclusion: 人类身份具有流动性,受外部因素影响,并通过视频作品《Fluidity of Human Identity》表达这一观点。

[12] Open-Set Semi-Supervised Learning for Long-Tailed Medical Datasets

Daniya Najiha A. Kareem,Jean Lahoud,Mustansar Fiaz,Amandeep Kumar,Hisham Cholakkal

Main category: cs.CV

TL;DR: 提出了一种针对医学图像数据不平衡问题的开放集学习方法,通过半监督和正则化策略提升模型对罕见类别的识别能力。

  • Motivation: 医学图像数据中类别不平衡和未见类别的存在限制了模型的实用性,需解决这些问题以提高模型的泛化能力。
  • Method: 采用半监督学习方法,结合特征级正则化和分类器归一化技术,处理长尾分布问题。
  • Result: 在ISIC2018、ISIC2019和TissueMNIST数据集上,模型在封闭集和开放集分类任务中表现显著提升。
  • Conclusion: 该方法有效解决了医学图像数据中的不平衡问题,提高了模型对罕见和未见类别的识别能力,代码和模型已开源。

[13] Colors Matter: AI-Driven Exploration of Human Feature Colors

Rama Alyoubi,Taif Alharbi,Albatul Alghamdi,Yara Alshehri,Elham Alghamdi

Main category: cs.CV

TL;DR: 该研究提出了一种结合先进成像技术和机器学习的框架,用于提取和分类人类关键属性(如肤色、发色、虹膜颜色和静脉色调)。系统通过多阶段流程实现高精度分类,并在不同光照条件下达到80%的准确率。

  • Motivation: 旨在通过AI驱动的颜色分析和特征提取,实现更包容、精确和细致的分类,支持美容技术、数字个性化和视觉分析等应用。
  • Method: 采用多阶段流程,包括人脸检测、区域分割和主色提取,结合X-means聚类和Delta E(CIEDE2000)距离度量,在LAB和HSV色彩空间中进行颜色区分。
  • Result: 系统在Delta E-HSV方法结合高斯模糊的情况下,色调分类准确率达到80%,在不同光照和图像条件下表现稳定。
  • Conclusion: 该研究展示了AI在颜色分析和特征提取中的潜力,为美容技术和数字个性化等领域提供了可靠的工具。

[14] Programmatic Video Prediction Using Large Language Models

Hao Tang,Kevin Ellis,Suhas Lohit,Michael J. Jones,Moitreya Chatterjee

Main category: cs.CV

TL;DR: ProgGen利用神经符号和大型视觉语言模型(LLM/VLM)进行视频帧预测,通过生成可解释的状态和动态转换程序,优于现有方法。

  • Motivation: 为视频监控、机器人应用和自动驾驶等任务提供动态预测能力,通过生成视觉未来帧来增强对真实世界过程的理解。
  • Method: ProgGen利用LLM/VLM生成程序:(i) 估计视频状态;(ii) 预测未来状态;(iii) 将状态渲染为RGB帧。
  • Result: 在PhyWorld和Cart Pole环境中,ProgGen在视频帧预测任务中表现优于其他技术,并支持反事实推理和可解释视频生成。
  • Conclusion: ProgGen在视频生成任务中表现出高效性和通用性,为动态预测提供了可解释的解决方案。

[15] MultiMAE Meets Earth Observation: Pre-training Multi-modal Multi-task Masked Autoencoders for Earth Observation Tasks

Jose Sosa,Danila Rukhovich,Anis Kacem,Djamila Aouada

Main category: cs.CV

TL;DR: 本文提出了一种灵活的多模态多任务预训练策略(MultiMAE),用于地球观测数据,通过重建多种输入模态提升迁移学习能力。

  • Motivation: 现有方法在多模态地球观测数据预训练中难以有效迁移到下游任务,本文旨在解决这一问题。
  • Method: 采用Multi-modal Multi-task Masked Autoencoder(MultiMAE),预训练时重建光谱、高程和分割数据等多种模态。
  • Result: 预训练模型在分类和分割任务中表现优于现有方法,且能灵活处理多样输入配置。
  • Conclusion: MultiMAE策略显著提升了迁移学习能力,适用于多模态地球观测数据。

[16] Data Augmentation and Resolution Enhancement using GANs and Diffusion Models for Tree Segmentation

Alessandro dos Santos Ferreira,Ana Paula Marques Ramos,José Marcato Junior,Wesley Nunes Gonçalves

Main category: cs.CV

TL;DR: 提出了一种结合域适应、GAN和扩散模型的新方法,用于提升低分辨率航拍图像质量,实现无需大量标注数据的树木分割。

  • Motivation: 城市森林对环境和生物多样性至关重要,但树木检测因复杂景观和图像分辨率差异而困难,且深度学习依赖大量标注数据。
  • Method: 整合pix2pix、Real-ESRGAN、Latent Diffusion和Stable Diffusion模型,生成高质量合成样本以扩展训练数据。
  • Result: 实验显示低分辨率图像的IoU提升超过50%,方法优于传统流程。
  • Conclusion: 该方法为遥感场景提供可扩展且高效的解决方案,尤其在标注资源稀缺时。

[17] iPad: Iterative Proposal-centric End-to-End Autonomous Driving

Ke Guo,Haochen Liu,Xiaojun Wu,Jia Pan,Chen Lv

Main category: cs.CV

TL;DR: iPad是一种新的端到端自动驾驶框架,通过提案中心的方法提升效率和规划意识。

  • Motivation: 传统端到端方法基于密集BEV网格特征生成计划,效率低且规划意识有限。
  • Method: 提出iPad框架,使用ProFormer迭代优化提案及其特征,并引入轻量级辅助任务(地图和预测)。
  • Result: 在NAVSIM和CARLA Bench2Drive基准测试中表现优异,效率显著提升。
  • Conclusion: iPad在性能和效率上均优于现有方法,为自动驾驶提供了新思路。

[18] Seeing the Trees for the Forest: Rethinking Weakly-Supervised Medical Visual Grounding

Ta Duc Huy,Duy Anh Huynh,Yutong Xie,Yuankai Qi,Qi Chen,Phi Le Nguyen,Sen Kim Tran,Son Lam Phung,Anton van den Hengel,Zhibin Liao,Minh-Son To,Johan W. Verjans,Vu Minh Hieu Phan

Main category: cs.CV

TL;DR: 论文提出了一种名为Disease-Aware Prompting (DAP)的方法,通过优化视觉语言模型(VLM)的注意力机制,显著提升了医学图像中视觉定位的准确性。

  • Motivation: 当前视觉语言模型在医学图像中难以准确关联文本描述与疾病区域,主要由于注意力机制效率低下和缺乏细粒度标记表示。
  • Method: 提出DAP方法,利用VLM的可解释性图识别合适的图像特征,增强疾病相关区域并抑制背景干扰。
  • Result: 在不增加像素级标注的情况下,DAP在三个主要胸部X光数据集上将视觉定位准确率提高了20.74%。
  • Conclusion: DAP通过简单有效的方法显著提升了医学图像中视觉定位的性能,增强了模型的透明度和可信度。

[19] DeepKD: A Deeply Decoupled and Denoised Knowledge Distillation Trainer

Haiduo Huang,Jiangcheng Song,Yadong Zhang,Pengju Ren

Main category: cs.CV

TL;DR: DeepKD提出了一种新的知识蒸馏框架,通过双级解耦和自适应去噪解决目标类与非目标类知识流的冲突和噪声问题。

  • Motivation: 现有方法忽视了目标类与非目标类知识流之间的冲突,且低置信度的暗知识引入噪声信号,影响知识传递。
  • Method: 设计独立动量更新器分离任务导向和非任务导向知识,并引入动态top-k掩码机制逐步增加非目标类知识。
  • Result: 在CIFAR-100、ImageNet和MS-COCO上的实验验证了DeepKD的有效性。
  • Conclusion: DeepKD通过解耦和去噪机制显著提升了知识蒸馏的效果。

[20] Multispectral Detection Transformer with Infrared-Centric Sensor Fusion

Seongmin Hwang,Daeyoung Han,Moongu Jeon

Main category: cs.CV

TL;DR: IC-Fusion是一种多光谱目标检测器,通过轻量级和模态感知设计有效融合可见光和红外特征,利用RGB的语义上下文和IR的高频信息提升性能。

  • Motivation: 利用可见光(RGB)和红外(IR)模态的互补信息,实现多样化环境下的鲁棒目标检测。
  • Method: 采用紧凑的RGB骨干网络,设计多尺度特征蒸馏(MSFD)模块增强RGB特征,并通过三阶段融合块(CCSG和CLKG)促进跨模态交互。
  • Result: 在FLIR和LLVIP基准测试中验证了方法的有效性和效率。
  • Conclusion: IC-Fusion通过IR为中心的融合策略,显著提升了多光谱目标检测性能。

[21] Unified Cross-Modal Attention-Mixer Based Structural-Functional Connectomics Fusion for Neuropsychiatric Disorder Diagnosis

Badhan Mazumder,Lei Wu,Vince D. Calhoun,Dong Hye Ye

Main category: cs.CV

TL;DR: ConneX是一种多模态融合方法,结合交叉注意力和MLP-Mixer,用于提升脑结构-功能数据的诊断性能。

  • Motivation: 传统多模态深度学习方法未能充分利用脑结构和功能数据的互补性,影响诊断效果。
  • Method: 采用模态特定的GNN提取特征,通过交叉注意力网络融合模态,MLP-Mixer优化全局和局部特征。
  • Result: 在两个临床数据集上表现优异,验证了框架的鲁棒性。
  • Conclusion: ConneX通过多模态融合显著提升了脑疾病诊断性能。

[22] CineTechBench: A Benchmark for Cinematographic Technique Understanding and Generation

Xinran Wang,Songyu Xu,Xiangxuan Shan,Yuxuan Zhang,Muxi Diao,Xueyan Duan,Yanhua Huang,Kongming Liang,Zhanyu Ma

Main category: cs.CV

TL;DR: CineTechBench是一个基于专家标注的电影摄影技术基准,用于评估多模态大语言模型和视频生成模型在理解和生成电影摄影技术方面的能力。

  • Motivation: 当前模型在理解和生成电影摄影技术方面缺乏专家标注数据,CineTechBench旨在填补这一空白。
  • Method: 通过手动标注600多张电影图像和120个电影片段,设计了问答对和生成任务,评估15+ MLLMs和5+视频生成模型。
  • Result: 评估揭示了当前模型的局限性,并提出了未来自动电影制作和欣赏的方向。
  • Conclusion: CineTechBench为电影摄影技术的理解和生成提供了基准和未来研究方向。

[23] From Pixels to Images: Deep Learning Advances in Remote Sensing Image Semantic Segmentation

Quanwei Liu,Tao Huang,Yanni Dong,Jiaqi Yang,Wei Xiang

Main category: cs.CV

TL;DR: 该论文回顾了基于深度学习的遥感图像语义分割(RSISS)的发展历程,将其分为四个阶段,并分析了特征提取和学习策略的演变。同时,对近40种先进技术进行了统一数据集上的评估,总结了关键进展和开放挑战。

  • Motivation: 随着遥感图像(RSIs)的多样性和数量增加,传统方法在效率和准确性上难以满足需求,深度学习(DL)为遥感图像语义分割带来了显著进步。
  • Method: 论文将现有方法分为四个阶段(像素基、块基、瓦片基和图像基),并从特征提取和学习策略的角度进行分析,同时对近40种技术进行了统一评估。
  • Result: 研究揭示了从像素级到瓦片级、从单模态到多模态分割的演进趋势,并定量比较了不同技术的性能和适用性。
  • Conclusion: 论文提供了DL-based RSISS的全面综述,总结了关键进展和未来研究方向。

[24] ALN-P3: Unified Language Alignment for Perception, Prediction, and Planning in Autonomous Driving

Yunsheng Ma,Burhaneddin Yaman,Xin Ye,Mahmut Yurt,Jingru Luo,Abhirup Mallik,Ziran Wang,Liu Ren

Main category: cs.CV

TL;DR: ALN-P3是一个统一的协同蒸馏框架,通过跨模态对齐提升自动驾驶系统的驾驶决策和语言推理能力。

  • Motivation: 现有方法难以同时优化驾驶性能和视觉语言推理,ALN-P3旨在解决这一问题。
  • Method: 提出三种对齐机制(P1A、P2A、P3A),在训练阶段对齐视觉与语言模态。
  • Result: 在多个基准测试中显著提升性能,达到最优结果。
  • Conclusion: ALN-P3有效结合驾驶与语言推理,无需推理阶段额外成本。

[25] Lossless Token Merging Even Without Fine-Tuning in Vision Transformers

Jaeyeon Lee,Dong-Wan Choi

Main category: cs.CV

TL;DR: ATM是一种无需微调的无损令牌合并方法,显著减少计算开销且保持性能。

  • Motivation: 解决ViTs因规模大导致的计算开销问题,同时避免现有令牌压缩技术的信息丢失和额外训练需求。
  • Method: 通过自适应调整层特定相似性阈值和引入考虑相似性及合并大小的令牌匹配技术,实现无损令牌合并。
  • Result: 在多种预训练模型上验证,ATM优于现有免训练方法,甚至超越需训练的方法,FLOPs减少30%且精度不变。
  • Conclusion: ATM是一种高效且无需额外训练的令牌合并方法,显著提升ViTs的计算效率。

[26] Harnessing Caption Detailness for Data-Efficient Text-to-Image Generation

Xinran Wang,Muxi Diao,Yuanzhi Liu,Chunyu Wang,Kongming Liang,Zhanyu Ma,Jun Guo

Main category: cs.CV

TL;DR: 提出了一种新的度量标准(ICR和AOD)来评估文本到图像(T2I)模型训练中标题的详细程度,实验表明基于该标准选择的数据能显著提升模型性能。

  • Motivation: 现有方法依赖标题长度等简单指标,无法准确反映标题的详细程度,限制了T2I模型的生成质量。
  • Method: 提出两种新指标:图像覆盖率(ICR)和平均对象详细度(AOD),用于评估标题的详细程度。
  • Result: 在COCO数据集上实验显示,使用高ICR和AOD标题训练的T2I模型在DPG等基准测试中表现更优,且仅需20%数据即可超越全数据集训练。
  • Conclusion: 详细感知的度量标准优于基于长度的启发式方法,对T2I任务的数据选择至关重要。

[27] AvatarShield: Visual Reinforcement Learning for Human-Centric Video Forgery Detection

Zhipei Xu,Xuanyu Zhang,Xing Zhou,Jian Zhang

Main category: cs.CV

TL;DR: AvatarShield是一个基于多模态大语言模型(MLLM)的框架,用于检测以人为中心的伪造视频,通过GRPO优化和双编码器架构提升检测效果。

  • Motivation: AIGC技术的快速发展带来了视频生成的创造力,但也威胁到信息完整性、身份安全和公众信任。现有检测方法在人为中心视频中效果不足。
  • Method: 提出AvatarShield框架,结合GRPO优化和双编码器架构,避免高成本文本标注数据,实现精确时间建模和伪造检测。
  • Result: 实验表明,AvatarShield在域内和跨域检测中显著优于现有方法。
  • Conclusion: AvatarShield为以人为中心的视频取证设立了新标准。

[28] Exploring Generalized Gait Recognition: Reducing Redundancy and Noise within Indoor and Outdoor Datasets

Qian Zhou,Xianda Guo,Jilong Wang,Chuanfu Shen,Zhongyuan Wang,Hua Zou,Qin Zou,Chao Liang,Chen Long,Gang Wu

Main category: cs.CV

TL;DR: 提出了一种统一框架,通过解耦三元组损失和目标数据集蒸馏策略,提升跨域步态识别的泛化能力。

  • Motivation: 跨域步态识别因视角、外观和环境的巨大差异而具有挑战性,混合数据集训练虽常用但存在优化冲突和噪声样本问题。
  • Method: 设计解耦三元组损失以减少数据集间的梯度冲突,并引入目标数据集蒸馏策略过滤冗余样本。
  • Result: 在多个数据集上验证了方法的有效性,显著提升了跨数据集识别性能,且不影响源域准确性。
  • Conclusion: 该方法为跨域步态识别提供了一种高效且鲁棒的解决方案。

[29] AuxDet: Auxiliary Metadata Matters for Omni-Domain Infrared Small Target Detection

Yangting Shi,Renjie He,Le Hui,Xiang Li,Jian Yang,Ming-Ming Cheng,Yimian Dai

Main category: cs.CV

TL;DR: 论文提出AuxDet,一种多模态框架,通过结合文本元数据改进红外小目标检测(IRSTD),显著提升复杂场景下的性能。

  • Motivation: 现有IRSTD方法忽视辅助元数据(如成像参数),导致泛化能力不足。论文旨在利用这些元数据优化检测。
  • Method: AuxDet通过多层感知机(MLPs)动态融合元数据与视觉特征,并设计轻量级1D卷积模块细化特征。
  • Result: 在WideIRSTD-Full基准测试中,AuxDet优于现有方法,验证了辅助信息对提升鲁棒性和准确性的作用。
  • Conclusion: 辅助元数据在IRSTD任务中至关重要,AuxDet为多模态检测提供了新思路。

[30] MonoSplat: Generalizable 3D Gaussian Splatting from Monocular Depth Foundation Models

Yifan Liu,Keyu Fan,Weihao Yu,Chenxin Li,Hao Lu,Yixuan Yuan

Main category: cs.CV

TL;DR: MonoSplat利用单目深度先验提升3D高斯泼溅的泛化能力,通过特征适配器和集成高斯预测模块实现高质量重建。

  • Motivation: 现有方法在陌生场景中泛化能力有限,MonoSplat旨在通过预训练的单目深度模型解决这一问题。
  • Method: 结合单目多特征适配器和集成高斯预测模块,利用注意力机制对齐特征并生成精确的高斯基元。
  • Result: 在多样化数据集上表现优异,重建质量和泛化能力优于现有方法,同时计算高效。
  • Conclusion: MonoSplat通过融合单目先验和多视图特征,显著提升了3D高斯泼溅的泛化性和重建质量。

[31] Geometrically Regularized Transfer Learning with On-Manifold and Off-Manifold Perturbation

Hana Satou,Alan Mitkiy,F Monkey

Main category: cs.CV

TL;DR: MAADA框架通过分解对抗扰动为流形上和流形外部分,提升跨域泛化能力。

  • Motivation: 解决源域和目标域数据流形差异导致的迁移学习挑战。
  • Method: 提出MAADA框架,结合流形一致性约束和几何对齐损失。
  • Result: 在DomainNet、VisDA和Office-Home数据集上表现优于现有方法。
  • Conclusion: MAADA在结构鲁棒性和跨域泛化方面具有显著优势。

[32] Leveraging Foundation Models for Multimodal Graph-Based Action Recognition

Fatemeh Ziaeetabar,Florentin Wörgötter

Main category: cs.CV

TL;DR: 提出了一种基于图的新框架,结合视觉语言基础模型(VideoMAE和BERT),用于识别细粒度双手操作动作,通过动态多模态图和任务特定注意力机制提升性能。

  • Motivation: 解决细粒度双手操作动作识别的挑战,利用基础模型提取丰富的时空和语义表示。
  • Method: 构建动态多模态图,节点为帧、对象和文本注释,边编码时空和语义关系;采用图注意力网络和任务特定注意力机制。
  • Result: 在多个基准数据集上优于现有方法,验证了基础模型与动态图推理结合的优势。
  • Conclusion: 结合基础模型和动态图推理的方法在动作识别中表现出色,具有鲁棒性和泛化性。

[33] GAMA: Geometry-Aware Manifold Alignment via Structured Adversarial Perturbations for Robust Domain Adaptation

Hana Satou,F Monkey

Main category: cs.CV

TL;DR: GAMA提出了一种几何感知的流形对齐框架,通过结构化对抗扰动实现显式流形对齐,显著提升了跨域适应性能。

  • Motivation: 解决源域和目标域流形差异大时,现有方法忽略精确流形对齐和结构化扰动探索的问题。
  • Method: GAMA利用几何信息引导对抗扰动,通过切空间探索和流形约束对抗优化,实现显式流形对齐。
  • Result: 在DomainNet、VisDA和Office-Home数据集上,GAMA在无监督和少样本设置中均优于现有方法。
  • Conclusion: GAMA通过结构化正则化和显式对齐,提升了语义一致性、鲁棒性和跨域对齐能力。

[34] Intentional Gesture: Deliver Your Intentions with Gestures for Speech

Pinxin Liu,Haiyang Liu,Luchuan Song,Chenliang Xu

Main category: cs.CV

TL;DR: 论文提出了一种基于意图推理的手势生成框架Intentional-Gesture,通过结合高级交流功能生成语义丰富且时间同步的手势。

  • Motivation: 现有手势生成方法仅依赖浅层语言线索(如语音或文本),忽略了背后的交流意图,导致生成的手势语义浅薄。
  • Method: 提出Intentional-Gesture框架,利用意图标注数据集(InG)和Intentional Gesture Motion Tokenizer,将高级交流功能注入运动表示中。
  • Result: 在BEAT-2基准测试中达到最新性能,生成的手势既时间同步又语义丰富。
  • Conclusion: 该框架为数字人和具身AI提供了模块化的手势生成基础。

[35] Flashback: Memory-Driven Zero-shot, Real-time Video Anomaly Detection

Hyogun Lee,Haksub Kim,Ig-Jae Kim,Yonghun Choi

Main category: cs.CV

TL;DR: Flashback是一种零样本、实时的视频异常检测方法,通过离线记忆构建和在线响应两阶段实现,无需真实异常数据,显著提升了检测性能。

  • Motivation: 解决视频异常检测中的领域依赖性和实时性限制,减少人工干预需求。
  • Method: 采用两阶段框架:离线阶段用LLM构建伪场景记忆,在线阶段通过相似性搜索匹配视频片段。
  • Result: 在UCF-Crime和XD-Violence数据集上分别达到87.3 AUC和75.1 AP,显著优于现有方法。
  • Conclusion: Flashback通过创新框架实现了高效、实时的视频异常检测,具有实际应用潜力。

[36] GT^2-GS: Geometry-aware Texture Transfer for Gaussian Splatting

Wenjie Liu,Zhongliang Liu,Junwei Shu,Changbo Wang,Yang Li

Main category: cs.CV

TL;DR: GT^2-GS是一个几何感知的纹理转移框架,通过纹理特征与几何信息匹配,解决了现有方法忽视几何信息的问题。

  • Motivation: 现有3D风格转移方法常忽略几何信息,导致纹理转移效果不佳。本文旨在通过几何感知提升纹理转移质量。
  • Method: 提出几何感知纹理增强模块和几何一致纹理损失函数,结合相机姿态和3D几何信息优化纹理特征。
  • Result: 实验证明该方法在纹理转移效果和几何完整性保持上表现优异,更符合人类视觉感知。
  • Conclusion: GT^2-GS通过几何感知实现了高质量的3D纹理转移,为多媒体内容创作提供了高效工具。

[37] Multimodal Conditional Information Bottleneck for Generalizable AI-Generated Image Detection

Haotian Qin,Dongliang Chang,Yueying Gao,Bingyao Yu,Lei Chen,Zhanyu Ma

Main category: cs.CV

TL;DR: 提出了一种多模态条件瓶颈网络(InfoFD),通过文本引导和动态正交化减少特征冗余,提升AI生成图像检测的泛化能力。

  • Motivation: 现有基于CLIP的AI生成图像检测方法存在特征冗余问题,影响泛化能力,且仅依赖图像对应提示效果不佳。
  • Method: 结合文本和类别模态的多模态条件瓶颈网络(TGCIB)和动态文本正交化(DTO),减少冗余并增强特征判别力。
  • Result: 在GenImage数据集和最新生成模型上表现出优异的泛化性能。
  • Conclusion: InfoFD通过多模态条件瓶颈和动态正交化,显著提升了AI生成图像检测的泛化能力。

[38] Continuous Representation Methods, Theories, and Applications: An Overview and Perspectives

Yisi Luo,Xile Zhao,Deyu Meng

Main category: cs.CV

TL;DR: 本文综述了连续表示方法的最新进展,包括方法设计、理论基础和实际应用,并展望了未来方向。

  • Motivation: 传统离散框架在数据表示和重建中存在局限性,连续表示方法因其分辨率灵活性、跨模态适应性和参数效率等优势成为新兴范式。
  • Method: 系统分析了连续表示方法的设计(如基函数表示、统计建模、张量函数分解和隐式神经表示)、理论基础(如近似误差分析、收敛性和隐式正则化)以及实际应用。
  • Result: 连续表示方法在图像恢复、新视角合成和波形反演等领域展现出优越性。
  • Conclusion: 未来研究应进一步探索连续表示方法、理论和应用,以深化其潜力。

[39] DC-Scene: Data-Centric Learning for 3D Scene Understanding

Ting Huang,Zeyu Zhang,Ruicheng Zhang,Yang Zhao

Main category: cs.CV

TL;DR: DC-Scene是一个数据中心的3D场景理解框架,通过CLIP驱动的双指标质量过滤器和课程调度器,显著提升数据质量和训练效率。

  • Motivation: 3D场景理解在机器人、自动驾驶等领域至关重要,但面临计算成本高和标注数据稀缺的挑战,需要更高效的学习方法。
  • Method: 提出CLIP驱动的双指标质量过滤器(DIQ)和课程调度器,逐步扩展训练样本池,减少对大规模标注数据的依赖。
  • Result: 在ScanRefer和Nr3D数据集上达到最先进性能(86.1 CIDEr),同时降低三分之二的训练成本。
  • Conclusion: 高质量小样本训练优于大规模数据训练,DC-Scene为3D场景理解提供了高效解决方案。

[40] CAD: A General Multimodal Framework for Video Deepfake Detection via Cross-Modal Alignment and Distillation

Yuxuan Du,Zhendong Wang,Yuhao Luo,Caiyong Piao,Zhiyuan Yan,Hao Li,Li Yuan

Main category: cs.CV

TL;DR: 论文提出了一种跨模态对齐与蒸馏(CAD)框架,用于检测多模态深度伪造视频,通过结合模态特定痕迹和跨模态语义对齐,显著提升了检测性能。

  • Motivation: 现有检测器仅依赖单一模态的痕迹或跨模态不一致性,无法有效应对多模态深度伪造的挑战。论文旨在结合模态特定痕迹和跨模态语义对齐,提升检测效果。
  • Method: 提出CAD框架,包含跨模态对齐(检测语义不一致性)和跨模态蒸馏(融合特征时保留模态特定痕迹)。
  • Result: 在多种深度伪造基准测试中,CAD显著优于现有方法,验证了多模态信息和谐整合的必要性。
  • Conclusion: CAD通过结合模态特定痕迹和跨模态语义对齐,为多模态深度伪造检测提供了高效解决方案。

[41] GAMA++: Disentangled Geometric Alignment with Adaptive Contrastive Perturbation for Reliable Domain Transfer

Kim Yun,Hana Satou,F Monkey

Main category: cs.CV

TL;DR: GAMA++提出了一种新框架,通过潜在空间解耦和自适应对比扰动策略,解决了现有几何感知域适应方法的不足,并在多个基准测试中取得了最优结果。

  • Motivation: 当前几何感知域适应方法(如GAMA)存在任务相关和任务无关流形维度解耦不足,以及扰动方案忽略类间对齐不对称性的问题。
  • Method: GAMA++引入潜在空间解耦和自适应对比扰动策略,并结合跨域对比一致性损失,优化类间对齐和边界鲁棒性。
  • Result: 在DomainNet、Office-Home和VisDA基准测试中,GAMA++在标准和小样本设置下均达到最优性能,显著提升了类级对齐保真度和边界鲁棒性。
  • Conclusion: GAMA++为迁移学习中的语义几何对齐设定了新标准。

[42] VET-DINO: Learning Anatomical Understanding Through Multi-View Distillation in Veterinary Imaging

Andre Dourson,Kylie Taylor,Xiaoli Qiao,Michael Fitzke

Main category: cs.CV

TL;DR: VET-DINO是一种自监督学习框架,利用医学影像中多视角标准化视图的特性,从2D投影中学习视图不变的解剖结构,并在兽医影像任务中取得领先性能。

  • Motivation: 医学影像中标注数据稀缺,现有方法依赖单图像的合成增强,而VET-DINO利用多视角视图的特性,提升解剖结构的学习效果。
  • Method: 通过同一患者研究中的多视角兽医X光片,学习视图不变的解剖结构,并隐含3D理解。实验基于500万张兽医X光片。
  • Result: VET-DINO在多视角合成和下游任务中表现优异,优于纯合成增强方法,并在兽医影像任务中达到领先水平。
  • Conclusion: VET-DINO为医学影像自监督学习提供了新范式,利用领域特性而非单纯借鉴自然图像技术。

[43] Zero-Shot Gaze-based Volumetric Medical Image Segmentation

Tatyana Shmykova,Leila Khaertdinova,Ilya Pershin

Main category: cs.CV

TL;DR: 该论文提出了一种基于眼动追踪的新型交互式医学图像分割方法,使用眼动数据作为提示,评估了其在SAM-2和MedSAM-2模型中的性能。

  • Motivation: 当前交互式分割模型依赖手动提供的提示(如边界框和鼠标点击),而眼动追踪作为一种新型输入模态,可能提供更高效的交互方式。
  • Method: 研究引入了眼动数据作为提示,并在SAM-2和MedSAM-2模型上评估其性能,使用了合成和真实的眼动数据。
  • Result: 与边界框相比,基于眼动的提示在时间效率上更高,但分割质量略低。
  • Conclusion: 眼动追踪可作为3D医学图像分割的补充输入模态,具有潜在应用价值。

[44] gen2seg: Generative Models Enable Generalizable Instance Segmentation

Om Khangaonkar,Hamed Pirsiavash

Main category: cs.CV

TL;DR: 通过微调生成模型(如Stable Diffusion和MAE)用于类别无关的实例分割,发现其具有强大的零样本泛化能力,甚至在某些情况下优于监督模型SAM。

  • Motivation: 探索如何利用生成模型的表征能力进行通用感知组织,尤其是对象边界和场景组合的理解。
  • Method: 使用实例着色损失微调Stable Diffusion和MAE,仅针对少量对象类型(室内家具和汽车)进行训练。
  • Result: 模型在未见过的对象类型和风格上表现出色,甚至在精细结构和模糊边界的分割上优于SAM。
  • Conclusion: 生成模型学习了一种跨类别和领域的固有分组机制,无需大规模预训练即可实现泛化。

[45] Blind Spot Navigation: Evolutionary Discovery of Sensitive Semantic Concepts for LVLMs

Zihao Pan,Yu Tong,Weibin Wu,Jingyi Wang,Lifeng Chen,Zhe Zhao,Jiajia Wei,Yitong Qiao,Zibin Zheng

Main category: cs.CV

TL;DR: 论文提出了一种语义进化框架,通过结合LLMs和T2I模型,探索大型视觉语言模型(LVLMs)对特定语义概念的敏感性,并量化其性能表现。

  • Motivation: 研究动机是揭示LVLMs在面对特定语义概念时易产生幻觉和错误的机制,以针对性提升模型鲁棒性。
  • Method: 方法包括利用LLMs进行语义概念的交叉和变异操作,生成图像描述,再通过T2I模型转换为视觉输入,以LVLMs的任务性能作为奖励信号指导语义探索。
  • Result: 实验在七种主流LVLMs和两种多模态任务上验证了方法的有效性,并发现了LVLMs的敏感语义。
  • Conclusion: 结论表明该方法能有效探索LVLMs的敏感语义,为后续研究提供了启发。

[46] Contrastive Learning-Enhanced Trajectory Matching for Small-Scale Dataset Distillation

Wenmin Li,Shunsuke Sakai,Tatsuhito Hasegawa

Main category: cs.CV

TL;DR: 论文提出了一种结合对比学习的数据集蒸馏方法,以解决在极少量样本下语义信息不足的问题,显著提升了小规模合成数据集的模型性能。

  • Motivation: 在资源受限环境中部署机器学习模型需要将大数据集压缩为小而信息丰富的合成数据集,但现有方法在极端样本稀缺时难以保持语义丰富性。
  • Method: 提出了一种结合对比学习的图像合成方法,通过最大化实例级特征区分度,生成更具信息量和多样性的合成样本。
  • Result: 实验表明,该方法显著提升了模型在极少量合成数据上的性能,并改善了合成图像的视觉保真度。
  • Conclusion: 结合对比学习的数据集蒸馏方法在极端样本稀缺场景下优于现有技术。

[47] LiveVLM: Efficient Online Video Understanding via Streaming-Oriented KV Cache and Retrieval

Zhenyu Ning,Guangda Liu,Qihao Jin,Wenchao Ding,Minyi Guo,Jieru Zhao

Main category: cs.CV

TL;DR: LiveVLM是一个无需训练、专为实时视频理解和交互设计的框架,通过创新的流式KV缓存技术提升处理速度和内存效率。

  • Motivation: 现有视频大语言模型主要关注离线视频问答,忽略了实时应用中的内存和响应速度需求。
  • Method: LiveVLM采用流式KV缓存技术,实时处理视频流并保留长期细节,同时压缩视频KV张量以提高效率。
  • Result: 实验表明,LiveVLM在相同设备上可处理44倍帧数,响应速度提升5倍,且性能不降。
  • Conclusion: LiveVLM为实时视频理解提供了高效解决方案,适用于多种实际场景。

[48] DiffProb: Data Pruning for Face Recognition

Eduarda Caldeira,Jan Niklas Kolf,Naser Damer,Fadi Boutros

Main category: cs.CV

TL;DR: DiffProb是一种用于人脸识别的数据剪枝方法,通过评估训练样本的预测概率并剪除冗余样本,减少训练成本和数据量,同时保持或提升识别准确率。

  • Motivation: 依赖大规模标注数据集带来训练成本高、存储压力大及隐私问题,需减少数据依赖。
  • Method: DiffProb通过分析样本预测概率剪除冗余样本,并加入辅助清理机制去除错误标签样本。
  • Result: 在CASIA-WebFace上剪枝50%数据后,验证准确率保持或提升,且方法对不同架构和损失函数鲁棒。
  • Conclusion: DiffProb显著降低训练成本和数据量,减少对大规模数据集的依赖。

[49] GS2E: Gaussian Splatting is an Effective Data Generator for Event Stream Generation

Yuchen Li,Chaoran Feng,Zhenyu Tang,Kaiyuan Deng,Wangbo Yu,Yonghong Tian,Li Yuan

Main category: cs.CV

TL;DR: GS2E是一个基于3D高斯散射重建的大规模合成事件数据集,用于高保真事件视觉任务,解决了现有数据集视角单一和几何不一致的问题。

  • Motivation: 现有事件数据集通常从密集RGB视频合成,缺乏视角多样性和几何一致性,或依赖昂贵硬件。GS2E旨在克服这些限制。
  • Method: 通过3D高斯散射重建真实静态场景,结合自适应轨迹插值和物理一致的事件对比阈值建模,生成几何一致的事件流。
  • Result: 实验表明,GS2E在事件3D重建任务中表现出优越的泛化能力,适合作为事件视觉研究的基准。
  • Conclusion: GS2E为事件视觉研究提供了高质量、多样化的合成数据集,推动了该领域的发展。

[50] R3GS: Gaussian Splatting for Robust Reconstruction and Relocalization in Unconstrained Image Collections

Xu yan,Zhaohui Wang,Rong Wei,Jingbo Yu,Dong Li,Xiangde Liu

Main category: cs.CV

TL;DR: R3GS是一个针对无约束数据集的鲁棒重建和重定位框架,结合全局和局部特征,优化训练和渲染效率,并减少存储需求。

  • Motivation: 解决无约束数据集中瞬态物体和天空区域对重建过程的负面影响,以及光照变化对重定位的挑战。
  • Method: 使用混合表示(CNN全局特征和多分辨率哈希网格局部特征),浅层MLPs预测高斯属性,微调轻量级人体检测网络生成可见性地图,并提出天空处理技术和鲁棒重定位方法。
  • Result: 显著提升渲染保真度、训练和渲染效率,减少存储需求,在野外数据集上达到最先进性能。
  • Conclusion: R3GS通过创新方法有效解决了重建和重定位中的关键问题,性能优越且代码将开源。

[51] BadSR: Stealthy Label Backdoor Attacks on Image Super-Resolution

Ji Guo,Xiaolei Wen,Wenbo Jiang,Cheng Huang,Jinjin Li,Hongwei Li

Main category: cs.CV

TL;DR: BadSR是一种针对超分辨率(SR)模型的后门攻击方法,通过提高毒化高分辨率(HR)图像的隐蔽性,使其更难被用户检测。

  • Motivation: 现有后门攻击主要关注毒化低分辨率(LR)图像的隐蔽性,忽略了HR图像的隐蔽性,容易被用户发现异常数据。
  • Method: BadSR通过在特征空间中逼近干净HR图像和预定义目标图像,并限制对干净HR图像的修改范围,生成隐蔽的毒化HR图像。同时设计了对抗优化的触发器和基于遗传算法的毒化样本选择方法。
  • Result: 实验表明,BadSR在多种模型和数据集上实现了高攻击成功率,显著影响下游任务。
  • Conclusion: BadSR通过改进HR图像的隐蔽性,提升了后门攻击的隐蔽性和有效性。

[52] FaceCrafter: Identity-Conditional Diffusion with Disentangled Control over Facial Pose, Expression, and Emotion

Kazuaki Mishima,Antoni Bigata Casademunt,Stavros Petridis,Maja Pantic,Kenji Suzuki

Main category: cs.CV

TL;DR: 提出了一种新的身份条件扩散模型,通过轻量级控制模块独立操纵面部姿态、表情和情感,同时保持身份特征不变。

  • Motivation: 人脸图像包含丰富的身份和非身份信息,但现有方法在非身份属性控制和身份分离方面存在困难。
  • Method: 在基础扩散模型中嵌入两个轻量级控制模块,利用交叉注意力机制独立控制非身份属性,并通过定制训练策略增强正交性。
  • Result: 定量和定性评估表明,该方法在控制精度和生成多样性上优于现有方法。
  • Conclusion: 该方法有效解决了非身份属性控制的挑战,同时提升了生成多样性和身份保持能力。

[53] CEBSNet: Change-Excited and Background-Suppressed Network with Temporal Dependency Modeling for Bitemporal Change Detection

Qi'ao Xu,Yan Xing,Jiali Hu,Yunan Jia,Rui Huang

Main category: cs.CV

TL;DR: 论文提出了一种名为CEBSNet的新网络,用于解决变化检测中的时间依赖性和背景干扰问题,通过模块化设计提升性能。

  • Motivation: 变化检测面临光照、季节、背景干扰等问题,现有方法常忽略时间依赖性和细微变化。
  • Method: 使用Channel Swap Module (CSM)建模时间依赖性,Feature Excitation and Suppression Module (FESM)捕捉变化,Pyramid-Aware Spatial-Channel Attention (PASCA)增强检测能力。
  • Result: 在多个数据集上达到最先进性能。
  • Conclusion: CEBSNet通过模块化设计有效解决了变化检测中的关键问题。

[54] SoftHGNN: Soft Hypergraph Neural Networks for General Visual Recognition

Mengqi Lei,Yihong Wu,Siqi Li,Xinhu Zheng,Juan Wang,Yue Gao,Shaoyi Du

Main category: cs.CV

TL;DR: 论文提出了一种名为SoftHGNN的软超图神经网络,通过动态和可微的超边分配机制改进视觉识别任务中的高阶关联建模。

  • Motivation: 主流自注意力方法在建模全局成对关系时有效,但无法捕捉现实场景中的高阶关联且计算冗余。现有超图神经网络依赖静态硬超边分配,导致冗余且忽略视觉语义连续性。
  • Method: 引入软超边概念,通过连续参与权重关联顶点与超边,利用可学习的超边原型生成语义丰富的软超边,并采用稀疏超边选择机制和负载均衡正则化提升效率。
  • Result: 在五个数据集的三个任务上,SoftHGNN显著提升了性能,高效捕捉了视觉场景中的高阶关联。
  • Conclusion: SoftHGNN通过软超边和动态分配机制,有效解决了现有方法的局限性,为视觉识别任务提供了高效且通用的解决方案。

[55] Towards Zero-Shot Differential Morphing Attack Detection with Multimodal Large Language Models

Ria Shekhawat,Hailin Li,Raghavendra Ramachandra,Sushma Venkatesh

Main category: cs.CV

TL;DR: 该研究首次将多模态大语言模型(LLMs)应用于差分变形攻击检测(D-MAD),通过设计基于思维链(CoT)的提示提高决策可靠性和可解释性。实验表明,ChatGPT-4o在检测准确性上优于Gemini,但两者在复杂条件下均表现不佳。

  • Motivation: 利用多模态LLMs提升变形攻击检测(MAD)的准确性和可解释性,尤其是在现实生物识别应用中。
  • Method: 使用基于思维链(CoT)的提示设计,减少无应答率并增强决策推理。研究还对比了ChatGPT-4o和Gemini两种多模态LLMs的性能。
  • Result: ChatGPT-4o在检测准确性上优于Gemini,尤其在对抗GAN生成的变形攻击时表现更好,但两者在复杂条件下均表现不佳。Gemini的解释更一致,而ChatGPT-4o更稳健但无应答率较高。
  • Conclusion: 多模态LLMs在D-MAD中具有潜力,但需进一步优化以应对复杂条件。ChatGPT-4o和Gemini各有优劣,未来研究可结合两者优势。

[56] Parameter-Efficient Fine-Tuning of Multispectral Foundation Models for Hyperspectral Image Classification

Bernardin Ligan,Khalide Jbilou,Fahd Kalloubi,Ahmed Ratnani

Main category: cs.CV

TL;DR: 提出了一种高效微调多光谱基础模型SpectralGPT的方法,用于高光谱图像分类,并引入KronA+方法,显著减少参数和存储需求。

  • Motivation: 高光谱图像(HSI)在多光谱基础模型中研究较少,且微调过程通常需要大量内存和存储资源。
  • Method: 探索了多种参数高效微调(PEFT)方法,包括LoRA、KronA、LoKr和LoRA+,并提出了KronA+方法。
  • Result: 在五个数据集上表现优异,KronA+仅需0.056%的可训练参数和约0.2MB存储,性能接近全微调。
  • Conclusion: KronA+是最高效的PEFT方法,适用于资源受限的高光谱图像分类任务。

[57] My Face Is Mine, Not Yours: Facial Protection Against Diffusion Model Face Swapping

Hon Ming Yam,Zhongliang Guo,Chun Pong Lau

Main category: cs.CV

TL;DR: 本文提出了一种针对扩散模型的新型主动防御策略,通过对抗攻击预先保护面部图像,避免被扩散式深度伪造技术利用。

  • Motivation: 扩散式深度伪造技术的普及带来了未经授权和不道德的面部图像操纵风险,传统被动检测方法无法应对扩散模型的独特挑战。
  • Method: 采用对抗攻击策略,针对扩散模型的特点设计区域特异性扰动,而非依赖特定模型架构或全局扰动。
  • Result: 提出的方法能有效保护面部图像,避免被多样化的扩散式深度伪造技术利用。
  • Conclusion: 主动防御策略是应对扩散式深度伪造技术的有效手段,区域特异性扰动设计是关键。

[58] Objective Bicycle Occlusion Level Classification using a Deformable Parts-Based Model

Angelique Mangubat,Shane Gilroy

Main category: cs.CV

TL;DR: 提出了一种基于计算机视觉的自行车遮挡等级分类新方法,显著提升了自行车可见性和遮挡的量化准确性。

  • Motivation: 提升自行车骑行者的道路安全,解决现有方法对自行车遮挡情况主观评估的不足。
  • Method: 采用基于部件的检测模型,通过自定义图像检测流程处理标注图像,提出自行车遮挡等级量化方法。
  • Result: 模型能稳健量化自行车的可见性和遮挡等级,优于现有主观方法。
  • Conclusion: 该方法将促进自动驾驶中更鲁棒的弱势道路用户检测算法的发展。

[59] Better Safe Than Sorry? Overreaction Problem of Vision Language Models in Visual Emergency Recognition

Dasol Choi,Seunghyun Lee,Youngsook Song

Main category: cs.CV

TL;DR: 论文研究了视觉语言模型(VLMs)在安全关键场景中的可靠性问题,发现模型存在系统性过度反应问题,即对安全场景误判为危险。

  • Motivation: 探索VLMs在安全关键场景中的可靠性,揭示其局限性,为改进模型提供方向。
  • Method: 通过VERI数据集(200张图像,100对对比图像)和两阶段评估协议(风险识别和应急响应),评估14个VLMs的表现。
  • Result: 模型在识别真实紧急情况时表现良好(70-100%成功率),但对安全场景误判率高达31-96%,且10种场景所有模型均失败。
  • Conclusion: 模型规模的增加无法解决其可靠性问题,需针对性改进对视觉误导场景的安全评估。

[60] RAZER: Robust Accelerated Zero-Shot 3D Open-Vocabulary Panoptic Reconstruction with Spatio-Temporal Aggregation

Naman Patel,Prashanth Krishnamurthy,Farshad Khorrami

Main category: cs.CV

TL;DR: 提出了一种零样本框架,结合GPU加速的几何重建与开放词汇视觉语言模型,实现实时3D语义地图构建与自然语言交互。

  • Motivation: 现有3D语义地图系统缺乏在线操作中构建开放词汇语义地图的灵活性,且视觉语言模型尚未解决3D空间理解的挑战。
  • Method: 通过在线实例级语义嵌入融合和分层对象关联,结合GPU加速几何重建与开放词汇视觉语言模型。
  • Result: 系统在零样本3D实例检索、分割和检测任务中表现优异,支持对未见物体的推理和自然语言查询解释。
  • Conclusion: 该框架为通用3D场景理解提供了高效、训练免费的解决方案,适用于多种任务。

[61] The P3 dataset: Pixels, Points and Polygons for Multimodal Building Vectorization

Raphael Sulzer,Liuyun Duan,Nicolas Girard,Florent Lafarge

Main category: cs.CV

TL;DR: P3数据集是一个多模态的大规模基准数据集,用于建筑物矢量化,结合了LiDAR点云、高分辨率航空影像和矢量化的2D建筑物轮廓,覆盖三大洲。

  • Motivation: 现有数据集主要关注图像模态,而P3通过引入密集的3D信息提供互补视角,旨在提升建筑物多边形预测的准确性和几何质量。
  • Method: 数据集包含超过100亿个LiDAR点和25厘米分辨率的RGB图像,展示了LiDAR点云在混合和端到端学习框架中预测建筑物多边形的有效性,并融合航空LiDAR和影像进一步提升结果。
  • Result: 实验表明,LiDAR点云是预测建筑物多边形的稳健模态,且多模态融合进一步提高了预测的准确性和几何质量。
  • Conclusion: P3数据集公开可用,并提供了三种先进模型的代码和预训练权重,为建筑物多边形预测研究提供了重要资源。

[62] EVA: Expressive Virtual Avatars from Multi-view Videos

Hendrik Junkawitsch,Guoxing Sun,Heming Zhu,Christian Theobalt,Marc Habermann

Main category: cs.CV

TL;DR: EVA框架通过双层模型(几何层与外观层)实现高保真、实时渲染的虚拟化身,独立控制面部表情、身体动作和手势。

  • Motivation: 现有方法无法完全独立控制面部表情与身体动作,限制了虚拟化身的表达性和逼真度。
  • Method: 采用双层模型:几何层通过优化算法恢复动作参数,外观层通过解耦的3D高斯模型分别建模身体和面部。
  • Result: EVA在渲染质量和表达性上优于现有方法,验证了其有效性。
  • Conclusion: EVA为可驱动的数字人体模型提供了重要进展,实现了逼真的几何与外观复制。

[63] Expanding Zero-Shot Object Counting with Rich Prompts

Huilin Zhu,Senyao Li,Jingling Yuan,Zhengwei Yang,Yu Guo,Wenxuan Liu,Xian Zhong,Shengfeng He

Main category: cs.CV

TL;DR: RichCount提出了一种两阶段训练框架,通过增强文本编码和图像特征对齐,提升零样本计数模型对新类别的泛化能力。

  • Motivation: 现有方法仅通过添加新提示无法实现文本与视觉特征的有效对齐,限制了零样本计数模型的性能。
  • Method: RichCount采用两阶段训练策略:1)通过前馈网络和适配器丰富文本特征;2)将优化后的编码器应用于计数任务。
  • Result: 在三个基准数据集上,RichCount实现了零样本计数的SOTA性能,显著提升了新类别的泛化能力。
  • Conclusion: RichCount通过特征对齐解决了零样本计数模型对新类别的适应问题,具有广泛的应用潜力。

[64] Visual Question Answering on Multiple Remote Sensing Image Modalities

Hichem Boussaid,Lucrezia Tosato,Flora Weissgerber,Camille Kurtz,Laurent Wendling,Sylvain Lobry

Main category: cs.CV

TL;DR: 论文提出了一种多模态多分辨率遥感视觉问答(VQA)任务,并引入新数据集TAMMI和模型MM-RSVQA,初步实验显示65.56%的准确率。

  • Motivation: 视觉特征提取是VQA的关键步骤,多模态图像(如RGB、多光谱和合成孔径雷达)能提供互补信息,提升遥感场景的理解能力。
  • Method: 提出TAMMI数据集和基于VisualBERT的MM-RSVQA模型,通过可训练融合过程结合多模态图像和文本。
  • Result: 初步实验在TAMMI数据集上达到65.56%的准确率,验证了方法的有效性。
  • Conclusion: 该研究为多模态多分辨率VQA任务开辟了新方向,适用于其他多模态成像领域(如医学影像)。

[65] Mouse Lockbox Dataset: Behavior Recognition for Mice Solving Lockboxes

Patrik Reiske,Marcus N. Boon,Niek Andresen,Sole Traverso,Katharina Hohlbaum,Lars Lewejohann,Christa Thöne-Reineke,Olaf Hellwich,Henning Sprekeler

Main category: cs.CV

TL;DR: 该论文提出了一个关于小鼠解决复杂机械谜题(锁盒)的视频数据集,用于改进行为分类方法。

  • Motivation: 现有数据集主要关注简单或社交行为,缺乏复杂行为的研究数据。
  • Method: 提供超过110小时的视频数据,包含三种视角,并标注了13%的数据作为基准。
  • Result: 展示了基于关键点跟踪的行为分类框架的挑战,特别是在精细行为(如物体操作)的自动标注上。
  • Conclusion: 该数据集有望加速计算神经科学中行为和动作分类的自动化研究。

[66] Efficient Data Driven Mixture-of-Expert Extraction from Trained Networks

Uranik Berisha,Jens Mehnert,Alexandru Paul Condurache

Main category: cs.CV

TL;DR: 论文提出了一种从预训练模型中构建MoE变体的方法,通过聚类激活模式提取专家子网络,显著降低了计算和模型大小,同时保持了高性能。

  • Motivation: 解决Vision Transformers高计算和资源需求的问题,利用预训练网络减少重新训练或从头训练的成本。
  • Method: 分两阶段从预训练模型的MLP层提取专家子网络:聚类输出激活模式,再提取对应的子网络。
  • Result: 在ImageNet-1k任务中,提取的专家子网络仅需少量微调即可恢复98%性能,同时减少36% MACs和32%模型大小。
  • Conclusion: 该方法有效降低了Vision Transformers的计算和资源需求,同时保持了高性能。

[67] On the Robustness of Medical Vision-Language Models: Are they Truly Generalizable?

Raza Imam,Rufael Marew,Mohammad Yaqub

Main category: cs.CV

TL;DR: 论文提出了MediMeta-C和MedMNIST-C基准测试,评估医学视觉语言模型(MVLMs)在噪声和失真条件下的鲁棒性,并提出RobustMedCLIP方法提升模型抗干扰能力。

  • Motivation: 现有医学视觉语言模型在干净数据集上表现优异,但在真实临床图像中的噪声和失真条件下性能未得到充分测试,亟需评估和改进。
  • Method: 引入MediMeta-C和MedMNIST-C基准测试,提出RobustMedCLIP方法,通过少量样本微调增强模型鲁棒性。
  • Result: 实验显示现有MVLMs在失真条件下性能显著下降,RobustMedCLIP通过低秩适应和少量样本微调提升了鲁棒性。
  • Conclusion: 研究强调了多样化训练和鲁棒适应策略的必要性,RobustMedCLIP在保持跨模态泛化能力的同时提升了鲁棒性。

[68] TimeCausality: Evaluating the Causal Ability in Time Dimension for Vision Language Models

Zeqing Wang,Shiyuan Zhang,Chengpei Tang,Keze Wang

Main category: cs.CV

TL;DR: 论文提出了一个名为TimeCausality的新基准,用于评估视觉语言模型(VLMs)在时间维度上的因果推理能力,发现现有模型在此任务上表现不佳。

  • Motivation: 人类视觉理解中时间因果推理(如物体状态变化)是一个重要但未被充分研究的领域,现有VLMs在此能力上存在不足。
  • Method: 设计了TimeCausality基准,用于测试VLMs在时间因果推理上的表现,并与开源和闭源模型进行比较。
  • Result: 当前开源VLMs在TimeCausality上表现显著落后于闭源模型(如GPT-4o),且GPT-4o在此任务上的表现也明显下降。
  • Conclusion: 研究强调了将时间因果推理纳入VLMs评估和开发的必要性,并指出开源VLM社区面临的挑战。

[69] Chain-of-Focus: Adaptive Visual Search and Zooming for Multimodal Reasoning via RL

Xintong Zhang,Zhi Gao,Bofei Zhang,Pengxiang Li,Xiaowen Zhang,Yang Liu,Tao Yuan,Yuwei Wu,Yunde Jia,Song-Chun Zhu,Qing Li

Main category: cs.CV

TL;DR: 本文提出了一种名为Chain-of-Focus (CoF)的方法,通过自适应聚焦和放大关键图像区域,提升视觉语言模型的多模态推理能力。采用两阶段训练流程(监督微调和强化学习),在多个基准测试中表现优异。

  • Motivation: 现有视觉语言模型的多模态推理能力尚未充分探索,需要一种方法来自适应地聚焦关键图像区域以提升推理效率。
  • Method: 提出CoF方法,通过两阶段训练(监督微调和强化学习)实现自适应聚焦。构建MM-CoF数据集用于微调,并通过强化学习进一步优化模型。
  • Result: 在V*基准测试中,模型在8种图像分辨率下表现优于现有视觉语言模型5%,验证了CoF方法的有效性。
  • Conclusion: CoF方法显著提升了视觉语言模型的多模态推理能力,并为其在实际应用中的高效部署提供了支持。

[70] Bridging Sign and Spoken Languages: Pseudo Gloss Generation for Sign Language Translation

Jianyuan Guo,Peike Li,Trevor Cohn

Main category: cs.CV

TL;DR: 提出了一种无需人工标注手语注释的伪注释生成框架,通过大语言模型和弱监督学习优化手语翻译任务。

  • Motivation: 传统方法依赖昂贵的人工标注注释,限制了可扩展性,因此需要一种无需注释的解决方案。
  • Method: 利用大语言模型生成伪注释,并通过弱监督学习优化对齐,采用三阶段训练流程缩小模态差距。
  • Result: 在两个手语翻译基准上优于现有无注释方法,并与基于注释的方法竞争。
  • Conclusion: 提出的框架有效解决了注释依赖问题,提升了手语翻译的可扩展性和性能。

[71] FRN: Fractal-Based Recursive Spectral Reconstruction Network

Ge Meng,Zhongnan Cai,Ruizhe Chen,Jingyan Tu,Yingying Wang,Yue Huang,Xinghao Ding

Main category: cs.CV

TL;DR: 提出了一种基于分形的递归光谱重建网络(FRN),通过渐进式方法从RGB图像生成高光谱图像,优于现有方法。

  • Motivation: 降低高光谱图像获取成本,现有方法一次性整合全光谱信息效果有限。
  • Method: 采用递归调用原子重建模块的渐进式方法,利用相邻波段信息预测下一波长,并结合波段感知状态空间模型。
  • Result: 在不同数据集上实验表明,FRN在定量和定性评估中均优于现有方法。
  • Conclusion: FRN通过渐进式重建和分形启发的方法,显著提升了光谱重建性能。

[72] Stronger ViTs With Octic Equivariance

David Nordström,Johan Edstedt,Fredrik Kahl,Georg Bökman

Main category: cs.CV

TL;DR: 论文提出了一种基于八度群等变性的ViT架构(octic ViTs),通过引入反射和90度旋转的等变性偏置,提升了计算效率和性能。

  • Motivation: 现有的ViT架构在图像块上共享权重作为归纳偏置,但作者认为进一步引入八度群(反射和90度旋转)的等变性偏置可以提升模型性能。
  • Method: 开发了octic ViTs,采用八度等变层,并在监督学习和自监督学习任务中测试其效果。实验基于DeiT-III和DINOv2在ImageNet-1K上的训练。
  • Result: octic ViTs显著降低了计算成本(ViT-H的FLOPs减少约40%),同时提升了分类和分割任务的性能。
  • Conclusion: 引入八度群等变性偏置的ViT架构在计算效率和性能上均有显著提升,为未来视觉模型设计提供了新方向。

[73] ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning

Ziqiang Xu,Qi Dai,Tian Xie,Yifan Yang,Kai Qiu,DongDong Chen,Zuxuan Wu,Chong Luo

Main category: cs.CV

TL;DR: ViaRL是一个基于规则强化学习的框架,用于优化视频理解中的帧选择,无需昂贵标注,性能优于现有方法。

  • Motivation: 现有视频理解方法依赖启发式或伪标注,成本高且扩展性差,ViaRL旨在解决这一问题。
  • Method: 采用规则强化学习,通过下游模型答案准确率作为奖励信号训练帧选择器,结合迭代放大策略优化。
  • Result: 在多个基准测试中表现优异,尤其在Needle QA上提升近15%。
  • Conclusion: ViaRL通过强化学习显著提升视频理解的帧选择效果,具有高效性和扩展性。

[74] Comprehensive Evaluation and Analysis for NSFW Concept Erasure in Text-to-Image Diffusion Models

Die Chen,Zhiwen Li,Cen Chen,Yuexiang Xie,Xiaodan Li,Jinyan Ye,Yingda Chen,Yaliang Li

Main category: cs.CV

TL;DR: 本文介绍了一个针对文本到图像扩散模型中NSFW内容的全流程工具包,并首次系统研究了概念擦除方法的有效性。

  • Motivation: 扩散模型的强大泛化能力可能导致生成不安全内容,现有概念擦除方法缺乏全面评估。
  • Method: 开发了一个全流程工具包,系统研究NSFW概念擦除方法,结合机制与实证观察。
  • Result: 提供了概念擦除方法在不同场景下的深入见解和实用指导。
  • Conclusion: 为扩散模型内容安全的理解和未来研究奠定了基础。

[75] Pura: An Efficient Privacy-Preserving Solution for Face Recognition

Guotao Xu,Bowen Zhao,Yang Xiao,Yantao Zhong,Liang Zhai,Qingqi Pei

Main category: cs.CV

TL;DR: Pura是一种高效的隐私保护人脸识别方案,通过阈值Paillier密码系统和安全计算协议,实现了加密数据上的快速识别,速度提升16倍。

  • Motivation: 人脸识别技术存在隐私泄露风险,现有隐私保护方案效率不足且未能完全解决隐私问题。
  • Method: 采用阈值Paillier密码系统和非交互式架构,设计安全计算协议,并引入并行计算机制。
  • Result: Pura在保护隐私的同时,识别速度比现有技术快16倍。
  • Conclusion: Pura是一种高效且隐私安全的解决方案,适用于加密数据上的人脸识别。

[76] Seeing Through Deception: Uncovering Misleading Creator Intent in Multimodal News with Vision-Language Models

Jiaying Wu,Fanxiao Li,Min-Yen Kan,Bryan Hooi

Main category: cs.CV

TL;DR: 论文提出了一种自动化框架,模拟多模态新闻创作中的创作者意图,构建了大规模数据集DeceptionDecoded,并评估了14种先进视觉语言模型在意图相关任务上的表现。

  • Motivation: 理解创作者的误导意图对多模态虚假信息检测(MMD)系统至关重要,以支持有效的信息治理。
  • Method: 通过建模创作者意图(期望影响和执行计划),构建了包含12,000个图像-标题对的数据集,并评估了14种视觉语言模型在三个意图相关任务上的表现。
  • Result: 当前模型在识别误导意图上表现不足,常依赖表面线索如跨模态一致性或风格信号。
  • Conclusion: 研究强调了意图感知建模在MMD中的重要性,为开发能深入推理多模态虚假信息的系统开辟了新方向。

[77] Spectral-Aware Global Fusion for RGB-Thermal Semantic Segmentation

Ce Zhang,Zifu Wan,Simon Stepputtis,Katia Sycara,Yaqi Xie

Main category: cs.CV

TL;DR: 论文提出了一种基于频谱视角的多模态特征融合方法SGFNet,通过区分低频和高频特征,显著提升了RGB与热辐射数据的语义分割性能。

  • Motivation: RGB数据在低光照和遮挡等复杂条件下表现不佳,而结合热辐射数据可以提升性能,但如何有效融合多模态特征仍是一个挑战。
  • Method: 提出SGFNet,从频谱视角将多模态特征分为低频(场景上下文)和高频(模态细节),并显式建模高频特征的交互。
  • Result: 在MFNet和PST900数据集上,SGFNet优于现有方法。
  • Conclusion: 频谱视角的特征融合方法有效提升了多模态语义分割的性能。

[78] Beyond Linearity: Squeeze-and-Recalibrate Blocks for Few-Shot Whole Slide Image Classification

Conghao Xiong,Zhengrui Guo,Zhe Xu,Yifei Zhang,Raymond Kai-Yu Tong,Si Yong Yeo,Hao Chen,Joseph J. Y. Sung,Irwin King

Main category: cs.CV

TL;DR: 提出了一种Squeeze-and-Recalibrate (SR)块,作为MIL模型中线性层的替代,解决少样本学习中的过拟合和特征误判问题,同时降低计算成本。

  • Motivation: 计算病理学中专家标注稀缺,现有少样本学习方法存在过拟合和特征误判问题,且当前基于预训练视觉语言模型的MIL方法计算成本高。
  • Method: SR块包含低秩可训练矩阵(压缩路径)和冻结随机重校准矩阵,减少参数并保持几何结构。
  • Result: SR-MIL模型在实验中表现优于现有方法,参数更少且无需架构改动。
  • Conclusion: SR块为MIL模型提供了一种高效且性能优越的替代方案。

[79] Prompt Tuning Vision Language Models with Margin Regularizer for Few-Shot Learning under Distribution Shifts

Debarshi Brahma,Anuska Roy,Soma Biswas

Main category: cs.CV

TL;DR: 论文提出了一种名为PromptMargin的新方法,用于在少量标注数据的情况下微调视觉-语言基础模型,以提升其在目标数据集上的性能。

  • Motivation: 研究视觉-语言基础模型(如CLIP和ALIGN)在目标数据集分布和类别与预训练数据差异较大时,是否可以通过少量标注数据进行有效微调。
  • Method: 提出PromptMargin方法,通过选择性增强策略和新型多模态边界正则化器,优化文本和视觉提示。
  • Result: 在15个目标基准数据集上的实验表明,该方法优于现有技术。
  • Conclusion: PromptMargin能有效提升视觉-语言基础模型在少量标注数据下的性能。

[80] Visual Thoughts: A Unified Perspective of Understanding Multimodal Chain-of-Thought

Zihui Cheng,Qiguang Chen,Xiao Xu,Jiaqi Wang,Weiyun Wang,Hao Fei,Yidong Wang,Alex Jinpeng Wang,Zhi Chen,Wanxiang Che,Libo Qin

Main category: cs.CV

TL;DR: 论文探讨了多模态思维链(MCoT)如何通过视觉思维提升大型视觉语言模型(LVLMs)的性能和可解释性,并分析了四种视觉思维表达形式的效果。

  • Motivation: 尽管MCoT方法在提升LVLMs性能方面取得了进展,但其背后的机制尚未完全理解,因此需要深入研究视觉思维的作用。
  • Method: 研究揭示了MCoT通过视觉思维传递图像信息,定义了四种视觉思维表达形式,并分析了其清晰度和简洁性对MCoT效果的影响。
  • Result: 发现不同形式的视觉思维在清晰度和简洁性上存在差异,从而对MCoT的提升效果不同;视觉思维作为图像与推理之间的中介,促进了更深层次的视觉信息传递。
  • Conclusion: 视觉思维的深入研究为未来MCoT研究提供了新的方向,有望推动进一步突破。

[81] Detection of Underwater Multi-Targets Based on Self-Supervised Learning and Deformable Path Aggregation Feature Pyramid Network

Chang Liu

Main category: cs.CV

TL;DR: 本文提出了一种用于水下目标检测的高效算法,通过自监督学习和改进的卷积方法提升检测精度。

  • Motivation: 水下环境限制(如低对比度、目标遮挡和密集分布)导致目标检测精度低,需改进模型以提升性能。
  • Method: 采用基于SimSiam的自监督学习预训练网络,并引入可变形卷积和扩张卷积以增加感受野,同时使用EIoU损失函数优化预测框。
  • Result: 实验表明,所提检测器显著提高了水下目标检测的精度。
  • Conclusion: 通过自监督学习和改进的卷积方法,有效解决了水下目标检测的挑战,提升了模型性能。

[82] PlantDreamer: Achieving Realistic 3D Plant Models with Diffusion-Guided Gaussian Splatting

Zane K J Hartley,Lewis A G Stuart,Andrew P French,Michael P Pound

Main category: cs.CV

TL;DR: PlantDreamer是一种新的3D合成植物生成方法,通过结合深度ControlNet、微调的低秩适应和高斯剔除算法,显著提升了植物模型的真实感和几何完整性。

  • Motivation: 当前生成3D植物的模型在复杂植物生成上表现不佳,限制了植物分析工具的应用。PlantDreamer旨在解决这一问题。
  • Method: 采用深度ControlNet、低秩适应和高斯剔除算法,支持纯合成生成和真实点云增强。
  • Result: PlantDreamer在生成高保真植物模型上优于现有方法,并能提升旧点云数据集。
  • Conclusion: PlantDreamer不仅推动了合成植物生成技术,还为3D表型分析提供了实用工具。

[83] Clapper: Compact Learning and Video Representation in VLMs

Lingyu Kong,Hongzhi Zhang,Jingyuan Zhang,Jianzhao Huang,Kunze Li,Qi Wang,Fuzheng Zhang

Main category: cs.CV

TL;DR: 论文提出Clapper方法,通过慢快策略和TimePerceiver模块优化视频语言模型的长视频理解能力,实现高效压缩视觉标记。

  • Motivation: 现有视频语言模型在长视频理解任务中性能下降严重,需平衡短视频细节保留与长视频信息压缩。
  • Method: 采用慢快策略表示视频,引入TimePerceiver模块进行时空编码,压缩视觉标记。
  • Result: 实现每帧13倍视觉标记压缩(平均61标记/帧),在多个数据集上性能显著提升。
  • Conclusion: Clapper方法有效解决了长视频理解中的性能问题,代码将公开。

[84] Convolutional Long Short-Term Memory Neural Networks Based Numerical Simulation of Flow Field

Chang Liu

Main category: cs.CV

TL;DR: 论文提出了一种改进的ConvLSTM神经网络,结合残差网络和注意力机制,用于流场预测,相比标准ConvLSTM模型,能提取更多时空特征且参数更少、训练更快。

  • Motivation: 传统CFD方法依赖数学模型和数值方法,收敛性和准确性受限,深度学习为流场分析提供了新思路。
  • Method: 结合动态网格技术和UDF进行数值模拟,构建流场数据集;改进ConvLSTM模型,引入残差网络和注意力机制。
  • Result: 改进的ConvLSTM模型在提取时空特征方面表现更优,参数更少,训练时间更短。
  • Conclusion: 改进的ConvLSTM模型为流场预测提供了高效且准确的解决方案。

[85] seg_3D_by_PC2D: Multi-View Projection for Domain Generalization and Adaptation in 3D Semantic Segmentation

Andrew Caunes,Thierry Chateau,Vincent Fremont

Main category: cs.CV

TL;DR: 提出一种多视角投影框架,用于3D语义分割的领域泛化和无监督领域适应,通过生成合成2D数据集训练2D模型,并在推理时通过投票方案生成3D标签。

  • Motivation: 解决3D语义分割模型在不同数据集间的领域偏移问题。
  • Method: 将Lidar扫描对齐为3D场景并渲染多视角2D数据,训练2D分割模型,推理时通过遮挡感知投票方案生成3D标签。
  • Result: 在nuScenes和SemanticKITTI数据集上,UDA达到SOTA,DG接近SOTA,尤其在大静态类别上表现突出。
  • Conclusion: 该框架模块化且高效,代码和工具将开源。

[86] TinyDrive: Multiscale Visual Question Answering with Selective Token Routing for Autonomous Driving

Hossein Hassani,Soodeh Nikan,Abdallah Shami

Main category: cs.CV

TL;DR: TinyDrive是一种轻量级视觉语言模型,用于自动驾驶中的多视角视觉问答,通过多尺度视觉编码器和双级优先级机制实现高效性能。

  • Motivation: 解决自动驾驶中视觉问答模型因计算资源需求高而难以部署的问题。
  • Method: 采用多尺度视觉编码器和双级优先级机制(令牌路由和序列评分)。
  • Result: 在自定义VQA数据集和公开DriveLM基准测试中表现优异,BLEU-4和METEOR分数分别提升11.1%和35.4%。
  • Conclusion: TinyDrive在资源受限环境下实现了高效的多视角视觉问答性能。

[87] Visual Perturbation and Adaptive Hard Negative Contrastive Learning for Compositional Reasoning in Vision-Language Models

Xin Huang,Ruibin Li,Tong Jia,Wei Zheng,Ya Wang

Main category: cs.CV

TL;DR: 论文提出了一种自适应硬负样本扰动学习(AHNPL)方法,通过生成视觉域中的负样本和改进对比学习策略,提升视觉语言模型在组合推理任务中的性能。

  • Motivation: 现有方法主要依赖文本负样本,忽略了视觉负样本的重要性,且未考虑样本难度差异,导致模型性能受限。
  • Method: AHNPL将文本负样本转化为视觉负样本,并引入多模态硬负样本损失和动态边缘损失,优化模型训练。
  • Result: 在三个公开数据集上的实验表明,AHNPL显著提升了模型在复杂组合推理任务中的表现。
  • Conclusion: AHNPL通过改进负样本生成和对比学习策略,有效提升了视觉语言模型的性能。

[88] UWSAM: Segment Anything Model Guided Underwater Instance Segmentation and A Large-scale Benchmark Dataset

Hua Li,Shijie Lian,Zhiyuan Li,Runmin Cong,Sam Kwong

Main category: cs.CV

TL;DR: 论文提出了一种针对水下实例分割的高效模型UWSAM,通过知识蒸馏和自动提示生成技术,显著提升了性能。

  • Motivation: 由于SAM及其变体在水下领域缺乏专业知识且计算需求高,导致性能受限,因此需要一种专门的水下实例分割解决方案。
  • Method: 构建了UIIS10K数据集,并设计了UWSAM模型,采用Mask GAT-based知识蒸馏方法和端到端水下提示生成器(EUPG)。
  • Result: 实验表明,UWSAM在多个水下实例数据集上显著优于现有方法。
  • Conclusion: UWSAM为水下实例分割提供了一种高效且准确的解决方案,数据集和代码已开源。

[89] VP Lab: a PEFT-Enabled Visual Prompting Laboratory for Semantic Segmentation

Niccolo Avogaro,Thomas Frick,Yagmur G. Cinar,Daniel Caraballo,Cezary Skura,Filip M. Janicki,Piotr Kluska,Brown Ebouky,Nicola Farronato,Florian Scheidegger,Cristiano Malossi,Konrad Schindler,Andrea Bartezzaghi,Roy Assaf,Mattia Rigotti

Main category: cs.CV

TL;DR: VP Lab框架通过E-PEFT技术提升视觉提示的鲁棒性,显著提高语义分割性能。

  • Motivation: 解决大规模预训练视觉模型在专业领域表现不佳的问题。
  • Method: 提出VP Lab框架和E-PEFT技术,结合参数高效微调和视觉提示。
  • Result: 在多个技术数据集上实现50%的mIoU提升,仅需5张验证图像。
  • Conclusion: VP Lab为快速、高效、交互式模型部署提供了新范式。

[90] LENS: Multi-level Evaluation of Multimodal Reasoning with Large Language Models

Ruilin Yao,Bo Zhang,Jirui Huang,Xinwei Long,Yifang Zhang,Tianyu Zou,Yufei Wu,Shichao Su,Yifan Xu,Wenxi Zeng,Zhaoyu Yang,Guoyou Li,Shilan Zhang,Zichan Li,Yaxiong Chen,Shengwu Xiong,Peng Xu,Jiajun Zhang,Bowen Zhou,David Clifton,Luc Van Gool

Main category: cs.CV

TL;DR: 论文提出了Lens,一个多层级基准测试,用于评估多模态大语言模型(MLLMs)从感知到推理的能力,包含3.4K图像和60K+问题,覆盖8任务和12场景。

  • Motivation: 现有基准测试未能充分评估MLLMs在复杂现实场景中的协同推理能力,且任务样本分布不一致。
  • Method: 构建Lens基准测试,包含多任务层级(感知、理解、推理),每张图像配备丰富标注,支持图像不变提示的评估。
  • Result: 测试了15+前沿MLLMs,推理任务准确率均未超过60%。
  • Conclusion: Lens基准测试填补了现有评估的不足,揭示了MLLMs在复杂推理任务中的局限性。

[91] SNAP: A Benchmark for Testing the Effects of Capture Conditions on Fundamental Vision Tasks

Iuliia Kotseruba,John K. Tsotsos

Main category: cs.CV

TL;DR: 论文研究了图像捕捉条件(如相机参数和光照)对深度学习模型在图像分类、目标检测和视觉问答任务中性能的影响,并提出了新的基准数据集SNAP。

  • Motivation: 现有研究多关注已捕获图像,而忽略了图像形成管道和环境的影响,本文旨在填补这一空白。
  • Method: 通过分析常见视觉数据集中的捕捉偏差,创建SNAP数据集,并在控制光照和相机设置下评估多个DL模型。
  • Result: 发现视觉数据集存在显著偏差,模型在良好曝光图像上也无法达到人类准确率,且对相机设置变化敏感。
  • Conclusion: 捕捉条件对模型性能有重要影响,需进一步研究以减少偏差。

[92] Oral Imaging for Malocclusion Issues Assessments: OMNI Dataset, Deep Learning Baselines and Benchmarking

Pujun Xue,Junyi Ge,Xiaotong Jiang,Siyang Song,Zijian Wu,Yupeng Huo,Weicheng Xie,Linlin Shen,Xiaoqin Zhou,Xiaofeng Liu,Min Gu

Main category: cs.CV

TL;DR: 该论文提出了一个名为OMNI的新型牙科图像数据集,用于推动错颌畸形问题的自动诊断研究。

  • Motivation: 当前牙科图像分析领域缺乏大规模、准确标注的错颌畸形数据集,限制了自动诊断的发展。
  • Method: 构建了包含4166张多视角图像的OMNI数据集,并由专业牙医标注,同时验证了多种深度学习方法。
  • Result: 实验表明OMNI数据集能有效促进错颌畸形的自动诊断研究。
  • Conclusion: OMNI数据集为错颌畸形研究提供了新基准,并公开了数据和代码。

[93] FragFake: A Dataset for Fine-Grained Detection of Edited Images with Vision Language Models

Zhen Sun,Ziyi Zhang,Zeren Luo,Zeyang Sha,Tianshuo Cong,Zheng Li,Shiwen Cui,Weiqiang Wang,Jiaheng Wei,Xinlei He,Qi Li,Qian Wang

Main category: cs.CV

TL;DR: 提出FragFake数据集和基于视觉语言模型的编辑图像检测方法,解决局部编辑检测的三大挑战。

  • Motivation: 现代图像编辑技术难以检测局部编辑,现有方法缺乏定位能力、依赖昂贵标注且缺乏高质量数据集。
  • Method: 开发自动化数据生成管道创建FragFake数据集,并首次利用视觉语言模型进行编辑分类和区域定位。
  • Result: 实验显示微调后的视觉语言模型在目标精度上显著优于预训练模型。
  • Conclusion: 首次将局部编辑检测重构为视觉语言理解任务,为多模态内容真实性研究奠定基础。

[94] The Devil is in Fine-tuning and Long-tailed Problems:A New Benchmark for Scene Text Detection

Tianjiao Cao,Jiahao Lyu,Weichao Zeng,Weimin Mu,Yu Zhou

Main category: cs.CV

TL;DR: 论文指出场景文本检测在学术基准上表现优异,但在实际应用中效果不佳,原因包括微调差距和长尾分布问题。作者提出联合数据集学习协议和长尾基准(LTB),并引入MAEDet作为基线方法。

  • Motivation: 解决场景文本检测在学术基准与实际应用中的性能差距问题。
  • Method: 提出联合数据集学习(JDL)协议缓解微调差距,并构建长尾基准(LTB)评估模型能力,同时引入MAEDet作为基线方法。
  • Result: 通过实验验证了微调差距和长尾分布问题的影响,并展示了LTB和MAEDet的有效性。
  • Conclusion: 论文为场景文本检测的实际应用提供了新的评估基准和方法,强调了泛化能力的重要性。

[95] Enhancing Monte Carlo Dropout Performance for Uncertainty Quantification

Hamzeh Asgharnezhad,Afshar Shamsi,Roohallah Alizadehsani,Arash Mohammadi,Hamid Alinejad-Rokny

Main category: cs.CV

TL;DR: 论文提出了一种改进的蒙特卡洛Dropout方法,通过集成优化算法和不确定性感知损失函数,提升了不确定性量化的可靠性。

  • Motivation: 在医疗诊断和自动驾驶等高风险领域,深度神经网络输出的不确定性量化至关重要。传统MCD方法在校准不确定性估计方面存在不足。
  • Method: 结合灰狼优化器、贝叶斯优化和粒子群优化算法,以及不确定性感知损失函数,改进了MCD方法。
  • Result: 在多个数据集和骨干网络上,新方法比基线MCD在准确性和不确定性准确性上平均提升2-3%,且校准效果显著更好。
  • Conclusion: 该方法能显著提升深度学习模型在安全关键应用中的可信度。

[96] Discovering Pathology Rationale and Token Allocation for Efficient Multimodal Pathology Reasoning

Zhe Xu,Cheng Jin,Yihui Wang,Ziyi Liu,Hao Chen

Main category: cs.CV

TL;DR: 提出了一种新的双边强化学习框架,通过增强推理能力和优化计算效率,显著提升了多模态病理图像理解的性能。

  • Motivation: 现有方法在复杂诊断场景中推理能力有限,且病理图像尺寸大导致计算负担重,限制了实际应用。
  • Method: 采用双边强化学习框架,一个分支增强推理能力,另一个分支动态分配计算资源。
  • Result: 实验显示性能平均提升41.7%,推理成本降低70.3%。
  • Conclusion: 该方法在推理准确性和计算效率上均取得显著改进。

[97] HAMF: A Hybrid Attention-Mamba Framework for Joint Scene Context Understanding and Future Motion Representation Learning

Xiaodong Mei,Sheng Wang,Jie Cheng,Yingbing Chen,Dan Xu

Main category: cs.CV

TL;DR: HAMF是一种新型运动预测框架,通过联合学习场景上下文编码和未来运动表示,解决了现有方法在场景特征编码中的信息退化问题。

  • Motivation: 现有方法在预测未来运动状态时,由于场景特征编码中的信息退化问题,导致预测准确性受限。
  • Method: HAMF将观察到的代理状态和地图信息嵌入1D标记序列,并设计了一个统一的基于注意力的编码器,结合自注意力和交叉注意力机制,联合建模场景上下文和未来运动特征。解码阶段使用Mamba模块保持运动表示的一致性。
  • Result: 在Argoverse 2基准测试中,HAMF实现了最先进的运动预测性能,且架构简单轻量。
  • Conclusion: HAMF通过联合学习场景上下文和未来运动表示,显著提升了运动预测的准确性和多样性。

[98] RUSplatting: Robust 3D Gaussian Splatting for Sparse-View Underwater Scene Reconstruction

Zhuodong Jiang,Haoran Wang,Guoxi Huang,Brett Seymour,Nantheera Anantrasirichai

Main category: cs.CV

TL;DR: 提出了一种基于高斯泼溅的框架,通过解耦学习和帧插值策略,提升水下场景重建的视觉质量和几何精度。

  • Motivation: 水下场景重建因光线吸收、散射和能见度低而具有挑战性,需要更高质量的渲染方法。
  • Method: 采用解耦学习RGB通道、帧插值策略和新的损失函数,以减少噪声并保持边缘。
  • Result: 实验显示PSNR提升达1.90dB,视觉质量和鲁棒性优于现有方法。
  • Conclusion: 该框架为水下视觉分析和海洋机器人提供了有前景的方向。

[99] Exploring The Visual Feature Space for Multimodal Neural Decoding

Weihao Xia,Cengiz Oztireli

Main category: cs.CV

TL;DR: 论文提出了一种零样本多模态脑信号解码方法,通过多粒度细节理解基准(MG-BrainDub)提升神经解码的精确性。

  • Motivation: 现有研究对脑信号的解释较为粗糙,缺乏对物体描述、位置、属性及其关系的细节,导致视觉解码不精确。
  • Method: 分析预训练视觉组件的特征空间选择,引入零样本多模态脑解码方法,并与多模态大语言模型(MLLMs)交互。
  • Result: 提出的方法提高了神经解码的精确性,支持更准确的神经解码应用。
  • Conclusion: 通过MG-BrainDub基准验证了方法的有效性,代码将开源。

[100] Constructing a 3D Town from a Single Image

Kaizhi Zheng,Ruijian Zhang,Jing Gu,Jie Yang,Xin Eric Wang

Main category: cs.CV

TL;DR: 3DTown是一种无需训练的框架,通过单张俯视图生成高质量3D场景,解决了现有方法在几何一致性和布局真实性上的不足。

  • Motivation: 传统3D场景获取方法成本高且耗时,而现有生成模型在扩展到全场景时存在几何不一致和低质量网格问题。
  • Method: 基于区域生成和空间感知3D修复,分解输入图像为重叠区域,利用预训练3D生成器生成各部分,再通过掩码修正流修复缺失几何。
  • Result: 在多样场景实验中,3DTown在几何质量、空间一致性和纹理保真度上优于现有方法。
  • Conclusion: 3DTown证明通过无训练方法可从单张图像生成高质量3D场景。

[101] IA-T2I: Internet-Augmented Text-to-Image Generation

Chuanhao Li,Jianwen Sun,Yukang Feng,Mingliang Zhai,Yifan Chang,Kaipeng Zhang

Main category: cs.CV

TL;DR: 提出了一种基于互联网增强的文本到图像生成框架(IA-T2I),通过提供参考图像解决模型对不确定知识的生成问题。

  • Motivation: 当前文本到图像(T2I)生成模型在文本提示隐含知识不确定时表现不佳,例如无法生成未来事件的图像。
  • Method: 设计了主动检索模块、分层图像选择模块和自反思机制,以增强T2I模型的生成能力。
  • Result: 在Img-Ref-T2I数据集上实验,框架性能优于GPT-4o约30%。
  • Conclusion: IA-T2I框架有效解决了T2I模型对不确定知识的生成问题,显著提升了生成质量。

[102] VARD: Efficient and Dense Fine-Tuning for Diffusion Models with Value-based RL

Fengyuan Dai,Zifeng Zhuang,Yufei Huang,Siteng Huang,Bangyan Liao,Donglin Wang,Fajie Yuan

Main category: cs.CV

TL;DR: VARD提出了一种基于价值函数的强化学习方法,用于优化扩散模型的生成过程,解决了稀疏奖励和不可微奖励的问题。

  • Motivation: 预训练扩散模型在特定属性上的优化存在挑战,现有强化学习方法无法同时实现稳定、高效的微调和支持不可微奖励。
  • Method: VARD通过学习预测奖励期望的价值函数,并结合KL正则化,为生成过程提供密集监督。
  • Result: 实验表明,VARD能有效指导轨迹、提升训练效率,并扩展了强化学习在复杂不可微奖励优化中的应用。
  • Conclusion: VARD为扩散模型提供了稳定、高效的优化方法,支持复杂非可微奖励函数。

[103] Interspatial Attention for Efficient 4D Human Video Generation

Ruizhi Shao,Yinghao Xu,Yujun Shen,Ceyuan Yang,Yang Zheng,Changan Chen,Yebin Liu,Gordon Wetzstein

Main category: cs.CV

TL;DR: 提出了一种新的交叉注意力机制(ISA),用于基于扩散变换器(DiT)的视频生成模型,显著提升了数字人类视频的生成质量和一致性。

  • Motivation: 现有方法在生成数字人类视频时存在质量低、一致性和身份保持不足的问题,需要一种更高效可控的解决方案。
  • Method: 引入ISA机制,结合定制开发的视频变分自编码器,在大规模视频数据上训练潜在扩散模型。
  • Result: 模型在4D人类视频合成中达到SOTA,表现出卓越的运动一致性和身份保持能力,同时支持精确的相机和身体姿态控制。
  • Conclusion: ISA机制为数字人类视频生成提供了高效可控的新方法,代码和模型已开源。

[104] STAR-R1: Spacial TrAnsformation Reasoning by Reinforcing Multimodal LLMs

Zongzhao Li,Zongyang Ma,Mingze Li,Songyou Li,Yu Rong,Tingyang Xu,Ziqi Zhang,Deli Zhao,Wenbing Huang

Main category: cs.CV

TL;DR: STAR-R1框架通过单阶段强化学习和细粒度奖励机制,显著提升了多模态大语言模型在空间推理任务中的表现。

  • Motivation: 多模态大语言模型在空间推理任务中表现不如人类,研究旨在缩小这一差距。
  • Method: 提出STAR-R1框架,结合单阶段强化学习和细粒度奖励机制,优化探索和推理效率。
  • Result: STAR-R1在11项指标上达到最优,跨视图场景下性能提升23%。
  • Conclusion: STAR-R1为多模态大语言模型和推理模型的研究提供了重要启示。

[105] MMaDA: Multimodal Large Diffusion Language Models

Ling Yang,Ye Tian,Bowen Li,Xinchen Zhang,Ke Shen,Yunhai Tong,Mengdi Wang

Main category: cs.CV

TL;DR: MMaDA是一种新型多模态扩散基础模型,通过统一架构、混合长链思维微调和UniGRPO算法,在文本推理、多模态理解和文本到图像生成中表现优异。

  • Motivation: 解决多模态任务中不同数据类型的无缝集成和复杂任务处理问题。
  • Method: 采用统一扩散架构、混合长链思维微调策略和UniGRPO强化学习算法。
  • Result: MMaDA-8B在文本推理、多模态理解和文本到图像生成中超越多个强大模型。
  • Conclusion: MMaDA为统一扩散架构提供了全面的框架,未来研究潜力巨大。

[106] Leveraging the Powerful Attention of a Pre-trained Diffusion Model for Exemplar-based Image Colorization

Satoshi Kosugi

Main category: cs.CV

TL;DR: 提出了一种基于预训练扩散模型的图像着色方法,通过双重注意力引导颜色转移和无分类器着色指导,实现了高质量的图像着色效果。

  • Motivation: 解决基于示例的图像着色中语义匹配不准确的问题,利用预训练扩散模型的强大注意力能力。
  • Method: 利用预训练扩散模型的自注意力模块计算输入与参考图像的注意力图,通过双重注意力实现语义对齐,并结合无分类器着色指导提升颜色转移质量。
  • Result: 在335对输入-参考图像上测试,FID为95.27(图像质量),SI-FID为5.51(参考保真度),优于现有方法。
  • Conclusion: 该方法无需微调,通过双重注意力和无分类器指导显著提升了图像着色的质量和保真度。

[107] A Taxonomy of Structure from Motion Methods

Federica Arrigoni

Main category: cs.CV

TL;DR: 本文是对结构从运动(SfM)方法的分类综述,提出了一种新的分类视角,并探讨了开放问题和未来研究方向。

  • Motivation: SfM问题在理论和实践中均受到广泛关注,但缺乏系统的分类视角。本文旨在填补这一空白,提供新的分类方法并分析其理论条件。
  • Method: 将SfM方法分为三类,根据其关注的是运动、结构还是两者。重点分析了不同问题表述下的理论条件。
  • Result: 提出了一种新的SfM分类视角,并明确了不同问题表述下的理论条件。
  • Conclusion: 本文为SfM研究提供了新的分类框架,并指出了开放问题和未来研究方向,特别是在理论条件方面的探索。

[108] Streamline Without Sacrifice -- Squeeze out Computation Redundancy in LMM

Penghao Wu,Lewei Lu,Ziwei Liu

Main category: cs.CV

TL;DR: 论文提出ProxyV方法,通过代理视觉令牌减少计算冗余,提升效率且不损失性能。

  • Motivation: 大型多模态模型在视觉令牌上存在计算冗余,现有方法仅关注令牌级冗余,而本文研究计算级冗余。
  • Method: 设计实验发现视觉令牌计算冗余,提出ProxyV方法,用代理令牌减轻计算负担。
  • Result: ProxyV提升效率且不损失性能,甚至在某些情况下带来性能提升。
  • Conclusion: ProxyV灵活高效,可与令牌缩减方法结合进一步提升效率。

[109] InstructSAM: A Training-Free Framework for Instruction-Oriented Remote Sensing Object Recognition

Yijie Zheng,Weijie Wu,Qingyun Li,Xuehui Wang,Xu Zhou,Aiai Ren,Jun Shen,Long Zhao,Guoqing Li,Xue Yang

Main category: cs.CV

TL;DR: 论文提出InstructCDS任务套件和EarthInstruct基准,用于遥感图像中的语言引导对象识别,并开发了无需训练的框架InstructSAM,显著提升了效率和性能。

  • Motivation: 现有方法依赖显式类别提示,难以处理复杂或隐式查询,需解决这一问题以支持更灵活的对象识别。
  • Method: 提出InstructCDS任务和EarthInstruct基准;开发InstructSAM框架,结合视觉语言模型和SAM2,通过二进制整数编程分配掩码标签。
  • Result: InstructSAM在多项任务中表现优于基线方法,推理时间稳定,输出标记减少89%,运行时间降低32%。
  • Conclusion: 提出的任务、基准和框架为开发多功能对象识别系统提供了重要基础。

cs.RO

[110] UPTor: Unified 3D Human Pose Dynamics and Trajectory Prediction for Human-Robot Interaction

Nisarga Nilavadi,Andrey Rudenko,Timm Linder

Main category: cs.RO

TL;DR: 提出了一种统一的方法,基于短序列输入预测人体关键点和运动轨迹的动态变化。

  • Motivation: 现有研究多集中于全身姿态预测或运动轨迹预测,少有尝试将两者结合。
  • Method: 采用运动变换技术,在全局坐标系中同时预测全身姿态和轨迹关键点,结合3D人体姿态估计模块、图注意力网络和非自回归Transformer。
  • Result: 在Human3.6M、CMU-Mocap和DARKO数据集上表现优异,模型紧凑、实时且准确。
  • Conclusion: 该方法适用于人机交互和人类感知导航,数据集和代码将公开。

[111] AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving

Kangan Qian,Sicong Jiang,Yang Zhong,Ziang Luo,Zilin Huang,Tianze Zhu,Kun Jiang,Mengmeng Yang,Zheng Fu,Jinyu Miao,Yining Shi,He Zhe Lim,Li Liu,Tianbao Zhou,Hongyi Wang,Huang Yu,Yifei Hu,Guang Li,Guang Chen,Hao Ye,Lijun Sun,Diange Yang

Main category: cs.RO

TL;DR: AgentThink是一个统一框架,结合了链式思维推理和动态工具调用,显著提升了自动驾驶任务的推理能力和准确性。

  • Motivation: 现有的视觉语言模型在自动驾驶中存在幻觉、低效推理和缺乏实际验证的问题,需要更可靠的解决方案。
  • Method: 通过结构化数据生成、两阶段训练流程(SFT与GRPO)和代理式工具使用评估,提升模型的工具调用能力。
  • Result: 在DriveLMM-o1基准测试中,推理分数提升53.91%,答案准确性提高33.54%,且表现出强大的泛化能力。
  • Conclusion: AgentThink为开发可信赖且工具感知的自动驾驶模型提供了有前景的方向。

[112] Exploring the Limits of Vision-Language-Action Manipulations in Cross-task Generalization

Jiaming Zhou,Ke Ye,Jiayi Liu,Teli Ma,Zifang Wang,Ronghe Qiu,Kun-Yu Lin,Zhilin Zhao,Junwei Liang

Main category: cs.RO

TL;DR: 论文提出了AGNOSTOS基准和X-ICM方法,用于评估和改进视觉-语言-动作模型在未见任务上的泛化能力。

  • Motivation: 现有视觉-语言-动作模型在跨任务零样本泛化能力方面研究不足,需要新的评估和改进方法。
  • Method: 提出AGNOSTOS基准测试23个未见任务,并设计X-ICM方法,利用大语言模型和动态引导样本选择策略。
  • Result: X-ICM显著提升了跨任务零样本泛化性能,优于现有模型。
  • Conclusion: AGNOSTOS和X-ICM为通用机器人操作研究提供了有价值的工具。

cs.SD

[113] AsynFusion: Towards Asynchronous Latent Consistency Models for Decoupled Whole-Body Audio-Driven Avatars

Tianbao Zhang,Jian Zhao,Yuer Li,Zheng Zhu,Ping Hu,Zhaoxin Fan,Wenjun Wu,Xuelong Li

Main category: cs.SD

TL;DR: AsynFusion是一种基于扩散变换器的框架,用于生成协调的面部表情和手势动画,解决了现有方法中缺乏同步的问题。

  • Motivation: 全身音频驱动的虚拟人姿态和表情生成在虚拟现实等领域有广泛应用,但现有方法因缺乏面部与手势的协调而显得不自然。
  • Method: 采用双分支DiT架构,通过协作同步模块和异步LCM采样策略,实现并行生成面部表情和手势。
  • Result: 实验表明,AsynFusion在实时同步全身动画生成中表现优异,定量和定性评估均优于现有方法。
  • Conclusion: AsynFusion通过协调面部和手势生成,显著提升了动画的自然性和一致性。

cs.CL

[114] Traveling Across Languages: Benchmarking Cross-Lingual Consistency in Multimodal LLMs

Hao Wang,Pinzhi Huang,Jihan Yang,Saining Xie,Daisuke Kawahara

Main category: cs.CL

TL;DR: 论文介绍了两个新基准(KnowRecall和VisRecall),用于评估多模态大语言模型(MLLMs)的跨语言一致性,发现现有模型在跨语言和文化知识一致性方面仍有不足。

  • Motivation: 多模态大语言模型(MLLMs)在实际应用中表现突出,但在跨语言和文化知识一致性方面仍存在挑战,需要更全面的评估方法。
  • Method: 提出两个新基准:KnowRecall(评估15种语言中的事实知识一致性)和VisRecall(评估9种语言中的视觉记忆一致性)。
  • Result: 实验表明,即使是先进的MLLMs(包括专有模型)在跨语言一致性方面表现不佳。
  • Conclusion: 需要更强大的方法开发真正多语言且具有文化意识的模型。

[115] Fooling the LVLM Judges: Visual Biases in LVLM-Based Evaluation

Yerin Hwang,Dongryeol Lee,Kyungmin Min,Taegwan Kang,Yong-il Kim,Kyomin Jung

Main category: cs.CL

TL;DR: 研究发现大型视觉语言模型(LVLM)在评估文本-图像对齐时易受视觉对抗性操纵影响,导致评分虚高。

  • Motivation: 探索LVLM在视觉模态下的鲁棒性,特别是对抗性视觉操纵是否会导致评分不公。
  • Method: 定义图像诱导偏差,构建多领域元评估基准FRAME,测试LVLM的脆弱性。
  • Result: 所有测试的LVLM均表现出脆弱性,评分虚高;多偏差组合效果更显著,提示策略无效。
  • Conclusion: 当前LVLM评估系统存在漏洞,亟需更鲁棒的评估方法。

[116] Exploring In-Image Machine Translation with Real-World Background

Yanzhi Tian,Zeming Liu,Zhengyang Liu,Yuhang Guo

Main category: cs.CL

TL;DR: 论文提出了一种解决复杂场景下图像内机器翻译(IIMT)问题的新模型DebackX,通过分离背景与文本图像、直接翻译文本图像并融合背景生成目标图像,显著提升了翻译质量和视觉效果。

  • Motivation: 现有IIMT研究多基于简化场景(如单行文本、黑白背景),与实际应用场景差距较大。为了提升IIMT的实际价值,需研究复杂场景(如真实背景下的文本)。
  • Method: 提出DebackX模型,分离背景与文本图像,直接翻译文本图像后与背景融合生成目标图像。
  • Result: 实验结果表明,DebackX在翻译质量和视觉效果上均有显著提升。
  • Conclusion: DebackX为复杂场景下的IIMT提供了有效解决方案,推动了该领域的实际应用。

[117] Are Vision-Language Models Safe in the Wild? A Meme-Based Benchmark Study

DongGeon Lee,Joonwon Jang,Jihae Jeong,Hwanjo Yu

Main category: cs.CL

TL;DR: 研究评估了视觉语言模型(VLMs)在真实表情包图像下的安全性,发现其对有害提示的脆弱性高于合成图像,多轮交互仅部分缓解问题。

  • Motivation: 随着视觉语言模型的快速部署,其安全性风险被放大,但现有评估多基于人工图像,缺乏对真实用户分享的表情包图像的评估。
  • Method: 研究引入MemeSafetyBench基准,包含50,430个真实表情包图像与有害/无害指令配对,通过安全分类法和LLM生成指令,评估VLMs在单轮和多轮交互中的表现。
  • Result: VLMs对表情包有害提示的脆弱性显著高于合成图像,表情包显著增加有害响应并减少拒绝率,多轮交互仅部分缓解问题。
  • Conclusion: 研究强调需要更生态有效的评估和更强的安全机制。

[118] GUI-G1: Understanding R1-Zero-Like Training for Visual Grounding in GUI Agents

Yuqi Zhou,Sunhao Dai,Shuai Wang,Kaiwen Zhou,Qinqlin Jia,Junxu

Main category: cs.CL

TL;DR: 论文分析了GUI代理训练中的三个关键问题(输入设计、输出评估、策略更新),并提出了针对性解决方案,最终在GUI任务中取得了最佳性能。

  • Motivation: 现有GUI代理在训练中存在输入设计、输出评估和策略更新的问题,导致性能不佳,需要针对性改进。
  • Method: 提出Fast Thinking Template简化推理,奖励函数加入框大小约束,调整RL目标以优化难样本。
  • Result: GUI-G1-3B在ScreenSpot和ScreenSpot-Pro上分别达到90.3%和37.1%的准确率,超越同类模型。
  • Conclusion: 通过针对性改进,GUI代理性能显著提升,为GUI任务设定了新标杆。

physics.comp-ph

[119] Pathobiological Dictionary Defining Pathomics and Texture Features: Addressing Understandable AI Issues in Personalized Liver Cancer; Dictionary Version LCP1.0

Mohammad R. Salmanpour,Seyed Mohammad Piri,Somayeh Sadat Mehrnia,Ahmad Shariftabrizi,Masume Allahmoradi,Venkata SK. Manem,Arman Rahmim,Ilker Hacihaliloglu

Main category: physics.comp-ph

TL;DR: 该研究开发了一个名为LCP1.0的病理生物学词典,将复杂的影像特征转化为临床可解释的指标,提升AI在肝癌诊断中的透明度和实用性。

  • Motivation: 解决AI在医学诊断中因缺乏可解释性和泛化性而临床采用受限的问题。
  • Method: 使用QuPath和PyRadiomics提取肝癌组织样本的影像特征,结合专家定义的ROIs和特征选择算法(如SVM),开发病理生物学词典。
  • Result: SVM模型结合特征选择算法达到最高准确率(0.80),筛选出20个关键特征,与肿瘤分级和预后密切相关。
  • Conclusion: LCP1.0为AI输出与专家解释提供了临床验证的桥梁,支持开发可解释、可信赖的肝癌诊断工具。

cs.PF

[120] A Methodology to Evaluate Strategies Predicting Rankings on Unseen Domains

Sébastien Piérard,Adrien Deliège,Anaïs Halin,Marc Van Droogenbroeck

Main category: cs.PF

TL;DR: 提出了一种新方法,用于预测新领域中不同实体的性能排名,无需进行昂贵的新评估。

  • Motivation: 解决在多领域中预测实体性能排名的难题,避免重复评估的成本。
  • Method: 采用留一域出的方式,结合特定应用偏好,评估30种策略对40种实体在53个视频领域的排名预测。
  • Result: 展示了方法在背景减除任务中的有效性。
  • Conclusion: 该方法为跨领域性能预测提供了实用解决方案。

eess.IV

[121] A Comprehensive Review of Techniques, Algorithms, Advancements, Challenges, and Clinical Applications of Multi-modal Medical Image Fusion for Improved Diagnosis

Muhammad Zubair,Muzammil Hussai,Mousa Ahmad Al-Bashrawi,Malika Bendechache,Muhammad Owais

Main category: eess.IV

TL;DR: 多模态医学图像融合(MMIF)通过结合多种成像技术提升诊断精度,本文综述了其方法、进展及临床应用,并探讨了挑战与未来方向。

  • Motivation: MMIF在计算机辅助诊断系统中对提高诊断准确性和临床决策至关重要,需总结其技术发展与应用。
  • Method: 综述了传统融合方法(像素、特征、决策级)与深度学习和生成模型等现代技术,并进行了对比分析。
  • Result: MMIF显著提升了诊断准确性、病灶检测和分割,广泛应用于肿瘤学、神经学和心脏病学。
  • Conclusion: MMIF面临数据隐私、计算复杂性等挑战,未来需关注可解释AI、隐私保护框架和实时融合系统的发展。

[122] A Hybrid Quantum Classical Pipeline for X Ray Based Fracture Diagnosis

Sahil Tomar,Rajeshwar Tripathi,Sandeep Kumar

Main category: eess.IV

TL;DR: 提出了一种分布式混合量子经典管道,用于骨骨折X射线分类,结合PCA和量子振幅编码,达到99%准确率,同时减少特征提取时间82%。

  • Motivation: 传统X射线分析耗时且易错,现有机器学习方法需要大量标注数据和计算资源。
  • Method: 使用PCA降维,结合4量子比特振幅编码电路增强特征,融合为16维向量后用不同机器学习模型分类。
  • Result: 在公开数据集上达到99%准确率,与迁移学习模型相当,特征提取时间减少82%。
  • Conclusion: 该方法高效且准确,为骨骨折诊断提供了新思路。

[123] Aneumo: A Large-Scale Multimodal Aneurysm Dataset with Computational Fluid Dynamics Simulations and Deep Learning Benchmarks

Xigui Li,Yuanye Zhou,Feiyang Xiao,Xin Guo,Chen Jiang,Tan Pan,Xingmeng Zhang,Cenyu Liu,Zeyun Miao,Jianchao Ge,Xiansheng Wang,Qimeng Wang,Yichi Zhang,Wenbo Zhang,Fengping Zhu,Limei Han,Yuan Qi,Chensen Lin,Yuan Cheng

Main category: eess.IV

TL;DR: 该论文构建了一个大规模、高保真的颅内动脉瘤CFD数据集,用于支持机器学习算法的开发,以解决传统CFD方法计算量大的问题。

  • Motivation: 颅内动脉瘤(IAs)破裂可能导致高死亡率,但目前的风险评估方法主要基于形态学和患者特异性因素,血流动力学的影响尚不明确。传统CFD方法计算量大,难以应用于大规模或实时临床场景。
  • Method: 基于427个真实动脉瘤几何形状,通过受控变形合成了10,660个3D形状模拟动脉瘤演变。每个形状在8种稳态质量流条件下进行CFD计算,生成85,280个血流动力学数据。数据集还包括分割掩码,支持多模态输入任务。
  • Result: 生成了一个包含血流动力学关键参数的大规模数据集,并通过神经外科医生验证了合成形状的真实性。同时提出了评估当前建模方法的基准。
  • Conclusion: 该数据集旨在推动动脉瘤研究,促进生物流体、生物医学工程和临床风险评估中的数据驱动方法。数据集和代码已开源。

[124] MedBLIP: Fine-tuning BLIP for Medical Image Captioning

Manshi Limbu,Diwita Banerjee

Main category: eess.IV

TL;DR: 研究探讨了在医学图像描述任务中微调BLIP模型的有效性,结果显示领域特定微调显著提升了性能。

  • Motivation: 现有视觉语言模型在医学领域生成的描述通常不够准确或过于通用,需要针对性改进。
  • Method: 在ROCO数据集上微调BLIP模型,并与零样本版本、BLIP-2、ViT-GPT2等基线模型对比。
  • Result: 微调后的BLIP在定量和定性指标上表现更优,且解码器单独微调(编码器冻结)在训练时间和性能间取得平衡。
  • Conclusion: 领域特定微调对医学应用至关重要,全模型微调效果最佳,但解码器单独微调是高效替代方案。

[125] LOD1 3D City Model from LiDAR: The Impact of Segmentation Accuracy on Quality of Urban 3D Modeling and Morphology Extraction

Fatemeh Chajaei,Hossein Bagheri

Main category: eess.IV

TL;DR: 研究评估了LiDAR数据在LOD1级别建筑物3D重建中的潜力,比较了四种深度学习模型,发现U-Net3+和Attention U-Net表现最佳,并探讨了分割精度对3D建模和形态特征提取的影响。

  • Motivation: 建筑物3D重建在城巿规划和环境研究中至关重要,本研究旨在利用LiDAR数据实现高精度的LOD1级别重建。
  • Method: 使用四种深度学习模型(U-Net、Attention U-Net、U-Net3+、DeepLabV3+)进行语义分割,并通过统计方法估算建筑高度。
  • Result: U-Net3+和Attention U-Net表现最优,IoU分别为0.833和0.814;分割精度显著影响3D模型质量和形态特征估计。
  • Conclusion: U-Net3+结合90百分位数和中位数方法能准确估算建筑高度和提取形态特征,分割精度对建模质量至关重要。

[126] TransMedSeg: A Transferable Semantic Framework for Semi-Supervised Medical Image Segmentation

Mengzhu Wang,Jiao Li,Shanshan Wang,Long Lan,Huibin Tan,Liang Yang,Guoli Yang

Main category: eess.IV

TL;DR: TransMedSeg提出了一种新的半监督医学图像分割框架,通过跨领域语义对齐和轻量级记忆模块增强特征表示,显著优于现有方法。

  • Motivation: 当前半监督学习方法在医学图像分割中忽视了跨临床领域和成像模态的可转移语义关系,限制了性能提升。
  • Method: 提出TransMedSeg框架,包含可转移语义增强(TSA)模块,通过跨领域分布匹配和领域内结构保持对齐语义,并利用轻量级记忆模块实现隐式语义转换。
  • Result: 在医学图像数据集上的实验表明,TransMedSeg性能优于现有半监督方法。
  • Conclusion: TransMedSeg为医学图像分析中的可转移表示学习开辟了新方向。

[127] Model-Independent Machine Learning Approach for Nanometric Axial Localization and Tracking

Andrey Alexandrov,Giovanni Acampora,Giovanni De Lellis,Antonia Di Crescenzo,Chiara Errico,Daria Morozova,Valeri Tioukov,Autilia Vittiello

Main category: eess.IV

TL;DR: 提出一种基于深度学习的双焦平面图像轴向定位方法,精度达40纳米,优于传统技术。

  • Motivation: 解决光学显微镜中高精度轴向定位的挑战,尤其是对粒子追踪的需求。
  • Method: 使用卷积神经网络(CNNs)从双焦平面图像中直接确定轴向位置,无需预定义模型。
  • Result: 轴向定位精度为40纳米,比传统单焦平面技术高6倍。
  • Conclusion: 该方法设计简单、性能强大,适用于多种科学领域,展示了机器学习在复杂图像数据处理中的潜力。

[128] Super-Resolution Optical Coherence Tomography Using Diffusion Model-Based Plug-and-Play Priors

Yaning Wang,Jinglun Yu,Wenhan Guo,Yu Sun,Jin U. Kang

Main category: eess.IV

TL;DR: 提出了一种基于即插即用扩散模型(PnP-DM)的OCT超分辨率框架,用于从稀疏测量重建高质量图像,优于传统方法。

  • Motivation: 解决高速度采集下OCT图像质量不足的问题,提升临床应用的成像保真度。
  • Method: 将重建问题建模为逆问题,结合扩散先验和马尔可夫链蒙特卡洛采样进行高效后验推断,并使用深度学习上采样管道构建训练数据。
  • Result: 在活体和离体鱼眼角膜模型中,PnP-DM表现优于传统2D-UNet基线,结构更清晰且噪声抑制更好。
  • Conclusion: 该方法为高速度OCT成像提供了高保真解决方案,具有临床应用潜力。

[129] Non-rigid Motion Correction for MRI Reconstruction via Coarse-To-Fine Diffusion Models

Frederic Wang,Jonathan I. Tamir

Main category: eess.IV

TL;DR: 提出一种基于扩散模型的交替最小化框架,用于联合重建和校正MRI中的运动伪影,适用于动态成像。

  • Motivation: MRI因长时间采集易受运动伪影影响,特别是动态成像,影响诊断效果。
  • Method: 采用交替最小化框架和定制扩散模型,通过粗到细去噪策略捕获大范围运动并优先重建低频图像。
  • Result: 在真实心脏MRI数据集和复杂模拟变形中表现优异,即使运动状态下采样率低至64倍。
  • Conclusion: 该方法对采样模式、解剖变异和扫描协议具有普适性,只要每个运动状态采样到低频成分。

[130] Lung Nodule-SSM: Self-Supervised Lung Nodule Detection and Classification in Thoracic CT Images

Muniba Noreen,Furqan Shaukat

Main category: eess.IV

TL;DR: 提出了一种基于自监督学习的新方法“LungNodule-SSM”,利用DINOv2作为骨干网络,无需标注数据即可提升肺结节检测和分类的准确性。

  • Motivation: 肺癌早期检测对患者预后至关重要,但标注医学影像数据稀缺限制了计算机辅助诊断系统的开发。自监督学习可利用大量未标注数据提升系统性能。
  • Method: 方法分为两阶段:首先在未标注CT扫描上预训练DINOv2模型以学习鲁棒特征表示,随后基于Transformer架构微调这些特征用于病灶检测和肺结节诊断。
  • Result: 在LUNA 16数据集(888个CT扫描)上验证,准确率达98.37%,优于现有方法。
  • Conclusion: 该方法在肺结节检测中表现出色,证明了自监督学习在医学影像分析中的潜力。

[131] Physics-Guided Multi-View Graph Neural Network for Schizophrenia Classification via Structural-Functional Coupling

Badhan Mazumder,Ayush Kanyal,Lei Wu,Vince D. Calhoun,Dong Hye Ye

Main category: eess.IV

TL;DR: 提出了一种基于物理引导的深度学习框架,通过神经振荡模型和SC-FC耦合,结合多视图图神经网络,提升了精神分裂症的分类性能。

  • Motivation: 传统方法仅依赖结构连接(SC),忽略了SC与功能连接(FC)的复杂关系,限制了认知和行为障碍的理解。
  • Method: 采用神经振荡模型描述神经振荡器动态,利用SC生成FC,并通过多视图图神经网络(GNN)进行SC-FC融合和分类。
  • Result: 在临床数据集上表现出更高的性能,验证了方法的鲁棒性。
  • Conclusion: 提出的框架通过SC-FC耦合和多视图GNN,为精神分裂症研究提供了新视角。

[132] SAMA-UNet: Enhancing Medical Image Segmentation with Self-Adaptive Mamba-Like Attention and Causal-Resonance Learning

Saqib Qamar,Mohd Fazil,Parvez Ahmad,Ghulam Muhammad

Main category: eess.IV

TL;DR: SAMA-UNet提出了一种新的医学图像分割架构,通过SAMA块和CR-MSM模块解决了现有模型在计算效率和特征平衡上的问题。

  • Motivation: 医学图像分割模型在计算效率和复杂数据建模上存在挑战,SSMs虽有潜力但应用受限。
  • Method: 提出SAMA-UNet,结合SAMA块(动态权重调制)和CR-MSM模块(因果共振学习)优化特征提取与多尺度信息流。
  • Result: 在MRI、CT和内窥镜图像上,SAMA-UNet的准确率优于CNN、Transformer和Mamba方法。
  • Conclusion: SAMA-UNet通过创新模块提升了医学图像分割的性能和效率,代码已开源。

[133] X-GRM: Large Gaussian Reconstruction Model for Sparse-view X-rays to Computed Tomography

Yifan Liu,Wuyang Li,Weihao Yu,Chenxin Li,Alexandre Alahi,Max Meng,Yixuan Yuan

Main category: eess.IV

TL;DR: X-GRM是一种基于Transformer的大规模前馈模型,用于从稀疏2D X射线投影重建3D CT,采用Voxel-based Gaussian Splatting表示,并利用大规模数据集ReconX-15K进行训练。

  • Motivation: 现有CT重建方法受限于小容量模型架构、不灵活的体表示和小规模训练数据,X-GRM旨在解决这些问题。
  • Method: X-GRM使用基于Transformer的可扩展架构编码稀疏X射线输入,并通过VoxGS解码为高效CT体表示。
  • Result: 模型在多样测试输入(包括域内和域外X射线投影)中实现高质量重建。
  • Conclusion: X-GRM通过高容量模型、灵活体表示和大规模数据,显著提升了CT重建性能。

[134] Reconsider the Template Mesh in Deep Learning-based Mesh Reconstruction

Fengting Zhang,Boxu Liang,Qinghao Liu,Min Liu,Xiang Chen,Yaonan Wang

Main category: eess.IV

TL;DR: 提出了一种基于自适应模板的网格重建网络(ATMRN),通过生成自适应模板提升重建精度,优于传统固定模板方法。

  • Motivation: 传统网格重建方法依赖固定模板,忽略个体解剖差异,影响重建精度。
  • Method: 提出ATMRN,从图像生成自适应模板用于后续变形,避免固定模板限制。
  • Result: 在OASIS数据集上验证,平均对称表面距离为0.267mm,优于现有方法。
  • Conclusion: ATMRN具有通用性,可扩展到其他图像模态和解剖结构。

[135] Deep Learning Enabled Segmentation, Classification and Risk Assessment of Cervical Cancer

Abdul Samad Shaik,Shashaank Mattur Aswatha,Rahul Jashvantbhai Pandya

Main category: eess.IV

TL;DR: 提出了一种新型深度学习架构用于宫颈癌细胞的检测与分类,结合多分辨率融合和多任务学习技术,性能接近现有最优模型,同时参数更少。

  • Motivation: 宫颈癌是全球女性第四大癌症,早期检测至关重要,但现有方法在分辨率和多任务处理上存在不足。
  • Method: 采用多分辨率融合卷积网络处理不同分辨率图像,结合多任务学习同时进行分割和分类,最后用概率方法评估风险。
  • Result: 模型性能接近最优模型(准确率差异2%-3%),参数仅为VGG-19的1/85,分割IoU为0.83,分类准确率90%。
  • Conclusion: 该方法在宫颈癌早期检测中表现优异,参数效率高,适合临床应用。

cs.LG

[136] Scaling Diffusion Transformers Efficiently via μP

Chenyu Zheng,Xinyu Zhang,Rongzhen Wang,Wei Huang,Zhi Tian,Weilin Huang,Jun Zhu,Chongxuan Li

Main category: cs.LG

TL;DR: 论文研究了如何将Maximal Update Parametrization(μP)方法推广到扩散Transformer中,验证其有效性并显著降低超参数调优成本。

  • Motivation: 扩散Transformer在视觉生成模型中表现优异,但大规模超参数调优成本高昂。μP方法在普通Transformer中已证明有效,但尚未在扩散Transformer中验证。
  • Method: 将标准μP方法推广到扩散Transformer(如DiT、U-ViT等),并通过实验验证其有效性。
  • Result: μP方法在扩散Transformer中同样适用,显著提升模型收敛速度(如DiT-XL-2-μP收敛速度提升2.9倍),并在文本到图像生成任务中表现优异。
  • Conclusion: μP是一种高效且理论完备的框架,适用于扩散Transformer的扩展,显著降低调优成本。

[137] Kernel PCA for Out-of-Distribution Detection: Non-Linear Kernel Selections and Approximations

Kun Fang,Qinghua Tao,Mingzhen He,Kexin Lv,Runze Yang,Haibo Hu,Xiaolin Huang,Jie Yang,Longbin Cao

Main category: cs.LG

TL;DR: 本文提出了一种基于非线性特征子空间的OoD检测方法,利用KPCA框架学习判别性子空间,并通过重构误差区分InD和OoD数据。

  • Motivation: OoD检测对深度神经网络的可靠性至关重要,关键在于有效表征InD和OoD数据之间的差异。
  • Method: 利用KPCA学习非线性子空间,设计Cosine-Gaussian核函数,并引入高效计算技术。
  • Result: 提出的方法显著提升了OoD检测的效果和效率。
  • Conclusion: 非线性特征子空间为OoD检测提供了新视角,核函数设计和高效计算具有实际意义。

[138] Directional Non-Commutative Monoidal Structures for Compositional Embeddings in Machine Learning

Mahesh Godavarti

Main category: cs.LG

TL;DR: 提出了一种新的多维组合嵌入代数结构,基于方向性非交换幺半群算子,具有理论优势且兼容现代机器学习架构。

  • Motivation: 为多维度组合嵌入提供统一的理论框架,同时兼容现有序列建模范式(如SSMs和Transformer自注意力)。
  • Method: 定义每个轴的独立组合算子circ_i,确保轴内结合性且轴间可交换,实现全局一致性。
  • Result: 该框架能推广经典序列建模方法(如SSMs和自注意力)到多维场景,并支持结构感知操作。
  • Conclusion: 该结构为未来深度学习模型设计提供了理论基础,潜在应用包括结构化位置编码和方向性图像嵌入。

[139] Explainable embeddings with Distance Explainer

Christiaan Meijer,E. G. Patrick Bos

Main category: cs.LG

TL;DR: 论文提出了一种名为Distance Explainer的新方法,用于在嵌入式向量空间中生成局部解释,填补了XAI研究的空白。

  • Motivation: 当前XAI方法在嵌入式向量空间中的解释性不足,尤其是在维度表示复杂抽象时。
  • Method: 通过选择性掩码和距离排序掩码过滤,将RISE的显著性技术应用于解释嵌入式空间中两点之间的距离。
  • Result: 在ImageNet和CLIP模型上的实验表明,该方法能有效识别相似性或差异性特征,并保持高鲁棒性和一致性。
  • Conclusion: Distance Explainer提升了深度学习应用中嵌入式空间的透明度和可信度。

[140] Beyond Classification: Evaluating Diffusion Denoised Smoothing for Security-Utility Trade off

Yury Belousov,Brian Pulfer,Vitaliy Kinakh,Slava Voloshynovskiy

Main category: cs.LG

TL;DR: 研究探讨了扩散去噪平滑技术在增强基础模型对抗鲁棒性方面的效果,发现高噪声设置会显著降低性能,而低噪声设置则无法提供全面保护。

  • Motivation: 基础模型虽表现优异,但对对抗输入仍脆弱,扩散去噪平滑技术潜力未充分探索。
  • Method: 在三个数据集上测试四种下游任务和三种对抗攻击算法,分析扩散去噪平滑的效果。
  • Result: 高噪声去噪显著降低性能(57%),低噪声无法全面防御,且新攻击策略可绕过低噪声防御。
  • Conclusion: 对抗鲁棒性与性能之间的权衡仍需解决。

q-bio.QM

[141] Predicting Neo-Adjuvant Chemotherapy Response in Triple-Negative Breast Cancer Using Pre-Treatment Histopathologic Images

Hikmat Khan,Ziyu Su,Huina Zhang,Yihong Wang,Bohan Ning,Shi Wei,Hua Guo,Zaibo Li,Muhammad Khalid Khan Niazi

Main category: q-bio.QM

TL;DR: 该研究开发了一种深度学习模型,利用治疗前的H&E染色活检图像预测TNBC患者对新辅助化疗(NACT)的反应,模型表现良好,并揭示了与免疫生物标志物相关的预测区域。

  • Motivation: TNBC因缺乏靶向治疗选项,NACT反应预测对优化治疗和改善患者预后至关重要。
  • Method: 使用深度学习模型分析H&E染色活检图像,结合mIHC数据验证预测区域。
  • Result: 模型在交叉验证中表现优异(准确率82%,AUC 0.86),预测区域与PD-L1表达、CD8+ T细胞浸润等生物标志物相关。
  • Conclusion: 结合IHC免疫分析数据可提升模型解释性和预测性能,为TNBC个性化治疗提供新方向。

stat.AP

[142] ComBAT Harmonization for diffusion MRI: Challenges and Best Practices

Pierre-Marc Jodoin,Manon Edde,Gabriel Girard,Félix Dumais,Guillaume Theaud,Matthieu Dumont,Jean-Christophe Houde,Yoan David,Maxime Descoteaux

Main category: stat.AP

TL;DR: 本文回顾了ComBAT的数学基础及其假设,通过实验评估了人口特征对结果的影响,并提出了五项改进建议以增强一致性和可重复性。

  • Motivation: ComBAT是MRI数据标准化的常用方法,但其假设可能被违反,导致结果不准确。本文旨在探讨这些假设的影响并提出改进建议。
  • Method: 通过实验使用改进版的Pairwise-ComBAT,评估人口特征(如样本量、年龄分布等)对结果的影响。
  • Result: 实验揭示了人口特征对ComBAT结果的影响,并提出了五项关键建议。
  • Conclusion: 五项建议可提升ComBAT的一致性和可重复性,支持开放科学和临床应用。

上次更新于: