Skip to content
每日arXiv - 2025年5月9日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] Histo-Miner: Deep Learning based Tissue Features Extraction Pipeline from H&E Whole Slide Images of Cutaneous Squamous Cell Carcinoma

Lucas Sancéré,Carina Lorenz,Doris Helbig,Oana-Diana Persa,Sonja Dengler,Alexander Kreuter,Martim Laimer,Anne Fröhlich,Jennifer Landsberg,Johannes Brägelmann,Katarzyna Bozek

Main category: cs.CV

TL;DR: Histo-Miner是一个基于深度学习的管道,用于分析皮肤组织全切片图像(WSI),并生成了两个标注数据集。它在皮肤鳞状细胞癌(cSCC)分析中表现出色,可用于预测免疫治疗反应。

  • Motivation: 当前缺乏针对皮肤组织的标注数据集和开源分析管道,特别是在cSCC领域。
  • Method: 利用卷积神经网络和视觉变换器,开发了Histo-Miner管道,用于细胞核分割与分类以及肿瘤区域分割。
  • Result: 模型性能优异,细胞核分割mPQ为0.569,分类F1为0.832,肿瘤分割mIoU为0.884。预测特征可用于下游任务,如免疫治疗反应预测。
  • Conclusion: Histo-Miner在临床相关场景中具有应用潜力,为分类提供了直接解释,并揭示了潜在的生物学机制。

[2] Comparison of Visual Trackers for Biomechanical Analysis of Running

Luis F. Gomez,Gonzalo Garrido-Lopez,Julian Fierrez,Aythami Morales,Ruben Tolosana,Javier Rueda,Enrique Navarro

Main category: cs.CV

TL;DR: 论文分析了六种姿态跟踪器在短跑生物力学分析中的表现,提出了一种后处理模块以减少误差,结果表明基于关节的模型在生物力学分析中具有潜力。

  • Motivation: 研究动机在于评估深度学习姿态估计模型在短跑生物力学分析中的性能,并与专家标注结果对比,以验证其实际应用价值。
  • Method: 方法包括使用六种姿态跟踪器(两种点跟踪器和四种关节跟踪器)分析5870帧数据,提出后处理模块进行异常检测和角度融合预测。
  • Result: 实验结果显示,基于关节的模型误差范围为11.41°至4.37°,后处理后误差降至6.99°和3.88°。
  • Conclusion: 结论表明姿态跟踪方法在短跑生物力学分析中具有潜力,但在高精度应用中仍需改进。

[3] Lay-Your-Scene: Natural Scene Layout Generation with Diffusion Transformers

Divyansh Srivastava,Xiang Zhang,He Wen,Chenru Wen,Zhuowen Tu

Main category: cs.CV

TL;DR: LayouSyn是一种新的文本到布局生成方法,利用轻量级开源语言模型和扩散Transformer架构,在开放词汇场景布局生成中表现优异。

  • Motivation: 现有场景布局生成方法要么词汇封闭,要么依赖专有大语言模型,限制了其建模能力和可控图像生成的广泛应用。
  • Method: 使用轻量级开源语言模型从文本提示中提取场景元素,并结合新型的aspect-aware扩散Transformer架构进行条件布局生成。
  • Result: LayouSyn在空间和数值推理基准测试中表现优于现有方法,达到最新技术水平,并展示了在图像编辑中的应用潜力。
  • Conclusion: LayouSyn通过开源模型和新型架构实现了高效、开放的场景布局生成,扩展了可控图像生成的应用范围。

[4] False Promises in Medical Imaging AI? Assessing Validity of Outperformance Claims

Evangelia Christodoulou,Annika Reinke,Pascaline Andrè,Patrick Godau,Piotr Kalinowski,Rola Houhou,Selen Erkan,Carole H. Sudre,Ninon Burgos,Sofiène Boutaj,Sophie Loizillon,Maëlys Solal,Veronika Cheplygina,Charles Heitz,Michal Kozubek,Michela Antonelli,Nicola Rieke,Antoine Gilson,Leon D. Mayer,Minu D. Tizabi,M. Jorge Cardoso,Amber Simpson,Annette Kopp-Schneider,Gaël Varoquaux,Olivier Colliot,Lena Maier-Hein

Main category: cs.CV

TL;DR: 论文分析了医学影像AI研究中性能比较的可靠性,发现多数论文声称新方法优于现有技术,但实际存在高概率的虚假声称。

  • Motivation: 揭示医学影像AI研究中基于性能比较的虚假声称问题,以改进未来研究实践。
  • Method: 采用贝叶斯方法分析代表性医学影像论文,量化虚假声称的概率。
  • Result: 超过80%的论文声称新方法优于现有技术,86%的分类论文和53%的分割论文存在高概率(>5%)的虚假声称。
  • Conclusion: 当前医学影像AI的基准测试存在严重缺陷,虚假声称可能误导未来研究方向。

[5] Hyb-KAN ViT: Hybrid Kolmogorov-Arnold Networks Augmented Vision Transformer

Sainath Dey,Mitul Goswami,Jashika Sethi,Prasant Kumar Pattnaik

Main category: cs.CV

TL;DR: 提出Hyb-KAN ViT框架,结合小波谱分解和样条优化激活函数,改进ViT中的MLP层,提升多尺度表示和计算效率。

  • Motivation: 解决ViT中MLP层的局限性,利用小波函数边缘检测能力和ViT模块化特性。
  • Method: 引入Eff-KAN(样条函数替代MLP)和Wav-KAN(小波变换多分辨率特征提取),集成到ViT编码器和分类头。
  • Result: 在ImageNet-1K、COCO和ADE20K上实现SOTA性能,验证小波谱先验和样条效率。
  • Conclusion: Hyb-KAN ViT为视觉架构平衡参数效率和多尺度表示提供了新范式。

[6] Lightweight RGB-D Salient Object Detection from a Speed-Accuracy Tradeoff Perspective

Songsong Duan,Xi Yang,Nannan Wang,Xinbo Gao

Main category: cs.CV

TL;DR: 提出SATNet网络,通过深度质量、模态融合和特征表示三方面平衡RGB-D显著性检测的效率和性能。

  • Motivation: 现有RGB-D方法在效率和精度之间难以平衡,轻量级方法精度不足,大型骨干网络效率低。
  • Method: 引入Depth Anything Model提升深度质量;提出DAM模块解耦多模态特征;开发DIRM模块双向扩展特征空间;设计DFAM模块聚合特征。
  • Result: 在五个公开数据集上表现优于SOTA模型,参数仅5.2M,速度达415FPS。
  • Conclusion: SATNet成功平衡了效率和性能,为轻量级RGB-D显著性检测提供了新方案。

[7] Vision-Language-Action Models: Concepts, Progress, Applications and Challenges

Ranjan Sapkota,Yang Cao,Konstantinos I. Roumeliotis,Manoj Karkee

Main category: cs.CV

TL;DR: 本文综述了视觉-语言-动作(VLA)模型的最新进展,涵盖其概念基础、架构创新、应用领域及挑战,并提出了未来发展方向。

  • Motivation: 旨在统一感知、自然语言理解和动作执行的VLA模型代表了人工智能领域的重大突破,本文试图系统梳理该领域的进展与挑战。
  • Method: 采用严格的文献综述方法,分析了过去三年发表的80多个VLA模型,重点关注架构创新、高效训练策略和实时推理加速。
  • Result: 总结了VLA模型在机器人、自动驾驶等领域的应用,并提出了解决实时控制、泛化能力等挑战的方案。
  • Conclusion: VLA模型与代理AI的融合将推动智能机器人和通用人工智能的发展,本文为其提供了基础参考。

[8] Replay to Remember (R2R): An Efficient Uncertainty-driven Unsupervised Continual Learning Framework Using Generative Replay

Sriram Mandalika,Harsha Vardhan,Athira Nambiar

Main category: cs.CV

TL;DR: 提出了一种基于不确定性驱动的无监督持续学习框架R2R,通过生成回放和聚类级反馈机制,显著提升了知识保留能力,并在多个数据集上实现了SOTA性能。

  • Motivation: 解决神经网络在持续学习中的灾难性遗忘问题,提出无需预训练的方法,利用未标记数据和合成标记数据。
  • Method: 采用聚类级不确定性驱动反馈机制和VLM支持的生成回放模块,动态适应新任务并生成代表性合成数据。
  • Result: 在CIFAR-10、CIFAR-100等数据集上分别达到98.13%、73.06%等性能,超越现有方法4.36%。
  • Conclusion: R2R框架在无监督持续学习中表现出色,有效缓解灾难性遗忘,为未来研究提供了新方向。

[9] Convex Relaxation for Robust Vanishing Point Estimation in Manhattan World

Bangyan Liao,Zhenjun Zhao,Haoang Li,Yi Zhou,Yingping Zeng,Hao Li,Peidong Liu

Main category: cs.CV

TL;DR: 论文提出了一种基于凸松弛技术的方法GlobustVP,用于在曼哈顿世界中联合估计消失点位置和线-VP关联,平衡了效率、鲁棒性和全局最优性。

  • Motivation: 现有方法要么是次优解法,要么追求全局最优但计算成本高,因此需要一种更高效且鲁棒的解决方案。
  • Method: 采用软关联方案和截断多选择误差,将问题转化为QCQP并松弛为凸SDP问题,通过迭代求解器GlobustVP独立更新每个VP及其关联线。
  • Result: 在合成和真实数据上的实验表明,GlobustVP在效率、鲁棒性和全局最优性上优于现有方法。
  • Conclusion: GlobustVP提供了一种高效且鲁棒的解决方案,适用于曼哈顿世界中的消失点估计任务。

[10] DetReIDX: A Stress-Test Dataset for Real-World UAV-Based Person Recognition

Kailash A. Hambarde,Nzakiese Mbongo,Pavan Kumar MP,Satish Mekewad,Carolina Fernandes,Gökhan Silahtaroğlu,Alice Nithya,Pawan Wasnik,MD. Rashidunnabi,Pranita Samale,Hugo Proença

Main category: cs.CV

TL;DR: DetReIDX是一个大规模的空地行人数据集,旨在测试真实世界条件下的行人重识别(ReID)技术,包含多会话、多场景数据,并展示了现有方法在极端条件下的性能下降。

  • Motivation: 现有ReID技术在真实世界极端条件下表现不佳,且公开数据集未能充分模拟这些挑战。DetReIDX旨在填补这一空白,推动技术进步。
  • Method: 通过无人机在多个大学校园收集509个身份的超1300万边界框数据,涵盖不同高度、会话和服装变化,并标注多任务标签和软生物特征属性。
  • Result: 实验显示,现有SOTA方法在DetReIDX条件下性能显著下降(检测准确率下降80%,Rank-1 ReID下降70%以上)。
  • Conclusion: DetReIDX为真实世界ReID研究提供了重要基准,数据集和评估协议已公开。

[11] Are Synthetic Corruptions A Reliable Proxy For Real-World Corruptions?

Shashank Agnihotri,David Schader,Nico Sharei,Mehmet Ege Kaçar,Margret Keuper

Main category: cs.CV

TL;DR: 该论文研究了合成损坏是否可以作为真实世界损坏的可靠替代品,通过大规模基准测试发现两者在平均性能上具有强相关性。

  • Motivation: 深度学习模型在真实应用中易受分布变化(如天气和光照变化)的影响,但收集多样化的真实数据成本高昂,因此需要验证合成损坏的可靠性。
  • Method: 通过大规模基准测试,比较语义分割模型在真实世界损坏和合成损坏数据集上的表现。
  • Result: 结果显示两者在平均性能上具有强相关性,支持合成损坏用于鲁棒性评估。
  • Conclusion: 合成损坏在特定情况下可以可靠地代表真实世界损坏,为鲁棒性测试提供了有效替代方案。

[12] Seeing Cells Clearly: Evaluating Machine Vision Strategies for Microglia Centroid Detection in 3D Images

Youjia Zhang

Main category: cs.CV

TL;DR: 比较三种工具(ilastik、3D Morph、Omnipose)在3D显微镜图像中定位小胶质细胞中心点的效果。

  • Motivation: 小胶质细胞的形态对脑健康研究至关重要,准确识别其中心点有助于获取更精确的信息。
  • Method: 测试并比较ilastik、3D Morph和Omnipose三种工具在3D图像中的表现。
  • Result: 每种工具对小胶质细胞的识别方式不同,影响从图像中获取的信息。
  • Conclusion: 不同工具的结果存在差异,需根据研究需求选择合适的工具。

[13] ORXE: Orchestrating Experts for Dynamically Configurable Efficiency

Qingyuan Wang,Guoxin Wang,Barry Cardiff,Deepu John

Main category: cs.CV

TL;DR: ORXE是一个模块化、可适应的框架,通过动态调整推理路径实现AI模型的高效实时配置。

  • Motivation: 传统方法需要复杂的元模型训练,而ORXE旨在简化开发过程,同时保持高效和灵活性。
  • Method: 利用预训练专家集合和基于置信度的门控机制,动态分配计算资源,支持运行时调整成本与性能的权衡。
  • Result: 在图像分类任务中,ORXE表现优于单个专家和其他动态模型,适用于多种设备。
  • Conclusion: ORXE为多样化实际部署场景提供了可扩展的解决方案。

[14] Mix-QSAM: Mixed-Precision Quantization of the Segment Anything Model

Navin Ranjan,Andreas Savakis

Main category: cs.CV

TL;DR: Mix-QSAM是一种混合精度的后训练量化框架,用于优化Segment Anything Model (SAM)的计算和内存需求,通过层间协同和重要性评分实现高效量化。

  • Motivation: SAM的高计算和内存需求限制了其在资源受限设备上的部署,现有固定位宽量化方法在精度和效率上表现不佳。
  • Method: 提出Mix-QSAM框架,利用KL散度计算层重要性评分,引入跨层协同度量,通过整数二次规划优化位宽分配。
  • Result: 在6位和4位混合精度设置下,Mix-QSAM在实例分割和对象检测任务中平均精度提升高达20%。
  • Conclusion: Mix-QSAM显著提升了量化模型的精度和效率,适用于资源受限环境。

[15] Auto-regressive transformation for image alignment

Kanggeon Lee,Soochahn Lee,Kyoung Mu Lee

Main category: cs.CV

TL;DR: ART是一种通过自回归框架迭代估计粗到细变换的新方法,利用多尺度特征和交叉注意力层,显著提升了图像对齐的精度。

  • Motivation: 现有图像对齐方法在特征稀疏区域、极端尺度和视野差异以及大变形情况下表现不佳,需要更鲁棒的方法。
  • Method: 提出Auto-Regressive Transformation (ART),通过多尺度特征和随机采样点迭代优化变换,结合交叉注意力层聚焦关键区域。
  • Result: 在多种数据集上的实验表明,ART显著优于现有方法。
  • Conclusion: ART是一种强大且广泛适用的精确图像对齐新方法。

[16] Learning from Loss Landscape: Generalizable Mixed-Precision Quantization via Adaptive Sharpness-Aware Gradient Aligning

Lianbo Ma,Jianlun Ma,Yuee Zhou,Guoyang Xie,Qiang He,Zhichao Lu

Main category: cs.CV

TL;DR: 提出一种新方法,通过在小数据集上搜索量化策略并泛化至大规模数据集,显著降低计算成本,提升效率。

  • Motivation: 现有MPQ方法需在大规模数据集上进行昂贵搜索,计算成本高。
  • Method: 在小数据集搜索量化策略,结合锐度感知最小化、隐式梯度方向对齐和自适应扰动半径技术。
  • Result: 在CIFAR10上搜索策略,ImageNet上达到同等精度,计算成本显著降低,效率提升150%。
  • Conclusion: 新方法简化量化过程,无需大规模微调,仅需调整模型权重,高效且实用。

[17] Cross-Branch Orthogonality for Improved Generalization in Face Deepfake Detection

Tharindu Fernando,Clinton Fookes,Sridha Sridharan,Simon Denman

Main category: cs.CV

TL;DR: 论文提出了一种新的策略,利用从粗到细的空间信息、语义信息及其交互来检测深度伪造,通过特征正交性解耦策略提升性能,实验表明其在多个数据集上优于现有方法。

  • Motivation: 深度伪造技术的快速发展对社会造成混淆、欺骗和信任危机,现有检测器因依赖特定伪造痕迹而难以应对新型深度伪造。
  • Method: 提出基于特征正交性解耦的策略,整合多特征向量,确保特征独特性和减少冗余,同时不增加特征空间复杂性。
  • Result: 在FaceForensics++、Celeb-DF和DFDC数据集上,新方法在跨数据集评估中分别比现有最优方法提升5%和7%。
  • Conclusion: 新策略有效提升了深度伪造检测的泛化能力和性能,为应对恶意深度伪造提供了可行方案。

[18] OWT: A Foundational Organ-Wise Tokenization Framework for Medical Imaging

Sifan Song,Siyeop Yoon,Pengfei Jin,Sekeun Kim,Matthew Tivnan,Yujin Oh,Runqi Meng,Ling Chen,Zhiliang Lyu,Dufan Wu,Ning Guo,Xiang Li,Quanzheng Li

Main category: cs.CV

TL;DR: 提出了一种器官级标记化(OWT)框架,通过标记组重建(TGR)训练范式,解决了传统整体嵌入方法在医学影像中的可解释性和泛化性问题。

  • Motivation: 传统表示学习方法依赖整体嵌入,导致语义成分纠缠,限制了可解释性和泛化性,尤其在医学影像中问题突出。
  • Method: OWT框架将图像显式解耦为独立的标记组,每个组对应特定器官或语义实体,并通过TGR训练范式优化。
  • Result: 在CT和MRI数据集上,OWT不仅实现了强图像重建和分割性能,还支持语义级生成和检索应用。
  • Conclusion: OWT作为一种语义解耦表示学习的基础框架,具有广泛的扩展性和实际应用潜力。

[19] Pro2SAM: Mask Prompt to SAM with Grid Points for Weakly Supervised Object Localization

Xi Yang,Songsong Duan,Nannan Wang,Xinbo Gao

Main category: cs.CV

TL;DR: 该论文提出了一种基于Segment Anything Model (SAM)的新方法Pro2SAM,用于弱监督目标定位(WSOL),通过创新的掩码提示和网格点技术提升目标区域的激活效果。

  • Motivation: 当前WSOL方法(如CAM和自注意力图)无法学习像素级细粒度信息,限制了性能提升。因此,作者利用SAM的零样本泛化和细粒度分割能力来解决这一问题。
  • Method: 提出Pro2SAM网络,包括:1)使用GTFormer生成粗粒度前景图作为掩码提示;2)通过网格点密集提示SAM以最大化前景掩码概率;3)提出像素级相似度度量进行掩码匹配。
  • Result: 在CUB-200-2011和ILSVRC数据集上,Pro2SAM分别达到84.03%和66.85%的Top-1定位准确率,表现最优。
  • Conclusion: Pro2SAM通过结合SAM的强分割能力和创新的提示策略,显著提升了WSOL任务的性能。

[20] SpatialPrompting: Keyframe-driven Zero-Shot Spatial Reasoning with Off-the-Shelf Multimodal Large Language Models

Shun Taguchi,Hideki Deguchi,Takumi Hamazaki,Hiroyuki Sakai

Main category: cs.CV

TL;DR: SpatialPrompting是一种新型框架,利用现成的多模态大语言模型实现零样本3D空间推理,无需昂贵的3D微调或专用输入。

  • Motivation: 现有方法依赖昂贵的3D微调和专用输入(如点云或体素特征),限制了灵活性和可扩展性。
  • Method: 采用关键帧驱动的提示生成策略,结合视觉-语言相似性、马氏距离等指标选择多样化关键帧,并整合相机位姿数据。
  • Result: 在ScanQA和SQA3D等基准数据集上实现零样本最优性能。
  • Conclusion: 该框架简化了3D推理流程,提供了一种更灵活、可扩展的替代方案。

[21] GlyphMastero: A Glyph Encoder for High-Fidelity Scene Text Editing

Tong Wang,Ting Liu,Xiaochao Qu,Chengjing Wu,Luoqi Liu,Xiaolin Hu

Main category: cs.CV

TL;DR: GlyphMastero是一种专门设计的字形编码器,通过字形注意力模块和多尺度OCR特征融合,显著提升了场景文本编辑的质量和准确性。

  • Motivation: 现有基于扩散的方法在生成复杂字符(如中文)时表现不佳,无法保持笔画级精度和结构一致性。
  • Method: 提出GlyphMastero,结合字形注意力模块和多尺度特征金字塔网络,捕捉从笔画到字符的层次结构。
  • Result: 在句子准确率上提升18.02%,文本区域Fréchet起始距离降低53.28%。
  • Conclusion: GlyphMastero通过跨层次和多尺度融合,实现了对场景文本生成的精确控制,显著优于现有方法。

[22] A Simple Detector with Frame Dynamics is a Strong Tracker

Chenxu Peng,Chenxu Wang,Minrui Zou,Danyang Li,Zhengpeng Yang,Yimian Dai,Ming-Ming Cheng,Xiang Li

Main category: cs.CV

TL;DR: 提出了一种红外小目标跟踪方法,通过全局检测和运动感知学习提升性能,在Anti-UAV挑战中表现优异。

  • Motivation: 现有跟踪器依赖裁剪模板区域且运动建模能力有限,难以处理微小目标。
  • Method: 结合全局检测与运动感知学习,利用帧动态和轨迹约束过滤策略。
  • Result: 在多个指标上优于现有方法,在Anti-UAV挑战中取得领先成绩。
  • Conclusion: 该方法有效提升了红外小目标跟踪的性能和鲁棒性。

[23] Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models

Yunxin Li,Zhenyu Liu,Zitao Li,Xuanyu Zhang,Zhenran Xu,Xinyu Chen,Haoyuan Shi,Shenyuan Jiang,Xintong Wang,Jifang Wang,Shouzheng Huang,Xinping Zhao,Borui Jiang,Lanqing Hong,Longyue Wang,Zhuotao Tian,Baoxing Huai,Wenhan Luo,Weihua Luo,Zheng Zhang,Baotian Hu,Min Zhang

Main category: cs.CV

TL;DR: 本文综述了多模态推理研究的发展历程,从早期的模块化方法到统一的多模态大语言模型,并探讨了未来原生大型多模态推理模型(N-LMRMs)的方向。

  • Motivation: 随着人工智能系统在开放、不确定和多模态环境中运行,推理能力成为实现稳健和自适应行为的关键。多模态推理模型(LMRMs)通过整合多种模态数据,旨在实现全面的感知、精确的理解和深度推理。
  • Method: 本文通过四阶段发展路线图综述多模态推理研究:1)基于任务特定模块的早期方法;2)统一到多模态大语言模型的近期方法;3)引入多模态思维链(MCoT)和强化学习;4)探讨原生大型多模态推理模型(N-LMRMs)的未来方向。
  • Result: 多模态推理研究已从模块化方法发展为统一框架,并在推理深度和跨模态理解方面取得进展。然而,全模态泛化、推理深度和代理行为仍存在挑战。
  • Conclusion: 未来的研究方向是开发原生大型多模态推理模型(N-LMRMs),以支持复杂现实环境中的可扩展、代理和自适应推理与规划。

[24] Canny2Palm: Realistic and Controllable Palmprint Generation for Large-scale Pre-training

Xingzeng Lan,Xing Duan,Chen Chen,Weiyu Lin,Bo Wang

Main category: cs.CV

TL;DR: 提出了一种名为Canny2Palm的新方法,通过Canny边缘检测器和Pix2Pix网络生成虚拟掌纹,用于大规模预训练,显著提升了掌纹识别的准确率。

  • Motivation: 掌纹识别数据稀缺,限制了识别准确率的提升。
  • Method: 使用Canny边缘检测器提取掌纹纹理,结合Pix2Pix网络生成虚拟掌纹,并通过重新组合纹理生成新身份。
  • Result: 在开放集掌纹识别基准测试中,预训练模型的识别准确率比现有方法高出7.2%,且性能随合成数据量增加持续提升。
  • Conclusion: Canny2Palm方法能生成高质量虚拟掌纹,适用于大规模预训练,显著提升识别性能。

[25] FF-PNet: A Pyramid Network Based on Feature and Field for Brain Image Registration

Ying Zhang,Shuai Guo,Chenxi Sun,Yuchen Zhu,Jinhai Xiang

Main category: cs.CV

TL;DR: 提出了一种基于特征和变形场的金字塔配准网络(FF-PNet),通过并行提取粗粒度和细粒度特征,显著提升了医学图像配准的效率和精度。

  • Motivation: 现有模型在并行提取粗粒度和细粒度特征时效率不足,FF-PNet旨在解决这一问题。
  • Method: 设计了残差特征融合模块(RFFM)和残差变形场融合模块(RDFFM),并行处理粗粒度和细粒度特征,仅使用传统卷积神经网络。
  • Result: 在LPBA和OASIS数据集上表现优异,Dice相似系数等指标优于现有方法。
  • Conclusion: FF-PNet展示了RFFM和RDFFM的优越特征解码能力,无需注意力机制或多层感知器即可显著提升配准精度。

[26] Building-Guided Pseudo-Label Learning for Cross-Modal Building Damage Mapping

Jiepan Li,He Huang,Yu Sheng,Yujun Guo,Wei He

Main category: cs.CV

TL;DR: 提出了一种基于建筑物引导的伪标签学习框架,用于从多模态遥感图像中评估建筑物损坏,通过多模型融合和低不确定性伪标签训练提升精度。

  • Motivation: 准确评估建筑物损坏对灾害响应和恢复规划至关重要,但多模态图像间的差异和不确定性带来了挑战。
  • Method: 先训练建筑物提取模型,再通过多模型融合和测试时增强生成伪概率,最后用低不确定性伪标签训练优化。随后训练变化检测模型,并引入建筑物引导的低不确定性伪标签细化策略。
  • Result: 在2025 IEEE GRSS数据融合竞赛数据集上取得最高mIoU分数(54.28%),并获得第一名。
  • Conclusion: 该方法通过建筑物引导的伪标签学习有效提升了建筑物损坏评估的准确性和可靠性。

[27] T2VTextBench: A Human Evaluation Benchmark for Textual Control in Video Generation Models

Xuyang Guo,Jiayan Huo,Zhenmei Shi,Zhao Song,Jiahao Zhang,Jiale Zhao

Main category: cs.CV

TL;DR: T2VTextBench是首个评估文本到视频模型中屏幕文本保真度和时间一致性的基准,发现现有模型在生成清晰、一致的文本方面表现不佳。

  • Motivation: 尽管文本到视频生成技术取得了显著进展,但其在生成精确屏幕文本(如字幕或数学公式)方面的能力尚未得到充分验证,这对需要高文本准确性的应用提出了挑战。
  • Method: 提出了T2VTextBench,一个人类评估基准,通过结合复杂文本字符串和动态场景变化的提示,测试模型在多帧中保持详细指令的能力。
  • Result: 评估了十种最先进的系统,发现大多数模型难以生成清晰、一致的文本。
  • Conclusion: 当前视频生成器在文本处理方面存在明显不足,为未来研究提供了明确方向。

[28] An Efficient Method for Accurate Pose Estimation and Error Correction of Cuboidal Objects

Utsav Rai,Hardik Mehta,Vismay Vakharia,Aditya Choudhary,Amit Parmar,Rolif Lima,Kaushik Das

Main category: cs.CV

TL;DR: 提出了一种高效的方法,用于精确估计立方体形状物体的位姿,以减少目标位姿误差并节省时间。

  • Motivation: 解决在自主拾取立方体物体时的高精度位姿估计问题,避免传统方法的误差和时间开销。
  • Method: 提出了一种线性时间方法,用于位姿误差估计和校正,替代传统的全局点云配准和局部配准算法。
  • Result: 该方法能够高效且精确地估计和校正立方体物体的位姿。
  • Conclusion: 该算法为立方体物体的高精度位姿估计提供了一种有效的解决方案。

[29] ViCTr: Vital Consistency Transfer for Pathology Aware Image Synthesis

Onkar Susladkar,Gayatri Deshmukh,Yalcin Tur,Ulas Bagci

Main category: cs.CV

TL;DR: ViCTr是一种新型两阶段框架,结合修正流轨迹和Tweedie校正扩散过程,实现高保真、病理感知的医学图像合成。

  • Motivation: 医学图像合成面临标注数据有限、模态差异和复杂病理表示的挑战,现有方法难以同时保持解剖学保真度和病理特征准确性。
  • Method: ViCTr采用两阶段框架:预训练阶段使用EWC保护解剖结构,微调阶段通过LoRA模块控制病理严重程度,并利用Tweedie公式实现一步采样。
  • Result: ViCTr在多个数据集上表现优异,MFID为17.01,比现有方法低28%,且能提升nnUNet分割性能3.8%。
  • Conclusion: ViCTr首次实现细粒度病理感知的MRI合成,填补了AI医学影像研究的空白。

[30] CAG-VLM: Fine-Tuning of a Large-Scale Model to Recognize Angiographic Images for Next-Generation Diagnostic Systems

Yuto Nakamura,Satoshi Kodera,Haruki Settai,Hiroki Shinohara,Masatsugu Tamura,Tomohiro Noguchi,Tatsuki Furusawa,Ryo Takizawa,Tempei Kabayama,Norihiko Takeda

Main category: cs.CV

TL;DR: 论文提出了一种两阶段的AI支持决策流程,用于冠状动脉造影(CAG)图像分析,并构建了一个双语数据集。通过训练CNN和微调视觉语言模型(VLM),实现了高精度的侧向分类和临床报告生成。

  • Motivation: CAG是评估冠状动脉疾病的金标准,但其解读和治疗规划依赖专家。研究旨在通过AI辅助决策减轻专家负担。
  • Method: 1. 从539例检查中采样14,686帧图像,标注关键帧和侧向性,训练CNN。2. 应用CNN提取关键帧,构建双语报告数据集,微调三种VLM模型。
  • Result: CNN在侧向分类上F1达0.96;微调后的Gemma3模型获得最高临床评分(7.20/10),被命名为CAG-VLM。
  • Conclusion: 研究表明,经过微调的VLM能有效辅助生成CAG图像的临床报告和治疗建议。

[31] DenseGrounding: Improving Dense Language-Vision Semantics for Ego-Centric 3D Visual Grounding

Henry Zheng,Hao Shi,Qihang Peng,Yong Xien Chng,Rui Huang,Yepeng Weng,Zhongchao Shi,Gao Huang

Main category: cs.CV

TL;DR: DenseGrounding通过增强视觉和文本语义,解决了3D视觉定位中的稀疏点云融合和语言描述限制问题,显著提升了性能。

  • Motivation: 推动智能代理在3D环境中通过自然语言理解和交互,解决稀疏点云融合和语言描述限制的挑战。
  • Method: 提出DenseGrounding方法,包括Hierarchical Scene Semantic Enhancer(视觉特征增强)和Language Semantic Enhancer(文本描述增强)。
  • Result: 在完整数据集和小型子集上分别提升5.81%和7.56%的准确率,并在CVPR 2024比赛中获得第一名和创新奖。
  • Conclusion: DenseGrounding在3D视觉定位任务中表现出色,验证了其有效性和鲁棒性。

[32] ReAlign: Bilingual Text-to-Motion Generation via Step-Aware Reward-Guided Alignment

Wanjiang Weng,Xiaofeng Tan,Hongsong Wang,Pan Zhou

Main category: cs.CV

TL;DR: 论文提出BiHumanML3D双语数据集和BiMD模型,结合ReAlign方法提升双语文本到动作生成的质量和语义一致性。

  • Motivation: 双语文本到动作生成在跨语言应用中潜力巨大,但缺乏双语数据集且现有模型存在语义不一致问题。
  • Method: 提出BiHumanML3D数据集和BiMD模型,结合Reward-guided sampling Alignment (ReAlign)方法优化生成过程。
  • Result: 实验表明,该方法显著提升了文本与动作的对齐性和动作质量。
  • Conclusion: BiHumanML3D和BiMD模型结合ReAlign方法有效解决了双语文本到动作生成的挑战。

[33] Federated Deconfounding and Debiasing Learning for Out-of-Distribution Generalization

Zhuang Qi,Sijin Zhou,Lei Meng,Han Hu,Han Yu,Xiangxu Meng

Main category: cs.CV

TL;DR: FedDDL方法通过构建结构化因果图和后门调整解决联邦学习中的属性偏差问题,显著提升模型性能。

  • Motivation: 联邦学习中属性偏差导致局部模型优化不一致,现有方法未能全面分析推理路径且受混杂因素干扰。
  • Method: 提出FedDDL方法,包括客户端内去混杂模块和客户端间去偏模块,通过因果原型正则化连接异构表示。
  • Result: 在2个基准数据集上,FedDDL平均Top-1准确率比现有方法高4.5%。
  • Conclusion: FedDDL有效提升模型对主对象的关注能力,优于现有方法。

[34] StabStitch++: Unsupervised Online Video Stitching with Spatiotemporal Bidirectional Warps

Lang Nie,Chunyu Lin,Kang Liao,Yun Zhang,Shuaicheng Liu,Yao Zhao

Main category: cs.CV

TL;DR: StabStitch++是一个新型视频拼接框架,通过无监督学习同时实现空间拼接和时间稳定化,解决了视频拼接中的“warping shake”问题。

  • Motivation: 视频拼接中由于连续不平滑的扭曲导致的时间内容抖动(warping shake)会影响视觉体验,即使输入视频稳定,拼接视频仍可能产生不希望的抖动。
  • Method: 提出虚拟中间平面和双向分解模块,均匀分配对齐负担和投影失真;结合空间和时间扭曲推导拼接轨迹的数学表达式;提出平滑模型,使用混合损失优化内容对齐和轨迹平滑。
  • Result: StabStitch++在拼接性能、鲁棒性和效率上优于现有方法,并实现了实时在线视频拼接系统。
  • Conclusion: StabStitch++通过同时优化对齐和稳定化,显著提升了视频拼接的质量和实用性。

[35] Automated Thoracolumbar Stump Rib Detection and Analysis in a Large CT Cohort

Hendrik Möller,Hanna Schön,Alina Dima,Benjamin Keinert-Weth,Robert Graf,Matan Atad,Johannes Paetzold,Friederike Jungmann,Rickmer Braren,Florian Kofler,Bjoern Menze,Daniel Rueckert,Jan S. Kirschke

Main category: cs.CV

TL;DR: 该研究通过高分辨率深度学习模型自动化检测胸腰椎残根肋骨,并定量分析其形态特征,显著优于现有方法。

  • Motivation: 胸腰椎残根肋骨是胸腰椎过渡椎或计数异常的重要指标,现有研究多依赖人工定性评估,本研究旨在实现自动化检测与定量分析。
  • Method: 训练高分辨率深度学习模型进行肋骨分割,并采用迭代算法和分段线性插值评估肋骨长度。
  • Result: 模型分割效果显著提升(Dice分数0.997 vs. 0.779),肋骨长度评估成功率达98.2%。残根肋骨形态特征明显不同(如更薄、更靠后等),区分残根肋骨与正常肋骨的F1分数达0.84。
  • Conclusion: 该研究成功实现了胸腰椎残根肋骨的自动化检测与定量分析,模型权重和掩码已公开。

[36] Driving with Context: Online Map Matching for Complex Roads Using Lane Markings and Scenario Recognition

Xin Bi,Zhichao Li,Yuxuan Xia,Panpan Tong,Lijuan Zhang,Yang Chen,Junsheng Fu

Main category: cs.CV

TL;DR: 提出了一种基于HMM和多概率因子的在线SD地图匹配方法,显著提升了复杂路网中的匹配精度。

  • Motivation: 当前在线地图匹配方法在复杂路网(尤其是多层道路区域)中容易出错,需要更准确的解决方案。
  • Method: 通过多车道跟踪生成车道标记,结合HMM构建增强SD地图;利用ICP注册和场景识别模型设计概率因子。
  • Result: 在欧洲和中国的道路测试中,F1分数分别达到98.04%和94.60%,显著优于基准方法。
  • Conclusion: 该方法在复杂路网中实现了高精度的在线地图匹配,尤其在多层道路区域表现优异。

[37] Adaptive Contextual Embedding for Robust Far-View Borehole Detection

Xuesong Liu,Tianyu Hao,Emmett J. Ientilucci

Main category: cs.CV

TL;DR: 提出一种自适应检测方法,通过EMA统计更新改进YOLO架构,解决小尺度、高密度分布的钻孔检测问题。

  • Motivation: 现有方法难以检测小尺度、高密度分布的钻孔,影响爆破操作的安全和效率。
  • Method: 引入自适应增强、嵌入稳定化和上下文细化三个组件,利用EMA统计更新改进特征提取和检测。
  • Result: 在采石场数据集上显著优于基线YOLO方法,验证了方法的有效性。
  • Conclusion: 该方法在复杂工业场景中表现出色,提升了钻孔检测的准确性和鲁棒性。

[38] SOAP: Style-Omniscient Animatable Portraits

Tingting Liao,Yujian Zheng,Adilbek Karmanov,Liwen Hu,Leyang Jin,Yuliang Xiu,Hao Li

Main category: cs.CV

TL;DR: SOAP是一个风格全知的框架,用于从任何肖像生成具有拓扑一致性和绑定控制的3D头像。

  • Motivation: 解决从单张图像创建可动画3D头像时的风格限制和配件/发型处理困难。
  • Method: 利用多视角扩散模型和自适应优化管道,通过可微分渲染保持FLAME网格的拓扑和绑定。
  • Result: 生成的纹理化头像支持FACS动画,保留细节(如编织头发或配件),并在实验中优于现有技术。
  • Conclusion: SOAP在单视角头像建模和基于扩散的Image-to-3D生成中表现优越,代码和数据已公开。

[39] Split Matching for Inductive Zero-shot Semantic Segmentation

Jialei Chen,Xu Zheng,Dongyue Li,Chong Yi,Seigo Ito,Danda Pani Paudel,Luc Van Gool,Hiroshi Murase,Daisuke Deguchi

Main category: cs.CV

TL;DR: 论文提出了一种名为Split Matching(SM)的新分配策略,用于解决零样本语义分割中传统匈牙利匹配对未见类别分类不准确的问题。通过将匹配分为可见类别和潜在类别两部分,并结合多尺度特征增强模块,SM在标准基准测试中取得了最佳性能。

  • Motivation: 零样本语义分割(ZSS)的目标是分割训练中未标注的类别。现有方法因缺乏对未见类别的监督而容易过拟合到已见类别。论文旨在通过改进匹配策略和特征增强来解决这一问题。
  • Method: 提出Split Matching(SM),将匈牙利匹配解耦为可见类别和潜在类别两部分,分别优化。通过聚类CLIP密集特征生成伪掩码,并结合多尺度特征增强模块(MFE)提升空间细节捕捉能力。
  • Result: SM在标准基准测试中实现了最先进的性能,验证了其在零样本语义分割中的有效性。
  • Conclusion: SM通过解耦匹配策略和多尺度特征增强,显著提升了零样本语义分割的性能,为未来研究提供了新方向。

[40] xTrace: A Facial Expressive Behaviour Analysis Tool for Continuous Affect Recognition

Mani Kumar Tellamekala,Shashank Jaiswal,Thomas Smith,Timur Alamev,Gary McKeown,Anthony Brown,Michel Valstar

Main category: cs.CV

TL;DR: 论文提出xTrace工具,解决自然环境下实时面部表情分析的两大挑战:缺乏大规模标记数据集和高效特征提取。xTrace在50k视频验证集上表现优异。

  • Motivation: 解决自然环境下实时面部表情分析的两大挑战:缺乏大规模标记数据集和高效特征提取。
  • Method: xTrace利用大规模数据集(450k视频)和高效、可解释的面部特征描述符,实现高精度和低计算复杂度。
  • Result: 在50k视频验证集上,xTrace达到0.86平均CCC和0.13平均绝对误差。
  • Conclusion: xTrace在2D情感空间中表现优异,对非正面头部姿态鲁棒,且不确定性估计与准确性高度相关。

[41] UncertainSAM: Fast and Efficient Uncertainty Quantification of the Segment Anything Model

Timo Kaiser,Thomas Norrenbrock,Bodo Rosenhahn

Main category: cs.CV

TL;DR: 本文提出了一种基于贝叶斯熵的轻量级不确定性量化方法USAM,用于解决Segment Anything Model(SAM)中的不确定性量化问题,并在多个数据集上验证了其优越性能。

  • Motivation: 由于SAM模型的类不可知性和模糊性,现有的不确定性量化方法难以适用,因此需要一种新的方法来量化其不确定性。
  • Method: 提出了一种基于贝叶斯熵的理论模型,联合考虑偶然性、认知性和任务不确定性,并训练了轻量级的后处理方法USAM。
  • Result: USAM在SA-V、MOSE、ADE20k、DAVIS和COCO数据集上表现出优越的预测能力,且计算成本低、易于使用。
  • Conclusion: USAM为SAM提供了一种高效的不确定性量化解决方案,支持用户提示、增强半监督流程,并平衡了准确性与成本效率。

[42] ULFine: Unbiased Lightweight Fine-tuning for Foundation-Model-Assisted Long-Tailed Semi-Supervised Learning

Enhao Zhang,Chaohua Li,Chuanxing Geng,Songcan Chen

Main category: cs.CV

TL;DR: 本文探讨了大规模视觉基础模型(如CLIP)对长尾半监督学习(LTSSL)的影响,提出了三种策略(LP、LFT、FFT),发现FFT性能下降,LP和LFT对尾部类别帮助有限。作者提出ULFine策略,通过自适应拟合和双logit融合显著提升性能。

  • Motivation: 研究基础模型在LTSSL中的表现,解决现有策略在尾部类别上的局限性。
  • Method: 采用LP、LFT、FFT三种策略分析基础模型在LTSSL中的表现,并提出ULFine策略。
  • Result: FFT性能下降,LP和LFT对尾部类别帮助有限;ULFine显著降低训练成本并提升准确性。
  • Conclusion: ULFine通过自适应拟合和双logit融合,有效解决了LTSSL中的偏差问题,性能优于现有方法。

[43] FG-CLIP: Fine-Grained Visual and Textual Alignment

Chunyu Xie,Bin Wang,Fanjing Kong,Jincheng Li,Dawei Liang,Gengshen Zhang,Dawei Leng,Yuhui Yin

Main category: cs.CV

TL;DR: FG-CLIP通过生成长标题-图像对、构建高质量数据集和引入困难负样本,提升了CLIP在细粒度理解任务中的表现。

  • Motivation: CLIP在多模态任务中表现优异,但在细粒度理解上因依赖粗粒度短标题而受限。
  • Method: 1. 生成16亿长标题-图像对;2. 构建1200万图像和4000万区域标注的高质量数据集;3. 引入1000万困难负样本。
  • Result: FG-CLIP在细粒度理解、开放词汇目标检测等任务中优于CLIP和其他先进方法。
  • Conclusion: FG-CLIP有效提升细粒度细节捕捉能力,显著改进模型性能。

[44] Visual Affordances: Enabling Robots to Understand Object Functionality

Tommaso Apicella,Alessio Xompero,Andrea Cavallaro

Main category: cs.CV

TL;DR: 论文提出了一种统一的视觉可供性预测框架,解决了现有方法因定义不一致导致的复现性问题,并引入了Affordance Sheet以提高透明度。

  • Motivation: 现有的人机交互中,可供性预测因任务不同而定义不一致,导致复现性差,难以公平比较。
  • Method: 提出统一的可供性预测框架,系统回顾现有方法和数据集,并引入Affordance Sheet记录解决方案和验证细节。
  • Result: 通过将视觉可供性预测与物理世界关联,展示了物体质量对可供性预测的影响。
  • Conclusion: 该框架填补了可供性感知与机器人执行之间的空白,为任务完成提供了更全面的信息。

[45] PIDiff: Image Customization for Personalized Identities with Diffusion Models

Jinyu Gu,Haipeng Liu,Meng Wang,Yang Wang

Main category: cs.CV

TL;DR: PIDiff是一种基于微调的扩散模型,用于个性化文本到图像生成,通过W+空间和身份定制微调策略解决身份与背景信息纠缠问题。

  • Motivation: 现有方法在文本到图像生成中未能有效分离身份与背景信息,导致生成图像失去关键身份特征且多样性降低。
  • Method: 提出PIDiff模型,利用W+空间和多级特征提取,结合交叉注意力块和参数优化策略,实现身份特征的精确定位和提取。
  • Result: 实验验证PIDiff在保留身份信息的同时,保持了预训练模型对野外图像的生成能力。
  • Conclusion: PIDiff通过避免语义纠缠,实现了更准确的个性化文本到图像生成。

[46] Nonlinear Motion-Guided and Spatio-Temporal Aware Network for Unsupervised Event-Based Optical Flow

Zuntao Liu,Hao Zhuang,Junjie Jiang,Yuhang Song,Zheng Fang

Main category: cs.CV

TL;DR: 论文提出了一种名为E-NMSTFlow的无监督事件光流网络,专注于长时间序列,通过利用丰富的时空信息和非线性运动补偿损失来提升光流估计的准确性。

  • Motivation: 现有基于事件的光流估计方法多采用帧基技术,忽略了事件的时空特性,且假设事件间为线性运动,导致长时间序列中误差增加。
  • Method: 提出了时空运动特征感知模块(STMFA)和自适应运动特征增强模块(AMFE),并引入非线性运动补偿损失。
  • Result: 在MVSEC和DSEC-Flow数据集上,该方法在无监督学习方法中排名第一。
  • Conclusion: E-NMSTFlow通过充分利用时空信息和非线性运动特性,显著提升了事件光流估计的准确性。

[47] DispBench: Benchmarking Disparity Estimation to Synthetic Corruptions

Shashank Agnihotri,Amaan Ansari,Annika Dackermann,Fabian Rösch,Margret Keuper

Main category: cs.CV

TL;DR: 论文介绍了DispBench,一个用于系统评估视差估计方法可靠性的综合基准工具,填补了该领域标准化评估的空白。

  • Motivation: 深度学习在视差估计任务中表现出色,但其对分布偏移和对抗攻击的敏感性引发了对可靠性和泛化性的担忧,缺乏标准化基准阻碍了进展。
  • Method: 提出DispBench,通过合成图像损坏(如对抗攻击和分布外偏移)评估视差估计方法的鲁棒性,覆盖多数据集和多样损坏场景。
  • Result: 进行了迄今为止最广泛的视差估计方法性能和鲁棒性分析,揭示了准确性、可靠性和泛化性之间的关键相关性。
  • Conclusion: DispBench为视差估计领域的鲁棒性评估提供了标准化工具,推动了该领域的进步。

[48] MDE-Edit: Masked Dual-Editing for Multi-Object Image Editing via Diffusion Models

Hongyang Zhu,Haipeng Liu,Bo Fu,Yang Wang

Main category: cs.CV

TL;DR: MDE-Edit提出了一种无需训练的推理阶段优化方法,通过双损失设计(OAL和CCL)解决多目标编辑中的定位不准和属性不匹配问题。

  • Motivation: 多目标编辑在复杂场景中面临定位不准和属性不匹配的挑战,现有方法难以解决这些问题。
  • Method: 提出MDE-Edit方法,通过Object Alignment Loss(OAL)和Color Consistency Loss(CCL)优化扩散模型中的噪声潜在特征。
  • Result: 实验表明MDE-Edit在编辑准确性和视觉质量上优于现有方法。
  • Conclusion: MDE-Edit为复杂多目标图像编辑任务提供了鲁棒的解决方案。

[49] Automated vision-based assistance tools in bronchoscopy: stenosis severity estimation

Clara Tomasini,Javier Rodriguez-Puigvert,Dinora Polanco,Manuel Viñuales,Luis Riazuelo,Ana Cristina Murillo

Main category: cs.CV

TL;DR: 提出了一种基于支气管镜图像的自动化评估声门下狭窄严重程度的方法,无需CT扫描,减少了主观性和辐射暴露。

  • Motivation: 声门下狭窄的评估通常依赖主观视觉检查或CT扫描,前者不准确,后者有辐射风险,亟需自动化方法。
  • Method: 利用支气管镜图像的光照衰减效应分割和跟踪管腔,构建3D模型以测量狭窄程度。
  • Result: 方法首次实现自动化评估,结果与CT和专家评估一致,具有可靠重复性。
  • Conclusion: 该方法可辅助诊断,减少检查时间和辐射暴露,并发布了首个公开数据集。

[50] Probabilistic Embeddings for Frozen Vision-Language Models: Uncertainty Quantification with Gaussian Process Latent Variable Models

Aishwarya Venkataramanan,Paul Bodesheim,Joachim Denzler

Main category: cs.CV

TL;DR: GroVE提出了一种后处理方法,从冻结的视觉语言模型(VLM)中获取概率嵌入,通过高斯过程潜在变量模型(GPLVM)优化单模态重建和跨模态对齐目标,实现不确定性感知嵌入。

  • Motivation: 标准VLM的确定性嵌入难以捕捉视觉和文本描述中的不确定性,现有方法需要大量数据训练且未充分利用已有VLM表示。
  • Method: 基于GPLVM构建共享低维潜在空间,优化单模态嵌入重建和跨模态对齐目标,生成概率嵌入。
  • Result: GroVE在跨模态检索、视觉问答和主动学习等任务中实现了最先进的不确定性校准。
  • Conclusion: GroVE提供了一种高效的后处理方法,显著提升了VLM的不确定性感知能力。

[51] PaniCar: Securing the Perception of Advanced Driving Assistance Systems Against Emergency Vehicle Lighting

Elad Feldman,Jacob Shams,Dudi Biton,Alfred Chen,Shaoyuan Xie,Satoru Koda,Yisroel Mirsky,Asaf Shabtai,Yuval Elovici,Ben Nassi

Main category: cs.CV

TL;DR: 研究发现自动驾驶汽车在紧急车辆灯光下存在检测漏洞,提出Caracetamol框架提升检测稳定性。

  • Motivation: 自动驾驶汽车在紧急车辆灯光下检测性能下降,存在安全隐患。
  • Method: 评估多种ADAS和检测器,提出Caracetamol框架优化检测性能。
  • Result: Caracetamol显著提升检测置信度并降低波动,支持实时处理。
  • Conclusion: Caracetamol有效缓解紧急车辆灯光对检测的影响,提升安全性。

[52] Biomed-DPT: Dual Modality Prompt Tuning for Biomedical Vision-Language Models

Wei Peng,Kang Liu,Jianchen Hu,Meng Zhang

Main category: cs.CV

TL;DR: Biomed-DPT是一种知识增强的双模态提示调优技术,通过结合文本和视觉提示,优化生物医学图像分类任务。

  • Motivation: 当前提示学习方法仅使用文本提示,忽略了生物医学图像的特殊结构(如复杂解剖结构和细微病理特征)。
  • Method: Biomed-DPT设计文本提示(临床提示和领域适应提示)和视觉提示(零向量软提示),并通过知识蒸馏提取临床知识。
  • Result: 在11个生物医学图像数据集上平均分类准确率为66.14%,优于CoOp方法。
  • Conclusion: Biomed-DPT通过双模态提示显著提升了生物医学图像分类性能。

[53] EAM: Enhancing Anything with Diffusion Transformers for Blind Super-Resolution

Haizhen Xie,Kunpeng Du,Qiangyu Yan,Sen Lu,Jianhong Han,Hanting Chen,Hailin Hu,Jie Hu

Main category: cs.CV

TL;DR: EAM是一种基于DiT的新型BSR方法,通过引入Ψ-DiT块和渐进式掩码图像建模策略,显著提升了图像恢复性能。

  • Motivation: 利用预训练的T2I扩散模型指导BSR是主流方法,但传统U-Net架构性能有限,DiT表现更优。
  • Method: 提出EAM方法,结合Ψ-DiT块和渐进式掩码图像建模策略,优化T2I模型的先验知识利用。
  • Result: EAM在多个数据集上达到SOTA,定量指标和视觉质量均优于现有方法。
  • Conclusion: EAM通过创新架构和策略,显著提升了BSR任务的性能,展示了DiT在图像恢复中的潜力。

[54] HQC-NBV: A Hybrid Quantum-Classical View Planning Approach

Xiaotong Yu,Chang Wen Chen

Main category: cs.CV

TL;DR: 论文提出了一种混合量子经典框架HQC-NBV,用于高效视图规划,通过量子特性提升探索效率,比传统方法效率提高49.2%。

  • Motivation: 解决传统视图规划方法在复杂场景中计算可扩展性和解决方案最优性不足的问题。
  • Method: 提出基于哈密顿量公式的多组件成本项和参数中心变分ansatz,利用双向交替纠缠模式捕获参数层次依赖关系。
  • Result: 实验表明量子组件显著提升性能,探索效率比传统方法高49.2%。
  • Conclusion: 该工作将量子计算融入机器人感知系统,为机器人视觉任务提供了范式转变的解决方案。

[55] Diffusion Model Quantization: A Review

Qian Zeng,Chenggong Hu,Mingli Song,Jie Song

Main category: cs.CV

TL;DR: 本文综述了扩散模型量化的最新进展,分析了挑战、技术分类及代表性方案,并展望了未来研究方向。

  • Motivation: 为在资源受限的边缘设备上高效部署扩散模型,量化技术成为关键。本文旨在总结和评估当前扩散模型量化的研究进展。
  • Method: 通过分类讨论量化技术原理,并从定性和定量角度分析代表性方案,包括基于U-Net和DiT的模型。
  • Result: 定量评估了多种方法在数据集上的表现,定性分析了量化误差的影响。
  • Conclusion: 提出了生成模型量化在实际应用中的未来研究方向,并公开了相关资源。

[56] Does CLIP perceive art the same way we do?

Andrea Asperti,Leonardo Dessì,Maria Chiara Tonetti,Nico Wu

Main category: cs.CV

TL;DR: 研究探讨了CLIP模型在理解绘画(包括人类创作和AI生成图像)时与人类视觉感知的异同,评估了其在内容、风格、历史时期等多维度的表现,并讨论了其在生成艺术中的潜在应用和局限性。

  • Motivation: 探索CLIP模型在艺术领域的视觉理解能力,尤其是其与人类感知的一致性,以评估其在生成艺术中的适用性。
  • Method: 通过设计针对性任务,比较CLIP的响应与人类标注和专家基准,分析其在内容、风格、历史时期等方面的表现。
  • Result: 研究发现CLIP在视觉表征上存在优势与局限,特别是在美学线索和艺术意图的理解上,与人类感知存在差异。
  • Conclusion: 强调了多模态系统在创意领域应用时需更深入的可解释性,尤其是在涉及主观性和细微差异的艺术领域。

[57] PADriver: Towards Personalized Autonomous Driving

Genghua Kou,Fan Jia,Weixin Mao,Yingfei Liu,Yucheng Zhao,Ziheng Zhang,Osamu Yoshie,Tiancai Wang,Ying Li,Xiangyu Zhang

Main category: cs.CV

TL;DR: PADriver是一个基于多模态大语言模型的个性化自动驾驶框架,通过闭环评估在交通规则下表现出色。

  • Motivation: 提出个性化自动驾驶的需求,通过结合多模态输入和闭环评估提升驾驶决策性能。
  • Method: 利用多模态大语言模型处理流式帧和个性化文本提示,进行场景理解、危险等级估计和动作决策。
  • Result: 在PAD-Highway基准测试中表现优于现有方法,支持多种驾驶模式。
  • Conclusion: PADriver在个性化自动驾驶中具有显著优势,为行为分析提供了高质量数据集。

[58] PlaceIt3D: Language-Guided Object Placement in Real 3D Scenes

Ahmed Abdelreheem,Filippo Aleotti,Jamie Watson,Zawar Qureshi,Abdelrahman Eldesokey,Peter Wonka,Gabriel Brostow,Sara Vicente,Guillermo Garcia-Hernando

Main category: cs.CV

TL;DR: 论文提出了一种新任务:语言引导的3D场景物体放置,并建立了相关基准和数据集。

  • Motivation: 解决3D场景中语言引导物体放置的模糊性和几何关系推理问题。
  • Method: 提出新基准、数据集和首个非平凡基线方法。
  • Result: 建立了任务基准和数据集,并提供了初步方法。
  • Conclusion: 该任务有望成为评估通用3D LLM模型的标准之一。

[59] PRE-Mamba: A 4D State Space Model for Ultra-High-Frequent Event Camera Deraining

Ciyu Ruan,Ruishan Guo,Zihang Gong,Jingao Xu,Wenhan Yang,Xinlei Chen

Main category: cs.CV

TL;DR: PRE-Mamba是一种新型事件相机去雨框架,通过4D事件云表示和时空解耦融合模块,高效去除雨天噪声,同时保持高时间精度和计算效率。

  • Motivation: 事件相机在雨天条件下会受到密集噪声干扰,现有方法在时间精度、去雨效果和计算效率之间存在权衡。
  • Method: 提出4D事件云表示、时空解耦融合模块(STDF)和多尺度状态空间模型(MS3M),结合频域正则化。
  • Result: 在EventRain-27K数据集上表现优异(SR 0.95,NR 0.91),计算效率高(0.4s/M事件),参数仅0.26M。
  • Conclusion: PRE-Mamba在多种雨天和雪天条件下均表现出良好的泛化能力,为事件相机去雨提供了高效解决方案。

[60] Mapping User Trust in Vision Language Models: Research Landscape, Challenges, and Prospects

Agnese Chiatti,Sara Bernardini,Lara Shibelski Godoy Piccolo,Viola Schiaffonati,Matteo Matteucci

Main category: cs.CV

TL;DR: 本文综述了用户与视觉语言模型(VLM)交互中的信任动态,通过多学科分类法探讨认知科学能力、协作模式和行为,并提出了未来VLM信任研究的初步需求。

  • Motivation: 随着视觉语言模型(VLM)的快速普及,需要保护用户并告知他们何时信任这些系统。
  • Method: 通过多学科分类法分析用户-VLM交互中的信任动态,并结合文献和用户研讨会的结果。
  • Result: 提出了未来VLM信任研究的初步需求。
  • Conclusion: 需要进一步研究用户与VLM之间的信任机制,以提升系统的可靠性和用户信任度。

[61] Feature-Augmented Deep Networks for Multiscale Building Segmentation in High-Resolution UAV and Satellite Imagery

Chintan B. Maniyar,Minakshi Kumar,Gengchen Mai

Main category: cs.CV

TL;DR: 该论文提出了一种基于深度学习的多尺度建筑分割框架,结合特征增强和优化训练策略,显著提高了RGB影像中建筑分割的准确性。

  • Motivation: 由于建筑与非建筑特征的光谱相似性、阴影和不规则几何形状,高分辨率RGB影像中的建筑分割仍然具有挑战性。
  • Method: 研究使用多传感器数据集,通过PCA、VDVI、MBI和Sobel边缘滤波器增强输入特征,并采用Res-U-Net架构结合层冻结、循环学习率和SuperConvergence训练策略。
  • Result: 模型在WorldView-3影像上实现了96.5%的总体准确率、0.86的F1分数和0.80的IoU,优于现有RGB基准。
  • Conclusion: 研究表明,结合多分辨率影像、特征增强和优化训练策略,可以显著提升遥感应用中建筑分割的鲁棒性。

[62] Aesthetics Without Semantics

C. Alejandro Parraga,Olivier Penacchio,Marcos Muňoz Gonzalez,Bogdan Raducanu,Xavier Otazu

Main category: cs.CV

TL;DR: 论文通过创建最小语义内容(MSC)数据库,解决了现有美学研究中数据库偏向美丽图像的问题,并展示了丑陋图像如何影响美学评价与图像特征的关系。

  • Motivation: 现有美学研究数据库多偏向美丽图像,导致美学评价研究受限,无法全面反映美学判断的多样性。
  • Method: 创建MSC数据库,包含10,426张图像(每张由100名观察者评价),并利用图像指标分析美丽与丑陋图像对美学评价的影响。
  • Result: 研究发现,加入丑陋图像可以改变甚至逆转图像特征与美学评价之间的关系,揭示了现有研究的局限性。
  • Conclusion: 美学研究中仅关注美丽图像可能放大、低估或忽略重要效应,需扩展美学评价范围以获得更全面的理解。

[63] Progressive Inertial Poser: Progressive Real-Time Kinematic Chain Estimation for 3D Full-Body Pose from Three IMU Sensors

Zunjie Zhu,Yan Zhao,Yihan Hu,Guoxiang Wang,Hai Qiu,Bolun Zheng,Chenggang Yan,Feng Xu

Main category: cs.CV

TL;DR: 提出了一种仅使用头戴和手腕三个IMU传感器的全身姿态估计方法ProgIP,结合神经网络和人体动力学模型,性能优于同类方法。

  • Motivation: 提高虚拟现实中全身姿态估计的实用性,减少硬件复杂性,避免依赖额外传感器或外部视觉设备。
  • Method: 结合Transformer Encoder和双向LSTM(TE-biLSTM)捕捉惯性序列的时序依赖,使用多层感知机(MLPs)解码并映射到SMPL模型参数。
  • Result: 在多个公开数据集上定量和定性实验表明,该方法优于同类输入的最先进方法,性能接近使用六个IMU传感器的工作。
  • Conclusion: ProgIP方法在减少传感器数量的同时,实现了高精度的实时全身运动重建,适用于虚拟现实应用。

[64] Hearing and Seeing Through CLIP: A Framework for Self-Supervised Sound Source Localization

Sooyoung Park,Arda Senocak,Joon Son Chung

Main category: cs.CV

TL;DR: 本文提出了一种自监督方法,将CLIP模型扩展应用于声音源定位,无需显式文本输入,并通过音频驱动的嵌入生成声音区域掩码,实现音频-视觉对齐。

  • Motivation: 利用预训练多模态基础模型(如CLIP)的对齐知识,提升声音源定位的完整性和紧凑性。
  • Method: 提出框架将音频映射为与CLIP文本编码器兼容的标记,生成音频驱动嵌入,并通过对比音频-视觉对应目标对齐视觉特征。
  • Result: 在五个多样化任务中,该方法均优于现有技术,并在零样本设置中表现出强泛化能力。
  • Conclusion: 通过LLM引导的扩展进一步增强了音频-视觉场景理解,验证了预训练多模态模型在声音源定位中的潜力。

[65] Joint Super-Resolution and Segmentation for 1-m Impervious Surface Area Mapping in China's Yangtze River Economic Belt

Jie Deng,Danfeng Hong,Chenyu Li,Naoto Yokoya

Main category: cs.CV

TL;DR: JointSeg框架结合超分辨率和分割技术,直接从Sentinel-2影像生成1米分辨率的地表不透水面(ISA)地图,优于传统方法。

  • Motivation: 传统方法在复杂地形和城乡模式中表现不佳,JointSeg提供了一种可扩展且经济的替代方案。
  • Method: 通过多模态跨分辨率输入训练,逐步提升分辨率(10m到1m),并保留空间纹理,实现跨尺度特征融合。
  • Result: 在长江经济带生成2021年ISA-1地图,F1-score达85.71%,优于基准产品9.5%-61.07%。
  • Conclusion: JointSeg在城乡和山区均表现稳健,并成功捕捉2017-2023年城市化动态。

[66] Threshold Modulation for Online Test-Time Adaptation of Spiking Neural Networks

Kejie Zhao,Wenjia Hua,Aiersi Tuerhong,Luziwei Leng,Yuxin Ma,Qinghua Guo

Main category: cs.CV

TL;DR: 论文提出了一种适用于脉冲神经网络(SNNs)的低功耗在线测试时间适应框架(TM),通过动态调整神经元阈值提升模型在分布变化下的泛化能力。

  • Motivation: 解决SNNs在部署后适应分布变化的能力不足的问题,现有在线测试时间适应方法不适用于SNNs。
  • Method: 提出阈值调制(TM)方法,通过神经元动态启发的归一化动态调整神经元阈值,兼容神经形态硬件。
  • Result: 在基准数据集上验证了TM方法的有效性,提升了SNNs对分布变化的鲁棒性,同时保持低计算成本。
  • Conclusion: TM方法为SNNs的在线测试时间适应提供了实用解决方案,并为未来神经形态芯片设计提供了启发。

[67] GeomHair: Reconstruction of Hair Strands from Colorless 3D Scans

Rachmadio Noval Lazuardi,Artem Sevastopolsky,Egor Zakharov,Matthias Niessner,Vanessa Sklyarova

Main category: cs.CV

TL;DR: 提出了一种从无色3D扫描中重建头发丝的新方法,通过多模态头发方向提取实现,无需依赖颜色信息。

  • Motivation: 解决从原始扫描数据中准确恢复头发丝的挑战,适用于数字头像合成、动画和AR/VR应用。
  • Method: 利用扫描的锐利表面特征和神经2D线检测器估计头发方向,结合扩散先验和合成数据训练。
  • Result: 能够准确重建简单和复杂发型,并发布了Strands400数据集。
  • Conclusion: 该方法在无需颜色信息的情况下实现了高精度头发丝重建,推动了相关研究。

[68] EDmamba: A Simple yet Effective Event Denoising Method with State Space Model

Ciyu Ruan,Zihang Gong,Ruishan Guo,Jingao Xu,Xinlei Chen

Main category: cs.CV

TL;DR: 提出了一种基于状态空间模型(SSMs)的新型事件去噪框架,通过空间和时间Mamba模块高效处理事件云,在准确性和效率上优于现有方法。

  • Motivation: 事件相机的高动态范围和低延迟特性使其在高速视觉中表现优异,但输出噪声大,现有去噪方法难以兼顾计算效率和鲁棒性。
  • Method: 将事件表示为4D事件云,通过粗粒度特征提取模块提取几何和极性感知特征,结合空间Mamba(S-SSM)和时间Mamba(T-SSM)模块建模局部几何结构和全局时间动态。
  • Result: 模型参数为88.89K,推理时间为0.0685s/100K事件,准确率为0.982,比基于Transformer的方法准确率高2.08%,速度快36倍。
  • Conclusion: 该方法在保持事件相机高速优势的同时,实现了高效且鲁棒的去噪,为实时处理提供了可行方案。

[69] PillarMamba: Learning Local-Global Context for Roadside Point Cloud via Hybrid State Space Model

Zhang Zhang,Chao Sun,Chao Yue,Da Wen,Tianze Wang,Jianghao Leng

Main category: cs.CV

TL;DR: 本文提出PillarMamba框架,结合Cross-stage State-space Group(CSG)和Hybrid State-space Block(HSB),用于路边点云的3D物体检测,提升网络表达能力和计算效率,并在DAIR-V2X-I基准上表现优异。

  • Motivation: 路边点云的3D物体检测尚未被充分探索,而点云检测器的性能关键在于网络的感受野和场景上下文利用能力。Mamba(基于状态空间模型)因其高效的全局感受野成为新选择。
  • Method: 提出PillarMamba框架,结合CSG实现跨阶段特征融合,并通过HSB解决局部连接中断和历史关系遗忘问题,增强局部-全局上下文。
  • Result: 在DAIR-V2X-I基准上优于现有方法。
  • Conclusion: PillarMamba通过结合CSG和HSB,有效提升了路边点云检测的性能和效率。

[70] TokLIP: Marry Visual Tokens to CLIP for Multimodal Comprehension and Generation

Haokun Lin,Teng Wang,Yixiao Ge,Yuying Ge,Zhichao Lu,Ying Wei,Qingfu Zhang,Zhenan Sun,Ying Shan

Main category: cs.CV

TL;DR: TokLIP是一种视觉标记器,通过语义化向量量化标记并融入CLIP级语义,提升多模态统一任务的性能,同时支持端到端训练。

  • Motivation: 现有方法(如Chameleon和Emu3)存在训练计算开销高和语义理解能力有限的问题,TokLIP旨在解决这些挑战。
  • Method: TokLIP结合低层离散VQ标记器与ViT编码器,分离理解和生成目标,无需定制量化操作。
  • Result: TokLIP在数据效率和语义理解上表现优异,同时增强生成能力,适用于自回归Transformer。
  • Conclusion: TokLIP为多模态任务提供了一种高效且语义丰富的解决方案。

[71] Adaptive Markup Language Generation for Contextually-Grounded Visual Document Understanding

Han Xiao,Yina Xie,Guanxin Tan,Yinghao Chen,Rui Hu,Ke Wang,Aojun Zhou,Hao Li,Hao Shao,Xudong Lu,Peng Gao,Yafei Wen,Xiaoxin Chen,Shuai Ren,Hongsheng Li

Main category: cs.CV

TL;DR: 论文提出了一种利用标记语言生成结构化文档表示的创新方法,并引入了两个细粒度数据集,显著提升了视觉文档理解能力。

  • Motivation: 视觉文档理解领域因缺乏上下文信息和复杂布局的挑战,现有数据集难以支持鲁棒理解,导致幻觉和空间关系理解不足。
  • Method: 采用自适应生成标记语言(如Markdown、JSON等)构建结构化文档表示,并引入DocMark-Pile和DocMark-Instruct两个数据集。
  • Result: 模型在多个视觉文档理解基准测试中显著优于现有方法,提升了复杂场景下的推理和理解能力。
  • Conclusion: 提出的方法通过结构化表示和高质量数据集,有效解决了视觉文档理解的挑战,推动了该领域的进展。

[72] SITE: towards Spatial Intelligence Thorough Evaluation

Wenqi Wang,Reuben Tan,Pengyue Zhu,Jianwei Yang,Zhengyuan Yang,Lijuan Wang,Andrey Kolobov,Jianfeng Gao,Boqing Gong

Main category: cs.CV

TL;DR: SITE是一个用于评估大型视觉语言模型空间智能的标准化多选视觉问答基准数据集,涵盖多种视觉模态和空间智能因素。实验表明,领先模型在空间定向等基本因素上落后于人类专家,且空间推理能力与具身AI任务表现正相关。

  • Motivation: 空间智能(SI)在多个学科中至关重要,但现有评估方法缺乏标准化和全面性。因此,需要开发一个全面评估SI的基准数据集。
  • Method: 通过结合自下而上的31个现有数据集调查和自上而下的认知科学分类系统,设计了SITE数据集,包含两种新型任务(视角转换和动态场景)。
  • Result: 实验显示,领先模型在空间定向等基本SI因素上表现不佳,且模型的空间推理能力与具身AI任务表现呈正相关。
  • Conclusion: SITE为评估空间智能提供了标准化工具,揭示了模型在SI上的局限性,并展示了空间推理能力与具身AI任务的相关性。

[73] StreamBridge: Turning Your Offline Video Large Language Model into a Proactive Streaming Assistant

Haibo Wang,Bo Feng,Zhengfeng Lai,Mingze Xu,Shiyu Li,Weifeng Ge,Afshin Dehghan,Meng Cao,Ping Huang

Main category: cs.CV

TL;DR: StreamBridge框架将离线Video-LLMs转化为流式模型,解决多轮实时理解和主动响应问题,性能优于GPT-4o和Gemini 1.5 Pro。

  • Motivation: 适应在线场景时,现有模型在多轮实时理解和主动响应机制方面存在不足。
  • Method: 结合内存缓冲与轮衰减压缩策略支持长上下文交互,并引入轻量级激活模型实现主动响应。
  • Result: 显著提升流式理解能力,在标准视频理解任务中表现优异。
  • Conclusion: StreamBridge为离线Video-LLMs提供了高效的流式适应方案。

[74] Generating Physically Stable and Buildable LEGO Designs from Text

Ava Pun,Kangle Deng,Ruixuan Liu,Deva Ramanan,Changliu Liu,Jun-Yan Zhu

Main category: cs.CV

TL;DR: LegoGPT是首个通过文本提示生成物理稳定LEGO模型的方案,结合大规模数据集和物理约束优化生成结果。

  • Motivation: 解决从文本生成物理稳定LEGO模型的挑战,推动创意设计与自动化构建的结合。
  • Method: 构建大规模物理稳定LEGO数据集,训练自回归语言模型,结合物理约束优化生成过程。
  • Result: 生成稳定、多样且美观的LEGO设计,支持手动和自动组装,并发布数据集和代码。
  • Conclusion: LegoGPT为文本到LEGO设计提供了高效解决方案,具有实际应用潜力。

[75] Flow-GRPO: Training Flow Matching Models via Online RL

Jie Liu,Gongye Liu,Jiajun Liang,Yangguang Li,Jiaheng Liu,Xintao Wang,Pengfei Wan,Di Zhang,Wanli Ouyang

Main category: cs.CV

TL;DR: Flow-GRPO首次将在线强化学习(RL)融入流匹配模型,通过ODE-to-SDE转换和降噪减少策略,显著提升采样效率和性能。

  • Motivation: 将强化学习引入流匹配模型,以提升生成任务的准确性和效率。
  • Method: 1. ODE-to-SDE转换,支持RL探索;2. 降噪减少策略,提升采样效率。
  • Result: 在文本到图像任务中表现优异,GenEval准确率从63%提升至95%,文本渲染准确率从59%提升至92%,且未牺牲图像质量或多样性。
  • Conclusion: Flow-GRPO在生成任务中实现了高效、高质量的强化学习集成,且避免了奖励作弊问题。

[76] Mogao: An Omni Foundation Model for Interleaved Multi-Modal Generation

Chao Liao,Liyang Liu,Xun Wang,Zhengxiong Luo,Xinyu Zhang,Wenliang Zhao,Jie Wu,Liang Li,Zhi Tian,Weilin Huang

Main category: cs.CV

TL;DR: Mogao是一个统一的多模态生成框架,通过因果方法实现交错多模态生成,结合了自回归模型和扩散模型的优势,在理解和生成任务中表现优异。

  • Motivation: 现有统一模型多限于单模态生成,无法有效处理交错多模态序列。Mogao旨在解决这一问题,推动多模态系统的发展。
  • Method: Mogao采用深度融合设计、双视觉编码器、交错旋转位置嵌入和多模态无分类器引导等技术,结合高效训练策略。
  • Result: Mogao在多模态理解和文本到图像生成任务中达到最优性能,并能生成高质量的交错输出。
  • Conclusion: Mogao展示了作为全能模态基础模型的潜力,为零样本图像编辑和组合生成等任务提供了实用解决方案。

[77] DiffusionSfM: Predicting Structure and Motion via Ray Origin and Endpoint Diffusion

Qitao Zhao,Amy Lin,Jeff Tan,Jason Y. Zhang,Deva Ramanan,Shubham Tulsiani

Main category: cs.CV

TL;DR: DiffusionSfM提出了一种数据驱动的多视图推理方法,直接从多视图图像推断3D场景几何和相机姿态,优于传统和基于学习的方法。

  • Motivation: 传统SfM方法采用两阶段流程,结合学习或几何对偶推理与全局优化步骤,而DiffusionSfM旨在通过数据驱动方法直接推断3D几何和相机姿态,简化流程并提升性能。
  • Method: DiffusionSfM将场景几何和相机参数化为全局帧中的像素级射线起点和终点,采用基于Transformer的去噪扩散模型进行预测,并引入专门机制解决训练中的缺失数据和无界场景坐标问题。
  • Result: 实验证明,DiffusionSfM在合成和真实数据集上优于传统和基于学习的方法,并能自然建模不确定性。
  • Conclusion: DiffusionSfM通过数据驱动的多视图推理方法,显著提升了3D场景重建的性能和鲁棒性。

[78] 3D Scene Generation: A Survey

Beichen Wen,Haozhe Xie,Zhaoxi Chen,Fangzhou Hong,Ziwei Liu

Main category: cs.CV

TL;DR: 本文综述了3D场景生成的最新进展,将其分为四种范式,并分析了技术基础、优缺点及未来方向。

  • Motivation: 3D场景生成在沉浸式媒体、机器人等领域有广泛应用,但早期方法多样性不足,需结合深度学习提升生成质量。
  • Method: 将方法分为四类:程序化生成、基于神经3D的生成、基于图像的生成和基于视频的生成,并分析其技术基础。
  • Result: 总结了代表性成果,并讨论了数据集、评估协议和下游应用。
  • Conclusion: 未来方向包括更高保真度、物理感知生成和统一感知-生成模型,同时维护了项目页以跟踪进展。

[79] SVAD: From Single Image to 3D Avatar via Synthetic Data Generation with Video Diffusion and Data Augmentation

Yonwoo Choi

Main category: cs.CV

TL;DR: SVAD结合视频扩散模型和3D高斯泼溅技术,从单张图像生成高质量可动画的3D人体化身,解决了现有方法的局限性。

  • Motivation: 解决单视角图像重建3D信息的困难,以及现有方法在一致性、身份保持和训练数据依赖上的不足。
  • Method: 通过视频扩散生成合成训练数据,结合身份保持和图像恢复模块优化数据,用于训练3DGS化身。
  • Result: SVAD在身份一致性和细节保持上优于现有单图像方法,支持实时渲染,减少对密集训练数据的依赖。
  • Conclusion: SVAD为单图像生成高保真3D化身提供了新方法,结合了扩散模型和3DGS的优势。

cs.RO

[80] D-CODA: Diffusion for Coordinated Dual-Arm Data Augmentation

I-Chun Arthur Liu,Jason Chen,Gaurav Sukhatme,Daniel Seita

Main category: cs.RO

TL;DR: D-CODA是一种针对双机械臂操作的数据增强方法,通过扩散模型生成视角一致的图像和动作标签,提升模仿学习的可扩展性。

  • Motivation: 双机械臂操作的高维度和协调需求使得数据收集成本高昂,需要一种可扩展的数据增强方法。
  • Method: 提出D-CODA方法,利用扩散模型生成视角一致的双臂图像和动作标签,并通过约束优化确保可行性。
  • Result: 在5个模拟和3个真实任务中,D-CODA表现优于基线方法,验证了其有效性。
  • Conclusion: D-CODA为双机械臂操作提供了一种高效的数据增强解决方案,具有实际应用潜力。

[81] AI and Vision based Autonomous Navigation of Nano-Drones in Partially-Known Environments

Mattia Sartori,Chetna Singhal,Neelabhro Roy,Davide Brunelli,James Gross

Main category: cs.RO

TL;DR: 论文提出了一种基于AI的视觉反应规划方法,用于解决30克微型无人机在部分已知环境中的安全自主飞行问题,通过边缘计算和机载算法结合实现避障。

  • Motivation: 微型无人机资源有限,实现安全自主导航和高阶任务(如探索和监视)极具挑战性。
  • Method: 将导航任务分为两部分:边缘设备运行深度学习目标检测,机载执行规划算法。
  • Result: 无人机能以每秒8帧的速度运行,模型性能达到60.8 COCO mAP,现场实验显示其能以1 m/s速度避障并到达目标。
  • Conclusion: 该方法为微型无人机的实时导航提供了可行方案,并可扩展至自主探索任务。

[82] The City that Never Settles: Simulation-based LiDAR Dataset for Long-Term Place Recognition Under Extreme Structural Changes

Hyunho Song,Dongjae Lee,Seunghun Oh,Minwoo Jung,Ayoung Kim

Main category: cs.RO

TL;DR: 论文提出了City that Never Settles (CNS)数据集,用于模拟大规模城市结构变化,并提出了对称版本的TCR_sym度量标准,以评估现有LiDAR定位方法在环境剧烈变化下的性能。

  • Motivation: 现有数据集未能充分反映大规模户外环境变化,尤其是建筑拆除与建设对长期地点识别(PR)的挑战。
  • Method: 利用CARLA模拟器创建CNS数据集,捕捉多样化的结构变化,并提出TCR_sym度量标准。
  • Result: CNS数据集比现有真实世界基准涵盖更广泛的变化,现有LiDAR PR方法在CNS上性能显著下降。
  • Conclusion: CNS数据集填补了现有空白,突显了开发鲁棒算法的必要性。

[83] X-Driver: Explainable Autonomous Driving with Vision-Language Models

Wei Liu,Jiyuan Zhang,Binxiong Zheng,Yufeng Hu,Yingzhan Lin,Zengfeng Zeng

Main category: cs.RO

TL;DR: X-Driver是一个基于多模态大语言模型的端到端自动驾驶框架,通过链式思维和自回归建模提升性能,在闭环测试中表现优于现有方法。

  • Motivation: 现有端到端自动驾驶框架在闭环测试中成功率低,限制了实际应用。
  • Method: 提出X-Driver框架,结合多模态大语言模型、链式思维和自回归建模,优化感知与决策。
  • Result: 在CARLA仿真环境中验证,X-Driver在闭环性能上超越当前最优方法,并提升决策可解释性。
  • Conclusion: X-Driver证明了结构化推理在自动驾驶中的重要性,为未来闭环研究提供了强基线。

[84] Multi-Objective Reinforcement Learning for Adaptive Personalized Autonomous Driving

Hendrik Surmann,Jorge de Heuvel,Maren Bennewitz

Main category: cs.RO

TL;DR: 提出一种基于多目标强化学习(MORL)的方法,通过偏好驱动优化实现自动驾驶的动态风格适应,无需重新训练策略。

  • Motivation: 现有自动驾驶方法难以动态适应用户的驾驶风格偏好,影响用户体验和信任。
  • Method: 使用MORL和连续权重向量编码偏好,调节效率、舒适度、速度和激进性等目标。
  • Result: 在CARLA模拟器中验证,代理能动态适应偏好,同时保持避撞和路线完成性能。
  • Conclusion: 该方法支持动态、上下文相关的驾驶风格偏好,提升自动驾驶的适应性和用户满意度。

eess.IV

[85] Rethinking Boundary Detection in Deep Learning-Based Medical Image Segmentation

Yi Lin,Dong Zhang,Xiao Fang,Yufan Chen,Kwang-Ting Cheng,Hao Chen

Main category: eess.IV

TL;DR: 本文提出了一种名为CTO的新型网络架构,结合CNN、ViT和边缘检测算子,显著提升了医学图像边界分割的准确性。

  • Motivation: 医学图像分割中,边界区域的精确分割仍具挑战性,现有方法难以平衡准确性与效率。
  • Method: CTO采用双流编码器(CNN和StitchViT)和边界引导解码器,利用边缘检测算子生成边界掩码指导解码。
  • Result: 在多个医学图像数据集上,CTO实现了最先进的准确性,同时保持模型复杂度竞争力。
  • Conclusion: CTO为医学图像边界分割提供了一种高效且准确的解决方案。

[86] Advancing 3D Medical Image Segmentation: Unleashing the Potential of Planarian Neural Networks in Artificial Intelligence

Ziyuan Huang,Kevin Huggins,Srikar Bellur

Main category: eess.IV

TL;DR: PNN-UNet是一种模仿涡虫神经网络结构的深度神经网络方法,用于3D医学图像分割,性能优于传统UNet及其变体。

  • Motivation: 受涡虫神经系统中脑和神经索的协调作用启发,设计一种更高效的3D医学图像分割网络。
  • Method: 结合Deep-UNet和Wide-UNet作为神经索,使用密集连接自编码器作为脑部协调器,构建PNN-UNet。
  • Result: 在3D MRI海马体数据集上,PNN-UNet在有无数据增强的情况下均优于基准UNet及其他变体。
  • Conclusion: PNN-UNet通过模仿生物神经网络结构,显著提升了3D医学图像分割的性能。

[87] Advanced 3D Imaging Approach to TSV/TGV Metrology and Inspection Using Only Optical Microscopy

Gugeong Sung

Main category: eess.IV

TL;DR: 提出了一种结合混合场显微镜和光度立体视觉的创新方法,用于硅和玻璃通孔检测,显著提升了检测能力和成本效益。

  • Motivation: 传统光学显微镜技术仅能进行表面检测,难以有效可视化硅和玻璃通孔的内部结构,因此需要一种更高效的方法。
  • Method: 通过结合光度立体视觉与传统光学显微镜,利用多种光照条件进行3D重建,增强了对微尺度缺陷的检测能力。
  • Result: 实验结果表明,该方法能有效捕捉复杂表面细节和内部结构,定量比较显示其显著提升了检测过程的准确性。
  • Conclusion: 该方法在保持高精度和可重复性的同时,提高了成本效益,为硅和玻璃通孔检测技术带来了重要进展。

[88] MoRe-3DGSMR: Motion-resolved reconstruction framework for free-breathing pulmonary MRI based on 3D Gaussian representation

Tengya Peng,Ruyi Zha,Qing Zou

Main category: eess.IV

TL;DR: 提出了一种基于3D高斯表示的无监督运动解析重建框架,用于高分辨率自由呼吸肺部MRI,优于现有方法。

  • Motivation: 解决自由呼吸肺部MRI中运动解析和3D各向同性重建的挑战。
  • Method: 使用3D高斯表示和径向采样轨迹,结合卷积神经网络估计变形向量场,实现运动解析重建。
  • Result: 在六组数据上验证,图像质量优于现有方法,信噪比和对比噪声比更高。
  • Conclusion: 该方法为临床肺部MRI提供了一种鲁棒的解决方案。

[89] ADNP-15: An Open-Source Histopathological Dataset for Neuritic Plaque Segmentation in Human Brain Whole Slide Images with Frequency Domain Image Enhancement for Stain Normalization

Chenxi Zhao,Jianqiang Li,Qing Zhao,Jing Bai,Susana Boluda,Benoit Delatour,Lev Stimmer,Daniel Racoceanu,Gabriel Jimenez,Guanghui Fu

Main category: eess.IV

TL;DR: 该研究通过开源数据集ADNP-15和深度学习模型,解决了阿尔茨海默病病理图像分割中的染色差异问题,并提出了一种新的图像增强方法以提高分割精度。

  • Motivation: 阿尔茨海默病(AD)的病理特征(如淀粉样斑块和tau蛋白缠结)的分割对理解疾病进展至关重要,但染色差异和大规模标注数据集的缺乏是主要挑战。
  • Method: 研究引入了ADNP-15数据集,评估了五种深度学习模型和四种染色归一化技术,并提出了一种新的图像增强方法。
  • Result: 实验结果表明,提出的图像增强方法显著提高了模型泛化能力和分割精度。
  • Conclusion: 所有数据集和代码均已开源,为领域内的进一步研究提供了透明度和可重复性。

[90] Direct Image Classification from Fourier Ptychographic Microscopy Measurements without Reconstruction

Navya Sonal Agarwal,Jan Philipp Schneider,Kanchana Vaishnavi Gandikota,Syed Muhammad Kazim,John Meshreki,Ivo Ihrke,Michael Moeller

Main category: eess.IV

TL;DR: FPM技术结合CNN直接分类测量数据,避免高分辨率重建,提升效率与准确性。

  • Motivation: FPM高分辨率重建计算成本高,需探索直接分类测量数据的方法。
  • Method: 使用CNN直接从FPM测量序列中提取信息,避免重建步骤。
  • Result: CNN分类性能优于单幅图像(提升12%),且更高效;数据复用减少采集时间。
  • Conclusion: 直接分类FPM测量数据可行且高效,适用于医学细胞分类等应用。

[91] RepSNet: A Nucleus Instance Segmentation model based on Boundary Regression and Structural Re-parameterization

Shengchun Xiong,Xiangru Li,Yunpeng Zhong,Wanfen Peng

Main category: eess.IV

TL;DR: RepSNet是一种基于核边界回归和结构重参数化的神经网络模型,用于H&E染色组织病理图像中的核分割和分类,解决了计算效率和重叠目标处理的挑战。

  • Motivation: 病理诊断是肿瘤诊断的金标准,核实例分割是数字病理分析和病理诊断的关键步骤,但计算效率和重叠目标处理是主要挑战。
  • Method: RepSNet通过核边界位置信息(BPI)估计和边界投票机制(BVM)实现核分割,采用结构重参数化技术提高效率。
  • Result: 实验表明RepSNet在分割精度和计算效率上优于典型基准模型。
  • Conclusion: RepSNet通过宏观信息整合和结构优化,显著提升了核分割的性能和效率。

[92] MDAA-Diff: CT-Guided Multi-Dose Adaptive Attention Diffusion Model for PET Denoising

Xiaolong Niu,Zanting Ye,Xu Han,Yanchao Huang,Hao Sun,Hubing Wu,Lijun Lu

Main category: eess.IV

TL;DR: 提出了一种CT引导的多剂量自适应注意力去噪扩散模型(MDAA-Diff),用于多剂量PET去噪,结合解剖学指导和剂量水平适应,显著提升了低剂量条件下的去噪性能。

  • Motivation: 高剂量放射性示踪剂会增加辐射风险,而现有研究多关注单剂量去噪,忽略了患者间剂量响应差异和CT图像的解剖学约束。
  • Method: 提出CT引导的高频小波注意力模块(HWA)和剂量自适应注意力模块(DAA),分别利用CT图像解剖特征和动态整合剂量水平。
  • Result: 在18F-FDG和68Ga-FAPI数据集上,MDAA-Diff在低剂量条件下优于现有方法,保持了诊断质量。
  • Conclusion: MDAA-Diff通过解剖学指导和剂量适应机制,显著提升了低剂量PET图像的去噪效果。

[93] Improved Brain Tumor Detection in MRI: Fuzzy Sigmoid Convolution in Deep Learning

Muhammad Irfan,Anum Nawaz,Riku Klen,Abdulhamit Subasi,Tomi Westerlund,Wei Chen

Main category: eess.IV

TL;DR: 论文提出了一种基于模糊Sigmoid卷积(FSC)的轻量级深度学习模型,用于早期脑肿瘤检测,显著减少了参数数量并保持了高分类准确率。

  • Motivation: 早期检测和准确诊断对改善患者预后至关重要,但现有CNN模型存在过参数化问题,限制了性能提升。
  • Method: 引入了模糊Sigmoid卷积(FSC)及两个附加模块(漏斗顶部和漏斗中部),通过新型卷积操作扩展感受野并保持数据完整性,同时减少可训练参数。
  • Result: 在三个基准数据集上,FSC模型分类准确率分别达到99.17%、99.75%和99.89%,参数数量比大规模迁移学习架构少100倍。
  • Conclusion: 该研究为医学影像应用提供了轻量级高性能深度学习模型,具有高效的计算能力和早期肿瘤检测潜力。

[94] White Light Specular Reflection Data Augmentation for Deep Learning Polyp Detection

Jose Angel Nuñez,Fabian Vazquez,Diego Adame,Xiaoyan Fu,Pengfei Gu,Bin Fu

Main category: eess.IV

TL;DR: 提出一种新的数据增强方法,通过在训练图像中人工添加白光反射,以提高深度学习息肉检测器的性能。

  • Motivation: 结肠镜检查中,人类错误可能导致息肉漏检,而现有深度学习检测器易将内窥镜的白光反射误认为息肉,导致假阳性。
  • Method: 生成人工白光反射库,确定不应添加反射的区域,并使用滑动窗口方法将反射添加到合适区域,生成增强图像。
  • Result: 实验结果表明,该方法有效提高了息肉检测的性能。
  • Conclusion: 通过增加模型犯错的机会,使其从中学习,最终提升了检测准确性。

[95] Benchmarking Ophthalmology Foundation Models for Clinically Significant Age Macular Degeneration Detection

Benjamin A. Cohen,Jonathan Fhima,Meishar Meisel,Baskin Meital,Luis Filipe Nakayama,Eran Berkowitz,Joachim A. Behar

Main category: eess.IV

TL;DR: 自监督学习(SSL)使ViT能从大规模自然图像数据中学习鲁棒表示,提升跨域泛化能力。在视网膜成像中,基于自然或眼科数据预训练的模型表现良好,但域内预训练的优势尚不明确。本文通过实验发现,基于自然图像预训练的iBOT模型在AMD识别任务中表现最佳,挑战了域内预训练的必要性。

  • Motivation: 探讨在视网膜图像任务中,域内预训练是否比自然图像预训练更具优势。
  • Method: 在7个DFI数据集(共70,000张专家标注图像)上,对6种SSL预训练的ViT模型进行基准测试,任务为中度至晚期AMD识别。
  • Result: iBOT模型(基于自然图像预训练)在跨域泛化中表现最佳(AUROC 0.80-0.97),优于域内预训练模型(AUROC 0.78-0.96)和未预训练的ViT-L(AUROC 0.68-0.91)。
  • Conclusion: 自然图像预训练的模型在AMD识别中表现更优,挑战了域内预训练的必要性。同时发布了巴西的开放数据集BRAMD。

[96] Augmented Deep Contexts for Spatially Embedded Video Coding

Yifan Bian,Chuanbo Tang,Li Li,Dong Liu

Main category: eess.IV

TL;DR: SEVC提出了一种结合空间和时间参考的视频编码方法,解决了传统神经视频编码器在处理大运动或新物体时的局限性。

  • Motivation: 传统神经视频编码器仅依赖时间参考,导致在处理大运动或新物体时表现不佳。
  • Method: SEVC通过结合空间和时间参考生成增强的运动向量和混合上下文,并引入空间引导的潜在先验。
  • Result: 实验表明,SEVC在处理大运动或新物体时表现更优,且比特率降低了11.9%。
  • Conclusion: SEVC通过空间嵌入和联合优化,显著提升了视频编码的性能。

[97] OcularAge: A Comparative Study of Iris and Periocular Images for Pediatric Age Estimation

Naveenkumar G Venkataswamy,Poorna Ravi,Stephanie Schuckers,Masudul H. Imtiaz

Main category: eess.IV

TL;DR: 该研究比较了虹膜和眼周图像在儿童年龄估计中的表现,发现眼周模型优于虹膜模型,并展示了其在隐私保护年龄验证中的潜力。

  • Motivation: 儿童年龄估计因生理变化细微和纵向数据稀缺而具挑战性,且现有研究多集中于成人面部特征,儿科眼部分析较少。
  • Method: 使用包含21,000多张近红外图像的纵向数据集,采用多任务深度学习框架进行年龄预测和年龄组分类。
  • Result: 眼周模型的平均绝对误差为1.33年,年龄组分类准确率达83.82%,且模型在不同传感器上表现稳健。
  • Conclusion: 研究首次证明儿童眼周图像可用于可靠年龄估计,为儿童生物识别系统设计提供了基准。

cs.MM

[98] SSH-Net: A Self-Supervised and Hybrid Network for Noisy Image Watermark Removal

Wenyang Liu,Jianjun Gao,Kim-Hui Yap

Main category: cs.MM

TL;DR: SSH-Net是一种自监督混合网络,用于去除图像中的可见水印和噪声,无需成对数据集。

  • Motivation: 现有方法依赖成对数据集,实际中难以获取,因此提出自监督方法。
  • Method: 采用双网络设计:上层CNN去噪,下层Transformer去水印和噪声,共享特征编码器。
  • Result: 有效去除水印和噪声,无需成对数据。
  • Conclusion: SSH-Net为自监督水印去除提供了高效解决方案。

eess.SP

[99] Integrated Image Reconstruction and Target Recognition based on Deep Learning Technique

Cien Zhang,Jiaming Zhang,Jiajun He,Okan Yurduseven

Main category: eess.SP

TL;DR: Att-ClassiGAN结合注意力机制改进ClassiGAN,提升计算微波成像的图像重建和分类性能,显著减少重建时间并优于现有方法。

  • Motivation: 传统微波成像技术存在硬件需求高和数据采集慢的问题,计算微波成像(CMI)虽有所改进,但在图像重建阶段仍面临计算瓶颈。
  • Method: 在ClassiGAN中引入注意力门模块,动态聚焦重要特征以优化特征提取和信息识别。
  • Result: Att-ClassiGAN显著减少重建时间,并在NMSE、SSIM和分类结果上优于现有方法。
  • Conclusion: Att-ClassiGAN通过注意力机制有效解决了CMI的计算瓶颈,提升了图像重建和分类性能。

cs.LG

[100] General Transform: A Unified Framework for Adaptive Transform to Enhance Representations

Gekko Budiutama,Shunsuke Daimon,Hirofumi Nishi,Yu-ichiro Matsushita

Main category: cs.LG

TL;DR: 提出了一种自适应变换方法(GT),通过学习数据驱动的映射,优于传统变换方法。

  • Motivation: 传统离散变换依赖对数据集特性的了解,缺乏适应性。
  • Method: 提出GT方法,学习数据驱动的映射以适应任务和数据集。
  • Result: GT在计算机视觉和自然语言处理任务中表现优于传统变换方法。
  • Conclusion: GT是一种有效的自适应变换方法,适用于多样化的学习场景。

[101] Research on Anomaly Detection Methods Based on Diffusion Models

Yi Chen

Main category: cs.LG

TL;DR: 该论文提出了一种基于扩散概率模型(DPMs)的新型异常检测框架,通过多尺度特征提取和注意力机制,在图像和音频数据中高效识别异常。

  • Motivation: 传统异常检测方法在处理复杂高维数据时存在局限性,扩散模型在数据分布建模方面具有潜力。
  • Method: 利用扩散过程建模正常数据分布,通过反向扩散重构输入数据,结合重建误差和语义差异作为异常指标。
  • Result: 在MVTec AD和UrbanSound8K等基准数据集上表现优于现有技术,准确性和鲁棒性显著提升。
  • Conclusion: 扩散模型在异常检测中效果显著,为实际应用提供了高效解决方案。

[102] Concept-Based Unsupervised Domain Adaptation

Xinyue Xu,Yueying Hu,Hui Tang,Yi Qin,Lu Mi,Hao Wang,Xiaomeng Li

Main category: cs.LG

TL;DR: 提出了CUDA框架,通过对抗训练和松弛阈值提升概念瓶颈模型在域适应中的鲁棒性,无需目标域标记数据。

  • Motivation: 传统概念瓶颈模型假设训练和测试数据分布相同,但在域偏移时性能下降,泛化能力差。
  • Method: CUDA框架包括:对抗训练对齐概念表示、松弛阈值允许域间差异、无监督概念推断、理论保证的概念学习与域适应结合。
  • Result: 实验表明CUDA在真实数据集上显著优于现有方法。
  • Conclusion: CUDA提升了概念瓶颈模型的域适应能力,同时保持可解释性。

[103] MTL-UE: Learning to Learn Nothing for Multi-Task Learning

Yi Yu,Song Xia,Siyuan Yang,Chenqi Kong,Wenhan Yang,Shijian Lu,Yap-Peng Tan,Alex C. Kot

Main category: cs.LG

TL;DR: MTL-UE是首个针对多任务数据和MTL模型生成不可学习样本的统一框架,通过生成器结构和嵌入正则化显著提升攻击性能。

  • Motivation: 现有不可学习策略主要针对单任务学习,而多任务学习(MTL)数据和模型的重要性日益增长,但相关研究不足。
  • Method: MTL-UE采用生成器结构,引入标签先验和类特征嵌入,并结合任务内和任务间嵌入正则化。
  • Result: 实验表明,MTL-UE在4个MTL数据集、3种基础UE方法、5种模型架构和5种MTL任务加权策略中均表现优异。
  • Conclusion: MTL-UE为多任务数据和模型提供了高效、通用的不可学习样本生成框架。

cs.AI

[104] CRAFT: Cultural Russian-Oriented Dataset Adaptation for Focused Text-to-Image Generation

Viacheslav Vasilev,Vladimir Arkhipkin,Julia Agafonova,Tatiana Nikulina,Evelina Mironova,Alisa Shichanina,Nikolai Gerasimenko,Mikhail Shoytov,Denis Dimitrov

Main category: cs.AI

TL;DR: 文本到图像生成模型在通用文化查询上表现良好,但在个体文化上存在知识缺口,主要由于训练数据偏向欧美文化。本文提出一种基于文化代码的数据收集与处理方法,以俄罗斯文化为例,验证了该方法能提升模型对特定文化的理解。

  • Motivation: 现有文本到图像生成模型在个体文化上表现不佳,可能导致错误结果或传播刻板印象。研究文化代码对模型的重要性,填补研究空白。
  • Method: 提出一种基于文化代码的数据收集与处理方法,以俄罗斯文化为例,使用Kandinsky 3.1模型验证效果。
  • Result: 通过人类评估,模型对俄罗斯文化的理解显著提升。
  • Conclusion: 文化代码的数据处理能有效提升模型对特定文化的生成质量,减少刻板印象。

cs.CL

[105] Advancing Conversational Diagnostic AI with Multimodal Reasoning

Khaled Saab,Jan Freyberg,Chunjong Park,Tim Strother,Yong Cheng,Wei-Hung Weng,David G. T. Barrett,David Stutz,Nenad Tomasev,Anil Palepu,Valentin Liévin,Yash Sharma,Roma Ruparel,Abdullah Ahmed,Elahe Vedadi,Kimberly Kanada,Cian Hughes,Yun Liu,Geoff Brown,Yang Gao,Sean Li,S. Sara Mahdavi,James Manyika,Katherine Chou,Yossi Matias,Avinatan Hassidim,Dale R. Webster,Pushmeet Kohli,S. M. Ali Eslami,Joëlle Barral,Adam Rodman,Vivek Natarajan,Mike Schaekermann,Tao Tu,Alan Karthikesalingam,Ryutaro Tanno

Main category: cs.CL

TL;DR: AMIE(Articulate Medical Intelligence Explorer)通过多模态数据处理能力提升了诊断对话性能,并在与初级保健医生的比较中表现更优。

  • Motivation: 评估大型语言模型(LLMs)在多模态医疗对话中的能力,以更贴近实际远程医疗需求。
  • Method: 利用Gemini 2.0 Flash实现状态感知对话框架,动态控制对话流程,并通过多模态数据(如皮肤照片、心电图等)进行诊断。
  • Result: AMIE在多模态和非多模态评估中均优于初级保健医生,诊断准确性更高。
  • Conclusion: 多模态对话诊断AI取得进展,但实际应用仍需进一步研究。

[106] AI-Generated Fall Data: Assessing LLMs and Diffusion Model for Wearable Fall Detection

Sana Alamgeer,Yasine Souissi,Anne H. H. Ngu

Main category: cs.CL

TL;DR: 研究探讨了利用大语言模型(LLM)生成合成跌倒数据以解决真实数据稀缺的问题,评估了文本到动作和文本到文本模型的效果,发现数据集特性和传感器位置对合成数据有效性有显著影响。

  • Motivation: 由于真实跌倒数据(尤其是老年人)稀缺,训练跌倒检测系统面临挑战,因此探索LLM生成合成数据的潜力。
  • Method: 使用文本到动作(T2M, SATO, ParCo)和文本到文本(GPT4o, GPT4, Gemini)模型生成合成数据,并与真实数据集结合,通过LSTM模型评估其对跌倒检测性能的影响。
  • Result: 合成数据的效果受数据集特性影响,LLM生成数据在低频(20Hz)表现最佳,但在高频(200Hz)不稳定;扩散方法生成的数据与真实数据最接近,但未显著提升模型性能。
  • Conclusion: 合成数据的有效性取决于传感器位置和跌倒表示方式,研究结果为优化跌倒检测模型的合成数据生成提供了参考。

[107] Image-Text Relation Prediction for Multilingual Tweets

Matīss Rikters,Edison Marrese-Taylor

Main category: cs.CL

TL;DR: 研究探讨多语言视觉语言模型在不同语言中预测图像-文本关系的能力,并构建了一个平衡的基准数据集。

  • Motivation: 社交媒体中图像与文本的关系尚不明确,需要探索多语言模型在此任务上的表现。
  • Method: 使用拉脱维亚语和英语的Twitter帖子构建数据集,并测试多语言视觉语言模型的性能。
  • Result: 最新视觉语言模型在此任务上表现更好,但仍有改进空间。
  • Conclusion: 多语言视觉语言模型在图像-文本关系预测上有潜力,但需进一步优化。

cs.GR

[108] ChannelExplorer: Exploring Class Separability Through Activation Channel Visualization

Md Rahat-uz- Zaman,Bei Wang,Paul Rosen

Main category: cs.GR

TL;DR: ChannelExplorer是一个交互式可视化工具,用于分析DNN模型各层的激活通道对类别可分性的贡献,支持多种模型架构,并通过四个用例展示其功能。

  • Motivation: 理解DNN内部行为,尤其是不同层和激活通道对类别可分性的贡献,是一个挑战。
  • Method: 开发了ChannelExplorer工具,包含散点图视图、Jaccard相似性视图和热图视图,用于分析激活通道。
  • Result: 工具支持多种模型架构,并通过用例展示了其在生成类别层次结构、发现错误标签等方面的能力。
  • Conclusion: ChannelExplorer为分析DNN模型提供了数据驱动的可视化方法,并通过专家评估验证了其有效性。

[109] WIR3D: Visually-Informed and Geometry-Aware 3D Shape Abstraction

Richard Liu,Daniel Fu,Noah Tan,Itai Lang,Rana Hanocka

Main category: cs.GR

TL;DR: WIR3D是一种通过稀疏的视觉意义曲线抽象3D形状的技术,利用Bezier曲线优化和CLIP模型指导,分两阶段优化几何和细节特征。

  • Motivation: 旨在通过稀疏曲线高效且直观地表示3D形状的几何和视觉特征,支持用户控制和形状变形。
  • Method: 分两阶段优化Bezier曲线参数,利用CLIP模型激活和局部关键点损失指导,结合神经SDF损失确保表面保真度。
  • Result: 成功应用于多种复杂度和纹理的3D形状抽象,支持特征控制和形状变形。
  • Conclusion: WIR3D提供了一种高效且可控的3D形状抽象方法,适用于多种应用场景。

[110] ADD: Physics-Based Motion Imitation with Adversarial Differential Discriminators

Ziyu Zhang,Sergey Bashkirov,Dun Yang,Michael Taylor,Xue Bin Peng

Main category: cs.GR

TL;DR: 提出了一种新的对抗性多目标优化技术,用于解决多目标优化问题,特别是运动跟踪领域,无需手动调整奖励函数。

  • Motivation: 现有方法依赖手动调整的聚合函数,耗时且需要领域专业知识,限制了适用性。
  • Method: 采用对抗性差分判别器,仅需单个正样本即可有效指导优化过程。
  • Result: 能够实现多种高难度动作的精确跟踪,效果与现有最佳方法相当。
  • Conclusion: 该方法广泛适用于多目标优化问题,特别是运动跟踪,无需手动调整奖励函数。

[111] Inter-Diffusion Generation Model of Speakers and Listeners for Effective Communication

Jinhe Huang,Yongkang Cheng,Yuming Hang,Gaoge Han,Jinewei Li,Jing Zhang,Xingjian Gu

Main category: cs.GR

TL;DR: 本文提出了一种创新的交互扩散生成模型,首次将听众的全身手势纳入生成框架,通过新型交互扩散机制捕捉说话者和听众间的复杂互动模式。

  • Motivation: 现有研究多关注说话者的手势生成,忽视了听众在互动中的关键作用及其动态交互。
  • Method: 基于扩散模型架构,引入交互条件和GAN模型以增加去噪步长,实现基于说话者信息和听众反馈的动态手势生成。
  • Result: 实验表明,模型在手势自然性、连贯性和语音-手势同步性上显著优于现有方法,用户评价接近真实互动场景。
  • Conclusion: 该模型为有效沟通提供了更强大的支持,在主观和客观评估中均表现优异。

[112] An Active Contour Model for Silhouette Vectorization using Bézier Curves

Luis Alvarez,Jean-Michel Morel

Main category: cs.GR

TL;DR: 提出了一种基于三次贝塞尔曲线的主动轮廓模型,用于轮廓矢量化,显著优于现有方法。

  • Motivation: 现有轮廓矢量化方法(如Inkscape、Adobe Illustrator等)在精度和规则性上存在不足,需改进。
  • Method: 通过最小化贝塞尔曲线与轮廓边界的距离,优化端点位置、切线方向及曲线参数。
  • Result: 显著降低了轮廓边界与矢量化结果的平均距离,优于世界级软件和曲率方法。
  • Conclusion: 该方法在精度和规则性上表现优越,可应用于轮廓矢量化领域。

[113] Time of the Flight of the Gaussians: Optimizing Depth Indirectly in Dynamic Radiance Fields

Runfeng Li,Mikhail Okunev,Zixuan Guo,Anh Ha Duong,Christian Richardt,Matthew O'Toole,James Tompkin

Main category: cs.GR

TL;DR: 提出一种基于单目连续波飞行时间(C-ToF)相机的动态场景重建方法,比神经体积方法更准确且快100倍。

  • Motivation: 快速从单一视角实现高保真动态3D重建是计算机视觉中的重大挑战,尤其在C-ToF辐射场重建中,深度信息无法直接测量,增加了优化难度。
  • Method: 在优化中引入两种启发式方法,改进高斯表示的场景几何精度,适用于3D高斯溅射等快速基元表示。
  • Result: 实验结果表明,该方法在受限C-ToF感知条件下(如快速挥棒动作)能生成准确重建。
  • Conclusion: 该方法在动态场景重建中表现出色,解决了C-ToF数据优化中的关键问题。

上次更新于: