以下论文的arXiv类型标签包含:cs.CV
Powered by Deepseek & arXiv Daily AI Enhanced
cs.CV
[1] Multiple Object Tracking in Video SAR: A Benchmark and Tracking Baseline
Haoxiang Chen,Wei Zhao,Rufei Zhang,Nannan Li,Dongjin Li
Main category: cs.CV
TL;DR: 论文提出了一种针对视频合成孔径雷达(Video SAR)中多目标跟踪的方法,通过引入线特征增强机制和运动感知线索丢弃机制,解决了目标运动引起的多普勒伪影和外观变化问题,并发布了VSMB基准数据集。
- Motivation: 视频SAR中目标运动导致的多普勒伪影和外观变化容易引发跟踪错误,且缺乏公开的基准数据集,限制了算法评估的标准化。
- Method: 提出线特征增强机制以减少运动目标拖尾和散焦的影响,并设计运动感知线索丢弃机制以应对目标外观变化。
- Result: 所提模型在VSMB数据集上实现了最先进的性能。
- Conclusion: 论文通过新机制和数据集解决了视频SAR多目标跟踪的关键问题,并开源了模型和数据集。
[2] BreastDCEDL: Curating a Comprehensive DCE-MRI Dataset and developing a Transformer Implementation for Breast Cancer Treatment Response Prediction
Naomi Fridman,Bubby Solway,Tomer Fridman,Itamar Barnea,Anat Goldshtein
Main category: cs.CV
TL;DR: BreastDCEDL是一个深度学习就绪的乳腺癌数据集,包含多中心DCE-MRI扫描和临床数据,支持先进模型开发,如基于ViT的pCR预测模型。
- Motivation: 乳腺癌早期检测和治疗监测需求迫切,但缺乏公开的多中心数据集限制了深度学习应用。
- Method: 数据集标准化为3D NIfTI格式,提供统一注释和临床数据;开发基于ViT的模型用于pCR预测。
- Result: ViT模型在HR+/HER2-患者中表现出色(AUC 0.94,准确率0.93)。
- Conclusion: BreastDCEDL填补了数据空白,支持可重复研究和临床建模。
[3] ViSTA: Visual Storytelling using Multi-modal Adapters for Text-to-Image Diffusion Models
Sibo Dong,Ismail Shaheen,Maggie Shen,Rupayan Mallick,Sarah Adel Bargal
Main category: cs.CV
TL;DR: ViSTA提出了一种多模态历史适配器,用于文本到图像扩散模型,通过提取相关历史特征和适配器生成,解决了视觉故事生成中的一致性和适应性挑战。
- Motivation: 现有方法在生成连贯图像序列时,要么需要大量训练,要么缺乏对叙事提示的适应性。ViSTA旨在结合历史文本-图像对的信息,提升生成的一致性和灵活性。
- Method: ViSTA包括多模态历史融合模块和历史适配器,通过显著历史选择策略优化生成条件,并使用TIFA指标评估文本-图像对齐。
- Result: 在StorySalon和FlintStonesSV数据集上,ViSTA在帧间一致性和叙事文本对齐方面表现优异。
- Conclusion: ViSTA通过多模态历史适配器和显著历史选择策略,有效提升了视觉故事生成的质量和一致性。
[4] InceptionMamba: Efficient Multi-Stage Feature Enhancement with Selective State Space Model for Microscopic Medical Image Segmentation
Daniya Najiha Abdul Kareem,Abdul Hannan,Mubashir Noman,Jean Lahoud,Mustansar Fiaz,Hisham Cholakkal
Main category: cs.CV
TL;DR: 提出了一种名为InceptionMamba的高效框架,用于医学图像分割,结合Inception深度卷积和Mamba块,显著降低计算成本并提升性能。
- Motivation: 现有CNN和Transformer模型在复杂细胞和组织结构分割中表现不足,且依赖大数据集和高计算成本。
- Method: 利用多阶段特征编码,结合语义线索捕获高低频区域,通过混合模型融合特征生成最终分割掩码。
- Result: 在多个数据集上达到SOTA性能,计算成本降低约5倍。
- Conclusion: InceptionMamba框架在性能和效率上均优于现有方法,适用于医学图像分割。
[5] CLIP the Landscape: Automated Tagging of Crowdsourced Landscape Images
Ilya Ilyankou,Natchapon Jongwiriyanurak,Tao Cheng,James Haworth
Main category: cs.CV
TL;DR: 论文提出了一种基于CLIP的多模态多标签分类器,用于从Geograph数据集的景观照片中预测地理上下文标签。结合位置和标题嵌入与图像特征,提高了准确性。
- Motivation: 解决Kaggle竞赛任务,预测地理上下文标签,支持GeoAI应用,丰富数据稀疏区域的空间理解。
- Method: 使用预训练的CLIP图像和文本嵌入,结合位置和标题嵌入,训练轻量级分类器。
- Result: 结合多模态特征比仅使用图像嵌入提高了准确性。
- Conclusion: 提出的方法在预测地理标签上表现更好,支持下游GeoAI任务。
[6] Zero-Shot Scene Understanding with Multimodal Large Language Models for Automated Vehicles
Mohammed Elhenawy,Shadi Jaradat,Taqwa I. Alhadidi,Huthaifa I. Ashqar,Ahmed Jaber,Andry Rakotonirainy,Mohammad Abu Tami
Main category: cs.CV
TL;DR: 论文评估了四种多模态大语言模型(MLLMs)在零样本上下文学习场景下的场景理解能力,并探讨了集成方法是否能提升性能。GPT-4o表现最佳,但与小模型差距不大,集成方法效果不一。
- Motivation: 提升自动驾驶中的场景理解能力,以支持驾驶员-代理通信和增强自动驾驶决策的可解释性。
- Method: 在零样本上下文学习设置下测试四种MLLMs,并尝试通过多数投票的集成方法提升性能。
- Result: GPT-4o表现最优,但与小模型差距较小;集成方法对部分场景属性有效,但对其他属性效果下降。
- Conclusion: MLLMs在场景理解中具有潜力,但需优化小模型和集成技术以提升性能。
[7] Efficient Multi-Camera Tokenization with Triplanes for End-to-End Driving
Boris Ivanovic,Cristiano Saltori,Yurong You,Yan Wang,Wenjie Luo,Marco Pavone
Main category: cs.CV
TL;DR: 提出了一种基于三平面的多摄像头标记化策略,显著减少标记数量并提升推理速度,同时保持运动规划准确性。
- Motivation: 自回归Transformer在机器人及自动驾驶策略中的应用日益广泛,但传感器数据的高效标记化对实时性至关重要。
- Method: 利用3D神经重建与渲染技术,开发了一种几何感知的多摄像头标记化策略。
- Result: 实验表明,该方法减少72%的标记数量,推理速度提升50%,且运动规划准确性不变,闭环驾驶模拟表现更优。
- Conclusion: 该标记化策略高效且几何感知,适用于自动驾驶等实时性要求高的场景。
[8] EgoPrivacy: What Your First-Person Camera Says About You?
Yijiang Li,Genpei Zhang,Jiacheng Cheng,Yi Li,Xiaojun Shan,Dashan Gao,Jiancheng Lyu,Yuan Li,Ning Bi,Nuno Vasconcelos
Main category: cs.CV
TL;DR: 该论文提出了EgoPrivacy,首个用于评估第一人称视角视频隐私风险的大规模基准,并展示了穿戴者隐私信息的高泄露风险。
- Motivation: 研究穿戴者隐私信息从第一人称视角视频中泄露的独特威胁,填补了现有研究的空白。
- Method: 引入EgoPrivacy基准,定义七项任务评估隐私风险;提出Retrieval-Augmented Attack攻击策略,利用外部视频库增强攻击效果。
- Result: 实验表明,穿戴者的隐私信息(如身份、性别、种族等)在零样本设置下泄露准确率达70-80%。
- Conclusion: 第一人称视角视频对穿戴者隐私构成显著威胁,需进一步研究保护措施。
[9] MatchPlant: An Open-Source Pipeline for UAV-Based Single-Plant Detection and Data Extraction
Worasit Sangjan,Piyush Pandey,Norman B. Best,Jacob D. Washburn
Main category: cs.CV
TL;DR: MatchPlant是一个基于无人机的开源Python工具,用于单株植物检测和性状提取,具有高精度和可扩展性。
- Motivation: 提高高通量表型分析的准确性,支持植物育种中的数据驱动决策。
- Method: 集成无人机图像处理、用户引导注释、CNN模型训练、边界框投影和形状文件生成。
- Result: 在玉米案例中,检测性能良好(验证AP 89.6%,测试AP 85.9%),性状提取与人工标注高度一致(r=0.87-0.97)。
- Conclusion: MatchPlant为农业和环境监测提供了一个高效、可扩展的植物级分析框架。
[10] Doctor Approved: Generating Medically Accurate Skin Disease Images through AI-Expert Feedback
Janet Wang,Yunbei Zhang,Zhengming Ding,Jihun Hamm
Main category: cs.CV
TL;DR: 论文提出MAGIC框架,通过AI与专家协作生成医学准确的皮肤病图像,显著提升临床准确性并减少人工负担。
- Motivation: 医学数据稀缺限制了诊断ML模型的泛化能力,现有扩散模型生成的图像医学准确性不足,需结合专家知识。
- Method: 利用多模态大语言模型(MLLMs)将专家定义的标准转化为可操作的反馈,优化扩散模型生成的图像。
- Result: 生成的皮肤病图像临床质量显著提升,诊断准确率在20种皮肤病分类任务中提升9.02%,少样本场景提升13.89%。
- Conclusion: MAGIC框架有效结合专家知识与AI,生成高质量医学图像,提升诊断模型性能。
[11] UniDet-D: A Unified Dynamic Spectral Attention Model for Object Detection under Adverse Weathers
Yuantao Wang,Haowei Yang,Wei Zhang,Shijian Lu
Main category: cs.CV
TL;DR: UniDet-D是一个统一框架,用于在各种恶劣天气条件下进行目标检测,结合了动态光谱注意力机制,实现了目标检测和图像恢复。
- Motivation: 现实世界中的目标检测常因恶劣天气条件(如雨、雾、雪、低光等)导致图像退化,现有方法通常针对单一天气条件设计,泛化能力差。
- Method: 提出UniDet-D框架,结合动态光谱注意力机制,自适应强调信息光谱成分,抑制无关成分。
- Result: 实验表明UniDet-D在各种恶劣天气条件下均表现出优越的检测精度,并对未见过的天气条件(如沙尘暴、雨雾混合)具有强泛化能力。
- Conclusion: UniDet-D在现实世界部署中具有巨大潜力。
[12] Three-dimensional Deep Shape Optimization with a Limited Dataset
Yongmin Kwon,Namwoo Kang
Main category: cs.CV
TL;DR: 提出一种基于深度学习的形状优化框架,适用于小数据集,通过位置编码和Lipschitz正则化提升鲁棒性和泛化能力。
- Motivation: 生成模型在机械设计中应用受限,主要因数据集规模小且多样性不足。
- Method: 采用位置编码和Lipschitz正则化,学习几何特征并保持有意义的潜在空间。
- Result: 实验验证了方法的鲁棒性、泛化性和有效性,适用于多目标形状优化。
- Conclusion: 该框架在小数据条件下仍能生成高质量设计,具有实际应用价值。
[13] GroupNL: Low-Resource and Robust CNN Design over Cloud and Device
Chuntao Ding,Jianhang Xie,Junna Zhang,Salman Raza,Shangguang Wang,Jiannong Cao
Main category: cs.CV
TL;DR: 论文提出GroupNL方法,通过非线性变换函数提升CNN模型的鲁棒性,同时减少计算和传输资源消耗。
- Motivation: 现有方法在处理IoT设备采集的损坏图像数据时鲁棒性低,且计算和传输资源消耗高。
- Method: GroupNL利用数据无关的非线性变换函数生成多样化特征图,通过分组和随机初始化超参数减少资源消耗。
- Result: 在多个数据集上,GroupNL在鲁棒性和训练速度上优于现有方法,如Icons-50数据集上准确率提升2.86%。
- Conclusion: GroupNL有效提升了CNN模型的鲁棒性和训练效率,适用于IoT设备部署。
[14] Understanding and Benchmarking the Trustworthiness in Multimodal LLMs for Video Understanding
Youze Wang,Zijun Chen,Ruoyu Chen,Shishen Gu,Yinpeng Dong,Hang Su,Jun Zhu,Meng Wang,Richang Hong,Wenbo Hu
Main category: cs.CV
TL;DR: Trust-videoLLMs是一个评估视频多模态大语言模型(videoLLMs)可信度的综合基准,涵盖真实性、安全性、鲁棒性、公平性和隐私五个维度。研究发现现有模型在动态视觉场景理解和跨模态扰动恢复方面存在显著不足,开源模型在真实性上偶尔优于商业模型,但整体可信度较低。
- Motivation: 由于视频数据的时空复杂性,videoLLMs面临事实错误、有害内容、偏见、幻觉和隐私风险等可信度问题,亟需标准化评估工具。
- Method: 研究构建了包含30个任务的Trust-videoLLMs基准,使用改编、合成和标注视频评估动态视觉场景、跨模态交互和现实安全问题。评估了23个先进videoLLMs(5个商业,18个开源)。
- Result: 商业模型整体可信度更高,开源模型在真实性上偶尔表现更好。数据多样性优于规模效应,动态视觉理解和跨模态扰动恢复能力普遍不足。
- Conclusion: Trust-videoLLMs填补了准确性评估与可信度需求之间的空白,为标准化评估提供了公开可扩展的工具箱,强调需加强安全对齐以提升模型能力。
[15] Image Corruption-Inspired Membership Inference Attacks against Large Vision-Language Models
Zongyu Wu,Minhua Lin,Zhiwei Zhang,Fali Wang,Xianren Zhang,Xiang Zhang,Suhang Wang
Main category: cs.CV
TL;DR: 该论文提出了一种针对大型视觉语言模型(LVLM)的成员推理攻击方法(ICIMIA),通过图像损坏的敏感性差异检测图像是否用于训练。
- Motivation: 由于LVLM训练数据可能包含敏感信息,检测图像是否用于训练对隐私保护至关重要。
- Method: 设计了基于图像损坏的成员推理攻击(ICIMIA),包括白盒设置下的嵌入相似性攻击和黑盒设置下的文本嵌入相似性攻击。
- Result: 实验验证了两种攻击设置下方法的有效性。
- Conclusion: ICIMIA是一种简单而有效的成员推理攻击方法,适用于不同知识水平的攻击场景。
[16] EKPC: Elastic Knowledge Preservation and Compensation for Class-Incremental Learning
Huaijie Wang,De Cheng,Lingfeng He,Yan Li,Jie Li,Nannan Wang,Xinbo Gao
Main category: cs.CV
TL;DR: 论文提出了一种名为EKPC的方法,通过结合IPR和TSDC技术,解决了CIL中参数效率与模型灵活性之间的权衡问题。
- Motivation: 现有的PEFT方法在CIL中要么增加内存使用,要么牺牲模型灵活性,因此需要一种更高效的方法。
- Method: EKPC方法包括IPR(选择性约束参数更新)和TSDC(通过可训练语义漂移补偿原型),以平衡知识保留与模型灵活性。
- Result: 在五个CIL基准测试中,EKPC表现优于现有方法。
- Conclusion: EKPC方法有效解决了CIL中的知识保留与模型灵活性之间的矛盾,具有显著优势。
[17] Hierarchical Deep Feature Fusion and Ensemble Learning for Enhanced Brain Tumor MRI Classification
Zahid Ullah,Jihie Kim
Main category: cs.CV
TL;DR: 该研究提出了一种双集成框架,结合预训练的深度学习模型和优化的机器学习分类器,显著提升了脑肿瘤分类的准确性。
- Motivation: 脑肿瘤的准确分类对医学影像诊断和治疗规划至关重要,现有方法仍有提升空间。
- Method: 采用双级集成策略:特征级集成(结合ViT模型的深度特征)和分类器级集成(聚合优化后的ML分类器预测)。
- Result: 在两个公开的MRI数据集上,该方法显著优于现有技术。
- Conclusion: 该框架强调了特征与分类器融合、超参数优化和预处理技术的重要性,推动了DL与ML在医学影像分析中的应用。
[18] LARGO: Low-Rank Regulated Gradient Projection for Robust Parameter Efficient Fine-Tuning
Haotian Zhang,Liu Liu,Baosheng Yu,Jiayan Qiu,Yanwei Ren,Xianglong Liu
Main category: cs.CV
TL;DR: 论文提出了一种名为LARGO的低秩调节梯度投影算法,通过动态约束提升预训练模型在领域转移下的鲁棒性,同时保持计算效率。
- Motivation: 现有参数高效微调方法在领域转移下难以兼顾鲁棒性和计算效率,LARGO旨在解决这一问题。
- Method: LARGO结合动态梯度投影和低秩适应方法,利用SVD初始化策略最小化对预训练知识的偏离。
- Result: 实验表明,LARGO在领域内外场景下均达到最优性能,计算开销显著低于现有方法。
- Conclusion: LARGO在保持计算效率的同时提升了模型鲁棒性,为参数高效微调提供了新思路。
[19] Perceptual-GS: Scene-adaptive Perceptual Densification for Gaussian Splatting
Hongbi Zhou,Zhangkai Ni
Main category: cs.CV
TL;DR: 提出了一种基于人类感知的3D高斯泼溅(Perceptual-GS)框架,通过感知敏感度优化高斯基元分布,提升重建质量和效率。
- Motivation: 现有方法难以根据场景特性自适应优化高斯基元分布,导致重建质量与效率难以平衡。
- Method: 引入感知敏感度表示,并开发感知敏感度自适应分布,将更精细的高斯粒度分配到视觉关键区域。
- Result: 在多个数据集(包括大规模场景的BungeeNeRF)上,Perceptual-GS在重建质量、效率和鲁棒性上达到最优性能。
- Conclusion: Perceptual-GS通过感知敏感度优化高斯分布,显著提升了3D高斯泼溅的性能。
[20] Feature Complementation Architecture for Visual Place Recognition
Weiwei Wang,Meijia Wang,Haoyi Wang,Wenqiang Guo,Jiapan Guo,Changming Sun,Lingkun Ma,Weichuan Zhang
Main category: cs.CV
TL;DR: 论文提出了一种结合CNN和ViT优点的局部-全局特征互补网络(LGCN),通过动态特征融合模块(DFM)和轻量级频率-空间融合适配器,显著提升了视觉地点识别(VPR)的性能。
- Motivation: 视觉地点识别(VPR)在机器人定位和导航中至关重要,但现有方法难以同时利用CNN的局部细节捕捉能力和ViT的全局上下文建模能力。
- Method: 提出LGCN网络,采用并行CNN-ViT混合架构和动态特征融合模块(DFM),并引入轻量级频率-空间融合适配器增强ViT分支的适应性。
- Result: 在多个VPR基准数据集上的实验表明,LGCN在定位精度和鲁棒性上均优于现有方法。
- Conclusion: LGCN通过结合CNN和ViT的优势,显著提升了VPR任务的性能,验证了其有效性和泛化能力。
[21] Branch, or Layer? Zeroth-Order Optimization for Continual Learning of Vision-Language Models
Ziwei Liu,Borui Kang,Wei Li,Hangjie Yuan,Yanbing Yang,Wenbin Li,Jun Luo,Yifan Zhu,Tao Feng
Main category: cs.CV
TL;DR: 本文探索了零阶优化(ZO)在视觉语言持续学习(VLCL)中的应用,通过选择性应用ZO和层间优化策略,显著降低了内存消耗并提升了性能。
- Motivation: 解决视觉语言模型持续学习中参数效率、内存消耗和优化稳定性之间的平衡问题。
- Method: 选择性应用ZO优化视觉或语言模态,结合层间优化策略,并引入梯度符号归一化机制。
- Result: 在四个基准测试中达到最优性能,内存消耗减少89.1%。
- Conclusion: 提出了一种高效的VLCL优化方法,为未来研究提供了新思路。
[22] Domain Generalization for Person Re-identification: A Survey Towards Domain-Agnostic Person Matching
Hyeonseo Lee,Juhyun Park,Jihyong Oh,Chanho Eom
Main category: cs.CV
TL;DR: 本文对领域泛化行人重识别(DG-ReID)进行了全面综述,首次系统性地探讨了该领域的方法、挑战和未来方向。
- Motivation: 传统行人重识别方法难以泛化到未见过的领域,因此需要研究领域泛化方法以解决这一问题。
- Method: 综述了DG-ReID的架构组件、领域泛化模块,并通过案例研究验证了方法的适用性。
- Result: 总结了DG-ReID的最新趋势和挑战,并提出了未来研究方向。
- Conclusion: DG-ReID是一个重要但尚未充分探索的领域,本文为其研究提供了系统性的参考。
[23] MS-UMamba: An Improved Vision Mamba Unet for Fetal Abdominal Medical Image Segmentation
Caixu Xu,Junming Wei,Huizhen Chen,Pengchen Liang,Bocheng Liang,Ying Tan,Xintong Wei
Main category: cs.CV
TL;DR: MS-UMamba是一种结合卷积和Mamba的混合模型,用于胎儿超声图像分割,解决了局部特征提取和全局上下文建模的平衡问题。
- Motivation: 胎儿超声图像分割面临封闭解剖结构、模糊边界和小解剖结构等挑战,需要一种能同时处理局部和全局特征的方法。
- Method: 设计了结合CNN分支的视觉状态空间块(SS-MCAT-SSM)和多尺度特征融合模块,利用Mamba的全局建模能力和卷积的局部优势。
- Result: 在非公开数据集上的实验表明,MS-UMamba在分割性能上表现优异。
- Conclusion: MS-UMamba通过结合卷积和Mamba的优势,有效提升了胎儿超声图像的分割效果。
[24] CLIP-HandID: Vision-Language Model for Hand-Based Person Identification
Nathanael L. Baisa,Babu Pallam,Amudhavel Jayavel
Main category: cs.CV
TL;DR: 本文提出了一种基于手部图像的人员识别新方法CLIP-HandID,特别适用于刑事调查中手部图像是唯一证据的场景。该方法利用预训练的视觉-语言模型CLIP,通过文本提示学习手部图像的深度特征表示,并在多模态推理中提升识别性能。实验表明,该方法在公开数据集上显著优于现有方法。
- Motivation: 在严重犯罪(如性侵)中,手部图像通常是唯一可用的识别证据,因此需要一种高效的方法来从手部图像中识别人员。
- Method: CLIP-HandID利用预训练的CLIP模型,通过文本反转网络学习伪标记,表示手部图像的视觉上下文或外观属性,并将这些伪标记融入文本提示中,以增强多模态推理能力。
- Result: 在两个大型公开手部数据集上的实验表明,CLIP-HandID显著优于现有方法。
- Conclusion: CLIP-HandID为刑事调查中基于手部图像的人员识别提供了一种高效且性能优越的解决方案。
[25] Demographics-Informed Neural Network for Multi-Modal Spatiotemporal forecasting of Urban Growth and Travel Patterns Using Satellite Imagery
Eugene Kofi Okrah Denteh,Andrews Danyo,Joshua Kofi Asamoah,Blessing Agyei Kyem,Armstrong Aboah
Main category: cs.CV
TL;DR: 该研究提出了一种结合卫星图像、社会人口统计和旅行行为数据的深度学习框架,用于预测城市空间变化,并验证了城市发展的共进化理论。
- Motivation: 解决城市规划和交通研究中缺乏将物理景观演变与社会人口模式明确关联的数据和方法的问题。
- Method: 采用编码器-解码器架构,结合时间门控残差连接和多目标损失函数,整合卫星图像和人口统计数据。
- Result: 模型在结构相似性(SSIM: 0.8342)和人口统计一致性(Demo-loss: 0.14)上优于现有模型,验证了城市发展的双向影响。
- Conclusion: 该框架为城市规划和交通研究提供了新工具,并贡献了一个多模态数据集。
[26] Binarization-Aware Adjuster: Bridging Continuous Optimization and Binary Inference in Edge Detection
Hao Shu
Main category: cs.CV
TL;DR: 论文提出了一种解决图像边缘检测中训练与推理不一致的方法,通过设计Binarization-Aware Adjuster(BAA)和Distance Weight Function(DWF)来优化梯度计算。
- Motivation: 训练与推理的不一致(连续输出与二值预测的差异)削弱了学习目标与实际任务性能的联系。
- Method: 提出BAA方法,结合DWF重新加权像素贡献,并自适应估计最佳二值化阈值。
- Result: 在多种架构和数据集上验证了方法的有效性。
- Conclusion: BAA为结构化预测任务中连续优化与离散评估的差距提供了一种通用解决方案。
[27] Exploring Audio Cues for Enhanced Test-Time Video Model Adaptation
Runhao Zeng,Qi Deng,Ronghao Zhang,Shuaicheng Niu,Jian Chen,Xiping Hu,Victor C. M. Leung
Main category: cs.CV
TL;DR: 提出了一种利用音频信息增强视频测试时适应(TTA)性能的新方法,通过音频辅助伪标签和灵活的适应周期优化性能。
- Motivation: 现有视频TTA方法主要依赖视觉信号,忽视了音频数据的潜在贡献。本文旨在填补这一空白,利用音频语义提升视频TTA性能。
- Method: 通过预训练音频模型分类视频中的音频信号,并利用大语言模型将音频预测映射到视频标签空间,生成音频辅助伪标签。采用灵活的适应周期,根据损失和一致性变化为每个样本定制适应过程。
- Result: 在多个数据集(包括新构建的音频-视频TTA数据集)上验证了方法的优越性,显著提升了不同视频分类模型的适应性能。
- Conclusion: 该方法成功将音频信息整合到视频TTA中,为领域发展迈出了重要一步。
[28] Comparative Analysis of Deep Learning Strategies for Hypertensive Retinopathy Detection from Fundus Images: From Scratch and Pre-trained Models
Yanqiao Zhu
Main category: cs.CV
TL;DR: 本文比较了三种深度学习策略在检测高血压视网膜病变中的表现,发现数据增强对不同架构的影响显著不同。
- Motivation: 研究不同深度学习策略在高血压视网膜病变检测中的效果,探索数据增强与模型架构的相互作用。
- Method: 比较了自定义CNN、预训练Transformer模型和AutoML解决方案,并分析了数据增强对各架构的影响。
- Result: 数据增强显著提升纯ViT性能,但对混合ViT-CNN模型有负面影响;小补丁尺寸ViT表现更优;DINOv2需数据多样性才能发挥潜力。
- Conclusion: 模型架构、数据增强和数据集大小对医学图像分类有复杂影响,需针对性选择策略。
[29] Fine-Grained HDR Image Quality Assessment From Noticeably Distorted to Very High Fidelity
Mohsen Jenadeleh,Jon Sneyers,Davi Lazzarotto,Shima Mohammadi,Dominik Keller,Atanas Boev,Rakesh Rao Ramachandra Rao,António Pinheiro,Thomas Richter,Alexander Raake,Touradj Ebrahimi,João Ascenso,Dietmar Saupe
Main category: cs.CV
TL;DR: AIC-HDR2025是首个HDR数据集,用于高保真范围的图像质量评估,包含100张测试图像,通过主观研究验证了其精确性。
- Motivation: HDR和WCG技术提升了色彩再现,但增加了数据需求,需要更精确的图像质量评估方法。
- Method: 生成100张HDR测试图像,使用四种编解码器和五种压缩级别,通过主观研究(JPEG AIC-3方法)收集34,560个评分。
- Result: AIC-3方法能精确评估HDR质量,95%置信区间平均宽度为0.27 JND。
- Conclusion: AIC-HDR2025数据集填补了高保真范围图像质量评估的空白,并公开可用。
[30] Interpretable Text-Guided Image Clustering via Iterative Search
Bingchen Zhao,Oisin Mac Aodha
Main category: cs.CV
TL;DR: 论文提出了一种名为ITGC的文本引导聚类方法,通过迭代发现过程生成更符合用户意图的可视化概念。
- Motivation: 传统聚类方法在缺乏额外信息时存在模糊性,用户可能希望基于不同标准(如形状或颜色)聚类数据。文本引导聚类方法通过自然语言指令解决这一问题。
- Method: ITGC采用迭代发现过程,结合无监督聚类目标,生成符合用户指令的可视化概念。
- Result: 在多种图像聚类和细粒度分类基准测试中,ITGC表现优于现有方法。
- Conclusion: ITGC通过文本引导和迭代优化,显著提升了聚类的准确性和用户意图的匹配度。
[31] Generalized Category Discovery under the Long-Tailed Distribution
Bingchen Zhao,Kai Han
Main category: cs.CV
TL;DR: 论文提出了一种在长尾分布下解决广义类别发现(GCD)问题的方法,通过自信样本选择和基于密度的聚类来平衡分类器学习和类别数量估计。
- Motivation: 现实数据常呈现长尾分布,现有GCD方法假设数据均匀分布,无法有效处理长尾问题。本文旨在填补这一空白。
- Method: 提出基于自信样本选择和密度聚类的框架,解决分类器学习和类别数量估计的挑战。
- Result: 在长尾和传统GCD数据集上验证了方法的有效性。
- Conclusion: 该方法成功解决了长尾分布下的GCD问题,为实际应用提供了有效工具。
[32] Retrieval Augmented Comic Image Generation
Yunhao Shui,Xuekuan Wang,Feng Qiu,Yuqiu Huang,Jinzhu Li,Haoyu Zheng,Jinru Han,Zhuo Zeng,Pengpeng Zhang,Jiarui Han,Keqiang Sun
Main category: cs.CV
TL;DR: RaCig是一个生成漫画风格图像序列的新系统,解决了角色一致性和手势多样性的问题。
- Motivation: 解决漫画生成中角色身份和服装一致性以及手势多样性的挑战。
- Method: 结合检索式角色分配模块和区域角色注入机制,确保角色一致性和手势多样性。
- Result: 实验证明RaCig能有效生成连贯角色和动态互动的漫画叙事。
- Conclusion: RaCig为漫画生成提供了有效解决方案,代码将公开以支持进一步研究。
[33] Good Noise Makes Good Edits: A Training-Free Diffusion-Based Video Editing with Image and Text Prompts
Saemee Choi,Sohyun Jeong,Jaegul Choo,Jinhee Kim
Main category: cs.CV
TL;DR: ImEdit是一种无需训练、零样本的视频编辑方法,支持图像和文本条件,通过ρ-start采样和扩张双掩码实现连贯准确的编辑。
- Motivation: 解决现有视频编辑方法在零样本和无需训练条件下的不足,提升编辑的连贯性和准确性。
- Method: 引入ρ-start采样和扩张双掩码构建结构化噪声图,并提出零图像引导策略以提升视觉保真度。
- Result: 在定量和定性评估中均优于现有方法。
- Conclusion: ImEdit在零样本视频编辑中表现出色,为未来研究提供了新方向。
[34] Inference-Time Gaze Refinement for Micro-Expression Recognition: Enhancing Event-Based Eye Tracking with Motion-Aware Post-Processing
Nuwan Bandara,Thivya Kandappu,Archan Misra
Main category: cs.CV
TL;DR: 提出了一种模型无关的推断时间细化框架,通过后处理模块提升事件驱动眼动追踪模型的输出质量。
- Motivation: 事件驱动眼动追踪在高时间分辨率和抗运动伪影方面具有优势,适合解码细微认知状态(如注意力、困惑或疲劳)。
- Method: 包括两个后处理模块:运动感知中值滤波和基于光流的局部细化,并提出新的抖动度量标准。
- Result: 显著提高了事件驱动眼动信号的稳定性,适用于微表情分析和心理状态解码等任务。
- Conclusion: 为未来多模态情感识别系统的实际应用奠定了基础。
[35] Towards Seamless Borders: A Method for Mitigating Inconsistencies in Image Inpainting and Outpainting
Xingzhong Hou,Jie Wu,Boxiao Liu,Yi Zhang,Guanglu Song,Yunpeng Liu,Yu Liu,Haihang You
Main category: cs.CV
TL;DR: 论文提出两种新方法改进基于扩散模型的图像修复,解决颜色不匹配和内容融合问题。
- Motivation: 尽管生成模型在图像修复中取得显著进展,但实现无缝连续性仍是挑战。
- Method: 1. 改进的变分自编码器校正颜色失衡;2. 两步训练策略优化扩散过程中的内容融合。
- Result: 实验表明,方法有效减少不连续性,生成高质量、连贯的修复结果。
- Conclusion: 提出的方法显著提升了图像修复的视觉质量和连贯性。
[36] Parkinson's Disease Freezing of Gait (FoG) Symptom Detection Using Machine Learning from Wearable Sensor Data
Mahmudul Hasan
Main category: cs.CV
TL;DR: 论文提出了一种结合Transformer Encoder和Bi-LSTM的模型,用于通过加速度计数据实时识别帕金森患者的冻结步态(FoG),在Kaggle数据集上表现优异。
- Motivation: 帕金森患者的冻结步态(FoG)严重影响其行动能力,实时识别FoG对改善患者治疗和管理至关重要。
- Method: 采用Transformer Encoder-Bi-LSTM融合模型,通过加速度计数据分类FoG事件。
- Result: 模型在Kaggle数据集上达到92.6%准确率、80.9% F1分数和52.06%平均精度。
- Conclusion: 深度学习模型在FoG识别领域具有潜力,可为帕金森患者提供更好的治疗和管理方案。
[37] Benchmarking Image Similarity Metrics for Novel View Synthesis Applications
Charith Wickrema,Sara Leary,Shivangi Sarkar,Mark Giglio,Eric Bianchi,Eliza Mace,Michael Twardowski
Main category: cs.CV
TL;DR: 传统图像相似度指标在评估真实场景图像与人工生成视角图像时效果不佳。研究评估了新型感知相似度指标DreamSim及三种传统指标(SSIM、PSNR、LPIPS)在新视角合成(NVS)中的表现,发现DreamSim更鲁棒且能有效评估图像的高层相似性。
- Motivation: 传统指标无法区分像素级微小变化与严重损坏的图像,而DreamSim能更有效地评估渲染质量,适用于实际场景。
- Method: 通过创建人工损坏图像集,量化各指标的敏感性和区分能力。
- Result: DreamSim对微小缺陷更鲁棒,能有效评估图像的高层相似性,优于传统指标。
- Conclusion: DreamSim在NVS应用中提供了更有效的渲染质量评估,尤其适用于实际场景中的轻微渲染问题。
[38] MVP-CBM:Multi-layer Visual Preference-enhanced Concept Bottleneck Model for Explainable Medical Image Classification
Chunjiang Wang,Kun Zhang,Yandong Liu,Zhiyang He,Xiaodong Tao,S. Kevin Zhou
Main category: cs.CV
TL;DR: MVP-CBM通过多层视觉偏好建模提升概念瓶颈模型的解释性和准确性。
- Motivation: 现有CBM方法仅将概念与视觉编码器的最后一层关联,忽视了概念偏好在不同层的差异,削弱了解释性。
- Method: 提出MVP-CBM,包含多层概念偏好建模和稀疏激活融合模块。
- Result: 在多个医学分类基准上达到最优准确性和互操作性。
- Conclusion: MVP-CBM通过多层建模显著提升了解释性和性能。
[39] DejaVid: Encoder-Agnostic Learned Temporal Matching for Video Classification
Darryl Ho,Samuel Madden
Main category: cs.CV
TL;DR: DejaVid是一种无需重新训练或修改架构的编码器无关方法,通过将视频转换为可变长度的多变量时间序列(MTS)并学习时间步和特征权重,显著提升了视频分类任务的性能。
- Motivation: 现有的大型Transformer视频编码器通过平均多个片段的嵌入输出来生成固定长度表示,忽略了时间相关特征(如视频时长、事件顺序和特征重要性变化)。现有时间建模方法需要大量架构修改和重新训练,不适用于现成的大型编码器。
- Method: 将视频转换为MTS以保留时间顺序和可变时长,学习每个时间步和特征的权重,并引入受传统时间序列对齐算法启发的神经网络架构。
- Result: DejaVid显著提升了性能,在Something-Something V2、Kinetics-400和HMDB51上分别达到77.2%、89.1%和88.6%的Top-1准确率,仅增加1.8%的可学习参数和不到3小时的训练时间。
- Conclusion: DejaVid是一种高效且轻量级的方法,能够在不改变现有编码器架构的情况下提升视频分类任务的性能。
[40] Not All Tokens and Heads Are Equally Important: Dual-Level Attention Intervention for Hallucination Mitigation
Lexiang Tang,Xianwei Zhuang,Bang Yang,Zhiyuan Hu,Hongxiang Li,Lu Ma,Jinghan Ru,Yuexian Zou
Main category: cs.CV
TL;DR: VisFlow是一个无需训练的框架,通过调整注意力模式减少大型视觉语言模型(LVLM)中的视觉幻觉(VH)。
- Motivation: LVLM在多模态任务中表现优异,但存在视觉幻觉问题,即对视觉内容生成错误但自信的描述。
- Method: 通过分析LVLM中的三种病态注意力行为,提出两种推理时干预方法:TAI(增强对视觉内容的注意力)和HAI(抑制对提示和文本的过度注意力)。
- Result: VisFlow显著减少了幻觉并提高了视觉事实性,且计算成本极低。
- Conclusion: VisFlow是一种高效且无需修改模型的解决方案,有效缓解了LVLM的视觉幻觉问题。
[41] OscNet v1.5: Energy Efficient Hopfield Network on CMOS Oscillators for Image Classification
Wenxiao Cai,Zongru Li,Iris Wang,Yu-Neng Wang,Thomas H. Lee
Main category: cs.CV
TL;DR: 论文提出了一种基于Hopfield网络的机器学习算法,可在低能耗硬件OscNet上实现,通过稀疏连接和仅前向传播训练,在MNIST数据集上精度提升8%,且能耗更低。
- Motivation: 传统机器学习计算资源消耗大,亟需新型低能耗计算架构。
- Method: 采用Hopfield网络,通过前向传播训练稀疏连接权重,并在OscNet硬件上实现。
- Result: 在MNIST数据集上精度提升8%,连接数减少至24%,精度仅下降0.1%。
- Conclusion: OscNet v1.5是一种高效节能的机器学习方案,适合CMOS振荡器计算。
[42] MS4UI: A Dataset for Multi-modal Summarization of User Interface Instructional Videos
Yuan Zang,Hao Tan,Seunghyun Yoon,Franck Dernoncourt,Jiuxiang Gu,Kushal Kafle,Chen Sun,Trung Bui
Main category: cs.CV
TL;DR: 论文提出了一种针对用户界面(UI)教学视频的多模态摘要新基准MS4UI,填补了现有通用语义级视频摘要方法的不足。
- Motivation: 现有基准不适合提供逐步可执行的文本指令和关键视频帧,而这对教学视频至关重要。
- Method: 收集了2,413个UI教学视频(167小时),并手动标注视频分割、文本摘要和视频摘要,以支持全面评估。
- Result: 实验表明,现有多模态摘要方法在UI视频摘要上表现不佳,凸显了新方法的必要性。
- Conclusion: MS4UI数据集为UI教学视频摘要提供了新基准,并指出了未来研究方向。
[43] Performance Plateaus in Inference-Time Scaling for Text-to-Image Diffusion Without External Models
Changhyun Choi,Sungha Kim,H. Jin Kim
Main category: cs.CV
TL;DR: 研究通过优化初始噪声提升文本到图像扩散模型性能,无需外部模型,适用于小VRAM GPU。
- Motivation: 先前方法依赖外部模型评估图像,不适用于小VRAM GPU。
- Method: 应用Best-of-N推理时间缩放优化初始噪声,无需外部模型。
- Result: 推理时间缩放快速达到性能瓶颈,少量优化步骤即可实现最佳性能。
- Conclusion: 优化初始噪声在小VRAM GPU上可行且高效。
[44] 3D Hand Mesh-Guided AI-Generated Malformed Hand Refinement with Hand Pose Transformation via Diffusion Model
Chen-Bin Feng,Kangdao Liu,Jian Sun,Jiping Jin,Yiguo Jiang,Chi-Man Vong
Main category: cs.CV
TL;DR: 提出了一种基于3D网格的扩散管道框架,用于修复AI生成图像中的畸形手部,并通过双检查算法和手部姿势变换方法提升效果。
- Motivation: 现有基于深度的手部修复方法因深度估计器的性能限制,无法准确表示手部细节,导致生成错误。
- Method: 使用先进的3D手部网格估计器提供更多细节,设计扩散修复模型,并引入双检查算法和无需额外训练的手部姿势变换方法。
- Result: 实验结果表明,该方法在修复畸形手部和手部姿势变换方面表现优异。
- Conclusion: 提出的框架显著提升了手部修复的真实性和多样性。
[45] Evaluating Cell Type Inference in Vision Language Models Under Varying Visual Context
Samarth Singhal,Sandeep Singhal
Main category: cs.CV
TL;DR: 研究评估了生成式视觉语言模型(VLMs)在病理图像分类任务中的表现,发现单样本提示显著优于零样本提示,但仍逊于定制训练的CNN。
- Motivation: 探讨通用VLMs(如GPT-4.1和Gemini 2.5 Pro)在专业领域(如病理学)中的应用潜力与局限性。
- Method: 使用零样本和单样本提示方法,对比VLMs与定制CNN在多样数据集上的表现。
- Result: 单样本提示显著提升VLM性能(p≈1.005×10^-5),但VLMs仍普遍落后于CNN。
- Conclusion: 当前VLMs在专业领域(如病理学)中表现有限,但展示了上下文学习的潜力。
[46] MGDFIS: Multi-scale Global-detail Feature Integration Strategy for Small Object Detection
Yuxiang Wang,Xuecheng Bai,Boyu Hu,Chuanzhi Xu,Haodong Chen,Vera Chung,Tingxue Li
Main category: cs.CV
TL;DR: MGDFIS是一种多尺度全局-细节特征融合策略,用于提升无人机图像中小目标检测的性能和效率。
- Motivation: 解决无人机图像中小目标检测因目标尺寸小、信噪比低和特征提取有限而面临的挑战。
- Method: 提出MGDFIS框架,包含三个模块:FusionLock-TSS注意力模块、全局-细节集成模块和动态像素注意力模块。
- Result: 在VisDrone基准测试中表现优于现有方法,精度和召回率更高,推理时间短。
- Conclusion: MGDFIS在精度和资源使用之间取得平衡,为资源受限的无人机平台提供实用解决方案。
[47] Unsupervised Contrastive Learning Using Out-Of-Distribution Data for Long-Tailed Dataset
Cuong Manh Hoang,Yeejin Lee,Byeongkeun Kang
Main category: cs.CV
TL;DR: 提出了一种自监督学习方法,用于长尾数据集,通过学习平衡且分离良好的表示,提升下游任务(如图像分类)性能。
- Motivation: 现实世界中物体类别分布不均衡,需要一种能在类别不平衡数据集上稳健学习的自监督方法。
- Method: 结合域内和域外数据训练网络,提出伪语义判别损失和域判别损失,随后通过无监督对比学习进一步优化,并使用指导网络选择样本和控制对比学习强度。
- Result: 在四个公开长尾数据集上,该方法优于现有最优方法。
- Conclusion: 该方法能有效学习平衡且分离良好的表示,适用于类别不平衡的自监督学习任务。
[48] NAP-Tuning: Neural Augmented Prompt Tuning for Adversarially Robust Vision-Language Models
Jiaming Zhang,Xin Wang,Xingjun Ma,Lingyu Qiu,Yu-Gang Jiang,Jitao Sang
Main category: cs.CV
TL;DR: 论文提出了一种多模态对抗提示调优框架(NAP-Tuning),通过扩展文本和视觉模态的提示调优、多层提示架构及特征净化技术,显著提升了视觉语言模型(VLM)的对抗鲁棒性。
- Motivation: 尽管视觉语言模型(如CLIP)在视觉与文本数据的联合嵌入空间表现出色,但其对图像模态的对抗攻击仍存在安全漏洞。
- Method: 提出NAP-Tuning框架,包括多模态提示调优、多层提示架构和神经增强器(Neural Augmentor)的特征净化技术。
- Result: 在多种数据集和攻击类型下,NAP-Tuning显著优于现有方法,在AutoAttack基准测试中分别以33.5%和33.0%的优势超越最强基线。
- Conclusion: NAP-Tuning通过多模态和特征净化技术有效提升了VLM的对抗鲁棒性,同时保持了干净的准确性。
[49] Combining Self-attention and Dilation Convolutional for Semantic Segmentation of Coal Maceral Groups
Zhenghao Xi,Zhengnan Lv,Yang Zheng,Xiang Liu,Zhuang Yu,Junran Chen,Jing Hu,Yaqi Liu
Main category: cs.CV
TL;DR: 论文提出了一种基于物联网的DA-VIT并行网络模型,用于煤质组分图像的语义分割,解决了现有模型计算需求高、训练效率低和数据获取难的问题。
- Motivation: 现有煤质组分语义分割模型通过堆叠参数提高精度,但增加了计算需求和训练时间,且数据获取困难。
- Method: 开发了IoT-based DA-VIT并行网络模型,利用物联网扩展数据集,并引入DCSA机制增强局部特征,减少参数。
- Result: DA-VIT-Base达到92.14%像素精度和63.18% mIoU,DA-VIT-Tiny参数和计算量分别为4.95M和8.99G,优于其他先进方法。
- Conclusion: DA-VIT模型在煤质组分分割中表现出色,显著提升了精度和效率。
[50] Generative 4D Scene Gaussian Splatting with Object View-Synthesis Priors
Wen-Hsuan Chu,Lei Ke,Jianmeng Liu,Mingxiao Huo,Pavel Tokmakov,Katerina Fragkiadaki
Main category: cs.CV
TL;DR: GenMOJO提出了一种新方法,通过结合可变形3D高斯优化和生成先验,从单目多目标视频中生成动态4D场景,解决了复杂遮挡场景下的视图合成问题。
- Motivation: 现有模型在孤立物体的新视图合成上表现良好,但在复杂遮挡场景中泛化能力不足。
- Method: GenMOJO将场景分解为独立物体,为每个物体优化可变形高斯集,利用对象中心扩散模型推断新视角中的未观测区域,并通过联合高斯溅射渲染完整场景。
- Result: GenMOJO生成了时空上的4D物体重建,并提供了准确的2D和3D点轨迹,定量评估和人类感知研究证实其优于现有方法。
- Conclusion: GenMOJO通过统一生成和渲染约束,在复杂场景中实现了更真实的新视图合成和更准确的点轨迹生成。
[51] SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration
Ye Li,Yuan Meng,Zewen Sun,Kangye Ji,Chen Tang,Jiajun Fan,Xinzhu Ma,Shutao Xia,Zhi Wang,Wenwu Zhu
Main category: cs.CV
TL;DR: SP-VLA框架通过动态调度模型和剪枝令牌,加速VLA模型,减少时空冗余,实现高效实时任务处理。
- Motivation: 现有VLA模型计算成本高、执行频率低,难以满足实时任务需求,且现有加速方法忽视时空冗余问题。
- Method: 设计动作感知模型调度机制和时空语义双感知令牌剪枝方法,动态切换VLA模型与轻量生成器,分类剪枝令牌。
- Result: 实验显示,方法实现1.5倍加速,精度下降小于3%,优于现有方法。
- Conclusion: SP-VLA有效提升VLA模型实时性,兼顾精度,适用于机器人操控等任务。
[52] Dynamic Modality Scheduling for Multimodal Large Models via Confidence, Uncertainty, and Semantic Consistency
Hiroshi Tanaka,Anika Rao,Hana Satou,Michael Johnson,Sofia García
Main category: cs.CV
TL;DR: 论文提出动态模态调度(DMS)框架,通过自适应调整每个模态的贡献,提升多模态大模型在噪声或缺失模态下的性能。
- Motivation: 现有多模态大模型采用静态模态融合策略,无法根据实例级可靠性或语义贡献调整模态权重,导致性能不佳。
- Method: DMS基于置信度、不确定性和语义一致性动态调整模态权重,并引入模态权重一致性损失以稳定训练。
- Result: 实验表明,DMS在VQA、图像-文本检索和字幕生成任务中显著提升了性能,尤其在模态损坏或缺失时。
- Conclusion: DMS为多模态建模提供了一种通用且有效的实例感知和鲁棒性增强机制。
[53] Efficient multi-view training for 3D Gaussian Splatting
Minhyuk Choi,Injae Kim,Hyunwoo J. Kim
Main category: cs.CV
TL;DR: 3D高斯泼溅(3DGS)因其渲染速度快成为逆渲染领域的首选,但单视图训练导致优化效果不佳。本文提出多视图训练方法,通过改进光栅化过程和引入3D距离感知D-SSIM损失及多视图自适应密度控制,显著提升了3DGS性能。
- Motivation: 单视图训练在3DGS中导致随机梯度方差增大,优化效果不理想,而多视图训练虽能解决此问题,但实现时存在计算开销和高斯密度控制问题。
- Method: 改进光栅化过程以减少多视图训练的开销,并提出3D距离感知D-SSIM损失和多视图自适应密度控制方法。
- Result: 实验表明,所提方法显著提升了3DGS及其变体的性能,使其摆脱单视图训练的限制。
- Conclusion: 多视图训练方法有效解决了3DGS的优化问题,提升了其性能,为其广泛应用提供了可能。
[54] Learning to Fuse: Modality-Aware Adaptive Scheduling for Robust Multimodal Foundation Models
Liam Bennett,Mason Clark,Lucas Anderson,Hana Satou,Olivia Martinez
Main category: cs.CV
TL;DR: 论文提出了一种名为MA-AFS的自适应模态融合调度框架,通过动态调整多模态贡献提升模型鲁棒性。
- Motivation: 现有方法采用固定或任务特定的融合策略,忽视了模态可靠性和样本复杂性的内在变化。
- Method: MA-AFS通过轻量级神经调度器预测模态融合权重,结合视觉和文本熵信号及跨模态一致性线索。
- Result: 在图像-文本检索、描述生成和视觉问答任务中,MA-AFS优于CLIP、ALBEF和BLIP等基线模型,并表现出更强的鲁棒性和泛化能力。
- Conclusion: 自适应融合对多模态学习至关重要,MA-AFS为可靠和不确定性感知的多模态学习开辟了新方向。
[55] Cross-architecture universal feature coding via distribution alignment
Changsheng Gao,Shan Liu,Feng Wu,Weisi Lin
Main category: cs.CV
TL;DR: 论文提出了一种跨架构通用特征编码(CAUFC)方法,通过两步分布对齐技术统一CNN和Transformer的特征压缩,实验证明其优于特定架构基线。
- Motivation: 现有特征编码方法多为特定架构设计,无法适应CNN和Transformer特征共存的现实场景,因此需要一种通用解决方案。
- Method: 采用两步分布对齐:1)格式对齐,统一特征为2D token格式;2)特征值对齐,通过截断和归一化协调统计分布。
- Result: 在图像分类任务中,该方法在率-精度权衡上优于特定架构基线。
- Conclusion: 该研究为跨异构模型架构的通用特征压缩迈出了第一步。
[56] Adaptive Dropout: Unleashing Dropout across Layers for Generalizable Image Super-Resolution
Hang Xu,Wei Yu,Jiangtong Tan,Zhen Zou,Feng Zhao
Main category: cs.CV
TL;DR: 论文提出了一种名为Adaptive Dropout的新正则化方法,用于解决盲超分辨率(blind SR)中中间层特征泛化不足的问题,通过自适应调整训练策略和特征整合,显著提升了性能。
- Motivation: 盲超分辨率模型在未知退化情况下泛化能力不足,现有方法仅关注最终层的特征正则化,忽视了中间层特征的重要性,导致性能下降。
- Method: 提出Adaptive Dropout方法,重新设计dropout形式以解决训练-测试不一致性,并通过层间自适应训练策略增强特征传播。
- Result: 实验表明,该方法在合成和真实数据集上均优于现有正则化方法,且适用于其他图像修复任务。
- Conclusion: Adaptive Dropout通过解决中间层特征泛化问题,显著提升了盲超分辨率模型的性能,具有广泛的应用潜力。
[57] Unleashing Diffusion and State Space Models for Medical Image Segmentation
Rong Wu,Ziqi Chen,Liming Zhong,Heng Li,Hai Shu
Main category: cs.CV
TL;DR: DSM是一种利用扩散和状态空间模型的新框架,用于分割训练数据中未见的肿瘤类别,通过对象查询和扩散引导特征融合提升性能。
- Motivation: 现有医学影像分割模型对未见器官或肿瘤的鲁棒性不足,需开发能识别罕见或新肿瘤类别的模型。
- Method: DSM结合扩散和状态空间模型,使用对象查询和扩散引导特征融合,并整合CLIP文本嵌入增强语义分割。
- Result: 实验表明DSM在多种肿瘤分割任务中表现优异。
- Conclusion: DSM通过扩散和状态空间模型显著提升了未见肿瘤类别的分割能力。
[58] Probing Deep into Temporal Profile Makes the Infrared Small Target Detector Much Better
Ruojing Li,Wei An,Xinyi Ying,Yingqian Wang,Yimian Dai,Longguang Wang,Miao Li,Yulan Guo,Li Liu
Main category: cs.CV
TL;DR: 论文提出了一种基于时间维度的一维信号异常检测方法(DeepPro),用于红外小目标检测,显著提升了在复杂场景和暗淡目标下的性能。
- Motivation: 当前基于学习的方法在红外小目标检测中存在性能不可靠和计算冗余的问题,论文探索了时间维度中的全局显著性和相关性信息,以更高效地区分目标信号。
- Method: 通过理论分析验证时间维度信息的重要性,提出了一种仅需在时间维度计算的深度时间探针网络(DeepPro)。
- Result: 实验表明,DeepPro在广泛使用的基准测试中优于现有方法,尤其在暗淡目标和复杂场景中表现显著提升。
- Conclusion: 论文为红外小目标检测提供了新的建模域、见解、方法和性能,推动了该领域的发展。
[59] Scene-aware SAR ship detection guided by unsupervised sea-land segmentation
Han Ke,Xiao Ke,Ye Yan,Rui Liu,Jinpeng Yang,Tianwen Zhang,Xu Zhan,Xiaowo Xu
Main category: cs.CV
TL;DR: 提出了一种基于无监督海陆分割的场景感知SAR船舶检测方法,通过ULSM和LASM模块提升检测精度和模型可解释性。
- Motivation: 解决DL-based SAR船舶检测中缺乏先验知识的问题,提升检测准确性。
- Method: 采用两阶段框架,结合无监督海陆分割模块(ULSM)和陆地注意力抑制模块(LASM),动态调整网络对陆地的注意力。
- Result: 在SSDD数据集上验证了方法的有效性,提升了船舶检测精度。
- Conclusion: 该方法通过引入场景感知和先验知识,显著提升了SAR船舶检测的性能和可解释性。
[60] Native Visual Understanding: Resolving Resolution Dilemmas in Vision-Language Models
Junbo Niu,Yuanhong Zheng,Ziyang Miao,Hejun Dong,Chunjiang Ge,Hao Liang,Ma Lu,Bohan Zeng,Qiahao Zheng,Conghui He,Wentao Zhang
Main category: cs.CV
TL;DR: 论文提出RC-Bench基准和NativeRes-LLaVA框架,解决视觉语言模型在多样分辨率和宽高比下的性能问题。
- Motivation: 现有视觉语言模型依赖固定低分辨率输入,无法适应真实世界图像的多样性,且缺乏系统性评估基准。
- Method: 引入RC-Bench基准和NativeRes-LLaVA框架,支持原生分辨率视觉编码。
- Result: 实验表明,原生分辨率视觉编码显著提升模型性能。
- Conclusion: NativeRes-LLaVA和RC-Bench为视觉语言模型在多样视觉条件下的性能提升提供了有效解决方案。
[61] A large-scale, physically-based synthetic dataset for satellite pose estimation
Szabolcs Velkei,Csaba Goldschmidt,Károly Vass
Main category: cs.CV
TL;DR: DLVS3提出了一种用于卫星姿态估计的新型合成数据集生成器和仿真流程,并发布了DLVS3-HST-V1数据集,专注于哈勃太空望远镜。
- Motivation: 解决自主航天器在近距离和服务任务中的领域差距问题。
- Method: 使用高保真3D模型、动态光照和物理准确的材料属性生成合成数据集,支持大规模标注图像集。
- Result: 生成了包含6自由度姿态、关键点数据、语义分割、深度和法线图的数据集,用于训练和测试深度学习模型。
- Conclusion: DLVS3为缩小领域差距提供了重要工具,推动了自主航天器操作的发展。
[62] Semantic-Aware Visual Information Transmission With Key Information Extraction Over Wireless Networks
Chen Zhu,Kang Liang,Jianrong Bao,Zhouxiang Zhao,Zhaohui Yang,Zhaoyang Zhang,Mohammad Shikh-Bahaei
Main category: cs.CV
TL;DR: 本文提出了一种面向6G网络的AI原生深度联合源信道编码(JSCC)框架,通过智能语义感知传输解决传统方法的不足。
- Motivation: 6G网络需要更高的智能和效率,传统静态配置的无线图像传输框架难以适应动态环境的需求。
- Method: 结合关键信息提取和自适应背景合成,利用Mediapipe和Rembg工具动态分离前景特征并匹配预训练背景库。
- Result: 实验显示,该方法在低信噪比条件下显著提升了峰值信噪比(PSNR)。
- Conclusion: 该框架为资源受限的移动通信提供了实用的多媒体服务解决方案。
[63] Rasterizing Wireless Radiance Field via Deformable 2D Gaussian Splatting
Mufan Liu,Cixiao Zhang,Qi Yang,Yujie Cao,Yiling Xu,Yin Xu,Shu Sun,Mingzeng Dai,Yunfeng Guan
Main category: cs.CV
TL;DR: 论文提出SwiftWRF,一种基于高斯溅射的高效无线辐射场建模方法,显著提升重建速度和信号质量。
- Motivation: 传统方法依赖经验公式或物理模拟,精度有限或需强场景先验;NeRF方法计算成本高,难以实时部署。
- Method: 采用高斯溅射技术,结合可变形2D高斯模型和CUDA加速光栅化,实现高效无线辐射场重建。
- Result: SwiftWRF重建速度比现有方法快500倍,信号质量显著提升,适用于AoA和RSSI预测。
- Conclusion: SwiftWRF为无线辐射场建模提供了高效解决方案,适用于实时通信系统。
[64] SMPL Normal Map Is All You Need for Single-view Textured Human Reconstruction
Wenhao Shen,Gangjian Zhang,Jianfeng Zhang,Yu Feng,Nanjie Yao,Xuanmeng Zhang,Hao Wang
Main category: cs.CV
TL;DR: 提出了一种新的SMPL法线图辅助的3D人体重建框架SEHR,通过结合预训练的大模型和人体几何先验,解决了现有方法的数据稀缺和2D幻觉问题。
- Motivation: 现有方法存在数据稀缺和2D幻觉问题,限制了单视图3D人体重建的效果。
- Method: SEHR框架包含SMPL法线图引导(SNMG)和SMPL法线图约束(SNMC)两个关键组件,无需预设扩散模型即可完成重建。
- Result: 在两个基准数据集上的实验表明,SEHR优于现有最先进方法。
- Conclusion: SEHR通过引入SMPL法线图,显著提升了单视图3D人体重建的准确性和鲁棒性。
[65] Leveraging MIMIC Datasets for Better Digital Health: A Review on Open Problems, Progress Highlights, and Future Promises
Afifa Khaled,Mohammed Sabir,Rizwan Qureshi,Camillo Maria Caruso,Valerio Guarrasi,Suncheng Xiang,S Kevin Zhou
Main category: cs.CV
TL;DR: 本文对MIMIC数据集在数字健康研究中的核心作用进行了综述,重点探讨了数据集成、表示和互操作性等未充分研究的挑战,并提出了未来研究方向。
- Motivation: MIMIC数据集在临床决策支持、结果预测和健康分析中广泛应用,但其数据集成、表示和互操作性问题尚未深入探讨。
- Method: 通过综述方法,识别了数据粒度、基数限制、异构编码方案和伦理约束等问题,并总结了维度缩减、时序建模、因果推理和隐私保护分析等进展。
- Result: 揭示了MIMIC数据集在通用性和实时实现方面的结构性问题,并提出了混合建模、联邦学习和标准化预处理等未来方向。
- Conclusion: 本综述为下一代基于MIMIC的数字健康创新提供了可操作的见解,强调了解决结构性限制的重要性。
[66] Learning Unpaired Image Dehazing with Physics-based Rehazy Generation
Haoyou Deng,Zhiqiang Li,Feng Zhang,Qingbo Lu,Zisheng Cao,Yuanjie Shao,Shuhang Gu,Changxin Gao,Nong Sang
Main category: cs.CV
TL;DR: 论文提出了一种名为Rehazy的新训练策略,用于解决图像去雾中合成训练对过拟合的问题,通过物理基础的重新雾化生成管道和双分支框架提升去雾性能和训练稳定性。
- Motivation: 现有方法在图像去雾中因过拟合合成数据导致泛化能力差,且CycleGAN或对比学习框架存在训练不稳定的问题。
- Method: 提出Rehazy策略,利用物理基础的重新雾化生成管道构建高质量雾化-重新雾化对,并设计双分支框架(干净分支和雾化分支)进行训练。
- Result: 在四个基准测试中表现优异,SOTS-Indoor和SOTS-Outdoor数据集的PSNR分别提升3.58 dB和1.85 dB。
- Conclusion: Rehazy策略显著提升了去雾性能和训练稳定性,优于现有方法。
[67] LOP: Learning Optimal Pruning for Efficient On-Demand MLLMs Scaling
Zhihan Zhang,Xiang Pan,Hongchen Wei,Zhenzhong Chen
Main category: cs.CV
TL;DR: LOP是一种高效的神经剪枝框架,通过学习目标剪枝约束直接预测层间剪枝策略,避免了计算密集型搜索方法。
- Motivation: 现有剪枝方法通过迭代搜索确定最优策略,计算开销大,难以适应多模态大语言模型(MLLMs)的实时部署需求。
- Method: LOP利用自回归神经网络直接预测适应目标剪枝约束的层间剪枝策略,无需迭代搜索。
- Result: 实验表明,LOP在多项任务中优于现有剪枝方法,并实现了三个数量级的加速。
- Conclusion: LOP为MLLMs的高效部署提供了一种快速且性能优越的剪枝解决方案。
[68] ComplexBench-Edit: Benchmarking Complex Instruction-Driven Image Editing via Compositional Dependencies
Chenglin Wang,Yucheng Zhou,Qianning Wang,Zhe Wang,Kai Zhang
Main category: cs.CV
TL;DR: 论文提出了ComplexBench-Edit基准测试,用于评估模型处理复杂多步图像编辑任务的能力,并提出了一种基于Chain-of-Thought的方法来提升性能。
- Motivation: 现实场景中的图像编辑任务常涉及复杂、多步的指令,而现有模型和基准测试无法有效处理或评估这些任务。
- Method: 引入ComplexBench-Edit基准测试和新的视觉一致性评估方法,并提出基于Chain-of-Thought的改进方法。
- Result: 实验证明ComplexBench-Edit能有效区分模型能力,且Chain-of-Thought方法显著提升了复杂指令的遵循能力。
- Conclusion: ComplexBench-Edit为复杂图像编辑任务提供了有效的评估工具,Chain-of-Thought方法为模型性能提升提供了新思路。
[69] DiffS-NOCS: 3D Point Cloud Reconstruction through Coloring Sketches to NOCS Maps Using Diffusion Models
Di Kong,Qianhui Wan
Main category: cs.CV
TL;DR: DiffS-NOCS利用ControlNet和多视角解码器从2D草图生成NOCS图,结合多视角信息重建3D点云,并通过特征级多视角聚合网络提升3D一致性。
- Motivation: 现有方法在3D空间中直接处理草图存在领域变异性及2D到3D重建精度不足的问题,且缺乏多模态融合控制。
- Method: DiffS-NOCS结合ControlNet和多视角解码器生成NOCS图,引入视角编码器和特征级多视角聚合网络提升3D一致性。
- Result: 在ShapeNet上的实验表明,DiffS-NOCS实现了可控且精细的点云重建。
- Conclusion: DiffS-NOCS通过多视角融合和特征聚合,有效解决了草图到3D点云重建的挑战。
[70] HyRet-Change: A hybrid retentive network for remote sensing change detection
Mustansar Fiaz,Mubashir Noman,Hiyam Debary,Kamran Ali,Hisham Cholakkal
Main category: cs.CV
TL;DR: HyRet-Change框架结合卷积和保留机制,通过多尺度特征捕获互补信息,解决伪变化问题,并在实验中表现优异。
- Motivation: 现有方法在局部与全局依赖交互及伪变化缓解方面效果不明,且标准自注意力存在局限性。
- Method: 提出Siamese框架HyRet-Change,结合卷积与多头保留机制,引入特征差异模块和自适应局部-全局交互机制。
- Result: 在三个挑战性CD数据集上取得最优性能。
- Conclusion: HyRet-Change有效整合局部与全局信息,提升复杂场景下的适应性。
[71] Towards Fine-Grained Emotion Understanding via Skeleton-Based Micro-Gesture Recognition
Hao Xu,Lechao Cheng,Yaxiong Wang,Shengeng Tang,Zhun Zhong
Main category: cs.CV
TL;DR: 本文提出了一种基于PoseC3D框架的改进方法,用于识别微手势(MGs),以理解隐藏情绪。通过三种关键改进,在iMiGUE测试集上达到67.01%的Top-1准确率。
- Motivation: 微手势因其细微、短暂和低幅度特性而难以建模和分类,本文旨在解决这一挑战。
- Method: 采用PoseC3D框架,并引入三种改进:1)针对iMiGUE数据集的拓扑感知骨架表示;2)改进的时序处理策略;3)语义标签嵌入辅助监督。
- Result: 在iMiGUE测试集上Top-1准确率为67.01%,在MiGA挑战赛中排名第三。
- Conclusion: 提出的方法有效提升了微手势识别性能,代码已开源。
[72] CAPO: Reinforcing Consistent Reasoning in Medical Decision-Making
Songtao Jiang,Yuan Wang,Ruizhe Chen,Yan Zhang,Ruilin Luo,Bohan Lei,Sibo Song,Yang Feng,Jimeng Sun,Jian Wu,Zuozhu Liu
Main category: cs.CV
TL;DR: 论文提出了一种新的大规模强化学习框架CAPO,用于医疗视觉问答(Med-VQA),解决了感知与推理阶段的对齐问题,并引入Med-Zero-17K数据集支持训练。
- Motivation: 医疗视觉问答中,感知与推理阶段的对齐问题以及推理到答案生成的不一致性限制了模型性能,且缺乏高质量数据集。
- Method: 提出CAPO框架,通过奖励机制确保感知与推理的一致性,并引入Med-Zero-17K数据集进行大规模RL训练。
- Result: 实验表明CAPO在域内和域外场景中均优于基线模型,并展现出对3D Med-VQA任务的泛化能力。
- Conclusion: CAPO框架和Med-Zero-17K数据集有效提升了Med-VQA的性能和泛化能力。
[73] EraserDiT: Fast Video Inpainting with Diffusion Transformer Model
Jie Liu,Zheng Hui
Main category: cs.CV
TL;DR: 本文提出了一种基于扩散变换器(DiT)的视频修复方法,通过结合扩散模型和Transformer架构,解决了传统方法在长期时间一致性和大面积掩码修复上的不足。
- Motivation: 传统视频修复方法在长期时间特征利用和时间一致性上表现不佳,尤其是在处理大面积掩码时效果较差。
- Method: 采用扩散变换器(DiT)和环形位置偏移策略,结合自动检测和交互式移除对象的功能。
- Result: 在内容保真度、纹理恢复和时间一致性上表现优越,处理速度为180秒完成121帧1080×1920分辨率视频。
- Conclusion: 该方法显著提升了视频修复的质量和效率,尤其在长期时间一致性方面表现突出。
[74] Active Adversarial Noise Suppression for Image Forgery Localization
Rongxuan Peng,Shunquan Tan,Xianbo Mo,Alex C. Kot,Jiwu Huang
Main category: cs.CV
TL;DR: 提出了一种对抗噪声抑制模块(ANSM)和两阶段训练策略(FFA和MgR),显著提升了图像伪造定位模型在对抗攻击下的性能。
- Motivation: 现有深度学习模型在图像伪造定位任务中对对抗攻击高度脆弱,需要一种有效的防御方法。
- Method: 1. 使用FFA策略减少对抗噪声与原始伪造图像特征的分布差异;2. 通过MgR策略进一步优化防御扰动,确保对对抗和原始图像均有效。
- Result: 实验表明,该方法显著恢复了模型在对抗图像上的性能,且对原始伪造图像的性能几乎无影响。
- Conclusion: 这是首个针对图像伪造定位任务的对抗防御方法,具有重要应用价值。
[75] Intriguing Frequency Interpretation of Adversarial Robustness for CNNs and ViTs
Lu Chen,Han Yang,Hu Wang,Yuxin Cao,Shaofeng Li,Yuan Luo
Main category: cs.CV
TL;DR: 论文研究了对抗样本在频域的特性,发现不同网络架构对频率成分的偏好不同,并提出了三条实用建议。
- Motivation: 理解对抗样本在频域的特性及其对模型鲁棒性的影响。
- Method: 通过分析对抗样本和自然样本在频域的表现差异,研究不同频率成分对模型性能的影响。
- Result: 发现高、中、低频成分在不同网络架构中对抗攻击效果不同,且频率成分差异直接影响模型鲁棒性。
- Conclusion: 不同网络架构对频率成分有不同偏好,研究结果为AI模型安全提供了实用参考。
[76] Model-Agnostic, Temperature-Informed Sampling Enhances Cross-Year Crop Mapping with Deep Learning
Mehmet Ozgur Turkoglu,Selene Ledain,Helge Aasen
Main category: cs.CV
TL;DR: 提出了一种基于生长度日(GDD)的采样策略,替代传统日历时间采样,以提高作物分类的跨季节泛化能力和实时应用可靠性。
- Motivation: 传统作物分类方法依赖固定日历采样和同一年份的标签数据,无法应对气候变异性导致的物候变化,且缺乏不确定性量化。
- Method: 利用生长度日(GDD)进行时间序列均匀采样,强调物候活跃期,减少冗余和噪声。
- Result: 在多年度Sentinel-2数据集上验证,分类准确率和不确定性估计显著优于现有方法,尤其在低数据量和早季分类中表现优异。
- Conclusion: 基于温度数据的采样策略提升了作物分类的跨季节性能和实际应用的鲁棒性。
[77] Efficient Neural Video Representation via Structure-Preseving Patch Decoding
Taiga Hayami,Kakeru Koizumi,Hiroshi Watanabe
Main category: cs.CV
TL;DR: 提出了一种基于结构保持补丁(SPPs)的神经视频表示方法,通过重新排列帧为空间结构化的补丁帧,提升重建质量和压缩性能。
- Motivation: 传统均匀补丁划分在补丁边界处可能导致不连续性,影响全局结构一致性。
- Method: 使用类似PixelUnshuffle的操作将帧重新排列为空间结构化的补丁帧,支持全局到局部的拟合策略。
- Result: 在标准视频数据集上,该方法在重建质量和压缩性能上优于现有基于INR的视频表示方法。
- Conclusion: SPPs方法有效解决了补丁边界不连续性问题,提升了视频表示的性能。
[78] Metropolis-Hastings Sampling for 3D Gaussian Reconstruction
Hyunjin Kim,Haebeom Jung,Jaesik Park
Main category: cs.CV
TL;DR: 提出了一种基于Metropolis-Hastings的自适应采样框架,用于3D高斯泼溅(3DGS),通过多视角光度误差信号动态调整高斯分布,减少冗余计算。
- Motivation: 传统3DGS方法依赖启发式密度控制机制(如克隆、分裂和修剪),可能导致冗余计算或过早移除有用高斯分布。
- Method: 将密度控制和修剪重新定义为概率采样过程,基于多视角误差和不透明度分数动态插入和重新定位高斯分布,并通过贝叶斯接受测试指导。
- Result: 在多个基准数据集上实验表明,该方法减少了所需高斯分布数量,提升了计算效率,同时保持或略微超越现有模型的视图合成质量。
- Conclusion: 该方法通过概率采样减少对启发式规则的依赖,自适应推断高斯分布,显著提升了3DGS的效率和灵活性。
[79] Boundary-Aware Vision Transformer for Angiography Vascular Network Segmentation
Nabil Hezil,Suraj Singh,Vita Vlasova,Oleg Rogov,Ahmed Bouridane,Rifat Hamoudi
Main category: cs.CV
TL;DR: BAVT是一种边界感知的Vision Transformer,通过边缘感知损失改进血管分割,优于CNN和混合模型。
- Motivation: 解决冠状动脉造影中血管分割的挑战,尤其是细长、低对比度血管的拓扑连续性和边界精确性问题。
- Method: 提出BAVT,一种基于ViT的架构,结合边缘感知损失,专注于细粒度血管边界分割。
- Result: 在DCA-1数据集上表现优于CNN和混合基线模型。
- Conclusion: BAVT证明了结合ViT编码器和边界感知监督在临床级血管分割中的有效性。
[80] DuoFormer: Leveraging Hierarchical Representations by Local and Global Attention Vision Transformer
Xiaoya Tang,Bodong Zhang,Man Minh Ho,Beatrice S. Knudsen,Tolga Tasdizen
Main category: cs.CV
TL;DR: 提出了一种结合CNN和ViT的分层Transformer模型,通过多尺度学习和注意力机制提升医学图像分类性能。
- Motivation: 探索多尺度学习在医学Transformer模型中的应用,弥补ViT缺乏归纳偏置和依赖大数据集的不足。
- Method: 使用CNN生成分层视觉表示,通过创新的patch tokenization适应Transformer输入,并引入尺度注意力机制。
- Result: 模型在分类准确率上显著优于基线模型,有效结合了CNN和ViT的优势。
- Conclusion: 该模型为医学诊断提供了一种高效的多尺度表示方法,具有广泛适用性。
[81] SmartHome-Bench: A Comprehensive Benchmark for Video Anomaly Detection in Smart Homes Using Multi-Modal Large Language Models
Xinyi Zhao,Congjing Zhang,Pei Guo,Wei Li,Lin Chen,Chaoyue Zhao,Shuai Huang
Main category: cs.CV
TL;DR: 论文提出了首个针对智能家居场景的视频异常检测(VAD)基准SmartHome-Bench,并评估了多模态大语言模型(MLLMs)的性能,发现现有模型存在显著局限性,进而提出了一种新的LLM链框架TRLC,提升了检测精度。
- Motivation: 现有VAD基准主要针对通用场景,忽略了智能家居的特殊需求,因此需要专门设计一个基准以填补这一空白。
- Method: 构建了包含1,203个智能家居视频的基准数据集,并提出了基于异常分类的标注方法。进一步研究了MLLMs的适应方法,并提出了Taxonomy-Driven Reflective LLM Chain(TRLC)框架。
- Result: 实验表明现有MLLMs在VAD任务中表现不佳,而TRLC框架显著提升了11.62%的检测精度。
- Conclusion: SmartHome-Bench填补了智能家居VAD基准的空白,TRLC框架为提升MLLMs在VAD中的性能提供了有效解决方案。
[82] DETRPose: Real-time end-to-end transformer model for multi-person pose estimation
Sebastian Janampa,Marios Pattichis
Main category: cs.CV
TL;DR: 提出了一种基于Transformer的实时多人2D姿态估计模型,通过改进的解码器架构和关键点相似性度量提升查询质量,训练速度快且参数少。
- Motivation: 目前缺乏基于Transformer的实时多人姿态估计模型,限制了计算机视觉和虚拟现实应用的发展。
- Method: 采用改进的解码器架构和关键点相似性度量,生成正负查询以优化查询质量。
- Result: 模型训练速度快(5-10倍少轮次),推理时间与现有模型相当,无需量化库加速,且参数更少。
- Conclusion: 提出的模型在性能和效率上优于现有方法,为实时多人姿态估计提供了有效解决方案。
[83] WildCAT3D: Appearance-Aware Multi-View Diffusion in the Wild
Morris Alper,David Novotny,Filippos Kokkinos,Hadar Averbuch-Elor,Tom Monnier
Main category: cs.CV
TL;DR: WildCAT3D是一个从多样化2D场景图像数据中学习生成新视图的框架,解决了场景级稀疏新视图合成的数据问题。
- Motivation: 场景级新视图合成缺乏干净的多视图训练数据,而野外数据多样但存在外观变化问题。
- Method: 通过显式建模全局外观条件,扩展多视图扩散范式,从多样化场景视图中学习。
- Result: WildCAT3D在单视图新视图合成中取得先进成果,且训练数据需求少于先前方法。
- Conclusion: WildCAT3D不仅提升了性能,还支持生成过程中的全局外观控制。
[84] AS400-DET: Detection using Deep Learning Model for IBM i (AS/400)
Thanh Tran,Son T. Luu,Quan Bui,Shoshin Nomura
Main category: cs.CV
TL;DR: 本文提出了一种用于IBM i系统(AS/400)的自动GUI组件检测方法,并构建了一个包含1,050张系统屏幕图像的数据集,其中381张为日语界面。基于深度学习模型开发了检测系统,实验证明了数据集的有效性。
- Motivation: IBM i系统的GUI组件检测需求,尤其是多语言界面的自动化测试。
- Method: 构建人工标注的数据集,开发基于深度学习的检测系统,并评估不同方法。
- Result: 实验结果表明数据集在构建GUI组件检测系统中的有效性。
- Conclusion: AS400-DET系统能自动检测GUI组件,为基于GUI的系统自动化测试提供潜力。
[85] HKD4VLM: A Progressive Hybrid Knowledge Distillation Framework for Robust Multimodal Hallucination and Factuality Detection in VLMs
Zijian Zhang,Xuecheng Wu,Danlei Huang,Siyu Yan,Chong Peng,Xuezhi Cao
Main category: cs.CV
TL;DR: 本文提出了一种名为HKD4VLM的渐进混合知识蒸馏框架,用于解决视觉语言模型(VLM)中的幻觉检测和事实性检查问题,通过分层知识对齐和细化提升模型性能。
- Motivation: 随着视觉语言模型的快速发展,大规模多模态模型的责任行为(如幻觉检测和事实性检查)成为重要研究方向。本文旨在通过知识蒸馏提升模型效率和性能。
- Method: 提出HKD4VLM框架,包括金字塔式渐进在线蒸馏和三重耦合细化蒸馏,从粗粒度知识对齐到细粒度细化分层处理。此外,引入映射偏移增强推理和数据增强策略。
- Result: 实验证明HKD4VLM的有效性,消融研究揭示了关键设计选择对性能提升的贡献。
- Conclusion: HKD4VLM通过知识蒸馏和分层优化,显著提升了视觉语言模型的性能和鲁棒性。
[86] Evolution of ReID: From Early Methods to LLM Integration
Amran Bhuiyan,Mizanur Rahman,Md Tahmid Rahman Laskar,Aijun An,Jimmy Xiangji Huang
Main category: cs.CV
TL;DR: 该论文综述了行人重识别(ReID)从手工特征到深度学习,再到结合大语言模型(LLMs)的发展历程,重点介绍了利用LLMs通过自然语言描述提升视觉匹配的方法。
- Motivation: 早期方法在光照、姿态和视角变化上表现不佳,深度学习虽解决了部分问题,但LLMs的引入进一步整合了语义和上下文信息,提升了ReID系统的性能。
- Method: 论文提出了一种动态、身份特定的提示生成方法(基于GPT-4o),用于增强视觉-语言ReID系统中图像与文本的对齐。
- Result: 实验表明,生成的文本描述显著提高了准确性,尤其在复杂或模糊场景中。论文还发布了基于标准ReID数据集的GPT-4o生成描述数据集。
- Conclusion: 该研究为计算机视觉与自然语言处理的结合提供了统一视角,并指出了未来研究方向,如提示设计优化、跨模态迁移学习和实际场景适应性。
[87] MAMMA: Markerless & Automatic Multi-Person Motion Action Capture
Hanz Cuevas-Velasquez,Anastasios Yiannakidis,Soyong Shin,Giorgio Becherini,Markus Höschle,Joachim Tesch,Taylor Obersat,Tsvetelina Alexiadis,Michael Black
Main category: cs.CV
TL;DR: MAMMA是一个无标记的运动捕捉系统,通过多视角视频准确恢复SMPL-X参数,解决了传统标记系统的高成本和复杂性问题,并在密集2D地标预测和遮挡处理上表现优异。
- Motivation: 传统运动捕捉系统依赖物理标记,成本高且耗时;现有学习方法多为单人捕捉或依赖稀疏关键点,难以处理遮挡和交互。
- Method: 提出一种基于分割掩码的密集2D表面地标预测方法,利用可学习查询的新架构,并构建大规模合成数据集进行训练。
- Result: 系统在复杂人-人交互中表现优于现有方法,重建质量接近商业标记系统,且无需手动清理。
- Conclusion: MAMMA为无标记运动捕捉提供了高效解决方案,并公开数据集、基准和方法以促进研究。
[88] ViewPCL: a point cloud based active learning method for multi-view segmentation
Christian Hilaire,Sima Didari
Main category: cs.CV
TL;DR: 提出了一种用于多视角语义分割的新型主动学习框架,通过测量不同视角下模型预测生成的点云分布差异来提高数据效率和可解释性。
- Motivation: 多视角语义分割中,如何高效利用数据和提升模型解释性是关键挑战。
- Method: 利用模型预测的几何信息生成点云分布,设计新评分标准衡量不同视角的分布差异。
- Result: 实现了数据高效且可解释的主动学习方法。
- Conclusion: 该框架为多视角语义分割提供了一种有效的主动学习解决方案。
[89] Beyond the First Read: AI-Assisted Perceptual Error Detection in Chest Radiography Accounting for Interobserver Variability
Adhrith Vutukuri,Akash Awasthi,David Yang,Carol C. Wu,Hien Van Nguyen
Main category: cs.CV
TL;DR: RADAR是一个辅助放射科医生检测胸部X光片中被忽略异常的AI系统,通过区域分析和灵活建议减少误诊。
- Motivation: 胸部X光片中常见的感知错误(如忽略可见异常)缺乏有效的人机协作支持。
- Method: RADAR结合放射科医生的标注和图像,进行区域分析,提供潜在遗漏异常的ROI建议。
- Result: 在模拟数据集中,召回率0.78,F1分数0.56,区域定位准确(中位IoU 0.78)。
- Conclusion: RADAR有效辅助放射科医生,减少AI依赖,适合实际工作流程。
[90] Stress-Testing Multimodal Foundation Models for Crystallographic Reasoning
Can Polat,Hasan Kurban,Erchin Serpedin,Mustafa Kurban
Main category: cs.CV
TL;DR: 该论文提出了一个多尺度多晶体数据集和两种物理评估协议,用于测试多模态生成模型的泛化能力,并评估了九种视觉-语言基础模型在晶体学推理中的表现。
- Motivation: 评估基础模型在晶体学推理中的泛化能力,同时确保物理约束。
- Method: 引入两种评估协议(空间排除和成分排除)和三种评估指标(相对误差、物理一致性指数和幻觉分数)。
- Result: 建立了可重复的物理评估框架,用于测试多模态模型的泛化性、一致性和可靠性。
- Conclusion: 该研究为大规模多模态模型的评估提供了物理依据和标准化方法。
[91] DualFast: Dual-Speedup Framework for Fast Sampling of Diffusion Models
Hu Yu,Hao Luo,Fan Wang,Feng Zhao
Main category: cs.CV
TL;DR: 本文提出了一种名为DualFast的统一且无需训练的加速框架,旨在通过同时减少离散化误差和近似误差来提升扩散概率模型(DPMs)的采样速度和质量。
- Motivation: 扩散概率模型(DPMs)在视觉生成中表现出色,但迭代采样导致推理速度慢。现有快速采样器通过高阶求解器减少离散化误差,但优化空间有限。本文重新审视采样误差的本质,发现其包含离散化误差和近似误差两种成分,并探索如何进一步加速采样过程。
- Method: 提出DualFast框架,通过双误差解耦策略同时处理离散化误差和近似误差,从而最小化总采样误差。该框架与现有采样器兼容,无需额外训练。
- Result: 实验表明,DualFast在极少数采样步骤下显著提升了采样速度和质量,适用于无条件采样和条件采样任务,涵盖像素空间和潜在空间的DPMs。
- Conclusion: DualFast通过双误差解耦策略有效加速DPM采样,为实际应用提供了高效且高质量的解决方案。
[92] PRISM2: Unlocking Multi-Modal General Pathology AI with Clinical Dialogue
George Shaikovski,Eugene Vorontsov,Adam Casson,Julian Viret,Eric Zimmermann,Neil Tenenholtz,Yi Kan Wang,Jan H. Bernhard,Ran A. Godrich,Juan A. Retamero,Razik Yousfi,Nicolo Fusi,Thomas J. Fuchs,Kristen Severson,Siqi Liu
Main category: cs.CV
TL;DR: PRISM2是一个多模态病理学基础模型,通过临床对话训练,提升病理AI的通用性和可扩展性。
- Motivation: 现有病理基础模型缺乏全切片图像理解和大规模诊断数据训练,限制了其在下游任务中的表现。
- Method: PRISM2采用两阶段训练:第一阶段通过对比和描述目标对齐切片嵌入与临床诊断文本;第二阶段解冻语言模型以提取更具临床意义的表示。
- Result: PRISM2在诊断和生物标志物预测任务中表现优异,超越现有模型,并引入零样本分类方法。
- Conclusion: PRISM2通过视觉特征与临床推理的对齐,提升了通用性,为病理AI提供了可扩展的解决方案。
[93] Video Individual Counting With Implicit One-to-Many Matching
Xuhui Zhu,Jing Xu,Bingjie Wang,Huikang Dai,Hao Lu
Main category: cs.CV
TL;DR: 论文提出了一种名为OMAN的模型,通过将一对一(O2O)匹配问题放宽为一对多(O2M)匹配,解决了视频个体计数(VIC)中的行人对应问题。
- Motivation: 传统的视频个体计数方法采用一对一匹配策略,对行人外观变化或漏检敏感。本文提出放宽匹配策略以更好地适应VIC任务。
- Method: OMAN模型包含隐式上下文生成器和一对多配对器,通过O2M匹配策略利用行人社交行为。
- Result: 在SenseCrowd和CroHD基准测试中,OMAN达到了最先进的性能。
- Conclusion: OMAN通过O2M匹配策略有效解决了VIC中的行人对应问题,性能优于现有方法。
[94] SuperPlace: The Renaissance of Classical Feature Aggregation for Visual Place Recognition in the Era of Foundation Models
Bingxi Liu,Pengju Zhang,Li He,Hao Chen,Shiyi Guo,Yihong Wu,Jinqiang Cui,Hong Zhang
Main category: cs.CV
TL;DR: 论文提出SuperPlace方法,结合经典特征聚合技术(如GeM和NetVLAD)和基础模型,通过监督标签对齐、G²M特征聚合和NetVLAD二次微调策略,显著提升了视觉地点识别(VPR)性能。
- Motivation: 现有VPR方法未能充分利用基础模型的潜力,且忽视了经典聚合方法的有效性,因此提出SuperPlace以解决这些问题。
- Method: 1. 监督标签对齐实现多数据集统一训练;2. G²M方法通过双GeM聚合特征;3. NetVLAD-Linear的二次微调策略(FT²)。
- Result: G²M在特征维度仅为现有方法十分之一时表现优异;NVL-FT²在MSLS排行榜上排名第一。
- Conclusion: SuperPlace通过结合经典方法与创新策略,显著提升了VPR性能,验证了经典技术的潜力。
[95] SuperPoint-SLAM3: Augmenting ORB-SLAM3 with Deep Features, Adaptive NMS, and Learning-Based Loop Closure
Shahram Najam Syed,Ishir Roongta,Kavin Ravie,Gangadhar Nageswar
Main category: cs.CV
TL;DR: SuperPoint-SLAM3通过替换ORB为自监督的SuperPoint检测器-描述符、引入自适应非极大值抑制和轻量级NetVLAD模块,显著提升了ORB-SLAM3在极端条件下的定位与建图精度。
- Motivation: ORB-SLAM3在极端视角、尺度和光照变化下表现不佳,因其依赖手工设计的ORB关键点。
- Method: (i) 用SuperPoint替换ORB,(ii) 通过ANMS实现空间均匀关键点,(iii) 集成NetVLAD用于学习型闭环检测。
- Result: 在KITTI和EuRoC数据集上,平均平移误差和旋转误差显著降低(如KITTI平移误差从4.15%降至0.34%)。
- Conclusion: 结合深度学习特征和学习型闭环模块显著提升了ORB-SLAM3的精度,同时保持了实时性。
[96] Learning Event Completeness for Weakly Supervised Video Anomaly Detection
Yu Wang,Shiwei Chen
Main category: cs.CV
TL;DR: LEC-VAD提出了一种新的弱监督视频异常检测方法,通过双结构编码视觉和语言的语义信息,利用异常感知高斯混合模型学习事件边界,并通过记忆库原型学习机制增强文本描述。
- Motivation: 现有WS-VAD方法由于缺乏密集帧级标注,导致异常事件定位不完整。
- Method: LEC-VAD采用双结构编码类别感知和类别无关语义,设计语义规律性学习事件边界,并引入记忆库原型学习机制增强文本描述。
- Result: 在XD-Violence和UCF-Crime数据集上表现优于现有方法。
- Conclusion: LEC-VAD通过改进语义学习和文本表达,显著提升了弱监督视频异常检测的性能。
[97] Pro-AD: Learning Comprehensive Prototypes with Prototype-based Constraint for Multi-class Unsupervised Anomaly Detection
Ziqing Zhou,Binbin Gao,Yuri Pan,Lidong Wang,Wenbing Zhu,Yong Liu,Jun Liu,MIngmin Chi,Dong Wu,Bo Peng,Chengjie Wang
Main category: cs.CV
TL;DR: 论文提出Pro-AD方法,通过扩展原型集和动态双向解码器解决原型不足和异常重建问题,提升无监督异常检测性能。
- Motivation: 现有原型重建方法因原型数量有限导致正常信息聚合不足,且增加原型可能引发异常被重建的“软身份映射”问题。
- Method: 引入扩展原型集和动态双向解码器,结合原型约束防止异常重建。
- Result: 在多个基准测试中达到最优性能。
- Conclusion: Pro-AD在多类无监督异常检测任务中表现出色。
[98] GS-2DGS: Geometrically Supervised 2DGS for Reflective Object Reconstruction
Jinguang Tong,Xuesong li,Fahira Afzal Maken,Sundaram Muthu,Lars Petersson,Chuong Nguyen,Hongdong Li
Main category: cs.CV
TL;DR: 提出GS-2DGS方法,结合2D高斯泼溅和几何信息,高效重建高反射物体。
- Motivation: 高反射物体的3D建模因强视角依赖外观而困难,现有方法速度慢或表面过平滑。
- Method: 基于2D高斯泼溅(2DGS)结合基础模型的几何信息。
- Result: 在合成和真实数据集上显著优于高斯技术,接近SDF方法速度且快一个数量级。
- Conclusion: GS-2DGS在重建和重光照方面表现优异,兼具速度和精度。
[99] ZINA: Multimodal Fine-grained Hallucination Detection and Editing
Yuiga Wada,Kazuki Matsuda,Komei Sugiura,Graham Neubig
Main category: cs.CV
TL;DR: 提出了一种多模态细粒度幻觉检测与编辑任务,并提出了ZINA方法,该方法能细粒度识别幻觉、分类错误类型并提供修正建议。
- Motivation: 多模态大语言模型(MLLMs)常产生幻觉输出,偏离视觉内容,需细粒度检测以全面评估。
- Method: 提出ZINA方法,细粒度识别幻觉并分类为六种错误类型,同时提供修正建议。构建VisionHall数据集(6.9k人工标注样本和20k合成样本)用于训练与评估。
- Result: ZINA在检测和编辑任务中优于现有方法(如GPT-4o和LLama-3.2)。
- Conclusion: ZINA在多模态细粒度幻觉检测与编辑任务中表现优异,为MLLMs的幻觉问题提供了有效解决方案。
[100] EmbodiedPlace: Learning Mixture-of-Features with Embodied Constraints for Visual Place Recognition
Bingxi Liu,Hao Chen,Shiyi Guo,Yihong Wu,Jinqiang Cui,Hong Zhang
Main category: cs.CV
TL;DR: 提出了一种基于Mixture-of-Features(MoF)的简单重排序方法,通过多度量损失函数优化全局特征,在VPR任务中提升了性能。
- Motivation: 现有VPR方法依赖局部特征或运动序列,设计专用局部特征不切实际,且运动序列限制了灵活性。
- Method: 分析VPR中的实际约束条件,提出基于学习的MoF权重计算方法,使用多度量损失函数。
- Result: 在公开数据集上超越SOTA性能,仅需25 KB额外参数和10微秒/帧处理时间,Pitts-30k测试集性能提升0.9%。
- Conclusion: MoF方法在低计算开销下显著提升VPR性能,具有实用价值。
[101] STAGE: A Stream-Centric Generative World Model for Long-Horizon Driving-Scene Simulation
Jiamin Wang,Yichen Yao,Xiang Feng,Hang Wu,Yaming Wang,Qingqiu Huang,Yuexin Ma,Xinge Zhu
Main category: cs.CV
TL;DR: STAGE提出了一种新的自回归框架,通过分层特征协调和多阶段优化解决长时域驾驶视频生成的挑战。
- Motivation: 现有方法在时空动态解耦和跨帧特征传播方面不足,导致误差累积和特征错位。
- Method: 引入分层时间特征传递(HTFT)和多阶段训练策略,分别建模时间和去噪过程,并在帧间传递去噪特征。
- Result: 在Nuscenes数据集上,STAGE生成了600帧高质量驾驶视频,远超现有方法。
- Conclusion: STAGE在长时域驾驶视频生成任务中表现出色,具有生成无限长度视频的潜力。
[102] StgcDiff: Spatial-Temporal Graph Condition Diffusion for Sign Language Transition Generation
Jiashu He,Jiayi He,Shengeng Tang,Huixia Ben,Lechao Cheng,Richang Hong
Main category: cs.CV
TL;DR: 提出了一种基于图的条件扩散框架StgcDiff,用于生成手语离散片段间的平滑过渡视频,解决了现有方法视觉连贯性和语义准确性不足的问题。
- Motivation: 现有方法仅简单拼接离散手语片段,导致生成的视频视觉连贯性和语义准确性较差,而手语的时空特性使其建模更为复杂。
- Method: 提出StgcDiff框架,包括预训练的编码器-解码器结构学习时空骨架序列的表示,以及基于该表示的扩散去噪器生成过渡帧;关键组件Sign-GCN模块用于建模时空特征。
- Result: 在PHOENIX14T、USTC-CSL100和USTC-SLR500数据集上的实验表明,该方法性能优越。
- Conclusion: StgcDiff通过捕捉手语的时空依赖性,有效生成了平滑过渡视频,解决了现有方法的局限性。
[103] GreedyPrune: Retenting Critical Visual Token Set for Large Vision Language Models
Ruiguang Pei,Weiqing Sun,Zhihui Fu,Jun Wang
Main category: cs.CV
TL;DR: GreedyPrune是一种无需训练的视觉令牌剪枝算法,通过联合优化语义显著性和视觉多样性,解决了现有方法在高压缩比下忽略视觉多样性或丢弃重要语义令牌的问题。
- Motivation: 大型视觉语言模型(LVLMs)在资源受限设备上计算效率低,现有令牌剪枝方法在高压缩比下无法兼顾语义显著性和视觉多样性。
- Method: 提出GreedyPrune算法,将令牌剪枝建模为组合优化问题,使用贪心算法平衡计算效率和模型精度。
- Result: 实验表明,GreedyPrune在多模态任务和模型中实现了最先进的精度,同时显著降低端到端推理延迟。
- Conclusion: GreedyPrune是一种高效且无需训练的视觉令牌剪枝解决方案,适用于资源受限设备。
[104] MT-PCR: A Hybrid Mamba-Transformer with Spatial Serialization for Hierarchical Point Cloud Registration
Bingxi Liu,An Liu,Hao Chen,Jinqiang Cui,Yiqun Wang,Hong Zhang
Main category: cs.CV
TL;DR: MT-PCR是一种结合Mamba和Transformer的点云注册框架,通过Z-order空间填充曲线序列化点云特征,优化计算效率,显著提升性能。
- Motivation: 现有基于Transformer的点云注册方法计算复杂度高,限制点云分辨率,导致信息丢失。Mamba虽计算效率高,但直接应用于点云注册效果不佳。
- Method: 提出MT-PCR框架,使用Z-order空间填充曲线序列化点云特征,优化Mamba编码器,并移除顺序指示模块,结合Transformer进行细化。
- Result: 在多个基准测试中,MT-PCR在精度和效率上均优于基于Transformer的方法,显著降低GPU内存和计算量。
- Conclusion: MT-PCR通过结合Mamba和Transformer,有效解决了点云注册中的计算复杂度和性能问题。
[105] A Comprehensive Survey on Deep Learning Solutions for 3D Flood Mapping
Wenfeng Jia,Bin Liang,Yuxi Liu,Muhammad Arif Khan,Lihong Zheng
Main category: cs.CV
TL;DR: 本文综述了基于深度学习的3D洪水制图技术,对比了任务分解和端到端方法,探讨了数据来源和应用,并指出了当前挑战与未来方向。
- Motivation: 洪灾是全球性挑战,传统2D洪水制图局限性大,3D制图结合深度学习能提供更全面的洪水信息,助力灾害管理和城市规划。
- Method: 分类深度学习技术为任务分解和端到端方法,比较关键架构,分析数据来源如数字高程模型、卫星图像等。
- Result: 3D洪水制图在实时预测和城市规划中表现优异,但仍面临数据稀缺、模型可解释性等挑战。
- Conclusion: 未来需优化数据集、改进模型,并关注政策应用,以推动3D洪水制图的发展。
[106] DVP-MVS++: Synergize Depth-Normal-Edge and Harmonized Visibility Prior for Multi-View Stereo
Zhenlong Yuan,Dapeng Zhang,Zehao Li,Chengxuan Qian,Jianing Chen,Yinda Chen,Kehua Chen,Tianlu Mao,Zhaoxin Li,Hao Jiang,Zhaoqi Wang
Main category: cs.CV
TL;DR: 论文提出DVP-MVS++方法,通过深度-法线-边缘对齐和跨视角先验,解决多视角立体视觉中边缘跳过和遮挡问题,提升重建质量。
- Motivation: 现有基于块变形的方法在纹理缺失区域重建中表现优异,但忽略了边缘跳过和遮挡导致的变形不稳定问题。
- Method: 结合深度、法线和边缘图对齐,通过腐蚀-膨胀策略优化边界;引入可见性图和跨视角深度重投影,平衡块变形;利用几何一致性和高光感知提升重建质量。
- Result: 在ETH3D、Tanks & Temples和Strecha数据集上表现出最优性能和强泛化能力。
- Conclusion: DVP-MVS++通过多策略协同,显著提升了多视角立体视觉的重建质量和鲁棒性。
[107] SASep: Saliency-Aware Structured Separation of Geometry and Feature for Open Set Learning on Point Clouds
Jinfeng Xu,Xianzhi Li,Yuan Tang,Xu Han,Qiao Yu,Yixue Hao,Long Hu,Min Chen
Main category: cs.CV
TL;DR: 论文提出了一种名为SASep的方法,通过语义分解和特征分离提升3D开放集识别的性能。
- Motivation: 现有开放集识别方法依赖全局特征,忽略了物体不同部分的语义重要性,限制了识别效果。
- Method: SASep包含三个模块:可调语义分解(TSD)、几何合成策略(GSS)和合成辅助边缘分离(SMS),分别用于语义分解、生成伪未知对象和增强特征分离。
- Result: 实验表明,SASep在3D开放集识别中优于现有方法。
- Conclusion: SASep通过改进几何和特征表示,显著提升了模型区分已知和未知类别的能力。
[108] High-Quality Facial Albedo Generation for 3D Face Reconstruction from a Single Image using a Coarse-to-Fine Approach
Jiashu Dai,Along Wang,Binfan Ni,Tao Cao
Main category: cs.CV
TL;DR: 提出了一种从粗到细的端到端方法,用于生成高保真UV反照率贴图,解决了现有方法难以捕捉高频细节的问题。
- Motivation: 现有方法在生成UV反照率贴图时难以捕捉高频细节,影响了3D人脸重建的保真度。
- Method: 首先使用UV反照率参数模型生成粗糙的反照率贴图,再通过细节生成器捕捉高频细节,生成高分辨率贴图。
- Result: 实验表明,该方法在纹理质量和真实感上优于现有方法。
- Conclusion: 该方法能有效生成高保真纹理,代码和预训练模型已公开。
[109] COME: Adding Scene-Centric Forecasting Control to Occupancy World Model
Yining Shi,Kun Jiang,Qiang Meng,Ke Wang,Jiabao Wang,Wenchao Sun,Tuopu Wen,Mengmeng Yang,Diange Yang
Main category: cs.CV
TL;DR: COME框架通过场景中心坐标系分离环境变化与自车运动,提升自动驾驶世界模型的预测准确性。
- Motivation: 现有方法难以区分自车运动与场景变化,导致预测效果不佳。
- Method: COME利用场景中心预测分支生成与自车无关的未来特征,并通过ControlNet转换为场景条件,注入占用世界模型。
- Result: 在nuScenes-Occ3D数据集上,COME比SOTA方法(如DOME和UniScene)在mIoU指标上分别提升26.3%和23.7%。
- Conclusion: 解耦表示学习显著提升了世界模型的时空预测能力。
[110] Open-Set LiDAR Panoptic Segmentation Guided by Uncertainty-Aware Learning
Rohit Mohan,Julia Hindel,Florian Drews,Claudius Gläser,Daniele Cattaneo,Abhinav Valada
Main category: cs.CV
TL;DR: ULOPS是一个基于不确定性引导的开放集LiDAR全景分割框架,通过Dirichlet证据学习建模预测不确定性,显著提升对未知物体的检测能力。
- Motivation: 自动驾驶车辆在开放环境中可能遇到未知物体类别,现有LiDAR全景分割模型依赖封闭集假设,无法检测未知物体实例。
- Method: ULOPS采用分离解码器结构,结合语义分割、不确定性估计、嵌入原型关联和实例中心预测,并引入三种不确定性驱动的损失函数。
- Result: 在KITTI-360和nuScenes数据集上的实验表明,ULOPS显著优于现有开放集LiDAR全景分割方法。
- Conclusion: ULOPS通过不确定性建模和损失函数设计,有效提升了开放环境下的未知物体检测能力。
[111] Anomaly Object Segmentation with Vision-Language Models for Steel Scrap Recycling
Daichi Tanaka,Takumi Karasawa,Shu Takenouchi,Rei Kawakami
Main category: cs.CV
TL;DR: 提出了一种基于视觉语言模型的异常检测方法,用于钢屑回收中的杂质检测,通过多尺度机制和文本提示微调模型,实现细粒度异常检测。
- Motivation: 钢屑回收可减少钢铁行业的二氧化碳排放,但杂质问题是一个主要挑战。
- Method: 采用监督微调的视觉语言模型,结合多尺度机制和文本提示,进行多类分类训练。
- Result: 模型能够细粒度地自动检测钢屑中的异常。
- Conclusion: 该方法有效解决了钢屑回收中的杂质检测问题。
[112] Automatic Multi-View X-Ray/CT Registration Using Bone Substructure Contours
Roman Flepp,Leon Nissen,Bastian Sigrist,Arend Nieuwland,Nicola Cavalcanti,Philipp Fürnstahl,Thomas Dreher,Lilian Calvet
Main category: cs.CV
TL;DR: 提出了一种新型多视角X射线/CT配准方法,用于骨科手术中的骨配准,显著提高了准确性和鲁棒性。
- Motivation: 现有方法在亚毫米级精度、广泛初始姿态估计下的鲁棒性或手动关键点标注方面存在不足,亟需改进。
- Method: 采用多视角、基于轮廓的迭代最近点(ICP)优化,专注于匹配骨子结构的特定轮廓,减少歧义。
- Result: 在真实X射线图像上评估,平均重投影误差(mRPD)为0.67mm,优于需手动干预的商业解决方案(5.35mm)。
- Conclusion: 该方法为骨科手术提供了一种实用、准确且高效的多视角X射线/CT配准解决方案,可提升术中导航效果。
[113] Fair Generation without Unfair Distortions: Debiasing Text-to-Image Generation with Entanglement-Free Attention
Jeonghoon Park,Juyoung Lee,Chaeyeon Chung,Jaeseong Lee,Jaegul Choo,Jindong Gu
Main category: cs.CV
TL;DR: 论文提出了一种名为Entanglement-Free Attention (EFA)的方法,用于解决扩散式文本到图像(T2I)模型中的社会偏见问题,同时避免非目标属性的意外改变。
- Motivation: 现有的T2I模型在生成高质量图像时,常表现出性别、种族和社会经济地位等社会偏见,强化了有害的刻板印象。现有的偏见缓解方法存在属性纠缠问题,即在调整目标属性时会意外改变非目标属性。
- Method: EFA通过随机采样目标属性并调整选定层的交叉注意力,确保目标属性的公平分布,同时保留非目标属性。
- Result: 实验表明,EFA在缓解偏见的同时,能更好地保持非目标属性和模型的生成能力。
- Conclusion: EFA是一种有效的偏见缓解方法,能够在保持模型性能的同时减少社会偏见。
[114] AttentionDrag: Exploiting Latent Correlation Knowledge in Pre-trained Diffusion Models for Image Editing
Biao Yang,Muqi Huang,Yuhui Zhang,Yun Xiong,Kun Zhou,Xi Chen,Shiyang Zhou,Huishuai Bao,Chuan Li,Feng Shi,Hualei Liu
Main category: cs.CV
TL;DR: 提出了一种基于预训练扩散模型的一步式点编辑方法AttentionDrag,利用自注意力机制实现高效、语义一致的图像编辑。
- Motivation: 传统点编辑方法效率低或无法捕捉语义关系,而预训练扩散模型的编辑能力未被充分利用。
- Method: 通过DDIM反演过程中U-Net模块的自注意力机制识别和调整相关图像区域,并自适应生成掩码指导编辑。
- Result: 性能优于现有方法,速度更快,编辑结果语义一致且质量高。
- Conclusion: AttentionDrag为点编辑任务提供了高效且语义一致的解决方案。
[115] Quantitative Comparison of Fine-Tuning Techniques for Pretrained Latent Diffusion Models in the Generation of Unseen SAR Image Concepts
Solène Debuysère,Nicolas Trouvé,Nathan Letheule,Olivier Lévêque,Elise Colin
Main category: cs.CV
TL;DR: 论文研究了如何将预训练的潜在扩散模型适应于合成孔径雷达(SAR)这一全新成像领域,通过多种微调策略优化模型表现。
- Motivation: 尽管预训练模型在自然图像上表现优异,但SAR数据具有不同的物理特性和统计分布,需要针对性调整。
- Method: 采用多种微调策略(如全模型微调和LoRA),分别优化UNet扩散主干和文本编码器,并通过多种指标评估生成质量。
- Result: 混合微调策略表现最佳:UNet全微调能捕捉SAR低层特征,而文本编码器部分微调结合嵌入学习保持提示对齐。
- Conclusion: 本研究为将基础模型适应于非自然图像领域提供了系统性方法。
[116] Action Dubber: Timing Audible Actions via Inflectional Flow
Wenlong Wan,Weiying Zheng,Tianyi Xiang,Guiqing Li,Shengfeng He
Main category: cs.CV
TL;DR: 论文提出了一种名为Audible Action Temporal Localization的新任务,专注于识别可听动作的时空坐标,并提出了TA²Net架构和Audible623数据集。
- Motivation: 传统动作识别和时序动作定位任务广泛分析视频内容,而本研究专注于可听动作的独特运动学动态,基于关键动作由拐点运动驱动的假设。
- Method: 提出TA²Net架构,利用运动的二阶导数估计拐点流以确定碰撞时间,无需音频输入,并结合自监督空间定位策略。
- Result: 在Audible623数据集上验证了方法的有效性,并展示了在其他领域(如重复计数和声源定位)的强泛化能力。
- Conclusion: TA²Net和Audible623为可听动作时空定位提供了有效解决方案,具有广泛的应用潜力。
[117] Active Multimodal Distillation for Few-shot Action Recognition
Weijia Feng,Yichen Zhu,Ruojia Zhang,Chenyang Wang,Fei Ma,Xiaobao Wang,Xiaobai Li
Main category: cs.CV
TL;DR: 本文提出了一种新颖的多模态少样本动作识别框架,通过主动推断和知识蒸馏提升性能。
- Motivation: 当前少样本动作识别方法主要依赖单模态数据,未能充分利用多模态信息的潜力。
- Method: 框架包含主动样本推断模块(ASI)和主动互蒸馏模块,通过任务特定上下文线索识别可靠模态并优化表示学习。
- Result: 在多个基准测试中,该方法显著优于现有方法。
- Conclusion: 该框架通过动态选择可靠模态和知识蒸馏,提升了少样本动作识别的性能。
[118] VIS-Shepherd: Constructing Critic for LLM-based Data Visualization Generation
Bo Pan,Yixiao Fu,Ke Wang,Junyu Lu,Lunke Pan,Ziyang Qian,Yuhan Chen,Guoliang Wang,Yitao Zhou,Li Zheng,Yinghao Tang,Zhen Wen,Yuchen Wu,Junhua Lu,Biao Zhu,Minfeng Zhu,Bo Zhang,Wei Chen
Main category: cs.CV
TL;DR: VIS-Shepherd是一个基于多模态大语言模型(MLLM)的批评系统,用于评估和改进LLM生成的数据可视化。通过构建高质量的可视化批评数据集,该方法显著提升了小型MLLM模型的性能。
- Motivation: LLM生成的数据可视化通常需要人工干预改进,因此需要一种自动化的批评系统来提升可视化质量。
- Method: 构建高质量的可视化批评数据集,包括人工创建的可视化实例、LLM生成的实例及其批评。通过模型自动评估和人类偏好研究验证方法。
- Result: 实验表明,小型MLLM模型(7B参数)通过利用高质量批评数据集,性能显著提升,接近更大模型或专有模型水平。
- Conclusion: VIS-Shepherd展示了MLLM在自动化可视化批评中的潜力,为提升LLM生成的可视化质量提供了方向。
[119] Joint Analysis of Optical and SAR Vegetation Indices for Vineyard Monitoring: Assessing Biomass Dynamics and Phenological Stages over Po Valley, Italy
Andrea Bergamaschi,Abhinav Verma,Avik Bhattacharya,Fabio Dell'Acqua
Main category: cs.CV
TL;DR: 该研究首次结合双极化雷达植被指数(DpRVI)和光学指数分析葡萄园作物,揭示了DpRVI与生物量动态的潜在关联,并展示了其在区分葡萄园与其他作物中的潜力。
- Motivation: 葡萄园因其明显的行向表现出独特的非各向同性散射行为,是遥感监测中的挑战性目标。研究旨在探索DpRVI与光学指数的互补性,以支持可持续葡萄园管理。
- Method: 结合双极化雷达植被指数(DpRVI)和光学指数,分析葡萄园的非各向同性散射行为及其与生物量动态的关系。
- Result: DpRVI在生长季节呈现抛物线趋势,与生物量动态相关;与光学指数低相关性表明其捕捉了不同的葡萄园特征。
- Conclusion: DpRVI在监测葡萄园生物量和区分作物方面具有潜力,支持可持续农业和气候变化适应策略。
[120] Advancing Image-Based Grapevine Variety Classification with a New Benchmark and Evaluation of Masked Autoencoders
Gabriel A. Carneiro,Thierry J. Aubry,António Cunha,Petia Radeva,Joaquim Sousa
Main category: cs.CV
TL;DR: 该研究评估了基于自监督学习(SSL)的Masked Autoencoders(MAEs)在葡萄品种识别中的应用,结果显示MAE预训练的ViT-B/16模型表现最佳,F1分数达0.7956。
- Motivation: 传统葡萄品种识别方法(如形态学和分子分析)存在主观性高、成本高和耗时长的问题,而现有深度学习方法依赖迁移学习,可能因领域偏移导致性能下降。
- Method: 研究使用MAEs对田间采集的葡萄图像进行自监督学习,构建了两个包含43个品种的基准数据集,并分析了MAE在农业领域的应用效果。
- Result: MAE预训练的ViT-B/16模型表现最优,F1分数为0.7956;预训练时间长、数据增强简单效果更好,掩码比例对性能影响较小。
- Conclusion: 自监督学习(如MAE)在葡萄品种识别中具有潜力,尤其在数据稀缺时表现优异,且简单方法更有效。
[121] DicFace: Dirichlet-Constrained Variational Codebook Learning for Temporally Coherent Video Face Restoration
Yan Chen,Hanlin Shang,Ce Liu,Yuxuan Chen,Hui Li,Weihao Yuan,Hao Zhu,Zilong Dong,Siyu Zhu
Main category: cs.CV
TL;DR: 提出了一种基于VQ-VAEs的视频人脸修复方法,通过变分潜在空间建模实现时间一致性,并在多项任务中表现优异。
- Motivation: 视频人脸修复在保持时间一致性的同时恢复细节是一个关键挑战。
- Method: 扩展VQ-VAEs为视频框架,将离散码表表示为Dirichlet分布连续变量,结合时空Transformer和Laplacian约束重建损失。
- Result: 在盲脸修复、视频修复和面部着色任务中达到领先水平。
- Conclusion: 该方法为高质量图像先验适应视频修复提供了有效范式,并解决了闪烁问题。
[122] TR2M: Transferring Monocular Relative Depth to Metric Depth with Language Descriptions and Scale-Oriented Contrast
Beilei Cui,Yiming Huang,Long Bai,Hongliang Ren
Main category: cs.CV
TL;DR: 提出了一种将相对深度转换为度量深度的通用框架TR2M,结合文本和图像输入,通过跨模态注意力模块和对比学习提升性能。
- Motivation: 解决当前单目深度估计中度量深度方法(MMDE)局限于特定领域,而相对深度方法(MRDE)虽泛化性强但尺度不确定的问题。
- Method: TR2M利用文本和图像输入,估计两个重缩放映射,通过跨模态注意力融合特征,并设计伪度量深度监督和尺度导向对比学习。
- Result: TR2M在多个数据集上表现优异,并展现出强大的零样本能力。
- Conclusion: 展示了语言辅助下像素级相对深度转换为度量深度的巨大潜力。
[123] Zero-Shot Solving of Imaging Inverse Problems via Noise-Refined Likelihood Guided Diffusion Models
Zhen Wang,Hongyi Liu,Zhihui Wei
Main category: cs.CV
TL;DR: 提出了一种零样本框架,通过似然引导的噪声细化机制和DDIM采样策略,解决成像逆问题的通用性问题。
- Motivation: 现有方法通常针对特定退化类型训练模型,限制了其通用性。
- Method: 引入似然引导的噪声细化机制,近似似然得分,并利用DDIM采样策略提高效率。
- Result: 在多种逆问题中表现优异,尤其在压缩感知中,即使采样率极低(5%)也能高质量重建。
- Conclusion: 该方法为零样本成像逆问题提供了高效灵活的解决方案。
[124] Uncertainty-Aware Remaining Lifespan Prediction from Images
Tristan Kenneweg,Philip Kenneweg,Barbara Hammer
Main category: cs.CV
TL;DR: 利用预训练视觉Transformer模型从面部和全身图像预测剩余寿命,并提供不确定性量化,结果优于现有方法。
- Motivation: 通过图像预测寿命相关结果,提供非侵入性、可扩展的健康筛查方法。
- Method: 使用预训练视觉Transformer基础模型,学习每个样本的高斯分布以量化不确定性。
- Result: 在现有数据集上MAE为7.48年,新数据集上分别提升至4.79和5.07年,不确定性校准误差为0.62年。
- Conclusion: 展示了从图像中提取医学相关信号的潜力,所有代码和数据集已公开以促进研究。
[125] Sparse Convolutional Recurrent Learning for Efficient Event-based Neuromorphic Object Detection
Shenqi Wang,Yingfu Xu,Amirreza Yousefzadeh,Sherif Eissa,Henk Corporaal,Federico Corradi,Guangzhi Tang
Main category: cs.CV
TL;DR: 提出了一种名为SEED的高效事件相机目标检测方法,通过稀疏卷积循环学习显著降低计算成本,并在硬件模拟中验证了其能效和低延迟优势。
- Motivation: 事件相机在自动驾驶和机器人应用中具有高时间分辨率和动态范围优势,但稀疏事件数据的处理需要计算密集型方法,难以在资源受限的边缘应用中集成。
- Method: 提出SEED方法,采用稀疏卷积循环学习,实现超过92%的激活稀疏度,大幅降低时空推理成本。
- Result: 在Prophesee的1 Mpx和Gen1数据集上验证,SEED在计算效率和性能上优于现有方法,显著减少突触操作并保持或提升mAP。
- Conclusion: SEED通过硬件感知设计,为事件相机目标检测提供了高效、低延迟的解决方案。
[126] Self-Supervised Enhancement for Depth from a Lightweight ToF Sensor with Monocular Images
Laiyan Ding,Hualie Jiang,Jiwei Chen,Rui Huang
Main category: cs.CV
TL;DR: 论文提出了一种自监督学习框架SelfToF,通过结合高分辨率RGB图像和低分辨率深度数据,提升深度图质量,无需依赖真实深度图监督。
- Motivation: 解决传统方法需要真实深度图监督的问题,提供一种成本效益高的深度图增强方案。
- Method: 基于自监督深度估计框架,引入低分辨率深度输入,设计深度一致性损失和尺度恢复模块,并升级为SelfToF*以应对ToF信号稀疏性变化。
- Result: 在NYU和ScanNet数据集上验证了方法的有效性,性能显著提升。
- Conclusion: SelfToF和SelfToF*是高效且有效的深度图增强方法,适用于不同稀疏度的ToF数据。
[127] Overcoming Occlusions in the Wild: A Multi-Task Age Head Approach to Age Estimation
Waqar Tanveer,Laura Fernández-Robles,Eduardo Fidalgo,Víctor González-Castro,Enrique Alegre
Main category: cs.CV
TL;DR: 提出了一种结合GAN和Transformer的新方法,用于遮挡情况下的面部年龄估计,性能优于现有技术。
- Motivation: 在无约束的真实场景中,面部遮挡会降低年龄估计的准确性,需要一种更鲁棒的方法。
- Method: 使用SN-Patch GAN去除遮挡,结合ARCM和Swin Transformer增强特征表示,并引入MTAH进行多任务学习。
- Result: 在FG-NET、UTKFace和MORPH数据集上,MAE分别达到3.00、4.54和2.53年。
- Conclusion: 该方法在遮挡面部年龄估计中表现优异,显著提升了性能。
[128] Deep Learning-Based Multi-Object Tracking: A Comprehensive Survey from Foundations to State-of-the-Art
Momir Adžemović
Main category: cs.CV
TL;DR: 该论文综述了基于深度学习的多目标跟踪(MOT)方法,重点分析了跟踪-检测范式,并比较了不同方法的性能。
- Motivation: 多目标跟踪是计算机视觉的核心任务,深度学习的发展推动了其进步,但缺乏对现有方法的系统分类和性能评估。
- Method: 论文系统地将跟踪-检测方法分为五类(联合检测与嵌入、启发式、运动、亲和力学习和离线方法),并评估了端到端方法的性能。
- Result: 启发式方法在密集数据集和线性运动场景中表现最佳,而基于深度学习的关联方法在复杂运动模式中更优。
- Conclusion: 不同方法适用于不同场景,启发式和深度学习关联方法各有优势。
[129] Leveraging Vision-Language Pre-training for Human Activity Recognition in Still Images
Cristina Mahanta,Gagan Bhatia
Main category: cs.CV
TL;DR: 通过微调多模态CLIP模型,静态图像中的动作识别准确率从41%提升至76%,显著优于传统CNN方法。
- Motivation: 静态图像缺乏运动线索,但仍需识别人类活动以支持索引、安全和辅助应用。
- Method: 使用285张MSCOCO图像标注为行走、跑步、坐和站立,先训练CNN,后微调多模态CLIP模型。
- Result: 微调CLIP后准确率从41%提升至76%,表明对比性视觉-语言预训练显著提升静态动作识别。
- Conclusion: 对比性视觉-语言预训练在静态图像动作识别中具有显著优势,适用于实际部署。
[130] SA-LUT: Spatial Adaptive 4D Look-Up Table for Photorealistic Style Transfer
Zerui Gong,Zhonghua Wu,Qingyi Tao,Qinyue Li,Chen Change Loy
Main category: cs.CV
TL;DR: SA-LUT结合4D LUT的高效性和神经网络的适应性,通过空间自适应调整实现精确的色彩转换,同时保持结构完整性。
- Motivation: 现有方法在风格保真度和内容完整性之间存在权衡,SA-LUT旨在填补这一空白。
- Method: 提出Style-guided 4D LUT Generator和Context Generator,结合多尺度特征提取和内容-风格交叉注意力机制。
- Result: SA-LUT在LPIPS分数上比3D LUT方法降低66.7%,视频风格化实时性能达16 FPS。
- Conclusion: SA-LUT在保持高效的同时显著提升了风格转换的质量和适应性。
[131] ESRPCB: an Edge guided Super-Resolution model and Ensemble learning for tiny Printed Circuit Board Defect detection
Xiem HoangVan,Dang Bui Dinh,Thanh Nguyen Canh,Van-Truong Nguyen
Main category: cs.CV
TL;DR: 提出了一种名为ESRPCB的新框架,结合边缘引导超分辨率和集成学习,以提升小尺度PCB图像中的缺陷检测效果。
- Motivation: 小尺度PCB图像分辨率低,缺陷与噪声易混淆,需改进缺陷检测方法。
- Method: 利用边缘信息引导EDSR模型,结合ResCat结构重建高分辨率图像,再通过集成学习进行多模态缺陷检测。
- Result: 框架能保留关键结构细节,使微小缺陷在增强图像中仍可区分。
- Conclusion: ESRPCB框架有效提升了PCB缺陷检测的准确性和可靠性。
[132] Deep Diffusion Models and Unsupervised Hyperspectral Unmixing for Realistic Abundance Map Synthesis
Martina Pastorino,Michael Alibani,Nicola Acito,Gabriele Moser
Main category: cs.CV
TL;DR: 提出了一种基于无监督深度学习的超光谱图像生成方法,结合盲线性解混和扩散模型,生成高真实感的丰度图。
- Motivation: 解决超光谱数据增强、算法基准测试和模型评估中对多样化、真实感丰度图的需求。
- Method: 结合盲线性解混提取端元和丰度图,再通过扩散模型生成高真实感的合成丰度图。
- Result: 在PRISMA空间任务的实际超光谱数据上验证了方法的有效性,生成的丰度图具有自然场景的空间和光谱特征。
- Conclusion: 该方法无需标注数据,适用于不同数据集,为超光谱分析提供了有效的工具。
[133] GeoSDF: Plane Geometry Diagram Synthesis via Signed Distance Field
Chengrui Zhang,Maizhen Ning,Zihao Zhou,Jie Sun,Kaizhu Huang,Qiufeng Wang
Main category: cs.CV
TL;DR: GeoSDF框架利用符号距离场(SDF)自动生成高精度几何图形,结合自验证功能,显著提升几何问题求解的准确率。
- Motivation: 传统几何图形生成方法计算复杂且精度有限,学习型方法虽节省成本但缺乏真实性和准确性。
- Method: 通过SDF表示几何元素,构建约束函数并优化,最终渲染生成图形,同时定义符号语言简化表示。
- Result: 实验表明,GeoSDF能高效生成高精度图形,几何问题求解准确率高达95%。
- Conclusion: GeoSDF为几何图形生成提供了高效、准确的解决方案,具有广泛应用前景。
[134] Hierarchical Multi-Positive Contrastive Learning for Patent Image Retrieval
Kshitij Kavimandan,Angelos Nalmpantis,Emma Beauxis-Aussalet,Robert-Jan Sips
Main category: cs.CV
TL;DR: 提出了一种基于层次多正对比损失的方法,利用专利图像的层次分类关系改进检索效果,适用于低参数模型。
- Motivation: 专利图像检索因技术复杂性和语义信息复杂而具有挑战性,现有方法忽略了专利的层次关系(如LIC分类系统)。
- Method: 引入层次多正对比损失,利用LIC分类系统的层次关系为每个专利图像分配多个正对,并根据层次调整相似度分数。
- Result: 在DeepPatent2数据集上的实验表明,该方法提升了检索效果,尤其适用于低参数模型。
- Conclusion: 该方法有效利用了专利的层次关系,提升了检索性能,且适用于资源有限的环境。
[135] FOAM: A General Frequency-Optimized Anti-Overlapping Framework for Overlapping Object Perception
Mingyuan Li,Tong Jia,Han Gu,Hui Lu,Hao Wang,Bowen Ma,Shuyang Lin,Shiyi Guo,Shizhuo Deng,Dongyue Chen
Main category: cs.CV
TL;DR: 论文提出了一种频率优化的抗重叠框架(FOAM),通过频域分析提升模型对重叠物体的感知能力,包括设计频率空间变换块(FSTB)和分层去干扰机制(HDC)。实验验证了其在多个任务中的有效性。
- Motivation: 重叠物体感知在安全筛查和医疗辅助诊断中有重要应用价值,但现有方法多局限于空间域,频域分析未被充分利用。
- Method: 提出FOAM框架,包含FSTB(同时提取频域和空间域特征)和HDC(通过一致性损失抑制背景干扰)。
- Result: 在四个数据集上的实验表明,FOAM显著提升了现有模型在三种重叠物体感知任务中的准确性。
- Conclusion: 频域分析能有效提升重叠物体感知能力,FOAM框架具有通用性和实用性,代码将开源。
[136] Stimulus Motion Perception Studies Imply Specific Neural Computations in Human Visual Stabilization
David W Arathorn,Josephine C. D'Angelo,Austin Roorda
Main category: cs.CV
TL;DR: 人类眼睛即使在注视时也会持续进行低幅运动,导致视网膜上的图像特征不断移动,但人类仍能感知稳定或运动的物体。研究发现视觉稳定的心理物理学机制比预期更复杂,并提出了功能性和神经电路层面的解释。
- Motivation: 研究人类视觉系统如何在眼睛持续微动的情况下仍能稳定感知世界中的物体,揭示其背后的心理物理学机制。
- Method: 通过一系列历时十几年的实验,分析视觉稳定的心理物理学特性,并基于实验结果提出功能性和神经电路层面的机制假设。
- Result: 实验揭示了视觉稳定机制的复杂性,并提出了一个可能的功能性机制及其神经电路实现。
- Conclusion: 视觉稳定机制涉及对视网膜信号的特殊处理,其功能性和神经电路层面的解释为理解人类视觉系统提供了新视角。
[137] Multiview Geometric Regularization of Gaussian Splatting for Accurate Radiance Fields
Jungeon Kim,Geonsoo Park,Seungyong Lee
Main category: cs.CV
TL;DR: 提出了一种多视角几何正则化策略,结合MVS深度、RGB和法线约束,改进了3D高斯泼溅的几何精度和渲染质量。
- Motivation: 现有方法在颜色变化大的场景中难以重建平滑可靠的几何形状,需结合MVS深度信息优化高斯泼溅。
- Method: 引入基于中值深度的多视角相对深度损失和不确定性估计,结合MVS深度信息优化高斯泼溅,并提出MVS引导的初始化方法。
- Result: 实验验证了该方法在室内外场景中显著提升了几何精度和渲染质量。
- Conclusion: 通过结合MVS和高斯泼溅的优势,有效解决了几何重建中的问题。
[138] A Semantically-Aware Relevance Measure for Content-Based Medical Image Retrieval Evaluation
Xiaoyang Wei,Camille Kurtz,Florence Cloppet
Main category: cs.CV
TL;DR: 论文提出了一种基于知识图谱的医学图像检索(CBIR)评估方法,通过定义医学概念之间的近似匹配相关性分数,解决了现有评估指标依赖人工标注且忽略概念间关系的问题。
- Motivation: 医学图像检索(CBIR)的性能评估仍是一个未解决的难题,尤其是现有评估指标(如精确率、召回率)依赖昂贵且难以获取的人工标注,且忽略了医学概念间的复杂关系。
- Method: 引入知识图谱来测量医学概念间的距离,并提出一种基于近似匹配的相关性分数,用于间接衡量医学图像的相似性。
- Result: 通过公开数据集验证了所提相关性度量的有效性和可行性。
- Conclusion: 该方法为医学图像检索提供了一种更准确的评估方式,解决了传统指标在医学领域的局限性。
[139] Micro-macro Gaussian Splatting with Enhanced Scalability for Unconstrained Scene Reconstruction
Yihui Li,Chengxin Lv,Hongyu Yang,Di Huang
Main category: cs.CV
TL;DR: SMW-GS是一种新型3D场景重建方法,通过多尺度分解和频域优化提升重建质量,尤其适用于大规模场景。
- Motivation: 解决无约束图像集合中3D重建因外观变化带来的挑战。
- Method: 结合微宏观投影和小波采样,优化高斯点采样和特征表示,并提出大规模场景策略。
- Result: 在重建质量和可扩展性上显著优于现有方法,尤其在大规模城市环境中表现优异。
- Conclusion: SMW-GS通过创新方法有效提升了3D重建的多样性和质量,适用于复杂场景。
[140] Atomizer: Generalizing to new modalities by breaking satellite images down to a set of scalars
Hugo Riffaud de Turckheim,Sylvain Lobry,Roberto Interdonato,Diego Marcos
Main category: cs.CV
TL;DR: Atomizer是一种灵活的架构,通过将遥感图像表示为标量集合,并结合上下文元数据,实现了对不同模态数据的统一处理,无需插值或重采样。
- Motivation: 现有模型依赖固定输入格式和特定模态编码器,限制了跨模态泛化能力。
- Method: Atomizer将图像表示为标量集合,每个标量对应像素的波段值,并加入元数据。使用结构化标记化和交叉注意力映射到潜在空间。
- Result: 在模态分离评估中,Atomizer优于标准模型,并在不同分辨率和空间尺寸下表现稳健。
- Conclusion: Atomizer提供了一种灵活且通用的遥感数据处理方法,显著提升了跨模态性能。
[141] Limited-Angle CBCT Reconstruction via Geometry-Integrated Cycle-domain Denoising Diffusion Probabilistic Models
Yuan Gao,Shaoyan Pan,Mingzhe Hu,Huiqiao Xie,Jill Remick,Chih-Wei Chang,Justin Roper,Zhen Tian,Xiaofeng Yang
Main category: cs.CV
TL;DR: 提出了一种名为LA-GICD的双域学习方法,用于从有限角度(≤90度)扫描中重建高质量CBCT图像,显著减少扫描时间和剂量。
- Motivation: CBCT在放疗中广泛应用,但慢速旋转导致运动伪影和剂量增加,需解决有限角度扫描的成像挑战。
- Method: 采用双域DDPM框架,结合投影和图像空间的互补先验,通过前向和后向投影算子实现高质量重建。
- Result: 在78例CT数据上验证,平均绝对误差35.5 HU,SSIM 0.84,PSNR 29.8 dB,伪影减少,软组织清晰度提升。
- Conclusion: LA-GICD为有限角度CBCT重建提供了实用解决方案,显著提升放疗中的图像质量和效率。
[142] A Comprehensive Survey on Video Scene Parsing:Advances, Challenges, and Prospects
Guohuan Xie,Syed Ariff Syed Hesham,Wenya Guo,Bing Li,Ming-Ming Cheng,Guolei Sun,Yun Liu
Main category: cs.CV
TL;DR: 本文综述了视频场景解析(VSP)的最新进展,涵盖多种视觉任务,分析了从传统手工特征到现代深度学习方法的演变,并探讨了技术挑战和未来研究方向。
- Motivation: 视频场景解析在计算机视觉中至关重要,但现有研究分散且缺乏系统性综述,本文旨在填补这一空白。
- Method: 系统回顾了VSP相关任务(如VSS、VIS、VPS等)的进展,分析了从卷积网络到Transformer架构的演变,并评估了其性能。
- Result: 总结了现有方法的优缺点,比较了数据集和评估指标,提出了当前技术挑战(如时间一致性、复杂场景动态)。
- Conclusion: 本文指出了VSP的未来趋势和研究方向,有望提升其在现实应用中的鲁棒性和适应性。
[143] RelTopo: Enhancing Relational Modeling for Driving Scene Topology Reasoning
Yueru Luo,Changqing Zhou,Yiming Yang,Erlong Li,Chao Zheng,Shuqi Mei,Shuguang Cui,Zhen Li
Main category: cs.CV
TL;DR: 论文提出了一种结合关系建模的车道检测与拓扑推理方法,显著提升了自动驾驶中的道路拓扑理解能力。
- Motivation: 现有方法通常单独处理车道检测或拓扑推理,忽略了车道与交通元素的关系,且未联合优化任务。关系建模对感知和推理均有帮助。
- Method: 1) 关系感知车道检测器;2) 关系增强拓扑头;3) 对比学习策略。
- Result: 在OpenLane-V2数据集上,检测和拓扑推理指标显著提升,DET
+3.1,TOP +5.3,TOP +4.9,OLS +4.4。 - Conclusion: 通过关系建模联合优化感知与推理,实现了道路拓扑理解的新突破。
[144] X-Scene: Large-Scale Driving Scene Generation with High Fidelity and Flexible Controllability
Yu Yang,Alan Liang,Jianbiao Mei,Yukai Ma,Yong Liu,Gim Hee Lee
Main category: cs.CV
TL;DR: X-Scene是一个用于大规模驾驶场景生成的新框架,支持多粒度控制和几何与视觉保真度。
- Motivation: 扩散模型在自动驾驶中用于数据合成和规划,但大规模3D场景的空间一致性生成尚未充分探索。
- Method: X-Scene通过生成3D语义占用和多视角图像的统一流程,结合一致性感知的场景外推,实现大规模场景生成。
- Result: 实验表明X-Scene显著提升了大规模驾驶场景的可控性和保真度。
- Conclusion: X-Scene为自动驾驶数据生成和仿真提供了高效可控的解决方案。
[145] MambaMia: A State-Space-Model-Based Compression for Efficient Video Understanding in Large Multimodal Models
Geewook Kim,Minjoon Seo
Main category: cs.CV
TL;DR: 提出了一种高效压缩多帧视频特征的框架,减少长视频或密集视频的token爆炸问题,通过双向状态空间块和加权平均池化机制实现分层下采样,在保持性能的同时降低成本。
- Motivation: 解决长或密集视频输入大型多模态模型时的token爆炸问题,提高资源利用效率。
- Method: 使用双向状态空间块,配备门控跳跃连接和可学习的加权平均池化机制,对插入的学习查询进行分层下采样。
- Result: 在长和密集视频理解任务中表现优异,显著减少token预算,优于传统Transformer。
- Conclusion: 该框架在资源效率和视频理解性能上取得平衡,适用于实际部署,并在多个基准测试中验证了其可扩展性和通用性。
[146] Integrated Pipeline for Monocular 3D Reconstruction and Finite Element Simulation in Industrial Applications
Bowen Zheng
Main category: cs.CV
TL;DR: 本文提出了一种集成工作流,结合高保真3D重建、有限元仿真和混合现实显示,用于工业检测和设备维护的数字孪生系统。
- Motivation: 解决工业环境中3D建模和结构仿真的挑战,如设备部署困难和精度与实时性的平衡问题。
- Method: 使用Neuralangelo算法从视频重建3D模型,通过QuadRemesh优化网格,HyperMesh离散化,Abaqus进行应力仿真,Unity和Vuforia实现混合现实交互。
- Result: 实验表明,该方法在保持高几何精度的同时,具有良好的仿真效率和可视化效果。
- Conclusion: 为复杂工业场景的数字建模、力学分析和交互显示提供了实用方案,推动了数字孪生与混合现实技术的深度融合。
[147] Omni-AdaVideoRAG: Omni-Contextual Adaptive Retrieval-Augmented for Efficient Long Video Understanding
Zhucun Xue,Jiangning Zhang,Xurong Xie,Yuxuan Cai,Yong Liu,Xiangtai Li,Dacheng Tao
Main category: cs.CV
TL;DR: AdaVideoRAG提出了一种动态调整检索粒度的框架,通过轻量级意图分类器优化长视频理解任务,显著提升了效率和准确性。
- Motivation: 现有MLLMs在长视频处理中存在固定上下文窗口和长期依赖建模不足的问题,且传统RAG方法因静态检索策略导致效率低下和信息丢失。
- Method: 采用轻量级意图分类器动态调整检索粒度,结合Omni-Knowledge Indexing模块构建分层数据库,整合文本、视觉特征和语义图。
- Result: 实验表明,AdaVideoRAG在长视频理解任务中提高了效率和准确性,并能无缝集成到现有MLLMs中。
- Conclusion: AdaVideoRAG为视频分析中的自适应检索设立了新范式,代码将开源。
[148] Dive3D: Diverse Distillation-based Text-to-3D Generation via Score Implicit Matching
Weimin Bai,Yubo Li,Wenzheng Chen,Weijian Luo,He Sun
Main category: cs.CV
TL;DR: Dive3D提出了一种新的文本到3D生成框架,通过Score Implicit Matching (SIM)损失替代KL散度目标,解决了现有方法因模式寻求行为导致的多样性不足问题,并在多样性和视觉保真度上显著提升。
- Motivation: 现有方法依赖Score Distillation Sampling (SDS)损失,其KL散度目标导致模式寻求行为,限制了生成多样性。Dive3D旨在通过SIM损失和统一的分歧视角解决这一问题。
- Method: Dive3D采用Score Implicit Matching (SIM)损失替代KL散度目标,并结合扩散蒸馏和奖励引导优化,形成统一的分歧视角。
- Result: Dive3D在多样性和视觉保真度上显著优于现有方法,并在GPTEval3D基准测试中表现优异,包括文本对齐、3D合理性和几何细节等指标。
- Conclusion: Dive3D通过SIM损失和统一优化框架,显著提升了文本到3D生成的多样性和质量,为未来研究提供了新方向。
[149] FreeQ-Graph: Free-form Querying with Semantic Consistent Scene Graph for 3D Scene Understanding
Chenlu Zhan,Gaoang Wang,Hongwei Wang
Main category: cs.CV
TL;DR: 论文提出FreeQ-Graph方法,通过构建无预定义词汇的3D场景图,实现自由形式语义查询,解决了现有方法依赖训练数据和预定义词汇的问题。
- Motivation: 现有3D场景理解方法依赖预定义词汇和大规模训练数据,限制了自由形式语义查询的能力,且基于LLM的方法缺乏全面的3D场景信息。
- Method: 构建完整的3D场景图,利用LLM和LVLM指导映射自由形式对象及其关系;通过合并超点对齐语义标签;设计基于LLM的推理算法结合场景和对象信息。
- Result: 在6个数据集上的实验表明,模型在复杂自由形式语义查询和关系推理任务中表现优异。
- Conclusion: FreeQ-Graph通过无预定义词汇的场景图和语义一致性对齐,显著提升了3D场景理解的自由形式查询能力。
[150] DualEdit: Dual Editing for Knowledge Updating in Vision-Language Models
Zhiyi Shi,Binjie Wang,Chongjie Si,Yichen Wu,Junsik Kim,Hanspeter Pfister
Main category: cs.CV
TL;DR: 论文提出了一种针对视觉语言模型(VLM)的双模态编辑方法DualEdit,通过分析文本和视觉模态对编辑性能的影响,优化编辑效果并保留模型原有能力。
- Motivation: 现有编辑方法主要针对单模态语言模型(LLM),而多模态的视觉语言模型(VLM)中各模态对编辑性能的影响尚未充分研究。
- Method: 研究发现文本和视觉模态在不同层达到敏感性峰值,提出DualEdit方法,在关键层同时编辑双模态,并引入门控模块保护原始信息。
- Result: DualEdit在多个VLM骨干和基准数据集上表现优于现有VLM编辑方法和适配的LLM编辑方法。
- Conclusion: DualEdit通过双模态编辑和门控模块设计,高效更新知识并保留模型原有能力,为VLM编辑提供了新思路。
[151] Ego-R1: Chain-of-Tool-Thought for Ultra-Long Egocentric Video Reasoning
Shulin Tian,Ruiqi Wang,Hongming Guo,Penghao Wu,Yuhao Dong,Xiuying Wang,Jingkang Yang,Hao Zhang,Hongyuan Zhu,Ziwei Liu
Main category: cs.CV
TL;DR: Ego-R1是一个用于处理超长(数天至数周)自我中心视频的推理框架,采用链式工具思维(CoTT)和强化学习(RL)训练代理,显著提升视频理解的时间覆盖范围。
- Motivation: 解决超长自我中心视频的复杂推理问题,模仿人类问题分解策略。
- Method: 通过CoTT分解推理步骤,RL代理动态调用工具,两阶段训练(SFT和RL),使用Ego-R1 Data数据集。
- Result: 在Ego-R1 Bench基准测试中表现优异,将时间覆盖从几小时扩展到一周。
- Conclusion: Ego-R1框架通过动态工具增强的链式思维推理,有效应对超长视频理解挑战。
[152] Lecture Video Visual Objects (LVVO) Dataset: A Benchmark for Visual Object Detection in Educational Videos
Dipayan Biswas,Shishir Shah,Jaspal Subhlok
Main category: cs.CV
TL;DR: LVVO数据集是一个用于教育视频中视觉对象检测的新基准,包含4000帧,其中1000帧手动标注,3000帧通过半监督方法自动标注。
- Motivation: 为教育视频中的视觉内容检测提供高质量的数据集,支持监督和半监督方法的研究。
- Method: 数据集包括手动标注的LVVO_1k和半监督标注的LVVO_3k,通过双标注和专家冲突解决确保质量。
- Result: 标注一致性高(F1分数83.41%),数据集公开可用。
- Conclusion: LVVO数据集是教育视频视觉检测研究的宝贵资源。
[153] UltraVideo: High-Quality UHD Video Dataset with Comprehensive Captions
Zhucun Xue,Jiangning Zhang,Teng Hu,Haoyang He,Yinan Chen,Yuxuan Cai,Yabiao Wang,Chengjie Wang,Yong Liu,Xiangtai Li,Dacheng Tao
Main category: cs.CV
TL;DR: 论文提出了一种高质量的开源UHD-4K文本到视频数据集UltraVideo,并扩展了UltraWan模型以支持1K/4K视频生成,解决了现有公共数据集不足的问题。
- Motivation: 现有公共数据集无法满足高质量视频生成模型的需求,如电影级UHD视频和4K短视频内容的生成。
- Method: 设计了四阶段高度自动化的数据筛选流程:视频片段收集、统计过滤、模型净化、生成结构化字幕。
- Result: 构建了UltraVideo数据集,并扩展了UltraWan模型,能够原生生成高质量1K/4K视频。
- Conclusion: 该工作为未来UHD视频生成研究提供了重要支持,数据集和模型已开源。
[154] Vid-CamEdit: Video Camera Trajectory Editing with Generative Rendering from Estimated Geometry
Junyoung Seo,Jisang Han,Jaewoo Jung,Siyoon Jin,Joungbin Lee,Takuya Narihira,Kazumi Fukuda,Takashi Shibuya,Donghoon Ahn,Shoukang Hu,Seungryong Kim,Yuki Mitsufuji
Main category: cs.CV
TL;DR: Vid-CamEdit是一个用于视频相机轨迹编辑的新框架,通过用户定义的相机路径重新合成单目视频。
- Motivation: 传统方法在处理极端轨迹变化和动态新视角合成时表现不佳,且缺乏多视角视频数据训练。
- Method: 分两步:估计时间一致的几何形状,并基于几何形状进行生成式渲染。通过几何先验,生成模型专注于在几何不确定的区域合成真实细节。
- Result: 在真实世界视频中,尤其是在极端外推场景下,该方法优于基线方法。
- Conclusion: Vid-CamEdit通过几何先验和分解微调框架,成功解决了视频相机轨迹编辑的挑战。
[155] How Real is CARLAs Dynamic Vision Sensor? A Study on the Sim-to-Real Gap in Traffic Object Detection
Kaiyuan Tan,Pavan Kumar B N,Bharatesh Chakravarthi
Main category: cs.CV
TL;DR: 论文研究了基于事件相机的物体检测在交通监控中的应用,评估了CARLA模拟器生成的合成数据与真实数据之间的性能差距。
- Motivation: 事件相机在交通监控中具有潜力,但缺乏标注的真实数据集,模拟数据的真实性未充分研究。
- Method: 使用CARLA模拟器的DVS模块生成合成数据,训练循环视觉变换模型,并在合成与真实数据混合测试集上评估。
- Result: 仅用合成数据训练的模型在真实数据比例增加时性能显著下降,而真实数据训练的模型泛化能力更强。
- Conclusion: 当前DVS模拟的真实性有限,需改进领域适应技术以提升事件相机在交通监控中的应用。
[156] OTFusion: Bridging Vision-only and Vision-Language Models via Optimal Transport for Transductive Zero-Shot Learning
Qiyu Xu,Wenyang Chen,Zhanxuan Hu,Huafeng Li,Yonghang Tai
Main category: cs.CV
TL;DR: OTFusion通过最优传输桥接视觉语言模型和视觉基础模型,提升零样本分类性能,无需微调。
- Motivation: 现有视觉语言模型过于依赖类别先验,忽略细粒度视觉线索;视觉基础模型缺乏语义对齐。
- Method: 提出OTFusion框架,利用最优传输学习共享概率表示,对齐视觉与语义信息。
- Result: 在11个基准数据集上平均准确率提升近10%,优于原始CLIP模型。
- Conclusion: OTFusion有效结合两种模型的优势,实现语义与视觉的统一预测。
[157] Test3R: Learning to Reconstruct 3D at Test Time
Yuheng Yuan,Qiuhong Shen,Shizun Wang,Xingyi Yang,Xinchao Wang
Main category: cs.CV
TL;DR: Test3R是一种测试时学习技术,通过优化自监督目标提升3D重建的几何一致性。
- Motivation: 现有密集匹配方法(如DUSt3R)依赖成对预测,限制了全局几何一致性。
- Method: 使用图像三元组生成重建,并通过自监督目标优化网络以最大化几何一致性。
- Result: 在3D重建和多视角深度估计任务中显著优于现有方法。
- Conclusion: Test3R通用性强、成本低,易于应用于其他模型。
[158] AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning
Zewei Zhou,Tianhui Cai,Seth Z. Zhao,Yun Zhang,Zhiyu Huang,Bolei Zhou,Jiaqi Ma
Main category: cs.CV
TL;DR: AutoVLA是一个新的Vision-Language-Action模型,用于端到端自动驾驶,通过统一推理和动作生成,解决了现有模型的物理不可行动作和复杂结构问题。
- Motivation: 当前VLA模型在自动驾驶中存在物理不可行动作、复杂结构或冗余推理的问题,AutoVLA旨在解决这些问题。
- Method: AutoVLA将连续轨迹离散化为可行动作,结合监督微调和强化学习(GRPO)优化推理和规划效率。
- Result: 在nuPlan、nuScenes等数据集上表现优异,展示了自适应推理和准确规划能力。
- Conclusion: AutoVLA在端到端自动驾驶中具有竞争力和适应性。
[159] PF-LHM: 3D Animatable Avatar Reconstruction from Pose-free Articulated Human Images
Lingteng Qiu,Peihao Li,Qi Zuo,Xiaodong Gu,Yuan Dong,Weihao Yuan,Siyu Zhu,Xiaoguang Han,Guanying Chen,Zilong Dong
Main category: cs.CV
TL;DR: PF-LHM是一种高效的大规模人体重建模型,能够从单张或多张随意拍摄的无姿态图像中快速生成高质量3D虚拟角色。
- Motivation: 解决从随意拍摄的无姿态图像中重建可动画3D人体的挑战,包括视角不对齐、遮挡和缺乏结构先验等问题。
- Method: 提出了一种高效的编码器-解码器点-图像变换器架构,通过多模态注意力融合层次几何点特征和多视角图像特征。
- Result: 在真实和合成数据集上的实验表明,该方法能够统一单张和多张图像的3D人体重建,生成高质量的可动画3D虚拟角色。
- Conclusion: PF-LHM无需相机和人体姿态标注,即可高效生成高保真3D人体模型,具有广泛的应用潜力。
cs.RO
[160] SPLATART: Articulated Gaussian Splatting with Estimated Object Structure
Stanley Lewis,Vishal Chandra,Tom Gao,Odest Chadwicke Jenkins
Main category: cs.RO
TL;DR: SPLATART是一种从带姿态的图像中学习铰接物体高斯溅射表示的管道,解决了复杂铰接物体表示和学习的难题。
- Motivation: 铰接物体(如钳子、夹子、柜子)的表示需要捕捉几何、颜色、部件分离、连接性和关节参数化,而随着自由度增加,学习这些表示变得更加困难。
- Method: SPLATART将部件分离任务与关节估计任务解耦,支持对具有更深运动树结构的铰接物体进行后验关节估计和表示。
- Result: 在合成Paris数据集上展示了SPLATART的应用数据,并在真实世界物体上提供了稀疏分割监督的定性结果,还演示了在更深运动树结构上的使用。
- Conclusion: SPLATART能够有效表示和学习具有复杂运动树结构的铰接物体,扩展了铰接物体研究的范围。
[161] ViTaSCOPE: Visuo-tactile Implicit Representation for In-hand Pose and Extrinsic Contact Estimation
Jayjun Lee,Nima Fazeli
Main category: cs.RO
TL;DR: ViTaSCOPE是一种结合视觉和高分辨率触觉反馈的神经隐式表示方法,用于精确估计物体位姿和外部接触位置。
- Motivation: 在部分和噪声观测下,精确估计物体位姿和接触位置是灵巧操纵的关键挑战。
- Method: 采用神经隐式表示,将物体建模为有符号距离场,触觉反馈建模为神经剪切场,并通过仿真训练实现零样本迁移。
- Result: 在仿真和真实实验中验证了ViTaSCOPE在灵巧操纵场景中的有效性。
- Conclusion: ViTaSCOPE通过融合视觉和触觉反馈,成功解决了物体位姿和接触位置的估计问题。
[162] Adapting by Analogy: OOD Generalization of Visuomotor Policies via Functional Correspondence
Pranay Gupta,Henny Admoni,Andrea Bajcsy
Main category: cs.RO
TL;DR: 论文提出了一种通过功能对应反馈改进端到端视觉运动策略的方法,以应对分布外(OOD)条件下的任务挑战,减少专家演示需求。
- Motivation: 现有行为克隆训练的端到端策略在OOD条件下表现不佳,而传统方法需要大量专家演示,成本高且效率低。
- Method: 通过检测OOD条件、获取功能对应反馈,并干预OOD观察以实现部署时泛化。
- Result: 在真实机器人任务中验证,该方法能以低反馈成本提升策略对OOD条件的泛化能力。
- Conclusion: 功能对应反馈是一种高效的方法,可显著减少专家干预需求并提升策略鲁棒性。
[163] A Novel ViDAR Device With Visual Inertial Encoder Odometry and Reinforcement Learning-Based Active SLAM Method
Zhanhua Xin,Zhihao Wang,Shenghao Zhang,Wanchao Chi,Yan Meng,Shihan Kong,Yan Xiong,Chong Zhang,Yuzhen Liu,Junzhi Yu
Main category: cs.RO
TL;DR: 提出了一种基于ViDAR设备的视觉-惯性-编码器紧耦合里程计(VIEO)和基于深度强化学习(DRL)的平台运动解耦主动SLAM方法,显著提升了状态估计精度和特征点多样性。
- Motivation: 多传感器融合SLAM中,电机编码器设备的集成研究较少,但其能低成本提升主动能力和视野范围。
- Method: 引入ViDAR校准方法确保VIEO初始化准确性,并提出基于DRL的平台运动解耦主动SLAM方法。
- Result: 实验表明,VIEO算法显著提升了跨帧共视关系,DRL方法进一步增强了特征点多样性和VIEO性能。
- Conclusion: 该方法为复杂环境下的平台设计和主动SLAM系统提供了新思路。
[164] JENGA: Object selection and pose estimation for robotic grasping from a stack
Sai Srinivas Jeevanandam,Sandeep Inuganti,Shreedhar Govil,Didier Stricker,Jason Rambach
Main category: cs.RO
TL;DR: 论文提出了一种基于相机和IMU的方法,用于在结构化物体堆叠中选择适合抓取的物体并估计其6DoF位姿,同时引入了数据集和评估指标。实验表明该方法表现良好,但完全无误差的解决方案仍具挑战性。
- Motivation: 在建筑或仓库自动化等场景中,机器人需要与结构化物体堆叠(如砖块堆)交互,而现有研究多关注孤立物体或无序物体。
- Method: 提出了一种基于相机和IMU的方法,优先选择堆叠上层未被遮挡的物体,并估计其6DoF位姿。同时引入了数据集和评估指标。
- Result: 实验结果显示该方法表现良好,但完全无误差的解决方案仍具挑战性。
- Conclusion: 该方法在建筑场景中的砖块抓取应用中展示了实际效果,证明了其可行性。
[165] ROSA: Harnessing Robot States for Vision-Language and Action Alignment
Yuqing Wen,Kefan Gu,Haoxuan Liu,Yucheng Zhao,Tiancai Wang,Haoqiang Fan,Xiaoyan Sun
Main category: cs.RO
TL;DR: ROSA是一种新的训练范式,通过整合机器人状态估计数据,提升视觉-语言-动作模型的性能和泛化能力。
- Motivation: 现有方法直接微调视觉语言模型存在时空差距,导致数据效率低且依赖人工。
- Method: 利用机器人状态估计数据,增强视觉-语言与动作空间的对齐。
- Result: 在模拟和真实环境中验证了ROSA的有效性,尤其在低数据情况下表现突出。
- Conclusion: ROSA通过改进空间对齐,显著提升了视觉-语言-动作模型的性能。
[166] Touch begins where vision ends: Generalizable policies for contact-rich manipulation
Zifan Zhao,Siddhant Haldar,Jinda Cui,Lerrel Pinto,Raunaq Bhirangi
Main category: cs.RO
TL;DR: ViTaL框架通过分解任务为全局定位和局部交互两阶段,结合视觉语言模型和触觉感知,实现高精度操作任务。
- Motivation: 现有数据驱动方法在精确操作上表现不佳,模仿学习需要大量演示,强化学习策略脆弱且难以泛化。
- Method: ViTaL分两阶段:全局定位(使用视觉语言模型)和局部交互(使用可复用的触觉感知策略)。
- Result: ViTaL在未见环境中接触密集任务上成功率约90%,且对干扰物具有鲁棒性。
- Conclusion: ViTaL通过结合视觉语言模型和触觉感知,实现了高效、可泛化的精确操作。
cs.SD
[167] Style-based Composer Identification and Attribution of Symbolic Music Scores: a Systematic Survey
Federico Simonetta
Main category: cs.SD
TL;DR: 本文首次系统综述了基于风格的音乐作曲者识别与作者归属研究,分析了58篇论文,指出现有研究在验证协议和数据集平衡性上的不足,并提出了改进指南。
- Motivation: 解决音乐作曲者识别与作者归属领域中可靠性和可重复性的不足。
- Method: 系统分析了58篇同行评审论文,评估了主流曲目、计算方法和评估方法,强调了平衡准确率和交叉验证的重要性。
- Result: 发现现有研究普遍存在验证不足和数据集不平衡问题,提出了增强研究可靠性和音乐学有效性的建议。
- Conclusion: 提出了未来研究的实用指南,旨在提升计算风格分析的可靠性和可解释性。
cs.LG
[168] BTC-LLM: Efficient Sub-1-Bit LLM Quantization via Learnable Transformation and Binary Codebook
Hao Gu,Lujun Li,Zheyu Wang,Bei Liu,Qiyuan Zhu,Sirui Han,Yike Guo
Main category: cs.LG
TL;DR: BTC-LLM是一种新型的亚1位LLM量化框架,通过自适应权重变换和二进制模式聚类解决性能下降、计算复杂性和硬件兼容性问题。
- Motivation: 解决现有二值量化方法在性能、计算复杂性和硬件兼容性方面的三大挑战。
- Method: 采用可学习变换优化缩放和旋转矩阵,以及闪存和精确二进制码本聚类二进制向量。
- Result: 实现了更高的准确性和效率,无需稀疏掩码即可在标准硬件上高效推理。
- Conclusion: BTC-LLM框架在LLM压缩中表现出色,兼具准确性和效率。
[169] Meta Pruning via Graph Metanetworks : A Meta Learning Framework for Network Pruning
Yewei Liu,Xiyuan Wang,Muhan Zhang
Main category: cs.LG
TL;DR: 提出了一种使用元网络自动学习剪枝策略的新方法,通过图神经网络实现,显著提升了剪枝效果。
- Motivation: 传统剪枝方法依赖人工设计标准,复杂且难以解释,已遇到瓶颈,需要自动化解决方案。
- Method: 将神经网络与图建立双射映射,利用图神经网络作为元网络,自动学习剪枝策略。
- Result: 在多个代表性任务(如ResNet56、VGG19、ResNet50)上取得优异剪枝效果。
- Conclusion: 元网络方法自动化剪枝,效果显著,为复杂网络剪枝提供了新思路。
[170] Explaining Recovery Trajectories of Older Adults Post Lower-Limb Fracture Using Modality-wise Multiview Clustering and Large Language Models
Shehroz S. Khan,Ali Abedi,Charlene H. Chu
Main category: cs.LG
TL;DR: 论文提出了一种无监督方法,通过聚类和多模态传感器数据分析老年患者康复轨迹,并利用大型语言模型生成有意义的聚类标签,验证了其与临床评分的相关性。
- Motivation: 解决高维无标签数据在医疗领域中的解释难题,帮助医生理解患者康复轨迹并识别高风险患者。
- Method: 对多模态传感器数据进行聚类,利用大型语言模型生成聚类标签,并通过统计测试和可视化验证标签质量。
- Result: 大多数模态特定的聚类标签与临床评分显著相关,证实了方法的有效性。
- Conclusion: 该方法为无监督医疗数据分析提供了有效工具,有助于改善患者健康管理。
[171] BSA: Ball Sparse Attention for Large-scale Geometries
Catalin E. Brita,Hieu Nguyen,Lohithsai Yadala Chanchu,Domonkos Nagy,Maksim Zhdanov
Main category: cs.LG
TL;DR: 提出了一种名为Ball Sparse Attention(BSA)的稀疏注意力机制,适用于不规则几何数据,通过Ball Tree结构实现全局感受野,计算复杂度低于二次方。
- Motivation: 自注意力机制的计算复杂度随输入规模呈二次方增长,限制了其在大规模物理系统中的应用。稀疏注意力机制虽为替代方案,但通常仅适用于规则结构(如文本或图像),无法处理不规则几何数据。
- Method: BSA基于Native Sparse Attention(NSA)改进,利用Ball Tree结构(来自Erwin Transformer)为无序点集引入规则性,通过基于球邻域的稀疏注意力实现全局感受野。
- Result: 在气流压力预测任务中,BSA的精度与Full Attention相当,同时显著降低了理论计算复杂度。
- Conclusion: BSA为不规则几何数据提供了一种高效的稀疏注意力解决方案,适用于大规模物理系统。
[172] PLD: A Choice-Theoretic List-Wise Knowledge Distillation
Ejafa Bassam,Dawei Zhu,Kaigui Bian
Main category: cs.LG
TL;DR: 论文提出了一种基于Plackett-Luce模型的蒸馏方法PLD,通过加权列表排序损失优化教师模型对类别的完整排序,显著提升了分类准确率。
- Motivation: 传统的知识蒸馏方法通常将蒸馏项作为交叉熵的附加项,需要仔细调整权重。本文从选择理论的角度重新定义知识蒸馏,旨在更有效地传递教师模型的排序信息。
- Method: 采用Plackett-Luce模型,将教师模型的logits解释为“价值”分数,提出PLD方法,通过加权列表排序损失直接优化教师模型对类别的排序。
- Result: 在标准图像分类基准测试中,PLD在均匀和非均匀设置下分别比DIST和KD方法提高了0.42%-1.09%的Top-1准确率。
- Conclusion: PLD方法通过优化教师模型的排序信息,显著提升了知识蒸馏的效果,且无需额外调整权重。
[173] A Comprehensive Survey on Continual Learning in Generative Models
Haiyang Guo,Fanhu Zeng,Fei Zhu,Jiayi Wang,Xukai Wang,Jingang Zhou,Hongbo Zhao,Wenzhuo Liu,Shijie Ma,Xu-Yao Zhang,Cheng-Lin Liu
Main category: cs.LG
TL;DR: 本文综述了生成模型的持续学习方法,分为架构、正则化和回放三类,并分析了不同模型的训练目标和基准。
- Motivation: 生成模型在适应新任务时会出现灾难性遗忘问题,限制了其实际应用。本文旨在总结和分类现有方法,以提升模型的适应性和可扩展性。
- Method: 系统分类持续学习方法为架构、正则化和回放三类,并分析不同生成模型的训练目标、基准和核心架构。
- Result: 提供了对生成模型持续学习领域的深入见解,并总结了现有方法的优缺点。
- Conclusion: 本文为生成模型的持续学习研究提供了系统综述和未来方向,有助于推动该领域的进一步发展。
[174] CertDW: Towards Certified Dataset Ownership Verification via Conformal Prediction
Ting Qiao,Yiming Li,Jianbin Li,Yingjia Wang,Leyi Qi,Junfeng Guo,Ruili Feng,Dacheng Tao
Main category: cs.LG
TL;DR: 本文提出了一种认证数据集水印(CertDW)方法,用于可靠的数据集所有权验证,即使在恶意攻击下也能保持性能。
- Motivation: 现有数据集所有权验证方法假设验证过程是可信的,但实际中可能因扰动而失效。
- Method: 引入基于统计量(PP和WR)的认证水印方法,证明其存在可验证的下界。
- Result: 实验证明CertDW有效且能抵抗自适应攻击。
- Conclusion: CertDW为数据集版权保护提供了可靠的解决方案。
[175] Dynamic Context-oriented Decomposition for Task-aware Low-rank Adaptation with Less Forgetting and Faster Convergence
Yibo Yang,Sihao Liu,Chuan Rao,Bang An,Tiancheng Shen,Philip H. S. Torr,Ming-Hsuan Yang,Bernard Ghanem
Main category: cs.LG
TL;DR: 论文提出了一种基于上下文导向的分解适配方法(CorDA),通过任务感知初始化适配器,提升微调性能并减少知识遗忘。进一步优化的CorDA++通过动态策略显著提升了性能。
- Motivation: 传统低秩适配方法未考虑数据上下文,导致微调性能不佳和知识遗忘问题。
- Method: 提出上下文导向奇异值分解,通过目标任务的输入激活协方差矩阵初始化适配器,并开发动态策略优化。
- Result: CorDA++在知识保留模式(KPM)和指令预览模式(IPM)下均优于基线方法,性能提升显著。
- Conclusion: CorDA++在微调性能和知识保留方面表现优异,已集成至Hugging Face的PEFT库。
[176] SeqPE: Transformer with Sequential Position Encoding
Huyang Li,Yahui Liu,Hongyu Sun,Deng Cai,Leyang Cui,Wei Bi,Peilin Zhao,Taro Watanabe
Main category: cs.LG
TL;DR: SeqPE提出了一种统一且完全可学习的位置编码框架,通过符号序列表示位置索引,并引入对比目标和知识蒸馏损失,显著提升了外推性能和跨模态适应性。
- Motivation: 传统的位置编码方法(如ALiBi和RoPE)在外推能力和跨模态适应性上存在局限性,需要手动调整架构。SeqPE旨在解决这些问题。
- Method: SeqPE将位置索引表示为符号序列,使用轻量级序列编码器学习嵌入,并通过对比目标和知识蒸馏损失正则化嵌入空间。
- Result: 在语言建模、长上下文问答和2D图像分类任务中,SeqPE在外推性能和多维输入适应性上优于基线方法。
- Conclusion: SeqPE提供了一种灵活且高效的位置编码解决方案,适用于多种任务和模态,无需手动调整架构。
[177] Flexible-length Text Infilling for Discrete Diffusion Models
Andrew Zhang,Anushka Sivakumar,Chiawei Tang,Chris Thomas
Main category: cs.LG
TL;DR: DDOT是一种新型离散扩散模型,通过联合去噪令牌值和位置,解决了现有模型无法灵活填充文本长度和位置的限制。
- Motivation: 离散扩散模型在文本生成中具有优势,但无法灵活填充文本长度和位置,限制了其应用。
- Method: DDOT结合令牌值和位置去噪,采用样本级最优传输耦合,动态调整填充段的位置和长度。
- Result: 在One-Billion-Word和Yelp等基准测试中,DDOT优于基线模型,与非自回归模型性能相当。
- Conclusion: DDOT显著提升了训练效率和灵活性,为文本扩散模型提供了新方向。
[178] VideoPDE: Unified Generative PDE Solving via Video Inpainting Diffusion Models
Edward Li,Zichen Wang,Jiahe Huang,Jeong Joon Park
Main category: cs.LG
TL;DR: 提出了一种基于视频修复扩散变换器的统一框架,用于求解偏微分方程(PDEs),将正向和逆向问题统一为一个灵活的生成框架。
- Motivation: 现有方法通常针对特定问题设计策略,缺乏灵活性,而本研究旨在提供一个通用的解决方案。
- Method: 将PDE求解重新定义为广义修复问题,设计基于变换器的架构,利用像素空间视频扩散模型进行高保真修复。
- Result: 实验表明,该方法在多种PDE和问题设置中表现优异,优于现有基线。
- Conclusion: 该框架为PDE求解提供了一种准确且通用的解决方案。
[179] Diagnosing and Improving Diffusion Models by Estimating the Optimal Loss Value
Yixian Xu,Shengjie Luo,Liwei Wang,Di He,Chang Liu
Main category: cs.LG
TL;DR: 该论文提出了一种估计扩散模型最优损失值的方法,以解决训练过程中损失值无法直接反映数据拟合质量的问题。通过推导最优损失的闭式解并开发有效估计器,论文为诊断和改进扩散模型提供了工具。
- Motivation: 扩散模型的损失值通常不为零且未知,导致无法区分模型容量不足与最优损失较大的情况。论文旨在解决这一问题,为模型训练提供更清晰的诊断指标。
- Method: 论文首先在统一框架下推导了扩散模型最优损失的闭式解,并开发了可扩展的随机估计器,以控制方差和偏差。
- Result: 通过最优损失估计,论文改进了主流扩散模型的训练诊断方法,并提出了更高效的训练计划。此外,研究发现减去最优损失后,训练损失更能体现幂律关系。
- Conclusion: 论文提出的最优损失估计方法为扩散模型的训练和缩放研究提供了更可靠的基础。
cs.CR
[180] Restoring Gaussian Blurred Face Images for Deanonymization Attacks
Haoyu Zhai,Shuo Wang,Pirouz Naghavi,Qingying Hao,Gang Wang
Main category: cs.CR
TL;DR: 论文探讨了高斯模糊在敏感照片中模糊人脸的效果,并提出了一种名为Revelio的去模糊方法,能够高效恢复模糊人脸,尤其是高模糊设置下。
- Motivation: 研究高斯模糊对人脸模糊的效果及其可恢复性,尤其是在高模糊设置下,模糊人脸是否能被恢复并用于重新识别。
- Method: 开发了Revelio方法,结合生成模型的记忆效应和条件扩散模型进行初步恢复,再通过身份检索模型增强保真度。
- Result: Revelio在高模糊设置下表现优异,重新识别准确率达95.9%,优于现有方法。
- Conclusion: 高斯模糊不适用于人脸匿名化,未来需研究对抗措施和自适应攻击。
[181] InverTune: Removing Backdoors from Multimodal Contrastive Learning Models via Trigger Inversion and Activation Tuning
Mengyuan Sun,Yu Li,Yuchen Liu,Bo Du,Yunjie Ge
Main category: cs.CR
TL;DR: InverTune是一种针对多模态模型的后门防御框架,无需攻击者知识或中毒数据集,通过对抗模拟、梯度反演和聚类微调实现高效防御。
- Motivation: 多模态对比学习模型(如CLIP)易受后门攻击,现有防御方法因假设过强或数据需求过高而不实用。
- Method: InverTune通过对抗模拟暴露攻击特征,梯度反演重建潜在触发器,聚类微调消除后门功能。
- Result: 实验显示InverTune将攻击成功率降低97.87%,仅损失3.07%的清洁准确率。
- Conclusion: InverTune为多模态系统安全提供了新范式,在不影响性能的情况下提升安全性。
[182] Pushing the Limits of Safety: A Technical Report on the ATLAS Challenge 2025
Zonghao Ying,Siyang Wu,Run Hao,Peng Ying,Shixuan Sun,Pengyu Chen,Junze Chen,Hao Du,Kaiwen Shen,Shangkun Wu,Jiwei Wei,Shiyuan He,Yang Yang,Xiaohai Xu,Ke Ma,Qianqian Xu,Qingming Huang,Shi Lin,Xun Wang,Changting Lin,Meng Han,Yilei Jiang,Siqi Lai,Yaozhi Zheng,Yifei Song,Xiangyu Yue,Zonglei Jing,Tianyuan Zhang,Zhilei Zhu,Aishan Liu,Jiakai Wang,Siyuan Liang,Xianglong Kong,Hainan Li,Junjie Mu,Haotong Qin,Yue Yu,Lei Chen,Felix Juefei-Xu,Qing Guo,Xinyun Chen,Yew Soon Ong,Xianglong Liu,Dawn Song,Alan Yuille,Philip Torr,Dacheng Tao
Main category: cs.CR
TL;DR: ATLAS 2025竞赛通过对抗性图像-文本攻击评估多模态大语言模型(MLLMs)的安全性,发现其仍面临越狱攻击等威胁,并提出了改进方向。
- Motivation: 多模态大语言模型(MLLMs)在广泛应用中仍易受越狱攻击等安全威胁,需系统性评估和改进其安全性。
- Method: 组织ATLAS 2025竞赛,86支团队通过白盒和黑盒评估对MLLMs进行对抗性图像-文本攻击测试。
- Result: 竞赛结果揭示了MLLMs的安全挑战,为开发更强防御机制提供了指导。
- Conclusion: ATLAS 2025为MLLM安全性评估设立了新基准,推动了更安全的多模态AI系统发展。
stat.ML
[183] Exploiting the Exact Denoising Posterior Score in Training-Free Guidance of Diffusion Models
Gregory Bellchambers
Main category: stat.ML
TL;DR: 论文提出了一种新的精确后验评分表达式,用于纯去噪任务,并通过动态调整步长优化DPS评分误差,适用于多种逆问题。
- Motivation: 扩散模型在条件采样中的成功激发了通过无训练指导解决图像恢复等逆问题的兴趣,但现有方法(如DPS)难以直接近似后验评分函数。
- Method: 提出了一种新的精确后验评分表达式,动态计算步长以最小化DPS评分误差,并验证其在多种逆问题中的适用性。
- Result: 该方法在去噪任务中表现优异,且适用于着色、随机修复和超分辨率等问题,采样效率高于DPS。
- Conclusion: 尽管方法简单,但其性能与最先进技术相当,并能以更少的时间步长完成采样。
cs.GR
[184] Real-Time Per-Garment Virtual Try-On with Temporal Consistency for Loose-Fitting Garments
Zaiqiang Wu,I-Chao Shen,Takeo Igarashi
Main category: cs.GR
TL;DR: 论文提出了一种两阶段方法,通过提取服装不变表示和引入循环合成框架,解决了宽松服装虚拟试穿中的语义图估计和帧间抖动问题。
- Motivation: 现有方法在宽松服装试穿中表现不佳,主要因为语义图估计不可靠和缺乏时间信息导致抖动。
- Method: 两阶段方法:提取服装不变表示并通过辅助网络估计语义图;引入循环合成框架以利用时间信息。
- Result: 方法在图像质量和时间一致性上优于现有方法,消融实验验证了关键组件的有效性。
- Conclusion: 提出的方法显著提升了宽松服装虚拟试穿的效果,解决了语义图估计和帧间一致性问题。
[185] iDiT-HOI: Inpainting-based Hand Object Interaction Reenactment via Video Diffusion Transformer
Zhelun Shen,Chenming Wu,Junsheng Zhou,Chen Zhao,Kaisiyuan Wang,Hang Zhou,Yingying Li,Haocheng Feng,Wei He,Jingdong Wang
Main category: cs.GR
TL;DR: 提出了一种名为iDiT-HOI的新框架,用于生成野外环境下的手物交互(HOI)重演,通过两阶段视频扩散变换器(DiT)模型实现高真实感和泛化能力。
- Motivation: 手物交互(HOI)的复杂动态(如遮挡、物体形状变化和精确物理交互)在数字人视频生成中仍具挑战性,现有方法难以生成自然且泛化性强的HOI重演。
- Method: 提出Inp-TPU方法,结合两阶段DiT模型:首阶段生成关键帧插入目标物体,次阶段确保时间连贯性和流畅性。利用预训练模型的上下文感知能力,无需额外参数。
- Result: 在真实场景中表现优异,超越现有方法,提供更高真实感和无缝的手物交互。
- Conclusion: iDiT-HOI框架通过创新设计实现了高效、泛化的HOI重演生成,适用于复杂野外场景。
[186] NeuVAS: Neural Implicit Surfaces for Variational Shape Modeling
Pengfei Wang,Qiujie Dong,Fangtian Liang,Hao Pan,Lei Yang,Congyi Zhang,Guying Lin,Caiming Zhang,Yuanfeng Zhou,Changhe Tu,Shiqing Xin,Alla Sheffer,Xin Li,Wenping Wang
Main category: cs.GR
TL;DR: NeuVAS提出了一种基于神经隐式表面的变分方法,用于稀疏输入形状控制下的形状建模,解决了3D曲线草图和无结构曲线网络的挑战。
- Motivation: 稀疏几何控制(如3D曲线草图或曲线网络)在神经隐式表面建模中难以处理,导致生成高质量表面困难。
- Method: 引入基于表面曲率的功能平滑项以减少神经SDF零水平集表面的形状变化,并提出新技术精确建模G0锐利特征曲线。
- Result: 与现有方法相比,NeuVAS在稀疏输入控制下生成高质量表面方面具有显著优势。
- Conclusion: NeuVAS通过变分方法和曲率平滑项,有效解决了稀疏几何控制下的神经隐式表面建模问题。
[187] TextureSplat: Per-Primitive Texture Mapping for Reflective Gaussian Splatting
Mae Younes,Adnane Boukhayma
Main category: cs.GR
TL;DR: 提出了一种基于高斯泼溅的辐射场方法,用于解决高反射场景中复杂表面光交互的建模问题,通过局部空间中的法线和材质属性变化提升表示能力,并利用GPU硬件加速渲染。
- Motivation: 高反射场景中的复杂表面光交互建模是一个挑战,现有方法难以捕捉高频镜面辐射分量。
- Method: 采用高斯泼溅辐射场,在局部空间中引入法线和材质属性的空间变化,并使用纹理贴图和GPU硬件加速渲染。
- Result: 该方法在高反射场景中表现出色,能够有效捕捉复杂的光交互。
- Conclusion: 通过高斯泼溅辐射场和硬件加速,成功解决了高反射场景的建模和渲染问题。
[188] UltraZoom: Generating Gigapixel Images from Regular Photos
Jingwei Ma,Vivek Jayaram,Brian Curless,Ira Kemelmacher-Shlizerman,Steven M. Seitz
Main category: cs.GR
TL;DR: UltraZoom系统通过手持设备拍摄的低分辨率全局图像和高分辨率局部特写,生成超高清图像。
- Motivation: 解决从随意拍摄的输入生成高分辨率图像的挑战,提升图像细节和一致性。
- Method: 构建实例配对数据集,利用预训练生成模型学习分辨率映射,滑动窗口推理。
- Result: 生成无缝、逼真的千兆像素图像。
- Conclusion: UltraZoom系统能高效生成高质量超高清图像,适用于实际场景。
cs.CL
[189] Unsupervised Document and Template Clustering using Multimodal Embeddings
Phillipe R. Sampaio,Helene Maxcici
Main category: cs.CL
TL;DR: 本文提出了一种利用多模态嵌入的无监督文档聚类方法,通过结合文本、布局和视觉特征,显著提升了聚类效果。
- Motivation: 传统文档聚类方法通常仅基于文本内容,难以区分同一类别中的不同模板。本文旨在通过多模态嵌入实现更细粒度的文档聚类。
- Method: 使用SBERT、LayoutLMv1、LayoutLMv3、DiT、Donut和ColPali等预训练多模态模型生成嵌入,并将其输入传统聚类算法(如k-Means和DBSCAN)。
- Result: 实验表明,多模态嵌入能显著提升文档聚类效果,适用于智能文档处理、布局分析和无监督分类等应用。
- Conclusion: 本文验证了多模态嵌入在文档聚类中的潜力,并分析了不同模型的优缺点,为未来研究提供了方向。
cs.AI
[190] MM-R5: MultiModal Reasoning-Enhanced ReRanker via Reinforcement Learning for Document Retrieval
Mingjun Xu,Jinhan Dong,Jue Hou,Zehui Wang,Sihang Li,Zhifeng Gao,Renxin Zhong,Hengxing Cai
Main category: cs.AI
TL;DR: 论文提出MM-R5,一种基于强化学习的多模态推理增强重排器,用于文档检索,通过两阶段训练(监督微调和强化学习)提升性能。
- Motivation: 当前多模态重排方法研究不足,训练策略和效果有待改进,且缺乏显式推理能力。
- Method: MM-R5采用两阶段训练:监督微调(SFT)阶段生成高质量推理链,强化学习(RL)阶段设计任务特定奖励框架。
- Result: 在MMDocIR基准测试中,MM-R5在多数指标上达到最优,召回率@1提升超过4%。
- Conclusion: MM-R5通过推理增强训练框架,显著提升了多模态重排任务的效果和可靠性。
[191] AI Flow: Perspectives, Scenarios, and Approaches
Hongjun An,Sida Huang,Siqi Huang,Ruanjun Li,Yuanzhi Liang,Jiawei Shao,Zihan Wang,Cheng Yuan,Chi Zhang,Hongyuan Zhang,Wenhao Zhuang,Xuelong Li
Main category: cs.AI
TL;DR: AI Flow是一个多学科框架,通过设备-边缘-云架构、家族模型和基于连接的智能涌现,解决大型AI模型的资源消耗和通信带宽问题。
- Motivation: 大型AI模型的资源消耗和通信带宽需求阻碍了无处不在的智能实现。
- Method: 提出AI Flow框架,包括设备-边缘-云架构、家族模型和基于连接的智能涌现。
- Result: AI Flow提升了智能服务的响应速度和可访问性,推动了AI与通信系统的融合。
- Conclusion: AI Flow为AI技术与通信系统的深度融合提供了创新路径。
[192] Metis-RISE: RL Incentivizes and SFT Enhances Multimodal Reasoning Model Learning
Haibo Qiu,Xiaohan Lan,Fanfan Liu,Xiaohu Sun,Delian Ruan,Peng Shi,Lin Ma
Main category: cs.AI
TL;DR: Metis-RISE是一种新型多模态推理模型学习方法,通过先强化学习(RL)激活模型潜力,再监督微调(SFT)解决RL阶段的不足,最终在OpenCompass评测中取得领先性能。
- Motivation: 现有方法中,纯RL方法样本效率低且难以激活推理能力,而传统SFT+RL流程限制了模型探索能力。Metis-RISE旨在通过RL优先策略解决这些问题。
- Method: Metis-RISE跳过初始SFT阶段,先使用RL(如Group Relative Policy Optimization)激活模型潜力,再通过SFT解决RL阶段发现的低效轨迹采样和基础能力缺失问题。
- Result: 7B和72B参数模型在OpenCompass多模态推理评测中表现优异,72B版本排名第四。
- Conclusion: Metis-RISE通过RL优先策略和针对性SFT,显著提升了多模态推理模型的性能。
[193] Stream-Omni: Simultaneous Multimodal Interactions with Large Language-Vision-Speech Model
Shaolei Zhang,Shoutao Guo,Qingkai Fang,Yan Zhou,Yang Feng
Main category: cs.AI
TL;DR: Stream-Omni是一种高效的多模态对齐模型,通过关系驱动的对齐方法,减少对大规模数据的依赖,支持多种模态组合的交互。
- Motivation: 现有大型多模态模型(LMMs)通常通过序列维度拼接模态表示,依赖大规模数据学习对齐。本文旨在更高效、灵活地建模模态关系。
- Method: Stream-Omni以LLM为骨干,根据模态关系对齐视觉和语音。视觉与文本互补时采用序列维度拼接,语音与文本一致时引入CTC层维度映射。
- Result: 实验表明,Stream-Omni在视觉理解、语音交互等任务中表现优异,且能提供中间文本输出,提升多模态体验。
- Conclusion: Stream-Omni通过关系驱动的对齐方法,实现了高效的多模态交互,减少数据需求并提升灵活性。
cs.NE
[194] Optimized Spectral Fault Receptive Fields for Diagnosis-Informed Prognosis
Stan Muñoz Gutiérrez,Franz Wotawa
Main category: cs.NE
TL;DR: 本文提出了一种受生物启发的频域特征提取方法SFRFs,用于轴承故障诊断和剩余寿命预测,结合NSGA-II算法优化,并在XJTU-SY数据集上验证了其有效性。
- Motivation: 受视网膜神经节细胞感受野的启发,提出一种频域特征提取方法,以增强振动信号中故障特征的检测能力,并适应多变工况。
- Method: 设计了基于特征频率的拮抗频谱滤波器(SFRFs),采用NSGA-II算法多目标优化滤波器参数,同时最小化预测误差、最大化特征单调性和平滑退化轨迹。
- Result: 在XJTU-SY轴承数据集上验证了SFRFs的早期故障检测能力,并通过bagging回归器实现了准确的剩余寿命预测。
- Conclusion: SFRFs结合了信号处理、生物感知原理和数据驱动预测,具有可解释性和设计原则性,适用于旋转机械的健康监测。
eess.IV
[195] Enhancing Privacy: The Utility of Stand-Alone Synthetic CT and MRI for Tumor and Bone Segmentation
André Ferreira,Kunpeng Xie,Caroline Wilpert,Gustavo Correia,Felix Barajas Ordonez,Tiago Gil Oliveira,Maike Bode,Robert Siepmann,Frank Hölzle,Rainer Röhrig,Jens Kleesiek,Daniel Truhn,Jan Egger,Victor Alves,Behrus Puladi
Main category: eess.IV
TL;DR: 论文探讨了合成数据在医学图像分割任务中替代真实数据的可行性,通过生成对抗网络和扩散模型生成合成数据,并评估其真实性和实用性。
- Motivation: 医学数据保护严格,匿名化处理困难,合成数据可能成为解决方案,但缺乏对其真实性和实用性的严格评估。
- Method: 使用头颈癌CT扫描和脑胶质瘤MRI扫描数据,通过生成对抗网络和扩散模型生成合成数据,并通过MAE、MS-SSIM、Radiomics和视觉图灵测试(VTT)评估质量,分割任务通过DSC评估实用性。
- Result: 合成MRI数据保真度高(相关系数0.8784),但合成CT数据真实性较低(相关系数0.5461)。分割任务中,合成数据实用性有限(CT肿瘤分割DSC=0.064,MRI肿瘤分割DSC=0.834)。
- Conclusion: 合成数据可用于独立分割任务,但受限于结构复杂性。改进生成模型以处理异质性输入和学习细节是提升其真实性和应用潜力的关键。
[196] MRI-CORE: A Foundation Model for Magnetic Resonance Imaging
Haoyu Dong,Yuwen Chen,Hanxue Gu,Nicholas Konz,Yaqian Chen,Qihang Li,Maciej A. Mazurowski
Main category: eess.IV
TL;DR: MRI-CORE是一个基于深度学习的MRI视觉基础模型,通过预训练解决标注数据不足的问题,显著提升有限标注数据下的分割性能。
- Motivation: MRI标注数据获取成本高且隐私问题严重,限制了深度学习模型的训练。
- Method: 提出MRI-CORE,预训练超过6百万MRI切片,覆盖18个主要身体部位。
- Result: 在5个分割任务中,仅用10标注切片即可平均提升6.97%的3D Dice系数。
- Conclusion: MRI-CORE作为通用MRI基础模型,可降低数据标注门槛,具有广泛应用潜力。
[197] ICME 2025 Grand Challenge on Video Super-Resolution for Video Conferencing
Babak Naderi,Ross Cutler,Juhee Cho,Nabakumar Khongbantabam,Dejan Ivkovic
Main category: eess.IV
TL;DR: 论文探讨了视频超分辨率(VSR)在视频会议中的应用,提出了一种低延迟场景下的因果模型,并开源了一个新的屏幕内容数据集。
- Motivation: 视频会议中低分辨率视频的编码(如H.265)需要提升质量,特别是在低延迟场景下。
- Method: 采用因果模型,结合局部、单向或双向传播等方法,对视频进行超分辨率处理。
- Result: 挑战赛分为三个赛道,提供了训练、验证和测试数据集,并通过主观测试评估了结果。
- Conclusion: 开源了新的屏幕内容数据集,为视频超分辨率任务提供了新的研究资源。
[198] Shape-aware Sampling Matters in the Modeling of Multi-Class Tubular Structures
Minghui Zhang,Yaoyu Liu,Xin You,Hanxiao Zhang,Yun Gu
Main category: eess.IV
TL;DR: 提出Shapeaware Sampling (SAS)方法,通过优化采样策略和拓扑保留骨架表示,提升多类管状结构的建模精度。
- Motivation: 现有深度学习方法在管状结构建模中过于关注体积重叠精度,而忽略了细粒度语义形状的复杂性和拓扑保留。
- Method: 引入Fractal Dimension-based Patchsize (FDPS)量化形状复杂度,优化采样策略;采用Minimum Path-Cost Skeletonization (MPC-Skel)提取拓扑一致的骨架表示。
- Result: 在两个数据集上验证,SAS在体积重叠和拓扑完整性指标上均有提升。
- Conclusion: SAS方法在计算效率和拓扑保留方面表现优异,适用于管状结构建模。
[199] Adaptive Multi-resolution Hash-Encoding Framework for INR-based Dental CBCT Reconstruction with Truncated FOV
Hyoung Suk Park,Kiwan Jeon
Main category: eess.IV
TL;DR: 提出了一种基于隐式神经表示(INR)和哈希编码的高效3D牙科CBCT重建框架,通过扩展重建域和自适应训练策略减少截断伪影,同时显著降低计算时间。
- Motivation: 直接应用INR技术到3D牙科CBCT(具有截断视场)会导致投影数据不匹配,产生严重伪影,因此需要一种高效且准确的重建方法。
- Method: 采用多分辨率哈希编码和自适应训练策略,扩展重建域以覆盖患者头部,并在截断视场内外使用不同分辨率和采样密度,同时引入自适应哈希编码器。
- Result: 扩展视场有效减少了伪影,自适应策略在800x800x600图像体积下计算时间减少60%以上,同时保持截断视场内的PSNR。
- Conclusion: 该方法通过自适应策略在计算效率和重建质量之间取得了平衡,适用于截断视场的3D牙科CBCT重建。
[200] Efficient Star Distillation Attention Network for Lightweight Image Super-Resolution
Fangwei Hao,Ji Du,Desheng Kong,Jiesheng Wu,Jing Xu,Ping Li
Main category: eess.IV
TL;DR: 论文提出了一种新的轻量级单图像超分辨率(SISR)方法,通过Star Distillation Module(SDM)和Multi-shape Multi-scale Large Kernel Attention(MM-LKA)模块,显著提升了性能。
- Motivation: 现有轻量级SISR方法在信息蒸馏和高维非线性特征空间映射方面表现不足,且LKA模块在捕获多形状多尺度信息时计算负担大。
- Method: 提出SDM增强高维非线性特征空间的信息蒸馏,设计MM-LKA模块高效捕获长程依赖关系,并整合为RSDAM模块,构建SDAN网络。
- Result: 实验表明,SDAN在模型复杂度低的情况下,定量和视觉上均优于其他轻量级SISR方法。
- Conclusion: SDAN通过SDM和MM-LKA模块的结合,显著提升了轻量级SISR的性能和效率。
[201] Zero-shot denoising via neural compression: Theoretical and algorithmic framework
Ali Zafari,Xi Chen,Shirin Jalali
Main category: eess.IV
TL;DR: ZS-NCD是一种基于神经压缩的零样本去噪框架,无需训练样本或干净参考图像,适用于医学或生物学等专业领域。
- Motivation: 解决零样本去噪问题,特别是在专业成像领域(如医学或生物学)中缺乏训练数据的情况。
- Method: 利用神经压缩网络作为未训练模型,直接在单个噪声图像的补丁上进行优化,并通过聚合重叠补丁的输出获得最终重建。
- Result: ZS-NCD在零样本去噪中表现优异,适用于高斯和泊松噪声,并能泛化到自然和非自然图像。
- Conclusion: ZS-NCD通过内置熵约束避免过拟合,无需手动正则化或提前停止,同时提供了压缩去噪的理论基础。
[202] GM-LDM: Latent Diffusion Model for Brain Biomarker Identification through Functional Data-Driven Gray Matter Synthesis
Hu Xu,Yang Jingling,Jia Sihan,Bi Yuda,Calhoun Vince
Main category: eess.IV
TL;DR: GM-LDM是一种基于潜在扩散模型的新型框架,用于提升MRI生成任务的效率和精度,支持个性化脑成像和疾病研究。
- Motivation: 深度学习生成模型在医学影像中潜力巨大,但现有方法在MRI生成任务中的效率和精度有待提升。
- Method: 结合3D自动编码器和预训练的潜在扩散模型,使用KL散度损失实现统计一致性,并采用ViT编码器-解码器优化生成质量。
- Result: GM-LDM能够灵活整合条件数据(如功能网络连接数据),实现个性化脑成像和疾病生物标志物识别。
- Conclusion: GM-LDM为MRI生成任务提供了高效且精确的解决方案,适用于脑疾病研究和个性化医疗。
[203] Predicting Genetic Mutations from Single-Cell Bone Marrow Images in Acute Myeloid Leukemia Using Noise-Robust Deep Learning Models
Garima Jain,Ravi Kant Gupta,Priyansh Jain,Abhijeet Patil,Ardhendu Sekhar,Gajendra Smeeta,Sanghamitra Pati,Amit Sethi
Main category: eess.IV
TL;DR: 提出了一种鲁棒的方法,用于识别骨髓原始细胞并预测其基因突变,解决了标签准确性和数据噪声问题。
- Motivation: 解决单细胞图像中标签噪声和准确性挑战,提升白血病诊断的准确性。
- Method: 先训练二元分类器区分白血病和非白血病细胞,再训练四类模型预测突变,验证模型在噪声标签下的表现。
- Result: 二元分类器准确率90%,突变分类模型准确率85%,显示对标签噪声的鲁棒性。
- Conclusion: 机器学习模型能有效处理噪声标签,为血液病理学诊断提供准确预测。
[204] ViT-NeBLa: A Hybrid Vision Transformer and Neural Beer-Lambert Framework for Single-View 3D Reconstruction of Oral Anatomy from Panoramic Radiographs
Bikram Keshari Parida,Anusree P. Sunilkumar,Abhijit Sen,Wonsang You
Main category: eess.IV
TL;DR: ViT-NeBLa是一种基于视觉变换器的模型,直接从单张全景X光片实现精确3D重建,解决了现有方法的局限性。
- Motivation: 全景X光片(PX)成本低但缺乏深度信息,CBCT虽提供3D信息但成本高且辐射大。现有重建模型依赖CBCT或牙弓信息,临床实用性低。
- Method: 结合视觉变换器改进NeBLa框架,采用非相交射线采样策略,混合ViT-CNN架构,以及可学习哈希位置编码。
- Result: ViT-NeBLa在定量和定性上均显著优于现有方法,计算量减少52%。
- Conclusion: ViT-NeBLa为牙科诊断提供了低成本、低辐射的高效3D重建方案。
[205] Brain Imaging Foundation Models, Are We There Yet? A Systematic Review of Foundation Models for Brain Imaging and Biomedical Research
Salah Ghamizi,Georgia Kanli,Yu Deng,Magali Perquin,Olivier Keunen
Main category: eess.IV
TL;DR: 本文综述了基础模型(FMs)在脑成像领域的应用,填补了现有文献中对脑成像独特挑战和需求的深度分析不足的空白。
- Motivation: 尽管基础模型在医疗影像中表现出色,但脑成像领域的应用仍被忽视,缺乏对多模态数据整合、临床任务支持等独特挑战的深入探讨。
- Method: 作者系统分析了161个脑成像数据集和86种FM架构,总结了关键设计选择、训练范式及优化方法。
- Result: 综述突出了脑成像任务中的领先模型,总结了其创新点,并批判性地评估了当前文献的局限性和盲点。
- Conclusion: 文章提出了未来研究方向,旨在推动基础模型在脑成像领域的应用,促进临床和科研进展。
[206] Simple is what you need for efficient and accurate medical image segmentation
Xiang Yu,Yayan Chen,Guannan He,Qing Zeng,Yue Qin,Meiling Liang,Dandan Luo,Yimei Liao,Zeyu Ren,Cheng Kang,Delong Yang,Bocheng Liang,Bin Pu,Ying Yuan,Shengli Li
Main category: eess.IV
TL;DR: SimpleUNet是一种超轻量级医学图像分割模型,通过部分特征选择、固定宽度架构和自适应特征融合模块,实现了高效且高性能的分割,参数仅16KB,性能超越现有模型。
- Motivation: 现代分割模型往往注重性能而忽视实用性,本文提出一种注重简洁和高效的设计理念,旨在实现高性能的分割模型。
- Method: 提出SimpleUNet模型,包含三个创新点:(1) 跳跃连接中的部分特征选择机制;(2) 固定宽度架构防止参数指数增长;(3) 自适应特征融合模块。
- Result: SimpleUNet在多个公共数据集上表现优异,16KB参数配置下性能超越LBUNet等轻量级模型,0.67MB版本在效率和精度上均优于U-Net和TransUNet。
- Conclusion: 研究表明,极端的模型压缩无需牺牲性能,为高效且准确的医学图像分割提供了新思路。
[207] Audio-Visual Driven Compression for Low-Bitrate Talking Head Videos
Riku Takahashi,Ryugo Morita,Jinjia Zhou
Main category: eess.IV
TL;DR: 提出了一种基于音频-视觉驱动的视频编解码器,通过3D运动特征和音频信号提升低比特率下的头部运动、唇同步和面部重建质量。
- Motivation: 解决现有神经渲染和关键点方法在低比特率下处理大头部运动、唇同步不佳和面部重建失真的问题。
- Method: 整合紧凑的3D运动特征和音频信号,建模头部旋转并同步唇部动作。
- Result: 在CelebV-HQ数据集上,比特率比VVC降低22%,比现有学习编解码器降低8.5%,唇同步和视觉保真度更优。
- Conclusion: 该方法在带宽受限场景下高效,显著提升压缩效率和重建质量。
[208] PRO: Projection Domain Synthesis for CT Imaging
Kang Chen,Bin Huang,Xuebin Yang,Junyan Zhang,Qiegen Liu
Main category: eess.IV
TL;DR: PRO是一种基于潜在扩散模型的新型框架,首次在投影域合成高质量CT图像,利用解剖文本提示实现可控合成,显著提升下游任务性能。
- Motivation: 由于标注数据有限和CT成像复杂性,合成高质量CT图像具有挑战性。PRO旨在通过投影域策略更准确地建模成像物理和结构。
- Method: PRO在投影域使用潜在扩散模型,学习原始投影数据的结构表示,并通过文本提示调整生成行为。
- Result: 实验表明,PRO合成的数据显著提升了低剂量和稀疏视图重建等下游任务的性能,尤其在数据有限时。
- Conclusion: PRO展示了投影域合成在CT数据增强中的潜力,其通用性和可扩展性为多种CT应用提供了强大工具。
[209] MultiViT2: A Data-augmented Multimodal Neuroimaging Prediction Framework via Latent Diffusion Model
Bi Yuda,Jia Sihan,Gao Yutong,Abrol Anees,Fu Zening,Calhoun Vince
Main category: eess.IV
TL;DR: 论文提出了一种基于多模态医学影像的深度学习预测框架MultiViT2,结合预训练模型与视觉Transformer,并通过潜在扩散模型增强数据,显著提升了精神分裂症分类的准确性。
- Motivation: 多模态医学影像(如结构和功能神经影像)能提供互补信息,但现有方法在预测性能和泛化能力上仍有提升空间。
- Method: 提出MultiViT2模型,结合预训练学习基模型与视觉Transformer,并开发基于潜在扩散模型的数据增强模块。
- Result: MultiViT2在精神分裂症分类中显著优于第一代模型,并表现出强扩展性和可移植性。
- Conclusion: MultiViT2通过多模态数据融合与数据增强,显著提升了预测性能,为医学影像分析提供了新思路。
cs.HC
[210] From Flat to Feeling: A Feasibility and Impact Study on Dynamic Facial Emotions in AI-Generated Avatars
Pegah Salehi,Sajad Amouei Sheshkal,Vajira Thambawita,Pål Halvorsen
Main category: cs.HC
TL;DR: 论文提出了一种实时架构,结合Unreal Engine 5和NVIDIA Omniverse Audio2Face技术,将语音转换为高保真面部表情,用于儿童虚拟训练。研究发现,音频对愤怒情绪识别至关重要,但去除音频反而提升了面部真实感。
- Motivation: 现有AI生成头像在动态情感表达上表现不足,限制了在高风险模拟(如虐待儿童调查访谈训练)中的实用性。
- Method: 采用分布式双PC架构,分离语言处理和GPU渲染,支持低延迟交互。通过实验评估音频+视觉和仅视觉条件下的情感识别效果。
- Result: 悲伤和快乐情绪识别率高,但愤怒识别在无音频时显著下降。去除音频反而提升了面部真实感。
- Conclusion: 技术可行,但需解决视听同步问题,以优化敏感训练模拟中的非语言沟通。
Powered by Deepseek & arXiv Daily AI Enhanced