以下论文的arXiv类型标签包含:cs.CV
Powered by Deepseek & arXiv Daily AI Enhanced
cs.CV
[1] Beyond Recognition: Evaluating Visual Perspective Taking in Vision Language Models
Gracjan Góral,Alicja Ziarko,Piotr Miłoś,Michał Nauman,Maciej Wołczyk,Michał Kosiński
Main category: cs.CV
TL;DR: 研究探讨了视觉语言模型(VLMs)在视觉视角任务中的表现,发现其在场景理解上表现优异,但在空间推理和视角任务中表现较差。
- Motivation: 探索VLMs在复杂视觉任务中的能力,尤其是视觉视角任务,以填补现有模型在空间和视角推理上的不足。
- Method: 通过设计144个独特的视觉任务,结合7个诊断问题,评估VLMs在场景理解、空间推理和视觉视角任务中的表现。
- Result: 模型在场景理解上表现良好,但在空间推理和视角任务中表现显著下降。
- Conclusion: 未来VLM开发需整合显式几何表示和针对性训练协议,以提升复杂视觉任务的能力。
[2] In-situ and Non-contact Etch Depth Prediction in Plasma Etching via Machine Learning (ANN & BNN) and Digital Image Colorimetry
Minji Kang,Seongho Kim,Eunseo Go,Donghyeon Paek,Geon Lim,Muyoung Kim,Soyeun Kim,Sung Kyu Jang,Min Sup Choi,Woo Seok Kang,Jaehyun Kim,Jaekwang Kim,Hyeong-U Kim
Main category: cs.CV
TL;DR: 论文提出了一种基于机器学习的非接触式原位蚀刻深度预测框架,用于半导体制造中绝缘材料厚度的实时监测,通过人工神经网络和贝叶斯神经网络分别预测蚀刻深度及其不确定性,并验证了数字图像比色法数据的可行性。
- Motivation: 传统的外部分析方法存在时间延迟和污染风险,无法满足半导体制造中对蚀刻深度和绝缘材料厚度实时监测的需求。
- Method: 研究采用人工神经网络(ANN)和贝叶斯神经网络(BNN)分别预测蚀刻深度及其不确定性,并探索了数字图像比色法(DIC)数据作为输入的可行性。
- Result: ANN在预测平均蚀刻深度时显著优于线性基线模型,BNN能可靠估计不确定性;DIC数据在无明确工艺参数时仍表现良好。
- Conclusion: 结合DIC和机器学习为等离子蚀刻过程提供了一种实时、原位、非侵入的监测方案,提升了工艺稳定性和制造效率。
[3] VideoLLM Benchmarks and Evaluation: A Survey
Yogesh Kumar
Main category: cs.CV
TL;DR: 本文综述了视频大语言模型(VideoLLMs)的评测基准与方法,分析了现有视频理解基准的特点、评估协议及局限性,并提出了未来研究方向。
- Motivation: 随着大语言模型的快速发展,视频理解技术取得显著进展,但缺乏对VideoLLMs评测的系统性分析。本文旨在填补这一空白。
- Method: 通过分析现有视频理解基准(如封闭集、开放集及时空任务评估),总结评估方法的特点与不足。
- Result: 揭示了当前评测框架的关键挑战,并展示了前沿VideoLLMs的性能趋势。
- Conclusion: 提出未来需设计更多样化、多模态及可解释性强的评测基准,为研究者提供结构化指导。
[4] Video Forgery Detection for Surveillance Cameras: A Review
Noor B. Tayfor,Tarik A. Rashid,Shko M. Qader,Bryar A. Hassan,Mohammed H. Abdalla,Jafar Majidpour,Aram M. Ahmed,Hussein M. Ali,Aso M. Aladdin,Abdulhady A. Abdullah,Ahmed S. Shamsaldin,Haval M. Sidqi,Abdulrahman Salih,Zaher M. Yaseen,Azad A. Ameen,Janmenjoy Nayak,Mahmood Yashar Hamza
Main category: cs.CV
TL;DR: 本文综述了用于检测视频伪造的现有法医技术,重点探讨了其在验证监控录像真实性方面的有效性,并强调了对更强大技术的需求。
- Motivation: 随着视频编辑工具的普及,监控录像的篡改变得容易,威胁其真实性,可能导致错误信息和司法决策的破坏。
- Method: 研究了多种方法,包括基于压缩的分析、帧重复检测和机器学习方法。
- Result: 发现现有技术需要进一步强化以应对不断演变的伪造手段。
- Conclusion: 加强视频法医能力将确保监控录像的可信度和法律证据的可靠性。
[5] PointExplainer: Towards Transparent Parkinson's Disease Diagnosis
Xuechao Wang,Sven Nomm,Junqing Huang,Kadri Medijainen,Aaro Toomela,Michael Ruzhansky
Main category: cs.CV
TL;DR: PointExplainer是一种可解释的诊断策略,用于识别手绘区域对帕金森病早期诊断的贡献,通过离散归因值和一致性度量提供直观解释。
- Motivation: 现有帕金森病诊断方法缺乏可解释性,影响临床信任。
- Method: 提出PointExplainer,包括诊断模块(将手绘信号编码为3D点云)和解释模块(训练可解释代理模型)。
- Result: 在两个基准数据集和新构建的数据集上验证,PointExplainer提供直观解释且不影响诊断性能。
- Conclusion: PointExplainer解决了可解释性问题,为临床诊断提供了可靠支持。
[6] Explainable Face Recognition via Improved Localization
Rashik Shadman,Daqing Hou,Faraz Hussain,M G Sarwar Murshed
Main category: cs.CV
TL;DR: 论文提出了一种基于Scaled Directed Divergence (SDD)的可解释性人脸识别方法,通过精细定位相关面部特征,提高深度学习模型的透明度和可信度。
- Motivation: 当前深度学习人脸识别系统缺乏解释性,用户难以信任其决策,因此需要一种方法提供清晰的视觉解释。
- Method: 使用SDD类激活映射(CAM)技术,精细定位与模型决策相关的面部特征。
- Result: 实验表明,SDD CAM比传统CAM更精确地突出相关面部特征。
- Conclusion: SDD CAM方法能显著提升深度学习人脸识别系统的透明度和用户信任度。
[7] GAME: Learning Multimodal Interactions via Graph Structures for Personality Trait Estimation
Kangsheng Wang,Yuhang Li,Chengwei Ye,Yufei Lin,Huanzhen Zhang,Bohan Hu,Linuo Xu,Shuyan Liu
Main category: cs.CV
TL;DR: GAME是一种图增强多模态编码器,用于从短视频中预测人格特征,通过融合视觉、听觉和文本特征,显著优于现有方法。
- Motivation: 短视频中的人格分析因多源特征的复杂交互而具有挑战性,需要一种鲁棒的多模态融合方法。
- Method: GAME结合了图卷积网络(GCNs)和卷积神经网络(CNNs)的双分支Geo Two-Stream Network,以及BiGRU、VGGish和XLM-Roberta,通过通道注意力融合模块整合多模态特征。
- Result: GAME在多个基准测试中表现优于现有方法,验证了其有效性和泛化能力。
- Conclusion: GAME为短视频人格分析提供了一种高效的多模态融合解决方案。
[8] Advanced Clustering Framework for Semiconductor Image Analytics Integrating Deep TDA with Self-Supervised and Transfer Learning Techniques
Janhavi Giri,Attila Lengyel,Don Kent,Edward Kibardin
Main category: cs.CV
TL;DR: 提出了一种结合深度拓扑数据分析(TDA)、自监督学习和迁移学习的聚类框架,用于半导体制造中的无监督图像聚类,有效识别缺陷模式。
- Motivation: 半导体制造中图像数据量大且复杂,传统聚类方法难以处理高维无标签数据,需要更高效的方法。
- Method: 整合TDA、自监督学习和迁移学习,TDA提取拓扑特征,自监督学习生成数据表示,迁移学习增强适应性和可扩展性。
- Result: 在合成和开源数据集上验证,成功识别缺陷模式和工艺变化相关的聚类。
- Conclusion: 该框架为半导体制造等领域的图像数据分析提供了可扩展的解决方案,具有广泛应用潜力。
[9] An Active Inference Model of Covert and Overt Visual Attention
Tin Mišić,Karlo Koledić,Fabio Bonsignorio,Ivan Petrović,Ivan Marković
Main category: cs.CV
TL;DR: 该论文提出了一种基于主动推理的视觉注意力模型,通过动态优化感官精度来最小化自由能,研究了外源性和内源性注意力的交互作用,并在Posner提示任务中验证了模型的有效性。
- Motivation: 研究如何在复杂感官输入中选择性注意相关刺激并过滤干扰,为智能体处理高维感官数据提供理论支持。
- Method: 利用主动推理框架,动态优化感官精度,结合环境信念和感官输入分配注意力,并在Posner提示任务和简单目标聚焦任务中测试模型。
- Result: 外源性和有效提示通常导致更快的反应时间;模型表现出类似抑制返回的行为;反射性眼动比意图性眼动更快但适应性较差。
- Conclusion: 该模型成功模拟了视觉注意力的关键特征,为理解注意机制提供了新视角。
[10] Novel Extraction of Discriminative Fine-Grained Feature to Improve Retinal Vessel Segmentation
Shuang Zeng,Chee Hong Lee,Micky C Nnamdi,Wenqi Shi,J Ben Tamo,Lei Zhu,Hangzhou He,Xinliang Zhang,Qian Chen,May D. Wang,Yanye Lu,Qiushi Ren
Main category: cs.CV
TL;DR: 提出了一种名为AttUKAN的新型注意力U形Kolmogorov-Arnold网络及标签引导的像素级对比损失,用于视网膜血管分割,显著提升了性能。
- Motivation: 现有方法主要关注解码器输出与标签的差异,而忽略了编码器的细粒度特征表示,导致特征提取不足。
- Method: 在Kolmogorov-Arnold网络中引入注意力门控增强模型敏感性和可解释性,并设计标签引导的像素级对比损失以提取更具区分性的特征。
- Result: 在多个公开数据集上取得最高F1和MIoU分数,性能优于现有11种网络。
- Conclusion: AttUKAN在视网膜血管分割任务中达到了最先进的性能,代码已开源。
[11] Deep Learning Framework for Infrastructure Maintenance: Crack Detection and High-Resolution Imaging of Infrastructure Surfaces
Nikhil M. Pawar,Jorge A. Prozzi,Feng Hong,Surya Sarat Chandra Congress
Main category: cs.CV
TL;DR: 该研究提出了一种结合CNN和ESPCNN的框架,用于高效超分辨率处理基础设施图像,减少误报和计算成本。
- Motivation: 解决基础设施管理中低分辨率图像和误报问题,提升超分辨率技术的效率和准确性。
- Method: 使用CNN分类正负损伤图像,再用轻量级ESPCNN对正损伤图像进行超分辨率处理。
- Result: ESPCNN在超分辨率任务中优于双三次插值,减少了计算成本和误报。
- Conclusion: 该框架能有效辅助高速公路机构进行损伤检测和资产管理。
[12] Action Spotting and Precise Event Detection in Sports: Datasets, Methods, and Challenges
Hao Xu,Arbind Agrahari Baniya,Sam Well,Mohamed Reda Bouadjenek,Richard Dazeley,Sunil Aryal
Main category: cs.CV
TL;DR: 本文综述了体育视频事件检测的三大任务(TAL、AS、PES),总结了方法、数据集及评估指标,并探讨了多模态技术和未来研究方向。
- Motivation: 体育视频事件检测对提升分析效率、观众参与和转播效果至关重要,深度学习技术的进步推动了其发展。
- Method: 综述了基于CNN和Transformer的方法,包括多模态、自监督学习和知识蒸馏技术。
- Result: 总结了现有数据集和评估指标,分析了技术优缺点,并提出了未来研究方向。
- Conclusion: 为高效、通用和多模态的体育事件检测研究奠定了基础。
[13] The Eye as a Window to Systemic Health: A Survey of Retinal Imaging from Classical Techniques to Oculomics
Inamullah,Imran Razzak,Shoaib Jameel
Main category: cs.CV
TL;DR: 视网膜成像技术结合人工智能分析,为眼部及全身疾病提供非侵入性早期检测和干预手段,推动眼科学新领域(oculomics)的发展。
- Motivation: 利用视网膜血管结构的独特性,通过AI技术实现疾病早期检测和监测,弥补传统方法的不足。
- Method: 综述视网膜成像技术的演变及AI驱动的分析方法,探讨从传统技术向oculomics的转变。
- Result: 揭示了视网膜成像在疾病诊断中的潜力,并指出AI整合的机遇与挑战。
- Conclusion: oculomics为疾病研究开辟新途径,但仍需解决技术障碍和研究空白。
[14] FoodTrack: Estimating Handheld Food Portions with Egocentric Video
Ervin Wang,Yuhao Chen
Main category: cs.CV
TL;DR: FoodTrack框架通过第一视角视频直接测量手持食物的体积,克服了传统方法的限制,提高了食物摄入跟踪的准确性。
- Motivation: 传统食物摄入跟踪方法依赖特定摄像头角度、无遮挡图像或手势识别,且假设咬合大小,导致准确性受限。
- Method: 提出FoodTrack框架,利用第一视角视频直接测量食物体积,无需依赖手势或固定假设,适应性强。
- Result: 在手持食物对象上实现了约7.01%的绝对百分比损失,优于之前方法在最佳情况下的16.40%误差。
- Conclusion: FoodTrack提供了一种更准确、适应性更强的食物摄入跟踪解决方案。
[15] AS3D: 2D-Assisted Cross-Modal Understanding with Semantic-Spatial Scene Graphs for 3D Visual Grounding
Feng Xiao,Hongbin Xu,Guocan Zhao,Wenxiong Kang
Main category: cs.CV
TL;DR: 提出了一种2D辅助的3D视觉定位框架,通过语义-空间场景图和双分支视觉编码器提升多模态对象编码和关系感知。
- Motivation: 解决3D与语言模态之间的显著差距,特别是在区分多个相似对象时,现有方法忽略了被引用对象的感知。
- Method: 构建语义-空间场景图,采用双分支视觉编码器利用2D预训练属性指导多模态对象编码,并通过图注意力进行跨模态交互。
- Result: 在流行基准测试中表现优于现有方法,尤其在处理多个相似干扰物时效果显著。
- Conclusion: 提出的框架通过增强对象表示和迭代关系学习,实现了3D视觉与引用描述之间的有效对齐。
[16] SEVA: Leveraging Single-Step Ensemble of Vicinal Augmentations for Test-Time Adaptation
Zixuan Hu,Yichun Hu,Ling-Yu Duan
Main category: cs.CV
TL;DR: 提出了一种名为SEVA的新型测试时适应方法,通过单步集成虚拟增强优化熵损失上界,提升模型适应效率。
- Motivation: 现有TTA方法依赖单轮熵训练,未能充分利用可靠样本,且计算成本高。
- Method: 提出SEVA方法,通过理论框架探索多增强对模型适应的影响,优化熵损失上界,单步完成多轮增强训练。
- Result: 在多种网络架构和测试场景下表现出色,验证了SEVA的高效性和广泛适应性。
- Conclusion: SEVA通过高效损失和样本选择策略,显著提升模型适应能力,满足实时需求。
[17] SMMT: Siamese Motion Mamba with Self-attention for Thermal Infrared Target Tracking
Shang Zhang,Huanbin Zhang,Dali Feng,Yujie Cui,Ruoyan Xiong,Cen He
Main category: cs.CV
TL;DR: 论文提出了一种新型的Siamese Motion Mamba Tracker (SMMT),通过双向状态空间模型和自注意力机制解决TIR目标跟踪中的遮挡、运动模糊和背景干扰问题。
- Motivation: TIR目标跟踪常因目标遮挡、运动模糊和背景干扰导致性能下降,亟需一种高效解决方案。
- Method: 引入Motion Mamba模块到Siamese架构中,结合双向建模和自注意力提取运动特征;采用参数共享策略减少计算冗余;设计运动边缘感知回归损失提升跟踪精度。
- Result: 在四个TIR跟踪基准测试中,SMMT表现出优越性能。
- Conclusion: SMMT通过创新设计和优化策略,显著提升了TIR目标跟踪的准确性和鲁棒性。
[18] MAISY: Motion-Aware Image SYnthesis for MedicalImage Motion Correction
Andrew Zhang,Hao Wang,Shuchang Ye,Michael Fulham,Jinman Kim
Main category: cs.CV
TL;DR: MAISY方法通过动态学习空间模式和引入VS-SSIM损失,显著提升了运动伪影校正效果。
- Motivation: 现有GAN方法在全局结构上表现良好,但忽略了局部特征和像素强度变化,影响图像质量。
- Method: 结合SAM模型动态学习空间模式,并引入VS-SSIM损失自适应处理高方差区域。
- Result: 在胸部和头部CT数据上,PSNR提升40%,SSIM提升10%,Dice提升16%。
- Conclusion: MAISY方法在运动伪影校正中优于现有技术,尤其擅长保留关键解剖细节。
[19] One2Any: One-Reference 6D Pose Estimation for Any Object
Mengya Liu,Siyuan Li,Ajad Chhatkuli,Prune Truong,Luc Van Gool,Federico Tombari
Main category: cs.CV
TL;DR: One2Any是一种新方法,仅需单张参考和查询RGB-D图像即可估计6D物体姿态,无需3D模型或多视图数据。
- Motivation: 解决6D物体姿态估计依赖完整3D模型、多视图图像或特定类别训练的问题,提高对新物体的泛化能力。
- Method: 将姿态估计视为编码-解码过程,通过单参考视图生成ROPE嵌入,再用U-Net解码模块生成ROC,实现快速准确估计。
- Result: 在多个基准数据集上表现优异,泛化能力强,精度和鲁棒性达到SOTA,甚至优于依赖多视图或CAD的方法。
- Conclusion: One2Any展示了高效、可扩展的姿态估计方法,适用于新物体且计算成本低。
[20] GAPrompt: Geometry-Aware Point Cloud Prompt for 3D Vision Model
Zixiang Ai,Zichen Liu,Yuanhang Lei,Zhenyu Cui,Xu Zou,Jiahuan Zhou
Main category: cs.CV
TL;DR: 论文提出了一种几何感知的点云提示方法(GAPrompt),通过几何线索增强3D视觉模型的适应性,显著优于现有参数高效微调方法。
- Motivation: 预训练的3D视觉模型在下游任务中表现优异,但完全微调计算和存储成本高。现有参数高效微调方法因难以捕捉点云几何信息而性能有限。
- Method: 提出GAPrompt,包括点提示(Point Prompt)捕捉细节、点移提示器(Point Shift Prompter)提取全局形状信息,以及提示传播机制(Prompt Propagation)融入特征提取。
- Result: GAPrompt在多个基准测试中显著优于现有方法,仅需2.19%可训练参数即可达到与完全微调竞争的结果。
- Conclusion: GAPrompt通过几何感知提示有效提升了3D视觉模型的参数效率和性能。
[21] Vision Graph Prompting via Semantic Low-Rank Decomposition
Zixiang Ai,Zichen Liu,Jiahuan Zhou
Main category: cs.CV
TL;DR: ViG通过图结构表示图像,优于传统网格或序列表示。本文提出VGP框架,利用低秩语义提示方法提升ViG在下游任务中的性能。
- Motivation: 现有提示方法主要针对Transformer模型,忽视了图结构中节点和边的拓扑关系,限制了复杂语义建模能力。
- Method: 提出VGP框架,基于低秩语义特性,将语义特征分解并与视觉图拓扑提示结合。
- Result: 实验表明,VGP显著提升ViG在下游任务中的迁移性能,接近全微调效果且保持参数高效。
- Conclusion: VGP为视觉图结构提供了一种高效提示方法,兼顾全局结构和细粒度语义依赖。
[22] R^3-VQA: "Read the Room" by Video Social Reasoning
Lixing Niu,Jiapeng Li,Xingping Yu,Shu Wang,Ruining Feng,Bo Wu,Ping Wei,Yisen Wang,Lifeng Fan
Main category: cs.CV
TL;DR: 论文提出了一个名为R^3-VQA的高质量视频数据集,用于评估复杂社交场景中的推理能力,并测试了现有视觉语言模型的性能。
- Motivation: 现有社交推理任务和数据集过于简单,无法反映真实社交互动的复杂性,因此需要更全面的数据集和任务来推动研究。
- Method: 构建了包含精细社交事件和心智状态标注的R^3-VQA数据集,并设计了三个任务:社交事件理解、心智状态估计和社交因果推理。
- Result: 实验表明,现有视觉语言模型在复杂社交推理中仍远未达到人类水平,但使用心理理论提示可以提升其表现。
- Conclusion: R^3-VQA为社交推理研究提供了新基准,并揭示了当前模型的局限性,同时展示了改进的可能性。
[23] Learning from Similarity Proportion Loss for Classifying Skeletal Muscle Recovery Stages
Yu Yamaoka or Weng Ian Chan,Shigeto Seno,Soichiro Fukada,Hideo Matsuda
Main category: cs.CV
TL;DR: 论文提出了一种名为OSLSP的弱监督学习方法,用于自动化评估肌肉组织再生过程,解决了现有方法的局限性。
- Motivation: 传统肌肉组织再生评估依赖人工视觉检查,缺乏客观性和定量分析。现有弱监督学习方法无法适应肌肉组织特征且忽略类别顺序信息。
- Method: 提出OSLSP方法,利用相似性比例损失和类别比例注意力机制,更新特征提取器并保留类别顺序信息。
- Result: OSLSP模型在骨骼肌恢复阶段分类任务中优于大规模预训练和微调模型。
- Conclusion: OSLSP为肌肉组织再生评估提供了一种自动化、定量且保留顺序信息的解决方案。
[24] DOTA: Deformable Optimized Transformer Architecture for End-to-End Text Recognition with Retrieval-Augmented Generation
Naphat Nithisopa,Teerapong Panboonyuen
Main category: cs.CV
TL;DR: 本文提出了一种结合ResNet和Vision Transformer的新型端到端文本识别框架,通过引入可变形卷积、检索增强生成和条件随机场等方法,显著提升了OCR性能。
- Motivation: 自然图像中的文本识别是一个重要但具有挑战性的任务,广泛应用于计算机视觉和自然语言处理领域。本文旨在通过创新的方法提升OCR的性能。
- Method: 框架在第三和第四块中用可变形卷积替代标准卷积层,采用自适应dropout进行正则化,并引入条件随机场优化序列建模。
- Result: 在六个基准数据集上验证了方法的有效性,平均准确率达到77.77%,部分数据集上表现尤为突出(如IC13达到97.32%)。
- Conclusion: 该方法在多样化和具有挑战性的数据集上表现出色,确立了文本识别领域的新标杆。
[25] S3D: Sketch-Driven 3D Model Generation
Hail Song,Wonsik Shin,Naeun Lee,Soomin Chung,Nojun Kwak,Woontack Woo
Main category: cs.CV
TL;DR: S3D框架通过U-Net架构和风格对齐损失,将手绘草图转化为高质量3D模型。
- Motivation: 解决2D草图因模糊性和稀疏性导致3D建模困难的问题。
- Method: 使用U-Net编码器-解码器生成面部分割掩码,结合风格对齐损失和增强技术。
- Result: 生成高质量3D模型,支持多视角渲染。
- Conclusion: S3D框架高效且开源,适用于草图到3D的转换。
[26] VideoPath-LLaVA: Pathology Diagnostic Reasoning Through Video Instruction Tuning
Trinh T. L. Vuong,Jin Tae Kwak
Main category: cs.CV
TL;DR: VideoPath-LLaVA是首个整合单张切片图像、自动关键帧提取片段和手动分割视频病理图像的多模态模型,模拟病理学家的诊断过程。
- Motivation: 通过结合视觉叙事与诊断推理,提升病理视频分析的准确性和效率。
- Method: 利用VideoPath-Instruct数据集(4278个视频和诊断指令对),从单图像指令数据迁移知识,训练关键帧提取片段,再微调手动分割视频。
- Result: VideoPath-LLaVA在病理视频分析中设定了新基准,为临床决策支持系统奠定基础。
- Conclusion: 该模型为未来AI系统提供了视觉与诊断推理结合的潜力,代码和数据已开源。
[27] SToLa: Self-Adaptive Touch-Language Framework with Tactile Commonsense Reasoning in Open-Ended Scenarios
Ning Cheng,Jinan Xu,Jialing Chen,Wenjuan Han
Main category: cs.CV
TL;DR: 论文探讨了将触觉感知融入智能系统进行多模态推理的挑战,提出了SToLa框架和数据集以解决模态差异和触觉数据稀缺问题。
- Motivation: 解决触觉与语言模态间的差异以及触觉数据稀缺问题,以支持开放物理世界的常识推理。
- Method: 引入SToLa框架,利用Mixture of Experts(MoE)动态处理触觉与语言模态,并构建了一个全面的触觉常识推理数据集。
- Result: SToLa在PhysiCLeAR基准和自建数据集上表现优异,验证了MoE在多模态管理中的有效性。
- Conclusion: SToLa框架和数据集为开放场景触觉常识推理任务提供了性能优势,解决了现有挑战。
[28] An Enhanced YOLOv8 Model for Real-Time and Accurate Pothole Detection and Measurement
Mustafa Yurdakul,Şakir Tasdemir
Main category: cs.CV
TL;DR: 论文提出了一种基于改进YOLOv8的模型,用于RGB-D图像中的坑洞检测和物理特征分析,性能优于标准模型。
- Motivation: 坑洞导致车辆损坏和交通事故,现有方法仅基于2D RGB图像,无法准确分析坑洞物理特征。
- Method: 创建了RGB-D数据集PothRGBD,提出改进的YOLOv8模型,结合DSConv、SimAM和GELU模块。
- Result: 改进模型在精度、召回率和mAP上分别提升1.96%、6.13%和2.07%。
- Conclusion: 模型轻量高效,适用于实时智能交通解决方案。
[29] CM1 -- A Dataset for Evaluating Few-Shot Information Extraction with Large Vision Language Models
Fabian Wolf,Oliver Tüselmann,Arthur Matei,Lukas Hennies,Christoph Rass,Gernot A. Fink
Main category: cs.CV
TL;DR: 该论文提出了一种用于评估大型视觉语言模型(LVLM)在少量标注数据下性能的新数据集CM1,并展示了LVLM在少量训练样本时的优势。
- Motivation: 解决手写文档中关键值信息自动提取的挑战,尤其是在标注数据稀缺的情况下,推动大规模数字化工作。
- Method: 创建了CM1数据集,包含历史表单中的手写信息,设计了三个基准任务(姓名和出生日期提取),并比较了两种LVLM与传统全页提取模型的性能。
- Result: 传统全页模型表现优异,但在少量训练样本时,LVLM凭借其规模和预训练优势超越传统方法。
- Conclusion: LVLM在少量标注数据场景下具有潜力,为文档分析提供了新方向。
[30] A Weak Supervision Learning Approach Towards an Equitable Parking Lot Occupancy Estimation
Theophilus Aidoo,Till Koebe,Akansh Maurya,Hewan Shrestha,Ingmar Weber
Main category: cs.CV
TL;DR: 提出了一种基于弱监督框架的方法,利用3米分辨率卫星图像估计停车场占用率,减少对高分辨率图像的依赖。
- Motivation: 解决高分辨率遥感图像稀缺且昂贵的问题,特别是在低收入地区。
- Method: 利用粗粒度时间标签(假设德国大型超市和五金店的停车场在周六通常满、周日通常空),训练成对比较模型。
- Result: 模型在大型停车场上的AUC达到0.92。
- Conclusion: 该方法可扩展用于城市流动性分析,并适用于评估弱势社区的交通模式和资源分配。
[31] Bridging Geometry-Coherent Text-to-3D Generation with Multi-View Diffusion Priors and Gaussian Splatting
Feng Yang,Wenliang Qian,Wangmeng Zuo,Hui Li
Main category: cs.CV
TL;DR: 本文提出Coupled Score Distillation (CSD)框架,通过耦合多视角联合分布先验,解决Score Distillation Sampling (SDS)在文本到3D生成中的几何不一致性和多面伪影问题,并直接优化3D高斯泼溅生成高质量3D内容。
- Motivation: SDS在文本到3D生成中忽视了多视角相关性,导致几何不一致和多面伪影。本文旨在解决这些问题,提升3D生成的质量和一致性。
- Method: 提出CSD框架,将优化问题重新定义为多视角联合优化,并推导出有效的优化规则。同时,直接优化3D高斯泼溅(3D-GS)并结合可变形四面体网格进行细化。
- Result: 实验结果表明,该方法在效率和生成质量上具有竞争力,能够生成几何一致的3D内容。
- Conclusion: CSD框架通过耦合多视角先验,显著提升了3D生成的几何一致性和质量,为文本到3D生成提供了更稳定的优化方法。
[32] Object-Shot Enhanced Grounding Network for Egocentric Video
Yisen Feng,Haoyu Zhang,Meng Liu,Weili Guan,Liqiang Nie
Main category: cs.CV
TL;DR: OSGNet提出了一种针对自我中心视频的物体-镜头增强定位网络,通过提取物体信息和镜头运动特征,提升了模态对齐能力,并在实验中取得了最佳性能。
- Motivation: 现有方法主要关注自我中心与外部中心视频的分布差异,但忽略了自我中心视频的关键特征和细粒度信息。
- Method: 提取视频中的物体信息以丰富视频表示,并分析镜头运动特征以捕捉佩戴者的注意力信息。
- Result: 在三个数据集上的实验表明,OSGNet达到了最先进的性能。
- Conclusion: OSGNet通过结合物体和镜头特征,有效提升了自我中心视频定位任务的性能。
[33] HDiffTG: A Lightweight Hybrid Diffusion-Transformer-GCN Architecture for 3D Human Pose Estimation
Yajie Fu,Chaorui Huang,Junwei Li,Hui Kong,Yibin Tian,Huakang Li,Zhiyuan Zhang
Main category: cs.CV
TL;DR: HDiffTG是一种新颖的3D人体姿态估计方法,结合Transformer、GCN和扩散模型,显著提升精度和鲁棒性。
- Motivation: 解决3D人体姿态估计中全局与局部特征平衡问题,提升在遮挡和复杂场景下的表现。
- Method: 集成Transformer(全局时空依赖)、GCN(局部骨骼结构)和扩散模型(逐步优化),并引入轻量化设计。
- Result: 在Human3.6M和MPI-INF-3DHP数据集上达到SOTA性能,计算高效且对噪声和遮挡鲁棒。
- Conclusion: HDiffTG通过多技术融合和轻量化优化,实现了高效、鲁棒的3D姿态估计。
[34] TS-Diff: Two-Stage Diffusion Model for Low-Light RAW Image Enhancement
Yi Li,Zhiyuan Zhang,Jiangnan Xia,Jianghan Cheng,Qilong Wu,Junwei Li,Yibin Tian,Hui Kong
Main category: cs.CV
TL;DR: TS-Diff是一种新型的两阶段扩散模型,用于增强极低光RAW图像。通过虚拟相机和噪声空间合成图像,并结合目标特定调整和颜色校正,实现了优异的去噪和泛化性能。
- Motivation: 解决极低光条件下RAW图像的去噪和颜色一致性问题,提升图像质量。
- Method: 两阶段模型:预训练阶段通过虚拟相机生成噪声图像,对齐阶段使用少量真实数据微调。引入CFI模块和颜色校正器。
- Result: 在多个数据集上表现优异,尤其在去噪、泛化和颜色一致性方面。
- Conclusion: TS-Diff是一种鲁棒且通用的低光图像增强解决方案。
[35] MoDE: Mixture of Diffusion Experts for Any Occluded Face Recognition
Qiannan Fan,Zhuoyang Li,Jitong Li,Chenyang Cao
Main category: cs.CV
TL;DR: 本文提出了一种基于扩散专家混合模型(MoDE)的遮挡人脸识别方法,通过身份门控网络自适应整合多重建人脸信息,显著提升了识别性能。
- Motivation: 当前遮挡人脸识别算法缺乏对遮挡的先验知识,导致实际应用中性能不佳,影响了日常生活的便利性。
- Method: 提出身份门控扩散专家混合模型(MoDE),每个扩散生成专家估计一种可能的完整人脸图像,并通过身份门控网络评估和整合多重建人脸信息。
- Result: 在三个公开人脸数据集和两个野外数据集上的实验表明,该方法在多种遮挡情况下优于现有方法。
- Conclusion: MoDE是一种即插即用的模块,能够显著提升遮挡人脸识别的性能。
[36] Multi-turn Consistent Image Editing
Zijun Zhou,Yingying Deng,Xiangyu He,Weiming Dong,Fan Tang
Main category: cs.CV
TL;DR: 提出了一种多轮图像编辑框架,通过迭代优化解决单步编辑的不足,提升编辑效果和用户满意度。
- Motivation: 现有图像编辑方法多为单步操作,难以处理模糊意图、复杂变换或渐进优化需求,导致结果不一致或不符合预期。
- Method: 采用流匹配实现图像反演,双目标LQR稳定采样,并结合自适应注意力增强方法提升编辑性和一致性。
- Result: 实验表明,该框架显著提高了编辑成功率和视觉保真度。
- Conclusion: 多轮编辑框架有效解决了单步编辑的局限性,提升了编辑质量和用户体验。
[37] CountDiffusion: Text-to-Image Synthesis with Training-Free Counting-Guidance Diffusion
Yanyu Li,Pencheng Wan,Liang Han,Yaowei Wang,Liqiang Nie,Min Zhang
Main category: cs.CV
TL;DR: CountDiffusion是一种无需训练的框架,通过两阶段方法改进扩散模型的文本到图像生成能力,确保生成图像中物体数量的准确性。
- Motivation: 现有扩散模型在生成图像时难以准确控制物体数量,主要由于计算成本高和抽象数量概念难以建模。
- Method: CountDiffusion分为两阶段:首先生成中间去噪结果并计数物体数量,第二阶段通过注意力图修正物体数量。
- Result: 实验表明,CountDiffusion显著提升了文本到图像模型生成准确物体数量的能力。
- Conclusion: CountDiffusion是一种高效且无需额外训练的解决方案,可广泛应用于扩散模型。
[38] WDMamba: When Wavelet Degradation Prior Meets Vision Mamba for Image Dehazing
Jie Sun,Heng Liu,Yongzhen Wang,Xiao-Ping Zhang,Mingqiang Wei
Main category: cs.CV
TL;DR: 论文提出了一种基于小波变换的雾霾退化先验,发现雾霾信息主要存在于低频分量中,并据此设计了一个两阶段去雾框架WDMamba,结合Mamba块和自引导对比正则化,显著提升了去雾效果。
- Motivation: 通过小波变换分析发现雾霾信息主要集中于低频分量,这为设计更高效的去雾方法提供了新思路。
- Method: 提出WDMamba框架,分低频恢复和细节增强两阶段处理,使用Mamba块实现线性复杂度的全局结构重建,并引入自引导对比正则化优化训练。
- Result: 在公开去雾基准测试中,WDMamba在质量和定量指标上均优于现有方法。
- Conclusion: WDMamba通过两阶段策略和自引导对比正则化,实现了高效且高质量的去雾效果,为相关领域提供了新思路。
[39] Balancing Accuracy, Calibration, and Efficiency in Active Learning with Vision Transformers Under Label Noise
Moseli Mots'oehli,Hope Mogale,Kyungim Baek
Main category: cs.CV
TL;DR: 研究探讨了不同规模的视觉Transformer(ViT)和Swin Transformer在标签噪声下的性能表现,发现较大的ViT模型(如ViTl32)在准确性和校准性上表现更优,而Swin Transformer的鲁棒性较弱。
- Motivation: 研究动机是探索视觉Transformer在低预算和标签噪声场景下的实用性,填补了模型规模对Transformer性能影响的空白。
- Method: 评估了四种ViT配置和三种Swin Transformer配置在CIFAR10和CIFAR100数据集上的表现,分析了标签噪声率对分类准确性和校准性的影响。
- Result: 较大的ViT模型(如ViTl32)在标签噪声下表现更优,而Swin Transformer在所有噪声水平下鲁棒性较弱。较小的补丁尺寸不一定带来更好的性能。
- Conclusion: 研究结果为资源受限环境下部署视觉Transformer提供了实用指导,强调了模型复杂度、标签噪声和计算效率的平衡。
[40] Label-efficient Single Photon Images Classification via Active Learning
Zili Zhang,Ziting Wen,Yiheng Qiang,Hongzhou Dong,Wenle Dong,Xinyang Li,Xiaofan Wang,Xiaoqiang Ren
Main category: cs.CV
TL;DR: 本文提出了一种针对单光子图像分类的主动学习框架,通过成像条件感知的采样策略和合成增强技术,显著减少了标注样本需求,同时保持了高分类精度。
- Motivation: 当前研究主要关注从稀疏光子事件重建3D场景,而单光子图像的语义解释因高标注成本和低效标注策略未被充分探索。
- Method: 提出了一种成像条件感知的采样策略,结合合成增强技术,选择性地标注最具信息量的样本。
- Result: 在合成数据上仅需1.5%标注样本即达到97%准确率;在真实数据上仅需8%标注样本,准确率达90.63%,优于基线4.51%。
- Conclusion: 主动学习使单光子图像分类性能达到与经典图像相当的水平,为单光子数据的大规模应用铺平了道路。
[41] Tetrahedron-Net for Medical Image Registration
Jinhai Xiang,Shuai Guo,Qianru Han,Dantong Shi,Xinwei He,Xiang Bai
Main category: cs.CV
TL;DR: 提出了一种名为Tetrahedron-Net的新架构,通过增加一个解码器来增强医学图像配准的表示能力,实验证明其性能优于现有方法。
- Motivation: 现有U-Net类网络在单编码器和单解码器架构中未能充分利用交互,限制了表示能力。
- Method: 设计了一个包含一个编码器和两个解码器的Tetrahedron-Net,新增解码器与原编码器和解码器交互,提升特征表示。
- Result: 在多个医学图像配准基准测试中表现出优越性能,并能轻松集成到现有U-Net类架构中。
- Conclusion: Tetrahedron-Net是一种简洁有效的解决方案,显著提升了医学图像配准的精度。
[42] DATA: Multi-Disentanglement based Contrastive Learning for Open-World Semi-Supervised Deepfake Attribution
Ming-Hui Liu,Xiao-Qian Liu,Xin Luo,Xin-Shun Xu
Main category: cs.CV
TL;DR: 提出了一种名为DATA的多解缠对比学习框架,用于开放世界半监督深度伪造溯源任务,通过正交深度伪造基和增强记忆机制提升泛化能力。
- Motivation: 解决现有方法过度依赖特定伪造线索而忽略共同伪造特征的问题,并提升在开放世界场景中对新类别的区分能力。
- Method: 定义正交深度伪造基以解缠特定方法特征,设计增强记忆机制用于新类别发现和对比学习,并引入基对比损失和中心对比损失优化特征。
- Result: 在OSS-DFA基准测试中表现优异,准确率提升2.55%和5.7%。
- Conclusion: DATA框架有效提升了深度伪造溯源的泛化能力和新类别区分性能。
[43] Predicting Road Surface Anomalies by Visual Tracking of a Preceding Vehicle
Petr Jahoda,Jan Cech
Main category: cs.CV
TL;DR: 提出了一种通过视觉跟踪前车来检测道路异常的新方法,适用于低能见度或密集交通场景,并能提前预测异常。
- Motivation: 传统方法依赖直接观察和训练视觉检测器,而新方法旨在克服这些限制,尤其是在前车遮挡或低能见度条件下。
- Method: 通过视觉跟踪前车,结合迭代鲁棒估计器补偿相机俯仰旋转,实时检测道路异常。
- Result: 实验表明,即使在复杂路况下,该方法也能可靠地远距离检测异常,且实时性良好。
- Conclusion: 该方法高效、实时,适用于自动驾驶或车辆底盘预配置等场景。
[44] SwinLip: An Efficient Visual Speech Encoder for Lip Reading Using Swin Transformer
Young-Hu Park,Rae-Hong Park,Hyung-Min Park
Main category: cs.CV
TL;DR: 提出了一种基于Swin Transformer的高效视觉语音编码器SwinLip,用于唇读任务,显著降低了计算复杂度并提升了性能。
- Motivation: 现有基于ResNet的唇读模型计算复杂度高,不适合高效捕捉唇读特征,且在多模态任务中引入延迟。
- Method: 采用Swin Transformer的层次结构和窗口自注意力机制,结合改进的Conformer时间嵌入和传统空间嵌入,构建轻量级SwinLip编码器。
- Result: 在英语LRW和汉语LRW-1000数据集上表现优异,计算量更少,且在汉语LRW-1000上达到SOTA性能。
- Conclusion: SwinLip在降低计算负载的同时提升了唇读网络的性能和推理速度,适用于多种骨干网络。
[45] Deep residual learning with product units
Ziyuan Li,Uwe Jaekel,Babette Dellen
Main category: cs.CV
TL;DR: 提出了一种深度乘积单元残差神经网络(PURe),通过将乘积单元集成到残差块中,提升了深度卷积网络的表达能力和参数效率。
- Motivation: 传统求和神经元无法有效捕捉复杂的特征交互,而乘积单元能够实现乘法特征交互,从而更强大地表示复杂模式。
- Method: PURe在残差块的第二层用2D乘积单元替换传统卷积层,并移除非线性激活函数以保留结构信息。
- Result: 在Galaxy10 DECaLS、ImageNet和CIFAR-10数据集上,PURe均优于标准ResNet模型,表现出更高的准确性、更快的收敛速度和更强的鲁棒性。
- Conclusion: PURe在准确性、效率和鲁棒性之间取得了良好平衡,展示了乘积单元架构在计算机视觉中的潜力。
[46] MFSeg: Efficient Multi-frame 3D Semantic Segmentation
Chengjie Huang,Krzysztof Czarnecki
Main category: cs.CV
TL;DR: MFSeg是一种高效的多帧3D语义分割框架,通过特征级点云序列聚合和正则化,降低计算开销并保持高精度。
- Motivation: 现有方法在3D语义分割中存在计算开销大和冗余点采样的问题,MFSeg旨在解决这些问题。
- Method: 通过特征级点云序列聚合和正则化,结合轻量级MLP点解码器,避免冗余点上采样。
- Result: 在nuScenes和Waymo数据集上表现优于现有方法,证明了其高效性和准确性。
- Conclusion: MFSeg是一种高效且准确的3D语义分割方法,适用于点云序列处理。
[47] DeCLIP: Decoupled Learning for Open-Vocabulary Dense Perception
Junjie Wang,Bin Chen,Yulin Li,Bin Kang,Yichi Chen,Zhuotao Tian
Main category: cs.CV
TL;DR: DeCLIP通过解耦CLIP的自注意力模块,提出了一种改进密集视觉预测任务的方法,显著提升了开放词汇任务中的性能。
- Motivation: 现有密集视觉预测任务受限于预定义类别,而CLIP等视觉语言模型在开放词汇任务中表现不佳,主要因为局部特征表示不足。
- Method: DeCLIP解耦CLIP的自注意力模块,分别获取“内容”和“上下文”特征,前者与图像裁剪表示对齐以提升局部区分性,后者在DINO等模型的指导下保留空间相关性。
- Result: DeCLIP在多个开放词汇密集预测任务(如目标检测和语义分割)中显著优于现有方法。
- Conclusion: DeCLIP通过改进CLIP的局部特征表示,为开放词汇密集预测任务提供了更有效的解决方案。
[48] RLMiniStyler: Light-weight RL Style Agent for Arbitrary Sequential Neural Style Generation
Jing Hu,Chengming Feng,Shu Hu,Ming-Ching Chang,Xin Li,Xi Wu,Xin Wang
Main category: cs.CV
TL;DR: RLMiniStyler是一种基于强化学习的轻量级任意风格迁移框架,通过迭代优化和不确定性感知多任务学习策略,高效生成高质量多样化的艺术图像序列。
- Motivation: 现有深度学习方法在生成多样化风格化结果时计算成本高,因此提出一种轻量级且高效的解决方案。
- Method: 采用强化学习策略迭代指导风格迁移过程,结合不确定性感知多任务学习策略动态调整损失权重。
- Result: 在多种图像分辨率下验证了RLMiniStyler在高质量、多样化风格迁移中的优势,且计算成本更低。
- Conclusion: RLMiniStyler通过强化学习和多任务学习策略,实现了高效、轻量级的任意风格迁移。
[49] Learning Real Facial Concepts for Independent Deepfake Detection
Ming-Hui Liu,Harry Cheng,Tianyi Wang,Xin Luo,Xin-Shun Xu
Main category: cs.CV
TL;DR: 论文提出RealID方法,通过独立评估真实和伪造类别的概率,提升深度伪造检测模型的泛化能力。
- Motivation: 现有深度伪造检测模型在未见数据集上泛化能力差,主要依赖伪造痕迹且对真实人脸理解不足。
- Method: RealID包含RealC2模块(捕获真实人脸概念)和IDC模块(独立决策分类),结合MultiReal Memory存储真实人脸原型。
- Result: 在五个数据集上实验表明,RealID平均准确率提升1.74%,显著优于现有方法。
- Conclusion: RealID通过增强对真实人脸的理解和独立分类策略,有效提升了泛化能力。
[50] CAD-Llama: Leveraging Large Language Models for Computer-Aided Design Parametric 3D Model Generation
Jiahao Li,Weijian Ma,Xueyang Li,Yunzhong Lou,Guichun Zhou,Xiangdong Zhou
Main category: cs.CV
TL;DR: 该研究提出了一种名为CAD-Llama的框架,旨在增强预训练大语言模型(LLMs)生成参数化3D CAD模型的能力。通过开发分层注释管道和代码化格式,将参数化CAD命令序列转换为结构化参数化CAD代码(SPCC),并结合自适应预训练和指令调优,显著提升了生成效果。
- Motivation: 尽管LLMs在通用文本生成方面表现出色,但在生成参数化3D CAD模型方面仍面临挑战,因为LLMs在预训练阶段未接触参数化序列且缺乏对3D结构的直接认知。
- Method: 研究开发了分层注释管道和SPCC格式,将CAD命令序列转换为结构化代码,并采用自适应预训练和指令调优方法,以增强LLMs的空间知识。
- Result: 实验结果表明,CAD-Llama框架在生成参数化3D CAD模型方面显著优于现有的自回归方法和LLM基线。
- Conclusion: 该研究为LLMs在参数化3D形状生成领域的应用提供了初步探索,展示了通过结构化代码和针对性训练提升模型性能的潜力。
[51] FA-KPConv: Introducing Euclidean Symmetries to KPConv via Frame Averaging
Ali Alawieh,Alexandru P. Condurache
Main category: cs.CV
TL;DR: FA-KPConv是一种基于KPConv的神经网络架构,通过帧平均技术实现点云网络的精确不变性和/或等变性,适用于数据稀缺或旋转测试数据等挑战性场景。
- Motivation: KPConv在3D点云分析中广泛应用,但其对欧几里得变换的不变性和等变性仅能通过大数据集或数据增强近似实现。FA-KPConv旨在通过帧平均技术精确实现这些性质。
- Method: FA-KPConv通过帧平均技术包装现有的KPConv网络,使其对点云的平移、旋转和反射具有精确的不变性和/或等变性,同时不增加可学习参数或损失输入信息。
- Result: 实验表明,FA-KPConv在点云分类和配准任务中表现优异,尤其在训练数据稀缺或测试数据随机旋转的情况下。
- Conclusion: FA-KPConv通过嵌入几何先验知识,显著提升了KPConv网络的性能,特别是在具有挑战性的场景中。
[52] Efficient Flow Matching using Latent Variables
Anirban Samaddar,Yixuan Sun,Viktor Nilsson,Sandeep Madireddy
Main category: cs.CV
TL;DR: 论文提出了一种名为Latent-CFM的流匹配模型,通过利用预训练的深度隐变量模型简化训练和推理策略,显著提高了生成质量并减少了计算成本。
- Motivation: 现有流匹配模型在从简单源分布(如标准高斯分布)学习流时,未显式建模目标数据的底层结构/流形,导致学习效率低下,尤其是在高维数据集中。
- Method: 提出Latent-CFM,利用预训练的深度隐变量模型简化训练和推理策略,以处理多模态数据结构和低维流形。
- Result: 实验表明,Latent-CFM在生成质量和计算效率上优于现有流匹配模型,训练成本减少约50%,并生成更准确的物理样本。
- Conclusion: Latent-CFM通过显式建模数据流形和多模态结构,显著提升了生成模型的性能和效率。
[53] "I Can See Forever!": Evaluating Real-time VideoLLMs for Assisting Individuals with Visual Impairments
Ziyi Zhang,Zhen Sun,Zongmin Zhang,Zifan Peng,Yuemeng Zhao,Zichun Wang,Zeren Luo,Ruiting Zuo,Xinlei He
Main category: cs.CV
TL;DR: 论文首次系统评估了VideoLLMs在辅助视障人士中的效果,构建了VisAssistDaily和SafeVid数据集,发现GPT-4o表现最佳,并提出环境风险主动检测机制。
- Motivation: 视障人士在动态复杂环境中缺乏实时感知支持,现有研究多关注静态内容,需结合先进视觉理解技术提供更有效帮助。
- Method: 构建VisAssistDaily数据集,涵盖三类辅助任务;通过用户研究评估模型在封闭和开放场景的表现;提出SafeVid数据集和轮询机制以检测环境风险。
- Result: GPT-4o在任务成功率上表现最佳;当前模型在动态环境中感知潜在危险存在困难。
- Conclusion: 研究为VideoLLMs在辅助视障领域的应用提供了实践挑战和解决方案,为未来研究提供启发。
[54] Defining and Quantifying Creative Behavior in Popular Image Generators
Aditi Ramaswamy
Main category: cs.CV
TL;DR: 本文提出了一种从实用角度评估生成式AI模型创造力的定量方法,并通过实验验证其与人类直觉的一致性。
- Motivation: 生成式AI模型的创造力一直是科学争议的焦点,但缺乏明确的评估标准。本文旨在提供一种实用方法,帮助用户根据任务需求选择合适的模型。
- Method: 引入定量指标评估生成式AI模型的创造力,并在多个流行的图像生成模型上进行验证。
- Result: 实验结果表明,提出的定量指标与人类直觉一致。
- Conclusion: 本文的定量方法为评估生成式AI模型的创造力提供了实用工具,有助于用户选择适合任务的模型。
[55] Leveraging Simultaneous Usage of Edge GPU Hardware Engines for Video Face Detection and Recognition
Asma Baobaid,Mahmoud Meribout
Main category: cs.CV
TL;DR: 该论文提出了一种在边缘GPU上最大化利用硬件引擎并发和流水线技术的方法,以提高视频人脸检测和识别的性能,同时降低功耗。
- Motivation: 公共场合的视频人脸检测和识别在安全和无接触访问等应用中需求广泛,但现有方法未能充分利用硬件引擎的并发性。
- Method: 通过统一自动化框架同时利用边缘GPU的所有硬件引擎,包括视频解码、人脸检测和识别任务,优化任务分配。
- Result: 在NVIDIA Orin边缘GPU上,实现了更高的吞吐量、实时性能,并节省约5%的功耗(300 mW)。
- Conclusion: 论文展示了并发利用硬件引擎的优势,并建议进一步优化硬件设计以提升性能。
[56] HunyuanCustom: A Multimodal-Driven Architecture for Customized Video Generation
Teng Hu,Zhentao Yu,Zhengguang Zhou,Sen Liang,Yuan Zhou,Qin Lin,Qinglin Lu
Main category: cs.CV
TL;DR: HunyuanCustom是一个多模态定制视频生成框架,支持图像、音频、视频和文本条件,强调主题一致性,并在ID一致性、真实性和文本-视频对齐方面优于现有方法。
- Motivation: 现有方法在身份一致性和输入模态多样性上存在不足,HunyuanCustom旨在解决这些问题。
- Method: 基于HunyuanVideo,引入文本-图像融合模块和图像ID增强模块;针对音频和视频条件,提出AudioNet和视频驱动注入模块。
- Result: 在单主体和多主体场景中,HunyuanCustom在ID一致性、真实性和文本-视频对齐方面显著优于现有方法。
- Conclusion: 多模态条件和身份保持策略有效推动了可控视频生成的进展。
[57] Text2CT: Towards 3D CT Volume Generation from Free-text Descriptions Using Diffusion Model
Pengfei Guo,Can Zhao,Dong Yang,Yufan He,Vishwesh Nath,Ziyue Xu,Pedro R. A. S. Bassi,Zongwei Zhou,Benjamin D. Simon,Stephanie Anne Harmon,Baris Turkbey,Daguang Xu
Main category: cs.CV
TL;DR: Text2CT是一种基于扩散模型的新方法,能够从自由文本描述生成3D CT体积,优于现有方法。
- Motivation: 通过自由文本生成3D CT体积,为诊断和研究提供新的可能性。
- Method: 使用扩散模型,将医学文本编码为潜在表示并解码为高分辨率3D CT扫描。
- Result: 在保持解剖学保真度和捕捉复杂结构方面表现优异,达到最先进水平。
- Conclusion: Text2CT在诊断和数据增强方面具有广阔的应用前景。
[58] Edge-GPU Based Face Tracking for Face Detection and Recognition Acceleration
Asma Baobaid,Mahmoud Meribout
Main category: cs.CV
TL;DR: 本文提出了一种结合硬件-软件优化的方法,利用NVIDIA Jetson AGX Orin的边缘GPU,通过同时使用所有硬件引擎和集成人脸跟踪模块,显著提升了人脸检测与识别的吞吐量和能效。
- Motivation: 尽管现有AI硬件加速器在公共场合的人脸检测与识别中表现优异,但在吞吐量和功耗方面仍有改进空间。本文旨在优化这些系统。
- Method: 通过同时使用Orin GPU的所有硬件引擎,并集成人脸跟踪模块以减少冗余计算,优化处理流程。
- Result: 实验结果显示,该方法在1920x1080分辨率下达到290 FPS,同时节省约800 mW功耗。
- Conclusion: 这种硬件-软件协同设计方法为高性能边缘机器视觉系统提供了可行方案,适用于公共场合的多摄像头监控场景。
[59] DFVO: Learning Darkness-free Visible and Infrared Image Disentanglement and Fusion All at Once
Qi Zhou,Yukai Shi,Xiaojun Yang,Xiaoyu Xian,Lunjia Liao,Ruimao Zhang,Liang Lin
Main category: cs.CV
TL;DR: 论文提出了一种名为DFVO的网络,用于在黑暗环境下实现可见光和红外图像的解耦与融合,通过多任务级联方法解决了传统两阶段训练的信息熵损失问题,并在实验中表现出色。
- Motivation: 现有图像融合方法在可见光图像光照不足时,融合结果模糊且暗淡,影响自动驾驶等高层次视觉任务。
- Method: 采用级联多任务策略,包括潜在共同特征提取器(LCFE)、细节提取模块(DEM)和超交叉注意力模块(HCAM),并设计了相关损失函数。
- Result: 在LLVIP数据集上取得最佳性能(PSNR 63.258 dB,CC 0.724),生成更清晰、信息更丰富且光照均匀的融合图像。
- Conclusion: DFVO在黑暗环境下显著提升了图像融合质量,为高层次视觉任务提供了更有效的信息。
[60] RAFT: Robust Augmentation of FeaTures for Image Segmentation
Edward Humes,Xiaomin Lin,Uttej Kallakuri,Tinoosh Mohsenin
Main category: cs.CV
TL;DR: RAFT框架通过数据和特征增强以及主动学习,利用少量真实数据提升合成数据训练的模型在真实场景中的表现,并在多个基准测试中超越现有方法。
- Motivation: 解决合成数据训练的模型在真实场景中性能下降的问题(Syn2Real问题)。
- Method: 提出RAFT框架,结合数据和特征增强以及主动学习,利用少量真实数据优化模型。
- Result: 在SYNTHIA->Cityscapes和GTAV->Cityscapes基准测试中,mIoU分别提升2.1%/79.9%和0.4%/78.2%;在Cityscapes->ACDC测试中提升1.3%/73.2%。
- Conclusion: RAFT有效缓解了Syn2Real问题,并在多个场景中显著提升了模型性能。
[61] Registration of 3D Point Sets Using Exponential-based Similarity Matrix
Ashutosh Singandhupe,Sanket Lokhande,Hung Manh La
Main category: cs.CV
TL;DR: 提出了一种改进的ICP算法(ESM-ICP),通过动态调整相似性矩阵,解决了点云配准中旋转差异大和噪声干扰的问题。
- Motivation: 现有配准技术在大旋转差异或噪声干扰下表现不佳,导致3D重建不准确。
- Method: 引入高斯启发的指数加权方案,构建动态相似性矩阵,改进旋转和平移估计。
- Result: ESM-ICP在大旋转差异和非高斯噪声场景下优于传统几何方法和部分学习型方法。
- Conclusion: ESM-ICP显著提升了点云配准的鲁棒性,代码已开源。
[62] Componential Prompt-Knowledge Alignment for Domain Incremental Learning
Kunlun Xu,Xu Zou,Gang Hua,Jiahuan Zhou
Main category: cs.CV
TL;DR: KA-Prompt通过组件感知的提示-知识对齐解决了领域增量学习中提示组件不对齐的问题,显著提升了模型性能。
- Motivation: 揭示现有基于提示的领域增量学习方法中,提示组件不对齐导致知识冲突和预测性能下降的问题。
- Method: 提出KA-Prompt,分两阶段:1) 初始组件结构配置,通过贪婪搜索初始化新提示;2) 在线对齐保持,动态约束新旧提示的组件一致性。
- Result: 在领域增量学习基准测试中验证了KA-Prompt的有效性。
- Conclusion: KA-Prompt通过组件对齐显著提升了模型的学习和推理能力。
[63] Active Sampling for MRI-based Sequential Decision Making
Yuning Du,Jingshuai Liu,Rohan Dharmakumar,Sotirios A. Tsaftaris
Main category: cs.CV
TL;DR: 提出了一种多目标强化学习框架,用于从欠采样的k空间数据中进行全面、连续的诊断评估,显著减少了采样需求。
- Motivation: 尽管MRI具有卓越的诊断能力,但其作为即时诊断设备(PoC)的应用受到高成本和复杂性的限制。通过降低磁场强度并改进采样策略,可以推动MRI成为真正的PoC设备。
- Method: 采用多目标强化学习框架,在推理过程中动态适应连续决策以优化采样。训练方法通过逐步加权奖励函数识别对每个诊断目标贡献最大的样本。
- Result: 在两个膝关节病理评估任务中,该方法在疾病检测、严重程度量化和整体连续诊断方面表现优异,同时显著减少了k空间采样。
- Conclusion: 该框架为MRI成为全面且经济的PoC设备铺平了道路,代码已公开。
[64] MonoCoP: Chain-of-Prediction for Monocular 3D Object Detection
Zhihao Zhang,Abhinav Kumar,Girish Chandar Ganesan,Xiaoming Liu
Main category: cs.CV
TL;DR: MonoCoP提出了一种基于Chain-of-Prediction(CoP)的方法,通过顺序和条件预测3D属性,显著提升了单目3D物体检测的深度估计准确性。
- Motivation: 现有方法忽略了3D属性之间的内在关联,导致深度预测的准确性和稳定性受限。
- Method: MonoCoP通过三个关键设计实现:1)轻量级AttributeNet学习属性特征;2)显式链式传播特征;3)残差连接确保条件预测。
- Result: 在KITTI、Waymo和nuScenes数据集上达到SoTA性能,无需额外数据。
- Conclusion: MonoCoP通过条件化预测3D属性,显著提升了单目3D检测的准确性和稳定性。
[65] OpenVision: A Fully-Open, Cost-Effective Family of Advanced Vision Encoders for Multimodal Learning
Xianhang Li,Yanqing Liu,Haoqin Tu,Hongru Zhu,Cihang Xie
Main category: cs.CV
TL;DR: OpenVision是一个完全开放的视觉编码器家族,性能与CLIP相当或更好,填补了现有开放模型的空白。
- Motivation: 现有视觉编码器(如CLIP)的训练数据和配方未完全开放,OpenVision旨在提供一个完全开放且高效的替代方案。
- Method: 基于现有工作(如CLIPS训练框架和Recap-DataComp-1B数据集),OpenVision通过关键改进提升编码器质量。
- Result: OpenVision提供了从5.9M到632.1M参数的模型,在性能与效率之间提供灵活选择。
- Conclusion: OpenVision为多模态模型提供了开放且高效的视觉编码器选择,推动多模态模型的发展。
[66] FastMap: Revisiting Dense and Scalable Structure from Motion
Jiahao Li,Haochen Wang,Muhammad Zubair Irshad,Igor Vasiljevic,Matthew R. Walter,Vitor Campagnolo Guizilini,Greg Shakhnarovich
Main category: cs.CV
TL;DR: FastMap是一种新的全局运动结构方法,专注于速度和简洁性,解决了COLMAP和GLOMAP在大规模场景下的扩展性问题。
- Motivation: 现有方法(如COLMAP和GLOMAP)在相机姿态估计精度高,但在匹配关键点对数量大时扩展性差,主要由于并行化不足和优化步骤计算成本高。
- Method: 设计了一个完全基于GPU友好操作的SfM框架,易于并行化,且每个优化步骤的运行时间与图像对数线性相关,与关键点对或3D点无关。
- Result: 实验表明,FastMap在大规模场景下比COLMAP和GLOMAP快一到两个数量级,且姿态精度相当。
- Conclusion: FastMap通过优化并行化和计算效率,显著提升了大规模场景下的运动结构估计速度。
[67] Person Recognition at Altitude and Range: Fusion of Face, Body Shape and Gait
Feng Liu,Nicholas Chimitt,Lanqing Guo,Jitesh Jain,Aditya Kane,Minchul Kim,Wes Robbins,Yiyang Su,Dingqiang Ye,Xingguang Zhang,Jie Zhu,Siddharth Satyakam,Christopher Perry,Stanley H. Chan,Arun Ross,Humphrey Shi,Zhangyang Wang,Anil Jain,Xiaoming Liu
Main category: cs.CV
TL;DR: FarSight是一个端到端的全身人物识别系统,整合了面部、步态和体型等多模态生物特征,在恶劣条件下表现优异。
- Motivation: 解决在远距离、高视角和恶劣大气条件下(如湍流和高风速)的全身人物识别问题,适用于监控场景。
- Method: FarSight包含四个核心模块:多目标检测与跟踪、识别感知的视频恢复、模态特定的生物特征编码和质量引导的多模态融合。
- Result: 在BRIAR数据集上,FarSight在1:1验证、闭集识别和开集识别任务中分别提升了34.1%、17.8%和34.3%的性能。
- Conclusion: FarSight在恶劣现实条件下表现出色,成为生物识别领域的先进解决方案。
[68] On Path to Multimodal Generalist: General-Level and General-Bench
Hao Fei,Yuan Zhou,Juncheng Li,Xiangtai Li,Qingshan Xu,Bobo Li,Shengqiong Wu,Yaoting Wang,Junbao Zhou,Jiahao Meng,Qingyu Shi,Zhiyuan Zhou,Liangtao Shi,Minghe Gao,Daoan Zhang,Zhiqi Ge,Weiming Wu,Siliang Tang,Kaihang Pan,Yaobo Ye,Haobo Yuan,Tao Zhang,Tianjie Ju,Zixiang Meng,Shilin Xu,Liyu Jia,Wentao Hu,Meng Luo,Jiebo Luo,Tat-Seng Chua,Shuicheng Yan,Hanwang Zhang
Main category: cs.CV
TL;DR: 论文提出了General-Level评估框架,用于衡量多模态大语言模型(MLLM)的性能和通用性,并引入Synergy概念和General-Bench基准。
- Motivation: 现有MLLM评估方法未能全面衡量模型能力,无法直接判断其是否接近人类水平AI。
- Method: 提出5级General-Level框架和Synergy概念,开发General-Bench基准(含700任务和325,800实例)。
- Result: 评估了100多个MLLM,揭示了通用模型的性能排名及实现真正AI的挑战。
- Conclusion: 该框架为下一代多模态基础模型研究铺路,加速实现AGI。
physics.geo-ph
[69] On the Residual-based Neural Network for Unmodeled Distortions in Coordinate Transformation
Vinicius Francisco Rofatto,Luiz Felipe Rodrigues de Almeida,Marcelo Tomio Matsuoka,Ivandro Klein,Mauricio Roberto Veronez,Luiz Gonzaga Da Silveira Junior
Main category: physics.geo-ph
TL;DR: 提出了一种基于残差的神经校正策略,通过神经网络学习初始几何变换后的系统失真,降低模型复杂度并提升性能。
- Motivation: 传统坐标变换模型难以处理非线性和空间依赖的失真,导致地理空间应用中存在显著残差误差。
- Method: 采用残差建模策略,神经网络仅学习初始变换后的系统失真,减少模型复杂性。
- Result: 在模拟和实际地理配准任务中,该方法比直接神经网络转换和经典变换模型更准确稳定。
- Conclusion: 残差建模是提升坐标变换精度的轻量且鲁棒的替代方案。
math.OC
[70] Dynamic Network Flow Optimization for Task Scheduling in PTZ Camera Surveillance Systems
Mohammad Merati,David Castañón
Main category: math.OC
TL;DR: 提出了一种优化动态监控环境中PTZ相机调度与控制的新方法,结合卡尔曼滤波和动态网络流模型,提高实时视频捕捉效率。
- Motivation: 传统主从相机系统在动态和拥挤环境中效率不足,需改进调度和响应能力。
- Method: 集成卡尔曼滤波预测目标位置,结合网络流优化调度,引入群组跟踪节点和价值优先系统。
- Result: 仿真显示该方法提高了覆盖率,减少了等待时间和遗漏事件。
- Conclusion: 显著提升了监控系统的效率、可扩展性和适应性。
eess.IV
[71] IntelliCardiac: An Intelligent Platform for Cardiac Image Segmentation and Classification
Ting Yu Tsai,An Yu,Meghana Spurthi Maadugundu,Ishrat Jahan Mohima,Umme Habiba Barsha,Mei-Hwa F. Chen,Balakrishnan Prabhakaran,Ming-Ching Chang
Main category: eess.IV
TL;DR: IntelliCardiac是一个基于AI的4D心脏图像自动分割和疾病分类平台,准确率高,支持实时可视化和临床决策辅助。
- Motivation: 心脏影像数据的精确处理对心血管疾病的识别和管理至关重要,现有方法在分割和分类集成方面表现不足。
- Method: 结合深度学习分割模型和两步分类流程,利用公开ACDC数据集训练,支持左右心室和心肌分析,分类五种心脏疾病。
- Result: 分割模块准确率92.6%,分类模块准确率98%,超越现有方法。
- Conclusion: IntelliCardiac具有潜力成为临床心脏影像诊断的高效工具。
[72] From Spaceborn to Airborn: SAR Image Synthesis Using Foundation Models for Multi-Scale Adaptation
Solène Debuysère,Nicolas Trouvé,Nathan Letheule,Olivier Lévêque,Elise Colin
Main category: eess.IV
TL;DR: 论文提出了一种利用预训练潜在扩散模型和空间条件技术,将卫星SAR图像转换为机载SAR表示的新方法,填补了高质量SAR数据集的空白。
- Motivation: 由于高分辨率机载SAR图像获取成本高且数据稀缺,缺乏开源、标注良好的SAR数据集,限制了现有基础模型在遥感中的应用。
- Method: 利用ONERA的15年机载SAR数据构建了11万张图像的训练集,采用35亿参数的预训练潜在扩散模型,结合空间条件技术实现图像转换。
- Result: 方法成功将卫星SAR图像转换为机载SAR表示,并提升了模拟图像的真实性。
- Conclusion: 该研究为SAR成像技术的AI应用提供了新思路,填补了相关领域的空白。
[73] A Deep Learning approach for Depressive Symptoms assessment in Parkinson's disease patients using facial videos
Ioannis Kyprakis,Vasileios Skaramagkas,Iro Boura,Georgios Karamanis,Dimitrios I. Fotiadis,Zinovia Kefalopoulou,Cleanthe Spanaki,Manolis Tsiknakis
Main category: eess.IV
TL;DR: 研究使用深度学习模型(ViViT、Video Swin Tiny和3D CNN-LSTM)通过面部视频分析评估帕金森病患者的抑郁症状,Video Swin Tiny模型表现最佳。
- Motivation: 帕金森病患者的抑郁症状常被漏诊,研究旨在通过深度学习模型提高诊断准确性。
- Method: 使用三种深度学习模型分析面部视频,评估抑郁症状的存在和严重程度,并考虑药物状态的影响。
- Result: Video Swin Tiny模型在二元分类和多分类任务中表现最佳,准确率分别达94%和87.1%。
- Conclusion: 深度学习模型,尤其是Video Swin Tiny,可有效用于帕金森病患者抑郁症状的评估。
[74] Prototype-Based Information Compensation Network for Multi-Source Remote Sensing Data Classification
Feng Gao,Sheng Liu,Chuanzheng Gong,Xiaowei Zhou,Jiayi Wang,Junyu Dong,Qian Du
Main category: eess.IV
TL;DR: PICNet提出了一种基于HSI和SAR/LiDAR数据的多源遥感数据联合分类方法,通过频率交互模块和原型补偿模块解决特征耦合与信息探索问题。
- Motivation: 多源遥感数据联合分类面临特征耦合与互补信息探索不一致的挑战,需要更高效的方法。
- Method: 设计频率交互模块增强特征提取中的频率耦合,并通过原型补偿模块建模全局互补信息。
- Result: 在三个公共数据集上实验表明,PICNet显著优于现有方法。
- Conclusion: PICNet通过频率交互和原型补偿有效提升了多源遥感数据分类的准确性和可靠性。
[75] 3D Brain MRI Classification for Alzheimer Diagnosis Using CNN with Data Augmentation
Thien Nhan Vo,Bac Nam Ho,Thanh Xuan Truong
Main category: eess.IV
TL;DR: 使用3D卷积神经网络对T1加权脑MRI扫描进行分类,区分健康与阿尔茨海默症,通过噪声注入和交叉验证,模型表现优异。
- Motivation: 探索简单数据增强方法在3D MRI分类中的有效性,并推动未来对高级增强方法和架构的研究。
- Method: 开发了包含3D卷积、池化、批归一化、ReLU层和Sigmoid输出的神经网络,采用噪声注入和五折交叉验证。
- Result: 测试集准确率0.912,ROC曲线下面积0.961,灵敏度和特异性均超过0.90。
- Conclusion: 简单增强方法有效,未来可探索更先进的增强方法和架构如3D U-Net和视觉变换器。
cs.IR
[76] OBD-Finder: Explainable Coarse-to-Fine Text-Centric Oracle Bone Duplicates Discovery
Chongsheng Zhang,Shuwen Wu,Yingqi Chen,Matthias Aßenmacher,Christian Heumann,Yi Men,Gaojuan Fan,João Gama
Main category: cs.IR
TL;DR: 提出了一种结合无监督低层关键点匹配与高层文本内容匹配的甲骨文重复发现框架,显著提升了检索效率和准确性。
- Motivation: 甲骨文重复识别是甲骨文研究的基础问题,传统方法效率低且易遗漏。
- Method: 采用渐进式框架,结合低层关键点匹配和高层文本内容匹配,优化候选重复甲骨文的排序。
- Result: 在Top-5和Top-15检索中表现最佳,计算效率显著提升,并发现60多对新重复甲骨文。
- Conclusion: 该方法高效且具有语义解释性,为甲骨文研究提供了新工具。
cs.CL
[77] Calibrating Uncertainty Quantification of Multi-Modal LLMs using Grounding
Trilok Padhi,Ramneet Kaur,Adam D. Cobb,Manoj Acharya,Anirban Roy,Colin Samplawski,Brian Matejek,Alexander M. Berenbeim,Nathaniel D. Bastian,Susmit Jha
Main category: cs.CL
TL;DR: 提出一种针对多模态大语言模型(LLM)的校准不确定性量化(UQ)新方法,通过结合跨模态一致性和自一致性改进校准效果。
- Motivation: 现有UQ方法依赖LLM在多样设置下生成的多响应一致性,但在LLM持续错误时仍报告高置信度,导致校准不佳。
- Method: 利用跨模态一致性(将文本响应与视觉输入关联)和温度缩放技术校准置信度。
- Result: 在医疗问答(Slake)和视觉问答(VQAv2)任务中,框架显著提升了校准效果。
- Conclusion: 新方法通过跨模态一致性和温度缩放,显著改善了多模态模型的校准性能。
cs.AI
[78] Design description of Wisdom Computing Persperctive
TianYi Yu
Main category: cs.AI
TL;DR: 开发了一个结合AI和可视化动画的手写矩阵识别与计算过程展示系统,帮助学生理解数学计算步骤。
- Motivation: 解决学生在学习数学时因抽象公式和复杂计算步骤难以理解的问题。
- Method: 使用Mamba骨干网络和YOLO模型进行手写矩阵识别与重构,结合CoordAttention机制优化空间定位,并通过Manim动画引擎展示计算步骤。
- Result: 系统能动态生成动画,模块化强,灵活性高,实时响应学生需求,提升学习效果。
- Conclusion: 该系统通过创新交互方式,生动展示数学计算过程,帮助学生深入理解,实现“每一步都懂”的学习体验。
cs.CY
[79] Coverage Biases in High-Resolution Satellite Imagery
Vadim Musienko,Axel Jacquet,Ingmar Weber,Till Koebe
Main category: cs.CY
TL;DR: 卫星图像覆盖存在地理和社会经济偏差,远离赤道地区更频繁被访问,欠发达地区历史图像较少,地缘政治事件也影响图像可用性。
- Motivation: 探讨卫星图像在全球范围内的覆盖是否公平,揭示物理、社会经济和地缘政治因素对图像可用性的影响。
- Method: 分析主要卫星星座的轨道数据,评估30天内不同地区的重访频率;收集历史图像元数据,结合社会经济指标分析;通过加沙、苏丹和乌克兰的案例研究地缘政治影响。
- Result: 远离赤道地区重访频率更高;欠发达和人口稀少地区历史图像较少;地缘政治事件显著影响图像可用性。
- Conclusion: 卫星图像的数字化红利在全球分布不均,需关注覆盖偏差的公平性。
[80] Deepfakes on Demand: the rise of accessible non-consensual deepfake image generators
Will Hawkins,Chris Russell,Brent Mittelstadt
Main category: cs.CY
TL;DR: 研究发现,文本到图像(T2I)模型导致深度伪造(deepfake)模型在线上的可访问性急剧增加,主要针对女性,且意图生成非自愿亲密图像(NCII)。
- Motivation: 探讨深度伪造模型在线上的可访问性及其对社会的影响,尤其是对个人隐私和安全的威胁。
- Method: 通过分析Hugging Face和Civitai两个平台上的数千个公开可下载模型变体的元数据,研究深度伪造模型的流行程度和技术特点。
- Result: 发现近35,000个公开可下载的深度伪造模型变体,主要托管在Civitai上,下载量达1,500万次,96%针对女性,且多用于生成NCII。
- Conclusion: 研究强调迫切需要采取更多行动打击深度伪造和NCII的生成与传播。
cs.GR
[81] TerraFusion: Joint Generation of Terrain Geometry and Texture Using Latent Diffusion Models
Kazuki Higo,Toshiki Kanai,Yuki Endo,Yoshihiro Kanamori
Main category: cs.GR
TL;DR: 提出了一种基于潜在扩散模型的方法,联合生成地形高度图和纹理,并通过外部适配器实现用户控制。
- Motivation: 现有方法通常单独生成高度图或纹理,未能充分捕捉二者之间的相关性,影响真实感。
- Method: 使用潜在扩散模型无监督生成配对高度图和纹理,再通过监督学习训练外部适配器,支持手绘草图控制。
- Result: 实验表明,该方法能直观生成地形,同时保持高度图与纹理的相关性。
- Conclusion: 该方法有效解决了地形生成中高度图与纹理的联合生成问题,提升了真实感和用户控制性。
[82] Person-In-Situ: Scene-Consistent Human Image Insertion with Occlusion-Aware Pose Control
Shun Masuda,Yuki Endo,Yoshihiro Kanamori
Main category: cs.GR
TL;DR: 论文提出两种方法,通过3D人体模型控制姿势,并利用潜在扩散模型合成人物,解决现有方法在遮挡和深度放置上的不足。
- Motivation: 现有方法在将人物合成到场景图像时,难以处理遮挡问题且无法自然控制人物深度和姿势。
- Method: 提出两种方法:1)两阶段方法,先通过监督学习生成场景深度图,再合成人物;2)直接学习遮挡并合成人物,无需显式深度监督。
- Result: 两种方法在定量和定性评估中均优于现有方法,能更好地保持场景一致性并准确反映遮挡和用户指定姿势。
- Conclusion: 新方法显著提升了人物合成的自然性和可控性,尤其在遮挡和深度处理方面表现优异。
[83] Geometry-Aware Texture Generation for 3D Head Modeling with Artist-driven Control
Amin Fadaeinejad,Abdallah Dib,Luiz Gustavo Hafemann,Emeline Got,Trevor Anderson,Amaury Depierre,Nikolaus F. Troje,Marcus A. Brubaker,Marc-André Carbonneau
Main category: cs.GR
TL;DR: 提出了一种新颖的框架,通过几何感知的纹理合成流程,为艺术家提供对生成3D头部的直观控制,简化虚拟角色创建过程。
- Motivation: 为艺术家提供更直观的控制工具,减少创建符合精确艺术愿景的3D头部资产的劳动强度。
- Method: 采用几何感知的纹理合成流程,学习不同人口统计特征下头部几何与皮肤纹理的关联,提供三个层级的艺术控制。
- Result: 实验表明,该方法能生成多样化的结果,具有干净的几何结构,并展示了皮肤色调调整和细节编辑等实际应用。
- Conclusion: 该集成方法旨在简化虚拟角色创作中的艺术工作流程,提供高效的编辑工具。
[84] TetWeave: Isosurface Extraction using On-The-Fly Delaunay Tetrahedral Grids for Gradient-Based Mesh Optimization
Alexandre Binninger,Ruben Wiersma,Philipp Herholz,Olga Sorkine-Hornung
Main category: cs.GR
TL;DR: TetWeave是一种新型等值面表示方法,通过动态构建四面体网格和优化方向性有符号距离,实现高质量、自适应的网格生成。
- Motivation: 解决传统预定义网格在灵活性和内存效率上的不足,提供更优的网格优化方案。
- Method: 动态生成四面体网格(Delaunay三角剖分),结合方向性有符号距离优化,支持重采样策略以提升网格质量。
- Result: 生成的网格具有水密性、二维流形和无交叉特性,内存占用近线性增长,适用于多种图形和视觉任务。
- Conclusion: TetWeave在灵活性和效率上显著优于传统方法,适用于复杂的三维重建和几何处理任务。
[85] PrimitiveAnything: Human-Crafted 3D Primitive Assembly Generation with Auto-Regressive Transformer
Jingwen Ye,Yuze He,Yanning Zhou,Yiqin Zhu,Kaiwen Xiao,Yong-Jin Liu,Wei Yang,Xiao Han
Main category: cs.GR
TL;DR: PrimitiveAnything是一个新框架,将形状基元抽象重新定义为基元组装生成任务,通过大规模人类制作的抽象直接学习基元组装过程。
- Motivation: 现有基元抽象方法要么依赖几何优化,语义理解有限,要么从小规模、类别特定的数据集中学习,难以泛化到多样形状类别。
- Method: 提出形状条件基元变换器用于自回归生成,以及无歧义参数化方案统一表示多种基元类型。
- Result: 实验表明,PrimitiveAnything能生成高质量基元组装,更符合人类感知,同时保持几何保真度。
- Conclusion: 该框架适用于多种3D应用,并有望支持游戏中的基元用户生成内容。
cs.RO
[86] OpenHelix: A Short Survey, Empirical Analysis, and Open-Source Dual-System VLA Model for Robotic Manipulation
Can Cui,Pengxiang Ding,Wenxuan Song,Shuanghao Bai,Xinyang Tong,Zirui Ge,Runze Suo,Wanqi Zhou,Yang Liu,Bofang Jia,Han Zhao,Siteng Huang,Donglin Wang
Main category: cs.RO
TL;DR: 总结并比较现有双系统架构设计,进行系统性评估,提供低成本开源模型。
- Motivation: 解决双系统VLA架构缺乏开源工作的问题,促进性能分析与优化。
- Method: 总结比较现有双系统架构设计,进行系统性实证评估。
- Result: 提供低成本开源模型,并持续更新实验结论与性能改进模型。
- Conclusion: 为双系统VLA架构研究提供开源支持,推动进一步探索。
[87] Scalable Aerial GNSS Localization for Marine Robots
Shuo Wen,Edwin Meriaux,Mariana Sosa Guzmán,Charlotte Morissette,Chloe Si,Bobak Baghi,Gregory Dudek
Main category: cs.RO
TL;DR: 提出了一种利用配备GNSS的无人机定位水面附近海洋机器人的新方法,解决了传统GNSS和现有定位技术的局限性。
- Motivation: 传统GNSS在水面定位中因信号反射和高成本效果不佳,现有技术如惯性导航、DVL等存在误差累积和高计算复杂度问题。
- Method: 使用配备GNSS的无人机对水面附近的海洋机器人进行跟踪和定位。
- Result: 实验表明,该方法能实现单机器人及多机器人的高精度定位。
- Conclusion: 无人机辅助的GNSS定位为水面机器人提供了一种高效且可扩展的解决方案。
[88] RGB-Event Fusion with Self-Attention for Collision Prediction
Pietro Bonazzi,Christian Vogt,Michael Jost,Haotong Qin,Lyes Khacef,Federico Paredes-Valles,Michele Magno
Main category: cs.RO
TL;DR: 提出了一种基于神经网络的无人机动态障碍物避障框架,结合RGB和事件视觉传感器,通过自注意力融合提升预测精度。
- Motivation: 确保自主机器人在动态环境中的实时避障安全性。
- Method: 采用双编码器分支分别处理RGB和事件数据,通过自注意力融合,并在ABCD数据集上验证。
- Result: 融合模型在50Hz下预测精度平均提升1%,远距离提升10%,但内存和计算量显著增加;事件模型在计算成本相近时优于RGB模型。
- Conclusion: 多模态感知在机器人应用中需权衡精度与计算效率,事件相机是RGB的有力替代。
eess.AS
[89] EchoInk-R1: Exploring Audio-Visual Reasoning in Multimodal LLMs via Reinforcement Learning
Zhenghao Xing,Xiaowei Hu,Chi-Wing Fu,Wenhai Wang,Jifeng Dai,Pheng-Ann Heng
Main category: eess.AS
TL;DR: EchoInk-R1是一个基于强化学习的框架,用于提升多模态大语言模型(MLLMs)在音频和视觉信号的结构化跨模态推理能力。
- Motivation: 现有的MLLMs在跨模态推理(尤其是音频和视觉信号的整合)方面表现不佳,因此需要一种方法来增强这种能力。
- Method: 基于Qwen2.5-Omni-7B模型,使用Group Relative Policy Optimization(GRPO)优化,通过强化学习微调解决同步音频-图像对的多选题问答任务。
- Result: EchoInk-R1-7B在验证集上达到85.77%的准确率,优于基础模型的80.53%,且仅需562步强化学习。
- Conclusion: 轻量级强化学习微调能有效提升MLLMs的跨模态推理能力,EchoInk-R1是首个通过强化学习统一音频、视觉和文本模态的框架。
cs.HC
[90] Facilitating Video Story Interaction with Multi-Agent Collaborative System
Yiwen Zhang,Jianing Hao,Zhan Wang,Hongling Sheng,Wei Zeng
Main category: cs.HC
TL;DR: 提出基于用户意图的交互系统,结合VLM、RAG和MAS,实现视频故事的个性化互动体验。
- Motivation: 现有方法局限于用户选择和预设叙事,缺乏定制化,需提升互动性和个性化。
- Method: 分三阶段:1) 视频故事处理(VLM+先验知识);2) 多空间聊天(MAS生成角色);3) 场景定制(扩展和可视化故事场景)。
- Result: 应用于《哈利·波特》系列,系统成功展现角色社交行为和成长,提升互动体验。
- Conclusion: 系统通过多模态理解和动态交互,有效增强视频故事的个性化互动。
cs.LG
[91] AI-driven multi-source data fusion for algal bloom severity classification in small inland water bodies: Leveraging Sentinel-2, DEM, and NOAA climate data
Ioannis Nasios
Main category: cs.LG
TL;DR: 该研究提出了一种结合多源遥感数据和人工智能的高效方法,用于检测有害藻华,具有全球应用潜力。
- Motivation: 有害藻华对内陆水质和公共健康构成威胁,亟需高效、准确且经济的检测方法。
- Method: 整合Sentinel-2光学影像、DEM和NOAA气候数据,结合树模型和神经网络进行藻华严重性分类。
- Result: 树模型表现优异,加入神经网络增强了鲁棒性,展示了深度学习处理多源遥感数据的能力。
- Conclusion: 该方法通过高分辨率卫星影像和AI分析动态监测藻华,代码开源,适用于全球环境挑战。
[92] When Dynamic Data Selection Meets Data Augmentation
Suorong Yang,Peng Ye,Furao Shen,Dongzhan Zhou
Main category: cs.LG
TL;DR: 提出了一种新的在线数据训练框架,首次统一动态数据选择和增强,实现训练效率和性能提升。
- Motivation: 动态数据选择和增强通常未联合优化,导致无法充分利用其协同效应。
- Method: 通过估计样本的局部密度和多模态语义一致性联合分布,有针对性地选择适合增强的样本,同时抑制噪声或模糊数据。
- Result: 在多个基准数据集和架构上优于现有方法,例如在ImageNet-1k上减少50%训练成本且性能无损。
- Conclusion: 该方法不仅提升训练效率,还增强噪声抵抗力和模型鲁棒性,具有实际应用价值。
[93] Merging and Disentangling Views in Visual Reinforcement Learning for Robotic Manipulation
Abdulaziz Almuzairee,Rohan Patil,Dwait Bhatt,Henrik I. Christensen
Main category: cs.LG
TL;DR: 提出了一种名为MAD的算法,通过合并多视角数据提升样本效率,同时结合单视角特征以实现轻量部署和鲁棒策略。
- Motivation: 多摄像头视觉伺服在操纵任务中具有挑战性,计算成本高且部署昂贵。
- Method: 采用Merge And Disentanglement (MAD)算法,合并多视角数据并增强单视角特征。
- Result: 在Meta-World和ManiSkill3中验证了算法的效率和鲁棒性。
- Conclusion: MAD算法有效解决了多视角视觉伺服的挑战,实现了高效和轻量部署。
Powered by Deepseek & arXiv Daily AI Enhanced