以下论文的arXiv类型标签包含:cs.CV
Powered by Deepseek & arXiv Daily AI Enhanced
cs.CV
[1] Graph-based Online Monitoring of Train Driver States via Facial and Skeletal Features
Olivia Nocentini,Marta Lagomarsino,Gokhan Solak,Younggeol Cho,Qiyi Tong,Marta Lorenzini,Arash Ajoudani
Main category: cs.CV
TL;DR: 该研究提出了一种基于行为分析的在线监测系统,利用定制化DGNN对火车司机状态进行分类,结合面部和骨骼特征实现最高准确率。
- Motivation: 解决传统系统(如死机开关)在铁路安全中仅提供有限警觉性检查的问题。
- Method: 使用定制的DGNN模型,通过消融研究比较三种特征配置(骨骼、面部及两者结合)优化输入表示。
- Result: 结合面部和骨骼特征的模型在三分类中准确率达80.88%,二分类警觉性检测准确率超过99%。
- Conclusion: 该研究通过视觉技术提升了铁路安全的在线监测能力,并首次引入模拟病理状态的数据集。
[2] OptiGait-LGBM: An Efficient Approach of Gait-based Person Re-identification in Non-Overlapping Regions
Md. Sakib Hassan Chowdhury,Md. Hafiz Ahamed,Bishowjit Paul,Sarafat Hussain Abhi,Abu Bakar Siddique,Md. Robius Sany
Main category: cs.CV
TL;DR: 提出了一种基于骨骼模型的OptiGait-LGBM模型,用于在复杂户外环境中进行步态识别,解决了现有方法在非约束条件下的性能下降问题。
- Motivation: 现有步态识别系统在非约束环境下性能下降,缺乏同时解决户外环境、光照变化等挑战的数据集。
- Method: 使用骨骼模型提取关键点,构建非序列数据集,开发OptiGait-LGBM分类模型,并引入RUET-GAIT基准数据集。
- Result: OptiGait-LGBM在准确性、内存使用和训练时间上优于随机森林和CatBoost。
- Conclusion: 该方法为现实场景提供了一种低成本、高效的内存步态识别解决方案。
[3] SparseMeXT Unlocking the Potential of Sparse Representations for HD Map Construction
Anqing Jiang,Jinhao Chai,Yu Gao,Yiru Wang,Yuwen Heng,Zhigang Sun,Hao Sun,Zezhong Zhao,Li Sun,Jian Zhou,Lijuan Zhu,Shugong Xu,Hao Zhao
Main category: cs.CV
TL;DR: 论文提出了一种优化的稀疏表示方法,通过专用网络架构、稀疏-密集分割辅助任务和物理先验去噪模块,显著提升了高精地图构建的性能和效率。
- Motivation: 稀疏表示在高精地图构建中效率更高,但现有方法因缺乏针对性设计而性能不足。本文旨在通过系统性改进,使稀疏方法超越密集方法。
- Method: 设计了专用网络架构用于稀疏特征提取,引入稀疏-密集分割辅助任务以利用几何和语义线索,并采用物理先验去噪模块优化预测。
- Result: 在nuScenes数据集上达到SOTA性能,SparseMeXt-Tiny(55.5% mAP, 32 fps)、SparseMeXt-Base(65.2% mAP)和SparseMeXt-Large(68.9% mAP, 20 fps)。
- Conclusion: 稀疏方法在高精地图构建中具有巨大潜力,挑战了密集表示的传统依赖,重新定义了效率与性能的权衡。
[4] TUGS: Physics-based Compact Representation of Underwater Scenes by Tensorized Gaussian
Shijie Lian,Ziyi Zhang,Laurence Tianruo Yang and,Mengyu Ren,Debin Liu,Hua Li
Main category: cs.CV
TL;DR: 提出了一种名为TUGS的方法,用于高效解决水下3D场景重建中的复杂光传播与物体表面交互问题,同时减少参数和计算成本。
- Motivation: 水下3D场景重建对机器人感知和导航至关重要,但现有方法难以准确建模光传播、水体介质与物体表面的复杂交互,且计算成本高。
- Method: TUGS采用轻量化的张量化高阶高斯模型和基于物理的自适应水体估计模块(AME),模拟水下光衰减和背散射效应。
- Result: TUGS在真实水下数据集上表现出色,能以更快的渲染速度和更低的内存占用生成高质量图像。
- Conclusion: TUGS通过高效参数化实现了优越的重建质量,特别适合内存受限的水下无人机应用。
[5] Towards Understanding Deep Learning Model in Image Recognition via Coverage Test
Wenkai Li,Xiaoqi Li,Yingjie Mao,Yishun Wang
Main category: cs.CV
TL;DR: 本文研究了深度神经网络(DNN)中四种覆盖度指标的关系与模式,通过实验分析了模型深度、配置信息与覆盖度的关联,并探讨了数据集大小对覆盖度的影响。
- Motivation: 随着DNN的广泛应用,其安全测试成为研究重点,但目前缺乏对不同覆盖度指标的实证研究,尤其是模型深度、配置信息与覆盖度之间的关系。
- Method: 选择LeNet、VGG和ResNet三种架构及10种不同深度的模型(5至54层),比较分析了四种覆盖度指标(主要功能、边界、层次和结构覆盖)的关系,并研究了数据集大小对覆盖度的影响。
- Result: 实验揭示了模型深度、配置信息与覆盖度指标之间的具体关系,并发现数据集大小对覆盖度有显著影响。
- Conclusion: 本文为DNN安全测试提供了实证依据,并提出了三个未来研究方向。
[6] Towards SFW sampling for diffusion models via external conditioning
Camilo Carvajal Reyes,Joaquín Fontbona,Felipe Tobar
Main category: cs.CV
TL;DR: 本文提出了一种基于外部多模态模型的SFW采样器,用于防止基于分数的生成模型(SBM)生成不安全内容,如暴力或非自愿裸露图像。该方法通过条件轨迹校正步骤引导样本远离不期望区域,并支持用户自定义NSFW类别。实验验证了其有效性,且对图像质量影响较小。
- Motivation: 尽管SBM在图像合成领域表现卓越,但存在生成不安全内容的风险。现有方法多依赖于模型自身知识或微调,本文探索利用外部多模态模型确保生成内容的安全性。
- Method: 提出SFW采样器,结合条件轨迹校正步骤和多模态模型(如CLIP)作为条件源,引导样本远离不期望区域,并支持用户自定义NSFW类别。
- Result: 实验表明,SFW采样器有效减少不安全内容的生成,且对图像质量影响较小。在Stable Diffusion上的测试验证了其与微调方法的竞争力。
- Conclusion: SFW采样器适用于对齐的SBM模型,展示了利用模型无关条件防止不良图像的潜力。
[7] Generative AI for Urban Planning: Synthesizing Satellite Imagery via Diffusion Models
Qingyi Wang,Yuebing Liang,Yunhan Zheng,Kaiyuan Xu,Jinhua Zhao,Shenhao Wang
Main category: cs.CV
TL;DR: 论文提出了一种基于Stable Diffusion和ControlNet的生成式AI方法,用于生成高保真卫星图像,并结合土地利用描述和基础设施信息,解决了现有方法难以生成大规模实用设计的问题。
- Motivation: 生成式AI为城市规划提供了自动化布局和灵活设计探索的新机会,但现有方法难以生成大规模且实用的设计。
- Method: 采用Stable Diffusion模型,结合ControlNet,利用OpenStreetMap的土地利用和约束信息生成卫星图像。
- Result: 模型在三个美国城市的数据上表现优异,生成多样且真实的城市景观,FID和KID得分高,且用户评估显示生成图像优于真实图像。
- Conclusion: 该研究为可控城市图像生成设定了基准,展示了生成式AI在提升规划流程和公众参与方面的潜力。
[8] Crowd Scene Analysis using Deep Learning Techniques
Muhammad Junaid Asif
Main category: cs.CV
TL;DR: 论文提出了一种结合自监督训练和多列CNN的模型,用于解决人群计数中的标注数据需求高和场景复杂性问题;同时提出了一种基于VGG19的时空模型,用于人群异常检测。
- Motivation: 解决人群计数中数据标注成本高和场景复杂性(如遮挡、非均匀密度等)的挑战,以及人群异常检测中光照、环境条件等问题。
- Method: 1. 人群计数:采用自监督训练和多列CNN结合的方法;2. 异常检测:基于VGG19的时空模型,结合CNN提取空间特征和LSTM提取时间特征。
- Result: 在ShanghaiTech和UCFQNRF数据集上表现优于其他方法(MAE和MSE指标);在Hockey Fight和SCVD数据集上异常检测性能优于现有方法。
- Conclusion: 提出的方法在人群计数和异常检测任务中均表现出色,解决了数据标注和场景复杂性问题。
[9] Generative AI for Autonomous Driving: Frontiers and Opportunities
Yuping Wang,Shuo Xing,Cui Can,Renjie Li,Hongyuan Hua,Kexin Tian,Zhaobin Mo,Xiangbo Gao,Keshu Wu,Sulong Zhou,Hengxu You,Juntong Peng,Junge Zhang,Zehao Wang,Rui Song,Mingxuan Yan,Walter Zimmer,Xingcheng Zhou,Peiran Li,Zhaohan Lu,Chia-Ju Chen,Yue Huang,Ryan A. Rossi,Lichao Sun,Hongkai Yu,Zhiwen Fan,Frank Hao Yang,Yuhao Kang,Ross Greer,Chenxi Liu,Eun Hak Lee,Xuan Di,Xinyue Ye,Liu Ren,Alois Knoll,Xiaopeng Li,Shuiwang Ji,Masayoshi Tomizuka,Marco Pavone,Tianbao Yang,Jing Du,Ming-Hsuan Yang,Hua Wei,Ziran Wang,Yang Zhou,Jiachen Li,Zhengzhong Tu
Main category: cs.CV
TL;DR: 这篇综述探讨了生成式人工智能(GenAI)在自动驾驶领域的应用,涵盖了生成模型原理、前沿应用及挑战,并提出了未来研究方向。
- Motivation: GenAI因其在内容生成、推理和规划方面的能力,被视为实现完全自动驾驶(Level 5)的关键技术。本文旨在全面分析GenAI在自动驾驶中的角色。
- Method: 文章总结了现代生成模型(如VAEs、GANs、扩散模型和LLMs)的原理,并探讨了它们在图像、LiDAR、轨迹等生成任务中的应用。
- Result: GenAI在自动驾驶中的应用包括合成数据生成、端到端驾驶策略、数字孪生系统等,但也面临泛化能力、安全性、伦理等挑战。
- Conclusion: 本文为研究者、工程师和政策制定者提供了GenAI与自动驾驶融合的前瞻性参考,并提出了理论保障、信任指标等未来研究方向。
[10] Intelligent Road Anomaly Detection with Real-time Notification System for Enhanced Road Safety
Ali Almakhluk,Uthman Baroudi,Yasser El-Alfy
Main category: cs.CV
TL;DR: 开发了一个基于树莓派和深度学习的系统,用于实时检测和分类道路损坏(如坑洞和裂缝),并通过云服务通知相关部门和车辆,以提高交通安全。
- Motivation: 道路损坏(如坑洞和裂缝)是交通事故的常见原因,亟需一种主动检测和预警系统来提升道路安全性。
- Method: 系统结合树莓派、摄像头模块、深度学习模型和云服务,实时检测、分类道路损坏并传输数据,同时向附近车辆发送警告信号。
- Result: 系统能够实时检测和分类道路损坏,并通过云服务和车辆警告信号实现快速响应,减少事故风险。
- Conclusion: 该创新解决方案通过主动检测和预警,有效提升了道路安全性,为社区创造了更安全的交通环境。
[11] Optimizing Neuro-Fuzzy and Colonial Competition Algorithms for Skin Cancer Diagnosis in Dermatoscopic Images
Hamideh Khaleghpour,Brett McKinney
Main category: cs.CV
TL;DR: AI结合图像处理和机器学习算法,用于皮肤癌早期诊断,准确率达94%。
- Motivation: 皮肤癌发病率上升,公众意识不足且临床专家短缺,亟需先进诊断辅助工具。
- Method: 融合图像处理技术和机器学习算法(神经模糊和殖民竞争方法),应用于ISIC数据库的皮肤镜图像。
- Result: 在560张图像数据集上达到94%的准确率。
- Conclusion: 该方法在黑色素瘤早期检测中具有潜力,对皮肤癌诊断有重要意义。
[12] Learning Cocoercive Conservative Denoisers via Helmholtz Decomposition for Poisson Inverse Problems
Deliang Wei,Peng Chen,Haobo Xu,Jiale Yao,Fang Li,Tieyong Zeng
Main category: cs.CV
TL;DR: 提出了一种新型的CoCo去噪器,解决了传统PnP方法在泊松逆问题中的局限性,并通过实验验证了其优越性。
- Motivation: 传统PnP方法在泊松逆问题中因假设条件不满足而表现不佳,需要一种更灵活的去噪器。
- Method: 提出CoCo去噪器,结合哈密顿正则化和谱正则化训练策略,确保其保守性和共轭性。
- Result: CoCo去噪器是弱凸函数的邻近算子,PnP方法全局收敛,实验显示其在视觉和定量指标上优于相关方法。
- Conclusion: CoCo去噪器为泊松逆问题提供了有效解决方案,扩展了PnP方法的应用范围。
[13] Behind Maya: Building a Multilingual Vision Language Model
Nahid Alam,Karthik Reddy Kanjula,Surya Guthikonda,Timothy Chung,Bala Krishna S Vegesna,Abhipsha Das,Anthony Susevski,Ryan Sze-Yin Chan,S M Iftekhar Uddin,Shayekh Bin Islam,Roshan Santhosh,Snegha A,Drishti Sharma,Chen Liu,Isha Chaturvedi,Genta Indra Winata,Ashvanth. S,Snehanshu Mukherjee,Alham Fikri Aji
Main category: cs.CV
TL;DR: Maya是一个开源的跨语言视觉语言模型,旨在解决低资源语言和文化多样性问题。
- Motivation: 现有视觉语言模型在低资源语言和文化多样性方面表现不足。
- Method: 基于LLaVA数据集构建了八种语言的图像-文本预训练数据集,并开发了支持这些语言的多语言模型。
- Result: Maya提升了视觉语言任务中的文化和语言理解能力。
- Conclusion: Maya为低资源语言和文化多样性提供了有效的解决方案。
[14] Differentiable Channel Selection in Self-Attention For Person Re-Identification
Yancheng Wang,Nebojsa Jojic,Yingzhen Yang
Main category: cs.CV
TL;DR: 提出了一种新型注意力模块DCS-Attention,通过可微分通道选择提升特征提取能力,显著提高了行人重识别任务的性能。
- Motivation: 基于信息瓶颈(IB)原则,提出一种可微分通道选择方法,以优化注意力权重计算中的信息通道选择。
- Method: 设计了DCS-Attention模块,支持固定或可学习骨干网络(DCS-FB和DCS-DNAS),并推导了IB损失的变分上界,通过SGD优化。
- Result: 在多个行人重识别基准测试中,DCS-Attention显著提升了DNN的预测精度。
- Conclusion: DCS-Attention能有效选择信息丰富的通道,学习判别性特征,适用于行人重识别任务。
[15] Prioritizing Image-Related Tokens Enhances Vision-Language Pre-Training
Yangyi Chen,Hao Peng,Tong Zhang,Heng Ji
Main category: cs.CV
TL;DR: PRIOR提出了一种新的视觉语言预训练方法,通过差异加权NTP损失来优先处理与图像相关的标记,减少噪声拟合和幻觉风险。
- Motivation: 标准LVLMs预训练中,NTP方法会拟合噪声并增加幻觉风险,因为只有少量标记与视觉内容直接相关。
- Method: PRIOR利用文本参考LLM为每个标记分配重要性分数,调整NTP损失权重,优先处理图像相关标记。
- Result: 在两种LVLMs设置下,PRIOR相比NTP分别实现了19%和8%的相对改进,并展示了更好的扩展性。
- Conclusion: PRIOR通过差异加权有效提升了视觉语言模型的性能和扩展潜力。
[16] Towards Adaptive Meta-Gradient Adversarial Examples for Visual Tracking
Wei-Long Tian,Peng Gao,Xiao Liu,Long Xu,Hamido Fujita,Hanan Aljuai,Mao-Li Wang
Main category: cs.CV
TL;DR: 提出了一种自适应元梯度对抗攻击方法(AMGA),用于揭示视觉跟踪器的安全漏洞,通过多模型集成和元学习策略提升对抗样本的迁移性和攻击效果。
- Motivation: 深度学习模型的安全问题影响了视觉跟踪方法在实际场景中的可靠应用,需通过有效的对抗攻击揭示其漏洞。
- Method: AMGA结合多模型集成、元学习、动量机制和高斯平滑,随机选择模型构建多样场景,迭代优化梯度方向,缩小白盒与黑盒攻击差距。
- Result: 在OTB2015、LaSOT和GOT-10k等数据集上,AMGA显著提升了对抗样本的攻击性能、迁移性和欺骗性。
- Conclusion: AMGA为视觉跟踪器的安全漏洞研究提供了有效工具,代码和数据已开源。
[17] Multimodal Fusion of Glucose Monitoring and Food Imagery for Caloric Content Prediction
Adarsh Kumar
Main category: cs.CV
TL;DR: 提出了一种多模态深度学习框架,结合CGM数据、人口统计/微生物组数据和餐前食物图像,显著提高了热量估计的准确性。
- Motivation: 准确估计热量摄入对2型糖尿病管理至关重要,但现有方法(如CGM)因个体和餐食差异难以全面捕捉营养信息。
- Method: 采用注意力编码和卷积特征提取处理食物图像,多层感知机处理CGM和微生物组数据,并通过后期融合策略联合推理。
- Result: 在40多名参与者的数据集上,模型的热量估计误差(RMSRE)为0.2544,比基线模型提升50%以上。
- Conclusion: 多模态传感技术有望提升慢性病管理中自动化饮食评估工具的效果。
[18] 2D-3D Attention and Entropy for Pose Robust 2D Facial Recognition
J. Brennan Peace,Shuowen Hu,Benjamin S. Riggan
Main category: cs.CV
TL;DR: 论文提出了一种新的域自适应框架,通过2D图像推断3D点云的姿态不变性,解决了面部识别中因姿态差异导致的性能下降问题。
- Motivation: 面部识别在姿态差异较大时性能下降,需要一种方法提升跨姿态的识别能力。
- Method: 使用共享注意力映射和联合熵正则化损失,增强2D和3D表示之间的相关性。
- Result: 在FaceScape和ARL-VTF数据集上表现优于其他方法,姿态不变性显著提升。
- Conclusion: 提出的框架有效提升了跨姿态面部识别的性能。
[19] OpenLKA: An Open Dataset of Lane Keeping Assist from Recent Car Models under Real-world Driving Conditions
Yuhang Wang,Abdulaziz Alhuraish,Shengming Yuan,Hao Zhou
Main category: cs.CV
TL;DR: OpenLKA是首个开放的大规模LKA评估数据集,包含400小时驾驶数据,支持多模态分析,用于评估和改进LKA系统。
- Motivation: 现有LKA系统的真实性能因专有系统和数据限制未被充分研究,OpenLKA旨在填补这一空白。
- Method: 通过路测和社区贡献收集数据,整合车辆内部信号、高清视频、实时输出和场景标注。
- Result: 数据集涵盖复杂场景,提供多模态数据,支持LKA性能评估和基础设施分析。
- Conclusion: OpenLKA为LKA系统评估和改进提供了全面平台,数据已公开。
[20] Seeing Beyond the Scene: Enhancing Vision-Language Models with Interactional Reasoning
Dayong Liang,Changmeng Zheng,Zhiyuan Wen,Yi Cai,Xiao-Yong Wei,Qing Li
Main category: cs.CV
TL;DR: 论文提出了一种增强视觉语言模型(VLMs)交互推理能力的框架ISGR,通过双流图构造器、交互查询和长期记忆强化学习策略,显著提升了复杂场景理解任务的性能。
- Motivation: 传统场景图主要关注空间关系,限制了VLMs在复杂交互场景中的推理能力。现有方法存在关系集不相关和缺乏持久记忆的问题。
- Method: ISGR框架包含双流图构造器(结合空间关系提取和交互感知标注)、交互查询激活VLMs功能知识,以及长期记忆强化学习策略。
- Result: 实验表明,ISGR在交互密集型推理基准上显著优于基线方法,尤其在复杂场景理解任务中表现突出。
- Conclusion: ISGR通过增强交互推理能力,提升了VLMs在复杂场景中的表现,为未来研究提供了新方向。
[21] Promoting SAM for Camouflaged Object Detection via Selective Key Point-based Guidance
Guoying Liang,Su Yang
Main category: cs.CV
TL;DR: 该研究利用Segment Anything Model (SAM)进行伪装目标检测(COD),提出了一种新框架,通过点提示提升SAM的性能,并在实验中取得了优于现有方法的结果。
- Motivation: 尽管之前的研究认为SAM不适用于COD,但本研究通过适当的提示方法证明了其可行性,旨在利用大模型的优势简化COD任务。
- Method: 设计了Promotion Point Targeting Network (PPT-net)预测伪装目标的存在概率,并开发了关键点选择(KPS)算法,通过正负点提示对比引导SAM分割。
- Result: 在3个数据集和6个指标上,该方法表现优于现有方法,验证了SAM在COD任务中的潜力。
- Conclusion: 研究表明,利用SAM进行COD是一种现成且高效的方法,不仅性能优越,还将问题简化为寻找信息性而非精确的提示。
[22] WSCIF: A Weakly-Supervised Color Intelligence Framework for Tactical Anomaly Detection in Surveillance Keyframes
Wei Meng
Main category: cs.CV
TL;DR: 提出了一种基于颜色特征的轻量级异常检测框架,用于资源受限和数据敏感环境下的战术监控视频,通过无监督KMeans聚类和RGB通道直方图建模实现关键帧异常检测。
- Motivation: 传统深度学习模型在高风险安全任务中面临未标记和数据不可利用的挑战,需快速识别潜在威胁事件。
- Method: 融合无监督KMeans聚类与RGB通道直方图建模,检测关键帧中的结构异常和颜色突变信号。
- Result: 成功识别高能光源、目标存在和反射干扰等异常帧,适用于战术警告、可疑物体筛查和环境突变监测。
- Conclusion: 颜色特征作为低语义战场信号载体具有重要价值,未来将结合图神经网络和时间建模扩展感知能力。
[23] Beyond General Prompts: Automated Prompt Refinement using Contrastive Class Alignment Scores for Disambiguating Objects in Vision-Language Models
Lucas Choi,Ross Greer
Main category: cs.CV
TL;DR: 提出了一种基于对比类对齐分数(CCAS)的自动提示优化方法,提升视觉语言模型(VLM)在目标检测中的性能。
- Motivation: 现有视觉语言模型(VLM)的性能受提示措辞影响较大,需要一种自动优化提示的方法。
- Method: 使用大语言模型生成多样提示候选,通过CCAS(基于句子变换器的嵌入)筛选语义对齐目标类且与混淆类差异大的提示。
- Result: 在挑战性目标类别上验证,自动选择的高精度提示提升了检测准确率,无需额外训练或标注数据。
- Conclusion: 该方法为VLM检测系统提供了一种可扩展、模型无关的自动提示优化方案。
[24] TopoDiT-3D: Topology-Aware Diffusion Transformer with Bottleneck Structure for 3D Point Cloud Generation
Zechao Guan,Feng Yan,Shuai Du,Lin Ma,Qingshan Liu
Main category: cs.CV
TL;DR: TopoDiT-3D是一种基于拓扑感知的扩散Transformer模型,通过瓶颈结构和持久同调提取全局拓扑信息,显著提升了3D点云生成的质量和效率。
- Motivation: 现有方法主要关注局部特征提取,忽略了全局拓扑信息(如空洞),而这些信息对保持形状一致性和捕捉复杂几何结构至关重要。
- Method: 设计了基于Perceiver Resampler的瓶颈结构,将持久同调提取的拓扑信息融入特征学习,并自适应过滤冗余局部特征以提高训练效率。
- Result: TopoDiT-3D在视觉质量、多样性和训练效率上优于现有模型,并验证了拓扑信息与局部特征学习的协同作用。
- Conclusion: TopoDiT-3D证明了全局拓扑信息对3D点云生成的重要性,为未来研究提供了新方向。
[25] AMSnet 2.0: A Large AMS Database with AI Segmentation for Net Detection
Yichen Shi,Zhuofu Tao,Yuhao Gao,Li Huang,Hongyang Wang,Zhiping Yu,Ting-Jung Lin,Lei He
Main category: cs.CV
TL;DR: 当前多模态大语言模型(MLLMs)在理解电路图方面表现不佳,主要原因是缺乏高质量的电路图-网表训练数据。本文提出了一种基于分割的新型网络检测机制,并扩展了AMSnet数据集。
- Motivation: 现有的方法(如AMSnet)依赖硬编码启发式规则,难以处理复杂或有噪声的电路图,因此需要更鲁棒的解决方案。
- Method: 提出了一种基于分割的网络检测机制,能够恢复位置信息并支持电路图的数字化重建。同时扩展了AMSnet数据集,创建了AMSnet 2.0。
- Result: AMSnet 2.0包含2,686个电路,提供电路图图像、Spectre格式网表、OpenAccess数字电路图及组件和网络的位置信息,远超原始AMSnet的792个电路。
- Conclusion: 新方法提高了对复杂电路图的理解能力,扩展的数据集为未来研究提供了更丰富的资源。
[26] DRRNet: Macro-Micro Feature Fusion and Dual Reverse Refinement for Camouflaged Object Detection
Jianlin Sun,Xiaolin Fang,Juwei Guan,Dongdong Gui,Teqi Wang,Tongxin Zhu
Main category: cs.CV
TL;DR: DRRNet提出了一种四阶段架构,通过全局与局部特征融合及逆向细化,显著提升了伪装目标检测的性能。
- Motivation: 伪装目标检测中目标与背景在颜色、纹理和形状上的高度相似性导致现有方法难以平衡全局语义信息和局部细节。
- Method: DRRNet采用四阶段流程,包括全局上下文特征提取、局部细节补充、双表征融合和逆向细化模块。
- Result: 实验表明,DRRNet在基准数据集上显著优于现有方法。
- Conclusion: DRRNet通过多阶段特征融合和逆向细化,有效抑制背景干扰并提升目标边界连续性。
[27] UniCAD: Efficient and Extendable Architecture for Multi-Task Computer-Aided Diagnosis System
Yitao Zhu,Yuan Yin,Zhenrong Shen,Zihao Zhao,Haiyu Song,Sheng Wang,Dinggang Shen,Qian Wang
Main category: cs.CV
TL;DR: UniCAD是一个基于预训练视觉基础模型的多任务计算机辅助诊断(CAD)平台,通过低秩适应策略和模块化设计,实现了高效和可扩展的医疗图像分析。
- Motivation: 解决医疗影像领域缺乏开源CAD平台以及多任务模型开发资源密集的问题。
- Method: 采用低秩适应策略和模块化架构,结合冻结的基础模型与可插拔专家模块。
- Result: 在12个医疗数据集上表现优于现有方法,仅需0.17%的可训练参数。
- Conclusion: UniCAD为医疗影像研究提供了一个高效、可扩展的开源平台,促进了研究生态的公平与效率。
[28] Zero-shot Quantization: A Comprehensive Survey
Minjun Kim,Jaehyeon Choi,Jongkeun Lee,Wonjin Cho,U Kang
Main category: cs.CV
TL;DR: 本文综述了零样本量化(ZSQ)方法,解决了传统量化依赖训练数据的问题,并分类分析了现有方法,提出了未来研究方向。
- Motivation: 传统量化方法需要训练数据,但在隐私、安全或法规限制下不实用,因此零样本量化(ZSQ)成为无需真实数据的解决方案。
- Method: 论文首先定义了ZSQ问题及挑战,然后根据数据生成策略分类现有方法,分析其动机、核心思想和关键点。
- Result: 提供了对ZSQ方法的全面概述,并总结了其最新进展。
- Conclusion: 本文是首个关于ZSQ的深度综述,提出了未来研究方向以解决现有局限性。
[29] PDE: Gene Effect Inspired Parameter Dynamic Evolution for Low-light Image Enhancement
Tong Li,Lizhi Wang,Hansen Feng,Lin Zhu,Hua Huang
Main category: cs.CV
TL;DR: 论文提出参数动态演化(PDE)方法,通过模拟基因重组和突变来解决低光图像增强中的静态参数问题(基因效应)。
- Motivation: 研究发现随机参数有时优于学习参数,限制了模型性能(基因效应),受生物进化启发,提出动态调整参数以适应不同图像。
- Method: 采用参数正交生成技术模拟基因重组和突变,实现参数动态演化(PDE)。
- Result: 实验验证了PDE方法的有效性,能显著提升低光图像增强性能。
- Conclusion: PDE方法通过动态参数调整解决了基因效应问题,为低光图像增强提供了新思路。
[30] A Surrogate Model for the Forward Design of Multi-layered Metasurface-based Radar Absorbing Structures
Vineetha Joy,Aditya Anand,Nidhi,Anshuman Kumar,Amit Sethi,Hema Singh
Main category: cs.CV
TL;DR: 论文提出了一种基于卷积神经网络(CNN)的代理模型,用于快速预测多层超表面雷达吸收结构(RAS)的电磁响应,显著减少了计算时间和设计空间探索的需求。
- Motivation: 传统方法依赖于全波仿真工具进行电磁设计优化,计算量大且耗时。
- Method: 采用基于Huber损失函数的CNN架构预测RAS的反射特性。
- Result: 模型在1000次训练周期内达到99.9%的余弦相似度和0.001的均方误差,计算时间显著减少且预测精度高。
- Conclusion: 该代理模型为超表面RAS的设计优化提供了高效且准确的解决方案。
[31] Zero-Shot Multi-modal Large Language Model v.s. Supervised Deep Learning: A Comparative Study on CT-Based Intracranial Hemorrhage Subtyping
Yinuo Wang,Yue Zeng,Kai Chen,Cai Meng,Chao Pan,Zhouping Tang
Main category: cs.CV
TL;DR: 研究比较了多模态大语言模型(MLLMs)与传统深度学习模型在颅内出血(ICH)分类和亚型识别中的表现,发现传统模型在准确率上优于MLLMs。
- Motivation: 颅内出血的及时识别对预后和治疗决策至关重要,但传统方法因图像对比度低和边界模糊而面临挑战。研究旨在评估MLLMs在此任务中的潜力。
- Method: 使用RSNA提供的192个NCCT数据集,比较了GPT-4o、Gemini 2.0 Flash等MLLMs与ResNet50、Vision Transformer等传统模型在ICH分类和亚型识别中的表现。
- Result: 传统深度学习模型在ICH二分类和亚型识别任务中全面优于MLLMs,Gemini 2.0 Flash的宏平均精确率和F1分数分别为0.41和0.31。
- Conclusion: MLLMs在交互性上表现优异,但准确率不及传统模型。未来将优化MLLMs以提高其在三维医学图像处理中的性能。
[32] Test-Time Augmentation for Pose-invariant Face Recognition
Jaemin Jung,Youngjoon Jang,Joon Son Chung
Main category: cs.CV
TL;DR: 提出Pose-TTA方法,通过测试阶段增强头部姿态提升人脸识别性能,无需额外训练。
- Motivation: 现有方法需针对不同数据集重新训练,耗时耗力。
- Method: 使用肖像动画器在推理时对齐人脸,生成匹配的侧脸图像,并采用加权特征聚合策略。
- Result: 实验表明Pose-TTA能持续提升推理性能,且易于集成到现有流程中。
- Conclusion: Pose-TTA是一种高效、无需重新训练的人脸识别增强方法。
[33] Few-Shot Anomaly-Driven Generation for Anomaly Classification and Segmentation
Guan Gui,Bin-Bin Gao,Jun Liu,Chengjie Wang,Yunsheng Wu
Main category: cs.CV
TL;DR: 论文提出了一种名为AnoGen的少样本异常生成方法,通过扩散模型生成真实多样的异常数据,以提升异常检测模型的性能。
- Motivation: 工业检测中异常样本稀缺,现有方法生成的异常与真实异常存在语义差距,导致检测性能不佳。
- Method: 分三阶段:1)基于少量真实异常学习异常分布;2)利用嵌入和边界框指导扩散模型生成异常;3)提出弱监督异常检测方法训练模型。
- Result: 在MVTec数据集上,异常分类和分割任务性能显著提升,如DRAEM和DesTSeg的AU-PR指标分别提高5.8%和1.5%。
- Conclusion: AnoGen方法能有效生成真实异常数据,显著提升异常检测模型的性能。
[34] Learning to Detect Multi-class Anomalies with Just One Normal Image Prompt
Bin-Bin Gao
Main category: cs.CV
TL;DR: 提出了一种基于单张正常图像提示(OneNIP)的方法,用于提升统一异常检测的性能,并通过监督细化器改进像素级异常分割。
- Motivation: 现有自注意力重建模型可能因高一致性导致对异常和正常特征的完美重建,从而无法检测异常,且在低分辨率潜在空间中重建导致异常分割不准确。
- Method: 使用OneNIP重建正常特征并恢复异常特征,同时引入监督细化器回归重建误差。
- Result: 在MVTec、BTAD和VisA三个工业异常检测基准上表现优于先前方法。
- Conclusion: OneNIP方法简单有效,显著提升了统一异常检测的性能和异常分割的准确性。
[35] MetaUAS: Universal Anomaly Segmentation with One-Prompt Meta-Learning
Bin-Bin Gao
Main category: cs.CV
TL;DR: 提出了一种纯视觉基础模型MetaUAS,用于通用视觉异常分割,无需依赖语言模型或特殊异常检测数据集。
- Motivation: 视觉表示与语言无关,现有方法依赖语言模型,限制了通用性。
- Method: 将异常分割统一为变化分割,利用合成图像对训练MetaUAS框架,并引入软特征对齐模块处理几何变化。
- Result: MetaUAS显著优于现有零样本、少样本和全样本异常分割方法。
- Conclusion: MetaUAS是一种高效、无需训练的通用异常分割方法,仅需一张正常图像提示。
[36] Recent Advances in Medical Imaging Segmentation: A Survey
Fares Bougourzi,Abdenour Hadid
Main category: cs.CV
TL;DR: 本文综述了医学图像分割领域的最新进展,重点探讨了生成式AI、少样本学习、基础模型和通用模型等方法,并讨论了其局限性和未来研究方向。
- Motivation: 医学图像分割面临数据可访问性、标注复杂性、结构变异性、模态多样性和隐私约束等挑战,现有模型在泛化和领域适应方面仍有不足。
- Method: 综述了生成式AI、少样本学习、基础模型和通用模型等方法,并分析了其理论基础和应用。
- Result: 这些方法为解决长期存在的挑战提供了有前景的解决方案,但仍存在局限性和未解决的问题。
- Conclusion: 未来研究应致力于提升分割模型的实用性和可访问性,同时维护一个GitHub仓库以持续跟踪该领域的最新进展。
[37] Predicting butterfly species presence from satellite imagery using soft contrastive regularisation
Thijs L van der Plas,Stephen Law,Michael JO Pocock
Main category: cs.CV
TL;DR: 论文提出了一种利用卫星图像预测蝴蝶物种存在的新数据集和方法,通过优化Resnet模型和对比正则化损失,提高了预测准确性。
- Motivation: 由于对可扩展生物多样性监测方法的需求增加,结合遥感数据和公民科学观测数据,探索直接从卫星图像预测多物种存在的方法。
- Method: 使用4波段卫星图像,优化Resnet模型预测多物种存在,并开发了一种针对概率标签的软监督对比正则化损失。
- Result: 模型在物种多样性高的地区表现优于基线,对比正则化损失进一步提高了预测准确性。
- Conclusion: 新数据集和对比正则化方法为从遥感数据准确预测生物多样性提供了有效工具,有助于高效生物多样性监测。
[38] Neural Video Compression using 2D Gaussian Splatting
Lakshya Gupta,Imran N. Junejo
Main category: cs.CV
TL;DR: 论文提出了一种基于区域兴趣(ROI)的神经视频压缩模型,利用2D高斯泼溅技术实现实时解码,显著提升了编码速度。
- Motivation: 传统视频编解码标准(如AVC、HEVC等)依赖手工特征,而神经视频编解码器(NVC)通过学习内容感知压缩策略提供更高效率,但其高计算需求限制了实时应用。
- Method: 采用2D高斯泼溅技术,结合内容感知初始化策略和帧间冗余减少机制,设计了一种视频编解码方案。
- Result: 编码速度提升了88%,首次将高斯泼溅技术应用于神经视频编解码领域。
- Conclusion: 该方法为实时视频应用(如视频会议)提供了潜在的高效解决方案。
[39] BioVFM-21M: Benchmarking and Scaling Self-Supervised Vision Foundation Models for Biomedical Image Analysis
Jiarun Liu,Hong-Yu Zhou,Weijian Huang,Hao Yang,Dongning Song,Tao Tan,Yong Liang,Shanshan Wang
Main category: cs.CV
TL;DR: 论文探讨了医疗视觉基础模型的规模化行为,发现规模化对性能提升有益但效果因任务而异,并提出了BioVFM模型,在12个医疗基准测试中表现优异。
- Motivation: 医疗图像与自然数据差异显著,但规模化行为在医疗领域的研究不足,需明确关键因素以开发规模化医疗视觉基础模型。
- Method: 通过自监督学习,研究了模型大小、训练算法、数据规模和成像模态的规模化行为,并构建了BioVFM-21M数据集支持预训练。
- Result: BioVFM模型在12个医疗基准测试中超越现有最佳模型,但规模化效果因任务而异,需考虑任务特性、数据多样性等因素。
- Conclusion: 规模化虽有益于性能提升,但任务特性、数据多样性、预训练方法和计算效率仍是开发医疗基础模型的关键因素。
[40] Unsupervised Multiview Contrastive Language-Image Joint Learning with Pseudo-Labeled Prompts Via Vision-Language Model for 3D/4D Facial Expression Recognition
Muzammil Behzad
Main category: cs.CV
TL;DR: MultiviewVLM是一种用于无监督对比多视角表示学习的视觉语言模型,专注于3D/4D面部情绪数据,通过伪标签和对比学习策略提升性能。
- Motivation: 研究旨在解决多视角面部情绪数据的无监督表示学习问题,通过文本提示和对比学习实现语义对齐。
- Method: 模型结合伪标签和文本提示,提出联合嵌入空间和多视角对比学习策略,并引入梯度友好损失函数。
- Result: 实验表明MultiviewVLM优于现有方法,且易于适应实际应用。
- Conclusion: MultiviewVLM在多视角情绪表示学习中表现出色,具有实际应用潜力。
[41] Marigold: Affordable Adaptation of Diffusion-Based Image Generators for Image Analysis
Bingxin Ke,Kevin Qu,Tianfu Wang,Nando Metzger,Shengyu Huang,Bo Li,Anton Obukhov,Konrad Schindler
Main category: cs.CV
TL;DR: Marigold利用预训练的潜在扩散模型(如Stable Diffusion)进行密集图像分析任务,如深度估计和表面法线预测,通过微调协议实现零样本泛化。
- Motivation: 在数据稀缺的情况下,预训练模型的质量对迁移学习至关重要。文本到图像生成模型(如潜在扩散模型)展示了强大的视觉理解能力,但尚未被充分利用于密集图像分析任务。
- Method: 提出Marigold,一种条件生成模型和微调协议,通过最小化预训练潜在扩散模型的架构修改,利用小规模合成数据集在单GPU上进行训练。
- Result: Marigold在单目深度估计、表面法线预测等任务中实现了零样本泛化的最先进性能。
- Conclusion: Marigold展示了从生成模型中提取知识用于密集图像分析任务的潜力,为数据稀缺场景提供了高效解决方案。
[42] RobustSpring: Benchmarking Robustness to Image Corruptions for Optical Flow, Scene Flow and Stereo
Jenny Schmalfuss,Victor Oei,Lukas Mehl,Madlen Bartsch,Shashank Agnihotri,Margret Keuper,Andrés Bruhn
Main category: cs.CV
TL;DR: RobustSpring是一个用于评估光流、场景流和立体视觉模型对图像损坏(如噪声或雨)鲁棒性的数据集和基准测试。
- Motivation: 现有基准测试主要关注模型准确性,而忽略了对真实世界扰动的鲁棒性,因此需要量化模型对这些扰动的抵抗力。
- Method: 通过在高分辨率Spring数据集上应用20种不同的图像损坏(如噪声、模糊、颜色变化等),生成20,000张损坏图像,并设计新的鲁棒性度量标准。
- Result: 测试发现准确性高的模型不一定鲁棒,且鲁棒性因损坏类型而异。
- Conclusion: RobustSpring将鲁棒性作为首要目标,旨在推动兼具准确性和鲁棒性的模型发展。
[43] MAKE: Multi-Aspect Knowledge-Enhanced Vision-Language Pretraining for Zero-shot Dermatological Assessment
Siyuan Yan,Xieji Li,Ming Hu,Yiwen Jiang,Zhen Yu,Zongyuan Ge
Main category: cs.CV
TL;DR: MAKE是一个多知识增强的视觉语言预训练框架,用于零样本皮肤病任务,通过分解临床叙述、细粒度对齐和诊断引导加权,显著优于现有VLP模型。
- Motivation: 皮肤病诊断需要整合视觉特征和临床知识,但现有VLP方法因文本长度限制和非结构化文本而效果受限。
- Method: 提出多知识增强框架MAKE,包括多对比学习策略、细粒度对齐机制和诊断引导加权方案。
- Result: 在403,563个皮肤病图像-文本对上预训练后,MAKE在零样本分类、概念标注和跨模态检索任务中显著优于现有VLP模型。
- Conclusion: MAKE通过多知识增强和细粒度对齐,有效解决了皮肤病诊断中的多模态挑战。
[44] Text-driven Motion Generation: Overview, Challenges and Directions
Ali Rida Sahili,Najett Neji,Hedi Tabia
Main category: cs.CV
TL;DR: 本文综述了文本驱动运动生成的方法,分类了架构和运动表示,并探讨了数据集、评估方法和未来方向。
- Motivation: 提供灵活、直观的运动生成方式,适用于虚拟现实、游戏、人机交互和机器人等领域。
- Method: 从架构(VAE、扩散、混合模型)和运动表示(离散、连续)两个角度分类现代方法。
- Result: 总结了当前领域的进展、挑战和局限性。
- Conclusion: 为语言驱动运动合成的研究和实践提供了有价值的起点。
[45] Examining Deployment and Refinement of the VIOLA-AI Intracranial Hemorrhage Model Using an Interactive NeoMedSys Platform
Qinghui Liu,Jon Nesvold,Hanna Raaum,Elakkyen Murugesu,Martin Røvang,Bradley J Maclntosh,Atle Bjørnerud,Karoline Skogen
Main category: cs.CV
TL;DR: NeoMedSys是一个放射学软件平台,用于高效部署和优化AI模型,通过实际临床测试显著提升了ICH检测模型VIOLA-AI的性能。
- Motivation: 解决AI工具在放射学临床部署中的挑战,提升AI模型的效率和准确性。
- Method: NeoMedSys整合了AI模型部署、测试和优化工具,结合医疗图像查看器和注释系统,通过实际病例评估模型性能。
- Result: VIOLA-AI的敏感性和特异性显著提高,AUC达到0.949,表明模型性能显著优化。
- Conclusion: NeoMedSys通过实时反馈和迭代优化,显著提升了AI模型的临床诊断能力。
[46] FedSaaS: Class-Consistency Federated Semantic Segmentation via Global Prototype Supervision and Local Adversarial Harmonization
Xiaoyang Yu,Xiaoming Wu,Xin Wang,Dongrun Li,Ming Yang,Peng Cheng
Main category: cs.CV
TL;DR: 提出了一种名为FedSaaS的新型联邦语义分割框架,通过类样本和对抗机制解决异构问题和类一致性表示问题。
- Motivation: 现有研究在处理异构问题(如域偏移)时忽略了语义空间中的细粒度类关系,导致类表示模糊。
- Method: 引入类样本作为本地和全局类表示的准则,服务器端建模类原型监督客户端全局分支,客户端通过对抗机制协调全局和本地分支,并使用多级对比损失确保一致性。
- Result: 在多个驾驶场景分割数据集上的实验表明,该框架显著提高了平均分割精度,并有效解决了类一致性表示问题。
- Conclusion: FedSaaS框架通过类样本和对抗机制成功解决了联邦语义分割中的类一致性表示问题,性能优于现有方法。
[47] FreeDriveRF: Monocular RGB Dynamic NeRF without Poses for Autonomous Driving via Point-Level Dynamic-Static Decoupling
Yue Wen,Liang Song,Yijia Liu,Siting Zhu,Yanzi Miao,Lijun Han,Hesheng Wang
Main category: cs.CV
TL;DR: FreeDriveRF提出了一种仅需RGB图像序列的动态驾驶场景重建方法,无需位姿输入,通过语义监督解耦动态与静态部分,并引入光流约束动态建模。
- Motivation: 现有动态场景重建方法依赖精确位姿输入和多传感器数据,增加了系统复杂性。
- Method: 通过语义监督早期解耦动态与静态部分,引入光流约束动态建模,并利用动态流优化位姿。
- Result: 在KITTI和Waymo数据集上验证了方法的优越性能。
- Conclusion: FreeDriveRF在动态场景建模中表现出色,简化了系统需求。
[48] Sparse Point Cloud Patches Rendering via Splitting 2D Gaussians
Ma Changfeng,Bi Ran,Guo Jie,Wang Chongjun,Guo Yanwen
Main category: cs.CV
TL;DR: 提出了一种新的点云渲染方法,通过预测2D高斯分布实现,适用于稀疏点云且无需额外优化。
- Motivation: 现有方法依赖类别先验、密集点云或额外优化,限制了泛化能力。
- Method: 采用双模块架构,利用点云信息初始化高斯分布,并通过分裂解码器优化结果。
- Result: 在多个数据集上表现优异,实现SOTA性能,且能直接泛化到不同类别的点云。
- Conclusion: 该方法高效、泛化能力强,适用于稀疏点云渲染。
[49] FaceShield: Explainable Face Anti-Spoofing with Multimodal Large Language Models
Hongyang Wang,Yichen Shi,Zhuofu Tao,Yuhao Gao,Liepiao Zhang,Xun Lin,Jun Feng,Xiaochen Yuan,Zitong Yu,Xiaochun Cao
Main category: cs.CV
TL;DR: 论文提出FaceShield,一种多模态大语言模型(MLLM),用于人脸防伪(FAS),并配套预训练和监督微调数据集。FaceShield能判断人脸真实性、识别攻击类型、提供推理依据及定位攻击区域,显著优于现有方法。
- Motivation: 现有FAS方法多为分类问题,缺乏可解释性和推理能力。多模态大语言模型(MLLM)在视觉任务中表现出色,但尚无专用于FAS的通用MLLM和数据集。
- Method: 提出FaceShield模型,结合原始图像和先验知识的辅助信息(SAVP),采用提示引导的视觉标记掩码(PVTM)策略提升泛化能力。
- Result: 在三个基准数据集上的实验表明,FaceShield在粗/细粒度分类、推理和攻击定位任务中显著优于现有深度学习模型和通用MLLM。
- Conclusion: FaceShield为FAS任务提供了通用且全面的解决方案,其数据集、协议和代码将开源。
[50] MoRAL: Motion-aware Multi-Frame 4D Radar and LiDAR Fusion for Robust 3D Object Detection
Xiangyuan Peng,Yu Wang,Miao Tang,Bierzynski Kay,Lorenzo Servadei,Robert Wille
Main category: cs.CV
TL;DR: MoRAL是一个运动感知的多帧4D雷达与LiDAR融合框架,用于鲁棒的3D物体检测,通过补偿运动引起的雷达点云错位并利用动态信息提升检测性能。
- Motivation: 现有方法忽视了雷达点云在帧间的运动错位问题,且未充分利用4D雷达的动态信息,影响了检测的准确性。
- Method: 提出MoRAL框架,包括运动感知雷达编码器(MRE)补偿运动错位,以及运动注意力门控融合(MAGF)模块整合雷达动态信息指导LiDAR特征聚焦动态物体。
- Result: 在VoD数据集上表现优异,整体区域mAP达73.30%,驾驶走廊达88.68%,行人检测AP为69.67%,骑行者在驾驶走廊AP达96.25%。
- Conclusion: MoRAL通过运动感知和动态信息融合显著提升了3D物体检测性能,尤其在动态物体检测上表现突出。
[51] Efficient LiDAR Reflectance Compression via Scanning Serialization
Jiahao Zhu,Kang You,Dandan Ding,Zhan Ma
Main category: cs.CV
TL;DR: SerLiC是一种基于序列化的神经压缩框架,用于高效压缩LiDAR反射率数据,通过扫描顺序序列化和Mamba模型实现高效处理,显著减少数据体积和参数需求。
- Motivation: LiDAR点云中的反射率属性对下游任务至关重要,但在神经压缩方法中尚未充分探索。
- Method: SerLiC将3D LiDAR点云通过扫描顺序序列化为1D序列,利用传感器扫描索引、径向距离和先验反射率进行上下文表示,结合Mamba模型实现高效序列建模。
- Result: SerLiC实现了超过2倍的数据体积压缩,比现有方法减少22%的压缩比特数,仅使用2%的参数。轻量版SerLiC达到>10 fps,仅需111K参数。
- Conclusion: SerLiC在LiDAR反射率压缩中表现出色,具有高效性和实用性,适用于实际应用。
[52] Endo-CLIP: Progressive Self-Supervised Pre-training on Raw Colonoscopy Records
Yili He,Yan Zhu,Peiyao Fu,Ruijie Yang,Tianyi Chen,Zhihua Wang,Quanlin Li,Pinghong Zhou,Xian Yang,Shuo Wang
Main category: cs.CV
TL;DR: Endo-CLIP是一个自监督框架,通过三阶段方法优化内窥镜图像分析,显著提升息肉检测和分类性能。
- Motivation: 内窥镜图像分析面临非信息背景、复杂医学术语和多病灶描述模糊的挑战,需要改进。
- Method: Endo-CLIP采用三阶段框架:清洗(去背景)、调谐(利用大模型提取临床属性)、统一(患者级交叉注意力解决多息肉模糊)。
- Result: 实验表明Endo-CLIP在零样本和少样本任务中显著优于现有方法。
- Conclusion: Endo-CLIP为更准确和临床相关的内窥镜分析铺平了道路。
[53] MrTrack: Register Mamba for Needle Tracking with Rapid Reciprocating Motion during Ultrasound-Guided Aspiration Biopsy
Yuelin Zhang,Qingpeng Ding,Long Lei,Yongxuan Feng,Raymond Shing-Yan Tang,Shing Shin Cheng
Main category: cs.CV
TL;DR: MrTrack是一种基于Mamba的针头追踪器,用于解决超声引导下细针穿刺活检中快速往复运动的问题,通过全局上下文提取和时序提示检索提升追踪性能。
- Motivation: 超声引导下细针穿刺活检中快速往复运动导致视觉特征暂时不可用,现有追踪器无法有效应对这一问题。
- Method: 提出MrTrack,采用Mamba-based register机制提取全局上下文并存储时序线索,通过自监督损失优化特征多样性。
- Result: 在自动和手动穿刺数据集上,MrTrack在准确性、鲁棒性和推理效率上均优于现有追踪器。
- Conclusion: MrTrack为解决快速往复运动下的针头追踪问题提供了高效解决方案。
[54] Beyond Pixels: Leveraging the Language of Soccer to Improve Spatio-Temporal Action Detection in Broadcast Videos
Jeremie Ochin,Raphael Chekroun,Bogdan Stanciulescu,Sotiris Manitsaris
Main category: cs.CV
TL;DR: 论文提出了一种基于Transformer的编码器-解码器模型,通过结合游戏状态信息和序列去噪任务,提升了时空动作检测(STAD)在足球视频分析中的性能。
- Motivation: 现有STAD方法在高召回率、低精度场景下(如足球比赛分析)因缺乏上下文理解而产生大量误报,需通过更广泛的行动序列和游戏状态信息解决。
- Method: 使用Transformer模型处理噪声较大的玩家中心预测序列和清晰的游戏状态信息,通过建模长时间上下文和团队动态,生成去噪后的动作序列。
- Result: 该方法在低置信度场景下同时提升了精度和召回率,提高了从广播视频中提取事件的可靠性。
- Conclusion: 通过结合游戏状态信息和序列去噪任务,该方法有效利用了足球的战术规律和球员间依赖关系,提升了STAD性能。
[55] A 2D Semantic-Aware Position Encoding for Vision Transformers
Xi Chen,Shiyang Zhou,Muqi Huang,Jiaxu Feng,Yun Xiong,Kun Zhou,Biao Yang,Yuhui Zhang,Huishuai Bao,Sijia Peng,Chuan Li,Feng Shi
Main category: cs.CV
TL;DR: 提出了一种新的2D语义感知位置编码方法(SaPE²),解决了现有位置编码在视觉任务中语义关系捕捉不足的问题。
- Motivation: 现有位置编码方法(如绝对和相对位置编码)主要关注1D线性关系,忽略了图像块间的语义相似性,限制了模型的泛化能力和翻译等变性。
- Method: 提出了SaPE²方法,动态调整位置表示,利用局部内容而非固定线性关系或空间坐标,增强语义感知。
- Result: SaPE²提升了模型在不同分辨率和尺度下的泛化能力,改善了翻译等变性,并更好地聚合了视觉相似但空间距离远的图像块特征。
- Conclusion: 通过将SaPE²集成到视觉Transformer中,弥合了位置编码与感知相似性之间的差距,提升了计算机视觉任务的性能。
[56] Denoising and Alignment: Rethinking Domain Generalization for Multimodal Face Anti-Spoofing
Yingjie Ma,Xun Lin,Zitong Yu,Xin Liu,Xiaochen Yuan,Weicheng Xie,Linlin Shen
Main category: cs.CV
TL;DR: 论文提出了一种名为MMDA的多模态去噪与对齐框架,通过结合CLIP的零样本泛化能力,显著提升了跨模态对齐的泛化性能。
- Motivation: 当前多模态FAS方法在泛化能力上表现不佳,主要由于模态特定偏差和域偏移问题。
- Method: MMDA框架包含MD2A模块(用于去噪和对齐)、RS2对齐策略(利用CLIP模型对齐数据)和U-DSA模块(增强表示适应性)。
- Result: 在四个基准数据集上的实验表明,MMDA在跨域泛化和多模态检测精度上优于现有方法。
- Conclusion: MMDA框架通过去噪和对齐机制,显著提升了多模态FAS的泛化能力和检测性能。
[57] Flash-VL 2B: Optimizing Vision-Language Model Performance for Ultra-Low Latency and High Throughput
Bo Zhang,Shuo Li,Runhe Tian,Yang Yang,Jixin Tang,Jinhao Zhou,Lin Ma
Main category: cs.CV
TL;DR: Flash-VL 2B是一种优化视觉语言模型(VLM)的新方法,旨在实现超低延迟和高吞吐量,同时保持准确性。
- Motivation: 针对实时应用需求,优化视觉语言模型以在资源受限环境中高效运行。
- Method: 采用架构增强、计算策略优化、令牌压缩、数据筛选、训练方案改进及隐式语义拼接技术。
- Result: 在11个标准VLM基准测试中,Flash-VL 2B在速度和准确性上均达到最优。
- Conclusion: Flash-VL 2B是资源受限和大规模实时应用的有前景解决方案。
[58] Conformal Bounds on Full-Reference Image Quality for Imaging Inverse Problems
Jeffrey Wen,Rizwan Ahmad,Philip Schniter
Main category: cs.CV
TL;DR: 该论文提出了一种结合共形预测和近似后验采样的方法,用于在不知道真实图像的情况下,构建全参考图像质量(FRIQ)指标的可靠边界。
- Motivation: 在安全关键应用(如医学成像)中,准确评估恢复图像与真实图像的接近程度至关重要,但直接计算FRIQ指标因缺乏真实图像而困难。
- Method: 结合共形预测与近似后验采样,构建具有用户指定错误概率保证的FRIQ边界。
- Result: 在图像去噪和加速磁共振成像(MRI)问题上验证了方法的有效性。
- Conclusion: 该方法为FRIQ评估提供了可靠的边界,适用于安全关键场景。
[59] Contactless Cardiac Pulse Monitoring Using Event Cameras
Mohamed Moustafa,Joseph Lemley,Peter Corcoran
Main category: cs.CV
TL;DR: 事件相机技术用于无接触心率监测,通过CNN模型从面部事件流中提取心率信号,性能接近传统相机。
- Motivation: 探索事件相机在生理信号监测中的应用潜力,尤其是无接触心率检测。
- Method: 使用监督式CNN模型,从二维事件流表示中提取心率信号,评估心率计算准确性。
- Result: 事件相机在60和120 FPS下表现优于传统30 FPS相机,RMSE分别为2.54和2.13 bpm。
- Conclusion: 事件相机在心率监测中具有潜力,性能接近或优于传统相机。
[60] Camera-Only 3D Panoptic Scene Completion for Autonomous Driving through Differentiable Object Shapes
Nicola Marinello,Simen Cassiman,Jonas Heylen,Marc Proesmans,Luc Van Gool
Main category: cs.CV
TL;DR: 论文提出了一种用于3D全景场景补全的新框架,扩展了现有3D语义场景补全模型,并引入了对象模块和全景模块。
- Motivation: 自动驾驶车辆需要完整的环境地图以规划和行动,而3D全景场景补全目前研究不足,但该任务对路径规划和决策至关重要。
- Method: 提出了一种新框架,包含对象模块和全景模块,可轻松与现有3D占用和场景补全方法集成,利用占用基准中的标注学习对象形状。
- Result: 该方法能够区分同一类别中的对象实例,并预测被遮挡区域,为自动驾驶提供更全面的环境地图。
- Conclusion: 该框架为3D全景场景补全提供了有效解决方案,代码已开源。
[61] Using Foundation Models as Pseudo-Label Generators for Pre-Clinical 4D Cardiac CT Segmentation
Anne-Marie Rickmann,Stephanie L. Thorn,Shawn S. Ahn,Supum Lee,Selen Uman,Taras Lysyy,Rachel Burns,Nicole Guerrera,Francis G. Spinale,Jason A. Burdick,Albert J. Sinusas,James S. Duncan
Main category: cs.CV
TL;DR: 该论文探讨了利用基础模型为猪心脏CT生成伪标签,并通过自训练方法迭代优化标签,无需人工标注数据。
- Motivation: 由于猪与人类在心脏解剖和生理上的相似性,猪模型常用于临床前研究,但物种差异导致模型直接迁移困难。
- Method: 提出一种自训练方法,利用基础模型生成伪标签并迭代优化,无需人工标注数据。
- Result: 自训练过程提高了分割准确性,并平滑了连续帧的时间不一致性。
- Conclusion: 尽管结果令人鼓舞,但仍可通过更复杂的自训练策略和探索其他基础模型进一步改进。
[62] BLIP3-o: A Family of Fully Open Unified Multimodal Models-Architecture, Training and Dataset
Jiuhai Chen,Zhiyang Xu,Xichen Pan,Yushi Hu,Can Qin,Tom Goldstein,Lifu Huang,Tianyi Zhou,Saining Xie,Silvio Savarese,Le Xue,Caiming Xiong,Ran Xu
Main category: cs.CV
TL;DR: 该论文提出了一种基于扩散变换器的统一多模态模型BLIP3-o,结合图像理解与生成,通过创新的训练策略和高质量数据集实现卓越性能。
- Motivation: 统一图像理解与生成的多模态模型架构和训练方法尚未充分探索,作者旨在填补这一空白。
- Method: 采用扩散变换器生成CLIP图像特征,提出分阶段预训练策略,并构建高质量指令调优数据集BLIP3o-60k。
- Result: BLIP3-o在图像理解与生成任务中表现优异,训练效率和质量均有提升。
- Conclusion: BLIP3-o为统一多模态模型提供了创新设计和训练方法,开源资源将促进未来研究。
[63] Don't Forget your Inverse DDIM for Image Editing
Guillermo Gomez-Trenado,Pablo Mesejo,Oscar Cordón,Stéphane Lathuilière
Main category: cs.CV
TL;DR: SAGE是一种基于预训练扩散模型的图像编辑新技术,通过自注意力机制优化编辑效率和质量。
- Motivation: 解决现有图像编辑方法计算成本高或重建效果差的问题。
- Method: 结合DDIM算法和自注意力层,利用反向DDIM过程中的注意力图实现高效重建。
- Result: 在定量和定性评估中表现优异,用户研究中47名用户全部偏好SAGE。
- Conclusion: SAGE在图像编辑领域具有显著优势,优于现有方法。
[64] Variational Visual Question Answering
Tobias Jan Wieczorek,Nathalie Daun,Mohammad Emtiyaz Khan,Marcus Rohrbach
Main category: cs.CV
TL;DR: 提出了一种基于变分学习的VQA方法(IVON),显著提升了多模态模型的校准性和可靠性,尤其在分布偏移情况下表现更优。
- Motivation: 多模态模型在VQA任务中存在可靠性问题,尤其是在分布外(OOD)场景下容易过度自信和校准不足。目前针对单模态模型的解决方案较多,但多模态领域研究较少。
- Method: 采用变分算法IVON替代传统的AdamW优化器,生成模型参数的后验分布,从而提升模型的校准性和可靠性。
- Result: 实验表明,该方法显著降低了预期校准误差(>50%),并提高了覆盖率(4% vs. SOTA)。在分布偏移情况下,性能提升更明显(覆盖率提高8%)。
- Conclusion: 变分学习是提升多模态模型可靠性的有效方法,尤其在OOD场景下表现突出。
[65] LightLab: Controlling Light Sources in Images with Diffusion Models
Nadav Magar,Amir Hertz,Eric Tabellion,Yael Pritch,Alex Rav-Acha,Ariel Shamir,Yedid Hoshen
Main category: cs.CV
TL;DR: 提出一种基于扩散模型的简单有效方法,用于图像光源的精细参数化控制。
- Motivation: 现有方法依赖多视图输入或无法提供光源变化的显式控制。
- Method: 通过微调扩散模型,结合真实和合成图像数据,利用光的线性特性合成图像对,训练模型实现精确光源控制。
- Result: 方法在光源编辑上表现优异,用户偏好优于现有方法。
- Conclusion: 该方法为图像光源编辑提供了高效且可控的解决方案。
[66] UWAV: Uncertainty-weighted Weakly-supervised Audio-Visual Video Parsing
Yung-Hsuan Lai,Janek Ebbers,Yu-Chiang Frank Wang,François Germain,Michael Jeffrey Jones,Moitreya Chatterjee
Main category: cs.CV
TL;DR: 论文提出了一种名为UWAV的新方法,用于解决音频-视觉视频解析(AVVP)任务中的弱监督学习问题,通过引入不确定性加权和特征混合正则化,显著提升了性能。
- Motivation: AVVP任务需要定位单模态和多模态事件,但标注成本高,弱监督学习成为必要。现有方法在生成伪标签时缺乏段间依赖性和存在预测偏差,限制了性能。
- Method: 提出UWAV方法,通过不确定性加权处理伪标签,并结合特征混合正则化优化训练过程。
- Result: 实验表明,UWAV在多个指标和数据集上优于现有方法,验证了其有效性和泛化能力。
- Conclusion: UWAV通过改进伪标签生成和训练策略,显著提升了AVVP任务的性能,为弱监督学习提供了新思路。
physics.chem-ph
[67] EDBench: Large-Scale Electron Density Data for Molecular Modeling
Hongxin Xiang,Ke Li,Mingquan Liu,Zhixiang Cheng,Bin Yao,Wenjie Du,Jun Xia,Li Zeng,Xin Jin,Xiangxiang Zeng
Main category: physics.chem-ph
TL;DR: 论文提出EDBench数据集,填补了电子密度(ED)在机器学习力场(MLFFs)研究中的空白,并展示了基于学习的方法在高效计算ED方面的潜力。
- Motivation: 现有MLFFs忽略电子密度(ED)的重要性,而ED是理解分子力场的关键。传统DFT计算ED耗时且数据稀缺,限制了其应用。
- Method: 基于PCQM4Mv2构建EDBench数据集,包含330万分子的高质量ED数据,并设计了一系列ED相关基准任务。
- Result: 实验表明,基于EDBench的学习方法不仅可行,还能高效计算ED,精度与传统DFT相当且计算成本显著降低。
- Conclusion: EDBench为ED驱动的药物发现和材料科学提供了坚实基础,其数据和基准任务将公开共享。
cs.SD
[68] DPN-GAN: Inducing Periodic Activations in Generative Adversarial Networks for High-Fidelity Audio Synthesis
Zeeshan Ahmad,Shudi Bao,Meng Chen
Main category: cs.SD
TL;DR: DPN-GAN是一种新型GAN架构,通过引入基于核的周期性ReLU激活函数和多分辨率生成模块,显著提升了音频生成的质量和鲁棒性。
- Motivation: 现有GAN模型依赖带宽受限的mel频谱图,导致生成音频分辨率受限和模式崩溃问题。
- Method: 提出DPN-GAN,结合周期性ReLU激活函数和可变形卷积操作,增强音频模式捕捉能力;改进判别器网络以提升生成质量。
- Result: 实验表明,DPN-GAN在多种数据集上优于现有GAN模型,生成音频质量更高且更具鲁棒性。
- Conclusion: DPN-GAN通过创新架构解决了音频生成中的分辨率与模式崩溃问题,展现出卓越性能。
eess.IV
[69] In-Context Learning for Label-Efficient Cancer Image Classification in Oncology
Mobina Shrestha,Bishwas Mandal,Vishal Mandal,Asis Shrestha
Main category: eess.IV
TL;DR: 研究探讨了上下文学习(ICL)作为替代模型重新训练的方法,在少量标注样本下实现肿瘤学诊断任务,并比较了四种视觉语言模型的表现。
- Motivation: AI在肿瘤学中的应用受限于需要大量标注数据和模型重新训练,研究旨在探索ICL的实用性。
- Method: 使用四种视觉语言模型(Paligemma、CLIP、ALIGN、GPT-4o)在三个肿瘤学数据集(MHIST、PatchCamelyon、HAM10000)上评估ICL性能。
- Result: 所有模型在少量样本提示下表现显著提升,GPT-4o在二分类和多分类任务中分别达到F1分数0.81和0.60。开源模型如Paligemma和CLIP也表现良好。
- Conclusion: ICL在肿瘤学中具有潜力,尤其适用于罕见癌症和资源有限的环境。
[70] Thoughts on Objectives of Sparse and Hierarchical Masked Image Model
Asahi Miyazaki,Tsuyoshi Okita
Main category: eess.IV
TL;DR: 提出了一种新的掩码模式Mesh Mask-ed SparK,用于改进SparK模型的性能。
- Motivation: 研究掩码模式对自监督学习模型性能的影响。
- Method: 在SparK模型中引入Mesh Mask掩码模式。
- Result: 验证了掩码模式对预训练性能的影响。
- Conclusion: Mesh Mask-ed SparK模型在性能上表现优越。
[71] Ultrasound Report Generation with Multimodal Large Language Models for Standardized Texts
Peixuan Ge,Tongkun Su,Faqin Lv,Baoliang Zhao,Peng Zhang,Chi Hong Wong,Liang Yao,Yu Sun,Zenan Wang,Pak Kin Wong,Ying Hu
Main category: eess.IV
TL;DR: 提出了一种统一的多器官和多语言超声报告生成框架,通过片段化多语言训练和标准化报告生成,显著提升了生成报告的准确性和一致性。
- Motivation: 超声报告生成因图像变异性、操作依赖性和标准化需求而具有挑战性,现有方法缺乏一致性数据集。
- Method: 整合片段化多语言训练,利用标准化报告特性,结合双语数据集,并通过选择性解冻视觉变换器(ViT)优化文本-图像对齐。
- Result: 相比KMVE方法,BLEU提升2%,ROUGE-L提升3%,CIDEr提升15%,显著减少错误内容。
- Conclusion: 该框架在多器官和多语言报告生成中表现出色,具有实际临床应用的潜力。
[72] Total Variation-Based Image Decomposition and Denoising for Microscopy Images
Marco Corrias,Giada Franceschi,Michele Riva,Alberto Tampieri,Karin Föttinger,Ulrike Diebold,Thomas Pock,Cesare Franchini
Main category: eess.IV
TL;DR: 该论文提出了一种基于总变分(TV)的显微镜图像分解与去噪方法,评估了TV-L1、Huber-ROF和TGV-L1在不同案例中的表现,并展示了Huber-ROF的灵活性和TGV-L1的去噪优势。
- Motivation: 显微镜图像常受噪声和干扰信号影响,现代去噪和恢复方法需求迫切。
- Method: 通过总变分(TV)方法分解图像并去除噪声,评估了TV-L1、Huber-ROF和TGV-L1的效果。
- Result: Huber-ROF表现最灵活,TGV-L1最适合去噪,方法适用于多种显微镜技术。
- Conclusion: 该方法在显微镜图像处理中具有广泛适用性,相关Python代码已公开。
[73] Validation of Conformal Prediction in Cervical Atypia Classification
Misgina Tsighe Hagos,Antti Suutala,Dmitrii Bychkov,Hakan Kücükel,Joar von Bahr,Milda Poceviciute,Johan Lundin,Nina Linder,Claes Lundström
Main category: eess.IV
TL;DR: 该论文探讨了使用共形预测改进深度学习模型在宫颈癌分类中的不确定性表达,并通过专家标注验证其真实性和实用性。
- Motivation: 深度学习模型在宫颈癌分类中常过于自信且无法可靠反映诊断不确定性,共形预测可解决这一问题,但现有评估方法忽略了预测集的真实性和实用性。
- Method: 研究使用了三种共形预测方法,应用于三种深度学习模型,并通过多标注者的专家标注集进行验证。
- Result: 研究发现传统的覆盖率评估高估性能,共形预测生成的预测集与人类标注不一致,同时探索了其在识别模糊和分布外数据的能力。
- Conclusion: 共形预测需进一步改进以生成更符合人类期望的预测集,提高其在临床实践中的实用性。
[74] BiECVC: Gated Diversification of Bidirectional Contexts for Learned Video Compression
Wei Jiang,Junru Li,Kai Zhang,Li Zhang
Main category: eess.IV
TL;DR: BiECVC是一种双向视频压缩框架,通过多样化上下文建模和自适应门控机制,显著提升了性能,超越了VTM 13.2。
- Motivation: 现有双向视频压缩方法在提取多样化和准确上下文方面能力有限,且缺乏动态抑制有害上下文的机制。
- Method: BiECVC结合局部和非局部上下文建模,采用线性注意力机制和双向上下文门控动态过滤信息。
- Result: BiECVC在RA配置下比特率降低13.4%和15.7%,性能优于VTM 13.2。
- Conclusion: BiECVC是首个在所有标准测试数据集上超越VTM 13.2的学习型视频编解码器。
[75] Q-space Guided Collaborative Attention Translation Network for Flexible Diffusion-Weighted Images Synthesis
Pengli Zhu,Yingji Fu,Nanguang Chen,Anqi Qiu
Main category: eess.IV
TL;DR: 提出了一种名为Q-CATN的新方法,用于从灵活的q空间采样中合成多壳高角度分辨率DWI数据,利用结构MRI数据,并通过协作注意力机制动态调整内部表示。
- Motivation: 解决现有方法在灵活q空间采样下合成DWI数据的局限性,同时保持解剖保真度。
- Method: 采用协作注意力机制从多模态数据中提取互补信息,并引入任务特定约束以保持DWI的解剖保真度。
- Result: 在HCP数据集上的实验表明,Q-CATN在参数图和纤维束估计方面优于现有方法,同时保留了细节。
- Conclusion: Q-CATN是一种有潜力的工具,适用于临床和研究应用,特别是在灵活q空间采样场景下。
[76] DCSNet: A Lightweight Knowledge Distillation-Based Model with Explainable AI for Lung Cancer Diagnosis from Histopathological Images
Sadman Sakib Alif,Nasim Anzum Promise,Fiaz Al Abid,Aniqua Nusrat Zereen
Main category: eess.IV
TL;DR: 论文提出了一种基于知识蒸馏的轻量级模型DCSNet,用于肺癌检测,结合可解释AI技术提高透明度,适用于资源受限环境。
- Motivation: 肺癌是全球癌症相关死亡的主要原因,早期检测和准确诊断对提高生存率至关重要。深度学习模型虽有效,但计算成本高且缺乏透明度,限制了其在医疗领域的应用。
- Method: 使用知识蒸馏技术,将复杂教师模型(如ResNet50)的知识转移到轻量级学生模型DCSNet中,并结合可解释AI技术。
- Result: DCSNet在资源受限环境下表现优异,同时提高了模型的透明度。
- Conclusion: 该方法不仅提升了诊断性能,还解决了透明度和资源限制问题,有助于AI驱动诊断工具在医疗领域的推广。
[77] Spec2VolCAMU-Net: A Spectrogram-to-Volume Model for EEG-to-fMRI Reconstruction based on Multi-directional Time-Frequency Convolutional Attention Encoder and Vision-Mamba U-Net
Dongyi He,Shiyang Li,Bin Jiang,He Yan
Main category: eess.IV
TL;DR: 提出了一种轻量级的Spec2VolCAMU-Net模型,通过多方向时间-频率卷积注意力编码器和Vision-Mamba U-Net解码器,从EEG生成高分辨率fMRI,显著提升了重建质量和效率。
- Motivation: 高分辨率fMRI成本高且难以获取,而EEG广泛可用。现有EEG-to-fMRI生成器存在性能或效率问题,需改进。
- Method: 采用多方向时间-频率卷积注意力编码器和Vision-Mamba U-Net解码器,结合SSI-MSE损失进行端到端训练。
- Result: 在三个公开数据集上取得最佳SSIM和PSNR分数,分别提升14.5%、14.9%、16.9%和4.6%。
- Conclusion: Spec2VolCAMU-Net轻量高效,适用于临床和研究中的实时应用。
[78] Meta-learning Slice-to-Volume Reconstruction in Fetal Brain MRI using Implicit Neural Representations
Maik Dannecker,Thomas Sanchez,Meritxell Bach Cuadra,Özgün Turgut,Anthony N. Price,Lucilio Cordero-Grande,Vanessa Kyriakopoulou,Joseph V. Hajnal,Daniel Rueckert
Main category: eess.IV
TL;DR: 提出了一种基于隐式神经表示的高分辨率切片到体积重建(SVR)方法,用于处理运动伪影严重的MRI图像重建,显著提升了重建质量和速度。
- Motivation: 现有方法在运动伪影严重或需要切片预对齐的情况下表现不佳,亟需一种快速且准确的MRI重建方法。
- Method: 采用隐式神经表示进行运动校正、异常值处理及超分辨率重建,并通过自监督元学习初始化任务特定先验。
- Result: 在模拟和临床MRI脑数据上验证了方法的有效性,重建质量优于现有方法,重建时间减少50%。
- Conclusion: 该方法在运动伪影严重的情况下仍能实现高质量、快速的MRI重建,具有广泛应用潜力。
cs.CR
[79] Robustness Analysis against Adversarial Patch Attacks in Fully Unmanned Stores
Hyunsik Na,Wonho Lee,Seungdeok Roh,Sohee Park,Daeseon Choi
Main category: cs.CR
TL;DR: 论文研究了无人商店中基于AI的自动结账系统面临的安全漏洞,特别是对抗性补丁攻击,提出了新的攻击方法和评估指标,并强调了防御策略的必要性。
- Motivation: 无人商店的AI系统存在安全漏洞,对抗性补丁攻击可能导致盗窃和库存问题,亟需研究和防御。
- Method: 研究了三种对抗性补丁攻击(隐藏、创建、修改),提出新的颜色直方图相似性损失函数和边界框评估指标,并在数字和物理环境中测试攻击效果。
- Result: 攻击在数字和物理环境中均有效,黑盒场景下攻击成功率更高,当前防御机制存在局限性。
- Conclusion: 需开发更鲁棒的防御策略以保护无人商店免受对抗性攻击,并改进实时检测系统的能力。
[80] Adaptive Security Policy Management in Cloud Environments Using Reinforcement Learning
Muhammad Saqib,Dipkumar Mehta,Fnu Yashu,Shubham Malhotra
Main category: cs.CR
TL;DR: 论文提出了一种基于强化学习(RL)的动态安全策略管理框架,用于解决云环境中静态安全策略的不足,显著提升了入侵检测率和响应效率。
- Motivation: 云环境(如AWS)的安全需求复杂且动态变化,静态安全策略已无法应对威胁的演化和资源的弹性需求。
- Method: 采用深度强化学习算法(如深度Q网络和近端策略优化),利用云遥测数据动态调整防火墙规则和IAM策略。
- Result: 实验结果显示,该框架的入侵检测率为92%(静态策略为82%),事件检测和响应时间减少58%,同时保持高合规性和资源效率。
- Conclusion: 自适应强化学习方法在云安全策略管理中具有显著效果,优于静态策略。
cs.GR
[81] IntrinsicEdit: Precise generative image manipulation in intrinsic space
Linjie Lyu,Valentin Deschaintre,Yannick Hold-Geoffroy,Miloš Hašan,Jae Shin Yoon,Thomas Leimkühler,Christian Theobalt,Iliyan Georgiev
Main category: cs.GR
TL;DR: 提出了一种基于RGB-X扩散框架的通用生成工作流,支持像素级精确编辑,解决了身份保持和通道纠缠问题,无需额外数据或微调。
- Motivation: 现有扩散模型在图像编辑中缺乏精确控制,且通常仅适用于单一任务。
- Method: 采用RGB-X扩散框架,结合精确扩散反演和通道解缠技术,实现高效精确编辑。
- Result: 在复杂图像上展示了多种任务的先进性能,包括颜色调整、对象插入删除和全局光照调整。
- Conclusion: 该方法为图像编辑提供了多功能、高效的解决方案,无需额外资源。
[82] Template-Guided Reconstruction of Pulmonary Segments with Neural Implicit Functions
Kangxian Xie,Yufei Zhu,Kaiming Kuang,Li Zhang,Hongwei Bran Li,Mingchen Gao,Jiancheng Yang
Main category: cs.GR
TL;DR: 提出了一种基于神经隐式函数的方法,用于高质量3D肺段重建,解决了传统深度学习方法在计算资源和分辨率上的限制。
- Motivation: 高质量的3D肺段重建对肺段切除术和肺癌手术规划至关重要,但现有方法受限于计算资源或分辨率。
- Method: 使用神经隐式函数学习3D表面,通过变形可学习模板实现解剖感知的精确重建,并引入两个临床相关评估指标。
- Result: 提出的方法优于现有方法,并开发了Lung3D数据集,包含800个标记肺段的3D模型及相关结构。
- Conclusion: 该方法为肺段重建提供了新视角,代码和数据将公开。
[83] Neural BRDF Importance Sampling by Reparameterization
Liwen Wu,Sai Bi,Zexiang Xu,Hao Tan,Kai Zhang,Fujun Luan,Haolin Lu,Ravi Ramamoorthi
Main category: cs.GR
TL;DR: 提出了一种基于重参数化的神经BRDF重要性采样方法,提高了渲染效率和灵活性。
- Motivation: 神经BRDF在物理渲染中提升真实感,但其重要性采样仍具挑战性。
- Method: 通过重参数化将分布学习任务转化为BRDF积分替换问题,避免依赖可逆网络和多步推理。
- Result: 在神经BRDF渲染中实现了最佳方差减少,同时保持高推理速度。
- Conclusion: 该方法为神经BRDF重要性采样提供了更高效和灵活的解决方案。
[84] UMotion: Uncertainty-driven Human Motion Estimation from Inertial and Ultra-wideband Units
Huakun Liu,Hiroki Ota,Xin Wei,Yutaro Hirao,Monica Perusquia-Hernandez,Hideaki Uchiyama,Kiyoshi Kiyokawa
Main category: cs.GR
TL;DR: UMotion是一个基于不确定性驱动的在线融合状态估计框架,结合IMU和UWB传感器,用于3D人体形状和姿态估计,解决了姿态模糊、数据漂移和身体多样性适应问题。
- Motivation: 稀疏可穿戴IMU在3D人体运动估计中存在姿态模糊、数据漂移和适应性不足的问题,需要一种更鲁棒的解决方案。
- Method: 提出UMotion框架,结合IMU和UWB传感器,通过UKF实时融合传感器数据和人体运动约束,优化估计结果。
- Result: 实验表明,UMotion能稳定传感器数据,并在姿态估计精度上优于现有技术。
- Conclusion: UMotion通过多传感器融合和不确定性管理,有效提升了3D人体运动估计的准确性和鲁棒性。
cs.RO
[85] Parameter-Efficient Fine-Tuning of Vision Foundation Model for Forest Floor Segmentation from UAV Imagery
Mohammad Wasil,Ahmad Drak,Brennan Penfold,Ludovico Scarton,Maximilian Johenneken,Alexander Asteroth,Sebastian Houben
Main category: cs.RO
TL;DR: 论文提出了一种基于Segment Anything Model (SAM)的方法,用于无人机在森林地面对象(如树桩、植被和木质残骸)的自动分割,通过参数高效微调(PEFT)优化模型性能。
- Motivation: 森林地面对象的详细理解因高自然变异性、快速变化的环境参数和模糊的注释定义而具有挑战性。
- Method: 采用参数高效微调(PEFT)方法,调整SAM的掩码解码器以自动生成对应数据类别的掩码。
- Result: 基于适配器的PEFT方法实现了最高的平均交并比(mIoU),而低秩适应(LoRA)则为资源受限的无人机平台提供了轻量级替代方案。
- Conclusion: 该方法有效解决了森林地面对象分割的挑战,同时为资源受限平台提供了优化选择。
[86] Multi-step manipulation task and motion planning guided by video demonstration
Kateryna Zorina,David Kovar,Mederic Fourmy,Florent Lamiraux,Nicolas Mansard,Justin Carpentier,Josef Sivic,Vladimir Petrik
Main category: cs.RO
TL;DR: 利用教学视频指导机器人完成复杂多步任务与运动规划,提出基于RRT的扩展方法,结合视频提取的接触状态和3D物体位姿,解决顺序依赖任务。
- Motivation: 解决机器人复杂多步任务规划问题,利用教学视频提供直观指导。
- Method: 扩展RRT规划器,结合视频提取的接触状态和3D物体位姿,设计轨迹优化方法。
- Result: 在多个机器人平台上验证有效性,设计了新基准任务并展示泛化能力。
- Conclusion: 视频引导的规划方法能有效解决复杂任务,并具有实际应用潜力。
[87] RT-cache: Efficient Robot Trajectory Retrieval System
Owen Kwon,Abraham George,Alison Bartsch,Amir Barati Farimani
Main category: cs.RO
TL;DR: RT-cache通过存储和检索成功轨迹片段,显著降低机器人推理延迟,提升任务完成速度和成功率。
- Motivation: 现代视觉-语言-动作模型在多样任务中表现优异,但单步推理成本高,导致延迟问题。RT-cache旨在通过经验学习和大数据检索解决这一问题。
- Method: RT-cache结合Memory Builder和Trajectory Retrieval,存储大规模成功轨迹,并在匹配场景时快速检索多步运动片段。
- Result: 实验表明,RT-cache在Open-X Embodiment Dataset等数据上比无检索基线更快、更成功地完成任务。
- Conclusion: RT-cache为实时机器人操作提供了一种高效、数据驱动的解决方案。
[88] FoldNet: Learning Generalizable Closed-Loop Policy for Garment Folding via Keypoint-Driven Asset and Demonstration Synthesis
Yuxing Chen,Bowen Xiao,He Wang
Main category: cs.RO
TL;DR: 提出了一种用于机器人衣物折叠任务的合成数据集,通过几何模板和生成模型生成高质量数据,并利用关键点标注训练折叠策略,最终在真实世界中达到75%的成功率。
- Motivation: 由于衣物的可变形性,为机器人衣物操作任务生成大量高质量数据具有挑战性。本文旨在解决这一问题。
- Method: 构建几何衣物模板,应用生成模型生成纹理,利用关键点标注生成折叠演示数据,并通过闭环模仿学习训练策略。提出KG-DAgger方法增强鲁棒性。
- Result: KG-DAgger显著提升性能,真实世界成功率提高25%,最终达到75%的成功率。
- Conclusion: 实验验证了所提框架的有效性,为机器人衣物折叠任务提供了高质量数据和高效训练方法。
[89] TransDiffuser: End-to-end Trajectory Generation with Decorrelated Multi-modal Representation for Autonomous Driving
Xuefeng Jiang,Yuan Ma,Pengxiang Li,Leimeng Xu,Xin Wen,Kun Zhan,Zhongpu Xia,Peng Jia,XianPeng Lang,Sheng Sun
Main category: cs.RO
TL;DR: TransDiffuser是一种基于扩散模型的端到端自动驾驶轨迹规划模型,通过多模态条件输入和去相关优化机制生成高质量多样化轨迹。
- Motivation: 将扩散模型的潜力扩展到自动驾驶领域,解决轨迹规划中的模式崩溃问题。
- Method: 采用编码器-解码器结构,利用多模态条件输入和训练中的去相关优化机制。
- Result: 在NAVSIM基准测试中达到94.85 PDMS,超越现有方法。
- Conclusion: TransDiffuser展示了扩散模型在自动驾驶轨迹规划中的有效性。
[90] APR-Transformer: Initial Pose Estimation for Localization in Complex Environments through Absolute Pose Regression
Srinivas Ravuri,Yuan Xu,Martin Ludwig Zehetner,Ketan Motlag,Sahin Albayrak
Main category: cs.RO
TL;DR: APR-Transformer是一种基于深度神经网络的模型,用于预测绝对姿态(3D位置和方向),在GNSS信号缺失的环境中表现出色。
- Motivation: 精确的初始定位对机器人、自动驾驶和计算机视觉至关重要,传统方法在GNSS信号缺失时表现不佳。
- Method: 提出APR-Transformer模型,利用图像或LiDAR数据预测绝对姿态,并在多个数据集上测试。
- Result: 在Radar Oxford Robot-Car和DeepLoc等数据集上达到最优性能,并在实际自动驾驶车辆中验证了可靠性。
- Conclusion: APR-Transformer在复杂环境中具有实用性和高效性,代码已开源。
cs.MM
[91] Toward Accessible and Safe Live Streaming Using Distributed Content Filtering with MoQ
Andrew C. Freeman
Main category: cs.MM
TL;DR: 本文提出了一种基于Media Over QUIC Transport协议的实时内容审核方法,适用于一对多视频直播流,仅删除违规内容片段,同时支持客户端分布式分析任务。
- Motivation: 随着直播流媒体的普及,实时内容审核的需求日益增长,但现有技术难以在低延迟下实现高效审核。
- Method: 扩展Media Over QUIC Transport协议,实现实时内容审核,支持分布式客户端分析任务。
- Result: 系统在光敏性观众场景下测试,仅增加一个GOP(图像组)时长的延迟。
- Conclusion: 该方法有效解决了直播流实时内容审核的延迟问题,同时支持灵活的内容分析任务分配。
cs.LG
[92] Optimizing Urban Critical Green Space Development Using Machine Learning
Mohammad Ganjirad,Mahmoud Reza Delavar,Hossein Bagheri,Mohammad Mehdi Azizi
Main category: cs.LG
TL;DR: 本文提出了一种基于多源数据的城市绿地开发优先级框架,结合机器学习模型和微气候模拟,为德黑兰的绿地规划提供了科学依据。
- Motivation: 由于德黑兰绿地分布不均且气象站数据不足,需要一种系统化的方法来优先开发绿地,以改善城市环境和居民生活质量。
- Method: 使用WRF模型估算气温,结合多种机器学习模型(如XGBoost、LightGBM、RF)进行植被覆盖分类,并通过特征重要性分析确定关键指标。
- Result: RF模型表现最佳(准确率>94%),夜间地表温度和敏感人口是最重要指标;微气候模拟显示绿色屋顶技术可降温0.67°C。
- Conclusion: 该框架为城市绿地规划提供了高效工具,显著改善了城市微气候。
[93] GreenFactory: Ensembling Zero-Cost Proxies to Estimate Performance of Neural Networks
Gabriel Cortês,Nuno Lourenço,Paolo Romano,Penousal Machado
Main category: cs.LG
TL;DR: GreenFactory是一种集成零成本代理的方法,通过随机森林回归器直接预测模型测试准确率,解决了传统代理方法泛化性差和仅提供相对排名的问题。
- Motivation: 传统神经架构搜索中评估性能需要训练和评估每个网络,耗时且资源密集;现有零成本代理方法泛化性差且仅提供相对排名。
- Method: 提出GreenFactory,集成多个零成本代理,利用随机森林回归器直接预测模型测试准确率。
- Result: 在NATS-Bench上表现优异,Kendall相关系数高(如CIFAR-10为0.907),验证了其可靠性和泛化能力。
- Conclusion: GreenFactory在神经架构搜索中提供高效、准确的性能预测,适用于多样化场景。
Powered by Deepseek & arXiv Daily AI Enhanced