以下论文的arXiv类型标签包含:cs.CV
Powered by Deepseek & arXiv Daily AI Enhanced
cs.CV
[1] Understanding and Mitigating Toxicity in Image-Text Pretraining Datasets: A Case Study on LLaVA
Karthik Reddy Kanjula,Surya Guthikonda,Nahid Alam,Shayekh Bin Islam
Main category: cs.CV
TL;DR: 本文分析了LLaVA图像-文本预训练数据集中的毒性内容,提出了针对性缓解策略,并创建了一个经过优化的毒性缓解数据集。
- Motivation: 预训练数据集通常包含来自网络规模语料库的偏见和毒性内容,研究旨在识别和缓解这些内容以构建更负责任的多模态系统。
- Method: 通过全面分析常见的毒性类别,提出针对性缓解策略,并移除7,531个有毒图像-文本对。
- Result: 创建了一个毒性缓解的数据集,并提供了实施毒性检测管道的指南。
- Conclusion: 研究强调了主动识别和过滤毒性内容的必要性,以构建更公平的多模态系统,数据集已开源供进一步研究。
[2] Robust & Precise Knowledge Distillation-based Novel Context-Aware Predictor for Disease Detection in Brain and Gastrointestinal
Saif Ur Rehman Khan,Muhammad Nabeel Asim,Sebastian Vollmer,Andreas Dengel
Main category: cs.CV
TL;DR: 提出了一种结合蚁群优化和上下文感知预测器的知识蒸馏框架,显著提升了医学图像疾病预测的性能。
- Motivation: 医学图像数据复杂多变,传统知识蒸馏方法在处理不确定性和泛化能力上存在局限。
- Method: 整合蚁群优化选择最优师生模型对,并采用上下文感知预测器动态调整温度参数。
- Result: 在三个公开数据集上表现优异,准确率分别达到98.01%、92.81%和96.20%。
- Conclusion: 该框架显著优于现有方法,为医学图像疾病预测提供了更鲁棒的解决方案。
[3] Deep Learning-Based Robust Optical Guidance for Hypersonic Platforms
Adrien Chan-Hon-Tong,Aurélien Plyer,Baptiste Cadalen,Laurent Serre
Main category: cs.CV
TL;DR: 本文提出了一种基于深度网络的图像堆叠编码方法,以克服传统参考图像框架的结构限制,适用于双模态场景(如雪景与非雪景)。
- Motivation: 传统参考图像框架存在结构限制,无法满足长距离平台的传感器引导需求,尤其是在双模态场景下。
- Method: 将场景的图像堆叠编码到深度网络中,利用堆叠图像的优势。
- Result: 该方法在双模态场景(如雪景与非雪景)中表现出有效性。
- Conclusion: 通过深度网络编码图像堆叠,能够有效解决传统方法的局限性,适用于复杂场景。
[4] Toward Advancing License Plate Super-Resolution in Real-World Scenarios: A Dataset and Benchmark
Valfride Nascimento,Gabriel E. Lima,Rafael O. Ribeiro,William Robson Schwartz,Rayson Laroca,David Menotti
Main category: cs.CV
TL;DR: 论文提出了一种新的数据集UFPR-SR-Plates,用于车牌超分辨率研究,并展示了超分辨率和融合策略对车牌识别性能的提升。
- Motivation: 解决现有研究中依赖私有数据集和简单退化模型的问题,提升低分辨率车牌图像识别的准确性。
- Method: 引入包含10万对低分辨率和高分辨率车牌图像的数据集,使用两种先进超分辨率模型,并研究三种融合策略。
- Result: 超分辨率显著提升车牌识别性能,结合多数投票融合策略后,识别率从1.7%提升至44.7%。
- Conclusion: 超分辨率和时间信息在恶劣条件下对车牌识别至关重要,公开数据集支持进一步研究。
[5] MAGE:A Multi-stage Avatar Generator with Sparse Observations
Fangyu Du,Yang Yang,Xuehao Gao,Hongye Hou
Main category: cs.CV
TL;DR: 论文提出了一种名为MAGE的多阶段虚拟人生成器,用于从仅包含头部和手腕3个关节的观测数据中推断全身姿态,解决了传统单阶段映射方法在未观测关节运动预测中的问题。
- Motivation: 从仅捕捉头部和手腕3个关节的头戴设备中推断全身姿态是一个具有挑战性的任务,传统单阶段映射方法因推理空间过大导致预测不理想。
- Method: MAGE采用多阶段渐进预测策略,从6部分身体表示逐步细化到22个关节,通过引入更多运动上下文先验减少模糊性。
- Result: 在大规模数据集上的实验表明,MAGE在准确性和连续性上显著优于现有方法。
- Conclusion: MAGE通过多阶段渐进预测策略有效提升了全身姿态推断的准确性和连续性。
[6] Natural Reflection Backdoor Attack on Vision Language Model for Autonomous Driving
Ming Liu,Siyuan Liang,Koushik Howlader,Liwen Wang,Dacheng Tao,Wensheng Zhang
Main category: cs.CV
TL;DR: 论文提出了一种基于自然反射的后门攻击方法,针对自动驾驶中的视觉语言模型(VLM),通过嵌入微弱的反射模式和无关文本前缀,诱导模型在触发时产生异常延迟。
- Motivation: 研究自动驾驶中VLM系统对后门攻击的鲁棒性不足问题,揭示其潜在安全隐患。
- Method: 在DriveLM数据集中嵌入自然反射模式,并添加无关文本前缀,通过参数高效方法微调Qwen2-VL和LLaMA-Adapter模型。
- Result: 模型在干净输入下表现正常,但在触发时推理延迟显著增加,可能导致自动驾驶决策危险延迟。
- Conclusion: 该攻击方法暴露了VLM增强驾驶系统的安全漏洞,对实时性要求严格的自动驾驶系统构成挑战。
[7] My Emotion on your face: The use of Facial Keypoint Detection to preserve Emotions in Latent Space Editing
Jingrui He,Andrew Stephen McGough
Main category: cs.CV
TL;DR: 论文提出了一种通过在预训练的StyleGAN/2模型中结合人脸关键点检测损失函数的方法,以减少面部特征编辑中的纠缠问题,从而保持表情不变。
- Motivation: 解决StyleGAN/2在面部特征编辑中因纠缠问题导致的表情变化,为手势研究提供可靠的数据增强方法。
- Method: 在现有模型的基础上,加入预训练的人脸关键点检测模型提供的HFLD损失函数,限制面部表情的变化。
- Result: 实验表明,该方法能减少49%的表情变化,并在定量和定性评估中优于现有模型。
- Conclusion: 通过减少表情变化,该方法为面部手势和表情研究提供了可靠的数据增强手段。
[8] PromptIQ: Who Cares About Prompts? Let System Handle It -- A Component-Aware Framework for T2I Generation
Nisan Chhetri,Arpan Sainju
Main category: cs.CV
TL;DR: PromptIQ是一个自动化框架,通过改进提示和评估图像质量,解决了文本到图像(T2I)模型中提示工程的问题。
- Motivation: 当前T2I模型对结构不良的提示容易产生误解,导致图像失真和不对齐,而现有评估方法(如CLIP)无法捕捉结构不一致性。
- Method: 提出PromptIQ框架,使用新颖的Component-Aware Similarity(CAS)指标来检测和惩罚结构错误,并迭代生成和评估图像。
- Result: PromptIQ显著提高了生成质量和评估准确性,使T2I模型对非专业用户更易用。
- Conclusion: PromptIQ通过自动化提示优化和评估,解决了T2I模型的可访问性问题。
[9] HCMA: Hierarchical Cross-model Alignment for Grounded Text-to-Image Generation
Hang Wang,Zhi-Qi Cheng,Chenhao Lin,Chao Shen,Lei Zhang
Main category: cs.CV
TL;DR: HCMA框架通过全局和局部对齐模块,在文本到图像生成中实现了语义保真和空间控制的平衡,显著提升了性能。
- Motivation: 现有方法在复杂场景中难以同时满足高级语义保真和明确的空间控制需求。
- Method: HCMA框架在扩散采样步骤中集成了全局和局部对齐模块,分别确保场景级连贯性和细粒度空间控制。
- Result: 在MS-COCO 2014验证集上,HCMA在FID和CLIP Score上分别提升了0.69和0.0295。
- Conclusion: HCMA为语义基础的图像生成提供了高效解决方案,能够忠实捕捉复杂语义并遵循空间约束。
[10] RESAR-BEV: An Explainable Progressive Residual Autoregressive Approach for Camera-Radar Fusion in BEV Segmentation
Zhiwen Zeng,Yunfei Yin,Zheng Yuan,Argho Dey,Xianjian Bao
Main category: cs.CV
TL;DR: RESAR-BEV是一个渐进式优化的BEV语义分割框架,通过残差自回归学习和多模态特征提取,显著提升了自动驾驶环境感知的准确性和鲁棒性。
- Motivation: 解决BEV语义分割中的多模态错位和传感器噪声问题,提升自动驾驶的环境感知能力。
- Method: 采用渐进式优化框架,结合Drive-Transformer和Modifier-Transformer的残差预测架构,以及双路径体素特征编码和分离监督策略。
- Result: 在nuScenes数据集上达到54.0% mIoU,实时性能为14.6 FPS,在远距离感知和恶劣天气条件下表现出鲁棒性。
- Conclusion: RESAR-BEV通过渐进式优化和多模态特征融合,实现了高性能的BEV语义分割,适用于复杂驾驶场景。
[11] Quantum Conflict Measurement in Decision Making for Out-of-Distribution Detection
Yilin Dong,Tianyun Zhu,Xinde Li,Jean Dezert,Rigui Zhou,Changming Zhu,Lei Cao,Shuzhi Sam Ge
Main category: cs.CV
TL;DR: 论文提出了一种量子冲突指示器(QCI)用于测量量子Dempster-Shafer理论(QDST)中多个量子质量函数(QMF)之间的冲突,并验证了其优越性。此外,基于QCI的融合方法在OOD检测任务中表现优异。
- Motivation: QDST中多个QMF之间的冲突管理是一个挑战性问题,需要一种有效的冲突测量方法。
- Method: 提出QCI测量冲突,并研究其性质;基于QCI提出冲突融合方法,并应用于C-DDS和C-DDS+以解决OOD检测任务。
- Result: QCI满足冲突测量的理想性质;基于QCI的融合方法在OOD检测中优于基线方法,AUC提升1.2%,FPR95降低5.4%。
- Conclusion: QCI是一种有效的冲突测量工具,其融合方法在OOD检测中表现优越,具有实际应用价值。
[12] Edge-Enabled VIO with Long-Tracked Features for High-Accuracy Low-Altitude IoT Navigation
Xiaohong Huang,Cui Yang,Miaowen Wen
Main category: cs.CV
TL;DR: 提出了一种基于长跟踪特征的视觉惯性里程计(VIO)方法,通过主动解耦累积误差和优化实时性能,提高了定位精度。
- Motivation: 长跟踪特征能约束更多视觉帧,减少定位漂移,但会引入累积匹配误差和跟踪漂移。现有方法基于重投影误差调整权重存在缺陷,可能误导优化过程。
- Method: 提出主动解耦机制,包括视觉参考帧重置策略和深度预测策略;采用三种策略优化实时性能:并行消除、逆深度消除简化和跳过消除。
- Result: 实验表明,该方法在多种数据集上实现了更高的定位精度和较短的耗时,适用于边缘设备上的低空物联网导航。
- Conclusion: 该方法通过解耦累积误差和优化实时性能,显著提升了长跟踪特征在VIO中的有效性,适用于高精度和实时性要求高的场景。
[13] Causal Prompt Calibration Guided Segment Anything Model for Open-Vocabulary Multi-Entity Segmentation
Jingyao Wang,Jianqi Zhang,Wenwen Qiang,Changwen Zheng
Main category: cs.CV
TL;DR: 论文提出CPC-SAM方法,通过因果提示校准解决SAM在开放词汇多实体分割中的泛化问题。
- Motivation: 研究发现SAM在开放词汇多实体分割中存在泛化问题,主要原因是提示偏差与任务无关的生成因素。
- Method: 提出CPC-SAM方法,通过轻量级因果提示学习器(CaPL)校准提示,实现任务相关因果因素的提取。
- Result: 实验验证CPC-SAM在开放词汇多实体分割中的优越性。
- Conclusion: 因果提示校准是解决SAM泛化问题的有效方法。
[14] Improving Generalization of Medical Image Registration Foundation Model
Jing Hu,Kaiwei Yu,Hongjiang Xian,Shu Hu,Xin Wang
Main category: cs.CV
TL;DR: 本文提出了一种将Sharpness-Aware Minimization(SAM)融入基础模型的方法,以提高医学图像配准的泛化性和鲁棒性。
- Motivation: 传统医学图像配准方法计算效率低,而深度学习方法缺乏灵活性和跨任务泛化能力。基础模型虽具潜力,但在面对新解剖结构或成像条件时仍存在挑战。
- Method: 将SAM融入基础模型,通过优化损失函数的平坦性,提升模型在多样化数据分布中的稳定性。
- Result: 实验表明,结合SAM的基础模型在跨数据集配准性能上有显著提升。
- Conclusion: 该方法为医学图像配准技术的进步提供了新思路。
[15] Unmasking Deep Fakes: Leveraging Deep Learning for Video Authenticity Detection
Mahmudul Hasan
Main category: cs.CV
TL;DR: 论文提出了一种基于卷积神经网络(CNN)的深度伪造视频检测方法,使用MTCNN进行人脸检测和EfficientNet-B5作为编码器模型,在Kaggle DFDC数据集上取得了较好的性能。
- Motivation: 深度伪造视频对数字媒体的真实性构成挑战,需要先进的方法检测其细微的不一致性。
- Method: 采用MTCNN进行人脸检测,EfficientNet-B5作为编码器模型,通过深度学习技术识别深度伪造视频。
- Result: 模型在Kaggle DFDC数据集上取得了42.78%的对数损失、93.80%的AUC和86.82%的F1分数。
- Conclusion: 深度学习技术能有效检测深度伪造视频,未来可进一步优化模型性能。
[16] TACFN: Transformer-based Adaptive Cross-modal Fusion Network for Multimodal Emotion Recognition
Feng Liu,Ziwang Fu,Yunlong Wang,Qijian Zheng
Main category: cs.CV
TL;DR: 提出了一种基于Transformer的自适应跨模态融合网络(TACFN),通过自注意力机制选择特征并优化跨模态交互,显著提升了多模态情感识别性能。
- Motivation: 现有跨模态注意力方法存在冗余特征且未能有效捕捉互补特征,需要一种更高效的融合方法。
- Method: 设计TACFN,利用自注意力机制进行模态内特征选择,并通过拼接权重向量实现模态间特征强化。
- Result: 在RAVDESS和IEMOCAP数据集上,TACFN性能显著优于其他方法,达到最优水平。
- Conclusion: TACFN通过自适应特征选择和强化,有效解决了跨模态融合中的冗余和互补问题,提升了情感识别效果。
[17] ProFashion: Prototype-guided Fashion Video Generation with Multiple Reference Images
Xianghao Kong,Qiaosong Qi,Yuanbin Wang,Anyi Rao,Biaolong Chen,Aixi Zhang,Si Liu,Hao Jiang
Main category: cs.CV
TL;DR: ProFashion提出了一种基于多参考图像的时尚视频生成框架,通过姿态感知原型聚合器和流增强原型实例化器提升视角一致性和运动一致性。
- Motivation: 现有基于扩散的方法仅支持单参考图像输入,限制了视角一致性生成能力,且运动模块对人体运动建模不足。
- Method: 提出Pose-aware Prototype Aggregator和Flow-enhanced Prototype Instantiator,分别利用多参考图像特征和人体关键点运动流。
- Result: 在MRFashion-7K和UBC Fashion数据集上表现优于现有方法。
- Conclusion: ProFashion通过多参考图像和运动流优化,显著提升了时尚视频生成的视角和运动一致性。
[18] HDGlyph: A Hierarchical Disentangled Glyph-Based Framework for Long-Tail Text Rendering in Diffusion Models
Shuhan Zhuang,Mengqi Huang,Fengyi Fu,Nan Chen,Bohan Lei,Zhendong Mao
Main category: cs.CV
TL;DR: HDGlyph框架通过分层解耦文本生成与非文本视觉合成,优化常见和长尾文本渲染,显著提升英文和中文文本渲染准确率。
- Motivation: 解决当前方法在处理未见或小尺寸文本时的长尾问题,提升商业设计等应用的视觉文本渲染效果。
- Method: 提出HDGlyph框架,包括Multi-Linguistic GlyphNet和Glyph-Aware Perceptual Loss训练阶段方法,以及Noise-Disentangled Classifier-Free Guidance和LD-TSR推理阶段方案。
- Result: 在英文和中文文本渲染中分别提升5.08%和11.7%的准确率,同时在长尾场景中表现优异。
- Conclusion: HDGlyph在文本渲染准确率和图像质量上均优于现有方法,尤其适用于长尾场景。
[19] Weakly Supervised Temporal Sentence Grounding via Positive Sample Mining
Lu Dong,Haiyu Zhang,Hongjie Zhang,Yifei Huang,Zhen-Hua Ling,Yu Qiao,Limin Wang,Yali Wang
Main category: cs.CV
TL;DR: 提出了一种名为PSM的新框架,通过挖掘正样本来提升弱监督时序句子定位任务的性能。
- Motivation: 现有方法将高度相似的样本直接视为负样本,导致优化困难并忽略相关性。
- Method: 提出PSM框架,基于文本查询相似性划分样本,并引入PSM引导的对比损失和排序损失。
- Result: 在WSTSG和VideoQA任务中验证了方法的有效性和优越性。
- Conclusion: PSM框架通过挖掘正样本和优化损失函数,显著提升了任务性能。
[20] Dynamic Uncertainty Learning with Noisy Correspondence for Text-Based Person Search
Zequn Xie,Haoming Ji,Lingwei Meng
Main category: cs.CV
TL;DR: 论文提出DURA框架,通过KFS和DSH-Loss解决文本-图像对中的噪声问题,提升检索性能。
- Motivation: 在线数据集中存在噪声(如不匹配的文本-图像对),现有方法可能放大噪声,影响检索效果。
- Method: 提出DURA框架,包括KFS(建模噪声不确定性)和DSH-Loss(动态调整负样本难度)。
- Result: 在三个数据集上验证,DURA在低噪声和高噪声场景下均表现优异。
- Conclusion: DURA框架有效提升噪声环境下的检索性能,具有强鲁棒性。
[21] ElectricSight: 3D Hazard Monitoring for Power Lines Using Low-Cost Sensors
Xingchen Li,LiDian Wang,Yu Sheng,ZhiPeng Tang,Haojie Ren,Guoliang You,YiFan Duan,Jianmin Ji,Yanyong Zhang
Main category: cs.CV
TL;DR: ElectricSight系统通过结合实时图像和环境点云先验,实现了低成本且精确的3D距离测量,用于电力传输线的潜在威胁监测。
- Motivation: 现有传感器方法在电力传输线距离测量中难以平衡精度与成本,摄像头缺乏深度信息,而3D激光成本过高。
- Method: 提出ElectricSight系统框架和单目深度估计方法,结合点云数据提升图像估计的准确性和可靠性。
- Result: 实验显示,ElectricSight的平均测量精度为1.08米,预警准确率达92%。
- Conclusion: ElectricSight为电力传输线安全监测提供了一种低成本、高精度的解决方案。
[22] GRACE: Estimating Geometry-level 3D Human-Scene Contact from 2D Images
Chengfeng Wang,Wei Zhai,Yuhang Yang,Yang Cao,Zhengjun Zha
Main category: cs.CV
TL;DR: GRACE提出了一种新的3D人-场景接触估计方法,通过结合点云编码-解码架构和分层特征提取模块,有效整合3D几何结构与2D图像语义,提升了预测精度和泛化能力。
- Motivation: 现有方法主要依赖参数化人体模型(如SMPL),缺乏对几何结构的考虑,限制了其泛化能力。GRACE旨在通过几何级推理解决这一问题。
- Method: GRACE采用点云编码-解码架构和分层特征提取与融合模块,建立从几何特征到3D网格顶点空间的隐式映射。
- Result: 在多个基准数据集上,GRACE实现了最先进的接触估计性能,并展示了其对非结构化点云的强泛化能力。
- Conclusion: GRACE通过几何级推理显著提升了3D人-场景接触估计的精度和泛化能力,为相关应用提供了有力支持。
[23] Two-Stage Random Alternation Framework for Zero-Shot Pansharpening
Haorui Chen,Zeyu Ren,Jiaxuan Ren,Ran Ran,Jinliang Shao,Jie Huang,Liangjian Deng
Main category: cs.CV
TL;DR: 提出了一种名为TRA-PAN的两阶段随机交替框架,通过结合降分辨率图像的强监督约束和全分辨率图像的物理特性,解决了深度学习全色锐化方法中高分辨率图像获取困难的问题。
- Motivation: 深度学习全色锐化方法因缺乏真实高分辨率图像而受限,需要一种能有效利用降分辨率和全分辨率图像的方法。
- Method: 采用两阶段框架:第一阶段通过Degradation-Aware Modeling(DAM)和预热过程预训练;第二阶段通过Random Alternation Optimization(RAO)优化模型。
- Result: TRA-PAN在定量指标和视觉质量上均优于现有方法,且仅需单对图像即可实现零样本训练。
- Conclusion: TRA-PAN具有强实用性,适用于真实场景,解决了数据获取难题。
[24] Compact and Efficient Neural Networks for Image Recognition Based on Learned 2D Separable Transform
Maxim Vashkevich,Egor Krivalcevich
Main category: cs.CV
TL;DR: 论文提出了一种学习型二维可分离变换(LST),作为构建图像识别任务神经网络的新计算层,显著减少了模型参数。
- Motivation: 传统全连接层参数过多,LST通过共享权重减少参数,同时保持性能。
- Method: LST通过两个共享全连接层分别处理图像的行和列,构建紧凑神经网络。
- Result: 在MNIST数据集上,单LST层加全连接层达到98.02%准确率,仅需9.5k参数。
- Conclusion: LST为设计紧凑高效的神经网络提供了新方法,适合硬件实现。
[25] Batch Augmentation with Unimodal Fine-tuning for Multimodal Learning
H M Dipu Kabir,Subrota Kumar Mondal,Mohammad Ali Moni
Main category: cs.CV
TL;DR: 论文提出了一种结合单模态微调和批量增强的方法,用于从超声图像和相关临床文本信息中检测胎儿器官。通过预训练初始层和多模态训练,结合图像和文本特征,取得了优异的结果。
- Motivation: 目标是通过结合超声图像和临床文本信息,提高胎儿器官检测的准确性。
- Method: 采用单模态预训练初始层,结合批量增强技术,提取图像特征和文本信息,最后通过多模态训练优化模型。
- Result: 在FPU23超声和UPMC Food-101数据集上表现优异,接近SOTA性能。
- Conclusion: 提出的方法在多模态数据上表现最佳,代码已开源。
[26] ReplayCAD: Generative Diffusion Replay for Continual Anomaly Detection
Lei Hu,Zhiyong Gan,Ling Deng,Jinglin Liang,Lingyu Liang,Shuangping Huang,Tianshui Chen
Main category: cs.CV
TL;DR: ReplayCAD是一种基于扩散模型的生成重放框架,用于解决持续异常检测中的灾难性遗忘和小异常区域分割问题,通过保留像素级细节特征提升性能。
- Motivation: 持续异常检测面临灾难性遗忘和小异常区域分割的挑战,现有方法无法保留像素级细节特征。
- Method: 提出ReplayCAD框架,利用预训练扩散模型的语义嵌入和空间特征生成高质量历史数据,保留细节并提升多样性。
- Result: 在分类和分割任务中达到SOTA性能,分割性能显著提升(VisA提升11.5%,MVTec提升8.1%)。
- Conclusion: ReplayCAD通过生成高质量历史数据有效解决了持续异常检测的关键问题,性能显著优于现有方法。
[27] Reducing Unimodal Bias in Multi-Modal Semantic Segmentation with Multi-Scale Functional Entropy Regularization
Xu Zheng,Yuanhuiyi Lyu,Lutao Jiang,Danda Pani Paudel,Luc Van Gool,Xuming Hu
Main category: cs.CV
TL;DR: 提出了一种基于功能熵的简单有效的正则化方法,用于平衡多模态输入在语义分割任务中的贡献,避免单模态主导问题。
- Motivation: 解决多模态框架中单模态主导的问题,提升在真实场景中模态缺失时的鲁棒性。
- Method: 利用功能熵和log-Sobolev不等式设计正则化项,无需额外参数,平衡各模态贡献。
- Result: 在三个数据集上性能显著提升(+13.94%、+3.25%、+3.64%)。
- Conclusion: 该方法有效缓解单模态主导问题,提升了多模态语义分割的平衡性和鲁棒性。
[28] Dataset Distillation with Probabilistic Latent Features
Zhe Li,Sarah Cechnicka,Cheng Ouyang,Katharina Breininger,Peter Schüffler,Bernhard Kainz
Main category: cs.CV
TL;DR: 提出一种新的随机方法,通过建模潜在特征的联合分布来合成紧凑数据集,降低存储和计算成本。
- Motivation: 随着深度学习模型复杂性和训练数据量的增加,减少存储和计算成本变得尤为重要。
- Method: 采用低秩多元正态分布参数化轻量网络,建模潜在特征的联合分布,生成多样化合成样本。
- Result: 在多个基准测试(如ImageNet子集、CIFAR-10和MedMNIST)上实现跨架构的最优性能。
- Conclusion: 该方法具有通用性和有效性,能够显著提升数据集蒸馏的性能。
[29] METOR: A Unified Framework for Mutual Enhancement of Objects and Relationships in Open-vocabulary Video Visual Relationship Detection
Yongqi Wang,Xinxiao Wu,Shuo Yang
Main category: cs.CV
TL;DR: METOR是一个基于查询的统一框架,用于在开放词汇场景中联合建模和增强对象检测与关系分类,通过CLIP上下文细化编码模块和迭代增强模块提升性能。
- Motivation: 现有方法采用级联流程检测对象和分类关系,可能导致错误传播和性能不佳,因此需要一种联合建模的方法来提升效果。
- Method: 设计CLIP上下文细化编码模块以提取视觉上下文,改进文本特征和对象查询的编码;提出迭代增强模块,利用对象和关系的相互依赖性增强表示。
- Result: 在VidVRD和VidOR数据集上实现了最先进的性能。
- Conclusion: METOR框架通过联合建模和相互增强对象与关系,显著提升了开放词汇视频视觉关系检测的性能。
[30] MultiTaskVIF: Segmentation-oriented visible and infrared image fusion via multi-task learning
Zixian Zhao,Andrew Howes,Xingchen Zhang
Main category: cs.CV
TL;DR: 提出了一种名为MultiTaskVIF的简洁通用训练框架,通过多任务头解码器(MTH)在训练中同时输出融合图像和分割结果,避免了传统级联结构的复杂性和冗余。
- Motivation: 现有分割导向的可见光和红外图像融合方法采用级联结构,导致网络复杂且冗余,需要更简洁高效的结构直接整合语义信息。
- Method: 提出MultiTaskVIF框架,引入多任务头解码器(MTH),在训练中同时输出融合图像和分割结果,无需完整分割模型。
- Result: 实验验证了该方法的有效性。
- Conclusion: MultiTaskVIF提供了一种简洁高效的方式,直接在融合模型中整合语义信息。
[31] StableMotion: Repurposing Diffusion-Based Image Priors for Motion Estimation
Ziyi Wang,Haipeng Li,Lin Sui,Tianhao Zhou,Hai Jiang,Lang Nie,Shuaicheng Liu
Main category: cs.CV
TL;DR: StableMotion是一个新颖的框架,利用预训练的大规模图像扩散模型的知识(几何和内容先验)进行运动估计,解决单图像任务(如图像拼接矫正和卷帘快门校正)。通过自适应集成策略(AES)和采样步骤灾难(SSD)概念,实现了高保真结果和一步推理,速度提升200倍。
- Motivation: 解决单图像任务(如SIR和RSC)中运动估计的挑战,利用扩散模型的先验知识提升性能。
- Method: 以Stable Diffusion模型为骨干,提出AES整合多输出,利用SSD概念实现一步推理。
- Result: 在两个图像矫正任务中达到SOTA性能,速度提升200倍,并展示强泛化能力。
- Conclusion: StableMotion通过创新策略和SSD概念,高效解决了图像矫正任务,性能显著优于现有方法。
[32] Video Dataset Condensation with Diffusion Models
Zhe Li,Hadrien Reynaud,Mischa Dombrowski,Sarah Cechnicka,Franciskus Xaverius Erick,Bernhard Kainz
Main category: cs.CV
TL;DR: 论文提出了一种基于视频扩散模型和VST-UNet的视频数据集蒸馏方法,通过TAC-DT算法提升计算效率,性能优于现有方法。
- Motivation: 解决现有数据集蒸馏方法在视频领域性能不足和数据质量差的问题。
- Method: 使用视频扩散模型生成高质量合成视频,引入VST-UNet选择代表性视频,并采用TAC-DT算法优化计算效率。
- Result: 在四个基准数据集上性能提升高达10.61%,优于现有方法。
- Conclusion: 该方法为视频数据集蒸馏设立了新基准。
[33] Jailbreaking the Text-to-Video Generative Models
Jiayang Liu,Siyuan Liang,Shiqian Zhao,Rongcheng Tu,Wenbo Zhou,Xiaochun Cao,Dacheng Tao,Siew Kei Lam
Main category: cs.CV
TL;DR: 本文提出了一种针对文本到视频生成模型的优化越狱攻击方法,通过优化目标生成绕过安全过滤的提示,并提升生成视频的语义相似性。
- Motivation: 现有文本到视频模型易受越狱攻击生成不安全内容,但缺乏系统性研究其漏洞的有效利用方法。
- Method: 将提示生成任务建模为优化问题,结合语义相似性、安全过滤规避和视频语义相似性目标,并引入提示变异策略。
- Result: 实验表明,该方法在多个模型中攻击成功率更高,生成视频的语义相似性更强。
- Conclusion: 本文方法有效提升了越狱攻击的成功率和语义相关性,揭示了文本到视频模型的安全漏洞。
[34] UnfoldIR: Rethinking Deep Unfolding Network in Illumination Degradation Image Restoration
Chunming He,Rihan Zhang,Fengyang Xiao,Chengyu Fang,Longxiang Tang,Yulun Zhang,Sina Farsiu
Main category: cs.CV
TL;DR: UnfoldIR是一种基于深度展开网络(DUN)的新方法,通过任务特定模型、高级网络架构和DUN专用损失函数解决IDIR任务中的性能问题。
- Motivation: 现有DUN方法在光照退化图像恢复(IDIR)中性能不足,主要原因是展开结构的探索有限,包括任务特定模型构建、高级网络架构集成和损失函数设计。
- Method: 提出UnfoldIR方法,包括IDIR专用模型、多阶段网络(RAIC和IGRE模块)和阶段间信息一致性损失。
- Result: 实验验证了UnfoldIR在5种IDIR任务和3种下游问题中的有效性。
- Conclusion: UnfoldIR通过改进DUN结构设计,显著提升了IDIR任务的性能。
[35] FNBench: Benchmarking Robust Federated Learning against Noisy Labels
Xuefeng Jiang,Jia Li,Nannan Wu,Zhiyuan Wu,Xujing Li,Sheng Sun,Gang Xu,Yuwei Wang,Qi Li,Min Liu
Main category: cs.CV
TL;DR: 论文提出了首个联邦学习中标签噪声的基准研究FNBench,评估了18种方法在多种噪声模式下的表现,并提出了一种增强鲁棒性的方法。
- Motivation: 联邦学习中分布式数据的标签噪声问题导致性能下降,缺乏统一的基准研究。
- Method: 提出FNBench基准,涵盖三种标签噪声模式,评估18种方法,并提出表示感知正则化方法。
- Result: 实验结果表明FNBench的有效性,并提供了噪声影响FL的观察。
- Conclusion: FNBench填补了联邦学习标签噪声研究的空白,提出了未来方向并开源代码。
[36] Underwater object detection in sonar imagery with detection transformer and Zero-shot neural architecture search
XiaoTong Gu,Shengyu Tang,Yiming Cao,Changdong Yu
Main category: cs.CV
TL;DR: 提出了一种基于NAS优化的DETR架构(NAS-DETR),用于声纳图像中的目标检测,结合了CNN-Transformer骨干网络、FPN和变形注意力解码器,实现了高性能和低计算开销。
- Motivation: 声纳图像分辨率低、特征稀疏,导致目标检测性能下降,需优化方法提升检测效果。
- Method: 采用基于最大熵的零样本NAS方法设计高效骨干网络,结合FPN和变形注意力解码器构建完整架构。
- Result: 在两个代表性数据集上达到最优性能,同时保持实时效率和低计算复杂度。
- Conclusion: NAS-DETR是首个将DETR与NAS结合的声纳目标检测方法,性能优越且可解释性强。
[37] SimMIL: A Universal Weakly Supervised Pre-Training Framework for Multi-Instance Learning in Whole Slide Pathology Images
Yicheng Song,Tiancheng Lin,Die Peng,Su Yang,Yi Xu
Main category: cs.CV
TL;DR: 该论文提出了一种弱监督预训练方法,用于多实例学习(MIL)中的特征提取器,通过将弱标签从包级传播到实例级进行监督学习,并探讨了数据增强、非线性预测头和鲁棒损失函数等关键组件。
- Motivation: 现有MIL方法通常忽视实例级表示学习,假设预训练特征提取器可直接使用或微调,但实际情况并非如此。本文旨在解决这一问题。
- Method: 提出弱监督预训练方案,将包级标签传播到实例级,并结合数据增强、非线性预测头和鲁棒损失函数。
- Result: 在大型WSI数据集上实验表明,该方法优于其他预训练方案(如ImageNet预训练和自监督学习),并展示了其兼容性和可扩展性。
- Conclusion: 这是首个专注于MIL表示学习的工作,为MIL任务提供了更有效的特征提取方法。
[38] Symbolic Rule Extraction from Attention-Guided Sparse Representations in Vision Transformers
Parth Padalkar,Gopal Gupta
Main category: cs.CV
TL;DR: 提出了一种从Vision Transformers(ViTs)中提取符号规则的方法,通过引入稀疏概念层和逻辑编程,提高了分类准确性和可解释性。
- Motivation: 现有方法难以从ViTs中提取符号规则,因其缺乏模块化概念检测器和依赖全局自注意力机制。
- Method: 引入稀疏概念层(受稀疏自编码器启发),结合L1稀疏性、熵最小化和监督对比损失,生成二值化概念表示,并通过FOLD-SE-M算法提取逻辑程序。
- Result: 分类准确率比标准ViT提高5.14%,生成的规则集可直接用于逻辑推理,且具有语义意义。
- Conclusion: 首次从ViTs中提取可执行的逻辑程序,为可解释和可验证的神经符号AI提供了新方向。
[39] Multimodal Fake News Detection: MFND Dataset and Shallow-Deep Multitask Learning
Ye Zhu,Yunan Wang,Zitong Yu
Main category: cs.CV
TL;DR: 提出了一种新的多模态假新闻检测数据集(MFND)和浅层-深层多任务学习模型(SDML),用于检测和定位高度真实的假新闻。
- Motivation: 多模态新闻信息丰富但易受深度伪造攻击,需有效检测和定位假新闻。
- Method: SDML模型结合浅层和深层推理,利用单模态和互模态特征,通过对比学习和跨模态融合增强特征。
- Result: 实验证明模型在主流和自建数据集上表现优越。
- Conclusion: SDML模型在多模态假新闻检测中具有显著优势,代码和数据集已开源。
[40] Overview of the NLPCC 2025 Shared Task 4: Multi-modal, Multilingual, and Multi-hop Medical Instructional Video Question Answering Challenge
Bin Li,Shenxi Liu,Yixuan Weng,Yue Du,Yuhang Tian,Shoujun Zhou
Main category: cs.CV
TL;DR: M4IVQA挑战赛旨在推动多模态、多语言和多跳医学教学视频问答系统的研究,包含三个任务:M4TAGSV、M4VCR和M4TAGVC。
- Motivation: 推动医疗场景中多模态推理系统的创新,提升多语言社区的应急响应系统和医学教育平台效果。
- Method: 参与者需开发能处理视频和文本数据、理解多语言查询并回答多跳医学问题的算法。
- Result: 挑战赛包含三个任务,分别针对单视频、视频库检索和视频库中的时间定位。
- Conclusion: M4IVQA有望促进医疗多模态推理系统的发展,为多语言社区提供更智能的解决方案。
[41] Active Learning for Multi-class Image Classification
Thien Nhan Vo
Main category: cs.CV
TL;DR: 通过主动学习减少图像分类所需的训练样本数量,利用不确定性度量选择高价值样本,在MNIST和Fruits360数据集上验证效果。
- Motivation: 图像分类通常需要大量训练样本,主动学习能通过策略性选择样本减少需求。
- Method: 使用四种不确定性度量评估样本价值,选择高价值样本训练CNN分类器。
- Result: 在MNIST和Fruits360数据集上,主动学习显著优于随机采样,尤其在复杂任务中。
- Conclusion: 主动学习是图像分类问题的有效算法,尤其在样本有限时表现突出。
[42] Fine-Grained Bias Exploration and Mitigation for Group-Robust Classification
Miaoyun Zhao,Qiang Zhang,Chenrong Li
Main category: cs.CV
TL;DR: 论文提出了一种名为BEO的新方法,通过建模潜在群组来更详细地捕捉分布,并进一步提出FG-CCDB方法,实现更精确的分布匹配和平衡,显著减少了虚假相关性。
- Motivation: 解决在缺乏偏差标注的情况下,虚假相关性导致的群体鲁棒性泛化问题。
- Method: 提出BEO方法建模潜在群组分布,并基于此开发FG-CCDB方法进行细粒度分布匹配和平衡。
- Result: BEO可作为真实偏差标注的强代理,FG-CCDB在二元分类任务中表现与监督方法相当,在多类任务中显著优于监督方法。
- Conclusion: BEO和FG-CCDB的组合有效缓解了虚假相关性,且无需额外存储或计算成本。
[43] Visual Instruction Tuning with Chain of Region-of-Interest
Yixin Chen,Shuai Zhang,Boran Han,Bernie Wang
Main category: cs.CV
TL;DR: 提出了一种名为CoRoI的方法,通过识别高分辨率图像中的关键区域来降低计算负担,提升多模态大语言模型的性能。
- Motivation: 高分辨率图像对多模态大语言模型很重要,但直接增加分辨率会显著增加计算成本。
- Method: 受人类视觉系统启发,CoRoI方法选择性地处理高分辨率图像中的关键区域,避免处理全部图像数据。
- Result: 在11个基准测试中验证了CoRoI的有效性,模型性能优于LLaVA-NeXT,并在多个任务中超越Gemini Pro 1.0和GPT-4V。
- Conclusion: CoRoI是一种高效的方法,能够在降低计算成本的同时提升多模态模型的性能。
[44] Predicting Surgical Safety Margins in Osteosarcoma Knee Resections: An Unsupervised Approach
Carolina Vargas-Ecos,Edwin Salcedo
Main category: cs.CV
TL;DR: 论文提出了一种基于MRI和X射线数据的无监督学习方法,用于估计骨肉瘤手术中安全边界的置信区间。
- Motivation: 拉丁美洲癌症病例预计将大幅增加,骨肉瘤作为常见且致命的骨癌,手术切除需要精确的安全边界以确保完全切除并保留健康组织。
- Method: 利用开源库中的MRI和X射线数据,结合数字处理技术和无监督学习算法(如k-means聚类)定义肿瘤边界。
- Result: 实验结果表明,该方法有望实现自动化的、针对患者个体的安全边界确定。
- Conclusion: 该方法为骨肉瘤手术中的安全边界估计提供了一种潜在的高效解决方案。
[45] Joint Low-level and High-level Textual Representation Learning with Multiple Masking Strategies
Zhengmi Tang,Yuto Mitsui,Tomo Miyazaki,Shinichiro Omachi
Main category: cs.CV
TL;DR: 论文提出了一种多掩码策略(MMS),结合随机块和跨度掩码,以改进文本识别任务中的自监督学习性能。
- Motivation: 现有文本识别方法依赖合成数据,但合成数据无法完全模拟真实场景(如光照不均、遮挡等),导致性能下降。自监督学习(如对比学习和掩码图像建模)可以缩小这一差距。
- Method: 在原始MAE基础上,引入随机块和跨度掩码策略,以捕捉高层次上下文表征。MMS整合了随机块、跨度和随机补丁掩码,联合学习低层次和高层次文本表征。
- Result: MMS在文本识别、分割和超分辨率任务中表现优于现有自监督方法。
- Conclusion: MMS通过多掩码策略有效提升了文本识别任务的自监督学习性能,适用于复杂真实场景。
[46] NeuRN: Neuro-inspired Domain Generalization for Image Classification
Hamd Jalil,Ahmed Qazi,Asim Iqbal
Main category: cs.CV
TL;DR: 论文提出了一种受神经启发的神经响应归一化(NeuRN)层,用于提升深度学习模型在未见目标域上的图像分类性能,并通过实验验证其有效性。
- Motivation: 解决图像分类中模型在未见数据集上泛化能力不足的问题。
- Method: 引入NeuRN层,基于哺乳动物视觉皮层神经元的启发,训练模型在源域上,并通过Needleman-Wunsch算法筛选模型。
- Result: NeuRN在跨域图像分类任务中表现优于基线模型。
- Conclusion: NeuRN为未来神经启发的深度学习模型奠定了基础。
[47] Mice to Machines: Neural Representations from Visual Cortex for Domain Generalization
Ahmed Qazi,Hamd Jalil,Asim Iqbal
Main category: cs.CV
TL;DR: 该研究探讨了小鼠视觉皮层与深度学习模型在对象分类任务中的功能对齐,提出了一种表征学习策略,并引入NeuRN层以增强两者的相似性,显著提升了模型在领域泛化任务中的鲁棒性。
- Motivation: 研究动机在于理解小鼠视觉皮层的神经表征模式,并探索其与深度学习模型的相似性,以提升AI模型的性能。
- Method: 方法包括提出一种表征学习策略,比较小鼠视觉皮层与深度学习模型的功能映射,并引入NeuRN层以模拟视觉皮层的神经元激活特性。
- Result: 结果表明,NeuRN层的加入显著提升了深度学习模型在领域泛化任务中的鲁棒性,并揭示了小鼠视觉皮层与深度学习模型之间的功能相似性。
- Conclusion: 结论指出,该研究为比较小鼠视觉皮层与深度学习模型的功能架构提供了新框架,并表明这些模型可作为研究小鼠视觉皮层神经表征的有力工具。
[48] NeuGen: Amplifying the 'Neural' in Neural Radiance Fields for Domain Generalization
Ahmed Qazi,Abdul Basit,Asim Iqbal
Main category: cs.CV
TL;DR: 论文提出了一种名为NeuGen的脑启发归一化技术,将其集成到NeRF架构中以提升模型在多样化场景中的泛化能力,显著提高了渲染质量和性能。
- Motivation: NeRF在多样化场景和条件下的泛化能力有限,需要一种能够提取域不变特征的方法来提升其性能。
- Method: 提出NeuGen技术,集成到MVSNeRF和GeoNeRF等主流NeRF架构中,提取域不变特征以增强泛化能力。
- Result: NeuGen在多个数据集上显著提升了NeRF架构的性能和渲染质量,超越了现有模型。
- Conclusion: 通过结合神经科学原理与深度学习框架,NeuGen为新颖视图合成提供了更高的泛化性和效率,展示了这一方向的潜力。
[49] Multi-Modal Explainable Medical AI Assistant for Trustworthy Human-AI Collaboration
Honglong Yang,Shanshan Song,Yi Qin,Lehan Wang,Haonan Wang,Xinpeng Ding,Qixiang Zhang,Bodong Du,Xiaomeng Li
Main category: cs.CV
TL;DR: XMedGPT是一个多模态AI助手,通过结合文本和视觉解释性,提升医疗决策的透明度和可信度,并在性能上超越现有模型。
- Motivation: 解决通用医疗AI系统在解释性和预后能力上的不足,提供更透明、可信的医疗决策支持。
- Method: 开发XMedGPT,整合多模态解释性、不确定性量化和预后建模,并通过交互式问答评估可靠性。
- Result: 在141个解剖区域IoU达0.703,不确定性估计AUC为0.862(视觉问答)和0.764(放射报告生成),癌症预测性能提升26.9%。
- Conclusion: XMedGPT显著推进了以临床医生为中心的AI集成,为多样化医疗应用提供可信且可扩展的支持。
[50] CheXLearner: Text-Guided Fine-Grained Representation Learning for Progression Detection
Yuanzhuo Wang,Junwen Duan,Xinyu Li,Jianxin Wang
Main category: cs.CV
TL;DR: CheXLearner是一种端到端框架,结合解剖区域检测、黎曼流形对齐和细粒度语义指导,显著提升了医学图像分析的性能。
- Motivation: 现有方法在医学图像分析中存在语义不匹配或缺乏医学语义整合的问题,需要一种更精细的跨模态学习方法。
- Method: 提出CheXLearner框架,包括Med-MAM模块(基于双曲几何对齐解剖结构)和区域进展描述监督,优化特征表示。
- Result: 在解剖区域进展检测中平均准确率达81.12%(提升17.2%),下游疾病分类AUC达91.52%。
- Conclusion: CheXLearner通过跨模态学习和动态特征优化,显著优于现有方法,适用于复杂医学图像分析。
[51] Enhancing Monocular Height Estimation via Sparse LiDAR-Guided Correction
Jian Song,Hongruixuan Chen,Naoto Yokoya
Main category: cs.CV
TL;DR: 论文探讨了基于合成数据的单目高度估计(MHE)模型的局限性,提出了一种结合稀疏LiDAR数据的校正方法,显著提高了精度。
- Motivation: 传统DEM成本高且地理覆盖有限,合成数据训练的MHE模型依赖阴影线索,可能导致高度估计不准确。
- Method: 提出两阶段校正流程:预处理ICESat-2数据,再通过随机森林方法优化高度估计。
- Result: 在三个城市区域实验中,平均绝对误差(MAE)分别降低了22.8%、6.9%和4.9%。
- Conclusion: 结合真实LiDAR数据可提升MHE模型的鲁棒性,为可靠3D地图解决方案铺路。
[52] Building a Human-Verified Clinical Reasoning Dataset via a Human LLM Hybrid Pipeline for Trustworthy Medical AI
Chao Ding,Mouxiao Bian,Pengcheng Chen,Hongliang Zhang,Tianbin Li,Lihao Liu,Jiayuan Chen,Zhuoran Li,Yabei Zhong,Yongqi Liu,Haiqing Huang,Dongming Shan,Junjun He,Jie Xu
Main category: cs.CV
TL;DR: 论文提出了一种高临床相关性的数据集,包含31,247个医学问答对,并附有专家验证的思维链解释,旨在解决大型语言模型在医学领域中的不透明性和缺乏临床验证的问题。
- Motivation: 当前医学大型语言模型依赖科学文献或合成数据,缺乏专家验证和高临床相关性,限制了临床信任和模型能力。
- Method: 通过人机混合流程,生成并迭代优化专家验证的思维链解释数据集,确保高质量和临床相关性。
- Result: 公开了一个高质量数据集,支持开发透明且可验证的医学大型语言模型。
- Conclusion: 该数据集为医学AI提供了更安全、更可解释的基础,推动了临床应用的进步。
[53] Bi-directional Self-Registration for Misaligned Infrared-Visible Image Fusion
Timing Li,Bing Cao,Pengfei Zhu,Bin Xiao,Qinghua Hu
Main category: cs.CV
TL;DR: 提出了一种自监督的双向自注册框架(B-SR),用于多模态图像对齐与融合,通过代理数据生成器和逆代理数据生成器实现全局-局部对齐,并设计了邻域动态对齐损失以减少模态差异的影响。
- Motivation: 解决当前多模态图像配准和融合方法中缺乏真实对齐数据的问题,提高多模态图像融合的质量。
- Method: 使用代理数据生成器(PDG)和逆代理数据生成器(IPDG)实现自监督的全局-局部配准,通过邻域动态对齐损失减少模态差异。
- Result: 在未对齐的多模态图像上进行了广泛实验,证明了该方法在多模态图像对齐和融合中的有效性。
- Conclusion: 提出的B-SR框架在多模态图像对齐和融合任务中优于现有方法,代码将公开。
[54] Transformer-Based Dual-Optical Attention Fusion Crowd Head Point Counting and Localization Network
Fei Zhou,Yi Li,Mingqing Zhu
Main category: cs.CV
TL;DR: 提出TAPNet模型,通过双光注意力融合模块和自适应特征分解融合模块,提升无人机视角下复杂场景的人群计数准确性。
- Motivation: 解决无人机视角下人群密集遮挡和低光等复杂场景中准确计数的难题。
- Method: 设计双光注意力融合模块(DAFP)和自适应双光特征分解融合模块(AFDF),并优化训练策略。
- Result: 在DroneRGBT和GAIIC2数据集上表现优于现有技术,尤其在低光密集场景中。
- Conclusion: TAPNet通过多模态信息融合和数据增强,显著提升了复杂场景下的人群计数性能。
[55] Unsupervised Learning for Class Distribution Mismatch
Pan Du,Wangbo Zhao,Xinai Lu,Nian Liu,Zhikai Li,Chaoyu Gong,Suyun Zhao,Hong Chen,Cuiping Li,Kai Wang,Yang You
Main category: cs.CV
TL;DR: 论文提出了一种无监督学习方法UCDM,用于解决训练数据与目标任务中类别分布不匹配的问题,通过生成正负样本对和置信度标记机制,显著优于现有半监督方法。
- Motivation: 现有方法主要针对半监督场景,依赖标记数据,限制了其适用性和性能。UCDM旨在通过无监督方式解决类别分布不匹配问题。
- Method: UCDM通过随机采样图像并使用扩散模型添加或删除语义类别,生成多样化的训练样本对。同时引入基于置信度的标记机制,迭代地为真实数据分配伪标签并用于训练。
- Result: 在三个数据集上的实验表明,UCDM显著优于现有半监督方法。例如,在Tiny-ImageNet数据集上,60%不匹配比例下,UCDM在已知、未知和新类别分类上分别超过OpenMatch 35.1%、63.7%和72.5%。
- Conclusion: UCDM通过无监督学习和置信度标记机制,有效解决了类别分布不匹配问题,性能显著优于依赖标记数据的半监督方法。
[56] Boosting Cross-spectral Unsupervised Domain Adaptation for Thermal Semantic Segmentation
Seokjun Kwon,Jeongmin Shin,Namil Kim,Soonmin Hwang,Yukyung Choi
Main category: cs.CV
TL;DR: 该论文提出了一种用于热图像语义分割的跨光谱无监督域适应方法,通过掩码互学习和原型自监督损失提升性能。
- Motivation: 解决热图像分割中标签数据不足的问题,并利用RGB和热图像的互补信息提升域适应性能。
- Method: 提出掩码互学习策略和原型自监督损失,促进光谱模型间的信息交换并增强夜间场景性能。
- Result: 实验表明,该方法优于现有无监督域适应方法,性能接近有监督方法。
- Conclusion: 该方法有效解决了热图像分割中的域适应问题,尤其在低光照条件下表现优异。
[57] High-Frequency Prior-Driven Adaptive Masking for Accelerating Image Super-Resolution
Wei Shang,Dongwei Ren,Wanying Zhang,Pengfei Zhu,Qinghua Hu,Wangmeng Zuo
Main category: cs.CV
TL;DR: 提出了一种无需训练的适应性掩码模块,通过动态聚焦计算于高频区域(如边缘和纹理),显著减少计算量,同时保持性能。
- Motivation: 加速图像超分辨率的主要挑战在于减少计算量同时保持性能和适应性。高频区域对重建至关重要。
- Method: 通过高斯模糊减法提取高频成分,使用K-means聚类生成二进制掩码,动态识别需密集处理的区域。支持CNN和Transformer架构。
- Result: 实验表明,该方法将FLOPs减少24-43%,同时保持或提升定量指标。
- Conclusion: 该方法高效、灵活,适用于多种模型和未见过的退化情况。
[58] Federated Learning with LoRA Optimized DeiT and Multiscale Patch Embedding for Secure Eye Disease Recognition
Md. Naimur Asif Borno,Md Sakib Hossain Shovon,MD Hanif Sikder,Iffat Firozy Rimi,Tahani Jaser Alahmadi,Mohammad Ali Moni
Main category: cs.CV
TL;DR: 本文提出了一种基于数据高效图像变换器(DeIT)的方法,解决了医学图像疾病检测中的标注数据不足、空间特征分析不足、数据安全和训练效率低等问题,通过多尺度补丁嵌入和分层加权随机采样等技术,实现了最优性能。
- Motivation: 医学图像疾病检测面临标注数据有限、空间特征分析不足、数据安全问题和训练效率低下等挑战,需要一种高效且安全的解决方案。
- Method: 采用多尺度补丁嵌入和分层加权随机采样解决特征提取和类别不平衡问题,结合LoRA增强的变换器编码器、蒸馏框架和联邦学习,提升效率和安全性。
- Result: 模型在AUC、F1分数、精度、最小损失和Top-5准确率上达到最优,并通过Grad-CAM++可视化提升可解释性。
- Conclusion: 该方法在医学图像疾病检测中表现出卓越性能,具有推动AI医学影像应用的潜力。
[59] BridgeIV: Bridging Customized Image and Video Generation through Test-Time Autoregressive Identity Propagation
Panwen Hu,Jiehui Huang,Qiang Sun,Xiaodan Liang
Main category: cs.CV
TL;DR: 论文提出了一种自回归结构和纹理传播模块(STPM)及测试时奖励优化(TTRO)方法,用于提升定制化文本到视频(CT2V)生成的性能。
- Motivation: 现有零样本CT2V方法泛化能力差,而基于调优的T2I模型结合时间运动模块会导致结构和纹理信息丢失,因此需要改进。
- Method: 提出STPM模块自回归注入结构和纹理特征,并引入TTRO方法优化细节。
- Result: 实验表明,STPM和TTRO在CLIP-I和DINO一致性指标上分别提升7.8和13.1。
- Conclusion: STPM和TTRO有效提升了CT2V生成的性能。
[60] Technical Report for ICRA 2025 GOOSE 2D Semantic Segmentation Challenge: Leveraging Color Shift Correction, RoPE-Swin Backbone, and Quantile-based Label Denoising Strategy for Robust Outdoor Scene Understanding
Chih-Chung Hsu,I-Hsuan Wu,Wen-Hai Tseng,Ching-Heng Cheng,Ming-Hsuan Wu,Jin-Hui Jiang,Yu-Jou Hsiao
Main category: cs.CV
TL;DR: 团队ACVLAB提出了一种结合Swin Transformer、RoPE嵌入和颜色校正模块的语义分割框架,在ICRA 2025挑战赛中表现优异。
- Motivation: 解决自然环境中光照不一致和噪声对语义分割的影响,提升模型的鲁棒性。
- Method: 使用Swin Transformer结合RoPE嵌入增强空间泛化,引入颜色校正模块处理光照问题,并采用分位数去噪策略抑制高误差像素。
- Result: 在GOOSE测试集上达到0.848的mIoU,验证了方法的有效性。
- Conclusion: 结合颜色校正、位置编码和误差感知去噪能显著提升语义分割的鲁棒性。
[61] Replay-Based Continual Learning with Dual-Layered Distillation and a Streamlined U-Net for Efficient Text-to-Image Generation
Md. Naimur Asif Borno,Md Sakib Hossain Shovon,Asmaa Soliman Al-Moisheer,Mohammad Ali Moni
Main category: cs.CV
TL;DR: KDC-Diff是一种高效的稳定扩散框架,通过精简U-Net架构和双层次蒸馏策略,显著降低计算需求,同时保持图像质量。
- Motivation: 解决文本到图像扩散模型的高计算需求问题,提升可访问性和扩展性。
- Method: 采用精简U-Net架构(参数减半)、双层次蒸馏策略和基于回放的持续学习。
- Result: 在低计算资源下,KDC-Diff在Oxford Flowers和Butterflies & Moths 100 Species数据集上表现优异,显著减少推理时间。
- Conclusion: KDC-Diff是计算受限环境下高效且适应性强的文本到图像生成解决方案。
[62] Hallucination-Aware Multimodal Benchmark for Gastrointestinal Image Analysis with Large Vision-Language Models
Bidur Khanal,Sandesh Pokhrel,Sanjay Bhandari,Ramesh Rana,Nikesh Shrestha,Ram Bahadur Gurung,Cristian Linte,Angus Watson,Yash Raj Shrestha,Binod Bhattarai
Main category: cs.CV
TL;DR: 论文提出了一种针对胃肠道图像的多模态数据集Gut-VLM,用于研究视觉语言模型(VLM)中的幻觉问题,并提出了一种幻觉感知微调方法。
- Motivation: 现有VLM在医学领域存在幻觉问题,即生成与图像内容不符的描述,这在医疗领域尤为重要。为了解决这一问题,作者构建了一个包含幻觉标注的数据集。
- Method: 通过两阶段流程构建数据集:1) 使用ChatGPT生成初步报告(含幻觉文本);2) 医学专家审核并修正。随后提出幻觉感知微调方法,而非传统的报告生成微调。
- Result: 实验表明,幻觉感知微调方法优于传统报告生成微调,并在多个指标上对现有VLM进行了基准测试。
- Conclusion: Gut-VLM数据集和幻觉感知微调方法为医学领域的VLM研究提供了新方向,尤其在减少幻觉方面具有潜力。
[63] CMD: Controllable Multiview Diffusion for 3D Editing and Progressive Generation
Peng Li,Suizhi Ma,Jialiang Chen,Yuan Liu,Chongyi Zhang,Wei Xue,Wenhan Luo,Alla Sheffer,Wenping Wang,Yike Guo
Main category: cs.CV
TL;DR: CMD方法通过条件多视角扩散模型实现3D模型的局部编辑,避免了全模型重新生成的需求。
- Motivation: 现有3D生成方法缺乏对模型组件的灵活控制,修改输入需全模型重新生成。
- Method: 采用条件多视角扩散模型,以已知部分为条件生成或编辑组件。
- Result: 实验表明CMD能分解复杂任务,提升生成质量,并支持高效局部编辑。
- Conclusion: CMD为3D生成提供了更灵活和高效的控制方式。
[64] MELLM: Exploring LLM-Powered Micro-Expression Understanding Enhanced by Subtle Motion Perception
Zhengye Zhang,Sirui Zhao,Shifeng Liu,Shukang Yin,Xinglong Mao,Tong Xu,Enhong Chen
Main category: cs.CV
TL;DR: 论文提出了一种新型微表情大语言模型(MELLM),结合了多模态大语言模型(MLLMs)的推理能力和微表情的精细动态感知,首次探索了MLLMs在微表情分析领域的应用。
- Motivation: 当前自动微表情识别研究主要关注离散情绪分类,缺乏对细微动态运动和内在情感线索的深入分析。MLLMs在多模态理解方面的潜力为解决这一问题提供了新思路。
- Method: MELLM通过融合起始-顶点光流动态和灰度起始帧构建可解释的运动增强彩色图作为输入,并结合专门微调策略增强模型对微表情的视觉感知。基于FACS标注和情绪标签构建指令描述数据集进行训练。
- Result: 在多个基准数据集上的综合评估表明,MELLM在微表情理解(MEU)方面表现出卓越的鲁棒性和泛化能力。
- Conclusion: MELLM为微表情分析提供了新的解决方案,展示了MLLMs在捕捉细微动态和情感语义方面的潜力。
[65] Efficient and Robust Multidimensional Attention in Remote Physiological Sensing through Target Signal Constrained Factorization
Jitesh Joshi,Youngjun Cho
Main category: cs.CV
TL;DR: 论文提出了一种名为TSFM的多维注意力机制和MMRPhys双分支3D-CNN架构,用于从多模态视频数据中提取生理信号,显著提升了跨领域鲁棒性。
- Motivation: 现有深度学习方法在远程生理信号监测中,对领域变化的鲁棒性评估不足,影响了实际应用效果。
- Method: 引入TSFM模块,结合生理信号特征作为约束,设计MMRPhys双分支3D-CNN架构,支持多任务估计。
- Result: 在五个基准数据集上,MMRPhys显著优于现有方法,同时保持低延迟,适合实时应用。
- Conclusion: 该方法为鲁棒的多任务和多模态生理信号监测设定了新基准,并提供了高效的计算框架。
[66] A Vision-Language Foundation Model for Leaf Disease Identification
Khang Nguyen Quoc,Lan Le Thi Thu,Luyl-Da Quach
Main category: cs.CV
TL;DR: SCOLD是一种针对农业任务的视觉-语言基础模型,通过软目标对比学习提升叶片病害识别的泛化性和鲁棒性。
- Motivation: 现有研究难以整合图像和文本模态,且依赖缺乏领域特定信息的预训练数据集。
- Method: SCOLD利用186,000个图像-描述对进行任务无关预训练,通过软目标平滑标签以减少对比学习中的过度自信。
- Result: SCOLD在零样本、少样本分类等任务中优于现有模型,如OpenAI-CLIP-L、BioCLIP和SigLIP2。
- Conclusion: SCOLD为农业视觉-语言模型提供了高性能解决方案,为未来多模态植物病害诊断研究奠定基础。
[67] MarkMatch: Same-Hand Stuffing Detection
Fei Zhao,Runlin Zhang,Chengcui Zhang,Nitesh Saxena
Main category: cs.CV
TL;DR: MarkMatch是一种检索系统,通过对比学习检测两张纸质选票标记是否由同一人填写,优于现有方法BubbleSig。
- Motivation: 为选举审计提供一种视觉、非生物特征的实用工具,检测可疑选票。
- Method: 使用对比学习和密集批次相似性矩阵训练模型,结合双重损失目标,学习细微笔迹差异。
- Result: 模型F1分数达0.943,优于BubbleSig,并集成Segment Anything Model实现灵活标记提取。
- Conclusion: MarkMatch为选举审计提供了高效且灵活的工具,显著提升了检测性能。
[68] Differentiable NMS via Sinkhorn Matching for End-to-End Fabric Defect Detection
Zhengyang Lu,Bingjie Lu,Weifan Wang,Feng Wang
Main category: cs.CV
TL;DR: 提出了一种可微分NMS框架,用于解决织物缺陷检测中的梯度流中断和像素级标注成本高的问题,通过端到端优化实现更高的定位精度。
- Motivation: 传统非极大值抑制(NMS)会中断梯度流,阻碍端到端学习;同时,工业规模的像素级标注成本过高。
- Method: 将NMS重新定义为可微分二分匹配问题,通过Sinkhorn-Knopp算法解决,保持梯度流连续,并结合提案质量、特征相似性和空间关系。引入熵约束掩码细化机制,通过不确定性建模提升定位精度。
- Result: 在天池织物缺陷数据集上表现优于现有方法,同时保持实时速度,适用于工业部署。
- Conclusion: 该框架对不同架构具有显著适应性,并能有效推广到通用目标检测任务。
[69] Depth-Sensitive Soft Suppression with RGB-D Inter-Modal Stylization Flow for Domain Generalization Semantic Segmentation
Binbin Wei,Yuhang Zhang,Shishun Tian,Muxin Liao,Wei Li,Wenbin Zou
Main category: cs.CV
TL;DR: 论文提出了一种名为DSSS的新框架,通过RGB-D模态风格化流和深度敏感软抑制技术,从深度图中学习域不变特征,用于域泛化语义分割任务。
- Motivation: 现有方法在处理深度图中的噪声和空洞时效果不佳,且无法直接适用于深度图的独特特性,因此需要一种新方法来有效学习域不变特征。
- Method: 提出RGB-D模态风格化流生成风格化深度图,设计类级软空间敏感抑制技术,以及RGB-D软对齐损失函数。
- Result: 实验表明,DSSS框架在多骨干网络上显著提升了性能。
- Conclusion: DSSS是首个在多类域泛化语义分割任务中整合RGB和深度信息的工作,取得了显著效果。
[70] DAPE: Dual-Stage Parameter-Efficient Fine-Tuning for Consistent Video Editing with Diffusion Models
Junhao Xia,Chaoyang Zhang,Yecheng Zhang,Chengyang Zhou,Zhichang Wang,Bochun Liu,Dongshuo Yin
Main category: cs.CV
TL;DR: 本文提出了一种名为DAPE的两阶段参数高效微调框架,用于视频编辑,旨在解决现有方法的高计算成本或性能不足的问题。
- Motivation: 视频生成和编辑是一个复杂的多模态任务,现有方法要么计算成本高,要么性能不佳,亟需一种高效且高质量的解决方案。
- Method: DAPE采用两阶段方法:第一阶段通过高效的norm-tuning增强时间一致性,第二阶段引入视觉友好的适配器提升视觉质量。同时,构建了一个包含232个视频和6个编辑提示的新基准数据集。
- Result: 实验表明,DAPE在时间一致性和文本-视频对齐方面显著优于现有方法,并在多个数据集上表现优异。
- Conclusion: DAPE是一种高效且高质量的视频编辑框架,通过两阶段设计和新的基准数据集,显著提升了性能。
[71] Seed1.5-VL Technical Report
Dong Guo,Faming Wu,Feida Zhu,Fuxing Leng,Guang Shi,Haobin Chen,Haoqi Fan,Jian Wang,Jianyu Jiang,Jiawei Wang,Jingji Chen,Jingjia Huang,Kang Lei,Liping Yuan,Lishu Luo,Pengfei Liu,Qinghao Ye,Rui Qian,Shen Yan,Shixiong Zhao,Shuai Peng,Shuangye Li,Sihang Yuan,Sijin Wu,Tianheng Cheng,Weiwei Liu,Wenqian Wang,Xianhan Zeng,Xiao Liu,Xiaobo Qin,Xiaohan Ding,Xiaojun Xiao,Xiaoying Zhang,Xuanwei Zhang,Xuehan Xiong,Yanghua Peng,Yangrui Chen,Yanwei Li,Yanxu Hu,Yi Lin,Yiyuan Hu,Yiyuan Zhang,Youbin Wu,Yu Li,Yudong Liu,Yue Ling,Yujia Qin,Zanbo Wang,Zhiwu He,Aoxue Zhang,Bairen Yi,Bencheng Liao,Can Huang,Can Zhang,Chaorui Deng,Chaoyi Deng,Cheng Lin,Cheng Yuan,Chenggang Li,Chenhui Gou,Chenwei Lou,Chengzhi Wei,Chundian Liu,Chunyuan Li,Deyao Zhu,Donghong Zhong,Feng Li,Feng Zhang,Gang Wu,Guodong Li,Guohong Xiao,Haibin Lin,Haihua Yang,Haoming Wang,Heng Ji,Hongxiang Hao,Hui Shen,Huixia Li,Jiahao Li,Jialong Wu,Jianhua Zhu,Jianpeng Jiao,Jiashi Feng,Jiaze Chen,Jianhui Duan,Jihao Liu,Jin Zeng,Jingqun Tang,Jingyu Sun,Joya Chen,Jun Long,Junda Feng,Junfeng Zhan,Junjie Fang,Junting Lu,Kai Hua,Kai Liu,Kai Shen,Kaiyuan Zhang,Ke Shen,Ke Wang,Keyu Pan,Kun Zhang,Kunchang Li,Lanxin Li,Lei Li,Lei Shi,Li Han,Liang Xiang,Liangqiang Chen,Lin Chen,Lin Li,Lin Yan,Liying Chi,Longxiang Liu,Mengfei Du,Mingxuan Wang,Ningxin Pan,Peibin Chen,Pengfei Chen,Pengfei Wu,Qingqing Yuan,Qingyao Shuai,Qiuyan Tao,Renjie Zheng,Renrui Zhang,Ru Zhang,Rui Wang,Rui Yang,Rui Zhao,Shaoqiang Xu,Shihao Liang,Shipeng Yan,Shu Zhong,Shuaishuai Cao,Shuangzhi Wu,Shufan Liu,Shuhan Chang,Songhua Cai,Tenglong Ao,Tianhao Yang,Tingting Zhang,Wanjun Zhong,Wei Jia,Wei Weng,Weihao Yu,Wenhao Huang,Wenjia Zhu,Wenli Yang,Wenzhi Wang,Xiang Long,XiangRui Yin,Xiao Li,Xiaolei Zhu,Xiaoying Jia,Xijin Zhang,Xin Liu,Xinchen Zhang,Xinyu Yang,Xiongcai Luo,Xiuli Chen,Xuantong Zhong,Xuefeng Xiao,Xujing Li,Yan Wu,Yawei Wen,Yifan Du,Yihao Zhang,Yining Ye,Yonghui Wu,Yu Liu,Yu Yue,Yufeng Zhou,Yufeng Yuan,Yuhang Xu,Yuhong Yang,Yun Zhang,Yunhao Fang,Yuntao Li,Yurui Ren,Yuwen Xiong,Zehua Hong,Zehua Wang,Zewei Sun,Zeyu Wang,Zhao Cai,Zhaoyue Zha,Zhecheng An,Zhehui Zhao,Zhengzhuo Xu,Zhipeng Chen,Zhiyong Wu,Zhuofan Zheng,Zihao Wang,Zilong Huang,Ziyu Zhu,Zuquan Song
Main category: cs.CV
TL;DR: Seed1.5-VL是一个高效的多模态视觉语言基础模型,在多个公开基准测试中表现优异,尤其在代理任务和推理能力上超越现有系统。
- Motivation: 推动通用多模态理解和推理技术的发展,为多样化任务提供更强大的支持。
- Method: 结合532M参数的视觉编码器和20B参数的MoE LLM,通过多阶段设计和训练优化性能。
- Result: 在60个公开基准测试中38项达到SOTA,并在GUI控制和游戏等任务中超越领先系统。
- Conclusion: Seed1.5-VL展示了强大的多模态理解和推理能力,有望广泛应用于多样化任务。
[72] Semantic-Guided Diffusion Model for Single-Step Image Super-Resolution
Zihang Liu,Zhenyu Zhang,Hao Tang
Main category: cs.CV
TL;DR: SAMSR是一种基于语义引导的扩散框架,通过引入语义分割掩码优化单步推理过程,提升复杂语义区域的超分辨率性能。
- Motivation: 现有单步推理扩散模型在处理复杂语义区域时效率有限,需改进以保留更多细节。
- Method: 提出SAM-Noise模块和像素级采样策略,结合语义一致性损失优化训练。
- Result: 在真实和合成数据集上显著提升感知质量和细节恢复能力。
- Conclusion: SAMSR在语义复杂图像中表现优异,代码已开源。
[73] Discovering Concept Directions from Diffusion-based Counterfactuals via Latent Clustering
Payal Varshney,Adriano Lucieri,Christoph Balada,Andreas Dengel,Sheraz Ahmed
Main category: cs.CV
TL;DR: CDLC是一种通过潜在聚类提取概念方向的新方法,显著降低了计算复杂度,并验证了其在医学数据集上的有效性。
- Motivation: 现有概念解释方法计算量大且难以高效捕捉复杂语义概念,CDLC旨在解决这些问题。
- Method: 通过聚类潜在差异向量提取全局、类别特定的概念方向,避免CDCT中的维度遍历。
- Result: 在皮肤病变数据集上验证,提取的概念方向与临床特征一致,并揭示了数据集偏差或未知生物标志物。
- Conclusion: CDLC具有可解释性、可扩展性,适用于高风险领域和多样化数据模态。
[74] Towards Scalable IoT Deployment for Visual Anomaly Detection via Efficient Compression
Arianna Stropeni,Francesco Borsatti,Manuel Barusco,Davide Dalle Pezze,Marco Fabris,Gian Antonio Susto
Main category: cs.CV
TL;DR: 研究探讨了在边缘设备计算能力有限的情况下,如何通过高效的数据压缩技术实现视觉异常检测(VAD),并在MVTec AD基准测试中验证了其有效性。
- Motivation: 工业环境中,减少浪费和运营成本是关键,而边缘设备的计算能力和带宽限制了深度学习模型的应用。
- Method: 评估了多种数据压缩技术,分析了系统延迟与检测精度之间的权衡。
- Result: 实验表明,显著的数据压缩可以在异常检测性能损失最小的情况下实现。
- Conclusion: 在边缘设备上,高效的数据压缩策略能够有效支持视觉异常检测任务。
[75] Generalizable Pancreas Segmentation via a Dual Self-Supervised Learning Framework
Jun Li,Hongzhang Zhu,Tao Chen,Xiaohua Qian
Main category: cs.CV
TL;DR: 提出了一种双自监督学习模型,结合全局和局部解剖特征,提升单源数据集训练的胰腺分割模型的泛化性能。
- Motivation: 现有胰腺分割方法在单源数据集上表现良好,但泛化性不足,测试数据表现不稳定。
- Method: 设计了全局特征对比自监督学习模块和局部图像恢复自监督学习模块,分别利用胰腺空间结构和局部解剖特征。
- Result: 模型通过增强高不确定性区域的特征表征,提高了泛化能力和分割稳定性。
- Conclusion: 双自监督学习方法有效提升了胰腺分割模型的泛化性能,适用于单源数据集训练场景。
[76] Critique Before Thinking: Mitigating Hallucination through Rationale-Augmented Instruction Tuning
Zexian Yang,Dian Li,Dayan Wu,Gang Liu,Weiping Wang
Main category: cs.CV
TL;DR: Re-Critic是一种可扩展的框架,通过引入视觉原理和自评机制,提升多模态推理任务的性能。
- Motivation: 现有的大型视觉语言模型(LVLMs)在解释图像时容易产生视觉无关的响应,而人类学习新知识时会依赖预学习原则,如复习大纲和总结要点。当前指令调优过程中缺乏这种准备动作。
- Method: Re-Critic通过视觉原理合成器增强原始指令,并结合链式思维(CoT)提升推理能力;采用上下文自评机制选择响应对进行偏好调优。
- Result: 实验表明,使用Re-Critic调优的模型在多模态推理任务中表现更优,效果不仅限于幻觉特定任务。
- Conclusion: Re-Critic通过引入视觉原理和自评机制,显著提升了多模态推理任务的性能,具有广泛的应用潜力。
[77] Ranking-aware Continual Learning for LiDAR Place Recognition
Xufei Wang,Gengxuan Tian,Junqiao Zhao,Siyue Tao,Qiwen Gu,Qiankun Yu,Tiantian Feng
Main category: cs.CV
TL;DR: 提出了一种基于知识蒸馏与融合(KDF)的持续学习框架,用于缓解LiDAR地点识别(LPR)中的灾难性遗忘问题。
- Motivation: 现有基于学习的LPR方法在训练新环境后容易遗忘之前训练的地点信息,影响性能。
- Method: 设计了排序感知知识蒸馏损失和知识融合模块,以保留高层地点识别知识并整合新旧模型知识。
- Result: 实验表明KDF能有效克服灾难性遗忘,在Recall@1和遗忘分数上超越现有方法。
- Conclusion: KDF框架为LPR的持续学习提供了有效解决方案。
[78] Discovering Fine-Grained Visual-Concept Relations by Disentangled Optimal Transport Concept Bottleneck Models
Yan Xie,Zequn Zeng,Hao Zhang,Yucheng Ding,Yi Wang,Zhengjue Wang,Bo Chen,Hongwei Liu
Main category: cs.CV
TL;DR: DOT-CBM通过细粒度视觉-概念关系解决了传统CBM的局限性,提升了模型可靠性和解释性。
- Motivation: 传统CBM仅学习图像与概念的粗粒度关系,忽略局部信息,导致虚假关系和解释困难。
- Method: 提出DOT-CBM框架,将概念预测建模为局部图像块与概念间的运输问题,结合正交投影损失和运输先验。
- Result: DOT-CBM在图像分类、局部检测和分布外泛化任务中达到SOTA性能。
- Conclusion: DOT-CBM通过细粒度对齐和运输先验,显著提升了模型的可靠性和解释能力。
[79] Language-Driven Dual Style Mixing for Single-Domain Generalized Object Detection
Hongda Qin,Xiao Lu,Zhiyong Wei,Yihong Cao,Kailun Yang,Ningjiang Chen
Main category: cs.CV
TL;DR: 提出了一种语言驱动的双重风格混合(LDDS)方法,用于单域泛化,通过利用视觉语言模型(VLM)的语义信息增强源域多样性。
- Motivation: 解决现有方法因依赖特定VLM结构而限制检测器框架选择的问题。
- Method: 通过提示将VLM中的风格语义转移到图像翻译网络,生成风格多样化的图像;在图像和特征级别进行风格混合。
- Result: 在多个基准数据集上验证了方法的有效性,包括真实到卡通和正常到恶劣天气任务。
- Conclusion: LDDS方法无需依赖特定增强选择,可无缝适配主流检测器框架。
[80] When Dance Video Archives Challenge Computer Vision
Philippe Colantoni,Rafique Ahmed,Prashant Ghimire,Damien Muselet,Alain Trémeau
Main category: cs.CV
TL;DR: 提出了一种结合最新技术的3D人体姿态估计流程,用于舞蹈视频分析,并通过实验验证了数据参数对姿态估计的影响。
- Motivation: 探讨舞蹈视频对姿态估计技术的挑战,并改进现有方法。
- Method: 结合最新技术设计新流程,利用舞蹈视频档案进行测试和实验,使用可视化分析工具评估数据参数影响。
- Result: 实验结果公开,展示了数据参数对姿态估计的具体影响。
- Conclusion: 新流程有效应对舞蹈视频的挑战,为相关研究提供了公开数据支持。
[81] Incomplete In-context Learning
Wenqiang Wang,Yangshijie Zhang
Main category: cs.CV
TL;DR: 论文提出了一种名为IJIP的两阶段框架,用于解决不完全检索数据库条件下的视觉上下文学习问题,显著提升了分类性能。
- Motivation: 现实场景中,检索数据库可能仅包含部分类别的标注样本,导致传统视觉上下文学习方法失效。
- Method: IJIP框架包括迭代判断阶段和集成预测阶段,将多类分类问题转化为多个二元分类任务,并结合输入图像优化结果。
- Result: IJIP在两种LVLM和两种数据集上表现优异,最高准确率达93.9%,且在标签完整时仍优于基线方法。
- Conclusion: IJIP有效解决了不完全检索数据库问题,并适用于提示学习和文本领域。
[82] Towards Accurate State Estimation: Kalman Filter Incorporating Motion Dynamics for 3D Multi-Object Tracking
Mohamed Nagy,Naoufel Werghi,Bilal Hassan,Jorge Dias,Majid Khonji
Main category: cs.CV
TL;DR: 提出了一种改进的卡尔曼滤波器,通过动态调整运动模型,显著提升了3D多目标跟踪的精度和性能。
- Motivation: 现有卡尔曼滤波器在3D多目标跟踪中因固定运动模型导致状态估计不精确,尤其是在遮挡条件下。
- Method: 引入了一种新的卡尔曼滤波器,能够根据物体运动动态调整运动模型。
- Result: 在KITTI和Waymo数据集上表现优于基准,HOTA和MOTA分别提升0.56%和0.81%,且处理时间仅增加0.078毫秒/帧。
- Conclusion: 改进的卡尔曼滤波器在实时应用中具有高效性和优越性,尤其在处理遮挡时表现突出。
[83] Synthetic Similarity Search in Automotive Production
Christoph Huber,Ludwig Schleeh,Dino Knoll,Michael Guthe
Main category: cs.CV
TL;DR: 提出了一种结合相似性搜索和合成数据的图像分类方法,减少了对大量真实标注数据的需求。
- Motivation: 汽车生产中视觉质量检测需要大量标注数据,成本高且耗时,因此需要一种减少数据依赖的方法。
- Method: 使用DINOv2模型将图像转换为特征向量,通过余弦距离与预分类参考图像比较,利用合成数据替代真实数据。
- Result: 在八个实际检测场景中验证,满足生产环境的高性能要求。
- Conclusion: 该方法通过合成数据和相似性搜索,实现了高精度分类,减少了对真实数据的依赖。
[84] Skywork-VL Reward: An Effective Reward Model for Multimodal Understanding and Reasoning
Xiaokun Wang,Chris,Jiangbo Pei,Wei Shen,Yi Peng,Yunzhuo Hao,Weijie Qiu,Ai Jian,Tianyidan Xie,Xuchen Song,Yang Liu,Yahui Zhou
Main category: cs.CV
TL;DR: Skywork-VL Reward是一种多模态奖励模型,用于为多模态理解和推理任务提供奖励信号。其技术包括构建大规模多模态偏好数据集和基于Qwen2.5-VL-7B-Instruct的奖励模型架构。实验表明其在多模态和文本任务中表现优异,并显著提升了多模态推理能力。
- Motivation: 开发一种通用的、可靠的多模态奖励模型,以支持多模态对齐任务。
- Method: 1. 构建大规模多模态偏好数据集;2. 基于Qwen2.5-VL-7B-Instruct设计奖励模型架构,并采用多阶段微调和成对排序损失。
- Result: 在多模态VL-RewardBench和文本RewardBench上达到最优性能,并显著提升多模态推理能力。
- Conclusion: Skywork-VL Reward是多模态对齐任务的重要进展,模型已公开以促进透明性和可复现性。
[85] L-SWAG: Layer-Sample Wise Activation with Gradients information for Zero-Shot NAS on Vision Transformers
Sofia Casarin,Sergio Escalera,Oswald Lanz
Main category: cs.CV
TL;DR: 该论文提出了一种无需训练的神经架构搜索方法(ZC-NAS),扩展了零成本代理(ZC proxies)的适用范围至Vision Transformers(ViTs),并提出了新的通用度量L-SWAG和组合代理的方法LIBRA-NAS,显著提升了搜索效率。
- Motivation: 随着大型语言模型的兴起,现有零成本代理主要局限于卷积搜索空间,无法适应ViTs的需求,因此需要扩展其适用性并提升性能。
- Method: 论文提出了L-SWAG度量来通用化评估卷积和Transformer架构,并开发了LIBRA-NAS方法,通过机器学习模型组合代理以优化特定任务。
- Result: LIBRA-NAS在ImageNet1k上仅用0.1 GPU天就实现了17.0%的测试错误率,优于进化和基于梯度的NAS技术。
- Conclusion: 该工作成功将ZC-NAS扩展至ViTs,并通过L-SWAG和LIBRA-NAS显著提升了搜索效率和性能。
[86] Human Motion Prediction via Test-domain-aware Adaptation with Easily-available Human Motions Estimated from Videos
Katsuki Shimbo,Hiromu Taketsugu,Norimichi Ukita
Main category: cs.CV
TL;DR: 论文提出通过从易获取的视频中估计2D姿态并转换为3D运动数据,增强3D人体运动预测模型的泛化能力。
- Motivation: 传统方法依赖昂贵的动作捕捉数据,限制了数据多样性,导致模型对未见过的动作或主体泛化能力差。
- Method: 从单目视频估计2D姿态,通过特定流程转换为3D运动数据,用于额外训练HMP模型。
- Result: 实验结果表明,该方法在定量和定性上均提升了模型性能。
- Conclusion: 通过利用视频数据增强训练,有效提升了HMP模型的泛化能力。
[87] Enabling Privacy-Aware AI-Based Ergonomic Analysis
Sander De Coninck,Emilio Gamba,Bart Van Doninck,Abdellatif Bey-Temsamani,Sam Leroux,Pieter Simoens
Main category: cs.CV
TL;DR: 提出了一种隐私保护的工效学评估框架,通过机器学习技术模糊视频数据,保护隐私的同时保持高精度的人体姿态估计。
- Motivation: 制造业中肌肉骨骼疾病(MSDs)导致的经济损失和生产力下降,需要非侵入性且隐私保护的工效学评估方法。
- Method: 采用对抗训练开发轻量级神经网络模糊视频数据,结合多视角集成和REBA方法进行3D关键点重建与评估。
- Result: 系统在保护隐私的同时,实现了高精度的姿态估计和工效学评估。
- Conclusion: 该框架为工业环境提供了一种安全有效的工效学监测解决方案,兼顾隐私与工作场所安全。
[88] RealRep: Generalized SDR-to-HDR Conversion with Style Disentangled Representation Learning
Gang He,Siqi Wang,Kepeng Xu,Lin Zhang
Main category: cs.CV
TL;DR: 论文提出了一种名为RealRep的通用SDR-to-HDR方法,通过解耦亮度和色度,处理真实世界中多样风格的SDR内容,并进一步引入DDACMNet框架,实现自适应分层映射。
- Motivation: 现有方法依赖固定色调映射操作,难以处理多样风格的SDR输入,因此需要一种更通用的方法。
- Method: 提出RealRep方法,解耦亮度和色度,学习多视角风格表示;并引入DDACMNet框架,通过控制感知归一化机制实现自适应分层映射。
- Result: RealRep在广泛实验中表现优于现有方法,具有更好的泛化能力和感知真实的HDR色域重建。
- Conclusion: RealRep和DDACMNet为SDR-to-HDR转换提供了一种高效且通用的解决方案,适用于多样风格的输入。
[89] Link to the Past: Temporal Propagation for Fast 3D Human Reconstruction from Monocular Video
Matthew Marchellus,Nadhira Noor,In Kyu Park
Main category: cs.CV
TL;DR: TemPoFast3D提出了一种快速3D穿衣人体重建方法,通过利用时间连贯性减少冗余计算,同时保持重建质量,适用于实时应用。
- Motivation: 现有方法在计算效率和重建质量之间难以平衡,静态图像重建计算量大,而高质量重建需要长时间优化,无法满足实时需求。
- Method: 利用时间连贯性,通过高效坐标映射维护和优化规范外观表示,将像素对齐重建网络扩展到连续视频流。
- Result: 实验表明,TemPoFast3D在标准指标上匹配或超越现有方法,最高速度达12 FPS,支持多样姿态和外观的高质量纹理重建。
- Conclusion: TemPoFast3D是一种高效且高质量的3D穿衣人体重建方法,适用于实时应用。
[90] SAEN-BGS: Energy-Efficient Spiking AutoEncoder Network for Background Subtraction
Zhixuan Zhang,Xiaopeng Li,Qi Liu
Main category: cs.CV
TL;DR: 提出了一种基于脉冲神经网络的SAEN-BGS方法,用于提升背景减除技术对噪声的鲁棒性,并降低能耗。
- Motivation: 现有深度学习的背景减除技术对视频中的背景噪声(如光照变化、相机角度变化等)处理不足。
- Method: 设计了基于脉冲神经网络的脉冲自编码器网络(SAEN-BGS),引入了连续脉冲卷积-反卷积块和自蒸馏脉冲监督学习方法。
- Result: 在CDnet-2014和DAVIS-2016数据集上表现优于基线方法,尤其在动态背景复杂场景中。
- Conclusion: SAEN-BGS在提升背景减除性能和能效方面具有显著优势。
[91] Generative Pre-trained Autoregressive Diffusion Transformer
Yuan Zhang,Jiacheng Jiang,Guoqing Ma,Zhiying Lu,Haoyang Huang,Jianlong Yuan,Nan Duan
Main category: cs.CV
TL;DR: GPDiT是一种结合扩散模型和自回归模型的生成式预训练Transformer,用于连续潜在空间中的长范围视频合成。
- Motivation: 统一扩散模型和自回归模型的优势,以提升视频合成的质量和语义一致性。
- Method: 通过扩散损失自回归预测未来潜在帧,引入轻量级因果注意力变体和无参数旋转时间条件机制。
- Result: 在视频生成质量、表示能力和少样本学习任务中表现优异。
- Conclusion: GPDiT是连续空间中视频建模的有效框架。
[92] AI-Enabled Accurate Non-Invasive Assessment of Pulmonary Hypertension Progression via Multi-Modal Echocardiography
Jiewen Yang,Taoran Huang,Shangwei Ding,Xiaowei Xu,Qinhua Zhao,Yong Jiang,Jiarong Guo,Bin Pu,Jiexuan Zheng,Caojin Zhang,Hongwen Fei,Xiaomeng Li
Main category: cs.CV
TL;DR: MePH是一种多视角、多模态视觉语言模型,通过非侵入性超声心动图准确评估肺动脉高压进展,显著优于传统方法。
- Motivation: 传统方法如右心导管检查(RHC)虽精确但具侵入性,不适合常规使用,需开发非侵入性替代方案。
- Method: 构建包含1,237例患者数据的大型数据集,结合多视角、多模态超声心动图与RHC数据,训练MePH模型。
- Result: MePH显著降低mPAP和PVR评估误差,在外部医院验证中表现优异,预测严重性AUC达0.921。
- Conclusion: MePH为非侵入性肺动脉高压管理提供了高效、准确的工具,支持早期干预和个性化治疗。
[93] Geometric Prior-Guided Neural Implicit Surface Reconstruction in the Wild
Lintao Xiang,Hongpei Zheng,Bailin Deng,Hujun Yin
Main category: cs.CV
TL;DR: 提出了一种新方法,通过多几何约束改进神经隐式表面重建,解决了现有方法在非受控环境中的局限性。
- Motivation: 现有方法在光照一致场景表现良好,但在非受控环境中(如瞬态遮挡或外观变化)难以准确重建3D几何。
- Method: 结合稀疏3D点和法线先验,通过位移补偿和边缘先验过滤优化隐式表面重建。
- Result: 在Heritage-Recon等数据集上验证,方法能更准确地从非受控图像中重建表面,几何精度和细节优于现有技术。
- Conclusion: 该方法适用于文化遗产保护等多样化场景,实现了高质量3D重建。
[94] Boosting Global-Local Feature Matching via Anomaly Synthesis for Multi-Class Point Cloud Anomaly Detection
Yuqi Cheng,Yunkang Cao,Dongfang Wang,Weiming Shen,Wenlong Li
Main category: cs.CV
TL;DR: GLFM是一种多类点云异常检测方法,通过全局-局部特征匹配解决特征混淆问题,提升检测性能。
- Motivation: 多类无监督方法的需求因产品类别增加而凸显,但特征混淆问题限制了其性能。
- Method: GLFM分为三阶段:异常合成、全局-局部记忆库建立、基于特征距离的异常检测。
- Result: 在多个数据集上展示了GLFM的优越性能。
- Conclusion: GLFM有效解决了多类点云异常检测中的特征混淆问题,性能显著。
[95] Apple's Synthetic Defocus Noise Pattern: Characterization and Forensic Applications
David Vázquez-Padín,Fernando Pérez-González,Pablo Pérez-Miguélez
Main category: cs.CV
TL;DR: 论文研究了iPhone人像模式图像中的合成散焦噪声模式(SDNP),提出了一种精确估计方法,并探讨了其在法医分析中的应用,包括图像溯源和减少PRNU误报。
- Motivation: iPhone人像模式中的SDNP可能干扰盲法医分析,尤其是基于PRNU的相机来源验证,因此需要深入研究其特征和应用。
- Method: 详细表征SDNP,提出精确估计方法,并建模其与场景亮度、ISO设置等因素的关系。
- Result: SDNP可用于图像溯源,并显著减少PRNU误报,提升相机归属技术的准确性。
- Conclusion: SDNP的研究为法医分析提供了新工具,改进了现有技术,尤其在相机来源验证中具有重要意义。
[96] Few-shot Semantic Encoding and Decoding for Video Surveillance
Baoping Cheng,Yukun Zhang,Liming Wang,Xiaoyan Xie,Tao Fu,Dongkun Wang,Xiaoming Tao
Main category: cs.CV
TL;DR: 提出了一种基于语义编码和解码的监控视频处理方法,通过提取草图作为语义信息并压缩,结合图像翻译网络和少样本解码网络,显著降低了存储和传输消耗。
- Motivation: 随着监控摄像头数量和分辨率的增加,传统通信方法面临优化瓶颈,语义通信有望突破这一瓶颈,减少视频的存储和传输负担。
- Method: 提取草图作为语义信息并压缩;提出图像翻译网络将草图转换为视频帧;设计少样本草图解码网络重建视频。
- Result: 实验表明,该方法在视频重建性能上优于基线方法,且草图压缩有效减少了语义信息的存储和传输消耗。
- Conclusion: 该方法为监控场景提供了一种仅需少量训练样本的语义编码和解码方法,提升了语义通信系统的实用性。
[97] Feature Visualization in 3D Convolutional Neural Networks
Chunpeng Li,Ya-tang Li
Main category: cs.CV
TL;DR: 提出了一种新的3D卷积核可视化方法,通过分解纹理和运动偏好,提供更清晰的动态模式解释。
- Motivation: 传统方法难以解释3D卷积核的高维复杂特征,需要更有效的可视化技术。
- Method: 采用数据驱动的输入分解和两阶段优化策略,提取纹理和运动组件。
- Result: 可视化结果清晰揭示了3D卷积核偏好的动态模式,特别是运动部分。
- Conclusion: 该方法为3D卷积操作提供了可解释的洞察,代码已开源。
[98] TUM2TWIN: Introducing the Large-Scale Multimodal Urban Digital Twin Benchmark Dataset
Olaf Wysocki,Benedikt Schwab,Manoj Kumar Biswanath,Qilin Zhang,Jingwei Zhu,Thomas Froech,Medhini Heeramaglore,Ihab Hijazi,Khaoula Kanna,Mathias Pechinger,Zhaiyu Chen,Yao Sun,Alejandro Rueda Segura,Ziyang Xu,Omar AbdelGafar,Mansour Mehranfar,Chandan Yeshwanth,Yueh-Cheng Liu,Hadi Yazdi,Jiapan Wang,Stefan Auer,Katharina Anders,Klaus Bogenberger,Andre Borrmann,Angela Dai,Ludwig Hoegner,Christoph Holst,Thomas H. Kolbe,Ferdinand Ludwig,Matthias Nießner,Frank Petzold,Xiao Xiang Zhu,Boris Jutzi
Main category: cs.CV
TL;DR: TUM2TWIN是一个全面的多模态城市数字孪生基准数据集,旨在解决城市数字孪生创建中的挑战,支持传感器分析和高级重建方法开发。
- Motivation: 当前数据集通常局限于处理链的某一部分,阻碍了城市数字孪生的全面验证。
- Method: 引入TUM2TWIN数据集,包括地理参考、语义对齐的3D模型和网络,以及多种地面、移动、航空和卫星观测数据。
- Result: 数据集覆盖约100,000平方米,包含32个子集和767 GB数据,支持多种下游任务。
- Conclusion: TUM2TWIN为克服城市数字孪生创建的当前限制奠定了基础,推动了更智能、数据驱动的城市环境研究。
[99] DepthFusion: Depth-Aware Hybrid Feature Fusion for LiDAR-Camera 3D Object Detection
Mingqian Ji,Jian Yang,Shanshan Zhang
Main category: cs.CV
TL;DR: 论文提出了一种深度感知的混合特征融合策略(DepthFusion),通过深度编码调整点云和RGB图像模态的权重,显著提升了3D目标检测性能。
- Motivation: 现有LiDAR-相机3D目标检测器在设计融合策略时忽视了深度因素,作者发现不同模态在不同深度下作用不同,因此提出深度感知的融合方法。
- Method: 设计了Depth-GFusion和Depth-LFusion模块,分别通过深度编码在全局和局部特征中自适应调整模态权重。
- Result: 在nuScenes和KITTI数据集上表现优于现有方法,且在nuScenes-C数据集上对各类干扰更具鲁棒性。
- Conclusion: DepthFusion通过深度感知的融合策略显著提升了多模态3D目标检测的性能和鲁棒性。
[100] Lightweight Multispectral Crop-Weed Segmentation for Precision Agriculture
Zeynep Galymzhankyzy,Eric Martinson
Main category: cs.CV
TL;DR: 提出了一种轻量级Transformer-CNN混合模型,用于高效作物-杂草分割,结合多光谱数据,显著提升精度。
- Motivation: 传统CNN方法在复杂田间条件下泛化能力不足且依赖RGB图像,限制了性能。
- Method: 采用轻量级Transformer-CNN混合模型,处理RGB、近红外和红边波段,通过动态模态整合提升性能。
- Result: 在WeedsGalore数据集上,模型分割精度(平均IoU)达78.88%,优于RGB模型15.8个百分点,参数仅870万。
- Conclusion: 该模型兼具高精度和计算效率,适合无人机和边缘设备实时部署,推动精准杂草管理。
[101] Addressing degeneracies in latent interpolation for diffusion models
Erik Landolsi,Fredrik Kahl
Main category: cs.CV
TL;DR: 论文提出了一种简单的归一化方法,用于解决多图像潜在空间插值时导致的退化问题,显著提升了生成图像的质量。
- Motivation: 随着扩散模型在图像生成和数据增强中的应用增多,多图像潜在插值易导致退化结果,需要一种有效解决方案。
- Method: 通过理论分析和实验验证,提出了一种简单的归一化方案,用于潜在空间插值。
- Result: 实验表明,基线插值方法在退化问题明显前已导致质量下降,而新方法显著减少了退化并提升了质量指标。
- Conclusion: 提出的归一化方法简单有效,适用于潜在插值场景,显著改善了生成图像的质量。
[102] DocVXQA: Context-Aware Visual Explanations for Document Question Answering
Mohamed Ali Souibgui,Changkyu Choi,Andrey Barsky,Kangsoo Jung,Ernest Valveny,Dimosthenis Karatzas
Main category: cs.CV
TL;DR: DocVXQA是一个视觉自解释的文档问答框架,通过热图高亮关键区域提供解释,同时平衡性能和可解释性。
- Motivation: 传统方法仅关注与答案相关的区域,缺乏上下文充分性,DocVXQA旨在提供更全面的解释以增强用户信任。
- Method: 将可解释性原则量化为学习目标,生成上下文充分且表示高效的热图。
- Result: 实验和人工评估验证了方法的有效性,代码已开源。
- Conclusion: DocVXQA在文档问答中实现了性能与可解释性的平衡,为模型决策提供了透明性。
[103] Learning to Reason and Navigate: Parameter Efficient Action Planning with Large Language Models
Bahram Mohammadi,Ehsan Abbasnejad,Yuankai Qi,Qi Wu,Anton Van Den Hengel,Javen Qinfeng Shi
Main category: cs.CV
TL;DR: 本文提出了一种基于大语言模型的高效动作规划器(PEAP-LLM),用于在复杂室内环境中导航并定位远程目标对象,通过两阶段微调方法提升性能。
- Motivation: 解决远程实体指代表达任务(REVERIE)中高效导航和定位的挑战,避免现有方法在复杂场景中的错误和人工干预需求。
- Method: 提出PEAP-LLM模型,包含LLM目标规划器(LGP)和LoRA动作规划器(LAP),并通过监督微调(SFT)和直接偏好优化(DPO)两阶段方法微调LLM。
- Result: 实验结果表明,PEAP-LLM在REVERIE任务上优于现有最优方法。
- Conclusion: PEAP-LLM通过两阶段微调显著提升了导航和定位性能,为复杂环境中的实体代理任务提供了高效解决方案。
[104] MAIS: Memory-Attention for Interactive Segmentation
Mauricio Orbes-Arteaga,Oeslle Lucena,Sabastien Ourselin,M. Jorge Cardoso
Main category: cs.CV
TL;DR: MAIS引入记忆注意力机制,通过存储用户输入和分割状态,提升交互式医学分割的效率与准确性。
- Motivation: 现有方法将交互视为独立事件,导致冗余修正和有限改进。
- Method: 提出MAIS,利用记忆注意力机制整合时间上下文信息。
- Result: 在多种成像模态中提升ViT分割性能,实现更高效准确的修正。
- Conclusion: MAIS通过时间上下文整合显著优化交互式分割效果。
[105] FLUXSynID: A Framework for Identity-Controlled Synthetic Face Generation with Document and Live Images
Raul Ismayilov,Luuk Spreeuwers,Dzemila Sero
Main category: cs.CV
TL;DR: FLUXSynID是一个生成高分辨率合成人脸数据集的框架,支持用户定义身份属性分布,并生成成对的文档风格和可信实时捕获图像。
- Motivation: 解决真实生物特征数据的隐私问题、人口不平衡和高收集成本,同时提供对身份属性的细粒度控制。
- Method: 提出FLUXSynID框架,生成具有用户定义属性分布的高分辨率合成人脸数据集,并支持成对图像生成。
- Result: 生成的数据集与真实身份分布更一致,且具有更高的集合间多样性。
- Conclusion: FLUXSynID框架及14,889个合成身份的数据集已公开,支持生物特征研究。
[106] IKrNet: A Neural Network for Detecting Specific Drug-Induced Patterns in Electrocardiograms Amidst Physiological Variability
Ahmad Fall,Federica Granese,Alex Lence,Dominique Fourer,Blaise Hanczar,Joe-Elie Salem,Jean-Daniel Zucker,Edi Prifti
Main category: cs.CV
TL;DR: IKrNet是一种新型神经网络模型,用于识别特定生理条件下ECG中的药物模式,优于现有方法。
- Motivation: 现有AI方法未充分考虑生理条件对ECG模式的影响,限制了实际应用。
- Method: IKrNet结合卷积网络(捕捉空间特征)和双向LSTM(建模时间依赖),以心率变异性为生理波动指标。
- Result: 在多种生理条件下(如体力应激、药物摄入),IKrNet的准确性和稳定性优于现有模型。
- Conclusion: IKrNet在临床环境中具有潜力,尤其在复杂生理条件下的ECG分析中表现优异。
[107] Discrete Visual Tokens of Autoregression, by Diffusion, and for Reasoning
Bohan Wang,Zhongqi Yue,Fengda Zhang,Shuo Chen,Li'an Bi,Junzhe Zhang,Xue Song,Kennard Yanting Chan,Jiachun Pan,Weijia Wu,Mingze Zhou,Wang Lin,Kaihang Pan,Saining Zhang,Liyu Jia,Wentao Hu,Wei Zhao,Hanwang Zhang
Main category: cs.CV
TL;DR: Selftok是一种新型离散视觉标记器,通过自回归先验统一扩散和自回归模型,支持强化学习,并在视觉生成任务中表现优异。
- Motivation: 传统空间先验在图像表示中存在局限性,Selftok旨在通过自回归先验解决这一问题,并支持视觉生成中的强化学习。
- Method: Selftok利用反向扩散过程生成自回归视觉标记,统一了扩散和自回归模型,无需额外模块或训练目标。
- Result: Selftok在视觉生成任务中表现优异,超越现有模型,且支持强化学习。
- Conclusion: Selftok解决了视觉标记无法有效支持强化学习的长期挑战,为多模态大语言模型的发展迈出重要一步。
[108] GIFStream: 4D Gaussian-based Immersive Video with Feature Stream
Hao Li,Sicheng Li,Xiang Gao,Abudouaihati Batuer,Lu Yu,Yiyi Liao
Main category: cs.CV
TL;DR: GIFStream是一种新型4D高斯表示方法,通过特征流和压缩网络实现高效沉浸式视频渲染。
- Motivation: 解决4D高斯泼溅在沉浸式视频中存储与质量平衡的挑战。
- Method: 使用规范空间和变形场,结合时间相关特征流,并引入时空压缩网络。
- Result: 在30 Mbps下实现高质量沉浸式视频,支持实时渲染和快速解码。
- Conclusion: GIFStream在存储效率与渲染质量间取得了平衡,适用于未来视频技术。
[109] SynID: Passport Synthetic Dataset for Presentation Attack Detection
Juan E. Tapia,Fabian Stockhardt,Lázaro Janier González-Soler,Christoph Busch
Main category: cs.CV
TL;DR: 提出了一种结合合成数据和公开信息的新方法,用于生成护照数据集,以解决远程验证系统中伪造ID检测的训练数据不足问题。
- Motivation: 远程工作和在线活动增加导致伪造ID攻击增多,但隐私问题限制了真实ID数据的可用性,因此需要新的数据生成方法。
- Method: 采用混合方法,结合合成数据和公开信息,遵循ICAO标准生成逼真的护照图像用于训练和测试。
- Result: 生成了一个可用于训练和测试的逼真护照数据集。
- Conclusion: 该方法为伪造ID检测提供了有效的训练数据解决方案。
[110] Automated Visual Attention Detection using Mobile Eye Tracking in Behavioral Classroom Studies
Efe Bozkir,Christian Kosel,Tina Seidel,Enkelejda Kasneci
Main category: cs.CV
TL;DR: 论文提出了一种自动化处理流程,结合移动眼动仪和面部识别技术,以最小手动标注数据识别教师关注的焦点学生。
- Motivation: 教师的视觉注意力分布对学生参与和成绩有重要影响,但传统方法依赖大量手动标注,效率低。
- Method: 利用先进的面部检测和识别模型,结合移动眼动仪数据,通过迁移学习训练教室环境下的面部识别模型。
- Result: 在四种教室布局中验证,U型和小型教室表现最佳,准确率分别约为0.7和0.9。
- Conclusion: 该方法无需大量手动标注,为非侵入式分析教师视觉注意力提供了可能,有助于改进教学策略和教师培训。
[111] Self-Supervised Event Representations: Towards Accurate, Real-Time Perception on SoC FPGAs
Kamil Jeziorek,Tomasz Kryjak
Main category: cs.CV
TL;DR: 论文提出了一种自监督事件表示(SSER)方法,利用GRU网络实现事件时间戳和极性的精确编码,无需时间离散化,显著提升了事件数据的处理性能。
- Motivation: 事件相机具有高时间分辨率、强光适应性和低功耗等优势,但稀疏异步事件流的处理仍具挑战性。现有方法或牺牲性能或损失时间保真度,需一种更优解决方案。
- Method: 采用GRU网络自监督训练,实现事件时间戳和极性的逐像素编码,异步生成事件表示,确保与高吞吐传感器的兼容性。
- Result: 实验表明,SSER在目标检测数据集上优于基线方法(mAP提升2.4%和0.6%),并在FPGA上实现亚微秒延迟和1-2W低功耗。
- Conclusion: SSER方法在事件数据处理中表现出色,兼具高性能和低功耗,适合实时高效应用。
[112] Robust Kidney Abnormality Segmentation: A Validation Study of an AI-Based Framework
Sarah de Boer,Hartmut Häntze,Kiran Vaidhya Venkadesh,Myrthe A. D. Buser,Gabriel E. Humpire Mamani,Lina Xu,Lisa C. Adams,Jawed Nawabi,Keno K. Bressem,Bram van Ginneken,Mathias Prokop,Alessa Hering
Main category: cs.CV
TL;DR: 开发了一种基于nnU-Net的肾脏异常分割算法,通过公开数据集训练,验证了其泛化性和鲁棒性,性能优于现有模型。
- Motivation: 临床中肾脏异常评估依赖主观视觉检查,缺乏客观标准,因此需要一种可重复的分割算法来支持定量分析。
- Method: 使用公开数据集训练nnU-Net框架,通过Dice系数和Hausdorff距离验证性能,并分析不同患者亚组的鲁棒性。
- Result: 算法在外部测试集上表现优异,优于现有模型,且在不同亚组中均保持高性能。
- Conclusion: 该算法具有高泛化性和鲁棒性,可用于临床和研究,代码已公开。
[113] Evaluating Modern Visual Anomaly Detection Approaches in Semiconductor Manufacturing: A Comparative Study
Manuel Barusco,Francesco Borsatti,Youssef Ben Khalifa,Davide Dalle Pezze,Gian Antonio Susto
Main category: cs.CV
TL;DR: 论文提出了一种基于无监督学习的视觉异常检测(VAD)方法,用于半导体制造中的SEM图像自动检测,避免了昂贵的缺陷样本收集过程。
- Motivation: 半导体制造过程复杂,传统监督方法需要大量标注异常样本,成本高昂。无监督VAD方法可以避免这一问题。
- Method: 利用MIIC数据集,建立了一个半导体领域的VAD基准,测试现代VAD方法的有效性。
- Result: 结果表明,现代VAD方法在半导体领域具有高效性。
- Conclusion: 无监督VAD方法为半导体制造中的视觉检测提供了高效且经济的解决方案。
[114] Deep Learning Advances in Vision-Based Traffic Accident Anticipation: A Comprehensive Review of Methods,Datasets,and Future Directions
Yi Zhang,Wenye Zhou,Ruonan Lin,Xin Yang,Hao Zheng
Main category: cs.CV
TL;DR: 本文综述了147项近期研究,探讨了基于监督、无监督和混合深度学习模型的交通事故预测方法,以及真实和合成数据集的使用。
- Motivation: 提升道路安全,通过视觉交通事故预测(Vision-TAA)在深度学习时代的应用。
- Method: 将现有方法分为四类:基于图像和视频特征的预测、基于时空特征的预测、场景理解和多模态数据融合。
- Result: 现有方法潜力显著,但仍面临数据稀缺、复杂场景泛化能力不足和实时性能限制等挑战。
- Conclusion: 未来研究方向包括多模态数据融合、自监督学习和Transformer架构的整合,以提升预测准确性和可扩展性。
[115] Higher-Order Convolution Improves Neural Predictivity in the Retina
Simone Azeglio,Victor Calbiague Garcia,Guilhem Glaziou,Peter Neri,Olivier Marre,Ulisse Ferrari
Main category: cs.CV
TL;DR: 提出了一种在卷积神经网络(CNN)中直接嵌入高阶操作的新方法,显著提升了神经响应预测的性能,同时减少了训练数据需求。
- Motivation: 解决传统CNN在模拟生物视觉系统时因深度不足而存在的架构差异问题。
- Method: 扩展了传统3D CNN,在卷积操作中嵌入高阶操作,直接建模空间和时间上相邻像素的乘法交互。
- Result: 在多种数据集上表现优异,训练数据需求减半,相关性系数高达0.75,且能自然编码几何变换。
- Conclusion: 该方法不仅提升了性能,还揭示了网络对几何变换的自然编码能力,特别适用于特定细胞类型的响应预测。
[116] A Unified Hierarchical Framework for Fine-grained Cross-view Geo-localization over Large-scale Scenarios
Zhuo Song,Ye Zhang,Kunhong Li,Longguang Wang,Yulan Guo
Main category: cs.CV
TL;DR: UnifyGeo是一个统一的分层地理定位框架,将检索和度量定位任务集成到单一网络中,通过共享参数和重排序机制显著提升性能。
- Motivation: 现有方法通常为检索和度量定位任务设计独立模型,导致协作效率低且训练开销大。
- Method: 采用统一学习策略和共享参数联合学习多粒度表示,设计基于专用损失函数的重排序机制。
- Result: 在VIGOR基准测试中,1米级定位召回率从1.53%提升至39.64%(同区域)和0.43%提升至25.58%(跨区域)。
- Conclusion: UnifyGeo显著优于现有方法,验证了统一框架的有效性。
[117] ShotAdapter: Text-to-Multi-Shot Video Generation with Diffusion Models
Ozgur Kara,Krishna Kumar Singh,Feng Liu,Duygu Ceylan,James M. Rehg,Tobias Hinz
Main category: cs.CV
TL;DR: 该论文提出了一种框架,通过扩展视频扩散模型和数据集收集方法,实现了从文本生成多镜头视频的能力,解决了现有方法只能生成单镜头视频的局限。
- Motivation: 现有基于扩散的文本到视频方法只能生成单镜头视频,无法生成多镜头视频。本文旨在解决这一问题。
- Method: 提出了一种框架,包括数据集收集流程和视频扩散模型的架构扩展,通过引入过渡标记和局部注意力掩码策略实现多镜头视频生成。
- Result: 实验表明,该方法能够生成具有镜头特定控制的多镜头视频,性能优于基线方法。
- Conclusion: 该方法通过少量微调即可实现多镜头视频生成,为文本到视频领域提供了新的可能性。
[118] Anatomical Attention Alignment representation for Radiology Report Generation
Quang Vinh Nguyen,Minh Duc Nguyen,Thanh Hoang Son Vo,Hyung-Jeong Yang,Soo-Hyung Kim
Main category: cs.CV
TL;DR: A3Net通过结合解剖学知识库和视觉特征,提升放射学报告生成的准确性和临床相关性。
- Motivation: 现有模型仅依赖原始图像的视觉特征,限制了空间结构和语义关系的理解,导致文本生成效果不佳。
- Method: 提出A3Net框架,结合解剖学知识库和图像区域特征,构建超视觉表示。
- Result: 在IU X-Ray和MIMIC-CXR数据集上,A3Net显著提升了视觉感知和文本生成质量。
- Conclusion: A3Net通过增强视觉-文本理解,提升了放射学报告生成的临床价值。
[119] Beyond CLIP Generalization: Against Forward&Backward Forgetting Adapter for Continual Learning of Vision-Language Models
Songlin Dong,Chenhao Ding,Jiangyang Li,Jizhou Han,Qiang Wang,Yuhang He,Yihong Gong
Main category: cs.CV
TL;DR: 论文提出了一种名为AFA的新框架,用于解决多领域任务增量学习(MTIL)问题,旨在增强视觉语言模型(VLMs)的零样本识别能力和少样本学习能力。
- Motivation: 现有方法仅能防止模型零样本能力的退化,但无法进一步提升其泛化能力,因此需要一种新方法来解决这一问题。
- Method: AFA框架包含两个核心模块:防止前向遗忘的适配器(学习任务不变信息)和防止后向遗忘的适配器(增强少样本学习能力)。
- Result: 实验表明,AFA在少样本MTIL任务中显著优于现有方法,并超越了CLIP的固有零样本性能。
- Conclusion: AFA框架有效提升了VLMs在增量学习中的表现,尤其是在零样本和少样本任务中。
[120] Feedback-Driven Pseudo-Label Reliability Assessment: Redefining Thresholding for Semi-Supervised Semantic Segmentation
Negin Ghamsarian,Sahar Nasirihaghighi,Klaus Schoeffmann,Raphael Sznitman
Main category: cs.CV
TL;DR: 论文提出了一种动态反馈驱动的伪标签选择方法ENCORE,通过估计未标记数据中的类别真实置信度并动态调整阈值,解决了传统伪监督方法依赖静态阈值的问题。
- Motivation: 半监督学习中伪监督方法依赖静态置信阈值,但最优阈值选择需要大量标记数据,这在现实中往往稀缺。
- Method: 提出ENCORE方法,动态估计类别真实置信度并反馈调整阈值,无需手动调参。
- Result: 实验表明,ENCORE显著提升了分割性能,尤其在数据稀缺条件下。
- Conclusion: ENCORE有效解决了伪监督中的阈值选择问题,提升了半监督学习的性能。
[121] Through the Looking Glass: Common Sense Consistency Evaluation of Weird Images
Elisei Rykov,Kseniia Petrushina,Kseniia Titova,Anton Razzhigaev,Alexander Panchenko,Vasily Konovalov
Main category: cs.CV
TL;DR: 提出了一种名为TLG的新方法,利用大型视觉语言模型和Transformer编码器评估图像常识一致性,并在WHOOPS!和WEIRD数据集上取得了最优性能。
- Motivation: 测量图像的真实性在人工智能研究中是一个复杂任务,例如沙漠中男孩拿吸尘器的图像违背常识。
- Method: 通过大型视觉语言模型提取图像中的原子事实,并微调一个紧凑的注意力池化分类器。
- Result: TLG在WHOOPS!和WEIRD数据集上达到了新的最优性能。
- Conclusion: TLG方法通过结合大型视觉语言模型和紧凑微调组件,有效提升了图像常识一致性的评估能力。
[122] Hybrid Spiking Vision Transformer for Object Detection with Event Cameras
Qi Xu,Jie Deng,Jiangrong Shen,Biwu Chen,Huajin Tang,Gang Pan
Main category: cs.CV
TL;DR: 本文提出了一种新型混合脉冲视觉Transformer(HsVT)模型,用于提升基于事件的目标检测性能,并通过公开数据集支持研究。
- Motivation: 基于事件的目标检测具有高时间分辨率、宽动态范围和异步事件表示等优势,但需要更高效的模型来提升性能。
- Method: HsVT模型结合了空间特征提取模块(捕获局部和全局特征)和时间特征提取模块(建模时间依赖性和长期模式)。
- Result: 实验表明,HsVT在GEN1和Fall Detection数据集上显著提升了检测性能,且参数更少。
- Conclusion: HsVT模型为基于事件的目标检测提供了高效解决方案,公开数据集推动了该领域的研究。
[123] Gameplay Highlights Generation
Vignesh Edithal,Le Zhang,Ilia Blank,Imran Junejo
Main category: cs.CV
TL;DR: 自动生成游戏高光时刻视频,提升社交分享体验。
- Motivation: 为玩家节省时间并提高观众参与度,避免传统方法的高成本和局限性。
- Method: 使用多模态视频理解模型X-CLIP,通过微调和提示工程提升分类性能。
- Result: 模型在未见过的第一人称射击游戏中检测有趣事件的准确率超过90%,并展示迁移学习能力。
- Conclusion: 自然语言监督的X-CLIP模型高效且性能优越,适合跨平台部署。
[124] LAMM-ViT: AI Face Detection via Layer-Aware Modulation of Region-Guided Attention
Jiangling Zhang,Weijie Zhu,Jirui Huang,Yaxiong Chen
Main category: cs.CV
TL;DR: LAMM-ViT是一种用于检测AI合成人脸的新方法,通过区域引导的多头注意力和层感知掩码调制,显著提升了检测性能。
- Motivation: 现有方法难以捕捉不同生成技术中面部区域的结构关系,导致对新生成模型的检测效果不佳。
- Method: 提出LAMM-ViT模型,结合区域引导多头注意力(RG-MHA)和层感知掩码调制(LAMM),动态调整区域关注。
- Result: 在跨模型测试中,LAMM-ViT平均准确率达94.09%,比现有方法提升5.45%。
- Conclusion: LAMM-ViT具有优异的泛化能力,能有效应对不断演变的合成媒体威胁。
[125] BodyGPS: Anatomical Positioning System
Halid Ziya Yerebakan,Kritika Iyer,Xueqi Guo,Yoshihisa Shinagawa,Gerardo Hermosillo Valadez
Main category: cs.CV
TL;DR: 提出一种新的基础模型,用于解析医学图像中的人体解剖结构,支持多种模态和监督/无监督训练,功能多样且高效。
- Motivation: 解决医学图像解析中多模态、多功能需求的问题,同时提升效率。
- Method: 通过训练神经网络回归器,将查询位置映射到图谱坐标,稀疏采样输入以提高效率。
- Result: 在CT和MRI模态中验证了算法的实用性,响应时间小于1毫秒。
- Conclusion: 该模型在医学图像解析中具有高效性和多功能性,适用于多种场景。
[126] Step1X-3D: Towards High-Fidelity and Controllable Generation of Textured 3D Assets
Weiyu Li,Xuanyang Zhang,Zheng Sun,Di Qi,Hao Li,Wei Cheng,Weiwei Cai,Shihao Wu,Jiarui Liu,Zihao Wang,Xiao Chen,Feipeng Tian,Jianxiong Pan,Zeming Li,Gang Yu,Xiangyu Zhang,Daxin Jiang,Ping Tan
Main category: cs.CV
TL;DR: Step1X-3D是一个开源框架,通过高质量数据集、两阶段3D生成架构和开源工具,解决了3D生成中的数据稀缺和算法限制问题。
- Motivation: 3D生成领域因数据稀缺、算法限制和生态系统碎片化而发展滞后,Step1X-3D旨在通过开源框架推动该领域的研究。
- Method: 框架包括数据整理流程、混合VAE-DiT几何生成器和基于扩散的纹理合成模块,支持2D控制技术迁移到3D生成。
- Result: 基准测试显示其性能优于现有开源方法,并与专有解决方案竞争。
- Conclusion: Step1X-3D通过提升数据质量、算法保真度和可复现性,为可控3D资产生成设定了新标准。
[127] Continuous Visual Autoregressive Generation via Score Maximization
Chenze Shao,Fandong Meng,Jie Zhou
Main category: cs.CV
TL;DR: 论文提出了一种连续视觉自回归(VAR)框架,避免了传统量化方法的信息损失,基于严格适当评分规则,探索了能量评分作为训练目标。
- Motivation: 传统自回归模型在处理连续视觉数据时需量化,导致信息损失,本文旨在解决这一问题。
- Method: 提出连续VAR框架,利用严格适当评分规则(如能量评分)作为训练目标,无需量化。
- Result: 框架支持直接生成连续视觉数据,且兼容其他严格适当评分方法(如GIVT和扩散损失)。
- Conclusion: 连续VAR框架为连续数据自回归生成提供了通用解决方案,避免了量化带来的信息损失。
[128] DanceGRPO: Unleashing GRPO on Visual Generation
Zeyue Xue,Jie Wu,Yu Gao,Fangyuan Kong,Lingting Zhu,Mengzhao Chen,Zhiheng Liu,Wei Liu,Qiushan Guo,Weilin Huang,Ping Luo
Main category: cs.CV
TL;DR: DanceGRPO是一个统一的RL框架,适用于多种视觉生成任务和模型,显著提升性能。
- Motivation: 现有基于RL的视觉生成方法存在局限性,如与ODE采样不兼容、训练不稳定等。DanceGRPO旨在解决这些问题。
- Method: DanceGRPO将GRPO算法应用于视觉生成,支持多种生成范式、任务和奖励模型。
- Result: DanceGRPO在多个基准测试中表现优异,性能提升高达181%。
- Conclusion: DanceGRPO为视觉生成中的RLHF任务提供了稳健且通用的解决方案。
cs.CL
[129] Integrating Video and Text: A Balanced Approach to Multimodal Summary Generation and Evaluation
Galann Pennec,Zhengyuan Liu,Nicholas Asher,Philippe Muller,Nancy F. Chen
Main category: cs.CL
TL;DR: 提出了一种零样本视频到文本摘要方法,通过生成剧本表示整合视频、对话和角色信息,并引入多模态评估指标MFactSum,在SummScreen3D数据集上表现优于现有模型。
- Motivation: 解决视觉语言模型在多模态输入(如电视剧集)摘要中难以平衡视觉与文本信息的问题。
- Method: 零样本方法,仅使用音频、视频和文本输入生成剧本并命名角色,同时提出多模态评估指标MFactSum。
- Result: 在SummScreen3D数据集上,生成的摘要包含20%更多相关视觉信息,且仅需75%的视频输入。
- Conclusion: 该方法在多模态摘要任务中表现优异,优于现有视觉语言模型。
cs.RO
[130] CompSLAM: Complementary Hierarchical Multi-Modal Localization and Mapping for Robot Autonomy in Underground Environments
Shehryar Khattak,Timon Homberger,Lukas Bernreiter,Julian Nubert,Olov Andersson,Roland Siegwart,Kostas Alexis,Marco Hutter
Main category: cs.RO
TL;DR: CompSLAM是一个多模态定位与建图框架,专为复杂地下环境设计,通过冗余传感器实现高鲁棒性,并在DARPA挑战赛中成功应用。
- Motivation: 解决GPS缺失、感知退化的地下环境中机器人实时定位与建图的挑战。
- Method: 采用分层多模态框架,利用冗余传感器互补性提升鲁棒性。
- Result: 在DARPA挑战赛中成功部署,并扩展至多机器人协作应用。
- Conclusion: CompSLAM在复杂环境中表现优异,代码和数据集已开源。
[131] M3CAD: Towards Generic Cooperative Autonomous Driving Benchmark
Morui Zhu,Yongqi Zhu,Yihao Zhu,Qi Chen,Deyuan Qu,Song Fu,Qing Yang
Main category: cs.RO
TL;DR: M
- Motivation: 推动协作自动驾驶研究,提供全面的多任务基准。
- Method: 构建M
CAD基准,包含多车辆和多模态数据,并提出E2EC框架。 - Result: M
CAD是目前最全面的协作多任务自动驾驶基准,E2EC框架表现有效。 - Conclusion: M
CAD和E2EC框架为协作自动驾驶研究提供了重要资源。
[132] Efficient Robotic Policy Learning via Latent Space Backward Planning
Dongxiu Liu,Haoyi Niu,Zhihao Wang,Jinliang Zheng,Yinan Zheng,Zhonghong Ou,Jianming Hu,Jianxiong Li,Xianyuan Zhan
Main category: cs.RO
TL;DR: 提出了一种基于潜在空间反向规划(LBP)的方法,解决机器人规划中实时性和准确性的问题。
- Motivation: 现有机器人规划方法在多帧图像预测中计算成本高且误差累积,影响实时部署和动作提取的准确性。
- Method: 采用潜在空间反向规划,从最终潜在目标开始递归预测中间子目标,并结合可学习令牌指导动作提取。
- Result: 在仿真和真实机器人实验中,LBP优于现有方法,达到最优性能。
- Conclusion: LBP方法在长时域多阶段任务中实现了高效且准确的实时控制。
[133] Reinforcement Learning-Based Monocular Vision Approach for Autonomous UAV Landing
Tarik Houichime,Younes EL Amrani
Main category: cs.RO
TL;DR: 该论文提出了一种仅使用单目摄像头实现无人机自主降落的新方法,无需深度估计摄像头,通过优化问题和强化学习实现高效降落。
- Motivation: 减少对复杂传感器的依赖,降低成本,提高无人机降落的效率和适用性。
- Method: 利用特殊设计的着陆垫上的视觉特征变化,通过强化学习算法优化降落任务。
- Result: 模拟和实验验证了该方法的鲁棒性和准确性。
- Conclusion: 该方法为低成本、高效的无人机降落提供了新思路,具有广泛的应用潜力。
[134] VALISENS: A Validated Innovative Multi-Sensor System for Cooperative Automated Driving
Lei Wan,Prabesh Gupta,Andreas Eich,Marcel Kettelgerdes,Hannan Ejaz Keen,Michael Klöppel-Gersdorf,Alexey Vinel
Main category: cs.RO
TL;DR: VALISENS是一个创新的多传感器系统,通过多智能体协作提升自动驾驶的感知能力,整合车载和路边传感器以增强环境感知。
- Motivation: 解决复杂现实场景中感知系统的挑战,提高对外部因素的鲁棒性。
- Method: 利用多传感器融合技术,结合车载和路边传感器(LiDAR、雷达、热成像和RGB相机),开发了VALISENS系统及其感知模块。
- Result: 系统在真实测试环境中展示了协作感知的潜力,为未来智能交通系统奠定基础。
- Conclusion: VALISENS通过多智能体协作和多传感器融合,显著提升了自动驾驶的感知能力和鲁棒性。
[135] Beyond Static Perception: Integrating Temporal Context into VLMs for Cloth Folding
Oriol Barbany,Adrià Colomé,Carme Torras
Main category: cs.RO
TL;DR: BiFold模型通过端到端学习预测语言条件下的抓取和放置动作,并利用时间上下文改进状态估计,以处理复杂衣物操作。
- Motivation: 衣物操作因复杂动态、高变形性和频繁自遮挡而具有挑战性,BiFold旨在解决这些问题。
- Method: BiFold通过视觉观察预测语言条件下的动作,并利用时间上下文优化状态估计。
- Result: 模型通过微调和时间上下文实现了文本与图像区域的有效对齐及时间一致性。
- Conclusion: BiFold为复杂衣物操作提供了一种有效的解决方案。
[136] Neural Brain: A Neuroscience-inspired Framework for Embodied Agents
Jian Liu,Xiongtao Shi,Thai Duy Nguyen,Haitian Zhang,Tianxiang Zhang,Wei Sun,Yanjie Li,Athanasios V. Vasilakos,Giovanni Iacca,Arshad Ali Khan,Arvind Kumar,Jae Won Cho,Ajmal Mian,Lihua Xie,Erik Cambria,Lin Wang
Main category: cs.RO
TL;DR: 本文提出了一种名为“神经大脑”的统一框架,旨在解决静态AI模型与动态现实世界适应性之间的差距,通过生物启发架构整合多模态感知、认知功能、记忆系统和硬件优化。
- Motivation: 当前AI系统(如大语言模型)缺乏物理交互能力,推动了具身AI的发展,目标是实现自主代理在非结构化环境中的适应性。
- Method: 提出生物启发架构,整合多模态主动感知、感知-认知-行动功能、基于神经可塑性的记忆系统及神经形态硬件/软件优化。
- Result: 通过分析现有研究,明确了当前AI系统与人类智能的差距,并提出了实现通用自主代理的路线图。
- Conclusion: 本文为具身代理的神经大脑开发提供了框架,目标是实现人类水平的实时适应性智能。
[137] Privacy Risks of Robot Vision: A User Study on Image Modalities and Resolution
Xuying Huang,Sicong Pan,Maren Bennewitz
Main category: cs.RO
TL;DR: 用户隐私在机器人应用中至关重要,尤其是移动服务机器人在个人或敏感环境中使用时。研究表明,深度图像和语义分割图像被视为隐私安全,而低分辨率RGB图像(如3232或1616)也能满足隐私保护需求。
- Motivation: 探讨用户对视觉数据隐私的感知,尤其是不同图像模态和分辨率对隐私担忧的影响。
- Method: 通过用户研究,调查不同图像模态(如深度图像、语义分割图像)和分辨率(如3232、1616)对用户隐私感知的影响。
- Result: 深度图像和语义分割图像被视为隐私安全;3232分辨率RGB图像被认为基本满足隐私保护需求,而1616分辨率则被认为完全保障隐私。
- Conclusion: 深度图像和低分辨率RGB图像是隐私保护的可行方案,可为机器人应用中的隐私问题提供参考。
[138] DexWild: Dexterous Human Interactions for In-the-Wild Robot Policies
Tony Tao,Mohan Kumar Srirama,Jason Jingzhou Liu,Kenneth Shaw,Deepak Pathak
Main category: cs.RO
TL;DR: DexWild提出了一种低成本、易用的设备(DexWild-System),通过人类手部动作收集数据,结合机器人演示数据训练,显著提升了机器人在新环境中的泛化能力。
- Motivation: 大规模、多样化的机器人数据集是实现通用灵巧操作的关键,但传统遥操作数据采集成本高,难以扩展。DexWild探索了利用人类日常手部动作采集数据的可行性。
- Method: 开发了DexWild-System设备,用于低成本采集人类手部动作数据。通过结合人类和机器人演示数据共同训练,提升模型性能。
- Result: 实验表明,DexWild在未见环境中成功率高达68.5%,是仅使用机器人数据训练的4倍,跨具身泛化能力提升5.8倍。
- Conclusion: DexWild通过人类数据与机器人数据的结合,显著提升了机器人在新环境和任务中的泛化能力,为低成本数据采集提供了新思路。
[139] Imagine, Verify, Execute: Memory-Guided Agentic Exploration with Vision-Language Models
Seungjae Lee,Daniel Ekpo,Haowen Liu,Furong Huang,Abhinav Shrivastava,Jia-Bin Huang
Main category: cs.RO
TL;DR: IVE(Imagine, Verify, Execute)是一种基于视觉语言模型(VLMs)的探索框架,通过语义推理生成高层探索行为,并在模拟和真实环境中验证其有效性。
- Motivation: 在开放环境中,密集奖励或明确目标稀缺,探索对机器人学习至关重要。VLMs的语义推理能力为生成探索行为提供了基础,但其输出常缺乏物理可行性验证。
- Method: IVE将RGB-D观测抽象为语义场景图,想象新场景并预测其物理可行性,通过动作工具生成可执行技能序列。
- Result: IVE在模拟和真实环境中实现了比强化学习基线更丰富和有意义的探索,状态熵提高了4.1至7.8倍,且支持下游学习。
- Conclusion: IVE通过结合想象与验证,实现了高效探索,其性能接近或超过基于人类演示训练的模型。
[140] Pixel Motion as Universal Representation for Robot Control
Kanchana Ranasinghe,Xiang Li,Cristina Mata,Jongwoo Park,Michael S Ryoo
Main category: cs.RO
TL;DR: LangToMo是一个双系统架构的视觉-语言-动作框架,利用像素运动预测作为中间表示,通过高层系统生成文本条件像素运动序列,低层系统将其转化为机器人动作。
- Motivation: 弥合语言、运动和动作之间的鸿沟,实现灵活、可扩展和通用的机器人控制。
- Method: 采用双系统架构:高层系统(System 2)为图像扩散模型,生成文本条件像素运动序列;低层系统(System 1)通过运动到动作的映射函数将像素运动转化为机器人动作。
- Result: 实现了在无监督和有监督设置下的灵活、可扩展和通用机器人控制。
- Conclusion: LangToMo通过分层解耦的双系统架构,成功连接了语言、运动和动作,为机器人控制提供了新思路。
[141] H DP: Triply-Hierarchical Diffusion Policy for Visuomotor Learning
Yiyang Lu,Yufeng Tian,Zhecheng Yuan,Xianbang Wang,Pu Hua,Zhengrong Xue,Huazhe Xu
Main category: cs.RO
TL;DR: H
- Motivation: 现有方法忽视了视觉感知与动作预测之间的耦合关系,H
DP旨在解决这一问题。 - Method: H
DP包含三层层次结构:深度感知输入分层、多尺度视觉表示和分层条件扩散过程。 - Result: 实验表明,H
DP在44个模拟任务中平均相对提升27.5%,并在4个真实世界双手机器人任务中表现优异。 - Conclusion: H
DP通过层次化设计显著提升了视觉运动策略学习的性能。
eess.IV
[142] LMLCC-Net: A Semi-Supervised Deep Learning Model for Lung Nodule Malignancy Prediction from CT Scans using a Novel Hounsfield Unit-Based Intensity Filtering
Adhora Madhuri,Nusaiba Sobir,Tasnia Binte Mamun,Taufiq Hasan
Main category: eess.IV
TL;DR: 提出了一种名为LMLCC-Net的深度学习框架,利用3D CNN和HU强度过滤对CT图像中的肺结节进行分类,显著提升了分类性能。
- Motivation: 肺癌是全球患者死亡的主要原因,早期诊断恶性肺结节对降低死亡率至关重要。现有方法未充分利用HU强度差异。
- Method: 结合HU强度模式和纹理特征,通过多分支提取特征,并探索不同分支和可学习过滤范围的组合。还提出了半监督学习方案和轻量级模型。
- Result: 在LUNA16数据集上,分类准确率91.96%,敏感性92.04%,AUC 91.87%,优于现有方法。
- Conclusion: LMLCC-Net能显著辅助放射科医生分类肺结节,改善患者护理。
[143] PC-SRGAN: Physically Consistent Super-Resolution Generative Adversarial Network for General Transient Simulations
Md Rakibul Hasan,Pouria Behnoudfar,Dan MacKinlay,Thomas Poulet
Main category: eess.IV
TL;DR: PC-SRGAN是一种改进的GAN方法,专注于提升超分辨率图像的物理一致性,适用于科学应用。
- Motivation: 传统GAN生成的超分辨率图像缺乏物理意义,限制了其在科学领域的应用。
- Method: PC-SRGAN通过结合物理一致性约束和先进的质量指标,提升图像分辨率和物理意义。
- Result: PC-SRGAN在PSNR和SSIM上优于传统方法,且仅需少量训练数据。
- Conclusion: PC-SRGAN为科学机器学习提供了更可靠和高效的解决方案,具有广泛的应用潜力。
[144] Reproducing and Improving CheXNet: Deep Learning for Chest X-ray Disease Classification
Daniel Strick,Carlos Garcia,Anthony Huang
Main category: eess.IV
TL;DR: 论文探讨了深度学习在放射影像分析中的应用,复现了CheXNet算法并探索了其他表现更优的算法,最终模型在NIH ChestX-ray14数据集上取得了平均AUC-ROC 0.85和F1分数0.39的成绩。
- Motivation: 深度学习在医学影像分析中的潜力巨大,可能成为现代医学的标准实践,因此研究如何提升算法性能具有重要意义。
- Method: 复现了CheXNet算法,并探索了其他表现更优的算法,使用F1分数和AUC-ROC作为主要评估指标。
- Result: 最佳模型在14种疾病分类中平均AUC-ROC为0.85,平均F1分数为0.39。
- Conclusion: 研究表明深度学习在放射影像分析中具有显著潜力,未来可能成为医学诊断的重要工具。
[145] HistDiST: Histopathological Diffusion-based Stain Transfer
Erik Großkopf,Valay Bundele,Mehran Hossienzadeh,Hendrik P. A. Lensch
Main category: eess.IV
TL;DR: HistDiST是一种基于潜在扩散模型(LDM)的框架,用于高保真H&E-to-IHC转换,通过双条件策略和新型噪声调度方法显著提升分子相关性。
- Motivation: H&E染色缺乏分子特异性,而IHC成本高且复杂,因此需要一种高效的H&E-to-IHC转换方法。现有方法(如GAN)存在训练不稳定和结构保真度低的问题。
- Method: 提出HistDiST框架,采用双条件策略(Phikon形态嵌入和VAE编码H&E表示),结合重新缩放的噪声调度和v预测,确保病理相关性和结构一致性。
- Result: 在MIST和BCI数据集上,HistDiST显著优于现有方法,H&E-to-Ki67转换任务的MRA提升28%。
- Conclusion: HistDiST在分子相关性和结构一致性方面表现出色,为H&E-to-IHC转换提供了高效解决方案。
[146] Missing Data Estimation for MR Spectroscopic Imaging via Mask-Free Deep Learning Methods
Tan-Hanh Pham,Ovidiu C. Andronesi,Xianqi Li,Kim-Doang Nguyen
Main category: eess.IV
TL;DR: 提出了一种基于深度学习的无掩码框架,用于估计MRSI代谢图中的缺失数据,优于传统插值方法。
- Motivation: MRSI在脑代谢物非侵入性映射中具有重要作用,但常因数据缺失或损坏而受限。
- Method: 采用2D和3D U-Net架构,通过上下文空间特征隐式检测和估计缺失区域,并引入渐进训练策略增强鲁棒性。
- Result: 在模拟和真实患者数据上表现优异,2D模型MSE为0.002,SSIM为0.97;3D模型MSE为0.001,SSIM为0.98。
- Conclusion: 该方法无需掩码输入或重新训练,展示了深度学习在MRSI恢复中的有效性和广泛适用性。
[147] Uni-AIMS: AI-Powered Microscopy Image Analysis
Yanhui Hong,Nan Wang,Zhiyi Xia,Haoyi Tao,Xi Fang,Yiming Li,Jiankun Wang,Peng Jin,Xiaochen Cai,Shengyu Li,Ziqi Chen,Zezhong Zhang,Guolin Ke,Linfeng Zhang
Main category: eess.IV
TL;DR: 本文提出了一种系统化的解决方案,用于显微镜图像的智能识别和自动分析,包括数据引擎、分割模型和智能分析平台。
- Motivation: 解决显微镜图像识别和分析中的独特挑战,如小目标检测和图像标尺识别,以提升自动化分析的效率和准确性。
- Method: 开发数据引擎生成高质量标注数据集,提出分割模型检测不同大小目标,并支持图像标尺的自动识别。
- Result: 构建了全面的智能分析平台,验证了其在真实应用中的有效性和实用性。
- Conclusion: 该研究不仅推动了显微镜图像的自动识别技术,还确保了跨领域应用的扩展性和通用性。
[148] Whitened CLIP as a Likelihood Surrogate of Images and Captions
Roy Betser,Meir Yossef Levi,Guy Gilboa
Main category: eess.IV
TL;DR: 论文提出了一种名为Whitened CLIP的方法,通过线性变换将CLIP的潜在空间转换为标准正态分布,从而简化图像和文本的似然计算。
- Motivation: 图像似然计算复杂且应用广泛,因此需要一种高效的方法来评估图像和文本的似然。
- Method: 通过可逆线性变换(Whitened CLIP)将CLIP嵌入空间转换为零均值、单位标准差且无相关性的空间,使其协方差矩阵为单位矩阵。
- Result: 实验表明,变换后的嵌入空间可近似为标准正态分布,似然计算简化为欧几里得距离的平方。
- Conclusion: Whitened CLIP提供了一种无需训练、快速计算图像和文本似然的方法,具有实际应用潜力。
[149] Skull stripping with purely synthetic data
Jong Sung Park,Juhyung Ha,Siddhesh Thakur,Alexandra Badea,Spyridon Bakas,Eleftherios Garyfallidis
Main category: eess.IV
TL;DR: PUMBA是一种无需真实脑图像或标签的通用脑提取训练策略,在多模态、多物种及病理情况下表现优异。
- Motivation: 现有颅骨剥离算法缺乏通用性,PUMBA旨在填补这一空白。
- Method: 通过纯合成数据训练模型,无需真实图像或解剖先验知识。
- Result: 模型在多模态、多物种及病理情况下达到可比准确性。
- Conclusion: 为通用医学图像分割任务提供了新研究方向。
[150] Metrics that matter: Evaluating image quality metrics for medical image generation
Yash Deo,Yan Jia,Toni Lassila,William A. P. Smith,Tom Lawton,Siyuan Kang,Alejandro F. Frangi,Ibrahim Habli
Main category: eess.IV
TL;DR: 该研究评估了无参考图像质量指标在合成医学影像中的可靠性,发现其与下游任务表现相关性差,且对临床关键细节不敏感,建议采用多维度验证框架。
- Motivation: 评估生成模型在合成医学影像中的可靠性,尤其是在临床应用中需要高保真度和解剖学准确性的情况下。
- Method: 使用脑MRI数据(包括肿瘤和血管图像),系统评估无参考图像质量指标对噪声、分布偏移和局部形态变化的敏感性,并与下游分割任务表现对比。
- Result: 研究发现许多常用指标与下游任务表现相关性差,对临床关键细节不敏感,且可能误导模型评估。
- Conclusion: 建议采用结合下游任务表现和谨慎选择的无参考指标的多维度验证框架,以确保生成模型适用于临床。
[151] Multi-Plane Vision Transformer for Hemorrhage Classification Using Axial and Sagittal MRI Data
Badhan Kumar Das,Gengyan Zhao,Boris Mailhe,Thomas J. Re,Dorin Comaniciu,Eli Gibson,Andreas Maier
Main category: eess.IV
TL;DR: 提出了一种3D多平面视觉变换器(MP-ViT),用于解决MRI图像中不同方向和对比度导致的脑出血分类问题,显著提升了分类性能。
- Motivation: MRI图像的不同方向和对比度增加了脑出血分类的复杂性,传统方法可能导致信息丢失。
- Method: MP-ViT采用两个独立的变换器编码器处理轴向和矢状面数据,并通过交叉注意力整合信息,同时引入模态指示向量补充缺失的对比度信息。
- Result: 在真实临床数据集上,MP-ViT的AUC比ViT提升5.5%,比CNN架构提升1.8%。
- Conclusion: MP-ViT在需要不同方向对比度的脑出血检测中具有显著优势。
[152] Ophora: A Large-Scale Data-Driven Text-Guided Ophthalmic Surgical Video Generation Model
Wei Li,Ming Hu,Guoan Wang,Lihao Liu,Kaijin Zhou,Junzhi Ning,Xin Guo,Zongyuan Ge,Lixu Gu,Junjun He
Main category: eess.IV
TL;DR: Ophora是一个基于自然语言指令生成眼科手术视频的AI模型,通过构建大规模数据集Ophora-160K和渐进式视频-指令调优方案,解决了数据隐私和标注难题。
- Motivation: 眼科手术视频标注困难且隐私敏感,传统方法难以获取高质量数据,因此需要一种隐私保护的视频生成方案。
- Method: 提出Comprehensive Data Curation流程构建Ophora-160K数据集,并采用Progressive Video-Instruction Tuning方案从预训练模型中迁移时空知识。
- Result: 实验表明Ophora能生成真实可靠的手术视频,并支持下游任务如手术流程理解。
- Conclusion: Ophora为隐私敏感领域提供了一种高效的数据生成方案,具有实际应用潜力。
[153] Breast Cancer Classification in Deep Ultraviolet Fluorescence Images Using a Patch-Level Vision Transformer Framework
Pouya Afshin,David Helminiak,Tongtong Lu,Tina Yen,Julie M. Jorns,Mollie Patton,Bing Yu,Dong Hye Ye
Main category: eess.IV
TL;DR: 该研究提出了一种基于深度紫外荧光扫描显微镜(DUV-FSM)和视觉变换器(ViT)的乳腺癌分类框架,显著提高了良恶性组织分类的准确性。
- Motivation: 乳腺癌保乳手术(BCS)需要在彻底切除恶性肿瘤和保留健康组织之间取得平衡,术中边缘评估是关键。DUV-FSM可快速获取切除组织的全表面图像(WSIs),但高分辨率和复杂的组织病理学特征对分类提出了挑战。
- Method: 研究采用基于patch-level的视觉变换器(ViT)模型,结合Grad-CAM++显著性加权,捕捉局部和全局特征,增强结果可解释性。
- Result: 通过5折交叉验证,该方法分类准确率达到98.33%,显著优于传统深度学习方法。
- Conclusion: 该框架为乳腺癌术中边缘评估提供了高效且可解释的分类工具。
[154] Hierarchical Sparse Attention Framework for Computationally Efficient Classification of Biological Cells
Elad Yoshai,Dana Yagoda-Aharoni,Eden Dotan,Natan T. Shaked
Main category: eess.IV
TL;DR: SparseAttnNet是一种高效的图像分类框架,通过动态选择最有信息的像素,显著减少计算量,同时保持高准确性。
- Motivation: 传统卷积神经网络处理整个图像,计算效率低且可能关注无关特征。SparseAttnNet旨在通过选择性处理像素提升效率和解释性。
- Method: 使用粗粒度注意力与细粒度多头注意力动态选择最有信息的k个像素,将其嵌入语言模型并捕获全局上下文。
- Result: 在多种细胞图像模态上,仅处理15%的像素即可达到与传统方法相当的准确性,同时大幅减少计算资源需求。
- Conclusion: SparseAttnNet适用于资源受限和高通量场景,如成像流式细胞术,兼具高效性和解释性。
[155] ABS-Mamba: SAM2-Driven Bidirectional Spiral Mamba Network for Medical Image Translation
Feng Yuan,Yifan Gao,Wenbin Wu,Keqing Wu,Xiaotong Guo,Jie Jiang,Xin Gao
Main category: eess.IV
TL;DR: ABS-Mamba是一种新型多模态医学图像翻译架构,结合SAM2、CNN和Mamba模型,实现全局解剖语义和局部结构保真度的平衡,显著提升跨模态合成效果。
- Motivation: 解决多模态医学图像翻译中全局语义与局部结构保真度的平衡问题,克服模态间信息丢失和结构失真的挑战。
- Method: 采用双分辨率框架,结合SAM2的器官级语义提取、CNN的局部特征提取、RFFN的特征融合、BMRN的空间依赖建模,以及三阶段跳跃融合解码器。
- Result: 在SynthRAD2023和BraTS2019数据集上表现优于现有方法,实现高保真跨模态合成。
- Conclusion: ABS-Mamba在保留解剖语义和结构细节方面表现出色,有望提升临床诊断准确性。
cs.HC
[156] DeepSORT-Driven Visual Tracking Approach for Gesture Recognition in Interactive Systems
Tong Zhang,Fenghua Shao,Runsheng Zhang,Yifan Zhuang,Liuqingqing Yang
Main category: cs.HC
TL;DR: 本研究基于DeepSORT算法,探索了视觉跟踪技术在智能人机交互中的应用,特别是在手势识别与跟踪领域。实验验证了DeepSORT在手势跟踪中的优越性能,并展望了未来研究方向。
- Motivation: 随着人工智能和深度学习技术的发展,基于视觉的交互逐渐取代传统输入设备,成为智能系统与用户交互的重要方式。
- Method: 结合卡尔曼滤波和深度学习特征提取方法,DeepSORT算法在动态环境中实现精准目标跟踪,适用于多目标和快速运动场景。
- Result: 实验表明,DeepSORT在手势识别与跟踪中表现优异,能有效处理目标遮挡和运动模糊,并在多目标环境中稳定跟踪。
- Conclusion: 未来研究方向包括算法优化、数据融合和多模态交互,以推动更智能和个性化的交互体验。
[157] Towards user-centered interactive medical image segmentation in VR with an assistive AI agent
Pascal Spiegler,Arash Harirpoush,Yiming Xiao
Main category: cs.HC
TL;DR: SAMIRA是一种基于VR的对话式AI助手,结合放射学AI模型和VR交互,帮助用户定位、分割和可视化3D医学图像,并通过语音交互优化分割结果。
- Motivation: 手动分割医学图像耗时且易出错,自动算法需要用户反馈。结合AI和VR技术,提升交互效率和准确性。
- Method: 提出SAMIRA系统,支持语音交互、分割掩码优化及3D可视化,比较VR控制器、头部指向和眼动追踪三种输入模式。
- Result: 用户研究显示高可用性(SUS=90.0±9.0)、低任务负荷,系统在指导、培训和AI整合方面表现优异。
- Conclusion: SAMIRA成功结合AI和VR技术,为医学图像分割提供了高效、直观的解决方案。
eess.SP
[158] DeltaDPD: Exploiting Dynamic Temporal Sparsity in Recurrent Neural Networks for Energy-Efficient Wideband Digital Predistortion
Yizhuo Wu,Yi Zhu,Kun Qian,Qinyu Chen,Anding Zhu,John Gajadharsing,Leo C. N. de Vreede,Chang Gao
Main category: eess.SP
TL;DR: DeltaDPD是一种基于动态时间稀疏性的数字预失真技术,通过减少计算和内存访问,显著降低能耗,同时保持信号线性化性能。
- Motivation: 随着带宽和数据速率的增加,传统DPD技术面临能耗挑战,尤其是基于RNN的模型计算复杂度高。
- Method: DeltaDPD利用输入信号和RNN隐藏状态的动态时间稀疏性,减少算术操作和内存访问。
- Result: 在200MHz带宽的256-QAM OFDM信号和3.5 GHz GaN Doherty RF PA上,DeltaDPD实现了优异的线性化性能(ACPR -50.03 dBc,NMSE -37.22 dB,EVM -38.52 dBc),同时能耗降低1.8倍。
- Conclusion: DeltaDPD为高效DPD提供了可行方案,显著降低了能耗,同时保持了性能。
[159] Terahertz Spatial Wireless Channel Modeling with Radio Radiance Field
John Song,Lihao Zhang,Feng Ye,Haijian Sun
Main category: eess.SP
TL;DR: 论文探讨了在太赫兹(THz)频段应用无线电辐射场(RRF)框架的可行性,提出了一种基于视觉几何和稀疏THz测量的连续RRF重建方法,用于高效建模空间信道状态信息。
- Motivation: THz通信在6G系统中具有重要作用,但其信号传播特性与低频段显著不同,传统信道建模和估计方法效率低下。
- Method: 通过构建精细的THz模拟场景,利用视觉几何和稀疏THz测量重建连续RRF,并评估其重建质量和通信效果。
- Result: 重建的RRF能够通过稀疏训练样本捕捉关键传播路径,证明RRF建模在THz频段仍然有效。
- Conclusion: RRF建模为未来6G网络中可扩展、低成本的空域信道重建提供了有前景的方向。
[160] FEMSN: Frequency-Enhanced Multiscale Network for fault diagnosis of rotating machinery under strong noise environments
Yuhan Yuan,Xiaomo Jiang,Yanfeng Han,Ke Xiao
Main category: eess.SP
TL;DR: 本文提出了一种名为FEMSN的新型CNN模型,用于解决复杂工况下滚动轴承故障特征提取困难的问题。通过FADEL层去噪、MSTFF模块融合时频特征,并结合蒸馏层扩展感受野,提升了模型的鲁棒性和非线性表示能力。
- Motivation: 现有方法在复杂工况下难以提取明显的故障特征,导致轴承健康状态评估效果不佳。
- Method: 提出FEMSN模型,包括FADEL去噪层、MSTFF时频融合模块和蒸馏层,以增强特征提取能力。
- Result: 通过两个案例验证了FEMSN和FADEL在机器健康监测和稳定性评估中的有效性。
- Conclusion: FEMSN模型在复杂工况下显著提升了故障特征提取和轴承健康监测的性能。
stat.ML
[161] Feature Representation Transferring to Lightweight Models via Perception Coherence
Hai-Vy Nguyen,Fabrice Gamboa,Sixin Zhang,Reda Chhaibi,Serge Gratton,Thierry Giaccone
Main category: stat.ML
TL;DR: 提出了一种通过感知一致性将特征表示从大教师模型迁移到轻量学生模型的方法,通过排名损失函数保留全局一致性。
- Motivation: 学生模型的表示能力较弱,需开发新方法以更好地放松对绝对几何的保留,同时保持全局一致性。
- Method: 基于感知一致性定义损失函数,通过排名考虑特征空间中数据点的不相似性。
- Result: 实验表明,该方法在特征迁移任务中优于或与强基线方法相当。
- Conclusion: 该方法通过保留全局一致性而非绝对几何,有效提升了学生模型的表示能力。
cs.CY
[162] Privacy of Groups in Dense Street Imagery
Matt Franchi,Hauke Sandhaus,Madiha Zahrah Choksi,Severin Engelmann,Wendy Ju,Helen Nissenbaum
Main category: cs.CY
TL;DR: 高密度街景图像(DSI)数据增长迅速,但现有隐私保护措施不足,AI技术可能通过匿名数据推断敏感群体信息。
- Motivation: 随着DSI数据的爆炸式增长,现有隐私保护措施(如模糊处理)无法解决更广泛的隐私问题,尤其是在AI技术加持下。
- Method: 通过渗透测试,分析了25,232,608张纽约市行车记录仪图像,展示如何从模糊处理的行人中推断敏感群体信息。
- Result: 研究发现,高密度数据和AI技术结合,能够轻易从匿名数据中推断出敏感群体信息。
- Conclusion: 提出了针对DSI数据研究者的可操作建议,强调隐私保护的紧迫性。
cs.MM
[163] Emotion-Qwen: Training Hybrid Experts for Unified Emotion and General Vision-Language Understanding
Dawei Huang,Qing Li,Chuan Yan,Zebang Cheng,Yurong Huang,Xiang Li,Bin Li,Xiaohui Wang,Zheng Lian,Xiaojiang Peng
Main category: cs.MM
TL;DR: Emotion-Qwen是一种多模态框架,通过混合专家(MoE)范式增强情感理解和通用视觉语言推理,解决了大型多模态模型在情感任务中的局限性。
- Motivation: 大型多模态模型在情感任务中表现有限,且微调时易发生灾难性遗忘。
- Method: 提出Emotion-Qwen框架,采用混合专家(MoE)动态路由输入,并分三阶段预训练。构建了Video Emotion Reasoning(VER)数据集。
- Result: 在多个情感识别基准上达到最优性能,同时在通用视觉语言任务中保持竞争力。
- Conclusion: Emotion-Qwen有效提升了情感理解和通用推理能力,解决了灾难性遗忘问题。
cs.SD
[164] Bridging Ears and Eyes: Analyzing Audio and Visual Large Language Models to Humans in Visible Sound Recognition and Reducing Their Sensory Gap via Cross-Modal Distillation
Xilin Jiang,Junkai Wu,Vishal Choudhari,Nima Mesgarani
Main category: cs.SD
TL;DR: 音频大语言模型(LLMs)在声音对象识别上表现优异,但与视觉或视听LLMs及人类感官表现的对比尚未研究。通过实验发现音频与视觉LLMs性能差距类似人类感官差异。提出跨模态蒸馏框架以缩小差距,显著提升性能。
- Motivation: 探索音频LLMs与其他模态LLMs及人类感官表现的差异,并寻找提升多模态LLMs感知能力的方法。
- Method: 系统评估音频、视觉和视听LLMs(Qwen2-Audio、Qwen2-VL、Qwen2.5-Omni)与人类在声音对象识别上的表现,提出跨模态蒸馏框架进行知识迁移。
- Result: 发现音频与视觉LLMs性能差距类似人类感官差异,跨模态蒸馏显著提升挑战性类别的识别性能。
- Conclusion: 从人类感官角度揭示LLMs的模态差距,并提出提升多模态LLMs感知能力的有效方法。
q-bio.NC
[165] Skeletonization of neuronal processes using Discrete Morse techniques from computational topology
Samik Banerjee,Caleb Stam,Daniel J. Tward,Steven Savoia,Yusu Wang,Partha P. Mitra
Main category: q-bio.NC
TL;DR: 提出了一种基于骨架化和离散莫尔斯技术的新方法,用于量化神经元轴突的投影密度,解决了传统方法缺乏生物学意义的问题。
- Motivation: 传统方法通过区域标记强度量化神经元投影,缺乏生物学意义,需要更接近神经元本质的新方法。
- Method: 结合深度学习和离散莫尔斯技术,骨架化标记的轴突片段并估计体积长度密度,利用非局部连接信息增强噪声鲁棒性。
- Result: 在全脑示踪剂注入数据上验证了方法的实用性和可扩展性,并定义了信息理论度量以量化额外信息。
- Conclusion: 该方法首次将离散莫尔斯技术应用于计算神经解剖学,填补了单轴突骨架和示踪剂注入之间的空白。
cs.AI
[166] Text-to-CadQuery: A New Paradigm for CAD Generation with Scalable Large Model Capabilities
Haoyang Xie,Feng Ju
Main category: cs.AI
TL;DR: 论文提出了一种直接从文本生成CadQuery代码的方法,利用预训练的大型语言模型(LLMs)生成3D模型,避免了中间表示,提高了效率。
- Motivation: 现有的CAD模型生成方法需要任务特定的命令序列,增加了复杂性,而直接生成CadQuery代码可以简化流程。
- Method: 通过微调预训练的LLMs,直接从文本生成CadQuery代码,并扩展了Text2CAD数据集以支持训练。
- Result: 最佳模型的Top-1精确匹配率从58.8%提升至69.3%,Chamfer Distance减少了48.6%。
- Conclusion: 直接生成CadQuery代码的方法有效利用了LLMs的能力,显著提升了3D模型生成的性能。
[167] Towards Artificial General or Personalized Intelligence? A Survey on Foundation Models for Personalized Federated Intelligence
Yu Qiao,Huy Q. Le,Avi Deb Raha,Phuong-Nam Tran,Apurba Adhikary,Mengchun Zhang,Loc X. Nguyen,Eui-Nam Huh,Dusit Niyato,Choong Seon Hong
Main category: cs.AI
TL;DR: 该论文提出了人工个性化智能(API)的愿景,通过个性化联邦智能(PFI)结合联邦学习(FL)和基础模型(FMs)的优势,实现个性化、高效且隐私保护的边缘部署。
- Motivation: 解决大规模语言模型(LLMs)在个性化定制中的隐私、计算效率等问题,推动人工通用智能(AGI)的补充发展。
- Method: 提出个性化联邦智能(PFI),整合FL的隐私保护优势和FMs的零样本泛化能力。
- Result: 探讨了PFI的潜力,包括高效PFI、可信PFI和基于检索增强生成(RAG)的PFI。
- Conclusion: 为API的发展奠定基础,PFI是实现个性化、高效和隐私保护的关键技术。
cs.LG
[168] Attonsecond Streaking Phase Retrieval Via Deep Learning Methods
Yuzhou Zhu,Zheng Zhang,Ruyi Zhang,Liang Zhou
Main category: cs.LG
TL;DR: 论文提出了一种基于监督计算机视觉的相位检索方法,比较了四种神经网络架构,胶囊网络表现最佳。
- Motivation: 传统算法依赖迭代最小化和中心动量近似,对宽带脉冲的准确性不足,需要更高效的相位检索方法。
- Method: 将相位检索重新定义为监督计算机视觉问题,比较了卷积网络、视觉变换器、混合CNN-ViT模型和胶囊网络。
- Result: 胶囊网络在合成条纹光谱图上实现了最高的检索保真度,验证了理论预测的性能排序。
- Conclusion: 未来方向包括将强场积分嵌入物理信息神经网络和探索光子硬件实现,以实现实时阿秒脉冲表征。
[169] Minimizing Risk Through Minimizing Model-Data Interaction: A Protocol For Relying on Proxy Tasks When Designing Child Sexual Abuse Imagery Detection Models
Thamiris Coelho,Leo S. F. Ribeiro,João Macedo,Jefersson A. dos Santos,Sandra Avila
Main category: cs.LG
TL;DR: 论文提出了一种通过代理任务(Proxy Tasks)训练模型的方法,避免直接使用儿童性虐待图像(CSAI)数据,以减轻执法机构(LEAs)的分类负担,并在Few-shot室内场景分类任务中验证了其有效性。
- Motivation: 儿童性虐待图像(CSAI)的传播问题日益严重,执法机构(LEAs)在手动分类中负担沉重,且直接使用敏感数据存在泄露风险。
- Method: 提出代理任务(Proxy Tasks)的概念,通过替代任务训练模型,避免直接使用CSAI数据,并结合LEAs的输入设计自动化方案。
- Result: 在Few-shot室内场景分类任务中,模型在真实CSAI数据集上表现良好,且未直接使用敏感数据训练。
- Conclusion: 代理任务方法为CSAI检测提供了可行的自动化解决方案,同时避免了敏感数据的直接使用。
[170] Image Classification Using a Diffusion Model as a Pre-Training Model
Kosuke Ukita,Ye Xiaolong,Tsuyoshi Okita
Main category: cs.LG
TL;DR: 提出了一种基于扩散模型的方法,通过Vision Transformer(ViT)的表征条件机制,结合自监督学习,显著提升了零样本分类任务的性能。
- Motivation: 解决大规模标注数据需求的问题,利用无标注数据进行表征条件数据生成。
- Method: 使用ViT的表征条件机制,结合Transformer扩散模型,实现表征条件数据生成。
- Result: 在脑影像血肿检测的零样本分类任务中,准确率和F1分数分别提升6.15%和13.60%。
- Conclusion: 该方法在图像分类任务中表现出色,验证了其有效性。
[171] Towards the Three-Phase Dynamics of Generalization Power of a DNN
Yuxuan He,Junpeng Zhang,Hongyuan Zhang,Quanshi Zhang
Main category: cs.LG
TL;DR: 本文提出了一种新视角来分析深度神经网络(DNN)的泛化能力,通过直接解耦和分析DNN在训练过程中编码的可泛化和不可泛化交互的动态。
- Motivation: 旨在揭示DNN泛化能力的本质,通过分析交互模式的动态变化,理解训练过程中泛化能力的变化规律。
- Method: 基于可解释AI的理论成果,将DNN的推理逻辑严格重写为少量AND-OR交互模式,并提出量化交互泛化能力的方法。
- Result: 发现交互泛化能力在训练过程中呈现三阶段动态:早期去除噪声和非泛化交互,中后期学习复杂但难以泛化的交互。实验验证非泛化交互是训练与测试损失差距的直接原因。
- Conclusion: 研究为理解DNN泛化能力提供了新视角,揭示了交互动态对泛化性能的关键影响。
[172] ICE-Pruning: An Iterative Cost-Efficient Pruning Pipeline for Deep Neural Networks
Wenhao Hu,Paul Henderson,José Cano
Main category: cs.LG
TL;DR: ICE-Pruning是一种高效的DNN剪枝方法,通过减少微调成本显著加速剪枝过程,同时保持与现有方法相当的准确性。
- Motivation: 现有剪枝方法因需要重复微调而计算成本高,ICE-Pruning旨在减少这一成本。
- Method: 提出三个组件:自动确定微调时机、冻结策略加速微调、剪枝感知学习率调度器。
- Result: 实验显示ICE-Pruning加速剪枝达9.61倍。
- Conclusion: ICE-Pruning在保持准确性的同时显著提高了剪枝效率。
[173] Unified Continuous Generative Models
Peng Sun,Yi Jiang,Tao Lin
Main category: cs.LG
TL;DR: 论文提出了一种统一的连续生成模型框架UCGM,整合了多步和少步方法,实现了SOTA性能。
- Motivation: 现有工作通常将多步和少步生成模型视为独立范式,导致训练和采样方法分离,缺乏统一框架。
- Method: 引入UCGM框架,统一训练、采样和分析方法,支持多步和少步模型。
- Result: 在ImageNet 256x256上,UCGM-T训练的多步模型在20步达到1.30 FID,少步模型在2步达到1.42 FID;UCGM-S将预训练模型从250步1.26 FID提升到40步1.06 FID。
- Conclusion: UCGM框架成功统一了连续生成模型的训练和采样,显著提升了性能。
[174] You Only Look One Step: Accelerating Backpropagation in Diffusion Sampling with Gradient Shortcuts
Hongkun Dou,Zeyu Li,Xingyu Jiang,Hongjue Li,Lijun Yang,Wen Yao,Yue Deng
Main category: cs.LG
TL;DR: 论文提出了一种名为Shortcut Diffusion Optimization (SDO)的高效方法,通过单步计算图优化梯度传播,显著降低了扩散模型生成过程中的计算成本。
- Motivation: 扩散模型在生成内容时需要基于特定可微分指标进行优化,传统方法需在整个生成过程中进行反向传播,计算成本高。
- Method: 提出SDO方法,仅保留生成过程中单步的计算图,实现梯度传播的捷径,减少计算开销。
- Result: SDO在多个实际任务中表现优异,计算成本降低约90%,同时保持高性能。
- Conclusion: SDO是一种通用、高效且计算轻量的方法,适用于扩散模型的所有参数类型优化。
[175] Noise Optimized Conditional Diffusion for Domain Adaptation
Lingkun Luo,Shiqiang Hu,Liming Chen
Main category: cs.LG
TL;DR: 论文提出了一种名为NOCDDA的方法,通过结合条件扩散模型和领域自适应(DA)的需求,优化噪声以生成高置信度的伪标签目标域样本,从而提升跨域一致性。
- Motivation: 解决无监督领域自适应(UDA)中高置信度伪标签目标域样本(hcpl-tds)稀缺导致的跨域统计对齐不准确问题。
- Method: 提出NOCDDA方法,整合条件扩散模型的生成能力与DA的决策需求,通过类感知噪声优化策略生成反向类特定hcpl-tds。
- Result: 在5个基准数据集和29个DA任务上,NOCDDA显著优于31种现有方法。
- Conclusion: NOCDDA通过噪声优化和任务耦合优化,有效提升了跨域对齐的鲁棒性和性能。
[176] Simple Semi-supervised Knowledge Distillation from Vision-Language Models via ual- ead ptimization
Seongjae Kang,Dong Bok Lee,Hyungjoon Jang,Sung Ju Hwang
Main category: cs.LG
TL;DR: 提出了一种名为DHO的知识蒸馏框架,通过双预测头设计,在半监督设置下将视觉语言模型的知识迁移到紧凑的任务特定模型中,显著提升了性能。
- Motivation: 尽管视觉语言模型在多任务中表现优异,但其部署在资源受限环境中仍具挑战性。现有的知识蒸馏方法通常需要多阶段训练或额外调优,增加了计算和优化复杂度。
- Method: 提出DHO框架,采用双预测头设计,分别从标注数据和教师模型预测中学习,并在推理时线性结合其输出。
- Result: DHO在多个领域和细粒度数据集上表现优于基线方法,尤其在ImageNet上,使用1%和10%标注数据时分别提升准确率3%和0.1%。
- Conclusion: DHO通过缓解监督信号与蒸馏信号之间的梯度冲突,实现了更有效的特征学习,同时减少了参数数量,为资源受限环境提供了高效解决方案。
Powered by Deepseek & arXiv Daily AI Enhanced