以下论文的arXiv类型标签包含:cs.CV
Powered by Deepseek & arXiv Daily AI Enhanced
cs.CV
[1] An Edge AI Solution for Space Object Detection
Wenxuan Zhang,Peng Hu
Main category: cs.CV
TL;DR: 论文提出了一种基于深度学习的Edge AI解决方案,用于空间物体检测(SOD)任务,结合了SE层、Vision Transformers和YOLOv9框架,实现了高精度和低延迟的检测。
- Motivation: 随着近地轨道空间资产的增加,实时碰撞评估和避障的需求推动了高效Edge AI解决方案的研究。
- Method: 采用基于SE层、Vision Transformers和YOLOv9框架的深度学习模型,用于空间物体检测任务。
- Result: 模型在多种实际SOD场景中表现出色,能够高精度、低延迟地检测多个卫星。
- Conclusion: 提出的Edge AI解决方案在空间物体检测任务中具有高效性和实用性。
[2] Self-Supervised Learning for Image Segmentation: A Comprehensive Survey
Thangarajah Akilan,Nusrat Jahan,Wandong Zhang
Main category: cs.CV
TL;DR: 该论文综述了自监督学习(SSL)在图像分割中的应用,分析了150多篇相关文献,提供了任务分类和数据集总结,并展望了未来研究方向。
- Motivation: 监督学习需要大量精确标注数据,成本高且耗时。自监督学习通过利用无标签数据和代理任务,成为解决计算机视觉问题的有力工具。图像分割是许多高级视觉应用的基础,但缺乏对SSL方法的全面研究。
- Method: 通过调查150多篇图像分割文献,重点分析SSL方法,对代理任务、下游任务和常用数据集进行分类。
- Result: 总结了SSL在图像分割中的关键进展,提供了任务分类和数据集指南。
- Conclusion: 论文为研究者提供了SSL在图像分割领域的全面视角,并指出了未来研究方向。
[3] IPENS:Interactive Unsupervised Framework for Rapid Plant Phenotyping Extraction via NeRF-SAM2 Fusion
Wentao Song,He Huang,Youqiang Sun,Fang Qu,Jiaqi Zhang,Longhui Fang,Yuwei Hao,Chenyang Peng
Main category: cs.CV
TL;DR: IPENS是一种交互式无监督多目标点云提取方法,利用辐射场信息将2D掩模提升至3D空间,解决了单交互多目标分割问题,显著提高了水稻和小麦的表型提取精度。
- Motivation: 由于植物物种多样性,现有方法依赖大规模高精度人工标注数据,而无监督方法对自遮挡物体效果不佳,因此需要一种高效的无监督多目标分割方法。
- Method: IPENS结合SAM2分割2D掩模,利用辐射场信息将其提升至3D空间,设计多目标协同优化策略,实现单交互多目标分割。
- Result: 水稻数据集上mIoU达63.72%,小麦数据集上提升至89.68%,表型估计性能优异(如小麦穗体积R2=0.9956)。
- Conclusion: IPENS无需标注数据,3分钟内完成多目标点云提取,为非侵入式高质量表型提取提供了解决方案,有望加速智能育种。
[4] GeoVLM: Improving Automated Vehicle Geolocalisation Using Vision-Language Matching
Barkin Dagda,Muhammad Awais,Saber Fallah
Main category: cs.CV
TL;DR: GeoVLM利用视觉语言模型的零样本能力,通过可解释的跨视图语言描述提升跨视图地理定位的匹配精度。
- Motivation: 现有跨视图地理定位方法在高召回率下仍难以将正确图像排名第一,GeoVLM旨在解决这一问题。
- Method: 提出GeoVLM,一种可训练的重新排序方法,利用视觉语言模型生成跨视图语言描述。
- Result: 在VIGOR、University-1652及新数据集Cross-View UK上验证,GeoVLM优于现有方法。
- Conclusion: GeoVLM通过自然语言描述显著提升了跨视图地理定位的检索性能。
[5] GeoRanker: Distance-Aware Ranking for Worldwide Image Geolocalization
Pengyue Jia,Seongheon Park,Song Gao,Xiangyu Zhao,Yixuan Li
Main category: cs.CV
TL;DR: GeoRanker是一个基于距离感知的排名框架,利用视觉语言模型预测图像的地理位置,显著优于现有方法。
- Motivation: 全球图像地理定位任务面临视觉内容多样性的挑战,现有方法未能有效建模候选区域间的空间关系。
- Method: 提出GeoRanker框架,结合多模态候选信息和多阶距离损失,联合编码查询-候选交互并预测地理邻近性。
- Result: 在IM2GPS3K和YFCC4K基准测试中取得最优结果。
- Conclusion: GeoRanker通过建模空间关系和引入新数据集,显著提升了地理定位性能。
[6] Frozen Backpropagation: Relaxing Weight Symmetry in Temporally-Coded Deep Spiking Neural Networks
Gaspard Goupy,Pierre Tirilly,Ioan Marius Bilasco
Main category: cs.CV
TL;DR: 论文提出Frozen Backpropagation (fBP)算法,通过冻结反馈权重减少训练中的权重传输,降低硬件开销和能耗。
- Motivation: 在神经形态硬件上直接训练SNNs能降低能耗,但反向传播的权重对称性要求增加了硬件开销和能耗。
- Method: 引入fBP算法,通过周期性冻结反馈权重减少权重传输,并提出三种部分权重传输方案。
- Result: fBP在图像识别任务中表现优于现有方法,部分权重传输方案可大幅降低传输成本,精度损失较小。
- Conclusion: fBP为神经形态硬件设计提供了指导,支持基于反向传播的片上学习。
[7] ReSW-VL: Representation Learning for Surgical Workflow Analysis Using Vision-Language Model
Satoshi Kondo
Main category: cs.CV
TL;DR: 提出了一种基于视觉语言模型(ReSW-VL)的手术阶段识别方法,通过微调CLIP模型的图像编码器并结合提示学习,显著提升了识别性能。
- Motivation: 手术阶段识别技术具有广泛的应用潜力,但现有研究在CNN特征提取或表示学习方法上存在不足。
- Method: 使用CLIP视觉语言模型,通过提示学习微调其图像编码器,用于手术阶段识别。
- Result: 在三个手术阶段识别数据集上验证了该方法的有效性,优于传统方法。
- Conclusion: ReSW-VL方法为手术阶段识别提供了一种高效的表示学习方案。
[8] Sat2Sound: A Unified Framework for Zero-Shot Soundscape Mapping
Subash Khanal,Srikumar Sastry,Aayush Dhakal,Adeel Ahmad,Nathan Jacobs
Main category: cs.CV
TL;DR: Sat2Sound是一个多模态表示学习框架,用于预测地球上任意位置的声音分布,通过结合卫星图像和音频数据,并利用视觉语言模型增强数据集。
- Motivation: 现有方法依赖卫星图像和地理标记音频样本,但无法充分捕捉声音多样性,因此提出Sat2Sound以解决这一问题。
- Method: 利用视觉语言模型生成语义丰富的声音描述,结合对比学习跨模态(音频、音频描述、卫星图像、卫星图像描述),并学习共享的声音概念代码库。
- Result: 在GeoSound和SoundingEarth数据集上实现了跨模态检索的最新性能,并支持基于位置的声音合成应用。
- Conclusion: Sat2Sound通过多模态学习和共享概念代码库,显著提升了声音分布预测能力,并拓展了沉浸式声景合成的应用。
[9] Transfer Learning from Visual Speech Recognition to Mouthing Recognition in German Sign Language
Dinh Nam Pham,Eleftherios Avramidis
Main category: cs.CV
TL;DR: 该论文研究了如何通过从视觉语音识别(VSR)迁移学习来提升德国手语中口型动作(mouthing)的识别效果,并探讨了多任务学习对识别准确性和模型鲁棒性的影响。
- Motivation: 手语识别系统通常关注手势,但非手势特征(如口型动作)也包含重要语言信息。本研究旨在利用VSR的知识迁移,解决手语数据集中口型标注有限的问题。
- Method: 利用三个VSR数据集(英语、德语无关词、德语目标词)进行迁移学习,并采用多任务学习方法,比较任务相似性对口型识别的影响。
- Result: 多任务学习显著提升了口型识别和VSR的准确性,同时增强了模型鲁棒性,表明口型识别应视为与VSR相关但独立的任务。
- Conclusion: 研究为手语识别领域提供了从VSR到口型识别的知识迁移方法,尤其在标注数据有限的情况下具有重要价值。
[10] Ground-V: Teaching VLMs to Ground Complex Instructions in Pixels
Yongshuo Zong,Qin Zhang,Dongsheng An,Zhihua Li,Xiang Xu,Linghan Xu,Zhuowen Tu,Yifan Xing,Onkar Dabeer
Main category: cs.CV
TL;DR: 提出了一种自动扩展指令跟随数据的工作流,用于提升视觉语言模型(VLM)在复杂指令下的像素级定位能力,解决了文本指令定位中的五大挑战。
- Motivation: 解决文本指令定位中的幻觉引用、多对象场景、推理、多粒度和部分级引用等现实挑战,减少昂贵的人工标注需求。
- Method: 通过从预训练教师模型中进行知识蒸馏,生成高质量指令-响应对,并与现有像素级标注关联。
- Result: 生成的Ground-V数据集显著提升了模型性能,LISA和PSALM在gIoU指标上分别提升4.4%和7.9%,在gRefCOCO上N-Acc达到83.3%,超过之前最佳20%。
- Conclusion: Ground-V数据集有效提升了视觉语言模型的像素级定位能力,并在多个基准测试中取得了新的最佳性能。
[11] Physics-Driven Local-Whole Elastic Deformation Modeling for Point Cloud Representation Learning
Zhongyu Chen,Rong Zhao,Xie Han,Xindong Guo,Song Wang,Zherui Qiao
Main category: cs.CV
TL;DR: 提出了一种基于物理驱动的自监督学习方法,通过局部-整体力传播机制捕捉点云表示中局部与整体的关系。
- Motivation: 现有方法侧重于结构特征,忽略了局部信息与整体结构的关系,而真实世界中物体的弹性变形通过局部力传播影响整体形状。
- Method: 采用双任务编码器-解码器框架,结合隐式场的几何建模能力和物理驱动的弹性变形,通过两个解码器分别学习整体几何形状和局部变形。
- Result: 实验表明,该方法在物体分类、少样本学习和分割任务中优于现有方法。
- Conclusion: 该方法通过物理驱动的局部-整体关系建模,有效提升了点云表示学习的性能。
[12] InstanceBEV: Unifying Instance and BEV Representation for Global Modeling
Feng Li,Kun Xu,Zhaoyue Wang,Yunduan Cui,Mohammad Masum Billah,Jia Liu
Main category: cs.CV
TL;DR: InstanceBEV提出了一种基于实例级降维的BEV方法,利用Transformer进行全局建模,无需稀疏化或加速操作,在OpenOcc-NuScenes数据集上表现优异。
- Motivation: 解决现有BEV方法在大规模全局建模中需要复杂工程优化的问题,同时避免多视角相机方法的数据复杂度立方增长。
- Method: 引入实例级降维,直接使用Transformer聚合全局特征,并将全局特征图采样到3D空间。
- Result: 在OpenOcc-NuScenes数据集上实现了最先进的性能,且框架简单高效。
- Conclusion: InstanceBEV为BEV全局建模提供了一种高效且无需额外优化的解决方案。
[13] MGStream: Motion-aware 3D Gaussian for Streamable Dynamic Scene Reconstruction
Zhenyu Bao,Qing Li,Guibiao Liao,Zhongyuan Zhao,Kanglin Liu
Main category: cs.CV
TL;DR: MGStream通过运动相关的3D高斯模型和静态模型分离,解决了动态场景重建中的闪烁问题和存储效率问题,并提升了渲染质量。
- Motivation: 动态新视角合成(DNVS)中的3D高斯模型(3DGS)存在闪烁、存储效率低和难以建模新物体的问题。
- Method: MGStream使用运动相关的3D高斯模型处理动态部分,静态部分使用普通3D高斯模型,并通过运动掩码和聚类凸包算法实现动态建模。
- Result: 实验表明,MGStream在渲染质量、训练/存储效率和时序一致性上优于现有方法。
- Conclusion: MGStream有效解决了动态场景重建中的问题,提升了性能。
[14] SuperMapNet for Long-Range and High-Accuracy Vectorized HD Map Construction
Ruqin Zhou,San Jiang,Wanshou Jiang,Yongsheng Zhang,Chenguang Dai
Main category: cs.CV
TL;DR: SuperMapNet提出了一种用于长距离高精度矢量高清地图构建的方法,通过多模态输入和交互模块解决现有方法的局限性。
- Motivation: 现有方法在BEV特征生成和地图元素分类定位中存在单模态限制、多模态协同不足以及点与元素信息交互缺失的问题。
- Method: 使用相机图像和LiDAR点云作为输入,通过交叉注意力协同增强模块和基于流的差异对齐模块生成BEV特征,并通过三级交互(点-点、元素-元素、点-元素)实现高精度分类与定位。
- Result: 在nuScenes和Argoverse2数据集上表现优异,分别超过SOTA方法14.9/8.8 mAP和18.5/3.1 mAP。
- Conclusion: SuperMapNet通过多模态协同和三级交互显著提升了矢量高清地图的构建精度和范围。
[15] Domain Adaptation of VLM for Soccer Video Understanding
Tiancheng Jiang,Henry Wang,Md Sirajus Salekin,Parmida Atighehchian,Shinan Zhang
Main category: cs.CV
TL;DR: 本文研究了开源视觉语言模型(VLM)在特定领域(如足球)的适应性,通过课程学习方式微调模型,显著提升了足球相关任务的性能。
- Motivation: 现有视频理解VLM研究多为通用领域,缺乏对特定领域迁移学习能力的探索。本文以足球为例,填补这一空白。
- Method: 利用大规模足球数据集和LLM生成指令数据,通过课程学习(先学习关键概念,再回答问题)迭代微调通用VLM。
- Result: 最终模型在足球视觉问答任务中相对提升37.5%,足球动作分类任务准确率从11.8%提升至63.5%。
- Conclusion: 研究表明,领域适配的VLM在特定任务中表现显著优于通用模型,验证了方法的有效性。
[16] 4D-ROLLS: 4D Radar Occupancy Learning via LiDAR Supervision
Ruihan Liu,Xiaoyi Wu,Xijun Chen,Liang Hu,Yunjiang Lou
Main category: cs.CV
TL;DR: 4D-ROLLS是一种基于4D雷达的弱监督占用估计方法,利用LiDAR点云作为监督信号,在恶劣环境中表现优异。
- Motivation: 现有的占用估计方法依赖LiDAR或摄像头,在烟雾、雨雪等恶劣环境下性能较差,因此需要一种更鲁棒的解决方案。
- Method: 通过生成伪LiDAR标签(包括占用查询和LiDAR高度图)作为多阶段监督,训练4D雷达占用估计模型,并与LiDAR生成的占用图对齐以提高精度。
- Result: 实验验证了4D-ROLLS在恶劣环境中的鲁棒性、跨数据集训练的有效性,并能无缝迁移到下游任务(如BEV分割和点云占用预测)。
- Conclusion: 4D-ROLLS在恶劣环境下表现优异,具有广泛的应用潜力,且轻量级网络实现了30Hz的快速推理速度。
[17] Blind Restoration of High-Resolution Ultrasound Video
Chu Chen,Kangning Cui,Pasquale Cascarano,Wei Tang,Elena Loli Piccolomini,Raymond H. Chan
Main category: cs.CV
TL;DR: 本文提出了一种自监督的超声视频超分辨率算法DUP,无需配对训练数据即可提升分辨率并去噪,性能优于现有方法。
- Motivation: 超声视频通常信噪比低且分辨率有限,设备和采集设置的差异进一步降低了预训练模型的泛化能力。
- Method: DUP通过视频自适应优化神经网络,提升分辨率并去噪。
- Result: 定量和视觉评估表明,DUP优于现有超分辨率算法,显著提升下游应用效果。
- Conclusion: DUP是一种有效的自监督超声视频超分辨率方法,具有实际应用潜力。
[18] An Explorative Analysis of SVM Classifier and ResNet50 Architecture on African Food Classification
Chinedu Emmanuel Mbonu,Kenechukwu Anigbogu,Doris Asogwa,Tochukwu Belonwu
Main category: cs.CV
TL;DR: 研究比较了深度学习和传统机器学习方法在非洲食物分类中的表现,发现ResNet50和SVM各有优劣。
- Motivation: 非洲食物识别研究不足,填补这一空白。
- Method: 使用微调ResNet50和SVM分类器,评估五种指标。
- Result: 提供了两种方法在非洲食物分类中的表现和局限性。
- Conclusion: 为非洲食物识别的进一步发展提供了参考。
[19] LoVR: A Benchmark for Long Video Retrieval in Multimodal Contexts
Qifeng Cai,Hao Liang,Hejun Dong,Meiyi Qiang,Ruichuan An,Zhaoyang Han,Zhengzhou Zhu,Bin Cui,Wentao Zhang
Main category: cs.CV
TL;DR: LoVR是一个专为长视频-文本检索设计的基准测试,包含467个长视频和40,804个细粒度片段,提供高质量标注。通过自动生成、质量评分和动态优化的标注框架,解决了现有基准测试的局限性。
- Motivation: 现有基准测试的视频时长有限、标注质量低且粒度粗,限制了高级视频-文本检索方法的评估。
- Method: 提出高效标注生成框架(VLM自动生成、质量评分和动态优化)和语义融合方法,生成连贯的全视频标注。
- Result: LoVR引入了更长视频、更详细标注和大规模数据集,实验表明其具有挑战性,揭示了当前方法的局限性。
- Conclusion: LoVR为视频理解和检索提供了新挑战,并为未来研究提供了宝贵见解。
[20] Every Pixel Tells a Story: End-to-End Urdu Newspaper OCR
Samee Arif,Sualeha Farid
Main category: cs.CV
TL;DR: 本文提出了一种针对乌尔都语报纸的端到端OCR流程,解决了多栏布局、低分辨率扫描和多样字体等挑战,通过四个模块(文章分割、图像超分辨率、栏分割和文本识别)实现高效OCR。
- Motivation: 乌尔都语报纸OCR面临多栏布局复杂、扫描质量低和字体多样等问题,需一种综合解决方案。
- Method: 采用YOLOv11x进行文章和栏分割,SwinIR模型提升图像分辨率,并测试多种LLM(如Gemini、GPT)进行文本识别。
- Result: 文章分割精度0.963,超分辨率PSNR 32.71 dB,栏分割精度0.970,Gemini-2.5-Pro的WER最低(0.133)。
- Conclusion: 提出的端到端流程在乌尔都语报纸OCR任务中表现优异,各模块均达到高精度。
[21] StPR: Spatiotemporal Preservation and Routing for Exemplar-Free Video Class-Incremental Learning
Huaijie Wang,De Cheng,Guozhang Li,Zhipeng Xu,Lingfeng He,Jie Li,Nannan Wang,Xinbo Gao
Main category: cs.CV
TL;DR: StPR框架通过分离时空信息,提出无样本的VCIL方法,结合FSSD和TD-MoE技术,显著提升性能。
- Motivation: 解决视频类增量学习中时空结构复杂性和遗忘问题,避免依赖样本存储或忽视时序建模。
- Method: 提出StPR框架,包含FSSD(选择性地保留语义通道)和TD-MoE(动态路由任务专家)。
- Result: 在UCF101、HMDB51和Kinetics400上表现优于基线,同时提高可解释性和效率。
- Conclusion: StPR为无样本的VCIL提供了统一且高效的解决方案,有效结合时空信息。
[22] Multi-Label Stereo Matching for Transparent Scene Depth Estimation
Zhidan Liu,Chengtang Yao,Jiaxi Zeng,Yuwei Wu,Yunde Jia
Main category: cs.CV
TL;DR: 提出了一种多标签立体匹配方法,用于同时估计透明场景中透明物体和被遮挡背景的深度。
- Motivation: 传统方法假设视差维度为单峰分布,将匹配视为单标签回归问题,无法处理透明场景中同一像素的多个深度值。
- Method: 采用多标签回归方法,引入像素级多元高斯表示,通过GRU框架迭代预测均值和协方差矩阵。
- Result: 实验表明,该方法显著提升了透明表面的深度估计性能,同时保留了背景信息用于场景重建。
- Conclusion: 该方法有效解决了透明场景的多深度估计问题,代码已开源。
[23] UHD Image Dehazing via anDehazeFormer with Atmospheric-aware KV Cache
Pu Wang,Pengwen Dai,Chen Wu,Yeying Jin,Dianjie Lu,Guijuan Zhang,Youshan Zhang,Zhuoran Zheng
Main category: cs.CV
TL;DR: 提出了一种高效的视觉Transformer框架,用于超高清图像去雾,解决了现有方法训练速度慢和内存消耗高的问题。
- Motivation: 现有方法在超高清图像去雾任务中面临训练速度慢和内存消耗高的挑战,需要一种更高效的解决方案。
- Method: 1) 引入自适应归一化机制,基于nGPT架构实现快速稳定训练;2) 设计大气散射感知的KV缓存机制,动态优化特征保留。
- Result: 训练收敛速度提升5倍,内存开销降低,RTX4090 GPU上每秒可处理50张高分辨率图像,同时保持去雾质量。
- Conclusion: 该方法在4K/8K图像恢复任务中显著提升计算效率,并提供了新的可解释去雾方法。
[24] EGFormer: Towards Efficient and Generalizable Multimodal Semantic Segmentation
Zelin Zhang,Tao Zhang,KediLI,Xu Zheng
Main category: cs.CV
TL;DR: EGFormer是一种高效的多模态语义分割框架,通过动态评分和模态丢弃模块减少参数和计算量,同时保持性能。
- Motivation: 现有方法多关注精度提升,但计算效率未被充分探索。EGFormer旨在解决这一问题。
- Method: 引入Any-modal Scoring Module(ASM)动态评分模态,Modal Dropping Module(MDM)丢弃冗余模态。
- Result: 参数减少88%,计算量降低50%,在无监督域适应任务中表现优异。
- Conclusion: EGFormer在效率和性能上均表现突出,适用于多模态语义分割任务。
[25] OmniStyle: Filtering High Quality Style Transfer Data at Scale
Ye Wang,Ruiqi Liu,Jiang Lin,Fei Liu,Zili Yi,Yilin Wang,Rui Ma
Main category: cs.CV
TL;DR: OmniStyle-1M是一个大规模风格迁移数据集,包含100万对内容-风格-风格化图像三元组,支持监督训练和精确控制风格化。OmniFilter确保数据质量,OmniStyle框架基于DiT架构,实现高质量风格迁移。
- Motivation: 解决风格迁移领域缺乏大规模、高质量数据集的问题,并支持精确控制和高效训练。
- Method: 提出OmniFilter评估框架筛选高质量数据,基于DiT架构设计OmniStyle框架,支持指令和图像引导的风格迁移。
- Result: OmniStyle在质量和效率上优于现有方法,生成高分辨率输出。
- Conclusion: OmniStyle-1M和方法论为高质量风格迁移研究提供了重要资源。
[26] AppleGrowthVision: A large-scale stereo dataset for phenological analysis, fruit detection, and 3D reconstruction in apple orchards
Laura-Sophia von Hirschhausen,Jannes S. Magnusson,Mykyta Kovalenko,Fredrik Boye,Tanay Rawat,Peter Eisert,Anna Hilsmann,Sebastian Pretzsch,Sebastian Bosse
Main category: cs.CV
TL;DR: AppleGrowthVision是一个大规模数据集,解决了苹果园监测中数据集的局限性,包括多样性和立体图像缺失问题,显著提升了目标检测和生长阶段预测的性能。
- Motivation: 现有数据集缺乏多样性和立体图像,无法满足苹果园3D建模和精准农业任务的需求。
- Method: 提出AppleGrowthVision数据集,包含高分辨率立体图像和密集标注图像,覆盖多个生长阶段。
- Result: 数据集显著提升了YOLOv8和Faster R-CNN的性能,生长阶段预测准确率超过95%。
- Conclusion: AppleGrowthVision填补了农业科学与计算机视觉之间的空白,未来工作包括改进标注和3D重建。
[27] Selective Structured State Space for Multispectral-fused Small Target Detection
Qianqian Zhang,WeiJun Wang,Yunxing Liu,Li Zhou,Hao Zhao,Junshe An,Zihan Wang
Main category: cs.CV
TL;DR: 论文提出了一种结合Mamba线性复杂度和CNN局部细节捕捉能力的方法,通过ESTD、CARG和MEPF模块提升高分辨率遥感图像中小目标的检测性能。
- Motivation: 高分辨率遥感图像中小目标识别精度低且计算成本高,传统Transformer和CNN方法存在计算复杂或局部细节捕捉不足的问题。
- Method: 利用Mamba的线性复杂度提升效率,并通过ESTD模块增强局部注意力,CARG模块结合空间和通道信息,MEPF模块融合多光谱信息。
- Result: 提出的方法显著提升了小目标的检测性能,同时保持了计算效率。
- Conclusion: 通过结合全局注意力和局部细节捕捉,以及多光谱融合,有效解决了小目标检测的挑战。
[28] Learning Concept-Driven Logical Rules for Interpretable and Generalizable Medical Image Classification
Yibo Gao,Hangqi Zhou,Zheyao Gao,Bomin Wang,Shangqi Gao,Sihan Wang,Xiahai Zhuang
Main category: cs.CV
TL;DR: 论文提出了一种名为CRL的新框架,通过学习二值化视觉概念的布尔逻辑规则,解决了概念泄漏和全局解释性不足的问题。
- Motivation: 临床应用中决策安全的需求凸显了概念方法在医学影像中的潜力,但现有方法存在概念泄漏和仅关注局部解释的问题。
- Method: CRL通过逻辑层学习概念相关性并提取临床有意义的规则,提供局部和全局解释性。
- Result: 在两个医学图像分类任务中,CRL性能与现有方法相当,且显著提高了对分布外数据的泛化能力。
- Conclusion: CRL通过逻辑规则学习,解决了概念泄漏问题,同时提供了更全面的解释性。
[29] Dolphin: Document Image Parsing via Heterogeneous Anchor Prompting
Hao Feng,Shu Wei,Xiang Fei,Wei Shi,Yingdong Han,Lei Liao,Jinghui Lu,Binghong Wu,Qi Liu,Chunhui Lin,Jingqun Tang,Hao Liu,Can Huang
Main category: cs.CV
TL;DR: Dolphin提出了一种新的多模态文档图像解析模型,通过两阶段分析-解析范式解决现有方法的集成开销、效率瓶颈和布局结构退化问题。
- Motivation: 文档图像解析因复杂的元素交织(如文本段落、图表、公式和表格)而具有挑战性,现有方法存在集成开销和效率瓶颈。
- Method: Dolphin采用两阶段范式:首先生成阅读顺序的布局元素作为锚点,再结合任务特定提示并行解析内容。
- Result: 在多个基准测试中,Dolphin实现了最先进的性能,并通过轻量级架构和并行解析机制确保高效性。
- Conclusion: Dolphin通过创新的两阶段方法解决了文档解析的挑战,并在性能和效率上表现优异。
[30] Scaling Vision Mamba Across Resolutions via Fractal Traversal
Bo Li,Haoke Xiao,Lv Tang
Main category: cs.CV
TL;DR: FractalMamba++是一种基于分形序列化和改进状态路由的视觉Mamba架构,解决了2D到1D序列化的挑战,并在高分辨率任务中表现优异。
- Motivation: Vision Mamba在视觉输入中面临2D到1D序列化的挑战和分辨率适应性不足的问题,需要改进以保持空间局部性和全局上下文。
- Method: 提出FractalMamba++,利用Hilbert曲线进行分形序列化,引入Cross-State Routing(CSR)机制增强全局上下文,以及Positional-Relation Capture(PRC)模块恢复局部邻接关系。
- Result: 在图像分类、语义分割、目标检测和变化检测等任务中,FractalMamba++优于现有Mamba架构,尤其在高分辨率场景下。
- Conclusion: FractalMamba++通过分形序列化和改进的路由机制,显著提升了视觉任务的性能,特别是在高分辨率输入下。
[31] Place Recognition: A Comprehensive Review, Current Challenges and Future Directions
Zhenyu Li,Tianyi Shang,Pengjie Xu,Zhaojun Deng
Main category: cs.CV
TL;DR: 这篇综述全面回顾了地点识别领域的最新进展,重点介绍了CNN、Transformer和跨模态方法,并总结了数据集、评估标准及未来研究方向。
- Motivation: 地点识别是车辆导航和地图构建的关键,尤其在SLAM和长期导航任务中至关重要。本文旨在总结该领域的最新方法和技术。
- Method: 综述了三种主要方法:基于CNN的方法、基于Transformer的框架和跨模态策略,并分析了它们的优缺点。
- Result: 总结了标准数据集和评估指标,并提供了实验结果的代码库。
- Conclusion: 指出了当前研究的挑战,如领域适应、实时性能和终身学习,并展望了未来的发展方向。
[32] Generalizable Multispectral Land Cover Classification via Frequency-Aware Mixture of Low-Rank Token Experts
Xi Chen,Shen Yan,Juelin Zhu,Chen Chen,Yu Liu,Maojun Zhang
Main category: cs.CV
TL;DR: Land-MoE提出了一种新颖的多光谱土地覆盖分类方法,通过频率感知的低秩令牌专家混合模块和频率感知滤波器,有效解决了光谱偏移问题,并在实验中显著优于现有方法。
- Motivation: 多光谱土地覆盖分类中,光谱偏移(由传感器和地理空间条件差异引起)是一个主要挑战。现有方法依赖小规模模型,性能有限。
- Method: Land-MoE采用频率感知的低秩令牌专家混合模块(MoLTE)和频率感知滤波器(FAF),以参数高效的方式微调视觉基础模型(VFMs)。MoLTE通过动态组合不同秩的低秩令牌专家增强鲁棒性,FAF则在频域调制特征。
- Result: 在跨传感器和跨地理空间的MLCC任务中,Land-MoE显著优于现有方法,并在RGB遥感图像的域泛化语义分割任务中达到最先进性能。
- Conclusion: Land-MoE通过创新的模块设计有效解决了光谱偏移问题,为多光谱土地覆盖分类和域泛化任务提供了高效解决方案。
[33] Unlocking the Power of SAM 2 for Few-Shot Segmentation
Qianxiong Xu,Lanyun Zhu,Xuanyi Liu,Guosheng Lin,Cheng Long,Ziyue Li,Rui Zhao
Main category: cs.CV
TL;DR: 论文提出了一种改进Few-Shot Segmentation(FSS)的方法,通过设计Pseudo Prompt Generator和Iterative Memory Refinement来解决SAM 2在FSS中的不兼容性问题,并提升分割准确性。
- Motivation: Few-Shot Segmentation(FSS)在分割任意类别时存在过拟合风险,而SAM 2的视频分割能力虽有用,但其匹配机制与FSS不兼容。
- Method: 设计了Pseudo Prompt Generator生成伪查询记忆,并引入Iterative Memory Refinement和支持校准记忆注意力机制,以优化记忆匹配和抑制背景干扰。
- Result: 在PASCAL-5
和COCO-20 上的实验表明,1-shot mIoU比最佳基线提高了4.2%。 - Conclusion: 提出的方法有效解决了FSS中的记忆匹配问题,显著提升了分割性能。
[34] Unintended Bias in 2D+ Image Segmentation and Its Effect on Attention Asymmetry
Zsófia Molnár,Gergely Szabó,András Horváth
Main category: cs.CV
TL;DR: 研究探讨了预训练模型在生物医学图像分割中的偏差问题,并提出解决方案。
- Motivation: 预训练模型在生物医学图像等专业数据集中可能引入偏差,影响模型性能和结果可靠性。
- Method: 通过实验比较预训练和随机初始化模型的性能及显著性图分布,提出消除偏差的策略。
- Result: 提出的方法有效中和了预训练权重引入的偏差,提升了模型可解释性。
- Conclusion: 研究为解决预训练权重偏差提供了实用方法,适用于多种深度学习任务。
[35] CONSIGN: Conformal Segmentation Informed by Spatial Groupings via Decomposition
Bruno Viti,Elias Karabelas,Martin Holler
Main category: cs.CV
TL;DR: 论文提出了一种基于空间相关性的图像分割不确定性量化方法CONSIGN,通过改进传统的共形预测框架,显著提升了不确定性估计的质量。
- Motivation: 传统图像分割模型输出的置信度分数缺乏统计有效性,且忽略了像素间的空间相关性,导致不确定性估计保守且难以解释。
- Method: 提出CONSIGN方法,结合空间相关性改进共形预测,生成具有统计保证的预测集,适用于任何预训练的分割模型。
- Result: 在多个数据集和模型上验证,CONSIGN显著优于传统像素级共形预测方法,提升了不确定性估计的准确性和可解释性。
- Conclusion: CONSIGN通过引入空间相关性,为图像分割提供了更高质量的不确定性量化方法,适用于高风险的医学影像等领域。
[36] Intra-class Patch Swap for Self-Distillation
Hongjun Choi,Eun Som Jeon,Ankita Shukla,Pavan Turaga
Main category: cs.CV
TL;DR: 提出了一种基于教师无关蒸馏的新框架,通过类内补丁交换增强实现高效自蒸馏,无需额外组件或架构修改。
- Motivation: 传统知识蒸馏依赖预训练教师模型,带来内存、存储和训练成本问题,而现有自蒸馏方法仍依赖复杂架构或训练流程。
- Method: 采用类内补丁交换增强,模拟教师-学生动态,通过实例间蒸馏对齐预测分布。
- Result: 在图像分类、语义分割和目标检测任务中,性能优于现有自蒸馏和传统教师蒸馏方法。
- Conclusion: 自蒸馏的成功可能依赖于增强设计,该方法简单、通用且高效。
[37] Hunyuan-Game: Industrial-grade Intelligent Game Creation Model
Ruihuang Li,Caijin Zhou,Shoujian Zheng,Jianxiang Lu,Jiabin Huang,Comi Chen,Junshu Tang,Guangzheng Xu,Jiale Tao,Hongmei Wang,Donghao Li,Wenqing Yu,Senbo Wang,Zhimin Li,Yetshuan Shi,Haoyu Yang,Yukun Wang,Wenxun Dai,Jiaqi Li,Linqing Wang,Qixun Wang,Zhiyong Xu,Yingfang Zhang,Jiangfeng Xiong,Weijie Kong,Chao Zhang,Hongxin Zhang,Qiaoling Zheng,Weiting Guo,Xinchi Deng,Yixuan Li,Renjia Wei,Yulin Jian,Duojun Huang,Xuhua Ren,Sihuan Lin,Yifu Sun,Yuan Zhou,Joey Wang,Qin Lin,Jingmiao Yu,Jihong Zhang,Caesar Zhong,Di Wang,Yuhong Liu,Linus,Jie Jiang,Longhuang Wu,Shuai Shao,Qinglin Lu
Main category: cs.CV
TL;DR: Hunyuan-Game项目利用生成式AI技术,专注于游戏内容的动态生成与优化,涵盖图像和视频生成两大分支,旨在提升游戏设计师效率并满足玩家偏好。
- Motivation: 尽管生成模型取得进展,但高质量游戏资产(如图像和视频)的综合生成仍具挑战性,Hunyuan-Game旨在解决这一问题。
- Method: 项目分为图像生成和视频生成两部分,分别基于大规模数据集开发定制化模型,涵盖多种游戏场景需求。
- Result: 开发了多类图像和视频生成模型,具备高美学表现力,并能深度适应游戏和动漫艺术风格。
- Conclusion: Hunyuan-Game为智能游戏生产提供了系统性解决方案,显著提升了内容生成的质量和效率。
[38] ReactDiff: Latent Diffusion for Facial Reaction Generation
Jiaming Li,Sheng Wang,Xin Wang,Yitao Zhu,Honglin Xiong,Zixu Zhuang,Qian Wang
Main category: cs.CV
TL;DR: ReactDiff框架通过多模态Transformer和潜在扩散模型提升听众面部反应生成的多样性和相关性。
- Motivation: 解决现有方法在捕捉视频与音频相关性及平衡反应适当性、真实性和多样性上的不足。
- Method: 结合多模态Transformer和潜在扩散模型,利用类内和类间注意力实现细粒度多模态交互。
- Result: 实验显示ReactDiff在相关性(0.26)和多样性(0.094)上显著优于现有方法,同时保持真实感。
- Conclusion: ReactDiff为面部反应生成提供了更优的多模态交互和多样性输出方案。
[39] Unify Graph Learning with Text: Unleashing LLM Potentials for Session Search
Songhao Wu,Quan Tu,Hong Liu,Jia Xu,Zhongyi Liu,Guannan Zhang,Ran Wang,Xiuying Chen,Rui Yan
Main category: cs.CV
TL;DR: 论文提出了一种结合文本和图结构的会话搜索方法Symbolic Graph Ranker (SGR),利用大语言模型(LLMs)的优势,并通过自监督任务增强LLMs对图结构的理解。
- Motivation: 当前会话搜索方法侧重于顺序建模或通用图结构表示,忽略了词级语义和图结构的结合。
- Method: 引入符号语法规则将会话图转换为文本,结合自监督任务(如链接预测、节点内容生成)增强LLMs对图结构的理解。
- Result: 在两个基准数据集(AOL和Tiangong-ST)上验证了方法的优越性。
- Conclusion: SGR为传统搜索策略与现代LLMs之间的桥梁提供了新方法。
[40] M3Depth: Wavelet-Enhanced Depth Estimation on Mars via Mutual Boosting of Dual-Modal Data
Junjie Li,Jiawei Wang,Miyu Li,Yu Liu,Yumei Wang,Haitao Xu
Main category: cs.CV
TL;DR: M3Depth是一种专为火星探测任务设计的深度估计模型,通过小波变换卷积核和一致性损失提升稀疏纹理环境下的深度估计精度。
- Motivation: 火星地形纹理稀疏且缺乏几何约束,传统方法性能下降,需要一种适应火星环境的深度估计方法。
- Method: 结合小波变换卷积核捕捉低频特征,引入一致性损失利用表面法线作为几何约束,设计像素级细化模块迭代优化深度和法线预测。
- Result: 在合成火星数据集上,M3Depth的深度估计精度比其他先进方法提升16%,并在真实火星场景中表现良好。
- Conclusion: M3Depth为未来火星探测任务提供了一种有效的深度估计解决方案。
[41] LMP: Leveraging Motion Prior in Zero-Shot Video Generation with Diffusion Transformer
Changgu Chen,Xiaoyan Yang,Junwei Shu,Changbo Wang,Yang Li
Main category: cs.CV
TL;DR: 论文提出LMP框架,通过预训练扩散变换器实现零样本视频生成,解决现有方法在视频内容细粒度控制上的不足。
- Motivation: 当前DiT模型在视频生成中缺乏对内容的细粒度控制,尤其是在复杂运动描述和图像到视频生成中的运动控制方面。
- Method: 提出LMP框架,包括前景-背景分离模块、加权运动转移模块和外观分离模块,以实现对参考视频运动的零样本控制。
- Result: 实验表明,LMP在生成质量、提示-视频一致性和控制能力上达到最优性能。
- Conclusion: LMP框架有效解决了视频生成中的运动控制问题,提升了生成视频的质量和可控性。
[42] Towards Omnidirectional Reasoning with 360-R1: A Dataset, Benchmark, and GRPO-based Method
Xinshen Zhang,Zhen Ye,Xu Zheng
Main category: cs.CV
TL;DR: 论文介绍了OmniVQA,首个用于全景视觉问答的数据集和基准测试,揭示了现有多模态大语言模型在全景场景理解上的局限性,并提出了一种基于强化学习的改进方法360-R1。
- Motivation: 现有多模态大语言模型在全景图像理解能力上存在不足,缺乏专门的数据集和基准测试。
- Method: 提出OmniVQA数据集和基准测试,并基于Qwen2.5-VL-Instruct设计了360-R1方法,通过三种新型奖励函数改进GRPO。
- Result: 实验表明360-R1在全景空间中的性能提升了6%。
- Conclusion: 全景视觉理解需要专门的方法,360-R1为未来研究提供了方向。
[43] Beginning with You: Perceptual-Initialization Improves Vision-Language Representation and Alignment
Yang Hu,Runchen Wang,Stephen Chong Zhao,Xuhui Zhan,Do Hun Kim,Mark Wallace,David A. Tovar
Main category: cs.CV
TL;DR: Perceptual-Initialization (PI) 通过在初始化阶段融入人类感知结构,显著提升了零样本性能,无需任务特定微调。
- Motivation: 挑战传统观念,证明在早期表征学习中嵌入人类感知结构比仅用于微调更能提升视觉-语言对齐系统的泛化能力。
- Method: 利用NIGHTS数据集的人类感知三元组嵌入初始化CLIP视觉编码器,随后在YFCC15M上进行自监督学习。
- Result: 在29个零样本分类和2个检索基准上显著提升性能,包括ImageNet-1K的零样本准确率。
- Conclusion: 早期融入人类感知结构为通用视觉-语言智能提供了更强的基础。
[44] Flexible-weighted Chamfer Distance: Enhanced Objective Function for Point Cloud Completion
Jie Li,Shengwei Tian,Long Yu,Xin Ning
Main category: cs.CV
TL;DR: 论文提出了一种灵活加权的Chamfer距离(FCD),通过调整其两个分量的权重,改善了点云生成任务的全局分布性能,同时保持整体性能。
- Motivation: 传统的Chamfer距离(CD)作为目标函数时,固定权重可能导致全局分布不佳,尽管整体性能看似良好。
- Method: 提出FCD,为CD的全局分布分量分配更高权重,并采用灵活加权策略调整分量平衡。
- Result: 在两个先进网络上验证,FCD在CD、EMD、DCD、F-Score及人工评估中表现更优。
- Conclusion: FCD有效提升了点云生成的全局分布性能,同时保持了整体性能的稳健性。
[45] VoQA: Visual-only Question Answering
Luyang Jiang,Jianing An,Jie Luo,Wenjun Wu,Lei Huang
Main category: cs.CV
TL;DR: 提出VoQA任务,要求模型仅通过视觉输入回答问题,并引入GRT-SFT方法提升性能。
- Motivation: 现有视觉语言模型在纯视觉问答任务中表现不佳,需改进。
- Method: 提出GRT-SFT方法,通过结构化微调引导模型逐步推理。
- Result: GRT-SFT显著提升了模型在VoQA任务中的表现。
- Conclusion: 该方法增强了模型在复杂多模态场景中的视觉理解能力。
[46] UniVG-R1: Reasoning Guided Universal Visual Grounding with Reinforcement Learning
Sule Bai,Mingxing Li,Yong Liu,Jing Tang,Haoji Zhang,Lei Sun,Xiangxiang Chu,Yansong Tang
Main category: cs.CV
TL;DR: UniVG-R1是一个基于推理的多模态大语言模型,通过强化学习和冷启动数据提升视觉定位能力,在复杂多模态场景中表现优异。
- Motivation: 传统视觉定位方法难以处理复杂指令和多图像场景,缺乏跨模态推理能力。
- Method: 构建高质量推理链数据集,结合监督微调和基于规则的强化学习,并提出难度感知权重调整策略。
- Result: 在MIG-Bench上提升9.1%,零样本性能平均提升23.4%。
- Conclusion: UniVG-R1在复杂视觉定位任务中表现出色,具有强泛化能力。
[47] Decoupling Classifier for Boosting Few-shot Object Detection and Instance Segmentation
Bin-Bin Gao,Xiaochen Chen,Zhongyi Huang,Congchong Nie,Jun Liu,Jinxiang Lai,Guannan Jiang,Xi Wang,Chengjie Wang
Main category: cs.CV
TL;DR: 该论文提出了一种解决少样本目标检测(FSOD)和实例分割(FSIS)中分类偏差问题的方法,通过解耦分类器为两个独立头部分别处理正负样本,显著提升了性能。
- Motivation: 现有方法在少样本场景下因缺失标签问题导致分类偏差,作者首次正式提出并分析这一问题。
- Method: 提出一种简单有效的方法,将标准分类器解耦为两个独立头部,分别处理清晰正样本和噪声负样本。
- Result: 在PASCAL VOC和MS-COCO基准测试中,模型无需额外计算成本和参数即显著优于基线和现有最优方法。
- Conclusion: 解耦分类器的方法有效缓解了分类偏差,为少样本学习提供了新思路。
[48] Visual Agentic Reinforcement Fine-Tuning
Ziyu Liu,Yuhang Zang,Yushan Zou,Zijian Liang,Xiaoyi Dong,Yuhang Cao,Haodong Duan,Dahua Lin,Jiaqi Wang
Main category: cs.CV
TL;DR: Visual-ARFT方法显著提升了大型视觉语言模型的多模态代理能力,在搜索和编码任务中表现优异,甚至超越GPT-4o。
- Motivation: 当前开源社区在多模态代理能力(尤其是图像处理)方面的研究不足,缺乏相关基准测试。
- Method: 提出Visual-ARFT方法,通过强化微调使模型具备实时信息搜索和图像处理编码能力,并设计了MAT基准测试。
- Result: Visual-ARFT在MAT-Coding和MAT-Search任务中分别提升18.6% F1/13.0% EM和10.3% F1/8.7% EM,且在多跳QA任务中表现优异。
- Conclusion: Visual-ARFT为构建鲁棒且通用的多模态代理提供了有效路径。
[49] Instructing Text-to-Image Diffusion Models via Classifier-Guided Semantic Optimization
Yuanyuan Chang,Yinghua Yao,Tao Qin,Mengmeng Wang,Ivor Tsang,Guang Dai
Main category: cs.CV
TL;DR: 提出一种无需文本提示或微调扩散模型的方法,通过优化语义嵌入和属性分类器指导文本到图像模型的编辑。
- Motivation: 现有方法依赖手动设计文本提示,耗时且可能引入无关细节,限制了编辑性能。
- Method: 利用属性分类器优化语义嵌入,学习数据集级别的精确语义表示。
- Result: 实验表明,该方法实现了高度解耦和跨领域数据的强泛化能力。
- Conclusion: 该方法无需文本提示或模型微调,即可实现准确且解耦的图像编辑。
[50] Aligning Attention Distribution to Information Flow for Hallucination Mitigation in Large Vision-Language Models
Jianfei Zhao,Feng Zhang,Xin Sun,Chong Feng
Main category: cs.CV
TL;DR: 论文提出了一种优化方法,通过调整注意力分布与信息流的对齐,显著减少LVLMs的幻觉现象。
- Motivation: 由于解码器-仅模型的信息单向传播特性,LVLMs的注意力分布与信息流不匹配,导致视觉理解能力下降和幻觉现象。
- Method: 识别关注核心语义表示的注意力头,并通过两阶段优化范式将其优势传播到整个模型。
- Result: 在五个LVLMs上评估,显著减少幻觉现象,但存在幻觉减少与细节丰富的权衡。
- Conclusion: 方法有效且灵活,可根据需求手动调整模型的保守性。
[51] Speculative Decoding Reimagined for Multimodal Large Language Models
Luxi Lin,Zhihang Lin,Zhanpeng Zeng,Rongrong Ji
Main category: cs.CV
TL;DR: MSD通过解耦文本和视觉标记,并采用两阶段训练策略,显著加速多模态大语言模型(MLLMs)的推理速度。
- Motivation: 现有推测解码方法在多模态大语言模型(MLLMs)中未能实现与单模态大语言模型(LLMs)相同的加速效果,因此需要针对MLLMs重新设计推测解码方法。
- Method: MSD解耦文本和视觉标记,采用两阶段训练策略:第一阶段提升语言建模能力,第二阶段增强视觉感知能力。
- Result: 实验表明,MSD在LLaVA-1.5-7B和LLaVA-1.5-13B模型上分别实现了2.29倍和2.46倍的推理加速。
- Conclusion: MSD有效解决了MLLMs推理速度问题,为多模态模型的高效推理提供了新思路。
[52] RA-Touch: Retrieval-Augmented Touch Understanding with Enriched Visual Data
Yoorhim Cho,Hongyeob Kim,Semin Kim,Youjia Zhang,Yunseok Choi,Sungeun Hong
Main category: cs.CV
TL;DR: RA-Touch是一个检索增强框架,通过利用视觉数据中的触觉语义提升视觉触觉感知能力。
- Motivation: 触觉数据收集成本高且耗时,而视觉上不同的物体可能具有相似的触觉属性,因此可以利用视觉数据中的材料线索指导触觉理解。
- Method: RA-Touch通过重新标注大规模视觉数据集,加入触觉描述,并利用检索对齐的视觉-文本表示来整合触觉语义。
- Result: RA-Touch在TVL基准测试中优于现有方法,展示了检索增强方法在触觉理解中的潜力。
- Conclusion: RA-Touch证明了通过视觉数据增强触觉语义的有效性,为触觉感知提供了新思路。
[53] Towards Generating Realistic Underwater Images
Abdul-Kazeem Shamba
Main category: cs.CV
TL;DR: 论文研究了对比学习和生成对抗网络用于从合成图像生成真实水下图像的性能,评估了多种模型在VAROS数据集上的表现。
- Motivation: 探索如何利用对比学习和生成对抗网络技术,从具有均匀光照的合成图像生成逼真的水下图像。
- Method: 使用VAROS数据集,评估了多种图像翻译模型(如pix2pix、CycleGAN、CUT等),并通过FID和SSIM指标分析其性能。
- Result: pix2pix在FID上表现最佳,而自编码器在SSIM上表现最好;CycleGAN在非配对方法中FID表现优异,CUT则在SSIM上更优;加入深度信息的CUT实现了最低FID,但SSIM略有下降。
- Conclusion: 深度信息可以提升图像的真实感,但可能牺牲部分结构保真度;不同模型在FID和SSIM之间存在权衡。
[54] A Review of Vision-Based Assistive Systems for Visually Impaired People: Technologies, Applications, and Future Directions
Fulong Yao,Wenju Zhou,Huosheng Hu
Main category: cs.CV
TL;DR: 本文综述了近年来为视障人士设计的辅助系统的最新进展,重点关注障碍物检测、导航和用户交互的最新技术。
- Motivation: 视障人士依赖准确及时的环境信息以实现独立生活,因此开发辅助技术至关重要。
- Method: 通过全面回顾和分析现有视觉辅助系统,探讨了障碍物检测、导航和用户交互的技术。
- Result: 总结了当前最先进的辅助技术,并识别了其优势和局限性。
- Conclusion: 讨论了视觉引导系统的未来趋势和发展方向。
[55] RADAR: Enhancing Radiology Report Generation with Supplementary Knowledge Injection
Wenjun Hou,Yi Cheng,Kaishuai Xu,Heng Li,Yan Hu,Wenjie Li,Jiang Liu
Main category: cs.CV
TL;DR: RADAR框架通过结合LLM内部知识与外部检索信息,提升放射学报告生成的准确性和信息量。
- Motivation: 现有方法忽视了LLM内部已嵌入的知识,导致信息冗余和效率低下。
- Method: RADAR首先提取LLM内部与专家分类输出一致的知识,再检索外部补充知识,最后整合生成报告。
- Result: 在MIMIC-CXR、CheXpert-Plus和IU X-ray数据集上,RADAR在语言质量和临床准确性上优于现有LLM。
- Conclusion: RADAR通过系统利用内部和外部知识,显著提升了放射学报告生成的效果。
[56] RETRO: REthinking Tactile Representation Learning with Material PriOrs
Weihao Xia,Chenliang Zhou,Cengiz Oztireli
Main category: cs.CV
TL;DR: 论文提出了一种结合材料感知先验的触觉表征学习方法,弥补了现有方法忽视材料特性的不足。
- Motivation: 现有触觉表征学习方法主要关注触觉数据与视觉或文本信息的对齐,而忽略了材料特性对触觉体验的重要影响。
- Method: 通过引入材料感知先验,改进触觉表征学习框架,以更好地捕捉和泛化表面纹理的细微差异。
- Result: 该方法能够提供更准确、上下文丰富的触觉反馈,适用于多种材料和纹理,提升了在机器人、触觉反馈系统和材料编辑等实际应用中的性能。
- Conclusion: 结合材料特性的触觉表征学习方法显著提升了触觉反馈的质量和应用效果。
[57] Accuracy and Fairness of Facial Recognition Technology in Low-Quality Police Images: An Experiment With Synthetic Faces
Maria Cuellar,Hon Kiu,To,Arush Mehrotra
Main category: cs.CV
TL;DR: 研究探讨了图像质量退化对人脸识别技术(FRT)准确性和公平性的影响,发现女性及黑人群体错误率更高,但FRT仍优于传统法医方法。
- Motivation: 评估FRT在真实执法环境中因图像质量退化导致的准确性和公平性问题。
- Method: 使用StyleGAN3生成合成人脸,模拟五种图像退化形式,通过Deepface和ArcFace损失评估性能。
- Result: 错误率在女性及黑人群体中更高,尤其是黑人女性;FRT在极端条件下仍优于传统方法。
- Conclusion: FRT需透明监管以确保公平性和有效性,算法准确性不足,需结合实践评估。
[58] Breaking Down Video LLM Benchmarks: Knowledge, Spatial Perception, or True Temporal Understanding?
Bo Feng,Zhengfeng Lai,Shiyu Li,Zizhen Wang,Simon Wang,Ping Huang,Meng Cao
Main category: cs.CV
TL;DR: VBenchComp是一个自动化流程,用于将视频理解问题分类为LLM-Answerable、Semantic和Temporal三类,以更精细地评估视频LLM的能力。
- Motivation: 现有视频理解基准常混淆知识性和纯图像性问题,未能清晰区分模型的时序推理能力,这是视频理解与其他模态的关键区别。
- Method: 提出VBenchComp,将问题分类为LLM-Answerable、Semantic和Temporal三类,分别对应无需观看视频、帧顺序无关和需时序理解的问题。
- Result: 分析揭示了传统评分掩盖的模型弱点,为未来基准设计提供了更准确的评估方法。
- Conclusion: VBenchComp有助于更精细地评估视频LLM的能力,并为未来基准设计提供指导。
[59] Handloom Design Generation Using Generative Networks
Rajat Kanti Bhattacharjee,Meghali Nandi,Amrit Jha,Gunajit Kalita,Ferdous Ahmed Barbhuiya
Main category: cs.CV
TL;DR: 论文提出了一种基于深度学习的服装设计生成方法,专注于手织面料,并探讨了相关挑战与应用。
- Motivation: 生成神经网络模型在理解艺术设计及合成方面的能力尚未充分探索。
- Method: 结合当前最先进的生成模型和风格迁移算法,采用多种方法研究其性能。
- Result: 通过用户评分评估结果,并提供了新的数据集NeuralLoom。
- Conclusion: 该研究为设计生成任务提供了新的方法和数据集。
[60] Domain Adaptation for Multi-label Image Classification: a Discriminator-free Approach
Inder Pal Singh,Enjie Ghorbel,Anis Kacem,Djamila Aouada
Main category: cs.CV
TL;DR: 论文提出了一种无判别器的对抗性方法DDA-MLIC,用于多标签图像分类的无监督域适应,通过高斯混合模型和深度神经网络优化参数,避免了传统EM算法的计算成本。
- Motivation: 现有对抗性UDA方法通常包含额外的判别器子网,可能损害任务特异性判别能力,因此需要一种更高效且无需判别器的方法。
- Method: 使用高斯混合模型(GMM)建模源和目标预测,通过深度神经网络估计GMM参数,并利用Fr'echet距离构建对抗损失。
- Result: 在多个多标签图像数据集上验证,DDA-MLIC在精度上优于现有方法,且参数更少。
- Conclusion: DDA-MLIC是一种高效且性能优越的无监督域适应方法,适用于多标签图像分类。
[61] Plane Geometry Problem Solving with Multi-modal Reasoning: A Survey
Seunghyuk Cho,Zhenyue Qin,Yang Liu,Youngbin Choi,Seungbeom Lee,Dongwoo Kim
Main category: cs.CV
TL;DR: 本文综述了平面几何问题求解(PGPS)的研究现状,总结了现有方法的编码器-解码器框架及其输出格式,并分析了架构设计中的挑战与未来方向。
- Motivation: 填补PGPS领域缺乏系统性综述的空白,为研究社区提供全面概述。
- Method: 将PGPS方法分类为编码器-解码器框架,总结其输出格式,并分析架构设计。
- Result: 提出了PGPS研究的主要挑战,包括编码阶段的幻觉问题和数据泄漏问题。
- Conclusion: 总结了PGPS领域的现状,并指出了未来研究的潜在方向。
[62] Replace in Translation: Boost Concept Alignment in Counterfactual Text-to-Image
Sifan Li,Ming Tao,Hao Zhao,Ling Shao,Hao Tang
Main category: cs.CV
TL;DR: 本文提出了一种通过显式逻辑叙事提示(ELNP)和潜在空间逐步替换的方法,提升反事实文本到图像(T2I)生成中的概念对齐性能。
- Motivation: 反事实T2I生成在真实感和概念对齐方面存在挑战,本文旨在解决这些问题以提升生成图像的多样性和实用性。
- Method: 利用可控T2I模型在潜在空间中逐步替换对象,结合DeepSeek语言模型生成的ELNP指导替换过程。
- Result: 实验表明,该方法显著提升了反事实T2I生成的概念对齐性能。
- Conclusion: 提出的ELNP策略和潜在空间替换方法有效提升了反事实T2I生成的质量和概念对齐。
[63] Egocentric Action-aware Inertial Localization in Point Clouds
Mingfang Zhang,Ryo Yonetani,Yifei Huang,Liangyang Ouyang,Ruicong Liu,Yoichi Sato
Main category: cs.CV
TL;DR: 提出了一种名为EAIL的新型惯性定位框架,利用头戴式IMU信号中的自我中心动作线索,在3D点云中定位目标个体。
- Motivation: 解决惯性定位中因IMU传感器噪声和多样化人类动作导致的轨迹漂移问题。
- Method: 通过分层多模态对齐学习IMU信号中的动作线索与3D点云中环境特征的关联,利用对比学习训练模态编码器。
- Result: 实验证明EAIL在惯性定位和动作识别方面优于现有方法。
- Conclusion: EAIL框架有效利用动作与环境结构的关联,显著提升了定位精度,同时还能识别动作序列。
[64] Vid2World: Crafting Video Diffusion Models to Interactive World Models
Siqiao Huang,Jialong Wu,Qixing Zhou,Shangchen Miao,Mingsheng Long
Main category: cs.CV
TL;DR: Vid2World利用预训练视频扩散模型构建交互式世界模型,通过因果化和动作引导机制提升预测质量和可控性。
- Motivation: 现有世界模型需要大量领域特定训练且预测质量低,而视频扩散模型能生成高质量视频,但缺乏交互性。
- Method: Vid2World通过因果化预训练视频扩散模型,并引入因果动作引导机制,实现自回归生成和动作可控性。
- Result: 在机器人操作和游戏模拟领域实验中,Vid2World表现出高效且可扩展的交互世界模型构建能力。
- Conclusion: Vid2World为将视频扩散模型转化为交互式世界模型提供了通用且有效的方法。
[65] Dual Data Alignment Makes AI-Generated Image Detector Easier Generalizable
Ruoxin Chen,Junwei Xi,Zhiyuan Yan,Ke-Yue Zhang,Shuang Wu,Jingyi Xie,Xu Chen,Lei Xu,Isabel Guan,Taiping Yao,Shouhong Ding
Main category: cs.CV
TL;DR: 论文提出了一种双数据对齐(DDA)方法,解决了现有检测器在训练数据中因频率级不对齐而导致的偏差问题,并通过新测试集验证了其有效性。
- Motivation: 现有检测器在训练时容易过拟合于非因果图像属性,导致在无偏数据集上性能下降。生成式重建方法仅对齐像素级内容,但频率级不对齐仍会引入偏差。
- Method: 提出双数据对齐(DDA),同时对齐像素和频率域,并引入DDA-COCO和EvalGEN两个新测试集。
- Result: 在DDA对齐的MSCOCO上训练的检测器在8个基准测试中表现显著提升,野外基准测试中提高了7.2%。
- Conclusion: DDA方法有效提升了检测器的泛化能力,解决了频率级不对齐带来的偏差问题。
[66] Vision-Language Modeling Meets Remote Sensing: Models, Datasets and Perspectives
Xingxing Weng,Chao Pang,Gui-Song Xia
Main category: cs.CV
TL;DR: 本文综述了遥感领域中视觉语言建模(VLM)的两阶段范式进展,包括分类、方法、数据集及未来研究方向。
- Motivation: 填补图像与自然语言之间的信息鸿沟,推动遥感领域VLM的发展。
- Method: 采用两阶段范式(预训练+微调),分类为对比学习、视觉指令调优和文本条件图像生成,并详细分析网络架构与目标。
- Result: VLM模型在遥感任务中表现优异,支持对话式交互,并总结了相关数据集和模型能力。
- Conclusion: 未来研究方向包括跨模态对齐、模糊需求理解、模型可靠性、可扩展能力及多样化数据集。
[67] DeepEyes: Incentivizing "Thinking with Images" via Reinforcement Learning
Ziwei Zheng,Michael Yang,Jack Hong,Chenxiao Zhao,Guohai Xu,Le Yang,Chao Shen,Xing Yu
Main category: cs.CV
TL;DR: DeepEyes模型通过强化学习实现视觉与文本推理的无缝集成,无需冷启动SFT,显著提升了细粒度感知和推理能力。
- Motivation: 现有大型视觉语言模型(VLMs)主要依赖文本推理,缺乏视觉与文本推理的自然整合,难以模拟人类认知过程。
- Method: 提出DeepEyes模型,采用端到端强化学习,设计工具导向的数据选择机制和奖励策略,激励模型“用图像思考”。
- Result: 在细粒度感知、推理基准测试中表现显著提升,同时在定位、幻觉和数学推理任务中也有改进。
- Conclusion: DeepEyes展示了从探索到高效利用的工具调用行为演化,其推理模式与人类视觉推理过程高度相似。
[68] ViC-Bench: Benchmarking Visual-Interleaved Chain-of-Thought Capability in MLLMs with Free-Style Intermediate State Representations
Xuecheng Wu,Jiaxing Liu,Danlei Huang,Xiaoyu Li,Yifan Wang,Chen Chen,Liya Ma,Xuezhi Cao,Junxiao Xue
Main category: cs.CV
TL;DR: VI-CoT通过逐步更新的视觉状态提升多模态大语言模型(MLLMs)的推理能力,但现有基准测试限制了其自由推理。为此,作者提出ViC-Bench基准和IPII策略,系统评估MLLMs的VI-CoT能力。
- Motivation: 现有基准测试固定中间视觉状态(IVS),限制了模型自由推理能力的评估,且未系统研究IVS对推理性能的影响。
- Method: 提出ViC-Bench基准,包含四项任务,支持自由式IVS生成;设计三阶段评估策略和新指标;建立IPII策略分析提示因素。
- Result: 评估了18种先进MLLMs,揭示了其VI-CoT能力的关键见解。
- Conclusion: ViC-Bench为系统评估VI-CoT能力提供了新工具,并公开了基准数据。
[69] Investigating and Enhancing the Robustness of Large Multimodal Models Against Temporal Inconsistency
Jiafeng Liang,Shixin Jiang,Xuan Dong,Ning Wang,Zheng Chu,Hui Su,Jinlan Fu,Ming Liu,See-Kiong Ng,Bing Qin
Main category: cs.CV
TL;DR: 论文提出了一个评估大型多模态模型(LMMs)时间鲁棒性的新基准TemRobBench,并设计了一种全景直接偏好优化方法(PanoDPO)来提升模型的鲁棒性。
- Motivation: 现有LMMs在时间分析能力上的鲁棒性尚未被充分研究,尤其是在对抗环境中过度依赖先验知识和文本上下文,而忽略了视频的实际时间动态。
- Method: 提出TemRobBench基准,引入视觉和文本模态的时间不一致扰动,评估模型鲁棒性;设计PanoDPO方法,鼓励模型同时结合视觉和语言特征偏好。
- Result: 评估了16种主流LMMs,发现其在对抗环境中表现不佳;PanoDPO能有效提升模型在时间分析中的鲁棒性和可靠性。
- Conclusion: PanoDPO方法显著提升了LMMs在时间分析任务中的鲁棒性,为未来研究提供了新方向。
[70] Diving into the Fusion of Monocular Priors for Generalized Stereo Matching
Chengtang Yao,Lidong Yu,Zhidan Liu,Jiaxi Zeng,Yuwei Wu,Yunde Jia
Main category: cs.CV
TL;DR: 论文提出了一种利用视觉基础模型(VFM)的单目先验来改进立体匹配中病态区域的方法,通过二进制局部排序图和像素级线性回归模块解决融合问题。
- Motivation: 立体匹配在病态区域(如遮挡和非朗伯表面)表现不佳,而现有的单目先验因数据偏差限制了泛化能力。VFM提供了无偏单目先验,但其融合存在三个主要问题。
- Method: 提出二进制局部排序图统一相对和绝对深度表示,并用于重新加权初始视差更新;将单目深度直接融合为视差,通过像素级线性回归模块全局自适应对齐。
- Result: 实验表明,从SceneFlow到Middlebury和Booster数据集的泛化性能显著提升,且效率几乎未降低。
- Conclusion: 该方法充分利用单目先验,有效且高效地支持立体匹配结果。
[71] Video Compression Commander: Plug-and-Play Inference Acceleration for Video Large Language Models
Xuyang Liu,Yiyu Wang,Junpeng Ma,Linfeng Zhang
Main category: cs.CV
TL;DR: 论文提出了一种名为VidCom2的插件式推理加速框架,用于解决视频大语言模型(VideoLLM)中视觉令牌压缩的效率问题。通过自适应调整压缩强度,VidCom2在减少冗余的同时保留了关键信息。
- Motivation: 视频大语言模型在处理视频理解任务时,由于视觉令牌的二次复杂度导致效率低下。现有方法忽视了帧间独特视觉信号,且存在实现限制。
- Method: 提出VidCom2框架,通过量化每帧的独特性自适应调整压缩强度,保留关键信息并减少冗余。
- Result: 实验表明,VidCom2仅使用25%的视觉令牌即可达到原始性能的99.6%,同时减少70.8%的生成延迟。
- Conclusion: VidCom2是一种高效且兼容性强的视频令牌压缩方法,可与其他压缩方法结合进一步提升性能。
[72] VisualQuality-R1: Reasoning-Induced Image Quality Assessment via Reinforcement Learning to Rank
Tianhe Wu,Jian Zou,Jie Liang,Lei Zhang,Kede Ma
Main category: cs.CV
TL;DR: VisualQuality-R1是一种基于强化学习的无参考图像质量评估模型,通过推理能力提升性能,优于现有方法。
- Motivation: 探索推理能力在图像质量评估(IQA)中的应用潜力,解决传统方法在视觉推理上的不足。
- Method: 使用强化学习(特别是组相对策略优化)生成图像质量分数,并通过Thurstone模型计算比较概率。
- Result: VisualQuality-R1在实验中表现优于现有方法,并能生成与人类对齐的质量描述。
- Conclusion: VisualQuality-R1适用于多种图像处理任务,具有广泛的应用前景。
[73] RAVENEA: A Benchmark for Multimodal Retrieval-Augmented Visual Culture Understanding
Jiaang Li,Yifei Yuan,Wenyan Li,Mohammad Aliannejadi,Daniel Hershcovich,Anders Søgaard,Ivan Vulić,Wenxuan Zhang,Paul Pu Liang,Yang Deng,Serge Belongie
Main category: cs.CV
TL;DR: RAVENEA是一个新的基准测试,通过检索增强视觉文化理解,提升轻量级视觉语言模型在文化相关任务中的表现。
- Motivation: 视觉语言模型在理解文化细微差异方面表现不足,而检索增强生成在文本领域已证明有效,但在多模态场景中尚未充分探索。
- Method: 引入RAVENEA基准,整合10,000多篇维基百科文档,训练并评估七种多模态检索器,测试其对14种先进视觉语言模型的影响。
- Result: 检索增强的轻量级模型在文化视觉问答和文化图像描述任务中分别提升3.2%和6.2%。
- Conclusion: 检索增强方法和文化包容性基准对多模态理解具有重要价值。
[74] Enhancing Interpretability of Sparse Latent Representations with Class Information
Farshad Sangari Abiz,Reshad Hosseini,Babak N. Araabi
Main category: cs.CV
TL;DR: 论文提出了一种新方法,通过确保同类样本在潜在空间中共享相似的活动维度,提升潜在空间的可解释性。
- Motivation: 标准VAE生成的潜在空间分散且无结构,限制了其可解释性。VSC虽然引入了稀疏表示,但未能保证同类样本的活动维度一致性。
- Method: 提出了一种新的损失函数,鼓励同类样本共享相似的活动维度,从而生成更结构化的潜在空间。
- Result: 该方法生成了一个更结构化和可解释的潜在空间,每个共享维度对应一个高级概念或“因子”,同时捕捉全局和类别特定因子。
- Conclusion: 该方法显著提升了潜在空间的实用性和可解释性,优于现有方法。
[75] ReservoirTTA: Prolonged Test-time Adaptation for Evolving and Recurring Domains
Guillaume Vray,Devavrat Tomar,Xufeng Gao,Jean-Philippe Thiran,Evan Shelhamer,Behzad Bozorgtabar
Main category: cs.CV
TL;DR: ReservoirTTA是一种新颖的插件框架,用于在测试域持续变化的情况下进行长期测试时间适应(TTA),通过多模型策略解决单模型适应中的关键问题。
- Motivation: 解决测试域持续变化(包括重复或逐渐演变)时,单模型适应中的灾难性遗忘、域间干扰和误差累积等问题。
- Method: 通过维护一个域专用模型库(自适应测试时间模型集成),在线聚类检测新域并将样本路由到合适的专用模型,实现域特定适应。
- Result: 在ImageNet-C、CIFAR-10/100-C和Cityscapes→ACDC任务中,ReservoirTTA显著提高了适应准确性,并在长期重复变化中保持稳定性能。
- Conclusion: ReservoirTTA通过多模型策略和理论分析,有效解决了长期TTA中的关键问题,优于现有方法。
[76] SparC: Sparse Representation and Construction for High-Resolution 3D Shapes Modeling
Zhihao Li,Yufei Wang,Heliang Zheng,Yihao Luo,Bihan Wen
Main category: cs.CV
TL;DR: SparC框架通过结合稀疏可变形立方体表示和新型编码器SparConv-VAE,解决了3D对象合成中的细节丢失问题,实现了高效且高保真的3D重建和生成。
- Motivation: 现有两阶段方法(VAE压缩+潜在扩散采样)因表示效率低和模态不匹配导致细节丢失,3D对象合成仍具挑战性。
- Method: SparC结合SparseCubes(稀疏可变形立方体表示)和SparConv-VAE(稀疏卷积网络构建的VAE),支持高分辨率(1024^3)表面重建和潜在扩散生成。
- Result: SparC在复杂输入(开放表面、断开组件等)上实现最先进的重建保真度,保留细节并降低计算成本。
- Conclusion: SparC为高分辨率3D生成提供了高效、可扩展的解决方案,并与潜在扩散模型无缝集成。
[77] diffDemorph: Extending Reference-Free Demorphing to Unseen Faces
Nitish Shukla,Arun Ross
Main category: cs.CV
TL;DR: 提出了一种基于扩散的新方法,用于从合成人脸图像中分离出原始图像,无需参考图像,且在多种技术和风格下表现优异。
- Motivation: 现有的参考无关解合成方法受限于训练和测试数据的分布假设,无法泛化到不同技术和风格。
- Method: 采用扩散模型,从合成图像中分离出原始图像,支持跨技术和风格的泛化。
- Result: 在六个数据集和两种人脸匹配器上验证,性能优于现有方法59.46%。
- Conclusion: 新方法在实用性和泛化能力上显著提升,适用于真实场景。
[78] Personalize Your Gaussian: Consistent 3D Scene Personalization from a Single Image
Yuxuan Wang,Xuanyu Yi,Qingshan Xu,Yuan Zhou,Long Chen,Hanwang Zhang
Main category: cs.CV
TL;DR: CP-GS提出了一种从单张参考图像个性化3D场景的方法,通过渐进式传播参考外观并利用几何线索,解决了多视角一致性和参考一致性的挑战。
- Motivation: 现有方法因单视角限制导致视角偏差,难以实现多视角和参考一致性。
- Method: 结合预训练图像到3D生成和迭代LoRA微调,通过几何线索生成多视角引导图像和个性化3DGS输出。
- Result: 实验表明CP-GS有效减少视角偏差,显著优于现有方法。
- Conclusion: CP-GS通过渐进式传播和几何引导,实现了高质量的3D场景个性化。
[79] Dynadiff: Single-stage Decoding of Images from Continuously Evolving fMRI
Marlène Careil,Yohann Benchetrit,Jean-Rémi King
Main category: cs.CV
TL;DR: Dynadiff是一种新型单阶段扩散模型,用于从动态fMRI信号重建图像,简化训练流程并提升时间分辨率下的解码性能。
- Motivation: 当前脑图像解码方法依赖复杂的多阶段流程,且通常忽略时间维度,限制了时间分辨率的解码能力。
- Method: 提出Dynadiff,一种单阶段扩散模型,直接从动态fMRI信号重建图像。
- Result: Dynadiff在时间分辨率fMRI信号上优于现有方法,尤其在高级语义图像重建指标上表现突出。
- Conclusion: Dynadiff为时间分辨率的脑图像解码奠定了基础。
[80] Instance Segmentation for Point Sets
Abhimanyu Talwar,Julien Laasri
Main category: cs.CV
TL;DR: 该论文提出两种基于采样的方法,以减少内存密集型相似矩阵的使用,从而改进点云实例分割的效率。
- Motivation: 解决SGPN中内存密集型相似矩阵的问题,提高点云实例分割的计算效率和内存使用。
- Method: 使用两种采样方法(随机采样和基于子采样的方法)在子采样点集上计算实例分割,并通过最近邻方法将标签扩展到完整点集。
- Result: 两种方法在大型子采样上表现相似,但随机采样策略在速度和内存使用上表现更优。
- Conclusion: 随机采样方法在效率和内存优化方面更具优势,为点云实例分割提供了一种更高效的解决方案。
[81] 3D Reconstruction from Sketches
Abhimanyu Talwar,Julien Laasri
Main category: cs.CV
TL;DR: 提出了一种从多张草图重建3D场景的流程,包括草图拼接、CycleGAN生成真实图像和MegaDepth估计深度图。虽然拼接部分泛化性较差,但单草图重建效果良好。
- Motivation: 解决从草图重建3D场景的问题,尤其是针对多张草图的拼接和单张草图的3D重建。
- Method: 1. 通过对应点拼接多张草图;2. 使用CycleGAN将拼接图转为真实图像;3. 用MegaDepth估计深度图。
- Result: 构建了图像-草图数据集,CycleGAN训练成功,单草图重建效果良好,但多草图拼接泛化性不足。
- Conclusion: 流程在单草图重建上表现优异,但多草图拼接需进一步改进。
[82] A General Framework for Group Sparsity in Hyperspectral Unmixing Using Endmember Bundles
Gokul Bhusal,Yifei Lou,Cristina Garcia-Cardona,Ekaterina Merkurjev
Main category: cs.CV
TL;DR: 论文提出了一种基于组稀疏性的高光谱解混方法,通过使用端元束表示材料,并引入新的正则化方法(TL1惩罚)来提高解混精度。
- Motivation: 高光谱数据的低空间分辨率导致像素中多材料混合,传统线性混合模型无法准确表示材料的类内变异性。
- Method: 提出基于端元束的框架,支持组间稀疏性或组内及跨组稀疏性(SWAG),并引入TL1惩罚等稀疏促进惩罚。
- Result: 在合成和真实高光谱数据上的实验表明,所提方法有效且优于现有方法。
- Conclusion: 通过组稀疏性和TL1惩罚,该方法显著提升了高光谱解混的精度和灵活性。
[83] Dual Precision Quantization for Efficient and Accurate Deep Neural Networks Inference
Tomer Gafni,Asaf Karnieli,Yair Hanani
Main category: cs.CV
TL;DR: 提出了一种硬件高效的4位权重和8位浮点推理方案(W4A8),通过双精度量化(DPQ)算法减少精度损失,显著提升速度和内存利用率。
- Motivation: 随着任务复杂度增加,模型规模扩大,延迟和内存效率成为挑战,后训练量化成为解决方案。
- Method: 采用W4A8方案,权重用4位整数存储,推理用8位浮点运算,并提出DPQ算法减少精度损失。
- Result: 实验显示性能提升(吞吐量增加),同时保持可接受的精度损失。
- Conclusion: 该方案在多种现代加速器上有效,平衡了性能和精度。
[84] VideoEval-Pro: Robust and Realistic Long Video Understanding Evaluation
Wentao Ma,Weiming Ren,Yiming Jia,Zhuofeng Li,Ping Nie,Ge Zhang,Wenhu Chen
Main category: cs.CV
TL;DR: 现有长视频理解(LVU)基准测试存在缺陷,多选问题(MCQs)易猜测且部分问题无需视频输入即可回答。作者提出VideoEval-Pro,通过开放式短答题更真实评估LMMs的长视频理解能力。
- Motivation: 现有LVU基准测试因依赖MCQs和问题先验导致评估结果失真,无法真实反映LMMs的长视频理解能力。
- Method: 提出VideoEval-Pro基准,包含需理解整个视频的开放式短答题,评估片段级和全视频理解能力。
- Result: 视频LMMs在开放式问题上表现显著下降(>25%),MCQ高分不预示开放式高分,VideoEval-Pro更能受益于增加输入帧数。
- Conclusion: VideoEval-Pro提供了更真实可靠的LVU评估方法,揭示了该领域的真实进展。
[85] CAD-Coder: An Open-Source Vision-Language Model for Computer-Aided Design Code Generation
Anna C. Doris,Md Ferdous Alam,Amin Heyrani Nobari,Faez Ahmed
Main category: cs.CV
TL;DR: CAD-Coder是一个开源视觉语言模型,通过视觉输入生成可编辑的CAD代码,显著提升工程设计的效率和准确性。
- Motivation: 当前手动CAD建模耗时且依赖专业知识,AI驱动的CAD生成模型存在局限性,如操作表示不完整、泛化能力不足和输出精度低。
- Method: 利用新数据集GenCAD-Code(包含16.3万对CAD模型图像和代码),CAD-Coder通过微调生成CadQuery Python代码。
- Result: CAD-Coder在语法正确率和3D实体相似度上优于现有模型(如GPT-4.5和Qwen2.5-VL-72B),并能泛化到未见过的CAD操作和真实图像。
- Conclusion: CAD-Coder展示了视觉语言模型在优化CAD工作流程中的潜力,为工程师和设计师提供了高效工具。
[86] Beyond Words: Multimodal LLM Knows When to Speak
Zikai Liao,Yi Ouyang,Yi-Lun Lee,Chen-Ping Yu,Yi-Hsuan Tsai,Zhaozheng Yin
Main category: cs.CV
TL;DR: 论文提出了一种多模态LLM模型MM-When2Speak,通过整合视觉、听觉和文本信息,显著提升了对话中响应时机和类型的预测准确性。
- Motivation: 现有基于LLM的聊天机器人在实时对话中难以准确判断何时发言,尤其是短时反应,主要因为缺乏多模态上下文信息。
- Method: 构建了一个多模态数据集,并提出MM-When2Speak模型,结合视觉、听觉和文本信号预测响应时机和类型。
- Result: 实验显示,MM-When2Speak在响应时机准确性上比现有单模态和LLM基线模型提升高达4倍。
- Conclusion: 多模态输入对实现自然、及时的对话AI至关重要。
[87] AKRMap: Adaptive Kernel Regression for Trustworthy Visualization of Cross-Modal Embeddings
Yilin Ye,Junchao Huang,Xingchen Zeng,Jiazhi Xia,Wei Zeng
Main category: cs.CV
TL;DR: AKRMap是一种新的降维技术,用于可视化跨模态嵌入度量,通过学习投影空间中的度量景观核回归,提高准确性。
- Motivation: 传统降维方法(如PCA和t-SNE)主要关注单模态特征分布,无法有效整合跨模态度量(如CLIPScore),因此需要一种新方法来可视化跨模态嵌入。
- Method: AKRMap通过构建一个由投影后核回归损失指导的监督投影网络,并使用可联合优化的自适应广义核,生成能够捕捉复杂度量分布的可视化结果。
- Result: 定量实验表明,AKRMap在生成更准确和可信的可视化结果方面优于现有降维方法,并支持交互功能(如缩放和叠加)。
- Conclusion: AKRMap在可视化文本到图像模型的跨模态嵌入方面表现出色,代码和演示已开源。
[88] UniCTokens: Boosting Personalized Understanding and Generation via Unified Concept Tokens
Ruichuan An,Sihan Yang,Renrui Zhang,Zijun Shen,Ming Lu,Gaole Dai,Hao Liang,Ziyu Guo,Shilin Yan,Yulin Luo,Bocheng Zou,Chaoqun Yang,Wentao Zhang
Main category: cs.CV
TL;DR: UniCTokens提出了一种统一的概念标记框架,用于增强个性化理解和生成任务,通过渐进式训练策略和互补语义提升性能。
- Motivation: 现有方法将理解和生成任务分离,导致复杂提示生成受限。UniCTokens旨在通过统一标记解决这一问题。
- Method: 提出UniCTokens框架,训练统一概念标记,采用三阶段渐进训练策略(理解预热、生成引导、深化理解)。
- Result: 在UnifyBench上表现优异,理解和生成任务均领先,知识驱动生成达到SOTA。
- Conclusion: 增强理解有助于生成,生成过程也能反馈理解,两者相互促进。
[89] Training-Free Watermarking for Autoregressive Image Generation
Yu Tong,Zihao Pan,Shuai Yang,Kaiyang Zhou
Main category: cs.CV
TL;DR: IndexMark是一种无需训练的自动回归图像生成模型水印框架,利用代码本冗余特性嵌入水印,不影响图像质量,并具有高验证准确性和鲁棒性。
- Motivation: 现有生成水印方法主要针对扩散模型,自动回归图像生成模型的水印研究较少,需要一种高效且不影响图像质量的水印方法。
- Method: 基于代码本冗余特性,通过匹配替换方法选择相似水印标记嵌入图像,并通过索引编码器提高验证精度,同时引入辅助验证方案增强抗裁剪攻击能力。
- Result: 实验表明,IndexMark在图像质量和验证准确性上达到最优,且对裁剪、噪声、模糊等多种干扰具有鲁棒性。
- Conclusion: IndexMark为自动回归图像生成模型提供了一种高效、鲁棒的水印解决方案。
[90] Visionary-R1: Mitigating Shortcuts in Visual Reasoning with Reinforcement Learning
Jiaer Xia,Yuhang Zang,Peng Gao,Yixuan Li,Kaiyang Zhou
Main category: cs.CV
TL;DR: 论文探讨了如何通过强化学习训练视觉语言模型(VLM)进行图像推理,无需显式思维链监督,并提出了一种caption-reason-answer的输出格式来避免模型走捷径。
- Motivation: 解决视觉语言模型在推理任务中因走捷径而泛化能力不足的问题。
- Method: 使用强化学习训练VLM,采用caption-reason-answer的输出格式,首先生成详细图像描述,再构建推理链。
- Result: 模型Visionary-R1在多个视觉推理基准测试中表现优于GPT-4o等强大多模态模型。
- Conclusion: 通过caption-reason-answer格式可有效避免模型走捷径,提升推理能力。
[91] UniGen: Enhanced Training & Test-Time Strategies for Unified Multimodal Understanding and Generation
Rui Tian,Mingfei Gao,Mingze Xu,Jiaming Hu,Jiasen Lu,Zuxuan Wu,Yinfei Yang,Afshin Dehghan
Main category: cs.CV
TL;DR: UniGen是一个统一的多模态大语言模型(MLLM),能够理解和生成图像。研究从数据角度出发,提出了多阶段预训练、监督微调和直接偏好优化的完整训练流程,并引入了一种新的Chain-of-Thought Verification(CoT-V)策略,显著提升了图像生成质量。UniGen在多个基准测试中表现优异。
- Motivation: 研究旨在构建一个统一的MLLM,既能理解图像又能生成图像,并通过数据驱动的训练流程和创新的测试时策略提升性能。
- Method: 采用多阶段预训练、监督微调和直接偏好优化的训练流程,并引入CoT-V策略,使模型在测试时既能生成图像又能验证语义对齐。
- Result: UniGen在GenEval和DPG-Bench上分别取得0.78和85.19的分数,表现优异。
- Conclusion: 研究为构建统一的MLLM提供了可行的训练策略和测试时优化方法,为未来研究提供了重要方向。
[92] Emerging Properties in Unified Multimodal Pretraining
Chaorui Deng,Deyao Zhu,Kunchang Li,Chenhui Gou,Feng Li,Zeyu Wang,Shu Zhong,Weihao Yu,Xiaonan Nie,Ziang Song,Guang Shi,Haoqi Fan
Main category: cs.CV
TL;DR: BAGEL是一个开源的统一多模态理解和生成的基础模型,通过大规模多模态数据预训练,展现出复杂推理能力,显著优于现有开源模型。
- Motivation: 统一多模态理解和生成是前沿系统的关键能力,但现有开源模型表现不足,因此开发BAGEL以填补这一空白。
- Method: BAGEL是一个仅解码器的统一模型,基于万亿级的多模态交错数据(文本、图像、视频、网页)进行预训练。
- Result: BAGEL在多模态生成和理解任务中表现优异,具备高级推理能力(如自由图像操作、未来帧预测等),显著优于其他开源模型。
- Conclusion: BAGEL为多模态研究提供了新机会,作者分享了关键发现、预训练细节和数据协议,并开源了代码和模型。
[93] Grouping First, Attending Smartly: Training-Free Acceleration for Diffusion Transformers
Sucheng Ren,Qihang Yu,Ju He,Alan Yuille,Liang-Chieh Chen
Main category: cs.CV
TL;DR: GRAT是一种无需训练的注意力加速策略,通过分组和结构化区域限制,显著提升扩散Transformer的图像和视频生成速度,同时保持输出质量。
- Motivation: 扩散Transformer的高计算成本限制了实际部署,例如生成高分辨率图像耗时过长。
- Method: GRAT将连续令牌分组,并限制键值令牌的结构化区域,以减少计算开销。
- Result: GRAT在生成8192×8192图像时实现35.8倍加速,且性能与完整注意力相当。
- Conclusion: GRAT为扩散Transformer的加速提供了有效方案,有望推动可扩展视觉生成的研究。
eess.IV
[94] GANCompress: GAN-Enhanced Neural Image Compression with Binary Spherical Quantization
Karthik Sivakoti
Main category: eess.IV
TL;DR: GANCompress是一种新型神经压缩框架,结合二进制球形量化(BSQ)和生成对抗网络(GAN),显著提升压缩效率和视觉质量。
- Motivation: 视觉数据的快速增长需要高效的压缩技术,现有方法在感知质量、计算效率和内容适应性方面存在挑战。
- Method: 采用基于变压器的自动编码器和增强的BSQ瓶颈,结合频率域注意力和颜色一致性优化的GAN架构。
- Result: GANCompress将文件大小减少100倍,感知指标优于H.264 12-15%,编码解码速度快2.4倍,FID降低43%。
- Conclusion: GANCompress在神经压缩技术上取得重大进展,适用于实时视觉通信系统。
[95] Learning Wavelet-Sparse FDK for 3D Cone-Beam CT Reconstruction
Yipeng Sun,Linda-Sophie Schneider,Chengze Ye,Mingxuan Gu,Siyuan Mei,Siming Bayer,Andreas Maier
Main category: eess.IV
TL;DR: 本文提出了一种改进的基于FDK算法的神经网络方法,通过选择性集成可训练元素,保持了传统算法的可解释性,同时利用小波变换减少参数数量,提升了性能。
- Motivation: FDK算法在CBCT重建中效率高但易受噪声和伪影影响,而现有深度学习方法虽提升图像质量却增加了计算复杂性和缺乏可解释性。
- Method: 在FDK的余弦加权和滤波阶段选择性集成可训练元素,并利用小波变换创建稀疏表示以减少参数数量。
- Result: 参数数量减少93.75%,性能未受影响,收敛速度加快,推理计算成本与经典FDK算法相当。
- Conclusion: 该方法在保持可解释性的同时提升了鲁棒性,适用于计算资源有限的环境,易于集成到现有CT重建流程中。
[96] Exploring Image Quality Assessment from a New Perspective: Pupil Size
Yixuan Gao,Xiongkuo Min,Guangtao Zhai
Main category: eess.IV
TL;DR: 研究探讨了图像质量评估(IQA)任务如何通过瞳孔大小影响人的认知过程,并分析了瞳孔大小与图像质量的关系。
- Motivation: 探索IQA任务对认知过程的影响,为客观IQA方法提供理论基础,并开发新的主观IQA方法。
- Method: 通过自由观察和IQA任务的对比实验,分析瞳孔大小变化。
- Result: 发现IQA任务激活视觉注意力机制,瞳孔变化与图像质量密切相关。
- Conclusion: 研究为客观IQA方法提供理论支持,并提出新的主观IQA方法。
[97] Automated Quality Evaluation of Cervical Cytopathology Whole Slide Images Based on Content Analysis
Lanlan Kang,Jian Wang,Jian QIn,Yiqin Liang,Yongjun He
Main category: eess.IV
TL;DR: 论文提出了一种基于人工智能算法的全自动宫颈细胞病理学全玻片图像质量评估方法,显著提高了评估速度和一致性。
- Motivation: 传统手动评估方法主观性强、成本高、耗时长且可靠性低,亟需一种自动化质量评估系统。
- Method: 结合TBS诊断标准、AI算法和临床数据特征,通过目标检测、分类和分割模型量化质量评估指标,并使用XGBoost模型综合评分。
- Result: 在100张全玻片图像上的实验表明,该方法在速度和一致性上具有显著优势。
- Conclusion: 该方法为宫颈癌筛查提供了一种高效、可靠的质量评估工具。
[98] XDementNET: An Explainable Attention Based Deep Convolutional Network to Detect Alzheimer Progression from MRI data
Soyabul Islam Lincoln,Mirza Mohd Shahriar Maswood
Main category: eess.IV
TL;DR: 本文提出了一种结合多残差块、空间注意力机制和分组查询注意力的深度学习架构,用于阿尔茨海默病的精确诊断,并在多个公开数据集上取得了高准确率。
- Motivation: 阿尔茨海默病的精确诊断需求日益增长,结合人工智能技术可提升诊断效率并降低医疗成本。
- Method: 采用深度卷积神经网络,结合多残差块、空间注意力块、分组查询注意力和多头注意力机制,评估了模型在多个数据集上的性能。
- Result: 在多个数据集上取得了高准确率,如4类分类99.66%,3类分类99.63%,二分类100%。
- Conclusion: 该模型在阿尔茨海默病诊断中表现出色,优于现有方法,并能从MRI图像中提取关键信息。
[99] Bronchovascular Tree-Guided Weakly Supervised Learning Method for Pulmonary Segment Segmentation
Ruijie Zhao,Zuopeng Tan,Xiao Xue,Longfei Zhao,Bing Li,Zicheng Liao,Ying Ming,Jiaru Wang,Ran Xiao,Sirong Piao,Rui Zhao,Qiqi Xu,Wei Song
Main category: eess.IV
TL;DR: 提出了一种基于解剖层次监督学习(AHSL)的弱监督学习方法,用于肺部段分割,结合临床解剖定义和支气管血管树信息,通过段级和叶级监督提升分割效果。
- Motivation: 肺部段分割对癌症定位和手术规划至关重要,但像素级标注耗时且边界难以区分。
- Method: 采用弱监督学习(WSL),设计基于解剖层次的损失函数,结合两阶段分割策略和一致性损失,优化边界平滑度。
- Result: 在私有数据集上的实验表明,该方法在视觉和评估指标上均表现有效。
- Conclusion: AHSL方法通过结合解剖层次监督和支气管血管先验信息,显著提升了肺部段分割的准确性和边界平滑度。
[100] End-to-end Cortical Surface Reconstruction from Clinical Magnetic Resonance Images
Jesper Duemose Nielsen,Karthik Gopinath,Andrew Hoopes,Adrian Dalca,Colin Magdamo,Steven Arnold,Sudeshna Das,Axel Thielscher,Juan Eugenio Iglesias,Oula Puonti
Main category: eess.IV
TL;DR: 提出了一种基于神经网络的皮质表面估计方法,适用于任意对比度和分辨率的临床MR扫描,显著降低了皮质厚度误差。
- Motivation: 现有皮质表面估计工具仅适用于特定分辨率和对比度的扫描,限制了其在临床MR扫描中的应用。
- Method: 使用合成域随机化数据训练神经网络,通过模板网格变形估计白质和灰质表面,确保拓扑正确性。
- Result: 与现有方法相比,皮质厚度误差减少约50%,并更好地恢复了与衰老相关的皮质变薄模式。
- Conclusion: 该方法为临床扫描提供了快速准确的表面重建,支持大规模研究和难以招募的临床人群分析。
[101] NOVA: A Benchmark for Anomaly Localization and Clinical Reasoning in Brain MRI
Cosmin I. Bercea,Jun Li,Philipp Raffler,Evamaria O. Riedel,Lena Schmitzer,Angela Kurz,Felix Bitzer,Paula Roßmüller,Julian Canisius,Mirjam L. Beyrle,Che Liu,Wenjia Bai,Bernhard Kainz,Julia A. Schnabel,Benedikt Wiestler
Main category: eess.IV
TL;DR: NOVA是一个用于极端测试模型在分布外泛化能力的评估基准,包含约900个脑MRI扫描,涵盖281种罕见病理和异构采集协议。
- Motivation: 现有基准测试通常仅针对常见异常类型,掩盖了模型在临床中罕见或全新条件下的失败,因此需要更真实的评估方法。
- Method: NOVA提供丰富的临床叙述和专家标注,用于联合评估异常定位、视觉描述和诊断推理能力。
- Result: 领先的视觉语言模型在NOVA上表现显著下降,表明其在处理真正未知异常时的局限性。
- Conclusion: NOVA为提升模型在检测、定位和推理未知异常方面的能力提供了严格的测试平台。
[102] Neural Video Compression with Context Modulation
Chuanbo Tang,Zhuoyuan Li,Yifan Bian,Li Li,Dong Liu
Main category: eess.IV
TL;DR: 论文提出了一种通过流导向和上下文补偿来优化神经视频编码器(NVC)中时间上下文传播的方法,显著提升了压缩性能。
- Motivation: 现有NVC在时间上下文传播中未能充分利用参考信息,限制了压缩性能的进一步提升。
- Method: 提出流导向挖掘参考帧与预测帧间的相关性,生成定向时间上下文;引入上下文补偿机制调制传播的时间上下文,并通过协同机制和去耦损失监督消除无关信息。
- Result: 实验表明,该方法比传统视频编码器H.266/VVC平均节省22.7%比特率,比现有最佳NVC DCVC-FM节省10.1%。
- Conclusion: 通过优化时间上下文传播,显著提升了NVC的压缩效率。
[103] Neural Inverse Scattering with Score-based Regularization
Yuan Gao,Wenhan Guo,Yu Sun
Main category: eess.IV
TL;DR: 论文提出了一种基于神经场(NF)和去噪评分函数的正则化方法,用于解决逆散射问题,相比现有方法提升了成像质量。
- Motivation: 逆散射问题是成像应用中的核心挑战,需要同时估计图像和散射场,因此需要有效的图像先验来正则化推断。
- Method: 采用神经场(NF)结合去噪评分函数的方法,利用神经场的灵活性进行联合估计,并通过去噪评分函数引入图像的结构先验。
- Result: 在高对比度模拟对象上的实验表明,该方法比基于总变分的现有NF方法具有更好的成像质量。
- Conclusion: 提出的方法通过结合神经场和去噪评分函数,有效提升了逆散射问题的成像质量。
[104] Automated Fetal Biometry Assessment with Deep Ensembles using Sparse-Sampling of 2D Intrapartum Ultrasound Images
Jayroop Ramesh,Valentin Bacher,Mark C. Eid,Hoda Kalabizadeh,Christian Rupprecht,Ana IL Namburete,Pak-Hei Yeung,Madeleine K. Wyburd,Nicola K. Dinsdale
Main category: eess.IV
TL;DR: 论文提出了一种自动化的胎儿生物测量流程,用于减少观察者间的变异性并提高测量可靠性,通过分类、分割和计算关键参数,取得了优异的性能指标。
- Motivation: 减少产程超声监测中因观察者差异导致的测量不一致性,提高胎儿头部位置监测的可靠性。
- Method: 提出三阶段流程:标准平面分类、胎儿头部和耻骨联合分割、AoP和HSD计算,采用稀疏采样和集成深度学习方法增强鲁棒性。
- Result: 在未见过的测试集上表现优异(ACC: 0.9452, F1: 0.9225等),显著提升了测量精度。
- Conclusion: 自动化流程有助于理解产程停滞原因,并为临床风险分层工具的开发提供支持。
cs.LG
[105] Model Steering: Learning with a Reference Model Improves Generalization Bounds and Scaling Laws
Xiyuan Wei,Ming Lin,Fanjiang Ye,Fengguang Song,Liangliang Cao,My T. Thai,Tianbao Yang
Main category: cs.LG
TL;DR: 本文提出了一种名为“模型引导”的学习范式,通过参考模型指导目标模型的训练,提升数据选择和加权的效率。作者提出了一种基于分布鲁棒优化的理论框架DRRho风险最小化,并首次提供了理论分析。实验验证了该方法的优越性。
- Motivation: 现有模型引导方法缺乏理论支持,导致性能不佳。本文旨在填补这一空白,提供理论框架和实践方法。
- Method: 提出DRRho风险最小化框架,基于分布鲁棒优化理论,并结合对比学习与DRO,设计了DRRho-CLIP方法。
- Result: 理论分析表明该方法提升了泛化能力和数据效率。实验验证了其优于无参考模型的CLIP和现有启发式方法。
- Conclusion: 本文首次为模型引导提供了理论支持,提出的DRRho框架和DRRho-CLIP方法在实践中表现出色。
[106] End-to-end fully-binarized network design: from Generic Learned Thermometer to Block Pruning
Thien Nguyen,William Guicquero
Main category: cs.LG
TL;DR: 论文提出了一种称为通用学习温度计(GLT)的编码技术,用于改进二元神经网络(BNN)的输入数据表示,并结合轻量级分组卷积和块剪枝技术,以实现轻量化和高精度。
- Motivation: 现有BNN研究主要关注模型权重和激活,而忽略了输入原始数据的优化。本文旨在通过GLT技术提升输入数据表示,并结合轻量化设计,实现高效且轻量的BNN模型。
- Method: 提出GLT技术,通过学习非线性量化阈值优化输入数据表示;结合轻量级分组卷积、块剪枝和知识蒸馏(KD)技术,进一步减小模型规模和计算复杂度。
- Result: 实验表明,GLT显著提升了BNN的准确性(在STL-10和VWW数据集上验证),结合块剪枝技术后,实现了轻量化(小于1Mb)且精度损失有限的完全二值化模型。
- Conclusion: GLT技术为BNN提供了输入数据优化的新思路,结合轻量化设计,适用于传感器端持续推理场景。
[107] Open Set Domain Adaptation with Vision-language models via Gradient-aware Separation
Haoyang Chen
Main category: cs.LG
TL;DR: 本文提出了一种利用CLIP模型解决开放集域适应问题的方法,通过动态调整文本提示和梯度分析模块,显著提升了性能。
- Motivation: 开放集域适应(OSDA)面临已知类别分布对齐和目标域未知类别识别的双重挑战,现有方法未能充分利用模态间的语义关系且易受未知样本检测误差累积的影响。
- Method: 1)基于域差异度量的可学习文本提示动态调整CLIP文本编码器;2)通过梯度分析模块量化域偏移,区分已知/未知样本的梯度行为。
- Result: 在Office-Home数据集上的实验表明,该方法显著优于CLIP基线和标准基线,梯度分析模块的作用得到验证。
- Conclusion: 该方法通过动态提示和梯度分析有效解决了开放集域适应问题,为未来研究提供了新思路。
[108] Breaking the Compression Ceiling: Data-Free Pipeline for Ultra-Efficient Delta Compression
Xiaohui Wang,Peng Ye,Chenyu Huang,Shenghe Zheng,Bo Zhang,Wanli Ouyang,Tao Chen
Main category: cs.LG
TL;DR: UltraDelta是一种无数据依赖的delta压缩方法,通过分层稀疏分配、分布感知压缩和全局重缩放,实现超高压缩比和强性能。
- Motivation: 解决现有delta压缩方法在存储多任务微调模型时无法同时实现高压缩和性能保持的问题。
- Method: 提出三种关键技术:基于方差的混合稀疏分配、分布感知压缩和迹范数引导的重缩放。
- Result: 在多种模型(语言、NLP、视觉、多模态)上实现超高压缩比(最高800x),性能优于现有方法。
- Conclusion: UltraDelta是一种高效、稳定的delta压缩解决方案,适用于多任务场景。
[109] FedCTTA: A Collaborative Approach to Continual Test-Time Adaptation in Federated Learning
Rakibul Hasan Rajib,Md Akil Raihan Iftee,Mir Sazzat Hossain,A. K. M. Mahbubur Rahman,Sajib Mistry,M Ashraful Amin,Amin Ahsan Ali
Main category: cs.LG
TL;DR: FedCTTA是一个隐私保护且计算高效的联邦学习测试时适应框架,通过相似性感知聚合和最小化熵实现持续适应,解决了现有方法的计算开销和隐私问题。
- Motivation: 联邦学习(FL)在隐私敏感应用中表现优异,但模型性能因训练与部署分布差异而下降。现有测试时适应(TTA)方法在FL中存在计算开销、隐私风险和可扩展性问题。
- Method: 提出FedCTTA框架,避免直接特征共享,利用模型输出分布对随机噪声样本的相似性感知聚合,同时最小化客户端熵以实现持续适应。
- Result: 实验表明,FedCTTA在时空异构场景下优于现有方法,无需服务器端训练且内存占用恒定。
- Conclusion: FedCTTA通过隐私保护和高效计算解决了FL中的适应问题,具有广泛适用性。
[110] Improving Compositional Generation with Diffusion Models Using Lift Scores
Chenning Yu,Sicun Gao
Main category: cs.LG
TL;DR: 提出了一种基于lift scores的重采样标准,用于改进扩散模型中的组合生成。
- Motivation: 通过lift scores评估生成样本是否满足单个条件,并组合结果以判断是否满足组合提示。
- Method: 利用原始扩散模型高效近似lift scores,无需额外训练或外部模块,并开发了计算开销较低的优化变体。
- Result: 实验表明,lift scores显著提高了组合生成的条件对齐效果,适用于2D合成数据、CLEVR位置任务和文本到图像合成。
- Conclusion: 该方法有效且高效,代码已开源。
[111] FlashKAT: Understanding and Addressing Performance Bottlenecks in the Kolmogorov-Arnold Transformer
Matthew Raffel,Lizhong Chen
Main category: cs.LG
TL;DR: FlashKAT通过优化内存访问和梯度累积,显著提升了KAT的训练速度,解决了其性能瓶颈问题。
- Motivation: KAT虽然FLOPs与传统Transformer相近,但训练速度慢123倍,限制了其应用。本文旨在找出并解决KAT的性能瓶颈。
- Method: 通过实验分析KAT的性能瓶颈,发现内存停滞和梯度累积效率低下是主要原因,提出FlashKAT优化内存访问和梯度累积。
- Result: FlashKAT实现了86.5倍的训练加速,并减少了系数梯度的舍入误差。
- Conclusion: FlashKAT有效解决了KAT的性能瓶颈,为大规模任务提供了更高效的解决方案。
[112] Adversarial Training from Mean Field Perspective
Soichiro Kumano,Hiroshi Kera,Toshihiko Yamasaki
Main category: cs.LG
TL;DR: 本文首次对随机深度神经网络的对抗训练进行了理论分析,提出了基于平均场理论的新框架,并推导了不同范数下对抗损失的紧上界,同时证明了无捷径网络的不可训练性及对抗训练对网络容量的影响。
- Motivation: 对抗训练的有效性已被证实,但其训练动态尚不明确,本文旨在填补这一理论空白。
- Method: 采用平均场理论框架,分析随机深度神经网络的对抗训练,推导对抗损失的紧上界,并研究网络结构的影响。
- Result: 证明了无捷径网络的不可训练性,对抗训练会降低网络容量,但网络宽度可以缓解这些问题。输入和输出维度对权重方差的时间演化有显著影响。
- Conclusion: 对抗训练的理论分析揭示了网络结构和维度对其动态的重要影响,为未来研究提供了新方向。
[113] Adversarially Pretrained Transformers may be Universally Robust In-Context Learners
Soichiro Kumano,Hiroshi Kera,Toshihiko Yamasaki
Main category: cs.LG
TL;DR: 研究表明,通过对抗性预训练的Transformer可以作为鲁棒的基础模型,无需在下游任务中进行对抗训练,但仍存在一些限制。
- Motivation: 解决对抗训练的高计算成本问题,探索预训练模型在多任务中的鲁棒性。
- Method: 利用对抗性预训练的Transformer进行上下文学习,无需参数更新即可泛化到未见任务。
- Result: 模型能鲁棒地泛化到多任务,但存在准确性与鲁棒性的权衡,且需要大量上下文示例。
- Conclusion: 对抗性预训练的Transformer具有潜力,但需注意其局限性。
[114] Textual Steering Vectors Can Improve Visual Understanding in Multimodal Large Language Models
Woody Haosheng Gan,Deqing Fu,Julian Asilis,Ollie Liu,Dani Yogatama,Vatsal Sharan,Robin Jia,Willie Neiswanger
Main category: cs.LG
TL;DR: 研究发现,通过文本引导向量可以高效提升多模态大语言模型(MLLMs)的性能,无需额外数据或计算开销。
- Motivation: 多模态大语言模型(MLLMs)缺乏有效的引导方法,研究探索是否可以利用其文本模型部分生成的向量来引导MLLMs。
- Method: 使用稀疏自编码器(SAEs)、均值漂移(mean shift)和线性探测(linear probing)从文本模型中提取向量,并应用于MLLMs。
- Result: 文本引导显著提升了MLLMs的多模态准确性,均值漂移在CV-Bench上空间关系准确性提升7.3%,计数准确性提升3.3%。
- Conclusion: 文本引导向量是一种高效且通用的方法,可增强MLLMs的接地性,适用于不同架构和任务。
[115] KERL: Knowledge-Enhanced Personalized Recipe Recommendation using Large Language Models
Fnu Mohbat,Mohammed J Zaki
Main category: cs.LG
TL;DR: KERL是一个结合食物知识图谱(KG)和大语言模型(LLM)的系统,用于个性化食物推荐和食谱生成,并提供营养信息。
- Motivation: 现有研究在整合食物相关KG与LLM方面有限,KERL旨在填补这一空白,提供更全面的解决方案。
- Method: KERL通过提取自然语言问题中的实体,从KG检索子图,并将其作为上下文输入LLM,生成满足约束的食谱及其营养信息。
- Result: 实验表明,KERL显著优于现有方法,提供完整的食物推荐、食谱生成和营养分析解决方案。
- Conclusion: KERL为食物理解和个性化推荐提供了高效、统一的系统,代码和数据集已开源。
cs.PF
[116] Towards Efficient Multi-Scale Deformable Attention on NPU
Chenghuan Huang,Zhigeng Xu,Chong Sun,Chen Li,Ziyang Ma
Main category: cs.PF
TL;DR: 提出了一种针对Ascend NPU架构的MSDA协同设计方法,显著提升了计算效率。
- Motivation: MSDA的随机访问网格采样策略在NPU等专用加速器上存在优化挑战。
- Method: 采用协同设计方法,重新设计内存访问和计算策略,支持高效的前向和反向计算。
- Result: 实验显示,相比基线方法,实现了最高5.9倍(前向)、8.9倍(反向)和7.3倍(端到端训练)的加速。
- Conclusion: 该方法显著提升了MSDA在NPU上的性能,适用于训练任务。
cs.CG
[117] EuLearn: A 3D database for learning Euler characteristics
Rodrigo Fritz,Pablo Suárez-Serrato,Victor Mijangos,Anayanzi D. Martinez-Hernandez,Eduardo Ivan Velazquez Richards
Main category: cs.CG
TL;DR: EuLearn是首个公平表示多种拓扑类型的表面数据集,通过随机结设计均匀变化的曲面,支持机器学习系统识别拓扑特征。
- Motivation: 为机器学习系统提供多样化的拓扑数据集,以提升其对拓扑特征的识别能力。
- Method: 利用随机结设计曲面,开发非欧几里得统计采样方法,并改进PointNet和Transformer架构。
- Result: 实验表明,结合拓扑信息的深度学习方法显著提升了分类性能。
- Conclusion: 拓扑信息的融入显著改善了深度学习在EuLearn数据集上的表现。
cs.GR
[118] Large-Scale Multi-Character Interaction Synthesis
Ziyi Chang,He Wang,George Alex Koulieris,Hubert P. H. Shum
Main category: cs.GR
TL;DR: 论文提出了一种生成大规模多角色交互动画的方法,解决了现有方法在交互合成和过渡规划上的不足。
- Motivation: 多角色交互动画在角色动画中具有挑战性和重要性,现有方法无法处理多角色间的紧密交互和过渡规划问题。
- Method: 提出了一种条件生成流水线,包括可协调的多角色交互空间和过渡规划网络。
- Result: 实验证明了该方法在多角色交互合成中的有效性,并展示了其可扩展性和可迁移性。
- Conclusion: 该方法为多角色交互动画提供了一种有效的解决方案,解决了数据缺乏和过渡规划的难题。
cs.CL
[119] Toward Effective Reinforcement Learning Fine-Tuning for Medical VQA in Vision-Language Models
Wenhui Zhu,Xuanzhao Dong,Xin Li,Peijie Qiu,Xiwen Chen,Abolfazl Razi,Aris Sotiras,Yi Su,Yalin Wang
Main category: cs.CL
TL;DR: 本文探讨了基于强化学习的多模态大语言模型(MLLMs)在医学视觉问答(VQA)中的调优问题,分析了四个关键维度,并证明GRPO方法优于标准监督微调。
- Motivation: 为了解决医学任务中模型行为与临床期望对齐的挑战,研究分析了影响RL调优效果的四个关键因素。
- Method: 通过实验分析了基础模型初始化策略、医学语义对齐、长度奖励对长链推理的影响以及偏见的角色。
- Result: GRPO强化学习调优在准确性和推理质量上均优于标准监督微调。
- Conclusion: 研究为医学MLLMs的领域特定微调提供了新见解,并验证了GRPO方法的优越性。
[120] EmoGist: Efficient In-Context Learning for Visual Emotion Understanding
Ronald Seoh,Dan Goldwasser
Main category: cs.CL
TL;DR: EmoGist是一种无需训练的上下文学习方法,通过预生成情感标签的多重解释,提升视觉情感分类的准确性。
- Motivation: 情感在图像中的表现高度依赖上下文且复杂,因此需要一种上下文相关的情感标签定义方法以提高分类准确性。
- Method: EmoGist通过分析每个情感类别的图像簇预生成多重解释,测试时基于嵌入相似性检索解释并输入快速视觉语言模型进行分类。
- Result: 实验表明,EmoGist在多标签Memotion数据集上微F1分数提升13点,在多类FI数据集上宏F1分数提升8点。
- Conclusion: EmoGist通过上下文相关的情感标签解释显著提升了视觉情感分类的性能。
stat.ML
[121] From stability of Langevin diffusion to convergence of proximal MCMC for non-log-concave sampling
Marien Renaud,Valentin De Bortoli,Arthur Leclaire,Nicolas Papadakis
Main category: stat.ML
TL;DR: 本文研究了非凸势能分布采样问题,证明了离散时间ULA在势能强凸假设下的稳定性,并首次证明了PSGLA在非凸势能下的收敛性。
- Motivation: 解决非凸和非光滑势能(如成像逆问题)的采样问题,提升算法的稳定性和收敛性。
- Method: 结合前向后向优化算法与ULA步骤,提出PSGLA,并利用Moreau包络性质证明其收敛性。
- Result: 实验验证PSGLA在合成数据和成像逆问题中表现优于SGLA,收敛更快且保留恢复特性。
- Conclusion: PSGLA在非凸势能下具有稳定性和高效性,适用于复杂采样问题。
eess.AS
[122] Direction-Aware Neural Acoustic Fields for Few-Shot Interpolation of Ambisonic Impulse Responses
Christopher Ick,Gordon Wichern,Yoshiki Masuyama,François Germain,Jonathan Le Roux
Main category: eess.AS
TL;DR: 本文提出了一种方向感知神经场(DANF),用于更精确地捕捉声场的定向特性,并通过Ambisonic格式的RIRs显式地结合方向信息。
- Motivation: 现有基于神经场的方法仅支持单声道全向或双耳听众,无法精确捕捉单点声场的定向特性。
- Method: 提出DANF模型,结合方向感知损失函数,并探索其在适应新房间时的能力,包括低秩适应。
- Result: DANF能够更精确地捕捉声场的定向特性,并适应不同房间环境。
- Conclusion: DANF为声场建模提供了更精确的方向感知能力,具有适应新房间的潜力。
[123] Scaling and Enhancing LLM-based AVSR: A Sparse Mixture of Projectors Approach
Umberto Cappellazzo,Minsu Kim,Stavros Petridis,Daniele Falavigna,Alessio Brutti
Main category: eess.AS
TL;DR: Llama-SMoP是一种高效的多模态大语言模型,通过稀疏混合投影器(SMoP)模块在不增加推理成本的情况下扩展模型容量,适用于资源受限环境。
- Motivation: 在资源受限环境中部署大型语言模型(LLM)时,高计算成本成为瓶颈,需要一种高效的多模态解决方案。
- Method: 提出Llama-SMoP,采用稀疏门控的专家混合(MoE)投影器,探索三种SMoP配置,其中DEDR(分离专家和路由器)表现最佳。
- Result: Llama-SMoP DEDR在ASR、VSR和AVSR任务中表现优异,验证了其在专家激活、可扩展性和噪声鲁棒性方面的有效性。
- Conclusion: Llama-SMoP通过SMoP模块实现了高效的多模态LLM,为资源受限环境提供了可行的解决方案。
cs.IR
[124] Bridge the Gap between Past and Future: Siamese Model Optimization for Context-Aware Document Ranking
Songhao Wu,Quan Tu,Mingjie Zhong,Hong Liu,Jia Xu,Jinjie Gu,Rui Yan
Main category: cs.IR
TL;DR: 论文提出了一种结合未来上下文信息的会话模型优化框架,通过历史条件模型和未来感知模型协同训练,提升文档排序性能。
- Motivation: 现有方法仅利用历史会话数据,难以捕捉用户意图的动态变化,因此探索整合未来上下文信息以改进文档排序。
- Method: 提出双模型框架(历史条件模型和未来感知模型),采用监督标签和伪标签协同训练,并引入动态门控机制的知识蒸馏方法。
- Result: 在基准数据集上,ForeRanker模型表现优于现有方法。
- Conclusion: 整合未来上下文信息能有效提升文档排序性能,动态门控机制解决了训练不一致问题。
cs.AI
[125] Two Experts Are All You Need for Steering Thinking: Reinforcing Cognitive Effort in MoE Reasoning Models Without Additional Training
Mengru Wang,Xingyu Chen,Yue Wang,Zhiwei He,Jiahao Xu,Tian Liang,Qiuzhi Liu,Yunzhi Yao,Wenxuan Wang,Ruotian Ma,Haitao Mi,Ningyu Zhang,Zhaopeng Tu,Xiaolong Li,Dong Yu
Main category: cs.AI
TL;DR: 论文提出了一种名为RICE的新方法,通过强化认知专家(cognitive experts)提升大型推理模型的性能,无需额外训练或复杂启发式方法。
- Motivation: 现有推理模型存在认知效率低的问题(如过度思考或思考不足),需要改进。
- Method: 利用归一化点间互信息(nPMI)识别并强化认知专家,优化推理过程。
- Result: 在多个基准测试中,RICE显著提高了推理准确性、认知效率和跨领域泛化能力。
- Conclusion: RICE是一种轻量级、实用且可解释的方法,能有效提升高级推理模型的认知效率。
Powered by Deepseek & arXiv Daily AI Enhanced