以下论文的arXiv类型标签包含:cs.CV
Powered by Deepseek & arXiv Daily AI Enhanced
cs.CV
[1] Dynamic Epsilon Scheduling: A Multi-Factor Adaptive Perturbation Budget for Adversarial Training
Alan Mitkiy,James Smith,Hana Satou,Hiroshi Tanaka,Emily Johnson,F Monkey
Main category: cs.CV
TL;DR: 论文提出了一种动态调整对抗训练扰动预算的方法(DES),通过结合决策边界距离、预测置信度和模型不确定性,显著提升了对抗鲁棒性和标准准确性。
- Motivation: 现有对抗训练方法依赖固定扰动预算,无法适应实例特定的鲁棒性特征,限制了其效果。
- Method: 提出动态epsilon调度(DES),结合梯度代理、softmax熵和蒙特卡洛dropout,动态调整每个实例和训练迭代的扰动预算。
- Result: 在CIFAR-10和CIFAR-100上,DES显著优于固定预算方法和现有自适应方法。
- Conclusion: DES为实例感知、数据驱动的对抗训练开辟了新方向,并提供了理论稳定性与收敛性分析。
[2] RSVP: Reasoning Segmentation via Visual Prompting and Multi-modal Chain-of-Thought
Yi Lu,Jiawang Cao,Yongliang Wu,Bozheng Li,Licheng Tang,Yangguang Ji,Chong Wu,Jay Wu,Wenbo Zhu
Main category: cs.CV
TL;DR: RSVP是一个两阶段框架,通过视觉提示将多模态推理与视觉分割结合,显著提升性能。
- Motivation: 解决多模态大语言模型(MLLMs)在视觉定位和分割上的不足,弥合认知推理与视觉感知的差距。
- Method: 采用两阶段结构:推理阶段生成区域建议,分割阶段通过视觉语言分割模块(VLSM)优化分割掩码。
- Result: 在ReasonSeg上提升6.5 gIoU和9.2 cIoU,SegInW上零样本设置达到49.7 mAP。
- Conclusion: RSVP为可解释的推理分割提供了新范式,验证了其有效性和可扩展性。
[3] Evaluating MLLMs with Multimodal Multi-image Reasoning Benchmark
Ziming Cheng,Binrui Xu,Lisheng Gong,Zuhe Song,Tianshuo Zhou,Shiqi Zhong,Siyu Ren,Mingxiang Chen,Xiangchao Meng,Yuxin Zhang,Yanlin Li,Lei Ren,Wei Chen,Zhiyuan Huang,Mingjie Zhan,Xiaojie Wang,Fangxiang Feng
Main category: cs.CV
TL;DR: MMRB是首个评估多图像结构化视觉推理的基准,包含92个子任务,覆盖空间、时间和语义推理,并展示了开源MLLM在多图像推理任务中显著落后于商业MLLM。
- Motivation: 现有MLLM基准主要关注单图像推理或多图像理解任务的最终答案评估,缺乏对多图像输入推理能力的深入探索。
- Method: 提出MMRB基准,包含92个子任务,采用GPT-4o生成的多解决方案和CoT风格注释,并设计句子级匹配框架支持快速评估。
- Result: 实验显示开源MLLM在多图像推理任务中显著落后于商业MLLM,且当前多模态奖励模型几乎无法处理多图像奖励排名任务。
- Conclusion: MMRB填补了多图像推理评估的空白,揭示了开源MLLM和多模态奖励模型的不足,为未来研究提供了方向。
[4] HuGeDiff: 3D Human Generation via Diffusion with Gaussian Splatting
Maksym Ivashechkin,Oscar Mendez,Richard Bowden
Main category: cs.CV
TL;DR: 论文提出了一种弱监督流程,通过生成可控属性的真实人类图像数据集,并结合基于Transformer的架构和点云扩散模型,显著提升了3D人类生成的效率、真实性和文本对齐性。
- Motivation: 当前3D人类生成方法在细节、真实性和可控性方面存在挑战,且缺乏多样化和标注数据。
- Method: 1. 使用图像扩散模型生成可控属性的真实人类图像数据集;2. 提出基于Transformer的架构将图像特征映射到3D点云;3. 训练点云扩散模型,以原始文本提示为条件。
- Result: 相比现有方法,实现了数量级的速度提升,并显著改善了文本对齐性、真实性和渲染质量。
- Conclusion: 该方法为3D人类生成提供了高效、可控且高质量的解决方案,代码和数据集将公开。
[5] ReXVQA: A Large-scale Visual Question Answering Benchmark for Generalist Chest X-ray Understanding
Ankit Pal,Jung-Oh Lee,Xiaoman Zhang,Malaikannan Sankarasubbu,Seunghyeon Roh,Won Jung Kim,Meesun Lee,Pranav Rajpurkar
Main category: cs.CV
TL;DR: ReXVQA是胸片视觉问答(VQA)的最大综合基准,包含约69.6万问题和16万胸片研究,评估了8种多模态大语言模型,其中MedGemma表现最佳(83.24%准确率),并首次在胸片解读上超越人类专家(77.27%)。
- Motivation: 为胸片视觉问答提供更全面和临床真实的任务集,超越传统模板化查询,推动AI系统模仿专家级临床推理。
- Method: 构建ReXVQA基准,包含多样化的临床任务,评估8种多模态大语言模型,并与3名放射科住院医师进行对比研究。
- Result: MedGemma模型表现最佳(83.24%准确率),首次超越人类专家(77.27%),并揭示了AI与人类专家的不同表现模式。
- Conclusion: ReXVQA为评估通用放射AI系统设定了新标准,为下一代AI系统奠定了基础,数据集将开源。
[6] WorldPrediction: A Benchmark for High-level World Modeling and Long-horizon Procedural Planning
Delong Chen,Willy Chung,Yejin Bang,Ziwei Ji,Pascale Fung
Main category: cs.CV
TL;DR: WorldPrediction是一个基于视频的基准测试,用于评估AI模型的世界建模和程序规划能力,强调具有时间和语义抽象的动作。
- Motivation: 当前AI模型(尤其是生成模型)如何学习世界模型并进行程序规划尚不明确,需要一种新的评估方法。
- Method: 通过区分正确动作或动作序列(从反事实干扰项中)来评估模型,使用视觉观察表示状态和动作,并提供“动作等效项”以避免低级别线索的利用。
- Result: 当前前沿模型在WorldPrediction-WM和WorldPrediction-PP上的准确率分别为57%和38%,而人类能完美完成任务。
- Conclusion: WorldPrediction为评估世界建模和规划能力提供了可靠基准,揭示了当前AI与人类能力的差距。
[7] Puck Localization Using Contextual Cues
Liam Salass,Jerrin Bright,Amir Nazemi,Yuhao Chen,John Zelek,David Clausi
Main category: cs.CV
TL;DR: PLUCC利用球员行为上下文线索进行冰球定位,通过多尺度特征和门控解码器提升检测性能。
- Motivation: 冰球在视频中检测困难,球员行为提供了强上下文线索。
- Method: PLUCC包含上下文编码器、特征金字塔编码器和门控解码器。
- Result: PLUCC在PuckDataset上表现优异,平均精度提升12.2%,RSLE提升25%。
- Conclusion: 上下文理解对冰球检测至关重要,对自动化体育分析有广泛意义。
[8] Fine-Tuning Video Transformers for Word-Level Bangla Sign Language: A Comparative Analysis for Classification Tasks
Jubayer Ahmed Bhuiyan Shawon,Hasan Mahmud,Kamrul Hasan
Main category: cs.CV
TL;DR: 该研究通过微调视频Transformer架构(VideoMAE、ViViT、TimeSformer)在BdSLW60和BdSLW401数据集上实现了高效的孟加拉手语识别,VideoMAE表现最佳。
- Motivation: 提高孟加拉手语(BdSL)识别的准确性和可扩展性,以改善听障人士的沟通无障碍性。
- Method: 使用视频Transformer模型,结合数据增强和分层交叉验证,在BdSLW60和BdSLW401数据集上进行训练和评估。
- Result: VideoMAE在BdSLW60上达到95.5%准确率,在BdSLW401上达到81.04%,显著优于传统方法。
- Conclusion: 视频Transformer模型在孟加拉手语识别中具有高效性和可扩展性,尤其VideoMAE表现突出。
[9] Visualizing and Controlling Cortical Responses Using Voxel-Weighted Activation Maximization
Matthew W. Shinkle,Mark D. Lescroart
Main category: cs.CV
TL;DR: 论文展示了如何通过激活最大化技术解释DNN编码模型,生成能预测大脑反应的图像,并验证其有效性。
- Motivation: 尽管DNN编码模型能预测大脑对视觉刺激的反应,但缺乏对驱动这些反应的具体特征的理解。
- Method: 使用预训练的Inception V3网络提取特征,通过线性回归预测fMRI反应,并应用激活最大化生成优化图像。
- Result: 生成的图像能可靠地驱动目标大脑区域的活动,且与已知选择性特征一致。
- Conclusion: 激活最大化技术可成功应用于DNN编码模型,为人类视觉系统的特征表征和调控提供了灵活方法。
[10] Is Perturbation-Based Image Protection Disruptive to Image Editing?
Qiuyu Tang,Bonor Ayambem,Mooi Choo Chuah,Aparna Bharati
Main category: cs.CV
TL;DR: 研究发现,现有的基于扰动的图像保护方法无法完全阻止扩散模型对图像的编辑,反而可能增强编辑效果。
- Motivation: 探讨扩散模型(如Stable Diffusion)在图像生成中的滥用风险,以及现有图像保护方法的有效性。
- Method: 通过实验评估多种基于扰动的图像保护方法在不同领域(自然场景图像和艺术作品)和编辑任务(图像到图像生成和风格编辑)中的表现。
- Result: 大多数情况下,受保护的图像仍能被扩散模型成功编辑,且扰动可能增强编辑效果。
- Conclusion: 基于扰动的方法不足以提供针对扩散模型编辑的鲁棒图像保护。
[11] Normalize Filters! Classical Wisdom for Deep Vision
Gustavo Perez,Stella X. Yu
Main category: cs.CV
TL;DR: 论文提出了一种滤波器归一化方法,通过可学习的缩放和平移,解决了深度学习卷积滤波器在图像大气传输中的失真问题,显著提升了性能。
- Motivation: 传统图像滤波器经过精心归一化以确保一致性和可解释性,而深度学习的卷积滤波器缺乏此类约束,导致在大气传输中响应失真,影响结果准确性。
- Method: 提出滤波器归一化方法,随后进行可学习的缩放和平移(类似于批归一化),确保滤波器具有大气等变性,实现共域对称性。
- Result: 该方法在人工和自然强度变化基准测试中表现显著提升,ResNet34甚至大幅超越CLIP。
- Conclusion: 未归一化的滤波器会降低性能,而滤波器归一化能规范学习、促进多样性,并提升鲁棒性和泛化能力。
[12] HMAR: Efficient Hierarchical Masked Auto-Regressive Image Generation
Hermann Kumbong,Xian Liu,Tsung-Yi Lin,Ming-Yu Liu,Xihui Liu,Ziwei Liu,Daniel Y. Fu,Christopher Ré,David W. Romero
Main category: cs.CV
TL;DR: HMAR是一种新的图像生成算法,通过改进VAR的并行生成问题,实现了更高质量的图像生成和更快的采样速度。
- Motivation: 解决VAR在并行生成时图像质量下降、序列长度超线性增长以及采样计划不可变的问题。
- Method: 引入分层掩码自回归建模(HMAR),采用马尔可夫过程和多步掩码生成技术。
- Result: 在ImageNet 256x256和512x512基准测试中,HMAR表现优于VAR、扩散模型和自回归基线,训练和推理速度分别提升2.5倍和1.75倍。
- Conclusion: HMAR不仅提高了图像生成质量与效率,还提供了采样计划的灵活性和零样本图像编辑能力。
[13] Photoreal Scene Reconstruction from an Egocentric Device
Zhaoyang Lv,Maurizio Monge,Ka Chen,Yufeng Zhu,Michael Goesele,Jakob Engel,Zhao Dong,Richard Newcombe
Main category: cs.CV
TL;DR: 本文研究了使用第一视角设备进行高动态范围场景真实感重建的挑战,提出通过视觉惯性束调整(VIBA)和高斯泼溅物理成像模型提升重建精度。
- Motivation: 现有方法通常假设使用设备视觉惯性里程计的帧率6DoF姿态估计,可能忽略像素级重建所需的关键细节。
- Method: 采用VIBA校准滚动快门RGB相机的时间戳和高频轨迹,并结合高斯泼溅的物理成像模型处理传感器特性。
- Result: 实验表明,VIBA提升PSNR 1 dB,物理成像模型再提升1 dB。
- Conclusion: 提出的方法显著提升了真实感重建的精度,适用于多种高斯泼溅表示。
[14] Towards Large-Scale Pose-Invariant Face Recognition Using Face Defrontalization
Patrik Mesec,Alan Jović
Main category: cs.CV
TL;DR: 论文提出了一种称为“面部去正面化”的方法,通过增强训练数据集来提高面部特征提取模型的性能,避免了推理时的额外时间开销。
- Motivation: 解决极端头部姿态下的人脸识别问题,避免现有方法在小数据集上的过拟合问题。
- Method: 1) 训练一个改进的面部去正面化模型(FFWM);2) 在大规模数据集上训练基于ArcFace损失的ResNet-50模型。
- Result: 在LFW、AgeDB、CFP数据集上优于现有方法,但在Multi-PIE极端姿态(75和90度)上表现不佳。
- Conclusion: 面部去正面化方法有效,但现有方法可能对小数据集过拟合。
[15] FALO: Fast and Accurate LiDAR 3D Object Detection on Resource-Constrained Devices
Shizhong Han,Hsin-Pai Cheng,Hong Cai,Jihad Masri,Soyeb Nagori,Fatih Porikli
Main category: cs.CV
TL;DR: FALO是一种硬件友好的LiDAR 3D检测方法,结合了SOTA精度和快速推理速度,适用于资源受限设备。
- Motivation: 现有方法因内存访问不规则和计算成本高,难以在边缘设备上运行。
- Method: FALO将稀疏3D体素排列为1D序列,通过ConvDotMix块(大核卷积、Hadamard积和线性层)处理,引入隐式分组以优化推理效率。
- Result: 在nuScenes和Waymo基准测试中表现优异,比最新SOTA快1.6~9.8倍。
- Conclusion: FALO高效且适用于嵌入式设备,为LiDAR 3D检测提供了实用解决方案。
[16] AuthGuard: Generalizable Deepfake Detection via Language Guidance
Guangyu Shen,Zhihua Li,Xiang Xu,Tianchen Zhao,Zheng Zhang,Dongsheng An,Zhuowen Tu,Yifan Xing,Qin Zhang
Main category: cs.CV
TL;DR: AuthGuard通过结合语言指导和视觉编码器,提升了深度伪造检测的泛化能力和准确性。
- Motivation: 现有深度伪造检测技术难以应对新出现的伪造方法,因为它们依赖于训练时学到的统计特征,而这些特征可能无法泛化到新的伪造方法。
- Method: 结合图像-文本对比学习和数据不确定性学习,训练视觉编码器,并与LLM结合,实现更泛化和可解释的检测。
- Result: AuthGuard在DFDC和DF40数据集上分别取得6.15%和16.68%的AUC提升,并在DDVQA数据集上提升24.69%的性能。
- Conclusion: AuthGuard通过语言指导和视觉-语言学习,显著提升了深度伪造检测的泛化能力和准确性。
[17] Pruning Everything, Everywhere, All at Once
Gustavo Henrique do Nascimento,Ian Pons,Anna Helena Reali Costa,Artur Jordao
Main category: cs.CV
TL;DR: 提出了一种同时剪枝神经元和层的新方法,通过表示相似性选择最优子网络,显著减少计算量并保持模型性能。
- Motivation: 解决深度学习模型复杂度高、计算成本大的问题,同时剪枝神经元和层以提升效率。
- Method: 通过表示相似性(Centered Kernel Alignment)选择最优子网络,迭代剪枝神经元和层。
- Result: 在高FLOPs减少下保持或提升模型性能,ResNet56和ResNet110分别实现86.37%和95.82%的FLOPs减少,碳减排达83.31%。
- Conclusion: 该方法在剪枝领域开辟了新方向,显著提升了计算效率和模型鲁棒性。
[18] EECD-Net: Energy-Efficient Crack Detection with Spiking Neural Networks and Gated Attention
Shuo Zhang
Main category: cs.CV
TL;DR: 提出EECD-Net多阶段检测方法,结合SRCNN、SCU和GAT模块,显著提升道路裂缝检测精度和能效。
- Motivation: 智能终端设备因能量有限和低分辨率成像难以实现实时监测,需提升检测精度和能效。
- Method: 采用SRCNN增强图像分辨率,SCU降低功耗,GAT模块融合多尺度特征。
- Result: 在CrackVision12K基准测试中,检测精度达98.6%,功耗降低33%。
- Conclusion: EECD-Net为资源受限环境提供了一种可扩展、低功耗的实时裂缝检测解决方案。
[19] Enhancing Frequency for Single Image Super-Resolution with Learnable Separable Kernels
Heng Tian
Main category: cs.CV
TL;DR: 提出了一种名为可学习可分离核(LSKs)的即插即用模块,通过直接增强图像频率成分来提升单图像超分辨率(SISR)性能,显著减少参数和计算量。
- Motivation: 现有方法通常通过间接方式(如特殊损失函数)提升SISR性能,而LSKs旨在直接优化频率成分,更高效地提升图像质量。
- Method: LSKs设计为秩一矩阵,可分解为正交且可合并的一维核,从而减少参数和计算量。通过频率视角分析其适用性,并进行特征图的可解释性分析。
- Result: 实验表明,LSKs减少60%以上的参数和计算量,同时提升模型性能,尤其在高放大因子下表现更优。
- Conclusion: LSKs是一种高效且有效的模块,可直接增强频率成分,显著提升SISR任务的性能并降低计算成本。
[20] Perceptual Decoupling for Scalable Multi-modal Reasoning via Reward-Optimized Captioning
Yunhao Gou,Kai Chen,Zhili Liu,Lanqing Hong,Xin Jin,Zhenguo Li,James T. Kwok,Yu Zhang
Main category: cs.CV
TL;DR: 论文提出RACRO方法,通过强化学习优化视觉提取器的描述生成,以支持多模态大语言模型的高效推理。
- Motivation: 解决多模态大语言模型中视觉与语言对齐的高成本问题,同时确保视觉描述对推理任务的充分支持。
- Method: 采用推理对齐的强化学习策略(RACRO),优化视觉提取器的描述生成,使其更符合推理需求。
- Result: 在数学和科学多模态基准测试中,RACRO方法表现最优,且无需昂贵的多模态重新对齐。
- Conclusion: RACRO方法显著提升了视觉与推理的对齐效果,具有高效性和可扩展性。
[21] LGM-Pose: A Lightweight Global Modeling Network for Real-time Human Pose Estimation
Biao Guo,Fangmin Guo,Guibo Luo,Xiaonan Luo,Feng Zhang
Main category: cs.CV
TL;DR: 提出了一种轻量级全局建模网络(LGM-Pose),通过单分支结构和创新模块设计,解决了多分支CNN网络在全局上下文捕捉和高延迟上的问题。
- Motivation: 当前多分支CNN网络在多人姿态估计中难以捕捉全局上下文且存在高延迟,需改进。
- Method: 设计了轻量级MobileViM Block和LARM模块,结合NPT-Op提取全局信息;引入SFusion模块整合多尺度信息。
- Result: 在COCO和MPII数据集上,参数更少且性能更优,处理速度更快。
- Conclusion: LGM-Pose通过单分支结构和创新模块,显著提升了轻量级姿态估计的性能和效率。
[22] Follow-Your-Creation: Empowering 4D Creation through Video Inpainting
Yue Ma,Kunyu Feng,Xinhua Zhang,Hongyu Liu,David Junhao Zhang,Jinbo Xing,Yinhan Zhang,Ayden Yang,Zeyu Wang,Qifeng Chen
Main category: cs.CV
TL;DR: Follow-Your-Creation是一个新颖的4D视频生成与编辑框架,通过视频修复模型作为生成先验,将4D视频创建转化为视频修复任务。
- Motivation: 解决从单目视频生成和编辑4D内容的需求,同时保持多视角一致性和时间连续性。
- Method: 利用深度点云渲染生成不可见区域掩码,结合用户编辑掩码构建复合掩码数据集,并通过自迭代调优策略增强模型鲁棒性。
- Result: 生成的4D视频具有多视角一致性和高质量,支持基于提示的内容编辑,性能优于现有方法。
- Conclusion: 该方法有效利用基础模型的先验知识,实现了灵活且高质量的4D视频生成与编辑。
[23] Hierarchical-Task-Aware Multi-modal Mixture of Incremental LoRA Experts for Embodied Continual Learning
Ziqi Jia,Anmin Wang,Xiaoyang Qu,Xiaowen Yang,Jianzong Wang
Main category: cs.CV
TL;DR: 提出了一种分层持续学习方法(HEC),通过任务感知的LoRA专家混合方法(Task-aware MoILE)解决高、低层知识学习问题,并有效减少灾难性遗忘。
- Motivation: 现有持续学习方法忽视高层规划和多级知识学习,需改进。
- Method: 分层学习(高、低层指令),任务感知LoRA专家混合,SVD保留关键参数。
- Result: 实验显示方法显著减少旧任务遗忘,支持持续学习。
- Conclusion: HEC和Task-aware MoILE有效提升持续学习能力,减少遗忘。
[24] SmartAvatar: Text- and Image-Guided Human Avatar Generation with VLM AI Agents
Alexander Huang-Menders,Xinhang Liu,Andy Xu,Yuyao Zhang,Chi-Keung Tang,Yu-Wing Tai
Main category: cs.CV
TL;DR: SmartAvatar是一个基于视觉-语言-智能体的框架,通过单张照片或文本提示生成完全绑定、可动画的3D人体化身。
- Motivation: 现有扩散模型在3D人体化身生成中难以精确控制身份、体型和动画准备度,SmartAvatar旨在解决这一问题。
- Method: 结合大型视觉语言模型(VLMs)和现成参数化人体生成器,通过自主验证循环迭代优化生成参数。
- Result: 生成的化身质量高、可定制,支持姿势操作,在网格质量、身份保真度和动画准备度上优于现有方法。
- Conclusion: SmartAvatar是一个适用于消费级硬件的多功能工具,可实现高质量、可定制的化身生成。
[25] Perfecting Depth: Uncertainty-Aware Enhancement of Metric Depth
Jinyoung Jun,Lei Chu,Jiahao Li,Yan Lu,Chang-Su Kim
Main category: cs.CV
TL;DR: 提出了一种名为Perfecting Depth的两阶段传感器深度增强框架,结合随机扩散模型和确定性细化,提升深度图可靠性。
- Motivation: 解决传感器深度图中不可靠区域的自动检测与几何结构保留问题,提升深度图质量。
- Method: 第一阶段(随机估计)利用训练-推理域差距识别不可靠区域并推断几何结构;第二阶段(确定性细化)基于不确定性图强制结构一致性和像素级精度。
- Result: 实验证明该方法在多种真实场景中有效,生成密集、无伪影的深度图。
- Conclusion: 该框架为传感器深度增强设定了新基准,适用于自动驾驶、机器人和沉浸式技术。
[26] Deep Learning Reforms Image Matching: A Survey and Outlook
Shihua Zhang,Zizhuo Li,Kaining Zhang,Yifan Lu,Yuxin Deng,Linfeng Tang,Xingyu Jiang,Jiayi Ma
Main category: cs.CV
TL;DR: 本文综述了深度学习如何逐步改变传统的图像匹配流程,包括替换和合并步骤,并评估了代表性方法,最后讨论了未来研究方向。
- Motivation: 传统图像匹配流程在复杂场景中表现不佳,深度学习显著提升了其鲁棒性和准确性,本文旨在系统分析这一转变。
- Method: 通过分类和评估深度学习驱动的策略,包括替换传统流程中的步骤(如可学习的检测器-描述符)和合并步骤为端到端模块(如稀疏匹配器)。
- Result: 在相对位姿恢复、单应性估计和视觉定位任务上对代表性方法进行了基准测试。
- Conclusion: 深度学习为图像匹配带来了显著改进,但仍存在挑战,未来研究应关注进一步创新。
[27] Unfolding Spatial Cognition: Evaluating Multimodal Models on Visual Simulations
Linjie Li,Mahtab Bigverdi,Jiawei Gu,Zixian Ma,Yinuo Yang,Ziang Li,Yejin Choi,Ranjay Krishna
Main category: cs.CV
TL;DR: STARE是一个评估多模态大语言模型在空间认知任务中表现的基准,涵盖几何变换、空间推理和现实场景任务。模型在简单2D任务表现良好,但在复杂3D任务中接近随机水平,且视觉模拟对模型提升有限。
- Motivation: 现有AI基准主要关注语言推理,忽视了非语言、多步视觉模拟的复杂性。STARE旨在填补这一空白,评估模型在空间认知任务中的能力。
- Method: STARE包含4K任务,涵盖2D/3D几何变换、立方体折叠、七巧板等空间推理任务,以及现实场景的空间导航。通过对比人类和模型表现,分析视觉模拟的作用。
- Result: 模型在简单2D任务表现优秀,但在复杂3D任务(如立方体折叠、七巧板)中接近随机水平。人类通过视觉模拟显著提速,而模型提升有限甚至表现下降。
- Conclusion: STARE揭示了模型在复杂空间认知任务中的局限性,尤其是利用视觉模拟的能力不足,为未来研究提供了方向。
[28] Text-Aware Real-World Image Super-Resolution via Diffusion Model with Joint Segmentation Decoders
Qiming Hu,Linlong Fan,Yiyan Luo,Yuhang Yu,Xiaojie Guo,Qingnan Fan
Main category: cs.CV
TL;DR: TADiSR是一种基于扩散模型的超分辨率框架,通过文本感知注意力和联合分割解码器,显著提升真实世界图像中文本区域的结构保真度和可读性。
- Motivation: 生成模型在图像超分辨率中表现优异,但常导致文本结构失真,因此需要一种能同时恢复自然细节和文本结构的方法。
- Method: 提出TADiSR框架,结合文本感知注意力和联合分割解码器,并设计合成高质量图像的全流程。
- Result: 实验表明,TADiSR在超分辨率图像中显著提升文本可读性,并在多项指标上达到最优性能。
- Conclusion: TADiSR在真实场景中表现出强大的泛化能力,代码已开源。
[29] FPSAttention: Training-Aware FP8 and Sparsity Co-Design for Fast Video Diffusion
Akide Liu,Zeyu Zhang,Zhexin Li,Xuehai Bai,Yizeng Han,Jiasheng Tang,Yuanjie Xing,Jichao Wu,Mingyang Yang,Weihua Chen,Jiahao He,Yuanyu He,Fan Wang,Gholamreza Haffari,Bohan Zhuang
Main category: cs.CV
TL;DR: FPSAttention是一种结合FP8量化和稀疏化的训练感知协同设计方法,用于视频生成,显著提升推理速度而不损失生成质量。
- Motivation: 扩散生成模型推理速度慢且计算需求高,限制了实际部署。现有方法中量化和稀疏化的简单结合会导致性能下降。
- Method: 提出FPSAttention,包括统一的3D分块粒度、去噪步骤感知策略和硬件友好的内核实现。
- Result: 在1.3B和14B模型上测试,FPSAttention实现了7.09倍注意力操作加速和4.96倍端到端视频生成加速。
- Conclusion: FPSAttention通过联合优化量化和稀疏化,显著提升了视频生成的效率,同时保持了生成质量。
[30] Feature-Based Lie Group Transformer for Real-World Applications
Takayuki Komatsu,Yoshiyuki Ohmura,Kayato Nishitsunoi,Yasuo Kuniyoshi
Main category: cs.CV
TL;DR: 论文提出了一种结合特征提取和对象分割的方法,将群分解理论应用于更现实的场景,以解决传统表示学习无法处理条件独立性的问题。
- Motivation: 传统表示学习假设解耦的独立特征轴是好的表示,但无法解释条件独立性。本文旨在通过群分解理论改进表示学习,使其更适用于现实世界。
- Method: 提出了一种新方法,将像素平移替换为特征平移,并将对象分割定义为同一变换下的特征分组,结合了特征提取和对象分割。
- Result: 在包含真实世界对象和背景的数据集上验证了方法的有效性。
- Conclusion: 该方法有望更好地理解人类在现实世界中的对象识别发展。
[31] Interpretable Few-Shot Image Classification via Prototypical Concept-Guided Mixture of LoRA Experts
Zhong Ji,Rongshuai Wei,Jingren Liu,Yanwei Pang,Jungong Han
Main category: cs.CV
TL;DR: 提出了一种Few-Shot Prototypical Concept Classification (FSPCC)框架,通过参数高效适应和多层次特征融合,解决了数据稀缺场景下自解释模型的性能问题。
- Motivation: 自解释模型(SEMs)在数据稀缺场景下表现不佳,主要由于参数不平衡和表示不对齐问题。
- Method: 结合Mixture of LoRA Experts (MoLE)实现参数高效适应,通过跨模块概念指导和几何感知概念判别损失优化表示对齐和概念分离。
- Result: 在六个基准测试中,FSPCC显著优于现有SEMs,5-way 5-shot分类任务中相对提升4.2%-8.7%。
- Conclusion: FSPCC框架在提高准确性的同时增强了模型可解释性,为透明视觉识别系统提供了新思路。
[32] Gen-n-Val: Agentic Image Data Generation and Validation
Jing-En Huang,I-Sheng Fang,Tzuhsuan Huang,Chih-Yu Wang,Jun-Cheng Chen
Main category: cs.CV
TL;DR: Gen-n-Val是一种新型数据生成框架,利用Layer Diffusion、LLMs和VLLMs生成高质量的单对象掩码和多样化背景,显著减少无效数据并提升性能。
- Motivation: 解决计算机视觉任务中数据稀缺和标签噪声问题,当前合成数据生成方法存在多对象掩码、分割不准确和类别标签错误等缺陷。
- Method: Gen-n-Val包含两个代理:LD提示代理(LLM)优化提示生成高质量前景图像和掩码;数据验证代理(VLLM)过滤低质量数据。系统提示通过TextGrad优化,并使用图像协调技术整合多个实例。
- Result: 相比现有方法,Gen-n-Val将无效数据从50%降至7%,在COCO实例分割中提升1% mAP,开放词汇检测中提升7.1% mAP。
- Conclusion: Gen-n-Val显著提升了合成数据的质量和模型性能,适用于实例分割和对象检测任务。
[33] MARS: Radio Map Super-resolution and Reconstruction Method under Sparse Channel Measurements
Chuyun Deng,Na Liu,Wei Xie,Lianming Xu,Li Wang
Main category: cs.CV
TL;DR: MARS是一种结合CNN和Transformer的多尺度感知无线电地图超分辨率方法,通过多尺度特征融合和残差连接提升重建精度。
- Motivation: 传统插值和修复方法缺乏环境感知,而深度学习依赖详细场景数据,限制了泛化能力。
- Method: 结合CNNs和Transformers,采用多尺度特征融合和残差连接,关注全局和局部特征提取。
- Result: 在不同场景和天线位置实验中,MARS在MSE和SSIM上优于基线模型,计算成本低。
- Conclusion: MARS展示了强大的实际应用潜力,能够高效准确地重建无线电地图。
[34] HoliSafe: Holistic Safety Benchmarking and Modeling with Safety Meta Token for Vision-Language Model
Youngwan Lee,Kangsan Kim,Kwanyong Park,Ilcahe Jung,Soojin Jang,Seanie Lee,Yong-Ju Lee,Sung Ju Hwang
Main category: cs.CV
TL;DR: 论文提出了HoliSafe数据集和SafeLLaVA模型,解决了现有视觉语言模型(VLM)安全性的不足,通过更全面的数据集和创新的架构设计提升模型安全性。
- Motivation: 现有VLM安全性方法存在两个主要问题:数据集覆盖不全面,且缺乏架构创新。
- Method: 提出HoliSafe数据集,涵盖五种安全/不安全图像-文本组合;设计SafeLLaVA模型,引入可学习的安全元标记和安全头。
- Result: SafeLLaVA在多个VLM基准测试中达到最优安全性能,HoliSafe数据集揭示了现有模型的漏洞。
- Conclusion: HoliSafe和SafeLLaVA为VLM安全性研究提供了新方向,推动多模态对齐的进一步发展。
[35] Line of Sight: On Linear Representations in VLLMs
Achyuta Rajaram,Sarah Schwettmann,Jacob Andreas,Arthur Conmy
Main category: cs.CV
TL;DR: 研究探索了多模态语言模型LlaVA-Next中图像概念的表示方式,发现线性可解码特征存在于残差流中,并通过编辑模型输出验证其因果性。训练稀疏自编码器以增加特征多样性,发现跨模态表示在深层逐渐共享。
- Motivation: 理解多模态模型如何在隐藏激活中表示图像概念,并探索其跨模态特征的共享机制。
- Method: 使用LlaVA-Next模型,分析其残差流中的线性可解码特征,通过编辑输出验证因果性,并训练稀疏自编码器以增加特征多样性。
- Result: 发现ImageNet类别的线性可解码特征存在于残差流中,跨模态表示在深层逐渐共享。
- Conclusion: 多模态模型的图像表示具有线性可解码性和因果性,深层网络中的跨模态特征共享性增强。
[36] Robust Few-Shot Vision-Language Model Adaptation
Hanxin Wang,Tian Liu,Shu Kong
Main category: cs.CV
TL;DR: 论文研究了预训练视觉语言模型(VLM)在少样本适应中的鲁棒性问题,提出了一种新的方法SRAPF,显著提升了分布内(ID)和分布外(OOD)的准确率。
- Motivation: 预训练VLM在少样本适应中表现优异,但在面对OOD数据时性能下降,因此需要提升其OOD泛化能力。
- Method: 通过比较不同适应方法(如提示调优、线性探测、对比微调等),发现部分微调视觉编码器效果最佳,并提出了结合检索增强和对抗扰动的SRAPF方法。
- Result: SRAPF在ImageNet OOD基准测试中实现了最先进的ID和OOD准确率。
- Conclusion: SRAPF通过两阶段微调方法,有效平衡了ID和OOD准确率,为少样本适应提供了新思路。
[37] Towards Holistic Visual Quality Assessment of AI-Generated Videos: A LLM-Based Multi-Dimensional Evaluation Model
Zelu Qi,Ping Shi,Chaoyang Zhang,Shuqi Wang,Fei Zhao,Da Pan,Zefeng Ying
Main category: cs.CV
TL;DR: 论文提出了一种基于多维度特征和大语言模型(LLM)的AI生成视频(AIGV)自动视觉质量评估方法,解决了AIGV中常见的视觉质量问题,并在NTIRE 2025挑战赛中取得第二名。
- Motivation: AIGV技术发展迅速,但其视觉质量缺陷(如噪声、模糊、帧抖动等)严重影响用户体验,亟需有效的自动质量评估方法以改进生成模型和内容监管。
- Method: 将AIGV视觉质量分解为技术质量、运动质量和视频语义三个维度,设计对应编码器提取特征,并引入LLM作为质量回归模块,结合多模态提示工程和LoRA微调技术优化模型性能。
- Result: 在NTIRE 2025挑战赛的AI生成视频质量评估赛道中取得第二名,验证了方法的有效性。
- Conclusion: 提出的多维度特征与LLM结合的方法能有效评估AIGV视觉质量,为内容监管和生成模型改进提供了实用工具。
[38] Learning dissection trajectories from expert surgical videos via imitation learning with equivariant diffusion
Hongyu Wang,Yonghao Long,Yueyao Chen,Hon-Chi Yip,Markus Scheppach,Philip Wai-Yan Chiu,Yeung Yam,Helen Mei-Ling Meng,Qi Dou
Main category: cs.CV
TL;DR: 本文提出了一种名为iDPOE的新方法,通过隐式扩散策略和等变表示改进内窥镜黏膜下剥离术(ESD)视频中的轨迹预测,以提升手术技能训练效果。
- Motivation: ESD视频中的轨迹预测对手术技能训练有重要意义,但目前研究不足,且现有模仿学习方法在处理不确定性和几何对称性时存在挑战。
- Method: 提出iDPOE方法,结合扩散模型和等变表示,通过联合状态动作分布建模专家行为,并采用前向过程引导的动作推理策略。
- Result: 在近2000个ESD视频片段上的实验表明,iDPOE在轨迹预测上优于现有方法。
- Conclusion: iDPOE是首个将模仿学习应用于ESD手术技能训练的方法,显著提升了预测准确性和泛化能力。
[39] Using In-Context Learning for Automatic Defect Labelling of Display Manufacturing Data
Babar Hussain,Qiang Liu,Gang Chen,Bihai She,Dahai Yu
Main category: cs.CV
TL;DR: 本文提出了一种基于AI的自动标注系统,用于显示面板缺陷检测,结合上下文学习能力,显著提升了标注效率和模型性能。
- Motivation: 减少工业检测系统中手动标注的工作量,提高缺陷检测的效率和准确性。
- Method: 采用并改进SegGPT架构,引入基于涂鸦的标注机制,采用两阶段训练方法。
- Result: 在工业数据集上验证,平均IoU提升0.22,召回率提高14%,自动标注覆盖率达60%。
- Conclusion: 自动标注数据训练的模型性能与人工标注数据相当,为工业检测提供了实用解决方案。
[40] Bridging Annotation Gaps: Transferring Labels to Align Object Detection Datasets
Mikhail Kennerley,Angelica Alives-Reviro,Carola-Bibiane Schönlieb,Robby T. Tan
Main category: cs.CV
TL;DR: LAT是一种标签对齐转移框架,通过伪标签生成和语义特征融合,解决多数据集间的标签语义和空间不一致问题,提升目标检测性能。
- Motivation: 多数据集结合可提升泛化性,但标签语义和标注框不一致阻碍了其应用。现有方法需共享标签分类或手动重标,难以满足固定目标标签空间的需求。
- Method: LAT通过训练数据集特定检测器生成伪标签,结合特权提案生成器(PPG)和语义特征融合(SFF)模块,实现标签空间的对齐和特征优化。
- Result: LAT在多个基准测试中显著提升目标域检测性能,最高提升+4.8AP。
- Conclusion: LAT无需共享标签空间或手动标注,有效解决了标签和空间不一致问题,适用于异构数据集的目标检测任务。
[41] SRD: Reinforcement-Learned Semantic Perturbation for Backdoor Defense in VLMs
Shuhan Xu,Siyuan Liang,Hongling Zheng,Yong Luo,Aishan Liu,Dacheng Tao
Main category: cs.CV
TL;DR: 论文提出了一种名为Semantic Reward Defense(SRD)的强化学习框架,用于防御视觉语言模型(VLMs)中的后门攻击,无需预先知道触发器的信息。
- Motivation: 视觉语言模型在图像描述任务中表现优异,但易受后门攻击,攻击者通过注入微小扰动控制模型生成恶意描述。现有方法难以检测和防御这类隐蔽且跨模态的攻击。
- Method: 提出SRD框架,利用深度Q网络学习对敏感图像区域施加离散扰动(如遮挡、颜色掩码),并通过语义保真度评分作为奖励信号,引导模型生成鲁棒且准确的描述。
- Result: 实验表明,SRD将攻击成功率降至5.6%,同时在干净输入上保持描述质量,性能下降低于10%。
- Conclusion: SRD为多模态生成模型中的隐蔽后门威胁提供了一种无需触发器先验知识、可解释的防御范式。
[42] Physics Informed Capsule Enhanced Variational AutoEncoder for Underwater Image Enhancement
Niki Martinel,Rita Pucci
Main category: cs.CV
TL;DR: 提出了一种新颖的双流架构,通过结合物理模型和胶囊聚类特征学习,实现了水下图像增强的先进性能。
- Motivation: 解决水下图像增强中物理模型与语义特征结合的挑战,提升增强效果并降低计算复杂度。
- Method: 采用双流架构,分别估计传输图和背景光,并通过胶囊聚类提取特征,结合物理约束和感知质量优化目标。
- Result: 在六个基准测试中,PSNR提升0.5dB,计算复杂度仅为现有方法的三分之一。
- Conclusion: 该方法在物理约束和计算效率方面表现优异,为水下图像增强提供了新思路。
[43] Truth in the Few: High-Value Data Selection for Efficient Multi-Modal Reasoning
Shenshen Li,Kaiyuan Deng,Lei Wang,Hao Yang,Chong Peng,Peng Yan,Fumin Shen,Heng Tao Shen,Xing Xu
Main category: cs.CV
TL;DR: 论文提出了一种名为RAP的数据选择范式,通过识别稀疏的认知样本来提升多模态推理能力,仅需9.3%的训练数据即可实现优于全数据集的性能,并减少43%的计算成本。
- Motivation: 传统认为多模态大语言模型(MLLMs)需要大量训练数据才能提升推理能力,但数据冗余和计算成本高。本文挑战这一假设,认为仅少数高价值样本(认知样本)能触发有效的多模态推理。
- Method: 提出RAP范式,通过两种互补的估计器(CDE和ACE)识别认知样本,并引入难度感知替换模块(DRM)增强数据复杂性。
- Result: 在六个数据集上的实验表明,RAP仅使用9.3%的训练数据即可实现更优性能,同时减少43%以上的计算成本。
- Conclusion: RAP证明了通过高效数据选择可以显著提升多模态推理能力,减少计算开销,为MLLMs的训练提供了新思路。
[44] Toward Better SSIM Loss for Unsupervised Monocular Depth Estimation
Yijun Cao,Fuya Luo,Yongjie Li
Main category: cs.CV
TL;DR: 本文提出了一种新的SSIM形式,通过加法而非乘法组合SSIM中的亮度、对比度和结构相似性组件,改进了无监督单目深度学习的训练效果。
- Motivation: 现有方法在训练损失中忽略了SSIM函数不同组件及其超参数的影响,导致性能受限。
- Method: 提出新的SSIM形式,用加法替代乘法组合组件,并优化参数组合。
- Result: 优化的SSIM损失函数在KITTI-2015数据集上显著优于基线。
- Conclusion: 新SSIM形式能生成更平滑的梯度,提升无监督深度估计性能。
[45] HypeVPR: Exploring Hyperbolic Space for Perspective to Equirectangular Visual Place Recognition
Suhan Woo,Seongwon Lee,Jinwoo Jang,Euntai Kim
Main category: cs.CV
TL;DR: HypeVPR是一种基于双曲空间的分层嵌入框架,用于解决P2E VPR的挑战,通过分层特征聚合和高效搜索策略,显著提升了检索速度和准确性。
- Motivation: 解决视觉地点识别(VPR)中因多视角查询图像带来的挑战,利用全景图像的层次结构特性。
- Method: 采用双曲空间表示层次特征关系,提出分层特征聚合机制和粗到细的搜索策略。
- Result: 在多个基准数据集上表现优于现有方法,检索速度提升5倍。
- Conclusion: HypeVPR通过双曲空间的分层嵌入和高效搜索策略,显著提升了VPR的性能和效率。
[46] Object-X: Learning to Reconstruct Multi-Modal 3D Object Representations
Gaia Di Lorenzo,Federico Tombari,Marc Pollefeys,Daniel Barath
Main category: cs.CV
TL;DR: Object-X是一个多模态3D对象表示框架,能够编码丰富的对象嵌入并解码为详细的几何和视觉重建,支持多种下游任务。
- Motivation: 现有方法通常依赖于任务特定的嵌入,无法同时解码为显式几何并跨任务重用。
- Method: 通过将捕获的模态几何地锚定在3D体素网格中,并学习融合体素与对象属性的非结构化嵌入。
- Result: 在真实数据集上,Object-X实现了高保真新视角合成,几何精度显著提升,存储需求大幅降低。
- Conclusion: Object-X是一种可扩展且实用的多模态3D场景表示解决方案。
[47] LotusFilter: Fast Diverse Nearest Neighbor Search via a Learned Cutoff Table
Yusuke Matsui
Main category: cs.CV
TL;DR: LotusFilter是一种后处理模块,用于多样化近似最近邻搜索(ANNS)结果,通过预计算邻近向量表快速删除冗余向量。
- Motivation: ANNS结果可能过于相似,而某些场景需要结果既相似又多样。
- Method: 预计算邻近向量表,过滤时贪心查找并删除冗余向量。
- Result: 在类似实际RAG应用中,LotusFilter运行速度快(0.02 ms/query)。
- Conclusion: LotusFilter高效且实用,代码已开源。
[48] SupeRANSAC: One RANSAC to Rule Them All
Daniel Barath
Main category: cs.CV
TL;DR: SupeRANSAC是一种新型统一的RANSAC管道,旨在提高计算机视觉任务中的鲁棒性估计性能,并在多个任务中显著优于现有方法。
- Motivation: 尽管RANSAC及其变体在几何模型估计中是黄金标准,但其性能在不同任务中表现不一致,且受实现细节影响较大。
- Method: 提出SupeRANSAC,一个统一的RANSAC管道,并详细分析了使其在特定视觉任务中有效的技术。
- Result: SupeRANSAC在多个任务中表现优异,例如在基础矩阵估计中平均提高6 AUC点。
- Conclusion: SupeRANSAC在多个视觉任务中显著提升了性能,为鲁棒性估计提供了更一致的解决方案。
[49] MegaHan97K: A Large-Scale Dataset for Mega-Category Chinese Character Recognition with over 97K Categories
Yuyi Zhang,Yongxin Shi,Peirong Zhang,Yixin Zhao,Zhenhua Yang,Lianwen Jin
Main category: cs.CV
TL;DR: 论文介绍了MegaHan97K数据集,支持最新GB18030-2022标准,包含97,455类汉字,解决了长尾分布问题,并揭示了超大类别识别的新挑战。
- Motivation: 中文大类别识别对文化遗产保护和数字应用至关重要,但现有数据集规模不足,无法满足需求。
- Method: 构建MegaHan97K数据集,包含手写、历史和合成三个子集,覆盖97,455类汉字。
- Result: 数据集支持GB18030-2022标准,解决了长尾分布问题,并揭示了存储需求增加、形近字识别和零样本学习等新挑战。
- Conclusion: MegaHan97K是OCR和模式识别领域类别最多的数据集,为未来研究提供了重要资源。
[50] Spike-TBR: a Noise Resilient Neuromorphic Event Representation
Gabriele Magrini. Federico Becattini,Luca Cultrera,Lorenzo Berlincioni,Pietro Pala,Alberto Del Bimbo
Main category: cs.CV
TL;DR: 提出了一种基于时间二进制表示(TBR)的事件流编码策略Spike-TBR,结合脉冲神经元增强抗噪能力,在噪声场景中表现优异。
- Motivation: 事件相机具有高时间分辨率、低延迟和动态范围等优势,但如何高效转换事件流以适应标准计算机视觉流程仍具挑战性,尤其是在噪声环境下。
- Method: 提出Spike-TBR,结合TBR的帧式优势与脉冲神经网络的噪声过滤能力,设计了四种不同脉冲神经元的变体。
- Result: 在多个数据集上验证,Spike-TBR在噪声场景中表现优异,且在干净数据上也有提升。
- Conclusion: Spike-TBR填补了脉冲与帧式处理的鸿沟,为事件驱动视觉应用提供了简单且抗噪的解决方案。
[51] Fool the Stoplight: Realistic Adversarial Patch Attacks on Traffic Light Detectors
Svetlana Pavlitska,Jamie Robb,Nikolai Polley,Melih Yazgan,J. Marius Zöllner
Main category: cs.CV
TL;DR: 该论文展示了如何通过打印的对抗性补丁攻击交通灯检测的CNN模型,提出了威胁模型和训练策略,并在真实场景中验证了攻击效果。
- Motivation: 现有研究较少关注交通灯检测器的对抗攻击,本文旨在填补这一空白。
- Method: 提出了一种威胁模型,通过在交通灯下方放置对抗性补丁,并设计了一种训练策略。
- Result: 实验证明了通用的对抗性补丁攻击成功,包括红绿灯标签翻转和图标分类攻击,并在真实场景中验证。
- Conclusion: 该研究展示了交通灯检测模型的脆弱性,为实际应用中的安全问题提供了警示。
[52] DualX-VSR: Dual Axial Spatial Temporal Transformer for Real-World Video Super-Resolution without Motion Compensation
Shuo Cao,Yihao Liu,Xiaohui Li. Yuanting Gao. Yu Zhou,Chao Dong
Main category: cs.CV
TL;DR: 论文提出DualX-VSR,一种新型双轴向时空注意力机制,用于解决视频超分辨率任务中传统Transformer模型的局限性,无需运动补偿即可实现高保真效果。
- Motivation: 现有Transformer模型在视频超分辨率任务中存在像素级精度不足、依赖光流对齐等问题,限制了其在实际应用中的表现。
- Method: 提出DualX-VSR模型,采用双轴向时空注意力机制,沿正交方向整合时空信息,简化结构并避免运动补偿。
- Result: DualX-VSR在真实世界视频超分辨率任务中表现出高保真和卓越性能。
- Conclusion: DualX-VSR通过创新的注意力机制,克服了传统Transformer模型的限制,为视频超分辨率提供了更优的解决方案。
[53] OpenMaskDINO3D : Reasoning 3D Segmentation via Large Language Model
Kunshen Zhang
Main category: cs.CV
TL;DR: OpenMaskDINO3D是一个用于3D理解和分割的LLM,通过处理点云数据和文本提示生成实例分割掩码,填补了3D推理分割的空白。
- Motivation: 现有感知系统在2D推理分割中表现优异,但缺乏3D推理分割的框架。OpenMaskDINO3D旨在解决这一问题,实现从自然语言指令直接生成精确的3D分割结果。
- Method: 引入SEG标记和对象标识符,处理点云数据和文本提示,生成高精度的3D分割掩码。
- Result: 在大规模ScanNet数据集上的实验验证了OpenMaskDINO3D的有效性。
- Conclusion: OpenMaskDINO3D为3D推理分割提供了高效解决方案,能够直接从自然语言指令生成精确的分割结果。
[54] Geological Field Restoration through the Lens of Image Inpainting
Vladislav Trifonov,Ivan Oseledets,Ekaterina Muravleva
Main category: cs.CV
TL;DR: 论文提出了一种基于张量补全的低秩全局结构方法,用于从稀疏观测数据中重建多维地质场,相比普通克里金法在重建精度上有显著提升。
- Motivation: 从稀疏观测数据中重建多维地质场是一个重要但具有挑战性的问题,传统方法如克里金法在精度上存在局限。
- Method: 结合张量补全和地质统计学,将部分观测的空间场建模为多维张量,并通过全局低秩结构恢复缺失值。
- Result: 在合成地质场上的实验表明,该方法在不同观测数据比例下均显著优于普通克里金法。
- Conclusion: 该方法为地质场重建提供了一种更精确的优化框架。
[55] Invisible Backdoor Triggers in Image Editing Model via Deep Watermarking
Yu-Feng Chen,Tzuhsuan Huang,Pin-Yen Chiu,Jun-Cheng Chen
Main category: cs.CV
TL;DR: 本文提出了一种新型的后门攻击框架,通过中毒训练数据在图像编辑过程中嵌入不可见触发器,利用现有水印模型实现攻击。
- Motivation: 扩散模型在图像生成和编辑中表现出色,但易受后门攻击。现有研究多关注图像生成,而图像编辑中的后门攻击研究较少,且常用可见触发器,实用性不足。
- Method: 利用现成的水印模型将不可见水印编码为后门触发器,通过中毒训练数据嵌入到图像编辑过程中。
- Result: 在不同水印模型上实验,攻击成功率显著,水印特性分析进一步验证了方法的有效性。
- Conclusion: 该方法成功实现了图像编辑中的不可见后门攻击,为相关领域提供了新的研究方向。
[56] Learning to Plan via Supervised Contrastive Learning and Strategic Interpolation: A Chess Case Study
Andrew Hamara,Greg Hamerly,Pablo Rivas,Andrew C. Freeman
Main category: cs.CV
TL;DR: 论文提出了一种基于直觉驱动的规划方法,通过对比学习训练Transformer编码器,将棋盘状态嵌入到潜在空间中,从而实现无需深度搜索的走子选择。
- Motivation: 现代国际象棋引擎依赖深度树搜索和回归评估,而人类玩家则依靠直觉选择候选走法。论文旨在模拟人类的直觉驱动规划过程。
- Method: 使用监督对比学习训练Transformer编码器,将棋盘状态嵌入到潜在空间中,距离反映评估相似性。走子选择通过向有利区域移动实现。
- Result: 模型仅使用6层束搜索,估计Elo评分为2593。性能随模型规模和嵌入维度提升,表明潜在规划可替代传统搜索。
- Conclusion: 该方法可推广到其他完美信息游戏,代码已开源。
[57] From Objects to Anywhere: A Holistic Benchmark for Multi-level Visual Grounding in 3D Scenes
Tianxu Wang,Zhuofan Zhang,Ziyu Zhu,Yue Fan,Jing Xiong,Pengxiang Li,Xiaojian Ma,Qing Li
Main category: cs.CV
TL;DR: Anywhere3D-Bench是一个新的3D视觉基准测试,涵盖四个不同层次的视觉定位任务,揭示了当前模型在空间级和部分级任务上的显著不足。
- Motivation: 探索3D场景中超越物体级别的视觉定位能力,填补现有研究的空白。
- Method: 提出Anywhere3D-Bench基准测试,评估多种3D视觉定位方法和大型语言模型在四个不同任务层次上的表现。
- Result: 空间级和部分级任务表现最差,最佳模型OpenAI o4-mini在空间级任务上准确率仅为23.57%,部分级任务为33.94%。
- Conclusion: 当前模型在3D场景的空间和部分级理解与推理能力存在明显不足,需进一步改进。
[58] Generating Synthetic Stereo Datasets using 3D Gaussian Splatting and Expert Knowledge Transfer
Filip Slezak,Magnus K. Gjerde,Joakim B. Haurum,Ivan Nikolov,Morten S. Laursen,Thomas B. Moeslund
Main category: cs.CV
TL;DR: 提出了一种基于3D高斯泼溅(3DGS)的立体数据集生成方法,相比NeRF方法更高效。通过结合显式3D表示重建的几何和FoundationStereo模型的深度估计,实现了零样本泛化性能的竞争力。
- Motivation: 探索低成本、高保真数据集生成方法,并快速微调立体模型,以提升零样本泛化性能。
- Method: 结合3DGS重建的几何和FoundationStereo的深度估计,通过专家知识转移生成数据集,并用于微调立体模型。
- Result: 3DGS生成的几何存在噪声,而FoundationStereo的视差估计更干净,性能更优。方法在零样本泛化基准中表现竞争力。
- Conclusion: 3DGS方法在低成本数据集生成和快速微调方面潜力显著,但在复杂场景下的鲁棒性仍需改进。
[59] Light and 3D: a methodological exploration of digitisation techniques adapted to a selection of objects from the Mus{é}e d'Arch{é}ologie Nationale
Antoine Laurent,Jean Mélou,Catherine Schwab,Rolande Simon-Millot,Sophie Féret,Thomas Sagory,Carole Fritz,Jean-Denis Durou
Main category: cs.CV
TL;DR: 本文探讨了文化遗产数字化中3D摄影方法的多样性,强调应根据对象特性和未来用途选择最适合的方法,而非追求绝对分类。
- Motivation: 文化遗产数字化已成为共识,但缺乏适用于所有对象的统一方法,需结合遗产与数字领域专家的意见。
- Method: 通过法国国家考古博物馆的藏品案例,分析不同3D数字化方法的适用性。
- Result: 研究表明,每种对象可能需要调整现有工具,单一方法不适用于所有情况。
- Conclusion: 应针对每个对象选择最适合的数字化工具,考虑其特性和数字孪生的未来用途。
[60] CzechLynx: A Dataset for Individual Identification and Pose Estimation of the Eurasian Lynx
Lukas Picek,Elisa Belotti,Michal Bojda,Ludek Bufka,Vojtech Cermak,Martin Dula,Rostislav Dvorak,Luboslav Hrdy,Miroslav Jirik,Vaclav Kocourek,Josefa Krausova,Jirı Labuda,Jakub Straka,Ludek Toman,Vlado Trulık,Martin Vana,Miroslav Kutal
Main category: cs.CV
TL;DR: CzechLynx是一个大规模、开放访问的数据集,用于欧亚猞猁的个体识别、2D姿态估计和实例分割,包含真实和合成图像,并定义了三种评估协议。
- Motivation: 为猞猁的个体识别、姿态估计和分割提供首个大规模数据集,支持跨时空域的模型泛化测试。
- Method: 收集30k真实相机陷阱图像并标注,生成100k合成图像,定义三种评估协议(地理感知、时间感知开放集和闭集)。
- Result: 数据集涵盖219个独特个体,覆盖15年监测数据,支持多样环境和姿态。
- Conclusion: CzechLynx将推动猞猁识别及相关领域的技术发展。
[61] Time-Lapse Video-Based Embryo Grading via Complementary Spatial-Temporal Pattern Mining
Yong Sun,Yipeng Wang,Junyu Shi,Zhiyuan Zhang,Yanmei Xiao,Lei Zhu,Manxi Jiang,Qiang Nie
Main category: cs.CV
TL;DR: 该论文提出了一种基于视频的胚胎分级新任务,利用全时长延时监测视频预测胚胎质量,并设计了互补时空模式挖掘框架(CoSTeM)来模拟胚胎学家的评估过程。
- Motivation: 当前的人工智能方法在胚胎选择中要么缺乏全面评估,要么受胚胎外因素干扰,限制了临床实用性。因此,作者提出直接利用延时监测视频进行胚胎分级的新任务。
- Method: 提出了CoSTeM框架,包含形态学分支(局部结构特征选择)和形态动力学分支(全局发育轨迹建模),结合静态和动态特征进行胚胎分级。
- Result: 实验结果表明,该方法在胚胎分级任务中表现优越。
- Conclusion: 该研究为AI辅助胚胎选择提供了方法论框架,数据集和源代码将公开。
[62] Robustness as Architecture: Designing IQA Models to Withstand Adversarial Perturbations
Igor Meleshin,Anna Chistyakova,Anastasia Antsiferova,Dmitriy Vatolin
Main category: cs.CV
TL;DR: 论文提出了一种通过设计而非数据驱动的方法来提高图像质量评估(IQA)模型的鲁棒性,通过正交信息流和规范保持操作来抑制敏感性。
- Motivation: 传统的数据驱动防御方法(如对抗训练)可能不足以解决IQA模型的不稳定性问题,论文探讨了通过设计模型结构来提升鲁棒性的可能性。
- Method: 通过强制正交信息流和规范保持操作来重塑模型内部结构,并结合剪枝和微调进一步稳定系统。
- Result: 提出了一种鲁棒的IQA架构,无需对抗训练即可抵御对抗攻击,且对原始模型改动较小。
- Conclusion: 论文建议从数据优化转向设计优化,将鲁棒性作为架构的先验条件。
[63] APVR: Hour-Level Long Video Understanding with Adaptive Pivot Visual Information Retrieval
Hong Gao,Yiming Bao,Xuezhan Tu,Bin Zhong,Minling Zhang
Main category: cs.CV
TL;DR: APVR框架通过分层视觉信息检索解决视频理解中的计算限制,无需训练即可处理小时级视频。
- Motivation: 当前视频多模态大语言模型因计算限制和长时序列信息提取效率低,难以处理小时级视频。
- Method: APVR包含两个组件:Pivot Frame Retrieval(语义扩展和多模态置信度评分)和Pivot Token Retrieval(查询感知的注意力驱动标记选择)。
- Result: 在LongVideoBench和VideoMME上验证,性能显著提升,达到SOTA结果。
- Conclusion: APVR为训练免费框架,支持即插即用集成现有MLLM架构。
[64] FEAT: Full-Dimensional Efficient Attention Transformer for Medical Video Generation
Huihan Wang,Zhiwen Yang,Hui Zhang,Dan Zhao,Bingzheng Wei,Yan Xu
Main category: cs.CV
TL;DR: FEAT是一种高效的全维度注意力Transformer,通过空间-时间-通道注意力机制、线性复杂度设计和残差值引导模块,解决了动态医学视频合成的挑战。
- Motivation: 现有Transformer方法在动态医学视频合成中存在通道交互不足、计算复杂度高和去噪指导粗糙的问题。
- Method: FEAT提出三种创新:1) 统一的空间-时间-通道注意力机制;2) 线性复杂度设计;3) 残差值引导模块。
- Result: FEAT-S参数仅为Endora的23%,性能相当或更优;FEAT-L在多个数据集上超越所有对比方法。
- Conclusion: FEAT在动态医学视频合成中表现出高效性和可扩展性。
[65] Bringing SAM to new heights: Leveraging elevation data for tree crown segmentation from drone imagery
Mélisande Teng,Arthur Ouaknine,Etienne Laliberté,Yoshua Bengio,David Rolnick,Hugo Larochelle
Main category: cs.CV
TL;DR: 论文比较了利用Segment Anything Model(SAM)和数字表面模型(DSM)进行无人机图像中树冠实例分割的方法,并提出了BalSAM模型,在特定场景下表现优于其他方法。
- Motivation: 传统森林监测方法成本高、耗时长,无人机遥感和计算机视觉技术为大规模个体树木监测提供了新可能。
- Method: 比较了SAM在三种森林类型中的树冠分割效果,并研究了DSM数据的集成。提出了BalSAM模型。
- Result: SAM直接使用效果不如定制Mask R-CNN,但结合DSM和端到端调优的SAM(BalSAM)在特定场景下表现更好。
- Conclusion: 端到端调优SAM和集成DSM数据是提升树冠分割模型性能的有效途径。
[66] TextVidBench: A Benchmark for Long Video Scene Text Understanding
Yangyang Zhong,Ji Qi,Yuan Yao,Pengxin Luo,Yunfeng Yan,Donglian Qi,Zhiyuan Liu,Tat-Seng Chua
Main category: cs.CV
TL;DR: 论文提出了TextVidBench,首个针对长视频文本问答的基准测试,解决了现有数据集视频时长短、评估范围窄的问题。
- Motivation: 现有短视频文本视觉问答(ViteVQA)数据集无法充分评估多模态大语言模型(MLLMs)的能力,尤其是长视频理解。
- Method: 1)跨领域长视频覆盖;2)三阶段评估框架;3)高质量细粒度标注。并提出改进大模型的方法:IT-Rope机制、非均匀位置编码和轻量级微调。
- Result: TextVidBench对现有模型提出显著挑战,所提方法在长视频文本理解能力上表现优异。
- Conclusion: TextVidBench为长视频文本问答提供了更真实的评估基准,所提方法为提升长视频理解能力提供了有效途径。
[67] Multi-scale Image Super Resolution with a Single Auto-Regressive Model
Enrique Sanchez,Isma Hadji,Adrian Bulat,Christos Tzelepis,Brais Martinez,Georgios Tzimiropoulos
Main category: cs.CV
TL;DR: 论文提出了一种基于视觉自回归(VAR)模型的图像超分辨率(ISR)方法,通过多尺度图像标记化和直接偏好优化(DPO)解决了现有方法的局限性,实现了单次前向传递的超分辨率,并在小模型和无外部数据的情况下达到SOTA效果。
- Motivation: 现有VARSR方法存在固定分辨率限制、依赖大规模模型和数据集的问题,论文旨在通过改进标记化和优化方法解决这些问题。
- Method: 提出两种新组件:1)多尺度图像标记化方法,强制跨尺度标记重叠;2)DPO正则化项,鼓励模型生成高分辨率标记。
- Result: 模型能在单次前向传递中完成超分辨率,使用小模型(300M参数)且无需外部数据,达到SOTA效果。
- Conclusion: 论文通过创新方法解决了VARSR的局限性,为ISR任务提供了更高效和实用的解决方案。
[68] PATS: Proficiency-Aware Temporal Sampling for Multi-View Sports Skill Assessment
Edoardo Bianchi,Antonio Liotta
Main category: cs.CV
TL;DR: PATS是一种新颖的视频采样策略,通过保留完整的基础动作片段,提升多视角技能评估的准确性。
- Motivation: 当前视频采样方法破坏了技能评估所需的时间连续性,无法有效区分专家与新手的表现。
- Method: 提出PATS策略,自适应分段视频以确保每个分析片段包含关键动作的完整执行,并在多片段中重复此过程。
- Result: 在EgoExo4D基准测试中,PATS在所有视角配置下均优于现有方法(+0.65%至+3.05%),在挑战性领域表现尤为突出(如攀岩+26.22%)。
- Conclusion: PATS能适应不同活动特性,是一种有效的自适应时间采样方法,推动了自动化技能评估的实际应用。
[69] Beyond Cropped Regions: New Benchmark and Corresponding Baseline for Chinese Scene Text Retrieval in Diverse Layouts
Gengluo Li,Huawen Shen,Yu Zhou
Main category: cs.CV
TL;DR: 该论文提出了一个针对中文场景文本检索的新模型CSTR-CLIP,通过结合全局视觉信息和多粒度对齐训练,显著提升了性能。
- Motivation: 中文场景文本检索因复杂多样的布局而极具挑战性,现有方法主要基于英文场景文本检索的解决方案,效果不佳。
- Method: 提出CSTR-CLIP模型,采用两阶段训练,结合全局视觉信息和多粒度对齐。
- Result: 在现有基准测试中,CSTR-CLIP比之前的最佳模型准确率提高了18.82%,且推理速度更快。
- Conclusion: CSTR-CLIP能有效处理多样化的文本布局,数据集和代码将公开以促进研究。
[70] Structure-Aware Radar-Camera Depth Estimation
Fuyi Zhang,Zhu Yu,Chunhao Li,Runmin Zhang,Xiaokai Bai,Zili Zhou,Si-Yuan Cao,Wang Wang,Hui-Liang Shen
Main category: cs.CV
TL;DR: 论文探讨了单目深度估计的进展,重点介绍了深度学习方法及其在未见领域泛化能力的挑战。
- Motivation: 单目深度估计的目标是从单目相机拍摄的RGB图像中确定每个像素的深度。深度学习的发展显著推动了这一领域,但泛化到未见领域仍具挑战性。
- Method: 研究采用了多尺度融合网络、将回归任务重新定义为分类问题、引入额外先验知识以及开发更有效的目标函数等方法。
- Result: Depth Anything在零样本单目深度估计中表现领先,尤其擅长从未见图像中提取结构信息,生成结构细节丰富的深度图。
- Conclusion: 尽管在度量深度估计上仍有不足,但Depth Anything在结构信息提取方面表现出色,为单目深度估计提供了新思路。
[71] Point Cloud Segmentation of Agricultural Vehicles using 3D Gaussian Splatting
Alfred T. Christiansen,Andreas H. Højrup,Morten K. Stephansen,Md Ibtihaj A. Sakib,Taman S. Poojary,Filip Slezak,Morten S. Laursen,Thomas B. Moeslund,Joakim B. Haurum
Main category: cs.CV
TL;DR: 提出了一种利用3D高斯泼溅和透明度场生成合成数据的新方法,用于训练点云分割模型,效果显著。
- Motivation: 真实点云数据获取和标注成本高,需开发低成本合成数据生成方法。
- Method: 结合3D高斯泼溅和透明度场生成农业车辆3D资产,模拟LiDAR生成点云数据。
- Result: PTv3模型在仅使用合成数据训练时mIoU达91.35%,部分场景优于真实数据训练模型。
- Conclusion: 合成数据可有效替代真实数据,且模型能泛化到未训练的语义类别。
[72] UAV4D: Dynamic Neural Rendering of Human-Centric UAV Imagery using Gaussian Splatting
Jaehoon Choi,Dongki Jung,Christopher Maxey,Yonghan Lee,Sungmin Eum,Dinesh Manocha,Heesung Kwon
Main category: cs.CV
TL;DR: 论文提出UAV4D框架,解决无人机单目视频动态场景重建问题,通过3D基础模型和人体网格重建模型,结合SMPL模型与背景网格,实现高质量渲染。
- Motivation: 现有动态神经渲染方法未针对无人机单目相机、俯视角和多小移动人体的独特挑战,且缺乏相关数据集。
- Method: 结合3D基础模型和人体网格重建模型,通过人体-场景接触点解决尺度模糊,利用SMPL模型和背景网格初始化高斯泼溅,实现整体渲染。
- Result: 在三个无人机数据集上测试,PSNR提升1.5 dB,视觉清晰度优于现有方法。
- Conclusion: UAV4D框架有效解决了无人机动态场景渲染问题,显著提升了渲染质量。
[73] Physical Annotation for Automated Optical Inspection: A Concept for In-Situ, Pointer-Based Trainingdata Generation
Oliver Krumpek,Oliver Heimann,Jörg Krüger
Main category: cs.CV
TL;DR: 本文提出了一种新型物理标注系统,用于为自动光学检测生成训练数据,通过指针交互直接捕捉物理轨迹,提高标注效率和准确性。
- Motivation: 传统屏幕标注方法效率低且不直观,无法充分利用人工检测经验。本文旨在通过物理交互方式将专家知识直接转化为机器学习训练数据。
- Method: 系统使用校准的跟踪指针记录用户输入,并通过投影界面提供视觉引导,将空间交互转化为标准化标注格式。
- Result: 初步评估证实了系统捕获详细标注轨迹的可行性,并与CVAT集成优化了后续机器学习任务的工作流程。
- Conclusion: 该系统填补了人工经验与自动化数据生成之间的空白,为非IT专家参与机器学习训练提供了可能,并提升了数据标注的效率和准确性。
[74] FlowDirector: Training-Free Flow Steering for Precise Text-to-Video Editing
Guangzhao Li,Yanming Yang,Chenxi Song,Chi Zhang
Main category: cs.CV
TL;DR: FlowDirector提出了一种无需反转的视频编辑框架,通过ODE引导视频在数据空间中平滑演化,保持时间一致性和结构细节,并结合注意力掩码和增强指导策略实现局部可控编辑。
- Motivation: 现有基于反转的方法在视频编辑中常导致时间不一致和结构退化,FlowDirector旨在解决这些问题。
- Method: 采用ODE引导视频在数据空间中演化,结合注意力掩码和增强指导策略实现局部可控编辑。
- Result: 实验表明FlowDirector在指令遵循、时间一致性和背景保留方面表现最优。
- Conclusion: FlowDirector为无需反转的高效连贯视频编辑提供了新范式。
[75] A Survey on Vietnamese Document Analysis and Recognition: Challenges and Future Directions
Anh Le,Thanh Lam,Dung Nguyen
Main category: cs.CV
TL;DR: 本文综述了越南文档分析与识别(DAR)的现状,探讨了传统OCR和深度学习方法在越南语文本识别中的局限性,并提出了利用大型语言模型(LLMs)和视觉语言模型改进该领域的新方向。
- Motivation: 越南语文本识别因复杂的变音符号、声调变化和缺乏大规模标注数据集而面临独特挑战,现有方法在泛化和数据稀缺问题上表现不佳。
- Method: 通过综述现有技术,分析传统OCR和深度学习方法的局限性,并探讨LLMs和视觉语言模型的应用潜力。
- Result: LLMs和视觉语言模型在文本识别和文档理解方面表现出显著改进,但仍需解决领域适应、多模态学习和计算效率等问题。
- Conclusion: 未来研究方向包括数据集开发、模型优化和多模态方法集成,以推动越南DAR领域的进步。
[76] SeedEdit 3.0: Fast and High-Quality Generative Image Editing
Peng Wang,Yichun Shi,Xiaochen Lian,Zhonghua Zhai,Xin Xia,Xuefeng Xiao,Weilin Huang,Jianchao Yang
Main category: cs.CV
TL;DR: SeedEdit 3.0显著提升了图像编辑指令跟随和内容保留能力,通过改进数据管道和联合学习框架,实现了56.1%的高可用率。
- Motivation: 提升图像编辑模型的指令跟随能力和内容保留效果,特别是在真实图像输入上。
- Method: 1. 改进数据管道,引入元信息嵌入策略;2. 提出联合学习框架,结合扩散损失和奖励损失。
- Result: 在测试基准上,SeedEdit 3.0实现了56.1%的可用率,优于前代和其他模型。
- Conclusion: SeedEdit 3.0在图像编辑任务中表现出色,平衡了多方面的需求。
[77] Interpretable Multimodal Framework for Human-Centered Street Assessment: Integrating Visual-Language Models for Perceptual Urban Diagnostics
HaoTian Lan
Main category: cs.CV
TL;DR: 论文提出了一种多模态街道评估框架(MSEF),结合视觉和语言模型,用于评估街道景观的客观和主观感知。
- Motivation: 传统街道指标无法充分捕捉主观感知,而主观感知对包容性城市设计至关重要。
- Method: 使用视觉变换器(VisualGLM-6B)和大型语言模型(GPT-4)构建MSEF,并通过LoRA和P-Tuning v2进行参数高效微调。
- Result: 模型在客观特征上F1得分为0.84,与居民感知的一致性达89.3%,并能捕捉上下文相关的矛盾和非线性模式。
- Conclusion: MSEF为城市感知建模提供了方法创新,并有助于规划系统平衡基础设施精确性与居民体验。
[78] FG 2025 TrustFAA: the First Workshop on Towards Trustworthy Facial Affect Analysis: Advancing Insights of Fairness, Explainability, and Safety (TrustFAA)
Jiaee Cheong,Yang Liu,Harold Soh,Hatice Gunes
Main category: cs.CV
TL;DR: 该研讨会旨在探讨情感AI面部情感分析(FAA)工具的信任问题,聚焦公平性、可解释性和安全性。
- Motivation: 随着FAA工具的广泛应用,其信任问题(如偏见、隐私)日益突出,需跨领域研究解决。
- Method: 通过研讨会形式,汇集研究者探讨FAA任务中的挑战,如微表情识别、动作单元检测等。
- Result: 推动FAA领域的信任研究,支持FG2025的伦理目标。
- Conclusion: 研讨会旨在促进FAA的信任性研究,为伦理和技术发展提供平台。
[79] Astraea: A GPU-Oriented Token-wise Acceleration Framework for Video Diffusion Transformers
Haosong Liu,Yuge Cheng,Zihan Liu,Aiyue Chen,Yiwu Yao,Chen Chen,Jingwen Leng,Yu Feng,Minyi Guo
Main category: cs.CV
TL;DR: ASTRAEA是一个自动框架,用于优化视频扩散变压器(vDiT)的配置,通过轻量级令牌选择和高效稀疏注意力策略,显著提升推理速度,同时保持生成质量。
- Motivation: 现有的视频生成加速方法依赖启发式规则,适用性有限,ASTRAEA旨在通过自动搜索和优化配置解决这一问题。
- Method: 提出轻量级令牌选择机制和GPU并行稀疏注意力策略,并结合进化算法自动分配令牌预算。
- Result: 在单GPU上实现2.4倍加速,8GPU上达13.2倍,VBench评分损失小于0.5%。
- Conclusion: ASTRAEA在显著提升速度的同时,保持了视频生成质量,具有高扩展性和实用性。
[80] DIMCIM: A Quantitative Evaluation Framework for Default-mode Diversity and Generalization in Text-to-Image Generative Models
Revant Teotia,Candace Ross,Karen Ullrich,Sumit Chopra,Adriana Romero-Soriano,Melissa Hall,Matthew J. Muckley
Main category: cs.CV
TL;DR: 论文提出了DIM-CIM框架,用于无参考地测量文本到图像模型的多样性和泛化能力,并构建了COCO-DIMCIM基准测试。
- Motivation: 现有评估方法依赖参考图像数据集或缺乏多样性测量的特异性,限制了其适应性和可解释性。
- Method: 引入DIM-CIM框架,通过COCO-DIMCIM基准测试评估模型的默认模式多样性和泛化能力。
- Result: 发现模型在参数规模扩大时泛化能力提升但默认模式多样性下降,并识别了细粒度失败案例。
- Conclusion: DIM-CIM为评估文本到图像模型提供了灵活且可解释的框架,有助于更全面地理解模型性能。
[81] Practical Manipulation Model for Robust Deepfake Detection
Benedikt Hopf,Radu Timofte
Main category: cs.CV
TL;DR: 论文提出了一种实用篡改模型(PMM),通过扩展伪伪造空间和增强训练图像的退化,显著提升了深度伪造检测模型的鲁棒性和性能。
- Motivation: 现有深度伪造检测模型在非理想条件下表现不稳定,容易被规避。受图像超分辨率领域启发,作者旨在开发更全面的伪造模型。
- Method: 使用泊松融合、多样化掩码、生成器伪影和干扰物扩展伪伪造空间,并通过添加强退化增强训练图像。
- Result: 模型在DFDC和DFDCP数据集上的AUC分别提高了3.51%和6.21%,显著提升了鲁棒性。
- Conclusion: PMM不仅提升了检测性能,还揭示了现有检测器的鲁棒性不足,为未来研究提供了改进方向。
[82] CIVET: Systematic Evaluation of Understanding in VLMs
Massimo Rizzoli,Simone Alghisi,Olha Khomyn,Gabriel Roccabruna,Seyed Mahed Mousavi,Giuseppe Riccardi
Main category: cs.CV
TL;DR: CIVET框架用于系统评估视觉语言模型(VLMs)对物体属性和关系的理解能力,发现当前模型仅能识别有限的基本属性,且表现受物体位置影响,与人类水平仍有差距。
- Motivation: 研究VLMs对场景结构和语义的理解能力,填补标准化系统评估的空白。
- Method: 提出CIVET框架,通过受控刺激系统评估五种先进VLMs,排除噪声和偏差。
- Result: VLMs仅能识别有限基本属性,表现依赖物体位置,难以理解物体间关系,未达人类水平。
- Conclusion: 当前VLMs在场景理解上存在局限性,需进一步改进以接近人类能力。
[83] FRED: The Florence RGB-Event Drone Dataset
Gabriele Magrini,Niccolò Marini,Federico Becattini,Lorenzo Berlincioni,Niccolò Biondi,Pietro Pala,Alberto Del Bimbo
Main category: cs.CV
TL;DR: 论文介绍了FRED数据集,专为无人机检测、跟踪和轨迹预测设计,结合RGB视频和事件流,包含7小时密集标注数据,涵盖多种场景和挑战。
- Motivation: 传统RGB相机在快速移动物体和复杂光照条件下表现不佳,而现有基准缺乏高时间分辨率或无人机特定运动模式,阻碍了相关研究进展。
- Method: 提出Florence RGB-Event Drone数据集(FRED),结合RGB视频和事件流,包含5种无人机模型和多种挑战场景。
- Result: FRED数据集提供7小时密集标注数据,并制定了详细评估协议和标准指标。
- Conclusion: FRED有望推动高速无人机感知和多模态时空理解的研究。
[84] Through-the-Wall Radar Human Activity Recognition WITHOUT Using Neural Networks
Weicheng Gao
Main category: cs.CV
TL;DR: 论文提出了一种不使用神经网络的穿墙雷达人体活动识别方法,基于模板匹配和拓扑相似性计算。
- Motivation: 作者认为当前领域过度依赖神经网络,忽视了早期基于模板匹配的方法,这些方法更具物理可解释性。
- Method: 生成距离-时间图和多普勒-时间图,通过角点检测和主动轮廓模型分割微多普勒特征,再使用Mapper算法计算拓扑相似性。
- Result: 通过数值模拟和实测实验验证了方法的有效性。
- Conclusion: 该方法为穿墙雷达人体活动识别提供了一种不依赖神经网络的替代方案。
[85] Track Any Anomalous Object: A Granular Video Anomaly Detection Pipeline
Yuzhi Huang,Chenxin Li,Haitao Zhang,Zixu Lin,Yunlong Lin,Hengyu Liu,Wuyang Li,Xinyu Liu,Jiechao Gao,Yue Huang,Xinghao Ding,Yixuan Yuan
Main category: cs.CV
TL;DR: TAO是一种新的视频异常检测框架,通过像素级跟踪异常对象,统一检测多粒度异常,无需阈值调整,提高了准确性和鲁棒性。
- Motivation: 现有方法主要关注异常帧或对象,忽略像素级分析,限制了异常检测的广泛性。
- Method: 提出TAO框架,将异常检测转化为像素级跟踪问题,结合分割和跟踪任务,避免阈值调整。
- Result: 实验表明TAO在准确性和鲁棒性上达到新基准。
- Conclusion: TAO通过多粒度异常检测和像素级跟踪,显著提升了视频异常检测性能。
[86] Single GPU Task Adaptation of Pathology Foundation Models for Whole Slide Image Analysis
Neeraj Kumar,Swaraj Nanda,Siddharth Singi,Jamal Benhamida,David Kim,Jie-Fu Chen,Amir Momeni-Boroujeni,Gregory M. Goldgof,Gabriele Campanella,Chad Vanderbilt
Main category: cs.CV
TL;DR: TAPFM是一种针对病理基础模型(PFMs)的任务适应方法,利用视觉Transformer注意力进行多实例学习(MIL)聚合,优化特征表示和注意力权重,适用于单GPU环境。
- Motivation: PFMs在分析全切片图像(WSIs)时表现强大,但适应特定临床任务面临挑战,主要由于仅有的WSI级别标签和需要MIL范式。
- Method: 提出TAPFM方法,通过分离MIL聚合器和PFM的计算图,优化特征和注意力权重,实现稳定训练。
- Result: 在膀胱癌和肺腺癌的突变预测任务中,TAPFM表现优于传统方法,并能处理多标签分类。
- Conclusion: TAPFM使预训练PFMs在标准硬件上的任务适应变得实用,适用于多种临床应用。
[87] MokA: Multimodal Low-Rank Adaptation for MLLMs
Yake Wei,Yu Miao,Dongzhan Zhou,Di Hu
Main category: cs.CV
TL;DR: 本文提出了一种多模态低秩适应方法(MokA),针对当前高效多模态微调方法的局限性,通过模态特定参数压缩单模态信息并增强跨模态交互,显著提升了多模态大语言模型的微调效果。
- Motivation: 现有高效多模态微调方法多直接借鉴自LLMs,忽视了多模态场景的固有差异,导致无法充分利用所有模态。
- Method: 提出MokA方法,通过模态特定参数压缩单模态信息,并显式增强跨模态交互,实现单模态和跨模态的联合适应。
- Result: 在多种多模态场景(如视听文本、视觉文本、语音文本)和不同LLM骨干(如LLaMA2/3、Qwen2等)上的实验表明,MokA具有一致性和高效性。
- Conclusion: MokA为多模态大语言模型的高效适应提供了针对性解决方案,为未来研究奠定了基础。
[88] Vision-Based Autonomous MM-Wave Reflector Using ArUco-Driven Angle-of-Arrival Estimation
Josue Marroquin,Nan Inzali,Miles Dillon Lantz,Campbell Freeman,Amod Ashtekar,\Ajinkya Umesh Mulik,Mohammed E Eltayeb
Main category: cs.CV
TL;DR: 论文提出了一种基于视觉辅助的自主反射器系统,用于在非视距条件下增强毫米波通信性能。
- Motivation: 在非视距条件下实现可靠的毫米波通信是军事和民用领域的重大挑战,尤其是在城市或基础设施有限的环境中。
- Method: 系统利用单目摄像头检测ArUco标记,估计到达角,并通过电机驱动的金属板实时调整反射器以优化信号重定向。
- Result: 实验结果显示,在60 GHz频段下,接收信号强度平均增益为23 dB,信号接收概率为0.89(阈值-65 dB),显著优于静态和无反射器基线。
- Conclusion: 该系统展示了在复杂动态环境中实现弹性和自适应毫米波连接的潜力。
[89] Quantifying Cross-Modality Memorization in Vision-Language Models
Yuxin Wen,Yangsibo Huang,Tom Goldstein,Ravi Kumar,Badih Ghazi,Chiyuan Zhang
Main category: cs.CV
TL;DR: 研究探讨了多模态模型中跨模态记忆的特性,通过合成数据集量化了知识记忆与跨模态迁移能力,发现模态间存在显著差距,并提出了一种缓解方法。
- Motivation: 理解神经网络在训练中的记忆行为对避免敏感信息泄露和提升知识密集型任务表现至关重要。
- Method: 引入合成人物数据集,通过单模态训练和跨模态评估量化记忆与迁移能力。
- Result: 发现模态间知识可迁移但存在显著差距,且差距在多种场景下普遍存在。
- Conclusion: 研究为开发更鲁棒的多模态学习技术提供了启示。
[90] Grounding Beyond Detection: Enhancing Contextual Understanding in Embodied 3D Grounding
Yani Zhang,Dongming Wu,Hao Shi,Yingfei Liu,Tiancai Wang,Haoqiang Fan,Xingping Dong
Main category: cs.CV
TL;DR: 研究发现,3D检测模型在未经过指令特定训练的情况下,其性能优于专门训练的3D定位模型。基于此,提出了DEGround框架,通过共享DETR查询和引入新模块,显著提升了定位性能。
- Motivation: 探讨3D定位是否真正受益于检测任务,并发现现有方法在类别级定位上仍有不足。
- Method: 提出DEGround框架,共享DETR查询,并引入区域激活定位模块和查询调制模块。
- Result: DEGround在EmbodiedScan验证集上比BIP3D模型整体准确率提升7.52%。
- Conclusion: DEGround通过结合检测和定位任务,显著提升了3D定位性能,证明了检测任务对定位的重要性。
[91] OGGSplat: Open Gaussian Growing for Generalizable Reconstruction with Expanded Field-of-View
Yanbo Wang,Ziyi Wang,Wenzhao Zheng,Jie Zhou,Jiwen Lu
Main category: cs.CV
TL;DR: OGGSplat是一种基于开放高斯增长的方法,用于从稀疏视图重建语义感知的3D场景,通过RGB-语义一致性修复模块和双向控制扩散模型实现高效重建。
- Motivation: 解决现有方法在稀疏视图下重建3D场景的局限性,满足虚拟现实和具身AI等应用的需求。
- Method: 提出OGGSplat方法,利用开放高斯的语义属性进行图像外推,结合RGB-语义一致性修复模块和双向控制扩散模型,逐步优化高斯参数。
- Result: 在Gaussian Outpainting (GO)基准测试中表现优异,支持智能手机拍摄的两视图场景重建。
- Conclusion: OGGSplat在稀疏视图下实现了语义一致且视觉合理的3D场景重建,具有广泛的应用潜力。
[92] Follow-Your-Motion: Video Motion Transfer via Efficient Spatial-Temporal Decoupled Finetuning
Yue Ma,Yulong Liu,Qiyuan Zhu,Ayden Yang,Kunyu Feng,Xinhua Zhang,Zhifeng Li,Sirui Han,Chenyang Qi,Qifeng Chen
Main category: cs.CV
TL;DR: 论文提出Follow-Your-Motion框架,通过空间-时间解耦的LoRA和自适应RoPE技术,解决了视频运动传递中的不一致性和调参效率问题,并引入MotionBench作为评测基准。
- Motivation: 现有基于LoRA的运动传递方法在大规模视频扩散变换器中存在运动不一致和调参效率低的问题,需要改进。
- Method: 提出空间-时间解耦的LoRA技术,分离空间外观和时间运动处理;设计稀疏运动采样和自适应RoPE加速调参。
- Result: 在MotionBench上验证了Follow-Your-Motion的优越性。
- Conclusion: Follow-Your-Motion框架高效解决了运动传递问题,并提供了评测基准。
[93] Towards Vision-Language-Garment Models For Web Knowledge Garment Understanding and Generation
Jan Ackermann,Kiyohiro Nakayama,Guandao Yang,Tong Wu,Gordon Wetzstein
Main category: cs.CV
TL;DR: VLG模型通过视觉-语言-服装多模态合成服装,初步实验显示其在零样本泛化中表现良好。
- Motivation: 探索多模态基础模型在服装生成等专业领域的知识迁移能力。
- Method: 引入VLG模型,结合文本描述和视觉图像合成服装,并测试其零样本泛化能力。
- Result: 初步结果表明VLG能有效迁移知识,适应未见过的服装风格和提示。
- Conclusion: 多模态基础模型在时尚设计等专业领域具有潜在适应性。
[94] DSG-World: Learning a 3D Gaussian World Model from Dual State Videos
Wenhao Hu,Xuexiang Wen,Xi Li,Gaoang Wang
Main category: cs.CV
TL;DR: DSG-World提出了一种基于双状态观测的3D高斯世界建模框架,解决了现有方法在训练难度和物理一致性上的不足。
- Motivation: 解决现有世界建模方法在训练困难、缺乏3D或物理一致性以及多阶段处理需求上的局限性。
- Method: 利用双状态观测构建双分割感知高斯场,并通过双向光度和语义一致性增强模型稳定性。引入伪中间状态进行对称对齐,并采用协作共剪枝策略优化几何完整性。
- Result: DSG-World在新型视图和场景状态下表现出强泛化能力,支持高保真渲染和对象级场景操作。
- Conclusion: DSG-World为真实世界的3D重建和模拟提供了一种高效且一致的方法。
[95] MonkeyOCR: Document Parsing with a Structure-Recognition-Relation Triplet Paradigm
Zhang Li,Yuliang Liu,Qiang Liu,Zhiyin Ma,Ziyang Zhang,Shuo Zhang,Zidun Guo,Jiarui Zhang,Xinyu Wang,Xiang Bai
Main category: cs.CV
TL;DR: MonkeyOCR是一种基于SRR三元范式的视觉语言模型,用于文档解析,简化了复杂的多工具流程,并在准确性和速度之间取得平衡。
- Motivation: 当前文档解析方法存在复杂性高或效率低的问题,MonkeyOCR旨在通过SRR范式解决这些问题。
- Method: 采用SRR(结构-识别-关系)三元范式,将文档解析分解为布局分析、内容识别和逻辑排序三个问题。
- Result: MonkeyOCR在MonkeyDoc数据集上表现优异,平均性能提升5.1%,处理速度更快(0.84页/秒)。
- Conclusion: MonkeyOCR在文档解析任务中实现了高效、准确且可扩展的性能,优于现有大型模型。
[96] SAM-aware Test-time Adaptation for Universal Medical Image Segmentation
Jianghao Wu,Yicheng Wu,Yutong Xie,Wenjia Bai,You Zhang,Feilong Tang,Yulong Li,Yasmeen George,Imran Razzak
Main category: cs.CV
TL;DR: 论文提出SAM-TTA方法,通过测试时适配提升SAM在医学图像分割中的性能,同时保持其泛化能力。
- Motivation: 解决SAM在医学图像分割中适应性不足的问题,同时避免现有方法(如MedSAM)泛化性下降的缺点。
- Method: 提出SAM-TTA框架,包括SBCT(自适应贝塞尔曲线转换)和DUMT(双尺度不确定性驱动均值教师适配),分别解决输入级和语义级差异。
- Result: 在五个公开数据集上,SAM-TTA表现优于现有TTA方法,甚至在某些场景下超越完全微调的MedSAM。
- Conclusion: SAM-TTA为通用医学图像分割提供了新范式,代码已开源。
[97] Spatiotemporal Contrastive Learning for Cross-View Video Localization in Unstructured Off-road Terrains
Zhiyun Deng,Dongmyeong Lee,Amanda Adkins,Jesse Quattrociocchi,Christian Ellis,Joydeep Biswas
Main category: cs.CV
TL;DR: MoViX是一个自监督的跨视角视频定位框架,用于GPS缺失的越野环境,通过学习视角和季节不变的表示,提升定位准确性。
- Motivation: 在GPS缺失的越野环境中,重复植被、无结构地形和季节性变化导致视觉定位困难,需要一种鲁棒的方法。
- Method: MoViX采用姿态依赖的正样本采样、时间对齐的硬负样本挖掘、运动信息帧采样器和轻量级时间聚合器。
- Result: 在TartanDrive 2.0数据集上,MoViX在93%的情况下定位误差小于25米,100%小于50米,优于现有方法。
- Conclusion: MoViX在视觉模糊环境下表现优异,且能泛化到不同地理位置的越野场景。
[98] LeanPO: Lean Preference Optimization for Likelihood Alignment in Video-LLMs
Xiaodong Wang,Jinfa Huang,Li Yuan,Peixi Peng
Main category: cs.CV
TL;DR: 论文提出LeanPO方法,解决Video-LLMs中偏好对齐技术导致的非目标响应概率意外增加问题,通过重新定义奖励和动态标签平滑策略提升性能。
- Motivation: 现有Video-LLMs偏好对齐技术(如DPO)在训练中导致目标和非目标响应的对数概率均下降,增加了非目标响应的概率,尤其在视频内容冗余复杂时更严重。
- Method: 提出LeanPO方法,重新定义隐式奖励为响应相对于策略模型的平均似然,结合自生成偏好数据管道和动态标签平滑策略。
- Result: 实验表明LeanPO显著提升Video-LLMs性能,且额外训练开销小。
- Conclusion: LeanPO为Video-LLMs提供了一种简单有效的偏好对齐方案,提升了模型的可靠性和效率。
[99] Can Foundation Models Generalise the Presentation Attack Detection Capabilities on ID Cards?
Juan E. Tapia,Christoph Busch
Main category: cs.CV
TL;DR: 论文探讨了利用基础模型(FM)提升ID卡呈现攻击检测(PAD)的泛化能力,特别是在未知国家ID卡上的表现。
- Motivation: 当前PAD系统因隐私保护限制,训练数据仅覆盖少数国家ID卡,导致泛化能力不足,难以满足商业需求。
- Method: 研究采用零样本和微调两种策略,测试了FM在智利ID卡私有数据集和芬兰、西班牙、斯洛伐克ID卡公开数据集上的表现。
- Result: 研究发现,真实图像(bona fide)是提升泛化能力的关键。
- Conclusion: 基础模型在PAD任务中展现出潜力,尤其是通过真实图像优化泛化能力。
[100] From Play to Replay: Composed Video Retrieval for Temporally Fine-Grained Videos
Animesh Gupta,Jay Parmar,Ishan Rajendrakumar Dave,Mubarak Shah
Main category: cs.CV
TL;DR: TF-CoVR是首个专注于时间细粒度组合视频检索的大规模基准,基于体操和跳水视频,提出了一种两阶段训练框架TF-CoVR-Base,显著提升了检索性能。
- Motivation: 现有组合视频检索基准未能测试对快速、细微时间差异的捕捉能力,因此需要新的基准和方法来填补这一空白。
- Method: 提出TF-CoVR基准,包含180K三元组;设计TF-CoVR-Base框架,通过预训练视频编码器和对比学习对齐查询与候选视频。
- Result: TF-CoVR-Base在零样本和微调设置下均显著提升性能,mAP@50分别从5.92提升至7.51和从19.83提升至25.82。
- Conclusion: TF-CoVR填补了时间细粒度组合视频检索的空白,TF-CoVR-Base框架为相关任务提供了有效解决方案。
[101] Unifying Appearance Codes and Bilateral Grids for Driving Scene Gaussian Splatting
Nan Wang,Yuantao Chen,Lixing Xiao,Weiqing Xiao,Bohan Li,Zhaoxi Chen,Chongjie Ye,Shaocong Xu,Saining Zhang,Ziyang Yan,Pierre Merriaux,Lei Lei,Tianfan Xue,Hao Zhao
Main category: cs.CV
TL;DR: 提出了一种多尺度双边网格方法,结合外观编码和双边网格,显著提升了动态自动驾驶场景重建的几何精度。
- Motivation: 现实场景中难以保证完美的光度一致性,现有方法(外观编码和双边网格)存在局限性。
- Method: 提出多尺度双边网格,统一外观编码和双边网格,优化几何重建。
- Result: 在Waymo、NuScenes、Argoverse和PandaSet四个数据集上表现优异,减少光度不一致导致的伪影。
- Conclusion: 多尺度双边网格有效提升几何精度,对自动驾驶的障碍物避障和控制至关重要。
[102] Rectified Point Flow: Generic Point Cloud Pose Estimation
Tao Sun,Liyuan Zhu,Shengyu Huang,Shuran Song,Iro Armeni
Main category: cs.CV
TL;DR: Rectified Point Flow 是一种统一的参数化方法,将点云配准和多部分形状组装建模为一个条件生成问题,通过学习连续点速度场实现目标位置对齐,无需对称标签即可学习对称性。
- Motivation: 解决点云配准和形状组装中的对称性处理和统一性问题,避免现有方法中依赖对称标签的局限性。
- Method: 通过学习连续点速度场,将噪声点传输到目标位置,并利用自监督编码器专注于重叠点,实现对称性学习和高效组装。
- Result: 在六个基准测试中达到最新性能,统一的框架支持多样数据集联合训练,提升几何先验学习。
- Conclusion: Rectified Point Flow 提供了一种高效、统一的解决方案,显著提升了点云配准和形状组装的性能。
[103] Video World Models with Long-term Spatial Memory
Tong Wu,Shuai Yang,Ryan Po,Yinghao Xu,Ziwei Liu,Dahua Lin,Gordon Wetzstein
Main category: cs.CV
TL;DR: 提出了一种基于几何空间记忆的框架,用于增强视频世界模型的长期一致性,解决了现有模型因时间窗口限制导致的场景遗忘问题。
- Motivation: 现有视频世界模型因时间上下文窗口有限,难以维持场景一致性,导致环境遗忘。
- Method: 引入几何空间记忆机制,存储和检索长期空间信息,并通过定制数据集训练和评估模型。
- Result: 实验表明,该方法在质量、一致性和上下文长度上优于基线模型。
- Conclusion: 该框架为长期一致的视频生成提供了新思路。
[104] RaySt3R: Predicting Novel Depth Maps for Zero-Shot Object Completion
Bardienus P. Duisterhof,Jan Oberst,Bowen Wen,Stan Birchfield,Deva Ramanan,Jeffrey Ichnowski
Main category: cs.CV
TL;DR: RaySt3R将3D形状补全问题重新定义为新视角合成问题,通过单张RGB-D图像和查询射线预测深度图、物体掩码和置信度,融合多视角预测实现完整3D重建,性能优于基线44%。
- Motivation: 现有3D形状补全方法缺乏3D一致性、计算成本高且难以捕捉锐利边界,RaySt3R旨在解决这些问题。
- Method: 使用单张RGB-D图像和查询射线,通过前馈变换器预测深度图、物体掩码和置信度,融合多视角预测完成3D重建。
- Result: 在合成和真实数据集上表现优异,3D chamfer距离比基线提升高达44%。
- Conclusion: RaySt3R通过新视角合成方法显著提升了3D形状补全的性能和效率。
[105] Stable Vision Concept Transformers for Medical Diagnosis
Lijie Hu,Songning Lai,Yuan Hua,Shu Yang,Jingfeng Zhang,Di Wang
Main category: cs.CV
TL;DR: 论文提出Vision Concept Transformer (VCT)和Stable Vision Concept Transformer (SVCT),解决医疗领域中概念瓶颈模型(CBMs)的性能和稳定性问题。
- Motivation: 医疗领域对透明度的需求促使研究可解释AI (XAI),但现有CBMs仅依赖概念特征,忽略医学图像的内在特征,且性能和稳定性不足。
- Method: VCT结合概念特征与图像特征;SVCT基于VCT,采用视觉变换器(ViT)和去噪扩散平滑技术,提升模型稳定性和解释能力。
- Result: 在四个医学数据集上,VCT和SVCT在保持准确性的同时优于基线模型,SVCT在扰动下仍能提供稳定解释。
- Conclusion: VCT和SVCT满足医疗领域对可解释性和稳定性的需求,为XAI在医疗中的应用提供了新方向。
[106] EOC-Bench: Can MLLMs Identify, Recall, and Forecast Objects in an Egocentric World?
Yuqian Yuan,Ronghao Dang,Long Li,Wentong Li,Dian Jiao,Xin Li,Deli Zhao,Fan Wang,Wenqiao Zhang,Jun Xiao,Yueting Zhuang
Main category: cs.CV
TL;DR: EOC-Bench是一个创新的基准测试,用于评估动态自我中心场景中的物体中心认知能力,填补了现有基准测试在动态交互评估上的空白。
- Motivation: 现有基准测试主要关注静态场景,缺乏对动态交互中物体变化的评估,因此需要新的工具来推动多模态大语言模型(MLLMs)在自我中心视觉应用中的发展。
- Method: 通过3,277个精心标注的QA对,分为过去、现在和未来三个时间类别,覆盖11个细粒度评估维度和3种视觉物体引用类型,并采用混合格式的人机协作标注框架和多尺度时间准确性指标。
- Result: EOC-Bench为MLLMs提供了全面的评估工具,推动了其在动态自我中心场景中的物体认知能力。
- Conclusion: EOC-Bench为开发可靠的嵌入式系统核心模型奠定了坚实基础,是MLLMs在物体认知能力评估上的重要工具。
[107] AliTok: Towards Sequence Modeling Alignment between Tokenizer and Autoregressive Model
Pingyu Wu,Kai Zhu,Yu Liu,Longxiang Tang,Jian Yang,Yansong Peng,Wei Zhai,Yang Cao,Zheng-Jun Zha
Main category: cs.CV
TL;DR: 提出了一种新的Aligned Tokenizer (AliTok),通过单向依赖和两阶段训练,提升了自回归模型的生成效果和重建性能。
- Motivation: 现有图像分词器在压缩过程中存在双向依赖,阻碍了自回归模型的有效建模。
- Method: 使用因果解码器建立单向依赖,结合前缀标记和两阶段训练提升一致性。
- Result: 在ImageNet-256上,AliTok在177M参数下gFID为1.50,IS为305.9;662M参数时gFID为1.35,采样速度比扩散方法快10倍。
- Conclusion: AliTok在生成友好性和性能上均优于现有方法。
[108] SeedVR2: One-Step Video Restoration via Diffusion Adversarial Post-Training
Jianyi Wang,Shanchuan Lin,Zhijie Lin,Yuxi Ren,Meng Wei,Zongsheng Yue,Shangchen Zhou,Hao Chen,Yang Zhao,Ceyuan Yang,Xuefeng Xiao,Chen Change Loy,Lu Jiang
Main category: cs.CV
TL;DR: SeedVR2是一种基于扩散的单步视频修复模型,通过对抗训练和动态窗口注意力机制,在高分辨率视频修复中实现高效且高质量的结果。
- Motivation: 尽管扩散模型在视频修复中表现出色,但其计算成本高昂,且现有方法难以扩展到高分辨率视频修复。SeedVR2旨在解决这一问题。
- Method: 提出动态窗口注意力机制和一系列损失函数(包括特征匹配损失),以优化模型架构和训练过程。
- Result: 实验表明,SeedVR2在单步修复中性能优于或与现有方法相当。
- Conclusion: SeedVR2为高效高分辨率视频修复提供了可行方案。
[109] Perceive Anything: Recognize, Explain, Caption, and Segment Anything in Images and Videos
Weifeng Lin,Xinyu Wei,Ruichuan An,Tianhe Ren,Tingwei Chen,Renrui Zhang,Ziyu Guo,Wentao Zhang,Lei Zhang,Hongsheng Li
Main category: cs.CV
TL;DR: PAM是一个高效的区域级视觉理解框架,结合SAM 2和LLMs,实现对象分割与多模态语义输出。
- Motivation: 提升区域级视觉理解的全面性和效率,支持多粒度语义输出。
- Method: 集成SAM 2和LLMs,引入Semantic Perceiver转换视觉特征,开发数据增强流程。
- Result: PAM在速度和内存效率上优于现有方法,支持多样化任务。
- Conclusion: PAM为区域级视觉理解提供了高效且实用的解决方案,可作为未来研究的基准。
[110] Do It Yourself: Learning Semantic Correspondence from Pseudo-Labels
Olaf Dünkel,Thomas Wimmer,Christian Theobalt,Christian Rupprecht,Adam Kortylewski
Main category: cs.CV
TL;DR: 论文提出了一种基于3D感知伪标签的方法,改进了语义匹配的准确性,减少了对称物体或重复部分的歧义,并在SPair-71k数据集上取得了显著提升。
- Motivation: 解决语义匹配中对称物体或重复部分导致的歧义问题,减少对特定数据集标注的依赖。
- Method: 通过3D感知伪标签训练适配器,结合3D感知链式标记、松弛循环一致性和3D球形原型映射约束,优化现有特征。
- Result: 在SPair-71k数据集上实现了超过4%的绝对提升,相比类似监督需求的方法提升了7%。
- Conclusion: 该方法通用性强,易于扩展到其他数据源,为语义匹配提供了更高效的解决方案。
[111] MARBLE: Material Recomposition and Blending in CLIP-Space
Ta-Ying Cheng,Prafull Sharma,Mark Boss,Varun Jampani
Main category: cs.CV
TL;DR: MARBLE提出了一种基于CLIP空间和预训练文本到图像模型的材料编辑方法,通过材料嵌入和方向控制实现材料混合和细粒度属性调整。
- Motivation: 研究如何通过示例图像编辑图像中对象的材料属性,提升材料编辑的精细化和可控性。
- Method: 利用CLIP空间中的材料嵌入控制预训练模型,通过去噪UNet中的特定块实现材料属性调整,并使用浅层网络预测材料属性变化方向。
- Result: 实现了材料混合和细粒度属性(如粗糙度、金属感、透明度和发光)的调整,支持单次前向传递的多重编辑。
- Conclusion: MARBLE在材料编辑方面表现出色,具有广泛的应用潜力,如绘画和图形设计。
[112] ProJo4D: Progressive Joint Optimization for Sparse-View Inverse Physics Estimation
Daniel Rho,Jun Myeong Choi,Biswadip Dey,Roni Sengupta
Main category: cs.CV
TL;DR: ProJo4D提出了一种渐进式联合优化框架,用于从稀疏多视角视频中估计物理参数,解决了现有方法在稀疏输入下的误差累积问题。
- Motivation: 现有方法在稀疏多视角视频输入下表现不佳,导致误差累积,限制了物理准确数字孪生等应用的效果。
- Method: ProJo4D采用渐进式联合优化策略,逐步增加联合优化的参数集,最终实现几何、外观、物理状态和材料属性的完全联合优化。
- Result: 在PAC-NeRF和Spring-Gaus数据集上,ProJo4D在4D未来状态预测、未来状态的新视角渲染和材料参数估计方面优于现有方法。
- Conclusion: ProJo4D为物理基础的4D场景理解提供了一种有效解决方案,适用于稀疏输入场景。
[113] Does Your 3D Encoder Really Work? When Pretrain-SFT from 2D VLMs Meets 3D VLMs
Haoyuan Li,Yanpeng Zhou,Yufei Gao,Tao Tang,Jianhua Han,Yujie Yuan,Dave Zhenyu Chen,Jiawang Bian,Hang Xu,Xiaodan Liang
Main category: cs.CV
TL;DR: 论文探讨了3D视觉语言模型(VLMs)的性能问题,发现3D场景中心模型表现较差,并提出新数据集以改进3D理解。
- Motivation: 研究3D VLMs在任务中的性能差距,尤其是3D场景中心模型表现不佳的原因。
- Method: 分类3D VLMs为3D对象中心、2D图像基础和3D场景中心方法,并分析其性能差异。
- Result: 发现3D场景中心模型对3D编码器依赖不足,预训练效果较差,且数据扩展收益有限。
- Conclusion: 提出新数据集以解决模型依赖语言线索的问题,强调需改进3D理解策略。
[114] Revisiting Depth Representations for Feed-Forward 3D Gaussian Splatting
Duochao Shi,Weijie Wang,Donny Y. Chen,Zeyu Zhang,Jia-Wang Bian,Bohan Zhuang,Chunhua Shen
Main category: cs.CV
TL;DR: 论文提出了一种基于预训练Transformer的PM-Loss正则化损失函数,用于改进深度图在3D高斯泼溅(3DGS)中的几何平滑性,显著提升了渲染质量。
- Motivation: 深度图在3DGS中常用于生成3D点云,但物体边界的深度不连续性会导致点云稀疏或碎片化,影响渲染质量。
- Method: 引入PM-Loss,通过预训练Transformer预测的点图来增强深度图的几何平滑性,尤其是在物体边界处。
- Result: 改进后的深度图显著提升了3DGS的渲染效果,适用于多种架构和场景。
- Conclusion: PM-Loss有效解决了深度图在3DGS中的几何平滑性问题,提升了渲染质量。
[115] AV-Reasoner: Improving and Benchmarking Clue-Grounded Audio-Visual Counting for MLLMs
Lidong Lu,Guo Chen,Zhiqi Li,Yicheng Liu,Tong Lu
Main category: cs.CV
TL;DR: 论文提出了CG-AV-Counting基准和AV-Reasoner模型,用于提升视频计数任务性能。
- Motivation: 现有视频理解模型在计数任务上表现不佳,且现有基准存在视频短、查询封闭、缺乏线索标注和多模态覆盖不足等问题。
- Method: 提出CG-AV-Counting基准,包含1,027个多模态问题和5,845个标注线索;开发AV-Reasoner模型,结合GRPO和课程学习提升计数能力。
- Result: AV-Reasoner在多个基准上达到最优性能,但语言空间推理在域外基准上未带来性能提升。
- Conclusion: CG-AV-Counting为计数任务提供了全面测试平台,AV-Reasoner展示了强化学习的有效性,但需进一步改进域外泛化能力。
[116] MINT-CoT: Enabling Interleaved Visual Tokens in Mathematical Chain-of-Thought Reasoning
Xinyan Chen,Renrui Zhang,Dongzhi Jiang,Aojun Zhou,Shilin Yan,Weifeng Lin,Hongsheng Li
Main category: cs.CV
TL;DR: MINT-CoT提出了一种新的视觉推理方法,通过动态选择数学图形中的视觉区域,将视觉信号与文本推理步骤交织,显著提升了多模态数学问题的解决能力。
- Motivation: 现有方法在将CoT扩展到多模态领域时面临三个关键限制:依赖粗粒度图像区域、视觉编码器对数学内容的感知有限、以及对外部视觉修改能力的依赖。
- Method: MINT-CoT通过Interleave Token动态选择数学图形中的视觉区域,并构建了一个包含54K数学问题的数据集。训练策略分为三个阶段:纯文本CoT SFT、交织CoT SFT和交织CoT RL。
- Result: MINT-CoT-7B在MathVista、GeoQA和MMStar上的表现分别比基线模型提升了+34.08%、+28.78%和+23.2%。
- Conclusion: MINT-CoT在多模态数学推理中表现出色,为视觉与文本交织推理提供了有效解决方案。
[117] Unleashing Hour-Scale Video Training for Long Video-Language Understanding
Jingyang Lin,Jialian Wu,Ximeng Sun,Ze Wang,Jiang Liu,Yusheng Su,Xiaodong Yu,Hao Chen,Jiebo Luo,Zicheng Liu,Emad Barsoum
Main category: cs.CV
TL;DR: VideoMarathon数据集填补了长视频标注的空白,支持22种任务,Hour-LLaVA模型通过内存增强模块在长视频理解中表现优异。
- Motivation: 现有长视频标注数据稀缺,限制了长视频多模态模型(Video-LMMs)的训练和发展。
- Method: 提出VideoMarathon数据集(9,700小时长视频,3.3M QA对)和Hour-LLaVA模型(内存增强模块支持1-FPS采样)。
- Result: Hour-LLaVA在多个长视频基准测试中表现最佳。
- Conclusion: VideoMarathon数据集和Hour-LLaVA模型为长视频理解提供了高质量资源和高效解决方案。
[118] VideoMolmo: Spatio-Temporal Grounding Meets Pointing
Ghazi Shazan Ahmad,Ahmed Heakl,Hanan Gani,Abdelrahman Shaker,Zhiqiang Shen,Ranjay Krishna,Fahad Shahbaz Khan,Salman Khan
Main category: cs.CV
TL;DR: VideoMolmo是一个多模态大模型,用于基于文本描述的细粒度时空定位,结合了时间模块和掩码融合技术,显著提升了时空一致性和推理能力。
- Motivation: 当前视频定位方法缺乏语言模型的上下文理解和泛化能力,因此需要一种结合语言模型和多模态技术的新方法。
- Method: 基于Molmo架构,引入时间模块和双向点传播的掩码融合管道,分两步生成坐标和分割掩码。
- Result: 在多个真实场景和基准测试中,VideoMolmo显著提升了时空定位精度和推理能力。
- Conclusion: VideoMolmo通过结合语言模型和多模态技术,有效解决了时空定位的挑战,并提供了公开的代码和模型。
[119] Defurnishing with X-Ray Vision: Joint Removal of Furniture from Panoramas and Mesh
Alan Dolhasz,Chen Ma,Dave Gausebeck,Kevin Chen,Gregor Miller,Lucas Hayne,Gunnar Hovden,Azwad Sabik,Olaf Brandt,Mira Slavcheva
Main category: cs.CV
TL;DR: 提出了一种生成室内空间去家具化模型的流程,通过简化网格和全景图像修复技术,生成高质量的去家具化资产。
- Motivation: 现有方法(如神经辐射场或RGB-D修复)在生成去家具化模型时存在模糊或幻觉问题,需要一种更高质量的方法。
- Method: 首先从网格中分割并移除家具,生成简化网格(SDM),然后利用SDM提取边缘信息,通过ControlNet修复全景图像,最后用修复图像重新纹理化网格。
- Result: 该方法生成的资产质量高于依赖神经辐射场或RGB-D修复的方法,避免了模糊和幻觉问题。
- Conclusion: 提出的流程能有效生成高质量的去家具化室内模型,优于现有技术。
[120] Direct Numerical Layout Generation for 3D Indoor Scene Synthesis via Spatial Reasoning
Xingjian Ran,Yixuan Li,Linning Xu,Mulin Yu,Bo Dai
Main category: cs.CV
TL;DR: DirectLayout是一个基于LLM的框架,直接从文本描述生成3D室内布局,通过分阶段生成和空间推理提升灵活性和一致性。
- Motivation: 现有布局生成方法因数据集限制而难以实现开放词汇和细粒度用户指令对齐,DirectLayout旨在解决这一问题。
- Method: 分三阶段生成:BEV布局生成、3D空间提升和对象放置优化,结合CoT激活和奖励机制增强推理能力。
- Result: 实验表明DirectLayout在语义一致性、泛化能力和物理合理性方面表现优异。
- Conclusion: DirectLayout通过直接生成和空间推理,显著提升了3D布局生成的开放性和灵活性。
[121] Refer to Anything with Vision-Language Prompts
Shengcao Cao,Zijun Wei,Jason Kuen,Kangning Liu,Lingzhi Zhang,Jiuxiang Gu,HyunJoon Jung,Liang-Yan Gui,Yu-Xiong Wang
Main category: cs.CV
TL;DR: 论文提出了一种新的任务——全模态参考表达分割(ORES),并提出了一个框架RAS,通过增强分割模型的多模态交互能力来解决复杂查询问题。
- Motivation: 现有图像分割模型无法满足基于语言和视觉的复杂查询需求,限制了其在用户友好交互中的应用。
- Method: 提出RAS框架,通过掩码中心的大型多模态模型增强分割模型的多模态交互和理解能力。
- Result: 在ORES任务以及经典RES和GRES任务中,RAS表现出优越性能。
- Conclusion: RAS框架为全模态参考表达分割提供了有效解决方案,并在多个任务中验证了其性能。
[122] ContentV: Efficient Training of Video Generation Models with Limited Compute
Wenfeng Lin,Renjie Chen,Boyuan Liu,Shiyue Yan,Ruoyu Feng,Jiangchuan Wei,Yichen Zhang,Yimeng Zhou,Chao Feng,Jiao Ran,Qi Wu,Zuotao Liu,Mingyu Guo
Main category: cs.CV
TL;DR: ContentV是一个8B参数的文本到视频模型,通过三项创新技术实现了高效训练和高质量视频生成,仅用4周时间在256 x 64GB NPU上训练完成。
- Motivation: 视频生成领域的高计算成本问题需要更高效的训练方法。
- Method: 采用简约架构、多阶段训练策略和低成本强化学习框架。
- Result: 在VBench上达到85.14的SOTA性能,支持多分辨率和时长。
- Conclusion: ContentV展示了高效训练和高性能视频生成的潜力。
[123] SparseMM: Head Sparsity Emerges from Visual Concept Responses in MLLMs
Jiahui Wang,Zuyan Liu,Yongming Rao,Jiwen Lu
Main category: cs.CV
TL;DR: 研究发现多模态大语言模型(MLLMs)中仅有少数注意力头(约5%)对视觉理解起关键作用,称为视觉头。通过无训练框架识别这些头,提出KV-Cache优化策略SparseMM,显著提升推理效率。
- Motivation: 探究MLLMs如何处理视觉输入,揭示注意力机制的稀疏性,以优化计算资源分配。
- Method: 设计无训练框架量化视觉相关性,提出SparseMM策略,基于视觉分数分配计算资源。
- Result: SparseMM在主流多模态基准测试中实现1.38倍实时加速和52%内存减少,性能无损。
- Conclusion: 视觉头的稀疏性为MLLMs高效推理提供了新思路,SparseMM展示了优越的准确性与效率平衡。
[124] Neural Inverse Rendering from Propagating Light
Anagh Malik,Benjamin Attal,Andrew Xie,Matthew O'Toole,David B. Lindell
Main category: cs.CV
TL;DR: 首个基于物理的神经逆向渲染系统,通过多视角视频捕捉传播光线,利用时间分辨的神经辐射缓存技术,实现高精度3D重建和光线传播效果分析。
- Motivation: 解决在多视角视频中捕捉传播光线并实现高精度逆向渲染的挑战,特别是在强间接光条件下的3D重建。
- Method: 扩展神经辐射缓存技术至时间分辨领域,存储任意点从任意方向的无限反弹辐射,以加速逆向渲染。
- Result: 实现了高精度的直接和间接光线传输效果分析,支持3D重建、视图合成、光线分解及多视角时间分辨重光照。
- Conclusion: 该系统在多视角视频的逆向渲染中表现出色,为光线传播分析和场景重光照提供了新工具。
[125] FreeTimeGS: Free Gaussians at Anytime and Anywhere for Dynamic Scene Reconstruction
Yifan Wang,Peishan Yang,Zhen Xu,Jiaming Sun,Zhanhua Zhang,Yong Chen,Hujun Bao,Sida Peng,Xiaowei Zhou
Main category: cs.CV
TL;DR: 论文提出FreeTimeGS,一种新的4D表示方法,用于动态3D场景重建,解决了复杂运动场景中变形场优化的难题。
- Motivation: 现有方法在处理复杂运动场景时因变形场优化困难而表现不佳,需一种更灵活的表示方法。
- Method: 提出FreeTimeGS,允许高斯基元在任意时间和位置出现,并赋予其运动函数以减少时间冗余。
- Result: 实验表明,该方法在渲染质量上显著优于现有方法。
- Conclusion: FreeTimeGS通过灵活的4D表示和运动函数,有效提升了动态3D场景建模能力。
[126] VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Videos
Hanoona Rasheed,Abdelrahman Shaker,Anqi Tang,Muhammad Maaz,Ming-Hsuan Yang,Salman Khan,Fahad Khan
Main category: cs.CV
TL;DR: VideoMathQA是一个评估模型在视频中跨模态数学推理能力的基准,涵盖10个数学领域,强调多模态和时间扩展推理。
- Motivation: 现实世界中的视频数学推理需要整合视觉、音频和文本信息,现有方法在此类任务上表现不足。
- Method: 设计了VideoMathQA基准,包含多样化的视频和问题类型,由专家标注,覆盖直接问题解决、概念迁移和深度理解。
- Result: 通过基准测试,揭示了现有方法的局限性,并提供了系统评估框架。
- Conclusion: VideoMathQA为跨模态和时间扩展的数学推理任务提供了新的评估标准,推动了相关研究。
[127] Contrastive Flow Matching
George Stoica,Vivek Ramanujan,Xiang Fan,Ali Farhadi,Ranjay Krishna,Judy Hoffman
Main category: cs.CV
TL;DR: 论文提出了一种对比流匹配方法,通过显式增强条件流之间的独特性,解决了传统流匹配在条件设置下生成模糊的问题。实验表明,该方法显著提升了训练速度、减少了去噪步骤,并降低了FID。
- Motivation: 在条件设置下(如类别条件模型),传统流匹配无法保证流的唯一性,导致生成结果模糊。因此,需要一种方法增强条件流之间的分离性。
- Method: 引入对比流匹配,通过对比目标最大化任意样本对预测流之间的差异性,显式增强条件流的独特性。
- Result: 实验表明,对比流匹配在ImageNet-1k和CC3M基准测试中,训练速度提升9倍,去噪步骤减少5倍,FID降低8.9。
- Conclusion: 对比流匹配有效解决了条件流匹配的模糊性问题,显著提升了模型性能和效率。
astro-ph.SR
[128] Deep learning image burst stacking to reconstruct high-resolution ground-based solar observations
Christoph Schirninger,Robert Jarolim,Astrid M. Veronig,Christoph Kuckein
Main category: astro-ph.SR
TL;DR: 提出一种基于深度学习的实时图像重建方法,用于解决地面太阳望远镜观测中大气湍流导致的图像退化问题。
- Motivation: 地面太阳望远镜观测受大气湍流影响,现有重建方法在强湍流和高计算成本下表现不佳。
- Method: 采用无配对图像到图像转换的深度学习模型,将100张短曝光图像实时重建为高质量图像。
- Result: 该方法在感知质量上表现更优,尤其在斑点重建存在伪影时更具鲁棒性。
- Conclusion: 该方法能高效利用图像信息,在完整图像序列下实现最佳重建效果。
cs.MM
[129] CMIE: Combining MLLM Insights with External Evidence for Explainable Out-of-Context Misinformation Detection
Fanxiao Li,Jiaying Wu,Canyuan He,Wei Zhou
Main category: cs.MM
TL;DR: 论文提出CMIE框架,通过CRG策略和AS机制解决MLLM在检测OOC虚假信息时的深层关系捕捉和噪声问题,实验表明其优于现有方法。
- Motivation: 现有MLLM在检测OOC虚假信息时难以捕捉图像与文本间的深层语义关系,且证据噪声影响准确性。
- Method: 提出CMIE框架,结合CRG策略生成共存关系,AS机制评分关联性,选择性利用证据。
- Result: 实验显示CMIE在检测OOC虚假信息上优于现有方法。
- Conclusion: CMIE通过捕捉深层关系和优化证据利用,显著提升了OOC虚假信息检测的准确性。
cs.AI
[130] Ontology-based knowledge representation for bone disease diagnosis: a foundation for safe and sustainable medical artificial intelligence systems
Loan Dao,Ngoc Quoc Ly
Main category: cs.AI
TL;DR: 该研究提出了一种基于本体的骨病诊断框架,结合了分层神经网络、视觉问答系统和多模态深度学习模型,旨在提升医学AI系统的诊断可靠性。
- Motivation: 医学AI系统常缺乏系统性的领域专业知识整合,可能影响诊断的可靠性。本研究旨在通过本体框架解决这一问题。
- Method: 开发了一个基于本体的框架,包括分层神经网络、VQA系统和多模态深度学习模型,整合了影像、临床和实验室数据。
- Result: 框架展示了标准化结构和可重用组件的潜力,但实验验证因数据和计算资源限制尚未完成。
- Conclusion: 未来工作将扩展临床数据集并进行系统验证,框架有望扩展到其他疾病领域。
cs.CL
[131] HSSBench: Benchmarking Humanities and Social Sciences Ability for Multimodal Large Language Models
Zhaolu Kang,Junhao Gong,Jiaxu Yan,Wanke Xia,Yian Wang,Ziwen Wang,Huaxuan Ding,Zhuo Cheng,Wenhao Cao,Zhiyuan Feng,Siqi He,Shannan Yan,Junzhe Chen,Xiaomin He,Chaoya Jiang,Wei Ye,Kaidong Yu,Xuelong Li
Main category: cs.CL
TL;DR: HSSBench是一个专门用于评估多模态大语言模型(MLLMs)在人文学科和社会科学(HSS)任务中表现的基准测试,填补了现有评测的空白。
- Motivation: 现有MLLMs评测基准过于关注STEM领域的垂直推理,忽视了HSS领域所需的横向跨学科思维和知识整合能力。
- Method: 提出HSSBench,包含13,000多个精心设计的样本,覆盖六类任务,并通过多领域专家与自动化代理协作的数据生成流程。
- Result: 测试了20多个主流MLLMs,发现即使是先进模型也面临显著挑战。
- Conclusion: HSSBench有望推动MLLMs跨学科推理能力的提升,尤其是知识内化与跨领域连接能力。
[132] ViCocktail: Automated Multi-Modal Data Collection for Vietnamese Audio-Visual Speech Recognition
Thai-Binh Nguyen,Thi Van Nguyen,Quoc Truong Do,Chi Mai Luong
Main category: cs.CL
TL;DR: 本文提出了一种从原始视频生成AVSR数据集的高效方法,并展示了其在越南语中的成功应用,显著提升了在嘈杂环境中的性能。
- Motivation: 由于AVSR在噪声环境中的鲁棒性,但其发展受限于多语言数据集的稀缺,尤其是非英语语言。
- Method: 提出了一种自动化数据收集方法,从原始视频生成AVSR数据集,并优化了现有技术以提高效率和可访问性。
- Result: 自动收集的数据集支持了一个强大的越南语AVSR基线模型,在干净环境下表现优异,在嘈杂环境中显著优于传统ASR。
- Conclusion: 该方法为扩展AVSR至更多语言(尤其是资源匮乏语言)提供了可行路径。
[133] MMRefine: Unveiling the Obstacles to Robust Refinement in Multimodal Large Language Models
Gio Paik,Geewook Kim,Jinbae Im
Main category: cs.CL
TL;DR: MMRefine是一个多模态细化基准,用于评估多模态大语言模型(MLLMs)的错误细化能力,通过六种场景和错误类型分析性能瓶颈。
- Motivation: 随着推理过程中对增强推理能力的关注增加,需要评估MLLMs在检测和纠正错误方面的能力,而不仅仅是比较细化前后的最终准确性。
- Method: MMRefine提供了一个框架,通过六种不同场景和六种错误类型评估MLLMs的细化能力,并对开放和封闭MLLMs进行了实验。
- Result: 实验揭示了细化性能的瓶颈和阻碍因素,指出了有效推理增强的改进方向。
- Conclusion: MMRefine为MLLMs的错误细化能力提供了评估框架,并公开了代码和数据集,促进了进一步研究。
[134] ComfyUI-Copilot: An Intelligent Assistant for Automated Workflow Development
Zhenran Xu,Xue Yang,Yiyu Wang,Qingli Hu,Zijiao Wu,Longyue Wang,Weihua Luo,Kaifu Zhang,Baotian Hu,Min Zhang
Main category: cs.CL
TL;DR: ComfyUI-Copilot是一个基于大语言模型的插件,旨在提升ComfyUI平台的易用性和效率,通过智能节点推荐和一键工作流构建解决新用户面临的挑战。
- Motivation: ComfyUI虽然灵活且用户友好,但对新用户存在文档不足、模型配置复杂等问题,因此需要一种工具来降低入门门槛。
- Method: 系统采用分层多代理框架,包括中央助手代理和专用工作代理,结合知识库优化调试和部署。
- Result: 离线评估和用户反馈表明,插件能准确推荐节点并加速工作流开发,同时降低新手门槛并提升老手效率。
- Conclusion: ComfyUI-Copilot有效解决了ComfyUI的使用难题,适用于不同水平的用户。
[135] Parking, Perception, and Retail: Street-Level Determinants of Community Vitality in Harbin
HaoTian Lan
Main category: cs.CL
TL;DR: 研究提出了一种基于图像的可解释框架,分析中国城市社区街道的商业活力,发现车辆密度、绿化、清洁度和街道宽度等因素对零售表现和用户满意度的影响。
- Motivation: 探究社区街道商业活力的驱动因素,尤其是车辆可达性、环境质量和行人感知的复杂交互作用。
- Method: 利用街景图像和多模态大语言模型(VisualGLM-6B),结合GPT-4感知建模,构建社区商业活力指数(CCVI)并分析其与空间属性的关系。
- Result: 适度车辆存在可提升商业可达性,但过度停车会降低步行性和满意度;绿化和清洁度显著提高满意度,但对定价影响较弱;街道宽度调节车辆影响。
- Conclusion: 研究展示了AI辅助感知与城市形态分析结合的价值,为社区振兴提供了理论和工具支持。
eess.IV
[136] Gradient Inversion Attacks on Parameter-Efficient Fine-Tuning
Hasin Us Sami,Swapneel Sen,Amit K. Roy-Chowdhury,Srikanth V. Krishnamurthy,Basak Guler
Main category: eess.IV
TL;DR: 论文研究了联邦学习中参数高效微调(PEFT)的隐私风险,通过恶意设计的预训练模型和适配器模块,攻击者可以利用梯度反演攻击重构用户数据。
- Motivation: 联邦学习中PEFT通过共享少量轻量级模块的梯度提升效率,但其隐私保护能力尚未充分研究。
- Method: 通过设计恶意预训练模型和适配器模块,利用梯度反演攻击重构用户的微调数据。
- Result: 实验表明,攻击者可以高保真地重构大量微调图像数据。
- Conclusion: 研究揭示了PEFT的隐私风险,呼吁未来开发隐私保护机制。
[137] A Poisson-Guided Decomposition Network for Extreme Low-Light Image Enhancement
Isha Rao,Sanjay Ghosh
Main category: eess.IV
TL;DR: 该论文提出了一种轻量级深度学习方法,结合Retinex分解与泊松去噪,用于极低光条件下的图像去噪与增强。
- Motivation: 传统的高斯噪声假设在低光条件下不适用,而泊松噪声更能代表信号依赖性噪声,因此需要一种新方法来解决这一问题。
- Method: 采用基于Retinex分解和泊松去噪的编码器-解码器网络,通过泊松去噪损失函数处理信号依赖性噪声,无需反射和光照先验。
- Result: 实验表明,该方法显著提升了低光条件下的图像可见性和亮度,同时保持了图像结构和色彩一致性。
- Conclusion: 该方法在极低光条件下有效去噪并增强光照,具有实用性和高效性。
[138] DACN: Dual-Attention Convolutional Network for Hyperspectral Image Super-Resolution
Usman Muhammad,Jorma Laaksonen
Main category: eess.IV
TL;DR: DACN是一种用于高光谱图像超分辨率的双注意力卷积网络,通过多头部注意力和通道-空间注意力机制,结合优化的损失函数,显著提升了性能。
- Motivation: 现有2D CNN在高光谱图像超分辨率任务中依赖局部邻域,缺乏全局上下文理解,且受限于波段相关性和数据稀缺性。
- Method: DACN采用增强卷积和多头部注意力捕捉局部和全局特征依赖,通过通道和空间注意力机制聚焦关键区域,并使用L2正则化和空间-光谱梯度损失优化模型。
- Result: 在两个高光谱数据集上的实验表明,多头部注意力和通道注意力的组合优于单独使用任一机制。
- Conclusion: DACN通过双注意力机制和优化损失函数,有效解决了高光谱图像超分辨率中的全局上下文和波段相关问题。
[139] PixCell: A generative foundation model for digital histopathology images
Srikar Yellapragada,Alexandros Graikos,Zilinghan Li,Kostas Triaridis,Varun Belagali,Saarthak Kapse,Tarak Nath Nandi,Ravi K Madduri,Prateek Prasanna,Tahsin Kurc,Rajarsi R. Gupta,Joel Saltz,Dimitris Samaras
Main category: eess.IV
TL;DR: PixCell是一种基于扩散的生成基础模型,用于组织病理学,能够生成高质量图像以解决数据稀缺、隐私保护和虚拟染色等问题。
- Motivation: 解决组织病理学中数据稀缺、隐私保护和生成任务(如虚拟染色)的挑战。
- Method: 使用扩散模型PixCell,在PanCan-30M数据集上进行训练,采用渐进式训练策略和自监督条件。
- Result: PixCell生成多样且高质量的图像,可用于训练自监督模型、数据增强和教育,并支持分子标记推断。
- Conclusion: PixCell为计算病理学提供了强大的生成工具,加速研究并解决实际问题。
[140] DM-SegNet: Dual-Mamba Architecture for 3D Medical Image Segmentation with Global Context Modeling
Hangyu Ji
Main category: eess.IV
TL;DR: DM-SegNet提出了一种双Mamba架构,结合方向性状态转换和解剖感知分层解码,解决了现有医学SSM中编码器-解码器不兼容的问题。
- Motivation: 现有医学SSM在3D医学图像分割中因1D序列扁平化导致空间结构丢失,且解码器无法有效利用Mamba的状态传播能力。
- Method: DM-SegNet采用四方向3D扫描的Mamba模块保持空间一致性,引入门控空间卷积增强特征表示,并设计Mamba驱动的解码框架实现跨尺度状态同步。
- Result: 在Synapse和BraTS2023数据集上分别达到85.44%和90.22%的DSC,表现最优。
- Conclusion: DM-SegNet通过创新架构设计,显著提升了3D医学图像分割的性能。
cs.GR
[141] SSIMBaD: Sigma Scaling with SSIM-Guided Balanced Diffusion for AnimeFace Colorization
Junpyo Seo,Hanbin Koo,Jieun Yook,Byung-Ro Moon
Main category: cs.GR
TL;DR: 提出了一种基于扩散模型的动漫风格面部草图自动上色框架,通过SSIMBaD技术实现更平衡和忠实重建。
- Motivation: 传统方法依赖预定义噪声调度,可能损害感知一致性,因此需要一种新方法来保持结构保真度和风格迁移效果。
- Method: 采用连续时间扩散模型,引入SSIMBaD技术,通过sigma空间变换对齐感知退化,确保时间步长内的视觉难度均匀。
- Result: 在大规模动漫面部数据集上,该方法在像素精度和感知质量上均优于现有技术,并能泛化到多样风格。
- Conclusion: SSIMBaD框架在动漫面部上色任务中表现出色,提供了更高的保真度和视觉一致性。
[142] Handle-based Mesh Deformation Guided By Vision Language Model
Xingpeng Sun,Shiyang Jia,Zherong Pan,Kui Wu,Aniket Bera
Main category: cs.GR
TL;DR: 提出了一种无需训练、基于手柄的网格变形方法,利用视觉语言模型(VLM)通过提示工程选择和变形网格部分,结合多视角投票减少不确定性,实现高质量变形。
- Motivation: 现有网格变形方法存在输出质量低、需手动调参或依赖数据训练的问题,需一种更高效、自动化的解决方案。
- Method: 通过锥形奇点检测识别手柄,利用VLM选择可变形部分和手柄,结合多视角投票确定变形位置。
- Result: 在多个基准测试中,方法生成的变形更符合用户意图(CLIP和GPTEval3D评分),且变形失真低(膜能量量化)。
- Conclusion: 该方法无需训练、高度自动化,能稳定生成高质量网格变形。
[143] VoxDet: Rethinking 3D Semantic Occupancy Prediction as Dense Object Detection
Wuyang Li,Zhu Yu,Alexandre Alahi
Main category: cs.GR
TL;DR: 论文提出了一种实例中心的3D语义占据预测方法VoxDet,通过将体素级分类任务转化为实例级检测任务,解决了现有方法忽略实例区分性的问题。
- Motivation: 现有3D语义占据预测方法将任务视为密集分割,忽略了实例级区分性,导致实例不完整和相邻模糊。论文发现体素级标签隐含实例信息,利用这一观察提出新方法。
- Method: 提出VoxDet框架,将任务解耦为偏移回归和语义预测两个子任务,使用空间解耦的体素编码器和任务解耦的密集预测器实现实例感知预测。
- Result: VoxDet在相机和LiDAR输入下均达到SOTA,在SemanticKITTI测试集上取得63.0 IoU,排名第一。
- Conclusion: VoxDet通过实例级检测任务设计,显著提升了3D语义占据预测的性能和效率。
[144] A Fast Unsupervised Scheme for Polygonal Approximation
Bimal Kumar Ray
Main category: cs.GR
TL;DR: 提出了一种快速无监督的多边形近似闭合数字曲线方法,速度快于现有技术,并在Rosin度量与美学方面表现优异。
- Motivation: 解决现有多边形近似方法速度慢且可能遗漏重要顶点的问题。
- Method: 分三阶段:初始分割检测高曲率顶点,迭代顶点插入补充低曲率顶点,迭代合并去除冗余顶点,最后调整顶点优化美观。
- Result: 速度快于现有技术,Rosin度量表现优异,对几何变换具有鲁棒性。
- Conclusion: 该方法高效且美观,适用于多边形近似任务。
cs.RO
[145] RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics
Enshen Zhou,Jingkun An,Cheng Chi,Yi Han,Shanyu Rong,Chi Zhang,Pengwei Wang,Zhongyuan Wang,Tiejun Huang,Lu Sheng,Shanghang Zhang
Main category: cs.RO
TL;DR: RoboRefer是一种3D感知的视觉语言模型,通过监督微调(SFT)和强化微调(RFT)提升空间理解和推理能力,在RefSpatial-Bench上表现优异。
- Motivation: 现有方法在复杂3D场景理解和动态空间推理方面表现不足,RoboRefer旨在解决这一问题。
- Method: 结合SFT和RFT,引入专用深度编码器和度量敏感奖励函数,并使用大规模数据集RefSpatial进行训练。
- Result: SFT训练的RoboRefer空间理解成功率89.6%,RFT训练的模型在RefSpatial-Bench上超越其他基线17.4%。
- Conclusion: RoboRefer在空间任务中表现卓越,可应用于多种机器人执行动态任务。
[146] Learning Smooth State-Dependent Traversability from Dense Point Clouds
Zihao Dong,Alan Papalia,Leonard Jung,Alenna Spiro,Philip R. Osteen,Christa S. Robison,Michael Everett
Main category: cs.RO
TL;DR: SPARTA是一种通过点云估计基于接近角度的可通行性的方法,解决了越野自主性中地形可通行性与车辆状态相关的问题。
- Motivation: 越野自主性中,地形的可通行性常依赖于车辆状态(如接近角度),传统方法需要大量训练数据和重复模型推断,效率低下。
- Method: SPARTA通过输出1-球面上的平滑解析函数(基于傅里叶基函数)预测风险分布,减少计算开销并支持复用。
- Result: 在高保真仿真中,SPARTA在40米巨石场中的成功率为91%(基线为73%),并在硬件测试中展示了泛化能力。
- Conclusion: SPARTA通过几何结构和傅里叶基函数,高效解决了基于角度的可通行性预测问题,适用于实际场景。
[147] MineInsight: A Multi-sensor Dataset for Humanitarian Demining Robotics in Off-Road Environments
Mario Malizia,Charles Hamesse,Ken Hasselmann,Geert De Cubber,Nikolaos Tsiogkas,Eric Demeester,Rob Haelterman
Main category: cs.RO
TL;DR: MineInsight是一个公开的多传感器、多光谱数据集,用于越野地雷检测,包含多种目标和环境条件的数据。
- Motivation: 由于缺乏多样化和真实的数据集,地雷检测算法的可靠验证成为研究社区的挑战。
- Method: 数据集整合了无人地面车辆和机械臂的双视角传感器扫描,包括LiDAR和多光谱图像(RGB、VIS-SWIR、LWIR)。
- Result: 数据集包含35个目标(15个地雷和20个常见物体),约38,000张RGB帧、53,000张VIS-SWIR帧和108,000张LWIR帧。
- Conclusion: MineInsight为开发和评估地雷检测算法提供了基准,数据集已公开。
[148] Synthetic Dataset Generation for Autonomous Mobile Robots Using 3D Gaussian Splatting for Vision Training
Aneesh Deogan,Wout Beks,Peter Teurlings,Koen de Vos,Mark van den Brand,Rene van de Molengraft
Main category: cs.RO
TL;DR: 提出一种基于Unreal Engine的自动生成合成数据方法,用于训练目标检测算法,减少人工标注需求,并在机器人足球场景中验证其性能。
- Motivation: 人工标注数据集耗时、易错且多样性有限,尤其在机器人领域动态场景中更为突出。
- Method: 利用Unreal Engine和3D高斯泼溅技术快速生成合成数据,结合真实数据提升性能。
- Result: 合成数据训练的目标检测器性能与真实数据相当,且结合两者可显著提升检测效果。
- Conclusion: 该方法为机器人领域提供了一种高效、可扩展的数据集生成方案,减少人工标注负担。
cs.LG
[149] You Only Train Once
Christos Sakaridis
Main category: cs.LG
TL;DR: 论文提出了一种名为YOTO的方法,通过一次性训练自动优化损失权重超参数,避免了传统网格搜索的繁琐过程。
- Motivation: 传统方法需要多次训练以优化损失权重,耗时且低效。YOTO旨在通过一次性训练解决这一问题。
- Method: 将损失权重视为网络参数,通过梯度优化自动学习,并引入新颖的软最大层和正则化损失。
- Result: 在3D估计和语义分割任务中,YOTO表现优于传统网格搜索方法。
- Conclusion: YOTO提供了一种高效且性能优越的损失权重优化方法,适用于多种计算机视觉任务。
[150] StatsMerging: Statistics-Guided Model Merging via Task-Specific Teacher Distillation
Ranjith Merugu,Bryan Bo Cao,Shubham Jain
Main category: cs.LG
TL;DR: StatsMerging是一种基于统计的轻量级模型合并方法,利用SVD捕获任务重要性,无需真实标签或测试样本,通过知识蒸馏提升性能。
- Motivation: 解决在有限内存预算下合并多个大型模型的问题,同时避免依赖真实标签或测试样本。
- Method: 利用SVD提取权重分布统计量,设计轻量级学习器StatsMergeLearner,并引入任务特定教师蒸馏技术。
- Result: 在八个任务上的实验表明,StatsMerging在准确性、泛化能力和鲁棒性上优于现有技术。
- Conclusion: StatsMerging为模型合并提供了一种高效、无需标签的解决方案,适用于异构架构的视觉模型。
[151] Scaling Laws for Robust Comparison of Open Foundation Language-Vision Models and Datasets
Marianna Nezhurina,Tomer Porian,Giovanni Pucceti,Tommie Kerssies,Romain Beaumont,Mehdi Cherti,Jenia Jitsev
Main category: cs.LG
TL;DR: 论文提出了一种通过扩展定律(scaling laws)比较模型和数据集的方法,用于预训练选择,并首次为CLIP和MaMMUT两种语言-视觉学习模型推导了完整的扩展定律。结果显示MaMMUT在扩展性和样本效率上优于CLIP,并通过多任务和多数据集验证了结果的可靠性。
- Motivation: 研究动机在于通过扩展定律避免仅基于单一参考尺度的误导性结论,为开放基础模型和数据集的系统比较和改进提供方法。
- Method: 方法包括为CLIP和MaMMUT模型推导密集测量的扩展定律,并在分类、检索和分割等下游任务及多个数据集上验证比较结果。
- Result: 结果显示MaMMUT在扩展性和样本效率上优于CLIP,且在不同任务和数据集上趋势一致。
- Conclusion: 结论表明扩展定律的准确推导为跨尺度模型和数据集比较提供了有效手段,并发布了预训练模型和代码以支持复现。
[152] Exploring bidirectional bounds for minimax-training of Energy-based models
Cong Geng,Jia Wang,Li Chen,Zhiyong Gao,Jes Frellsen,Søren Hauberg
Main category: cs.LG
TL;DR: 论文提出了一种通过双向边界(同时优化下界和上界)来稳定训练能量模型(EBM)的方法,并比较了四种不同的对数似然边界。
- Motivation: 能量模型(EBMs)在密度估计中具有优雅的框架,但训练困难。传统方法通过极小化下界训练,但会导致不稳定。
- Method: 提出双向边界方法:最大化下界并最小化上界。研究了四种对数似然边界,包括基于生成器雅可比矩阵奇异值和互信息的下界,以及梯度惩罚和扩散过程的上界。
- Result: 双向边界方法稳定了EBM训练,实现了高质量的密度估计和样本生成。
- Conclusion: 双向边界方法有效解决了EBM训练的不稳定性,并提升了性能。
[153] Identifying and Understanding Cross-Class Features in Adversarial Training
Zeming Wei,Yiwen Guo,Yisen Wang
Main category: cs.LG
TL;DR: 论文通过类间特征归因的视角研究对抗训练(AT),发现跨类特征对鲁棒分类的重要性,并揭示了AT过程中模型学习特征的动态变化。
- Motivation: 探究对抗训练的动态机制及其对模型鲁棒性的影响,尤其是跨类特征在其中的作用。
- Method: 通过类间特征归因分析,结合合成数据模型和系统实验,研究AT过程中模型学习跨类特征和类特定特征的动态变化。
- Result: AT初期模型倾向于学习更多跨类特征,达到最佳鲁棒性后,随着鲁棒过拟合,模型更依赖类特定特征。
- Conclusion: 研究为理解AT机制提供了新视角,统一了软标签训练和鲁棒过拟合的现有特性。
[154] Aligning Latent Spaces with Flow Priors
Yizhuo Li,Yuying Ge,Yixiao Ge,Ying Shan,Ping Luo
Main category: cs.LG
TL;DR: 提出了一种基于流生成模型的新框架,用于对齐可学习潜在空间与任意目标分布,避免了昂贵的似然计算和ODE求解。
- Motivation: 传统方法在潜在空间对齐时计算复杂度高,需要解决ODE问题,限制了其应用。本文旨在提出一种更高效的方法。
- Method: 预训练流模型捕获目标分布,通过对齐损失正则化潜在空间,优化目标为变分下界的替代目标。
- Result: 实验证明对齐损失近似目标分布的负对数似然,并在ImageNet上验证了方法的有效性。
- Conclusion: 该框架为潜在空间对齐提供了新的理论支持和实用方法。
Powered by Deepseek & arXiv Daily AI Enhanced