Skip to content
每日arXiv - 2025年4月29日

以下论文的arXiv类型标签包含:cs.CV、cs.AI

cs.CV

[1] A Decade of You Only Look Once (YOLO) for Object Detection

Leo Thomas Ramos,Angel D. Sappa

Main category: cs.CV

TL;DR: 本文回顾了YOLO框架十年来的发展历程,总结了其技术演进、应用领域及未来方向。

  • Motivation: 纪念YOLO框架发布十周年,分析其在实时目标检测领域的影响和演变。
  • Method: 通过技术概述、架构趋势分析和应用领域调查,全面评估YOLO的发展。
  • Result: YOLO从高效检测器发展为多样化架构,具有模块化扩展性和跨领域适应性。
  • Conclusion: YOLO的未来发展需关注评估实践、伦理问题及技术持续创新。

[2] Benchmarking Multimodal Mathematical Reasoning with Explicit Visual Dependency

Zhikai Wang,Jiashuo Sun,Wenqi Zhang,Zhiqiang Hu,Xin Li,Fan Wang,Deli Zhao

Main category: cs.CV

TL;DR: 论文介绍了VCBENCH,一个针对多模态数学推理的基准测试,填补了当前评估中忽视视觉依赖和基础数学推理能力的空白。

  • Motivation: 当前大型视觉语言模型(LVLMs)在视觉和语言信息整合方面表现优异,但在基础数学推理和视觉依赖任务上存在评估不足的问题。
  • Method: 作者提出了VCBENCH,包含1,720个问题和6,697张图像,覆盖六个认知领域,用于评估多图像推理能力。
  • Result: 评估了26个先进LVLMs,发现性能差距显著,最高准确率不足50%。
  • Conclusion: 研究揭示了视觉-数学整合的挑战,为未来LVLM的发展提供了方向。

[3] Co-Training with Active Contrastive Learning and Meta-Pseudo-Labeling on 2D Projections for Deep Semi-Supervised Learning

David Aparco-Cardenas,Jancarlo F. Gomes,Alexandre X. Falcão,Pedro J. de Rezende

Main category: cs.CV

TL;DR: 论文提出了一种结合对比学习、教师-学生元伪标签和主动学习的方法active-DeepFA,用于在标记数据稀缺的场景下训练CNN模型。

  • Motivation: 解决深度学习模型训练中标记数据稀缺的问题,特别是在数据标注耗时且易出错的领域。
  • Method: 结合对比学习、教师-学生元伪标签和主动学习,通过双网络协作减少伪标签的确认偏差,并动态选择信息量大的样本进行标注。
  • Result: 在仅使用5%标记数据的生物图像数据集上,性能优于六种现有方法,并在3%标记数据下达到可比结果。
  • Conclusion: active-DeepFA在标记数据稀缺的场景下显著提升了模型性能,同时减少了标注成本。

[4] SORT3D: Spatial Object-centric Reasoning Toolbox for Zero-Shot 3D Grounding Using Large Language Models

Nader Zantout,Haochen Zhang,Pujith Kachana,Jinkai Qiu,Ji Zhang,Wenshan Wang

Main category: cs.CV

TL;DR: SORT3D是一种结合2D数据属性、启发式空间推理工具箱和大语言模型的方法,用于3D场景中的对象引用任务,无需文本到3D训练数据,并在零样本环境下实现高性能。

  • Motivation: 解决3D场景中对象引用任务的多样性、细粒度对象和复杂语言描述的挑战,同时克服3D领域自然语言数据稀缺的问题。
  • Method: 利用2D数据的丰富对象属性,结合启发式空间推理工具箱和大语言模型的顺序推理能力,无需文本到3D训练数据。
  • Result: 在两个基准测试中实现了最先进的性能,并在自动驾驶车辆上实时运行,适用于未见过的真实环境。
  • Conclusion: SORT3D是一种高效且泛化能力强的解决方案,适用于复杂3D场景中的对象引用任务。

[5] HierSum: A Global and Local Attention Mechanism for Video Summarization

Apoorva Beedu,Irfan Essa

Main category: cs.CV

TL;DR: 论文提出了一种名为HierSum的分层方法,用于总结教学视频,结合字幕的局部线索和视频级指令的全局信息,利用“最多重播”统计数据作为监督信号,显著提升了总结效果。

  • Motivation: 教学视频通常包含大量信息,但用户需要快速获取关键步骤。现有方法在识别重要片段时效果有限,因此需要一种更有效的方法。
  • Method: 提出HierSum方法,结合字幕的局部信息和视频级指令的全局上下文,利用“最多重播”统计数据作为监督信号。
  • Result: 在TVSum、BLiSS等基准数据集上,HierSum在F1分数和排名相关性等关键指标上优于现有方法。
  • Conclusion: HierSum通过多模态数据集训练显著提升了总结效果,为教学视频总结提供了有效解决方案。

[6] A Review of 3D Object Detection with Vision-Language Models

Ranjan Sapkota,Konstantinos I Roumeliotis,Rahul Harsha Cheppally,Marco Flores Calero,Manoj Karkee

Main category: cs.CV

TL;DR: 本文系统综述了基于视觉语言模型(VLMs)的3D目标检测,分析了100多篇论文,比较了传统方法与现代框架(如CLIP和3D LLMs),并探讨了当前挑战与未来方向。

  • Motivation: 3D目标检测与视觉语言模型的结合是一个新兴领域,但缺乏系统性分析。本文旨在填补这一空白,推动该领域发展。
  • Method: 通过分析100多篇论文,比较传统点云与体素网格方法与现代视觉语言框架,并探讨关键架构、预训练策略和提示工程方法。
  • Result: 现代视觉语言框架(如CLIP和3D LLMs)在开放词汇检测和零样本泛化方面表现优异,但仍面临数据集和计算资源限制。
  • Conclusion: 未来研究需解决3D-语言数据集不足和计算需求高的问题,以进一步推动3D目标检测与视觉语言模型的结合。

[7] Dream-Box: Object-wise Outlier Generation for Out-of-Distribution Detection

Brian K. S. Isaac-Medina,Toby P. Breckon

Main category: cs.CV

TL;DR: 论文提出了一种名为Dream-Box的方法,利用扩散模型在像素空间中生成对象级异常值,用于训练目标检测器进行OOD检测,同时提供可视化支持。

  • Motivation: 深度神经网络在训练和测试数据分布一致时表现优异,但OOD检测仍具挑战性。现有方法在特征空间生成异常值,但缺乏可视化,而像素空间方法在分类任务中表现良好,但未应用于目标检测。
  • Method: 使用扩散模型在像素空间生成对象级异常值,训练目标检测器进行OOD检测。
  • Result: Dream-Box在OOD检测性能上与传统方法相当,并首次提供了生成的OOD对象的具体可视化。
  • Conclusion: Dream-Box为OOD检测提供了一种新方法,结合了性能与可视化优势,填补了目标检测任务中的空白。

[8] Multi-Stage Boundary-Aware Transformer Network for Action Segmentation in Untrimmed Surgical Videos

Rezowan Shuvo,M S Mekala,Eyad Elyan

Main category: cs.CV

TL;DR: 论文提出了一种名为MSBATN的新方法,用于解决手术视频中动作分割的挑战,通过边界感知和分层滑动窗口注意力提升分割质量。

  • Motivation: 手术动作的变异性大且边界模糊,传统方法(如MS-TCN)容易产生过分割或欠分割问题,影响分割质量。
  • Method: 提出MSBATN,结合分层滑动窗口注意力和统一的损失函数,将动作分类与边界检测作为独立但相互依赖的任务处理。
  • Result: 在三个手术数据集上实验表明,MSBATN在F1分数上达到最优性能,并在其他指标上表现可比。
  • Conclusion: MSBATN通过边界投票机制和上下文信息,显著提升了动作分割的准确性,为手术工作流分析提供了有效工具。

[9] PyViT-FUSE: A Foundation Model for Multi-Sensor Earth Observation Data

Manuel Weber,Carly Beneke

Main category: cs.CV

TL;DR: PyViT-FUSE是一种用于地球观测数据的基础模型,通过注意力机制融合多模态图像,并使用金字塔结构的视觉变换器处理数据。

  • Motivation: 设计一个能够处理多模态、混合分辨率地球观测数据的模型,以提升数据融合和表征能力。
  • Method: 采用注意力机制融合输入波段,结合金字塔结构的视觉变换器,并通过自监督学习(SwAV算法)训练模型。
  • Result: 模型展示了融合机制的可解释性,并通过注意力分数可视化验证了其在下游任务中的适用性。
  • Conclusion: PyViT-FUSE为多模态地球观测数据提供了一种有效的融合和表征方法,具有广泛的应用潜力。

[10] Depth as Points: Center Point-based Depth Estimation

Zhiheng Tu,Xinjian Huang,Yong He,Ruiyang Zhou,Bo Du,Weitao Wu

Main category: cs.CV

TL;DR: 提出了一种高效生成虚拟数据集的方法,并基于此构建了虚拟深度估计数据集VirDepth;同时提出轻量级单目深度估计架构CenterDepth,结合全局语义和多尺度特征,实现了高效且高精度的深度估计。

  • Motivation: 解决自动驾驶中感知任务的数据收集复杂、计算和硬件需求高的问题。
  • Method: 开发高效虚拟数据集生成方法,构建VirDepth数据集;提出CenterDepth架构,结合Center FC-CRFs算法和多尺度特征聚合。
  • Result: 实验表明,CenterDepth在计算速度和预测精度上均表现优异。
  • Conclusion: 提出的方法在自动驾驶深度估计任务中具有高效性和高精度优势。

[11] IoT Botnet Detection: Application of Vision Transformer to Classification of Network Flow Traffic

Hassan Wasswa,Timothy Lynar,Aziida Nanyonga,Hussein Abbass

Main category: cs.CV

TL;DR: 本文提出了一种新颖的预处理方法,使视觉变换器(ViT)能够用于基于网络流数据包的物联网僵尸网络攻击检测,并通过改进ViT模型支持多种分类器。

  • Motivation: 现有工具无法从物联网网络流数据包中提取序列和空间模式,限制了变换器模型的应用。
  • Method: 从.pcap文件中提取特征,将每个实例转换为1通道2D图像形状,并改进ViT模型以支持多种分类器(如DNN、LSTM、BLSTM)。
  • Result: 在两种物联网攻击数据集上,改进后的模型在精确率、召回率和F1分数上表现出色。
  • Conclusion: 该方法成功扩展了ViT在物联网安全领域的应用,并展示了多种分类器的潜力。

[12] CAMeL: Cross-modality Adaptive Meta-Learning for Text-based Person Retrieval

Hang Yu,Jiahao Wen,Zhedong Zheng

Main category: cs.CV

TL;DR: 本文提出了一种基于跨模态自适应元学习(CAMeL)的领域无关预训练框架,以提升模型在预训练阶段的泛化能力,从而支持下游任务。

  • Motivation: 由于标注成本高和隐私保护问题,研究者通常依赖合成数据进行预训练和微调,但这些数据存在领域偏差,影响模型的扩展性。
  • Method: 开发了一系列反映真实场景多样性和复杂性的任务,并引入动态错误样本记忆单元记录多任务中的错误历史,同时采用自适应双速更新策略平衡新任务和历史任务的权重更新。
  • Result: 模型在CUHK-PEDES、ICFG-PEDES和RSTPReid等真实基准测试中超越了现有最优方法,且在处理有偏合成图像和噪声文本标注时表现出鲁棒性和扩展性。
  • Conclusion: CAMeL框架通过领域无关的预训练和动态任务适应策略,显著提升了文本行人检索任务的性能和泛化能力。

[13] Video CLIP Model for Multi-View Echocardiography Interpretation

Ryo Takizawa,Satoshi Kodera,Tempei Kabayama,Ryo Matsuoka,Yuta Ando,Yuto Nakamura,Haruki Settai,Norihiko Takeda

Main category: cs.CV

TL;DR: 本文提出了一种基于视频-语言模型的多视角超声心动图分析方法,显著提高了诊断准确性。

  • Motivation: 现有基于单帧图像的视觉语言模型在超声心动图分析中准确性较低,尤其是对依赖心脏运动的疾病诊断。多视角视频输入可能进一步提升准确性。
  • Method: 开发了一种视频-语言模型,输入五种不同视角的完整视频序列,并基于60,747例超声心动图视频与临床报告对进行训练。
  • Result: 实验表明,该多视角视频模型比单视角视频或静态图像模型的诊断准确性更高。
  • Conclusion: 多视角视频输入和完整序列训练显著提升了超声心动图分析的准确性。

[14] Audio-Driven Talking Face Video Generation with Joint Uncertainty Learning

Yifan Xie,Fei Ma,Yi Bin,Ying He,Fei Yu

Main category: cs.CV

TL;DR: 论文提出了一种联合不确定性学习网络(JULNet),用于高质量说话人脸视频生成,通过预测误差图和不确定性图来提升模型性能和鲁棒性。

  • Motivation: 现有说话人脸视频生成系统在视觉不确定性的学习上关注不足,导致视觉质量不一致和性能不可靠。
  • Method: 设计了一个不确定性模块,分别预测误差图和不确定性图,并通过KL散度项和直方图技术匹配两者的分布。
  • Result: 实验表明,该方法在高质量和音频-唇同步方面优于现有方法。
  • Conclusion: JULNet通过联合优化误差和不确定性,显著提升了说话人脸视频生成的性能和鲁棒性。

[15] Multi-Resolution Pathology-Language Pre-training Model with Text-Guided Visual Representation

Shahad Albastaki,Anabia Sohail,Iyyakutti Iyappan Ganapathi,Basit Alawode,Asim Khan,Sajid Javed,Naoufel Werghi,Mohammed Bennamoun,Arif Mahmood

Main category: cs.CV

TL;DR: 提出了一种多分辨率视觉语言模型(VLM)方法,用于计算病理学(CPath),通过多分辨率对齐和跨分辨率对齐提升任务性能。

  • Motivation: 单分辨率图像在癌症亚型分类等任务中信息有限,需要多分辨率方法以提取更丰富的细节。
  • Method: 利用全切片图像(WSIs)提取多分辨率组织学补丁,并通过CPath VLM生成文本描述,引入多分辨率视觉-文本对齐和跨分辨率对齐。
  • Result: 在TCGA数据集上预训练,模型在多个任务和数据集上优于现有方法。
  • Conclusion: 多分辨率VLM方法显著提升了CPath任务的性能,代码已开源。

[16] Spike Imaging Velocimetry: Dense Motion Estimation of Fluids Using Spike Cameras

Yunzhong Zhang,Bo Xiong,You Zhou,Changqing Su,Zhen Cheng,Zhaofei Yu,Xun Cao,Tiejun Huang

Main category: cs.CV

TL;DR: 提出了一种基于脉冲相机的深度学习框架(SIV),用于复杂流场的高精度测量,性能优于现有方法。

  • Motivation: 传统粒子图像测速(PIV)在复杂流场中表现有限,需要更精确且非侵入的测量方法。
  • Method: 结合了细节保持分层变换(DPHT)模块和图编码器(GE),从脉冲流中提取运动特征和上下文信息。
  • Result: 在提出的PSSD数据集上,SIV方法表现优于基线方法。
  • Conclusion: SIV为复杂流场测量提供了高效解决方案,相关数据和代码已开源。

[17] PiercingEye: Dual-Space Video Violence Detection with Hyperbolic Vision-Language Guidance

Jiaxu Leng,Zhanjie Wu,Mingpi Tan,Mengjingcheng Mo,Jiankang Zheng,Qingqing Li,Ji Gan,Xinbo Gao

Main category: cs.CV

TL;DR: 提出PiercingEye框架,结合欧几里得和双曲几何,通过双空间学习和语言模型增强模糊样本,提升视频暴力检测性能。

  • Motivation: 现有弱监督视频暴力检测方法依赖欧几里得表示学习,难以区分视觉相似但语义不同的事件,且模糊样本不足。
  • Method: 提出PiercingEye框架,结合双曲几何的层次建模和跨空间注意力机制,利用语言模型生成模糊事件描述,并通过对比损失优化。
  • Result: 在XD-Violence和UCF-Crime基准测试中达到最优性能,尤其在模糊事件子集上表现突出。
  • Conclusion: PiercingEye通过双空间学习和语言模型辅助,显著提升了视频暴力检测的细粒度能力。

[18] WLTCL: Wide Field-of-View 3-D LiDAR Truck Compartment Automatic Localization System

Guodong Sun,Mingjing Li,Dingjie Liu,Mingxuan Liu,Bo Wu,Yang Zhang

Main category: cs.CV

TL;DR: 提出了一种基于宽视场3D LiDAR的卡车车厢自动定位系统,解决了现有方法对不同尺寸车厢适应性差、坐标系不统一及可靠性不足的问题。

  • Motivation: 物流自动化中,卡车车厢的精确自动定位是关键,但现有方法难以适应不同尺寸车厢,且在复杂环境中可靠性低。
  • Method: 利用宽视场3D LiDAR生成高密度点云,结合停车区域约束分割车厢点云,并通过几何特征定位关键点。
  • Result: 系统在多种尺寸车厢和复杂场景中表现出高定位精度和低计算资源消耗。
  • Conclusion: 该系统具有高可靠性和实用性,适用于物流自动化领域。

[19] Exploiting Multiple Representations: 3D Face Biometrics Fusion with Application to Surveillance

Simone Maurizio La Cava,Roberto Casula,Sara Concas,Giulia Orrù,Ruben Tolosana,Martin Drahansky,Julian Fierrez,Gian Luca Marcialis

Main category: cs.CV

TL;DR: 研究探讨了如何利用多种3D人脸重建算法提升人脸识别系统在复杂场景中的性能,并通过融合方法增强生物识别鲁棒性。

  • Motivation: 解决3D人脸重建算法在不同应用场景中的局限性,提升人脸识别系统在非受控环境中的表现。
  • Method: 采用参数化和非参数化的分数级融合方法,结合多种3D人脸重建算法,进行跨数据集和不同条件下的测试。
  • Result: 实验表明,不同3D人脸重建算法的独特信息可以提升系统在多场景中的泛化能力,融合策略能增强识别系统的可靠性。
  • Conclusion: 提出的融合方法不仅适用于人脸验证任务,还可扩展至其他与身份识别无关的人脸生物识别任务。

[20] Sim-to-Real: An Unsupervised Noise Layer for Screen-Camera Watermarking Robustness

Yufeng Wu,Xin Liao,Baowei Wang,Han Fang,Xiaoshuai Wu,Guiling Wang

Main category: cs.CV

TL;DR: 论文提出了一种名为Simulation-to-Real (S2R)的无监督噪声层方法,用于增强屏幕-相机图像水印的鲁棒性,解决了现有方法在噪声建模和数据配对上的局限性。

  • Motivation: 未经授权的屏幕截图和传播会导致数据泄露和信息盗窃等安全问题。现有水印方法在噪声建模上存在偏差或依赖配对数据,无法有效逼近真实屏幕-相机噪声。
  • Method: 提出S2R方法,利用无配对数据学习模拟噪声与真实噪声分布之间的差异,而非直接学习从清晰图像到真实图像的映射。
  • Result: 实验证明S2R在鲁棒性和泛化性上优于现有方法。
  • Conclusion: S2R通过无监督学习噪声分布差异,显著提升了水印的鲁棒性,为屏幕-相机图像的安全保护提供了更优方案。

[21] Kinship Verification through a Forest Neural Network

Ali Nazari,Mohsen Ebrahimi Moghaddam,Omidreza Borzoei

Main category: cs.CV

TL;DR: 提出了一种基于图神经网络的亲属关系验证方法,结合中心损失改进分类模块,在KinFaceW数据集上表现优异。

  • Motivation: 传统方法使用面部表示进行亲属关系验证,准确性较低,而联合表示方法虽更准确但计算复杂。本文旨在利用图神经网络结合面部表示,达到与联合表示方法相当的效果。
  • Method: 采用图神经网络概念,设计分类模块结构,并引入中心损失逐步优化网络训练。
  • Result: 在KinFaceW-II上取得最佳结果,平均提升1.6;在KinFaceW-I上接近最佳表现。
  • Conclusion: 所提方法在亲属关系验证任务中表现优异,代码已开源。

[22] R-Sparse R-CNN: SAR Ship Detection Based on Background-Aware Sparse Learnable Proposals

Kamirul Kamirul,Odysseas Pappas,Alin Achim

Main category: cs.CV

TL;DR: R-Sparse R-CNN是一种用于SAR图像中定向船舶检测的新方法,通过稀疏可学习提案和背景感知提案(BAPs)提升检测精度,结合双上下文池化(DCP)和交互模块,显著优于现有技术。

  • Motivation: SAR图像中船舶检测的复杂性需要更高效的模型,能够区分船舶与复杂背景。
  • Method: 采用稀疏提案(BAPs)避免冗余计算,结合DCP统一提取船舶和背景特征,并通过交互模块建模关系。
  • Result: 在SSDD和RSDD-SAR数据集上分别提升12.8%和11.9%,显著优于现有技术。
  • Conclusion: R-Sparse R-CNN是一种高效且准确的SAR船舶检测框架。

[23] 3DPyranet Features Fusion for Spatio-temporal Feature Learning

Ihsan Ullah,Alfredo Petrosino

Main category: cs.CV

TL;DR: 论文提出了一种名为3DPyraNet的3D金字塔神经网络及其变体3DPyraNet-F,用于时空特征学习,减少了参数和计算成本,并在视频动作和场景识别中表现优异。

  • Motivation: 传统CNN的深层变体虽然有效,但参数增多,失去了CNN参数少的优势。本文旨在提出一种新方法,既能学习时空特征,又保持低参数和计算成本。
  • Method: 提出3DPyraNet,采用新的加权方案从时空维度学习特征,保持空间拓扑结构;3DPyraNet-F提取最高层特征图,融合后输入线性SVM分类器。
  • Result: 3DPyraNet在真实环境中表现良好,尤其在相机运动情况下;3DPyraNet-F在三个基准数据集上优于现有方法,第四个数据集表现相当。
  • Conclusion: 3DPyraNet和3DPyraNet-F在减少参数和计算成本的同时,有效提升了视频动作和场景识别的性能。

[24] MediAug: Exploring Visual Augmentation in Medical Imaging

Xuyin Qi,Zeyu Zhang,Canxuan Gang,Hao Zhang,Lei Zhang,Zhiwei Zhang,Yang Zhao

Main category: cs.CV

TL;DR: 该论文提出了MediAug框架,系统评估了六种混合增强方法在医学影像中的表现,并展示了不同方法在不同任务和架构中的优势。

  • Motivation: 解决医学影像中数据增强的两大挑战:自然图像与医学图像的领域差异,以及现有研究的碎片化和局限性。
  • Method: 提出统一评估框架MediAug,集成六种混合增强方法(MixUp、YOCO、CropMix、CutMix、AugMix、SnapMix)和两种骨干网络(ResNet-50、ViT-B),在脑肿瘤MRI和眼病眼底数据集上进行实验。
  • Result: MixUp在ResNet-50脑肿瘤分类任务中表现最佳(79.19%准确率),SnapMix在ViT-B中表现最佳(99.44%);YOCO在ResNet-50眼病分类任务中表现最佳(91.60%),CutMix在ViT-B中表现最佳(97.94%)。
  • Conclusion: MediAug为医学影像数据增强提供了全面且可复现的基准,证明了混合增强方法的有效性,并展示了不同方法在不同任务中的优势。

[25] VISUALCENT: Visual Human Analysis using Dynamic Centroid Representation

Niaz Ahmad,Youngmoon Lee,Guanghui Wang

Main category: cs.CV

TL;DR: VISUALCENT是一个统一的人体姿态和实例分割框架,通过基于质心的自底向上关键点检测和动态质心聚类像素,提升了多人视觉分析的通用性和扩展性。

  • Motivation: 解决多人视觉分析中通用性和扩展性的限制。
  • Method: 采用基于质心的自底向上关键点检测范式,结合关键点热图和动态质心(MaskCentroid)进行像素聚类。
  • Result: 在COCO和OCHuman数据集上表现出色,mAP分数和执行帧率优于现有方法。
  • Conclusion: VISUALCENT在准确性和实时性能上具有优势,适用于快速变化或严重遮挡的环境。

[26] Generative AI for Character Animation: A Comprehensive Survey of Techniques, Applications, and Future Directions

Mohammad Mahdi Abootorabi,Omid Ghahroodi,Pardis Sadat Zahraei,Hossein Behzadasl,Alireza Mirrokni,Mobina Salimipanah,Arash Rasouli,Bahar Behzadipour,Sara Azarnoush,Benyamin Maleki,Erfan Sadraiye,Kiarash Kiani Feriz,Mahdi Teymouri Nahad,Ali Moghadasi,Abolfazl Eshagh Abianeh,Nizi Nazar,Hamid R. Rabiee,Mahdieh Soleymani Baghshah,Meisam Ahmadi,Ehsaneddin Asgari

Main category: cs.CV

TL;DR: 本文是一篇关于生成式AI在角色动画中应用的综述,涵盖面部动画、表情渲染、手势建模等多个领域,旨在为研究者和开发者提供全面的资源。

  • Motivation: 生成式AI在动画领域的快速发展使得需要一篇综合性的综述来整合最新进展,避免以往研究中孤立讨论各个子领域的问题。
  • Method: 通过分析面部动画、表情渲染、图像合成、手势建模等主要应用领域,结合前沿研究、实际部署、常用数据集和新兴趋势,提供全面视角。
  • Result: 综述总结了生成式AI在角色动画中的最新技术,并提供了背景知识、评估指标和资源链接,帮助新人快速入门。
  • Conclusion: 本文为生成式AI动画领域的研究者和开发者提供了全面的参考,指出了开放挑战和未来研究方向。

[27] Dual-Branch Residual Network for Cross-Domain Few-Shot Hyperspectral Image Classification with Refined Prototype

Anyong Qin,Chaoqi Yuan,Qiang Li,Feng Yang,Tiecheng Song,Chenqiang Gao

Main category: cs.CV

TL;DR: 提出了一种双分支残差网络,结合空间和光谱特征,并通过改进原型和核概率匹配策略提升跨数据集适应性。

  • Motivation: 解决CNN在HSI分类中的高计算成本和泛化能力不足问题,以及领域偏移对跨数据集适应性的影响。
  • Method: 采用双分支残差网络整合空间和光谱特征,通过正则项优化原型,并使用核概率匹配策略对齐源域和目标域特征。
  • Result: 在四个公开HSI数据集上表现优于其他方法。
  • Conclusion: 该方法有效提升了HSI分类的性能和跨数据集适应性。

[28] HoloDx: Knowledge- and Data-Driven Multimodal Diagnosis of Alzheimer's Disease

Qiuhui Chen,Jintao Wang,Gang Wang,Yi Hong

Main category: cs.CV

TL;DR: HoloDx是一个结合领域知识和多模态数据的框架,通过动态整合专家知识和数据提升阿尔茨海默病的诊断准确性。

  • Motivation: 现有方法难以充分利用多模态信息且缺乏动态整合领域知识的机制,HoloDx旨在解决这些问题。
  • Method: HoloDx采用知识注入模块和记忆注入模块,分别通过知识感知门控交叉注意力和原型记忆注意力动态整合领域知识和患者信息。
  • Result: 在五个AD数据集上,HoloDx表现优于现有方法,诊断准确性和泛化能力更强。
  • Conclusion: HoloDx通过结合领域知识和数据,显著提升了AD诊断的准确性和可解释性。

[29] Learning to Drive from a World Model

Mitchell Goff,Greg Hogan,George Hotz,Armand du Parc Locmaria,Kacper Raczy,Harald Schäfer,Adeeb Shihadeh,Weixing Zhang,Yassine Yousfi

Main category: cs.CV

TL;DR: 提出一种端到端训练架构,利用真实驾驶数据在模拟器中训练驾驶策略,无需人工编码规则。

  • Motivation: 现有自动驾驶系统依赖人工编码的感知输出和驾驶规则,而直接从人类驾驶数据中学习可以简化架构并提高扩展性。
  • Method: 提出两种模拟方法:重投影模拟和学习世界模型,用于训练驾驶策略。
  • Result: 两种方法均能训练出无需人工编码规则的驾驶策略,并在闭环模拟和真实ADAS中验证性能。
  • Conclusion: 端到端学习方法可行,能有效替代传统人工编码规则。

[30] MIA-Mind: A Multidimensional Interactive Attention Mechanism Based on MindSpore

Zhenkai Qin,Jiaquan Liang,Qiao Fang

Main category: cs.CV

TL;DR: MIA-Mind是一种轻量级多维交互注意力机制,通过联合建模空间和通道特征提升特征表示效果。

  • Motivation: 现有注意力机制独立建模通道重要性和空间显著性,忽视了其内在关联,限制了效果。
  • Method: 提出MIA-Mind,基于MindSpore框架,采用统一的跨注意力融合策略联合建模空间和通道特征。
  • Result: 在CIFAR-10、ISBI2012和CIC-IDS2017数据集上分别达到82.9%、78.7%和91.9%的准确率。
  • Conclusion: MIA-Mind具有轻量化和泛化能力强的特点,未来将扩展至大规模数据集和分布式部署。

[31] Boosting Single-domain Generalized Object Detection via Vision-Language Knowledge Interaction

Xiaoran Xu,Jiangang Yang,Wenyue Chong,Wenhui Shi,Shichu Sun,Jing Xing,Jian Liu

Main category: cs.CV

TL;DR: 论文提出了一种新的跨模态特征学习方法,通过细粒度文本和视觉特征的动态交互,提升单域广义目标检测(S-DGOD)的性能。

  • Motivation: 解决现有S-DGOD方法在细粒度区域和对象级特征学习上的不足,适应多域场景需求。
  • Method: 提出跨模态和区域感知特征交互机制,结合跨域提议精炼与混合策略。
  • Result: 在Cityscapes-C和DWD基准数据集上分别提升8.8%和7.9% mPC。
  • Conclusion: 新方法显著提升了S-DGOD任务的性能,适用于多域场景。

[32] Towards Latency-Aware 3D Streaming Perception for Autonomous Driving

Jiaqi Peng,Tai Wang,Jiangmiao Pang,Yuan Shen

Main category: cs.CV

TL;DR: 提出了一种针对边缘设备运行时延迟的新基准测试和LASP框架,通过历史特征整合和预测检测优化3D感知性能。

  • Motivation: 现有3D感知算法在边缘设备上运行时延迟问题严重,影响实际部署效果。
  • Method: 提出LASP框架,包含延迟感知的历史特征整合和预测检测模块。
  • Result: 在Jetson AGX Orin上,在线性能接近离线评估的80%。
  • Conclusion: LASP框架有效解决了延迟问题,适用于不同延迟水平的场景。

[33] Blind Source Separation Based on Sparsity

Zhongxuan Li

Main category: cs.CV

TL;DR: 该论文探讨了盲源分离(BSS)中的稀疏表示方法,提出了一种改进的块稀疏字典学习算法(SAC+BK-SVD),并在图像分割和盲图像分离中验证了其优越性。

  • Motivation: 传统独立成分分析(ICA)方法依赖源信号独立性的假设,存在局限性。稀疏表示方法(如MCA)通过信号在字典中的稀疏分解提供了新的解决方案。
  • Method: 论文介绍了稀疏表示理论、块坐标松弛MCA算法及其变体(MMCA和GMCA),并提出了一种改进的块稀疏字典学习算法(SAC+BK-SVD)。
  • Result: 实验表明,SAC+BK-SVD在盲图像分离中优于传统K-SVD方法,分离质量更高。
  • Conclusion: 稀疏表示和块稀疏字典学习为BSS提供了有效工具,改进的SAC+BK-SVD算法在性能上具有显著优势。

[34] DeepSPG: Exploring Deep Semantic Prior Guidance for Low-light Image Enhancement with Multimodal Learning

Jialang Lu,Huayu Zhao,Huiyu Zhai,Xingxing Yang,Shini Han

Main category: cs.CV

TL;DR: 论文提出了一种基于Retinex图像分解的深度语义先导框架(DeepSPG),通过预训练的语义分割模型和多模态学习,探索低光图像增强中的语义信息。

  • Motivation: 现有低光图像增强方法忽略了语义信息,尤其是在极暗区域。
  • Method: 结合图像级和文本级语义先导,设计多尺度语义感知结构,指导增强过程。
  • Result: 在五个基准数据集上表现优于现有方法。
  • Conclusion: DeepSPG通过多模态语义先导显著提升了低光图像增强效果。

[35] PAD: Phase-Amplitude Decoupling Fusion for Multi-Modal Land Cover Classification

Huiling Zheng,Xian Zhong,Bin Liu,Yi Xiao,Bihan Wen,Xiaofeng Li

Main category: cs.CV

TL;DR: 提出了一种名为PAD的频率感知框架,通过解耦相位和振幅分量,解决了SAR和RGB图像融合中的模态异质性和光谱互补性利用不足问题。

  • Motivation: SAR和RGB图像融合因模态异质性和光谱互补性利用不足而具有挑战性,现有方法难以分离共享结构和模态特定特征。
  • Method: PAD框架在傅里叶域分离相位(模态共享)和振幅(模态特定)分量,包括相位谱校正(PSC)和振幅谱融合(ASF)。
  • Result: 在WHU-OPT-SAR和DDHR-SK数据集上表现出色,达到最先进性能。
  • Conclusion: PAD为遥感中的物理感知多模态融合建立了新范式。

[36] RadioFormer: A Multiple-Granularity Radio Map Estimation Transformer with 1\textpertenthousand Spatial Sampling

Zheng Fang,Kangjun Liu,Ke Chen,Qingyu Liu,Jianguo Zhang,Lingyang Song,Yaowei Wang

Main category: cs.CV

TL;DR: 论文提出RadioFormer,一种多粒度Transformer模型,用于解决无线电地图估计中空间稀疏观测的挑战,通过双流自注意力模块和多尺度表示,显著优于现有方法。

  • Motivation: 现有深度视觉模型(如U-Net)在无线电地图估计中需要足够的空间观测(0.01%-1%像素),但在实际场景中,空间采样可能极度稀疏,导致性能受限。
  • Method: 提出RadioFormer,采用双流自注意力模块(DSA)分别学习像素级信号功率相关性和块级建筑物几何特征,并通过跨流交叉注意力模块(CCA)整合多尺度表示。
  • Result: 在RadioMapSeer数据集上的实验表明,RadioFormer在无线电地图估计中优于现有方法,计算成本最低,且具有出色的泛化能力和零样本性能。
  • Conclusion: RadioFormer在极稀疏观测条件下表现出色,为无线电地图估计提供了更实用的解决方案。

[37] IM-Portrait: Learning 3D-aware Video Diffusion for PhotorealisticTalking Heads from Monocular Videos

Yuan Li,Ziqian Bai,Feitong Tan,Zhaopeng Cui,Sean Fanello,Yinda Zhang

Main category: cs.CV

TL;DR: 提出了一种基于扩散模型的3D感知方法,直接从单张身份图像和显式控制信号生成逼真的说话头部视频,无需显式3D重建或多视角训练数据。

  • Motivation: 现有方法通常需要额外的3D重建阶段或联合优化,而本文方法通过单次去噪过程直接生成最终输出,简化流程并提升效率。
  • Method: 利用Multiplane Images (MPIs)确保几何一致性,并通过随机在目标或参考相机空间重建MPIs的训练机制,同时学习图像细节和3D信息。
  • Result: 实验表明,该方法在头像质量和新视角渲染能力上具有竞争力。
  • Conclusion: 该方法通过单阶段生成和训练机制,实现了高效且高质量的3D感知视频生成。

[38] Segmenting Objectiveness and Task-awareness Unknown Region for Autonomous Driving

Mi Zheng,Guanglei Yang,Zitong Huang,Zhenhua Guo,Kevin Han,Wangmeng Zuo

Main category: cs.CV

TL;DR: 提出了一种名为SOTA的新框架,通过语义融合块(SFB)和场景理解引导的提示上下文适配器(SG-PCA)提升道路异常检测性能。

  • Motivation: 现有道路异常检测方法在目标属性和环境约束方面存在不足,导致对异常区域的检测不完整或无关。
  • Method: 结合SFB增强目标性分割,利用SG-PCA过滤与任务无关的异常。
  • Result: 在多个基准数据集上验证,SOTA显著提升了OOD检测性能。
  • Conclusion: SOTA框架在道路场景中实现了更鲁棒和准确的异常分割。

[39] LRFusionPR: A Polar BEV-Based LiDAR-Radar Fusion Network for Place Recognition

Zhangshuo Qi,Luqi Cheng,Zijie Zhou,Guangming Xiong

Main category: cs.CV

TL;DR: LRFusionPR提出了一种融合LiDAR和雷达数据的双分支网络方法,用于提高GPS缺失环境中的地点识别精度和鲁棒性。

  • Motivation: 在GPS缺失环境中,LiDAR和雷达的地点识别方法各有优势,但融合两者仍面临挑战,如雷达数据的噪声和稀疏性,以及异构雷达配置的复杂性。
  • Method: 提出双分支网络,在统一的极坐标BEV表示中融合不同模态数据,利用交叉注意力进行跨模态特征交互,并通过蒸馏分支提升鲁棒性。
  • Result: 在多个数据集上的评估表明,LRFusionPR实现了高精度的地点识别,并在不同天气条件下保持鲁棒性。
  • Conclusion: LRFusionPR通过LiDAR和雷达的有效融合,显著提升了地点识别的性能,并具备实际应用的潜力。

[40] Adaptive Dual-domain Learning for Underwater Image Enhancement

Lingtao Peng,Liheng Bian

Main category: cs.CV

TL;DR: 论文提出了一种基于空间-光谱双域自适应学习的水下图像增强方法SS-UIE,解决了现有方法未同时考虑空间区域和光谱波段退化水平不一致的问题,并通过频率损失函数强化高频细节区域的关注。

  • Motivation: 现有学习型水下图像增强方法未同时考虑空间区域和光谱波段退化水平的不一致性,且对所有区域平等处理,忽略了高频细节区域的重建难度。
  • Method: 提出SS-UIE方法,结合空间多尺度循环选择性扫描模块(MCSS)和光谱自注意力模块(SWSA)构建空间-光谱块(SS-block),并通过频率损失函数(FWL)优化高频细节。
  • Result: 实验表明SS-UIE在性能和计算成本上优于现有方法。
  • Conclusion: SS-UIE通过双域自适应学习和频率损失函数,有效提升了水下图像增强的性能和效率。

[41] FlexPara: Flexible Neural Surface Parameterization

Yuming Zhao,Qijian Zhang,Junhui Hou,Jiazhi Xia,Wenping Wang,Ying He

Main category: cs.CV

TL;DR: FlexPara是一个无监督神经优化框架,用于实现全局和多图表表面参数化,通过自适应变形的2D UV坐标与3D表面点建立映射。

  • Motivation: 传统参数化方法需要高质量的网格三角剖分,且仅限于简单拓扑结构,缺乏灵活性和可控性。FlexPara旨在提供更灵活、可控的处理流程。
  • Method: 设计了一系列几何可解释的子网络(切割、变形、展开、包裹),构建双向循环映射框架,无需手动指定切割缝,并支持自适应学习图表分配。
  • Result: 实验表明FlexPara具有普适性、优越性和潜力。
  • Conclusion: FlexPara为表面参数化提供了新的神经优化范式,代码将公开。

[42] CapsFake: A Multimodal Capsule Network for Detecting Instruction-Guided Deepfakes

Tuan Nguyen,Naseem Khan,Issa Khalil

Main category: cs.CV

TL;DR: CapsFake是一种新型多模态胶囊网络,用于检测基于文本提示的深度伪造图像编辑,显著优于现有方法。

  • Motivation: 深度伪造技术(尤其是基于指令的图像编辑)对数字图像完整性构成威胁,现有检测系统难以识别其细微、上下文感知的篡改。
  • Method: 提出CapsFake,通过整合视觉、文本和频域模态的低级胶囊,利用竞争路由机制动态聚合局部特征,精确识别篡改区域。
  • Result: 在多个数据集上,CapsFake的检测准确率比现有方法高20%,对自然扰动和对抗攻击的检测率分别超过94%和96%。
  • Conclusion: CapsFake为对抗复杂图像篡改提供了强大框架,具有优异的泛化能力。

[43] CARL: Camera-Agnostic Representation Learning for Spectral Image Analysis

Alexander Baumann,Leonardo Ayala,Silvia Seidlitz,Jan Sellner,Alexander Studier-Fischer,Berkin Özdemir,Lena Maier-Hein,Slobodan Ilic

Main category: cs.CV

TL;DR: 论文提出CARL模型,解决光谱成像中因相机差异导致的AI模型泛化性问题,通过波长位置编码和自注意力-交叉注意力机制实现跨相机通用表示学习。

  • Motivation: 光谱成像在不同领域应用广泛,但相机间的通道维度和波长差异限制了AI模型的通用性和跨相机适用性。
  • Method: 引入波长位置编码和自注意力-交叉注意力机制,将光谱信息压缩为通用嵌入表示;采用光谱自监督JEPA策略进行预训练。
  • Result: 在医学成像、自动驾驶和卫星成像等领域的实验中,CARL模型表现出对光谱异质性的强鲁棒性,优于其他方法。
  • Conclusion: CARL模型具有扩展性和通用性,可作为未来光谱基础模型的核心架构。

[44] Unsupervised 2D-3D lifting of non-rigid objects using local constraints

Shalini Maiti,Lourdes Agapito,Benjamin Graham

Main category: cs.CV

TL;DR: 通过无监督损失训练的高容量模型,结合局部低秩约束,显著提升了非刚性物体3D形状预测的准确性。

  • Motivation: 解决非刚性物体从2D关键点预测3D形状时因遮挡和视角变化导致的病态问题,传统低秩约束模型训练困难且重建质量受限。
  • Method: 使用高容量模型和无监督损失,对局部子集应用低秩约束,平衡模型容量与约束。
  • Result: 在S-Up3D数据集上将重建误差降低了70%以上。
  • Conclusion: 高容量模型结合局部低秩约束是提升非刚性物体3D重建质量的有效方法。

[45] Semantic-Aligned Learning with Collaborative Refinement for Unsupervised VI-ReID

De Cheng,Lingfeng He,Nannan Wang,Dingwen Zhang,Xinbo Gao

Main category: cs.CV

TL;DR: 论文提出了一种名为SALCR的框架,通过语义对齐学习和协作优化,解决了无监督可见光-红外行人重识别中跨模态特征表示和伪标签分布的问题。

  • Motivation: 现有方法在跨模态行人重识别中仅优化全局特征,忽略了细粒度模式带来的跨模态差异,导致模态共享学习不足。
  • Method: SALCR框架包括双向伪标签统一模块(DAGI)、细粒度语义对齐学习模块(FGSAL)和全局-部分协作优化模块(GPCR)。
  • Result: 实验表明,该方法优于现有技术。
  • Conclusion: SALCR通过细粒度语义对齐和协作优化,显著提升了跨模态行人重识别的性能。

[46] ODExAI: A Comprehensive Object Detection Explainable AI Evaluation

Loc Phuc Truong Nguyen,Hung Truong Thanh Nguyen,Hung Cao

Main category: cs.CV

TL;DR: 论文提出了ODExAI框架,用于评估目标检测模型的可解释AI方法,重点关注定位准确性、模型行为忠实度和计算复杂度。

  • Motivation: 当前缺乏评估目标检测模型可解释AI方法的标准,阻碍了方法比较和选择。
  • Method: 引入ODExAI框架,基于三个核心维度评估XAI方法,并在YOLOX和Faster R-CNN等模型及标准数据集上进行基准测试。
  • Result: 区域方法(如D-CLOSE)定位准确(PG=88.49%)且忠实度高(OA=0.863),但计算开销大(71.42s);CAM方法(如G-CAME)定位更优(PG=96.13%)且速度快(0.54s),但忠实度较低(OA=0.549)。
  • Conclusion: 现有XAI方法存在关键权衡,需根据任务需求选择,ODExAI框架为评估提供了标准化工具。

[47] LM-MCVT: A Lightweight Multi-modal Multi-view Convolutional-Vision Transformer Approach for 3D Object Recognition

Songsong Xiong,Hamidreza Kasaei

Main category: cs.CV

TL;DR: 提出了一种轻量级多模态多视图卷积-视觉Transformer网络(LM-MCVT),通过全局熵基嵌入融合(GEEF)方法提升机器人3D物体识别的准确性和鲁棒性。

  • Motivation: 在复杂多变的人为中心环境中(如餐厅、家庭、仓库),机器人3D物体识别面临挑战,需要更高效的方法。
  • Method: 采用LM-MCVT网络,结合卷积编码器和Transformer,利用GEEF方法融合多视图数据。
  • Result: 在ModelNet40数据集上达到95.6%的识别准确率,并在OmniObject3D数据集上通过5折交叉验证验证了其鲁棒性。
  • Conclusion: LM-MCVT在合成和真实世界数据中均表现出色,优于现有方法。

[48] OPAL: Visibility-aware LiDAR-to-OpenStreetMap Place Recognition via Adaptive Radial Fusion

Shuhao Kang,Martin Y. Liao,Yan Xia,Olaf Wysocki,Boris Jutzi,Daniel Cremers

Main category: cs.CV

TL;DR: OPAL是一种新型LiDAR地点识别网络,利用OpenStreetMap作为轻量级先验,通过跨模态可见性掩码和自适应径向融合模块提升性能。

  • Motivation: 现有方法依赖3D密集地图或航拍图像,存储开销大且缺乏实时适应性。
  • Method: 设计跨模态可见性掩码和自适应径向融合模块,结合LiDAR扫描与OSM数据。
  • Result: 在KITTI和KITTI-360数据集上,OPAL的召回率提高15.98%,推理速度快12倍。
  • Conclusion: OPAL在LiDAR地点识别中表现优越,具有高效性和实时性。

[49] Rendering Anywhere You See: Renderability Field-guided Gaussian Splatting

Xiaofeng Jin,Yan Fang,Matteo Frosi,Jianfei Ge,Jiangjian Xiao,Matteo Matteucci

Main category: cs.CV

TL;DR: 提出了一种基于可渲染性场引导的高斯泼溅(RF-GS)方法,用于解决场景视图合成中非均匀观测导致的渲染质量问题。

  • Motivation: 场景视图合成在虚拟现实、增强现实和机器人等领域有重要应用,但非均匀观测导致渲染质量不稳定。
  • Method: 通过可渲染性场量化输入不均匀性,引导伪视图采样;训练图像恢复模型以提升宽基线伪视图质量;采用混合数据优化策略融合伪视图角度和源视图纹理信息。
  • Result: 在模拟和真实数据上的实验表明,该方法在渲染稳定性上优于现有方法。
  • Conclusion: RF-GS方法有效提升了场景视图合成的渲染质量,适用于复杂环境。

[50] OpenFusion++: An Open-vocabulary Real-time Scene Understanding System

Xiaofeng Jin,Matteo Frosi,Matteo Matteucci

Main category: cs.CV

TL;DR: OpenFusion++是一种基于TSDF的实时3D语义几何重建系统,通过融合基础模型的置信度图、动态更新全局语义标签以及双路径编码框架,显著提升了语义准确性和查询响应能力。

  • Motivation: 解决现有方法在实例分割不精确、语义更新静态化以及复杂查询处理能力有限的问题。
  • Method: 融合基础模型的置信度图优化3D点云,基于实例区域的自适应缓存动态更新全局语义标签,采用双路径编码框架结合对象属性和环境上下文。
  • Result: 在ICL、Replica、ScanNet和ScanNet++数据集上,OpenFusion++在语义准确性和查询响应能力上显著优于基线方法。
  • Conclusion: OpenFusion++为实时开放词汇场景理解提供了高效解决方案,适用于视觉语言导航、具身智能和增强现实等应用。

[51] VI3NR: Variance Informed Initialization for Implicit Neural Representations

Chamin Hewa Koneputugodage,Yizhak Ben-Shabat,Sameera Ramasinghe,Stephen Gould

Main category: cs.CV

TL;DR: 本文提出了一种适用于任何激活函数的神经网络初始化方法,特别针对隐式神经表示(INRs),并在多种信号模态中展示了其优越性。

  • Motivation: 常用的神经网络初始化方法不适用于许多激活函数,尤其是INRs中使用的激活函数,这影响了模型的收敛性和准确性。
  • Method: 通过推导一种具有层间稳定方差的初始化方法,适用于任何激活函数,并推广了多种先前的方法。
  • Result: 该方法在多种信号模态(如图像、音频和3D表面重建)中表现出更好的稳定性,并在高斯INRs中理论与实验性能一致。
  • Conclusion: 提出的初始化方法在INRs中具有广泛适用性,显著提升了模型性能。

[52] Leveraging Multi-Modal Saliency and Fusion for Gaze Target Detection

Athul M. Mathew,Arshad Ali Khan,Thariq Khalid,Faroq AL-Tam,Riad Souissi

Main category: cs.CV

TL;DR: 本文提出了一种新颖的视线目标检测方法,通过融合2D图像的多模态信息(如深度、显著性和面部特征)来预测视线目标,并在多个数据集上验证了其优越性。

  • Motivation: 视线目标检测(GTD)需要理解人物头部、身体、眼睛与周围环境的关系,现有方法难以全面捕捉这些信息,因此提出了一种融合多模态信息的新方法。
  • Method: 将2D图像投影为3D表示,提取深度增强的显著性模块图,结合面部和深度模态,最终融合所有信息以识别视线目标。
  • Result: 在VideoAttentionTarget、GazeFollow和GOO-Real数据集上的实验表明,该方法优于现有技术。
  • Conclusion: 该方法为视线目标检测提供了一种有前景的新思路。

[53] Optimal Hyperspectral Undersampling Strategy for Satellite Imaging

Vita V. Vlasova,Vladimir G. Kuzmin,Maria S. Varetsa,Natalia A. Ibragimova,Oleg Y. Rogov,Elena V. Lyapuntsova

Main category: cs.CV

TL;DR: 提出了一种名为IWGS的新波段选择策略,通过小波变换域中的梯度分析,高效降低高光谱图像分类的维度。

  • Motivation: 高光谱图像分类面临高维度、光谱冗余和标记数据有限的问题,需要优化分类性能。
  • Method: IWGS方法通过迭代选择信息量最大的光谱波段,利用小波的多分辨率特性捕捉细微光谱变化。
  • Result: 在Houston 2013和Indian Pines数据集上,IWGS在准确性和计算效率上均优于现有方法,最高准确率达97.8%。
  • Conclusion: IWGS适用于资源受限环境,如边缘设备,因其高效性和泛化能力。

[54] Marine Snow Removal Using Internally Generated Pseudo Ground Truth

Alexandra Malyugina,Guoxi Huang,Eduardo Ruiz,Benjamin Leslie,Nantheera Anantrasirichai

Main category: cs.CV

TL;DR: 本文提出了一种新框架,用于从原始水下视频生成配对数据集,以解决海洋雪噪声问题,提升水下视频质量。

  • Motivation: 水下视频因光吸收、散射和海洋雪噪声导致质量下降,现有方法因缺乏配对训练数据而效果不佳。
  • Method: 提出一种新方法,从原始水下视频生成配对数据集(含海洋雪和无海洋雪图像),用于监督训练。
  • Result: 生成的配对数据集有效提升了水下图像恢复的效果。
  • Conclusion: 该方法为缺乏真实数据的水下视频增强提供了可行解决方案。

[55] FusionNet: Multi-model Linear Fusion Framework for Low-light Image Enhancement

Kangbiao Shi,Yixu Feng,Tao Hu,Yu Cao,Peng Wu,Yijin Liang,Yanning Zhang,Qingsen Yan

Main category: cs.CV

TL;DR: FusionNet是一种新型多模型线性融合框架,通过并行操作捕捉不同颜色空间的全局和局部特征,显著提升低光图像增强性能。

  • Motivation: 现有融合策略存在参数爆炸、优化不稳定和特征不对齐等问题,限制了性能提升。
  • Method: 提出FusionNet,采用基于Hilbert空间理论保证的线性融合策略,减少训练成本并避免网络崩溃。
  • Result: 在CVPR2025 NTIRE低光增强挑战赛中排名第一,实验证明其在定量和定性结果上均优于现有方法。
  • Conclusion: FusionNet在多样化低光条件下表现出鲁棒性,为低光图像增强提供了有效解决方案。

[56] Myocardial Region-guided Feature Aggregation Net for Automatic Coronary artery Segmentation and Stenosis Assessment using Coronary Computed Tomography Angiography

Ni Yao,Xiangyu Liu,Danyang Sun,Chuang Han,Yanting Li,Jiaofen Nan,Chengyang Li,Fubao Zhu,Weihua Zhou,Chen Zhao

Main category: cs.CV

TL;DR: 提出了一种名为MGFA-Net的新型U型双编码器架构,用于冠状动脉分割和狭窄检测,通过整合解剖先验知识提高了分割的鲁棒性,并在性能上优于现有方法。

  • Motivation: 冠状动脉疾病是全球主要死因之一,现有方法在低对比度、形态变异和小血管分割方面存在挑战,需要更准确的解决方案。
  • Method: 提出MGFA-Net,包含心肌区域引导模块、残差特征提取编码模块和多尺度特征融合模块,结合蒙特卡洛dropout量化预测不确定性。
  • Result: 在Dice分数(85.04%)、准确率(84.24%)和HD95(6.1294 mm)上表现优异,狭窄检测真阳性率比3D U-Net提高5.46%。
  • Conclusion: MGFA-Net通过结合深度学习和解剖先验知识,提供了一种自动化且临床可解释的冠状动脉疾病评估方法。

[57] Platonic Grounding for Efficient Multimodal Language Models

Moulik Choraria,Xinbo Wu,Akhil Bhimaraju,Nitesh Sekhar,Yue Wu,Xu Zhang,Prateek Singhal,Lav R. Varshney

Main category: cs.CV

TL;DR: 论文提出了一种改进多模态框架的简单方法,通过利用预训练模型的隐式对齐特性,显著降低了训练和推理成本,同时保持或提升性能。

  • Motivation: 随着Transformer模型的数据和参数规模扩大,性能提升逐渐减少,而训练成本高昂。多模态学习中的推理成本尤其关键,因此需要更高效的微调和推理方法。
  • Method: 基于预训练模型深层隐式对齐的发现,作者提出了一种简单的多模态框架改进方法。
  • Result: 该方法在保持或提升基线性能的同时,显著减少了训练和推理时的计算成本。
  • Conclusion: 该研究不仅提供了一种高效的多模态学习方法,还为预训练模型的高效组合提供了启示。

[58] Enhancing seeding efficiency using a computer vision system to monitor furrow quality in real-time

Sidharth Rai,Aryan Dalal,Riley Slichter,Ajay Sharda

Main category: cs.CV

TL;DR: 开发了一种基于计算机视觉的方法,用于评估行清理器的性能,以提高精准农业中的播种效率。

  • Motivation: 精准农业中种子播种的有效性受到残留物堆积、低温土壤和“hair pinning”等问题的阻碍,缺乏定量评估行清理器性能的方法。
  • Method: 通过视频采集系统捕捉行清理器操作后的沟槽状况,开发分割模型分析土壤、秸秆和机械等关键元素,并建立量化行清理器性能的客观方法。
  • Result: 结果表明该方法能够有效比较行清理器性能,为精准农业中的播种效率提升提供支持。
  • Conclusion: 该方法具有潜力改进行清理器的选择,并提升精准农业中的播种效率。

[59] Improving Small Drone Detection Through Multi-Scale Processing and Data Augmentation

Rayson Laroca,Marcelo dos Santos,David Menotti

Main category: cs.CV

TL;DR: 提出了一种基于YOLOv11的无人机检测方法,通过多尺度处理、数据增强和帧间一致性后处理,在复杂环境中有效检测无人机。

  • Motivation: 现代监控中,小型无人机与鸟类难以区分,因此需要高效的无人机检测方法。
  • Method: 采用YOLOv11模型,结合多尺度输入处理、复制粘贴数据增强和帧间一致性后处理技术。
  • Result: 在2025年IJCNN的WOSDETC挑战赛中排名前三,证明了方法的有效性。
  • Conclusion: 该方法在复杂环境中能高效检测无人机,具有实际应用潜力。

[60] MERA: Multimodal and Multiscale Self-Explanatory Model with Considerably Reduced Annotation for Lung Nodule Diagnosis

Jiahao Lu,Chong Yin,Silvia Ingala,Kenny Erleben,Michael Bachmann Nielsen,Sune Darkner

Main category: cs.CV

TL;DR: MERA是一种多模态、多尺度的自解释模型,用于肺结节诊断,显著减少标注需求,结合无监督和弱监督学习策略,提供多层次解释,并在LIDC数据集上表现出优越性能。

  • Motivation: 肺结节是肺癌的早期指标,但现有XAI系统在有限标注数据下难以提供清晰解释,MERA旨在解决这一问题。
  • Method: MERA结合自监督学习和Vision Transformer进行无监督特征提取,利用半监督主动学习在潜在空间中进行分层预测。
  • Result: 在仅1%标注样本下,MERA的诊断准确性达到或超过全标注的先进方法,并提供多层次解释。
  • Conclusion: MERA的设计增强了AI诊断的可信度和透明度,降低了在医疗领域部署AI的门槛。

[61] Mitigating Bias in Facial Recognition Systems: Centroid Fairness Loss Optimization

Jean-Rémy Conti,Stéphan Clémençon

Main category: cs.CV

TL;DR: 本文提出了一种后处理方法,通过优化基于质心的回归损失,提高预训练人脸识别模型的公平性,同时保持全局准确性。

  • Motivation: 社会对公平AI系统的需求日益增长,尤其是人脸识别系统在特定人群中的误差变异性问题,促使研究公平性提升方法。
  • Method: 采用后处理技术,优化基于质心的回归损失,调整预训练模型的输出分数。
  • Result: 实验证明该方法显著提升了公平性,同时保持了模型的全局准确性。
  • Conclusion: 该方法为解决人脸识别系统中的公平性问题提供了一种有效且计算高效的后处理方案。

[62] HumMorph: Generalized Dynamic Human Neural Fields from Few Views

Jakub Zadrożny,Hakan Bilen

Main category: cs.CV

TL;DR: HumMorph是一种新颖的自由视角动态人体渲染方法,具有明确的姿势控制能力,仅需少量观察视图即可生成高质量渲染结果。

  • Motivation: 解决现有方法在多视角同步相机设置下依赖精确身体参数的问题,提出更实用的单视角或多视角噪声参数估计场景下的渲染方案。
  • Method: 通过构建规范的T姿势粗表示,结合视觉特征和先验知识填充缺失信息,并提取像素对齐的细粒度特征以提供高分辨率外观。
  • Result: 在单视角输入时与现有技术竞争,而在两视角输入时视觉质量显著提升,对噪声参数更具鲁棒性。
  • Conclusion: HumMorph在实用场景下优于现有技术,尤其在噪声参数估计条件下表现更优。

[63] Dynamic Arthroscopic Navigation System for Anterior Cruciate Ligament Reconstruction Based on Multi-level Memory Architecture

Shuo Wang,Weili Shi,Shuai Yang,Jiahao Cui,Qinwei Guo

Main category: cs.CV

TL;DR: 本文提出了一种基于多级记忆架构的动态关节镜导航系统,用于前交叉韧带(ACL)重建手术,显著提升了手术导航的实时性和准确性。

  • Motivation: 传统静态匹配方法在复杂手术场景(如视角变化、器械遮挡和组织变形)中表现不佳,需要一种动态、实时的导航系统来提升手术精度。
  • Method: 系统将Atkinson-Shiffrin记忆模型的三级架构(感觉记忆、工作记忆和长期记忆)融入动态视频序列跟踪,实现了无需额外硬件的实时导航。
  • Result: 系统在标准关节镜设备上实时运行(25.3 FPS,延迟39.5 ms),误差较静态系统降低45%(长序列)至19%(短序列)。
  • Conclusion: 动态系统克服了静态方法的局限性,为ACL重建手术提供了更精确的技术支持。

[64] Boosting 3D Liver Shape Datasets with Diffusion Models and Implicit Neural Representations

Khoa Tuan Nguyen,Francesca Tozzi,Wouter Willaert,Joris Vankerschaver,Nikdokht Rashidian,Wesley De Neve

Main category: cs.CV

TL;DR: 论文提出了一种结合扩散模型和隐式神经表示的方法,用于增强和扩展现有的3D肝脏形状数据集,以解决数据稀缺和数据集质量问题。

  • Motivation: 现有的3D医学形状数据集存在组织混乱和伪影问题,限制了模型的开发和训练,尤其是3D重建任务。
  • Method: 使用扩散模型结合隐式神经表示(INRs)生成多样且真实的3D肝脏形状,以扩充数据集。
  • Result: 实验表明,该方法能显著提升数据集的多样性,从而提高3D肝脏重建和生成的准确性与可靠性。
  • Conclusion: 扩散模型还可应用于其他3D医学成像的下游任务。

[65] GMAR: Gradient-Driven Multi-Head Attention Rollout for Vision Transformer Interpretability

Sehyeong Jo,Gangjae Jang,Haesol Park

Main category: cs.CV

TL;DR: 本文提出了一种名为GMAR的新方法,通过梯度驱动量化注意力头的贡献,提升ViT的可解释性。

  • Motivation: ViT的多头注意力机制虽然强大,但缺乏可解释性,现有方法未能有效区分不同注意力头的重要性。
  • Method: 引入GMAR方法,利用梯度评分量化每个注意力头的重要性,并归一化得到加权聚合注意力分数。
  • Result: 实验表明GMAR优于传统注意力展开技术,能更精确地解释ViT的预测过程。
  • Conclusion: GMAR为ViT模型提供了一种增强可解释性的实用框架。

[66] A Real-Time Event-Based Normal Flow Estimator

Dehao Yuan,Cornelia Fermüller

Main category: cs.CV

TL;DR: 本文提出了一种实时、异步、基于事件的正常流估计器,优化了原始方法的实现,显著降低了计算成本。

  • Motivation: 原始方法在处理事件切片时计算复杂度高,难以实现实时处理。本文旨在通过优化实现降低计算成本,支持实时预测。
  • Method: 将事件坐标视为整数,将表示步骤重新定义为池化操作,替代原始方法中的邻接矩阵乘法,从而降低计算复杂度。
  • Result: 优化后的方法在RTX 3070上每秒处理400万次正常流预测,RTX A5000上每秒600万次,仅占用1GB CUDA内存。
  • Conclusion: 通过池化操作优化实现,显著提升了计算效率,支持实时正常流预测,并开源了CUDA实现和Python接口。

[67] EarthMapper: Visual Autoregressive Models for Controllable Bidirectional Satellite-Map Translation

Zhe Dong,Yuzhe Sun,Tianzhu Liu,Wangmeng Zuo,Yanfeng Gu

Main category: cs.CV

TL;DR: EarthMapper是一个用于卫星图像与地图双向翻译的自回归框架,解决了模态对齐和高质量合成的挑战,并在实验中表现出色。

  • Motivation: 卫星图像和地图的双向翻译在规划和灾害响应中有重要应用,但缺乏精确对齐和高抽象合成是主要挑战。
  • Method: 提出EarthMapper框架,使用地理坐标嵌入和多尺度特征对齐,结合语义注入和关键点自适应引导机制。
  • Result: 在CNSatMap和纽约数据集上表现优异,视觉真实性、语义一致性和结构保真度显著提升。
  • Conclusion: EarthMapper在双向翻译和零样本任务中展现出卓越性能和多功能性。

[68] CLIP-KOA: Enhancing Knee Osteoarthritis Diagnosis with Multi-Modal Learning and Symmetry-Aware Loss Functions

Yejin Jeong,Donghun Lee

Main category: cs.CV

TL;DR: 提出了一种基于CLIP的框架(CLIP-KOA),通过整合图像和文本信息及引入对称性和一致性损失,提升膝骨关节炎(KOA)分级预测的准确性和可靠性。

  • Motivation: 传统KL分级系统存在主观性和观察者间差异,需自动化技术提升诊断一致性。
  • Method: 结合图像与文本信息,引入对称性损失和一致性损失,优化预测模型。
  • Result: CLIP-KOA在KOA严重性预测任务中达到71.86%的准确率,比标准CLIP模型提升2.36%。
  • Conclusion: CLIP-KOA为数据驱动的医学预测提供了新方向,提升了细粒度诊断的可靠性,并探索了多模态方法在医学图像分析中的应用。

[69] Masked Language Prompting for Generative Data Augmentation in Few-shot Fashion Style Recognition

Yuki Hirakawa,Ryotaro Shimizu

Main category: cs.CV

TL;DR: 提出了一种名为Masked Language Prompting (MLP)的新方法,通过掩码部分词语并利用大语言模型生成多样且语义一致的补全,以解决时尚风格识别中数据增强的视觉多样性与风格一致性的平衡问题。

  • Motivation: 时尚风格识别数据集构建因风格概念的主观性和模糊性而具有挑战性,现有基于类别名称或参考描述的生成方法难以平衡视觉多样性与风格一致性。
  • Method: 提出MLP方法,掩码参考描述中的部分词语,利用大语言模型生成多样且语义一致的补全,从而在不微调的情况下实现风格一致且多样的图像生成。
  • Result: 在FashionStyle14数据集上的实验表明,MLP方法在时尚风格识别任务中优于基于类别名称和参考描述的基线方法。
  • Conclusion: MLP方法在有限监督下有效提升了时尚风格识别的性能,为数据增强提供了一种新思路。

[70] Prisma: An Open Source Toolkit for Mechanistic Interpretability in Vision and Video

Sonia Joseph,Praneet Suresh,Lorenz Hufe,Edward Stevinson,Robert Graham,Yash Vadi,Danilo Bzdok,Sebastian Lapuschkin,Lee Sharkey,Blake Aaron Richards

Main category: cs.CV

TL;DR: Prisma是一个开源框架,旨在加速视觉机制可解释性研究,提供工具、预训练权重和教育资源。研究发现视觉SAE的稀疏模式可能低于语言SAE,且某些情况下SAE重建能降低模型损失。

  • Motivation: 视觉机制可解释性研究因缺乏易用框架和预训练权重而进展缓慢,Prisma旨在解决这一问题。
  • Method: Prisma提供统一工具包,支持75+视觉和视频Transformer,包括SAE、转码器和交叉编码器训练,以及80+预训练SAE权重、激活缓存、电路分析和可视化工具。
  • Result: 研究发现视觉SAE的稀疏模式可能显著低于语言SAE,且某些情况下SAE重建能降低模型损失。
  • Conclusion: Prisma为理解视觉模型内部机制提供了新研究方向,同时降低了该领域的入门门槛。

[71] CasaGPT: Cuboid Arrangement and Scene Assembly for Interior Design

Weitao Feng,Hang Zhou,Jing Liao,Li Cheng,Wenbo Zhou

Main category: cs.CV

TL;DR: 提出了一种基于立方体分解的室内场景合成方法CasaGPT,通过自回归模型排列立方体以减少物体交叉,并引入去噪数据集3DFRONT-NC,实验表明其优于现有方法。

  • Motivation: 传统方法使用边界框放置3D物体,效果有限,而立方体分解能更紧凑地建模物体,减少交叉。
  • Method: 采用自回归模型顺序排列立方体,结合拒绝采样过滤碰撞场景,并使用去噪数据集3DFRONT-NC。
  • Result: 在3D-FRONT和3DFRONT-NC数据集上表现优于现有方法,提升了场景真实感。
  • Conclusion: CasaGPT为3D场景合成提供了高效且物理合理的解决方案,未来潜力大。

[72] Masked Point-Entity Contrast for Open-Vocabulary 3D Scene Understanding

Yan Wang,Baoxiong Jia,Ziyu Zhu,Siyuan Huang

Main category: cs.CV

TL;DR: MPEC提出了一种新的掩码点-实体对比学习方法,用于开放词汇3D语义分割,通过3D实体-语言对齐和多视角点云一致性提升特征表示,在ScanNet上取得领先成果。

  • Motivation: 开放词汇3D场景理解对物理智能至关重要,使智能体能在真实环境中动态交互。
  • Method: 采用掩码点-实体对比学习,结合3D实体-语言对齐和多视角点云一致性,优化实体特征表示。
  • Result: 在ScanNet上实现最佳开放词汇3D语义分割效果,并在零样本场景理解中表现优异。
  • Conclusion: MPEC方法在多种3D场景理解任务中表现卓越,展示了学习到的3D特征的潜力。

[73] SynergyAmodal: Deocclude Anything with Text Control

Xinyang Li,Chengjie Yi,Jiawei Lai,Mingbao Lin,Yansong Qu,Shengchuan Zhang,Liujuan Cao

Main category: cs.CV

TL;DR: SynergyAmodal框架通过数据-人类-模型三方协作,合成高质量的去遮挡数据集,提升图像去遮挡任务的多样性和真实性。

  • Motivation: 解决高质量去遮挡数据稀缺的问题,平衡多样性、合理性和保真度。
  • Method: 结合自监督学习、人类专家指导和生成先验,设计部分完成扩散模型和联合合成流程。
  • Result: 生成了约16K对高质量配对数据集,并在零样本泛化和文本可控性上表现优异。
  • Conclusion: SynergyAmodal框架有效提升了去遮挡任务的性能,代码和数据集将开源。

[74] FSBench: A Figure Skating Benchmark for Advancing Artistic Sports Understanding

Rong Gao,Xin Liu,Zhuozhao Hu,Bohao Xing,Baiqiang Xia,Zitong Yu,Heikki Kälviäinen

Main category: cs.CV

TL;DR: FSAnno是一个新的大规模花样滑冰数据集,旨在解决现有数据集对技术和艺术评价的不足,并提供了FSBench基准测试工具。

  • Motivation: 现有花样滑冰数据集主要关注单一任务(如动作识别或评分),缺乏对技术和艺术评价的综合标注,且体育研究多集中于球类运动,对艺术类运动的研究有限。
  • Method: 引入FSAnno数据集,包含开放训练和测试数据,以及FSBench基准测试工具(包括文本和多模态QA任务)。
  • Result: FSBench初步测试显示现有模型对艺术类运动的理解存在显著局限。
  • Conclusion: FSBench有望成为评估和提升模型对花样滑冰理解的关键工具。

[75] LR-IAD:Mask-Free Industrial Anomaly Detection with Logical Reasoning

Peijian Zeng,Feiyan Pang,Zhanbo Wang,Aimin Yang

Main category: cs.CV

TL;DR: 提出了一种动态奖励函数和无需掩码的推理框架,用于工业异常检测,解决了类别不平衡和掩码依赖问题,性能显著提升。

  • Motivation: 传统工业异常检测方法需要大量数据和掩码标注,成本高且难以扩展,现有方法存在类别不平衡问题。
  • Method: 采用动态奖励函数处理类别不平衡,引入Chain of Thought和GRPO机制实现无需掩码的推理框架。
  • Result: 在MVTec-AD和VisA数据集上分别提升36%和16%的准确率。
  • Conclusion: 该方法降低了成本,提高了性能,并提供了可解释的输出,推动了工业异常检测的发展。

[76] Adversarial Shallow Watermarking

Guobiao Li,Lei Tan,Yuliang Xue,Gaozhi Liu,Zhenxing Qian,Sheng Li,Xinpeng Zhang

Main category: cs.CV

TL;DR: 提出了一种新型水印框架ASW,通过浅层解码器和对抗优化抵抗未知失真,无需训练、编码器或噪声层。

  • Motivation: 现有基于深度神经网络的水印方法对未知失真鲁棒性不足,需改进。
  • Method: ASW采用随机参数化的浅层解码器,对抗优化宿主图像以嵌入水印,提取时利用解码器对失真的不敏感性。
  • Result: ASW在已知和未知失真上均表现优异,鲁棒性优于现有方法。
  • Conclusion: ASW为水印技术提供了一种高效、鲁棒的新思路。

[77] Point2Quad: Generating Quad Meshes from Point Clouds via Face Prediction

Zezeng Li,Zhihui Qi,Weimin Wang,Ziliang Wang,Junyi Duan,Na Lei

Main category: cs.CV

TL;DR: Point2Quad是首个基于学习的从点云生成纯四边形网格的方法,通过融合点级和面级特征解决了四边形网格生成的挑战。

  • Motivation: 四边形网格在几何建模和计算力学中至关重要,但现有基于学习的方法主要针对三角形网格,四边形网格生成仍较少探索。
  • Method: Point2Quad通过k-NN生成候选网格,结合几何和拓扑特征提取器,设计复合损失函数训练分类器,并进行四边形专用后处理。
  • Result: 实验表明,Point2Quad在清晰和噪声数据上均优于基线方法。
  • Conclusion: Point2Quad为四边形网格生成提供了有效的学习解决方案,具有优越性能。

[78] Crowd Detection Using Very-Fine-Resolution Satellite Imagery

Tong Xiao,Qunming Wang,Ping Lu,Tenghai Huang,Xiaohua Tong,Peter M. Atkinson

Main category: cs.CV

TL;DR: CrowdSat-Net是一种基于点的新型卷积神经网络,用于高分辨率卫星图像中的群体检测,结合了DCPAN和HFGDU模块,显著提升了性能。

  • Motivation: 现有群体检测方法依赖地面和航空图像,时空覆盖有限,而高分辨率卫星图像为大规模群体活动分析提供了新机会。
  • Method: 提出CrowdSat-Net,包含DCPAN(双上下文渐进注意力网络)和HFGDU(高频引导可变形上采样器),并创建了首个VFR卫星图像数据集CrowdSat。
  • Result: 在CrowdSat数据集上,CrowdSat-Net的F1-score为66.12%,Precision为73.23%,优于其他方法。
  • Conclusion: CrowdSat-Net和CrowdSat数据集推动了群体检测技术的发展,为未来研究提供了新工具。

[79] DEEMO: De-identity Multimodal Emotion Recognition and Reasoning

Deng Li,Bohao Xing,Xin Liu,Baiqiang Xia,Bihan Wen,Heikki Kälviäinen

Main category: cs.CV

TL;DR: 论文提出DEEMO任务和数据集,通过去身份化的多模态输入实现情感理解,并开发了DEEMO-LLaMA模型,在隐私保护的情感识别和推理任务中表现优异。

  • Motivation: 现有情感理解方法依赖身份敏感信息(如面部表情和语音),可能侵犯隐私。DEEMO旨在通过去身份化的视频和音频输入实现情感理解,解决隐私问题。
  • Method: 提出DEEMO任务,包含两个数据集子集(DEEMO-NFBL和DEEMO-MER),并开发多模态大语言模型DEEMO-LLaMA,整合去身份化的音频、视频和文本信息。
  • Result: DEEMO-LLaMA在去身份情感识别任务中达到74.49%准确率和74.45% F1分数,在推理任务中表现显著优于现有模型。
  • Conclusion: DEEMO为隐私保护的情感理解提供了新方法,推动了伦理AI和负责任的情感计算发展。

[80] CE-NPBG: Connectivity Enhanced Neural Point-Based Graphics for Novel View Synthesis in Autonomous Driving Scenes

Mohammad Altillawi,Fengyi Shen,Liudi Yang,Sai Manoj Prakhya,Ziyuan Liu

Main category: cs.CV

TL;DR: CE-NPBG是一种新的神经点基方法,用于大规模自动驾驶场景中的新视角合成,通过结合几何和外观模态,显著提升了渲染质量和效率。

  • Motivation: 当前基于点的方法在大规模3D点云地图中面临可扩展性和渲染质量的限制,主要问题是几何与外观之间的可见性不匹配。
  • Method: 利用连接关系图结合几何和外观模态,从大规模点云地图中检索相关点进行渲染,并通过联合对抗和点光栅化训练优化神经描述符。
  • Result: 显著提升了渲染质量,同时通过仅使用点云子集提高了运行效率和可扩展性。
  • Conclusion: CE-NPBG通过模态结合和优化训练,有效解决了大规模场景中的渲染问题,并展示了在3D高斯泼溅中的潜在优势。

[81] Category-Level and Open-Set Object Pose Estimation for Robotics

Peter Hönig,Matthias Hirschmanner,Markus Vincze

Main category: cs.CV

TL;DR: 本文比较了类别级6D姿态估计的数据集、精度指标和算法,并分析了如何将其与开放集姿态估计结合以实现泛化。

  • Motivation: 解决类别级和开放集6D姿态估计中因纹理、形状和尺寸未知带来的挑战,尤其是对称性歧义问题。
  • Method: 通过比较不同数据集、精度指标和算法,分析类别级姿态估计的现状。
  • Result: 提出了实现泛化的建议,并指出当前方法的局限性。
  • Conclusion: 通过结合类别级和开放集方法,有望提升6D姿态估计的泛化能力。

[82] DG-DETR: Toward Domain Generalized Detection Transformer

Seongmin Hwang,Daeyoung Han,Moongu Jeon

Main category: cs.CV

TL;DR: DG-DETR是一种简单、有效的端到端Transformer检测器,通过域无关查询选择和小波分解提升DETR的跨域鲁棒性。

  • Motivation: 当前领域泛化研究主要关注CNN检测器,而忽略了DETR的鲁棒性提升需求。
  • Method: 提出域无关查询选择策略和小波分解方法,分离特征为域不变和域特定成分。
  • Result: 实验验证了DG-DETR在跨域检测中的有效性。
  • Conclusion: DG-DETR为DETR的领域泛化问题提供了简单且有效的解决方案。

[83] SAMBLE: Shape-Specific Point Cloud Sampling for an Optimal Trade-Off Between Local Detail and Global Uniformity

Chengzhi Wu,Yuxin Wan,Hao Fu,Julius Pfrommer,Zeyun Zhong,Junwei Zheng,Jiaming Zhang,Jürgen Beyerer

Main category: cs.CV

TL;DR: SAMBLE方法通过稀疏注意力图和分箱学习,为点云形状提供特定形状的采样策略,平衡局部细节和全局均匀性,提升下游任务性能。

  • Motivation: 现有学习采样方法要么生成不可识别采样模式,要么过度关注边缘细节导致偏差,且忽视点分布的自然变化。
  • Method: 提出SAMBLE方法,结合稀疏注意力图和分箱学习,学习形状特定的采样策略。
  • Result: 在多种点云下游任务中表现优异,即使在少点采样场景下。
  • Conclusion: SAMBLE能有效平衡局部细节和全局均匀性,提升点云采样质量。

[84] ShowMak3r: Compositional TV Show Reconstruction

Sangmin Kim,Seunguk Do,Jaesik Park

Main category: cs.CV

TL;DR: ShowMak3r是一个动态辐射场重建管道,用于从娱乐视频中重建和编辑场景,解决了演员遮挡、复杂舞台和小基线视图等问题。

  • Motivation: 娱乐视频(如电视剧)中的动态辐射场重建面临演员遮挡、多样化表情、复杂舞台和镜头切换等挑战。
  • Method: ShowMak3r包含3DLocator模块(定位演员并估计姿态)、ShotMatcher模块(跟踪镜头切换中的演员)和动态表情恢复网络。
  • Result: 在Sitcoms3D数据集上,ShowMak3r能重建场景并支持新相机视角和编辑操作(如演员重定位和姿态调整)。
  • Conclusion: ShowMak3r为娱乐视频提供了高效的重建和编辑工具,支持多种创意应用。

[85] Magnifier: A Multi-grained Neural Network-based Architecture for Burned Area Delineation

Daniele Rege Cambrin,Luca Colomba,Paolo Garza

Main category: cs.CV

TL;DR: 提出了一种名为Magnifier的新方法,通过双编码器(局部和全局)在有限数据下提升图像分割性能,平均IoU提升2.65%。

  • Motivation: 在危机管理和遥感中,图像分割对灾难响应至关重要,但数据稀缺和缺乏基准数据集限制了神经网络的训练能力。
  • Method: Magnifier通过双编码器(局部和全局)从同一输入中提取不同粒度的信息,扩展了现有编码器-解码器架构。
  • Result: 在相同输入下,Magnifier比其他方法提取更多信息,平均IoU提升2.65%,计算量(GFLOPs)减少一半。
  • Conclusion: Magnifier在有限数据下显著提升了分割性能,计算效率更高。

[86] Neural network task specialization via domain constraining

Roman Malashin,Daniil Ilyukhin

Main category: cs.CV

TL;DR: 论文提出通过任务特定领域约束实现神经网络专业化,提升网络在特定数据子空间上的性能。实验表明,仅通过约束类别标签空间即可提升通用网络的准确性,无需额外数据或改变训练方式。

  • Motivation: 研究动机在于探索如何通过约束数据空间和调整微调方法,提升神经网络在特定任务上的性能,同时避免通用网络的冗余计算。
  • Method: 方法包括在调整网络前进行专家提取阶段,约束数据空间为语义一致的子集,并修改传统微调方法。
  • Result: 实验结果显示,专业化能显著提升通用网络的准确性,尤其是在图像分类和目标检测任务中。
  • Conclusion: 结论指出,该方法为未来开发动态可配置的图像分析系统奠定了基础,并能在排除特定数据领域时提升系统性能。

[87] Lightweight Adapter Learning for More Generalized Remote Sensing Change Detection

Dou Quan,Rufan Zhou,Shuang Wang,Ning Huyan,Dong Zhao,Yunan Li,Licheng Jiao

Main category: cs.CV

TL;DR: 本文提出了一种通用的变化检测网络(CANet),通过共享和特定数据集模块解决现有方法泛化能力差的问题。

  • Motivation: 现有深度学习模型在遥感图像变化检测中泛化能力差,无法适应不同数据集的数据分布和标注差异。
  • Method: CANet包含共享模块和轻量级适配器模块,后者设计了变化区域掩码(ICM)和独特批归一化层以处理数据集差异。
  • Result: 实验表明,CANet在多个数据集上表现优异,泛化能力强,训练成本低(仅更新4.1%-7.7%参数)。
  • Conclusion: CANet是一种高效、通用的变化检测方法,适用于不同数据集,且能灵活集成到现有模型中。

[88] Image Generation Method Based on Heat Diffusion Models

Pengfei Zhang,Shouqing Jia

Main category: cs.CV

TL;DR: HDM通过引入像素级操作和二维热方程,改进了DDPM的图像生成质量,生成更真实的图像。

  • Motivation: DDPM虽然能生成高质量图像,但未充分利用相邻像素的关联性,HDM旨在通过像素级操作提升细节保留能力。
  • Method: HDM在DDPM的基础上引入二维热方程的离散形式,计算相邻像素关系,同时保持训练过程不变。
  • Result: 实验表明,HDM在图像生成质量上优于DDPM、CDM、LDM和VQGAN等模型。
  • Conclusion: HDM通过像素级操作和热方程,显著提升了图像生成的细节和真实性。

[89] DiVE: Efficient Multi-View Driving Scenes Generation Based on Video Diffusion Transformer

Junpeng Jiang,Gangyi Hong,Miao Zhang,Hengtong Hu,Kun Zhan,Rui Shao,Liqiang Nie

Main category: cs.CV

TL;DR: DiVE是一个基于扩散变换器的生成框架,用于生成高质量、时间一致且多视角一致的驾驶场景视频,解决了现有生成模型的质量和一致性问题。

  • Motivation: 多视角驾驶场景视频的采集成本高且困难,而现有生成模型的视频质量和时空一致性较差,限制了其在感知任务中的应用。
  • Method: DiVE采用扩散变换器框架,结合统一的跨注意力机制和SketchFormer,引入视图膨胀注意力机制,并提出Multi-Control Auxiliary Branch Distillation和Resolution Progressive Sampling两种创新方法。
  • Result: 在nuScenes数据集上,DiVE实现了最先进的性能,生成的照片级视频具有出色的时间和跨视角一致性,同时实现了2.62倍的加速。
  • Conclusion: DiVE通过创新的架构和优化策略,显著提升了多视角视频生成的质量和效率,为自动驾驶感知任务提供了高质量的数据生成解决方案。

[90] NSegment : Noisy Segment Improves Remote Sensing Image Segmentation

Yechan Kim,DongHo Yoon,SooYeon Kim,Moongu Jeon

Main category: cs.CV

TL;DR: NSegment是一种简单有效的数据增强方法,通过仅对分割标签应用弹性变换来缓解遥感图像分割数据集中的标注错误问题。

  • Motivation: 遥感图像分割数据集中标注错误常见且难以察觉,且标注数据稀缺,导致训练噪声鲁棒模型困难。传统方法复杂且耗时。
  • Method: 提出NSegment方法,仅对分割标签应用弹性变换,并在每个训练周期中为每个样本调整变形强度。
  • Result: 实验表明,该方法提升了多种先进模型在遥感图像分割中的性能。
  • Conclusion: NSegment是一种简单高效的解决方案,能有效应对标注不一致问题。

[91] Exploiting Inter-Sample Correlation and Intra-Sample Redundancy for Partially Relevant Video Retrieval

Junlong Ren,Gangjian Zhang,Yu Hu,Jian Shu,Hao Wang

Main category: cs.CV

TL;DR: 论文提出了一种新的PRVR框架,通过三个核心模块(ICE、IRM、TCP)解决视频检索中的语义不对称问题,并在实验中取得了最优结果。

  • Motivation: PRVR任务中,视频与文本查询的语义不对称是主要挑战,现有方法忽略了跨模态的双重特性(样本间相关性和样本内冗余)。
  • Method: 提出三个模块:ICE捕获样本间相关性,IRM减少样本内冗余,TCP通过预测视频帧顺序增强特征区分度。
  • Result: 在三个数据集上的实验表明,该方法优于现有方法,达到了最先进水平。
  • Conclusion: 通过系统利用跨模态特性,提出的框架显著提升了PRVR任务的性能。

[92] BARIS: Boundary-Aware Refinement with Environmental Degradation Priors for Robust Underwater Instance Segmentation

Pin-Chi Pan,Soo-Chang Pei

Main category: cs.CV

TL;DR: BARIS-ERA框架通过边界感知解码器和环境鲁棒适配器提升水下实例分割性能,显著优于现有方法。

  • Motivation: 水下视觉条件(如光衰减、散射和颜色失真)导致模型性能下降,需改进分割精度。
  • Method: 提出BARIS-Decoder和ERA模块,前者优化特征细化,后者高效建模水下退化模式并减少参数。
  • Result: BARIS-ERA在Swin-B和ConvNeXt V2上分别提升3.4和3.8 mAP,优于Mask R-CNN。
  • Conclusion: BARIS-ERA为水下实例分割提供了高效且鲁棒的解决方案。

[93] xEdgeFace: Efficient Cross-Spectral Face Recognition for Edge Devices

Anjith George,Sebastien Marcel

Main category: cs.CV

TL;DR: 本文提出了一种轻量级但高效的异质人脸识别框架,结合CNN和Transformer架构,适用于资源受限的边缘设备。

  • Motivation: 解决异质人脸识别(HFR)中计算密集型架构的限制,提升在资源受限设备上的实用性。
  • Method: 采用混合CNN-Transformer架构,支持高效端到端训练,且只需少量配对异质数据。
  • Result: 在多个HFR和人脸识别基准测试中表现优于现有方法,同时保持低计算开销。
  • Conclusion: 该框架为同质和异质场景提供了高效且性能优越的解决方案。

[94] Explaining Vision GNNs: A Semantic and Visual Analysis of Graph-based Image Classification

Nikolaos Chaidos,Angeliki Dimitriou,Nikolaos Spanos,Athanasios Voulodimos,Giorgos Stamou

Main category: cs.CV

TL;DR: 该论文研究了图神经网络(GNNs)在图像分类任务中的可解释性,分析了不同层中图结构的语义一致性,并评估了其与人类感知的差异。

  • Motivation: 尽管GNNs在视觉任务中表现出高效性,但其可解释性尚未充分研究。论文旨在探索GNNs在图像分类中形成的图结构是否保持语义一致性和空间连贯性。
  • Method: 通过量化层间图连接的语义相似性和空间连贯性,分析GNNs的决策过程。同时,比较标准和对抗性设置下的解释,并通过热图可视化信息流动。
  • Result: 研究发现GNNs的决策过程可以有效解释,但深层推理与人类感知不一致。
  • Conclusion: 论文揭示了GNNs的可解释性潜力,同时指出其深层推理与人类理解的差异,为未来研究提供了方向。

[95] ClearVision: Leveraging CycleGAN and SigLIP-2 for Robust All-Weather Classification in Traffic Camera Imagery

Anush Lakshman Sivaraman,Kojo Adu-Gyamfi,Ibne Farabi Shihab,Anuj Sharma

Main category: cs.CV

TL;DR: 提出了一种结合生成域适应和高效对比学习的框架,提升低质量交通摄像头图像在夜间条件下的天气分类性能。

  • Motivation: 解决夜间低质量图像天气分类的挑战。
  • Method: 使用CycleGAN进行域转换,结合SigLIP-2对比学习。
  • Result: 最佳夜间分类准确率达85.90%,整体准确率97.01%。
  • Conclusion: 结合域适应和高效对比学习可构建实用的天气分类系统。

[96] Prompt Guiding Multi-Scale Adaptive Sparse Representation-driven Network for Low-Dose CT MAR

Baoshun Shi,Bing Chen,Shaolei Zhang,Huazhu Fu,Zhanli Hu

Main category: cs.CV

TL;DR: 提出了一种名为PMSRNet的多尺度自适应稀疏表示驱动网络,用于低剂量CT重建和金属伪影减少(LDMAR),解决了现有方法在多尺度信息利用和模型存储空间上的不足。

  • Motivation: 低剂量CT(LDCT)虽能减少辐射,但会降低图像质量并引入金属伪影。现有深度学习方法在多尺度信息利用和模型存储效率上存在局限。
  • Method: 设计了PMSRNet,结合多尺度稀疏框架,利用PSATG和MSFuM模块捕捉多尺度信息;提出PDuMSRNet框架,通过提示引导策略训练单一模型适应多剂量水平。
  • Result: 实验表明,该方法在多种剂量水平下优于现有LDMAR方法。
  • Conclusion: PMSRNet和PDuMSRNet有效解决了LDCT重建和金属伪影减少的问题,提升了图像质量和模型效率。

[97] SubGrapher: Visual Fingerprinting of Chemical Structures

Lucas Morin,Gerhard Ingmar Meijer,Valéry Weber,Luc Van Gool,Peter W. J. Staar

Main category: cs.CV

TL;DR: SubGrapher是一种直接从化学结构图像中提取分子指纹的方法,优于传统的光学化学结构识别(OCSR)模型,提高了检索性能和鲁棒性。

  • Motivation: 科学文献中化学结构的自动提取对加速药物发现和材料科学等领域的研究至关重要,而专利文档中的分子信息通常无法通过传统文本搜索获取。
  • Method: SubGrapher通过基于学习的实例分割识别功能团和碳骨架,构建基于子结构的指纹,实现化学结构检索。
  • Result: SubGrapher在检索性能和鲁棒性上优于现有OCSR和指纹方法。
  • Conclusion: SubGrapher提供了一种高效的化学结构检索方法,其数据集、模型和代码将公开。

[98] Open-set Anomaly Segmentation in Complex Scenarios

Song Xia,Yi Yu,Henghui Ding,Wenhan Yang,Shifei Liu,Alex C. Kot,Xudong Jiang

Main category: cs.CV

TL;DR: 论文提出了ComsAmy基准和DiffEEL方法,用于复杂开放世界场景中的异常分割,显著提升了现有模型的性能。

  • Motivation: 现有异常分割基准忽略了恶劣天气条件的影响,导致评估不可靠,无法满足自动驾驶等安全关键应用的需求。
  • Method: 提出了能量-熵学习策略(EEL)和基于扩散的异常训练数据合成器,增强模型在复杂环境中的鲁棒性。
  • Result: DiffEEL方法在多个基准测试中平均提升了4.96%的AUPRC和9.87%的FPR95。
  • Conclusion: DiffEEL是一种有效的即插即用方法,显著提升了异常分割模型在复杂开放世界场景中的性能。

[99] A computer vision method to estimate ventilation rate of Atlantic salmon in sea fish farms

Lukas Folkman,Quynh LK Vo,Colin Johnston,Bela Stantic,Kylie A Pitt

Main category: cs.CV

TL;DR: 开发了一种基于计算机视觉的方法,用于监测大西洋鲑的呼吸频率,适用于商业海鱼养殖场的实际生产环境。

  • Motivation: 现有智能监测方法多局限于实验室环境,缺乏在真实海鱼养殖场中的应用,亟需能直接监测生理特征的方法。
  • Method: 结合鱼头检测模型(CNN分类嘴部状态)和多目标跟踪技术,从水下视频中估计呼吸频率。
  • Result: 在独立测试集上,预测与真实呼吸频率的皮尔逊相关系数为0.82,高效识别呼吸窘迫鱼群。
  • Conclusion: 该方法具有广泛适用性,可显著提升鱼类健康与福利监测水平。

[100] The ATLAS of Traffic Lights: A Reliable Perception Framework for Autonomous Driving

Rupert Polley,Nikolai Polley,Dominik Heid,Marc Heinrich,Sven Ochs,J. Marius Zöllner

Main category: cs.CV

TL;DR: 提出了一种模块化的交通灯感知框架,结合先进检测模型与实时关联决策框架,并公开了ATLAS数据集以提升性能。

  • Motivation: 解决现有公共数据集在交通灯状态和图标标注上的不足,提升自动驾驶车辆在复杂城市环境中的导航安全性。
  • Method: 提出模块化感知框架,整合先进检测模型与实时关联决策框架,并使用ATLAS数据集进行训练与评估。
  • Result: 在ATLAS数据集上训练的模型在准确性和鲁棒性上有显著提升,并在真实场景中验证了框架的可靠性。
  • Conclusion: 该框架在实时操作中表现出高效性和可靠性,适用于自动驾驶系统的交通灯感知任务。

[101] RepText: Rendering Visual Text via Replicating

Haofan Wang,Yujia Xu,Yimeng Li,Junchen Li,Chaowei Zhang,Jing Wang,Kejia Yang,Zhibo Chen

Main category: cs.CV

TL;DR: RepText通过增强预训练的单语言文本到图像生成模型,使其能够准确渲染多语言视觉文本,无需真正理解文本内容。

  • Motivation: 现有文本到图像生成模型在非拉丁字母的精确和灵活排版方面表现不足。
  • Method: 基于ControlNet框架,引入语言无关的字形和位置信息,结合文本感知损失和扩散损失,优化渲染过程。
  • Result: RepText在实验中优于开源方法,接近闭源多语言模型的效果。
  • Conclusion: RepText有效解决了多语言文本渲染问题,但仍存在局限性。

[102] Measuring Train Driver Performance as Key to Approval of Driverless Trains

Rustam Tagiew,Prasannavenkatesh Balaji

Main category: cs.CV

TL;DR: 论文总结了自动驾驶列车计算机视觉系统的安全批准简化方法,并提供了新的公开数据集以弥补障碍物检测性能量化不足的问题。

  • Motivation: 由于缺乏公开的测量结果,自动驾驶列车在障碍物检测方面的性能难以量化,本文旨在填补这一空白。
  • Method: 通过收集711次列车驾驶员在控制实验中的性能数据,包括反应时间和与障碍物的距离,分析了不同速度、障碍物大小、列车保护系统和颜色对比的影响。
  • Result: 提供了一个公开且匿名的数据集,详细记录了实验测量结果,为研究、标准化和监管提供了支持。
  • Conclusion: 本文通过提供全面的数据集,为自动驾驶列车计算机视觉系统的性能评估和标准化提供了重要参考。

[103] CoDEx: Combining Domain Expertise for Spatial Generalization in Satellite Image Analysis

Abhishek Kuriyal,Elliot Vincent,Mathieu Aubry,Loic Landrieu

Main category: cs.CV

TL;DR: 提出了一种新的卫星图像领域泛化框架,通过训练多个专家模型并聚合预测,解决了地形差异导致的模型性能下降问题。

  • Motivation: 全球地形差异导致卫星图像分析模型在测试时性能下降,现有方法难以解决。
  • Method: 为每个训练领域训练一个专家模型,学习专家间的相似性并保持一致性,通过模型选择模块聚合预测。
  • Result: 在四个数据集(DynamicEarthNet、MUDS、OSCD、FMoW)上表现优于现有领域泛化和适应方法。
  • Conclusion: 提出的框架有效提升了卫星图像分析的泛化能力,代码已开源。

[104] Contrastive Language-Image Learning with Augmented Textual Prompts for 3D/4D FER Using Vision-Language Model

Muzammil Behzad,Guoying Zhao

Main category: cs.CV

TL;DR: AffectVLM是一个视觉语言模型,通过多视角整合和联合表示学习框架,结合梯度友好损失函数和增强文本提示,优化了面部情感理解的性能。

  • Motivation: 旨在从3D/4D数据中实现语义丰富且视觉全面的面部情感理解。
  • Method: 提出联合表示学习框架、梯度友好损失函数、增强文本提示和混合视角增强,并开发了Streamlit应用和分布式学习支持。
  • Result: 在多个基准测试中表现出优越性能。
  • Conclusion: AffectVLM通过多视角整合和优化学习框架,显著提升了面部情感理解的准确性和效率。

[105] EcoWikiRS: Learning Ecological Representation of Satellite Images from Weak Supervision with Species Observations and Wikipedia

Valerie Zermatten,Javiera Castillo-Navarro,Pallavi Jain,Devis Tuia,Diego Marcos

Main category: cs.CV

TL;DR: 论文提出了一种通过遥感图像与物种栖息地描述对齐的方法,预测生态属性,并引入了EcoWikiRS数据集。使用WINCEL损失函数处理弱监督问题,在EUNIS定义的生态系统零样本分类任务中表现良好。

  • Motivation: 通过遥感图像直接预测生态属性,为生态学研究提供更高效的工具。
  • Method: 提出EcoWikiRS数据集,结合高分辨率航空图像、物种观察数据和栖息地文本描述;使用WINCEL损失函数处理弱监督问题。
  • Result: 在EUNIS定义的生态系统零样本分类任务中表现良好,提升了遥感图像的生态解释能力。
  • Conclusion: 该方法为生态学研究提供了新的工具,代码和数据集已开源。

[106] STCOcc: Sparse Spatial-Temporal Cascade Renovation for 3D Occupancy and Scene Flow Prediction

Zhimin Liao,Ping Wei,Shuaijia Chen,Haoxuan Wang,Ziyang Ren

Main category: cs.CV

TL;DR: 提出了一种基于显式状态建模的新方法,通过稀疏遮挡感知注意力机制和级联细化策略,优化3D特征,并引入长期动态交互建模方法,显著提升了3D占用和场景流的预测性能。

  • Motivation: 现有基于隐式学习的方法难以捕捉局部细节并削弱了空间判别能力,因此需要一种更高效的方法来改进3D特征的建模。
  • Method: 提出稀疏遮挡感知注意力机制和级联细化策略,结合显式状态建模,优化3D特征;同时引入长期动态交互建模方法,降低计算成本。
  • Result: 在RayIoU和mAVE指标上优于现有方法,训练时GPU内存使用降至8.7GB。
  • Conclusion: 显式状态建模方法在性能和效率上均优于隐式学习方法,为3D场景理解提供了更优解决方案。

[107] Hybrid Approach Combining Ultrasound and Blood Test Analysis with a Voting Classifier for Accurate Liver Fibrosis and Cirrhosis Assessment

Kapil Kashyap,Sean Fargose,Chrisil Dabre,Fatema Dolaria,Nilesh Patil,Aniket Kore

Main category: cs.CV

TL;DR: 提出了一种结合机器学习和临床数据的混合模型,用于提高肝纤维化和肝硬化的检测准确性。

  • Motivation: 传统的肝活检诊断方法具有侵入性,不适合常规筛查。
  • Method: 结合血液检测概率和深度学习模型(DenseNet-201)对超声图像进行预测。
  • Result: 混合模型的准确率达到92.5%。
  • Conclusion: 该模型提高了诊断准确性,支持肝病的早期干预。

[108] Joint Optimization of Neural Radiance Fields and Continuous Camera Motion from a Monocular Video

Hoang Chuong Nguyen,Wei Mao,Jose M. Alvarez,Miaomiao Liu

Main category: cs.CV

TL;DR: 论文提出了一种新方法,通过建模连续相机运动为时间依赖的角速度和速度,消除了对初始相机位姿或深度先验的依赖,从而优化NeRF训练。

  • Motivation: NeRF需要精确预计算的相机位姿,现有方法依赖良好的位姿初始化或深度先验,但在复杂场景(如大旋转)中表现不佳。
  • Method: 通过时间依赖的NeRF学习连续相机运动,先学习相机间的相对运动,再聚合到世界坐标系中。
  • Result: 在Co3D和Scannet数据集上,该方法在相机位姿和深度估计上优于现有方法,且新视角合成性能相当。
  • Conclusion: 该方法通过建模连续运动,显著提升了复杂场景下的NeRF训练效果。

[109] Taming the Randomness: Towards Label-Preserving Cropping in Contrastive Learning

Mohamed Hassan,Mohammad Wasil,Sebastian Houben

Main category: cs.CV

TL;DR: 论文提出两种参数化裁剪方法,提升对比学习中自标注的鲁棒性,显著提高模型在CIFAR-10分类任务中的准确率。

  • Motivation: 随机裁剪可能导致语义偏离原图,产生错误标注,影响对比学习效果。
  • Method: 引入两种参数化裁剪方法,优化图像增强过程。
  • Result: 在CIFAR-10分类任务中,准确率提升2.7%至12.4%。
  • Conclusion: 参数化裁剪方法有效提升对比学习的自标注质量和模型性能。

[110] HOIGaze: Gaze Estimation During Hand-Object Interactions in Extended Reality Exploiting Eye-Hand-Head Coordination

Zhiming Hu,Daniel Haeufle,Syn Schmitt,Andreas Bulling

Main category: cs.CV

TL;DR: HOIGaze是一种基于学习的新型方法,用于扩展现实(XR)中手-物体交互(HOI)时的视线估计。它通过利用眼、手和头部运动的协调性来优化训练数据,显著提升了性能。

  • Motivation: 传统视线估计方法将所有训练样本视为同等重要,而HOIGaze通过利用眼、手和头部的协调运动来识别最有用的训练样本,从而去噪训练数据。
  • Method: 1) 提出分层框架,先识别视觉关注的手,再基于该手估计视线方向;2) 使用跨模态Transformer融合头部和手-物体特征;3) 引入眼-头部协调损失函数优化训练样本。
  • Result: 在HOT3D和ADT数据集上,HOIGaze显著优于现有方法,平均角度误差分别降低15.6%和6.0%。
  • Conclusion: 眼-手-头部协调运动蕴含丰富信息,为基于学习的视线估计开辟了新方向。

[111] AnimateAnywhere: Rouse the Background in Human Image Animation

Xiaoyu Liu,Mingshuai Yao,Yabo Zhang,Xianhui Lin,Peiran Ren,Xiaoming Li,Ming Liu,Wangmeng Zuo

Main category: cs.CV

TL;DR: AnimateAnywhere框架通过背景运动学习器(BML)从人体姿态序列中学习背景运动,无需相机轨迹,生成生动背景的人类动画。

  • Motivation: 现有方法忽视背景生成,导致静态或不协调结果,且相机轨迹准备不实用。
  • Method: 引入BML学习背景运动,结合极线约束优化3D注意力图。
  • Result: 实验表明,AnimateAnywhere能有效学习背景运动,生成逼真动画。
  • Conclusion: AnimateAnywhere在无需相机轨迹下,实现了高质量人类动画生成。

[112] SRMF: A Data Augmentation and Multimodal Fusion Approach for Long-Tail UHR Satellite Image Segmentation

Yulong Guo,Zilun Zhang,Yongheng Shang,Tiancheng Zhao,Shuiguang Deng,Yingchun Yang,Jianwei Yin

Main category: cs.CV

TL;DR: 论文提出SRMF框架,通过多尺度裁剪和数据增强解决UHR卫星图像语义分割中的长尾问题,结合文本与视觉特征的多模态融合提升性能。

  • Motivation: 解决超高分辨率卫星图像语义分割中的长尾问题,现有方法多关注多尺度特征提取而忽略长尾分布。
  • Method: 采用多尺度裁剪和数据增强策略(语义重排序与重采样),并提出多模态融合方法(文本与视觉特征结合)。
  • Result: 在URUR、GID和FBP数据集上mIoU分别提升3.33%、0.66%和0.98%,达到SOTA性能。
  • Conclusion: SRMF框架有效缓解长尾问题,提升语义分割性能,代码已开源。

[113] Foundation Model-Driven Framework for Human-Object Interaction Prediction with Segmentation Mask Integration

Juhan Park,Kyungjae Lee,Hyung Jin Chang,Jungchan Cho

Main category: cs.CV

TL;DR: Seg2HOI是一种新颖的框架,将基于分割的视觉基础模型与人物-物体交互任务结合,通过引入四元组(包括分割掩码)增强传统HOI检测,并在零样本场景中表现优异。

  • Motivation: 传统基于检测的HOI方法无法充分利用分割信息,Seg2HOI旨在通过结合分割模型提升HOI任务的灵活性和性能。
  • Method: Seg2HOI继承视觉基础模型的可提示和交互机制,通过解码器将这些特性应用于HOI任务,无需额外训练。
  • Result: 在公开基准数据集上,Seg2HOI表现与最先进方法相当,且支持零样本场景和未训练文本/视觉提示生成HOI四元组。
  • Conclusion: Seg2HOI展示了分割模型在HOI任务中的潜力,其灵活性和高效性为广泛应用提供了可能。

[114] CoherenDream: Boosting Holistic Text Coherence in 3D Generation via Multimodal Large Language Models Feedback

Chenhan Jiang,Yihan Zeng,Hang Xu,Dit-Yan Yeung

Main category: cs.CV

TL;DR: 论文提出了一种新的Score Distillation Sampling(SDS)目标方法TCSD,通过整合多模态大语言模型(MLLMs)的反馈来改善文本-3D对齐问题,并开发了3DLLaVA-CRITIC模型和LLM布局初始化方法,显著提升了文本对齐3D生成的性能。

  • Motivation: 现有的SDS方法在生成多对象复杂交互的3D内容时,难以保持语义保真度,且优化过程中存在视图无关偏见的累积问题,导致文本-3D对齐退化。
  • Method: 提出TCSD目标方法,利用MLLMs的跨模态理解能力评估和引导文本-3D对应关系;开发3DLLaVA-CRITIC模型用于多视图文本对齐评估;引入LLM布局初始化加速优化收敛。
  • Result: CoherenDream框架在T3Bench和TIFA子集等多个基准测试中实现了最先进的性能,定性结果展示了其在保持文本一致性和语义交互方面的优越性。
  • Conclusion: 通过整合MLLMs到SDS优化中,TCSD显著改善了文本-3D对齐问题,为3D生成任务提供了新的解决方案。

[115] Towards Ball Spin and Trajectory Analysis in Table Tennis Broadcast Videos via Physically Grounded Synthetic-to-Real Transfer

Daniel Kienzle,Robin Schön,Rainer Lienhart,Shin'Ichi Satoh

Main category: cs.CV

TL;DR: 论文提出了一种从单目广播视频中推断乒乓球初始旋转和3D轨迹的新方法,仅使用合成数据训练神经网络,无需真实数据即可泛化到真实场景。

  • Motivation: 分析乒乓球运动员的技术需要了解球的3D轨迹和旋转,而旋转在标准广播视频中无法直接观测。
  • Method: 通过合成数据训练神经网络,利用物理正确的输入数据表示和目标增强技术,实现从2D轨迹推断3D轨迹和旋转。
  • Result: 在旋转分类上达到92.0%的准确率,2D重投影误差为图像对角线的0.19%。
  • Conclusion: 该方法首次实现了在单目广播视频中预测旋转和轨迹,仅需合成数据即可泛化到真实场景。

[116] DeeCLIP: A Robust and Generalizable Transformer-Based Framework for Detecting AI-Generated Images

Mamadou Keita,Wassim Hamidouche,Hessen Bougueffa Eutamene,Abdelmalik Taleb-Ahmed,Abdenour Hadid

Main category: cs.CV

TL;DR: DeeCLIP是一个基于CLIP-ViT和融合学习的AI生成图像检测框架,通过融合高低级特征和参数高效微调,提升了检测的鲁棒性和泛化能力。

  • Motivation: 现有检测方法难以泛化到不同生成模型且对微小扰动敏感,DeeCLIP旨在解决这些问题。
  • Method: 结合DeeFuser模块融合高低级特征,使用三元组损失优化嵌入空间,并采用LoRA进行参数高效微调。
  • Result: 在19个测试子集上平均准确率达89.00%,优于现有方法。
  • Conclusion: DeeCLIP在检测AI生成图像方面表现出色,具有鲁棒性和泛化能力。

[117] Using Fixed and Mobile Eye Tracking to Understand How Visitors View Art in a Museum: A Study at the Bowes Museum, County Durham, UK

Claire Warwick,Andrew Beresford,Soazig Casteau,Hubert P. H. Shum,Dan Smith,Francis Xiatian Zhang

Main category: cs.CV

TL;DR: 研究人员使用固定和移动眼动追踪技术研究博物馆访客如何观看艺术品,以优化展览设计。

  • Motivation: 通过理解访客观看艺术品的习惯,优化博物馆展览设计,提升访客参与度。
  • Method: 采用固定和移动眼动追踪技术,在物理画廊环境中记录访客的眼动数据。
  • Result: 研究将为博物馆提供展览设计的建议,以更有效地展示藏品。
  • Conclusion: 眼动追踪技术有助于博物馆提升访客体验和艺术品展示效果。

[118] Federated Out-of-Distribution Generalization: A Causal Augmentation View

Runhui Zhang,Sijin Zhou,Zhuang Qi

Main category: cs.CV

TL;DR: FedCAug提出了一种联邦因果增强方法,通过因果数据增强打破属性与类别间的虚假关联,提升模型性能。

  • Motivation: 现有联邦学习方法在数据偏差和上下文信息利用上存在不足,FedCAug旨在解决这些问题。
  • Method: 设计因果区域定位模块和因果数据增强模块,生成反事实样本,增强数据多样性。
  • Result: 在三个数据集上实验表明,FedCAug显著减少模型对背景的依赖,性能优于现有方法。
  • Conclusion: FedCAug通过因果增强有效提升联邦学习性能,同时保护数据隐私。

[119] Enhancing breast cancer detection on screening mammogram using self-supervised learning and a hybrid deep model of Swin Transformer and Convolutional Neural Network

Han Chen,Anne L. Martel

Main category: cs.CV

TL;DR: 提出了一种结合自监督学习(SSL)和深度混合模型HybMNet的新方法,用于提高乳腺癌筛查的准确性。

  • Motivation: 高质量标注医学数据的稀缺性是AI应用于乳腺癌诊断的主要限制之一。
  • Method: 采用两阶段学习:1)使用SSL预训练Swin Transformer;2)结合CNN和融合策略训练HybMNet。
  • Result: 在CMMD和INbreast数据集上分别达到AUC 0.864和0.889。
  • Conclusion: HybMNet通过结合全局和局部信息,显著提升了乳腺癌检测性能。

[120] CineVerse: Consistent Keyframe Synthesis for Cinematic Scene Composition

Quynh Phung,Long Mai,Fabian David Caba Heilbron,Feng Liu,Jia-Bin Huang,Cusuh Ham

Main category: cs.CV

TL;DR: CineVerse是一个用于电影场景合成的新框架,通过两阶段方法生成连贯且丰富的电影场景。

  • Motivation: 解决电影制作中的多角色、复杂交互和视觉特效等挑战,强调跨帧的一致性和连续性。
  • Method: 1. 使用大型语言模型(LLM)生成详细场景和镜头计划;2. 微调文本到图像生成模型合成高质量关键帧。
  • Result: 实验结果表明,CineVerse在生成视觉连贯且内容丰富的电影场景方面表现优异。
  • Conclusion: CineVerse为电影视频合成的进一步探索奠定了基础。

[121] Breast Cancer Detection from Multi-View Screening Mammograms with Visual Prompt Tuning

Han Chen,Anne L. Martel

Main category: cs.CV

TL;DR: 提出了一种多视图视觉提示调优网络(MVPT-NET),用于高效分析高分辨率乳腺X光片,通过微调少量参数实现多视图数据整合,性能优于传统方法。

  • Motivation: 乳腺癌的早期诊断需要高分辨率乳腺X光片的准确检测,多视图数据能提供更全面的信息,但现有方法在处理大规模高分辨率数据时面临挑战。
  • Method: 先预训练单视图分类模型,再通过任务特定的提示调优过程整合多视图特征,仅微调7%的参数,避免激进降采样。
  • Result: 在多机构数据集上,MVPT-NET的AUROC达到0.852,优于传统方法,且保持检测效率。
  • Conclusion: MVPT-NET为医学影像任务提供了一种可扩展的多视图数据整合方案,具有高效性和鲁棒性。

[122] Enhancing Surgical Documentation through Multimodal Visual-Temporal Transformers and Generative AI

Hugo Georgenthum,Cristian Cosentino,Fabrizio Marozzo,Pietro Liò

Main category: cs.CV

TL;DR: 本文提出了一种多模态框架,结合计算机视觉和大语言模型,用于自动生成手术视频摘要,并在CholecT50数据集上验证了其高效性。

  • Motivation: 提升手术记录的自动化水平,支持手术培训和术后分析,推动AI在医疗领域的实际应用。
  • Method: 分为三个阶段:1) 视频分帧提取视觉特征;2) 结合大语言模型生成帧级描述;3) 整合为完整手术报告。
  • Result: 在工具检测上达到96%的精确度,BERT评分为0.74,表现优异。
  • Conclusion: 该方法为AI辅助手术报告提供了可靠工具,推动了临床文档的智能化发展。

[123] Enhancing Quality for VVC Compressed Videos with Omniscient Quality Enhancement Model

Xiem HoangVan,Hieu Bui Minh,Sang NguyenQuang,Wen-Hsiao Peng

Main category: cs.CV

TL;DR: 本文提出了一种新型的Omniscient视频质量增强网络(OVQE-VVC),用于提升H.266/VVC压缩视频的感知质量,显著提高了PSNR并节省了比特率。

  • Motivation: 尽管H.266/VVC在压缩性能上有显著提升,但仍需满足更高的感知质量需求。AI技术,尤其是基于深度学习的视频质量增强方法,为解决这一问题提供了可能。
  • Method: 作者提出了一种改进的OVQE模型,并将其集成到最新的STD-VVC解码器架构中,利用时空特征和跨频率信息增强视频质量。
  • Result: 实验表明,OVQE-VVC方案显著提升了PSNR(约0.74 dB至1.2 dB),并节省了约19.6%的比特率。
  • Conclusion: OVQE-VVC是一种有效的视频质量增强方法,适用于H.266/VVC标准,显著提升了压缩视频的感知质量。

[124] Mesh-Learner: Texturing Mesh with Spherical Harmonics

Yunfei Wan,Jianheng Liu,Jiarong Lin,Fu Zhang

Main category: cs.CV

TL;DR: Mesh-Learner是一个兼容传统光栅化管线的3D重建与渲染框架,通过整合网格和球谐纹理,实现端到端的视图相关辐射学习。

  • Motivation: 传统3D渲染方法在兼容性和效率上存在局限,Mesh-Learner旨在提供一种高效且兼容现有工具(如Blender)的解决方案。
  • Method: 结合网格和球谐纹理,采用新颖的插值方法渲染图像,并通过反向传播梯度优化SH纹理。利用光栅化管线的图形特性(如纹理采样、延迟渲染)实现高效渲染。
  • Result: 在Replica和FAST-LIVO2数据集上,Mesh-Learner在插值和外推序列中达到最先进性能,优于3D高斯泼溅和M2-Mapping等方法。
  • Conclusion: Mesh-Learner通过高效利用GPU内存和兼容现有工具,为3D重建和渲染任务提供了实用的解决方案,代码已开源。

[125] Shopformer: Transformer-Based Framework for Detecting Shoplifting via Human Pose

Narges Rashvand,Ghazal Alinezhad Noghre,Armin Danesh Pazho,Babak Rahimi Ardabili,Hamed Tabkhi

Main category: cs.CV

TL;DR: Shopformer是一种基于Transformer的模型,通过分析姿态序列而非原始视频来检测商店盗窃行为,解决了隐私和计算资源问题。

  • Motivation: 传统监控系统效率低且侵犯隐私,现有AI方法依赖视频分析,计算成本高且对环境敏感。
  • Method: 提出基于姿态序列的Transformer模型,采用自定义标记化策略将姿态序列转换为紧凑嵌入。
  • Result: 在真实姿态数据上表现优于现有异常检测模型,提供隐私保护且可扩展的实时监控方案。
  • Conclusion: Shopformer为零售监控提供了一种高效、隐私友好的解决方案。

[126] Mapping of Weed Management Methods in Orchards using Sentinel-2 and PlanetScope Data

Ioannis Kontogiorgakis,Iason Tsardanidis,Dimitrios Bormpoudakis,Ilias Tsoumas,Dimitra A. Loka,Christos Noulas,Alexandros Tsitouras,Charalampos Kontoes

Main category: cs.CV

TL;DR: 利用卫星遥感和机器学习技术,开发了一种高效、准确的果园杂草管理方法分类系统。

  • Motivation: 杂草管理对农业生产力至关重要,但传统监测方法成本高、耗时长,亟需更高效的解决方案。
  • Method: 结合Sentinel-2和PlanetScope卫星数据,采用机器学习方法分类四种杂草管理方法(割草、耕作、化学喷洒和无措施)。
  • Result: 机器学习驱动的遥感技术显著提高了果园杂草管理分类的效率和准确性。
  • Conclusion: 该方法为政策制定者提供了高效、准确的杂草管理监测工具,有助于农业可持续发展。

[127] Monitoring digestate application on agricultural crops using Sentinel-2 Satellite imagery

Andreas Kalogeras,Dimitrios Bormpoudakis,Iason Tsardanidis,Dimitra A. Loka,Charalampos Kontoes

Main category: cs.CV

TL;DR: 研究利用Sentinel-2卫星影像和机器学习模型监测农业中外源有机物的应用效果,展示了遥感与ML结合在精准农业中的潜力。

  • Motivation: 监测外源有机物(EOM)对土壤和作物健康的影响,尤其是消化物应用的环境风险(如微塑料污染和氮流失)。
  • Method: 使用Sentinel-2卫星影像时间序列分析特定指数(EOMI、NDVI、EVI),并结合多种机器学习模型(随机森林、k-NN、梯度提升和前馈神经网络)检测消化物应用。
  • Result: 机器学习模型在检测消化物应用时F1分数高达0.85,验证了方法的有效性。
  • Conclusion: 结合遥感和机器学习可扩展且经济高效地监测EOM应用,支持精准农业和可持续发展。

[128] SpatialReasoner: Towards Explicit and Generalizable 3D Spatial Reasoning

Wufei Ma,Yu-Cheng Chou,Qihao Liu,Xingrui Wang,Celso de Melo,Jieneng Chen,Jianwen Xie,Alan Yuille

Main category: cs.CV

TL;DR: SpatialReasoner是一种新型大型视觉语言模型,通过显式3D表示提升3D空间推理性能,并在未见问题上表现更好。

  • Motivation: 现有3D空间推理方法多为隐式,且泛化能力未充分验证,需探索显式3D表示的作用。
  • Method: 提出SpatialReasoner模型,结合3D感知、计算与推理阶段的显式3D表示。
  • Result: 模型在多个空间推理基准上表现更优,对未见问题泛化能力更强。
  • Conclusion: 显式3D表示结合视觉与语言模型,为3D空间推理开辟新方向。

[129] LIRM: Large Inverse Rendering Model for Progressive Reconstruction of Shape, Materials and View-dependent Radiance Fields

Zhengqin Li,Dilin Wang,Ka Chen,Zhaoyang Lv,Thu Nguyen-Phuoc,Milim Lee,Jia-Bin Huang,Lei Xiao,Cheng Zhang,Yufeng Zhu,Carl S. Marshall,Yufeng Ren,Richard Newcombe,Zhao Dong

Main category: cs.CV

TL;DR: LIRM是一种基于Transformer的架构,能够在一秒内联合重建高质量的形状、材质和辐射场,解决了现有稀疏视图重建模型的局限性。

  • Motivation: 现有的大规模重建模型(LRMs)在稀疏视图重建上表现优秀,但无法准确重建未见部分、恢复光泽外观或生成可重光照的3D内容。LIRM旨在解决这些问题,提供更实用的多视图3D重建框架。
  • Method: 1. 引入更新模型以逐步增加输入视图改进重建;2. 提出六平面神经SDF表示以更好地恢复细节纹理、几何和材质参数;3. 开发神经方向嵌入机制处理视图依赖效应。
  • Result: LIRM在几何和重光照准确性上优于基于优化的密集视图逆渲染方法,且推理时间大幅缩短。
  • Conclusion: LIRM通过技术创新实现了高效、高质量的多视图3D重建,为图形引擎提供了实用的可重光照内容。

[130] More Clear, More Flexible, More Precise: A Comprehensive Oriented Object Detection benchmark for UAV

Kai Ye,Haidi Tang,Bowen Liu,Pingyang Dai,Liujuan Cao,Rongrong Ji

Main category: cs.CV

TL;DR: CODrone是一个新的无人机定向物体检测数据集,旨在解决现有数据集在泛化能力和实际应用中的不足,通过多城市、多光照条件下的图像标注提升基准的真实性。

  • Motivation: 现有无人机定向物体检测数据集针对特定任务设计,泛化能力不足,无法充分反映实际飞行场景的需求。
  • Method: 提出CODrone数据集,解决现有数据集的四大限制(低分辨率、有限类别、单视角成像、受限飞行高度),并通过多城市、多光照条件下的图像标注增强基准。
  • Result: 实验基于22种经典或SOTA方法验证CODrone的有效性,揭示了无人机定向物体检测的关键瓶颈和机遇。
  • Conclusion: CODrone填补了无人机视角下定向物体检测的数据空白,提供了更具泛化能力的基准,为实际应用和算法发展提供了支持。

[131] Mitigating Catastrophic Forgetting in the Incremental Learning of Medical Images

Sara Yavari,Jacob Furst

Main category: cs.CV

TL;DR: 本文提出了一种增量学习方法,通过知识蒸馏提升T2加权MRI前列腺癌检测的准确性和效率,并在多中心数据集上验证了其性能。

  • Motivation: 解决医学图像分析中数据存储受限和多中心数据利用的问题。
  • Method: 采用知识蒸馏技术,利用历史任务生成的图像指导后续任务模型训练。
  • Result: 在PI-CAI等数据集上表现优异,模型收敛更快且性能提升。
  • Conclusion: 知识蒸馏是医学图像增量学习的有效方法,尤其适用于数据分散的场景。

[132] MP-SfM: Monocular Surface Priors for Robust Structure-from-Motion

Zador Pataki,Paul-Edouard Sarlin,Johannes L. Schönberger,Marc Pollefeys

Main category: cs.CV

TL;DR: 论文提出了一种结合单目深度和法线先验的改进SfM方法,显著提升了极端视角下的重建性能,并解决了对称性导致的错误关联问题。

  • Motivation: 传统SfM系统在极端视角变化、低重叠或高对称性场景中容易失败,限制了其广泛应用。本文旨在通过引入深度学习推断的单目先验信息来克服这些限制。
  • Method: 通过紧密集成单目和多视图约束,结合深度学习推断的深度和法线先验,改进SfM的鲁棒性。
  • Result: 在极端视角变化下显著优于现有方法,同时保持标准条件下的性能,并能有效解决对称性导致的错误关联问题。
  • Conclusion: 该方法首次实现了从少量图像可靠重建复杂室内环境的能力,且对先验误差具有鲁棒性,易于适应未来单目深度和法线估计的进展。

[133] Learning Streaming Video Representation via Multitask Training

Yibin Yan,Jilan Xu,Shangzhe Di,Yikun Liu,Yudi Shi,Qirui Chen,Zeqian Li,Yifei Huang,Weidi Xie

Main category: cs.CV

TL;DR: 论文提出StreamFormer,一种新型流式视频处理框架,通过因果时间注意力和多任务视觉语言对齐框架,实现了高效、低延迟的视频流处理。

  • Motivation: 实时视频流理解在具身AI和自动驾驶等应用中至关重要,但现有方法难以同时满足低延迟、历史信息保留和高效处理的需求。
  • Method: 结合因果时间注意力与预训练视觉变换器,构建StreamFormer;通过多任务视觉语言对齐框架统一训练。
  • Result: 在在线动作检测、视频实例分割和视频问答任务中表现优异,兼顾效率和性能。
  • Conclusion: StreamFormer为实时视频流理解提供了一种高效且通用的解决方案。

[134] CompleteMe: Reference-based Human Image Completion

Yu-Ju Tsai,Brian Price,Qing Liu,Luis Figueroa,Daniil Pakhomov,Zhihong Ding,Scott Cohen,Ming-Hsuan Yang

Main category: cs.CV

TL;DR: CompleteMe是一种基于参考的人体图像补全框架,通过双U-Net架构和区域聚焦注意力块(RFA)提升细节保留和语义一致性。

  • Motivation: 现有方法在补全人体图像时难以保留独特细节(如服装图案或配饰),且基于参考的图像修复方法在捕捉细粒度细节方面表现不佳。
  • Method: 提出CompleteMe框架,采用双U-Net架构和RFA块,通过显式引导模型关注参考图像中的相关区域来捕捉细节。
  • Result: 实验表明,CompleteMe在视觉质量和语义一致性上优于现有技术。
  • Conclusion: CompleteMe显著提升了基于参考的人体图像补全的细节保留和语义一致性。

cs.AI

[135] BELL: Benchmarking the Explainability of Large Language Models

Syed Quiser Ahmed,Bharathi Vokkaliga Ganesh,Jagadish Babu P,Karthick Selvaraj,ReddySiva Naga Parvathi Devi,Sravya Kappala

Main category: cs.AI

TL;DR: 论文提出了一种标准化基准技术,用于评估大语言模型的可解释性。

  • Motivation: 大语言模型在自然语言处理中表现出色,但其决策过程缺乏透明度,引发了对信任、偏见和性能的担忧。
  • Method: 引入了一种标准化基准技术,名为“大语言模型可解释性基准测试”。
  • Result: 该方法旨在评估大语言模型的可解释性。
  • Conclusion: 理解和评估大语言模型的可解释性对解决透明度和信任问题至关重要。

[136] A Cognitive-Mechanistic Human Reliability Analysis Framework: A Nuclear Power Plant Case Study

Xingyu Xiao,Peng Chen,Jiejuan Tong,Shunshun Liu,Hongru Zhao,Jun Zhao,Qianqian Jia,Jingang Liang,Haitao Wang

Main category: cs.AI

TL;DR: 本研究提出了一种认知-机制框架(COGMIF),通过整合ACT-R数字孪生和TimeGAN增强模拟,改进传统HRA方法,实现可扩展的人类错误概率评估。

  • Motivation: 传统HRA方法依赖专家判断和经验规则,忽略了人类错误的认知基础,且实验成本高。
  • Method: 结合ACT-R模型模拟操作员认知,TimeGAN生成合成数据,驱动IDHEAS-ECA评估。
  • Result: COGMIF在比较分析和敏感性评估中表现出稳健性和实用性,揭示了操作风险的关键驱动因素。
  • Conclusion: 该研究为将认知理论融入工业HRA实践提供了高效可信的途径。

[137] Research on Personalized Medical Intervention Strategy Generation System based on Group Relative Policy Optimization and Time-Series Data Fusion

Dingxin Lu,Shurui Wu,Xinyi Huang

Main category: cs.AI

TL;DR: 提出了一种基于GRPO和时间序列数据融合的个性化医疗干预策略生成系统,通过多源数据融合和优化算法提升决策效果。

  • Motivation: 医疗领域需要基于高维异构时间序列信息生成个性化干预方案,但多源医疗数据的多样性和复杂性带来了挑战。
  • Method: 结合GRPO和相对策略约束平衡个体与群体收益,使用多通道神经网络和自注意力机制进行动态特征提取,并通过遗传算法和蒙特卡洛树搜索优化策略。
  • Result: 实验显示,该方法在准确性、覆盖率和决策效益上显著优于现有方法。
  • Conclusion: 该系统有效解决了多源异构数据下的个性化医疗干预问题,具有较高的实用价值。

[138] Exploring a Large Language Model for Transforming Taxonomic Data into OWL: Lessons Learned and Implications for Ontology Development

Filipi Miranda Soares,Antonio Mauro Saraiva,Luís Ferreira Pires,Luiz Olavo Bonino da Silva Santos,Dilvan de Abreu Moreira,Fernando Elias Corrêa,Kelly Rosa Braghetto,Debora Pignatari Drucker,Alexandre Cláudio Botazzo Delbem

Main category: cs.AI

TL;DR: 论文探讨了使用ChatGPT-4自动化管理物种分类学中的科学名称,通过两种方法生成OWL文件,发现Python算法方法更具潜力但存在数据错误问题。

  • Motivation: 由于物种分类学的动态变化,手动维护科学名称变得困难,需自动化解决方案。
  • Method: 利用ChatGPT-4从GBIF Backbone API提取数据并生成OWL文件,尝试了两种方法:直接提示和Python算法设计。
  • Result: 第一种方法扩展性有限,第二种方法通过Python算法克服了扩展性问题,但存在数据错误。
  • Conclusion: 大型语言模型如ChatGPT-4在自动化物种名称管理中具有潜力,尽管存在局限,但能提升本体开发效率。

[139] Proof-of-TBI -- Fine-Tuned Vision Language Model Consortium and OpenAI-o3 Reasoning LLM-Based Medical Diagnosis Support System for Mild Traumatic Brain Injury (TBI) Prediction

Ross Gore,Eranga Bandara,Sachin Shetty,Alberto E. Musto,Pratip Rana,Ambrosio Valencia-Romero,Christopher Rhea,Lobat Tayebi,Heather Richter,Atmaram Yarlagadda,Donna Edmonds,Steven Wallace,Donna Broshek

Main category: cs.AI

TL;DR: 论文提出了一种结合多模态视觉语言模型和OpenAI-o3推理大语言模型的轻度创伤性脑损伤(TBI)诊断系统Proof-of-TBI,通过共识决策和透明化流程提高诊断准确性。

  • Motivation: 轻度TBI的诊断因症状不明显和医学影像的模糊性而具有挑战性,需要一种更准确、可靠的诊断方法。
  • Method: 系统通过微调多个视觉语言模型分析TBI的MRI扫描,并利用OpenAI-o3推理LLM进行预测结果的聚合与最终诊断决策。
  • Result: 原型系统结合了五个微调视觉语言模型,展示了高准确性和可靠性,为轻度TBI诊断提供了新方法。
  • Conclusion: 该研究首次将微调视觉语言模型与推理LLM结合用于TBI预测,展现了其在医疗诊断中的潜力。

[140] Transformational Creativity in Science: A Graphical Theory

Samuel Schapiro,Jonah Black,Lav R. Varshney

Main category: cs.AI

TL;DR: 论文提出了一种图形化理论,用于解释科学中的变革性创造力,结合了Boden和Kuhn的理论,并通过修改图形模型的公理展示了其变革潜力。

  • Motivation: 研究动机在于理解变革性科学创造力如何通过改变概念空间的“约束条件”和范式转换实现。
  • Method: 方法是通过构建图形化模型,分析公理修改对变革性创造力的影响。
  • Result: 结果表明,修改公理具有最高的变革潜力,并通过历史案例验证了模型的适用性。
  • Conclusion: 结论是图形化理论能有效捕捉变革性创造力的本质,为理解科学革命提供了新视角。

[141] A Vision for Auto Research with LLM Agents

Chengwei Liu,Chong Wang,Jiayue Cao,Jingquan Ge,Kun Wang,Lvye Zhang,Ming-Ming Cheng,Penghai Zhao,Tianlin Li,Xiaojun Jia,Xiang Li,Xinfeng Li,Yang Liu,Yebo Feng,Yihao Huang,Yijia Xu,Yuqiang Sun,Zhenhong Zhou,Zhengzi Xu

Main category: cs.AI

TL;DR: Agent-Based Auto Research是一个多智能体框架,利用LLMs和模块化协作自动化科学研究全生命周期,解决工作流碎片化等问题。

  • Motivation: 解决科学研究中的工作流碎片化、方法学不均衡和认知过载问题。
  • Method: 基于大型语言模型(LLMs)和模块化智能体协作,覆盖文献综述、实验设计等全研究阶段。
  • Result: 初步探索验证了Auto Research作为AI驱动研究范式的可行性和潜力。
  • Conclusion: Auto Research为自改进、AI驱动的研究提供了系统化、可扩展的解决方案。

[142] Evaluating AI-Driven Automated Map Digitization in QGIS

Diana Febrita

Main category: cs.AI

TL;DR: 研究评估了AI工具Deepness在自动地图数字化中的效果,并与OpenStreetMap的人工数字化结果进行比较。

  • Motivation: 地图数字化通常需要大量人工干预,AI技术可能提供更高效的替代方案。
  • Method: 使用Deepness插件在QGIS中进行自动化数字化,并与OpenStreetMap的人工数字化结果对比。
  • Result: 分析了AI生成的数字化结果与人工数字化结果的性能差异。
  • Conclusion: 研究为AI在地图数字化中的应用提供了有效性评估。

[143] Hierarchical Reinforcement Learning in Multi-Goal Spatial Navigation with Autonomous Mobile Robots

Brendon Johnson,Alfredo Weitzenfeld

Main category: cs.AI

TL;DR: HRL在稀疏奖励的机器人学习任务中表现优于传统RL,通过子目标和终止函数提升性能。

  • Motivation: 研究HRL在复杂导航任务中的优势,对比传统RL。
  • Method: 实验比较PPO与HRL,分析子目标创建方式(手动/自动)和终止频率对性能的影响。
  • Result: HRL在稀疏奖励任务中表现更优,子目标和终止函数是关键优势。
  • Conclusion: HRL通过分层结构和子目标机制有效提升复杂任务的性能。

[144] Generative to Agentic AI: Survey, Conceptualization, and Challenges

Johannes Schneider

Main category: cs.AI

TL;DR: 本文探讨了Agentic AI与GenAI的区别,分析了Agentic AI如何弥补GenAI的不足,并展望了其未来研究方向与潜在风险。

  • Motivation: 由于Agentic AI与GenAI的区别未被充分理解,本文旨在填补这一知识空白,帮助学术界和工业界更好地理解Agentic AI的新应用。
  • Method: 通过文献综述比较GenAI与Agentic AI,深入探讨Agentic AI的新特性,并提出未来研究方向和风险警示。
  • Result: 明确了Agentic AI的关键特性及其超越GenAI的能力,同时指出了未来研究的挑战和潜在风险。
  • Conclusion: Agentic AI代表了AI演进的下一步,具有更强的自主性和复杂性任务处理能力,但也需警惕其超越人类智能的风险。

[145] Reshaping MOFs Text Mining with a Dynamic Multi-Agent Framework of Large Language Agents

Zuhong Lin,Daoyuan Ren,Kai Ran,Sun Jing,Xiaotiang Huang,Haiyang He,Pengxu Pan,Xiaohang Zhang,Ying Fang,Tianying Wang,Minli Wu,Zhanglin Li,Xiaochuan Zhang,Haipu Li,Jingjing Yao

Main category: cs.AI

TL;DR: 利用LLM(如gpt-4o-mini)开发了MOFh6工具,用于优化MOF合成条件查询和建模。

  • Motivation: MOF合成条件复杂且多样,传统方法难以高效识别特定MOF的合成条件。
  • Method: 通过整合多种MOF相关代理(合成、属性和化学信息代理),利用LLM开发了MOFh6工具。
  • Result: MOFh6支持多格式查询(文献提交、MOF代码或结构属性查询),提供最优合成条件并生成预建模文件。
  • Conclusion: MOFh6有望提升MOF合成研究的效率。

[146] Use of Metric Learning for the Recognition of Handwritten Digits, and its Application to Increase the Outreach of Voice-based Communication Platforms

Devesh Pant,Dibyendu Talukder,Deepak Kumar,Rachit Pandey,Aaditeshwar Seth,Chetan Arora

Main category: cs.AI

TL;DR: 论文探讨了在资源受限环境下,纸质数据收集结合OCR/OMR技术的应用,并提出了一种基于深度学习的手写数字识别方法,成功应用于印度农村的健康项目。

  • Motivation: 在资源受限地区,数字设备数据收集不可行,纸质数据收集结合自动化技术成为替代方案。
  • Method: 使用OCR和OMR技术自动化处理纸质表单,并开发深度学习模型识别手写数字。
  • Result: 成功应用于印度农村的健康项目,数字化了大规模电话号码,推送了近400万通电话。
  • Conclusion: 开源了数据、模型和代码,证明了纸质数据收集结合自动化技术的可行性。

[147] Sparks: Multi-Agent Artificial Intelligence Model Discovers Protein Design Principles

Alireza Ghafarollahi,Markus J. Buehler

Main category: cs.AI

TL;DR: Sparks是一个多模态多代理AI模型,能够自主完成科学发现的完整周期,包括假设生成、实验设计和迭代优化,并在蛋白质科学中发现了两项新现象。

  • Motivation: 当前大多数AI系统仅能复现训练数据中的知识,而Sparks旨在实现完全自主的科学发现,无需人类干预。
  • Method: Sparks结合了生成序列设计、高精度结构预测和物理感知属性模型,通过生成-反思代理对实现自我修正和可重复性。
  • Result: 发现了两项新现象:长度依赖的力学交叉和链长/二级结构稳定性图,揭示了新的肽力学设计原则和β-折叠结构的稳定性特征。
  • Conclusion: Sparks能够独立进行严谨的科学探究,并识别出未知的科学原理。

[148] GLaMoR: Consistency Checking of OWL Ontologies using Graph Language Models

Justin Mücke,Ansgar Scherp

Main category: cs.AI

TL;DR: 论文提出GLaMoR,一种基于图语言模型的推理管道,用于高效检查OWL本体的一致性,性能优于基线模型。

  • Motivation: 现有语义推理器计算成本高且效率随本体规模下降,传统机器学习难以捕捉本体复杂关系,大语言模型在结构化推理上表现不佳。
  • Method: 将OWL本体转换为图结构数据,并基于GLM架构构建GLaMoR推理管道,用于一致性检查。
  • Result: 在NCBO BioPortal本体上测试,GLaMoR准确率达95%,速度比传统推理器快20倍。
  • Conclusion: GLaMoR通过结合图结构与语言模型,显著提升了本体一致性检查的效率和准确性。

[149] DiCE-Extended: A Robust Approach to Counterfactual Explanations in Machine Learning

Volkan Bakir,Polat Goktas,Sureyya Akyuz

Main category: cs.AI

TL;DR: DiCE-Extended是一个改进的反事实解释框架,通过多目标优化技术提升鲁棒性,同时保持可解释性。

  • Motivation: 现有反事实解释方法在平衡邻近性、多样性和鲁棒性方面存在不足,限制了实际应用。
  • Method: 引入基于Dice-Sorensen系数的鲁棒性指标,并使用加权损失组件优化反事实生成。
  • Result: 在多个基准数据集和ML后端上验证了DiCE-Extended的有效性,显示其在CF有效性、稳定性和决策边界对齐方面的改进。
  • Conclusion: DiCE-Extended为高风险应用生成更可靠且可解释的反事实解释提供了潜力,未来将探索自适应优化和领域特定约束。

[150] ChiseLLM: Unleashing the Power of Reasoning LLMs for Chisel Agile Hardware Development

Bowei Wang,Jiaran Gao,Yelai Feng,Renzhi Chen,Shanshan Li,Lei Wang

Main category: cs.AI

TL;DR: 本文介绍了ChiseLLM,一种针对Chisel代码生成的解决方案,通过数据处理、提示引导推理和领域适应训练,显著提升了语法正确性和设计变异性。

  • Motivation: 由于大型语言模型在Chisel代码生成中面临语法正确性和设计变异性的挑战,本文旨在通过领域适应方法提升模型性能。
  • Method: ChiseLLM包括数据处理与转换、提示引导推理轨迹合成和领域适应模型训练,并利用公开RTL代码资源构建高质量数据集。
  • Result: 实验表明,ChiseLLM-7B和ChiseLLM-32B分别将语法正确性提升了18.85%和26.32%,设计变异性能力提升了47.58%。
  • Conclusion: ChiseLLM为HCL-Based AHDM提供了高性能、低成本的模型,并为未来研究提供了有效基线。

[151] A Dynamic Fuzzy Rule and Attribute Management Framework for Fuzzy Inference Systems in High-Dimensional Data

Ke Liu,Jing Ma,Edmund M-K Lai

Main category: cs.AI

TL;DR: ADAR框架通过双权重机制和自动增长修剪策略,优化高维数据的神经模糊推理系统,在多个数据集上表现优于现有方法。

  • Motivation: 解决高维数据在神经模糊系统中带来的复杂性和性能挑战,同时保持模型的解释性。
  • Method: 集成双权重机制(属性和规则权重)及自动增长修剪策略,动态简化模糊模型。
  • Result: 在多个数据集上,ADAR模型的RMSE显著低于现有方法,如北京PM2.5数据集的RMSE为56.87。
  • Conclusion: ADAR有效平衡规则复杂性和特征重要性,为高精度、可解释的神经模糊系统提供新方向。

[152] A Design Framework for operationalizing Trustworthy Artificial Intelligence in Healthcare: Requirements, Tradeoffs and Challenges for its Clinical Adoption

Pedro A. Moreno-Sánchez,Javier Del Ser,Mark van Gils,Jussi Hernesniemi

Main category: cs.AI

TL;DR: 本文提出了一种设计框架,旨在将可信赖人工智能(TAI)原则嵌入医疗AI系统,以解决临床采用中的伦理、监管和信任问题。

  • Motivation: 医疗AI的广泛应用受限于技术之外的挑战,如伦理、监管和信任问题。TAI原则为解决这些问题提供了方向,但实际整合复杂。
  • Method: 提出一个设计框架,为不同医疗流程中的利益相关者制定疾病无关的TAI需求,并探讨实践中的挑战与权衡。
  • Result: 以心血管疾病为例,展示了TAI原则的应用及现存障碍。
  • Conclusion: 该框架为医疗AI开发者提供了实用指导,但需进一步解决实践中的复杂性和权衡问题。

[153] The Convergent Ethics of AI? Analyzing Moral Foundation Priorities in Large Language Models with a Multi-Framework Approach

Chad Coleman,W. Russell Neuman,Ali Dasdan,Safinah Ali,Manan Shah

Main category: cs.AI

TL;DR: 论文提出了PRIME框架,用于评估大型语言模型(LLM)的道德推理能力,发现模型在关怀/伤害和公平/欺骗维度表现突出,但在权威、忠诚和神圣性维度较弱。

  • Motivation: 随着LLM在重要决策中的应用增多,评估其道德推理能力变得至关重要。
  • Method: 采用PRIME框架,结合直接提问和伦理困境分析,评估六种主流LLM。
  • Result: 模型在关怀/伤害和公平/欺骗维度表现一致,但在其他维度较弱,且与人类道德偏好相符。
  • Conclusion: PRIME框架为道德基准测试提供了可扩展方法,揭示了当前AI道德推理的潜力与局限。

[154] Small Models, Big Tasks: An Exploratory Empirical Study on Small Language Models for Function Calling

Ishan Kavathekar,Raghav Donakanti,Ponnurangam Kumaraguru,Karthik Vaidhyanathan

Main category: cs.AI

TL;DR: 本文探讨了小型语言模型(SLMs)在生成函数调用任务中的效果,比较了零样本、少样本和微调方法,并分析了其在实际边缘设备上的性能表现。

  • Motivation: 函数调用在信息检索、软件工程和自动化等领域有广泛应用,但大型语言模型(LLMs)计算成本高,而SLMs在资源受限环境中更具潜力。
  • Method: 通过零样本、少样本和微调方法评估SLMs生成函数调用的效果,包括提示注入实验,并在边缘设备上测试延迟和内存使用。
  • Result: SLMs在微调后表现最佳,但在输出格式一致性上仍有困难;提示注入下性能略有下降,但整体稳健。
  • Conclusion: SLMs在函数调用任务中展现出潜力,但仍需进一步优化以实现实时应用。

[155] Logic-Based Artificial Intelligence Algorithms Supporting Categorical Semantics

Ralph Wojtowicz

Main category: cs.AI

TL;DR: 本文探讨了如何将范畴逻辑应用于设计能够符号化推理比集合更丰富结构的对象的智能代理。

  • Motivation: 研究动机在于扩展符号推理能力,使其适用于不支持经典逻辑或其所有连接词的语义范畴中的对象。
  • Method: 方法包括使用Johnstone的上下文项和公式的序列演算,开发了前向链和正规形式算法,并调整了一阶统一以支持多排序理论、上下文和一阶逻辑片段。
  • Result: 结果表明,这些重新表述可以应用于语义范畴中的对象推理,即使这些范畴不支持经典逻辑或其所有连接词。
  • Conclusion: 结论是,这些方法为在不支持经典逻辑的范畴中进行符号推理提供了新的可能性。

[156] Neurosymbolic Association Rule Mining from Tabular Data

Erkan Karabulut,Paul Groth,Victoria Degeler

Main category: cs.AI

TL;DR: Aerial+是一种新型神经符号关联规则挖掘方法,通过神经表示和重建机制生成高质量规则集,显著减少规则爆炸问题。

  • Motivation: 高维数据导致规则爆炸,增加执行时间并影响下游任务性能,Aerial+旨在解决这一问题。
  • Method: 利用不完全自编码器创建数据的神经表示,通过模型重建机制提取规则。
  • Result: 在五个数据集上优于七个基线方法,生成更简洁、高质量的规则集,并显著减少执行时间。
  • Conclusion: Aerial+在关联规则挖掘中表现出色,同时提升了解释性机器学习模型的效率和准确性。

[157] Graph Reinforcement Learning for QoS-Aware Load Balancing in Open Radio Access Networks

Omid Semiari,Hosein Nikopour,Shilpa Talwar

Main category: cs.AI

TL;DR: 提出了一种基于图强化学习(GRL)的QoS感知负载均衡方法,用于优化多频段O-RAN中GBR和BE流量的性能,显著降低了QoS违规并提升了BE流量的性能。

  • Motivation: 下一代无线网络需满足严格的QoS要求,而负载均衡是防止小区拥塞的关键挑战。
  • Method: 将QoS感知负载均衡建模为马尔可夫决策过程,利用图神经网络(GNN)和强化学习(RL)结合的GRL框架,设计状态和奖励信号,并采用基于GNN的Dueling DQN进行训练。
  • Result: 相比基线方法,QoS违规减少53%,BE流量的5%分位速率提升四倍。
  • Conclusion: GRL方法在负载均衡中表现出色,能够灵活处理不同网络规模并考虑节点间的空间依赖性。

[158] GVPO: Group Variance Policy Optimization for Large Language Model Post-Training

Kaichen Zhang,Yuzhong Hong,Junwei Bao,Hongfei Jiang,Yang Song,Dingqian Hong,Hui Xiong

Main category: cs.AI

TL;DR: GVPO是一种新的后训练方法,通过直接整合KL约束奖励最大化的解析解到梯度权重中,解决了训练不稳定性问题,并提供了理论保证和实际适应性。

  • Motivation: 现有后训练方法(如GRPO)虽然性能优越,但存在训练不稳定性问题,限制了实际应用。GVPO旨在解决这一问题。
  • Method: GVPO将KL约束奖励最大化的解析解直接整合到梯度权重中,其梯度反映了隐式奖励与实际奖励的中心距离的均方误差。
  • Result: GVPO保证了唯一最优解(即KL约束奖励最大化目标),并支持灵活的采样分布,避免了策略和重要性采样的限制。
  • Conclusion: GVPO通过理论保证和实际适应性,为LLM后训练提供了可靠且灵活的新范式。

[159] From Evidence to Belief: A Bayesian Epistemology Approach to Language Models

Minsu Kim,Sangryul Kim,James Thorne

Main category: cs.AI

TL;DR: 研究语言模型在贝叶斯认识论视角下的知识表现,发现其对不同证据类型的响应不一致,且高置信度不一定对应高准确性。

  • Motivation: 探讨语言模型如何根据证据的信息量和可靠性调整其置信度和响应,以理解其知识表现。
  • Method: 创建包含多种证据类型的数据集,通过语言化置信度、标记概率和采样分析模型的响应和置信度。
  • Result: 语言模型对真实证据符合贝叶斯确认假设,但对其他证据类型表现不一致;高置信度不一定保证高准确性。
  • Conclusion: 语言模型对黄金证据存在偏好,且表现因证据无关程度而异,这解释了其偏离贝叶斯假设的原因。

Fei Liu,Qingfu Zhang,Xialiang Tong,Mingxuan Yuan,Kun Mao

Main category: cs.AI

TL;DR: 本文研究了LLM辅助算法搜索(LAS)的适应度景观,揭示了其多模态和崎岖特性,并探讨了任务类型和LLM选择对景观结构的影响。

  • Motivation: 探索LLM在算法搜索中的适应度景观,填补现有研究的空白,并为设计更有效的LAS方法提供理论支持。
  • Method: 采用基于图的方法,节点表示算法,边表示算法间的转换,并在六个算法设计任务和六个LLM上进行评估。
  • Result: 发现LAS景观高度多模态且崎岖,任务类型和LLM选择显著影响景观结构,种群大小影响探索-开发权衡。
  • Conclusion: 研究不仅深化了对LAS景观的理解,还为优化LAS方法提供了实用指导。

[161] From LLM Reasoning to Autonomous AI Agents: A Comprehensive Review

Mohamed Amine Ferrag,Norbert Tihanyi,Merouane Debbah

Main category: cs.AI

TL;DR: 本文对2019至2025年间的大型语言模型和自主AI代理的评估基准、框架及协作协议进行了系统比较,并提出了一种分类法。同时,综述了2023至2025年间的AI代理框架及其实际应用,并探讨了未来研究方向。

  • Motivation: 当前评估基准和框架的碎片化缺乏统一分类和全面综述,因此需要系统整理和比较。
  • Method: 通过比较2019至2025年的评估基准和2023至2025年的AI代理框架,提出分类法并分析实际应用。
  • Result: 提出涵盖多个领域的60个基准分类法,并总结了AI代理框架及其在多个领域的应用。
  • Conclusion: 未来研究应关注高级推理策略、多代理系统的失败模式、自动化科学发现等方向。

[162] Learning Efficiency Meets Symmetry Breaking

Yingbin Bai,Sylvie Thiebaux,Felipe Trevizan

Main category: cs.AI

TL;DR: 论文提出了一种结合图神经网络和对称性检测的规划方法,通过动作剪枝和状态剪枝技术提升搜索效率,首次在IPC学习赛道数据集上超越LAMA。

  • Motivation: 探索基于学习的规划器在解决对称性问题上的潜力,结合图神经网络的高效学习和对称性检测能力。
  • Method: 提出一种规划问题的图表示方法,并设计动作剪枝和状态剪枝两种技术,集成到Fast Downward中。
  • Result: 在最新的IPC学习赛道数据集上首次超越LAMA。
  • Conclusion: 该方法有效结合学习效率和对称性管理,显著提升了规划性能。

[163] Can AI Agents Design and Implement Drug Discovery Pipelines?

Khachik Smbatyan,Tsolak Ghukasyan,Tigran Aghajanyan,Hovhannes Dabaghyan,Sergey Adamyan,Aram Bughdaryan,Vahagn Altunyan,Gagik Navasardyan,Aram Davtyan,Anush Hakobyan,Aram Gharibyan,Arman Fahradyan,Artur Hakobyan,Hasmik Mnatsakanyan,Narek Ginoyan,Garik Petrosyan

Main category: cs.AI

TL;DR: 论文提出DO Challenge基准,评估AI在药物发现中的决策能力,并介绍Deep Thought多智能体系统在基准测试中的表现。

  • Motivation: 利用AI加速药物发现,减少对昂贵实验的依赖。
  • Method: 设计DO Challenge基准,测试AI在虚拟筛选场景中的能力,并开发Deep Thought多智能体系统参与竞赛。
  • Result: Deep Thought表现优于多数人类团队,但不及专家设计的方案,且稳定性不足。
  • Conclusion: AI在药物发现中潜力显著,但仍需改进稳定性以匹配专家水平。

[164] Automated decision-making for dynamic task assignment at scale

Riccardo Lo Bianco,Willem van Jaarsveld,Jeroen Middelhuis,Luca Begnardi,Remco Dijkman

Main category: cs.AI

TL;DR: 本文提出了一种基于深度强化学习(DRL)的决策支持系统(DSS),用于解决现实规模的动态任务分配问题(DTAP),通过引入图结构和奖励函数优化任务平均周期时间。

  • Motivation: 现有DRL方法多限于小规模合成问题,未解决现实DTAP的挑战。
  • Method: 提出DRL代理,结合图结构和等效奖励函数,学习通用分配策略。
  • Result: 在五个真实DTAP实例中,DRL代理表现优于基线,且具有泛化能力。
  • Conclusion: 该方法有效解决了现实规模DTAP,并展示了良好的泛化性能。

[165] How Group Lives Go Well

John Beverley,Regina Hurley

Main category: cs.AI

TL;DR: 论文提出了一种基于本体工程的群体福祉框架,扩展了反事实账户理论,用于建模群体功能、角色和历史影响。

  • Motivation: 传统福祉理论聚焦个体状态,难以解释个体牺牲对群体进步的贡献,因此需要一种适用于群体层面的福祉模型。
  • Method: 结合基础形式本体论(BFO),提出了一种评估群体功能、角色和持久性的模型。
  • Result: 新模型支持语义互操作性,能够结构化推理群体福利、社会机构和长期群体繁荣。
  • Conclusion: 该框架为群体福祉的本体建模提供了新视角,弥补了传统理论的不足。

[166] Towards AI-Driven Policing: Interdisciplinary Knowledge Discovery from Police Body-Worn Camera Footage

Anita Srbinovska,Angela Srbinovska,Vivek Senthil,Adrian Martin,John McCluskey,Ernest Fokoué

Main category: cs.AI

TL;DR: 提出一种跨学科框架,利用AI和ML分析警察随身摄像头(BWC)数据,检测警民互动行为模式。

  • Motivation: 通过分析BWC数据,识别警民互动中的行为动态(如尊重、不尊重、升级与降级),为执法提供实用方法。
  • Method: 结合视频、音频和自然语言处理(NLP)技术进行多模态数据分析。
  • Result: 提出了一种计算技术和方法论,为执法提供实用见解。
  • Conclusion: 该框架不仅为执法提供实用工具,还推动了从BWC数据中发现新知识的边界。

[167] Towards Automated Scoping of AI for Social Good Projects

Jacob Emmerson,Rayid Ghani,Zheyuan Ryan Shi

Main category: cs.AI

TL;DR: 论文提出了一种基于大语言模型(LLM)的问题界定代理(PSA),用于自动生成AI4SG项目的提案,解决了专家资源不足的问题。

  • Motivation: AI4SG项目在问题界定阶段面临专家资源稀缺的瓶颈,需要一种自动化工具来辅助。
  • Method: 利用LLM构建PSA框架,生成基于科学文献和实际知识的项目提案。
  • Result: 通过盲审和AI评估,PSA生成的提案与专家撰写的提案质量相当。
  • Conclusion: PSA框架有效解决了问题界定中的资源瓶颈,但实际应用中仍存在挑战,需进一步研究。

physics.med-ph

[168] Machine Learning-Based Modeling of the Anode Heel Effect in X-ray Beam Monte Carlo Simulations

Hussein Harb,Didier Benoit,Axel Rannou,Chi-Hieu Pham,Valentin Tissot,Bahaa Nasr,Julien Bert

Main category: physics.med-ph

TL;DR: AI模型优化X射线成像中的蒙特卡洛模拟,通过动态调整阳极和阴极侧的束流权重,显著提升剂量精度和图像质量。

  • Motivation: 提高X射线成像中蒙特卡洛模拟的准确性,特别是针对阳极跟效应的不对称性。
  • Method: 开发AI驱动模型,动态调整X射线管阳极和阴极侧的束流权重,模拟临床X射线束的不对称性。
  • Result: 实验显示阴极侧剂量率增加9.6%,阳极侧减少12.5%,模拟工具OpenGATE和GGEMS的精度显著提升。
  • Conclusion: AI模型为X射线剂量学提供了改进框架,适用于临床和研究中的剂量优化、成像质量提升和辐射安全。

[169] Innovative Integration of 4D Cardiovascular Reconstruction and Hologram: A New Visualization Tool for Coronary Artery Bypass Grafting Planning

Shuo Wang,Tong Ren,Nan Cheng,Li Zhang,Rong Wang

Main category: physics.med-ph

TL;DR: 研究开发了一种动态心血管全息可视化工具,用于冠状动脉搭桥术(CABG)术前规划,临床反馈证实其有效性。

  • Motivation: CABG术前规划需要高级空间可视化,考虑冠状动脉深度、钙化和心包粘连。
  • Method: 利用14名CABG候选者的4D心脏CT数据,开发半自动化工作流程,包括心脏结构分割、冠状动脉钙化评分、心包粘连评估,并通过Looking Glass平台显示动态全息图像。
  • Result: 外科医生对工具的术前规划效用评分高(平均4.57/5.0),全息心包粘连评分与术中结果强相关(r=0.786, P<0.001)。
  • Conclusion: 研究建立了一个基于患者数据的动态全息可视化框架,临床反馈证实其对CABG术前规划的有效性。

cs.CR

[170] Backdoor Defense in Diffusion Models via Spatial Attention Unlearning

Abha Jha,Ashwath Vaithinathan Aravindan,Matthew Salaway,Atharva Sandeep Bhide,Duygu Nur Yaldiz

Main category: cs.CR

TL;DR: 本文提出了一种名为SAU的新方法,用于防御文本到图像扩散模型中的后门攻击,通过潜在空间操作和空间注意力机制有效移除恶意触发器。

  • Motivation: 扩散模型易受后门攻击,现有防御机制主要针对分类模型,生成模型因高维输出空间而缺乏保护。
  • Method: SAU利用潜在空间操作和空间注意力机制,隔离并移除后门触发器的潜在表示。
  • Result: SAU在多种后门攻击中实现100%触发器移除准确率,CLIP得分0.7023,优于现有方法。
  • Conclusion: SAU是一种高效、可扩展的解决方案,能保护扩散模型免受后门攻击,同时保持生成高质量图像的能力。

[171] DualBreach: Efficient Dual-Jailbreaking via Target-Driven Initialization and Multi-Target Optimization

Xinzhe Huang,Kedong Xiu,Tianhang Zheng,Churui Zeng,Wangze Ni,Zhan Qiin,Kui Ren,Chun Chen

Main category: cs.CR

TL;DR: DualBreach是一个针对大型语言模型(LLMs)和防护机制(Guardrails)的双重越狱框架,通过目标驱动初始化和多目标优化方法,显著提高了越狱成功率并减少了查询次数。

  • Motivation: 现有研究对LLMs和Guardrails的双重越狱攻击研究不足,导致现有攻击方法在绕过安全对齐的LLMs时效果有限。
  • Method: DualBreach采用目标驱动初始化(TDI)动态构建初始提示,结合多目标优化(MTO)方法,利用近似梯度联合优化提示,同时减少查询次数并提高成功率。对于黑盒Guardrails,DualBreach使用开源模型或训练代理模型模拟目标Guardrails。
  • Result: 实验表明,DualBreach在多个数据集上显著优于现有方法,平均双重越狱成功率达93.67%,且每次成功仅需1.77次查询。
  • Conclusion: DualBreach在双重越狱攻击中表现出色,同时提出的防御机制EGuard也优于现有防护方法。

[172] RepliBench: Evaluating the autonomous replication capabilities of language model agents

Sid Black,Asa Cooper Stickland,Jake Pencharz,Oliver Sourbut,Michael Schmatz,Jay Bailey,Ollie Matthews,Ben Millwood,Alex Remedios,Alan Cooney

Main category: cs.CR

TL;DR: RepliBench评估套件用于衡量语言模型代理的自主复制能力,发现当前模型虽未构成可信威胁,但在多个组件上表现良好且进步迅速。

  • Motivation: 研究语言模型代理的自主复制能力对安全性的潜在风险。
  • Method: 开发RepliBench评估套件,分解为四个核心领域,包含20个任务家族的86个任务,并测试5个前沿模型。
  • Result: 模型在简单安全设置下能完成部分任务,但难以通过KYC检查或建立持久部署。最佳模型Claude 3.7 Sonnet在多个任务上表现优异。
  • Conclusion: 自主复制能力可能随着技术进步或人类协助而很快实现。

[173] Feature Selection via GANs (GANFS): Enhancing Machine Learning Models for DDoS Mitigation

Harsh Patel

Main category: cs.CR

TL;DR: 论文提出了一种基于生成对抗网络的特征选择方法(GANFS),用于高效检测DDoS攻击,解决了传统方法在复杂攻击环境中的局限性。

  • Motivation: DDoS攻击对现代网络系统构成持续威胁,传统特征选择方法在复杂攻击环境中存在可扩展性和适应性不足的问题。
  • Method: 通过生成对抗网络(GAN)训练攻击流量数据,并利用判别器的扰动敏感性分析进行无监督特征重要性排序。
  • Result: 在CIC-DDoS2019数据集上的实验表明,GANFS提高了分类器准确性并显著降低了特征维度。
  • Conclusion: GANFS展示了生成学习模型在网络安全中的潜力,可构建更具适应性和可扩展性的检测系统。

[174] Large Language Model Empowered Privacy-Protected Framework for PHI Annotation in Clinical Notes

Guanchen Wu,Linzhi Zheng,Han Xie,Zhen Xiang,Jiaying Lu,Darren Liu,Delgersuren Bold,Bo Li,Xiao Hu,Carl Yang

Main category: cs.CR

TL;DR: 论文提出了一种基于大语言模型(LLM)的隐私保护PHI标注框架LPPA,用于临床笔记的去标识化,解决了现有方法泛化性差和数据标注需求高的问题。

  • Motivation: 医疗数据去标识化对保护患者隐私至关重要,但现有方法泛化性差且需要大量标注数据。LLM虽表现优异,但存在隐私风险和计算成本高的问题。
  • Method: 通过本地微调LLM并结合合成笔记,开发了LPPA框架,确保隐私保护和PHI标注的高准确性。
  • Result: 实验表明LPPA能有效去标识化私人信息,提供可扩展且高效的解决方案。
  • Conclusion: LPPA为增强患者隐私保护提供了高效、隐私安全的解决方案。

[175] WASP: Benchmarking Web Agent Security Against Prompt Injection Attacks

Ivan Evtimov,Arman Zharmagambetov,Aaron Grattafiori,Chuan Guo,Kamalika Chaudhuri

Main category: cs.CR

TL;DR: 论文提出了WASP基准,用于测试Web导航AI代理对提示注入攻击的安全性,发现现有代理易受攻击但难以完全实现攻击目标。

  • Motivation: 现有研究对Web代理的提示注入攻击测试过于简单或不切实际,缺乏真实场景的评估。
  • Method: 构建WASP基准,模拟真实攻击目标,并在隔离环境中测试三种流行Web代理系统的安全性。
  • Result: 代理易受低复杂度提示注入攻击,但攻击成功率低(0-17%)。
  • Conclusion: 需开发更强攻击方法以在现实约束下保持对代理的控制。

[176] Optimizing the Privacy-Utility Balance using Synthetic Data and Configurable Perturbation Pipelines

Anantha Sharma,Swetha Devabhaktuni,Eklove Mohan

Main category: cs.CR

TL;DR: 论文探讨了现代合成数据生成和高级数据扰动技术在BFSI等敏感行业中的应用,对比了传统匿名化方法,旨在平衡隐私保护与数据实用性。

  • Motivation: 在BFSI等数据敏感行业中,如何在保护隐私的同时保持数据的高实用性是一个关键需求。
  • Method: 采用了生成对抗网络(GANs)、上下文感知的PII转换、可配置统计扰动和差分隐私等先进技术。
  • Result: 这些方法在隐私保护和数据实用性方面显著优于传统方法,并可能带来操作效率的提升。
  • Conclusion: 现代隐私增强技术为敏感行业提供了更优的数据管理方案,支持数据驱动的创新且不泄露敏感信息。

[177] BadMoE: Backdooring Mixture-of-Experts LLMs via Optimizing Routing Triggers and Infecting Dormant Experts

Qingyue Wang,Qi Pang,Xixun Lin,Shuai Wang,Daoyuan Wu

Main category: cs.CR

TL;DR: 本文提出了一种针对MoE架构LLM的后门攻击方法BadMoE,通过毒化未充分利用的专家并优化路由触发器,实现对模型输出的控制。

  • Motivation: MoE架构的LLM虽然高效,但其安全性尚未充分研究,尤其是后门攻击的潜在威胁。
  • Method: 1) 识别与目标任务无关的未激活专家;2) 构建路由感知损失优化触发器;3) 通过毒化数据提升这些专家的主导作用。
  • Result: 证明了MoE模型中存在主导专家,且未激活专家可被操纵为支配性角色。
  • Conclusion: BadMoE攻击揭示了MoE架构的安全漏洞,需进一步研究防御措施。

[178] A Gradient-Optimized TSK Fuzzy Framework for Explainable Phishing Detection

Lohith Srikanth Pentapalli,Jon Salisbury,Josette Riep,Kelly Cohen

Main category: cs.CR

TL;DR: 提出了一种基于模糊推理模型的新型钓鱼URL检测系统,结合了模糊逻辑的可解释性和梯度优化的精确性,实现了高准确率和透明度。

  • Motivation: 钓鱼攻击日益复杂且普遍,现有检测方法难以同时实现高准确性和可解释性。
  • Method: 采用一阶Takagi-Sugeno-Kang模糊推理模型,结合Adam优化器进行参数调优。
  • Result: 在23.5万URL数据集上测试,准确率达99.95%,AUC为1.00,且模型决策透明。
  • Conclusion: 该框架为网络安全提供了高性能且可解释的钓鱼检测工具。

[179] Zero-Day Botnet Attack Detection in IoV: A Modular Approach Using Isolation Forests and Particle Swarm Optimization

Abdelaziz Amara korba,Nour Elislem Karabadji,Yacine Ghamri-Doudane

Main category: cs.CR

TL;DR: 论文提出了一种基于边缘计算的入侵检测系统(IDS),用于保护车联网(IoV)中的连接和自动驾驶车辆(CAV)免受已知和未知网络攻击。

  • Motivation: 车联网的互联性增加了安全风险,尤其是僵尸网络攻击,需要一种有效的检测系统来应对已知和未知威胁。
  • Method: 采用基于元集成分类器的检测模型,结合多个隔离森林(IF)模型和粒子群优化(PSO)的堆叠策略,构建鲁棒的元分类器。
  • Result: 在车辆僵尸网络数据集上测试,对已知攻击的检测率为92.80%,对未知攻击为77.32%。
  • Conclusion: 该IDS系统能有效检测已知和新兴威胁,为车联网提供可扩展和自适应的防御机制。

[180] CipherBank: Exploring the Boundary of LLM Reasoning Capabilities through Cryptography Challenges

Yu Li,Qizhi Pei,Mengyuan Sun,Honglin Lin,Chenlin Ming,Xin Gao,Jiang Wu,Conghui He,Lijun Wu

Main category: cs.CR

TL;DR: 论文介绍了CipherBank,一个评估大语言模型在密码解密任务中推理能力的基准测试,揭示了当前模型在密码学推理中的局限性。

  • Motivation: 尽管大语言模型在数学和编程领域表现出色,但其在需要密码学专业知识的推理能力尚未充分探索。
  • Method: 通过CipherBank基准测试(包含2,358个问题,涵盖5个领域和14个子领域),评估了包括GPT-4o和DeepSeek-V3在内的多种模型。
  • Result: 结果显示,通用聊天模型与专注于推理的模型之间存在显著差距,且当前模型在经典密码解密任务中表现不佳。
  • Conclusion: 研究强调了提升大语言模型密码学推理能力的必要性,并指出了改进方向。

[181] Doxing via the Lens: Revealing Privacy Leakage in Image Geolocation for Agentic Multi-Modal Large Reasoning Model

Weidi Luo,Qiming Zhang,Tianyu Lu,Xiaogeng Liu,Yue Zhao,Zhen Xiang,Chaowei Xiao

Main category: cs.CR

TL;DR: 研究发现ChatGPT o3能通过视觉推理高精度预测用户位置,需隐私保护开发。

  • Motivation: 探讨多模态大模型(如ChatGPT o3)在视觉推理中可能导致的隐私泄露风险。
  • Method: 构建50张真实图像数据集,分析模型的地理定位能力及关键视觉线索。
  • Result: 60%情况下模型能精确定位到一英里内,关键视觉线索(如街道布局)影响显著。
  • Conclusion: 需在多模态大模型开发中加强隐私保护措施。

[182] SAGE: A Generic Framework for LLM Safety Evaluation

Madhur Jindal,Hari Shrawgi,Parag Agrawal,Sandipan Dandapat

Main category: cs.CR

TL;DR: 论文提出了一个名为SAGE的自动化模块化框架,用于定制化和动态的危害评估,以解决当前LLM安全评估的不足。

  • Motivation: 随着LLM在多样化应用中的快速集成,现有的安全评估方法难以满足应用特定和动态对话的需求,可能导致潜在危害被忽视。
  • Method: 引入SAGE框架,利用系统感知的对抗用户模型进行全面的红队评估,支持多轮对话和个性化场景。
  • Result: 实验表明,危害随对话长度增加而上升,不同用户个性和场景下模型行为差异显著,部分模型通过过度拒绝策略减少危害但影响实用性。
  • Conclusion: 需采用自适应和上下文特定的测试方法,以确保LLM在现实场景中的安全部署。

[183] Securing GenAI Multi-Agent Systems Against Tool Squatting: A Zero Trust Registry-Based Approach

Vineeth Sai Narajala,Ken Huang,Idan Habler

Main category: cs.CR

TL;DR: 本文提出了一种针对生成式AI多智能体系统中工具抢占威胁的安全架构,通过工具注册系统、动态信任评分和精细访问控制来保障安全性。

  • Motivation: 生成式AI多智能体系统的标准化协议带来了工具抢占等安全挑战,亟需解决方案以确保安全交互。
  • Method: 设计了一个工具注册系统,包括管理员控制的注册、集中式工具发现、精细访问策略、动态信任评分和即时凭证供应。
  • Result: 提出的框架有效防止了工具抢占威胁,同时保持了多智能体系统的灵活性和功能性。
  • Conclusion: 该研究填补了生成式AI生态系统的安全空白,为生产环境中的安全工具集成奠定了基础。

[184] Securing Agentic AI: A Comprehensive Threat Model and Mitigation Framework for Generative AI Agents

Vineeth Sai Narajala,Om Narayan

Main category: cs.CR

TL;DR: 本文提出了一种针对生成式AI(GenAI)代理的全面威胁模型,识别了9种主要威胁,并提出了两个框架(ATFAA和SHIELD)以应对这些风险。

  • Motivation: 随着GenAI代理在企业环境中的普及,其自主性、持久记忆和复杂推理能力带来了传统系统不具备的安全挑战,需要专门研究。
  • Method: 研究通过分析GenAI代理的独特特性(如自主性和工具集成),构建了一个威胁模型,并提出了ATFAA和SHIELD两个框架。
  • Result: 识别了9种主要威胁,分为五个关键领域,并提出了针对性的缓解策略。
  • Conclusion: GenAI代理需要全新的安全视角,否则可能成为企业的重大风险。

[185] Simplified and Secure MCP Gateways for Enterprise AI Integration

Ivo Brett

Main category: cs.CR

TL;DR: 本文介绍了MCP Gateway,旨在简化企业自托管MCP服务器的集成,提供安全架构和开源实现建议。

  • Motivation: 企业采用MCP协议的需求增加,但现有公共MCP服务器解决方案无法满足企业自托管的安全需求。
  • Method: 提出MCP Gateway架构,整合安全原则、认证、入侵检测和安全隧道技术。
  • Result: 实现了安全的自托管MCP集成,避免基础设施暴露,并提供参考架构和威胁模型。
  • Conclusion: MCP Gateway解决了企业自托管AI集成的独特安全挑战,填补了现有解决方案的空白。

econ.GN

[186] AI Recommendations and Non-instrumental Image Concerns

David Almog

Main category: econ.GN

TL;DR: 研究发现,尽管人机协作潜力巨大,但实际中人们因担心形象问题而忽视AI建议,导致任务表现下降。

  • Motivation: 探索人机协作中人们为何未能充分利用AI建议,尤其是非工具性因素(如形象担忧)的影响。
  • Method: 通过在线实验,分析参与者因形象担忧而忽视AI建议的行为及其对任务表现的影响。
  • Result: 实验表明,即使无实际后果,形象担忧仍导致参与者拒绝AI建议,降低任务表现。
  • Conclusion: 非工具性因素(如形象担忧)是人机协作中AI建议未被充分利用的关键原因。

eess.IV

[187] Surgeons vs. Computer Vision: A comparative analysis on surgical phase recognition capabilities

Marco Mezzina,Pieter De Backer,Tom Vercauteren,Matthew Blaschko,Alexandre Mottrie,Tinne Tuytelaars

Main category: eess.IV

TL;DR: 研究探讨了自动手术阶段识别(SPR)中时间背景对专家分类能力的影响,并通过AI模型验证了其效果。

  • Motivation: 填补以往研究对非线性手术流程和时间背景影响的空白,提升手术视频分析和教育效果。
  • Method: 通过专家和初学者对机器人辅助部分肾切除术(RAPN)的单帧和视频片段进行分类,并训练带/不带时间背景的AI模型。
  • Result: 视频片段和视觉标志物提高了分类准确性,专家表现优于初学者,AI模型与专家表现相当且时间背景带来改进。
  • Conclusion: SPR对专家和AI均具挑战性,时间信息提升表现,手术工具和器官是关键标志物。

[188] Low-Rank Adaptive Structural Priors for Generalizable Diabetic Retinopathy Grading

Yunxuan Wang,Ray Yin,Yumei Tan,Hao Chen,Haiying Xia

Main category: eess.IV

TL;DR: 提出了一种名为LoASP的新方法,通过结合结构先验增强现有域泛化方法,提高了糖尿病视网膜病变分级的准确性。

  • Motivation: 现有域泛化方法在糖尿病视网膜病变分级中忽视了病灶特异性特征,导致准确性不足。
  • Method: 提出低秩自适应结构先验(LoASP),一种即插即用框架,通过学习自适应结构表示来提升泛化能力。
  • Result: 在八个不同数据集上的实验验证了LoASP在单源和多源域场景中的有效性。
  • Conclusion: LoASP通过学习与血管和病灶结构对齐的结构先验,显著提升了诊断的准确性和可解释性。

[189] Dual-Modality Computational Ophthalmic Imaging with Deep Learning and Coaxial Optical Design

Boyuan Peng,Jiaju Chen,Yiwei Zhang,Cuiyi Peng,Junyang Li,Jiaming Deng,Peiwu Qin

Main category: eess.IV

TL;DR: 该研究提出了一种紧凑型双功能光学设备,结合眼底摄影和屈光不正检测,采用同轴光学设计和Dense-U-Net算法,实现了高精度瞳孔定位和屈光估计,适用于社区健康筛查。

  • Motivation: 近视和视网膜疾病的负担日益增加,需要更便捷高效的眼部筛查解决方案。
  • Method: 采用同轴光学设计和二向色镜分离波长依赖的成像路径,结合Dense-U-Net算法进行瞳孔分割,实现自动对齐和聚焦。
  • Result: 实验显示系统能实现高精度瞳孔定位(EDE=2.8px,mIoU=0.931)和屈光估计(平均绝对误差<5%)。
  • Conclusion: 尽管受限于商用镜头组件,该框架为快速、智能、可扩展的眼科筛查提供了有前景的解决方案,尤其适合社区健康场景。

[190] Reservoir-enhanced Segment Anything Model for Subsurface Diagnosis

Xiren Zhou,Shikang Liu,Xinyu Yan,Yizhan Fan,Xiangyu Wang,Yu Kang,Jian Cheng,Huanhuan Chen

Main category: eess.IV

TL;DR: 论文提出了一种名为Res-SAM的新框架,用于精确检测地下异常(如裂缝和空洞),结合视觉和电磁波特性,实现了高准确率(>85%)且资源高效。

  • Motivation: 城市道路和基础设施面临地下异常的威胁,而传统GPR方法因数据标注不足、地下条件多变和目标边界模糊等问题难以准确检测。
  • Method: 提出Res-SAM框架,通过最小提示识别候选异常区域,并分析电磁波变化信息进行精确提取和分类。
  • Result: 实验表明,Res-SAM检测准确率超过85%,优于现有方法,且仅需少量非目标数据和简单人工交互。
  • Conclusion: Res-SAM为地下异常检测提供了可扩展且资源高效的解决方案,提升了城市安全监测效率并降低了成本和人工需求。

[191] Improving Generalization in MRI-Based Deep Learning Models for Total Knee Replacement Prediction

Ehsan Karami,Hamid Soltanian-Zadeh

Main category: eess.IV

TL;DR: 该研究通过替换批归一化为实例归一化、使用数据增强和对比损失,提升了基于MRI的深度学习模型在膝关节骨关节炎预测中的泛化能力。

  • Motivation: 膝关节骨关节炎(KOA)是一种常见疾病,但现有MRI深度学习模型在不同数据源上的泛化能力有限。
  • Method: 采用实例归一化、数据增强和对比损失改进基线模型,并使用OAI数据库的MRI数据进行训练和评估。
  • Result: 模型在源域和目标域的分类准确率均显著提升,优于基线模型。
  • Conclusion: 该方法有效提升了模型在不同MRI数据源上的泛化性能。

[192] Dual Attention Driven Lumbar Magnetic Resonance Image Feature Enhancement and Automatic Diagnosis of Herniation

Lingrui Zhang,Liang Guo,Xiao An,Feng Lin,Binlong Zheng,Jiankun Wang,Zhirui Li

Main category: eess.IV

TL;DR: 本文提出了一种自动化腰椎间盘突出(LDH)分类框架,利用T1和T2加权MRI图像,结合数据增强和注意力机制,显著提高了诊断效率和准确性。

  • Motivation: LDH的诊断依赖放射科医生的专业知识,导致诊断延迟和培训成本高,亟需自动化解决方案。
  • Method: 使用205人的MRI图像,结合数据增强和通道-空间注意力机制,提取临床特征并生成标准化诊断输出。
  • Result: 框架的AUC-ROC为0.969,准确率为0.9486,仅需少量训练数据即可实现高精度。
  • Conclusion: 该框架有望提升基层医院的LDH检测能力,为临床决策提供高效支持。

[193] Accelerated 3D-3D rigid registration of echocardiographic images obtained from apical window using particle filter

Thanuja Uruththirakodeeswaran,Harald Becher,Michelle Noga,Lawrence H. Le,Pierre Boulanger,Jonathan Windram,Kumaradevan Punithakumar

Main category: eess.IV

TL;DR: 提出了一种加速的SMC算法,用于3D-3D超声图像配准,提高了配准精度和速度。

  • Motivation: 解决3D超声图像配准中噪声和强度变化的问题,提高配准精度和效率。
  • Method: 采用加速的SMC算法,通过迭代估计刚体变换的平移和旋转分量,支持图像和掩模两种配准方式。
  • Result: 掩模配准方法在左心室配准中Dice得分为0.819±0.045,速度提升了16.7倍。
  • Conclusion: 加速SMC算法在3D超声图像配准中表现优异,具有高精度和高效性。

[194] SST-DUNet: Automated preclinical functional MRI skull stripping using Smart Swin Transformer and Dense UNet

Sima Soltanpour,Rachel Utama,Arnold Chang,Md Taufiq Nasseef,Dan Madularu,Praveen Kulkarni,Craig Ferris,Chris Joslin

Main category: eess.IV

TL;DR: 提出了一种名为SST-DUNet的新方法,结合密集UNet架构和基于Smart Swin Transformer的特征提取器,用于fMRI颅骨剥离,解决了低分辨率和切片大小变化的问题,取得了高精度结果。

  • Motivation: 手动颅骨剥离耗时且依赖操作者,现有方法对临床前fMRI数据的低分辨率和切片大小变化处理不佳,需要自动化解决方案。
  • Method: SST-DUNet结合密集UNet和Smart Swin Transformer,采用SSW-MSA模块替换ST中的掩码模块,并使用Focal和Dice损失函数解决类别不平衡问题。
  • Result: 在三个内部数据集上评估,Dice相似性得分分别为98.65%、97.86%和98.04%,自动结果与手动结果高度一致。
  • Conclusion: SST-DUNet可有效替代手动颅骨剥离,适用于大鼠fMRI分析。

cs.IR

[195] World Food Atlas Project

Ali Rostami,Z Xie,A Ishino,Y Yamakata,K Aizawa,Ramesh Jain

Main category: cs.IR

TL;DR: 论文提出构建世界食物图谱(WFA)的尝试,包括食物知识图谱(FKG)和食物记录应用(FoodLog Athl与RecipeLog),旨在整合食物知识以解决相关问题。

  • Motivation: 新冠疫情迫使人们居家,促使人们更关注食物对身体的影响,需要更好地了解和掌控食物。
  • Method: 提出两种方法:1)食物知识图谱(FKG),基于食谱和营养数据的图形化知识表示;2)食物记录应用(FoodLog Athl和RecipeLog),收集详细的饮食习惯数据。
  • Result: 通过整合这两种方法,尝试解决构建WFA过程中的问题。
  • Conclusion: 论文展示了构建WFA的初步尝试,为未来进一步整合食物知识提供了方向。

[196] Feature Fusion Revisited: Multimodal CTR Prediction for MMCTR Challenge

Junjie Zhou

Main category: cs.IR

TL;DR: 论文探讨了多模态大语言模型(MLLMs)在推荐系统中的应用,并针对高延迟问题提出了改进方法,最终在竞赛中获奖。

  • Motivation: 研究如何利用MLLMs提升推荐系统的效率,解决高延迟问题。
  • Method: 通过多模态表示学习改进信息检索任务,具体方法未详细说明。
  • Result: 团队在竞赛中获得了Task 2的奖项,并公开了代码和模型权重。
  • Conclusion: 提出了未来研究方向,重点是如何将推荐信号有效整合到多模态表示中。

[197] Reconstructing Context: Evaluating Advanced Chunking Strategies for Retrieval-Augmented Generation

Carlo Merola,Jaspinder Singh

Main category: cs.IR

TL;DR: 本文分析了检索增强生成(RAG)中的两种高级技术——延迟分块和上下文检索,比较了它们在优化RAG系统中的效果和效率。

  • Motivation: 解决传统分块方法在管理外部知识时导致上下文碎片化的问题,探索更有效的技术以提升RAG系统的性能。
  • Method: 对延迟分块和上下文检索进行严格分析,评估它们在语义连贯性和计算资源需求方面的表现。
  • Result: 上下文检索在保持语义连贯性上更有效,但计算成本更高;延迟分块效率更高,但牺牲了相关性和完整性。
  • Conclusion: 两种技术各有优劣,选择取决于具体应用场景中对连贯性和效率的需求。

eess.AS

[198] Enhancing Cochlear Implant Signal Coding with Scaled Dot-Product Attention

Billel Essaid,Hamza Kheddar,Noureddine Batel

Main category: eess.AS

TL;DR: 本文探讨了使用深度学习技术生成人工耳蜗电刺激图,与传统ACE策略相比,性能接近且更具灵活性。

  • Motivation: 传统人工耳蜗编码策略(如ACE)在适应性和精确性上受限,深度学习技术有望提供更优解决方案。
  • Method: 提出深度学习模型生成电刺激图,并与ACE策略通过STOI指标对比音频信号重建的清晰度。
  • Result: 深度学习模型的STOI得分为0.6031,接近ACE的0.6126,同时在灵活性和适应性上表现更优。
  • Conclusion: 研究表明AI技术可提升人工耳蜗的个性化和效率,为未来技术发展提供方向。

cs.CL

[199] Mind the Language Gap: Automated and Augmented Evaluation of Bias in LLMs for High- and Low-Resource Languages

Alessio Buscemi,Cédric Lothritz,Sergio Morales,Marcos Gomez-Vazquez,Robert Clarisó,Jordi Cabot,German Castignani

Main category: cs.CL

TL;DR: MLA-BiTe框架通过多语言和自动翻译技术改进偏见评估方法,测试了四种先进LLM在六种语言中的偏见表现。

  • Motivation: 大型语言模型(LLM)在处理自然语言时可能延续训练数据中的社会偏见,需要更全面的评估方法。
  • Method: 引入MLA-BiTe框架,结合自动翻译和改写技术,支持多语言偏见测试,覆盖七类敏感歧视问题。
  • Result: 在六种语言(包括两种低资源语言)中测试了四种LLM,展示了MLA-BiTe的有效性。
  • Conclusion: MLA-BiTe为多语言环境下的偏见评估提供了系统化工具,有助于更全面地识别和减少LLM中的偏见。

[200] Stealing Creator's Workflow: A Creator-Inspired Agentic Framework with Iterative Feedback Loop for Improved Scientific Short-form Generation

Jong Inn Park,Maanas Taneja,Qianwen Wang,Dongyeop Kang

Main category: cs.CL

TL;DR: SciTalk是一个多LLM代理框架,通过迭代反馈机制生成科学准确的短视频,优于简单提示方法,但尚未达到人类创作者水平。

  • Motivation: 解决现有方法在科学短视频生成中的事实不准确和视觉伪影问题,弥合专家作者与读者之间的鸿沟。
  • Method: 使用多代理框架,包括内容摘要、视觉场景规划、文本和布局编辑,并通过模拟用户反馈迭代优化生成。
  • Result: 实验表明,SciTalk在科学准确性和吸引力上优于简单提示方法,但质量仍不及人类创作者。
  • Conclusion: SciTalk为反馈驱动的视频生成提供了有价值的见解,代码和数据将公开。

[201] Effective Length Extrapolation via Dimension-Wise Positional Embeddings Manipulation

Yi Lu,Wanxu Zhao,Xin Zhou,Chenxin An,Chenglong Wang,Shuo Li,Yuming Yang,Jun Zhao,Tao Ji,Tao Gui,Qi Zhang,Xuanjing Huang

Main category: cs.CL

TL;DR: 论文提出了一种无需训练的框架DPE,通过分析RoPE的不同隐藏维度来扩展LLMs的上下文窗口,显著优于现有方法。

  • Motivation: 解决LLMs在处理超长上下文时的性能问题,避免昂贵的训练开销。
  • Method: 通过检测每个维度的有效长度并调整关键维度的位置索引,实现上下文窗口的扩展。
  • Result: DPE显著提升了模型性能,如Llama3-8k 8B支持128k上下文,且Llama3.1 70B在RULER基准上提升18分。
  • Conclusion: DPE是一种高效且无需训练的方法,显著提升了LLMs的长上下文处理能力。

[202] A Simple Ensemble Strategy for LLM Inference: Towards More Stable Text Classification

Junichiro Niimi

Main category: cs.CL

TL;DR: 本文提出了一种通过集成多个中型LLM推理结果的方法,以提高情感分析的鲁棒性和准确性,相比单一大型模型,RMSE降低了18.6%。

  • Motivation: 现有文献忽视了LLM结果的变异性与可重复性问题,而实际人工标注通过多数投票解决分歧,因此研究提出集成策略。
  • Method: 采用中型LLM的多次推理结果进行集成,用于情感分析任务。
  • Result: 集成方法比单一大型模型单次尝试更鲁棒且准确,RMSE降低了18.6%。
  • Conclusion: 集成中型LLM的多次推理是一种有效策略,可提升情感分析性能。

[203] LawFlow : Collecting and Simulating Lawyers' Thought Processes

Debarati Das,Khanh Chi Le,Ritik Sachin Parkar,Karin De Langis,Brendan Madson,Chad M. Berryman,Robin M. Willis,Daniel H. Moses,Brett McDonnell,Daniel Schwarcz,Dongyeop Kang

Main category: cs.CL

TL;DR: LawFlow数据集捕捉了法律实践中动态、模块化和迭代的推理过程,揭示了人类与LLM在工作流结构上的差异,并提出了AI辅助法律工作的设计建议。

  • Motivation: 当前AI在法律领域的应用局限于孤立子任务,无法支持端到端的法律决策。LawFlow旨在填补这一空白,提供真实世界的法律工作流数据。
  • Method: 通过收集训练有素的法律学生的端到端法律工作流数据,并与LLM生成的工作流进行比较分析。
  • Result: 人类工作流更具模块化和适应性,而LLM工作流更线性且缺乏对下游影响的敏感性。法律专业人士更倾向于AI在支持性角色中发挥作用。
  • Conclusion: 研究揭示了LLM在复杂法律工作流中的局限性,并提出了协作式、推理感知的法律AI系统的发展方向。

[204] Graph of Attacks: Improved Black-Box and Interpretable Jailbreaks for LLMs

Mohammad Akbar-Tajari,Mohammad Taher Pilehvar,Mohammad Mahmoody

Main category: cs.CL

TL;DR: GoAT是一种基于图结构的方法,用于生成对抗性提示以测试大型语言模型的安全性,其效果优于现有方法。

  • Motivation: 大型语言模型(LLMs)容易受到对抗性攻击,绕过其安全机制。识别这些漏洞对提升模型鲁棒性至关重要。
  • Method: GoAT利用图结构框架生成对抗性提示,通过动态整合和优化推理路径,实现更高效的攻击。
  • Result: GoAT在对抗性攻击中表现优异,成功率比现有方法高五倍,且无需访问目标模型参数。
  • Conclusion: GoAT为提升LLMs的安全性提供了一种高效的黑盒攻击方法,其图结构设计显著增强了对抗性漏洞的探索能力。

[205] Advancing Scientific Text Classification: Fine-Tuned Models with Dataset Expansion and Hard-Voting

Zhyar Rzgar K Rostam,Gábor Kertész

Main category: cs.CL

TL;DR: 研究通过预训练语言模型(PLMs)和数据集增强技术,显著提升了科学文本分类的准确性,特别是领域专用模型表现更优。

  • Motivation: 高效文本分类对处理日益增长的学术出版物至关重要。
  • Method: 使用BERT、SciBERT等PLMs在WoS-46985数据集上微调,并通过查询增强数据集,采用硬投票策略提升预测准确性。
  • Result: 领域专用模型(如SciBERT、BioBERT)表现优于通用模型,数据集增强和微调显著提升分类准确性。
  • Conclusion: 数据集增强、推理驱动标签预测和微调技术为自动化学术文本分类提供了高效、可扩展的解决方案。

[206] Hallucinations and Key Information Extraction in Medical Texts: A Comprehensive Assessment of Open-Source Large Language Models

Anindya Bijoy Das,Shibbir Ahmed,Shahnewaz Karim Sakib

Main category: cs.CL

TL;DR: 论文研究了开源大型语言模型(LLMs)在临床摘要中的有效性,特别是从出院报告中提取关键事件的能力,并评估了摘要中幻觉的普遍性。

  • Motivation: 临床摘要在医疗保健中至关重要,但需要自动化且准确的方法。LLMs因其自然语言理解能力而显示出潜力。
  • Method: 通过数值模拟评估开源LLMs在提取出院报告关键事件(如入院原因、住院事件和随访行动)中的表现,并检测摘要中的幻觉。
  • Result: 研究评估了LLMs的准确性和内容保真度,重点关注幻觉对信息可靠性的影响。
  • Conclusion: 开源LLMs在临床摘要中具有潜力,但需解决幻觉问题以确保信息可靠性。

[207] ClimaEmpact: Domain-Aligned Small Language Models and Datasets for Extreme Weather Analytics

Deeksha Varshney,Keane Ong,Rui Mao,Erik Cambria,Gianmarco Mengaldo

Main category: cs.CL

TL;DR: 论文提出了一种名为EWRA的方法,通过结合LLMs的结构化推理路径增强小型语言模型(SLMs),并构建了一个极端天气新闻数据集ExtremeWeatherNews。该方法在极端天气分析任务中表现优异。

  • Motivation: 极端天气事件的准确评估对研究和政策至关重要,但许多地区缺乏细粒度的数据,限制了分析和决策能力。LLMs能够处理大量非结构化文本数据并提取有用信息。
  • Method: 提出EWRA方法,通过LLMs的推理路径增强SLMs,并构建ExtremeWeatherNews数据集。框架ClimaEmpact专注于极端天气任务的分类、主题标注和情感分析。
  • Result: EWRA方法显著提升了SLMs在极端天气分析中的表现,超越了任务专用模型,增强了实际应用能力。
  • Conclusion: EWRA和ExtremeWeatherNews为极端天气分析提供了高效工具,展示了LLMs在增强SLMs方面的潜力。

[208] SPC: Evolving Self-Play Critic via Adversarial Games for LLM Reasoning

Jiaqi Chen,Bang Zhang,Ruotian Ma,Peisong Wang,Xiaodan Liang,Zhaopeng Tu,Xiaolong Li,Kwan-Yee K. Wong

Main category: cs.CL

TL;DR: 论文提出了一种名为Self-Play Critic (SPC)的新方法,通过对抗性自博弈游戏评估大语言模型(LLM)推理步骤的可靠性,无需人工标注。实验表明SPC显著提升了错误检测能力,并优于现有基线模型。

  • Motivation: 评估LLM推理步骤的可靠性(如Chain-of-Thought)因高质量步骤级监督的获取难度和成本而具有挑战性。
  • Method: SPC通过对抗性自博弈游戏训练两个模型:一个生成错误步骤的“狡猾生成器”,和一个评估步骤正确性的“批评家”。使用强化学习迭代优化模型。
  • Result: 在三个推理基准测试中,SPC逐步提升了错误检测能力(如ProcessBench准确率从70.8%提升至77.7%),并优于基线模型。应用于LLM测试时搜索也显著提升了数学推理性能。
  • Conclusion: SPC通过自博弈和强化学习有效提升了LLM推理步骤的可靠性评估能力,且无需人工标注,具有实际应用潜力。

[209] Uncertainty Quantification for Language Models: A Suite of Black-Box, White-Box, LLM Judge, and Ensemble Scorers

Dylan Bouchard,Mohit Singh Chauhan

Main category: cs.CL

TL;DR: 提出了一种零资源幻觉检测框架,结合多种不确定性量化技术,通过可调集成方法提升检测性能,并在实验中验证其优越性。

  • Motivation: 解决大语言模型(LLMs)在高风险领域(如医疗和金融)中的幻觉问题,提供实用的检测工具。
  • Method: 采用黑盒和白盒不确定性量化技术,以及LLM-as-a-Judge方法,生成标准化置信分数,并引入可调集成方法优化性能。
  • Result: 实验表明,可调集成方法优于单一技术和现有检测方法,提升了LLM的准确性和可靠性。
  • Conclusion: 定制化的幻觉检测策略能有效改善LLM的性能,适用于实际应用场景。

[210] VIST-GPT: Ushering in the Era of Visual Storytelling with LLMs?

Mohamed Gado,Towhid Taliee,Muhammad Memon,Dmitry Ignatov,Radu Timofte

Main category: cs.CL

TL;DR: 本文提出了一种基于多模态模型的视觉叙事方法VIST-GPT,并设计了新的评估指标RoViST和GROOVIST,以更准确地评估叙事质量。

  • Motivation: 传统视觉叙事方法在生成连贯叙述和评估指标上存在不足,需要更先进的模型和更合适的评估标准。
  • Method: 利用多模态模型(如基于Transformer的架构)和大规模VIST数据集,开发了VIST-GPT模型。
  • Result: VIST-GPT能生成视觉基础扎实、上下文合适的叙述,新评估指标RoViST和GROOVIST更贴近人类判断。
  • Conclusion: 新方法和评估指标显著提升了视觉叙事的质量和评估准确性。

[211] Unified Multi-Task Learning & Model Fusion for Efficient Language Model Guardrailing

James O' Neill,Santhosh Subramanian,Eric Lin,Vaikkunth Mugunthan

Main category: cs.CL

TL;DR: 论文提出了一种高效的任务特定数据生成方法,显著优于现有技术,同时模型更小。通过多任务预训练和模型合并,进一步提升了泛化能力。

  • Motivation: 大型语言模型(LLMs)在防止不良行为方面有潜力,但存在延迟、内存消耗和成本高的问题,需要更高效的解决方案。
  • Method: 1. 任务特定数据生成;2. 多任务预训练模型(MultiTaskGuard);3. 基于搜索的模型合并方法(UniGuard)。
  • Result: 在多个数据集和基准测试中,性能显著优于现有技术,F1分数平均提升29.92和21.62。
  • Conclusion: 提出的方法在高效性和性能上均优于现有技术,为不良行为检测提供了更优解决方案。

[212] Explanatory Summarization with Discourse-Driven Planning

Dongqi Liu,Xi Yu,Vera Demberg,Mirella Lapata

Main category: cs.CL

TL;DR: 本文提出了一种基于计划的摘要生成方法,通过话语框架引导解释性内容,提升了摘要质量与可控性。

  • Motivation: 当前自动摘要方法未明确建模解释性内容,导致与人工摘要的匹配度不足。
  • Method: 采用两种话语驱动的计划策略,将计划作为输入或输出前缀的一部分。
  • Result: 在三个数据集上实验表明,该方法在摘要质量、鲁棒性和可控性上优于现有方法。
  • Conclusion: 基于话语框架的计划方法能有效提升摘要的解释性和质量。

[213] Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory

Prateek Chhikara,Dev Khant,Saket Aryan,Taranjeet Singh,Deshraj Yadav

Main category: cs.CL

TL;DR: Mem0是一种可扩展的内存中心架构,通过动态提取、整合和检索对话中的关键信息,解决了大语言模型(LLM)在多轮对话中上下文窗口固定的问题。其图记忆变体进一步提升了性能。

  • Motivation: LLM在多轮对话中因固定上下文窗口难以保持一致性,需要一种高效的内存机制来支持长期对话。
  • Method: 提出Mem0架构及其图记忆变体,动态管理对话信息,并与六类基线方法(如RAG、全上下文处理等)在LOCOMO基准上对比。
  • Result: Mem0在四类问题上均优于现有方法,性能提升显著(如26%相对改进),同时计算开销大幅降低(91%延迟减少,90% token节省)。
  • Conclusion: 结构化持久内存机制对长期对话一致性至关重要,Mem0为高效可靠的LLM驱动AI代理提供了可行方案。

[214] Towards Long Context Hallucination Detection

Siyi Liu,Kishaloy Halder,Zheng Qi,Wei Xiao,Nikolaos Pappas,Phu Mon Htut,Neha Anna John,Yassine Benajiba,Dan Roth

Main category: cs.CL

TL;DR: 该论文针对大语言模型(LLMs)在长上下文输入中的幻觉问题,构建了一个专用数据集,并提出了一种新架构,通过分解和聚合机制有效检测幻觉。实验表明,该架构在性能和速度上均优于现有模型。

  • Motivation: LLMs在长上下文输入中容易产生幻觉(生成无根据或矛盾的信息),现有研究尚未有效解决这一问题。
  • Method: 构建长上下文幻觉检测数据集,并提出基于预训练编码器(如BERT)的新架构,通过分解和聚合机制处理长上下文。
  • Result: 新架构在多项指标上显著优于同类模型和LLM模型,且推理速度更快。
  • Conclusion: 该研究为解决LLMs长上下文幻觉问题提供了有效方法,新架构在性能和效率上均有优势。

[215] BRIDGE: Benchmarking Large Language Models for Understanding Real-world Clinical Practice Text

Jiageng Wu,Bowen Gu,Ren Zhou,Kevin Xie,Doug Snyder,Yixing Jiang,Valentina Carducci,Richard Wyss,Rishi J Desai,Emily Alsentzer,Leo Anthony Celi,Adam Rodman,Sebastian Schneeweiss,Jonathan H. Chen,Santiago Romero-Brufau,Kueiyu Joshua Lin,Jie Yang

Main category: cs.CL

TL;DR: BRIDGE是一个多语言临床基准测试,评估了52种LLM在真实临床数据上的表现,发现开源模型可与专有模型媲美,而医学微调的旧架构模型表现不佳。

  • Motivation: 当前LLM在临床环境中的评估有限,现有基准未能捕捉真实电子健康记录的复杂性或缺乏通用性。
  • Method: 提出BRIDGE基准,包含87个任务,覆盖9种语言,系统评估52种LLM的13,572次实验。
  • Result: 开源LLM表现接近专有模型,医学微调的旧架构模型表现较差。性能因模型大小、语言、任务和临床专业而异。
  • Conclusion: BRIDGE为临床文本理解的LLM开发和评估提供了基础资源和参考。

[216] m-KAILIN: Knowledge-Driven Agentic Scientific Corpus Distillation Framework for Biomedical Large Language Models Training

Meng Xiao,Xunxin Cai,Chengrui Wang,Yuanchun Zhou

Main category: cs.CL

TL;DR: 提出了一种基于知识驱动的多智能体框架,用于生物医学领域的科学语料蒸馏,显著提升了语言模型在生物医学问答任务中的表现。

  • Motivation: 现有开源生物医学语料库在数量和质量上不足,无法满足大型语言模型的需求。
  • Method: 采用多智能体协作架构,每个智能体基于MeSH层次结构自主提取、合成和评估高质量文本数据,生成领域特定的问答对。
  • Result: 实验表明,基于该框架训练的语言模型在生物医学问答任务中表现优异,甚至超越了一些先进的专有模型。
  • Conclusion: 多智能体协作框架在生物医学LLM训练中具有显著潜力,能够高效生成高质量语料。

[217] Arabic Metaphor Sentiment Classification Using Semantic Information

Israa Alsiyat

Main category: cs.CL

TL;DR: 论文讨论了使用新设计的基于语义标签的情感分类工具测试阿拉伯隐喻语料库(AMC),并评估其对情感的影响。

  • Motivation: 研究阿拉伯在线隐喻对情感的影响,填补了使用语义标签进行阿拉伯隐喻情感分类的空白。
  • Method: 设计自动工具,结合语义情感标签进行情感分类,并使用F-score、召回率和精确度进行评估。
  • Result: 工具成功应用于AMC,展示了阿拉伯隐喻对情感的具体影响。
  • Conclusion: 这是首次利用语义标签对阿拉伯隐喻进行情感分类的研究,为相关领域提供了新方法。

[218] VCM: Vision Concept Modeling Based on Implicit Contrastive Learning with Vision-Language Instruction Fine-Tuning

Run Luo,Renke Shan,Longze Chen,Ziqiang Liu,Lu Wang,Min Yang,Xiaobo Xia

Main category: cs.CL

TL;DR: 论文提出VCM框架,通过自监督视觉概念建模提升大视觉语言模型的效率,减少计算成本,同时保持性能。

  • Motivation: 当前大视觉语言模型(LVLMs)在图像处理上效率低下,缺乏视觉概念模型,限制了实际应用。
  • Method: 提出VCM框架,结合隐式对比学习和视觉语言微调,无需昂贵的概念级标注。
  • Result: VCM显著降低计算成本(如LLaVA-1.5-7B减少85% FLOPs),并在多种任务中保持高性能。
  • Conclusion: VCM有效提升视觉编码器能力,实验验证其高效性和实用性。

[219] A Comprehensive Part-of-Speech Tagging to Standardize Central-Kurdish Language: A Research Guide for Kurdish Natural Language Processing Tasks

Shadan Shukr Sabr,Nazira Sabr Mustafa,Talar Sabah Omar,Salah Hwayyiz Rasool,Nawzad Anwer Omer,Darya Sabir Hamad,Hemin Abdulhameed Shams,Omer Mahmood Kareem,Rozhan Noori Abdullah,Khabat Atar Abdullah,Mahabad Azad Mohammad,Haneen Al-Raghefy,Safar M. Asaad,Sara Jamal Mohammed,Twana Saeed Ali,Fazil Shawrow,Halgurd S. Maghdid

Main category: cs.CL

TL;DR: 该研究为中央库尔德语(CKL)设计了一个准确且全面的词性标注集,以提升库尔德语自然语言处理任务的性能。

  • Motivation: 由于资源匮乏,低资源语言如CKL的词性标注任务缺乏标准化和全面性,影响了相关NLP任务的发展。
  • Method: 研究整合了不同研究和库尔德语言学专家的词性标注,设计了一个标准化的标注集,并用于标注大型CKL语料库。
  • Result: 与通用依赖框架对比,提出的标注集能更准确地优化库尔德语句子,支持NLP任务。
  • Conclusion: 该研究为CKL提供了一个标准化的词性标注集,有望推动库尔德语NLP任务的发展。

[220] Annif at SemEval-2025 Task 5: Traditional XMTC augmented by LLMs

Osma Suominen,Juho Inkinen,Mona Lehtinen

Main category: cs.CL

TL;DR: Annif系统在SemEval-2025 Task 5中结合传统NLP与LLM技术,表现优异。

  • Motivation: 探讨如何利用大型语言模型(LLMs)提升多语言环境下主题标引的准确性和效率。
  • Method: 结合Annif工具包的传统NLP/ML技术与LLM的翻译、合成数据生成及单语模型预测合并方法。
  • Result: 在定量评估中排名第一(全主题类别)和第二(TIB核心主题类别),定性评估中排名第四。
  • Conclusion: 传统XMTC算法与现代LLM技术结合可显著提升多语言主题标引的效果。

[221] Taming the Titans: A Survey of Efficient LLM Inference Serving

Ranran Zhen,Juntao Li,Yixin Ji,Zhenlin Yang,Tong Liu,Qingrong Xia,Xinyu Duan,Zhefeng Wang,Baoxing Huai,Min Zhang

Main category: cs.CL

TL;DR: 本文综述了大语言模型(LLM)推理服务中的低延迟与高吞吐量挑战及解决方案,涵盖实例级、集群级和新兴场景的方法。

  • Motivation: 解决LLM推理服务中因参数庞大和注意力机制计算需求高导致的延迟和吞吐量问题。
  • Method: 综述了实例级的模型放置、请求调度等,集群级的GPU部署、负载均衡等,以及新兴场景的任务与模块。
  • Result: 提供了全面的方法分类与讨论,为LLM推理服务优化提供了系统参考。
  • Conclusion: 总结了现有方法并指出了未来研究方向,推动LLM推理服务领域的进一步发展。

[222] Assessing the Potential of Generative Agents in Crowdsourced Fact-Checking

Luigia Costabile,Gian Marco Orlando,Valerio La Gatta,Vincenzo Moscato

Main category: cs.CL

TL;DR: 论文探讨了利用大型语言模型(LLM)生成的智能代理在众包事实核查中的潜力,发现其表现优于人类众包,且更一致、更少偏见。

  • Motivation: 在线错误信息的泛滥需要可扩展、可靠的事实核查解决方案,而众包事实核查虽成本低但存在质量和偏见问题。LLM的进步为这一领域提供了新可能性。
  • Method: 通过模拟具有多样人口和意识形态背景的生成代理,研究其在事实核查任务中的表现,包括证据检索、质量评估和真实性判断。
  • Result: 生成代理在真实性分类上优于人类众包,内部一致性更高,且更少受社会和认知偏见影响,决策更结构化。
  • Conclusion: 生成代理可作为可扩展、一致且偏见较少的事实核查参与者,为众包系统提供新方向。

[223] TD-EVAL: Revisiting Task-Oriented Dialogue Evaluation by Combining Turn-Level Precision with Dialogue-Level Comparisons

Emre Can Acikgoz,Carl Guo,Suvodip Dey,Akul Datta,Takyoung Kim,Gokhan Tur,Dilek Hakkani-Tür

Main category: cs.CL

TL;DR: TD-EVAL是一个两步骤的评估框架,结合细粒度的回合级分析和整体对话级比较,用于评估任务导向对话系统。

  • Motivation: 传统自动指标无法检测用户与代理交互中的关键中间错误,需要更精细的评估方法。
  • Method: TD-EVAL在回合级评估对话连贯性、后端知识一致性和策略合规性;在对话级使用TOD Agent Arena进行成对比较。
  • Result: 实验表明TD-EVAL能有效识别传统指标遗漏的错误,且与人类判断更一致。
  • Conclusion: TD-EVAL为任务导向对话系统评估提供了新范式,支持未来研究的即插即用框架。

eess.SY

[224] Model-based controller assisted domain randomization in deep reinforcement learning: application to nonlinear powertrain control

Heisei Yonezawa,Ansei Yonezawa,Itsuro Kajiwara

Main category: eess.SY

TL;DR: 提出了一种基于深度强化学习(DRL)的新型鲁棒控制方法,结合领域随机化、LSTM网络和基于模型的控制器,用于处理复杂机械系统中的非线性和不确定性。

  • Motivation: 传统鲁棒控制在处理某些非线性和不确定性时存在局限性,需要一种更实用的方法。
  • Method: 采用领域随机化DRL、LSTM网络和基于模型的控制器,通过LMDP建模问题。
  • Result: 实验验证了该方法在复杂动力系统主动阻尼中的高鲁棒性。
  • Conclusion: 该方法在泛化能力和训练效率上优于传统DRL控制。

[225] Capturing Aerodynamic Characteristics of ATTAS Aircraft with Evolving Intelligent System

Aydoğan Soylu,Tufan Kumbasar

Main category: eess.SY

TL;DR: 论文提出了一种新型的Evolving Type-2 Quantum Fuzzy Neural Network (eT2QFNN)用于建模ATTAS飞机的气动系数,通过增量学习策略和量子隶属函数提高了模型的鲁棒性和准确性。

  • Motivation: 精确建模气动系数对现代飞机系统的性能优化至关重要,传统方法在不确定性和数据噪声下表现不足。
  • Method: 采用eT2QFNN,通过增量学习策略创建多个线性子模型,利用量子隶属函数增强鲁棒性,并自动学习规则和调整参数。
  • Result: eT2QFNN在大量数据和有限数据下均优于基线模型,且规则数量少于Type-1模糊模型。Delta方法进一步验证了其稳定性。
  • Conclusion: eT2QFNN在气动系数建模中表现出优越性能,适用于复杂非线性系统的建模。

cs.DC

[226] The Big Send-off: High Performance Collectives on GPU-based Supercomputers

Siddharth Singh,Mahua Singh,Abhinav Bhatele

Main category: cs.DC

TL;DR: PCCL是一个针对GPU超级计算机优化的通信库,显著提升了大规模语言模型训练的性能。

  • Motivation: 现有通信库(如RCCL和Cray-MPICH)在GPU超级计算机上存在资源利用不足和扩展性问题,无法满足大规模LLM训练的需求。
  • Method: 开发了PCCL,专注于优化all-gather和reduce-scatter操作,充分利用网络和计算资源,支持数千GPU的高效扩展。
  • Result: PCCL在2048 GCDs的Frontier系统上,比RCCL快6-33倍,比Cray-MPICH快28-70倍;在GPT-3训练中,对7B和13B模型分别提速60%和40%。
  • Conclusion: PCCL显著提升了大规模LLM训练的通信效率,解决了现有库的局限性。

[227] UnifyFL: Enabling Decentralized Cross-Silo Federated Learning

Sarang S,Druva Dhakshinamoorthy,Aditya Shiva Sharma,Yuvraj Singh Bhadauria,Siddharth Chaitra Vivek,Arihant Bansal,Arnab K. Paul

Main category: cs.DC

TL;DR: 本文提出了一种基于信任的跨组织联邦学习框架\proj,通过去中心化编排和分布式存储,平衡信任与资源效率。

  • Motivation: 现有联邦学习(FL)方法在跨组织协作时面临信任与资源效率的权衡问题,缺乏理想解决方案。
  • Method: 开发了\proj框架,采用去中心化编排和分布式存储,支持同步和异步模式处理延迟问题。
  • Result: 在多样化测试平台上,\proj性能接近理想的多级集中式FL,同时实现信任与资源优化。
  • Conclusion: \proj为跨组织联邦学习提供了灵活且高效的解决方案,平衡了信任与资源约束。

cs.CC

[228] MODP: Multi Objective Directional Prompting

Aashutosh Nema,Samaksh Gulati,Evangelos Giakoumakis,Bipana Thapaliya

Main category: cs.CC

TL;DR: MODP框架通过多目标性和定向提示优化LLM提示工程,性能提升26%,并成功应用于生产环境。

  • Motivation: 当前提示工程缺乏对LLM内在行为的考虑,导致优化过程主观且不系统。
  • Method: 提出MODP框架,结合多目标性(考虑LLM行为)和定向提示(指标驱动方法)。
  • Result: 在摘要任务中性能提升26%,并成功应用于Dell的Next Best Action工具。
  • Conclusion: MODP为提示工程提供了系统化方法,显著提升性能并具备实际应用价值。

[229] Probabilistic and Causal Satisfiability: Constraining the Model

Markus Bläser,Julian Dörfler,Maciej Liśkiewicz,Benito van der Zander

Main category: cs.CC

TL;DR: 研究了概率和因果推理中可满足性问题的复杂性,扩展了现有工作,包括固定图结构和小模型约束。

  • Motivation: 探索概率和因果推理中可满足性问题的复杂性,特别是在固定图结构和小模型约束下的表现。
  • Method: 扩展了现有工作,通过固定图结构和小模型约束,分析不同算术和PCH层次下的复杂性。
  • Result: 固定图结构下复杂性几乎完全明确;小模型约束下复杂性特征化。
  • Conclusion: 扩展了概率和因果推理中可满足性问题的复杂性理解,特别是在新约束条件下。

cs.CY

[230] The Philosophic Turn for AI Agents: Replacing centralized digital rhetoric with decentralized truth-seeking

Philipp Koralus

Main category: cs.CY

TL;DR: 论文探讨了AI决策支持系统对人类自主性和能动性的潜在威胁,提出了一种基于哲学对话的AI设计方法,以增强用户判断力而不损害自主性。

  • Motivation: 面对AI技术的快速发展,人类可能因依赖AI而失去自主性或被外部选择架构控制,这引发了关于如何平衡AI辅助与人类自主性的关键问题。
  • Method: 论文提出了一种哲学转向的AI设计方法,借鉴苏格拉底对话模式,促进分散式真理探索和开放式探究,以增强用户的适应学习能力。
  • Result: 通过这种方法,AI系统可以在不损害用户自主性的前提下,增强其判断力和能动性。
  • Conclusion: 论文总结了保护自主性的AI系统的关键特征,为设计增强而非削弱人类判断力的AI系统提供了路径。

[231] Toward Personalizing Quantum Computing Education: An Evolutionary LLM-Powered Approach

Iizalaarab Elhaimeur,Nikos Chrisochoides

Main category: cs.CY

TL;DR: 论文提出了一种基于知识图谱和双LLM代理的智能教学助手,用于量子计算教育,旨在动态适应学生需求并优化学习路径。

  • Motivation: 量子计算教育因复杂性和现有工具限制面临挑战,需开发更智能、适应性强的教学工具。
  • Method: 结合知识图谱和双LLM代理(教学代理和课程规划代理),通过中央知识图谱协调任务,利用标签系统减少LLM幻觉。
  • Result: 初步结果显示系统能捕获丰富交互数据、动态调整课程计划,并实现情境感知辅导,但需系统评估。
  • Conclusion: 该系统展示了在量子计算教育中的潜力,未来需进一步验证其效果。

[232] Balancing Creativity and Automation: The Influence of AI on Modern Film Production and Dissemination

Yiren Xu

Main category: cs.CY

TL;DR: AI在电影制作中提高了效率和创造力,但也带来伦理和实践挑战。研究通过混合方法探讨了AI的双重影响,提出AI应作为‘体现工具’而非独立伙伴,并建议制定国际监管框架和人类控制指数(HCI)。

  • Motivation: 探讨AI在现代电影中的双重影响,平衡创造力与自动化,并解决伦理问题。
  • Method: 采用混合方法,结合理论框架(如作者论、人机关系)和案例研究(如《The Safe Zone》《Fast & Furious 7》)。
  • Result: AI作为‘体现工具’可保护人类创作权和艺术完整性;揭示了AI驱动市场中的监控资本主义风险和深度伪造技术的伦理困境。
  • Conclusion: 建议制定国际监管框架和HCI,以指导电影制作和政策制定,保护文化多样性和伦理标准。

[233] Generative AI in Education: Student Skills and Lecturer Roles

Stefanie Krause,Ashish Dalvi,Syed Khubaib Zaidi

Main category: cs.CY

TL;DR: 研究探讨了生成式AI在教育中的应用,识别了学生所需的14项关键能力,并提出了教师整合GenAI的策略。

  • Motivation: 评估生成式AI在教育中的影响,明确学生所需能力及教师如何有效整合GenAI。
  • Method: 混合方法:文献综述和定量调查(130名学生)。
  • Result: 文献综述发现14项关键学生能力,学生调查显示在提示工程、偏见意识等方面存在不足;教师策略中GenAI整合和课程设计最受重视。
  • Conclusion: 需推动GenAI在教育中的包容性和负责任应用,包括公平获取工具、明确学术诚信政策及全球研究倡议。

[234] Mitigating Societal Cognitive Overload in the Age of AI: Challenges and Directions

Salem Lahlou

Main category: cs.CY

TL;DR: 论文探讨了AI时代信息过载对社会认知的影响,提出缓解认知过载对应对AI潜在风险至关重要。

  • Motivation: 研究动机在于揭示AI如何通过信息泛滥、算法操纵等机制加剧认知过载,及其对人类福祉和社会韧性的威胁。
  • Method: 通过分析AI加剧认知过载的机制,重新定义AI安全辩论的核心为认知过载。
  • Result: 研究强调认知过载是连接短期危害与长期风险的桥梁,并提出了相关机构适应、研究方向和政策建议。
  • Conclusion: 结论指出需从过载韧性视角探索人机对齐的未来路径,而非提供确定性解决方案。

physics.ins-det

[235] Generative Models for Fast Simulation of Cherenkov Detectors at the Electron-Ion Collider

James Giroux,Michael Martinez,Cristiano Fanelli

Main category: physics.ins-det

TL;DR: 提出了一种基于生成模型的快速模拟工具,用于加速Cherenkov探测器的粒子识别任务,替代传统Geant4模拟。

  • Motivation: 传统Geant4模拟在Cherenkov探测器中计算成本高,尤其是光学光子传输模拟成为瓶颈。
  • Method: 开发了一个开源的、GPU加速的快速模拟框架,专注于hpDIRC探测器,利用生成模型加速粒子识别。
  • Result: 该工具能高效生成高保真大规模数据集,支持DL驱动的粒子识别方法开发与测试。
  • Conclusion: 这一快速模拟工具为EIC-wide粒子识别策略提供了关键支持,依赖于无限模拟样本。

cs.NE

[236] Application of the Brain Drain Optimization Algorithm to the N-Queens Problem

Sahar Ramezani Jolfaei,Sepehr Khodadadi Hossein Abadi

Main category: cs.NE

TL;DR: 本文介绍了Brain Drain Optimization(BRADO)算法在N皇后问题中的应用,该算法表现优于其他元启发式算法。

  • Motivation: 研究动机是将受知识精英移民启发的BRADO算法应用于经典的组合优化问题N皇后问题,以验证其有效性。
  • Method: 方法包括设计成本函数引导搜索,并使用基于TOPSIS的多准则决策过程调整配置。
  • Result: 结果表明,BRADO在解质量和目标函数值上优于PSO、GA、ICA、ILS和LS等算法。
  • Conclusion: 结论是BRADO在组合问题中具有潜力,未来可应用于其他人工智能领域。

cs.MM

[237] WILD: a new in-the-Wild Image Linkage Dataset for synthetic image attribution

Pietro Bongini,Sara Mandelli,Andrea Montibeller,Mirko Casu,Orazio Pontorno,Claudio Ragaglia,Luca Zanchetta,Mattia Aquilina,Taiba Majid Wani,Luca Guarnera,Benedetta Tondi,Paolo Bestagini,Irene Amerini,Francesco Denatale,Sebastiano Battiato,Mauro Barni

Main category: cs.MM

TL;DR: WILD数据集为合成图像来源识别提供了训练和基准测试工具,包含20个生成器的2万张图像,支持多种任务评估。

  • Motivation: 合成图像来源识别因生成器数量多、技术复杂且缺乏高质量数据集而具有挑战性。
  • Method: 构建WILD数据集,包含10个封闭集和10个开放集生成器,每生成器1000张图像,部分图像经过后处理。
  • Result: 数据集支持封闭/开放集识别、验证及抗后处理攻击任务,并评估了七种基线方法。
  • Conclusion: WILD为合成图像来源识别提供了实用工具,基线方法展示了其潜力。

cs.AR

[238] NSFlow: An End-to-End FPGA Framework with Scalable Dataflow Architecture for Neuro-Symbolic AI

Hanchen Yang,Zishen Wan,Ritik Raj,Joongun Park,Ziwei Li,Ananda Samajdar,Arijit Raychowdhury,Tushar Krishna

Main category: cs.AR

TL;DR: NSFlow是一种基于FPGA的加速框架,专为Neuro-Symbolic AI(NSAI)任务设计,显著提升了效率和可扩展性。

  • Motivation: 现有硬件(如CPU、GPU、TPU)难以高效执行NSAI任务,因其异构计算内核、高内存需求和独特访问模式。
  • Method: NSFlow采用设计架构生成器和可重构阵列,优化数据流架构,支持灵活计算单元和混合精度。
  • Result: NSFlow在NSAI任务中表现优异,速度提升显著(如31倍于Jetson TX2,2倍于GPU)。
  • Conclusion: NSFlow是首个支持实时通用NSAI算法加速的框架,为下一代认知系统提供解决方案。

q-bio.NC

[239] Exploring Visual Complaints through a test battery in Acquired Brain Injury Patients: A Detailed Analysis of the DiaNAH Dataset

Gonçalo Hora de Carvalho

Main category: q-bio.NC

TL;DR: 研究利用DiaNAH数据集调查了948名获得性脑损伤(ABI)患者的视觉障碍主诉,使用AutoML处理缺失数据,发现主观视觉主诉与客观视觉感知测试之间关系微弱。

  • Motivation: 探索ABI患者主观视觉主诉与客观视觉感知测试之间的复杂关系。
  • Method: 采用CVS问卷收集视觉症状数据,使用AutoML处理缺失数据,分析767名患者的主诉组合与视觉感知测试的关系。
  • Result: 线性相关分析显示主观主诉与客观测试之间关系微弱。
  • Conclusion: 样本量和变异性有限,建议进一步研究更大群体以验证主诉集群与视觉感知的关系。

cs.RO

[240] M2R2: MulitModal Robotic Representation for Temporal Action Segmentation

Daniel Sliwowski,Dongheui Lee

Main category: cs.RO

TL;DR: 提出了一种名为M2R2的多模态特征提取器,结合本体感觉和外感觉传感器信息,用于时序动作分割(TAS),并在REASSEMBLE数据集上取得46.6%的性能提升。

  • Motivation: 现有机器人TAS模型难以复用学习特征,而计算机视觉中的预训练特征提取器在物体可见性受限时表现不佳。
  • Method: 提出M2R2多模态特征提取器,结合本体感觉和外感觉传感器,并设计新的预训练策略以实现特征复用。
  • Result: 在REASSEMBLE数据集上性能提升46.6%,优于现有机器人动作分割模型。
  • Conclusion: M2R2通过多模态特征提取和预训练策略,显著提升了TAS任务的性能,并支持特征复用。

[241] Imitation Learning for Autonomous Driving: Insights from Real-World Testing

Hidayet Ersin Dursun,Yusuf Güven,Tufan Kumbasar

Main category: cs.RO

TL;DR: 研究设计了一种基于深度学习的自动驾驶系统,并在MIT Racecar上测试其效果,比较了多种DNN模型以找到最优方案。

  • Motivation: 开发一种能够在真实驾驶场景中实时准确生成转向命令的深度学习系统。
  • Method: 采用模仿学习框架,设计并比较了PD系统、CNN、CNN-LSTM和CNN-NODE模型,逐步优化模型能力和数据集。
  • Result: CNN-LSTM和CNN-NODE表现最佳,能处理动态驾驶场景,而PD系统和CNN存在局限性。
  • Conclusion: 迭代设计过程对开发稳健的自动驾驶DNN模型至关重要。

[242] Advanced Longitudinal Control and Collision Avoidance for High-Risk Edge Cases in Autonomous Driving

Dianwei Chen,Yaobang Gong,Xianfeng Yang

Main category: cs.RO

TL;DR: 提出了一种结合自适应巡航和紧急制动的纵向控制算法,利用深度强化学习同时考虑前车和后车行为,显著提高了防碰撞成功率。

  • Motivation: 现有ADAS和ADS系统主要关注前车行为,忽略了后车行为,导致高速密集交通中的连锁碰撞问题。
  • Method: 采用深度强化学习,结合数据预处理框架校准真实传感器数据,训练出能处理多种驾驶场景的策略。
  • Result: 在模拟高风险场景中,算法有效防止了连环碰撞,且在典型高速场景中成功率高达99%,远超现有标准。
  • Conclusion: 提出的算法显著提升了防碰撞性能,适用于复杂交通环境。

[243] PolyTouch: A Robust Multi-Modal Tactile Sensor for Contact-rich Manipulation Using Tactile-Diffusion Policies

Jialiang Zhao,Naveen Kuppuswamy,Siyuan Feng,Benjamin Burchfiel,Edward Adelson

Main category: cs.RO

TL;DR: PolyTouch是一种新型机器人手指,集成了触觉、听觉和视觉传感,显著提升了机器人在非结构化家庭环境中的操作能力。

  • Motivation: 解决现有机器人学习方法在触觉感知不足时的局限性,尤其是在遮挡、视觉复杂性和精确接触控制方面的挑战。
  • Method: 设计并测试了PolyTouch,一种结合摄像头触觉传感、声学传感和外围视觉传感的紧凑耐用手指,用于多模态触觉反馈。
  • Result: 实验显示PolyTouch寿命比商用触觉传感器长至少20倍,且易于制造和扩展;其触觉扩散策略显著优于无触觉感知策略。
  • Conclusion: 多模态接触传感的有效整合能加速开发高效接触感知操作策略,推动家用机器人的可靠性和多功能性。

[244] GSFF-SLAM: 3D Semantic Gaussian Splatting SLAM via Feature Field

Zuxing Lu,Xin Yuan,Shaowen Yang,Jingyu Liu,Jiawei Wang,Changyin Sun

Main category: cs.RO

TL;DR: GSFF-SLAM是一种基于3D高斯泼溅的密集语义SLAM系统,通过特征场联合渲染外观、几何和语义特征,解决了现有系统依赖稀疏噪声2D先验的局限性。

  • Motivation: 现有语义SLAM系统依赖2D先验监督,在真实环境中受限于信号的稀疏性和噪声,影响了性能。
  • Method: 提出GSFF-SLAM,利用3D高斯泼溅和特征场独立优化特征梯度,支持多种2D先验的语义重建。
  • Result: 实验显示,GSFF-SLAM在跟踪精度和渲染质量上优于现有方法,使用2D先验时达到95.03% mIoU,速度提升2.9倍。
  • Conclusion: GSFF-SLAM通过3D高斯泼溅和特征场优化,显著提升了语义SLAM的性能和效率。

[245] Dexonomy: Synthesizing All Dexterous Grasp Types in a Grasp Taxonomy

Jiayi Chen,Yubin Ke,Lin Peng,He Wang

Main category: cs.RO

TL;DR: 提出了一种高效的两阶段抓取合成方法,支持多种抓取类型和对象,并构建了一个大规模数据集。

  • Motivation: 现有自动抓取合成方法局限于特定抓取类型或对象类别,难以扩展。需要一种通用且高效的抓取合成方法。
  • Method: 采用两阶段优化:先优化对象以适应手部模板,再在模拟中局部调整手部以适应对象。引入接触感知控制策略验证抓取。
  • Result: 构建了包含10.7k对象和9.5M抓取的数据集,覆盖31种抓取类型。生成模型在真实实验中成功率82.3%。
  • Conclusion: 该方法显著优于现有基线,支持多种抓取类型,为机器人抓取技能提供了高质量数据。

[246] Quantitative evaluation of brain-inspired vision sensors in high-speed robotic perception

Taoyi Wang,Lijian Wang,Yihan Lin,Mingtao Ou,Yuguo Chen,Xinglong Ji,Rong Zhao

Main category: cs.RO

TL;DR: 论文提出了一种定量评估框架,用于比较两种脑启发视觉传感器(BVS)在高速动态条件下的性能,发现EVS在高速稀疏场景表现良好,而Tianmouc在多种场景下均表现稳定。

  • Motivation: 传统相机在高速动态条件下因运动模糊导致性能下降,而脑启发视觉传感器(BVS)因其高时间分辨率和低功耗成为潜在替代方案。
  • Method: 建立统一测试协议,包括跨传感器校准、标准化测试平台和质量指标,评估EVS和Tianmouc在结构信息捕捉和任务性能(如角点检测和运动估计)上的表现。
  • Result: EVS在高速稀疏场景表现良好,但在高速复杂场景中因带宽和事件率饱和受限;Tianmouc在多种场景和速度下均表现稳定。
  • Conclusion: 研究为BVS技术的应用选择提供了依据,并支持该领域的进一步发展。

[247] GAN-SLAM: Real-Time GAN Aided Floor Plan Creation Through SLAM

Leon Davies,Baihua Li,Mohamad Saada,Simon Sølvsten,Qinggang Meng

Main category: cs.RO

TL;DR: 论文提出了一种名为GAN-SLAM的新方法,利用生成对抗网络(GAN)在SLAM过程中清理和补全占用网格,显著提高了2D地图的质量和准确性。

  • Motivation: SLAM系统在动态环境中常因运动噪声导致2D地图质量下降,影响下游任务(如平面图绘制)。为解决这一问题,作者提出了GAN-SLAM。
  • Method: 结合生成对抗网络(GAN)清理和补全占用网格,并将3D SLAM中的精确位姿估计技术适配到2D形式。
  • Result: 实验表明,GAN-SLAM显著提升了地图的保真度和质量,减少了噪声和误差,适用于大规模复杂环境。
  • Conclusion: GAN-SLAM为SLAM领域提供了重要进展,增强了地图任务的实用性,并展示了GAN在占用网格误差校正中的潜力。

[248] Transformation & Translation Occupancy Grid Mapping: 2-Dimensional Deep Learning Refined SLAM

Leon Davies,Baihua Li,Mohamad Saada,Simon Sølvsten,Qinggang Meng

Main category: cs.RO

TL;DR: 论文提出了一种名为TT-OGM的新方法,通过结合3D SLAM技术和GAN,改进了2D LiDAR SLAM的精度和地图质量。

  • Motivation: 2D SLAM在复杂环境中存在定位漂移和地图质量差的问题,限制了其在特定任务(如平面图创建)中的应用。
  • Method: 采用TT-OGM方法,结合3D SLAM的位姿估计技术和GAN进行误差修正,并通过DRL生成训练数据。
  • Result: 在实时数据和大型复杂环境中验证了方法的有效性,显著提升了地图质量和算法可靠性。
  • Conclusion: TT-OGM在复杂场景中生成高质量地图的能力远超现有SLAM算法。

[249] NORA: A Small Open-Sourced Generalist Vision Language Action Model for Embodied Tasks

Chia-Yu Hung,Qi Sun,Pengfei Hong,Amir Zadeh,Chuan Li,U-Xuan Tan,Navonil Majumder,Soujanya Poria

Main category: cs.RO

TL;DR: NORA是一个3B参数的视觉-语言-动作模型,旨在减少计算开销,同时保持高性能,适用于实时机器人环境。

  • Motivation: 现有VLA模型在视觉编码和计算开销方面存在局限性,不适合实时机器人应用。
  • Method: 采用Qwen-2.5-VL-3B作为主干模型,结合970k真实机器人演示数据和FAST+分词器。
  • Result: NORA在任务性能上优于现有大型VLA模型,计算开销显著降低。
  • Conclusion: NORA为实时机器人自主性提供了更实用的解决方案。

[250] Human-Centered AI and Autonomy in Robotics: Insights from a Bibliometric Study

Simona Casini,Pietro Ducange,Francesco Marcelloni,Lorenzo Pollini

Main category: cs.RO

TL;DR: 本文通过文献计量分析探讨了智能自主机器人系统的发展趋势,重点关注人本AI(HCAI)在平衡人机协作中的作用,并将研究结果映射到IBM MAPE-K架构中。

  • Motivation: 探讨AI在自主机器人系统中的进展及其对人机协作的影响,强调HCAI在确保性能、可靠性和安全性中的作用。
  • Method: 使用SciMAT和VOSViewer对Scopus数据库进行文献计量分析,识别学术趋势和新兴主题。
  • Result: 揭示了AI在自适应机器人行为中的角色,并突出了HCAI架构的重要性。
  • Conclusion: 研究结果有助于指导实际机器人系统的开发,特别是在人机协作和自主性平衡方面。

Keyhan Rayati,Amirhossein Feizi,Alireza Beigy,Pourya Shahverdi,Mehdi Tale Masouleh,Ahmad Kalhor

Main category: cs.RO

TL;DR: 提出了一种新方法,通过实时模仿人类头部动作提升人机交互,结合MediaPipe和DeepFace技术,实现了高精度头部动作模仿,并具有潜在的应用价值,如帮助自闭症儿童改善沟通。

  • Motivation: 提升人机交互的质量,特别是通过模仿人类头部动作和情感表达,为特殊需求群体(如自闭症儿童)提供更好的沟通工具。
  • Method: 利用MediaPipe和DeepFace技术捕捉人类头部动作和情感,采用闭环反馈机制实时调整机器人模仿行为。
  • Result: 实现了高精度的头部动作模仿,R2分数达到96.3(俯仰)和98.9(偏航)。
  • Conclusion: 该方法通过结合实时头部动作模仿和情感识别,显著提升了人机交互效果,尤其对特殊需求群体具有潜在价值。

cs.SD

[252] Improving Pretrained YAMNet for Enhanced Speech Command Detection via Transfer Learning

Sidahmed Lachenani,Hamza Kheddar,Mohamed Ouldzmirli

Main category: cs.SD

TL;DR: 该研究通过预训练的YAMNet模型和迁移学习,显著提升了语音命令识别的准确性和效率,最终模型识别准确率达到95.28%。

  • Motivation: 提升语音命令识别系统的准确性和效率,以改善智能应用中的用户交互体验。
  • Method: 利用预训练的YAMNet模型,通过迁移学习和数据增强技术,对语音命令数据集进行训练和优化。
  • Result: 最终模型在语音命令识别任务中达到了95.28%的准确率。
  • Conclusion: 该研究展示了迁移学习在语音命令识别中的有效性,并为未来研究设立了新的基准。

[253] Generative Adversarial Network based Voice Conversion: Techniques, Challenges, and Recent Advancements

Sandipan Dhar,Nanda Dulal Jana,Swagatam Das

Main category: cs.SD

TL;DR: 这篇论文系统综述了基于生成对抗网络(GAN)的语音转换(VC)技术,分析了其关键方法、挑战和未来方向。

  • Motivation: 语音转换技术在多个领域有广泛应用,但现有GAN方法仍面临训练稳定性、语言一致性和感知自然性等挑战,需要系统梳理和总结。
  • Method: 通过文献综述,分类现有方法,分析技术障碍,并评估GAN在VC中的最新进展。
  • Result: 论文总结了GAN在VC中的优势和局限,为未来研究提供了方向。
  • Conclusion: 该综述为研究人员提供了结构化理解,有助于推动语音转换技术的进一步发展。

cs.NI

[254] Transformer-Empowered Actor-Critic Reinforcement Learning for Sequence-Aware Service Function Chain Partitioning

Cyril Shih-Huan Hsu,Anestis Dalgkitsis,Chrysa Papagianni,Paola Grosso

Main category: cs.NI

TL;DR: 提出了一种基于Transformer的actor-critic框架,用于6G网络中服务功能链(SFC)的分区优化,解决了传统方法在可扩展性和依赖关系建模上的不足。

  • Motivation: 6G网络需要高效的虚拟化网络功能(VNF)管理,但现有方法在可扩展性和依赖关系建模上表现不佳。
  • Method: 采用Transformer的自注意力机制和actor-critic框架,结合ε-LoPe探索策略和渐进回报归一化,优化SFC分区。
  • Result: 仿真结果表明,该方法在长期接受率、资源利用效率和可扩展性上优于现有方案,且推理速度快。
  • Conclusion: 该研究为6G网络中的SFC分区提供了可扩展且鲁棒的解决方案,并将大语言模型(LLMs)与下一代网络优化相结合。

cs.LG

[255] Critical Challenges and Guidelines in Evaluating Synthetic Tabular Data: A Systematic Review

Nazia Nafis,Inaki Esnaola,Alvaro Martinez-Perez,Maria-Cruz Villa-Uriol,Venet Osmani

Main category: cs.LG

TL;DR: 本文系统综述了合成健康数据的评估挑战,提出了改进指南。

  • Motivation: 合成数据的生成和评估存在诸多挑战,尤其是健康数据的可靠性和适用性。
  • Method: 通过筛选1766篇论文并详细分析101篇,识别出关键问题。
  • Result: 发现评估方法缺乏共识、指标使用不当、专家参与不足、数据集特征报告不充分等问题。
  • Conclusion: 提出生成和评估合成数据的指南,以促进其应用和创新。

[256] RDI: An adversarial robustness evaluation metric for deep neural networks based on sample clustering features

Jialei Song,Xingquan Zuo,Feiyang Wang,Hai Huang,Tianle Zhang

Main category: cs.LG

TL;DR: 提出了一种新的对抗鲁棒性评估指标RDI,基于样本聚类特征,具有高计算效率和攻击独立性。

  • Motivation: 现有对抗鲁棒性评估方法依赖攻击算法或难以实现,且准确性低。
  • Method: 基于样本聚类特征,分析决策边界分隔的特征向量的类内和类间距离。
  • Result: RDI与攻击成功率(ASR)相关性更强,计算时间仅为PGD攻击方法的1/30。
  • Conclusion: RDI是一种高效且可靠的对抗鲁棒性评估方法。

[257] Deep Learning with Pretrained 'Internal World' Layers: A Gemma 3-Based Modular Architecture for Wildfire Prediction

Ayoub Jadouli,Chaker El Amrani

Main category: cs.LG

TL;DR: 论文提出了一种基于Gemma 3的模块化架构,利用其内部层的知识进行野火预测,减少了可训练参数并提高了预测准确性。

  • Motivation: 利用大型Transformer模型的中间层(内部世界)中丰富的上下文知识,解决野火预测中的数据稀缺和过拟合问题。
  • Method: 开发了一个自定义的前馈模块,将野火特征转换为Gemma 3中间层所需的隐藏维度,冻结Gemma 3的子层,仅训练输入和输出网络。
  • Result: 在摩洛哥野火数据集上表现出比传统方法更高的预测准确性和鲁棒性,消融实验验证了冻结层的贡献。
  • Conclusion: 策略性地复用预训练Transformer的中间层可以为环境应用(如野火风险管理)提供更高效和可解释的解决方案。

[258] Understanding the Skill Gap in Recurrent Language Models: The Role of the Gather-and-Aggregate Mechanism

Aviv Bick,Eric Xing,Albert Gu

Main category: cs.LG

TL;DR: 论文研究了Transformer和SSM语言模型中的上下文检索机制,发现两者均采用Gather-and-Aggregate(G&A)机制,且集中在少数关键头中。SSM的检索挑战源于其G&A实现方式,但改进潜力大。

  • Motivation: 探讨Transformer和SSM模型在上下文检索任务中的表现差异及其根本原因。
  • Method: 通过分析G&A机制在两种模型中的实现方式,并实验验证其对性能的影响。
  • Result: G&A机制集中在少数头中,SSM因实现方式导致检索性能较弱,但可通过改进G&A头显著提升。
  • Conclusion: Transformer和SSM的性能差异源于G&A实现方式,改进SSM的G&A头可缩小差距,甚至结合两者优势。

[259] Training Large Language Models to Reason via EM Policy Gradient

Tianbing Xu

Main category: cs.LG

TL;DR: 本文提出了一种名为EM Policy Gradient的离策略强化学习算法,用于提升大语言模型的推理能力,通过优化推理轨迹的期望回报。该方法在GSM8K和MATH(HARD)数据集上表现优异,且具有可扩展性和简洁性。

  • Motivation: 现有的强化学习方法(如PPO和GRPO)依赖复杂的权重和启发式剪裁,本文旨在提供一种更简单、更原则性的离策略策略梯度方法。
  • Method: 将推理任务建模为期望最大化(EM)优化问题,交替采样多样化的推理轨迹并进行奖励引导的微调。
  • Result: 在GSM8K和MATH(HARD)数据集上表现与GRPO相当或略优,同时具备更好的可扩展性和简洁性。
  • Conclusion: EM Policy Gradient不仅提升了模型推理性能,还增强了其认知行为(如子问题分解和自我验证),显示出在解释性和鲁棒性方面的潜力。

[260] Dynamic QoS Prediction via a Non-Negative Tensor Snowflake Factorization

YongHui Xia,Lan Wang,Hao Wu

Main category: cs.LG

TL;DR: 提出了一种非负雪花张量分解模型,用于预测缺失的QoS数据,通过雪花核心张量和SLF-NMUT方法提升预测准确性。

  • Motivation: 动态QoS数据中存在大量未观测数据,影响用户选择服务,需准确预测以理解用户行为和服务状态。
  • Method: 设计了雪花核心张量增强模型学习能力,并采用SLF-NMUT方法进行参数学习。
  • Result: 模型能更准确地学习动态用户-服务交互模式,提升缺失QoS数据的预测效果。
  • Conclusion: 非负雪花张量分解模型在预测缺失QoS数据方面表现优异。

[261] A multilevel approach to accelerate the training of Transformers

Guillaume Lauga,Maël Chaumette,Edgar Desainte-Maréville,Étienne Lasalle,Arthur Lebeurrier

Main category: cs.LG

TL;DR: 多级方法加速Transformer训练,通过ODE解释提出变离散化策略,实验验证优于标准训练。

  • Motivation: 探索多级方法在加速Transformer训练中的潜力,解决传统训练效率问题。
  • Method: 基于ODE解释Transformer架构,提出变离散化策略以优化训练过程。
  • Result: 实验证明该方法比标准训练更高效。
  • Conclusion: 多级方法结合ODE解释可有效加速Transformer训练。

[262] Geometry aware inference of steady state PDEs using Equivariant Neural Fields representations

Giovanni Catalani,Michael Bauerheim,Frédéric Tost,Xavier Bertrand,Joseph Morlier

Main category: cs.LG

TL;DR: enf2enf是一种基于等变神经场架构的编码器-解码器方法,用于预测具有非参数化几何变化的稳态偏微分方程,通过局部和全局特征的结合实现高效建模。

  • Motivation: 针对偏微分方程在复杂几何形状下的求解问题,提出一种能够捕捉几何与物理耦合关系的方法,以提升泛化能力和物理一致性。
  • Method: 利用编码器将输入几何形状编码为潜在点云嵌入,保留几何基础并捕捉局部现象,再结合全局参数解码为连续输出场。
  • Result: 在多个高保真数据集上表现优于或与现有方法相当,支持实时推理和零样本超分辨率。
  • Conclusion: enf2enf通过结合局部和全局特征,显著提升了偏微分方程求解的效率和精度。

[263] Severity Classification of Chronic Obstructive Pulmonary Disease in Intensive Care Units: A Semi-Supervised Approach Using MIMIC-III Dataset

Akram Shojaei,Mehdi Delrobaei

Main category: cs.LG

TL;DR: 本研究提出了一种基于机器学习的COPD严重程度分类框架,利用MIMIC-III数据库,通过半监督学习提升模型性能,随机森林分类器表现最佳,准确率达92.51%。

  • Motivation: COPD是全球重大健康负担,ICU中精确评估其严重程度对临床管理至关重要。
  • Method: 结合ICU关键参数(如血气测量和生命体征),采用半监督学习技术利用未标记数据,开发分类模型。
  • Result: 随机森林分类器表现最佳,准确率92.51%,ROC AUC 0.98。
  • Conclusion: 该机器学习工具为ICU中COPD严重程度评估提供了高效方法,未来需在多样化人群中验证并整合临床决策支持系统。

[264] A Simple DropConnect Approach to Transfer-based Targeted Attack

Tongrui Su,Qingbin Li,Shengyu Zhu,Wei Chen,Xueqi Cheng

Main category: cs.LG

TL;DR: 提出了一种名为MCD的方法,通过减少对抗样本中扰动的共适应性来提升迁移攻击的成功率。

  • Motivation: 现有方法在目标攻击场景下攻击成功率较低,对抗样本容易过拟合代理模型。
  • Method: 采用DropConnect技术,在每次优化迭代中生成多样化的代理模型变体。
  • Result: 在CNN到Transformer的迁移攻击中,MCD的平均攻击成功率比现有方法高13%。
  • Conclusion: MCD通过增加变体多样性并保留语义信息,显著提升了对抗样本的迁移能力。

[265] EnviroPiNet: A Physics-Guided AI Model for Predicting Biofilter Performance

Uzma,Fabien Cholet,Domenic Quinn,Cindy Smith,Siming You,William Sloan

Main category: cs.LG

TL;DR: 研究首次将Buckingham Pi理论应用于生物滤池性能建模,提出EnviroPiNet模型,显著优于传统方法。

  • Motivation: 由于高维稀疏数据难以捕捉生物滤池系统行为,需结合物理原理与AI方法提升预测准确性。
  • Method: 利用Buckingham Pi理论降维,构建物理引导的EnviroPiNet模型,并与PCA和自编码器对比。
  • Result: EnviroPiNet测试集R²达0.9236,优于传统方法,且变量揭示了系统物理化学关系。
  • Conclusion: 结合物理原理与AI可有效建模高维稀疏环境系统,为系统设计和优化提供新思路。

[266] Explicit neural network classifiers for non-separable data

Patrícia Muñoz Ewald

Main category: cs.LG

TL;DR: 论文通过截断映射全面描述了一类前馈神经网络,并展示了ReLU网络如何实现分离同心数据的特征映射。

  • Motivation: 研究前馈神经网络的特性,特别是如何利用截断映射描述其行为。
  • Method: 使用截断映射对一类前馈神经网络进行完整描述,并以ReLU网络为例展示其应用。
  • Result: 证明了ReLU网络可以实现分离同心数据的特征映射。
  • Conclusion: 截断映射为理解前馈神经网络提供了新视角,ReLU网络在特定任务中表现出色。

[267] TLoRA: Tri-Matrix Low-Rank Adaptation of Large Language Models

Tanvir Islam

Main category: cs.LG

TL;DR: TLoRA是一种新型的三矩阵低秩适应方法,通过分解权重更新为两个固定随机矩阵和一个可训练矩阵,结合可学习的层间缩放因子,实现高效参数适应。

  • Motivation: 旨在提出一种更高效的参数适应方法,减少计算开销,同时保持与现有低秩方法(如LoRA)相当的性能。
  • Method: 将权重更新分解为三个矩阵(两个固定随机矩阵和一个可训练矩阵),并引入层间缩放因子。
  • Result: 在GLUE基准测试中表现与LoRA和Adapter相当,但所需可训练参数显著减少。
  • Conclusion: TLoRA是一种高效且有效的LLM微调方法,为资源高效模型适应提供了重要进展。

[268] Dynamic Action Interpolation: A Universal Approach for Accelerating Reinforcement Learning with Expert Guidance

Wenjun Cao

Main category: cs.LG

TL;DR: 论文提出了一种名为动态动作插值(DAI)的简单框架,通过插值专家和RL动作来提升强化学习的样本效率,无需复杂架构修改。

  • Motivation: 强化学习(RL)在早期训练中样本效率低下,现有方法通常引入复杂架构和实现。本文旨在通过简单方法解决这一问题。
  • Method: 提出DAI框架,通过时间变化权重α(t)插值专家和RL动作,可轻松集成到任何Actor-Critic算法中。
  • Result: 实验显示DAI在MuJoCo连续控制任务中早期性能提升160%,最终性能提升50%,Humanoid任务早期提升4倍。
  • Conclusion: DAI证明了样本高效的强化学习无需复杂架构修改,挑战了现有假设。

[269] Preserving Seasonal and Trend Information: A Variational Autoencoder-Latent Space Arithmetic Based Approach for Non-stationary Learning

Hassan Wasswa,Aziida Nanyonga,Timothy Lynar

Main category: cs.LG

TL;DR: 该研究提出了一种在潜在空间中强制平稳行为的方法,同时保留趋势和季节性信息,解决了现有方法因数据平稳化而丢失重要信息的局限性。

  • Motivation: 大多数AI模型假设训练环境是平稳的,但在非平稳数据上表现不佳。现有解决方案在模型训练前将数据平稳化,导致丢失趋势和季节性信息。
  • Method: 结合差分、时间序列分解和潜在空间算术(LSA)技术,通过变分自编码器(VAE)的潜在空间存储趋势和季节性信息的嵌入。
  • Result: 在两个非平稳时间序列数据集上验证了方法的有效性,使用RMSE指标评估,四种深度学习模型均取得了与现有技术竞争的结果。
  • Conclusion: 该方法成功保留了趋势和季节性信息,同时在非平稳数据上实现了高效的预测性能。

[270] Introducing Interval Neural Networks for Uncertainty-Aware System Identification

Mehmet Ali Ferah,Tufan Kumbasar

Main category: cs.LG

TL;DR: 本文提出了一种基于区间神经网络(INNs)的系统辨识(SysID)框架,用于量化深度学习模型的不确定性(UQ),并通过实验验证了其有效性。

  • Motivation: 传统SysID方法难以捕捉非线性动态,而深度学习模型缺乏不确定性量化(UQ),限制了其可靠性和安全性。因此,需要一种结合UQ的SysID方法。
  • Method: 通过将预训练神经网络的参数转化为区间值参数,构建区间神经网络(INNs),并扩展LSTM和Neural ODEs为ILSTM和INODE架构。提出了一种包含UQ损失函数的深度学习框架。
  • Result: 实验验证了ILSTM和INODE在SysID任务中的有效性,能够生成有效的预测区间(PIs)。
  • Conclusion: INNs为SysID提供了一种无需概率假设的UQ方法,ILSTM和INODE架构在实验中表现出色。

[271] TSRM: A Lightweight Temporal Feature Encoding Architecture for Time Series Forecasting and Imputation

Robert Leppich,Michael Stenger,Daniel Grillmeyer,Vanessa Borst,Samuel Kounev

Main category: cs.LG

TL;DR: TSRM是一种基于CNN和自注意力机制的时间序列表示模型,用于多变量时间序列预测和填补,性能优于现有方法且参数更少。

  • Motivation: 解决多变量时间序列预测和填补任务中现有方法性能不足或复杂度高的问题。
  • Method: 采用CNN层学习多样时间模式,结合注意力机制提取特征,并通过合并层聚合特征,结构受Transformer编码器启发。
  • Result: 在七个基准数据集上表现优于现有方法,同时显著减少可学习参数。
  • Conclusion: TSRM在多变量时间序列任务中高效且性能优越,代码已开源。

[272] SPD Learning for Covariance-Based Neuroimaging Analysis: Perspectives, Methods, and Challenges

Ce Ju,Reinmar J. Kobler,Antoine Collas,Motoaki Kawanabe,Cuntai Guan,Bertrand Thirion

Main category: cs.LG

TL;DR: 该论文综述了基于协方差的神经影像数据的机器学习方法,重点介绍了对称正定(SPD)矩阵的黎曼几何分析框架。

  • Motivation: 神经影像数据存在低信噪比、跨会话非平稳性和样本量有限等挑战,需要有效的分析方法。
  • Method: 利用黎曼度量(如仿射不变或对数欧几里得)将SPD矩阵空间转化为黎曼流形,进行几何分析。
  • Result: 提出了SPD学习框架,系统利用SPD流形的几何特性处理协方差特征,推动了脑影像分析的发展。
  • Conclusion: SPD学习框架为神经影像数据的几何分析提供了统一的方法论,提升了脑成像分析的性能。

[273] Revisiting Transformers through the Lens of Low Entropy and Dynamic Sparsity

Ruifeng Ren,Yong Liu

Main category: cs.LG

TL;DR: 本文通过实验发现Transformer在数据压缩中倾向于学习低熵分布,且模型规模越大越明显。FFN模块是驱动这种偏好的关键,同时模型参数中存在冗余性,表现为动态稀疏性。

  • Motivation: 研究Transformer在数据压缩中的表现,尤其是其与目标分布的对齐情况以及信息压缩的偏好,以解决传统评估方法的局限性。
  • Method: 在受控实验环境下,分析Transformer的压缩行为,重点关注熵和动态稀疏性,特别是FFN模块的作用。
  • Result: Transformer倾向于学习更低熵的分布,且模型规模越大越明显;FFN模块是关键驱动因素;参数冗余性表现为动态稀疏性。
  • Conclusion: 本文从熵和动态稀疏性角度深化了对Transformer的理解,揭示了其压缩行为的独特偏好和内部机制。

[274] $PINN -- a Domain Decomposition Method for Bayesian Physics-Informed Neural Networks

Júlia Vicens Figueres,Juliette Vanderhaeghen,Federica Bragone,Kateryna Morozovska,Khemraj Shukla

Main category: cs.LG

TL;DR: 提出了一种基于贝叶斯框架的PINN方法,用于高效计算PDE中的全局不确定性,通过域分解和局部BPINN实现。

  • Motivation: 解决多尺度问题中认知和随机不确定性的高效量化难题。
  • Method: 结合局部BPINN与域分解,通过子域间通量连续性实现全局不确定性计算。
  • Result: 实验证明该方法能高效恢复全局不确定性,并在噪声数据下表现稳健。
  • Conclusion: 该方法可扩展至其他域分解技术,为不确定性量化提供了有效工具。

[275] Improved Molecular Generation through Attribute-Driven Integrative Embeddings and GAN Selectivity

Nandan Joshi,Erhan Guven

Main category: cs.LG

TL;DR: 该论文提出了一种结合Transformer和改良GAN的方法,用于生成具有特定性质的分子,并通过实验验证了其有效性。

  • Motivation: 由于药物发现和化学工程等领域对定制分子的需求增长,需要更高效的分子设计计算方法。
  • Method: 采用基于Transformer的向量嵌入生成器和改良GAN,结合新的分子描述符(Morgan指纹和全局分子属性),并通过修改GAN的损失函数确保生成特定性质的分子。
  • Result: Transformer的分子描述符到SMILES字符串的转换准确率达94%,GAN成功生成了具有特定气味性质的分子。
  • Conclusion: 该方法展示了结合新型向量嵌入和改良GAN在分子设计中的潜力,为定制分子发现提供了高效工具。

[276] Fast and Robust: Task Sampling with Posterior and Diversity Synergies for Adaptive Decision-Makers in Randomized Environments

Yun Qu,Qi,Wang,Yixiu Mao,Yiqin Lv,Xiangyang Ji

Main category: cs.LG

TL;DR: 论文提出了一种名为PDTS的方法,通过后验和多样性协同任务采样,提升任务鲁棒性适应能力,显著改善了零样本和少样本适应性能。

  • Motivation: 解决任务鲁棒性适应中的效率问题,避免传统方法中需要高成本密集评估的缺点。
  • Method: 将鲁棒主动任务采样的优化流程建模为马尔可夫决策过程,并提出PDTS方法,结合后验和多样性协同采样。
  • Result: 实验表明,PDTS显著提升了零样本和少样本适应鲁棒性,并在某些场景下加速了学习过程。
  • Conclusion: PDTS是一种易于实现且高效的方法,适用于快速鲁棒的序列决策任务。

[277] Hierarchical Attention Generates Better Proofs

Jianlong Chen,Chao Li,Yang Yuan,Andrew C Yao

Main category: cs.LG

TL;DR: 论文提出了一种名为“分层注意力”的正则化方法,通过五层层次结构改进大型语言模型在数学定理证明中的表现,实验证明其提高了成功率和降低了证明复杂度。

  • Motivation: 大型语言模型在定理证明中表现有限,因其注意力机制未能捕捉数学证明的层次结构。
  • Method: 引入分层注意力方法,建立五层层次结构,从基础元素到高级概念,优化信息流。
  • Result: 实验显示,在miniF2F和ProofNet数据集上,证明成功率分别提高2.05%和1.69%,复杂度降低23.81%和16.50%。
  • Conclusion: 分层注意力方法有效提升了语言模型在数学证明中的表现,代码已开源。

[278] TeleSparse: Practical Privacy-Preserving Verification of Deep Neural Networks

Mohammad M Maheri,Hamed Haddadi,Alex Davidson

Main category: cs.LG

TL;DR: TeleSparse是一种ZK-SNARK友好的后处理机制,通过稀疏化和神经传送优化,显著减少了验证现代神经网络的电路约束和查找表大小,提升了效率。

  • Motivation: 验证深度学习推理的完整性需要访问模型权重和敏感数据,而ZK-SNARKs可以避免这种需求,但应用于现代神经网络时计算开销巨大。
  • Method: TeleSparse通过稀疏化减少电路约束,并通过神经传送优化激活函数的范围,从而降低内存和证明生成成本。
  • Result: TeleSparse将证明内存使用减少67%,证明生成时间减少46%,准确率损失约为1%。
  • Conclusion: TeleSparse为ZK友好的模型设计提供了新方向,推动了可扩展且资源高效的验证深度学习。

[279] Anyprefer: An Agentic Framework for Preference Data Synthesis

Yiyang Zhou,Zhaoyang Wang,Tianle Wang,Shangyu Xing,Peng Xia,Bo Li,Kaiyuan Zheng,Zijian Zhang,Zhaorun Chen,Wenhao Zheng,Xuchao Zhang,Chetan Bansal,Weitong Zhang,Ying Wei,Mohit Bansal,Huaxiu Yao

Main category: cs.LG

TL;DR: Anyprefer框架通过合作博弈和外部工具生成高质量偏好数据,显著提升模型对齐性能。

  • Motivation: 解决手动标注偏好数据的高成本和自奖励方法导致的偏差问题。
  • Method: 采用两玩家马尔可夫博弈框架,结合外部工具和反馈机制优化数据合成。
  • Result: 生成58K高质量偏好对,在多个任务中平均提升性能(如自然语言生成提升18.55%)。
  • Conclusion: Anyprefer有效提升模型对齐性能,为偏好学习提供高质量数据解决方案。

[280] Flow Along the K-Amplitude for Generative Modeling

Weitao Du,Shuning Chang,Jiasheng Tang,Yu Rong,Fan Wang,Shengchao Liu

Main category: cs.LG

TL;DR: K-Flow是一种基于K-振幅分解的生成学习范式,通过控制不同尺度的信息实现可调控生成。

  • Motivation: 提出一种新的生成学习范式,通过K-振幅分解实现跨尺度流匹配,解决生成模型中的尺度控制问题。
  • Method: K-Flow通过K-振幅分解组织频带或投影系数,实现时间上的流匹配,并讨论了其理论、能量与时间动力学及实际应用。
  • Result: 实验验证了K-Flow在无条件图像生成、类条件图像生成和分子组装生成中的有效性,并通过消融研究展示了其尺度控制能力。
  • Conclusion: K-Flow通过K-振幅分解实现了高效的尺度控制生成,具有理论和实际应用价值。

[281] Rethinking Label-specific Features for Label Distribution Learning

Suping Xu,Chuyi Dai,Lin Shang,Changbin Shao,Xibei Yang,Witold Pedrycz

Main category: cs.LG

TL;DR: 论文提出了一种基于结构锚点(SAPs)的标签分布学习(LDL)方法LDL-LIFT-SAP,通过整合距离和方向信息改进标签特定特征(LSFs)的构建,提升了LIFT的性能。

  • Motivation: 现有LIFT方法在LDL任务中表现不佳,因其仅关注类内关系而忽略类间交互,且依赖单一欧氏距离可能引入噪声和偏差。
  • Method: 提出SAPs捕捉类间交互,设计LIFT-SAP策略整合距离和方向信息;进一步提出LDL-LIFT-SAP算法,统一多LSF空间的预测结果。
  • Result: 在15个真实数据集上的实验表明,LIFT-SAP优于LIFT,LDL-LIFT-SAP优于其他七种算法。
  • Conclusion: LDL-LIFT-SAP通过多视角信息整合和类间交互建模,显著提升了标签分布学习的性能。

[282] Low-Bit Integerization of Vision Transformers using Operand Reodering for Efficient Hardware

Ching-Yi Lin,Sahil Shah

Main category: cs.LG

TL;DR: 提出了一种基于操作重排序的整数化方法,延迟反量化至矩阵运算后,从而直接处理量化输入,降低计算开销。

  • Motivation: 预训练视觉Transformer的计算和内存成本高昂,量化模型仍因反量化操作带来显著计算开销。
  • Method: 通过分析计算图,提出基于操作重排序的整数化过程,延迟反量化至矩阵运算后,实现直接处理量化输入的整数化矩阵乘法和线性模块。
  • Result: 实验表明,低比特推理降低了线性层和矩阵乘法的每PE功耗,缩小了量化模型与高效推理之间的差距。
  • Conclusion: 该方法有效减少了计算开销,为量化模型的高效推理提供了可行方案。

[283] Deep Learning-Based Multi-Modal Fusion for Robust Robot Perception and Navigation

Delun Lai,Yeyubei Zhang,Yunchong Liu,Chaojie Li,Huadong Mo

Main category: cs.LG

TL;DR: 提出了一种基于深度学习的多模态融合架构,用于提升自主导航机器人在复杂环境中的感知能力。

  • Motivation: 解决自主导航机器人在复杂环境中感知能力不足的问题。
  • Method: 采用创新的特征提取模块、自适应融合策略和时间序列建模机制,整合RGB图像和LiDAR数据。
  • Result: 在KITTI数据集上,导航和定位精度分别提高了3.5%和2.2%,同时保持实时性能。
  • Conclusion: 为复杂环境中的自主机器人导航提供了新颖的解决方案。

[284] An Automated Reinforcement Learning Reward Design Framework with Large Language Model for Cooperative Platoon Coordination

Dixiao Wei,Peng Yi,Jinlong Lei,Yiguang Hong,Yuchuan Du

Main category: cs.LG

TL;DR: 论文提出了一种基于大语言模型(LLM)的自动奖励函数设计框架(PCRD),用于解决车队协调中的奖励函数设计问题(PCRDP),并通过实验验证其优于人工设计的奖励函数。

  • Motivation: 车队协调问题中,由于目标多样性和决策复杂性,人工设计高性能奖励函数耗时且困难。
  • Method: 提出PCRD框架,利用LLM初始化奖励函数(AIR模块)并通过进化模块迭代优化,结合代码理解和任务需求。
  • Result: 实验表明,PCRD生成的奖励函数在六种复杂场景中平均性能提升10%,优于人工设计。
  • Conclusion: PCRD框架通过自动化奖励函数设计,显著提升了RL在车队协调问题中的性能。

[285] Improving Reasoning Performance in Large Language Models via Representation Engineering

Bertram Højer,Oliver Jarvis,Stefan Heinrich

Main category: cs.LG

TL;DR: 论文提出了一种通过调控LLM激活状态来提升推理能力的方法,无需额外训练。

  • Motivation: 探讨LLM推理能力是否与其他信息处理任务类似,并试图通过干预模型激活状态来提升其推理表现。
  • Method: 利用表示工程方法从LLM残差流中提取激活状态,生成控制向量,并在推理时干预模型表示空间。
  • Result: 在Mistral-7B-Instruct和Pythia模型上验证了该方法能有效提升推理任务表现。
  • Conclusion: LLM的推理能力可通过简单干预激活状态来调控,且无需额外训练。

[286] DISCO: learning to DISCover an evolution Operator for multi-physics-agnostic prediction

Rudy Morel,Jiequn Han,Edouard Oyallon

Main category: cs.LG

TL;DR: DISCO模型通过超网络处理短轨迹生成小算子网络参数,用于预测未知PDE系统的下一状态,实现高效动态预测。

  • Motivation: 解决仅凭短轨迹预测未知PDE系统下一状态的问题,利用结构化演化算子提高效率。
  • Method: 使用超网络生成小算子网络参数,分离动态估计与状态预测,通过时间积分预测下一状态。
  • Result: 在多样化物理数据集上预训练后,性能达到最优,且泛化能力强,下游任务微调后仍具竞争力。
  • Conclusion: DISCO框架在动态系统预测中高效且泛化能力强,适用于未知PDE系统。

[287] UNet with Axial Transformer : A Neural Weather Model for Precipitation Nowcasting

Maitreya Sonawane,Sumit Mamtani

Main category: cs.LG

TL;DR: 本文提出了一种基于Transformer的深度学习方法,用于高精度、局部化的天气即时预报,替代传统数值模型。

  • Motivation: 传统数值天气模型在局部风暴或快速演变天气事件(如雷暴)的预测上存在挑战,深度学习因其计算高效性和高分辨率优势成为解决方案。
  • Method: 采用基于轴向注意力机制的Transformer模型,从时间序列帧中学习复杂模式,适用于单变量、多变量及时间序列嵌入数据。
  • Result: 在特定数据集上实现了PSNR=47.67和SSIM=0.9943的先进性能。
  • Conclusion: 该方法为天气即时预报提供了高效、通用的框架,展示了深度学习在此领域的潜力。

[288] Learning Brenier Potentials with Convex Generative Adversarial Neural Networks

Claudia Drygala,Hanno Gottschalk,Thomas Kruse,Ségolène Martin,Annika Mütze

Main category: cs.LG

TL;DR: 论文研究了生成对抗网络(GAN)学习Brenier势的统计学习理论,通过ReCU网络和对抗训练确保严格凸性,并证明了学习过程的收敛性。

  • Motivation: Brenier势的梯度可以作为源分布到目标分布的传输映射,但其统计学习理论尚未充分研究。本文旨在填补这一空白。
  • Method: 使用ReCU网络(三次激活函数)逼近Brenier势,结合对抗训练和凸性惩罚项确保严格凸性。
  • Result: 理论证明高惩罚参数下网络严格凸,实验验证了凸性损失在训练中逐渐失效。
  • Conclusion: 提出的方法能有效学习Brenier势,适用于高斯混合和图像数据等目标分布。

[289] Mjölnir: A Deep Learning Parametrization Framework for Global Lightning Flash Density

Minjong Cheon

Main category: cs.LG

TL;DR: Mj"olnir是一个基于深度学习的全球闪电密度参数化框架,利用ERA5和WWLLN数据训练,通过InceptionNeXt和SENet架构实现闪电活动预测,表现优异。

  • Motivation: 基于AI的天气预测模型(如FourCastNet)的成功,推动了利用深度学习模拟复杂大气动力学的研究,特别是闪电活动的参数化。
  • Method: 使用ERA5大气预测因子和WWLLN观测数据,以InceptionNeXt和SENet为架构,采用多任务学习策略预测闪电发生和强度。
  • Result: Mj"olnir能准确再现闪电活动的全球分布、季节变化和区域特征,年平均值皮尔逊相关系数达0.96。
  • Conclusion: Mj"olnir不仅是有效的闪电参数化工具,还为下一代AI地球系统模型(AI-ESMs)提供了潜力方案。

[290] Hardware/Software Co-Design of RISC-V Extensions for Accelerating Sparse DNNs on FPGAs

Muhammad Sabih,Abrarul Karim,Jakob Wittmann,Frank Hannig,Jürgen Teich

Main category: cs.LG

TL;DR: 论文提出了一种基于RISC-V扩展的硬件/软件协同设计方法,用于加速半结构化和非结构化稀疏的深度神经网络(DNN)。通过定制功能单元和指令集扩展,实现了显著的加速效果。

  • Motivation: RISC-V的可定制性使其成为加速DNN的理想选择,但需要硬件/软件协同设计来充分利用这一潜力。
  • Method: 针对半结构化稀疏,利用FPGA的细粒度配置能力,在权重块中预留比特编码稀疏信息;针对非结构化稀疏,设计可变周期顺序乘加单元。
  • Result: 半结构化和非结构化稀疏加速器分别实现了最高4倍和3倍的加速,组合设计可达5倍加速,且资源占用低。
  • Conclusion: 该设计在小型FPGA上也能高效加速DNN,适用于TinyML应用。

[291] A Tripartite Perspective on GraphRAG

Michael Banf,Johannes Kuhn

Main category: cs.LG

TL;DR: 论文提出了一种结合大型语言模型(LLM)和三方知识图谱(Tripartite-GraphRAG)的新方法,以解决LLM在知识密集型任务中的局限性,如幻觉、缺乏来源追溯和知识更新困难。该方法通过概念锚定的预分析构建知识图谱,优化LLM提示的信息密度和覆盖范围,并在医疗用例中验证了其有效性。

  • Motivation: 大型语言模型在需要事实准确性的领域(如工业自动化和医疗)中存在幻觉、缺乏来源追溯和知识更新困难等问题,亟需结合知识图谱来提升其性能。
  • Method: 提出Tripartite-GraphRAG方法,通过概念锚定的预分析从源文档构建三方知识图谱,将LLM提示生成转化为无监督节点分类问题,并基于马尔可夫随机场思想优化提示的信息密度和覆盖范围。
  • Result: 实验表明,该方法能优化LLM提示的信息密度、覆盖范围和排列,同时减少提示长度,可能降低成本和提升输出的可靠性与一致性。
  • Conclusion: Tripartite-GraphRAG方法为LLM在知识密集型任务中的应用提供了有效解决方案,尤其在医疗领域展现出潜力。

[292] Contextures: The Mechanism of Representation Learning

Runtian Zhai

Main category: cs.LG

TL;DR: 该论文提出了‘上下文理论’(contexture theory),用于数学化表征学习的机制,解释了预训练模型学习的表示及其对下游任务的有用性。

  • Motivation: 尽管基础模型在经验上取得了显著成功,但其学习的表示及其对下游任务的有用性尚不明确。科学理解表征学习对进一步进步至关重要,尤其是在模型规模扩大带来的收益递减时。
  • Method: 提出‘上下文理论’,统一分析不同表征学习方法,证明编码器若能最大化输入X与上下文变量A的关联信息(即学习‘上下文’),则对兼容任务最优。还引入SVME和KISE目标学习上下文,并探讨多上下文混合及数据分布偏移的影响。
  • Result: 证明上下文理论适用于多种预训练目标(如监督学习、自监督学习、生成模型等),并展示了如何通过混合上下文优化学习效果。
  • Conclusion: 单纯增加模型规模收益递减,进一步进步需更好的上下文设计。上下文理论为表征学习提供了统一框架和优化方向。

[293] TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate

Amir Zandieh,Majid Daliri,Majid Hadian,Vahab Mirrokni

Main category: cs.LG

TL;DR: TurboQuant是一种新型向量量化方法,通过随机旋转和最优标量量化器实现接近最优的失真率,适用于在线应用。

  • Motivation: 现有方法无法同时优化均方误差和内积失真,TurboQuant旨在解决这一问题。
  • Method: 通过随机旋转输入向量,利用高维坐标的近独立性,应用最优标量量化器,并采用两阶段方法消除内积估计偏差。
  • Result: TurboQuant在KV缓存量化和最近邻搜索任务中表现优异,接近信息论下界。
  • Conclusion: TurboQuant在失真率和效率上优于现有方法,适用于多种应用场景。

[294] Attention Mechanism, Max-Affine Partition, and Universal Approximation

Hude Liu,Jerry Yao-Chieh Hu,Zhao Song,Han Liu

Main category: cs.LG

TL;DR: 单层单头自注意力和交叉注意力机制具有通用逼近能力,通过输入域划分机制实现目标函数的逼近。

  • Motivation: 探索单层单头注意力机制在通用逼近中的潜力,验证其无需复杂结构即可实现强大功能。
  • Method: 将单头注意力解释为输入域划分机制,通过设计注意力权重逼近目标函数,并扩展至不同范数下的逼近。
  • Result: 证明了单层自注意力在L-范数下逼近连续函数,在Lp-范数下逼近Lebesgue可积函数,且交叉注意力同样适用。
  • Conclusion: 单层单头注意力机制具有通用逼近能力,为简化模型设计提供了理论支持。

[295] Modelling of Underwater Vehicles using Physics-Informed Neural Networks with Control

Abdelhakim Amer,David Felsager,Yury Brodskiy,Andriy Sarabakha

Main category: cs.LG

TL;DR: 论文提出了一种基于物理信息的神经网络(PINC)框架,用于水下车辆动力学建模,通过结合物理定律和数据驱动模型,提高了泛化能力和样本效率。

  • Motivation: 传统数据驱动模型在长期预测中表现不佳,而物理信息神经网络(PINNs)通过整合物理定律可以改善这一问题。PINC框架进一步扩展了PINNs,使其能够处理控制输入和初始状态,实现更准确的长期预测。
  • Method: PINC框架通过初始状态、控制动作和时间输入建模水下车辆动力学,测试了不同损失函数、梯度加权方案和超参数配置。
  • Result: 在模拟水下车辆上的验证表明,PINC比非物理信息基线模型具有更准确的长期预测能力。
  • Conclusion: PINC框架通过物理一致性提升了长期预测的准确性,为复杂动力学系统建模提供了新思路。

[296] Modular Machine Learning: An Indispensable Path towards New-Generation Large Language Models

Xin Wang,Haoyang Li,Zeyang Zhang,Haibo Chen,Wenwu Zhu

Main category: cs.LG

TL;DR: 论文提出了一种新的学习范式——模块化机器学习(MML),旨在通过分解大语言模型(LLMs)的复杂结构,提升其推理能力、减少幻觉,并增强公平性、安全性和透明度。

  • Motivation: 当前LLMs在推理、事实一致性和可解释性方面存在局限性,需要一种新方法来改进这些问题。
  • Method: MML将LLMs分解为三个相互依赖的组件:模块化表示、模块化模型和模块化推理,结合解耦表示学习、神经架构搜索和神经符号学习等技术实现。
  • Result: MML能够明确LLMs的内部工作机制,支持灵活的任务自适应设计,并实现可解释的逻辑驱动决策过程。
  • Conclusion: MML范式有望弥合统计学习与形式推理之间的差距,为构建鲁棒、适应性强且可信赖的AI系统铺平道路。

cs.SI

[297] Mapping the Italian Telegram Ecosystem

Lorenzo Alvisi,Serena Tardelli,Maurizio Tesconi

Main category: cs.SI

TL;DR: 本文通过对意大利Telegram生态的大规模分析,揭示了其政治话语、意识形态同质化、毒性言论的普遍性以及仇恨目标的特征。

  • Motivation: 填补对Telegram生态系统的全面理解空白,尤其是意大利语境下的政治话语、毒性言论和仇恨目标。
  • Method: 利用网络分析、大语言模型和毒性检测工具,分析了2023年收集的186万条消息和13,151个聊天室数据。
  • Result: 发现强烈的主题和意识形态同质化,混合意识形态社区,毒性言论的普遍化,以及针对黑人、犹太人和同性恋者的仇恨言论。
  • Conclusion: 研究首次全面绘制了意大利Telegram生态,为跨文化和语言背景的在线毒性研究提供了新视角。

q-fin.CP

[298] QuantBench: Benchmarking AI Methods for Quantitative Investment

Saizhuo Wang,Hao Kong,Jiadong Guo,Fengrui Hua,Yiyan Qi,Wanyun Zhou,Jiahao Zheng,Xinyu Wang,Lionel M. Ni,Jian Guo

Main category: q-fin.CP

TL;DR: QuantBench是一个工业级基准平台,旨在标准化AI在量化投资中的应用,提供灵活性、全流程覆盖,并揭示关键研究方向。

  • Motivation: 量化投资领域的AI研究缺乏与行业实践一致的标准基准,阻碍了研究进展和实际应用。
  • Method: 提出QuantBench平台,具备标准化、灵活性及全流程覆盖的特点,支持多种AI算法。
  • Result: 实证研究揭示了关键研究方向,如持续学习、关系金融数据建模和抗过拟合方法。
  • Conclusion: QuantBench通过提供评估共同基础和促进合作,旨在加速AI在量化投资中的进展。

cs.DB

[299] BQSched: A Non-intrusive Scheduler for Batch Concurrent Queries via Reinforcement Learning

Chenhao Xu,Chunyu Chen,Jinglin Peng,Jiannan Wang,Jun Gao

Main category: cs.DB

TL;DR: BQSched是一种基于强化学习的批处理查询调度器,通过注意力机制和优化策略显著提升调度效率。

  • Motivation: 现有工具依赖简单启发式规则,难以处理复杂查询特征和相互影响,而强化学习方法虽具潜力但面临调度空间大、采样成本高和样本利用率低的问题。
  • Method: BQSched设计了注意力机制的状态表示和IQ-PPO算法,结合自适应掩码、查询聚类和增量模拟器优化策略。
  • Result: 实验表明,BQSched在TPC-DS基准测试中平均减少34%和13%的总完成时间,优于启发式策略和现有RL调度器。
  • Conclusion: BQSched首次实现了非侵入式的批处理查询调度,显著提升了效率、稳定性和可扩展性。

[300] MINT: Multi-Vector Search Index Tuning

Jiongli Zhu,Yue Wang,Bailu Ding,Philip A. Bernstein,Vivek Narasayya,Surajit Chaudhuri

Main category: cs.DB

TL;DR: 论文提出了一种多向量搜索索引调优框架,显著提升了性能。

  • Motivation: 多向量搜索在多模态和多特征场景中日益重要,但索引调优问题尚未解决。
  • Method: 定义多向量搜索索引调优问题,并提出框架和算法以优化延迟、存储和召回率。
  • Result: 相比基线,延迟提升了2.1倍至8.3倍。
  • Conclusion: 该框架有效解决了多向量搜索中的索引调优挑战。

cs.SE

[301] Technical Challenges in Maintaining Tax Prep Software with Large Language Models

Sina Gogani-Khiabani,Varsha Dewangan,Nina Olson,Ashutosh Trivedi,Saeid Tizpaz-Niari

Main category: cs.SE

TL;DR: 论文探讨了如何利用大型语言模型(LLMs)自动从IRS出版物中提取代码差异,以自动化税务准备软件的维护。

  • Motivation: 税务法规的动态变化使得税务软件的维护变得耗时且易错,传统方法依赖人工代码分析和专家解读。
  • Method: 研究利用LLMs(如ChatGPT和Llama)从IRS出版物中提取代码差异,并自动整合到现有代码中。
  • Result: 尚未明确,但目标是实现税务软件维护的自动化。
  • Conclusion: 自动化的方法有望提高税务软件维护的效率和准确性。

[302] Can We Enhance Bug Report Quality Using LLMs?: An Empirical Study of LLM-Based Bug Report Generation

Jagrit Acharya,Gouri Ginde

Main category: cs.SE

TL;DR: 论文探讨了通过指令微调的大语言模型(LLMs)将非结构化的缺陷报告转化为结构化报告的能力,Qwen 2.5表现最佳,CTQRS得分77%。

  • Motivation: 缺陷报告信息不清晰或不完整会导致修复效率低下,研究旨在通过自动化工具提升报告质量。
  • Method: 评估了Qwen 2.5、Mistral和Llama 3.2三种开源LLMs,并与ChatGPT-4o对比,使用CTQRS、ROUGE等指标衡量性能。
  • Result: Qwen 2.5在CTQRS得分上优于其他模型(77%),Llama 3.2在检测缺失字段上表现更好,Qwen 2.5在复现步骤上F1得分为76%。
  • Conclusion: 指令微调LLMs能有效自动化生成结构化缺陷报告,减少开发者的手动工作。

[303] Test It Before You Trust It: Applying Software Testing for Trustworthy In-context Learning

Teeradaj Racharak,Chaiyong Ragkhitwetsagul,Chommakorn Sontesadisai,Thanwadee Sunetnanta

Main category: cs.SE

TL;DR: 论文提出MMT4NL框架,利用对抗扰动和软件测试技术评估大语言模型(LLM)的上下文学习(ICL)可信度。

  • Motivation: 尽管LLM在上下文学习中表现出强大的适应能力,但对细微对抗扰动仍脆弱,且面对语言变化时行为不可预测。
  • Method: 采用软件测试原则,设计MMT4NL框架,通过生成对抗性示例量化ICL中的缺陷。
  • Result: 实验在情感分析和问答任务中揭示了当前先进LLM的语言缺陷。
  • Conclusion: MMT4NL框架为评估LLM的ICL能力提供了新方法,揭示了其潜在问题。

[304] Why you shouldn't fully trust ChatGPT: A synthesis of this AI tool's error rates across disciplines and the software engineering lifecycle

Vahid Garousi

Main category: cs.SE

TL;DR: 该研究通过多源文献综述(MLR)分析了ChatGPT在不同领域和软件开发生命周期(SDLC)阶段的错误率,发现错误率因领域、任务和模型版本而异,强调了持续评估和人工监督的重要性。

  • Motivation: 尽管ChatGPT等大型语言模型(LLM)在多个领域广泛应用,但其可靠性问题仍存在争议。本研究旨在量化其错误率,为实际应用提供依据。
  • Method: 采用多源文献综述(MLR)方法,收集学术研究、报告和灰色文献数据,按领域和SDLC阶段分类,并通过箱线图可视化错误分布。
  • Result: 错误率因领域和模型版本而异:医疗领域8%-83%,商业和经济领域从GPT-3.5的50%降至GPT-4的15-20%,工程任务20-30%。软件工程中,需求和设计阶段错误率较低(5-20%),而编码、测试和维护阶段较高(10-50%)。
  • Conclusion: 尽管ChatGPT性能有所提升,但其错误率仍不可忽视,尤其在关键领域。完全依赖而不进行人工监督存在风险,需持续评估和验证以确保可靠性。

[305] VeriDebug: A Unified LLM for Verilog Debugging via Contrastive Embedding and Guided Correction

Ning Wang,Bingkun Yao,Jie Zhou,Yuchen Hu,Xi Wang,Nan Guan,Zhe Jiang

Main category: cs.SE

TL;DR: VeriDebug是一种结合对比表示和引导校正的自动化Verilog调试方法,显著提升了调试准确率。

  • Motivation: 探索LLMs在Verilog调试中的应用,填补现有研究的不足。
  • Method: 采用嵌入技术检索内部信息并通过共享参数空间统一检测与修复。
  • Result: VeriDebugLoc模型在bug修复准确率(Acc1)上达到64.7%,远超现有开源和闭源模型。
  • Conclusion: VeriDebug为Verilog调试提供了更高效的解决方案,性能优于传统方法。

[306] From Inductive to Deductive: LLMs-Based Qualitative Data Analysis in Requirements Engineering

Syed Tauhid Ullah Shah,Mohamad Hussein,Ann Barcomb,Mohammad Moshirpour

Main category: cs.SE

TL;DR: 论文探讨了利用大型语言模型(如GPT-4、Mistral和LLaMA-2)改进需求工程中的定性数据分析任务,发现GPT-4在演绎标注任务中表现优异,显著减少人工工作量。

  • Motivation: 传统定性数据分析方法耗时且依赖人工,需求工程中需要更高效的工具将自由形式数据转化为一致的设计。
  • Method: 评估LLMs在归纳(零样本)和演绎(单样本、少样本)标注任务中的表现,使用详细提示提升准确性。
  • Result: GPT-4在演绎任务中与人类分析师一致性高(Cohen's Kappa > 0.7),零样本表现有限;详细提示显著提升标注质量。
  • Conclusion: LLMs(尤其是GPT-4)能有效支持需求工程中的定性数据分析,减少人工投入并保持标注质量,同时为系统设计提供结构化标签。

[307] LLMs for Engineering: Teaching Models to Design High Powered Rockets

Toby Simonds

Main category: cs.SE

TL;DR: 论文探讨了大型语言模型(LLMs)在火箭设计中的应用,发现其基础性能虽强,但在迭代优化上不如人类,而结合强化学习(RL)后表现超越人类专家。

  • Motivation: 研究LLMs在物理工程领域的潜力,填补其在火箭设计中的应用空白。
  • Method: 通过RocketBench基准测试,评估LLMs在火箭设计任务(如目标高度优化和精准着陆)中的表现,并引入RL进行模型增强。
  • Result: 基础LLMs在迭代设计上表现不佳,但RL增强的7B参数模型超越了现有基础模型和人类专家。
  • Conclusion: RL训练的LLMs可作为复杂工程优化的有效工具,拓展了LLMs在非软件工程领域的应用前景。

cs.GR

[308] TransparentGS: Fast Inverse Rendering of Transparent Objects with Gaussians

Letian Huang,Dongwei Ye,Jialin Dan,Chengzhi Tao,Huiwen Liu,Kun Zhou,Bo Ren,Yuanqi Li,Yanwen Guo,Jie Guo

Main category: cs.GR

TL;DR: TransparentGS是一种基于3D高斯泼溅(3D-GS)的快速逆向渲染管线,用于透明物体,解决了现有方法在反射和折射上的不足。

  • Motivation: 现有神经和高斯辐射场方法在透明物体重建中因高频光变化和二次射线效应表现不佳,需改进。
  • Method: 提出透明高斯基元表示、高斯光场探针(GaussProbe)和深度迭代探针查询(IterQuery)算法。
  • Result: 实验证明TransparentGS在复杂环境中快速准确恢复透明物体,适用于图形和视觉应用。
  • Conclusion: TransparentGS通过创新表示和算法,有效解决了透明物体重建中的挑战。

[309] REED-VAE: RE-Encode Decode Training for Iterative Image Editing with Diffusion Models

Gal Almog,Ariel Shamir,Ohad Fried

Main category: cs.GR

TL;DR: REED-VAE训练方案解决了潜在扩散模型在迭代图像编辑中积累噪声和伪影的问题,支持多方法编辑。

  • Motivation: 当前潜在扩散模型在多次迭代编辑同一图像时会产生噪声和伪影,限制了其灵活性。
  • Method: 提出REED训练方案,通过变分自编码器(VAE)保持图像质量,支持多种编辑操作。
  • Result: REED-VAE在多种编辑场景中表现优异,提升了编辑成功率和精确性。
  • Conclusion: REED-VAE为多方法图像编辑任务提供了基准,代码和模型将开源。

[310] CLR-Wire: Towards Continuous Latent Representations for 3D Curve Wireframe Generation

Xueqi Ma,Yilin Liu,Tianlong Gao,Qirui Huang,Hui Huang

Main category: cs.GR

TL;DR: CLR-Wire是一个新颖的3D曲线框架,通过连续潜在表示统一几何和拓扑,使用注意力驱动的VAE和流匹配模型生成高质量3D线框。

  • Motivation: 传统方法将顶点、边和面分离处理,缺乏对几何和拓扑的统一表示。CLR-Wire旨在解决这一问题,实现联合学习和生成。
  • Method: 采用注意力驱动的VAE将曲线编码为连续潜在空间,结合流匹配模型从高斯噪声生成完整3D线框。
  • Result: 实验表明,CLR-Wire在准确性、新颖性和多样性上优于现有方法,适用于CAD设计和3D内容创建。
  • Conclusion: CLR-Wire提供了一种高效且全面的解决方案,能够精细建模复杂形状和不规则拓扑。

[311] Sketch2Anim: Towards Transferring Sketch Storyboards into 3D Animation

Lei Zhong,Chuan Guo,Yiming Xie,Jiawei Wang,Changjian Li

Main category: cs.GR

TL;DR: 论文提出了一种名为Sketch2Anim的方法,通过条件运动合成将2D故事板草图直接转化为3D动画,解决了传统方法的高成本和耗时问题。

  • Motivation: 传统3D动画制作依赖人工从2D草图到3D动画的试错过程,成本高且耗时,亟需自动化解决方案。
  • Method: Sketch2Anim包含两个模块:3D条件运动生成器和神经映射器,前者利用3D关键姿势、关节轨迹和动作词生成精确运动,后者对齐2D草图与3D运动数据。
  • Result: 实验证明,该方法能高效生成高质量3D动画,并支持直接编辑。用户感知研究验证了其有效性。
  • Conclusion: Sketch2Anim成功实现了从2D故事板到3D动画的直接转换,为动画制作提供了高效且灵活的新方法。

[312] Pixels2Points: Fusing 2D and 3D Features for Facial Skin Segmentation

Victoria Yue Chen,Daoye Wang,Stephan Garbin,Sebastian Winberg,Timo Bolkart,Thabo Beeler

Main category: cs.GR

TL;DR: 论文提出了一种结合2D和3D特征的新方法,用于在3D人脸扫描中准确分割皮肤和非皮肤区域,从而提升注册精度。

  • Motivation: 现有的2D或3D分割方法在非皮肤区域(如头发、胡须、饰品)表现不佳,导致注册质量下降。需要一种更准确的分割方法。
  • Method: 通过多视角图像提取2D特征,并与3D几何特征融合,直接在扫描网格上预测分割掩码。
  • Result: 新方法比纯2D或3D分割方法的注册精度分别提高了8.89%和14.3%,且能泛化到真实数据。
  • Conclusion: 结合2D和3D特征的分割方法显著提升了注册精度,并展示了良好的泛化能力。

cond-mat.mtrl-sci

[313] Predicting Stress in Two-phase Random Materials and Super-Resolution Method for Stress Images by Embedding Physical Information

Tengfei Xing,Xiaodan Ren,Jie Li

Main category: cond-mat.mtrl-sci

TL;DR: 该研究提出了一种用于两相随机材料(TRMs)应力预测的框架,结合了多组成U-net和物理信息神经网络,有效降低了相边界应力预测误差,并实现了应力图像的超分辨率重建。

  • Motivation: 针对复杂微观结构材料(如TRMs)中应力集中问题,现有深度学习方法因图像分辨率限制难以准确预测相边界应力,且传统超分辨率技术缺乏物理约束。
  • Method: 1. 使用多组成U-net(MC U-net)预测低分辨率微观结构的应力,减少相边界误差;2. 提出基于混合物理信息神经网络(MPINN)的超分辨率方法(SRPINN),无需配对数据即可提升分辨率。
  • Result: 框架在不同相体积分数和加载状态下表现出高精度和泛化能力,实现了相边界应力多尺度分析。
  • Conclusion: 该框架为复杂材料应力分析提供了有效工具,结合物理约束和深度学习,显著提升了预测能力。

[314] Leveraging Modified Ex Situ Tomography Data for Segmentation of In Situ Synchrotron X-Ray Computed Tomography

Tristan Manchester,Adam Anders,Julio Spadotto,Hannah Eccleston,William Beavan,Hugues Arcis,Brian J. Connolly

Main category: cond-mat.mtrl-sci

TL;DR: 提出一种基于深度学习的图像分割方法,利用高质量实验室数据训练模型,用于同步辐射数据的二元分割,显著提升处理速度。

  • Motivation: 解决同步辐射X射线断层扫描数据自动分割的挑战,如复杂成像伪影和有限训练数据。
  • Method: 通过改进SegFormer架构,将高质量实验室数据转化为训练模型,用于同步辐射数据的二元分割。
  • Result: 在未见数据上实现高分割性能,处理时间从小时级缩短至秒级,且对实验中的形态变化保持稳定。
  • Conclusion: 该方法可广泛应用于多种材料系统,加速时间分辨断层数据的分析。

cs.HC

[315] From Prompts to Propositions: A Logic-Based Lens on Student-LLM Interactions

Ali Alfageeh,Sadegh AlMahdi Kazemi Zarkouei,Daye Nam,Daniel Prol,Matin Amoozadeh,Souti Chattopadhyay,James Prather,Paul Denny,Juho Leinonen,Michael Hilton,Sruti Srinivasa Ragavan,Mohammad Amin Alipour

Main category: cs.HC

TL;DR: 论文提出Prompt2Constraints方法,将学生提示转化为逻辑约束,分析编程任务中的提示演化模式,识别困难学生并提供干预建议。

  • Motivation: 研究学生如何利用LLMs解决计算任务,现有方法缺乏可扩展性或语义分析能力。
  • Method: 引入Prompt2Constraints方法,将提示转化为逻辑约束,分析1,872条提示数据。
  • Result: 成功与失败尝试约束数量相近,但失败时学生更频繁修改提示策略。
  • Conclusion: 该方法可扩展用于实时支持工具,帮助识别困难学生。

[316] Clones in the Machine: A Feminist Critique of Agency in Digital Cloning

Siân Brooke

Main category: cs.HC

TL;DR: 论文批判了学术研究中数字克隆的AI解决方案主义倾向,指出其简化人类复杂性并可能加剧系统性偏见,提出分散数据存储和动态同意模型作为替代方案。

  • Motivation: 数字克隆常被视为行为洞察的可扩展工具,但其忽视了伦理问题,如同意、代理和代表性。
  • Method: 借鉴女性主义代理理论,分析数字克隆的局限性,并提出分散数据存储和动态同意模型。
  • Result: 数字克隆可能加剧系统性偏见,而分散数据存储和动态同意模型能促进更伦理的AI实践。
  • Conclusion: 论文呼吁挑战AI解决方案主义的简化逻辑,推动更具伦理和情境意识的AI实践。

[317] Clinical knowledge in LLMs does not translate to human interactions

Andrew M. Bean,Rebecca Payne,Guy Parsons,Hannah Rose Kirk,Juan Ciro,Rafael Mosquera,Sara Hincapié Monsalve,Aruna S. Ekanayaka,Lionel Tarassenko,Luc Rocher,Adam Mahdi

Main category: cs.HC

TL;DR: 大型语言模型(LLMs)在医学考试中表现优异,但在实际医疗建议中表现不佳,用户交互是主要挑战。

  • Motivation: 探索LLMs在医疗建议中的实际应用效果,验证其在真实场景中的准确性。
  • Method: 在1,298名参与者中进行对照实验,比较LLMs(GPT-4o、Llama 3、Command R+)与对照组在10个医疗场景中的表现。
  • Result: LLMs单独测试时表现良好(94.9%准确识别病情,56.3%准确建议处置),但在用户交互中表现不佳(病情识别<34.5%,处置建议<44.2%)。
  • Conclusion: 建议在医疗领域部署LLMs前进行系统性用户测试,评估交互能力。

[318] AI Chatbots for Mental Health: Values and Harms from Lived Experiences of Depression

Dong Whi Yoo,Jiayue Melissa Shi,Violeta J. Rodriguez,Koustuv Saha

Main category: cs.HC

TL;DR: 研究探讨了基于GPT-4o的聊天机器人Zenny在抑郁症自我管理中的潜在危害与用户价值观的关系,提出了设计建议。

  • Motivation: 尽管LLMs在心理健康领域的应用增长迅速,但其有效性和可靠性尚不明确,可能导致危害。研究旨在通过理解用户价值观来识别和减轻这些危害。
  • Method: 开发了GPT-4o聊天机器人Zenny,用于模拟抑郁症自我管理场景,并对17名有抑郁症经历的用户进行访谈,进行主题分析。
  • Result: 分析揭示了用户的关键价值观:信息支持、情感支持、个性化、隐私和危机管理。
  • Conclusion: 研究为心理健康AI聊天机器人提供了设计建议,旨在增强自我管理支持并降低风险。

[319] Beyond Levels of Driving Automation: A Triadic Framework of Human-AI Collaboration in On-Road Mobility

Gaojian Huang,Yantong Jin,Wei-Hsiang Lo

Main category: cs.HC

TL;DR: 提出了一种三元人机协作框架,用于自动驾驶领域,动态适应人类需求。

  • Motivation: 现有分类(如SAE自动化等级)仅关注车辆控制者,未明确人机在动态驾驶中的实时协作方式。
  • Method: 提出三元框架,包含三种AI角色(顾问、副驾驶、守护者),动态调整角色。
  • Result: 为自动驾驶中基于角色的自适应人机协作策略奠定基础。
  • Conclusion: 该框架为动态驾驶环境中的人机协作提供了新思路。

[320] A Real-Time Gesture-Based Control Framework

Mahya Khazaei,Ali Bahrani,George Tzanetakis

Main category: cs.HC

TL;DR: 提出了一种实时、人机交互的手势控制框架,通过分析实时视频输入动态调整音频和音乐,实现舞蹈者和表演者通过动作影响音乐。

  • Motivation: 旨在创建一种视觉与听觉刺激之间的响应式连接,为现场表演、互动装置和个人使用提供沉浸式体验。
  • Method: 结合计算机视觉和机器学习技术,跟踪和解释动作,用户可通过手势控制音频元素(如节奏、音高、效果和播放顺序)。
  • Result: 系统实现了用户无关的功能,仅需50至80个样本即可标记简单手势,展示了人机交互与机器响应的无缝结合。
  • Conclusion: 该框架为动态交互体验提供了有效工具,适用于多种场景,展现了人机交互的潜力。

cs.MA

[321] PhenoAssistant: A Conversational Multi-Agent AI System for Automated Plant Phenotyping

Feng Chen,Ilias Stogiannidis,Andrew Wood,Danilo Bueno,Dominic Williams,Fraser Macfarlane,Bruce Grieve,Darren Wells,Jonathan A. Atkinson,Malcolm J. Hawkesford,Stephen A. Rolfe,Tracy Lawson,Tony Pridmore,Mario Valerio Giuffrida,Sotirios A. Tsaftaris

Main category: cs.MA

TL;DR: PhenoAssistant是一个基于AI的系统,通过自然语言交互简化植物表型分析,降低技术门槛。

  • Motivation: 解决现有植物表型分析工具复杂、难以维护且对用户技术要求高的问题。
  • Method: 利用大型语言模型协调工具包,支持表型提取、数据可视化和模型训练。
  • Result: 通过案例研究和评估任务验证了系统的有效性。
  • Conclusion: PhenoAssistant展示了AI方法在植物生物学中普及应用的潜力。

astro-ph.HE

[322] Validation and Calibration of Semi-Analytical Models for the Event Horizon Telescope Observations of Sagittarius A*

Ali SaraerToosi,Avery Broderick

Main category: astro-ph.HE

TL;DR: 利用生成式机器学习模型ALINET高效生成RIAF图像,用于校准EHT观测中未建模物理效应引入的不确定性。

  • Motivation: 探索黑洞吸积流在事件视界尺度的物理特性,解决传统方法生成合成图像计算量大的问题。
  • Method: 使用ALINET模型生成RIAF图像,并通过广义相对论磁流体动力学模型库校准物理参数估计。
  • Result: 成功估计并校准了未建模物理效应(如星际散射和源内变异性)引入的不确定性。
  • Conclusion: ALINET为EHT观测提供了一种高效且可靠的物理参数估计方法。

math.OC

[323] Sharp higher order convergence rates for the Adam optimizer

Steffen Dereich,Arnulf Jentzen,Adrian Riekert

Main category: math.OC

TL;DR: 本文研究了Adam和RMSprop优化器的收敛速度,发现Adam与动量法一样具有最优收敛速度,而RMSprop仅与标准梯度下降法相当。

  • Motivation: 研究不同优化方法(如Adam和RMSprop)在训练深度神经网络时的收敛速度,以验证其效率。
  • Method: 通过理论分析,比较Adam、RMSprop、标准梯度下降和动量法的收敛速度,特别是基于Hessian矩阵的条件数。
  • Result: Adam优化器具有与动量法相同的最优收敛速度(√x-1)/(√x+1),而RMSprop的收敛速度与标准梯度下降相同(x-1)/(x+1)。
  • Conclusion: Adam在收敛速度上优于RMSprop,与动量法相当,这为选择优化器提供了理论依据。

cs.PL

[324] GPU accelerated program synthesis: Enumerate semantics, not syntax!

Martin Berger,Nathanaël Fijalkow,Mojtaba Valizadeh

Main category: cs.PL

TL;DR: 探讨了利用GPU实现基于搜索的程序合成器以提升性能的可能性,并展示了GPU友好的编程技术如何显著提升合成问题的规模和速度。

  • Motivation: 随着GPU在深度学习中的显著性能提升,研究是否可以通过GPU实现程序合成器以获得类似的性能改进。
  • Method: 采用GPU友好的编程技术,利用公式语义减少数据移动和数据依赖分支,构建合成器。
  • Result: 合成器能够处理更大规模的合成问题,速度远超基于CPU的最先进方法。
  • Conclusion: GPU友好的技术有望提升其他形式化方法工作负载的性能。

cs.ET

Adway Das,Agnimitra Sengupta,S. Ilgin Guler

Main category: cs.ET

TL;DR: 提出了一种混合深度学习框架,结合长期趋势和短期波动信息,通过注意力机制提升交通流预测精度。

  • Motivation: 交通流预测对智能交通系统至关重要,但现有深度学习模型因架构限制难以同时捕捉长期趋势和短期波动。
  • Method: 采用并行处理的双输入特征框架,结合Bahdanau注意力机制,选择性关注关键时间步。
  • Result: 实验表明,该方法显著提升了多时间尺度的预测拟合度,注意力机制尤其改善了短期预测。
  • Conclusion: 该框架增强了交通预测的鲁棒性和精确性,有助于缓解拥堵和优化城市交通规划。

上次更新于: