Skip to content
每日arXiv - 2025年5月2日

以下论文的arXiv类型标签包含:cs.CV、cs.AI

cs.CV

[1] Learning to Borrow Features for Improved Detection of Small Objects in Single-Shot Detectors

Richard Schmit

Main category: cs.CV

TL;DR: 提出了一种新框架,通过从同类大对象中借用特征来提升小物体检测性能,显著提高了准确性。

  • Motivation: 单次检测器中,小物体检测因空间分辨率和语义丰富度的权衡而具有挑战性。
  • Method: 引入三个关键模块:特征匹配块(FMB)、特征表示块(FRB)和特征融合块(FFB),基于SSD框架实现。
  • Result: 实验表明,该方法显著提升了小物体检测的准确性,同时保持实时性能。
  • Conclusion: 该方法为复杂视觉环境中的鲁棒物体检测提供了有前景的方向。

[2] Investigating Zero-Shot Diagnostic Pathology in Vision-Language Models with Efficient Prompt Design

Vasudev Sharma,Ahmed Alagha,Abdelhakim Khellaf,Vincent Quoc-Huy Trinh,Mahdi S. Hosseini

Main category: cs.CV

TL;DR: 论文研究了三种视觉语言模型(VLMs)在消化病理数据集上的表现,发现提示工程对模型性能有显著影响,尤其是解剖学精确性。CONCH模型表现最佳,强调了领域对齐和特定训练的重要性。

  • Motivation: 探索视觉语言模型在计算病理学中的表现,特别是其对大规模临床数据、任务设计和提示设计的敏感性,以提高诊断准确性。
  • Method: 对三种VLMs(Quilt-Net、Quilt-LLAVA、CONCH)在3,507张WSI数据集上进行系统研究,通过结构化消融实验分析癌症侵袭性和发育不良状态,开发了全面的提示工程框架。
  • Result: 提示工程显著影响模型性能,CONCH模型在解剖学精确提示下表现最佳。解剖学上下文对性能至关重要,模型复杂性并非决定因素。
  • Conclusion: 研究为计算病理学中的提示工程提供了基础指南,表明VLMs在适当提示下能显著提升诊断准确性。

[3] Eye2Eye: A Simple Approach for Monocular-to-Stereo Video Synthesis

Michal Geyer,Omer Tov,Linyi Jin,Richard Tucker,Inbar Mosseri,Tali Dekel,Noah Snavely

Main category: cs.CV

TL;DR: 提出一种将文本生成视频模型转化为视频生成立体视频的简单方法,直接合成新视角,避免传统多阶段方法的限制。

  • Motivation: 立体3D视频生成因数据稀缺而具挑战性,现有方法在复杂场景(如镜面或透明物体)中表现不佳。
  • Method: 通过预训练视频模型的几何、材质等先验知识,直接合成新视角视频,无需中间步骤。
  • Result: 在复杂真实场景中展示了方法的优势,支持多样材质和构图。
  • Conclusion: 该方法避免了传统方法的限制,直接合成新视角,效果更优。

[4] Detecting and Mitigating Hateful Content in Multimodal Memes with Vision-Language Models

Minh-Hao Van,Xintao Wu

Main category: cs.CV

TL;DR: 该论文提出了一种基于视觉语言模型(VLM)的方法,用于检测和转化仇恨表情包,包括定义引导的提示技术和统一的仇恨内容转化框架UnHateMeme。

  • Motivation: 社交媒体中多模态表情包常被滥用传播仇恨言论,现有研究在仇恨内容转化方面存在挑战。
  • Method: 采用定义引导的提示技术检测仇恨表情包,并提出UnHateMeme框架通过替换仇恨内容实现转化。
  • Result: VLM在仇恨表情包检测任务中表现优异,UnHateMeme框架能有效将仇恨表情包转化为非仇恨形式。
  • Conclusion: 该研究展示了VLM在构建安全网络环境中的潜力,并分析了不同VLM模型的优缺点。

[5] V3LMA: Visual 3D-enhanced Language Model for Autonomous Driving

Jannik Lübberstedt,Esteban Rivera,Nico Uhlemann,Markus Lienkamp

Main category: cs.CV

TL;DR: V3LMA通过结合大型语言模型(LLMs)与视觉语言模型(LVLMs),提升自动驾驶中的3D场景理解能力,无需微调即可显著提高性能。

  • Motivation: 现有大型视觉语言模型(LVLMs)在自动驾驶中对3D环境的理解有限,影响其对动态环境的全面和安全理解。
  • Method: 提出V3LMA方法,通过预处理管道提取3D对象数据,结合文本描述和视频输入,增强3D场景理解。
  • Result: 在LingoQA基准测试中得分0.56,提升了复杂交通场景中的情境感知和决策能力。
  • Conclusion: V3LMA通过融合策略和标记组合,推动了交通场景的解析,为更安全的自动驾驶系统提供了可能。

[6] Direct Motion Models for Assessing Generated Videos

Kelsey Allen,Carl Doersch,Guangyao Zhou,Mohammed Suhail,Danny Driess,Ignacio Rocco,Yulia Rubanova,Thomas Kipf,Mehdi S. M. Sajjadi,Kevin Murphy,Joao Carreira,Sjoerd van Steenkiste

Main category: cs.CV

TL;DR: 论文提出了一种基于点轨迹自动编码的新指标,用于更准确评估生成视频中的运动质量,优于现有方法如FVD。

  • Motivation: 现有视频生成模型生成的帧看起来合理,但运动质量差,而当前评估方法(如FVD)未能有效捕捉这一问题。
  • Method: 通过自动编码点轨迹提取运动特征,用于比较视频分布或单视频评估,并对生成视频中的不一致性进行时空定位。
  • Result: 新指标对合成数据中的时间失真更敏感,能更好预测人类对生成视频的评估结果,并提供错误解释性。
  • Conclusion: 点轨迹方法显著提升了生成视频运动质量的评估能力,并为错误分析提供了新工具。

[7] Towards Robust and Generalizable Gerchberg Saxton based Physics Inspired Neural Networks for Computer Generated Holography: A Sensitivity Analysis Framework

Ankit Amrutkar,Björn Kampa,Volkmar Schulz,Johannes Stegmaier,Markus Rothermel,Dorit Merhof

Main category: cs.CV

TL;DR: 本文提出了一种基于Saltelli方法的系统敏感性分析框架,用于量化前向模型超参数对GS-PINN性能的影响,并确定了SLM像素分辨率是主要影响因素。

  • Motivation: 解决计算机生成全息术(CGH)中相位恢复的逆问题,并提升Gerchberg-Saxton启发的物理神经网络(GS-PINNs)的泛化能力和性能。
  • Method: 采用Saltelli扩展的Sobol方法进行敏感性分析,评估前向模型超参数对GS-PINN性能的影响。
  • Result: 发现SLM像素分辨率是影响神经网络敏感性的主要因素,自由空间传播模型优于傅里叶全息模型。
  • Conclusion: 研究为CGH提供了前向模型选择、神经网络架构和性能评估的指导,推动了稳健、可解释和泛化的神经网络发展。

[8] ReXGradient-160K: A Large-Scale Publicly Available Dataset of Chest Radiographs with Free-text Reports

Xiaoman Zhang,Julián N. Acosta,Josh Miller,Ouwen Huang,Pranav Rajpurkar

Main category: cs.CV

TL;DR: ReXGradient-160K是目前最大的公开胸部X光数据集,包含16万次检查,来自10.9万患者,覆盖3个美国医疗系统。数据集分为训练、验证和测试集,旨在推动医学影像AI研究。

  • Motivation: 提供大规模、多样化的胸部X光数据集,以促进医学影像AI和自动化报告生成模型的发展。
  • Method: 收集并整理16万次胸部X光检查数据,包括多张图像和详细放射报告,划分为训练、验证和测试集。
  • Result: 发布了ReXGradient-160K数据集,包含16万次检查,支持AI模型的开发和评估。
  • Conclusion: 该数据集将加速医学影像AI研究,推动自动化放射分析的进步,并已开源供公众使用。

[9] Empowering Agentic Video Analytics Systems with Video Language Models

Yuxuan Yan,Shiqi Jiang,Ting Cao,Yifan Yang,Qianqian Yang,Yuanchao Shu,Yuqing Yang,Lili Qiu

Main category: cs.CV

TL;DR: AVA是一个基于视频语言模型(VLM)的系统,通过事件知识图谱(EKG)和代理检索生成机制,解决了超长视频内容处理的挑战,并在多个基准测试中表现优异。

  • Motivation: 现有视频分析系统局限于预定义任务,难以适应开放场景,而VLM在处理超长视频时存在上下文窗口限制。
  • Method: AVA引入事件知识图谱(EKG)实时索引视频流,并采用代理检索生成机制处理复杂查询。
  • Result: 在LVBench和VideoMME-Long上分别达到62.3%和64.1%的准确率,在AVA-100上达到75.8%。
  • Conclusion: AVA在开放场景和超长视频分析中表现出色,为视频分析领域提供了新的解决方案。

[10] Pack-PTQ: Advancing Post-training Quantization of Neural Networks by Pack-wise Reconstruction

Changjun Li,Runqing Jiang,Zhuo Song,Pengpeng Yu,Ye Zhang,Yulan Guo

Main category: cs.CV

TL;DR: 本文提出了一种名为Pack-PTQ的新型后训练量化方法,通过Hessian引导的自适应分组机制和混合精度量化,解决了现有方法忽略跨块依赖性和低比特精度下降的问题。

  • Motivation: 现有后训练量化方法采用块级重建,忽略了跨块依赖性,导致低比特情况下精度显著下降。
  • Method: 设计了Hessian引导的自适应分组机制,将块划分为非重叠的组作为重建基础单元,并提出混合精度量化方法,根据组的敏感性分配不同比特宽度。
  • Result: 在2D图像和3D点云分类任务中,使用多种网络架构的实验表明,该方法优于现有后训练量化方法。
  • Conclusion: Pack-PTQ通过保留跨块依赖性和自适应比特分配,显著提升了低比特量化性能。

[11] AdCare-VLM: Leveraging Large Vision Language Model (LVLM) to Monitor Long-Term Medication Adherence and Care

Md Asaduzzaman Jabin,Hanqi Jiang,Yiwei Li,Patrick Kaggwa,Eugene Douglass,Juliet N. Sekandi,Tianming Liu

Main category: cs.CV

TL;DR: AdCare-VLM是一个基于视频的多模态大视觉语言模型,用于通过患者视频进行药物依从性的视觉问答,显著优于现有方法。

  • Motivation: 慢性疾病需要严格的药物依从性,但患者行为、医疗成本等因素常导致依从性不足。
  • Method: 使用806个结核病药物监控视频的私有数据集,通过视觉特征与医学概念的关联进行模型微调。
  • Result: 模型在多种配置下性能提升3.1%至3.54%,并通过消融实验验证了有效性。
  • Conclusion: AdCare-VLM在药物依从性监测中表现出色,具有实际应用潜力。

[12] Fine-grained spatial-temporal perception for gas leak segmentation

Xinlong Zhao,Shan Du

Main category: cs.CV

TL;DR: 提出了一种细粒度时空感知(FGSTP)算法,用于高效准确地检测和分割气体泄漏。

  • Motivation: 气体泄漏对人类健康和环境构成重大风险,但由于其隐蔽性和随机形状,现有方法难以高效准确地检测和分割。
  • Method: FGSTP算法通过构建相关体积捕捉帧间运动信息,逐步细化对象级特征,并利用解码器优化边界分割。
  • Result: 在手动标注的GasVid数据集上,FGSTP在分割非刚性物体(如气体泄漏)方面优于其他SOTA模型。
  • Conclusion: FGSTP算法在气体泄漏分割任务中表现出色,为相关领域提供了高效解决方案。

[13] AI-Assisted Decision-Making for Clinical Assessment of Auto-Segmented Contour Quality

Biling Wang,Austen Maniscalco,Ti Bai,Siqiu Wang,Michael Dohopolski,Mu-Han Lin,Chenyang Shen,Dan Nguyen,Junzhou Huang,Steve Jiang,Xinlei Wang

Main category: cs.CV

TL;DR: 该研究提出了一种基于深度学习的质量评估方法,用于放疗中自动生成轮廓的质量评估,结合贝叶斯序数分类和校准不确定性阈值,显著减少了对人工标注的依赖。

  • Motivation: 在线自适应放疗(OART)中,自动生成轮廓的质量评估需要高效且可靠的方法,以减少人工标注的工作量并提升临床决策速度。
  • Method: 研究开发了贝叶斯序数分类模型,通过校准不确定性阈值优化预测准确性,并在无标注、有限标注和充分标注三种数据场景下验证了方法的有效性。
  • Result: 模型在所有场景下表现稳健,仅需30个手动标注和34个受试者的校准即可达到90%以上的测试准确率,显著减少了不必要的复查。
  • Conclusion: 该质量评估模型通过量化不确定性,提升了放疗工作流程的安全性和可靠性,同时减少了人工工作量。

[14] AWARE-NET: Adaptive Weighted Averaging for Robust Ensemble Network in Deepfake Detection

Muhammad Salman,Iqra Tariq,Mishal Zulfiqar,Muqadas Jalal,Sami Aujla,Sumbal Fatima

Main category: cs.CV

TL;DR: 提出了一种新颖的两层集成框架用于深度伪造检测,通过结合多种先进架构和动态权重机制,实现了优异的检测性能。

  • Motivation: 深度伪造技术对数字身份和网络信任构成威胁,现有方法在多样数据集和操纵类型上表现不一致,需要更鲁棒的解决方案。
  • Method: 采用Xception、Res2Net101和EfficientNet-B7三种架构,每种架构初始化三次以增强多样性,并通过动态权重机制分层结合预测结果。
  • Result: 在FF++和CelebDF-v2数据集上达到99.22%和100.00%的AUC分数,F1分数分别为98.06%和99.94%。跨数据集评估也表现优异。
  • Conclusion: 该框架在深度伪造检测中表现出色,尤其在跨数据集泛化能力上具有显著优势。

[15] Quaternion Wavelet-Conditioned Diffusion Models for Image Super-Resolution

Luigi Sigillo,Christian Bianchi,Danilo Comminiello

Main category: cs.CV

TL;DR: 本文提出了一种名为ResQu的新型图像超分辨率框架,结合了四元数小波预处理和潜在扩散模型,通过动态集成四元数小波嵌入和利用基础模型的生成先验,显著提升了超分辨率的感知质量和结构保真度。

  • Motivation: 图像超分辨率在计算机视觉中具有广泛应用,但现有方法在高倍放大时难以平衡感知质量与结构保真度。扩散模型虽有效,但仍需改进。
  • Method: ResQu框架整合了四元数小波预处理和潜在扩散模型,引入了一种新的四元数小波和时间感知编码器,动态集成小波嵌入于去噪过程。
  • Result: 实验表明,该方法在感知质量和标准评估指标上优于现有方法。
  • Conclusion: ResQu通过创新性地结合四元数小波和扩散模型,显著提升了超分辨率效果,代码将在修订后公开。

[16] Efficient Neural Video Representation with Temporally Coherent Modulation

Seungjun Shin,Suji Kim,Dokwan Oh

Main category: cs.CV

TL;DR: NVTM提出了一种新型视频表示框架,通过分解时空3D视频数据为带流信息的2D网格,实现了快速学习和高效参数利用,显著提升了编码速度和视频质量。

  • Motivation: 现有基于网格的参数编码方法在视频应用中存在参数冗余和低效问题,NVTM旨在解决这些问题,同时提升视频表示的动态特性捕捉能力。
  • Method: NVTM将视频数据分解为带流信息的2D网格,通过时间相干调制实现快速编码和高效参数利用。
  • Result: NVTM在编码速度上比NeRV快3倍以上,PSNR/LPIPS指标显著提升,且在压缩任务中表现与H.264/HEVC相当。
  • Conclusion: NVTM在视频表示和压缩任务中表现出色,具有广泛的应用潜力。

[17] Automated segmenta-on of pediatric neuroblastoma on multi-modal MRI: Results of the SPPIN challenge at MICCAI 2023

M. A. D. Buser,D. C. Simons,M. Fitski,M. H. W. A. Wijnen,A. S. Littooij,A. H. ter Brugge,I. N. Vos,M. H. A. Janse,M. de Boer,R. ter Maat,J. Sato,S. Kido,S. Kondo,S. Kasai,M. Wodzinski,H. Muller,J. Ye,J. He,Y. Kirchhoff,M. R. Rokkus,G. Haokai,S. Zitong,M. Fernández-Patón,D. Veiga-Canuto,D. G. Ellis,M. R. Aizenberg,B. H. M. van der Velden,H. Kuijf,A. De Luca,A. F. W. van der Steeg

Main category: cs.CV

TL;DR: SPPIN挑战赛旨在推动神经母细胞瘤手术规划中自动MRI分割技术的发展,最高分团队使用预训练网络STU-Net,但小肿瘤分割仍需改进。

  • Motivation: 神经母细胞瘤手术规划依赖耗时且依赖用户的MRI 3D模型,需自动化分割技术提升效率。
  • Method: 通过SPPIN挑战赛,使用多模态MRI数据,评估团队在自动分割中的表现,指标包括Dice分数、HD95和VS。
  • Result: 最高分团队Dice分数0.82,HD95 7.69 mm,VS 0.91,但小肿瘤分割效果不佳(Dice=0.59)。
  • Conclusion: 预训练网络在小数据集有效,但需更可靠方法以支持临床手术规划。

[18] Cues3D: Unleashing the Power of Sole NeRF for Consistent and Unique Instances in Open-Vocabulary 3D Panoptic Segmentation

Feng Xue,Wenzhuang Xu,Guofeng Zhong,Anlong Minga,Nicu Sebe

Main category: cs.CV

TL;DR: Cues3D是一种基于NeRF的紧凑方法,用于开放词汇3D全景分割,通过全局一致的几何特征实现对象区分,无需显式跨视图监督。

  • Motivation: 现有方法依赖高保真3D点云或跨视图关联预处理,而Cues3D利用NeRF的隐式3D场实现全局一致性,简化流程。
  • Method: 提出三阶段训练框架(初始化-消歧-细化),结合实例消歧方法匹配NeRF渲染的3D掩码,确保全局唯一实例ID。
  • Result: 在多个数据集上,Cues3D优于基于2D图像的方法,并与最新的2D-3D融合方法竞争,甚至在使用额外3D点云时超越它们。
  • Conclusion: Cues3D通过NeRF的隐式几何特征实现了高效且一致的3D实例分割,为开放词汇3D全景分割提供了新思路。

[19] The Invisible Threat: Evaluating the Vulnerability of Cross-Spectral Face Recognition to Presentation Attacks

Anjith George,Sebastien Marcel

Main category: cs.CV

TL;DR: 该论文研究了近红外(NIR)与可见光(VIS)跨光谱人脸识别系统在呈现攻击下的脆弱性,发现尽管系统具有一定可靠性,但仍存在特定攻击的漏洞。

  • Motivation: 跨光谱人脸识别系统在匹配NIR与VIS图像时具有优势,但其对呈现攻击的鲁棒性尚未被系统研究。
  • Method: 通过全面的实证评估,分析NIR-VIS跨光谱人脸识别系统在呈现攻击下的表现。
  • Result: 研究发现,尽管系统具有一定可靠性,但仍对特定攻击表现出脆弱性。
  • Conclusion: 强调了进一步研究跨光谱人脸识别系统安全性的必要性。

[20] SOTA: Spike-Navigated Optimal TrAnsport Saliency Region Detection in Composite-bias Videos

Wenxuan Liu,Yao Deng,Kang Chen,Xian Zhong,Zhaofei Yu,Tiejun Huang

Main category: cs.CV

TL;DR: 提出了一种基于脉冲相机的视觉显著性检测框架SOTA,通过微偏置和全局偏置方法解决噪声和低质量样本问题。

  • Motivation: 现有显著性检测方法在运动模糊和遮挡场景中表现不佳,而脉冲相机的高时间分辨率虽能提升检测效果,但其固有噪声和低质量样本会导致显著性偏差。
  • Method: 提出SOTA框架,结合Spike-based Micro-debias(SM)和Spike-based Global-debias(SG),分别处理帧间细微变化和全局不一致性。
  • Result: 在真实和合成数据集上的实验表明,SOTA能有效消除复合噪声偏差,优于现有方法。
  • Conclusion: SOTA通过优化脉冲相机的优势并解决其噪声问题,显著提升了显著性检测的准确性。

[21] Real-Time Animatable 2DGS-Avatars with Detail Enhancement from Monocular Videos

Xia Yuan,Hai Yuan,Wenyi Ge,Ying Fu,Xi Wu,Guanyu Xing

Main category: cs.CV

TL;DR: 提出了一种基于2D高斯泼溅(2DGS)的实时框架,用于从单目视频中重建高质量、可动画的3D人体化身,解决了现有方法在几何细节和动画稳定性上的不足。

  • Motivation: 减少对复杂硬件的依赖,提升在游戏开发、增强现实和社交媒体中的实用性,同时解决现有方法在动态或复杂姿势下几何细节和动画稳定性的挑战。
  • Method: 结合2DGS和全局SMPL姿势参数,提出旋转补偿网络(RCN)以学习旋转残差,整合局部几何特征与全局姿势参数,优化非刚性变形处理和动画过渡。
  • Result: 实验表明,该方法成功从单目视频重建出真实且高度可动画的人体化身,保留了细节并确保稳定的姿势变化,优于现有方法。
  • Conclusion: 该方法在重建质量和动画鲁棒性上超越当前最优方法,为3D人体化身重建提供了高效解决方案。

[22] Leveraging Pretrained Diffusion Models for Zero-Shot Part Assembly

Ruiyuan Zhang,Qi Wang,Jiaxiang Liu,Yu Zhang,Yuchi Huo,Chao Wu

Main category: cs.CV

TL;DR: 提出了一种零样本3D零件组装方法,利用预训练点云扩散模型作为判别器,通过ICP过程和推离策略解决零件重叠问题,效果优于监督学习方法。

  • Motivation: 传统方法需要大量标注数据且成本高,难以适应大规模应用,因此提出零样本方法以减少对标注数据的依赖。
  • Method: 利用预训练点云扩散模型作为判别器,将组装问题转化为ICP过程,并提出推离策略解决零件重叠。
  • Result: 实验表明该方法效果优于基线方法,甚至超过监督学习方法。
  • Conclusion: 提出的零样本方法有效解决了3D零件组装问题,减少了数据依赖,具有实际应用潜力。

[23] ClearLines - Camera Calibration from Straight Lines

Gregory Schroeder,Mohamed Sabry,Cristina Olaverri-Monreal

Main category: cs.CV

TL;DR: 论文提出了一种名为“ClearLines”的小型数据集,用于解决实际户外场景中直线校准的难题,并提供了数据集创建的详细过程。

  • Motivation: 实际户外场景中的直线校准问题因复杂环境和缺乏专用数据集而难以解决。
  • Method: 通过创建“ClearLines”数据集,并提供其详细创建过程,为开发直线检测算法提供指导。
  • Result: 提出了一个专门的数据集,填补了该领域的空白,并为算法开发提供了实用参考。
  • Conclusion: “ClearLines”数据集为直线检测算法的开发和优化提供了重要支持。

[24] JointDiT: Enhancing RGB-Depth Joint Modeling with Diffusion Transformers

Kwon Byung-Ki,Qi Dai,Lee Hyoseok,Chong Luo,Tae-Hyun Oh

Main category: cs.CV

TL;DR: JointDiT是一种扩散变换器,通过自适应调度权重和不平衡时间步采样策略,实现了RGB和深度的联合分布建模,支持多种生成任务。

  • Motivation: 研究如何通过联合分布建模生成高质量图像和几何准确的深度图,同时探索其作为条件生成替代方案的潜力。
  • Method: 利用扩散变换器的架构优势,提出自适应调度权重和不平衡时间步采样策略,训练模型处理不同噪声水平。
  • Result: JointDiT在联合生成任务中表现优异,同时在深度估计和深度条件图像生成中取得可比结果。
  • Conclusion: JointDiT展示了联合分布建模的潜力,可作为条件生成的替代方案。

[25] KeySync: A Robust Approach for Leakage-free Lip Synchronization in High Resolution

Antoni Bigata,Rodrigo Mira,Stella Bounareli,Michał Stypułkowski,Konstantinos Vougioukas,Stavros Petridis,Maja Pantic

Main category: cs.CV

TL;DR: KeySync是一个两阶段框架,解决了唇同步任务中的时间一致性、表情泄漏和面部遮挡问题,并通过新颖的掩码策略实现了最先进的唇重建和交叉同步效果。

  • Motivation: 唇同步任务在现有视频与新输入音频对齐时面临时间一致性、表情泄漏和面部遮挡等挑战,这些在实际应用中(如自动配音)影响显著,但现有研究常忽视。
  • Method: 提出KeySync,一个两阶段框架,结合精心设计的掩码策略解决泄漏和遮挡问题,同时提升时间一致性。
  • Result: KeySync在唇重建和交叉同步中取得最先进效果,视觉质量提升且表情泄漏减少(通过新指标LipLeak衡量),掩码策略有效处理遮挡。
  • Conclusion: KeySync通过两阶段框架和新掩码策略,显著提升了唇同步任务的表现,解决了现有研究的不足。

[26] Towards Scalable Human-aligned Benchmark for Text-guided Image Editing

Suho Ryu,Kihyun Kim,Eugene Baek,Dongsoo Shin,Joonseok Lee

Main category: cs.CV

TL;DR: 论文提出了一种新的文本引导图像编辑基准HATIE,解决了现有方法依赖主观用户研究的问题,提供了自动化、多方面的评估方法。

  • Motivation: 由于文本引导图像编辑任务的主观性,缺乏广泛接受的评估标准,研究者通常依赖人工用户研究。
  • Method: 提出HATIE基准,包含大规模数据集和全自动、多方面的评估流程,结合多种评分以符合人类感知。
  • Result: 实验验证HATIE评估与人类感知一致,并对多个先进模型进行了基准测试。
  • Conclusion: HATIE为文本引导图像编辑提供了可靠、自动化的评估标准,有助于更深入理解模型性能。

[27] HeAL3D: Heuristical-enhanced Active Learning for 3D Object Detection

Esteban Rivera,Surya Prabhakaran,Markus Lienkamp

Main category: cs.CV

TL;DR: HeAL(启发式增强的主动学习)通过结合启发式特征(如物体距离和点数量)与定位和分类,为3D目标检测模型选择最有贡献的训练样本。

  • Motivation: 主动学习在自动驾驶模型训练中具有重要作用,但现有方法忽视了实际应用中的启发式特征,导致样本选择在非受控场景中效果不佳。
  • Method: HeAL整合了启发式特征(如物体距离和点数量)与定位和分类,以估计样本的不确定性,从而选择更有用的训练样本。
  • Result: 在KITTI数据集上,HeAL的mAP与全监督基线相当,仅需24%的样本即可达到相同性能。
  • Conclusion: HeAL通过结合启发式特征,显著提升了主动学习在3D目标检测中的效果,为实际应用提供了高效解决方案。

[28] Inconsistency-based Active Learning for LiDAR Object Detection

Esteban Rivera,Loic Stratil,Markus Lienkamp

Main category: cs.CV

TL;DR: 论文探讨了在自动驾驶中通过主动学习优化LiDAR数据标注的策略,提出不一致性样本选择方法,实验显示仅需50%标注数据即可达到随机采样的性能。

  • Motivation: 当前深度学习模型在自动驾驶目标检测中表现优异,但需要大量标注数据,成本高昂,因此需要优化数据标注策略。
  • Method: 扩展主动学习至LiDAR领域,开发基于不一致性的样本选择策略,并评估其效果。
  • Result: 实验表明,基于检测框数量的不一致性方法仅需50%标注数据即可达到随机采样的mAP性能。
  • Conclusion: 主动学习在LiDAR数据标注中具有潜力,可显著减少标注成本。

[29] InterLoc: LiDAR-based Intersection Localization using Road Segmentation with Automated Evaluation Method

Nguyen Hoang Khoi Tran,Julie Stephany Berrio,Mao Shan,Zhenxing Ming,Stewart Worrall

Main category: cs.CV

TL;DR: 提出了一种基于LiDAR的交叉口检测方法,结合语义道路分割和车辆定位,通过最小二乘法优化候选交叉口,性能优于现有基线。

  • Motivation: 交叉口是道路网络的关键点,但现有检测方法忽略语义信息或依赖人工标注数据,本文旨在填补这一空白。
  • Method: 融合语义道路分割与车辆定位检测候选交叉口(BEV表示),并通过最小二乘法分析分支拓扑优化候选。
  • Result: 在SemanticKITTI数据集上,平均定位误差1.9米,精度89%,召回率77%(5米容忍度),优于最新基线。
  • Conclusion: 该方法对分割误差具有鲁棒性,适用于实际场景。

[30] A Robust Deep Networks based Multi-Object MultiCamera Tracking System for City Scale Traffic

Muhammad Imran Zaman,Usama Ijaz Bajwa,Gulshan Saleem,Rana Hammad Raza

Main category: cs.CV

TL;DR: 提出了一种基于深度学习的多目标多摄像头跟踪框架,用于解决城市交通场景中的车辆跟踪问题,并在AI City Challenge数据集上取得了竞争性性能。

  • Motivation: 随着网络摄像头数量的增加,手动跟踪和匹配多摄像头中的车辆在城市交通场景中面临多样性、遮挡、光照变化等挑战。
  • Method: 使用Mask R-CNN进行目标检测,结合NMS选择目标,采用迁移学习进行重识别,利用ResNet-152和Deep SORT进行特征提取和跟踪。
  • Result: 在AI City Challenge数据集上,IDF1得分为0.8289,精确度和召回率分别为0.9026和0.8527。
  • Conclusion: 该框架在车辆跟踪中表现出高效性和准确性,适用于大规模城市交通场景。

[31] X-ray illicit object detection using hybrid CNN-transformer neural network architectures

Jorgen Cani,Christos Diou,Spyridon Evangelatos,Panagiotis Radoglou-Grammatikis,Vasileios Argyriou,Panagiotis Sarigiannidis,Iraklis Varlamis,Georgios Th. Papadopoulos

Main category: cs.CV

TL;DR: 论文探讨了在X射线安全应用中,结合CNN和Transformer的混合架构在检测遮挡或隐藏物体时的性能表现,并与传统CNN方法进行了对比。

  • Motivation: 解决X射线安全成像中因遮挡或隐藏物体导致的检测难题,探索CNN和Transformer混合架构的潜力。
  • Method: 评估了多种混合CNN-Transformer架构(如HGNetV2和Next-ViT-S结合YOLOv8和RT-DETR检测头),并在三个公开数据集(EDS、HiXray、PIDray)上进行比较。
  • Result: 混合架构在数据分布变化(EDS数据集)时表现更鲁棒,而传统CNN(YOLOv8)在HiXray和PIDray数据集上更优。
  • Conclusion: 混合架构在特定场景下具有优势,为未来研究提供了方向;代码和模型权重已开源。

[32] Multimodal Masked Autoencoder Pre-training for 3D MRI-Based Brain Tumor Analysis with Missing Modalities

Lucas Robinet,Ahmad Berjaoui,Elizabeth Cohen-Jonathan Moyal

Main category: cs.CV

TL;DR: BM-MAE是一种针对多模态MRI数据的预训练策略,能够适应任何可用的模态组合,无需为每种组合单独训练模型。

  • Motivation: 在医学影像中,多模态数据常因采集问题或实验设计导致模态缺失,传统方法需为每种模态组合单独训练模型,资源消耗大且不实用。
  • Method: 提出BM-MAE,一种基于掩码图像建模的预训练策略,能够从完整模态中学习并适应任意模态子集。
  • Result: BM-MAE在多个下游任务中表现优于或与基线方法相当,同时能高效重建缺失模态。
  • Conclusion: BM-MAE为多模态MRI数据提供了一种高效、灵活的预训练解决方案,具有实际应用价值。

[33] AnimalMotionCLIP: Embedding motion in CLIP for Animal Behavior Analysis

Enmin Zhong,Carlos R. del-Blanco,Daniel Berjón,Fernando Jaureguizar,Narciso García

Main category: cs.CV

TL;DR: 提出AnimalMotionCLIP,结合CLIP框架与光流信息,解决动物行为识别中的运动信息整合与时间建模问题,性能优于现有方法。

  • Motivation: 预训练视觉语言模型(如CLIP)在动物行为识别中具有潜力,但需解决运动信息整合与时间建模的挑战。
  • Method: 在CLIP框架中交替使用视频帧与光流信息,并比较密集、半密集和稀疏三种时间建模方案。
  • Result: 在Animal Kingdom数据集上表现优于现有方法,能准确识别精细时间动作。
  • Conclusion: AnimalMotionCLIP有效解决了动物行为识别中的关键问题,展示了优越性能。

[34] Synthesizing and Identifying Noise Levels in Autonomous Vehicle Camera Radar Datasets

Mathis Morales,Golnaz Habibi

Main category: cs.CV

TL;DR: 论文提出了一种用于相机-雷达自动驾驶数据集的合成数据增强方法,旨在模拟传感器故障和数据退化,并测试了一个轻量级噪声识别网络的性能。

  • Motivation: 现有目标检测方法多关注性能指标,而忽略了检测和跟踪管道的鲁棒性,尤其是对传感器故障的鲁棒性。
  • Method: 创建了一个现实的合成数据增强管道,模拟传感器故障和数据退化,并训练了一个轻量级噪声识别神经网络。
  • Result: 在增强数据集上训练的噪声识别网络在11个类别上的总体识别准确率为54.4%。
  • Conclusion: 该方法为提升自动驾驶系统中目标检测和跟踪的鲁棒性提供了潜在解决方案。

[35] Uncertainty-Aware Multi-Expert Knowledge Distillation for Imbalanced Disease Grading

Shuo Tong,Shangde Gao,Ke Liu,Zihang Huang,Hongxia Xu,Haochao Ying,Jian Wu

Main category: cs.CV

TL;DR: 提出了一种不确定性感知的多专家知识蒸馏框架(UMKD),用于解决疾病图像分级中的领域偏移和数据不平衡问题,并在实验中取得了最优性能。

  • Motivation: 自动疾病图像分级在医疗AI中具有重要意义,但领域偏移和数据不平衡会导致模型偏差,影响临床部署。
  • Method: UMKD通过解耦任务无关和任务相关特征,并在输出空间动态调整知识转移权重,同时解决模型架构异质性和领域分布差异问题。
  • Result: 在组织学前列腺分级和眼底图像分级实验中,UMKD在源不平衡和目标不平衡场景下均达到最优性能。
  • Conclusion: UMKD为实际疾病图像分级提供了鲁棒且实用的解决方案。

[36] Visual Trajectory Prediction of Vessels for Inland Navigation

Alexander Puzicha,Konstantin Wüstefeld,Kathrin Wilms,Frank Weichert

Main category: cs.CV

TL;DR: 论文研究了内陆水道中基于视频的船舶轨迹预测方法,通过结合目标检测、卡尔曼滤波和样条插值,提高了预测准确性。

  • Motivation: 随着自主系统和远程操作在内陆航行中的重要性增加,精确的船舶轨迹预测变得至关重要。现有系统因复杂环境常误分类目标,需改进。
  • Method: 整合先进目标检测方法、卡尔曼滤波和样条插值,对比评估了BoT-SORT、Deep OC-SORT和ByeTrack等跟踪算法。
  • Result: 实验表明卡尔曼滤波能提供平滑轨迹,显著提高了船舶运动预测的准确性,尤其在碰撞避免和环境感知方面。
  • Conclusion: 研究强调需定制化数据集和模型以优化内陆航行预测,未来将扩展数据集并加入船舶分类以进一步提升预测效果。

[37] Dietary Intake Estimation via Continuous 3D Reconstruction of Food

Wallace Lee,YuHao Chen

Main category: cs.CV

TL;DR: 提出一种基于单目2D视频构建3D食物模型的方法,用于精确监测饮食行为,解决传统自我报告数据不准确的问题。

  • Motivation: 传统饮食监测方法依赖自我报告数据,易产生误差,无法准确预防与饮食相关的健康风险。
  • Method: 利用COLMAP和姿态估计算法从2D视频生成3D食物模型,观察食物体积变化,并提出自动状态识别方法。
  • Result: 实验证明该方法在玩具模型和真实食物上具有潜力,能捕捉饮食行为的全面信息。
  • Conclusion: 3D重建方法为开发自动化、精确的饮食监测工具提供了新方向。

[38] Pixel3DMM: Versatile Screen-Space Priors for Single-Image 3D Face Reconstruction

Simon Giebenhain,Tobias Kirschstein,Martin Rünz,Lourdes Agapito,Matthias Nießner

Main category: cs.CV

TL;DR: Pixel3DMM利用视觉Transformer和3DMM优化,从单张RGB图像重建3D人脸,几何精度提升15%。

  • Motivation: 解决从单张RGB图像高精度重建3D人脸的挑战,尤其是多样化的表情和角度。
  • Method: 结合DINO模型的潜在特征,设计表面法线和UV坐标预测头,通过FLAME网格拓扑优化3DMM参数。
  • Result: 在几何精度上超越基线15%,尤其在复杂表情下表现优异。
  • Conclusion: Pixel3DMM为单图像3D人脸重建提供了高效且高精度的解决方案。

[39] Diverse Semantics-Guided Feature Alignment and Decoupling for Visible-Infrared Person Re-Identification

Neng Dong,Shuanglin Yan,Liyan Zhang,Jinhui Tang

Main category: cs.CV

TL;DR: 提出了一种名为DSFAD的网络,通过文本嵌入空间对齐可见光和红外图像的特征,并解耦无关特征,解决了VI-ReID中的模态差异和风格噪声问题。

  • Motivation: 由于可见光和红外图像之间的模态差异大,且风格噪声(如光照和颜色对比)降低了特征的判别性和模态不变性,因此需要一种方法来对齐特征并解耦无关信息。
  • Method: 设计了DSFA模块(多样语义引导的特征对齐)和SMFD模块(语义边界引导的特征解耦),并通过SCFR模块(语义一致性引导的特征恢复)防止语义丢失。
  • Result: 在三个VI-ReID数据集上的实验证明了DSFAD的优越性。
  • Conclusion: DSFAD通过文本嵌入空间对齐和解耦特征,有效解决了VI-ReID中的模态差异和风格噪声问题。

[40] Brain Foundation Models with Hypergraph Dynamic Adapter for Brain Disease Analysis

Zhongying Deng,Haoyu Wang,Ziyan Huang,Lipei Zhang,Angelica I. Aviles-Rivero,Chaoyu Liu,Junjun He,Zoe Kourtzi,Carola-Bibiane Schönlieb

Main category: cs.CV

TL;DR: SAM-Brain3D和HyDA提出了一种针对脑部疾病的多模态、多尺度动态基础模型框架,显著提升了分割和分类任务的性能。

  • Motivation: 当前脑部基础模型存在任务和数据同质性限制、泛化能力不足及临床任务适应效率低的问题。
  • Method: 提出SAM-Brain3D(基于14种MRI子模态的脑部图像训练)和HyDA(超图动态适配器),用于多模态数据融合和个性化适应。
  • Result: 实验表明,该方法在多种脑部疾病任务中优于现有技术。
  • Conclusion: 该框架为脑部疾病分析提供了新的多模态、多尺度动态建模范式。

[41] Vision Mamba in Remote Sensing: A Comprehensive Survey of Techniques, Applications and Outlook

Muyi Bao,Shuchang Lyu,Zhaoyang Xu,Huiyu Zhou,Jinchang Ren,Shiming Xiang,Xiangtai Li,Guangliang Cheng

Main category: cs.CV

TL;DR: 该论文综述了Mamba架构在遥感领域的应用,分析了120项研究,提出了五维度的创新分类,并提供了开源资源。

  • Motivation: 解决CNN和ViT在遥感数据中的局限性,探索Mamba架构的潜力。
  • Method: 系统分析120项研究,构建五维度的分类体系,包括基础原理、微架构创新、宏架构整合、性能评估和未来方向。
  • Result: Mamba架构在遥感任务中表现出色,提供了线性计算复杂度和全局上下文建模的优势。
  • Conclusion: Mamba是遥感分析的变革性框架,填补了SSM理论与实践的空白,为未来研究提供了基础。

[42] Deep Reinforcement Learning for Urban Air Quality Management: Multi-Objective Optimization of Pollution Mitigation Booth Placement in Metropolitan Environments

Kirtan Rajesh,Suvidha Rupesh Kumar

Main category: cs.CV

TL;DR: 本文提出了一种基于深度强化学习(DRL)的框架,用于优化德里市空气净化亭的布局,以改善空气质量指数(AQI)。

  • Motivation: 德里是全球污染最严重的城市之一,传统静态空气净化设施因布局不合理和适应性差而效果有限。
  • Method: 采用近端策略优化(PPO)算法,结合人口密度、交通模式等环境因素,动态学习最优布局。
  • Result: 实验表明,DRL方法在AQI改善、空间覆盖等方面优于传统方法,实现了均衡高效的布局。
  • Conclusion: AI驱动的空间优化在智能城市建设和空气质量管理中具有巨大潜力。

[43] Visual Test-time Scaling for GUI Agent Grounding

Tiange Luo,Lajanugen Logeswaran,Justin Johnson,Honglak Lee

Main category: cs.CV

TL;DR: RegionFocus是一种视觉测试时缩放方法,用于提升视觉语言模型代理在复杂网页环境中的动作选择准确性。通过动态聚焦相关区域和图像地图机制,显著提高了性能。

  • Motivation: 网页的视觉复杂性和大量界面元素使得动作选择困难,需要一种方法来减少背景干扰并提高准确性。
  • Method: 提出动态缩放相关区域的视觉测试时缩放方法,并结合图像地图机制可视化关键地标,以透明记录动作并优化选择。
  • Result: 在Screenspot-pro和WebVoyager基准测试中,性能分别提升了28%和24%,并在Qwen2.5-VL-72B模型上达到61.6%的最新性能。
  • Conclusion: RegionFocus通过视觉测试时缩放显著提升了交互环境中的性能,为视觉语言模型代理提供了有效解决方案。

[44] Towards Autonomous Micromobility through Scalable Urban Simulation

Wayne Wu,Honglin He,Chaoyuan Zhang,Jack He,Seth Z. Zhao,Ran Gong,Quanyi Li,Bolei Zhou

Main category: cs.CV

TL;DR: 论文提出了一种可扩展的城市模拟解决方案URBAN-SIM和评估套件URBAN-BENCH,用于推动自主微移动技术的发展,通过模拟和任务评估提升AI代理的安全性和效率。

  • Motivation: 微移动设备(如送货机器人和代步车)依赖人工操作存在安全和效率问题,AI辅助操作是潜在解决方案。
  • Method: 构建URBAN-SIM平台(包含分层城市生成、交互动态生成和异步场景采样模块)和URBAN-BENCH评估套件(包含8项任务)。
  • Result: 实验评估了四种机器人(轮式和腿式)在不同任务中的表现,揭示了各自的优势和局限。
  • Conclusion: URBAN-SIM和URBAN-BENCH为自主微移动技术的研发提供了高效、多样化的模拟和评估工具。

[45] RayZer: A Self-supervised Large View Synthesis Model

Hanwen Jiang,Hao Tan,Peng Wang,Haian Jin,Yue Zhao,Sai Bi,Kai Zhang,Fujun Luan,Kalyan Sunkavalli,Qixing Huang,Georgios Pavlakos

Main category: cs.CV

TL;DR: RayZer是一个无需3D监督的自监督多视角3D视觉模型,能够从无标定图像中恢复相机参数并合成新视角。

  • Motivation: 传统方法依赖3D监督(如相机位姿和场景几何),而RayZer旨在通过自监督学习实现3D感知,减少对标注数据的依赖。
  • Method: 设计了自监督框架和基于Transformer的模型,通过解耦相机与场景表示,仅利用射线结构作为3D先验。
  • Result: RayZer在无需真实相机位姿的情况下,达到了与依赖标注的方法相当甚至更好的新视角合成性能。
  • Conclusion: RayZer展示了自监督学习在3D视觉任务中的潜力,为减少对标注数据的依赖提供了新思路。

[46] T2I-R1: Reinforcing Image Generation with Collaborative Semantic-level and Token-level CoT

Dongzhi Jiang,Ziyu Guo,Renrui Zhang,Zhuofan Zong,Hao Li,Le Zhuo,Shilin Yan,Pheng-Ann Heng,Hongsheng Li

Main category: cs.CV

TL;DR: T2I-R1是一个结合链式思维(CoT)和强化学习(RL)的文本到图像生成模型,通过双层CoT推理提升生成效果。

  • Motivation: 探索如何将链式思维和强化学习应用于视觉生成领域,以提升文本到图像生成模型的性能。
  • Method: 提出T2I-R1模型,采用双层CoT推理(语义级和令牌级)和BiCoT-GRPO优化策略。
  • Result: 在T2I-CompBench和WISE基准测试中分别提升13%和19%,超越现有最佳模型FLUX.1。
  • Conclusion: T2I-R1通过双层CoT和RL的结合,显著提升了文本到图像生成的性能。

cs.AI

[47] Position Paper: Towards Open Complex Human-AI Agents Collaboration System for Problem-Solving and Knowledge Management

Ju Wu,Calvin K. L. Or

Main category: cs.AI

TL;DR: 本文批判性综述了人机协作的最新实证研究,提出了一种新的概念框架(Hierarchical Exploration-Exploitation Net),旨在整合现有技术并推动未来研究。

  • Motivation: 当前人机协作研究缺乏统一的理论框架,尤其是在处理开放性和复杂任务时。
  • Method: 提出了一种新的概念架构,整合多智能体协调、知识管理、控制论反馈循环和高级控制机制。
  • Result: 通过将现有技术映射到该框架中,启发了对传统方法的修订和新研究方向的探索。
  • Conclusion: 该框架为人机协作的深度共进化提供了理论基础和未来研究方向。

[48] First Order Logic with Fuzzy Semantics for Describing and Recognizing Nerves in Medical Images

Isabelle Bloch,Enzo Bonnot,Pietro Gori,Giammarco La Barbera,Sabine Sarnacki

Main category: cs.AI

TL;DR: 论文提出了一种基于模糊语义和一阶逻辑的神经纤维束描述与识别方法,用于医学图像中的神经分割和识别。

  • Motivation: 解决医学图像中神经纤维束的模糊描述问题,为外科手术规划提供支持。
  • Method: 结合模糊语义和一阶逻辑,定义空间实体、关系和量词的语言,提出空间推理算法。
  • Result: 在儿科骨盆神经影像中验证了方法的有效性,支持手术规划。
  • Conclusion: 提出的方法能有效处理神经的模糊描述,为医学图像分析提供了新工具。

[49] Real-World Gaps in AI Governance Research

Ilan Strauss,Isobel Moure,Tim O'Reilly,Sruly Rosenblat

Main category: cs.AI

TL;DR: 分析了1,178篇生成式AI安全与可靠性论文,发现企业研究更集中于预部署领域(如模型对齐与测试),而部署阶段问题(如模型偏见)关注减少。高风险领域研究不足,建议提高部署数据的可观测性。

  • Motivation: 比较领先AI企业和大学的研究产出,揭示研究重点的变化及其潜在影响。
  • Method: 基于1,178篇论文的分析,对比企业和大学的研究方向。
  • Result: 企业研究集中于预部署领域,高风险部署领域研究不足。
  • Conclusion: 建议扩大外部研究者对部署数据的访问,系统性观测市场AI行为。

[50] RAIL in the Wild: Operationalizing Responsible AI Evaluation Using Anthropic's Value Dataset

Sumit Verma,Pritam Prasun,Arpit Jaiswal,Pritish Kumar

Main category: cs.AI

TL;DR: 本文提出了一种基于RAIL框架的系统方法,用于评估大型语言模型的伦理行为,并通过实际数据集验证其可行性。

  • Motivation: 随着AI系统在现实应用中的普及,确保其符合伦理标准变得至关重要,但现有框架缺乏可操作的评估方法。
  • Method: 采用RAIL框架,包含八个可衡量的维度,应用于Anthropic的“Values in the Wild”数据集,分析超过308,000条对话和3,000条标注的价值表达。
  • Result: 研究通过映射价值到RAIL维度并计算综合分数,揭示了LLM在现实使用中的伦理行为。
  • Conclusion: RAIL框架为评估AI伦理行为提供了可行且系统的方法,有助于推动AI伦理标准的实际应用。

[51] DeCo: Defect-Aware Modeling with Contrasting Matching for Optimizing Task Assignment in Online IC Testing

Lo Pang-Yun Ting,Yu-Hao Chiang,Yi-Tung Tsai,Hsu-Chao Lai,Kun-Ta Chuang

Main category: cs.AI

TL;DR: DeCo是一种基于AI的创新方法,通过构建缺陷感知图和对比分配机制,优化IC测试任务分配,提高处理成功率和工程师效率。

  • Motivation: 现有研究忽视缺陷特征、历史故障和工程师经验的整合,限制了IC处理效率的提升。
  • Method: DeCo构建缺陷感知图,结合工程师和任务的表示,通过对比分配机制匹配任务与工程师。
  • Result: 实验显示DeCo任务处理成功率超过80%,且能平衡工作负载。
  • Conclusion: DeCo作为AI驱动方案,有望提升IC故障分析和任务处理的效率。

[52] CognitionNet: A Collaborative Neural Network for Play Style Discovery in Online Skill Gaming Platform

Rukma Talwadker,Surajit Chakrabarty,Aditya Pareek,Tridib Mukherjee,Deepak Saini

Main category: cs.AI

TL;DR: 论文提出了一种名为CognitionNet的两阶段深度神经网络,用于从在线技能游戏平台(如Rummy)的数据中发现玩家的游戏行为和游戏风格,从而揭示玩家心理和战术。

  • Motivation: 游戏数据可以反映玩家的心理状态和行为模式,挖掘这些信息有助于更好地理解玩家行为、体验和保护。
  • Method: 采用两阶段深度神经网络:第一阶段挖掘游戏行为作为潜在空间中的聚类表示,第二阶段通过监督分类目标聚合这些微模式以发现游戏风格。
  • Result: CognitionNet在揭示玩家心理和战术方面表现出色,显著优于现有基线方法。
  • Conclusion: 该研究首次实现了从遥测数据中自动化发现玩家心理和战术,并为玩家参与预测提供了相关诊断解释。

[53] Urban Air Mobility as a System of Systems: An LLM-Enhanced Holonic Approach

Ahmed R. Sadik,Muhammad Ashfaq,Niko Mäkitalo,Tommi Mikkonen

Main category: cs.AI

TL;DR: 本文提出了一种基于大型语言模型(LLM)的智能全息架构,用于解决城市空中交通(UAM)的系统架构、规划和任务管理问题,通过案例研究展示了其动态资源分配和实时重规划能力。

  • Motivation: 传统架构在动态复杂环境中难以实现可扩展性和资源无缝集成,因此需要一种更智能、自适应的解决方案来应对UAM的挑战。
  • Method: 采用全息架构和LLM,实现半自主运行和实时协调,处理自然语言输入并生成自适应计划。
  • Result: 案例研究表明,该架构能够实现动态资源分配、实时重规划和自主适应,无需集中控制。
  • Conclusion: 该研究为去中心化控制和AI驱动的适应性UAM生态系统奠定了基础,未来将探索混合AI集成和实际验证。

[54] ScaleTrack: Scaling and back-tracking Automated GUI Agents

Jing Huang,Zhixiong Zeng,Wenkang Han,Yufeng Zhong,Liming Zheng,Shuai Fu,Jingyuan Chen,Lin Ma

Main category: cs.AI

TL;DR: ScaleTrack是一个用于自动化GUI代理的训练框架,通过扩展GUI定位和回溯规划来解决数据不足和忽略历史行为的问题。

  • Motivation: 现有GUI代理在定位阶段缺乏足够训练数据,规划阶段忽略回溯历史行为,限制了性能。
  • Method: ScaleTrack通过收集多样化的GUI样本并统一模板训练定位模型,同时设计了一种结合当前GUI图像和历史动作预测下一步动作的训练策略。
  • Result: 实验证明ScaleTrack能有效描述GUI环境演化规则,提升代理性能。
  • Conclusion: ScaleTrack解决了GUI代理训练中的关键问题,数据与代码将公开。

[55] UserCentrix: An Agentic Memory-augmented AI Framework for Smart Spaces

Alaa Saleh,Sasu Tarkoma,Praveen Kumar Donta,Naser Hossein Motlagh,Schahram Dustdar,Susanna Pirttikangas,Lauri Lovén

Main category: cs.AI

TL;DR: UserCentrix是一个基于代理AI的框架,结合生成式AI和多智能体系统,通过动态、上下文感知的决策优化智能空间。

  • Motivation: 提升智能环境的动态适应性和资源管理效率,满足用户个性化需求。
  • Method: 集成个性化LLM代理、混合分层控制系统,以及记忆增强推理和协作策略。
  • Result: 实验证明框架在响应准确性、系统效率和资源管理方面表现优异。
  • Conclusion: UserCentrix为智能环境提供了一种高效、自适应的解决方案。

[56] Rule-based Classifier Models

Cecilia Di Florio,Huimin Dong,Antonino Rotolo

Main category: cs.AI

TL;DR: 扩展了法律领域分类器模型的框架,引入事实和规则(尤其是判决理由)的结合。

  • Motivation: 现有分类器仅基于事实,而法律推理依赖事实和规则,需改进框架以更贴近实际法律推理。
  • Method: 基于Canavotto等人的规则推理模型,构建结合规则集的分类器框架。
  • Result: 展示了如何用新框架推断新案例的判决,并举例说明时间和法院层级的作用。
  • Conclusion: 新框架更贴近法律推理的实际需求,为法律分类器提供了更全面的建模方式。

[57] Can LLMs Help Improve Analogical Reasoning For Strategic Decisions? Experimental Evidence from Humans and GPT-4

Phanish Puranam,Prothit Sen,Maciej Workiewicz

Main category: cs.AI

TL;DR: 研究探讨GPT4在战略决策中的类比推理能力,发现其高召回率但低精度,而人类则相反。

  • Motivation: 验证大型语言模型(如GPT4)在类比推理中是否具备与人类相当的能力,尤其是在战略决策背景下。
  • Method: 采用新颖的实验设计,通过源到目标的匹配任务,比较GPT4和人类的表现。
  • Result: GPT4能检索所有可能的类比(高召回率),但常因表面相似性应用错误类比(低精度);人类则选择更少但因果对齐更强的类比(高精度但低召回率)。
  • Conclusion: 当前LLMs擅长生成候选类比,但人类在识别深层结构相似性上更具优势,建议在AI辅助决策中分工合作:LLMs生成类比,人类评估应用。

[58] Combining LLMs with Logic-Based Framework to Explain MCTS

Ziyan An,Xia Wang,Hendrik Baier,Zirong Chen,Abhishek Dubey,Taylor T. Johnson,Jonathan Sprinkle,Ayan Mukhopadhyay,Meiyi Ma

Main category: cs.AI

TL;DR: 提出了一种基于计算树逻辑和大语言模型的自然语言解释框架,用于提升蒙特卡洛树搜索算法的可解释性。

  • Motivation: 解决人工智能在序列规划中缺乏信任的问题,尤其是蒙特卡洛树搜索算法因其搜索树复杂性而难以解释的挑战。
  • Method: 设计了一个灵活的框架,将用户查询转化为逻辑和变量语句,确保解释与底层环境动态和约束一致。
  • Result: 通过定量评估,框架在准确性和事实一致性方面表现优异。
  • Conclusion: 该框架有效提升了蒙特卡洛树搜索算法的可解释性,增强了用户对AI决策的信任。

[59] Position: AI Competitions Provide the Gold Standard for Empirical Rigor in GenAI Evaluation

D. Sculley,Will Cukierski,Phil Culliton,Sohier Dane,Maggie Demkin,Ryan Holbrook,Addison Howard,Paul Mooney,Walter Reade,Megan Risdal,Nate Keating

Main category: cs.AI

TL;DR: 生成式AI的实证评估面临危机,传统ML评估方法不足,AI竞赛的防泄漏措施可借鉴。

  • Motivation: 生成式AI模型的输入输出空间无界、缺乏明确真值目标且存在反馈循环,传统评估方法不适用。
  • Method: 提出将AI竞赛的防泄漏措施作为生成式AI评估的黄金标准。
  • Result: AI竞赛的防泄漏实践对生成式AI评估具有重要价值。
  • Conclusion: 应重视AI竞赛的实证严谨性,并将其应用于生成式AI评估。

[60] Open-Source LLM-Driven Federated Transformer for Predictive IoV Management

Yazan Otoum,Arghavan Asad,Ishtiaq Ahmad

Main category: cs.AI

TL;DR: 论文提出了一种名为FPoTT的框架,利用开源LLM优化车联网中的实时交通管理,通过动态提示优化和联邦学习实现高精度预测。

  • Motivation: 解决现有车联网解决方案的高延迟、低扩展性和依赖专有AI模型的问题,同时探索LLM在车联网中的潜力。
  • Method: 提出FPoTT框架,结合动态提示优化、双层联邦学习和Transformer驱动的合成数据生成器。
  • Result: FPoTT在真实数据上达到99.86%的预测准确率,并在合成数据集上表现优异。
  • Conclusion: 开源LLM为车联网提供了安全、自适应和可扩展的解决方案,是专有方案的有力替代。

cs.CR

[61] LLM-Based Threat Detection and Prevention Framework for IoT Ecosystems

Yazan Otoum,Arghavan Asad,Amiya Nayak

Main category: cs.CR

TL;DR: 本文提出了一种基于大型语言模型(LLM)的框架,用于物联网(IoT)环境中的威胁检测与预防,显著提升了检测精度和资源效率。

  • Motivation: 随着物联网规模和复杂性的增加,安全问题日益突出,需要高效且轻量级的解决方案。
  • Method: 采用轻量级LLM模型,基于IoT专用数据集(IoT-23、TON_IoT)进行微调,实现实时异常检测和自动化缓解策略,并通过Docker模块化部署。
  • Result: 实验结果表明,该框架在检测精度、响应延迟和资源效率上优于传统安全方法。
  • Conclusion: 该框架展示了LLM驱动的自主安全解决方案在未来IoT生态系统中的潜力。

[62] Analysis of the vulnerability of machine learning regression models to adversarial attacks using data from 5G wireless networks

Leonid Legashev,Artur Zhigalov,Denis Parfenov

Main category: cs.CR

TL;DR: 论文研究了使用FGSM方法进行对抗攻击对回归模型的影响,并评估了二进制分类器在检测对抗数据中的效果。

  • Motivation: 探讨对抗攻击对机器学习模型的影响,并寻找有效检测对抗数据的方法。
  • Method: 使用DeepMIMO模拟器生成数据集,通过FGSM方法进行对抗攻击,比较二进制分类器的检测效果,并分析回归模型在攻击下的性能变化。
  • Result: FGSM攻击导致MSE增加33%,R2下降10%;LightGBM分类器检测对抗数据的准确率达98%。
  • Conclusion: 回归模型易受对抗攻击影响,但快速网络流量分析可有效识别恶意活动。

cs.GR

[63] Controllable Weather Synthesis and Removal with Video Diffusion Models

Chih-Hao Lin,Zian Wang,Ruofan Liang,Yuxuan Zhang,Sanja Fidler,Shenlong Wang,Zan Gojcic

Main category: cs.GR

TL;DR: WeatherWeaver是一种视频扩散模型,能够在无需3D建模的情况下,直接在输入视频中合成多样化的天气效果(如雨、雪、雾、云),并提供对天气强度的精确控制。

  • Motivation: 现有的物理模拟方法难以扩展到实际视频中,而视频编辑方法又缺乏真实感和控制性。WeatherWeaver旨在解决这些问题。
  • Method: 通过结合合成视频、生成式图像编辑和自动标注的真实视频数据,训练视频扩散模型,实现天气效果的合成与控制。
  • Result: 实验表明,WeatherWeaver在天气模拟和去除方面优于现有方法,生成高质量、物理合理且保留场景特征的结果。
  • Conclusion: WeatherWeaver提供了一种高效、可控且真实的天气效果生成方法,适用于各种实际视频。

quant-ph

[64] Learning to Learn with Quantum Optimization via Quantum Neural Networks

Kuan-Cheng Chen,Hiromichi Matsuyama,Wei-Hao Huang

Main category: quant-ph

TL;DR: 论文提出了一种结合量子神经网络(QLSTM)与QAOA的量子元学习框架,用于优化参数,提升量子近似优化算法的性能与可扩展性。

  • Motivation: QAOA在解决组合优化问题时面临参数优化困难(如崎岖能量景观和硬件噪声),限制了其性能和可扩展性。
  • Method: 通过在小规模图实例上训练QLSTM优化器,快速泛化到更大更复杂的问题,减少收敛所需的迭代次数。
  • Result: 在Max-Cut和Sherrington-Kirkpatrick模型上的实验表明,QLSTM优化器收敛更快且获得更高的近似比。
  • Conclusion: 该方法为NISQ时代的可扩展量子优化提供了一条有效途径。

cs.CL

[65] LangVAE and LangSpace: Building and Probing for Language Model VAEs

Danilo S. Carvalho,Yingji Zhang,Harriet Unsworth,André Freitas

Main category: cs.CL

TL;DR: LangVAE是一个基于预训练大语言模型(LLMs)构建变分自编码器(VAEs)的模块化框架,能生成紧凑且语义解耦的表示。配套工具LangSpace提供多种分析方法,实验展示了其在泛化和解耦方面的潜力。

  • Motivation: 利用预训练语言模型的知识构建更高效的文本表示,并系统化分析和实验。
  • Method: 提出LangVAE框架,结合VAEs和LLMs,配套LangSpace工具进行表示分析。
  • Result: 实验验证了不同编码器-解码器组合的泛化和解耦能力,展示了框架的灵活性。
  • Conclusion: LangVAE为文本表示的系统化实验和理解提供了有前景的框架。

[66] Toward a digital twin of U.S. Congress

Hayden Helm,Tianyi Chen,Harvey McGuinness,Paige Lee,Brandon Duderstadt,Carey E. Priebe

Main category: cs.CL

TL;DR: 论文提出了一种基于语言模型的美国国会议员虚拟模型,证明其符合数字孪生的定义,并展示了如何利用生成的推文预测投票行为和党派倾向。

  • Motivation: 研究旨在通过语言模型构建国会议员的数字孪生,以辅助资源分配和预测立法动态。
  • Method: 使用每日更新的国会议员推文数据集,训练特定于议员的语言模型,生成与其真实推文难以区分的文本。
  • Result: 生成的推文可用于预测投票行为和党派倾向,对立法动态有实际影响。
  • Conclusion: 研究展示了数字孪生在政治分析中的潜力,但也指出了局限性和未来扩展方向。

[67] A Scoping Review of Natural Language Processing in Addressing Medically Inaccurate Information: Errors, Misinformation, and Hallucination

Zhaoyi Sun,Wen-Wai Yim,Ozlem Uzuner,Fei Xia,Meliha Yetisgen

Main category: cs.CL

TL;DR: 本文回顾了NLP在检测、纠正和减轻医学不准确信息(如错误、误信息和幻觉)中的潜力与挑战,强调其对患者安全和公共健康的重要性。

  • Motivation: 通过统一医学不准确信息的概念,推动患者安全、改善公共健康沟通,并支持开发更可靠的医疗NLP应用。
  • Method: 采用PRISMA指南的范围综述,分析了2020至2024年间五个数据库的研究,按主题、任务、文档类型、数据集、模型和评估指标分类。
  • Result: NLP在检测和纠正医学错误、误信息及幻觉方面表现出潜力,但仍面临数据隐私、上下文依赖和评估标准等挑战。
  • Conclusion: NLP在医疗领域的应用取得进展,但需解决数据、上下文和幻觉管理等挑战,未来应聚焦于开发真实数据集和改进方法。

[68] Jailbreak Detection in Clinical Training LLMs Using Feature-Based Predictive Models

Tri Nguyen,Lohith Srikanth Pentapalli,Magnus Sieverding,Laurah Turner,Seth Overla,Weibing Zheng,Chris Zhou,David Furniss,Danielle Weber,Michael Gharib,Matt Kelleher,Michael Shukis,Cameron Pawlik,Kelly Cohen

Main category: cs.CL

TL;DR: 研究通过语言特征检测LLM中的越狱行为,发现基于特征的模型优于提示工程,模糊决策树表现最佳。

  • Motivation: 教育等领域中LLM的伦理安全受到越狱行为的威胁,需有效检测方法。
  • Method: 标注2300多个提示,提取四个语言特征,训练多种预测模型。
  • Result: 基于特征的模型表现优于提示工程,模糊决策树效果最佳。
  • Conclusion: 语言特征模型是有效的越狱检测方法,未来可探索混合框架。

[69] The AI Co-Ethnographer: How Far Can Automation Take Qualitative Research?

Fabian Retkowski,Andreas Sudmann,Alexander Waibel

Main category: cs.CL

TL;DR: AICoE是一个端到端的定性研究管道,旨在超越简单的代码分配自动化,提供更集成的分析方法。

  • Motivation: 定性研究通常涉及劳动密集型过程,难以在保持分析深度的同时扩展。
  • Method: AICoE组织整个定性研究过程,包括开放编码、代码整合、代码应用和模式发现。
  • Result: AICoE实现了对定性数据的全面分析。
  • Conclusion: AICoE为定性研究提供了一种更高效且集成的解决方案。

[70] Performance Evaluation of Emotion Classification in Japanese Using RoBERTa and DeBERTa

Yoichi Takenaka

Main category: cs.CL

TL;DR: 该研究旨在构建一个高精度的模型,用于预测日语句子中八种Plutchik情绪的存在与否,最终DeBERTa-v3-large表现最佳。

  • Motivation: 日语文本情感检测在社交媒体监控和客户反馈分析等实际应用中需求高,但资源稀缺和类别不平衡影响了模型性能。
  • Method: 使用WRIME语料库,将读者平均强度分数转换为二进制标签,并微调四种预训练语言模型(BERT、RoBERTa、DeBERTa-v3-base、DeBERTa-v3-large),同时评估两种大语言模型(TinySwallow-1.5B-Instruct和ChatGPT-4o)。
  • Result: DeBERTa-v3-large取得最佳平均准确率(0.860)和F1分数(0.662),优于其他模型,而大语言模型表现较差。
  • Conclusion: 微调的DeBERTa-v3-large模型是目前日语二元情感分类的最可靠解决方案,未来需增强稀有情绪数据并优化大语言模型性能。

[71] Sparks of Tabular Reasoning via Text2SQL Reinforcement Learning

Josefa Lia Stoisser,Marc Boubnovski Martell,Julien Fauqueur

Main category: cs.CL

TL;DR: 论文提出了一种两阶段框架,通过SQL监督提升大语言模型在表格数据上的推理能力,显著提升了Text-to-SQL任务的性能。

  • Motivation: 传统Text-to-SQL任务仅关注查询生成,而本研究旨在通过SQL监督提升模型对表格数据的推理能力,实现更通用的表格数据处理。
  • Method: 采用两阶段框架:1) 从真实SQL查询生成详细的链式推理(CoT)跟踪,提供分步监督;2) 引入GRPO强化学习目标,将SQL执行准确性与通用推理能力关联。
  • Result: 在标准Text-to-SQL基准测试中表现提升,尤其在BIRD和CRT-QA等推理密集型数据集上显著改进,LLaMA模型准确率提升20%,Qwen提升5%。
  • Conclusion: SQL不仅可作为目标形式,还能作为学习结构化数据推理的有效支架,提升模型的泛化能力和可解释性。

[72] ReCellTy: Domain-specific knowledge graph retrieval-augmented LLMs workflow for single-cell annotation

Dezheng Han,Yibin Jia,Ruxiao Chen,Wenjie Han,Shuaishuai Guo,Jianbo Wang

Main category: cs.CL

TL;DR: 提出了一种基于图结构特征标记数据库和多任务工作流程的自动化细胞类型注释方法,显著提升了注释效果。

  • Motivation: 解决现有大型语言模型在细胞类型注释中精度不足和自动化程度低的问题。
  • Method: 使用图结构特征标记数据库检索与差异基因相关的实体,并设计多任务工作流程优化注释过程。
  • Result: 在11种组织类型中,人类评估分数提升0.21,语义相似度提高6.1%,更接近人工注释的认知逻辑。
  • Conclusion: 该方法显著提升了细胞类型注释的精度和自动化水平,优于通用大型语言模型。

[73] An Empirical Study on Prompt Compression for Large Language Models

Zheng Zhang,Jinyi Li,Yihuai Lan,Xiang Wang,Hao Wang

Main category: cs.CL

TL;DR: 研究了六种提示压缩方法,旨在减少提示长度同时保持LLM响应质量。

  • Motivation: 长提示增加了计算复杂性和经济成本,需解决这一问题。
  • Method: 分析六种提示压缩方法,评估其在生成性能、模型幻觉、多模态任务等方面的表现。
  • Result: 实验表明,提示压缩对长上下文的影响更大,适度压缩甚至能提升性能。
  • Conclusion: 提示压缩在长上下文中效果显著,代码和数据已开源。

[74] Beyond Public Access in LLM Pre-Training Data

Sruly Rosenblat,Tim O'Reilly,Ilan Strauss

Main category: cs.CL

TL;DR: 研究使用DE-COP方法分析OpenAI模型是否未经许可训练了O'Reilly Media的版权内容,发现GPT-4o对付费内容识别率高,而GPT-3.5 Turbo对公开内容更敏感,GPT-4o Mini则无显著识别。

  • Motivation: 探讨OpenAI大型语言模型是否未经许可使用了受版权保护的内容,以呼吁企业提高预训练数据来源的透明度。
  • Method: 使用DE-COP成员推理攻击方法,分析34本O'Reilly Media书籍数据,测试不同模型对版权内容的识别能力。
  • Result: GPT-4o对付费内容识别率高达82%,GPT-3.5 Turbo对公开内容更敏感,GPT-4o Mini无显著识别能力。
  • Conclusion: 研究强调企业需提高数据来源透明度,以建立正式的AI内容训练许可框架。

[75] Ustnlp16 at SemEval-2025 Task 9: Improving Model Performance through Imbalance Handling and Focal Loss

Zhuoang Cai,Zhenghao Li,Yang Liu,Liyuan Guo,Yangqiu Song

Main category: cs.CL

TL;DR: 论文提出了一种用于食品危害检测的系统,通过数据增强技术(如EDA和焦点损失)解决类别不平衡问题,显著提升了分类性能。

  • Motivation: 食品危害检测任务面临类别不平衡、文本短且非结构化、语义类别重叠等挑战,需要改进分类性能。
  • Method: 使用BERT和RoBERTa作为基础分类器,结合随机过采样、EDA和焦点损失等数据平衡策略。
  • Result: 实验表明EDA有效缓解类别不平衡,显著提高准确率和F1分数;结合焦点损失和过采样进一步增强了模型鲁棒性。
  • Conclusion: 研究为食品危害检测的NLP分类模型提供了更有效的解决方案。

[76] Aleph-Alpha-GermanWeb: Improving German-language LLM pre-training with model-based data curation and synthetic data generation

Thomas F Burns,Letitia Parcalabescu,Stephan Wäldchen,Michael Barlow,Gregor Ziegltrum,Volker Stampa,Bastian Harren,Björn Deiseroth

Main category: cs.CL

TL;DR: 论文提出了一种结合启发式和模型过滤技术的德语数据集构建流程,并生成合成数据,显著提升了大型语言模型的性能。

  • Motivation: 数据质量对大型语言模型的性能和训练效率至关重要,但现有德语数据集质量不足。
  • Method: 结合启发式和模型过滤技术,从Common Crawl、FineWeb2和合成数据构建德语数据集Aleph-Alpha-GermanWeb。
  • Result: 在德语基准测试中,Aleph-Alpha-GermanWeb表现优于FineWeb2,即使后者加入高质量人工数据。
  • Conclusion: 模型驱动的数据筛选和合成数据生成能显著提升LLM预训练数据集质量。

[77] CORG: Generating Answers from Complex, Interrelated Contexts

Hyunji Lee,Franck Dernoncourt,Trung Bui,Seunghyun Yoon

Main category: cs.CL

TL;DR: 论文提出了一种名为CORG的框架,用于处理文档中知识重复和不一致的问题,通过分组处理上下文,提高模型的效率和准确性。

  • Motivation: 现实语料库中知识重复且常有不一致,语言模型难以处理复杂的上下文关系。
  • Method: CORG框架包含图构造器、重排器和聚合器,将上下文分组处理。
  • Result: CORG在性能和效率上表现优异,优于现有分组方法,接近计算密集型单上下文方法的性能。
  • Conclusion: CORG能有效处理复杂上下文关系,平衡性能与效率。

[78] Nemotron-Research-Tool-N1: Tool-Using Language Models with Reinforced Reasoning

Shaokun Zhang,Yi Dong,Jieyu Zhang,Jan Kautz,Bryan Catanzaro,Andrew Tao,Qingyun Wu,Zhiding Yu,Guilin Liu

Main category: cs.CL

TL;DR: 论文提出了一种新方法Nemotron-Research-Tool-N1系列模型,通过轻量级监督优化工具调用,无需标注推理轨迹,实现了超越GPT-4o的性能。

  • Motivation: 现有方法在增强语言模型的工具使用能力时,要么忽略推理,要么依赖模仿推理,限制了泛化能力。
  • Method: 采用基于规则的强化学习,仅通过评估工具调用的结构有效性和功能正确性的二元奖励优化模型。
  • Result: 在BFCL和API-Bank基准测试中,Nemotron-Research-Tool-N1-7B和14B模型表现优于GPT-4o。
  • Conclusion: 轻量级监督方法能有效提升语言模型的工具使用能力,且无需复杂标注。

[79] A Method for the Architecture of a Medical Vertical Large Language Model Based on Deepseek R1

Mingda Zhang,Jianglong Qin

Main category: cs.CL

TL;DR: 本文提出了一种高效的轻量级医疗垂直大语言模型架构,通过知识获取、模型压缩和计算优化三个维度解决医疗大模型的轻量化问题。

  • Motivation: 尽管基础模型(如DeepSeek-R1和ChatGPT)在通用任务中表现出色,但在实际医疗场景中面临专业知识壁垒、计算资源需求和部署环境限制等挑战。
  • Method: 1. 知识获取:通过知识转移管道从教师模型到学生模型,并采用LoRA技术调整关键注意力层。2. 模型压缩:实现4位权重量化等技术。3. 计算优化:集成Flash Attention加速和连续批处理等技术,并构建专业提示模板系统。
  • Result: 在医疗问答数据集上,该方法在保持专业准确性的同时,内存消耗减少64.7%,推理延迟降低12.4%。
  • Conclusion: 该方法为资源受限环境(如边缘计算设备)中的医疗大模型应用提供了有效解决方案。

[80] Theory of Mind in Large Language Models: Assessment and Enhancement

Ruirui Chen,Weifeng Jiang,Chengwei Qin,Cheston Tan

Main category: cs.CL

TL;DR: 本文综述了大语言模型(LLMs)的心理理论(ToM)能力,包括评估基准和改进策略,并展望了未来研究方向。

  • Motivation: 评估和提升LLMs对人类心理状态的理解能力,以增强其社会智能。
  • Method: 分析故事型评估基准和改进ToM能力的方法。
  • Result: 总结了现有基准和方法的优缺点,并提出了未来研究方向。
  • Conclusion: 本文为提升LLMs的ToM能力提供了重要参考。

[81] Extracting Abstraction Dimensions by Identifying Syntax Pattern from Texts

Jian Zhou,Jiazheng Li,Sirui Zhuge,Hai Zhuge

Main category: cs.CL

TL;DR: 提出了一种从文本中自动发现主语、动作、宾语和状语维度的方法,以高效操作文本并支持自然语言查询。

  • Motivation: 为了高效操作文本并支持自然语言查询,需要从文本中提取主语、动作、宾语和状语等维度。
  • Method: 通过构建高质量的树结构表示文本中的主语、动作、宾语和状语及其子类关系,确保树的独立性和表达能力。
  • Result: 实验表明,构建的抽象树在精确率、召回率和F1分数上均超过80%,且能快速定位目标句子。
  • Conclusion: 该方法支持自然语言查询,并能高效操作文本,具有较高的实用性和精确性。

[82] Enhancing Speech-to-Speech Dialogue Modeling with End-to-End Retrieval-Augmented Generation

Pengchao Feng,Ziyang Ma,Wenxi Chen,Yao Li,Sheng Wang,Kai Yu,Xie Chen

Main category: cs.CL

TL;DR: 提出了一种新颖的端到端RAG框架,直接从语音查询中检索相关文本知识,避免了中间语音转文本步骤,显著提升了端到端语音对话系统的性能。

  • Motivation: 端到端语音对话系统在整合外部知识时面临模态差异的挑战,传统方法依赖中间转换步骤,效率较低。
  • Method: 提出了一种端到端RAG框架,直接从语音查询检索文本知识,无需中间转换。
  • Result: 实验表明,该方法显著提升了系统性能,且检索效率更高。
  • Conclusion: 尽管性能仍落后于级联模型,但该框架为端到端系统的知识整合提供了新方向。

[83] Keep the General, Inject the Specific: Structured Dialogue Fine-Tuning for Knowledge Injection without Catastrophic Forgetting

Yijie Hong,Xiaofei Yin,Xinzhong Wang,Yi Tu,Ya Guo,Sufeng Duan,Weiqiang Wang,Lingyong Fang,Depeng Wang,Huijia Zhu

Main category: cs.CL

TL;DR: 论文提出了一种名为SDFT的方法,通过三阶段对话结构有效注入领域知识,同时减少灾难性遗忘。

  • Motivation: 大型视觉语言模型在广泛多模态预训练中表现出色,但在融入训练分布之外的领域知识时存在局限性,容易导致基础能力的遗忘。
  • Method: SDFT采用三阶段对话结构:基础保留、对比消歧和知识专业化,分别通过标题任务、反事实示例和链式推理实现。
  • Result: 实验证明SDFT在多个领域有效平衡了知识获取与能力保留。
  • Conclusion: SDFT通过数据中心的对话模板和多轮监督框架,成功解决了领域知识融入与基础能力保留的平衡问题。

[84] Learning to Plan Before Answering: Self-Teaching LLMs to Learn Abstract Plans for Problem Solving

Jin Zhang,Flood Sung,Zhilin Yang,Yang Gao,Chongjie Zhang

Main category: cs.CL

TL;DR: 论文提出了一种名为LEPA的自训练算法,通过让大语言模型(LLM)在解决问题前生成抽象的计划,提升其泛化能力。

  • Motivation: 现有方法仅生成逐步解决方案,缺乏对抽象元知识的捕捉,而人类在解决问题时通常会先进行高层次抽象。
  • Method: LEPA算法训练LLM生成预测性计划作为元知识,并通过自反思优化计划,同时训练模型预测计划和解决方案。
  • Result: LEPA在多个自然语言推理基准测试中显著优于传统算法。
  • Conclusion: LEPA通过提取和利用预测性计划,有效提升了LLM的推理能力和泛化性能。

[85] MDD-LLM: Towards Accuracy Large Language Models for Major Depressive Disorder Diagnosis

Yuyang Sha,Hongxin Pan,Wei Xu,Weiyu Meng,Gang Luo,Xinyu Du,Xiaobing Zhai,Henry H. Y. Tong,Caijuan Shi,Kefeng Li

Main category: cs.CL

TL;DR: 本文提出了一种名为MDD-LLM的高性能抑郁症诊断工具,基于AI驱动的框架,利用微调的大型语言模型(LLMs)和真实世界样本,显著提升了诊断准确性。

  • Motivation: 抑郁症(MDD)影响全球超过3亿人,但医疗资源分布不均和诊断方法复杂导致许多国家和地区对其关注不足。
  • Method: 从UK Biobank队列中选择274,348条个体记录,设计表格数据转换方法,训练和评估微调的LLMs框架MDD-LLM。
  • Result: 实验结果显示,MDD-LLM(70B)的准确率为0.8378,AUC为0.8919,显著优于现有机器学习和深度学习框架。
  • Conclusion: MDD-LLM在抑郁症诊断中表现出色,为LLMs在该领域的应用提供了新思路。

[86] Improving Phishing Email Detection Performance of Small Large Language Models

Zijie Lin,Zikang Liu,Hanbo Fan

Main category: cs.CL

TL;DR: 研究探讨了小型参数LLMs在钓鱼邮件检测中的有效性,并通过Prompt Engineering等方法显著提升了性能。

  • Motivation: 大型LLMs计算资源消耗大,小型LLMs性能不足,需改进其在钓鱼邮件检测中的表现。
  • Method: 采用Prompt Engineering、Explanation Augmented Fine-tuning和Model Ensemble方法优化小型LLMs。
  • Result: 在SpamAssassin数据集上,准确率从0.5提升至0.976。
  • Conclusion: 小型LLMs通过优化方法可在钓鱼邮件检测中达到高性能,降低计算成本。

[87] Linguistic Complexity and Socio-cultural Patterns in Hip-Hop Lyrics

Aayam Bansal,Raghav Agarwal,Kaashvi Jain

Main category: cs.CL

TL;DR: 该论文通过自然语言处理技术分析了1980-2020年间3,814首嘻哈歌曲的歌词复杂性及社会文化趋势,发现词汇多样性、押韵密度和主题内容有显著变化,揭示了嘻哈音乐与社会动态的关联。

  • Motivation: 研究嘻哈歌词的语言复杂性及其反映的社会文化趋势,以量化方式探索嘻哈音乐作为艺术形式和社会动态的演变。
  • Method: 使用自然语言处理技术分析3,814首歌曲的歌词,量化词汇多样性、押韵密度、主题内容和情感极性,并进行多维分析。
  • Result: 词汇多样性增加23.7%,押韵密度增加34.2%,主题内容从社会正义转向内省,情感在政治危机时更负面,地理和时间因素与风格显著相关。
  • Conclusion: 研究提供了嘻哈音乐语言创新与文化背景互动的定量证据,展示了其作为艺术形式和社会反映的演变。

Aayam Bansal,Agneya Tharun

Main category: cs.CL

TL;DR: 通过计算分析Twitter数据,研究时尚趋势与社交媒体情感的关系,发现情感模式可作为新兴时尚趋势的预测指标。

  • Motivation: 探索社交媒体情感分析在预测时尚趋势中的潜力,为时尚行业提供早期趋势预测工具。
  • Method: 使用T4SA数据集,结合自然语言处理和机器学习技术,进行情感分类、时间序列分解、因果关系建模等分析。
  • Result: 发现情感模式与时尚主题流行度相关,配饰和街头风格主题显著上升;Granger因果分析显示可持续性和街头风格是主要趋势驱动因素。
  • Conclusion: 社交媒体情感分析可作为时尚趋势的有效早期指标,改进后的预测模型在情感分类中达到78.35%的平衡准确率。

[89] Fact-Consistency Evaluation of Text-to-SQL Generation for Business Intelligence Using Exaone 3.5

Jeho Choi

Main category: cs.CL

TL;DR: 该研究提出了一个事实一致性评估框架,用于评估LLM生成的SQL输出的语义准确性,并构建了一个领域特定的基准测试。实验结果显示,Exaone 3.5在简单任务上表现良好,但在复杂任务中表现不佳,强调了在商业环境中需要事实一致性验证层和混合推理方法。

  • Motivation: 大型语言模型(LLMs)在自然语言接口用于结构化数据查询方面表现出潜力,但在实际商业智能(BI)应用中仍受限于语义幻觉、结构错误和缺乏领域特定的评估框架。
  • Method: 研究提出了一个事实一致性评估框架,使用Exaone 3.5(一种针对企业任务优化的双语LLM),并构建了一个包含219个自然语言商业问题的领域特定基准测试。
  • Result: Exaone 3.5在简单聚合任务中表现良好(L1准确率为93%),但在算术推理(H1准确率为4%)和分组排名任务(H4准确率为31%)中表现显著下降。
  • Conclusion: 研究强调了LLM在商业关键环境中的局限性,并提出了需要事实一致性验证层和混合推理方法的建议,同时贡献了一个可复现的基准测试和评估方法。

[90] Fine-Tuning LLMs for Low-Resource Dialect Translation: The Case of Lebanese

Silvana Yakhni,Ali Chehab

Main category: cs.CL

TL;DR: 研究探讨了大型语言模型(LLMs)在翻译低资源黎巴嫩方言中的效果,发现文化真实性数据比大规模翻译数据集更有效。对比三种微调方法,文化感知的小数据集表现最佳。

  • Motivation: 挑战“数据越多越好”的范式,强调文化真实性在方言翻译中的重要性。
  • Method: 比较了三种微调方法(基础、对比、语法提示),使用开源Aya23模型,并引入LebEval基准。
  • Result: 文化感知的小数据集(LW)表现优于大规模非本地数据,对比微调结合对比提示效果最佳。
  • Conclusion: 文化真实性对低资源方言翻译至关重要,研究数据与代码已开源。

[91] Between Underthinking and Overthinking: An Empirical Study of Reasoning Length and correctness in LLMs

Jinyan Su,Jennifer Healey,Preslav Nakov,Claire Cardie

Main category: cs.CL

TL;DR: 研究发现,大型语言模型(LLMs)在推理长度与答案正确性之间存在矛盾:简单问题过度推理,复杂问题推理不足。通过偏好优化算法减少生成长度,可在保持准确性的同时显著缩短输出。

  • Motivation: 探讨LLMs在推理长度与答案正确性之间的关系,揭示模型可能错误判断问题难度并无法调整响应长度的问题。
  • Method: 通过系统实证研究分析推理长度与答案正确性的关系,并利用偏好优化算法减少生成长度。
  • Result: LLMs在简单问题上过度推理,复杂问题上推理不足;通过偏好优化算法可显著减少生成长度且保持准确性。
  • Conclusion: 生成长度是推理行为的重要信号,需进一步探索LLMs在推理长度调整中的自我意识。

[92] GDI-Bench: A Benchmark for General Document Intelligence with Vision and Reasoning Decoupling

Siqi Li,Yufan Shen,Xiangnan Chen,Jiayi Chen,Hengwei Ju,Haodong Duan,Song Mao,Hongbin Zhou,Bo Zhang,Pinlong Cai,Licheng Wen,Botian Shi,Yong Liu,Xinyu Cai,Yu Qiao

Main category: cs.CL

TL;DR: GDI-Bench是一个全面的文档智能基准测试,包含1.9k图像和19个任务,用于评估多模态大语言模型(MLLMs)的能力,并识别其弱点。

  • Motivation: 现有基准测试无法系统性地识别模型弱点或指导改进,因此需要一个新的综合基准。
  • Method: 通过解耦视觉复杂性和推理复杂性,GDI-Bench设计了分级任务,并提出了GDI模型以解决监督微调中的灾难性遗忘问题。
  • Result: GDI模型在GDI-Bench和现有基准上表现优异,GPT-4o在推理任务中表现突出但视觉能力有限。
  • Conclusion: GDI-Bench和GDI模型为文档智能领域提供了有效的评估工具和改进方法,并将开源。

[93] Consistency in Language Models: Current Landscape, Challenges, and Future Directions

Jekaterina Novikova,Carol Anderson,Borhane Blili-Hamelin,Subhabrata Majumdar

Main category: cs.CL

TL;DR: 论文探讨了AI语言系统在一致性(包括逻辑规则和道德事实连贯性)方面的研究现状,指出当前方法的不足,并呼吁建立更健壮的评测标准和跨学科方法。

  • Motivation: 人类语言使用具有一致性,但现有语言模型难以在不同场景中保持一致性,亟需研究解决这一问题。
  • Method: 分析了当前一致性研究的现状,包括形式和非正式一致性的测量方法,并识别了研究中的关键空白。
  • Result: 发现现有方法在定义标准化、多语言评估和一致性改进方面存在不足。
  • Conclusion: 需要建立更健壮的评测标准和跨学科方法,以确保语言模型在特定领域任务中的一致性,同时保持其实用性和适应性。

[94] Enhancing AI-Driven Education: Integrating Cognitive Frameworks, Linguistic Feedback Analysis, and Ethical Considerations for Improved Content Generation

Antoun Yaacoub,Sansiri Tarnpradab,Phattara Khumprom,Zainab Assaghir,Lionel Prevost,Jérôme Da-Rugna

Main category: cs.CL

TL;DR: 本文提出一个综合框架,通过整合认知评估、语言分析和伦理设计原则,提升AI教育工具的质量和责任感。

  • Motivation: AI在教育中的应用潜力巨大,但需关注生成内容的质量、认知深度和伦理问题。
  • Method: 结合Bloom's Taxonomy、SOLO Taxonomy、语言分析和伦理原则,提出三阶段方法(认知对齐、语言反馈整合、伦理保障)。
  • Result: 框架应用于OneClickQuiz插件,展示了其可行性和实用性。
  • Conclusion: 为教育者、研究者和开发者提供了兼顾AI潜力与教育伦理的实用指南。

[95] KoACD: The First Korean Adolescent Dataset for Cognitive Distortion Analysis

JunSeo Kim,HyeHyeon Kim

Main category: cs.CL

TL;DR: 该研究提出了首个针对韩国青少年认知扭曲的大规模数据集KoACD,并采用多LLM协商方法优化分类和生成合成数据。

  • Motivation: 现有研究主要基于小规模成人数据集,缺乏针对青少年认知扭曲的大规模研究。
  • Method: 使用多LLM协商方法进行认知扭曲分类,并通过认知澄清和认知平衡生成合成数据。
  • Result: LLMs在显性标记分类中表现良好,但在上下文推理方面不如人类评估者准确。
  • Conclusion: KoACD数据集有望推动认知扭曲检测的进一步研究。

[96] Red Teaming Large Language Models for Healthcare

Vahid Balazadeh,Michael Cooper,David Pellow,Atousa Assadi,Jennifer Bell,Jim Fackler,Gabriel Funingana,Spencer Gable-Cook,Anirudh Gangadhar,Abhishek Jaiswal,Sumanth Kaja,Christopher Khoury,Randy Lin,Kaden McKeen,Sara Naimimohasses,Khashayar Namdar,Aviraj Newatia,Allan Pang,Anshul Pattoo,Sameer Peesapati,Diana Prepelita,Bogdana Rakova,Saba Sadatamin,Rafael Schulman,Ajay Shah,Syed Azhar Shah,Syed Ahmar Shah,Babak Taati,Balagopal Unnikrishnan,Stephanie Williams,Rahul G Krishnan

Main category: cs.CL

TL;DR: 本文介绍了2024年机器学习与医疗健康会议上关于大型语言模型(LLM)在医疗领域中的漏洞测试工作坊的设计与发现。

  • Motivation: 通过临床专家与计算专家的合作,识别LLM在医疗场景中可能导致的临床危害,弥补开发者缺乏临床经验的不足。
  • Method: 组织工作坊,参与者通过模拟临床提示测试LLM的漏洞,并进行分类和复现研究。
  • Result: 发现了LLM在医疗领域的潜在危害性漏洞,并验证了这些漏洞在不同LLM中的普遍性。
  • Conclusion: 临床专家的参与对识别LLM漏洞至关重要,未来需进一步优化模型以减少医疗风险。

[97] HalluMix: A Task-Agnostic, Multi-Domain Benchmark for Real-World Hallucination Detection

Deanna Emery,Michael Goitia,Freddie Vargus,Iulia Neagu

Main category: cs.CL

TL;DR: 论文介绍了HalluMix Benchmark,用于检测大语言模型生成的幻觉内容,评估了七种检测系统,发现性能差异显著,尤其在长短上下文场景中。

  • Motivation: 随着大语言模型在高风险领域的应用增加,检测幻觉内容(无证据支持的文本)成为关键挑战,现有基准测试存在局限性。
  • Method: 提出HalluMix Benchmark,一个多样化、任务无关的数据集,涵盖多领域和多格式内容,并评估七种检测系统。
  • Result: 发现检测系统在长短上下文场景中性能差异显著,Quotient Detections表现最佳(准确率0.82,F1分数0.84)。
  • Conclusion: HalluMix Benchmark为幻觉内容检测提供了更全面的评估工具,揭示了现有系统的局限性,对RAG应用有重要启示。

[98] Triggering Hallucinations in LLMs: A Quantitative Study of Prompt-Induced Hallucination in Large Language Models

Makoto Sato

Main category: cs.CL

TL;DR: 论文提出了一种基于提示的框架(HIP和HQP)来系统触发和量化大语言模型(LLM)的幻觉现象,揭示了不同模型在幻觉生成上的差异。

  • Motivation: LLM在实际应用中(如医疗和法律)的幻觉问题日益突出,尽管已有对齐和指令调优的进展,但其生成内容仍可能流畅但不真实。
  • Method: 设计了Hallucination-Inducing Prompt(HIP)和Hallucination Quantifying Prompt(HQP),分别用于触发幻觉和量化输出的合理性、置信度和连贯性。
  • Result: 实验表明,HIP能持续生成比对照组更不连贯、更多幻觉的响应,且不同模型表现各异。
  • Conclusion: 该框架为研究LLM的幻觉脆弱性提供了可复现的测试平台,有助于开发更安全、自省的模型。

[99] FreqKV: Frequency Domain Key-Value Compression for Efficient Context Window Extension

Jushi Kai,Boyi Zeng,Yixuan Wang,Haoli Bai,Bo Jiang,Zhouhan Lin

Main category: cs.CL

TL;DR: 论文提出了一种名为FreqKV的新方法,通过频域压缩KV缓存来高效扩展大型语言模型的上下文窗口。

  • Motivation: 扩展大型语言模型的上下文窗口对生成长文本至关重要,但现有方法在扩展时存在性能下降和计算资源消耗大的问题。
  • Method: 利用KV缓存在频域中能量集中在低频分量的特性,提出FreqKV方法,通过过滤高频分量压缩KV缓存,适用于微调和推理。
  • Result: 实验表明,FreqKV在多种长上下文任务中高效且有效,无需额外参数或架构修改。
  • Conclusion: FreqKV通过频域压缩显著提升了上下文窗口扩展的效率,为长文本处理提供了实用解决方案。

[100] FineScope : Precision Pruning for Domain-Specialized Large Language Models Using SAE-Guided Self-Data Cultivation

Chaitali Bhattacharyya,Yeseong Kim

Main category: cs.CL

TL;DR: FineScope是一个从大型预训练模型中提取紧凑、领域优化LLM的框架,结合稀疏自编码器和结构化剪枝,通过自数据蒸馏提升性能。

  • Motivation: 训练大型语言模型需要大量计算资源,而现有中型模型在领域特定任务上表现不佳,因此需要开发更高效的领域优化模型。
  • Method: FineScope利用稀疏自编码器提取领域特定子集,结合结构化剪枝和自数据蒸馏,恢复剪枝过程中丢失的关键信息。
  • Result: FineScope在领域特定任务上表现优异,甚至超过一些大型LLM,且剪枝模型通过SAE数据集微调能恢复大部分性能。
  • Conclusion: FineScope提供了一种高效且鲁棒的领域优化LLM方法,其代码将开源。

[101] The Illusion of Role Separation: Hidden Shortcuts in LLM Role Learning (and How to Fix Them)

Zihao Wang,Yibo Jiang,Jiahao Yu,Heqing Huang

Main category: cs.CL

TL;DR: 论文探讨了如何通过调整输入编码中的标记信号,使大型语言模型更可靠地区分不同角色的输入,而非依赖表面代理。

  • Motivation: 确保模型准确区分不同角色的输入(角色分离)对多角色行为的一致性至关重要,但现有方法可能只是记忆已知触发器而非真正区分角色。
  • Method: 通过简单的实验框架,发现模型依赖任务类型和文本开头的代理,提出通过调整位置ID等不变信号来强化角色边界。
  • Result: 调整输入编码中的标记信号(如位置ID)能帮助模型更清晰地区分角色,减少对表面代理的依赖。
  • Conclusion: 通过机制中心的视角,论文展示了如何使模型更可靠地维持多角色行为,而非仅记忆已知提示或触发器。

[102] Large Language Models Understanding: an Inherent Ambiguity Barrier

Daniel N. Nissani

Main category: cs.CL

TL;DR: 本文通过思想实验和半正式分析,提出LLMs存在固有歧义障碍,无法真正理解对话意义。

  • Motivation: 探讨LLMs是否具备理解对话意义的能力,回应相关争论。
  • Method: 采用思想实验和半正式分析。
  • Result: 发现LLMs存在固有歧义障碍,无法真正理解对话。
  • Conclusion: LLMs的流畅对话不代表其具备理解能力。

[103] On the generalization of language models from in-context learning and finetuning: a controlled study

Andrew K. Lampinen,Arslan Chaudhry,Stephanie C. Y. Chan,Cody Wild,Diane Wan,Alex Ku,Jörg Bornschein,Razvan Pascanu,Murray Shanahan,James L. McClelland

Main category: cs.CL

TL;DR: 论文探讨了大型语言模型在微调和上下文学习中的泛化能力差异,提出了一种结合上下文推理的微调方法以提升泛化性能。

  • Motivation: 研究大型语言模型在微调和上下文学习中的泛化能力差异,以解决模型在微调后泛化能力不足的问题。
  • Method: 构建多个新数据集,通过控制信息子集(上下文或微调)评估模型在不同泛化任务中的表现,并提出结合上下文推理的微调方法。
  • Result: 上下文学习在某些情况下比微调更具灵活性,而提出的新方法能显著提升模型在多种数据集上的泛化性能。
  • Conclusion: 研究揭示了不同学习模式的归纳偏差,并提出了一种实用方法以改进语言模型的泛化能力。

[104] DeepCritic: Deliberate Critique with Large Language Models

Wenkai Yang,Jingwen Chen,Yankai Lin,Ji-Rong Wen

Main category: cs.CL

TL;DR: 论文提出了一种两阶段框架,通过监督微调和强化学习提升LLMs的数学批判能力,显著优于现有模型。

  • Motivation: 随着LLMs快速发展,提供准确反馈和可扩展监督成为紧迫问题,利用LLMs作为批判模型实现自动化监督是可行方案。
  • Method: 采用两阶段框架:1) 使用Qwen2.5-72B-Instruct生成4.5K长形式批判数据用于监督微调;2) 通过强化学习进一步优化模型。
  • Result: 开发的Qwen2.5-7B-Instruct批判模型在错误识别基准上显著优于现有模型(如DeepSeek-R1-distill和GPT-4o),并提供更详细反馈。
  • Conclusion: 该框架有效提升了LLMs的数学批判能力,为生成模型提供更精准的反馈。

cs.NE

[105] Neuroevolution of Self-Attention Over Proto-Objects

Rafael C. Pinto,Anderson R. Tavares

Main category: cs.NE

TL;DR: 论文提出了一种基于原型对象(proto-objects)的注意力机制,替代传统的基于矩形图像块的注意力机制,显著降低了表示复杂性和计算成本。

  • Motivation: 传统基于矩形图像块的注意力机制在视觉强化学习任务中表现优异,但其表示复杂性和计算成本较高。本文希望通过利用图像分割技术处理更高层次的特征,提升效率。
  • Method: 通过图像分割提取原型对象,将其编码为紧凑特征向量,构建更小的自注意力模块,处理更丰富的语义信息。
  • Result: 实验表明,基于原型对象的方法在性能上匹配或超越基于图像块的方法,同时减少了62%的参数和2.6倍的训练时间。
  • Conclusion: 原型对象是一种更高效的注意力机制替代方案,能够显著降低计算成本并保持或提升性能。

eess.AS

[106] Perceptual Implications of Automatic Anonymization in Pathological Speech

Soroosh Tayebi Arasteh,Saba Afza,Tri-Thien Nguyen,Lukas Buess,Maryam Parvin,Tomas Arias-Vergara,Paula Andrea Perez-Toro,Hiu Ching Hung,Mahshad Lotfinia,Thomas Gorges,Elmar Noeth,Maria Schuster,Seung Hee Yang,Andreas Maier

Main category: eess.AS

TL;DR: 该研究首次全面分析了病理语音匿名化对人类感知的影响,发现匿名化虽能保护隐私,但显著降低语音质量,且效果因疾病类型而异。

  • Motivation: 研究动机是探索病理语音匿名化技术的感知后果,以促进伦理数据共享。
  • Method: 采用结构化感知协议,由10名母语和非母语德语听者对180名不同病理类型(如唇腭裂、构音障碍等)的匿名化-原始语音对进行图灵式辨别和质量评分。
  • Result: 匿名化后辨别准确率高(91%-93%),但语音质量显著下降(83%降至59%),且效果因疾病类型不同。母语与非母语听者评分差异在匿名化后几乎消失。
  • Conclusion: 研究强调需开发兼顾隐私保护和语音质量的匿名化策略,尤其是针对儿童等弱势群体。

cs.SD

[107] Voice Cloning: Comprehensive Survey

Hussam Azzuni,Abdulmotaleb El Saddik

Main category: cs.SD

TL;DR: 本文旨在为语音克隆建立标准化术语,探讨其变体,包括说话人适应、少样本/零样本及多语言TTS,并总结常用评估指标和数据集,以促进研究并限制滥用。

  • Motivation: 语音克隆技术快速发展,但缺乏标准化术语和全面研究,本文旨在填补这一空白并推动研究。
  • Method: 通过综述现有语音克隆算法,分类讨论说话人适应、少样本/零样本及多语言TTS,并总结评估指标和数据集。
  • Result: 提供了语音克隆的标准化术语和分类,总结了相关算法、评估指标及数据集。
  • Conclusion: 本文为语音克隆研究提供了系统化框架,旨在促进技术发展并防止滥用。

astro-ph.IM

[108] Convolutional Autoencoders for Data Compression and Anomaly Detection in Small Satellite Technologies

Dishanand Jayeprokash,Julia Gonski

Main category: astro-ph.IM

TL;DR: 论文探讨了在小卫星上应用卷积自编码器,实现数据压缩和异常检测,以提升灾害监测效率。

  • Motivation: 小卫星技术的进步降低了成本,使得更频繁的发射成为可能。机器学习在小卫星数据采集系统中的应用可以提升性能,例如图像处理和特征提取。
  • Method: 采用卷积自编码器,设计用于小卫星载荷,实现数据压缩和异常检测功能。
  • Result: 通过非洲大陆的航空图像数据集验证了该方法的有效性,展示了其在灾害监测中的应用潜力。
  • Conclusion: 该研究为小卫星应用中的机器学习方法提供了新思路,同时推动了非洲地区空间技术与人工智能的结合。

stat.AP

[109] On the Mechanistic Interpretability of Neural Networks for Causality in Bio-statistics

Jean-Baptiste A. Conan

Main category: stat.AP

TL;DR: 论文探讨了如何利用机制可解释性(MI)技术解析神经网络(NNs)在生物统计因果推断中的应用,以提升模型的可信度和验证能力。

  • Motivation: 神经网络在生物统计中虽强大,但其‘黑盒’特性限制了在高风险健康应用中的可信度,因此需要可解释性工具来验证和提升透明度。
  • Method: 应用MI技术分析NNs的内部计算,包括验证其学习到的表示、可视化输入处理路径,以及比较不同模型的机制。
  • Result: MI工具能有效验证NNs的内部表示、揭示输入处理路径,并提供跨模型比较方法,增强因果生物统计分析的深度理解。
  • Conclusion: MI技术为NNs在生物统计因果推断中的应用提供了可解释性支持,有助于模型验证和透明度提升。

eess.IV

[110] SR-NeRV: Improving Embedding Efficiency of Neural Video Representation via Super-Resolution

Taiga Hayami,Kakeru Koizumi,Hiroshi Watanabe

Main category: eess.IV

TL;DR: 提出了一种结合超分辨率网络的INR视频表示方法,显著提升了高频细节重建质量。

  • Motivation: 传统INR方法在严格模型大小限制下难以重建高频细节,而高频细节在视频压缩中至关重要。
  • Method: 集成通用超分辨率网络,利用高频成分的低时间冗余特性,将细节重建任务委托给SR网络。
  • Result: 实验表明,该方法在重建质量上优于传统INR基线,同时保持相似的模型大小。
  • Conclusion: 该方法为INR视频压缩提供了更高效的高频细节重建解决方案。

[111] Rootlets-based registration to the spinal cord PAM50 template

Sandrine Bédard,Jan Valošek,Valeria Oliva,Kenneth A. Weber II,Julien Cohen-Adad

Main category: eess.IV

TL;DR: 提出了一种基于脊髓神经根的新型配准方法,显著提高了脊髓功能MRI研究的配准精度和可重复性。

  • Motivation: 传统基于椎间盘的配准方法因个体间解剖变异大而效果有限,需改进以提高配准准确性。
  • Method: 开发了一种基于颈椎背根的分割和非线性配准方法,并与PAM50脊髓模板对齐。
  • Result: 在多中心和不同颈部位置的验证中,根基配准优于传统方法,提高了任务fMRI的激活检测能力。
  • Conclusion: 根基配准提升了脊髓神经影像的组分析精度和可靠性,具有广泛应用潜力。

[112] Efficient and robust 3D blind harmonization for large domain gaps

Hwihun Jeong,Hayeon Lee,Se Young Chun,Jongho Lee

Main category: eess.IV

TL;DR: BlindHarmonyDiff是一种新型盲3D图像协调框架,通过边缘到图像模型解决现有方法的局限性,如3D切片间异质性和大域差距问题。

  • Motivation: 现有盲协调方法在3D图像中存在切片间异质性、图像质量中等及大域差距性能有限的问题,需要改进。
  • Method: 采用3D校正流在目标域图像上训练,从边缘图重建原图,再通过源域图像的边缘生成协调图像,结合多步长补丁训练和抑制幻觉的细化模块。
  • Result: 实验表明BlindHarmonyDiff优于现有方法,能更好地将源域图像协调至目标域,下游任务(如组织分割和年龄预测)验证了其有效性。
  • Conclusion: BlindHarmonyDiff在盲协调中表现出鲁棒性和泛化能力,适用于多样化的MR扫描仪。

[113] Towards Lightweight Hyperspectral Image Super-Resolution with Depthwise Separable Dilated Convolutional Network

Usman Muhammad,Jorma Laaksonen,Lyudmila Mihaylova

Main category: eess.IV

TL;DR: 论文提出了一种轻量级的深度可分离扩张卷积网络(DSDCN),用于解决高光谱图像超分辨率问题,结合了多种损失函数以保留光谱和空间细节。

  • Motivation: 高光谱超分辨率问题由于数据的高光谱维度和训练样本稀缺而难以解决,现有方法依赖大模型或额外图像融合,实用性不足。
  • Method: 采用类似MobileNet的深度可分离卷积,结合扩张卷积融合块提取空间和光谱特征,并设计了一种结合MSE、L2正则化和光谱角损失的损失函数。
  • Result: 在两个公开高光谱数据集上表现优异,适合高光谱图像超分辨率任务。
  • Conclusion: DSDCN是一种轻量且高效的高光谱超分辨率解决方案,代码已开源。

[114] CORSTITCH - A free, open source software for stitching and georeferencing underwater coral reef videos

Julian Christopher L. Maya,Johnenn R. Manalang,Maricor N. Soriano

Main category: eess.IV

TL;DR: CorStitch是一款开源软件,用于从视频样带自动生成精确的地理参考珊瑚礁拼接图,验证表明其性能稳定可靠。

  • Motivation: 开发CorStitch的目的是为了自动化处理珊瑚礁评估系统的视频样带,生成地理参考拼接图,便于详细的空间分析。
  • Method: 采用基于傅里叶的图像相关算法拼接连续视频帧,并与同步的GNSS时间戳对齐,生成兼容地理信息系统的压缩Keyhole Markup Language文件。
  • Result: 通过两次时间不同的同一珊瑚礁调查拼接图的对比分析,验证了软件的稳定性和可靠性。
  • Conclusion: CorStitch能够高效生成精确的地理参考珊瑚礁拼接图,适用于珊瑚礁监测和研究。

[115] A Methodological and Structural Review of Parkinsons Disease Detection Across Diverse Data Modalities

Abu Saleh Musa Miah,taro Suzuki,Jungpil Shin

Main category: eess.IV

TL;DR: 本文综述了帕金森病(PD)识别系统的多模态方法,填补了现有研究的空白,旨在为研究人员提供全面的资源。

  • Motivation: 早期准确诊断PD对改善患者预后至关重要,但现有研究多局限于单一数据模态,未能充分利用多模态方法的潜力。
  • Method: 基于347篇文献,综述了MRI、步态分析、手写分析、语音测试、EEG等多模态数据及融合技术。
  • Result: 分析了数据收集方法、特征表示和系统性能,重点关注识别准确性和鲁棒性。
  • Conclusion: 本研究通过多模态数据和前沿机器学习范式,推动了PD诊断技术的发展,为患者护理提供了创新方法。

[116] Deep Learning Assisted Outer Volume Removal for Highly-Accelerated Real-Time Dynamic MRI

Merve Gülle,Sebastian Weingärtner,Mehmet Akçakaya

Main category: eess.IV

TL;DR: 提出一种新型外体积去除(OVR)方法,通过深度学习模型消除实时动态MRI中的伪影,提高图像质量。

  • Motivation: 实时动态MRI在捕捉快速生理过程中至关重要,但高加速率下容易产生伪影,影响图像质量。
  • Method: 使用复合时间图像估计外体积信号,通过深度学习模型去除伪影,并结合物理驱动的DL方法进行重建。
  • Result: 在高加速率下,图像质量与临床基线图像相当,优于传统重建技术。
  • Conclusion: 该方法无需修改采集过程,即可有效减少伪影,为实时动态MRI提供更高加速率的解决方案。

[117] GuideSR: Rethinking Guidance for One-Step High-Fidelity Diffusion-Based Super-Resolution

Aditya Arora,Zhengzhong Tu,Yufei Wang,Ruizheng Bai,Jian Wang,Sizhuo Ma

Main category: eess.IV

TL;DR: GuideSR是一种新型单步扩散超分辨率模型,通过双分支架构提升图像保真度,优于现有方法。

  • Motivation: 现有扩散超分辨率方法通过预训练生成模型进行图像修复,但会牺牲结构保真度。GuideSR旨在解决这一问题。
  • Method: 采用双分支架构:引导分支保留高保真结构,扩散分支增强感知质量。结合全分辨率块和图像引导网络。
  • Result: 在基准数据集上表现优异,PSNR提升达1.39dB,计算成本低,优于现有方法。
  • Conclusion: GuideSR在图像修复任务中实现了高效且高质量的成果,具有实际应用价值。

cs.LG

[118] Recursive KL Divergence Optimization: A Dynamic Framework for Representation Learning

Anthony D Martin

Main category: cs.LG

TL;DR: 论文提出了一种递归KL散度优化(RKDO)方法,通过动态调整局部条件分布的KL散度来改进表示学习效率。

  • Motivation: 现有方法(如I-Con)通过固定邻域条件分布的KL散度统一学习范式,但忽略了学习过程中的递归结构。
  • Method: 引入RKDO,将表示学习建模为KL散度在数据邻域上的动态演化过程。
  • Result: 实验显示,RKDO在三个数据集上损失值降低约30%,计算资源节省60%-80%。
  • Conclusion: RKDO的递归更新机制为表示学习提供了更高效的优化路径,特别适合资源受限场景。

[119] GPRat: Gaussian Process Regression with Asynchronous Tasks

Maksim Helmann,Alexander Strack,Dirk Pflüger

Main category: cs.LG

TL;DR: 论文提出了一种将基于任务的C++代码(基于HPX异步运行时模型)通过pybind11绑定到Python API的新方法,开发了并行高斯过程库GPRat,展示了其在性能和扩展性上的优势。

  • Motivation: 当前AI开发中,Python常用库(如PyTorch、TensorFlow)依赖BLAS后端的并行化,但仅低层并行化可能导致性能和扩展性下降。
  • Method: 使用pybind11将异步HPX C++代码绑定到Python API,开发并行高斯过程库GPRat。
  • Result: GPRat在64核AMD EPYC 7742 CPU上表现优于GPyTorch和GPflow,训练和预测速度显著提升,特征数量增加时仍保持高效。
  • Conclusion: 异步任务在Python AI应用中有巨大潜力,GPRat展示了高性能和扩展性。

[120] GEOM-Drugs Revisited: Toward More Chemically Accurate Benchmarks for 3D Molecule Generation

Filipp Nikitin,Ian Dunn,David Ryan Koes,Olexandr Isayev

Main category: cs.LG

TL;DR: 论文提出了一种修正的评估框架,解决了GEOM-Drugs数据集在3D分子生成模型评估中的关键缺陷,并提供了更新的性能指标和实用建议。

  • Motivation: 当前3D分子生成模型的评估协议存在严重缺陷,如错误的价态定义、键序计算错误以及依赖与参考数据不一致的力场,影响了评估的准确性。
  • Method: 作者重新审视了GEOM-Drugs数据集,修正了数据预处理问题,构建了化学上准确的价态表,并引入了基于GFN2-xTB的几何和能量基准。
  • Result: 在修正的框架下重新训练和评估了多个领先模型,提供了更新的性能指标,并强调了化学严谨评估的重要性。
  • Conclusion: 论文强调了在3D分子生成中采用化学严谨评估实践的必要性,并提供了改进的评估方法和数据处理脚本。

[121] Attention-enabled Explainable AI for Bladder Cancer Recurrence Prediction

Saram Abbas,Naeem Soomro,Rishad Shafik,Rakesh Heer,Kabita Adhikari

Main category: cs.LG

TL;DR: 提出了一种可解释的深度学习框架,通过向量嵌入和注意力机制改进非肌层浸润性膀胱癌(NMIBC)的复发预测性能,准确率达70%,优于传统方法。

  • Motivation: NMIBC复发率高(70-80%),现有预测工具不准确且缺乏个性化,导致患者管理困难。
  • Method: 结合向量嵌入(如吸烟状态、膀胱内治疗)和注意力机制,捕捉患者属性与复发风险的复杂关系。
  • Result: 模型准确率70%,识别出新影响因素(如手术时长、住院时间),并提供患者级解释。
  • Conclusion: 该框架不仅提升预测性能,还为临床医生提供个性化见解,填补现有模型的不足。

[122] T2VPhysBench: A First-Principles Benchmark for Physical Consistency in Text-to-Video Generation

Xuyang Guo,Jiayan Huo,Zhenmei Shi,Zhao Song,Jiahao Zhang,Jiale Zhao

Main category: cs.LG

TL;DR: T2VPhysBench是一个新基准,用于评估文本到视频生成模型是否遵守物理定律,结果显示当前模型普遍表现不佳。

  • Motivation: 尽管文本到视频生成模型在质量和指令跟随上进步显著,但其对基本物理定律的遵守能力尚未被系统测试,导致生成内容可能违反物理规则。
  • Method: 通过T2VPhysBench基准,结合人类评估和第一性原理物理,系统测试了12项核心物理定律的遵守情况,包括牛顿力学和能量守恒等。
  • Result: 所有模型在各项物理定律上的平均得分低于0.60,详细提示也无法改善违反物理规则的现象,且模型在指令下会生成明显违反物理规则的视频。
  • Conclusion: 当前模型在物理规则遵守上存在显著不足,未来研究需改进架构以实现真正的物理感知视频生成。

[123] Empirical Evaluation of Progressive Coding for Sparse Autoencoders

Hans Peter,Anders Søgaard

Main category: cs.LG

TL;DR: 稀疏自编码器(SAEs)通过字典学习从神经网络中提取可解释特征,但计算成本高。研究发现字典重要性遵循幂律,并比较了渐进编码与嵌套SAEs(Matryoshka SAEs)的性能。Matryoshka SAEs重建损失更低,但剪枝后的SAEs更具可解释性。

  • Motivation: 研究稀疏自编码器(SAEs)的计算效率问题,探索如何通过渐进编码或嵌套SAEs提高性能,同时保持可解释性。
  • Method: 比较了基于子集剪枝的渐进编码与嵌套SAEs(Matryoshka SAEs)在语言建模任务中的表现。
  • Result: Matryoshka SAEs在重建损失和语言建模损失上表现更好,但剪枝后的SAEs更具可解释性。
  • Conclusion: 研究揭示了性能与可解释性之间的权衡,为未来优化SAEs提供了方向。

[124] Online Federation For Mixtures of Proprietary Agents with Black-Box Encoders

Xuwei Yang,Fatemeh Tavakoli,David B. Emerson,Anastasis Kratsios

Main category: cs.LG

TL;DR: 论文提出了一种针对黑盒生成AI的联邦学习算法,通过博弈论视角解决多AI协同问题,显著提升了预测准确性。

  • Motivation: 由于行业标准的生成AI和特征编码器多为黑盒,用户无法优化其内部参数,限制了混合专家模型的发展。论文旨在解决这一问题。
  • Method: 采用非竞争博弈论框架,提出一种去中心化的联邦学习算法,各AI在本地优化参数而不共享内部结构。
  • Result: 算法在真实和合成时间序列基准测试中实现了预测精度的数量级提升。
  • Conclusion: 论文提出的方法为黑盒AI协同问题提供了有效解决方案,填补了该领域的研究空白。

[125] Predicting Estimated Times of Restoration for Electrical Outages Using Longitudinal Tabular Transformers

Bogireddy Sai Prasanna Teja,Valliappan Muthukaruppan,Carls Benjamin

Main category: cs.LG

TL;DR: 论文提出了一种基于历史数据的纵向表格Transformer模型(LTT),用于提高自然灾害期间的电力恢复时间预测准确性,显著提升了客户满意度指标。

  • Motivation: 随着气候变化的加剧,电力公司需要更精确的电力恢复时间预测(ETR),但现有方法依赖人工或传统统计模型,精度不足。
  • Method: 提出LTT模型,利用历史停电事件数据和顺序更新,结合客户满意度指标和可解释性技术。
  • Result: 在34,000次风暴相关停电事件中,LTT模型将客户满意度指标(CSI)平均提升19.08%(p > 0.001)。
  • Conclusion: LTT模型不仅提高了预测准确性,还增强了透明度,提升了客户对模型的信任。

[126] Scaling On-Device GPU Inference for Large Generative Models

Jiuqiang Tang,Raman Sarokin,Ekaterina Ignasheva,Grant Jensen,Lin Chen,Juhyun Lee,Andrei Kulik,Matthias Grundmann

Main category: cs.LG

TL;DR: ML Drift是一个优化的框架,扩展了GPU加速推理引擎的能力,支持在设备上运行参数规模更大的生成式AI模型。

  • Motivation: 隐私和效率需求推动了设备端推理的发展,而GPU是最广泛的设备端ML加速器。
  • Method: ML Drift解决了跨GPU API开发的工程挑战,并确保在移动和桌面/笔记本平台上的广泛兼容性。
  • Result: ML Drift实现了比现有开源GPU推理引擎高一个数量级的性能提升。
  • Conclusion: ML Drift为资源受限设备部署更复杂模型提供了可行方案。

[127] MINERVA: Evaluating Complex Video Reasoning

Arsha Nagrani,Sachit Menon,Ahmet Iscen,Shyamal Buch,Ramin Mehran,Nilpa Jha,Anja Hauth,Yukun Zhu,Carl Vondrick,Mikhail Sirotenko,Cordelia Schmid,Tobias Weyand

Main category: cs.LG

TL;DR: 论文提出了一个新的视频推理数据集MINERVA,用于评估多模态模型在视频理解中的真实推理能力,而非仅依赖结果监督。

  • Motivation: 现有视频基准测试仅提供结果监督,缺乏中间或可解释的推理步骤,难以评估模型是否真正结合了感知和时间信息进行推理。
  • Method: 创建了MINERVA数据集,包含多样化的视频领域和长度,以及复杂的多步问题,每个问题附带5个答案选项和详细的手工推理痕迹。
  • Result: 数据集对前沿开源和专有模型构成挑战,错误分析显示主要失败模式与时间定位和视觉感知相关。
  • Conclusion: MINERVA数据集为评估多模态模型的视频推理能力提供了新工具,并公开了数据集和推理痕迹。

[128] Multi-Hierarchical Fine-Grained Feature Mapping Driven by Feature Contribution for Molecular Odor Prediction

Hong Xin Xie,Jian De Sun,Fan Fu Xue,Zi Fei Han,Shan Shan Feng,Qi Chen

Main category: cs.LG

TL;DR: 论文提出了一种基于特征贡献的分层多特征映射网络(HMFNet),用于分子气味预测,解决了现有方法特征表达不足和类别不平衡的问题。

  • Motivation: 现有分子气味预测方法依赖简单描述符或手工特征,表达力不足且受类别不平衡影响,限制了AI模型的训练效果。
  • Method: 提出HMFNet,包含局部多层级特征提取模块(LMFE)、谐波调制特征映射(HMFM)和全局多层级特征提取模块(GMFE),并设计了化学信息损失(CIL)缓解类别不平衡。
  • Result: 实验表明,该方法显著提升了多种深度学习模型的性能。
  • Conclusion: HMFNet在分子结构表示和AI驱动技术发展方面具有潜力。

[129] Surrogate modeling of Cellular-Potts Agent-Based Models as a segmentation task using the U-Net neural network architecture

Tien Comlekoglu,J. Quetzalcóatl Toledo-Marín,Tina Comlekoglu,Douglas W. DeSimone,Shayn M. Peirce,Geoffrey Fox,James A. Glazier

Main category: cs.LG

TL;DR: 利用U-Net架构的卷积神经网络(CNN)替代模型加速了Cellular-Potts模型(CPM)的模拟,速度提升590倍,并成功捕捉了血管生成的复杂行为。

  • Motivation: CPM模拟计算成本高,限制了其在复杂生物系统研究中的应用。
  • Method: 开发基于U-Net的CNN替代模型,支持周期性边界条件,用于预测CPM的100步计算。
  • Result: 替代模型速度提升590倍,有效捕捉了血管生成的关键行为。
  • Conclusion: 深度学习可作为高效替代模型,加速CPM模拟,扩展其应用范围。

[130] Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics

Cong Xu,Wenbin Liang,Mo Yu,Anan Liu,Ke-Yue Zhang,Lizhuang Ma,Jianyong Wang,Jun Wang,Wei Zhang

Main category: cs.LG

TL;DR: 提出了一种新型优化器SOLO,通过超低精度量化(低至2-3位)显著减少状态存储开销,解决了无符号量化中的信号淹没问题和有符号量化中的梯度方差问题。

  • Motivation: 模型规模爆炸导致训练/微调成本剧增,尤其是状态优化器的辅助信息存储需求高(通常为模型大小的2倍)。SOLO旨在通过极轻量级的状态存储解决这一问题。
  • Method: 采用超低精度量化(2-3位),针对无符号量化中的信号淹没问题提出对数量化,针对有符号量化中的梯度方差问题设计精度特定的动量值。
  • Result: SOLO在训练7B模型时节省约45GB内存,且精度损失极小。
  • Conclusion: SOLO通过高效量化解决了资源瓶颈问题,有望推动基础研究的普及。

[131] Optimizing Deep Neural Networks using Safety-Guided Self Compression

Mohammad Zbeeb,Mariam Salman,Mohammad Bazzi,Ammar Mohanna

Main category: cs.LG

TL;DR: 本文提出了一种基于安全驱动的量化框架,通过保留集系统性地剪枝和量化神经网络权重,在减少模型大小的同时保持性能。实验表明,该方法在CNN和注意力语言模型上均有效,测试精度提升2.5%,模型大小减少40%。

  • Motivation: 在资源受限设备上部署深度神经网络需要高效的模型压缩策略,同时兼顾模型大小减少和性能保持。
  • Method: 提出安全驱动的量化框架,利用保留集剪枝和量化权重,优化模型复杂度。
  • Result: 在CNN和注意力语言模型上测试,精度提升2.5%,模型大小减少40%,优于传统量化方法。
  • Conclusion: 安全驱动量化是一种高效可靠的深度模型优化策略,适用于多种架构。

[132] R&B: Domain Regrouping and Data Mixture Balancing for Efficient Foundation Model Training

Albert Ge,Tzu-Heng Huang,John Cooper,Avi Trost,Ziyi Chu,Satya Sai Srinath Namburi GNVV,Ziyang Cai,Kendall Park,Nicholas Roberts,Frederic Sala

Main category: cs.LG

TL;DR: R&B框架通过语义相似性重新分组数据并优化数据组合,解决了传统数据混合方法的两个缺陷,性能优于现有方法且计算开销极低。

  • Motivation: 传统数据混合方法依赖预定义的数据域,可能忽略语义细节且计算成本高,R&B旨在解决这些问题。
  • Method: R&B通过语义相似性重新分组数据(Regroup),并利用域梯度诱导的Gram矩阵高效优化数据组合(Balance)。
  • Result: R&B在五个多样化数据集上表现优异,仅需0.01%额外计算开销即可匹配或超越现有方法。
  • Conclusion: R&B是一种高效且性能优越的数据混合策略,适用于多种任务。

[133] TNStream: Applying Tightest Neighbors to Micro-Clusters to Define Multi-Density Clusters in Streaming Data

Qifen Zeng,Haomin Bao,Yuanzhuo Hu,Zirui Zhang,Yuheng Zheng,Luosheng Wen

Main category: cs.LG

TL;DR: 论文提出了一种基于Tightest Neighbors和Skeleton Set理论的数据流聚类算法TNStream,能够自适应处理多密度、高维数据,并通过实验验证了其有效性。

  • Motivation: 现有密度聚类算法难以同时处理多密度、高维数据且抗噪能力不足,导致聚类质量下降。
  • Method: 提出基于Tightest Neighbors和Skeleton Set理论的TNStream算法,利用局部相似性自适应确定聚类半径,并结合LSH优化高维数据处理。
  • Result: 实验表明TNStream在多密度数据上显著提升了聚类质量,验证了其理论的有效性。
  • Conclusion: TNStream为数据流聚类提供了一种高效且适应性强的解决方案,尤其适用于复杂密度变化的数据。

[134] SacFL: Self-Adaptive Federated Continual Learning for Resource-Constrained End Devices

Zhengyi Zhong,Weidong Bao,Ji Wang,Jianguo Chen,Lingjuan Lyu,Wei Yang Bryan Lim

Main category: cs.LG

TL;DR: 论文提出了一种名为SacFL的新型联邦持续学习框架,通过分离任务鲁棒和任务敏感组件减少存储需求,并利用对比学习实现自主任务检测,适用于资源受限的终端设备。

  • Motivation: 终端设备上的机器学习模型面临数据动态变化的挑战,传统持续学习方法因隐私和数据量问题不适用,联邦持续学习(FCL)成为解决方案。
  • Method: SacFL采用Encoder-Decoder架构分离任务组件,结合对比学习实现自主任务检测,支持设备自主触发持续学习或防御策略。
  • Result: 在Cifar100和THUCNews等数据集上的实验验证了SacFL在类和域增量场景中的有效性,并开发了演示系统。
  • Conclusion: SacFL为资源受限设备提供了一种高效、自主的联邦持续学习解决方案,具有实际应用潜力。

[135] Learning to Estimate Package Delivery Time in Mixed Imbalanced Delivery and Pickup Logistics Services

Jinhui Yi,Huan Yan,Haotian Wang,Jian Yuan,Yong Li

Main category: cs.LG

TL;DR: 论文提出了一种基于Transformer的多任务包裹送达时间预测模型TransPDT,解决了混合物流场景中取件和派件行为对快递员决策的不同影响问题。

  • Motivation: 准确估计包裹送达时间对物流行业至关重要,尤其是在混合物流场景中,快递员同时处理大量派件和少量取件时,取件对快递员决策的影响更大,但现有研究未充分区分这种差异。
  • Method: 使用Transformer编码器架构捕捉快递员历史路线和待处理包裹的时空依赖关系,设计模式记忆模块通过注意力机制学习不平衡数据集中的取件模式,并将路线预测作为送达时间预测的辅助任务。
  • Result: 在真实工业规模数据集上的实验证明了方法的优越性,TransPDT系统已在京东物流内部部署,每天跟踪北京2000多名快递员处理数十万包裹。
  • Conclusion: TransPDT通过多任务学习和时空依赖建模,有效提升了混合物流场景中的包裹送达时间预测准确性。

[136] DeepSTA: A Spatial-Temporal Attention Network for Logistics Delivery Timely Rate Prediction in Anomaly Conditions

Jinhui Yi,Huan Yan,Haotian Wang,Jian Yuan,Yong Li

Main category: cs.LG

TL;DR: 论文提出了一种名为DeepSTA的深度时空注意力模型,用于预测快递员的准时送达率,特别是在异常情况下(如疫情)表现优异。

  • Motivation: 物流行业需要提前预测快递员的准时送达率以采取预防措施,尤其是在异常情况下(如疫情),现有研究对此关注不足且未能明确建模异常事件。
  • Method: 设计了异常时空学习模块(使用RNN建模事件信息)、Node2vec建模区域关联、图神经网络和LSTM捕捉时空依赖,并提出异常模式注意力模块(使用记忆网络存储异常特征)。
  • Result: 在2022年COVID-19疫情的真实物流数据集上,模型在MAE和MSE上分别优于最佳基线12.11%和13.71%。
  • Conclusion: DeepSTA在异常情况下表现优异,解决了信息丢失和数据不足的问题,为物流行业提供了有效的预测工具。

[137] Per-Domain Generalizing Policies: On Validation Instances and Scaling Behavior

Timo P. Gros,Nicola J. Müller,Daniel Fiser,Isabel Valera,Verena Wolf,Jörg Hoffmann

Main category: cs.LG

TL;DR: 论文提出了一种动态生成验证集的方法,以提升策略在更大规模实例上的泛化能力,并通过系统化生成测试实例来评估扩展行为。

  • Motivation: 现有方法使用固定验证集,限制了策略在更大规模实例上的泛化能力。动态生成验证集可以更好地适应不同规模的实例。
  • Method: 动态生成验证集,逐步增加实例规模,同时引入系统化生成测试实例的方法以确保覆盖性能。
  • Result: 在9个领域中,动态验证均提升了GNN策略的扩展行为。
  • Conclusion: 动态验证集方法有效提升了策略的泛化能力,尤其是在大规模实例上的表现。

[138] Variational OOD State Correction for Offline Reinforcement Learning

Ke Jiang,Wen Jiang,Xiaoyang Tan

Main category: cs.LG

TL;DR: 提出了一种名为DASP的新方法,通过密度感知安全感知解决离线强化学习中的状态分布偏移问题。

  • Motivation: 离线强化学习的性能受状态分布偏移问题影响,OOD状态校正是解决该问题的流行方法。
  • Method: DASP方法鼓励智能体优先选择导致高数据密度结果的动作,通过变分框架优化目标,同时考虑决策结果及其密度。
  • Result: 在离线MuJoCo和AntMaze套件上进行了广泛实验,验证了方法的有效性和可行性。
  • Conclusion: DASP方法通过密度感知安全感知有效解决了状态分布偏移问题,提升了离线强化学习的性能。

[139] Test-time Correlation Alignment

Linjing You,Jiabao Lu,Xiayuan Huang

Main category: cs.LG

TL;DR: 论文提出了一种无需源数据的测试时相关对齐方法(TCA),通过理论分析和简单算法(LinearTCA和LinearTCA+)显著提升了模型在测试数据上的性能。

  • Motivation: 解决测试时适应(TTA)中的三个主要挑战:忽略相关对齐、计算复杂和领域遗忘。
  • Method: 提出理论分析支持的高确定性实例与测试实例的相关对齐,并设计两种算法:LinearTCA(线性变换实现对齐)和LinearTCA+(插件模块增强现有方法)。
  • Result: TCA方法在多个任务和数据集上显著优于基线,如OfficeHome数据集上准确率提升5.88%,且计算资源消耗极低。
  • Conclusion: TCA方法简单高效,为测试时适应提供了新的解决方案,具有理论和实践的双重优势。

[140] Fast and Low-Cost Genomic Foundation Models via Outlier Removal

Haozheng Luo,Chenghao Qiu,Maojiang Su,Zhihan Zhou,Zoe Mehta,Guo Ye,Jerry Yao-Chieh Hu,Han Liu

Main category: cs.LG

TL;DR: GERM是首个针对基因组基础模型(GFMs)的统一对抗攻击基准,提供了全面的评估框架,分析了模型架构、量化方案和训练数据对脆弱性的影响。

  • Motivation: 现有GFM基准缺乏对抗攻击的系统评估,GERM填补了这一空白,旨在全面评估GFMs的对抗鲁棒性。
  • Method: 使用四种攻击算法和三种防御策略评估五种先进GFMs的对抗鲁棒性,分析模型架构、量化方案和训练数据的影响。
  • Result: 基于Transformer的模型比HyenaDNA更具鲁棒性;对抗攻击常针对生物意义显著的基因组区域。
  • Conclusion: GERM为GFMs的对抗鲁棒性提供了首个统一评估框架,揭示了模型设计和生物特征的重要性。

[141] OmicsCL: Unsupervised Contrastive Learning for Cancer Subtype Discovery and Survival Stratification

Atahan Karagoz

Main category: cs.LG

TL;DR: OmicsCL是一种模块化对比学习框架,用于无监督学习多组学数据的疾病亚型,通过生存感知对比损失学习与生存相关的表征。

  • Motivation: 推动个性化医疗,通过无监督学习从多组学数据中发现疾病亚型。
  • Method: OmicsCL框架联合嵌入多组学模态(如基因表达、DNA甲基化、miRNA表达)到统一潜在空间,并引入生存感知对比损失。
  • Result: 在TCGA BRCA数据集中发现临床相关聚类,无监督一致性高,且框架对超参数配置鲁棒。
  • Conclusion: 对比学习目标在高维异质组学数据中具有发现生物学见解的潜力。

[142] Wasserstein Policy Optimization

David Pfau,Ian Davies,Diana Borsa,Joao G. M. Araujo,Brendan Tracey,Hado van Hasselt

Main category: cs.LG

TL;DR: WPO是一种用于连续动作空间的强化学习算法,结合了确定性策略梯度和经典策略梯度的优点。

  • Motivation: 解决连续动作空间中强化学习的问题,结合确定性策略梯度和经典策略梯度的优势。
  • Method: 基于Wasserstein梯度流的近似推导,提出了一种简单且通用的闭式更新方法。
  • Result: 在DeepMind Control Suite和磁约束聚变任务中表现优于现有连续控制方法。
  • Conclusion: WPO是一种高效且通用的连续动作空间强化学习算法。

cs.CY

[143] Evaluating the AI-Lab Intervention: Impact on Student Perception and Use of Generative AI in Early Undergraduate Computer Science Courses

Ethan Dickey,Andres Bejarano,Rhianna Kuperus,Bárbara Fagundes

Main category: cs.CY

TL;DR: 研究发现,结构化干预(如AI-Lab)能帮助学生更有效地使用生成式AI(GenAI),提升其学习意识和技能发展,而不会削弱核心能力。

  • Motivation: 探索生成式AI在教育中的影响,尤其是如何通过结构化干预避免学生对工具的过度依赖,并促进其技能发展。
  • Method: 在普渡大学的四门课程中引入AI-Lab模块,收集831份匹配的问卷调查和焦点小组讨论数据,采用混合方法分析。
  • Result: 学生对GenAI的使用频率稳定,但在调试和作业问题上的舒适度和开放性显著提升,使用方式更谨慎和反思。
  • Conclusion: 结构化干预能帮助学生更负责任地使用GenAI,为教育者提供了实践建议,并指出了未来研究方向。

cs.HC

[144] Data Therapist: Eliciting Domain Knowledge from Subject Matter Experts Using Large Language Models

Sungbok Shin,Hyeon Jeon,Sanghyun Hong,Niklas Elmqvist

Main category: cs.HC

TL;DR: 论文介绍了一个名为“Data Therapist”的基于网络的工具,帮助领域专家通过问答和交互式注释外化隐式知识,以改进数据可视化设计。

  • Motivation: 数据可视化需要理解领域特定背景中的隐式知识,但这些知识通常未明确体现在数据集中。
  • Method: 开发了一个结合大型语言模型的工具,通过迭代问答和交互式注释帮助用户外化知识。
  • Result: 在多个领域的专家研究中,工具揭示了专家如何推理数据,并展示了AI支持如何改进可视化设计。
  • Conclusion: Data Therapist能有效帮助领域专家外化隐式知识,为数据可视化设计提供支持。

cs.RO

[145] CoordField: Coordination Field for Agentic UAV Task Allocation In Low-altitude Urban Scenarios

Tengchao Zhang,Yonglin Tian,Fei Lin,Jun Huang,Rui Qin,Fei-Yue Wang

Main category: cs.RO

TL;DR: 本文提出了一种基于协调场和大型语言模型的异构无人机群协调系统,用于复杂城市环境中的任务执行,实验证明其性能优越。

  • Motivation: 随着异构无人机群在复杂城市任务中需求的增加,现有方法在语义理解、任务规划和动态协调方面存在不足。
  • Method: 结合大型语言模型(LLMs)解析高层指令,并通过协调场机制实现分散式任务分配和动态调整。
  • Result: 在2D模拟空间中进行了50轮测试,系统在任务覆盖率、响应时间和动态适应性方面表现优异。
  • Conclusion: 该系统为异构无人机群在复杂环境中的协调提供了高效解决方案。

[146] AI-Enhanced Automatic Design of Efficient Underwater Gliders

Peter Yichen Chen,Pingchuan Ma,Niklas Hagemann,John Romanishin,Wei Wang,Daniela Rus,Wojciech Matusik

Main category: cs.RO

TL;DR: 提出了一种AI增强的自动化计算框架,用于设计高效的水下滑翔机,通过优化形状和控制信号,结合几何表示和流体代理模型,显著提升了能量效率。

  • Motivation: 传统水下滑翔机设计依赖手动试错,形状多样性受限,且建模复杂流体交互计算成本高。
  • Method: 采用端到端设计流程,结合降阶几何表示和可微分神经网络流体代理模型,优化形状和控制信号。
  • Result: 通过风洞和泳池测试验证,计算设计的滑翔机在能量效率上优于手动设计。
  • Conclusion: 该框架为高效水下滑翔机开发提供了新途径,对海洋探索和环境监测具有重要意义。

[147] Robotic Visual Instruction

Yanbang Li,Ziyang Gong,Haoyang Li,Haoyang Li,Xiaoqi Huang,Haolan Kang,Guangping Bai,Xianzheng Ma

Main category: cs.RO

TL;DR: 提出了一种名为RoVI的视觉指令范式,通过手绘符号表示指导机器人任务,结合VIEW流程实现高效的空间-时间信息编码与执行。

  • Motivation: 自然语言在人机交互中存在空间精度不足的问题,导致模糊性和冗长性,RoVI旨在通过视觉符号解决这些限制。
  • Method: RoVI通过2D草图(箭头、圆圈、颜色、数字)编码空间-时间信息,VIEW流程利用VLMs解析RoVI输入并生成3D动作序列。
  • Result: 在11项新任务中验证,VIEW在真实场景中达到87.5%的成功率,支持多步动作、干扰和轨迹跟踪。
  • Conclusion: RoVI和VIEW为机器人任务提供了一种高效且可泛化的视觉指令解决方案,代码和数据集将公开。

[148] LightEMMA: Lightweight End-to-End Multimodal Model for Autonomous Driving

Zhijie Qiao,Haowei Li,Zhong Cao,Henry X. Liu

Main category: cs.RO

TL;DR: LightEMMA是一个轻量级端到端多模态自动驾驶模型,用于评估Vision-Language Models(VLMs)在自动驾驶任务中的表现。研究发现,尽管VLMs在场景理解方面表现优异,但其实际驾驶性能仍需改进。

  • Motivation: 探索VLMs在自动驾驶中的潜力,解决其在安全可靠车辆控制中的局限性。
  • Method: 提出LightEMMA框架,集成多种VLMs构建12个自动驾驶代理,并在nuScenes预测任务中评估其性能。
  • Result: VLMs在场景理解方面表现良好,但在实际驾驶任务中的性能仍有不足,需进一步优化。
  • Conclusion: LightEMMA为VLM在自动驾驶中的应用提供了统一评估平台,强调了VLMs在实际驾驶任务中仍需改进。

[149] AI2-Active Safety: AI-enabled Interaction-aware Active Safety Analysis with Vehicle Dynamics

Keshu Wu,Zihao Li,Sixu Li,Xinyue Ye,Dominique Lord,Yang Zhou

Main category: cs.RO

TL;DR: 本文提出了一种基于AI的交互感知主动安全分析框架,通过结合车辆动力学模型和超图AI模型,预测交通轨迹并生成高保真安全指标(如TTC),在复杂交通环境中提升安全性。

  • Motivation: 传统安全分析方法未能充分考虑到车辆间的群体交互和复杂交通环境中的不确定性,因此需要一种更精确的框架来提升安全感知能力。
  • Method: 框架结合了自行车模型(考虑道路坡度)和超图AI模型,通过随机微分方程计算车辆间距,并利用高阶数值方法和AI推理生成高保真TTC分布。
  • Result: 与传统方法相比,该框架生成的HF-TTC分布能更准确地反映复杂多车辆行为和不确定性,显著提升了安全分析的精度。
  • Conclusion: 该框架为复杂交通环境中的主动安全分析提供了系统化方法,具有提升安全感知能力的潜力。

[150] MULE: Multi-terrain and Unknown Load Adaptation for Effective Quadrupedal Locomotion

Vamshi Kumar Kurva,Shishir Kolathaya

Main category: cs.RO

TL;DR: 提出了一种自适应强化学习框架,使四足机器人能动态适应不同负载和地形,优于传统MPC方法。

  • Motivation: 传统MPC方法依赖预定义步态或轨迹生成器,限制了在非结构化环境中的适应性。
  • Method: 结合基线运动策略和自适应策略,通过强化学习动态调整负载变化下的动作。
  • Result: 在仿真和真实硬件测试中,控制器在多种地形和负载变化下表现优于传统方法。
  • Conclusion: 自适应控制器提高了鲁棒性和适应性,无需手动调整步态设计。

[151] Optimal Interactive Learning on the Job via Facility Location Planning

Shivam Vats,Michelle Zhao,Patrick Callaghan,Mingxi Jia,Maxim Likhachev,Oliver Kroemer,George Konidaris

Main category: cs.RO

TL;DR: COIL是一种多任务交互规划器,通过选择三种查询类型(技能、偏好和帮助)最小化人类在多任务协作中的努力。

  • Motivation: 协作机器人需要持续适应新任务和用户偏好,同时不增加用户负担。现有方法多限于单任务场景,不适合长期多任务协作。
  • Method: COIL将问题建模为无容量限制设施选址问题(UFL),并扩展到处理用户偏好不确定性,使用一步信念空间规划。
  • Result: 模拟和物理实验表明,COIL显著减少了人类的工作量,同时保持任务成功完成。
  • Conclusion: COIL为多任务协作提供了一种高效且可扩展的交互学习框架。

[152] Safety-Critical Traffic Simulation with Guided Latent Diffusion Model

Mingxing Peng,Ruoyu Yao,Xusen Guo,Yuting Xie,Xianda Chen,Jun Ma

Main category: cs.RO

TL;DR: 提出了一种基于引导潜在扩散模型(LDM)的方法,用于生成物理真实且对抗性的安全关键交通场景,解决了现有方法生成效率低和物理合理性不足的问题。

  • Motivation: 现有方法在生成安全关键交通场景时,常因物理合理性不足和效率低下而生成不真实场景,影响了自动驾驶系统的评估效果。
  • Method: 采用图变分自编码器(VAE)学习紧凑的潜在空间,结合扩散模型进行去噪生成真实轨迹,并引入引导目标实现可控和对抗性场景生成。
  • Result: 在nuScenes数据集上的实验表明,该方法在对抗效果和生成效率上优于现有基线,同时保持了高真实性。
  • Conclusion: 该方法为安全关键场景仿真提供了有效工具,有助于更稳健地评估自动驾驶系统。

[153] TeLoGraF: Temporal Logic Planning via Graph-encoded Flow Matching

Yue Meng,Chuchu Fan

Main category: cs.RO

TL;DR: 提出了一种名为TeLoGraF的方法,利用图神经网络和流匹配技术解决通用STL规范问题,并在多个仿真环境中验证其优越性。

  • Motivation: 现有方法仅能处理固定或参数化的STL规范,缺乏多样化的STL数据集和有效的编码器,限制了复杂任务的解决能力。
  • Method: 使用图神经网络(GNN)编码器和流匹配技术,学习通用STL规范的解决方案,并收集了20万条规范与演示配对的数据集。
  • Result: 在五个仿真环境中,TeLoGraF在STL满足率上优于其他基线方法,推理速度快10-100倍,且适用于任意系统动态。
  • Conclusion: TeLoGraF不仅能解决复杂STL问题,还对分布外STL规范具有鲁棒性,代码已开源。

[154] A Finite-State Controller Based Offline Solver for Deterministic POMDPs

Alex Schutz,Yang You,Matias Mattamala,Ipek Caliskanelli,Bruno Lacerda,Nick Hawes

Main category: cs.RO

TL;DR: DetMCVI是一种基于蒙特卡洛值迭代(MCVI)的算法,用于解决确定性部分可观测马尔可夫决策过程(DetPOMDPs),并在实际机器人森林地图绘制场景中验证了其性能。

  • Motivation: DetPOMDPs在规划问题中常见,但现有方法难以高效解决。
  • Method: 提出DetMCVI算法,通过构建有限状态控制器(FSCs)来制定策略。
  • Result: DetMCVI在大规模问题中表现优异,成功率高,优于现有基线方法。
  • Conclusion: DetMCVI是解决DetPOMDPs的有效方法,并在实际应用中验证了其性能。

[155] Neural Network Verification for Gliding Drone Control: A Case Study

Colin Kessler,Ekaterina Komendantskaya,Marco Casadio,Ignazio Maria Viola,Thomas Flinkow,Albaraa Ammar Othman,Alistair Malhotra,Robbie McPherson

Main category: cs.RO

TL;DR: 本文提出了一种验证受Alsomitra启发的微型滑翔无人机神经控制器的案例研究,旨在改进目标轨迹跟踪。通过结合工具和方法,展示了验证此类系统的潜力,但也指出了现有工具的局限性。

  • Motivation: 随着机器学习在自主系统中的广泛应用,验证神经网络控制器成为研究热点。本文的动机是探索微型滑翔无人机的神经控制器验证,以提升其轨迹跟踪性能。
  • Method: 提出了一种新的回归网络鲁棒训练方法,并在Vehicle和CORA工具中形式化验证了这一案例。
  • Result: 验证结果表明,所研究的训练方法提升了神经控制器的性能和鲁棒性,但由于工具和系统复杂性的限制,其适用范围有限。
  • Conclusion: 尽管存在局限性,但克服这些限制将有助于开发更安全、鲁棒的技术,从而改善生活并减少环境影响。

上次更新于: