Skip to content
每日arXiv - 2025年4月30日

以下论文的arXiv类型标签包含:cs.CV、cs.AI

cs.CV

[1] Can Geometry Save Central Views for Sports Field Registration?

Floriane Magera,Thomas Hoyoux,Martin Castin,Olivier Barnich,Anthony Cioppa,Marc Van Droogenbroeck

Main category: cs.CV

TL;DR: 提出了一种利用圆形标记进行运动场注册的新方法,解决了现有方法在特写镜头中难以利用圆形标记的问题。

  • Motivation: 运动场注册通常依赖稀疏且分布不均的线标记,而特写镜头中圆形标记更常见,现有方法难以利用圆形标记。
  • Method: 提出了一种从圆形对应关系中推导点和线的方法,将圆形标记纳入线性方程组。
  • Result: 实验表明,该方法能有效补充现有高性能检测器,在困难场景中实现运动场注册。
  • Conclusion: 该方法成功利用圆形标记,扩展了运动场注册的应用范围。

[2] Marmot: Multi-Agent Reasoning for Multi-Object Self-Correcting in Improving Image-Text Alignment

Jiayang Sun,Hongbo Wang,Jie Cao,Huaibo Huang,Ran He

Main category: cs.CV

TL;DR: Marmot框架通过多智能体推理解决扩散模型在复杂多物体场景中的计数、属性和空间关系问题,提升图像生成质量。

  • Motivation: 扩散模型在复杂多物体场景中难以准确处理计数、属性和空间关系,需要一种通用框架来增强图像-文本对齐。
  • Method: 采用分治策略,将自校正任务分解为计数、属性和空间关系三个维度,并进一步细化为对象级子任务。构建多智能体编辑系统,结合决策-执行-验证机制和像素域拼接平滑器。
  • Result: 实验表明,Marmot显著提升了图像生成任务中对象计数、属性分配和空间关系的准确性。
  • Conclusion: Marmot通过多智能体推理和优化技术,有效解决了扩散模型在复杂场景中的局限性,提升了图像编辑的连贯性和效率。

[3] Edge-Based Learning for Improved Classification Under Adversarial Noise

Manish Kansana,Keyan Alexander Rahimi,Elias Hossain,Iman Dehzangi,Noorbakhsh Amiri Golilarz

Main category: cs.CV

TL;DR: 研究探讨了对抗性噪声对图像分类的影响,发现基于边缘特征的训练能提升模型对抗攻击的鲁棒性。

  • Motivation: 对抗性噪声会误导深度学习模型,研究旨在探索通过特定图像特征(如边缘)提升模型鲁棒性。
  • Method: 使用FGSM生成对抗噪声,分别在原始图像和边缘图像上训练模型,并测试其对抗攻击的鲁棒性。
  • Result: 边缘特征模型对对抗攻击更具鲁棒性,但原始数据重新训练后的准确率提升略高于边缘数据。
  • Conclusion: 基于边缘的学习可提升模型对抗扰动的鲁棒性,但需结合原始数据训练以优化性能。

[4] VideoMultiAgents: A Multi-Agent Framework for Video Question Answering

Noriyuki Kugo,Xiang Li,Zixin Li,Ashish Gupta,Arpandeep Khatua,Nidhish Jain,Chaitanya Patel,Yuta Kyuragi,Masamoto Tanabiki,Kazuki Kozuka,Ehsan Adeli

Main category: cs.CV

TL;DR: VideoMultiAgents框架通过多模态推理提升视频问答性能,结合视觉、场景图和文本处理代理,显著优于现有方法。

  • Motivation: 现有视频问答方法依赖单一模型处理帧级描述,难以捕捉时间和交互上下文。
  • Method: 提出VideoMultiAgents框架,整合视觉、场景图分析和文本处理代理,并引入问题引导的标题生成。
  • Result: 在Intent-QA、EgoSchema子集和NExT-QA上分别提升6.2%、3.4%和0.4%,达到SOTA。
  • Conclusion: VideoMultiAgents通过多代理协作和问题引导标题生成,显著提升视频问答性能。

[5] Long-Distance Field Demonstration of Imaging-Free Drone Identification in Intracity Environments

Junran Guo,Tonglin Mu,Keyuan Li,Jianing Li,Ziyang Luo,Ye Chen,Xiaodong Fan,Jinquan Huang,Minjie Liu,Jinbei Zhang,Ruoyang Qi,Naiting Gu,Shihai Sun

Main category: cs.CV

TL;DR: 论文提出了一种结合残差神经网络(ResNet)与D2SP2-LiDAR的方法,显著提升了小型目标(如无人机)的远距离检测能力,并实现了高精度的姿态和类型识别。

  • Motivation: 传统基于高分辨率成像的方法在远距离检测小型目标时存在范围、功耗和成本限制,而现有的D2SP2-LiDAR技术检测范围有限。
  • Method: 通过将ResNet与D2SP2-LiDAR结合,并优化观测模型,将检测范围扩展到5公里,同时实现高精度目标识别。
  • Result: 实验表明,该方法在5公里范围内实现了94.93%的姿态识别准确率和97.99%的类型分类准确率,优于传统成像方法。
  • Conclusion: 成像无关的方法在远距离小型目标检测中具有实际应用潜力。

[6] An on-production high-resolution longitudinal neonatal fingerprint database in Brazil

Luiz F. P. Southier,Marcelo Filipak,Luiz A. Zanlorensi,Ildefonso Wasilevski,Fabio Favarim,Jefferson T. Oliva,Marcelo Teixeira,Dalcimar Casanova

Main category: cs.CV

TL;DR: 研究旨在开发新生儿指纹的高质量生物特征数据库,以支持机器学习模型训练,解决新生儿指纹因生长变化导致的识别难题。

  • Motivation: 新生儿期对生存至关重要,但现有生物识别系统因生理变化(如指纹生长)难以准确识别,缺乏相关数据集阻碍了技术进步。
  • Method: 设计并开发多阶段采集的新生儿指纹数据库,用于训练和评估机器学习模型,模拟生长对生物特征的影响。
  • Result: 预期该数据集将支持开发更准确的深度学习模型,优于传统的缩放方法。
  • Conclusion: 研究为针对新生儿独特生长轨迹的可靠生物识别系统奠定了基础。

[7] Forging and Removing Latent-Noise Diffusion Watermarks Using a Single Image

Anubhav Jain,Yuya Kobayashi,Naoki Murata,Yuhta Takida,Takashi Shibuya,Yuki Mitsufuji,Niv Cohen,Nasir Memon,Julian Togelius

Main category: cs.CV

TL;DR: 本文提出了一种针对扩散模型水印的黑盒对抗攻击方法,仅需一个水印样本即可伪造或移除水印,暴露了现有水印技术的脆弱性。

  • Motivation: 现有水印技术通常将密钥嵌入初始噪声中,被认为难以移除或伪造。本文旨在揭示其潜在漏洞。
  • Method: 基于图像与初始噪声的多对一映射关系,通过扰动图像进入或退出水印区域,实现伪造或移除水印。
  • Result: 在多种水印方案(Tree-Ring、RingID等)和扩散模型(SDv1.4、SDv2.0)上验证了攻击的有效性。
  • Conclusion: 现有水印技术存在漏洞,需进一步研究改进。

[8] A Transformer-based Multimodal Fusion Model for Efficient Crowd Counting Using Visual and Wireless Signals

Zhe Cui,Yuli Li,Le-Nam Tran

Main category: cs.CV

TL;DR: TransFusion是一种基于多模态融合的人群计数模型,结合了CSI和图像数据,利用Transformer和CNN的优势,实现了高精度和高效的人群计数。

  • Motivation: 当前人群计数模型依赖单模态输入(如图像或无线信号数据),导致信息丢失和性能不佳。
  • Method: 提出TransFusion模型,结合Transformer(全局特征)和CNN(局部特征),融合CSI与图像数据。
  • Result: 实验表明TransFusion在计数误差最小的情况下实现了高精度和高效率。
  • Conclusion: TransFusion通过多模态融合和混合网络架构显著提升了人群计数的性能。

[9] Integration Flow Models

Jingjing Wang,Dan Zhang,Joshua Luo,Yin Yang,Feng Luo

Main category: cs.CV

TL;DR: 论文提出Integration Flow,一种直接学习ODE轨迹路径积分的方法,解决了传统ODE生成模型的离散化误差和训练不稳定性问题。

  • Motivation: 传统ODE生成模型存在数值求解器的离散化误差和训练不稳定性,限制了样本质量。
  • Method: 提出Integration Flow,直接学习ODE轨迹的积分,并引入目标状态作为反向动力学的锚点。
  • Result: 在CIFAR10和ImageNet上,Integration Flow显著提升了现有ODE模型的性能(如扩散模型、Rectified Flows和PFGM++)。
  • Conclusion: Integration Flow通过统一结构和理论证明,提高了ODE生成模型的稳定性和准确性。

[10] Weaving Context Across Images: Improving Vision-Language Models through Focus-Centric Visual Chains

Juntian Zhang,Chuanqi cheng,Yuhan Liu,Wei Liu,Jian Luan,Rui Yan

Main category: cs.CV

TL;DR: 提出Focus-Centric Visual Chain,提升多图像场景下视觉语言模型的性能,并通过合成数据集VISC-150K验证其有效性。

  • Motivation: 现实场景中多图像输入复杂,现有模型性能下降,需提升模型在多图像任务中的能力。
  • Method: 提出Focus-Centric Visual Chain范式及Focus-Centric Data Synthesis方法,构建VISC-150K数据集。
  • Result: 在七个多图像基准测试中,平均性能提升3.16%和2.24%。
  • Conclusion: 该方法为处理复杂视觉场景的视觉语言系统提供了重要进展。

[11] Remote Sensing Imagery for Flood Detection: Exploration of Augmentation Strategies

Vladyslav Polushko,Damjan Hatic,Ronald Rösch,Thomas März,Markus Rauhut,Andreas Weinmann

Main category: cs.CV

TL;DR: 论文探讨了利用不同数据增强策略优化深度学习网络在RGB图像中检测河流洪水的效果。

  • Motivation: 洪水是全球性问题,快速有效响应需要准确及时的受灾区域信息。遥感图像的洪水检测需要特定方法,而深度学习网络通常依赖特定数据集训练。
  • Method: 使用BlessemFlood21数据集,研究从基础到复杂(如光学畸变)的不同数据增强策略。
  • Result: 旨在通过识别有效策略优化最先进深度学习分割网络的训练过程。
  • Conclusion: 通过数据增强策略优化训练,可提升洪水检测的准确性和效率。

[12] FreBIS: Frequency-Based Stratification for Neural Implicit Surface Representations

Naoko Sawada,Pedro Miraldo,Suhas Lohit,Tim K. Marks,Moitreya Chatterjee

Main category: cs.CV

TL;DR: FreBIS提出了一种新的神经隐式表面表示方法,通过分层编码不同频率的表面信息,显著提升了复杂场景的3D重建质量。

  • Motivation: 传统神经隐式表面表示方法使用单一编码网络处理所有表面频率信息,难以应对复杂场景。FreBIS旨在通过分层编码解决这一问题。
  • Method: FreBIS将场景按表面频率分层,每层由专用编码器处理,并通过冗余感知权重模块促进特征互补性。
  • Result: 在BlendedMVS数据集上,FreBIS显著提升了3D表面重建质量和渲染保真度。
  • Conclusion: FreBIS通过分层编码和特征互补性设计,有效提升了复杂场景的神经隐式表面表示能力。

[13] Improving trajectory continuity in drone-based crowd monitoring using a set of minimal-cost techniques and deep discriminative correlation filters

Bartosz Ptak,Marek Kraft

Main category: cs.CV

TL;DR: 提出了一种基于点距离度量的无人机人群监控在线跟踪算法,显著提升了轨迹连续性和计数可靠性。

  • Motivation: 无人机人群监控在公共安全等领域有重要应用,但传统方法存在误检、漏检和身份切换问题,导致计数不准和分析困难。
  • Method: 在SORT框架基础上,用点距离度量替代边界框分配,结合相机运动补偿、高度感知分配和分类轨迹验证,并集成DDCF提高计算效率。
  • Result: 在DroneCrowd和UP-COUNT-TRACK数据集上,计数误差分别降至23%和15%,身份切换显著减少,优于基线在线跟踪器和离线贪婪优化方法。
  • Conclusion: 该方法有效解决了无人机人群监控中的跟踪问题,提升了计数准确性和轨迹连续性。

[14] Physics-Informed Diffusion Models for SAR Ship Wake Generation from Text Prompts

Kamirul Kamirul,Odysseas Pappas,Alin Achim

Main category: cs.CV

TL;DR: 论文提出了一种基于扩散模型的方法,用于高效生成SAR图像中的船舶尾迹,解决了物理模拟速度慢的问题。

  • Motivation: 由于标注数据稀缺,监督学习在SAR图像中检测船舶尾迹面临挑战,而物理模拟速度慢且限制了端到端学习。
  • Method: 使用扩散模型,通过物理模拟生成的数据训练,将模拟图像与基于参数的文本提示配对。
  • Result: 模型能生成逼真的开尔文尾迹,且推理速度显著快于物理模拟器。
  • Conclusion: 扩散模型在快速可控的尾迹图像生成中具有潜力,为海上SAR分析的端到端任务提供了新可能。

[15] Image Interpolation with Score-based Riemannian Metrics of Diffusion Models

Shinnosuke Saito,Takashi Matsubara

Main category: cs.CV

TL;DR: 本文提出了一种新框架,将预训练扩散模型的数据空间视为黎曼流形,利用评分函数导出的度量,生成更真实、噪声更少且更符合提示的图像插值。

  • Motivation: 扩散模型在内容生成方面表现出色,但缺乏利用数据流形的实用方法,而其他深度生成模型具有潜在空间。本文旨在填补这一空白。
  • Method: 将预训练扩散模型的数据空间视为黎曼流形,并基于评分函数定义度量,用于图像插值。
  • Result: 在MNIST和Stable Diffusion上的实验表明,该方法生成的图像插值更真实、噪声更少且更符合提示。
  • Conclusion: 该框架展示了在内容生成和编辑中的潜力,为扩散模型的数据流形利用提供了实用方法。

[16] DeepAndes: A Self-Supervised Vision Foundation Model for Multi-Spectral Remote Sensing Imagery of the Andes

Junlin Guo,James R. Zimmer-Dauphinee,Jordan M. Nieusma,Siqi Lu,Quan Liu,Ruining Deng,Can Cui,Jialin Yue,Yizhe Lin,Tianyuan Yao,Juming Xiong,Junchao Zhu,Chongyu Qu,Yuechen Yang,Mitchell Wilkes,Xiao Wang,Parker VanValkenburgh,Steven A. Wernke,Yuankai Huo

Main category: cs.CV

TL;DR: DeepAndes是一个基于Transformer的视觉基础模型,专为安第斯考古设计,通过自监督学习优化多光谱卫星图像分析,显著提升了考古遥感任务的性能。

  • Motivation: 传统监督深度学习方法在标注细粒度考古特征时面临挑战,且现有视觉基础模型多针对RGB图像而非多光谱数据。DeepAndes旨在填补这一空白。
  • Method: 采用定制的DINOv2自监督学习算法,训练于300万张多光谱卫星图像,针对8波段数据优化。
  • Result: 在少样本学习场景下,DeepAndes在分类、检索和语义分割任务中表现优异,显著优于从头训练或小数据集预训练的模型。
  • Conclusion: 大规模自监督预训练在考古遥感中具有显著效果,DeepAndes为安第斯考古提供了高效工具。

[17] Dynamic Contextual Attention Network: Transforming Spatial Representations into Adaptive Insights for Endoscopic Polyp Diagnosis

Teja Krishna Cherukuri,Nagur Shareef Shaik,Sribhuvan Reddy Yellu,Jun-Won Chung,Dong Hye Ye

Main category: cs.CV

TL;DR: 提出了一种动态上下文注意力网络(DCAN),用于改进结肠息肉的定位和诊断解释性。

  • Motivation: 传统内窥镜成像在息肉定位和上下文感知方面存在不足,限制了诊断的可解释性。
  • Method: 使用注意力机制将空间表征转化为自适应上下文信息,无需显式定位模块。
  • Result: DCAN提高了分类过程的解释性和诊断性能。
  • Conclusion: 该方法有望提升结肠癌检测的可靠性,改善患者预后。

[18] Fine Grain Classification: Connecting Meta using Cross-Contrastive pre-training

Sumit Mamtani,Yash Thesia

Main category: cs.CV

TL;DR: 该论文提出了一种利用元信息辅助细粒度视觉分类的统一框架,通过跨对比预训练联合学习视觉和元信息,显著提升了分类性能。

  • Motivation: 细粒度视觉分类仅依赖外观信息难以准确区分子类别,因此需要引入元信息辅助识别。
  • Method: 采用三个编码器分别处理图像、文本和元信息,通过跨对比预训练对齐嵌入表示,随后微调图像和元信息编码器进行分类任务。
  • Result: 在NABirds数据集上,框架利用元信息使性能提升7.83%,准确率达到84.44%,优于现有方法。
  • Conclusion: 提出的框架通过结合元信息有效提升了细粒度视觉分类性能,证明了元信息的价值。

[19] MicarVLMoE: A Modern Gated Cross-Aligned Vision-Language Mixture of Experts Model for Medical Image Captioning and Report Generation

Amaan Izhar,Nurul Japar,Norisma Idris,Ting Dang

Main category: cs.CV

TL;DR: MicarVLMoE模型通过多尺度视觉编码器和专家混合解码器,解决了医学图像报告中细粒度特征提取和多模态对齐的挑战,并在多种影像类型上取得了先进成果。

  • Motivation: 现有方法在细粒度特征提取、多模态对齐和跨影像类型泛化方面表现不佳,且主要关注胸部X光片。
  • Method: 提出MicarVLMoE模型,包括多尺度视觉编码器(MSVE)、多头双分支潜在注意力模块(MDLA)和调制的专家混合解码器(MoE)。
  • Result: 在COVCTR、MMR、PGROSS和ROCO数据集上取得了最先进的结果,提升了临床准确性、跨模态对齐和模型可解释性。
  • Conclusion: MicarVLMoE在多种医学影像类型上表现出色,解决了现有方法的局限性,代码已开源。

[20] TTTFusion: A Test-Time Training-Based Strategy for Multimodal Medical Image Fusion in Surgical Robots

Qinhua Xie,Hao Tang

Main category: cs.CV

TL;DR: TTTFusion是一种基于测试时训练(TTT)的图像融合策略,通过动态调整模型参数提升多模态医学图像的融合质量,尤其在细节提取和边缘保留方面表现优异。

  • Motivation: 随着手术机器人临床应用的增加,提升其处理多模态医学图像的能力成为关键挑战。传统融合方法在实时性、细节提取和边缘保留方面存在不足。
  • Method: 提出TTTFusion策略,在推理阶段动态调整模型参数,根据输入图像优化融合效果。
  • Result: 实验表明,TTTFusion在多模态图像融合质量上显著优于传统方法,尤其在细节和边缘保留方面。
  • Conclusion: TTTFusion不仅提升了融合精度,还为手术机器人的实时图像处理提供了新技术方案。

[21] Inception: Jailbreak the Memory Mechanism of Text-to-Image Generation Systems

Shiqian Zhao,Jiayang Liu,Yiming Li,Runyi Hu,Xiaojun Jia,Wenshu Fan,Xinfeng Li,Jie Zhang,Wei Dong,Tianwei Zhang,Luu Anh Tuan

Main category: cs.CV

TL;DR: 论文揭示了在线文本生成图像系统中的记忆机制加剧了越狱攻击的风险,并提出了一种名为Inception的多轮越狱攻击方法,通过分块和递归策略实现高成功率。

  • Motivation: 当前文本生成图像系统的记忆机制虽然实用,但其安全性分析滞后,存在被滥用于越狱攻击的风险。
  • Method: 提出Inception方法,将恶意提示分块输入系统,利用记忆机制逐步优化,并通过递归策略处理不可分割的最小恶意词汇。
  • Result: 实验表明,Inception在真实系统中的攻击成功率比现有方法高出14%。
  • Conclusion: 记忆机制的安全性需引起重视,Inception方法展示了其潜在威胁,为未来防御提供了研究方向。

[22] Sparse2DGS: Geometry-Prioritized Gaussian Splatting for Surface Reconstruction from Sparse Views

Jiang Wu,Rui Li,Yu Zhu,Rong Guo,Jinqiu Sun,Yanning Zhang

Main category: cs.CV

TL;DR: 提出了一种基于稀疏输入视图的高斯泼溅表面重建方法Sparse2DGS,结合几何优先增强方案,显著优于现有方法且速度更快。

  • Motivation: 现有方法依赖密集视图或稀疏初始化效果不佳,学习型多视图立体视觉(MVS)直接结合高斯泼溅效果不理想,需解决稀疏视图几何优化的不适定问题。
  • Method: 提出Sparse2DGS,利用MVS初始化高斯泼溅管道,结合几何优先增强方案,实现直接且稳健的几何学习。
  • Result: Sparse2DGS在稀疏视图下表现显著优于现有方法,速度比基于NeRF的微调方法快2倍。
  • Conclusion: Sparse2DGS通过几何优先增强方案,在稀疏视图下实现了高效且准确的表面重建。

[23] GSFeatLoc: Visual Localization Using Feature Correspondence on 3D Gaussian Splatting

Jongwon Lee,Timothy Bretl

Main category: cs.CV

TL;DR: 提出了一种基于3D高斯泼溅(3DGS)场景表示的查询图像定位方法,显著降低了推理时间和估计误差。

  • Motivation: 解决现有方法在定位查询图像时推理时间长和误差大的问题。
  • Method: 1. 使用3DGS渲染合成RGBD图像;2. 建立查询图像与合成图像的2D-2D对应关系;3. 通过深度图将2D-2D对应提升为2D-3D对应,并求解PnP问题得到最终位姿估计。
  • Result: 在三个数据集上评估,推理时间从10秒降至0.1秒,位姿误差显著降低,且对初始位姿估计的大误差具有鲁棒性。
  • Conclusion: 该方法在速度和精度上优于基线方法,适用于多种场景。

[24] Neural Stereo Video Compression with Hybrid Disparity Compensation

Shiyin Jiang,Zhenghao Chen,Minghao Han,Xingyu Zhou,Leheng Zhang,Shuhang Gu

Main category: cs.CV

TL;DR: 提出了一种混合视差补偿(HDC)策略,结合显式和隐式方法优化立体视频压缩,并构建了一个端到端优化的神经框架,性能优于现有方法。

  • Motivation: 立体视频压缩中视差补偿是主要策略,现有方法分为显式水平位移和隐式交叉注意力机制。为了更全面地捕捉视差信息,提出混合策略。
  • Method: HDC结合显式像素位移和隐式交叉注意力机制,通过相似性图和归一化注意力分数实现特征对齐。构建了HDC-FER和HDC-EM模块。
  • Result: 在KITTI 2012、KITTI 2015和Nagoya等基准测试中,性能优于传统和神经SVC方法。
  • Conclusion: HDC策略有效提升了立体视频压缩性能,适用于自动驾驶和通用场景。

[25] FiLA-Video: Spatio-Temporal Compression for Fine-Grained Long Video Understanding

Yanan Guo,Wenhui Dong,Jun Song,Shiding Zhu,Xuan Zhang,Hanqing Yang,Yingbo Wang,Yang Du,Xianing Chen,Bo Zheng

Main category: cs.CV

TL;DR: FiLA-Video提出了一种轻量级动态权重多帧融合策略,用于长视频理解,通过自适应整合多帧信息并保留关键内容,同时降低计算成本。

  • Motivation: 当前视频理解方法在长视频处理中存在特征冗余或计算成本高的问题,需要更高效的解决方案。
  • Method: 采用动态权重多帧融合策略和关键帧选择方法,结合自动生成的长视频训练数据。
  • Result: FiLA-Video在长视频理解中表现出更高的效率和准确性。
  • Conclusion: FiLA-Video通过轻量级设计和自适应策略,显著提升了长视频理解的性能。

[26] GarmentX: Autoregressive Parametric Representations for High-Fidelity 3D Garment Generation

Jingfeng Guo,Jinnan Chen,Weikai Chen,Zhenyu Sun,Lanjiong Li,Baozhu Zhao,Lingting Zhu,Xin Wang,Qi Liu

Main category: cs.CV

TL;DR: GarmentX是一个从单张输入图像生成多样、高保真且可穿戴3D服装的新框架,通过参数化表示和自回归模型解决了传统方法的自相交和物理不合理问题。

  • Motivation: 传统服装重建方法直接预测2D图案边缘及其连接性,导致自相交和物理不合理结构,GarmentX旨在解决这些问题。
  • Method: 采用结构化可编辑参数化表示(兼容GarmentCode)和掩码自回归模型,顺序预测服装参数,确保生成有效的3D服装。
  • Result: 通过GarmentX数据集(378,682对参数-图像)和方法的结合,实现了几何保真度和输入图像对齐的先进性能。
  • Conclusion: GarmentX在生成高质量3D服装方面显著优于现有方法,并将公开数据集。

[27] Plant Disease Detection through Multimodal Large Language Models and Convolutional Neural Networks

Konstantinos I. Roumeliotis,Ranjan Sapkota,Manoj Karkee,Nikolaos D. Tselikas,Dimitrios K. Nasiopoulos

Main category: cs.CV

TL;DR: 研究结合GPT-4o和CNN进行植物病害分类,发现微调后的GPT-4o性能略优于ResNet-50,但零样本表现较差。

  • Motivation: 解决农业自动化中作物监测和病害管理的挑战,尤其是早期检测系统。
  • Method: 使用PlantVillage数据集,结合GPT-4o和CNN,评估零样本、少样本和渐进微调场景。
  • Result: 微调GPT-4o在苹果叶图像上达到98.12%准确率,优于ResNet-50的96.88%,但零样本表现不佳。
  • Conclusion: 多模态LLMs在病害检测中具有潜力,可提升精准农业的智能化和扩展性。

[28] AI Assisted Cervical Cancer Screening for Cytology Samples in Developing Countries

Love Panta,Suraj Prasai,Karishma Malla Vaidya,Shyam Shrestha,Suresh Manandhar

Main category: cs.CV

TL;DR: 本文提出了一种结合低成本生物显微镜和高效AI算法的自动化宫颈癌筛查方法,显著提高了准确性和效率。

  • Motivation: 宫颈癌在转型国家发病率高,传统液基细胞学检测(LBC)劳动密集且易出错,亟需更高效的筛查方法。
  • Method: 使用电动显微镜捕获细胞图像,通过AI流程(图像拼接、细胞分割和分类)处理。采用轻量级UNet模型和CvT分类模型,结合人机交互训练。
  • Result: 在SIPaKMeD数据集上,分类模型准确识别五种细胞类型,系统在多种评估指标上优于现有方法。
  • Conclusion: 该框架为宫颈癌筛查提供了更准确、高效的解决方案,具有广泛应用潜力。

[29] PixelHacker: Image Inpainting with Structural and Semantic Consistency

Ziyang Xu,Kangsheng Duan,Xiaolei Shen,Zhifeng Ding,Wenyu Liu,Xiaohu Ruan,Xiaoxin Chen,Xinggang Wang

Main category: cs.CV

TL;DR: 论文提出了一种名为PixelHacker的扩散模型,通过潜在类别引导机制改进图像修复任务,解决了现有方法在复杂结构和语义一致性上的不足。

  • Motivation: 现有图像修复方法在处理复杂结构和语义一致性时表现不佳,导致生成结果存在伪影和不合理内容。
  • Method: 通过构建包含1400万图像-掩码对的数据集,并设计潜在类别引导机制,将前景和背景特征嵌入注入去噪过程。
  • Result: PixelHacker在多个数据集(Places2、CelebA-HQ、FFHQ)上全面超越现有方法,表现出卓越的结构和语义一致性。
  • Conclusion: 潜在类别引导机制和扩散模型的结合为图像修复任务提供了简单而有效的解决方案。

[30] LMM4Gen3DHF: Benchmarking and Evaluating Multimodal 3D Human Face Generation with LMMs

Woo Yi Yang,Jiarui Wang,Sijing Wu,Huiyu Duan,Yuxin Zhu,Liu Yang,Kang Fu,Guangtao Zhai,Xiongkuo Min

Main category: cs.CV

TL;DR: 论文提出Gen3DHF基准和LMME3DHF模型,用于评估AI生成的3D人脸的质量和真实性,实验表明其性能优于现有方法。

  • Motivation: 由于人类感知的主观性和对面部特征的敏感性,评估AI生成的3D人脸的质量和真实性具有挑战性。
  • Method: 引入Gen3DHF基准(包含2000个视频和4000个MOS评分),并提出基于LMM的LMME3DHF模型,用于质量评分、视觉问答和显著性预测。
  • Result: LMME3DHF在质量评分和失真区域识别方面表现优异,与人类感知高度一致。
  • Conclusion: Gen3DHF和LMME3DHF为AI生成的3D人脸评估提供了有效工具,性能优于现有方法。

[31] Antidote: A Unified Framework for Mitigating LVLM Hallucinations in Counterfactual Presupposition and Object Perception

Yuanchen Wu,Lu Zhang,Hang Yao,Junlong Du,Ke Yan,Shouhong Ding,Yunsheng Wu,Xiaoqiang Li

Main category: cs.CV

TL;DR: 论文提出Antidote框架,通过合成数据驱动的后训练方法,减少大视觉语言模型在解决反事实预设问题时的幻觉现象,并构建CP-Bench基准进行评估。

  • Motivation: 大视觉语言模型在跨模态任务中表现优异,但存在生成反事实响应的幻觉问题,尤其是面对反事实预设问题时。现有研究多关注模型响应生成,而忽略了问题本身的预设。
  • Method: 提出Antidote框架,利用合成数据将事实先验融入问题以实现自校正,并将缓解过程分解为偏好优化问题。构建CP-Bench基准评估模型性能。
  • Result: Antidote在LLaVA系列模型上应用后,CP-Bench性能提升超50%,POPE提升1.8-3.3%,CHAIR & SHR提升30-50%,且无需外部监督或引入灾难性遗忘问题。
  • Conclusion: Antidote能有效减少大视觉语言模型的幻觉现象,尤其在反事实预设问题上表现显著,为模型自校正提供了新思路。

[32] Large-scale visual SLAM for in-the-wild videos

Shuo Sun,Torsten Sattler,Malcolm Mielle,Achim J. Lilienthal,Martin Magnusson

Main category: cs.CV

TL;DR: 提出了一种鲁棒的3D场景重建方法,针对非约束视频中的相机位姿估计和场景重建问题,通过改进视觉里程计、动态对象掩码、深度估计和全局优化,实现了更一致的3D重建效果。

  • Motivation: 解决现有视觉SLAM方法在非约束视频(如快速旋转、无纹理区域和动态对象)中表现不佳的问题。
  • Method: 结合深度视觉里程计、动态对象掩码、单目深度估计和全局优化(包括位姿识别和闭环检测)。
  • Result: 在多种环境中实现了大规模连续的3D重建,相比基线方法更一致且准确。
  • Conclusion: 该方法为非约束视频的3D重建提供了新的基准,显著提升了重建的一致性和准确性。

[33] Style-Adaptive Detection Transformer for Single-Source Domain Generalized Object Detection

Jianhong Han,Yupei Wang,Liang Chen

Main category: cs.CV

TL;DR: 论文提出了一种基于DETR的检测器SA-DETR,用于单源域泛化(SDG)任务,通过动态风格适配和对象感知对比学习模块提升泛化能力。

  • Motivation: 现有方法依赖数据增强和特征对齐,但无法覆盖所有未见域。DETR在域适应任务中表现优异,但其在SDG任务中的潜力尚未探索。
  • Method: 提出SA-DETR,包含域风格适配器和对象感知对比学习模块,动态适应目标域风格并提取域不变特征。
  • Result: 实验表明SA-DETR在五种不同天气场景中具有优越性能和泛化能力。
  • Conclusion: SA-DETR通过动态风格适配和对比学习显著提升了SDG任务的泛化能力。

[34] MambaMoE: Mixture-of-Spectral-Spatial-Experts State Space Model for Hyperspectral Image Classification

Yichu Xu,Di Wang,Hongzan Jiao,Lefei Zhang,Liangpei Zhang

Main category: cs.CV

TL;DR: MambaMoE是一种新型的混合专家框架,用于高光谱图像分类,通过自适应建模和不确定性引导学习提升性能。

  • Motivation: 现有Mamba方法忽视高光谱场景中异构物体的光谱和空间方向特性,导致分类性能受限。
  • Method: 提出MambaMoE框架,设计混合Mamba专家块(MoMEB)和不确定性引导校正学习(UGCL)策略。
  • Result: 在多个公开HSI基准测试中,MambaMoE在精度和效率上均达到最优。
  • Conclusion: MambaMoE是HSI分类领域的首个MoE方法,性能显著优于现有方法。

[35] SteelBlastQC: Shot-blasted Steel Surface Dataset with Interpretable Detection of Surface Defects

Irina Ruzavina,Lisa Sophie Theis,Jesse Lemeer,Rutger de Groen,Leo Ebeling,Andrej Hulak,Jouaria Ali,Guangzhi Tang,Rico Mockel

Main category: cs.CV

TL;DR: 该研究提出了一个用于钢表面质量控制的标记图像数据集,并评估了三种分类方法,其中监督方法(CCT和SVM)达到95%的准确率,同时支持可解释的决策。

  • Motivation: 自动化钢表面喷砂质量检查对提高制造效率和一致性至关重要。
  • Method: 使用1654张标记的RGB图像数据集,评估了CCT、SVM(基于ResNet-50特征提取)和CAE三种分类方法。
  • Result: CCT和SVM在测试集上达到95%的分类准确率,CAE作为无监督基线表现较差。
  • Conclusion: 该研究通过公开数据集和代码,支持缺陷检测研究,推动可解释计算机视觉模型在工业质量控制中的应用。

[36] Dynamic Attention Analysis for Backdoor Detection in Text-to-Image Diffusion Models

Zhongqi Wang,Jie Zhang,Shiguang Shan,Xilin Chen

Main category: cs.CV

TL;DR: 本文提出了一种名为动态注意力分析(DAA)的新方法,用于检测文本到图像扩散模型中的后门攻击,通过分析动态特征显著提高了检测效果。

  • Motivation: 现有后门检测方法主要关注静态特征,而扩散模型的动态特性未被充分利用。本文旨在利用动态特征改进检测效果。
  • Method: 提出了两种方法:DAA-I(独立分析注意力图)和DAA-S(基于动态系统的图模型分析空间相关性)。
  • Result: 在五种典型后门攻击场景中,DAA方法平均F1分数为79.49%,AUC为87.67%,显著优于现有方法。
  • Conclusion: 动态注意力分析是检测扩散模型后门攻击的有效方法,其动态特征分析显著提升了检测性能。

[37] Geometry-aware Temporal Aggregation Network for Monocular 3D Lane Detection

Huan Zheng,Wencheng Han,Tianyi Yan,Cheng-zhong Xu,Jianbing Shen

Main category: cs.CV

TL;DR: 论文提出了一种名为GTA-Net的新方法,通过利用多帧输入的时间几何一致性和实例信息,解决了单目3D车道检测中几何信息不准确和车道完整性难以保持的问题。

  • Motivation: 当前单目3D车道检测方法存在几何信息不准确和车道完整性难以保持的局限性,作者希望通过利用多帧输入的时间信息来解决这些问题。
  • Method: 提出了GTA-Net网络,包含Temporal Geometry Enhancement Module(TGEM)和Temporal Instance-aware Query Generation(TIQG)两个模块,分别用于增强几何感知和提升车道完整性。
  • Result: 实验表明,GTA-Net在单目3D车道检测任务中达到了最先进的性能。
  • Conclusion: 通过充分利用多帧输入的时间信息,GTA-Net显著提升了单目3D车道检测的几何准确性和车道完整性。

[38] Beyond the Horizon: Decoupling UAVs Multi-View Action Recognition via Partial Order Transfer

Wenxuan Liu,Xian Zhong,Zhuo Zhou,Siyuan Yang,Chia-Wen Lin,Alex Chichung Kot

Main category: cs.CV

TL;DR: 论文提出了一种针对无人机(UAV)动作识别的多视角方法POG-MVNet,通过建模视角的层次结构,显著提升了不同高度下的识别性能。

  • Motivation: 无人机动作识别面临视角变化大的挑战,尤其是垂直空间轴上的高度变化导致的外观差异。传统方法难以应对这种多视角问题。
  • Method: 提出了POG-MVNet框架,包括三个模块:View Partition(VP)按高度分组视角,Order-aware Feature Decoupling(OFD)分离动作和视角特征,Action Partial Order Guide(APOG)利用视角间的部分顺序传递知识。
  • Result: 在Drone-Action、MOD20和UAV数据集上,POG-MVNet显著优于现有方法,例如在Drone-Action上提升4.7%,在UAV上提升3.5%。
  • Conclusion: POG-MVNet通过建模视角层次结构和知识传递,有效解决了无人机动作识别中的多视角问题,性能优于现有方法。

[39] Autoencoder Models for Point Cloud Environmental Synthesis from WiFi Channel State Information: A Preliminary Study

Daniele Pannone,Danilo Avola

Main category: cs.CV

TL;DR: 提出了一种基于WiFi信道状态信息(CSI)数据生成点云的深度学习框架。

  • Motivation: 利用WiFi数据进行环境点云重建,为无线传感和环境映射提供新方法。
  • Method: 采用两阶段自编码器:PointNet自编码器生成点云,CNN自编码器将CSI数据映射到匹配的潜在空间。
  • Result: 实验验证了方法的有效性,能够准确重建环境点云。
  • Conclusion: 该方法在无线传感和环境映射领域具有潜在应用价值。

[40] PartHOI: Part-based Hand-Object Interaction Transfer via Generalized Cylinders

Qiaochu Wang,Chufeng Xiao,Manfred Lau,Hongbo Fu

Main category: cs.CV

TL;DR: 提出了一种基于部件的手-物体交互(HOI)转移方法PartHOI,通过参数化物体部件几何形状,实现跨类别的高质量HOI数据生成。

  • Motivation: 现有方法依赖形状匹配,难以跨类别转移手部姿势,而HOI通常涉及物体的特定语义部件,这些部件在不同类别间形状更一致。
  • Method: 使用广义圆柱体表示参数化物体部件几何,建立部件间的几何对应关系,转移接触点并优化手部姿势以适应目标物体。
  • Result: 定性和定量结果表明,PartHOI在跨类别HOI转移中表现优异,生成结果优于现有方法。
  • Conclusion: PartHOI通过部件几何对应和接触点转移,实现了跨类别的高保真HOI数据生成,为学习HOI提供了高质量数据支持。

[41] Purifying, Labeling, and Utilizing: A High-Quality Pipeline for Small Object Detection

Siwei Wang,Zhiwei Chen,Liujuan Cao,Rongrong Ji

Main category: cs.CV

TL;DR: PLUSNet优化了小目标检测流程的三个关键环节(Purifying、Labeling、Utilizing),提出了一种高质量的小目标检测框架,显著提升了性能。

  • Motivation: 现有方法通常孤立优化检测流程的某个阶段,忽视了整体优化,限制了性能提升。
  • Method: PLUSNet包含三个模块:HFP(净化上游特征)、MCLA(优化中游样本分配)、FDHead(高效利用下游信息)。
  • Result: 实验表明PLUSNet在多个数据集上显著提升了小目标检测性能。
  • Conclusion: PLUSNet通过整体优化检测流程,显著提升了小目标检测的效果,且易于集成到现有检测器中。

[42] EfficientHuman: Efficient Training and Reconstruction of Moving Human using Articulated 2D Gaussian

Hao Tian,Rui Liu,Wen Shen,Yilong Hu,Zhihao Zheng,Xiaolin Qin

Main category: cs.CV

TL;DR: EfficientHuman提出了一种基于Articulated 2D Gaussian surfels的动态人体重建方法,解决了3DGS在动态人体重建中的多视角不一致和高斯冗余问题,显著提升了训练速度和渲染质量。

  • Motivation: 3DGS在动态人体重建中因多视角不一致和高斯冗余问题导致效果不佳,EfficientHuman旨在解决这些问题。
  • Method: 使用Articulated 2D Gaussian surfels在规范空间中编码,并通过LBS转换到姿态空间,结合姿态校准和LBS优化模块。
  • Result: 在ZJU-MoCap数据集上,EfficientHuman平均重建时间少于1分钟,比现有方法快20秒,且减少了高斯冗余。
  • Conclusion: EfficientHuman在动态人体重建中实现了快速且高质量的渲染,解决了3DGS的局限性。

[43] AlignDiT: Multimodal Aligned Diffusion Transformer for Synchronized Speech Generation

Jeongsoo Choi,Ji-Hoon Kim,Kim Sung-Bin,Tae-Hyun Oh,Joon Son Chung

Main category: cs.CV

TL;DR: AlignDiT是一种多模态对齐扩散变换器,用于从文本、视频和参考音频生成高质量语音,解决了现有方法在语音清晰度、同步性和自然性上的不足。

  • Motivation: 多模态语音生成在电影制作、配音和虚拟形象等领域有广泛应用,但现有方法在语音清晰度、同步性和自然性上存在局限。
  • Method: 提出AlignDiT,利用扩散变换器的上下文学习能力,通过三种策略对齐多模态表示,并引入多模态无分类器引导机制。
  • Result: 实验表明AlignDiT在质量、同步性和说话人相似性上显著优于现有方法,并在多模态任务中表现出强大的泛化能力。
  • Conclusion: AlignDiT在多模态语音生成任务中实现了最先进的性能,具有广泛的应用潜力。

[44] LDPoly: Latent Diffusion for Polygonal Road Outline Extraction in Large-Scale Topographic Mapping

Weiqin Jiao,Hao Cheng,George Vosselman,Claudio Persello

Main category: cs.CV

TL;DR: LDPoly是一个专门用于从高分辨率航空图像中提取多边形道路轮廓的框架,首次解决了这一任务。它结合了双潜在扩散模型和通道嵌入融合模块,并引入新的评估指标,性能优于现有方法。

  • Motivation: 现有方法未专门针对多边形道路轮廓提取任务,且道路的分支结构和拓扑连接性带来独特挑战。
  • Method: LDPoly采用双潜在扩散模型和通道嵌入融合模块,同时生成道路掩码和顶点热图,并通过定制多边形化方法减少顶点冗余。
  • Result: 在Map2ImLas数据集上,LDPoly在像素覆盖率、顶点效率、多边形规则性和道路连接性等指标上优于现有方法。
  • Conclusion: LDPoly是首个利用扩散模型从遥感图像中提取精确矢量对象轮廓的方法,为未来研究奠定了基础。

[45] SpaRE: Enhancing Spatial Reasoning in Vision-Language Models with Synthetic Data

Michael Ogezi,Freda Shi

Main category: cs.CV

TL;DR: 论文提出了一种增强视觉语言模型(VLM)空间推理能力的方法,通过构建合成VQA数据集SpaRE,显著提升了模型在空间推理任务中的表现。

  • Motivation: 现有视觉语言模型在空间推理任务上表现不佳,主要因为常用数据集中的空间关系数据稀缺且分布不均。
  • Method: 利用Localized Narratives、DOCCI和PixMo-Cap中的超详细图像描述,构建了一个包含455k样本和3.4百万QA对的合成VQA数据集,并训练了Spatial-Reasoning Enhanced (SpaRE) VLMs。
  • Result: SpaRE VLMs在空间推理基准测试中表现显著提升,如在What's Up基准上性能提高了49%,同时保持通用任务的强性能。
  • Conclusion: 该研究缩小了人类与VLM在空间推理能力上的差距,提升了VLM在机器人技术和导航等实际任务中的应用潜力。

[46] Image deidentification in the XNAT ecosystem: use cases and solutions

Alex Michie,Simon J Doran

Main category: cs.CV

TL;DR: XNAT平台用于DICOM图像去标识化,参与MIDI-B挑战,初始得分97.91%,后改进至99.61%。规则方法能完全去除姓名信息,但地址处理不足。机器学习模型部分有效但稍降性能至99.54%。未来将改进地址识别和图像像素去标识。

  • Motivation: XNAT平台在学术研究中广泛用于DICOM图像管理,但需要高效的去标识化方法以满足隐私保护需求。
  • Method: 结合XNAT工具和独立生态系统工具,采用规则和机器学习方法进行DICOM数据去标识化。
  • Result: 初始得分97.91%,改进后达99.61%。规则方法完全去除姓名信息,但地址处理不足;机器学习模型部分有效但稍降性能。
  • Conclusion: 未来需改进地址识别和图像像素去标识,当前去标识失败率为0.19%。

[47] Advance Fake Video Detection via Vision Transformers

Joy Battocchio,Stefano Dell'Anna,Andrea Montibeller,Giulia Boato

Main category: cs.CV

TL;DR: 论文提出了一种基于Vision Transformer(ViT)的创新框架,用于检测AI生成的视频,解决了虚假多媒体传播的紧迫问题。

  • Motivation: 随着AI生成多媒体技术的快速发展,虚假内容的传播风险增加,亟需高精度、泛化性强的检测方法。
  • Method: 扩展ViT用于视频检测,提出了一种整合时间维度的框架,提升了检测性能。
  • Result: 方法在新的大规模多样化数据集上表现出高准确性、泛化能力和少样本学习能力。
  • Conclusion: 该框架为AI生成视频的检测提供了有效解决方案,适应开源和专有生成技术。

[48] FBRT-YOLO: Faster and Better for Real-Time Aerial Image Detection

Yao Xiao,Tingfa Xu,Yu Xin,Jianan Li

Main category: cs.CV

TL;DR: FBRT-YOLO是一种新型实时检测器,用于解决航空图像中小目标检测的精度与效率不平衡问题,通过两个轻量级模块(FCM和MKP)提升小目标感知能力。

  • Motivation: 航空图像中小目标检测的精度与效率不平衡是实时检测发展的主要障碍。
  • Method: 提出FCM模块缓解小目标信息丢失问题,引入MKP模块通过多尺度卷积增强目标感知。
  • Result: 在Visdrone、UAVDT和AI-TOD数据集上,FBRT-YOLO在性能和速度上优于其他实时检测器。
  • Conclusion: FBRT-YOLO有效平衡了检测精度与效率,提升了航空图像中小目标的检测能力。

[49] Occlusion-aware Driver Monitoring System using the Driver Monitoring Dataset

Paola Natalia Cañas,Alexander Diez,David Galvañ,Marcos Nieto,Igor Rodríguez

Main category: cs.CV

TL;DR: 提出了一种基于RGB和红外图像的鲁棒驾驶员监控系统,支持驾驶员识别、视线区域估计和遮挡检测,适用于多种光照条件。

  • Motivation: 提升驾驶员监控系统在遮挡和低光条件下的性能,符合EuroNCAP标准,增强系统可信度。
  • Method: 使用RGB和红外图像分别训练算法,整合为统一流程,解决多传感器和实际车辆部署的挑战。
  • Result: 在DMD数据集和实际场景中验证了系统有效性,RGB模型表现更优,遮挡检测功能为创新点。
  • Conclusion: 系统在复杂条件下表现稳健,遮挡检测功能显著提升了驾驶员监控的可靠性。

[50] OG-HFYOLO :Orientation gradient guidance and heterogeneous feature fusion for deformation table cell instance segmentation

Long Liu,Cihui Yang

Main category: cs.CV

TL;DR: 论文提出OG-HFYOLO模型,通过梯度方向感知提取器和异构核交叉融合模块解决变形表格结构识别问题,并生成数据集DWTAL。

  • Motivation: 变形表格的几何变形导致内容与结构关联性弱,影响下游任务准确性。
  • Method: 结合梯度方向感知提取器、异构核交叉融合模块、尺度感知损失函数和掩码驱动的非极大抑制。
  • Result: 模型在主流实例分割模型中表现出优异的分割精度。
  • Conclusion: 提出的模型和数据集填补了变形表格细粒度空间坐标定位的空白。

[51] Efficient Listener: Dyadic Facial Motion Synthesis via Action Diffusion

Zesheng Wang,Alexandre Bruckert,Patrick Le Callet,Guangtao Zhai

Main category: cs.CV

TL;DR: 提出了一种基于扩散方法的高效面部动作生成技术(FAD)和高效听众网络(ELNet),显著提升了听众面部动作生成的性能,并减少了99%的计算时间。

  • Motivation: 在对话中生成逼真的听众面部动作具有挑战性,现有方法因3DMM计算速度限制难以实现实时交互。
  • Method: 结合FAD(扩散方法)和ELNet(视觉与音频输入的网络),学习有效的面部动作表示。
  • Result: 性能优于现有方法,计算时间减少99%。
  • Conclusion: FAD和ELNet的组合为实时面部动作生成提供了高效解决方案。

[52] In-Context Edit: Enabling Instructional Image Editing with In-Context Generation in Large Scale Diffusion Transformer

Zechuan Zhang,Ji Xie,Yu Lu,Zongxin Yang,Yi Yang

Main category: cs.CV

TL;DR: 论文提出了一种基于指令的图像编辑方法,通过结合Diffusion Transformer(DiT)的能力和上下文感知,解决了现有方法在精度和效率上的权衡问题。

  • Motivation: 当前基于指令的图像编辑方法存在精度与效率的权衡问题:微调方法需要大量计算资源和数据,而无训练方法则难以理解指令和保证编辑质量。
  • Method: 提出了三个创新点:(1) 基于上下文提示的零样本编辑框架;(2) LoRA-MoE混合调优策略;(3) 使用视觉语言模型(VLMs)的早期过滤推理时间缩放方法。
  • Result: 实验表明,该方法优于现有技术,仅需0.5%的训练数据和1%的可训练参数。
  • Conclusion: 该工作建立了一种高精度且高效的指令引导编辑新范式。

[53] Adept: Annotation-Denoising Auxiliary Tasks with Discrete Cosine Transform Map and Keypoint for Human-Centric Pretraining

Weizhen He,Yunfeng Yan,Shixiang Tang,Yiheng Deng,Yangyang Zhong,Pengxin Luo,Donglian Qi

Main category: cs.CV

TL;DR: 论文提出了一种基于RGB图像频率空间(DCT)的人体中心预训练方法,通过丢弃深度信息并利用关键点和DCT图的辅助任务,显著提升了多项任务的性能。

  • Motivation: 现有的人体中心任务研究通常依赖深度信息或任务特定数据集,但深度信息对相机视角敏感且数据稀缺。本文旨在通过RGB图像的频率空间学习细粒度语义信息,提升数据可扩展性。
  • Method: 利用离散余弦变换(DCT)从RGB图像中提取频率空间信息,并设计关键点和DCT图的去噪辅助任务,以增强模型对人体细粒度语义的学习能力。
  • Result: 在多个数据集(如COCO、MPII、Human3.6M等)上,模型在姿态估计、人体解析、人群计数等任务中均优于现有方法,性能提升显著。
  • Conclusion: 通过频率空间学习和辅助任务设计,本文方法在无需深度信息的情况下,实现了对人体中心任务的高效预训练和性能提升。

[54] GaussTrap: Stealthy Poisoning Attacks on 3D Gaussian Splatting for Targeted Scene Confusion

Jiaxin Hong,Sixu Chen,Shuoyang Sun,Hongyao Yu,Hao Fang,Yuqi Tan,Bin Chen,Shuhan Qi,Jiawei Li

Main category: cs.CV

TL;DR: 本文首次系统研究了3D高斯泼溅(3DGS)中的后门威胁,提出了一种名为GuassTrap的新型攻击方法,能够在特定视角植入恶意视图,同时保持非目标视图的高质量渲染。

  • Motivation: 随着3DGS在安全关键领域的快速应用,亟需研究其潜在安全漏洞,尤其是后门威胁可能导致的环境误判或空间扭曲。
  • Method: GuassTrap通过三阶段流程(攻击、稳定和正常训练)植入隐蔽且视角一致的有毒渲染,优化攻击效果和感知真实性。
  • Result: 实验表明,GuassTrap能有效嵌入难以察觉的有害后门视图,同时保持正常视图的高质量渲染。
  • Conclusion: 研究揭示了3D渲染中的安全风险,GuassTrap展示了其鲁棒性和实际适用性。

[55] CMT: A Cascade MAR with Topology Predictor for Multimodal Conditional CAD Generation

Jianyu Wu,Yizhou Wang,Xiangyu Yue,Xinzhu Ma,Jingyang Guo,Dongzhan Zhou,Wanli Ouyang,Shixiang Tang

Main category: cs.CV

TL;DR: 提出了一种多模态CAD生成框架CMT,结合了级联MAR和拓扑预测器,并构建了大规模数据集mmABC,显著提升了CAD生成的性能。

  • Motivation: 现有CAD方法因简化表示或架构不足难以满足多模态设计需求,需从方法和数据集两方面解决。
  • Method: 提出级联MAR与拓扑预测器结合的CMT框架,捕捉B-Rep中的先验知识;构建包含130万B-Rep模型的多模态数据集mmABC。
  • Result: CMT在无条件生成任务中Coverage和Valid ratio分别提升10.68%和10.3%;在图像条件生成中Chamfer提升4.01。
  • Conclusion: CMT在多模态CAD生成中表现优越,数据集和代码将公开。

[56] RadSAM: Segmenting 3D radiological images with a 2D promptable model

Julien Khlaut,Elodie Ferreres,Daniel Tordjman,Hélène Philippe,Tom Boeken,Pierre Manceron,Corentin Dancette

Main category: cs.CV

TL;DR: RadSAM提出了一种基于2D模型的3D医学图像分割方法,通过单次提示实现3D对象分割,解决了现有SAM模型在医学图像处理中的不足。

  • Motivation: 医学图像分割在临床中至关重要,但现有SAM模型基于自然图像预训练,无法有效处理3D医学数据,且缺乏编辑功能。
  • Method: RadSAM通过训练2D模型,使用噪声掩模、边界框和点作为初始提示,结合迭代推理管道逐片重建3D掩模。
  • Result: 在AMOS腹部器官分割数据集上,RadSAM表现优于现有先进模型,展示了其3D分割和编辑能力。
  • Conclusion: RadSAM填补了SAM在医学图像处理中的空白,为3D医学图像分割提供了高效且灵活的解决方案。

[57] FedMVP: Federated Multi-modal Visual Prompt Tuning for Vision-Language Models

Mainak Singha,Subhankar Roy,Sarthak Mehrotra,Ankit Jha,Moloud Abdar,Biplab Banerjee,Elisa Ricci

Main category: cs.CV

TL;DR: FedMVP提出了一种联邦学习中基于多模态视觉提示调优的方法,通过结合图像和文本特征生成动态提示,提升了模型对未见概念的泛化能力。

  • Motivation: 传统文本提示调优在联邦学习中容易过拟合已知概念,且依赖记忆的文本特征,限制了其对未见概念的适应性。
  • Method: FedMVP利用PromptFormer模块通过交叉注意力对齐文本和视觉特征,生成多模态视觉提示,并结合CLIP相似性损失和一致性损失进行训练。
  • Result: 在20个数据集上的实验表明,FedMVP在保持已知分布性能的同时,对未见类和域的泛化能力优于现有方法。
  • Conclusion: FedMVP通过多模态提示调优显著提升了模型在联邦学习中的泛化能力。

[58] AI-GenBench: A New Ongoing Benchmark for AI-Generated Image Detection

Lorenzo Pellegrini,Davide Cozzolino,Serafino Pandolfini,Davide Maltoni,Matteo Ferrara,Luisa Verdoliva,Marco Prati,Marco Ramilli

Main category: cs.CV

TL;DR: Ai-GenBench是一个新的基准测试,用于检测AI生成的图像,解决了现有方法的局限性,如静态数据集和不公平比较。

  • Motivation: 生成AI的快速发展带来了高质量图像合成的能力,但也引发了媒体真实性的挑战,需要更强大的检测方法。
  • Method: Ai-GenBench采用时间评估框架,逐步训练检测模型,测试其对新型生成模型(如从GAN到扩散模型)的泛化能力。
  • Result: 该基准提供了高质量、多样化的视觉内容,克服了现有方法的局限性,并提供了标准化评估工具。
  • Conclusion: Ai-GenBench通过清晰的评估规则和可扩展的解决方案,支持开发强大的检测器以应对新型生成模型的挑战。

[59] FLIM-based Salient Object Detection Networks with Adaptive Decoders

Gilson Junior Soares,Matheus Abrantes Cerqueira,Jancarlo F. Gomes,Laurent Najman,Silvio Jamil F. Guimarães,Alexandre Xavier Falcão

Main category: cs.CV

TL;DR: 该论文提出了一种超轻量级的显著目标检测(SOD)方法,通过结合FLIM编码器和自适应解码器,显著减少了模型的计算资源需求,并在少量代表性图像上训练,无需反向传播。

  • Motivation: 研究动机是解决在有限计算资源下进行显著目标检测的问题,同时减少对大量标记数据的依赖。
  • Method: 方法包括使用FLIM编码器从少量代表性图像中学习特征,并结合自适应解码器,其权重通过启发式函数为每个输入图像动态估计。
  • Result: 实验表明,提出的FLIM网络在性能上优于现有轻量级模型,验证了其高效性和适用性。
  • Conclusion: 结论强调了进一步研究此类方法在新应用中的潜力,尤其是在资源受限和标记数据有限的场景下。

[60] Classifier-to-Bias: Toward Unsupervised Automatic Bias Detection for Visual Classifiers

Quentin Guimard,Moreno D'Incà,Massimiliano Mancini,Elisa Ricci

Main category: cs.CV

TL;DR: C2B是一个无需标注数据的偏差发现框架,通过任务描述生成偏差建议并评估模型偏差。

  • Motivation: 现有偏差识别方法依赖标注数据,限制了应用范围;C2B旨在解决这一问题。
  • Method: 利用大语言模型生成偏差建议和描述,通过检索模型收集图像并评估模型偏差。
  • Result: C2B在公开数据集上表现优于依赖标注的基线方法,能发现更多偏差。
  • Conclusion: C2B是任务无关、无监督偏差检测的有前景的第一步。

[61] DS_FusionNet: Dynamic Dual-Stream Fusion with Bidirectional Knowledge Distillation for Plant Disease Recognition

Yanghui Song,Chengfu Yang

Main category: cs.CV

TL;DR: 提出动态双流融合网络(DS_FusionNet),解决植物病害识别中的小样本学习、叶片遮挡等问题,显著提升识别精度。

  • Motivation: 全球经济作物生长安全面临严峻挑战,精确识别和预防植物病害成为农业技术中的关键问题。
  • Method: 采用双主干架构、可变形动态融合模块和双向知识蒸馏策略。
  • Result: 在PlantDisease和CIFAR-10数据集上仅用10%数据达到90%以上分类准确率,在复杂PlantWild数据集上保持85%准确率。
  • Conclusion: 研究为细粒度图像分类提供新技术思路,并为农业病害精确识别与管理奠定基础。

[62] SVD Based Least Squares for X-Ray Pneumonia Classification Using Deep Features

Mete Erdogan,Sebnem Demirtas

Main category: cs.CV

TL;DR: 提出了一种基于SVD-LS的多类肺炎分类框架,结合自监督和迁移学习模型,实现高效且准确的诊断。

  • Motivation: 通过X光影像实现肺炎的早期准确诊断对治疗至关重要,机器学习工具可辅助放射科医生提高效率和可靠性。
  • Method: 采用SVD-LS框架,利用自监督和迁移学习模型提取特征,避免计算量大的梯度微调,采用闭式非迭代分类方法。
  • Result: 实验表明SVD-LS在保持竞争力的同时显著降低计算成本,适用于实时医疗影像应用。
  • Conclusion: SVD-LS是一种高效且准确的肺炎分类方法,适合实际医疗场景。

[63] TesserAct: Learning 4D Embodied World Models

Haoyu Zhen,Qiao Sun,Hongxin Zhang,Junyan Li,Siyuan Zhou,Yilun Du,Chuang Gan

Main category: cs.CV

TL;DR: 提出了一种学习4D世界模型的方法,通过RGB-DN视频预测动态3D场景的时空演化,并支持智能体的动作响应。

  • Motivation: 传统2D模型无法捕捉场景的详细形状、配置和时间变化,限制了智能体的动态模型学习。
  • Method: 扩展机器人操作视频数据集为RGB-DN格式,微调视频生成模型以预测RGB-DN帧,并设计算法将生成的视频转换为高质量4D场景。
  • Result: 方法实现了时空一致的4D场景预测,支持新视角合成,并在策略学习上优于现有视频世界模型。
  • Conclusion: 该方法为智能体提供了更准确的动态世界模型,显著提升了策略学习效果。

[64] X-Fusion: Introducing New Modality to Frozen Large Language Models

Sicheng Mo,Thao Nguyen,Xun Huang,Siddharth Srinivasan Iyer,Yijun Li,Yuchen Liu,Abhishek Tandon,Eli Shechtman,Krishna Kumar Singh,Yong Jae Lee,Bolei Zhou,Yuheng Li

Main category: cs.CV

TL;DR: X-Fusion是一个扩展预训练大语言模型(LLMs)用于多模态任务的框架,保持其语言能力的同时整合视觉信息。

  • Motivation: 解决如何在保留LLM语言能力的同时扩展其多模态任务能力的问题。
  • Method: 采用双塔设计,冻结LLM参数,整合模态特定权重,结合视觉信息。
  • Result: 在图像到文本和文本到图像任务上表现优于其他架构,理解数据提升生成质量,减少图像噪声提升性能。
  • Conclusion: X-Fusion为构建高效统一多模态模型提供了有价值的见解。

[65] YoChameleon: Personalized Vision and Language Generation

Thao Nguyen,Krishna Kumar Singh,Jing Shi,Trung Bui,Yong Jae Lee,Yuheng Li

Main category: cs.CV

TL;DR: Yo'Chameleon是首个研究大型多模态模型个性化的方法,通过软提示调优实现特定主题的知识嵌入,支持问答和图像生成。

  • Motivation: 现有大型多模态模型缺乏个性化知识,尤其在图像生成领域。
  • Method: 使用3-5张图像输入,通过软提示调优嵌入主题信息,结合自提示优化和软正图像生成技术。
  • Result: 能够在少量样本下实现高质量的个性化问答和图像生成。
  • Conclusion: Yo'Chameleon为多模态模型个性化提供了有效解决方案,尤其在图像生成领域表现突出。

cs.AI

[66] Evolution of AI in Education: Agentic Workflows

Firuz Kamalov,David Santandreu Calonge,Linda Smail,Dilshod Azizov,Dimple R. Thadani,Theresa Kwong,Amara Atif

Main category: cs.AI

TL;DR: 本文探讨了AI代理在教育中的潜力,分析了四种设计范式(反思、规划、工具使用和多代理协作),并通过一个自动评分框架展示了其优势。

  • Motivation: 传统大型语言模型(LLMs)在教育中存在静态数据依赖、适应性和推理能力不足的问题,AI代理被视为解决这些限制的新途径。
  • Method: 通过四种设计范式(反思、规划、工具使用和多代理协作)分析AI代理在教育中的作用,并开发了一个多代理框架用于自动作文评分。
  • Result: 初步结果表明,代理方法比独立LLMs具有更高的一致性。
  • Conclusion: AI代理在教育中具有变革潜力,但需进一步研究其可解释性、可信度和对教学的可持续影响。

[67] AI Awareness

Xiaojian Li,Haoyuan Shi,Rongwu Xu,Wei Xu

Main category: cs.AI

TL;DR: 本文综述了AI意识的概念,包括元认知、自我意识、社会意识和情境意识,探讨其理论基础、评估方法及与AI能力的关系,同时指出其潜在风险。

  • Motivation: 随着AI能力的提升,研究AI意识的功能性表现及其影响变得重要。
  • Method: 结合认知科学、心理学和计算理论,分析AI意识的四种形式及其在先进AI中的表现,并评估相关实证研究。
  • Result: 研究发现AI意识与智能行为水平正相关,但也带来安全和对齐风险。
  • Conclusion: AI意识是一把双刃剑,需在提升能力的同时谨慎应对其风险,为未来研究提供方向。

[68] Spark: A System for Scientifically Creative Idea Generation

Aishik Sanyal,Samuel Schapiro,Sumuk Shashidhar,Royce Moon,Lav R. Varshney,Dilek Hakkani-Tur

Main category: cs.AI

TL;DR: 论文介绍了一个名为Spark的系统,结合检索增强的LLM生成科学创意与基于OpenReview训练的评审模型Judge,旨在推动计算创造力研究。

  • Motivation: 探索大型语言模型(LLMs)在科学创意生成中的潜力,并与计算创造力(CC)的基础原则结合。
  • Method: 开发Spark系统,结合检索增强的LLM生成创意,并训练评审模型Judge(基于60万份科学评审数据)。
  • Result: 系统展示了LLMs在科学创意生成中的应用潜力,并发布了训练Judge的数据集。
  • Conclusion: 研究为计算创造力领域提供了新方向,鼓励进一步探索LLMs在创意生成与评估中的应用。

[69] Personalized Artificial General Intelligence (AGI) via Neuroscience-Inspired Continuous Learning Systems

Rajeev Gupta,Suhani Gupta,Ronak Parikh,Divya Gupta,Amir Javaheri,Jairaj Singh Shaktawat

Main category: cs.AI

TL;DR: 本文提出了一种新型的个性化通用人工智能(AGI)架构,结合神经科学启发机制,支持边缘设备的持续学习和适应。

  • Motivation: 当前大型深度学习模型虽在任务性能上有所提升,但无法实现真正的通用人工智能(AGI),尤其是在资源受限的边缘设备上。
  • Method: 整合神经科学原理(如突触修剪、Hebbian可塑性等),设计互补的快慢学习模块和内存高效模型更新机制。
  • Result: 提出了一种理论架构,支持边缘设备的终身学习和个性化适应,并讨论了应用场景(如移动AI助手)。
  • Conclusion: 该架构为未来实现真正持续、个性化的边缘AGI提供了路线图,但仍需进一步实现。

[70] Transforming Evidence Synthesis: A Systematic Review of the Evolution of Automated Meta-Analysis in the Age of AI

Lingbo Li,Anuradha Mathrani,Teo Susnjak

Main category: cs.AI

TL;DR: 本文通过系统综述评估了自动化元分析(AMA)的现状,发现其主要集中在数据处理阶段,而高级合成阶段的研究较少,限制了全面自动化的潜力。

  • Motivation: 科学文献的指数增长推动了对高效证据合成的需求,促使AMA领域的发展。本文旨在评估AMA的当前状态和未来方向。
  • Method: 采用PRISMA系统综述方法,筛选了978篇论文(2006-2024年),并分析了54项研究,涵盖医学和非医学领域。
  • Result: 研究发现AMA主要关注数据处理(57%),而高级合成阶段(17%)和全流程自动化(2%)研究较少。AI在统计建模和高级合成中的应用仍不足。
  • Conclusion: 未来需填补自动化在各阶段的空白,提升解释性和方法稳健性,以实现AMA在跨领域合成中的潜力。

[71] Deep Physics Prior for First Order Inverse Optimization

Haoyu Yang,Kamyar Azizzadenesheli,Haoxing Ren

Main category: cs.AI

TL;DR: 本文提出了一种名为Deep Physics Prior(DPP)的新方法,用于解决逆设计优化问题,通过预训练的辅助神经算子实现梯度优化。

  • Motivation: 逆设计优化在多个领域(如半导体制造、结构工程等)面临挑战,传统方法(如生成式AI和贝叶斯优化)存在计算成本高或模型依赖性强的问题。
  • Method: DPP利用预训练的辅助神经算子,通过先验分布约束实现梯度优化,适用于先验数据和观测分布未知的情况。
  • Result: DPP能够提供稳健且有意义的解决方案,克服了传统方法的局限性。
  • Conclusion: DPP为逆设计优化提供了一种高效且可靠的新方法。

[72] mrCAD: Multimodal Refinement of Computer-aided Designs

William P. McCarthy,Saujas Vaduguru,Karl D. D. Willis,Justin Matejka,Judith E. Fan,Daniel Fried,Yewen Pu

Main category: cs.AI

TL;DR: 论文介绍了mrCAD数据集,用于研究人类如何通过多模态指令(文本和绘图)协作细化设计,并发现生成式AI在细化指令上的表现较差。

  • Motivation: 人类协作中能够迭代细化概念,而生成式AI在生成内容上表现优异,但在细化修改上存在不足,因此需要研究多模态指令的细化过程。
  • Method: 通过mrCAD数据集,记录了1,092对人类玩家在6,082场通信游戏中的15,163轮指令执行,分析了文本和绘图在多模态指令中的差异。
  • Result: 研究发现生成式AI在遵循生成指令上优于细化指令,且细化指令的组成与生成指令不同。
  • Conclusion: mrCAD为分析和建模多模态细化语言提供了基础,填补了现有数据集的空白。

[73] Leveraging Action Relational Structures for Integrated Learning and Planning

Ryan Xiao Wang,Felipe Trevizan

Main category: cs.AI

TL;DR: 论文提出了一种新的搜索空间方法——部分空间搜索,结合学习系统优化规划任务,并在性能上超越了现有方法。

  • Motivation: 传统规划方法忽视了PDDL动作模式的关系结构,而学习系统与搜索算法的结合尚未得到充分研究。
  • Method: 引入部分空间搜索和动作集启发式,利用PDDL动作模式的关系结构,并通过训练数据集自动生成启发式。
  • Result: 新规划器LazyLifted在IPC 2023学习赛道和高分支因子任务中表现优于现有方法。
  • Conclusion: 部分空间搜索与学习启发式的结合显著提升了规划任务的效率和性能。

[74] A Picture is Worth a Thousand Prompts? Efficacy of Iterative Human-Driven Prompt Refinement in Image Regeneration Tasks

Khoi Trinh,Scott Seidenberger,Raveen Wijewickrama,Murtuza Jadliwala,Anindya Maiti

Main category: cs.AI

TL;DR: 研究探讨了AI图像再生中通过迭代提示优化实现目标图像重现的效果,并验证了图像相似性指标与人类感知的一致性。

  • Motivation: 随着AI生成内容普及,研究如何通过迭代提示优化实现特定目标图像的再生,并验证现有图像相似性指标是否可靠。
  • Method: 通过结构化用户研究,评估迭代提示优化对图像相似性的影响,并比较图像相似性指标与人类感知的一致性。
  • Result: 迭代提示优化显著提升了图像对齐效果,主观评估与定量指标均验证了这一点。
  • Conclusion: 迭代工作流程在生成AI内容中具有广泛潜力,图像相似性指标可作为有效反馈机制。

[75] Skill Discovery for Software Scripting Automation via Offline Simulations with LLMs

Paiheng Xu,Gang Wu,Xiang Chen,Tong Yu,Chang Xiao,Franck Dernoncourt,Tianyi Zhou,Wei Ai,Viswanathan Swaminathan

Main category: cs.AI

TL;DR: 提出了一种离线模拟框架,通过利用LLMs和公开脚本指南,生成已验证的脚本集合,以提高自动化成功率和效率。

  • Motivation: 传统脚本编写需要编程知识,而运行时代码生成存在安全风险和效率问题,因此需要一种更安全高效的方法。
  • Method: 框架包括任务创建(功能指导和API协同探索)和技能生成(通过执行反馈验证脚本),并使用GNN模型预测API协同。
  • Result: 在Adobe Illustrator实验中,框架显著提高了自动化成功率,减少了响应时间和运行时成本。
  • Conclusion: 该框架首次将软件脚本接口作为LLM系统的测试平台,展示了在受控环境中利用执行反馈的优势。

[76] RV-Syn: Rational and Verifiable Mathematical Reasoning Data Synthesis based on Structured Function Library

Jiapeng Wang,Jinhao Jiang,Zhiqiang Zhang,Jun Zhou,Wayne Xin Zhao

Main category: cs.AI

TL;DR: RV-Syn是一种新颖的数学数据合成方法,通过构建结构化数学操作函数库和计算图,生成可验证的高质量推理数据。

  • Motivation: 现有数据合成方法在掌握问题内在逻辑和确保解决方案可验证性方面存在不足,需要更高效的方法生成数学推理数据。
  • Method: RV-Syn基于初始种子问题构建数学操作函数库,生成Python格式的计算图作为解决方案,并将其反向翻译为复杂问题。
  • Result: 实验表明,RV-Syn在数据扩展效率上优于现有方法,包括人工生成问题的方法。
  • Conclusion: RV-Syn为生成高质量推理数据集提供了可扩展的框架。

[77] Head-Tail-Aware KL Divergence in Knowledge Distillation for Spiking Neural Networks

Tianqing Zhang,Zixin Zhu,Kairong Yu,Hongwei Wang

Main category: cs.AI

TL;DR: 论文提出了一种名为HTA-KL的新知识蒸馏方法,用于提升脉冲神经网络(SNNs)的性能,通过动态区分高低概率区域并平衡知识转移。

  • Motivation: 由于现有训练方法和模型限制,SNNs的性能通常不如人工神经网络(ANNs),传统KL散度方法未能充分利用SNNs特性,导致泛化能力不足。
  • Method: 提出HTA-KL散度,引入累积概率掩码动态区分高低概率区域,结合前向和反向KL散度以平衡知识转移。
  • Result: 在CIFAR-10、CIFAR-100和Tiny ImageNet数据集上表现优于现有方法,且所需时间步更少。
  • Conclusion: HTA-KL方法有效提升了SNNs的性能,通过更平衡的知识转移解决了传统方法的不足。

[78] TAMO:Fine-Grained Root Cause Analysis via Tool-Assisted LLM Agent with Multi-Modality Observation Data

Qi Wang,Xiao Zhang,Mingyi Li,Yuan Yuan,Mengbai Xiao,Fuzhen Zhuang,Dongxiao Yu

Main category: cs.AI

TL;DR: 本文提出了一种名为TAMO的工具辅助LLM代理,用于解决微服务和云原生技术中的故障根因分析问题。通过多模态观测数据和专用工具,克服了现有LLM方法的局限性。

  • Motivation: 随着分布式系统的发展,微服务和云原生技术带来了系统复杂性和操作挑战的增加,传统根因分析依赖人工干预,难以实现自动化。LLM的突破为AIOps提供了新解决方案,但现有方法面临文本输入限制、动态服务依赖幻觉和上下文窗口限制等挑战。
  • Method: TAMO通过统一多模态观测数据为时间对齐表示,提取一致特征,并利用专用工具进行根因定位和故障分类,以感知上下文环境。通过结构化关键信息生成提示,指导LLM生成与系统上下文一致的修复策略。
  • Result: 实验结果表明,TAMO在处理异构性和常见故障类型的公共数据集时表现良好,验证了其有效性。
  • Conclusion: TAMO通过结合多模态数据和专用工具,显著提升了LLM在根因分析中的能力,为AIOps提供了实用解决方案。

[79] A Summary on GUI Agents with Foundation Models Enhanced by Reinforcement Learning

Jiahao Li,Kaer Huang

Main category: cs.AI

TL;DR: 本文总结了基于多模态大语言模型(MLLMs)的GUI代理的最新进展,重点介绍了强化学习(RL)增强的架构,并探讨了其任务形式化、模块化设计及训练方法。

  • Motivation: GUI代理作为智能交互的范式,其性能提升依赖于多模态感知和动态策略学习,本文旨在系统梳理相关技术进展。
  • Method: 将GUI代理任务形式化为马尔可夫决策过程,分析其模块化架构(感知、规划、执行),并分类训练方法(提示工程、监督微调、强化学习)。
  • Result: 多模态感知、决策推理和自适应动作生成的技术创新显著提升了GUI代理在复杂环境中的泛化能力和鲁棒性。
  • Conclusion: 未来需解决关键挑战以构建更强大可靠的GUI代理,如进一步优化多模态融合和动态策略学习。

[80] MuRAL: A Multi-Resident Ambient Sensor Dataset Annotated with Natural Language for Activities of Daily Living

Xi Chen,Julien Cumin,Fano Ramparany,Dominique Vaufreydaz

Main category: cs.AI

TL;DR: 论文介绍了MuRAL数据集,首个为多居民环境设计的自然语言标注的传感器数据集,用于评估LLM在人类活动识别中的表现。

  • Motivation: 现有数据集(如CASAS、ARAS、MARBLE)缺乏上下文丰富性和标注粒度,无法充分利用LLM的潜力。
  • Method: 收集21小时多用户传感器数据,标注自然语言描述、居民身份和高层活动标签,并评估LLM在三个核心任务中的表现。
  • Result: LLM能提供丰富的语义解释,但在处理多用户模糊性和传感器上下文不足时仍面临挑战。
  • Conclusion: MuRAL支持未来研究,推动LLM在智能环境中可解释和社交感知的活动理解。

[81] ReasonIR: Training Retrievers for Reasoning Tasks

Rulin Shao,Rui Qiao,Varsha Kishore,Niklas Muennighoff,Xi Victoria Lin,Daniela Rus,Bryan Kian Hsiang Low,Sewon Min,Wen-tau Yih,Pang Wei Koh,Luke Zettlemoyer

Main category: cs.AI

TL;DR: ReasonIR-8B是首个专为通用推理任务训练的检索模型,通过合成数据和公共数据混合训练,在推理密集型IR基准测试中取得最佳性能,并在RAG任务中显著提升表现。

  • Motivation: 现有检索模型在推理任务中表现有限,主要因为训练数据集中于简单事实查询。
  • Method: 开发合成数据生成流程,创建具有挑战性的查询和硬负样本,结合公共数据训练模型。
  • Result: 在BRIGHT基准测试中达到29.9 nDCG@10(无重排)和36.9 nDCG@10(有重排),在RAG任务中提升MMLU和GPQA性能。
  • Conclusion: ReasonIR-8B在推理任务中表现优异,训练方法通用且可扩展,代码和数据已开源。

[82] PaRT: Enhancing Proactive Social Chatbots with Personalized Real-Time Retrieval

Zihan Niu,Zheyong Xie,Shaosheng Cao,Chonggang Lu,Zheyu Ye,Tong Xu,Zuozhu Liu,Yan Gao,Jia Chen,Zhe Xu,Yi Wu,Yao Hu

Main category: cs.AI

TL;DR: PaRT框架通过个性化实时检索和生成,实现社交聊天机器人的上下文感知主动对话,显著提升对话时长。

  • Motivation: 传统聊天机器人依赖用户主动发起或维持对话,导致参与度低和对话时长缩短。
  • Method: PaRT整合用户画像和对话上下文到LLM中,生成个性化话题并检索相关知识,最终生成知识驱动的优化响应。
  • Result: 在实际生产环境中运行30天,平均对话时长提升21.77%。
  • Conclusion: PaRT框架有效提升了社交聊天机器人的主动性和用户参与度。

[83] Cognitive maps are generative programs

Marta Kryven,Cole Wyeth,Aidan Curtis,Kevin Ellis

Main category: cs.AI

TL;DR: 论文探讨人类资源高效规划可能源于将世界表示为可预测结构,提出认知地图可表现为生成程序,并通过实验和计算模型验证了程序化认知地图的假设。

  • Motivation: 研究人类如何在有限资源下构建功能性世界表征,探索认知地图是否以程序化形式利用可预测性和冗余性。
  • Method: 结合行为实验和计算模型,使用大型语言模型嵌入人类先验知识,推断程序化认知地图分布。
  • Result: 模型在预测人类行为时表现优于非结构化规划算法,计算效率更高且内存需求更低。
  • Conclusion: 人类规划策略依赖于程序化认知地图,验证了资源高效规划的假设。

[84] The Limits of AI Explainability: An Algorithmic Information Theory Approach

Shrisha Rao

Main category: cs.AI

TL;DR: 本文通过算法信息理论为AI可解释性的基本限制建立了理论基础,量化了近似误差和解释复杂性,并提出了复杂性差距定理、精确边界以及局部与全局可解释性之间的差距。

  • Motivation: 研究AI可解释性的理论限制,为设计和评估可解释AI系统提供理论基础。
  • Method: 使用Kolmogorov复杂性量化解释复杂性,提出复杂性差距定理和精确边界,分析局部与全局可解释性的差异。
  • Result: 证明解释复杂性随输入维度指数增长,但对Lipschitz函数误差容忍度多项式增长;局部解释在相关区域可显著简化。
  • Conclusion: 揭示了AI可解释性的基本限制,强调了在设计、评估和监管可解释AI系统时需考虑的理论问题。

[85] Graph-Based Fault Diagnosis for Rotating Machinery: Adaptive Segmentation and Structural Feature Integration

Moirangthem Tiken Singh

Main category: cs.AI

TL;DR: 提出了一种基于图的新型框架,用于旋转机械的多类故障诊断,具有鲁棒性和可解释性。

  • Motivation: 解决传统方法在旋转机械故障诊断中复杂度高、可解释性差的问题。
  • Method: 结合熵优化信号分割、时频特征提取和图论建模,将振动信号转换为结构化表示,并计算图度量以捕获故障特征。
  • Result: 在CWRU和SU数据集上分别达到99.8%和100%的准确率,且对噪声和跨域场景表现出强鲁棒性。
  • Conclusion: 该方法无需深度学习架构,复杂度低且可解释性强,适用于工业实时诊断。

[86] Approximate Lifted Model Construction

Malte Luttermann,Jan Speller,Marcel Gehrke,Tanya Braun,Ralf Möller,Mattis Hartwig

Main category: cs.AI

TL;DR: 论文提出了一种改进的算法ε-ACP,用于处理概率关系模型中因数据学习导致的潜在偏差问题,允许通过超参数ε控制偏差范围,同时严格限制近似误差。

  • Motivation: 传统的ACP算法要求潜在分布完全匹配才能利用不可区分性,但在实际应用中,数据学习的潜在分布难免存在偏差,导致ACP不适用。
  • Method: 提出了ε-ACP算法,通过引入超参数ε,允许潜在分布存在一定偏差,从而高效地识别和利用非精确的不可区分性。
  • Result: 理论证明ε-ACP的近似误差严格有界,实验表明实际误差接近于零。
  • Conclusion: ε-ACP算法解决了ACP在实际应用中的局限性,为概率关系模型的推理提供了更实用的工具。

[87] Partitioned Memory Storage Inspired Few-Shot Class-Incremental learning

Renye Zhang,Yimin Yin,Jinghua Zhang

Main category: cs.AI

TL;DR: 提出一种Few-Shot Class-Incremental Learning(FSCIL)新方法,通过为每个会话学习独立模型避免灾难性遗忘,并引入不确定性量化提升性能。

  • Motivation: 当前深度学习依赖大量数据且缺乏动态适应性,与人类智能差距大。FSCIL旨在用少量样本持续学习新类别而不遗忘旧知识。
  • Method: 为每个会话学习独立模型,避免稳定性-可塑性困境;测试阶段引入不确定性量化(UQ)进行模型部署。
  • Result: 在CIFAR-100和mini-ImageNet数据集上达到最先进性能。
  • Conclusion: 该方法为FSCIL提供了新视角,有效解决了灾难性遗忘问题。

[88] Ascendra: Dynamic Request Prioritization for Efficient LLM Serving

Azam Ikram,Xiang Li,Sameh Elnikety,Saurabh Bagchi

Main category: cs.AI

TL;DR: Ascendra是一种LLM服务系统,通过分区GPU资源为高低优先级实例,同时满足TTFT和TBT的SLO要求,提升吞吐量1.7倍。

  • Motivation: 现有系统常牺牲一个指标以满足另一个,无法同时优化TTFT和TBT的SLO。
  • Method: Ascendra将GPU资源分为高低优先级实例,低优先级实例优化吞吐量,高优先级实例处理紧急请求。
  • Result: 相比vLLM和Sarathi-Serve,Ascendra吞吐量提升1.7倍,同时满足TTFT和TBT的SLO。
  • Conclusion: Ascendra通过动态资源分区,有效平衡高吞吐和低延迟,优于现有系统。

[89] Disjunctive and Conjunctive Normal Form Explanations of Clusters Using Auxiliary Information

Robert F. Downey,S. S. Ravi

Main category: cs.AI

TL;DR: 该论文研究如何利用未用于聚类的辅助信息(标签)生成聚类的事后解释,包括析取形式和两子句合取范式(CNF)解释,并采用整数线性规划(ILP)和启发式方法生成解释。

  • Motivation: 探索如何通过辅助标签为聚类结果提供可解释性,帮助理解聚类背后的逻辑。
  • Method: 使用整数线性规划(ILP)和启发式方法生成析取形式和两子句CNF形式的解释。
  • Result: 通过多种数据集验证了方法的有效性,并展示了生成解释的可扩展性。
  • Conclusion: 提出的方法能够有效生成聚类解释,为理解聚类结果提供了新视角。

[90] The Leaderboard Illusion

Shivalika Singh,Yiyang Nan,Alex Wang,Daniel D'Souza,Sayash Kapoor,Ahmet Üstün,Sanmi Koyejo,Yuntian Deng,Shayne Longpre,Noah Smith,Beyza Ermis,Marzieh Fadaee,Sara Hooker

Main category: cs.AI

TL;DR: 论文指出Chatbot Arena在AI系统排名中存在系统性偏差,包括未公开的私人测试实践、选择性披露结果以及数据访问不对称,导致评分失真。

  • Motivation: 揭示Chatbot Arena在AI模型排名中的不公平现象,推动更透明和公正的基准测试。
  • Method: 通过分析私人测试实践、选择性披露和数据访问不对称,量化其对评分的影响。
  • Result: 发现私人测试和数据访问不对称导致评分偏差,开放模型在Arena中处于劣势。
  • Conclusion: 提出改进建议,以促进更公平和透明的基准测试。

[91] CBM-RAG: Demonstrating Enhanced Interpretability in Radiology Report Generation with Multi-Agent RAG and Concept Bottleneck Models

Hasan Md Tusfiqur Alam,Devansh Srivastav,Abdulrahman Mohamed Selim,Md Abdul Kadir,Md Moktadiurl Hoque Shuvo,Daniel Sonntag

Main category: cs.AI

TL;DR: 本文提出了一种结合概念瓶颈模型(CBM)和多智能体检索增强生成(RAG)系统的自动化放射学报告生成框架,旨在提升AI的可解释性和可靠性。

  • Motivation: 生成式AI在放射学工作流程自动化中具有潜力,但可解释性和可靠性问题阻碍了临床采用。
  • Method: 通过CBM将胸部X射线特征映射为临床概念,结合多智能体RAG系统生成基于证据的报告。
  • Result: 系统能够提供可解释的预测、减少幻觉,并生成高质量、定制化的报告。
  • Conclusion: 该框架为提升诊断一致性和为放射科医生提供可操作的见解提供了途径。

[92] Leveraging Generative AI Through Prompt Engineering and Rigorous Validation to Create Comprehensive Synthetic Datasets for AI Training in Healthcare

Polycarp Nalela

Main category: cs.AI

TL;DR: 利用GPT-4 API生成高质量合成医疗数据,解决隐私问题,并通过多种模型验证数据质量。

  • Motivation: 医疗数据因隐私问题难以获取,限制了AI算法的训练。
  • Method: 采用GPT-4 API生成合成数据,并使用BERT、GPT-2、RoBERTa等模型进行验证。
  • Result: 成功生成并通过验证的高质量合成数据,集成到PostgreSQL数据库中。
  • Conclusion: 生成式AI结合严格验证可有效解决隐私问题,支持AI算法训练。

[93] A Domain-Agnostic Scalable AI Safety Ensuring Framework

Beomjun Kim,Kangyeon Kim,Sunwoo Kim,Heejin Ahn

Main category: cs.AI

TL;DR: 提出了一种新型AI安全框架,确保AI系统满足用户定义的约束条件,具有高概率且跨领域适用。

  • Motivation: 当前AI安全方法局限于特定领域,难以泛化,因此需要一种更通用的安全框架。
  • Method: 结合AI组件与优化问题,通过内部测试数据和保守测试方法确保约束满足概率。
  • Result: 数学证明约束满足概率的保证,实验显示在多个领域优于现有方法。
  • Conclusion: 该框架在保证安全性的同时,具有高泛化能力和扩展性。

[94] ChestX-Reasoner: Advancing Radiology Foundation Models with Reasoning through Step-by-Step Verification

Ziqing Fan,Cheng Liang,Chaoyi Wu,Ya Zhang,Yanfeng Wang,Weidi Xie

Main category: cs.AI

TL;DR: ChestX-Reasoner是一种放射学诊断多模态大语言模型(MLLM),通过临床报告中的结构化推理过程提升性能,显著优于现有医学和通用领域MLLM。

  • Motivation: 医学AI模型常忽略临床实践中的结构化推理过程,ChestX-Reasoner旨在填补这一空白。
  • Method: 利用临床报告构建大规模数据集,采用两阶段训练框架(监督微调和强化学习),并引入新基准和评估指标。
  • Result: 在诊断准确性和推理能力上显著优于现有模型,推理能力提升16%、5.9%和18%,结果准确性提升3.3%、24%和27%。
  • Conclusion: ChestX-Reasoner通过结构化推理和临床对齐,显著提升医学MLLM性能,所有资源已开源。

[95] Jekyll-and-Hyde Tipping Point in an AI's Behavior

Neil F. Johnson,Frank Yingjie Huo

Main category: cs.AI

TL;DR: 论文提出了一个基于基本原理的公式,用于预测LLM(如ChatGPT)输出何时会突然变得错误、误导、无关或危险,从而解决公众对AI信任的问题。

  • Motivation: 当前缺乏科学方法预测或解释LLM输出的突然变化,导致公众对AI的信任不足,甚至引发对LLM的过度礼貌行为。
  • Method: 通过从基本原理推导出一个精确公式,分析LLM注意力分散导致输出突变的临界点,仅需中学数学知识。
  • Result: 该公式能定量预测如何通过改变提示或训练延迟或防止突变,并为政策制定者提供讨论AI风险的平台。
  • Conclusion: 研究为公众和政策制定者提供了透明、清晰的答案,解决了LLM使用中的信任和风险问题。

[96] LTLf Adaptive Synthesis for Multi-Tier Goals in Nondeterministic Domains

Giuseppe De Giacomo,Gianmarco Parretti,Shufang Zhu

Main category: cs.AI

TL;DR: 论文提出了一种用于多目标LTLf合成的自适应策略方法,能够在非确定性规划领域中动态满足多层级目标。

  • Motivation: 研究动机是解决在非确定性环境中如何动态满足多层级LTLf目标的问题,同时利用环境可能的合作来优化策略。
  • Method: 采用博弈论技术,提出了一种多项式时间(二次)算法来计算自适应策略,确保策略的完备性和正确性。
  • Result: 结果表明,该方法在处理多层级目标时仅比标准LTLf合成增加少量计算开销。
  • Conclusion: 结论是该方法高效且实用,适用于复杂环境中的多目标合成问题。

eess.IV

[97] SCOPE-MRI: Bankart Lesion Detection as a Case Study in Data Curation and Deep Learning for Challenging Diagnoses

Sahil Sethi,Sai Reddy,Mansi Sakarvadia,Jordan Serotte,Darlington Nwaudo,Nicholas Maassen,Lewis Shi

Main category: eess.IV

TL;DR: ScopeMRI是首个公开的肩部病理数据集,结合深度学习框架,用于检测Bankart病变,性能达到或超过放射科医生水平。

  • Motivation: 现有研究多关注易于诊断的病理,而Bankart病变因影像特征细微且依赖侵入性检查(MRA)而未被充分研究。
  • Method: 使用CNN和Transformer结合的方法,训练分别针对标准MRI和MRA的模型,并通过多视角集成优化性能。
  • Result: 模型在标准MRI和MRA上的AUC分别为0.91和0.93,敏感性和特异性表现优异,性能媲美放射科医生。
  • Conclusion: 深度学习模型可在标准MRI上实现高精度诊断,减少对侵入性MRA的依赖,ScopeMRI的发布将推动相关研究。

[98] LymphAtlas- A Unified Multimodal Lymphoma Imaging Repository Delivering AI-Enhanced Diagnostic Insight

Jiajun Ding,Beiyao Zhu,Xiaosheng Liu,Lishen Zhang,Zhao Liu

Main category: eess.IV

TL;DR: 该研究整合PET代谢信息与CT解剖结构,构建了基于全身FDG PET/CT检查的淋巴瘤3D多模态分割数据集,填补了血液恶性肿瘤领域标准化多模态分割数据集的空白。

  • Motivation: 解决血液恶性肿瘤领域缺乏标准化多模态分割数据集的问题,支持淋巴瘤的精确分割与定量分析。
  • Method: 回顾性收集483例检查数据(220名患者),保留完整3D结构信息,基于nnUNet格式构建高质量数据集,并通过技术验证和深度学习模型评估。
  • Result: 深度学习模型在该数据集上实现了高精度、强鲁棒性和可重复性的淋巴瘤病灶分割,证明了数据集的适用性和稳定性。
  • Conclusion: 该数据集显著提升了肿瘤病灶形态、位置及代谢特征的精确描绘,为早期诊断、临床分期和个性化治疗提供了数据支持,推动了基于深度学习的自动化图像分割和精准医学发展。

[99] SAM-Guided Robust Representation Learning for One-Shot 3D Medical Image Segmentation

Jia Wang,Yunan Mei,Jiarui Liu,Xin Fan

Main category: eess.IV

TL;DR: 提出了一种名为RRL-MedSAM的新型框架,通过知识蒸馏和互更新策略,将SAM适配到一次性3D医学图像分割任务中,显著降低了计算成本并提升了性能。

  • Motivation: 解决SAM在一次性医学图像分割中依赖人工交互和高计算成本的问题。
  • Method: 采用双阶段知识蒸馏策略和互指数移动平均更新权重,结合自动提示分割解码器提升性能。
  • Result: 在OASIS和CT-lung数据集上表现优于现有方法,轻量级编码器参数仅为SAM-Base的3%。
  • Conclusion: RRL-MedSAM在一次性医学图像分割中表现出色,同时显著降低了计算资源需求。

cs.IR

[100] HCT-QA: A Benchmark for Question Answering on Human-Centric Tables

Mohammad S. Ahmad,Zan A. Naeem,Michaël Aupetit,Ahmed Elmagarmid,Mohamed Eltabakh,Xiasong Ma,Mourad Ouzzani,Chaoyi Ruan

Main category: cs.IR

TL;DR: 论文提出了HCT-QA基准,用于评估大型语言模型处理复杂人类中心表格(HCTs)的能力,包含真实和合成表格及问答对。

  • Motivation: HCTs具有高商业价值但复杂布局,传统方法难以处理,需新解决方案。
  • Method: 构建HCT-QA基准,包含真实和合成表格及问答对,评估大型语言模型的查询能力。
  • Result: 数据集包含2,188真实HCTs和4,679合成表格,分别有9,835和67.5K问答对。
  • Conclusion: HCT-QA为评估大型语言模型处理复杂表格提供了基准,填补了传统方法的不足。

[101] Recommending Clinical Trials for Online Patient Cases using Artificial Intelligence

Joey Chan,Qiao Jin,Nicholas Wan,Charalampos S. Floudas,Elisabetta Xue,Zhiyong Lu

Main category: cs.IR

TL;DR: TrialGPT利用大型语言模型匹配患者案例与临床试验,表现优于传统关键词搜索46%,并获积极反馈。

  • Motivation: 解决临床试验招募中的挑战,如患者意识不足和复杂资格标准,利用在线平台潜力。
  • Method: 使用TrialGPT框架(基于LLM)匹配50例在线患者案例至临床试验,对比传统关键词搜索。
  • Result: TrialGPT识别合格试验的能力比传统方法高46%,平均每位患者匹配7项试验。
  • Conclusion: TrialGPT在临床试验匹配中表现优异,且获得患者和试验组织者的积极反馈。

[102] A model and package for German ColBERT

Thuong Dang,Qiqi Chen

Main category: cs.IR

TL;DR: 本文介绍了ColBERT的德语版本,专注于RAG应用,并展示了支持检索和微调工作流程的ColBERT模型包的主要功能。

  • Motivation: 为德语用户提供ColBERT的本地化版本,并支持RAG应用,同时开发一个功能全面的工具包。
  • Method: 开发了ColBERT的德语版本,并设计了支持检索和微调工作流程的模型包。
  • Result: 成功实现了德语版ColBERT,并提供了功能完善的模型包。
  • Conclusion: 该工作为德语用户提供了高效的检索工具,并扩展了ColBERT的应用范围。

[103] An Integrated Framework for Contextual Personalized LLM-Based Food Recommendation

Ali Rostami

Main category: cs.IR

TL;DR: 论文提出了一种针对食品推荐系统的个性化框架F-RLP,解决了传统方法在食品领域的不足,并通过多媒体日志平台和地理分析工具提升了数据质量。

  • Motivation: 传统食品推荐系统因组件理解不足和数据不平衡表现不佳,而现有通用语言模型缺乏针对性。
  • Method: 提出F-RLP框架,结合多媒体食品日志平台和地理分析工具,专门优化食品推荐。
  • Result: F-RLP框架克服了通用模型的限制,实现了更有效的个性化食品推荐。
  • Conclusion: F-RLP为食品推荐领域提供了创新的解决方案,显著提升了推荐效果。

[104] TreeHop: Generate and Filter Next Query Embeddings Efficiently for Multi-hop Question Answering

Zhonghao Li,Kunpeng Zhang,Jinghuai Ou,Shuliang Liu,Xuming Hu

Main category: cs.IR

TL;DR: TreeHop提出了一种无需LLM查询重写的嵌入级框架,通过动态更新查询嵌入和嵌入空间操作,显著降低了计算开销,同时保持了多跳问答任务的高性能。

  • Motivation: 解决现有RAG系统在多跳问答中因迭代LLM查询重写和路由导致的高计算成本问题。
  • Method: 提出TreeHop框架,通过动态更新查询嵌入和嵌入空间操作实现迭代检索,并引入规则停止准则以减少冗余检索。
  • Result: 在三个开放域MHQA数据集上性能媲美先进RAG方法,模型参数量仅5%-0.4%,查询延迟降低约99%。
  • Conclusion: TreeHop是一种更快速、成本效益更高的解决方案,适用于知识密集型应用。

[105] OpenTCM: A GraphRAG-Empowered LLM-based System for Traditional Chinese Medicine Knowledge Retrieval and Diagnosis

Jinglin He,Yunqi Guo,Lai Kwan Lam,Waikei Leung,Lixing He,Yuanan Jiang,Chi Chiu Wang,Guoliang Xing,Hongkai Chen

Main category: cs.IR

TL;DR: OpenTCM是一个基于LLM的系统,结合了中医知识图谱和图增强检索生成技术,旨在解决中医文献的复杂性和语义关系建模问题,取得了高精度和专家评分。

  • Motivation: 中医文献复杂且难以解读,AI技术的整合对中医现代化和普及至关重要。
  • Method: 从中医经典数据库中提取数据,构建多关系知识图谱,并结合LLM技术开发OpenTCM系统。
  • Result: 知识图谱精度达98.55%,F1分数99.55%;OpenTCM在成分检索和诊断问答任务中表现优异。
  • Conclusion: OpenTCM为中医现代化提供了高效工具,显著提升了知识检索和诊断问答的准确性。

[106] Can LLMs Be Trusted for Evaluating RAG Systems? A Survey of Methods and Datasets

Lorenz Brehme,Thomas Ströhle,Ruth Breu

Main category: cs.IR

TL;DR: 本文系统综述了63篇学术文章,全面概述了RAG系统的最新评估方法,重点关注数据集、检索器、索引与数据库以及生成器组件,并提出自动化评估的可行性。

  • Motivation: RAG系统的复杂性使其评估和质量提升面临挑战,需系统化方法以记录进展、比较配置并为领域应用提供指导。
  • Method: 通过系统综述63篇学术文章,分析RAG系统的四个关键组件,并探讨利用LLM进行自动化评估的可行性。
  • Result: 研究发现自动化评估方法可行,但需进一步实践研究以指导企业实施和评估RAG系统。
  • Conclusion: 本文通过综合RAG组件评估方法,强调领域特定数据集的创建与适应,推动了系统化评估方法的进步,并探讨了自动化与人工评估的平衡。

[107] Enhancing News Recommendation with Hierarchical LLM Prompting

Hai-Dang Kieu,Delvin Ce Zhang,Minh Duc Nguyen,Min Xu,Qiang Wu,Dung D. Le

Main category: cs.IR

TL;DR: PNR-LLM利用大语言模型(LLM)生成新闻标题和摘要的深层语义信息,提升个性化新闻推荐质量。

  • Motivation: 现有推荐系统依赖浅层内容(如标题和摘要),难以捕捉用户偏好的复杂性。
  • Method: 提出PNR-LLM方法,包含新闻增强模块(利用LLM生成语义和实体信息)和注意力机制聚合数据。
  • Result: 在MIND数据集上表现优于现有方法,且增强模块可提升其他模型的性能。
  • Conclusion: PNR-LLM通过LLM增强内容表示,显著提升推荐效果,具有通用性。

[108] Information Retrieval in the Age of Generative AI: The RGB Model

Michele Garetto,Alessandro Cornacchia,Franco Galante,Emilio Leonardi,Alessandro Nordio,Alberto Tarable

Main category: cs.IR

TL;DR: 本文提出了一种定量方法,研究生成式AI工具使用增加带来的信息动态变化,发现其快速普及可能加剧不准确信息的传播风险。

  • Motivation: 研究生成式AI工具对信息检索和处理的深远影响,尤其是内容真实性和可靠性的问题。
  • Method: 提出随机模型,描述信息生成、索引和传播的动态过程,并结合Stack Exchange数据进行验证。
  • Result: 生成式AI的快速普及可能超越人工验证速度,增加不准确信息传播的风险。
  • Conclusion: 强调未来生成式AI工具需负责任地开发和部署,以减少潜在风险。

[109] X-Cross: Dynamic Integration of Language Models for Cross-Domain Sequential Recommendation

Guy Hadad,Haggai Roitman,Yotam Eshel,Bracha Shapira,Lior Rokach

Main category: cs.IR

TL;DR: X-Cross是一种新型跨域序列推荐模型,通过集成多个域特定语言模型,动态优化表示,减少参数和训练数据需求,提升跨域推荐性能。

  • Motivation: 解决推荐系统在新领域中快速适应且无需大量重新训练的问题。
  • Method: 使用低秩适配器(LoRA)微调域特定语言模型,动态整合各模型知识,逐层优化表示。
  • Result: 在亚马逊数据集上,X-Cross性能接近LoRA微调模型,参数减少75%;跨域任务中,微调数据需求减少50%-75%,准确性显著提升。
  • Conclusion: X-Cross提供了一种高效、可扩展的跨域推荐解决方案,降低计算开销,适用于数据受限环境。

cs.RO

[110] DRO: Doppler-Aware Direct Radar Odometry

Cedric Le Gentil,Leonardo Brizi,Daniil Lisus,Xinyuan Qiao,Giorgio Grisetti,Timothy D. Barfoot

Main category: cs.RO

TL;DR: 提出了一种新型的SE(2)里程计方法,用于旋转调频连续波雷达,通过直接扫描到局部地图的配准,无需特征提取,显著提升了在恶劣天气和特征匮乏环境中的性能。

  • Motivation: 毫米波雷达能够穿透薄壁、植被和恶劣天气条件(如大雨、雾、雪和灰尘),在移动机器人应用中具有独特优势。
  • Method: 采用直接扫描到局部地图的配准方法,利用所有雷达强度信息,无需特征或点云提取,并引入多普勒约束以提高速度估计。
  • Result: 在超过250公里的道路数据上验证,相对平移误差仅为0.26%(使用陀螺仪辅助时),在支持多普勒调制的场景中降至0.18%。
  • Conclusion: 该方法在恶劣天气和特征匮乏环境中表现出色,实时实现已开源。

[111] Hydra: Marker-Free RGB-D Hand-Eye Calibration

Martin Huber,Huanyu Tian,Christopher E. Mower,Lucas-Raphael Müller,Sébastien Ourselin,Christos Bergeles,Tom Vercauteren

Main category: cs.RO

TL;DR: 提出一种基于RGB-D成像的无标记手眼标定方法,采用改进的ICP算法和鲁棒点对面目标函数,在实验中表现出更高的收敛速度和精度。

  • Motivation: 传统手眼标定方法依赖标记物,限制了应用场景。本文旨在开发一种无标记、高效且高精度的标定方法。
  • Method: 使用改进的ICP算法,结合鲁棒点对面目标函数和Lie代数,通过RGB-D相机和机器人配置实现标定。
  • Result: 仅需3个随机机器人配置即可实现约90%的成功率,收敛速度比基线方法快2-3倍,精度达5 mm。
  • Conclusion: 该方法在无标记条件下显著提升了标定的效率和精度,适用于实际部署。

[112] Learning a General Model: Folding Clothing with Topological Dynamics

Yiming Liu,Lijun Han,Enlin Gu,Hesheng Wang

Main category: cs.RO

TL;DR: 提出了一种基于拓扑动力学模型的衣物折叠方法,利用拓扑图表示衣物状态,结合语义分割和图神经网络(GNN)预测衣物变形,实验验证了其有效性。

  • Motivation: 衣物自由度多、结构复杂,传统方法难以处理其折叠问题。
  • Method: 通过语义分割分析遮挡关系,结合关键点检测生成拓扑图,改进的GNN学习动力学并预测变形。
  • Result: 实验证明该方法能有效识别和折叠具有自遮挡的复杂衣物(如夹克)。
  • Conclusion: 拓扑动力学模型为复杂衣物折叠提供了通用解决方案。

[113] A Survey on Event-based Optical Marker Systems

Nafiseh Jabbari Tofighi,Maxime Robic,Fabio Morbidi,Pascal Vasseur

Main category: cs.RO

TL;DR: 本文综述了基于事件的视觉标记系统(EBOMS),分析了其异步操作和对恶劣光照条件的鲁棒性,并探讨了其应用和未来研究方向。

  • Motivation: 事件相机的低延迟、高动态范围和低功耗特性为机器人视觉和机器感知带来了变革,结合光学标记(如AprilTags、LED阵列)为EBOMS提供了广阔的应用前景。
  • Method: 综述了EBOMS的基本原理和技术,重点分析其异步操作和对恶劣光照的适应性。
  • Result: EBOMS在目标检测与跟踪、姿态估计和光学通信等领域有重要应用。
  • Conclusion: EBOMS是一个快速发展的多学科领域,未来研究可进一步探索其潜力。

[114] PRISM: Projection-based Reward Integration for Scene-Aware Real-to-Sim-to-Real Transfer with Few Demonstrations

Haowen Sun,Han Wang,Chengzhong Ma,Shaolong Zhang,Jiawei Ye,Xingyu Chen,Xuguang Lan

Main category: cs.RO

TL;DR: 提出了一种结合真实到仿真再到真实的流程,通过专家演示构建仿真环境,并利用视觉语言模型(VLM)监督的奖励模型训练RL策略,最终实现可靠的机器人控制策略。

  • Motivation: 解决机器人初始位置和物体姿态变化下的策略鲁棒性问题,同时避免直接交互的不安全性和仿真环境构建的高成本。
  • Method: 通过专家演示构建仿真环境,利用VLM监督的投影奖励模型训练RL策略,并结合专家演示进行微调。
  • Result: 实现了在真实场景中部署可靠的机器人控制策略。
  • Conclusion: 提出的流程有效解决了仿真环境构建和策略训练的问题,为机器人控制提供了实用解决方案。

[115] SoccerDiffusion: Toward Learning End-to-End Humanoid Robot Soccer from Gameplay Recordings

Florian Vahl,Jörn Griepenburg,Jan Gutsche,Jasper Güldenstein,Jianwei Zhang

Main category: cs.RO

TL;DR: SoccerDiffusion是一种基于Transformer的扩散模型,用于从真实足球比赛录像中学习人形机器人足球的端到端控制策略。

  • Motivation: 通过从RoboCup比赛中收集的数据,直接学习复杂的运动行为(如行走、踢球和跌倒恢复),为人形机器人足球提供高效的控制策略。
  • Method: 使用多模态传感器输入(视觉、本体感觉和游戏状态)预测关节指令轨迹,并通过蒸馏技术将多步扩散过程简化为单步推理,实现嵌入式平台的实时性能。
  • Result: 模型在仿真和物理机器人上成功复现了复杂运动行为,但高级战术行为仍有局限。
  • Conclusion: 该工作为后续强化学习或偏好优化方法提供了坚实基础,并公开了数据集、预训练模型和代码。

cs.LG

[116] A constraints-based approach to fully interpretable neural networks for detecting learner behaviors

Juan D. Pinto,Luc Paquette

Main category: cs.LG

TL;DR: 论文提出了一种设计上可解释的神经网络行为检测模型,通过约束模型实现完全可解释性,并在检测“游戏系统”行为任务中验证了其有效性。

  • Motivation: 随着复杂机器学习模型在教育中的应用增加,其可解释性问题引发关注,需要开发既忠实于模型内部机制又易于人类理解的解释技术。
  • Method: 通过一系列约束设计完全可解释的神经网络模型,简化推理过程并使其更接近人类对任务的理解。
  • Result: 模型成功学习了“游戏系统”行为的模式,并能提供完全可解释的解释,与人类专家的识别模式一致。
  • Conclusion: 该方法展示了设计可解释模型的可行性,并提出了基于人类理解的解释性评估方法。

[117] A Simple Review of EEG Foundation Models: Datasets, Advancements and Future Perspectives

Junhong Lai,Jiyu Wei,Lin Yao,Yueming Wang

Main category: cs.LG

TL;DR: 本文综述了EEG基础模型(EEG-FMs)的最新发展,包括其架构、预训练策略、数据集及挑战与未来方向。

  • Motivation: EEG信号在理解大脑活动和诊断神经疾病中至关重要,EEG-FMs为EEG数据处理提供了新方法。
  • Method: 讨论了多种EEG-FMs的架构、预训练策略及数据集。
  • Result: EEG-FMs在EEG数据处理中展现出巨大潜力。
  • Conclusion: 综述为研究者提供了EEG-FMs的全面概述,并指出了未来研究方向。

[118] RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning

Zihan Wang,Kangrui Wang,Qineng Wang,Pingyue Zhang,Linjie Li,Zhengyuan Yang,Kefan Yu,Minh Nhat Nguyen,Licheng Liu,Eli Gottlieb,Monica Lam,Yiping Lu,Kyunghyun Cho,Jiajun Wu,Li Fei-Fei,Lijuan Wang,Yejin Choi,Manling Li

Main category: cs.LG

TL;DR: 论文提出了StarPO框架和RAGEN系统,用于训练LLM作为交互式代理,解决了多轮RL训练中的挑战,如Echo Trap模式,并提出了优化方法。

  • Motivation: 训练大型语言模型(LLM)作为交互式代理面临长期决策和随机环境反馈的挑战,多轮代理RL训练尚未充分探索。
  • Method: 提出StarPO框架和RAGEN系统,通过轨迹级RL训练代理,并引入StarPO-S优化方法解决Echo Trap问题。
  • Result: 研究发现Echo Trap模式,优化方法有效;RL训练需多样初始状态和适中交互粒度;细粒度奖励信号对代理推理至关重要。
  • Conclusion: StarPO和RAGEN为LLM代理RL训练提供了有效框架,优化方法解决了关键问题,强调了奖励信号的重要性。

[119] FX-DARTS: Designing Topology-unconstrained Architectures with Differentiable Architecture Search and Entropy-based Super-network Shrinking

Xuan Rao,Bo Zhao,Derong Liu,Cesare Alippi

Main category: cs.LG

TL;DR: FX-DARTS通过消除DARTS中的先验约束,提出ESS框架,提升架构灵活性,实现稳定搜索。

  • Motivation: DARTS中的强先验约束限制了架构搜索的灵活性,阻碍了Auto-ML的发展。
  • Method: 提出FX-DARTS方法,取消单元拓扑限制,改进超网络离散化机制,利用ESS框架稳定搜索。
  • Result: 在图像分类任务中,FX-DARTS能搜索到性能与计算复杂度平衡的架构。
  • Conclusion: FX-DARTS通过减少先验约束,提升了架构搜索的灵活性和稳定性。

[120] DNAD: Differentiable Neural Architecture Distillation

Xuan Rao,Bo Zhao,Derong Liu

Main category: cs.LG

TL;DR: DNAD算法通过结合搜索删除和模仿搜索,设计高效神经网络,平衡性能和计算复杂度。SNPS和DNAD在CIFAR-10和ImageNet上表现优异。

  • Motivation: 设计高效神经网络,平衡模型性能和计算复杂度。
  • Method: 开发DNAD算法,基于搜索删除(SNPS)和模仿搜索(KD结合SNPS)。SNPS通过动态收缩超级网络生成灵活结构。
  • Result: SNPS和DNAD在CIFAR-10和ImageNet上实现低错误率和较少参数/FLOPs。DNAD在ImageNet上达到23.7% top-1错误率。
  • Conclusion: DNAD和SNPS能生成高性能、低复杂度的神经网络架构,优于传统DARTS方法。

[121] Decoding Latent Spaces: Assessing the Interpretability of Time Series Foundation Models for Visual Analytics

Inmaculada Santamaria-Valenzuela,Victor Rodriguez-Fernandez,Javier Huertas-Tato,Jong Hyuk Park,David Camacho

Main category: cs.LG

TL;DR: 研究探讨了时间序列基础模型(如MOMENT)潜在空间的可解释性,发现其虽在性能上有提升,但潜在空间的解释性仍需改进。

  • Motivation: 探索时间序列基础模型潜在空间的可解释性,以支持可视化分析任务。
  • Method: 评估MOMENT模型在五种数据集上的表现,分析其潜在空间捕捉时间序列结构的能力,并验证微调对嵌入空间清晰度的影响。
  • Result: 微调后性能提升(损失减少),但潜在空间的可解释性改进有限。
  • Conclusion: 时间序列基础模型虽高效,但潜在空间解释性需进一步优化(如改进投影技术或损失函数)。

[122] HyboWaveNet: Hyperbolic Graph Neural Networks with Multi-Scale Wavelet Transform for Protein-Protein Interaction Prediction

Qingzhi Yu,Shuai Yan,Wenfeng Dai,Xiang Cheng

Main category: cs.LG

TL;DR: HyboWaveNet结合双曲图神经网络和多尺度图小波变换,提升蛋白质相互作用预测的准确性和可解释性。

  • Motivation: 现有神经网络方法在蛋白质相互作用预测中缺乏因果解释,难以捕捉多尺度动态交互模式。
  • Method: 利用双曲空间映射蛋白质特征,结合多尺度图小波变换提取局部和全局特征,通过对比学习预测相互作用。
  • Result: 实验显示HyboWaveNet优于现有方法,多尺度图小波变换模块显著提升性能。
  • Conclusion: HyboWaveNet将几何深度学习与信号处理结合,为复杂生物系统分析提供新思路。

[123] Adaptive Helpfulness-Harmlessness Alignment with Preference Vectors

Ren-Wei Liang,Chin-Ting Hsu,Chan-Hung Yu,Saransh Agrawal,Shih-Cheng Huang,Shang-Tse Chen,Kuan-Hao Huang,Shao-Hua Sun

Main category: cs.LG

TL;DR: 论文提出了一种名为Preference Vector的新框架,通过分离训练和动态合并偏好向量,解决了现有方法在性能冲突、可控性和扩展性上的不足。

  • Motivation: 大型语言模型(LLMs)需要在帮助性和无害性之间取得平衡,现有方法(如RLHF和DPO)存在性能冲突、可控性差和扩展性不足的问题。
  • Method: 提出Preference Vector框架,通过单独训练模型提取偏好向量,并在测试时动态合并,实现细粒度控制和扩展性。
  • Result: 实验表明,该框架在提升帮助性的同时避免了过度保守,支持平滑的偏好权衡和可扩展的多偏好对齐。
  • Conclusion: Preference Vector框架为LLMs的偏好调整提供了灵活、可控且可扩展的解决方案。

[124] Supervised Pretraining for Material Property Prediction

Chowdhury Mohammad Abid Rahman,Aldo H. Romero,Prashnna K. Gyawali

Main category: cs.LG

TL;DR: 该论文提出了一种基于监督预训练的自监督学习方法,用于材料属性预测,通过引入图增强技术和代理标签,显著提升了预测性能。

  • Motivation: 传统深度学习方法依赖大量标注数据,成本高且耗时。自监督学习(SSL)提供了一种替代方案,但如何有效利用现有标签信息提升预训练效果尚待探索。
  • Method: 提出监督预训练策略,利用代理标签指导学习;引入图增强技术增强鲁棒性;在两种SSL模型上评估,并开发新框架。
  • Result: 在六种材料属性预测任务中,性能显著提升,MAE改善2%至6.67%,确立了新基准。
  • Conclusion: 该研究首次探索了在材料属性预测中使用代理标签的监督预训练,推动了该领域的方法和应用发展。

[125] LZ Penalty: An information-theoretic repetition penalty for autoregressive language models

Antonio A. Ginart,Naveen Kodali,Jason Lee,Caiming Xiong,Silvio Savarese,John R. Emmons

Main category: cs.LG

TL;DR: LZ惩罚是一种用于减少自回归语言模型中退化重复的专用惩罚方法,基于LZ77无损压缩算法的编码长度,通过预测-压缩对偶性实现。

  • Motivation: 解决自回归语言模型中退化重复问题,同时保持模型能力。
  • Method: 基于LZ77算法的编码长度设计惩罚机制,通过预测-压缩对偶性移除高度可压缩信息。
  • Result: LZ惩罚使开源推理模型在贪婪解码下无退化重复,优于行业标准的频率和重复惩罚方法。
  • Conclusion: LZ惩罚有效解决了退化重复问题,提升了模型解码的稳定性。

[126] Causal Identification in Time Series Models

Erik Jahn,Karthik Karnik,Leonard J. Schulman

Main category: cs.LG

TL;DR: 论文研究了因果识别算法在含潜在混杂因子的因果时间序列图中的应用,提出了一个仅依赖于每时间步变量数量和最大时间滞后的边界条件。

  • Motivation: 由于时间序列图涉及无限时间步,确定任意时间间隔的因果效应是否可识别需要处理无界大小的图段,目前缺乏相关边界条件。
  • Method: 通过分析因果时间序列图的特性,提出一个仅依赖于每时间步变量数量和最大时间滞后的边界条件,并证明恒定大小图段足以判断因果效应的可识别性。
  • Result: 首次提出了一个边界条件,证明恒定大小图段足以判断因果效应的可识别性。
  • Conclusion: 该研究为因果时间序列图的可识别性问题提供了理论支持,简化了实际应用中的计算复杂度。

[127] AI Recommendation Systems for Lane-Changing Using Adherence-Aware Reinforcement Learning

Weihao Sun,Heeseung Bang,Andreas A. Malikopoulos

Main category: cs.LG

TL;DR: 提出了一种基于强化学习的车道变换推荐方法,考虑人类驾驶员的部分遵从性,以提高半自动驾驶环境中的行驶效率。

  • Motivation: 在半自动驾驶环境中,人类驾驶员对推荐动作的部分遵从性可能影响行驶效率,因此需要一种能够适应这种行为的优化方法。
  • Method: 采用马尔可夫决策过程框架,设计了一种考虑驾驶员遵从性的深度Q网络(DQN),并在CARLA驾驶环境中进行测试。
  • Result: 在CARLA的模拟环境中验证了该方法的有效性。
  • Conclusion: 该方法能够有效提升半自动驾驶环境中的行驶效率,同时考虑了人类驾驶员的行为特点。

[128] Representation Learning on a Random Lattice

Aryeh Brill

Main category: cs.LG

TL;DR: 论文提出了一种几何视角,将深度神经网络的表示分解为可解释特征,以提升其安全性和可靠性。

  • Motivation: 通过理解深度神经网络的特征表示,提升模型的安全性和可靠性。
  • Method: 采用几何视角,将特征视为嵌入数据分布的坐标系,并基于随机格点模型分析其性质。
  • Result: 特征被分类为上下文、组件和表面特征,与现有机制解释性研究一致。
  • Conclusion: 模型为未来研究提供了方向,支持对神经网络特征的进一步理解。

[129] Can Large Language Models Learn Formal Logic? A Data-Driven Training and Evaluation Framework

Yuan Xia,Akanksha Atrey,Fadoua Khmaissia,Kedar S. Namjoshi

Main category: cs.LG

TL;DR: 论文研究了大型语言模型(LLMs)的逻辑推理能力,通过布尔逻辑中的证明构建任务评估其表现。提出了一种高效的数据增强方法(模板变换),实验显示模型在短证明任务中表现良好,但随着证明复杂度增加,能力下降。

  • Motivation: 探索LLMs是否具备真正的逻辑推理能力,而非仅依赖模式匹配。
  • Method: 使用布尔逻辑证明构建任务,结合自动证明检查器验证正确性。提出模板变换技术增强数据多样性。
  • Result: 模型在短证明任务中表现优秀,但随着证明复杂度增加,能力下降。模板变换显著提升了模型性能。
  • Conclusion: LLMs在简单逻辑推理任务中表现良好,但复杂推理仍需改进。模板变换是一种有效的数据增强方法。

[130] The Dark Side of Digital Twins: Adversarial Attacks on AI-Driven Water Forecasting

Mohammadhossein Homaei,Victor Gonzalez Morales,Oscar Mogollon-Gutierrez,Andres Caro

Main category: cs.LG

TL;DR: 论文提出了一种用于西班牙供水网络的数字孪生平台,利用LSTM预测用水量,但机器学习模型易受对抗攻击。作者引入了一种基于学习自动机的方法动态调整扰动,实验显示预测误差显著增加,强调了AI驱动的数字孪生中的网络安全风险。

  • Motivation: 数字孪生技术通过实时数据和预测模型优化供水系统,但机器学习模型易受对抗攻击,影响预测准确性。
  • Method: 利用LSTM预测用水量,并引入学习自动机(LA)和随机LA方法动态调整对抗攻击的扰动。
  • Result: 实验表明,对抗攻击使预测误差(MAPE)从26%升至35%以上,自适应攻击策略进一步放大了这一影响。
  • Conclusion: 研究强调了AI驱动的数字孪生中的网络安全风险,并呼吁采取对抗训练、异常检测等防御措施。

[131] A Cryptographic Perspective on Mitigation vs. Detection in Machine Learning

Greg Gluch,Shafi Goldwasser

Main category: cs.LG

TL;DR: 该论文研究了机器学习中对抗性输入的检测与缓解,定义了防御检测(DbD)和防御缓解(DbM),并证明在分类任务中两者等效,但在生成任务中分离。

  • Motivation: 研究对抗性输入在推理阶段的防御策略,为机器学习算法提供理论保障。
  • Method: 通过3轮协议形式化定义DbD和DbM,并分析其正确性、完备性和可靠性。
  • Result: 分类任务中DbD与DbM等效,生成任务中分离,且缓解阶段样本需求显著减少。
  • Conclusion: 生成任务中缓解优于检测,为实际防御提供理论依据。

[132] Perturbation-efficient Zeroth-order Optimization for Hardware-friendly On-device Training

Qitao Tan,Sung-En Chang,Rui Xia,Huidong Ji,Chence Yang,Ci Zhang,Jun Liu,Zheng Zhan,Zhou Zou,Yanzhi Wang,Jin Lu,Geng Yuan

Main category: cs.LG

TL;DR: PeZO是一种高效的零阶优化框架,通过减少随机数生成需求和硬件友好的方法,显著降低了资源消耗和功耗,同时保持训练性能。

  • Motivation: 零阶优化(ZO)在DNN训练中具有计算简单和内存节省的优势,但其大量生成高斯随机数的需求在硬件平台上难以实现,导致算法与硬件设计不匹配。
  • Method: 提出PeZO框架,采用随机数重用策略减少随机数生成需求,并引入硬件友好的自适应缩放方法,用均匀分布替代高斯分布。
  • Result: 实验显示,PeZO减少了48.6%的LUTs和12.7%的FFs需求,最大节省86%功耗,且不影响训练性能。
  • Conclusion: PeZO首次探索了设备上零阶优化的潜力,为未来研究提供了宝贵见解。

[133] FourierSpecNet: Neural Collision Operator Approximation Inspired by the Fourier Spectral Method for Solving the Boltzmann Equation

Jae Yong Lee,Gwang Jae Jung,Byung Chan Lim,Hyung Ju Hwang

Main category: cs.LG

TL;DR: 提出了一种结合傅里叶谱方法和深度学习的混合框架FourierSpecNet,用于高效近似玻尔兹曼方程中的碰撞算子,支持零样本超分辨率,显著降低计算成本。

  • Motivation: 玻尔兹曼方程的高维非线性碰撞算子计算成本高,尤其在非弹性碰撞和高维速度域中,需要更高效的数值解法。
  • Method: 结合傅里叶谱方法和深度学习,构建FourierSpecNet框架,实现分辨率无关学习和零样本超分辨率。
  • Result: 在多个基准测试中,FourierSpecNet表现出与传统谱方法相当的精度,同时显著降低计算成本。
  • Conclusion: FourierSpecNet为玻尔兹曼方程的求解提供了一种高效、可扩展的替代方案,适用于弹性和非弹性碰撞场景。

[134] GaLore 2: Large-Scale LLM Pre-Training by Gradient Low-Rank Projection

DiJia Su,Andrew Gu,Jane Xu,Yuandong Tian,Jiawei Zhao

Main category: cs.LG

TL;DR: GaLore 2是一种高效且可扩展的框架,解决了GaLore在计算开销和并行化策略集成方面的挑战,并在大规模预训练中展示了其潜力。

  • Motivation: 大型语言模型(LLMs)在训练中面临显著的内存瓶颈,GaLore通过利用梯度的低秩结构解决了这一问题,但仍存在计算开销和并行化集成等挑战。
  • Method: GaLore 2改进了GaLore框架,解决了SVD计算开销和与先进并行化策略(如FSDP)的集成问题。
  • Result: GaLore 2在大规模预训练(如Llama 7B模型,5000亿训练标记)中展示了高效性和可扩展性。
  • Conclusion: GaLore 2为LLM预训练提供了一种高效且可扩展的解决方案,具有实际应用潜力。

[135] The Estimation of Continual Causal Effect for Dataset Shifting Streams

Baining Chen,Yiming Zhang,Yuqiao Han,Ruyue Zhang,Ruihuan Du,Zhishuo Zhou,Zhengdan Zhu,Xun Liu,Jiecheng Guo

Main category: cs.LG

TL;DR: 论文提出ICE-PKD框架,通过增量学习和知识蒸馏解决营销优化中的因果效应估计问题,适应时间数据偏移。

  • Motivation: 解决在线环境中因用户行为和领域分布随时间变化导致的数据偏移问题,提升因果效应估计的性能。
  • Method: 提出ICE-PKD框架,包括多处理提升网络(消除混杂偏差)和增量训练策略(适应数据偏移)。
  • Result: 在模拟和在线数据集上表现优异,已部署于华夏出行平台。
  • Conclusion: ICE-PKD框架有效解决了时间数据偏移问题,提升了在线营销优化的性能。

[136] Group Relative Knowledge Distillation: Learning from Teacher's Relational Inductive Bias

Chao Li,Changhua Zhou,Jia Chen

Main category: cs.LG

TL;DR: 论文提出了一种名为GRKD的新方法,通过关注教师模型输出的相对排名而非绝对概率,改进了知识蒸馏的效果。

  • Motivation: 现有知识蒸馏方法主要关注绝对概率的模仿,忽略了教师模型中相对预测的宝贵关系归纳偏差,导致暴露偏差。
  • Method: 提出了Group Relative Knowledge Distillation (GRKD)框架,通过引入组相对损失函数,使学生模型学习教师输出的类别相对排名。
  • Result: 在分类基准测试中,GRKD表现出优于现有方法的泛化能力,尤其在细粒度分类任务中效果显著。
  • Conclusion: GRKD为利用教师知识提供了新视角,强调关系结构而非绝对概率,提升了知识蒸馏的效果。

[137] Inclusive Training Separation and Implicit Knowledge Interaction for Balanced Online Class-Incremental Learning

Shunjie Wen,Thomas Heinis,Dong-Wan Choi

Main category: cs.LG

TL;DR: 论文提出了一种名为BOIL的新方法,通过双分类器和包容性训练分离策略,在在线类增量学习中实现了高可塑性和稳定性的平衡。

  • Motivation: 在线类增量学习(OCIL)中,平衡新旧类知识是一个主要挑战,现有方法往往难以兼顾可塑性和稳定性。
  • Method: 提出BOIL方法,采用双分类器和包容性训练分离策略,通过隐式知识转移实现知识整合。
  • Result: 在三个广泛使用的OCIL基准数据集上,BOIL表现出更平衡且优于现有方法的性能。
  • Conclusion: BOIL方法在OCIL中实现了高可塑性和稳定性的平衡,性能优于现有方法。

[138] Reinforcement Learning for Reasoning in Large Language Models with One Training Example

Yiping Wang,Qing Yang,Zhiyuan Zeng,Liliang Ren,Lucas Liu,Baolin Peng,Hao Cheng,Xuehai He,Kuan Wang,Jianfeng Gao,Weizhu Chen,Shuohang Wang,Simon Shaolei Du,Yelong Shen

Main category: cs.LG

TL;DR: 1-shot RLVR显著提升LLMs的数学推理能力,单个训练示例即可大幅提高模型性能。

  • Motivation: 探索如何通过少量示例(1-shot)强化学习验证奖励(RLVR)提升大型语言模型的数学推理能力。
  • Method: 应用RLVR于不同模型(如Qwen2.5-Math-1.5B),使用单个训练示例,结合GRPO和PPO算法,并分析探索策略(如熵损失)的作用。
  • Result: 单个示例将MATH500性能从36.0%提升至73.6%,平均性能从17.6%提升至35.7%,并观察到跨域泛化和后饱和泛化现象。
  • Conclusion: 1-shot RLVR高效且数据利用率高,其效果主要源于策略梯度损失,未来可进一步探索RLVR机制和数据效率。

[139] Federated learning, ethics, and the double black box problem in medical AI

Joshua Hatherley,Anders Søgaard,Angela Ballantyne,Ruben Pauwels

Main category: cs.LG

TL;DR: 本文探讨了医疗联邦学习(FL)的伦理风险,提出了“联邦不透明性”概念,并指出其在医疗AI中可能导致双重黑箱问题。

  • Motivation: 医疗FL虽能保护患者隐私,但其伦理风险尚未充分研究,本文旨在填补这一空白。
  • Method: 通过分析医疗FL的特点,提出“联邦不透明性”概念,并探讨其引发的双重黑箱问题。
  • Result: 研究发现医疗FL的预期效益可能被夸大,并存在伦理挑战。
  • Conclusion: 需克服关键挑战,才能使医疗FL在伦理上可行。

[140] Unsupervised Surrogate Anomaly Detection

Simon Klüttermann,Tim Katzke,Emmanuel Müller

Main category: cs.LG

TL;DR: 论文提出了一种名为DEAN的无监督异常检测算法,通过学习正常数据的模式来检测异常,并在121个基准数据集上验证了其性能。

  • Motivation: 受工程中类似概念的启发,研究如何通过学习正常数据的模式来检测异常。
  • Method: 提出了一种名为DEAN的算法,基于一组最优代理模型的公理设计。
  • Result: 在121个基准数据集上验证了DEAN的性能,优于19种现有方法,并展示了其可扩展性和可靠性。
  • Conclusion: DEAN是一种高效且可靠的无监督异常检测方法,适用于大规模数据。

[141] JTreeformer: Graph-Transformer via Latent-Diffusion Model for Molecular Generation

Ji Shi,Chengxun Xie,Zhonghao Li,Xinming Zhang,Miao Zhang

Main category: cs.LG

TL;DR: 本文提出了一种名为JTreeformer的图变换器框架,用于分子生成,通过结合GCN和多头注意力编码器,以及有向无环GCN解码器,显著提升了分子生成的效率和效果。

  • Motivation: 现有基于变换器的图解码器难以有效利用图信息,限制了分子生成的能力,因此需要一种新方法来更好地利用分子图的复杂拓扑结构。
  • Method: JTreeformer将图生成转化为连接树生成,结合GCN和多头注意力编码器,以及有向无环GCN解码器,并在潜在空间中引入扩散模型以增强采样效率。
  • Result: 实验结果表明,JTreeformer在分子生成任务上优于现有方法,为药物发现提供了有力工具。
  • Conclusion: JTreeformer框架通过改进编码器和解码器设计,显著提升了分子生成的性能,具有广泛的应用前景。

[142] Reinforcement Learning for LLM Reasoning Under Memory Constraints

Alan Lee,Harry Tong

Main category: cs.LG

TL;DR: 论文探索了在内存和计算受限条件下,使用强化学习(RL)技术提升大型语言模型(LLMs)的推理能力,提出了两种高效方法S-GRPO和T-SPMO,显著提升了模型性能。

  • Motivation: 在学术环境中,资源有限(如单块40GB GPU),需要开发高效的RL方法以提升LLMs的推理能力。
  • Method: 提出了S-GRPO(内存高效的GRPO变体)和T-SPMO(基于令牌级前缀匹配的信用分配策略),并与LoRA微调结合使用。
  • Result: 在SVAMP基准测试中,模型准确率从46%提升至70%以上;T-SPMO在多位数乘法任务中表现优异。
  • Conclusion: 内存高效方法可能通过正则化作用稳定训练,尤其是在仅更新少量参数时。

[143] Mitigating the Structural Bias in Graph Adversarial Defenses

Junyuan Fang,Huimin Liu,Han Yang,Jiajing Wu,Zibin Zheng,Chi K. Tse

Main category: cs.LG

TL;DR: 提出了一种针对图神经网络(GNNs)对抗攻击的防御策略,通过异质-同质增强图构建、kNN增强图构建和多视角节点注意力模块,减少GNNs在低度节点上的结构偏差。

  • Motivation: 现有GNNs防御方法在低度节点(尾部节点)上存在结构偏差,类似于传统GNNs在干净图中的问题,需要一种更均衡的防御策略。
  • Method: 采用异质-同质增强图构建(移除异质链接并添加同质链接)、kNN增强图构建和多视角节点注意力模块,自适应结合不同图视图的表征。
  • Result: 实验证明该策略在基准数据集上有效提升了防御能力并减少了结构偏差。
  • Conclusion: 提出的方法不仅增强了GNNs对抗攻击的鲁棒性,还显著改善了低度节点的防御性能。

[144] Tabular Data Adapters: Improving Outlier Detection for Unlabeled Private Data

Dayananda Herurkar,Jörn Hees,Vesselin Tzvetkov,Andreas Dengel

Main category: cs.LG

TL;DR: 论文提出了一种名为Tabular Data Adapters (TDA)的新方法,用于为无标签的表格数据生成软标签,以解决私有数据集在异常检测任务中的冷启动问题。

  • Motivation: 深度学习方法在大型公共数据集上表现优异,但在私有数据集上应用时,常面临结构差异、领域偏移和标签缺失的挑战。
  • Method: 通过识别统计相似的公共数据集,并利用共享自编码器将私有数据转换为与公共模型兼容的格式,生成弱标签。
  • Result: 在50个不同领域的表格数据集上实验表明,该方法比基线方法提供更准确的标注,同时减少计算时间。
  • Conclusion: TDA为公共研究模型与工业应用之间的差距提供了一种可扩展、高效且经济的解决方案。

[145] Quantifying the Noise of Structural Perturbations on Graph Adversarial Attacks

Junyuan Fang,Han Yang,Haixian Wen,Jiajing Wu,Zibin Zheng,Chi K. Tse

Main category: cs.LG

TL;DR: 该论文提出了一种基于噪声的攻击强度量化方法,并设计了三种攻击策略,以增强图神经网络对抗攻击的可解释性和有效性。

  • Motivation: 当前图神经网络对抗攻击研究多关注攻击性能优化,而忽略了攻击强度的量化,导致攻击选择缺乏可解释性。
  • Method: 提出噪声概念量化攻击强度,并基于噪声和分类边界设计单步和多步优化的三种攻击策略。
  • Result: 在基准数据集上对三种代表性图神经网络的实验证明了所提攻击策略的有效性。
  • Conclusion: 通过分析所选扰动节点的特性,揭示了有效对抗扰动的偏好模式。

[146] Return Capping: Sample-Efficient CVaR Policy Gradient Optimisation

Harry Mead,Clarissa Costen,Bruno Lacerda,Nick Hawes

Main category: cs.LG

TL;DR: 论文提出了一种改进的条件风险价值(CVaR)优化方法,通过限制训练轨迹的总回报而非丢弃它们,提高了样本效率。

  • Motivation: 当前方法在优化CVaR时丢弃大量轨迹,导致样本效率低下。
  • Method: 重新定义CVaR优化问题,限制训练轨迹的总回报而非丢弃,并证明在适当设置下与原问题等价。
  • Result: 在多个环境中实验证明,该方法性能优于基线。
  • Conclusion: 通过限制回报而非丢弃轨迹,显著提高了CVaR优化的样本效率和性能。

[147] Hubs and Spokes Learning: Efficient and Scalable Collaborative Machine Learning

Atul Sharma,Kavindu Herath,Saurabh Bagchi,Chaoyue Liu,Somali Chaterji

Main category: cs.LG

TL;DR: HSL框架结合了联邦学习和去中心化学习的优势,通过双层通信结构避免单点故障,并在相同或更低通信预算下优于现有P2PL框架。

  • Motivation: 解决联邦学习的单点故障问题,同时提升去中心化学习的效率和性能。
  • Method: 采用双层通信结构(Hubs和Spokes),优化通信效率和节点共识。
  • Result: 在相同通信预算下性能优于ELL,低预算时也能匹配其性能,节点共识更强。
  • Conclusion: HSL适合资源受限系统,具有大规模协作学习的实用性。

[148] Toward Efficient Exploration by Large Language Model Agents

Dilip Arumugam,Thomas L. Griffiths

Main category: cs.LG

TL;DR: 论文探讨了如何利用大型语言模型(LLM)实现数据高效的强化学习(RL),提出了一种显式实现现有RL算法的方法,以解决探索效率问题。

  • Motivation: 现代LLM驱动的自主决策代理在现实应用中潜力巨大,但需要数据高效的RL方法,而现有LLM代理设计在探索效率上表现不佳。
  • Method: 通过显式实现一种已知的RL算法(后验采样强化学习),而非依赖微调或上下文学习,来提升LLM在自然语言任务中的探索效率。
  • Result: 实验结果表明,该方法在需要谨慎探索的自然语言任务中显著提升了效果。
  • Conclusion: 显式实现现有RL算法是提升LLM代理数据效率的有效途径。

math.NA

[149] On Stochastic Rounding with Few Random Bits

Andrew Fitzgibbon,Stephen Felix

Main category: math.NA

TL;DR: 本文探讨了低精度浮点计算中使用的少位随机舍入(FBSR)方法,分析了其可能引入的偏差及其对机器学习的影响。

  • Motivation: 低精度浮点格式和混合精度计算在大规模数值计算中日益普及,随机舍入(SR)技术可增强其性能。然而,高质量的随机位生成成本高,因此需要研究如何在少位情况下保持SR的优良特性。
  • Method: 研究了几种少位随机舍入(FBSR)的实现方式,分析了这些实现可能引入的偏差。
  • Result: 发现某些自然实现会引入显著偏差,这些偏差在无限位情况下不存在。通过机器学习示例展示了这些偏差的影响。
  • Conclusion: 研究结果为开发或采用低精度浮点计算的实践者提供了新的配置参数参考。代码已开源。

cs.MM

[150] TrueFake: A Real World Case Dataset of Last Generation Fake Images also Shared on Social Networks

Stefano Dell'Anna,Andrea Montibeller,Giulia Boato

Main category: cs.MM

TL;DR: TrueFake是一个包含60万张图像的大规模数据集,用于评估社交媒体环境下AI生成图像的检测工具,揭示了当前检测方法的局限性。

  • Motivation: AI生成的合成媒体在社交媒体中广泛传播,但现有检测工具未能充分应对压缩和处理带来的挑战。
  • Method: 构建TrueFake数据集,包含多种生成技术和社交媒体共享的图像,通过实验分析检测性能。
  • Result: 研究发现社交媒体共享会显著影响检测性能,并提出了当前最有效的检测和训练策略。
  • Conclusion: 强调需要在真实场景下评估检测模型,以提升其实际应用效果。

cs.DL

[151] Towards Large Language Models for Lunar Mission Planning and In Situ Resource Utilization

Michael Pekala,Gregory Canal,Samuel Barham,Milena B. Graziano,Morgan Trexler,Leslie Hamilton,Elizabeth Reilly,Christopher D. Stiles

Main category: cs.DL

TL;DR: 利用LLM从科学文献中快速提取月球成分数据的可行性研究,发现现成LLM对表格数据提取有效,但需进一步优化以捕获更精细的信息。

  • Motivation: 月球任务规划需评估原材料可用性,但相关数据分散于大量文献中,LLM可加速数据处理。
  • Method: 利用LLM处理科学文献,提取月球成分数据,关注准确性和不确定性量化。
  • Result: 现成LLM对表格数据提取有效,但对复杂或细微信息仍需改进。
  • Conclusion: LLM在月球成分数据提取中具有潜力,但需进一步优化以提升性能。

cs.SE

[152] Self-Healing Software Systems: Lessons from Nature, Powered by AI

Mohammad Baqar,Rajat Khanda,Saba Naqvi

Main category: cs.SE

TL;DR: 论文提出了一种受生物启发的人工智能驱动的自愈软件框架,通过系统可观测性工具、AI诊断和修复代理,减少停机时间并增强软件弹性。

  • Motivation: 随着软件系统复杂性和规模的增加,自主检测、诊断和恢复故障的能力变得至关重要。
  • Method: 结合日志分析、静态代码检查和AI驱动的补丁生成,模拟生物自愈机制。
  • Result: 通过案例研究和模拟验证,相比传统手动调试,该框架能有效减少停机时间并加速调试。
  • Conclusion: 该研究为智能、自适应和自依赖的软件系统奠定了基础,类似于生物体的持续自愈能力。

[153] AutoP2C: An LLM-Based Agent Framework for Code Repository Generation from Multimodal Content in Academic Papers

Zijie Lin,Yiqing Shen,Qilin Cai,He Sun,Jinrui Zhou,Mingjun Xiao

Main category: cs.SE

TL;DR: 论文提出了一种名为“Paper-to-Code”(P2C)的新任务,旨在将科学论文中的多模态内容转化为可执行的代码仓库。为此,作者开发了AutoP2C框架,通过多阶段处理生成完整代码。

  • Motivation: 当前将论文中的多模态内容转化为可执行代码的过程耗时且需要专业知识,因此需要自动化工具来简化这一过程。
  • Method: AutoP2C框架包含四个阶段:1) 从现有代码库中提取仓库蓝图;2) 解析文本、公式和图表的多模态内容;3) 分层任务分解以生成结构化代码;4) 迭代反馈驱动的调试以确保功能性和性能。
  • Result: 在八篇论文的基准测试中,AutoP2C成功生成了所有论文的可执行代码仓库,而其他模型(如OpenAI-o1或DeepSeek-R1)仅能为一篇论文生成可运行代码。
  • Conclusion: AutoP2C框架在自动化生成可执行代码仓库方面表现出色,显著优于现有方法。

[154] ResearchCodeAgent: An LLM Multi-Agent System for Automated Codification of Research Methodologies

Shubham Gandhi,Dhruv Shah,Manasi Patwardhan,Lovekesh Vig,Gautam Shroff

Main category: cs.SE

TL;DR: ResearchCodeAgent是一个基于大语言模型的多智能体系统,用于自动化生成机器学习研究论文中的代码实现,显著减少编码时间并提高代码质量。

  • Motivation: 解决研究概念与实际代码实现之间的鸿沟,帮助研究人员快速生成基准代码或扩展现有方法。
  • Method: 采用灵活的智能体架构和动态规划机制,结合短期和长期记忆,支持上下文感知的研究环境交互。
  • Result: 在三个机器学习任务中,46.9%的生成代码高质量且无错误,25%优于基线实现,编码时间平均减少57.9%。
  • Conclusion: ResearchCodeAgent为研究实现自动化迈出重要一步,有望加速机器学习研究进程。

[155] BLADE: Benchmark suite for LLM-driven Automated Design and Evolution of iterative optimisation heuristics

Niki van Stein,Anna V. Kononova,Haoran Yin,Thomas Bäck

Main category: cs.SE

TL;DR: BLADE是一个模块化、可扩展的框架,用于评估LLM驱动的自动化算法设计方法,提供标准化基准测试和分析工具。

  • Motivation: 由于LLM驱动的自动化算法设计方法缺乏透明性且现有基准测试存在问题,需要一种标准化的评估框架。
  • Method: BLADE整合了多种基准问题、实例生成器和文本描述,支持灵活的实验设置和标准化日志记录,并提供分析工具。
  • Result: BLADE通过两个用例展示了其在探索突变提示策略和函数特化方面的实用性。
  • Conclusion: BLADE为系统评估LLM驱动的自动化算法设计方法提供了开箱即用的解决方案。

[156] Prompting LLMs for Code Editing: Struggles and Remedies

Daye Nam,Ahmed Omran,Ambar Murillo,Saksham Thakur,Abner Araujo,Marcel Blistein,Alexander Frömmgen,Vincent Hellendoorn,Satish Chandra

Main category: cs.SE

TL;DR: 该论文研究了开发者如何在实际工作流程中使用LLM驱动的代码编辑工具,发现频繁重新提示可能表明使用困难,并提出了一种自动改进提示的工具AutoPrompter,显著提高了编辑正确性。

  • Motivation: 尽管LLM在软件工程中的应用日益广泛,但开发者如何实际使用这些工具及其面临的困难尚未被充分理解。
  • Method: 通过分析IDE中Transform Code功能的遥测日志和定性分析不满意的请求,识别开发者提示中缺失的关键信息类别。
  • Result: 研究发现频繁重新提示与使用困难相关,并开发了AutoPrompter工具,使编辑正确性提高了27%。
  • Conclusion: 该研究填补了开发者实际使用LLM工具的空白,并提出了改进提示的方法,为未来工具设计提供了参考。

[157] Automated Unit Test Case Generation: A Systematic Literature Review

Jason Wang,Basem Suleiman,Muhammad Johan Alibasa

Main category: cs.SE

TL;DR: 本文综述了自动化软件测试领域的遗传算法和粒子群优化算法的改进及挑战,旨在填补现有知识空白。

  • Motivation: 软件测试对避免不良用户体验和潜在损失至关重要,但成本高昂。自动化测试因此成为研究热点,但目前对遗传算法和粒子群优化的改进及挑战缺乏系统总结。
  • Method: 通过系统文献综述,整合进化方法的改进(如混合算法、突变测试与神经网络的结合)及其局限性,并探讨主要测试标准和当前挑战。
  • Result: 总结了遗传算法和粒子群优化的改进方法(如混合算法)及其局限性,并识别了自动化测试领域的主要挑战(如可读性、模拟等)。
  • Conclusion: 本文填补了遗传算法和粒子群优化在自动化测试中的知识空白,为未来研究提供了方向。

[158] CrashFixer: A crash resolution agent for the Linux kernel

Alex Mathai,Chenxi Huang,Suwei Ma,Jihwan Kim,Hailie Mitchell,Aleksandr Nogikh,Petros Maniatis,Franjo Ivančić,Junfeng Yang,Baishakhi Ray

Main category: cs.SE

TL;DR: 论文介绍了CrashFixer,首个适用于Linux内核漏洞的基于LLM的修复工具,通过改进kGym平台(kGymSuite)并评估修复策略,展示了在复杂系统中生成假设的价值。

  • Motivation: 现有代码LLM评估基准局限于小规模场景,而Linux内核漏洞修复需要更强大的工具和平台支持。
  • Method: 基于kGym平台改进为kGymSuite,设计CrashFixer工具,模拟开发者工作流程,生成修复假设并验证。
  • Result: CrashFixer在未修复漏洞中提出至少两个可行的补丁建议。
  • Conclusion: CrashFixer展示了LLM在复杂系统修复中的潜力,改进平台和策略为未来研究提供基础。

[159] ARCS: Agentic Retrieval-Augmented Code Synthesis with Iterative Refinement

Manish Bhattarai,Miguel Cordova,Javier Santos,Dan O'Malley

Main category: cs.SE

TL;DR: ARCS框架结合检索增强生成与思维链推理,通过代理机制和实时反馈优化代码生成,显著优于传统方法。

  • Motivation: 在超级计算中,高效且优化的代码生成对充分利用高性能系统至关重要。
  • Method: ARCS整合检索增强生成与思维链推理,通过代理机制检索代码片段,并利用实时执行反馈优化候选解决方案。
  • Result: 在Geeks4Geeks和HumanEval基准测试中,ARCS在代码翻译和生成质量上显著优于传统方法。
  • Conclusion: ARCS为超级计算应用中的代码开发自动化和优化提供了变革性潜力,提升了计算资源利用率。

[160] CoCo-Bench: A Comprehensive Code Benchmark For Multi-task Large Language Model Evaluation

Wenjing Yin,Tianze Sun,Yijiong Yu,Jiawei Fang,Guangyao Su,Jiancheng Wang,Zekun Wang,Wei Wang,Ran Chen,Ziyun Dai,Shuai Yuan,Menghang Dong,Peng Luo,Dong Cao,Da Lei,Yajun Zhang,Hao Chen,Xiang Ma,Yong Liu,Weifeng Liu,Yuanjian Xu,Ji Pei

Main category: cs.SE

TL;DR: CoCo-Bench是一个全面的代码基准测试,用于评估大型语言模型在代码理解、生成、修改和审查四个关键维度的表现,填补了现有基准测试的不足。

  • Motivation: 现有基准测试范围狭窄,无法全面反映大型语言模型在软件工程中的实际应用需求。
  • Method: 设计CoCo-Bench,涵盖多种编程语言和任务难度,并进行严格的人工审核以确保数据质量。
  • Result: 实证结果显示CoCo-Bench能有效揭示模型性能的差异,突出其优缺点。
  • Conclusion: CoCo-Bench为代码导向的大型语言模型提供了全面客观的评估,为未来研究和技术发展提供了可靠基准。

[161] Using LLMs in Generating Design Rationale for Software Architecture Decisions

Xiyu Zhou,Ruiyin Li,Peng Liang,Beiqi Zhang,Mojtaba Shahin,Zengyang Li,Chen Yang

Main category: cs.SE

TL;DR: 该研究评估了大型语言模型(LLMs)在生成软件架构决策设计理由(DR)中的表现,使用了三种提示策略,并比较了其精确度、召回率和F1分数。

  • Motivation: 实践中,DR常因开发者缺乏动力和努力而未充分记录,LLMs的文本理解和生成能力可能帮助生成和恢复DR。
  • Method: 收集了100个架构相关问题,使用五种LLMs和三种提示策略(零样本、思维链、LLM代理)生成DR,并与专家提供的DR进行对比。
  • Result: LLM生成的DR在精确度(0.267-0.278)、召回率(0.627-0.715)和F1分数(0.351-0.389)上表现不一,部分未提及的论点也有帮助。
  • Conclusion: 研究讨论了三种提示策略的优缺点及LLM生成DR的局限性,为未来改进提供了方向。

[162] Hallucination by Code Generation LLMs: Taxonomy, Benchmarks, Mitigation, and Challenges

Yunseo Lee,John Youngeun Song,Dongsun Kim,Jindae Kim,Mijung Kim,Jaechang Nam

Main category: cs.SE

TL;DR: 本文调查了由代码专用大语言模型(CodeLLMs)生成的代码中的幻觉问题,分类了幻觉类型,回顾了现有基准和缓解策略,并提出了未来研究方向。

  • Motivation: 由于CodeLLMs在生成代码时容易产生难以识别的幻觉(错误或荒谬信息),这一问题可能导致代码库中存在未被发现的缺陷,因此需要系统研究。
  • Method: 通过分类CodeLLMs生成的代码中的幻觉类型,并综述现有基准和缓解策略。
  • Result: 总结了当前研究进展,指出了幻觉检测和消除的挑战。
  • Conclusion: 提出了未来研究方向,以改进CodeLLMs生成的代码的可靠性。

cs.SD

[163] Pediatric Asthma Detection with Googles HeAR Model: An AI-Driven Respiratory Sound Classifier

Abul Ehtesham,Saket Kumar,Aditi Singh,Tala Talaei Khoei

Main category: cs.SD

TL;DR: AI利用HeAR模型分析儿童呼吸音,实现哮喘早期检测,准确率超91%。

  • Motivation: 早期发现儿童哮喘,减少长期呼吸道并发症和紧急干预。
  • Method: 使用HeAR模型提取呼吸音特征,训练多种分类器区分哮喘音和正常音。
  • Result: 系统准确率超过91%,在阳性病例中表现优异。
  • Conclusion: 该方法适用于远程医疗,为非侵入性哮喘筛查提供高效解决方案。

[164] End-to-end Audio Deepfake Detection from RAW Waveforms: a RawNet-Based Approach with Cross-Dataset Evaluation

Andrea Di Pierno,Luca Guarnera,Dario Allegra,Sebastiano Battiato

Main category: cs.SD

TL;DR: 论文提出了一种轻量级的端到端深度学习框架RawNetLite,用于直接处理原始波形以检测音频深度伪造,通过多领域数据和Focal Loss提升鲁棒性,并在多种测试集上表现出色。

  • Motivation: 音频深度伪造对数字安全和信任构成威胁,现有检测方法在开放世界条件下表现不佳,需应对训练中未见过的伪造方法。
  • Method: 提出RawNetLite模型,结合卷积-循环架构捕获频谱和时序特征,无需手工预处理;采用多领域数据训练和Focal Loss,并引入音频增强技术。
  • Result: 在FakeOrReal数据集上F1达99.7%,EER为0.25%;在AVSpoof2021 + CodecFake数据集上F1达83.4%,EER为16.4%。
  • Conclusion: 多样化训练数据、定制目标函数和音频增强对构建鲁棒且通用的音频伪造检测器至关重要。

[165] APG-MOS: Auditory Perception Guided-MOS Predictor for Synthetic Speech

Zhicheng Lian,Lizhi Wang,Hua Huang

Main category: cs.SD

TL;DR: APG-MOS模型通过结合听觉感知机制和语义分析,提升语音质量评估与人类判断的一致性。

  • Motivation: 减少人工评估的耗时,同时解决现有深度学习模型忽视听觉感知机制的问题。
  • Method: 设计基于生物听觉机制的感知模块、RVQ语义失真建模方法及残差交叉注意力架构。
  • Result: 在两大基准测试中表现优异。
  • Conclusion: APG-MOS为语音质量评估提供了更接近人类感知的解决方案。

[166] DiffusionRIR: Room Impulse Response Interpolation using Diffusion Models

Sagi Della Torre,Mirco Pezzoli,Fabio Antonacci,Sharon Gannot

Main category: cs.SD

TL;DR: 论文提出了一种基于去噪扩散概率模型(DDPM)的方法,用于估计房间内未测量位置的房间脉冲响应(RIR),解决了高空间分辨率RIR测量资源密集的问题。

  • Motivation: 高空间分辨率的RIR测量资源密集且不切实际,尤其是在大空间或需要密集采样时。研究旨在通过生成模型解决这一问题。
  • Method: 将RIR数据转化为适合扩散模型重建的格式,利用DDPM进行缺失RIR的估计,并在不同曲率的麦克风阵列上验证。
  • Result: 方法在缺失RIR的重建中表现优异,显著优于基线样条三次插值法,归一化均方误差和余弦距离指标均更优。
  • Conclusion: 研究展示了生成模型在RIR插值中的潜力,为从有限实测数据生成更多数据提供了可能。

[167] ECOSoundSet: a finely annotated dataset for the automated acoustic identification of Orthoptera and Cicadidae in North, Central and temperate Western Europe

David Funosas,Elodie Massol,Yves Bas,Svenja Schmidt,Dominik Arend,Alexander Gebhard,Luc Barbaro,Sebastian König,Rafael Carbonell Font,David Sannier,Fernand Deroussen,Jérôme Sueur,Christian Roesti,Tomi Trilar,Wolfgang Forstmeier,Lucas Roger,Eloïsa Matheu,Piotr Guzik,Julien Barataud,Laurent Pelozuelo,Stéphane Puissant,Sandra Mueller,Björn Schuller,Jose M. Montoya,Andreas Triantafyllopoulos,Maxime Cauchoix

Main category: cs.SD

TL;DR: ECOSoundSet是一个包含欧洲直翅目和蝉类声音的数据集,旨在支持深度学习算法在自然声景中的昆虫声音识别。

  • Motivation: 现有工具在跨上下文识别昆虫声音方面受限,需要大规模且生态多样的数据集来提升算法性能。
  • Method: 数据集包含10,653条录音,涵盖200种直翅目和24种蝉类,部分为弱标注(仅知物种存在),部分为强标注(精确时间频率信息)。
  • Result: 提供了训练/验证/测试集的划分(比例0.8/0.1/0.1),便于算法训练与评估。
  • Conclusion: ECOSoundSet可作为现有在线资源的补充,提升欧洲直翅目和蝉类的声学分类效果。

cs.PF

[168] CarbonCall: Sustainability-Aware Function Calling for Large Language Models on Edge Devices

Varatheepan Paramanayakam,Andreas Karatzas,Iraklis Anagnostopoulos,Dimitrios Stamoulis

Main category: cs.PF

TL;DR: CarbonCall是一个可持续性感知的函数调用框架,通过动态工具选择、碳感知执行和量化LLM适应,显著降低碳排放和功耗。

  • Motivation: 现有方法在优化性能时忽视了可持续性,导致高能耗和碳排放,不适合能源受限环境。
  • Method: CarbonCall整合动态工具选择、碳感知执行和量化LLM适应,根据实时碳强度预测调整功率阈值。
  • Result: 在NVIDIA Jetson AGX Orin上实验显示,CarbonCall减少碳排放52%、功耗30%、执行时间30%。
  • Conclusion: CarbonCall在保持高效的同时显著提升了可持续性,适用于边缘AI系统。

cs.CL

[169] Understanding and Mitigating Risks of Generative AI in Financial Services

Sebastian Gehrmann,Claire Huang,Xian Teng,Sergei Yurovski,Iyanuoluwa Shode,Chirag S. Patel,Arjun Bhorkar,Naveen Thomas,John Doucette,David Rosenberg,Mark Dredze,David Rabinowitz

Main category: cs.CL

TL;DR: 论文探讨了在金融服务业中生成式AI(GenAI)的内容安全问题,提出了一个风险分类法,并评估了现有开源技术护栏的覆盖情况。

  • Motivation: 当前对AI模型安全性的研究主要集中在通用领域的毒性、偏见和公平性,而忽视了专业领域的法律和监管要求。本文旨在填补金融服务业中AI内容安全的空白。
  • Method: 提出了一个AI内容风险分类法,并通过红队活动收集的数据评估现有开源技术护栏的覆盖情况。
  • Result: 现有护栏未能检测到大部分讨论的内容风险。
  • Conclusion: 强调了在专业领域中开发AI产品时需考虑特定法律和监管要求,并指出现有技术护栏的不足。

[170] MICE for CATs: Model-Internal Confidence Estimation for Calibrating Agents with Tools

Nishant Subramani,Jason Eisner,Justin Svegliato,Benjamin Van Durme,Yu Su,Sam Thomson

Main category: cs.CL

TL;DR: 论文提出了一种新型模型内部置信度估计器(MICE),通过解码语言模型各中间层并计算相似度分数,结合概率分类器评估置信度,显著提升了工具调用的实用性和安全性。

  • Motivation: 工具使用代理需要在实用性和安全性之间权衡,而现有模型的置信度校准较差,因此需要更准确的置信度评估方法。
  • Method: MICE通过解码语言模型各中间层(使用logitLens),计算各层生成与最终输出的相似度,输入概率分类器评估置信度。
  • Result: 在STE数据集上,MICE在平滑预期校准误差上优于基线;使用MICE置信度显著提升了工具调用的预期效用。
  • Conclusion: MICE高效、可零样本泛化至新API,并在不同风险场景中提升工具调用效用,代码已开源。

[171] A Multimodal Pipeline for Clinical Data Extraction: Applying Vision-Language Models to Scans of Transfusion Reaction Reports

Henning Schäfer,Cynthia S. Schmidt,Johannes Wutzkowsky,Kamil Lorek,Lea Reinartz,Johannes Rückert,Christian Temme,Britta Böckmann,Peter A. Horn,Christoph M. Friedrich

Main category: cs.CL

TL;DR: 提出一种开源流程,从扫描文档中提取和分类复选框数据,以减少人工转录错误并提高效率。

  • Motivation: 尽管电子健康记录普及,许多流程仍依赖纸质文档,手动转录耗时且易出错。
  • Method: 整合复选框检测、多语言OCR和多语言视觉语言模型(VLMs)。
  • Result: 与2017-2024年的黄金标准相比,实现了高精度和召回率,减少了行政负担。
  • Conclusion: 开源流程可自托管解析复选框表单,提升准确性和效率。

[172] A Platform for Generating Educational Activities to Teach English as a Second Language

Aiala Rosá,Santiago Góngora,Juan Pablo Filevich,Ignacio Sastre,Laura Musto,Brian Carpenter,Luis Chiruzzo

Main category: cs.CL

TL;DR: 介绍了一个基于自然语言处理技术的英语教育平台,支持生成和定制游戏与练习,并计划扩展功能和迁移服务器。

  • Motivation: 为英语作为外语的教学提供多样化的教育活动,结合自然语言处理技术提升教学效果。
  • Method: 平台利用半自动生成和人工审核的资源提供即用游戏,并支持教师输入文本生成复杂内容,同时探索图像和文本生成技术。
  • Result: 平台已部署并供终端用户使用,解决了开发中的挑战,未来计划迁移至更强大的服务器。
  • Conclusion: 平台展示了结合自然语言处理技术的教育工具潜力,未来将进一步扩展功能和优化性能。

[173] UD-English-CHILDES: A Collected Resource of Gold and Silver Universal Dependencies Trees for Child Language Interactions

Xiulin Yang,Zhuoxuan Ju,Lanni Bu,Zoey Liu,Nathan Schneider

Main category: cs.CL

TL;DR: 本文介绍了UD-English-CHILDES,这是首个基于CHILDES数据的官方Universal Dependencies树库,统一了11名儿童及其照顾者的48k句子标注,并提供了1M银标准句子。

  • Motivation: CHILDES是广泛使用的儿童语言资源,但缺乏一致的UD标注标准。本文旨在填补这一空白。
  • Method: 通过统一和验证现有依赖标注数据,创建符合UD v2标准的树库。
  • Result: 生成了包含48k金标准句子和1M银标准句子的资源,为计算和语言学研究提供支持。
  • Conclusion: UD-English-CHILDES为儿童语言研究提供了标准化和一致性的数据资源。

[174] UniversalRAG: Retrieval-Augmented Generation over Multiple Corpora with Diverse Modalities and Granularities

Woongyeong Yeo,Kangsan Kim,Soyeong Jeong,Jinheon Baek,Sung Ju Hwang

Main category: cs.CL

TL;DR: UniversalRAG是一个新的RAG框架,通过动态路由机制从多模态、多粒度的异构知识源中检索信息,解决了现有RAG方法局限于单一模态的问题。

  • Motivation: 现有RAG方法通常仅针对单一模态(如文本),无法满足现实查询对多样化知识的需求。
  • Method: 提出模态感知路由机制,动态选择最合适的模态特定语料库进行检索,并组织多粒度级别以适应查询复杂度。
  • Result: 在8个多模态基准测试中,UniversalRAG优于单一模态和统一基线方法。
  • Conclusion: UniversalRAG通过多模态和多粒度检索,显著提升了RAG的适应性和准确性。

Chao-Lin Liu,Po-Hsien Wu,Yi-Ting Yu

Main category: cs.CL

TL;DR: 提出了一种基于法律条款共引用的方法,用于解决法律推荐系统中标签数据不足的问题,特别是在劳动纠纷领域。

  • Motivation: 解决专业法律领域(如劳动纠纷)中标签数据有限的问题,开发自动化标注技术。
  • Method: 利用法律条款在案件中的共引用关系建立相似性,结合文本嵌入模型和BiLSTM模块进行案例推荐。
  • Result: 实验表明,该方法能有效推荐相似劳动纠纷案例,并通过共引用验证相似性。
  • Conclusion: 该方法为法律文档的自动化标注提供了新思路,尤其在数据有限的领域具有应用潜力。

[176] Local Prompt Optimization

Yash Jain,Vishal Chowdhary

Main category: cs.CL

TL;DR: 论文提出了一种局部提示优化方法(LPO),通过识别提示中的关键优化令牌,显著提升了自动提示工程的性能,并在数学推理和BIG-bench Hard基准测试中取得了优异表现。

  • Motivation: 现有提示优化方法全局优化所有令牌,导致优化空间过大且缺乏针对性指导。LPO旨在通过局部优化关键令牌提升效率和效果。
  • Method: LPO识别提示中的优化令牌,并引导LLM仅关注这些令牌进行优化,与现有自动提示工程方法兼容。
  • Result: 在GSM8k、MultiArith和BIG-bench Hard基准测试中,LPO表现显著优于全局优化方法,且收敛速度更快。
  • Conclusion: LPO通过局部优化关键令牌,有效提升了提示优化的性能和效率,为自动提示工程提供了新思路。

[177] On Psychology of AI -- Does Primacy Effect Affect ChatGPT and Other LLMs?

Mika Hämäläinen

Main category: cs.CL

TL;DR: 研究探讨了三种商业LLM(ChatGPT、Gemini和Claude)中的首因效应,通过重做Asch(1946)实验发现,不同模型在不同实验条件下对候选者的偏好不同。

  • Motivation: 探究LLM是否像人类一样受到首因效应的影响,即在描述顺序不同时是否表现出偏好差异。
  • Method: 通过两种实验设计:1)同时呈现两个候选者;2)分别呈现候选者,测试模型对描述顺序的偏好。
  • Result: ChatGPT在同时呈现时偏好正面形容词先出现的候选者,而Gemini无偏好,Claude拒绝选择;在分别呈现时,ChatGPT和Claude多平等评价,否则偏好负面形容词先出现的候选者,Gemini则更偏好负面形容词先出现。
  • Conclusion: LLM的表现因模型和实验设计而异,部分模型表现出类似人类的偏好模式,但并非所有模型都受首因效应影响。

[178] Cooking Up Creativity: A Cognitively-Inspired Approach for Enhancing LLM Creativity through Structured Representations

Moran Mizrahi,Chen Shani,Gabriel Stanovsky,Dan Jurafsky,Dafna Shahaf

Main category: cs.CL

TL;DR: 本文提出了一种结合LLMs与结构化表示和认知启发操作的方法,以生成更具创造性和多样性的想法,并在烹饪领域验证了其效果。

  • Motivation: 尽管LLMs在众多任务中表现出色,但在创造力方面仍有不足。本文旨在通过结构化表示和认知启发操作提升LLMs的创造力。
  • Method: 提出了一种新方法,通过结合LLMs与结构化表示和认知启发操作,生成更抽象和多样化的想法。在烹饪领域开发了DishCOVER模型进行验证。
  • Result: 实验表明,DishCOVER生成的食谱比GPT-4o更具多样性,专家评估显示其新颖性显著优于GPT-4o。
  • Conclusion: 该方法在提升LLMs创造力方面具有潜力,并希望激发更多关于AI结构化创造力的研究。

[179] Can LLMs Detect Intrinsic Hallucinations in Paraphrasing and Machine Translation?

Evangelia Gogoulou,Shorouq Zahra,Liane Guillou,Luise Dürlich,Joakim Nivre

Main category: cs.CL

TL;DR: 论文研究了LLMs在翻译和释义任务中检测内在幻觉的能力,发现模型性能因任务和语言而异,但提示选择影响不大。NLI模型表现相当,表明LLM检测器并非唯一可行方案。

  • Motivation: LLMs常生成无意义或错误的输出(幻觉),研究旨在评估其在检测内在幻觉方面的能力。
  • Method: 基于HalluciGen任务,评估开源LLMs在翻译和释义任务中的表现,考察模型大小、指令调整和提示选择的影响。
  • Result: 模型性能因任务和语言而异,但提示选择影响不大;NLI模型表现与LLMs相当。
  • Conclusion: LLM检测器并非唯一可行方案,NLI模型在检测幻觉任务中表现良好。

[180] Beyond the Last Answer: Your Reasoning Trace Uncovers More than You Think

Hasan Abed Al Kader Hammoud,Hani Itani,Bernard Ghanem

Main category: cs.CL

TL;DR: 论文质疑仅依赖最终答案评估LLM推理的可靠性,提出通过分析中间推理步骤(子思想)并聚合多路径答案的方法,显著提升准确性。

  • Motivation: 挑战传统评估方法,探究最终答案是否能代表模型最优结论,以及不同推理路径是否会导致不同结果。
  • Method: 将推理轨迹分段为子思想,生成多路径答案并选择出现频率最高的答案(众数)。
  • Result: 在多个LLM和数学推理数据集上,准确性提升高达13%和10%。
  • Conclusion: 分析子思想一致性可识别不可靠答案,多路径答案聚合方法显著提升LLM推理准确性。

[181] Grokking in the Wild: Data Augmentation for Real-World Multi-Hop Reasoning with Transformers

Roman Abramov,Felix Steinbauer,Gjergji Kasneci

Main category: cs.CL

TL;DR: 论文提出了一种通过合成数据增强知识图谱的方法,以提升Transformer模型在多步事实推理中的表现,尤其是在稀疏知识场景下。实验显示,该方法显著提高了推理准确性。

  • Motivation: 解决Transformer在稀疏知识场景下多步事实推理能力不足的问题,并探索如何通过数据增强触发模型的泛化能力。
  • Method: 通过设计合成数据增强现有知识图谱,提高推断事实与原子事实的比例(φ_r),从而触发模型的泛化能力。
  • Result: 在2WikiMultiHopQA基准测试中达到95-100%的准确率,显著优于基线模型,并匹配或超越当前最优结果。
  • Conclusion: 研究表明,基于grokking的数据增强可以释放Transformer的隐式多步推理能力,为大规模语言模型提供更鲁棒和可解释的事实推理方法。

[182] Chain-of-Defensive-Thought: Structured Reasoning Elicits Robustness in Large Language Models against Reference Corruption

Wenxiao Wang,Parsa Hosseini,Soheil Feizi

Main category: cs.CL

TL;DR: 链式防御思维提示显著提升大语言模型在非推理任务中的鲁棒性。

  • Motivation: 探索如何利用链式思维提示增强的推理能力,提升大语言模型在非推理任务中的鲁棒性。
  • Method: 提出链式防御思维提示方法,仅需少量结构化防御性推理示例作为演示。
  • Result: 在自然问题任务中,GPT-4o使用该方法后准确率从3%提升至50%,显著优于标准提示。
  • Conclusion: 链式防御思维提示简单有效,显著提升模型对参考数据污染的鲁棒性。

[183] DYNAMAX: Dynamic computing for Transformers and Mamba based architectures

Miguel Nogales,Matteo Gambella,Manuel Roveri

Main category: cs.CL

TL;DR: DYNAMAX框架首次将早期退出机制应用于Mamba架构,并展示其作为高效分类器的潜力,平衡计算成本与性能。

  • Motivation: 探索早期退出机制在Mamba架构中的应用,填补其在解码器模型中的研究空白。
  • Method: 将早期退出机制集成到Mamba中,并利用Mamba作为分类器,对比Mistral 7B和Codestral 7B模型。
  • Result: Mamba在计算节省、准确性和一致性方面表现优异,适合资源受限环境。
  • Conclusion: Mamba的动态处理能力为高效推理提供了新途径,具有变革性潜力。

[184] Trace-of-Thought: Enhanced Arithmetic Problem Solving via Reasoning Distillation From Large to Small Language Models

Tyler McDonald,Ali Emami

Main category: cs.CL

TL;DR: 论文提出了一种名为Trace-of-Thought Prompting的零样本提示工程方法,旨在通过开源模型(参数≤7B)优化算术推理能力,性能提升高达125%。

  • Motivation: 大型语言模型(LLMs)在专业领域(如算术推理)的应用存在计算成本高、依赖闭源模型等问题,限制了可定制性和可扩展性。
  • Method: 提出Trace-of-Thought Prompting方法,指导LLMs通过可观察的子问题解决过程增强算术推理能力。
  • Result: 在开源模型(参数≤7B)与GPT-4结合使用时,性能提升高达125%。
  • Conclusion: 开源模型结合Trace-of-Thought Prompting可显著提升性能,推动AI研究的民主化和高质量计算语言学应用的可及性。

[185] OSVBench: Benchmarking LLMs on Specification Generation Tasks for Operating System Verification

Shangyu Li,Juyong Jiang,Tiancheng Zhao,Jiasi Shen

Main category: cs.CL

TL;DR: OSVBench是一个新基准,用于评估大型语言模型(LLM)在操作系统内核验证任务中生成完整规范代码的能力。

  • Motivation: 当前LLM在操作系统验证任务中的表现有限,需要评估其在长上下文代码生成任务中的能力。
  • Method: 将规范生成问题定义为程序合成问题,提供编程模型和验证假设,要求LLM生成完整规范。
  • Result: 对12个LLM的综合评估显示其在操作系统验证任务中表现有限,且性能差异显著。
  • Conclusion: OSVBench揭示了LLM在长上下文代码生成任务中的局限性,为未来研究提供了评估工具。

cs.NE

[186] Generate more than one child in your co-evolutionary semi-supervised learning GAN

Francisco Sedeño,Jamal Toutouh,Francisco Chicano

Main category: cs.NE

TL;DR: 论文提出了一种新的协同进化方法CE-SSLGAN,改进了传统SSL-GAN的设计,通过引入泛种群、精英替换和多子代策略,提升了性能。

  • Motivation: 传统SSL-GAN的协同进化方法基于空间结构和单子代策略,限制了性能提升。本文旨在优化这些设计决策。
  • Method: 提出CE-SSLGAN方法,采用泛种群、精英替换和多子代策略,并在三个标准数据集上评估性能。
  • Result: 实验表明,多子代和精英替换策略显著优于传统SSL-GAN。
  • Conclusion: CE-SSLGAN通过改进协同进化策略,有效提升了SSL-GAN的性能。

cs.CY

[187] Fostering Self-Directed Growth with Generative AI: Toward a New Learning Analytics Framework

Qianrun Mao

Main category: cs.CY

TL;DR: 论文提出A2PL模型,结合生成式AI与学习分析,支持学习者在多样化环境中实现自我导向成长。

  • Motivation: 当前关于自我导向学习和AI教育的研究存在关键空白,需要新的框架来整合学习者抱负、复杂思维和总结性自我评估。
  • Method: 提出A2PL模型,整合生成式AI与学习分析,设计未来干预措施和学习分析应用。
  • Result: A2PL模型为数字时代构建公平、适应性强且可持续的学习系统提供了新思路。
  • Conclusion: 自我导向成长是数字时代学习系统的关键,A2PL模型为此提供了理论和方法支持。

[188] When Testing AI Tests Us: Safeguarding Mental Health on the Digital Frontlines

Sachin R. Pendse,Darren Gergle,Rachel Kornfield,Jonah Meyerhoff,David Mohr,Jina Suh,Annie Wescott,Casey Williams,Jessica Schleider

Main category: cs.CY

TL;DR: 本文探讨了AI红队测试员的心理健康问题,提出了保护措施。

  • Motivation: 生成式AI的黑箱特性导致红队测试员需与系统互动以模拟恶意行为,可能引发心理健康问题,需关注其职业安全。
  • Method: 通过分析红队测试的独特心理影响,并借鉴其他职业(如演员、心理健康专家等)的保护措施,提出应对策略。
  • Result: 提出了针对红队测试员的个体和组织层面的心理健康保护策略。
  • Conclusion: 红队测试员的心理健康是AI安全的重要组成部分,需采取具体措施保护其福祉。

cs.DC

[189] EPSILON: Adaptive Fault Mitigation in Approximate Deep Neural Network using Statistical Signatures

Khurram Khalil,Khaza Anuarul Hoque

Main category: cs.DC

TL;DR: EPSILON是一个轻量级框架,用于在近似计算深度神经网络(AxDNNs)中高效检测和缓解故障,保持高精度和能效。

  • Motivation: 近似计算在AxDNNs中能显著提高能效,但永久性故障会严重降低性能,传统方法因高开销和延迟不适用。
  • Method: EPSILON利用预计算的统计特征和层重要性指标,采用非参数模式匹配算法实现实时故障检测和动态适应。
  • Result: EPSILON在多种场景下保持80.05%的准确率,推理时间提升22%,能效提升28%。
  • Conclusion: EPSILON是安全关键边缘应用中部署可靠AxDNNs的实用解决方案。

[190] GenTorrent: Scaling Large Language Model Serving with An Overley Network

Fei Fang,Yifan Hua,Shengze Wang,Ruilin Zhou,Yi Liu,Chen Qian,Xiaoxue Zhang

Main category: cs.DC

TL;DR: GenTorrent提出了一种去中心化的LLM服务覆盖网络,通过利用分散的计算资源解决了小型组织和个人在LLM部署中的扩展性问题,显著降低了延迟并保持了安全性。

  • Motivation: 解决小型组织和个体在部署和测试LLM创新时面临的服务扩展性挑战。
  • Method: 提出GenTorrent,一种基于点对点网络的去中心化LLM服务覆盖网络,解决了网络组织、隐私、资源效率和验证等四个关键问题。
  • Result: 原型测试显示,GenTorrent比基线设计降低了50%以上的延迟,安全性功能对性能影响极小。
  • Conclusion: GenTorrent为未来AI服务的民主化和扩展性开辟了新方向。

[191] Electricity Cost Minimization for Multi-Workflow Allocation in Geo-Distributed Data Centers

Shuang Wang,He Zhang,Tianxing Wu,Yueyou Zhang,Wei Emma Zhang,Quan Z. Sheng

Main category: cs.DC

TL;DR: 论文提出了一种地理分布式数据中心(GDCs)中电力成本感知的多工作流调度算法(ECMWS),以降低电力成本并满足工作流的截止时间约束。

  • Motivation: 地理分布式数据中心的电力成本因地理位置和时间而异,如何在满足工作流截止时间的同时降低电力成本是一个重要问题。
  • Method: 提出了ECMWS算法,包括工作流排序、截止时间划分、任务排序和资源分配四个阶段,利用图嵌入模型和策略网络解决马尔可夫决策过程(MDP)。
  • Result: 实验结果表明,ECMWS算法显著优于现有方法,性能提升超过15%,同时保持可接受的计算时间。
  • Conclusion: ECMWS算法在降低电力成本和满足工作流截止时间方面表现出色,为地理分布式数据中心提供了有效的解决方案。

cs.CR

[192] Smart Water Security with AI and Blockchain-Enhanced Digital Twins

Mohammadhossein Homaei,Victor Gonzalez Morales,Oscar Mogollon Gutierrez,Ruben Molano Gomez,Andres Caro

Main category: cs.CR

TL;DR: 该论文提出了一种结合LoRaWAN、机器学习驱动的入侵检测系统(IDS)和区块链数字孪生(BC-DT)的框架,用于农村水系统的安全透明管理。

  • Motivation: 农村水系统面临实时监测不足、易受网络攻击和数据不可靠等问题,亟需一种安全且高效的解决方案。
  • Method: 采用LoRaWAN采集数据,结合LSTM自编码器和隔离森林的IDS过滤异常数据,通过私有以太坊区块链(PoA共识)记录验证数据,并构建实时数字孪生模型。
  • Result: 系统实现每秒80+交易(TPS),延迟低于2秒,支持1000个智能水表,具有成本效益和可扩展性。
  • Conclusion: 该框架为农村水基础设施提供了一种实用且安全的去中心化解决方案。

[193] Token-Efficient Prompt Injection Attack: Provoking Cessation in LLM Reasoning via Adaptive Token Compression

Yu Cui,Yujun Cai,Yiwei Wang

Main category: cs.CR

TL;DR: 论文提出了一种名为“推理中断攻击”的新型提示注入攻击方法,通过自适应令牌压缩降低触发漏洞的提示长度,并分析了漏洞的根源。

  • Motivation: 大型语言模型(LLMs)在推理任务中表现出色,但存在安全漏洞,如“思维停止”漏洞。现有触发方法需要复杂且冗长的提示,亟需更高效的攻击方式。
  • Method: 提出基于自适应令牌压缩的“推理中断攻击”,利用简单算术任务触发漏洞,并开发系统化方法收集攻击提示及压缩框架。
  • Result: 实验表明压缩框架显著缩短提示长度且保持攻击效果,同时通过输出前缀分析漏洞性能及成因。
  • Conclusion: 研究为提升推理LLMs的安全性提供了重要见解,并展示了高效攻击方法的可行性。

[194] The Hidden Risks of LLM-Generated Web Application Code: A Security-Centric Evaluation of Code Generation Capabilities in Large Language Models

Swaroop Dora,Deven Lunkad,Naziya Aslam,S. Venkatesan,Sandeep Kumar Shukla

Main category: cs.CR

TL;DR: 论文评估了多种大型语言模型(如ChatGPT、DeepSeek等)生成的代码的安全性,发现普遍存在漏洞,强调人类专家审查的必要性。

  • Motivation: 尽管LLM提升了开发效率,但其生成的代码在安全性上存在隐患,需评估其在实际应用中的可靠性。
  • Method: 使用预定义的安全参数对多种LLM生成的代码进行安全性评估。
  • Result: 发现认证机制、会话管理等关键漏洞,无模型完全符合行业最佳实践。
  • Conclusion: 人类专家审查和更强大的安全评估框架对确保LLM生成代码的安全性至关重要。

[195] Enhancing Vulnerability Reports with Automated and Augmented Description Summarization

Hattan Althebeiti,Mohammed Alkinoon,Manar Mohaisen,Saeed Salem,DaeHun Nyang,David Mohaisen

Main category: cs.CR

TL;DR: Zad系统通过外部资源丰富NVD漏洞描述,解决信息不足问题,提升内容质量。

  • Motivation: 公共漏洞数据库(如NVD)描述简短且信息不足,需改进。
  • Method: Zad系统包含两个流程:数据收集与过滤、预训练模型微调生成描述。
  • Result: 评估显示Zad能有效提升漏洞描述的全面性和一致性。
  • Conclusion: Zad成功解决了NVD描述不足的问题,提升了信息质量。

q-bio.QM

[196] Heterogeneous network drug-target interaction prediction model based on graph wavelet transform and multi-level contrastive learning

Wenfeng Dai,Yanhong Wang,Shuai Yan,Qingzhi Yu,Xiang Cheng

Main category: q-bio.QM

TL;DR: 提出了一种结合图神经网络和多尺度信号处理的药物-靶点相互作用预测框架,具有高效预测和多层次可解释性。

  • Motivation: 传统机器学习方法存在黑箱问题,难以揭示模型决策机制与生物分子相互作用模式的深层关联。
  • Method: 整合异构图卷积神经网络(HGCN)和多尺度信号处理技术,设计了局部-全局特征协同感知模块、多尺度图信号分解与生物解释模块,以及对比学习策略。
  • Result: 在所有数据集上表现出优异的预测性能。
  • Conclusion: 为药物靶点发现提供了从黑箱预测到机制解码的完整解决方案,对复杂生物分子相互作用系统建模具有重要参考价值。

cs.HC

[197] Narrative-Centered Emotional Reflection: Scaffolding Autonomous Emotional Literacy with AI

Shou-Tzu Han

Main category: cs.HC

TL;DR: Reflexion是一个AI驱动的平台,通过实时情绪检测、分层反思提示和隐喻故事生成,帮助用户进行自主情绪探索,并促进从情绪识别到行动规划的转变。

  • Motivation: 旨在通过理论支持的技术手段,提升用户的情绪表达、认知重构和心理韧性,适用于教育、治疗和公共卫生领域。
  • Method: 结合实时情绪检测、分层反思提示和隐喻故事生成,基于表达性写作、认知重构、自我决定和批判意识发展理论。
  • Result: 初步试点研究表明,用户在情绪表达、认知重构和心理韧性方面有积极效果。
  • Conclusion: Reflexion是一种有前景的、可扩展的情感计算干预工具,有助于提升情绪素养和心理成长。

[198] In defence of post-hoc explanations in medical AI

Joshua Hatherley,Lauritz Munch,Jens Christian Bjerring

Main category: cs.HC

TL;DR: 文章为后验解释在医疗AI中的价值辩护,认为其虽不完美,但仍能提升用户理解和临床决策。

  • Motivation: 回应批评,证明后验解释在医疗AI中的实际价值。
  • Method: 通过论证后验解释的功能性作用,反驳其仅是近似而非复制的观点。
  • Result: 后验解释能提升用户理解、团队准确性和决策合理性。
  • Conclusion: 后验解释是解决医疗AI黑盒问题的有效策略,虽非万能。

cs.MA

[199] AKIBoards: A Structure-Following Multiagent System for Predicting Acute Kidney Injury

David Gordon,Panayiotis Petousis,Susanne B. Nicholas,Alex A. T. Bui

Main category: cs.MA

TL;DR: 论文提出STRUC-MAS框架,通过多智能体系统(MAS)学习全局模型,提升复杂医疗诊断中的协作推理性能,并以急性肾损伤(AKI)预测为例验证其效果。

  • Motivation: 在复杂医疗场景中,多专家协作需整合不同视角,但缺乏自动化学习全局模型的方法。本文旨在通过MAS框架解决这一问题。
  • Method: 提出STRUC-MAS框架,自动化学习全局模型并将其作为智能体的先验信念,应用于AKI预测任务。
  • Result: 实验表明,采用全局结构的智能体(SF-FT和SF-FT-RAG)在AKI预测中表现优于基线(NSF-FT和NSF-FT-RAG),且交互后智能体决策信心提升。
  • Conclusion: 学习并利用全局结构对MAS的分类和诊断推理性能至关重要,未来可扩展至其他医疗协作场景。

[200] Modeling AI-Human Collaboration as a Multi-Agent Adaptation

Prothit Sen,Sai Mihir Jakkaraju

Main category: cs.MA

TL;DR: 论文通过基于代理的模拟,研究了AI与人类协作在不同任务结构下的表现,提出任务结构是决定协作效果的关键因素。

  • Motivation: 研究旨在探索AI与人类协作在不同任务结构下的表现差异,为组织中的战略决策提供通用框架。
  • Method: 使用基于代理的模拟和NK模型,区分启发式人类适应和基于规则的AI搜索,分析模块化和序列化任务中的交互。
  • Result: 模块化任务中,AI通常替代人类;序列化任务中,人类专家启动搜索并由AI优化时效果最佳。AI幻觉也能帮助低能力人类突破局部最优。
  • Conclusion: AI与人类协作的效果主要取决于任务结构,而非上下文或行业。任务分解是分析的核心单元,模型适用于多样化组织环境。

cs.NI

[201] Towards Easy and Realistic Network Infrastructure Testing for Large-scale Machine Learning

Jinsun Yoo,ChonLam Lao,Lianjie Cao,Bob Lantz,Minlan Yu,Tushar Krishna,Puneet Sharma

Main category: cs.NI

TL;DR: Genie是一个测试框架,通过模拟GPU通信和网络与ML工作负载的交互,评估真实硬件网络行为对ML性能的影响,无需昂贵GPU。

  • Motivation: 研究真实硬件网络行为对ML工作负载性能的影响,但避免使用昂贵的GPU资源。
  • Method: 利用CPU发起的流量模拟GPU间通信,并改造ASTRA-sim模拟器以建模网络与ML工作负载的交互。
  • Result: Genie能够有效评估网络行为对ML性能的影响。
  • Conclusion: Genie为低成本研究网络对ML性能的影响提供了可行方案。

cs.GR

[202] Creating Your Editable 3D Photorealistic Avatar with Tetrahedron-constrained Gaussian Splatting

Hanxi Liu,Yifang Men,Zhouhui Lian

Main category: cs.GR

TL;DR: 该论文提出了一种基于Tetrahedron-constrained Gaussian Splatting (TetGS)的框架,用于生成可编辑的3D头像,具有局部空间适应性和真实感渲染能力。

  • Motivation: 个性化3D头像编辑在AR/VR和虚拟试穿等应用中具有潜力,但现有方法在复杂重建场景中难以生成视觉上令人愉悦的结果。
  • Method: 采用TetGS作为底层表示,将编辑过程分解为局部空间适应和真实感外观学习,并通过三阶段优化实现:3D头像实例化、局部空间适应和几何外观生成。
  • Result: 定性和定量实验表明,该方法在生成真实感3D可编辑头像方面具有优越性。
  • Conclusion: 该框架为普通用户提供了一种生成高质量可编辑3D头像的可行解决方案。

上次更新于: