Skip to content
每日arXiv - 2025年5月5日

以下论文的arXiv类型标签包含:cs.CV、cs.AI

cs.CV

[1] Unconstrained Large-scale 3D Reconstruction and Rendering across Altitudes

Neil Joshi,Joshua Carney,Nathanael Kuo,Homer Li,Cheng Peng,Myron Brown

Main category: cs.CV

TL;DR: 论文提出首个公开基准数据集,用于解决多视角3D重建和新视角合成中的实际挑战,如图像数量有限、相机未标定、光照不一致和极端视角差异。

  • Motivation: 为灾难救援或执法等场景提供逼真、可导航的3D场景模型,但现有图像数据不足且质量不均。
  • Method: 开发基于多类型相机(地面、安防、空中)的标定数据集,独立评估未标定相机校准和新视角渲染质量。
  • Result: 展示了当前方法的基线性能,并指出进一步研究的挑战。
  • Conclusion: 该数据集为3D重建和新视角合成研究提供了实际挑战的基准,推动相关技术进步。

[2] MoSAM: Motion-Guided Segment Anything Model with Spatial-Temporal Memory Selection

Qiushi Yang,Yuan Yao,Miaomiao Cui,Liefeng Bo

Main category: cs.CV

TL;DR: MoSAM通过引入运动引导提示和动态时空记忆选择机制,解决了SAM2在视频分割中依赖固定帧记忆的问题,提升了长距离目标跟踪能力。

  • Motivation: SAM2作为基础模型,在视频分割中仅依赖过去六帧的掩码记忆,导致目标消失和遮挡问题,限制了其长距离跟踪能力。
  • Method: 提出MoSAM,结合运动引导提示(MGP)和时空记忆选择(ST-MS)机制,动态整合运动信息和可靠记忆特征。
  • Result: 在多个视频分割基准测试中,MoSAM取得了最先进的性能。
  • Conclusion: MoSAM通过运动信息和动态记忆选择显著提升了视频分割和目标跟踪能力。

[3] Fast2comm:Collaborative perception combined with prior knowledge

Zhengbin Zhang,Yan Wu,Hongkun Zhang

Main category: cs.CV

TL;DR: Fast2comm是一个基于先验知识的协作感知框架,通过生成高区分度的置信度特征和优化特征选择策略,解决了协作感知中的性能与带宽平衡问题。

  • Motivation: 协作感知通过共享互补信息提高准确性,但面临带宽限制和定位误差的挑战。
  • Method: 提出先验监督的置信度特征生成方法、基于GT边界框的空间先验特征选择策略,并解耦训练与测试阶段的特征融合策略。
  • Result: 在真实和模拟数据集上的实验表明,Fast2comm性能优越,验证了所提方法的必要性。
  • Conclusion: Fast2comm有效解决了协作感知中的关键挑战,显著提升了性能与带宽效率。

[4] Detection and Classification of Diseases in Multi-Crop Leaves using LSTM and CNN Models

Srinivas Kanakala,Sneha Ningappa

Main category: cs.CV

TL;DR: 该研究利用CNN和LSTM模型对植物叶片疾病进行分类,CNN模型在验证集上达到96.4%的准确率,优于LSTM的93.43%。

  • Motivation: 植物病害严重影响农业产量和食品质量,早期检测和分类对减少损失和改善作物管理至关重要。
  • Method: 使用CNN和LSTM模型,基于包含70,295张训练图像和17,572张验证图像的数据集进行分类。CNN采用Adam优化器和分类交叉熵损失函数。
  • Result: CNN模型训练准确率为99.1%,验证准确率为96.4%;LSTM验证准确率为93.43%。性能指标证实CNN方法的可靠性。
  • Conclusion: 深度学习模型(尤其是CNN)为植物病害分类提供了准确且可扩展的解决方案,适用于农业监测。

[5] Zoomer: Adaptive Image Focus Optimization for Black-box MLLM

Jiaxu Qian,Chendong Wang,Yifan Yang,Chaoyun Zhang,Huiqiang Jiang,Xufang Luo,Yu Kang,Qingwei Lin,Anlan Zhang,Shiqi Jiang,Ting Cao,Tianjun Mao,Suman Banerjee,Guyue Liu,Saravan Rajmohan,Dongmei Zhang,Yuqing Yang,Qi Zhang,Lili Qiu

Main category: cs.CV

TL;DR: 论文提出了一种名为\SysName的新型视觉提示机制,通过动态高亮相关图像区域、保持对象完整性和平衡全局与细节的方法,显著提升了MLLM在视觉任务中的性能,同时减少了令牌消耗。

  • Motivation: 现有的多模态大语言模型(MLLMs)在处理视觉数据时存在精度不足和令牌限制导致关键信息丢失的问题,影响了任务表现。
  • Method: \SysName采用三种创新方法:动态高亮相关区域的提示感知策略、保持对象空间完整性的空间保留编排模式,以及平衡全局与细节的预算感知提示方法。
  • Result: 在多个数据集上的评估显示,\SysName比基线方法性能提升高达26.9%,同时显著降低了令牌消耗。
  • Conclusion: \SysName有效解决了MLLMs在视觉任务中的局限性,为未来研究提供了新的方向。

[6] DOPE: Dual Object Perception-Enhancement Network for Vision-and-Language Navigation

Yinfeng Yu,Dongsheng Yang

Main category: cs.CV

TL;DR: 论文提出了一种DOPE网络,通过增强文本和图像中的对象感知,解决了VLN任务中语言理解不足和跨模态对象关系建模缺失的问题。

  • Motivation: 现有VLN方法在语言指令理解和跨模态对象关系建模上存在不足,限制了导航任务的准确性和鲁棒性。
  • Method: 设计了TSE和TOPA模块增强文本语义提取,引入IOPA模块建模跨模态对象关系。
  • Result: 在R2R和REVERIE数据集上的实验验证了DOPE的有效性。
  • Conclusion: DOPE通过双对象感知增强显著提升了VLN任务的性能。

[7] Localizing Before Answering: A Benchmark for Grounded Medical Visual Question Answering

Dung Nguyen,Minh Khoi Ho,Huy Ta,Thanh Tam Nguyen,Qi Chen,Kumar Rav,Quy Duong Dang,Satwik Ramchandre,Son Lam Phung,Zhibin Liao,Minh-Son To,Johan Verjans,Phi Le Nguyen,Vu Minh Hieu Phan

Main category: cs.CV

TL;DR: 论文提出HEAL-MedVQA基准和LobA框架,解决医学LMMs在定位推理不足导致的幻觉问题,显著提升性能。

  • Motivation: 当前医学LMMs因缺乏定位推理常生成与源证据矛盾的幻觉,需改进其病理区域分析能力。
  • Method: 引入HEAL-MedVQA基准评估定位能力,并提出LobA框架,通过定位目标区域和自提示生成可靠答案。
  • Result: LobA框架在HEAL-MedVQA基准上显著优于现有医学LMMs,提升了医学VQA的鲁棒性。
  • Conclusion: HEAL-MedVQA和LobA框架有效解决了医学LMMs的幻觉问题,推动了医学VQA的进步。

[8] Responsive DNN Adaptation for Video Analytics against Environment Shift via Hierarchical Mobile-Cloud Collaborations

Maozhe Zhao,Shengzhong Liu,Fan Wu,Guihai Chen

Main category: cs.CV

TL;DR: MOCHA框架通过移动与云资源的层次协作优化模型适应性,提升响应速度与准确性。

  • Motivation: 移动视频分析系统在环境变化时需要快速适应,现有云中心框架性能不足。
  • Method: MOCHA通过设备端模型复用、快速微调、结构化模型检索和本地缓存优化适应性。
  • Result: MOCHA在三个DNN任务中提升模型准确性6.8%,减少响应延迟35.5倍和重训练时间3倍。
  • Conclusion: MOCHA显著提升了模型适应性的响应速度和性能。

[9] Entropy Heat-Mapping: Localizing GPT-Based OCR Errors with Sliding-Window Shannon Analysis

Alexei Kaltchenko

Main category: cs.CV

TL;DR: 论文提出了一种基于熵热图的方法,通过滑动窗口分析GPT-4o的令牌级置信度,定位OCR错误。

  • Motivation: 现有视觉语言模型(如GPT-4o)虽然能从图像中转录数学文档,但其令牌级置信度信号未被充分利用以识别局部错误。
  • Method: 使用滑动窗口将每个令牌的香农熵转化为视觉化的“不确定性景观”,并通过高熵区域定位OCR错误。
  • Result: 实验表明,大多数真实错误集中在高熵区域。
  • Conclusion: 滑动窗口熵分析可作为轻量级工具,辅助GPT-4o OCR的后编辑。

[10] InstructAttribute: Fine-grained Object Attributes editing with Instruction

Xingxi Yin,Jingfeng Zhang,Zhi Li,Yicheng Li,Yin Zhang

Main category: cs.CV

TL;DR: 论文提出了一种名为SPAA的无训练方法,通过编辑自注意力和交叉注意力图,实现对物体颜色和材质的精确控制,并构建了一个属性数据集用于训练指令模型InstructAttribute。

  • Motivation: 现有图像编辑技术在细粒度属性控制上存在不足,难以修改物体属性或保持图像结构一致性。
  • Method: 提出SPAA方法,通过编辑注意力图实现属性控制;构建属性数据集,利用MLLM自动过滤和标注数据;训练指令模型InstructAttribute。
  • Result: 实验表明,该方法在物体级颜色和材质编辑上优于现有指令基图像编辑方法。
  • Conclusion: SPAA和InstructAttribute在细粒度图像编辑中表现出色,解决了现有技术的局限性。

[11] DARTer: Dynamic Adaptive Representation Tracker for Nighttime UAV Tracking

Xuzhao Li,Xuchen Li,Shiyu Hu

Main category: cs.CV

TL;DR: DARTer是一种用于夜间无人机跟踪的端到端框架,通过动态特征融合和自适应激活提升性能。

  • Motivation: 解决夜间无人机跟踪中光照变化和视角变化导致的性能下降问题。
  • Method: 提出动态特征混合器(DFB)和动态特征激活器(DFA),优化特征融合和计算效率。
  • Result: 在多个夜间无人机跟踪基准测试中表现优于现有方法。
  • Conclusion: DARTer在准确性和效率之间取得平衡,适用于实际应用。

[12] P2P-Insole: Human Pose Estimation Using Foot Pressure Distribution and Motion Sensors

Atsuya Watanabe,Ratna Aisuwarya,Lei Jing

Main category: cs.CV

TL;DR: P2P-Insole是一种低成本方法,通过集成IMU的鞋垫传感器估计和可视化3D人体骨骼数据,适用于大规模生产。

  • Motivation: 开发一种低成本、轻量级且隐私友好的解决方案,用于康复、伤害预防和健康监测。
  • Method: 使用鞋垫传感器采集足压分布、加速度和旋转数据,结合Transformer模型进行高效时间特征提取。
  • Result: 实验证明该方法在复杂运动模式识别中具有高准确性,适用于多种姿态估计任务。
  • Conclusion: P2P-Insole为低成本实用应用奠定了基础,未来可通过传感器优化和数据集扩展进一步改进。

[13] Efficient On-Chip Implementation of 4D Radar-Based 3D Object Detection on Hailo-8L

Woong-Chan Byun,Dong-Hee Paek,Seung-Hyun Song,Seung-Hyun Kong

Main category: cs.CV

TL;DR: 论文提出了一种在Hailo-8L AI加速器上实现4D雷达3D目标检测的芯片级方法,通过张量变换解决5D输入与4D支持的兼容性问题,实现了实时处理和高精度。

  • Motivation: 4D雷达在自动驾驶中具有优势,但需在低功耗嵌入式环境中实现实时处理。
  • Method: 引入张量变换方法,将5D输入重塑为4D格式,保持模型结构不变。
  • Result: 系统达到46.47% AP_3D和52.75% AP_BEV,推理速度13.76 Hz,与GPU模型精度相当。
  • Conclusion: 证明了4D雷达感知技术在自动驾驶系统中的实用性。

[14] Multi-Modal Language Models as Text-to-Image Model Evaluators

Jiahui Chen,Candace Ross,Reyhane Askari-Hemmat,Koustuv Sinha,Melissa Hall,Michal Drozdzal,Adriana Romero-Soriano

Main category: cs.CV

TL;DR: MT2IE是一种利用多模态大语言模型(MLLMs)评估文本到图像(T2I)生成模型的新框架,通过动态生成提示词和评分,显著减少评估所需的提示词数量,同时提高与人类判断的相关性。

  • Motivation: 随着T2I模型的进步,依赖静态数据集的自动评估基准逐渐过时,需要新的评估方法。
  • Method: 提出MT2IE框架,利用MLLMs动态生成提示词并评估图像质量和一致性。
  • Result: MT2IE仅需1/80的提示词即可达到与现有基准相同的模型排名,且评分与人类判断相关性更高。
  • Conclusion: MT2IE为T2I模型评估提供了高效且可靠的动态方法。

[15] Person detection and re-identification in open-world settings of retail stores and public spaces

Branko Brkljač,Milan Brkljač

Main category: cs.CV

TL;DR: 论文探讨了在开放世界环境中智能城市计算机视觉的实际应用,特别是人员重识别任务的挑战与解决方案。

  • Motivation: 研究动机是解决在复杂开放世界环境中(如多摄像头、多变光照条件下)的人员重识别问题,以支持零售和公共空间的营销分析。
  • Method: 方法包括系统设计架构的讨论、基于计算机视觉技术的解决方案,以及对接近实时解决方案的性能测试。
  • Result: 通过多个视频和实时摄像头数据展示了解决方案的性能,并分析了不同开放世界环境对任务的影响。
  • Conclusion: 结论指出了进一步的研究方向和系统改进的可能性。

[16] AI-ready Snow Radar Echogram Dataset (SRED) for climate change monitoring

Oluwanisola Ibikunle,Hara Talasila,Debvrat Varshney,Jilu Li,John Paden,Maryam Rahnemoonfar

Main category: cs.CV

TL;DR: 论文介绍了一个用于雷达回波图内部层追踪的深度学习数据集,并评估了五种模型的性能,指出需要更先进的端到端模型。

  • Motivation: 高精度追踪雷达回波图内部层对理解冰盖动态和量化全球气候变暖对极地冰层的影响至关重要,但缺乏标准化数据集限制了算法的发展。
  • Method: 研究提供了一个基于NASA OIB任务数据的深度学习数据集,包含13,717标注和57,815弱标注的回波图,并评估了五种深度学习模型。
  • Result: 当前计算机视觉分割算法能识别回波图中的雪层像素,但需要更先进的端到端模型以直接提取雪深和年积累量。
  • Conclusion: 该数据集和基准框架为雷达回波图层追踪和雪积累量估计提供了宝贵资源,有助于理解极地冰盖对气候变暖的响应。

[17] SpatialLLM: A Compound 3D-Informed Design towards Spatially-Intelligent Large Multimodal Models

Wufei Ma,Luoxin Ye,Nessa McWeeney,Celso M de Melo,Alan Yuille,Jieneng Chen

Main category: cs.CV

TL;DR: 论文提出SpatialLLM,通过3D数据增强和架构设计提升多模态模型的3D空间推理能力,性能超越GPT-4o 8.7%。

  • Motivation: 当前多模态模型缺乏3D空间推理能力,主要因数据稀缺和设计偏向2D数据。
  • Method: 开发两类3D训练数据(3D探测数据和对话数据),并系统整合到模型架构和训练中。
  • Result: SpatialLLM在3D推理能力上显著提升,性能超越GPT-4o 8.7%。
  • Conclusion: 研究为未来3D推理模型设计提供了系统化方法和数据支持。

[18] Advancing Wheat Crop Analysis: A Survey of Deep Learning Approaches Using Hyperspectral Imaging

Fadi Abdeladhim Zidi,Abdelkrim Ouafi,Fares Bougourzi,Cosimo Distante,Abdelmalik Taleb-Ahmed

Main category: cs.CV

TL;DR: 本文综述了深度学习在高光谱成像(HSI)小麦作物分析中的应用,总结了基准数据集、方法进展及关键应用,并指出了未来机会。

  • Motivation: 小麦生产面临病虫害、气候变化等挑战,传统监测方法效率低,HSI结合深度学习有望解决这些问题。
  • Method: 通过综述现有研究,总结深度学习在HSI小麦分析中的方法、数据集和应用。
  • Result: 展示了深度学习在品种分类、病害检测和产量估计等应用中的潜力,并指出当前局限。
  • Conclusion: 深度学习在HSI小麦分析中前景广阔,但仍需更多数据和改进方法。

[19] The Comparability of Model Fusion to Measured Data in Confuser Rejection

Conor Flynn,Christopher Ebersole,Edmund Zelnio

Main category: cs.CV

TL;DR: 为了解决合成孔径雷达(SAR)数据收集不足的问题,研究者提出了一种基于合成数据的模型集成方法,并引入干扰物拒绝机制以应对未知目标。

  • Motivation: 由于SAR数据收集成本高且样本有限,合成数据虽能补充训练数据,但与实测数据不完全一致,导致模型性能受限。
  • Method: 利用合成数据训练多个模型,并通过集成方法结合这些模型,同时采用干扰物拒绝机制处理未知目标。
  • Result: 通过集成合成数据训练的模型和干扰物拒绝机制,提高了模型在实测数据上的泛化能力。
  • Conclusion: 该方法有效缓解了SAR数据不足的问题,提升了模型在实际应用中的性能。

[20] Are Minimal Radial Distortion Solvers Really Necessary for Relative Pose Estimation?

Viktor Kocur,Charalambos Tzamos,Yaqing Ding,Zuzana Berger Haladova,Torsten Sattler,Zuzana Kukelova

Main category: cs.CV

TL;DR: 论文比较了两种简单实现方法与传统径向畸变求解器,发现复杂求解器在实际中并非必要。

  • Motivation: 解决相机径向畸变对相对位姿估计的影响,避免复杂求解器的高成本和实现难度。
  • Method: 1. 结合高效针孔求解器与采样径向畸变参数;2. 使用神经网络估计畸变参数。
  • Result: 实验表明复杂径向畸变求解器在实际中不必要,并讨论了采样方法与学习方法的适用条件。
  • Conclusion: 简单采样方法或学习先验方法可替代复杂求解器,具体选择取决于条件。

[21] CDFormer: Cross-Domain Few-Shot Object Detection Transformer Against Feature Confusion

Boyuan Meng,Xiaohan Zhang,Peilin Li,Zhe Wu,Yiming Li,Wenkai Zhao,Beinan Yu,Hui-Liang Shen

Main category: cs.CV

TL;DR: CDFormer是一种针对跨域少样本目标检测中特征混淆问题的Transformer方法,通过OBD和OOD模块显著提升性能。

  • Motivation: 跨域少样本目标检测(CD-FSOD)中,特征混淆(如对象-背景混淆和对象间混淆)是主要挑战。
  • Method: 提出CDFormer,包含对象-背景区分(OBD)和对象间区分(OOD)模块,分别解决两类混淆问题。
  • Result: 实验显示,CDFormer在1/5/10 shot设置下分别提升12.9%、11.0%和10.4% mAP。
  • Conclusion: CDFormer有效解决了特征混淆问题,性能优于现有方法。

[22] Generating Animated Layouts as Structured Text Representations

Yeonsang Shin,Jihwan Kim,Yumin Song,Kyungseung Lee,Hyunhee Chung,Taeyoung Na

Main category: cs.CV

TL;DR: 论文提出了一种名为Animated Layout Generation的新方法,通过扩展静态图形布局实现时间动态控制,并开发了VAKER系统,显著优于现有视频广告生成方法。

  • Motivation: 尽管文本到视频模型取得了显著进展,但在文本元素和动画图形的精确控制方面仍存在挑战,尤其是在视频广告等应用中。
  • Method: 提出Animated Layout Generation方法,结合Structured Text Representation实现细粒度视频控制,并通过VAKER系统实现三阶段生成过程与LLMs的无缝集成。
  • Result: VAKER在视频广告生成中显著优于现有方法,实现了动态布局轨迹的自动化生成。
  • Conclusion: VAKER系统通过动态布局轨迹和结构化文本表示,为视频广告生成提供了高效且精确的解决方案。

[23] LMDepth: Lightweight Mamba-based Monocular Depth Estimation for Real-World Deployment

Jiahuan Long,Xin Zhou

Main category: cs.CV

TL;DR: LMDepth是一种基于Mamba的轻量级单目深度估计网络,旨在平衡性能和计算效率,适用于资源受限设备。

  • Motivation: 现有深度估计算法难以平衡性能和计算效率,限制了在资源受限设备上的部署。
  • Method: 提出改进的金字塔空间池化模块和多深度Mamba块,结合线性计算实现高效解码。
  • Result: 在NYUDv2和KITTI数据集上表现优异,参数和计算复杂度更低。
  • Conclusion: LMDepth在嵌入式平台上验证了实用性,适合边缘应用。

[24] Deterministic-to-Stochastic Diverse Latent Feature Mapping for Human Motion Synthesis

Yu Hua,Weiming Liu,Gui Xu,Yaqing Hou,Yew-Soon Ong,Qiang Zhang

Main category: cs.CV

TL;DR: 提出了一种确定性到随机性的多样化潜在特征映射(DSDFM)方法,用于人类运动合成,解决了现有基于分数生成模型(SGMs)训练不稳定和多样性不足的问题。

  • Motivation: 现有基于分数生成模型(SGMs)的训练过程复杂且不稳定,且生成的运动多样性不足。
  • Method: DSDFM分为两个阶段:1)人类运动重建阶段学习潜在空间分布;2)多样化运动生成阶段通过确定性特征映射(DerODE)和随机多样化输出生成(DivSDE)连接高斯分布与潜在空间分布。
  • Result: DSDFM训练简单,无需额外参数即可增强多样性,实验表明其在人类运动合成任务上达到最先进水平。
  • Conclusion: DSDFM在训练稳定性和生成多样性上优于现有方法,为人类运动合成提供了高效解决方案。

[25] 3D Human Pose Estimation via Spatial Graph Order Attention and Temporal Body Aware Transformer

Kamel Aouaidjia,Aofan Li,Wenhao Zhang,Chongsheng Zhang

Main category: cs.CV

TL;DR: 提出了一种结合GCN和Transformer的新方法,通过多阶图表示和动态注意力模块改进3D人体姿态估计。

  • Motivation: 现有Transformer和GCN方法在3D姿态估计中分别忽略了空间邻域关系或局部时间模式,且GCN缺乏姿态特定表示。
  • Method: 使用多阶图表示骨架,引入Graph Order Attention模块动态选择代表性阶数,并结合Body Aware Transformer处理时空特征。
  • Result: 在Human3.6m等数据集上验证了方法的有效性。
  • Conclusion: 新方法通过结合GCN和Transformer的优势,显著提升了3D姿态估计性能。

[26] Fine-Tuning Without Forgetting: Adaptation of YOLOv8 Preserves COCO Performance

Vishal Gandhi,Sagar Gandhi

Main category: cs.CV

TL;DR: 研究表明,深度微调(解冻至第10层)在细粒度水果检测任务中性能显著提升(+10% mAP50),且对原始COCO任务影响极小(<0.1% mAP差异)。

  • Motivation: 探讨预训练目标检测器在细粒度领域中的适应性,避免灾难性遗忘。
  • Method: 通过逐步解冻YOLOv8n模型的骨干层(22、15、10层)并训练,评估微调深度对性能的影响。
  • Result: 深度微调显著提升细粒度任务性能,且对原始任务影响可忽略。
  • Conclusion: 中晚期骨干特征微调对细粒度任务高效且安全,无需担心灾难性遗忘。

[27] Edge-preserving Image Denoising via Multi-scale Adaptive Statistical Independence Testing

Ruyu Yan,Da-Qing Zhang

Main category: cs.CV

TL;DR: 提出了一种多尺度自适应独立性测试的边缘检测与去噪方法(EDD-MAIT),通过梯度驱动自适应窗口策略和通道注意力机制,显著提升了边缘检测的鲁棒性、准确性和效率。

  • Motivation: 现有边缘检测方法生成的边缘图过于详细,影响清晰度,且固定窗口统计测试存在尺度不匹配和计算冗余问题。
  • Method: 结合通道注意力机制与独立性测试,采用梯度驱动的自适应窗口策略动态调整窗口大小。
  • Result: 在BSDS500和BIPED数据集上表现优于传统和基于学习的方法,F-score、MSE、PSNR等指标均有提升,且运行时间减少。
  • Conclusion: EDD-MAIT在噪声环境下仍能生成准确且干净的边缘图,具有较高的实用价值。

[28] Edge Detection based on Channel Attention and Inter-region Independence Test

Ru-yu Yan,Da-Qing Zhang

Main category: cs.CV

TL;DR: CAM-EDIT是一种结合通道注意力机制和独立性测试的边缘检测框架,显著提升了边缘检测的精度和噪声鲁棒性。

  • Motivation: 现有边缘检测方法存在噪声放大和非显著细节保留过多的问题,限制了其在高精度工业场景中的应用。
  • Method: CAM-EDIT整合了通道注意力机制(CAM)和多通道融合增强边缘特征,以及通过独立性测试(EDIT)抑制无关噪声。
  • Result: 在BSDS500和NYUDv2数据集上表现优异,F-measure分数分别达到0.635和0.460,噪声鲁棒性评估中PSNR提升2.2%。
  • Conclusion: CAM-EDIT在高精度工业应用中展现出潜力,生成更干净的边缘图并减少伪影。

[29] Transferable Adversarial Attacks on Black-Box Vision-Language Models

Kai Hu,Weichen Yu,Li Zhang,Alexander Robey,Andy Zou,Chengming Xu,Haoqi Hu,Matt Fredrikson

Main category: cs.CV

TL;DR: 研究表明,针对视觉大语言模型(VLLMs)的对抗性攻击具有高度可迁移性,能够诱导模型产生攻击者预期的错误输出,突显了其安全漏洞。

  • Motivation: 探索VLLMs在对抗性攻击下的脆弱性,尤其是在多模态输入(文本和图像)场景中,填补现有研究的空白。
  • Method: 通过生成针对性对抗样本和通用扰动,测试其在多个主流VLLMs(如GPT-4o、Claude和Gemini)上的迁移性和效果。
  • Result: 实验表明,对抗性攻击能有效诱导模型错误解读视觉信息,且通用扰动在多模型上表现一致。
  • Conclusion: 当前VLLMs普遍存在安全漏洞,亟需开发鲁棒性更强的防御机制以确保安全部署。

[30] GeloVec: Higher Dimensional Geometric Smoothing for Coherent Visual Feature Extraction in Image Segmentation

Boris Kriuk,Matey Yordanov

Main category: cs.CV

TL;DR: GeloVec是一种基于CNN的注意力平滑框架,通过高维几何平滑方法解决语义分割中的边界不稳定和上下文不连续问题,显著提升了分割性能。

  • Motivation: 现有注意力分割方法在特征映射中存在边界不稳定和上下文不连续问题,需要一种更稳健的解决方案。
  • Method: 结合改进的Chebyshev距离度量和多空间变换,通过自适应采样权重系统计算n维特征空间中的几何距离,实现稳定特征提取。
  • Result: 在多个基准数据集上,mIoU分别提升了2.1%、2.7%和2.4%,同时保持了计算效率。
  • Conclusion: GeloVec通过黎曼几何理论保证分割稳定性,具有强泛化能力和高效性。

[31] Efficient Vocabulary-Free Fine-Grained Visual Recognition in the Age of Multimodal LLMs

Hari Chandana Kuchibhotla,Sai Srinivas Kancheti,Abbavaram Gowtham Reddy,Vineeth N Balasubramanian

Main category: cs.CV

TL;DR: 论文提出了一种名为NeaR的新方法,用于解决无标注数据下的细粒度视觉识别(VF-FGVR)问题,通过利用多模态大语言模型(MLLM)生成标签并微调CLIP模型。

  • Motivation: 在缺乏标注数据的领域(如医学影像),传统细粒度视觉识别方法无法适用,而直接使用MLLM成本高昂且效率低。
  • Method: 提出NeaR方法,利用MLLM为少量无标注训练集生成标签,构建弱监督数据集,并微调下游CLIP模型。
  • Result: NeaR能够有效处理MLLM生成标签的噪声和不确定性,为VF-FGVR任务建立了新的高效基准。
  • Conclusion: NeaR为无标注数据下的细粒度视觉识别提供了一种高效且实用的解决方案。

[32] Improving Editability in Image Generation with Layer-wise Memory

Daneul Kim,Jaeah Lee,Jaesik Park

Main category: cs.CV

TL;DR: 提出了一种支持多步图像编辑的框架,通过层记忆和一致性引导保持编辑连贯性。

  • Motivation: 现有方法难以处理多步编辑任务,尤其是保持先前编辑内容并自然融入新对象。
  • Method: 采用层记忆存储潜在表示和提示嵌入,提出背景一致性引导和多查询解耦技术。
  • Result: 在迭代编辑任务中表现优异,仅需粗略掩码即可保持高质量结果。
  • Conclusion: 该框架有效解决了多步图像编辑的挑战,提升了复杂场景下的编辑能力。

[33] Any-to-Any Vision-Language Model for Multimodal X-ray Imaging and Radiological Report Generation

Daniele Molino,Francesco di Feola,Linlin Shen,Paolo Soda,Valerio Guarrasi

Main category: cs.CV

TL;DR: 提出了一种针对多模态医学数据生成的框架,能够生成多视角胸部X光及其临床报告,填补了通用视觉语言模型与医疗领域需求之间的差距。

  • Motivation: 医学数据的复杂性和临床准确性要求使得通用生成模型难以直接应用于医疗领域,因此需要专门的解决方案。
  • Method: 利用MIMIC-CXR数据集,设计了一个框架,用于生成高保真图像和语义连贯的临床报告。
  • Result: 定量评估显示,生成的数据在FID和BLEU分数上表现优异,且在下游疾病分类任务中与真实数据性能相当或更优。
  • Conclusion: 该研究强调了领域特定适配对提升生成模型在临床应用中的相关性和实用性的重要性,为未来合成多模态医学数据生成的发展奠定了基础。

[34] Evaluating Vision Language Model Adaptations for Radiology Report Generation in Low-Resource Languages

Marco Salmè,Rosa Sicilia,Paolo Soda,Valerio Guarrasi

Main category: cs.CV

TL;DR: 研究评估了指令调优视觉语言模型(VLMs)在低资源语言(意大利语、德语、西班牙语)中生成放射学报告的表现,发现语言和领域特定训练显著提升性能。

  • Motivation: 解决低资源语言中生成准确且上下文相关的放射学报告的挑战。
  • Method: 使用LLaVA架构,系统评估预训练模型在通用、领域特定和低资源语言特定数据集上的表现,分析不同适应方法。
  • Result: 语言特定模型表现最佳,医学术语微调提升性能,温度参数影响报告连贯性。
  • Conclusion: 语言和领域特定训练对提升多语言放射学报告质量至关重要,为未来模型调优和语言适应研究指明方向。

[35] VSC: Visual Search Compositional Text-to-Image Diffusion Model

Do Huu Dat,Nam Hyeonu,Po-Yuan Mao,Tae-Hyun Oh

Main category: cs.CV

TL;DR: 本文提出了一种新的组合生成方法,通过利用成对图像嵌入来改进属性-对象绑定,解决了文本到图像扩散模型中多属性-对象对提示的挑战。

  • Motivation: 现有文本到图像扩散模型在复杂提示中难以准确绑定属性与对象,主要由于文本编码器的局限性。
  • Method: 分解复杂提示为子提示,生成对应图像并计算视觉原型,结合文本嵌入增强表示,并通过基于分割的定位训练解决注意力错位。
  • Result: 在T2I CompBench基准测试中表现优于现有模型,图像质量更高,且在多绑定对提示下更具鲁棒性。
  • Conclusion: 该方法显著提升了属性-对象绑定的准确性,适用于复杂提示的文本到图像生成。

[36] Self-Supervision Enhances Instance-based Multiple Instance Learning Methods in Digital Pathology: A Benchmark Study

Ali Mammadov,Loic Le Folgoc,Julien Adam,Anne Buronfosse,Gilles Hayem,Guillaume Hocquet,Pietro Gori

Main category: cs.CV

TL;DR: 研究表明,在高质量自监督学习特征提取器支持下,简单的基于实例的多实例学习方法(MIL)性能优于复杂的基于嵌入的MIL方法,且更具可解释性。

  • Motivation: 探讨在病理图像分类中,基于实例的MIL方法是否因自监督学习(SSL)特征提取器的进步而优于基于嵌入的MIL方法。
  • Method: 进行了710次实验,比较了10种MIL策略、6种SSL方法、4种基础模型及多种病理适应技术,并引入了4种新的基于实例的MIL方法。
  • Result: 实验表明,使用高质量SSL特征提取器时,简单的基于实例的MIL方法性能与复杂SOTA基于嵌入的MIL方法相当或更好,并在BRACS和Camelyon16数据集上取得新SOTA结果。
  • Conclusion: 建议未来研究应更关注适应病理图像的自监督学习方法,而非复杂的基于嵌入的MIL方法,以提高可解释性和性能。

[37] FreePCA: Integrating Consistency Information across Long-short Frames in Training-free Long Video Generation via Principal Component Analysis

Jiangtong Tan,Hu Yu,Jie Huang,Jie Xiao,Feng Zhao

Main category: cs.CV

TL;DR: 论文提出了一种基于PCA的无训练长视频生成方法FreePCA,通过解耦全局一致性和局部质量,显著提升了视频生成的一致性和质量。

  • Motivation: 长视频生成因帧数变化导致分布偏移,现有无训练方法难以有效整合全局和局部信息,影响视觉和运动质量。
  • Method: 利用PCA将全局和局部信息解耦为一致外观和运动强度特征,通过余弦相似度测量和渐进式特征整合实现高质量生成。
  • Result: 实验表明,FreePCA无需训练即可应用于多种视频扩散模型,显著提升生成效果。
  • Conclusion: FreePCA通过PCA解耦和整合全局与局部信息,实现了高质量和一致性的长视频生成。

[38] TSTMotion: Training-free Scene-awarenText-to-motion Generation

Ziyan Guo,Haoxuan Qu,Hossein Rahmani,Dewen Soh,Ping Hu,Qiuhong Ke,Jun Liu

Main category: cs.CV

TL;DR: 提出了一种无需训练的场景感知文本到运动生成框架TSTMotion,利用预训练模型和场景感知运动指导生成场景感知的运动序列。

  • Motivation: 现有场景感知方法依赖大规模真实运动数据,成本高昂,因此提出无需训练的方法。
  • Method: 结合基础模型预测场景感知运动指导,并将其融入空白背景运动生成器。
  • Result: 实验证明框架有效且通用。
  • Conclusion: TSTMotion为场景感知文本到运动生成提供了一种高效解决方案。

[39] Efficient Vision-based Vehicle Speed Estimation

Andrej Macko,Lukáš Gajdošech,Viktor Kocur

Main category: cs.CV

TL;DR: 提出了一种计算高效的车辆速度估计方法,通过改进3D边界框和消失点几何技术,显著提升了实时性能。

  • Motivation: 现有方法在实时性和计算效率上存在不足,需要一种更高效的技术以适应边缘设备等硬件平台。
  • Method: 基于2D检测和消失点几何的3D边界框技术,引入多项改进以优化实时性能。
  • Result: 在BrnoCompSpeed数据集上,模型在速度估计误差(0.58 km/h)、检测精度(91.02%)和召回率(91.14%)上优于现有技术,且速度快5.5倍。
  • Conclusion: 通过权衡精度与计算成本,量化后的小模型在实时部署中表现最佳。

[40] T-Graph: Enhancing Sparse-view Camera Pose Estimation by Pairwise Translation Graph

Qingyu Xian,Weiqin Jiao,Hao Cheng,Berend Jan van der Zwaag,Yanqiu Huang

Main category: cs.CV

TL;DR: 论文提出T-Graph模块,通过构建全连接平移图和多层感知机,提升稀疏视角下的相机位姿估计性能。

  • Motivation: 稀疏视角相机位姿估计在遥感应用中具有挑战性,现有方法常忽略视角间的平移信息,导致性能不佳。
  • Method: T-Graph模块输入成对图像特征,通过MLP映射并构建全连接平移图,支持两种平移表示(relative-t和pair-t)。
  • Result: 在RelPose++和Forge方法上验证,相机中心精度提升1%至6%。
  • Conclusion: T-Graph模块有效提升稀疏视角相机位姿估计的鲁棒性和适应性。

[41] High Dynamic Range Novel View Synthesis with Single Exposure

Kaixuan Zhang,Hu Wang,Minxian Li,Mingwu Ren,Mao Ye,Xiatian Zhu

Main category: cs.CV

TL;DR: 论文提出了一种单曝光HDR-NVS方法Mono-HDR-3D,解决了多曝光HDR-NVS的局限性,如运动伪影和高成本。

  • Motivation: 多曝光HDR-NVS存在运动伪影和高成本问题,需要一种仅依赖单曝光LDR图像的方法。
  • Method: 提出Mono-HDR-3D,包含两个模块:LDR转HDR和HDR转LDR,支持无监督闭环学习,并可集成到现有NVS模型中。
  • Result: 实验表明Mono-HDR-3D显著优于现有方法。
  • Conclusion: Mono-HDR-3D为单曝光HDR-NVS提供了高效解决方案,代码将开源。

[42] RD-UIE: Relation-Driven State Space Modeling for Underwater Image Enhancement

Kui Jiang,Yan Luo,Junjun Jiang,Xin Xu,Fei Ma,Fei Yu

Main category: cs.CV

TL;DR: 论文提出了一种基于关系驱动的Mamba框架(RD-UIE),通过动态排序扫描机制和视觉自适应性状态块(VSSB)提升水下图像增强效果。

  • Motivation: 水下图像因波长依赖性衰减导致内容退化和颜色失真,现有状态空间模型(如Mamba)的固定扫描路径无法适应复杂水下环境。
  • Method: 结合动态排序扫描机制和动态卷积,设计VSSB和跨特征桥(CFB)以融合多尺度表示。
  • Result: 在多个基准测试中,RD-UIE优于现有方法WMamba,平均性能提升0.55 dB。
  • Conclusion: RD-UIE通过动态排序和全局-局部特征融合,显著提升了水下图像增强效果。

[43] Core-Set Selection for Data-efficient Land Cover Segmentation

Keiller Nogueira,Akram Zaytar,Wanli Ma,Ribana Roscher,Ronny Hänsch,Caleb Robinson,Anthony Ortiz,Simone Nsutezo,Rahul Dodhia,Juan M. Lavista Ferres,Oktay Karakuş,Paul L. Rosin

Main category: cs.CV

TL;DR: 论文提出六种核心集选择方法,用于从遥感图像分割数据集中选择重要子集,实验表明这些方法优于随机选择基线,甚至在某些情况下优于使用全部数据。

  • Motivation: 传统深度学习模型依赖大数据集训练,但大数据的复杂性、偏见和噪声问题常被忽视,因此需关注数据质量和数量。
  • Method: 提出六种核心集选择方法,基于图像、标签或两者结合,并在三个土地覆盖分类数据集(DFC2022、Vaihingen和Potsdam)上进行基准测试。
  • Result: 实验显示,训练子集优于随机基线,部分方法甚至优于使用全部数据。
  • Conclusion: 数据为中心的学习在遥感领域具有重要潜力。

[44] Compensating Spatiotemporally Inconsistent Observations for Online Dynamic 3D Gaussian Splatting

Youngsik Yun,Jeongmin Bae,Hyunseung Son,Seoha Kim,Hahyun Lee,Gun Bang,Youngjung Uh

Main category: cs.CV

TL;DR: 论文提出了一种增强在线动态场景重建中时间一致性的方法,通过学习并减去误差来恢复理想观测。

  • Motivation: 现有在线重建方法忽视了时间一致性,导致静态区域出现明显伪影,论文旨在解决这一问题。
  • Method: 通过学习误差并减去它来恢复理想观测,从而增强时间一致性。
  • Result: 方法显著提升了时间一致性和渲染质量,并在多个数据集上验证了有效性。
  • Conclusion: 提出的方法有效解决了在线重建中的时间一致性问题,提升了整体质量。

[45] Fusing Foveal Fixations Using Linear Retinal Transformations and Bayesian Experimental Design

Christopher K. I. Williams

Main category: cs.CV

TL;DR: 论文提出了一种基于线性降采样的视网膜变换方法,用于融合多个注视点的场景表示,并通过贝叶斯实验设计优化注视点选择。

  • Motivation: 解决人类和脊椎动物如何通过多个注视点融合高分辨率和低分辨率信息以构建完整场景表示的问题。
  • Method: 利用已知几何关系,将视网膜变换建模为高分辨率潜在图像的线性降采样,并在因子分析及其混合模型中实现精确推断。
  • Result: 在Frey面孔和MNIST数据集上的实验验证了模型的有效性。
  • Conclusion: 该方法能够高效融合多注视点信息,并通过贝叶斯实验设计优化注视点选择。

[46] CAMELTrack: Context-Aware Multi-cue ExpLoitation for Online Multi-Object Tracking

Vladimir Somers,Baptiste Standaert,Victor Joos,Alexandre Alahi,Christophe De Vleeschouwer

Main category: cs.CV

TL;DR: CAMEL是一种新型的关联模块,通过数据学习关联策略,摆脱手工启发式方法,同时保持模块化设计,在多个跟踪基准上实现最先进性能。

  • Motivation: 现有的跟踪方法依赖手工规则进行时间关联,难以捕捉复杂跟踪线索之间的相互作用。
  • Method: CAMEL采用两个基于Transformer的模块和一种新的关联中心训练方案,建模目标与关联线索的复杂交互。
  • Result: CAMELTrack在多个跟踪基准上达到最先进性能。
  • Conclusion: CAMEL通过数据驱动的方法提升了关联能力,同时保持了模块化和高效性。

[47] Diffusion-based Adversarial Purification from the Perspective of the Frequency Domain

Gaozheng Pei,Ke Ma,Yingfei Sun,Qianqian Xu,Qingming Huang

Main category: cs.CV

TL;DR: 论文提出了一种基于频域的对抗净化方法,通过替换低频振幅和限制相位范围,有效去除对抗扰动并保留图像内容。

  • Motivation: 现有对抗净化方法因缺乏扰动分布信息,容易破坏正常语义,频域视角下发现扰动对高频部分影响更大,因此提出针对性净化策略。
  • Method: 将图像分解为振幅和相位谱,替换低频振幅并限制相位范围,专注于低频部分以减少对图像的过度破坏。
  • Result: 实验表明,该方法显著优于现有防御方法,能有效去除扰动并保留图像内容。
  • Conclusion: 频域视角的对抗净化方法在去除扰动和保留图像内容方面具有优势,为对抗防御提供了新思路。

[48] FreeInsert: Disentangled Text-Guided Object Insertion in 3D Gaussian Scene without Spatial Priors

Chenxi Li,Weijie Wang,Qiang Li,Bruno Lepri,Nicu Sebe,Weizhi Nie

Main category: cs.CV

TL;DR: FreeInsert是一个基于基础模型(如MLLMs、LGMs和扩散模型)的框架,用于在3D场景中实现无需空间先验的灵活对象插入。

  • Motivation: 现有方法依赖空间先验(如2D掩码或3D边界框),限制了灵活性和可扩展性。FreeInsert旨在解决这一问题。
  • Method: 通过MLLM解析用户指令,提取语义信息指导对象生成和空间放置,结合分层细化阶段提升空间一致性。
  • Result: 实验表明,FreeInsert实现了语义连贯、空间精确且视觉逼真的3D插入。
  • Conclusion: FreeInsert提供了一种无需空间先验的用户友好编辑方案。

[49] Monitoring morphometric drift in lifelong learning segmentation of the spinal cord

Enamundram Naga Karthik,Sandrine Bédard,Jan Valošek,Christoph S. Aigner,Elise Bannier,Josef Bednařík,Virginie Callot,Anna Combes,Armin Curt,Gergely David,Falk Eippert,Lynn Farner,Michael G Fehlings,Patrick Freund,Tobias Granberg,Cristina Granziera,RHSCIR Network Imaging Group,Ulrike Horn,Tomáš Horák,Suzanne Humphreys,Markus Hupp,Anne Kerbrat,Nawal Kinany,Shannon Kolind,Petr Kudlička,Anna Lebret,Lisa Eunyoung Lee,Caterina Mainero,Allan R. Martin,Megan McGrath,Govind Nair,Kristin P. O'Grady,Jiwon Oh,Russell Ouellette,Nikolai Pfender,Dario Pfyffer,Pierre-François Pradat,Alexandre Prat,Emanuele Pravatà,Daniel S. Reich,Ilaria Ricchi,Naama Rotem-Kohavi,Simon Schading-Sassenhausen,Maryam Seif,Andrew Smith,Seth A Smith,Grace Sweeney,Roger Tam,Anthony Traboulsee,Constantina Andrada Treaba,Charidimos Tsagkas,Zachary Vavasour,Dimitri Van De Ville,Kenneth Arnold Weber II,Sarath Chandar,Julien Cohen-Adad

Main category: cs.CV

TL;DR: 该研究提出了一种基于多站点数据训练的脊髓分割模型,并引入终身学习框架监控模型更新时的形态测量漂移,应用于更新健康参与者的规范数据库。

  • Motivation: 评估脊髓分割模型在更新时的稳定性,特别是用于从健康参与者中提取规范值。
  • Method: 使用多站点数据集(n=75)训练脊髓分割模型,引入终身学习框架自动监控形态测量漂移,并通过GitHub Actions工作流触发。
  • Result: 模型在腰椎脊髓病例中表现优于先前版本(平均Dice分数0.95±0.03),形态测量漂移监控提供了快速反馈,规范数据库更新所需的缩放因子几乎恒定。
  • Conclusion: 该模型在Spinal Cord Toolbox v7.0中免费提供,为脊髓形态测量提供了稳定的工具。

[50] Global Collinearity-aware Polygonizer for Polygonal Building Mapping in Remote Sensing

Fahong Zhang,Yilei Shi,Xiao Xiang Zhu

Main category: cs.CV

TL;DR: 提出了一种名为GCP的新算法,用于从遥感图像中映射多边形建筑,通过全局共线性感知的多边形简化模块优化结果。

  • Motivation: 解决从遥感图像中准确映射多边形建筑的挑战。
  • Method: 基于实例分割框架,通过采样轮廓线、Transformer回归模块优化轮廓,再通过共线性感知的多边形简化模块生成最终多边形。
  • Result: 在公共基准测试中验证了GCP的有效性,其简化模块优于传统方法。
  • Conclusion: GCP算法在建筑多边形映射中表现出色,具有广泛适用性。

[51] Multimodal Doctor-in-the-Loop: A Clinically-Guided Explainable Framework for Predicting Pathological Response in Non-Small Cell Lung Cancer

Alice Natalina Caragliano,Claudia Tacconi,Carlo Greco,Lorenzo Nibid,Edy Ippolito,Michele Fiore,Giuseppe Perrone,Sara Ramella,Paolo Soda,Valerio Guarrasi

Main category: cs.CV

TL;DR: 提出了一种结合多模态深度学习和可解释AI的新方法,用于预测非小细胞肺癌患者对新辅助治疗的病理反应。

  • Motivation: 现有放射组学和单模态深度学习方法存在局限性,需改进数据整合和临床相关性。
  • Method: 采用中间融合策略整合影像和临床数据,并结合医生领域知识的"Multimodal Doctor-in-the-Loop"方法。
  • Result: 提高了预测准确性和可解释性,为临床数据整合提供了优化策略。
  • Conclusion: 该方法在临床应用中展示了潜力,特别是在数据整合和模型解释性方面。

[52] VIDSTAMP: A Temporally-Aware Watermark for Ownership and Integrity in Video Diffusion Models

Mohammadreza Teymoorianfard,Shiqing Ma,Amir Houmansadr

Main category: cs.CV

TL;DR: VIDSTAMP是一种视频水印框架,通过直接在时间感知视频扩散模型的潜在空间中嵌入水印,解决了现有方法在视频操作中的不足。

  • Motivation: 视频扩散模型的快速发展引发了内容真实性和滥用的担忧,现有水印方法难以应对视频特定操作且影响视觉质量。
  • Method: 采用两阶段微调管道,先在静态图像数据集上训练以分离空间信息,再在合成视频序列上恢复时间一致性,利用3D卷积和时间注意力嵌入高容量水印。
  • Result: VIDSTAMP每视频嵌入768比特(每帧48比特),比特准确率达95.0%,视频质量评分0.836,优于现有方法。
  • Conclusion: VIDSTAMP在保持高视觉质量的同时,提供了更强的鲁棒性和容量,优于现有水印技术。

cs.AI

[53] ROSA: A Knowledge-based Solution for Robot Self-Adaptation

Gustavo Rezende Silva,Juliane Päßler,S. Lizeth Tapia Tarifa,Einar Broch Johnsen,Carlos Hernández Corbato

Main category: cs.AI

TL;DR: ROSA是一个基于知识的机器人自适应框架,支持任务与架构协同适应(TACA),通过运行时推理实现动态调整,并在水下机器人应用中验证了其可行性和性能。

  • Motivation: 自主机器人需在多样环境中处理多任务,但不同情境需要不同的任务逻辑和架构配置,设计自适应系统以应对这些挑战。
  • Method: 提出ROSA框架,通过知识模型捕获应用特定知识,并在运行时推理决定适应时机和方式,提供ROS 2开源实现。
  • Result: 实验表明ROSA在可重用性和开发效率上具有优势,适用于自适应机器人系统设计。
  • Conclusion: ROSA为机器人自适应提供了一种高效、可扩展的解决方案,适用于复杂环境下的任务执行。

[54] Howard's Policy Iteration is Subexponential for Deterministic Markov Decision Problems with Rewards of Fixed Bit-size and Arbitrary Discount Factor

Dibyangshu Mukherjee,Shivaram Kalyanakrishnan

Main category: cs.AI

TL;DR: 本文改进了Howard策略迭代(HPI)在确定性MDP(DMDP)上的运行时间上界,提出了一个次指数级的上界,且与折扣因子无关。

  • Motivation: 尽管HPI算法已有60多年历史,但其在确定性MDP上的运行时间上界仍为指数级,而现有下界仅为线性。本文旨在填补这一差距。
  • Method: 通过分析HPI在DMDP上的行为,提出了一种新的参数化方法,基于奖励的比特大小而非折扣因子。
  • Result: 证明了HPI在DMDP上的运行时间上界为次指数级,且适用于仅含两种奖励的DMDP。
  • Conclusion: 本文显著改进了HPI在DMDP上的理论性能,为未来研究提供了新的方向。

[55] Explanations as Bias Detectors: A Critical Study of Local Post-hoc XAI Methods for Fairness Exploration

Vasiliki Papanikou,Danae Pla Karidi,Evaggelia Pitoura,Emmanouil Panagiotou,Eirini Ntoutsi

Main category: cs.AI

TL;DR: 本文探讨了解释性方法如何用于检测和解释AI系统中的不公平性,提出了一种结合局部事后解释方法的流程,并分析了其关键问题。

  • Motivation: 随着AI在影响人类生活的领域广泛应用,公平性和透明性问题日益突出,尤其是对受保护群体的影响。解释性与公平性的结合成为推动负责任AI系统的重要方向。
  • Method: 提出了一种流程,整合局部事后解释方法,以获取与公平性相关的见解,并解决了使用解释作为偏见检测器时的关键问题。
  • Result: 结果显示解释性方法在公平性方面的潜力,但也强调了需要仔细考虑的关键问题。
  • Conclusion: 解释性方法可用于公平性检测,但需注意其局限性及关键问题的处理。

[56] MIMIC-\RNum{4}-Ext-22MCTS: A 22 Millions-Event Temporal Clinical Time-Series Dataset with Relative Timestamp for Risk Prediction

Jing Wang,Xing Niu,Juyong Kim,Jie Shen,Tong Zhang,Jeremy C. Weiss

Main category: cs.AI

TL;DR: 论文提出了一种从MIMIC-IV-Note中提取高质量临床时间序列数据的方法,并构建了MIMIC-4-Ext-22MCTS数据集。通过分块处理、检索和提示设计,显著提升了模型在医疗任务中的表现。

  • Motivation: 现代医疗中,基于机器学习的临床风险预测依赖于高质量的时间序列数据。然而,现有的MIMIC-IV-Note数据存在文本过长和时间信息缺失的问题,亟需解决。
  • Method: 1) 将出院摘要分块;2) 使用上下文BM25和语义搜索检索含临床事件的块;3) 设计提示让Llama-3.1-8B模型识别或推断时间信息。
  • Result: 构建的数据集显著提升了模型性能:BERT在医疗问答任务中准确率提升10%,临床试验匹配任务提升3%;GPT-2生成的结果更具临床可靠性。
  • Conclusion: 提出的框架有效解决了数据质量问题,为医疗AI应用提供了更可靠的数据支持。

[57] Thoughts without Thinking: Reconsidering the Explanatory Value of Chain-of-Thought Reasoning in LLMs through Agentic Pipelines

Ramesh Manuvinakurike,Emanuel Moss,Elizabeth Anne Watkins,Saurav Sahay,Giuseppe Raffa,Lama Nachman

Main category: cs.AI

TL;DR: 研究表明,在代理管道中,Chain-of-Thought(CoT)推理并不能提升输出质量或提供可操作性解释。

  • Motivation: 探讨代理管道中LLMs的透明性和可解释性,特别是CoT推理的实际效果。
  • Method: 通过定量和定性分析,研究代理管道中CoT推理的表现。
  • Result: CoT推理未能改善输出质量或提供有效解释,其生成的解释缺乏实用性。
  • Conclusion: CoT推理在代理管道中不足以实现可解释性,需进一步探索其他方法。

[58] Car Sensors Health Monitoring by Verification Based on Autoencoder and Random Forest Regression

Sahar Torkhesari,Behnam Yousefimehr,Mehdi Ghatee

Main category: cs.AI

TL;DR: 论文提出了一种创新的传感器健康监测系统,利用机器学习和深度学习技术评估传感器健康状态,并通过主动检测和替换故障传感器值实现高精度(99%)的监控。

  • Motivation: 为汽车行业开发一种能够主动监测传感器健康状态的系统,以提高车辆安全性和维护效率。
  • Method: 结合自动编码器检测传感器故障和随机森林回归估计传感器值,并利用正态分布模型主动识别潜在故障。
  • Result: 在Saipa's Quick车辆的20个关键传感器上测试,系统准确率达到99%。
  • Conclusion: 该系统通过主动监测和故障替换,显著提升了传感器健康监控的准确性和可靠性。

[59] Seeking to Collide: Online Safety-Critical Scenario Generation for Autonomous Driving with Retrieval Augmented Large Language Models

Yuewen Mei,Tong Nie,Jian Sun,Ye Tian

Main category: cs.AI

TL;DR: 提出了一种基于检索增强的大型语言模型框架,用于生成安全关键的驾驶场景,显著提升了自动驾驶车辆的测试效果。

  • Motivation: 现有场景生成方法要么过度拟合常见驾驶模式,要么无法交互式地暴露罕见但安全关键的极端情况,因此需要一种在线、交互式的方法。
  • Method: 使用LLM行为分析器推断背景车辆的最危险意图,并查询其他LLM代理合成可行的对抗轨迹,同时通过动态记忆和检索库扩展行为库。
  • Result: 在Waymo Open Motion Dataset上测试,模型将平均最小碰撞时间从1.62秒降至1.08秒,碰撞率提高75%,显著优于基线方法。
  • Conclusion: 该框架有效提升了自动驾驶车辆在安全关键场景中的测试能力,为未来的仿真测试提供了新思路。

[60] Improving Large Language Model Planning with Action Sequence Similarity

Xinran Zhao,Hanie Sedghi,Bernd Bohnet,Dale Schuurmans,Azade Nova

Main category: cs.AI

TL;DR: 论文提出GRASE-DC方法,通过动作序列相似性(AS)筛选示例,提升大语言模型(LLM)的规划能力,实验显示显著性能提升。

  • Motivation: 探索如何通过上下文学习(ICL)提升LLM的规划能力,尤其是如何选择有效的示例信号。
  • Method: 提出GRASE-DC两阶段流程:基于AS重新采样示例,并通过动态聚类平衡相关性和多样性。
  • Result: GRASE-DC在多种规划任务中显著提升性能(最高40点准确率提升,平均减少27.3%示例需求)。结合验证器后性能进一步提升18.9%。
  • Conclusion: GRASE-DC能有效提升LLM规划能力,尤其在分布外问题上表现优异,展示了其泛化能力。

[61] Adaptive Wizard for Removing Cross-Tier Misconfigurations in Active Directory

Huy Q. Ngo,Mingyu Guo,Hung Nguyen

Main category: cs.AI

TL;DR: 论文提出了一种优化Windows AD系统安全漏洞修复流程的方法,通过最小化IT管理员与安全向导的交互次数来减少人工工作量。

  • Motivation: 由于手动验证AD系统中的安全漏洞修复需要大量人工努力,研究旨在优化这一流程。
  • Method: 提出了自适应路径移除问题模型,并设计了精确算法、近似算法和启发式算法(如DPR)来解决。
  • Result: 实验证明,DPR启发式算法在大规模图上表现优于其他算法,且适用于真实AD攻击图。
  • Conclusion: 该模型和算法能有效减少人工交互次数,提升AD系统安全加固效率。

[62] Retrieval Augmented Learning: A Retrial-based Large Language Model Self-Supervised Learning and Autonomous Knowledge Generation

Zongyuan Li,Pengfei Li,Runnan Qi,Yanan Ni,Lumin Jiang,Hui Wu,Xuebo Zhang,Kuihua Huang,Xian Guo

Main category: cs.AI

TL;DR: 本文提出了一种无需训练的检索增强学习框架(RAL),通过自主生成和验证知识,显著降低了幻觉并提升了决策性能。

  • Motivation: 解决领域特定数据不足对LLM在专业应用中决策系统的限制,同时避免高昂的再训练成本。
  • Method: 将检索增强生成(RAG)模块化,实现假设提出、验证和知识生成的三阶段自主学习。
  • Result: 在LLM-PySC2环境中验证,有效减少幻觉并提升决策性能,成本极低。
  • Conclusion: RAL是一种低成本高效的决策和自主知识生成解决方案,具有OOD任务、鲁棒性和迁移性潜力。

[63] MADIL: An MDL-based Framework for Efficient Program Synthesis in the ARC Benchmark

Sébastien Ferré

Main category: cs.AI

TL;DR: MADIL(基于MDL的AI)是一种利用最小描述长度(MDL)原则的高效归纳学习方法,专注于模式分解和结构化泛化,在ARC任务中表现虽不及LLM,但更高效且可解释。

  • Motivation: 解决AI在技能获取和泛化方面的效率问题,特别是在ARC基准测试中减少对大量预训练和高计算成本的需求。
  • Method: 采用MDL原则进行模式分解,实现结构化泛化,应用于ARC任务。
  • Result: MADIL在ArcPrize 2024中表现7%,低于LLM方法,但更高效且可解释。
  • Conclusion: MADIL提供了一种高效且可解释的AI学习方法,虽性能有待提升,但在资源效率上具有优势。

[64] Explainable AI Based Diagnosis of Poisoning Attacks in Evolutionary Swarms

Mehrdad Asadi,Roxana Rădulescu,Ann Nowé

Main category: cs.AI

TL;DR: 论文研究了多无人机网络等群体系统中数据投毒攻击的影响,并提出了一种基于可解释AI的框架来诊断和量化攻击效果。

  • Motivation: 群体系统在关键环境中表现出色,但团队级协调策略易受数据投毒攻击,导致不准确协调或对抗行为。
  • Method: 使用进化智能建模代理间交互,并通过数据操纵攻击系统性地毒害群体模型,应用可解释AI方法量化攻击效果。
  • Result: 研究发现,当模型被毒害超过10%时,会导致非最优策略和低效合作。
  • Conclusion: 可解释AI方法能有效诊断数据投毒攻击的影响,为群体系统的安全性提供了新思路。

[65] Exploring the Impact of Explainable AI and Cognitive Capabilities on Users' Decisions

Federico Maria Cau,Lucio Davide Spano

Main category: cs.AI

TL;DR: 研究了不同解释风格(如基于示例、特征、规则和反事实)和AI信息对贷款申请决策的影响,发现高AI信心增加依赖并降低认知负荷,反事实解释虽难理解但提升准确性。

  • Motivation: 探讨不同解释风格和AI信息如何影响用户对AI的依赖、决策准确性和认知负荷,同时研究个性特征(如NFC)的作用。
  • Method: 在贷款申请场景中,测试不同解释风格和AI信息对用户决策的影响,并比较高低NFC个体的差异。
  • Result: 高AI信心增加依赖并降低认知负荷;反事实解释提升准确性;NFC个体间无显著差异。
  • Conclusion: 需个性化XAI界面,结合多种解释风格和用户特征以优化人机协作。

[66] Early Detection of Patient Deterioration from Real-Time Wearable Monitoring System

Lo Pang-Yun Ting,Hong-Pei Chen,An-Shan Liu,Chun-Yin Yeh,Po-Lin Chen,Kun-Ta Chuang

Main category: cs.AI

TL;DR: TARL是一种创新方法,通过建模心率时间序列中的代表性子序列(shapelets)的结构关系,构建知识图谱以预测病情发展,并处理缺失值,实现早期病情检测。

  • Motivation: 早期检测患者病情恶化对降低死亡率至关重要,但心率数据的多样性和缺失值处理是主要挑战。
  • Method: 提出TARL方法,建模心率时间序列中的shapelets动态关系,构建知识图谱,并引入过渡感知知识嵌入强化关系。
  • Result: 在真实ICU数据上验证,TARL具有高可靠性和早期检测能力,并能提供可解释的检测过程。
  • Conclusion: TARL作为AI工具,有望辅助临床医生早期识别患者病情恶化。

[67] BalancEdit: Dynamically Balancing the Generality-Locality Trade-off in Multi-modal Model Editing

Dongliang Guo,Mengxuan Hu,Zihan Guan,Thomas Hartvigsen,Sheng Li

Main category: cs.AI

TL;DR: 论文提出BalancEdit方法,解决多模态模型编辑中的泛化性与局部性权衡问题,并引入OKEDIT数据集进行评估。

  • Motivation: 大型多模态模型会随时间衰减,传统微调方法不适用,现有编辑技术忽视不同事实的影响范围。
  • Method: 提出BalancEdit方法,动态平衡泛化性与局部性,通过生成正负样本确定影响范围,并使用离散编辑码本。
  • Result: BalancEdit在保持编辑能力的同时,实现了最小的权衡。
  • Conclusion: BalancEdit是首个明确解决多模态模型编辑中泛化性与局部性权衡的方法,效果显著。

cs.LG

[68] Constructing an Optimal Behavior Basis for the Option Keyboard

Lucas N. Alegre,Ana L. C. Bazzan,André Barreto,Bruno C. da Silva

Main category: cs.LG

TL;DR: 论文提出了一种高效构建最优行为基的新方法,显著减少了确保新任务最优性所需的基策略数量,并在复杂任务中优于现有方法。

  • Motivation: 多任务强化学习的目标是通过最小化环境交互快速解决新任务。现有方法如GPI和OK虽有效,但依赖于基策略的选择,且计算成本高。本文旨在解决如何构建最优行为基以实现零样本最优解。
  • Method: 引入一种新方法,高效构建最优行为基,确保新任务的最优性,并证明其表达能力优于CCS。
  • Result: 实验表明,该方法在复杂任务中显著优于现有技术,且随着任务复杂性增加,优势更明显。
  • Conclusion: 提出的最优行为基方法在多任务强化学习中具有高效性和优越性,尤其在复杂任务中表现突出。

[69] Scalable Meta-Learning via Mixed-Mode Differentiation

Iurii Kemaev,Dan A Calian,Luisa M Zintgraf,Gregory Farquhar,Hado van Hasselt

Main category: cs.LG

TL;DR: 论文提出MixFlow-MG算法,通过混合模式微分优化梯度计算,显著提升内存和时间效率。

  • Motivation: 解决梯度双层优化中二阶和混合导数计算的高成本问题,提升现代自动微分库的性能。
  • Method: 提出Mixed-Flow Meta-Gradients(MixFlow-MG)算法,利用混合模式微分构建高效计算图。
  • Result: 在元学习场景中,内存节省超过10倍,运行时间提升达25%。
  • Conclusion: MixFlow-MG是一种高效且可扩展的解决方案,适用于梯度双层优化问题。

[70] A Mathematical Philosophy of Explanations in Mechanistic Interpretability -- The Strange Science Part I.i

Kola Ayonrinde,Louis Jaburi

Main category: cs.LG

TL;DR: 论文提出解释性视图假说,认为机制可解释性研究能提取和理解神经网络中的隐含解释,并定义了解释忠实性。

  • Motivation: 探讨机制可解释性研究的理论基础,明确其定义和界限。
  • Method: 提出机制可解释性的定义,包括模型级、本体性、因果机制性和可证伪性,并阐述解释性乐观原则。
  • Result: 定义了机制可解释性,并提出了解释性乐观原则作为其成功的必要条件。
  • Conclusion: 机制可解释性是一种有原则的研究方法,其成功依赖于解释性乐观原则。

[71] Handling Label Noise via Instance-Level Difficulty Modeling and Dynamic Optimization

Kuan Zhang,Chengliang Chai,Jingzhe Xu,Chi Zhang,Ye Yuan,Guoren Wang,Lei Cao

Main category: cs.LG

TL;DR: 提出了一种新的两阶段噪声学习框架,通过动态加权损失函数实现实例级优化,避免了超参数调优。

  • Motivation: 解决现有方法在噪声监督下泛化性能下降的问题,现有方法存在计算成本高、超参数调优复杂和粗粒度优化等局限性。
  • Method: 引入了一种称为“错误事件”的简单有效度量,动态建模样本的清洁度和难度;框架分为两阶段:收集错误事件信息构建基础模型,然后基于概率模型进行噪声鲁棒训练。
  • Result: 在五个合成和真实世界的LNL基准测试中,性能超越现有方法,计算时间减少近75%,并提高了模型的可扩展性。
  • Conclusion: 提出的框架在噪声学习任务中表现出色,显著提升了性能和效率。

[72] ICQuant: Index Coding enables Low-bit LLM Quantization

Xinlin Li,Osama Hanna,Christina Fragouli,Suhas Diggavi

Main category: cs.LG

TL;DR: ICQuant是一种新颖的低比特后训练量化框架,通过统计离群值设计高效的索引编码方案,显著减少量化范围,仅需约0.3比特开销即可将量化范围减半,优于现有技术。

  • Motivation: 大型语言模型(LLMs)的高内存成本需要高效的低比特后训练量化(PTQ),而权重量化中的离群值问题导致量化范围扩大和误差增加。
  • Method: ICQuant利用离群值统计设计索引编码方案,支持离群值感知的仅权重量化,兼容现有量化器。
  • Result: 在2.3比特/权重下,ICQuant将2-bit Llama3-70B的零样本准确率提升130%和150%(相对于QTIP和QuIP#),性能媲美无需微调的最佳量化器(PV-tuning)。
  • Conclusion: ICQuant是一种高效且兼容性强的量化框架,显著提升低比特量化性能,适用于极端压缩场景。

[73] Rethinking Time Encoding via Learnable Transformation Functions

Xi Chen,Yateng Tang,Jiarong Xu,Jiawei Zhang,Siwei Zhang,Sijia Peng,Xuehao Zheng,Yun Xiong

Main category: cs.LG

TL;DR: 论文提出了一种名为LeTE的可学习时间编码方法,通过深度函数学习技术参数化非线性变换,以处理多样化和复杂的时间模式。

  • Motivation: 现实场景中时间模式的多样性和复杂性对传统时间编码方法提出了挑战,现有方法多局限于单一模式建模,难以应对实际需求。
  • Method: 采用深度函数学习技术参数化非线性变换,提出Learnable Transformation-based Generalized Time Encoding (LeTE)。
  • Result: 实验证明LeTE在多种任务中具有广泛的适用性和有效性。
  • Conclusion: LeTE能够涵盖现有方法并灵活应用于多种任务,为时间编码提供了更通用的解决方案。

[74] Fine-Tuning without Performance Degradation

Han Wang,Adam White,Martha White

Main category: cs.LG

TL;DR: 论文提出了一种新的微调算法Jump Start,通过逐步增加探索来减少性能下降,相比现有算法表现更优。

  • Motivation: 离线学习策略在微调时性能下降或学习缓慢是主要挑战,现有方法效率不足。
  • Method: 基于Jump Start算法,根据在线性能估计逐步增加探索。
  • Result: 新算法显著减少性能下降,实现快速微调。
  • Conclusion: Jump Start算法在微调阶段表现优于现有方法。

[75] A Self-Supervised Transformer for Unusable Shared Bike Detection

Yin Huang,Yongqi Dong,Youhua Tang,Alvaro García Hernandez

Main category: cs.LG

TL;DR: 论文提出了一种自监督Transformer框架(SSTransformer),用于自动检测共享单车故障,通过提取GPS轨迹和行程记录的时空特征,显著提升了检测性能。

  • Motivation: 共享单车系统(BSS)的大规模部署面临运营挑战,尤其是故障单车检测问题。现有方法要么忽略动态时空模式,要么受限于标签稀缺和类别不平衡。
  • Method: 提出SSTransformer框架,结合自监督预训练和微调策略,利用Transformer编码器学习单车运动的通用表示,并适应下游分类任务。
  • Result: 在成都的真实数据集上,SSTransformer在准确率(97.81%)、精确率(0.8889)和F1分数(0.9358)上均优于传统方法。
  • Conclusion: 自监督Transformer在时空数据上能有效捕捉复杂异常,为共享出行提供更可靠、可扩展的维护方案。

[76] Tree-Sliced Wasserstein Distance with Nonlinear Projection

Thanh Tran,Viet-Hoang Tran,Thanh Chu,Trang Pham,Laurent El Ghaoui,Tam Le,Tan M. Nguyen

Main category: cs.LG

TL;DR: 提出了一种基于树切片Wasserstein距离的非线性投影框架,替代线性投影,提升了度量效率,并在实验中验证了其优越性。

  • Motivation: 传统切片Wasserstein距离使用一维线投影,限制了拓扑结构的捕捉能力。树切片方法通过树形度量空间改进,但仍需进一步优化。
  • Method: 提出非线性投影框架,确保Radon变换的单射性和度量的良好定义性,设计适用于欧几里得空间和球面的投影。
  • Result: 在欧几里得和球面数据集上验证了方法的有效性,应用包括梯度流、自监督学习和生成模型,性能优于现有方法。
  • Conclusion: 非线性投影框架显著提升了树切片Wasserstein距离的性能,为复杂数据提供了高效度量工具。

[77] Toward Data-centric Directed Graph Learning: An Entropy-driven Approach

Xunkai Li,Zhengyu Wu,Kaichi Yu,Hongchao Qin,Guang Zeng,Rong-Hua Li,Guoren Wang

Main category: cs.LG

TL;DR: 论文提出了一种名为EDEN的数据中心有向图学习范式,通过分层编码理论和知识蒸馏提升模型性能。

  • Motivation: 现有有向图神经网络未能充分挖掘有向图中隐藏的数据知识,导致预测性能不佳,需从数据中心角度探索拓扑与节点特征的关系。
  • Method: EDEN通过构建分层知识树(HKT)并量化节点间的互信息,实现数据中心知识蒸馏,提升模型编码能力。
  • Result: 在14个数据集和4个下游任务中,EDEN表现优异,显著提升了现有模型的性能。
  • Conclusion: EDEN作为一种通用框架,不仅适用于有向图,还能扩展到无向图场景,展现出强大的性能提升潜力。

[78] Towards the Resistance of Neural Network Watermarking to Fine-tuning

Ling Tang,Yuefeng Chen,Hui Xue,Quanshi Zhang

Main category: cs.LG

TL;DR: 提出了一种新的水印方法,将所有权信息嵌入深度神经网络(DNN)中,且对微调具有鲁棒性。

  • Motivation: 解决DNN模型在微调过程中水印信息易丢失的问题。
  • Method: 利用修正的傅里叶变换提取卷积滤波器的特定频率成分,设计水印模块将信息编码到这些成分中。
  • Result: 实验证明该方法有效,水印信息在微调、权重缩放和置换下保持不变。
  • Conclusion: 该方法为DNN模型的所有权保护提供了一种鲁棒的水印解决方案。

[79] Stagnation in Evolutionary Algorithms: Convergence Optimality

Xiaojun Zhou

Main category: cs.LG

TL;DR: 论文指出停滞可能促进种群收敛,且收敛不等于最优性。

  • Motivation: 挑战进化计算中关于停滞和收敛的传统观点。
  • Method: 通过理论分析和反例说明。
  • Result: 停滞有助于种群收敛,收敛不保证最优性。
  • Conclusion: 收敛本身不足以衡量进化算法的有效性。

[80] Low-Precision Training of Large Language Models: Methods, Challenges, and Opportunities

Zhiwei Hao,Jianyuan Guo,Li Shen,Yong Luo,Han Hu,Guoxia Wang,Dianhai Yu,Yonggang Wen,Dacheng Tao

Main category: cs.LG

TL;DR: 本文综述了低精度训练方法,将其分为三类(定点/整数、浮点、自定义格式),并讨论了量化感知训练及未来研究方向。

  • Motivation: 大语言模型训练资源需求高,低精度训练可提升效率,但研究领域碎片化,需系统整理。
  • Method: 将低精度训练方法分为三类:定点/整数、浮点、自定义格式,并讨论量化感知训练。
  • Result: 系统分类了现有方法,并提供了相关论文集合。
  • Conclusion: 低精度训练研究需进一步统一和优化,未来方向包括硬件兼容性和效率提升。

[81] Improving Group Fairness in Knowledge Distillation via Laplace Approximation of Early Exits

Edvin Fasth,Sagar Singh

Main category: cs.LG

TL;DR: 论文提出了一种基于拉普拉斯近似的方法,用于改进知识蒸馏中的组公平性,通过重新加权困难实例。

  • Motivation: 解决知识蒸馏中学生模型在早期层学习简单特征导致的组公平性问题。
  • Method: 利用拉普拉斯近似获取校准的不确定性估计,重新加权交叉熵和蒸馏损失。
  • Result: 在MultiNLI数据集上验证了方法的有效性。
  • Conclusion: 拉普拉斯近似比基于边际的方法更能有效识别困难实例,提升组公平性。

[82] On-demand Test-time Adaptation for Edge Devices

Xiao Ma,Young D. Kwon,Dong Ma

Main category: cs.LG

TL;DR: OD-TTA是一种按需触发的测试时自适应框架,通过轻量级域偏移检测、源域选择模块和解耦BN更新,显著降低计算和内存开销,适用于边缘设备。

  • Motivation: 现有CTTA方法在边缘设备上因内存和能耗问题实用性差,需要一种更高效的解决方案。
  • Method: 1) 轻量级域偏移检测;2) 源域选择模块;3) 解耦BN更新方案。
  • Result: OD-TTA在性能相当甚至更好的同时,显著降低了能耗和计算开销。
  • Conclusion: OD-TTA使TTA在边缘设备上更具实用性。

[83] Multi-Objective Reinforcement Learning for Water Management

Zuzanna Osika,Roxana Radelescu,Jazmin Zatarain Salazar,Frans Oliehoek,Pradeep K. Murukannaiah

Main category: cs.LG

TL;DR: 论文提出了一种基于多目标强化学习(MORL)的水资源管理案例研究,并发现现有MORL算法在实际场景中面临扩展性挑战。

  • Motivation: 现实问题(如资源管理、自动驾驶、药物发现)需要优化多个冲突目标,但MORL领域缺乏复杂、真实的环境和基准。
  • Method: 引入尼罗河流域水资源管理案例,将其建模为MORL环境,并在此任务上对现有MORL算法进行基准测试。
  • Result: 结果显示,专业的水资源管理方法优于当前最先进的MORL方法。
  • Conclusion: MORL算法在现实场景中的扩展性仍需改进。

[84] Risk Analysis and Design Against Adversarial Actions

Marco C. Campi,Algo Carè,Luis G. Crespo,Simone Garatti,Federico A. Ramponi

Main category: cs.LG

TL;DR: 本文提出了一种评估模型对抗攻击鲁棒性的框架,适用于多种攻击类型和强度,无需额外测试数据。

  • Motivation: 研究模型在部署时面对对抗行为的可靠性,解决训练与部署条件不一致的问题。
  • Method: 基于支持向量回归(SVR),提出了一种通用的鲁棒性评估框架,适用于松弛优化技术。
  • Result: 无需额外测试数据即可评估模型脆弱性,结果有助于增强模型可信度并支持模型选择。
  • Conclusion: 该框架为对抗性鲁棒性评估提供了实用工具,并为分布外问题提供了新见解。

[85] Harmonizing Intra-coherence and Inter-divergence in Ensemble Attacks for Adversarial Transferability

Zhaoyang Ma,Zhihao Wu,Wang Lu,Xin Gao,Jinghang Yue,Taolin Zhang,Lipo Wang,Youfang Lin,Jing Wang

Main category: cs.LG

TL;DR: HEAT提出了一种新的对抗样本生成方法,通过域泛化和动态权重分配提升对抗样本的迁移性。

  • Motivation: 现有方法在捕捉共享梯度方向和自适应权重分配方面存在不足,影响了对抗样本的迁移性。
  • Method: HEAT包含两个模块:共识梯度方向合成器(使用SVD合成共享梯度方向)和双和谐权重协调器(动态平衡域内一致性和域间多样性)。
  • Result: 实验表明,HEAT在多种数据集和设置下显著优于现有方法。
  • Conclusion: HEAT为对抗攻击研究提供了新视角和方向。

[86] Distilling Two-Timed Flow Models by Separately Matching Initial and Terminal Velocities

Pramook Khungurn,Pratch Piyawongwisal,Sira Sriswadi,Supasorn Suwajanakorn

Main category: cs.LG

TL;DR: 本文提出了一种新的损失函数ITVM,用于蒸馏双时间流模型(TTFM),通过匹配初始和终端速度,改进了少步生成性能。

  • Motivation: 改进现有的LFMD损失函数,以提升双时间流模型的蒸馏效果和生成性能。
  • Method: 提出ITVM损失函数,通过添加初始速度匹配项、移除终端速度项的导数,并使用EMA稳定模型来计算目标终端速度。
  • Result: 初步实验表明,ITVM损失在多种数据集和模型架构上优于基线,提升了少步生成性能。
  • Conclusion: ITVM损失函数有效改进了双时间流模型的蒸馏效果,为少步生成任务提供了更好的性能。

[87] Enhancing Obsolescence Forecasting with Deep Generative Data Augmentation: A Semi-Supervised Framework for Low-Data Industrial Applications

Elie Saad,Mariem Besbes,Marc Zolghadri,Victor Czmil,Claude Baron,Vincent Bourgeois

Main category: cs.LG

TL;DR: 提出了一种基于深度学习的电子元件过时预测框架,通过深度生成模型解决数据不足问题,并在基准数据集上取得先进结果。

  • Motivation: 电子元件过时对长生命周期系统影响重大,现有机器学习方法因数据不足难以实现高精度预测。
  • Method: 利用深度生成模型生成新过时案例以扩充训练数据,并调整经典监督学习分类器用于半监督学习。
  • Result: 在基准数据集上展示了最先进的预测结果。
  • Conclusion: 该框架有效解决了数据不足问题,提升了过时预测的准确性。

[88] A Physics-preserved Transfer Learning Method for Differential Equations

Hao-Ran Yang,Chuan-Xian Ren

Main category: cs.LG

TL;DR: 提出了一种基于物理保持的最优张量传输(POTT)方法,用于解决数据驱动方法在微分方程中的领域转移问题。

  • Motivation: 数据驱动方法(如神经算子)在解决微分方程时存在领域转移问题,现有迁移学习方法缺乏通用性或物理保持能力。
  • Method: 通过将数据域建模为乘积分布,提出POTT方法,同时解决分布偏差和算子偏差,并保持物理信息。
  • Result: 实验表明POTT方法在性能、通用性和物理保持方面表现优异。
  • Conclusion: POTT方法在解决微分方程领域转移问题时具有显著优势。

[89] 2DXformer: Dual Transformers for Wind Power Forecasting with Dual Exogenous Variables

Yajuan Zhang,Jiahai Jiang,Yule Yan,Liang Yang,Ping Zhang

Main category: cs.LG

TL;DR: 论文提出2DXformer模型,通过分类输入变量并利用注意力机制,改进风电功率预测的准确性。

  • Motivation: 现有深度学习方法未充分建模变量间关系,且未区分内生与外生变量,导致预测精度受限和模型复杂度增加。
  • Method: 将输入分为外生静态、外生动态和内生变量,独立嵌入后利用注意力机制捕捉外生变量关系,再用多层感知机建模外生对内生的影响。
  • Result: 在两个大规模数据集上实验表明,2DXformer进一步提升了风电功率预测性能。
  • Conclusion: 2DXformer通过改进变量关系建模和区分变量类型,显著提升了预测精度。

[90] Evaluating Explanations: An Explanatory Virtues Framework for Mechanistic Interpretability -- The Strange Science Part I.ii

Kola Ayonrinde,Louis Jaburi

Main category: cs.LG

TL;DR: 论文提出了一种基于哲学科学的多元解释框架,用于评估和改进神经网络的可解释性方法,并指出紧凑证明是一种有前景的方向。

  • Motivation: 由于缺乏通用的评估方法,神经网络的可解释性研究进展受限。
  • Method: 引入基于贝叶斯、库恩、德意志和法则论的多元解释框架,系统评估和改进解释方法。
  • Result: 紧凑证明方法因其综合多种解释优点而显示出潜力。
  • Conclusion: 改进的可解释性方法有助于更好地监控、预测和引导AI系统。

cs.RO

[91] IK Seed Generator for Dual-Arm Human-like Physicality Robot with Mobile Base

Jun Takamatsu,Atsushi Kanehira,Kazuhiro Sasabuchi,Naoki Wake,Katsushi Ikeuchi

Main category: cs.RO

TL;DR: 本文提出了一种通过遗传算法优化初始猜测的方法,以提高数值逆运动学(IK)求解器的成功率,从而帮助尺寸受限的机器人更好地完成任务。

  • Motivation: 尺寸受限的机器人因机械限制(如关节角度限制)难以解决逆运动学问题,限制了其应用价值。通过优化初始猜测,可以提升IK求解的成功率。
  • Method: 使用遗传算法优化初始猜测,基于缩放雅可比矩阵定义初始猜测的“优劣”,并结合可达性地图枚举可能的IK解。
  • Result: 实验证明,优化后的初始猜测显著提高了IK求解的成功率,并成功应用于三种典型场景。
  • Conclusion: 提出的方法有效提升了尺寸受限机器人的IK求解能力,增强了其实际应用价值。

[92] Autonomous Embodied Agents: When Robotics Meets Deep Learning Reasoning

Roberto Bigazzi

Main category: cs.RO

TL;DR: 论文探讨了计算能力提升和深度学习革命如何推动具身人工智能(Embodied AI)的发展,重点关注智能自主机器人在室内环境中的训练与部署。

  • Motivation: 旨在促进具身AI和自主机器人的研究,为未来工作奠定基础。
  • Method: 利用3D模型进行仿真训练,实现智能代理与环境的持续交互,包括信息收集、编码和任务执行。
  • Result: 提出了完整的具身代理创建流程,包括文献综述、方法技术说明和相关机器人任务的实验研究。
  • Conclusion: 论文为具身AI领域的研究提供了重要贡献,推动了智能自主机器人的发展。

[93] Model Tensor Planning

An T. Le,Khai Nguyen,Minh Nhat Vu,João Carvalho,Jan Peters

Main category: cs.RO

TL;DR: 提出了一种名为MTP的采样模型预测控制框架,通过结构化张量采样和高熵控制轨迹生成,平衡探索与优化,提升机器人任务性能。

  • Motivation: 传统采样MPC在非线性及接触密集型任务中表现优异,但局部贪婪采样导致探索不足,MTP旨在解决这一问题。
  • Method: MTP采用随机多部图采样和B样条/Akima样条插值生成多样化控制轨迹,结合β混合策略优化CEM更新。
  • Result: 实验证明MTP在多种机器人任务中优于标准MPC和进化策略,实现了更高的任务成功率和控制鲁棒性。
  • Conclusion: MTP为基于模型的规划与控制提供了一种可扩展的鲁棒探索框架。

[94] Optimizing Indoor Farm Monitoring Efficiency Using UAV: Yield Estimation in a GNSS-Denied Cherry Tomato Greenhouse

Taewook Park,Jinwoo Lee,Hyondong Oh,Won-Jae Yun,Kyu-Wha Lee

Main category: cs.RO

TL;DR: 论文提出了一种轻量级无人机(UAV)系统,用于温室中的番茄产量估计,解决了地面机器人(UGV)在温室中的局限性。

  • Motivation: 农业劳动力减少和成本上升,机器人产量估计变得重要,但UGV在温室中部署受限。
  • Method: 开发了配备RGB-D相机、3D LiDAR和IMU传感器的UAV,采用LiDAR-惯性里程计算法导航,并使用3D多目标跟踪算法估计番茄数量和重量。
  • Result: 在收获行数据集中,计数准确率94.4%,重量估计准确率87.5%;在生长行数据集中定性分析了遮挡问题。
  • Conclusion: UAV在商业温室中具有高效产量估计的潜力,未来需进一步研究遮挡环境下的感知问题。

[95] NeuroLoc: Encoding Navigation Cells for 6-DOF Camera Localization

Xun Li,Jian Yang,Fenli Jia,Muyu Wang,Qi Wu,Jun Wu,Jinpeng Mi,Jilin Hu,Peidong Liang,Xuan Tang,Ke Li,Xiong You,Xian Wei

Main category: cs.RO

TL;DR: 论文提出了一种受生物大脑导航机制启发的神经生物学相机定位方法NeuroLoc,通过Hebbian学习模块、方向学习嵌入和3D网格中心预测,解决了场景模糊性和方向恢复问题,提升了复杂环境中的定位鲁棒性。

  • Motivation: 解决未知环境中相机定位面临的场景模糊性、环境干扰和动态物体变化问题。
  • Method: 设计Hebbian学习模块保存历史信息,利用方向学习嵌入恢复真实方向,添加3D网格中心预测减少错误预测。
  • Result: 在室内外数据集上验证,NeuroLoc提升了复杂环境中的鲁棒性,仅用单张图像即可改进姿态回归性能。
  • Conclusion: NeuroLoc通过仿生机制有效解决了相机定位中的关键问题,为自主导航提供了新思路。

[96] ViSA-Flow: Accelerating Robot Skill Learning via Large-Scale Video Semantic Action Flow

Changhe Chen,Quantao Yang,Xiaohao Xu,Nima Fazeli,Olov Andersson

Main category: cs.RO

TL;DR: ViSA-Flow提出了一种基于语义动作流的自监督学习框架,通过从大规模人类视频数据中学习,显著降低了机器人获取复杂操作技能的成本。

  • Motivation: 机器人获取复杂操作技能的成本高昂,而人类通过观察学习效率更高。ViSA-Flow旨在通过语义动作流弥合这一差距。
  • Method: ViSA-Flow通过自监督学习从无标注视频数据中提取语义动作流,并利用生成模型预训练,再通过少量机器人演示微调。
  • Result: 在CALVIN基准测试和真实任务中,ViSA-Flow在低数据量下表现优异,优于现有方法。
  • Conclusion: ViSA-Flow通过语义动作流有效实现了从人类观察到机器人执行的迁移学习,显著提升了性能。

[97] FalconWing: An Open-Source Platform for Ultra-Light Fixed-Wing Aircraft Research

Yan Miao,Will Shen,Hang Cui,Sayan Mitra

Main category: cs.RO

TL;DR: FalconWing是一个开源、超轻量(150克)的固定翼平台,用于自主性研究,支持纯视觉控制的自主着陆。

  • Motivation: 为自主性研究提供一个轻量、开源且易于部署的硬件平台,并探索纯视觉控制的可行性。
  • Method: 采用3D高斯溅射构建逼真模拟环境,从视觉估计数据中识别非线性动力学,并通过模拟模仿学习训练多模态Vision Transformer策略。
  • Result: 在硬件平台上零部署时,该策略实现了80%的视觉自主着陆成功率。
  • Conclusion: FalconWing及其开源组件为自主性研究提供了实用工具,验证了纯视觉控制的潜力。

[98] SIME: Enhancing Policy Self-Improvement with Modal-level Exploration

Yang Jin,Jun Lv,Wenye Yu,Hongjie Fang,Yong-Lu Li,Cewu Lu

Main category: cs.RO

TL;DR: 论文提出了一种机器人自我改进的方法,通过模态级探索和数据选择,实现多样化的交互并选择高质量数据学习。

  • Motivation: 机器人通过环境交互自我改进时,容易重复现有能力而无法生成新数据,限制了学习效果。
  • Method: 引入模态级探索机制,生成多样化交互,并选择最有价值的试验和高质量片段用于学习。
  • Result: 在仿真基准和真实实验中成功实现了有效的机器人自我改进。
  • Conclusion: 该方法能以更低成本开发更鲁棒和高成功率的机器人控制策略。

cs.DB

[99] Enhancing SPARQL Query Rewriting for Complex Ontology Alignments

Anicet Lepetit Ondo,Laurence Capus,Mamadou Bousso

Main category: cs.DB

TL;DR: 提出一种基于自然语言和GPT-4的SPARQL查询重写方法,解决复杂对齐(c:c)和用户友好性问题。

  • Motivation: 现有方法主要处理简单对齐(s:s)和部分复杂对齐(s:c),难以应对更复杂的(c:c)对齐,且SPARQL语法对非专家用户不友好。
  • Method: 利用等价传递性和GPT-4等大语言模型,将用户自然语言需求自动重写为跨本体的SPARQL查询。
  • Result: 能高效处理复杂对齐(c:c),并降低非专家用户使用SPARQL的门槛。
  • Conclusion: 该方法为查询异构数据提供了灵活且用户友好的解决方案。

eess.IV

[100] A Survey on 3D Reconstruction Techniques in Plant Phenotyping: From Classical Methods to Neural Radiance Fields (NeRF), 3D Gaussian Splatting (3DGS), and Beyond

Jiajia Li,Xinda Qi,Seyed Hamidreza Nabaei,Meiqi Liu,Dong Chen,Xin Zhang,Xunyuan Yin,Zhaojian Li

Main category: eess.IV

TL;DR: 本文综述了植物表型分析中的3D重建技术,包括经典方法、NeRF和3DGS,探讨了它们的优缺点及未来前景。

  • Motivation: 植物表型分析对精准农业和作物改良至关重要,3D重建技术为自动化表型分析提供了新工具。
  • Method: 综述了经典重建方法、NeRF和3DGS的技术原理、应用及性能。
  • Result: 经典方法简单灵活但面临数据密度和噪声问题;NeRF高质量但计算成本高;3DGS在效率和扩展性上具潜力。
  • Conclusion: 不同3D重建技术各有优劣,未来需结合应用场景优化,推动农业技术发展。

[101] Leveraging Depth and Attention Mechanisms for Improved RGB Image Inpainting

Jin Hyun Park,Harine Choi,Praewa Pitiphat

Main category: eess.IV

TL;DR: 本文提出了一种结合RGB和深度图像的新型图像修复方法,通过双编码器架构和注意力机制融合特征,显著提升了修复质量。

  • Motivation: 现有基于深度学习的图像修复方法主要依赖RGB图像,忽略了深度信息对空间和结构理解的重要性。结合深度信息可以提升修复的准确性和上下文感知能力。
  • Method: 采用双编码器架构,分别处理RGB和深度图像,通过注意力机制融合特征。使用线和方形两种掩码策略测试模型鲁棒性,并通过Grad-CAM可视化分析模型关注区域。
  • Result: 实验表明,结合深度信息显著提升了修复质量,注意力机制进一步优化了性能,定量和定性评估均优于基线方法。
  • Conclusion: 深度信息的引入和注意力机制的结合有效提升了图像修复的性能,为未来研究提供了新方向。

[102] Can Foundation Models Really Segment Tumors? A Benchmarking Odyssey in Lung CT Imaging

Elena Mulero Ayllón,Massimiliano Mantegna,Linlin Shen,Paolo Soda,Valerio Guarrasi,Matteo Tortora

Main category: eess.IV

TL;DR: 该研究对深度学习模型在肺肿瘤分割中的表现进行了全面比较,发现基础模型(如MedSAM~2)在准确性和计算效率上优于传统模型。

  • Motivation: 肺肿瘤分割对诊断和治疗规划至关重要,但肿瘤形态、大小和位置的复杂性为自动化分割带来挑战。
  • Method: 研究比较了传统模型(如U-Net、DeepLabV3)、自配置模型(如nnUNet)和基础模型(如MedSAM、MedSAM~2),评估了它们在两种肺肿瘤数据集上的表现。
  • Result: 基础模型(尤其是MedSAM~2)在准确性和计算效率上优于传统模型。
  • Conclusion: 基础模型在肺肿瘤分割中具有潜力,可改善临床工作流程和患者预后。

cs.GR

[103] GENMO: A GENeralist Model for Human MOtion

Jiefeng Li,Jinkun Cao,Haotian Zhang,Davis Rempe,Jan Kautz,Umar Iqbal,Ye Yuan

Main category: cs.GR

TL;DR: GENMO是一个统一的人类运动通用模型,将运动生成和估计结合在一个框架中,通过约束生成和扩散模型实现高精度和多样性。

  • Motivation: 传统方法将运动生成和估计分开,限制了知识共享和模型效率。GENMO旨在通过统一框架解决这一问题。
  • Method: GENMO将运动估计重新定义为约束生成,结合回归和扩散模型,并利用2D标注和文本描述增强生成多样性。
  • Result: GENMO在多个任务中表现出色,生成和估计效果均优于传统分离模型。
  • Conclusion: GENMO证明了统一框架的可行性,为人类运动建模提供了更高效和灵活的方法。

cs.DC

[104] Dynamic and Distributed Routing in IoT Networks based on Multi-Objective Q-Learning

Shubham Vaishnav,Praveen Kumar Donta,Sindri Magnússon

Main category: cs.DC

TL;DR: 提出了一种基于多目标Q学习的动态分布式路由算法,以适应物联网中实时变化的优先级需求。

  • Motivation: 物联网应用中需要动态调整优先级(如低延迟或能效),而现有路由协议通常优化静态目标,无法满足动态需求。
  • Method: 结合多目标优化和Q学习,提出动态分布式路由算法,并引入贪婪插值策略以快速适应偏好变化。
  • Result: 仿真结果表明,该算法在整体奖励、能效和包交付率等指标上优于现有算法。
  • Conclusion: 该方案能快速适应动态偏好,为物联网路由提供了高效解决方案。

math.OC

[105] Differentiable Nonlinear Model Predictive Control

Jonathan Frey,Katrin Baumgärtner,Gianluca Frison,Dirk Reinhardt,Jasper Hoffmann,Leonard Fichtner,Sebastien Gros,Moritz Diehl

Main category: math.OC

TL;DR: 论文讨论了在非线性模型预测控制(MPC)中计算参数解灵敏度的新方法,利用隐函数定理和光滑最优性条件,提出了一种高效的实现方案。

  • Motivation: 学习增强方法与非线性MPC集成时,参数解灵敏度的计算是关键挑战,现有方法局限于凸或无约束问题。
  • Method: 采用隐函数定理(IFT)和光滑最优性条件(IPM),结合序列二次规划(SQP)方法,计算非线性规划(NLP)的灵敏度。
  • Result: 实现了高效的参数解灵敏度计算,速度比现有最佳求解器mpc.pytorch快3倍以上。
  • Conclusion: 该方法为非线性MPC中的学习算法提供了高效的灵敏度计算工具,具有实际应用价值。

cs.CR

[106] Spill The Beans: Exploiting CPU Cache Side-Channels to Leak Tokens from Large Language Models

Andrew Adiletta,Berk Sunar

Main category: cs.CR

TL;DR: 论文提出了一种名为Spill The Beans的缓存侧信道攻击方法,用于泄露大型语言模型(LLM)生成的令牌,揭示了LLM在共享硬件上的新漏洞。

  • Motivation: 随着大型语言模型的普及,共享硬件上的侧信道攻击威胁日益严重,需要研究其潜在风险。
  • Method: 通过在同一硬件上运行攻击进程,利用缓存侧信道技术(flush and reload)监测LLM嵌入层的令牌生成,检测缓存命中情况。
  • Result: 实验证明该方法可行,能泄露80%-90%的高熵API密钥或40%的英文文本令牌。
  • Conclusion: 研究揭示了LLM对传统侧信道攻击的脆弱性,并提出了缓解此类威胁的建议。

[107] From Texts to Shields: Convergence of Large Language Models and Cybersecurity

Tao Li,Ya-Ting Yang,Yunian Pan,Quanyan Zhu

Main category: cs.CR

TL;DR: 报告探讨了大型语言模型(LLMs)与网络安全的融合,总结了其在软件和网络安全、5G漏洞分析及生成式安全工程中的应用,并提出了解决信任、透明度和伦理问题的策略。

  • Motivation: 研究LLMs在网络安全领域的潜力,以提升自动化任务效率和安全性,同时解决其部署中的社会技术挑战。
  • Method: 综合网络安全、人工智能、形式化方法和人本设计的跨学科视角,分析LLMs的应用及挑战。
  • Result: LLMs能自动化复杂任务、提高效率,并通过人机协作、针对性训练和鲁棒性测试解决信任和伦理问题。
  • Conclusion: 报告提出了前瞻性研究议程,强调技术进展与社会组织结合,以确保LLMs在网络安全中的安全有效应用。

[108] OET: Optimization-based prompt injection Evaluation Toolkit

Jinsheng Pan,Xiaogeng Liu,Chaowei Xiao

Main category: cs.CR

TL;DR: 论文介绍了OET工具包,用于系统评估提示注入攻击和防御的有效性,尤其在自适应对抗场景下。

  • Motivation: 大型语言模型(LLMs)易受提示注入攻击,缺乏标准化评估框架,OET旨在填补这一空白。
  • Method: OET采用基于优化的评估工具包,通过模块化工作流生成对抗字符串、执行动态攻击并分析结果。
  • Result: 实验表明当前防御机制存在局限性,部分模型即使增强后仍易受攻击。
  • Conclusion: OET为评估对抗鲁棒性提供了统一平台,揭示了现有防御的不足。

[109] Attack and defense techniques in large language models: A survey and new perspectives

Zhiyu Liao,Kang Chen,Yuanguo Lin,Kangkang Li,Yunxuan Liu,Hefeng Chen,Xingwang Huang,Yuanhui Yu

Main category: cs.CR

TL;DR: 本文系统调查了大型语言模型(LLMs)的攻击与防御技术,分类分析了攻击类型和防御策略,并指出当前挑战与未来研究方向。

  • Motivation: LLMs在自然语言处理任务中广泛应用,但其安全性和伦理问题亟待解决,需系统研究攻击与防御技术。
  • Method: 分类攻击类型(如对抗性提示攻击、模型窃取等),分析防御策略(预防性和检测性方法),并探讨挑战与未来方向。
  • Result: 当前防御技术虽有进展,但仍需应对动态威胁、平衡可用性与鲁棒性,并解决资源限制问题。
  • Conclusion: 未来需发展自适应防御、可解释安全技术和标准化评估框架,强调跨学科合作与伦理考量以提升LLMs安全性。

[110] Good News for Script Kiddies? Evaluating Large Language Models for Automated Exploit Generation

David Jin,Qian Fu,Yuekang Li

Main category: cs.CR

TL;DR: 本文首次系统研究了大型语言模型(LLMs)在自动化漏洞利用生成(AEG)中的效果,评估了其合作性和技术能力。通过引入重构的软件安全实验室基准,并设计基于LLM的攻击者,实验发现GPT-4和GPT-4o合作性高,但所有模型均未能成功生成漏洞利用。

  • Motivation: 研究LLMs在AEG中的潜力,以评估其安全风险和技术能力。
  • Method: 引入重构的软件安全实验室基准,设计基于LLM的攻击者系统,评估不同模型的合作性和技术能力。
  • Result: GPT-4和GPT-4o合作性高,但所有模型均未能成功生成漏洞利用,GPT-4o的错误最少。
  • Conclusion: LLMs在AEG中尚未成熟,但GPT-4o的表现显示了未来改进的潜力。

Ziqi Ding,Qian Fu,Junchen Ding,Gelei Deng,Yi Liu,Yuekang Li

Main category: cs.CR

TL;DR: 论文研究了Hugging Face平台上恶意配置文件的安全风险,提出了CONFIGSCAN工具以检测威胁。

  • Motivation: 尽管AI供应链(如Hugging Face)托管了大量预训练模型,但其配置文件的安全问题被忽视,可能被利用执行未授权代码。
  • Method: 通过识别三种攻击场景,开发了基于LLM的工具CONFIGSCAN,分析配置文件及其运行时代码和关键库。
  • Result: 评估发现数千个可疑存储库和配置文件,验证了工具的低误报率和高准确性。
  • Conclusion: 强调了AI模型托管平台加强安全验证的紧迫性。

[112] LLM Security: Vulnerabilities, Attacks, Defenses, and Countermeasures

Francisco Aguilera-Martínez,Fernando Berzal

Main category: cs.CR

TL;DR: 该论文综述了大型语言模型(LLMs)的安全威胁与防御机制,分类分析了训练阶段和部署后的攻击,并探讨了预防与检测两类防御策略。

  • Motivation: 随着LLMs的发展,评估其安全威胁和漏洞变得至关重要,尤其是在训练和部署阶段。
  • Method: 通过分类和分析攻击类型,并总结预防与检测防御机制,评估其有效性。
  • Result: 提出了一个结构化框架来保护LLMs,并指出需进一步研究的领域。
  • Conclusion: 论文为LLMs的安全提供了系统化的视角,同时强调了未来研究的必要性。

[113] Secure Cluster-Based Hierarchical Federated Learning in Vehicular Networks

M. Saeid HaghighiFard,Sinem Coleri

Main category: cs.CR

TL;DR: 提出了一种针对分层联邦学习(HFL)中对抗性车辆的新型防御框架,通过动态车辆选择、异常检测和多级防御策略,显著提升了模型收敛性和安全性。

  • Motivation: HFL在车联网中面临对抗性车辆和不可靠数据的挑战,需要一种有效的防御机制来保护模型完整性。
  • Method: 结合动态车辆选择、Z-score和余弦相似性分析的异常检测、自适应阈值机制、加权梯度平均以及跨集群一致性检查。
  • Result: 仿真结果表明,该算法在1跳和3跳拓扑中显著减少了收敛时间。
  • Conclusion: 提出的多级防御框架有效过滤了恶意贡献,提升了HFL的安全性和性能。

[114] Constrained Network Adversarial Attacks: Validity, Robustness, and Transferability

Anass Grini,Oumaima Taheri,Btissam El Khamlichi,Amal El Fallah-Seghrouchni

Main category: cs.CR

TL;DR: 研究发现现有对抗攻击方法在IoT环境中常违反领域约束,导致80.3%的对抗样本无效,误导了真实漏洞评估。简单模型(如MLP)生成的对抗样本更有效,且需考虑领域约束和模型架构以提高安全性。

  • Motivation: 现有对抗攻击方法在IoT环境中常违反领域约束(如数值和分类限制),导致大量无效对抗样本,误导了真实漏洞评估和防御资源分配。
  • Method: 通过分析对抗样本的领域约束有效性,比较不同模型(如MLP、CNN、LSTM)生成对抗样本的能力,并研究对抗严重性的可转移性。
  • Result: 80.3%的对抗样本因违反领域约束而无效;MLP生成的对抗样本比复杂模型更有效。
  • Conclusion: 在评估和设计IoT及网络安全ML/DL模型时,需同时考虑领域约束和模型架构,以提高对抗攻击的鲁棒性。

cs.OH

[115] Wireless Communication as an Information Sensor for Multi-agent Cooperative Perception: A Survey

Zhiying Song,Tenghui Xie,Fuxi Wen,Jun Li

Main category: cs.OH

TL;DR: 该论文综述了基于V2X通信的多智能体协同感知技术,重点探讨了信息表示、信息融合和大规模部署三个维度,并提出了将V2X视为动态信息传感器的新视角。

  • Motivation: 传统车载传感器在感知能力上存在局限性,而V2X通信通过多智能体信息共享扩展了感知能力,但面临通信限制、异构性、移动性和可扩展性等挑战。
  • Method: 从信息表示(数据级、特征级、对象级)、信息融合(理想与非理想条件下的技术)以及大规模部署的系统级方法三个维度进行综述。
  • Result: 总结了减少数据量、压缩消息、处理异构性、定位误差、延迟和数据包丢失的技术,并提出了支持密集交通场景可扩展性的方法。
  • Conclusion: 论文通过将V2X视为信息传感器,为实际智能交通系统中部署协同感知提供了新视角,并强调了相关挑战。

cs.IR

[116] Towards Explainable Temporal User Profiling with LLMs

Milad Sabouri,Masoud Mansoury,Kun Lin,Bamshad Mobasher

Main category: cs.IR

TL;DR: 利用大语言模型(LLM)生成用户交互历史的自然语言摘要,区分短期和长期偏好,提升推荐系统的准确性和可解释性。

  • Motivation: 传统用户画像方法(如平均项目嵌入)忽略了用户兴趣的动态性和复杂性,尤其是短期与长期偏好的交互。
  • Method: 通过LLM生成用户交互历史的自然语言摘要,结合预训练模型和注意力机制动态融合短期与长期嵌入,形成综合用户表示。
  • Result: 在真实数据集上的实验表明,该方法不仅提高了推荐准确性,还支持生成更透明、可解释的推荐理由。
  • Conclusion: 该方法通过自然语言摘要和注意力权重,显著提升了推荐系统的性能和可解释性。

cs.CY

[117] Artificial Intelligence in Government: Why People Feel They Lose Control

Alexander Wuttke,Adrian Rauchfleisch,Andreas Jungherr

Main category: cs.CY

TL;DR: 论文探讨AI在公共管理中的应用,通过委托代理理论分析其潜在风险,发现效率提升虽增强信任但削弱公民控制感,需透明应对以维持公众信任。

  • Motivation: 研究AI在政府职能中的应用如何影响公平性、透明度和问责制,揭示其潜在的结构性挑战。
  • Method: 采用委托代理理论框架,通过预注册的因子调查实验,涵盖税收、福利和执法领域。
  • Result: 效率提升初期增强信任,但降低公民控制感;结构性风险显现时,信任和控制感均急剧下降。
  • Conclusion: 委托代理理论为理解AI在政府中的政治和制度影响提供有力视角,政策制定者需透明应对委托风险以维持公众信任。

cs.CL

[118] TF1-EN-3M: Three Million Synthetic Moral Fables for Training Small, Open Language Models

Mihai Nadas,Laura Diosan,Andrei Piscoran,Andreea Tomescu

Main category: cs.CL

TL;DR: TF1-EN-3M是一个由8B参数模型生成的300万英语寓言数据集,填补了现代NLP中缺乏结构化道德叙事数据的空白。

  • Motivation: 现代NLP缺乏结合明确道德教训的叙事数据集,TF1-EN-3M旨在填补这一空白。
  • Method: 使用组合提示引擎生成六槽结构的寓言,并通过混合评估流程(GPT评分和无参考指标)评估质量。
  • Result: 8B参数的Llama-3变体在质量和速度上表现最佳,单GPU可高效生成高质量寓言。
  • Conclusion: TF1-EN-3M为指令遵循、叙事智能等研究提供了开源资源,证明大规模道德叙事无需专有大模型。

[119] Large Language Model-Driven Dynamic Assessment of Grammatical Accuracy in English Language Learner Writing

Timur Jaganov,John Blake,Julián Villegas,Nicholas Carr

Main category: cs.CL

TL;DR: 研究探讨了大型语言模型(LLMs)在动态评估(DA)中的扩展潜力,开发了DynaWrite应用测试多种LLMs,发现GPT-4o在生成动态反馈方面表现最佳。

  • Motivation: 探索LLMs能否扩展动态评估,以支持更大规模的语言学习。
  • Method: 开发DynaWrite应用,测试21种LLMs,筛选出GPT-4o和Neural Chat进一步评估其表现。
  • Result: GPT-4o在反馈质量和系统稳定性上优于Neural Chat,适合扩展动态评估。
  • Conclusion: LLMs(尤其是GPT-4o)可有效扩展动态评估,适用于大规模语言学习场景。

[120] Llama-Nemotron: Efficient Reasoning Models

Akhiad Bercovich,Itay Levy,Izik Golan,Mohammad Dabbah,Ran El-Yaniv,Omri Puny,Ido Galil,Zach Moshe,Tomer Ronen,Najeeb Nabwani,Ido Shahaf,Oren Tropp,Ehud Karpas,Ran Zilberstein,Jiaqi Zeng,Soumye Singhal,Alexander Bukharin,Yian Zhang,Tugrul Konuk,Gerald Shen,Ameya Sunil Mahabaleshwarkar,Bilal Kartal,Yoshi Suhara,Olivier Delalleau,Zijia Chen,Zhilin Wang,David Mosallanezhad,Adi Renduchintala,Haifeng Qian,Dima Rekesh,Fei Jia,Somshubra Majumdar,Vahid Noroozi,Wasi Uddin Ahmad,Sean Narenthiran,Aleksander Ficek,Mehrzad Samadi,Jocelyn Huang,Siddhartha Jain,Igor Gitman,Ivan Moshkov,Wei Du,Shubham Toshniwal,George Armstrong,Branislav Kisacanin,Matvei Novikov,Daria Gitman,Evelina Bakhturina,Jane Polak Scowcroft,John Kamalu,Dan Su,Kezhi Kong,Markus Kliegl,Rabeeh Karimi,Ying Lin,Sanjeev Satheesh,Jupinder Parmar,Pritam Gundecha,Brandon Norick,Joseph Jennings,Shrimai Prabhumoye,Syeda Nahida Akter,Mostofa Patwary,Abhinav Khattar,Deepak Narayanan,Roger Waleffe,Jimmy Zhang,Bor-Yiing Su,Guyue Huang,Terry Kong,Parth Chadha,Sahil Jain,Christine Harvey,Elad Segal,Jining Huang,Sergey Kashirsky,Robert McQueen,Izzy Putterman,George Lam,Arun Venkatesan,Sherry Wu,Vinh Nguyen,Manoj Kilaru,Andrew Wang,Anna Warno,Abhilash Somasamudramath,Sandip Bhaskar,Maka Dong,Nave Assaf,Shahar Mor,Omer Ullman Argov,Scot Junkin,Oleksandr Romanenko,Pedro Larroy,Monika Katariya,Marco Rovinelli,Viji Balas,Nicholas Edelman,Anahita Bhiwandiwalla,Muthu Subramaniam,Smita Ithape,Karthik Ramamoorthy,Yuting Wu,Suguna Varshini Velury,Omri Almog,Joyjit Daw,Denys Fridman,Erick Galinkin,Michael Evans,Katherine Luna,Leon Derczynski,Nikki Pope,Eileen Long,Seth Schneider,Guillermo Siman,Tomasz Grzegorzek,Pablo Ribalta,Monika Katariya,Joey Conway,Trisha Saar,Ann Guan,Krzysztof Pawelec,Shyamala Prayaga,Oleksii Kuchaiev,Boris Ginsburg,Oluwatobi Olabiyi,Kari Briski,Jonathan Cohen,Bryan Catanzaro,Jonah Alben,Yonatan Geifman,Eric Chung

Main category: cs.CL

TL;DR: Llama-Nemotron系列模型是一个开源的异构推理模型家族,提供卓越的推理能力、高效的推理速度和商业友好的许可。

  • Motivation: 推动开源推理模型的发展,提供高性能且商业可用的模型,支持动态推理切换。
  • Method: 通过神经架构搜索、知识蒸馏和持续预训练优化模型,后训练阶段包括监督微调和大规模强化学习。
  • Result: 模型在推理效率和内存占用上优于现有技术(如DeepSeek-R1),并支持动态推理模式切换。
  • Conclusion: Llama-Nemotron系列模型为开源社区和企业提供了高性能、灵活的推理工具,并公开了数据集和训练代码。

[121] Synthesize-on-Graph: Knowledgeable Synthetic Data Generation for Continue Pre-training of Large Language Models

Xuhui Jiang,Shengjie Ma,Chengjin Xu,Cehao Yang,Liyu Zhang,Jian Guo

Main category: cs.CL

TL;DR: SoG框架通过构建上下文图整合跨文档知识关联,提升合成数据的多样性和连贯性,优于现有方法。

  • Motivation: 解决LLMs在小规模、专业语料上数据效率低的问题,现有方法忽视跨文档知识关联。
  • Method: 构建上下文图提取实体和概念,采用图游走策略采样,结合CoT和CC提升数据质量。
  • Result: SoG在多跳文档问答数据集上优于SOTA,在阅读理解任务上表现相当,泛化能力更强。
  • Conclusion: SoG为LLMs在数据有限领域的高效知识获取提供了实用解决方案。

[122] Value Portrait: Understanding Values of LLMs with Human-aligned Benchmark

Jongwook Han,Dongmin Choi,Woojung Song,Eun-Ju Lee,Yohan Jo

Main category: cs.CL

TL;DR: 提出Value Portrait基准,用于评估语言模型的价值取向,解决现有基准的偏差问题,并通过真实用户交互和心理测量验证提升生态效度。

  • Motivation: 现有基准依赖人工或机器标注,易受价值相关偏差影响,且测试场景与真实使用场景脱节。
  • Method: 设计包含真实用户-LLM交互的基准项目,通过人类评分与价值分数的相关性进行心理测量验证。
  • Result: 评估27个LLM,发现其更重视Benevolence、Security和Self-Direction价值,而对Tradition、Power和Achievement价值关注较少,并揭示模型对人口群体的偏差。
  • Conclusion: Value Portrait基准提供了一种可靠的方法评估LLM的价值取向,揭示了模型的偏差和偏好。

[123] Multimodal Transformers are Hierarchical Modal-wise Heterogeneous Graphs

Yijie Jin,Junjie Peng,Xuanchao Lin,Haochen Yuan,Lan Wang,Cangzhi Zheng

Main category: cs.CL

TL;DR: 本文提出了一种基于图结构的Multimodal Transformer(GsiT),通过Interlaced Mask机制实现高效的多模态融合,参数仅为传统MulTs的1/3,同时性能显著提升。

  • Motivation: Multimodal Transformers(MulTs)在多模态情感分析中表现优异,但存在效率问题。本文从效率优化的角度,提出MulTs实际上是层次化模态异构图(HMHGs),并基于此提出GsiT。
  • Method: 将MulTs建模为HMHGs,并提出Interlaced Mask机制设计GsiT,实现参数共享和信息有序融合。同时开发了Decomposition Triton内核以避免额外计算开销。
  • Result: GsiT在性能上显著优于传统MulTs,参数减少至1/3,并在多个先进模型中验证了HMHG概念的有效性。
  • Conclusion: GsiT和HMHG概念在多模态情感分析中实现了高效融合和性能提升,为未来研究提供了新思路。

[124] On the Limitations of Steering in Language Model Alignment

Chebrolu Niranjan,Kokil Jaidka,Gerard Christopher Yeo

Main category: cs.CL

TL;DR: 本文评估了导向向量在语言模型对齐中的局限性,发现其在特定任务(如价值观对齐)中有效,但在复杂场景下可能不足。

  • Motivation: 研究导向向量作为语言模型对齐机制的潜力与局限性。
  • Method: 使用变压器钩干预和反义词功能向量框架,分析提示结构和上下文复杂性对导向效果的影响。
  • Result: 导向向量在特定对齐任务(如价值观对齐)中表现良好,但在复杂场景下缺乏鲁棒性。
  • Conclusion: 导向向量在特定任务中有前景,但需进一步研究以提升其通用对齐能力。

[125] Gender Bias in Explainability: Investigating Performance Disparity in Post-hoc Methods

Mahdi Dhaini,Ege Erdogan,Nils Feldhus,Gjergji Kasneci

Main category: cs.CL

TL;DR: 研究发现,广泛使用的后验特征归因方法在性别上存在显著的忠实性、鲁棒性和复杂性差异,即使模型在无偏数据集上训练。

  • Motivation: 探讨解释方法在公平性方面的不足,尤其是在不同子组间的性能差异。
  • Method: 分析三种任务和五种语言模型中后验特征归因方法的性别差异。
  • Result: 发现解释方法存在性别差异,且与训练数据无关。
  • Conclusion: 强调在开发和应用解释方法时需关注公平性,并将其纳入监管框架。

[126] EvalxNLP: A Framework for Benchmarking Post-Hoc Explainability Methods on NLP Models

Mahdi Dhaini,Kafaite Zahra Hussain,Efstratios Zaradoukas,Gjergji Kasneci

Main category: cs.CL

TL;DR: EvalxNLP是一个Python框架,用于评估NLP模型的特征归因方法,支持多种解释技术并提供交互式解释。

  • Motivation: 随着NLP模型在高风险应用中的普及,解释性成为关键挑战,需要针对不同需求选择合适解释方法。
  • Method: 集成八种XAI技术,评估解释的忠实性、合理性和复杂性,并提供LLM生成的交互式解释。
  • Result: 用户满意度高,表明EvalxNLP是一个有前景的框架。
  • Conclusion: EvalxNLP旨在普及解释工具,支持XAI技术的系统比较和发展。

[127] Anti-adversarial Learning: Desensitizing Prompts for Large Language Models

Xuan Li,Zhe Yin,Xiaodong Gu,Beijun Shen

Main category: cs.CL

TL;DR: PromptObfus是一种通过反对抗学习扰动隐私词以保护用户提示隐私的新方法,同时保持模型预测稳定性。

  • Motivation: 随着LLMs的广泛使用,用户提示中的隐私保护变得至关重要,传统方法因计算成本和用户参与需求而受限。
  • Method: PromptObfus将提示脱敏视为掩码语言建模任务,用[MASK]替换隐私词,并通过代理模型梯度反馈选择候选替换词。
  • Result: 在三个NLP任务中,PromptObfus有效防止隐私泄露且不影响任务性能。
  • Conclusion: PromptObfus为LLM提示隐私保护提供了一种高效且实用的解决方案。

[128] Helping Big Language Models Protect Themselves: An Enhanced Filtering and Summarization System

Sheikh Samit Muhaimin,Spyridon Mastorakis

Main category: cs.CL

TL;DR: 提出了一种无需重新训练LLM的防御框架,通过提示过滤和总结模块有效识别和抵御恶意输入,实验成功率高达98.71%。

  • Motivation: 大型语言模型易受对抗性攻击和恶意输入影响,现有防御方法需重新训练模型,成本高且不实用。
  • Method: 框架包含两部分:1) 提示过滤模块,使用NLP技术检测恶意输入;2) 总结模块,提供上下文防御知识。
  • Result: 实验显示该方法识别有害模式的成功率为98.71%,并显著提高模型对恶意输入的抵抗能力。
  • Conclusion: 该框架是一种高效且无需重新训练的防御方案,显著提升了LLM的安全性。

cs.SE

[129] Advancing Software Security and Reliability in Cloud Platforms through AI-based Anomaly Detection

Sabbir M. Saleh,Ibrahim Mohammed Sayem,Nazim Madhavji,John Steinbacher

Main category: cs.SE

TL;DR: 该研究旨在通过AI支持的异常检测增强CI/CD管道的安全性,识别网络流量中的异常行为,并探索自适应响应机制。

  • Motivation: CI/CD管道中的安全问题(如DDoS、Bot、Log4j等)频发,现有研究多关注静态安全测试,而网络流量模式分析较少。
  • Method: 结合CNN和LSTM模型,使用CSE-CIC-IDS2018和CSE-CIC-IDS2017数据集检测异常流量模式。
  • Result: 模型准确率达98.69%和98.30%,并生成异常日志以应对安全挑战。
  • Conclusion: 该研究为现代DevOps实践提供了增强软件安全性和可靠性的解决方案。

[130] Document Retrieval Augmented Fine-Tuning (DRAFT) for safety-critical software assessments

Regan Bolton,Mohammadreza Sheikhfathollahi,Simon Parkinson,Vanessa Vulovic,Gary Bamford,Dan Basher,Howard Parkinson

Main category: cs.SE

TL;DR: DRAFT是一种结合检索增强生成(RAG)和微调的新方法,用于提升大型语言模型在安全关键软件合规评估中的表现。

  • Motivation: 传统的手动评估方法在应对复杂监管框架时效率低下,DRAFT旨在通过自动化技术改进这一过程。
  • Method: DRAFT采用双检索架构,同时访问软件文档和参考标准,并通过半自动化数据集生成方法进行微调。
  • Result: 实验显示,DRAFT在GPT-4o-mini上比基线模型正确率提升7%,且在证据处理、响应结构和领域推理方面有显著改进。
  • Conclusion: DRAFT为合规评估系统提供了一种实用且透明的改进方法,适用于监管领域。

cs.MA

[131] The Coral Protocol: Open Infrastructure Connecting The Internet of Agents

Roman J. Georgio,Caelum Forder,Suman Deb,Peter Carroll,Önder Gürcan

Main category: cs.MA

TL;DR: Coral Protocol是一个开放的、去中心化的协作基础设施,旨在为“智能体互联网”提供通信、协调、信任和支付功能,解决多智能体跨领域协作的互操作性问题。

  • Motivation: 随着组织部署多个专业化的AI智能体,跨领域和跨厂商的协作需求日益增长,亟需一种能够实现互操作的协作基础设施。
  • Method: Coral Protocol设计了一种通用语言和协调框架,包括标准化的消息格式、模块化的协调机制以及安全的团队组建功能。
  • Result: 该协议实现了智能体的高效、可信协作,为多智能体生态系统奠定了基础。
  • Conclusion: Coral Protocol作为“智能体互联网”的核心基础设施,通过开放的智能体协作,推动了自动化、集体智能和商业价值的提升。

cs.CE

[132] Reduced-order structure-property linkages for stochastic metamaterials

Hooman Danesh,Maruthi Annamaraju,Tim Brepols,Stefanie Reese,Surya R. Kalidindi

Main category: cs.CE

TL;DR: 该论文提出了一种基于材料信息学的方法,通过主成分分析和高斯过程回归,高效地建立机械超材料的结构-性能关系,并利用主动学习框架减少所需数据量。

  • Motivation: 机械超材料的设计空间庞大,传统物理模拟计算成本高,需要一种高效的方法来捕捉复杂结构-性能关系。
  • Method: 使用主成分分析提取随机生成的2D超材料数据集特征,结合FFT均质化方法计算弹性刚度,再通过高斯过程回归建立降阶代理模型。
  • Result: 方法成功实现了高价值低维表示,仅需0.61%的数据即可生成准确的结构-性能映射。
  • Conclusion: 提出的工作流程显著降低了计算成本,为超材料设计提供了高效工具。

stat.ME

[133] Multivariate Conformal Selection

Tian Bai,Yue Zhao,Xiang Yu,Archer Y. Yang

Main category: stat.ME

TL;DR: 论文提出了一种多变量适应性选择方法(mCS),扩展了传统的单变量适应性选择(CS),适用于多变量响应场景,并通过实验验证了其有效性。

  • Motivation: 在药物发现、精准医学和大语言模型对齐等应用中,从大规模数据集中选择高质量候选者至关重要。传统方法(CS)仅适用于单变量响应和标量标准,无法满足多变量需求。
  • Method: 提出mCS方法,引入区域单调性并使用多变量非适应性评分构建适应性p值,实现有限样本的假发现率(FDR)控制。包括两种变体:基于距离的mCS-dist和通过可微分优化学习最优评分的mCS-learn。
  • Result: 实验表明,mCS在保持FDR控制的同时显著提高了选择能力,适用于多变量选择任务。
  • Conclusion: mCS是一个鲁棒的多变量选择框架,解决了传统方法的局限性。

cs.NE

[134] To Repair or Not to Repair? Investigating the Importance of AB-Cycles for the State-of-the-Art TSP Heuristic EAX

Jonathan Heins,Darrell Whitley,Pascal Kerschke

Main category: cs.NE

TL;DR: 本文提出了一种改进的EAX算法第一阶段方法,通过快速验证AB-cycles的有效性,提升了计算效率和解决方案质量。

  • Motivation: EAX算法的第一阶段尚未深入研究,本文旨在填补这一空白,优化其性能。
  • Method: 提出了一种新方法,快速验证AB-cycles的有效性,并基于此改进了EAX算法。
  • Result: 在10,000个TSP实例上的测试表明,改进的EAX算法在计算效率和解决方案质量上优于现有方法。
  • Conclusion: 改进的EAX算法在解决困难实例时表现更优,为TSP问题提供了更高效的解决方案。

[135] A Neural Architecture Search Method using Auxiliary Evaluation Metric based on ResNet Architecture

Shang Wang,Huanrong Tang,Jianquan Ouyang

Main category: cs.NE

TL;DR: 提出了一种基于ResNet的神经架构搜索空间,优化目标包括卷积、池化、全连接层参数及残差网络连接性,并使用验证集损失值作为次要优化目标。实验表明该方法在MNIST、Fashion-MNIST和CIFAR100数据集上能找到有竞争力的网络架构。

  • Motivation: 通过神经架构搜索(NAS)优化ResNet框架,提升模型性能,同时探索多目标优化(如验证集损失值)对架构搜索的影响。
  • Method: 以ResNet为框架,设计搜索空间,优化卷积、池化、全连接层参数及残差网络连接性,并引入验证集损失值作为次要优化目标。
  • Result: 在MNIST、Fashion-MNIST和CIFAR100数据集上找到了具有竞争力的网络架构。
  • Conclusion: 提出的搜索空间和优化方法在多数据集上有效,验证了多目标优化在神经架构搜索中的潜力。

cs.MM

[136] CAV-MAE Sync: Improving Contrastive Audio-Visual Mask Autoencoders via Fine-Grained Alignment

Edson Araujo,Andrew Rouditchenko,Yuan Gong,Saurabhchand Bhati,Samuel Thomas,Brian Kingsbury,Leonid Karlinsky,Rogerio Feris,James R. Glass

Main category: cs.MM

TL;DR: CAV-MAE Sync改进自CAV-MAE框架,通过时序对齐音频与视频帧、分离对比与重建目标、引入可学习标记,解决了音频-视觉学习中的细粒度对齐和优化冲突问题,并在多个任务中表现优异。

  • Motivation: 现有音频-视觉学习方法在细粒度时序对齐和优化目标冲突方面存在不足。
  • Method: 提出CAV-MAE Sync,通过时序对齐音频与视频帧、分离对比与重建目标、引入可学习标记,改进自监督学习。
  • Result: 在AudioSet、VGG Sound和ADE20K Sound数据集上,零样本检索、分类和定位任务中表现优于现有方法。
  • Conclusion: CAV-MAE Sync是一种简单有效的改进方法,解决了音频-视觉学习中的关键挑战,并取得了先进性能。

[137] FlowDubber: Movie Dubbing with LLM-based Semantic-aware Learning and Flow Matching based Voice Enhancing

Gaoxiang Cong,Liang Li,Jiadong Pan,Zhedong Zhang,Amin Beheshti,Anton van den Hengel,Yuankai Qi,Qingming Huang

Main category: cs.MM

TL;DR: FlowDubber是一种基于大语言模型(LLM)的配音方法,通过语音增强流匹配和双对比对齐技术,实现了高质量的音频-视觉同步和发音效果。

  • Motivation: 现有配音方法主要关注降低词错误率,而忽略了唇同步和声学质量的重要性。FlowDubber旨在解决这些问题。
  • Method: 1. 使用Qwen2.5作为LLM骨干网络学习电影剧本和参考音频的上下文序列。2. 语义感知学习捕获LLM在音素级别的语义知识。3. 双对比对齐(DCA)增强唇部运动的对齐。4. 基于流的语音增强(FVE)通过LLM声学流匹配和仿射风格先验提升声学质量。
  • Result: 实验表明,FlowDubber在两个主要基准测试中优于现有方法。
  • Conclusion: FlowDubber通过结合LLM和流匹配技术,显著提升了配音的音频-视觉同步和声学质量。

cs.NI

[138] EnviKal-Loc: Sub-10m Indoor LoRaWAN Localization using an Environmental-Aware Path Loss and Adaptive RSSI Smoothing

Nahshon Mokua Obiri,Kristof Van Laerhoven

Main category: cs.NI

TL;DR: 论文提出了一种结合自适应滤波与扩展对数距离多墙路径损耗和阴影模型的轻量级方法,显著提高了LoRaWAN在动态环境中的室内定位精度。

  • Motivation: LoRaWAN技术在大规模物联网部署中具有广泛覆盖优势,但在复杂环境条件下实现亚10米精度的室内定位仍具挑战性。
  • Method: 通过结合自适应卡尔曼滤波与扩展对数距离多墙路径损耗和阴影模型,并引入LoRaWAN参数(RSSI、频率、SNR)和动态环境指标(温度、湿度等),提出了一种轻量级方法。
  • Result: 实验结果表明,提出的MWM-EP-KF模型平均绝对误差为5.81米,优于基线模型(17.98米)和环境增强模型(10.56米)。
  • Conclusion: 该方法为动态环境中的精确室内LoRaWAN定位提供了高效且可解释的解决方案。

上次更新于: