Skip to content
每日arXiv - 2025年4月25日

以下论文的arXiv类型标签包含:cs.CV、cs.AI

cs.CV

[1] Dense Air Pollution Estimation from Sparse in-situ Measurements and Satellite Data

Ruben Gonzalez Avilés,Linus Scheibenreif,Damian Borth

Main category: cs.CV

TL;DR: 本文提出了一种新的密集估计技术,用于高效估算全球环境中的二氧化氮浓度,显著降低了计算资源需求并提高了准确性。

  • Motivation: 现有卫星空气质量估算方法计算量大且局限于点位置,无法满足大规模环境评估的需求。
  • Method: 采用均匀随机偏移采样策略,将地面真值数据均匀分散到更大区域,通过密集估计方法一步生成网格估算。
  • Result: 方法在平均绝对误差上比现有方法低9.45%,达到4.98 µg/m³,兼具高精度和计算效率。
  • Conclusion: 该方法为大规模环境监测提供了可行的解决方案,适用于全球多样化地理区域。

[2] DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs

Zhenhailong Wang,Senthil Purushwalkam,Caiming Xiong,Silvio Savarese,Heng Ji,Ran Xu

Main category: cs.CV

TL;DR: DyMU是一个无需训练的高效框架,动态减少视觉语言模型的计算负担,同时保持高性能。

  • Motivation: 解决视觉变换器中固定长度输出的低效问题,动态适应图像内容以减少计算成本。
  • Method: 结合动态令牌合并(DToMe)和虚拟令牌解合并(VTU),动态调整令牌压缩并模拟完整序列的注意力动态。
  • Result: 实验显示,DyMU能减少32%-85%的视觉令牌数量,性能与完整模型相当。
  • Conclusion: DyMU为视觉语言模型提供了一种高效、无需训练的动态压缩方法,适用于多种架构。

[3] PPS-Ctrl: Controllable Sim-to-Real Translation for Colonoscopy Depth Estimation

Xinqi Xiong,Andrea Dunn Beltran,Jun Myeong Choi,Marc Niethammer,Roni Sengupta

Main category: cs.CV

TL;DR: 提出了一种结合Stable Diffusion和ControlNet的图像翻译框架,利用Per-Pixel Shading(PPS)图生成更真实的纹理,提升内窥镜深度估计的准确性。

  • Motivation: 临床环境中获取真实深度数据困难,合成数据与真实数据存在领域差距,需改进图像翻译方法以提升深度估计效果。
  • Method: 结合Stable Diffusion与ControlNet,以PPS图为结构约束生成更真实的纹理,PPS图捕捉表面光照效果。
  • Result: 实验表明,该方法生成的图像更真实,深度估计效果优于基于GAN的MI-CycleGAN。
  • Conclusion: 提出的框架有效缩小了合成与真实数据的领域差距,提升了深度估计性能,代码已开源。

[4] Distilling semantically aware orders for autoregressive image generation

Rishav Pramanik,Antoine Poupon,Juan A. Rodriguez,Masih Aminbeidokhti,David Vazquez,Christopher Pal,Zhaozheng Yin,Marco Pedersoli

Main category: cs.CV

TL;DR: 论文提出了一种改进的自回归图像生成方法,通过训练模型以任意顺序生成图像块,并利用推断的顺序优化生成质量。

  • Motivation: 传统的光栅扫描顺序(从左到右、从上到下)在自回归图像生成中存在因果性问题,例如云的颜色可能依赖于太阳的颜色,但传统顺序无法体现这种依赖关系。
  • Method: 首先训练模型以任意顺序生成图像块,推断每个块的内容和顺序;然后利用推断的顺序微调模型,提升生成质量。
  • Result: 实验表明,新方法在两个数据集上生成的图像质量优于传统光栅扫描方法,且训练成本和额外标注需求相同。
  • Conclusion: 通过优化生成顺序,自回归图像生成模型可以更准确地捕捉图像内容的因果关系,从而提升生成质量。

[5] Scene-Aware Location Modeling for Data Augmentation in Automotive Object Detection

Jens Petersen,Davide Abati,Amirhossein Habibian,Auke Wiggers

Main category: cs.CV

TL;DR: 论文提出了一种基于场景感知的概率位置模型,用于生成图像数据增强中的布局优化,显著提升了自动驾驶目标检测任务的性能。

  • Motivation: 现有生成图像数据增强方法忽视了场景中物体的布局合理性,导致增强效果不佳。
  • Method: 引入场景感知概率位置模型预测新物体的合理位置,并结合生成模型进行图像修复。
  • Result: 在自动驾驶目标检测任务中,性能提升显著(最高达2.8倍),并在实例分割任务中也有明显改进。
  • Conclusion: 布局优化是生成数据增强的关键,提出的方法在性能上优于现有技术。

[6] Transferring Spatial Filters via Tangent Space Alignment in Motor Imagery BCIs

Tekin Gunasar,Virginia de Sa

Main category: cs.CV

TL;DR: 提出了一种通过黎曼流形对齐协方差矩阵并计算新的CSP空间滤波器的方法,以改进运动想象BCI中的主题转移。

  • Motivation: 解决运动想象BCI中主题转移性能不足的问题,尤其是在训练数据有限的情况下。
  • Method: 在黎曼流形上对齐协方差矩阵,然后计算新的CSP空间滤波器,并探索多主题信息整合方式。
  • Result: 在三个数据集上表现优于标准CSP,尤其在训练数据有限时改进更显著。
  • Conclusion: 该方法在主题转移中表现更优,尤其在数据有限时效果明显。

[7] Latent Video Dataset Distillation

Ning Li,Antai Andy Liu,Jingran Zhang,Justin Cui

Main category: cs.CV

TL;DR: 本文提出了一种新的视频数据集蒸馏方法,通过在潜在空间操作并结合多样性感知数据选择策略,显著提升了性能。

  • Motivation: 现有视频数据集蒸馏方法主要关注像素空间压缩,忽略了潜在空间的进展。本文旨在填补这一空白。
  • Method: 使用最先进的变分编码器在潜在空间操作,结合多样性感知数据选择策略和无需训练的压缩方法。
  • Result: 在所有数据集上均优于现有方法,例如在HMDB51 IPC 1上性能提升2.6%,在MiniUCF IPC 5上提升7.8%。
  • Conclusion: 该方法在视频数据集蒸馏领域取得了新的最先进性能。

[8] A Comprehensive Review on RNA Subcellular Localization Prediction

Cece Zhang,Xuehuan Zhu,Nick Peterson,Jieqiong Wang,Shibiao Wan

Main category: cs.CV

TL;DR: 综述了基于AI/ML的RNA亚细胞定位预测方法的最新进展,涵盖多种RNA类型和不同方法,并讨论了挑战与机遇。

  • Motivation: 传统实验方法耗时耗力且成本高,AI/ML方法为RNA亚细胞定位提供了高效替代方案。
  • Method: 综述了序列、图像及混合方法的AI/ML技术,用于预测RNA亚细胞定位。
  • Result: AI/ML方法能加速RNA研究,揭示分子通路并指导疾病治疗。
  • Conclusion: 该综述为RNA亚细胞定位研究提供了资源,并指出了数据稀缺和基准缺乏等挑战。

[9] PhysioSync: Temporal and Cross-Modal Contrastive Learning Inspired by Physiological Synchronization for EEG-Based Emotion Recognition

Kai Cui,Jia Li,Yu Liu,Xuesong Zhang,Zhenzhen Hu,Meng Wang

Main category: cs.CV

TL;DR: PhysioSync是一个新的预训练框架,通过跨模态和时间对比学习解决EEG信号噪声和个体差异问题,提升情绪识别性能。

  • Motivation: EEG信号虽然能反映情绪状态,但存在噪声和个体差异问题,且现有方法忽略了跨模态的动态同步和时间动态性。
  • Method: 提出PhysioSync框架,结合跨模态一致性对齐(CM-CA)和长短时时间对比学习(LS-TCL),预训练后通过特征融合和微调提升性能。
  • Result: 在DEAP和DREAMER数据集上,PhysioSync在单模态和跨模态条件下均表现出色。
  • Conclusion: PhysioSync通过跨模态和时间动态建模,显著提升了EEG情绪识别的效果。

[10] A Genealogy of Multi-Sensor Foundation Models in Remote Sensing

Kevin Lane,Morteza Karimzadeh

Main category: cs.CV

TL;DR: 本文探讨了遥感领域中基础模型的开发与应用,分析了其与计算机视觉方法的异同,并提出了未来改进方向。

  • Motivation: 研究遥感领域中基础模型的潜力与挑战,借鉴计算机视觉的成功经验,同时解决领域特有的问题。
  • Method: 分析现有基础模型方法,讨论其优缺点,并提出改进策略,特别是针对多传感器数据的利用。
  • Result: 总结了现有方法的局限性,提出了未来研究方向,包括如何更好地利用未标记和多传感器数据。
  • Conclusion: 遥感领域的基础模型仍有改进空间,尤其是在多传感器数据利用和计算资源优化方面。

[11] We'll Fix it in Post: Improving Text-to-Video Generation with Neuro-Symbolic Feedback

Minkyu Choi,S P Sharan,Harsh Goel,Sahil Shah,Sandeep Chinchali

Main category: cs.CV

TL;DR: Error

  • Motivation: Error
  • Method: Error
  • Result: Error
  • Conclusion: Error

[12] Perspective-Aware Reasoning in Vision-Language Models via Mental Imagery Simulation

Phillip Y. Lee,Jihyeon Je,Chanho Park,Mikaela Angelina Uy,Leonidas Guibas,Minhyuk Sung

Main category: cs.CV

TL;DR: 提出了一种基于心理意象模拟的视角感知推理框架(APC),用于提升视觉语言模型(VLMs)的视角转换能力。

  • Motivation: 视角感知是人类视觉理解的关键能力,但现有VLMs存在以自我为中心的偏见,缺乏视角转换能力。
  • Method: 通过抽象视角变换(APC)框架,结合物体检测、分割和方向估计等视觉基础模型,构建场景抽象并实现视角转换。
  • Result: 在合成和真实图像基准测试中,APC框架显著提升了视角感知推理能力,优于微调的空间推理模型和新视角合成方法。
  • Conclusion: APC框架为VLMs提供了更接近人类感知的视角转换能力,填补了现有技术的不足。

[13] MCAF: Efficient Agent-based Video Understanding Framework through Multimodal Coarse-to-Fine Attention Focusing

Shiwen Cao,Zhaoxing Zhang,Junming Jiao,Juyi Qiao,Guowen Song,Rong Shen

Main category: cs.CV

TL;DR: MCAF是一种基于代理的无训练框架,通过多模态粗到细注意力聚焦实现视频理解,显著提升性能。

  • Motivation: 视频理解(尤其是长视频)因信息冗余和复杂性而具有挑战性,需要模型全局分配注意力。
  • Method: MCAF通过多模态信息分层聚焦相关帧,并采用扩张时间扩展机制避免遗漏关键细节,结合自反馈机制优化注意力分配。
  • Result: 在多个数据集上表现优异,如EgoSchema提升5%,Next-QA和IntentQA分别提升0.2%和0.3%。
  • Conclusion: MCAF通过创新的注意力聚焦策略,显著提升了视频理解的准确性和效率。

[14] Towards Generalizable Deepfake Detection with Spatial-Frequency Collaborative Learning and Hierarchical Cross-Modal Fusion

Mengyu Qiao,Runze Tian,Yang Wang

Main category: cs.CV

TL;DR: 提出了一种结合多尺度空间-频率分析的新型深度伪造检测框架,显著提升了检测精度和泛化能力。

  • Motivation: 现有方法主要依赖空间域分析,频率域操作多限于特征增强,未能充分利用频率原生伪影和空间-频率交互。
  • Method: 框架包含局部频谱特征提取、全局频谱特征提取和多阶段跨模态融合机制。
  • Result: 在广泛采用的基准测试中,该方法在准确性和泛化性上优于现有技术。
  • Conclusion: 该框架为通用深度伪造检测提供了有效解决方案,充分利用了空间-频率交互信息。

[15] Visual and textual prompts for enhancing emotion recognition in video

Zhifeng Wang,Qixuan Zhang,Peter Zhang,Wenjia Niu,Kaihao Zhang,Ramesh Sankaranarayana,Sabrina Caldwell,Tom Gedeon

Main category: cs.CV

TL;DR: 提出了一种名为SoVTP的新框架,通过整合空间标注、生理信号和上下文提示,提升VLLMs在视频情绪识别中的零样本能力。

  • Motivation: 现有VLLMs在视频情绪识别中因缺乏空间和上下文感知而受限,传统方法忽视非语言线索,导致鲁棒性不足。
  • Method: SoVTP框架结合空间标注(如边界框、面部关键点)、生理信号(面部动作单元)和上下文提示(身体姿势、场景动态等),形成统一提示策略。
  • Result: 实验表明,SoVTP在视频情绪识别中显著优于现有视觉提示方法。
  • Conclusion: SoVTP有效提升了VLLMs在视频情绪识别中的性能,解决了传统方法的局限性。

[16] Range Image-Based Implicit Neural Compression for LiDAR Point Clouds

Akihiro Kuwabara,Sorachi Kato,Takuya Fujihashi,Toshiaki Koike-Akino,Takashi Watanabe

Main category: cs.CV

TL;DR: 提出了一种基于隐式神经表示(INR)的新型LiDAR点云压缩方案,通过深度和掩码图像的分割与压缩,在低比特率和解码延迟下优于现有方法。

  • Motivation: 解决传统图像压缩技术在LiDAR点云压缩中的局限性,提升3D场景存档的精度和效率。
  • Method: 将LiDAR点云表示为2D范围图像(RIs),采用INR方法分割为深度和掩码图像,分别通过块级和像素级架构进行压缩,并结合模型剪枝和量化。
  • Result: 在KITTI数据集上,该方法在3D重建和检测质量上优于现有图像、点云、RI和INR压缩方法。
  • Conclusion: 提出的INR-based RI压缩方法在低比特率下表现优异,为高效3D场景存档提供了新思路。

[17] Scene Perceived Image Perceptual Score (SPIPS): combining global and local perception for image quality assessment

Zhiqiang Lao,Heather Yu

Main category: cs.CV

TL;DR: 提出了一种结合深度学习与传统方法的图像质量评估(IQA)新方法,通过分离高级语义和低级感知特征,更好地模拟人类视觉感知。

  • Motivation: 随着AI和智能手机的普及,图像数据激增,传统IQA方法在深度神经网络(DNN)处理的图像中表现不足,需要更符合人类感知的评估方法。
  • Method: 将深度特征分解为高级语义和低级感知细节,结合传统IQA指标,通过多层感知机(MLP)生成质量评分。
  • Result: 实验表明,该方法比现有IQA模型更符合人类感知判断。
  • Conclusion: 提出的混合方法在评估图像质量时更全面,能更好地反映人类视觉过程。

[18] DIVE: Inverting Conditional Diffusion Models for Discriminative Tasks

Yinqi Li,Hong Chang,Ruibing Hou,Shiguang Shan,Xilin Chen

Main category: cs.CV

TL;DR: 本文提出了一种利用预训练扩散模型进行判别任务的方法,将其从分类任务扩展到更复杂的物体检测任务,通过优化和贝叶斯规则改进性能。

  • Motivation: 扩散模型在生成任务中表现出色,但如何将其用于判别任务(如物体检测)仍待探索。
  • Method: 通过梯度离散优化和先验分布模型改进预训练扩散模型,用于物体检测。
  • Result: 在COCO数据集上表现与基础判别模型相当,且显著加速了分类任务。
  • Conclusion: 该方法成功将扩散模型扩展至判别任务,性能优越且高效。

[19] Precision Neural Network Quantization via Learnable Adaptive Modules

Wenqiang Zhou,Zhendong Yu,Xinyu Liu,Jiaming Yang,Rong Xiao,Tao Wang,Chenwei Tang,Jiancheng Lv

Main category: cs.CV

TL;DR: ASQ是一种自适应神经网络量化方法,通过动态调整量化参数和引入非均匀量化方案,显著提升了量化模型的性能。

  • Motivation: 解决传统QAT中量化参数固定导致的灵活性不足问题,尤其是处理不同分布激活值时的性能损失。
  • Method: 提出ASQ方法,包括动态调整量化缩放因子和使用POST的非均匀量化方案,结合LUT保持计算效率。
  • Result: ASQ在4位量化ResNet34上比全精度基线提升1.2%准确率,优于现有QAT方法。
  • Conclusion: ASQ通过动态适应性和非均匀量化,有效平衡了量化模型的性能和灵活性。

[20] Towards Generalized and Training-Free Text-Guided Semantic Manipulation

Yu Hong,Xiao Cai,Pengpeng Zeng,Shuai Zhang,Jingkuan Song,Lianli Gao,Heng Tao Shen

Main category: cs.CV

TL;DR: 论文提出了一种名为GTF的新方法,用于文本引导的语义图像编辑,支持多种语义操作且无需训练。

  • Motivation: 现有方法效率低、扩展性差且通用性有限,而扩散模型中噪声的几何特性与语义变化密切相关。
  • Method: 通过控制噪声的几何关系实现多种语义操作(如添加、移除、风格迁移),无需调优或优化。
  • Result: 实验证明GTF能高效生成高保真结果,支持多模态任务。
  • Conclusion: GTF在语义操作领域具有潜力,可推动技术前沿。

[21] EdgePoint2: Compact Descriptors for Superior Efficiency and Accuracy

Haodi Yao,Fenghua He,Ning Hao,Chen Xie

Main category: cs.CV

TL;DR: EdgePoint2是一种轻量级关键点检测与描述神经网络,专为边缘计算设计,在保持高精度的同时优化效率,适用于多种计算和通信限制场景。

  • Motivation: 深度学习在关键点提取中表现优异,但计算成本高,难以部署于实时边缘应用。现有轻量级网络在效率与精度间存在权衡,且高维描述符不利于分布式应用。
  • Method: 提出EdgePoint2网络架构,结合正交Procrustes损失和相似性损失训练紧凑描述符,并提供14个子模型以满足多样化需求。
  • Result: 实验显示EdgePoint2在多种场景下均达到SOTA精度和效率,且使用低维描述符(32/48/64)。
  • Conclusion: EdgePoint2在灵活性、鲁棒性和多功能性上具有显著优势,是视觉任务中极具竞争力的选择。

[22] Advanced Segmentation of Diabetic Retinopathy Lesions Using DeepLabv3+

Meher Boulaabi,Takwa Ben Aïcha Gader,Afef Kacem Echi,Sameh Mbarek

Main category: cs.CV

TL;DR: 提出了一种针对糖尿病视网膜病变病变的二元分割方法,通过结合多个模型输出提高分割精度,解决了数据集和标注的挑战。

  • Motivation: 改善糖尿病视网膜病变病变(如微动脉瘤、出血、渗出物等)的分割精度。
  • Method: 采用DeepLabv3+模型,结合特定预处理(裁剪和CLAHE)和数据增强技术,优化参数并提高准确性。
  • Result: 分割准确率达到99%,验证了方法的有效性。
  • Conclusion: 创新策略在医学图像分析中具有显著效果,特别是在糖尿病视网膜病变的精确分割中。

[23] DIMT25@ICDAR2025: HW-TSC's End-to-End Document Image Machine Translation System Leveraging Large Vision-Language Model

Zhanglin Wu,Tengfei Song,Ning Xie,Weidong Zhang,Pengfei Li,Shuang Wu,Chong Li,Junhao Zhu,Hao Yang

Main category: cs.CV

TL;DR: 华为翻译服务中心提出了一种结合多任务学习和感知链式思维的训练框架,用于复杂布局的端到端文档图像翻译,并在推理阶段采用最小贝叶斯解码和后处理策略。

  • Motivation: 解决复杂布局文档图像的端到端翻译问题,统一处理OCR和非OCR任务。
  • Method: 结合多任务学习和感知链式思维的训练框架,采用最小贝叶斯解码和后处理策略。
  • Result: 展示了有效的文档图像机器翻译方法,系统详细介绍了训练和推理策略。
  • Conclusion: 该方案为复杂布局文档翻译提供了一种统一的端到端解决方案。

[24] TimeChat-Online: 80% Visual Tokens are Naturally Redundant in Streaming Videos

Linli Yao,Yicheng Li,Yuancheng Wei,Lei Li,Shuhuai Ren,Yuanxin Liu,Kun Ouyang,Lean Wang,Shicheng Li,Sida Li,Lingpeng Kong,Qi Liu,Yuanxing Zhang,Xu Sun

Main category: cs.CV

TL;DR: TimeChat-Online是一种新型在线视频大语言模型,通过创新的差分令牌丢弃(DTD)模块解决实时视频流中的冗余问题,显著减少令牌数量并保持性能。

  • Motivation: 在线视频平台的快速增长需要实时视频理解系统,但现有VideoLLMs在流媒体场景中因无法高效处理冗余帧而受限。
  • Method: 提出DTD模块,受人类视觉感知启发,保留有意义的时间变化,过滤静态冗余内容。
  • Result: DTD减少82.8%的视频令牌,同时保持98%的性能;TimeChat-Online在流媒体和长视频任务中表现优异。
  • Conclusion: TimeChat-Online通过DTD模块和主动响应能力,为实时视频交互提供了高效解决方案。

[25] DRC: Enhancing Personalized Image Generation via Disentangled Representation Composition

Yiyan Xu,Wuqiang Zheng,Wenjie Wang,Fengbin Zhu,Xinting Hu,Yang Zhang,Fuli Feng,Tat-Seng Chua

Main category: cs.CV

TL;DR: 论文提出了一种名为DRC的新型个性化图像生成框架,通过解耦表示组合增强LMMs,解决了现有方法在捕捉用户风格偏好和语义意图时的不足。

  • Motivation: 现有方法(如扩散模型、大语言模型或LMMs)难以准确捕捉和融合用户的风格偏好与语义意图,尤其是LMMs存在视觉特征纠缠问题,导致生成的图像无法保留用户偏好或反映指定语义。
  • Method: DRC框架通过解耦表示组合,明确从历史图像和参考图像中提取用户风格偏好和语义意图,形成用户特定的潜在指令。包括两个关键学习阶段:解耦学习和个性化建模。
  • Result: 在两个基准测试上的实验表明,DRC在竞争性能的同时有效缓解了指导崩溃问题。
  • Conclusion: 解耦表示学习对可控且有效的个性化图像生成至关重要,DRC为此提供了可行方案。

[26] I-INR: Iterative Implicit Neural Representations

Ali Haider,Muhammad Salman Ali,Maryam Qamar,Tahir Khalil,Soo Ye Kim,Jihyong Oh,Enzo Tartaglione,Sung-Ho Bae

Main category: cs.CV

TL;DR: 提出了一种名为I-INRs的迭代隐式神经表示框架,通过迭代细化过程提升信号重建质量,解决了传统INRs在细节保留和高频信息处理上的不足。

  • Motivation: 传统隐式神经表示(INRs)因回归问题的固有特性,容易回归到均值,导致细节丢失和高频信息处理不佳。
  • Method: 提出I-INRs框架,通过迭代细化过程增强信号重建,兼容现有INRs架构。
  • Result: 实验表明,I-INRs在图像恢复、去噪和物体占用预测等任务中优于基线方法。
  • Conclusion: I-INRs显著提升了信号重建质量,具有广泛的应用潜力。

[27] TimeSoccer: An End-to-End Multimodal Large Language Model for Soccer Commentary Generation

Ling You,Wenxuan Huang,Xinni Xie,Xiangyi Wei,Bangyan Li,Shaohui Lin,Yang Li,Changbo Wang

Main category: cs.CV

TL;DR: TimeSoccer是首个端到端的足球多模态大语言模型,用于全场比赛的单锚点密集视频字幕生成,通过联合预测时间戳和生成字幕实现全局上下文建模。

  • Motivation: 现有足球MLLMs依赖时间先验或采用复杂的两步范式,无法端到端处理长视频且性能次优。
  • Method: 提出TimeSoccer,结合MoFA-Select模块自适应选择代表性帧,并通过互补训练范式增强长时序处理能力。
  • Result: 实验表明TimeSoccer在SDVC任务上达到最先进性能,生成高质量评论且时间对齐准确。
  • Conclusion: TimeSoccer解决了足球视频端到端处理的挑战,为长视频理解提供了新思路。

[28] Highly Accurate and Diverse Traffic Data: The DeepScenario Open 3D Dataset

Oussema Dhaouadi,Johannes Meier,Luca Wahl,Jacques Kaiser,Luca Scalerandi,Nick Wandelburg,Zhuolun Zhou,Nijanthan Berinpanathan,Holger Banzhaf,Daniel Cremers

Main category: cs.CV

TL;DR: DSC3D是一个高质量、无遮挡的3D轨迹数据集,通过无人机跟踪技术获取,覆盖多种交通场景,旨在提升自动驾驶系统的环境感知能力。

  • Motivation: 传统数据集因固定传感器和遮挡问题受限,无法全面捕捉动态环境。DSC3D通过无人机技术解决这些问题,提供更全面的3D轨迹数据。
  • Method: 采用单目摄像头无人机跟踪技术,采集了175,000多条6自由度轨迹,覆盖14种交通参与者及多种复杂场景。
  • Result: 数据集在多样性和规模上超越现有数据集,包含前所未有的复杂场景,如高密度城市街道和停车场全流程。
  • Conclusion: DSC3D为自动驾驶研究提供了丰富的3D环境数据,支持运动预测、行为建模等应用,数据集和可视化平台已公开。

[29] SDVPT: Semantic-Driven Visual Prompt Tuning for Open-World Object Counting

Yiming Zhao,Guorong Li,Laiyun Qing,Amin Beheshti,Jian Yang,Michael Sheng,Yuankai Qi,Qingming Huang

Main category: cs.CV

TL;DR: 论文提出了一种名为SDVPT的即插即用框架,通过语义驱动的视觉提示调优,提升预训练视觉语言模型在开放世界物体计数任务中对未见类别的泛化能力。

  • Motivation: 现有方法在微调时仅关注训练集中的类别,导致对未见类别的泛化能力有限。
  • Method: SDVPT采用两阶段视觉提示学习策略:类别特定提示初始化和拓扑引导提示细化,动态合成未见类别的视觉提示。
  • Result: 实验表明,SDVPT在FSC-147、CARPK和PUCPR+数据集上显著提升了开放世界物体计数模型的性能。
  • Conclusion: SDVPT通过语义驱动的视觉提示调优,有效提升了模型对未见类别的泛化能力,且参数和推理时间开销小。

[30] Fine-tune Smarter, Not Harder: Parameter-Efficient Fine-Tuning for Geospatial Foundation Models

Francesc Marti-Escofet,Benedikt Blumenstiel,Linus Scheibenreif,Paolo Fraccaro,Konrad Schindler

Main category: cs.CV

TL;DR: 论文探讨了参数高效微调(PEFT)技术在地球观测(EO)领域的应用,通过实验验证其在减少计算资源需求的同时保持或提升模型性能。

  • Motivation: 随着基础模型规模增大,传统微调方法面临计算资源消耗高、可扩展性差及模型泛化能力下降的问题,PEFT技术提供了解决方案。
  • Method: 采用多种基础模型架构和PEFT技术,在五个EO数据集上进行实验,比较其效果。
  • Result: PEFT技术在性能上匹配或超越传统微调,同时减少训练时间和内存需求,提升模型泛化能力。
  • Conclusion: PEFT是高效适应预训练地理空间模型的有效方法,推荐使用UNet解码器且不依赖元数据的配置,相关技术已集成至开源工具TerraTorch。

[31] S2S-Net: Addressing the Domain Gap of Heterogeneous Sensor Systems in LiDAR-Based Collective Perception

Sven Teufel,Jörg Gamerdinger,Oliver Bringmann

Main category: cs.CV

TL;DR: 该论文提出了一种名为S2S-Net的传感器域鲁棒架构,用于解决车对车(V2V)集体感知中的Sensor2Sensor域差距问题,并在SCOPE数据集上取得了最先进的结果。

  • Motivation: 集体感知(CP)在自动驾驶中具有潜力,但不同传感器系统导致的Sensor2Sensor域差距问题尚未解决。缺乏异构传感器数据集加剧了这一挑战。
  • Method: 提出了传感器域鲁棒架构S2S-Net,并在SCOPE数据集上进行了Sensor2Sensor域适应能力的深入分析。
  • Result: S2S-Net在未见过的传感器域中保持了高性能,并在SCOPE数据集上取得了最先进的结果。
  • Conclusion: S2S-Net有效解决了V2V集体感知中的Sensor2Sensor域差距问题,展示了其在实际应用中的潜力。

[32] StereoMamba: Real-time and Robust Intraoperative Stereo Disparity Estimation via Long-range Spatial Dependencies

Xu Wang,Jialang Xu,Shuai Zhang,Baoru Huang,Danail Stoyanov,Evangelos B. Mazomenos

Main category: cs.CV

TL;DR: StereoMamba架构通过FE-Mamba和MFF模块提升RAMIS中的立体视差估计,实现精度、鲁棒性和速度的平衡。

  • Motivation: 当前深度学习方法在RAMIS中立体视差估计的精度、鲁棒性和推理速度之间难以平衡。
  • Method: 提出StereoMamba架构,包括FE-Mamba模块增强空间依赖性和MFF模块融合多尺度特征。
  • Result: 在SCARED基准测试中表现优异(EPE 2.64 px,深度MAE 2.55 mm),推理速度21.28 FPS,SSIM和PSNR表现最佳。
  • Conclusion: StereoMamba在精度、鲁棒性和效率上达到最优平衡,并展示了强零样本泛化能力。

[33] 3DV-TON: Textured 3D-Guided Consistent Video Try-on via Diffusion Models

Min Wei,Chaohui Yu,Jingkai Zhou,Fan Wang

Main category: cs.CV

TL;DR: 3DV-TON是一个基于扩散模型的视频试穿框架,通过生成可动画的3D网格作为显式帧级指导,解决了现有方法在复杂服装图案和多样姿势下生成高质量、时间一致结果的难题。

  • Motivation: 现有视频试穿方法在处理复杂服装和多样姿势时难以保持高质量和时间一致性,3DV-TON旨在解决这一问题。
  • Method: 采用生成可动画的3D网格作为帧级指导,结合自适应流程(关键帧选择、3D网格重建与动画)和矩形掩码策略。
  • Result: 在HR-VVT高分辨率数据集上,3DV-TON在定量和定性评估中均优于现有方法。
  • Conclusion: 3DV-TON通过3D网格指导和动态掩码策略,显著提升了视频试穿的质量和时间一致性。

[34] Breaking the Modality Barrier: Universal Embedding Learning with Multimodal LLMs

Tiancheng Gu,Kaicheng Yang,Ziyong Feng,Xingjun Wang,Yanzhao Zhang,Dingkun Long,Yingda Chen,Weidong Cai,Jiankang Deng

Main category: cs.CV

TL;DR: UniME提出了一种基于MLLM的两阶段框架,通过知识蒸馏和硬负样本增强指令调优,提升了多模态表示学习的判别性和组合性。

  • Motivation: CLIP框架在多模态表示学习中存在文本截断、孤立编码和组合性不足等问题,而MLLM的潜力尚未充分挖掘。
  • Method: UniME采用两阶段方法:1) 从LLM教师模型进行知识蒸馏;2) 通过硬负样本增强指令调优。
  • Result: 在MMEB基准和多种检索任务中,UniME表现优异,显著提升了判别性和组合性。
  • Conclusion: UniME为多模态表示学习提供了一种高效且可扩展的解决方案。

[35] Predict-Optimize-Distill: A Self-Improving Cycle for 4D Object Understanding

Mingxuan Wu,Huang Huang,Justin Kerr,Chung Min Kim,Anthony Zhang,Brent Yi,Angjoo Kanazawa

Main category: cs.CV

TL;DR: POD是一个自改进框架,通过预测与优化的循环提升4D物体理解能力。

  • Motivation: 人类通过长时间观察提升对物体3D状态的预测能力,现有系统依赖多视角观察或监督数据集训练。POD旨在通过自改进循环实现更优的4D理解。
  • Method: POD框架通过预测-优化-蒸馏的循环,利用多视角扫描和单目视频,迭代训练神经网络并优化姿态,生成自标记数据。
  • Result: 在真实和合成物体上,POD显著优于纯优化基线,性能随视频长度和迭代次数提升。
  • Conclusion: POD展示了自改进框架在4D物体理解中的潜力,性能随观察时间和迭代提升。

[36] FRAG: Frame Selection Augmented Generation for Long Video and Long Document Understanding

De-An Huang,Subhashree Radhakrishnan,Zhiding Yu,Jan Kautz

Main category: cs.CV

TL;DR: FRAG通过独立评分选择关键帧,避免长上下文处理,显著提升长视频和多页文档的理解性能。

  • Motivation: 长上下文模型因计算成本高而受限,探索无需长上下文处理的方法。
  • Method: 提出FRAG框架,独立评分选择关键帧,仅基于选定帧生成输出。
  • Result: 在长视频和文档任务中,FRAG显著提升性能,达到SOTA。
  • Conclusion: FRAG证明无需长上下文处理即可高效处理长输入,具有广泛适用性。

[37] Unveiling Hidden Vulnerabilities in Digital Human Generation via Adversarial Attacks

Zhiying Li,Yeying Jin,Fan Shen,Zhi Liu,Weibin Chen,Pengju Zhang,Xiaomei Zhang,Boyu Chen,Michael Shen,Kejian Wu,Zhaoxin Fan,Jin Dong

Main category: cs.CV

TL;DR: 论文提出了一种名为Tangible Attack (TBA)的新框架,通过Dual Heterogeneous Noise Generator (DHNG)和自定义对抗损失函数,显著提高了对数字人生成模型的对抗攻击效果。

  • Motivation: 现有研究主要关注减少估计误差,而忽略了鲁棒性和安全性,导致系统易受对抗攻击。
  • Method: 提出TBA框架,结合DHNG(利用VAE和ControlNet生成多样化噪声)和自定义对抗损失函数,通过多梯度信号迭代优化对抗样本。
  • Result: 实验表明,TBA显著提高了对抗攻击效果,估计误差增加了41.0%,平均提升约17.0%。
  • Conclusion: 研究揭示了当前EHPS模型的安全漏洞,强调了数字人生成系统需要更强的防御措施。

[38] Enhanced Sample Selection with Confidence Tracking: Identifying Correctly Labeled yet Hard-to-Learn Samples in Noisy Data

Weiran Pan,Wei Wei,Feida Zhu,Yong Deng

Main category: cs.CV

TL;DR: 提出一种基于模型预测置信度趋势的样本选择方法,用于解决带噪声标签的图像分类问题,提升现有方法的性能。

  • Motivation: 现有方法通常将小损失样本视为正确标签,但部分正确标签样本因难学而损失较高,导致样本选择的精度与召回率之间存在权衡。
  • Method: 通过跟踪标注标签与其他类别之间的置信度差距趋势(使用Mann-Kendall检验),区分正确标签的难学样本与错误标签样本。
  • Result: 在多个标准基准和真实数据集上验证了该方法对现有噪声标签学习方法的性能提升。
  • Conclusion: 该方法可作为即插即用组件,有效缓解样本选择中的权衡问题。

[39] RefVNLI: Towards Scalable Evaluation of Subject-driven Text-to-image Generation

Aviv Slobodkin,Hagai Taitelbaum,Yonatan Bitton,Brian Gordon,Michal Sokolik,Nitzan Bitton Guetta,Almog Gueta,Royi Rassin,Itay Laish,Dani Lischinski,Idan Szpektor

Main category: cs.CV

TL;DR: RefVNLI是一种低成本评估指标,用于同时评估文本对齐和主题保留,优于现有方法。

  • Motivation: 现有评估方法仅关注单一任务或与人类判断不一致,且成本高。
  • Method: 基于大规模视频推理基准和图像扰动数据集训练RefVNLI。
  • Result: RefVNLI在多个基准测试中表现优异,文本对齐和主题一致性分别提升6.4和8.5分。
  • Conclusion: RefVNLI是一种高效且与人类偏好一致的评估工具。

[40] Mamba-Sea: A Mamba-based Framework with Global-to-Local Sequence Augmentation for Generalizable Medical Image Segmentation

Zihan Cheng,Jintao Guo,Jian Zhang,Lei Qi,Luping Zhou,Yinghuan Shi,Yang Gao

Main category: cs.CV

TL;DR: 论文提出了一种基于Mamba架构的新框架Mamba-Sea,用于解决医学图像分割中的分布偏移问题,通过全局到局部的序列增强提升模型的泛化能力。

  • Motivation: 现有域泛化方法主要基于CNN或ViT架构,而Mamba在医学图像分割中表现出色,因此探索其在域泛化中的应用潜力。
  • Method: 提出Mamba-Sea框架,结合全局和局部的序列增强机制,抑制模型学习域特定信息。
  • Result: 在Prostate数据集上首次超过90%的Dice系数,优于之前的SOTA(88.61%)。
  • Conclusion: Mamba-Sea是首个探索Mamba在医学图像分割中泛化能力的工作,展示了强大的域偏移鲁棒性。

[41] Towards One-Stage End-to-End Table Structure Recognition with Parallel Regression for Diverse Scenarios

Anyi Xiao,Cihui Yang

Main category: cs.CV

TL;DR: TableCenterNet是一种单阶段端到端表格结构解析网络,统一了表格空间和逻辑结构的预测,通过共享特征提取层和任务特定解码的协同架构,实现了跨场景适应性和计算效率的平衡。

  • Motivation: 现有方法在跨场景适应性、鲁棒性和计算效率之间难以平衡,需要多网络串行训练或复杂后处理算法。
  • Method: 提出TableCenterNet,将表格空间和逻辑结构预测统一为并行回归任务,通过共享特征提取层和任务特定解码的协同架构学习空间-逻辑位置映射规律。
  • Result: 在基准数据集上表现优异,在TableGraph-24k数据集上达到最先进性能。
  • Conclusion: TableCenterNet易于训练且推理速度快,适用于多样化场景的表格结构解析。

[42] ESDiff: Encoding Strategy-inspired Diffusion Model with Few-shot Learning for Color Image Inpainting

Junyan Zhang,Yan Li,Mengxiao Geng,Liu Shi,Qiegen Liu

Main category: cs.CV

TL;DR: 提出了一种基于编码策略的扩散模型,用于少样本学习的彩色图像修复,通过虚拟掩码和高维对象构建提升细节保留能力。

  • Motivation: 传统方法难以保留复杂细节,深度学习模型需要大量数据,本文旨在解决这些问题。
  • Method: 采用虚拟掩码构建高维对象,结合低秩方法和扩散模型进行迭代修复。
  • Result: 实验表明,该方法在定量指标和图像质量(纹理与结构完整性)上优于现有技术。
  • Conclusion: 该方法通过编码策略和扩散模型实现了更精确、一致的图像修复效果。

[43] Text-to-Image Alignment in Denoising-Based Models through Step Selection

Paul Grimal,Hervé Le Borgne,Olivier Ferret

Main category: cs.CV

TL;DR: 提出一种新方法,通过选择性增强关键去噪步骤的信号,优化图像生成与输入语义的对齐。

  • Motivation: 解决视觉生成AI模型中文本-图像对齐和推理限制的问题。
  • Method: 在关键去噪步骤选择性增强信号,避免早期信号修改的缺陷。
  • Result: 在Diffusion和Flow Matching模型上实现最先进的性能,显著提升语义对齐。
  • Conclusion: 合理选择采样阶段对提升性能和图像对齐至关重要。

[44] An Explainable Nature-Inspired Framework for Monkeypox Diagnosis: Xception Features Combined with NGBoost and African Vultures Optimization Algorithm

Ahmadreza Shateri,Negar Nourani,Morteza Dorrigiv,Hamid Nasiri

Main category: cs.CV

TL;DR: 提出了一种基于深度学习的猴痘皮肤病变自动检测框架,结合迁移学习、降维和优化算法,实现了高准确率和可解释性。

  • Motivation: 猴痘在全球非传统流行区域的传播引发公共卫生担忧,早期准确诊断对疾病管理至关重要。
  • Method: 使用Xception架构提取特征,PCA降维,NGBoost分类,并通过AVOA优化超参数。
  • Result: 模型准确率达97.53%,F1-score为97.72%,AUC为97.47%。
  • Conclusion: 该框架为资源有限环境提供了高效诊断工具,助力早期检测。

[45] When Gaussian Meets Surfel: Ultra-fast High-fidelity Radiance Field Rendering

Keyang Ye,Tianjia Shao,Kun Zhou

Main category: cs.CV

TL;DR: Gaussian-enhanced Surfels (GESs) 是一种双尺度表示方法,用于辐射场渲染,结合了2D不透明surfels和3D高斯分布,实现了快速、高质量的渲染。

  • Motivation: 解决现有辐射场渲染方法在速度和质量上的不足,提供一种既能快速渲染又能保持高保真度的解决方案。
  • Method: 使用2D surfels表示粗尺度几何和外观,3D高斯分布补充细节。渲染分为两阶段:先光栅化surfels生成深度和颜色图,再通过高斯分布进行像素级深度测试和颜色累积。
  • Result: GESs 实现了超快速的高保真渲染,避免了视角变化时的视觉伪影,并支持多种扩展功能(如抗锯齿、加速渲染等)。
  • Conclusion: GESs 是一种高效的辐射场表示方法,在速度和渲染质量上均优于现有技术。

[46] A Comprehensive Survey of Knowledge-Based Vision Question Answering Systems: The Lifecycle of Knowledge in Visual Reasoning Task

Jiaqi Deng,Zonghan Wu,Huan Huo,Guandong Xu

Main category: cs.CV

TL;DR: 该论文是一篇关于知识驱动的视觉问答(KB-VQA)的综述,旨在填补现有研究中缺乏系统性总结的空白。

  • Motivation: KB-VQA结合视觉、文本和外部知识,具有广泛的应用前景,但目前缺乏对其方法的全面综述。
  • Method: 通过建立KB-VQA的结构化分类法,将其分为知识表示、知识检索和知识推理三个阶段,并探讨知识集成技术。
  • Result: 论文系统总结了现有KB-VQA方法,并指出了持续存在的挑战。
  • Conclusion: 该综述为未来KB-VQA模型的发展和应用提供了基础,并提出了有前景的研究方向。

[47] Unsupervised Urban Land Use Mapping with Street View Contrastive Clustering and a Geographical Prior

Lin Che,Yizi Chen,Tanhua Jin,Martin Raubal,Konrad Schindler,Peter Kiefer

Main category: cs.CV

TL;DR: 提出了一种基于街景图像的无监督对比聚类模型,结合地理先验,用于城市土地利用分类与制图,解决了传统方法在复杂城市环境中精度不足的问题。

  • Motivation: 现有遥感技术因缺乏地面细节而在复杂城市环境中精度不足,而街景图像能捕捉更多人类和社会活动信息,但现有方法依赖监督分类,面临标注数据稀缺和泛化困难的问题。
  • Method: 采用无监督对比聚类模型,结合地理先验,通过简单的视觉分配生成土地利用图。
  • Result: 实验证明该方法能从两个城市的街景图像数据集中生成土地利用图,且具有适应性和可扩展性。
  • Conclusion: 该方法基于地理空间数据的空间一致性,适用于街景图像可用的多种场景,为土地利用制图提供了灵活且可定制的解决方案。

[48] Occlusion-Aware Self-Supervised Monocular Depth Estimation for Weak-Texture Endoscopic Images

Zebo Huang,Yinghui Wang

Main category: cs.CV

TL;DR: 提出了一种针对内窥镜场景的自监督单目深度估计网络,通过遮挡感知框架和语义分割改进深度重建质量。

  • Motivation: 现有方法在动态光照和遮挡情况下性能下降,导致深度重建不可靠。
  • Method: 引入遮挡掩码进行数据增强,结合非负矩阵分解的语义分割生成伪标签。
  • Result: 在SCARED数据集上达到SOTA性能,并在Endo-SLAM和SERV-CT数据集上表现出强泛化能力。
  • Conclusion: 该方法有效解决了内窥镜场景中的光照和遮挡问题,提升了深度估计的鲁棒性。

[49] Tamper-evident Image using JPEG Fixed Points

Zhaofeng Si,Siwei Lyu

Main category: cs.CV

TL;DR: JPEG压缩过程中存在固定点,经过多次压缩和解压后图像趋于稳定。这些固定点可用于开发防篡改图像技术。

  • Motivation: 研究JPEG压缩和解压过程中固定点的存在及其特性,以探索其在图像防篡改中的应用。
  • Method: 分析JPEG压缩和解压过程,证明固定点的存在,并通过实验验证其多样性和视觉质量保留。
  • Result: 固定点可在几次迭代后达到,且能保持图像视觉质量,最小化失真。
  • Conclusion: 固定点的存在为开发防篡改图像技术提供了理论基础,可用于检测图像篡改。

[50] RGB-D Tracking via Hierarchical Modality Aggregation and Distribution Network

Boyue Xu,Yi Xu,Ruichao Hou,Jia Bei,Tongwei Ren,Gangshan Wu

Main category: cs.CV

TL;DR: HMAD网络通过分层模态聚合与分布提升RGB-D跟踪的鲁棒性和效率。

  • Motivation: 现有RGB-D跟踪器效率低且仅关注单层特征,导致融合鲁棒性差且速度慢。
  • Method: 提出HMAD网络,利用RGB和深度模态的特征表示优势,采用分层方法进行特征分布与融合。
  • Result: 在多个RGB-D数据集上实现最优性能,并在实时场景中有效应对多种跟踪挑战。
  • Conclusion: HMAD显著提升了RGB-D跟踪的鲁棒性和实时性。

[51] STCL:Curriculum learning Strategies for deep learning image steganography models

Fengchun Liu,Tong Zhang,Chunying Zhang

Main category: cs.CV

TL;DR: 提出了一种基于课程学习的图像隐写训练策略(STCL),通过逐步增加训练难度提升模型性能。

  • Motivation: 解决深度学习图像隐写模型中图像质量差和网络收敛慢的问题。
  • Method: 1. 基于教师模型的难度评估策略;2. 基于拐点的训练调度策略。
  • Result: 在多个数据集上验证,模型性能提升,隐写图像质量高且分析得分低。
  • Conclusion: STCL策略有效提升了图像隐写模型的性能和质量。

[52] Enhancing CNNs robustness to occlusions with bioinspired filters for border completion

Catarina P. Coutinho,Aneeqa Merhab,Janko Petkovic,Ferdinando Zanchetta,Rita Fioresi

Main category: cs.CV

TL;DR: 利用视觉皮层边界补全机制改进CNN滤波器,提升遮挡MNIST图像的分类准确率。

  • Motivation: 探索视觉皮层机制在CNN中的应用,以提升模型对遮挡图像的处理能力。
  • Method: 基于视觉皮层边界补全的数学模型设计自定义滤波器,改进LeNet 5。
  • Result: 在遮挡MNIST图像测试中,准确率有显著提升。
  • Conclusion: 视觉皮层机制可有效优化CNN滤波器设计,提升模型性能。

[53] Improving Open-World Object Localization by Discovering Background

Ashish Singh,Michael J. Jones,Kuan-Chuan Peng,Anoop Cherian,Moitreya Chatterjee,Erik Learned-Miller

Main category: cs.CV

TL;DR: 提出了一种利用背景信息指导目标检测的新框架,通过发现非判别性区域来提升开放世界目标定位性能。

  • Motivation: 解决开放世界目标定位问题,即在训练时仅使用有限类别的边界框信息,推理时定位所有类别(包括未见类别)的目标。
  • Method: 提出一种新框架,通过发现图像中的背景区域(非判别性冗余区域),并训练目标提议网络不在这些区域检测目标。
  • Result: 在标准基准测试中表现优异,显著优于现有方法。
  • Conclusion: 通过利用背景信息,显著提升了开放世界目标定位的性能。

[54] A Guide to Structureless Visual Localization

Vojtech Panek,Qunjie Zhou,Yaqing Ding,Sérgio Agostinho,Zuzana Kukelova,Torsten Sattler,Laura Leal-Taixé

Main category: cs.CV

TL;DR: 本文首次全面讨论和比较了无结构视觉定位方法,发现基于经典几何推理的方法在姿态精度上优于基于姿态回归的方法,但灵活性较高。

  • Motivation: 现有基于结构的视觉定位方法虽准确但灵活性不足,而无结构方法更易更新,但相关研究较少,本文旨在填补这一空白。
  • Method: 通过比较和分析多种无结构视觉定位方法,包括基于经典绝对或半广义相对姿态估计的方法与基于姿态回归的方法。
  • Result: 实验表明,基于经典几何推理的方法在姿态精度上显著优于基于姿态回归的方法,但与基于结构的方法相比精度稍低。
  • Conclusion: 无结构方法在灵活性上有优势,但精度略低,为未来研究提供了有趣的方向。

[55] CLIPSE -- a minimalistic CLIP-based image search engine for research

Steve Göring

Main category: cs.CV

TL;DR: CLIPSE是一个自托管的图像搜索引擎,主要用于研究,基于CLIP嵌入处理图像和文本查询,设计简单易扩展。

  • Motivation: 为研究提供一个简单且可扩展的图像搜索工具。
  • Method: 使用CLIP嵌入处理图像和文本查询,设计简洁框架。
  • Result: 在小型数据集上表现良好,大型数据集需分布式处理。
  • Conclusion: CLIPSE适用于小型数据集,大型数据集需分布式方案。

[56] DiMeR: Disentangled Mesh Reconstruction Model

Lutao Jiang,Jiantao Lin,Kanghao Chen,Wenhang Ge,Xin Yang,Yifan Jiang,Yuanhuiyi Lyu,Xu Zheng,Yingcong Chen

Main category: cs.CV

TL;DR: DiMeR是一种解耦的双流前馈模型,用于稀疏视图网格重建,通过分离几何和纹理部分,显著提升了性能。

  • Motivation: RGB图像在几何重建中可能导致训练目标冲突且缺乏清晰性,因此需要一种更有效的方法。
  • Method: DiMeR将输入和框架解耦为几何和纹理部分,使用法线图作为几何分支的输入,改进网格提取算法,并利用RGB图像进行纹理重建。
  • Result: DiMeR在稀疏视图重建、单图像到3D和文本到3D任务中表现优异,Chamfer Distance在GSO和OmniObject3D数据集上提升超过30%。
  • Conclusion: DiMeR通过解耦几何和纹理,显著提升了3D重建的性能和效率。

[57] PICO: Reconstructing 3D People In Contact with Objects

Alpár Cseke,Shashank Tripathi,Sai Kumar Dwivedi,Arjun Lakshmipathy,Agniv Chatterjee,Michael J. Black,Dimitrios Tzionas

Main category: cs.CV

TL;DR: 论文提出了一种从单张彩色图像中恢复3D人-物交互(HOI)的方法,通过构建新数据集PICO-db和优化方法PICO-fit,解决了深度模糊、遮挡和物体多样性问题。

  • Motivation: 现有方法需要已知物体形状和接触信息,且仅适用于有限物体类别。本文旨在开发适用于自然图像和新型物体类别的通用方法。
  • Method: 1. 构建PICO-db数据集,利用视觉基础模型检索3D物体网格,并通过2次点击投影接触标签。2. 提出PICO-fit优化方法,利用接触信息迭代拟合3D人体和物体网格。
  • Result: PICO-fit能够处理多种现有方法无法应对的物体类别,显著提升了HOI理解的泛化能力。
  • Conclusion: PICO-db和PICO-fit为自然场景中的3D人-物交互恢复提供了通用解决方案,推动了该领域的扩展应用。

[58] Hierarchical and Multimodal Data for Daily Activity Understanding

Ghazal Kaviani,Yavuz Yarici,Seulgi Kim,Mohit Prabhushankar,Ghassan AlRegib,Mashhour Solh,Ameya Patil

Main category: cs.CV

TL;DR: DARai是一个多模态、分层标注的数据集,用于研究真实环境中的人类活动,包含50名参与者在10种环境中的200多小时数据,并通过多种传感器采集。

  • Motivation: 理解人类活动的复杂性,并为人工智能提供真实世界的数据支持。
  • Method: 构建包含脚本和非脚本记录的多模态数据集,采用三层层次结构标注(活动、动作、步骤),并进行多模态传感器融合实验。
  • Result: 实验展示了DARai在识别、时间定位和未来动作预测中的价值,并揭示了单个传感器的局限性。
  • Conclusion: DARai为人类中心应用提供了重要挑战和解决方案的数据支持,数据集和代码已公开。

[59] Generative Fields: Uncovering Hierarchical Feature Control for StyleGAN via Inverted Receptive Fields

Zhuo He,Paul Henderson,Nicolas Pugeault

Main category: cs.CV

TL;DR: 论文提出了一种基于生成场理论和通道风格潜在空间S的新图像编辑方法,解决了StyleGAN中特征控制的局限性。

  • Motivation: StyleGAN生成的图像特征难以控制,现有方法在W潜在空间中调制采样,但表达性有限且需要预训练。
  • Method: 引入生成场理论解释StyleGAN的层次特征合成,并提出基于通道风格潜在空间S的图像编辑流程。
  • Result: 实现了在合成时对特征合成的解耦控制。
  • Conclusion: 生成场理论和通道风格潜在空间S为StyleGAN图像编辑提供了更灵活的方法。

[60] DPMambaIR:All-in-One Image Restoration via Degradation-Aware Prompt State Space Model

Zhanwen Liu,Sai Zhou,Yuchao Dai,Yang Wang,Yisheng An,Xiangmo Zhao

Main category: cs.CV

TL;DR: DPMambaIR是一种新型All-in-One图像修复框架,通过细粒度建模和高效全局整合,解决了多任务冲突和高频细节丢失问题。

  • Motivation: 传统方法需为每种退化类型设计专用模型,成本高且复杂。现有方法缺乏细粒度建模和任务平衡能力。
  • Method: 结合Degradation-Aware Prompt State Space Model(DP-SSM)和High-Frequency Enhancement Block(HEB),实现细粒度建模和高频信息补充。
  • Result: 在包含七种退化类型的混合数据集上,DPMambaIR表现最佳,PSNR为27.69dB,SSIM为0.893。
  • Conclusion: DPMambaIR展示了作为统一All-in-One图像修复解决方案的潜力和优越性。

[61] EgoCHARM: Resource-Efficient Hierarchical Activity Recognition using an Egocentric IMU Sensor

Akhil Padmanabha,Saravanan Govindarajan,Hwanmun Kim,Sergio Ortiz,Rahul Rajan,Doruk Senkal,Sneha Kadetotad

Main category: cs.CV

TL;DR: 提出了一种资源高效的机器学习算法EgoCHARM,用于通过头戴式IMU识别高低层次活动,性能优越且参数少。

  • Motivation: 解决现有头戴式活动识别方法性能低或资源消耗高的问题。
  • Method: 采用半监督学习策略,通过高层次活动标签训练,学习通用低层次运动嵌入。
  • Result: 在9种高层次和3种低层次活动上分别取得0.826和0.855的F1分数,模型参数仅63k和22k。
  • Conclusion: EgoCHARM高效且适用于当前IMU芯片,同时分析了头戴式IMU活动识别的机会与限制。

[62] Step1X-Edit: A Practical Framework for General Image Editing

Shiyu Liu,Yucheng Han,Peng Xing,Fukun Yin,Rui Wang,Wei Cheng,Jiaqi Liao,Yingming Wang,Honghao Fu,Chunrui Han,Guopeng Li,Yuang Peng,Quan Sun,Jingwei Wu,Yan Cai,Zheng Ge,Ranchen Ming,Lei Xia,Xianfang Zeng,Yibo Zhu,Binxing Jiao,Xiangyu Zhang,Gang Yu,Daxin Jiang

Main category: cs.CV

TL;DR: 论文提出了一种名为Step1X-Edit的开源图像编辑模型,旨在缩小与闭源模型(如GPT-4o和Gemini2 Flash)的性能差距,并通过实验验证其优越性。

  • Motivation: 尽管多模态模型在图像编辑领域取得显著进展,但开源算法与闭源模型之间存在较大差距。本文旨在填补这一差距。
  • Method: 采用多模态LLM处理参考图像和用户指令,提取潜在嵌入并与扩散图像解码器结合生成目标图像。通过构建高质量数据集训练模型。
  • Result: 在GEdit-Bench基准测试中,Step1X-Edit显著优于现有开源基线,并接近领先闭源模型的性能。
  • Conclusion: Step1X-Edit为图像编辑领域做出了重要贡献,缩小了开源与闭源模型之间的性能差距。

[63] The Fourth Monocular Depth Estimation Challenge

Anton Obukhov,Matteo Poggi,Fabio Tosi,Ripudaman Singh Arora,Jaime Spencer,Chris Russell,Simon Hadfield,Richard Bowden,Shuaihang Wang,Zhenxin Ma,Weijie Chen,Baobei Xu,Fengyu Sun,Di Xie,Jiang Zhu,Mykola Lavreniuk,Haining Guan,Qun Wu,Yupei Zeng,Chao Lu,Huanran Wang,Guangyuan Zhou,Haotian Zhang,Jianxiong Wang,Qiang Rao,Chunjie Wang,Xiao Liu,Zhiqiang Lou,Hualie Jiang,Yihao Chen,Rui Xu,Minglang Tan,Zihan Qin,Yifan Mao,Jiayang Liu,Jialei Xu,Yifan Yang,Wenbo Zhao,Junjun Jiang,Xianming Liu,Mingshuai Zhao,Anlong Ming,Wu Chen,Feng Xue,Mengying Yu,Shida Gao,Xiangfeng Wang,Gbenga Omotara,Ramy Farag,Jacket Demby,Seyed Mohamad Ali Tousi,Guilherme N DeSouza,Tuan-Anh Yang,Minh-Quang Nguyen,Thien-Phuc Tran,Albert Luginov,Muhammad Shahzad

Main category: cs.CV

TL;DR: 第四届单目深度估计挑战赛(MDEC)聚焦于零样本泛化到SYNS-Patches数据集,改进了评估协议和基线方法,最终提交结果优于基线,最佳方法提升了3D F-Score。

  • Motivation: 研究单目深度估计在复杂自然和室内环境中的零样本泛化能力。
  • Method: 修订评估协议,使用最小二乘对齐和两自由度支持视差和仿射不变预测;引入Depth Anything v2和Marigold作为基线方法。
  • Result: 24份提交结果优于基线,其中10份附有方法报告;最佳方法将3D F-Score从22.58%提升至23.05%。
  • Conclusion: 挑战赛展示了仿射不变预测方法的有效性,并推动了单目深度估计技术的进步。

[64] Dynamic Camera Poses and Where to Find Them

Chris Rockwell,Joseph Tung,Tsung-Yi Lin,Ming-Yu Liu,David F. Fouhey,Chen-Hsuan Lin

Main category: cs.CV

TL;DR: DynPose-100K是一个大规模动态互联网视频数据集,标注了相机位姿,解决了现有方法在动态视频位姿标注上的挑战。

  • Motivation: 动态互联网视频的相机位姿标注对视频生成和模拟等领域至关重要,但现有数据集难以满足需求。
  • Method: 结合任务特定和通用模型进行过滤,并采用点跟踪、动态掩码和运动结构恢复技术进行位姿估计。
  • Result: DynPose-100K数据集规模大且多样化,优于现有方法。
  • Conclusion: 该数据集为下游应用提供了新的研究机会。

[65] Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models

Xu Ma,Peize Sun,Haoyu Ma,Hao Tang,Chih-Yao Ma,Jialiang Wang,Kunpeng Li,Xiaoliang Dai,Yujun Shi,Xuan Ju,Yushi Hu,Artsiom Sanakoyeu,Felix Juefei-Xu,Ji Hou,Junjiao Tian,Tao Xu,Tingbo Hou,Yen-Cheng Liu,Zecheng He,Zijian He,Matt Feiszli,Peizhao Zhang,Peter Vajda,Sam Tsai,Yun Fu

Main category: cs.CV

TL;DR: 提出Token-Shuffle方法,通过减少Transformer中的图像token数量,提升自回归模型在高分辨率图像生成中的效率和性能。

  • Motivation: 自回归模型在图像生成中因需要大量图像token而效率低下,限制了分辨率和性能。
  • Method: 提出Token-Shuffle和Token-Unshuffle操作,利用视觉词汇的维度冗余减少token数量,并结合文本提示联合训练。
  • Result: 首次实现2048x2048分辨率的AR文本到图像生成,2.7B模型在GenAI-benchmark中表现优于AR和扩散模型。
  • Conclusion: Token-Shuffle为MLLMs中高效高分辨率图像生成提供了基础设计。

[66] LiDPM: Rethinking Point Diffusion for Lidar Scene Completion

Tetiana Martyniuk,Gilles Puy,Alexandre Boulch,Renaud Marlet,Raoul de Charette

Main category: cs.CV

TL;DR: 论文提出LiDPM方法,通过优化初始点选择,证明了在场景级别完成中无需局部扩散近似,直接使用vanilla DDPM即可取得更好效果。

  • Motivation: 解决在室外场景中直接训练扩散模型生成精细细节的挑战,弥补局部扩散与对象级别扩散之间的差距。
  • Method: 采用vanilla DDPM,优化初始点选择,避免局部扩散近似。
  • Result: 在SemanticKITTI上展示了更好的场景完成效果。
  • Conclusion: LiDPM方法通过简单优化初始点,证明了vanilla DDPM在场景级别完成中的有效性。

cs.AI

[67] A Framework for the Assurance of AI-Enabled Systems

Ariel S. Kapusta,David Jin,Peter M. Teague,Robert A. Houston,Jonathan B. Elliott,Grace Y. Park,Shelby S. Holdren

Main category: cs.AI

TL;DR: 美国国防部提出了一种基于声明的框架,用于AI系统的风险管理和保证,以平衡快速部署与严格评估的需求。

  • Motivation: 加速AI在国防应用中的部署,同时解决其带来的技术、安全和伦理挑战,确保AI系统的可信度。
  • Method: 提出一个基于声明的框架,支持AI系统的全生命周期风险管理与保证,包括定义和关键考虑因素。
  • Result: 提供了一个高效的机制,帮助国防部快速部署有效的AI能力,同时避免关键风险并维护利益相关者信任。
  • Conclusion: 该框架为AI系统的可信度提供了实用工具,支持国防部在AI领域的战略优势。

[68] Rational Inference in Formal Concept Analysis

Lucas Carr,Nicholas Leisegang,Thomas Meyer,Sergei Obiedkov

Main category: cs.AI

TL;DR: 本文提出了一种在形式概念分析(FCA)中构建KLM框架的方法,用于处理非单调推理中的可废止条件句,并展示了其与原始框架的一致性。

  • Motivation: FCA中的传统依赖关系无法处理错误数据或例外情况,而非单调推理在FCA中尚未被充分研究。
  • Method: 通过构建偏好排序的语义,将KLM框架扩展到FCA中。
  • Result: 提出的方法不仅忠实于原始框架的非单调推理原则,还提供了更具上下文相关性的推理能力。
  • Conclusion: 在FCA中应用KLM框架能够更有效地处理非单调推理,并得出更相关的结论。

[69] A Desideratum for Conversational Agents: Capabilities, Challenges, and Future Directions

Emre Can Acikgoz,Cheng Qian,Hongru Wang,Vardhan Dongre,Xiusi Chen,Heng Ji,Dilek Hakkani-Tür,Gokhan Tur

Main category: cs.AI

TL;DR: 这篇综述论文探讨了基于大型语言模型(LLM)的对话代理的现状、挑战及未来发展方向,提出了一个分类框架并指出了研究空白。

  • Motivation: 随着LLM的进步,对话代理的能力显著提升,但其局限性及未来发展路径仍需系统性研究。
  • Method: 通过将对话代理的能力分为推理、监控和控制三个维度,构建了一个新的分类法,并对现有研究进行了系统性分析。
  • Result: 识别了当前研究的不足,如长期多轮推理、自我进化能力等,并提出了未来研究方向。
  • Conclusion: 本文为对话代理的研究提供了结构化基础,并指出了实现人工通用智能(AGI)的关键方向。

[70] A Systematic Approach to Design Real-World Human-in-the-Loop Deep Reinforcement Learning: Salient Features, Challenges and Trade-offs

Jalal Arabneydi,Saiful Islam,Srijita Das,Sai Krishna Gottipati,William Duguay,Cloderic Mars,Matthew E. Taylor,Matthew Guzdial,Antoine Fagette,Younes Zerouali

Main category: cs.AI

TL;DR: 本文提出了一种新颖的多层分层HITL DRL算法,结合了三种学习方式和三种人类输入形式,并通过无人机应用验证了其有效性。

  • Motivation: 随着深度强化学习(DRL)的普及,人机交互(HITL)方法有望革新决策问题解决方式,推动人机协作。
  • Method: 提出了一种多层分层的HITL DRL算法,包含自主学习、模仿学习和迁移学习,并整合了奖励、动作和演示三种人类输入形式。
  • Result: 实验表明,HITL能加速训练并提升性能,人类建议可降低梯度方法的方差,且建议量需适中以避免过训练或欠训练。
  • Conclusion: HITL DRL算法在复杂问题中具有潜力,尤其是在无人机防御等实际场景中展现了人机协作的价值。

[71] Neural Theorem Proving: Generating and Structuring Proofs for Formal Verification

Balaji Rao,William Eiers,Carlo Lipizzi

Main category: cs.AI

TL;DR: 提出了一种生成形式化证明的框架,结合自然语言生成、LLM生成证明和启发式模块,通过两阶段微调训练LLM,并在miniF2F和Isabelle中验证。

  • Motivation: 随着LLM生成代码的兴起,形式化验证代码属性成为重要任务,但通用定理证明仍未完全解决。
  • Method: 框架包含三个组件:自然语言生成、LLM生成形式化证明、启发式模块;采用两阶段微调训练LLM。
  • Result: 在miniF2F和Isabelle中验证了框架的有效性,并设计了AWS S3策略验证用例。
  • Conclusion: 该框架为形式化验证提供了新途径,并扩展了LLM在定理证明中的应用。

[72] Leveraging LLMs as Meta-Judges: A Multi-Agent Framework for Evaluating LLM Judgments

Yuran Li,Jama Hussein Mohamud,Chongren Sun,Di Wu,Benoit Boulet

Main category: cs.AI

TL;DR: 论文提出了一种三阶段元判断选择流程,通过多智能体协作和综合评分标准,显著提升了LLM作为评估者的性能。

  • Motivation: 随着任务复杂化,评估LLM响应的挑战增加,而现有研究多关注对齐人类偏好,忽视了人类判断的偏见和错误。
  • Method: 1) 与GPT-4和人类专家共同制定评分标准;2) 使用三个高级LLM智能体评分;3) 设置阈值过滤低分判断。
  • Result: 在JudgeBench数据集上,相比原始判断和单智能体基线,分别提升了15.55%和8.37%。
  • Conclusion: LLM作为元判断者具有潜力,为未来构建LLM作为评估者的强化学习偏好数据集奠定了基础。

[73] AUTHENTICATION: Identifying Rare Failure Modes in Autonomous Vehicle Perception Systems using Adversarially Guided Diffusion Models

Mohammad Zarei,Melanie A Jutras,Eliana Evans,Mike Tan,Omid Aaramoon

Main category: cs.AI

TL;DR: 论文提出了一种利用生成和可解释AI技术解决自动驾驶车辆(AVs)罕见故障模式(RFMs)的新方法,通过生成多样化环境图像和自然语言描述,提升AV系统的鲁棒性和可靠性。

  • Motivation: 自动驾驶车辆(AVs)在检测罕见故障模式(RFMs)时存在困难,这被称为“长尾挑战”。论文旨在通过AI技术增强AVs的鲁棒性和可靠性。
  • Method: 提取对象分割掩码并反转生成环境掩码,结合文本提示输入定制扩散模型,利用Stable Diffusion修复模型和对抗噪声优化生成多样化环境图像,暴露AI系统的漏洞。
  • Result: 生成包含多样化环境的图像和自然语言描述的RFMs,帮助开发者和政策制定者改进AV系统的安全性和可靠性。
  • Conclusion: 该方法通过生成和解释RFMs,为提升AV系统的鲁棒性和可靠性提供了有效工具。

[74] Cracking the Code of Action: a Generative Approach to Affordances for Reinforcement Learning

Lynn Cherif,Flemming Kondrup,David Venuto,Ankit Anand,Doina Precup,Khimya Khetarpal

Main category: cs.AI

TL;DR: 论文提出了一种名为CoGA的方法,通过意图驱动的动作空间约束和预训练的视觉语言模型生成代码,显著提高了在低数据环境下强化学习代理的样本效率。

  • Motivation: 在稀疏奖励和大动作空间环境中(如网页GUI),传统方法需要大量专家演示才能达到良好性能。本文旨在解决低数据环境下的样本效率问题。
  • Method: 提出CoGA方法,利用预训练的视觉语言模型生成代码,通过意图驱动的动作空间约束和自动化程序生成验证流程,减少代理需考虑的动作数量。
  • Result: 在MiniWob++基准测试中,CoGA样本效率显著优于传统强化学习方法,程序能泛化到同类任务,且在少量专家演示时表现优于行为克隆。
  • Conclusion: CoGA通过意图驱动的动作空间约束和代码生成,有效提高了低数据环境下的样本效率和任务性能。

[75] AI-Enhanced Business Process Automation: A Case Study in the Insurance Domain Using Object-Centric Process Mining

Shahrzad Khayatbashi,Viktor Sjölind,Anders Granåker,Amin Jalali

Main category: cs.AI

TL;DR: 论文探讨了AI(特别是LLMs)如何通过自动化知识密集型任务推动业务流程重构,并以保险业案例展示了OCPM方法在评估AI自动化影响中的应用。

  • Motivation: 研究AI自动化对业务流程的影响,尤其是在传统与AI增强流程共存过渡期的评估需求。
  • Method: 采用对象中心流程挖掘(OCPM)方法,结合保险业案例,分析LLM自动化对流程可扩展性的影响。
  • Result: LLM显著提升了运营能力,但也引入了需进一步优化的新流程动态。OCPM在现实场景中展示了其优势和局限性。
  • Conclusion: 研究证明了OCPM在评估AI驱动自动化中的实用性,同时指出LLM带来的新挑战需进一步研究。

[76] Comprehend, Divide, and Conquer: Feature Subspace Exploration via Multi-Agent Hierarchical Reinforcement Learning

Weiliang Zhang,Xiaohan Huang,Yi Du,Ziyue Qiao,Qingqing Long,Zhen Meng,Yuanchun Zhou,Meng Xiao

Main category: cs.AI

TL;DR: 论文提出了一种名为HRLFS的新方法,通过结合大型语言模型(LLM)和分层强化学习(RL)来解决特征选择中的效率问题。

  • Motivation: 当前强化学习方法在处理复杂数据集时效率低下,主要由于每个特征使用一个代理的模式。
  • Method: 使用LLM提取特征的数学和语义信息,聚类后构建分层代理。
  • Result: 实验表明HRLFS在效率和下游任务性能上优于现有方法。
  • Conclusion: HRLFS通过减少代理数量提升了特征选择的效率和性能。

[77] Assessing the Capability of Large Language Models for Domain-Specific Ontology Generation

Anna Sofia Lippolis,Mohammad Javad Saeedizade,Robin Keskisarkka,Aldo Gangemi,Eva Blomqvist,Andrea Giovanni Nuzzolese

Main category: cs.AI

TL;DR: LLMs(如DeepSeek和o1-preview)在跨领域本体生成任务中表现一致,展示了其在可扩展和领域无关本体构建中的潜力。

  • Motivation: 探索LLMs在领域特定本体生成任务中的适用性,评估其性能。
  • Method: 使用两种具备推理能力的LLMs(DeepSeek和o1-preview),通过能力问题(CQs)和用户故事生成本体,覆盖六个领域和95个CQs。
  • Result: 实验结果显示LLMs在所有领域中表现一致,表明其能泛化本体生成任务。
  • Conclusion: LLM方法在可扩展和领域无关本体构建中具有潜力,为自动化推理和知识表示技术的进一步研究奠定了基础。

[78] Redefining Superalignment: From Weak-to-Strong Alignment to Human-AI Co-Alignment to Sustainable Symbiotic Society

Feifei Zhao,Yuwei Wang,Enmeng Lu,Dongcheng Zhao,Bing Han,Haibo Tong,Yao Liang,Dongqi Liang,Kang Sun,Lei Wang,Yitao Liang,Chao Liu,Yaodong Yang,Yi Zeng

Main category: cs.AI

TL;DR: 论文探讨了超级对齐(superalignment)问题,提出了一种结合外部监督和内在主动对齐的框架,以确保超级智能AI与人类价值观一致。

  • Motivation: 随着AI向超级智能(ASI)发展,可能超出人类控制并引发灾难性后果,因此需要解决超级对齐问题。
  • Method: 提出了一种整合外部监督(基于人类决策和自动化评估)和内在主动对齐(通过自我认知和共情)的框架。
  • Result: 框架旨在实现人类与AI的协同对齐,为安全和有益的AGI/ASI铺平道路。
  • Conclusion: 通过外部监督与内在主动对齐的结合,可实现可持续共生社会,确保AI与人类价值观一致。

[79] Towards Machine-Generated Code for the Resolution of User Intentions

Justus Flerlage,Ilja Behnke,Odej Kao

Main category: cs.AI

TL;DR: 论文探讨了利用AI(特别是LLMs)通过代码生成实现用户意图解析和工作流自动化的可行性。

  • Motivation: 随着AI能力的提升,尤其是LLMs的发展,用户与设备的交互方式需要重新评估。传统的高层应用方式可能被AI生成的工作流取代。
  • Method: 通过向LLM(如GPT-4o-mini)提供用户意图和简化的API,生成并执行代码工作流。
  • Result: 研究发现该方法总体可行,且LLM在生成符合用户意图的代码工作流方面表现优异。
  • Conclusion: AI生成的代码工作流有望成为用户与设备交互的新范式,实现人机协作的高效意图解析。

[80] Auditing the Ethical Logic of Generative AI Models

W. Russell Neuman,Chad Coleman,Ali Dasdan,Safinah Ali,Manan Shah

Main category: cs.AI

TL;DR: 本文提出了一种五维审计模型,用于评估大型语言模型(LLMs)的伦理推理能力,发现模型在伦理决策上趋同,但在解释严谨性和道德优先级上存在差异。

  • Motivation: 随着生成式AI模型在高风险领域的广泛应用,评估其伦理推理能力的需求日益迫切。
  • Method: 采用五维审计模型(分析质量、伦理考虑广度、解释深度、一致性和决断力),结合多组提示(包括新颖的伦理困境)来评估LLMs。
  • Result: 七种主要LLMs在伦理决策上趋同,但解释严谨性和道德优先级差异显著;链式思维提示和优化推理模型显著提升性能。
  • Conclusion: 研究提出了一种可扩展的AI伦理基准方法,并展示了AI在复杂决策中辅助人类道德推理的潜力。

cs.NE

[81] Dual-Individual Genetic Algorithm: A Dual-Individual Approach for Efficient Training of Multi-Layer Neural Networks

Tran Thuy Nga Truong,Jooyong Kim

Main category: cs.NE

TL;DR: 本文提出了一种名为Dual-Individual GA的增强遗传算法,用于优化二分类任务的神经网络,通过Leader和Follower两种角色实现探索与开发的平衡。

  • Motivation: 传统梯度方法在神经网络优化中存在局限性,需要一种更高效且无需手动调参的方法。
  • Method: 采用双个体遗传算法(Leader和Follower),结合自适应的层维度机制,生成两组参数集并通过Pareto支配排序。
  • Result: 实验显示,Dual-Individual GA在训练和测试准确率上均优于传统梯度方法,且成本更低。
  • Conclusion: 该方法在神经网络优化中表现出高效性和有效性,为二分类任务提供了新思路。

[82] Revisiting Reset Mechanisms in Spiking Neural Networks for Sequential Modeling: Specialized Discretization for Binary Activated RNN

Enqi Zhang

Main category: cs.NE

TL;DR: 该论文探讨了将脉冲神经网络(SNNs)视为二元激活的循环神经网络(RNNs)用于序列建模任务,分析了当前SNN架构的挑战,并提出了一种固定不应期SNN架构。

  • Motivation: 研究动机在于解决SNN在序列建模中的三个核心挑战:缺乏长序列记忆机制、生物启发组件的理论探索不足以及无法并行训练。
  • Method: 通过系统分析SNN中的重置操作和不应期机制,重新评估其必要性,并提出固定不应期SNN架构。
  • Result: 研究提供了新的理论解释和见解,验证了固定不应期SNN架构的有效性。
  • Conclusion: 结论表明固定不应期SNN架构能够有效解决序列建模中的挑战,同时简化了生物启发组件的复杂性。

cs.MM

[83] Multifaceted Evaluation of Audio-Visual Capability for MLLMs: Effectiveness, Efficiency, Generalizability and Robustness

Yusheng Zhao,Junyu Luo,Xiao Luo,Weizhi Zhang,Zhiping Xiao,Wei Ju,Philip S. Yu,Ming Zhang

Main category: cs.MM

TL;DR: 本文对多模态大语言模型(MLLMs)的视听能力进行了多维度评估,发现其在零样本和小样本任务中表现优异,但对视觉模态依赖性强,易受对抗样本影响。

  • Motivation: 尽管MLLMs在多模态信息处理中表现出色,但缺乏对其视听能力的全面评估,尤其是在分布偏移和对抗攻击等多样化场景中。
  • Method: 通过四个关键维度(有效性、效率、泛化性和鲁棒性)对MLLMs的视听能力进行多角度评估,并进行大量实验。
  • Result: MLLMs在零样本和小样本任务中表现优异,但对视觉模态依赖性强,视觉输入受损时性能下降;尽管易受对抗样本影响,其鲁棒性仍优于传统模型。
  • Conclusion: 研究揭示了MLLMs的视听能力优势和不足,为未来改进和研究提供了指导。

cs.HC

[84] What Makes for a Good Saliency Map? Comparing Strategies for Evaluating Saliency Maps in Explainable AI (XAI)

Felix Kares,Timo Speith,Hanwei Zhang,Markus Langer

Main category: cs.HC

TL;DR: 该研究比较了三种显著性图方法(LIME、Grad-CAM和Guided Backpropagation)在不同评估方法下的表现,发现评估结果不一致,并探讨了用户研究与数学指标在可解释AI评估中的互补性。

  • Motivation: 显著性图是解释神经网络分类的常用方法,但如何评估其效果尚无共识。研究旨在比较不同评估方法下显著性图的表现。
  • Method: 通过被试间研究(N=166),测试三种显著性图在主观用户信任、客观用户能力和数学指标上的表现,并分析指标间的关系。
  • Result: 评估方法结果不一致:主观信任无差异,Grad-CAM提升用户能力最佳,Guided Backpropagation数学指标最优;部分数学指标与用户理解相关但反直觉。
  • Conclusion: 研究强调了用户研究与数学指标在评估可解释AI方法时的互补性,需结合使用以全面评估效果。

[85] Psychological Effect of AI driven marketing tools for beauty/facial feature enhancement

Ayushi Agrawal,Aditya Kondai,Kavita Vemuri

Main category: cs.HC

TL;DR: AI面部评估工具对自我物化、自尊和情绪反应有显著影响,性别差异明显。

  • Motivation: 研究AI工具如何影响心理状态,尤其是自我物化和自尊,并关注性别差异。
  • Method: 使用两种版本的面部分析工具(批判性和中性),测量自我物化、自尊、情绪反应等指标。
  • Result: 高自我物化和低自尊与外观增强行为相关,中性工具仍引发负面情绪,性别差异显著。
  • Conclusion: AI工具可能强化社会偏见,需负责任设计;未来研究将探讨训练数据对输出的影响。

[86] Improving Human-Autonomous Vehicle Interaction in Complex Systems

Robert Kaufman

Main category: cs.HC

TL;DR: 论文探讨了自动驾驶车辆(AVs)如何满足乘客的信息需求,强调需根据个体差异和情境变化设计适应性通信系统。

  • Motivation: 当前AV研究忽视个体和情境差异,导致通信系统无法满足多样化需求,阻碍实际应用。
  • Method: 通过三项实证研究:1)极端驾驶环境中的通信策略优化;2)错误通信系统的后果分析;3)机器学习预测个人信任因素。
  • Result: 研究发现需任务敏感、情境适应和个性化的通信设计,以提升驾驶表现、信任和信心。
  • Conclusion: AV系统需透明、适应性强且个性化,以应对复杂人机交互需求,为设计和政策提供指导。

[87] Exploring Context-aware and LLM-driven Locomotion for Immersive Virtual Reality

Süleyman Özdel,Kadir Burak Buldu,Enkelejda Kasneci,Efe Bozkir

Main category: cs.HC

TL;DR: 提出了一种基于大型语言模型(LLM)的虚拟现实自然语言导航方法,与传统控制器和语音导航相比,具有相似的可用性和沉浸感,同时提升用户注意力。

  • Motivation: 传统语音导航依赖固定指令,限制了交互的自然性和灵活性,因此探索一种更自然的语言驱动导航方法。
  • Method: 比较三种导航方法:控制器传送、语音转向和LLM驱动的自然语言导航,通过眼动追踪和问卷调查评估用户体验。
  • Result: LLM导航在可用性、沉浸感和晕动症方面与传统方法相当,同时提升用户注意力,眼动数据显示不同的视觉注意模式。
  • Conclusion: LLM驱动的导航方法为虚拟现实提供了一种舒适、自然且无需手持设备的替代方案,尤其适用于无障碍场景。

[88] The Malicious Technical Ecosystem: Exposing Limitations in Technical Governance of AI-Generated Non-Consensual Intimate Images of Adults

Michelle L. Ding,Harini Suresh

Main category: cs.HC

TL;DR: 论文采用幸存者中心方法,分析AI技术治理在防止成人AI生成非自愿亲密图像(AIG-NCII)中的作用,揭示当前治理方法的不足。

  • Motivation: 探讨如何通过社会技术治理防止AIG-NCII的传播,揭示现有治理方法的缺陷。
  • Method: 识别恶意技术生态系统(MTE),并基于NIST AI 100-4报告分析当前治理方法的不足。
  • Result: 发现当前治理方法无法有效监管MTE,且存在错误的假设。
  • Conclusion: 需改进AI治理方法以应对AIG-NCII的挑战。

[89] INSIGHT: Bridging the Student-Teacher Gap in Times of Large Language Models

Jarne Thys,Sebe Vanbrabant,Davy Vanacken,Gustavo Rovelo Ruiz

Main category: cs.HC

TL;DR: 论文介绍了INSIGHT,一个结合多种AI工具辅助教学的概念验证,旨在通过动态构建FAQ和提供个性化支持优化教育体验。

  • Motivation: 探索AI在教育中的潜力,解决个性化教学与学生互动的挑战。
  • Method: 采用模块化设计的INSIGHT系统,通过分析学生问题关键词动态构建FAQ,为教师提供个性化支持。
  • Result: INSIGHT展示了AI辅助教学的可行性,未来可扩展为自适应学习系统。
  • Conclusion: INSIGHT为AI在教育中的应用提供了方向,未来需进一步优化以适应更广泛需求。

cs.LO

[90] Analyzing Value Functions of States in Parametric Markov Chains

Kasper Engelen,Guillermo A. Pérez,Shrisha Rao

Main category: cs.LO

TL;DR: 该论文提出了一种通过简化等价类来高效验证参数马尔可夫链(pMC)单调性的方法,并展示了其在减少模型规模和加速现有算法方面的实际效果。

  • Motivation: 尽管pMC的通用验证问题是coETR完全的,但通过研究其单调性等更易验证的性质,可以简化验证过程。
  • Method: 将单调性问题转化为状态可达概率的比较,并利用等价类折叠算法简化pMC模型。
  • Result: 实验表明,该方法能显著减少模型规模,并加速单调性和参数提升的验证。
  • Conclusion: 等价类折叠是一种高效的预处理步骤,可提升pMC验证的实用性。

cs.IR

[91] You Are What You Bought: Generating Customer Personas for E-commerce Applications

Yimin Shi,Yang Fei,Shiqi Zhang,Haixun Wang,Xiaokui Xiao

Main category: cs.IR

TL;DR: 论文提出了一种基于客户角色的显式用户表示方法GPLR,结合预训练LLM和随机游走技术,提高了推荐和客户分群的性能。

  • Motivation: 现有深度学习方法生成的用户嵌入难以理解和结合外部知识,限制了应用效果。
  • Method: 提出GPLR方法,利用预训练LLM推断客户角色,并通过随机游走技术扩展覆盖范围;进一步提出RevAff优化计算效率。
  • Result: 在三个真实电商数据集上,角色表示显著提升了推荐模型的NDCG@K和F1-Score@K,最高提升12%。
  • Conclusion: 客户角色表示提供了一种可读且高效的显式用户表示方法,显著提升了推荐和分群任务的性能。

q-bio.QM

[92] Automating tumor-infiltrating lymphocyte assessment in breast cancer histopathology images using QuPath: a transparent and accessible machine learning pipeline

Masoud Tafavvoghi,Lars Ailo Bongo,André Berli Delgado,Nikita Shvetsov,Anders Sildnes,Line Moi,Lill-Tove Rasmussen Busund,Kajsa Møllersen

Main category: q-bio.QM

TL;DR: 研究构建了一个端到端的肿瘤浸润淋巴细胞(TILs)评估流程,利用QuPath实现全自动复杂任务,验证了现有软件的实用性。

  • Motivation: 探索如何利用易获取工具(如QuPath)自动完成复杂的TILs评估任务,为乳腺癌H&E染色全切片图像(WSI)分析提供实用解决方案。
  • Method: 1. 训练像素分类器分割肿瘤、肿瘤相关间质等组织;2. 使用预训练的StarDist模型检测细胞并训练二元分类器区分TILs;3. 计算TIL密度并分类为低、中、高。
  • Result: 与病理学家评分对比,Cohen's kappa为0.71,验证了流程的可靠性。
  • Conclusion: 现有软件可为乳腺癌H&E染色WSI的TILs评估提供实用解决方案。

cs.SI

[93] S2Vec: Self-Supervised Geospatial Embeddings

Shushman Choudhury,Elad Aharoni,Chandrakumari Suvarna,Iveel Tsogsuren,Abdul Rahman Kreidieh,Chun-Ta Lu,Neha Arora

Main category: cs.SI

TL;DR: S2Vec是一种自监督框架,用于学习通用的地理空间嵌入,通过S2几何库分区和掩码自编码技术生成任务无关的嵌入,并在社会经济预测任务中表现优异。

  • Motivation: 构建可扩展的通用地理空间表示对地理空间人工智能应用至关重要。
  • Method: 使用S2 Geometry库将大区域划分为离散的S2单元,将特征向量栅格化为图像,并应用掩码自编码技术生成嵌入。
  • Result: 在三个大规模社会经济预测任务中表现优异,且与图像嵌入结合可进一步提升性能。
  • Conclusion: S2Vec能有效学习通用地理空间表示,并与其他数据模态互补。

[94] MobileCity: An Efficient Framework for Large-Scale Urban Behavior Simulation

Xiaotong Ye,Nicolas Bougie,Toshihiko Yamasaki,Narimasa Watanabe

Main category: cs.SI

TL;DR: 提出了一种可扩展的生成代理框架,用于模拟现代城市中复杂的交通选择和大规模人口行为。

  • Motivation: 现有方法在模拟城市交通选择时过于简化,且计算资源需求高,难以支持大规模人口模拟。
  • Method: 构建虚拟城市模型,结合调查数据建模行为选择,开发可扩展的仿真框架。
  • Result: 实现了4000多个代理的模拟,并通过微观和宏观分析验证了生成行为的真实性。
  • Conclusion: 该框架在复杂性和可扩展性上取得平衡,为城市行为模拟提供了新思路。

[95] SCRAG: Social Computing-Based Retrieval Augmented Generation for Community Response Forecasting in Social Media Environments

Dachun Sun,You Lyu,Jinning Li,Yizhuo Chen,Tianshi Wang,Tomoyoshi Kimura,Tarek Abdelzaher

Main category: cs.SI

TL;DR: SCRAG是一个基于社交计算的预测框架,用于预测社区对社交媒体帖子的反应,结合了LLM和RAG技术,实验显示性能提升显著。

  • Motivation: 解决LLM在动态社交媒体环境中预测社区反应的局限性,如静态数据和幻觉问题。
  • Method: 整合LLM与RAG技术,检索历史社区反应和外部知识,用于预测新帖子的社区反应。
  • Result: 在X平台上六种场景的实验中,关键指标平均提升超过10%。
  • Conclusion: SCRAG为需要准确预测社区反应的应用提供了有效的社交计算工具。

physics.geo-ph

[96] On the workflow, opportunities and challenges of developing foundation model in geophysics

Hanlin Sheng,Xinming Wu,Hang Gao,Haibin Di,Sergey Fomel,Jintao Li,Xu Si

Main category: physics.geo-ph

TL;DR: 本文提出了一个完整框架,系统探讨了基础模型与地球物理数据结合的全流程,填补了该领域缺乏全面综述的空白。

  • Motivation: 地球物理领域基础模型应用逐渐扩展,但缺乏对其全流程的综述,本文旨在填补这一空白。
  • Method: 从数据收集、预处理到模型架构选择、预训练策略及部署,详细分析各阶段关键技术,并针对地球物理数据特点提出解决方案。
  • Result: 通过总结当前技术现状,提供了基础模型在地球物理数据分析中的实用指导。
  • Conclusion: 本文不仅填补了综述空白,还推动了基础模型在地球物理领域的创新与进步。

cs.CE

[97] Data-Driven Surrogate Modeling Techniques to Predict the Effective Contact Area of Rough Surface Contact Problems

Tarik Sahin,Jacopo Bonari,Sebastian Brandstaeter,Alexander Popp

Main category: cs.CE

TL;DR: 该研究提出了一种基于数据驱动技术的替代建模框架,用于预测粗糙表面接触中的有效接触面积,解决了传统数值方法计算成本高的问题。

  • Motivation: 粗糙表面接触中的有效接触面积对多物理现象(如磨损、密封、热或电传导)至关重要,但传统数值方法(如边界元法)计算成本高,限制了其在多查询场景中的应用。
  • Method: 研究使用多种机器学习算法训练预计算数据集,输入为施加的载荷和统计粗糙度参数,输出为有效接触面积,并通过超参数优化比较模型的预测准确性和计算效率。
  • Result: 核岭回归器在准确性和效率之间表现出最佳平衡,而高斯过程回归器在需要不确定性量化时是一个有吸引力的替代方案。
  • Conclusion: 该替代建模框架在多查询任务中实用且高效,核岭回归器具有泛化能力,适用于新配置。

cs.CY

[98] Intrinsic Barriers to Explaining Deep Foundation Models

Zhen Tan,Huan Liu

Main category: cs.CY

TL;DR: 论文探讨深度基础模型(DFMs)的可解释性是否存在内在障碍,而非仅是技术挑战。

  • Motivation: 随着DFMs复杂性增加,理解其内部机制对信任、安全和问责至关重要,但当前解释方法面临根本性限制。
  • Method: 通过分析DFMs的基本特性和当前可解释性方法的局限性,探究其内在挑战。
  • Result: 研究发现DFMs的可解释性问题可能源于其大规模模型的本质,而非技术不足。
  • Conclusion: 需重新思考如何验证和治理DFMs,以应对其内在解释性障碍。

[99] Approaches to Responsible Governance of GenAI in Organizations

Dhari Gandhi,Himanshu Joshi,Lucas Hartman,Shabnam Hassani

Main category: cs.CY

TL;DR: 论文提出了一种基于风险的责任生成AI治理框架(ResAI),旨在平衡创新与监管。

  • Motivation: 生成AI快速发展带来伦理、问责和社会影响等挑战,需建立适应性治理框架。
  • Method: 结合文献综述、治理框架和行业圆桌讨论,提出核心治理原则。
  • Result: 强调适应性风险评估工具、持续监控和跨部门协作的必要性。
  • Conclusion: ResAI指南为组织提供伦理、法律和操作最佳实践的结构化基础。

[100] Towards User-Centred Design of AI-Assisted Decision-Making in Law Enforcement

Vesna Nowack,Dalal Alrajeh,Carolina Gutierrez Muñoz,Katie Thomas,William Hobson,Catherine Hamilton-Giachritsis,Patrick Benjamin,Tim Grant,Juliane A. Kloess,Jessica Woodhams

Main category: cs.CY

TL;DR: 论文探讨了AI在法律执法领域的应用需求,强调系统需高效处理数据、满足可扩展性、准确性等要求,并指出完全自动化难以实现。

  • Motivation: 研究旨在明确法律执法机构中AI辅助系统的用户需求,填补现有设计中的空白。
  • Method: 通过定性研究,分析法律执法机构决策过程中的局限性和用户需求。
  • Result: 用户需求包括高效数据处理、系统可扩展性、准确性、可解释性及适应性,同时强调人工参与的重要性。
  • Conclusion: 法律执法领域的动态复杂性决定了AI系统难以完全自动化,需结合人工监督与反馈。

[101] Seeing The Words: Evaluating AI-generated Biblical Art

Hidde Makimei,Shuai Wang,Willem van Peursen

Main category: cs.CY

TL;DR: 本文探讨了AI生成图像在圣经文本中的应用,并提供了一个包含7K图像的数据集,通过多种神经网络工具评估其准确性、宗教背景和美学价值。

  • Motivation: 研究AI是否能根据圣经文本生成符合其背景和语境的图像,填补了系统性评估的空白。
  • Method: 创建大型数据集(7K图像),使用多种神经网络工具评估生成图像的准确性、宗教背景和美学。
  • Result: 提供了对生成图像准确性的评估,并从宗教和美学角度进行了分析。
  • Conclusion: 讨论了生成图像的应用,并反思了AI生成器的表现。

cs.DC

[102] Optimized Cloud Resource Allocation Using Genetic Algorithms for Energy Efficiency and QoS Assurance

Caroline Panggabean,Devaraj Verma C,Bhagyashree Gogoi,Ranju Limbu,Rhythm Sarker

Main category: cs.DC

TL;DR: 本文提出了一种基于遗传算法(GA)的虚拟机(VM)放置与整合方法,旨在降低能耗并满足服务质量(QoS)约束。

  • Motivation: 云计算环境需要动态高效的资源管理,以确保性能优化、能耗降低和服务级别协议(SLA)的遵守。
  • Method: 采用遗传算法动态调整虚拟机分配,根据实时工作负载变化优化资源使用。
  • Result: 实验结果显示,该方法在能耗、虚拟机迁移、SLA违规率和执行时间方面显著优于传统启发式算法(如FFD和BFD)。
  • Conclusion: 通过相关性热图验证了该方法的有效性,表明其在优化云资源利用方面的优势。

q-bio.BM

[103] Deciphering the unique dynamic activation pathway in a G protein-coupled receptor enables unveiling biased signaling and identifying cryptic allosteric sites in conformational intermediates

Jigang Fan,Chunhao Zhu,Xiaobing Lan,Haiming Zhuang,Mingyu Li,Jian Zhang,Shaoyong Lu

Main category: q-bio.BM

TL;DR: 研究揭示了NTSR1的动态逐步激活机制和信号偏向性,发现了一个潜在的全新变构位点,为开发治疗成瘾相关疾病的药物提供了新思路。

  • Motivation: 探索NTSR1的激活机制和偏向信号传导,以开发针对成瘾相关疾病的潜在治疗策略。
  • Method: 结合分子动力学模拟、马尔可夫状态模型、时间通信网络分析、定点突变和构象生物传感器等方法。
  • Result: 揭示了NTSR1的动态激活机制和信号网络,发现了一个中间态的全新变构位点。
  • Conclusion: 研究为NTSR1的原子水平理解和药物开发提供了重要基础。

cs.SE

[104] Automatically Generating Rules of Malicious Software Packages via Large Language Model

XiangRui Zhang,HaoYu Chen,Yongzhong He,Wenjia Niu,Qiang Li

Main category: cs.SE

TL;DR: RuleLLM利用大型语言模型自动生成开源软件生态系统的安全规则,显著提升了检测恶意软件包的能力。

  • Motivation: 当前安全工具依赖专家预定义规则,难以应对软件供应链攻击的快速变化。
  • Method: RuleLLM通过提取恶意软件的元数据和代码片段,生成可直接部署的YARA和Semgrep规则,包括规则生成、优化和对齐三个子任务。
  • Result: 在1,633个恶意软件包数据集上,RuleLLM生成了763条规则(452 YARA和311 Semgrep),精确率为85.2%,召回率为91.8%,优于现有工具。
  • Conclusion: RuleLLM展示了自动化规则生成的潜力,并提出了一套规则分类法(11类38子类)。

[105] Towards Leveraging Large Language Model Summaries for Topic Modeling in Source Code

Michele Carissimi,Martina Saletta,Claudio Ferretti

Main category: cs.SE

TL;DR: 论文提出了一种结合大语言模型(LLM)和主题建模的新方法,用于自动识别Python程序中的主题,并通过实验验证了其有效性。

  • Motivation: 理解源代码对软件工程任务(如维护和重用)至关重要,现有技术(如LLM和主题建模)的结合可能提供更丰富的语义信息。
  • Method: 通过LLM生成代码摘要,再应用主题建模技术提取主题,并与基于函数名和现有文档的主题进行比较。
  • Result: 实验表明,LLM生成的摘要能提供更具解释性和语义丰富的代码结构表示。
  • Conclusion: 该方法可应用于自动文档生成、代码搜索等软件工程任务,具有广阔的应用前景。

[106] Detection, Classification and Prevalence of Self-Admitted Aging Debt

Murali Sridharan,Mika Mäntylä,Leevi Rantala

Main category: cs.SE

TL;DR: 论文提出‘老化债务’(AD)概念,通过源代码注释中的‘自认老化债务’(SAAD)研究软件老化,并提出分类法量化开源软件中的AD类型。

  • Motivation: 现有研究多关注运行时指标,忽视源代码注释等进化指标,且对技术债务(TD)背景下的老化问题研究不足。
  • Method: 采用混合方法,结合定性与定量分析,从源代码注释中提取SAAD模式并分类,量化开源软件中的AD。
  • Result: 分类法将软件老化分为活跃与休眠两类,分析9000+开源仓库发现21%存在SAAD,休眠AD为主要类型。
  • Conclusion: 软件规模增长伴随老化问题,分类法有助于深入研究并为维护策略提供支持。

cs.LG

[107] Backslash: Rate Constrained Optimized Training of Large Language Models

Jun Wu,Jiangtao Wen,Yuxing Han

Main category: cs.LG

TL;DR: 论文提出了一种名为Backslash的训练时压缩方法,通过率失真优化实现模型精度与复杂度的灵活权衡,显著减少参数冗余且保持性能。

  • Motivation: 大型语言模型(LLMs)的参数压缩研究主要集中在训练后阶段,而训练阶段的压缩仍未被充分探索。
  • Method: 采用率失真优化(RDO)的Rate-Constrained Training(Backslash)方法,在训练过程中动态压缩参数。
  • Result: 实验显示Backslash可减少60%-90%内存占用且无精度损失,优于训练后压缩,并增强泛化性、鲁棒性和边缘设备推理效率。
  • Conclusion: Backslash是一种高效、灵活的训练时压缩方法,适用于多种架构和任务,具有广泛的应用潜力。

[108] Unsupervised Time-Series Signal Analysis with Autoencoders and Vision Transformers: A Review of Architectures and Applications

Hossein Ahmadi,Sajjad Emdadi Mahdimahalleh,Arman Farahat,Banafsheh Saffari

Main category: cs.LG

TL;DR: 综述了自编码器和视觉变换器在无监督信号分析中的最新进展,探讨了其架构、应用及趋势。

  • Motivation: 无标签时间序列数据的快速增长推动了无监督学习的发展,尤其在无线通信、雷达、生物医学工程和物联网等领域。
  • Method: 通过自编码器和视觉变换器进行特征提取、异常检测和分类,重点关注混合架构和自监督学习。
  • Result: 展示了这些模型在多种信号类型(如心电图、雷达波形和物联网传感器数据)中的应用潜力。
  • Conclusion: 提出了开发鲁棒、自适应信号智能模型的路线图,同时指出了可解释性、可扩展性和领域泛化等挑战。

[109] (Im)possibility of Automated Hallucination Detection in Large Language Models

Amin Karbasi,Omar Montasser,John Sous,Grigoris Velegkas

Main category: cs.LG

TL;DR: 论文探讨了自动检测大型语言模型(LLM)幻觉的可能性,通过理论框架分析其可行性,并证明在仅使用正确样本训练时检测不可行,但加入专家标注的负样本后检测变为可能。

  • Motivation: 研究动机是解决LLM生成内容中幻觉的自动检测问题,为实际应用提供理论支持。
  • Method: 方法包括将幻觉检测与语言识别任务等价化,并分析不同训练数据(仅正样本vs正负样本)对检测可行性的影响。
  • Result: 结果表明,仅用正样本训练时检测不可行,但加入负样本后检测对所有可数语言集合变为可能。
  • Conclusion: 结论强调了专家标注样本在训练幻觉检测器中的关键作用,支持基于反馈的方法(如RLHF)。

[110] Democracy of AI Numerical Weather Models: An Example of Global Forecasting with FourCastNetv2 Made by a University Research Lab Using GPU

Iman Khadir,Shane Stevenson,Henry Li,Kyle Krick,Abram Burrows,David Hall,Stan Posey,Samuel S. P. Shen

Main category: cs.LG

TL;DR: 本文探讨了利用GPU和免费AI模型(如NVIDIA的FourCastNetv2)在大学研究群体中普及AI驱动的全球天气预报模型的可行性,并展示了其能力与限制。

  • Motivation: 传统数值天气预报(NWP)成本高且耗时,而AI模型(如FourCastNetv2)能显著降低时间和成本。然而,资源有限的研究团队在复现结果时面临挑战。本文旨在帮助大学研究群体克服这些障碍。
  • Method: 通过FourCastNetv2的API生成预测,并利用NVIDIA硬件训练原始FourCastNet模型。同时探讨了数据管理、训练效率和模型验证。
  • Result: 展示了NVIDIA A100在资源有限的研究群体中的能力与限制,并提供了相关GitHub材料作为研究指南。
  • Conclusion: 本文为大学研究群体和课程提供了AI天气预报的研究和教育资源,有助于在数字经济中普及AI驱动的NWP。

[111] Statistical Guarantees in Synthetic Data through Conformal Adversarial Generation

Rahul Vishwakarma

Main category: cs.LG

TL;DR: 论文提出了一种结合共形预测与生成对抗网络(GANs)的新框架(cGAN),以解决合成数据统计保真度和不确定性量化的问题。

  • Motivation: 现有生成模型缺乏对生成样本与底层数据分布关系的严格统计保证,限制了其在关键领域的应用。
  • Method: 通过整合多种共形预测方法(如ICP、Mondrian、Cross-Conformal和Venn-Abers预测器),提出了Conformalized GAN(cGAN)框架。
  • Result: cGAN在保持传统GAN生成能力的同时,增强了校准特性,生成具有可证明统计保证的合成数据。
  • Conclusion: cGAN为高风险领域(如医疗、金融和自动驾驶)提供了可靠的合成数据生成方法。

[112] Scalable Permutation-Aware Modeling for Temporal Set Prediction

Ashish Ranjan,Ayush Agarwal,Shalin Barot,Sushant Kumar

Main category: cs.LG

TL;DR: 提出了一种新颖且可扩展的框架,利用置换等变和置换不变变换高效建模集合动态,显著减少训练和推理时间,同时保持竞争力。

  • Motivation: 现有方法依赖复杂架构,计算开销大,限制了可扩展性。
  • Method: 使用置换等变和置换不变变换建模集合动态。
  • Result: 在多个公共基准测试中表现优于或与最先进模型相当。
  • Conclusion: 该模型实现了高效且可扩展的时序集合预测。

[113] OUI Need to Talk About Weight Decay: A New Perspective on Overfitting Detection

Alberto Fernández-Hernández,Jose I. Mestre,Manuel F. Dolz,Jose Duato,Enrique S. Quintana-Ortí

Main category: cs.LG

TL;DR: OUI是一种新工具,用于监控DNN训练动态并优化正则化超参数,无需验证数据即可判断过拟合或欠拟合。

  • Motivation: 传统方法依赖验证数据调整超参数,效率低且耗时。OUI旨在提供更快速、准确的超参数选择方法。
  • Method: 通过实验验证OUI在多种DNN和数据集(如DenseNet、EfficientNet、ResNet)上的有效性,指导WD超参数选择。
  • Result: OUI能快速收敛,显著优于传统指标,帮助早期识别最佳WD值,提升泛化性能。
  • Conclusion: OUI是一种高效工具,可优化正则化超参数,适用于多种DNN和数据集。

[114] Synthetic Power Flow Data Generation Using Physics-Informed Denoising Diffusion Probabilistic Models

Junfei Wang,Darshana Upadhyay,Marzia Zaman,Pirathayini Srikantha

Main category: cs.LG

TL;DR: 本文提出了一种基于DDPM的物理信息生成框架,用于合成可行的电力潮流数据,解决了实际数据受限的问题。

  • Motivation: 智能电网中许多数据驱动模块依赖高质量的电力潮流数据,但实际数据常因隐私和操作限制而不足。
  • Method: 采用DDPM框架,结合辅助训练和物理信息损失函数,确保生成数据具有统计保真度和电力系统可行性。
  • Result: 在IEEE 14-bus和30-bus系统上验证,模型在可行性、多样性和统计特征准确性上优于基线模型。
  • Conclusion: 该工作展示了生成模型在数据驱动电力系统应用中的潜力。

[115] Enhancing Variational Autoencoders with Smooth Robust Latent Encoding

Hyomin Lee,Minseon Kim,Sangwon Jang,Jongheon Jeong,Sung Ju Hwang

Main category: cs.LG

TL;DR: SRL-VAE是一种新型对抗训练框架,通过平滑潜在空间提升生成质量和鲁棒性,同时保持原始保真度。

  • Motivation: 现有对抗训练方法在生成模型中因担心性能与鲁棒性权衡而被忽视,本文挑战这一假设。
  • Method: 引入SRL-VAE,通过对抗扰动平滑潜在空间,结合原始表示正则化以维持保真度。
  • Result: 实验表明SRL-VAE在图像重建、文本引导编辑及对抗攻击中均提升质量和鲁棒性。
  • Conclusion: 对抗训练可同时增强生成模型的保真度和鲁棒性,颠覆传统认知。

[116] NeuralGrok: Accelerate Grokking by Neural Gradient Transformation

Xinyu Zhou,Simin Fan,Martin Jaggi,Jie Fu

Main category: cs.LG

TL;DR: NeuralGrok是一种基于梯度的新方法,通过动态调整梯度分量加速Transformer在算术任务中的泛化。

  • Motivation: 研究Grokking现象,即模型在长时间过拟合后突然泛化,提出加速泛化的方法。
  • Method: 训练辅助模块(如MLP块)与基础模型结合,通过双层优化算法动态调整梯度分量。
  • Result: NeuralGrok显著加速泛化,尤其在算术任务中,同时降低模型复杂度并提升训练稳定性。
  • Conclusion: NeuralGrok通过减少模型复杂度促进泛化,为理解Transformer的Grokking现象提供了新视角。

[117] Targeted AMP generation through controlled diffusion with efficient embeddings

Diogo Soares,Leon Hetzel,Paulina Szymczak,Fabian Theis,Stephan Günnemann,Ewa Szczurek

Main category: cs.LG

TL;DR: OmegAMP是一个基于扩散模型的框架,用于生成具有特定性质的抗菌肽(AMP),解决了低实验命中率和可控性等问题。

  • Motivation: 解决深度学习在AMP发现中的低实验命中率和可控性不足的问题。
  • Method: 利用扩散生成模型结合低维嵌入、精确控制机制和新型分类器。
  • Result: OmegAMP在AMP发现流程中表现优异,显著提升了计算框架对抗菌耐药性的潜力。
  • Conclusion: OmegAMP为AMP发现提供了高效、可控且多样化的解决方案。

[118] Symbolic Representation for Any-to-Any Generative Tasks

Jiaqi Chen,Xiaoye Zhu,Yue Wang,Tianyang Liu,Xinhui Chen,Ying Chen,Chak Tou Leong,Yifei Ke,Joseph Liu,Yiwen Yuan,Julian McAuley,Li-jia Li

Main category: cs.LG

TL;DR: 提出了一种符号化生成任务描述语言及推理引擎,通过结构化符号流表示多模态任务,无需大规模训练,具有高效性和灵活性。

  • Motivation: 传统生成模型依赖大规模训练和隐式神经表示,计算成本高且灵活性有限,因此需要一种显式符号化表示方法。
  • Method: 引入三种核心符号原语(函数、参数和拓扑逻辑),利用预训练语言模型将自然语言指令直接映射为符号化工作流。
  • Result: 在12种多模态生成任务中表现优异,性能与现有统一模型相当或更优,同时具备更高效率、可编辑性和可中断性。
  • Conclusion: 符号化任务表示为生成AI提供了一种成本效益高且可扩展的基础。

[119] ExOSITO: Explainable Off-Policy Learning with Side Information for Intensive Care Unit Blood Test Orders

Zongliang Ji,Andre Carlos Kajdacsy-Balla Amaral,Anna Goldenberg,Rahul G. Krishnan

Main category: cs.LG

TL;DR: 提出了一种结合离策略学习和特权信息的新方法ExOSITO,用于优化ICU实验室测试订单,减少过度订购,同时确保关键测试不被遗漏。

  • Motivation: ICU中实验室测试的过度订购增加了临床负担和成本,需要一种平衡信息获取与资源优化的方法。
  • Method: 结合离策略学习和特权信息,提出ExOSITO框架,通过因果赌博机问题和临床规则奖励函数,生成可解释的测试订单策略。
  • Result: ExOSITO优于医生策略和现有方法,减少成本且不遗漏关键测试。
  • Conclusion: ExOSITO为ICU实验室测试订单提供了一种高效、可解释的辅助工具。

[120] Collaborative Multi-Agent Reinforcement Learning for Automated Feature Transformation with Graph-Driven Path Optimization

Xiaohan Huang,Dongjie Wang,Zhiyuan Ning,Ziyue Qiao,Qingqing Long,Haowei Zhu,Yi Du,Min Wu,Yuanchun Zhou,Meng Xiao

Main category: cs.LG

TL;DR: TCTO是一种基于多智能体强化学习的特征工程框架,通过图驱动的路径优化自动化特征转换,动态建模特征依赖关系并提升性能。

  • Motivation: 现有特征转换方法忽略了转换步骤间的动态依赖关系,导致性能受限。
  • Method: 提出TCTO框架,利用交互图建模特征和转换,通过图剪枝和回溯优化路径。
  • Result: 实验表明TCTO在多个数据集上表现优异。
  • Conclusion: TCTO通过动态图优化和子图重用,显著提升了特征工程的效率和效果。

[121] Towards Harnessing the Collaborative Power of Large and Small Models for Domain Tasks

Yang Liu,Bingjie Yan,Tianyuan Zou,Jianqing Zhang,Zixuan Gu,Jianbing Ding,Xidong Wang,Jingyi Li,Xiaozhou Ye,Ye Ouyang,Qiang Yang,Ya-Qin Zhang

Main category: cs.LG

TL;DR: 论文主张大模型与小模型协同合作,以加速大模型在私有领域的适应并释放AI新潜力。

  • Motivation: 大模型需要大量数据和计算资源,而小模型虽能力较弱但更高效且适合特定领域。
  • Method: 探讨大模型与小模型协同的策略,分析挑战与机遇。
  • Result: 提出行业驱动的研究,强调在真实私有数据集和应用上的多目标基准测试。
  • Conclusion: 协同方法能有效结合大模型与小模型的优势,推动AI发展。

[122] HMI: Hierarchical Knowledge Management for Efficient Multi-Tenant Inference in Pretrained Language Models

Jun Zhang,Jue Wang,Huan Li,Lidan Shou,Ke Chen,Gang Chen,Qin Xie,Guiming Xie,Xuejian Gong

Main category: cs.LG

TL;DR: HMI是一种基于分层知识管理的多租户推理系统,通过分层管理PLM知识,显著减少GPU内存使用,支持高效服务大量租户。

  • Motivation: 预训练语言模型(PLM)的高计算需求在多租户环境中效率低下,亟需资源高效的管理方案。
  • Method: 1. 将PLM知识分为通用、领域特定和任务特定三类,构建分层PLM(hPLM);2. 通过频率更新领域知识树和参数交换管理任务知识;3. 系统优化包括分层知识预取和批量矩阵乘法并行实现。
  • Result: 实验表明,HMI可在单GPU上高效服务10,000个hPLM,精度损失可忽略。
  • Conclusion: HMI通过分层知识管理和系统优化,显著提升了多租户环境中PLM的资源效率和推理吞吐量。

[123] Group Downsampling with Equivariant Anti-aliasing

Md Ashiqur Rahman,Raymond A. Yeh

Main category: cs.LG

TL;DR: 研究了在群等变架构(如G-CNNs)中均匀下采样层的泛化问题,提出了一种在有限群上进行抗混叠下采样的方法,并验证了其在图像分类任务中的有效性。

  • Motivation: 下采样层是CNN架构中的关键组成部分,但现有方法在群等变架构中的泛化能力有限,需要一种适用于一般有限群的抗混叠下采样方法。
  • Method: 提出了一种算法选择子群,并研究了带限概念,设计了抗混叠下采样方法,泛化了经典采样理论。
  • Result: 实验表明,该方法在图像分类任务中提高了准确性,更好地保持了等变性,并减少了模型大小。
  • Conclusion: 该方法成功将经典下采样理论推广到群等变架构中,为相关研究提供了新思路。

[124] Evaluating Time Series Models for Urban Wastewater Management: Predictive Performance, Model Complexity and Resilience

Vipin Singh,Tianheng Ling,Teodor Chiaburu,Felix Biessmann

Main category: cs.LG

TL;DR: 论文提出了一种评估神经网络架构用于城市合流制排水系统(CSS)时间序列预测的协议,重点考察预测性能、模型复杂性和抗干扰能力。结果表明,全局模型预测性能更高,而局部模型在分散场景中更具韧性。

  • Motivation: 气候变化导致极端降雨频率增加,给城市基础设施(尤其是CSS)带来压力,传统物理模型成本高且难以适应动态变化,机器学习(ML)提供了更具成本效益和适应性的替代方案。
  • Method: 提出评估协议,比较全局模型和局部模型的性能,并引入误差模型评估模型对网络中断或对抗攻击的韧性。
  • Result: 全局模型预测性能更高,局部模型在分散场景中更具韧性;具有更长预测视野的模型对数据扰动更具鲁棒性。
  • Conclusion: 研究为可持续城市废水管理提供了可解释且可靠的ML解决方案,相关实现已在GitHub开源。

[125] Class-Conditional Distribution Balancing for Group Robust Classification

Miaoyun Zhao,Qiang Zhang,Chenrong Li

Main category: cs.LG

TL;DR: 论文提出了一种无需偏置标注或预测的鲁棒学习方法,通过重新加权样本平衡类条件分布,有效消除虚假相关性。

  • Motivation: 虚假相关性导致模型基于错误原因做出预测,现有方法依赖昂贵的偏置标注或大规模数据,难以适用于资源有限的领域。
  • Method: 通过样本重新加权策略平衡类条件分布,减少虚假因素与标签信息的互信息,自动突出少数群体和类别。
  • Result: 实验表明,该方法性能优异,媲美依赖偏置监督的方法。
  • Conclusion: 该方法简单有效,无需额外标注或数据,适用于资源受限领域。

[126] GRANITE : a Byzantine-Resilient Dynamic Gossip Learning Framework

Yacine Belal,Mohamed Maouche,Sonia Ben Mokhtar,Anthony Simonet-Boulogne

Main category: cs.LG

TL;DR: GRANITE框架通过历史感知的拜占庭抗性对等采样协议(HaPS)和自适应概率阈值(APT),在稀疏动态图上实现鲁棒学习,抵御高达30%的拜占庭节点攻击。

  • Motivation: 解决Gossip Learning(GL)在动态通信图中对拜占庭攻击(模型投毒)的鲁棒性问题,尤其是当拜占庭节点攻击RPS协议以扩大模型投毒时。
  • Method: 结合HaPS协议(跟踪历史标识以减少对抗影响)和APT(基于拜占庭节点估计设置聚合阈值)。
  • Result: GRANITE在高达30%拜占庭节点下仍能保持收敛,学习速度更快,且支持比现有理论稀疏9倍的图。
  • Conclusion: GRANITE为动态稀疏图上的鲁棒学习提供了有效解决方案,显著提升了抗攻击能力和学习效率。

[127] Plasticine: Accelerating Research in Plasticity-Motivated Deep Reinforcement Learning

Mingqi Yuan,Qi Wang,Guozheng Ma,Bo Li,Xin Jin,Yunbo Wang,Xiaokang Yang,Wenjun Zeng,Dacheng Tao

Main category: cs.LG

TL;DR: Plasticine是一个开源框架,用于评估深度强化学习中的可塑性优化,提供多种方法和指标。

  • Motivation: 开发终身学习代理对通用人工智能至关重要,但深度强化学习系统常因可塑性损失而难以适应。
  • Method: Plasticine框架集成了13种缓解方法、10种评估指标,并设计了不同非平稳性的学习场景。
  • Result: 该框架能系统量化可塑性损失、评估缓解策略,并分析不同情境下的可塑性动态。
  • Conclusion: Plasticine为研究者提供了统一的可塑性优化基准和评估工具。

[128] The effects of Hessian eigenvalue spectral density type on the applicability of Hessian analysis to generalization capability assessment of neural networks

Nikita Gabdullin

Main category: cs.LG

TL;DR: 本文研究了神经网络Hessian矩阵特征值谱密度(HESD)的类型及其对泛化能力的影响,提出了统一的HESD分析方法。

  • Motivation: 探讨HESD行为对神经网络泛化能力的指示作用,并研究影响HESD类型的因素。
  • Method: 通过实验分析不同优化器、数据集及预处理方法下的HESD类型,提出判断HESD类型的条件。
  • Result: 发现HESD主要为正(MP-HESD)或负(MN-HESD),后者与外部梯度操作相关;提出统一分析方法。
  • Conclusion: HESD类型和泛化准则可结合为统一方法,但需注意QS-HESD对传统假设的影响。

[129] Goal-Oriented Time-Series Forecasting: Foundation Framework Design

Luca-Andrei Fechete,Mohamed Sana,Fadhel Ayed,Nicola Piovesan,Wenjie Li,Antonio De Domenico,Tareq Si Salem

Main category: cs.LG

TL;DR: 提出了一种动态调整预测范围重要性的新训练方法,提升预测精度和应用性能。

  • Motivation: 传统时间序列预测仅关注最小化预测误差,忽略了实际应用中对预测范围的具体需求。
  • Method: 将整个信号范围的预测分解为小段,动态加权组合以生成准确预测。
  • Result: 在标准数据集和新无线通信数据集上测试,提高了预测精度和应用性能。
  • Conclusion: 为创建更紧密连接预测与决策的预测系统提供了基础。

[130] Combining GCN Structural Learning with LLM Chemical Knowledge for or Enhanced Virtual Screening

Radia Berreziga,Mohammed Brahimi,Khairedine Kraim,Hamid Azzoune

Main category: cs.LG

TL;DR: 本文提出了一种结合图卷积网络(GCN)和大语言模型(LLM)嵌入的混合架构,用于虚拟筛选,显著提升了性能。

  • Motivation: 传统机器学习方法依赖预定义的分子表示,可能导致信息丢失和偏差,而深度学习方法如GCN和LLM提供了更优的解决方案。
  • Method: 通过将LLM嵌入与GCN逐层结合,实现了局部结构学习和全局化学知识的融合。
  • Result: 混合模型F1得分达88.8%,优于单独GCN(87.9%)、XGBoost(85.5%)和SVM(85.4%)。
  • Conclusion: 混合架构有效整合了局部与全局信息,显著提升了虚拟筛选性能。

[131] Aerial Image Classification in Scarce and Unconstrained Environments via Conformal Prediction

Farhad Pourkamali-Anaraki

Main category: cs.LG

TL;DR: 本文通过实证分析研究了在复杂真实环境中使用共形预测方法的效果,重点关注数据稀缺和高变异性场景,并探讨了预训练模型和校准技术的影响。

  • Motivation: 研究共形预测在数据稀缺和高变异性真实场景中的有效性,填补标准基准测试的不足。
  • Method: 使用预训练模型(MobileNet、DenseNet、ResNet)微调有限标记数据,评估两种校准管道(带和不带温度缩放),并分析覆盖率和预测集大小。
  • Result: 共形预测即使在小样本和简单非共形分数下也能提供有价值的预测集;温度缩放不总能缩小预测集,需谨慎使用。
  • Conclusion: 未来研究应关注噪声标签对共形预测的影响,并探索模型压缩技术的潜力。

[132] TACO: Tackling Over-correction in Federated Learning with Tailored Adaptive Correction

Weijie Liu,Ziwei Zhan,Carlee Joe-Wong,Edith Ngai,Jingpu Duan,Deke Guo,Xu Chen,Xiaoxi Zhang

Main category: cs.LG

TL;DR: 论文提出TACO算法,解决联邦学习中非独立同分布数据导致的过校正问题,通过细粒度梯度校正和模型聚合提升性能。

  • Motivation: 现有联邦学习方法在处理非独立同分布数据时采用统一的模型校正系数,导致隐藏的过校正现象,影响模型性能和收敛。
  • Method: 提出TACO算法,实现细粒度的客户端梯度校正和模型聚合,减少计算开销。
  • Result: TACO在多种数据集上表现优异,收敛分析揭示了过校正的根源。
  • Conclusion: TACO通过轻量级校正和聚合方法,显著提升了联邦学习的性能和效率。

[133] Learning Isometric Embeddings of Road Networks using Multidimensional Scaling

Juan Carlos Climent Pardo

Main category: cs.LG

TL;DR: 论文提出利用图表示和多维缩放(MDS)技术解决自动驾驶中学习泛化不足的问题,以覆盖更多道路场景。

  • Motivation: 当前基于学习的自动驾驶应用泛化能力有限,难以应对多样化的道路场景和动态环境变化。
  • Method: 采用图表示道路网络,并结合多维缩放(MDS)技术设计特征空间,以支持更广泛的场景覆盖。
  • Result: 分析了先进的图表示和MDS方法,并探讨了图节点嵌入以简化学习过程和降维的可能性。
  • Conclusion: 通过图表示和MDS技术,可以提升自动驾驶系统的泛化能力,适应复杂多变的道路环境。

[134] Decentralized Time Series Classification with ROCKET Features

Bruno Casella,Matthias Jakobs,Marco Aldinucci,Sebastian Buschjäger

Main category: cs.LG

TL;DR: DROCKS是一个完全去中心化的联邦学习框架,用于时间序列分类(TSC),通过ROCKET特征和节点间的结构化路径训练全局模型,优于现有客户端-服务器架构方法。

  • Motivation: 解决传统联邦学习中客户端-服务器架构的鲁棒性和隐私风险问题。
  • Method: 利用ROCKET特征,通过节点间的结构化路径训练全局模型,每个节点优化模型并选择最有效的本地核。
  • Result: 在UCR存档上的实验显示,DROCKS优于现有方法,且对节点故障和恶意攻击更具弹性。
  • Conclusion: DROCKS为TSC提供了一种更安全、更鲁棒的联邦学习解决方案。

[135] PTCL: Pseudo-Label Temporal Curriculum Learning for Label-Limited Dynamic Graph

Shengtao Zhang,Haokai Zhang,Shiqi Lou,Zicheng Wang,Zinan Zeng,Yilin Wang,Minnan Luo

Main category: cs.LG

TL;DR: PTCL提出了一种动态节点分类方法,仅需最终标签,通过伪标签和时间课程学习策略解决标注不足问题。

  • Motivation: 动态节点分类中,实时标注成本高且标签不确定性大,而最终标签更易获取,因此需要一种仅依赖最终标签的方法。
  • Method: PTCL采用时间解耦架构(骨干网络学习时间感知表示,解码器对齐最终标签生成伪标签)和时间课程学习策略(按时间衰减权重优先接近最终时间的伪标签)。
  • Result: 实验表明PTCL在真实场景中优于其他方法,并贡献了新数据集CoOAG。
  • Conclusion: PTCL和FLiD框架为标注有限的动态节点分类提供了有效解决方案。

[136] Federated Learning: A Survey on Privacy-Preserving Collaborative Intelligence

Edward Collins,Michel Wang

Main category: cs.LG

TL;DR: 联邦学习(FL)是一种分布式机器学习范式,允许多个客户端协作训练共享全局模型,无需集中敏感数据,解决了隐私和安全问题。本文综述了FL的核心架构、技术挑战、新兴趋势及实际应用。

  • Motivation: 解决数据隐私、安全和合规性问题,推动分布式机器学习在医疗、金融和物联网等领域的应用。
  • Method: 讨论了FL的生命周期,包括本地训练、模型聚合和全局更新,并分析了处理非独立同分布数据、系统异构性、通信开销和隐私保护等技术挑战。
  • Result: 总结了FL的核心架构、技术挑战、新兴趋势(如个性化FL和跨设备/跨机构设置)以及实际应用。
  • Conclusion: 提出了未来研究方向,以开发可扩展、高效且可信的FL系统。

[137] Early Detection of Multidrug Resistance Using Multivariate Time Series Analysis and Interpretable Patient-Similarity Representations

Óscar Escudero-Arnanz,Antonio G. Marques,Inmaculada Mora-Jiménez,Joaquín Álvarez-Rodríguez,Cristina Soguero-Ruiz

Main category: cs.LG

TL;DR: 提出了一种基于多变量时间序列和患者相似性的可解释机器学习框架,用于预测多药耐药性(MDR),在ICU电子健康记录上表现优于基线模型。

  • Motivation: 多药耐药性(MDR)是全球健康问题,导致住院时间延长、医疗成本增加和死亡率上升。研究旨在通过可解释的机器学习框架实现准确预测并提供临床见解。
  • Method: 将患者建模为多变量时间序列(MTS),利用动态时间规整和时间聚类核量化患者相似性,输入逻辑回归、随机森林和支持向量机进行分类。通过谱聚类和t-SNE识别高风险集群。
  • Result: 在ICU电子健康记录上验证,AUC达81%,优于基线模型。识别出抗生素使用、侵入性操作等关键风险因素,并发现临床相关集群。
  • Conclusion: 患者相似性表示与图分析结合,提供了准确的MDR预测和可解释的见解,支持早期检测和风险因素识别,展现了可解释机器学习在重症护理中的潜力。

[138] Conformal Segmentation in Industrial Surface Defect Detection with Statistical Guarantees

Cheng Shen,Yuewei Liu

Main category: cs.LG

TL;DR: 论文提出一种基于统计校准的方法,通过定义损失函数和风险水平阈值,提高钢铁表面缺陷检测的可靠性。

  • Motivation: 传统钢铁表面缺陷检测方法效率低、成本高,而基于深度学习的自动化方法因数据标注不确定性和过拟合问题导致可靠性不足。
  • Method: 通过校准数据评估模型性能,定义损失函数量化检测错误率,并基于用户定义的风险水平生成统计严格的阈值,构建预测集。
  • Result: 方法能严格约束测试集的预期错误率,并验证了预测集大小与风险水平的负相关性,展示了模型不确定性的统计度量。
  • Conclusion: 该方法在多种校准-测试划分比例下均能有效控制错误率,验证了其适应性和操作有效性。

cs.MA

[139] Towards a HIPAA Compliant Agentic AI System in Healthcare

Subash Neupane,Shaswata Mitra,Sudip Mittal,Shahram Rahimi

Main category: cs.MA

TL;DR: 本文介绍了一种符合HIPAA标准的Agentic AI框架,用于医疗数据处理的合规性管理。

  • Motivation: 随着基于LLM的AI系统在医疗领域的广泛应用,处理敏感医疗数据时需要严格遵守HIPAA等法规,但现有系统缺乏动态合规机制。
  • Method: 框架整合了ABAC细粒度访问控制、混合PHI脱敏管道(正则表达式+BERT模型)和不可变审计跟踪。
  • Result: 该框架能够动态执行合规策略,减少PHI泄露风险,并提供可验证的审计记录。
  • Conclusion: 提出的框架为医疗AI系统的合规性提供了可行解决方案,但仍需进一步验证和完善。

physics.app-ph

[140] Demonstration of an AI-driven workflow for dynamic x-ray spectroscopy

Ming Du,Mark Wolfman,Chengjun Sun,Shelly D. Kelly,Mathew J. Cherukara

Main category: physics.app-ph

TL;DR: 提出了一种基于贝叶斯优化的自适应XANES数据采集方法,显著减少了所需测量点,同时保持了高精度。

  • Motivation: 传统XANES数据采集方法耗时且缺乏对光谱特征的针对性优化。
  • Method: 结合领域知识的贝叶斯优化方法,利用吸收边和前边峰等光谱特征进行自适应采样。
  • Result: 仅需15-20%的传统测量点即可重建光谱,吸收边误差小于0.1 eV,整体均方根误差小于0.005。
  • Conclusion: 该方法提高了XANES实验的自动化程度,适用于静态和动态测量,提升了时间分辨率。

cs.GR

[141] ePBR: Extended PBR Materials in Image Synthesis

Yu Guo,Zhiqiang Lao,Xiyun Song,Yubin Zhou,Zongfang Lin,Heather Yu

Main category: cs.GR

TL;DR: 论文提出了一种扩展的PBR材料(ePBR),通过结合反射和透射特性,改进了透明材料的合成方法。

  • Motivation: 传统PBR材料在复杂表面模型(如高光和透明表面)上表现不佳,而基于学习的方法缺乏物理一致性。
  • Method: 提出了一种显式的内在合成框架,扩展了内在图像表示,以包含反射和透射特性。
  • Result: 实现了对透明材料(如玻璃和窗户)的高效合成和精确编辑。
  • Conclusion: ePBR材料为可控图像合成提供了确定性且可解释的解决方案。

[142] CasualHDRSplat: Robust High Dynamic Range 3D Gaussian Splatting from Casually Captured Videos

Shucheng Gong,Lingzhe Zhao,Wenpu Li,Hong Xie,Yin Zhang,Shiyu Zhao,Peidong Liu

Main category: cs.GR

TL;DR: 提出了一种名为CasualHDRSplat的方法,用于从随意拍摄的视频中高效重建3D HDR场景,解决了传统方法依赖固定曝光和多视角图像的局限性。

  • Motivation: 现有方法依赖低动态范围(LDR)图像或需要固定相机位置的多曝光图像,限制了场景细节的捕捉且操作复杂。
  • Method: 提出了一种单阶段方法,通过统一的物理成像模型联合优化曝光时间、相机响应函数、相机位姿和3D HDR场景。
  • Result: 实验表明,该方法在鲁棒性和渲染质量上优于现有方法。
  • Conclusion: CasualHDRSplat提供了一种灵活且高效的方式,用于从随意拍摄的视频中重建高质量的3D HDR场景。

astro-ph.IM

[143] Fried Parameter Estimation from Single Wavefront Sensor Image with Artificial Neural Networks

Jeffrey Smith,Taisei Fujii,Jesse Craney,Charles Gretton

Main category: astro-ph.IM

TL;DR: 论文提出了一种基于机器学习的数据驱动方法,用于从单张波前传感器图像中估计Fried参数(r0),适用于自适应光学系统的实时控制。

  • Motivation: 地面望远镜观测受大气湍流影响,导致图像模糊。自适应光学系统需要实时估计Fried参数以优化性能。
  • Method: 采用计算机视觉中的机器学习方法,通过单张Shack-Hartmann或金字塔波前传感器图像估计r0,并使用COMPASS AO仿真工具进行评估。
  • Result: 方法在开环和闭环AO配置中均表现准确,r0估计误差在毫米级,推理时间仅0.83ms。
  • Conclusion: 该方法经济高效,适用于实时仪器控制。

cs.CR

[144] Proof of Useful Intelligence (PoUI): Blockchain Consensus Beyond Energy Waste

Zan-Kai Chong,Hiroyuki Ohsaki,Bryan Ng

Main category: cs.CR

TL;DR: 提出了一种名为PoUI的混合共识机制,结合AI任务与区块链安全性。

  • Motivation: 解决PoW资源消耗高和PoS中心化风险的问题,同时利用AI任务的实用性。
  • Method: 通过智能合约协调节点(任务发布者、市场协调者、工作者和验证者),工作者完成AI任务获得代币并用于质押。
  • Result: PoUI在安全性和实用性之间取得平衡,同时降低资源消耗。
  • Conclusion: PoUI为区块链共识机制提供了新的方向,结合AI与去中心化网络的潜力。

physics.optics

[145] Physics-guided and fabrication-aware inverse design of photonic devices using diffusion models

Dongjin Seo,Soobin Um,Sangbin Lee,Jong Chul Ye,Haejun Chung

Main category: physics.optics

TL;DR: AdjointDiffusion是一种结合扩散模型和伴随梯度的方法,用于高效设计可制造的光子器件,显著减少模拟次数。

  • Motivation: 传统光子器件设计方法复杂且模拟成本高,需要解决几何多样性和制造约束的挑战。
  • Method: 通过训练扩散模型生成二进制掩模,并在去噪过程中注入伴随梯度,引导生成高优值解。
  • Result: 在波导和CMOS图像传感器颜色路由器设计中,性能优于现有非线性优化器,模拟次数大幅减少。
  • Conclusion: AdjointDiffusion提供了一种高效、可制造的光子器件设计方法,开源实现可用。

cs.CL

[146] Tokenization Matters: Improving Zero-Shot NER for Indic Languages

Priyaranjan Pattnayak,Hitesh Laxmichand Patel,Amit Agarwal

Main category: cs.CL

TL;DR: 比较BPE、SentencePiece和字符级分词在低资源印度语言NER任务中的表现,发现SentencePiece在跨语言零样本设置中表现最佳。

  • Motivation: 探索BPE在低资源印度语言NER任务中的适用性,因其形态复杂性处理能力有限。
  • Method: 系统比较BPE、SentencePiece和字符级分词策略,评估内在语言属性和下游任务性能。
  • Result: SentencePiece在低资源语言中表现优于BPE,尤其在跨语言零样本设置中,能更好地保留实体一致性。
  • Conclusion: SentencePiece是低资源印度语言NER任务中更有效的分词策略。

[147] The Rise of Small Language Models in Healthcare: A Comprehensive Survey

Muskan Garg,Shaina Raza,Shebuti Rayana,Xingyi Liu,Sunghwan Sohn

Main category: cs.CL

TL;DR: 本文综述了小型语言模型(SLMs)在医疗健康领域的应用,提出了一种分类框架,并展示了其在资源受限环境中的潜力。

  • Motivation: 随着大型语言模型(LLMs)在医疗应用中的进展,数据隐私和资源限制问题日益突出,SLMs提供了一种可扩展且临床可行的解决方案。
  • Method: 通过分类框架分析SLMs在三个维度(NLP任务、利益相关者角色和护理连续性)的表现,并探讨了模型构建、优化和压缩技术。
  • Result: 展示了SLMs在医疗健康领域的实验成果,突显其变革潜力。
  • Conclusion: SLMs为医疗健康信息学提供了高效、可持续的解决方案,支持未来研究和开发。

[148] MIRAGE: A Metric-Intensive Benchmark for Retrieval-Augmented Generation Evaluation

Chanhee Park,Hyeonseok Moon,Chanjun Park,Heuiseok Lim

Main category: cs.CL

TL;DR: MIRAGE是一个专为RAG系统评估设计的问答数据集,包含7,560个实例和37,800个检索条目,并提出了新的评估指标。

  • Motivation: RAG系统的评估因检索与生成组件的复杂交互而具有挑战性,缺乏详细的组件特定评估基准。
  • Method: 提出MIRAGE数据集和新的评估指标,包括噪声脆弱性、上下文可接受性等维度。
  • Result: 通过实验揭示了RAG系统中模型对的最佳对齐方式及其动态特性。
  • Conclusion: MIRAGE数据集和代码公开,便于广泛研究和定制。

Zhaolu Kang,Hongtian Cai,Xiangyang Ji,Jinzhe Li,Nanfei Gu

Main category: cs.CL

TL;DR: JurisCTC是一种新型模型,用于提升法律判决预测任务的准确性,通过对比学习实现跨法律领域的知识迁移。

  • Motivation: 解决法律文本复杂且标注数据稀缺的问题,探索无监督领域适应在法律领域的应用。
  • Method: 提出JurisCTC模型,采用对比学习区分不同法律领域的样本,实现民事与刑事法律领域的知识迁移。
  • Result: JurisCTC在准确率上显著优于其他模型,分别达到76.59%和78.83%。
  • Conclusion: JurisCTC在法律判决预测任务中表现出色,为跨法律领域的知识迁移提供了有效解决方案。

[150] FLUKE: A Linguistically-Driven and Task-Agnostic Framework for Robustness Evaluation

Yulia Otmakhova,Hung Thinh Truong,Rahmad Mahendra,Zenan Zhai,Rongxin Zhu,Daniel Beck,Jey Han Lau

Main category: cs.CL

TL;DR: FLUKE是一个任务无关的框架,通过系统化的最小测试数据变化评估模型鲁棒性,涵盖从拼写到方言和风格的多层次语言变化,并利用LLMs和人工验证生成修改。

  • Motivation: 评估模型在不同语言变化下的鲁棒性,揭示模型行为的潜在弱点。
  • Method: 引入FLUKE框架,通过LLMs和人工验证生成系统化的语言变化测试数据,评估模型在四个NLP任务中的表现。
  • Result: 发现语言变化的影响高度依赖任务,LLMs整体鲁棒性更强但仍存在脆弱性,所有模型对否定修改普遍脆弱。
  • Conclusion: 系统化的鲁棒性测试对理解模型行为至关重要。

[151] LiveLongBench: Tackling Long-Context Understanding for Spoken Texts from Live Streams

Yongxuan Wu,Runyu Chen,Peiyu Liu,Hongjin Qian

Main category: cs.CL

TL;DR: 论文构建了一个基于直播的冗余丰富的长文本数据集,评估了现有方法在长上下文理解中的表现,并提出了一种新基线方法。

  • Motivation: 现有基准测试未能反映真实对话的复杂性,限制了大型语言模型在实际场景中的应用。
  • Method: 构建了首个口语长文本数据集,设计了检索依赖、推理依赖和混合任务,并评估了流行的大型语言模型和专用方法。
  • Result: 现有方法在冗余输入上表现不佳,任务特异性强,新基线方法在冗余处理上表现优异。
  • Conclusion: 研究揭示了当前方法的局限性,为改进长上下文理解提供了方向,并填补了口语长文本评估的空白。

[152] M-MRE: Extending the Mutual Reinforcement Effect to Multimodal Information Extraction

Chengguang Gan,Sunbowen Lee,Zhixi Cai,Yanbin Wei,Lei Zheng,Yunhao Liang,Shiwen Ni,Tatsunori Mori

Main category: cs.CL

TL;DR: 论文首次将互增强效应(MRE)扩展到多模态信息提取领域,提出多模态互增强效应(M-MRE)任务,并构建数据集。提出Prompt Format Adapter(PFA)方法,实验验证MRE在多模态任务中的有效性。

  • Motivation: 探索MRE在多模态领域的适用性,填补视觉和多模态领域的研究空白。
  • Method: 提出M-MRE任务及数据集,设计兼容大型视觉语言模型的PFA方法。
  • Result: 实验证明MRE在多模态任务中同样有效,支持跨任务互增强。
  • Conclusion: MRE在多模态领域具有通用性,为跨任务互增强提供了新思路。

[153] HalluLens: LLM Hallucination Benchmark

Yejin Bang,Ziwei Ji,Alan Schelten,Anthony Hartshorn,Tara Fowler,Cheng Zhang,Nicola Cancedda,Pascale Fung

Main category: cs.CL

TL;DR: 论文提出了一种全面的幻觉基准,通过明确分类和动态测试集生成,解决了LLM生成内容与输入或训练数据不一致的问题。

  • Motivation: LLM生成的幻觉内容损害用户信任并阻碍生成式AI的发展,亟需统一框架和基准来推动研究。
  • Method: 提出清晰的幻觉分类法,区分外在和内在幻觉,并设计动态测试集以防止数据泄露。
  • Result: 建立了新的幻觉基准,分析了现有基准的局限性,并提供了动态生成数据的方法。
  • Conclusion: 该工作为LLM幻觉研究提供了统一框架,促进了未来研究的进展。

[154] Data-Driven Calibration of Prediction Sets in Large Vision-Language Models Based on Inductive Conformal Prediction

Yuanchang Ye,Weiyan Wen

Main category: cs.CL

TL;DR: 提出了一种基于Split Conformal Prediction(SCP)的框架,用于减少大型视觉语言模型(LVLMs)在视觉问答(VQA)任务中的幻觉问题。

  • Motivation: LVLMs在多模态推理中表现出色,但其输出常伴随高置信度的幻觉内容,对安全关键应用构成风险。
  • Method: 提出了一种模型无关的不确定性量化方法,结合动态阈值校准和跨模态一致性验证,通过数据分区计算非一致性分数,构建具有统计保证的预测集。
  • Result: 在多个基准测试中验证了SCP的理论保证,并展示了其在不同校准-测试分割比例下的稳定性能。
  • Conclusion: 该框架为多模态AI系统提供了可扩展的幻觉检测和不确定性感知决策方案,填补了理论可靠性与实际应用之间的差距。

[155] Ensemble Bayesian Inference: Leveraging Small Language Models to Achieve LLM-level Accuracy in Profile Matching Tasks

Haru-Tada Sato,Fuka Matsuzaki,Jun-ichiro Takahashi

Main category: cs.CL

TL;DR: 研究提出了一种名为EBI的新方法,通过贝叶斯估计结合多个小型语言模型(SLM),使其性能超越单个模型,达到与大型语言模型(LLM)相当的准确性。

  • Motivation: 探索如何利用有限的计算资源构建高性能AI系统,并有效利用性能较低的模型。
  • Method: 提出Ensemble Bayesian Inference (EBI),通过贝叶斯估计结合多个SLM的预测结果。
  • Result: 实验表明EBI在多种任务(如能力评估和消费者分析)中表现优异,甚至能通过整合性能较低的模型提升整体性能。
  • Conclusion: EBI为资源有限的高性能AI系统提供了新思路,并展示了性能较低模型的潜在价值。

[156] Multilingual Performance Biases of Large Language Models in Education

Vansh Gupta,Sankalan Pal Chowdhury,Vilém Zouhar,Donya Rooein,Mrinmaya Sachan

Main category: cs.CL

TL;DR: 论文研究了大型语言模型(LLMs)在非英语教育任务中的表现,发现其性能与训练数据中语言资源量相关,建议部署前验证目标语言的表现。

  • Motivation: 评估LLMs在非英语教育任务中的适用性,填补当前以英语为中心的LLMs在多元语言教育中的研究空白。
  • Method: 在六种非英语语言(印地语、阿拉伯语、波斯语、泰卢固语、乌克兰语、捷克语)和英语中,测试LLMs在四种教育任务(识别学生误解、针对性反馈、互动辅导、翻译评分)的表现。
  • Result: 模型表现与训练数据中语言资源量相关,低资源语言表现较差,且非英语任务性能普遍低于英语。
  • Conclusion: 建议教育从业者在部署前验证LLMs在目标语言中的表现,以确保适用性。

eess.IV

[157] Anatomy-constrained modelling of image-derived input functions in dynamic PET using multi-organ segmentation

Valentin Langer,Kartikay Tehlan,Thomas Wendler

Main category: eess.IV

TL;DR: 该研究提出了一种基于多器官分割的方法,整合主动脉、门静脉、肺动脉和输尿管的图像衍生输入函数(IDIFs),以改进动态PET中[18F]FDG分布的动力学分析。

  • Motivation: 传统IDIFs仅从主动脉获取,忽略了解剖变异和复杂血管贡献,限制了动力学分析的准确性。
  • Method: 利用高分辨率CT分割肝脏、肺、肾脏和膀胱,整合器官特异性血液供应来源,改进动力学建模。
  • Result: 在9名患者的动态PET数据中,肝脏和肺的平均平方误差(MSE)分别降低了13.39%和10.42%。
  • Conclusion: 多IDIFs方法有望提升解剖建模和动态PET成像的潜力,推动示踪动力学建模在临床中的应用。

[158] Physiological neural representation for personalised tracer kinetic parameter estimation from dynamic PET

Kartikay Tehlan,Thomas Wendler

Main category: eess.IV

TL;DR: 提出了一种基于隐式神经表示(INRs)的个性化动力学参数估计方法,用于动态PET成像,解决了传统方法计算量大和数据需求高的问题。

  • Motivation: 传统方法在动态PET成像中计算量大且空间分辨率受限,而深度神经网络需要大量数据和计算资源。
  • Method: 利用INRs学习连续函数,结合3D CT基础模型的解剖先验,实现高效、高分辨率的参数成像。
  • Result: 在[18F]FDG动态PET/CT数据集上验证,结果显示更高的空间分辨率、更低的均方误差和更好的解剖一致性。
  • Conclusion: INRs在个性化、数据高效的示踪动力学建模中具有潜力,适用于肿瘤特征分析、分割和预后评估。

[159] 3D Deep-learning-based Segmentation of Human Skin Sweat Glands and Their 3D Morphological Response to Temperature Variations

Shaoyu Pei,Renxiong Wu,Hao Zheng,Lang Qin,Shuaichen Lin,Yuxing Gan,Wenjing Huang,Zhixuan Wang,Mohan Qin,Yong Liu,Guangming Ni

Main category: eess.IV

TL;DR: 提出了一种基于3D Transformer的多目标分割框架,用于实时、非侵入性地量化汗腺形态。

  • Motivation: 现有汗腺形态观察方法存在二维、体外和破坏性限制,亟需新技术。
  • Method: 结合滑动窗口、空间-通道联合注意力机制及浅深层异质性,实现OCT数据的3D汗腺分割。
  • Result: 首次可视化并量化了汗腺3D形态随温度变化的细微变化。
  • Conclusion: 为汗腺形态研究提供了实时、非侵入性工具,推动皮肤病学研究和临床应用。

[160] A Spatially-Aware Multiple Instance Learning Framework for Digital Pathology

Hassan Keshvarikhojasteh,Mihail Tifrea,Sibylle Hess,Josien P. W. Pluim,Mitko Veta

Main category: eess.IV

TL;DR: GABMIL改进ABMIL框架,通过显式捕捉实例间依赖关系,提升病理图像分类性能,计算效率不变。

  • Motivation: 传统MIL方法(如ABMIL)忽略空间交互,而TransMIL虽引入空间上下文但计算复杂。研究旨在验证显式建模实例关系是否能在ABMIL中提升性能。
  • Method: 提出GABMIL,在ABMIL框架中集成交互感知表示,显式捕捉实例间依赖关系。
  • Result: 在乳腺癌和肺癌亚型分类任务中,GABMIL相比ABMIL,AUPRC提升7%,Kappa分数提高5%,计算开销几乎不变。
  • Conclusion: 显式建模实例间关系对MIL框架至关重要,GABMIL在性能提升的同时保持计算效率。

[161] Beyond Labels: Zero-Shot Diabetic Foot Ulcer Wound Segmentation with Self-attention Diffusion Models and the Potential for Text-Guided Customization

Abderrachid Hamrani,Daniela Leizaola,Renato Sousa,Jose P. Ponce,Stanley Mathis,David G. Armstrong,Anuradha Godavarty

Main category: eess.IV

TL;DR: ADZUS是一种新型文本引导扩散模型,用于糖尿病足溃疡的无监督分割,无需标注数据,性能优于传统方法。

  • Motivation: 糖尿病足溃疡的精确评估对患者治疗至关重要,传统方法依赖标注数据,ADZUS通过零样本学习提供更灵活的解决方案。
  • Method: ADZUS利用文本引导扩散模型进行零样本无监督分割,动态适应描述性提示。
  • Result: ADZUS在慢性伤口数据集上IoU达86.68%,精度94.69%,在DFU数据集上DSC为75%,显著优于FUSegNet。
  • Conclusion: ADZUS为医疗影像提供高效、可扩展的AI解决方案,但计算成本和微调需求仍需改进。

physics.plasm-ph

[162] Plasma State Monitoring and Disruption Characterization using Multimodal VAEs

Yoeri Poels,Alessandro Pau,Christian Donner,Giulio Romanelli,Olivier Sauter,Cristina Venturini,Vlado Menkovski,the TCV team,the WPTE team

Main category: physics.plasm-ph

TL;DR: 该论文提出了一种基于变分自编码器(VAE)的数据驱动方法,用于对托卡马克等离子体状态进行可解释的表征,以预测和区分不同类型的等离子体破裂。

  • Motivation: 等离子体破裂是托卡马克装置中的关键挑战,但目前对其理解有限。数据驱动模型虽然能预测破裂,但缺乏可解释性。本文旨在通过可解释的低维表征方法改进破裂预测和理解。
  • Method: 扩展了VAE框架,包括连续投影等离子体轨迹、多模态结构分离操作状态,以及区分破裂状态。通过统计特性识别破裂率和破裂倾向的连续指标。
  • Result: 在约1600次TCV放电数据上验证了方法的有效性,能够区分不同破裂类型,并识别与破裂相关的参数。
  • Conclusion: 该方法能够以可解释的方式识别不同操作状态及其与破裂的关联,为破裂预测和分析提供了新工具。

q-bio.NC

[163] Can deep neural networks learn biological vision?

Drew Linsley,Pinyuan Feng,Thomas Serre

Main category: q-bio.NC

TL;DR: 论文探讨了深度神经网络(DNNs)与灵长类视觉系统的对齐趋势变化,提出未来视觉科学需独立于人工智能,开发更贴近生物视觉系统的算法。

  • Motivation: 研究动机是解释DNNs与灵长类视觉系统对齐趋势的逆转现象,并探索如何改进生物视觉的计算模型。
  • Method: 论文提出未来DNNs应通过更接近人类视觉的数据、训练流程和目标来训练。
  • Result: 研究发现现代DNNs依赖与灵长类不同的视觉特征,导致对齐趋势逆转。
  • Conclusion: 结论是未来生物视觉模型需脱离AI范式,专注于生物视觉系统的设计原则。

eess.SY

[164] Peer-Aware Cost Estimation in Nonlinear General-Sum Dynamic Games for Mutual Learning and Intent Inference

Seyed Yousef Soltanian,Wenlong Zhang

Main category: eess.SY

TL;DR: 论文提出了一种非线性同伴感知成本估计算法(N-PACE),用于解决不完全信息动态博弈中目标函数未知的问题,通过迭代线性二次逼近实现快速学习。

  • Motivation: 现有方法假设一个代理完全了解同伴,导致估计偏差和协调失败,因此需要一种新方法来解决非线性动态博弈中的目标函数推断问题。
  • Method: N-PACE算法通过迭代线性二次逼近非线性博弈,代理显式建模同伴的学习动态,推断其目标函数。
  • Result: N-PACE实现了快速、无偏的目标函数推断,并支持多代理系统中的意图通信。
  • Conclusion: N-PACE有效解决了动态博弈中的目标函数推断问题,提高了任务完成和安全性。

cs.RO

[165] Robo-Troj: Attacking LLM-based Task Planners

Mohaiminul Al Nahian,Zainab Altaweel,David Reitano,Sabbir Ahmed,Saumitra Lohokare,Shiqi Zhang,Adnan Siraj Rakin

Main category: cs.RO

TL;DR: 本文提出了Robo-Troj,一种针对基于LLM的任务规划系统的多触发器后门攻击方法,旨在揭示其安全漏洞并推动安全机器人系统的发展。

  • Motivation: 研究基于LLM的任务规划系统的安全性问题,填补相关领域的研究空白。
  • Method: 开发Robo-Troj,一种多触发器后门攻击方法,并通过优化方法选择最有效的触发词。
  • Result: 展示了LLM-based任务规划系统的脆弱性,并验证了Robo-Troj的有效性。
  • Conclusion: 通过揭示漏洞,促进安全机器人系统的开发。

[166] Object Pose Estimation by Camera Arm Control Based on the Next Viewpoint Estimation

Tomoki Mizuno,Kazuya Yabashi,Tsuyoshi Tasaki

Main category: cs.RO

TL;DR: 提出了一种新方法,通过同时估计下一个视角(NV)来提高零售展示机器人对简单形状产品的姿态估计准确性。

  • Motivation: 现有基于神经网络的姿态估计方法在纹理和形状特征较少时准确性下降,而传统数学模型方法难以估计有效的NV。
  • Method: 开发了一种新的姿态估计神经网络,同时估计NV,利用姿态估计与NV估计之间的关系。
  • Result: 实验显示,NV估计使姿态估计成功率提高7.4个百分点至77.3%,机器人展示成功率达84.2%。
  • Conclusion: 该方法显著提升了简单形状产品的姿态估计和展示效果。

[167] BIM-Constrained Optimization for Accurate Localization and Deviation Correction in Construction Monitoring

Asier Bikandi,Muhammad Shaheer,Hriday Bavle,Jayan Jevanesan,Holger Voos,Jose Luis Sanchez-Lopez

Main category: cs.RO

TL;DR: 提出了一种基于BIM的漂移校正方法,通过将实际检测到的平面与BIM中的平面对齐,优化了AR在建筑监控中的定位精度。

  • Motivation: 建筑工地环境复杂,传统跟踪方法因特征缺失和动态变化导致数字模型与物理世界对齐不准确。
  • Method: 利用BIM作为先验结构知识,通过优化技术计算SLAM与BIM坐标系间的变换矩阵,减少漂移。
  • Result: 实验显示,该方法显著减少了漂移误差,平均角度偏差减少52.24%,距离误差减少60.8%。
  • Conclusion: 该方法有效提升了AR在建筑监控中的长期定位精度和可视化准确性。

[168] Integrating Learning-Based Manipulation and Physics-Based Locomotion for Whole-Body Badminton Robot Control

Haochen Wang,Zhiwei Shi,Chengxi Zhu,Yafei Qiao,Cheng Zhang,Fan Yang,Pengjie Ren,Lan Lu,Dong Xuan

Main category: cs.RO

TL;DR: 论文提出了一种结合学习型(IL+RL)和模型型方法的混合控制系统,用于敏捷羽毛球机器人控制,显著提高了成功率和安全性。

  • Motivation: 现有学习型方法(如模仿学习和强化学习)在敏捷机器人任务中表现优异,但缺乏与模型型方法的结合,以降低训练复杂度并确保安全性和稳定性。
  • Method: 提出了一种模型型底盘运动策略作为基础,并设计了基于物理信息的“IL+RL”训练框架,利用特权信息指导学习型臂策略训练。在IL阶段训练评论家模型以减少性能下降。
  • Result: 在自研羽毛球机器人上实现了94.5%对发球机的成功率和90.7%对人类玩家的成功率。
  • Conclusion: 该系统可推广至其他敏捷移动操作任务,如敏捷接球和乒乓球。

上次更新于: