以下论文的arXiv类型标签包含:cs.CV、cs.AI
cs.CV
[1] Dense Air Pollution Estimation from Sparse in-situ Measurements and Satellite Data
Ruben Gonzalez Avilés,Linus Scheibenreif,Damian Borth
Main category: cs.CV
TL;DR: 本文提出了一种新的密集估计技术,用于高效估算全球环境中的氮氧化物(NO₂)浓度,解决了现有方法的计算强度问题,并显著提高了准确性。
- Motivation: 现有卫星和现场测量方法在估算全球空气质量时存在计算强度高的问题,限制了大规模环境评估的实用性。
- Method: 采用均匀随机偏移采样策略,将地面真实数据均匀分散到更大区域,通过密集估计方法一步生成网格估算值,显著减少计算资源需求。
- Result: 新方法在平均绝对误差(MAE)上比现有点状方法提高了9.45%,达到4.98 μg/m³,兼具高精度和计算效率。
- Conclusion: 该方法为大规模环境监测提供了可行的解决方案,具有适应性和鲁棒性,适用于全球环境评估。
[2] DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs
Zhenhailong Wang,Senthil Purushwalkam,Caiming Xiong,Silvio Savarese,Heng Ji,Ran Xu
Main category: cs.CV
TL;DR: DyMU是一个无需训练的高效框架,动态减少视觉语言模型的计算负担,同时保持高性能。
- Motivation: 解决视觉变换器中固定长度输出的低效问题,动态适应图像内容以减少计算成本。
- Method: 包括动态令牌合并(DToMe)和虚拟令牌解合并(VTU),前者根据图像复杂度合并相似令牌,后者模拟完整序列的注意力动态。
- Result: 实验显示,DyMU能减少32%-85%的视觉令牌数量,性能与完整模型相当。
- Conclusion: DyMU无需训练即可动态适应图像内容,适用于多种VLM架构,并提供用户对计算成本的控制。
[3] PPS-Ctrl: Controllable Sim-to-Real Translation for Colonoscopy Depth Estimation
Xinqi Xiong,Andrea Dunn Beltran,Jun Myeong Choi,Marc Niethammer,Roni Sengupta
Main category: cs.CV
TL;DR: 提出了一种结合Stable Diffusion和ControlNet的图像转换框架,利用Per-Pixel Shading(PPS)图生成更真实的纹理,提升内窥镜深度估计的准确性。
- Motivation: 临床环境中获取真实深度数据困难,合成数据与真实数据存在领域差距,限制了深度估计的泛化能力。
- Method: 提出基于PPS的潜在表示,结合Stable Diffusion和ControlNet,生成保留结构的真实纹理图像。
- Result: 实验表明,该方法生成的图像更真实,深度估计效果优于基于GAN的MI-CycleGAN。
- Conclusion: 通过PPS和ControlNet的结合,有效缩小了合成与真实数据的领域差距,提升了深度估计性能。
[4] Distilling semantically aware orders for autoregressive image generation
Rishav Pramanik,Antoine Poupon,Juan A. Rodriguez,Masih Aminbeidokhti,David Vazquez,Christopher Pal,Zhaozheng Yin,Marco Pedersoli
Main category: cs.CV
TL;DR: 本文提出了一种改进的自回归图像生成方法,通过训练模型以任意顺序生成图像块,并优化生成顺序,从而提升图像质量。
- Motivation: 传统的自回归图像生成采用固定的光栅扫描顺序(左上到右下),这种顺序忽略了图像内容之间的因果关系,导致生成质量不佳。
- Method: 首先训练模型以任意顺序生成图像块,推断内容和位置;然后利用提取的顺序微调模型,优化生成质量。
- Result: 实验表明,新方法在两种数据集上生成的图像质量优于传统光栅扫描顺序,且训练成本和额外标注需求相同。
- Conclusion: 通过优化生成顺序,自回归图像生成模型可以更高效地生成高质量图像。
[5] Scene-Aware Location Modeling for Data Augmentation in Automotive Object Detection
Jens Petersen,Davide Abati,Amirhossein Habibian,Auke Wiggers
Main category: cs.CV
TL;DR: 论文提出了一种场景感知的概率位置模型,用于预测新物体在现有场景中的合理位置,并通过生成模型在这些位置填充物体,从而显著提升数据增强性能。
- Motivation: 现有生成图像模型在视觉任务中的数据增强中,通常忽视物体在场景中的合理布局,导致增强效果受限。
- Method: 引入场景感知概率位置模型,预测新物体的合理位置,并结合生成模型在这些位置填充物体。
- Result: 在两个汽车目标检测任务中,实现了比现有方法高达2.8倍的性能提升(+1.4 vs. +0.5 mAP),并在实例分割中表现显著改进。
- Conclusion: 通过关注场景布局的合理性,可以显著提升生成数据增强的效果,为视觉任务提供更优的训练数据。
[6] Transferring Spatial Filters via Tangent Space Alignment in Motor Imagery BCIs
Tekin Gunasar,Virginia de Sa
Main category: cs.CV
TL;DR: 提出了一种通过黎曼流形对齐协方差矩阵并计算新的CSP空间滤波器的方法,以改进运动想象BCI中的主题迁移。
- Motivation: 解决运动想象BCI中主题迁移性能不足的问题,尤其是在训练数据有限的情况下。
- Method: 在黎曼流形上对齐协方差矩阵,并基于此计算新的CSP空间滤波器,同时探索多主题信息整合方式。
- Result: 在三个数据集上,相比标准CSP方法有边际改进;在训练数据有限时改进更显著。
- Conclusion: 该方法在数据有限时能显著提升性能,为运动想象BCI的主题迁移提供了有效解决方案。
[7] Latent Video Dataset Distillation
Ning Li,Antai Andy Liu,Jingran Zhang,Justin Cui
Main category: cs.CV
TL;DR: 本文提出了一种新的视频数据集蒸馏方法,通过潜在空间操作和多样性感知数据选择策略,显著提升了性能。
- Motivation: 现有视频数据集蒸馏方法主要关注像素空间压缩,忽略了潜在空间的进展,本文旨在填补这一空白。
- Method: 使用先进的变分编码器在潜在空间进行蒸馏,结合多样性感知数据选择策略和无需训练的压缩方法。
- Result: 在所有数据集上均优于现有方法,例如在HMDB51 IPC 1上性能提升2.6%,在MiniUCF IPC 5上提升7.8%。
- Conclusion: 该方法在视频数据集蒸馏领域取得了新的最佳性能。
[8] A Comprehensive Review on RNA Subcellular Localization Prediction
Cece Zhang,Xuehuan Zhu,Nick Peterson,Jieqiong Wang,Shibiao Wan
Main category: cs.CV
TL;DR: 本文综述了AI/ML在RNA亚细胞定位预测中的最新进展,探讨了序列、图像及混合方法,并分析了挑战与机遇。
- Motivation: 传统湿实验方法耗时耗力,AI/ML方法为大规模RNA定位预测提供了高效替代方案。
- Method: 综述了基于序列、图像及混合方法的AI/ML技术,用于预测RNA亚细胞定位。
- Result: AI/ML方法在RNA定位预测中展现出潜力,可加速研究并指导疾病治疗。
- Conclusion: 本文为RNA亚细胞定位研究提供了资源,并指出了数据稀缺等挑战及解决方向。
[9] PhysioSync: Temporal and Cross-Modal Contrastive Learning Inspired by Physiological Synchronization for EEG-Based Emotion Recognition
Kai Cui,Jia Li,Yu Liu,Xuesong Zhang,Zhenzhen Hu,Meng Wang
Main category: cs.CV
TL;DR: PhysioSync是一个新的预训练框架,利用时间和跨模态对比学习,通过动态同步EEG和PPS信号来提升情绪识别性能。
- Motivation: EEG信号虽然能反映情绪状态,但噪声大且个体差异显著,而现有跨模态方法忽略了动态同步和语义一致性。
- Method: 提出PhysioSync框架,结合跨模态一致性对齐(CM-CA)和长短时对比学习(LS-TCL),预训练后通过特征融合优化情绪识别。
- Result: 在DEAP和DREAMER数据集上,PhysioSync在单模态和跨模态条件下均表现优异。
- Conclusion: PhysioSync通过动态同步和对比学习,显著提升了EEG为中心的情绪识别效果。
[10] A Genealogy of Multi-Sensor Foundation Models in Remote Sensing
Kevin Lane,Morteza Karimzadeh
Main category: cs.CV
TL;DR: 本文探讨了遥感领域中基础模型的开发与应用,分析了不同方法的优缺点,并提出了未来改进的方向,包括多传感器利用和减少计算资源需求。
- Motivation: 遥感领域的基础模型发展迅速,但方法多样且各有优缺点,需要系统分析和改进。
- Method: 通过比较遥感与计算机视觉领域的基础模型方法,分析其优势和不足,并提出改进建议。
- Result: 总结了现有方法的优缺点,强调了多传感器利用和减少计算资源的重要性。
- Conclusion: 未来应进一步利用未标记、季节性和多传感器数据,优化遥感基础模型的性能。
[11] We'll Fix it in Post: Improving Text-to-Video Generation with Neuro-Symbolic Feedback
Minkyu Choi,S P Sharan,Harsh Goel,Sahil Shah,Sandeep Chinchali
Main category: cs.CV
TL;DR: 论文提出了一种零训练的视频优化方法,通过神经符号反馈提升文本到视频生成的语义和时间一致性。
- Motivation: 当前文本到视频(T2V)生成模型在处理复杂提示时难以保持语义和时间一致性,且计算成本高。
- Method: 提出了一种零训练的视频优化流程,利用神经符号反馈分析视频表示并指导针对性编辑。
- Result: 实验表明,该方法显著提升了时间与逻辑对齐,效果提升近40%。
- Conclusion: 该方法有效解决了复杂提示下视频生成的一致性问题,且无需额外训练。
[12] Perspective-Aware Reasoning in Vision-Language Models via Mental Imagery Simulation
Phillip Y. Lee,Jihyeon Je,Chanho Park,Mikaela Angelina Uy,Leonidas Guibas,Minhyuk Sung
Main category: cs.CV
TL;DR: 提出了一种通过心理意象模拟实现视觉语言模型(VLM)中视角感知推理的框架Abstract Perspective Change(APC),显著提升了VLM的视角感知能力。
- Motivation: 视角感知是人类视觉理解的关键能力,但现有VLM在此方面表现不足,存在强烈的自我中心偏差。
- Method: 提出APC框架,利用视觉基础模型(如目标检测、分割和方向估计)构建场景抽象并实现视角变换。
- Result: 在合成和真实图像基准测试中,APC显著优于现有VLM及基于空间推理和新视角合成的方法。
- Conclusion: APC框架有效提升了VLM的视角感知能力,缩小了与人类感知的差距。
[13] MCAF: Efficient Agent-based Video Understanding Framework through Multimodal Coarse-to-Fine Attention Focusing
Shiwen Cao,Zhaoxing Zhang,Junming Jiao,Juyi Qiao,Guowen Song,Rong Shen
Main category: cs.CV
TL;DR: MCAF是一种基于代理的无训练框架,通过多模态粗到细注意力聚焦实现视频理解,显著提升性能。
- Motivation: 视频理解(尤其是长视频)因信息冗余和复杂性而具有挑战性,需要模型全局分配注意力。
- Method: MCAF通过多模态信息分层聚焦相关帧,并采用扩张时间扩展机制避免遗漏关键细节,结合自反馈机制迭代优化注意力分配。
- Result: 在多个数据集上表现优异,如EgoSchema提升5%,Next-QA和IntentQA分别提升0.2%和0.3%。
- Conclusion: MCAF通过创新注意力聚焦策略,显著提升了长视频理解的准确性和效率。
[14] Towards Generalizable Deepfake Detection with Spatial-Frequency Collaborative Learning and Hierarchical Cross-Modal Fusion
Mengyu Qiao,Runze Tian,Yang Wang
Main category: cs.CV
TL;DR: 论文提出了一种结合多尺度空间-频率分析的新型深度伪造检测框架,显著提升了检测准确性和泛化能力。
- Motivation: 深度生成模型的快速发展使深度伪造检测面临挑战,现有方法主要依赖空间域分析,频率域操作仅用于特征增强,未能充分利用频率原生伪影和空间-频率交互。
- Method: 框架包含三个关键组件:局部频谱特征提取(块级离散余弦变换与多尺度卷积)、全局频谱特征提取(尺度不变差分累积)以及多阶段跨模态融合机制(浅层注意力增强与深层动态调制)。
- Result: 在广泛采用的基准测试中,该方法在准确性和泛化性上均优于现有最先进的深度伪造检测方法。
- Conclusion: 该框架通过多尺度空间-频率分析有效解决了深度伪造检测中的挑战,为未来研究提供了新方向。
[15] Visual and textual prompts for enhancing emotion recognition in video
Zhifeng Wang,Qixuan Zhang,Peter Zhang,Wenjia Niu,Kaihao Zhang,Ramesh Sankaranarayana,Sabrina Caldwell,Tom Gedeon
Main category: cs.CV
TL;DR: SoVTP框架通过整合空间标注、生理信号和上下文线索,显著提升了VLLMs在视频情感识别中的零样本性能。
- Motivation: 现有VLLMs在视频情感识别中因缺乏空间和上下文感知而受限,传统方法忽视非语言线索导致鲁棒性不足。
- Method: 提出SoVTP框架,结合空间标注(如边界框、面部关键点)、生理信号(面部动作单元)和上下文线索(身体姿态、场景动态等),形成统一提示策略。
- Result: 实验表明SoVTP在零样本情感识别中优于现有视觉提示方法。
- Conclusion: SoVTP有效增强了VLLMs的视频情感识别能力,保留了场景整体信息并支持细粒度分析。
[16] Range Image-Based Implicit Neural Compression for LiDAR Point Clouds
Akihiro Kuwabara,Sorachi Kato,Takuya Fujihashi,Toshiaki Koike-Akino,Takashi Watanabe
Main category: cs.CV
TL;DR: 提出了一种基于隐式神经表示(INR)的LiDAR点云压缩方法,通过深度和掩码图像的分割与压缩,显著提升了低比特率下的3D重建和检测质量。
- Motivation: 传统图像压缩技术在处理LiDAR的2D范围图像(RIs)时效率有限,因其与自然图像在比特精度和像素值分布上存在差异。
- Method: 将RIs分割为深度和掩码图像,分别采用基于INR的块级和像素级架构,结合模型剪枝和量化进行压缩。
- Result: 在KITTI数据集上,该方法在低比特率和解码延迟下优于现有图像、点云、RI和INR压缩方法。
- Conclusion: 提出的INR-based RI压缩方法为高效3D场景存档提供了新思路,显著提升了压缩性能。
[17] Scene Perceived Image Perceptual Score (SPIPS): combining global and local perception for image quality assessment
Zhiqiang Lao,Heather Yu
Main category: cs.CV
TL;DR: 提出了一种结合深度学习和传统方法的图像质量评估(IQA)新方法,通过分离高、低层特征并整合传统指标,更贴合人类视觉感知。
- Motivation: 随着AI和智能手机的普及,图像数据激增,传统IQA方法在深度神经网络(DNN)处理的图像中表现不足,需更贴合人类感知的评估方法。
- Method: 将深度特征解耦为高层语义和低层感知细节,分别处理并与传统IQA指标结合,最后通过多层感知机(MLP)生成质量评分。
- Result: 实验表明,该方法比现有IQA模型更符合人类感知判断。
- Conclusion: 提出的混合方法有效结合了深度学习与传统IQA,显著提升了评估准确性。
[18] DIVE: Inverting Conditional Diffusion Models for Discriminative Tasks
Yinqi Li,Hong Chang,Ruibing Hou,Shiguang Shan,Xilin Chen
Main category: cs.CV
TL;DR: 本文提出了一种利用预训练扩散模型进行判别任务的方法,将其从分类任务扩展到更复杂的物体检测任务,通过优化和贝叶斯规则改进性能。
- Motivation: 探索如何利用预训练的生成扩散模型执行判别任务,特别是物体检测,以扩展其应用范围。
- Method: 采用梯度离散优化方法替代繁重的预测枚举过程,并引入先验分布模型以更准确地应用贝叶斯规则。
- Result: 在COCO数据集上,该方法与基础判别物体检测基线相当,且显著加速了之前基于扩散的分类方法。
- Conclusion: 该方法成功将扩散模型应用于物体检测任务,并在性能和效率上取得平衡。
[19] Precision Neural Network Quantization via Learnable Adaptive Modules
Wenqiang Zhou,Zhendong Yu,Xinyu Liu,Jiaming Yang,Rong Xiao,Tao Wang,Chenwei Tang,Jiancheng Lv
Main category: cs.CV
TL;DR: 提出了一种自适应步长量化方法(ASQ),通过动态调整量化参数和非均匀量化方案,显著提升了量化感知训练(QAT)的性能。
- Motivation: 解决传统QAT方法在量化参数可训练时牺牲推理灵活性的问题,尤其是处理分布差异大的激活值时。
- Method: 1. 动态调整量化缩放因子;2. 提出基于平方根二的指数量化方案(POST),结合查找表(LUT)保持计算效率。
- Result: ASQ在4位量化ResNet34上比全精度基线提升1.2%准确率,优于现有QAT方法。
- Conclusion: ASQ通过自适应量化策略和非均匀量化,在保持计算效率的同时显著提升模型性能。
[20] Towards Generalized and Training-Free Text-Guided Semantic Manipulation
Yu Hong,Xiao Cai,Pengpeng Zeng,Shuai Zhang,Jingkuan Song,Lianli Gao,Heng Tao Shen
Main category: cs.CV
TL;DR: 论文提出了一种名为GTF的新方法,用于文本引导的语义图像编辑,支持多种语义操作且无需训练。
- Motivation: 现有方法在效率、扩展性和通用性方面存在不足,而扩散模型中噪声的几何特性与语义变化强相关。
- Method: 通过控制噪声的几何关系实现语义编辑,无需调优或优化。
- Result: GTF支持多种语义操作,并能无缝集成到不同模态的扩散方法中。
- Conclusion: GTF在语义编辑任务中表现出色,有望推动该领域的发展。
[21] EdgePoint2: Compact Descriptors for Superior Efficiency and Accuracy
Haodi Yao,Fenghua He,Ning Hao,Chen Xie
Main category: cs.CV
TL;DR: EdgePoint2是一系列轻量级关键点检测和描述神经网络,专为边缘计算设计,在保持高精度的同时优化效率。
- Motivation: 深度学习在关键点提取中表现优异,但计算成本高,且高维描述符在分布式应用中效率低,需要紧凑且准确的解决方案。
- Method: 提出EdgePoint2网络架构,结合正交Procrustes损失和相似性损失训练紧凑描述符,并提供14个子模型以满足多样化需求。
- Result: 实验显示EdgePoint2在多种场景下均达到SOTA精度和效率,且使用低维描述符(32/48/64)。
- Conclusion: EdgePoint2在灵活性、鲁棒性和多功能性上表现突出,是适应多样化计算和通信约束的理想选择。
[22] Advanced Segmentation of Diabetic Retinopathy Lesions Using DeepLabv3+
Meher Boulaabi,Takwa Ben Aïcha Gader,Afef Kacem Echi,Sameh Mbarek
Main category: cs.CV
TL;DR: 提出了一种针对糖尿病视网膜病变病变的二元分割方法,结合后处理步骤提升准确性,最终达到99%的分割精度。
- Motivation: 改善糖尿病视网膜病变病变(如微动脉瘤、出血、渗出物等)的分割效果,克服数据集限制和标注复杂性带来的挑战。
- Method: 采用DeepLabv3+模型,结合特定预处理(裁剪和CLAHE)及数据增强技术,对每种病变类型进行二元分割,后处理合并结果。
- Result: 在IDRID数据集上验证,分割精度达到99%。
- Conclusion: 创新策略在医学图像分析中具有显著效果,特别是在糖尿病视网膜病变病变的精确分割上。
[23] DIMT25@ICDAR2025: HW-TSC's End-to-End Document Image Machine Translation System Leveraging Large Vision-Language Model
Zhanglin Wu,Tengfei Song,Ning Xie,Weidong Zhang,Pengfei Li,Shuang Wu,Chong Li,Junhao Zhu,Hao Yang
Main category: cs.CV
TL;DR: 华为翻译服务中心提出了一种基于多任务学习和感知链式思维的综合端到端文档翻译系统,结合最小贝叶斯解码和后处理策略提升翻译能力。
- Motivation: 解决复杂布局文档图像的端到端机器翻译问题,统一处理OCR和无OCR任务。
- Method: 结合多任务学习和感知链式思维的训练框架,使用最小贝叶斯解码和后处理策略进行推理。
- Result: 展示了有效的文档图像机器翻译方法,系统性能显著提升。
- Conclusion: 提出的统一框架在复杂布局文档翻译任务中表现优异,为相关领域提供了实用解决方案。
[24] TimeChat-Online: 80% Visual Tokens are Naturally Redundant in Streaming Videos
Linli Yao,Yicheng Li,Yuancheng Wei,Lei Li,Shuhuai Ren,Yuanxin Liu,Kun Ouyang,Lean Wang,Shicheng Li,Sida Li,Lingpeng Kong,Qi Liu,Yuanxing Zhang,Xu Sun
Main category: cs.CV
TL;DR: TimeChat-Online是一种新型在线视频大语言模型,通过创新的差分令牌丢弃(DTD)模块显著减少视频令牌数量,同时保持高性能,解决了实时视频流处理的冗余问题。
- Motivation: 在线视频平台的快速增长,特别是直播服务,对实时视频理解系统提出了迫切需求,而现有视频大语言模型在处理流媒体时存在冗余帧效率低下的问题。
- Method: TimeChat-Online采用差分令牌丢弃(DTD)模块,模拟人类视觉感知的变化盲视现象,保留有意义的时间变化,过滤静态冗余内容。
- Result: 实验表明,DTD减少了82.8%的视频令牌,同时保持98%的性能,证明流媒体视频中80%以上的内容是冗余的。
- Conclusion: TimeChat-Online在流媒体基准测试中表现优异,同时在长视频任务中保持竞争力,展示了其在实时视频交互中的独特优势。
[25] DRC: Enhancing Personalized Image Generation via Disentangled Representation Composition
Yiyan Xu,Wuqiang Zheng,Wenjie Wang,Fengbin Zhu,Xinting Hu,Yang Zhang,Fuli Feng,Tat-Seng Chua
Main category: cs.CV
TL;DR: 论文提出了一种名为DRC的新型个性化图像生成框架,通过解耦表示组合增强LMMs,解决了现有方法在捕捉用户风格偏好和语义意图时的不足。
- Motivation: 现有方法(如扩散模型、大语言模型或LMMs)难以准确捕捉和融合用户的风格偏好与语义意图,尤其是LMMs存在视觉特征纠缠问题,导致生成的图像无法保留用户偏好或反映指定语义。
- Method: DRC框架通过解耦表示组合,明确从历史图像和参考图像中提取用户风格偏好和语义意图,形成用户特定的潜在指令。包括两个关键学习阶段:解耦学习和个性化建模。
- Result: 在两个基准测试上的实验表明,DRC在性能上具有竞争力,同时有效缓解了指导崩溃问题。
- Conclusion: 解耦表示学习对于可控且有效的个性化图像生成至关重要,DRC框架为此提供了可行方案。
[26] I-INR: Iterative Implicit Neural Representations
Ali Haider,Muhammad Salman Ali,Maryam Qamar,Tahir Khalil,Soo Ye Kim,Jihyong Oh,Enzo Tartaglione,Sung-Ho Bae
Main category: cs.CV
TL;DR: 论文提出了一种迭代隐式神经表示(I-INRs)框架,通过迭代优化提升信号重建质量,解决了传统INRs在细节保留和高频信息处理上的不足。
- Motivation: 传统隐式神经表示(INRs)由于回归问题的固有特性,容易回归到均值,导致无法有效捕捉细节、保留高频信息或处理噪声。
- Method: 提出I-INRs框架,通过迭代细化过程增强信号重建能力,并与现有INRs架构无缝集成。
- Result: 实验表明,I-INRs在图像恢复、去噪和物体占据预测等任务中优于基线方法(如WIRE、SIREN和Gauss)。
- Conclusion: I-INRs显著提升了信号重建质量,尤其在细节保留和噪声鲁棒性方面表现优异。
[27] TimeSoccer: An End-to-End Multimodal Large Language Model for Soccer Commentary Generation
Ling You,Wenxuan Huang,Xinni Xie,Xiangyi Wei,Bangyan Li,Shaohui Lin,Yang Li,Changbo Wang
Main category: cs.CV
TL;DR: TimeSoccer是首个端到端的足球多模态大语言模型,用于全场比赛的单锚点密集视频字幕生成,通过联合预测时间戳和生成字幕,实现全局上下文建模。
- Motivation: 现有足球多模态大语言模型依赖时间先验,无法端到端处理视频,传统方法复杂且无法捕捉全局上下文,导致性能不佳。
- Method: 提出TimeSoccer,结合MoFA-Select训练无关的运动感知帧压缩模块,通过粗到细策略自适应选择代表性帧,并采用互补训练范式增强长时序处理能力。
- Result: 实验表明TimeSoccer在单锚点密集视频字幕任务上达到最先进性能,生成高质量评论且时间对齐准确、语义相关性强。
- Conclusion: TimeSoccer解决了现有方法的局限性,为足球视频的端到端处理提供了高效解决方案。
[28] Highly Accurate and Diverse Traffic Data: The DeepScenario Open 3D Dataset
Oussema Dhaouadi,Johannes Meier,Luca Wahl,Jacques Kaiser,Luca Scalerandi,Nick Wandelburg,Zhuolun Zhou,Nijanthan Berinpanathan,Holger Banzhaf,Daniel Cremers
Main category: cs.CV
TL;DR: DSC3D是一个高质量、无遮挡的3D轨迹数据集,通过无人机捕捉,用于提升自动驾驶系统的环境感知能力。
- Motivation: 传统数据集因固定传感器和遮挡问题限制了环境重建的准确性,DSC3D旨在解决这些问题。
- Method: 采用单目相机无人机跟踪流程,捕捉14类交通参与者的175,000多条轨迹,覆盖多种复杂场景。
- Result: 数据集在多样性和规模上超越现有数据集,支持运动预测、行为建模等应用。
- Conclusion: DSC3D为自动驾驶研究提供了更全面的环境3D表示,有望提升系统安全性和交互能力。
[29] SDVPT: Semantic-Driven Visual Prompt Tuning for Open-World Object Counting
Yiming Zhao,Guorong Li,Laiyun Qing,Amin Beheshti,Jian Yang,Michael Sheng,Yuankai Qi,Qingming Huang
Main category: cs.CV
TL;DR: 论文提出了一种名为SDVPT的框架,通过视觉提示调优提升预训练视觉语言模型在开放世界物体计数中的泛化能力。
- Motivation: 现有方法在训练集中未见类别上的泛化能力有限,SDVPT旨在通过语义驱动的视觉提示调优解决这一问题。
- Method: SDVPT采用两阶段视觉提示学习策略:类别特定提示初始化和拓扑引导提示细化,动态合成未见类别的视觉提示。
- Result: 实验表明,SDVPT在FSC-147、CARPK和PUCPR+数据集上显著提升了开放世界物体计数模型的性能。
- Conclusion: SDVPT是一种高效且适应性强的框架,能够显著提升模型对未见类别的计数能力。
[30] Fine-tune Smarter, Not Harder: Parameter-Efficient Fine-Tuning for Geospatial Foundation Models
Francesc Marti-Escofet,Benedikt Blumenstiel,Linus Scheibenreif,Paolo Fraccaro,Konrad Schindler
Main category: cs.CV
TL;DR: 论文探讨了参数高效微调(PEFT)技术在地球观测(EO)领域的应用,通过实验验证其在减少计算资源需求的同时保持或超越全微调性能,并开源了TerraTorch工具包。
- Motivation: 随着基础模型规模增大,全微调的计算成本和特征遗忘问题限制了其可访问性和扩展性,PEFT技术为解决这些问题提供了可能。
- Method: 通过多种基础模型架构和PEFT技术在五个EO数据集上进行实验,比较其性能,并分析架构选择(如解码器类型和元数据使用)的影响。
- Result: PEFT技术在性能上匹配或超越全微调,同时提升模型对未见过地理区域的泛化能力,并减少训练时间和内存需求。UNet解码器和不使用元数据的配置表现最佳。
- Conclusion: PEFT技术是高效适应预训练地理空间模型的可行方案,TerraTorch工具包的开源支持了快速、可扩展且经济高效的模型适配。
[31] S2S-Net: Addressing the Domain Gap of Heterogeneous Sensor Systems in LiDAR-Based Collective Perception
Sven Teufel,Jörg Gamerdinger,Oliver Bringmann
Main category: cs.CV
TL;DR: 论文提出S2S-Net架构,解决自动驾驶中集体感知的Sensor2Sensor域差距问题,并在SCOPE数据集上取得优异表现。
- Motivation: 解决自动驾驶中因不同传感器系统导致的Sensor2Sensor域差距问题,填补现有数据集的不足。
- Method: 提出传感器域鲁棒架构S2S-Net,并在SCOPE数据集上进行域适应能力分析。
- Result: S2S-Net在未见过的传感器域中保持高性能,并在SCOPE数据集上达到最先进水平。
- Conclusion: S2S-Net有效解决了集体感知中的Sensor2Sensor域差距问题,为自动驾驶提供了新思路。
[32] StereoMamba: Real-time and Robust Intraoperative Stereo Disparity Estimation via Long-range Spatial Dependencies
Xu Wang,Jialang Xu,Shuai Zhang,Baoru Huang,Danail Stoyanov,Evangelos B. Mazomenos
Main category: cs.CV
TL;DR: StereoMamba架构通过FE-Mamba和MFF模块提升RAMIS中的立体视差估计性能,在精度、鲁棒性和速度间取得平衡。
- Motivation: 解决现有深度学习方法在机器人辅助微创手术中立体视差估计的精度、鲁棒性和推理速度之间的平衡问题。
- Method: 提出StereoMamba架构,包括FE-Mamba模块增强长程空间依赖性和MFF模块融合多尺度特征。
- Result: 在SCARED基准测试中表现优异(EPE 2.64 px,深度MAE 2.55 mm),推理速度21.28 FPS,零样本泛化能力突出。
- Conclusion: StereoMamba在RAMIS中实现了高精度、鲁棒性和效率的平衡,具有广泛的应用潜力。
[33] 3DV-TON: Textured 3D-Guided Consistent Video Try-on via Diffusion Models
Min Wei,Chaohui Yu,Jingkai Zhou,Fan Wang
Main category: cs.CV
TL;DR: 3DV-TON是一种基于扩散模型的视频试穿框架,通过生成可动画的3D网格作为显式帧级指导,解决了现有方法在复杂服装和多样姿势下生成高质量、时间一致结果的难题。
- Motivation: 现有视频试穿方法在处理复杂服装图案和多样身体姿势时,难以生成高质量且时间一致的结果。
- Method: 采用生成的可动画纹理3D网格作为帧级指导,包括关键帧选择、2D图像试穿、3D网格重建与动画同步,并引入矩形掩码策略减少伪影传播。
- Result: 提出的方法在HR-VVT高分辨率数据集上表现优于现有方法,生成高保真且时间一致的视频试穿结果。
- Conclusion: 3DV-TON通过3D网格指导和自适应管道,显著提升了视频试穿的质量和一致性,推动了该领域的研究。
[34] Breaking the Modality Barrier: Universal Embedding Learning with Multimodal LLMs
Tiancheng Gu,Kaicheng Yang,Ziyong Feng,Xingjun Wang,Yanzhao Zhang,Dingkun Long,Yingda Chen,Weidong Cai,Jiankang Deng
Main category: cs.CV
TL;DR: UniME提出了一种新颖的两阶段框架,利用MLLMs学习多模态表示,解决了CLIP的局限性,并在多个任务中表现出色。
- Motivation: CLIP在多模态表示学习中存在文本截断、孤立编码和组合性不足等问题,而MLLMs的潜力尚未充分挖掘。
- Method: UniME通过两阶段方法:1) 从LLM教师模型蒸馏文本知识;2) 引入硬负样本增强的指令调整。
- Result: 在MMEB基准和多个检索任务中,UniME表现优异,提升了判别性和组合能力。
- Conclusion: UniME通过两阶段框架显著提升了多模态表示学习的性能,适用于多样化下游任务。
[35] Predict-Optimize-Distill: A Self-Improving Cycle for 4D Object Understanding
Mingxuan Wu,Huang Huang,Justin Kerr,Chung Min Kim,Anthony Zhang,Brent Yi,Angjoo Kanazawa
Main category: cs.CV
TL;DR: POD框架通过预测-优化-蒸馏的循环自我提升机制,结合长视频和多视角数据,显著提升对物体4D状态的理解和预测能力。
- Motivation: 人类通过长时间观察物体运动来预测其3D状态,现有系统依赖多视角数据或监督学习,缺乏自我提升能力。
- Method: 提出Predict-Optimize-Distill (POD)框架,通过预测、优化和蒸馏的循环迭代,利用长视频和多视角数据自我生成训练数据。
- Result: 在14个真实和5个合成物体上验证,POD显著优于纯优化基线,性能随视频长度和迭代次数提升。
- Conclusion: POD展示了通过循环自我提升和长视频利用,实现对物体4D状态理解的持续改进。
[36] FRAG: Frame Selection Augmented Generation for Long Video and Long Document Understanding
De-An Huang,Subhashree Radhakrishnan,Zhiding Yu,Jan Kautz
Main category: cs.CV
TL;DR: FRAG通过独立评分选择输入中的关键帧,避免长上下文处理,提升长视频和多页文档的理解性能。
- Motivation: 解决长上下文模型因计算成本高而受限的问题,探索无需长上下文处理的方法。
- Method: 提出FRAG框架,独立评分选择关键帧,仅基于选定帧生成输出。
- Result: 在长视频和文档理解任务中显著提升性能,达到SOTA。
- Conclusion: FRAG是一种简单有效的框架,适用于现有LMMs,无需微调即可提升长输入处理能力。
[37] Unveiling Hidden Vulnerabilities in Digital Human Generation via Adversarial Attacks
Zhiying Li,Yeying Jin,Fan Shen,Zhi Liu,Weibin Chen,Pengju Zhang,Xiaomei Zhang,Boyu Chen,Michael Shen,Kejian Wu,Zhaoxin Fan,Jin Dong
Main category: cs.CV
TL;DR: 论文提出了一种名为Tangible Attack (TBA)的新框架,通过Dual Heterogeneous Noise Generator (DHNG)和定制对抗损失函数,显著提高了对数字人生成模型的对抗攻击效果。
- Motivation: 现有研究主要关注减少估计误差,但忽视了鲁棒性和安全性,导致系统易受对抗攻击。
- Method: 提出TBA框架,结合DHNG(利用VAE和ControlNet生成多样化噪声)和定制对抗损失函数,通过多梯度信号迭代优化对抗样本。
- Result: 实验显示TBA将估计误差提高了41.0%,平均提升约17.0%。
- Conclusion: TBA揭示了当前EHPS模型的安全漏洞,强调了数字人生成系统需要更强的防御措施。
[38] Enhanced Sample Selection with Confidence Tracking: Identifying Correctly Labeled yet Hard-to-Learn Samples in Noisy Data
Weiran Pan,Wei Wei,Feida Zhu,Yong Deng
Main category: cs.CV
TL;DR: 提出了一种新的样本选择方法,通过跟踪模型预测置信度的趋势而非仅依赖损失值,以更准确地区分正确标注但难学习的样本和错误标注的样本。
- Motivation: 现有方法通常将小损失样本视为正确标注,但一些正确标注的样本可能因难以学习而在训练早期表现出高损失,导致样本选择时在精度和召回率之间存在权衡。
- Method: 通过跟踪标注标签与其他类别之间的置信度差距,并使用Mann-Kendall Test评估其趋势,判断样本是否为正确标注。
- Result: 在多个标准基准和真实数据集上的实验表明,该方法提升了现有噪声标签学习方法的性能。
- Conclusion: 该方法作为一种即插即用组件,能够有效缓解样本选择中的权衡问题,提升噪声标签学习的准确性。
[39] RefVNLI: Towards Scalable Evaluation of Subject-driven Text-to-image Generation
Aviv Slobodkin,Hagai Taitelbaum,Yonatan Bitton,Brian Gordon,Michal Sokolik,Nitzan Bitton Guetta,Almog Gueta,Royi Rassin,Itay Laish,Dani Lischinski,Idan Szpektor
Main category: cs.CV
TL;DR: RefVNLI是一种新的自动评估指标,用于评估主题驱动的文本到图像生成任务中的文本对齐和主题保留,性能优于现有基线。
- Motivation: 当前缺乏可靠的自动评估方法,现有方法要么仅评估单一任务方面,要么与人类判断不一致,或依赖昂贵的API评估。
- Method: 引入RefVNLI,通过大规模视频推理基准和图像扰动数据集训练,评估文本对齐和主题保留。
- Result: RefVNLI在多个基准和主题类别中表现优异,文本对齐提升6.4分,主题一致性提升8.5分,与人类偏好一致性达87%。
- Conclusion: RefVNLI是一种高效且成本低的评估方法,显著提升了主题驱动T2I生成的评估性能。
[40] Mamba-Sea: A Mamba-based Framework with Global-to-Local Sequence Augmentation for Generalizable Medical Image Segmentation
Zihan Cheng,Jintao Guo,Jian Zhang,Lei Qi,Luping Zhou,Yinghuan Shi,Yang Gao
Main category: cs.CV
TL;DR: 论文提出了一种基于Mamba架构的新框架Mamba-Sea,用于解决医学图像分割中的分布偏移问题,通过全局到局部的序列增强提升模型的泛化能力。
- Motivation: 医学图像分割中,分布偏移问题导致模型在未见过的目标域上表现不佳。现有方法主要基于CNN或ViT架构,而Mamba因其长距离依赖捕捉能力和线性复杂度显示出潜力。
- Method: 提出Mamba-Sea框架,结合全局和局部序列增强:全局机制模拟不同站点间的外观变化,抑制域特定信息学习;局部机制通过扰动连续子序列的样式统计增强模型鲁棒性。
- Result: 在Prostate数据集上,Mamba-Sea首次超过90%的Dice系数,优于之前88.61%的SOTA结果。
- Conclusion: Mamba-Sea是首个探索Mamba在医学图像分割中泛化能力的工作,展示了其在域偏移问题中的强大潜力。
[41] Towards One-Stage End-to-End Table Structure Recognition with Parallel Regression for Diverse Scenarios
Anyi Xiao,Cihui Yang
Main category: cs.CV
TL;DR: TableCenterNet是一种单阶段端到端表格结构解析网络,统一了表格空间和逻辑结构的预测,通过共享特征提取层和任务特定解码的协同架构,实现了高效、鲁棒和跨场景适应性。
- Motivation: 现有方法在平衡跨场景适应性、鲁棒性和计算效率方面存在困难,TableCenterNet旨在解决这一问题。
- Method: TableCenterNet通过并行回归任务统一预测表格的空间和逻辑结构,并利用共享特征提取层和任务特定解码的协同架构。
- Result: 在基准数据集上,TableCenterNet表现优异,尤其在TableGraph-24k数据集上达到最先进性能。
- Conclusion: TableCenterNet是一种高效、易训练且推理快速的表格结构解析方法,适用于多样化场景。
[42] ESDiff: Encoding Strategy-inspired Diffusion Model with Few-shot Learning for Color Image Inpainting
Junyan Zhang,Yan Li,Mengxiao Geng,Liu Shi,Qiegen Liu
Main category: cs.CV
TL;DR: 提出了一种基于编码策略的扩散模型,用于小样本学习的彩色图像修复,通过虚拟掩码和高维对象构建,提升细节和结构完整性。
- Motivation: 传统方法难以保留复杂细节,深度学习模型需要大量数据,因此提出一种小样本学习方案以解决这些问题。
- Method: 采用编码策略,利用虚拟掩码构建高维对象,结合低秩方法和扩散模型,实现精确修复。
- Result: 实验表明,该方法在定量指标上优于现有技术,修复图像的纹理和结构完整性更优。
- Conclusion: 该方法通过小样本学习实现了高质量的图像修复,细节和结构表现更佳。
[43] Text-to-Image Alignment in Denoising-Based Models through Step Selection
Paul Grimal,Hervé Le Borgne,Olivier Ferret
Main category: cs.CV
TL;DR: 提出一种新方法,通过选择性增强关键去噪步骤的信号,优化图像生成与输入语义的对齐。
- Motivation: 解决视觉生成AI模型中文本-图像对齐和推理限制的问题。
- Method: 在后期去噪阶段选择性增强信号,避免早期信号修改的不足。
- Result: 在Diffusion和Flow Matching模型上验证了方法的有效性,实现了最先进的性能。
- Conclusion: 合理选择采样阶段对提升性能和图像对齐至关重要。
[44] An Explainable Nature-Inspired Framework for Monkeypox Diagnosis: Xception Features Combined with NGBoost and African Vultures Optimization Algorithm
Ahmadreza Shateri,Negar Nourani,Morteza Dorrigiv,Hamid Nasiri
Main category: cs.CV
TL;DR: 提出了一种基于深度学习的框架,用于从皮肤病变图像中自动检测猴痘,结合迁移学习、降维和优化算法,达到高精度诊断。
- Motivation: 猴痘全球传播引发公共卫生担忧,早期准确诊断对疾病管理至关重要。
- Method: 使用Xception架构提取特征,PCA降维,NGBoost分类,AVOA优化超参数。
- Result: 模型准确率97.53%,F1-score 97.72%,AUC 97.47%。
- Conclusion: 该框架为资源有限环境提供高效诊断工具,支持早期检测。
[45] When Gaussian Meets Surfel: Ultra-fast High-fidelity Radiance Field Rendering
Keyang Ye,Tianjia Shao,Kun Zhou
Main category: cs.CV
TL;DR: Gaussian-enhanced Surfels (GESs) 是一种双尺度表示方法,用于辐射场渲染,结合了2D不透明面元和3D高斯分布,实现快速、高保真的渲染。
- Motivation: 现有辐射场渲染方法在速度和保真度之间存在权衡,GESs旨在通过双尺度表示解决这一问题。
- Method: GESs通过两阶段渲染(面元光栅化和高斯分布叠加)和粗到细优化过程实现高效渲染。
- Result: GESs在快速渲染的同时避免了视觉伪影,并支持多种扩展(如抗锯齿、加速渲染等)。
- Conclusion: GESs作为一种高效、高保真的辐射场表示方法,推动了该领域的技术进步。
[46] A Comprehensive Survey of Knowledge-Based Vision Question Answering Systems: The Lifecycle of Knowledge in Visual Reasoning Task
Jiaqi Deng,Zonghan Wu,Huan Huo,Guandong Xu
Main category: cs.CV
TL;DR: 该论文是一篇关于知识驱动的视觉问答(KB-VQA)的综述,系统整理了现有方法,提出了分类框架,并探讨了未来研究方向。
- Motivation: KB-VQA结合视觉、文本和外部知识,具有广泛的应用潜力,但目前缺乏系统的综述。本文旨在填补这一空白。
- Method: 通过建立分类框架,将KB-VQA方法分为知识表示、知识检索和知识推理三个阶段,并分析各阶段的技术。
- Result: 论文总结了现有KB-VQA方法,提出了分类框架,并指出了当前技术的挑战和未来发展方向。
- Conclusion: 该综述为KB-VQA领域提供了系统化的参考,并为未来研究指明了方向。
[47] Unsupervised Urban Land Use Mapping with Street View Contrastive Clustering and a Geographical Prior
Lin Che,Yizi Chen,Tanhua Jin,Martin Raubal,Konrad Schindler,Peter Kiefer
Main category: cs.CV
TL;DR: 提出了一种基于街景图像的无监督对比聚类模型,结合地理先验,用于复杂城市场景的土地利用分类与制图。
- Motivation: 现有遥感技术在复杂城市环境中缺乏精度,而街景图像能捕捉地面细节和人类活动,但现有方法依赖监督分类,面临标注数据稀缺和泛化困难的问题。
- Method: 采用无监督对比聚类模型,结合地理先验,通过简单的视觉分配实现土地利用制图。
- Result: 实验表明,该方法能从两个城市的街景图像数据集中生成土地利用地图,具有灵活性和可扩展性。
- Conclusion: 该方法基于地理空间数据的空间一致性,适用于街景图像可用的多种场景,支持无监督土地利用制图与更新。
[48] Occlusion-Aware Self-Supervised Monocular Depth Estimation for Weak-Texture Endoscopic Images
Zebo Huang,Yinghui Wang
Main category: cs.CV
TL;DR: 提出了一种针对内窥镜场景的自监督单目深度估计网络,解决了动态光照和遮挡导致的深度重建质量问题。
- Motivation: 现有方法假设光照一致,但内窥镜场景中动态光照和胃肠道运动导致的遮挡会破坏这一假设,导致深度估计不准确。
- Method: 引入遮挡感知的自监督框架,包括数据增强的遮挡掩码和基于非负矩阵分解的语义分割,以提升模型在部分可见性和纹理缺失区域的鲁棒性。
- Result: 在SCARED数据集上达到最先进性能,并在Endo-SLAM和SERV-CT数据集上表现出强泛化能力。
- Conclusion: 该方法有效提升了内窥镜场景下的自监督深度估计质量,具有广泛适用性。
[49] Tamper-evident Image using JPEG Fixed Points
Zhaofeng Si,Siwei Lyu
Main category: cs.CV
TL;DR: 论文证明了JPEG压缩过程中存在固定点,并利用这一特性开发了一种防篡改图像方法。
- Motivation: 研究JPEG压缩重复操作后图像稳定性的现象,探索其潜在应用。
- Method: 分析JPEG压缩与解压缩过程,证明固定点的存在及其快速收敛性。
- Result: 固定点多样且视觉质量高,可用于生成防篡改图像。
- Conclusion: 固定点的发现为图像防篡改提供了新方法。
[50] RGB-D Tracking via Hierarchical Modality Aggregation and Distribution Network
Boyue Xu,Yi Xu,Ruichao Hou,Jia Bei,Tongwei Ren,Gangshan Wu
Main category: cs.CV
TL;DR: HMAD是一种新型RGB-D跟踪网络,通过分层模态聚合与分布提升特征融合的鲁棒性和速度,实验证明其性能优越且适用于实时场景。
- Motivation: 当前RGB-D跟踪器效率低且仅关注单层特征,导致融合鲁棒性差、速度慢,无法满足实际应用需求。
- Method: 提出HMAD网络,利用RGB和深度模态的独特特征表示能力,采用分层方法进行特征分布与融合。
- Result: 在多个RGB-D数据集上达到最优性能,并在实时场景中有效应对多种跟踪挑战。
- Conclusion: HMAD通过分层模态聚合与分布显著提升了RGB-D跟踪的鲁棒性和速度,适用于实际应用。
[51] STCL:Curriculum learning Strategies for deep learning image steganography models
Fengchun Liu,Tong Zhang,Chunying Zhang
Main category: cs.CV
TL;DR: 本文提出了一种基于课程学习的图像隐写训练策略(STCL),通过逐步增加训练难度提升模型性能。
- Motivation: 针对深度学习图像隐写模型生成的图像质量差和网络收敛慢的问题,提出了一种新的训练策略。
- Method: 1. 基于教师模型的难度评估策略;2. 基于拐点的训练调度策略。
- Result: 在多个数据集上验证了STCL策略的有效性,显著提升了PSNR、SSIM和解码准确率,同时降低了隐写分析得分。
- Conclusion: STCL策略能够有效提升图像隐写模型的性能,适用于多种算法框架。
[52] Enhancing CNNs robustness to occlusions with bioinspired filters for border completion
Catarina P. Coutinho,Aneeqa Merhab,Janko Petkovic,Ferdinando Zanchetta,Rita Fioresi
Main category: cs.CV
TL;DR: 利用视觉皮层边界补全机制改进CNN滤波器,提升遮挡MNIST图像的识别准确率。
- Motivation: 探索视觉皮层机制在CNN中的应用,以提升模型对遮挡图像的识别能力。
- Method: 基于视觉皮层边界补全的数学模型,设计定制化滤波器,改进LeNet 5。
- Result: 在遮挡MNIST图像测试中,准确率显著提升。
- Conclusion: 视觉皮层机制的数学建模可有效改进CNN性能。
[53] Improving Open-World Object Localization by Discovering Background
Ashish Singh,Michael J. Jones,Kuan-Chuan Peng,Anoop Cherian,Moitreya Chatterjee,Erik Learned-Miller
Main category: cs.CV
TL;DR: 提出了一种利用背景信息指导目标定位的新框架,通过识别非判别性区域来提升开放世界目标定位性能。
- Motivation: 解决开放世界目标定位问题,即在训练时仅使用有限类别边界框信息,在推理时定位所有类别(包括未见类别)的目标。
- Method: 提出新框架,通过发现图像中的背景区域(非判别性区域),训练目标提议网络避免在这些区域检测目标。
- Result: 在标准基准测试中表现优异,显著优于现有方法。
- Conclusion: 利用背景信息能有效提升开放世界目标定位性能。
[54] A Guide to Structureless Visual Localization
Vojtech Panek,Qunjie Zhou,Yaqing Ding,Sérgio Agostinho,Zuzana Kukelova,Torsten Sattler,Laura Leal-Taixé
Main category: cs.CV
TL;DR: 本文首次全面讨论和比较了无结构视觉定位方法,发现基于经典几何推理的方法在姿态精度上优于基于姿态回归的方法,但灵活性更高。
- Motivation: 现有基于结构的视觉定位方法虽然精度高,但灵活性不足,难以适应场景变化。无结构方法更灵活,但相关研究较少,本文旨在填补这一空白。
- Method: 通过比较和分析不同无结构视觉定位方法,包括基于经典绝对或半广义相对姿态估计的方法,以及基于姿态回归的方法。
- Result: 实验表明,基于经典几何推理的方法在姿态精度上显著优于基于姿态回归的方法,但与基于结构的方法相比,精度稍低。
- Conclusion: 无结构方法在灵活性和精度之间存在权衡,为未来研究提供了有趣的方向。
[55] CLIPSE -- a minimalistic CLIP-based image search engine for research
Steve Göring
Main category: cs.CV
TL;DR: CLIPSE是一个基于CLIP嵌入的自托管图像搜索引擎,适用于研究场景,支持简单扩展和使用,但在大数据集上需分布式处理。
- Motivation: 为研究提供一个简单且可扩展的图像搜索引擎。
- Method: 使用CLIP嵌入处理图像和文本查询,设计简单框架。
- Result: 在小数据集上表现良好,大数据集需分布式处理。
- Conclusion: CLIPSE适合小规模研究,大规模应用需分布式方案。
[56] DiMeR: Disentangled Mesh Reconstruction Model
Lutao Jiang,Jiantao Lin,Kanghao Chen,Wenhang Ge,Xin Yang,Yifan Jiang,Yuanhuiyi Lyu,Xu Zheng,Yingcong Chen
Main category: cs.CV
TL;DR: DiMeR是一种解耦的双流前馈模型,用于稀疏视图网格重建,通过分离几何和纹理输入与框架,显著提升了性能。
- Motivation: RGB图像在几何重建中可能导致训练目标冲突且缺乏清晰性,因此需要一种更有效的方法。
- Method: DiMeR将输入和框架解耦为几何和纹理部分,几何分支使用法线图,纹理分支使用RGB图像,并改进了网格提取算法。
- Result: DiMeR在稀疏视图重建、单图像到3D和文本到3D任务中表现优异,Chamfer Distance在GSO和OmniObject3D数据集上提升超过30%。
- Conclusion: DiMeR通过解耦设计和法线图输入,显著提高了3D重建的精度和效率。
[57] PICO: Reconstructing 3D People In Contact with Objects
Alpár Cseke,Shashank Tripathi,Sai Kumar Dwivedi,Arjun Lakshmipathy,Agniv Chatterjee,Michael J. Black,Dimitrios Tzionas
Main category: cs.CV
TL;DR: 该论文提出了一种从单张彩色图像中恢复3D人-物交互(HOI)的方法,通过构建新数据集PICO-db和开发优化拟合方法PICO-fit,解决了深度模糊、遮挡和物体多样性等挑战。
- Motivation: 现有方法受限于已知物体形状和接触条件,难以泛化到自然图像和新物体类别。论文旨在开发一种适用于自然场景和多样物体的解决方案。
- Method: 1. 构建PICO-db数据集,利用视觉基础模型检索3D物体网格,并通过新方法标注密集接触。2. 提出PICO-fit方法,结合渲染与比较优化,拟合3D人体和物体网格。
- Result: PICO-fit能够处理多种现有方法无法应对的物体类别,显著提升了HOI理解的泛化能力。
- Conclusion: 论文通过新数据集和优化方法,实现了对自然图像中多样3D人-物交互的恢复,为实际应用提供了重要工具。
[58] Hierarchical and Multimodal Data for Daily Activity Understanding
Ghazal Kaviani,Yavuz Yarici,Seulgi Kim,Mohit Prabhushankar,Ghassan AlRegib,Mashhour Solh,Ameya Patil
Main category: cs.CV
TL;DR: DARai是一个多模态、分层标注的数据集,用于研究真实环境中的人类活动,包含50名参与者在10种环境中的200小时数据,涵盖20种传感器。实验展示了其在多模态传感器融合和领域变体实验中的价值。
- Motivation: 理解真实环境中人类活动的复杂性,并提供一个多模态、分层标注的数据集以支持人工智能研究。
- Method: 构建包含脚本和非脚本记录的多模态数据集,采用三层层次标注(L1活动、L2动作、L3步骤),并进行多模态传感器融合实验。
- Result: 实验验证了DARai在活动识别、时间定位和未来动作预测中的有效性,并揭示了单个传感器的局限性。
- Conclusion: DARai为人类中心应用提供了重要的数据集和实验基准,支持多模态和领域变体研究。
[59] Generative Fields: Uncovering Hierarchical Feature Control for StyleGAN via Inverted Receptive Fields
Zhuo He,Paul Henderson,Nicolas Pugeault
Main category: cs.CV
TL;DR: 论文提出了一种基于生成场理论和通道风格潜在空间S的新图像编辑方法,解决了StyleGAN中特征控制的局限性。
- Motivation: StyleGAN生成的图像特征难以控制,现有方法在W空间中的表达受限且需要预训练。
- Method: 引入生成场理论解释StyleGAN的分层特征合成,并提出基于通道风格潜在空间S的图像编辑流程。
- Result: 实现了对特征合成的解耦控制,提升了图像编辑的灵活性和效果。
- Conclusion: 生成场理论和S空间为StyleGAN的特征控制提供了新思路,具有实际应用潜力。
[60] DPMambaIR:All-in-One Image Restoration via Degradation-Aware Prompt State Space Model
Zhanwen Liu,Sai Zhou,Yuchao Dai,Yang Wang,Yisheng An,Xiangmo Zhao
Main category: cs.CV
TL;DR: DPMambaIR是一种新型All-in-One图像修复框架,通过细粒度建模和高效全局整合解决多任务冲突,并在实验中表现最佳。
- Motivation: 传统方法需为每种退化类型设计专用模型,成本高且复杂。现有方法缺乏细粒度建模且难以平衡多任务冲突。
- Method: 结合Degradation-Aware Prompt State Space Model (DP-SSM)和High-Frequency Enhancement Block (HEB),实现细粒度建模和高频细节补充。
- Result: 在包含七种退化类型的混合数据集上,DPMambaIR以PSNR 27.69dB和SSIM 0.893表现最佳。
- Conclusion: DPMambaIR展示了作为统一All-in-One图像修复解决方案的潜力和优越性。
[61] EgoCHARM: Resource-Efficient Hierarchical Activity Recognition using an Egocentric IMU Sensor
Akhil Padmanabha,Saravanan Govindarajan,Hwanmun Kim,Sergio Ortiz,Rahul Rajan,Doruk Senkal,Sneha Kadetotad
Main category: cs.CV
TL;DR: 论文提出了一种资源高效的机器学习算法EgoCHARM,用于通过单一头戴式IMU识别高低层次活动,性能优于现有方法。
- Motivation: 现有头戴式活动识别方法性能低或资源消耗大,需改进。
- Method: 采用半监督学习策略的分层算法,主要用高层次活动标签训练,学习通用低层次运动嵌入。
- Result: 在9种高层次和3种低层次活动上,F1分数分别为0.826和0.855,模型参数仅63k和22k。
- Conclusion: EgoCHARM在资源受限设备上高效,同时分析了头戴式IMU的潜力与限制。
[62] Step1X-Edit: A Practical Framework for General Image Editing
Shiyu Liu,Yucheng Han,Peng Xing,Fukun Yin,Rui Wang,Wei Cheng,Jiaqi Liao,Yingming Wang,Honghao Fu,Chunrui Han,Guopeng Li,Yuang Peng,Quan Sun,Jingwei Wu,Yan Cai,Zheng Ge,Ranchen Ming,Lei Xia,Xianfang Zeng,Yibo Zhu,Binxing Jiao,Xiangyu Zhang,Gang Yu,Daxin Jiang
Main category: cs.CV
TL;DR: 论文提出了一种名为Step1X-Edit的开源图像编辑模型,旨在缩小与闭源模型(如GPT-4o和Gemini2 Flash)的性能差距,并通过实验验证其优越性。
- Motivation: 当前开源算法与闭源模型在图像编辑能力上存在显著差距,因此需要开发一种性能接近闭源模型的开源解决方案。
- Method: 采用多模态LLM处理参考图像和用户编辑指令,提取潜在嵌入并与扩散图像解码器结合生成目标图像;构建数据生成管道训练模型。
- Result: Step1X-Edit在GEdit-Bench上显著优于现有开源基线,接近领先闭源模型的性能。
- Conclusion: Step1X-Edit为图像编辑领域提供了高性能的开源替代方案,缩小了与闭源模型的差距。
[63] The Fourth Monocular Depth Estimation Challenge
Anton Obukhov,Matteo Poggi,Fabio Tosi,Ripudaman Singh Arora,Jaime Spencer,Chris Russell,Simon Hadfield,Richard Bowden,Shuaihang Wang,Zhenxin Ma,Weijie Chen,Baobei Xu,Fengyu Sun,Di Xie,Jiang Zhu,Mykola Lavreniuk,Haining Guan,Qun Wu,Yupei Zeng,Chao Lu,Huanran Wang,Guangyuan Zhou,Haotian Zhang,Jianxiong Wang,Qiang Rao,Chunjie Wang,Xiao Liu,Zhiqiang Lou,Hualie Jiang,Yihao Chen,Rui Xu,Minglang Tan,Zihan Qin,Yifan Mao,Jiayang Liu,Jialei Xu,Yifan Yang,Wenbo Zhao,Junjun Jiang,Xianming Liu,Mingshuai Zhao,Anlong Ming,Wu Chen,Feng Xue,Mengying Yu,Shida Gao,Xiangfeng Wang,Gbenga Omotara,Ramy Farag,Jacket Demby,Seyed Mohamad Ali Tousi,Guilherme N DeSouza,Tuan-Anh Yang,Minh-Quang Nguyen,Thien-Phuc Tran,Albert Luginov,Muhammad Shahzad
Main category: cs.CV
TL;DR: 第四版单目深度估计挑战赛(MDEC)的结果,重点关注零样本泛化到SYNS-Patches基准,改进了评估协议和基线方法,24个提交表现优于基线,获胜者将3D F-Score从22.58%提升至23.05%。
- Motivation: 改进单目深度估计的零样本泛化能力,特别是在自然和室内环境中的挑战性场景。
- Method: 修订评估协议(最小二乘对齐和两自由度支持),引入新基线方法(Depth Anything v2和Marigold),接收24个提交并分析其方法。
- Result: 24个提交优于基线,10个提交提供方法描述,获胜者将3D F-Score从22.58%提升至23.05%。
- Conclusion: 挑战赛成功推动了单目深度估计技术的进步,尤其是零样本泛化能力。
[64] Dynamic Camera Poses and Where to Find Them
Chris Rockwell,Joseph Tung,Tsung-Yi Lin,Ming-Yu Liu,David F. Fouhey,Chen-Hsuan Lin
Main category: cs.CV
TL;DR: 论文介绍了DynPose-100K数据集,用于动态互联网视频的相机姿态标注,改进了现有方法并展示了其多样性和规模。
- Motivation: 动态互联网视频的相机姿态标注对视频生成和模拟等领域至关重要,但现有数据集难以满足需求。
- Method: 通过任务特定和通用模型筛选视频,结合点跟踪、动态掩码和运动结构技术进行姿态估计。
- Result: DynPose-100K数据集规模大且多样,优于现有方法。
- Conclusion: 该数据集为下游应用提供了新的可能性。
[65] Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models
Xu Ma,Peize Sun,Haoyu Ma,Hao Tang,Chih-Yao Ma,Jialiang Wang,Kunpeng Li,Xiaoliang Dai,Yujun Shi,Xuan Ju,Yushi Hu,Artsiom Sanakoyeu,Felix Juefei-Xu,Ji Hou,Junjiao Tian,Tao Xu,Tingbo Hou,Yen-Cheng Liu,Zecheng He,Zijian He,Matt Feiszli,Peizhao Zhang,Peter Vajda,Sam Tsai,Yun Fu
Main category: cs.CV
TL;DR: 论文提出Token-Shuffle方法,通过减少Transformer中的图像令牌数量,提升自回归模型在高分辨率图像合成中的效率和性能。
- Motivation: 自回归模型在图像合成中因需要大量图像令牌而效率低下,限制了分辨率和性能。为解决这一问题,作者提出Token-Shuffle方法。
- Method: 利用视觉词汇的维度冗余性,通过token-shuffle合并局部令牌以减少输入令牌数量,并通过token-unshuffle恢复空间排列。
- Result: 在2048x2048分辨率下实现高效图像合成,2.7B模型在GenAI-benchmark中表现优于其他AR和扩散模型。
- Conclusion: Token-Shuffle为MLLMs中的高效高分辨率图像生成提供了基础设计。
[66] LiDPM: Rethinking Point Diffusion for Lidar Scene Completion
Tetiana Martyniuk,Gilles Puy,Alexandre Boulch,Renaud Marlet,Raoul de Charette
Main category: cs.CV
TL;DR: 论文提出LiDPM方法,通过优化初始点选择,证明传统DDPM在场景级别完成任务时无需局部扩散近似,并在SemanticKITTI上取得更好效果。
- Motivation: 解决扩散模型在户外场景点云数据上难以生成细粒度细节的问题,并弥合局部扩散与对象级别扩散之间的差距。
- Method: 采用传统DDPM框架,通过精心选择初始点,避免局部扩散近似,直接在场景级别完成任务。
- Result: 在SemanticKITTI数据集上,LiDPM方法在场景补全任务中表现优于现有方法。
- Conclusion: 传统DDPM在场景级别任务中无需局部扩散近似,LiDPM通过优化初始点选择实现了更好的效果。
cs.AI
[67] A Framework for the Assurance of AI-Enabled Systems
Ariel S. Kapusta,David Jin,Peter M. Teague,Robert A. Houston,Jonathan B. Elliott,Grace Y. Park,Shelby S. Holdren
Main category: cs.AI
TL;DR: 本文提出了一种基于声明的框架,用于AI系统的风险管理和保证,以平衡快速部署、成功采用和严格评估的需求。
- Motivation: 美国国防部希望加速AI能力的开发和部署,但AI算法的强大特性带来了技术、安全和伦理挑战,可能阻碍其采用。
- Method: 提出一个基于声明的框架,支持所有采办途径的项目,确保AI系统满足任务目标且不引入不可接受的风险。
- Result: 贡献包括AI保证的框架流程、相关定义以及AI保证的重要考虑因素讨论。
- Conclusion: 该框架旨在为国防部提供一种高效机制,快速部署有效的AI能力,同时不忽视关键风险或损害利益相关者的信任。
[68] Rational Inference in Formal Concept Analysis
Lucas Carr,Nicholas Leisegang,Thomas Meyer,Sergei Obiedkov
Main category: cs.AI
TL;DR: 本文提出了一种在形式概念分析(FCA)中应用KLM框架的可废止推理方法,解决了传统FCA中依赖关系无法处理异常数据的问题。
- Motivation: 传统FCA中的依赖关系无法处理异常数据或例外情况,而可废止推理(非单调推理)在FCA中尚未得到充分研究。本文旨在填补这一空白。
- Method: 通过构建KLM框架的偏好排序,将其应用于FCA中,以支持可废止推理。
- Result: 提出的方法在FCA中保持了KLM框架的非单调推理原则,并提供了更具上下文相关性的推理能力。
- Conclusion: 该方法不仅与KLM框架一致,还在FCA中提供了更灵活的推理能力,适用于更复杂的数据场景。
[69] A Desideratum for Conversational Agents: Capabilities, Challenges, and Future Directions
Emre Can Acikgoz,Cheng Qian,Hongru Wang,Vardhan Dongre,Xiusi Chen,Heng Ji,Dilek Hakkani-Tür,Gokhan Tur
Main category: cs.AI
TL;DR: 本文综述了基于大语言模型(LLM)的对话代理的现状、挑战和未来方向,提出了一个分类框架,并指出了关键研究缺口。
- Motivation: 探讨LLM驱动的对话代理的能力、局限性和未来发展路径,以推动更接近人类智能的可扩展系统。
- Method: 通过将对话代理的能力分为三个维度(推理、监控、控制),并围绕这些维度分类现有研究,提出新的分类法。
- Result: 识别了研究缺口,如长期多轮推理、自我进化能力、协作任务完成等,并提出了未来研究方向。
- Conclusion: 本文为对话代理的研究提供了结构化基础,指出了局限性,并为未来研究提供了方向,以推动人工通用智能(AGI)的发展。
[70] A Systematic Approach to Design Real-World Human-in-the-Loop Deep Reinforcement Learning: Salient Features, Challenges and Trade-offs
Jalal Arabneydi,Saiful Islam,Srijita Das,Sai Krishna Gottipati,William Duguay,Cloderic Mars,Matthew E. Taylor,Matthew Guzdial,Antoine Fagette,Younes Zerouali
Main category: cs.AI
TL;DR: 本文提出了一种新型的多层次HITL DRL算法,结合了三种学习方式和三种人类输入形式,并通过无人机实战问题验证了其高效性和优势。
- Motivation: 随着深度强化学习(DRL)的普及,人机协同(HITL)方法有望革新决策问题解决方式,创造人机协作新机会。
- Method: 提出多层次HITL DRL算法,包含自主学习、模仿学习和迁移学习,并整合奖励、动作和示范三种人类输入形式。
- Result: 在无人机实战中验证了HITL能加速训练并提升性能,人类建议能降低梯度方法的方差,且建议量需适中以避免过训练或欠训练。
- Conclusion: HITL DRL算法在复杂问题中表现优异,展示了人机协作在解决现实复杂场景(如过载和诱饵攻击)中的重要作用。
[71] Neural Theorem Proving: Generating and Structuring Proofs for Formal Verification
Balaji Rao,William Eiers,Carlo Lipizzi
Main category: cs.AI
TL;DR: 论文提出了一种框架,用于生成形式化语言的完整证明,结合LLM和启发式方法,通过两阶段微调训练模型,并在miniF2F和Isabelle上验证。
- Motivation: 随着LLM生成代码的兴起,形式化验证代码属性变得尤为重要,但通用定理证明仍是一个未解决的挑战。
- Method: 框架包含三个组件:生成自然语言描述、LLM生成形式化证明、启发式模块构建最终证明。采用两阶段微调(SFT和RL)训练LLM。
- Result: 在miniF2F测试基准和Isabelle证明助手上验证了框架,并设计了AWS S3桶访问策略代码的验证用例。
- Conclusion: 该框架为形式化验证和定理证明提供了新途径,并创建了基于FVEL数据集的新训练任务数据集。
[72] Leveraging LLMs as Meta-Judges: A Multi-Agent Framework for Evaluating LLM Judgments
Yuran Li,Jama Hussein Mohamud,Chongren Sun,Di Wu,Benoit Boulet
Main category: cs.AI
TL;DR: 论文提出了一种三阶段元判断选择流程,通过多智能体协作和综合评分标准,提高了LLM作为评估者的性能。
- Motivation: 随着任务复杂化,评估LLM响应变得困难,而现有研究忽视了人类判断的偏见和错误,且未充分探索如何从多个LLM响应中选择合适判断。
- Method: 1) 与GPT-4和人类专家共同制定评分标准;2) 使用三个高级LLM智能体评分;3) 通过阈值过滤低分判断。
- Result: 在JudgeBench数据集上,相比原始判断和单智能体基线,性能分别提升了15.55%和8.37%。
- Conclusion: 研究表明LLM作为元判断具有潜力,为未来构建LLM作为判断者的强化学习偏好数据集奠定了基础。
[73] AUTHENTICATION: Identifying Rare Failure Modes in Autonomous Vehicle Perception Systems using Adversarially Guided Diffusion Models
Mohammad Zarei,Melanie A Jutras,Eliana Evans,Mike Tan,Omid Aaramoon
Main category: cs.AI
TL;DR: 论文提出了一种利用生成和可解释AI技术来理解和解决自动驾驶车辆中罕见故障模式(RFMs)的新方法。
- Motivation: 自动驾驶车辆(AVs)在检测罕见故障模式(RFMs)时存在困难,这被称为“长尾挑战”。论文旨在通过生成对抗性样本和自然语言描述来增强AVs的鲁棒性和可靠性。
- Method: 通过提取对象分割掩码并反转生成环境掩码,结合文本提示输入定制扩散模型(Stable Diffusion),利用对抗性噪声优化生成多样化的环境图像以暴露AI系统的漏洞。
- Result: 生成包含RFMs的图像和自然语言描述,帮助开发者和政策制定者改进AV系统的安全性和可靠性。
- Conclusion: 该方法为理解和解决AVs中的罕见故障模式提供了有效工具,有助于提升系统的整体性能。
[74] Cracking the Code of Action: a Generative Approach to Affordances for Reinforcement Learning
Lynn Cherif,Flemming Kondrup,David Venuto,Ankit Anand,Doina Precup,Khimya Khetarpal
Main category: cs.AI
TL;DR: 论文提出了一种名为CoGA的方法,通过预训练的视觉语言模型生成代码,限制动作空间以提高样本效率,并在MiniWob++基准测试中验证了其高效性和泛化能力。
- Motivation: 在稀疏奖励和大动作空间环境中(如网页GUI),传统方法需要大量专家演示才能达到良好性能。论文旨在解决低数据情况下的样本效率问题。
- Method: CoGA利用预训练的视觉语言模型生成代码,通过意图驱动的动作空间限制,结合自动程序生成和验证流程,为强化学习代理提供可执行的动作子集。
- Result: 在MiniWob++基准测试中,CoGA比传统强化学习代理样本效率高得多,其程序能泛化到同类任务,且在少量专家演示下表现优于或接近行为克隆。
- Conclusion: CoGA通过限制动作空间显著提高了样本效率,展示了在低数据情况下的潜力,并为未来研究提供了方向。
[75] AI-Enhanced Business Process Automation: A Case Study in the Insurance Domain Using Object-Centric Process Mining
Shahrzad Khayatbashi,Viktor Sjölind,Anders Granåker,Amin Jalali
Main category: cs.AI
TL;DR: 论文探讨了AI(尤其是LLMs)如何通过自动化知识密集型任务推动业务流程重构,并以保险业案例展示了OCPM方法在评估AI自动化影响中的应用。
- Motivation: 研究动机在于评估AI自动化对业务流程的影响,尤其是在传统与AI增强流程共存的过渡阶段。
- Method: 采用对象中心流程挖掘(OCPM)方法,结合保险业案例,分析LLM自动化对流程可扩展性的影响。
- Result: 研究发现LLMs显著提升了操作能力,但也引入了需要进一步优化的新流程动态。
- Conclusion: 研究证明了OCPM在现实场景中的实用性,同时揭示了其优势和局限性。
[76] Comprehend, Divide, and Conquer: Feature Subspace Exploration via Multi-Agent Hierarchical Reinforcement Learning
Weiliang Zhang,Xiaohan Huang,Yi Du,Ziyue Qiao,Qingqing Long,Zhen Meng,Yuanchun Zhou,Meng Xiao
Main category: cs.AI
TL;DR: 论文提出了一种名为HRLFS的新方法,通过结合大型语言模型(LLM)和分层强化学习,优化特征选择过程,提升下游机器学习任务性能。
- Motivation: 当前基于强化学习的特征选择方法在处理复杂数据集时效率低下,主要问题在于每个特征使用一个代理的模式。
- Method: HRLFS利用LLM提取特征的数学和语义特性,对特征进行聚类,并为每个聚类和子聚类构建分层代理。
- Result: 实验表明,HRLFS在性能和运行时间上优于现有方法,显著提升了特征子空间探索的效率。
- Conclusion: HRLFS通过分层代理和LLM的结合,有效解决了复杂数据集特征选择的挑战,具有高效性和可扩展性。
[77] Assessing the Capability of Large Language Models for Domain-Specific Ontology Generation
Anna Sofia Lippolis,Mohammad Javad Saeedizade,Robin Keskisarkka,Aldo Gangemi,Eva Blomqvist,Andrea Giovanni Nuzzolese
Main category: cs.AI
TL;DR: 研究探索了大型语言模型(LLMs)在领域特定本体生成中的应用,评估了DeepSeek和o1-preview两种模型的表现,发现其性能在不同领域间具有一致性。
- Motivation: 探讨LLMs在领域特定本体生成任务中的适用性及其潜力。
- Method: 使用两种具备推理能力的LLMs(DeepSeek和o1-preview),通过能力问题(CQs)和相关用户故事生成本体,并在六个不同领域进行实验。
- Result: 实验结果表明,两种LLMs在所有领域中的表现均一致,表明这些方法能够泛化本体生成任务。
- Conclusion: LLM为基础的方法在实现可扩展且领域无关的本体构建方面具有潜力,为增强自动推理和知识表示技术奠定了基础。
[78] Redefining Superalignment: From Weak-to-Strong Alignment to Human-AI Co-Alignment to Sustainable Symbiotic Society
Feifei Zhao,Yuwei Wang,Enmeng Lu,Dongcheng Zhao,Bing Han,Haibo Tong,Yao Liang,Dongqi Liang,Kang Sun,Lei Wang,Yitao Liang,Chao Liu,Yaodong Yang,Yi Zeng
Main category: cs.AI
TL;DR: 论文探讨了超级对齐(superalignment)问题,提出了一种结合外部监督和内在主动对齐的框架,以确保超级智能AI与人类价值观一致。
- Motivation: 随着AI向超级智能(ASI)发展,其可能超出人类控制并引发灾难性后果,因此需要解决超级对齐问题。现有方法可能不足以应对ASI的挑战。
- Method: 论文重新定义了超级对齐,提出了一种结合外部监督(基于人类决策和自动化评估)和内在主动对齐(基于自我意识、同理心等)的框架。
- Result: 通过整合外部监督和内在主动对齐,论文提出了一种可持续的共生社会框架,以实现人类与AI的共同对齐。
- Conclusion: 该框架为实现安全且有益的AGI和ASI提供了路径,促进了人类与AI的共生关系。
[79] Towards Machine-Generated Code for the Resolution of User Intentions
Justus Flerlage,Ilja Behnke,Odej Kao
Main category: cs.AI
TL;DR: 论文探讨了利用AI(特别是LLMs)通过代码生成实现用户意图解析的可行性,展示了GPT-4o-mini在生成工作流代码方面的能力。
- Motivation: 随着AI(尤其是LLMs)能力的提升,用户与设备的交互方式需要重新评估。传统的高层应用可能被AI生成的代码工作流取代,实现更直接的意图解析。
- Method: 通过向LLM(如GPT-4o-mini)提供具体用户意图和简化的API,生成并执行代码工作流,分析其可行性和效果。
- Result: 研究发现该方法总体可行,且GPT-4o-mini在生成符合用户意图的代码工作流方面表现优异。
- Conclusion: AI生成的代码工作流有望成为用户与设备交互的新范式,结合人类意图定义与AI实现,推动混合工作流的发展。
[80] Auditing the Ethical Logic of Generative AI Models
W. Russell Neuman,Chad Coleman,Ali Dasdan,Safinah Ali,Manan Shah
Main category: cs.AI
TL;DR: 本文提出了一种五维审计模型,用于评估大型语言模型(LLMs)的伦理推理能力,发现模型在伦理决策上表现一致,但在解释严谨性和道德优先级上存在差异。
- Motivation: 随着生成式AI模型在高风险领域的广泛应用,评估其伦理推理能力的需求日益迫切。
- Method: 采用五维审计模型(分析质量、伦理考虑广度、解释深度、一致性和决断力),结合多组提示(包括新颖的伦理困境)来评估LLMs。
- Result: 研究发现,虽然模型在伦理决策上表现一致,但解释严谨性和道德优先级存在差异;链式思维提示和推理优化模型显著提升了性能。
- Conclusion: 本研究为AI系统的伦理基准测试提供了可扩展的方法,并展示了AI在复杂决策中辅助人类道德推理的潜力。
eess.SY
[81] Peer-Aware Cost Estimation in Nonlinear General-Sum Dynamic Games for Mutual Learning and Intent Inference
Seyed Yousef Soltanian,Wenlong Zhang
Main category: eess.SY
TL;DR: 论文提出了一种非线性同伴感知成本估计算法(N-PACE),用于解决不完全信息动态博弈中的协调问题,通过迭代线性二次逼近和建模同伴学习动态,实现快速无偏学习。
- Motivation: 现有方法假设一个代理完全了解同伴,导致估计偏差和协调失败,因此需要一种新方法来解决这一问题。
- Method: N-PACE通过迭代线性二次逼近非线性博弈,建模同伴的学习动态,推断其目标函数。
- Result: N-PACE实现了快速无偏学习,并支持多智能体系统中的意图通信。
- Conclusion: N-PACE为解决不完全信息动态博弈中的协调问题提供了有效方法,并增强了任务完成和安全性。
cs.LO
[82] Analyzing Value Functions of States in Parametric Markov Chains
Kasper Engelen,Guillermo A. Pérez,Shrisha Rao
Main category: cs.LO
TL;DR: 本文提出了一种将参数马尔可夫链(pMC)单调性问题简化为状态可达概率比较的方法,并利用等价类折叠算法优化验证过程。实验表明该方法能有效减少模型规模并加速单调性检查。
- Motivation: 参数马尔可夫链(pMC)验证的复杂性较高,研究如何通过简化问题(如单调性检查)来优化验证过程。
- Method: 将单调性问题转化为状态可达概率比较,利用等价类折叠算法优化模型。
- Result: 实验显示该方法能显著减少模型规模并加速单调性检查。
- Conclusion: 提出的方法可作为快速预处理步骤,提升pMC验证效率。
cs.MM
[83] Multifaceted Evaluation of Audio-Visual Capability for MLLMs: Effectiveness, Efficiency, Generalizability and Robustness
Yusheng Zhao,Junyu Luo,Xiao Luo,Weizhi Zhang,Zhiping Xiao,Wei Ju,Philip S. Yu,Ming Zhang
Main category: cs.MM
TL;DR: 本文对多模态大语言模型(MLLMs)的音频-视觉能力进行了多维度评估,发现其在零样本和小样本泛化能力上表现优异,但对视觉模态依赖性强,且在对抗样本下表现脆弱。
- Motivation: 当前缺乏对MLLMs音频-视觉能力的全面评估,尤其是在分布偏移和对抗攻击等多样化场景下。
- Method: 通过四个关键维度(有效性、效率、泛化性和鲁棒性)对MLLMs进行多角度评估,并进行广泛实验。
- Result: MLLMs在零样本和小样本泛化能力上表现优异,但对视觉模态依赖性强;在对抗样本下虽脆弱,但比传统模型更鲁棒。
- Conclusion: 研究揭示了MLLMs音频-视觉能力的优势和不足,为未来研究提供了改进方向和指导。
cs.MA
[84] Towards a HIPAA Compliant Agentic AI System in Healthcare
Subash Neupane,Shaswata Mitra,Sudip Mittal,Shahram Rahimi
Main category: cs.MA
TL;DR: 本文介绍了一种符合HIPAA标准的Agentic AI框架,通过动态、上下文感知的策略执行确保合规性,整合了ABAC、混合PHI清理管道和不可变审计跟踪。
- Motivation: 随着基于LLM的Agentic AI系统在临床工作流程中的广泛应用,处理敏感医疗数据时需要严格遵守HIPAA等法规,因此需要一种合规框架。
- Method: 框架整合了三种核心机制:ABAC用于细粒度PHI治理,混合PHI清理管道(结合正则表达式和BERT模型)以减少泄漏,以及不可变审计跟踪用于合规验证。
- Result: 该框架能够动态执行合规策略,有效管理PHI并减少数据泄漏风险。
- Conclusion: 提出的框架为Agentic AI系统在医疗领域的合规应用提供了可行解决方案。
cs.RO
[85] Robo-Troj: Attacking LLM-based Task Planners
Mohaiminul Al Nahian,Zainab Altaweel,David Reitano,Sabbir Ahmed,Saumitra Lohokare,Shiqi Zhang,Adnan Siraj Rakin
Main category: cs.RO
TL;DR: 本文提出了Robo-Troj,一种针对基于LLM的任务规划器的多触发器后门攻击方法,旨在揭示其安全漏洞并促进安全机器人系统的发展。
- Motivation: 尽管基于LLM的任务规划器表现出色,但其安全研究不足。本文旨在填补这一空白,揭示潜在威胁。
- Method: 开发Robo-Troj,一种多触发器后门攻击方法,通过优化触发器选择来激活特定恶意行为。
- Result: 成功展示了基于LLM的任务规划器的脆弱性,验证了Robo-Troj的有效性。
- Conclusion: 通过揭示安全漏洞,本文呼吁加强LLM任务规划器的安全性研究。
[86] Object Pose Estimation by Camera Arm Control Based on the Next Viewpoint Estimation
Tomoki Mizuno,Kazuya Yabashi,Tsuyoshi Tasaki
Main category: cs.RO
TL;DR: 提出了一种新方法,通过同时估计下一个视角(NV)来提高零售机器人对简单形状产品的姿态估计准确率。
- Motivation: 现有基于神经网络的RGBD相机姿态估计方法在特征较少时准确率下降,而传统数学模型方法难以有效估计NV。
- Method: 开发了一种新的姿态估计神经网络,同时估计NV,利用姿态估计与NV估计的关系提高准确性。
- Result: 实验显示,NV估计使姿态估计成功率提高7.4个百分点至77.3%,机器人成功展示84.2%的产品。
- Conclusion: 该方法显著提升了简单形状产品的姿态估计和展示效率。
[87] BIM-Constrained Optimization for Accurate Localization and Deviation Correction in Construction Monitoring
Asier Bikandi,Muhammad Shaheer,Hriday Bavle,Jayan Jevanesan,Holger Voos,Jose Luis Sanchez-Lopez
Main category: cs.RO
TL;DR: 论文提出了一种基于BIM的漂移校正方法,通过将现实环境中的平面与BIM模型中的平面对齐,优化SLAM与BIM之间的转换,显著减少了建筑监控中AR应用的漂移误差。
- Motivation: 建筑工地环境复杂,传统跟踪方法因特征缺失和动态变化导致AR可视化不准确,需要一种更可靠的漂移校正方法。
- Method: 利用BIM作为结构先验知识,通过优化技术计算SLAM与BIM坐标系之间的转换,实现平面匹配和漂移校正。
- Result: 实验表明,该方法平均减少了52.24%的角度偏差和60.8%的距离误差,显著提升了AR对齐精度。
- Conclusion: 结合BIM的漂移校正方法有效解决了建筑工地AR应用中的漂移问题,提升了长期定位和可视化准确性。
[88] Integrating Learning-Based Manipulation and Physics-Based Locomotion for Whole-Body Badminton Robot Control
Haochen Wang,Zhiwei Shi,Chengxi Zhu,Yafei Qiao,Cheng Zhang,Fan Yang,Pengjie Ren,Lan Lu,Dong Xuan
Main category: cs.RO
TL;DR: 论文提出了一种混合控制系统HAMLET,结合模型方法和学习策略(模仿学习+强化学习)用于敏捷羽毛球机器人控制,显著提升了成功率和安全性。
- Motivation: 现有学习策略(如模仿学习和强化学习)在敏捷机器人任务中表现优异,但缺乏与模型方法的结合以降低训练复杂度并确保安全性和稳定性。
- Method: 提出模型底盘运动策略作为基础,并设计物理启发的“IL+RL”训练框架,利用特权信息引导学习过程,同时在IL阶段训练评论家模型以减少性能下降。
- Result: 在自研羽毛球机器人上实现94.5%对发球机和90.7%对人类玩家的成功率。
- Conclusion: HAMLET系统在敏捷机器人控制中表现优异,并可推广至其他敏捷操作任务。
q-bio.BM
[89] Deciphering the unique dynamic activation pathway in a G protein-coupled receptor enables unveiling biased signaling and identifying cryptic allosteric sites in conformational intermediates
Jigang Fan,Chunhao Zhu,Xiaobing Lan,Haiming Zhuang,Mingyu Li,Jian Zhang,Shaoyong Lu
Main category: q-bio.BM
TL;DR: 研究揭示了NTSR1的动态逐步激活机制和信号偏转网络,发现了一个隐秘的变构位点,为开发NTSR1变构调节剂提供了新策略。
- Motivation: 探索NTSR1的激活机制和信号偏转,以开发治疗成瘾相关疾病的潜在方法。
- Method: 结合计算和实验方法,包括分子动力学模拟、马尔可夫状态模型、时间通信网络分析、定点突变和构象生物传感器。
- Result: 揭示了NTSR1的动态激活机制、信号网络和隐秘变构位点。
- Conclusion: 研究为理解NTSR1的原子级激活机制和开发变构调节剂提供了重要见解。
cs.SE
[90] Automatically Generating Rules of Malicious Software Packages via Large Language Model
XiangRui Zhang,HaoYu Chen,Yongzhong He,Wenjia Niu,Qiang Li
Main category: cs.SE
TL;DR: RuleLLM利用大语言模型自动生成开源生态系统的安全规则,显著提升了对软件供应链攻击的检测能力。
- Motivation: 现有安全工具依赖专家预定义规则,难以应对新兴的软件供应链攻击。
- Method: RuleLLM从恶意软件中提取元数据和代码片段,生成可直接部署的YARA和Semgrep规则,包括规则生成、优化和对齐三个子任务。
- Result: 在1,633个恶意包数据集上,RuleLLM生成了763条规则(452 YARA和311 Semgrep),准确率85.2%,召回率91.8%,优于现有工具。
- Conclusion: RuleLLM通过自动化规则生成,显著提升了安全工具的适应性和检测效率,并提出了11类38子类的规则分类法。
[91] Towards Leveraging Large Language Model Summaries for Topic Modeling in Source Code
Michele Carissimi,Martina Saletta,Claudio Ferretti
Main category: cs.SE
TL;DR: 结合大语言模型(LLM)和主题建模技术,提出一种自动识别Python代码主题的新方法,实验表明该方法能生成语义丰富的代码表示。
- Motivation: 理解源代码对软件工程任务(如维护和重用)至关重要,现有技术(如LLM和主题建模)的结合可能提供更优解决方案。
- Method: 使用LLM生成代码摘要,再对其应用主题建模,并与基于函数名和现有文档字符串的主题进行比较。
- Result: 实验显示,LLM生成的摘要能提供可解释且语义丰富的代码结构表示。
- Conclusion: 该方法在自动文档生成、代码搜索等软件工程任务中具有应用潜力。
[92] Detection, Classification and Prevalence of Self-Admitted Aging Debt
Murali Sridharan,Mika Mäntylä,Leevi Rantala
Main category: cs.SE
TL;DR: 论文提出“老化债务”(AD)概念,通过源代码注释中的“自认老化债务”(SAAD)研究软件老化,并提出分类法量化开源软件中的AD。
- Motivation: 现有研究多关注运行时指标,忽略演化指标(如源代码注释),且对技术债务(TD)背景下的老化问题研究不足。
- Method: 采用混合方法(定性与定量分析),从源代码注释中提取SAAD模式并建立分类法,量化开源软件中的AD。
- Result: 分类法将软件老化分为活跃和休眠两类,分析9000+开源仓库发现21%存在SAAD,休眠AD为主要类型。
- Conclusion: 软件规模扩大带来老化挑战,分类法可助力研究和实践,优化维护策略。
astro-ph.IM
[93] Fried Parameter Estimation from Single Wavefront Sensor Image with Artificial Neural Networks
Jeffrey Smith,Taisei Fujii,Jesse Cranney,Charles Gretton
Main category: astro-ph.IM
TL;DR: 论文提出了一种基于机器学习的数据驱动方法,用于从单个波前传感器图像中估计Fried参数(r0),以优化自适应光学系统的性能。
- Motivation: 大气湍流会降低地面望远镜观测的质量,自适应光学系统需要实时校正波前,而Fried参数是关键控制参数。传统方法可能不够高效或准确。
- Method: 采用计算机视觉中的机器学习方法,从Shack-Hartmann或金字塔波前传感器图像中估计r0,并通过COMPASS AO仿真工具进行详细评估。
- Result: 方法在开环和闭环AO配置中均能准确估计r0,误差在毫米级,且推理时间仅0.83毫秒,适合实时控制。
- Conclusion: 该方法为实时仪器控制提供了一种经济高效的解决方案。
cs.HC
[94] What Makes for a Good Saliency Map? Comparing Strategies for Evaluating Saliency Maps in Explainable AI (XAI)
Felix Kares,Timo Speith,Hanwei Zhang,Markus Langer
Main category: cs.HC
TL;DR: 该研究比较了三种显著性图方法(LIME、Grad-CAM和Guided Backpropagation)在不同评估方法下的表现,发现评估结果不一致,并探讨了数学指标与用户理解之间的关系。
- Motivation: 显著性图是解释神经网络分类的常用方法,但如何评估其效果仍是一个开放问题。研究旨在比较不同评估方法(主观用户测量、客观用户测量和数学指标)下显著性图的表现。
- Method: 研究通过被试间实验(N=166)测试了三种显著性图方法在主观信任与满意度、用户能力提升及数学指标评分上的差异,并分析了数学指标与用户理解的关系。
- Result: 结果显示:主观评估无显著差异;Grad-CAM最能提升用户能力;Guided Backpropagation数学指标最优;部分数学指标与用户理解相关但关系反直觉。
- Conclusion: 研究表明不同评估方法对显著性图的评价不一致,数学指标与用户理解的关系复杂,强调了用户研究与数学指标在可解释AI评估中的互补性。
[95] Psychological Effect of AI driven marketing tools for beauty/facial feature enhancement
Ayushi Agrawal,Aditya Kondai,Kavita Vemuri
Main category: cs.HC
TL;DR: AI面部评估工具对自我物化、自尊和情绪反应有显著影响,尤其在性别差异方面。研究发现,即使是中性版本的工具也可能引发负面情绪,并强化社会偏见。
- Motivation: 探讨AI面部评估工具对心理的影响,尤其是自我物化和自尊,以及性别差异。
- Method: 使用两种不同版本的面部分析工具(批评性和中性),测量参与者的自我物化、自尊、情绪反应等。
- Result: 高自我物化和低自尊与外观增强行为相关;中性工具仍引发负面情绪;女性更倾向于数字增强且对他人情绪感知较弱。
- Conclusion: AI工具可能无意中强化社会偏见,需负责任的设计。未来研究将关注训练数据中的意识形态如何影响工具输出及用户态度。
[96] Improving Human-Autonomous Vehicle Interaction in Complex Systems
Robert Kaufman
Main category: cs.HC
TL;DR: 论文探讨了自动驾驶车辆(AVs)如何满足乘客的信息需求,强调个性化、情境敏感的通信策略的重要性,并通过三项实证研究支持这一观点。
- Motivation: 自动驾驶车辆的普及受限于如何满足不同乘客和情境下的信息需求,现有研究往往忽视了个体差异和情境变化。
- Method: 通过三项实证研究:1)极端驾驶环境中的通信策略优化;2)错误通信系统的后果分析;3)机器学习预测乘客对AV的信任。
- Result: 研究发现任务敏感、情境敏感的通信策略能提升驾驶表现和信任,个性化设计对满足个体需求至关重要。
- Conclusion: 论文主张透明、可适应且个性化的AV系统,为设计者、研究者和政策制定者提供了重要见解。
[97] Exploring Context-aware and LLM-driven Locomotion for Immersive Virtual Reality
Süleyman Özdel,Kadir Burak Buldu,Enkelejda Kasneci,Efe Bozkir
Main category: cs.HC
TL;DR: 提出了一种基于大型语言模型(LLM)的虚拟现实(VR)自然语言导航方法,与传统控制器和语音导航相比,具有相似的可用性和沉浸感,同时增强用户注意力。
- Motivation: 传统语音导航依赖固定指令集,限制了交互的自然性和灵活性,而LLM驱动的导航能提供更自然的语言交互。
- Method: 评估了三种导航方法:控制器传送、语音转向和LLM驱动的自然语言导航,通过眼动追踪数据和标准化问卷分析用户体验。
- Result: LLM导航在可用性、沉浸感和晕动症方面与传统方法相当,但能增强用户注意力。SHAP分析显示视觉注意力和认知处理模式不同。
- Conclusion: LLM驱动的导航为虚拟空间中的免手操作提供了舒适、自然的替代方案,尤其适合提升无障碍性。
[98] The Malicious Technical Ecosystem: Exposing Limitations in Technical Governance of AI-Generated Non-Consensual Intimate Images of Adults
Michelle L. Ding,Harini Suresh
Main category: cs.HC
TL;DR: 本文采用以幸存者为中心的方法,分析社会技术AI治理在防止AI生成非自愿亲密图像(AIG-NCII)中的作用,揭示了一个恶意技术生态系统(MTE)及其治理缺陷。
- Motivation: 研究动机是探讨当前AI治理方法在防止成人AIG-NCII方面的不足,尤其是针对恶意技术生态系统的监管漏洞。
- Method: 方法包括识别MTE(开源换脸模型和“脱衣”软件),并基于NIST AI 100-4报告分析当前治理实践的缺陷。
- Result: 研究发现当前治理方法未能有效监管MTE,且存在错误的假设导致监管漏洞。
- Conclusion: 结论指出需要改进AI治理方法,以更有效地防止AIG-NCII的生成和传播。
[99] INSIGHT: Bridging the Student-Teacher Gap in Times of Large Language Models
Jarne Thys,Sebe Vanbrabant,Davy Vanacken,Gustavo Rovelo Ruiz
Main category: cs.HC
TL;DR: INSIGHT是一个模块化AI工具,旨在通过分析学生问题动态构建FAQ,帮助教师提供个性化支持,同时探讨了AI在教育中的潜力与挑战。
- Motivation: 探讨AI(尤其是大语言模型)在教育中的潜力与挑战,如个性化教学与学生隐私问题。
- Method: 提出INSIGHT,通过分析学生问题提取关键词,动态构建FAQ,为教师提供个性化支持。
- Result: INSIGHT模块化设计可整合到高等教育课程中,提升教学互动性。
- Conclusion: 未来可通过学生数据优化自适应学习,打造更具互动性和包容性的学习体验。
physics.optics
[100] Physics-guided and fabrication-aware inverse design of photonic devices using diffusion models
Dongjin Seo,Soobin Um,Sangbin Lee,Jong Chul Ye,Haejun Chung
Main category: physics.optics
TL;DR: AdjointDiffusion是一种物理引导的框架,将伴随敏感度梯度融入扩散模型的采样过程,显著减少了仿真需求,提高了设计效率。
- Motivation: 传统逆向设计方法(如全局优化或伴随梯度法)需要复杂的二值化和过滤步骤,而深度学习策略需要大量仿真。AdjointDiffusion旨在克服这些限制。
- Method: 训练扩散网络于合成数据集,并在去噪过程中注入伴随梯度,引导生成高优值解。
- Result: 在波导和CMOS图像传感器颜色路由器设计中,AdjointDiffusion在效率和可制造性上优于非线性优化器,且仿真需求大幅降低。
- Conclusion: AdjointDiffusion提供了一种高效、仿真需求低且制造友好的光子器件设计方法。
cs.CR
[101] Proof of Useful Intelligence (PoUI): Blockchain Consensus Beyond Energy Waste
Zan-Kai Chong,Hiroyuki Ohsaki,Bryan Ng
Main category: cs.CR
TL;DR: 论文提出了一种名为“Proof of Useful Intelligence (PoUI)”的混合共识机制,结合AI任务与区块链安全,旨在解决传统共识机制的资源浪费或中心化问题。
- Motivation: 传统共识机制如PoW资源消耗大,PoS可能导致中心化,而AI模型对计算资源的需求日益增长,需要一种既能保障安全又具实用性的新机制。
- Method: 提出PoUI机制,通过让工作者完成AI任务(如语言处理或图像分析)来获得代币,并将代币质押以保障网络安全,结合智能合约协调节点协作。
- Result: PoUI机制在保障区块链安全的同时,为AI任务提供了实用价值,实现了资源的高效利用。
- Conclusion: PoUI是一种创新的混合共识机制,兼具安全性与实用性,有望推动区块链与AI的协同发展。
cs.DC
[102] Optimized Cloud Resource Allocation Using Genetic Algorithms for Energy Efficiency and QoS Assurance
Caroline Panggabean,Devaraj Verma C,Bhagyashree Gogoi,Ranju Limbu,Rhythm Sarker
Main category: cs.DC
TL;DR: 本文提出了一种基于遗传算法的虚拟机放置与整合方法,旨在降低能耗并满足服务质量约束,优于传统启发式算法。
- Motivation: 云计算环境需要动态高效的资源管理,以确保性能优化、能耗降低和服务水平协议(SLA)的遵守。
- Method: 采用遗传算法动态调整虚拟机分配,根据实时工作负载变化进行优化。
- Result: 实验结果显示能耗、虚拟机迁移次数、SLA违规率和执行时间显著降低,相关热图验证了方法的有效性。
- Conclusion: 该方法在优化云资源利用方面表现出色,证实了其高效性。
cs.LG
[103] Backslash: Rate Constrained Optimized Training of Large Language Models
Jun Wu,Jiangtao Wen,Yuxing Han
Main category: cs.LG
TL;DR: 论文提出了一种名为Backslash的训练时压缩方法,通过率失真优化实现模型精度与复杂度的灵活权衡,显著减少参数冗余,实验表明其能在不损失精度的情况下减少60%-90%内存使用。
- Motivation: 大型语言模型(LLMs)的参数压缩研究主要集中在训练后阶段,而训练阶段的压缩尚未充分探索。本文旨在填补这一空白。
- Method: 提出Rate-Constrained Training(Backslash),基于率失真优化(RDO),在训练过程中实现模型压缩。
- Result: Backslash在多种架构和任务中显著减少内存使用(60%-90%),且不损失精度;同时提升泛化能力、模型鲁棒性和推理效率。
- Conclusion: Backslash是一种高效且多功能的训练时压缩方法,为模型优化提供了新方向。
[104] Unsupervised Time-Series Signal Analysis with Autoencoders and Vision Transformers: A Review of Architectures and Applications
Hossein Ahmadi,Sajjad Emdadi Mahdimahalleh,Arman Farahat,Banafsheh Saffari
Main category: cs.LG
TL;DR: 本文综述了自编码器和视觉变换器在无监督信号分析中的应用,探讨了其架构、应用及趋势,并指出了可解释性、可扩展性和领域泛化等挑战。
- Motivation: 随着无线通信、雷达、生物医学工程和物联网等领域中未标记时间序列数据的快速增长,无监督学习的需求推动了相关技术的进步。
- Method: 通过分析自编码器和视觉变换器的架构及其在特征提取、异常检测和分类中的应用,结合混合架构和自监督学习的优势。
- Result: 综述展示了这些模型在多种信号类型(如心电图、雷达波形和物联网传感器数据)中的有效性,并提出了未来发展的方向。
- Conclusion: 本文为开发鲁棒、自适应的信号智能模型提供了路线图,同时指出了当前技术面临的挑战。
[105] (Im)possibility of Automated Hallucination Detection in Large Language Models
Amin Karbasi,Omar Montasser,John Sous,Grigoris Velegkas
Main category: cs.LG
TL;DR: 本文探讨了自动检测大语言模型(LLM)幻觉的可行性,提出理论框架并证明其与语言识别的等价性。研究发现,仅使用正确样本训练时检测不可行,但加入专家标注的负样本后检测变为可能。
- Motivation: 研究动机是分析自动检测LLM幻觉的可行性,为实际部署提供理论支持。
- Method: 采用理论框架,将幻觉检测与语言识别任务等价化,并分析不同训练数据(仅正样本 vs. 正负样本)对检测能力的影响。
- Result: 仅用正确样本训练时,幻觉检测不可行;加入专家标注的负样本后,检测变为可能。
- Conclusion: 专家标注的负样本对幻觉检测至关重要,支持基于反馈的方法(如RLHF)在实际中的应用。
[106] Democracy of AI Numerical Weather Models: An Example of Global Forecasting with FourCastNetv2 Made by a University Research Lab Using GPU
Iman Khadir,Shane Stevenson,Henry Li,Kyle Krick,Abram Burrows,David Hall,Stan Posey,Samuel S. P. Shen
Main category: cs.LG
TL;DR: 本文探讨了如何利用GPU和免费AI模型(如FourCastNetv2)在大学研究小组中普及AI驱动的全球天气预报模型,并分析了资源限制下的挑战与可能性。
- Motivation: 传统数值天气预报(NWP)成本高且耗时,而AI模型(如FourCastNetv2)能显著降低成本和时间。然而,资源有限的大学研究小组在复现结果时面临挑战。本文旨在探索如何利用现有技术实现AI天气预报的民主化。
- Method: 通过FourCastNetv2的API生成预测,并利用NVIDIA硬件训练原始FourCastNet模型。同时,分析了A100 GPU在资源有限环境下的能力与限制,探讨了数据管理、训练效率和模型验证。
- Result: 展示了在有限资源下使用FourCastNetv2和A100 GPU的可行性,但也揭示了训练和复现结果的挑战。
- Conclusion: 本文为大学研究小组和课程提供了AI天气预报研究和教育的初步指南,有助于推动AI NWP在数字经济中的民主化。
[107] Statistical Guarantees in Synthetic Data through Conformal Adversarial Generation
Rahul Vishwakarma
Main category: cs.LG
TL;DR: 提出了一种结合共形预测与GAN的新框架(cGAN),为生成数据提供统计保证,适用于高风险领域。
- Motivation: 现有生成模型缺乏对数据分布的严格统计保证,限制了其在关键领域的应用。
- Method: 将多种共形预测方法(如ICP、Mondrian等)集成到GAN中,实现分布无关的不确定性量化。
- Result: cGAN在保持生成能力的同时,提供了可证明的统计保证和校准特性。
- Conclusion: cGAN为高风险领域提供了可靠的合成数据生成方法,具有数学证明的有效性和效率。
[108] Scalable Permutation-Aware Modeling for Temporal Set Prediction
Ashish Ranjan,Ayush Agarwal,Shalin Barot,Sushant Kumar
Main category: cs.LG
TL;DR: 提出了一种高效且可扩展的时序集合预测框架,通过置换等变和置换不变变换建模集合动态,显著减少计算开销。
- Motivation: 现有方法依赖复杂架构,计算开销大,难以扩展。
- Method: 利用置换等变和置换不变变换高效建模集合动态。
- Result: 在多个公开基准测试中,性能与或优于现有最优模型。
- Conclusion: 该模型实现了高效且可扩展的时序集合预测。
[109] OUI Need to Talk About Weight Decay: A New Perspective on Overfitting Detection
Alberto Fernández-Hernández,Jose I. Mestre,Manuel F. Dolz,Jose Duato,Enrique S. Quintana-Ortí
Main category: cs.LG
TL;DR: 论文提出了一种名为OUI的新工具,用于监测深度神经网络的训练动态,并帮助选择最佳正则化超参数(如Weight Decay)。实验表明,OUI能快速指示模型是否过拟合或欠拟合,无需验证数据,且比传统指标更快收敛。
- Motivation: 深度神经网络训练中,选择合适的正则化超参数(如Weight Decay)对模型性能至关重要。传统方法依赖验证数据且耗时,OUI旨在提供一种更高效的解决方案。
- Method: 提出OUI作为训练动态监测工具,通过实验在多种数据集(CIFAR-100、TinyImageNet、ImageNet-1K)和模型(DenseNet-BC-100、EfficientNet-B0、ResNet-34)上验证其有效性。
- Result: OUI能快速指示模型是否过拟合或欠拟合,帮助在训练早期确定最佳Weight Decay值,显著提升模型泛化能力和验证分数。
- Conclusion: OUI是一种高效的工具,可帮助研究人员和从业者更精确地调整正则化超参数,优化模型性能。
[110] Synthetic Power Flow Data Generation Using Physics-Informed Denoising Diffusion Probabilistic Models
Junfei Wang,Darshana Upadhyay,Marzia Zaman,Pirathayini Srikantha
Main category: cs.LG
TL;DR: 本文提出了一种基于DDPM的物理信息生成框架,用于合成可行的电力潮流数据,解决了实际数据受限的问题。
- Motivation: 智能电网中许多数据驱动模块依赖高质量的电力潮流数据,但实际数据常因隐私和操作限制而不足。
- Method: 采用DDPM框架,结合辅助训练和物理信息损失函数,确保生成数据既具统计保真度又符合电力系统可行性。
- Result: 在IEEE 14-bus和30-bus系统上验证,模型在可行性、多样性和统计特征准确性上优于基线。
- Conclusion: 该研究展示了生成模型在数据驱动电力系统应用中的潜力。
[111] Enhancing Variational Autoencoders with Smooth Robust Latent Encoding
Hyomin Lee,Minseon Kim,Sangwon Jang,Jongheon Jeong,Sung Ju Hwang
Main category: cs.LG
TL;DR: SRL-VAE是一种新的对抗训练框架,通过平滑潜在空间提升生成质量和鲁棒性,同时保持原始保真度。
- Motivation: 探索变分自编码器(VAEs)在生成模型中的鲁棒性问题,挑战对抗训练会降低生成模型性能的假设。
- Method: 提出SRL-VAE框架,通过对抗扰动平滑潜在空间,并结合原始表示正则化以维持保真度。
- Result: SRL-VAE在图像重建、文本引导编辑及对抗攻击(如Nightshade)中表现优异,提升生成质量和鲁棒性。
- Conclusion: 对抗训练可同时增强生成模型的保真度和鲁棒性,为生成模型提供新范式。
[112] NeuralGrok: Accelerate Grokking by Neural Gradient Transformation
Xinyu Zhou,Simin Fan,Martin Jaggi,Jie Fu
Main category: cs.LG
TL;DR: NeuralGrok是一种基于梯度的新方法,通过动态调整梯度分量加速Transformer在算术任务中的泛化。
- Motivation: 研究Grokking现象,即模型在长时间过拟合后突然泛化,并提出一种方法加速这一过程。
- Method: NeuralGrok通过训练一个辅助模块(如MLP块)动态调整梯度分量,采用双层优化算法指导。
- Result: 实验表明NeuralGrok显著加速泛化,提升训练稳定性,并通过AGE指标验证其降低模型复杂度的效果。
- Conclusion: NeuralGrok为理解Transformer的泛化能力提供了新视角,并展示了其在算术任务中的优越性。
[113] Targeted AMP generation through controlled diffusion with efficient embeddings
Diogo Soares,Leon Hetzel,Paulina Szymczak,Fabian Theis,Stephan Günnemann,Ewa Szczurek
Main category: cs.LG
TL;DR: OmegAMP是一个基于扩散模型的框架,用于高效生成具有特定性质的抗菌肽(AMP),显著提高了实验命中率和多样性。
- Motivation: 解决深度学习在AMP发现中实验命中率低、可控性不足和肽性质建模效率低的问题。
- Method: 利用扩散生成模型结合低维嵌入、精确可控机制和新型分类器,减少假阳性率。
- Result: OmegAMP在AMP发现流程中表现出色,显著提升了计算框架对抗菌耐药性的潜力。
- Conclusion: OmegAMP为AMP发现提供了高效、可控且多样化的解决方案,推动了计算框架的应用。
[114] Symbolic Representation for Any-to-Any Generative Tasks
Jiaqi Chen,Xiaoye Zhu,Yue Wang,Tianyang Liu,Xinhui Chen,Ying Chen,Chak Tou Leong,Yifei Ke,Joseph Liu,Yiwen Yuan,Julian McAuley,Li-jia Li
Main category: cs.LG
TL;DR: 提出了一种符号化生成任务描述语言及推理引擎,能表示任意多模态任务为结构化符号流,无需大规模训练,具有高效性和灵活性。
- Motivation: 传统生成模型依赖大规模训练和隐式神经表示,计算成本高且灵活性有限。本文旨在通过显式符号表示解决这些问题。
- Method: 引入三种核心符号原语(函数、参数、拓扑逻辑),利用预训练语言模型将自然语言指令直接映射为符号工作流,无需任务特定调优。
- Result: 在12种多模态生成任务中表现优异,内容质量匹配或超越现有统一模型,同时具备更高效率、可编辑性和可中断性。
- Conclusion: 符号化任务表示为生成AI提供了成本低、可扩展的基础,推动了其能力发展。
[115] ExOSITO: Explainable Off-Policy Learning with Side Information for Intensive Care Unit Blood Test Orders
Zongliang Ji,Andre Carlos Kajdacsy-Balla Amaral,Anna Goldenberg,Rahul G. Krishnan
Main category: cs.LG
TL;DR: 论文提出了一种结合离策略学习和特权信息的新方法(ExOSITO),用于优化ICU实验室测试的订购,旨在减少过度订购的负担。
- Motivation: ICU中实验室测试的过度订购增加了临床负担和成本,需要一种平衡信息获取与资源优化的方法。
- Method: 使用离策略学习和特权信息,结合临床知识和观察数据,提出ExOSITO框架,通过因果强盗模型训练。
- Result: ExOSITO优于医生策略和现有方法,减少成本且不遗漏关键测试。
- Conclusion: ExOSITO为临床医生提供了可解释的辅助工具,优化了实验室测试的订购。
[116] Collaborative Multi-Agent Reinforcement Learning for Automated Feature Transformation with Graph-Driven Path Optimization
Xiaohan Huang,Dongjie Wang,Zhiyuan Ning,Ziyue Qiao,Qingqing Long,Haowei Zhu,Yi Du,Min Wu,Yuanchun Zhou,Meng Xiao
Main category: cs.LG
TL;DR: TCTO是一个基于多智能体强化学习的框架,通过图驱动的路径优化自动化特征工程,动态建模特征和转换关系,提升下游任务性能。
- Motivation: 现有特征转换方法常忽略转换步骤间的动态依赖关系,导致冗余和低效。
- Method: 提出TCTO框架,利用交互图建模特征和转换,通过图剪枝和回溯优化路径,实现动态依赖管理和历史子图复用。
- Result: 实验证明TCTO在多种数据集上表现优异,减少冗余操作并提升性能。
- Conclusion: TCTO通过动态图优化和路径回溯,显著提升特征工程的效率和效果。
[117] Towards Harnessing the Collaborative Power of Large and Small Models for Domain Tasks
Yang Liu,Bingjie Yan,Tianyuan Zou,Jianqing Zhang,Zixuan Gu,Jianbing Ding,Xidong Wang,Jingyi Li,Xiaozhou Ye,Ye Ouyang,Qiang Yang,Ya-Qin Zhang
Main category: cs.LG
TL;DR: 提出大模型与小模型协同合作的方法,以加速大模型在私有领域的适应并释放AI新潜力。
- Motivation: 大模型需要大量数据和计算资源,而小模型虽能力较弱但更高效且可定制化。通过协同合作,可以结合两者的优势。
- Method: 探讨大模型与小模型协同的策略,分析挑战与机遇,并倡导行业驱动的多目标基准研究。
- Result: 提出协同合作能加速大模型在私有领域的应用,并释放AI新潜力。
- Conclusion: 建议行业优先研究多目标基准,推动大模型与小模型在私有领域的协同应用。
[118] HMI: Hierarchical Knowledge Management for Efficient Multi-Tenant Inference in Pretrained Language Models
Jun Zhang,Jue Wang,Huan Li,Lidan Shou,Ke Chen,Gang Chen,Qin Xie,Guiming Xie,Xuejian Gong
Main category: cs.LG
TL;DR: HMI是一种基于分层知识管理的多租户推理系统,通过分层管理PLM知识,显著减少GPU内存使用,支持高效服务大量租户。
- Motivation: 预训练语言模型(PLM)的高计算需求在多租户环境中难以高效服务,HMI旨在解决这一问题。
- Method: 1. 将PLM知识分为通用、领域特定和任务特定三类,构建分层PLM(hPLM);2. 通过频率更新领域知识树和参数交换管理任务知识;3. 系统优化包括分层知识预取和批处理矩阵乘法。
- Result: HMI在单个GPU上可高效服务10,000个hPLM,精度损失可忽略。
- Conclusion: HMI通过分层知识管理和系统优化,显著提升了多租户环境中PLM的资源效率和推理吞吐量。
[119] Group Downsampling with Equivariant Anti-aliasing
Md Ashiqur Rahman,Raymond A. Yeh
Main category: cs.LG
TL;DR: 论文研究了在群等变架构(如G-CNNs)中推广均匀下采样层的方法,提出了一种基于有限群和抗混叠的下采样算法,并在图像分类任务中验证了其有效性。
- Motivation: 下采样层是CNN架构中的关键组成部分,但现有方法在群等变架构中的通用性不足,需要一种适用于有限群的下采样方法。
- Method: 提出了一种算法,根据有限群和下采样率选择子群,并研究了带限性和抗混叠方法,推广了经典采样理论中的下采样概念。
- Result: 实验表明,该方法在图像分类任务中提高了准确性,更好地保持了等变性,并减少了模型大小。
- Conclusion: 该方法为群等变架构提供了一种有效的下采样解决方案,具有理论和实践意义。
[120] Evaluating Time Series Models for Urban Wastewater Management: Predictive Performance, Model Complexity and Resilience
Vipin Singh,Tianheng Ling,Teodor Chiaburu,Felix Biessmann
Main category: cs.LG
TL;DR: 论文提出了一种评估神经网络架构的协议,用于城市污水系统时间序列预测,重点考察预测性能、模型复杂性和抗干扰能力。研究发现全局模型预测性能更高,而局部模型在分散场景中更具韧性。
- Motivation: 气候变化导致极端降雨频发,对城市污水系统造成压力,传统物理模型成本高且难以适应动态变化,机器学习提供了一种高效且适应性强的替代方案。
- Method: 提出评估协议,比较全局模型和局部模型的性能,并引入误差模型评估模型在网络安全和抗干扰方面的表现。
- Result: 全局模型预测性能更优,局部模型在分散场景中更具韧性;长预测范围的模型对数据干扰更具鲁棒性。
- Conclusion: 研究为可持续城市污水管理提供了可解释且可靠的机器学习解决方案,相关实现已在GitHub开源。
[121] Class-Conditional Distribution Balancing for Group Robust Classification
Miaoyun Zhao,Qiang Zhang,Chenrong Li
Main category: cs.LG
TL;DR: 论文提出了一种无需偏差标注或预测的鲁棒学习方法,通过重新加权样本平衡类条件分布,有效消除虚假相关性。
- Motivation: 现有方法依赖昂贵的偏差标注或大规模预训练模型,难以适用于资源有限的罕见领域。
- Method: 通过减少虚假因素与标签信息的互信息,采用样本重新加权策略实现类条件分布平衡。
- Result: 实验表明,该方法性能优异,媲美依赖偏差监督的方法。
- Conclusion: 该方法简单有效,无需偏差标注或预测,适用于资源有限场景。
[122] GRANITE : a Byzantine-Resilient Dynamic Gossip Learning Framework
Yacine Belal,Mohamed Maouche,Sonia Ben Mokhtar,Anthony Simonet-Boulogne
Main category: cs.LG
TL;DR: GRANITE框架通过历史感知的拜占庭抗性对等采样协议(HaPS)和自适应概率阈值(APT),在稀疏动态图上实现了对高达30%拜占庭节点的鲁棒性学习。
- Motivation: 解决Gossip Learning(GL)在动态通信图中对拜占庭攻击(模型投毒)的鲁棒性问题,尤其是当拜占庭节点攻击RPS协议时。
- Method: 结合HaPS协议(减少对抗性影响)和APT(根据拜占庭节点比例自适应设置聚合阈值)。
- Result: GRANITE在高达30%拜占庭节点下仍能保持收敛,学习速度提升,且适用于比现有理论稀疏9倍的图。
- Conclusion: GRANITE为稀疏动态图上的鲁棒学习提供了有效解决方案,具有实际应用潜力。
[123] Plasticine: Accelerating Research in Plasticity-Motivated Deep Reinforcement Learning
Mingqi Yuan,Qi Wang,Guozheng Ma,Bo Li,Xin Jin,Yunbo Wang,Xiaokang Yang,Wenjun Zeng,Dacheng Tao
Main category: cs.LG
TL;DR: Plasticine是一个开源框架,用于评估深度强化学习中的可塑性优化,提供多种方法和指标。
- Motivation: 开发终身学习代理对通用人工智能至关重要,但深度强化学习系统常因可塑性损失而难以持续适应。
- Method: Plasticine框架集成了13种缓解方法、10种评估指标,并在不同非平稳性环境中进行测试。
- Result: Plasticine为研究者提供了系统量化可塑性损失、评估缓解策略和分析动态的工具。
- Conclusion: Plasticine填补了可塑性优化领域的空白,为研究提供了标准化基准和协议。
[124] The effects of Hessian eigenvalue spectral density type on the applicability of Hessian analysis to generalization capability assessment of neural networks
Nikita Gabdullin
Main category: cs.LG
TL;DR: 该论文研究了神经网络Hessian矩阵特征值谱密度(HESD)的类型及其对泛化能力的影响,提出了统一的HESD分析方法,并探讨了训练过程中HESD的变化。
- Motivation: 研究HESD类型及其对神经网络泛化能力的影响,以改进现有的Hessian分析方法。
- Method: 通过实验分析不同优化器、数据集和预处理方法下的HESD类型,并提出判断HESD类型的条件和泛化潜力估计标准。
- Result: 发现HESD主要分为正特征值(MP-HESD)和负特征值(MN-HESD),并表明MN-HESD与外部梯度操作相关。
- Conclusion: 提出了统一的HESD分析方法,并揭示了训练过程中HESD的变化及其对传统假设的影响。
[125] Goal-Oriented Time-Series Forecasting: Foundation Framework Design
Luca-Andrei Fechete,Mohamed Sana,Fadhel Ayed,Nicola Piovesan,Wenjie Li,Antonio De Domenico,Tareq Si Salem
Main category: cs.LG
TL;DR: 提出了一种新的时间序列预测训练方法,动态调整预测重点以满足实际应用需求。
- Motivation: 传统预测方法仅关注最小化预测误差,忽略了实际应用的具体需求。
- Method: 将整个信号范围分解为小段,动态加权组合以提高预测准确性。
- Result: 在标准数据集和新无线通信数据集上测试,提升了预测精度和应用性能。
- Conclusion: 为预测系统与实际决策提供了更好的连接基础。
[126] Combining GCN Structural Learning with LLM Chemical Knowledge for or Enhanced Virtual Screening
Radia Berreziga,Mohammed Brahimi,Khairedine Kraim,Hamid Azzoune
Main category: cs.LG
TL;DR: 本文提出了一种结合图卷积网络(GCN)和大语言模型(LLM)的混合架构,用于虚拟筛选,显著提升了性能。
- Motivation: 传统机器学习方法在分子表示上存在信息丢失和潜在偏差,而深度学习方法(如GCN)和LLM提供了更优的解决方案。
- Method: 通过将LLM嵌入与GCN逐层结合,实现局部结构学习和全局化学知识的融合,同时保持计算效率。
- Result: 混合模型F1-score达88.8%,优于GCN(87.9%)、XGBoost(85.5%)和SVM(85.4%)。
- Conclusion: 该混合架构在虚拟筛选中表现出色,为药物发现提供了更高效的解决方案。
[127] Aerial Image Classification in Scarce and Unconstrained Environments via Conformal Prediction
Farhad Pourkamali-Anaraki
Main category: cs.LG
TL;DR: 本文对共形预测方法在复杂真实世界数据集上的表现进行了实证分析,探讨了预训练模型、校准选择和模型压缩的影响。
- Motivation: 研究共形预测在数据稀缺和高度变化的真实环境中的有效性,特别是在复杂任务中提供不确定性估计的能力。
- Method: 使用预训练模型(MobileNet、DenseNet、ResNet)微调有限标注数据,比较有无温度缩放的校准管道,评估覆盖率和预测集大小。
- Result: 共形预测即使在小样本和简单非共形分数下也能提供有价值的不确定性估计;温度缩放不一定减小预测集大小。
- Conclusion: 未来研究应关注噪声标签对共形预测的影响,并探索模型压缩策略。
[128] TACO: Tackling Over-correction in Federated Learning with Tailored Adaptive Correction
Weijie Liu,Ziwei Zhan,Carlee Joe-Wong,Edith Ngai,Jingpu Duan,Deke Guo,Xu Chen,Xiaoxi Zhang
Main category: cs.LG
TL;DR: 论文提出TACO算法,解决联邦学习中非独立同分布数据导致的过校正问题,通过细粒度梯度校正和模型聚合提升性能。
- Motivation: 现有方法在联邦学习中采用统一的模型校正系数,可能导致过校正,影响模型性能和收敛。
- Method: 提出TACO算法,实现客户特定的梯度校正和轻量级模型聚合,减少计算开销。
- Result: 实验验证TACO在多种数据集上表现优越且稳定,并首次揭示了过校正的根本原因。
- Conclusion: TACO有效解决了非独立同分布数据的挑战,提升了联邦学习的效率和准确性。
[129] Learning Isometric Embeddings of Road Networks using Multidimensional Scaling
Juan Carlos Climent Pardo
Main category: cs.LG
TL;DR: 论文提出了一种基于图表示和多维尺度分析(MDS)的方法,以解决学习型自动驾驶系统中泛化能力不足的问题。
- Motivation: 现有学习型自动驾驶系统在复杂道路场景中的泛化能力有限,需要设计能够涵盖多样化道路结构和动态环境的特征空间。
- Method: 利用图表示道路网络,并应用多维尺度分析(MDS)技术构建特征空间,同时探讨了图节点嵌入以简化学习和降维。
- Result: 分析了最先进的图表示和MDS方法在自动驾驶中的应用,展示了其潜力。
- Conclusion: 该方法为提升自动驾驶系统的泛化能力提供了新思路,尤其是在复杂场景中的运动规划任务。
[130] Decentralized Time Series Classification with ROCKET Features
Bruno Casella,Matthias Jakobs,Marco Aldinucci,Sebastian Buschjäger
Main category: cs.LG
TL;DR: DROCKS是一个完全去中心化的联邦学习框架,用于时间序列分类(TSC),通过ROCKET特征和节点间的结构化路径训练全局模型,优于现有客户端-服务器架构方法。
- Motivation: 解决传统联邦学习中客户端-服务器架构的鲁棒性和隐私问题,避免单点故障和服务器对客户数据的观察。
- Method: 利用ROCKET特征,通过节点间的结构化路径训练全局模型,每个节点优化模型并选择最有效的本地核传递给后继节点。
- Result: 在UCR存档上的实验表明,DROCKS优于现有联邦学习方法,且对节点故障和恶意攻击更具弹性。
- Conclusion: DROCKS提供了一种更安全、更鲁棒的联邦学习解决方案,适用于时间序列分类任务。
[131] PTCL: Pseudo-Label Temporal Curriculum Learning for Label-Limited Dynamic Graph
Shengtao Zhang,Haokai Zhang,Shiqi Lou,Zicheng Wang,Zinan Zeng,Yilin Wang,Minnan Luo
Main category: cs.LG
TL;DR: 论文提出PTCL方法,解决动态节点分类中仅能获取最终标签的问题,通过伪标签和时间课程学习策略提升性能。
- Motivation: 动态节点分类中,获取所有时间戳标签成本高且困难,而最终标签更易获得,因此需要一种方法利用最终标签进行动态分类。
- Method: PTCL采用时间解耦架构(分离主干网络和解码器)和时间课程学习策略(为接近最终时间戳的伪标签分配更高权重)。
- Result: 实验表明PTCL在真实场景中优于其他方法,并贡献了新数据集CoOAG。
- Conclusion: PTCL和统一框架FLiD为标签有限的动态节点分类提供了有效解决方案。
[132] Federated Learning: A Survey on Privacy-Preserving Collaborative Intelligence
Edward Collins,Michel Wang
Main category: cs.LG
TL;DR: 联邦学习(FL)是一种分布式机器学习范式,允许多个客户端协作训练共享模型而无需集中敏感数据,解决了隐私和安全问题。本文综述了FL的核心架构、技术挑战、新兴趋势及实际应用,并提出了未来研究方向。
- Motivation: 解决数据隐私、安全和合规性问题,推动分布式机器学习在医疗、金融和物联网等领域的应用。
- Method: 介绍了FL的核心架构、通信协议、生命周期(本地训练、模型聚合、全局更新),并探讨了处理非独立同分布数据、系统异构性、通信开销和隐私保护等技术挑战。
- Result: 总结了FL的实际应用、基准数据集和评估指标,并提出了个性化FL、跨设备与跨组织设置等新兴趋势。
- Conclusion: FL在隐私保护和分布式学习方面具有潜力,但仍需解决可扩展性、效率和信任问题,未来研究方向包括与其他技术(如强化学习、量子计算)的集成。
[133] Early Detection of Multidrug Resistance Using Multivariate Time Series Analysis and Interpretable Patient-Similarity Representations
Óscar Escudero-Arnanz,Antonio G. Marques,Inmaculada Mora-Jiménez,Joaquín Álvarez-Rodríguez,Cristina Soguero-Ruiz
Main category: cs.LG
TL;DR: 该研究提出了一种可解释的机器学习框架,用于预测多药耐药性(MDR),结合患者相似性网络和图形分析,实现了高准确性和可解释性。
- Motivation: 多药耐药性(MDR)是全球健康的重要问题,导致住院时间延长、医疗成本增加和死亡率上升。研究旨在通过可解释的机器学习框架提高预测准确性和临床洞察力。
- Method: 将患者建模为多变量时间序列(MTS),使用描述性统计、动态时间规整和时间聚类核量化患者相似性,输入逻辑回归、随机森林和支持向量机进行分类,并通过谱聚类和t-SNE可视化高风险群组。
- Result: 在ICU电子健康记录上验证,AUC达81%,优于基线模型,识别出抗生素使用、侵入性操作等关键风险因素,并揭示了临床相关群组。
- Conclusion: 患者相似性表示与图形分析结合,提供了准确的MDR预测和可解释的临床见解,支持早期检测和风险分层,展示了可解释机器学习在重症监护中的潜力。
[134] Conformal Segmentation in Industrial Surface Defect Detection with Statistical Guarantees
Cheng Shen,Yuewei Liu
Main category: cs.LG
TL;DR: 该论文提出了一种基于统计校准的方法,用于提高钢铁表面缺陷检测模型的可靠性,确保测试集上的预期错误率严格受限于预定义风险水平。
- Motivation: 传统手动检测效率低且成本高,而基于深度学习的自动检测方法(如Mask R-CNN)因数据标注不确定性和过拟合问题导致可靠性不足。
- Method: 通过满足独立同分布条件的校准数据评估模型性能,定义损失函数量化检测错误率,并基于用户定义风险水平推导统计严格的阈值,构建预测集(如缺陷区域)。
- Result: 方法能严格限制测试集的预期错误率,并观察到预测集大小与风险水平之间的负相关性,验证了模型不确定性的统计严格度量。
- Conclusion: 该方法在多种校准-测试划分比例下均能稳健高效地控制预期错误率,证明了其适应性和操作有效性。
cs.CY
[135] Intrinsic Barriers to Explaining Deep Foundation Models
Zhen Tan,Huan Liu
Main category: cs.CY
TL;DR: 探讨深度基础模型(DFMs)是否因内在障碍而难以解释,并分析当前解释性方法的局限性及其对技术验证和治理的影响。
- Motivation: 随着DFMs复杂性的增加,理解其内部运作成为确保信任、安全和责任的关键。本文旨在探讨解释这些模型的困难是暂时的还是内在的。
- Method: 通过分析DFMs的基本特性和当前解释性方法的局限性,探讨其解释的可行性。
- Result: 指出DFMs的解释困难可能源于其内在特性,并讨论了当前方法的不足。
- Conclusion: 强调需要新的方法来应对DFMs的解释挑战,以确保其可信度和治理。
[136] Approaches to Responsible Governance of GenAI in Organizations
Dhari Gandhi,Himanshu Joshi,Lucas Hartman,Shabnam Hassani
Main category: cs.CY
TL;DR: 论文探讨了生成式AI(GenAI)的快速发展带来的机遇与挑战,提出了基于风险的责任治理框架(ResAI),以平衡创新与监管。
- Motivation: 生成式AI的快速发展带来了伦理、问责和社会影响等复杂问题,需要一种责任治理框架来指导组织实践。
- Method: 通过文献综述、现有治理框架和行业圆桌讨论,识别核心原则,并提出可操作的建议。
- Result: 研究强调需要适应性风险评估工具、持续监控实践和跨部门合作,以建立可信的GenAI。
- Conclusion: 论文提供了ResAI指南,帮助组织将GenAI与伦理、法律和运营最佳实践对齐。
[137] Towards User-Centred Design of AI-Assisted Decision-Making in Law Enforcement
Vesna Nowack,Dalal Alrajeh,Carolina Gutierrez Muñoz,Katie Thomas,William Hobson,Catherine Hamilton-Giachritsis,Patrick Benjamin,Tim Grant,Juliane A. Kloess,Jessica Woodhams
Main category: cs.CY
TL;DR: 论文探讨了执法领域中AI辅助系统的用户需求,强调高效数据处理、可扩展性、准确性等关键要求,并指出完全自动化难以实现。
- Motivation: 研究旨在填补执法领域AI系统设计中的用户需求空白,了解人类在系统中的责任。
- Method: 通过定性研究分析执法机构的决策过程,识别现有实践的局限性并探索用户需求。
- Result: 参与者提出系统需高效处理数据、满足可扩展性等要求,并强调人工审核和反馈的重要性。
- Conclusion: 由于执法领域的复杂性,系统难以完全自动化,需结合人工监督和反馈。
[138] Seeing The Words: Evaluating AI-generated Biblical Art
Hidde Makimei,Shuai Wang,Willem van Peursen
Main category: cs.CY
TL;DR: 论文研究了AI生成圣经文本相关图像的准确性,提供了7K图像数据集,并通过神经网络工具评估了其宗教和美学表现。
- Motivation: 探讨AI是否能根据圣经文本生成符合背景的准确图像,填补系统性评估的空白。
- Method: 构建大型数据集(7K图像),使用神经网络工具多角度评估生成图像。
- Result: 提供了准确性评估,并从宗教和美学角度分析了生成图像的表现。
- Conclusion: 讨论了生成图像的用途,并反思了AI生成器的性能。
q-bio.NC
[139] Can deep neural networks learn biological vision?
Drew Linsley,Pinyuan Feng,Thomas Serre
Main category: q-bio.NC
TL;DR: DNNs曾与灵长类神经反应更一致,但近年趋势逆转,可能因现代DNN依赖不同视觉特征。未来生物视觉模型需脱离AI,设计更接近人类视觉的数据和训练方法。
- Motivation: 探讨DNNs与灵长类视觉系统的差异,提出未来生物视觉模型需更贴近人类视觉的构建方式。
- Method: 分析DNNs与灵长类视觉系统的对比,提出基于生物视觉的数据和训练方法。
- Result: 现代DNNs依赖与灵长类不同的视觉特征,导致模型与生物视觉的差异。
- Conclusion: 未来生物视觉模型需脱离AI框架,采用更接近人类视觉的数据和训练方法。
physics.app-ph
[140] Demonstration of an AI-driven workflow for dynamic x-ray spectroscopy
Ming Du,Mark Wolfman,Chengjun Sun,Shelly D. Kelly,Mathew J. Cherukara
Main category: physics.app-ph
TL;DR: 提出了一种结合领域知识的贝叶斯优化方法,用于自适应XANES数据采集,显著减少测量点数量(仅需15-20%),同时保持高精度。
- Motivation: 传统XANES光谱数据采集耗时,且现有自适应采样方法缺乏对XANES光谱结构的领域知识。
- Method: 采用知识注入的贝叶斯优化方法,结合吸收边和前边峰等光谱特征知识。
- Result: 仅需15-20%的测量点即可准确重建吸收边,峰值误差小于0.03 eV,吸收边误差小于0.1 eV,均方根误差小于0.005。
- Conclusion: 该方法提高了XANES数据采集效率,支持高时间分辨率的动态实验,减少了采样误差。
physics.geo-ph
[141] On the workflow, opportunities and challenges of developing foundation model in geophysics
Hanlin Sheng,Xinming Wu,Hang Gao,Haibin Di,Sergey Fomel,Jintao Li,Xu Si
Main category: physics.geo-ph
TL;DR: 本文提出了一个完整框架,系统探讨了基础模型与地球物理数据结合的全流程,填补了该领域缺乏全面综述的空白。
- Motivation: 近年来基础模型在人工智能领域展现出巨大潜力,但在地球物理学中的应用尚未有全面综述。本文旨在填补这一空白,提供全流程的技术和方法分析。
- Method: 从数据收集、预处理到模型架构选择、预训练策略和部署,详细分析了各阶段关键技术,并针对地球物理数据的多样性、复杂性和物理一致性约束提出了解决方案。
- Result: 通过利用基础模型的迁移学习能力减少对标注数据的依赖,提高计算效率,并将物理约束融入模型训练,提升了物理一致性和可解释性。
- Conclusion: 本文不仅填补了地球物理学领域基础模型全流程综述的空白,还为地球物理数据分析中的实际应用提供了有价值的指导,推动了该领域的创新与发展。
cs.SI
[142] S2Vec: Self-Supervised Geospatial Embeddings
Shushman Choudhury,Elad Aharoni,Chandrakumari Suvarna,Iveel Tsogsuren,Abdul Rahman Kreidieh,Chun-Ta Lu,Neha Arora
Main category: cs.SI
TL;DR: S2Vec是一种自监督框架,用于学习通用的地理空间嵌入,通过S2几何库分区并栅格化特征向量,生成任务无关的嵌入,在多任务中表现优异。
- Motivation: 构建可扩展的通用地理空间表示对地理空间人工智能应用至关重要。
- Method: 使用S2 Geometry库分区,栅格化特征向量为图像,并通过掩码自编码生成嵌入。
- Result: 在三个社会经济预测任务中表现优异,与图像嵌入结合可进一步提升性能。
- Conclusion: S2Vec能生成有效的地理空间表示,并与其他数据模态互补。
[143] MobileCity: An Efficient Framework for Large-Scale Urban Behavior Simulation
Xiaotong Ye,Nicolas Bougie,Toshihiko Yamasaki,Narimasa Watanabe
Main category: cs.SI
TL;DR: 提出了一种可扩展的城市移动模拟框架,支持大规模人口行为仿真。
- Motivation: 现有方法过度简化了现代城市中的交通选择,且计算资源需求高。
- Method: 构建虚拟城市并调查行为选择,开发可扩展的仿真框架。
- Result: 实现了4000多个代理的仿真,并通过微观和宏观分析验证了行为真实性。
- Conclusion: 框架能有效模拟复杂城市移动行为,同时保持可扩展性。
[144] SCRAG: Social Computing-Based Retrieval Augmented Generation for Community Response Forecasting in Social Media Environments
Dachun Sun,You Lyu,Jinning Li,Yizhuo Chen,Tianshi Wang,Tomoyoshi Kimura,Tarek Abdelzaher
Main category: cs.SI
TL;DR: SCRAG是一个基于社交计算的预测框架,用于预测社交媒体上社区对帖子的反应,结合了检索增强生成技术,显著提升了预测准确性。
- Motivation: 现有大型语言模型(LLMs)依赖静态数据且易产生幻觉,难以适应动态社交媒体环境。SCRAG旨在解决这一问题,提供更准确的社区反应预测。
- Method: SCRAG整合LLMs与检索增强生成技术,检索目标社区的历史反应和外部知识(如新闻),用于预测新帖子的社区反应。
- Result: 在X平台(原Twitter)的六种场景实验中,SCRAG在关键评估指标上平均提升超过10%,并能捕捉多样化的意识形态和细微差别。
- Conclusion: SCRAG为需要准确预测社区反应的应用提供了有效的社交计算工具。
eess.IV
[145] Anatomy-constrained modelling of image-derived input functions in dynamic PET using multi-organ segmentation
Valentin Langer,Kartikay Tehlan,Thomas Wendler
Main category: eess.IV
TL;DR: 该研究提出了一种基于多器官分割的方法,整合主动脉、门静脉、肺动脉和输尿管的图像衍生输入函数(IDIFs),以提高动态PET中[
- Motivation: 传统IDIFs仅从主动脉获取,忽略了解剖变异和复杂血管贡献,限制了动力学建模的准确性。
- Method: 利用高分辨率CT分割肝脏、肺、肾脏和膀胱,整合器官特异性血液供应源,改进动力学建模。
- Result: 在九名患者的动态[
F]FDG PET数据中,肝脏和肺的均方误差(MSE)分别降低了13.39%和10.42%。 - Conclusion: 多IDIFs方法有望改善解剖建模,推动动态PET成像的临床应用。
[146] Physiological neural representation for personalised tracer kinetic parameter estimation from dynamic PET
Kartikay Tehlan,Thomas Wendler
Main category: eess.IV
TL;DR: 提出了一种基于隐式神经表示(INRs)的个性化动力学参数估计方法,结合3D CT基础模型,显著提高了动态PET的空间分辨率和精度。
- Motivation: 传统方法计算量大且空间分辨率有限,深度学习需要大量数据和计算资源,因此需要一种更高效、数据需求更少的方法。
- Method: 利用INRs学习连续函数,结合3D CT解剖先验,实现高效、高分辨率的参数成像。
- Result: 在[
F]FDG动态PET/CT数据集上验证,显示更高的空间分辨率、更低的均方误差和更好的解剖一致性。 - Conclusion: INRs在个性化、数据高效的示踪动力学建模中具有潜力,适用于肿瘤特征分析、分割和预后评估。
[147] 3D Deep-learning-based Segmentation of Human Skin Sweat Glands and Their 3D Morphological Response to Temperature Variations
Shaoyu Pei,Renxiong Wu,Hao Zheng,Lang Qin,Shuaichen Lin,Yuxing Gan,Wenjing Huang,Zhixuan Wang,Mohan Qin,Yong Liu,Guangming Ni
Main category: eess.IV
TL;DR: 提出了一种基于3D变换器的多目标分割框架,用于非侵入性、实时量化汗腺形态,首次可视化并量化了汗腺3D形态随温度变化的细微变化。
- Motivation: 现有汗腺形态观察方法多为二维、体外且破坏性,亟需实时、非侵入性、可量化的技术。
- Method: 结合滑动窗口方法、联合空间-通道注意力机制及浅深层架构异质性,提出3D变换器分割框架,利用OCT皮肤体积数据实现精确分割。
- Result: 首次实现了汗腺3D形态随温度变化的可视化与量化,为正常汗腺形态建立了基准。
- Conclusion: 该方法为汗腺结构研究提供了实时、非侵入性工具,推动了皮肤病学研究和临床应用。
[148] A Spatially-Aware Multiple Instance Learning Framework for Digital Pathology
Hassan Keshvarikhojasteh,Mihail Tifrea,Sibylle Hess,Josien P. W. Pluim,Mitko Veta
Main category: eess.IV
TL;DR: GABMIL改进ABMIL框架,通过显式捕获实例间依赖关系提升性能,在计算效率不变的情况下显著优于ABMIL。
- Motivation: 传统MIL方法(如ABMIL)忽视空间交互,而TransMIL虽引入空间上下文但计算复杂度高。研究旨在验证在ABMIL中显式建模补丁关系是否能带来类似性能提升。
- Method: 提出GABMIL,在ABMIL框架中集成交互感知表示,显式捕获实例间依赖关系。
- Result: 在乳腺癌和肺癌亚型分类任务中,GABMIL的AUPRC提升7%,Kappa分数提升5%,且计算开销几乎不变。
- Conclusion: 显式建模补丁交互对MIL框架至关重要,GABMIL在性能和效率间取得平衡。
[149] Beyond Labels: Zero-Shot Diabetic Foot Ulcer Wound Segmentation with Self-attention Diffusion Models and the Potential for Text-Guided Customization
Abderrachid Hamrani,Daniela Leizaola,Renato Sousa,Jose P. Ponce,Stanley Mathis,David G. Armstrong,Anuradha Godavarty
Main category: eess.IV
TL;DR: ADZUS是一种基于文本引导的扩散模型,用于糖尿病足溃疡的无监督分割,无需标注数据,性能优于传统方法。
- Motivation: 糖尿病足溃疡的精确评估对改善患者结果至关重要,传统深度学习方法需要大量标注数据,ADZUS旨在解决这一问题。
- Method: ADZUS利用零样本学习和文本引导的扩散模型,动态适应分割任务,无需标注数据。
- Result: 在慢性伤口数据集上,ADZUS的IoU达86.68%,精度94.69%,显著优于FUSegNet等监督方法。
- Conclusion: ADZUS为医学影像提供了一种高效、灵活的无监督分割方案,但计算成本和微调需求仍需改进。
physics.plasm-ph
[150] Plasma State Monitoring and Disruption Characterization using Multimodal VAEs
Yoeri Poels,Alessandro Pau,Christian Donner,Giulio Romanelli,Olivier Sauter,Cristina Venturini,Vlado Menkovski,the TCV team,the WPTE team
Main category: physics.plasm-ph
TL;DR: 该论文提出了一种基于变分自编码器(VAE)的数据驱动方法,用于表征托卡马克中等离子体状态的可解释表示,以预测和区分不同类型的等离子体破裂。
- Motivation: 等离子体破裂是未来托卡马克设备的关键挑战之一,但目前对其理解有限,且数据驱动模型的解释性不足。本文旨在通过可解释的低维表示来表征等离子体状态,以更好地理解和预测破裂。
- Method: 扩展了VAE框架,包括连续投影等离子体轨迹、多模态结构分离操作区域,以及针对破裂区域的分离。通过统计特性识别破裂率和破裂性的连续指标。
- Result: 在约1600次TCV放电数据上验证了方法的有效性,能够区分不同破裂类型,并识别与破裂相关的参数。
- Conclusion: 该方法能够以可解释的方式识别不同操作区域及其与破裂的接近程度,为破裂预测和分析提供了新工具。
cs.CE
[151] Data-Driven Surrogate Modeling Techniques to Predict the Effective Contact Area of Rough Surface Contact Problems
Tarik Sahin,Jacopo Bonari,Sebastian Brandstaeter,Alexander Popp
Main category: cs.CE
TL;DR: 提出了一种基于机器学习的替代模型框架,用于快速预测粗糙表面接触的有效接触面积,解决了传统数值方法计算成本高的问题。
- Motivation: 粗糙表面接触的有效接触面积对多物理现象(如磨损、密封、热或电传导)至关重要,但传统数值方法(如边界元法)计算成本高,限制了其在多查询场景中的应用。
- Method: 使用多种机器学习算法训练预计算数据集,输入为施加的载荷和统计粗糙度参数,输出为有效接触面积,并进行超参数优化以比较预测准确性和计算效率。
- Result: 核岭回归器在准确性和效率之间表现出最佳平衡,而高斯过程回归器在需要不确定性量化时是更好的选择。
- Conclusion: 该方法在多查询任务中实用且高效,核岭回归模型在新场景中表现出良好的泛化能力。
cs.GR
[152] ePBR: Extended PBR Materials in Image Synthesis
Yu Guo,Zhiqiang Lao,Xiyun Song,Yubin Zhou,Zongfang Lin,Heather Yu
Main category: cs.GR
TL;DR: 论文提出了一种扩展的物理渲染(ePBR)材料,结合反射和透射特性,用于合成透明材料(如玻璃和窗户),提供可控的图像合成。
- Motivation: 传统基于物理的渲染(PBR)在复杂表面(如高光和透明表面)上表现不佳,而基于学习的方法缺乏物理一致性,因此需要一种平衡的方法。
- Method: 扩展了固有图像表示,结合反射和透射特性,提出显式固有合成框架。
- Result: 通过ePBR材料,实现了对透明材料的有效编辑和精确控制。
- Conclusion: 该方法在透明材料合成中提供了确定性和可解释性,优于传统PBR。
[153] CasualHDRSplat: Robust High Dynamic Range 3D Gaussian Splatting from Casually Captured Videos
Shucheng Gong,Lingzhe Zhao,Wenpu Li,Hong Xie,Yin Zhang,Shiyu Zhao,Peidong Liu
Main category: cs.GR
TL;DR: 提出了一种名为CasualHDRSplat的单阶段方法,用于从自动曝光的视频中重建3D HDR场景,解决了现有方法依赖固定曝光时间和多视角图像的局限性。
- Motivation: 现有基于多视角图像的HDR场景重建方法通常需要固定相机位置和不同曝光时间的图像,操作复杂且耗时。
- Method: CasualHDRSplat采用统一的物理成像模型,结合连续时间轨迹约束,联合优化曝光时间、相机响应函数、相机位姿和3D HDR场景。
- Result: 实验表明,该方法在鲁棒性和渲染质量上优于现有方法。
- Conclusion: CasualHDRSplat提供了一种更灵活且高效的HDR场景重建方案。
cs.IR
[154] You Are What You Bought: Generating Customer Personas for E-commerce Applications
Yimin Shi,Yang Fei,Shiqi Zhang,Haixun Wang,Xiaokui Xiao
Main category: cs.IR
TL;DR: 论文提出了一种基于客户画像(persona)的用户表示方法GPLR,结合预训练LLM和随机游走技术,显著提升了推荐和客户分群的性能。
- Motivation: 现有深度学习方法生成的用户嵌入难以理解和整合外部知识,限制了其在客户分群、搜索导航和产品推荐等应用中的效果。
- Method: 提出GPLR方法,利用预训练LLM推断客户画像,并通过随机游走技术扩展覆盖范围;进一步提出RevAff算法,优化时间复杂度和误差保证。
- Result: 在三个真实电商数据集上,客户画像表示显著提升了推荐模型的性能(NDCG@K和F1-Score@K提升高达12%)。
- Conclusion: 客户画像提供了一种可读且信息丰富的用户表示方法,有效提升了电商应用的性能。
q-bio.QM
[155] Automating tumor-infiltrating lymphocyte assessment in breast cancer histopathology images using QuPath: a transparent and accessible machine learning pipeline
Masoud Tafavvoghi,Lars Ailo Bongo,André Berli Delgado,Nikita Shvetsov,Anders Sildnes,Line Moi,Lill-Tove Rasmussen Busund,Kajsa Møllersen
Main category: q-bio.QM
TL;DR: 研究开发了一个端到端的肿瘤浸润淋巴细胞(TILs)评估流程,利用QuPath实现自动化分析,验证了现有工具的实用性。
- Motivation: 探索如何利用易获取的工具(如QuPath)自动化完成复杂的TILs评估任务。
- Method: 1. 训练像素分类器分割肿瘤和肿瘤相关基质;2. 使用预训练的StarDist模型检测细胞并训练二分类器区分TILs;3. 计算TIL密度并分类。
- Result: 与病理学家评分相比,Cohen's kappa为0.71,验证了流程的可靠性。
- Conclusion: 现有软件可为乳腺癌H&E染色切片中的TILs评估提供实用解决方案。
cs.CL
[156] Tokenization Matters: Improving Zero-Shot NER for Indic Languages
Priyaranjan Pattnayak,Hitesh Laxmichand Patel,Amit Agarwal
Main category: cs.CL
TL;DR: 比较BPE、SentencePiece和字符级分词在低资源印度语言NER任务中的表现,发现SentencePiece在跨语言零样本设置中表现最佳。
- Motivation: 研究BPE在低资源印度语言NER任务中的适用性,探索更优的分词方法以应对形态复杂性和跨语言泛化需求。
- Method: 系统比较BPE、SentencePiece和字符级分词策略,评估其内在语言特性和下游任务性能。
- Result: SentencePiece在跨语言零样本设置中表现优于BPE,尤其在形态丰富的语言中。
- Conclusion: SentencePiece是低资源印度语言NER任务中更有效的分词策略。
[157] The Rise of Small Language Models in Healthcare: A Comprehensive Survey
Muskan Garg,Shaina Raza,Shebuti Rayana,Xingyi Liu,Sunghwan Sohn
Main category: cs.CL
TL;DR: 本文综述了小型语言模型(SLMs)在医疗保健领域的应用,提出了一个分类框架,帮助医疗专业人员和信息学家识别和优化SLMs,以解决数据隐私和资源限制问题。
- Motivation: 尽管大型语言模型(LLMs)在医疗保健应用中取得了进展,但数据隐私和资源限制问题促使研究转向更高效的小型语言模型(SLMs)。
- Method: 通过分类框架分析SLMs在三个维度(NLP任务、利益相关者角色和护理连续性)的表现,并探讨了模型构建、优化和压缩技术。
- Result: 展示了SLMs在医疗保健领域的突破性进展,并提供了实验结果的全面汇编。
- Conclusion: SLMs为资源受限环境提供了可行的解决方案,具有变革医疗保健信息学的潜力。
[158] MIRAGE: A Metric-Intensive Benchmark for Retrieval-Augmented Generation Evaluation
Chanhee Park,Hyeonseok Moon,Chanjun Park,Heuiseok Lim
Main category: cs.CL
TL;DR: MIRAGE是一个专为RAG评估设计的问答数据集,包含7,560个实例和37,800个检索条目,提供高效评估检索与生成任务的能力,并引入新指标衡量RAG适应性。
- Motivation: 现有RAG系统评估困难,缺乏针对检索与生成组件的详细基准,MIRAGE填补了这一空白。
- Method: 构建MIRAGE数据集,包含7,560个实例和37,800个检索条目,并设计新评估指标(如噪声脆弱性、上下文接受度等)。
- Result: 通过实验揭示了RAG系统中模型对的最优对齐方式及内部动态关系。
- Conclusion: MIRAGE为RAG系统提供了全面的评估工具,数据集和代码已公开,便于研究使用。
[159] JurisCTC: Enhancing Legal Judgment Prediction via Cross-Domain Transfer and Contrastive Learning
Zhaolu Kang,Hongtian Cai,Xiangyang Ji,Jinzhe Li,Nanfei Gu
Main category: cs.CL
TL;DR: JurisCTC是一种新型模型,用于提升法律判决预测(LJP)任务的准确性,通过对比学习实现跨法律领域的知识迁移。
- Motivation: 解决法律文本复杂且标注数据有限的问题,探索无监督领域适应(UDA)在法律领域的应用。
- Method: 提出JurisCTC模型,利用对比学习区分不同法律领域的样本,实现民事与刑事法律领域的知识迁移。
- Result: JurisCTC在LJP任务中表现优异,最高准确率分别达到76.59%和78.83%。
- Conclusion: JurisCTC为跨法律领域的知识迁移提供了有效解决方案,显著提升了LJP任务的性能。
[160] FLUKE: A Linguistically-Driven and Task-Agnostic Framework for Robustness Evaluation
Yulia Otmakhova,Hung Thinh Truong,Rahmad Mahendra,Zenan Zhai,Rongxin Zhu,Daniel Beck,Jey Han Lau
Main category: cs.CL
TL;DR: FLUKE是一个任务无关的框架,通过系统性的最小测试数据变化评估模型鲁棒性,揭示模型对不同语言变化的敏感性和脆弱性。
- Motivation: 评估模型在面对语言变化时的鲁棒性,理解其行为特点。
- Method: FLUKE引入跨语言层次的控制变化,利用大语言模型和人工验证生成修改,并在四个NLP任务中评估模型。
- Result: 发现语言变化的影响高度依赖任务,大语言模型整体鲁棒性更强但仍脆弱,所有模型对否定修改普遍脆弱。
- Conclusion: 系统鲁棒性测试对理解模型行为至关重要。
[161] LiveLongBench: Tackling Long-Context Understanding for Spoken Texts from Live Streams
Yongxuan Wu,Runyu Chen,Peiyu Liu,Hongjin Qian
Main category: cs.CL
TL;DR: 论文构建了首个基于直播的冗余丰富的长文本数据集,评估了现有方法在长上下文理解中的表现,并提出了一种新基线方法。
- Motivation: 现有长文本数据集未能反映真实对话的冗余和信息密度不均特性,限制了模型在实际场景中的应用。
- Method: 构建了基于直播的长文本数据集,设计了检索依赖、推理依赖和混合任务,评估了流行LLM和专用方法。
- Result: 现有方法在冗余输入上表现不佳,新基线方法在任务中表现优异。
- Conclusion: 研究揭示了当前方法的局限性,为改进长上下文理解提供了方向,并为实际应用奠定了基础。
[162] M-MRE: Extending the Mutual Reinforcement Effect to Multimodal Information Extraction
Chengguang Gan,Sunbowen Lee,Zhixi Cai,Yanbin Wei,Lei Zheng,Yunhao Liang,Shiwen Ni,Tatsunori Mori
Main category: cs.CL
TL;DR: 论文首次将互增强效应(MRE)扩展到多模态信息提取领域,提出多模态互增强效应(M-MRE)任务,并构建数据集。通过Prompt Format Adapter(PFA)解决挑战,实验证明MRE在多模态场景下同样有效。
- Motivation: 探索MRE在视觉和多模态领域的适用性,填补现有研究的空白。
- Method: 提出M-MRE任务,构建数据集,设计PFA适配器以兼容大型视觉语言模型。
- Result: 实验证实MRE在多模态场景下有效,支持任务间的互增强。
- Conclusion: MRE具有跨领域的通用性,为多模态任务提供新思路。
[163] HalluLens: LLM Hallucination Benchmark
Yejin Bang,Ziwei Ji,Alan Schelten,Anthony Hartshorn,Tara Fowler,Cheng Zhang,Nicola Cancedda,Pascale Fung
Main category: cs.CL
TL;DR: 该论文提出了一个全面的幻觉基准,区分了外在和内在幻觉,并引入了动态测试集生成以防止数据泄漏。
- Motivation: 解决LLM生成内容与用户输入或训练数据不一致(幻觉)的问题,以提升用户信任和生成式AI系统的采用。
- Method: 提出清晰的幻觉分类法,构建包含新外在和现有内在评估任务的基准,并动态生成测试集以防止数据泄漏。
- Result: 建立了统一的幻觉分类框架,分析了现有基准的局限性,并提出了动态测试集生成方法。
- Conclusion: 该研究为LLM幻觉问题提供了清晰的分类和评估工具,推动了相关研究的进展。
[164] Data-Driven Calibration of Prediction Sets in Large Vision-Language Models Based on Inductive Conformal Prediction
Yuanchang Ye,Weiyan Wen
Main category: cs.CL
TL;DR: 该研究通过Split Conformal Prediction(SCP)框架解决大型视觉语言模型(LVLM)在视觉问答(VQA)任务中的幻觉问题,提出了一种模型无关的不确定性量化方法。
- Motivation: LVLM在多模态推理中表现优异,但其输出常伴随高置信度的幻觉内容,对安全关键应用构成风险。
- Method: 采用动态阈值校准和跨模态一致性验证,通过数据分区计算非一致性分数,构建具有统计保证的预测集。
- Result: 在多个基准测试中,SCP框架实现了理论保证,并在不同数据分区比例下表现稳定。
- Conclusion: 该研究为多模态AI系统提供了可扩展的幻觉检测和不确定性感知决策方案,填补了理论可靠性与实际应用之间的差距。
[165] Ensemble Bayesian Inference: Leveraging Small Language Models to Achieve LLM-level Accuracy in Profile Matching Tasks
Haru-Tada Sato,Fuka Matsuzaki,Jun-ichiro Takahashi
Main category: cs.CL
TL;DR: 小语言模型(SLM)集成通过贝叶斯推理(EBI)达到与大型语言模型(LLM)相当的准确性。
- Motivation: 探索在有限计算资源下构建高性能AI系统的可能性,并有效利用性能较低的模型。
- Method: 提出Ensemble Bayesian Inference(EBI),通过贝叶斯估计结合多个SLM的预测。
- Result: 实验证明EBI在多种任务中有效,包括整合性能较差的模型也能提升整体表现。
- Conclusion: EBI为资源有限的高性能AI系统提供了新思路,并展示了低性能模型的潜在价值。
[166] Multilingual Performance Biases of Large Language Models in Education
Vansh Gupta,Sankalan Pal Chowdhury,Vilém Zouhar,Donya Rooein,Mrinmaya Sachan
Main category: cs.CL
TL;DR: 论文研究了大型语言模型(LLMs)在非英语教育任务中的表现,发现其性能与训练数据中的语言资源量相关,建议部署前验证目标语言的表现。
- Motivation: 当前LLMs主要以英语为中心,研究其在非英语教育环境中的适用性。
- Method: 评估了流行LLMs在六种非英语语言(如印地语、阿拉伯语)中的四项教育任务表现。
- Result: 模型性能与语言资源量相关,低资源语言表现较差,且与英语相比有明显下降。
- Conclusion: 建议在教育任务部署前验证LLMs在目标语言中的表现。
cs.NE
[167] Dual-Individual Genetic Algorithm: A Dual-Individual Approach for Efficient Training of Multi-Layer Neural Networks
Tran Thuy Nga Truong,Jooyong Kim
Main category: cs.NE
TL;DR: 本文提出了一种名为Dual-Individual GA的增强遗传算法,用于优化二元图像分类任务的神经网络。该方法通过Leader和Follower两个个体实现探索与开发的平衡,并在实验中表现出优于传统梯度方法的性能。
- Motivation: 传统梯度方法在神经网络优化中存在局限性,如需要手动调整架构和易陷入局部最优。Dual-Individual GA旨在通过遗传算法自动优化网络架构并避免这些问题。
- Method: Dual-Individual GA仅使用两个个体(Leader和Follower)进行交叉,Leader专注于开发最优解,Follower则促进多样性探索。该方法还引入了自适应层维度机制,无需手动调整架构。
- Result: 实验结果显示,Dual-Individual GA在三层网络上达到99.04%训练精度和80%测试精度(成本0.034),优于传统梯度方法(98%训练精度和80%测试精度,成本0.092)。
- Conclusion: Dual-Individual GA在神经网络优化中表现出高效性和有效性,尤其在自动调整架构和平衡探索与开发方面具有优势。
[168] Revisiting Reset Mechanisms in Spiking Neural Networks for Sequential Modeling: Specialized Discretization for Binary Activated RNN
Enqi Zhang
Main category: cs.NE
TL;DR: 本文探讨了将脉冲神经网络(SNNs)视为二元激活的循环神经网络(RNNs)用于序列建模任务的观点,并分析了当前SNN架构在序列建模中的挑战。通过系统研究重置操作和不规则期的机制,提出了固定不规则期SNN架构。
- Motivation: 传统SNN在序列建模中存在缺乏有效记忆机制、生物启发组件理论不足以及无法并行训练等问题,需要重新审视其机制。
- Method: 系统分析了重置操作和不规则期的机制,重新评估其必要性,并提出固定不规则期SNN架构。
- Result: 研究发现生物机制并非完全必要,提出了新的理论解释和固定不规则期SNN架构。
- Conclusion: 固定不规则期SNN架构为序列建模提供了更高效的解决方案,同时挑战了传统生物机制的必要性。
Powered by Deepseek & arXiv Daily AI Enhanced