Skip to content
每日arXiv - 2025年5月1日

以下论文的arXiv类型标签包含:cs.CV、cs.AI

cs.CV

[1] Can a Large Language Model Assess Urban Design Quality? Evaluating Walkability Metrics Across Expertise Levels

Chenyi Cai,Kosuke Kuriyama,Youlong Gu,Filip Biljecki,Pieter Herthogs

Main category: cs.CV

TL;DR: 论文探讨了如何通过整合专家知识提升多模态大语言模型(MLLM)在评估城市步行性方面的能力,发现专家知识能提高模型的一致性和准确性。

  • Motivation: 研究动机在于探索专家知识如何影响MLLM在评估城市设计质量中的表现,填补现有研究的空白。
  • Method: 方法包括收集步行性指标,基于专家知识设计提示词,并通过不同清晰度和特异性的提示测试MLLM的评估能力。
  • Result: 实验表明,MLLM能基于通用知识提供评估,但易过于乐观或误解指标;整合专家知识后,评估表现更一致和集中。
  • Conclusion: 结论指出专家知识能显著提升MLLM的评估可靠性,支持其在多模态图像-文本评估中的自动化应用。

[2] Legilimens: Performant Video Analytics on the System-on-Chip Edge

Murali Ramanujam,Yinwei Dai,Kyle Jamieson,Ravi Netravali

Main category: cs.CV

TL;DR: Legilimens是一种针对移动边缘设备(如无人机和行车记录仪)的连续学习系统,利用设备内存中的基础模型和高效计算技术,显著降低了重新训练成本并提高了准确性。

  • Motivation: 传统边缘服务器资源有限,而移动边缘设备具有丰富的统一内存池但计算能力较弱,需要一种适应其资源特性的连续学习系统。
  • Method: Legilimens通过高效计算技术选择高效用数据样本、更新基础模型而不完全重新训练,并在重新训练和实时推理之间共享计算资源。
  • Result: 相比现有系统,Legilimens将重新训练成本降低了2.8-10倍,准确性提高了18-45%。
  • Conclusion: Legilimens为移动边缘设备提供了一种高效的连续学习解决方案,显著提升了视频分析的准确性和资源利用率。

[3] Emotion Recognition in Contemporary Dance Performances Using Laban Movement Analysis

Muhammad Turab,Philippe Colantoni,Damien Muselet,Alain Tremeau

Main category: cs.CV

TL;DR: 提出了一种改进Laban运动分析特征描述符的新框架,用于当代舞蹈中的情感识别,结合定量和定性特征,并通过可解释机器学习方法分析特征影响。

  • Motivation: 改进现有情感识别方法,捕捉舞蹈动作的定量和定性特征,以提升当代舞蹈中的情感识别效果。
  • Method: 从3D关键点数据中提取特征,训练多种分类器(如随机森林和支持向量机),并使用可解释机器学习方法分析特征。
  • Result: 最高准确率达到96.85%,显著提升了情感识别性能。
  • Conclusion: 该框架在舞蹈表演分析、训练和人机交互中有广泛应用前景。

[4] Dance Style Recognition Using Laban Movement Analysis

Muhammad Turab,Philippe Colantoni,Damien Muselet,Alain Tremeau

Main category: cs.CV

TL;DR: 提出了一种结合3D姿态估计、3D人体网格重建和地板感知身体建模的新方法,用于提取Laban运动分析特征,并通过滑动窗口方法捕捉时间上下文,显著提高了舞蹈风格识别的准确性。

  • Motivation: 现有舞蹈风格识别方法多关注跨帧运动分析,缺乏对时间上下文和动态过渡的捕捉,因此需要一种能够增强LMA特征时间上下文的方法。
  • Method: 结合3D姿态估计、3D人体网格重建和地板感知身体建模提取LMA特征,采用滑动窗口方法捕捉时间上下文,并利用机器学习分类和可解释AI方法评估特征贡献。
  • Result: 提出的方法在舞蹈风格识别中达到了99.18%的最高分类准确率,表明时间上下文的加入显著提升了性能。
  • Conclusion: 通过引入时间上下文和新型特征提取方法,显著提高了舞蹈风格识别的准确性和可解释性。

[5] Geolocating Earth Imagery from ISS: Integrating Machine Learning with Astronaut Photography for Enhanced Geographic Mapping

Vedika Srivastava,Hemant Kumar Singh,Jaisal Singh

Main category: cs.CV

TL;DR: 论文提出了一种利用机器学习算法从国际空间站(ISS)拍摄的图像中定位地球位置的新方法,通过三种不同的图像处理流程(神经网络、SIFT方法和GPT-4模型)实现了高效的地理特征识别。

  • Motivation: ISS拍摄的图像虽然坐标精确,但具体地理位置常未被识别。研究旨在填补这一空白,提升空间图像的地理定位能力。
  • Method: 采用三种图像处理流程:基于神经网络的方法、SIFT方法和GPT-4模型,分别处理高分辨率ISS图像,识别自然和人工地理特征。
  • Result: 在140多张ISS图像的测试中,神经网络方法在地理特征匹配上表现优异,SIFT方法擅长处理放大图像,GPT-4模型则提供了丰富的地理描述和位置预测。
  • Conclusion: 该研究提升了空间图像地理定位的准确性和效率,有助于环境监测和全球地图绘制。

[6] MemeBLIP2: A novel lightweight multimodal system to detect harmful memes

Jiaqi Liu,Ran Tong,Aowei Shen,Shuzheng Li,Changlin Yang,Lisha Xu

Main category: cs.CV

TL;DR: MemeBLIP2是一个轻量级多模态系统,通过结合图像和文本特征有效检测有害表情包。

  • Motivation: 表情包常结合视觉和简短文本传递幽默或观点,但部分内容包含有害信息(如仇恨言论),需有效检测。
  • Method: 基于BLIP-2核心模型,添加模块对齐图像和文本表征至共享空间并融合,提升分类效果。
  • Result: 在PrideMM数据集上测试,MemeBLIP2能捕捉多模态细微线索(如讽刺或文化特定内容),改进有害内容检测。
  • Conclusion: MemeBLIP2通过多模态特征融合,显著提升有害表情包的检测能力。

[7] T2ID-CAS: Diffusion Model and Class Aware Sampling to Mitigate Class Imbalance in Neck Ultrasound Anatomical Landmark Detection

Manikanta Varaganti,Amulya Vankayalapati,Nour Awad,Gregory R. Dion,Laura J. Brattain

Main category: cs.CV

TL;DR: 论文提出了一种结合文本到图像潜在扩散模型和类别感知采样的混合方法(T2ID-CAS),用于解决颈部超声中类别不平衡问题,显著提升了目标检测模型的性能。

  • Motivation: 颈部超声在气道管理中至关重要,但数据集中关键结构(如气管环和声带)的类别不平衡问题影响了目标检测模型的性能。
  • Method: 提出T2ID-CAS方法,结合文本到图像潜在扩散模型和类别感知采样,生成高质量的合成样本以增强少数类别的表示。
  • Result: 实验结果显示,T2ID-CAS在YOLOv9模型上实现了88.2的平均精度,显著优于基线模型的66。
  • Conclusion: T2ID-CAS是一种计算高效且可扩展的解决方案,能够有效缓解AI辅助超声引导干预中的类别不平衡问题。

[8] Subject Information Extraction for Novelty Detection with Domain Shifts

Yangyang Qu,Dazhi Fu,Jicong Fan

Main category: cs.CV

TL;DR: 论文提出了一种新方法,通过分离主体信息和背景变化来提升无监督新颖性检测在域偏移情况下的性能。

  • Motivation: 现有无监督新颖性检测方法通常假设训练和测试数据来自同一域,忽略了域偏移问题,导致正常数据被误分类为新颖。
  • Method: 提出了一种方法,通过最小化主体和背景表示之间的互信息,并使用深度高斯混合模型建模背景变化,仅在主体表示上进行新颖性检测。
  • Result: 实验表明,该方法在未见域上泛化能力强,显著优于基线方法,尤其在域偏移较大时表现突出。
  • Conclusion: 该方法有效解决了域偏移问题,提升了无监督新颖性检测的准确性和鲁棒性。

[9] Multi-modal Transfer Learning for Dynamic Facial Emotion Recognition in the Wild

Ezra Engel,Lishan Li,Chris Hudy,Robert Schleusner

Main category: cs.CV

TL;DR: 本文探讨了多模态迁移学习在动态面部表情识别(DFEW数据集)中的应用,结合预训练模型(ResNets、OpenPose、OmniVec)提升分类准确性。

  • Motivation: 面部表情识别(FER)在多个领域有重要应用,但由于面部特征的微妙变化,准确分类具有挑战性。
  • Method: 使用多模态迁移学习,结合预训练的ResNets、OpenPose和OmniVec网络,探索跨时空多模态特征对分类准确性的影响。
  • Result: 经过精细调整的多模态特征生成器略微提升了基于Transformer的分类模型的准确性。
  • Conclusion: 多模态迁移学习对提升FER任务的分类准确性具有潜在价值,但仍需进一步优化。

[10] Embracing Collaboration Over Competition: Condensing Multiple Prompts for Visual In-Context Learning

Jinpeng Wang,Tianci Luo,Yaohua Zha,Yan Feng,Ruisheng Luo,Bin Chen,Tao Dai,Long Chen,Yaowei Wang,Shu-Tao Xia

Main category: cs.CV

TL;DR: 论文提出了一种名为Condenser的轻量级插件,通过多提示协同整合上下文信息,解决了视觉上下文学习(VICL)中单一提示假设的局限性。

  • Motivation: 当前VICL方法假设存在单一“理想”提示,但实际中可能存在多个合适提示,单独使用时效果不佳。
  • Method: 提出提示压缩(prompt condensation)方法,设计Condenser插件,通过多提示协作整合上下文信息。
  • Result: 实验表明Condenser在基准任务中表现优于现有方法,具有更好的上下文压缩能力、可扩展性和计算效率。
  • Conclusion: Condenser为VICL提供了一种高效的解决方案,代码已开源。

[11] CoCoDiff: Diversifying Skeleton Action Features via Coarse-Fine Text-Co-Guided Latent Diffusion

Zhifu Zhao,Hanyang Hua,Jianan Li,Shaoxin Wu,Fu Li,Yangtao Zhou,Yang Li

Main category: cs.CV

TL;DR: 提出了一种名为CoCoDiff的模型,通过扩散模型和多粒度文本引导生成多样且语义一致的特征,提升动作识别任务的性能。

  • Motivation: 现有方法通过样本空间扩展特征多样性,但效率低且语义不一致,需改进。
  • Method: 利用潜在扩散模型生成多样动作表示,并结合粗-细粒度文本引导策略确保语义一致性。
  • Result: 在多个骨架动作识别基准测试中达到SOTA性能。
  • Conclusion: CoCoDiff作为即插即用的辅助模块,无需额外推理成本,显著提升模型性能。

[12] Mamba Based Feature Extraction And Adaptive Multilevel Feature Fusion For 3D Tumor Segmentation From Multi-modal Medical Image

Zexin Ji,Beiji Zou,Xiaoyan Kui,Hua Li,Pierre Vera,Su Ruan

Main category: cs.CV

TL;DR: 提出了一种基于Mamba的特征提取和自适应多级特征融合方法,用于多模态3D医学图像中的肿瘤分割,解决了传统CNN和Transformer方法的局限性。

  • Motivation: 多模态3D医学图像分割面临图像强度和肿瘤形态变化的挑战,传统CNN难以捕捉全局特征,而Transformer计算成本高。Mamba模型结合了线性扩展性和长距离建模能力,但在多模态特征融合上仍有不足。
  • Method: 设计了特定模态的Mamba编码器提取长程相关特征,并提出了双级协同集成块,通过模态注意力和通道注意力动态融合多模态和多级特征。解码器结合深层语义信息和细粒度细节生成分割图。
  • Result: 在PET/CT和MRI多序列数据集上的实验表明,该方法在性能上优于现有的CNN、Transformer和Mamba方法。
  • Conclusion: 该方法在多模态3D医学图像分割中表现出色,为肿瘤分割提供了一种高效且性能优越的解决方案。

[13] Can We Achieve Efficient Diffusion without Self-Attention? Distilling Self-Attention into Convolutions

ZiYi Dong,Chengxing Zhou,Weijian Deng,Pengxu Wei,Xiangyang Ji,Liang Lin

Main category: cs.CV

TL;DR: 论文提出了一种名为ΔConvFusion的新方法,用金字塔卷积块(ΔConvBlocks)替代传统的自注意力机制,显著降低了计算成本,同时保持了生成质量。

  • Motivation: 研究发现预训练扩散模型中的自注意力机制主要表现出局部注意力模式,类似于卷积的归纳偏置,表明全局交互可能不如通常假设的重要。
  • Method: 通过将注意力模式蒸馏到局部卷积操作中,同时冻结其他组件,提出了ΔConvFusion方法。
  • Result: ΔConvFusion在计算成本上降低了6929倍,效率超过LinFusion 5.42倍,且生成质量未受影响。
  • Conclusion: 局部卷积操作可以替代自注意力机制,显著提升效率而不牺牲性能。

[14] Learning Multi-view Multi-class Anomaly Detection

Qianzi Yu,Yang Cao,Yu Kang

Main category: cs.CV

TL;DR: MVMCAD模型通过多视图信息整合和异常信号增强,在多视图多类异常检测中取得SOTA性能。

  • Motivation: 现有MCAD模型在多视图场景中表现不佳,未能有效建模视图间关系和互补信息。
  • Method: 提出半冻结编码器、异常放大模块(AAM)和跨特征损失,以增强多视图异常检测能力。
  • Result: 在Real-IAD数据集上,图像级和像素级检测性能分别达到91.0/88.6/82.1和99.1/43.9/48.2/95.2。
  • Conclusion: MVMCAD在多视图多类异常检测中表现优异,验证了其方法的有效性。

[15] CMD: Constraining Multimodal Distribution for Domain Adaptation in Stereo Matching

Zhelun Shen,Zhuo Li,Chenming Wu,Zhibo Rao,Lina Liu,Yuchao Dai,Liangjun Zhang

Main category: cs.CV

TL;DR: 论文提出了一种名为CMD的新方法,通过约束多模态分布来改善无监督域适应场景中的立体匹配性能。

  • Motivation: 在无监督域适应场景中,传统的soft argmin和平滑L1损失会导致多模态视差分布,从而降低泛化能力。
  • Method: 引入不确定性正则化最小化和各向异性soft argmin,以鼓励网络在目标域中生成单模态视差分布。
  • Result: 实验表明,该方法在多种代表性立体匹配网络中均能提升泛化性能。
  • Conclusion: CMD方法有效解决了域适应中的多模态分布问题,显著提升了预测准确性。

[16] The Dual Power of Interpretable Token Embeddings: Jailbreaking Attacks and Defenses for Diffusion Model Unlearning

Siyi Chen,Yimeng Zhang,Sijia Liu,Qing Qu

Main category: cs.CV

TL;DR: 论文提出了一种可解释的攻击方法,通过正交攻击令牌嵌入揭示未学习模型中仍保留有害概念的原因,并设计了一种防御方法。

  • Motivation: 扩散模型可能生成有害内容,现有微调方法无法完全消除这些概念,且攻击方法缺乏可解释性。
  • Method: 提出一种学习正交可解释攻击令牌嵌入的方法,分解为人类可理解的文本元素。
  • Result: 攻击令牌嵌入揭示了未学习模型中仍保留有害概念,且具有鲁棒性和可迁移性。
  • Conclusion: 实验证明了攻击和防御策略的有效性。

[17] AGHI-QA: A Subjective-Aligned Dataset and Metric for AI-Generated Human Images

Yunhao Li,Sijing Wu,Wei Sun,Zhichao Zhang,Yucheng Zhu,Zicheng Zhang,Huiyu Duan,Xiongkuo Min,Guangtao Zhai

Main category: cs.CV

TL;DR: 论文提出了AGHI-QA基准和AGHI-Assessor评估方法,用于细粒度评估AI生成人类图像的质量,解决了现有IQA方法的局限性。

  • Motivation: 现有图像质量评估方法仅提供全局评分,无法对复杂结构(如人体)进行细粒度评估,而AI生成的人类图像常存在解剖和纹理失真。
  • Method: 构建了包含4000张图像的AGHI-QA数据集,通过主观研究收集多维标注,并提出了结合大模态模型和人体特征的AGHI-Assessor评估方法。
  • Result: AGHI-Assessor在多维质量评估和结构失真检测上显著优于现有IQA方法和领先的大模态模型。
  • Conclusion: AGHI-QA和AGHI-Assessor为AI生成人类图像的质量评估提供了有效工具,填补了现有方法的空白。

[18] An Evaluation of a Visual Question Answering Strategy for Zero-shot Facial Expression Recognition in Still Images

Modesto Castrillón-Santana,Oliverio J Santana,David Freire-Obregón,Daniel Hernández-Sosa,Javier Lorenzo-Navarro

Main category: cs.CV

TL;DR: 论文探讨了结合视觉语言模型(VLMs)提升零样本面部表情识别(FER)性能的方法,并在多个基准数据集上验证了其有效性。

  • Motivation: 尽管深度学习在FER领域取得进展,但零样本FER场景下性能显著下降,因此需要探索新的方法提升泛化能力。
  • Method: 采用视觉问答策略,评估多种本地执行的视觉语言模型(VLMs),并与现有FER模型进行比较。
  • Result: 部分VLMs在零样本FER场景中表现优异,表明其潜力。
  • Conclusion: 需进一步探索VLMs以提升FER的泛化能力。

[19] Text-Conditioned Diffusion Model for High-Fidelity Korean Font Generation

Abdul Sami,Avinash Kumar,Irfanullah Memon,Youngwon Jo,Muhammad Rizwan,Jaeyoung Choi

Main category: cs.CV

TL;DR: 提出了一种基于扩散模型的自动字体生成方法,用于高质量生成韩文字体,仅需单一样本图像。

  • Motivation: 解决传统生成对抗网络和变分自编码器在训练不稳定、模式崩溃及细节捕捉不足的问题。
  • Method: 采用扩散模型逐步去噪生成图像,结合文本编码器处理语音表示,并使用预训练风格编码器和感知损失提升质量。
  • Result: 在2000多个韩文字符上实验,生成的字体准确且细节丰富,优于基准方法。
  • Conclusion: 该方法为生成真实韩文字体提供了可靠工具,适用于不同风格。

[20] Simple Visual Artifact Detection in Sora-Generated Videos

Misora Sugiyama,Hirokatsu Kataoka

Main category: cs.CV

TL;DR: 研究分析了OpenAI Sora生成的视频中常见的视觉伪影,提出了一个多标签分类框架,并验证了其有效性。

  • Motivation: 随着视频生成模型的发展,理解其局限性并确保安全部署变得至关重要。
  • Method: 使用多标签分类框架和多种2D CNN架构(如ResNet-50)对300个手动标注的帧进行分类。
  • Result: ResNet-50模型在平均多标签分类准确率上达到94.14%。
  • Conclusion: 该研究为视频质量评估、视觉风险识别及VidLLMs的发展提供了支持。

[21] UniBiomed: A Universal Foundation Model for Grounded Biomedical Image Interpretation

Linshan Wu,Yuxiang Nie,Sunan He,Jiaxin Zhuang,Hao Chen

Main category: cs.CV

TL;DR: UniBiomed是一种基于多模态大语言模型(MLLM)和Segment Anything Model(SAM)的新型通用基础模型,用于生物医学图像的全面解释。它统一了临床文本生成和生物医学对象分割,实现了端到端的自动化分析。

  • Motivation: 传统AI方法在生物医学图像分析中依赖分离的训练模型,导致部署不灵活且无法利用整体信息。UniBiomed旨在解决这一问题,提供更高效和准确的生物医学图像解释。
  • Method: UniBiomed通过整合MLLM和SAM,开发了一个大规模数据集(包含2700万组图像、标注和文本描述),支持10种生物医学成像模态。
  • Result: 在84个内外数据集上的验证表明,UniBiomed在分割、疾病识别、区域感知诊断、视觉问答和报告生成等任务中达到最先进性能。
  • Conclusion: UniBiomed为生物医学AI带来了突破,显著提升了诊断效率,代表了临床工作流程的新范式转变。

[22] Towards Improved Cervical Cancer Screening: Vision Transformer-Based Classification and Interpretability

Khoa Tuan Nguyen,Ho-min Park,Gaeun Oh,Joris Vankerschaver,Wesley De Neve

Main category: cs.CV

TL;DR: 提出了一种基于EVA-02变换器模型的宫颈细胞图像分类新方法,通过四步流程优化模型性能,F1分数达0.85227,优于基线模型。

  • Motivation: 改进宫颈癌筛查中的细胞图像分类,提高模型性能和可解释性。
  • Method: 四步流程:微调EVA-02、特征提取、多模型特征选择、训练新神经网络(可选损失加权)。
  • Result: 最佳模型F1分数0.85227,优于基线(0.84878);通过Kernel SHAP分析识别关键特征。
  • Conclusion: 新方法在性能和可解释性上均有提升,代码开源。

[23] Vision-Language Model-Based Semantic-Guided Imaging Biomarker for Early Lung Cancer Detection

Luoting Zhuang,Seyed Mohammad Hossein Tabatabaei,Ramin Salehi-Rad,Linh M. Tran,Denise R. Aberle,Ashley E. Prosper,William Hsu

Main category: cs.CV

TL;DR: 该研究提出了一种结合语义特征和深度特征的方法,用于预测肺癌,通过对比语言-图像预训练模型(CLIP)实现高效参数微调,显著提升了分类性能,并提供了可解释的输出。

  • Motivation: 现有机器学习模型依赖人工标注、可解释性差且对成像变化敏感,限制了临床应用。本研究旨在整合放射科医生的语义特征,以学习临床相关、稳健且可解释的特征。
  • Method: 使用来自多个数据集的低剂量CT扫描和语义特征,通过CLIP模型进行参数高效微调,对齐图像和语义特征,预测一年内肺癌诊断。
  • Result: 模型在外部数据集上表现优异(AUROC: 0.90,AUPRC: 0.78),并提供了可解释的语义特征预测(如结节边缘、一致性等)。
  • Conclusion: 该方法准确分类肺结节,提供可解释的输出,帮助临床医生理解模型预测,同时避免模型学习捷径并具有跨临床环境的泛化能力。

[24] Nexus-Gen: A Unified Model for Image Understanding, Generation, and Editing

Hong Zhang,Zhongjie Duan,Xingjun Wang,Yingda Chen,Yuze Zhao,Yu Zhang

Main category: cs.CV

TL;DR: Nexus-Gen是一个统一的多模态大语言模型(MLLM),通过结合语言推理能力和扩散模型的图像合成能力,解决了现有开源模型在性能上的不足。

  • Motivation: 现有开源统一模型在性能上与领域专用架构存在差距,Nexus-Gen旨在通过结合LLM和扩散模型的优势来弥补这一差距。
  • Method: 采用双阶段对齐训练:1)自回归LLM学习预测多模态输入下的图像嵌入;2)视觉解码器训练从嵌入重建高保真图像。引入预填充自回归策略以避免误差累积。
  • Result: Nexus-Gen具备综合的图像理解、生成和编辑能力,并通过开源促进了领域发展。
  • Conclusion: Nexus-Gen通过双阶段训练和预填充策略,成功整合了多模态能力,为统一模型提供了新思路。

[25] Revisiting Diffusion Autoencoder Training for Image Reconstruction Quality

Pramook Khungurn,Sukit Seripanitkarn,Phonphrm Thawatdamrongkit,Supasorn Suwajanakorn

Main category: cs.CV

TL;DR: 论文提出了一种改进的扩散自编码器(DAE)训练方法,通过分阶段训练优化图像重建质量。

  • Motivation: 传统DAE使用线性噪声计划,导致图像模糊且细节不足,而潜在编码应已包含结构信息。
  • Method: 分两阶段训练:第一阶段强制编码器和解码器在高噪声水平下学习结构信息;第二阶段在低噪声区域优化细节。
  • Result: 改进后的DAE能生成具有准确结构和细节的高质量图像,同时保留潜在编码的有用特性。
  • Conclusion: 该方法有效提升了DAE的图像重建质量,兼顾结构和细节。

[26] IDDM: Bridging Synthetic-to-Real Domain Gap from Physics-Guided Diffusion for Real-world Image Dehazing

Shijun Zhou,Yajing Liu,Chunhui Hao,Zhiyuan Liu,Jiandong Tian

Main category: cs.CV

TL;DR: 论文提出了一种基于扩散模型的图像去雾方法IDDM,通过结合大气散射模型和噪声扩散,解决了合成数据与真实场景之间的领域差距问题。

  • Motivation: 当前基于合成数据训练的算法在真实场景中泛化能力不足,需要一种能够弥合领域差距的方法。
  • Method: IDDM利用扩散过程,将大气散射模型融入噪声扩散,通过逐步雾化过程帮助去噪Unet学习清晰图像的分布。
  • Result: IDDM在合成数据上训练后,能够有效恢复真实世界的雾化图像,实验证明了其优越性。
  • Conclusion: IDDM通过物理引导的扩散模型,成功实现了领域泛化,为图像去雾提供了新思路。

[27] Comparison of Different Deep Neural Network Models in the Cultural Heritage Domain

Teodor Boyadzhiev,Gabriele Lagani,Luca Ciampi,Giuseppe Amato,Krassimira Ivanova

Main category: cs.CV

TL;DR: 比较卷积神经网络和Transformer架构在文化遗产任务中的知识迁移能力,发现DenseNet在效率与计算性方面表现最佳。

  • Motivation: 探讨计算机视觉和深度学习在文化遗产保护及提升游客体验中的应用,比较两种主流深度学习架构的性能。
  • Method: 测试VGG、ResNet、DenseNet、Visual Transformer、Swin Transformer和PoolFormer等架构在文化遗产任务中的表现。
  • Result: DenseNet在效率与计算性方面表现最优。
  • Conclusion: DenseNet是文化遗产任务中知识迁移的最佳选择。

[28] Static or Dynamic: Towards Query-Adaptive Token Selection for Video Question Answering

Yumeng Shi,Quanyu Long,Wenya Wang

Main category: cs.CV

TL;DR: 提出了一种名为EXPLORE-THEN-SELECT的自适应令牌选择策略,用于优化视频问答中的静态和动态信息分配,显著提升了性能。

  • Motivation: 视频问答中长视频生成的大量令牌对内存效率和模型性能构成挑战,现有方法压缩视频输入时忽略了不同查询对静态和动态信息的需求差异。
  • Method: 提出EXPLORE-THEN-SELECT策略,先探索静态帧和动态帧的令牌分配,再基于查询感知的注意力指标选择最优组合,无需模型更新。
  • Result: 在多个视频问答基准测试中性能提升高达5.8%。
  • Conclusion: 该框架是即插即用的,可无缝集成到多种视频语言模型中,有效解决了令牌使用效率问题。

[29] Adapting In-Domain Few-Shot Segmentation to New Domains without Retraining

Qi Fan,Kaiqi Liu,Nian Liu,Hisham Cholakkal,Rao Muhammad Anwer,Wenbin Li,Yang Gao

Main category: cs.CV

TL;DR: 论文提出了一种无需重新训练的方法(ISA),通过自适应调整模型结构来解决跨域少样本分割问题。

  • Motivation: 跨域少样本分割(CD-FSS)面临目标域多样性及支持数据有限的挑战,现有方法需重新训练模型,成本高昂。
  • Method: 通过结构Fisher评分自适应识别域特定模型结构,并分层训练选定的结构,逐步增加支持样本。
  • Result: 实验表明,ISA方法在多个CD-FSS基准测试中表现优异。
  • Conclusion: ISA方法有效解决了域偏移问题,无需重新设计或训练模型。

[30] Diff-Prompt: Diffusion-Driven Prompt Generator with Mask Supervision

Weicai Yan,Wang Lin,Zirun Guo,Ye Wang,Fangming Feng,Xiaoda Yang,Zehan Wang,Tao Jin

Main category: cs.CV

TL;DR: 论文提出Diff-Prompt,利用扩散模型生成丰富且细粒度的提示信息,以提升复杂下游任务的性能。

  • Motivation: 现有提示学习方法在复杂细粒度任务中性能提升有限,因其直接通过损失反向传播优化提示生成参数,限制了提示的丰富性和特异性。
  • Method: 分三阶段:1) 训练Mask-VAE压缩掩码到隐空间;2) 用改进的DiT训练隐空间提示生成器;3) 在语义空间对齐提示生成器与预训练模型,并微调模型。
  • Result: 在复杂像素级任务中,Diff-Prompt在R@1和R@5上分别提升8.87和14.05,优于其他方法。
  • Conclusion: 实验验证了Diff-Prompt的有效性,展示了生成模型在提示生成中的潜力。

[31] SeriesBench: A Benchmark for Narrative-Driven Drama Series Understanding

Chenkai Zhang,Yiming Lei,Zeming Liu,Haitao Leng,ShaoGuo Liu,Tingting Gao,Qingjie Liu,Yunhong Wang

Main category: cs.CV

TL;DR: 论文提出了SeriesBench,一个专注于叙事驱动视频系列的评测基准,并提出了PC-DCoT框架以提升多模态大语言模型对复杂叙事的理解能力。

  • Motivation: 现有评测基准主要关注独立视频的视觉元素,而忽略了现实中的复杂连续叙事。
  • Method: 通过精选多样化的剧集,结合长跨度叙事标注方法和全信息转换技术,构建SeriesBench;提出PC-DCoT框架以增强模型对剧情结构和角色关系的分析能力。
  • Result: 实验表明现有模型在叙事理解上仍有挑战,而PC-DCoT能显著提升性能。
  • Conclusion: SeriesBench和PC-DCoT强调了提升模型叙事理解能力的必要性,为未来多模态大语言模型的发展提供了方向。

[32] Rethinking Visual Layer Selection in Multimodal LLMs

Haoran Chen,Junyan Lin,Xinhao Chen,Yue Fan,Xin Jin,Hui Su,Jianfeng Dong,Jinlan Fu,Xiaoyu Shen

Main category: cs.CV

TL;DR: 本文提出了一种分层表示相似性方法,将CLIP-ViT的视觉层分为浅层、中层和深层,并研究了它们对多模态大语言模型(MLLM)性能的影响。实验表明,不同任务需要不同层次的视觉特征,而轻量级融合多层特征能显著提升性能。

  • Motivation: 现有MLLM通常基于经验选择视觉特征,缺乏系统性分析。本文旨在通过分层研究,优化视觉特征选择,提升MLLM性能。
  • Method: 提出分层表示相似性方法,将CLIP-ViT层分为浅、中、深三类,并在不同参数规模的LLaVA模型上进行实验。
  • Result: 实验发现:(1)深层特征对OCR任务至关重要;(2)浅层和中层特征在计数、定位等推理任务中表现更优;(3)多层特征融合在多数数据集上优于单层选择。
  • Conclusion: 本文首次系统性研究了MLLM中的视觉层选择问题,为未来视觉表示学习研究奠定了基础。

[33] VR-FuseNet: A Fusion of Heterogeneous Fundus Data and Explainable Deep Network for Diabetic Retinopathy Classification

Shamim Rahim Refat,Ziyan Shirin Raha,Shuvashis Sarker,Faika Fairuj Preotee,MD. Musfikur Rahman,Tashreef Muhammad,Mohammad Shafiul Islam

Main category: cs.CV

TL;DR: 本文提出了一种名为VR-FuseNet的混合深度学习模型,用于自动化糖尿病视网膜病变检测,结合了VGG19和ResNet50V2的优势,准确率达91.824%,并通过XAI技术提升临床可解释性。

  • Motivation: 糖尿病视网膜病变是导致糖尿病患者失明的主要原因,现有方法存在数据集不平衡和泛化能力不足的问题,需要更准确高效的自动化检测方法。
  • Method: 使用五个公开数据集创建混合数据集,应用SMOTE和CLAHE进行预处理,提出VR-FuseNet模型,结合VGG19和ResNet50V2的特征提取能力。
  • Result: VR-FuseNet在糖尿病视网膜病变分类任务中表现优异,准确率达91.824%,优于单一架构。
  • Conclusion: VR-FuseNet通过混合特征提取和XAI技术,显著提升了糖尿病视网膜病变检测的准确性和临床实用性。

[34] Multiview Point Cloud Registration via Optimization in an Autoencoder Latent Space

Luc Vedrenne,Sylvain Faisan,Denis Fortun

Main category: cs.CV

TL;DR: POLAR是一种多视角点云刚性配准方法,通过潜在空间转换和优化策略,解决了现有方法在大视角变换和高退化情况下的不足。

  • Motivation: 现有方法在多视角配准中难以处理大视角变换和高退化情况,且扩展性差。
  • Method: 将配准问题转换到预训练自编码器的潜在空间,设计考虑退化的损失函数,并采用多起点优化策略。
  • Result: 在合成和真实数据上显著优于现有方法。
  • Conclusion: POLAR高效、鲁棒,适用于多视角点云配准。

[35] Quaternion Nuclear Norms Over Frobenius Norms Minimization for Robust Matrix Completion

Yu Guo,Guoqing Chen,Tieyong Zeng,Qiyu Jin,Michael Kwok-Po Ng

Main category: cs.CV

TL;DR: 论文提出了一种新的非凸近似方法QNOF,用于恢复四元数矩阵的秩,并扩展至鲁棒矩阵补全问题,实验证明其优于现有方法。

  • Motivation: 多维数据表示中,从不完整或噪声数据中恢复隐藏结构是一个普遍挑战,四元数矩阵为此提供了有效框架。
  • Method: 引入QNOF作为四元数矩阵秩的非凸近似,利用四元数奇异值分解简化问题,并扩展至鲁棒矩阵补全,使用交替方向乘子法求解。
  • Result: QNOF参数无关且尺度不变,实验证明其在数值实验中优于现有四元数方法。
  • Conclusion: QNOF为四元数矩阵秩恢复和鲁棒补全提供了高效解决方案,具有理论和实践优势。

[36] Robust Orthogonal NMF with Label Propagation for Image Clustering

Jingjing Liu,Nian Wu,Xianchao Xiu,Jianhua Zhang

Main category: cs.CV

TL;DR: 论文提出了一种名为RONMF的鲁棒正交非负矩阵分解方法,用于解决现有NMF方法对噪声敏感且难以利用有限监督信息的问题。

  • Motivation: 现有NMF方法在图像聚类中对噪声敏感且难以利用监督信息,限制了其实际应用。
  • Method: 提出RONMF框架,结合图拉普拉斯和标签传播作为正则项,引入非凸结构测量重构误差,并施加正交约束以减少噪声影响。采用ADMM优化算法求解。
  • Result: 在八个公共图像数据集上的实验表明,RONMF在多种标准指标上优于现有NMF方法,并表现出优异的鲁棒性。
  • Conclusion: RONMF通过结合正则化和非凸结构,显著提升了NMF在噪声环境下的性能和鲁棒性。

[37] GarmentDiffusion: 3D Garment Sewing Pattern Generation with Multimodal Diffusion Transformers

Xinyu Li,Qi Yao,Yuanda Wang

Main category: cs.CV

TL;DR: GarmentDiffusion是一种新的生成模型,能够从多模态输入(文本、图像和不完整的缝纫图案)生成厘米级精度的矢量化3D缝纫图案,效率比现有方法高100倍。

  • Motivation: 现有方法在缝纫图案生成中受限于单一输入模态或生成效率低下,GarmentDiffusion旨在解决这些问题。
  • Method: 通过将3D缝纫图案参数编码为紧凑的边缘令牌表示,并使用扩散变换器同时对所有边缘令牌进行去噪,实现了高效的生成。
  • Result: 在DressCodeData和GarmentCodeData上取得了新的最佳结果,生成速度比SewingGPT快100倍。
  • Conclusion: GarmentDiffusion在多模态输入和高效生成方面表现出色,为缝纫图案设计提供了新的解决方案。

[38] CAE-DFKD: Bridging the Transferability Gap in Data-Free Knowledge Distillation

Zherui Zhang,Changwei Wang,Rongtao Xu,Wenhao Xu,Shibiao Xu,Yu Zhang,Li Guo

Main category: cs.CV

TL;DR: CAE-DFKD提出了一种新的无数据知识蒸馏方法,通过嵌入层面的改进提升模型泛化能力,并在效率和下游任务表现上优于现有方法。

  • Motivation: 现有DFKD方法主要关注图像识别性能,忽略了学习表征的可迁移性,CAE-DFKD旨在解决这一问题。
  • Method: CAE-DFKD在嵌入层面改进,改变了生成器训练范式,提升了效率和泛化能力。
  • Result: CAE-DFKD在图像识别任务中表现优异,且在学习表征的可迁移性上显著优于现有方法。
  • Conclusion: CAE-DFKD在无数据知识蒸馏中实现了高效、高性能和高迁移性的统一。

[39] DGSolver: Diffusion Generalist Solver with Universal Posterior Sampling for Image Restoration

Hebaixu Wang,Jing Zhang,Haonan Guo,Di Wang,Jiayi Ma,Bo Du

Main category: cs.CV

TL;DR: DGSolver是一种扩散通用求解器,通过高精度求解器和队列加速采样策略提升图像恢复的准确性和效率,同时引入通用后验采样优化噪声估计。

  • Motivation: 现有方法在减少采样步骤时引入累积误差,且难以平衡退化表示和恢复质量。
  • Method: 推导通用扩散模型的精确常微分方程,设计高阶求解器和队列加速采样策略,结合通用后验采样优化噪声估计。
  • Result: DGSolver在恢复准确性、稳定性和可扩展性上优于现有方法。
  • Conclusion: DGSolver通过高效采样和噪声估计优化,显著提升了图像恢复性能。

[40] ClassWise-CRF: Category-Specific Fusion for Enhanced Semantic Segmentation of Remote Sensing Imagery

Qinfeng Zhu,Yunxi Jiang,Lei Fan

Main category: cs.CV

TL;DR: 提出了一种名为ClassWise-CRF的结果级类别特定融合架构,通过两阶段过程(选择专家网络并自适应加权融合)及CRF优化,显著提升了遥感图像语义分割性能。

  • Motivation: 解决多网络在语义分割中不同类别表现差异的问题,实现类别特定的优化。
  • Method: 1. 使用贪婪算法选择专家网络;2. 基于分割性能自适应加权融合;3. 利用CRF优化空间一致性和边界精度。
  • Result: 在LoveDA和Vaihingen数据集上,mIoU分别提升1.00%/0.68%和0.87%/0.91%。
  • Conclusion: ClassWise-CRF架构有效且通用,显著提升遥感图像语义分割性能。

[41] Consistency-aware Fake Videos Detection on Short Video Platforms

Junxi Wang,Jize liu,Na Zhang,Yaxiong Wang

Main category: cs.CV

TL;DR: 提出一种利用跨模态矛盾检测假新闻的新方法,通过一致性学习和多模态协作诊断提升检测性能。

  • Motivation: 现有方法未能充分利用跨模态不一致性作为判别特征,导致检测精度不足。
  • Method: 提出Cross-modal Consistency Learning (CMCL)和Multi-modal Collaborative Diagnosis (MMCD)模块,分别生成伪标签量化不一致性并融合多模态特征。
  • Result: 在FakeSV和FakeTT基准测试中表现优异。
  • Conclusion: 通过显式利用跨模态矛盾,显著提升了假新闻检测的准确性。

[42] MagicPortrait: Temporally Consistent Face Reenactment with 3D Geometric Guidance

Mengting Wei,Yante Li,Tuomas Varanka,Yan Jiang,Licai Sun,Guoying Zhao

Main category: cs.CV

TL;DR: 提出了一种将3D人脸参数模型与潜在扩散框架结合的视频人脸重演方法,提升形状一致性和运动控制。

  • Motivation: 改进现有视频人脸生成方法在形状一致性和运动控制上的不足。
  • Method: 使用FLAME模型作为3D人脸参数表示,结合深度图、法线图和渲染图增强潜在扩散模型,并通过多层融合模块结合身份与运动特征。
  • Result: 在基准数据集上生成高质量人脸动画,精确建模表情和头部姿态变化,泛化性能强。
  • Conclusion: 方法有效提升了人脸重演的精度和泛化能力,代码已开源。

[43] SAM4EM: Efficient memory-based two stage prompt-free segment anything model adapter for complex 3D neuroscience electron microscopy stacks

Uzair Shah,Marco Agus,Daniya Boges,Vanessa Chiappini,Mahmood Alzubaidi,Jens Schneider,Markus Hadwiger,Pierre J. Magistretti,Mowafa Househ,Corrado Calı

Main category: cs.CV

TL;DR: SAM4EM是一种基于Segment Anything Model(SAM)的新方法,用于电子显微镜(EM)数据中复杂神经结构的3D分割,通过无提示适配器和双阶段微调策略显著提升了分割精度。

  • Motivation: 解决电子显微镜数据中复杂神经结构(如线粒体、胶质细胞和突触)的3D分割问题,尤其是在标注数据有限的情况下。
  • Method: 开发了无提示适配器,采用双阶段掩码解码自动生成提示嵌入;基于LoRA的双阶段微调方法;3D记忆注意力机制确保分割一致性。
  • Result: 在神经科学分割基准测试中,SAM4EM在胶质细胞和突触后密度等复杂结构的分割上优于现有方法。
  • Conclusion: SAM4EM通过结合SAM和先进微调策略,显著提升了3D分割性能,并发布了新的基准数据集。

[44] Black-Box Visual Prompt Engineering for Mitigating Object Hallucination in Large Vision Language Models

Sangmin Woo,Kang Zhou,Yun Zhou,Shuai Wang,Sheng Guan,Haibo Ding,Lin Lee Cheong

Main category: cs.CV

TL;DR: 通过视觉提示工程(BBVPE)框架,动态选择最优视觉提示以减少大型视觉语言模型(LVLM)中的物体幻觉。

  • Motivation: 大型视觉语言模型(LVLM)常出现物体幻觉问题,影响其可靠性,需要一种无需访问模型内部的方法来优化视觉提示。
  • Method: 提出Black-Box Visual Prompt Engineering(BBVPE)框架,通过候选视觉提示池和路由模型动态选择最优提示。
  • Result: 在POPE和CHAIR等基准测试中,BBVPE显著减少了物体幻觉。
  • Conclusion: BBVPE是一种模型无关的黑盒方法,能有效提升LVLM的可靠性。

[45] Iterative Trajectory Exploration for Multimodal Agents

Pengxiang Li,Zhi Gao,Bofei Zhang,Yapeng Mi,Xiaojian Ma,Chenrui Shi,Tao Yuan,Yuwei Wu,Yunde Jia,Song-Chun Zhu,Qing Li

Main category: cs.CV

TL;DR: SPORT是一种多模态代理的在线自探索方法,通过逐步偏好优化改进代理轨迹,无需专家标注,自动生成任务并从中学习。

  • Motivation: 现有代理需要大量专家数据进行微调以适应新环境,SPORT旨在通过自探索减少对专家数据的依赖。
  • Method: SPORT通过任务合成、步骤采样、步骤验证和偏好调优四个迭代组件,利用语言模型生成任务并通过AI反馈优化策略。
  • Result: 在GTA和GAIA基准测试中,SPORT代理分别实现了6.41%和3.64%的性能提升。
  • Conclusion: SPORT通过自探索和偏好优化显著提升了多模态代理的泛化能力和有效性。

[46] eNCApsulate: NCA for Precision Diagnosis on Capsule Endoscopes

Henry John Krumb,Anirban Mukhopadhyay

Main category: cs.CV

TL;DR: 无线胶囊内窥镜(WCE)是一种非侵入性胃肠道成像方法,但视频数据量大且胶囊定位困难。研究提出使用神经细胞自动机(NCA)进行出血分割和深度估计,并通过模型蒸馏和硬件优化实现微型设备上的高效运行。

  • Motivation: 传统WCE数据处理耗时且胶囊定位困难,需要轻量化的深度学习方法以在微型设备上实现实时病理检测和定位。
  • Method: 通过蒸馏大型基础模型的输出作为伪真值,训练轻量级NCA模型,并将其移植到ESP32微控制器上,实现高效图像处理。
  • Result: NCA在出血分割上比其他轻量模型更准确(Dice指标),且参数存储需求减少100倍以上;深度估计结果在某些情况下优于伪真值。ESP32-S3上的推理速度提升3倍以上。
  • Conclusion: 研究首次在微型设备上实现了可靠的出血分割和深度估计,为结合视觉里程计实现胶囊精确定位奠定了基础。

[47] Cascade Detector Analysis and Application to Biomedical Microscopy

Thomas L. Athey,Shashata Sawmya,Nir Shavit

Main category: cs.CV

TL;DR: 提出了一种基于级联检测器的高效稀疏目标识别方法,适用于多分辨率图像,显著减少计算时间。

  • Motivation: 随着计算机视觉模型和生物医学数据集的规模增长,需要更高效的推理算法。
  • Method: 利用级联检测器在多分辨率图像中识别稀疏目标,推导了级联检测器的准确性和预期分类器调用次数。
  • Result: 实验表明,多级检测器在荧光细胞检测、细胞器分割和组织分割中,性能相当但时间减少30-75%。
  • Conclusion: 该方法适用于多种计算机视觉模型和数据领域,具有广泛的应用潜力。

[48] Mcity Data Engine: Iterative Model Improvement Through Open-Vocabulary Data Selection

Daniel Bogdoll,Rajanikant Patnaik Ananta,Abeyankar Giridharan,Isabel Moore,Gregory Stevens,Henry X. Liu

Main category: cs.CV

TL;DR: Mcity Data Engine是一个开源系统,用于从大量未标记数据中选择和标记样本,特别关注稀有和新类别,适用于智能交通系统。

  • Motivation: 随着数据量的增加,选择和标记样本以训练机器学习模型变得更具挑战性,尤其是在智能交通系统中。现有工业数据引擎多为专有,缺乏开源解决方案。
  • Method: Mcity Data Engine提供完整的数据开发周期模块,包括数据采集到模型部署,采用开放词汇数据选择方法。
  • Result: 该系统代码已在GitHub上公开,支持MIT许可证。
  • Conclusion: Mcity Data Engine填补了开源数据引擎的空白,特别适用于处理稀有和新类别的数据。

[49] Diffusion-based Adversarial Identity Manipulation for Facial Privacy Protection

Liqin Wang,Qianyue Hu,Wei Lu,Xiangyang Luo

Main category: cs.CV

TL;DR: DiffAIM是一种基于扩散模型的对抗性人脸生成方法,旨在保护用户隐私,通过生成自然且高迁移性的对抗性人脸来对抗恶意人脸识别系统。

  • Motivation: 由于人脸识别系统的成功导致隐私问题,现有方法无法生成自然的保护隐私的人脸图像,因此需要一种新方法。
  • Method: 利用扩散模型的低维潜在空间,在反向扩散过程中迭代注入梯度对抗性身份引导,优化身份收敛和目标语义分离,同时保持面部结构一致性。
  • Result: 实验表明,DiffAIM在攻击迁移性和视觉质量上优于现有方法,并在商业API(如Face++和Aliyun)上有效。
  • Conclusion: DiffAIM提供了一种高效且自然的方法来保护人脸隐私,对抗恶意人脸识别系统。

[50] HoloTime: Taming Video Diffusion Models for Panoramic 4D Scene Generation

Haiyang Zhou,Wangbo Yu,Jiawen Guan,Xinhua Cheng,Yonghong Tian,Li Yuan

Main category: cs.CV

TL;DR: HoloTime框架结合视频扩散模型生成全景视频,并通过4D场景重建方法提升VR/AR沉浸体验。

  • Motivation: 现有扩散模型主要关注静态3D场景或对象级动态,无法满足沉浸式4D体验需求。
  • Method: 提出HoloTime框架,包括全景视频生成(Panoramic Animator)和4D场景重建(Panoramic Space-Time Reconstruction)。
  • Result: 方法在生成全景视频和4D重建方面优于现有技术,提升了沉浸感。
  • Conclusion: HoloTime能创造更真实、沉浸的VR/AR环境,优化用户体验。

[51] Visual Text Processing: A Comprehensive Review and Unified Evaluation

Yan Shu,Weichao Zeng,Fangmin Zhao,Zeyu Chen,Zhenhang Li,Xiaomeng Yang,Yu Zhou,Paolo Rota,Xiang Bai,Lianwen Jin,Xu-Cheng Yin,Nicu Sebe

Main category: cs.CV

TL;DR: 该论文综述了视觉文本处理的最新进展,提出了VTPBench基准和VTPScore评估指标,并分析了20多个模型,指出当前技术的改进空间。

  • Motivation: 视觉文本在文档和场景图像中具有丰富的语义信息,但因其独特属性,处理仍面临挑战。论文旨在通过多视角分析,推动视觉文本处理领域的发展。
  • Method: 论文采用多视角分析方法,提出VTPBench基准和VTPScore评估指标,并基于多模态大语言模型(MLLMs)进行实证研究。
  • Result: 研究发现当前技术在视觉文本处理方面仍有显著改进空间,并提出了新的基准和评估方法。
  • Conclusion: 论文旨在为视觉文本处理领域提供基础资源,促进未来探索和创新。

[52] Enhancing Self-Supervised Fine-Grained Video Object Tracking with Dynamic Memory Prediction

Zihan Zhou,Changrui Dai,Aibo Song,Xiaolin Fang

Main category: cs.CV

TL;DR: 提出了一种动态内存预测(DMP)框架,通过多参考帧直接增强帧重建,优于现有自监督技术。

  • Motivation: 现有帧重建方法在复杂场景(如遮挡或快速运动)中忽视多参考帧的直接参与价值。
  • Method: 采用动态选择参考帧的内存引擎和双向目标预测网络,提升跟踪和重建鲁棒性。
  • Result: 在两个细粒度视频目标跟踪任务(对象分割和关键点跟踪)中表现优于现有技术。
  • Conclusion: DMP框架通过多参考帧动态选择显著提升了视频分析的准确性和鲁棒性。

[53] REHEARSE-3D: A Multi-modal Emulated Rain Dataset for 3D Point Cloud De-raining

Abu Mohammed Raisuddin,Jesper Holmblad,Hamed Haghighi,Yuri Poledna,Maikol Funk Drechsler,Valentina Donzella,Eren Erdal Aksoy

Main category: cs.CV

TL;DR: 论文提出了一个名为REHEARSE-3D的大规模多模态模拟降雨数据集,用于促进3D点云去雨研究,并评估了多种模型的性能。

  • Motivation: 传感器退化(如降雨对LiDAR点云的干扰)是自动驾驶中的重大挑战,需要天气感知的系统来解决安全问题。
  • Method: 发布了REHEARSE-3D数据集,包含高分辨率LiDAR和4D雷达点云,并标注了降雨特征信息。
  • Result: 数据集是最大的点级标注数据集,并提供了多种模型的性能评估。
  • Conclusion: REHEARSE-3D数据集和基准模型将公开,以推动3D点云去雨研究。

[54] Vision Transformers in Precision Agriculture: A Comprehensive Survey

Saber Mehdipour,Seyed Abolghasem Mirroshandel,Seyed Amirhossein Tabatabaei

Main category: cs.CV

TL;DR: 本文综述了视觉变换器(ViTs)在精准农业中的应用,探讨了其从自然语言处理到计算机视觉的转变,并与传统卷积神经网络(CNNs)进行了比较。

  • Motivation: 传统植物病害检测方法在可扩展性和准确性上存在局限,ViTs因其处理长距离依赖和视觉任务的优势成为有前景的替代方案。
  • Method: 介绍了ViTs的基础架构,讨论了其与CNNs的差异,综述了关键方法、数据集和性能指标,并分析了技术挑战与解决方案。
  • Result: ViTs在精准农业中展现出潜力,尤其在分类、检测和分割任务中表现优于传统方法。
  • Conclusion: ViTs有望推动智能和精准农业的发展,但仍需解决数据需求、计算成本和模型可解释性等技术挑战。

[55] VividListener: Expressive and Controllable Listener Dynamics Modeling for Multi-Modal Responsive Interaction

Shiying Li,Xingqun Qi,Bingkun Yang,Chen Weile,Zezhao Tian,Muyi Sun,Qifeng Liu,Man Zhang,Zhenan Sun

Main category: cs.CV

TL;DR: 论文提出VividListener框架,用于生成具有细腻情感和表达反应的听者头部动态,并通过新收集的大规模数据集ListenerX验证其性能。

  • Motivation: 现有研究主要关注听者行为的短期生成,缺乏对运动变化和情感强度的细粒度控制,且缺乏长期、大规模的多模态配对语料库。
  • Method: 提出VividListener框架,包含Responsive Interaction Module(RIM)和Emotional Intensity Tags(EIT),用于多模态交互嵌入和情感强度编辑。
  • Result: 在ListenerX数据集上的实验表明,VividListener实现了最先进的性能,生成具有表达性和可控性的听者动态。
  • Conclusion: VividListener框架解决了听者动态建模中的细粒度控制和多模态协调问题,为虚拟对话建模提供了新思路。

[56] Common3D: Self-Supervised Learning of 3D Morphable Models for Common Objects in Neural Feature Space

Leonhard Sommer,Olaf Dünkel,Christian Theobalt,Adam Kortylewski

Main category: cs.CV

TL;DR: Common3D是一种自监督学习方法,通过视频学习3D可变形模型(3DMMs),无需3D数据采集或类别特定训练。

  • Motivation: 现有3DMMs仅适用于少数类别(如人脸或人体),且需要复杂的数据采集和训练过程。
  • Method: 使用对象中心视频自监督学习3DMMs,通过神经特征表示外观,并利用对比目标训练特征。
  • Result: 相比现有方法,Common3D在3D姿态估计和语义对应任务上表现更优。
  • Conclusion: Common3D是首个完全自监督的方法,能零样本解决多种视觉任务。

[57] Anatomical Similarity as a New Metric to Evaluate Brain Generative Models

Bahram Jafrasteh,Wei Peng,Cheng Wan,Yimin Luo,Ehsan Adeli,Qingyu Zhao

Main category: cs.CV

TL;DR: 提出WASABI指标,用于评估合成脑MRI的解剖学真实性,优于传统视觉指标。

  • Motivation: 现有评估方法关注纹理和感知,缺乏对解剖学真实性的敏感度。
  • Method: 利用SynthSeg分割工具和Wasserstein距离比较真实与合成MRI的解剖分布。
  • Result: WASABI在量化解剖差异上更敏感,优于传统指标。
  • Conclusion: 强调解剖学真实性是临床MRI合成的关键评估标准。

[58] Anomaly-Driven Approach for Enhanced Prostate Cancer Segmentation

Alessia Hu,Regina Beets-Tan,Lishan Cai,Eduardo Pooch

Main category: cs.CV

TL;DR: 该研究提出了一种结合异常检测的U-Net模型(adU-Net),通过异常图改进前列腺癌的自动识别,性能优于基线模型。

  • Motivation: MRI在识别临床显著前列腺癌(csPCa)中很重要,但自动化方法面临数据不平衡、肿瘤大小不一和标注数据不足的挑战。
  • Method: 研究引入adU-Net,将基于双参数MRI序列的异常图融入深度学习分割框架,比较了异常检测方法并评估了异常图对分割的影响。
  • Result: 在外部测试集上,adU-Net的平均得分(AUROC和AP的均值)为0.618,优于基线nnU-Net(0.605)。
  • Conclusion: 结合异常检测的分割方法提高了泛化能力和性能,尤其是基于ADC的异常图,为csPCa自动识别提供了新方向。

[59] A simple and effective approach for body part recognition on CT scans based on projection estimation

Franko Hrzic,Mohammadreza Movahhedi,Ophelie Lavoie-Gagne,Ata Kiapour

Main category: cs.CV

TL;DR: 该研究提出了一种基于2D X射线估计3D CT扫描的简单有效方法,用于识别身体区域,显著优于其他方法。

  • Motivation: 由于CT数据的体积特性及元数据缺失,标注工作复杂且耗时,需要一种更高效的方法。
  • Method: 利用估计的2D图像识别14个不同身体区域,并与2.5D、3D和基础模型方法进行比较。
  • Result: 提出的方法在统计显著性和F1分数上表现最佳(EffNet-B0为0.980 ± 0.016),优于其他方法。
  • Conclusion: 该方法为构建高质量医学数据集提供了有效工具,显著提升了身体区域识别的准确性。

[60] Why Compress What You Can Generate? When GPT-4o Generation Ushers in Image Compression Fields

Yixin Gao,Xiaohan Pan,Xin Li,Zhibo Chen

Main category: cs.CV

TL;DR: 论文探讨了利用AIGC基础模型(如GPT-4o)在图像压缩领域的潜力,提出文本编码和多模态编码两种范式,并通过结构光栅扫描提示工程机制提升解码一致性,实验表明其性能优于现有方法。

  • Motivation: AIGC基础模型的快速发展为图像压缩提供了新思路,即通过生成而非传统压缩方式实现高效图像表示。GPT-4o的强大跨模态生成能力激发了其在图像压缩中的应用探索。
  • Method: 研究两种压缩范式:文本编码(仅用文本描述)和多模态编码(文本+极低分辨率图像)。提出结构光栅扫描提示工程机制,将图像转化为文本空间作为GPT-4o生成条件。
  • Result: 实验表明,结合结构光栅扫描提示和GPT-4o生成功能,在超低比特率下性能优于现有多模态/生成式图像压缩方法。
  • Conclusion: AIGC生成在图像压缩领域具有巨大潜力,未来可进一步优化生成一致性和效率。

[61] Early Exit and Multi Stage Knowledge Distillation in VLMs for Video Summarization

Anas Anwarul Haq Khan,Utkarsh Verma,Prateek Chanda,Ganesh Ramakrishnan

Main category: cs.CV

TL;DR: DEEVISum是一个轻量高效的视觉语言模型,用于视频摘要,结合多模态提示和多阶段知识蒸馏(MSKD)与早期退出(EE),在性能和效率间取得平衡。

  • Motivation: 设计一个轻量且高效的视觉语言模型,用于视频摘要任务,同时保持高性能和低计算成本。
  • Method: 利用多模态提示(文本和音频信号),结合MSKD和EE技术,优化模型性能和推理效率。
  • Result: 在TVSum数据集上,PaLI Gemma2 3B + MSKD模型达到61.1的F1分数,推理时间减少21%,性能接近更大模型。
  • Conclusion: DEEVISum在视频摘要任务中表现出色,代码和数据集已公开,支持进一步研究。

[62] 3D Stylization via Large Reconstruction Model

Ipek Oztas,Duygu Ceylan,Aysegul Dundar

Main category: cs.CV

TL;DR: 论文提出了一种无需训练或优化的3D外观风格化方法,通过注入参考图像的特征到大型重建模型的注意力块中,实现高质量的风格迁移。

  • Motivation: 随着文本或图像引导的3D生成器的成功,用户对生成过程的控制需求增加,特别是外观风格化。
  • Method: 利用大型重建模型中的注意力块捕获外观特征,通过注入参考图像的特征实现风格迁移。
  • Result: 方法在3D外观风格化上表现优异,显著提升了效率并保持了高质量的视觉效果。
  • Conclusion: 该方法简单有效,无需额外训练或优化,为3D外观风格化提供了新思路。

[63] Active Light Modulation to Counter Manipulation of Speech Visual Content

Hadleigh Schwartz,Xiaofeng Yan,Charles J. Carver,Xia Zhou

Main category: cs.CV

TL;DR: Spotlight是一种低开销、非侵入性的系统,通过动态物理签名保护实时演讲视频免受身份和面部动作的视觉伪造。

  • Motivation: 高知名度演讲视频易受伪造,因其可访问性和影响力。
  • Method: 利用不可察觉的调制光嵌入动态物理签名,生成紧凑的、姿态不变的视频特征。
  • Result: 在检测伪造视频时,AUC≥0.99,真阳性率100%,且对录制条件和后处理具有高鲁棒性。
  • Conclusion: Spotlight为实时演讲视频提供了高效且安全的防伪造解决方案。

[64] Differentiable Room Acoustic Rendering with Multi-View Vision Priors

Derong Jin,Ruohan Gao

Main category: cs.CV

TL;DR: AV-DAR框架通过结合视觉线索和声学束追踪,实现了高效、可解释且准确的房间声学渲染,显著优于现有方法。

  • Motivation: 现有房间脉冲响应估计方法依赖数据密集型学习模型或计算昂贵的物理建模,限制了实际应用。
  • Method: AV-DAR利用多视角图像提取的视觉线索和声学束追踪,进行基于物理的房间声学渲染。
  • Result: 在六个真实环境中,AV-DAR表现优异,性能接近使用10倍数据训练的模型,相对增益达16.6%至50.9%。
  • Conclusion: AV-DAR为多模态、物理基础的声学渲染提供了高效且准确的解决方案。

[65] COMPACT: COMPositional Atomic-to-Complex Visual Capability Tuning

Xindi Wu,Hee Seung Hwang,Polina Kirichenko,Olga Russakovsky

Main category: cs.CV

TL;DR: COMPACT是一种数据高效的多模态大语言模型训练方法,通过控制训练样本的组合复杂性,显著提升复杂视觉语言任务的性能。

  • Motivation: 多模态大语言模型在简单任务上表现优异,但在需要多能力组合的复杂任务上表现不佳,传统视觉指令调优方法仅关注数据量而非组合复杂性。
  • Method: 提出COMPACT方法,生成一个显式控制组合复杂性的训练数据集,使模型能更高效地学习复杂能力。
  • Result: COMPACT在数据量仅为LLaVA-665k的10%时,性能相当甚至更优,尤其在需要多能力组合的任务上表现突出(如MMStar提升83.3%,MM-Vet提升94.0%)。
  • Conclusion: COMPACT为复杂视觉语言任务提供了一种可扩展且数据高效的训练方案。

[66] A Survey of Interactive Generative Video

Jiwen Yu,Yiran Qin,Haoxuan Che,Quande Liu,Xintao Wang,Pengfei Wan,Di Zhang,Kun Gai,Hao Chen,Xihui Liu

Main category: cs.CV

TL;DR: 本文探讨了交互式生成视频(IGV)技术,定义了其核心功能,并分析了在游戏、具身AI和自动驾驶领域的应用。提出了一个包含五个模块的框架,并讨论了技术挑战和未来方向。

  • Motivation: 随着对高质量、交互式视频内容需求的增长,IGV技术的重要性日益凸显。本文旨在系统化IGV的定义、应用和未来发展方向。
  • Method: 通过调查IGV在游戏、具身AI和自动驾驶领域的应用,提出了一个包含生成、控制、记忆、动态和智能五个模块的框架,并分析了技术挑战。
  • Result: 提出了IGV的全面框架,并识别了实现理想IGV系统的关键技术挑战,如实时生成、开放域控制和物理模拟等。
  • Conclusion: 本文的系统分析将推动IGV技术的未来发展,使其在更复杂和实用的应用中取得进展。

[67] ReVision: High-Quality, Low-Cost Video Generation with Explicit 3D Physics Modeling for Complex Motion and Interaction

Qihao Liu,Ju He,Qihang Yu,Liang-Chieh Chen,Alan Yuille

Main category: cs.CV

TL;DR: ReVision是一个将参数化3D物理知识集成到预训练视频生成模型中的框架,显著提升了生成复杂运动视频的能力。

  • Motivation: 解决现有视频生成模型在复杂运动和交互上的不足。
  • Method: 通过三个阶段:1)生成粗略视频;2)提取2D/3D特征并优化;3)反馈优化后的运动序列生成高质量视频。
  • Result: 在Stable Video Diffusion上验证,ReVision显著提升运动保真度和一致性,性能优于更大模型。
  • Conclusion: 通过集成3D物理知识,小模型也能生成更真实可控的复杂运动视频。

cs.AI

[68] A Formalism for Optimal Search with Dynamic Heuristics

Remo Christen,Florian Pommerening,Clemens Büchner,Malte Helmert

Main category: cs.AI

TL;DR: 本文形式化了动态启发式的概念,并将其应用于通用算法框架中,证明了动态启发式在A*算法中的最优性,并将经典规划中的现有方法视为其特例。

  • Motivation: 现有研究在使用动态启发式时忽略了其可变性带来的复杂性,本文旨在填补这一理论空白。
  • Method: 提出一个通用算法框架,并在其中实例化动态启发式的A*算法,研究其最优性。
  • Result: 证明了动态启发式在A*算法中的一般最优性结果。
  • Conclusion: 将经典规划中的方法视为本文框架的特例,从而直接应用最优性结果。

[69] AffectEval: A Modular and Customizable Framework for Affective Computing

Emily Zhou,Khushboo Khatri,Yixue Zhao,Bhaskar Krishnamachari

Main category: cs.AI

TL;DR: AffectEval是一个模块化、可定制的框架,旨在减少情感计算管道开发中的手动工作和重复劳动,验证显示编程工作量减少90%。

  • Motivation: 情感计算领域缺乏支持多模态、多领域情感识别应用的软件框架,导致开发管道时重复劳动。
  • Method: 引入AffectEval框架,通过模块化和可定制化设计简化开发流程,并通过复现先前实验验证其效果。
  • Result: AffectEval显著减少了编程工作量(减少90%的代码行数)。
  • Conclusion: AffectEval为情感计算管道的开发提供了高效且通用的解决方案。

[70] Theoretical Foundations for Semantic Cognition in Artificial Intelligence

Sebastian Dumbrava

Main category: cs.AI

TL;DR: 提出了一种基于结构化语义状态的模块化认知架构,用于人工智能,支持信念的动态操作和自调节。

  • Motivation: 结合哲学、认知科学和神经科学的理论,构建一种能够支持自调节、目标导向思维的认知框架。
  • Method: 定义信念状态为动态语言表达集合,引入操作符实现同化、抽象、消除等功能,提出“认知真空”和“Null Tower”作为生成结构。
  • Result: 开发了一种可在符号和神经系统中实现的框架,支持智能体的推理、记忆和信念调节。
  • Conclusion: 该工作为构建结构化、可解释的智能体提供了理论基础。

[71] Reinforced MLLM: A Survey on RL-Based Reasoning in Multimodal Large Language Models

Guanghao Zhou,Panjia Qiu,Cen Chen,Jie Wang,Zheming Yang,Jian Xu,Minghui Qiu

Main category: cs.AI

TL;DR: 综述探讨了强化学习(RL)在多模态大语言模型(MLLMs)推理中的应用,总结了算法设计、奖励机制及实际应用,并提出了未来研究方向。

  • Motivation: 尽管MLLMs扩展了LLMs的多模态处理能力,但其跨模态推理仍面临挑战,RL被认为是一种潜在的解决方案。
  • Method: 系统回顾了RL在MLLMs推理中的最新进展,包括无价值与基于价值的方法,以及奖励机制和推理轨迹优化。
  • Result: 总结了RL如何通过优化推理轨迹和对齐多模态信息提升推理能力,并分析了现有数据集、评估协议和局限性。
  • Conclusion: 提出了未来研究方向,如稀疏奖励、跨模态推理效率和实际部署问题,旨在为研究者提供结构化指南。

[72] Phi-4-reasoning Technical Report

Marah Abdin,Sahaj Agarwal,Ahmed Awadallah,Vidhisha Balachandran,Harkirat Behl,Lingjiao Chen,Gustavo de Rosa,Suriya Gunasekar,Mojan Javaheripi,Neel Joshi,Piero Kauffmann,Yash Lara,Caio César Teodoro Mendes,Arindam Mitra,Besmira Nushi,Dimitris Papailiopoulos,Olli Saarikivi,Shital Shah,Vaishnavi Shrivastava,Vibhav Vineet,Yue Wu,Safoora Yousefi,Guoqing Zheng

Main category: cs.AI

TL;DR: Phi-4-reasoning是一个14B参数的推理模型,通过精心设计的监督微调和强化学习,在复杂推理任务中表现优异,甚至超越了一些更大的模型。

  • Motivation: 研究旨在通过数据精选和监督微调提升推理模型的性能,并探索强化学习对模型推理能力的进一步优化。
  • Method: 采用监督微调Phi-4模型,结合精选的“可教学”提示和推理演示;进一步通过结果驱动的强化学习开发了Phi-4-reasoning-plus变体。
  • Result: 模型在数学、科学推理、编程、算法问题解决等领域表现优异,超越了一些更大的开源模型,接近DeepSeek-R1的性能。
  • Conclusion: 研究表明数据精选和监督微调对推理模型性能至关重要,强化学习可进一步提升性能,同时指出了评估推理模型性能的新方向。

[73] IRL Dittos: Embodied Multimodal AI Agent Interactions in Open Spaces

Seonghee Lee,Denae Ford,John Tang,Sasa Junuzovic,Asta Roseway,Ed Cutrell,Kori Inkpen

Main category: cs.AI

TL;DR: IRL Ditto是一个AI驱动的实体代理,用于在共享办公空间中代表远程同事,促进实时交流。研究发现其增强社交关系的能力取决于用户与代理源的关系基础。

  • Motivation: 研究如何通过IRL Ditto这种实体代理增强分布式团队中的社交互动和关系。
  • Method: 通过为期四天的研究,评估IRL Ditto在模拟存在和促进不同社交熟悉度下的互动效果。
  • Result: IRL Ditto增强社交关系的能力与用户与代理源的关系基础密切相关。
  • Conclusion: 研究表明,实体代理如IRL Ditto可以丰富分布式团队的职场动态,但其效果依赖于现有关系基础。

[74] ShorterBetter: Guiding Reasoning Models to Find Optimal Inference Length for Efficient Reasoning

Jingyang Yi,Jiazheng Wang

Main category: cs.AI

TL;DR: 论文提出ShorterBetter方法,通过强化学习让推理模型自动找到最优的Chain-of-Thought长度,减少推理长度80%同时保持准确性。

  • Motivation: 现有推理模型通过长Chain-of-Thought(CoT)提示在复杂任务上表现优异,但过长推理会导致效率低下。
  • Method: 使用强化学习方法,定义Sample Optimal Length(SOL)为最短正确输出,动态引导模型优化推理长度。
  • Result: 在DeepSeek-Distill-Qwen-1.5B模型上,ShorterBetter将输出长度减少80%,同时保持准确性。
  • Conclusion: 过长推理常导致方向迷失,表明推理模型的CoT具有高度可压缩性。

[75] NGENT: Next-Generation AI Agents Must Integrate Multi-Domain Abilities to Achieve Artificial General Intelligence

Zhicong Li,Hangyu Mao,Jiangjin Yin,Mingzhe Xing,Zhiwei Xu,Yuanxing Zhang,Yang Xiao

Main category: cs.AI

TL;DR: 论文主张下一代AI代理(NGENT)应整合跨领域能力以推进通用人工智能(AGI),并提出统一框架的可行性。

  • Motivation: 当前AI代理局限于狭窄领域,缺乏跨领域能力,而整合多领域技术是实现AGI的关键。
  • Method: 提出将文本、视觉、机器人、强化学习、情感智能等领域的优势整合为统一框架。
  • Result: 跨领域整合不仅可行,且是实现人类智能般多功能性和适应性的必要步骤。
  • Conclusion: 开发多功能代理是实现AGI的重要一步,本文探讨了其理论基础和实现路径。

[76] A Study on Group Decision Making Problem Based on Fuzzy Reasoning and Bayesian Networks

Shui-jin Rong,Wei Guo,Da-qing Zhang

Main category: cs.AI

TL;DR: 提出了一种结合模糊推理和贝叶斯网络的群决策系统,用于解决多目标属性的群决策问题,并在学生评价案例中验证了其有效性。

  • Motivation: 针对多目标属性的群决策问题,传统方法难以处理定量挑战(如尺度差异和专家语言变量),因此需要一种更有效的方法。
  • Method: 构建模糊规则库,设计分层贝叶斯网络,动态优化条件概率表,建模多维指标的非线性相关性。
  • Result: 在学生评价案例中,分类准确率达86.0%,F1值比传统方法提高53.4%。
  • Conclusion: 该方法在规则构建和排序一致性上表现优异,且在不同群决策场景中具有可靠性和鲁棒性。

[77] Designing Control Barrier Function via Probabilistic Enumeration for Safe Reinforcement Learning Navigation

Luca Marzari,Francesco Trotti,Enrico Marchesini,Alessandro Farinelli

Main category: cs.AI

TL;DR: 提出了一种基于神经网络验证的分层控制框架,用于确保强化学习导航策略的安全性。

  • Motivation: 在动态和不确定的现实环境中实现安全的自主导航系统至关重要。
  • Method: 利用概率枚举识别不安全操作区域,构建基于控制屏障函数(CBF)的安全控制层,适用于任意策略。
  • Result: 在仿真和真实机器人实验中验证了框架的有效性,能够纠正不安全行为并保持高效导航。
  • Conclusion: 分层验证系统在复杂场景中实现安全、鲁棒的导航行为具有潜力。

[78] AdaR1: From Long-CoT to Hybrid-CoT via Bi-Level Adaptive Reasoning Optimization

Haotian Luo,Haiying He,Yibo Wang,Jinluan Yang,Rui Liu,Naiqiang Tan,Xiaochun Cao,Dacheng Tao,Li Shen

Main category: cs.AI

TL;DR: 论文提出了一种自适应推理框架,通过结合长短推理模型和双层偏好训练,显著降低了推理成本,同时保持性能。

  • Motivation: 现有长推理模型在复杂任务上表现优异,但推理开销大,且不同问题对长推理的需求差异显著,需要自适应策略。
  • Method: 提出两阶段框架:1) 合并长短推理模型以支持多样推理风格;2) 通过双层偏好训练选择合适推理风格并优化推理简洁性。
  • Result: 实验表明,该方法在五个数学数据集上平均推理长度减少50%以上,同时保持性能。
  • Conclusion: 自适应策略能有效优化大型语言模型的推理效率,为未来研究提供新方向。

[79] Extension-ranking Semantics for Abstract Argumentation Preprint

Kenneth Skiba,Tjitze Rienstra,Matthias Thimm,Jesse Heyninck,Gabriele Kern-Isberner

Main category: cs.AI

TL;DR: 本文提出了一个基于论证可接受性的框架,用于对抽象论证中的论证集进行排序,扩展了Dung的扩展语义,并引入了一系列原则来评估扩展排序语义。

  • Motivation: 旨在提供一个通用的框架,用于比较论证集的可接受性,从而更灵活地评估论证的合理性。
  • Method: 通过扩展Dung的扩展语义为扩展排序语义,引入多个基础关系,并结合它们生成一系列扩展排序语义。
  • Result: 提出了一种家族式的扩展排序语义,并评估了其行为。
  • Conclusion: 该框架为论证集的排序提供了灵活且可扩展的方法,同时满足一系列行为原则。

[80] Automatic Mapping of AutomationML Files to Ontologies for Graph Queries and Validation

Tom Westermann,Malte Ramonat,Johannes Hujer,Felix Gehlhoff,Alexander Fay

Main category: cs.AI

TL;DR: 论文介绍了AutomationML标准的最新本体论和RDF转换方法,以提升查询和验证能力。

  • Motivation: AutomationML作为自动化领域的数据交换格式,其扩展语义限制了通用XML工具的适用性,因此需要改进查询和验证方法。
  • Method: 提出了AutomationML的本体论和RDF转换映射,支持将AutomationML模型自动转换为RDF三元组。
  • Result: 研究表明,转换为OWL后,查询和验证能力显著提升。
  • Conclusion: 通过本体论和RDF转换,AutomationML能更高效地集成到工业知识图谱中。

[81] Is Intermediate Fusion All You Need for UAV-based Collaborative Perception?

Jiuwu Hao,Liguo Sun,Yuting Wan,Yueyang Wu,Ti Xiang,Haolin Song,Pin Lv

Main category: cs.AI

TL;DR: 提出了一种基于晚期中间融合的通信高效协作感知框架LIF,通过交换紧凑检测结果和特征级融合,减少通信开销。

  • Motivation: 现有无人机协作感知方法忽视无人机视角特性,导致通信开销大。
  • Method: 采用晚期中间融合框架LIF,结合视觉引导位置嵌入(VPE)和基于框的虚拟增强特征(BoBEV),并引入不确定性驱动通信机制。
  • Result: 实验表明LIF在最小通信带宽下实现优异性能。
  • Conclusion: LIF框架高效实用,适用于无人机协作感知。

cs.SD

[82] DGFNet: End-to-End Audio-Visual Source Separation Based on Dynamic Gating Fusion

Yinfeng Yu,Shiyu Sun

Main category: cs.SD

TL;DR: 本文提出了一种基于门控机制的动态融合方法,用于音频-视觉源分离任务,解决了现有方法在模态融合和信息保留上的不足。

  • Motivation: 现有音频-视觉源分离方法在模态融合时存在信息丢失或交互不足的问题,限制了模型性能。
  • Method: 采用动态门控机制调整模态融合程度,并引入音频注意力模块增强音频特征表达。
  • Result: 在两个基准数据集上取得了显著性能提升。
  • Conclusion: 动态融合方法有效解决了模态融合问题,提升了音频-视觉源分离任务的性能。

cs.IT

[83] Participatory AI, Public Sector AI, Differential Privacy, Conversational Interfaces, Explainable AI, Citizen Engagement in AI

Wenjun Yang,Eyhab Al-Masri

Main category: cs.IT

TL;DR: 论文提出了一种对话界面系统,用于公共部门中差分隐私AI系统的参与式设计,通过自适应协议、可解释噪声注入框架和法律合规机制,平衡隐私保护与民主问责。

  • Motivation: 解决在公共部门应用中平衡数学隐私保证与民主问责的挑战。
  • Method: 提出三个关键贡献:自适应ε选择协议、可解释噪声注入框架和动态法律合规机制。
  • Result: 结果表明对话界面能增强公众对算法隐私机制的参与,确保隐私保护AI在公共治理中既数学稳健又民主问责。
  • Conclusion: 对话界面系统能有效促进参与式AI实践,实现隐私保护与民主问责的双重目标。

[84] Sionna RT: Technical Report

Fayçal Aït Aoudia,Jakob Hoydis,Merlin Nimier-David,Sebastian Cammerer,Alexander Keller

Main category: cs.IT

TL;DR: Sionna 1.0是一个开源、GPU加速的库,新增了可微分的光线追踪功能,用于高效模拟无线电波传播,并改进了速度和内存效率。

  • Motivation: 提供一种高效、可扩展且可微分的方法来模拟无线电波传播,支持对系统及环境参数的梯度计算。
  • Method: 结合了SBR(射线弹跳法)与图像法计算CIR(信道脉冲响应),并使用哈希机制消除重复路径;无线电地图则采用纯SBR方法。
  • Result: 显著提升了光线追踪的速度和内存效率,同时支持对CIR和无线电地图的梯度计算。
  • Conclusion: Sionna RT为无线电波传播模拟提供了高效且可扩展的解决方案,尽管当前算法仍存在一些局限性。

cs.LG

[85] Model Connectomes: A Generational Approach to Data-Efficient Language Models

Klemen Kotar,Greta Tuckute

Main category: cs.LG

TL;DR: 论文提出了一种结合进化和学习的框架,通过‘外循环’进化塑造‘内循环’学习,使人工网络更接近生物神经网络的特性。在语言任务中,模型表现优于或与对照组相当。

  • Motivation: 生物神经网络通过进化和学习共同塑造,而人工神经网络缺乏这种多代约束。研究旨在缩小人工模型与生物神经网络之间的差距。
  • Method: 提出一个框架,包含‘外循环’进化和‘内循环’学习,训练模型继承‘模型连接组’后接触100M标记的语料库。
  • Result: 模型在自然语言处理任务及与人类行为和脑数据的对齐上表现优于或与对照组相当。
  • Conclusion: ‘模型连接组’作为低数据学习的高效先验,缩小了人工模型与生物神经网络的差距。

[86] NeuRel-Attack: Neuron Relearning for Safety Disalignment in Large Language Models

Yi Zhou,Wenpeng Xing,Dezhang Kong,Changting Lin,Meng Han

Main category: cs.LG

TL;DR: 提出了一种通过分析并修改神经元来解除大型语言模型安全对齐的新方法,揭示了当前对齐技术的脆弱性。

  • Motivation: 研究如何通过修改神经元解除LLMs的安全对齐,以揭示现有安全机制的漏洞。
  • Method: 1. 神经元激活分析;2. 基于相似性的神经元识别;3. 神经元再学习以移除安全性。
  • Result: 实验表明,该方法能以最小微调有效移除安全约束。
  • Conclusion: 当前对齐技术存在漏洞,需开发更鲁棒的防御机制以对抗对抗性微调攻击。

[87] Modeling and Performance Analysis for Semantic Communications Based on Empirical Results

Shuai Ma,Bin Shen,Chuanhui Zhang,Youlong Wu,Hang Li,Shiyin Li,Guangming Shi,Naofal Al-Dhahir

Main category: cs.LG

TL;DR: 论文提出了一种Alpha-Beta-Gamma(ABG)公式,用于分析语义通信的性能,适用于图像重建和推理任务,并提出了自适应功率控制方案。

  • Motivation: 由于深度学习语义编码器和解码器的黑盒特性,分析语义通信性能是一个挑战性问题。
  • Method: 提出ABG公式建模端到端性能与SNR的关系,并基于此设计自适应功率控制方案。
  • Result: ABG公式能准确拟合常用DL网络,并揭示了MS-SSIM与量化输出比特的关系;功率分配方案能有效保障QoS和能量效率。
  • Conclusion: ABG公式和功率分配方案在仿真中表现出优越性,为语义通信提供了理论支持。

[88] Token-Level Prompt Mixture with Parameter-Free Routing for Federated Domain Generalization

Shuai Gong,Chaoran Cui,Xiaolin Dong,Xiushan Nie,Lei Zhu,Xiaojun Chang

Main category: cs.LG

TL;DR: TRIP提出了一种基于令牌级提示混合的无参数路由框架,用于联邦域泛化(FedDG),通过令牌聚类和最优传输实现高效通信,并在多个基准测试中表现优异。

  • Motivation: 解决现有FedDG方法中单一全局提示导致的性能下降问题,以及MoE方法中图像级专家分配粗糙和通信成本高的问题。
  • Method: TRIP采用令牌级提示混合和无参数路由机制,通过令牌聚类和最优传输分配专家,并利用VLM的零样本泛化能力进行无偏学习。
  • Result: 在四个基准测试中,TRIP实现了最优的泛化性能,每轮通信仅需1K参数。
  • Conclusion: TRIP通过令牌级专家分配和无参数路由,显著提升了FedDG的性能和通信效率。

[89] Frequency Feature Fusion Graph Network For Depression Diagnosis Via fNIRS

Chengkai Yang,Xingping Dong,Xiaofen Zong

Main category: cs.LG

TL;DR: 本文提出了一种基于离散傅里叶变换(DFT)的新型生物标志物,并结合自定义的时序图卷积网络(TGCN)架构,用于抑郁症诊断。实验表明,该生物标志物提升了脑通道时间特征的表示能力,显著提高了F1分数。

  • Motivation: 现有基于图神经网络(GNN)的抑郁症诊断方法缺乏有效的时间生物标志物,限制了其性能。
  • Method: 利用DFT提取时间生物标志物,设计自定义TGCN架构,并在包含1,086名受试者的数据集上进行训练。通过倾向得分匹配(PSM)生成优化子集。
  • Result: 新生物标志物显著提升了脑通道时间特征的表示能力,在真实数据集和PSM数据集上均提高了F1分数。SHAP验证了模型的解释性。
  • Conclusion: 该方法为抑郁症诊断提供了更有效的工具,并具有实际医疗应用的潜力。

[90] A 3D pocket-aware and affinity-guided diffusion model for lead optimization

Anjie Qiao,Junjie Xie,Weifeng Huang,Hao Zhang,Jiahua Rao,Shuangjia Zheng,Yuedong Yang,Zhen Wang,Guo-Bo Li,Jinping Lei

Main category: cs.LG

TL;DR: Diffleop是一种3D口袋感知和亲和力引导的扩散模型,用于优化分子结合亲和力,优于基线模型。

  • Motivation: 现有深度学习模型在分子优化中常忽视结合亲和力,Diffleop旨在解决这一问题。
  • Method: 模型通过蛋白-配体结合亲和力知识引导去噪采样,生成高亲和力分子。
  • Result: Diffleop在多个指标上优于基线模型,尤其在结合亲和力方面表现突出。
  • Conclusion: Diffleop为分子优化提供了高效工具,特别适用于药物发现中的亲和力提升。

[91] A Brief Review for Compression and Transfer Learning Techniques in DeepFake Detection

Andreas Karathanasis,John Violos,Ioannis Kompatsiaris,Symeon Papadopoulos

Main category: cs.LG

TL;DR: 论文探讨了在边缘设备上部署深度伪造检测模型的压缩和迁移学习方法,以解决资源限制问题,实验表明高压缩率下性能保持,但存在域泛化问题。

  • Motivation: 边缘设备的计算和内存资源有限,需通过压缩和迁移学习降低计算需求和训练开销。
  • Method: 使用剪枝、知识蒸馏、量化、微调和适配器技术,在Synthbuster、RAISE和ForenSynths数据集上评估。
  • Result: 在相同DeepFake模型生成的数据上,90%压缩率下性能不变;但在未见过的模型数据上出现域泛化问题。
  • Conclusion: 压缩和迁移学习在边缘设备上可行,但需解决域泛化问题以提高模型泛化能力。

[92] A Survey on Parameter-Efficient Fine-Tuning for Foundation Models in Federated Learning

Jieming Bian,Yuanzhe Peng,Lei Wang,Yin Huang,Jie Xu

Main category: cs.LG

TL;DR: 本文综述了在联邦学习环境中整合参数高效微调(PEFT)技术的方法,将其分为三类:添加型、选择型和重参数化型,并分析了它们在数据异构性、通信效率等方面的应用。

  • Motivation: 解决大规模基础模型在联邦学习环境中微调时的高计算成本问题。
  • Method: 系统分类现有PEFT方法为添加型、选择型和重参数化型,并分析其在联邦学习中的适应性。
  • Result: 总结了PEFT在联邦学习中的应用,包括处理数据异构性和隐私问题,并覆盖了自然语言处理和计算机视觉任务。
  • Conclusion: 提出了未来研究方向,如扩展到更大模型、理论分析和资源受限环境的可持续方法。

[93] SMOGAN: Synthetic Minority Oversampling with GAN Refinement for Imbalanced Regression

Shayan Alahyari,Mike Domaratzki

Main category: cs.LG

TL;DR: SMOGAN是一个两阶段过采样框架,用于解决不平衡回归问题,通过生成和过滤合成样本,显著优于现有方法。

  • Motivation: 不平衡回归中目标变量的偏态分布导致模型在稀疏区域表现不佳,现有方法生成的合成样本无法准确反映真实分布。
  • Method: SMOGAN分为两阶段:第一阶段生成初始合成样本,第二阶段通过DistGAN(一种分布感知GAN)过滤和优化样本。
  • Result: 在23个不平衡数据集上的实验表明,SMOGAN显著优于未使用DistGAN过滤层的默认过采样方法。
  • Conclusion: SMOGAN通过结合生成和过滤机制,有效解决了不平衡回归问题,提升了模型在稀疏区域的性能。

[94] Artificial Intelligence for Personalized Prediction of Alzheimer's Disease Progression: A Survey of Methods, Data Challenges, and Future Directions

Gulsah Hancerliogullari Koksalmis,Bulent Soykan,Laura J. Brattain,Hsin-Hsiung Huang

Main category: cs.LG

TL;DR: 本文综述了人工智能在个性化阿尔茨海默病(AD)进展预测中的应用,包括多种AI方法、数据挑战及未来研究方向。

  • Motivation: AD进展的个体差异大,需要个性化预测模型以改善预后和护理计划。
  • Method: 综述了状态空间模型、深度学习(如RNN)、图神经网络(GNN)和数字孪生等方法,并探讨了数据挑战及应对策略(如VAE和GAN生成合成数据)。
  • Result: 总结了当前方法的优缺点,强调多模态整合和模型可解释性的重要性。
  • Conclusion: 提出了未来研究方向(如混合模型、因果推断和联邦学习),并指出外部验证、临床整合和伦理问题等开放挑战。

[95] TT-LoRA MoE: Unifying Parameter-Efficient Fine-Tuning and Sparse Mixture-of-Experts

Pradip Kunwar,Minh N. Vu,Maanak Gupta,Mahmoud Abdelsalam,Manish Bhattarai

Main category: cs.LG

TL;DR: TT-LoRA MoE结合参数高效微调与稀疏MoE路由,通过分阶段训练和动态路由提升大模型部署的效率和灵活性。

  • Motivation: 解决传统MoE方法在专家数量增加时的计算开销问题,同时避免多任务设置中的干扰和遗忘。
  • Method: 分两阶段:1) 独立训练轻量级TT-LoRA专家适配器;2) 冻结适配器,训练稀疏MoE路由器动态选择专家。
  • Result: 仅需少量参数(如2%的LoRA),在多任务中优于AdapterFusion 4个点,实现高效可扩展部署。
  • Conclusion: TT-LoRA MoE通过解耦设计显著提升计算效率和灵活性,适用于大规模多任务推理。

[96] FedHERO: A Federated Learning Approach for Node Classification Task on Heterophilic Graphs

Zihan Chen,Xingbo Fu,Yushun Dong,Jundong Li,Cong Shen

Main category: cs.LG

TL;DR: FedHERO是一个联邦图学习框架,旨在有效处理异质性图数据,通过双通道GNN和结构学习器提升模型性能。

  • Motivation: 传统联邦图学习方法假设客户端图数据同质性,但在异质性图数据下性能下降,FedHERO旨在解决这一问题。
  • Method: 使用双通道GNN和结构学习器,识别局部图中的结构知识,学习适用于不同节点邻居分布模式的通用模式。
  • Result: 实验验证FedHERO在异质性图数据下优于现有方法。
  • Conclusion: FedHERO为处理异质性图数据提供了新方法,提升了客户端模型性能。

[97] A Cost-Effective LLM-based Approach to Identify Wildlife Trafficking in Online Marketplaces

Juliana Barbosa,Ulhas Gondhali,Gohar Petrossian,Kinshuk Sharma,Sunandan Chakraborty,Jennifer Jacquet,Juliana Freire

Main category: cs.LG

TL;DR: 论文提出了一种利用大语言模型(LLM)生成伪标签的低成本方法,用于构建高效的野生动物贩卖广告分类器,显著降低标注成本并提升分类性能。

  • Motivation: 野生动物贩卖对生态和公共健康造成严重威胁,而电商平台为贩卖提供了便利,但也留下了可追踪的数字痕迹。然而,从海量广告中识别野生动物相关产品极具挑战性,传统分类器需要高昂的标注成本。
  • Method: 提出一种策略:利用LLM为少量数据生成伪标签,再用这些标签训练专用分类模型。该方法自动收集多样化和代表性的样本,最小化标注成本。
  • Result: 实验表明,该方法构建的分类器F1分数高达95%,性能优于直接使用LLM且成本更低。
  • Conclusion: 该方法为野生动物贩卖分析提供了高效、低成本的解决方案,支持多样化的研究需求。

[98] Sparse-to-Sparse Training of Diffusion Models

Inês Cardoso Oliveira,Decebal Constantin Mocanu,Luis A. Leiva

Main category: cs.LG

TL;DR: 该论文提出了一种稀疏到稀疏训练范式,用于扩散模型(DMs),旨在提高训练和推理效率。实验表明,稀疏DMs在减少参数和计算量的同时,性能与密集模型相当甚至更优。

  • Motivation: 尽管扩散模型在生成任务中表现出色,但其计算资源需求高。此前工作主要关注推理效率,而本文首次探索稀疏训练以同时优化训练和推理效率。
  • Method: 采用稀疏到稀疏训练范式,研究了三种方法(Static-DM、RigL-DM和MagRan-DM)在六个数据集上训练稀疏DMs(Latent Diffusion和ChiroDiff)的效果。
  • Result: 稀疏DMs在减少可训练参数和FLOPs的同时,性能与密集模型相当或更优,并确定了稀疏训练的安全有效值。
  • Conclusion: 稀疏到稀疏训练是提高扩散模型效率的有效方法,为未来研究提供了新方向。

[99] Multi-Domain Causal Discovery in Bijective Causal Models

Kasra Jalaldoust,Saber Salehkaleybar,Negar Kiyavash

Main category: cs.LG

TL;DR: 论文研究了多域环境下的因果发现问题,提出了一种基于双射生成机制(BGM)的方法,能够在更宽松的函数假设下发现因果图。

  • Motivation: 在多域环境中,因果函数的跨域不变性为因果发现提供了新机会,但现有方法在函数假设上限制较多。本文旨在放宽这些限制。
  • Method: 利用双射生成机制(BGM),确保外生噪声与内生变量之间的函数关系是双射且可微的,从而推广了多种现有模型。
  • Result: 实验验证了BGM在多域环境下能够有效发现因果图,且统计测试能准确识别目标变量的父集。
  • Conclusion: BGM为多域因果发现提供了更通用的框架,并在理论和实验上均表现出优越性。

[100] Orthogonal Factor-Based Biclustering Algorithm (BCBOF) for High-Dimensional Data and Its Application in Stock Trend Prediction

Yan Huang,Da-Qing Zhang

Main category: cs.LG

TL;DR: 提出了一种基于正交因子的双聚类算法(BCBOF),解决了高维数据稀疏性和局部结构破坏问题,并在股票预测中验证了其有效性。

  • Motivation: 传统双聚类算法在高维数据中面临相似性度量失效和局部结构破坏的问题,需要一种新方法来解决这些限制。
  • Method: 构建高维数据的正交因子,以正交子空间中的坐标作为聚类目标,生成双聚类结果,并将其转化为模糊规则用于股票预测。
  • Result: BCBOF在多项评价指标上优于现有双聚类方法,虚拟交易实验显示其生成的交易策略能带来更高收益。
  • Conclusion: BCBOF有效解决了高维数据双聚类问题,并在实际应用中表现出优越性能。

[101] Fairness in Graph Learning Augmented with Machine Learning: A Survey

Renqiang Luo,Ziqi Xu,Xikun Zhang,Qing Qing,Huafei Huang,Enyan Dai,Zhe Wang,Bo Yang

Main category: cs.LG

TL;DR: 本文探讨了图学习与机器学习结合(GL-ML)中的公平性挑战,分析了其复杂机制及潜在歧视性结果,并提出了四种改进公平性的关键技术。

  • Motivation: 传统图学习模型结合机器学习技术虽在多领域取得成功,但其复杂机制可能导致公平性问题,影响高风险应用。本文旨在系统研究GL-ML中的公平性挑战。
  • Method: 通过分析图学习与机器学习的交互机制,识别公平性问题的根源,并探讨四种改进公平性的技术。
  • Result: 研究发现GL-ML的公平性挑战复杂且影响深远,需进一步研究以解决潜在歧视问题。
  • Conclusion: 本文为GL-ML公平性研究奠定了基础,为未来创新提供了方向。

[102] Q-function Decomposition with Intervention Semantics with Factored Action Spaces

Junkyu Lee,Tian Gao,Elliot Nelson,Miao Liu,Debarun Bhattacharjya,Songtao Lu

Main category: cs.LG

TL;DR: 提出了一种基于因果统计的动作分解强化学习方法,通过投影Q函数降低样本复杂度,并在实验中优于现有基线。

  • Motivation: 解决离散组合动作空间带来的高计算复杂度问题,避免枚举所有动作组合。
  • Method: 利用因果统计中的无未观测混杂因子设定,定义投影子空间上的Q函数,提出动作分解强化学习框架。
  • Result: 在模型强化学习和实际离线环境中,样本效率优于现有方法。
  • Conclusion: 动作分解强化学习方法有效降低了样本复杂度,适用于复杂动作空间问题。

[103] A comparative study of deep learning and ensemble learning to extend the horizon of traffic forecasting

Xiao Zheng,Saeed Asadi Bagloee,Majid Sarvi

Main category: cs.LG

TL;DR: 本文比较了多种机器学习方法在长期交通流量预测中的表现,发现时间嵌入对周期性建模至关重要,XGBoost在仅使用时间特征时表现优异。

  • Motivation: 长期交通预测是一个开放且具有挑战性的问题,现有研究多关注短期预测,本文旨在填补这一空白。
  • Method: 开发了XGBoost和多种深度学习方法(如RNN和Transformer),并利用时间嵌入增强模型对周期性和事件的理解。
  • Result: 实验表明,随着预测时间延长,周期性建模比时序依赖捕获更重要;时间嵌入显著提升性能,XGBoost表现与深度学习方法相当。
  • Conclusion: 研究为长期交通预测提供了重要参考,强调了周期性建模和时间嵌入的重要性。

[104] FAST-Q: Fast-track Exploration with Adversarially Balanced State Representations for Counterfactual Action Estimation in Offline Reinforcement Learning

Pulkit Agrawal,Rukma Talwadker,Aditya Pareek,Tridib Mukherjee

Main category: cs.LG

TL;DR: FAST-Q提出了一种新颖的离线强化学习方法,通过梯度反转学习平衡状态表示,支持离线反事实探索,并在多目标优化中实现可解释的推荐,显著提升了游戏平台的性能指标。

  • Motivation: 当前SOTA离线强化学习方法在处理静态数据集时存在泛化能力不足的问题,尤其是在高风险的在线游戏推荐系统中,玩家的心理和平台波动性进一步加剧了状态空间的稀疏性和策略偏差。
  • Method: FAST-Q采用梯度反转学习构建平衡状态表示,支持离线反事实探索与静态数据利用并行,并提出Q值分解策略实现多目标优化。
  • Result: 实验表明,FAST-Q在玩家回报、终身价值、推荐驱动参与度、平台停留时间和推荐成本等方面均优于现有方法,具体表现为0.15%至10%的提升。
  • Conclusion: FAST-Q通过创新的方法解决了离线强化学习中的泛化和偏差问题,为高波动性平台提供了高效的推荐解决方案。

[105] MPEC: Manifold-Preserved EEG Classification via an Ensemble of Clustering-Based Classifiers

Shermin Shahbazi,Mohammad-Reza Nasiri,Majid Ramezani

Main category: cs.LG

TL;DR: MPEC方法通过保留EEG信号的流形结构,结合协方差矩阵和RBF核的特征工程,以及改进的K-means聚类,显著提升了EEG信号分类性能。

  • Motivation: 现有EEG信号分类方法未能充分考虑其非欧几里得流形结构,导致性能不佳。
  • Method: MPEC方法结合协方差矩阵和RBF核进行特征工程,并使用改进的K-means算法在黎曼流形空间中进行聚类,最后通过集成多个聚类分类器进行分类。
  • Result: 在BCI Competition IV数据集2a上验证了MPEC方法的显著改进。
  • Conclusion: MPEC通过保留EEG信号的流形结构,显著提升了分类性能,适用于BCI和神经假体应用。

[106] xEEGNet: Towards Explainable AI in EEG Dementia Classification

Andrea Zanola,Louis Fabrice Tshimanga,Federico Del Pup,Marco Baiesi,Manfredo Atzori

Main category: cs.LG

TL;DR: xEEGNet是一种新型、紧凑且可解释的神经网络,用于EEG数据分析,特别适用于痴呆症分类。

  • Motivation: 开发一个完全可解释且减少过拟合的神经网络,用于EEG数据分析,并应用于痴呆症分类。
  • Method: 基于ShallowNet逐步改进,通过参数减少和临床相关分析,构建xEEGNet,并使用嵌套交叉验证评估性能。
  • Result: xEEGNet仅用168个参数,性能与ShallowNet相当,减少过拟合和变异性,同时保持可解释性。
  • Conclusion: 小型架构如xEEGNet在EEG病理分类中同样有效,展示了可解释性和性能的平衡。

[107] Towards proactive self-adaptive AI for non-stationary environments with dataset shifts

David Fernández Narro,Pablo Ferri,Juan M. García-Gómez,Carlos Sáez

Main category: cs.LG

TL;DR: 论文提出了一种主动自适应的AI方法(pro-adaptive),通过建模AI参数的时间轨迹来预测短期参数值,以应对非平稳环境中的性能下降问题。

  • Motivation: 在医疗等非平稳环境中,AI模型常因数据分布随时间变化而性能下降,且缺乏及时的新标注数据用于重新训练。
  • Method: 使用多项式样条基和功能数据分析框架,建模AI参数的时间轨迹,预测短期参数值。
  • Result: 在模拟和真实COVID-19数据集上验证,该方法显著提升了AI对数据偏移的鲁棒性,无需更新训练数据。
  • Conclusion: 该方法为动态非平稳环境中的自适应AI研究奠定了基础,适用于医疗等数据保护严格的场景。

[108] Recursive KL Divergence Optimization: A Dynamic Framework for Representation Learning

Anthony D Martin

Main category: cs.LG

TL;DR: 论文提出了一种递归KL散度优化(RKDO)方法,通过动态调整局部条件分布的KL散度来改进表示学习,相比静态方法在损失值和计算资源上均有显著优势。

  • Motivation: 现有方法(如I-Con)通过固定邻域条件分布的KL散度统一学习范式,但忽略了学习过程中的递归结构,限制了效率和适应性。
  • Method: 引入RKDO,将表示学习建模为KL散度在数据邻域上的动态演化过程,涵盖对比学习、聚类和降维方法。
  • Result: 实验表明,RKDO在三个数据集上损失值降低约30%,计算资源减少60-80%。
  • Conclusion: RKDO的递归更新机制为表示学习提供了更高效的优化路径,尤其适用于资源受限场景。

[109] Learning Heterogeneous Performance-Fairness Trade-offs in Federated Learning

Rongguang Ye,Ming Tang

Main category: cs.LG

TL;DR: HetPFL提出了一种新方法,通过自适应偏好采样和超网络融合,解决了联邦学习中性能与公平性权衡的异质性问题,显著优于现有方法。

  • Motivation: 现有方法在联邦学习中采用统一的偏好采样分布,忽略了客户端本地Pareto前沿的异质性,且未考虑本地与全局Pareto前沿的差距。
  • Method: HetPFL包含两个模块:PSA(自适应确定客户端最优偏好采样分布)和PHF(偏好感知的超网络融合)。
  • Result: HetPFL在四个数据集上显著优于七个基线方法,且证明了在较弱假设下线性收敛。
  • Conclusion: HetPFL通过自适应采样和融合策略,有效解决了联邦学习中性能与公平性权衡的异质性问题。

cs.DC

[110] Galvatron: An Automatic Distributed System for Efficient Foundation Model Training

Xinyi Liu,Yujie Wang,Shenhan Zhu,Fangcheng Fu,Qingshuo Liu,Guangming Lin,Bin Cui

Main category: cs.DC

TL;DR: Galvatron是一个分布式系统,用于高效训练大规模基础模型,通过自动选择最优并行策略提升效率。

  • Motivation: 解决大规模基础模型训练中并行策略选择的复杂性,提高训练效率。
  • Method: 结合数据、张量、流水线、分片数据和序列并行以及重计算,通过硬件和模型分析、决策树和动态编程优化策略。
  • Result: 在多种集群上表现出优于现有框架的吞吐量。
  • Conclusion: Galvatron通过开源和用户友好设计,使复杂分布式训练更高效和易用。

cs.MM

Minwoo Oh,Minsu Park,Eunil Park

Main category: cs.MM

TL;DR: 提出了一种结合音乐源分离和跨模态视频-音乐检索的新方法,用于解决短视频平台中背景音乐侵权问题,并提供了两个专用数据集。

  • Motivation: 短视频平台中,侵权者常通过添加背景音乐掩盖原声以逃避原创检测,导致版权合规问题。
  • Method: 整合音乐源分离(MSS)和跨模态视频-音乐检索(CMVMR)的管道,分离背景音乐并恢复原声。
  • Result: 实验表明,该方法能高精度移除背景音乐并恢复原声,确保内容完整性。
  • Conclusion: 该方法为短视频平台用户生成内容的版权问题提供了伦理和可扩展的解决方案。

cs.NE

Yangyang Li,Guanlong Liu,Ronghua Shang,Licheng Jiao

Main category: cs.NE

TL;DR: 提出了一种基于元学习的高效进化计算神经架构搜索方法,通过自适应代理模型和周期性变异算子降低计算成本并提升性能。

  • Motivation: 解决传统进化计算神经架构搜索中高计算成本和固定学习率导致的信息损失问题。
  • Method: 采用元学习率方案预训练学习率计划,设计自适应代理模型筛选潜力架构,并提出周期性变异算子增加种群多样性。
  • Result: 在CIFAR-10、CIFAR-100和ImageNet1K数据集上表现优异,计算成本低且鲁棒性强。
  • Conclusion: 该方法在性能和效率上均优于现有方法,具有广泛应用潜力。

cs.DB

[113] On the Potential of Large Language Models to Solve Semantics-Aware Process Mining Tasks

Adrian Rebmann,Fabian David Schmidt,Goran Glavaš,Han van der Aa

Main category: cs.DB

TL;DR: LLMs在过程挖掘任务中表现出潜力,尤其是在语义感知任务中。通过上下文学习和监督微调,LLMs在复杂任务中表现优异。

  • Motivation: 探索LLMs在语义感知过程挖掘任务中的能力,填补现有研究在默认状态和微调后性能评估的空白。
  • Method: 定义了五个需要语义理解的过程挖掘任务,并通过上下文学习和监督微调评估LLMs的性能。
  • Result: LLMs在默认状态下表现不佳,但经过微调后能在多种过程和行业中取得强性能。
  • Conclusion: LLMs在语义感知过程挖掘任务中具有潜力,尤其是通过微调可以显著提升性能。

cs.CL

[114] Waking Up an AI: A Quantitative Framework for Prompt-Induced Phase Transition in Large Language Models

Makoto Sato

Main category: cs.CL

TL;DR: 论文提出了一种定量分析大型语言模型(LLM)认知行为的方法,通过设计两种提示(TIP和TQP)来研究LLM对语义融合的反应,发现其与人类直觉的差异。

  • Motivation: 探讨人类直觉思维的认知动态,并通过与LLM的对比来揭示其差异。
  • Method: 设计Transition-Inducing Prompt(TIP)和Transition Quantifying Prompt(TQP),通过控制实验分析LLM对语义融合的反应。
  • Result: LLM对语义融合和非融合提示的反应无显著差异,表明其未能复制人类的概念整合过程。
  • Conclusion: 该方法为定量测量认知响应提供了工具,揭示了人工与人类思维在直觉和概念飞跃上的关键差异。

[115] Analyzing Feedback Mechanisms in AI-Generated MCQs: Insights into Readability, Lexical Properties, and Levels of Challenge

Antoun Yaacoub,Zainab Assaghir,Lionel Prevost,Jérôme Da-Rugna

Main category: cs.CL

TL;DR: 研究分析了Google Gemini 1.5-flash文本模型生成的AI反馈在计算机科学多选题中的语言特征,发现反馈音调和题目难度之间存在显著交互作用。

  • Motivation: 尽管AI生成的反馈在教育中潜力巨大,但其语言特征(如可读性、词汇丰富度)的全面理解仍有限。
  • Method: 分析了1,200多道多选题的反馈,计算了语言指标(如长度、可读性、词汇丰富度),并训练了一个RoBERTa多任务学习模型预测这些指标。
  • Result: 模型在可读性和词汇丰富度预测上表现良好(MAE分别为2.0和0.03),反馈音调与题目难度有显著交互作用。
  • Conclusion: 研究为开发更个性化的AI反馈机制提供了依据,同时强调了设计中的伦理考量。

[116] Kill two birds with one stone: generalized and robust AI-generated text detection via dynamic perturbations

Yinghan Zhou,Juan Wen,Wanli Peng,Yiming Xue,Ziwei Zhang,Zhengxian Wu

Main category: cs.CL

TL;DR: 论文提出了一种新的AI生成文本检测方法(DP-Net),通过动态扰动和强化学习解决了现有方法在泛化性和鲁棒性上的不足。

  • Motivation: 随着大型语言模型的普及,AI生成文本的滥用风险增加,亟需一种同时具备高泛化性和鲁棒性的检测方法。
  • Method: 将鲁棒性视为特定形式的领域偏移,提出DP-Net方法,通过强化学习的动态扰动机制实现泛化性和鲁棒性的统一。
  • Result: 实验表明,DP-Net在三种跨域场景中显著优于现有方法,并在两种文本对抗攻击下表现最佳。
  • Conclusion: DP-Net为AI生成文本检测提供了一种高效且统一的解决方案,代码已开源。

[117] Context-Enhanced Contrastive Search for Improved LLM Text Generation

Jaydip Sen,Rohit Pandey,Hetvi Waghela

Main category: cs.CL

TL;DR: 论文提出了一种改进的对比搜索算法CECS,通过动态上下文重要性加权和多级对比搜索等技术,显著提升了生成文本的连贯性和相关性。

  • Motivation: 传统解码方法在生成长文本时存在重复或不连贯的问题,需要一种更优的算法来平衡流畅性、创造性和精确性。
  • Method: 提出Context-Enhanced Contrastive Search (CECS)算法,结合动态上下文重要性加权、多级对比搜索和自适应温度控制。
  • Result: 实验表明,CECS在BLEU、ROUGE和语义相似度等指标上优于现有对比搜索技术。
  • Conclusion: CECS在生成高质量文本方面表现优异,适用于法律文件起草、客服聊天机器人和内容营销等实际应用。

[118] ConformalNL2LTL: Translating Natural Language Instructions into Temporal Logic Formulas with Conformal Correctness Guarantees

Jun Wang,David Smith Sundarsingh,Jyotirmoy V. Deshmukh,Yiannis Kantaros

Main category: cs.CL

TL;DR: ConformalNL2LTL是一种新的方法,通过结合LLM和共形预测,将自然语言指令转化为LTL公式,确保翻译准确率并最小化求助率。

  • Motivation: 减少手动定义LTL任务所需的工作量和专业知识,同时解决现有方法缺乏正确性保证的问题。
  • Method: 通过LLM解决开放词汇QA问题,迭代构建LTL公式,并利用共形预测量化不确定性,仅在足够自信时继续翻译,否则请求帮助。
  • Result: ConformalNL2LTL能够实现用户指定的翻译准确率,同时最小化求助率。
  • Conclusion: 该方法在理论和实证上均证明有效,为NL到LTL的翻译提供了可靠且高效的解决方案。

[119] Creating and Evaluating Code-Mixed Nepali-English and Telugu-English Datasets for Abusive Language Detection Using Traditional and Deep Learning Models

Manish Pandey,Nageshwar Prasad Yadav,Mokshada Adduru,Sawan Rai

Main category: cs.CL

TL;DR: 该研究针对社交媒体中多语言用户使用混合语言(如泰卢固语-英语和尼泊尔语-英语)时,检测辱骂性语言的挑战,提出了一种新的标注数据集,并通过多种机器学习、深度学习和大型语言模型进行了评估。

  • Motivation: 随着多语言用户在社交媒体上的增加,混合语言中的辱骂性语言检测变得更具挑战性,尤其是低资源语言(如泰卢固语和尼泊尔语)的研究不足。
  • Method: 研究构建了一个包含2000条泰卢固语-英语和5000条尼泊尔语-英语混合评论的标注数据集,并评估了多种模型(如逻辑回归、随机森林、SVM、神经网络、LSTM、CNN和LLMs),通过超参数调优和10折交叉验证优化性能。
  • Result: 研究提供了混合语言中辱骂性语言检测的关键见解,并对不同计算方法的性能进行了比较分析。
  • Conclusion: 该研究为低资源语言的NLP研究提供了基准,有助于开发更强大的多语言社交媒体内容审核策略。

[120] UrbanPlanBench: A Comprehensive Urban Planning Benchmark for Evaluating Large Language Models

Yu Zheng,Longyi Liu,Yuming Lin,Jie Feng,Guozhen Zhang,Depeng Jin,Yong Li

Main category: cs.CL

TL;DR: 论文提出了UrbanPlanBench基准和UrbanPlanText数据集,评估LLMs在城乡规划中的表现,发现其专业能力不足,但通过微调可提升性能。

  • Motivation: 探索LLMs在城乡规划领域的应用潜力,填补现有研究的空白。
  • Method: 构建UrbanPlanBench基准和UrbanPlanText数据集,评估LLMs表现并进行监督微调。
  • Result: LLMs在规划知识获取上表现不均衡,微调后性能提升但仍需改进。
  • Conclusion: 公开资源以促进LLMs与城乡规划的结合,推动人机协作。

[121] Small or Large? Zero-Shot or Finetuned? Guiding Language Model Choice for Specialized Applications in Healthcare

Lovedeep Gondara,Jonathan Simkin,Graham Sayle,Shebnum Devji,Gregory Arbour,Raymond Ng

Main category: cs.CL

TL;DR: 该研究探讨了语言模型选择的关键因素,包括微调与零样本使用的必要性、领域相关与通用预训练模型的优势、领域特定预训练的价值,以及小型语言模型(SLMs)在特定任务中相对于大型语言模型(LLMs)的持续相关性。通过实验,发现微调显著提升SLMs性能,使其超越零样本LLMs。

  • Motivation: 研究旨在指导语言模型选择,特别是在专业领域任务中,比较微调与零样本使用、领域相关与通用模型、以及SLMs与LLMs的性能差异。
  • Method: 使用电子病理报告数据,评估三种不同难度和数据量的分类场景。模型包括多种SLMs和一个LLM,SLMs分别测试零样本和微调性能,LLM仅测试零样本性能。
  • Result: 微调显著提升SLMs性能,使其超越零样本LLMs;领域相关SLMs在微调后表现优于通用SLM;领域特定预训练对复杂任务有明显帮助。
  • Conclusion: 在专业领域任务中,微调SLMs性能优于零样本LLMs,且SLMs在资源与性能权衡上更具优势,证明其在LLM时代仍具价值。

Ramon Pires,Roseval Malaquias Junior,Rodrigo Nogueira

Main category: cs.CL

TL;DR: oab-bench是一个基于巴西律师考试的基准测试,用于评估大语言模型在法律写作领域的表现。Claude-3.5 Sonnet表现最佳,平均得分7.93/10。前沿模型如OpenAI的o1在评分上与人类评委有较强相关性。

  • Motivation: 由于法律写作评估的复杂性,缺乏公开且全面的基准测试,巴西律师考试满足这一需求。
  • Method: 构建oab-bench基准,包含105个问题和评分指南,评估4个LLM的表现,并测试LLM作为自动评分器的可靠性。
  • Result: Claude-3.5 Sonnet表现最佳,前沿模型在评分上与人类评委相关性高。
  • Conclusion: oab-bench为法律写作评估提供了可靠基准,LLM在自动评分中展现出潜力。

[123] Pretraining Large Brain Language Model for Active BCI: Silent Speech

Jinzhao Zhou,Zehong Cao,Yiqun Duan,Connor Barkley,Daniel Leong,Xiaowei Jiang,Quoc-Toan Nguyen,Ziyi Zhao,Thomas Do,Yu-Cheng Chang,Sheng-Fu Liang,Chin-teng Lin

Main category: cs.CL

TL;DR: 本文提出了一种基于自监督预训练的大型脑语言模型(LBLM),用于解码主动脑机接口(BCI)中的无声语音,并通过新的数据集和预训练方法显著提升了分类性能。

  • Motivation: 传统BCI系统在自然性和灵活性上存在局限,本文旨在通过无声语音解码技术提升BCI的通信能力。
  • Method: 提出LBLM模型,采用未来时频预测(FSTP)预训练范式,从无标签EEG数据中学习有效表征,并在下游任务中进行微调。
  • Result: 在跨会话设置下,LBLM在语义级和单词级分类任务中分别达到47.0%和39.6%的准确率,显著优于基线方法。
  • Conclusion: 研究为主动BCI系统中的无声语音解码提供了创新解决方案,并贡献了新的数据集和预训练方法。

[124] Memorization and Knowledge Injection in Gated LLMs

Xu Pan,Ely Hahami,Zechen Zhang,Haim Sompolinsky

Main category: cs.CL

TL;DR: MEGa框架通过将记忆直接嵌入LLM权重中,解决了LLM无法持续学习新知识的问题,优于基线方法。

  • Motivation: 解决LLM无法持续学习和整合新知识的局限性,模仿人脑的持续学习能力。
  • Method: 提出MEGa框架,将事件记忆嵌入到LLM的权重中,使用门控低秩权重存储记忆,并通过门控机制激活相关记忆。
  • Result: 在两个数据集上,MEGa在减轻灾难性遗忘方面优于基线方法。
  • Conclusion: MEGa框架有效解决了LLM的持续学习问题,并模仿了人脑的记忆系统。

[125] Retrieval-Enhanced Few-Shot Prompting for Speech Event Extraction

Máté Gedeon

Main category: cs.CL

TL;DR: 论文提出了一种模块化的语音事件提取框架SpeechEE,结合高性能ASR和语义搜索增强的LLM提示,显著提升了事件触发和参数分类的性能。

  • Motivation: 解决语音事件提取任务中ASR与NLP结合的挑战,探索检索增强的LLM在事件提取中的应用。
  • Method: 采用混合过滤机制分类语音片段,结合少样本LLM提示和语义相似性检索提取事件触发和参数。
  • Result: o1-mini模型表现最佳,触发分类F1达63.3%,参数分类F1达27.8%,超越先前基准。
  • Conclusion: 模块化框架结合检索增强LLM可媲美端到端系统,为未来结合文本和声学特征的混合模型提供方向。

[126] Homa at SemEval-2025 Task 5: Aligning Librarian Records with OntoAligner for Subject Tagging

Hadi Bayrami Asl Tekanlou,Jafar Razmara,Mahsa Sanaei,Mostafa Rahgouy,Hamed Babaei Giglou

Main category: cs.CL

TL;DR: Homa系统利用OntoAligner工具包和RAG技术,将主题标注问题转化为对齐任务,评估其在多语言记录中的效果。

  • Motivation: 解决技术记录的主题标注问题,提升数字图书馆中主题标注的准确性。
  • Method: 使用OntoAligner工具包和RAG技术,将记录与GND分类基于语义相似度对齐。
  • Result: 实验展示了该方法在多语言记录中的优势和局限性。
  • Conclusion: 对齐技术有潜力改进数字图书馆的主题标注。

[127] Advancing Arabic Reverse Dictionary Systems: A Transformer-Based Approach with Dataset Construction Guidelines

Serry Sibaee,Samar Ahmed,Abdullah Al Harbi,Omer Nacar,Adel Ammar,Yasser Habashi,Wadii Boulila

Main category: cs.CL

TL;DR: 该研究开发了一种基于Transformer的阿拉伯语反向词典系统,填补了阿拉伯语自然语言处理的空白,并提出了高质量词典资源构建的标准。

  • Motivation: 解决阿拉伯语自然语言处理中反向词典系统的不足,提升语言学习、学术写作和专业交流的效率。
  • Method: 采用半编码器神经网络架构,结合几何递减层,并利用阿拉伯语特定预训练模型(如ARBERTv2)进行实验。
  • Result: ARBERTv2模型在排名得分上表现最佳(0.0644),并提出了八项构建高质量反向词典资源的标准。
  • Conclusion: 该研究为阿拉伯语计算语言学提供了重要工具和理论支持,推动了语言资源的高质量发展。

[128] DNB-AI-Project at SemEval-2025 Task 5: An LLM-Ensemble Approach for Automated Subject Indexing

Lisa Kluge,Maximilian Kähler

Main category: cs.CL

TL;DR: 本文介绍了为SemEval-2025任务5开发的系统,利用LLM进行自动化主题标注,结合少样本提示和后处理步骤,在定量排名中位列第四,但在专家定性评价中表现最佳。

  • Motivation: 为技术图书馆的开放获取目录开发自动化主题标注系统,提升标注效率和准确性。
  • Method: 采用少样本提示技术,结合多步后处理(词汇映射、集成投票和相关性排序)。
  • Result: 系统在定量排名中第四,但在专家定性评价中表现最佳。
  • Conclusion: 该系统展示了LLM在主题标注任务中的潜力,尤其在专家评价中表现优异。

[129] RDF-Based Structured Quality Assessment Representation of Multilingual LLM Evaluations

Jonas Gwozdz,Andreas Both

Main category: cs.CL

TL;DR: 提出了一种基于RDF的框架,用于评估多语言大语言模型(LLM)在知识冲突情况下的可靠性,重点关注知识泄漏、错误检测和多语言一致性。

  • Motivation: 由于LLM作为知识接口的普及,评估其在冲突信息下的可靠性变得重要。
  • Method: 通过四种上下文条件(完整、不完整、冲突和无上下文)在德语和英语中捕获模型响应,并利用RDF结构化表示进行分析。
  • Result: 实验表明框架能全面分析知识泄漏和语言一致性,且在28个问题的研究中足够表达所有评估方面。
  • Conclusion: 该框架有效揭示了LLM在上下文优先级和语言性能上的关键模式。

[130] Sadeed: Advancing Arabic Diacritization Through Small Language Model

Zeina Aldallal,Sara Chrouf,Khalil Hennara,Mohamed Motaism Hamed,Muhammad Hreden,Safwan AlModhayan

Main category: cs.CL

TL;DR: Sadeed是一种基于Kuwain 1.5B微调的阿拉伯语文本标注新方法,性能优于传统模型,并提出了新的评测基准SadeedDiac-25。

  • Motivation: 阿拉伯语文本标注因其形态丰富性一直是NLP中的挑战,需要高效且公平的解决方案。
  • Method: 使用Kuwain 1.5B微调,结合高质量标注数据集和严格的数据清洗流程。
  • Result: Sadeed在有限计算资源下表现优异,优于传统模型,并提出了新评测基准。
  • Conclusion: Sadeed和SadeedDiac-25为阿拉伯语NLP应用提供了坚实基础。

[131] Enhancing Health Mention Classification Performance: A Study on Advancements in Parameter Efficient Tuning

Reem Abdel-Salam,Mary Adewunmi

Main category: cs.CL

TL;DR: 论文提出了一种通过改进生物医学NLP方法的参数来优化健康提及分类(HMC)的方法,结合了POS标记信息和PEFT技术,显著提升了性能。

  • Motivation: 健康提及分类(HMC)在社交媒体实时追踪和公共卫生监测中至关重要,但由于其复杂性(如比喻性语言和描述性术语),分类面临挑战。
  • Method: 采用改进的生物医学NLP方法,结合POS标记信息和PEFT技术,并在RHDM、PHM和Illness数据集上进行实验。
  • Result: 实验结果表明,结合POS标记信息和PEFT技术显著提升了F1分数,同时使用更小的模型和高效训练。
  • Conclusion: 该方法为社交媒体中的健康提及分类提供了一种高效且准确的解决方案,同时优化了模型大小和训练效率。

[132] MAC-Tuning: LLM Multi-Compositional Problem Reasoning with Enhanced Knowledge Boundary Awareness

Junsheng Huang,Zhitao He,Sandeep Polisetty,Qingyun Wang,May Fung

Main category: cs.CL

TL;DR: 论文提出了一种新方法MAC-Tuning,用于在多问题设置下提升大语言模型(LLM)对自身知识边界的感知能力,通过分离答案预测和置信度估计的学习,实验显示其性能优于基线方法25%。

  • Motivation: 随着大语言模型(LLM)的广泛应用,生成虚假事实(幻觉)的问题日益突出。现有研究主要关注单一问题设置下的置信度估计,而多问题设置下LLM对自身知识边界的感知能力尚未充分探索。
  • Method: 提出了一种名为MAC-Tuning的新方法,通过在指令数据微调过程中分离答案预测和置信度估计的学习。
  • Result: 实验表明,该方法在平均精度上优于基线方法高达25%。
  • Conclusion: MAC-Tuning在多问题设置下有效提升了LLM对自身知识边界的感知能力,为解决幻觉问题提供了新思路。

[133] WebThinker: Empowering Large Reasoning Models with Deep Research Capability

Xiaoxi Li,Jiajie Jin,Guanting Dong,Hongjin Qian,Yutao Zhu,Yongkang Wu,Ji-Rong Wen,Zhicheng Dou

Main category: cs.CL

TL;DR: WebThinker是一个深度研究代理,通过动态搜索和整合网络信息,提升大型推理模型在复杂知识密集型任务中的表现。

  • Motivation: 现有大型推理模型依赖静态内部知识,难以处理复杂任务和生成综合研究报告。
  • Method: 提出WebThinker,结合深度网络探索模块和自主思考-搜索-草拟策略,并采用基于强化学习的训练方法。
  • Result: 在多个复杂推理基准和科学报告生成任务中显著优于现有方法。
  • Conclusion: WebThinker提升了大型推理模型的可靠性和适用性,为更强大的深度研究系统铺平道路。

[134] How Real Are Synthetic Therapy Conversations? Evaluating Fidelity in Prolonged Exposure Dialogues

Suhas BN,Dominik Mattioli,Saeed Abdullah,Rosa I. Arriaga,Chris W. Wiese,Andrew M. Sherrill

Main category: cs.CL

TL;DR: 论文探讨了在PTSD治疗中使用合成对话数据替代真实数据的潜力,发现合成数据在结构上接近真实对话,但在临床关键指标上表现不足。

  • Motivation: 隐私问题、真实数据获取困难和标注成本高推动了合成数据在医疗领域的应用,本研究旨在评估合成数据在PTSD治疗对话中的适用性。
  • Method: 通过语言、结构和协议特定指标(如对话轮换模式和治疗忠实度)系统比较真实与合成对话,并引入PE特定指标。
  • Result: 合成数据在结构特征上与真实数据接近(如说话者切换比例0.98 vs. 0.99),但在关键临床指标(如痛苦监测)上表现不足。
  • Conclusion: 合成数据在缓解数据稀缺和保护隐私方面有潜力,但需开发超越表面流畅性的忠实度感知指标以弥补临床动态捕捉的不足。

[135] DeepSeek-Prover-V2: Advancing Formal Mathematical Reasoning via Reinforcement Learning for Subgoal Decomposition

Z. Z. Ren,Zhihong Shao,Junxiao Song,Huajian Xin,Haocheng Wang,Wanjia Zhao,Liyue Zhang,Zhe Fu,Qihao Zhu,Dejian Yang,Z. F. Wu,Zhibin Gou,Shirong Ma,Hongxuan Tang,Yuxuan Liu,Wenjun Gao,Daya Guo,Chong Ruan

Main category: cs.CL

TL;DR: DeepSeek-Prover-V2是一个开源大语言模型,专为Lean 4中的形式化定理证明设计,通过递归定理证明流程初始化,结合非正式和正式数学推理,在多个基准测试中表现优异。

  • Motivation: 旨在通过结合非正式和正式数学推理,提升大语言模型在形式化定理证明中的性能,缩小形式与非形式推理之间的差距。
  • Method: 利用DeepSeek-V3分解复杂问题为子目标,生成链式推理过程作为强化学习的冷启动数据,训练统一模型。
  • Result: 在MiniF2F-test上达到88.9%通过率,解决PutnamBench中49/658问题,并在ProverBench中表现良好。
  • Conclusion: DeepSeek-Prover-V2在形式化定理证明中表现优异,缩小了形式与非形式推理的差距,展示了统一模型的潜力。

[136] TRUST: An LLM-Based Dialogue System for Trauma Understanding and Structured Assessments

Sichang Tu,Abigail Powers,Stephen Doogan,Jinho D. Choi

Main category: cs.CL

TL;DR: TRUST是一个基于LLM的对话系统,旨在通过模拟临床诊断访谈提升心理健康服务的可及性。

  • Motivation: 填补心理健康服务中缺乏标准诊断访谈对话系统的空白。
  • Method: 开发TRUST框架,结合LLM模块和临床访谈专用的Dialogue Acts模式,并通过患者模拟方法进行测试。
  • Result: 专家评估显示TRUST表现接近真实临床访谈,但仍有改进空间。
  • Conclusion: TRUST框架有望提升心理健康服务的可及性。

quant-ph

[137] Efficient Quantum-Safe Homomorphic Encryption for Quantum Computer Programs

Ben Goertzel

Main category: quant-ph

TL;DR: 提出了一种基于格的全同态量子程序与证明评估方案,可抵御量子攻击,结合MLWE格与BNSF掩码,支持加密量子态与经典控制,性能高效。

  • Motivation: 将经典全同态加密扩展到量子领域,解决量子计算中的安全与隐私问题,同时兼容近量子云与后量子安全假设。
  • Method: 使用MLWE格替代复合阶群,引入BNSF掩码隐藏振幅,量子态存储为MLWE密文对,通过qIND-CPA游戏形式化安全性。
  • Result: 性能分析显示方案高效,100量子比特、深度10^3的证明仅需10ms,公钥极小(32字节),CCA级密钥低于300kB。
  • Conclusion: 方案表明全同态量子推理与近量子云及后量子安全假设兼容,具备实际可行性。

cs.MA

[138] Advancing Multi-Agent Systems Through Model Context Protocol: Architecture, Implementation, and Applications

Naveen Krishnan

Main category: cs.MA

TL;DR: 本文提出了一种基于模型上下文协议(MCP)的多智能体系统框架,解决了上下文管理、协调效率和可扩展性等核心挑战,并通过案例研究和评估方法验证了其性能优势。

  • Motivation: 多智能体系统在复杂问题解决中具有潜力,但在上下文管理、协调效率和可扩展性方面存在挑战,需要一种标准化方法提升其能力。
  • Method: 开发了MCP框架,包括统一理论基础、高级上下文管理技术和可扩展协调模式,并通过案例研究验证。
  • Result: 在多个领域(如企业知识管理、协作研究和分布式问题解决)中,MCP框架显著优于传统方法。
  • Conclusion: MCP框架为多智能体系统提供了更高效、协作和上下文感知的能力,为复杂现实问题提供了解决方案,并指出了未来研究方向。

[139] Multi-Agent Reinforcement Learning for Resources Allocation Optimization: A Survey

Mohamad A. Hady,Siyi Hu,Mahardhika Pratama,Jimmy Cao,Ryszard Kowalczyk

Main category: cs.MA

TL;DR: 该论文综述了多智能体强化学习(MARL)在资源分配优化(RAO)中的应用,总结了核心概念、分类和挑战,旨在推动资源分配解决方案的发展。

  • Motivation: MARL在动态和去中心化环境中的优势使其成为RAO的理想工具,尤其在工业4.0背景下。
  • Method: 通过全面综述近期MARL算法,提出分类和结构化分类法。
  • Result: 总结了当前研究现状,并识别了主要挑战和未来方向。
  • Conclusion: 该综述为研究者和实践者提供了MARL在RAO中应用的指导,以推动技术进步。

[140] MF-LLM: Simulating Collective Decision Dynamics via a Mean-Field Large Language Model Framework

Qirui Mi,Mengyue Yang,Xiangning Yu,Zhiyu Zhao,Cheng Deng,Bo An,Haifeng Zhang,Xu Chen,Jun Wang

Main category: cs.MA

TL;DR: 提出MF-LLM框架,通过微观决策与宏观群体的反馈循环模拟集体决策,结合IB-Tune方法优化LLM,显著提升与真实数据的匹配度。

  • Motivation: 现有LLM方法在模拟集体决策时与真实数据存在偏差,需改进。
  • Method: MF-LLM框架交替使用策略模型和平均场模型,结合IB-Tune方法优化LLM。
  • Result: 在真实数据集上,KL散度降低47%,支持准确趋势预测和干预规划。
  • Conclusion: MF-LLM为高保真社会模拟提供了可扩展的基础,适用于多领域和多LLM架构。

physics.plasm-ph

[141] Evaluation and Verification of Physics-Informed Neural Models of the Grad-Shafranov Equation

Fauzan Nazranda Rizqa,Matthew Hole,Charles Gretton

Main category: physics.plasm-ph

TL;DR: 论文研究了在轴对称托卡马克反应堆中,利用物理信息神经网络(PINN)建模Grad-Shafranov方程(GSE)的潜力,并评估了其在多种边界条件下的泛化能力。

  • Motivation: 研究动机源于聚变反应堆中磁流体动力学(MHD)平衡的需求,特别是如何通过GSE建模实现稳定运行。
  • Method: 方法包括使用PINN架构,将边界点作为网络输入,并与傅里叶神经算子(FNO)模型进行比较。
  • Result: 结果表明PINN模型在性能和准确性上表现最佳,并首次验证了此类网络的实用性。
  • Conclusion: 结论是研究首次探索了此类网络的验证,展示了实用的验证工作流程。

cs.RO

[142] UAV-VLN: End-to-End Vision Language guided Navigation for UAVs

Pranav Saxena,Nishant Raghuvanshi,Neena Goveas

Main category: cs.RO

TL;DR: UAV-VLN是一个结合大型语言模型(LLMs)和视觉感知的端到端框架,用于无人机(UAVs)的自然语言导航,能够解析自由形式的指令并规划可行轨迹。

  • Motivation: 解决AI自主导航中基于自然语言指令在未知环境中导航的核心挑战。
  • Method: 整合LLMs的常识推理能力和视觉模型的对象检测,通过跨模态对齐机制实现意图与视觉上下文的融合。
  • Result: 在多样化的室内外场景中表现出色,指令跟随准确性和轨迹效率显著提升。
  • Conclusion: LLM驱动的视觉语言接口为无人机自主导航提供了安全、直观且可泛化的解决方案。

[143] RoboGround: Robotic Manipulation with Grounded Vision-Language Priors

Haifeng Huang,Xinyi Chen,Yilun Chen,Hao Li,Xiaoshen Han,Zehan Wang,Tai Wang,Jiangmiao Pang,Zhou Zhao

Main category: cs.RO

TL;DR: 论文提出了一种基于 grounding masks 的中间表示方法 RoboGround,用于提升机器人操作的泛化能力,并通过大规模模拟数据验证其有效性。

  • Motivation: 探索 grounding masks 作为中间表示的潜力,以平衡空间引导和泛化能力,从而提升机器人操作的性能。
  • Method: 引入 RoboGround 系统,利用 grounding masks 指导策略网络,并提出自动化生成大规模模拟数据的流程。
  • Result: 实验表明,grounding masks 作为中间指导显著提升了机器人策略的泛化能力。
  • Conclusion: grounding masks 是一种有效的中间表示方法,能够显著提升机器人操作的泛化性能。

[144] UAV Marketplace Simulation Tool for BVLOS Operations

Kıvanç Şerefoğlu,Önder Gürcan,Reyhan Aydoğan

Main category: cs.RO

TL;DR: 一个用于评估多无人机团队形成的仿真工具,支持动态和对抗条件下的任务执行,并允许比较不同策略。

  • Motivation: 研究团队形成策略在对抗性环境中的表现,为实际应用提供优化依据。
  • Method: 开发仿真工具,模拟无人机协作和对抗行为,记录日志和性能指标。
  • Result: 工具支持多种策略的集成与比较,便于统计分析。
  • Conclusion: 该工具适用于测试和改进无人机协调策略,具有实际应用价值。

[145] SimPRIVE: a Simulation framework for Physical Robot Interaction with Virtual Environments

Federico Nesti,Gianluca D'Amico,Mauro Marinoni,Giorgio Buttazzo

Main category: cs.RO

TL;DR: SimPRIVE是一个用于物理机器人与虚拟环境交互的仿真框架,支持ROS 2的移动机器人通过数字孪生在Unreal Engine 5构建的虚拟世界中运行,用于测试复杂算法。

  • Motivation: 机器学习和强化学习在物理系统中的不可预测行为需要一种安全且经济的测试方法。
  • Method: 开发SimPRIVE框架,将物理机器人与虚拟环境结合,支持ROS 2和Unreal Engine 5,用于测试算法。
  • Result: 通过测试一个避障强化学习代理,验证了框架的有效性,物理机器人在虚拟环境中无碰撞运行。
  • Conclusion: SimPRIVE提供了一种低成本、低风险的测试方法,适用于复杂算法的验证。

[146] Multi-Goal Dexterous Hand Manipulation using Probabilistic Model-based Reinforcement Learning

Yingzhuo Jiang,Wenjun Huang,Rongdun Lin,Chenyang Miao,Tianfu Sun,Yunduan Cui

Main category: cs.RO

TL;DR: 本文提出了一种基于模型强化学习的方法(GC-PMPC),用于解决多目标灵巧手操控任务,通过概率神经网络集成和异步MPC策略,显著提升了学习效率和操控性能。

  • Motivation: 解决高维度灵巧手动力学建模和多目标操控任务的挑战,同时满足实时控制频率需求。
  • Method: 设计了概率神经网络集成来描述灵巧手动力学,并引入异步MPC策略以实现实时控制。
  • Result: 在模拟实验中,GC-PMPC在四种Shadow Hand操控场景中表现优于现有方法,成功驱动12自由度灵巧手在80分钟内学习操控立方体至三个目标姿态。
  • Conclusion: GC-PMPC在低成本灵巧手平台上展示了卓越的学习效率和操控性能,为多目标灵巧手操控任务提供了有效解决方案。

[147] One Net to Rule Them All: Domain Randomization in Quadcopter Racing Across Different Platforms

Robin Ferede,Till Blaha,Erin Lucassen,Christophe De Wagter,Guido C. H. E. de Croon

Main category: cs.RO

TL;DR: 提出了一种基于神经网络的通用无人机竞速控制器,通过域随机化训练,能在不同尺寸的无人机上稳定运行。

  • Motivation: 解决高速无人机竞速中单一控制器难以适应不同平台的问题。
  • Method: 使用域随机化训练神经网络控制器,仅依赖当前状态直接计算电机指令。
  • Result: 通用控制器在3英寸和5英寸无人机上表现稳健,虽速度略低于专用控制器,但适应性更强。
  • Conclusion: 域随机化能有效提升控制器的通用性,为通用AI控制器的发展铺平道路。

[148] Leveraging Pre-trained Large Language Models with Refined Prompting for Online Task and Motion Planning

Huihui Guo,Huilong Pi,Yunchuan Qin,Zhuo Tang,Kenli Li

Main category: cs.RO

TL;DR: LLM-PAS是一个结合大型语言模型(LLM)的闭环任务规划与执行系统,通过将部分约束检查转移到执行阶段,提升任务执行的稳定性和鲁棒性。

  • Motivation: 随着AI的快速发展,智能机器人需具备任务规划和稳定执行能力,LLM-PAS旨在解决这一需求。
  • Method: LLM-PAS结合传统任务规划与LLM的推理能力,提出First Look Prompting(FLP)方法优化PDDL目标生成。
  • Result: 实验表明LLM-PAS在异常条件下任务执行中表现高效且鲁棒。
  • Conclusion: LLM-PAS通过闭环设计和LLM辅助,显著提升了任务执行的准确性和适应性。

[149] Self-Supervised Monocular Visual Drone Model Identification through Improved Occlusion Handling

Stavrow A. Bahnam,Christophe De Wagter,Guido C. H. E. de Croon

Main category: cs.RO

TL;DR: 提出了一种自监督学习方案,利用单目视频和飞行控制器数据训练无人机模型,解决了高速飞行和遮挡环境下的运动估计问题。

  • Motivation: 在GPS缺失环境中,无人机运动估计至关重要。传统视觉方法在高速飞行和遮挡条件下表现不佳,而依赖外部数据的监督学习方法限制了可扩展性。
  • Method: 通过自监督相对位姿估计模型作为教师,训练神经网络无人机模型,并改进了遮挡处理方法。
  • Result: 提出的方法将里程计估计的均方根误差平均降低15%,且无人机模型在高速下比视觉模型更准确。
  • Conclusion: 自监督学习为无人机在真实环境中的高速飞行和状态估计提供了重要进展。

[150] LLM-Empowered Embodied Agent for Memory-Augmented Task Planning in Household Robotics

Marc Glocker,Peter Hönig,Matthias Hirschmanner,Markus Vincze

Main category: cs.RO

TL;DR: 该论文提出了一种基于LLM驱动的多智能体机器人系统,用于自主管理家庭物品,通过任务规划、记忆增强和上下文学习实现高效操作。

  • Motivation: 旨在解决家庭环境中机器人自主管理物品的复杂任务需求,同时通过记忆增强和任务规划提高系统的长期操作能力。
  • Method: 系统采用三个专用智能体(路由、任务规划、知识库),结合RAG技术实现上下文检索,并利用Grounded SAM和LLaMa3.2-Vision进行物体检测与场景理解。
  • Result: 在三种家庭场景中验证了高任务规划准确性和记忆召回率的提升,Qwen2.5在专用智能体中表现最佳,LLaMA3.1在路由任务中表现优异。
  • Conclusion: 该系统通过LLM驱动的智能体架构和RAG技术,有效提升了家庭物品管理的自主性和长期记忆能力。

eess.IV

[151] Light Weight CNN for classification of Brain Tumors from MRI Images

Natnael Alemayehu

Main category: eess.IV

TL;DR: 该研究提出了一种基于卷积神经网络(CNN)的方法,用于利用MRI扫描对脑肿瘤进行多类分类,准确率达98.78%。

  • Motivation: 目标是构建一个轻量级的深度学习模型,能够高精度自动分类脑肿瘤类型,以辅助临床诊断。
  • Method: 采用图像预处理(归一化、数据增强、裁剪技术)和优化的CNN架构,通过Keras Tuner进行超参数调优,并使用5折交叉验证评估模型。
  • Result: 实验结果显示,模型分类准确率达到98.78%。
  • Conclusion: 该方法为早期脑肿瘤诊断提供了一种低复杂度且有效的解决方案。

[152] Gradient Attention Map Based Verification of Deep Convolutional Neural Networks with Application to X-ray Image Datasets

Omid Halimi Milani,Amanda Nikho,Lauren Mills,Marouane Tliba,Ahmet Enis Cetin,Mohammed H. Elnagar

Main category: eess.IV

TL;DR: 提出了一种综合验证框架,通过梯度注意力图和特征图分析,结合垃圾类别,提高深度学习模型在医学影像中的可靠性和安全性。

  • Motivation: 深度学习模型在医学影像中应用广泛,但数据分布不一致可能导致预测不可靠,影响患者治疗。
  • Method: 1. 使用梯度注意力图(GAM)分析注意力模式;2. 扩展验证到早期卷积特征图;3. 在分类模型中引入垃圾类别以拒绝分布外输入。
  • Result: 实验表明,该方法能有效识别不合适的模型和输入。
  • Conclusion: 综合验证框架提升了深度学习在医学影像中的部署安全性和可靠性。

[153] LoC-LIC: Low Complexity Learned Image Coding Using Hierarchical Feature Transforms

Ayman A. Ameen,Thomas Richter,André Kaup

Main category: eess.IV

TL;DR: 提出了一种基于分层特征提取的图像压缩方法,显著降低计算复杂度,同时保持压缩效率。

  • Motivation: 现有学习型图像压缩模型复杂度高,计算资源需求大,限制了其应用范围。
  • Method: 采用分层特征提取变换,减少高空间分辨率输入/特征图的通道数,同时降低高通道数特征图的空间维度。
  • Result: 计算复杂度从1256 kMAC/Pixel降至270 kMAC/Pixel,性能未受影响。
  • Conclusion: 该方法为学习型图像压缩模型在多种设备上的高效运行提供了可能,并推动了图像压缩技术的发展。

cs.SE

[154] Assessing LLM code generation quality through path planning tasks

Wanyi Chen,Meng-Wen Su,Mary L. Cummings

Main category: cs.SE

TL;DR: 评估LLM生成代码在安全关键应用(如路径规划)中的风险,发现现有基准不足,测试六种LLM生成三种路径规划算法的代码,结果显示存在严重安全隐患。

  • Motivation: 随着LLM生成代码的普及,需评估其在安全关键应用中的风险,现有基准无法反映此类应用的复杂性和上下文。
  • Method: 测试六种LLM生成三种路径规划算法的代码,并在三种不同难度地图上验证。
  • Result: LLM生成的代码在路径规划应用中存在严重安全隐患。
  • Conclusion: LLM生成的代码在安全关键应用中需严格测试,不可直接使用。

[155] SWE-smith: Scaling Data for Software Engineering Agents

John Yang,Kilian Leret,Carlos E. Jimenez,Alexander Wettig,Kabir Khandpur,Yanzhe Zhang,Binyuan Hui,Ofir Press,Ludwig Schmidt,Diyi Yang

Main category: cs.SE

TL;DR: SWE-smith是一个用于大规模生成软件工程训练数据的新管道,解决了现有数据集小且难以扩展的问题。

  • Motivation: 现有软件工程训练数据集规模小、构建复杂且存储需求高,限制了语言模型在软件工程中的应用。
  • Method: SWE-smith通过为Python代码库构建执行环境,自动合成数百至数千个破坏现有测试的任务实例。
  • Result: 生成了50k个实例的数据集,训练了SWE-agent-LM-32B模型,在SWE-bench基准测试中达到40.2%的Pass@1解决率。
  • Conclusion: SWE-smith及其开源资源降低了自动化软件工程研究的门槛。

cs.GR

[156] Transcending Dimensions using Generative AI: Real-Time 3D Model Generation in Augmented Reality

Majid Behravan,Maryam Haghani,Denis Gracanin

Main category: cs.GR

TL;DR: 结合生成式AI和增强现实(AR)技术,开发了一个简化3D建模的系统,使非专业用户也能轻松生成和操作3D模型。

  • Motivation: 传统3D建模技术门槛高,需要专业软件和技能,限制了普通用户的使用。本研究旨在通过AI和AR技术降低这一门槛。
  • Method: 利用Shap-E等AI模型和Mask R-CNN等对象检测方法,解决从2D图像生成3D模型的复杂问题。
  • Result: 35名参与者的评估显示,系统可用性评分(SUS)为69.64,熟悉AR/VR技术的用户评分更高(80.71)。
  • Conclusion: 该系统在游戏、教育和AR电商等领域具有应用潜力,为非专业用户提供了直观的3D建模工具。

[157] GauSS-MI: Gaussian Splatting Shannon Mutual Information for Active 3D Reconstruction

Yuhan Xie,Yixi Cai,Yinqiang Zhang,Lei Yang,Jia Pan

Main category: cs.GR

TL;DR: 本文提出了一种基于高斯溅射香农互信息(GauSS-MI)的实时主动视图选择方法,用于3D重建中的视觉不确定性量化。

  • Motivation: 当前3D重建技术(如NeRF和3DGS)在图像渲染质量上有显著提升,但如何高效选择最具信息量的输入视图仍是一个挑战。现有研究多关注几何完整性,而忽略了重建模型中的视觉不确定性。
  • Method: 通过概率模型量化每个高斯的视觉不确定性,并利用香农互信息提出GauSS-MI准则,实时评估新视图的视觉互信息,从而选择最佳视图。
  • Result: 在模拟和真实场景中的实验表明,该系统在视觉质量和重建效率上表现优异。
  • Conclusion: GauSS-MI为主动3D重建提供了一种有效的视觉不确定性量化和视图选择方法。

physics.ao-ph

[158] Turning Up the Heat: Assessing 2-m Temperature Forecast Errors in AI Weather Prediction Models During Heat Waves

Kelsey E. Ennis,Elizabeth A. Barnes,Marybeth C. Arcodia,Martin A. Fernandez,Eric D. Maloney

Main category: physics.ao-ph

TL;DR: AIWP模型(如GraphCast和Pangu-Weather)在极端高温预测中表现优于传统NWP模型(UFS GEFS),但仍存在冷偏差问题。

  • Motivation: 极端高温是致命的天气灾害,传统NWP模型在中长期预测中表现不佳,而AIWP模型的潜力尚不明确。
  • Method: 研究比较了两种AIWP模型和一种NWP模型对60次热浪事件的2米温度预测能力,时间跨度为20天。
  • Result: GraphCast表现最佳,但AIWP模型普遍存在冷偏差,Pangu-Weather在冬季例外。
  • Conclusion: AIWP模型在中长期极端高温预测中具有潜力,但仍需改进偏差问题。

cs.HC

[159] Adaptive 3D UI Placement in Mixed Reality Using Deep Reinforcement Learning

Feiyu Lu,Mengyu Chen,Hsiang Hsu,Pranav Deshpande,Cheng Yao Wang,Blair MacIntyre

Main category: cs.HC

TL;DR: 论文探讨了如何利用强化学习(RL)在混合现实(MR)中动态优化3D内容布局,以适应用户姿态和环境变化。

  • Motivation: MR中虚拟内容的动态布局是一个挑战性问题,传统优化方法难以适应实时变化。
  • Method: 采用强化学习方法,结合用户姿态和环境信息,实现连续3D内容布局优化。
  • Result: 初步实验表明,RL能有效优化内容布局,提升用户体验。
  • Conclusion: RL在MR中具有潜力,未来可进一步研究个性化UI和内容布局优化。

cs.CY

[160] Selecting the Right LLM for eGov Explanations

Lior Limonad,Fabiana Fournier,Hadar Mulian,George Manias,Spiros Borotis,Danai Kyrkou

Main category: cs.CY

TL;DR: 论文探讨了如何通过生成式AI(如LLMs)为电子政务服务提供高质量解释,以增强信任和使用。研究通过用户调查比较不同LLM生成解释的质量,并尝试自动化评估过程。

  • Motivation: 电子政务服务的解释质量对用户信任和使用至关重要,而生成式AI(如LLMs)可以自动化生成解释,但选择合适的LLM类型成为挑战。
  • Method: 研究改编了一个现有量表,用于系统比较不同LLM生成解释的感知质量,并以税务返还为例进行用户调查(128名受访者)。同时探索了自动化评估的可能性。
  • Result: 通过用户调查提供了选择最适合LLM的方法论基础,并尝试用预测技术复制人类反馈以自动化评估过程。
  • Conclusion: 研究为电子政务服务提供者选择LLM提供了系统方法,并展示了自动化评估的潜力,但需进一步解决实际挑战。

[161] TRIED: Truly Innovative and Effective Detection Benchmark, developed by WITNESS

Shirin Anlen,Zuzanna Wojciak

Main category: cs.CY

TL;DR: WITNESS提出TRIED Benchmark,评估AI检测工具的实际效果和创新性,强调工具需适应多样化的语言、文化和科技背景。

  • Motivation: 生成式AI和虚假合成媒体威胁全球信息生态,现有检测工具在现实场景中表现不佳。
  • Method: 基于前线经验、虚假AI案例和全球咨询,提出TRIED Benchmark框架。
  • Result: 报告为开发者、政策制定者提供实用指南,推动透明、负责任的检测解决方案。
  • Conclusion: 采用TRIED Benchmark可促进创新、增强公众信任,提升全球信息可信度。

[162] Quantitative Auditing of AI Fairness with Differentially Private Synthetic Data

Chih-Cheng Rex Yuan,Bow-Yaw Wang

Main category: cs.CY

TL;DR: 论文提出了一种利用差分隐私合成数据审计AI系统公平性的框架,解决了传统审计中的安全和隐私问题。

  • Motivation: 传统审计使用真实数据会引发安全和隐私风险,需要一种既能保护隐私又能有效评估公平性的方法。
  • Method: 采用差分隐私合成数据生成技术,保留原始数据的统计特性,同时确保隐私。
  • Result: 实验表明,合成数据能有效保留真实数据的公平性属性,适用于敏感领域。
  • Conclusion: 该框架在保护隐私的同时,实现了对AI系统公平性的有效审计。

[163] Characterizing AI Agents for Alignment and Governance

Atoosa Kasirzadeh,Iason Gabriel

Main category: cs.CY

TL;DR: 论文提出AI代理的四个核心维度(自主性、效能、目标复杂性和通用性),并构建了“代理性档案”以帮助解决不同AI代理的治理挑战。

  • Motivation: 理解AI代理的核心属性及其与治理问题的关系,以设计更有效的治理机制。
  • Method: 提出四个维度的分级标准,并构建“代理性档案”以分类AI代理。
  • Result: 框架为开发者、政策制定者和公众提供了治理AI代理的工具,以更好地实现社会目标。
  • Conclusion: 通过明确AI代理的差异和共性,该框架有助于设计更符合社会目标的治理方法。

[164] Public Opinion and The Rise of Digital Minds: Perceived Risk, Trust, and Regulation Support

Justin B. Bullock,Janet V. T. Pauketat,Hsini Huang,Yi-Fan Wang,Jacy Reese Anthis

Main category: cs.CY

TL;DR: 研究探讨公众对AI监管的偏好,发现风险感知和信任(政府、AI公司及技术)是关键影响因素。

  • Motivation: 研究AI治理中公众信任与风险感知如何影响监管偏好,为政策制定提供依据。
  • Method: 使用2023年AIMS全国代表性调查数据,分析公众对政府、AI公司及技术的信任与监管支持。
  • Result: 公众普遍支持AI监管,风险感知显著影响偏好;信任政府者倾向监管,信任AI公司或技术者反之。
  • Conclusion: AI治理需平衡公众风险担忧与机构信任,研究为政策制定提供实证基础。

cond-mat.mtrl-sci

[165] Towards Space Group Determination from EBSD Patterns: The Role of Deep Learning and High-throughput Dynamical Simulations

Alfred Yan,Muhammad Nur Talha Kilic,Gert Nolze,Ankit Agrawal,Alok Choudhary,Roberto dos Reis,Vinayak Dravid

Main category: cond-mat.mtrl-sci

TL;DR: 论文提出了一种基于深度学习的晶体对称性分类方法,通过Kikuchi衍射和电子背散射衍射(EBSD)技术,结合神经网络,实现了对模拟和实验数据的高精度分类。

  • Motivation: 新材料的设计依赖于结构-性能关系的理解,但合成速度远超表征能力。因此,需要快速、可扩展的晶体对称性确定方法。
  • Method: 利用Kikuchi衍射和EBSD技术收集衍射图案,通过神经网络分类空间群对称性。采用人工数据集和最大分类器差异的无监督域适应方法训练模型。
  • Result: 模型在模拟和实验数据上的准确率超过90%,表明神经网络能够从EBSD图案中预测晶体对称性。
  • Conclusion: 深度学习结合EBSD技术为高通量纳米材料发现提供了可行的解决方案。

cs.CR

[166] Research on CNN-BiLSTM Network Traffic Anomaly Detection Model Based on MindSpore

Qiuyan Xiang,Shuang Wu,Dongze Wu,Yuxin Liu,Zhenkai Qin

Main category: cs.CR

TL;DR: 本文提出了一种结合CNN和BiLSTM的网络流量异常检测模型,在MindSpore框架上实现,实验结果表明其在网络入侵检测任务中表现优异。

  • Motivation: 随着IoT和IIoT技术的普及,网络架构日益复杂,流量激增,传统安全机制难以应对高频、多样且隐蔽的网络攻击。
  • Method: 提出了一种集成CNN和BiLSTM的模型,并在MindSpore框架上实现,使用NF-BoT-IoT数据集进行实验。
  • Result: 模型在准确率、精确率、召回率和F1分数上均达到99%,表现出色。
  • Conclusion: 该模型在网络入侵检测任务中具有强大的性能和鲁棒性。

[167] Semantic-Aware Contrastive Fine-Tuning: Boosting Multimodal Malware Classification with Discriminative Embeddings

Ivan Montoya Sanchez,Shaswata Mitra,Aritran Piplai,Sudip Mittal

Main category: cs.CR

TL;DR: 论文提出了一种对比微调(CFT)方法,通过基于余弦相似度的硬负样本选择优化LLM嵌入,显著提升了恶意软件分类的准确性和泛化能力。

  • Motivation: 恶意软件变种的快速演变需要强大的分类方法,而现有LLM在语义嵌入和行为特征对齐方面存在局限性。
  • Method: 采用对比微调方法,结合高相似度和中等级别的负样本,优化LLM嵌入,并集成到多模态分类器中。
  • Result: 在CIC-AndMal-2020和BODMAS数据集上,仅用20个样本即达到63.15%的分类准确率,优于基线方法11-21个百分点。
  • Conclusion: 该方法通过细粒度语义区分和可扩展框架,为LLM在网络安全中的应用提供了新思路。

[168] PICO: Secure Transformers via Robust Prompt Isolation and Cybersecurity Oversight

Ben Goertzel,Paulos Yibelo

Main category: cs.CR

TL;DR: 提出了一种名为PICO的鲁棒Transformer架构,通过双通道隔离系统指令与用户输入,结合安全专家代理和知识图谱,防止提示注入攻击。

  • Motivation: 解决提示注入攻击问题,确保生成响应的安全性和可靠性。
  • Method: 采用双通道处理指令与输入,结合MoE框架和CKG,训练时保持系统提示分支不可变。
  • Result: 提出了PICO框架,支持从头训练或微调,有效防御攻击。
  • Conclusion: PICO框架在安全性和可靠性上表现优越,适用于多种场景。

[169] SAGA: A Security Architecture for Governing AI Agentic Systems

Georgios Syros,Anshuman Suri,Cristina Nita-Rotaru,Alina Oprea

Main category: cs.CR

TL;DR: SAGA是一个用于管理自主代理的安全架构,提供用户对其代理生命周期的监督,确保安全和可信的部署。

  • Motivation: 现有代理系统设计缺乏用户控制和管理,可能导致恶意代理的潜在损害。
  • Method: 提出SAGA架构,通过中央实体(Provider)管理代理注册、访问控制策略,并引入加密机制实现细粒度控制。
  • Result: 在不同地理位置和多种LLM上评估,显示性能开销最小且不影响任务效用。
  • Conclusion: SAGA支持安全和可信的自主代理部署,促进敏感环境中该技术的负责任采用。

[170] Can Differentially Private Fine-tuning LLMs Protect Against Privacy Attacks?

Hao Du,Shang Liu,Yang Cao

Main category: cs.CR

TL;DR: 本文研究了差分隐私(DP)在不同微调方法中对大语言模型(LLM)隐私保护的效果,发现DP能显著降低隐私风险,但对模型效用的影响因方法而异。

  • Motivation: 探讨DP在LLM微调中的实际隐私保护效果,以及不同微调方法对隐私-效用权衡的影响。
  • Method: 通过数据提取和成员推理攻击评估DP在不同微调方法和隐私预算下的隐私风险。
  • Result: DP降低模型效用,但隐私风险显著降低;不同微调方法对隐私-效用权衡影响差异大。
  • Conclusion: 研究为隐私敏感的LLM部署提供实用指导,并推动未来优化隐私-效用权衡的研究。

[171] Security Bug Report Prediction Within and Across Projects: A Comparative Study of BERT and Random Forest

Farnaz Soltaniani,Mohammad Ghafari,Mohammed Sayagh

Main category: cs.CR

TL;DR: 比较BERT和随机森林(RF)在安全漏洞报告(SBR)预测中的表现,发现RF在项目内预测中表现更好,而BERT在跨项目预测中显著优于RF。

  • Motivation: 提高安全漏洞报告的早期检测能力,以预防漏洞并确保系统可靠性。
  • Method: 对BERT和随机森林(RF)进行综合比较,评估它们在项目内和跨项目SBR预测中的表现。
  • Result: RF在项目内预测中平均G-measure比BERT高34%,而BERT在跨项目预测中达到62%的G-measure,显著优于RF。
  • Conclusion: BERT在跨项目SBR预测中表现更优,而RF在项目内预测中更具优势。

[172] Prefill-Based Jailbreak: A Novel Approach of Bypassing LLM Safety Boundary

Yakai Li,Jiekang Hu,Weiduan Sang,Luping Ma,Jing Xie,Weijuan Zhang,Aimin Yu,Shijie Zhao,Qingjia Huang,Qihang Zhou

Main category: cs.CR

TL;DR: 本文提出了一种新的LLM越狱攻击方法,利用预填充特性绕过安全机制,显著提高攻击成功率。

  • Motivation: 研究LLM的越狱方法以揭示系统漏洞,指导开发者增强安全性。
  • Method: 提出两种攻击变体:静态预填充(SP)和优化预填充(OP),通过操纵令牌概率分布控制模型输出。
  • Result: 在六种先进LLM上验证,OP方法攻击成功率高达99.82%,显著优于基线方法。
  • Conclusion: 强调需要加强内容验证机制以防范预填充特性的对抗性利用。

[173] Llama-3.1-FoundationAI-SecurityLLM-Base-8B Technical Report

Paul Kassianik,Baturay Saglam,Alexander Chen,Blaine Nelson,Anu Vellore,Massimo Aufiero,Fraser Burch,Dhruv Kedia,Avi Zohary,Sajana Weerawardhena,Aman Priyanshu,Adam Swanda,Amy Chang,Hyrum Anderson,Kojin Oshiba,Omar Santos,Yaron Singer,Amin Karbasi

Main category: cs.CR

TL;DR: Foundation-Sec-8B是一个基于Llama 3.1架构的网络安全专用大语言模型,通过针对性训练解决了数据稀缺和知识表示问题,性能媲美主流模型。

  • Motivation: 当前大语言模型在网络安全领域的应用受限,主要由于缺乏专业数据和知识表示的复杂性。
  • Method: 基于Llama 3.1架构,通过精心筛选的网络安全语料库进行持续预训练。
  • Result: 在网络安全任务中表现与Llama 3.1-70B和GPT-4o-mini相当。
  • Conclusion: 公开模型以推动AI工具在网络安全领域的应用。

[174] What's Pulling the Strings? Evaluating Integrity and Attribution in AI Training and Inference through Concept Shift

Jiamin Chang,Haoyang Li,Hammond Pearce,Ruoxi Sun,Bo Li,Minhui Xue

Main category: cs.CR

TL;DR: ConceptLens是一个通用框架,利用预训练多模态模型分析概念漂移,检测数据投毒攻击、隐私风险及模型弱点,揭示社会学偏见,并提供增强AI系统信任的可行见解。

  • Motivation: 随着AI的广泛应用,其可信度问题(如完整性、隐私、鲁棒性和偏见)日益突出,需要一种方法来评估和归因这些威胁。
  • Method: 提出ConceptLens框架,通过分析概念漂移识别威胁根源,检测数据投毒攻击、隐私风险,并揭示模型依赖的关键概念和偏见。
  • Result: ConceptLens能有效检测攻击、过滤高风险样本,揭示模型弱点和社会学偏见,显示安全数据可能被意外利用。
  • Conclusion: ConceptLens为增强AI系统信任提供了可行见解,有助于加速AI的采用和创新。

[175] CodeBC: A More Secure Large Language Model for Smart Contract Code Generation in Blockchain

Lingxiang wang,Hainan Zhang,Qinnan Zhang,Ziwei Wang,Hongwei Zheng,Jin Dong,Zhiming Zheng

Main category: cs.CR

TL;DR: CodeBC是一种专门为生成安全的区块链智能合约而设计的代码生成模型,通过三阶段微调方法,无需依赖成对的漏洞标注数据,显著降低了漏洞率。

  • Motivation: 大型语言模型(LLMs)在生成代码时缺乏对安全漏洞的理解,尤其是在智能合约等高安全性任务中,而低资源语言(如Solidity)的标注数据稀缺。
  • Method: 基于CodeLlama的三阶段微调方法,利用漏洞和安全标签而非成对标注数据,训练模型区分漏洞代码和安全代码。
  • Result: CodeBC在BLEU、CodeBLEU和编译通过率上优于基线模型,同时显著降低漏洞率。
  • Conclusion: CodeBC的三阶段微调策略高效且成本低,为生成安全的智能合约代码提供了有前景的解决方案。

Jianbo Gao,Keke Gai,Jing Yu,Liehuang Zhu,Qi Wu

Main category: cs.CR

TL;DR: 本文提出了一种名为AGATE的黑盒后门水印框架,用于解决多模态模型版权保护中的隐蔽性和鲁棒性问题。通过生成隐蔽的对抗触发器并设计后变换模块,AGATE在图像-文本检索和图像分类任务中表现优异,且能抵抗对抗攻击。

  • Motivation: 现有方法在多模态模型版权保护中易受恶意检测和伪造攻击,导致水印失效。因此,需要一种更隐蔽且鲁棒的方法来保护模型版权。
  • Method: 提出AGATE框架,包括生成对抗触发器的方法和后变换模块,用于纠正模型输出。采用两阶段水印验证来判断模型是否侵权。
  • Result: 在五个数据集的下游任务中,AGATE表现优于现有方法,并在对抗攻击场景下验证了其鲁棒性。
  • Conclusion: AGATE为多模态模型版权保护提供了一种隐蔽且鲁棒的解决方案,显著提升了水印的抵抗能力。

[177] Leveraging LLM to Strengthen ML-Based Cross-Site Scripting Detection

Dennis Miczek,Divyesh Gabbireddy,Suman Saha

Main category: cs.CR

TL;DR: 该论文提出了一种利用大型语言模型(LLM)生成复杂混淆XSS负载的方法,显著提高了机器学习模型检测混淆XSS攻击的准确性。

  • Motivation: 尽管XSS攻击研究已有数十年,但混淆XSS攻击仍难以检测,现有工具生成的混淆代码复杂度有限,导致机器学习模型在检测此类攻击时效果不佳。
  • Method: 通过微调大型语言模型(LLM)自动生成复杂混淆XSS负载,并利用这些数据训练随机森林模型。
  • Result: 在混淆数据集上,模型准确率达到99.5%,且LLM生成的混淆样本复杂度比其他工具高28.1%。
  • Conclusion: 该方法显著提升了模型对高级XSS攻击的检测能力,适用于实际应用安全场景。

[178] Phishing URL Detection using Bi-LSTM

Sneha Baskota

Main category: cs.CR

TL;DR: 提出了一种基于Bi-LSTM的深度学习模型,用于分类URL,准确率达97%,显著优于传统方法。

  • Motivation: 传统钓鱼检测系统存在高误报率和检测类型有限的问题,亟需更高效的解决方案。
  • Method: 使用双向长短期记忆网络(Bi-LSTM)分析URL序列数据,捕捉上下文信息。
  • Result: 在65万条URL数据集上测试,模型准确率达到97%。
  • Conclusion: Bi-LSTM模型在钓鱼检测中表现优异,优于传统技术。

[179] SFIBA: Spatial-based Full-target Invisible Backdoor Attacks

Yangxu Yin,Honglong Chen,Yudong Gao,Peng Sun,Zhishuai Li,Weifeng Liu

Main category: cs.CR

TL;DR: SFIBA是一种基于空间的全目标隐形后门攻击方法,通过限制触发器的空间区域和形态确保特异性,同时利用频域注入方法保证隐蔽性,实验证明其攻击性能和隐蔽性优异。

  • Motivation: 多目标后门攻击在现实攻击场景中存在触发器特异性和隐蔽性不足的问题,限制了攻击效果和隐蔽性。
  • Method: SFIBA通过局部空间区域和形态限制触发器,结合频域注入方法(FFT、DWT、SVD)实现隐蔽性。
  • Result: SFIBA在多个数据集和模型上表现出优异的攻击性能和隐蔽性,且能绕过现有防御。
  • Conclusion: SFIBA解决了多目标后门攻击的特异性和隐蔽性问题,具有实际应用潜力。

[180] FFCBA: Feature-based Full-target Clean-label Backdoor Attacks

Yangxu Yin,Honglong Chen,Yudong Gao,Peng Sun,Liantao Wu,Zhe Li,Weifeng Liu

Main category: cs.CR

TL;DR: 论文提出了FFCBA方法,通过FSBA和FMBA两种范式实现多目标清洁标签后门攻击,解决了现有方法在稳定性和扩展性上的不足。

  • Motivation: 现有多目标后门攻击多为脏标签范式,易被检测且需高污染率;清洁标签攻击虽隐蔽但性能不稳定且难以扩展。
  • Method: FFCBA包含FSBA和FMBA:FSBA利用类条件自编码器生成触发器,FMBA通过两阶段训练生成强目标类特征的触发器。
  • Result: 实验表明FFCBA攻击性能优异,并对先进防御方法保持鲁棒性。
  • Conclusion: FFCBA为多目标清洁标签后门攻击提供了高效且隐蔽的解决方案。

[181] Erased but Not Forgotten: How Backdoors Compromise Concept Erasure

Jonas Henry Grebe,Tobias Braun,Marcus Rohrbach,Anna Rohrbach

Main category: cs.CR

TL;DR: 论文提出了一种新的威胁模型Toxic Erasure (ToxE),展示了现有去学习算法如何被针对性后门攻击绕过,并提出了更深的攻击方法DISA,揭示了当前去学习策略的安全漏洞。

  • Motivation: 大规模文本到图像扩散模型的扩展引发了对其生成不良或有害内容的担忧,现有去学习技术试图通过微调消除这些内容,但存在被攻击的风险。
  • Method: 论文提出了ToxE威胁模型,通过建立触发器与不良内容的链接绕过去学习算法,并设计了DISA攻击方法,优化整个U-Net以增强攻击持久性。
  • Result: 实验表明,DISA攻击在名人身份消除任务中最高成功率82%,平均57%;在不良内容消除任务中,暴露身体部分最多增加9倍,DISA平均增加2.9倍。
  • Conclusion: 当前去学习策略存在严重安全漏洞,需要更鲁棒的防御方法。

[182] SecRepoBench: Benchmarking LLMs for Secure Code Generation in Real-World Repositories

Connor Dilgren,Purva Chiniya,Luke Griffith,Yu Ding,Yizheng Chen

Main category: cs.CR

TL;DR: SecRepoBench是一个评估LLMs在真实代码库中生成安全代码的基准,包含318个任务,覆盖15种CWE。研究发现现有LLMs在生成安全代码方面表现不佳,且传统提示工程技术效果有限。

  • Motivation: 评估LLMs在真实代码库中生成安全代码的能力,填补现有基准的不足。
  • Method: 构建SecRepoBench基准,包含318个任务和27个C/C++代码库,评估19种LLMs,并尝试代理技术生成安全代码。
  • Result: LLMs在生成安全代码时表现不佳,传统提示工程技术效果有限,SecRepoBench是目前最具挑战性的安全代码基准。
  • Conclusion: 研究为提升LLMs在真实代码库中生成安全代码的能力提供了方向。

[183] CachePrune: Neural-Based Attribution Defense Against Indirect Prompt Injection Attacks

Rui Wang,Junda Wu,Yu Xia,Tong Yu,Ruiyi Zhang,Ryan Rossi,Lina Yao,Julian McAuley

Main category: cs.CR

TL;DR: CachePrune通过修剪KV缓存中的任务触发神经元,防御LLMs的间接提示注入攻击,提升模型安全性。

  • Motivation: LLMs易受间接提示注入攻击,导致模型偏离用户指令,需开发防御方法以提升AI系统安全性。
  • Method: 提出CachePrune,通过特征归因和损失函数识别并修剪任务触发神经元,避免模型将输入上下文误认为指令。
  • Result: 实验表明CachePrune显著降低攻击成功率,且不影响响应质量。
  • Conclusion: CachePrune为防御间接提示注入攻击提供有效方案,增强LLMs的鲁棒性和安全性。

[184] Cert-SSB: Toward Certified Sample-Specific Backdoor Defense

Ting Qiao,Yingjia Wang,Xing Liu,Sixing Wu,Jianbing Li,Yiming Li

Main category: cs.CR

TL;DR: 论文提出了一种样本特定的认证后门防御方法Cert-SSB,通过优化每个样本的噪声幅度并聚合多个平滑模型的预测,提高了防御性能。

  • Motivation: 现有的随机平滑防御方法假设所有样本与决策边界等距,但在实践中不成立,导致认证性能不佳。
  • Method: Cert-SSB使用随机梯度上升优化每个样本的噪声幅度,并引入存储更新认证方法动态调整认证区域。
  • Result: 在多个基准数据集上的实验证明了Cert-SSB的有效性。
  • Conclusion: Cert-SSB通过样本特定的噪声优化和动态认证方法,显著提升了防御后门攻击的能力。

[185] How to Backdoor the Knowledge Distillation

Chen Wu,Qian Ma,Prasenjit Mitra,Sencun Zhu

Main category: cs.CR

TL;DR: 论文提出了一种新型攻击方法,通过对抗样本污染知识蒸馏数据集,成功利用干净的教师模型在蒸馏过程中植入后门,揭示了知识蒸馏的安全漏洞。

  • Motivation: 传统认为知识蒸馏是安全的,因为教师模型干净且不涉及后门攻击的数据。本文挑战这一假设,探索知识蒸馏过程中可能存在的安全漏洞。
  • Method: 提出一种新型攻击方法,通过向蒸馏数据集中注入带有后门触发器的对抗样本,悄无声息地破坏学生模型,同时保持教师模型的完整性。
  • Result: 实验证明该方法在各种数据集和攻击场景下具有鲁棒性、隐蔽性和高效性,成功揭示了知识蒸馏的潜在漏洞。
  • Conclusion: 研究揭示了知识蒸馏过程中未被认识到的安全风险,为未来研究如何防御后门攻击提供了方向。

[186] Optimizing Mouse Dynamics for User Authentication by Machine Learning: Addressing Data Sufficiency, Accuracy-Practicality Trade-off, and Model Performance Challenges

Yi Wang,Chengyv Wu,Yang Liao,Maowei You

Main category: cs.CR

TL;DR: 提出了一种基于鼠标动态的用户认证方法,通过统计方法和深度学习框架优化数据量和行为模式捕捉,显著提升了认证效率和准确性。

  • Motivation: 传统用户认证方法在可用性、成本和安全性方面存在局限,鼠标动态认证提供了一种低成本、非侵入且适应性强的解决方案。
  • Method: 使用高斯核密度估计和KL散度确定训练数据量,引入MAU优化行为表示,设计LT-AMouse框架结合1D-ResNet和GRU提取特征和建模时序依赖。
  • Result: 在Balabit和DFL数据集上显著减少数据量(DFL减少10倍),认证系统AUC达到98.52%(DFL)和94.65%(Balabit),超越现有最优性能。
  • Conclusion: 该方法有效解决了鼠标动态认证中的数据量和时序模式问题,显著提升了认证系统的性能和实用性。

[187] A Comprehensive Study of Exploitable Patterns in Smart Contracts: From Vulnerability to Defense

Yuchen Ding,Hongli Peng,Xiaoqi Li

Main category: cs.CR

TL;DR: 本文分析了以太坊智能合约中的两种关键安全漏洞(重入和整数溢出),探讨了其机制、攻击场景及应对措施。

  • Motivation: 随着区块链技术的快速发展,智能合约的安全性成为重要挑战,漏洞可能导致严重的经济损失和生态风险。
  • Method: 通过分析Solidity编写的智能合约在EVM上的执行机制,复现攻击场景并评估有效对策。
  • Result: 揭示了重入和整数溢出漏洞的机制及其对智能合约安全的影响。
  • Conclusion: 提出了针对这两种漏洞的有效防护措施,强调了智能合约安全的重要性。

[188] XBreaking: Explainable Artificial Intelligence for Jailbreaking LLMs

Marco Arazzi,Vignesh Kumar Kembu,Antonino Nocera,Vinod P

Main category: cs.CR

TL;DR: 论文提出了一种基于可解释AI的LLM Jailbreaking攻击方法XBreaking,通过分析审查机制的行为模式,设计针对性攻击,实验验证了其有效性。

  • Motivation: 大型语言模型(LLMs)在关键应用场景中的安全性问题阻碍了其可靠采用,现有审查机制可能被绕过,因此需要更深入理解并设计针对性攻击方法。
  • Method: 提出XBreaking攻击,利用可解释AI分析审查与未审查模型的行为差异,提取可攻击的对齐模式,并通过定向噪声注入突破安全约束。
  • Result: 实验表明XBreaking能有效绕过LLMs的审查机制,并提供了对审查机制的新见解。
  • Conclusion: XBreaking是一种高效且针对性的LLM Jailbreaking攻击方法,揭示了审查机制的潜在漏洞。

上次更新于: