以下论文的arXiv类型标签包含:cs.CV、cs.AI
cs.CV
[1] Audio and Multiscale Visual Cues Driven Cross-modal Transformer for Idling Vehicle Detection
Xiwen Li,Ross Whitaker,Tolga Tasdizen
Main category: cs.CV
TL;DR: AVIVDNetv2是一种基于Transformer的端到端检测网络,通过跨模态Transformer和多尺度视觉特征融合模块,显著提升了闲置车辆检测的性能。
- Motivation: 解决现有方法在音频和视觉模态对齐上的不足,提升闲置车辆检测的准确率。
- Method: 提出AVIVDNetv2,结合跨模态Transformer、多尺度视觉特征融合模块和解耦检测头。
- Result: mAP提升7.66(相对于基线)和9.42(相对于端到端基线),在所有车辆类别中表现一致优异。
- Conclusion: AVIVDNetv2在AVIVD数据集上实现了新的性能标杆,优于现有方法。
[2] Shape Your Ground: Refining Road Surfaces Beyond Planar Representations
Oussema Dhaouadi,Johannes Meier,Jacques Kaiser,Daniel Cremers
Main category: cs.CV
TL;DR: FlexRoad是一个通过NURBS曲面拟合3D道路点的框架,显著减少表面粗糙度和拟合误差,优于现有方法。
- Motivation: 现有道路重建方法常产生伪影和不一致,影响可用性,而下游任务常简化道路为平面,牺牲准确性。
- Method: FlexRoad利用ECSRC算法进行异常校正,并拟合NURBS曲面到3D道路点。
- Result: 在GeRoD和DSC3D数据集上,FlexRoad在多种指标上优于常用方法,且对输入源、地形和噪声类型不敏感。
- Conclusion: FlexRoad是一种通用的高质量道路表面建模方法,通过消融研究验证了各组件的关键作用。
[3] Persistence-based Hough Transform for Line Detection
Johannes Ferner,Stefan Huber,Saverio Messineo,Angel Pop,Martin Uray
Main category: cs.CV
TL;DR: 论文提出了一种基于持久同调的新投票技术,用于改进霍夫变换中的峰值检测,显著优于传统方法并增强鲁棒性。
- Motivation: 传统霍夫变换通过阈值投票检测线条,易受噪声影响。本文旨在解决这一局限性。
- Method: 采用持久同调技术替代简单阈值投票,以更自然地检测霍夫空间中的峰值。
- Result: 在合成数据上的实验表明,新方法显著优于原始方法,且鲁棒性更强。
- Conclusion: 本文展示了拓扑数据分析技术的潜力,并呼吁将其更广泛地整合到现有方法中,同时探讨霍夫变换的数学稳定性。
[4] Context-Awareness and Interpretability of Rare Occurrences for Discovery and Formalization of Critical Failure Modes
Sridevi Polavaram,Xin Zhou,Meenu Ravi,Mohammad Zarei,Anmol Srivastava
Main category: cs.CV
TL;DR: CAIRO框架通过结合人类参与和知识图谱,检测和形式化AI模型中的罕见故障案例,提升自动驾驶系统的安全性和可解释性。
- Motivation: 视觉系统在关键领域(如监控、执法和交通)的应用日益广泛,但其对罕见或未知场景的脆弱性带来重大安全风险。
- Method: 提出CAIRO框架,基于本体论和人类辅助发现,检测和形式化AI模型中的关键现象(CP),包括误检测、对抗攻击和幻觉。
- Result: 在自动驾驶系统中,CAIRO展示了可扩展且可解释的方法,将摄像头感知与现实场景的差距形式化为知识图谱(OWL/XML格式)。
- Conclusion: CAIRO通过人类参与和知识图谱,为AI模型的故障检测和形式化提供了可共享、可分析的解决方案,增强了安全性和问责性。
[5] MonoTher-Depth: Enhancing Thermal Depth Estimation via Confidence-Aware Distillation
Xingxing Zuo,Nikhil Ranganathan,Connor Lee,Georgia Gkioxari,Soon-Jo Chung
Main category: cs.CV
TL;DR: 论文提出了一种通过知识蒸馏从RGB模型增强热图像单目深度估计(MDE)的方法,显著提升了模型在新场景中的准确性。
- Motivation: 热图像MDE在恶劣条件下(如雾、烟、低光)对机器人系统至关重要,但缺乏标记数据限制了其泛化能力。
- Method: 采用置信感知蒸馏方法,利用RGB MDE模型的预测置信度选择性增强热MDE模型。
- Result: 实验表明,该方法在无标记深度数据的新场景中,将热MDE的相对绝对误差降低了22.88%。
- Conclusion: 该方法显著提升了热MDE的准确性,且不依赖标记深度数据,扩展了其应用范围。
[6] Hybrid Knowledge Transfer through Attention and Logit Distillation for On-Device Vision Systems in Agricultural IoT
Stanley Mugisha,Rashid Kisitu,Florence Tushabe
Main category: cs.CV
TL;DR: 论文提出了一种混合知识蒸馏框架,将Swin Transformer的高精度与MobileNetV3的高效性结合,以在资源受限的边缘设备上实现实时植物病害检测。
- Motivation: 农业物联网系统中,Vision Transformers(ViTs)的高精度与边缘设备的效率需求之间存在矛盾。Swin Transformers计算复杂,而轻量级模型如MobileNetV3缺乏空间推理能力。
- Method: 提出混合知识蒸馏框架,通过自适应注意力对齐和双损失函数,将Swin Transformer的知识迁移到MobileNetV3中。
- Result: 在lantVillage-Tomato数据集上,蒸馏后的MobileNetV3达到92.4%的准确率,计算量减少95%,推理延迟降低82%。
- Conclusion: 该方法实现了边缘设备上的实时高效作物监测,展示了ViT级诊断精度的可行性。
[7] Multimodal Large Language Models for Enhanced Traffic Safety: A Comprehensive Review and Future Trends
Mohammad Abu Tami,Mohammed Elhenawy,Huthaifa I. Ashqar
Main category: cs.CV
TL;DR: 本文探讨了多模态大语言模型(MLLMs)在提升交通安全性中的潜力,通过整合多模态数据实现全面场景理解,弥补传统ADAS的不足。
- Motivation: 传统ADAS在动态现实场景中表现不佳,亟需更先进的解决方案。
- Method: 分析MLLM方法,整合视觉、空间和环境数据,提升感知、决策和对抗鲁棒性。
- Result: MLLMs能显著提升交通安全性,支持实时边缘部署和因果推理。
- Conclusion: MLLMs有望成为下一代交通安全系统的核心,提供可扩展的、上下文感知的解决方案。
[8] Progressive Language-guided Visual Learning for Multi-Task Visual Grounding
Jingchao Wang,Hong Wang,Wenlong Zhang,Kunhua Ji,Dingjiang Huang,Yefeng Zheng
Main category: cs.CV
TL;DR: PLVL框架通过渐进式语言引导视觉学习,解决了多任务视觉定位中语言信息未充分注入视觉特征及子任务关系未有效利用的问题,无需额外跨模态融合模块,显著提升了性能。
- Motivation: 现有方法在语言信息注入视觉特征和子任务协作预测方面存在不足,限制了多任务视觉定位的性能。
- Method: 提出PLVL框架,渐进式注入语言信息并设计多任务头实现REC和RES的协作预测。
- Result: 在多个基准数据集上,PLVL显著优于现有方法。
- Conclusion: PLVL通过语言引导和多任务协作,有效提升了多任务视觉定位的性能。
[9] Classification of Firn Data via Topological Features
Sarah Day,Jesse Dimino,Matt Jester,Kaitlin Keegan,Thomas Weighill
Main category: cs.CV
TL;DR: 论文评估了拓扑特征在雪粒图像数据分类中的性能,探讨了拓扑特征化的优势、局限性和权衡。
- Motivation: 研究雪粒(firn)的压缩过程如何通过深度影响其拓扑和几何结构,并探索拓扑数据分析(TDA)在此过程中的适用性。
- Method: 使用两类拓扑特征(子水平集特征和距离变换特征)及持久曲线,从微CT图像预测样本深度。
- Result: 不同训练-测试场景显示,没有单一方法在所有类别中占优,揭示了准确性、可解释性和泛化性之间的复杂权衡。
- Conclusion: 拓扑特征在雪粒图像分类中具有潜力,但需根据具体需求权衡不同方法的优缺点。
[10] A detection-task-specific deep-learning method to improve the quality of sparse-view myocardial perfusion SPECT images
Zezhang Yang,Zitong Yu,Nuri Choi,Abhinav K. Jha
Main category: cs.CV
TL;DR: 提出了一种基于深度学习的稀疏视角心肌灌注成像方法,显著提高了灌注缺陷检测的准确性,并缩短了扫描时间。
- Motivation: 传统SPECT成像扫描时间长,可能导致患者不适和诊断误差,减少投影角度虽能缩短时间但会降低图像质量。
- Method: 提出了一种检测任务特定的深度学习方法,结合观察者损失项以优化灌注缺陷检测性能。
- Result: 在检测心肌灌注缺陷任务中,该方法显著提高了AUC值,并能恢复左心室壁结构。
- Conclusion: 初步结果表明该方法有效,值得进一步评估。
[11] CLIP-IT: CLIP-based Pairing for Histology Images Classification
Banafsheh Karimian,Giulia Avanzato,Soufian Belharbi,Luke McCaffrey,Mohammadhadi Shateri,Eric Granger
Main category: cs.CV
TL;DR: CLIP-IT方法通过外部文本信息增强单模态图像分类器,减少对大规模配对数据的需求,提升癌症检测性能。
- Motivation: 多模态学习在医学图像分析中潜力巨大,但需要大量配对数据,存在隐私和成本问题。
- Method: 利用CLIP模型匹配图像与外部文本,构建增强数据集;通过知识蒸馏将文本信息融入图像分类器。
- Result: 在PCAM、CRC和BACH数据集上,CLIP-IT优于单模态分类器。
- Conclusion: CLIP-IT提供了一种高效利用外部文本信息的方法,降低了数据需求。
[12] DeepCS-TRD, a Deep Learning-based Cross-Section Tree Ring Detector
Henry Marichal,Verónica Casaravilla,Candice Power,Karolain Mello,Joaquín Mazarino,Christine Lucas,Ludmila Profumo,Diego Passarella,Gregory Randall
Main category: cs.CV
TL;DR: Deep CS-TRD是一种基于深度学习的自动检测树木年轮的新算法,适用于多种图像类型和树种。
- Motivation: 传统方法在检测不同图像类型和树种的年轮时存在局限性,因此需要一种更通用的解决方案。
- Method: 用U-Net替换CS-TRD的边缘检测步骤,适用于显微镜、扫描仪或智能手机获取的图像,并测试了三种树种。
- Result: 在宏观图像(Pinus taeda和Gleditsia triacanthos)上表现优于现有方法,但在显微镜图像(Salix glauca)上稍逊。
- Conclusion: Deep CS-TRD是首个针对多种树种和采集条件进行自动年轮检测的研究,数据集和源代码已公开。
[13] Naturally Computed Scale Invariance in the Residual Stream of ResNet18
André Longon
Main category: cs.CV
TL;DR: 论文研究了ResNet18中的残差流如何通过尺度等变表示的元素级残差求和实现尺度不变性,并探讨了其在行为中的作用。
- Motivation: 探索神经网络如何实现视觉对象识别中对图像变换(如光照、旋转和尺度)的不变性,尤其是不同架构网络(如ResNet18)中未被充分研究的残差流。
- Method: 通过分析ResNet18的中间块卷积通道,观察其尺度不变性,并通过消融实验验证这些神经特性与尺度鲁棒对象识别行为的因果关系。
- Result: 发现许多中间块卷积通道通过尺度等变表示的元素级残差求和表现出尺度不变性,初步揭示了残差流在计算尺度不变性中的作用。
- Conclusion: 残差流可能是ResNet18实现尺度不变性的关键机制,为理解神经网络的行为提供了新视角。
[14] MetaHarm: Harmful YouTube Video Dataset Annotated by Domain Experts, GPT-4-Turbo, and Crowdworkers
Wonjeong Jo,Magdalena Wojcieszak
Main category: cs.CV
TL;DR: 论文提出了两个大规模数据集,用于测量和分类短视频平台上的有害内容,并通过专家、AI和众包标注提供多模态、多类别的标注数据。
- Motivation: 短视频平台上的有害内容缺乏全面理解和测量,研究旨在填补这一空白。
- Method: 构建了两个数据集:一个包含60,906个潜在有害视频,另一个包含19,422个由专家、GPT-4-Turbo和众包标注的视频,涵盖六类有害内容。
- Result: 提供了多模态标注数据集,支持未来有害内容分类和缓解研究。
- Conclusion: 这些数据集将促进短视频平台有害内容的识别和缓解工作。
[15] SignX: The Foundation Model for Sign Recognition
Sen Fang,Chunyu Sui,Hongwei Yi,Carol Neidle,Dimitris N. Metaxas
Main category: cs.CV
TL;DR: SignX是一个用于手语识别的框架,通过两阶段训练(Pose2Gloss和Video2Pose)实现高精度识别。
- Motivation: 手语数据处理复杂,现有方法依赖RGB视频和姿势信息转换为英文ID gloss,但缺乏统一的gloss约定。
- Method: 提出SignX框架,包含基于逆扩散模型的Pose2Gloss和基于ViT的Video2Pose模块,整合多种姿势信息来源。
- Result: 实验显示SignX在手语视频识别中比现有方法更准确。
- Conclusion: SignX为手语识别提供了兼容现有姿势格式的通用框架。
[16] Almost Right: Making First-layer Kernels Nearly Orthogonal Improves Model Generalization
Colton R. Crum,Adam Czajka
Main category: cs.CV
TL;DR: 提出一种新的损失组件,通过正则化第一卷积层的滤波核使其接近正交,提高模型泛化能力,优于现有方法。
- Motivation: 提高模型泛化能力,受人类感知智能启发,尝试通过正交化滤波核改进性能。
- Method: 提出一种灵活的损失组件,允许网络自主选择正交化的核对,避免严格限制。
- Result: 在三种架构和两个开放集识别任务中,泛化性能显著提升。
- Conclusion: 该方法无需修改架构即可显著提高泛化性能,优于现有正交化和显著性正则化方法。
[17] CLPSTNet: A Progressive Multi-Scale Convolutional Steganography Model Integrating Curriculum Learning
Fengchun Liu,Tong Zhang,Chunying Zhang
Main category: cs.CV
TL;DR: 提出了一种基于课程学习的渐进式多尺度卷积网络(CLPSTNet),用于解决CNN在图像隐写术中的不可见性和安全性问题。
- Motivation: 传统隐写术方法依赖手工特征和先验知识设计,而CNN在图像隐写术中的应用仍面临不可见性和安全性挑战。
- Method: CLPSTNet采用渐进式多尺度卷积模块,结合Inception结构和空洞卷积,从浅到深、从细到粗提取多尺度特征。
- Result: 在ALASKA2、VOC2012和ImageNet数据集上,CLPSTNet表现出高PSNR、SSIM和解码精度,且生成的隐写图像具有低隐写分析分数。
- Conclusion: CLPSTNet有效提升了图像隐写术的性能和安全性。
[18] Revisiting Radar Camera Alignment by Contrastive Learning for 3D Object Detection
Linhua Kong,Dongxia Chang,Lian Liu,Zisen Kong,Pengyuan Li,Yao Zhao
Main category: cs.CV
TL;DR: 提出了一种名为RCAlign的新对齐模型,通过双路径对齐模块和雷达特征增强模块,解决了雷达与相机特征对齐问题,并在nuScenes基准测试中取得了最佳性能。
- Motivation: 现有方法在处理雷达与相机特征对齐时,忽视了模态间特征交互或未能有效对齐跨模态空间特征。
- Method: 设计了基于对比学习的双路径对齐模块(DRA)和雷达特征增强模块(RFE),以提升特征对齐和融合效果。
- Result: 在nuScenes基准测试中取得了最新最佳性能,实时3D检测性能显著提升(4.3% NDS和8.4% mAP)。
- Conclusion: RCAlign通过改进特征对齐和融合,显著提升了雷达与相机融合的3D目标检测性能。
[19] SaENeRF: Suppressing Artifacts in Event-based Neural Radiance Fields
Yuanjian Wang,Yufei Deng,Rong Xiao,Jiahao Fan,Chenwei Tang,Deng Xiong,Jiancheng Lv
Main category: cs.CV
TL;DR: 提出了一种名为SaENeRF的自监督框架,用于从事件流中重建高质量3D场景,显著减少伪影并提升重建质量。
- Motivation: 事件相机在高速场景中具有优势,但现有方法在重建3D场景时存在伪影和噪声问题。
- Method: 通过归一化预测的辐射变化和引入正则化损失,抑制伪影并提升重建质量。
- Result: 实验表明,SaENeRF显著减少伪影,重建质量优于现有方法。
- Conclusion: SaENeRF为事件相机的高质量3D重建提供了一种有效解决方案。
[20] Assessing the Feasibility of Internet-Sourced Video for Automatic Cattle Lameness Detection
Md Fahimuzzman Sohan
Main category: cs.CV
TL;DR: 该研究提出了一种基于深度学习的模型,用于通过视频数据检测牛的跛行或步态异常,3D CNN模型表现最佳,准确率达90%。
- Motivation: 牛的跛行常由蹄部损伤或趾间皮炎引起,影响其行走、进食等生理活动,亟需一种高效检测方法。
- Method: 使用公开视频数据,包含50个视频(40头牛),分为正常和跛行两类。通过数据增强提升模型鲁棒性,并比较了ConvLSTM2D和3D CNN两种深度学习模型的分类效果。
- Result: 3D CNN模型表现最佳,视频分类准确率90%,精确率、召回率和F1分数均为90.9%;ConvLSTM2D模型准确率85%。
- Conclusion: 研究表明,3D CNN能有效分类牛跛行,简化了传统多阶段处理流程,为直接学习时空特征提供了新思路。
[21] PixelWeb: The First Web GUI Dataset with Pixel-Wise Labels
Qi Yang,Weichen Bi,Haiyang Shen,Yaoqi Guo,Yun Ma
Main category: cs.CV
TL;DR: PixelWeb是一个大规模GUI数据集,通过结合视觉特征提取和DOM结构分析,提供高质量的BBox注释,显著提升了GUI元素检测任务的性能。
- Motivation: 现有GUI数据集通过自动标注生成的BBox注释不准确(如缺失、重复或无意义),且仅提供视觉BBox注释,限制了视觉相关下游任务的发展。
- Method: 采用通道派生和层次分析两个核心模块,结合BGRA四通道位图注释和DOM结构分析,生成精确的BBox注释。
- Result: 在GUI元素检测任务中,PixelWeb的mAP95指标比现有数据集高3-7倍。
- Conclusion: PixelWeb为GUI生成和自动化用户交互等下游任务提供了性能改进的潜力。
[22] FrogDogNet: Fourier frequency Retained visual prompt Output Guidance for Domain Generalization of CLIP in Remote Sensing
Hariseetharam Gunduboina,Muhammad Haris Khan,Biplab Banerjee
Main category: cs.CV
TL;DR: FrogDogNet是一种新颖的提示学习框架,结合傅里叶频率过滤和自注意力机制,用于提升遥感场景分类和领域泛化能力。
- Motivation: 大规模视觉语言模型(如CLIP)在通用计算机视觉任务中表现优异,但在遥感领域的领域泛化潜力尚未充分探索。现有方法依赖全图像特征,引入噪声和背景干扰,导致分类错误。
- Method: FrogDogNet通过傅里叶频率过滤和自注意力机制,选择性保留不变的低频成分,消除噪声和无关背景,提取关键特征用于提示学习。
- Result: 在四个遥感数据集和三个领域泛化任务上的实验表明,FrogDogNet显著优于现有提示学习方法,表现出更强的跨领域适应能力。
- Conclusion: 频率不变特征保留在领域泛化中具有显著效果,为更广泛应用铺平了道路。
[23] Marginalized Generalized IoU (MGIoU): A Unified Objective Function for Optimizing Any Convex Parametric Shapes
Duy-Tho Le,Trung Pham,Jianfei Cai,Hamid Rezatofighi
Main category: cs.CV
TL;DR: 论文提出了一种新的损失函数MGIoU和MGIoU+,用于统一参数化形状优化的目标函数,解决了现有方法的不足,并在实验中表现出色。
- Motivation: 现有优化方法在参数化形状相似性优化中存在显著缺陷,如回归损失与IoU不相关,IoU损失不稳定且仅适用于简单形状,任务特定方法计算量大且不通用。
- Method: 通过将结构化凸形状投影到其独特形状法线上,计算一维归一化GIoU,提出MGIoU和MGIoU+,支持优化非结构化凸形状。
- Result: 实验表明,MGIoU和MGIoU+在标准基准测试中表现优于现有损失函数,计算延迟减少10-40倍,且满足度量性质和尺度不变性。
- Conclusion: MGIoU和MGIoU+统一了参数化形状优化,适用于多种应用,并进一步提出MGIoU-用于最小化重叠任务。
[24] Cross Paradigm Representation and Alignment Transformer for Image Deraining
Shun Zou,Yi Zou,Juncheng Li,Guangwei Gao,Guojun Qi
Main category: cs.CV
TL;DR: 提出了一种名为CPRAformer的新型Transformer框架,通过整合全局-局部和空间-通道表示,解决了图像去雨任务中不规则雨纹和复杂几何重叠的挑战。
- Motivation: 现有单范式架构难以处理不规则雨纹和复杂几何重叠,需要统一框架整合互补的全局-局部和空间-通道表示。
- Method: 提出CPRAformer,采用稀疏提示通道自注意力(SPC-SA)和空间像素细化自注意力(SPR-SA),并通过自适应对齐频率模块(AAFM)实现特征对齐和交互。
- Result: 在八个基准数据集上实现了最先进的性能,并在其他图像修复任务中验证了其鲁棒性。
- Conclusion: CPRAformer通过跨范式的动态交互框架,有效提取和融合互补信息,显著提升了图像去雨任务的性能。
[25] MTSGL: Multi-Task Structure Guided Learning for Robust and Interpretable SAR Aircraft Recognition
Qishan He,Lingjun Zhao,Ru Luo,Siqian Zhang,Lin Lei,Kefeng Ji,Gangyao Kuang
Main category: cs.CV
TL;DR: 论文提出了一种基于结构的多任务学习网络(MTSGL),用于SAR图像中的飞机识别,结合结构语义和几何一致性提升模型的鲁棒性和可解释性。
- Motivation: 当前SAR图像飞机识别算法缺乏对飞机结构知识的深入理解,而光学遥感图像的精细标注方法为SAR图像提供了启发。
- Method: 引入结构化的SAR飞机标注方法,并提出MTSGL网络,包含分类任务、结构语义感知模块(SSA)和结构一致性正则化模块(SCR)。
- Result: 在自建数据集MT-SARD上实验表明,MTSGL在鲁棒性和可解释性方面表现优越。
- Conclusion: MTSGL通过结合专家级先验知识和结构引导学习,实现了类似人类认知的飞机识别。
[26] RGB-D Video Object Segmentation via Enhanced Multi-store Feature Memory
Boyue Xu,Ruichao Hou,Tongwei Ren,Gangshan Wu
Main category: cs.CV
TL;DR: 提出了一种基于多存储特征记忆的RGB-D视频对象分割方法,通过自适应模态融合和SAM细化模块提升分割性能。
- Motivation: 现有RGB-D分割方法未能充分利用跨模态信息且存在长期预测中的对象漂移问题。
- Method: 设计了分层模态选择与融合机制,结合SAM细化模块,利用时空和模态嵌入生成混合提示和融合图像。
- Result: 在最新RGB-D VOS基准测试中达到最优性能。
- Conclusion: 该方法通过多模态特征融合和SAM细化,显著提升了RGB-D视频对象分割的鲁棒性和准确性。
[27] Rethinking Generalizable Infrared Small Target Detection: A Real-scene Benchmark and Cross-view Representation Learning
Yahao Lu,Yuehui Li,Xingyuan Guo,Shuai Yuan,Yukai Shi,Liang Lin
Main category: cs.CV
TL;DR: 本文提出了一种基于域适应的红外小目标检测框架,通过跨视图通道对齐和噪声引导表示学习提升模型泛化能力,并在新数据集上验证了其优越性能。
- Motivation: 红外小目标检测受传感器类型、观测条件和目标特性的影响,导致数据分布差异(域偏移),限制了模型的跨场景泛化能力。
- Method: 提出跨视图通道对齐(CCA)和跨视图Top-K融合策略,结合噪声引导表示学习,减少噪声影响并提升特征提取能力。
- Result: 在新数据集RealScene-ISTD上,模型在检测概率(Pd)、误报率(Fa)和交并比(IoU)上优于现有方法。
- Conclusion: 该框架通过域适应和噪声处理显著提升了红外小目标检测的泛化能力和性能。
[28] PRaDA: Projective Radial Distortion Averaging
Daniil Sinitsyn,Linus Härenstam-Nielsen,Daniel Cremers
Main category: cs.CV
TL;DR: 提出了一种在投影空间中解耦径向畸变校准与3D重建的方法,避免了传统方法的复杂性。
- Motivation: 解决在挑战性条件下自动校准径向畸变相机的问题,避免传统方法中对大量图像或学习方法的依赖。
- Method: 在投影空间中工作,利用同态性封装除畸变外的所有相机参数,提出投影径向畸变平均方法,无需3D点或完整捆绑调整。
- Result: 方法保持了基于SfM的精度,同时避免了其复杂性,支持任何特征匹配方法。
- Conclusion: 投影径向畸变平均方法提供了一种高效且准确的径向畸变校准方案。
[29] TraveLLaMA: Facilitating Multi-modal Large Language Models to Understand Urban Scenes and Provide Travel Assistance
Meng Chu,Yukang Chen,Haokun Gui,Shaozuo Yu,Yi Wang,Jiaya Jia
Main category: cs.CV
TL;DR: TraveLLaMA是一个专为城市场景理解和旅行辅助设计的多模态语言模型,通过大规模数据集和微调实验显著提升了旅行相关任务的性能。
- Motivation: 现有AI系统缺乏对城市环境的专业知识和上下文理解,无法满足旅行规划的需求。
- Method: 利用220k问答对数据集(130k文本QA和90k视觉QA),对先进视觉语言模型进行微调。
- Result: 性能提升6.5%-9.4%,在旅行推荐、地图理解和场景解读方面表现优异。
- Conclusion: TraveLLaMA在旅行特定任务中优于通用模型,为多模态旅行辅助系统设定了新基准。
[30] Federated Learning of Low-Rank One-Shot Image Detection Models in Edge Devices with Scalable Accuracy and Compute Complexity
Abdul Hannaan,Zubair Shah,Aiman Erbad,Amr Mohamed,Ali Safa
Main category: cs.CV
TL;DR: LoRa-FL是一种新颖的联邦学习框架,用于在边缘设备上训练低秩单次图像检测模型,显著降低计算和通信开销,同时保持可扩展的准确性。
- Motivation: 解决边缘设备资源受限的问题,通过低秩适应技术和联邦学习,实现轻量级图像识别模型的协作训练和高效部署。
- Method: 将低秩适应技术融入单次检测架构,结合联邦学习,训练轻量级模型,并在MNIST和CIFAR10数据集上进行实验验证。
- Result: 在IID和非IID设置下,LoRa-FL在保持竞争力的检测性能的同时,显著降低了通信带宽和计算复杂度。
- Conclusion: LoRa-FL是一种有前景的解决方案,能够自适应地减少通信和计算开销,同时不牺牲模型准确性。
[31] Think Hierarchically, Act Dynamically: Hierarchical Multi-modal Fusion and Reasoning for Vision-and-Language Navigation
Junrong Yue,Yifan Zhang,Chuan Qin,Bo Li,Xiaomin Lie,Xinlei Yu,Wenxin Zhang,Zhendong Zhao
Main category: cs.CV
TL;DR: 本文提出了一种多级融合与推理架构(MFRA),通过整合多模态特征(从低级视觉线索到高级语义概念)和推理模块,提升了视觉与语言导航(VLN)任务中代理的导航准确性。
- Motivation: 现有方法依赖全局场景表示或对象级特征,难以捕捉跨模态的复杂交互,限制了导航准确性。
- Method: MFRA采用分层融合机制整合多级特征,并通过推理模块利用指令引导的注意力和动态上下文集成推断导航动作。
- Result: 在REVERIE、R2R和SOON等基准数据集上,MFRA优于现有方法,验证了多级模态融合的有效性。
- Conclusion: MFRA通过多级模态融合和推理显著提升了VLN任务的性能,为复杂导航场景提供了更优的解决方案。
[32] A Few-Shot Metric Learning Method with Dual-Channel Attention for Cross-Modal Same-Neuron Identification
Wenwei Li,Liyi Cai,Wu Chen,Anan Li
Main category: cs.CV
TL;DR: 提出了一种基于双通道注意力机制和预训练视觉变换器的少样本度量学习方法,用于跨模态神经元识别,实验证明其优于现有方法。
- Motivation: 在神经科学研究中,跨模态单神经元匹配对理解神经元结构与功能关系至关重要,但模态差异和有限标注带来挑战。
- Method: 采用双通道注意力机制(局部和全局通道)提取神经元形态和纤维上下文,结合门控机制融合输出;引入基于MultiSimilarityMiner的难样本挖掘策略和Circle Loss函数。
- Result: 在双光子和fMOST数据集上表现出更高的Top-K准确率和召回率,消融实验和t-SNE可视化验证了各模块有效性。
- Conclusion: 该方法为单细胞水平匹配和多模态神经影像整合提供了有前景的技术方案。
[33] Streetscape Analysis with Generative AI (SAGAI): Vision-Language Assessment and Mapping of Urban Scenes
Joan Perez,Giovanni Fusco
Main category: cs.CV
TL;DR: SAGAI是一个基于生成式人工智能的模块化工作流,用于评估街道景观,结合开放数据和视觉语言模型,支持可扩展的城市场景分析。
- Motivation: 现有街道景观评估方法局限于形态测量或需要大量人工定性分析,SAGAI旨在提供一种高效、可扩展的替代方案。
- Method: SAGAI整合OpenStreetMap、Google街景和轻量级LLaVA模型,通过自然语言提示生成结构化空间指标,并支持自动地图绘制。
- Result: 案例研究表明,SAGAI在城乡分类和商业特征检测中表现良好,但在人行道宽度估计上精度较低。
- Conclusion: SAGAI无需特定训练或专有软件,可通过修改提示适应多种城市研究主题,如步行友好性或安全性。
[34] ToF-Splatting: Dense SLAM using Sparse Time-of-Flight Depth and Multi-Frame Integration
Andrea Conti,Matteo Poggi,Valerio Cambareri,Martin R. Oswald,Stefano Mattoccia
Main category: cs.CV
TL;DR: 提出了一种基于3D高斯分布的SLAM方法ToF-Splatting,用于处理极稀疏的ToF深度数据,通过多帧整合模块生成密集深度图。
- Motivation: 解决极稀疏ToF深度数据在SLAM中应用受限的问题。
- Method: 结合极稀疏ToF深度、单目彩色和多视角几何信息,通过多帧整合模块生成密集深度图。
- Result: 在合成和真实稀疏ToF数据集上表现优异,达到最先进的跟踪和建图性能。
- Conclusion: ToF-Splatting为极稀疏ToF数据的SLAM应用提供了可行方案。
[35] Beyond Anonymization: Object Scrubbing for Privacy-Preserving 2D and 3D Vision Tasks
Murat Bilgehan Ertan,Ronak Sahu,Phuong Ha Nguyen,Kaleel Mahmood,Marten van Dijk
Main category: cs.CV
TL;DR: ROAR是一种隐私保护的数据模糊化框架,通过移除而非修改敏感对象,结合实例分割和生成修复技术,在保持场景完整性的同时消除可识别实体。
- Motivation: 解决隐私保护数据模糊化中因修改敏感对象导致的场景完整性和数据集效用下降问题。
- Method: 集成实例分割与生成修复技术,移除敏感对象并保持场景完整性。
- Result: 在2D COCO数据集上达到基线检测AP的87.5%,3D重建中PSNR损失最多1.66 dB,同时保持SSIM和提升LPIPS。
- Conclusion: ROAR证明了对象移除是一种有效的隐私保护框架,在保持性能的同时提供强隐私保障,为隐私保护视觉系统奠定基础。
[36] SAIP-Net: Enhancing Remote Sensing Image Segmentation via Spectral Adaptive Information Propagation
Zhongtao Wang,Xizhe Cao,Yisong Chen,Guoping Wang
Main category: cs.CV
TL;DR: SAIP-Net通过频域自适应信息传播,解决了遥感图像语义分割中的空间边界和类内一致性问题。
- Motivation: 传统分层模型在遥感图像分割中难以满足精确空间边界和类内一致性的需求。
- Method: 提出SAIP-Net,结合自适应频率滤波和多尺度感受野增强,优化特征融合和边界清晰度。
- Result: 实验表明,SAIP-Net显著优于现有方法,验证了频域自适应策略的有效性。
- Conclusion: 频域自适应策略与扩展感受野结合,显著提升了遥感图像分割性能。
[37] CountingDINO: A Training-free Pipeline for Class-Agnostic Counting using Unsupervised Backbones
Giacomo Pacini,Lorenzo Bianchi,Luca Ciampi,Nicola Messina,Giuseppe Amato,Fabrizio Falchi
Main category: cs.CV
TL;DR: CountingDINO提出了一种无需训练的类别无关计数(CAC)框架,利用自监督特征提取器,无需标注数据即可实现高效计数。
- Motivation: 当前基于示例的CAC方法虽灵活,但依赖标注数据训练,限制了其扩展性和泛化能力。
- Method: 使用自监督视觉主干提取对象感知特征,通过ROI-Align提取潜在对象原型作为卷积核生成相似性图,再转换为密度图。
- Result: 在FSC-147基准测试中优于无监督基线,与依赖监督主干的无训练方法及部分全监督方法表现相当或更优。
- Conclusion: 证明了无需训练的CAC方法既具有扩展性又具备竞争力。
[38] JEPA for RL: Investigating Joint-Embedding Predictive Architectures for Reinforcement Learning
Tristan Kenneweg,Philip Kenneweg,Barbara Hammer
Main category: cs.CV
TL;DR: 本文探讨了如何将JEPA架构应用于基于图像的强化学习,解决了模型崩溃问题,并在Cart Pole任务中展示了示例数据。
- Motivation: JEPA架构在自监督学习中表现出色,但在强化学习中的应用尚未充分探索,本文旨在填补这一空白。
- Method: 将JEPA架构适配于强化学习,提出防止模型崩溃的方法,并在Cart Pole任务中验证。
- Result: 成功将JEPA应用于强化学习,解决了模型崩溃问题,并在示例任务中展示了有效性。
- Conclusion: JEPA架构在强化学习中具有潜力,未来可进一步探索其应用。
[39] Federated EndoViT: Pretraining Vision Transformers via Federated Learning on Endoscopic Image Collections
Max Kirchner,Alexander C. Jenke,Sebastian Bodenstedt,Fiona R. Kolbinger,Oliver Saldanha,Jakob N. Kather,Martin Wagner,Stefanie Speidel
Main category: cs.CV
TL;DR: 该研究通过联邦学习训练基础模型,解决数据共享限制,并在微创手术中实现无需数据传输的协作模型训练。
- Motivation: 解决数据共享的隐私问题,同时支持多机构协作训练手术基础模型。
- Method: 基于EndoViT研究,改进Masked Autoencoder,结合自适应FedSAM和SWA,预训练于Endo700k数据集,并在下游任务中微调评估。
- Result: 自适应FedSAM提升了预训练效果,减少了重建损失;FL-EndoViT在手术任务中表现与CEN-EndoViT相当,且在数据有限时表现更优。
- Conclusion: 联邦学习为手术基础模型的隐私保护训练提供了可行方案,未来可探索视频模型以增强时空动态能力。
[40] EHGCN: Hierarchical Euclidean-Hyperbolic Fusion via Motion-Aware GCN for Hybrid Event Stream Perception
Haosheng Chen,Lian Luo,Mengjingcheng Mo,Zhanjie Wu,Guobao Xiao,Ji Gan,Jiaxu Leng,Xinbo Gao
Main category: cs.CV
TL;DR: EHGCN是一种新颖的图神经网络方法,结合欧几里得和双曲空间处理事件流,通过自适应采样和马尔可夫向量场驱动的超边生成,提升事件感知任务的效果。
- Motivation: 现有GNN方法在欧几里得空间中难以捕捉事件流的长程依赖和层次结构,需要一种更有效的混合空间感知方法。
- Method: 提出EHGCN,包含自适应采样策略、MVF驱动的超边生成方法,以及欧几里得-双曲GCN融合局部和全局信息。
- Result: 在物体检测和识别等任务中验证了方法的有效性。
- Conclusion: EHGCN通过混合空间建模显著提升了事件感知任务的性能。
[41] Dual-Camera All-in-Focus Neural Radiance Fields
Xianrui Luo,Zijin Wu,Juewen Peng,Huiqiang Sun,Zhiguo Cao,Guosheng Lin
Main category: cs.CV
TL;DR: 提出了首个无需手动对焦即可合成全聚焦神经辐射场(NeRF)的框架,利用智能手机的双摄像头(主摄和超广角)实现高质量全聚焦视图生成。
- Motivation: 现有NeRF方法因单一摄像头固定对焦导致模糊和缺乏清晰参考,无法实现全聚焦。
- Method: 通过双摄像头(主摄高分辨率、超广角大景深)的空间对齐和颜色匹配,结合可学习参数的离焦感知融合模块,预测离焦图并融合图像。
- Result: 在自建多视角数据集上验证,DC-NeRF能生成高质量全聚焦新视图,定量和定性优于基线。
- Conclusion: DC-NeRF不仅实现全聚焦,还支持景深调整应用(如重新对焦和分光镜效果)。
[42] RouteWinFormer: A Route-Window Transformer for Middle-range Attention in Image Restoration
Qifan Li,Tianyi Liang,Xingtao Wang,Xiaopeng Fan
Main category: cs.CV
TL;DR: RouteWinFormer是一种基于窗口的Transformer模型,通过动态选择邻近窗口进行注意力聚合,高效扩展感受野至中范围,适用于图像修复任务。
- Motivation: 传统的长范围注意力在图像修复中计算开销大且不必要,因为退化和上下文通常是局部的。研究表明中范围注意力已足够。
- Method: 提出RouteWinFormer,包含动态选择邻近窗口的Route-Windows Attention模块,并引入多尺度结构正则化训练方法。
- Result: 在9个数据集上的实验表明,RouteWinFormer在多种图像修复任务中优于现有方法。
- Conclusion: RouteWinFormer通过中范围注意力动态聚合和结构正则化,显著提升了图像修复的性能和效率。
[43] SSLR: A Semi-Supervised Learning Method for Isolated Sign Language Recognition
Hasan Algafri,Hamzah Luqman,Sarah Alyami,Issam Laradji
Main category: cs.CV
TL;DR: 论文提出了一种半监督学习方法(SSLR),用于解决手语识别(SLR)中标注数据稀缺的问题,通过伪标签方法标注未标记样本,并在WLASL-100数据集上表现优于全监督模型。
- Motivation: 手语是听力障碍人群的主要交流语言,但手语识别系统面临标注数据稀缺的挑战。
- Method: 采用半监督学习方法(SSL),利用伪标签标注未标记样本,并使用基于Transformer的模型处理骨骼关节点信息。
- Result: 在WLASL-100数据集上,SSL模型在标注数据较少的情况下,性能优于全监督模型。
- Conclusion: 半监督学习方法能有效解决手语识别中数据稀缺问题,并在减少标注数据需求的同时提升性能。
[44] WiFi based Human Fall and Activity Recognition using Transformer based Encoder Decoder and Graph Neural Networks
Younggeol Cho,Elisa Motta,Olivia Nocentini,Marta Lagomarsino,Andrea Merello,Marco Crepaldi,Arash Ajoudani
Main category: cs.CV
TL;DR: 本文提出了一种名为TED Net的新型架构,用于从WiFi CSI信号估计人体骨骼姿态,并结合DGNN进行动作识别,性能优于现有方法且适用于隐私敏感场景。
- Motivation: 人体姿态估计和动作识别在医疗监控、康复和辅助技术中具有重要作用。WiFi CSI信号提供了一种隐私保护的替代方案,避免了基于视觉的方法的隐私问题。
- Method: TED Net结合卷积编码器和基于Transformer的注意力机制,从CSI信号中提取时空特征。估计的骨骼姿态输入到定制的DGNN中进行动作识别。
- Result: 实验表明,TED Net在姿态估计上优于现有方法,DGNN的动作分类性能与基于RGB的系统相当,且在跌倒和非跌倒场景中表现稳健。
- Conclusion: WiFi CSI驱动的骨骼姿态估计在动作识别中具有潜力,特别适用于家庭环境中的隐私敏感应用,如老年人跌倒检测。
[45] Skywork R1V2: Multimodal Hybrid Reinforcement Learning for Reasoning
Chris,Yichen Wei,Yi Peng,Xiaokun Wang,Weijie Qiu,Wei Shen,Tianyidan Xie,Jiangbo Pei,Jianhao Zhang,Yunzhuo Hao,Xuchen Song,Yang Liu,Yahui Zhou
Main category: cs.CV
TL;DR: Skywork R1V2是一种新一代多模态推理模型,通过混合强化学习范式和选择性样本缓冲机制,显著提升了推理能力和泛化性能,并在多个基准测试中表现优异。
- Motivation: 解决传统模型在复杂推理能力和广泛泛化之间的平衡问题,同时应对训练中的优势消失和视觉幻觉问题。
- Method: 采用混合强化学习范式结合奖励模型指导和基于规则的策略,并引入选择性样本缓冲(SSB)机制优化训练过程。
- Result: 在多个基准测试中表现领先,如OlympiadBench 62.6、AIME2024 79.0、LiveCodeBench 63.6和MMMU 74.0。
- Conclusion: Skywork R1V2在性能和开源模型方面取得显著进步,缩小了与顶级专有系统的差距,并公开模型权重以促进开放性和可重复性。
[46] A Time Series Dataset of NIR Spectra and RGB and NIR-HSI Images of the Barley Germination Process
Ole-Christian Galbo Engstrøm,Erik Schou Dreier,Birthe Møller Jespersen,Kim Steenstrup Pedersen
Main category: cs.CV
TL;DR: 开源数据集包含2242个大麦籽粒的RGB和近红外高光谱图像,附带分割掩码和近红外光谱,用于研究发芽时间。
- Motivation: 提供高质量数据集,支持基于RGB、近红外光谱或高光谱图像的大麦籽粒发芽时间分析。
- Method: 每天采集大麦籽粒的RGB和近红外高光谱图像,使用黑色滤纸背景简化分割,标记发芽状态。
- Result: 数据集支持多种分析方法,包括RGB图像、近红外光谱和高光谱图像的时间序列分析。
- Conclusion: 该数据集为研究大麦籽粒发芽提供了多模态分析工具。
[47] A Diff-Attention Aware State Space Fusion Model for Remote Sensing Classification
Wenping Ma,Boyou Xue,Mengru Ma,Chuang Chen,Hekai Zhang,Hao Zhu
Main category: cs.CV
TL;DR: 提出了一种基于选择性状态空间模型的多模态遥感图像分类方法,通过设计跨模态差异注意力模块和注意力感知线性融合模块,有效分离和融合MS与PAN图像的共同特征和优势特征。
- Motivation: MS和PAN图像包含相似信息但各有优势,传统融合方法难以有效分离和整合这些特征,导致冗余。
- Method: 设计了跨模态差异注意力模块(CMDA-Module)分离特征,空间保留视觉Mamba(SPVM)捕获局部特征,注意力感知线性融合模块(AALF-Module)融合语义差异大的特征。
- Result: 实验表明,该方法优于其他替代方法。
- Conclusion: 提出的DAS2F-Model有效解决了多模态遥感图像分类中的特征分离和融合问题。
[48] SemanticSugarBeets: A Multi-Task Framework and Dataset for Inspecting Harvest and Storage Characteristics of Sugar Beets
Gerardus Croonen,Andreas Trondl,Julia Simon,Daniel Steininger
Main category: cs.CV
TL;DR: 论文提出了一种用于糖用甜菜检测、语义分割和质量估计的两阶段方法,并提供了一个高质量标注数据集。实验表明,该方法在检测和分割任务中表现优异。
- Motivation: 糖用甜菜在储存过程中因微生物等因素导致糖分损失,自动化视觉检测有助于提高糖生产链的效率和质量保证。
- Method: 提出了一个两阶段方法,结合检测、语义分割和质量估计,并评估了不同图像尺寸、模型架构和环境条件的影响。
- Result: 最佳检测模型的mAP50-95为98.8,最佳分割模型的mIoU为64.0。
- Conclusion: 该方法在糖用甜菜的自动化视觉检测中表现出高效性和准确性,有望提升糖生产链的效率。
[49] Energy-Based Pseudo-Label Refining for Source-free Domain Adaptation
Xinru Meng,Han Sun,Jiamei Liu,Ningzhong Liu,Huiyu Zhou
Main category: cs.CV
TL;DR: 提出了一种基于能量的伪标签细化方法(EBPR),用于无源域适应(SFDA),通过全局和类别能量阈值过滤伪标签,并结合对比学习策略提升性能。
- Motivation: 现有的SFDA方法依赖置信度生成的伪标签,噪声较大导致负迁移问题,需要更有效的方法。
- Method: 使用能量分数为样本聚类生成伪标签,计算全局和类别能量阈值筛选伪标签,并引入对比学习策略对齐困难样本。
- Result: 在Office-31、Office-Home和VisDA-C数据集上验证,性能优于现有方法。
- Conclusion: EBPR通过能量阈值和对比学习有效解决了SFDA中的伪标签噪声问题,提升了模型性能。
[50] PMG: Progressive Motion Generation via Sparse Anchor Postures Curriculum Learning
Yingjie Xi,Jian Jun Zhang,Xiaosong Yang
Main category: cs.CV
TL;DR: ProMoGen提出了一种结合轨迹引导和稀疏锚点控制的渐进式运动生成框架,通过解耦全局轨迹和精确动作指导,实现了更可控、高保真和复杂的运动合成。
- Motivation: 现有方法在生成符合用户意图的人类运动时存在局限性,如文本方法难以描述复杂动作,轨迹方法无法生成精确动作,锚点方法仅支持简单模式。
- Method: ProMoGen结合全局轨迹和稀疏锚点运动,并引入SAP-CL课程学习策略,逐步调整锚点数量以提高稳定性和精确性。
- Result: 实验表明,ProMoGen能生成生动多样的运动,显著优于现有方法。
- Conclusion: ProMoGen通过解耦和渐进学习,实现了更可控和高质量的运动合成。
[51] Detecting and Understanding Hateful Contents in Memes Through Captioning and Visual Question-Answering
Ali Anaissi,Junaid Akram,Kunal Chaturvedi,Ali Braytee
Main category: cs.CV
TL;DR: 提出了一种多模态仇恨内容检测框架,结合OCR、字幕生成、子标签分类、RAG和VQA技术,显著提升了检测性能。
- Motivation: 由于仇恨表情包的多模态特性,传统单模态检测系统难以识别其隐含内容,因此需要更先进的检测方法。
- Method: 整合OCR提取文本、字幕生成描述图像、子标签分类细化仇恨内容、RAG检索上下文、VQA分析符号线索。
- Result: 在Facebook Hateful Memes数据集上,框架的准确率和AUC-ROC均优于单模态和传统多模态模型。
- Conclusion: 多模态框架能有效识别仇恨表情包的隐含信号,为内容审核提供了更强大的工具。
[52] V R-Bench: Holistically Evaluating LVLM Robustness to Fundamental Visual Variations
Zhiyuan Fan,Yumeng Wang,Sandeep Polisetty,Yi R.,Fung
Main category: cs.CV
TL;DR: LVLMs在视觉语言任务中表现出色,但对视觉变化的鲁棒性研究不足。V²R-Bench是一个评估框架,发现LVLMs在简单任务中表现不佳,存在视觉位置偏差和人类类似视觉敏锐度阈值。问题源于架构缺陷和多模态对齐不足。
- Motivation: 研究LVLMs对视觉变化(如位置、尺度、方向)的鲁棒性,填补现有研究的空白。
- Method: 提出V²R-Bench框架,包括自动化数据集生成和评估指标,对21个LVLMs进行测试,并进行组件级分析。
- Result: 发现LVLMs对视觉变化敏感,存在位置偏差和视觉敏锐度阈值,问题源于架构缺陷。
- Conclusion: 未来LVLM设计需改进架构,增强鲁棒性和多模态对齐。
[53] Prompt-Tuning SAM: From Generalist to Specialist with only 2048 Parameters and 16 Training Images
Tristan Piater,Björn Barz,Alexander Freytag
Main category: cs.CV
TL;DR: PTSAM通过仅调整2048个参数,将SAM模型优化为特定任务的专家,性能与现有技术相当,但参数需求大幅减少。
- Motivation: SAM在非自然图像领域(如显微成像)性能下降,且需要精确提示,不适合自动化生物医学应用。
- Method: 使用提示调优(prompt-tuning)技术,仅调整SAM的掩码解码器和图像编码器。
- Result: 在多个显微和医学数据集上验证,性能与现有技术相当,参数需求减少2000倍;调整图像编码器可进一步提升18%的准确率。
- Conclusion: PTSAM适用于训练数据有限和领域迁移的应用,仅需16张标注图像即可可靠训练。
[54] Gaussian Splatting is an Effective Data Generator for 3D Object Detection
Farhad G. Zanjani,Davide Abati,Auke Wiggers,Dimitris Kalatzis,Jens Petersen,Hong Cai,Amirhossein Habibian
Main category: cs.CV
TL;DR: 该论文研究了基于高斯溅射的3D重建技术用于自动驾驶场景中的3D物体检测数据增强,通过直接放置3D物体并施加几何变换,提高了检测性能。
- Motivation: 现有基于扩散的方法在BEV布局下合成图像,但缺乏物理合理性和精确的3D姿态标注,因此需要一种更直接的方法来增强3D物体检测数据。
- Method: 利用高斯溅射的3D重建技术,直接在3D空间中放置物体并施加几何变换,确保物理合理性和精确标注。
- Result: 实验表明,该方法显著提升了3D物体检测性能,优于现有扩散方法,且几何多样性比外观多样性更重要。
- Conclusion: 直接3D物体放置和几何变换是高效的数据增强方法,而生成困难样本对提升检测性能效果有限。
[55] Feature Mixing Approach for Detecting Intraoperative Adverse Events in Laparoscopic Roux-en-Y Gastric Bypass Surgery
Rupak Bose,Chinedu Innocent Nwoye,Jorge Lazo,Joël Lukas Lavanchy,Nicolas Padoy
Main category: cs.CV
TL;DR: BetaMixer是一种新型深度学习模型,通过Beta分布混合方法解决术中不良事件(IAE)检测和严重性量化的数据不平衡问题,表现优异。
- Motivation: 术中不良事件(IAE)如出血或热损伤,若未被检测到可能导致严重的术后并发症,但其罕见性导致数据集高度不平衡,为AI检测带来挑战。
- Method: BetaMixer采用Beta分布采样增强少数类,通过连续化离散严重性评分(0-5)实现精确回归,并利用生成方法对齐特征空间,结合Transformer进行分类和回归。
- Result: 在MultiBypass140数据集上,BetaMixer加权F1得分为0.76,召回率0.81,PPV 0.73,NPV 0.84,表现优异。
- Conclusion: BetaMixer通过Beta分布采样、特征混合和生成建模,为临床IAE检测和量化提供了稳健解决方案。
[56] Tri-FusionNet: Enhancing Image Description Generation with Transformer-based Fusion Network and Dual Attention Mechanism
Lakshita Agarwal,Bindu Verma
Main category: cs.CV
TL;DR: Tri-FusionNet是一个结合ViT、RoBERTa和CLIP的图像描述生成模型,通过双注意力机制提升性能,在多个数据集上表现优异。
- Motivation: 提升图像描述生成的准确性和上下文丰富性,结合视觉和文本模态的优势。
- Method: 整合ViT编码器(双注意力)、RoBERTa解码器和CLIP模块,通过对比学习对齐视觉与文本数据。
- Result: 在Flickr30k、Flickr8k和MS-COCO数据集上取得高BLEU、CIDEr、METEOR和ROUGE-L分数。
- Conclusion: Tri-FusionNet能生成高质量图像描述,验证了其有效性。
[57] Towards Explainable AI: Multi-Modal Transformer for Video-based Image Description Generation
Lakshita Agarwal,Bindu Verma
Main category: cs.CV
TL;DR: 论文提出了一种结合视觉和文本模态的框架,用于从视频数据生成自然语言描述,性能优于传统方法。
- Motivation: 视频动作的理解与分析对智能监控和自主系统等应用至关重要,需要生成上下文相关的描述。
- Method: 使用ResNet50提取视频帧的视觉特征,并通过基于GPT-2的编码器-解码器模型生成描述,结合多头自注意力和交叉注意力技术。
- Result: 在BDD-X和MSVD数据集上,BLEU-4、CIDEr、METEOR和ROUGE-L分数均优于传统方法。
- Conclusion: 该研究通过生成高质量描述,推动了可解释AI的发展,并增强了实际应用的实用性。
[58] Decoupled Global-Local Alignment for Improving Compositional Understanding
Xiaoxing Hu,Kaicheng Yang,Jun Wang,Haoran Xu,Ziyong Feng,Yupei Wang
Main category: cs.CV
TL;DR: DeGLA框架通过解耦全局-局部对齐和自蒸馏机制,提升CLIP的组合理解能力,同时保留其通用能力。
- Motivation: CLIP的全局对比学习限制了其对组合概念(如关系和属性)的理解能力,现有方法虽尝试改进但牺牲了模型的通用能力。
- Method: 提出DeGLA框架,结合自蒸馏机制和基于LLM构建的高质量负样本,设计了IGC和TGC损失函数以增强组合理解。
- Result: 在VALSE、SugarCrepe和ARO基准上平均提升3.5%,在11个零样本分类任务上平均提升13.0%。
- Conclusion: DeGLA在提升组合理解的同时,有效保留了模型的通用能力,实验证明了其优越性。
[59] A Low-Cost Photogrammetry System for 3D Plant Modeling and Phenotyping
Joe Hrzich,Michael A. Beck,Christopher P. Bidinosti,Christopher J. Henry,Kalhari Manawasinghe,Karen Tanino
Main category: cs.CV
TL;DR: 开源低成本的光度测量系统,用于3D植物建模和表型分析,通过点云重建植物模型并计算表型特征。
- Motivation: 开发一种低成本、开源的系统,以简化植物表型分析,特别是针对小麦等作物的3D建模和特征提取。
- Method: 采用运动结构(SfM)方法,通过点云重建植物的3D模型,并从中计算多种表型特征。
- Result: 系统能够准确测量植物高度、半径、叶片角度等特征,并用于小麦冠层结构的分类。
- Conclusion: 该系统为植物表型分析提供了一种高效、低成本的工具,尤其适用于小麦冠层结构的研究。
[60] Hyperspectral Vision Transformers for Greenhouse Gas Estimations from Space
Ruben Gonzalez Avilés,Linus Scheibenreif,Nassim Ait Ali Braham,Benedikt Blumenstiel,Thomas Brunschwiler,Ranjini Guruprasad,Damian Borth,Conrad Albrecht,Paolo Fraccaro,Devyani Lambhate,Johannes Jakubik
Main category: cs.CV
TL;DR: 提出了一种光谱变换模型,通过多光谱数据合成高光谱数据,以弥补高光谱覆盖范围有限和多光谱光谱细节不足的问题,从而提高温室气体监测的准确性。
- Motivation: 高光谱成像在温室气体监测中潜力巨大,但受限于空间覆盖和重访频率;多光谱成像覆盖范围广但光谱细节不足。研究旨在结合两者优势。
- Method: 采用光谱变换模型,通过预训练的波段掩码自编码器生成高光谱数据,并在时空对齐的多光谱-高光谱图像对上微调。
- Result: 合成的数据保留了多光谱的空间和时间优势,同时提高了温室气体预测的准确性。
- Conclusion: 该方法有效平衡了光谱分辨率和覆盖范围,为结合高光谱和多光谱系统的优势提供了新途径。
[61] High-Quality Cloud-Free Optical Image Synthesis Using Multi-Temporal SAR and Contaminated Optical Data
Chenxi Duan
Main category: cs.CV
TL;DR: 论文提出CRSynthNet网络,通过创新模块解决云覆盖导致的光学数据缺失问题,实验证明其有效性,并创建TCSEN12数据集。
- Motivation: 解决卫星图像中云覆盖和长重访周期导致的数据缺失问题,为遥感应用提供支持。
- Method: 提出CRSynthNet网络,包含DownUp Block和Fusion Attention模块,提升图像合成精度。
- Result: CRSynthNet在PSNR、SSIM和RMSE等指标上表现优异,显著优于对比方法。
- Conclusion: 研究提供了实用的光学卫星图像合成方法和TCSEN12数据集,解决了实际问题。
[62] BadVideo: Stealthy Backdoor Attack against Text-to-Video Generation
Ruotong Wang,Mingli Zhu,Jiarong Ou,Rui Chen,Xin Tao,Pengfei Wan,Baoyuan Wu
Main category: cs.CV
TL;DR: 论文提出了首个针对文本到视频生成模型的隐蔽后门攻击框架BadVideo,利用视频生成中的冗余信息嵌入恶意内容。
- Motivation: 文本到视频生成模型在广泛应用中存在对抗性漏洞,尤其是生成视频中未明确指定的冗余信息可能被恶意利用。
- Method: 通过时空组合和动态元素变换两种策略,将恶意目标与用户文本指令无缝结合,同时利用视频的时间维度规避传统内容审核系统。
- Result: 实验表明BadVideo攻击成功率高,且能保持原始语义和干净输入的性能。
- Conclusion: 研究揭示了文本到视频模型的对抗性漏洞,呼吁关注潜在风险和滥用问题。
[63] DreamO: A Unified Framework for Image Customization
Chong Mou,Yanze Wu,Wenxu Wu,Zinan Guo,Pengze Zhang,Yufeng Cheng,Yiming Luo,Fei Ding,Shiwen Zhang,Xinghui Li,Mengtian Li,Songtao Zhao,Jian Zhang,Qian He,Xinglong Wu
Main category: cs.CV
TL;DR: DreamO是一个统一的图像定制框架,支持多种任务和条件集成,采用扩散变换器(DiT)处理输入,并通过多阶段训练策略实现高质量生成。
- Motivation: 现有图像定制方法多为特定任务设计,缺乏通用性,难以整合多种条件。DreamO旨在解决这一挑战。
- Method: 使用扩散变换器(DiT)统一处理输入,构建大规模多任务数据集,引入特征路由约束和占位符策略,采用三阶段渐进训练策略。
- Result: 实验表明,DreamO能高质量完成多种图像定制任务,并灵活整合不同控制条件。
- Conclusion: DreamO为图像定制提供了一个通用且高效的框架,解决了多条件整合的难题。
[64] Generalized Neighborhood Attention: Multi-dimensional Sparse Attention at the Speed of Light
Ali Hassani,Fengzhe Zhou,Aditya Kane,Jiannan Huang,Chieh-Yun Chen,Min Shi,Steven Walton,Markus Hoehnerbach,Vijay Thakkar,Michael Isaev,Qinsheng Zhang,Bing Xu,Haicheng Wu,Wen-mei Hwu,Ming-Yu Liu,Humphrey Shi
Main category: cs.CV
TL;DR: 论文研究了基于局部性的稀疏注意力机制,提出了广义邻域注意力(GNA),并通过模拟器和实际实现验证了其性能提升。
- Motivation: 现有稀疏注意力机制(如邻域注意力)因复杂性和硬件架构快速变化,未能稳定超越自注意力基准。计算机视觉中的基础模型受注意力限制,需可靠稀疏性以降低复杂度。
- Method: 提出GNA,涵盖滑动窗口、跨步滑动窗口和分块注意力;设计模拟器预测性能提升上限;在NVIDIA Blackwell架构上实现GNA。
- Result: GNA在理想分块稀疏情况下实现理论最大加速,FP16下利用率达1.3 petaFLOPs/秒;在Cosmos-7B等模型中带来28%-46%端到端加速。
- Conclusion: GNA为稀疏注意力提供高效实现,显著提升性能,相关工具将通过NATTEN项目开源。
[65] Procedural Dataset Generation for Zero-Shot Stereo Matching
David Yan,Alexander Raistrick,Jia Deng
Main category: cs.CV
TL;DR: 论文研究了合成立体数据集的优化设计,提出了Infinigen-Stereo生成器,显著提升了零样本立体匹配性能。
- Motivation: 合成数据集对训练立体匹配网络至关重要,但如何设计有效的立体数据集尚未深入探索。
- Method: 通过调整程序化数据集生成器的参数,研究其对零样本立体匹配性能的影响,并优化生成器设计。
- Result: Infinigen-Stereo生成的训练数据使模型在零样本立体匹配任务中表现优于现有基线。
- Conclusion: 开源Infinigen-Stereo系统,为程序化立体数据集研究提供工具。
cs.AI
[66] A Framework for Objective-Driven Dynamical Stochastic Fields
Yibo Jacky Zhang,Sanmi Koyejo
Main category: cs.AI
TL;DR: 本文提出了一个理论框架,通过三个基本原则(完全配置、局部性和目的性)来理解和设计智能场,旨在为未来理论和实践发展奠定基础。
- Motivation: 复杂动态随机系统(智能场)的固有复杂性使得其理论描述和实际应用具有挑战性,需要建立理论框架。
- Method: 提出三个基本原则(完全配置、局部性和目的性)作为理论框架,并从人工智能应用角度探讨设计方法。
- Result: 初步建立了智能场的理论框架,为未来研究和应用提供了基础。
- Conclusion: 本文为理解和利用目标驱动的动态随机场(智能场)奠定了初步理论和实践基础。
[67] HTN Plan Repair Algorithms Compared: Strengths and Weaknesses of Different Methods
Paul Zaidins,Robert P. Goldman,Ugur Kuter,Dana Nau,Mark Roberts
Main category: cs.AI
TL;DR: 本文比较了三种分层计划修复算法(SHOPFixer、IPyHOPPER和Rewrite)的理论与实证差异,分析了它们的搜索空间、修复能力和适用场景,并通过实验评估了其性能。
- Motivation: 研究动机在于理解不同计划修复算法的理论差异及其在实际应用中的表现,以便为具体应用选择合适的修复方法。
- Method: 通过理论分析和实证评估(基准规划问题)比较三种算法的搜索空间、修复能力和性能。
- Result: 理论结果表明三种算法对应不同的修复问题定义,实证结果揭示了它们在运行时性能和问题覆盖率上的差异。
- Conclusion: 选择合适的修复算法需基于其理论定义和实际性能,具体应用场景决定最佳选择。
[68] Investigating LLMs in Clinical Triage: Promising Capabilities, Persistent Intersectional Biases
Joseph Lee,Tianqi Shang,Jae Young Baik,Duy Duong-Tran,Shu Yang,Lingyao Li,Li Shen
Main category: cs.AI
TL;DR: LLMs在急诊分诊中表现出优越的鲁棒性,但在性别和种族的交叉分析中显示出偏好差异。
- Motivation: 探索LLMs在急诊分诊中的应用潜力,特别是在处理分布偏移、缺失数据以及交叉偏见方面的表现。
- Method: 通过持续预训练和上下文学习等多种LLM方法,结合机器学习方法,评估其在急诊分诊中的表现。
- Result: LLMs在鲁棒性方面表现优异,但在性别和种族的特定组合中显示出偏好差异。
- Conclusion: LLMs在临床决策支持中具有潜力,但需注意其可能隐含的人口统计学偏好。
[69] Cognitive Silicon: An Architectural Blueprint for Post-Industrial Computing Systems
Christoforus Yoga Haryanto,Emily Lomempow
Main category: cs.AI
TL;DR: 本文提出了一种名为“Cognitive Silicon”的假设性全栈架构框架,探索了认知计算系统设计的未来路径,旨在解决自主AI系统的局限性。
- Motivation: 自主AI系统在确定性、人类编写的计算架构中存在基础性局限,需要一种新的架构框架来支持认知计算。
- Method: 通过符号支架、受控内存、运行时道德一致性和对齐感知执行等设计元素,结合硅到语义的层次集成,构建框架。
- Result: 该框架理论上与自由能原理一致,提供了一种形式化解释,说明认知系统如何通过预测误差最小化维持身份。
- Conclusion: 该框架旨在提供一种道德可处理的认知基础设施,通过不可逆的硬件约束和抗复制的身份机制保持与人类的对齐。
[70] Bridging Econometrics and AI: VaR Estimation via Reinforcement Learning and GARCH Models
Fredy Pokou,Jules Sadefo Kamdem,François Benhmad
Main category: cs.AI
TL;DR: 提出了一种结合GARCH模型和深度强化学习的混合框架,用于动态调整风险预测,显著提高了VaR估计的准确性。
- Motivation: 传统GARCH模型假设过于刚性,难以适应复杂市场动态,需更灵活的风险估计方法。
- Method: 结合GARCH和Double Deep Q-Network(DDQN)模型,将任务视为不平衡分类问题。
- Result: 在Eurostoxx 50数据上验证,VaR估计准确性提升,违约次数和资本需求减少。
- Conclusion: 该模型能实时调整风险水平,适用于现代主动风险管理。
[71] IRIS: Interactive Research Ideation System for Accelerating Scientific Discovery
Aniketh Garikaparthi,Manasi Patwardhan,Lovekesh Vig,Arman Cohan
Main category: cs.AI
TL;DR: IRIS是一个开源平台,通过结合人类反馈和LLM辅助,增强科学研究的假设生成过程。
- Motivation: 解决现有自动化假设生成方法缺乏透明性和可控性的问题,提出一种人机协同的方法。
- Method: 开发IRIS平台,结合蒙特卡洛树搜索(MCTS)、细粒度反馈机制和基于查询的文献合成。
- Result: 用户研究表明,IRIS能有效提升研究人员的创意生成能力。
- Conclusion: IRIS通过人机协同方法,为科学假设生成提供了透明且可控的解决方案。
[72] A Survey of AI Agent Protocols
Yingxuan Yang,Huacan Chai,Yuanyi Song,Siyuan Qi,Muning Wen,Ning Li,Junwei Liao,Haoyi Hu,Jianghao Lin,Gaowei Chang,Weiwen Liu,Ying Wen,Yong Yu,Weinan Zhang
Main category: cs.AI
TL;DR: 本文探讨了大型语言模型(LLM)代理之间缺乏标准化通信协议的问题,提出了一种统一协议的可能性,并对现有协议进行了分类和性能分析,同时展望了未来挑战。
- Motivation: 随着LLM代理在各行业的广泛应用,缺乏统一的通信协议限制了其协作和扩展能力,亟需解决这一问题以提升代理的集体智能。
- Method: 对现有LLM代理通信协议进行系统分类,并从安全性、可扩展性和延迟等维度进行性能比较分析。
- Result: 提供了四类主要通信协议的概述,并分析了其适用场景和性能表现,为开发者和用户提供选择依据。
- Conclusion: 统一通信协议有望促进LLM代理的协作与智能提升,未来需解决协议在快速变化环境中的适应性问题。
[73] Lightweight Latent Verifiers for Efficient Meta-Generation Strategies
Bartosz Piotrowski,Witold Drzewakowski,Konrad Staniszewski,Piotr Miłoś
Main category: cs.AI
TL;DR: LiLaVe是一种轻量级验证方法,通过从基础LLM的隐藏状态中提取正确性信号,显著降低了计算成本。
- Motivation: 传统验证器通常与基础LLM规模相当,计算成本高,需要更高效的验证方法。
- Method: 提出LiLaVe,利用基础LLM的隐藏状态提取正确性信号,并结合元生成策略(如best-of-n或自一致性)或设计新方法(如条件自校正或条件多数投票)。
- Result: LiLaVe显著提高了生成任务的准确性和效率,尤其适用于较小规模的LLM。
- Conclusion: LiLaVe展示了从LLM隐藏状态中提取潜在信息的可行性,为资源高效的推理密集型应用提供了新思路。
[74] AIMO-2 Winning Solution: Building State-of-the-Art Mathematical Reasoning Models with OpenMathReasoning dataset
Ivan Moshkov,Darragh Hanley,Ivan Sorokin,Shubham Toshniwal,Christof Henkel,Benedikt Schifferer,Wei Du,Igor Gitman
Main category: cs.AI
TL;DR: 本文介绍了在AI数学奥林匹克竞赛中获胜的模型,其核心是基于大规模数据集、结合代码执行的长推理模型训练方法,以及生成式解决方案选择技术。
- Motivation: 提升数学推理模型的性能,尤其是在解决高难度数学问题(如奥数题)上的表现。
- Method: 1. 构建包含54万道高质量数学题及其320万条长推理解答的数据集;2. 开发结合代码执行的迭代训练方法,生成170万条高质量工具集成推理解答;3. 设计生成式解决方案选择(GenSelect)流程,优化候选解答的选择。
- Result: 模型在数学推理基准测试中达到最先进水平。
- Conclusion: 通过数据集、工具集成推理和GenSelect技术的结合,显著提升了数学推理模型的性能,并开源了相关资源。
physics.chem-ph
[75] PINN-MEP: Continuous Neural Representations for Minimum-Energy Path Discovery in Molecular Systems
Magnus Petersen,Roberto Covino
Main category: physics.chem-ph
TL;DR: 论文提出了一种基于物理信息神经网络(PINNs)的方法,用于高效生成分子系统的过渡路径,解决了传统采样方法在高维系统和能量壁垒问题上的局限性。
- Motivation: 分子系统中的构象转变是计算科学中的核心挑战,传统方法如分子动力学(MD)或MCMC难以高效捕捉这些稀有但生物学意义重大的事件。
- Method: 通过将过渡路径生成问题转化为连续优化问题,利用物理信息神经网络(PINNs)和可微分分子动力学力场,实现无需昂贵路径采样的物理真实路径发现。
- Result: 方法在包括8,300多个原子的BPTI系统在内的两种蛋白质上验证了有效性。
- Conclusion: 该方法为高效研究分子构象转变提供了新途径,具有潜在生物学应用价值。
cs.GR
[76] HUG: Hierarchical Urban Gaussian Splatting with Block-Based Reconstruction
Zhongtao Wang,Mai Su,Huishan Au,Yilong Li,Xizhe Cao,Chengwei Pan,Yisong Chen,Guoping Wang
Main category: cs.GR
TL;DR: HUG提出了一种基于3D高斯溅射的新方法,通过分层神经高斯表示优化大规模城市环境的重建与渲染,降低了计算成本。
- Motivation: 随着城市3D场景复杂度增加,对高质量渲染的需求推动了高效重建与渲染技术的发展。
- Method: 采用分层神经高斯表示,优化数据分区和重建流程,减少冗余训练区域。
- Result: 在公共基准测试中取得了领先结果,证明了其在大规模城市场景表示中的高效性。
- Conclusion: HUG通过分层神经高斯表示实现了高质量、低成本的场景渲染,适用于复杂城市环境。
eess.SP
[77] A CNN-based Local-Global Self-Attention via Averaged Window Embeddings for Hierarchical ECG Analysis
Arthur Buzelin,Pedro Robles Dutenhefner,Turi Rezende,Luisa G. Porfirio,Pedro Bento,Yan Aquino,Jose Fernandes,Caio Santana,Gabriela Miana,Gisele L. Pappa,Antonio Ribeiro,Wagner Meira Jr
Main category: eess.SP
TL;DR: 提出了一种结合卷积和自注意力机制的新型LGA-ECG模型,用于更准确地分析心电图信号。
- Motivation: 心血管疾病是全球主要死因,需要高效的心电图诊断工具。传统Transformer模型难以捕捉局部形态特征,影响诊断准确性。
- Method: 提出LGA-ECG模型,通过卷积窗口提取局部特征,并结合全局自注意力机制分析整体节律。
- Result: 在CODE-15数据集上,LGA-ECG优于现有模型,验证了局部-全局注意力策略的有效性。
- Conclusion: LGA-ECG通过捕捉心电图信号的层次时间依赖性和形态模式,展示了临床部署潜力。
[78] Two-Timescale Joint Transmit and Pinching Beamforming for Pinching-Antenna Systems
Luyuan Zhang,Xidong Mu,An Liu,Yuanwei Liu
Main category: eess.SP
TL;DR: 提出了一种基于双时间尺度的联合发射和夹持波束成形设计,用于最大化PASS系统的多用户下行链路性能。
- Motivation: PASS技术通过低成本夹持天线实现灵活的波束成形,但需要高效的算法优化其性能。
- Method: 采用原始对偶分解方法,将问题拆分为短期发射波束成形和长期夹持波束成形两个子问题,分别用KKT引导的对偶学习和随机连续凸近似方法解决。
- Result: 仿真结果表明,所提算法相比基线方法有显著性能提升。
- Conclusion: 双时间尺度算法有效优化了PASS系统的性能,为未来灵活天线技术提供了实用解决方案。
[79] Towards Accurate Forecasting of Renewable Energy : Building Datasets and Benchmarking Machine Learning Models for Solar and Wind Power in France
Eloi Lindas,Yannig Goude,Philippe Ciais
Main category: eess.SP
TL;DR: 该研究提出了一种利用机器学习模型预测法国太阳能和风能发电量的方法,结合空间明确的天气数据和产能信息,结果显示神经网络优于传统树模型,误差范围为4%-10%。
- Motivation: 准确预测可再生能源发电量对电网稳定和电价预测至关重要,但现有方法通常间接且未充分利用空间数据。
- Method: 使用ERA5天气数据、产能和电价等特征,探索了三种处理空间天气数据的方法(空间平均、主成分分析和计算机视觉架构),并比较了多种机器学习模型。
- Result: 神经网络表现最佳,误差范围为4%-10%,与单厂级模型相当,验证了该方法在区域电力预测中的潜力。
- Conclusion: 该研究为区域可再生能源预测提供了有效方法,神经网络在处理空间数据和容量变化时表现优越。
[80] xLSTM-ECG: Multi-label ECG Classification via Feature Fusion with xLSTM
Lei Kang,Xuanshuo Fu,Javier Vazquez-Corral,Ernest Valveny,Dimosthenis Karatzas
Main category: eess.SP
TL;DR: 提出了一种基于xLSTM网络的多标签ECG信号分类方法xLSTM-ECG,通过STFT转换和优化的xLSTM架构,显著提升了分类准确性和临床诊断效率。
- Motivation: 心血管疾病是全球主要死因,ECG手动解读耗时且易错,亟需高效准确的诊断工具。
- Method: 使用STFT将ECG信号转换到频域,设计xLSTM网络捕捉12导联ECG的局部和全局特征,进行多标签分类。
- Result: 在PTB-XL数据集上表现优异,在Georgia 12-Lead数据集上验证了鲁棒性和高效性。
- Conclusion: xLSTM-ECG显著提高了ECG分类准确性,推动了临床诊断和患者护理的进步。
[81] A Self-supervised Learning Method for Raman Spectroscopy based on Masked Autoencoders
Pengju Ren,Ri-gui Zhou,Yaochong Li
Main category: eess.SP
TL;DR: 提出了一种基于掩码自编码器(SMAE)的自监督学习范式,用于拉曼光谱分析,无需标注数据即可学习光谱特征,并在少量标注数据微调后达到与监督学习相当的准确率。
- Motivation: 现有监督学习方法依赖大量标注数据,成本高且受限;自监督学习可解决未标注光谱的特征提取问题。
- Method: 采用掩码自编码器(SMAE),通过随机掩码和重建光谱信息学习特征,具有去噪能力。
- Result: 预训练后聚类准确率超80%,微调后识别准确率达83.90%,优于经典无监督方法和监督ResNet。
- Conclusion: SMAE为拉曼光谱分析提供了一种高效的自监督学习方案,显著降低了对标注数据的依赖。
[82] A Non-Invasive Load Monitoring Method for Edge Computing Based on MobileNetV3 and Dynamic Time Regulation
Hangxu Liu,Yaojie Sun,Yu Wang
Main category: eess.SP
TL;DR: 该论文提出了一种基于动态时间规整(DTW)算法的非侵入式负载监测(NILM)技术,通过融合时频域特征,显著降低了计算成本和存储需求,并在边缘MCU上实现了95%的识别精度。
- Motivation: 现有基于机器学习和深度学习的NILM方法虽在负载分解精度上表现优异,但计算成本和存储需求高,难以在资源受限的边缘MCU上部署。
- Method: 提出了一种创新的时频域DTW算法,并系统比较了六种机器学习技术在家用电场景中的性能。优化了频域特征提取过程。
- Result: 在边缘MCU上实现了95%的识别精度,运行时间减少55.55%,存储开销降低约34.6%。
- Conclusion: 未来研究将聚焦于消除电压变压器设计以降低成本,为边缘计算环境中的高效NILM系统提供理论和技术支持。
eess.IV
[83] Comprehensive Evaluation of Quantitative Measurements from Automated Deep Segmentations of PSMA PET/CT Images
Obed Korshie Dzikunu,Amirhossein Toosi,Shadab Ahamed,Sara Harsini,Francois Benard,Xiaoxiao Li,Arman Rahmim
Main category: eess.IV
TL;DR: 该研究通过深度学习分割方法评估了六种定量指标,提出L1加权Dice Focal Loss(L1DFL)在Attention U-Net中表现最佳,与真实值相关性最高。
- Motivation: 传统Dice相似系数评估有限,需更全面的定量指标评估方法。
- Method: 使用U-Net、Attention U-Net和SegResNet,结合四种损失函数(包括提出的L1DFL),分析380例PSMA PET/CT扫描数据。
- Result: Attention U-Net与L1DFL组合表现最优(相关性0.90-0.99),而Dice Loss和其他复合损失表现较差。SUV指标、病灶计数和TLA性能高,肿瘤体积和病灶扩散变异性较大。
- Conclusion: L1DFL显著减少临床测量变异性,代码已开源。
[84] Frequency-Compensated Network for Daily Arctic Sea Ice Concentration Prediction
Jialiang Zhang,Feng Gao,Yanhai Gan,Junyu Dong,Qian Du
Main category: eess.IV
TL;DR: 提出了一种频率补偿网络(FCNet)用于北极海冰浓度(SIC)的每日预测,解决了现有方法在频域长期特征依赖和高频细节保留上的不足。
- Motivation: 北极海冰浓度的准确预测对全球生态系统健康和航行安全至关重要,但现有方法在频域特征依赖和高频细节保留方面存在不足。
- Method: 设计了双分支网络,包括频率特征提取和卷积特征提取分支,分别通过自适应频率滤波块和高频增强块实现特征提取与增强。
- Result: 在卫星SIC数据集上的实验验证了FCNet的有效性,能够实现边缘和细节的精细预测。
- Conclusion: FCNet通过频域和卷积特征的结合,显著提升了北极海冰浓度的预测精度。
[85] Advanced Chest X-Ray Analysis via Transformer-Based Image Descriptors and Cross-Model Attention Mechanism
Lakshita Agarwal,Bindu Verma
Main category: eess.IV
TL;DR: 该研究提出了一种结合Vision Transformer编码器和GPT-4解码器的新模型,用于生成胸部X光图像的描述,显著提升了描述准确性和丰富性。
- Motivation: 胸部X光检查对诊断胸腔疾病至关重要,但传统方法在描述生成上存在局限性,需要更精确和高效的解决方案。
- Method: 使用Vision Transformer编码器提取高质量视觉特征,通过跨模态注意力与文本数据融合,再用GPT-4解码器生成描述。
- Result: 在NIH和IU数据集上表现优异,IU数据集上B-1为0.854,CIDEr为0.883;NIH数据集上所有指标均为最佳。
- Conclusion: 该框架有望提升胸部X光评估的精确性和效率,辅助放射科医生诊断。
cs.HC
[86] Quality of explanation of xAI from the prespective of Italian end-users: Italian version of System Causability Scale (SCS)
Carmine Attanasio,Alireza Mortezapour
Main category: cs.HC
TL;DR: 研究验证了意大利版系统可解释性量表(I-SCS)的有效性,用于评估xAI系统提供的解释质量。
- Motivation: 随着人工智能应用范围的扩大,研究者关注如何提供高质量的算法解释。本研究旨在验证意大利版量表的有效性。
- Method: 采用前向-后向翻译方法,计算内容效度指数/比率,并与代表性终端用户进行认知访谈。
- Result: 原问卷10个问题中,1个因效度不足被移除,最终意大利版包含9个问题,用户理解良好。
- Conclusion: 意大利版量表可用于未来研究及xAI开发,评估意大利文化中的解释质量。
[87] Cyberoception: Finding a Painlessly-Measurable New Sense in the Cyberworld Towards Emotion-Awareness in Computing
Tadashi Okoshi,Zexiong Gao,Tan Yi Zhen,Takumi Karasawa,Takeshi Miki,Wataru Sasaki,Rajesh K. Balan
Main category: cs.HC
TL;DR: 论文提出了一种新概念“cyberoception”,通过智能手机传感器在用户日常生活中测量类似内感受的状态,以更准确地识别情绪。
- Motivation: 现有内感受测量方法依赖实验室环境和高精度设备,难以在现实生活中监测用户的内感受状态。
- Method: 提出“cyberoception”概念,并通过10天的实验室与野外混合实验验证其与情绪的相关性。
- Result: 发现一种特定的“Turn On”cyberoception类型与用户情绪效价显著相关。
- Conclusion: cyberoception可作为开发更“情绪感知”应用的基础。
[88] FeedQUAC: Quick Unobtrusive AI-Generated Commentary
Tao Long,Kendra Wannamaker,Jo Vermeulen,George Fitzmaurice,Justin Matejka
Main category: cs.HC
TL;DR: 论文探讨了AI如何通过实时反馈工具FeedQUAC提升设计流程,研究显示其便利性和启发性,但也需平衡用户参与。
- Motivation: 设计过程中持续反馈需求高但耗时,AI可提供无缝、轻松的反馈支持。
- Method: 引入FeedQUAC工具,通过多角色AI实时反馈,进行8人设计探针研究。
- Result: 参与者认可其便利性、趣味性和启发性,同时提出改进建议如聊天功能和上下文管理。
- Conclusion: AI反馈在设计中有潜力,需平衡用户参与,环境交互是未来创意支持系统的重要方向。
[89] Exploring human-SAV interaction using large language models: The impact of psychological ownership and anthropomorphism on user experience
Lirui Guo,Michael G. Burke,Wynita M. Griggs
Main category: cs.HC
TL;DR: 研究探讨了LLM驱动的共享自动驾驶汽车(SAV)用户界面(UI)中提示策略如何影响用户感知、体验和采用意图,发现更具拟人化和心理所有权触发的UI能提升用户体验和接受度。
- Motivation: 现有研究较少关注LLM驱动的SAV UI中提示策略对用户心理因素的影响,尤其是心理所有权和拟人化。
- Method: 设计了四种具有不同拟人化特征和心理所有权触发器的SAV UI,通过定量和定性方法收集用户反馈。
- Result: 拟人化和心理所有权触发的UI显著提升了用户对SAV的拟人化感知和情感反馈。
- Conclusion: 研究结果为设计提升用户体验和SAV采用率的LLM对话UI提供了实用指导。
[90] A Vision for AI-Driven Adaptation of Dynamic AR Content to Users and Environments
Julian Rasch,Florian Müller,Francesco Chiossi
Main category: cs.HC
TL;DR: 本文探讨了AI驱动的动态AR内容布局,旨在通过机器学习优化AR体验,减少用户认知负担。
- Motivation: 现有AR系统在管理交互可能性上存在不足,需要更智能的内容布局方案。
- Method: 提出利用机器学习动态调整AR内容,适应环境和用户行为。
- Result: 设想了一种更直观、高效的AI驱动AR系统。
- Conclusion: 展望了AI驱动AR在各行业的创新潜力。
[91] PsyCounAssist: A Full-Cycle AI-Powered Psychological Counseling Assistant System
Xianghe Liu,Jiaqi Xu,Tao Sun
Main category: cs.HC
TL;DR: PsyCounAssist是一个AI驱动的心理咨询助手系统,通过多模态情感识别和自动化报告增强心理咨询实践。
- Motivation: 心理咨询是个性化和动态的过程,需要实时监控情绪变化和记录会话内容,AI可以辅助提升效率和连续性。
- Method: 系统结合语音和PPG信号进行实时情感分析,利用大型语言模型生成结构化报告,并提供个性化随访支持。
- Result: 实验验证了PPG情感分类的可靠性,系统在真实场景中表现出实用性和隐私保护能力。
- Conclusion: PsyCounAssist为AI在心理咨询中的伦理和有效整合提供了新思路。
cs.IR
[92] Detecting Actionable Requests and Offers on Social Media During Crises Using LLMs
Ahmed El Fekih Zguir,Ferda Ofli,Muhammad Imran
Main category: cs.IR
TL;DR: 提出了一种基于LLM的细粒度分类方法(QSF Learning),用于高效组织和优先处理灾难相关社交媒体信息。
- Motivation: 自然灾害导致社交媒体信息激增,需要系统化分类以提升人道主义组织响应效率。
- Method: 采用QSF Learning方法,通过检索类特定标注样本增强LLM性能,并评估信息的可操作性。
- Result: 实验表明,该方法优于基线提示策略,能有效识别和优先处理紧急请求与援助。
- Conclusion: QSF Learning为灾难响应提供了高效的信息分类和优先级排序解决方案。
[93] Disentangling and Generating Modalities for Recommendation in Missing Modality Scenarios
Jiwan Kim,Hongseok Kang,Sein Kim,Kibum Kim,Chanyoung Park
Main category: cs.IR
TL;DR: DGMRec提出了一种针对多模态推荐系统中缺失模态问题的新框架,通过解耦和生成模态特征提升推荐性能。
- Motivation: 解决多模态推荐系统中缺失模态问题和模态特征独特性未被充分考虑的问题。
- Method: DGMRec将模态特征解耦为通用和特定模态特征,并生成缺失模态特征。
- Result: DGMRec在缺失模态和新物品场景下表现优于现有方法,并支持跨模态检索。
- Conclusion: DGMRec展示了在现实场景中的适应性和应用潜力。
[94] A Survey of Foundation Model-Powered Recommender Systems: From Feature-Based, Generative to Agentic Paradigms
Chengkai Huang,Hongtao Huang,Tong Yu,Kaige Xie,Junda Wu,Shuai Zhang,Julian Mcauley,Dietmar Jannach,Lina Yao
Main category: cs.IR
TL;DR: 本文综述了基础模型(FMs)在推荐系统(RS)中的应用,探讨了三种集成范式:特征增强、生成式推荐和交互式代理系统,并总结了机遇、挑战及未来研究方向。
- Motivation: 随着基础模型(如GPT、LLaMA、CLIP)的兴起,推荐系统范式正在重塑。本文旨在全面综述FMs在RS中的集成方式及其潜力。
- Method: 通过分析三种范式(特征增强、生成式推荐、交互式代理系统)的应用,结合多模态数据基础和FMs的能力(如表示学习、自然语言理解),探讨FMs如何提升RS。
- Result: FMs为RS带来了新的机遇,但也面临挑战。本文总结了现有研究的成果,并对比了不同范式的优缺点。
- Conclusion: 未来研究应关注FMs在RS中的进一步优化与集成,解决现有挑战并探索新的技术方向。
[95] MMHCL: Multi-Modal Hypergraph Contrastive Learning for Recommendation
Xu Guo,Tong Zhang,Fuyun Wang,Xudong Wang,Xiaoya Zhang,Xin Liu,Zhen Cui
Main category: cs.IR
TL;DR: 论文提出了一种多模态超图对比学习框架(MMHCL),通过构建用户和物品的超图来挖掘共享偏好和语义相似性,缓解数据稀疏和冷启动问题。
- Motivation: 多模态内容共享平台的兴起推动了个性化推荐系统的发展,但现有方法面临数据稀疏和冷启动问题,且未能充分挖掘多模态数据中的语义关联。
- Method: 构建用户到用户(u2u)和物品到物品(i2i)超图,挖掘共享偏好和语义相似性;设计对比学习范式增强特征区分性。
- Result: MMHCL通过挖掘更丰富的共享属性和构建更密集的超图,有效缓解了数据稀疏和冷启动问题。
- Conclusion: 实验证明了MMHCL的有效性,代码已开源。
cs.CY
[96] SOTOPIA-S4: a user-friendly system for flexible, customizable, and large-scale social simulation
Xuhui Zhou,Zhe Su,Sophie Feng,Jiaxu Zhou,Jen-tse Huang,Hsien-Te Kao,Spencer Lynch,Svitlana Volkova,Tongshuang Sherry Wu,Anita Woolley,Hao Zhu,Maarten Sap
Main category: cs.CY
TL;DR: SOTOPIA-S4是一个快速、灵活且可扩展的社交模拟系统,通过LLM代理支持多轮和多方的交互,并提供可定制的评估指标。
- Motivation: 解决当前社交模拟框架的技术障碍,支持社会科学问题和LLM代理行为的假设验证。
- Method: 提供包含模拟引擎、RESTful API服务器和Web界面的pip包,支持非技术用户设计、运行和分析模拟。
- Result: 通过招聘谈判和多党规划两个案例展示了系统的实用性。
- Conclusion: SOTOPIA-S4是一个高效的工具,适用于技术与非技术用户,支持复杂的社交模拟场景。
[97] Efficacy of a Computer Tutor that Models Expert Human Tutors
Andrew M. Olney,Sidney K. D'Mello,Natalie Person,Whitney Cade,Patrick Hays,Claire W. Dempsey,Blair Lehman,Betsy Williams,Art Graesser
Main category: cs.CY
TL;DR: 研究发现,智能辅导系统(ITS)和专家人类辅导在即时和延迟测试中均显著提升学习效果,但专家辅导的作用仍需进一步探讨。
- Motivation: 探讨专家辅导对学习效果的贡献,以及智能辅导系统与人类辅导的比较。
- Method: 进行为期9周的学习效果研究,比较智能辅导系统、非辅导专家人类辅导和无辅导条件的效果。
- Result: 智能辅导系统和人类辅导在即时和延迟测试中均显著提升学习效果(效应量分别为0.71/0.66和0.36/0.39)。
- Conclusion: 专家辅导和智能辅导系统均有效,但专家辅导的作用仍需进一步研究。
[98] A Conceptual Framework for AI-based Decision Systems in Critical Infrastructures
Milad Leyli-abadi,Ricardo J. Bessa,Jan Viebahn,Daniel Boos,Clark Borst,Alberto Castagna,Ricardo Chavarriaga,Mohamed Hassouna,Bruno Lemetayer,Giulia Leto,Antoine Marot,Maroua Meddeb,Manuel Meyer,Viola Schiaffonati,Manuel Schneider,Toni Waefler
Main category: cs.CY
TL;DR: 本文提出了一种综合性的概念框架,用于解决人类与AI在安全关键系统中的交互挑战,整合了多学科知识并展示了其灵活性。
- Motivation: 现有框架未能完全解决人类与AI在安全关键系统中的交互问题,尤其是在透明度、信任、解释性及安全决策方面的需求。
- Method: 采用跨学科方法,整合数学、决策理论、计算机科学、哲学、心理学和认知工程等领域知识,并结合能源、交通和航空等专业工程领域。
- Result: 提出了一个可灵活应用于现有框架的综合性概念框架。
- Conclusion: 该框架为设计和维护安全有效的系统提供了新的解决方案,填补了现有研究的空白。
[99] Trends in Frontier AI Model Count: A Forecast to 2028
Iyngkarran Kumar,Sam Manning
Main category: cs.CY
TL;DR: 论文探讨了基于训练计算量的AI模型监管门槛,预测未来几年超过这些门槛的模型数量将超线性增长。
- Motivation: 研究政府基于训练计算量对AI模型施加监管要求的趋势,并量化这些门槛将覆盖的模型数量。
- Method: 通过统计和预测模型,估计未来几年超过欧盟和美国设定的计算量门槛的AI模型数量。
- Result: 预测到2028年,将有103-306个模型超过欧盟的10^25 FLOP门槛,45-148个模型超过美国的10^26 FLOP门槛。
- Conclusion: 监管门槛的设定方式会影响覆盖的模型数量,绝对门槛会导致超线性增长,而相对门槛则更稳定。
[100] Enhancing Trust Through Standards: A Comparative Risk-Impact Framework for Aligning ISO AI Standards with Global Ethical and Regulatory Contexts
Sridharan Sankaran
Main category: cs.CY
TL;DR: 论文提出了一种比较风险影响评估框架,用于评估ISO AI标准在不同监管环境中的有效性,并建议改进以增强其全球适用性。
- Motivation: 随着AI重塑行业和社会,确保其可信度(如减少偏见、不透明和责任缺失等伦理风险)是全球性挑战。ISO AI标准旨在促进负责任的发展,但其效果因监管环境不同而异。
- Method: 引入比较风险影响评估框架,将ISO标准与欧盟AI法案等监管框架进行映射,并在欧盟、美国科罗拉多州和中国进行案例研究。
- Result: 研究发现自愿性ISO标准在执法(如科罗拉多州)和地区特定风险(如中国的隐私问题)方面存在不足。建议强制风险审计、地区特定附录和隐私模块。
- Conclusion: 该框架为标准化与伦理要求的对齐提供了可复制的工具,有助于全球AI的互操作性和信任。政策制定者和标准机构可利用这些见解改进AI治理。
[101] Towards responsible AI for education: Hybrid human-AI to confront the Elephant in the room
Danial Hooshyar,Gustav Šír,Yeongwook Yang,Eve Kikas,Raija Hämäläinen,Tommi Kärkkäinen,Dragan Gašević,Roger Azevedo
Main category: cs.CY
TL;DR: 论文分析了AI在教育领域的九大挑战,并提出神经符号AI作为解决方案。
- Motivation: 尽管AI在教育领域取得进展,但公平性、透明性和有效性仍存在问题,亟需解决。
- Method: 通过理论和实证研究,提出神经符号AI方法。
- Result: 神经符号AI能有效解决当前AI在教育中的问题。
- Conclusion: 神经符号AI是构建负责任、可信赖教育AI系统的基础。
[102] Leveraging Social Media Analytics for Sustainability Trend Detection in Saudi Arabias Evolving Market
Kanwal Aalijah
Main category: cs.CY
TL;DR: 本文探讨了如何利用AI和社交媒体分析实时追踪沙特阿拉伯在《愿景2030》下的可持续发展趋势,为决策者提供可靠的市场洞察。
- Motivation: 沙特阿拉伯的快速经济增长和社会变革为实时追踪新兴趋势提供了独特机会,有助于发现商业和投资机会。
- Method: 采用AI驱动的方法,处理数百万条社交媒体帖子、新闻和博客,以识别和监测可持续发展趋势。
- Result: 提出了一种AI方法,能够为经济学家、企业和政府提供可靠且实时的市场趋势分析,并展示跨行业潜力。
- Conclusion: AI方法为决策者提供了理解公众对倡议的接受度和趋势发展的可靠工具,且框架可推广至其他地区。
[103] Reflexive Prompt Engineering: A Framework for Responsible Prompt Engineering and Interaction Design
Christian Djeffal
Main category: cs.CY
TL;DR: 本文探讨了负责任的提示工程如何通过嵌入伦理和法律考量,优化生成式AI的社会影响。
- Motivation: 随着生成式AI的普及,提示工程对公平性、问责制和透明度的影响日益重要。
- Method: 提出了一个包含提示设计、系统选择、配置、性能评估和管理的综合框架。
- Result: 研究表明,有效的提示工程需平衡技术精确性与伦理意识,改善社会结果并降低风险。
- Conclusion: 文章总结了关键研究方向和实践指南,推动负责任的提示工程发展。
q-fin.PM
[104] Efficient Portfolio Selection through Preference Aggregation with Quicksort and the Bradley--Terry Model
Yurun Ge,Lucas Böttcher,Tom Chou,Maria R. D'Orsogna
Main category: q-fin.PM
TL;DR: 论文提出了一种基于Quicksort和Bradley-Terry模型的比较规则,用于在不确定性下分配资源以最大化长期效益。
- Motivation: 解决在不确定性下如何分配有限资源以选择最具长期效益的项目的问题,适用于创新项目评估、研究资金分配和参与式预算等场景。
- Method: 采用Quicksort和Bradley-Terry模型,通过代理对项目对的“胜率”评估,聚合这些评估以排名项目。结合抽样技术减少比较次数。
- Result: 提出的方法优于当前最有效的两种聚合方法,并能显著减少成对比较的次数。
- Conclusion: Bradley-Terry模型在项目组合选择中具有实际应用潜力,能有效优化资源分配决策。
cs.CR
[105] Security-First AI: Foundations for Robust and Trustworthy Systems
Krti Tallam
Main category: cs.CR
TL;DR: 论文主张将AI安全作为基础层优先考虑,提出分层视角区分安全与保障,并提倡以安全为先的方法构建可信赖的AI系统。
- Motivation: 当前AI讨论多聚焦于安全性、透明度等,但AI安全(对抗性操纵的防护)是这些努力的基础,需优先关注。
- Method: 提出分层视角,区分安全与保障,讨论核心威胁模型、攻击向量及防御机制。
- Result: 强调以指标驱动的方法对AI安全至关重要,以支持稳健的AI安全性、透明度和问责制。
- Conclusion: AI安全是构建可信赖和弹性AI系统的基础,需优先考虑并采用指标驱动的方法。
[106] AI-Based Vulnerability Analysis of NFT Smart Contracts
Xin Wang,Xiaoqi Li
Main category: cs.CR
TL;DR: 本文通过收集和分类智能合约代码,识别常见缺陷,并利用决策树和随机森林模型进行分析,最终比较不同模型的性能。
- Motivation: 研究智能合约中的常见缺陷,并开发有效的模型来识别和分析这些缺陷。
- Method: 1. 收集和分类智能合约代码;2. 使用Python处理数据;3. 构建决策树模型并进行特征提取;4. 引入随机森林模型并优化参数;5. 比较不同模型的性能。
- Result: 通过决策树和随机森林模型成功分析了智能合约的缺陷,并比较了它们的性能。
- Conclusion: 决策树和随机森林模型在智能合约缺陷分析中均表现良好,随机森林模型在性能上更具优势。
[107] DMind Benchmark: The First Comprehensive Benchmark for LLM Evaluation in the Web3 Domain
Miracle Master,Rainy Sun,Anya Reese,Joey Ouyang,Alex Chen,Winter Dong,Frank Li,James Yi,Garry Zhao,Tony Ling,Hobert Wong,Lowes Yang
Main category: cs.CR
TL;DR: 论文介绍了DMind Benchmark,一个用于评估大型语言模型(LLMs)在Web3领域表现的框架,涵盖九个关键类别,并揭示了当前模型在Web3特定任务中的性能差距。
- Motivation: 尽管LLMs在自然语言处理任务中表现优异,但在Web3等专业和快速发展的领域中的有效性尚未充分探索。
- Method: 通过DMind Benchmark系统测试15种流行LLMs,包括多选和领域特定主观任务(如智能合约审计、链上数据推理等)。
- Result: 发现LLMs在Web3特定推理和应用中存在性能差距,尤其是在新兴领域和安全漏洞识别方面。
- Conclusion: 公开了数据集和评估工具,以促进Web3领域LLMs的进一步发展和适应。
[108] Towards Explainable and Lightweight AI for Real-Time Cyber Threat Hunting in Edge Networks
Milad Rahmati
Main category: cs.CR
TL;DR: 论文提出了一种可解释且轻量级的AI框架(ELAI),用于边缘网络中的实时网络威胁检测,解决了传统深度学习的不可解释性和高计算成本问题。
- Motivation: 边缘网络的分布式特性和资源限制使得网络安全防护面临挑战,而现有的AI驱动威胁检测系统因缺乏可解释性和高计算成本难以实用。
- Method: 结合可解释的机器学习算法和优化的轻量级深度学习技术,采用决策树、注意力机制和联邦学习,提升检测准确性和可解释性。
- Result: 在CICIDS和UNSW-NB15等数据集上的实验表明,ELAI实现了高检测率和低误报率,同时显著降低了计算需求。
- Conclusion: ELAI为边缘计算环境提供了一种高效、可解释的网络安全解决方案,兼具实时性和低资源消耗。
[109] A Data-Centric Approach for Safe and Secure Large Language Models against Threatening and Toxic Content
Chaima Njeh,Haïfa Nakouri,Fehmi Jaafar
Main category: cs.CR
TL;DR: 论文提出了一种后生成修正机制BART-Corrective Model,用于减少大语言模型生成的有害内容,实验表明该方法显著降低了毒性和越狱分数。
- Motivation: 解决大语言模型(LLM)可能存在的偏见和有害内容问题,确保其安全与伦理使用。
- Method: 采用后生成修正机制BART-Corrective Model,调整生成内容以确保安全性,而非仅依赖模型微调或提示工程。
- Result: 在多个毒性数据集上实验显示,该方法显著降低了平均毒性和越狱分数,具体表现为:GPT-4(15%和21%)、PaLM2(28%和5%)、Mistral-7B(26%和23%)、Gemma-2b-it(11.1%和19%)。
- Conclusion: 该方法有效提升了LLM的安全性和适用性,适合实际应用。
[110] Blockchain Meets Adaptive Honeypots: A Trust-Aware Approach to Next-Gen IoT Security
Yazan Otoum,Arghavan Asad,Amiya Nayak
Main category: cs.CR
TL;DR: 论文提出了一种动态攻击检测与防御方法,结合区块链认证、双阶段入侵检测系统和信任感知服务迁移,显著提升了下一代无线网络物联网的安全性。
- Motivation: 现有入侵检测与防御方法对不断演变的网络威胁防护有限,需提出更有效的解决方案。
- Method: 采用区块链认证(DAA)、双阶段入侵检测(IRF和DCRNN)、信任感知服务迁移(HBO)及虚拟蜜罐技术(BLISS)。
- Result: 实验结果表明,该方法在准确性、攻击检测率等多项指标上显著优于现有方法。
- Conclusion: 提出的框架有效增强了下一代无线网络物联网生态系统的安全性。
[111] On the Consistency of GNN Explanations for Malware Detection
Hossein Shokouhinejad,Griffin Higgins,Roozbeh Razavi-Far,Hesamodin Mohammadian,Ali A. Ghorbani
Main category: cs.CR
TL;DR: 该研究提出了一种动态构建控制流图(CFG)并嵌入节点特征的混合方法,结合基于规则的编码和自动编码器嵌入,利用GNN分类器检测恶意行为,并通过多种解释性技术提升模型可解释性。
- Motivation: 随着图神经网络(GNNs)的广泛应用,CFG在恶意软件检测中的有效性得到验证,但现有方法在可解释性方面存在不足。
- Method: 动态构建CFG并嵌入节点特征,结合规则编码和自动编码器嵌入,使用GNN分类器检测恶意行为,并应用多种解释性技术(如GNNExplainer、PGExplainer等)和新型聚合方法RankFusion。
- Result: 通过准确性、保真度和一致性指标验证了框架在恶意软件样本识别和生成可靠解释方面的有效性。
- Conclusion: 该框架不仅提高了恶意软件检测的准确性,还通过增强的解释性技术提供了更可靠和可解释的结果。
[112] Amplified Vulnerabilities: Structured Jailbreak Attacks on LLM-based Multi-Agent Debate
Senmao Qi,Yifei Zou,Peng Li,Ziyi Lin,Xiuzhen Cheng,Dongxiao Yu
Main category: cs.CR
TL;DR: 本文研究了多智能体辩论(MAD)框架在大型语言模型(LLM)中的安全漏洞,特别是其易受越狱攻击的特性。通过结构化提示重写框架,实验表明MAD系统比单智能体设置更脆弱,攻击成功率高达80%。
- Motivation: 多智能体辩论(MAD)通过协作提升复杂任务中的推理能力,但其安全风险,尤其是越狱攻击的脆弱性,尚未充分研究。
- Method: 提出了一种结构化提示重写框架,利用叙事封装、角色驱动升级、迭代优化和修辞混淆来攻击MAD系统。
- Result: 实验显示MAD系统比单智能体更脆弱,攻击成功率达80%,危害性从28.14%提升至80.34%。
- Conclusion: MAD架构存在固有漏洞,需在部署前开发专门防御措施。
[113] Case Study: Fine-tuning Small Language Models for Accurate and Private CWE Detection in Python Code
Md. Azizul Hakim Bappy,Hossen A Mustafa,Prottoy Saha,Rajinus Salehat
Main category: cs.CR
TL;DR: 小型语言模型(SLMs)通过微调可以高效检测代码漏洞,替代大型语言模型(LLMs)解决隐私和成本问题。
- Motivation: LLMs依赖云端且计算成本高,不适合敏感或专有代码库的安全分析,SLMs可作为隐私保护的替代方案。
- Method: 使用350M参数的预训练代码模型(codegen-mono),通过半监督方法生成数据集并微调,检测Python代码中的MITRE Top 25 CWEs。
- Result: 微调后的SLM在测试集上表现优异:准确率99%,精确率98.08%,召回率100%,F1分数99.04%。
- Conclusion: 微调SLMs是高效、隐私保护的CWE检测工具,可直接集成到开发流程中。
[114] MAYA: Addressing Inconsistencies in Generative Password Guessing through a Unified Benchmark
William Corrias,Fabio De Gaspari,Dorjan Hitaj,Luigi V. Mancini
Main category: cs.CR
TL;DR: MAYA是一个统一的密码基准测试框架,用于评估生成式密码猜测模型的性能,发现序列模型在生成复杂密码方面表现最佳。
- Motivation: 生成模型在密码猜测领域的应用缺乏标准化评估,阻碍了对其实用性的全面理解。
- Method: 引入MAYA框架,通过标准化测试场景和真实数据集评估六种先进模型。
- Result: 序列模型在生成复杂密码方面表现最优,多模型攻击效果优于单一模型。
- Conclusion: MAYA为密码生成技术提供了可靠的基准测试工具,促进进一步研究。
[115] Building A Secure Agentic AI Application Leveraging A2A Protocol
Idan Habler,Ken Huang,Vineeth Sai Narajala,Prashant Kulkarni
Main category: cs.CR
TL;DR: 本文对Google的Agent2Agent(A2A)协议进行了全面的安全分析,提出了安全开发方法和架构实践,以增强复杂多代理协作系统的可靠性。
- Motivation: 随着AI系统从简单工作流发展为复杂的多代理协作,确保A2A协议的安全实现成为关键需求。
- Method: 使用MAESTRO框架进行主动威胁建模,分析A2A部署中的安全问题,如代理卡管理、任务执行完整性和认证方法。
- Result: 提出了安全开发方法和架构实践,并探讨了A2A与模型上下文协议(MCP)的协同作用以增强互操作性。
- Conclusion: 本文为开发者提供了构建安全可靠的下一代代理应用所需的知识和实践指导。
cs.MA
[116] MARFT: Multi-Agent Reinforcement Fine-Tuning
Junwei Liao,Muning Wen,Jun Wang,Weinan Zhang
Main category: cs.MA
TL;DR: 本文提出了一种名为多智能体强化微调(MARFT)的新范式,用于优化基于LLM的多智能体系统(LaMAS),并提供了一个通用的算法框架和开源实现。
- Motivation: 现有研究在将多智能体强化学习(MARL)应用于LaMAS时面临挑战,因此需要一种新的方法来适应LaMAS的独特特性。
- Method: 提出了MARFT框架,包括理论基础、关键区别和实际实现策略,并提供了开源实现。
- Result: MARFT为LaMAS提供了一种稳健且可扩展的解决方案,填补了MARL与LaMAS之间的鸿沟。
- Conclusion: 本文为研究人员提供了MARFT的理论和实践指导,旨在推动LaMAS向更具适应性和鲁棒性的方向发展。
cs.RO
[117] ManipDreamer: Boosting Robotic Manipulation World Model with Action Tree and Visual Guidance
Ying Li,Xiaobao Wei,Xiaowei Chi,Yuming Li,Zhongyu Zhao,Hao Wang,Ningning Ma,Ming Lu,Shanghang Zhang
Main category: cs.RO
TL;DR: ManipDreamer通过动作树和视觉引导提升机器人操作视频合成的指令跟随能力和视觉质量。
- Motivation: 现有方法如RoboDreamer未考虑指令原语间的关系,且忽视深度和语义引导,影响视觉质量。
- Method: 将指令表示为动作树,为节点分配嵌入;引入视觉引导适配器增强时空一致性。
- Result: 在未见过任务中,PSNR从19.55提升至21.05,SSIM从0.7474提升至0.7982,Flow Error从3.506降至3.201;RLbench任务成功率平均提高2.5%。
- Conclusion: ManipDreamer显著提升指令跟随能力和视觉质量,适用于机器人操作任务。
[118] Offline Robotic World Model: Learning Robotic Policies without a Physics Simulator
Chenhao Li,Andreas Krause,Marco Hutter
Main category: cs.RO
TL;DR: RWM-O是一种基于模型的离线强化学习方法,通过显式估计认知不确定性来提升策略学习,无需依赖物理模拟器。
- Motivation: 离线强化学习在机器人控制中面临分布偏移和安全性问题,而现有模型方法缺乏鲁棒的认知不确定性估计。
- Method: 提出RWM-O方法,通过估计认知不确定性并将其整合到策略优化中,减少对模型误差的过拟合并提升稳定性。
- Result: 实验结果表明,RWM-O提升了策略的泛化能力和安全性,实现了仅从真实数据中学习策略。
- Conclusion: RWM-O为机器人强化学习提供了一种可扩展且数据高效的方法。
[119] MOSAIC: A Skill-Centric Algorithmic Framework for Long-Horizon Manipulation Planning
Itamar Mishani,Yorai Shaoul,Maxim Likhachev
Main category: cs.RO
TL;DR: MOSAIC是一个技能中心框架,通过技能本身指导规划过程,解决长期运动规划问题。
- Motivation: 解决机器人长期运动规划中技能组合探索、通用技能利用和避免依赖符号世界表示的挑战。
- Method: 使用Generators生成可执行轨迹和世界配置,Connectors通过解决边界值问题链接技能轨迹。
- Result: 在模拟和真实机器人操作任务中展示了解决复杂长期规划问题的能力。
- Conclusion: MOSAIC通过技能中心方法实现了对复杂长期规划问题的鲁棒和可扩展解决方案。
[120] Latent Diffusion Planning for Imitation Learning
Amber Xie,Oleh Rybkin,Dorsa Sadigh,Chelsea Finn
Main category: cs.RO
TL;DR: 提出了一种名为Latent Diffusion Planning (LDP)的模块化方法,通过利用无动作演示和次优数据,在学习的潜在空间中进行规划和逆动力学建模,优于现有模仿学习方法。
- Motivation: 现有模仿学习方法依赖大量专家演示,限制了其应用范围。LDP旨在通过利用无动作演示和次优数据来解决这一问题。
- Method: 1. 通过变分自编码器学习紧凑潜在空间;2. 使用扩散目标训练规划器和逆动力学模型。
- Result: 在模拟视觉机器人操作任务中,LDP优于现有模仿学习方法。
- Conclusion: LDP通过分离规划和动作预测,能够利用更多数据,展示了在复杂任务中的潜力。
cs.NE
[121] Regularizing Differentiable Architecture Search with Smooth Activation
Yanlin Zhou,Mostafa El-Khamy,Kee-Bong Song
Main category: cs.NE
TL;DR: SA-DARTS通过平滑激活函数解决DARTS中的跳跃连接优势和离散化差异问题,提升了NAS的性能和鲁棒性。
- Motivation: DARTS方法存在鲁棒性、泛化性和差异性问题,尤其是跳跃连接优势导致的性能崩溃。
- Method: 提出SA-DARTS,利用平滑激活函数作为辅助损失,平衡权重自由操作的不公平优势。
- Result: SA-DARTS在NAS-Bench-201、分类和超分辨率任务中取得SOTA结果,并提升现有模型的性能。
- Conclusion: SA-DARTS是一种简单有效的方法,解决了DARTS的核心问题,并在多个任务中验证了其优越性。
cs.DC
[122] DP2FL: Dual Prompt Personalized Federated Learning in Foundation Models
Ying Chang,Xiaohu Shi,Xiaohui Zhao,Zhaohuang Chen,Deyin Ma
Main category: cs.DC
TL;DR: DP2FL框架通过双提示和自适应聚合策略解决个性化联邦学习中数据不足和新客户端集成问题,提升模型性能。
- Motivation: 解决个性化联邦学习中因本地数据不足导致的模型训练不足问题,并探索基础模型(如CLIP)在联邦学习中的应用潜力。
- Method: 提出DP2FL框架,结合双提示和自适应聚合策略,平衡全局任务意识和本地数据驱动,支持新客户端无缝集成。
- Result: 实验验证了DP2FL在异构环境中的有效性,展示了其在新数据预测和新客户端集成方面的优势。
- Conclusion: DP2FL通过创新的提示设计和聚合策略,显著提升了联邦学习在数据不足和新客户端场景下的性能。
cs.SE
[123] Mining Software Repositories for Expert Recommendation
Chad Marshall,Andrew Barovic,Armin Moin
Main category: cs.SE
TL;DR: 提出了一种基于BERTopic和TopicMiner的自动化方法,用于将开源项目中的bug分配给合适的开发者,通过历史数据和bug报告特征优化分配效果。
- Motivation: 帮助人工bug分类员更高效地为新报告的bug找到具有相关专业知识的开发者。
- Method: 利用BERTopic和TopicMiner技术,结合bug报告的产品、组件、优先级和严重性等特征,根据开发者的历史经验进行排序。
- Result: 在Eclipse和Mozilla项目(如JDT、Firefox、Thunderbird)上评估,使用Top-k准确率,并与TopicMiner MTM、BUGZIE、BT-RL和LDA-SVM等方法对比。
- Conclusion: 该方法通过历史数据和特征分析,有效提升了bug分配的准确性和效率。
[124] Harden and Catch for Just-in-Time Assured LLM-Based Software Testing: Open Research Challenges
Mark Harman,Peter O'Hearn,Shubho Sengupta
Main category: cs.SE
TL;DR: 论文探讨了软件测试中的硬化测试和捕获测试,提出了“及时捕获测试”挑战,并讨论了基于LLM的自动化硬化测试的初步成果。
- Motivation: 尽管自动化软件测试研究已有数十年,但一些基本概念仍不明确且潜力巨大。论文旨在探索这些概念在大型语言模型(LLM)测试生成中的新挑战。
- Method: 论文形式化定义了硬化测试和捕获测试,并提出了“及时捕获测试”(JiTTest)挑战,探讨了测试生成的可能结果和部署选项。
- Result: 初步结果表明,基于LLM的自动化硬化测试在Meta的应用中具有潜力。
- Conclusion: 论文总结了硬化测试和捕获测试的研究问题,并展望了未来在LLM测试生成中的发展方向。
[125] On Developers' Self-Declaration of AI-Generated Code: An Analysis of Practices
Syed Mohammad Kashif,Peng Liang,Amjed Tahir
Main category: cs.SE
TL;DR: 研究探讨开发者如何自我声明AI生成代码及其原因,通过混合方法研究发现多数开发者会声明,并分析了声明与不声明的原因。
- Motivation: 现实开发中需区分AI生成与人工代码,但现有研究多关注代码质量而非声明行为,因此探索开发者自我声明的方式与动机。
- Method: 混合方法研究:1) 挖掘GitHub仓库收集613个AI生成代码实例;2) 工业调查获取111份有效反馈。
- Result: 76.6%开发者会声明AI生成代码,原因包括追踪调试和伦理考量;23.4%不声明,因代码修改多或认为声明不必要。
- Conclusion: 提供实践指南,强调声明AI生成代码对伦理与代码质量的重要性。
cs.CL
[126] FinNLI: Novel Dataset for Multi-Genre Financial Natural Language Inference Benchmarking
Jabez Magomere,Elena Kochkina,Samuel Mensah,Simerjot Kaur,Charese H. Smiley
Main category: cs.CL
TL;DR: FinNLI是一个用于金融自然语言推理的基准数据集,包含21,304对数据,测试集由金融专家标注。评估显示领域转移显著降低通用NLI性能,当前LLMs在金融推理上表现不佳。
- Motivation: 构建一个多样化的金融NLI数据集,以评估和提升模型在金融领域的推理能力。
- Method: 通过金融文本(如SEC文件、年报、电话会议记录)构建多样化的前提-假设对,并确保减少虚假相关性。
- Result: 预训练模型和大型语言模型的最高Macro F1分别为74.57%和78.62%,指令调优的金融LLMs表现较差。
- Conclusion: FinNLI揭示了当前LLMs在金融推理上的不足,为未来改进提供了方向。
[127] Transformer-Based Extraction of Statutory Definitions from the U.S. Code
Arpana Hosabettu,Harsh Shah
Main category: cs.CL
TL;DR: 论文提出了一种基于Transformer架构的NLP系统,用于从美国法典中自动提取法律定义、术语及其范围,显著提升了提取准确性。
- Motivation: 提升对复杂法律文本(如美国法典)的理解和清晰度,解决自动识别法律定义、提取术语及其范围的挑战。
- Method: 采用领域特定的Transformer模型(Legal-BERT),结合多阶段处理流程,包括文档结构分析和语言模型,分类段落并提取定义。
- Result: 在多个美国法典标题上评估,最佳模型达到96.8%的精确率和98.9%的召回率(F1分数98.2%),显著优于传统方法。
- Conclusion: 该系统提高了法律信息的可访问性和理解,为下游法律推理任务奠定了基础。
[128] ConTextual: Improving Clinical Text Summarization in LLMs with Context-preserving Token Filtering and Knowledge Graphs
Fahmida Liza Piya,Rahmatollah Beheshti
Main category: cs.CL
TL;DR: 论文提出了一种名为ConTextual的新框架,结合上下文保留的令牌过滤方法和领域特定知识图谱,用于提升临床文本摘要的质量。
- Motivation: 临床非结构化数据是丰富的信息源,但现有方法未能有效提取关键信息,影响了临床决策的及时性和准确性。
- Method: 提出ConTextual框架,集成上下文保留令牌过滤和领域知识图谱,以增强临床文本的上下文信息。
- Result: 在两个公共基准数据集上的实验表明,ConTextual在语言连贯性和临床保真度上优于其他基线方法。
- Conclusion: ConTextual展示了令牌级过滤和结构化检索在提升临床文本生成精度中的互补作用,为临床实践提供了可扩展的解决方案。
[129] Can Large Language Models Help Multimodal Language Analysis? MMLA: A Comprehensive Benchmark
Hanlei Zhang,Zhuohang Li,Yeshuang Zhu,Hua Xu,Peiwu Wang,Jinchao Zhang,Jie Zhou,Haige Zhu
Main category: cs.CL
TL;DR: 论文介绍了MMLA基准测试,用于评估多模态大语言模型(MLLMs)在理解认知级语义方面的能力,覆盖六个核心维度。实验显示当前模型性能有限,仅达60%~70%准确率。
- Motivation: 当前研究缺乏对MLLMs理解认知级语义能力的评估,MMLA旨在填补这一空白。
- Method: 构建包含61K多模态话语的MMLA基准,评估八种主流LLMs和MLLMs,采用零样本推理、监督微调和指令调整三种方法。
- Result: 实验表明,即使微调后模型准确率仅60%~70%,突显当前MLLMs的局限性。
- Conclusion: MMLA为探索大语言模型在多模态语言分析中的潜力提供了基础,并开源数据集和代码。
[130] EMRModel: A Large Language Model for Extracting Medical Consultation Dialogues into Structured Medical Records
Shuguang Zhao,Qiangzhong Feng,Zhiyang He,Peipei Sun,Yingying Wang,Xiaodong Tao,Xiaoliang Lu,Mei Cheng,Xinyue Wu,Yanyan Wang,Wei Liang
Main category: cs.CL
TL;DR: EMRModel结合LoRA微调和代码风格提示设计,将医疗咨询对话高效转换为结构化电子病历,性能显著优于传统方法。
- Motivation: 医疗咨询对话的非结构化特性限制了其在诊断和治疗中的有效利用,传统方法难以捕捉深层语义。
- Method: 采用LoRA微调和代码风格提示设计,构建高质量标注数据集,并提出细粒度评估基准。
- Result: EMRModel的F1分数达88.1%,比标准预训练模型提升49.5%,优于传统LoRA方法。
- Conclusion: EMRModel在结构化病历提取任务中表现优异,推动了医疗NLP模型的优化。
[131] T-VEC: A Telecom-Specific Vectorization Model with Enhanced Semantic Understanding via Deep Triplet Loss Fine-Tuning
Vignesh Ethiraj,Sidhanth Menon,Divya Vijay
Main category: cs.CL
TL;DR: T-VEC是一种专为电信行业定制的嵌入模型,通过深度微调显著提升了电信领域自然语言处理任务的性能。
- Motivation: 电信行业的专业词汇和复杂概念对通用NLP模型构成挑战,需要领域特定的嵌入模型。
- Method: 基于gte-Qwen2-1.5B-instruct模型,采用三元组损失目标,对338层权重进行深度修改,并开发了电信专用分词器。
- Result: T-VEC在MTEB评分(0.825)和内部电信评估(0.9380)中表现优异,显著优于其他模型。
- Conclusion: T-VEC为电信AI提供了强大的开源工具,推动了领域创新。
[132] Transformers for Complex Query Answering over Knowledge Hypergraphs
Hong Ting Tsang,Zihao Wang,Yangqiu Song
Main category: cs.CL
TL;DR: 论文提出了一种基于知识超图(KHG)的复杂查询回答方法LKHGT,通过两阶段Transformer模型处理逻辑操作,并在新数据集上验证了其性能。
- Motivation: 传统三元组知识图谱(KG)难以表示现实世界中复杂的多模态数据,尤其是关系多样性和实体贡献平等的情况。
- Method: 提出LKHGT模型,包含投影编码器和逻辑编码器,采用类型感知偏置(TAB)捕捉交互。
- Result: 实验表明LKHGT在KHG上的复杂查询回答性能最优,并能泛化到分布外查询类型。
- Conclusion: LKHGT为知识超图上的复杂查询回答提供了高效解决方案。
[133] PIS: Linking Importance Sampling and Attention Mechanisms for Efficient Prompt Compression
Lizhe Chen,Binjia Zhou,Yuyao Ge,Jiayi Chen,Shiguang NI
Main category: cs.CL
TL;DR: 论文提出了一种名为Prompt Importance Sampling (PIS)的新方法,通过动态采样重要标记来压缩提示,提升了大型语言模型(LLMs)的效率。
- Motivation: 尽管LLMs在自然语言处理任务中表现出色,但其高成本限制了广泛应用,因此需要高效的提示压缩方法。现有方法忽略了LLMs的内在机制,缺乏对标记重要性的系统评估。
- Method: PIS通过分析隐藏状态的注意力分数动态压缩提示,采用双级压缩机制:标记级别使用注意力分数量化显著性,并通过轻量级强化学习网络实现自适应压缩;语义级别采用俄罗斯轮盘赌采样策略。
- Result: 在多个领域基准测试中,PIS实现了最先进的压缩性能,并意外地通过优化上下文结构提升了推理效率。
- Conclusion: PIS为LLMs的提示工程提供了理论基础和实践效率,推动了上下文管理的进步。
[134] Comparing Large Language Models and Traditional Machine Translation Tools for Translating Medical Consultation Summaries: A Pilot Study
Andy Li,Wei Zhou,Rashina Hoda,Chris Bain,Peter Poon
Main category: cs.CL
TL;DR: 研究比较了大型语言模型(LLM)与传统机器翻译(MT)工具在医学咨询摘要翻译中的表现,发现传统工具表现更优,但LLM在简单文本翻译中显示出潜力。
- Motivation: 评估LLM和传统MT工具在医学翻译中的表现,为改进翻译工具提供依据。
- Method: 使用标准自动化指标评估LLM和传统MT工具对英文医学摘要翻译成阿拉伯语、中文和越南语的效果。
- Result: 传统MT工具表现更好,尤其是复杂文本;LLM在简单文本翻译中表现较好,但一致性不足。
- Conclusion: 需要领域特定训练、改进评估方法及人工监督以提高医学翻译质量。
[135] Debunking with Dialogue? Exploring AI-Generated Counterspeech to Challenge Conspiracy Theories
Mareike Lisker,Christina Gottschalk,Helena Mihaljević
Main category: cs.CL
TL;DR: 论文探讨了使用大型语言模型(如GPT-4o、Llama 3和Mistral)生成针对阴谋论的对抗性言论的可行性,发现模型生成的内容通常泛泛、重复或肤浅,且存在过度承认恐惧和虚构事实的问题。
- Motivation: 解决专家驱动的对抗性言论难以规模化的问题,并填补针对阴谋论的对抗性言论数据集的空白。
- Method: 通过结构化提示,评估GPT-4o、Llama 3和Mistral在生成对抗性言论中的应用能力。
- Result: 模型生成的对抗性言论通常泛泛、重复或肤浅,且存在过度承认恐惧和虚构事实的问题。
- Conclusion: 基于提示的模型在实际应用中存在局限性,需进一步改进以提升对抗性言论的质量和可靠性。
[136] A Post-trainer's Guide to Multilingual Training Data: Uncovering Cross-lingual Transfer Dynamics
Luisa Shimabucoro,Ahmet Ustun,Marzieh Fadaee,Sebastian Ruder
Main category: cs.CL
TL;DR: 研究探讨了多语言数据微调后大语言模型跨语言迁移的动态,发现其效果取决于多种因素组合,并提出了实际有效的迁移条件。
- Motivation: 理解跨语言迁移的动态机制,以优化多语言大模型的微调效果。
- Method: 使用两种模型家族(最大35B参数)在受控多语言数据上训练,研究三种生成任务(摘要、指令跟随、数学推理)在单任务和多任务微调中的表现。
- Result: 跨语言迁移和性能无法由单一变量解释,效果取决于微调设置的组合。
- Conclusion: 确定了实践中实现有效跨语言迁移的条件。
[137] HEMA : A Hippocampus-Inspired Extended Memory Architecture for Long-Context AI Conversations
Kwangseob Ahn
Main category: cs.CL
TL;DR: HEMA是一种受人类认知启发的双记忆系统,通过结合紧凑记忆和向量记忆,显著提升了大型语言模型在长对话中的连贯性和事实回忆能力。
- Motivation: 大型语言模型在长对话中难以保持连贯性,HEMA旨在解决这一问题。
- Method: HEMA结合紧凑记忆(持续更新的单句摘要)和向量记忆(基于余弦相似度查询的分块嵌入存储),并与6B参数变压器集成。
- Result: 实验显示,HEMA在300轮对话中保持连贯性,事实回忆准确率从41%提升至87%,人类评分连贯性从2.7提升至4.3。
- Conclusion: HEMA通过结合逐字回忆和语义连续性,为隐私感知的对话AI提供了实用解决方案,支持长达一个月的对话而无需重新训练模型。
[138] How Effective are Generative Large Language Models in Performing Requirements Classification?
Waad Alhoshan,Alessio Ferrari,Liping Zhao
Main category: cs.CL
TL;DR: 本文探讨了生成式大型语言模型(如Bloom、Gemma和Llama)在需求分类任务中的表现,通过400多次实验发现提示设计和模型架构是关键因素,而数据集的影响则因任务复杂度而异。
- Motivation: 需求工程中生成式LLMs的应用尚未充分探索,本文旨在填补这一空白,评估其在需求分类任务中的有效性。
- Method: 设计了涵盖三个数据集(PROMISE NFR、Functional-Quality和SecReq)的400多次实验,测试生成式LLMs在二元和多类需求分类中的表现。
- Result: 实验表明,提示设计和模型架构对性能至关重要,而数据集的影响则因任务复杂度不同而有所变化。
- Conclusion: 未来模型开发和部署应优化提示结构,并根据任务需求调整模型架构,以提高性能。
[139] Evaluation Framework for AI Systems in "the Wild"
Sarah Jabbour,Trenton Chang,Anindya Das Antar,Joseph Peper,Insu Jang,Jiachen Liu,Jae-Won Chung,Shiqi He,Michael Wellman,Bryan Goodman,Elizabeth Bondi-Kelly,Kevin Samy,Rada Mihalcea,Mosharaf Chowhury,David Jurgens,Lu Wang
Main category: cs.CL
TL;DR: 提出了一种针对生成式AI(GenAI)的全面评估框架,强调动态、多样化的输入和持续评估方法,以弥补传统评估与真实应用之间的差距。
- Motivation: 当前评估方法未能适应GenAI的广泛应用,传统方法依赖固定数据集,无法反映真实性能。
- Method: 提出动态、多样化的输入和持续评估方法,结合人工与自动化评估,注重透明性。
- Result: 为从业者和政策制定者提供了设计评估方法和制定政策的指导,强调性能、公平性和伦理。
- Conclusion: 实施该框架可确保GenAI模型技术熟练、伦理负责且具有实际影响力。
[140] Credible plan-driven RAG method for Multi-hop Question Answering
Ningning Zhang,Chi Zhang,Zhizhong Tan,Xingxing Yang,Weiping Deng,Wenyong Wang
Main category: cs.CL
TL;DR: PAR RAG框架通过规划、执行和审查三阶段,减少多跳问答中的错误传播,显著提升性能。
- Motivation: 当前RAG方法在多跳问答中容易因推理路径偏差或中间结果错误导致答案不准确,需解决此问题。
- Method: 提出PAR RAG框架,采用自上而下问题分解和多粒度验证机制,确保推理路径和中间结果的准确性。
- Result: 在多跳问答数据集上,PAR RAG在EM和F1分数上显著优于现有方法。
- Conclusion: PAR RAG通过结构化推理和错误控制,为多跳问答提供了可靠且可解释的解决方案。
[141] Random Long-Context Access for Mamba via Hardware-aligned Hierarchical Sparse Attention
Xiang Hu,Jiaqi Leng,Jun Zhao,Kewei Tu,Wei Wu
Main category: cs.CL
TL;DR: 论文提出了一种名为HSA的分层稀疏注意力机制,结合RNN的优势,实现了长序列的高效建模和随机访问能力。
- Motivation: 解决RNN无法随机访问历史上下文的问题,同时保持其计算效率优势。
- Method: 提出HSA机制,将输入分块并选择top-k块,通过分层聚合信息,结合硬件对齐的内核设计。
- Result: RAMba模型在64百万上下文长度下实现了完美准确率,并在下游任务中表现优异。
- Conclusion: HSA和RAMba展示了在长上下文建模中的巨大潜力。
[142] Tracing Thought: Using Chain-of-Thought Reasoning to Identify the LLM Behind AI-Generated Text
Shifali Agrahari,Sanasam Ranbir Singh
Main category: cs.CL
TL;DR: 本文提出了一种名为COT Fine-tuned的新框架,用于检测AI生成的文本并识别生成文本的特定语言模型。通过双任务设计和Chain-of-Thought推理,该方法在准确性和可解释性上表现优异。
- Motivation: 近年来,AI生成文本的检测成为重要研究方向,涉及学术诚信、错误信息和AI伦理问题。
- Method: 采用双任务设计(任务A区分AI与人类文本,任务B识别具体语言模型),并引入Chain-of-Thought推理以增强透明度和可解释性。
- Result: 实验表明,COT Fine-tuned在两项任务中均实现高准确率,尤其在语言模型识别和人类-AI分类中表现突出。
- Conclusion: Chain-of-Thought推理显著提升了模型的有效性和可解释性,为AI文本检测提供了新思路。
[143] OptimAI: Optimization from Natural Language Using LLM-Powered AI Agents
Raghav Thind,Youran Sun,Ling Liang,Haizhao Yang
Main category: cs.CL
TL;DR: OptimAI是一个利用LLM驱动的AI代理解决自然语言描述的优化问题的框架,通过四个关键角色实现高效性能,显著优于现有方法。
- Motivation: 优化问题在科学研究和实际应用中至关重要,但将自然语言描述的优化问题转化为数学形式并选择合适的求解器需要大量领域知识。
- Method: 框架包含四个角色:formulator(将自然语言转化为数学公式)、planner(制定高层解决方案)、coder和code critic(与环境交互并优化行动)。采用UCB-based debug调度动态切换计划。
- Result: 在NLP4LP数据集上达到88.1%准确率,Optibench子集上71.2%,错误率分别降低58%和50%。
- Conclusion: OptimAI通过多智能体协作显著提升优化问题的解决效率,验证了框架设计的有效性。
cs.DS
[144] Approximating Optimal Labelings for Temporal Connectivity
Daniele Carnevale,Gianlorenzo D'Angelo,Martin Olsen
Main category: cs.DS
TL;DR: 研究了在时间图中最小化边标签数量以确保所有顶点对在给定时间内连接的优化问题,证明了其近似难度并提出了近似算法。
- Motivation: 在物流、社交网络信息传播等领域,优化边的时间标签可以显著降低成本,因此研究其复杂性和近似性具有重要意义。
- Method: 通过理论分析证明了问题的近似难度,并基于输入图的直径与允许时间的关系提出了近似算法。
- Result: 证明了问题在特定条件下无法近似到特定因子,并提出了接近这些下界的近似算法。
- Conclusion: 研究扩展了对MAL问题的理解,并建立了与静态图中DCSS问题的联系,为后续研究提供了方向。
quant-ph
[145] Introduction to Quantum Machine Learning and Quantum Architecture Search
Samuel Yen-Chi Chen,Zhiding Liang
Main category: quant-ph
TL;DR: 量子计算与机器学习的结合推动了量子机器学习(QML)的发展,旨在通过量子原理提升ML算法性能,并探索自动化设计高性能量子电路架构的方法。
- Motivation: 量子计算和机器学习的快速发展促使研究者探索两者的结合,以提升算法性能并扩大应用范围。
- Method: 通过系统化和自动化的方法设计高性能量子电路架构,使非量子计算领域的研究者也能有效利用量子增强工具。
- Result: QML在多个领域展现出扩展应用前景的潜力。
- Conclusion: 本教程将深入探讨QML的最新突破及其跨领域应用的潜力。
[146] QAOA-GPT: Efficient Generation of Adaptive and Regular Quantum Approximate Optimization Algorithm Circuits
Ilya Tyagin,Marwa H. Farag,Kyle Sherbert,Karunya Shirali,Yuri Alexeev,Ilya Safro
Main category: quant-ph
TL;DR: QAOA-GPT是一个生成框架,利用GPT直接合成量子电路来解决二次无约束二进制优化问题,并在MaxCut问题上验证了其效果。通过自适应QAOA方法生成合成数据集,实验表明QAOA-GPT能高效生成高质量量子电路,显著降低计算开销。
- Motivation: 量子计算在解决经典计算机难以处理的优化问题上有潜力,但现有方法如QAOA存在计算开销大的问题。本研究旨在通过生成式AI(如GPT)来高效生成量子电路。
- Method: 提出QAOA-GPT框架,利用GPT直接合成量子电路。通过自适应QAOA方法生成合成数据集用于训练,并在MaxCut问题上验证。
- Result: 实验证明QAOA-GPT能为未见过的实例生成高质量量子电路,并成功参数化QAOA,显著降低计算开销。
- Conclusion: 生成式AI是生成紧凑量子电路的可扩展途径,QAOA-GPT展示了其潜力。
cs.AR
[147] HPU: High-Bandwidth Processing Unit for Scalable, Cost-effective LLM Inference via GPU Co-processing
Myunghyun Rhee,Joonseop Sim,Taeyoung Ahn,Seungyong Lee,Daegun Yoon,Euiseok Kim,Kyoung Park,Youngpyo Joo,Hosik Kim
Main category: cs.AR
TL;DR: 提出了一种高带宽处理单元(HPU)作为协处理器,通过卸载内存密集型任务提升GPU在大型批次LLM推理中的效率。
- Motivation: 解决Transformer-based LLMs中注意力层因低操作强度和KV缓存高内存需求导致的GPU效率低下问题。
- Method: 设计并实现基于PCIe FPGA卡的HPU原型,作为GPU系统的附加卡,分担内存密集型任务。
- Result: GPU-HPU异构系统相比纯GPU系统性能提升4.1倍,能效提升4.6倍。
- Conclusion: HPU作为可扩展的协处理器,显著提升了LLM推理的效率和能效,无需增加GPU数量。
[148] FPGA-Based Neural Network Accelerators for Space Applications: A Survey
Pedro Antunes,Artur Podobas
Main category: cs.AR
TL;DR: 本文综述了FPGA在航天任务中作为神经网络加速器的潜力,分析了现有研究并提出未来方向。
- Motivation: 航天任务对高性能计算的需求增加,FPGA因其灵活性和抗辐射性成为理想选择,神经网络在自主操作等任务中表现优异。
- Method: 通过文献分析,识别趋势与不足,并提出未来研究方向。
- Result: FPGA基神经网络加速器有望提升航天器计算系统性能。
- Conclusion: FPGA与神经网络的结合为航天计算提供了高效解决方案,未来研究需进一步优化。
q-bio.NC
[149] BrainPrompt: Multi-Level Brain Prompt Enhancement for Neurological Condition Identification
Jiaxing Xu,Kai He,Yue Tang,Wei Li,Mengcheng Lan,Xia Dong,Yiping Ke,Mengling Feng
Main category: q-bio.NC
TL;DR: BrainPrompt结合图神经网络和大型语言模型,通过多级知识驱动提示增强神经疾病诊断的预测能力和可解释性。
- Motivation: 神经疾病(如阿尔茨海默病)早期诊断困难,现有方法依赖成像数据,忽略了非成像因素,限制了预测能力和可解释性。
- Method: 提出BrainPrompt框架,整合ROI级、受试者级和疾病级知识驱动提示,结合GNN和LLM捕获多模态信息。
- Result: 在静息态fMRI数据集上优于现有方法,并能提取与神经科学领域知识一致的可解释生物标志物。
- Conclusion: BrainPrompt通过知识增强的多模态信息,显著提升了神经疾病诊断的预测能力和可解释性。
astro-ph.IM
[150] Radiometer Calibration using Machine Learning
S. A. K. Leeney,H. T. J. Bevins,E. de Lera Acedo,W. J. Handley,C. Kirkham,R. S. Patel,J. Zhu,D. Molnar,J. Cumner,D. Anstey,K. Artuc,G. Bernardi,M. Bucher,S. Carey,J. Cavillot,R. Chiello,W. Croukamp,D. I. L. de Villiers,J. A. Ely,A. Fialkov,T. Gessey-Jones,G. Kulkarni,A. Magro,P. D. Meerburg,S. Mittal,J. H. N. Pattison,S. Pegwal,C. M. Pieterse,J. R. Pritchard,E. Puchwein,N. Razavi-Ghods,I. L. V. Roque,A. Saxena,K. H. Scheutwinkel,P. Scott,E. Shen,P. H. Sims,M. Spinelli
Main category: astro-ph.IM
TL;DR: 论文提出了一种基于机器学习的校准框架,用于提高射电天文辐射计的精度,特别适用于探测21厘米线的微弱信号。
- Motivation: 传统校准方法(如Dicke切换)在处理天线与接收器阻抗不匹配时存在局限性,机器学习为复杂系统的校准提供了新思路。
- Method: 使用神经网络,通过已知信号源训练模型,以校准辐射计并减少信号反射和失真。
- Result: 首次测试了机器学习校准框架,证明其能够满足探测21厘米线所需的精度要求。
- Conclusion: 机器学习校准框架为射电天文辐射计的高精度校准提供了有效解决方案,尤其适用于宇宙学中的微弱信号探测。
math.NA
[151] Physics-Informed Inference Time Scaling via Simulation-Calibrated Scientific Machine Learning
Zexi Fan,Yan Sun,Shihao Yang,Yiping Lu
Main category: math.NA
TL;DR: SCaSML是一种物理信息框架,通过动态修正科学机器学习(SciML)预测,减少高维偏微分方程(PDE)求解中的偏差和误差。
- Motivation: 高维PDE在多个领域存在计算挑战,现有SciML方法常忽略物理规律且存在偏差。
- Method: 提出SCaSML框架,利用推断时缩放策略和蒙特卡洛求解器动态修正预测,并量化系统误差。
- Result: 数值实验显示SCaSML比基础模型减少20-50%的误差,首次实现推断时修正高维PDE近似解。
- Conclusion: SCaSML通过物理规律动态优化预测,显著提升高维PDE求解的准确性和收敛速度。
cs.SD
[152] TinyML for Speech Recognition
Andrew Barovic,Armin Moin
Main category: cs.SD
TL;DR: 论文提出了一种在资源受限的IoT边缘设备上部署量化1D卷积神经网络模型的方法,用于语音识别,准确率高达97%,并支持23种关键词。
- Motivation: 为智能家居和辅助生活等IoT应用提供高效的语音识别解决方案。
- Method: 使用Edge Impulse技术优化模型性能,并在Arduino Nano 33 BLE Sense微控制器上实现原型验证。
- Result: 模型在自建数据集上达到97%的准确率,支持23种关键词。
- Conclusion: 该方法在资源受限设备上实现了高效语音识别,具有广泛的应用潜力。
cs.LG
[153] SparseJEPA: Sparse Representation Learning of Joint Embedding Predictive Architectures
Max Hartman,Lav Varshney
Main category: cs.LG
TL;DR: SparseJEPA通过稀疏表示学习改进JEPA框架,提升表示质量与可解释性,并在CIFAR-100和轻量级Vision Transformer上验证其有效性。
- Motivation: JEPA框架缺乏可解释性且因密集嵌入表示效率低下,需改进。
- Method: 引入稀疏表示学习,通过惩罚方法鼓励潜在空间变量在语义相关特征间共享。
- Result: 在CIFAR-100和轻量级Vision Transformer上验证,稀疏性提升了表示质量和可解释性。
- Conclusion: 稀疏性不仅优化潜在空间,还促进有意义且可解释的表示学习,未来将探索对象中心表示学习。
[154] Hexcute: A Tile-based Programming Language with Automatic Layout and Task-Mapping Synthesis
Xiao Zhang,Yaoyao Ding,Yang Hu,Gennady Pekhimenko
Main category: cs.LG
TL;DR: Hexcute是一种基于分块的编程语言,用于优化GPU上的混合数据类型矩阵乘法运算,平衡表达能力和工程效率,显著提升性能。
- Motivation: 深度学习量化技术需要混合数据类型的矩阵乘法运算,现有编译器在表达能力和编程效率上存在不足。
- Method: Hexcute通过分块编程语言暴露共享内存和寄存器抽象,结合任务映射和自动布局合成算法,实现细粒度优化。
- Result: Hexcute在混合类型运算上比现有编译器快1.7-11.28倍,端到端评估中提升达2.91倍。
- Conclusion: Hexcute在表达能力和性能优化上取得了显著平衡,适用于广泛的深度学习算子。
[155] Gradient-Optimized Fuzzy Classifier: A Benchmark Study Against State-of-the-Art Models
Magnus Sieverding,Nathan Steffen,Kelly Cohen
Main category: cs.LG
TL;DR: 本文通过梯度优化的模糊推理系统(GF)与多种先进机器学习模型进行性能对比,结果表明GF在分类准确性、训练效率和鲁棒性方面表现优异。
- Motivation: 研究旨在验证梯度优化的模糊推理系统是否能在保持高精度的同时,提升训练效率和适应性,成为复杂深度学习模型的替代方案。
- Method: 使用梯度下降优化模糊推理系统,并在五个UCI数据集上与随机森林、XGBoost、逻辑回归、支持向量机和神经网络进行对比。
- Result: GF模型在分类准确性上表现优异,训练时间短,且对噪声数据和多样特征集具有鲁棒性。
- Conclusion: 梯度优化的模糊系统是一种高效、可解释且适应性强的监督学习替代方案。
[156] Boosting Classifier Performance with Opposition-Based Data Transformation
Abdesslem Layeb
Main category: cs.LG
TL;DR: 本文提出了一种基于对立学习(OBL)的新型数据转换框架,用于提升传统分类算法的性能。通过生成合成对立样本,OBL显著改善了决策边界的形成,并在多个分类器上验证了其有效性。
- Motivation: 传统分类算法在复杂或稀疏学习环境中性能有限,需要一种轻量级但高效的数据转换策略来提升其表现。
- Method: 提出了三种OBL变体(全局OBL、类级OBL和局部类级OBL),并将其与KNN、SVM、LR和DT等分类器结合。
- Result: 在26个异构和高维数据集上的实验表明,OBL增强的分类器在准确率和F1分数上均优于标准版本,且计算效率更高。
- Conclusion: OBL是一种轻量级但强大的数据转换策略,特别适用于复杂或稀疏学习环境中的分类任务。
[157] Quantum Doubly Stochastic Transformers
Jannis Born,Filip Skogh,Kahn Rhrissorrakrai,Filippo Utro,Nico Wagner,Aleksandros Sobczyk
Main category: cs.LG
TL;DR: 论文提出了一种混合经典-量子双随机Transformer(QDSFormer),用变分量子电路替代Softmax,提升了性能与训练稳定性。
- Motivation: 传统Transformer中Softmax的归一化可能导致训练不稳定,而现有的双随机矩阵方法(如Sinkhorn算法)存在灵活性不足的问题。量子电路为双随机矩阵提供了新的参数化方法。
- Method: 提出QDSFormer,用变分量子电路替代Softmax,生成更灵活的双随机矩阵。研究了电路的表达能力及其信息保留能力。
- Result: QDSFormer在小规模物体识别任务中性能优于标准Vision Transformer和其他双随机Transformer,训练更稳定。
- Conclusion: QDSFormer展示了量子电路在Transformer中的潜力,为小规模数据训练提供了更稳定的解决方案。
[158] An Automated Pipeline for Few-Shot Bird Call Classification: A Case Study with the Tooth-Billed Pigeon
Abhishek Jana,Moeumu Uili,James Atherton,Mark O'Brien,Joe Wood,Leandra Brickson
Main category: cs.LG
TL;DR: 提出了一种针对稀有鸟类的自动化单次鸟鸣分类方法,解决了现有分类器因训练数据不足无法识别稀有物种的问题。
- Motivation: 现有分类器(如BirdNET和Perch)对常见鸟类表现优异,但对仅有1-3个录音的稀有物种无能为力,这对濒危物种监测至关重要。
- Method: 利用大型鸟类分类网络的嵌入空间,结合余弦相似度分类器及预处理技术(过滤和降噪),以最少训练数据优化检测。
- Result: 在模拟和真实场景(极度濒危的齿嘴鸽)测试中,模型召回率达1.0,准确率达0.95。
- Conclusion: 该系统为保护濒危物种提供了实用工具,且开源可用。
[159] DataS^3: Dataset Subset Selection for Specialization
Neha Hulkund,Alaa Maalouf,Levi Cai,Daniel Yang,Tsun-Hsuan Wang,Abigail O'Neil,Timm Haucke,Sandeep Mukherjee,Vikram Ramaswamy,Judy Hansen Shen,Gabriel Tseng,Mike Walmsley,Daniela Rus,Ken Goldberg,Hannah Kerner,Irene Chen,Yogesh Girdhar,Sara Beery
Main category: cs.LG
TL;DR: 论文提出了一种针对特定部署场景的数据子集选择方法(DS3),并引入了DataS^3数据集和基准测试,证明了定制化数据筛选对提升模型性能的重要性。
- Motivation: 现实中的机器学习应用需要在特定部署场景(如特定医院或国家公园)中表现良好,但这些场景的数据分布往往不平衡且独特。传统训练数据与部署数据分布的不匹配会导致性能下降,因此需要选择适合部署的特定训练数据子集。
- Method: 论文提出了DS3问题,即从通用分布的训练数据中选择适合特定部署分布的子集。作者引入了DataS^3数据集和基准测试,评估了多种算法(如核心集、数据过滤和数据筛选)在DS3问题上的表现。
- Result: 研究发现,通用分布方法在部署特定任务上表现不佳,而手动筛选的专家子集在准确性上最高可提升51.3%。
- Conclusion: 定制化的数据筛选对提升部署特定任务的性能和训练效率至关重要,未来随着全球公共数据集的普及,这一问题将更加重要。
[160] MAGIC: Near-Optimal Data Attribution for Deep Learning
Andrew Ilyas,Logan Engstrom
Main category: cs.LG
TL;DR: 提出了一种新方法MAGIC,结合经典方法和元微分技术,用于估计训练数据增减对模型预测的影响。
- Motivation: 在非凸大规模场景下,现有方法对数据归属的估计效果不佳,与真实情况相关性弱。
- Method: 结合经典方法和元微分技术,开发了MAGIC方法。
- Result: MAGIC能近乎最优地估计训练数据增减对预测的影响。
- Conclusion: MAGIC方法在非凸大规模场景下显著提升了数据归属估计的准确性。
[161] iTFKAN: Interpretable Time Series Forecasting with Kolmogorov-Arnold Network
Ziran Liang,Rui An,Wenqi Fan,Yanghui Rao,Yuxuan Liang
Main category: cs.LG
TL;DR: iTFKAN是一种新型可解释时间序列预测模型,通过模型符号化实现高解释性,并结合先验知识注入和时频协同学习策略,在复杂数据中表现优异。
- Motivation: 当前深度预测方法缺乏解释性,限制了其在安全关键领域的应用,如自动驾驶和医疗保健。
- Method: 提出iTFKAN模型,通过模型符号化实现解释性,并结合先验知识注入和时频协同学习策略。
- Result: 实验证明iTFKAN在预测性能和解释能力上均表现优异。
- Conclusion: iTFKAN为可信时间序列预测提供了有效解决方案,兼具高性能和高解释性。
[162] Private Federated Learning using Preference-Optimized Synthetic Data
Charlie Hou,Mei-Yu Wang,Yige Zhu,Daniel Lazar,Giulia Fanti
Main category: cs.LG
TL;DR: POPri利用偏好优化算法提升差分隐私合成数据质量,显著缩小隐私与非隐私设置间的性能差距。
- Motivation: 差分隐私联邦学习(DP-FL)在处理隐私数据时表现有限,而现有差分隐私合成数据方法依赖复杂的提示工程或迭代反馈。POPri旨在通过优化客户端反馈提升合成数据质量。
- Method: POPri将客户端反馈视为偏好排名,并利用直接偏好优化(DPO)等算法微调大语言模型(LLM)以生成高质量差分隐私合成数据。
- Result: 在LargeFedBench数据集上,POPri将隐私与非隐私设置间的性能差距缩小至68%,优于现有方法(52%)和DP-FL(10%)。
- Conclusion: POPri通过偏好优化显著提升差分隐私合成数据的实用性,为隐私保护联邦学习提供了更优解决方案。
[163] Representation Learning via Non-Contrastive Mutual Information
Zhaohan Daniel Guo,Bernardo Avila Pires,Khimya Khetarpal,Dale Schuurmans,Bo Dai
Main category: cs.LG
TL;DR: 论文提出了一种结合对比和非对比自监督学习优势的新目标函数MINC,通过改进谱对比损失,避免了高方差和模型坍塌问题,并在ImageNet上验证了其有效性。
- Motivation: 数据标注成本高且耗时,自监督学习(如SimCLR和BYOL)虽能从未标注数据中学习有用表示,但对比方法方差高,非对比方法易坍塌。因此,需要一种结合两者优势的方法。
- Method: 基于谱对比损失,将其转化为非对比形式,提出MINC损失,避免成对比较(降低方差)并保留互信息(防止坍塌)。
- Result: 在ImageNet上测试,MINC表现优于谱对比损失基线。
- Conclusion: MINC成功结合了对比和非对比方法的优势,提供了一种更高效的自监督学习目标。
[164] Noise-Tolerant Coreset-Based Class Incremental Continual Learning
Edison Mucllari,Aswin Raghavan,Zachary Alan Daniels
Main category: cs.LG
TL;DR: 论文研究了在类增量学习(CIL)中,标签噪声和实例噪声对持续学习方法的影响,提出了两种噪声容忍的重放缓冲算法,并验证了其有效性。
- Motivation: 计算机视觉应用需要适应新数据分布,但持续学习(CL)易受噪声干扰,尤其是标签噪声和实例噪声。本文旨在理解基于Coresets的重放方法的鲁棒性,并提出噪声容忍的CL算法。
- Method: 推导了在一般加性噪声威胁模型下,基于Coresets的重放方法对不相关实例噪声的鲁棒性边界,并设计了两种噪声容忍的重放缓冲算法。
- Result: 实验表明,现有基于内存的CL方法在噪声环境下不鲁棒,而提出的算法在分类准确性和减少遗忘方面表现显著提升。
- Conclusion: 提出的噪声容忍重放缓冲算法在噪声CIL设置中优于现有方法,为持续学习的实际应用提供了更可靠的解决方案。
[165] I-Con: A Unifying Framework for Representation Learning
Shaden Alshammari,John Hershey,Axel Feldmann,William T. Freeman,Mark Hamilton
Main category: cs.LG
TL;DR: 论文提出了一种信息论框架,统一了多种现代机器学习损失函数,揭示了聚类、谱方法、降维、对比学习和监督学习背后的信息几何结构,并基于此开发了新的损失函数,实现了无监督图像分类的显著改进。
- Motivation: 随着表示学习领域的发展,出现了大量针对不同问题的损失函数。本文旨在通过一个统一的信息论框架,概括这些损失函数,揭示其共性。
- Method: 引入一个信息论方程,将多种机器学习方法统一为最小化两个条件分布之间的KL散度,并基于此框架开发新的损失函数。
- Result: 通过理论连接了23种不同方法,并在无监督图像分类任务上实现了8%的性能提升,同时提出了改进对比表示学习的方法。
- Conclusion: 该框架不仅统一了多种机器学习方法,还为新损失函数的设计提供了理论基础,显著提升了无监督学习的性能。
[166] Process Reward Models That Think
Muhammad Khalifa,Rishabh Agarwal,Lajanugen Logeswaran,Jaekyeom Kim,Hao Peng,Moontae Lee,Honglak Lee,Lu Wang
Main category: cs.LG
TL;DR: ThinkPRM是一种基于长链思维(CoT)的生成式验证模型,仅需1%的过程标签即可优于传统判别式验证模型,并在多个基准测试中表现优异。
- Motivation: 传统的过程奖励模型(PRMs)需要大量步骤级监督数据,训练成本高。本研究旨在开发数据高效的PRMs,通过生成验证性思维链(CoT)来验证每一步。
- Method: 提出ThinkPRM,一种长链思维验证模型,利用生成式CoT模型的内在推理能力,仅需少量过程标签进行微调。
- Result: ThinkPRM在ProcessBench、MATH-500和AIME '24等基准测试中表现优于基线模型,且在GPQA-Diamond和LiveCodeBench的域外评估中分别提升8%和4.5%。
- Conclusion: 生成式长链思维PRMs在验证计算扩展方面具有显著优势,且训练所需监督数据极少。
[167] Improving Significant Wave Height Prediction Using Chronos Models
Yilin Zhai,Hongyuan Shi,Chao Zhan,Qing Wang,Zaijin You,Nan Wang
Main category: cs.LG
TL;DR: Chronos是一种基于大型语言模型(LLM)的时间架构,用于波浪高度预测,在计算效率和预测性能上优于传统方法。
- Motivation: 传统物理模型和机器学习方法在计算效率和非线性动态建模方面存在不足,需要更高效的波浪预测解决方案。
- Method: 采用LLM增强的时间架构(Chronos),通过对西北太平洋三个海域历史波浪数据的高级时间模式识别进行优化。
- Result: 训练时间减少14.3%,推理速度提升2.5倍,短期(1-24h)和长期(1-120h)预测表现优异,并具备零样本能力。
- Conclusion: Chronos为波浪预测设定了新标准,提供了高效且可迁移的复杂地球物理系统建模框架。
cs.MM
[168] 4D Multimodal Co-attention Fusion Network with Latent Contrastive Alignment for Alzheimer's Diagnosis
Yuxiang Wei,Yanteng Zhang,Xi Xiao,Tianyang Wang,Xiao Wang,Vince D. Calhoun
Main category: cs.MM
TL;DR: M2M-AlignNet是一种几何感知的多模态共注意力网络,用于通过sMRI和fMRI数据早期诊断阿尔茨海默病(AD),通过对比损失函数和潜在对齐减少模态间差异。
- Motivation: 多模态神经影像数据(如sMRI和fMRI)的异构性为特征融合带来挑战,需要一种方法来解决模态间差异并提升AD诊断敏感性。
- Method: 提出M2M-AlignNet,使用多补丁到多补丁对比损失函数和潜在查询共注意力模块,显式对齐fMRI和sMRI特征。
- Result: 实验验证了方法的有效性,并揭示了fMRI和sMRI作为AD生物标志物的对应关系。
- Conclusion: M2M-AlignNet通过几何感知对齐和多模态融合,显著提升了AD早期诊断的准确性。
q-bio.BM
[169] Heterogeneous networks in drug-target interaction prediction
Mohammad Molaee,Nasrollah Moghadam Charkari
Main category: q-bio.BM
TL;DR: 本文综述了2020至2024年间基于图机器学习的药物-靶标相互作用预测方法,总结了其框架、贡献、数据集及源代码,并探讨了未来挑战。
- Motivation: 药物发现耗时长、成本高,计算预测方法可通过缩小实验范围降低成本,图机器学习在此领域表现优异。
- Method: 综述了图机器学习方法,包括框架、贡献、数据集及源代码,并介绍了常用数据集和性能评估指标。
- Result: 总结了图机器学习在药物-靶标相互作用预测中的成功应用,并提供了相关资源。
- Conclusion: 未来需进一步探索该领域的挑战和关键问题。
[170] The Dance of Atoms-De Novo Protein Design with Diffusion Model
Yujie Qin,Ming He,Changyong Yu,Ming Ni,Xian Liu,Xiaochen Bo
Main category: q-bio.BM
TL;DR: 生成式AI模型,尤其是扩散模型,显著提升了蛋白质从头设计的成功率,降低了实验成本。代表性模型RFDiffusion在多个任务中表现优异。
- Motivation: 利用高质量蛋白质结构和序列数据,结合生成式AI技术,突破传统蛋白质设计方法的局限性。
- Method: 扩散模型用于生成蛋白质骨架和序列,对比不同模型的优缺点。
- Result: 扩散模型在蛋白质设计中表现出色,如RFDiffusion在25项任务中远超传统方法。
- Conclusion: 扩散模型为蛋白质设计带来突破,未来需进一步优化和探索应用方向。
Powered by Deepseek & arXiv Daily AI Enhanced