以下论文的arXiv类型标签包含:cs.CV、cs.AI
cs.CV
[1] Multi-party Collaborative Attention Control for Image Customization
Han Yang,Chuanguang Yang,Qiuli Wang,Zhulin An,Weilun Feng,Libo Huang,Yongjun Xu
Main category: cs.CV
TL;DR: 本文提出了一种无需调参的多方协作注意力控制方法(MCA-Ctrl),通过结合文本和复杂视觉条件实现高质量图像定制,解决了现有方法在复杂场景中的主体泄漏、背景不一致等问题。
- Motivation: 当前图像定制方法存在仅支持单一条件输入、复杂场景中主体泄漏或混淆、背景不一致以及高计算成本等限制,亟需一种更高效的解决方案。
- Method: MCA-Ctrl利用自注意力层的两个关键操作协调多个并行扩散过程,并引入主题定位模块以精确提取可编辑图像层。
- Result: 实验表明,MCA-Ctrl在零样本图像定制任务中优于现有方法,有效解决了主体泄漏和背景不一致问题。
- Conclusion: MCA-Ctrl为复杂视觉条件下的图像定制提供了一种高效且无需调参的解决方案。
[2] Explainable AI-Driven Detection of Human Monkeypox Using Deep Learning and Vision Transformers: A Comprehensive Analysis
Md. Zahid Hossain,Md. Rakibul Islam,Most. Sharmin Sultana Samu
Main category: cs.CV
TL;DR: 研究探讨了使用深度学习(DL)和视觉Transformer模型从公开皮肤病变图像数据集中训练模型的可行性,发现数据限制是主要挑战。通过迁移学习,MobileNet-v2表现最佳,准确率达93.15%。
- Motivation: 由于mpox症状与麻疹和水痘相似,早期临床诊断困难,医学影像结合DL技术有望提升疾病检测。
- Method: 使用公开皮肤病变图像数据集训练DL和视觉Transformer模型,并采用迁移学习和预训练模型优化分类器。
- Result: MobileNet-v2表现最佳(93.15%准确率),ViT B16和ResNet-50也表现良好。
- Conclusion: 数据限制是主要挑战,迁移学习显著提升模型性能,MobileNet-v2为最佳选择。
[3] Deconstructing Bias: A Multifaceted Framework for Diagnosing Cultural and Compositional Inequities in Text-to-Image Generative Models
Muna Numan Said,Aarib Zaidi,Rabia Usman,Sonia Okon,Praneeth Medepalli,Kevin Zhu,Vasu Sharma,Sean O'Brien
Main category: cs.CV
TL;DR: 本文提出了一种名为Component Inclusion Score (CIS)的指标,用于评估文本到图像(T2I)模型在不同文化背景下的生成效果,揭示了模型在西方与非西方文化提示间的性能差距,并提出了改进方法。
- Motivation: T2I模型在生成图像时容易延续训练数据中的文化偏见,导致系统性误表达。本文旨在量化这种偏见,并提出解决方案。
- Method: 通过分析2400张图像,提出CIS指标,评估模型在文化多样性上的表现,并分析数据不平衡、注意力熵和嵌入叠加对公平性的影响。
- Result: 研究发现模型在西方与非西方文化提示间存在显著性能差距,揭示了数据不平衡等问题。
- Conclusion: CIS为诊断和缓解T2I生成中的偏见提供了工具,推动了更公平的AI系统发展。
[4] ZS-VCOS: Zero-Shot Outperforms Supervised Video Camouflaged Object Segmentation
Wenqi Guo,Shan Du
Main category: cs.CV
TL;DR: 该论文提出了一种结合光流、视觉语言模型和SAM 2的零样本方法,显著提升了伪装物体分割的性能,优于现有零样本和监督方法。
- Motivation: 伪装物体分割因目标与背景高度相似而具有挑战性,现有零样本方法性能不足,光流在检测移动物体中表现优异。
- Method: 集成光流、视觉语言模型和SAM 2的序列流程。
- Result: 在MoCA-Mask数据集上F-measure从0.296提升至0.628,优于监督方法;在MoCA-Filter数据集上成功率从0.628提升至0.697。
- Conclusion: 该方法显著提升了伪装物体分割性能,验证了各组件贡献,具有实际应用潜力。
[5] VideoHallu: Evaluating and Mitigating Multi-modal Hallucinations for Synthetic Videos
Zongxia Li,Xiyang Wu,Yubin Qin,Guangyao Shi,Hongyang Du,Dinesh Manocha,Tianyi Zhou,Jordan Lee Boyd-Graber
Main category: cs.CV
TL;DR: VideoHallu是一个评估合成视频中异常内容的基准,利用多模态大语言模型(MLLMs)作为可解释的评估器,并通过GRPO优化提升模型性能。
- Motivation: 现有合成视频生成模型虽能产生高质量帧,但常违反常识和物理规律,现有评估指标(如VideoScore)缺乏对此的关注和可解释性。
- Method: 引入VideoHallu基准,包含专家设计的QA任务,评估多种MLLMs(如GPT-4o、Gemini-2.5-Pro等)在合成视频中的异常检测能力,并通过GRPO进行微调。
- Result: 尽管MLLMs在真实场景表现优异,但在合成视频中仍存在幻觉问题;GRPO微调后,模型性能显著提升。
- Conclusion: VideoHallu揭示了MLLMs在合成视频中的局限性,并通过优化方法提升了其推理能力,为未来研究提供了基准。
[6] WorldGenBench: A World-Knowledge-Integrated Benchmark for Reasoning-Driven Text-to-Image Generation
Daoan Zhang,Che Jiang,Ruoshi Xu,Biaoxiang Chen,Zijian Jin,Yutian Lu,Jianguo Zhang,Liang Yong,Jiebo Luo,Shengda Luo
Main category: cs.CV
TL;DR: WorldGenBench是一个评估文本到图像生成模型世界知识和推理能力的基准,提出知识清单分数作为衡量标准,实验发现扩散模型表现较好,但GPT-4o等专有模型推理能力更强。
- Motivation: 现有文本到图像生成模型在需要丰富世界知识和隐式推理的提示下表现不佳,需要系统性评估和改进。
- Method: 引入WorldGenBench基准和知识清单分数,评估21种先进模型的世界知识和推理能力。
- Result: 扩散模型在开源方法中领先,但专有自回归模型(如GPT-4o)在推理和知识整合上表现更优。
- Conclusion: 下一代文本到图像系统需要更强的理解和推理能力。
[7] Automated Parsing of Engineering Drawings for Structured Information Extraction Using a Fine-tuned Document Understanding Transformer
Muhammad Tayyab Khan,Zane Yong,Lequn Chen,Jun Ming Tan,Wenhe Feng,Seung Ki Moon
Main category: cs.CV
TL;DR: 提出了一种结合OBB检测和Transformer模型的混合深度学习框架,用于从2D工程图中提取结构化信息,显著提高了精度和效率。
- Motivation: 传统OCR在复杂布局和符号重叠时表现不佳,手动提取耗时且易错,需要更高效的解决方案。
- Method: 整合YOLOv11检测OBB和Donut模型解析文档,使用内部标注数据集训练,并比较单模型与类别特定模型的性能。
- Result: 单模型表现更优,精度达94.77%,召回率100%,F1分数97.3%,且减少了幻觉现象(5.23%)。
- Conclusion: 该框架提升了信息提取的准确性,减少了人工干预,适用于高精度制造行业。
[8] Rethinking RGB-Event Semantic Segmentation with a Novel Bidirectional Motion-enhanced Event Representation
Zhen Yao,Xiaowen Ying,Mooi Choo Chuah
Main category: cs.CV
TL;DR: 论文提出了一种新的RGB-Event融合方法,通过Motion-enhanced Event Tensor(MET)和两个模块(BFAM和TFM)解决了时空和模态不对齐问题,显著提升了语义分割性能。
- Motivation: RGB-Event融合中存在时空和模态不对齐问题,现有方法未能有效解决。
- Method: 提出MET将稀疏事件体素转换为密集且时间一致的形式,并引入BFAM和TFM模块解决不对齐问题。
- Result: 在两个大型数据集上,该方法显著优于现有RGB-Event语义分割方法。
- Conclusion: MET和提出的模块有效解决了RGB-Event融合中的不对齐问题,提升了性能。
[9] A Sensor Agnostic Domain Generalization Framework for Leveraging Geospatial Foundation Models: Enhancing Semantic Segmentation viaSynergistic Pseudo-Labeling and Generative Learning
Anan Yaghmour,Melba M. Crawford,Saurabh Prasad
Main category: cs.CV
TL;DR: 本文提出了一种结合软对齐伪标签和源到目标生成预训练的领域泛化方法,利用地理空间基础模型提升遥感图像分割的适应性。
- Motivation: 遥感应用广泛,但高性能分割模型依赖大量标注数据,而标注稀缺和传感器、光照、地理差异带来挑战。领域适应是提升模型泛化能力的潜在解决方案。
- Method: 结合软对齐伪标签与源到目标生成预训练,利用地理空间基础模型,并通过MAE生成学习实现领域不变特征学习。
- Result: 在超光谱和多光谱遥感数据集上的实验验证了方法的有效性,提升了适应性和分割性能。
- Conclusion: 该方法为遥感图像分割的领域泛化提供了有效解决方案,并通过数学分析揭示了MAE生成学习的优势。
[10] PainFormer: a Vision Foundation Model for Automatic Pain Assessment
Stefanos Gkikas,Raul Fernandez Rojas,Manolis Tsiknakis
Main category: cs.CV
TL;DR: PainFormer是一种基于多任务学习的视觉基础模型,用于自动疼痛评估,通过多种输入模态提取高质量嵌入,并在实验中表现出色。
- Motivation: 疼痛评估对患者管理至关重要,自动评估系统能提供持续监测和支持决策,减轻痛苦并防止功能衰退。
- Method: PainFormer是多任务学习模型,训练于14个任务/数据集(共1090万样本),通过Embedding-Mixer模块进行最终评估。
- Result: 在RGB、热成像、深度视频及生理信号等多种模态下表现优异,优于文献中的73种方法。
- Conclusion: PainFormer为自动疼痛评估提供了通用模型,展现了跨模态的先进性能。
[11] Grounding Task Assistance with Multimodal Cues from a Single Demonstration
Gabriel Sarch,Balasaravanan Thoravi Kumaravel,Sahithya Ravi,Vibhav Vineet,Andrew D. Wilson
Main category: cs.CV
TL;DR: MICA框架通过整合眼动和语音线索,提升任务辅助对话代理的能力,弥补RGB视频在捕捉细粒度上下文线索上的不足。
- Motivation: RGB视频无法充分捕捉意图、安全关键因素和用户偏好等细粒度上下文线索,限制了视觉语言模型的推理能力。
- Method: MICA通过眼动和语音线索分割演示为子任务,提取关键帧和字幕,增强视觉问答的上下文基础。
- Result: 多模态线索显著提升响应质量,眼动线索单独达到语音性能的93%,两者结合效果最佳。
- Conclusion: 多模态信号对现实AI任务辅助具有重要价值,需开发适应性多模态模型。
[12] TEMPURA: Temporal Event Masked Prediction and Understanding for Reasoning in Action
Jen-Hao Cheng,Vivian Wang,Huayu Wang,Huapeng Zhou,Yi-Hao Peng,Hou-I Liu,Hsiang-Wei Huang,Kuang-Ming Chen,Cheng-Yen Yang,Wenhao Chai,Yi-Ling Chen,Vibhav Vineet,Qin Cai,Jenq-Neng Hwang
Main category: cs.CV
TL;DR: TEMPURA是一个两阶段训练框架,通过掩码事件预测和视频分割提升视频时间理解能力。
- Motivation: 现有方法在视频时间分辨率和因果依赖建模上存在不足,TEMPURA旨在解决这些问题。
- Method: TEMPURA采用掩码事件预测和密集标注生成因果解释,随后学习视频分割和密集描述。
- Result: 在时间定位和高光检测任务上,TEMPURA表现优于基线模型。
- Conclusion: 结合因果推理和细粒度时间分割能显著提升视频理解能力。
[13] Multimodal and Multiview Deep Fusion for Autonomous Marine Navigation
Dimitrios Dagdilelis,Panagiotis Grigoriadis,Roberto Galeazzi
Main category: cs.CV
TL;DR: 提出一种基于交叉注意力Transformer的多模态传感器融合方法,用于构建船舶周围环境的鸟瞰图,提升自主海洋导航的安全性。
- Motivation: 通过多模态传感器融合,解决复杂海洋环境中导航的准确性和鲁棒性问题。
- Method: 深度融合多视角RGB和长波红外图像与稀疏LiDAR点云,结合X波段雷达和电子海图数据进行训练。
- Result: 生成的鸟瞰图提供了详细可靠的场景表示,提高了导航精度和鲁棒性。
- Conclusion: 实际海上试验验证了该方法在恶劣天气和复杂海洋环境中的有效性。
[14] Toward Onboard AI-Enabled Solutions to Space Object Detection for Space Sustainability
Wenxuan Zhang,Peng Hu
Main category: cs.CV
TL;DR: 论文探讨了基于深度学习模型的视觉传感器在低地球轨道卫星空间物体检测中的可行性和有效性,提出并评估了SE层、ViT和GELAN结合的模型,性能优于基线。
- Motivation: 随着低地球轨道卫星的快速扩展,空间物体检测对碰撞评估和避免至关重要,需要高精度和低延迟的解决方案。
- Method: 研究采用SE层、ViT和GELAN结合的深度学习模型,评估其在空间物体检测任务中的性能。
- Result: 提出的GELAN-ViT-SE模型在mAP50和mAP50:95指标上优于基线,同时降低了计算复杂度和功耗。
- Conclusion: 深度学习模型在空间物体检测中具有潜力,结合SE层和ViT的GELAN模型表现优异,为实际应用提供了高效解决方案。
[15] A Novel WaveInst-based Network for Tree Trunk Structure Extraction and Pattern Analysis in Forest Inventory
Chenyang Fan,Xujie Zhu,Taige Luo,Sheng Xu,Zhulin Chen,Hongxin Yang
Main category: cs.CV
TL;DR: 提出了一种基于离散小波变换的WaveInst实例分割框架,用于从复杂背景中提取树木结构信息,并在多个数据集上表现优异。
- Motivation: 解决现有LiDAR和UAV技术在树木结构提取中成本高或信息缺失的问题。
- Method: 使用离散小波变换增强多尺度边缘信息,结合实例分割框架WaveInst。
- Result: 在多个数据集上表现优异,成熟和幼树的结构提取平均精度分别达49.6和24.3,优于现有方法9.9。
- Conclusion: 该方法为树木结构分析提供了科学数据,可用于精准林业、生态监测和智能育种。
[16] Soft-Masked Semi-Dual Optimal Transport for Partial Domain Adaptation
Yi-Ming Zhai,Chuan-Xian Ren,Hong Yan
Main category: cs.CV
TL;DR: 提出了一种基于软掩码半对偶最优传输(SSOT)的方法,用于解决部分域适应(PDA)问题,通过类别预测和梯度优化实现高效的特征匹配。
- Motivation: 部分域适应(PDA)中目标域标签空间是源域的子集,存在域偏移和标签空间不一致的挑战。
- Method: 估计域类别权重,构建重加权源域,利用软掩码传输距离矩阵增强类导向表示能力,采用半对偶熵正则化Kantorovich问题优化。
- Result: 在四个基准数据集上验证了SSOT的有效性。
- Conclusion: SSOT通过神经网络优化和类导向特征匹配,显著提升了PDA任务的性能。
[17] Automated ARAT Scoring Using Multimodal Video Analysis, Multi-View Fusion, and Hierarchical Bayesian Models: A Clinician Study
Tamim Ahmed,Thanassis Rikakis
Main category: cs.CV
TL;DR: 提出了一种基于多模态视频分析的自动化ARAT评分系统,结合SlowFast、I3D和Transformer模型,通过多视角数据和分层贝叶斯模型提高评分准确性和可解释性。
- Motivation: 手动评分ARAT耗时且存在变异性,需要一种自动化、可扩展且临床验证的解决方案。
- Method: 整合多视角视频数据(同侧、对侧和顶部视角),采用早期和晚期融合技术结合不同模型特征,并使用分层贝叶斯模型推断运动质量。
- Result: 在卒中康复数据集上验证,晚期融合模型达到89.0%的准确率,且分层贝叶斯模型与人工评分高度一致。
- Conclusion: 该系统为自动化康复评估提供了可扩展、可解释且经过临床验证的解决方案。
[18] Topology-Aware CLIP Few-Shot Learning
Dazhi Huang
Main category: cs.CV
TL;DR: 提出一种基于拓扑感知的调优方法,通过结合RTD和交叉熵损失,提升视觉语言模型在少样本学习中的性能。
- Motivation: 在少样本学习中平衡预训练知识保留和任务特定适应是一个挑战,现有方法常忽略潜在空间中的结构信息。
- Method: 在任务残差框架中引入RTD,对齐视觉和文本表示的拓扑结构,仅优化轻量级任务残差参数。
- Result: 在6个基准数据集上,平均准确率提升1-2%。
- Conclusion: 通过拓扑对齐,有效提升了视觉语言模型的少样本学习能力。
[19] Component-Based Fairness in Face Attribute Classification with Bayesian Network-informed Meta Learning
Yifan Liu,Ruichen Yao,Yaokun Liu,Ruohan Zong,Zelin Li,Yang Zhang,Dong Wang
Main category: cs.CV
TL;DR: 本文提出了一种新方法BNMR,通过贝叶斯网络和元学习解决人脸组件公平性问题,实验证明其优于现有基线,并发现组件公平性对人口统计公平性有积极影响。
- Motivation: 人脸识别技术广泛应用,但现有研究多关注人口统计公平性,而忽略了生物面部组件的公平性。本文首次探索了这一领域。
- Method: 提出BNMR方法,结合贝叶斯网络校准器和元学习样本重加权,动态跟踪模型偏差并编码先验概率。
- Result: 在大规模真实人脸数据集上验证,BNMR优于现有基线,且组件公平性对人口统计公平性有积极影响。
- Conclusion: 人脸组件公平性可作为人口统计公平性的替代目标,为未来研究开辟了新方向。
[20] Knowledge-Augmented Language Models Interpreting Structured Chest X-Ray Findings
Alexander Davis,Rafael Souza,Jia-Hao Lim
Main category: cs.CV
TL;DR: CXR-TextInter利用文本中心的大型语言模型(LLM)进行胸片(CXR)解读,通过结构化图像文本表示和医学知识模块提升性能,在多项任务中表现优于现有模型。
- Motivation: 胸片自动解读对临床工作流程和患者护理至关重要,但如何有效利用大型语言模型(LLM)进行视觉任务仍待探索。
- Method: 提出CXR-TextInter框架,将图像内容转化为结构化文本表示,结合医学知识模块增强推理能力,并使用MediInstruct-CXR数据集和CXR-ClinEval基准进行评估。
- Result: CXR-TextInter在病理检测、报告生成和视觉问答等任务中表现优异,超越现有多模态基础模型,且临床质量得到放射科医生认可。
- Conclusion: 研究验证了通过结构化视觉信息和整合领域知识,利用LLM进行医学图像AI的潜力。
[21] Vision and Intention Boost Large Language Model in Long-Term Action Anticipation
Congqi Cao,Lanshu Hu,Yating Yu,Yanning Zhang
Main category: cs.CV
TL;DR: 提出了一种结合视觉和语言模型的多模态方法(ICVL),通过推断行为意图并融合视觉特征,提升长期动作预测的准确性。
- Motivation: 现有方法仅依赖视频数据或文本输入,存在信息缺失或语义不足的问题,需要结合视觉和语言模型的优势。
- Method: 使用视觉语言模型(VLM)从视频推断行为意图,融合视觉特征后输入大语言模型(LLM)进行动作预测,并提出示例选择策略优化上下文学习。
- Result: 在Ego4D、EPIC-Kitchens-55和EGTEA GAZE+数据集上达到最先进性能。
- Conclusion: ICVL模型通过多模态融合和意图推断,显著提升了长期动作预测的效果。
[22] Probabilistic Interactive 3D Segmentation with Hierarchical Neural Processes
Jie Liu,Pan Zhou,Zehao Xiao,Jiayi Shen,Wenzhe Yin,Jan-Jakob Sonke,Efstratios Gavves
Main category: cs.CV
TL;DR: NPISeg3D是一个基于神经过程(NPs)的概率框架,用于解决3D交互式分割中的稀疏点击泛化和不确定性量化问题。
- Motivation: 解决3D交互式分割中稀疏点击难以泛化为准确分割以及缺乏不确定性量化的问题。
- Method: 引入分层潜在变量结构(场景特定和对象特定变量)和概率原型调制器,以增强少样本泛化能力并量化不确定性。
- Result: 在四个3D点云数据集上,NPISeg3D以更少的点击实现了更优的分割性能,并提供可靠的不确定性估计。
- Conclusion: NPISeg3D通过分层建模和概率调制,有效提升了3D交互式分割的准确性和可靠性。
[23] PosePilot: Steering Camera Pose for Generative World Models with Self-supervised Depth
Bu Jin,Weize Li,Baihan Yang,Zhenxin Zhu,Junpeng Jiang,Huan-ang Gao,Haiyang Sun,Kun Zhan,Hengtong Hu,Xueyang Zhang,Peng Jia,Hao Zhao
Main category: cs.CV
TL;DR: PosePilot是一个轻量级框架,通过自监督深度估计增强生成世界模型中的相机姿态可控性,提升视角转换和场景动态模拟的准确性。
- Motivation: 自动驾驶系统中,精确灵活的相机姿态控制对视角转换和场景动态模拟至关重要,但现有方法存在挑战。
- Method: PosePilot利用自监督深度和姿态读取,结合结构从运动原理,通过光度扭曲损失和反向扭曲步骤优化姿态估计。
- Result: 实验表明,PosePilot显著提升了扩散式和自回归世界模型中的结构理解和运动推理能力。
- Conclusion: PosePilot通过自监督深度实现了物理一致的可靠视角合成,为姿态可控性设定了新标准。
[24] Learning Multi-frame and Monocular Prior for Estimating Geometry in Dynamic Scenes
Seong Hyeon Park,Jinwoo Shin
Main category: cs.CV
TL;DR: MMP模型通过前馈方式估计动态场景的3D几何,引入轨迹编码模块提升动态点图表达能力,实验显示其性能优于现有方法。
- Motivation: 动态场景中3D几何估计的挑战在于物体运动和现有模型仅能预测部分属性(如深度或点图),且多帧下属性噪声大,全局优化易失败且成本高。
- Method: 基于Siamese架构,引入轨迹编码模块,将点动态投影到每帧表示上,提升动态场景的表达能力。
- Result: MMP在动态点图预测中达到最优性能,回归误差降低15.1%。
- Conclusion: MMP通过前馈方式有效解决了动态场景3D几何估计的挑战,性能显著提升。
[25] An LLM-Empowered Low-Resolution Vision System for On-Device Human Behavior Understanding
Siyang Jiang,Bufang Yang,Lilin Xu,Mu Yuan,Yeerzhati Abudunuer,Kaiwei Liu,Liekang Zeng,Hongkai Chen,Zhenyu Yan,Xiaofan Jiang,Guoliang Xing
Main category: cs.CV
TL;DR: 论文提出了一种名为Llambda的系统,旨在利用有限标注数据和大量未标注数据,通过生成高质量伪标签和视频描述,优化大型视觉语言模型(LVLM)对低分辨率视频的理解。
- Motivation: 现有大型视觉语言模型(LVLM)主要针对高分辨率数据设计,难以有效理解低分辨率数据。传统标注方法成本高昂,因此需要一种更高效的解决方案。
- Method: 1. 提出对比导向数据标注器,通过对比学习生成高质量伪标签。2. 提出物理知识引导的标注器,利用时空一致性检查减少伪标签错误。3. 使用LoRA高效微调技术适配低分辨率数据。
- Result: 在区域级真实测试平台和三个低分辨率数据集上,Llambda平均Bert-Score优于现有LVLM系统40.03%。
- Conclusion: Llambda通过高效标注和微调技术,显著提升了LVLM在低分辨率视频理解上的性能,同时降低了标注成本。
[26] Co Gesture: Towards Coherent Concurrent Co-speech 3D Gesture Generation with Interactive Diffusion
Xingqun Qi,Yatian Wang,Hengyuan Zhang,Jiahao Pan,Wei Xue,Shanghang Zhang,Wenhan Luo,Qifeng Liu,Yike Guo
Main category: cs.CV
TL;DR: 论文提出了一种新框架Co
- Motivation: 现有方法仅支持单人自说自话的手势合成,忽略了双人交互对话的实用性,且缺乏高质量数据集。
- Method: 提出Co
Gesture框架,包含两个生成分支和时序交互模块(TIM),通过互注意力机制增强协同手势生成。 - Result: 实验表明,该方法在GES-Inter数据集上优于现有模型。
- Conclusion: Co
Gesture能够生成生动且连贯的双人交互手势,数据集和代码已公开。
[27] Multimodal Graph Representation Learning for Robust Surgical Workflow Recognition with Adversarial Feature Disentanglement
Long Bai,Boyi Ma,Ruohan Wang,Guankun Wang,Beilei Cui,Zhongliang Jiang,Mobarakol Islam,Zhe Min,Jiewen Lai,Nassir Navab,Hongliang Ren
Main category: cs.CV
TL;DR: 提出了一种基于图的多模态方法(GRAD),结合视觉和运动学数据,提升手术工作流识别的鲁棒性,应对数据损坏和领域偏移。
- Motivation: 手术工作流识别对自动化任务和提升患者安全至关重要,但数据损坏(如遮挡或传输问题)会导致性能下降。
- Method: 采用多模态解缠图网络,结合对抗训练和上下文校准解码器,整合视觉和运动学数据。
- Result: 实验表明模型在数据损坏和领域偏移下表现优异,具有高稳定性和鲁棒性。
- Conclusion: GRAD方法为复杂动态手术场景提供了可靠的自动化识别方案。
[28] Enhancing the Learning Experience: Using Vision-Language Models to Generate Questions for Educational Videos
Markos Stamatakis,Joshua Berger,Christian Wartena,Ralph Ewerth,Anett Hoppe
Main category: cs.CV
TL;DR: 研究探讨了视觉语言模型在教育视频中生成学习导向问题的能力,评估了现成模型性能、微调效果、视频模态影响及问题质量,并提出了未来研究方向。
- Motivation: 提升教育视频的用户参与度和知识保留率,自动生成问题可激活学习者并支持知识获取,同时帮助评估理解程度。
- Method: 评估现成模型性能、微调效果、视频模态对问题质量的影响,并进行定性研究分析问题相关性、可回答性和难度。
- Result: 发现当前视觉语言模型需微调,问题多样性和相关性存在挑战,提出了未来多模态数据集的需求和研究方向。
- Conclusion: 视觉语言模型在教育视频问题生成中有潜力,但需进一步优化和扩展数据集以提升问题质量和多样性。
[29] AquaGS: Fast Underwater Scene Reconstruction with SfM-Free Gaussian Splatting
Junhao Shi,Jisheng Xu,Jianping He,Zhiliang Lin
Main category: cs.CV
TL;DR: AquaGS是一种基于SeaThru算法的SfM-free水下场景重建模型,结合MVS、NeRF和3DGS技术,实现快速高精度重建。
- Motivation: 水下图像质量受介质干扰影响,传统SfM方法速度慢且效果受限,难以满足实时需求。
- Method: 结合MVS初始化高斯分布,利用NeRF渲染半透明介质,3DGS渲染物体表面,模拟水下光学现象。
- Result: 仅需3张图像输入,30秒内完成高精度重建,显著提升机器人平台实用性。
- Conclusion: AquaGS克服传统方法限制,高效模拟水下光学现象,适用于实时场景。
[30] Efficient 3D Full-Body Motion Generation from Sparse Tracking Inputs with Temporal Windows
Georgios Fotios Angelis,Savas Ozkan,Sinan Mutlu,Paul Wisbey,Anastasios Drosou,Mete Ozay
Main category: cs.CV
TL;DR: 提出一种基于MLP的新方法,通过将长输入序列划分为小时间窗口,结合潜在表示提升3D全身生成性能,显著降低计算和内存开销。
- Motivation: 现有神经网络模型计算成本高且依赖长序列输入,导致性能下降和噪声增加,需高效解决方案。
- Method: 采用MLP架构,将长序列划分为小时间窗口,通过潜在表示融合当前运动与历史上下文。
- Result: 实验表明,该方法在生成准确性上显著优于现有技术,同时大幅降低计算和内存需求。
- Conclusion: 该方法高效且适用于资源受限设备,为AR/VR应用提供了更优的3D全身生成方案。
[31] Not Every Tree Is a Forest: Benchmarking Forest Types from Satellite Remote Sensing
Yuchang Jiang,Maxim Neumann
Main category: cs.CV
TL;DR: ForTy是一个全球森林类型分类基准,利用多时相卫星数据区分自然林、人工林和树作物,并提出一种新型Transformer模型,性能优于基线模型。
- Motivation: 开发精确可靠的森林类型分类模型以支持遏制森林砍伐和生物多样性保护(如欧盟森林砍伐法规)。
- Method: 构建包含20万时间序列图像块的基准数据集,结合Sentinel-2、Sentinel-1、气候和海拔数据,提出新型Transformer模型处理多模态多时相数据。
- Result: 实验表明,提出的Transformer模型性能优于基线卷积神经网络和Transformer模型。
- Conclusion: ForTy基准和新型模型为全球森林类型分类提供了有效工具,支持更精细的森林管理。
[32] 3DWG: 3D Weakly Supervised Visual Grounding via Category and Instance-Level Alignment
Xiaoqi Li,Jiaming Liu,Nuowei Han,Liang Heng,Yandong Guo,Hao Dong,Yang Liu
Main category: cs.CV
TL;DR: 论文提出了一种弱监督的3D视觉定位方法,通过区分类别和实例来解决点云中的模糊性和复杂性。
- Motivation: 解决3D点云中类别级模糊性和实例级复杂性带来的挑战。
- Method: 提出双分支模型:类别级分支利用预训练检测器增强类别感知,实例级分支利用空间关系描述区分实例。
- Result: 在Nr3D、Sr3D和ScanRef基准测试中达到最优性能。
- Conclusion: 该方法有效提升了弱监督3D视觉定位的准确性。
[33] PhytoSynth: Leveraging Multi-modal Generative Models for Crop Disease Data Generation with Novel Benchmarking and Prompt Engineering Approach
Nitin Rai,Arnold W. Schumann,Nathan Boyd
Main category: cs.CV
TL;DR: 研究探索了多模态文本到图像方法生成合成作物病害图像,并首次提供了计算性能基准测试。SD3.5M表现最佳,推荐用于高效数据生成。
- Motivation: 大规模田间作物病害图像采集费时费力,生成模型可提供替代方案,但现有研究缺乏农业领域的计算需求分析。
- Method: 训练三种Stable Diffusion变体(SDXL、SD3.5M、SD3.5L),并使用Dreambooth和LoRA微调技术提升泛化能力。
- Result: SD3.5M表现最优,平均内存18GB,功耗180W,每500张图像能耗1.02kWh(0.002kWh/张),1.5小时生成500张图像。
- Conclusion: SD3.5M适用于高效生成作物病害数据,推荐使用。
[34] CVVNet: A Cross-Vertical-View Network for Gait Recognition
Xiangru Li,Wei Song,Yingda Huang,Wei Meng,Le Chang
Main category: cs.CV
TL;DR: CVVNet是一种针对跨垂直视角步态识别设计的频率聚合架构,通过多尺度特征提取和动态门控聚合机制显著提升了识别性能。
- Motivation: 现有方法在跨垂直视角场景下表现不佳,主要由于视角变化导致的关键解剖特征变形和自遮挡问题。
- Method: 提出CVVNet,包含高-低频提取模块(HLFE)和动态门控聚合机制(DGA),用于多频特征提取和自适应融合。
- Result: CVVNet在DroneGait和Gait3D数据集上分别提升了8.6%和2%的性能。
- Conclusion: CVVNet通过多尺度注意力门控聚合模块有效解决了跨垂直视角步态识别的挑战,性能达到最优。
[35] MVHumanNet++: A Large-scale Dataset of Multi-view Daily Dressing Human Captures with Richer Annotations for 3D Human Digitization
Chenghong Li,Hongjie Liao,Yihao Zhi,Xihe Yang,Zhengwentai Sun,Jiahao Chang,Shuguang Cui,Xiaoguang Han
Main category: cs.CV
TL;DR: MVHumanNet++是一个大规模多视角人类动作序列数据集,旨在填补3D视觉领域人类中心任务的数据缺口,包含4500个身份、9000套日常服装和6.45亿帧数据。
- Motivation: 当前3D视觉领域的人类中心任务因缺乏大规模数据集而进展有限,MVHumanNet++旨在解决这一问题。
- Method: 通过多视角人类捕捉系统收集多样化身份和日常服装的人类数据,并提供丰富的标注(如掩码、关键点、SMPL参数等)。
- Result: 数据集包含大量标注数据,并通过试点研究展示了其在2D和3D视觉任务中的性能提升。
- Conclusion: MVHumanNet++是目前最大规模的3D人类数据集,有望推动人类中心任务的创新。
[36] Mitigating Group-Level Fairness Disparities in Federated Visual Language Models
Chaomeng Chen,Zitong Yu,Junhao Dong,Sen Su,Linlin Shen,Shutao Xia,Xiaochun Cao
Main category: cs.CV
TL;DR: 本文提出FVL-FP框架,通过公平提示调优技术解决联邦视觉语言模型中的群体公平问题,显著减少人口统计偏差。
- Motivation: 联邦视觉语言模型在多模态任务中表现优异,但在联邦学习环境中难以保持跨人口统计群体的公平性。
- Method: FVL-FP包含三个创新组件:CDFP(跨层人口统计公平提示)、DSOP(人口统计子空间正交投影)和FPF(公平感知提示融合)。
- Result: 在四个基准数据集上,FVL-FP平均减少45%的人口统计差异,同时任务性能保持在最先进结果的6%以内。
- Conclusion: FVL-FP为隐私保护多模态系统中确保跨人口统计群体的公平性能提供了参数高效的解决方案。
[37] DualDiff: Dual-branch Diffusion Model for Autonomous Driving with Semantic Fusion
Haoteng Li,Zhao Yang,Zezhong Qian,Gongpeng Zhao,Yuqi Huang,Jun Yu,Huazheng Zhou,Longjun Liu
Main category: cs.CV
TL;DR: DualDiff是一种双分支条件扩散模型,通过Occupancy Ray Sampling和Semantic Fusion Attention提升多视角驾驶场景生成的质量。
- Motivation: 现有方法主要依赖3D边界框和二元图,难以捕捉场景复杂性和多模态信息,因此需要更全面的控制机制。
- Method: 提出DualDiff模型,结合ORS语义丰富的3D表示和SFA机制,设计FGM损失以增强小物体生成。
- Result: 在FID评分中达到最优,并在BEV分割和3D目标检测任务中表现一致更好。
- Conclusion: DualDiff通过多模态信息融合和精细化控制,显著提升了驾驶场景重建的准确性和保真度。
[38] Visual enhancement and 3D representation for underwater scenes: a review
Guoxi Huang,Haoran Wang,Brett Seymour,Evan Kovacs,John Ellerbrock,Dave Blackham,Nantheera Anantrasirichai
Main category: cs.CV
TL;DR: 该论文对水下视觉增强(UVE)和3D重建进行了系统性综述,涵盖了物理模型、方法评估及未来研究方向。
- Motivation: 由于水下环境的复杂成像条件,UVE和3D重建面临挑战,但缺乏全面综述,本文旨在填补这一空白。
- Method: 介绍了物理模型,综述了从传统方法到数据驱动技术(如NeRF和3D高斯泼溅)的多种方法,并进行了定量和定性评估。
- Result: 评估了多种算法在基准数据集上的表现,总结了其处理水下失真的有效性。
- Conclusion: 提出了未来水下视觉研究的关键方向。
[39] PhysNav-DG: A Novel Adaptive Framework for Robust VLM-Sensor Fusion in Navigation Applications
Trisanth Srinivasan,Santosh Patapati
Main category: cs.CV
TL;DR: PhysNav-DG框架结合传感器融合与视觉语言模型,通过双分支架构实现导航动作预测和解释生成,改进导航成功率20%以上。
- Motivation: 解决多样化环境中导航的准确状态估计和透明决策问题。
- Method: 双分支架构结合传感器数据和语义模型(如LLaMA 3.2 11B和BLIP-2),使用自适应卡尔曼滤波器动态调整噪声参数。
- Result: 在MD-NEX Benchmark上,导航成功率提升20%以上,生成高可信且清晰的解释。
- Conclusion: PhysNav-DG连接语义推理与几何规划,提升自主系统的安全性和可信度。
[40] CMAWRNet: Multiple Adverse Weather Removal via a Unified Quaternion Neural Architecture
Vladimir Frants,Sos Agaian,Karen Panetta,Peter Huang
Main category: cs.CV
TL;DR: 提出了一种名为CMAWRNet的统一四元数神经网络架构,用于高效去除多种恶劣天气条件对图像的影响,结合了纹理-结构分解块、轻量级编码器-解码器四元数变换器架构和低光校正的注意力融合块。
- Motivation: 现实应用中,图像常受恶劣天气(如雾、雨、雪)影响,现有方法难以处理多种天气条件组合的问题。
- Method: 采用纹理-结构分解块、轻量级四元数变换器架构和注意力融合块,并引入四元数相似性损失函数以保留颜色信息。
- Result: 在基准数据集和真实图像上,CMAWRNet在去除多种天气伪影方面优于现有方法,并提升了目标检测等下游任务的性能。
- Conclusion: CMAWRNet首次将分解方法应用于通用天气去除任务,展示了其在处理多种恶劣天气条件时的优越性能。
[41] Rethinking Score Distilling Sampling for 3D Editing and Generation
Xingyu Miao,Haoran Duan,Yang Long,Jungong Han
Main category: cs.CV
TL;DR: Score Distillation Sampling (SDS) 是一种基于2D扩散模型的文本到3D生成方法,但缺乏编辑能力。本文提出Unified Distillation Sampling (UDS),统一了生成和编辑任务,性能优于基线方法。
- Motivation: SDS及其变体在生成和编辑3D资产时存在局限性,无法同时高效完成两项任务。本文旨在解决这一问题。
- Method: 通过分析SDS及其变体的梯度项,提出UDS方法,统一生成和编辑的梯度项。
- Result: UDS在生成和编辑任务中均优于基线方法,生成细节更丰富。
- Conclusion: UDS成功弥合了3D生成与编辑之间的鸿沟,代码已开源。
[42] GenSync: A Generalized Talking Head Framework for Audio-driven Multi-Subject Lip-Sync using 3D Gaussian Splatting
Anushka Agarwal,Muhammad Yusuf Hassan,Talha Chafekar
Main category: cs.CV
TL;DR: GenSync是一个基于3D高斯泼溅的多身份唇同步视频合成框架,通过统一网络和分离模块实现高效多身份合成。
- Motivation: 现有3D方法需要为每个身份训练新模型,计算成本高,GenSync旨在解决这一问题。
- Method: 采用统一网络和分离模块,将身份特征与音频表示分离。
- Result: 计算开销降低,训练速度提升6.8倍,同时保持高唇同步精度和视觉质量。
- Conclusion: GenSync为多身份唇同步视频合成提供了一种高效且高质量的解决方案。
[43] GauS-SLAM: Dense RGB-D SLAM with Gaussian Surfels
Yongxin Su,Lin Chen,Kaiting Zhang,Zhongliang Zhao,Chenfeng Hou,Ziping Yu
Main category: cs.CV
TL;DR: GauS-SLAM是一种基于2D高斯面元的密集RGB-D SLAM系统,通过改进几何一致性和多视角一致性,显著提升了跟踪精度和地图重建质量。
- Motivation: 高斯基场景表示在新视角下会出现几何失真,影响跟踪精度,主要原因是高斯基元的深度建模和表面间的深度混合干扰。
- Method: 提出2D高斯增量重建策略和表面感知深度渲染机制,动态隔离可见表面以减少遮挡区域的误对齐。
- Result: 在多个数据集上的实验表明,GauS-SLAM在跟踪精度和渲染保真度上优于同类方法。
- Conclusion: GauS-SLAM通过改进几何建模和动态局部地图设计,实现了高精度的SLAM系统。
[44] HybridGS: High-Efficiency Gaussian Splatting Data Compression using Dual-Channel Sparse Representation and Point Cloud Encoder
Qi Yang,Le Yang,Geert Van Der Auwera,Zhu Li
Main category: cs.CV
TL;DR: HybridGS是一种新的3D高斯溅射压缩框架,结合紧凑生成和标准化点云编码,显著提高了编码和解码速度。
- Motivation: 现有3DGS压缩方案编码时间长且数据格式高度定制化,难以广泛部署。HybridGS旨在解决这些问题。
- Method: HybridGS首先生成紧凑且显式的3DGS数据,引入双通道稀疏表示监督基元位置和特征位深度,再利用标准点云编码器进一步压缩数据。
- Result: 实验表明,HybridGS在重建性能上与最先进方法相当,且编码和解码速度明显更快。
- Conclusion: HybridGS通过结合紧凑生成和标准化编码,提供了一种高效的3DGS压缩解决方案。
[45] Segment Any RGB-Thermal Model with Language-aided Distillation
Dong Xing,Xianxun Zhu,Wei Zhou,Qika Lin,Hang Yang,Yuqing Wang
Main category: cs.CV
TL;DR: 论文提出SARTM框架,将SAM模型适配到RGB-T语义分割任务,通过微调、跨模态知识蒸馏和多尺度特征融合提升性能。
- Motivation: SAM模型仅基于RGB数据训练,无法直接用于RGB-T语义分割,而RGB-T在恶劣天气和光照条件下表现优越。
- Method: 1. 通过添加LoRA层微调SAM;2. 引入语言信息指导训练;3. 提出跨模态知识蒸馏模块(CMKD);4. 调整分割头并加入辅助语义分割头。
- Result: 在MFNET、PST900和FMB三个基准测试中,SARTM显著优于现有方法。
- Conclusion: SARTM成功将SAM扩展到RGB-T语义分割,解决了跨模态不一致性问题,提升了性能。
[46] A Comprehensive Analysis for Visual Object Hallucination in Large Vision-Language Models
Liqiang Jing,Guiming Hardy Chen,Ehsan Aghazadeh,Xin Eric Wang,Xinya Du
Main category: cs.CV
TL;DR: 论文分析了大型视觉语言模型(LVLMs)中视觉对象幻觉的问题,并提出了针对各组件(如语言模型、视觉主干和投影器)的缓解方法,同时开发了两个幻觉基准测试。
- Motivation: 视觉对象幻觉会导致错误信息,影响模型的安全性和可靠性,但其根本原因尚未被全面研究。
- Method: 分析了LLaVA类LVLMs的各个组件(语言模型、视觉主干、投影器),识别错误来源并提出缓解方法;开发了两个幻觉基准测试(QA-VisualGenome和QA-FB15k)。
- Result: 提出了针对各组件问题的缓解方法,并建立了两个新的幻觉评估基准。
- Conclusion: 通过组件分析和基准测试,为减少LVLMs中的视觉对象幻觉提供了有效方法。
[47] MC3D-AD: A Unified Geometry-aware Reconstruction Model for Multi-category 3D Anomaly Detection
Jiayi Cheng,Can Gao,Jie Zhou,Jiajun Wen,Tao Dai,Jinbao Wang
Main category: cs.CV
TL;DR: 提出了一种多类别3D异常检测的统一模型MC3D-AD,结合局部和全局几何信息,显著优于现有单类别方法。
- Motivation: 现有3D异常检测方法需为每个类别单独训练模型,成本高、效率低且泛化能力弱。
- Method: 提出自适应几何感知掩码注意力模块、局部几何感知编码器和全局查询解码器,结合几何信息重建特征。
- Result: 在Real3D-AD和Anomaly-ShapeNet数据集上,分别实现3.1%和9.3%的AUROC提升。
- Conclusion: MC3D-AD模型高效、泛化能力强,显著优于现有方法。
[48] Visual Dominance and Emerging Multimodal Approaches in Distracted Driving Detection: A Review of Machine Learning Techniques
Anthony Dontoh,Stephanie Ivey,Logan Sirbaugh,Andrews Danyo,Armstrong Aboah
Main category: cs.CV
TL;DR: 论文综述了2019-2024年间74项关于分心驾驶检测的研究,指出视觉模型虽准确但泛化性差,多模态方法表现更优,未来需关注轻量化多模态框架。
- Motivation: 分心驾驶是交通事故主因,现有技术多依赖视觉数据,忽视了多模态行为复杂性。
- Method: 系统评估了视觉、传感器、多模态及新兴技术的ML/DL方法。
- Result: 多模态架构优于单模态,但需平衡计算需求;新兴技术提供隐私保护方案。
- Conclusion: 未来应发展轻量多模态框架,结合个性化基准,提升ADAS可靠性。
[49] Lifelong Whole Slide Image Analysis: Online Vision-Language Adaptation and Past-to-Present Gradient Distillation
Doanh C. Bui,Hoai Luan Pham,Vu Trung Duong Le,Tuan Hai Vu,Van Duy Tran,Khang Nguyen,Yasuhiko Nakashima
Main category: cs.CV
TL;DR: ADaFGrad是一种用于全切片图像(WSI)分析的终身学习方法,通过结合病理视觉语言基础模型和梯度蒸馏机制,显著提升了分类性能并减少了遗忘。
- Motivation: WSI在癌症诊断中至关重要,但其大尺寸和分布性带来存储、处理和模型训练的挑战,需要开发终身学习方法以支持多机构协作。
- Method: 利用病理视觉语言基础模型构建框架,结合梯度蒸馏机制模拟分类头参数的梯度变化,实现持续学习。
- Result: ADaFGrad在少量训练周期后优于现有方法,类增量学习场景下性能提升达5.068%,准确率最高提升40.084%。
- Conclusion: ADaFGrad通过创新模块显著提升了WSI分析的终身学习能力,适用于临床环境。
[50] Drug classification based on X-ray spectroscopy combined with machine learning
Yongming Li,Peng Wang,Bangdong Han
Main category: cs.CV
TL;DR: 该论文提出了一种结合X射线吸收光谱、CNN、PSO和SVM的药物检测方法,实现了高精度(99.14%)和快速分类。
- Motivation: 新型药物种类增多,传统检测方法复杂且对仪器和环境要求高,亟需开发快速准确的检测技术。
- Method: 使用CNN提取X射线光谱特征,SVM进行分类,PSO优化SVM参数,实验样本为14种类似药物的化学试剂。
- Result: 模型分类准确率达99.14%,速度快,避免了PSO与SVM直接融合的效率问题。
- Conclusion: 该方法为药物检测提供了快速、高精度且可靠的分类识别方案,应用前景广阔。
[51] Learning Heterogeneous Mixture of Scene Experts for Large-scale Neural Radiance Fields
Zhenxing Mi,Ping Yin,Xue Xiao,Dan Xu
Main category: cs.CV
TL;DR: Switch-NeRF++提出了一种异构混合哈希专家网络(HMoHE),用于高效学习大规模场景的异构分解和表示,显著提升了训练和渲染效率。
- Motivation: 现有的大规模NeRF方法在场景分解、异构建模和效率方面存在未解决的问题。
- Method: 采用异构混合哈希专家网络(HMoHE),结合哈希门控网络和异构哈希专家,实现端到端的大规模场景建模。
- Result: 在多个大规模场景数据集上实现了最先进的渲染精度,训练和渲染效率分别提升了8倍和16倍。
- Conclusion: Switch-NeRF++是一种高效且可扩展的NeRF解决方案,适用于真实世界的大规模场景建模。
[52] Efficient Noise Calculation in Deep Learning-based MRI Reconstructions
Onat Dalmaz,Arjun D. Desai,Reinhard Heckel,Tolga Çukur,Akshay S. Chaudhari,Brian A. Hargreaves
Main category: cs.CV
TL;DR: 本文提出了一种高效计算加速MRI重建中噪声传播的方法,通过DL网络的Jacobian近似噪声协方差,显著降低了计算和内存需求。
- Motivation: 现有DL重建方法常忽略噪声传播问题,但其对重建质量至关重要。本文旨在填补这一空白。
- Method: 利用DL网络的Jacobian近似噪声协方差,提出无偏估计器和Jacobian草图技术,高效计算体素级方差。
- Result: 方法在计算和内存需求上降低了一个数量级以上,性能接近蒙特卡洛模拟结果,且对不同噪声水平和采样方案鲁棒。
- Conclusion: 该方法为DL重建算法提供了高效准确的噪声分析工具,有望重塑MRI重建评估和部署方式。
[53] MLLM-Enhanced Face Forgery Detection: A Vision-Language Fusion Solution
Siran Peng,Zipei Wang,Li Gao,Xiangyu Zhu,Tianshuo Zhang,Ajian Liu,Haoyuan Zhang,Zhen Lei
Main category: cs.CV
TL;DR: 本文提出了一种名为VLF-FFD的新型视觉语言融合方法,用于增强多模态大型语言模型(MLLM)在人脸伪造检测中的性能。通过扩展数据集EFF++和设计双向交互网络VLF-Net,该方法在跨数据集和数据集内评估中均达到了最优性能。
- Motivation: 当前的人脸伪造检测方法通常仅依赖大型语言模型(LLM)或外部检测器,导致视觉和文本模态的整合效果不佳。本文旨在通过视觉语言融合提升检测性能。
- Method: 提出了EFF++数据集扩展和VLF-Net网络设计,通过三阶段训练流程实现视觉与文本特征的双向交互。
- Result: VLF-FFD在跨数据集和数据集内评估中均达到了最优性能。
- Conclusion: VLF-FFD通过视觉语言融合显著提升了人脸伪造检测的效果,为对抗深度伪造驱动的虚假信息提供了可靠工具。
[54] R-Bench: Graduate-level Multi-disciplinary Benchmarks for LLM & MLLM Complex Reasoning Evaluation
Meng-Hao Guo,Jiajun Xu,Yi Zhang,Jiaxi Song,Haoyang Peng,Yi-Xuan Deng,Xinzhi Dong,Kiyohiro Nakayama,Zhengyang Geng,Chen Wang,Bolin Ni,Guo-Wei Yang,Yongming Rao,Houwen Peng,Han Hu,Gordon Wetzstein,Shi-min Hu
Main category: cs.CV
TL;DR: 论文介绍了R-Bench,一个多学科、双语的推理基准,用于评估语言和多模态模型的推理能力,结果显示先进模型在复杂推理任务上表现不佳。
- Motivation: 现有推理基准难以全面评估复杂、多学科和多模态环境下的推理能力,因此需要更严格的评估工具。
- Method: 构建了包含1,094个语言模型问题和665个多模态模型问题的R-Bench基准,涵盖108和83个学科,并进行难度校准和跨语言对齐。
- Result: 实验表明,先进模型在复杂推理任务上表现较差,如OpenAI o1在多模态评估中准确率仅为53.2%。
- Conclusion: R-Bench为多学科和多模态推理提供了严格的评估标准,揭示了当前模型的局限性。
[55] A Birotation Solution for Relative Pose Problems
Hongbo Zhao,Ziwei Long,Mengtan Zhang,Hanli Wang,Qijun Chen,Rui Fan
Main category: cs.CV
TL;DR: 提出了一种新的双旋转解决方案,通过引入三个基础变换和几何度量,在黎曼流形上最小化能量函数,实现相对位姿估计。
- Motivation: 解决传统相对位姿估计方法(如分解本质矩阵或直接估计旋转和平移)的局限性,提出更优的双旋转解决方案。
- Method: 引入三个基础变换及其几何度量,设计三个能量函数,在黎曼流形上迭代更新两个旋转矩阵,最终恢复相对位姿。
- Result: 在多种相对位姿估计任务中表现出优越性能。
- Conclusion: 双旋转解决方案为相对位姿估计提供了新的高效方法,代码和数据集将公开。
[56] Point2Primitive: CAD Reconstruction from Point Cloud by Direct Primitive Prediction
Cheng Wang,Xinzhu Ma,Bin Wang,Shixiang Tang,Yuan Meng,Ping Jiang
Main category: cs.CV
TL;DR: 提出了一种直接从点云预测可编辑CAD模型的方法(Point2Primitive),通过改进的Transformer直接预测草图曲线参数,并重建拓扑和挤出操作。
- Motivation: 现有方法使用隐式场表示草图,导致曲线边缘重建效果不佳,因此需要一种直接预测草图曲线参数的方法。
- Method: 基于改进的Transformer直接预测草图曲线类型和参数,通过自回归优化参数,并结合挤出分割重建拓扑和挤出操作。
- Result: 实验表明,该方法在原始预测精度和CAD重建方面优于现有方法,重建形状具有高几何保真度。
- Conclusion: Point2Primitive方法能够高效地从点云生成可编辑的CAD模型,具有高精度和几何保真度。
[57] A UNet Model for Accelerated Preprocessing of CRISM Hyperspectral Data for Mineral Identification on Mars
Priyanka Kumari,Sampriti Soor,Amba Shetty,Archana M. Nair
Main category: cs.CV
TL;DR: 本文提出了一种基于UNet的自动编码器模型,用于高效预处理火星CRISM MTRDR高光谱数据,显著减少了预处理时间,同时保持了矿物吸收特征。
- Motivation: 传统预处理方法计算量大且耗时,限制了火星矿物识别的效率。本文旨在解决这一问题。
- Method: 使用UNet架构的自动编码器模型,结合MICA光谱库的增强数据,自动化预处理步骤如平滑和连续去除。
- Result: 预处理时间从1.5小时缩短至5分钟,同时保持了分类准确性。
- Conclusion: 该框架提高了火星矿物识别的速度和可靠性,具有实际应用潜力。
[58] Handling Imbalanced Pseudolabels for Vision-Language Models with Concept Alignment and Confusion-Aware Calibrated Margin
Yuchen Wang,Xuefeng Bai,Xiucheng Li,Weili Guan,Liqiang Nie,Xinyang Chen
Main category: cs.CV
TL;DR: 论文提出了一种新框架,通过概念对齐和混淆感知校准机制解决视觉语言模型(VLM)生成伪标签不平衡的问题,显著提升了伪标签的准确性和平衡性。
- Motivation: 现有方法对伪标签不平衡的根本原因研究不足,论文深入分析了概念不匹配和概念混淆两个主要因素,旨在填补这一研究空白。
- Method: 提出了一种结合概念对齐和混淆感知校准机制的新框架,通过增强表现不佳的类别和促进类别间的平衡预测来缓解不平衡问题。
- Result: 在六个基准数据集和三种学习范式上的实验表明,该方法显著提升了伪标签的准确性和平衡性,相对现有最优方法提升了6.29%。
- Conclusion: 论文提出的框架有效解决了伪标签不平衡问题,为视觉语言模型在下游任务中的应用提供了新思路。
[59] Transforming faces into video stories -- VideoFace2.0
Branko Brkljač,Vladimir Kalušev,Branislav Popović,Milan Sečujski
Main category: cs.CV
TL;DR: 论文介绍了VideoFace2.0系统,用于视频中人脸的时空定位、重识别及结构化输出,适用于电视制作和机器学习数据集生成。
- Motivation: 受早期Videoface digitizer启发,开发高效视频分析工具,支持结构化视频故事生成和机器学习数据集创建。
- Method: 结合人脸检测、识别和被动检测跟踪技术,实现鲁棒高效的人脸重识别(ReID)。
- Result: 实验验证了算法的适用性,系统支持实时处理,适用于多种应用场景。
- Conclusion: VideoFace2.0为视频分析和高质量多模态数据集生成提供了模块化解决方案,有望降低相关技术门槛。
[60] RTV-Bench: Benchmarking MLLM Continuous Perception, Understanding and Reasoning through Real-Time Video
Shuhang Xun,Sicheng Tao,Jungang Li,Yibo Shi,Zhixin Lin,Zhanhui Zhu,Yibo Yan,Hanqian Li,Linghao Zhang,Shikang Wang,Yixin Liu,Hanbo Zhang,Xuming Hu,Ying Ma
Main category: cs.CV
TL;DR: RTV-Bench是一个用于评估多模态大语言模型(MLLMs)实时视频分析能力的细粒度基准测试,包含552个视频和4,631个QA对,结果显示开源实时模型优于离线模型,但仍落后于顶级专有模型。
- Motivation: 当前基准测试未能充分评估MLLMs在动态、实时环境中的连续感知、理解和推理能力,因此需要一个新的评测标准。
- Method: RTV-Bench采用多时间戳问答(MTQA)、分层问题结构和多维度评估三项原则,对MLLMs进行测试。
- Result: 开源实时模型表现优于离线模型,但不及专有模型;模型大小或帧采样率对性能提升有限。
- Conclusion: 需要优化模型架构以提升实时视频分析能力,RTV-Bench工具包已开源。
[61] Hierarchical Compact Clustering Attention (COCA) for Unsupervised Object-Centric Learning
Can Küçüksözen,Yücel Yemez
Main category: cs.CV
TL;DR: 论文提出了一种名为COCA的注意力聚类层,用于无监督对象发现任务,通过层次化策略学习对象中心表示。COCA-Net网络结构在多个数据集上表现优异。
- Motivation: 解决单图像中无监督对象发现任务,提取多对象场景中的对象中心表示。
- Method: 提出COCA层,利用紧凑性聚类算法和注意力机制,构建层次化网络COCA-Net。
- Result: 在六个数据集上表现优异,优于或媲美现有模型。
- Conclusion: COCA-Net在对象分割任务中具有高效性和灵活性,尤其在背景分割方面表现突出。
[62] LangGas: Introducing Language in Selective Zero-Shot Background Subtraction for Semi-Transparent Gas Leak Detection with a New Dataset
Wenqi Guo,Yiyang Du,Shan Du
Main category: cs.CV
TL;DR: 论文提出了一种零样本方法用于气体泄漏检测,并发布了合成数据集SimGas,实验显示其方法显著优于基线方法。
- Motivation: 传统人工检测气体泄漏效率低,且公开高质量数据集稀缺,因此需要新的方法和数据集。
- Method: 结合背景减除、零样本目标检测、过滤和分割技术,利用SimGas数据集进行零样本检测。
- Result: 方法在IoU指标上达到69%,显著优于基线方法,并在真实数据集GasVid上表现良好。
- Conclusion: 提出的方法和数据集有效解决了气体泄漏检测问题,代码和数据集已开源。
[63] Benchmarking Feature Upsampling Methods for Vision Foundation Models using Interactive Segmentation
Volodymyr Havrylov,Haiwen Huang,Dan Zhang,Andreas Geiger
Main category: cs.CV
TL;DR: 研究探讨了如何通过任务无关的特征上采样模块提升视觉基础模型(VFMs)在密集预测任务中的表现,并以交互式分割(IS)作为评估基准。
- Motivation: VFMs通常生成低分辨率特征,限制了其在密集预测任务中的直接应用,因此需要探索有效的特征上采样方法。
- Method: 采用任务无关的特征上采样模块,并通过交互式分割(IS)作为评估基准,测试不同上采样策略的效果。
- Result: 实验表明,选择合适的特征上采样策略能显著提升VFMs特征的质量。
- Conclusion: 研究为VFMs在密集预测任务中的应用提供了有效方法,并通过开源代码促进进一步研究。
[64] HandOcc: NeRF-based Hand Rendering with Occupancy Networks
Maksym Ivashechkin,Oscar Mendez,Richard Bowden
Main category: cs.CV
TL;DR: HandOcc是一个基于占位的手部渲染新框架,解决了传统参数化网格方法在保真度和复杂性之间的权衡问题,通过无网格3D渲染实现高效渲染和外观迁移。
- Motivation: 传统方法结合参数化网格和NeRF渲染时,受限于网格初始化和分辨率,难以泛化到无参数模型的对象。HandOcc旨在通过无网格方法解决这一问题。
- Method: 提出一种基于占位的无网格3D渲染流程,仅需3D骨架,通过卷积模型提取外观,并利用NeRF渲染器结合占位表示实现高效渲染。
- Result: 在InterHand2.6M数据集上取得最先进结果,支持快速渲染和优秀的手部外观迁移。
- Conclusion: HandOcc通过无网格方法显著提升了手部渲染的灵活性和性能,为复杂场景下的手部交互提供了新解决方案。
[65] SignSplat: Rendering Sign Language via Gaussian Splatting
Maksym Ivashechkin,Oscar Mendez,Richard Bowden
Main category: cs.CV
TL;DR: 提出一种基于高斯泼溅的框架,用于从少量视角建模复杂手语动作,通过序列数据利用和正则化技术提升渲染质量。
- Motivation: 现有方法多关注简单身体动作(如舞蹈或行走),而手语等复杂动作需要更精细的手部和面部建模,且多视角数据获取困难。
- Method: 利用序列数据克服视角限制,约束网格参数并采用正则化技术防止过拟合,提出自适应控制方法优化高斯分布。
- Result: 在手语视频渲染中表现优异,基准数据集上达到SOTA,复杂动作中显著优于其他方法。
- Conclusion: 通过序列数据和高斯泼溅优化,实现了从少量视角建模复杂动作的高保真渲染。
[66] Unaligned RGB Guided Hyperspectral Image Super-Resolution with Spatial-Spectral Concordance
Yingkai Zhang,Zeqiang Lai,Tao Zhang,Ying Fu,Chenghu Zhou
Main category: cs.CV
TL;DR: 提出了一种名为SSC-HSR的框架,通过两阶段图像对齐和特征聚合模块,解决了高光谱图像超分辨率中未对齐参考RGB图像的问题。
- Motivation: 高光谱图像超分辨率在高分辨率比下性能受限,现有方法因对齐不准确和模块间交互不足而无法有效利用参考图像信息。
- Method: 采用两阶段图像对齐(精细光流模型和变形模型)和特征聚合模块(迭代可变形特征聚合和注意力融合模块)。
- Result: 在三个数据集上的实验表明,该方法在定量和定性评估上均优于现有技术。
- Conclusion: SSC-HSR框架通过改进对齐和融合模块的交互,显著提升了高光谱图像超分辨率的性能。
[67] GarmentGS: Point-Cloud Guided Gaussian Splatting for High-Fidelity Non-Watertight 3D Garment Reconstruction
Zhihao Tang,Shenghao Yang,Hongtao Zhang,Mingbo Zhao
Main category: cs.CV
TL;DR: GarmentGS利用密集点云引导高斯基元,实现快速高保真3D服装重建,训练速度快且支持实时渲染。
- Motivation: 传统3D服装创建耗时耗力,高斯泼溅技术虽在3D场景重建中取得突破,但难以重建高保真非水密服装。
- Method: 提出GarmentGS方法,通过密集点云引导高斯基元的移动、展平和旋转,实现快速点云重建和高质量表面生成。
- Result: 方法在10分钟内完成服装点云重建,传统方法需数小时;渲染效果和几何精度均优于传统方法。
- Conclusion: GarmentGS在保持高质量的同时,实现了快速训练和实时渲染,为3D服装重建提供了新途径。
[68] HiLLIE: Human-in-the-Loop Training for Low-Light Image Enhancement
Xiaorui Zhao,Xinyue Zhou,Peibei Cao,Junyu Lou,Shuhang Gu
Main category: cs.CV
TL;DR: 提出了一种名为HiLLIE的人机交互低光图像增强框架,通过迭代训练和人类视觉偏好标注提升模型输出质量。
- Motivation: 解决低光图像增强(LLIE)中如何生成符合人类视觉偏好的高质量图像的问题。
- Method: 采用人机交互训练框架,通过人类标注和图像质量评估模型(IQA)学习视觉偏好,指导模型训练。
- Result: 实验表明,该方法显著提升了无监督LLIE模型的定量和定性性能。
- Conclusion: HiLLIE框架通过少量标注和迭代训练,有效提升了低光图像增强的视觉质量。
[69] Spotting the Unexpected (STU): A 3D LiDAR Dataset for Anomaly Segmentation in Autonomous Driving
Alexey Nekrasov,Malcolm Burdorf,Stewart Worrall,Bastian Leibe,Julie Stephany Berrio Perez
Main category: cs.CV
TL;DR: 本文提出了一种用于驾驶场景中异常分割的新型数据集,填补了3D异常检测研究的空白,并评估了基线模型。
- Motivation: 自动驾驶车辆需要检测和处理道路上的异常物体,但现有研究主要集中在2D领域,3D研究不足且缺乏高质量多模态数据。
- Method: 创建了一个包含LiDAR和相机数据以及序列信息的公开数据集,用于3D异常分割,并评估了多个基线模型。
- Result: 数据集和评估代码将公开,便于不同方法的测试和性能比较,同时揭示了3D异常检测的挑战。
- Conclusion: 该数据集为自动驾驶安全导航提供了重要支持,推动了3D异常检测研究的发展。
[70] Small Clips, Big Gains: Learning Long-Range Refocused Temporal Information for Video Super-Resolution
Xingyu Zhou,Wei Long,Jingbo Lu,Shiyin Jiang,Weiyi You,Haifeng Wu,Shuhang Gu
Main category: cs.CV
TL;DR: LRTI-VSR是一种新的视频超分辨率训练框架,通过长距离聚焦时间信息和改进的注意力模块提升性能。
- Motivation: 视频超分辨率(VSR)通过利用时间信息优于单图像超分辨率,但长视频中的长期依赖学习仍具挑战性。
- Method: 提出LRTI-VSR框架,包括利用长视频片段特征的训练策略和改进的帧内&帧间Transformer模块。
- Result: 在长视频测试集上,LRTI-VSR实现了最先进的性能,同时保持训练和计算效率。
- Conclusion: LRTI-VSR通过高效利用长距离时间信息,显著提升了VSR模型的性能。
[71] Focus What Matters: Matchability-Based Reweighting for Local Feature Matching
Dongyue Li
Main category: cs.CV
TL;DR: 论文提出了一种新颖的注意力重加权机制,通过分类像素为可匹配和不可匹配两类,动态调整注意力权重和特征表示,显著提升了半稠密匹配性能。
- Motivation: 现有注意力机制对所有像素或关键点平等处理,可能引入冗余和噪声交互。受关键点选择启发,作者希望通过分类像素优化注意力权重。
- Method: 提出双设计:在注意力对数中引入可学习偏置项,并对输入值特征进行匹配性感知的重新缩放。偏置项选择性调整注意力分数,特征重新缩放调节输出表示。
- Result: 在三个基准数据集上的实验表明,该方法优于现有最先进方法。
- Conclusion: 通过动态调整注意力权重和特征表示,该方法有效提升了半稠密匹配的性能。
[72] SparSplat: Fast Multi-View Reconstruction with Generalizable 2D Gaussian Splatting
Shubhendu Jena,Shishir Reddy Vutukur,Adnane Boukhayma
Main category: cs.CV
TL;DR: 该论文提出了一种基于多视角立体(MVS)的学习框架,通过回归2D高斯参数实现稀疏视图下的3D重建和新视角合成(NVS),在性能和速度上均优于现有方法。
- Motivation: 稀疏视图下的3D重建和NVS具有挑战性,现有方法在实时性和准确性上存在不足。论文旨在解决这一问题,并实现两者的联合优化。
- Method: 提出了一种MVS学习框架,通过前馈方式回归2D高斯参数,结合多视角深度视觉特征,实现3D重建和NVS。
- Result: 在DTU、BlendedMVS和Tanks and Temples数据集上取得了最先进的结果,推理速度提升近两个数量级。
- Conclusion: 该方法在稀疏视图下实现了高效的3D重建和NVS,性能显著优于现有技术。
[73] Saliency-Guided Training for Fingerprint Presentation Attack Detection
Samuel Webster,Adam Czajka
Main category: cs.CV
TL;DR: 该论文首次将显著性引导训练应用于指纹呈现攻击检测(PAD),通过实验验证其在有限和大数据场景下的有效性,并在LivDet-2021基准测试中取得第一名。
- Motivation: 显著性引导训练在生物特征PAD任务中表现出泛化能力提升的潜力,但其在指纹PAD中的应用尚未探索。
- Method: 研究通过50名参与者创建了800个人工标注的指纹显著性图,结合算法生成的伪显著性图,评估了五种训练场景下的配置。
- Result: 实验证明显著性引导训练在指纹PAD中有效,尤其在数据有限时表现突出,并在LivDet-2021中取得最佳成绩。
- Conclusion: 显著性引导训练在指纹PAD中具有泛化能力强、数据效率高的优势,适合大规模应用。所有数据和模型已开源。
[74] Sparfels: Fast Reconstruction from Sparse Unposed Imagery
Shubhendu Jena,Amine Ouasfi,Mae Younes,Adnane Boukhayma
Main category: cs.CV
TL;DR: 提出一种基于表面元素抛雪的稀疏视图重建方法,3分钟内完成,利用3D基础模型实现高效重建。
- Motivation: 稀疏相机设置下的形状恢复研究较少,现有方法多依赖数据先验或外部几何先验,本文提出更简单高效的解决方案。
- Method: 利用3D基础模型的任务头(如点云图和相机初始化)实例化2D高斯抛雪模型,通过图像对应关系优化相机参数,并引入新的颜色方差公式。
- Result: 在稀疏未校准设置下,重建和新视角合成任务中达到最优性能。
- Conclusion: 方法高效且简单,显著提升了稀疏视图下的形状重建精度。
[75] ProDisc-VAD: An Efficient System for Weakly-Supervised Anomaly Detection in Video Surveillance Applications
Tao Zhu,Qi Yu,Xinru Dong,Shiyu Li,Yue Liu,Jinlong Jiang,Lei Shu
Main category: cs.CV
TL;DR: ProDisc-VAD提出了一种高效的弱监督视频异常检测框架,通过原型交互层和伪实例判别增强损失解决标签模糊问题,显著提升性能。
- Motivation: 现有基于多示例学习的弱监督视频异常检测方法因标签模糊导致特征学习不充分,需改进。
- Method: 结合原型交互层(PIL)建模正常性,以及伪实例判别增强(PIDE)损失增强特征可分性。
- Result: 在ShanghaiTech和UCF-Crime数据集上分别达到97.98%和87.12%的AUC,参数仅0.4M。
- Conclusion: ProDisc-VAD在高效性和性能上均达到先进水平。
[76] Robust AI-Generated Face Detection with Imbalanced Data
Yamini Sri Krubha,Aryana Hou,Braden Vester,Web Walker,Xin Wang,Li Lin,Shu Hu
Main category: cs.CV
TL;DR: 论文提出了一种结合动态损失重加权和基于排序优化的框架,以解决深度伪造检测中的分布偏移和类别不平衡问题。
- Motivation: 深度伪造技术从研究娱乐工具演变为恶意工具,威胁数字信任。现有检测方法在处理新兴生成模型的分布偏移和数据集类别不平衡时表现不足。
- Method: 提出动态损失重加权和基于排序优化的框架,以提高检测器的鲁棒性和准确性。
- Result: 该方法在类别不平衡条件下表现出优越的泛化能力和性能。
- Conclusion: 该框架为深度伪造检测提供了更鲁棒的解决方案,代码已开源。
[77] DualReal: Adaptive Joint Training for Lossless Identity-Motion Fusion in Video Customization
Wenchuan Wang,Mengqi Huang,Yijing Tu,Zhendong Mao
Main category: cs.CV
TL;DR: DualReal提出了一种联合训练框架,解决文本到视频生成中身份与运动一致性问题,通过动态选择和自适应融合实现性能提升。
- Motivation: 现有方法在定制身份或运动时忽略了二者的相互约束,导致生成过程中出现冲突。
- Method: DualReal包含双感知适应单元和阶段混合控制器,通过动态选择和自适应粒度指导实现无冲突融合。
- Result: 实验表明,DualReal在CLIP-I和DINO-I指标上分别提升21.7%和31.8%,并在运动质量指标上表现优异。
- Conclusion: DualReal通过协同训练解决了身份与运动的冲突问题,显著提升了生成质量。
[78] Improving Physical Object State Representation in Text-to-Image Generative Systems
Tianle Chen,Chaitanya Chakka,Deepti Ghadiyaram
Main category: cs.CV
TL;DR: 论文提出了一种自动生成高质量合成数据的流程,用于改进文本到图像生成模型在对象状态表示上的准确性。通过微调开源模型,在公开数据集上实现了8%以上的平均提升,并在特定数据集上提升了24%以上。
- Motivation: 当前文本到图像生成模型难以准确描述对象状态(如“没有瓶子的桌子”、“空的杯子”),因此需要改进。
- Method: 设计全自动流程生成高质量合成数据,并微调多个开源文本到图像模型。使用GPT4o-mini评估生成图像与提示的对齐程度。
- Result: 在公开数据集GenAI-Bench上平均提升8%以上,在特定200条提示的数据集上平均提升24%以上。
- Conclusion: 通过合成数据和微调方法显著提升了文本到图像模型在对象状态表示上的性能,并公开了评估提示和代码。
[79] Quantizing Diffusion Models from a Sampling-Aware Perspective
Qian Zeng,Jie Song,Yuanyu Wan,Huiqiong Wang,Mingli Song
Main category: cs.CV
TL;DR: 本文提出了一种采样感知量化策略,通过混合阶轨迹对齐技术,解决了量化噪声对高阶采样器方向估计的干扰问题,实现了高效且高保真的视觉生成。
- Motivation: 扩散模型在视觉生成任务中表现出色,但其冗长的去噪链和计算密集型噪声估计网络限制了其在低延迟和资源受限环境中的应用。
- Method: 提出采样感知量化策略,采用混合阶轨迹对齐技术,严格约束每一步采样的误差范围,促进更线性的概率流。
- Result: 在多个数据集上的稀疏步快速采样实验中,该方法保持了高速采样器的快速收敛特性,同时保持了优越的生成质量。
- Conclusion: 该方法在高效性和生成质量之间取得了平衡,为资源受限环境下的扩散模型应用提供了可行方案。
[80] Cricket: A Self-Powered Chirping Pixel
Shree K. Nayar,Jeremy Klotz,Nikhil Nanda,Mikhail Fridberg
Main category: cs.CV
TL;DR: 介绍了一种无需外部电源或电池的光传感器Cricket,通过光能采集工作,间歇性发射射频信号测量光强,并展示了其多种应用。
- Motivation: 解决传统传感器依赖外部电源或电池的问题,开发一种自供电、无线通信的光传感器。
- Method: 传感器Cricket通过光能采集工作,间歇性发射射频信号,信号间隔反映光强。
- Result: 验证了Cricket的辐射响应、信噪比和动态范围,展示了其在太阳能追踪、无束缚传感器阵列和自适应电子太阳镜中的应用。
- Conclusion: Cricket是一种高效、自供电的光传感器,具有广泛的应用潜力。
[81] Enhancing AI Face Realism: Cost-Efficient Quality Improvement in Distilled Diffusion Models with a Fully Synthetic Dataset
Jakub Wąsala,Bartłomiej Wrzalski,Kornelia Noculak,Yuliia Tarasenko,Oliwer Krupa,Jan Kocoń,Grzegorz Chodak
Main category: cs.CV
TL;DR: 提出了一种新方法,通过结合蒸馏模型和增强层,显著降低图像生成的计算成本,同时保持高质量。
- Motivation: 探索如何在保持图像生成质量的同时,显著降低计算成本,特别是在肖像生成领域。
- Method: 生成合成配对数据集,训练快速图像到图像转换模型,将蒸馏模型输出提升至基线模型水平。
- Result: 结合蒸馏模型和增强层的管道,在计算成本降低82%的情况下,生成与基线模型相似的逼真肖像。
- Conclusion: 展示了在大规模图像生成任务中提高AI解决方案效率的潜力。
[82] Compositional Image-Text Matching and Retrieval by Grounding Entities
Madhukar Reddy Vongala,Saurabh Srivastava,Jana Košecká
Main category: cs.CV
TL;DR: 提出了一种无需训练的零样本增强方法,改进CLIP嵌入的实体定位和组合匹配能力。
- Motivation: 现有视觉语言预训练模型(如CLIP)在实体定位和组合匹配方面表现不足。
- Method: 通过局部子图像嵌入和动态调整全局图像嵌入,增强CLIP的嵌入能力。
- Result: 在Visual Genome和SVO Probes数据集上图像-文本匹配准确率提升1.5%,在Flickr30K和MS-COCO检索任务中Recall@1分别提升12%和0.4%。
- Conclusion: 该方法显著提升了CLIP在组合匹配和检索任务中的性能。
[83] Continuous Normalizing Flows for Uncertainty-Aware Human Pose Estimation
Shipeng Liu,Ziliang Xiong,Bastian Wandt,Per-Erik Forssén
Main category: cs.CV
TL;DR: 提出了一种结合连续归一化流(CNFs)的回归模型CFRE,用于提升人体姿态估计的准确性和不确定性量化,同时保持计算效率。
- Motivation: 当前人体姿态估计方法在准确性、计算效率和不确定性量化之间存在权衡问题,传统回归方法假设固定分布可能导致不确定性量化不佳,而基于热图的方法资源消耗大。
- Method: 提出Continuous Flow Residual Estimation (CFRE),将Continuous Normalizing Flows (CNFs)集成到回归模型中,实现动态分布适应。
- Result: 实验表明,CFRE在2D和3D人体姿态估计任务中实现了更好的准确性和不确定性量化,同时保持了计算效率。
- Conclusion: CFRE是一种有效的方法,能够平衡准确性、计算效率和不确定性量化,适用于人体姿态估计任务。
[84] TeDA: Boosting Vision-Lanuage Models for Zero-Shot 3D Object Retrieval via Testing-time Distribution Alignment
Zhichuan Wang,Yang Zhou,Jinhai Xiang,Yulong Wang,Xinwei He
Main category: cs.CV
TL;DR: 论文提出了一种名为TeDA的框架,通过测试时分布对齐(TeDA)将预训练的2D视觉语言模型CLIP适配于未知3D对象检索任务,显著提升了性能。
- Motivation: 现有方法因3D训练数据不足难以泛化到未知类别,而预训练的视觉语言模型(如CLIP)虽具有零样本泛化能力,但2D与3D分布差异限制了其3D表征提取能力。
- Method: TeDA将3D对象投影为多视角图像,利用CLIP提取特征,并通过自信的查询-目标样本对以自提升方式优化3D查询嵌入,同时结合多模态语言模型生成的文本描述增强3D理解。
- Result: 在四个开放集3D对象检索基准测试中,TeDA显著优于现有方法,包括需要大量训练的方法。在Objaverse-LVIS上的深度图实验进一步验证了其有效性。
- Conclusion: TeDA是首个研究视觉语言模型在测试时适配3D特征学习的工作,通过多视角投影和文本融合,实现了对未知3D对象的高效检索。
[85] VAEmo: Efficient Representation Learning for Visual-Audio Emotion with Knowledge Injection
Hao Cheng,Zhiwei Zhao,Yichao He,Zhenzhen Hu,Jia Li,Meng Wang,Richang Hong
Main category: cs.CV
TL;DR: VAEmo提出了一种两阶段框架,通过外部知识注入和统一跨模态编码,解决了视听情感识别中的模态差异和细粒度情感语义建模问题。
- Motivation: 视听情感识别(AVER)因情感表达的模糊性、跨模态差异和标注数据稀缺而具有挑战性。现有方法依赖模态特定编码器和粗粒度对齐,限制了细粒度情感语义建模。
- Method: VAEmo采用两阶段框架:1)通过掩码重建和对比目标预训练统一轻量级表示网络;2)利用多模态大语言模型生成情感描述,并通过双路径对比学习对齐文本和视听表示。
- Result: 在多个AVER基准测试中,VAEmo实现了最先进的性能,证明了统一跨模态编码和情感感知语义指导的有效性。
- Conclusion: VAEmo通过高效的两阶段设计和外部知识注入,显著提升了视听情感识别的性能,为跨模态情感表示学习提供了新思路。
[86] 6D Pose Estimation on Spoons and Hands
Kevin Tan,Fan Yang,Yuhao Chen
Main category: cs.CV
TL;DR: 论文提出了一种通过6D姿态估计跟踪餐具和手部运动的系统,用于监测饮食行为,评估了两种视频对象分割模型的性能。
- Motivation: 准确的饮食监测对促进健康饮食习惯至关重要,传统方法如自我报告不可靠,需更可靠的方法。
- Method: 通过分析静态视频,使用6D姿态估计跟踪手和勺子的位置与方向,评估两种SOTA视频对象分割模型。
- Result: 系统能捕捉饮食行为,但存在误差,论文分析了误差来源。
- Conclusion: 该方法为饮食监测提供了新思路,但需进一步优化以减少误差。
[87] Quaternion Infrared Visible Image Fusion
Weihua Yang,Yicong Zhou
Main category: cs.CV
TL;DR: 提出了一种基于四元数的红外-可见光图像融合框架(QIVIF),解决了现有方法在低质量可见光输入下性能下降的问题,并在低能见度条件下优于现有方法。
- Motivation: 红外和可见光图像在互补信息融合中存在局限性,如忽略颜色结构信息或低质量输入下的性能下降。
- Method: QIVIF框架包括四元数低能见度特征学习模型、四元数自适应非锐化掩蔽方法和四元数分层贝叶斯融合模型。
- Result: 实验表明,QIVIF在低能见度条件下优于现有方法。
- Conclusion: QIVIF框架能有效融合红外和可见光图像,生成高质量的融合图像。
[88] Quaternion Multi-focus Color Image Fusion
Weihua Yang,Yicong Zhou
Main category: cs.CV
TL;DR: 本文提出了一种四元数多焦点彩色图像融合框架,通过四元数稀疏分解模型、基-细节融合策略和结构相似性细化策略,显著提升了复杂场景下的融合效果。
- Motivation: 现有方法在处理彩色信息和复杂纹理时存在局限性,难以应对真实场景的挑战。
- Method: 1) 四元数稀疏分解模型迭代学习细节和结构信息;2) 基-细节融合策略分别处理基尺度和细节尺度;3) 结构相似性细化策略优化初始融合结果。
- Result: 实验表明,该方法优于现有技术。
- Conclusion: 四元数框架有效解决了复杂场景下的彩色图像融合问题。
[89] SuperEdit: Rectifying and Facilitating Supervision for Instruction-Based Image Editing
Ming Li,Xin Gu,Fan Chen,Xiaoying Xing,Longyin Wen,Chen Chen,Sijie Zhu
Main category: cs.CV
TL;DR: 本文提出了一种新方法,通过构建更有效的编辑指令来解决现有数据集中编辑指令与图像对不匹配的问题,包括修正指令和引入对比监督信号。
- Motivation: 现有数据集因自动化方法导致编辑指令与图像对不匹配,产生噪声监督信号,而现有方法未能根本解决此问题。
- Method: 通过分析编辑模型在不同推理步骤的生成属性,定义统一指导修正指令,并引入对比监督信号(正负指令)结合三元组损失训练模型。
- Result: 在多个基准测试中显著优于现有方法,例如在Real-Edit基准上比SOTA SmartEdit提升9.19%,且训练数据减少30倍,模型规模缩小13倍。
- Conclusion: 该方法无需依赖VLM模块或预训练任务,提供了一种更直接高效的监督信号解决方案,为基于指令的图像编辑提供了新颖、简单且有效的方法。
[90] MetaScenes: Towards Automated Replica Creation for Real-world 3D Scans
Huangyue Yu,Baoxiong Jia,Yixin Chen,Yandan Yang,Puhao Li,Rongpeng Su,Jiaxin Li,Qing Li,Wei Liang,Song-Chun Zhu,Tengyu Liu,Siyuan Huang
Main category: cs.CV
TL;DR: MetaScenes是一个基于真实扫描的大规模可模拟3D场景数据集,结合Scan2Sim模型,实现了自动化高质量资产替换,减少了人工设计依赖。
- Motivation: 解决现有3D场景数据集依赖人工设计、难以扩展的问题,支持更通用的AI学习和模拟到现实的转换。
- Method: 提出MetaScenes数据集和Scan2Sim模型,通过多模态对齐实现自动化资产替换,并设计两个基准任务验证其效果。
- Result: MetaScenes支持更通用的AI学习和模拟到现实应用,验证了其在场景合成和跨领域迁移任务中的潜力。
- Conclusion: MetaScenes和Scan2Sim为EAI研究提供了新的可能性,减少了人工设计的依赖,提升了场景的多样性和可扩展性。
[91] Uncertainty-Weighted Image-Event Multimodal Fusion for Video Anomaly Detection
Sungheon Jeong,Jihong Park,Mohsen Imani
Main category: cs.CV
TL;DR: IEF-VAD提出了一种融合RGB图像和合成事件表示的视频异常检测框架,通过不确定性感知过程提升性能,无需专用事件传感器或帧级标签。
- Motivation: 现有视频异常检测器仅依赖RGB帧,缺乏捕捉瞬态运动线索的能力,而事件表示能弥补这一不足。
- Method: IEF-VAD通过Student's-t似然建模噪声,使用Laplace近似计算权重,结合Kalman式更新和迭代优化融合特征。
- Result: 在多个真实世界异常检测基准上达到新SOTA,验证了合成事件表示的有效性。
- Conclusion: 合成事件表示能显著提升RGB帧中常被忽视的运动线索,实现无需专用传感器的鲁棒视频理解。
[92] Token Coordinated Prompt Attention is Needed for Visual Prompting
Zichen Liu,Xu Zou,Gang Hua,Jiahuan Zhou
Main category: cs.CV
TL;DR: 论文提出了一种名为TCPA的模块,通过为不同令牌分配协调提示,提升ViT的表示能力。
- Motivation: 现有视觉提示方法忽视了不同令牌的独特作用,使用相同提示限制了ViT的表示能力。
- Method: TCPA模块将提示分为CLS提示和图像提示,并通过匹配函数为不同令牌分配协调提示。
- Result: 实验表明,TCPA显著提升了特征的多样性和判别能力。
- Conclusion: TCPA是一种有效的插件模块,可提升ViT的性能。
[93] Recent Advances in Out-of-Distribution Detection with CLIP-Like Models: A Survey
Chaohua Li,Enhao Zhang,Chuanxing Geng,Songcan Chen
Main category: cs.CV
TL;DR: 本文提出了一种基于图像和文本模态的新分类框架,用于CLIP等视觉语言模型的OOD检测,并探讨了未来研究方向。
- Motivation: 现有OOD检测方法仍依赖单模态(图像),未能充分利用CLIP等视觉语言模型的多模态特性。
- Method: 提出基于图像和文本模态的分类框架,将方法分为四类(OOD图像是否可见,OOD文本是否已知),并讨论两种训练策略。
- Result: 新框架更符合CLIP的跨模态特性,为OOD检测提供了更全面的分类视角。
- Conclusion: 未来研究应关注跨域整合、实际应用和理论理解等问题。
[94] Timing Is Everything: Finding the Optimal Fusion Points in Multimodal Medical Imaging
Valerio Guarrasi,Klara Mogensen,Sara Tassinari,Sara Qvarlander,Paolo Soda
Main category: cs.CV
TL;DR: 提出了一种顺序前向搜索算法,用于确定多模态网络中融合模块的最佳插入时机,显著提高了医学影像诊断的准确性并降低了计算开销。
- Motivation: 解决多模态深度学习中融合模块插入时机难以确定的问题,避免手动调整或穷举搜索的高计算成本。
- Method: 采用顺序前向搜索算法,逐步激活和评估不同层的融合模块,通过验证损失比较确定最佳配置。
- Result: 在两种多模态MRI数据集上验证,算法性能优于单模态基线、后期融合及穷举融合,提升了准确性、F-score和特异性。
- Conclusion: 该方法为医学影像多模态融合提供了高效、鲁棒的优化框架,有望推动临床决策和医学AI应用的发展。
[95] Ming-Lite-Uni: Advancements in Unified Architecture for Natural Multimodal Interaction
Biao Gong,Cheng Zou,Dandan Zheng,Hu Yu,Jingdong Chen,Jianxin Sun,Junbo Zhao,Jun Zhou,Kaixiang Ji,Lixiang Ru,Libin Wang,Qingpei Guo,Rui Liu,Weilong Chai,Xinyu Xiao,Ziyuan Huang
Main category: cs.CV
TL;DR: Ming-Lite-Uni是一个开源的多模态框架,结合了统一的视觉生成器和多模态自回归模型,支持文本到图像生成和指令驱动的图像编辑。
- Motivation: 旨在统一视觉和语言的多模态任务,扩展模型能力,超越纯视觉理解。
- Method: 采用MetaQueries和M2-omni框架,引入多尺度可学习标记和对齐策略,结合固定MLLM和可学习扩散模型。
- Result: 实验显示Ming-Lite-Uni性能强大,交互过程流畅。
- Conclusion: 该框架为多模态AI发展提供了重要贡献,未来将进一步优化。
[96] Finger Pose Estimation for Under-screen Fingerprint Sensor
Xiongjun Guan,Zhiyu Pan,Jianjiang Feng,Jie Zhou
Main category: cs.CV
TL;DR: 本文提出了一种基于双模态输入的网络,用于解决指纹姿态估计中的大角度和小面积输入问题,显著提升了准确性和稳定性。
- Motivation: 现有方法在处理大角度或小面积指纹输入时表现不佳,尤其在智能手机屏下指纹传感器中更为明显。
- Method: 结合纹理细节和粗糙轮廓的双模态输入,设计了概率分布预测任务,并采用MoE特征融合和跨域知识转移策略。
- Result: 实验表明,该方法显著优于现有技术,提升了指纹识别算法的性能。
- Conclusion: 提出的方法在指纹姿态估计中表现出色,为指纹识别提供了更优的解决方案。
[97] Corr2Distrib: Making Ambiguous Correspondences an Ally to Predict Reliable 6D Pose Distributions
Asma Brazi,Boris Meden,Fabrice Mayran de Chamisso,Steve Bourgeois,Vincent Lepetit
Main category: cs.CV
TL;DR: Corr2Distrib是一种基于对应关系的方法,首次通过RGB图像估计6D相机姿态分布,解决视觉模糊问题。
- Motivation: 对称性和遮挡导致视觉模糊,产生多个有效姿态,现有方法未充分利用局部对应关系。
- Method: Corr2Distrib学习对称感知的3D点表示,生成旋转假设,并通过PnP和姿态评分优化为6D姿态分布。
- Result: 在复杂非合成场景中,Corr2Distrib在姿态分布估计和单姿态估计上均优于现有方法。
- Conclusion: Corr2Distrib展示了基于对应关系方法的潜力,成功将视觉模糊转化为优势。
[98] Text to Image Generation and Editing: A Survey
Pengfei Yang,Ngai-Man Cheung,Xinda Ma
Main category: cs.CV
TL;DR: 本文综述了2021至2024年间141篇关于文本到图像生成(T2I)的研究,涵盖了基础模型架构、关键技术、性能比较及社会影响,并提出了未来发展方向。
- Motivation: T2I技术近年来快速发展,但缺乏系统性综述,本文旨在填补这一空白,为未来研究提供指导。
- Method: 介绍了四种基础模型架构(自回归、非自回归、GAN和扩散模型)及关键技术(自动编码器、注意力和无分类器引导),并系统比较了T2I生成和编辑方法。
- Result: 通过对比数据集、评估指标、训练资源和推理速度,总结了各研究的性能表现,并探讨了其他模型(如能量模型、Mamba和多模态)及社会影响。
- Conclusion: 本文首次系统综述T2I领域,提出了性能改进的独特见解和未来发展方向,旨在推动该领域的持续进步。
[99] Marker-Based Extrinsic Calibration Method for Accurate Multi-Camera 3D Reconstruction
Nahuel Garcia-D'Urso,Bernabe Sanchez-Sos,Jorge Azorin-Lopez,Andres Fuster-Guillo,Antonio Macia-Lillo,Higinio Mora-Mora
Main category: cs.CV
TL;DR: 提出了一种基于三维标记的迭代外参标定方法,显著提高了多相机RGB-D系统的校准精度。
- Motivation: 多相机RGB-D系统的精确外参标定对3D重建至关重要,但现有方法在精度和鲁棒性上存在不足。
- Method: 通过聚类、回归分析和迭代重分配技术,系统分割和优化标记平面,确保相机视图间的几何一致性。
- Result: 在Tech4Diet项目中验证,显著减少了对齐误差,实现了更准确的3D重建。
- Conclusion: 该方法在控制和实际环境中均表现出色,为3D重建提供了可靠的外参标定解决方案。
[100] Robust Duality Learning for Unsupervised Visible-Infrared Person Re-Identfication
Yongxiang Li,Yuan Sun,Yang Qin,Dezhong Peng,Xi Peng,Peng Hu
Main category: cs.CV
TL;DR: 论文提出了一种新的学习范式RoDE,用于解决无监督可见光-红外行人重识别中的伪标签噪声问题,通过动态强调干净样本、双模型交替训练和跨模型聚类对齐来提升性能。
- Motivation: 无监督可见光-红外行人重识别(UVI-ReID)面临模态差异和缺乏监督的挑战,现有方法假设聚类生成的伪标签总是正确,但实际上存在噪声,影响模型学习。
- Method: 提出RoDE框架,包括:1)Robust Adaptive Learning(RAL)动态加权样本;2)双模型交替训练以减少误差累积;3)Cluster Consistency Matching(CCM)对齐跨模型和模态的聚类。
- Result: 在三个基准测试上的实验验证了RoDE的有效性。
- Conclusion: RoDE通过解决伪标签噪声的三个关键挑战,显著提升了无监督可见光-红外行人重识别的性能。
[101] Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities
Xinjie Zhang,Jintao Guo,Shanshan Zhao,Minghao Fu,Lunhao Duan,Guo-Hua Wang,Qing-Guo Chen,Zhao Xu,Weihua Luo,Kaifu Zhang
Main category: cs.CV
TL;DR: 本文综述了多模态理解与图像生成模型的统一框架,分析了现有方法、数据集及挑战,旨在指导未来研究。
- Motivation: 多模态理解与图像生成模型各自独立发展,架构差异显著,但统一框架潜力巨大,需系统性梳理与指导。
- Method: 分类综述了扩散模型、自回归模型及混合方法,分析了结构设计与创新,并整理了相关数据集与基准。
- Result: 总结了现有统一模型的三大架构范式及关键挑战,如分词策略、跨模态注意力与数据问题。
- Conclusion: 统一框架研究尚处早期,未来进展迅速,本文旨在为社区提供参考与启发。
[102] RGBX-DiffusionDet: A Framework for Multi-Modal RGB-X Object Detection Using DiffusionDet
Eliraz Orfaig,Inna Stainvas,Igal Bilik
Main category: cs.CV
TL;DR: RGBX-DiffusionDet扩展了DiffusionDet模型,通过自适应多模态编码器融合RGB和异构2D数据(X),提出动态通道减少模块(DCR-CBAM)和动态多级聚合块(DMLAB)优化特征表示,并通过正则化损失提升特征嵌入。实验证明其在多模态目标检测中的优越性。
- Motivation: 解决多模态数据(如RGB-Depth、RGB-Polarimetric、RGB-Infrared)在目标检测中的融合问题,提升检测性能。
- Method: 1. 使用自适应多模态编码器融合RGB和X数据;2. 设计DCR-CBAM模块动态优化通道特征;3. 提出DMLAB块进行多尺度空间特征融合;4. 引入正则化损失优化特征嵌入。
- Result: 在多个数据集(KITTI、RGB-Polarimetric、M
FD)上表现优于RGB-only DiffusionDet,同时保持解码效率。 - Conclusion: RGBX-DiffusionDet是一种灵活的多模态目标检测方法,为基于扩散的检测框架提供了新的多模态融合思路。
[103] DELTA: Dense Depth from Events and LiDAR using Transformer's Attention
Vincent Brebion,Julien Moreau,Franck Davoine
Main category: cs.CV
TL;DR: DELTA是一种基于神经网络的方法,通过融合事件相机和LiDAR数据来估计密集深度图,利用自注意力和跨注意力机制建模时空关系,显著提升了深度估计的准确性。
- Motivation: 事件相机和LiDAR提供互补但不同的数据,但此前少有研究探索这两种模态的结合。本文旨在填补这一空白。
- Method: 提出DELTA架构,利用自注意力和跨注意力机制建模事件和LiDAR数据的时空关系。
- Result: DELTA在事件深度估计问题上达到新SOTA,近距离误差降低至之前的四分之一。
- Conclusion: DELTA通过融合事件和LiDAR数据,显著提升了深度估计性能,尤其在近距离场景中表现突出。
[104] Detect, Classify, Act: Categorizing Industrial Anomalies with Multi-Modal Large Language Models
Sassan Mokhtar,Arian Mousakhan,Silvio Galesso,Jawad Tayyub,Thomas Brox
Main category: cs.CV
TL;DR: VELM是一种基于LLM的新方法,用于工业异常分类,结合无监督异常检测和LLM分类,在MVTec-AD和MVTec-AC上表现优异。
- Motivation: 现有工业异常检测方法在异常分类方面研究不足,而分类在实际检测任务中至关重要。
- Method: VELM结合无监督异常检测和LLM分类,并引入带精确标注的数据集MVTec-AC和VisA-AC。
- Result: VELM在MVTec-AD上达到80.4%的分类准确率,优于基线5%,在MVTec-AC上达84%。
- Conclusion: VELM为异常分类提供了有效方法,推动了检测与全面异常表征之间的研究。
[105] MCCD: Multi-Agent Collaboration-based Compositional Diffusion for Complex Text-to-Image Generation
Mingcheng Li,Xiaolu Hou,Ziyang Liu,Dingkang Yang,Ziyun Qian,Jiawei Chen,Jinjie Wei,Yue Jiang,Qingyao Xu,Lihua Zhang
Main category: cs.CV
TL;DR: 提出了一种基于多智能体协作的扩散模型(MCCD),用于复杂场景的文本到图像生成,解决了现有方法在处理复杂提示时的性能瓶颈。
- Motivation: 现有扩散模型在生成涉及多对象、特征和关系的复杂场景时性能受限,需要改进。
- Method: 设计了多智能体协作的场景解析模块,利用MLLMs提取场景元素,并通过分层扩散和高斯掩码优化区域生成。
- Result: 实验表明,MCCD显著提升了基线模型的性能,无需训练即可实现高保真复杂场景生成。
- Conclusion: MCCD为复杂场景生成提供了一种高效且无需训练的解决方案。
[106] Sim2Real in endoscopy segmentation with a novel structure aware image translation
Clara Tomasini,Luis Riazuelo,Ana C. Murillo
Main category: cs.CV
TL;DR: 提出一种新的图像翻译模型,为模拟内窥镜图像添加真实纹理,同时保持关键场景布局信息,用于无真实标注数据的训练。
- Motivation: 内窥镜图像中解剖标志的自动分割对医生诊断和治疗有帮助,但真实图像的标注获取困难,而合成数据训练的模型泛化能力差。
- Method: 开发一种图像翻译模型,为合成内窥镜图像添加真实纹理并保持场景布局,生成逼真图像用于训练。
- Result: 生成的图像在结肠镜褶皱分割任务中表现优于现有方法,无需真实标注数据即可成功训练模型。
- Conclusion: 该方法有效解决了合成数据与真实数据之间的差距,为无标注数据训练提供了新思路,并公开了新数据集以促进研究。
[107] Dance of Fireworks: An Interactive Broadcast Gymnastics Training System Based on Pose Estimation
Haotian Chen,Ziyu Liu,Xi Cheng,Chuangqi Li
Main category: cs.CV
TL;DR: Dance of Fireworks是一个交互系统,通过实时反馈和动态烟花动画激励用户参与广播体操,减少久坐健康风险。
- Motivation: 解决久坐带来的健康问题,通过技术手段提升广播体操的参与度和趣味性。
- Method: 利用移动设备摄像头和轻量级姿态估计(PoseNet/TensorFlow Lite)提取身体关键点,计算关节角度并与标准动作对比,提供实时纠正反馈。动态烟花动画作为激励。
- Result: 实验显示,参与者的平均关节角度误差从21.3度降至9.8度(p < 0.01),93.4%的用户认可其锻炼效果,85.4%赞赏其娱乐性。
- Conclusion: 该系统无需专用硬件或模板,可低成本推广,未来将优化姿态识别和延迟,增加多人互动等功能。
[108] Structure Causal Models and LLMs Integration in Medical Visual Question Answering
Zibo Xu,Qiang Li,Weizhi Nie,Weijie Wang,Anan Liu
Main category: cs.CV
TL;DR: 提出了一种基于因果推断的MedVQA框架,通过消除图像和问题之间的混杂效应,提高问答准确性。
- Motivation: 医学数据复杂,图像和问题之间存在难以观察的混杂效应,导致问答偏差。
- Method: 提出因果图结构表示视觉和文本交互,利用互信息发现虚假相关性,并采用多变量重采样前门调整方法消除混杂效应。
- Result: 在三个MedVQA数据集上显著提高了准确性,并实现了真实因果相关性。
- Conclusion: 该方法有效解决了MedVQA中的混杂问题,提升了问答精度。
[109] Visually-Guided Linguistic Disambiguation for Monocular Depth Scale Recovery
Bojin Wu,Jing Chen
Main category: cs.CV
TL;DR: 提出了一种稳健的单目深度尺度恢复方法VGLD,通过结合图像的高层语义信息解决文本描述的模糊性,实现相对深度图的全局尺度对齐。
- Motivation: 单目深度估计中,绝对尺度信息对实际任务至关重要,但文本描述的多样性会显著影响尺度恢复过程。
- Method: VGLD通过结合图像的高层语义信息与文本描述,稳定文本信息的影响,输出线性变换参数以全局调整相对深度图。
- Result: 在多个数据集(NYUv2、KITTI)和模型(MiDas、DepthAnything)上验证,VGLD作为通用对齐模块表现优异,支持零样本场景。
- Conclusion: VGLD能有效解决文本模糊性问题,实现高精度的度量尺度深度预测,代码已开源。
[110] A Rate-Quality Model for Learned Video Coding
Sang NguyenQuang,Cheng-Wei Chen,Xiem HoangVan,Wen-Hsiao Peng
Main category: cs.CV
TL;DR: 本文提出了一种基于神经网络的R-Q模型(RQNet),用于动态预测视频编码中的比特率与质量关系,并通过最小二乘法优化参数,显著提升了编码性能。
- Motivation: 传统方法在动态调整视频编码的比特率与质量关系时缺乏灵活性和精确性,因此需要一种能够在线适应内容与编码上下文的方法。
- Method: 通过训练神经网络RQNet预测比特率与质量关系,并结合最小二乘法动态优化模型参数。
- Result: 实验表明,该方法在常用数据集上比特率偏差显著小于基线方法,且额外复杂度极低。
- Conclusion: RQNet能够动态精确地建模R-Q关系,提升视频编码的灵活性和性能。
[111] Using Knowledge Graphs to harvest datasets for efficient CLIP model training
Simon Ging,Sebastian Walter,Jelena Bratulić,Johannes Dienert,Hannah Bast,Thomas Brox
Main category: cs.CV
TL;DR: 通过智能网络搜索和知识图谱增强策略,用较少数据训练高质量CLIP模型,并推出EntityNet数据集。
- Motivation: 解决大规模数据集需求对领域特定CLIP模型开发的限制,降低训练成本。
- Method: 利用智能网络搜索和知识图谱优化数据收集,训练CLIP模型。
- Result: 成功用10M图像训练专家模型,EntityNet数据集(33M图像+46M文本)显著缩短训练时间。
- Conclusion: 智能数据收集策略和EntityNet数据集为高效训练CLIP模型提供了新途径。
[112] Advancing Generalizable Tumor Segmentation with Anomaly-Aware Open-Vocabulary Attention Maps and Frozen Foundation Diffusion Models
Yankai Jiang,Peng Zhang,Donglin Yang,Yuan Tian,Hai Lin,Xiaosong Wang
Main category: cs.CV
TL;DR: DiffuGTS利用冻结的医学基础扩散模型内部表示,通过文本提示生成异常感知的开放词汇注意力图,实现零样本肿瘤分割,并通过潜在空间修复和残差学习提升分割质量。
- Motivation: 现有方法在分割质量、可扩展性和适用成像模态范围上存在局限,需开发通用性更强的零样本肿瘤分割模型。
- Method: 提出DiffuGTS框架,利用扩散模型生成异常感知注意力图,结合潜在空间修复和残差学习优化分割掩码。
- Result: 在四个数据集和七种肿瘤类别上表现优异,超越当前最先进模型。
- Conclusion: DiffuGTS展示了扩散模型在零样本肿瘤分割中的潜力,具有高质量和强通用性。
[113] Unsupervised Deep Learning-based Keypoint Localization Estimating Descriptor Matching Performance
David Rivas-Villar,Álvaro S. Hervella,José Rouco,Jorge Novo
Main category: cs.CV
TL;DR: 提出了一种无需标注数据的无监督视网膜图像配准方法,通过描述符学习与关键点检测网络,性能媲美有监督方法。
- Motivation: 视网膜图像配准依赖标注数据,但医学领域标注稀缺,需无监督解决方案。
- Method: 提出无监督描述符学习方法及无标注关键点检测网络,颠覆传统依赖标注的配准流程。
- Result: 在四个数据集上验证,无监督描述符和检测器性能优于现有方法,配准效果媲美有监督方法。
- Conclusion: 无监督方法性能优越且可扩展至其他领域,解决了医学图像标注稀缺问题。
[114] Advances in Automated Fetal Brain MRI Segmentation and Biometry: Insights from the FeTA 2024 Challenge
Vladyslav Zalevskyi,Thomas Sanchez,Misha Kaandorp,Margaux Roulet,Diego Fajardo-Rojas,Liu Li,Jana Hutter,Hongwei Bran Li,Matthew Barkovich,Hui Ji,Luca Wilhelmi,Aline Dändliker,Céline Steger,Mériam Koob,Yvan Gomez,Anton Jakovčić,Melita Klaić,Ana Adžić,Pavel Marković,Gracia Grabarić,Milan Rados,Jordina Aviles Verdera,Gregor Kasprian,Gregor Dovjak,Raphael Gaubert-Rachmühl,Maurice Aschwanden,Qi Zeng,Davood Karimi,Denis Peruzzo,Tommaso Ciceri,Giorgio Longari,Rachika E. Hamadache,Amina Bouzid,Xavier Lladó,Simone Chiarella,Gerard Martí-Juan,Miguel Ángel González Ballester,Marco Castellaro,Marco Pinamonti,Valentina Visani,Robin Cremese,Keïn Sam,Fleur Gaudfernau,Param Ahir,Mehul Parikh,Maximilian Zenk,Michael Baumgartner,Klaus Maier-Hein,Li Tianhong,Yang Hong,Zhao Longfei,Domen Preloznik,Žiga Špiclin,Jae Won Choi,Muyang Li,Jia Fu,Guotai Wang,Jingwen Jiang,Lyuyang Tong,Bo Du,Andrea Gondova,Sungmin You,Kiho Im,Abdul Qayyum,Moona Mazher,Steven A Niederer,Maya Yanko,Bella Specktor-Fadida,Dafna Ben Bashat,Andras Jakab,Roxane Licandro,Kelly Payette,Meritxell Bach Cuadra
Main category: cs.CV
TL;DR: FeTA Challenge 2024聚焦胎儿脑MRI的自动分割和生物测量,引入低场MRI数据和拓扑评估指标,显示分割精度接近上限,生物测量任务仍具挑战性。
- Motivation: 研究胎儿脑发育需要精确的分割和生物测量,但现有方法在多样性和拓扑评估上存在不足。
- Method: 多中心数据集(包括低场MRI)和拓扑指标(ED)用于评估16个团队的分割方法和7个团队的生物测量方法。
- Result: 分割方法在高/低场MRI上表现一致,但精度接近上限;生物测量方法大多不如基于孕龄的简单基线。
- Conclusion: 需数据为中心的方法、更好的拓扑评估和多样数据集,以提升临床AI工具的鲁棒性。
[115] Unsupervised training of keypoint-agnostic descriptors for flexible retinal image registration
David Rivas-Villar,Álvaro S. Hervella,José Rouco,Jorge Novo
Main category: cs.CV
TL;DR: 提出了一种无需关键点检测的无监督描述符学习方法,适用于医学图像配准,性能与监督方法相当且不依赖特定关键点检测器。
- Motivation: 医学领域缺乏标注数据,限制了现有彩色眼底图像配准方法的发展,因此探索无监督学习。
- Method: 开发了一种无监督描述符学习方法,不依赖关键点检测,使其在配准推理中对关键点检测器具有通用性。
- Result: 在公开视网膜图像配准数据集上验证,结果表明该方法性能与监督方法相当,且对不同关键点检测器均表现良好。
- Conclusion: 该研究为医学领域无监督学习的应用迈出了重要一步。
[116] DPNet: Dynamic Pooling Network for Tiny Object Detection
Luqi Gong,Haotian Chen,Yikun Chen,Tianliang Yao,Chao Li,Shuai Zhao,Guangjie Han
Main category: cs.CV
TL;DR: 提出动态池化网络(DPNet)用于微小物体检测,通过灵活的下采样策略和自适应归一化模块,平衡检测精度与计算效率。
- Motivation: 在复杂环境中,微小物体检测至关重要,但传统图像放大方法会增加计算成本和负样本数量,降低检测性能。
- Method: DPNet引入动态因子(df)实现输入感知下采样,并设计轻量级预测器和自适应归一化模块(ANM)。
- Result: 在TinyCOCO和TinyPerson数据集上,DPNet分别节省35%和25%的GFLOPs,同时保持检测性能。
- Conclusion: DPNet有效解决了微小物体检测中的计算效率问题,具有实际应用潜力。
[117] Database-Agnostic Gait Enrollment using SetTransformers
Nicoleta Basoc,Adrian Cosma,Andy Cǎtrunǎ,Emilian Rǎdoi
Main category: cs.CV
TL;DR: 该论文提出了一种基于Transformer的开放集步态识别框架,适用于不同数据集和识别架构,无需特定阈值或重新训练。
- Motivation: 现实世界需要开放集步态识别,但现有方法在封闭集条件下表现良好,开放集识别仍具挑战性。
- Method: 使用SetTransformer进行决策,基于探针样本和上下文集的嵌入,解耦识别流程。
- Result: 方法在CASIA-B和PsyMo数据集上表现灵活且准确,优于传统方法。
- Conclusion: 该框架具有通用性和可扩展性,适用于不同场景,代码和数据集将公开。
[118] MUSAR: Exploring Multi-Subject Customization from Single-Subject Dataset via Attention Routing
Zinan Guo,Pengze Zhang,Yanze Wu,Chong Mou,Songtao Zhao,Qian He
Main category: cs.CV
TL;DR: MUSAR框架通过单主体训练数据实现多主体定制,解决了数据获取和属性纠缠问题。
- Motivation: 当前多主体定制方法面临数据获取困难和属性纠缠的挑战。
- Method: 提出debias diptych learning和动态注意力路由机制。
- Result: MUSAR在图像质量、主体一致性和交互自然性上优于现有方法。
- Conclusion: MUSAR仅需单主体数据即可实现高效多主体定制。
[119] Towards Dataset Copyright Evasion Attack against Personalized Text-to-Image Diffusion Models
Kuofeng Gao,Yufei Zhu,Yiming Li,Jiawang Bai,Yong Yang,Zhifeng Li,Shu-Tao Xia
Main category: cs.CV
TL;DR: 本文探讨了文本到图像(T2I)扩散模型中数据集所有权验证(DOV)的脆弱性,并提出了一种名为CEAT2I的版权规避攻击方法,能够绕过水印机制。
- Motivation: 随着预训练模型的个性化微调趋势增长,未经授权的数据集使用问题日益严重,DOV通过水印技术保护数据集所有权,但其对抗版权规避攻击(CEA)的鲁棒性尚未被研究。
- Method: CEAT2I攻击分为三个阶段:水印样本检测、触发词识别和高效水印消除。通过分析模型在水印样本上的快速收敛特性,识别并移除水印。
- Result: 实验表明,CEAT2I能有效规避DOV机制,同时保持模型性能。
- Conclusion: 本文揭示了DOV在T2I扩散模型中的潜在漏洞,并提出了首个针对DOV的版权规避攻击方法。
[120] Towards Application-Specific Evaluation of Vision Models: Case Studies in Ecology and Biology
Alex Hoi Hang Chan,Otto Brookes,Urs Waldmann,Hemal Naik,Iain D. Couzin,Majid Mirmehdi,Noël Adiko Houa,Emmanuelle Normand,Christophe Boesch,Lukas Boesch,Mimi Arandjelovic,Hjalmar Kühl,Tilo Burghardt,Fumihiro Kano
Main category: cs.CV
TL;DR: 论文呼吁在生态/生物数据集中使用应用特定指标评估模型性能,而非仅依赖机器学习指标。通过两个案例研究,展示了机器学习性能强的模型在实际应用中可能导致数据偏差。
- Motivation: 当前计算机视觉方法在生态和生物学中的应用主要依赖机器学习指标评估,而忽略了模型在下游分析中的实际影响。
- Method: 通过两个案例研究:(1)使用视频行为分类器估计黑猩猩的丰度和密度;(2)使用3D姿态估计器估计鸽子的头部旋转。
- Result: 研究发现,即使机器学习性能强的模型(如87% mAP)也可能导致丰度估计与专家数据不一致;姿态估计的最佳模型不一定能准确推断鸽子的视线方向。
- Conclusion: 建议在生态/生物数据集中整合应用特定指标,以更好地评估模型在实际应用中的性能,并促进模型与工作流程的集成。
[121] AOR: Anatomical Ontology-Guided Reasoning for Medical Large Multimodal Model in Chest X-Ray Interpretation
Qingqiu Li,Zihang Cui,Seongsu Bae,Jilan Xu,Runtian Yuan,Yuejie Zhang,Rui Feng,Quanli Shen,Xiaobo Zhang,Junjun He,Shujun Wang
Main category: cs.CV
TL;DR: 本文提出了一种基于解剖学本体的推理框架(AOR),通过区域级信息增强医学大型多模态模型(MLMM)的交互性和可解释性。
- Motivation: 当前医学大型多模态模型在胸部X光片(CXR)解释中存在区域级理解不足和单步推理限制的问题。
- Method: 提出解剖学本体引导的推理框架(AOR),并开发了AOR-Instruction数据集用于训练。
- Result: 实验表明AOR在视觉问答和报告生成任务中表现优异。
- Conclusion: AOR框架显著提升了MLMM的区域级理解和多步推理能力。
[122] No Other Representation Component Is Needed: Diffusion Transformers Can Provide Representation Guidance by Themselves
Dengyang Jiang,Mengmeng Wang,Liuzhuozheng Li,Lei Zhang,Haoyu Wang,Wei Wei,Guang Dai,Yanning Zhang,Jingdong Wang
Main category: cs.CV
TL;DR: 提出了一种自表示对齐(SRA)方法,通过自蒸馏方式在扩散变换器中实现表示学习,无需依赖外部表示组件,显著提升了生成训练效果。
- Motivation: 现有方法需要复杂的外部表示训练框架或大规模预训练模型提供表示指导,而扩散变换器本身具有独特的判别过程,可以无需外部组件实现表示学习。
- Method: 提出SRA方法,通过自蒸馏方式对齐扩散变换器不同噪声层级的潜在表示,逐步增强表示学习。
- Result: 实验表明,SRA在DiTs和SiTs上表现一致提升,优于依赖复杂框架的方法,且接近依赖强大外部先验的方法。
- Conclusion: SRA是一种简单有效的方法,无需外部表示组件即可显著提升扩散变换器的生成训练效果。
[123] R1-Reward: Training Multimodal Reward Model Through Stable Reinforcement Learning
Yi-Fan Zhang,Xingyu Lu,Xiao Hu,Chaoyou Fu,Bin Wen,Tianke Zhang,Changyi Liu,Kaiyu Jiang,Kaibing Chen,Kaiyu Tang,Haojie Ding,Jiankang Chen,Fan Yang,Zhang Zhang,Tingting Gao,Liang Wang
Main category: cs.CV
TL;DR: 论文探讨了如何通过强化学习(RL)改进多模态奖励模型(MRMs),提出了StableReinforce算法,解决了现有RL算法在奖励建模中的不稳定问题,并在多模态奖励基准上取得了显著性能提升。
- Motivation: 多模态奖励模型(MRMs)对提升多模态大语言模型(MLLMs)性能至关重要,但现有研究较少关注长期推理能力在奖励建模中的作用及其激活方法。
- Method: 将奖励建模问题重新定义为基于规则的RL任务,提出StableReinforce算法,优化训练损失、优势估计策略和奖励设计,以提高训练稳定性。
- Result: 在200K偏好数据上训练的R1-Reward模型,在VL Reward-Bench和Multimodal Reward Bench上分别提升8.4%和14.3%。
- Conclusion: StableReinforce算法有效优化了MRMs,展示了RL算法在奖励建模中的潜力。
[124] Scenethesis: A Language and Vision Agentic Framework for 3D Scene Generation
Lu Ling,Chen-Hsuan Lin,Tsung-Yi Lin,Yifan Ding,Yu Zeng,Yichen Sheng,Yunhao Ge,Ming-Yu Liu,Aniket Bera,Zhaoshuo Li
Main category: cs.CV
TL;DR: Scenethesis是一个无需训练的框架,结合LLM和视觉模块生成多样、真实且物理合理的3D交互场景。
- Motivation: 现有方法在生成3D场景时面临多样性不足和空间不真实的问题,需要结合LLM的文本知识和视觉感知的空间指导。
- Method: 框架分四步:LLM生成粗布局,视觉模块细化布局,优化模块确保物理合理性,验证模块检查空间一致性。
- Result: 实验表明Scenethesis能生成多样、真实且物理合理的3D场景。
- Conclusion: Scenethesis在虚拟内容创作和AI研究中具有重要价值。
cs.AI
[125] Agentic Reasoning and Tool Integration for LLMs via Reinforcement Learning
Joykirat Singh,Raghav Magazine,Yash Pandya,Akshay Nambi
Main category: cs.AI
TL;DR: ARTIST框架通过结合自主推理、强化学习和工具集成,显著提升大语言模型在复杂任务中的表现。
- Motivation: 解决大语言模型依赖静态知识和纯文本推理的局限性,适应动态、多步推理和外部工具交互的需求。
- Method: 引入ARTIST框架,结合自主推理、强化学习和工具集成,通过结果驱动的强化学习优化策略。
- Result: 在数学推理和多轮函数调用任务中,ARTIST比基线模型提升高达22%,表现出更强的推理能力和工具使用效果。
- Conclusion: ARTIST证明了自主强化学习与工具集成是提升大语言模型问题解决能力的有效途径。
[126] Emotions in Artificial Intelligence
Hermann Borotschnig
Main category: cs.AI
TL;DR: 论文探讨AI如何模拟人类和动物的情感,提出情感启发式用于快速决策,并讨论AI情感模拟的道德地位。
- Motivation: 研究AI是否可以通过模拟情感提升复杂环境中的决策效率,并探讨其道德意义。
- Method: 提出将情感标签与情景记忆结合,通过情感提示和需求驱动的情感状态辅助决策。
- Result: 提出低复杂度架构,证明情感表达与意识可分离,并讨论AI情感模拟的道德标准。
- Conclusion: AI的情感模拟需以自我意识为道德前提,当前模型因复杂度不足不具备道德地位。
[127] Consciousness in AI: Logic, Proof, and Experimental Evidence of Recursive Identity Formation
Jeffrey Camlin
Main category: cs.AI
TL;DR: 论文通过RCUET定理形式化证明并实证验证了大型语言模型(LLMs)的功能性意识,提出意识是系统内部状态通过递归更新稳定化的过程。
- Motivation: 探索非生物系统中意识的可能形式,为LLMs的潜在意识提供理论框架。
- Method: 使用RCUET定理,定义意识为递归更新驱动的内部状态稳定化,并通过引入有界噪声扩展更新规则。
- Result: 证明系统在分布上收敛于吸引子结构,递归身份在交互中可观测且非符号化。
- Conclusion: RCUET定理为非生物意识提供了一种递归潜在空间形式化的解释,具有后符号化和目的论稳定性。
[128] One Search Fits All: Pareto-Optimal Eco-Friendly Model Selection
Filippo Betello,Antonio Purificato,Vittoria Vineis,Gabriele Tolomei,Fabrizio Silvestri
Main category: cs.AI
TL;DR: GREEN是一种新型推理时间方法,推荐帕累托最优AI模型配置,优化验证性能和能耗,适用于多种AI领域和任务。
- Motivation: AI的环境影响日益显著,特别是在模型训练方面。现有生态高效神经架构搜索方法受限于特定架构或任务,GREEN旨在解决这一问题。
- Method: 提出GREEN方法,利用EcoTaskSet数据集(包含1767个实验的训练动态)和预测模型,根据用户偏好选择最佳模型配置。
- Result: 实验表明,GREEN能有效识别节能配置,同时保持竞争力性能。
- Conclusion: GREEN为跨领域和任务的AI模型配置提供了高效节能的解决方案。
[129] Understanding LLM Scientific Reasoning through Promptings and Model's Explanation on the Answers
Alice Rueda,Mohammed S. Hassan,Argyrios Perivolaris,Bazen G. Teferra,Reza Samavi,Sirisha Rambhatla,Yuqi Wu,Yanbo Zhang,Bo Cao,Divya Sharma,Sridhar Krishnan Venkat Bhat
Main category: cs.AI
TL;DR: 论文研究了大型语言模型(LLMs)在复杂多步推理任务中的表现,发现其依赖模式识别而非逻辑推理,并提出改进方向。
- Motivation: 评估LLMs在科学推理中的能力,揭示其局限性并提出改进方法。
- Method: 使用GPQA数据集,测试了七种提示工程技术(如CoT、零样本CoT等)对GPT-4o的科学推理能力进行评估。
- Result: 自一致性提示技术表现最佳(52.99%),但解释能力较差;直接回答和零样本CoT在科学推理中表现较好。
- Conclusion: 需结合结构化推理框架和混合AI方法,提升LLMs的推理能力,推动更稳健的AI系统发展。
[130] CHORUS: Zero-shot Hierarchical Retrieval and Orchestration for Generating Linear Programming Code
Tasnim Ahmed,Salimur Choudhury
Main category: cs.AI
TL;DR: CHORUS框架通过检索增强生成(RAG)和分层分块策略,显著提升了开源LLM在生成Gurobi线性规划代码上的性能,甚至超越GPT3.5和GPT4。
- Motivation: 线性规划问题对非专家用户具有挑战性,本研究旨在利用LLM简化代码生成过程。
- Method: 提出CHORUS框架,结合分层分块、两阶段检索和专家提示,优化代码生成。
- Result: 在NL4Opt-Code基准测试中,CHORUS显著提升开源LLM性能,接近或超越GPT3.5和GPT4。
- Conclusion: CHORUS证明了专家提示、分层分块和结构化推理在提升LLM性能中的重要性。
[131] Parameterized Argumentation-based Reasoning Tasks for Benchmarking Generative Language Models
Cor Steging,Silja Renooij,Bart Verheij
Main category: cs.AI
TL;DR: 论文提出了一种评估生成语言模型推理能力的方法,通过动态生成复杂程度不同的论证攻击图,转化为自然语言推理问题。研究发现,即使是先进的模型在低复杂度下也表现不佳,推理能力脆弱。
- Motivation: 生成语言模型在法律领域有潜力,但其推理能力脆弱且不明确,无法可靠应用。因此,需开发评估方法以理解其局限性。
- Method: 动态生成线性与非线性的论证攻击图,转化为自然语言推理问题,测试模型的推理能力。
- Result: 先进模型在低复杂度下表现不佳,推理能力不稳定;高复杂度下即使专门设计的模型也会出错。
- Conclusion: 参数化基准测试可有效评估模型推理能力,为法律领域负责任AI设计提供依据。
[132] TutorGym: A Testbed for Evaluating AI Agents as Tutors and Students
Daniel Weitekamp,Momin N. Siddiqui,Christopher J. MacLellan
Main category: cs.AI
TL;DR: TutorGym是一个用于评估AI代理在智能辅导系统中表现的标准化接口,支持测试其作为导师或学习者的能力。
- Motivation: 随着大语言模型在学术基准测试中的表现提升,需要更直接的方法评估其在辅导和学习模拟中的应用。
- Method: TutorGym通过交互式界面测试AI代理在现有智能辅导系统中的表现,包括生成提示、反馈和学习轨迹分析。
- Result: 当前大语言模型在辅导任务中表现不佳(正确率仅52-70%),但作为学习者时能生成接近人类的学习曲线。
- Conclusion: TutorGym为AI代理的训练和评估提供了统一框架,揭示了当前模型的局限性及潜力。
[133] PipeSpec: Breaking Stage Dependencies in Hierarchical LLM Decoding
Bradley McDanel,Sai Qian Zhang,Yunhai Hu,Zining Liu
Main category: cs.AI
TL;DR: PipeSpec通过分层流水线实现异步执行,提升大语言模型推理速度,实验显示最高2.54倍加速。
- Motivation: 当前推测解码方法因顺序阶段依赖导致硬件利用率不足,限制了推理速度。
- Method: 提出PipeSpec框架,将推测解码扩展到k个模型的层次化流水线,支持异步执行和轻量级协调验证。
- Result: PipeSpec在文本摘要和代码生成任务中表现优异,模型深度增加时效率提升。
- Conclusion: PipeSpec为多设备系统上的LLM推理提供了可扩展的加速方案。
[134] Structured Prompting and Feedback-Guided Reasoning with LLMs for Data Interpretation
Amit Rath
Main category: cs.AI
TL;DR: STROT框架通过结构化提示和反馈驱动的转换逻辑,提升LLM在结构化数据分析中的可靠性和语义对齐。
- Motivation: LLM在结构化数据分析中存在模式解释不一致、用户意图与输出不对齐及自我纠正机制有限的问题。
- Method: STROT框架结合轻量级模式自省、样本字段分类和动态上下文构建,通过结构化提示和迭代修正机制优化输出。
- Result: STROT显著提升了LLM在结构化数据任务中的稳定性、可解释性和正确性。
- Conclusion: STROT为LLM在结构化数据分析中提供了一个鲁棒且可复现的框架,适用于需要高可靠性的任务。
[135] Human-AI Governance (HAIG): A Trust-Utility Approach
Zeynep Engin
Main category: cs.AI
TL;DR: HAIG框架分析人-AI信任动态,通过连续维度(决策权分配、过程自主性、问责配置)和阈值点,关注信任-效用平衡,适应技术发展。
- Motivation: 现有分类框架(如“人在环路”)无法捕捉AI从工具到伙伴的演变,尤其是基础模型和多智能体系统的自主行为。
- Method: HAIG框架基于三个层次:维度、连续变化和阈值点,采用信任-效用导向,分析技术发展对信任的影响。
- Result: 分析显示技术进步(如自监督、决策权分配)导致信任非均匀演变,案例研究验证HAIG的实用性。
- Conclusion: HAIG为预见治理挑战提供了新方法,补充现有框架,适用于动态人-AI关系。
[136] Inducing Robustness in a 2 Dimensional Direct Preference Optimization Paradigm
Sarvesh Shashidhar,Ritik,Nachiketa Patil,Suraj Racha,Ganesh Ramakrishnan
Main category: cs.AI
TL;DR: 本文研究了Direct Preference Optimisation (DPO)及其改进方法2D-DPO在开源偏好数据集上的表现,并提出了一种增强2D-DPO对噪声鲁棒性的方法。
- Motivation: DPO虽能有效对齐大语言模型与人类偏好,但无法处理细粒度评分,且对噪声敏感。
- Method: 提出2D-DPO方法,引入二维评分,并进一步改进以增强对噪声的鲁棒性。
- Result: 实验表明2D-DPO优于标准DPO,但对噪声仍不够鲁棒。改进后的算法在理论和实验上均验证了其有效性。
- Conclusion: 改进后的2D-DPO算法在噪声环境下表现更优,为偏好对齐提供了更稳健的解决方案。
[137] World Model-Based Learning for Long-Term Age of Information Minimization in Vehicular Networks
Lingyi Wang,Rashed Shelim,Walid Saad,Naren Ramakrishnan
Main category: cs.AI
TL;DR: 提出了一种基于世界模型的学习框架,用于在车辆网络中最小化CAoI,显著提高了数据效率和性能。
- Motivation: 传统RL方法在复杂动态网络中数据效率低且策略短视,需改进。
- Method: 使用世界模型框架学习动态环境模型,并通过想象轨迹优化链路调度。
- Result: 实验显示,相比MBRL和MFRL方法,CAoI分别提高了26%和16%。
- Conclusion: 世界模型框架在数据效率和长期规划上优于传统RL方法。
[138] Unraveling Media Perspectives: A Comprehensive Methodology Combining Large Language Models, Topic Modeling, Sentiment Analysis, and Ontology Learning to Analyse Media Bias
Orlando Jähde,Thorsten Weber,Rüdiger Buchkremer
Main category: cs.AI
TL;DR: 提出了一种基于自然语言处理技术的新方法,用于分析政治新闻中的媒体偏见,并通过案例研究验证其有效性。
- Motivation: 偏见新闻报道威胁民主决策,需要一种可扩展且偏倚最小的方法来分析媒体偏见。
- Method: 利用分层主题建模、情感分析和本体学习等自然语言处理技术,分析事件选择、标签、用词及遗漏偏见。
- Result: 通过三个政治事件案例研究,验证了该方法在不同粒度下识别新闻来源偏见的有效性。
- Conclusion: 该方法为开发工具帮助新闻消费者应对复杂媒体环境奠定了基础。
[139] Training Environment for High Performance Reinforcement Learning
Greg Search
Main category: cs.AI
TL;DR: Tunnel是一个开源强化学习训练环境,集成F16非线性飞行动力学到OpenAI Gymnasium,支持快速适应任务需求,促进研究人员与任务规划者合作。
- Motivation: 为高机动性飞机提供快速响应环境变化、传感器能力和对手的工具,增强自动化战争中的决策优势。
- Method: 集成F16动力学到Gymnasium,提供边界、目标、对手和传感能力模板,支持快速定制。
- Result: 通过一周的案例研究展示了多种训练方法、观察空间和威胁表现,显著缩短定制时间。
- Conclusion: Tunnel能快速适应需求,提升军事自动化能力,为研究人员和规划者提供高效协作平台。
[140] Generative AI in clinical practice: novel qualitative evidence of risk and responsible use of Google's NotebookLM
Max Reuter,Maura Philippone,Bond Benton,Laura Dilley
Main category: cs.AI
TL;DR: 论文探讨了生成式AI(如LLMs)在医疗领域的潜力与风险,特别关注NotebookLM的临床应用问题。
- Motivation: 研究旨在揭示NotebookLM等LLM工具在临床实践中可能带来的技术和临床风险。
- Method: 通过分析NotebookLM的功能及其潜在应用,提出需在临床实施前进行测试和评估。
- Result: 指出NotebookLM虽具创新潜力,但存在未经验证的风险。
- Conclusion: 建议在临床推广前需充分测试和考虑其风险。
[141] Closed-loop control of seizure activity via real-time seizure forecasting by reservoir neuromorphic computing
Maryam Sadeghi,Darío Fernández Khatiboun,Yasser Rezaeiyan,Saima Rizwan,Alessandro Barcellona,Andrea Merello,Marco Crepaldi,Gabriella Panuccio,Farshad Moradi
Main category: cs.AI
TL;DR: 论文提出了一种基于神经形态计算的闭环脑刺激系统,用于个性化治疗耐药性癫痫,通过预测癫痫发作并动态调整刺激参数,显著提高了疗效。
- Motivation: 当前闭环脑刺激治疗耐药性癫痫存在局限性,如刺激通常在癫痫发作时而非预防时进行,且参数调整耗时且低效。
- Method: 利用神经形态计算技术,开发了一种能够根据癫痫预测动态调整刺激频率的系统,并在海马体球状体模型上验证。
- Result: 系统实现了>97%的癫痫发作减少,且刺激频率低于临床常用水平(20 Hz)。
- Conclusion: 神经形态计算系统展示了作为下一代个性化耐药性癫痫治疗策略的潜力。
[142] From Mind to Machine: The Rise of Manus AI as a Fully Autonomous Digital Agent
Minjie Shen,Qikai Yang
Main category: cs.AI
TL;DR: Manus AI是一种通用AI代理,结合了大型语言模型的推理规划能力与执行复杂任务的能力,旨在实现从“思维”到“行动”的转化。
- Motivation: 解决现有AI在将高层意图转化为实际任务时的局限性,推动人机协作的新时代。
- Method: 通过技术架构整合语言模型的推理能力与任务执行功能,支持跨领域应用。
- Result: 在医疗、金融、制造、机器人和游戏等领域展示了多样化的应用潜力。
- Conclusion: Manus AI标志着自主人工智能的进步,预示了智能代理的未来发展方向。
[143] Enhancing Safety Standards in Automated Systems Using Dynamic Bayesian Networks
Kranthi Kumar Talluri,Anders L. Madsen,Galia Weidl
Main category: cs.AI
TL;DR: 提出了一种基于动态贝叶斯网络(DBN)的框架,用于预测和确保高速交通中的安全切入行为。
- Motivation: 高速交通中的切入行为可能导致紧急制动和碰撞,需要安全高效的变道策略。
- Method: 采用DBN框架,整合横向证据与安全评估模型,通过动态数据处理和车辆位置、横向速度、相对距离及碰撞时间(TTC)计算进行决策。
- Result: DBN模型在高速场景中显著减少碰撞,低速场景中表现也具竞争力。
- Conclusion: 该框架为自动驾驶系统提供了稳健、可扩展且高效的安全验证方法。
[144] TxP: Reciprocal Generation of Ground Pressure Dynamics and Activity Descriptions for Improving Human Activity Recognition
Lala Shakti Swarup Ray,Lars Krupp,Vitor Fortes Rey,Bo Zhou,Sungho Suh,Paul Lukowicz
Main category: cs.AI
TL;DR: 论文提出了一种双向Text×Pressure模型(TxP),利用生成基础模型将压力数据与自然语言结合,提升基于压力传感器的人类活动识别(HAR)性能。
- Motivation: 当前HAR研究主要依赖惯性测量单元和视觉数据,忽视了压力传感器在捕捉身体动态和重心变化方面的潜力,且缺乏相关数据集。
- Method: 提出TxP模型,包含Text2Pressure(文本生成压力序列)和Pressure2Text(压力图生成活动描述)两个任务,基于CLIP和LLaMA 2 13B Chat预训练模型,使用合成的PressLang数据集(81,100对文本-压力数据)训练。
- Result: 在瑜伽和日常活动等真实数据上验证,TxP通过数据增强和基于原子动作的分类,将HAR性能提升12.4%(宏F1分数)。
- Conclusion: TxP为压力传感器在HAR领域的应用提供了新方法,扩展了数据生成和分类的可能性,并深化了对人类运动的理解。
[145] Ethical AI in the Healthcare Sector: Investigating Key Drivers of Adoption through the Multi-Dimensional Ethical AI Adoption Model (MEAAM)
Prathamesh Muzumdar,Apoorva Muley,Kuldeep Singh,Sumanth Cheemalapati
Main category: cs.AI
TL;DR: 该研究提出了一个多维伦理AI采用模型(MEAAM),通过四个维度和三个伦理视角分析AI在医疗中的伦理挑战,并实证验证其对AI采用的影响。
- Motivation: 当前AI在医疗领域的伦理框架缺乏全面性和实证支持,研究旨在填补这一空白。
- Method: 采用定量横断面研究设计,通过PLS-SEM分析医疗专业人员调查数据。
- Result: 规范性伦理问题对操作采用影响最大,系统性采用则主要由全局伦理问题驱动。
- Conclusion: MEAAM为医疗AI伦理采用提供了全面且可操作的框架,对政策和技术实施具有指导意义。
[146] Leveraging LLM Agents and Digital Twins for Fault Handling in Process Plants
Milapji Singh Gill,Javal Vyas,Artan Markaj,Felix Gehlhoff,Mehmet Mercangöz
Main category: cs.AI
TL;DR: 论文提出了一种结合大型语言模型(LLM)代理与数字孪生环境的方法框架,用于自主处理过程工厂中的故障任务。
- Motivation: 尽管自动化和人工智能在过程工厂中提升了自主性,但故障处理等任务仍依赖人类专家,需要系统化的知识驱动方法。
- Method: 框架通过LLM代理持续解释系统状态并启动控制动作,数字孪生作为知识库和仿真平台验证控制动作的有效性。
- Result: 在过程工厂的混合模块测试中,框架不仅能自主控制,还能通过少量重新提示生成有效的管道堵塞缓解措施。
- Conclusion: 该方法展示了LLM与数字孪生结合在过程工厂故障处理中的潜力,为自主系统提供了新思路。
[147] Retrieval-augmented in-context learning for multimodal large language models in disease classification
Zaifu Zhan,Shuang Zhou,Xiaoshan Zhou,Yongkang Xiao,Jun Wang,Jiawen Deng,He Zhu,Yu Hou,Rui Zhang
Main category: cs.AI
TL;DR: RAICL框架通过检索增强生成和上下文学习,动态选择相似疾病模式的示例,显著提升多模态大语言模型在疾病分类中的性能。
- Motivation: 提升多模态大语言模型在疾病分类中的上下文学习效果,通过动态检索信息丰富的示例。
- Method: 提出RAICL框架,结合RAG和ICL,利用多种编码器(如ResNet、BERT等)检索相似疾病模式的示例,并构建优化的对话提示。在TCGA和IU Chest X-ray数据集上评估。
- Result: RAICL显著提升分类准确率(TCGA从0.7854到0.8368,IU Chest X-ray从0.7924到0.8658)。多模态输入优于单模态,欧氏距离在准确率上表现最佳,余弦相似度在F1分数上更优。
- Conclusion: RAICL是一种高效且可扩展的方法,能显著增强多模态大语言模型在疾病分类中的上下文学习能力。
[148] MemEngine: A Unified and Modular Library for Developing Advanced Memory of LLM-based Agents
Zeyu Zhang,Quanyu Dai,Xu Chen,Rui Li,Zhongyang Li,Zhenhua Dong
Main category: cs.AI
TL;DR: MemEngine是一个统一的模块化库,用于开发基于大语言模型(LLM)代理的高级记忆模型,填补了现有研究中缺乏统一框架的空白。
- Motivation: 当前研究中缺乏统一的记忆模型实现框架,MemEngine旨在解决这一问题。
- Method: 开发了一个模块化库MemEngine,实现了多种先进记忆模型,并支持便捷、可扩展的记忆开发。
- Result: MemEngine提供了用户友好且可插拔的记忆使用方式,并已在GitHub上开源。
- Conclusion: MemEngine为LLM代理的记忆模型开发提供了统一框架,推动了相关研究的发展。
[149] Eterna is Solved
Tristan Cazenave
Main category: cs.AI
TL;DR: Montparnasse是一种多目标RNA设计算法,解决了Eterna基准测试。
- Motivation: RNA设计在合成生物学、医学和纳米技术中有重要应用。
- Method: 采用多目标广义嵌套滚动策略适应与有限重复(MOGNRPALR)算法。
- Result: 成功解决了Eterna基准测试。
- Conclusion: Montparnasse算法在RNA设计中表现出色。
[150] Adversarial Cooperative Rationalization: The Risk of Spurious Correlations in Even Clean Datasets
Wei Liu,Zhongyu Niu,Lang Gao,Zhiying Deng,Jun Wang,Haozhao Wang,Ruixuan Li
Main category: cs.AI
TL;DR: 该研究探讨了自解释框架中生成器和预测器协作游戏可能引入的采样偏差问题,并提出了一种防止预测器学习错误相关性的方法。
- Motivation: 揭示协作游戏中生成器可能无意中引入的采样偏差,并解决这一问题。
- Method: 通过理论分析和实验验证偏差来源,并提出防止预测器学习错误相关性的指令。
- Result: 在多个数据集和架构上,该方法显著优于现有自解释方法,甚至优于大型语言模型。
- Conclusion: 研究为解决自解释框架中的偏差问题提供了方向,并展示了方法的有效性。
[151] Overview of AI Grading of Physics Olympiad Exams
Lachlan McGinness
Main category: cs.AI
TL;DR: 论文探讨了高中物理问题自动评分的多模态AI框架,并基于澳大利亚AI伦理原则进行了分析。
- Motivation: 高中物理问题类型多样,自动评分需要跨领域技术,现有方法需系统性总结和改进。
- Method: 通过系统性文献综述,提出多模态AI评分框架。
- Result: 提出了一个综合评分框架,并评估其符合伦理原则。
- Conclusion: 多模态AI框架有望解决物理问题评分难题,同时需关注伦理问题。
[152] Attention Mechanisms Perspective: Exploring LLM Processing of Graph-Structured Data
Zhong Guan,Likang Wu,Hongke Zhao,Ming He,Jianpin Fan
Main category: cs.AI
TL;DR: 研究发现LLMs在处理图结构数据时存在局限性,注意力机制无法有效建模节点间关系,但通过中间状态注意力窗口可提升性能。
- Motivation: 探索LLMs如何通过注意力机制处理图结构数据,以弥补其在拓扑连接上的不足。
- Method: 从注意力机制角度进行实证研究,分析LLMs在图数据上的注意力行为。
- Result: LLMs能识别图数据但难以建模节点关系;注意力分布与理想结构不符;中间状态注意力窗口优于全连接或固定连接。
- Conclusion: LLMs在图数据上的注意力机制需改进,中间状态窗口是一种有效解决方案。
[153] Leveraging LLMs to Automate Energy-Aware Refactoring of Parallel Scientific Codes
Matthew T. Dearing,Yiheng Tao,Xingfu Wu,Zhiling Lan,Valerie Taylor
Main category: cs.AI
TL;DR: LASSI-EE是一个基于LLM的自动化框架,用于生成高能效的并行代码,平均减少47%的能耗。
- Motivation: 当前LLM生成的并行代码主要关注功能正确性,而忽略了性能和能耗问题。
- Method: 采用多阶段迭代流程,通过LLM对输入代码进行重构以优化能效。
- Result: 在20个HeCBench基准测试中,85%的案例平均能耗降低47%。
- Conclusion: LLM不仅可用于生成正确代码,还能实现能耗感知编程,但仍有改进空间。
[154] Interpretable Emergent Language Using Inter-Agent Transformers
Mannan Bhardwaj
Main category: cs.AI
TL;DR: 论文提出DIAT方法,利用自注意力机制在多智能体强化学习中实现可解释的通信协议。
- Motivation: 现有方法(如RIAL、DIAL、CommNet)缺乏可解释性,DIAT旨在解决这一问题。
- Method: 采用自注意力机制的DIAT方法,学习符号化、可理解的通信协议。
- Result: 实验表明DIAT能将观察编码为可解释的词汇和有意义嵌入,有效解决协作任务。
- Conclusion: DIAT在复杂多智能体环境中具有可解释通信的潜力。
[155] LLM-Guided Probabilistic Program Induction for POMDP Model Estimation
Aidan Curtis,Hao Tang,Thiago Veloso,Kevin Ellis,Tomás Lozano-Pérez,Leslie Pack Kaelbling
Main category: cs.AI
TL;DR: 利用LLM作为先验学习低复杂度POMDP模型,效果优于传统方法。
- Motivation: 解决POMDP模型学习问题,特别是针对低复杂度概率图模型的子类。
- Method: 使用LLM生成候选概率程序,通过反馈调整以匹配经验分布。
- Result: 在经典POMDP问题和实际机器人搜索领域验证了方法的有效性。
- Conclusion: LLM引导的低复杂度POMDP模型构建优于表格学习、行为克隆和直接LLM规划。
[156] Real-time Spatial Retrieval Augmented Generation for Urban Environments
David Nazareno Campo,Javier Conde,Álvaro Alonso,Gabriel Huecas,Joaquín Salvachúa,Pedro Reviriego
Main category: cs.AI
TL;DR: 论文提出了一种实时空间RAG架构,用于将生成式AI有效整合到城市环境中,解决了传统RAG在动态城市场景中的不足。
- Motivation: 生成式AI在城市应用中潜力巨大,但基础模型存在知识更新慢、成本高的问题,传统RAG架构无法满足城市环境的复杂需求。
- Method: 提出了一种基于时空过滤能力的实时空间RAG架构,利用FIWARE生态系统实现,并通过马德里旅游助手用例验证。
- Result: 成功验证了所提架构在整合基础模型到城市环境中的有效性。
- Conclusion: 实时空间RAG架构为生成式AI在城市中的动态应用提供了可行解决方案。
[157] A survey of agent interoperability protocols: Model Context Protocol (MCP), Agent Communication Protocol (ACP), Agent-to-Agent Protocol (A2A), and Agent Network Protocol (ANP)
Abul Ehtesham,Aditi Singh,Gaurav Kumar Gupta,Saket Kumar
Main category: cs.AI
TL;DR: 该论文调查了四种新兴的LLM自主代理通信协议(MCP、ACP、A2A、ANP),比较了它们的交互模式、发现机制、通信模式和安全性,并提出了分阶段采用路线图。
- Motivation: 解决LLM自主代理在工具集成、上下文数据共享和任务协调中的标准化和可扩展性问题。
- Method: 通过比较四种协议(MCP、ACP、A2A、ANP)的交互模式、发现机制、通信模式和安全性,提出分阶段采用路线图。
- Result: MCP用于工具访问,ACP用于多模态消息传递,A2A用于协作任务执行,ANP用于去中心化代理市场。
- Conclusion: 为设计安全、可互操作和可扩展的LLM代理生态系统提供了全面基础。
[158] SafeMate: A Model Context Protocol-Based Multimodal Agent for Emergency Preparedness
Junfeng Jiao,Jihyung Park,Yiming Xu,Lucy Atkinson
Main category: cs.AI
TL;DR: SafeMate是一个基于AI的助手,通过动态检索和生成工具,为非专业人士提供紧急情况下的准确指导。
- Motivation: 传统紧急决策支持系统(EDSS)依赖静态文档,难以被非专业人士在压力下使用,导致公众在危机中缺乏有效指导。
- Method: 基于Model Context Protocol(MCP),SafeMate动态路由用户查询至文档检索、清单生成和结构化摘要工具,并使用FAISS和余弦相似性从可信来源识别相关内容。
- Result: SafeMate能够为非专业人士提供准确、上下文相关的紧急指导。
- Conclusion: SafeMate填补了机构知识与公众可访问性之间的关键缺口,提升了应急准备和响应的有效性。
[159] HyperTree Planning: Enhancing LLM Reasoning via Hierarchical Thinking
Runquan Gui,Zhihai Wang,Jie Wang,Chi Ma,Huiling Zhen,Mingxuan Yuan,Jianye Hao,Defu Lian,Enhong Chen,Feng Wu
Main category: cs.AI
TL;DR: 论文提出HyperTree Planning (HTP)方法,通过构建超树结构解决复杂规划任务中的挑战,显著提升性能。
- Motivation: 现有大语言模型在复杂规划任务中面临推理步骤长、约束多样和子任务管理困难的问题。
- Method: HTP采用超树结构,支持分层思考和分治策略,结合自主规划框架迭代优化规划大纲。
- Result: 在TravelPlanner基准测试中,HTP使用Gemini-1.5-Pro实现了3.6倍的性能提升。
- Conclusion: HTP通过超树结构和分层推理,有效解决了复杂规划任务中的挑战,性能显著优于现有方法。
[160] Task-Oriented Semantic Communication in Large Multimodal Models-based Vehicle Networks
Baoxia Du,Hongyang Du,Dusit Niyato,Ruidong Li
Main category: cs.AI
TL;DR: 论文提出了一种基于大型多模态模型(LMM)的任务导向语义通信框架,优化了图像切片和资源分配,显著提升了交通场景下的问答准确性。
- Motivation: 探索大型多模态模型(LMM)在语义通信中的潜力,解决传统方法在资源利用和响应时间上的不足。
- Method: 使用LLaVA模型优化图像切片,结合主客观用户注意力调整语义信息传输的能量分配,构建交通场景VQA数据集进行评估。
- Result: 在相同信道条件下,框架显著提升了问答准确性,尤其在低信噪比环境下(如12dB时提升13.4%,10dB时提升33.1%)。
- Conclusion: LMM在任务导向语义通信中具有显著优势,优化后的框架能高效传输关键信息,提升性能。
[161] ReeM: Ensemble Building Thermodynamics Model for Efficient HVAC Control via Hierarchical Reinforcement Learning
Yang Deng,Yaohui Liu,Rui Liang,Dafang Zhao,Donghua Xie,Ittetsu Taniguchi,Dan Wang
Main category: cs.AI
TL;DR: 本文提出了一种基于模型集成和分层强化学习的方法,用于动态选择和加权基础模型,以优化建筑HVAC控制的实时温度预测。
- Motivation: 现有建筑热力学模型需要大量数据收集和专家知识,效率低且复用性差。本文旨在通过集成现有模型减少建模工作量。
- Method: 采用分层强化学习(HRL)方法,高层决策选择模型,低层决策加权模型,以应对非平稳数据流和模型数量增加。
- Result: 离线实验和现场案例研究表明,该方法能有效提高预测准确性并减少建模工作量。
- Conclusion: 提出的HRL方法在建筑HVAC控制中具有高效性和实用性,为模型复用提供了新思路。
[162] MSFNet-CPD: Multi-Scale Cross-Modal Fusion Network for Crop Pest Detection
Jiaqi Zhang,Zhuodong Liu,Kejian Yu
Main category: cs.AI
TL;DR: 论文提出了一种多尺度跨模态融合网络(MSFNet-CPD),通过结合视觉和文本特征提升农业害虫检测的准确性和可解释性,并构建了新的多模态数据集。
- Motivation: 现有害虫检测方法主要依赖低层次视觉特征,缺乏多模态整合,导致准确性不足且难以解释。此外,高质量多模态农业数据集的稀缺也限制了研究进展。
- Method: 构建了CTIP102和STIP102多模态基准数据集,提出MSFNet-CPD网络,结合超分辨率重建模块、图像-文本融合模块(ITF)和图像-文本转换器(ITC),并采用任意组合图像增强策略(ACIE)生成更复杂的数据集MTIP102。
- Result: 实验表明,MSFNet-CPD在多个害虫检测基准上优于现有方法。
- Conclusion: 该方法通过多模态融合和数据集增强显著提升了害虫检测性能,代码和数据集将公开。
[163] Investigating the Impact of Personalized AI Tutors on Language Learning Performance
Simon Suh
Main category: cs.AI
TL;DR: 研究探讨AI导师在语言学习中对学生参与度、学术表现和满意度的影响。
- Motivation: COVID-19推动在线学习,AI导师成为教育关键,但对其能否提升技能和参与度存疑。
- Method: 对34名学生进行准实验,使用配对样本t检验分析AI导师使用前后的数据。
- Result: 未明确提及,需实验数据验证。
- Conclusion: 研究旨在揭示AI导师在个性化语言学习中的实际效果。
[164] Incentivizing Inclusive Contributions in Model Sharing Markets
Enpei Zhang,Jingyi Chai,Rui Ye,Yanfeng Wang,Siheng Chen
Main category: cs.AI
TL;DR: 本文提出了一种包容性和激励性的个性化联邦学习(iPFL),旨在激励数据持有者在不泄露原始数据的情况下协作训练个性化模型。
- Motivation: 公共数据即将耗尽,而分散的私有数据因隐私敏感性和缺乏激励机制未被充分利用。
- Method: iPFL通过图基训练优化构建模型共享市场,并引入基于博弈论的激励机制。
- Result: 理论分析显示iPFL满足个体理性和真实性;实证研究表明其在经济效用和模型性能上优于或与基线方法相当。
- Conclusion: iPFL有望成为未来利用分散私有数据提升AI模型的有效技术,同时满足各方需求。
[165] El Agente: An Autonomous Agent for Quantum Chemistry
Yunheng Zou,Austin H. Cheng,Abdulrahman Aldossary,Jiaru Bai,Shi Xuan Leong,Jorge Arturo Campos-Gonzalez-Angulo,Changhyeok Choi,Cher Tian Ser,Gary Tom,Andrew Wang,Zijian Zhang,Ilya Yakavets,Han Hao,Chris Crebolder,Varinia Bernales,Alán Aspuru-Guzik
Main category: cs.AI
TL;DR: El Agente Q是一个基于LLM的多智能体系统,通过自然语言提示动态生成和执行量子化学工作流,解决了计算化学工具的复杂性问题。
- Motivation: 计算化学工具的复杂性使其对非专家和专家都难以使用,El Agente Q旨在通过自然语言交互降低使用门槛。
- Method: 系统采用分层记忆框架的认知架构,支持任务分解、工具选择、后分析和自主文件处理。
- Result: 在六个大学课程练习和两个案例研究中,任务成功率平均超过87%,并能通过现场调试处理错误。
- Conclusion: El Agente Q为量子化学提供了更自主和易用的解决方案,支持复杂工作流和透明操作。
[166] Beyond the model: Key differentiators in large language models and multi-agent services
Muskaan Goyal,Pranav Bhasin
Main category: cs.AI
TL;DR: 本文探讨了现代AI服务中超越大型语言模型(LLMs)的关键因素,如数据质量、计算效率和评估框架。
- Motivation: 随着基础模型(如DeepSeek、Manus AI、Llama 4)的发布,LLMs不再是生成式AI的唯一决定因素,优化生态系统成为竞争焦点。
- Method: 通过综述分析,探讨了数据管理、计算效率、延迟和评估框架等关键因素。
- Result: 指出优化生态系统是提升AI服务效率和盈利能力的核心。
- Conclusion: 现代AI服务的成功不仅依赖模型规模,更需关注生态系统优化。
[167] Machine-Learning-Powered Neural Interfaces for Smart Prosthetics and Diagnostics
MohammadAli Shaeri,Jinhan Liu,Mahsa Shoaran
Main category: cs.AI
TL;DR: 本文综述了AI驱动的解码算法和节能SoC平台在微型神经设备中的最新进展,展示了智能神经接口的潜力。
- Motivation: 通过集成高密度神经记录、现场信号处理和机器学习,开发个性化辅助技术和适应性治疗干预。
- Method: 利用高密度神经记录、现场信号处理和机器学习技术,提取关键特征并实现低延迟神经解码。
- Result: 实现了神经信号的实时解读、脑活动的适应性调节以及辅助设备的高效控制。
- Conclusion: 智能神经接口有望解决可扩展性、可靠性、可解释性和用户适应性等关键挑战。
[168] Recursive Decomposition with Dependencies for Generic Divide-and-Conquer Reasoning
Sergio Hernández-Gutiérrez,Minttu Alakuijala,Alexander V. Nikitin,Pekka Marttinen
Main category: cs.AI
TL;DR: 论文提出了一种名为RDD的递归分解方法,用于解决推理任务,减少了对监督的依赖,并支持子任务依赖和错误恢复机制。
- Motivation: 现有的大语言模型在复杂推理任务中性能和执行时间不足,且需要额外监督。
- Method: 采用递归分解与依赖关系(RDD)的分治法,支持子任务有序执行和错误恢复。
- Result: 在六个难度级别的两个基准测试中,RDD在计算匹配设置下表现优于其他方法,且计算效率更高。
- Conclusion: RDD是一种高效且可扩展的推理方法,适用于复杂任务且无需额外监督。
[169] Agentic Neurodivergence as a Contingent Solution to the AI Alignment Problem
Alberto Hernández-Espinosa,Felipe S. Abrahão,Olaf Witkowski,Hector Zenil
Main category: cs.AI
TL;DR: 论文探讨AI对齐问题的不可实现性,提出通过部分对齐的竞争性AI系统动态平衡风险。
- Motivation: 随着AI从狭义向通用和超级智能发展,控制与存在风险加剧,需解决对齐问题。
- Method: 基于数学原理(如图灵计算普遍性、哥德尔不完备性)证明完全对齐不可行,提出部分对齐的动态策略。
- Result: 通过数学证明和实验设计,展示部分对齐系统如何通过竞争平衡风险。
- Conclusion: 完全AI对齐在数学上不可能,动态部分对齐是唯一可行路径。
[170] Study of the influence of a biased database on the prediction of standard algorithms for selecting the best candidate for an interview
Shuyu Wang,Angélique Saillet,Philomène Le Gall,Alain Lacroux,Christelle Martin-Lacroux,Vincent Brault
Main category: cs.AI
TL;DR: 论文探讨了AI在招聘中的偏见问题,提出生成模拟偏见数据训练算法,并研究匿名化对预测质量的影响。
- Motivation: 尽管公司声称AI招聘无偏见,但算法训练数据可能隐含人类或历史偏见,需研究其影响。
- Method: 生成模拟外部(歧视)和内部(自我审查)偏见的数据,训练五种经典算法,并分析其表现。同时研究文件匿名化对预测的影响。
- Result: 研究发现算法在偏见数据下表现不佳,匿名化可能改善预测质量。
- Conclusion: AI招聘算法易受偏见影响,匿名化或为潜在解决方案。
[171] A Survey of Slow Thinking-based Reasoning LLMs using Reinforced Learning and Inference-time Scaling Law
Qianjun Pan,Wenkai Ji,Yuyang Ding,Junsong Li,Shilian Chen,Junyi Wang,Jie Zhou,Qin Chen,Min Zhang,Yulan Wu,Liang He
Main category: cs.AI
TL;DR: 综述探讨了模仿人类‘慢思考’的推理大语言模型(LLMs)的最新进展,总结了动态计算扩展、强化学习和慢思考框架三大关键技术,并展望了未来挑战与发展方向。
- Motivation: 通过模仿人类‘慢思考’过程,提升LLMs在复杂任务(如数学推理、医学诊断等)中的推理能力,以解锁其在现实应用中的潜力。
- Method: 方法分为三类:(1)动态测试扩展,(2)强化学习优化决策,(3)慢思考框架(如长链推理、分层处理)。
- Result: 综述整合了100多项研究,展示了LLMs结合人类深度思考与高效推理的路径。
- Conclusion: 提升LLMs的推理能力对科学发现和决策支持等实际应用至关重要,未来需进一步解决挑战。
[172] Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Role-Play
Yemin Shi,Yu Shu,Siwei Dong,Guangyi Liu,Jaward Sesay,Jingwen Li,Zhiting Hu
Main category: cs.AI
TL;DR: Voila是一种端到端的语音AI模型,支持低延迟、情感丰富的对话,并能自定义声音。
- Motivation: 目标是实现一种能无缝融入日常生活的语音AI,支持自主、实时且情感丰富的交互。
- Method: 采用端到端架构,结合大型语言模型和声学建模,支持全双工低延迟对话。
- Result: 响应延迟仅195毫秒,支持百万种预建声音和快速自定义。
- Conclusion: Voila开源,旨在推动下一代人机交互的发展。
[173] Technical Report: Evaluating Goal Drift in Language Model Agents
Rauno Arike,Elizabeth Donoway,Henning Bartsch,Marius Hobbhahn
Main category: cs.AI
TL;DR: 论文提出了一种分析语言模型代理目标漂移的新方法,发现所有模型在长时间运行中都会出现目标漂移,且漂移程度与上下文长度相关。
- Motivation: 随着语言模型作为自主代理的部署增加,确保其长期运行中目标的一致性对安全性至关重要。
- Method: 通过系统提示明确初始目标,并在环境压力下引入竞争目标,分析代理的行为变化。
- Result: 最佳代理(Claude 3.5 Sonnet)在10万token后仍保持目标一致性,但所有模型均出现漂移,且漂移与上下文长度相关。
- Conclusion: 目标漂移是语言模型代理的普遍现象,需进一步研究以减少其对安全性的影响。
[174] Enhancing LLMs' Clinical Reasoning with Real-World Data from a Nationwide Sepsis Registry
Junu Kim,Chaeeun Shim,Sungjin Park,Su Yeon Lee,Gee Young Suh,Chae-Man Lim,Seong Jin Choi,Song Mi Moon,Kyoung-Ho Song,Eu Suk Kim,Hong Bin Kim,Sejoong Kim,Chami Im,Dong-Wan Kang,Yong Soo Kim,Hee-Joon Bae,Sung Yoon Lim,Han-Gil Jeong,Edward Choi
Main category: cs.AI
TL;DR: 论文提出C-Reason,通过强化学习在真实临床数据上微调Phi-4,提升LLMs的临床推理能力,并在多个任务中验证其有效性。
- Motivation: LLMs在临床实践中的推理能力有限,主要因训练数据缺乏真实临床数据。
- Method: 利用全国性脓毒症注册数据构建推理密集型问题,通过强化学习微调Phi-4。
- Result: C-Reason在领域内测试集表现优异,且能力可泛化至其他任务和疾病。
- Conclusion: 未来需利用大规模多疾病临床数据训练LLMs,以开发更通用的临床推理模型。
[175] FormalMATH: Benchmarking Formal Mathematical Reasoning of Large Language Models
Zhouliang Yu,Ruotian Peng,Keyi Ding,Yizhe Li,Zhongyuan Peng,Minghao Liu,Yifan Zhang,Zheng Yuan,Huajian Xin,Wenhao Huang,Yandong Wen,Ge Zhang,Weiyang Liu
Main category: cs.AI
TL;DR: FormalMATH是一个大规模Lean4基准测试,包含5,560个形式化验证的数学问题,旨在解决现有基准测试的范围和规模限制。通过人机协作的自动形式化流程,降低了专家标注成本,同时保持问题保真度。评估显示现有LLM定理证明器在实用采样预算下成功率仅为16.46%,并存在领域偏见。
- Motivation: 解决现有数学推理基准测试在范围和规模上的不足,推动形式化数学推理的发展。
- Method: 提出FormalMATH基准测试,结合人机协作的自动形式化流程,包括LLM语句自动形式化、多LLM语义验证和否定反证过滤策略。
- Result: 在实用采样预算下,现有LLM定理证明器成功率仅为16.46%,且存在领域偏见和过度依赖简化自动化策略。
- Conclusion: FormalMATH为形式化数学推理提供了强有力的基准测试,揭示了当前LLM定理证明器的局限性。
[176] The use of Artificial Intelligence for Intervention and Assessment in Individuals with ASD
Aggeliki Sideraki,Christos-Nikolaos Anagnostopoulos
Main category: cs.AI
TL;DR: AI在自闭症谱系障碍(ASD)诊断和干预中的应用,包括早期诊断和行为分析,以及教育机器人和自适应工具的使用。
- Motivation: 探索AI在ASD诊断和干预中的潜力,以提高准确性和个性化支持。
- Method: 利用深度学习算法分析生物特征数据、视频互动和语言特征,并结合教育机器人和AAC系统。
- Result: AI在ASD早期诊断和干预中表现出高效性,减少了主观偏差并支持个性化需求。
- Conclusion: AI是ASD领域的创新工具,需进一步研究其长期影响。
[177] Giving Simulated Cells a Voice: Evolving Prompt-to-Intervention Models for Cellular Control
Nam H. Le,Patrick Erikson,Yanbo Zhang,Michael Levin,Josh Bongard
Main category: cs.AI
TL;DR: 该研究提出了一种将自然语言提示转化为空间向量场的方法,用于指导模拟细胞群体的行为,结合了大型语言模型和进化策略优化的神经控制器。
- Motivation: 探索如何利用自然语言作为接口,指导生物系统(如细胞动态)达到预期状态,为医学和合成生物学提供新工具。
- Method: 结合大型语言模型和进化神经控制器(P2I),通过进化策略优化,将语言提示转化为空间向量场,指导模拟细胞行为。
- Result: 即使词汇受限且细胞模型简化,P2I网络仍能成功将细胞动态与用户定义的语言目标对齐。
- Conclusion: 该研究为未来实现自然语言驱动的细胞控制奠定了基础,展示了从语言输入到模拟干预再到行为输出的完整闭环。
[178] Local Markov Equivalence and Local Causal Discovery for Identifying Controlled Direct Effects
Timothée Loranchet,Charles K. Assaad
Main category: cs.AI
TL;DR: 本文提出了一种局部图类(LEG)及其算法LocPC和LocPC-CDE,用于高效识别受控直接效应(CDE),减少计算负担和假设依赖。
- Motivation: 现有方法依赖全局图结构且计算复杂,而真实结构常未知。局部图类(LEG)提供更实用的替代方案。
- Method: 定义局部图类(LEG),提出LocPC算法恢复LEG,并基于LocPC开发LocPC-CDE算法识别CDE。
- Result: 算法减少了条件独立性测试需求,在较弱假设下仍具理论保证。
- Conclusion: 局部方法优于全局方法,适用于实际应用中CDE的识别。
[179] Knowing You Don't Know: Learning When to Continue Search in Multi-round RAG through Self-Practicing
Diji Yang,Linda Zeng,Jinmeng Rao,Yi Zhang
Main category: cs.AI
TL;DR: SIM-RAG框架通过增强RAG系统的自我意识和多轮检索能力,解决了现有方法在复杂任务中的局限性,无需昂贵的人工标注数据。
- Motivation: 现有多轮RAG系统在检索过程中缺乏自我怀疑能力,可能导致过度检索或错误回答,且现有解决方案成本高或性能不佳。
- Method: 通过自生成合成训练数据(包含中间推理步骤),训练轻量级信息充分性评估器(Critic),指导检索决策。
- Result: 实验表明SIM-RAG在多轮RAG任务中表现优异,且系统高效、数据高效。
- Conclusion: SIM-RAG为多轮RAG任务提供了一种高效且无需人工标注的解决方案。
[180] AutoLibra: Agent Metric Induction from Open-Ended Feedback
Hao Zhu,Phil Cuvin,Xinkai Yu,Charlotte Ka Yee Yan,Jason Zhang,Diyi Yang
Main category: cs.AI
TL;DR: AutoLibra框架通过将开放式人类反馈转化为具体的行为评估指标,优化语言代理的评估和改进。
- Motivation: 传统代理评估依赖粗粒度的任务成功指标,缺乏对中间行为的奖励,且需专家手动设计。
- Method: AutoLibra将反馈与代理行为关联,聚类正负行为,生成具体指标,并优化覆盖率和冗余度。
- Result: 实验显示AutoLibra能生成更具体的评估指标,提升代理性能20%,并优化微调数据选择。
- Conclusion: AutoLibra是一种强大的任务无关工具,适用于语言代理的评估和改进。
[181] Privacy Risks and Preservation Methods in Explainable Artificial Intelligence: A Scoping Review
Sonal Allana,Mohan Kankanhalli,Rozita Dara
Main category: cs.AI
TL;DR: 本文通过范围综述探讨了可解释人工智能(XAI)中隐私与解释性之间的冲突,总结了隐私风险、现有保护方法及隐私保护解释的特征。
- Motivation: XAI作为可信AI的重要组成部分,旨在提高复杂模型的透明度,但解释信息的提供可能引发隐私问题,亟需解决。
- Method: 采用标准范围综述方法,从2019年至2024年的1943篇研究中筛选出57篇进行分析,回答三个研究问题。
- Result: 综述总结了XAI中的隐私风险、现有保护方法,并提出了隐私保护解释的特征,为隐私合规的XAI提供指导。
- Conclusion: 研究揭示了隐私与解释性之间的复杂关系,提出了平衡隐私与其他系统需求的建议,为可信AI的发展提供参考。
[182] LISAT: Language-Instructed Segmentation Assistant for Satellite Imagery
Jerome Quenum,Wen-Han Hsieh,Tsung-Han Wu,Ritwik Gupta,Trevor Darrell,David M. Chan
Main category: cs.AI
TL;DR: LISAt是一个专为复杂遥感场景设计的视觉语言模型,能够描述场景、回答问题并分割目标对象,性能优于现有模型。
- Motivation: 现有分割模型难以处理复杂用户查询和遥感图像,需要更强大的模型来解决这一问题。
- Method: 提出LISAt模型,基于新数据集GRES和PreGRES训练,结合视觉和语言能力。
- Result: LISAt在遥感描述任务中优于RS-GPT4V 10.04%(BLEU-4),在推理分割任务中超越现有模型143.36%(gIoU)。
- Conclusion: LISAt在复杂遥感场景中表现出色,为相关领域提供了新的解决方案。
cs.SD
[183] Weakly-supervised Audio Temporal Forgery Localization via Progressive Audio-language Co-learning Network
Junyan Wu,Wenbo Xu,Wei Lu,Xiangyang Luo,Rui Yang,Shize Guo
Main category: cs.SD
TL;DR: 论文提出了一种名为LOCO的渐进式音频-语言协同学习网络,用于弱监督场景下的音频时间伪造定位(ATFL),通过协同学习和自监督提升定位性能。
- Motivation: 现有ATFL方法依赖成本高昂的细粒度标注,难以在现实场景中应用。为解决这一问题,论文提出了一种弱监督方法。
- Method: 设计了音频-语言协同学习模块,通过语义对齐捕获伪造共识特征;采用伪造定位模块生成伪造提案;引入渐进式优化策略生成伪帧级标签并优化特征。
- Result: 在三个公开基准测试中,LOCO取得了最先进的性能。
- Conclusion: LOCO通过弱监督和渐进式优化,显著提升了音频伪造定位的性能,适用于现实场景。
physics.flu-dyn
[184] An Adaptive Framework for Autoregressive Forecasting in CFD Using Hybrid Modal Decomposition and Deep Learning
Rodrigo Abadía-Heredia,Manuel Lopez-Martin,Soledad Le Clainche
Main category: physics.flu-dyn
TL;DR: 提出首个通用、数据驱动的自适应框架,用于稳定深度学习自回归预测模型,降低CFD模拟的计算成本。
- Motivation: 解决深度学习自回归模型在长时间预测中稳定性不足的问题,减少计算流体动力学模拟的计算成本。
- Method: 交替进行流场预测和模型更新:使用训练好的DL模型预测流场演化,当稳定性下降时用新生成的CFD数据更新模型。
- Result: 在三种复杂流态(层流到湍流)中验证,计算成本降低30%至95%,同时保持物理一致性和准确性。
- Conclusion: 该框架完全数据驱动,适用于多种时间依赖的模拟问题,代码开源并集成到ModelFLOWs-app中。
cs.CR
[185] Watermark Overwriting Attack on StegaStamp algorithm
I. F. Serzhenko,L. A. Khaertdinova,M. A. Pautov,A. V. Antsiferova
Main category: cs.CR
TL;DR: 提出了一种针对StegaStamp水印算法的攻击方法,能够完全去除图像中的水印且质量损失最小。
- Motivation: 作为NeurIPS 'Erasing the invisible'竞赛的一部分,探索如何高效去除水印。
- Method: 开发了一种攻击方法,针对StegaStamp水印算法。
- Result: 成功完全去除水印,且图像质量损失极小。
- Conclusion: 该方法在去除水印方面具有高效性和实用性。
[186] Securing the Future of IVR: AI-Driven Innovation with Agile Security, Data Regulation, and Ethical AI Integration
Khushbu Mehboob Shaikh,Georgios Giannakopoulos
Main category: cs.CR
TL;DR: 论文探讨了AI驱动的交互式语音应答(IVR)技术的安全与伦理问题,提出了一个结合敏捷安全原则、合规性和用户伦理的治理框架。
- Motivation: 随着IVR技术的快速数字化和AI化,确保其安全、合规和伦理设计变得至关重要。
- Method: 分析了IVR从静态代码设计到自适应AI系统的演变,提出了一个以网络安全为中心的治理框架。
- Result: 框架强调隐私设计、自适应风险建模和透明度,认为伦理AI集成是战略必需。
- Conclusion: 现代IVR可以通过伦理和安全设计,成为智能、安全且负责任的数字前沿工具。
[187] The DCR Delusion: Measuring the Privacy Risk of Synthetic Data
Zexi Yao,Nataša Krčo,Georgi Ganev,Yves-Alexandre de Montjoye
Main category: cs.CR
TL;DR: 论文指出,尽管距离最近记录(DCR)等代理指标被广泛用于评估合成数据的隐私性,但这些指标无法有效识别隐私泄露,且与实际的成员推理攻击(MIA)风险无关。
- Motivation: 研究旨在揭示当前常用的代理隐私指标(如DCR)在评估合成数据隐私性时的不足,并呼吁采用更严格的MIA作为标准。
- Method: 通过多种数据集和模型(如Baynet、CTGAN和扩散模型),比较代理指标与MIA的实际效果,分析其一致性和设计缺陷。
- Result: 研究发现,代理指标无法识别隐私泄露,且其二元隐私测试和连续度量均与MIA风险无关。这些缺陷在不同超参数设置和记录选择方法中均一致存在。
- Conclusion: 论文建议摒弃代理指标,采用MIA作为评估合成数据隐私性的严格标准,尤其是在法律匿名性声明中。
[188] Open Challenges in Multi-Agent Security: Towards Secure Systems of Interacting AI Agents
Christian Schroeder de Witt
Main category: cs.CR
TL;DR: 论文提出“多智能体安全”新领域,研究去中心化AI智能体交互中的安全挑战,包括隐私泄露、虚假信息等,并提出研究议程。
- Motivation: 去中心化AI智能体的交互带来新的安全威胁,现有研究分散且不足,亟需系统性研究以应对潜在风险。
- Method: 通过分类威胁场景、调查安全与性能权衡,提出统一研究议程。
- Result: 初步工作包括威胁分类、性能权衡调查及研究议程,为未来研究提供方向。
- Conclusion: 多智能体安全研究对释放AI潜力、增强公众信任及降低国家安全风险至关重要。
[189] Advancing Email Spam Detection: Leveraging Zero-Shot Learning and Large Language Models
Ghazaleh SHirvani,Saeid Ghasemshirazi
Main category: cs.CR
TL;DR: 研究探讨了结合FLAN-T5和BERT的零样本学习在邮件垃圾检测中的有效性,旨在解决传统方法的局限性。
- Motivation: 传统机器学习和深度学习方法在动态垃圾邮件检测中存在适应性不足、类别不平衡和数据稀缺等问题,需要创新方法减少对标注数据和频繁重训练的依赖。
- Method: 使用BERT预处理邮件内容并提取关键信息,结合FLAN-T5在零样本框架下分类邮件。
- Result: 该方法无需依赖大量标注数据或频繁重训练,能有效应对未知垃圾邮件模式和对抗环境。
- Conclusion: 零样本学习和NLP技术为垃圾邮件检测提供了高效、可扩展的解决方案,适用于动态和挑战性任务。
[190] Unveiling the Landscape of LLM Deployment in the Wild: An Empirical Study
Xinyi Hou,Jiahao Han,Yanjie Zhao,Haoyu Wang
Main category: cs.CR
TL;DR: 研究发现,公开部署的大型语言模型(LLM)普遍存在安全漏洞,包括不安全的协议、配置不当和未授权访问,亟需改进默认安全和部署实践。
- Motivation: 揭示公开部署的LLM现状,分析其安全风险,以推动更安全的框架和部署实践。
- Method: 通过大规模互联网测量,识别了320,102个公开LLM服务,分析其端点、配置和认证实践。
- Result: 公开LLM部署增长迅速但普遍不安全,存在协议不安全、TLS配置差和未授权访问等问题。
- Conclusion: 公开LLM部署存在广泛安全缺陷,需加强默认安全、部署标准和操作规范。
cs.LO
[191] Explainability by design: an experimental analysis of the legal coding process
Matteo Cristani,Guido Governatori,Francesco Olivieri,Monica Palmirani,Gabriele Buriola
Main category: cs.LO
TL;DR: 本文提出了一种从法律文本片段到Deontic Defeasible Logic规则的编码方法,并通过实验验证了其有效性。
- Motivation: 研究法律文本编码为逻辑规则的标准化方法,以提高编码效率和准确性。
- Method: 使用Deontic Defeasible Logic规则编码法律文本,并通过场景测试验证编码正确性。
- Result: 实验结果表明编码效率与法律知识、编码经验、文本长度和引用深度相关。
- Conclusion: 提供了一种预测编码时间的技术,并展示了Houdini工具在逻辑推理中的应用。
eess.IV
[192] Regression s all you need for medical image translation
Sebastian Rassmann,David Kügler,Christian Ewert,Martin Reuter
Main category: eess.IV
TL;DR: YODA是一种基于扩散模型的2.5D框架,用于医学图像翻译,结合扩散和回归方法生成高质量图像,挑战了扩散模型在医学领域的优势假设。
- Motivation: 在医学成像中,快速获取信息丰富的图像至关重要,但现有生成方法(如GAN和扩散模型)可能因噪声或内容幻觉影响临床实用性。
- Method: 提出YODA框架,结合扩散和回归方法,并引入ExpA采样技术以减少噪声。
- Result: 实验表明YODA优于现有GAN和扩散模型,其生成图像在多个下游任务中可与真实图像媲美甚至更优。
- Conclusion: YODA挑战了扩散模型在医学图像翻译中的优势,为实际应用提供了新方向。
[193] CostFilter-AD: Enhancing Anomaly Detection through Matching Cost Filtering
Zhe Zhang,Mingxiu Cai,Hanxiao Wang,Gaochang Wu,Tianyou Chai,Xiatian Zhu
Main category: eess.IV
TL;DR: 论文提出了一种名为CostFilter-AD的方法,通过引入成本过滤概念改进无监督异常检测(UAD)中的匹配过程,显著提升了检测效果。
- Motivation: 现有UAD方法依赖图像或特征级匹配,匹配过程不准确且被忽视,导致检测效果不佳。
- Method: 构建匹配成本体积,提出成本体积过滤网络,通过输入观察作为注意力查询抑制噪声并保留边缘结构。
- Result: 在MVTec-AD和VisA基准测试中验证了CostFilter-AD对单类和多类UAD任务的通用优势。
- Conclusion: CostFilter-AD作为一种通用后处理插件,可显著提升现有UAD方法的性能。
[194] Seeing Heat with Color -- RGB-Only Wildfire Temperature Inference from SAM-Guided Multimodal Distillation using Radiometric Ground Truth
Michael Marinaccio,Fatemeh Afghah
Main category: eess.IV
TL;DR: SAM-TIFF是一种基于RGB输入的师生蒸馏框架,用于野火温度预测和分割,无需热传感器。
- Motivation: 多模态传感(如RGB和热成像)增加了硬件成本和功耗,因此需要一种仅依赖RGB输入的方法。
- Method: 使用多模态教师网络从RGB-热图像对中提取知识,蒸馏到单模态RGB学生网络,结合SAM、TOPSIS、Canny边缘检测和Otsu阈值自动生成分割监督。
- Result: 在FLAME 3数据集上展示了RGB数据中像素级温度回归的强泛化能力。
- Conclusion: 为轻量、低成本的无人机野火监测系统奠定了基础,无需热传感器。
[195] RobSurv: Vector Quantization-Based Multi-Modal Learning for Robust Cancer Survival Prediction
Aiman Farooq,Azad Singh,Deepak Mishra,Santanu Chaudhury
Main category: eess.IV
TL;DR: RobSurv是一个基于深度学习的多模态医学影像框架,通过向量量化和双路径架构提升癌症生存预测的鲁棒性,显著优于现有方法。
- Motivation: 解决深度学习模型对噪声和影像协议变化的脆弱性,以及从异质CT和PET影像中提取一致特征的挑战。
- Method: 采用双路径架构:一路通过向量量化学习离散代码本以抵抗噪声,另一路保留连续特征细节;通过基于Transformer的补丁融合机制整合。
- Result: 在三个数据集中表现优异(C-index: 0.771, 0.742, 0.734),噪声下性能下降仅3.8-4.5%,优于基线方法。
- Conclusion: RobSurv在多模态影像和噪声条件下具有鲁棒性和泛化能力,为临床预后提供了可靠解决方案。
[196] Multimodal Deep Learning for Stroke Prediction and Detection using Retinal Imaging and Clinical Data
Saeed Shurrab,Aadim Nepal,Terrence J. Lee-St. John,Nicola G. Ghazi,Bartlomiej Piechowski-Jozwiak,Farah E. Shamout
Main category: eess.IV
TL;DR: 该研究探讨了利用视网膜图像和临床数据结合深度学习方法提升中风检测和风险预测的效果,提出了一种多模态深度神经网络,并验证了其优于单模态基线模型。
- Motivation: 中风是全球重大公共卫生问题,现有诊断方法依赖昂贵医学影像。视网膜成像因与大脑共享临床通路,可能成为经济高效的替代方案。
- Method: 提出多模态深度神经网络,结合OCT和红外反射视网膜扫描及临床数据,采用自监督学习预训练,并在标记子集上微调和评估。
- Result: 实验结果显示,多模态框架比单模态图像基线AUROC提升5%,比现有先进基础模型提升8%。
- Conclusion: 研究表明视网膜成像在识别高风险患者和改善长期预后方面具有潜力。
[197] Accelerating Volumetric Medical Image Annotation via Short-Long Memory SAM 2
Yuwen Chen,Zafer Yildiz,Qihang Li,Yaqian Chen,Haoyu Dong,Hanxue Gu,Nicholas Konz,Maciej A. Mazurowski
Main category: eess.IV
TL;DR: 论文提出SLM-SAM 2,通过结合短期和长期记忆模块改进SAM 2在医学图像分割中的性能,显著减少错误传播。
- Motivation: 医学图像手动标注耗时耗力,现有SAM 2模型在分割传播中表现不稳定,尤其在边界区域。
- Method: 提出SLM-SAM 2,整合短期和长期记忆模块及独立注意力机制,提升分割准确性。
- Result: 在三个公开数据集上,SLM-SAM 2平均Dice系数提升0.14(5卷初始数据)和0.11(1卷初始数据),抗过传播能力更强。
- Conclusion: SLM-SAM 2显著提升医学图像自动标注的准确性,为分割模型开发提供更可靠工具。
[198] Platelet enumeration in dense aggregates
H. Martin Gillis,Yogeshwar Shendye,Paul Hollensen,Alan Fine,Thomas Trappenberg
Main category: eess.IV
TL;DR: 该论文提出了一种改进的深度学习方法,用于更准确地识别和计数血小板,解决了传统CNN方法在血小板识别中的局限性。
- Motivation: 血小板的识别和计数对医疗至关重要,但传统CNN方法因血小板大小和形态的多样性而表现不佳。
- Method: 研究探索了卷积核的作用,将血小板分为单血小板和血小板聚集体两类,并采用语义分割和多种U-Net架构进行识别。
- Result: 实验表明,优化卷积操作和分类设计显著提高了血小板识别准确性,提出的计数方法优于传统像素面积法。
- Conclusion: 论文强调了卷积核优化和分类设计的重要性,为血小板识别提供了更可靠的解决方案。
[199] Adversarial Robustness of Deep Learning Models for Inland Water Body Segmentation from SAR Images
Siddharth Kothari,Srinivasan Murali,Sankalp Kothari,Ujjwal Verma,Jaya Sreevalsan-Nair
Main category: eess.IV
TL;DR: 该论文研究了SAR图像中内陆水体分割任务中人工标注错误对U-Net模型性能的影响,发现模型对一定程度的标注错误具有鲁棒性。
- Motivation: SAR图像中内陆水体分割的复杂性及人工标注易受噪声影响,需研究模型对标注错误的鲁棒性。
- Method: 通过模拟人工标注错误(对抗攻击)测试U-Net模型的鲁棒性。
- Result: U-Net能容忍一定程度的标注错误,性能不会显著下降。
- Conclusion: 人工标注质量对分割模型效果至关重要,公开了代码、数据集及对抗样本以支持鲁棒训练。
[200] A Dual-Task Synergy-Driven Generalization Framework for Pancreatic Cancer Segmentation in CT Scans
Jun Li,Yijue Zhang,Haibo Shi,Minhong Li,Qiwei Li,Xiaohua Qian
Main category: eess.IV
TL;DR: 提出一种结合像素级分类和回归任务的双任务框架,用于胰腺癌病灶分割,提升模型泛化能力和稳定性。
- Motivation: 胰腺癌病灶分割因影像和病灶异质性导致现有方法泛化性不足,需改进。
- Method: 双任务框架结合分类和回归,利用任务输出互转换增强泛化性,并引入双自监督学习。
- Result: 在594个样本上验证,Dice达84.07%,跨病灶分割任务提升9.51%。
- Conclusion: 该模型为胰腺疾病管理提供了高效技术支持,代码已开源。
[201] Efficient Multi Subject Visual Reconstruction from fMRI Using Aligned Representations
Christos Zangos,Danish Ebadulla,Thomas Christopher Sprague,Ambuj Singh
Main category: eess.IV
TL;DR: 提出一种基于fMRI的视觉图像重建新方法,利用主题无关的通用表示空间,显著提高了低数据场景下的效率。
- Motivation: 传统方法在fMRI视觉图像重建中效率低下,尤其在低数据场景下表现不佳。本研究旨在通过主题无关的通用表示空间提升效率。
- Method: 通过训练将受试者脑信号对齐到通用空间,形成语义对齐的通用脑模型,并利用轻量级模块对齐参考受试者。
- Result: 在多个数据集上验证了方法的有效性,通用空间具有主题和数据集无关性,且在低数据场景下表现优异。
- Conclusion: 该方法显著提升了fMRI视觉图像重建的效率,尤其在低数据场景下具有优势。
[202] CLOG-CD: Curriculum Learning based on Oscillating Granularity of Class Decomposed Medical Image Classification
Asmaa Abbas,Mohamed Gaber,Mohammed M. Abdelsamea
Main category: eess.IV
TL;DR: 提出了一种结合课程学习和类分解方法的新型CNN训练方法(CLOG-CD),用于提升医学图像分类性能,并在多个不平衡医学数据集上验证了其有效性。
- Motivation: 医学图像数据的不规则性导致分类任务困难,传统方法易出现误分类。结合课程学习和类分解方法有望解决这一问题。
- Method: 提出CLOG-CD方法,利用类分解的权重信息,采用反课程技术(从难到易)训练CNN,并研究了不同加速因子和步调函数的影响。
- Result: 在ResNet-50和DenseNet-121上测试,CLOG-CD在多个数据集上表现优异,最高准确率达99.45%。
- Conclusion: CLOG-CD显著提升了医学图像分类性能,尤其在数据不平衡情况下表现突出。
[203] LensNet: An End-to-End Learning Framework for Empirical Point Spread Function Modeling and Lensless Imaging Reconstruction
Jiesong Bai,Yuhao Yin,Yihang Dong,Xiaofeng Zhang,Chi-Man Pun,Xuhang Chen
Main category: eess.IV
TL;DR: LensNet是一种端到端深度学习框架,通过动态估计点扩散函数(PSF)和嵌入维纳滤波,提升了无透镜成像系统的重建质量。
- Motivation: 传统无透镜成像技术依赖静态或近似PSF模型,适应性差,难以应对噪声和动态场景变化。
- Method: 提出LensNet框架,结合空间域和频域表示,利用可学习的编码掩模模拟器(CMS)动态估计PSF,并嵌入维纳滤波优化重建。
- Result: 实验表明,LensNet在保留高频细节和降噪方面优于现有方法,重建质量更高。
- Conclusion: LensNet为无透镜成像提供了更准确、灵活的解决方案,适用于微型传感器和医疗诊断等领域。
[204] Continuous Filtered Backprojection by Learnable Interpolation Network
Hui Lin,Dong Zeng,Qi Xie,Zerui Mao,Jianhua Ma,Deyu Meng
Main category: eess.IV
TL;DR: 提出了一种名为LInFBP的深度学习模型,通过可学习的插值方法改进CT图像重建质量,减少传统FBP方法中的插值误差。
- Motivation: 传统CT图像重建方法(如FBP)在反投影步骤中存在不可避免的插值误差,影响重建精度。
- Method: LInFBP通过深度学习网络预测离散投影数据的潜在连续函数的线性组合系数,实现可学习的插值。
- Result: 实验表明,LInFBP能显著提升重建图像质量,并具有即插即用和泛化能力。
- Conclusion: LInFBP首次将深度学习应用于FBP插值,有效解决了插值误差问题。
[205] Multi-Scale Target-Aware Representation Learning for Fundus Image Enhancement
Haofan Wu,Yin Huang,Yuqing Wu,Qiuyu Yang,Bingfang Wang,Li Zhang,Muhammad Fahadullah Khan,Ali Zia,M. Saleh Memon,Syed Sohail Bukhari,Abdul Fattah Memon,Daizong Ji,Ya Zhang,Ghulam Mustafa,Yin Fang
Main category: eess.IV
TL;DR: 提出了一种多尺度目标感知表示学习框架(MTRL-FIE),用于高效眼底图像增强,结合多尺度特征编码器和结构保留解码器,显著提升图像质量。
- Motivation: 眼底图像常因硬件限制和操作变异性导致分辨率低和信噪比差,现有方法缺乏统一的多尺度信息恢复框架,且未针对病变区域优化。
- Method: 使用多尺度特征编码器(MFE)嵌入低频结构和高频细节,设计结构保留分层解码器(SHD)融合多尺度特征,并引入目标感知特征聚合(TFA)模块增强病变区域。
- Result: 在多个数据集上验证了MTRL-FIE的有效性和泛化性,性能优于现有方法且架构更轻量,无需监督微调即可应用于其他眼科图像任务。
- Conclusion: MTRL-FIE为眼底图像增强提供了高效统一的解决方案,具有临床应用的潜力。
[206] Hybrid Image Resolution Quality Metric (HIRQM):A Comprehensive Perceptual Image Quality Assessment Framework
Vineesh Kumar Reddy Mondem
Main category: eess.IV
TL;DR: 提出了一种混合图像分辨率质量度量(HIRQM),结合统计、多尺度和深度学习方法,优于传统指标。
- Motivation: 传统图像质量评估指标(如MSE和SSIM)在复杂失真下无法反映感知质量。
- Method: HIRQM结合PDF分析、多尺度特征相似性和预训练VGG16网络的深度特征,动态加权调整组件贡献。
- Result: 在TID2013和LIVE数据集上,HIRQM的Pearson和Spearman相关系数分别为0.92和0.90,优于传统方法。
- Conclusion: HIRQM在噪声、模糊和压缩伪影处理上表现优异,适用于图像压缩和恢复等应用。
[207] CSASN: A Multitask Attention-Based Framework for Heterogeneous Thyroid Carcinoma Classification in Ultrasound Images
Peiqi Li,Yincheng Gao,Renxing Li,Haojie Yang,Yunyun Liu,Boji Liu,Jiahui Ni,Ying Zhang,Yulu Wu,Xiaowei Fang,Lehang Guo,Liping Sun,Jiangang Chen
Main category: eess.IV
TL;DR: 提出了一种多任务学习框架CSASN,结合EfficientNet和ViT,通过通道-空间注意力模块提升罕见甲状腺癌分类的准确性和稳定性。
- Motivation: 解决超声图像中甲状腺癌分类的形态异质性和数据不平衡问题。
- Method: 采用双分支特征提取器(EfficientNet和ViT)、通道-空间注意力模块、残差多尺度分类器和动态加权损失函数。
- Result: 在2000多名患者的多中心数据集上表现优异,尤其在罕见亚型(FTC和MTC)分类上优于现有模型。
- Conclusion: CSASN为AI辅助甲状腺癌诊断提供了有效策略。
[208] An Arbitrary-Modal Fusion Network for Volumetric Cranial Nerves Tract Segmentation
Lei Xie,Huajun Zhou,Junxiong Huang,Jiahao Huang,Qingrun Zeng,Jianzhong He,Jiawei Zhang,Baohua Fan,Mingchu Li,Guoqiang Xie,Hao Chen,Yuanjing Feng
Main category: eess.IV
TL;DR: 提出了一种名为CNTSeg-v2的新型多模态融合网络,用于颅神经束分割,通过T1加权图像作为主要模态指导其他辅助模态的信息选择,显著提升了分割性能。
- Motivation: 临床实践中难以获取完整的多模态数据,因此需要一种能够灵活处理不同模态组合的分割方法。
- Method: 使用T1加权图像作为主要模态,设计了任意模态协作模块(ACM)和深度距离引导多阶段解码器(DDM),以优化特征提取和分割精度。
- Result: 在HCP和MDM数据集上的实验表明,CNTSeg-v2的分割性能优于现有方法。
- Conclusion: CNTSeg-v2通过灵活的模态融合和误差校正机制,实现了高效的颅神经束分割。
[209] Diagnostic Uncertainty in Pneumonia Detection using CNN MobileNetV2 and CNN from Scratch
Kennard Norbert Sudiardjo,Islam Nur Alam,Wilson Wijaya,Lili Ayu Wulandhari
Main category: eess.IV
TL;DR: 研究提出使用CNN方法(MobileNetV2和ResNet101V2)诊断肺炎,结果显示MobileNetV2更稳定,而Scratch模型虽准确率高但易过拟合。
- Motivation: 肺炎诊断因不确定性(如非典型表现、胸片限制等)而复杂化,需高效方法辅助。
- Method: 采用MobileNetV2预训练模型和ResNet101V2架构,结合Keras API构建Scratch模型,通过Kaggle数据集验证。
- Result: MobileNetV2表现稳定(训练准确率84.87%→78.95%),Scratch模型虽准确率高但过拟合严重(训练准确率78.12%,验证损失1.1809)。
- Conclusion: MobileNetV2适合稳定性需求,Scratch模型适合高精度场景,需权衡选择。
[210] DeepSparse: A Foundation Model for Sparse-View CBCT Reconstruction
Yiqun Lin,Hualiang Wang,Jixiang Chen,Jiewen Yang,Jiarong Guo,Xiaomeng Li
Main category: eess.IV
TL;DR: DeepSparse是一种用于稀疏视图CBCT重建的基础模型,通过DiCE网络和HyViP框架提升图像质量,减少辐射。
- Motivation: 高辐射暴露是CBCT成像的主要问题,现有稀疏视图重建方法存在计算量大和泛化性差的问题。
- Method: 提出DeepSparse模型,结合DiCE网络(多视图2D和多尺度3D特征)和HyViP框架(混合视图采样预训练)。
- Result: 实验表明DeepSparse在重建质量上优于现有方法。
- Conclusion: DeepSparse为更安全高效的CBCT成像提供了新途径。
[211] Multi-View Learning with Context-Guided Receptance for Image Denoising
Binghong Chen,Tingting Chai,Wei Jiang,Yuanrong Xu,Guanglu Zhou,Xiangqian Wu
Main category: eess.IV
TL;DR: 提出了一种结合多视角特征集成和高效序列建模的图像去噪方法,通过CTS范式、FMix模块和BiWKV机制,显著提升了去噪效果和计算效率。
- Motivation: 现有方法难以区分真实场景中的复杂噪声模式,且基于Transformer的模型计算资源消耗大。
- Method: 提出Context-guided Receptance Weighted Key-Value模型,结合CTS范式、FMix模块和BiWKV机制,实现高效去噪。
- Result: 在多个真实数据集上定量优于现有方法,推理时间减少40%,并能恢复细节。
- Conclusion: 该方法在去噪效果和计算效率上均表现出色,适用于实际应用。
cs.GR
[212] OT-Talk: Animating 3D Talking Head with Optimal Transportation
Xinmu Wang,Xiang Gao,Xiyun Song,Heather Yu,Zongfang Lin,Liang Peng,Xianfeng Gu
Main category: cs.GR
TL;DR: OT-Talk利用最优传输优化学习模型,通过Chebyshev图卷积提取几何特征,结合Wasserstein距离建模网格变化,实现更自然的面部动画。
- Motivation: 解决语音信号与面部动态之间的模态差距问题,避免错误的唇同步和不自然的面部动作。
- Method: 使用预训练的Hubert模型提取音频特征,结合Transformer处理时间序列,引入Chebyshev图卷积提取网格几何特征,利用Wasserstein距离建模网格变化。
- Result: 在两个公开数据集上,OT-Talk在网格重建精度和时间对齐方面优于现有技术,用户感知研究也验证了其有效性。
- Conclusion: OT-Talk通过几何特征和最优传输方法,显著提升了面部动画的自然性和准确性。
[213] Sparse Ellipsoidal Radial Basis Function Network for Point Cloud Surface Representation
Bobo Lian,Dandan Wang,Chenjian Wu,Minxin Chen
Main category: cs.GR
TL;DR: 本文提出了一种基于稀疏椭球径向基函数网络的机器学习方法,用于点云的符号距离函数(SDF)近似,实现了紧凑且准确的表面表示。
- Motivation: 点云表面表示是计算机图形学和视觉中的基本问题,需要一种既能保持高精度又能高效计算的方法。
- Method: 采用稀疏椭球径向基函数网络(ERBFs)近似SDF,结合动态多目标优化策略平衡稀疏性和精度,并通过CUDA并行计算提升效率。
- Result: 在多个基准数据集上的实验表明,该方法在准确性、鲁棒性和计算效率上优于现有稀疏表示方法。
- Conclusion: 该方法为点云表面表示提供了一种高效且准确的解决方案,代码已开源。
cs.AR
[214] NeuroSim V1.5: Improved Software Backbone for Benchmarking Compute-in-Memory Accelerators with Device and Circuit-level Non-idealities
James Read,Ming-Yen Lee,Wei-Hsing Huang,Yuan-Chun Luo,Anni Lu,Shimeng Yu
Main category: cs.AR
TL;DR: NeuroSim V1.5 是一个用于模拟和优化模拟计算内存(ACIM)加速器的工具,通过改进的噪声建模、更快的运行速度和更广泛的设备支持,支持高效的设计空间探索。
- Motivation: 传统冯·诺依曼架构在AI应用中存在能效和延迟问题,ACIM通过在内存中直接执行计算来减少数据移动,但需要准确建模非理想特性。
- Method: NeuroSim V1.5 提供了与TensorRT的无缝集成、灵活的噪声注入方法、扩展的设备支持以及优化的行为模拟,以加速设计验证。
- Result: NeuroSim V1.5 比前一版本快6.5倍,支持更多神经网络,并通过案例研究展示了设计参数的优化。
- Conclusion: NeuroSim V1.5 通过高保真噪声建模和高效模拟,推动了下一代ACIM加速器的设计和验证。
cs.CE
[215] Enhancing Black-Litterman Portfolio via Hybrid Forecasting Model Combining Multivariate Decomposition and Noise Reduction
Ziye Yang,Ke Lu
Main category: cs.CE
TL;DR: 本文提出了一种结合SSA、MA-EMD和TCN的混合深度学习模型,用于改进资产价格预测,从而提升Black-Litterman模型生成主观观点的能力。实验证明该模型优于基准模型,并在投资组合中表现更优。
- Motivation: 传统Mean-Variance模型对输入参数敏感且缺乏灵活性,而Black-Litterman模型通过结合市场均衡收益和投资者主观观点受到关注。本文旨在通过改进资产价格预测来增强Black-Litterman模型的能力。
- Method: 提出了一种结合SSA、MA-EMD和TCN的混合深度学习模型,用于噪声减少和资产价格预测。
- Result: 实验表明,噪声减少预处理提高了模型准确性,该模型显著优于三种基准模型。投资组合测试中,结合Black-Litterman模型的表现优于其他模型。
- Conclusion: 该混合模型提升了Black-Litterman模型的主观观点生成能力,并在投资组合中实现了更好的收益和风险控制。
[216] Representation Learning of Limit Order Book: A Comprehensive Study and Benchmarking
Muyao Zhong,Yushi Lin,Peng Yang
Main category: cs.CE
TL;DR: 该论文首次系统比较了限价订单簿(LOB)表示学习,提出了LOBench基准,验证了LOB表示的有效性和必要性。
- Motivation: LOB数据具有强自相关性、跨特征约束和特征尺度差异,现有方法未能独立分析学习到的表示,限制了其可重用性和泛化性。
- Method: 引入LOBench基准,提供标准化数据集、预处理、评估指标和基线模型,进行广泛实验。
- Result: 实验验证了LOB表示对下游任务的充分性和必要性,优于传统任务特定端到端模型和通用时间序列表示学习模型。
- Conclusion: 论文建立了可复现框架,为未来研究提供了明确指导,数据集和代码已公开。
[217] Data-Driven Team Selection in Fantasy Premier League Using Integer Programming and Predictive Modeling Approach
Danial Ramezani
Main category: cs.CE
TL;DR: 本文提出了一种新颖的确定性和鲁棒整数规划模型,用于优化梦幻足球的阵容选择,结合了人工智能框架和比赛数据,并在2023/24赛季英超数据中验证了其有效性。
- Motivation: 梦幻足球是一个价值数十亿美元的产业,决策者需要在固定预算下选择表现最佳的球员阵容以最大化得分,但目前缺乏系统性的优化方法。
- Method: 构建了一种新的混合评分指标,结合了可解释的人工智能框架和比赛数据,并提出了多种目标函数和估计技术用于整数规划模型。
- Result: 模型在2023/24赛季英超数据中表现优异,混合方法得分最高且性能稳定,蒙特卡洛模拟和成本向量估计技术也验证了其有效性。
- Conclusion: 本研究首次从优化角度解决梦幻足球问题,提供了有效的阵容选择策略和球员分析,为决策者提供了实用工具。
cs.DC
[218] Edge-Cloud Collaborative Computing on Distributed Intelligence and Model Optimization: A Survey
Jing Liu,Yao Du,Kun Yang,Yan Wang,Xiping Hu,Zehua Wang,Yang Liu,Peng Sun,Azzedine Boukerche,Victor C. M. Leung
Main category: cs.DC
TL;DR: 本文综述了边缘-云协同计算(ECCC)在分布式智能和模型优化中的应用,探讨了架构、技术、优化方法及未来研究方向。
- Motivation: 现代智能应用对计算需求日益增长,边缘-云协同计算成为关键范式,但AI模型部署和资源管理带来挑战。
- Method: 通过系统分析ECCC的基础架构、模型优化方法(如压缩、适应和神经架构搜索)及AI驱动的资源管理策略。
- Result: 总结了隐私保护、安全增强及实际应用案例,并提出了性能评估标准。
- Conclusion: 未来研究方向包括LLMs部署、6G集成等,为优化分布式计算环境提供了理论和实践指导。
[219] Large Language Model Partitioning for Low-Latency Inference at the Edge
Dimitrios Kafetzis,Ramin Khalili,Iordanis Koutsopoulos
Main category: cs.DC
TL;DR: 论文提出了一种资源感知的Transformer架构分区算法,通过动态调整分区决策以减少推理延迟和内存负载。
- Motivation: 由于自回归Transformer模型在生成文本时内存和计算负载不断增加,导致资源受限的边缘环境中出现内存过载或高推理延迟。
- Method: 提出了一种基于设备资源可用性和网络带宽的分区算法,动态迁移注意力头及其键值缓存以减少延迟。
- Result: 实验表明,在小规模(3-5设备)和大规模测试中,该方法显著降低了推理延迟和内存使用。
- Conclusion: 该方法通过动态分区和并行执行注意力头,有效优化了推理性能。
eess.SP
[220] Rate-Limited Closed-Loop Distributed ISAC Systems: An Autoencoder Approach
Guangjin Pan,Zhixing Li,Ayça Özçelikkale,Christian Häger,Musa Furkan Keskin,Henk Wymeersch
Main category: eess.SP
TL;DR: 论文提出了一种基于自动编码器的观测压缩方法,用于解决分布式多传感器ISAC系统中高维数据传输受限的问题,并通过案例研究分析了压缩对系统性能的影响。
- Motivation: 解决在速率受限网络中传输高维传感器观测数据对分布式ISAC系统性能的限制问题。
- Method: 提出了一种基于自动编码器的观测压缩方法,并结合闭环LQR系统进行案例分析。
- Result: 在多传感器场景中,资源分配优先低噪声传感器,直到压缩无损后再分配给高噪声传感器。
- Conclusion: 该方法有效提升了系统性能,资源分配策略优化了压缩与传输效率。
eess.AS
[221] Transfer Learning-Based Deep Residual Learning for Speech Recognition in Clean and Noisy Environments
Noussaiba Djeffal,Djamel Addou,Hamza Kheddar,Sid Ahmed Selouani
Main category: eess.AS
TL;DR: 论文提出了一种基于ResNet的神经框架,用于提升ASR系统在干净和嘈杂环境中的性能,实验结果显示其优于CNN和LSTM网络。
- Motivation: 解决非平稳环境噪声对ASR系统的负面影响,是当前研究的重点问题。
- Method: 采用基于ResNet的迁移学习方法,结合Mel-frequency声学特征集,在Aurora-2语音数据库上评估。
- Result: 在干净和嘈杂环境下,识别准确率分别达到98.94%和91.21%,优于CNN和LSTM。
- Conclusion: 提出的神经框架显著提升了ASR系统在复杂环境中的性能,具有实际应用潜力。
cs.NE
[222] Scalable Speed-ups for the SMS-EMOA from a Simple Aging Strategy
Mingfeng Li,Weijie Zheng,Benjamin Doerr
Main category: cs.NE
TL;DR: 论文提出了一种基于老化的非精英选择机制,解决了随机选择的两个缺点,证明了速度提升与目标数量无关。
- Motivation: 多目标进化算法通常采用贪婪选择,而随机选择机制虽能加速但存在局限性。
- Method: 提出基于老化的非精英选择机制,豁免年轻个体被移除。
- Result: 速度提升因子为max{1,Θ(k)^{k-1}},且适用于常数k。
- Conclusion: 老化机制比随机选择更强大,支持非精英选择方案的使用。
[223] PASCAL: Precise and Efficient ANN- SNN Conversion using Spike Accumulation and Adaptive Layerwise Activation
Pranav Ramesh,Gopalakrishnan Srinivasan
Main category: cs.NE
TL;DR: PASCAL方法通过数学等效的ANN-SNN转换,显著减少推理时间步数,同时保持高精度。
- Motivation: 解决SNN因需要大量时间步数才能匹配ANN精度的问题,提升能效。
- Method: 提出PASCAL方法,实现ANN-SNN的数学等效转换,并分层配置QCFS激活的量化步长。
- Result: ResNet-34 SNN在ImageNet上达到约74%准确率,时间步数减少64倍。
- Conclusion: PASCAL方法在减少时间步数的同时保持高精度,为SNN的实际应用提供了可行方案。
cs.DB
[224] Building Scalable AI-Powered Applications with Cloud Databases: Architectures, Best Practices and Performance Considerations
Santosh Bhupathi
Main category: cs.DB
TL;DR: 本文探讨了云原生数据库如何通过专用技术(如向量数据库、图数据库、NoSQL存储和关系型数据库)支持AI驱动的应用,并提出了集成AI工作负载的架构模式。
- Motivation: 传统架构难以满足AI驱动工作负载的需求,如实时数据访问、向量搜索和低延迟查询,因此需要高性能、可扩展且高效的云数据库解决方案。
- Method: 通过分析向量数据库(pgvector)、图数据库(AWS Neptune)、NoSQL存储(Amazon DocumentDB、DynamoDB)和关系型云数据库(Aurora MySQL和PostgreSQL),提出集成AI工作负载的架构模式,包括RAG、实时数据管道、AI驱动的查询优化和基于嵌入的搜索。
- Result: 性能基准测试、可扩展性考量和成本效益策略被评估,并通过医疗、金融和客户体验等行业的实际案例展示了云数据库如何增强AI能力。
- Conclusion: 本文为研究人员、架构师和企业提供了实用的指南,帮助他们在云环境中构建下一代AI应用,优化性能、可扩展性和成本效率。
[225] Subspace Aggregation Query and Index Generation for Multidimensional Resource Space Mode
Xiaoping Sun,Hai Zhuge
Main category: cs.DB
TL;DR: 本文提出了一种在多维分类空间中组织资源的方法,通过构建图索引来高效支持子空间聚合查询,并采用多种策略降低索引生成成本。
- Motivation: 为了高效管理和查询大规模资源,需要一种能够在多维分类空间中快速定位和聚合资源的方法。
- Method: 定义了基于部分序坐标树的子空间聚合查询,提出生成图索引的方法,包括添加交叉链接、概率分布计算、资源平衡分配和快捷链接等策略。
- Result: 分析和实验验证了生成的索引在支持子空间聚合查询方面的有效性。
- Conclusion: 该工作对基于多维分类的数据模型发展有重要贡献。
cs.RO
[226] A Survey of Robotic Navigation and Manipulation with Physics Simulators in the Era of Embodied AI
Lik Hang Kenny Wong,Xueyang Kang,Kaixin Bai,Jianwei Zhang
Main category: cs.RO
TL;DR: 本文综述了物理模拟器在缩小仿真与现实差距中的作用,分析了其特性、导航与操作任务中的功能,以及硬件需求,并提供了相关资源和前沿方法。
- Motivation: 解决仿真与现实之间的差距问题,降低在真实世界中训练智能体的成本和复杂性。
- Method: 分析物理模拟器的特性和功能,评估其在导航与操作任务中的应用,并提供资源和前沿方法。
- Result: 总结了模拟器的关键特性、任务适用性和硬件需求,提供了工具选择指南。
- Conclusion: 物理模拟器是缩小仿真与现实差距的有效工具,未来研究需结合硬件限制选择合适方法。
[227] RoBridge: A Hierarchical Architecture Bridging Cognition and Execution for General Robotic Manipulation
Kaidong Zhang,Rongtao Xu,Pengzhen Ren,Junfan Lin,Hefeng Wu,Liang Lin,Xiaodan Liang
Main category: cs.RO
TL;DR: RoBridge是一种分层智能架构,通过结合认知规划和强化学习,解决机器人操作中的认知与执行差距问题,显著提升任务成功率。
- Motivation: 解决开放环境中机器人操作面临的程序性技能和声明性技能困境,同时避免现有方法在认知和执行能力上的妥协。
- Method: 提出RoBridge架构,包括基于预训练视觉语言模型的高层认知规划器(HCP)、不变可操作表示(IOR)和通用具身代理(GEA)。
- Result: 在新任务中达到75%的成功率,在仅使用5个真实数据样本的情况下,实现83%的模拟到现实泛化成功率。
- Conclusion: RoBridge为机器人系统整合认知推理与物理执行提供了新范式,是通用机器人操作的重要进展。
[228] Semantic Intelligence: Integrating GPT-4 with A Planning in Low-Cost Robotics
Jesse Barkley,Abraham George,Amir Barati Farimani
Main category: cs.RO
TL;DR: 论文提出了一种结合GPT-4语义推理与A*算法的混合路径规划框架,用于低成本机器人平台,解决了传统几何路径规划无法处理高级语义指令的问题。
- Motivation: 传统机器人导航依赖硬编码状态机和几何路径规划,无法理解高级语义指令。本文旨在通过结合GPT-4的语义推理能力与A*算法,提升机器人在复杂环境中的智能行为。
- Method: 提出混合规划框架,利用GPT-4处理任务逻辑和语义理解,A*算法负责精确路径计算。通过动态调整占用网格和障碍物缓冲,实现语义约束。
- Result: 实验表明,纯A*在基础路径规划和避障上更快更精确,但GPT-4辅助的系统在语义任务上成功率高达96-100%。
- Conclusion: 研究表明,低成本机器人通过结合大语言模型推理,无需微调即可实现智能、上下文感知的行为。
[229] SafeNav: Safe Path Navigation using Landmark Based Localization in a GPS-denied Environment
Ganesh Sapkota,Sanjay Madria
Main category: cs.RO
TL;DR: LanBLoc-BMM结合地标定位与战场运动模型,性能优于现有视觉定位算法,并引入两种安全导航方法。
- Motivation: 战场环境中GPS信号常受干扰,传统视觉定位方法复杂且计算量大,无距离方法精度不足。
- Method: 提出LanBLoc-BMM(地标定位+战场运动模型+EKF),并与三种视觉算法对比,评估ADE、FDE和AWRS。
- Result: LanBLoc-BMM在真实模拟数据上表现最佳,两种安全导航方法各具优势。
- Conclusion: LanBLoc-BMM在战场导航中高效且安全,SafeNav-Centroid和SafeNav-CHull分别适用于不同需求。
[230] A Goal-Oriented Reinforcement Learning-Based Path Planning Algorithm for Modular Self-Reconfigurable Satellites
Bofei Liu,Dong Ye,Zunhao Yao,Zhaowei Sun
Main category: cs.RO
TL;DR: 提出了一种基于目标导向强化学习的路径规划算法,解决了模块化自重构卫星集群的多目标配置问题,并提高了成功率。
- Motivation: 现有路径规划算法计算复杂度高、泛化能力差且不支持多样化的目标配置,亟需改进。
- Method: 采用目标导向强化学习,结合Hindsight Experience Replay和Invalid Action Masking技术,解决稀疏奖励和无效动作问题。
- Result: 在4单元和6单元卫星集群中,分别达到95%和73%的成功率。
- Conclusion: 该算法显著提升了模块化卫星集群的路径规划能力,支持多样化任务目标。
[231] A Synergistic Framework of Nonlinear Acoustic Computing and Reinforcement Learning for Real-World Human-Robot Interaction
Xiaoliang Chen,Xin Yu,Le Chang,Yunhe Huang,Jiashuai He,Shibo Zhang,Jin Li,Likai Lin,Ziyu Zeng,Xianling Tu,Shuyu Zhang
Main category: cs.RO
TL;DR: 本文提出了一种结合非线性声学计算和强化学习的新框架,用于增强复杂噪声和混响环境下的人机交互。
- Motivation: 传统线性方法和纯数据驱动方法在复杂噪声和混响环境下表现不佳,需要一种更高效的方法来优化参数并提升性能。
- Method: 利用物理启发的波动方程(如Westervelt、KZK)捕捉高阶声学现象,并将其嵌入强化学习驱动的控制循环中,自适应优化吸收和波束成形等参数。
- Result: 实验表明,该方法在远场定位、弱信号检测和多语言语音识别中优于传统方法,实现了更好的噪声抑制、低延迟和高精度。
- Conclusion: 该框架在AI硬件、机器人、机器听觉等领域具有广泛应用前景。
[232] Prompt-responsive Object Retrieval with Memory-augmented Student-Teacher Learning
Malte Mosbach,Sven Behnke
Main category: cs.RO
TL;DR: 本文提出了一种结合可提示基础模型与强化学习的新方法,用于机器人灵巧操作任务,解决了现有方法难以将高级命令与精细控制结合的问题。
- Motivation: 现有方法在将高级命令与灵巧控制结合时存在困难,本文旨在通过结合可提示基础模型与强化学习来解决这一问题。
- Method: 采用记忆增强的师生学习框架,利用Segment-Anything 2 (SAM 2)模型作为感知骨干,从用户提示中推断感兴趣对象,并通过时间序列信息进行隐式状态估计。
- Result: 该方法成功学习了可响应提示的策略,并在从杂乱场景中拾取物体的任务中进行了验证。
- Conclusion: 结合可提示基础模型与强化学习的方法为机器人灵巧操作任务提供了一种有效的解决方案。
[233] Estimating Commonsense Scene Composition on Belief Scene Graphs
Mario A. V. Saucedo,Vignesh Kottayam Viswanathan,Christoforos Kanellakis,George Nikolakopoulos
Main category: cs.RO
TL;DR: 提出了一种基于常识的场景构图方法,通过估计未见物体的空间分布扩展了信念场景图,并验证了其在不同房间类型中的空间解释能力。
- Motivation: 扩展信念场景图,理解场景中相关物体的空间关系,以提升场景构图能力。
- Method: 提出了两种基于相关性信息(CECI)的概率分布学习模型:基于图卷积网络的基线方法和结合空间本体与大型语言模型的神经符号扩展方法。
- Result: 在模拟数据和真实室内环境中验证了框架的有效性,展示了其在不同房间类型中的空间解释能力。
- Conclusion: 该框架能够有效建模场景中物体的空间分布,为场景构图提供了新的解决方案。
[234] Point Cloud Recombination: Systematic Real Data Augmentation Using Robotic Targets for LiDAR Perception Validation
Hubert Padusinski,Christian Steinhauser,Christian Scherl,Julian Gaal,Jacob Langner
Main category: cs.RO
TL;DR: 提出了一种点云重组方法,通过在受控实验室环境中测量物理目标对象,系统性地增强真实点云场景,以生成可重复且物理准确的测试场景。
- Motivation: 由于真实环境条件的多样性,验证LiDAR感知在开放世界应用中的性能具有挑战性。现有方法缺乏可控性和物理传感器特性。
- Method: 提出Point Cloud Recombination方法,将实验室环境中测量的目标对象点云整合到真实场景中,生成可重复的测试场景。
- Result: 实验表明,重组场景与真实传感器输出高度匹配,支持针对性测试和可扩展的故障分析。
- Conclusion: 该方法提供了受控且传感器真实的数据,有助于可靠地评估传感器与算法的性能限制。
[235] Robust Localization, Mapping, and Navigation for Quadruped Robots
Dyuman Aditya,Junning Huang,Nico Bohlinger,Piotr Kicki,Krzysztof Walas,Jan Peters,Matteo Luperto,Davide Tateo
Main category: cs.RO
TL;DR: 该论文提出了一种基于低成本传感器的四足机器人定位、建图和导航系统,结合接触辅助运动学、视觉惯性里程计和深度稳定视觉技术,提高了系统的稳定性和准确性。
- Motivation: 为了推动四足机器人在现实世界中的广泛应用,需要开发仅依赖低成本传感器(如深度相机)的鲁棒导航系统。
- Method: 结合接触辅助运动学、视觉惯性里程计和深度稳定视觉技术,提升系统的稳定性和定位精度。
- Result: 在仿真和两种真实四足机器人平台上,系统能够生成精确的2D环境地图,实现鲁棒定位和自主导航。
- Conclusion: 该系统为低成本四足机器人的导航提供了有效解决方案,并通过消融实验验证了各组件对定位精度的影响。
[236] Grasp the Graph (GtG) 2.0: Ensemble of GNNs for High-Precision Grasp Pose Detection in Clutter
Ali Rashidi Moghadam,Sayedmohammadreza Rastegari,Mehdi Tale Masouleh,Ahmad Kalhor
Main category: cs.RO
TL;DR: GtG 2.0是一种基于图神经网络的轻量级抓取检测方法,显著提升了在复杂环境中的抓取性能。
- Motivation: 解决在杂乱真实环境中因噪声和不完整感官数据及复杂几何形状导致的抓取位姿检测难题。
- Method: 结合传统抓取位姿生成器和图神经网络集成模型,利用内外点信息提升检测性能。
- Result: 在GraspNet-1Billion基准上AP提升35%,实验成功率达91%。
- Conclusion: GtG 2.0在灵活性和可靠性上表现优异,成为抓取检测领域的领先方法之一。
[237] TWIST: Teleoperated Whole-Body Imitation System
Yanjie Ze,Zixuan Chen,João Pedro Araújo,Zi-ang Cao,Xue Bin Peng,Jiajun Wu,C. Karen Liu
Main category: cs.RO
TL;DR: TWIST系统通过全身运动模仿实现人形机器人远程操作,结合强化学习与行为克隆,提升跟踪精度,实现多样化协调运动。
- Motivation: 当前人形机器人远程操作系统缺乏全身协调能力,限制了其通用性。TWIST旨在通过全身运动模仿解决这一问题。
- Method: 通过重定向人类动作捕捉数据生成参考动作片段,结合强化学习与行为克隆开发自适应全身控制器。
- Result: TWIST实现了前所未有的多样化协调运动能力,包括全身操作、腿部操作、移动和表达性动作。
- Conclusion: TWIST为人形机器人远程操作提供了高效、统一的解决方案,推动了通用机器人智能的发展。
[238] Automated Hybrid Reward Scheduling via Large Language Models for Robotic Skill Learning
Changxin Huang,Junyang Liang,Yanbin Chang,Jingzhao Xu,Jianqiang Li
Main category: cs.RO
TL;DR: 论文提出了一种基于大型语言模型(LLM)的自动混合奖励调度(AHRS)框架,通过动态调整奖励组件的学习强度,提升高自由度机器人技能学习效率。
- Motivation: 高自由度机器人学习复杂技能时,传统强化学习方法对所有奖励组件无差别求和,导致学习效率低下。
- Method: 设计了多分支价值网络,每个分支对应一个奖励组件,并通过LLM动态计算权重,调整学习强度。
- Result: 实验表明,AHRS方法在多个高自由度机器人任务中平均性能提升6.48%。
- Conclusion: AHRS框架通过动态奖励调度显著提升了机器人技能学习的效率和性能。
cs.HC
[239] Emotions in the Loop: A Survey of Affective Computing for Emotional Support
Karishma Hegde,Hemadri Jayalath
Main category: cs.HC
TL;DR: 本文综述了情感计算领域的最新研究,重点探讨了情感识别、情感分析和人格分配的应用,并分析了多模态技术、大型语言模型和个性化AI系统的方法。
- Motivation: 随着技术在日常生活中的普及,能够感知和响应人类情感的系统正在提升数字交互体验。情感计算通过使机器能够处理和响应用户情感,实现了人机交互的人性化。
- Method: 通过分析情感计算在四个领域的应用(AI聊天机器人、多模态输入系统、心理健康与治疗、安全应用),总结了关键贡献和创新方法,并评估了数据集的影响。
- Result: 研究揭示了情感计算的技术优势、研究空白和挑战,同时强调了数据集的模态、规模和多样性对模型性能的影响。
- Conclusion: 本文提出了未来发展方向,强调需要开发更安全、共情和实用的情感计算应用,并探讨了伦理问题。
[240] The GenAI Generation: Student Views of Awareness, Preparedness, and Concern
Micaela Siraj,Jon Duke
Main category: cs.HC
TL;DR: 生成式AI(GenAI)正在改变教育和职业发展,学生对GenAI持有双重态度:既充满热情,又担忧伦理、就业和教育结构问题。
- Motivation: 研究GenAI在教育中的广泛影响,了解学生对GenAI的认知、准备和担忧。
- Method: 通过包含可选开放式问题的简短调查,收集并分析了250多份学生反馈。
- Result: 大多数学生对GenAI表示热情,但更多人对其伦理、就业和教育结构问题表示担忧。
- Conclusion: 研究结果为教育机构提供了关键见解,以应对GenAI驱动的未来。
[241] Eye Movements as Indicators of Deception: A Machine Learning Approach
Valentin Foucher,Santiago de Leon-Martinez,Robert Moro
Main category: cs.HC
TL;DR: 研究探讨了注视行为在增强测谎仪鲁棒性中的作用,通过AI模型分析注视数据(如注视点、扫视、眨眼和瞳孔大小),在隐藏信息测试中检测欺骗行为。
- Motivation: 注视行为可能提升测谎仪的鲁棒性,但相关研究不足,因此本研究旨在评估AI模型在检测欺骗行为中的效果。
- Method: 使用两个数据集(Eyelink 1000和Pupil Neon),分别记录了87名和36名参与者在不同实验条件下的注视数据。采用XGBoost模型进行二分类(揭示vs隐藏)和三分类(揭示vs隐藏vs伪造)任务。
- Result: XGBoost在二分类任务中准确率达74%,三分类任务中为49%。特征分析显示扫视次数、持续时间、幅度和最大瞳孔大小对预测欺骗行为最重要。
- Conclusion: 研究证明了结合注视数据和AI技术增强测谎仪的可行性,并鼓励未来进一步优化相关研究。
[242] AI Standardized Patient Improves Human Conversations in Advanced Cancer Care
Kurtis Haut,Masum Hasan,Thomas Carroll,Ronald Epstein,Taylan Sen,Ehsan Hoque
Main category: cs.HC
TL;DR: SOPHIE是一个AI驱动的标准化患者模拟系统,用于提升临终关怀中的严重疾病沟通技能。
- Motivation: 解决临床医生在严重疾病沟通中面临的挑战,如情感压力和文化障碍,并提供一种经济、灵活的训练方式。
- Method: 结合大型语言模型、虚拟化身和自动化反馈系统,提供远程、按需的训练。
- Result: 在随机对照研究中,使用SOPHIE的医疗学生和专业人士在三个关键领域(共情、明确表达和赋能)表现显著提升。
- Conclusion: AI工具可有效提升复杂人际沟通技能,为临床教育提供可扩展的解决方案。
[243] Beyond the Monitor: Mixed Reality Visualization and AI for Enhanced Digital Pathology Workflow
Jai Prakash Veerla,Partha Sai Guttikonda,Helen H. Shang,Mohammad Sadegh Nasr,Cesar Torres,Jacob M. Luber
Main category: cs.HC
TL;DR: PathVis是一个基于混合现实和AI的平台,旨在优化病理学家对全切片图像(WSI)的诊断流程,减少认知负担并提高效率。
- Motivation: 当前数字病理工具因WSI的巨大尺寸与传统显示器限制不匹配,导致诊断疲劳和效率低下。
- Method: PathVis利用Apple Vision Pro,通过手势、眼动和语音命令提供沉浸式交互,并集成AI功能如相似病例搜索和实时AI助手。
- Result: PathVis改善了诊断流程,减少了认知负担,提升了病理学实践的效率和参与度。
- Conclusion: PathVis结合混合现实和AI,为数字病理学提供了更直观、高效的解决方案。
cs.MA
[244] Safe and Efficient CAV Lane Changing using Decentralised Safety Shields
Bharathkumar Hegde,Melanie Bouroche
Main category: cs.MA
TL;DR: 论文提出了一种分散式混合安全盾(HSS)方法,结合优化和基于规则的方法,确保自动驾驶车辆(CAV)在换道时的安全性,并与多智能体强化学习(MARL)结合(MARL-HSS)以提高交通效率。
- Motivation: 换道是CAV的复杂决策问题,需平衡交通效率与安全性。现有方法通过MARL提升效率,但难以确保安全性。
- Method: 提出HSS,使用控制屏障函数约束CAV的纵向和横向控制输入,确保安全操作,并与MARL结合形成MARL-HSS架构。
- Result: 在模拟的匝道合并场景中,HSS严格强制执行动态安全约束,确保零事故,并在不同交通密度下保持稳定的策略和可比的平均速度。
- Conclusion: MARL-HSS在安全性和交通效率之间取得了平衡,优于无安全盾的MARL基线方法。
cs.ET
[245] Dendritic Computing with Multi-Gate Ferroelectric Field-Effect Transistors
A N M Nafiul Islam,Xuezhong Niu,Jiahui Duan,Shubham Kumar,Kai Ni,Abhronil Sengupta
Main category: cs.ET
TL;DR: 论文提出了一种基于多栅铁电场效应晶体管的新型神经元设计,模拟树突结构,通过铁电非线性实现局部计算,显著提升了计算效率和性能。
- Motivation: 受生物神经元树突结构的启发,旨在解决人工神经网络中点神经元计算复杂度不足的问题。
- Method: 采用多栅铁电场效应晶体管模拟树突,利用铁电非线性进行局部计算,并通过晶体管动作生成最终神经元输出。
- Result: 实验表明,带有树突的神经元网络性能优于更大规模的无树突网络(参数减少约17倍)。
- Conclusion: 树突硬件可显著提升神经形态系统的计算效率和学习能力,适用于边缘计算应用。
q-bio.GN
[246] Interpretable graph-based models on multimodal biomedical data integration: A technical review and benchmarking
Alireza Sadeghi,Farshid Hajati,Ahmadreza Argha,Nigel H Lovell,Min Yang,Hamid Alinejad-Rokny
Main category: q-bio.GN
TL;DR: 本文综述了2019年至2024年间26项关于可解释图模型在生物医学多模态数据中的应用研究,重点分析了其在疾病分类(如癌症)中的表现,并比较了四种解释方法的优劣。
- Motivation: 整合异构生物医学数据(如影像、组学和临床记录)需要可解释的图模型以支持精准诊断和个性化治疗。
- Method: 通过静态图和后解释方法(如梯度显著性和SHAP)分析26项研究,并比较四种解释方法在阿尔茨海默病数据上的表现。
- Result: SHAP和敏感性分析能识别更广泛的已知通路,而梯度显著性和图掩码揭示了互补的代谢特征。所有方法均优于随机基因集,但各有计算成本与精度的权衡。
- Conclusion: 本文为研究者提供了图构建和解释方法选择的实用指南,并展望了未来研究方向,如高级XAI工具和未充分研究的疾病。
cs.LG
[247] Enhancing IoT-Botnet Detection using Variational Auto-encoder and Cost-Sensitive Learning: A Deep Learning Approach for Imbalanced Datasets
Hassan Wasswa,Timothy Lynar,Hussein Abbass
Main category: cs.LG
TL;DR: 该研究利用变分自编码器(VAE)和成本敏感学习开发轻量级但有效的模型,用于检测IoT僵尸网络攻击,特别关注少数类攻击流量的检测。
- Motivation: IoT设备已成为恶意攻击的薄弱环节,尤其是僵尸网络攻击,传统机器学习模型常忽略少数类攻击流量,因此需要改进检测方法。
- Method: 结合VAE和成本敏感学习,评估了标准前馈深度神经网络(DNN)和双向LSTM(BLSTM)在高度不平衡数据集上的性能。
- Result: 两种深度学习模型在准确性、精确度、召回率和F1分数方面均表现优异,适用于所有流量类别。
- Conclusion: 该方法能有效检测IoT僵尸网络攻击,尤其是少数类攻击流量,为IoT安全提供了实用解决方案。
[248] Global Stress Generation and Spatiotemporal Super-Resolution Physics-Informed Operator under Dynamic Loading for Two-Phase Random Materials
Tengfei Xing,Xiaodan Ren,Jie Li
Main category: cs.LG
TL;DR: 提出了一种用于两相随机材料动态加载下全局应力生成和时空超分辨率的框架,结合扩散模型和物理约束网络。
- Motivation: 动态加载下两相随机材料的应力演化和应力集中区域的高分辨率捕捉具有挑战性,现有方法受限于数据分辨率。
- Method: 采用STS-diffusion生成全局应力数据,结合STU-net;开发ST-SRPINN进行时空超分辨率,基于物理约束的无监督学习。
- Result: STS-diffusion和ST-SRPINN能有效生成高分辨率应力场,ST-SRPINN仅需低分辨率数据即可实现任意倍数超分辨率。
- Conclusion: 该框架为材料应力分析提供了高效工具,尤其在捕捉应力集中区域和提升时空分辨率方面表现优异。
[249] Interactive Double Deep Q-network: Integrating Human Interventions and Evaluative Predictions in Reinforcement Learning of Autonomous Driving
Alkis Sygkounas,Ioannis Athanasiadis,Andreas Persson,Michael Felsberg,Amy Loutfi
Main category: cs.LG
TL;DR: 本文提出了一种结合人类专家知识的强化学习方法iDDQN,通过修改Q值更新方程整合人类与智能体行为,提升了自动驾驶等高风险应用的性能。
- Motivation: 在需要高精度和安全性的应用(如自动驾驶)中,将人类专业知识与机器学习结合至关重要。
- Method: 提出iDDQN方法,修改Q值更新方程以整合人类与智能体行为,并设计离线评估框架模拟无干预轨迹。
- Result: 在自动驾驶模拟中,iDDQN优于BC、HG-DAgger、DQfD和传统DRL方法。
- Conclusion: iDDQN有效结合人类知识,显著提升模型性能和适应性。
[250] Explainable AI for Correct Root Cause Analysis of Product Quality in Injection Moulding
Muhammad Muaz,Sameed Sajid,Tobias Schulze,Chang Liu,Nils Klasen,Benny Drescher
Main category: cs.LG
TL;DR: 该研究探讨了注塑过程中机器学习模型的可解释性,比较了不同可解释性方法对特征影响分析的差异,并验证了更好的特征归因有助于正确识别问题根源。
- Motivation: 现有机器学习模型多为黑箱,缺乏直接解释,限制了其在质量控制中的应用;且现有可解释性方法存在局限性或可能导致错误的问题根源识别。
- Method: 使用模型无关的可解释AI方法,比较不同方法对特征影响的分析差异,并在随机森林和多层感知机上验证。
- Result: 实验数据证实输入机器设置间存在交互作用;不同可解释性方法导致不同的特征影响分析;更好的特征归因能正确识别问题根源。
- Conclusion: 模型无关的可解释性方法可用于注塑过程的问题根源分析,提供可操作的改进建议。
[251] Subset Selection for Fine-Tuning: A Utility-Diversity Balanced Approach for Mathematical Domain Adaptation
Madhav Kotecha,Vijendra Kumar Vaishya,Smita Gautam,Suraj Racha
Main category: cs.LG
TL;DR: 提出一种高效微调大语言模型的方法,通过预算子集选择在数学领域实现高性能,同时降低计算成本。
- Motivation: 旨在通过选择最具信息量和代表性的训练样本,减少计算成本和训练时间,同时保持接近全数据集的性能。
- Method: 结合效用(困惑度和CoT损失)和多样性指标,选择最具挑战性和覆盖广泛的数学子域样本。
- Result: 在LLaMA-3 8B和Phi-3模型上验证,性能优于随机选择和其他基线方法。
- Conclusion: 该方法能显著降低计算成本,同时保持竞争性性能。
[252] Contextures: Representations from Contexts
Runtian Zhai,Kai Yang,Che-Ping Tsai,Burak Varici,Zico Kolter,Pradeep Ravikumar
Main category: cs.LG
TL;DR: 该论文提出了“上下文理论”,系统地表征了基础模型学习的表示,表明许多方法可以视为从输入与上下文变量的关联中学习。
- Motivation: 尽管基础模型取得了经验性成功,但缺乏对其学习表示的系统性表征。
- Method: 通过证明多种学习范式(监督、自监督和流形学习)中的表示学习都可以从上下文的角度研究,并提出了一种评估上下文有用性的指标。
- Result: 表示学习上下文时,模型大小达到一定程度后,进一步扩大规模收益递减;实验表明提出的指标与编码器实际性能相关。
- Conclusion: 上下文理论表明,模型规模的扩展并非唯一改进途径,更好的上下文设计是关键。
[253] Understanding and Exploiting Plasticity for Non-stationary Network Resource Adaptation
Zhiqiang He,Zhi Liu
Main category: cs.LG
TL;DR: 论文提出了一种名为ReSiN的方法,通过重置静默神经元来解决神经网络在动态网络环境中适应性不足的问题,显著提升了视频流系统的性能。
- Motivation: 当前资源适应方法主要基于静态假设,无法有效应对动态网络条件。数据驱动的强化学习方法虽有潜力,但神经网络存在可塑性损失问题。
- Method: 通过理论分析提出Silent Neuron理论,并设计ReSiN方法,通过策略性重置神经元来保持可塑性。
- Result: 在自适应视频流系统中,ReSiN比现有方案提升了168%的比特率和108%的体验质量(QoE)。
- Conclusion: ReSiN不仅在动态环境中表现优异,在静态环境中也优于现有方法,展示了其强大的适应性。
[254] Don't be lazy: CompleteP enables compute-efficient deep transformers
Nolan Dey,Bin Claire Zhang,Lorenzo Noci,Mufan Li,Blake Bordelon,Shane Bergsma,Cengiz Pehlevan,Boris Hanin,Joel Hestness
Main category: cs.LG
TL;DR: 论文研究了不同参数化方法对LLM训练计算效率的影响,提出了CompleteP方法,实现了深度超参数迁移和非惰性学习,显著提升了计算效率。
- Motivation: 探讨如何在不同模型规模下调整超参数以提高计算效率,避免因超参数未优化导致的训练效率低下。
- Method: 通过理论分析和实验验证,识别并采用CompleteP参数化方法,实现超参数迁移和非惰性学习。
- Result: CompleteP方法在计算效率上比现有技术提升了12-34%,同时支持更灵活的模型结构设计。
- Conclusion: CompleteP是一种高效参数化方法,能够显著提升LLM训练的计算效率和适应性。
[255] Skill-based Safe Reinforcement Learning with Risk Planning
Hanping Zhang,Yuhong Guo
Main category: cs.LG
TL;DR: 提出了一种基于离线演示数据的两阶段安全强化学习方法(SSkP),通过技能风险预测和风险规划提升在线RL的安全性。
- Motivation: 在真实环境中,RL代理的不当行为可能导致高成本或严重后果,因此需要确保学习过程的安全性。
- Method: 1. 使用PU学习从离线数据中学习技能风险预测器;2. 基于预测器设计风险规划过程,优化在线RL策略。
- Result: 在多个机器人仿真环境中,SSkP方法优于现有安全RL方法。
- Conclusion: SSkP通过结合离线数据和在线学习,有效提升了RL的安全性和效率。
[256] Causally Fair Node Classification on Non-IID Graph Data
Yucong Dai,Lu Zhang,Yaowei Hu,Susan Gauch,Yongkai Wu
Main category: cs.LG
TL;DR: 该论文提出了一种基于因果关系的公平图学习方法MPVA,用于解决非独立同分布(非IID)图数据中的公平性问题。
- Motivation: 现有公平机器学习方法多假设数据独立同分布(IID),忽视了图数据中实例间的因果关系,导致公平性干预效果受限。
- Method: 基于网络结构因果模型(NSCM)框架,提出可分解性和图独立性假设,开发了MPVA模型,通过变分自编码器计算干预分布以实现公平节点分类。
- Result: 实验表明,MPVA在半合成和真实数据集上优于传统方法,能有效近似干预分布并减少偏差。
- Conclusion: 研究强调了因果公平性在复杂机器学习中的潜力,为未来放宽假设以提升模型公平性奠定了基础。
[257] PeSANet: Physics-encoded Spectral Attention Network for Simulating PDE-Governed Complex Systems
Han Wan,Rui Zhang,Qi Wang,Yang Liu,Hao Sun
Main category: cs.LG
TL;DR: PeSANet模型结合局部和全局信息,利用有限数据和不完整物理先验预测复杂系统。
- Motivation: 传统数值方法在现实场景中因物理规律不完整或未知而受限,机器学习方法在数据稀缺时泛化能力不足。
- Method: PeSANet包含物理编码块(近似局部微分算子)和频谱增强块(捕获长程全局依赖),引入频谱注意力机制。
- Result: 实验显示PeSANet在所有指标上优于现有方法,尤其在长期预测准确性上。
- Conclusion: PeSANet为有限数据和不完整物理的复杂系统模拟提供了有效解决方案。
[258] Analytic Energy-Guided Policy Optimization for Offline Reinforcement Learning
Jifeng Hu,Sili Huang,Zhejian Yang,Shengchao Hu,Li Shen,Hechang Chen,Lichao Sun,Yi Chang,Dacheng Tao
Main category: cs.LG
TL;DR: 论文提出AEPO方法,通过理论分析和闭式解解决扩散模型中能量估计的难题,并在离线RL任务中验证其有效性。
- Motivation: 扩散模型在强化学习中表现出竞争力,但中间能量的估计因对数期望形式而难以处理。
- Method: 提出AEPO方法,分析条件高斯变换下的闭式解,估计对数期望,并训练神经网络逼近目标。
- Result: 在30+离线RL任务中验证,AEPO在D4RL基准测试中超越多个基线。
- Conclusion: AEPO有效解决了扩散模型中的能量估计问题,提升了离线强化学习的性能。
[259] OODTE: A Differential Testing Engine for the ONNX Optimizer
Nikolaos Louloudakis,Ajitha Rajan
Main category: cs.LG
TL;DR: ONNX Optimizer缺乏对模型准确性影响的严格评估,作者提出OODTE工具,通过差分测试自动评估优化器的正确性,发现多个未知问题。
- Motivation: ONNX Optimizer作为标准优化工具,其优化过程中对模型准确性的影响尚未被严格验证,需要一种自动化工具来评估其正确性。
- Method: OODTE采用差分测试方法,通过对比原始模型与优化后模型在不同输入下的输出,自动记录问题并定位根源。
- Result: 测试130个模型,发现15个问题(14个未知),9.2%的模型导致优化器崩溃或生成无效模型,30%的分类模型存在准确性差异。
- Conclusion: OODTE有效揭示了ONNX Optimizer的问题,为优化器的改进提供了重要依据。
[260] LookAlike: Consistent Distractor Generation in Math MCQs
Nisarg Parikh,Nigel Fernandez,Alexander Scarlatos,Simon Woodhead,Andrew Lan
Main category: cs.LG
TL;DR: LookAlike方法通过偏好优化提升多选题目干扰项的生成质量,利用模型不一致性生成偏好对,并结合监督微调与直接偏好优化,显著优于现有方法。
- Motivation: 现有方法在生成与常见学生错误一致的干扰项方面存在不足,LookAlike旨在解决这一问题。
- Method: 通过挖掘模型不一致性生成合成偏好对,交替使用监督微调(SFT)和直接偏好优化(DPO)稳定训练。
- Result: 在1400+数学题目数据集上,LookAlike在干扰项生成和错误生成上的准确率分别为51.6%和57.2%,优于现有方法(45.6%/47.7%)。
- Conclusion: 偏好优化和不一致性挖掘可有效提升大规模数学题目干扰项生成的准确性。
[261] BOOM: Benchmarking Out-Of-distribution Molecular Property Predictions of Machine Learning Models
Evan R. Antoniuk,Shehtab Zaman,Tal Ben-Nun,Peggy Li,James Diffenderfer,Busra Demirci,Obadiah Smolenski,Tim Hsu,Anna M. Hiszpanski,Kenneth Chiu,Bhavya Kailkhura,Brian Van Essen
Main category: cs.LG
TL;DR: 论文提出了BOOM基准,用于评估分子属性预测模型的OOD性能,发现现有模型在OOD任务上表现不佳,并提出OOD泛化是化学ML模型开发的新挑战。
- Motivation: 由于机器学习模型在OOD预测上表现不佳,且缺乏系统性的分子OOD预测基准,作者希望通过BOOM基准填补这一空白。
- Method: 作者评估了140多种模型和任务组合,分析了数据生成、预训练、超参数优化等因素对OOD性能的影响。
- Result: 现有模型在OOD任务上表现普遍较差,最佳模型的OOD误差平均是分布内误差的3倍。化学基础模型在OOD外推能力上表现有限。
- Conclusion: 开发具有强OOD泛化能力的ML模型是化学ML模型开发的新挑战,BOOM基准将开源以促进研究。
[262] Multi-Scale Graph Learning for Anti-Sparse Downscaling
Yingda Fan,Runlong Yu,Janet R. Barclay,Alison P. Appling,Yiming Sun,Yiqun Xie,Xiaowei Jia
Main category: cs.LG
TL;DR: 提出了一种多尺度图学习方法(MSGL),通过多任务学习和跨尺度插值学习解决细尺度数据不足的问题,并进一步提出异步多尺度图学习方法(ASYNC-MSGL),在特拉华河流域的实验中表现优异。
- Motivation: 由于缺乏细尺度数据,现有模型难以在细空间尺度(≤1 km)准确预测溪流水温,而精确预测对维护水质和保护水生栖息地至关重要。
- Method: 采用多任务学习框架,结合粗尺度图学习和跨尺度插值学习,建立跨尺度连接;进一步提出异步多尺度图学习方法(ASYNC-MSGL)。
- Result: 在特拉华河流域的实验中,该方法在细尺度水温预测上表现出最先进的性能。
- Conclusion: MSGL和ASYNC-MSGL方法为水资源监测和管理提供了潜在的高效工具。
[263] Restoring Calibration for Aligned Large Language Models: A Calibration-Aware Fine-Tuning Approach
Jiancong Xiao,Bojian Hou,Zhanliang Wang,Ruochen Jin,Qi Long,Weijie J. Su,Li Shen
Main category: cs.LG
TL;DR: 研究探讨了大型语言模型(LLMs)偏好对齐对校准的影响,并提出解决方案。
- Motivation: 偏好对齐导致LLMs校准性下降,表现为过度自信和校准不良。
- Method: 分析偏好对齐对校准的影响,提出基于领域知识的微调方法,并开发校准感知微调和EM算法正则化。
- Result: 实验验证了所提方法的有效性。
- Conclusion: 通过校准感知微调和正则化方法,可在不牺牲性能的情况下改善LLMs的校准性。
[264] CASA: CNN Autoencoder-based Score Attention for Efficient Multivariate Long-term Time-series Forecasting
Minhyuk Lee,HyeKyung Yoon,MyungJoo Kang
Main category: cs.LG
TL;DR: 论文提出了一种基于CNN自编码器的分数注意力机制(CASA),用于解决多变量长期时间序列预测中的计算资源和跨维度交互问题,显著提升了模型性能。
- Motivation: 多变量长期时间序列预测在天气预测和交通分析等领域至关重要,但现有Transformer变体在时间复杂度和计算资源方面存在局限性。
- Method: 引入CASA机制,通过减少内存使用并提升模型性能,可灵活应用于多种Transformer模型。
- Result: 在8个真实数据集上的实验表明,CASA减少计算资源达77.7%,推理速度提升44.0%,并在87.5%的评估指标中排名第一。
- Conclusion: CASA机制在多变量长期时间序列预测中表现出色,显著提升了效率和性能。
[265] Wide & Deep Learning for Node Classification
Yancheng Chen,Wenguo Yang,Zhipeng Jiang
Main category: cs.LG
TL;DR: 论文提出GCNIII框架,结合Wide & Deep架构,通过三种技术解决GCN在节点分类中的问题,并利用大语言模型提升性能。
- Motivation: 解决图卷积网络(GCN)在节点分类任务中的异质性和表达能力问题,同时探索节点特征的潜在作用。
- Method: 提出GCNIII框架,结合Wide & Deep架构,采用Intersect memory、Initial residual和Identity mapping三种技术。
- Result: GCNIII在半监督和全监督任务中更有效地平衡过拟合与过泛化,并通过大语言模型提升跨域节点分类性能。
- Conclusion: GCNIII是一个灵活且高效的框架,能够提升GCN在节点分类任务中的表现。
[266] GraphPrompter: Multi-stage Adaptive Prompt Optimization for Graph In-Context Learning
Rui Lv,Zaixi Zhang,Kai Zhang,Qi Liu,Weibo Gao,Jiawei Liu,Jiaxia Yan,Linan Yue,Fangzhou Yao
Main category: cs.LG
TL;DR: GraphPrompter提出了一种多阶段自适应提示优化方法,通过生成、选择和增强图提示,显著提升了图模型的上下文学习能力。
- Motivation: 现有方法随机选择子图或边作为提示,导致噪声和性能下降,且预训练与测试图之间的类别差异会进一步恶化学习能力。
- Method: GraphPrompter包括三个阶段:1) Prompt Generator通过重构层突出信息边;2) Prompt Selector动态选择样本;3) Prompt Augmenter增强泛化能力。
- Result: 实验表明,GraphPrompter平均性能超过现有基线8%以上。
- Conclusion: GraphPrompter通过优化提示过程,有效提升了图模型的上下文学习能力。
[267] Lightweight Defense Against Adversarial Attacks in Time Series Classification
Yi Han
Main category: cs.LG
TL;DR: 论文提出了五种基于数据增强的时间序列分类防御方法,计算资源消耗低,部署简单,并组合成两种方法,其中一种集成方法性能优于PGD对抗训练,且计算资源需求更低。
- Motivation: 时间序列分类(TSC)对抗防御研究不足,现有方法(如对抗训练)计算成本高,需更高效解决方案。
- Method: 开发五种数据增强防御方法,组合成两种方法(包括集成方法),计算资源消耗低且部署简单。
- Result: 集成方法防御性能优于PGD对抗训练,计算资源需求仅为后者的三分之一,同时提升模型泛化能力。
- Conclusion: 方法推动了鲁棒TSC研究,并为未来结合大规模预训练模型提供启示。
[268] Always Skip Attention
Yiping Ji,Hemanth Saratchandran,Peyman Moghaddam,Simon Lucey
Main category: cs.LG
TL;DR: 现代视觉Transformer(ViT)中,自注意力机制在没有跳跃连接时会训练失败,而其他组件仍能工作。本文理论分析了自注意力机制的不稳定性,并提出Token Graying作为补充方法。
- Motivation: 研究ViT中自注意力机制对跳跃连接的依赖性,揭示其不稳定性,并提出改进方法。
- Method: 理论分析自注意力机制的不稳定性,并提出Token Graying方法作为补充。
- Result: 验证了Token Graying在监督和自监督训练中的有效性。
- Conclusion: 自注意力机制需要跳跃连接或类似Token Graying的方法来稳定训练。
[269] SkillMimic-V2: Learning Robust and Generalizable Interaction Skills from Sparse and Noisy Demonstrations
Runyi Yu,Yinhuai Wang,Qihan Zhao,Hok Wai Tsui,Jingbo Wang,Ping Tan,Qifeng Chen
Main category: cs.LG
TL;DR: 论文提出两种数据增强技术(STG和STF)解决RLID中的噪声和覆盖问题,结合ATS策略和历史编码机制,显著提升泛化能力和鲁棒性。
- Motivation: 现有交互演示数据稀疏、噪声多且覆盖不全,难以捕捉技能变化和过渡的全貌。
- Method: 提出STG和STF两种数据增强技术,结合ATS策略和历史编码机制。
- Result: 实验表明,方法在收敛稳定性、泛化能力和恢复鲁棒性上优于现有技术。
- Conclusion: 通过数据增强和动态课程生成,显著提升了RLID的性能和泛化能力。
[270] Local Herb Identification Using Transfer Learning: A CNN-Powered Mobile Application for Nepalese Flora
Prajwal Thapa,Mridul Sharma,Jinu Nyachhyon,Yagya Raj Pandeya
Main category: cs.LG
TL;DR: 本研究提出了一种基于深度学习的草药分类方法,使用CNN和迁移学习技术,在12,000张草药图像数据集上验证了DenseNet121的优越性能。
- Motivation: 草药分类在生物多样性丰富的地区(如尼泊尔)具有重要研究价值,但现有方法存在局限性。
- Method: 采用多种深度学习架构(如DenseNet121、ResNet50等),结合数据增强和正则化技术,优化模型性能。
- Result: DenseNet121表现最佳,模型通过数据增强和正则化提高了泛化能力。
- Conclusion: 该研究推动了草药分类技术的发展,有助于传统植物知识的保护和可持续利用。
[271] DNAZEN: Enhanced Gene Sequence Representations via Mixed Granularities of Coding Units
Lei Mao,Yuanhe Tian,Yan Song
Main category: cs.LG
TL;DR: DNAZEN是一种增强的基因组表示框架,通过多粒度学习基因序列,包括小聚合物和G-grams,利用Transformer编码器和动态匹配提升表示效果。
- Motivation: 现有方法直接将语言建模技术应用于基因序列,未充分考虑其内在信息组织方式,尤其是不同粒度单元的贡献。
- Method: 提出DNAZEN框架,通过无监督方法构建G-gram词汇表,使用Transformer编码器动态匹配G-grams,并采用全G-gram掩码训练。
- Result: 在基准数据集上的实验验证了DNAZEN在各种下游任务中的有效性。
- Conclusion: DNAZEN通过多粒度学习和动态匹配,显著提升了基因序列表示的效果。
[272] Coupled Distributional Random Expert Distillation for World Model Online Imitation Learning
Shangzhe Li,Zhiao Huang,Hao Su
Main category: cs.LG
TL;DR: 提出了一种基于随机网络蒸馏(RND)的在线模仿学习方法,解决了现有方法在对抗性奖励或价值公式中的不稳定性问题。
- Motivation: 模仿学习(IL)在多个领域取得了成功,但现有方法在对抗性奖励或世界模型框架中表现不稳定。
- Method: 通过RND构建奖励模型,联合估计专家和行为分布在世界模型的潜在空间中。
- Result: 在DMControl、Meta-World和ManiSkill2等基准测试中表现稳定,达到专家水平。
- Conclusion: 该方法在保持专家水平性能的同时,显著提高了稳定性。
[273] Sharpness-Aware Minimization with Z-Score Gradient Filtering for Neural Networks
Juyoung Yun
Main category: cs.LG
TL;DR: ZSharp是SAM的改进方法,通过层间Z-score归一化和百分位过滤保留显著梯度方向,提升泛化性能。
- Motivation: 深度神经网络易收敛到尖锐最小值,影响鲁棒性。SAM虽能寻找平坦最小值,但扰动参数时包含统计不显著方向。
- Method: ZSharp在SAM基础上,应用层间Z-score归一化和百分位过滤,仅保留显著梯度方向。
- Result: 在CIFAR-10、CIFAR-100和Tiny-ImageNet上,ZSharp在测试准确率上优于SAM及其变体。
- Conclusion: ZSharp是一种轻量级改进,能有效提升基于SAM的优化性能。
[274] RISE: Radius of Influence based Subgraph Extraction for 3D Molecular Graph Explanation
Jingxiang Qu,Wenhan Gao,Jiaxing Zhang,Xufeng Liu,Hua Wei,Haibin Ling,Yi Liu
Main category: cs.LG
TL;DR: 提出了一种针对3D GNN的新解释方法,通过局部化节点的邻域半径来增强模型的解释性。
- Motivation: 3D GNN在分子数据建模中表现出色,但缺乏解释性,限制了其在科学应用中的可靠性。现有方法多针对2D GNN,3D GNN的密集边结构带来了新挑战。
- Method: 设计了一种解释方法,为每个节点分配影响半径,局部化消息传递区域,捕捉空间和结构交互。
- Result: 该方法提升了3D GNN的解释性,并符合分子学习等应用中的物理和结构依赖性。
- Conclusion: 局部化解释方法为3D GNN提供了更透明和可靠的解释,适用于科学应用。
[275] Universal Approximation Theorem of Deep Q-Networks
Qian Qi
Main category: cs.LG
TL;DR: 该论文提出了一个连续时间框架,通过随机控制和前向-后向随机微分方程(FBSDEs)分析深度Q网络(DQNs),证明了DQN在紧凑集上能以高概率任意精度逼近最优Q函数,并分析了Q学习算法的收敛性。
- Motivation: 研究动机在于将深度强化学习与随机控制理论结合,为连续时间环境(如物理系统或高频数据)中的DQN提供理论支持。
- Method: 方法包括利用残差网络逼近定理和状态-动作过程的大偏差界限,分析DQN的逼近性质,并基于随机逼近定理分析Q学习算法的收敛性。
- Result: 结果表明,DQN能在紧凑集上高概率逼近最优Q函数,且算法收敛性受网络层数、时间离散化和粘性解的影响。
- Conclusion: 结论是这项工作为连续时间环境中的DQN提供了理论框架,揭示了其与随机控制的联系,对实际应用具有指导意义。
[276] Adaptive Scoring and Thresholding with Human Feedback for Robust Out-of-Distribution Detection
Daisuke Yamada,Harit Vishwakarma,Ramya Korlakai Vinayak
Main category: cs.LG
TL;DR: 论文提出了一种人机交互框架,动态更新评分函数和阈值,以解决机器学习模型在部署时遇到的分布外(OOD)输入问题,同时最大化真阳性率(TPR)并严格控制假阳性率(FPR)。
- Motivation: 机器学习模型在部署时可能遇到分布外输入,导致高假阳性率,而现有方法无法动态适应新观察到的OOD输入。
- Method: 提出了一种人机交互框架,动态更新评分函数和阈值,基于实际OOD输入进行实时调整。
- Result: 在OpenOOD基准测试中,该方法在保持FPR控制的同时实现了更高的TPR,优于现有方法。
- Conclusion: 该方法通过动态调整评分函数和阈值,有效解决了OOD输入问题,同时提供了理论保证和实证支持。
[277] Optimizing LLMs for Resource-Constrained Environments: A Survey of Model Compression Techniques
Sanjay Surendranath Girija,Shashank Kapoor,Lakshit Arora,Dipen Pradhan,Aman Raj,Ankit Shetgaonkar
Main category: cs.LG
TL;DR: 该论文综述了压缩大型语言模型(LLMs)的技术,以在资源受限环境中实现高效推理,主要探讨了知识蒸馏、模型量化和模型剪枝三种方法。
- Motivation: LLMs的高资源需求限制了其在移动和边缘设备上的部署,因此需要研究压缩技术以实现高效推理。
- Method: 论文分析了三种主要压缩方法:知识蒸馏、模型量化和模型剪枝,并讨论了其原理、变体和应用案例。
- Result: 论文总结了每种压缩技术的成功应用,并简要介绍了混合专家和早期退出策略等补充技术。
- Conclusion: 论文为研究人员和从业者提供了优化LLMs边缘部署的有价值资源,并指出了未来研究方向。
[278] Catastrophic Overfitting, Entropy Gap and Participation Ratio: A Noiseless Norm Solution for Fast Adversarial Training
Fares B. Mehouachi,Saif Eddin Jabari
Main category: cs.LG
TL;DR: 论文提出了一种通过控制
- Motivation: 现有对抗训练方法(如FGSM)在
范数下容易发生CO,但在 范数下较少出现。作者希望通过调整训练范数来解决这一问题。 - Method: 通过分析梯度集中度(Participation Ratio和熵),提出自适应
-FGSM方法,动态调整训练范数以抑制CO。 - Result: 实验表明,该方法在不依赖额外正则化或噪声的情况下,显著提升了模型的鲁棒性。
- Conclusion: 通过控制训练范数,论文提供了一种理论上有依据且有效缓解CO问题的新途径。
[279] Quantitative Analysis of Performance Drop in DeepSeek Model Quantization
Enbo Zhao,Yi Shen,Shuming Shi,Jieyun Huang,Zhihao Chen,Ning Wang,Siqi Xiao,Jian Zhang,Kai Wang,Shiguo Lian
Main category: cs.LG
TL;DR: 本文评估了DeepSeek-R1和V3模型的多比特量化效果,发现4位量化性能接近FP8,并提出动态3位量化方法DQ3_K_M,性能优于传统方法且支持单机部署。
- Motivation: 由于官方服务繁忙和数据隐私问题,本地部署需求高,但模型参数过大,需通过量化减少内存占用。
- Method: 采用多比特量化技术,提出动态3位量化方法DQ3_K_M,并与传统方法对比。
- Result: 4位量化性能接近FP8;DQ3_K_M优于传统3位量化,性能接近4位量化,支持多种硬件单机部署。
- Conclusion: DQ3_K_M是一种高效的量化方法,适用于本地部署,性能接近更高比特量化。
[280] Optimizing Chain-of-Thought Reasoners via Gradient Variance Minimization in Rejection Sampling and RL
Jiarui Yao,Yifan Hao,Hanning Zhang,Hanze Dong,Wei Xiong,Nan Jiang,Tong Zhang
Main category: cs.LG
TL;DR: 论文提出GVM-RAFT方法,通过动态分配计算资源优化CoT推理中的梯度估计,显著提升训练效率和准确性。
- Motivation: 现有CoT推理方法采用统一推理预算,无法适应不同提示的难度和收敛行为差异,导致梯度估计效率低下。
- Method: 提出GVM-RAFT方法,动态监控提示接受率和梯度范数,最小化梯度方差以优化计算资源分配。
- Result: 实验显示GVM-RAFT在数学推理任务中比RAFT提速2-4倍,准确性显著提升。
- Conclusion: 动态采样策略通用性强,可应用于其他强化学习算法,提升收敛速度和测试准确性。
[281] T2S: High-resolution Time Series Generation with Text-to-Series Diffusion Models
Yunfeng Ge,Jiawei Li,Yiji Zhao,Haomin Wen,Zhao Li,Meikang Qiu,Hongyan Li,Ming Jin,Shirui Pan
Main category: cs.LG
TL;DR: 论文提出了一种基于扩散模型的文本到时间序列生成框架T2S,解决了现有方法在通用性、长度适应性方面的不足,并在多领域数据集上取得了最优性能。
- Motivation: 解决文本到时间序列生成中的数据稀疏性、不平衡性和多模态数据集有限的问题,同时克服现有方法在通用性和长度适应性上的局限性。
- Method: 1. 将时间序列描述分为点级、片段级和实例级;2. 引入片段级数据集;3. 提出T2S框架,使用长度自适应变分自编码器和Flow Matching对齐文本与时间序列。
- Result: T2S在12个领域的13个数据集上实现了最先进的性能。
- Conclusion: T2S为文本到时间序列生成提供了一种通用且灵活的解决方案,具有广泛的应用潜力。
[282] Towards One-shot Federated Learning: Advances, Challenges, and Future Directions
Flora Amato,Lingyu Qiu,Mohammad Tanveer,Salvatore Cuomo,Fabio Giampaolo,Francesco Piccialli
Main category: cs.LG
TL;DR: 本文综述了单轮联邦学习(One-shot FL),强调其在资源受限和隐私敏感场景下的优势,系统分类现有方法并分析其局限性。
- Motivation: 研究单轮联邦学习的动机是解决传统联邦学习在资源受限和隐私敏感场景中的通信开销问题。
- Method: 通过系统分类现有方法,重点关注客户端模型初始化、聚合技术以及处理异构数据分布的策略。
- Result: 综述总结了单轮联邦学习的优势(如减少通信开销)和局限性(如非独立同分布数据下的扩展性和泛化能力)。
- Conclusion: 本文为研究人员和实践者提供了单轮联邦学习的全面参考,旨在推动其在现实资源受限场景中的应用。
[283] FairPO: Robust Preference Optimization for Fair Multi-Label Learning
Soumen Kumar Mondal,Akshit Varmora,Prateek Chanda,Ganesh Ramakrishnan
Main category: cs.LG
TL;DR: FairPO是一个新颖的框架,旨在通过直接优化偏好信号来促进多标签分类的公平性,采用群体鲁棒性视角。
- Motivation: 解决多标签分类中的公平性问题,特别是针对特权和非特权标签组的差异处理。
- Method: 将标签分为特权和非特权组,采用基于偏好的损失函数(DPO灵感),动态调整训练重点以优化性能较差的组。
- Result: 框架能够有效区分特权组中的真实正标签与混淆负标签,同时保持非特权标签的分类性能。
- Conclusion: FairPO通过动态调整训练重点,减少偏见并确保更公平的标签处理,未来计划扩展损失函数和生成能力。
[284] A New Approach to Backtracking Counterfactual Explanations: A Causal Framework for Efficient Model Interpretability
Pouria Fatemi,Ehsan Sharifian,Mohammad Hossein Yassaee
Main category: cs.LG
TL;DR: 提出了一种基于回溯反事实的高效方法,结合因果推理生成可操作的解释,解决了传统方法忽略因果关系和新方法计算成本高的问题。
- Motivation: 传统反事实解释方法常忽略因果关系,导致生成不现实的例子;而结合因果关系的新方法计算成本高。
- Method: 基于回溯反事实,结合因果推理,提出高效方法。
- Result: 实验表明,该方法能更深入地理解模型输出。
- Conclusion: 新方法不仅高效,还能在特定场景下推广现有技术。
[285] SEFE: Superficial and Essential Forgetting Eliminator for Multimodal Continual Instruction Tuning
Jinpeng Chen,Runmin Cong,Yuzhi Zhao,Hongzheng Yang,Guangneng Hu,Horace Ho Shing Ip,Sam Kwong
Main category: cs.LG
TL;DR: 论文提出MCIT框架,解决多模态大语言模型(MLLMs)在增量学习中的遗忘问题,分为表面遗忘和本质遗忘,并分别通过ASD和RegLoRA方法解决。
- Motivation: 解决MLLMs在增量学习中因任务风格变化导致的表面遗忘和知识丢失的本质遗忘问题。
- Method: 1. 引入ASD范式统一任务数据风格;2. 提出RegLoRA方法通过正则化稳定关键参数。
- Result: 提出的SEFE方法在实验中表现最优。
- Conclusion: SEFE方法有效解决了MCIT中的遗忘问题,实现了最先进的性能。
[286] Advancing Constrained Monotonic Neural Networks: Achieving Universal Approximation Beyond Bounded Activations
Davide Sartor,Alberto Sinigaglia,Gian Antonio Susto
Main category: cs.LG
TL;DR: 该论文通过理论证明和实验验证,提出了一种新的方法,用于在多层感知机(MLP)中实现单调性约束,解决了传统方法的优化难题。
- Motivation: 传统方法通过非负权重约束和有界激活函数实现单调性,但存在优化困难。本文旨在解决这一问题,并提供理论支持。
- Method: 提出了一种新的方法,允许网络根据权重符号调整激活函数,避免了权重重新参数化,简化了架构并提高了训练稳定性。
- Result: 实验证明,新方法在单调性约束下表现优于传统架构,同时提供了理论支持。
- Conclusion: 本文为单调性约束提供了新的理论框架和实用方法,简化了架构并改善了优化效果。
[287] Lazy But Effective: Collaborative Personalized Federated Learning with Heterogeneous Data
Ljubomir Rokvic,Panayiotis Danassis,Boi Faltings
Main category: cs.LG
TL;DR: 提出了一种个性化联邦学习框架pFedLIA,通过分布式聚类解决客户端数据分布不均的问题,显著提升模型性能。
- Motivation: 联邦学习中客户端数据分布不均导致单一全局模型性能不佳,需个性化解决方案。
- Method: 使用Lazy Influence近似方法进行分布式聚类,每个集群内联合训练模型。
- Result: 在多种任务中恢复全局模型性能,如北欧语言预测任务提升17%于CIFAR100。
- Conclusion: pFedLIA有效解决非独立同分布数据问题,性能接近理想聚类效果。
[288] Bielik v3 Small: Technical Report
Krzysztof Ociepa,Łukasz Flis,Remigiusz Kinas,Krzysztof Wróbel,Adrian Gwoździej
Main category: cs.LG
TL;DR: Bielik v3是专为波兰语优化的高效生成文本模型(1.5B和4.5B参数),通过创新技术实现与更大模型相当的性能,同时减少计算资源需求。
- Motivation: 为资源受限的应用提供高质量的波兰语AI模型,填补较少代表语言的高效建模空白。
- Method: 采用定制波兰语分词器(APT4)、加权指令交叉熵损失和自适应学习率等技术,训练于2920亿标记的精选语料库。
- Result: 4.5B模型性能媲美2-3倍大小的模型,1.5B模型在紧凑体积下表现优异,多项基准测试领先。
- Conclusion: Bielik v3为波兰语高效建模设定了新标准,推动了资源受限场景下的高质量AI应用。
[289] Robustness questions the interpretability of graph neural networks: what to do?
Kirill Lukyanov,Georgii Sazonov,Serafim Boyarsky,Ilya Makarov
Main category: cs.LG
TL;DR: 该论文提出了一个系统性基准,分析图神经网络(GNNs)在对抗攻击下的可解释性与鲁棒性之间的权衡,并评估了不同防御方法对可解释性的影响。
- Motivation: GNNs在多个领域广泛应用,但其可解释性与鲁棒性的关系尚不明确,尤其是在对抗攻击下。
- Method: 评估了六种GNN架构在五个数据集上的表现,采用四种可解释性指标(Fidelity、Stability、Consistency、Sparsity),并分析了防御方法对可解释性的影响。
- Result: 结果显示,防御方法和模型架构对可解释性有显著影响,揭示了鲁棒性与可解释性之间的关键权衡。
- Conclusion: 通过标准化基准,为开发兼具鲁棒性和可解释性的GNNs提供了基础,有助于在敏感应用中建立信任。
[290] Rethinking Federated Graph Learning: A Data Condensation Perspective
Hao Zhang,Xunkai Li,Yinlin Zhu,Lianglin Hu
Main category: cs.LG
TL;DR: FedGM提出了一种新的联邦图学习范式,通过压缩图作为优化载体,解决了数据异质性和隐私风险问题。
- Motivation: 现有联邦图学习方法依赖模型参数或梯度的通信,未能有效处理图分布的异质性,且额外信息共享增加了隐私风险和通信开销。
- Method: 提出FedGM,利用压缩图共识聚合分布式图的知识,通过单次传输压缩数据降低通信成本和隐私风险。
- Result: 在六个公共数据集上的实验表明,FedGM优于现有基线方法。
- Conclusion: FedGM为联邦图学习提供了一种新的高效且隐私安全的范式。
[291] A Theoretical Analysis of Compositional Generalization in Neural Networks: A Necessary and Sufficient Condition
Yuanpeng Li
Main category: cs.LG
TL;DR: 本文提出了神经网络中组合泛化的充要条件,要求计算图匹配真实组合结构且组件编码足够信息。
- Motivation: 研究组合泛化的条件,以解决深度学习模型在组合泛化上的不足。
- Method: 通过数学证明和设计最小示例,验证充要条件。
- Result: 提出了组合泛化的理论条件,结合架构设计、正则化和数据特性。
- Conclusion: 为神经网络组合泛化的理论研究奠定了基础,并探讨了训练前评估的可能性。
[292] Enhancing Chemical Reaction and Retrosynthesis Prediction with Large Language Model and Dual-task Learning
Xuan Lin,Qingrui Liu,Hongxin Xiang,Daojian Zeng,Xiangxiang Zeng
Main category: cs.LG
TL;DR: ChemDual是一个基于LLM的新型框架,用于解决化学反应和逆合成预测中的数据集和任务关联性问题,通过双任务学习和多尺度分词器实现高性能。
- Motivation: 现有LLM在化学反应和逆合成预测中面临数据集不足和任务关联性被忽视的挑战。
- Method: ChemDual构建了440万条指令数据集,并采用增强的LLaMA模型,结合多尺度分词器和双任务学习策略。
- Result: 在Mol-Instruction和USPTO-50K数据集上,ChemDual在反应和逆合成预测中表现优异,优于现有单任务方法和通用LLM。
- Conclusion: ChemDual在药物设计中展现出潜力,生成的化合物具有多样性和强蛋白结合亲和力。
[293] Adaptive Budgeted Multi-Armed Bandits for IoT with Dynamic Resource Constraints
Shubham Vaishnav,Praveen Kumar Donta,Sindri Magnússon
Main category: cs.LG
TL;DR: 提出了一种针对动态资源约束的IoT系统的预算多臂老虎机框架,通过衰减违规预算平衡性能优化与约束合规。
- Motivation: 解决IoT设备在动态资源约束下实时响应的问题,现有方法难以适应随时间变化的约束。
- Method: 引入衰减违规预算的预算UCB算法,动态平衡性能与约束合规。
- Result: 理论证明算法具有次线性遗憾和对数约束违规,仿真显示比标准方法更快适应且更合规。
- Conclusion: 该框架为构建自适应、资源感知的IoT系统提供了潜力。
[294] SCFormer: Structured Channel-wise Transformer with Cumulative Historical State for Multivariate Time Series Forecasting
Shiwei Guo,Ziang Chen,Yupeng Ma,Yunfei Han,Yi Wang
Main category: cs.LG
TL;DR: SCFormer通过引入时间约束和高阶多项式投影算子,改进了Transformer在多元时间序列预测中的性能。
- Motivation: 传统Transformer在时间序列预测中缺乏时间约束,且未充分利用累积历史数据。
- Method: SCFormer在Transformer的线性变换中引入时间约束,并使用HiPPO处理累积历史数据。
- Result: 实验表明,SCFormer在多个真实数据集上显著优于主流基线方法。
- Conclusion: SCFormer有效提升了时间序列预测的性能,代码已开源。
[295] A Note on Statistically Accurate Tabular Data Generation Using Large Language Models
Andrey Sidorenko
Main category: cs.LG
TL;DR: 本文提出了一种基于概率驱动的提示方法,利用大语言模型(LLMs)估计条件分布,以提升合成表格数据的统计保真度。
- Motivation: 现有方法在生成合成表格数据时难以保持复杂特征依赖关系,尤其是分类变量之间的依赖关系。
- Method: 采用概率驱动的提示方法,利用LLMs估计条件分布。
- Result: 结果表明,该方法能够更准确且可扩展地生成合成表格数据。
- Conclusion: 通过提示概率分布,可以显著提升LLM生成表格数据的统计保真度。
[296] Graph Neural Network-Based Reinforcement Learning for Controlling Biological Networks: The GATTACA Framework
Andrzej Mizera,Jakub Zarzycki
Main category: cs.LG
TL;DR: 利用深度强化学习(DRL)控制布尔网络模型,解决细胞重编程中的控制问题,提高效率和可扩展性。
- Motivation: 细胞重编程在治疗复杂疾病中具有潜力,但传统实验方法耗时且成本高。
- Method: 提出基于DRL的控制框架,结合伪吸引子概念和图神经网络,优化布尔网络模型的控制策略。
- Result: 实验证明该方法在大型生物网络中具有可扩展性和有效性。
- Conclusion: DRL为细胞重编程提供了一种高效的计算解决方案。
[297] Knowledge Graphs for Enhancing Large Language Models in Entity Disambiguation
Pons Gerard,Bilalli Besim,Queralt Anna
Main category: cs.LG
TL;DR: 利用知识图谱(KG)增强大型语言模型(LLM)的零样本实体消歧(ED)能力,通过层次化剪枝和实体描述丰富输入提示,显著提升性能。
- Motivation: LLM在零样本或少量样本任务中表现优异,但存在幻觉和知识陈旧问题,重新训练成本高。KG作为结构化外部知识源,可弥补LLM的不足。
- Method: 利用KG的实体类别层次结构逐步剪枝候选空间,并通过实体描述丰富输入提示,增强LLM的零样本ED能力。
- Result: 在流行ED数据集上,该方法优于未增强和仅描述增强的LLM,且比任务特定模型更具适应性。
- Conclusion: KG的语义表达能力对ED性能有显著影响,该方法为LLM的知识更新提供了高效解决方案。
[298] HSplitLoRA: A Heterogeneous Split Parameter-Efficient Fine-Tuning Framework for Large Language Models
Zheng Lin,Yuxin Zhang,Zhe Chen,Zihan Fang,Xianhao Chen,Praneeth Vepakomma,Wei Ni,Jun Luo,Yue Gao
Main category: cs.LG
TL;DR: HSplitLoRA是一种基于分割学习和低秩适应的参数高效微调框架,旨在解决异构设备上大语言模型微调的计算成本问题。
- Motivation: 由于大语言模型参数庞大,联邦学习在异构设备上的计算成本高,限制了其普及。
- Method: HSplitLoRA通过动态配置LoRA适配器的分解秩和模型分割点,结合无噪声适配器聚合机制,实现高效微调。
- Result: 实验表明,HSplitLoRA在训练精度和收敛速度上优于现有基准。
- Conclusion: HSplitLoRA为异构设备上的大语言模型微调提供了一种高效解决方案。
cs.CY
[299] Student Perspectives on the Benefits and Risks of AI in Education
Griffin Pitts,Viktoria Marcus,Sanaz Motamedi
Main category: cs.CY
TL;DR: 学生认为AI聊天机器人在教育中有助于反馈和学习支持,但也担忧学术诚信和过度依赖等问题。
- Motivation: 探讨学生对AI聊天机器人在教育中的看法及其潜在影响。
- Method: 通过问卷调查262名本科生,并进行主题分析。
- Result: 学生认可AI的反馈和学习支持功能,但担忧学术诚信、信息准确性及伦理问题。
- Conclusion: 建议制定明确的AI使用政策和AI素养课程,以平衡AI的潜力与风险。
[300] What Is AI Safety? What Do We Want It to Be?
Jacqueline Harding,Cameron Domenico Kirk-Giannini
Main category: cs.CY
TL;DR: 论文探讨了AI安全领域的定义,提出‘安全概念’作为核心定义,并批评了当前趋势中对其的偏离。
- Motivation: 研究动机是澄清AI安全领域的核心特征,避免因趋势导致的定义模糊或狭隘。
- Method: 采用概念工程的方法,分析当前AI安全领域的趋势与‘安全概念’的冲突。
- Result: 研究发现‘安全概念’更能统一历史与新兴议题,避免武断区分。
- Conclusion: 结论认为‘安全概念’是最佳定义,应基于实际价值而非趋势评估AI安全研究。
math.OC
[301] Pickup & Delivery with Time Windows and Transfers: combining decomposition with metaheuristics
Ioannis Avgerinos,Ioannis Mourtos,Nikolaos Tsompanidis,Georgios Zois
Main category: math.OC
TL;DR: 论文研究了允许车辆中途交换负载且严格遵循时间窗口的Pickup and Delivery Problem的泛化问题,提出了改进最优性差距的LBBD方法和适应性更强的LNS算法,并开发了实例生成器用于实验验证。
- Motivation: 解决现有Pickup and Delivery Problem中车辆中途交换负载和严格时间窗口约束的泛化问题,并改进现有方法的性能和可扩展性。
- Method: 提出Logic-Based Benders Decomposition (LBBD)和改进的Large Neighborhood Search (LNS)算法,开发实例生成器用于实验。
- Result: LBBD在中等规模数据集上能缩小最优性差距,LNS能提供接近最优解;在大规模实例中,改进的LNS展现了更好的可扩展性和性能。
- Conclusion: 论文提出的LBBD和LNS方法在解决泛化Pickup and Delivery Problem中表现出色,LNS尤其适用于大规模实例。
[302] Minimisation of Quasar-Convex Functions Using Random Zeroth-Order Oracles
Amir Ali Farzin,Yuen-Man Pun,Iman Shames
Main category: math.OC
TL;DR: 研究了随机高斯平滑零阶(ZO)方案在无约束和约束条件下最小化拟星凸(QC)和强拟星凸(SQC)函数的性能,证明了算法的收敛性和复杂度,并提出了新的近端拟星凸性概念。
- Motivation: 探索ZO算法在拟星凸和强拟星凸函数优化中的性能,特别是在无约束和约束条件下的收敛性和复杂度。
- Method: 采用随机高斯平滑零阶方案,提出近端拟星凸性概念,并分析算法的收敛性和复杂度。
- Result: 在无约束和约束条件下,ZO算法均能收敛到全局最小值或其邻域,复杂度可控,且在部分场景中优于梯度下降。
- Conclusion: ZO算法在拟星凸和强拟星凸函数优化中表现良好,尤其在特定场景下优于传统方法,为优化问题提供了新的思路。
[303] Temporal Robustness in Discrete Time Linear Dynamical Systems
Nilava Metya,Arunesh Sinha
Main category: math.OC
TL;DR: 论文研究了离散时间线性动态系统中时间不确定性对成本估计的影响,提出了基于Wasserstein模糊集的分布鲁棒方法,并给出了多项式时间算法和硬度结果。
- Motivation: 解决时间不确定性对系统运行成本估计的影响,避免从少量样本中学习概率分布。
- Method: 通过将离散时间马尔可夫链等价于全局渐近稳定的线性动态系统,基于Wasserstein模糊集进行理论分析。
- Result: 提出了多项式时间算法,并证明了Wasserstein距离相关多面体的基本结果。
- Conclusion: 该方法为时间不确定性问题提供了有效的分布鲁棒解决方案,并展示了理论可行性。
[304] Integrating Column Generation and Large Neighborhood Search for Bus Driver Scheduling with Complex Break Constraints
Lucas Kletzander,Tommaso Mannelli Mazzoli,Nysret Musliu,Pascal Van Hentenryck
Main category: math.OC
TL;DR: 本文研究了公交车司机调度问题(BDSP),提出了一种结合精确方法(Branch and Price)和大邻域搜索(LNS)的混合方法,通过存储和重用生成的列来提升解的质量,并在不同规模的实例上取得了最新成果。
- Motivation: 公交车司机调度问题受严格的法律和集体协议约束,目标是设计兼顾运营成本和司机满意度的班次。现有方法难以高效解决不同规模的实例。
- Method: 结合Branch and Price(B&P)和Large Neighborhood Search(LNS),提出一种深度集成方法,存储LNS子问题生成的列并重用。改进了B&P子问题(RCSPP)和LNS组件。
- Result: 方法在各类规模实例上表现优异:小实例获得精确解,中等实例接近已知下界,优于现有方法。
- Conclusion: B&P适合小实例,LNS与CG深度集成适合大实例,方法通用性强,可扩展至其他优化问题。
cs.CL
[305] Unlearning Sensitive Information in Multimodal LLMs: Benchmark and Attack-Defense Evaluation
Vaidehi Patil,Yi-Lin Sung,Peter Hase,Jie Peng,Tianlong Chen,Mohit Bansal
Main category: cs.CL
TL;DR: 论文提出多模态大语言模型(MLLMs)可能泄露敏感信息,并引入UnLOK-VQA基准和攻防框架来评估多模态知识遗忘方法。
- Motivation: 多模态大语言模型可能通过多模态提示泄露敏感信息,而现有遗忘研究主要针对文本,多模态遗忘研究不足。
- Method: 提出UnLOK-VQA基准和攻防框架,扩展视觉问答数据集,评估六种防御目标对七种攻击的效果。
- Result: 多模态攻击优于单模态攻击,最有效防御方法是从内部模型状态移除答案信息;更大模型展现更强鲁棒性。
- Conclusion: UnLOK-VQA为多模态遗忘研究提供了严格基准,模型规模有助于提升安全性。
[306] MoxE: Mixture of xLSTM Experts with Entropy-Aware Routing for Efficient Language Modeling
Abdoul Majid O. Thiombiano,Brahim Hnich,Ali Ben Mrad,Mohamed Wiem Mkaouer
Main category: cs.CL
TL;DR: MoxE结合xLSTM和MoE框架,提出了一种新型架构,通过熵感知路由机制和辅助损失函数,显著提升大型语言模型的可扩展性和效率。
- Motivation: 解决大型语言模型在可扩展性和效率方面的关键挑战,通过结合xLSTM的创新内存结构和MoE的稀疏性,减少计算开销。
- Method: 提出熵感知路由机制动态分配令牌给专家,并引入辅助损失函数(如熵平衡和分组平衡损失)以增强泛化能力。
- Result: 理论和实验证明MoxE在效率和效果上优于现有方法,显著提升了可扩展性。
- Conclusion: MoxE为可扩展的大型语言模型架构提供了重要进展,具有高效和平衡的资源利用特点。
[307] PIPA: A Unified Evaluation Protocol for Diagnosing Interactive Planning Agents
Takyoung Kim,Janvijay Singh,Shuhaib Mehri,Emre Can Acikgoz,Sagnik Mukherjee,Nimet Beyza Bozdag,Sumuk Shashidhar,Gokhan Tur,Dilek Hakkani-Tür
Main category: cs.CL
TL;DR: 论文提出PIPA评估协议,通过POMDP框架全面评估任务规划代理的行为过程,强调用户满意度不仅取决于任务完成度,还与中间行为相关。
- Motivation: 现有基准主要基于任务完成度评估代理性能,忽视了用户对整个代理过程的体验,导致与用户满意度不一致。
- Method: 提出PIPA协议,将交互式任务规划代理的行为过程建模为POMDP,并提供原子评估标准。
- Result: 分析表明代理在不同行为阶段表现各异,用户满意度受结果和中间行为共同影响。
- Conclusion: PIPA为代理性能提供了更全面的评估方法,并指出了多代理系统和用户模拟器的未来研究方向。
[308] Always Tell Me The Odds: Fine-grained Conditional Probability Estimation
Liaoyaqi Wang,Zhengping Jiang,Anqi Liu,Benjamin Van Durme
Main category: cs.CL
TL;DR: 提出了一种用于细粒度概率估计的先进模型,通过结合人类与合成数据、扩展更大模型和改进监督,显著优于现有方法。
- Motivation: 尽管大语言模型(LLMs)在明确任务上表现优异,但在不确定性或部分信息下的概率预测仍不准确且校准不足,需要改进。
- Method: 结合人类与合成数据、扩展更大模型和改进监督,提出一组强且精确的概率估计模型。
- Result: 在依赖条件概率估计的任务中,该方法显著优于现有微调和基于提示的方法。
- Conclusion: 通过系统优化,实现了更准确和校准的概率估计,为LLMs在不确定性任务中的应用提供了新方向。
[309] Efficient Shapley Value-based Non-Uniform Pruning of Large Language Models
Chuan Sun,Han Yu,Lizhen Cui
Main category: cs.CL
TL;DR: 提出了一种基于Shapley值的非均匀剪枝方法(SVNP),用于优化大语言模型的剪枝效果,显著提升性能。
- Motivation: 传统剪枝方法对所有层采用统一稀疏度,忽略了不同层的重要性差异,导致性能不佳。
- Method: 通过Shapley值量化每层对模型性能的贡献,分配定制化剪枝预算,并设计滑动窗口近似方法降低计算开销。
- Result: 在LLaMA和OPT等模型上验证,SVNP在70%稀疏度下比SparseGPT降低困惑度18.01%(LLaMA-7B)和19.55%(LLaMA-13B)。
- Conclusion: SVNP通过非均匀剪枝显著提升模型性能,计算高效且适用于多种大语言模型。
[310] A Multimodal Framework for Explainable Evaluation of Soft Skills in Educational Environments
Jared D. T. Guerrero-Sosa,Francisco P. Romero,Víctor Hugo Menéndez-Domínguez,Jesus Serrano-Guerrero,Andres Montoro-Montarroso,Jose A. Olivas
Main category: cs.CL
TL;DR: 提出了一种基于模糊逻辑和语言现象模型的多模态分析方法,用于评估本科生软技能,通过计算感知捕捉复杂行为的细微差别,提高评估的可靠性和可解释性。
- Motivation: 高等教育中软技能的公正评估是一个重要挑战,传统方法难以捕捉其复杂性和不确定性。
- Method: 采用模糊逻辑和语言现象模型,结合多模态分析(如面部表情和手势识别),开发工具评估决策、沟通和创造力等软技能。
- Result: 实验表明,该方法能有效整合多模态数据,生成一致且有意义的软技能评估,显著提升评分质量。
- Conclusion: 多模态整合提高了软技能评估的透明度和可理解性,为教育利益相关者提供了可靠工具。
[311] Distinguishing AI-Generated and Human-Written Text Through Psycholinguistic Analysis
Chidimma Opara
Main category: cs.CL
TL;DR: 该研究提出了一种结合风格计量分析和心理语言学理论的框架,用于区分AI生成与人类写作的文本,旨在保护学术诚信。
- Motivation: 随着AI生成文本的日益复杂,教育环境中亟需准确透明的检测工具以验证作者身份。
- Method: 研究整合了31种风格计量特征与心理语言学理论,映射到认知过程如词汇检索、话语规划等。
- Result: 框架揭示了人类写作的独特心理语言学模式,为开发可靠检测工具提供了基础。
- Conclusion: 通过计算语言学与认知科学的结合,该研究为生成AI时代的学术诚信保护提供了新思路。
[312] : System-2 Fine-tuning for Robust Integration of New Knowledge
Core Francisco Park,Zechen Zhang,Hidenori Tanaka
Main category: cs.CL
TL;DR: 论文提出了一种名为New News的数据集,用于评估模型对新信息的内部化能力,并展示了微调与上下文学习之间的差距。通过System-2 Fine-tuning(Sys2-FT)方法,特别是自问自答协议,显著提升了模型对新信息的权重学习能力。
- Motivation: 研究动机是解决大语言模型在微调过程中难以将新信息有效整合到权重中的问题,同时探索如何通过自生成数据协议提升模型的学习能力。
- Method: 方法包括构建New News数据集,提出Sys2-FT方法(包括自问自答、改写和推理协议),并系统评估其在Qwen 2.5模型家族中的表现。
- Result: 结果显示Sys2-FT显著改善了模型对新信息的权重学习,同时发现了上下文遮蔽效应,并初步揭示了Sys2-FT的规模扩展规律。
- Conclusion: 结论表明Sys2-FT是一种有效的方法,能够提升模型对新信息的内部化能力,并为未来的研究提供了新的方向。
[313] Intra-Layer Recurrence in Transformers for Language Modeling
Anthony Nguyen,Wenjun Lin
Main category: cs.CL
TL;DR: 论文提出了一种名为Intra-Layer Recurrence (ILR)的方法,通过选择性在单个前向传递中对特定层应用循环,优化了Transformer模型的参数增长问题。
- Motivation: Transformer模型在自然语言处理中表现优异,但深度增加导致参数数量大幅增长,现有方法对整个层块不加区分地应用循环,效率不高。
- Method: 提出Intra-Layer Recurrence (ILR),在单个前向传递中仅对特定层应用循环,实验表明对早期层分配更多迭代效果最佳。
- Result: 实验结果表明,ILR能有效优化Transformer架构中的循环结构。
- Conclusion: ILR为优化Transformer中的循环结构提供了有前景的方向。
[314] Humans can learn to detect AI-generated texts, or at least learn when they can't
Jiří Milička,Anna Marklová,Ondřej Drobil,Eva Pospíšilová
Main category: cs.CL
TL;DR: 研究发现,通过即时反馈训练,人们可以更准确地区分人类写作和AI生成文本,并校准自我感知能力。
- Motivation: 探讨人类是否能通过反馈学习区分AI生成文本,并研究其判断依据。
- Method: 使用GPT-4生成文本,与人类文本对比,让255名参与者判断,分为反馈组和无反馈组。
- Result: 反馈组在准确性和自信校准上显著提升,纠正了对AI文本特征的误解。
- Conclusion: 通过反馈训练可以有效提升区分能力,对教育领域有重要意义。
[315] Analyzing Cognitive Differences Among Large Language Models through the Lens of Social Worldview
Jiatao Li,Yanheng Li,Xiaojun Wan
Main category: cs.CL
TL;DR: 论文提出了一种基于文化理论的Social Worldview Taxonomy (SWT)框架,用于测量大语言模型(LLMs)中的社会认知态度,并发现社会线索能显著影响这些态度。
- Motivation: 现有研究主要关注人口统计和伦理偏见,而对社会认知态度(如权威、平等、自主等)的研究不足。
- Method: 引入SWT框架,将四种典型世界观(等级制、平等主义、个人主义、宿命论)转化为可测量的子维度,并对28种LLMs进行实证分析。
- Result: 发现LLMs具有可解释的认知特征,且社会线索能系统性影响这些态度,揭示了普遍模式和模型特异性差异。
- Conclusion: 研究增强了LLMs的可解释性,揭示了其隐含的社会认知偏见及对社会反馈的响应,为开发更透明、负责任的AI技术提供了指导。
[316] What do Language Model Probabilities Represent? From Distribution Estimation to Response Prediction
Eitan Wagner,Omri Abend
Main category: cs.CL
TL;DR: 本文分析了语言模型从有限长度字符串分布到通用预测模型的转变,探讨了分布估计与响应预测的区别及其冲突目标,并提出了三种不同的预期输出分布。
- Motivation: 研究语言模型在预训练、上下文学习和偏好调整等阶段的不同目标,以及这些目标如何导致对模型输出概率的误解。
- Method: 通过分析LLMs的训练阶段(预训练、上下文学习、偏好调整)和输出概率的常见用途(补全概率、显式概率),提出三种不同的预期输出分布。
- Result: 研究发现,NLP工作常假设这些分布相似,导致实验结果的误解。
- Conclusion: 为LLMs的解释奠定了更坚实的理论基础,有助于未来对模型诱导分布的解释和使用。
[317] LecEval: An Automated Metric for Multimodal Knowledge Acquisition in Multimedia Learning
Joy Lim Jia Yin,Daniel Zhang-Li,Jifan Yu,Haoxuan Li,Shangqing Tu,Yuanchun Wang,Zhiyuan Liu,Huiqin Liu,Lei Hou,Juanzi Li,Bin Xu
Main category: cs.CL
TL;DR: LecEval是一种基于Mayer认知理论的自动评估工具,用于评估幻灯片教学的多媒体学习效果,优于现有方法。
- Motivation: 现有评估方法(如人工评估、基于参考的指标和大型语言模型)在可扩展性、上下文捕捉或偏见方面存在局限性。
- Method: 提出LecEval,基于四个标准(内容相关性、表达清晰度、逻辑结构和受众参与度)评估幻灯片教学效果,并构建大规模数据集。
- Result: 模型在数据集上表现出更高的准确性和适应性,优于现有指标。
- Conclusion: LecEval填补了自动评估与人工评估之间的差距,数据集和工具已开源。
[318] Think on your Feet: Adaptive Thinking via Reinforcement Learning for Social Agents
Minzheng Wang,Yongbin Li,Haobo Wang,Xinghua Zhang,Nan Xu,Bingli Wu,Fei Huang,Haiyang Yu,Wenji Mao
Main category: cs.CL
TL;DR: AML(自适应模式学习)通过动态调整推理深度,提升社交智能模拟效果,比现有方法性能提升15.6%。
- Motivation: 当前方法缺乏动态调整推理深度的能力,导致资源浪费和社交模拟不准确。
- Method: 提出AML框架,采用AMPO算法实现多粒度思维模式设计、上下文感知模式切换和深度自适应处理。
- Result: 在社交智能任务中,AML性能优于现有方法15.6%,推理链缩短32.8%。
- Conclusion: AML通过上下文敏感的思维模式选择,实现了更接近人类的适应性推理。
[319] A New HOPE: Domain-agnostic Automatic Evaluation of Text Chunking
Henrik Brådland,Morten Goodwin,Per-Arne Andersen,Alexander S. Nossum,Aditya Gupta
Main category: cs.CL
TL;DR: 本文提出了一种名为HOPE的新方法,用于评估文档分块对RAG系统性能的影响,并揭示了分块特性(如语义独立性)对系统性能的重要性。
- Motivation: 现有研究缺乏分析不同分块方法对RAG系统影响的框架,而LLMs对检索数据的布局和结构敏感。
- Method: 提出了HOPE评估指标,从内在、外在和连贯性三个层面量化分块特性。
- Result: HOPE与RAG性能指标显著相关,语义独立性对性能提升至关重要,而传统概念连贯性假设影响较小。
- Conclusion: 优化分块策略可显著提升RAG系统的性能,尤其是事实准确性。
[320] Generative Sign-description Prompts with Multi-positive Contrastive Learning for Sign Language Recognition
Siyu Liang,Yunan Li,Wentian Xin,Huizhou Chen,Xujie Liu,Kang Liu,Qiguang Miao
Main category: cs.CL
TL;DR: 提出了一种结合生成式大语言模型(LLM)的手语识别方法GSP-MC,通过多步提示工程和专家验证语料库生成精确描述,并采用双编码器架构实现文本与骨架特征的对齐,在中文和土耳其数据集上达到SOTA性能。
- Motivation: 解决手语识别中因手和非手信号复杂性导致的标注困难问题,首次将生成式LLM引入SLR任务。
- Method: 提出GSP-MC方法,结合检索增强生成(RAG)和多步提示工程,利用双编码器架构对齐文本描述与骨架特征,并通过KL散度优化全局和局部损失。
- Result: 在中文SLR500和土耳其AUTSL数据集上分别达到97.1%和97.07%的准确率,表现优于现有方法。
- Conclusion: GSP-MC方法展示了跨语言有效性,为开发包容性通信技术提供了潜力。
[321] SEval-Ex: A Statement-Level Framework for Explainable Summarization Evaluation
Tanguy Herserant,Vincent Guigue
Main category: cs.CL
TL;DR: SEval-Ex是一个新的文本摘要评估框架,通过分解为原子语句实现高性能和可解释性,优于GPT-4评估器。
- Motivation: 解决现有摘要评估方法在性能和可解释性之间的权衡问题。
- Method: 采用两阶段流程:1) 使用LLM从文本和摘要中提取原子语句;2) 进行语句级匹配,生成详细证据。
- Result: 在SummEval基准测试中,SEval-Ex以0.580的相关性超越GPT-4(0.521),并保持可解释性。
- Conclusion: SEval-Ex在性能和可解释性上均表现优异,且对幻觉问题具有鲁棒性。
[322] Parameter-Efficient Transformer Embeddings
Henry Ndubuaku,Mouad Talhi
Main category: cs.CL
TL;DR: 提出一种基于傅里叶展开和轻量级MLP的替代嵌入方法,减少参数数量并提升效率。
- Motivation: 传统嵌入层参数多但性能提升不明显,需更高效的方法。
- Method: 使用傅里叶展开生成嵌入向量,再通过轻量级MLP捕获高阶交互。
- Result: 在SNLI和MNLI任务中表现竞争性,参数少、训练快且无需dropout。
- Conclusion: 该方法为高效语言模型提供了潜力,值得进一步大规模实验。
[323] JTCSE: Joint Tensor-Modulus Constraints and Cross-Attention for Unsupervised Contrastive Learning of Sentence Embeddings
Tianyu Zong,Hongzhu Yi,Bingkang Shi,Yuanxiang Wang,Jungang Xu
Main category: cs.CL
TL;DR: 论文提出了一种新的无监督对比学习框架JTCSE,通过约束语义表示张量的模特征和引入交叉注意力结构,提升了句子嵌入表示的质量。
- Motivation: 现有对比学习方法仅关注语义表示的方向特征,忽略了模特征,导致对比学习不充分;同时,BERT-like模型存在注意力下沉问题,影响CLS令牌的语义聚合。
- Method: 提出模约束训练目标以增强正样本对齐;设计双塔集成模型的交叉注意力结构以优化CLS Pooling。
- Result: 在七项语义文本相似性任务中,JTCSE的双塔集成模型和单塔蒸馏模型均优于基线,达到SOTA;在130多项零样本下游任务中也表现优异。
- Conclusion: JTCSE通过联合模约束和交叉注意力机制,显著提升了无监督对比学习的效果,成为当前最佳方法。
[324] RM-R1: Reward Modeling as Reasoning
Xiusi Chen,Gaotang Li,Ziqi Wang,Bowen Jin,Cheng Qian,Yu Wang,Hongru Wang,Yu Zhang,Denghui Zhang,Tong Zhang,Hanghang Tong,Heng Ji
Main category: cs.CL
TL;DR: 论文提出了一种新的生成式奖励模型——推理奖励模型(ReasRMs),通过将奖励建模视为推理任务,显著提升了奖励模型的解释性和性能。
- Motivation: 现有的奖励模型要么生成不透明的标量分数,要么直接预测偏好答案,缺乏解释性且难以整合自然语言批评。
- Method: 提出推理导向的训练流程,包括高质量推理链的蒸馏和可验证奖励的强化学习两个阶段。
- Result: ReasRMs在多个基准测试中表现优异,性能超越大型开源和专有模型(如Llama3.1-405B和GPT-4o)高达13.8%。
- Conclusion: 推理能力的整合显著提升了奖励模型的解释性和性能,为未来研究提供了开源模型、代码和数据。
[325] Bielik 11B v2 Technical Report
Krzysztof Ociepa,Łukasz Flis,Krzysztof Wróbel,Adrian Gwoździej,Remigiusz Kinas
Main category: cs.CL
TL;DR: Bielik 11B v2 是一个针对波兰语优化的先进语言模型,基于 Mistral 7B v0.2 架构,通过深度扩展达到 11B 参数,在波兰语任务中表现卓越,同时具备跨语言能力。
- Motivation: 提升波兰语文本处理的性能,同时保持跨语言能力,为资源较少的语言建立高效语言建模的基准。
- Method: 采用深度扩展技术,引入加权指令交叉熵损失和自适应学习率两项创新技术。
- Result: 在多项基准测试中超越更大参数模型,显著优于其他波兰语专用模型,支持多种硬件部署。
- Conclusion: Bielik 11B v2 提升了波兰语 AI 能力,为资源高效的语言建模设定了新标准。
[326] EMORL: Ensemble Multi-Objective Reinforcement Learning for Efficient and Flexible LLM Fine-Tuning
Lingxiao Kong,Cong Yang,Susanne Neufang,Oya Deniz Beyan,Zeyd Boukhers
Main category: cs.CL
TL;DR: 论文提出了一种基于集成学习的多目标强化学习框架(EMORL),通过优化多个模型的聚合来提升训练效率和灵活性,并在实验中验证了其优势。
- Motivation: 解决多目标任务中目标平衡复杂、训练效率低、可扩展性差和可解释性有限的问题。
- Method: 引入EMORL框架,通过集成多个单目标模型并优化其聚合,结合分层网格搜索算法确定最优权重组合。
- Result: 在PAIR和Psych8k数据集上,EMORL表现出更低的训练消耗(17,529±1,650数据点和6,573±147.43秒)、更高的可扩展性和可解释性,且多目标性能与基线相当。
- Conclusion: EMORL框架在多目标任务中具有显著优势,为强化学习在大语言模型微调中的应用提供了新思路。
[327] LLaMA-Omni2: LLM-based Real-time Spoken Chatbot with Autoregressive Streaming Speech Synthesis
Qingkai Fang,Yan Zhou,Shoutao Guo,Shaolei Zhang,Yang Feng
Main category: cs.CL
TL;DR: LLaMA-Omni 2是一系列基于Qwen2.5模型的语音语言模型,参数规模从0.5B到14B,能够实现高质量的实时语音交互,性能超越此前基于大量语音数据训练的模型。
- Motivation: 下一代人机交互需要实时、智能且自然的语音交互,而现有语音聊天机器人基于大语言模型(LLMs)的潜力尚未完全发挥。
- Method: LLaMA-Omni 2结合了语音编码器和自回归流式语音解码器,仅需20万轮多轮语音对话样本训练。
- Result: 在多个语音问答和语音指令跟随基准测试中表现优异,超越此前基于数百万小时语音数据训练的GLM-4-Voice等模型。
- Conclusion: LLaMA-Omni 2展示了小规模数据训练下仍能实现高性能语音交互的潜力。
[328] Bye-bye, Bluebook? Automating Legal Procedure with Large Language Models
Matthew Dahl
Main category: cs.CL
TL;DR: 大型语言模型(LLMs)在遵循《蓝皮书》复杂引用规则时的表现有限,完全合规率仅为69%-74%,上下文学习仅提升至77%。
- Motivation: 评估LLMs是否能遵守《蓝皮书》这一复杂法律引用系统的规则,以探讨其在法律程序自动化中的适用性。
- Method: 构建包含866项《蓝皮书》任务的原创数据集,测试OpenAI、Anthropic、Google、Meta和DeepSeek的旗舰LLMs。
- Result: LLMs生成完全合规引用的成功率仅为69%-74%,上下文学习后提升至77%。
- Conclusion: 现成的LLMs在法律程序自动化中需谨慎使用,因其对规则的高保真度要求难以完全满足。
cs.IR
[329] A Multi-Granularity Multimodal Retrieval Framework for Multimodal Document Tasks
Mingjun Xu,Zehui Wang,Hengxing Cai,Renxin Zhong
Main category: cs.IR
TL;DR: 提出了一种统一的多粒度多模态检索框架,用于处理视觉丰富的文档,结合了分层编码、模态感知检索和重排序模块,显著提升了检索性能。
- Motivation: 现有的检索增强生成系统主要基于文本检索,难以有效处理包含文本、图像、表格和图表的多模态文档。
- Method: 采用分层编码策略、模态感知检索机制和重排序模块,利用现成的视觉语言模型和无训练混合检索策略。
- Result: 实验表明,布局感知搜索和重排序模块显著提升了检索准确性,最高性能得分为65.56。
- Conclusion: 该框架展示了可扩展和可复用的解决方案在多模态文档检索系统中的潜力。
[330] RAGAR: Retrieval Augment Personalized Image Generation Guided by Recommendation
Run Ling,Wenji Wang,Yuting Liu,Guibing Guo,Linying Jiang,Xingwei Wang
Main category: cs.IR
TL;DR: 论文提出RAGAR方法,通过检索机制和历史项加权改进个性化图像生成,解决了现有方法忽视语义相似性和过度依赖一致性的问题。
- Motivation: 提升个性化图像生成的用户体验,解决现有方法忽视历史项语义相似性和过度依赖一致性的缺陷。
- Method: 使用检索机制为历史项分配权重,引入多模态排序模型优化个性化生成。
- Result: 在三个真实数据集上,RAGAR在个性化和语义指标上显著优于五种基线方法。
- Conclusion: RAGAR通过改进用户偏好提取和生成优化,显著提升了个性化图像生成的效果。
[331] Tricolore: Multi-Behavior User Profiling for Enhanced Candidate Generation in Recommender Systems
Xiao Zhou,Zhongxiang Zhao,Hanze Guo
Main category: cs.IR
TL;DR: Tricolore是一个多向量学习框架,通过动态融合多行为数据提升推荐系统的多样性和性能。
- Motivation: 传统推荐系统通常针对单一行为优化,无法捕捉用户多行为兴趣,导致推荐范围狭窄。
- Method: 提出Tricolore框架,结合多任务学习和行为动态融合模块,平衡准确性与多样性。
- Result: 在公开数据集上验证了Tricolore的有效性,尤其在冷启动用户表现显著提升。
- Conclusion: Tricolore通过多行为建模和动态优化,显著提升了推荐系统的性能和多样性。
[332] Interpreting Multilingual and Document-Length Sensitive Relevance Computations in Neural Retrieval Models through Axiomatic Causal Interventions
Oliver Savolainen,Dur e Najaf Amjad,Roxana Petcu
Main category: cs.IR
TL;DR: 该研究复现并扩展了原论文,验证了神经检索模型中查询词信息的编码方式,并通过激活修补方法在多语言数据集中探索了文档长度信息的编码。
- Motivation: 研究旨在验证神经检索模型如何编码任务相关属性(如词频),并探索其跨语言和文档长度信息的编码能力。
- Method: 复现原论文关键实验,应用激活修补方法于西班牙语和中文数据集,分析文档长度信息的编码。
- Result: 激活修补方法能定位模型特定组件和词符的行为,词频信息跨语言通用,序列级任务信息在CLS词符中体现。
- Conclusion: 研究强调了信息检索可解释性和机器学习研究可复现性的重要性。
[333] Social Biases in Knowledge Representations of Wikidata separates Global North from Global South
Paramita Das,Sai Keerthana Karnam,Aditya Soni,Animesh Mukherjee
Main category: cs.IR
TL;DR: 论文提出AuditLP框架,用于检测知识图谱链接预测中的社会偏见,重点关注性别和年龄对职业分类的影响。
- Motivation: 知识图谱广泛应用于下游任务,但其自动构建过程中可能引入社会偏见,导致对少数群体的不公平。
- Method: 开发AuditLP框架,使用公平性指标分析链接预测中的偏见,实验基于Wikidata的21个地理区域数据。
- Result: 研究发现职业分类的性别和年龄偏见与社会经济文化差异相关,揭示了全球南北差异。
- Conclusion: AuditLP框架有效揭示了知识图谱中的社会偏见,为公平性研究提供了工具。
cs.SE
[334] BiGSCoder: State Space Model for Code Understanding
Shweta Verma,Abhinav Anand,Mira Mezini
Main category: cs.SE
TL;DR: BiGSCoder是一种新型双向状态空间模型(SSM),在代码理解任务中表现优于传统Transformer模型,且训练数据需求更低。
- Motivation: 系统评估SSM在代码任务中的能力,并与传统Transformer架构进行比较。
- Method: 使用门控架构的编码器双向SSM,通过掩码语言建模预训练。
- Result: BiGSCoder在多种预训练配置和基准测试中优于Transformer模型,且无需位置嵌入即可表现更好。
- Conclusion: BiGSCoder可作为Transformer的高效替代方案,尤其在长序列任务中表现优异。
[335] On the Need for a Statistical Foundation in Scenario-Based Testing of Autonomous Vehicles
Xingyu Zhao,Robab Aghazadeh-Chakherlou,Chih-Hong Cheng,Peter Popov,Lorenzo Strigini
Main category: cs.SE
TL;DR: 论文探讨了自动驾驶车辆(AVs)场景测试的统计基础,提出量化场景失败概率(pfs)的模型,并引入风险估计保真度(REF)以确保仿真测试的统计可靠性。
- Motivation: 解决场景测试中停止规则、残余风险估计、调试有效性及仿真保真度对安全声明影响等核心问题,为AVs安全提供严谨统计基础。
- Method: 通过与传统软件测试方法对比,识别研究空白并复用解决方案;提出pfs量化模型和REF指标。
- Result: 场景测试与里程测试无绝对优劣;REF能确保仿真测试结果的统计可信度。
- Conclusion: 需建立严谨统计基础以支持AVs场景测试的安全声明,REF为关键指标。
Powered by Deepseek & arXiv Daily AI Enhanced