以下论文的arXiv类型标签包含:cs.CV、cs.AI
cs.CV
[1] Spectral Dictionary Learning for Generative Image Modeling
Andrew Kiruluta
Main category: cs.CV
TL;DR: 提出了一种基于光谱生成模型的新型图像合成方法,通过线性组合学习的光谱基函数重构图像,具有高解释性和物理意义。
- Motivation: 传统生成模型(如变分、对抗和扩散模型)依赖随机推理或对抗训练,缺乏解释性。本文旨在提供一种确定性、可解释的图像生成方法。
- Method: 将图像展平为一维信号,通过学习的光谱基函数(参数化为频率、相位和振幅)重构图像,并拟合混合系数的概率模型。使用短时傅里叶变换(STFT)计算频域损失。
- Result: 在CIFAR-10基准测试中,模型在重建质量、感知保真度、训练稳定性和计算效率上表现优异。
- Conclusion: 该方法为可控合成提供了新途径,光谱字典的直接操作增强了图像频率内容的解释性,适用于图像处理和分析的新应用。
[2] SmallGS: Gaussian Splatting-based Camera Pose Estimation for Small-Baseline Videos
Yuxin Yao,Yan Zhang,Zhening Huang,Joan Lasenby
Main category: cs.CV
TL;DR: SmallGS是一个针对小基线视频设计的相机姿态估计框架,利用高斯泼溅优化相机姿态,结合预训练视觉特征提升鲁棒性,在动态场景中表现优于现有方法。
- Motivation: 小基线视频在社交媒体中常见,但现有姿态估计框架因特征模糊、漂移累积和三角约束不足而难以处理。
- Method: 使用高斯泼溅重建场景作为参考,结合DINOv2等预训练特征增强鲁棒性,通过冻结高斯泼溅优化相机视角。
- Result: 在TUM-Dynamics序列中,SmallGS在小基线视频的相机姿态估计上表现优于MonST3R和DORID-SLAM。
- Conclusion: SmallGS通过高斯泼溅和预训练特征,有效解决了小基线视频的相机姿态估计问题。
[3] Object Learning and Robust 3D Reconstruction
Sara Sabour
Main category: cs.CV
TL;DR: 该论文探讨了无监督神经网络的架构设计和训练方法,用于图像中目标分割,并扩展到3D场景中的目标检测与移除。
- Motivation: 研究无监督目标分割方法,解决2D和3D场景中前景与背景的区分问题,推动计算机视觉中无监督目标表示的应用。
- Method: 使用FlowCapsules以运动为线索分割2D目标;在3D中利用几何一致性检测动态目标,并通过优化核改进建模。
- Result: 实现了无监督2D目标分割和3D动态目标检测与移除,展示了无监督方法的潜力。
- Conclusion: 无监督目标表示在计算机视觉中具有潜力,未来可探索更多无监督定义目标的方法。
[4] CLOC: Contrastive Learning for Ordinal Classification with Multi-Margin N-pair Loss
Dileepa Pitawela,Gustavo Carneiro,Hsiang-Ting Chen
Main category: cs.CV
TL;DR: CLOC是一种新的基于边界的对比学习方法,用于有序分类,通过优化多个边界来学习有序表示,解决了现有方法未考虑不同边界重要性的问题。
- Motivation: 在有序分类中,相邻类别的错误分类后果不同,但现有方法未考虑这一点,因此需要一种能灵活处理关键边界的方法。
- Method: 提出CLOC方法,使用多边界n对损失(MMNP)学习有序表示,优化多个边界以实现灵活决策。
- Result: 在五个真实图像数据集和一个合成数据集上,CLOC优于现有方法,并展示了其可解释性和可控性。
- Conclusion: CLOC通过优化关键边界,学习到符合临床需求的有序表示,提升了分类性能。
[5] Visibility-Uncertainty-guided 3D Gaussian Inpainting via Scene Conceptional Learning
Mingxuan Cui,Qing Guo,Yuyi Wang,Hongkai Yu,Di Lin,Qin Zou,Ming-Ming Cheng,Xi Li
Main category: cs.CV
TL;DR: 本文提出了一种基于3D高斯泼溅(3DGS)的3D修复方法(3DGI),通过多视角的可见性不确定性引导和场景概念学习,实现了高质量的无缝修复。
- Motivation: 3D修复在利用多视角互补视觉和语义线索时面临挑战,尤其是在遮挡区域的处理上。本文旨在解决这一问题。
- Method: 提出VISTA框架,结合可见性不确定性引导的3D修复和场景概念学习,利用扩散模型填充遮挡区域。
- Result: VISTA能够生成高质量、无伪影的修复结果,并支持动态干扰物的处理。在SPIn-NeRF和UTB180数据集上表现优异。
- Conclusion: VISTA为3D修复提供了一种高效且通用的解决方案,适用于静态和动态场景。
[6] Subject-driven Video Generation via Disentangled Identity and Motion
Daneul Kim,Jingxu Zhang,Wonjoon Jin,Sunghyun Cho,Qi Dai,Jaesik Park,Chong Luo
Main category: cs.CV
TL;DR: 提出了一种零样本、无需调优的主题驱动视频生成模型,通过分离主题学习和时间动态,利用图像定制数据集和小规模未标注视频进行训练。
- Motivation: 传统视频定制方法依赖大规模标注视频数据集,计算成本高且需大量标注。本文旨在通过图像数据集直接训练视频模型,降低成本并提高效率。
- Method: 1. 通过图像定制数据集注入主题特征;2. 利用少量未标注视频进行图像到视频训练,保留时间动态;3. 引入随机图像标记丢弃和随机初始化以解决复制粘贴问题;4. 使用随机切换优化主题和时间特征的联合学习。
- Result: 模型在零样本设置下表现出色,主题一致性和可扩展性优于现有方法。
- Conclusion: 该方法有效解决了视频定制中的计算和标注问题,展示了框架的优越性。
[7] Learning Underwater Active Perception in Simulation
Alexandre Cardaillac,Donald G. Dansereau
Main category: cs.CV
TL;DR: 提出了一种基于多层感知机(MLP)的主动感知框架,用于在水下不同条件下获取高质量图像。
- Motivation: 水下环境中的浑浊度和背散射会影响机器人操作的可见性,传统方法存在机动性和设置限制。
- Method: 使用MLP预测图像质量,生成包含不同浑浊度和背散射的合成数据集,并在Blender中改进水下光传播模型。
- Result: 在仿真中验证了该方法,相比传统方法显著提高了视觉覆盖范围和图像质量。
- Conclusion: 该方法简单高效,适用于多种水下条件,代码已开源。
[8] VideoVista-CulturalLingo: 360 Horizons-Bridging Cultures, Languages, and Domains in Video Comprehension
Xinyu Chen,Yunxin Li,Haoyuan Shi,Baotian Hu,Wenhan Luo,Yaowei Wang,Min Zhang
Main category: cs.CV
TL;DR: VideoVista-CulturalLingo是首个跨文化、语言和领域的视频理解评测基准,包含1,389个视频和3,134个QA对,评估了24个主流视频大模型。结果显示现有模型在中文问题、时间理解和数学领域表现较弱。
- Motivation: 现有视频评测基准多局限于单一语言(英语)和西方文化背景,缺乏多样性和跨文化评估能力。
- Method: 构建了包含中、美、欧文化的多语言(中英)视频评测基准,涵盖广泛领域,并评估了24个视频大模型。
- Result: 模型在中文问题(尤其是中国历史)表现较差;开源模型在时间理解任务中最高得分仅45.2%;主流模型在科学问题表现强,开源模型在数学领域弱。
- Conclusion: VideoVista-CulturalLingo填补了跨文化视频评测空白,揭示了现有模型的局限性,为未来研究提供了方向。
[9] A multi-scale vision transformer-based multimodal GeoAI model for mapping Arctic permafrost thaw
Wenwen Li,Chia-Yu Hsu,Sizhe Wang,Zhining Gu,Yili Yang,Brendan M. Rogers,Anna Liljedahl
Main category: cs.CV
TL;DR: 本文提出了一种基于深度学习的多模态融合方法,用于精确检测北极地区的Retrogressive Thaw Slumps (RTS),解决了其小尺度、模糊边界和时空变化的挑战。
- Motivation: RTS是北极地区重要的冻土退化标志,但其小尺度和复杂特征使得准确检测困难。
- Method: 采用Cascade Mask R-CNN结合多尺度视觉Transformer,并引入两种新策略:特征级残差跨模态注意力融合和预训练单模态学习后多模态微调。
- Result: 实验表明,该方法在RTS检测上优于现有模型,为多模态数据的高效利用提供了新思路。
- Conclusion: 研究不仅提升了RTS检测的准确性,还深化了对冻土地貌及其环境影响的理解。
[10] Dual Prompting Image Restoration with Diffusion Transformers
Dehong Kong,Fan Li,Zhixin Wang,Jiaqi Xu,Renjing Pei,Wenbo Li,WenQi Ren
Main category: cs.CV
TL;DR: DPIR是一种新型图像修复方法,通过双提示控制分支和多视角条件信息提取,显著提升了修复质量。
- Motivation: 现有方法(如基于U-Net的潜在扩散模型)在图像修复中表现有限,而扩散变换器(DiT)因其更好的质量和可扩展性成为有潜力的替代方案。
- Method: DPIR包含两个分支:低质量图像条件分支和双提示控制分支。前者高效整合图像先验,后者通过全局-局部视觉提示增强修复效果。
- Result: 实验表明,DPIR在图像修复中表现出色。
- Conclusion: DPIR通过双提示和多视角条件提取,显著提升了图像修复质量。
[11] FashionM3: Multimodal, Multitask, and Multiround Fashion Assistant based on Unified Vision-Language Model
Kaicheng Pang,Xingxing Zou,Waikeung Wong
Main category: cs.CV
TL;DR: FashionM3是一个基于视觉语言模型(VLM)的多模态、多任务、多轮时尚助手,通过个性化推荐、替代建议、产品图像生成和虚拟试穿等功能提升用户体验。
- Motivation: 现代零售中时尚搭配和个性化推荐具有重要经济价值,视觉语言模型的出现为零售业提供了新的机会。
- Method: 基于VLM微调,构建多任务、多轮时尚助手FashionM3,并在FashionRec数据集(331,124个多模态对话样本)上进行训练。
- Result: 定量和定性评估及用户研究表明,FashionM3在推荐效果和实用价值上表现优异。
- Conclusion: FashionM3通过多轮交互提供个性化建议,展示了其在时尚推荐领域的潜力。
[12] VEU-Bench: Towards Comprehensive Understanding of Video Editing
Bozheng Li,Yongliang Wu,Yi Lu,Jiashuo Yu,Licheng Tang,Jiawang Cao,Wenqing Zhu,Yuyang Sun,Jay Wu,Wenbo Zhu
Main category: cs.CV
TL;DR: 论文提出了VEU-Bench,一个专注于视频编辑理解的基准测试,包含19个细粒度任务,并开发了Oscars模型,显著提升了性能。
- Motivation: 现有视频大语言模型(Vid-LLMs)在视频编辑理解(VEU)任务上的能力尚未被探索,因此需要填补这一空白。
- Method: 构建VEU-Bench基准测试,涵盖19个任务,并开发自动标注管道和Oscars模型。
- Result: 当前Vid-LLMs在VEU任务上表现不佳,Oscars模型在准确率上提升28.3%,并接近GPT-4o性能。
- Conclusion: VEU数据显著提升Vid-LLMs在通用视频理解任务上的表现,平均提升8.3%。
[13] Fine-Tuning Adversarially-Robust Transformers for Single-Image Dehazing
Vlad Vasilescu,Ana Neacsu,Daniela Faur
Main category: cs.CV
TL;DR: 论文研究了单图像去雾模型的对抗噪声脆弱性,并提出两种轻量级微调策略以提高其鲁棒性。
- Motivation: 单图像去雾在遥感应用中很重要,但现有模型的可靠性未充分分析,易受对抗噪声影响。
- Method: 提出两种轻量级微调策略,增强预训练Transformer的鲁棒性。
- Result: 方法在保持干净数据性能的同时,显著提升对抗数据的防护能力,并在遥感场景中验证了有效性。
- Conclusion: 研究揭示了去雾模型的脆弱性,并提出实用解决方案,适用于分布外数据。
[14] Token Sequence Compression for Efficient Multimodal Computing
Yasmine Omri,Parth Shroff,Thierry Tambe
Main category: cs.CV
TL;DR: 论文提出了一种自适应压缩方法,用于优化视觉语言模型中的冗余和低效问题,通过聚类级标记聚合显著提升了性能。
- Motivation: 当前视觉编码器存在冗余和低效问题,限制了多模态系统的可扩展性和可持续性。
- Method: 通过基准测试和定性分析,研究了多种视觉标记选择和合并方法,重点提出聚类级标记聚合。
- Result: 聚类级标记聚合在标记选择和合并方面优于现有方法,揭示了视觉标记选择中的冗余和趋势。
- Conclusion: 该研究为高效编码和处理高维数据提供了新思路,推动了多模态系统的可扩展性和可持续性发展。
[15] DCT-Shield: A Robust Frequency Domain Defense against Malicious Image Editing
Aniruddha Bala,Rohit Chowdhury,Rohan Jaiswal,Siddharth Roheda
Main category: cs.CV
TL;DR: 提出了一种在频域(DCT系数)添加对抗性扰动的方法,以保护图像免受基于扩散模型的恶意编辑,同时减少视觉伪影并增强对JPEG压缩的鲁棒性。
- Motivation: 扩散模型的进步使得通过文本提示轻松编辑图像成为可能,但也带来了图像安全问题。现有防御方法在像素空间添加的噪声容易被察觉且对JPEG压缩不鲁棒。
- Method: 通过在频域(DCT系数)优化添加对抗性扰动,利用JPEG流程生成对抗性图像,有效防止恶意编辑。
- Result: 实验表明,该方法在多种任务和数据集上减少了视觉伪影,同时保持了编辑保护效果和对噪声净化技术的鲁棒性。
- Conclusion: 提出的频域优化方法在保护图像安全方面更有效且视觉上更隐蔽。
[16] CAMU: Context Augmentation for Meme Understanding
Girish A. Koushik,Diptesh Kanojia,Helen Treharne,Aditya Joshi
Main category: cs.CV
TL;DR: CAMU框架通过结合视觉-语言模型和改进的CLIP文本编码器,显著提升了社交媒体模因中仇恨内容的检测性能,同时在效率和泛化性上优于现有方法。
- Motivation: 社交媒体模因因其视觉与文本结合的复杂性,成为仇恨内容检测的挑战。CAMU旨在通过多模态理解和高效微调解决这一问题。
- Method: CAMU利用视觉-语言模型生成描述性标题,通过标题评分网络突出仇恨相关内容,并高效微调CLIP文本编码器以提升多模态理解。
- Result: CAMU在Hateful Memes数据集上达到0.807准确率和0.806 F1分数,在MultiOFF数据集上F1分数为0.673,表现优于现有方法且更高效。
- Conclusion: CAMU展示了在仇恨和冒犯内容检测中的高效性和泛化能力,强调视觉基础和文本表示的重要性。
[17] Masked strategies for images with small objects
H. Martin Gillis,Ming Hill,Paul Hollensen,Alan Fine,Thomas Trappenberg
Main category: cs.CV
TL;DR: 论文研究了在血液成分分析中,使用掩码自编码器(MAE)和ViT编码器表示的方法,通过调整掩码比例和补丁尺寸优化图像重建,并应用于U-Net Transformer进行语义分割。
- Motivation: 血液成分检测和分类中,小像素尺寸对象在相似背景中的识别具有挑战性。现有深度学习方法在域外图像上表现不佳,需探索自监督模型以改善性能。
- Method: 采用MAE学习ViT编码器表示,调整掩码比例和补丁尺寸优化重建效果,并将编码器权重用于训练U-Net Transformer进行语义分割。
- Result: 实验表明,较小的掩码比例和补丁尺寸能改善MAE的图像重建效果,预训练权重对小尺寸血液成分的分割有益。
- Conclusion: 提出的方法为小对象的分割和分类提供了高效策略,尤其适用于小尺寸血液成分的分析。
[18] From Mapping to Composing: A Two-Stage Framework for Zero-shot Composed Image Retrieval
Yabing Wang,Zhuotao Tian,Qingpei Guo,Zheng Qin,Sanping Zhou,Ming Yang,Le Wang
Main category: cs.CV
TL;DR: 论文提出了一种两阶段框架,解决零样本组合图像检索中的伪词表示不足、训练与推理不一致及依赖大规模合成数据的问题。
- Motivation: 组合图像检索(CIR)因标注成本高,零样本方法成为替代方案,但现有投影方法存在伪词表示不足、训练与推理不一致及依赖合成数据的问题。
- Method: 提出两阶段框架:第一阶段通过视觉语义注入模块和软文本对齐目标增强图像到伪词的映射;第二阶段优化文本编码器,利用少量合成数据提取组合语义。
- Result: 在三个公共数据集上取得优于现有方法的性能,且对合成数据质量要求低。
- Conclusion: 两阶段框架有效解决了零样本CIR的关键挑战,显著提升了性能。
[19] RSRNav: Reasoning Spatial Relationship for Image-Goal Navigation
Zheng Qin,Le Wang,Yabing Wang,Sanping Zhou,Gang Hua,Wei Tang
Main category: cs.CV
TL;DR: RSRNav通过建模目标与当前观测的空间关系,提升图像目标导航性能,解决了语义特征方向信息不足和视角不一致的问题。
- Motivation: 现有方法中,语义特征缺乏准确方向信息且对视角变化敏感,导致导航效率低。
- Method: RSRNav通过构建目标与当前观测的空间相关性,并利用细粒度互相关和方向感知相关性逐步优化导航策略。
- Result: 在三个基准数据集上,RSRNav表现优异,尤其在用户匹配目标场景中。
- Conclusion: RSRNav通过空间关系建模显著提升了导航性能,具有实际应用潜力。
[20] Back to Fundamentals: Low-Level Visual Features Guided Progressive Token Pruning
Yuanbing Ouyang,Yizhuo Liang,Qingpeng Li,Xinfei Guo,Yiming Luo,Di Wu,Hao Wang,Yushan Pan
Main category: cs.CV
TL;DR: LVTP是一种基于多尺度Tsallis熵和低层视觉特征的渐进式token剪枝框架,显著降低计算成本且性能损失可忽略。
- Motivation: Vision Transformers在语义分割中表现优异,但计算量大,难以在资源受限设备上部署。现有token剪枝方法常忽略视觉数据的基本特征。
- Method: 提出LVTP框架,结合多尺度Tsallis熵和低层视觉特征进行两次聚类,动态评分机制优化计算成本。
- Result: 在多个数据集上实现20%-45%计算量减少,性能损失可忽略,尤其在复杂边缘区域表现优于现有方法。
- Conclusion: LVTP在平衡计算成本和精度方面优于现有方法,无需架构修改或额外训练。
[21] Federated Client-tailored Adapter for Medical Image Segmentation
Guyue Hu,Siyuan Song,Yukun Kang,Zhu Yin,Gangming Zhao,Chenglong Li,Jin Tang
Main category: cs.CV
TL;DR: 提出了一种联邦客户端定制适配器(FCA)框架,用于医学图像分割,解决了分布式数据岛屿和客户端域异质性带来的训练不稳定问题。
- Motivation: 现有方法依赖集中式学习,不适用于分布式数据岛屿的实际医疗场景,且联邦学习因客户端域异质性(如分布多样性和类别不平衡)导致训练不稳定。
- Method: FCA框架利用现成医学基础模型中的通用知识稳定联邦训练,并开发两种客户端定制联邦更新策略,将适配器分解为公共和个体组件,分别更新。
- Result: 在三个大规模数据集上的实验表明,FCA框架在联邦医学分割中具有有效性和优越性。
- Conclusion: FCA框架实现了稳定且客户端定制的自适应分割,无需共享敏感本地数据。
[22] ShapeSpeak: Body Shape-Aware Textual Alignment for Visible-Infrared Person Re-Identification
Shuanglin Yan,Neng Dong,Shuang Li,Rui Yan,Hao Tang,Jing Qin
Main category: cs.CV
TL;DR: 提出了一种名为BSaTa的框架,通过显式建模身体形状信息来提升可见光-红外行人重识别(VIReID)的性能。
- Motivation: 现有方法仅依赖身份标签监督,难以充分提取高级语义信息,且未显式建模身体形状特征。
- Method: 设计了BSTA模块提取身体形状信息并转换为文本表示,引入TVCR确保文本与视觉特征对齐,以及SRL机制结合多文本监督和分布一致性约束。
- Result: 在SYSU-MM01和RegDB数据集上表现优异。
- Conclusion: BSaTa框架通过显式建模身体形状信息,有效提升了VIReID性能。
[23] A Large Vision-Language Model based Environment Perception System for Visually Impaired People
Zezhou Chen,Zhaoxiang Liu,Kai Wang,Kohou Wang,Shiguo Lian
Main category: cs.CV
TL;DR: 本文提出了一种基于大型视觉语言模型(LVLM)的环境感知系统,帮助视障人士通过可穿戴设备捕捉和分析周围环境,提供场景描述、物体分类和详细描述功能。
- Motivation: 视障人士因自然场景的复杂性难以感知环境,限制了其个人和社交活动。
- Method: 系统结合LVLM和分割模型,通过RGB图像分割结果减少LVLM的幻觉,提供更准确的场景描述。
- Result: 在POPE、MME和LLaVA-QA90上的实验表明,系统比Qwen-VL-Chat更准确,且能有效帮助视障人士感知环境。
- Conclusion: 该系统通过技术改进和实验验证,为视障人士提供了高效的环境感知解决方案。
[24] Enhancing Privacy-Utility Trade-offs to Mitigate Memorization in Diffusion Models
Chen Chen,Daochang Liu,Mubarak Shah,Chang Xu
Main category: cs.CV
TL;DR: PRSS方法通过改进扩散模型的分类器自由引导,结合提示重新锚定(PR)和语义提示搜索(SS),在隐私和实用性之间取得更好平衡。
- Motivation: 文本到图像扩散模型在生成与用户提示高度一致的图像方面表现出色,但存在训练图像记忆问题,可能引发隐私和法律问题。现有方法在提升隐私的同时往往牺牲实用性。
- Method: PRSS方法结合提示重新锚定(PR)和语义提示搜索(SS),优化隐私与实用性的权衡。
- Result: 实验表明,PRSS在不同隐私级别下均能显著改善隐私-实用性平衡,达到最新技术水平。
- Conclusion: PRSS为扩散模型提供了一种有效平衡隐私与实用性的新方法。
[25] Cabbage: A Differential Growth Framework for Open Surfaces
Xiaoyi Liu,Hao Tang
Main category: cs.CV
TL;DR: Cabbage是一个用于模拟3D开放表面(如花瓣卷曲)的微分生长框架,生成高质量无自交的三角网格,支持CAD-ready表面生成,性能优于现有方法。
- Motivation: 模拟自然界中3D开放表面的屈曲行为(如花瓣卷曲),并提供高质量、无自交的网格模型。
- Method: 通过边缘细分驱动微分增长(Cabbage-Shell),结合壳力、特征感知平滑和重网格化,以及纠正碰撞防止自交。
- Result: 生成高质量网格,形态表现力强,支持复杂模式模拟,性能优于现有方法。
- Conclusion: Cabbage是首个开源的高性能框架,适用于计算建模、数字制造和教育,同时为几何处理和形状分析提供高质量数据。
[26] DMS-Net:Dual-Modal Multi-Scale Siamese Network for Binocular Fundus Image Classification
Guohao Huo,Zibo Lin,Zitong Wang,Ruiting Dai,Hao Tang
Main category: cs.CV
TL;DR: DMS-Net是一种双模态多尺度Siamese网络,用于双眼眼底图像分类,通过多尺度上下文感知模块和双模态特征融合模块提升性能。
- Motivation: 传统诊断方法和单眼深度学习未能考虑双眼病理相关性,DMS-Net旨在解决这一问题。
- Method: 采用权重共享的Siamese ResNet-152提取特征,结合多尺度上下文感知模块和双模态特征融合模块。
- Result: 在ODIR-5K数据集上达到80.5%准确率、86.1%召回率和83.8% Cohen's kappa。
- Conclusion: DMS-Net在检测对称病理和提升临床决策方面表现优异。
[27] A BERT-Style Self-Supervised Learning CNN for Disease Identification from Retinal Images
Xin Li,Wenhui Zhu,Peijie Qiu,Oana M. Dumitrascu,Amal Youssef,Yalin Wang
Main category: cs.CV
TL;DR: 该研究提出了一种结合轻量级CNN(nn-MobileNet)和自监督学习的方法,利用未标记的视网膜图像进行预训练,显著提升了下游医学图像任务的性能。
- Motivation: 医学图像标注成本高且困难,而现有方法(如ViT)计算需求大且缺乏局部性。研究旨在通过轻量级CNN和自监督学习解决这些问题。
- Method: 使用nn-MobileNet框架,采用BERT风格的自监督学习策略,在未标记的视网膜图像(UK Biobank)上进行预训练。
- Result: 预训练模型在阿尔茨海默病、帕金森病及多种视网膜疾病识别任务中表现显著提升。
- Conclusion: 该研究展示了CNN在标签稀缺情况下结合自监督学习的潜力,为医学图像分析提供了高效解决方案。
[28] POET: Prompt Offset Tuning for Continual Human Action Adaptation
Prachi Garg,Joseph K J,Vineeth N Balasubramanian,Necati Cihan Camgoz,Chengde Wan,Kenrick Kin,Weiguang Si,Shugao Ma,Fernando De La Torre
Main category: cs.CV
TL;DR: POET提出了一种隐私感知的少样本持续动作识别方法,通过轻量级骨干网络和时空可学习提示偏移调优,显著优于现有基准。
- Motivation: 扩展现实(XR)设备需要个性化动作识别能力,但现有模型静态且缺乏隐私保护。
- Method: 提出POET(Prompt-Offset Tuning),基于轻量级骨干网络和时空提示偏移调优,适用于图神经网络。
- Result: 在NTU RGB+D和SHREC-2017数据集上,POET表现优于现有方法。
- Conclusion: POET为隐私感知的持续动作识别提供了高效解决方案,适用于XR设备。
[29] S3MOT: Monocular 3D Object Tracking with Selective State Space Model
Zhuohao Yan,Shaoquan Feng,Xingxing Li,Yuxuan Zhou,Chunxi Xia,Shengyu Li
Main category: cs.CV
TL;DR: 提出三种创新技术(HSSM、FCOE、VeloSSM)提升单目3D多目标跟踪性能,在KITTI基准测试中达到76.86 HOTA,优于之前最佳方法。
- Motivation: 单目3D多目标跟踪在机器人学和计算机视觉中至关重要,但现有方法难以从2D视频流中挖掘3D时空关联。
- Method: 1. HSSM:高效数据关联机制;2. FCOE:改进目标重识别;3. VeloSSM:增强6-DoF姿态估计。
- Result: 在KITTI测试中达到76.86 HOTA,31 FPS,显著优于之前最佳方法。
- Conclusion: 提出的方法在单目3D多目标跟踪任务中表现出色,代码和模型已开源。
[30] Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation
Weipeng Tan,Chuming Lin,Chengming Xu,FeiFan Xu,Xiaobin Hu,Xiaozhong Ji,Junwei Zhu,Chengjie Wang,Yanwei Fu
Main category: cs.CV
TL;DR: DICE-Talk 是一个新的框架,通过解耦身份与情感并合作相似情感特征,解决了现有情感说话头生成中的三个关键问题。
- Motivation: 现有方法在生成情感表达丰富的肖像时存在身份泄漏、情感线索利用不足以及情感关联孤立学习的问题。
- Method: 1. 开发解耦情感嵌入器,通过跨模态注意力建模音频-视觉情感线索;2. 引入相关性增强的情感条件模块,通过可学习的情感银行捕获情感关系;3. 设计情感判别目标,通过潜在空间分类强制情感一致性。
- Result: 在 MEAD 和 HDTF 数据集上表现优异,情感准确性优于现有方法,同时保持唇同步性能。
- Conclusion: DICE-Talk 能够生成身份保留且情感丰富的肖像,适应未见过的身份。
[31] Study on Real-Time Road Surface Reconstruction Using Stereo Vision
Deepak Ghimire,Byoungjun Kim,Donghoon Kim,SungHwan Jeong
Main category: cs.CV
TL;DR: 本文优化了RoadBEV框架,通过异构全局结构化剪枝和重新设计的头部网络,提升了边缘设备上的实时推理效率和精度。
- Motivation: 路表重建对自动驾驶至关重要,但现有方法在边缘设备上的实时性和精度不足。
- Method: 采用异构全局结构化剪枝优化立体特征提取主干网络,并重新设计头部网络,包括优化沙漏结构、动态注意力头、减少特征通道、混合精度推理和高效概率体积计算。
- Result: 方法提高了推理速度并降低了重建误差。
- Conclusion: 优化后的框架适用于自动驾驶中的实时路表重建。
[32] Salient Region-Guided Spacecraft Image Arbitrary-Scale Super-Resolution Network
Jingfan Yang,Hu Gao,Ying Zhang,Depeng Dang
Main category: cs.CV
TL;DR: 提出了一种基于显著区域引导的航天器图像任意尺度超分辨率网络(SGSASR),通过识别航天器核心区域并选择性融合特征,显著提升超分辨率效果。
- Motivation: 现有任意尺度超分辨率方法在航天器图像中忽略了核心区域与黑色背景的特征差异,导致噪声问题。
- Method: 设计了航天器核心区域识别块(SCRRB)和自适应加权特征融合增强机制(AFFEM),通过显著区域引导调制实现超分辨率。
- Result: 实验表明,SGSASR优于现有方法。
- Conclusion: SGSASR通过显著区域引导和特征融合,有效提升了航天器图像的超分辨率质量。
[33] MASF-YOLO: An Improved YOLOv11 Network for Small Object Detection on Drone View
Liugang Lu,Dabin He,Congxiang Liu,Zhixiang Deng
Main category: cs.CV
TL;DR: 论文提出了一种名为MASF-YOLO的新型目标检测网络,针对无人机图像中的小目标检测、背景噪声和尺度变化问题,通过多尺度特征融合和注意力机制显著提升了检测性能。
- Motivation: 无人机图像中的目标检测面临小目标像素比例极低、物体尺度变化大和背景复杂等挑战,限制了其实际应用。
- Method: 设计了多尺度特征聚合模块(MFAM)、改进的高效多尺度注意力模块(IEMA)和维度感知选择性集成模块(DASI),以提升小目标检测和背景噪声抑制能力。
- Result: 在VisDrone2019数据集上,MASF-YOLO-s相比YOLOv11-s在[email protected]和[email protected]:0.95上分别提升了4.6%和3.5%,且参数和计算成本更低。
- Conclusion: MASF-YOLO在检测精度和模型效率上均具有显著优势,为无人机图像目标检测提供了有效解决方案。
[34] ActionArt: Advancing Multimodal Large Models for Fine-Grained Human-Centric Video Understanding
Yi-Xing Peng,Qize Yang,Yu-Ming Tang,Shenghao Fu,Kun-Yu Lin,Xihan Wei,Wei-Shi Zheng
Main category: cs.CV
TL;DR: ActionArt是一个细粒度视频描述数据集,用于提升多模态模型对人类动作的理解能力,通过自动生成的代理任务减少对昂贵人工标注的依赖。
- Motivation: 细粒度理解人类动作和姿态对AI应用至关重要,但现有模型因缺乏精细标注数据而表现不足。
- Method: 开发ActionArt数据集,包含多样化人类动作视频及详细标注,并提出基于自动生成数据的代理任务。
- Result: 实验显示代理任务显著缩小了与人工标注数据的性能差距。
- Conclusion: 代理任务为减少人工标注依赖提供了有效途径,推动了细粒度多模态理解的研究。
[35] E-InMeMo: Enhanced Prompting for Visual In-Context Learning
Jiahao Zhang,Bowen Wang,Hong Liu,Liangzhi Li,Yuta Nakashima,Hajime Nagahara
Main category: cs.CV
TL;DR: E-InMeMo通过引入可学习的扰动优化视觉上下文学习(ICL)的提示,显著提升了性能。
- Motivation: 视觉ICL的成功依赖于提示质量,现有方法未充分利用可学习提示的潜力。
- Method: 提出E-InMeMo,在上下文对中引入可学习的扰动以优化提示。
- Result: 在标准视觉任务中,E-InMeMo显著优于现有方法,mIoU提升7.99(前景分割)和17.04(单目标检测)。
- Conclusion: E-InMeMo是一种轻量且高效的视觉ICL优化策略。
[36] PerfCam: Digital Twinning for Production Lines Using 3D Gaussian Splatting and Vision Models
Michel Gokan Khan,Renan Guarese,Fabian Johnson,Xi Vincent Wang,Anders Bergman,Benjamin Edvinsson,Mario Romero,Jérémy Vachier,Jan Kronqvist
Main category: cs.CV
TL;DR: PerfCam是一个开源的数字孪生框架,结合相机和传感器数据、3D高斯泼溅及计算机视觉模型,用于工业生产线中的数字孪生、对象跟踪和KPI提取。
- Motivation: 为工业生产线提供实时数字孪生和KPI提取工具,以提升智能制造的效率和可操作性。
- Method: 利用3D重建和卷积神经网络(CNNs)实现半自动化的对象跟踪和空间映射。
- Result: 在制药行业的实际生产线中验证了PerfCam的有效性,并公开了数据集。结果表明其能提供精确的数字孪生和操作分析。
- Conclusion: PerfCam是智能制造环境中开发可用数字孪生和提取操作分析的有效工具。
[37] Label-independent hyperparameter-free self-supervised single-view deep subspace clustering
Lovro Sindicic,Ivica Kopriva
Main category: cs.CV
TL;DR: 论文提出了一种新的单视图深度子空间聚类方法,解决了现有方法在信息利用、任务独立性、超参数调优、学习终止和数据依赖等方面的局限性。
- Motivation: 现有深度子空间聚类算法存在多个问题,如仅使用编码器输出层评估聚类质量、将表示学习与子空间聚类视为独立任务、依赖外部标签等,限制了其实际应用。
- Method: 提出了一种联合表示矩阵的层间自表达损失最小化方法,优化子空间结构范数,采用多阶段学习框架,引入自停止机制,并基于先验知识保留固定数量的系数。
- Result: 在六个数据集上的实验表明,该方法优于多数线性子空间聚类算法,并与性能最佳的线性方法竞争。
- Conclusion: 新方法通过改进信息利用和任务整合,显著提升了深度子空间聚类的性能和实用性。
[38] What is the Added Value of UDA in the VFM Era?
Brunó B. Englert,Tommie Kerssies,Gijs Dubbelman
Main category: cs.CV
TL;DR: 本文研究了无监督域适应(UDA)在更真实和多样化数据场景下的表现,发现UDA在合成数据场景中表现优于仅源域微调,但在多样化真实数据场景中无显著优势。
- Motivation: 探讨UDA在更具代表性和多样化数据中的行为,以及源域微调是否足以应对这些场景。
- Method: 评估UDA在合成到真实和真实到真实用例中的表现,并研究少量目标域标记数据的影响。
- Result: UDA在合成数据场景中表现优于源域微调(+2 mIoU),但在多样化真实数据中无优势;使用少量标记数据时,UDA达到与全监督模型相同的性能(85 mIoU)。
- Conclusion: UDA在合成数据场景中仍有价值,但在多样化真实数据中需谨慎使用;讨论了如何优化UDA以支持大规模自动驾驶。
[39] Multi-Grained Compositional Visual Clue Learning for Image Intent Recognition
Yin Tang,Jiankai Li,Hongyu Yang,Xuan Dong,Lifeng Fan,Weixin Li
Main category: cs.CV
TL;DR: 论文提出了一种名为MCCL的新方法,通过多粒度视觉线索学习和图卷积网络,解决了图像意图识别中的多样性和主观性问题。
- Motivation: 社交媒体中图像意图识别对个人和社会有重要意义,但传统方法难以处理视觉线索的多样性和主观性。
- Method: 采用多粒度视觉线索组合和类特定原型,结合图卷积网络进行多标签分类。
- Result: 在Intentonomy和MDID数据集上取得了最先进的性能,同时具有良好可解释性。
- Conclusion: 该方法为理解复杂人类表达提供了新思路。
[40] LiDAR-Guided Monocular 3D Object Detection for Long-Range Railway Monitoring
Raul David Dominguez Sanchez,Xavier Diaz Ortiz,Xingcheng Zhou,Max Peter Ronecker,Michael Karner,Daniel Watzenig,Alois Knoll
Main category: cs.CV
TL;DR: 本文提出了一种基于深度学习的单目图像长距离3D目标检测方法,专为自动驾驶列车设计,结合LiDAR数据提升深度估计,有效检测250米内物体。
- Motivation: 德国铁路系统需要高自动化以应对老旧基础设施挑战并安全增加列车流量,长距离感知是关键。
- Method: 采用改进的YOLOv9进行2.5D目标检测,结合深度估计网络和短/长距离3D检测头,训练时引入LiDAR数据。
- Result: 在OSDaR23数据集上验证,能检测250米内物体,展示了铁路自动化的潜力。
- Conclusion: 方法有效,但仍需未来改进。
[41] Optimizing Multi-Round Enhanced Training in Diffusion Models for Improved Preference Understanding
Kun Li,Jianhui Wang,Yangfan He,Xinyuan Song,Ruoyu Wang,Hongyang He,Wenxin Zhang,Jiaqi Chen,Keqin Li,Sida Li,Miao Zhang,Tianyu Shi,Xueqian Wang
Main category: cs.CV
TL;DR: 提出了一种视觉协同适应(VCA)框架,通过多轮对话数据集和人类反馈优化生成图像的一致性和用户意图对齐。
- Motivation: 生成式AI在文本驱动图像生成中存在高分辨率输出与用户细粒度偏好对齐的挑战,需多轮交互优化。
- Method: 结合人类反馈和多轮对话数据集,使用多样性、一致性和偏好反馈等多奖励函数,通过LoRA微调扩散模型。
- Result: 实验表明,VCA在图像一致性和用户意图对齐上优于现有方法,用户满意度显著提升。
- Conclusion: VCA框架在多轮对话场景中表现优异,显著提升了生成图像的质量和用户满意度。
[42] A Data-Centric Approach to 3D Semantic Segmentation of Railway Scenes
Nicolas Münger,Max Peter Ronecker,Xavier Diaz,Michael Karner,Daniel Watzenig,Jan Skaloud
Main category: cs.CV
TL;DR: 论文提出两种针对铁路场景的数据增强方法,提升LiDAR语义分割在远距离的准确性。
- Motivation: 铁路自动驾驶需要精确的语义分割,尤其是在远距离场景下。
- Method: 提出行人实例粘贴和轨道稀疏化两种数据增强方法。
- Result: 显著提升远距离分割性能,同时保持近距离准确性。
- Conclusion: 数据为中心的方法能有效解决铁路自动驾驶的感知挑战。
[43] Unify3D: An Augmented Holistic End-to-end Monocular 3D Human Reconstruction via Anatomy Shaping and Twins Negotiating
Nanjie Yao,Gangjian Zhang,Wenhao Shen,Jian Shu,Hao Wang
Main category: cs.CV
TL;DR: 本文提出了一种端到端的单目3D穿衣人体重建方法,通过直接预测从2D图像到3D虚拟形象,避免了显式中间几何表示,并引入了两个核心模块和一个数据增强策略。
- Motivation: 现有方法依赖于前置模型生成显式几何表示,限制了重建任务的完整性。本文旨在通过端到端网络直接预测3D虚拟形象,解决这一问题。
- Method: 提出了一种端到端网络框架,包含解剖形状提取模块和双模态U-Net特征交互模块,并采用漫画数据增强策略和构建大规模3D人体扫描数据集。
- Result: 在两个测试集和实际案例中,该方法优于现有技术。
- Conclusion: 该方法通过端到端设计和核心模块的引入,显著提升了3D穿衣人体重建的性能。
[44] Dense Geometry Supervision for Underwater Depth Estimation
Wenxiang Gua,Lin Qia
Main category: cs.CV
TL;DR: 本文提出了一种针对水下场景的单目深度估计新方法,通过构建经济高效的数据集和纹理-深度融合模块,显著提升了水下深度估计的准确性和适应性。
- Motivation: 水下场景的单目深度估计研究较少,且缺乏相关数据和方法支持。
- Method: 构建经济高效的水下数据集,设计纹理-深度融合模块,结合水下光学成像原理。
- Result: 在FLSea数据集上实验表明,该方法显著提升了水下深度估计的准确性和适应性。
- Conclusion: 该方法为水下单目深度估计提供了经济高效的解决方案,具有实际应用潜力。
[45] BiasBench: A reproducible benchmark for tuning the biases of event cameras
Andreas Ziegler,David Joseph,Thomas Gossard,Emil Moldovan,Andreas Zell
Main category: cs.CV
TL;DR: BiasBench是一个新的事件数据集,用于系统化测试和调整事件相机的偏置设置,同时提出了一种基于强化学习的在线偏置调整方法。
- Motivation: 事件相机在计算机视觉和机器人领域有广泛应用,但其偏置设置缺乏自动配置工具,现有模拟器不适合偏置调整。
- Method: 提出了BiasBench数据集,包含多个场景和偏置设置的网格采样,并开发了一种基于强化学习的在线偏置调整方法。
- Result: 数据集支持系统化测试,强化学习方法实现了在线偏置调整。
- Conclusion: BiasBench为事件相机的偏置调整提供了实用工具,推动了该领域的研究和应用。
[46] Event-Based Eye Tracking. 2025 Event-based Vision Workshop
Qinyu Chen,Chang Gao,Min Liu,Daniele Perrone,Yan Ru Pei,Zuowen Wang,Zhuo Zou,Shihang Tan,Tao Han,Guorui Lu,Zhen Xu,Junyuan Ding,Ziteng Wang,Zongwei Wu,Han Han,Yuliang Wu,Jinze Chen,Wei Zhai,Yang Cao,Zheng-jun Zha,Nuwan Bandara,Thivya Kandappu,Archan Misra,Xiaopeng Lin,Hongxiang Huang,Hongwei Ren,Bojun Cheng,Hoang M. Truong,Vinh-Thuan Ly,Huy G. Tran,Thuan-Phat Nguyen,Tram T. Doan
Main category: cs.CV
TL;DR: 本文综述了2025年基于事件的眼动追踪挑战赛的顶尖方法,探讨了硬件设计视角。
- Motivation: 推动基于事件的眼动追踪研究,总结挑战赛中创新方法。
- Method: 回顾并分析挑战赛中排名靠前团队的方法,报告准确性、模型大小和操作数。
- Result: 总结了各方法的性能指标,并讨论了硬件设计的影响。
- Conclusion: 为未来基于事件的眼动追踪研究提供了参考和方向。
[47] SSL4Eco: A Global Seasonal Dataset for Geospatial Foundation Models in Ecology
Elena Plekhanova,Damien Robert,Johannes Dollinger,Emilia Arens,Philipp Brun,Jan Dirk Wegner,Niklaus Zimmermann
Main category: cs.CV
TL;DR: 论文提出了一种基于物候学的采样策略和SSL4Eco数据集,通过自监督学习提升全球生态区域表征质量,并在多个下游任务中取得最优性能。
- Motivation: 生物多样性和气候危机加剧,全球生物多样性制图需求迫切。现有遥感数据存在标注稀缺和区域偏差问题,且季节性处理不足。
- Method: 提出物候学采样策略,构建SSL4Eco数据集,采用季节对比目标训练模型。
- Result: SSL4Eco预训练模型在8个下游任务中7个达到最优性能。
- Conclusion: 数据集构建对表征学习至关重要,SSL4Eco为宏观生态和计算机视觉研究提供了有效工具。
[48] Seeing Soundscapes: Audio-Visual Generation and Separation from Soundscapes Using Audio-Visual Separator
Minjae Kang,Martim Brandão
Main category: cs.CV
TL;DR: 论文提出AV-GAS模型,解决从混合音频生成图像的挑战,并引入新的评估指标,性能优于现有方法。
- Motivation: 现有音频-视觉生成模型仅支持单类音频生成图像,无法处理混合音频输入。
- Method: 提出AV-GAS模型,结合音频-视觉分离器,支持从多类音频生成图像,并引入新的分离任务和评估指标。
- Result: 在VGGSound数据集上,模型性能优于现有方法,CRS提高7%,R@2*提高4%。
- Conclusion: AV-GAS模型有效解决了混合音频生成图像的挑战,并提出了新的任务和评估标准。
[49] Enhancing Long-Term Re-Identification Robustness Using Synthetic Data: A Comparative Analysis
Christian Pionzewski,Rebecca Rademacher,Jérôme Rutinowski,Antonia Ponikarov,Stephan Matzke,Tim Chilla,Pia Schreynemackers,Alice Kirchheim
Main category: cs.CV
TL;DR: 论文探讨了合成训练数据对材料磨损和老化预测的影响,通过实验和扩展策略提升了老化重识别性能,并引入了一个开源数据集。
- Motivation: 研究合成训练数据在材料老化重识别中的作用,以及如何通过实验策略提升性能。
- Method: 测试不同实验设置和扩展策略,使用持续更新的图库和合成训练数据。
- Result: 使用合成训练数据提升Rank-1准确率13%,动态图库策略提升24%。
- Conclusion: 合成数据和动态图库策略显著提升老化重识别性能,并提供了开源数据集支持未来研究。
[50] Task-Oriented Communications for Visual Navigation with Edge-Aerial Collaboration in Low Altitude Economy
Zhengru Fang,Zhenghao Liu,Jingjing Wang,Senkang Hu,Yu Guo,Yiqin Deng,Yuguang Fang
Main category: cs.CV
TL;DR: 论文提出了一种任务导向的通信框架O-VIB,用于无人机在无GPS信号的城市环境中高效精准定位。
- Motivation: 解决无人机在无GPS信号城市环境中的定位问题,同时应对轻量级无人机在带宽、内存和处理能力上的限制。
- Method: 采用多摄像头系统提取紧凑的多视角特征,通过O-VIB编码器结合自动相关性确定(ARD)和正交约束,减少冗余特征并卸载定位任务至边缘服务器。
- Result: 在专用LAE无人机数据集上,O-VIB在严格带宽限制下实现了高精度定位。
- Conclusion: O-VIB框架为无人机在复杂环境中的高效定位提供了可行方案,代码和数据集将公开。
[51] STP4D: Spatio-Temporal-Prompt Consistent Modeling for Text-to-4D Gaussian Splatting
Yunze Deng,Haijun Xiong,Bin Feng,Xinggang Wang,Wenyu Liu
Main category: cs.CV
TL;DR: STP4D是一种新的文本到4D生成方法,通过整合时空和提示一致性建模,解决了现有方法的时空不一致和几何失真问题。
- Motivation: 现有方法在文本到4D生成中缺乏统一的时空和提示对齐框架,导致生成内容质量低且与文本不符。
- Method: STP4D采用三个模块:时变提示嵌入、几何信息增强和时间扩展变形,并结合扩散模型生成4D高斯。
- Result: 实验表明,STP4D在生成高保真4D内容时效率极高(约4.6秒/资产),质量和速度均优于现有方法。
- Conclusion: STP4D通过统一建模时空和提示一致性,显著提升了文本到4D生成的质量和效率。
[52] Depth3DLane: Monocular 3D Lane Detection via Depth Prior Distillation
Dongxin Lyu,Han Huang,Cheng Tan,Zimu Li
Main category: cs.CV
TL;DR: 提出了一种基于BEV的框架,通过多尺度深度特征和深度先验蒸馏,改进单目3D车道检测的准确性。
- Motivation: 单目3D车道检测因缺乏深度信息而困难,传统IPM方法因假设地面平坦和丢失上下文信息导致不准确。
- Method: 采用分层深度感知头提供多尺度深度特征,利用深度先验蒸馏从教师模型传递语义深度知识,并引入条件随机场模块优化车道连续性。
- Result: 实验表明,该方法在z轴误差和整体性能上优于现有方法。
- Conclusion: 提出的框架通过多尺度深度特征和深度先验蒸馏,显著提升了3D车道检测的准确性。
[53] SSD-Poser: Avatar Pose Estimation with State Space Duality from Sparse Observations
Shuting Zhao,Linxin Bai,Liangjing Shao,Ye Zhang,Xinrong Chen
Main category: cs.CV
TL;DR: SSD-Poser是一种轻量级高效模型,用于从稀疏观测中实现实时全身姿态估计,结合混合编码器和频率感知解码器,显著提升精度和计算效率。
- Motivation: AR/VR应用对实时全身姿态估计的需求增加,但现有方法在精度和推理速度之间难以平衡。
- Method: 设计SSD-Poser模型,采用混合编码器(State Space Attention Encoders)和频率感知解码器(Frequency-Aware Decoder)。
- Result: 在AMASS数据集上,SSD-Poser表现出卓越的精度和计算效率,推理速度优于现有方法。
- Conclusion: SSD-Poser在实时全身姿态估计任务中实现了高效与精度的平衡,具有实际应用潜力。
[54] TSCL:Multi-party loss Balancing scheme for deep learning Image steganography based on Curriculum learning
Fengchun Liu. Tong Zhang,Chunying Zhang
Main category: cs.CV
TL;DR: 提出了一种两阶段课程学习损失调度器(TSCL),用于平衡深度学习图像隐写算法中的多项损失,提升隐写质量、解码精度和安全性。
- Motivation: 传统方法中固定损失权重无法适应隐写任务的重要性和训练过程,影响了隐写效果。
- Method: TSCL分为先验课程控制和损失动态控制两阶段,分别调整模型学习重点和任务学习速度。
- Result: 在ALASKA2、VOC2012和ImageNet数据集上,TSCL显著提升了隐写质量、解码精度和安全性。
- Conclusion: TSCL通过动态调整损失权重,有效优化了深度学习图像隐写算法的性能。
[55] Revisiting Data Auditing in Large Vision-Language Models
Hongyu Zhu,Sichu Liang,Wenwen Wang,Boheng Li,Tongxin Yuan,Fangqi Li,ShiLin Wang,Zhuosheng Zhang
Main category: cs.CV
TL;DR: 本文揭示了当前大型视觉语言模型(VLMs)成员推理(MI)基准测试中存在的分布偏移问题,并提出了一种基于最优传输的度量方法。研究发现,现有MI方法在无偏条件下表现不佳,但指出了三种可行审计场景。
- Motivation: 随着VLMs的广泛应用,数据审计的需求日益迫切,但现有MI方法因分布偏移问题导致性能虚高,需重新评估其有效性。
- Method: 分析了分布偏移问题,提出基于最优传输的度量方法,并构建无偏基准测试。同时探讨了MI的理论上限和可行场景。
- Result: 现有MI方法在无偏条件下表现接近随机猜测,但发现了三种实际可行的审计场景。
- Conclusion: 研究系统评估了VLMs中MI的局限性,为未来可信数据审计提供了指导。
[56] Interpretable Affordance Detection on 3D Point Clouds with Probabilistic Prototypes
Maximilian Xiling Li,Korbinian Rudolf,Nils Blank,Rudolf Lioutikov
Main category: cs.CV
TL;DR: 论文提出了一种基于原型学习的方法用于3D点云的可操作性检测,替代传统的黑盒模型,提供可解释性且性能接近最优。
- Motivation: 传统3D点云可操作性检测模型(如PointNet++、DGCNN)缺乏可解释性,而原型学习(如ProtoPNet)在图像任务中已证明有效,但未应用于3D点云。本文旨在填补这一空白。
- Method: 将原型学习方法应用于3D点云可操作性检测,通过“类似案例推理”提供可解释性。
- Result: 在3D-AffordanceNet数据集上,原型模型性能接近最优黑盒模型,同时具备可解释性。
- Conclusion: 原型模型在可操作性检测中兼具性能和可解释性,适合需要信任和安全的人机交互场景。
[57] COCO-Inpaint: A Benchmark for Image Inpainting Detection and Manipulation Localization
Haozhen Yan,Yan Hong,Jiahui Zhan,Yikun Ji,Jun Lan,Huijia Zhu,Weiqiang Wang,Jianfu Zhang
Main category: cs.CV
TL;DR: 论文提出了COCOInpaint基准,专注于检测基于修复的图像篡改,填补了现有方法的空白。
- Motivation: 现有图像篡改检测方法主要针对拼接或复制移动伪造,缺乏针对修复篡改的专用基准。
- Method: 构建COCOInpaint基准,包含高质量修复样本、多样化生成场景和大规模数据覆盖。
- Result: 提供了258,266张修复图像,并建立了严格的评估协议。
- Conclusion: COCOInpaint将公开以促进未来研究,强调修复区域与真实区域的内在不一致性。
[58] Fast Autoregressive Models for Continuous Latent Generation
Tiankai Hang,Jianmin Bao,Fangyun Wei,Dong Chen
Main category: cs.CV
TL;DR: FAR模型通过轻量级shortcut head替代MAR的diffusion head,实现高效连续空间图像生成,推理速度提升2.3倍,同时保持生成质量。
- Motivation: 解决MAR模型在连续空间图像生成中因迭代去噪过程导致推理速度慢的问题。
- Method: 提出FAR框架,用轻量级shortcut head替换MAR的diffusion head,支持高效少步采样,并与因果Transformer无缝集成。
- Result: FAR推理速度比MAR快2.3倍,FID和IS分数保持竞争力。
- Conclusion: FAR首次建立了高效自回归范式,填补了视觉自回归建模中质量与可扩展性之间的关键空白。
[59] Unsupervised Visual Chain-of-Thought Reasoning via Preference Optimization
Kesen Zhao,Beier Zhu,Qianru Sun,Hanwang Zhang
Main category: cs.CV
TL;DR: 论文提出了一种无监督视觉链式思维(UV-CoT)框架,通过偏好优化实现图像级推理,无需边界框标注,提升了视觉理解能力。
- Motivation: 现有方法主要关注文本链式思维,忽略了视觉线索的利用,且依赖大量标注数据。UV-CoT旨在解决这一问题,通过无监督方式提升模型的视觉推理能力。
- Method: UV-CoT通过自动生成偏好数据(模型生成的边界框及其响应排名),利用偏好优化训练目标模型,无需标注边界框。
- Result: 在六个数据集上,UV-CoT优于现有文本和视觉链式思维方法,且在四个未见数据集上表现出强泛化能力。
- Conclusion: UV-CoT通过无监督方式显著提升了视觉理解能力,特别是在空间推理任务中,具有广泛的应用潜力。
[60] A Multimodal Hybrid Late-Cascade Fusion Network for Enhanced 3D Object Detection
Carlo Sgaravatti,Roberto Basla,Riccardo Pieroni,Matteo Corno,Sergio M. Savaresi,Luca Magri,Giacomo Boracchi
Main category: cs.CV
TL;DR: 提出一种基于多模态输入的3D物体检测方法,结合LiDAR和RGB相机,通过后期级联融合减少误报和漏报。
- Motivation: 解决LiDAR检测中的误报和漏报问题,提升多模态输入下的3D物体检测性能。
- Method: 采用后期级联融合方案,将LiDAR检测结果与RGB检测结果匹配,利用极线约束和视锥恢复漏检目标。
- Result: 在KITTI数据集上表现优异,尤其在行人和骑行者的检测上性能显著提升。
- Conclusion: 该方法灵活可扩展,适用于任何单模态检测器,显著提升了多模态3D物体检测的准确性。
[61] LaRI: Layered Ray Intersections for Single-view 3D Geometric Reasoning
Rui Li,Biao Zhang,Zhenyu Li,Federico Tombari,Peter Wonka
Main category: cs.CV
TL;DR: LaRI是一种从单张图像进行未见几何推理的新方法,通过分层点图建模相机光线相交的多个表面,实现高效、完整的几何推理。
- Motivation: 传统深度估计仅局限于可见表面,无法处理多表面或遮挡情况,LaRI旨在解决这一问题。
- Method: 使用分层点图建模光线相交的多表面,预测光线停止索引以识别有效像素和层,并构建完整的数据生成流程。
- Result: 在对象级别,LaRI仅用4%的训练数据和17%的参数达到与大型生成模型相当的性能;在场景级别,仅需一次前向推理即可完成遮挡几何推理。
- Conclusion: LaRI是一种通用方法,能够高效统一对象和场景级别的几何推理任务。
[62] Iterative Event-based Motion Segmentation by Variational Contrast Maximization
Ryo Yamaki,Shintaro Shiba,Guillermo Gallego,Yoshimitsu Aoki
Main category: cs.CV
TL;DR: 提出了一种基于事件相机的迭代运动分割方法,通过将事件分类为背景和前景,扩展了对比度最大化框架,显著提升了运动物体检测的准确性。
- Motivation: 事件相机能够捕捉场景变化,但需要将事件数据分类为不同运动以实现运动分割,这对目标检测和视觉伺服等任务至关重要。
- Method: 采用迭代运动分割方法,将事件分为背景(主导运动假设)和前景(独立运动残差),扩展了对比度最大化框架。
- Result: 在公开和自录数据集上成功分类事件簇,生成清晰的运动补偿边缘图像,运动物体检测准确率提升30%以上。
- Conclusion: 该方法扩展了对比度最大化框架的敏感性,为基于事件的运动分割理论提供了新思路。
[63] NoiseController: Towards Consistent Multi-view Video Generation via Noise Decomposition and Collaboration
Haotian Dong,Xin Wang,Di Lin,Yipeng Wu,Qin Chen,Ruonan Liu,Kairui Yang,Ping Li,Qing Guo
Main category: cs.CV
TL;DR: 论文提出NoiseController方法,通过多级噪声分解、多帧噪声协作和联合去噪,提升视频生成的时空一致性。
- Motivation: 高质量视频生成对电影和自动驾驶等领域至关重要,但现有方法常忽视全局时空信息,导致时空一致性不足。
- Method: NoiseController包含多级噪声分解(场景级和个体级噪声)、多帧噪声协作(跨视图和跨帧矩阵)和联合去噪(并行U-Net)。
- Result: 在公开数据集上验证,NoiseController在视频生成和下游任务中表现最优。
- Conclusion: NoiseController通过全局时空建模显著提升了视频生成的时空一致性。
[64] RGS-DR: Reflective Gaussian Surfels with Deferred Rendering for Shiny Objects
Georgios Kouros,Minye Wu,Tinne Tuytelaars
Main category: cs.CV
TL;DR: RGS-DR是一种新的逆渲染方法,专注于重建和渲染具有光泽和反射特性的物体,支持灵活的重新光照和场景编辑。
- Motivation: 现有方法(如NeRF和3D高斯泼溅)在处理视角依赖效应时表现不佳,RGS-DR旨在解决这一问题。
- Method: RGS-DR使用2D高斯面元表示准确估计几何和表面法线,通过可学习基元建模几何和材质属性,并采用多级立方体mipmap近似环境光照积分。
- Result: 实验表明,RGS-DR在光泽物体的高质量重建和渲染方面表现优异,优于无法重新光照的现有方法。
- Conclusion: RGS-DR通过创新的表示和渲染技术,显著提升了光泽物体的重建和渲染质量。
[65] An Improved ResNet50 Model for Predicting Pavement Condition Index (PCI) Directly from Pavement Images
Andrews Danyo,Anthony Dontoh,Armstrong Aboah
Main category: cs.CV
TL;DR: 提出了一种结合CBAM的改进ResNet50模型,用于从路面图像直接预测PCI,显著降低了预测误差。
- Motivation: 准确预测路面状况指数(PCI)对基础设施维护至关重要,但现有方法预测精度不足。
- Method: 在ResNet50架构中集成CBAM模块,自主优先提取关键特征。
- Result: 改进后的ResNet50-CBAM模型MAPE为58.16%,优于原始ResNet50(70.76%)和DenseNet161(65.48%)。
- Conclusion: 注意力机制能优化特征提取,提升路面状况评估的准确性和效率。
[66] Eval3D: Interpretable and Fine-grained Evaluation for 3D Generation
Shivam Duggal,Yushi Hu,Oscar Michel,Aniruddha Kembhavi,William T. Freeman,Noah A. Smith,Ranjay Krishna,Antonio Torralba,Ali Farhadi,Wei-Chiu Ma
Main category: cs.CV
TL;DR: Eval3D是一个细粒度、可解释的3D生成评估工具,通过多模型一致性评估3D资产质量,优于现有方法。
- Motivation: 当前3D生成系统在视觉吸引力和多视角一致性上表现不足,且缺乏可靠的评估工具。
- Method: 利用多种基础模型和工具作为探针,测量3D资产在不同方面的一致性。
- Result: Eval3D提供像素级测量、准确的空间反馈,并更符合人类判断。
- Conclusion: Eval3D揭示了当前3D生成模型的局限性,为未来改进提供了方向。
[67] Examining the Impact of Optical Aberrations to Image Classification and Object Detection Models
Patrick Müller,Alexander Braun,Margret Keuper
Main category: cs.CV
TL;DR: 论文提出了两个数据集(OpticsBench和LensCorruptions)来评估模型对真实光学模糊的鲁棒性,发现现有模型性能差异显著。
- Motivation: 现有模糊鲁棒性评估过于简化,忽略了光学系统的复杂模糊效应,需更真实的测试方法。
- Method: 通过Zernike多项式生成两种数据集:OpticsBench(单一参数模拟主像差)和LensCorruptions(模拟100种真实镜头模糊)。
- Result: 在ImageNet和MSCOCO上测试多种预训练模型,发现性能差异显著。
- Conclusion: 需引入真实模糊数据集以更准确评估模型鲁棒性。
[68] E-VLC: A Real-World Dataset for Event-based Visible Light Communication And Localization
Shintaro Shiba,Quan Kong,Norimasa Kobori
Main category: cs.CV
TL;DR: 论文提出了首个公开数据集,用于评估事件相机在LED信号解码和定位中的性能,并提出了基于对比度最大化的新型定位方法。
- Motivation: 目前缺乏公开数据集来评估事件相机在LED信号解码和定位中的性能,尤其是在不同现实场景下的表现。
- Method: 提出了一种基于对比度最大化框架的运动估计和补偿方法,用于LED标记的定位。
- Result: 实验结果表明,基于事件的LED定位优于传统的基于帧的AR标记定位,且新方法在定位中表现高效。
- Conclusion: 该数据集有望成为未来运动相关计算机视觉任务和LED标记解码任务的基准,推动事件相机在移动设备上的广泛应用。
[69] Augmenting Perceptual Super-Resolution via Image Quality Predictors
Fengjia Zhang,Samrudhdhi B. Rangrej,Tristan Aumentado-Armstrong,Afsaneh Fazly,Alex Levinshtein
Main category: cs.CV
TL;DR: 该论文探讨了在超分辨率(SR)任务中利用非参考图像质量评估(NR-IQA)模型的方法,以优化图像质量而非简单的像素级误差最小化。
- Motivation: 超分辨率问题存在多解性,传统方法倾向于生成模糊图像,而实际需求是高质量的图像。论文旨在通过NR-IQA模型实现更符合人类感知的质量优化。
- Method: 分析了NR-IQA指标在人类生成SR数据上的表现,并探索了两种应用方法:1)通过多真实值框架改变数据采样;2)直接优化可微分质量分数。
- Result: 实验结果表明,该方法在感知失真权衡上更符合人类偏好,减少了非感知像素级失真的影响。
- Conclusion: NR-IQA模型在SR任务中能够有效提升图像质量,实现更人类中心的感知优化。
cs.AI
[70] ApproXAI: Energy-Efficient Hardware Acceleration of Explainable AI using Approximate Computing
Ayesha Siddique,Khurram Khalil,Khaza Anuarul Hoque
Main category: cs.AI
TL;DR: XAIedge框架通过近似计算技术提升XAI算法的能效,适用于实时场景。
- Motivation: 现有XAI硬件加速方法在实时场景中能效不足,限制了其应用。
- Method: 提出XAIedge框架,结合近似计算技术优化XAI算法,并在TPU边缘设备上实现硬件加速。
- Result: XAIedge能效提升2倍,同时保持准确性。
- Conclusion: XAIedge有望推动可解释AI在能源受限实时应用中的部署。
[71] LLM Agent Swarm for Hypothesis-Driven Drug Discovery
Kevin Song,Andrew Trotter,Jake Y. Chen
Main category: cs.AI
TL;DR: PharmaSwarm是一个多智能体框架,通过协调专业LLM代理提出、验证和优化药物靶点和先导化合物的假设,以加速药物发现。
- Motivation: 药物发现成本高、失败率高,且数据分散阻碍进展,需要一种能够整合数据、支持假设驱动工作流的解决方案。
- Method: PharmaSwarm通过多个专业LLM代理(如基因组分析、知识图谱、通路富集等)协作,中央评估器LLM对提案进行排名,共享记忆层持续优化系统。
- Result: PharmaSwarm支持多种药物发现场景(如文献驱动、组学指导等),并通过四层验证管道确保透明度和可重复性。
- Conclusion: PharmaSwarm作为AI助手,能比传统流程更高效地生成高可信假设,加速转化研究。
[72] Differential Privacy-Driven Framework for Enhancing Heart Disease Prediction
Yazan Otoum,Amiya Nayak
Main category: cs.AI
TL;DR: 论文探讨了在医疗数据快速数字化的背景下,如何利用差分隐私和联邦学习技术保护患者隐私,同时实现高效的数据分析和机器学习应用。
- Motivation: 随着医疗系统的快速数字化,私人健康数据的生成和共享大幅增加,保护患者信息对维护消费者信任和遵守法律数据保护法规至关重要。
- Method: 采用差分隐私和联邦学习方法,差分隐私通过添加噪声保证数据隐私,联邦学习支持在分散数据集上协作训练模型。
- Result: 在心脏病数据集上的实验表明,结合差分隐私的联邦学习模型测试准确率达到85%,同时确保数据隐私。
- Conclusion: 差分隐私和联邦学习的结合为医疗数据隐私保护提供了有效解决方案,同时支持高质量的数据分析和机器学习应用。
[73] MultiMind: Enhancing Werewolf Agents with Multimodal Reasoning and Theory of Mind
Zheng Zhang,Nuoqian Xiao,Qi Chai,Deheng Ye,Hao Wang
Main category: cs.AI
TL;DR: MultiMind框架首次将多模态信息(如面部表情和语音语调)整合到社交推理游戏(SDG)代理中,结合心理理论(ToM)和蒙特卡洛树搜索(MCTS),显著提升了代理在游戏中的表现。
- Motivation: 当前SDG代理仅依赖文本信息,忽略了人类社交中关键的多模态线索(如面部表情和语调),且缺乏对其他玩家心理状态的建模。
- Method: 使用One Night Ultimate Werewolf(ONUW)作为测试平台,MultiMind整合多模态信息(面部表情、语音语调)和ToM模型,结合MCTS优化沟通策略。
- Result: 在代理间模拟和人类玩家实验中,MultiMind表现出卓越的游戏性能。
- Conclusion: MultiMind为LLM代理在多模态领域中实现类人社交推理迈出了重要一步。
[74] Combating the Bucket Effect:Multi-Knowledge Alignment for Medication Recommendation
Xiang Li,Haixu Ma,Guanyong Wu,Shi Mu,Chen Li,Shunpan Liang
Main category: cs.AI
TL;DR: 论文提出了一种跨模态药物编码器MKMed,用于解决药物推荐中的“桶效应”问题,通过整合多种知识模态提升推荐准确性和安全性。
- Motivation: 药物推荐中不同药物知识模态数据不平衡(如部分药物仅有文本描述而无结构化数据),导致现有模型性能受限,即“桶效应”。
- Method: 提出跨模态药物编码器,通过对比学习预训练五种知识模态,将其对齐到统一空间,并结合患者记录进行推荐。
- Result: 在MIMIC-III和MIMIC-IV数据集上,MKMed显著缓解“桶效应”,推荐准确性和安全性优于现有基线。
- Conclusion: MKMed通过多知识模态整合有效解决了药物推荐中的数据不平衡问题,提升了模型性能。
[75] Pseudo-Boolean Proof Logging for Optimal Classical Planning
Simon Dold,Malte Helmert,Jakob Nordström,Gabriele Röger,Tanja Schindler
Main category: cs.AI
TL;DR: 论文提出了一种用于经典规划任务的低界证书,可证明任务无解或计划最优,且可由第三方验证。基于伪布尔约束的通用框架生成证书,适用于任何规划算法。以A*算法为例,展示了如何生成最优性证明。
- Motivation: 解决规划任务中无解或最优性的验证问题,提供一种可独立验证的证明方法。
- Method: 基于伪布尔约束的通用框架生成低界证书,修改A*算法以生成最优性证明,使用模式数据库启发式和h^max作为具体示例。
- Result: 证明了方法的有效性,展示了如何通过伪布尔约束高效表达启发式推理。
- Conclusion: 提出的低界证书框架具有通用性和可验证性,适用于多种规划算法和启发式方法。
[76] Reason Like a Radiologist: Chain-of-Thought and Reinforcement Learning for Verifiable Report Generation
Peiyuan Jing,Kinhei Lee,Zhenxuan Zhang,Huichi Zhou,Zhengqing Yuan,Zhifan Gao,Lei Zhu,Giorgos Papanastasiou,Yingying Fang,Guang Yang
Main category: cs.AI
TL;DR: BoxMed-RL是一个创新的框架,通过结合视觉语言模型和强化学习,生成可验证和可解释的放射学报告,显著提升了报告质量。
- Motivation: 当前放射学报告生成模型缺乏专家级的结构化推理,导致临床信任和可解释性不足,无法将视觉发现与精确解剖位置关联。
- Method: BoxMed-RL分为两个阶段:预训练阶段通过医学概念学习和强化学习对齐医学发现与边界框;下游适配器阶段冻结预训练权重并训练适配器以生成流畅可信的报告。
- Result: 在公开数据集上,BoxMed-RL在METEOR和ROUGE-L指标上平均提升7%,在大型语言模型指标上提升5%。
- Conclusion: BoxMed-RL通过模仿放射科医生的工作流程,显著提升了放射学报告的质量和可解释性。
[77] Scaling Laws For Scalable Oversight
Joshua Engels,David D. Baek,Subhash Kantamneni,Max Tegmark
Main category: cs.AI
TL;DR: 论文提出了一种量化监督成功概率的框架,通过游戏模型验证了监督的可扩展性,并研究了嵌套可扩展监督(NSO)的成功条件。
- Motivation: 解决可扩展监督(scalable oversight)在实际应用中如何量化的问题,以控制未来超级智能系统。
- Method: 提出一个框架,将监督建模为能力不匹配玩家之间的游戏,使用Elo分数量化监督和欺骗能力,并通过修改版Nim游戏和四种监督游戏验证。
- Result: 发现监督成功率在监督比基线监督者强400 Elo点的系统时低于52%,且随系统能力增强进一步下降。
- Conclusion: 嵌套可扩展监督(NSO)在特定条件下可行,但监督成功率随被监督系统能力增强而显著降低。
[78] Adapting Probabilistic Risk Assessment for AI
Anna Katariina Wisakanto,Joe Rogero,Avyay M. Casheekar,Richard Mallah
Main category: cs.AI
TL;DR: 本文提出了一个针对现代通用人工智能(AI)系统的概率风险评估(PRA)框架,借鉴高可靠性行业的PRA技术,以系统化识别、评估和管理AI风险。
- Motivation: 现代通用AI系统的快速发展和潜在灾难性风险超出了现有风险评估方法的能力,亟需一种更系统、可靠的评估框架。
- Method: 采用概率风险评估(PRA)框架,结合面向方面的危害分析、风险路径建模和不确定性管理,生成可量化的风险报告卡。
- Result: 开发了一个AI开发者和监管者可用的工具,系统化识别风险路径、估计风险概率和严重性,并提供可比的风险评估结果。
- Conclusion: 该框架为AI风险评估提供了系统化方法,填补了现有方法的不足,支持更可靠的风险管理和决策。
cs.IR
[79] Bridge the Domains: Large Language Models Enhanced Cross-domain Sequential Recommendation
Qidong Liu,Xiangyu Zhao,Yejing Wang,Zijian Zhang,Howard Zhong,Chong Chen,Xiang Li,Wei Huang,Feng Tian
Main category: cs.IR
TL;DR: 论文提出LLM4CDSR模型,利用大语言模型(LLMs)解决跨域序列推荐中的重叠困境和转移复杂性,通过语义表示和层次化用户偏好建模提升推荐效果。
- Motivation: 现有跨域序列推荐方法依赖用户在所有域的行为数据,且难以捕捉复杂转移模式,限制了实用性。LLMs的语义表示和推理能力有望解决这些问题。
- Method: 提出LLM4CDSR模型,包括基于LLM的统一表示模块、可训练适配器、层次化用户偏好模块,并整合为三线程框架。
- Result: 在三个公开跨域数据集上的实验验证了LLM4CDSR的有效性。
- Conclusion: LLM4CDSR通过LLMs的语义能力显著提升了跨域序列推荐的性能,代码已开源。
cs.NI
[80] Research on Cloud Platform Network Traffic Monitoring and Anomaly Detection System based on Large Language Models
Ze Yang,Yihong Jin,Juntian Liu,Xinhe Xu,Yihan Zhang,Shuyang Ji
Main category: cs.NI
TL;DR: 本文提出了一种基于大语言模型(LLM)的网络流量监控与异常检测系统,结合传统方法(如自编码器和决策树)和LLM的优势,通过注意力机制和迁移学习提升检测精度和适应性。
- Motivation: 随着云平台的快速发展和网络流量的复杂性增加,传统的网络监控和异常检测方法难以应对复杂模式和细微波动,需要更高效、准确的解决方案。
- Method: 采用混合模型,结合Transformer架构的注意力机制和监督学习框架,利用预训练的LLM分析流量数据,并添加考虑时序和上下文的异常检测层。引入迁移学习方法以快速适应未知网络结构和对抗条件。
- Result: 实验结果表明,该模型在检测精度和计算效率上优于传统方法,能有效识别零日攻击和流量拥塞模式,并显著降低误报率。
- Conclusion: 基于LLM的混合模型为网络流量监控和异常检测提供了更高效、准确的解决方案,尤其在处理复杂模式和未知网络条件时表现突出。
[81] LLM-Guided Open RAN: Empowering Hierarchical RAN Intelligent Control
Lingyan Bao,Sinwoong Yun,Jemin Lee,Tony Q. S. Quek
Main category: cs.NI
TL;DR: 论文提出了一种结合大语言模型(LLM)和强化学习(RL)的分层RIC框架(LLM-hRIC),用于无线通信网络的资源管理,并在IAB网络中验证了其优越性能。
- Motivation: 利用LLM和O-RAN技术的灵活性,提升无线通信网络中RIC组件间的协作效率。
- Method: 提出LLM-hRIC框架,LLM驱动的非实时RIC提供战略指导,RL驱动的近实时RIC执行低延迟任务。
- Result: 仿真结果表明,该框架在IAB网络中表现优越。
- Conclusion: 论文讨论了LLM在O-RAN中应用的关键挑战。
cs.GR
[82] iVR-GS: Inverse Volume Rendering for Explorable Visualization via Editable 3D Gaussian Splatting
Kaiyuan Tang,Siyuan Yao,Chaoli Wang
Main category: cs.GR
TL;DR: iVR-GS是一种新型的逆体积渲染方法,通过高斯泼溅技术降低渲染成本,同时支持场景编辑,实现交互式体积探索。
- Motivation: 现有NVS方法在渲染速度和硬件需求上表现优异,但预设的TF设置限制了用户对场景的探索。iVR-GS旨在解决这一问题。
- Method: iVR-GS通过组合多个与基础TF关联的模型,覆盖场景的不同可见部分,每个模型包含可编辑的3D高斯点,支持实时渲染和编辑。
- Result: iVR-GS在多个体积数据集上展示了优于其他NVS方法(如Plenoxels、CCNeRF和3DGS)的重建质量和可组合性。
- Conclusion: iVR-GS为交互式体积探索提供了一种高效且灵活的解决方案。
eess.SY
[83] Time and Frequency Domain-based Anomaly Detection in Smart Meter Data for Distribution Network Studies
Petar Labura,Tomislav Antic,Tomislav Capuder
Main category: eess.SY
TL;DR: 本文提出了一种基于隔离森林算法和快速傅里叶变换滤波的异常检测框架,用于处理智能电表数据中的异常,以提升低压配电网络的实时计算准确性。
- Motivation: 随着低压配电网络中智能电表等技术的普及,现有数据驱动模型未考虑数据质量,缺乏异常检测机制,亟需改进。
- Method: 结合隔离森林算法和快速傅里叶变换滤波,在时域和频域中检测并缓解异常数据对有功和无功功率数据集的影响。
- Result: 提出的框架能有效区分点异常和上下文异常,适用于智能电表高占比的配电网络。
- Conclusion: 集成异常检测方法对提升配电网络数据驱动的实时计算至关重要。
cs.NE
[84] Subfunction Structure Matters: A New Perspective on Local Optima Networks
S. L. Thomson,M. W. Przewozniczek
Main category: cs.NE
TL;DR: 论文提出了一种改进局部最优网络(LON)分析的方法,通过结合子函数信息(已知或学习得到)来丰富优化动态的理解。
- Motivation: 传统LON构建和分析未利用问题结构信息,限制了其对优化动态的深入理解。
- Method: 采用三种方法构建LON:标准算法、基于确定性灰盒交叉的算法、基于学习变量交互的扰动选择算法,并提出与子函数变化相关的度量。
- Result: 结合问题结构的LON分析能提供更丰富的优化动态信息,有助于理解问题求解难度。
- Conclusion: 建议在已知或疑似子函数结构的问题中,将问题结构纳入景观分析的新范式。
[85] Evolution of Optimization Algorithms for Global Placement via Large Language Models
Xufeng Yao,Jiaxi Jiang,Yuxuan Zhao,Peiyu Liao,Yibo Lin,Bei Yu
Main category: cs.NE
TL;DR: 论文提出了一种基于大语言模型(LLM)的自动化框架,用于优化电子设计自动化(EDA)中的全局布局算法,显著提升了性能。
- Motivation: 传统全局布局算法的设计依赖大量人工经验和启发式方法,效率低下且难以通用化。
- Method: 通过精心设计的提示生成多样化候选算法,并引入基于LLM的遗传流程进行算法进化。
- Result: 在多个基准测试中,发现的算法平均HPWL提升5.05%至8.30%,个别案例提升高达17%。
- Conclusion: 该框架不仅显著提升了算法性能,还展示了良好的泛化能力,并能与现有参数调优方法互补。
[86] Fuzzy Logic -- Based Scheduling System for Part-Time Workforce
Tri Nguyen,Kelly Cohen
Main category: cs.NE
TL;DR: 论文探讨了使用遗传模糊系统为大学兼职学生生成高效排班表的方法。
- Motivation: 解决大学兼职学生排班问题,考虑员工偏好和可用性,同时满足运营需求。
- Method: 采用遗传模糊系统,结合学生可用性数据,生成满足多种约束条件的排班方案。
- Result: 算法在辛辛那提大学数据上表现高效,能生成符合运营标准的排班表,且在人员不足时仍具鲁棒性。
- Conclusion: 遗传模糊系统是解决复杂排班问题的有效工具。
[87] Evolution Meets Diffusion: Efficient Neural Architecture Generation
Bingye Zhou,Caiyang Yu
Main category: cs.NE
TL;DR: 论文提出了一种名为EDNAG的新方法,结合进化算法和扩散模型,高效生成神经网络架构,无需训练,显著提升性能与速度。
- Motivation: 神经架构搜索(NAS)计算和时间成本高,现有方法如扩散模型在全局搜索能力和效率上仍有不足。
- Method: EDNAG利用进化算法模拟扩散模型的去噪过程,通过适应度引导从随机分布生成最优架构。
- Result: EDNAG在架构优化中达到SOTA性能,准确率提升10.45%,推理速度平均提升50倍。
- Conclusion: EDNAG结合进化策略与扩散模型,实现了高效、无需训练的架构生成,具有显著优势。
cs.SE
[88] EduBot -- Can LLMs Solve Personalized Learning and Programming Assignments?
Yibin Wang,Jiaxi Xie,Lakshminarayanan Subramanian
Main category: cs.SE
TL;DR: EduBot是一个基于LLMs的智能编程助手,通过递归提示驱动方法解决复杂编程任务,包括教学、代码生成和调试,无需微调LLMs。
- Motivation: 探索预训练LLMs在多步推理和代码生成中的潜力,解决复杂编程任务中的递归需求和调试问题。
- Method: 结合概念教学、端到端代码开发、个性化编程和调试,通过递归提示驱动方法实现自动化。
- Result: 在20个场景的基准测试中,EduBot能在20分钟内完成大部分任务,并验证了其在不同LLMs上的兼容性和鲁棒性。
- Conclusion: EduBot展示了预训练LLMs在解决个性化编程任务中的潜力,为多步推理和代码生成提供了新思路。
[89] Validating Network Protocol Parsers with Traceable RFC Document Interpretation
Mingwei Zheng,Danning Xie,Qingkai Shi,Chengpeng Wang,Xiangyu Zhang
Main category: cs.SE
TL;DR: 该研究利用大语言模型(LLMs)解决网络协议实现验证中的oracle和traceability问题,通过将RFC文档转化为形式化协议消息规范,并逐步优化oracle,实现了高效的协议验证和错误追踪。
- Motivation: 网络协议实现的正确性验证面临oracle和traceability问题,现有方法很少同时解决这两个问题。
- Method: 利用LLMs将RFC文档转化为形式化协议消息规范,作为quasi-oracle验证协议解析器,并通过验证结果逐步优化oracle。
- Result: 在9个网络协议及其C、Python、Go实现中检测到69个错误,其中36个已确认,性能优于现有方法。
- Conclusion: 该方法展示了基于自然语言规范自动化软件验证的潜力,减少了传统手动验证的需求。
[90] Towards Adaptive Software Agents for Debugging
Yacine Majdoub,Eya Ben Charrada,Haifa Touati
Main category: cs.SE
TL;DR: 提出了一种自适应多智能体设计,动态调整智能体数量和角色以优化调试效果,相比单次提示平均提升11%的修复效果。
- Motivation: 多智能体虽能提升LLM调试能力,但固定数量会增加成本和分散注意力,需动态调整以适应任务特性。
- Method: 设计自适应智能体系统,根据任务特性动态生成智能体数量和角色,无需预定义。
- Result: 智能体数量随代码复杂度变化,简单问题仅需一个智能体,复杂问题生成更多;修复效果平均提升11%。
- Conclusion: 自适应设计效果显著,未来可进一步优化以实现智能体自主规划和执行软件目标。
[91] Spatial Reasoner: A 3D Inference Pipeline for XR Applications
Steven Häsler,Philipp Ackermann
Main category: cs.SE
TL;DR: 提出了一种空间推理框架,将几何事实与符号谓词和关系结合,用于处理3D场景中的语义推理任务。
- Motivation: 现代XR系统需要能够以语义方式推理3D场景的AR/VR应用,但目前缺乏有效的空间推理方法。
- Method: 基于定向3D边界框表示,结合空间谓词(如拓扑、方向性等),构建空间知识图,并通过管道推理模型支持动态规则评估。
- Result: 框架能够高效地将几何数据转化为可操作知识,支持复杂3D环境中的空间查询和推理。
- Conclusion: 该框架为XR应用中的空间推理提供了可扩展且技术无关的解决方案,并丰富了机器学习、自然语言处理和规则系统。
[92] Paradigm shift on Coding Productivity Using GenAI
Liang Yu
Main category: cs.SE
TL;DR: 本文研究了生成式AI(GenAI)编码助手在电信和金融科技领域的应用,发现其对常规编码任务有生产力提升,但在复杂任务中表现受限。
- Motivation: 探讨GenAI在工业环境中对生产力的实际影响,填补实证研究的空白。
- Method: 通过调查和访谈电信与金融科技领域的专家,分析生产力影响因素。
- Result: GenAI在常规任务(如重构)中有效,但在复杂任务中因上下文感知不足而受限。
- Conclusion: 提出迭代提示优化和沉浸式开发环境等新范式,以提升GenAI的使用效果。
cs.CR
[93] Crypto-ncRNA: Non-coding RNA (ncRNA) Based Encryption Algorithm
Xu Wang,Yiquan Wang,Tin-yeh Huang
Main category: cs.CR
TL;DR: 提出了一种基于非编码RNA(ncRNA)的生物密码学框架crypto-ncRNA,用于生成抗量子计算的高熵密钥和不可预测的密文。
- Motivation: 传统密码系统在量子计算时代面临威胁,需要开发新型抗量子攻击的加密方法。
- Method: 通过将明文编码为RNA序列,利用RNA的动态折叠特性生成密钥,结合物理不可克隆性实现加密。
- Result: 实验表明,crypto-ncRNA在效率和可扩展性上优于RSA,并通过NIST随机性测试。
- Conclusion: crypto-ncRNA为抵御量子计算威胁提供了有前景的解决方案。
[94] Diffusion-Driven Universal Model Inversion Attack for Face Recognition
Hanrui Wang,Shuo Wang,Chun-Shien Lu,Isao Echizen
Main category: cs.CR
TL;DR: DiffUMI是一种无需训练的通用模型反演攻击方法,利用扩散模型高效重构面部图像,揭示面部识别系统的隐私风险。
- Motivation: 面部识别技术依赖敏感的生物特征数据,传统嵌入方法被认为隐私保护,但模型反演攻击仍能重构图像,现有方法需为目标模型单独训练生成器,计算成本高。
- Method: 提出DiffUMI,基于预训练扩散模型,无需训练目标特定生成器,通过优化对抗搜索实现高效高保真面部重构。
- Result: DiffUMI在隐私保护面部识别系统中取得先进成果,并首次利用模型反演区分非面部输入。
- Conclusion: DiffUMI展示了扩散模型在模型反演中的潜力,为评估面部识别系统隐私风险提供了新工具。
[95] LLMpatronous: Harnessing the Power of LLMs For Vulnerability Detection
Rajesh Yarra
Main category: cs.CR
TL;DR: 论文探讨了利用大型语言模型(LLM)进行漏洞检测的潜力与局限,提出结合RAG和MoA的创新方法以提升检测质量。
- Motivation: 传统网络安全工具存在高误报率和浅层代码理解问题,而现有机器学习方法因适用性不足和特征工程挑战效果不佳。
- Method: 采用检索增强生成(RAG)和混合代理(MoA)方法,结合LLM的优势并弥补其弱点。
- Result: 研究旨在提供更可靠、高效的AI驱动漏洞检测方案。
- Conclusion: 通过创新方法,论文为AI在软件安全领域的应用开辟了新路径。
[96] DeSIA: Attribute Inference Attacks Against Limited Fixed Aggregate Statistics
Yifeng Mao,Bozhidar Stevanoski,Yves-Alexandre de Montjoye
Main category: cs.CR
TL;DR: 论文提出了一种针对固定聚合统计数据的推断攻击框架DeSIA,并在美国人口普查PPMF数据集上验证其有效性,结果显示其优于基于重构的攻击方法。
- Motivation: 当前缺乏针对固定聚合统计数据的推断攻击方法,尤其是在仅发布少量统计数据时。
- Method: 提出DeSIA攻击框架,并在不同条件下(如噪声添加、统计量数量)测试其性能。
- Result: DeSIA在识别易受攻击用户时表现出色(真阳性率0.14,假阳性率10^-3),且适应性强。
- Conclusion: 仅靠聚合不足以保护隐私,需结合正式隐私机制和测试。
cs.RO
[97] Flow Matching Ergodic Coverage
Max Muchen Sun,Allison Pinosky,Todd Murphey
Main category: cs.RO
TL;DR: 本文提出了一种基于流匹配的遍历覆盖方法,解决了现有方法因遍历度量有限而性能受限的问题,并通过实验验证了其性能和计算效率。
- Motivation: 现有遍历覆盖方法受限于可用的遍历度量,限制了性能。本文旨在通过流匹配技术克服这一限制。
- Method: 采用流匹配技术,将其形式化为线性二次调节器问题,并利用生成推理中的替代遍历度量。
- Result: 实验表明,该方法在性能和计算效率上优于现有方法,适用于非线性动力学和实际机器人任务。
- Conclusion: 基于流匹配的遍历覆盖方法扩展了可用度量,提升了性能,且计算高效,适用于实际应用。
[98] Beyond Task and Motion Planning: Hierarchical Robot Planning with General-Purpose Policies
Benned Hedegaard,Ziyi Yang,Yichen Wei,Ahmed Jaafar,Stefanie Tellex,George Konidaris,Naman Shah
Main category: cs.RO
TL;DR: 提出了一种结合运动规划和闭环电机控制器的新方法,通过CIPs实现非组合预学习技能的分层规划。
- Motivation: 传统方法假设任务级机器人动作可简化为运动规划,但实际需处理超越运动学考虑的闭环控制器。
- Method: 使用Composable Interaction Primitives (CIPs)将闭环控制器集成到运动规划中。
- Result: 通过真实场景实验验证了TASP方法,展示移动机械臂如何结合运动规划和通用技能完成复杂任务。
- Conclusion: CIPs为机器人分层规划提供了灵活性和多样性,支持复杂任务的完成。
[99] Fuzzy-RRT for Obstacle Avoidance in a 2-DOF Semi-Autonomous Surgical Robotic Arm
Kaaustaaub Shankar,Wilhelm Louw,Bharadwaj Dogga,Nick Ernest,Tim Arnett,Kelly Cohen
Main category: cs.RO
TL;DR: AI驱动的半自主机器人手术通过改进的Fuzzy Rapidly-exploring Random Tree算法,显著提升了路径搜索时间和成本,适用于太空任务中的手术需求。
- Motivation: 解决长期星际任务中的医疗挑战,传统手术方法受限于通信延迟和人员不足。
- Method: 提出基于Fuzzy Rapidly-exploring Random Tree算法的两自由度机器人臂协作控制方法。
- Result: 路径搜索时间提升743%,路径成本降低43%。
- Conclusion: 该算法显著提升了机器人手术系统的效率和可行性,适用于太空任务。
[100] Sky-Drive: A Distributed Multi-Agent Simulation Platform for Socially-Aware and Human-AI Collaborative Future Transportation
Zilin Huang,Zihao Sheng,Zhengyang Wan,Yansong Qu,Yuhao Luo,Boyue Wang,Pei Li,Yen-Jung Chen,Jiancong Chen,Keke Long,Jiayi Meng,Yue Leng,Sikai Chen
Main category: cs.RO
TL;DR: Sky-Drive是一个分布式多智能体仿真平台,通过四项创新技术解决现有模拟器在社会感知驾驶和人类-AI协作方面的不足。
- Motivation: 现有仿真平台未能满足未来交通研究的需求,特别是在社会感知驾驶和人类-AI协作方面。
- Method: 采用分布式架构、多模态人机交互框架、人类-AI协作机制和数字孪生技术。
- Result: Sky-Drive支持多种应用,如自动驾驶与弱势道路用户交互建模、社会感知强化学习等。
- Conclusion: Sky-Drive有望成为下一代社会感知和以人为中心的自动驾驶研究的基础平台。
[101] Opportunistic Collaborative Planning with Large Vision Model Guided Control and Joint Query-Service Optimization
Jiayi Chen,Shuai Wang,Guoliang Li,Wei Xu,Guangxu Zhu,Derrick Wing Kwan Ng,Chengzhong Xu
Main category: cs.RO
TL;DR: 提出了一种机会协作规划(OCP)方法,通过结合本地模型和云端大模型,优化自动驾驶车辆在开放场景中的导航性能。
- Motivation: 解决自动驾驶车辆在开放场景中处理未见物体时的挑战,现有方法要么泛化能力不足,要么资源消耗过大。
- Method: 1. 提出LVM-MPC,利用云端大模型进行感知和决策,为本地MPC提供全局指导;2. 提出CTO(包括ODCT和CFS),优化大模型查询和服务的时机。
- Result: 实验表明,OCP在导航时间和成功率上优于现有方法。
- Conclusion: OCP通过本地与云端模型的协作,显著提升了自动驾驶车辆在复杂场景中的性能。
[102] Depth-Constrained ASV Navigation with Deep RL and Limited Sensing
Amirhossein Zhalehmehrabi,Daniele Meli,Francesco Dal Santo,Francesco Trotti,Alessandro Farinelli
Main category: cs.RO
TL;DR: 提出了一种结合强化学习和高斯过程的框架,用于自主水面车辆在浅水环境中的导航,解决了传感器信息有限的问题,并通过模拟到现实的迁移验证了有效性。
- Motivation: 浅水环境中自主水面车辆的导航面临动态干扰和深度限制的挑战,传统方法因传感器信息有限难以实现安全高效操作。
- Method: 结合强化学习框架和高斯过程回归,利用单波束测深仪稀疏数据逐步估计水深图,提升环境感知能力。
- Result: 实验证明该方法能提高导航性能,并在挑战性浅水环境中保持安全性。
- Conclusion: 该框架有效解决了浅水导航问题,并通过模拟到现实的迁移验证了其实际应用潜力。
[103] Set Phasers to Stun: Beaming Power and Control to Mobile Robots with Laser Light
Charles J. Carver,Hadleigh Schwartz,Toma Itagaki,Zachary Englhardt,Kechen Liu,Megan Graciela Nauli Manik,Chun-Cheng Chang,Vikram Iyer,Brian Plancher,Xia Zhou
Main category: cs.RO
TL;DR: Phaser是一个利用窄光束激光为移动机器人提供无线供电和通信的系统,结合了视觉跟踪和光束控制技术,实现了高效的能量传输和数据通信。
- Motivation: 为了解决移动机器人无线供电和通信的需求,同时提高能量传输效率和通信性能。
- Method: 设计了半自动校准程序,结合立体视觉3D跟踪和高功率光束控制,并利用激光作为数据通道进行低功耗通信。
- Result: 原型机实现了超过110 mW/cm²的光功率密度和多米范围内的无差错数据传输,功耗比蓝牙低97%。
- Conclusion: Phaser成功为无电池机器人提供高效供电和通信,显著提升了机器人的性能和功能。
[104] Action Flow Matching for Continual Robot Learning
Alejandro Murillo-Gonzalez,Lantao Liu
Main category: cs.RO
TL;DR: 论文提出了一种基于流匹配的生成框架,用于在线机器人动力学模型对齐,通过优化动作而非探索,提高数据收集效率和任务成功率。
- Motivation: 解决机器人持续学习中的动力学模型对齐问题,应对安全适应、灾难性遗忘、异常管理等挑战。
- Method: 采用流匹配生成框架,优化动作以匹配对齐模型的行为,减少对重放缓冲区的依赖。
- Result: 在无人地面车辆和四旋翼平台上验证,任务成功率提高34.2%。
- Conclusion: 该方法在持续机器人学习中表现出高效性和适应性,具有潜在应用价值。
cs.CL
[105] Memory Reviving, Continuing Learning and Beyond: Evaluation of Pre-trained Encoders and Decoders for Multimodal Machine Translation
Zhuang Yu,Shiliang Sun,Jing Zhao,Tengfei Song,Hao Yang
Main category: cs.CL
TL;DR: 该论文研究了预训练编码器和解码器在多模态机器翻译(MMT)中的作用,发现预训练解码器能显著提升翻译质量,而预训练编码器的效果则取决于视觉-文本对齐的质量。
- Motivation: 探索预训练语言和视觉模型在多模态机器翻译中的有效性和作用,填补该领域的研究空白。
- Method: 系统研究了不同训练策略(从零训练到使用预训练及部分冻结组件)对翻译性能的影响,并在Multi30K和CoMMuTE数据集上进行实验。
- Result: 预训练在多模态环境中起关键但不对称作用:预训练解码器能生成更流畅准确的输出,而预训练编码器的效果因视觉-文本对齐质量而异。
- Conclusion: 研究揭示了预训练组件与模态融合的相互作用,为未来多模态翻译系统的架构设计提供了指导。
[106] RAG LLMs are Not Safer: A Safety Analysis of Retrieval-Augmented Generation for Large Language Models
Bang An,Shiyue Zhang,Mark Dredze
Main category: cs.CL
TL;DR: 研究发现,RAG框架可能降低LLMs的安全性,现有安全评估方法对RAG效果不佳,需针对性研究。
- Motivation: 探讨RAG框架对LLMs安全性的影响,填补现有安全研究的空白。
- Method: 对11种LLMs进行RAG与非RAG框架的对比分析,评估现有红队方法的有效性。
- Result: RAG可能降低模型安全性,安全模型与安全文档组合仍可能生成不安全内容,现有红队方法对RAG效果较差。
- Conclusion: 需针对RAG LLMs开发专门的安全研究和红队方法。
[107] Exploring Personality-Aware Interactions in Salesperson Dialogue Agents
Sijia Cheng,Wen-Yu Chang,Yun-Nung Chen
Main category: cs.CL
TL;DR: 研究探讨了MBTI定义的用户人格对销售对话代理交互质量的影响,发现交互动态、任务完成率和对话自然性存在显著模式,并发布了跨领域用户模拟器。
- Motivation: 理解用户人格多样性对销售对话代理的影响,以提升其适应性和个性化能力。
- Method: 通过大规模测试和分析,评估预训练代理在不同MBTI用户类型中的表现。
- Result: 揭示了交互动态、任务完成率和对话自然性的显著模式,并开发了跨领域用户模拟器。
- Conclusion: 研究为构建适应性更强的销售对话代理提供了实用见解,并推动了跨领域个性化对话系统的发展。
[108] PropRAG: Guiding Retrieval with Beam Search over Proposition Paths
Jingjin Wang
Main category: cs.CL
TL;DR: PropRAG提出了一种基于命题路径的检索增强生成框架,通过高效的图遍历和预计算嵌入,避免了在线LLM推理成本,显著提升了复杂推理任务的性能。
- Motivation: 标准RAG方法无法捕捉人类记忆的关联性和上下文理解能力,而基于知识图谱的结构化RAG方法存在上下文丢失问题。PropRAG旨在解决这些问题。
- Method: PropRAG利用上下文丰富的命题和新型束搜索算法,显式发现多步推理链,完全避免在线LLM推理,依赖高效的图遍历和预计算嵌入。
- Result: PropRAG在多个数据集上取得了最先进的零样本召回率和F1分数,如PopQA(55.3%)、2Wiki(93.7%)、HotpotQA(97.0%)和MuSiQue(77.3%)。
- Conclusion: PropRAG通过更丰富的表示和显式的在线路径发现,推动了非参数持续学习的进展。
[109] Stabilizing Reasoning in Medical LLMs with Continued Pretraining and Reasoning Preference Optimization
Wataru Kawakami,Keita Suzuki,Junichiro Iwasawa
Main category: cs.CL
TL;DR: 论文介绍了Preferred-MedLLM-Qwen-72B,一个针对日本医学领域优化的72B参数模型,通过两阶段微调实现高准确性和稳定推理。
- Motivation: 解决大语言模型在医学领域应用中的事实准确性、语言限制及推理可靠性问题,以提升临床信任。
- Method: 采用两阶段微调:1) 在日本医学语料库上进行持续预训练;2) 通过推理偏好优化增强可靠推理路径生成。
- Result: 在IgakuQA基准测试中达到0.868准确率,超越GPT-4o,且在生成解释时保持高准确性。
- Conclusion: 优化可靠解释与准确性同等重要,模型权重已公开以促进可信赖LLM研究。
[110] Random-Set Large Language Models
Muhammad Mubashar,Shireen Kudukkil Manchingal,Fabio Cuzzolin
Main category: cs.CL
TL;DR: 论文提出了一种随机集大语言模型(RSLLM),用于量化LLM生成文本的不确定性,通过预测有限随机集(信念函数)而非传统概率向量,并结合分层聚类方法提高效率。实验表明RSLLM在CoQA和OBQA数据集上优于标准模型,并能有效估计预测的不确定性。
- Motivation: 研究LLM生成文本的可信度问题,提出不确定性量化方法,以解决传统LLM仅输出概率向量而无法充分表达不确定性的局限。
- Method: 提出RSLLM模型,预测有限随机集(信念函数),并通过分层聚类提取关键子集以提高效率。模型通过训练集的大小和多样性编码认知不确定性。
- Result: 在CoQA和OBQA数据集上,RSLLM表现优于标准模型,提高了答案正确性,并能估计第二层不确定性及检测幻觉现象。
- Conclusion: RSLLM为LLM的不确定性量化提供了有效方法,增强了生成文本的可信度和实用性。
[111] Application and Optimization of Large Models Based on Prompt Tuning for Fact-Check-Worthiness Estimation
Yinglong Yu,Hao Shen,Zhengyi Lyu,Qi He
Main category: cs.CL
TL;DR: 本文提出了一种基于提示调优的事实核查价值估计分类方法,通过设计提示模板并利用大型语言模型,提高了在有限或无标签数据下判断事实核查价值的准确性。实验表明,该方法在F1分数和准确率等指标上优于或匹配BERT、GPT-3.5和GPT-4等基线模型。
- Motivation: 全球化和信息化背景下,错误信息问题日益严重,需要一种高效的方法来评估事实核查的价值。
- Method: 采用提示调优技术,设计提示模板并应用于大型语言模型,实现上下文学习,优化事实核查价值估计的分类任务。
- Result: 在公开数据集上的实验显示,该方法在F1分数和准确率上优于或匹配BERT、GPT-3.5和GPT-4等基线模型。
- Conclusion: 基于提示调优的方法在事实核查价值估计任务中表现出有效性和先进性。
[112] Evaluating Evaluation Metrics -- The Mirage of Hallucination Detection
Atharva Kulkarni,Yuan Zhang,Joel Ruben Antony Moniz,Xiou Ge,Bo-Hsiang Tseng,Dhivya Piraviperumal,Swabha Swayamdipta,Hong Yu
Main category: cs.CL
TL;DR: 本文通过大规模实证评估揭示了当前幻觉检测指标的不足,发现LLM(如GPT-4)评估效果最佳,并提出需要更鲁棒的指标和缓解策略。
- Motivation: 语言模型的幻觉问题严重阻碍其可靠性和广泛应用,但现有评估指标的鲁棒性和泛化能力尚未得到验证。
- Method: 对6组幻觉检测指标在4个数据集、37个语言模型和5种解码方法上进行大规模评估。
- Result: 发现当前指标与人类判断不一致、视野狭窄且参数扩展效果不一致,但LLM(如GPT-4)评估效果最佳,模式搜索解码方法能减少幻觉。
- Conclusion: 需开发更鲁棒的幻觉评估指标和缓解策略,以提升语言模型的可靠性。
[113] EDU-NER-2025: Named Entity Recognition in Urdu Educational Texts using XLM-RoBERTa with X (formerly Twitter)
Fida Ullah,Muhammad Ahmad,Muhammad Tayyab Zamir,Muhammad Arif,Grigori sidorov,Edgardo Manuel Felipe Riverón,Alexander Gelbukh
Main category: cs.CL
TL;DR: 该论文针对乌尔都语教育领域命名实体识别(NER)的不足,创建了一个名为EDU-NER-2025的手动标注数据集,并分析了标注过程中的挑战和乌尔都语的语言复杂性。
- Motivation: 乌尔都语在教育领域的命名实体识别研究不足,缺乏标注数据集,导致现有模型难以准确识别学术角色、课程名称等实体。
- Method: 创建了EDU-NER-2025手动标注数据集,包含13个教育领域实体;详细描述了标注过程和指南;分析了乌尔都语的语言挑战。
- Result: 成功构建了首个乌尔都语教育领域NER数据集,并总结了标注过程中的挑战和语言复杂性。
- Conclusion: 该研究填补了乌尔都语教育领域NER数据集的空白,为未来研究提供了资源和方法参考。
[114] Aligning Language Models for Icelandic Legal Text Summarization
Þórir Hrafn Harðarson,Hrafn Loftsson,Stefán Ólafsson
Main category: cs.CL
TL;DR: 研究探讨基于偏好的训练方法(如RLHF和DPO)是否能提升语言模型在冰岛法律摘要生成中的表现,结果显示偏好训练提高了法律准确性,但对语言质量改进不明显。
- Motivation: 法律领域的语言模型应用潜力大,但专业术语和正式语言风格带来挑战,需探索更有效的训练方法。
- Method: 比较偏好训练(RLHF和DPO)与传统监督学习在冰岛法律摘要生成中的表现。
- Result: 偏好训练提高了法律准确性,但对冰岛语言质量的提升不显著;自动指标与人工评估存在差异。
- Conclusion: 偏好训练在法律领域有潜力,但需结合定性评估以优化语言模型表现。
[115] Efficient Single-Pass Training for Multi-Turn Reasoning
Ritesh Goru,Shanay Mehta,Prateek Jain
Main category: cs.CL
TL;DR: 论文提出了一种通过响应令牌复制和自定义注意力掩码的方法,解决了在多轮推理数据上微调LLMs时无法单次前向处理的问题,显著减少了训练时间。
- Motivation: 在多轮推理任务中,LLMs生成的推理令牌被排除在后续输入之外,导致无法单次前向处理整个对话,限制了训练效率。
- Method: 采用响应令牌复制和自定义注意力掩码,确保适当的可见性约束,从而支持单次前向处理。
- Result: 该方法显著减少了训练时间,实现了在多轮推理数据集上的高效微调。
- Conclusion: 提出的方法有效解决了多轮推理数据微调中的限制,为LLMs的高效训练提供了新思路。
[116] Comparing Uncertainty Measurement and Mitigation Methods for Large Language Models: A Systematic Review
Toghrul Abbasli,Kentaroh Toyoda,Yuan Wang,Leon Witt,Muhammad Asif Ali,Yukai Miao,Dan Li,Qingsong Wei
Main category: cs.CL
TL;DR: 该论文系统综述了大语言模型(LLMs)的不确定性量化(UQ)和校准方法,填补了文献空白,并提出了一个严格的基准测试。
- Motivation: LLMs的幻觉问题(输出错误信息)是主要挑战之一,但现有文献缺乏对其UQ和校准方法的深入分析和综合比较。
- Method: 通过系统综述代表性文献,引入一个严格的基准测试,并使用两个可靠性数据集对六种相关方法进行实证评估。
- Result: 实证评估验证了综述的重要发现,并为LLMs的UQ和校准方法提供了新的见解。
- Conclusion: 该研究填补了LLMs领域UQ和校准方法的空白,并提出了未来研究方向和开放挑战。
[117] Pushing the boundary on Natural Language Inference
Pablo Miralles-González,Javier Huertas-Tato,Alejandro Martín,David Camacho
Main category: cs.CL
TL;DR: 论文提出了一种基于强化学习的NLI方法,使用GRPO和CoT学习,无需标注数据,并在多个模型规模上验证了性能。
- Motivation: 当前NLI系统依赖监督学习,存在数据集偏差和泛化能力不足的问题。
- Method: 采用GRPO和CoT学习的强化学习方法,结合LoRA和QLoRA参数高效技术微调模型。
- Result: 32B量化模型在多项对抗性测试中超越现有技术,内存占用仅22GB。
- Conclusion: 该方法为构建鲁棒NLI系统提供了可扩展且实用的框架。
[118] DREAM: Disentangling Risks to Enhance Safety Alignment in Multimodal Large Language Models
Jianyu Liu,Hangyu Guo,Ranjie Duan,Xingyuan Bu,Yancheng He,Shilong Li,Hui Huang,Jiaheng Liu,Yucheng Wang,Chenchen Jing,Xingwei Qu,Xiao Zhang,Yingshui Tan,Yanan Wu,Jihao Gu,Yangguang Li,Jianke Zhu
Main category: cs.CL
TL;DR: 论文提出DREAM方法,通过多模态风险解耦和强化学习提升MLLMs的安全性,实验显示其效果优于GPT-4V。
- Motivation: 多模态大语言模型(MLLMs)因整合视觉和文本数据而面临独特的安全挑战,需解决潜在攻击和复杂风险组合。
- Method: 采用多模态风险解耦分析,结合监督微调和迭代强化学习(RLAIF),提出DREAM方法。
- Result: DREAM显著提升安全性(SIUO得分提高16.17%),且不影响正常任务性能。
- Conclusion: DREAM通过风险解耦和强化学习有效增强MLLMs的安全对齐,具有实际应用价值。
[119] TextTIGER: Text-based Intelligent Generation with Entity Prompt Refinement for Text-to-Image Generation
Shintaro Ozaki,Kazuki Hayashi,Yusuke Sakai,Jingun Kwon,Hidetaka Kamigaito,Katsuhiko Hayashi,Manabu Okumura,Taro Watanabe
Main category: cs.CL
TL;DR: TextTIGER通过增强和总结实体描述来提升图像生成性能,实验证明其优于仅使用标题提示的方法。
- Motivation: 解决图像生成中实体知识记忆不足的问题,因实体数量庞大且持续增加。
- Method: 提出TextTIGER,利用LLM增强和总结实体描述,减少长输入的性能下降。
- Result: 在IS、FID和CLIPScore等指标上表现优于仅用标题提示的方法,且总结的描述更丰富。
- Conclusion: 增强和总结实体描述能有效提升图像生成能力。
[120] Fast-Slow Thinking for Large Vision-Language Model Reasoning
Wenyi Xiao,Leilei Gan,Weilong Dai,Wanggui He,Ziwei Huang,Haoyuan Li,Fangxun Shu,Zhelun Yu,Peng Zhang,Hao Jiang,Fei Wu
Main category: cs.CL
TL;DR: FAST框架通过动态调整推理深度,解决了大型视觉语言模型(LVLM)的“过度思考”问题,显著提升了准确性并减少了计算资源消耗。
- Motivation: 大型视觉语言模型(LVLM)存在“过度思考”现象,即在所有任务中生成冗长的推理,无论问题是否需要。
- Method: 提出了FAST框架,包括三个组件:基于模型的指标用于问题特征化、自适应推理奖励机制和难度感知的KL正则化。
- Result: 在七个推理基准测试中,FAST实现了最先进的准确性,相对基础模型提升了10%以上,同时减少了32.7-67.3%的token使用。
- Conclusion: FAST框架有效平衡了推理长度和准确性,为LVLM的优化提供了新思路。
cs.CY
[121] The Cloud Weaving Model for AI development
Darcy Kim,Aida Kalender,Sennay Ghebreab,Giovanni Sileno
Main category: cs.CY
TL;DR: 论文提出了一种名为“Cloud Weaving Model”的概念框架,用于将AI开发与社会背景结合,特别关注边缘化社区。
- Motivation: 现有范式难以表达边缘化社区在AI开发中的挑战,需要一种新的框架来更好地理解和应对这些挑战。
- Method: 基于土著知识、自然图案和东方传统,构建了“Cloud Weaving Model”,并详细解释其核心元素(云、蜘蛛、线、蜘蛛网和天气)在AI中的含义。
- Result: 该框架成功应用于分析边缘化社区的共同创造试点项目,揭示了负责任AI开发中被忽视的维度。
- Conclusion: “Cloud Weaving Model”为AI开发提供了一种与社会背景紧密结合的新视角,特别适用于边缘化社区。
[122] The Role of Open-Source LLMs in Shaping the Future of GeoAI
Xiao Huang,Zhengzhong Tu,Xinyue Ye,Michael Goodchild
Main category: cs.CY
TL;DR: 开源大语言模型(LLMs)在GeoAI中的重要性,强调其定制化、互操作性和透明性优势,但也需关注安全、伦理和治理问题。
- Motivation: 探讨开源LLMs如何推动地理信息科学(GIScience)的创新,同时解决其潜在风险。
- Method: 分析开源与专有LLMs的对比,强调开源在适应性、可重复性和社区驱动创新方面的优势。
- Result: 开源LLMs为GeoAI提供了多样化、可互操作的生态系统,促进空间研究和决策支持。
- Conclusion: GIScience应通过开源与专有模型的结合,构建负责任、可持续的AI发展策略。
[123] AI Ethics and Social Norms: Exploring ChatGPT's Capabilities From What to How
Omid Veisi,Sasan Bahrami,Roman Englert,Claudia Müller
Main category: cs.CY
TL;DR: 研究探讨了ChatGPT在医疗、协作工作和社会计算中的伦理与社会规范问题,通过混合方法研究发现其存在透明度和偏见等伦理障碍。
- Motivation: 确保AI工具如ChatGPT在人类生活中的安全融入,需评估其是否符合伦理和社会规范。
- Method: 采用混合方法研究,包括111人的在线调查和38位专家的访谈。
- Result: 研究发现ChatGPT在伦理和社会规范方面存在透明度和偏见问题,涉及六个关键伦理领域。
- Conclusion: 研究为AI伦理提供了初步见解,强调透明度和偏见是ChatGPT的主要伦理挑战。
eess.SP
[124] Material Identification Via RFID For Smart Shopping
David Wang,Derek Goh,Jiale Zhang
Main category: eess.SP
TL;DR: 论文提出了一种利用RFID标签信号衰减和散射特性检测隐藏物品的系统,结合神经网络分类和距离测量,实现了高精度的实时防盗。
- Motivation: 解决无人商店中隐藏物品(如背包、口袋中的商品)导致的盗窃问题。
- Method: 利用RFID标签的RSSI和相位角数据训练神经网络,分类七种常见容器,并结合距离测量提高准确性。
- Result: 在模拟零售环境中,系统对一秒样本的分类准确率达89%,单次读取为74%;结合距离测量后,0.3-2米范围内准确率为82%。
- Conclusion: 该系统通过结合RFID信号分析和计算机视觉,实现了对隐藏物品的实时检测,提升了无人商店的防盗能力。
econ.GN
[125] Artificial Intelligence health advice accuracy varies across languages and contexts
Prashant Garg,Thiemo Fetzer
Main category: econ.GN
TL;DR: 论文评估了六种大型语言模型在21种语言中的表现,发现尽管在英语教科书类问题上准确性高,但在非欧洲语言和不同主题及来源上表现不稳定,强调了全球健康传播中多语言和领域感知验证的重要性。
- Motivation: 研究动机是评估大型语言模型在全球健康传播中的表现,特别是在多语言和多样化主题背景下的准确性。
- Method: 方法包括使用来自英国和欧盟注册的基本健康声明,以及9,100条经过记者审查的公共卫生断言,涵盖堕胎、COVID-19和政治等主题,来源从同行评审期刊到社交媒体。
- Result: 结果显示,模型在英语教科书类问题上表现良好,但在非欧洲语言和某些主题及来源上准确性下降。
- Conclusion: 结论强调了在全球健康传播中部署AI前,需进行全面的多语言和领域感知验证。
eess.AS
[126] Kimi-Audio Technical Report
KimiTeam,Ding Ding,Zeqian Ju,Yichong Leng,Songxiang Liu,Tong Liu,Zeyu Shang,Kai Shen,Wei Song,Xu Tan,Heyi Tang,Zhengtao Wang,Chu Wei,Yifei Xin,Xinran Xu,Jianwei Yu,Yutao Zhang,Xinyu Zhou,Y. Charles,Jun Chen,Yanru Chen,Yulun Du,Weiran He,Zhenxing Hu,Guokun Lai,Qingcheng Li,Yangyang Liu,Weidong Sun,Jianzhou Wang,Yuzhi Wang,Yuefeng Wu,Yuxin Wu,Dongchao Yang,Hao Yang,Ying Yang,Zhilin Yang,Aoxiong Yin,Ruibin Yuan,Yutong Zhang,Zaida Zhou
Main category: eess.AS
TL;DR: Kimi-Audio是一个开源的音频基础模型,擅长音频理解、生成和对话,通过创新的架构和大规模数据训练,在多个音频任务上达到最先进性能。
- Motivation: 开发一个多功能、高性能的音频基础模型,支持广泛的音频任务,并通过开源促进社区发展。
- Method: 采用12.5Hz音频分词器,设计基于LLM的新架构,结合流匹配的分块流式解码器,利用超过1300万小时的预训练数据和高质量后训练数据。
- Result: 在语音识别、音频理解、问答和对话等任务上表现优异,达到最先进水平。
- Conclusion: Kimi-Audio是一个强大的音频基础模型,通过开源代码和工具包推动音频领域的研究和应用。
cs.LG
[127] CaRL: Learning Scalable Planning Policies with Simple Rewards
Bernhard Jaeger,Daniel Dauner,Jens Beißwenger,Simon Gerstenecker,Kashyap Chitta,Andreas Geiger
Main category: cs.LG
TL;DR: 论文研究了强化学习在自动驾驶特权规划中的应用,提出了一种基于路线完成度的简单奖励设计,显著提升了PPO算法的可扩展性和性能。
- Motivation: 现有自动驾驶规划方法多为基于规则的,难以应对复杂场景;而传统强化学习方法因复杂的奖励设计限制了可扩展性。
- Method: 提出了一种以路线完成度为核心的简单奖励设计,并通过分布式数据并行技术扩展PPO算法。
- Result: 在CARLA和nuPlan数据集上,该方法显著优于其他复杂奖励设计的强化学习方法,性能提升明显。
- Conclusion: 简单奖励设计结合大规模并行训练可显著提升强化学习在自动驾驶规划中的性能和可扩展性。
[128] Avoiding Leakage Poisoning: Concept Interventions Under Distribution Shifts
Mateo Espinosa Zarlenga,Gabriele Dominici,Pietro Barbiero,Zohreh Shams,Mateja Jamnik
Main category: cs.LG
TL;DR: 研究概念模型(CMs)在分布外(OOD)输入下的表现,发现现有CMs存在泄漏中毒问题,并提出MixCEM模型以动态利用泄漏信息,显著提升性能。
- Motivation: 探讨概念模型在OOD输入下的表现及概念干预的影响,揭示现有模型的局限性。
- Method: 提出MixCEM模型,动态利用泄漏信息,改进概念模型的性能。
- Result: MixCEM在有无概念干预的情况下,均显著优于基线模型,提升分布内和OOD样本的准确性。
- Conclusion: MixCEM有效解决了现有CMs的泄漏中毒问题,提升了模型在OOD输入下的鲁棒性。
[129] Addressing Concept Mislabeling in Concept Bottleneck Models Through Preference Optimization
Emiliano Penaloza,Tianyue H. Zhan,Laurent Charlin,Mateo Espinosa Zarlenga
Main category: cs.LG
TL;DR: 论文提出了一种新的损失函数CPO,用于解决概念瓶颈模型(CBMs)中概念标签错误的问题,显著提升了性能。
- Motivation: CBMs依赖准确的概念标签,但实际数据中标签错误会显著降低模型性能(可达25%)。
- Method: 引入基于直接偏好优化的CPO目标函数,优化概念的后验分布,对标签噪声更鲁棒。
- Result: CPO在三个真实数据集上均优于传统BCE损失函数,尤其在标签噪声存在时表现更佳。
- Conclusion: CPO有效解决了CBMs中概念标签错误的问题,提升了模型的鲁棒性和性能。
[130] Privacy-Preserving Personalized Federated Learning for Distributed Photovoltaic Disaggregation under Statistical Heterogeneity
Xiaolu Chen,Chenghao Huang,Yanru Zhang,Hao Wang
Main category: cs.LG
TL;DR: 论文提出了一种基于个性化联邦学习(PFL)的分布式光伏分解框架,通过结合本地和全局建模解决统计异质性问题,提高了光伏发电量估计的准确性和鲁棒性。
- Motivation: 分布式光伏(PV)的快速增长对能源管理和电网运行提出了挑战,尤其是无法直接观测的PV发电量。隐私问题和大规模训练数据的需求使得联邦学习成为有前景的解决方案,但统计异质性带来了新的挑战。
- Method: 采用两层次框架:本地层面设计基于Transformer的光伏分解模型,生成太阳辐照度嵌入;全局层面通过中央服务器聚合多数据中心信息。引入自适应本地聚合机制以减少统计异质性影响。
- Result: 实验证明该框架在真实数据上优于基准方法,提高了准确性和鲁棒性。
- Conclusion: 提出的隐私保护分布式光伏分解框架有效解决了统计异质性问题,为光伏发电量估计提供了更优的解决方案。
[131] Efficient GNN Training Through Structure-Aware Randomized Mini-Batching
Vignesh Balaji,Christos Kozyrakis,Gal Chechik,Haggai Maron
Main category: cs.LG
TL;DR: COMM-RAND是一种结合社区结构感知和随机性的GNN小批量训练方法,显著提升训练效率且保持高精度。
- Motivation: 现有GNN小批量训练方法在效率和结构感知之间存在矛盾,随机化方法忽略图结构,而确定性方法牺牲精度。
- Method: 提出COMM-RAND,在随机性和图结构感知之间找到平衡,优化GPU缓存使用。
- Result: 在四个基准测试中,COMM-RAND平均提速1.8倍,精度损失仅0.42%。
- Conclusion: COMM-RAND为GNN训练提供了高效且高精度的解决方案。
[132] Learning from Less: SINDy Surrogates in RL
Aniket Dixit,Muhammad Ibrahim Khan,Faizan Ahmed,James Brusey
Main category: cs.LG
TL;DR: 论文提出了一种利用SINDy算法为强化学习开发替代环境的方法,实验表明该方法能显著降低计算成本并保持高精度。
- Motivation: 为强化学习提供高效且可解释的替代环境,以减少计算成本并保持性能。
- Method: 使用SINDy算法构建替代环境,并在OpenAI Gym的Mountain Car和Lunar Lander环境中进行验证。
- Result: 替代模型能准确捕捉环境动态,计算成本降低20-35%,RL代理训练步数减少且性能与原环境相当。
- Conclusion: 该方法为基于模型的强化学习提供了一种高效且准确的替代环境生成方案。
[133] Offline Learning of Controllable Diverse Behaviors
Mathieu Petitbois,Rémy Portelas,Sylvain Lamprier,Ludovic Denoyer
Main category: cs.LG
TL;DR: 该论文提出了一种新的模仿学习方法,通过时间一致性和可控性解决传统方法在行为多样性和可控轨迹生成上的不足。
- Motivation: 传统模仿学习方法通常专注于从专家数据中学习单一策略,难以处理行为多样性或实现可控轨迹生成。
- Method: 提出基于时间一致性和行为潜在空间的方法,确保行为在整段轨迹中的一致性,并允许用户选择性激活特定行为。
- Result: 在多种任务和环境中与现有方法对比,证明了该方法的有效性。
- Conclusion: 新方法在行为多样性和可控性方面优于现有技术,为模仿学习提供了更灵活的解决方案。
[134] Learning to fuse: dynamic integration of multi-source data for accurate battery lifespan prediction
He Shanxuan,Lin Zuhong,Yu Bolun,Gao Xu,Long Biao,Yao Jingjing
Main category: cs.LG
TL;DR: 提出了一种混合学习框架,结合动态多源数据融合和堆叠集成模型,用于精确预测锂离子电池寿命。
- Motivation: 锂离子电池寿命预测对电动汽车和智能电网等应用的可靠性和维护成本至关重要。
- Method: 整合NASA、CALCE、TRC和NCA数据集,采用基于熵的动态加权机制,结合Ridge回归、LSTM和XGBoost的堆叠集成模型。
- Result: MAE为0.0058,RMSE为0.0092,R2为0.9839,性能优于基线模型。
- Conclusion: 该框架可扩展且可解释,有助于优化电池健康管理。
[135] Neural operators struggle to learn complex PDEs in pedestrian mobility: Hughes model case study
Prajwal Chauhan,Salah Eddine Choutri,Mohamed Ghattassi,Nader Masmoudi,Saif Eddin Jabari
Main category: cs.LG
TL;DR: 论文研究了神经算子在解决Hughes模型(一种用于人群动力学的双曲守恒律系统)时的局限性,发现其在复杂场景(如多初始间断和动态边界条件)中表现不佳,预测结果过于平滑,丢失了重要物理特征。
- Motivation: 探索神经算子在处理非线性双曲系统(如Hughes模型)时的能力,特别是在具有间断和复杂边界条件的场景中。
- Method: 评估了三种先进的神经算子(傅里叶神经算子、小波神经算子和多小波神经算子)在不同挑战性场景下的表现,包括间断和高斯初始条件以及多样边界条件。
- Result: 神经算子在简单场景中表现良好,但在复杂场景中预测结果过于平滑,丢失了间断特征,类似于人工扩散模型的问题。
- Conclusion: 当前神经算子架构可能引入不必要的正则化效应,限制了其捕捉间断主导的输运动态的能力,对交通应用中的冲击波保持提出了挑战。
[136] PHEATPRUNER: Interpretable Data-centric Feature Selection for Multivariate Time Series Classification through Persistent Homology
Anh-Duy Pham,Olivier Basole Kashongwe,Martin Atzmueller,Tim Römer
Main category: cs.LG
TL;DR: PHeatPruner结合持久同调和层理论,在保持或提升模型精度的同时,显著减少变量数量,并提供数据结构的解释性。
- Motivation: 解决多变量时间序列分类中性能与可解释性平衡的挑战。
- Method: 集成持久同调(减少变量)和层理论(提供解释性),无需后验概率或监督优化算法。
- Result: 在UEA Archive和奶牛乳腺炎数据集上验证,减少45%变量且保持精度。
- Conclusion: PHeatPruner在简化数据与提升可解释性方面表现优异,具有广泛应用潜力。
[137] Testing Individual Fairness in Graph Neural Networks
Roya Nasiri
Main category: cs.LG
TL;DR: 该论文旨在开发一个测试框架,用于评估和确保图神经网络(GNNs)中的个体公平性,填补了现有研究中关于GNNs个体公平性的空白。
- Motivation: AI模型中的偏见可能导致基于性别、种族等敏感属性的歧视性决策。尽管已有许多研究关注AI模型的偏见诊断和缓解,但GNNs中的个体公平性研究较少。GNNs的图结构特性使得偏见可能通过节点连接传播,增加了公平性问题的复杂性。
- Method: 1. 系统回顾个体公平性文献,建立分类法;2. 开发适用于GNNs的公平性测试框架,并扩展现有技术;3. 通过工业案例研究(如图基大语言模型)评估框架。
- Result: 预期开发一个能够有效测试和确保GNNs个体公平性的框架。
- Conclusion: 该研究将为GNNs中的个体公平性提供系统化的解决方案,填补研究空白,并推动公平AI的发展。
[138] Gradient Descent as a Shrinkage Operator for Spectral Bias
Simon Lucey
Main category: cs.LG
TL;DR: 论文探讨了激活函数与样条回归/平滑之间的联系,并分析了其对1D浅层网络频谱偏置的影响。通过将梯度下降(GD)重新解释为一种收缩算子,揭示了GD如何通过隐式选择频率分量来控制频谱偏置。
- Motivation: 研究激活函数选择如何影响神经网络的频谱偏置,并探索梯度下降在其中的作用。
- Method: 将梯度下降重新解释为收缩算子,分析其对神经网络Jacobian矩阵奇异值的掩蔽作用,并提出GD超参数与带宽的显式关系。
- Result: GD正则化仅对单调激活函数有效,非单调激活函数(如sinc、高斯)可作为频谱偏置的高效替代方案。
- Conclusion: 激活函数的选择和GD超参数的调整对控制频谱偏置至关重要,非单调激活函数在迭代效率上具有优势。
[139] Enhancing Pre-Trained Model-Based Class-Incremental Learning through Neural Collapse
Kun He,Zijian Song,Shuoxi Zhang,John E. Hopcroft
Main category: cs.LG
TL;DR: 该论文提出了一种基于神经崩溃(NC)的预训练模型类增量学习方法(NCPTM-CIL),通过动态调整特征空间以符合NC结构,显著提升了持续学习性能。
- Motivation: 理解预训练模型在类增量学习(CIL)中特征如何演化和分布是一个未解决的挑战,论文旨在通过神经崩溃现象解决这一问题。
- Method: 提出NCPTM-CIL方法,利用神经崩溃的几何特性动态调整特征空间,以优化持续学习过程。
- Result: 在四个基准数据集上,NCPTM-CIL表现优于现有方法,尤其在ViT-B/16-IN1K初始化下,性能提升显著。
- Conclusion: 通过神经崩溃现象优化特征空间分布,NCPTM-CIL为类增量学习提供了高效解决方案。
[140] Generalization Capability for Imitation Learning
Yixiao Wang
Main category: cs.LG
TL;DR: 该论文从信息论和数据分布的角度分析了模仿学习的泛化能力,提出了泛化差距的上界条件,并探讨了训练策略的设计。
- Motivation: 模仿学习在有限数据集上训练的模型泛化能力不足,需要理论指导以提升泛化性能。
- Method: 通过信息瓶颈和模型参数与训练数据的互信息来上界泛化差距,并分析条件熵对优化过程的影响。
- Result: 高条件熵能平坦化似然景观,减少泛化差距上界,并缩短SGD逃离局部极小值的时间。
- Conclusion: 提升输入数据多样性和输出标签变异性对模仿学习的泛化能力至关重要。
eess.IV
[141] A Deep Bayesian Convolutional Spiking Neural Network-based CAD system with Uncertainty Quantification for Medical Images Classification
Mohaddeseh Chegini,Ali Mahloojifar
Main category: eess.IV
TL;DR: 提出了一种基于深度贝叶斯卷积脉冲神经网络的CAD系统,通过蒙特卡洛Dropout方法量化不确定性,提高了医学图像分类的准确性和可靠性。
- Motivation: 传统深度SNN在医学图像分类中存在不可靠性问题,尤其是无法量化预测的不确定性。
- Method: 采用深度贝叶斯卷积脉冲神经网络,结合蒙特卡洛Dropout方法作为不确定性量化手段。
- Result: 实验证明该模型在多个医学图像分类任务中表现准确且可靠。
- Conclusion: 该模型是传统深度学习的有效替代方案,适用于医学图像分类。
[142] Predicting Dairy Calf Body Weight from Depth Images Using Deep Learning (YOLOv8) and Threshold Segmentation with Cross-Validation and Longitudinal Analysis
Mingsi Liao,Gota Morota,Ye Bi,Rebecca R. Cockrum
Main category: eess.IV
TL;DR: 该研究开发了基于深度学习的牛犊体重预测模型,通过图像分割和机器学习方法,实现了高精度的体重预测,为农场管理提供了自动化解决方案。
- Motivation: 牛犊断奶前的体重监测对评估生长、饲料效率、健康和断奶准备至关重要,但传统方法受限于人力、时间和设施。此外,荷斯坦牛犊的毛色图案增加了基于图像的体重估计难度,且少有研究探索早期非接触测量对后期体重的预测。
- Method: 研究开发了深度学习分割模型(YOLOv8),并与阈值方法进行比较;使用线性回归(LR)、极端梯度提升(XGBoost)和线性混合模型(LMM)进行单点和多点交叉验证。
- Result: YOLOv8分割效果优于阈值方法(IoU=0.98 vs. 0.89)。XGBoost在单点验证中表现最佳(R²=0.91,MAPE=4.37%),LMM在纵向预测中最准确(R²=0.99,MAPE=2.39%)。
- Conclusion: 深度学习在牛犊体重自动化预测中具有潜力,可显著提升农场管理效率。
[143] Spectral Bias Correction in PINNs for Myocardial Image Registration of Pathological Data
Bastien C. Baluyot,Marta Varela,Chen Qin
Main category: eess.IV
TL;DR: 提出了一种改进的物理信息神经网络(PINN)方法,通过傅里叶特征映射和调制策略解决谱偏问题,提高了心肌图像配准的准确性和生物力学合理性。
- Motivation: 心肌图像配准对心脏应变分析和疾病诊断至关重要,但神经网络的谱偏问题导致高频变形建模不准确,尤其在病理数据中。
- Method: 在PINN框架中集成傅里叶特征映射并引入调制策略,以解决谱偏问题。
- Result: 在两个数据集上的实验表明,该方法能更好地捕捉心肌病中的高频变形,配准准确性更高且保持生物力学合理性。
- Conclusion: 该方法为可扩展的心脏图像配准及跨患者和病理的泛化提供了基础。
[144] Physics-Driven Neural Compensation For Electrical Impedance Tomography
Chuyu Wang,Huiting Deng,Dong Liu
Main category: eess.IV
TL;DR: PhyNC是一种基于物理原理的无监督深度学习框架,用于解决EIT中的逆问题和灵敏度分布问题,显著提升了重建精度和鲁棒性。
- Motivation: EIT在医学和工业中有广泛应用潜力,但其逆问题的不适定性和灵敏度分布的空间变异性是主要挑战。传统方法未能同时解决这两个问题,而现有深度学习方法缺乏物理原理的支持。
- Method: 提出PhyNC框架,通过动态分配神经表示能力到低灵敏度区域,结合EIT的物理原理,实现无监督学习。
- Result: 在仿真和实验数据上,PhyNC在细节保留和抗伪影方面优于现有方法,尤其在低灵敏度区域表现突出。
- Conclusion: PhyNC不仅提升了EIT重建的鲁棒性,还为其他类似成像模态提供了灵活框架。
[145] A Multimodal Deep Learning Approach for White Matter Shape Prediction in Diffusion MRI Tractography
Yui Lo,Yuqian Chen,Dongnan Liu,Leo Zekelman,Jarrett Rushmore,Yogesh Rathi,Nikos Makris,Alexandra J. Golby,Fan Zhang,Weidong Cai,Lauren J. O'Donnell
Main category: eess.IV
TL;DR: Tract2Shape是一种多模态深度学习框架,用于快速预测白质纤维束的形状测量,优于现有方法,并展示了强大的跨数据集泛化能力。
- Motivation: 传统计算白质纤维束形状测量的方法计算成本高且耗时,限制了大规模数据集的分析。
- Method: 提出Tract2Shape,结合几何(点云)和标量(表格)特征,利用降维算法预测五种主要形状成分。
- Result: 在HCP-YA数据集上表现优于现有模型,并在PPMI数据集上展示了高泛化能力。
- Conclusion: Tract2Shape为大规模白质形状分析提供了高效、准确的解决方案。
[146] Towards a deep learning approach for classifying treatment response in glioblastomas
Ana Matoso,Catarina Passarinho,Marta P. Loureiro,José Maria Moreira,Patrícia Figueiredo,Rita G. Nunes
Main category: eess.IV
TL;DR: 该研究首次提出了一种基于深度学习的管道,用于根据连续两次MRI扫描对神经肿瘤学反应评估(RANO)标准进行分类,并在LUMIERE数据集上测试了多种方法,最终使用Densenet264模型取得了最佳性能。
- Motivation: 胶质母细胞瘤的治疗反应评估复杂且耗时,深度学习在分类问题中广泛应用,因此研究旨在实现首个基于RANO标准的深度学习分类管道。
- Method: 研究测试了五种方法:输入图像减法、不同模态组合、不同模型架构、不同预训练任务及添加临床数据。最佳性能管道使用Densenet264模型,仅输入T1、T2和FLAIR图像。
- Result: 最佳模型的平衡准确率为50.96%,并通过可解释性方法(如Saliency Maps)成功突出肿瘤区域,但Grad-CAM效果有限。
- Conclusion: 研究为未来基于RANO标准的胶质母细胞瘤治疗反应评估设定了基准,并强调了评估肿瘤治疗反应时可能涉及的异质性因素。
[147] NUDF: Neural Unsigned Distance Fields for high resolution 3D medical image segmentation
Kristine Sørensen,Oscar Camara,Ole de Backer,Klaus Kofoed,Rasmus Paulsen
Main category: eess.IV
TL;DR: 论文提出了一种基于神经无符号距离场(NUDF)的医学图像分割方法,解决了传统方法在高分辨率处理中的内存问题,并能够生成高精度的3D网格模型。
- Motivation: 传统医学图像分割方法在处理高分辨率图像时面临内存不足或细节丢失的问题,尤其是对于复杂解剖结构(如左心耳)。
- Method: 通过直接学习神经无符号距离场(NUDF),避免了传统二值体素网格的局限性,实现了高分辨率处理和连续表面建模。
- Result: 在左心耳(LAA)分割任务中,NUDF方法能够生成高精度的3D网格模型,精度达到CT图像体素间距级别。
- Conclusion: NUDF方法在医学图像分割中表现出色,尤其适用于复杂解剖结构的高分辨率建模。
[148] Partition Map-Based Fast Block Partitioning for VVC Inter Coding
Xinmin Feng,Zhuoyuan Li,Li Li,Dong Liu,Feng Wu
Main category: eess.IV
TL;DR: 提出一种基于分区图的快速块划分算法,用于VVC编码中的帧间编码,结合神经网络和双阈值决策方案,显著降低编码复杂度。
- Motivation: VVC编码中的QT+MTT块结构虽提高编码效率,但递归分区搜索增加了编码复杂度,需解决此问题。
- Method: 改进分区图,加入MTT掩码提前终止;设计神经网络利用时空特征预测分区图,并采用双阈值决策方案。
- Result: 实验结果显示,平均节省51.30%编码时间,BDBR仅增加2.12%。
- Conclusion: 该方法在降低复杂度的同时保持了良好的率失真性能。
[149] HepatoGEN: Generating Hepatobiliary Phase MRI with Perceptual and Adversarial Models
Jens Hooge,Gerard Sanroma-Guell,Faidra Stavropoulou,Alexander Ullmann,Gesine Knobloch,Mark Klemens,Carola Schmidt,Sabine Weckbach,Andreas Bolz
Main category: eess.IV
TL;DR: 该研究提出了一种基于深度学习的合成HBP图像方法,比较了三种生成模型(U-Net、pGAN、DDPM),旨在减少扫描时间并保持诊断效果。
- Motivation: HBP图像的获取时间较长,影响患者舒适度和扫描效率,因此需要一种高效替代方法。
- Method: 使用三种生成模型(U-Net、pGAN、DDPM)从早期对比阶段合成HBP图像,并引入CES评估数据质量。
- Result: pGAN定量表现最佳但存在异质性,U-Net一致性更好,DDPM表现较差。
- Conclusion: 合成HBP图像可行,能减少扫描时间且不损害诊断效果,展示了深度学习在肝脏MRI中的临床潜力。
[150] Nearly isotropic segmentation for medial temporal lobe subregions in multi-modality MRI
Yue Li,Pulkit Khandelwal,Long Xie,Laura E. M. Wisse,Nidhi Mundada,Christopher A. Brown,Emily McGrew,Amanda Denning,Sandhitsu R. Das,David A. Wolk,Paul A. Yushkevich
Main category: eess.IV
TL;DR: 提出了一种近乎各向同性的分割流程,结合图像和标签上采样,提高了T2加权MRI中MTL亚区厚度测量的准确性。
- Motivation: 解决T2加权MRI因低平面外分辨率导致的亚区厚度测量不准确问题。
- Method: 创建高分辨率图谱,结合图像和标签上采样,训练多模态深度学习分割模型。
- Result: 近乎各向同性的亚区分割提高了T2加权MRI中皮层厚度作为神经退行性生物标志物的准确性。
- Conclusion: 该方法显著提升了T2加权MRI在神经退行性疾病研究中的应用价值。
[151] RSFR: A Coarse-to-Fine Reconstruction Framework for Diffusion Tensor Cardiac MRI with Semantic-Aware Refinement
Jiahao Huang,Fanwen Wang,Pedro F. Ferreira,Haosen Zhang,Yinzhe Wu,Zhifan Gao,Lei Zhu,Angelica I. Aviles-Rivero,Carola-Bibiane Schonlieb,Andrew D. Scott,Zohya Khalique,Maria Dwornik,Ramyah Rajakulasingam,Ranil De Silva,Dudley J. Pennell,Guang Yang,Sonia Nielles-Vallespin
Main category: eess.IV
TL;DR: RSFR框架通过结合语义先验和视觉Mamba重建,解决了心脏DTI的技术挑战,提升了重建质量和参数估计准确性。
- Motivation: 心脏DTI在临床应用中受限于低信噪比、伪影和定量保真度问题,需要一种更有效的重建方法。
- Method: 提出RSFR框架,采用从粗到细的策略,结合Segment Anything Model的零样本语义先验和Vision Mamba重建骨干。
- Result: RSFR在高欠采样率下实现了最先进的重建质量和准确的DT参数估计,实验证明其优于现有方法。
- Conclusion: RSFR具有鲁棒性、可扩展性和临床转化潜力,为心脏DTI提供了有效的解决方案。
math.NA
[152] Outlier-aware Tensor Robust Principal Component Analysis with Self-guided Data Augmentation
Yangyang Xu,Kexin Li,Li Yang,You-Wei Wen
Main category: math.NA
TL;DR: 本文提出了一种自引导数据增强方法,通过自适应加权抑制异常值影响,将TRPCA问题转化为标准TPCA问题,提高了处理结构化噪声的能力。
- Motivation: 现有的TRPCA方法依赖稀疏异常假设,在结构化噪声下表现不佳,因此需要一种更鲁棒的方法。
- Method: 采用自适应加权策略动态识别和抑制异常值,提出了一种高效的近端块坐标下降算法,并保证理论收敛。
- Result: 实验表明,该方法在合成和真实数据集(如人脸恢复、背景减除和高光谱去噪)中优于现有方法。
- Conclusion: 该方法在准确性和计算效率上均有显著提升,适用于多种噪声模式。
cs.HC
[153] My Precious Crash Data: Barriers and Opportunities in Encouraging Autonomous Driving Companies to Share Safety-Critical Data
Hauke Sandhaus,Angel Hsing-Chi Hwang,Wendy Ju,Qian Yang
Main category: cs.HC
TL;DR: 本文探讨了自动驾驶公司不愿共享安全关键数据的原因,并提出促进数据共享的新方法。
- Motivation: 共享安全关键数据可提升自动驾驶安全性,但公司因竞争和资源问题不愿共享。
- Method: 通过访谈12名自动驾驶公司员工,分析数据共享的障碍。
- Result: 发现两大障碍:数据蕴含关键知识且资源密集,以及公司视其为竞争优势而非公共知识。
- Conclusion: 提出激励数据共享的新方法,包括区分公共与私人知识、创新数据工具及成本补偿。
[154] Evaluating Machine Expertise: How Graduate Students Develop Frameworks for Assessing GenAI Content
Celia Chen,Alex Leitch
Main category: cs.HC
TL;DR: 研究生如何评估与大型语言模型(LLM)交互中的机器生成内容,研究发现其评估框架受专业身份、验证能力和系统导航经验影响。
- Motivation: 探讨研究生在AI生成内容中如何构建评估框架,以理解人机交互模式。
- Method: 通过定性研究(调查、LLM交互记录和14名研究生的深度访谈)分析评估模式。
- Result: 学生评估框架受专业身份、验证能力和系统导航经验影响,不同领域学生保护其核心专业领域。
- Conclusion: 研究揭示了人机交互的新模式,建议平台支持用户构建更有效的评估框架。
Powered by Deepseek & arXiv Daily AI Enhanced