Skip to content
每日arXiv - 2025年4月26日

以下论文的arXiv类型标签包含:cs.CV、cs.AI

cs.CV

[1] Dense Air Pollution Estimation from Sparse in-situ Measurements and Satellite Data

Ruben Gonzalez Avilés,Linus Scheibenreif,Damian Borth

Main category: cs.CV

TL;DR: 本文提出了一种新的密集估计技术,用于高效估算全球环境中的二氧化氮浓度,显著降低了计算资源需求,并提高了准确性。

  • Motivation: 现有卫星空气质量估算方法计算量大且局限于点位置,无法满足大规模环境评估的需求。
  • Method: 采用均匀随机偏移采样策略,将地面数据均匀分散到更大区域,并通过密集估计方法一步生成网格估算。
  • Result: 新方法在MAE上比现有方法提高了9.45%,达到4.98 µg/m³,兼具高精度和计算效率。
  • Conclusion: 该方法为大规模环境监测提供了可行的解决方案,具有全球适用性和鲁棒性。

[2] DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs

Zhenhailong Wang,Senthil Purushwalkam,Caiming Xiong,Silvio Savarese,Heng Ji,Ran Xu

Main category: cs.CV

TL;DR: DyMU是一个无需训练的高效框架,动态减少视觉语言模型的计算负担,同时保持高性能。

  • Motivation: 解决视觉变换器中固定长度输出的低效问题,动态适应图像内容以减少计算成本。
  • Method: 结合动态令牌合并(DToMe)和虚拟令牌解合并(VTU),根据图像复杂度动态调整令牌数量。
  • Result: 实验显示,DyMU能将视觉令牌数量减少32%-85%,同时性能与完整模型相当。
  • Conclusion: DyMU无需训练即可动态优化计算成本,适用于多种先进视觉语言模型。

[3] PPS-Ctrl: Controllable Sim-to-Real Translation for Colonoscopy Depth Estimation

Xinqi Xiong,Andrea Dunn Beltran,Jun Myeong Choi,Marc Niethammer,Roni Sengupta

Main category: cs.CV

TL;DR: 提出了一种结合Stable Diffusion和ControlNet的图像转换框架,利用Per-Pixel Shading(PPS)图生成更真实的纹理,提升了深度估计的准确性。

  • Motivation: 临床环境中获取真实深度数据困难,合成数据与真实数据存在领域差距,限制了深度估计的泛化能力。
  • Method: 通过PPS图提取潜在表示,结合Stable Diffusion和ControlNet生成保留结构的真实纹理。
  • Result: 实验表明,该方法生成的图像更真实,深度估计性能优于基于GAN的MI-CycleGAN。
  • Conclusion: 提出的框架有效缩小了合成与真实数据的领域差距,提升了深度估计的准确性。

[4] Distilling semantically aware orders for autoregressive image generation

Rishav Pramanik,Antoine Poupon,Juan A. Rodriguez,Masih Aminbeidokhti,David Vazquez,Christopher Pal,Zhaozheng Yin,Marco Pedersoli

Main category: cs.CV

TL;DR: 论文提出了一种改进的自回归图像生成方法,通过训练模型以任意顺序生成图像块,并利用提取的顺序微调模型,从而生成更高质量的图像。

  • Motivation: 传统的自回归图像生成模型采用固定的光栅扫描顺序(从左到右、从上到下),但这种顺序可能不符合图像内容的因果关系,导致生成质量不佳。
  • Method: 首先训练模型以任意顺序生成图像块,推断内容和位置;然后利用提取的顺序微调模型。
  • Result: 实验表明,新方法在两种数据集上生成的图像质量优于传统光栅扫描方法,且训练成本和额外标注相同。
  • Conclusion: 通过优化生成顺序,自回归图像生成模型可以显著提升图像质量。

[5] Scene-Aware Location Modeling for Data Augmentation in Automotive Object Detection

Jens Petersen,Davide Abati,Amirhossein Habibian,Auke Wiggers

Main category: cs.CV

TL;DR: 论文提出了一种场景感知的概率位置模型,用于在现有场景中预测新对象的合理位置,并通过生成模型在这些位置填充对象,显著提升了数据增强的效果。

  • Motivation: 现有生成图像模型在视觉任务中的数据增强中,通常只关注生成对象的真实性或多样性,而忽略了场景中对象布局的合理性。
  • Method: 引入场景感知的概率位置模型,预测新对象在现有场景中的合理位置,并使用生成模型在这些位置填充对象。
  • Result: 在两项汽车目标检测任务中,实现了比现有方法更强的增强效果(最高提升1.4 mAP,比最佳竞争方法高2.8倍),并在实例分割中也有显著改进。
  • Conclusion: 通过关注对象布局的合理性,提出了更优的数据增强方法,显著提升了生成数据增强的性能。

[6] Transferring Spatial Filters via Tangent Space Alignment in Motor Imagery BCIs

Tekin Gunasar,Virginia de Sa

Main category: cs.CV

TL;DR: 提出了一种基于黎曼流形对齐协方差矩阵和改进CSP空间滤波器的方法,提升运动想象BCI中的跨被试迁移性能。

  • Motivation: 解决运动想象BCI中跨被试数据迁移性能不足的问题,尤其是在训练数据有限的情况下。
  • Method: 在黎曼流形上对齐协方差矩阵,并设计新的CSP空间滤波器,结合多被试信息。
  • Result: 在三个数据集上表现略优于标准CSP,训练数据有限时改进更显著。
  • Conclusion: 该方法在数据有限时能显著提升跨被试迁移性能,为BCI应用提供实用价值。

[7] Latent Video Dataset Distillation

Ning Li,Antai Andy Liu,Jingran Zhang,Justin Cui

Main category: cs.CV

TL;DR: 提出了一种新的视频数据集蒸馏方法,在潜在空间中操作,结合多样性感知数据选择和训练无关的压缩技术,性能优于现有方法。

  • Motivation: 现有视频数据集蒸馏方法主要在像素空间压缩,忽略了潜在空间的进展,本文旨在填补这一空白。
  • Method: 使用最先进的变分编码器在潜在空间进行蒸馏,采用多样性感知数据选择策略,并提出训练无关的压缩方法。
  • Result: 在所有数据集上性能优于现有方法,例如在HMDB51 IPC 1上提升2.6%,在MiniUCF IPC 5上提升7.8%。
  • Conclusion: 提出的方法在视频数据集蒸馏中实现了新的最佳性能,验证了潜在空间操作的有效性。

[8] A Comprehensive Review on RNA Subcellular Localization Prediction

Cece Zhang,Xuehuan Zhu,Nick Peterson,Jieqiong Wang,Shibiao Wan

Main category: cs.CV

TL;DR: 综述了基于AI/ML的RNA亚细胞定位预测方法的最新进展,涵盖序列、图像及混合方法,并讨论了挑战与机遇。

  • Motivation: 传统湿实验方法耗时耗力,AI/ML方法为大规模预测RNA亚细胞定位提供了高效替代方案。
  • Method: 综述了序列、图像及混合方法,结合AI/ML技术预测RNA亚细胞定位。
  • Result: AI/ML方法加速了RNA研究,揭示了分子通路,并为疾病治疗提供了指导。
  • Conclusion: 该综述为RNA亚细胞定位研究提供了资源,并指出了数据稀缺和基准缺乏等挑战。

[9] PhysioSync: Temporal and Cross-Modal Contrastive Learning Inspired by Physiological Synchronization for EEG-Based Emotion Recognition

Kai Cui,Jia Li,Yu Liu,Xuesong Zhang,Zhenzhen Hu,Meng Wang

Main category: cs.CV

TL;DR: PhysioSync是一个新的预训练框架,通过跨模态和时间对比学习,提升EEG信号的情感识别能力。

  • Motivation: EEG信号虽然能反映情感状态,但易受噪声和个体差异影响,且与PPS的动态同步关系未被充分研究。
  • Method: 提出PhysioSync框架,结合跨模态一致性对齐(CM-CA)和长短时程对比学习(LS-TCL),捕捉模态间和时间分辨率上的情感同步。
  • Result: 在DEAP和DREAMER数据集上,PhysioSync在单模态和跨模态条件下均表现出优越性能。
  • Conclusion: PhysioSync通过建模跨模态和时间动态关系,显著提升了EEG情感识别的效果。

[10] A Genealogy of Multi-Sensor Foundation Models in Remote Sensing

Kevin Lane,Morteza Karimzadeh

Main category: cs.CV

TL;DR: 本文探讨了遥感领域基础模型的现状,比较了不同方法的优缺点,并提出了未来改进方向,包括多传感器利用和减少计算资源需求。

  • Motivation: 遥感领域的基础模型发展迅速,但缺乏针对性的改进。本文旨在分析现有方法的优缺点,并提出未来研究方向。
  • Method: 通过比较计算机视觉领域的现有方法,分析其在遥感领域的适用性,并探讨多传感器数据的利用方式。
  • Result: 研究发现,现有方法在多传感器利用和计算资源需求方面存在不足,但潜力巨大。
  • Conclusion: 未来应进一步开发针对遥感的基础模型,充分利用多传感器数据和减少计算资源需求。

[11] We'll Fix it in Post: Improving Text-to-Video Generation with Neuro-Symbolic Feedback

Minkyu Choi,S P Sharan,Harsh Goel,Sahil Shah,Sandeep Chinchali

Main category: cs.CV

TL;DR: 提出了一种无需训练的零训练视频优化方法,通过神经符号反馈显著提升文本到视频生成的语义和时间一致性。

  • Motivation: 当前文本到视频生成模型在处理复杂提示时难以保持语义和时间一致性,且直接改进成本高昂。
  • Method: 引入神经符号反馈分析视频表示,定位不一致事件和对象,并指导针对性编辑。
  • Result: 在开源和专有模型上测试显示,该方法将时间与逻辑对齐提升近40%。
  • Conclusion: 该方法有效解决了复杂提示下的视频生成问题,且无需额外训练。

[12] Perspective-Aware Reasoning in Vision-Language Models via Mental Imagery Simulation

Phillip Y. Lee,Jihyeon Je,Chanho Park,Mikaela Angelina Uy,Leonidas Guibas,Minhyuk Sung

Main category: cs.CV

TL;DR: 提出了一种通过心理意象模拟实现视觉语言模型(VLM)的视角感知推理框架,显著提升了视角转换能力。

  • Motivation: 视角感知是人类视觉理解的关键能力,但现有VLM在此方面表现不足,存在自我中心偏见。
  • Method: 提出Abstract Perspective Change(APC)框架,利用视觉基础模型(如目标检测、分割和方向估计)构建场景抽象并实现视角转换。
  • Result: 在合成和真实图像基准测试中,APC框架显著优于现有VLM和空间推理模型。
  • Conclusion: APC框架有效缩小了VLM与人类视角感知能力的差距,为环境交互和自主代理协作提供了新思路。

[13] MCAF: Efficient Agent-based Video Understanding Framework through Multimodal Coarse-to-Fine Attention Focusing

Shiwen Cao,Zhaoxing Zhang,Junming Jiao,Juyi Qiao,Guowen Song,Rong Shen

Main category: cs.CV

TL;DR: MCAF是一种基于代理的无训练框架,通过多模态粗到细注意力聚焦实现视频理解,显著提升性能。

  • Motivation: 视频理解,尤其是长视频,信息冗余且复杂,需要模型全局分配注意力以提高准确性。
  • Method: MCAF通过多模态信息分层聚焦相关帧,并采用扩张时间扩展机制避免遗漏关键细节,结合自反馈机制迭代优化注意力分配。
  • Result: 在EgoSchema数据集上性能提升5%,在Next-QA和IntentQA数据集上分别提升0.2%和0.3%,在Video-MME数据集上也优于其他方法。
  • Conclusion: MCAF通过创新的注意力聚焦策略,显著提升了长视频理解的准确性和性能。

[14] Towards Generalizable Deepfake Detection with Spatial-Frequency Collaborative Learning and Hierarchical Cross-Modal Fusion

Mengyu Qiao,Runze Tian,Yang Wang

Main category: cs.CV

TL;DR: 提出了一种结合多尺度空间-频率分析的新型深度伪造检测框架,显著提升了检测精度和泛化能力。

  • Motivation: 深度生成模型的快速发展导致传统检测器在面对未见伪造时性能下降,现有方法未能充分利用频率域特征及其与空间域的交互。
  • Method: 框架包含局部和全局频谱特征提取管道,以及多阶段跨模态融合机制,结合离散余弦变换和多尺度卷积。
  • Result: 在广泛采用的基准测试中,该方法在准确性和泛化性上优于现有最优方法。
  • Conclusion: 该框架通过多尺度空间-频率分析有效解决了深度伪造检测的挑战。

[15] Visual and textual prompts for enhancing emotion recognition in video

Zhifeng Wang,Qixuan Zhang,Peter Zhang,Wenjia Niu,Kaihao Zhang,Ramesh Sankaranarayana,Sabrina Caldwell,Tom Gedeon

Main category: cs.CV

TL;DR: SoVTP框架通过整合空间标注、生理信号和上下文线索,提升了VLLMs在视频情绪识别中的零样本能力。

  • Motivation: 现有VLLMs在视频情绪识别中因空间和上下文意识不足而受限,传统方法忽视非语言线索。
  • Method: 提出SoVTP框架,结合空间标注、生理信号和上下文线索,形成统一提示策略。
  • Result: 实验表明SoVTP显著优于现有视觉提示方法。
  • Conclusion: SoVTP有效增强了VLLMs的视频情绪识别能力。

[16] Range Image-Based Implicit Neural Compression for LiDAR Point Clouds

Akihiro Kuwabara,Sorachi Kato,Takuya Fujihashi,Toshiaki Koike-Akino,Takashi Watanabe

Main category: cs.CV

TL;DR: 提出了一种基于隐式神经表示(INR)的LiDAR点云压缩方法,通过分块和像素级处理提升压缩效率,实验表明其在低比特率和解码延迟下优于现有方法。

  • Motivation: 传统图像压缩技术在处理LiDAR的2D范围图像(RIs)时效率有限,因位精度和像素值分布与自然图像不同,需新方法提升压缩性能。
  • Method: 将RIs分为深度和掩码图像,采用分块和像素级INR架构,结合模型剪枝和量化进行压缩。
  • Result: 在KITTI数据集上,该方法在3D重建和检测质量上优于现有压缩方法,尤其在低比特率和低延迟场景。
  • Conclusion: 基于INR的RI压缩方法高效且实用,为LiDAR点云压缩提供了新思路。

[17] Scene Perceived Image Perceptual Score (SPIPS): combining global and local perception for image quality assessment

Zhiqiang Lao,Heather Yu

Main category: cs.CV

TL;DR: 提出了一种结合深度学习与传统IQA指标的新方法,以更准确地评估图像质量,反映人类视觉感知。

  • Motivation: AI和智能手机的普及导致图像数据激增,传统IQA方法难以评估DNN处理的图像质量。
  • Method: 将深度特征分解为高级语义和低级感知细节,结合传统IQA指标,使用MLP生成质量评分。
  • Result: 实验表明,该方法比现有IQA模型更符合人类感知判断。
  • Conclusion: 新方法通过结合深度学习和传统指标,显著提升了图像质量评估的准确性。

[18] DIVE: Inverting Conditional Diffusion Models for Discriminative Tasks

Yinqi Li,Hong Chang,Ruibing Hou,Shiguang Shan,Xilin Chen

Main category: cs.CV

TL;DR: 该论文提出了一种利用预训练扩散模型进行判别性任务(如目标检测)的方法,通过优化和先验分布模型提升性能。

  • Motivation: 探索如何利用预训练生成扩散模型完成判别性任务,扩展其应用范围。
  • Method: 通过梯度离散优化和先验分布模型,反转预训练的布局到图像扩散模型。
  • Result: 在COCO数据集上性能与基础判别性目标检测方法相当,且显著加速了分类任务。
  • Conclusion: 该方法成功将生成扩散模型应用于判别性任务,并在速度和准确性上取得平衡。

[19] Precision Neural Network Quantization via Learnable Adaptive Modules

Wenqiang Zhou,Zhendong Yu,Xinyu Liu,Jiaming Yang,Rong Xiao,Tao Wang,Chenwei Tang,Jiancheng Lv

Main category: cs.CV

TL;DR: 本文提出了一种自适应步长量化方法(ASQ),通过动态调整量化参数和非均匀量化方案,解决了量化感知训练(QAT)中的灵活性问题,显著提升了模型性能。

  • Motivation: 量化感知训练(QAT)在压缩模型和提高效率的同时,可能因固定量化参数而牺牲灵活性,尤其是面对分布差异较大的激活值时。
  • Method: ASQ方法通过训练模块动态调整量化缩放因子,并采用基于平方根二的指数量化方案(POST),结合查找表(LUT)保持计算效率。
  • Result: 实验表明,ASQ优于现有QAT方法,4位量化的ResNet34在ImageNet上准确率提升1.2%。
  • Conclusion: ASQ通过自适应量化策略,在保持高效计算的同时,显著提升了量化模型的性能,甚至接近全精度基线。

[20] Towards Generalized and Training-Free Text-Guided Semantic Manipulation

Yu Hong,Xiao Cai,Pengpeng Zeng,Shuai Zhang,Jingkuan Song,Lianli Gao,Heng Tao Shen

Main category: cs.CV

TL;DR: 提出了一种名为GTF的新方法,用于文本引导的语义编辑,支持多种语义操作且无需训练,具有高效性和通用性。

  • Motivation: 现有方法效率低、扩展性差且通用性有限,而扩散模型中噪声的几何特性与语义变化相关,因此提出GTF以解决这些问题。
  • Method: 通过控制扩散模型中噪声的几何关系,实现多种语义操作(如添加、移除、风格迁移),无需微调或优化。
  • Result: 实验证明GTF能生成高质量结果,支持多模态任务,且具有即插即用的特性。
  • Conclusion: GTF在语义操作领域具有潜力,可推动技术前沿发展。

[21] EdgePoint2: Compact Descriptors for Superior Efficiency and Accuracy

Haodi Yao,Fenghua He,Ning Hao,Chen Xie

Main category: cs.CV

TL;DR: EdgePoint2是一种轻量级的关键点检测与描述神经网络,专为边缘计算设计,兼顾高效性与准确性。

  • Motivation: 深度学习在关键点提取中表现优异但计算成本高,难以部署于实时边缘应用,且高维描述符在分布式应用中效率不足。
  • Method: 提出EdgePoint2网络架构,结合正交Procrustes损失与相似性损失训练紧凑描述符,并提供14个子模型。
  • Result: 实验显示EdgePoint2在多种场景下均达到SOTA准确性与效率,且描述符维度更低(32/48/64)。
  • Conclusion: EdgePoint2在灵活性、鲁棒性和多功能性上表现突出,适用于多样化计算与通信约束的视觉任务。

[22] Advanced Segmentation of Diabetic Retinopathy Lesions Using DeepLabv3+

Meher Boulaabi,Takwa Ben Aïcha Gader,Afef Kacem Echi,Sameh Mbarek

Main category: cs.CV

TL;DR: 提出了一种针对糖尿病视网膜病变病变的二元分割方法,通过结合多个模型输出提升分割精度,最终达到99%的准确率。

  • Motivation: 解决糖尿病视网膜病变病变分割中的数据集限制和标注复杂性挑战。
  • Method: 采用DeepLabv3+模型,结合特定预处理(如裁剪和CLAHE)及数据增强技术。
  • Result: 在IDRID数据集上验证,分割准确率达到99%。
  • Conclusion: 创新策略在医学图像分析中有效,尤其在糖尿病视网膜病变病变的精确分割中表现突出。

[23] DIMT25@ICDAR2025: HW-TSC's End-to-End Document Image Machine Translation System Leveraging Large Vision-Language Model

Zhanglin Wu,Tengfei Song,Ning Xie,Weidong Zhang,Pengfei Li,Shuang Wu,Chong Li,Junhao Zhu,Hao Yang

Main category: cs.CV

TL;DR: 华为翻译服务中心提出了一种基于开源大视觉语言模型的端到端文档图像翻译系统,结合多任务学习和感知链式思维,支持OCR和无OCR任务。

  • Motivation: 解决复杂布局文档图像机器翻译的挑战,提供统一的框架处理OCR和无OCR任务。
  • Method: 结合多任务学习和感知链式思维的训练框架,采用最小贝叶斯解码和后处理策略优化推理。
  • Result: 展示了有效的文档图像机器翻译方法,系统性能得到提升。
  • Conclusion: 提出的方法为复杂布局文档翻译提供了高效解决方案,具有实际应用潜力。

[24] TimeChat-Online: 80% Visual Tokens are Naturally Redundant in Streaming Videos

Linli Yao,Yicheng Li,Yuancheng Wei,Lei Li,Shuhuai Ren,Yuanxin Liu,Kun Ouyang,Lean Wang,Shicheng Li,Sida Li,Lingpeng Kong,Qi Liu,Yuanxing Zhang,Xu Sun

Main category: cs.CV

TL;DR: TimeChat-Online是一种新型在线视频大语言模型,通过创新的差分令牌丢弃(DTD)模块高效处理实时视频流,减少冗余帧并保持高性能。

  • Motivation: 在线视频平台的快速增长,尤其是直播服务,对实时视频理解系统提出了迫切需求,现有视频大语言模型在流媒体场景中存在局限性。
  • Method: 提出DTD模块,受人类视觉感知的“变化盲视”现象启发,保留有意义的时间变化,过滤静态冗余内容。
  • Result: DTD减少了82.8%的视频令牌,同时保持98%的性能,表明流媒体视频中80%以上的内容是冗余的。TimeChat-Online在流媒体和长视频任务中表现优异。
  • Conclusion: TimeChat-Online通过DTD模块和主动响应能力,显著提升了实时视频交互的效率,为流媒体视频理解提供了新方向。

[25] DRC: Enhancing Personalized Image Generation via Disentangled Representation Composition

Yiyan Xu,Wuqiang Zheng,Wenjie Wang,Fengbin Zhu,Xinting Hu,Yang Zhang,Fuli Feng,Tat-Seng Chua

Main category: cs.CV

TL;DR: 论文提出了一种名为DRC的新型个性化图像生成框架,通过解耦表示组合增强LMMs,解决了现有方法在捕捉用户风格偏好和语义意图上的不足。

  • Motivation: 现有基于扩散模型、大语言模型或大型多模态模型(LMMs)的方法难以准确捕捉和融合用户的风格偏好与语义意图,导致生成的图像无法保留用户偏好或反映指定语义。
  • Method: DRC框架通过解耦表示学习(分离风格和语义特征)和个性化建模(语义保留增强)来生成用户特定的潜在指令,指导图像生成。
  • Result: 在两项基准测试中,DRC表现出竞争力,有效缓解了指导崩溃问题。
  • Conclusion: 解耦表示学习对可控且有效的个性化图像生成至关重要。

[26] I-INR: Iterative Implicit Neural Representations

Ali Haider,Muhammad Salman Ali,Maryam Qamar,Tahir Khalil,Soo Ye Kim,Jihyong Oh,Enzo Tartaglione,Sung-Ho Bae

Main category: cs.CV

TL;DR: 提出了一种名为I-INRs的迭代隐式神经表示框架,通过迭代细化提升信号重建质量,解决了传统INRs在高频细节和噪声处理上的不足。

  • Motivation: 传统隐式神经表示(INRs)因回归问题的固有特性,难以捕捉高频细节和有效处理噪声,限制了其性能。
  • Method: 提出I-INRs框架,通过迭代细化过程增强信号重建能力,兼容现有INRs架构。
  • Result: 实验表明,I-INRs在图像恢复、去噪和物体占用预测等任务中优于基线方法(如WIRE、SIREN和Gauss)。
  • Conclusion: I-INRs显著提升了信号重建质量,为计算机视觉任务提供了更优解决方案。

[27] TimeSoccer: An End-to-End Multimodal Large Language Model for Soccer Commentary Generation

Ling You,Wenxuan Huang,Xinni Xie,Xiangyi Wei,Bangyan Li,Shaohui Lin,Yang Li,Changbo Wang

Main category: cs.CV

TL;DR: TimeSoccer是首个端到端的足球多模态大语言模型,用于全场比赛的单锚点密集视频字幕生成,通过联合预测时间戳和生成字幕,实现全局上下文建模。

  • Motivation: 现有足球MLLMs依赖时间先验或复杂的两步范式,无法端到端处理长视频且性能不佳。
  • Method: 提出TimeSoccer,结合MoFA-Select模块自适应选择代表性帧,并通过互补训练范式增强长时序处理能力。
  • Result: 实验表明TimeSoccer在SDVC任务上达到最先进性能,生成高质量评论且时间对齐准确。
  • Conclusion: TimeSoccer解决了足球视频端到端处理的挑战,为长视频理解提供了有效方案。

[28] Highly Accurate and Diverse Traffic Data: The DeepScenario Open 3D Dataset

Oussema Dhaouadi,Johannes Meier,Luca Wahl,Jacques Kaiser,Luca Scalerandi,Nick Wandelburg,Zhuolun Zhou,Nijanthan Berinpanathan,Holger Banzhaf,Daniel Cremers

Main category: cs.CV

TL;DR: 论文介绍了DeepScenario Open 3D Dataset (DSC3D),一个高质量、无遮挡的6自由度轨迹数据集,通过无人机跟踪技术获取,旨在提升自动驾驶系统的环境感知能力。

  • Motivation: 传统数据集因固定传感器和遮挡问题限制了自动驾驶系统的环境感知能力,DSC3D通过无人机技术解决了这些问题。
  • Method: 采用单目相机无人机跟踪技术,采集了超过175,000条14类交通参与者的轨迹数据,覆盖多种复杂场景。
  • Result: DSC3D在多样性和规模上超越现有数据集,提供了前所未有的复杂场景数据,如高密度城市街道和停车场全流程。
  • Conclusion: DSC3D为自动驾驶系统提供了更详细的环境3D表示,有望提升障碍物交互和安全性,数据集已公开供研究使用。

[29] SDVPT: Semantic-Driven Visual Prompt Tuning for Open-World Object Counting

Yiming Zhao,Guorong Li,Laiyun Qing,Amin Beheshti,Jian Yang,Michael Sheng,Yuankai Qi,Qingming Huang

Main category: cs.CV

TL;DR: SDVPT框架通过两阶段视觉提示学习策略(CSPI和TGPR)提升预训练视觉语言模型在开放世界物体计数中的泛化能力。

  • Motivation: 现有方法仅关注训练类别的一致性,导致对未见类别的泛化能力有限。
  • Method: 提出两阶段视觉提示学习策略:CSPI生成类别特定提示,TGPR基于文本编码器提炼结构模式。推理时动态合成未见类别的提示。
  • Result: 在FSC-147、CARPK和PUCPR+数据集上验证了SDVPT的有效性和适应性。
  • Conclusion: SDVPT通过语义驱动的视觉提示调优,显著提升了开放世界物体计数的泛化能力。

[30] Fine-tune Smarter, Not Harder: Parameter-Efficient Fine-Tuning for Geospatial Foundation Models

Francesc Marti-Escofet,Benedikt Blumenstiel,Linus Scheibenreif,Paolo Fraccaro,Konrad Schindler

Main category: cs.CV

TL;DR: 论文探讨了参数高效微调(PEFT)技术在地球观测(EO)领域的应用,通过实验验证其在减少计算资源需求的同时保持或超越全微调性能的效果。

  • Motivation: 随着基础模型规模增大,全微调面临计算资源高、成本高的问题,且可能导致预训练特征遗忘和泛化能力下降。PEFT技术为解决这些问题提供了可能。
  • Method: 使用多种基础模型架构和PEFT技术,在五个不同的EO数据集上进行实验,评估其效果,并探讨架构选择(如解码器类型和元数据使用)的影响。
  • Result: PEFT技术在性能上匹配或超越全微调,同时提升模型对未见地理区域的泛化能力,并减少训练时间和内存需求。UNet解码器和无元数据微调为推荐配置。
  • Conclusion: PEFT技术为地球观测领域提供了一种高效、可扩展的模型微调方法,相关模型和技术已集成到开源工具TerraTorch中,支持快速、低成本的模型适配。

[31] S2S-Net: Addressing the Domain Gap of Heterogeneous Sensor Systems in LiDAR-Based Collective Perception

Sven Teufel,Jörg Gamerdinger,Oliver Bringmann

Main category: cs.CV

TL;DR: 论文提出S2S-Net解决V2V集体感知中的Sensor2Sensor域差距问题,并在SCOPE数据集上验证其性能。

  • Motivation: 解决CAV中因不同传感器系统导致的Sensor2Sensor域差距问题,填补现有数据集的不足。
  • Method: 提出S2S-Net架构,并在SCOPE数据集上进行域适应能力分析。
  • Result: S2S-Net在未见过的传感器域中保持高性能,并在SCOPE数据集上达到SOTA结果。
  • Conclusion: S2S-Net有效解决了Sensor2Sensor域差距问题,为集体感知提供了新思路。

[32] StereoMamba: Real-time and Robust Intraoperative Stereo Disparity Estimation via Long-range Spatial Dependencies

Xu Wang,Jialang Xu,Shuai Zhang,Baoru Huang,Danail Stoyanov,Evangelos B. Mazomenos

Main category: cs.CV

TL;DR: StereoMamba架构通过FE-Mamba和MFF模块,在RAMIS中实现了高精度、鲁棒性和快速推理的立体视差估计。

  • Motivation: 解决当前深度学习方法在机器人辅助微创手术中立体视差估计的精度、鲁棒性和推理速度之间的平衡问题。
  • Method: 提出StereoMamba架构,包含FE-Mamba模块增强长程空间依赖,以及MFF模块融合多尺度特征。
  • Result: 在SCARED基准测试中,EPE为2.64 px,深度MAE为2.55 mm,推理速度为21.28 FPS,SSIM和PSNR表现优异。
  • Conclusion: StereoMamba在精度、鲁棒性和效率之间取得了最佳平衡,并展示了强大的零样本泛化能力。

[33] 3DV-TON: Textured 3D-Guided Consistent Video Try-on via Diffusion Models

Min Wei,Chaohui Yu,Jingkai Zhou,Fan Wang

Main category: cs.CV

TL;DR: 3DV-TON是一种基于扩散的框架,用于生成高质量且时间一致的视频试穿效果,通过3D网格和动态引导解决现有方法的局限性。

  • Motivation: 现有视频试穿方法在复杂服装图案和多样姿态下难以保持高质量和时间一致性,需要改进。
  • Method: 采用生成的可动画纹理3D网格作为帧级引导,结合自适应管道(关键帧选择、3D网格重建与动画)和矩形掩码策略。
  • Result: 提出的方法在HR-VVT数据集上表现优于现有方法,生成高保真且时间一致的试穿效果。
  • Conclusion: 3DV-TON通过3D引导和动态管道显著提升了视频试穿的质量和一致性,为研究提供了新基准。

[34] Breaking the Modality Barrier: Universal Embedding Learning with Multimodal LLMs

Tiancheng Gu,Kaicheng Yang,Ziyong Feng,Xingjun Wang,Yanzhao Zhang,Dingkun Long,Yingda Chen,Weidong Cai,Jiankang Deng

Main category: cs.CV

TL;DR: UniME框架通过两阶段方法(知识蒸馏和硬负样本增强指令调优)提升多模态表示学习,解决了CLIP的局限性,并在多个任务中表现优异。

  • Motivation: CLIP框架在图像-文本检索和聚类中存在文本截断、孤立编码和组合性不足的问题,而多模态大语言模型(MLLMs)的潜力尚未充分挖掘。
  • Method: 提出UniME框架:1)从LLM教师模型进行知识蒸馏;2)通过硬负样本增强指令调优,提升判别性和指令跟随能力。
  • Result: 在MMEB基准和多个检索任务中,UniME表现一致优于其他方法,展示了更强的判别性和组合能力。
  • Conclusion: UniME通过两阶段设计有效提升了多模态表示学习能力,为下游任务提供了更优的嵌入表示。

[35] Predict-Optimize-Distill: A Self-Improving Cycle for 4D Object Understanding

Mingxuan Wu,Huang Huang,Justin Kerr,Chung Min Kim,Anthony Zhang,Brent Yi,Angjoo Kanazawa

Main category: cs.CV

TL;DR: POD框架通过预测-优化-蒸馏的循环自我提升机制,结合多视角扫描和长视频数据,显著提升了4D物体理解的性能。

  • Motivation: 人类通过长时间观察物体运动来预测其3D状态,现有系统依赖多视角观察或监督数据集训练,POD旨在通过自我提升框架实现更优的4D理解。
  • Method: POD框架通过预测局部姿态、全局优化和蒸馏生成合成数据,形成自我提升循环,并结合准多视角挖掘减少深度模糊。
  • Result: 在14个真实和5个合成物体上,POD显著优于纯优化基线,性能随视频长度和迭代次数提升。
  • Conclusion: POD展示了通过循环自我提升和长视频利用实现4D物体理解的潜力。

[36] FRAG: Frame Selection Augmented Generation for Long Video and Long Document Understanding

De-An Huang,Subhashree Radhakrishnan,Zhiding Yu,Jan Kautz

Main category: cs.CV

TL;DR: 论文提出FRAG框架,通过独立评分选择关键帧,避免长上下文处理,显著提升长视频和长文档理解性能。

  • Motivation: 解决长上下文多模态模型的计算成本高和性能受限问题。
  • Method: 提出Frame Selection Augmented Generation (FRAG),独立评分选择关键帧,仅基于选定帧生成输出。
  • Result: 在长视频和长文档任务中,FRAG显著提升性能,如InternVL2-76B在MLVU上提升5.8%。
  • Conclusion: FRAG是一种简单有效的框架,无需微调即可提升现有模型的长上下文处理能力。

[37] Unveiling Hidden Vulnerabilities in Digital Human Generation via Adversarial Attacks

Zhiying Li,Yeying Jin,Fan Shen,Zhi Liu,Weibin Chen,Pengju Zhang,Xiaomei Zhang,Boyu Chen,Michael Shen,Kejian Wu,Zhaoxin Fan,Jin Dong

Main category: cs.CV

TL;DR: 论文提出了一种名为Tangible Attack (TBA)的新框架,通过生成对抗样本攻击数字人生成模型,显著提高了攻击效果。

  • Motivation: 现有研究主要关注减少估计误差,但忽略了鲁棒性和安全性,导致系统易受对抗攻击。
  • Method: 提出Dual Heterogeneous Noise Generator (DHNG)和自定义对抗损失函数,通过多梯度信号优化噪声。
  • Result: 实验显示TBA将估计误差提高了41.0%,平均提升约17.0%。
  • Conclusion: 当前EHPS模型存在严重安全漏洞,需要更强的防御机制。

[38] Enhanced Sample Selection with Confidence Tracking: Identifying Correctly Labeled yet Hard-to-Learn Samples in Noisy Data

Weiran Pan,Wei Wei,Feida Zhu,Yong Deng

Main category: cs.CV

TL;DR: 提出一种基于置信度趋势的样本选择方法,用于区分正确标注但难学习的样本与错误标注样本,提升噪声标签下的分类性能。

  • Motivation: 现有方法依赖损失值选择样本,但难学习样本与错误标注样本在早期训练中均可能高损失,导致精度与召回率的权衡问题。
  • Method: 通过跟踪模型对标注标签与其他类别置信度差距的趋势(使用Mann-Kendall检验),动态判断样本是否可能正确标注。
  • Result: 在多个基准和真实数据集上验证,该方法能有效提升现有噪声标签学习方法的性能。
  • Conclusion: 基于置信度趋势的样本选择方法解决了传统损失值方法的局限性,为噪声标签学习提供了新思路。

[39] RefVNLI: Towards Scalable Evaluation of Subject-driven Text-to-image Generation

Aviv Slobodkin,Hagai Taitelbaum,Yonatan Bitton,Brian Gordon,Michal Sokolik,Nitzan Bitton Guetta,Almog Gueta,Royi Rassin,Itay Laish,Dani Lischinski,Idan Szpektor

Main category: cs.CV

TL;DR: RefVNLI是一种低成本、高效的评估指标,用于同时评估文本对齐和主题保留,优于现有方法。

  • Motivation: 现有评估方法仅关注单一任务、与人类判断不一致或成本高昂,限制了主题驱动T2I生成的发展。
  • Method: 基于大规模视频推理基准和图像扰动数据集训练RefVNLI,评估文本对齐和主题保留。
  • Result: RefVNLI在多个基准和主题类别中表现优异,文本对齐和主题一致性分别提升6.4和8.5分,且与人类偏好一致率达87%。
  • Conclusion: RefVNLI为T2I生成提供了可靠且高效的评估工具,推动了该领域的进步。

[40] Mamba-Sea: A Mamba-based Framework with Global-to-Local Sequence Augmentation for Generalizable Medical Image Segmentation

Zihan Cheng,Jintao Guo,Jian Zhang,Lei Qi,Luping Zhou,Yinghuan Shi,Yang Gao

Main category: cs.CV

TL;DR: 论文提出了一种基于Mamba架构的新框架Mamba-Sea,用于解决医学图像分割中的分布偏移问题,通过全局到局部的序列增强提升模型的泛化能力。

  • Motivation: 医学图像分割中的分布偏移问题限制了模型的泛化能力,现有方法主要基于CNN或ViT架构,而Mamba因其长距离依赖捕捉能力和线性复杂度展现出潜力。
  • Method: 提出Mamba-Sea框架,结合全局和局部序列增强:全局增强模拟不同站点间外观变化,抑制域特定信息学习;局部增强通过扰动连续子序列的风格统计提升鲁棒性。
  • Result: 在Prostate数据集上首次超过90%的Dice系数,优于之前的SOTA(88.61%)。
  • Conclusion: Mamba-Sea是首个探索Mamba在医学图像分割中泛化能力的工作,为分布偏移问题提供了高效且鲁棒的解决方案。

[41] Towards One-Stage End-to-End Table Structure Recognition with Parallel Regression for Diverse Scenarios

Anyi Xiao,Cihui Yang

Main category: cs.CV

TL;DR: TableCenterNet是一种单阶段端到端表格结构解析网络,统一了表格空间和逻辑结构的预测,通过共享特征提取层和任务特定解码的协同架构,实现了高效训练和推理。

  • Motivation: 现有方法在跨场景适应性、鲁棒性和计算效率之间难以平衡,TableCenterNet旨在解决这一问题。
  • Method: 提出TableCenterNet,将表格空间和逻辑结构预测统一为并行回归任务,通过共享特征提取层和任务特定解码的协同架构学习单元格的空间-逻辑位置映射规律。
  • Result: 在基准数据集上表现优异,尤其在TableGraph-24k数据集上达到最先进性能。
  • Conclusion: TableCenterNet在训练和推理效率上优于两阶段方法,适用于多样化场景的表格结构解析。

[42] ESDiff: Encoding Strategy-inspired Diffusion Model with Few-shot Learning for Color Image Inpainting

Junyan Zhang,Yan Li,Mengxiao Geng,Liu Shi,Qiegen Liu

Main category: cs.CV

TL;DR: 提出了一种基于编码策略的扩散模型,用于少样本学习的彩色图像修复,通过虚拟掩码和高维对象构建,提升细节和结构完整性。

  • Motivation: 传统方法依赖相邻像素信息,难以保留复杂细节;深度学习模型需要大量训练数据,本文旨在解决这些问题。
  • Method: 采用编码策略,利用虚拟掩码构建高维对象,结合低秩方法和扩散模型,实现少样本学习下的图像修复。
  • Result: 实验表明,该方法在定量指标上优于现有技术,修复图像的纹理和结构完整性显著提升。
  • Conclusion: 提出的方法通过编码策略和扩散模型,实现了少样本学习下的高质量图像修复,效果优于传统和深度学习方法。

[43] Text-to-Image Alignment in Denoising-Based Models through Step Selection

Paul Grimal,Hervé Le Borgne,Olivier Ferret

Main category: cs.CV

TL;DR: 提出一种新方法,通过选择性增强关键去噪步骤的信号,优化基于输入语义的图像生成。

  • Motivation: 解决视觉生成AI模型在文本-图像对齐和推理能力上的局限性。
  • Method: 在去噪过程的后期阶段选择性增强信号,而非早期阶段。
  • Result: 在Diffusion和Flow Matching模型上验证了方法的有效性,实现了最先进的性能。
  • Conclusion: 合理选择采样阶段对提升性能和图像对齐至关重要。

[44] An Explainable Nature-Inspired Framework for Monkeypox Diagnosis: Xception Features Combined with NGBoost and African Vultures Optimization Algorithm

Ahmadreza Shateri,Negar Nourani,Morteza Dorrigiv,Hamid Nasiri

Main category: cs.CV

TL;DR: 提出了一种基于深度学习的框架,用于从皮肤病变图像中自动检测猴痘,结合了迁移学习、降维和优化算法,取得了高准确率。

  • Motivation: 猴痘在全球非传统流行地区的传播引发了公共卫生担忧,早期准确诊断对疾病管理至关重要。
  • Method: 使用Xception架构提取特征,PCA降维,NGBoost分类,并结合AVOA优化超参数。
  • Result: 模型准确率达97.53%,F1-score为97.72%,AUC为97.47%。
  • Conclusion: 该框架为资源有限环境提供了高效诊断工具,并增强了模型可解释性。

[45] When Gaussian Meets Surfel: Ultra-fast High-fidelity Radiance Field Rendering

Keyang Ye,Tianjia Shao,Kun Zhou

Main category: cs.CV

TL;DR: Gaussian-enhanced Surfels (GESs) 是一种用于辐射场渲染的双尺度表示方法,结合了2D不透明表面和3D高斯分布,实现了快速且高质量的渲染。

  • Motivation: 解决辐射场渲染中快速性和高保真度的需求,同时避免视角变化下的视觉伪影。
  • Method: 使用双尺度表示(2D表面和3D高斯),通过两阶段渲染(表面光栅化和高斯分布叠加)和粗到细优化策略。
  • Result: GESs 实现了超快速的高保真渲染,避免了视觉伪影,并支持多种扩展(如抗锯齿、加速渲染等)。
  • Conclusion: GESs 是一种高效的辐射场渲染表示方法,具有快速性和高质量的优势。

[46] A Comprehensive Survey of Knowledge-Based Vision Question Answering Systems: The Lifecycle of Knowledge in Visual Reasoning Task

Jiaqi Deng,Zonghan Wu,Huan Huo,Guandong Xu

Main category: cs.CV

TL;DR: 该论文是一篇关于知识驱动的视觉问答(KB-VQA)的综述,系统整理了现有方法,提出了分类框架,并探讨了未来研究方向。

  • Motivation: KB-VQA结合视觉、文本和外部知识,具有广泛应用前景,但缺乏系统性综述。本文旨在填补这一空白。
  • Method: 建立KB-VQA的分类框架,分为知识表示、知识检索和知识推理三个阶段,分析现有技术。
  • Result: 提出了KB-VQA的系统分类,总结了知识整合技术,并指出了当前挑战。
  • Conclusion: 本文为KB-VQA的未来研究提供了基础,并指明了潜在的发展方向。

[47] Unsupervised Urban Land Use Mapping with Street View Contrastive Clustering and a Geographical Prior

Lin Che,Yizi Chen,Tanhua Jin,Martin Raubal,Konrad Schindler,Peter Kiefer

Main category: cs.CV

TL;DR: 该论文提出了一种基于街景图像的无监督对比聚类模型,结合地理先验知识,用于复杂城市环境中的土地利用分类与制图。

  • Motivation: 现有遥感技术在城市复杂环境中缺乏精度,而街景图像能提供地面细节,但现有方法依赖监督分类,面临标注数据稀缺和泛化困难的问题。
  • Method: 提出无监督对比聚类模型,结合地理先验知识,并通过简单的视觉分配实现土地利用制图。
  • Result: 实验证明,该方法能从两个城市的街景图像数据集中生成土地利用图。
  • Conclusion: 该方法基于地理空间数据的空间一致性,适用于多种场景,可实现可扩展的无监督土地利用制图与更新。

[48] Occlusion-Aware Self-Supervised Monocular Depth Estimation for Weak-Texture Endoscopic Images

Zebo Huang,Yinghui Wang

Main category: cs.CV

TL;DR: 提出一种针对内窥镜场景的自监督单目深度估计网络,解决动态光照和遮挡导致的深度重建质量下降问题。

  • Motivation: 现有方法假设光照一致,但内窥镜场景中动态光照和胃肠道运动导致的遮挡会破坏这一假设,导致几何解释错误和不可靠的自监督信号。
  • Method: 引入遮挡感知的自监督框架:1) 使用遮挡掩模进行数据增强,生成伪标签;2) 结合非负矩阵分解的语义分割,提升纹理缺失区域的深度估计。
  • Result: 在SCARED数据集上达到自监督深度估计的最优性能,并在Endo-SLAM和SERV-CT数据集上表现出强泛化能力。
  • Conclusion: 该方法通过遮挡感知和语义分割优化,显著提升了内窥镜场景下的深度估计鲁棒性和准确性。

[49] Tamper-evident Image using JPEG Fixed Points

Zhaofeng Si,Siwei Lyu

Main category: cs.CV

TL;DR: JPEG压缩与解压缩过程中存在固定点,可用于生成防篡改图像。

  • Motivation: 研究JPEG压缩的固定点现象,探索其在图像防篡改中的应用。
  • Method: 分析JPEG压缩与解压缩过程,证明固定点的存在及其快速收敛性。
  • Result: 固定点多样且视觉质量高,可用于检测图像篡改。
  • Conclusion: 固定点现象为图像防篡改提供了新方法。

[50] RGB-D Tracking via Hierarchical Modality Aggregation and Distribution Network

Boyue Xu,Yi Xu,Ruichao Hou,Jia Bei,Tongwei Ren,Gangshan Wu

Main category: cs.CV

TL;DR: HMAD网络通过层次化特征融合提升RGB-D跟踪的鲁棒性和效率。

  • Motivation: 当前RGB-D跟踪器效率低且仅关注单层特征,导致融合鲁棒性差且速度慢,无法满足实际应用需求。
  • Method: 提出HMAD网络,利用RGB和深度模态的独特特征表示能力,采用层次化特征分布与融合方法。
  • Result: 在多个RGB-D数据集上实现最优性能,并在实时场景中有效应对多种跟踪挑战。
  • Conclusion: HMAD通过层次化模态聚合与分布显著提升了RGB-D跟踪的鲁棒性和实时性。

[51] STCL:Curriculum learning Strategies for deep learning image steganography models

Fengchun Liu,Tong Zhang,Chunying Zhang

Main category: cs.CV

TL;DR: 本文提出了一种基于课程学习的图像隐写训练策略(STCL),通过逐步从简单到困难的图像训练,提升模型性能。

  • Motivation: 解决深度学习图像隐写模型中图像质量差和网络收敛慢的问题。
  • Method: 1. 基于教师模型的难度评估策略;2. 基于拐点的训练调度策略。
  • Result: 在ALASKA2、VOC2012和ImageNet数据集上,模型性能显著提升,PSNR、SSIM和解码准确率高,隐写分析得分低。
  • Conclusion: STCL策略有效提升了图像隐写模型的性能,代码已开源。

[52] Enhancing CNNs robustness to occlusions with bioinspired filters for border completion

Catarina P. Coutinho,Aneeqa Merhab,Janko Petkovic,Ferdinando Zanchetta,Rita Fioresi

Main category: cs.CV

TL;DR: 利用视觉皮层边界补全机制设计CNN自定义滤波器,改进LeNet 5在遮挡MNIST图像上的准确率。

  • Motivation: 探索视觉皮层机制在CNN中的应用,以提升模型对遮挡图像的处理能力。
  • Method: 基于视觉皮层边界补全的数学模型设计自定义滤波器,并应用于改进的LeNet 5。
  • Result: 在遮挡MNIST图像测试中,准确率有显著提升。
  • Conclusion: 视觉皮层机制可有效优化CNN性能,尤其在处理遮挡图像时。

[53] Improving Open-World Object Localization by Discovering Background

Ashish Singh,Michael J. Jones,Kuan-Chuan Peng,Anoop Cherian,Moitreya Chatterjee,Erik Learned-Miller

Main category: cs.CV

TL;DR: 提出一种利用背景信息指导目标定位的新框架,通过识别非判别性区域提升开放世界中的目标定位性能。

  • Motivation: 解决开放世界目标定位问题,即在训练时仅使用有限类别边界框信息,推理时定位所有类别(包括未见类别)的目标。
  • Method: 提出一种新框架,通过发现图像中的背景区域(非判别性区域),并训练目标提议网络避免在这些区域检测目标。
  • Result: 在标准基准测试中,该方法显著优于现有最优方法。
  • Conclusion: 利用背景信息指导目标定位是有效的,能显著提升开放世界目标定位性能。

[54] A Guide to Structureless Visual Localization

Vojtech Panek,Qunjie Zhou,Yaqing Ding,Sérgio Agostinho,Zuzana Kukelova,Torsten Sattler,Laura Leal-Taixé

Main category: cs.CV

TL;DR: 论文首次全面讨论和比较了无结构视觉定位方法,发现基于经典几何推理的方法在姿态精度上优于基于姿态回归的方法,但灵活性更高。

  • Motivation: 现有基于结构的视觉定位方法虽准确但灵活性不足,而无结构方法更易更新但研究较少,因此本文旨在填补这一空白。
  • Method: 通过实验比较不同类型的无结构方法,包括基于经典几何推理和姿态回归的方法。
  • Result: 基于经典几何推理的方法在姿态精度上显著优于基于姿态回归的方法,但略逊于基于结构的方法。
  • Conclusion: 无结构方法在灵活性和精度之间存在权衡,为未来研究提供了有趣的方向。

[55] CLIPSE -- a minimalistic CLIP-based image search engine for research

Steve Göring

Main category: cs.CV

TL;DR: CLIPSE是一个自托管的图像搜索引擎,主要用于研究,使用CLIP嵌入处理图像和文本查询,设计简单易扩展。

  • Motivation: 为研究提供一个简单且可扩展的图像搜索工具。
  • Method: 利用CLIP嵌入处理图像和文本查询,设计简单框架。
  • Result: 在小型数据集上表现良好,大型数据集需分布式处理。
  • Conclusion: CLIPSE适合小型数据集,大型数据集需分布式方案。

[56] DiMeR: Disentangled Mesh Reconstruction Model

Lutao Jiang,Jiantao Lin,Kanghao Chen,Wenhang Ge,Xin Yang,Yifan Jiang,Yuanhuiyi Lyu,Xu Zheng,Yingcong Chen

Main category: cs.CV

TL;DR: DiMeR是一种解耦的双流前馈模型,通过分离几何和纹理输入及框架,显著提升了稀疏视图网格重建的性能。

  • Motivation: RGB图像在几何重建中可能导致冲突的训练目标和清晰度不足,因此需要一种更有效的方法来分离几何和纹理任务。
  • Method: DiMeR将输入和框架解耦为几何和纹理两部分,几何分支使用法线图作为输入以减少复杂度,纹理分支使用RGB图像,并改进了网格提取算法。
  • Result: DiMeR在稀疏视图重建、单图像到3D和文本到3D任务中表现优异,Chamfer Distance在GSO和OmniObject3D数据集上提升了30%以上。
  • Conclusion: DiMeR通过解耦几何和纹理任务,显著提升了3D重建的性能和效率。

[57] PICO: Reconstructing 3D People In Contact with Objects

Alpár Cseke,Shashank Tripathi,Sai Kumar Dwivedi,Arjun Lakshmipathy,Agniv Chatterjee,Michael J. Black,Dimitrios Tzionas

Main category: cs.CV

TL;DR: 论文提出了一种从单张彩色图像中恢复3D人-物交互(HOI)的方法,通过构建新数据集PICO-db和开发优化方法PICO-fit,解决了深度模糊、遮挡和物体多样性带来的挑战。

  • Motivation: 现有方法需要已知物体形状和接触点,且仅适用于有限物体类别,无法推广到自然图像和新物体类别。
  • Method: (1)构建PICO-db数据集,通过视觉基础模型检索3D物体网格,并标注密集接触点;(2)开发PICO-fit方法,利用接触点信息优化3D人体和物体网格拟合。
  • Result: PICO-fit能够处理多种物体类别,显著提升了在自然场景中的3D HOI恢复能力。
  • Conclusion: 该方法为自然场景中的3D人-物交互理解提供了可扩展的解决方案。

[58] Hierarchical and Multimodal Data for Daily Activity Understanding

Ghazal Kaviani,Yavuz Yarici,Seulgi Kim,Mohit Prabhushankar,Ghassan AlRegib,Mashhour Solh,Ameya Patil

Main category: cs.CV

TL;DR: DARai是一个多模态、分层标注的数据集,用于研究真实环境中的人类活动,包含50名参与者在10种环境中的200多小时数据,并通过多种传感器和层次化标注揭示活动复杂性。

  • Motivation: 理解真实环境中人类活动的复杂性,并通过多模态传感器和层次化标注提供研究基础。
  • Method: 构建包含20种传感器的数据集,标注分为三个层次:高层活动(L1)、低层动作(L2)和细粒度步骤(L3),并进行单模态和多模态传感器融合实验。
  • Result: 实验展示了DARai在识别、时间定位和未来动作预测中的价值,并揭示了单个传感器的局限性。
  • Conclusion: DARai为以人为中心的应用提供了重要挑战的研究基础,数据集和代码已公开。

[59] Generative Fields: Uncovering Hierarchical Feature Control for StyleGAN via Inverted Receptive Fields

Zhuo He,Paul Henderson,Nicolas Pugeault

Main category: cs.CV

TL;DR: 论文提出了一种基于生成场理论的新方法,通过通道风格潜在空间S实现对StyleGAN特征合成的解耦控制。

  • Motivation: 解决StyleGAN中低维潜在空间强纠缠导致生成图像特征难以控制的问题。
  • Method: 引入生成场理论解释StyleGAN的分层特征合成,并提出基于通道风格潜在空间S的图像编辑流程。
  • Result: 实现了对StyleGAN特征合成的解耦控制,提升了图像编辑的灵活性和直接性。
  • Conclusion: 生成场理论和通道风格潜在空间S为StyleGAN的特征控制提供了新思路,具有潜在的应用价值。

[60] DPMambaIR:All-in-One Image Restoration via Degradation-Aware Prompt State Space Model

Zhanwen Liu,Sai Zhou,Yuchao Dai,Yang Wang,Yisheng An,Xiangmo Zhao

Main category: cs.CV

TL;DR: DPMambaIR是一种新型All-in-One图像修复框架,通过细粒度建模和高效全局整合,解决了多任务冲突和高频细节丢失问题。

  • Motivation: 传统方法需要为每种图像退化类型设计专用模型,成本高且复杂。现有方法缺乏对退化信息的细粒度建模,难以平衡多任务冲突。
  • Method: 提出DPMambaIR框架,结合Degradation-Aware Prompt State Space Model(DP-SSM)和High-Frequency Enhancement Block(HEB),实现细粒度建模和高频细节补充。
  • Result: 在包含七种退化类型的混合数据集上,DPMambaIR取得最佳性能(PSNR 27.69dB,SSIM 0.893)。
  • Conclusion: DPMambaIR展示了作为统一All-in-One图像修复解决方案的潜力和优越性。

[61] EgoCHARM: Resource-Efficient Hierarchical Activity Recognition using an Egocentric IMU Sensor

Akhil Padmanabha,Saravanan Govindarajan,Hwanmun Kim,Sergio Ortiz,Rahul Rajan,Doruk Senkal,Sneha Kadetotad

Main category: cs.CV

TL;DR: 论文提出了一种资源高效的机器学习算法EgoCHARM,用于通过头戴式IMU识别高低层次活动,性能优异且参数少。

  • Motivation: 当前的头戴式活动识别方法性能低或资源消耗大,需要一种高效解决方案。
  • Method: 采用半监督学习策略,通过高层次活动标签训练,学习通用低层次运动嵌入。
  • Result: 在9种高层次和3种低层次活动上,F1分数分别为0.826和0.855,模型参数仅63k和22k。
  • Conclusion: EgoCHARM展示了头戴式IMU在活动识别中的潜力,同时分析了其机会与限制。

[62] Step1X-Edit: A Practical Framework for General Image Editing

Shiyu Liu,Yucheng Han,Peng Xing,Fukun Yin,Rui Wang,Wei Cheng,Jiaqi Liao,Yingming Wang,Honghao Fu,Chunrui Han,Guopeng Li,Yuang Peng,Quan Sun,Jingwei Wu,Yan Cai,Zheng Ge,Ranchen Ming,Lei Xia,Xianfang Zeng,Yibo Zhu,Binxing Jiao,Xiangyu Zhang,Gang Yu,Daxin Jiang

Main category: cs.CV

TL;DR: 论文提出了一种名为Step1X-Edit的开源图像编辑模型,旨在缩小与闭源模型(如GPT-4o和Gemini2 Flash)的性能差距,并通过实验验证其优越性。

  • Motivation: 尽管多模态模型在图像编辑领域取得了显著进展,但开源算法与闭源模型之间仍存在较大差距,因此需要开发高性能的开源解决方案。
  • Method: 采用多模态LLM处理参考图像和用户编辑指令,提取潜在嵌入并与扩散图像解码器结合生成目标图像;构建数据生成管道训练模型。
  • Result: Step1X-Edit在GEdit-Bench基准测试中显著优于现有开源基线,并接近领先闭源模型的性能。
  • Conclusion: Step1X-Edit为图像编辑领域提供了高性能的开源解决方案,填补了开源与闭源模型之间的差距。

[63] The Fourth Monocular Depth Estimation Challenge

Anton Obukhov,Matteo Poggi,Fabio Tosi,Ripudaman Singh Arora,Jaime Spencer,Chris Russell,Simon Hadfield,Richard Bowden,Shuaihang Wang,Zhenxin Ma,Weijie Chen,Baobei Xu,Fengyu Sun,Di Xie,Jiang Zhu,Mykola Lavreniuk,Haining Guan,Qun Wu,Yupei Zeng,Chao Lu,Huanran Wang,Guangyuan Zhou,Haotian Zhang,Jianxiong Wang,Qiang Rao,Chunjie Wang,Xiao Liu,Zhiqiang Lou,Hualie Jiang,Yihao Chen,Rui Xu,Minglang Tan,Zihan Qin,Yifan Mao,Jiayang Liu,Jialei Xu,Yifan Yang,Wenbo Zhao,Junjun Jiang,Xianming Liu,Mingshuai Zhao,Anlong Ming,Wu Chen,Feng Xue,Mengying Yu,Shida Gao,Xiangfeng Wang,Gbenga Omotara,Ramy Farag,Jacket Demby,Seyed Mohamad Ali Tousi,Guilherme N DeSouza,Tuan-Anh Yang,Minh-Quang Nguyen,Thien-Phuc Tran,Albert Luginov,Muhammad Shahzad

Main category: cs.CV

TL;DR: 第四版单目深度估计挑战赛(MDEC)的结果,重点关注零样本泛化到SYNS-Patches数据集,改进了评估协议和基线方法,24个提交结果优于基线,获胜者将3D F-Score从22.58%提升至23.05%。

  • Motivation: 研究单目深度估计在自然和室内环境中的零样本泛化能力,改进评估协议以支持差异和仿射不变预测。
  • Method: 修订评估协议使用最小二乘对齐(两自由度),更新基线方法并引入Depth Anything v2和Marigold等流行方法。
  • Result: 24个提交结果优于基线,10个提交附带方法报告,获胜者将3D F-Score从22.58%提升至23.05%。
  • Conclusion: 挑战赛成功展示了单目深度估计的进展,仿射不变预测方法表现突出,未来可进一步优化泛化能力。

[64] Dynamic Camera Poses and Where to Find Them

Chris Rockwell,Joseph Tung,Tsung-Yi Lin,Ming-Yu Liu,David F. Fouhey,Chen-Hsuan Lin

Main category: cs.CV

TL;DR: DynPose-100K是一个大规模动态互联网视频数据集,标注了相机姿态,解决了现有方法的局限性。

  • Motivation: 动态互联网视频的相机姿态标注对视频生成和模拟等领域至关重要,但现有数据集和方法难以满足需求。
  • Method: 结合任务特定和通用模型进行过滤,并利用点跟踪、动态掩码和运动结构重建技术进行姿态估计。
  • Result: DynPose-100K数据集规模大且多样,优于现有方法。
  • Conclusion: 该数据集为下游应用提供了新的研究机会。

[65] Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models

Xu Ma,Peize Sun,Haoyu Ma,Hao Tang,Chih-Yao Ma,Jialiang Wang,Kunpeng Li,Xiaoliang Dai,Yujun Shi,Xuan Ju,Yushi Hu,Artsiom Sanakoyeu,Felix Juefei-Xu,Ji Hou,Junjiao Tian,Tao Xu,Tingbo Hou,Yen-Cheng Liu,Zecheng He,Zijian He,Matt Feiszli,Peizhao Zhang,Peter Vajda,Sam Tsai,Yun Fu

Main category: cs.CV

TL;DR: 论文提出了一种名为Token-Shuffle的新方法,通过减少Transformer中的图像token数量,解决了自回归模型在图像合成中的效率问题,并首次将AR文本到图像生成的分辨率提升至2048x2048。

  • Motivation: 自回归模型在图像合成中因需要大量图像token而效率低下,限制了训练、推理效率和图像分辨率。本文旨在通过减少token数量来解决这一问题。
  • Method: 提出Token-Shuffle方法,利用视觉词汇的维度冗余性,通过token-shuffle合并局部token以减少输入token数量,并通过token-unshuffle恢复空间排列。
  • Result: 在GenAI-benchmark中,2.7B模型在困难提示下得分0.77,优于AR模型LlamaGen(0.18)和扩散模型LDM(0.15)。
  • Conclusion: Token-Shuffle为MLLMs中高效高分辨率图像生成提供了基础设计,展示了显著的生成能力。

[66] LiDPM: Rethinking Point Diffusion for Lidar Scene Completion

Tetiana Martyniuk,Gilles Puy,Alexandre Boulch,Renaud Marlet,Raoul de Charette

Main category: cs.CV

TL;DR: 论文提出LiDPM方法,通过选择合适的起点,证明原始DDPM足以完成场景级任务,无需局部扩散近似,并在SemanticKITTI上取得更好效果。

  • Motivation: 解决扩散模型在户外场景点云数据上生成细节的困难,弥合局部扩散与对象级扩散之间的差距。
  • Method: 使用原始DDPM,选择合适的起点,避免局部扩散近似,直接完成场景级任务。
  • Result: 在SemanticKITTI数据集上,LiDPM方法优于现有局部扩散方法。
  • Conclusion: 原始DDPM在适当起点下可有效完成场景级任务,LiDPM方法展示了其优越性。

cs.AI

[67] A Framework for the Assurance of AI-Enabled Systems

Ariel S. Kapusta,David Jin,Peter M. Teague,Robert A. Houston,Jonathan B. Elliott,Grace Y. Park,Shelby S. Holdren

Main category: cs.AI

TL;DR: 本文提出了一种基于声明的框架,用于AI系统的风险管理和保证,以平衡快速部署与严格评估的需求。

  • Motivation: 美国国防部希望通过加速AI能力的开发和部署来保持战略优势,但AI算法的强大特性(如学习能力和大规模数据处理)带来了技术、安全和伦理挑战,阻碍了其采用。
  • Method: 提出一个基于声明的框架,支持所有采购路径的项目,确保AI系统在其生命周期内实现任务目标且不引入不可接受的风险。
  • Result: 贡献包括一个AI保证框架流程、相关定义以促进讨论,以及AI保证的重要考虑因素。
  • Conclusion: 该框架旨在为国防部提供一个高效且稳健的机制,快速部署有效的AI能力,同时避免关键风险或损害利益相关者的信任。

[68] Rational Inference in Formal Concept Analysis

Lucas Carr,Nicholas Leisegang,Thomas Meyer,Sergei Obiedkov

Main category: cs.AI

TL;DR: 本文提出了一种在形式概念分析(FCA)中应用KLM框架进行可废止推理的方法,解决了传统FCA中依赖关系无法处理异常数据的问题,并展示了其与原始非单调推理原则的一致性。

  • Motivation: 传统FCA中的依赖关系无法处理异常数据或例外情况,而KLM框架在命题逻辑中已成功应用于可废止推理。本文旨在将KLM框架引入FCA,以提供更灵活的推理能力。
  • Method: 通过构建可能世界的偏好排序,将KLM框架的可废止推理方法扩展到FCA中,并验证其与原始非单调推理原则的一致性。
  • Result: 提出的方法在FCA中实现了可废止推理,且与KLM框架的非单调推理原则一致,同时提供了更具上下文相关性的推理能力。
  • Conclusion: 本文成功将KLM框架的可废止推理引入FCA,为处理异常数据提供了更灵活的解决方案,并展示了其优于命题逻辑的上下文推理能力。

[69] A Desideratum for Conversational Agents: Capabilities, Challenges, and Future Directions

Emre Can Acikgoz,Cheng Qian,Hongru Wang,Vardhan Dongre,Xiusi Chen,Heng Ji,Dilek Hakkani-Tür,Gokhan Tur

Main category: cs.AI

TL;DR: 本文综述了基于大语言模型(LLMs)的对话代理的现状、挑战及未来方向,提出了一个分类框架,并指出了关键研究缺口。

  • Motivation: 探讨对话代理的当前能力、局限性及未来发展路径,以推动其向人类智能水平迈进。
  • Method: 通过将对话代理能力分为推理、监控和控制三个维度,系统分析现有研究并提出新的分类法。
  • Result: 识别了关键研究缺口,如长期多轮推理、自我进化能力等,并提出了未来研究方向。
  • Conclusion: 本文为对话代理研究提供了结构化基础,并展望了其向通用人工智能(AGI)发展的潜力。

[70] A Systematic Approach to Design Real-World Human-in-the-Loop Deep Reinforcement Learning: Salient Features, Challenges and Trade-offs

Jalal Arabneydi,Saiful Islam,Srijita Das,Sai Krishna Gottipati,William Duguay,Cloderic Mars,Matthew E. Taylor,Matthew Guzdial,Antoine Fagette,Younes Zerouali

Main category: cs.AI

TL;DR: 本文提出了一种新型多层分级HITL DRL算法,结合自学习、模仿学习和迁移学习,并探讨了人类输入(奖励、动作、演示)的整合方式及其挑战与优势。通过无人机防御场景验证了算法的有效性。

  • Motivation: 随着深度强化学习(DRL)的普及,人机协作(HITL)方法有望革新决策问题解决方式,并为人类与AI合作创造新机会。
  • Method: 提出多层分级HITL DRL算法,整合自学习、模仿学习和迁移学习,并利用人类输入的奖励、动作和演示。通过Cogment软件实现,并在无人机防御场景中验证。
  • Result: 实验表明HITL能加速训练并提升性能,人类建议可降低方差,但建议量需适中以避免过训练或欠训练。
  • Conclusion: HITL DRL算法在复杂问题中表现优异,展示了人机协作在解决现实问题(如过载和诱饵攻击)中的潜力。

[71] Neural Theorem Proving: Generating and Structuring Proofs for Formal Verification

Balaji Rao,William Eiers,Carlo Lipizzi

Main category: cs.AI

TL;DR: 提出了一种生成形式化证明的框架,结合自然语言描述、LLM生成证明和启发式模块,用于验证软件代码的正确性。

  • Motivation: 随着LLM生成代码的普及,形式化验证代码属性变得尤为重要,但通用定理证明仍是一个未解决的挑战。
  • Method: 框架包含三部分:生成自然语言描述、LLM生成形式化证明、启发式模块构建最终证明;采用两阶段微调训练LLM。
  • Result: 在miniF2F-test基准和Isabelle证明助手中验证了框架的有效性,并设计了AWS S3桶访问策略代码的验证用例。
  • Conclusion: 该框架为形式化验证提供了新途径,未来可通过扩展数据集进一步提升性能。

[72] Leveraging LLMs as Meta-Judges: A Multi-Agent Framework for Evaluating LLM Judgments

Yuran Li,Jama Hussein Mohamud,Chongren Sun,Di Wu,Benoit Boulet

Main category: cs.AI

TL;DR: 论文提出了一种三阶段元评判选择流程,通过多智能体协作和综合评分标准,提升大语言模型(LLM)作为评判者的性能。实验结果显示显著优于单智能体基线。

  • Motivation: 随着任务复杂化,LLM评估的挑战增加,现有研究多关注对齐人类偏好,忽视人类评判的偏见和错误,且多响应下的LLM评判选择未充分探索。
  • Method: 1) 与GPT-4和人类专家制定综合评分标准;2) 使用三个高级LLM智能体评分;3) 通过阈值过滤低分评判。
  • Result: 在JudgeBench数据集上,相比原始评判和单智能体基线,分别提升15.55%和8.37%。
  • Conclusion: LLM作为元评判者具有潜力,为未来LLM作为评判者的强化学习偏好数据集构建奠定基础。

[73] AUTHENTICATION: Identifying Rare Failure Modes in Autonomous Vehicle Perception Systems using Adversarially Guided Diffusion Models

Mohammad Zarei,Melanie A Jutras,Eliana Evans,Mike Tan,Omid Aaramoon

Main category: cs.AI

TL;DR: 论文提出了一种利用生成和可解释AI技术解决自动驾驶车辆(AVs)中罕见故障模式(RFMs)问题的新方法。

  • Motivation: 自动驾驶车辆依赖AI检测物体,但难以识别罕见故障模式(RFMs),即“长尾挑战”。
  • Method: 通过分割掩码和环境掩码结合文本提示,使用定制扩散模型生成多样化环境图像,暴露AI系统漏洞。
  • Result: 生成的自然语言描述可指导开发者和政策制定者提升AV系统的安全性和可靠性。
  • Conclusion: 该方法能增强AVs的鲁棒性和可靠性,为改进AI系统提供实用工具。

[74] Cracking the Code of Action: a Generative Approach to Affordances for Reinforcement Learning

Lynn Cherif,Flemming Kondrup,David Venuto,Ankit Anand,Doina Precup,Khimya Khetarpal

Main category: cs.AI

TL;DR: 论文提出了一种名为CoGA的方法,通过意图驱动的动作空间约束和预训练视觉语言模型生成代码,显著提高了在稀疏奖励和大动作空间环境中的样本效率。

  • Motivation: 在图形用户界面(GUI)中,传统方法需要大量专家演示才能实现良好性能,而稀疏奖励和大动作空间环境进一步加剧了样本效率低的问题。
  • Method: 利用预训练视觉语言模型生成代码,通过意图完成函数和自动化程序生成与验证流程,约束动作空间,提高强化学习代理的效率。
  • Result: 在MiniWob++基准测试中,CoGA的样本效率显著高于传统强化学习代理,其程序能在任务家族中泛化,且在少量专家演示时表现优于或与行为克隆相当。
  • Conclusion: CoGA通过意图驱动的动作空间约束和自动化代码生成,显著提升了在GUI导航任务中的样本效率和性能。

[75] AI-Enhanced Business Process Automation: A Case Study in the Insurance Domain Using Object-Centric Process Mining

Shahrzad Khayatbashi,Viktor Sjölind,Anders Granåker,Amin Jalali

Main category: cs.AI

TL;DR: 论文探讨了AI(特别是LLMs)如何通过自动化知识密集型任务推动业务流程重构,并通过保险行业的案例研究展示了OCPM方法在评估AI自动化影响中的实际应用。

  • Motivation: 研究动机在于评估AI自动化对业务流程的影响,尤其是传统与AI增强流程变体共存时的动态变化,填补了OCPM在实际案例中应用的空白。
  • Method: 采用对象中心流程挖掘(OCPM)方法,结合保险行业的案例研究,分析LLM自动化对业务流程可扩展性的影响。
  • Result: 研究发现LLMs显著提升了运营能力,但也引入了需要进一步优化的新流程动态。
  • Conclusion: 研究验证了OCPM在真实场景中的实用性,同时指出了LLM自动化带来的新挑战和OCPM的局限性。

[76] Comprehend, Divide, and Conquer: Feature Subspace Exploration via Multi-Agent Hierarchical Reinforcement Learning

Weiliang Zhang,Xiaohan Huang,Yi Du,Ziyue Qiao,Qingqing Long,Zhen Meng,Yuanchun Zhou,Meng Xiao

Main category: cs.AI

TL;DR: 论文提出了一种名为HRLFS的新方法,通过结合大型语言模型(LLM)和分层强化学习(RL)优化特征选择,解决了传统RL方法在处理复杂数据集时的效率问题。

  • Motivation: 传统强化学习方法在特征选择中因单特征单代理模式效率低下,且难以应对复杂数据集,因此需要改进。
  • Method: 使用LLM提取特征的数学和语义信息,聚类特征并构建分层代理,以减少代理数量并提升效率。
  • Result: 实验表明HRLFS在性能和运行时间上优于现有方法,提升了下游机器学习任务的效果。
  • Conclusion: HRLFS通过分层代理和LLM的结合,显著提高了特征选择的效率和可扩展性。

[77] Assessing the Capability of Large Language Models for Domain-Specific Ontology Generation

Anna Sofia Lippolis,Mohammad Javad Saeedizade,Robin Keskisarkka,Aldo Gangemi,Eva Blomqvist,Andrea Giovanni Nuzzolese

Main category: cs.AI

TL;DR: LLMs在领域无关的本体生成任务中表现出色,DeepSeek和o1-preview在多个领域均能稳定生成本体。

  • Motivation: 探索LLMs在领域特定本体生成任务中的适用性及其泛化能力。
  • Method: 使用DeepSeek和o1-preview两种LLMs,通过能力问题和用户故事生成本体,并在六个领域进行实验。
  • Result: 两种LLMs在所有领域表现一致,表明其能泛化本体生成任务。
  • Conclusion: LLMs为可扩展且领域无关的本体构建提供了潜力,未来可进一步研究自动推理和知识表示技术。

[78] Redefining Superalignment: From Weak-to-Strong Alignment to Human-AI Co-Alignment to Sustainable Symbiotic Society

Feifei Zhao,Yuwei Wang,Enmeng Lu,Dongcheng Zhao,Bing Han,Haibo Tong,Yao Liang,Dongqi Liang,Kang Sun,Lei Wang,Yitao Liang,Chao Liu,Yaodong Yang,Yi Zeng

Main category: cs.AI

TL;DR: 论文探讨了超级对齐问题,提出了一种结合外部监督和内在主动对齐的框架,以确保超级智能AI与人类价值观一致。

  • Motivation: 随着AI向超级智能(ASI)发展,其可能超出人类控制,威胁人类价值观,亟需解决超级对齐问题。
  • Method: 提出外部监督(基于人类决策和自动化评估)与内在主动对齐(通过自我意识和共情)相结合的框架。
  • Result: 框架旨在实现人类与AI的协同对齐,为安全有益的AGI和ASI铺路。
  • Conclusion: 结合外部与内在对齐方法,可促进可持续共生社会,确保AI与人类价值观一致。

[79] Towards Machine-Generated Code for the Resolution of User Intentions

Justus Flerlage,Ilja Behnke,Odej Kao

Main category: cs.AI

TL;DR: 论文探讨了利用大型语言模型(LLM)生成代码以实现用户意图的可行性,展示了LLM在生成工作流方面的潜力。

  • Motivation: 随着AI能力的提升,尤其是LLM的发展,用户与设备的交互方式需要重新评估。传统的高层应用方式可能被更直接的意图解析取代。
  • Method: 通过向LLM(如GPT-4o-mini)提供具体用户意图和简化API,生成并执行代码工作流。
  • Result: 研究发现该方法总体可行,且LLM在生成符合用户意图的代码工作流方面表现出色。
  • Conclusion: LLM在意图解析和代码生成方面具有显著潜力,为混合工作流(人机协作)提供了新方向。

[80] Auditing the Ethical Logic of Generative AI Models

W. Russell Neuman,Chad Coleman,Ali Dasdan,Safinah Ali,Manan Shah

Main category: cs.AI

TL;DR: 本文提出了一种五维审计模型,用于评估大型语言模型的伦理推理能力,发现模型在伦理决策上趋同,但在解释严谨性和道德优先级上存在差异。

  • Motivation: 随着生成式AI模型在高风险领域的应用增加,评估其伦理推理能力的需求日益迫切。
  • Method: 采用五维审计模型(分析质量、伦理考虑广度、解释深度、一致性和决断力),结合多组提示方法(包括新颖的伦理困境)评估模型。
  • Result: 测试了七大主流LLM,发现模型在伦理决策上趋同,但解释严谨性和道德优先级差异显著;链式思维提示和优化推理模型显著提升性能。
  • Conclusion: 研究提出了一种可扩展的AI伦理评估方法,并展示了AI在复杂决策中辅助人类道德推理的潜力。

cs.NE

[81] Dual-Individual Genetic Algorithm: A Dual-Individual Approach for Efficient Training of Multi-Layer Neural Networks

Tran Thuy Nga Truong,Jooyong Kim

Main category: cs.NE

TL;DR: 本文提出了一种名为Dual-Individual GA的增强遗传算法,用于优化神经网络的二分类任务(如猫与非猫分类)。该方法仅使用两个个体(Leader和Follower)进行交叉,分别专注于开发和探索。实验结果表明,该方法在性能和成本上优于传统梯度方法。

  • Motivation: 传统梯度方法在神经网络优化中存在局限性,如需要手动调整架构和易陷入局部最优。本文旨在通过遗传算法提升优化效率和性能。
  • Method: 提出Dual-Individual GA,利用Leader和Follower两个参数集进行交叉,分别负责开发和探索。引入自适应层维度机制,自动生成层架构。
  • Result: 在[12288, 17, 4, 1]的三层网络上,训练准确率达99.04%,测试准确率80%(成本0.034),优于梯度方法的98%和80%(成本0.092)。
  • Conclusion: Dual-Individual GA在神经网络优化中表现出高效性和优越性,尤其在避免局部最优和自动架构调整方面。

[82] Revisiting Reset Mechanisms in Spiking Neural Networks for Sequential Modeling: Specialized Discretization for Binary Activated RNN

Enqi Zhang

Main category: cs.NE

TL;DR: 该论文探讨了将脉冲神经网络(SNNs)视为二元激活循环神经网络(RNNs)用于序列建模任务,并解决了SNNs在序列建模中的三大挑战。

  • Motivation: 当前SNN架构在序列建模中存在缺乏有效记忆机制、生物启发组件理论不足以及无法并行训练的问题。
  • Method: 系统分析了重置操作和不应期机制,重新评估其必要性,并提出固定不应期SNN架构。
  • Result: 提供了新的理论解释和见解,并验证了固定不应期SNN架构的有效性。
  • Conclusion: 固定不应期SNN架构为序列建模提供了更优的解决方案。

cs.MM

[83] Multifaceted Evaluation of Audio-Visual Capability for MLLMs: Effectiveness, Efficiency, Generalizability and Robustness

Yusheng Zhao,Junyu Luo,Xiao Luo,Weizhi Zhang,Zhiping Xiao,Wei Ju,Philip S. Yu,Ming Zhang

Main category: cs.MM

TL;DR: 本文对多模态大语言模型(MLLMs)的音频-视觉能力进行了多维度评估,发现其在零样本和小样本泛化能力上表现优异,但对视觉模态依赖性强,且易受对抗样本影响。

  • Motivation: 尽管MLLMs在多模态信息处理中表现出色,但缺乏对其音频-视觉能力的全面评估,尤其是在分布偏移和对抗攻击等多样化场景下的表现。
  • Method: 通过四个关键维度(有效性、效率、泛化性和鲁棒性)对MLLMs的音频-视觉能力进行多角度评估,并进行大量实验。
  • Result: MLLMs在零样本和小样本泛化能力上表现优异,但对视觉模态依赖性强,视觉输入受损时性能下降。虽然易受对抗样本影响,但相比传统模型更具鲁棒性。
  • Conclusion: 研究结果揭示了MLLMs的音频-视觉能力,指出了改进方向,并为未来研究提供了指导。

cs.CL

[84] Tokenization Matters: Improving Zero-Shot NER for Indic Languages

Priyaranjan Pattnayak,Hitesh Laxmichand Patel,Amit Agarwal

Main category: cs.CL

TL;DR: 论文比较了BPE、SentencePiece和字符级分词策略在低资源印度语言NER任务中的表现,发现SentencePiece在跨语言零样本设置中表现最佳。

  • Motivation: 研究BPE在低资源印度语言NER任务中的适用性不足,探索更优的分词方法。
  • Method: 系统比较BPE、SentencePiece和字符级分词策略,评估其语言特性和下游任务表现。
  • Result: SentencePiece在低资源语言中表现优于BPE,尤其在跨语言零样本设置中。
  • Conclusion: SentencePiece是低资源印度语言NER任务中更有效的分词策略。

[85] The Rise of Small Language Models in Healthcare: A Comprehensive Survey

Muskan Garg,Shaina Raza,Shebuti Rayana,Xingyi Liu,Sunghwan Sohn

Main category: cs.CL

TL;DR: 论文探讨了小型语言模型(SLMs)在医疗领域的应用,提出了分类框架,并展示了其在资源受限环境中的潜力。

  • Motivation: 解决大型语言模型(LLMs)在医疗应用中面临的数据隐私和资源限制问题,推广SLMs作为可扩展的解决方案。
  • Method: 提出分类框架,分析SLMs在三个维度(NLP任务、利益相关者角色和护理连续性)的表现,并介绍模型优化技术。
  • Result: 展示了SLMs在医疗NLP任务中的实验成果,证明了其变革潜力。
  • Conclusion: SLMs为医疗信息学提供了高效、可持续的解决方案,未来研究可进一步优化其应用。

[86] MIRAGE: A Metric-Intensive Benchmark for Retrieval-Augmented Generation Evaluation

Chanhee Park,Hyeonseok Moon,Chanjun Park,Heuiseok Lim

Main category: cs.CL

TL;DR: MIRAGE是一个专为RAG系统评估设计的问答数据集,包含7,560个实例和37,800个检索条目,并引入了新的评估指标。

  • Motivation: 由于RAG系统中检索与生成组件的复杂交互,现有评估方法不足,缺乏针对性的基准。
  • Method: 提出MIRAGE数据集和新的评估指标,用于衡量RAG系统的适应性。
  • Result: 通过实验揭示了RAG系统中模型对的最优配置及其动态特性。
  • Conclusion: MIRAGE为RAG系统提供了高效的评估工具,数据集和代码已公开。

Zhaolu Kang,Hongtian Cai,Xiangyang Ji,Jinzhe Li,Nanfei Gu

Main category: cs.CL

TL;DR: JurisCTC是一种新型模型,通过对比学习实现跨法律领域的知识迁移,显著提升了法律判决预测任务的准确性。

  • Motivation: 解决法律文本复杂且标注数据稀缺的问题,探索无监督领域适应在法律领域的应用。
  • Method: 提出JurisCTC模型,利用对比学习区分不同法律领域的样本,实现民事与刑事法律领域的知识迁移。
  • Result: JurisCTC在准确率上表现优异,分别达到76.59%和78.83%。
  • Conclusion: JurisCTC在法律判决预测任务中表现出色,为跨法律领域的知识迁移提供了有效解决方案。

[88] FLUKE: A Linguistically-Driven and Task-Agnostic Framework for Robustness Evaluation

Yulia Otmakhova,Hung Thinh Truong,Rahmad Mahendra,Zenan Zhai,Rongxin Zhu,Daniel Beck,Jey Han Lau

Main category: cs.CL

TL;DR: FLUKE是一个任务无关的框架,通过系统性的最小化测试数据变化评估模型鲁棒性,涵盖从拼写到方言和风格的多层次语言变化,并结合LLMs和人工验证生成修改。

  • Motivation: 研究模型对不同语言变化的鲁棒性,揭示任务依赖性及模型的脆弱性。
  • Method: FLUKE框架通过LLMs和人工验证生成语言变化,评估微调模型和LLMs在四个NLP任务中的表现。
  • Result: 1) 语言变化的影响高度依赖任务;2) LLMs整体鲁棒性更强,但对某些变化仍脆弱;3) 所有模型对否定修改普遍脆弱。
  • Conclusion: 系统性鲁棒性测试对理解模型行为至关重要。

[89] LiveLongBench: Tackling Long-Context Understanding for Spoken Texts from Live Streams

Yongxuan Wu,Runyu Chen,Peiyu Liu,Hongjin Qian

Main category: cs.CL

TL;DR: 论文构建了首个基于直播的冗余丰富的口语长文本数据集,评估了现有方法在长上下文理解中的表现,并提出了一种新基线方法。

  • Motivation: 现有长文本数据集未能反映真实对话的冗余和信息密度不均特点,限制了实际应用。
  • Method: 构建了基于直播的口语长文本数据集,设计了检索依赖、推理依赖和混合任务,评估了流行LLM和专用方法。
  • Result: 现有方法在冗余输入上表现不佳,任务偏好明显,新基线方法表现更优。
  • Conclusion: 研究揭示了当前方法的局限性,为改进长上下文理解提供了方向,并填补了口语长文本评估的空白。

[90] M-MRE: Extending the Mutual Reinforcement Effect to Multimodal Information Extraction

Chengguang Gan,Sunbowen Lee,Zhixi Cai,Yanbin Wei,Lei Zheng,Yunhao Liang,Shiwen Ni,Tatsunori Mori

Main category: cs.CL

TL;DR: 论文首次将MRE扩展到多模态信息提取领域,提出M-MRE任务,并构建数据集。通过PFA适配器验证了MRE在多模态任务中的有效性。

  • Motivation: 探索MRE在视觉和多模态领域的适用性,填补研究空白。
  • Method: 引入M-MRE任务,构建数据集,并提出PFA适配器以适配多种LVLMs。
  • Result: 实验证明MRE在多模态任务中同样有效,支持跨任务互惠增益。
  • Conclusion: MRE在多模态领域具有通用性,为跨任务联合建模提供新方向。

[91] HalluLens: LLM Hallucination Benchmark

Yejin Bang,Ziwei Ji,Alan Schelten,Anthony Hartshorn,Tara Fowler,Cheng Zhang,Nicola Cancedda,Pascale Fung

Main category: cs.CL

TL;DR: 本文提出了一个全面的幻觉基准,通过明确分类和动态测试集生成,解决了LLM幻觉问题,并分析了现有基准的局限性。

  • Motivation: LLM生成的幻觉内容损害用户信任,阻碍生成式AI系统的采用,亟需解决。
  • Method: 引入新的外在和内在评估任务,建立清晰的幻觉分类,动态生成测试集以防止数据泄露。
  • Result: 提出了一个统一的幻觉基准,区分了外在和内在幻觉,并分析了现有基准的不足。
  • Conclusion: 该工作为LLM幻觉研究提供了清晰的分类和动态评估框架,推动了生成式AI的可靠性。

[92] Data-Driven Calibration of Prediction Sets in Large Vision-Language Models Based on Inductive Conformal Prediction

Yuanchang Ye,Weiyan Wen

Main category: cs.CL

TL;DR: 该研究通过Split Conformal Prediction(SCP)框架解决大型视觉语言模型(LVLM)在视觉问答(VQA)任务中的幻觉问题,提出一种模型无关的不确定性量化方法。

  • Motivation: LVLM在多模态推理中表现出色,但其输出常伴随高置信度的幻觉内容,对安全关键应用构成风险。
  • Method: 采用动态阈值校准和跨模态一致性验证,通过数据分区计算非一致性分数,构建具有统计保证的预测集。
  • Result: 在多个基准测试中验证了SCP的理论保证,表现稳定,适用于医疗、自动驾驶等安全敏感领域。
  • Conclusion: 该框架填补了多模态AI系统理论可靠性与实际应用之间的差距,为幻觉检测和不确定性决策提供了可扩展方案。

[93] Ensemble Bayesian Inference: Leveraging Small Language Models to Achieve LLM-level Accuracy in Profile Matching Tasks

Haru-Tada Sato,Fuka Matsuzaki,Jun-ichiro Takahashi

Main category: cs.CL

TL;DR: 本研究提出了一种名为Ensemble Bayesian Inference (EBI)的新方法,通过贝叶斯估计结合多个小型语言模型(SLM)的预测,使其性能超越单个模型,达到与大型语言模型(LLM)相当的准确性。

  • Motivation: 探索如何通过SLM组合实现与专有LLM相当的准确性,同时降低计算资源需求。
  • Method: 提出EBI方法,利用贝叶斯估计整合多个SLM的预测,并在多语言任务(如能力评估和消费者画像分析)中验证其有效性。
  • Result: 实验表明,EBI能显著提升性能,甚至在某些情况下,整合表现较差的模型也能提升整体效果。
  • Conclusion: EBI为资源有限的高性能AI系统开发提供了新思路,并展示了如何有效利用性能较低的模型。

[94] Multilingual Performance Biases of Large Language Models in Education

Vansh Gupta,Sankalan Pal Chowdhury,Vilém Zouhar,Donya Rooein,Mrinmaya Sachan

Main category: cs.CL

TL;DR: 研究发现,大型语言模型(LLM)在非英语教育任务中的表现与训练数据中的语言资源量相关,低资源语言表现较差。建议部署前验证模型在目标语言中的表现。

  • Motivation: 评估LLM在非英语教育任务中的适用性,确保其在不同语言中的有效性。
  • Method: 在六种非英语语言(印地语、阿拉伯语、波斯语、泰卢固语、乌克兰语、捷克语)和英语中,测试LLM在四种教育任务上的表现。
  • Result: 模型表现与训练数据中的语言资源量相关,低资源语言表现较差,且与英语相比有明显下降。
  • Conclusion: 建议在部署前验证LLM在目标语言中的表现,以确保教育任务的有效性。

physics.plasm-ph

[95] Plasma State Monitoring and Disruption Characterization using Multimodal VAEs

Yoeri Poels,Alessandro Pau,Christian Donner,Giulio Romanelli,Olivier Sauter,Cristina Venturini,Vlado Menkovski,the TCV team,the WPTE team

Main category: physics.plasm-ph

TL;DR: 该论文提出了一种基于变分自编码器(VAE)的数据驱动方法,用于表征托卡马克等离子体状态的可解释性表示,以预测和区分不同类型的等离子体破裂。

  • Motivation: 等离子体破裂是托卡马克装置中的关键挑战,现有数据驱动模型预测能力有限且缺乏可解释性。
  • Method: 扩展VAE框架,包括连续投影等离子体轨迹、多模态结构分离操作模式及破裂模式区分,并通过统计特性识别破裂率和破裂性指标。
  • Result: 在约1600次TCV放电数据中验证了方法的有效性,能够区分不同破裂类型并识别与破裂相关的参数。
  • Conclusion: 该方法能够以可解释的方式识别不同操作模式及其与破裂的接近程度。

cs.RO

[96] Robo-Troj: Attacking LLM-based Task Planners

Mohaiminul Al Nahian,Zainab Altaweel,David Reitano,Sabbir Ahmed,Saumitra Lohokare,Shiqi Zhang,Adnan Siraj Rakin

Main category: cs.RO

TL;DR: 本文提出了Robo-Troj,一种针对基于LLM的任务规划系统的多触发后门攻击方法,旨在揭示其安全漏洞并推动安全机器人系统的发展。

  • Motivation: 尽管基于LLM的任务规划系统表现出色,但其安全性研究不足,本文旨在填补这一空白。
  • Method: 开发了Robo-Troj,一种多触发后门攻击方法,并通过优化选择最有效的触发词。
  • Result: 展示了LLM任务规划系统的脆弱性,并通过具体案例(如厨房机器人)验证了攻击的有效性。
  • Conclusion: 通过揭示漏洞,本文呼吁加强LLM任务规划系统的安全性研究。

[97] Object Pose Estimation by Camera Arm Control Based on the Next Viewpoint Estimation

Tomoki Mizuno,Kazuya Yabashi,Tsuyoshi Tasaki

Main category: cs.RO

TL;DR: 提出了一种新方法,用于估计下一个视点(NV),以提高零售店产品展示机器人对简单形状产品的姿态估计效果。

  • Motivation: 基于RGBD相机的神经网络姿态估计方法在纹理和形状特征较少时准确性下降,而传统数学模型方法难以估计有效的NV。
  • Method: 开发了一种新的姿态估计神经网络,同时估计NV,利用姿态估计与NV估计之间的关系。
  • Result: 实验结果显示,NV估计使姿态估计成功率提高7.4个百分点至77.3%,机器人成功展示84.2%的产品。
  • Conclusion: 新方法显著提升了简单形状产品的姿态估计和展示效果。

[98] BIM-Constrained Optimization for Accurate Localization and Deviation Correction in Construction Monitoring

Asier Bikandi,Muhammad Shaheer,Hriday Bavle,Jayan Jevanesan,Holger Voos,Jose Luis Sanchez-Lopez

Main category: cs.RO

TL;DR: 提出了一种基于BIM的漂移校正方法,通过将实际检测到的平面与BIM中的平面对齐,优化了AR在建筑环境中的定位精度。

  • Motivation: 建筑工地环境复杂,传统跟踪方法因特征缺失和动态变化导致数字模型与实际世界对齐不准确。
  • Method: 结合SLAM和BIM,通过优化技术计算坐标系转换,减少漂移。
  • Result: 实验显示,系统减少了52.24%的角度偏差和60.8%的距离误差。
  • Conclusion: 该方法显著提升了AR在建筑监控中的长期定位和可视化准确性。

[99] Integrating Learning-Based Manipulation and Physics-Based Locomotion for Whole-Body Badminton Robot Control

Haochen Wang,Zhiwei Shi,Chengxi Zhu,Yafei Qiao,Cheng Zhang,Fan Yang,Pengjie Ren,Lan Lu,Dong Xuan

Main category: cs.RO

TL;DR: 提出了一种混合控制系统HAMLET,结合模型方法和学习策略,用于敏捷羽毛球机器人控制,成功率高且可推广。

  • Motivation: 现有学习策略(如模仿学习和强化学习)在敏捷机器人任务中表现优异,但缺乏与模型方法的结合以确保安全性和稳定性。
  • Method: 提出模型底盘运动策略作为基础,结合物理信息的IL+RL训练框架,利用特权信息指导训练,并在IL阶段训练评论模型以减少性能下降。
  • Result: 在自研羽毛球机器人上实现94.5%对发球机的成功率和90.7%对人类玩家的成功率。
  • Conclusion: HAMLET系统高效且可推广至其他敏捷移动操作任务。

physics.optics

[100] Physics-guided and fabrication-aware inverse design of photonic devices using diffusion models

Dongjin Seo,Soobin Um,Sangbin Lee,Jong Chul Ye,Haejun Chung

Main category: physics.optics

TL;DR: AdjointDiffusion是一种结合扩散模型和伴随梯度优化的物理引导框架,用于高效设计可制造的光子器件,显著减少仿真需求。

  • Motivation: 传统逆向设计方法复杂且计算量大,深度学习策略需要大量仿真,AdjointDiffusion旨在克服这些限制。
  • Method: 训练扩散模型于合成数据集,结合伴随梯度优化,引导生成高优解。
  • Result: 在波导和CMOS图像传感器设计中,AdjointDiffusion优于现有非线性优化器,仿真需求大幅降低。
  • Conclusion: AdjointDiffusion提供了一种高效、可制造的光子器件设计方法,开源实现可用。

cs.LG

[101] Backslash: Rate Constrained Optimized Training of Large Language Models

Jun Wu,Jiangtao Wen,Yuxing Han

Main category: cs.LG

TL;DR: 论文提出了一种名为Backslash的训练时压缩方法,通过率失真优化实现模型精度与复杂度的灵活权衡,显著减少参数冗余且不损失性能。

  • Motivation: 大型语言模型(LLMs)的参数压缩研究主要集中在训练后阶段,而训练阶段的压缩尚未充分探索。
  • Method: 采用率失真优化(RDO)的Rate-Constrained Training(Backslash)方法,在训练过程中实现压缩。
  • Result: 实验表明,Backslash可减少60%-90%的内存使用且无精度损失,相比训练后压缩有显著优势,同时增强泛化性和鲁棒性。
  • Conclusion: Backslash是一种高效、灵活的训练时压缩方法,适用于多种架构和任务,尤其在边缘设备上具有潜力。

[102] Unsupervised Time-Series Signal Analysis with Autoencoders and Vision Transformers: A Review of Architectures and Applications

Hossein Ahmadi,Sajjad Emdadi Mahdimahalleh,Arman Farahat,Banafsheh Saffari

Main category: cs.LG

TL;DR: 综述了无监督学习中自编码器和视觉变换器在信号分析中的应用,探讨了其架构、应用及趋势。

  • Motivation: 应对无线通信、雷达、生物医学工程和物联网等领域中未标记时间序列数据的快速增长,推动无监督学习的发展。
  • Method: 通过自编码器和视觉变换器进行特征提取、异常检测和分类,分析混合架构和自监督学习的优势。
  • Result: 展示了这些模型在多种信号类型(如心电图、雷达波形和物联网传感器数据)中的应用潜力。
  • Conclusion: 为开发鲁棒、自适应的信号智能模型提供了路线图,同时指出了可解释性、可扩展性和领域泛化等挑战。

[103] (Im)possibility of Automated Hallucination Detection in Large Language Models

Amin Karbasi,Omar Montasser,John Sous,Grigoris Velegkas

Main category: cs.LG

TL;DR: 论文探讨了自动检测大语言模型(LLM)幻觉的可行性,通过理论框架分析其与语言识别的等价性,并指出专家标注反馈对实现检测的关键作用。

  • Motivation: 研究动机是解决LLM生成内容中幻觉的自动检测问题,为实际部署提供理论支持。
  • Method: 提出理论框架,将幻觉检测与语言识别任务等价化,分析不同训练数据(仅正确样本与专家标注正负样本)对检测能力的影响。
  • Result: 证明仅用正确样本训练时,幻觉检测基本不可行;引入专家标注反馈后,检测对所有可数语言集合成为可能。
  • Conclusion: 专家标注反馈是实现自动幻觉检测的关键,支持基于反馈的方法(如RLHF)在LLM部署中的重要性。

[104] Democracy of AI Numerical Weather Models: An Example of Global Forecasting with FourCastNetv2 Made by a University Research Lab Using GPU

Iman Khadir,Shane Stevenson,Henry Li,Kyle Krick,Abram Burrows,David Hall,Stan Posey,Samuel S. P. Shen

Main category: cs.LG

TL;DR: 论文探讨了利用GPU和开源AI模型(如FourCastNetv2)在高校研究团队中普及AI驱动的全球天气预测的可行性,并分析了资源限制下的挑战与解决方案。

  • Motivation: 旨在通过开源工具和有限的高性能计算资源,帮助资源受限的高校研究团队实现AI天气预测的民主化。
  • Method: 利用FourCastNetv2的API进行预测,并使用NVIDIA硬件训练原始FourCastNet模型,同时研究数据管理、训练效率和模型验证。
  • Result: 展示了在资源有限的情况下使用NVIDIA A100的能力和限制,并提供了相关GitHub材料作为研究指南。
  • Conclusion: 论文为高校研究团队和课程提供了AI天气预测的研究和教育框架,推动了AI在数值天气预报中的普及。

[105] Statistical Guarantees in Synthetic Data through Conformal Adversarial Generation

Rahul Vishwakarma

Main category: cs.LG

TL;DR: 提出了一种结合共形预测与GAN的新框架(cGAN),为生成数据提供统计保证。

  • Motivation: 现有生成模型缺乏对数据分布的严格统计保证,限制了其在关键领域的应用。
  • Method: 将多种共形预测方法(如ICP、Mondrian等)整合到GAN中,实现分布无关的不确定性量化。
  • Result: cGAN在保持生成能力的同时,增强了校准性,生成数据具有可证明的统计保证。
  • Conclusion: cGAN为高风险领域(如医疗、金融)提供了可靠的合成数据生成方法。

[106] Scalable Permutation-Aware Modeling for Temporal Set Prediction

Ashish Ranjan,Ayush Agarwal,Shalin Barot,Sushant Kumar

Main category: cs.LG

TL;DR: 提出了一种高效且可扩展的时序集合预测框架,通过置换等变和置换不变变换建模集合动态,显著降低了计算开销。

  • Motivation: 现有方法依赖复杂架构,计算开销大,限制了可扩展性。
  • Method: 利用置换等变和置换不变变换高效建模集合动态。
  • Result: 在多个公开基准测试中表现优于或与现有最优模型相当。
  • Conclusion: 该方法实现了高效且可扩展的时序集合预测。

[107] OUI Need to Talk About Weight Decay: A New Perspective on Overfitting Detection

Alberto Fernández-Hernández,Jose I. Mestre,Manuel F. Dolz,Jose Duato,Enrique S. Quintana-Ortí

Main category: cs.LG

TL;DR: OUI是一种新工具,用于监测DNN训练动态并优化正则化超参数,无需验证数据即可判断过拟合或欠拟合。

  • Motivation: 传统方法依赖验证数据调整超参数,OUI旨在提供更快速、更直接的指导。
  • Method: 通过实验验证OUI在多种DNN和数据集上的有效性,指导Weight Decay超参数选择。
  • Result: OUI能更快收敛并显著提升泛化能力,优于传统指标。
  • Conclusion: OUI为超参数调优提供了高效工具,尤其适用于早期训练阶段。

[108] Synthetic Power Flow Data Generation Using Physics-Informed Denoising Diffusion Probabilistic Models

Junfei Wang,Darshana Upadhyay,Marzia Zaman,Pirathayini Srikantha

Main category: cs.LG

TL;DR: 提出了一种基于DDPM的物理信息生成框架,用于合成可行的电力潮流数据,解决了真实数据受限的问题。

  • Motivation: 智能电网中许多数据驱动模块依赖高质量电力潮流数据,但实际数据常因隐私和操作限制而不足。
  • Method: 结合辅助训练和物理信息损失函数,确保生成数据具有统计保真度和电力系统可行性。
  • Result: 在IEEE 14总线和30总线系统上验证,模型在可行性、多样性和统计特征准确性上优于基线。
  • Conclusion: 生成模型在数据驱动的电力系统应用中具有潜力。

[109] Enhancing Variational Autoencoders with Smooth Robust Latent Encoding

Hyomin Lee,Minseon Kim,Sangwon Jang,Jongheon Jeong,Sung Ju Hwang

Main category: cs.LG

TL;DR: SRL-VAE是一种新型对抗训练框架,通过平滑潜在空间提升生成质量和鲁棒性,同时保持原始保真度。

  • Motivation: 尽管对抗训练在预测模型中已用于增强鲁棒性,但在生成模型中因担心性能与鲁棒性之间的权衡而被忽视。本文挑战这一假设。
  • Method: 提出SRL-VAE框架,通过对抗扰动平滑潜在空间,并结合原始表示正则化以保持保真度。
  • Result: 实验表明,SRL-VAE在图像重建、文本引导编辑及对抗攻击(如Nightshade)中均提升了生成质量和鲁棒性。
  • Conclusion: SRL-VAE证明对抗训练不仅能增强鲁棒性,还能提升生成模型的保真度,开辟了新范式。

[110] NeuralGrok: Accelerate Grokking by Neural Gradient Transformation

Xinyu Zhou,Simin Fan,Martin Jaggi,Jie Fu

Main category: cs.LG

TL;DR: NeuralGrok是一种基于梯度的新方法,通过动态调整梯度分量加速Transformer在算术任务中的泛化。

  • Motivation: 研究Grokking现象,即模型在长时间过拟合后突然泛化,提出加速泛化的方法。
  • Method: 训练一个辅助模块(如MLP块),通过双层优化动态调整梯度分量对泛化的贡献。
  • Result: NeuralGrok显著加速泛化,尤其在算术任务中,同时减少模型复杂度并提高训练稳定性。
  • Conclusion: NeuralGrok不仅加速泛化,还通过降低模型复杂度促进对Grokking现象的深入理解。

[111] Targeted AMP generation through controlled diffusion with efficient embeddings

Diogo Soares,Leon Hetzel,Paulina Szymczak,Fabian Theis,Stephan Günnemann,Ewa Szczurek

Main category: cs.LG

TL;DR: OmegAMP是一个基于扩散模型的框架,用于高效生成具有特定性质的抗菌肽(AMP),解决了实验命中率低和可控性不足的问题。

  • Motivation: 当前基于深度学习的AMP发现方法存在实验命中率低、可控性不足和肽性质建模效率低的问题。
  • Method: OmegAMP利用扩散生成模型,结合低维嵌入、精确可控机制和新型分类器,降低假阳性率。
  • Result: OmegAMP在AMP发现流程的各个阶段均表现出色,显著提升了计算框架在抗微生物耐药性方面的潜力。
  • Conclusion: OmegAMP通过高效生成和精确控制,为AMP发现提供了先进的计算工具。

[112] Symbolic Representation for Any-to-Any Generative Tasks

Jiaqi Chen,Xiaoye Zhu,Yue Wang,Tianyang Liu,Xinhui Chen,Ying Chen,Chak Tou Leong,Yifei Ke,Joseph Liu,Yiwen Yuan,Julian McAuley,Li-jia Li

Main category: cs.LG

TL;DR: 提出了一种符号化生成任务描述语言和推理引擎,能够将多模态任务表示为结构化符号流,无需大规模训练即可实现高效、灵活的任务执行。

  • Motivation: 传统生成模型依赖大规模训练和隐式神经表示,计算成本高且灵活性有限,因此需要一种更高效、灵活的方法。
  • Method: 采用显式符号表示,包括函数、参数和拓扑逻辑三个核心原语,结合预训练语言模型,实现自然语言指令到符号工作流的无训练映射。
  • Result: 在12种多模态生成任务中表现优异,性能与现有统一模型相当或更优,同时具备更高的效率、可编辑性和可中断性。
  • Conclusion: 符号化任务表示为生成AI提供了成本效益高且可扩展的基础。

[113] ExOSITO: Explainable Off-Policy Learning with Side Information for Intensive Care Unit Blood Test Orders

Zongliang Ji,Andre Carlos Kajdacsy-Balla Amaral,Anna Goldenberg,Rahul G. Krishnan

Main category: cs.LG

TL;DR: 本文提出了一种结合离策略学习和特权信息的新方法ExOSITO,用于优化ICU实验室测试的订购,减少临床负担和成本。

  • Motivation: ICU中实验室测试的过度订购增加了临床负担和成本,需要一种方法在确保信息准确性的同时减少测试数量。
  • Method: 使用离策略学习和特权信息,结合临床知识和观察数据,训练因果赌博模型,生成可解释的测试订购策略。
  • Result: ExOSITO方法优于医生策略和现有方法,减少了成本且未遗漏关键测试。
  • Conclusion: ExOSITO为临床医生提供了可解释的辅助工具,优化了ICU实验室测试的订购。

[114] Collaborative Multi-Agent Reinforcement Learning for Automated Feature Transformation with Graph-Driven Path Optimization

Xiaohan Huang,Dongjie Wang,Zhiyuan Ning,Ziyue Qiao,Qingqing Long,Haowei Zhu,Yi Du,Min Wu,Yuanchun Zhou,Meng Xiao

Main category: cs.LG

TL;DR: TCTO是一个基于多智能体强化学习的框架,通过图驱动的路径优化自动化特征工程,解决现有方法忽略动态依赖的问题。

  • Motivation: 现有特征转换方法将转换步骤视为独立操作,忽略了动态依赖关系,导致效率低下。
  • Method: 提出TCTO框架,利用交互图建模特征和转换,通过图剪枝和回溯优化路径,减少冗余操作。
  • Result: 实验表明TCTO在多个数据集上表现优异,具有高效性和适应性。
  • Conclusion: TCTO通过动态交互图和路径优化,显著提升了特征工程的自动化水平和性能。

[115] Towards Harnessing the Collaborative Power of Large and Small Models for Domain Tasks

Yang Liu,Bingjie Yan,Tianyuan Zou,Jianqing Zhang,Zixuan Gu,Jianbing Ding,Xidong Wang,Jingyi Li,Xiaozhou Ye,Ye Ouyang,Qiang Yang,Ya-Qin Zhang

Main category: cs.LG

TL;DR: 提出大模型与小模型协同合作的方法,以加速大模型在私有领域的适应并释放AI新潜力。

  • Motivation: 大模型需要大量数据和计算资源,而小模型更高效且适合特定领域,通过协同合作可以结合两者优势。
  • Method: 探讨模型协作的策略,分析潜在挑战与机遇。
  • Result: 提出行业驱动的研究方向,强调在真实私有数据集和应用上的多目标基准测试。
  • Conclusion: 协同合作方法有望推动AI在私有领域的应用,需进一步研究和实践。

[116] HMI: Hierarchical Knowledge Management for Efficient Multi-Tenant Inference in Pretrained Language Models

Jun Zhang,Jue Wang,Huan Li,Lidan Shou,Ke Chen,Gang Chen,Qin Xie,Guiming Xie,Xuejian Gong

Main category: cs.LG

TL;DR: HMI系统通过分层知识管理,高效支持多租户环境下预训练语言模型的推理,显著减少GPU内存使用,同时保持准确性。

  • Motivation: 解决预训练语言模型在多租户环境中计算资源需求高、硬件依赖性强的问题。
  • Method: 1. 分层管理PLM知识(通用、领域特定、任务特定);2. 构建分层PLMs(hPLMs)减少内存;3. 系统优化(知识预取、并行计算)。
  • Result: 单GPU可服务10,000个hPLMs,准确性损失可忽略。
  • Conclusion: HMI系统在多租户环境下高效且资源友好。

[117] Group Downsampling with Equivariant Anti-aliasing

Md Ashiqur Rahman,Raymond A. Yeh

Main category: cs.LG

TL;DR: 研究了在群等变架构(如G-CNN)中均匀下采样层的泛化问题,提出了一种适用于有限群的下采样方法,并通过实验验证其提升分类精度和保持等变性的效果。

  • Motivation: 探索如何在群等变架构中实现有效的下采样,以增加感受野并减少计算开销,同时保持等变性。
  • Method: 提出了一种算法选择子群,并研究了带限性和抗混叠方法,将经典采样理论推广到有限群。
  • Result: 实验表明,该方法在图像分类任务中提高了精度,更好地保持了等变性,并减少了模型大小。
  • Conclusion: 该方法成功将经典下采样理论推广到群等变架构,为高效群等变网络设计提供了新思路。

[118] Evaluating Time Series Models for Urban Wastewater Management: Predictive Performance, Model Complexity and Resilience

Vipin Singh,Tianheng Ling,Teodor Chiaburu,Felix Biessmann

Main category: cs.LG

TL;DR: 论文提出了一种评估神经网络架构用于城市污水系统时间序列预测的协议,重点关注预测性能、模型复杂性和抗干扰能力。结果表明,全局模型性能更高,但局部模型在分散场景中更具韧性。

  • Motivation: 气候变化导致极端降雨频率增加,对城市污水系统造成压力,传统物理模型成本高且难以适应动态变化,机器学习提供了更经济高效的替代方案。
  • Method: 提出评估协议,比较全局模型和局部模型,并引入误差模型测试模型抗干扰能力。
  • Result: 全局模型预测性能更高,但局部模型在分散场景中更具韧性;长预测范围的模型对数据扰动更具鲁棒性。
  • Conclusion: 研究为可持续城市污水管理提供了可解释且可靠的机器学习解决方案。

[119] Class-Conditional Distribution Balancing for Group Robust Classification

Miaoyun Zhao,Qiang Zhang,Chenrong Li

Main category: cs.LG

TL;DR: 论文提出了一种无需偏置标注或预测的鲁棒学习方法,通过重新加权样本平衡类条件分布,有效消除虚假相关性。

  • Motivation: 虚假相关性导致模型基于错误原因做出预测,现有方法依赖昂贵的偏置标注或大规模数据,难以适用于资源有限的罕见领域。
  • Method: 通过样本重新加权策略平衡类条件分布,减少虚假因素与标签信息的互信息,自动突出少数群体和类别。
  • Result: 实验表明,该方法性能优异,媲美依赖偏置监督的方法。
  • Conclusion: 该方法简单有效,无需额外标注或预测,适用于资源受限场景。

[120] GRANITE : a Byzantine-Resilient Dynamic Gossip Learning Framework

Yacine Belal,Mohamed Maouche,Sonia Ben Mokhtar,Anthony Simonet-Boulogne

Main category: cs.LG

TL;DR: GRANITE框架通过历史感知的拜占庭抗性对等采样协议(HaPS)和自适应概率阈值(APT),在稀疏动态图上实现了对高达30%拜占庭节点的鲁棒学习。

  • Motivation: 解决Gossip Learning在动态图上对拜占庭攻击(尤其是攻击RPS协议以扩大模型投毒)的鲁棒性问题。
  • Method: 结合HaPS协议(减少对抗影响)和APT(根据拜占庭节点比例设置聚合阈值)。
  • Result: GRANITE在高达30%拜占庭节点下仍能保持收敛,学习速度提升,且适用于比现有理论稀疏9倍的图。
  • Conclusion: GRANITE为稀疏动态图上的拜占庭鲁棒学习提供了有效解决方案。

[121] Plasticine: Accelerating Research in Plasticity-Motivated Deep Reinforcement Learning

Mingqi Yuan,Qi Wang,Guozheng Ma,Bo Li,Xin Jin,Yunbo Wang,Xiaokang Yang,Wenjun Zeng,Dacheng Tao

Main category: cs.LG

TL;DR: Plasticine是一个开源框架,用于评估深度强化学习中的可塑性优化,提供多种方法和指标。

  • Motivation: 开发终身学习代理对通用人工智能至关重要,但深度强化学习系统常因可塑性损失而受限,缺乏统一的基准和评估协议。
  • Method: Plasticine框架集成了13种缓解方法、10种评估指标,并在不同非平稳性环境中进行测试。
  • Result: Plasticine为研究者提供了系统量化可塑性损失、评估缓解策略和分析可塑性动态的工具。
  • Conclusion: Plasticine填补了可塑性优化领域的空白,为研究提供了统一的开源平台。

[122] The effects of Hessian eigenvalue spectral density type on the applicability of Hessian analysis to generalization capability assessment of neural networks

Nikita Gabdullin

Main category: cs.LG

TL;DR: 本文研究了神经网络(NN)Hessian矩阵的特征值谱密度(HESD)类型及其对泛化能力的影响,提出了统一的HESD分析方法,并探讨了训练过程中HESD的变化。

  • Motivation: Hessian矩阵的特征值谱密度(HESD)能反映NN损失曲面的曲率,进而估计泛化能力。本文旨在进一步研究HESD类型的影响因素及其在泛化分析中的适用性。
  • Method: 通过大量实验,分析了不同优化器、数据集、预处理和数据增强方法对HESD类型的影响,并提出了判断HESD类型和泛化潜力的标准。
  • Result: 实验表明,HESD主要为正值(MP-HESD)是NN训练和微调的常见现象,而负值主导的HESD(MN-HESD)则与外部梯度操作相关。此外,还发现了准奇异(QS)HESD的存在。
  • Conclusion: 本文提出了统一的HESD分析方法,并揭示了HESD类型与泛化能力的关系,同时指出了QS-HESD对传统Hessian特征值与损失曲面曲率关系的挑战。

[123] Goal-Oriented Time-Series Forecasting: Foundation Framework Design

Luca-Andrei Fechete,Mohamed Sana,Fadhel Ayed,Nicola Piovesan,Wenjie Li,Antonio De Domenico,Tareq Si Salem

Main category: cs.LG

TL;DR: 提出了一种新的时间序列预测训练方法,动态调整预测范围的重要性,提升预测精度和应用性能。

  • Motivation: 传统时间序列预测仅关注最小化预测误差,忽略了实际应用中对特定预测范围的需求。
  • Method: 将整个信号范围分解为小段,动态加权组合以生成预测。
  • Result: 在标准数据集和无线通信新数据集上测试,提升了预测精度和应用性能。
  • Conclusion: 为创建更紧密连接预测与决策的预测系统提供了基础。

[124] Combining GCN Structural Learning with LLM Chemical Knowledge for or Enhanced Virtual Screening

Radia Berreziga,Mohammed Brahimi,Khairedine Kraim,Hamid Azzoune

Main category: cs.LG

TL;DR: 本文提出了一种结合图卷积网络(GCN)和大语言模型(LLM)嵌入的混合架构,用于虚拟筛选,显著提升了性能。

  • Motivation: 传统机器学习方法(如SVM和XGBoost)依赖预定义的分子表示,可能导致信息丢失和偏差,而深度学习方法(如GCN)和LLM提供了更灵活和无偏的替代方案。
  • Method: 通过将LLM嵌入与GCN逐层结合,而非仅在最终层拼接,实现了全局化学知识与局部结构学习的深度融合。
  • Result: 混合模型F1得分为88.8%,优于单独GCN(87.9%)、XGBoost(85.5%)和SVM(85.4%)。
  • Conclusion: 该混合架构在虚拟筛选中表现出色,为药物发现提供了高效且性能优越的解决方案。

[125] Aerial Image Classification in Scarce and Unconstrained Environments via Conformal Prediction

Farhad Pourkamali-Anaraki

Main category: cs.LG

TL;DR: 本文对共形预测方法在复杂真实环境中的航空图像数据集上进行了实证分析,探讨了其在数据稀缺和高变异性场景下的表现。

  • Motivation: 研究共形预测在数据稀缺和高变异性真实环境中的有效性,尤其是在使用预训练模型和有限标注数据的情况下。
  • Method: 使用预训练模型(MobileNet、DenseNet、ResNet)进行微调,生成预测集,并通过两种校准管道(有/无温度缩放)评估性能。
  • Result: 共形预测即使在少量标注数据和简单非一致性分数下也能提供有价值的预测集;温度缩放并不总能减小预测集大小。
  • Conclusion: 共形预测在复杂任务中具有潜力,但需谨慎应用校准技术;未来应研究噪声标签的影响和模型压缩策略。

[126] TACO: Tackling Over-correction in Federated Learning with Tailored Adaptive Correction

Weijie Liu,Ziwei Zhan,Carlee Joe-Wong,Edith Ngai,Jingpu Duan,Deke Guo,Xu Chen,Xiaoxi Zhang

Main category: cs.LG

TL;DR: 论文研究了联邦学习中非独立同分布数据导致的过校正问题,提出了一种名为TACO的新算法,通过细粒度的梯度校正和模型聚合提升性能。

  • Motivation: 解决现有联邦学习方法中因统一模型校正系数导致的过校正问题,该问题会降低模型性能甚至导致收敛失败。
  • Method: 提出TACO算法,采用细粒度、客户端特定的梯度校正和模型聚合,减少计算开销并提升训练效率。
  • Result: 通过收敛分析和实验验证,TACO在多种数据集上表现出优越且稳定的性能。
  • Conclusion: TACO有效解决了过校正问题,提升了联邦学习的性能和效率。

[127] Learning Isometric Embeddings of Road Networks using Multidimensional Scaling

Juan Carlos Climent Pardo

Main category: cs.LG

TL;DR: 论文探讨了基于学习的自动驾驶中泛化能力不足的问题,提出利用图表示和多维缩放技术来设计适用于多种道路场景的特征空间。

  • Motivation: 当前基于学习的自动驾驶应用泛化能力有限,无法覆盖广泛的复杂道路场景,亟需一种能够捕捉多样化道路结构和动态环境的方法。
  • Method: 采用图表示道路网络,并利用多维缩放(MDS)技术来设计特征空间,同时分析了现有图表示和MDS方法在自动驾驶中的应用。
  • Result: 研究表明,图表示结合MDS技术能够有效提升自动驾驶系统的泛化能力,并讨论了节点嵌入以简化学习和降维的可能性。
  • Conclusion: 通过图表示和MDS技术,可以设计出更通用的特征空间,从而提升自动驾驶系统在复杂场景中的表现。

[128] Decentralized Time Series Classification with ROCKET Features

Bruno Casella,Matthias Jakobs,Marco Aldinucci,Sebastian Buschjäger

Main category: cs.LG

TL;DR: DROCKS是一个完全去中心化的联邦学习框架,用于时间序列分类,通过ROCKET特征和节点间的结构化路径训练全局模型,优于现有客户端-服务器方法。

  • Motivation: 解决传统联邦学习中服务器单点故障和隐私泄露问题,提出去中心化方案。
  • Method: 利用ROCKET特征,通过节点间的结构化路径训练模型,每个节点优化模型并选择最佳本地核。
  • Result: 在UCR存档上的实验显示,DROCKS优于现有方法,且对节点故障和恶意攻击更具鲁棒性。
  • Conclusion: DROCKS为时间序列分类提供了一种高效、安全的去中心化联邦学习解决方案。

[129] PTCL: Pseudo-Label Temporal Curriculum Learning for Label-Limited Dynamic Graph

Shengtao Zhang,Haokai Zhang,Shiqi Lou,Zicheng Wang,Zinan Zeng,Yilin Wang,Minnan Luo

Main category: cs.LG

TL;DR: 论文提出PTCL方法,解决动态节点分类中仅能获取最终标签的问题,通过伪标签和时间课程学习策略提升性能,并贡献新数据集和统一框架FLiD。

  • Motivation: 动态节点分类中,获取所有时间戳标签成本高且困难,而最终标签更易获得。
  • Method: 提出PTCL方法,包括时间解耦架构和基于指数衰减函数的时间课程学习策略。
  • Result: 实验证明PTCL优于其他方法,并贡献新数据集CoOAG和框架FLiD。
  • Conclusion: PTCL有效解决了标签有限的动态节点分类问题,提供了统一框架支持未来研究。

[130] Federated Learning: A Survey on Privacy-Preserving Collaborative Intelligence

Edward Collins,Michel Wang

Main category: cs.LG

TL;DR: 联邦学习(FL)是一种分布式机器学习范式,允许多个客户端协作训练共享模型而无需集中敏感数据,解决了隐私、安全和合规性问题。本文综述了FL的核心架构、生命周期、技术挑战、新兴趋势、实际应用及未来方向。

  • Motivation: 解决数据隐私、安全和合规性问题,同时支持分布式协作训练。
  • Method: 综述了FL的核心架构、通信协议、生命周期(本地训练、模型聚合、全局更新)及技术挑战(非IID数据、系统异构性、通信开销、隐私保护)。
  • Result: 总结了FL的应用、基准数据集和评估指标,并探讨了新兴趋势(个性化FL、跨设备与跨场景设置、与其他范式的结合)。
  • Conclusion: 提出了开放研究问题和未来方向,以推动可扩展、高效且可信的FL系统发展。

[131] Early Detection of Multidrug Resistance Using Multivariate Time Series Analysis and Interpretable Patient-Similarity Representations

Óscar Escudero-Arnanz,Antonio G. Marques,Inmaculada Mora-Jiménez,Joaquín Álvarez-Rodríguez,Cristina Soguero-Ruiz

Main category: cs.LG

TL;DR: 该研究提出了一种可解释的机器学习框架,用于预测多药耐药性(MDR),结合患者相似性分析和图方法,实现了高准确性和可解释性。

  • Motivation: 多药耐药性(MDR)是全球健康的重要问题,导致住院时间延长、医疗成本增加和死亡率上升。研究旨在通过可解释的机器学习方法提高MDR预测的准确性和临床实用性。
  • Method: 将患者建模为多变量时间序列(MTS),利用描述性统计、动态时间规整和时间聚类核量化患者相似性,并用于MDR分类。通过谱聚类和t-SNE可视化高风险集群。
  • Result: 在ICU电子健康记录上验证,AUC达81%,优于基线模型。识别出抗生素使用、侵入性操作等关键风险因素,并发现临床相关集群。
  • Conclusion: 患者相似性表示与图分析结合,提供了准确的MDR预测和可解释的临床见解,支持早期检测和患者分层。

[132] Conformal Segmentation in Industrial Surface Defect Detection with Statistical Guarantees

Cheng Shen,Yuewei Liu

Main category: cs.LG

TL;DR: 论文提出了一种基于统计校准的方法,用于提高钢铁表面缺陷检测模型的可靠性,通过定义损失函数和设定风险阈值来确保测试集的预期错误率受控。

  • Motivation: 传统手动检测效率低、成本高,而基于深度学习的自动化方法因数据标注不确定性和过拟合问题导致可靠性不足。
  • Method: 通过校准数据评估模型性能,定义损失函数量化检测错误率,并基于用户定义的风险水平设定统计严格的阈值,构建预测集。
  • Result: 方法能够严格限制测试集的预期错误率,并在不同校准-测试划分比例下保持稳健和高效。
  • Conclusion: 该方法显著提升了缺陷检测的可靠性,为模型不确定性提供了统计严格的评估指标。

physics.app-ph

[133] Demonstration of an AI-driven workflow for dynamic x-ray spectroscopy

Ming Du,Mark Wolfman,Chengjun Sun,Shelly D. Kelly,Mathew J. Cherukara

Main category: physics.app-ph

TL;DR: 提出了一种基于知识注入的贝叶斯优化方法,用于自适应XANES数据采集,显著减少了测量点数量(仅需15-20%),同时保持了高精度(误差小于0.03 eV)。

  • Motivation: 传统XANES光谱数据采集需大量能量点,耗时且缺乏对光谱结构的领域知识利用。
  • Method: 结合贝叶斯优化与XANES光谱特征知识(如吸收边和前边峰),实现高效自适应采样。
  • Result: 在电池材料和催化剂实验中,该方法仅用15-20%的测量点即可精确重建吸收边,误差低于0.03 eV,均方根误差小于0.005。
  • Conclusion: 该方法提升了XANES实验的自动化水平,减少了采样误差,适用于高时间分辨率的动态实验。

cs.CR

[134] Proof of Useful Intelligence (PoUI): Blockchain Consensus Beyond Energy Waste

Zan-Kai Chong,Hiroyuki Ohsaki,Bryan Ng

Main category: cs.CR

TL;DR: 论文提出了一种名为PoUI的混合共识机制,结合AI任务与区块链安全性。

  • Motivation: 区块链的共识机制(如PoW和PoS)在安全性和效率之间存在权衡,而AI任务需要大量计算资源,PoUI旨在解决这些问题。
  • Method: PoUI通过让工作者执行AI任务(如语言处理或图像分析)来获得代币,并将其质押以保护网络。
  • Result: PoUI结合了安全性和实际效用,通过智能合约协调节点(如任务发布者、工作者和验证者)的合作。
  • Conclusion: PoUI为区块链和AI的结合提供了一种高效且可持续的解决方案。

q-bio.QM

[135] Automating tumor-infiltrating lymphocyte assessment in breast cancer histopathology images using QuPath: a transparent and accessible machine learning pipeline

Masoud Tafavvoghi,Lars Ailo Bongo,André Berli Delgado,Nikita Shvetsov,Anders Sildnes,Line Moi,Lill-Tove Rasmussen Busund,Kajsa Møllersen

Main category: q-bio.QM

TL;DR: 利用QuPath构建了一个端到端的肿瘤浸润淋巴细胞(TILs)评估流程,通过自动化工具完成复杂任务。

  • Motivation: 探索易用工具在乳腺癌H&E染色全切片图像中自动评估TILs的潜力。
  • Method: 1. 训练像素分类器分割肿瘤和基质;2. 使用预训练StarDist模型检测细胞并分类TILs;3. 评估TIL密度。
  • Result: 与病理学家评分相比,Cohen's kappa为0.71,验证了方法的有效性。
  • Conclusion: 现有软件可为乳腺癌H&E切片中的TILs评估提供实用解决方案。

cs.SI

[136] S2Vec: Self-Supervised Geospatial Embeddings

Shushman Choudhury,Elad Aharoni,Chandrakumari Suvarna,Iveel Tsogsuren,Abdul Rahman Kreidieh,Chun-Ta Lu,Neha Arora

Main category: cs.SI

TL;DR: S2Vec是一种自监督框架,用于学习通用的地理空间嵌入,通过S2几何库分区和掩码自编码技术生成任务无关的嵌入。

  • Motivation: 构建可扩展的通用地理空间表示对地理空间人工智能应用至关重要。
  • Method: 使用S2 Geometry库将大区域划分为离散S2单元,将特征向量栅格化为图像,并应用掩码自编码技术。
  • Result: 在三个大规模社会经济预测任务中表现优异,且与图像嵌入结合可进一步提升性能。
  • Conclusion: S2Vec能有效学习通用地理空间表示,并与其他数据模态互补。

[137] MobileCity: An Efficient Framework for Large-Scale Urban Behavior Simulation

Xiaotong Ye,Nicolas Bougie,Toshihiko Yamasaki,Narimasa Watanabe

Main category: cs.SI

TL;DR: 提出了一种可扩展的生成代理框架,用于模拟复杂城市交通行为,支持大规模人口模拟。

  • Motivation: 现有方法对现代城市交通选择过于简化,且计算资源需求高,无法支持大规模模拟。
  • Method: 构建虚拟城市模型,结合调查数据建模行为选择,开发可扩展的模拟框架。
  • Result: 成功模拟了4000多个代理,并通过微观和宏观分析验证了生成行为的真实性。
  • Conclusion: 该框架在复杂性和可扩展性上取得了平衡,为城市行为模拟提供了新思路。

[138] SCRAG: Social Computing-Based Retrieval Augmented Generation for Community Response Forecasting in Social Media Environments

Dachun Sun,You Lyu,Jinning Li,Yizhuo Chen,Tianshi Wang,Tomoyoshi Kimura,Tarek Abdelzaher

Main category: cs.SI

TL;DR: SCRAG是一个基于社交计算的预测框架,用于预测社区对社交媒体帖子的反应,结合了LLM和RAG技术,实验显示效果显著。

  • Motivation: 解决LLM在动态社交媒体环境中预测社区反应的局限性,如静态数据和幻觉问题。
  • Method: 整合LLM与RAG技术,检索社区历史反应和外部知识,用于预测新帖子的社区反应。
  • Result: 在X平台上的六种场景中,关键评估指标平均提升超过10%。
  • Conclusion: SCRAG为需要准确预测社区反应的应用提供了有效的社交计算工具。

cs.SE

[139] Automatically Generating Rules of Malicious Software Packages via Large Language Model

XiangRui Zhang,HaoYu Chen,Yongzhong He,Wenjia Niu,Qiang Li

Main category: cs.SE

TL;DR: RuleLLM利用大语言模型自动生成规则,应对软件供应链攻击,表现优于现有工具。

  • Motivation: 现有安全工具依赖专家预定义规则,难以适应软件供应链攻击。
  • Method: RuleLLM通过提取恶意软件元数据和代码片段,生成YARA和Semgrep规则,包括规则生成、优化和对齐三个子任务。
  • Result: 在1,633个恶意包数据集上,RuleLLM生成763条规则(452 YARA,311 Semgrep),精确率85.2%,召回率91.8%,优于现有工具。
  • Conclusion: RuleLLM有效解决了规则生成问题,并提出11类38子类的规则分类法。

[140] Towards Leveraging Large Language Model Summaries for Topic Modeling in Source Code

Michele Carissimi,Martina Saletta,Claudio Ferretti

Main category: cs.SE

TL;DR: 论文提出了一种结合大语言模型(LLM)和主题建模的新方法,用于自动识别Python程序中的主题。

  • Motivation: 理解源代码对软件工程任务(如维护和重用)至关重要,而LLM和主题建模技术为代码理解提供了新思路。
  • Method: 通过LLM生成代码摘要,再对摘要应用主题建模,并与基于函数名和现有文档的主题进行比较。
  • Result: 实验表明,LLM生成的摘要提供了可解释且语义丰富的代码结构表示。
  • Conclusion: 该方法可应用于自动文档生成、代码搜索等软件工程任务,具有广阔的应用前景。

[141] Detection, Classification and Prevalence of Self-Admitted Aging Debt

Murali Sridharan,Mika Mäntylä,Leevi Rantala

Main category: cs.SE

TL;DR: 论文提出“老化债务”(AD)概念,通过源代码注释中的“自认老化债务”(SAAD)研究软件老化,并提出分类法。

  • Motivation: 现有研究多关注运行时指标,忽视源代码注释等进化指标,且对技术债务(TD)背景下的老化问题研究不足。
  • Method: 采用混合方法,定性定量分析源代码注释中的SAAD模式,建立分类法并量化开源软件中的AD类型。
  • Result: 分类法将软件老化分为活跃和休眠两类,分析9000+开源仓库发现21%存在SAAD,休眠AD为主。
  • Conclusion: 软件老化问题随规模增长加剧,分类法有助于研究和实践中的主动维护策略。

physics.geo-ph

[142] On the workflow, opportunities and challenges of developing foundation model in geophysics

Hanlin Sheng,Xinming Wu,Hang Gao,Haibin Di,Sergey Fomel,Jintao Li,Xu Si

Main category: physics.geo-ph

TL;DR: 本文提出了一个完整框架,系统探讨了基础模型与地球物理数据结合的开发流程,填补了该领域缺乏全面综述的空白。

  • Motivation: 地球物理领域缺乏关于基础模型与数据结合全流程的综述,本文旨在填补这一空白。
  • Method: 从数据收集、预处理到模型架构选择、预训练策略和部署,详细分析了各阶段的关键技术和方法。
  • Result: 讨论了针对地球物理数据多样性、复杂性和物理一致性的解决方案,并利用迁移学习提升效率和一致性。
  • Conclusion: 本文不仅填补了综述空白,还为地球物理数据分析提供了实用指导,推动了该领域的创新与发展。

q-bio.NC

[143] Can deep neural networks learn biological vision?

Drew Linsley,Pinyuan Feng,Thomas Serre

Main category: q-bio.NC

TL;DR: DNNs曾与灵长类神经反应趋同,但近年因依赖不同视觉特征而背离。未来生物视觉模型需脱离AI,专注于生物视觉设计。

  • Motivation: 探讨DNNs与灵长类视觉趋同后为何背离,提出未来生物视觉模型的发展方向。
  • Method: 分析DNNs与灵长类视觉的差异,提出需设计更贴近生物视觉的训练方法。
  • Result: 现代DNNs依赖不同于灵长类的视觉特征,导致模型与生物视觉背离。
  • Conclusion: 未来生物视觉模型需基于生物视觉设计,而非AI数据基准。

cs.CE

[144] Data-Driven Surrogate Modeling Techniques to Predict the Effective Contact Area of Rough Surface Contact Problems

Tarik Sahin,Jacopo Bonari,Sebastian Brandstaeter,Alexander Popp

Main category: cs.CE

TL;DR: 提出了一种基于数据驱动的替代建模框架,用于快速预测粗糙表面接触中的有效接触面积,解决了传统数值方法计算成本高的问题。

  • Motivation: 粗糙表面接触的有效接触面积对多物理现象(如磨损、密封、热或电传导)至关重要,但传统数值方法(如边界元法)计算成本高,限制了其在多查询场景中的应用。
  • Method: 使用多种机器学习算法训练预计算数据集,输入为施加的载荷和统计粗糙度参数,输出为有效接触面积,并进行超参数优化。
  • Result: 核岭回归器在预测精度和计算效率之间表现出最佳平衡,高斯过程回归器适用于需要不确定性量化的场景。
  • Conclusion: 该方法在多查询任务中实用高效,核岭回归模型在新配置中表现出良好的泛化能力。

cs.DC

[145] Optimized Cloud Resource Allocation Using Genetic Algorithms for Energy Efficiency and QoS Assurance

Caroline Panggabean,Devaraj Verma C,Bhagyashree Gogoi,Ranju Limbu,Rhythm Sarker

Main category: cs.DC

TL;DR: 本文提出了一种基于遗传算法的虚拟机放置与整合方法,旨在降低能耗并满足服务质量约束,优于传统启发式算法。

  • Motivation: 云计算环境需要动态高效的资源管理,以确保性能最优、能耗降低并遵守服务级别协议(SLA)。
  • Method: 采用遗传算法动态调整虚拟机分配,适应实时工作负载变化。
  • Result: 实验结果显示能耗、虚拟机迁移次数、SLA违规率和执行时间显著降低。
  • Conclusion: 通过相关性热图验证了该方法在优化云资源利用方面的有效性。

q-bio.BM

[146] Deciphering the unique dynamic activation pathway in a G protein-coupled receptor enables unveiling biased signaling and identifying cryptic allosteric sites in conformational intermediates

Jigang Fan,Chunhao Zhu,Xiaobing Lan,Haiming Zhuang,Mingyu Li,Jian Zhang,Shaoyong Lu

Main category: q-bio.BM

TL;DR: 研究揭示了NTSR1的动态逐步激活机制和信号偏向性,发现了一个潜在的治疗成瘾性疾病的策略。

  • Motivation: 探索NTSR1的激活机制和偏向性信号传导,以开发治疗成瘾性疾病的潜在方法。
  • Method: 结合计算模拟(如分子动力学模拟)和实验方法(如定点突变和构象生物传感器),研究NTSR1的激活机制。
  • Result: 揭示了NTSR1的动态激活机制、信号网络,并发现了一个潜在的变构位点。
  • Conclusion: 研究为NTSR1的原子水平理解提供了新见解,为开发变构调节剂奠定了基础。

eess.IV

[147] Anatomy-constrained modelling of image-derived input functions in dynamic PET using multi-organ segmentation

Valentin Langer,Kartikay Tehlan,Thomas Wendler

Main category: eess.IV

TL;DR: 该研究提出了一种基于多器官分割的方法,整合了来自主动脉、门静脉、肺动脉和输尿管的IDIFs,以提高动态PET成像的动力学建模准确性。

  • Motivation: 传统IDIFs仅从主动脉获取,忽略了解剖变异和复杂血管贡献,限制了动力学分析的准确性。
  • Method: 利用高分辨率CT分割肝脏、肺、肾脏和膀胱,整合器官特异性血液供应来源,改进动力学建模。
  • Result: 在九名患者的动态PET数据中,肝脏和肺的MSE分别降低了13.39%和10.42%。
  • Conclusion: 多IDIFs方法有望改善解剖建模,推动示踪动力学建模在临床中的应用。

[148] Physiological neural representation for personalised tracer kinetic parameter estimation from dynamic PET

Kartikay Tehlan,Thomas Wendler

Main category: eess.IV

TL;DR: 提出了一种基于隐式神经表示(INRs)的个性化动力学参数估计方法,用于动态PET成像,解决了传统方法计算量大和空间分辨率低的问题。

  • Motivation: 传统动态PET成像的动力学参数估计方法计算量大且空间分辨率有限,而深度神经网络(DNNs)需要大量训练数据和计算资源。
  • Method: 利用隐式神经表示(INRs)学习连续函数,结合3D CT基础模型的解剖先验,实现高效、高分辨率的参数成像。
  • Result: 在[18F]FDG动态PET/CT数据集上验证,结果显示更高的空间分辨率、更低的均方误差和更好的解剖一致性。
  • Conclusion: INRs为个性化、数据高效的示踪动力学建模提供了潜力,适用于肿瘤特征分析、分割和预后评估。

[149] 3D Deep-learning-based Segmentation of Human Skin Sweat Glands and Their 3D Morphological Response to Temperature Variations

Shaoyu Pei,Renxiong Wu,Hao Zheng,Lang Qin,Shuaichen Lin,Yuxing Gan,Wenjing Huang,Zhixuan Wang,Mohan Qin,Yong Liu,Guangming Ni

Main category: eess.IV

TL;DR: 提出了一种基于3D变换器的多目标分割框架,用于实时、非侵入性地量化汗腺形态,解决了现有方法的局限性。

  • Motivation: 汗腺形态的变化在病理条件和临床诊断中至关重要,但现有观察方法多为二维、体外且破坏性,亟需新技术。
  • Method: 结合滑动窗口、联合空间-通道注意力机制及浅深层架构异质性,开发了3D分割网络,利用OCT皮肤体积数据实现精确分割。
  • Result: 首次可视化并量化了汗腺3D形态随温度变化的细微差异,建立了正常汗腺形态的基准。
  • Conclusion: 该方法为汗腺结构的个体差异和病理变化研究提供了工具,推动了皮肤病学研究和临床应用。

[150] A Spatially-Aware Multiple Instance Learning Framework for Digital Pathology

Hassan Keshvarikhojasteh,Mihail Tifrea,Sibylle Hess,Josien P. W. Pluim,Mitko Veta

Main category: eess.IV

TL;DR: GABMIL通过显式捕捉实例间依赖关系改进ABMIL,在计算效率不变的情况下显著提升性能。

  • Motivation: 传统ABMIL忽略空间交互,而TransMIL虽引入空间关系但计算复杂度高,需验证ABMIL中显式建模关系是否有效。
  • Method: 在ABMIL框架中集成交互感知表示,提出GABMIL模型,保留计算效率的同时捕捉实例间依赖。
  • Result: 在乳腺癌和肺癌亚型分类任务中,GABMIL相比ABMIL在AUPRC和Kappa得分上分别提升7%和5%。
  • Conclusion: 显式建模实例间关系对MIL框架至关重要,GABMIL在性能提升的同时保持计算效率。

[151] Beyond Labels: Zero-Shot Diabetic Foot Ulcer Wound Segmentation with Self-attention Diffusion Models and the Potential for Text-Guided Customization

Abderrachid Hamrani,Daniela Leizaola,Renato Sousa,Jose P. Ponce,Stanley Mathis,David G. Armstrong,Anuradha Godavarty

Main category: eess.IV

TL;DR: ADZUS是一种基于文本引导的扩散模型,用于糖尿病足溃疡的无监督分割,无需标注数据,性能优于传统方法。

  • Motivation: 糖尿病足溃疡的精确评估对患者治疗至关重要,传统方法依赖标注数据,ADZUS旨在提供更灵活的无监督解决方案。
  • Method: ADZUS利用零样本学习和文本引导的扩散模型,动态适应分割任务,无需标注数据。
  • Result: 在慢性伤口数据集上,ADZUS的IoU达86.68%,精度94.69%,显著优于FUSegNet;在DFU数据集上,DSC为75%,远超FUSegNet的45%。
  • Conclusion: ADZUS为医疗影像提供了一种高效、可扩展的无监督分割方案,但计算成本和微调需求仍需改进。

cs.IR

[152] You Are What You Bought: Generating Customer Personas for E-commerce Applications

Yimin Shi,Yang Fei,Shiqi Zhang,Haixun Wang,Xiaokui Xiao

Main category: cs.IR

TL;DR: 论文提出了一种基于客户画像(customer persona)的用户表示方法GPLR,结合预训练LLM和随机游走技术,提升了推荐和用户分群的性能。

  • Motivation: 现有深度学习方法生成的用户嵌入难以理解和结合外部知识,限制了应用效果。
  • Method: 提出GPLR方法,利用预训练LLM推断用户画像,并通过随机游走技术扩展覆盖范围;同时提出RevAff算法优化计算效率。
  • Result: 在三个真实电商数据集上,客户画像表示将图卷积推荐模型的NDCG@K和F1-Score@K提升了12%。
  • Conclusion: 客户画像提供了一种可读且信息丰富的用户表示方法,显著提升了推荐和分群任务的性能。

cs.HC

[153] What Makes for a Good Saliency Map? Comparing Strategies for Evaluating Saliency Maps in Explainable AI (XAI)

Felix Kares,Timo Speith,Hanwei Zhang,Markus Langer

Main category: cs.HC

TL;DR: 该研究比较了三种显著性图方法(LIME、Grad-CAM和Guided Backpropagation)在不同评估方法下的表现,发现评估结果不一致,并探讨了用户研究与数学指标在可解释AI评估中的互补性。

  • Motivation: 显著性图是解释神经网络分类的常用方法,但如何评估其效果仍是一个开放问题。研究旨在比较不同评估方法对显著性图的评价是否一致。
  • Method: 通过被试间研究(N=166),比较三种显著性图方法在主观用户测量、客观用户测量和数学指标上的表现。
  • Result: 评估结果不一致:主观测量中无差异,Grad-CAM在用户能力提升上表现最佳,Guided Backpropagation在数学指标上最优。部分数学指标与用户理解相关,但关系反直觉。
  • Conclusion: 研究强调了用户研究与数学指标在评估可解释AI方法时的互补性,并呼吁进一步探讨其关系。

[154] Psychological Effect of AI driven marketing tools for beauty/facial feature enhancement

Ayushi Agrawal,Aditya Kondai,Kavita Vemuri

Main category: cs.HC

TL;DR: AI面部评估工具对自我物化、自尊和情绪反应的心理影响,揭示了性别差异和工具设计对用户行为的潜在负面影响。

  • Motivation: 研究AI面部评估工具如何影响个体的自我物化和自尊,以及性别差异在此过程中的作用。
  • Method: 使用两种不同版本的面部分析工具(批判性和中性),测量参与者的自我物化、自尊、情绪反应、外貌增强行为及感知社会情绪。
  • Result: 高自我物化和低自尊与外貌增强行为相关;中性工具仍引发负面情绪;女性更倾向于数字增强且对他人情绪感知较弱。
  • Conclusion: AI工具可能无意中强化社会偏见,需负责任设计;未来研究将关注训练数据中的意识形态如何影响工具输出及用户态度。

[155] Improving Human-Autonomous Vehicle Interaction in Complex Systems

Robert Kaufman

Main category: cs.HC

TL;DR: 论文探讨了自动驾驶车辆(AVs)如何通过适应性沟通满足不同骑手需求,提出透明、个性化和情境敏感的AV系统设计。

  • Motivation: 当前AV研究普遍忽视个体和情境差异,导致沟通效果不佳,阻碍实际应用。
  • Method: 通过三项实证研究:1)极端驾驶环境中的沟通策略;2)错误沟通系统的后果;3)机器学习预测个人信任因素。
  • Result: 研究发现任务敏感、情境适应的沟通能提升驾驶表现和信任,个性化设计对AV系统至关重要。
  • Conclusion: AV系统需透明、适应性强且个性化,以应对复杂人机交互需求,为设计和政策提供指导。

[156] Exploring Context-aware and LLM-driven Locomotion for Immersive Virtual Reality

Süleyman Özdel,Kadir Burak Buldu,Enkelejda Kasneci,Efe Bozkir

Main category: cs.HC

TL;DR: 提出了一种基于大语言模型(LLM)的虚拟现实导航方法,通过自然语言实现无手操作,并验证其与传统方法在用户体验上的差异。

  • Motivation: 传统语音导航依赖固定指令,限制了交互的自然性和灵活性,因此探索基于LLM的更自然、灵活的无手导航方法。
  • Method: 比较三种导航方法:控制器传送、语音转向和LLM驱动导航,通过眼动追踪数据分析和标准化问卷评估用户体验。
  • Result: LLM导航在可用性、存在感和晕动症方面与传统方法相当,但能增强用户注意力,表明更高的参与度。
  • Conclusion: LLM导航是一种舒适、自然的无手替代方案,尤其适用于提升虚拟现实的可访问性。

[157] The Malicious Technical Ecosystem: Exposing Limitations in Technical Governance of AI-Generated Non-Consensual Intimate Images of Adults

Michelle L. Ding,Harini Suresh

Main category: cs.HC

TL;DR: 论文采用幸存者中心方法,分析AI治理在防止成人AI生成非自愿亲密图像(AIG-NCII)中的作用,揭示了一个恶意技术生态系统(MTE),并指出当前治理方法的不足。

  • Motivation: 探讨AI治理如何有效防止成人AIG-NCII(如“深度伪造色情”)的生成与传播,填补现有治理方法的漏洞。
  • Method: 采用幸存者中心方法,识别MTE(包括开源换脸模型和“裸化”软件),并基于NIST AI 100-4报告分析当前治理方法的不足。
  • Result: 发现当前治理方法未能有效监管MTE,且存在解释这些漏洞的错误假设。
  • Conclusion: 需改进AI治理方法以更有效应对成人AIG-NCII问题。

[158] INSIGHT: Bridging the Student-Teacher Gap in Times of Large Language Models

Jarne Thys,Sebe Vanbrabant,Davy Vanacken,Gustavo Rovelo Ruiz

Main category: cs.HC

TL;DR: 论文介绍了INSIGHT,一个结合多种AI工具帮助教学和学生的概念验证,旨在通过动态构建FAQ和提供个性化支持优化教育体验。

  • Motivation: AI在教育中的潜力与挑战,如个性化教学与学生隐私问题,促使开发INSIGHT以辅助教学。
  • Method: 采用模块化设计,通过分析学生提问提取关键词,动态构建FAQ并为教师提供个性化支持。
  • Result: INSIGHT成功整合到高等教育课程中,为师生提供了更高效的互动与支持。
  • Conclusion: 未来可通过自适应学习进一步优化INSIGHT,实现更互动和包容的教育体验。

cs.GR

[159] ePBR: Extended PBR Materials in Image Synthesis

Yu Guo,Zhiqiang Lao,Xiyun Song,Yubin Zhou,Zongfang Lin,Heather Yu

Main category: cs.GR

TL;DR: 论文提出了一种扩展的物理渲染(ePBR)材料方法,结合反射和透射特性,用于合成透明材料。

  • Motivation: 传统基于学习的图像合成方法缺乏物理一致性,而物理渲染(PBR)计算成本高。现有PBR材料难以处理复杂表面模型,如高光和透明表面。
  • Method: 扩展了固有图像表示,结合反射和透射特性,提出显式固有合成框架。
  • Result: 实现了透明材料(如玻璃和窗户)的可控合成,并能精确编辑材料。
  • Conclusion: ePBR材料提供了一种确定性、可解释的图像合成方法,适用于复杂表面模型。

[160] CasualHDRSplat: Robust High Dynamic Range 3D Gaussian Splatting from Casually Captured Videos

Shucheng Gong,Lingzhe Zhao,Wenpu Li,Hong Xie,Yin Zhang,Shiyu Zhao,Peidong Liu

Main category: cs.GR

TL;DR: 提出了一种名为CasualHDRSplat的单阶段方法,用于从自动曝光的视频中灵活重建3D HDR场景,解决了现有方法依赖固定曝光时间的问题。

  • Motivation: 现有基于多视图图像的HDR场景重建方法依赖固定曝光时间的图像采集,耗时且不灵活。
  • Method: 提出了一种统一的微分物理成像模型,通过连续时间轨迹约束联合优化曝光时间、相机响应函数、相机位姿和3D HDR场景。
  • Result: 实验表明,CasualHDRSplat在鲁棒性和渲染质量上优于现有方法。
  • Conclusion: CasualHDRSplat提供了一种更灵活且高效的HDR场景重建方案。

astro-ph.IM

[161] Fried Parameter Estimation from Single Wavefront Sensor Image with Artificial Neural Networks

Jeffrey Smith,Taisei Fujii,Jesse Craney,Charles Gretton

Main category: astro-ph.IM

TL;DR: 论文提出了一种基于机器学习的数据驱动方法,用于从单幅波前传感器图像中估计Fried参数(r0),以优化自适应光学系统性能。

  • Motivation: 大气湍流会降低地面望远镜的观测质量,自适应光学系统需要实时校正波前,而Fried参数是关键控制参数。
  • Method: 采用计算机视觉中的机器学习方法,通过单幅Shack-Hartmann或金字塔波前传感器图像估计r0,并使用COMPASS AO仿真工具进行详细评估。
  • Result: 方法在开环和闭环AO配置中均表现准确,r0估计误差为毫米级,实时推断时间为0.83ms。
  • Conclusion: 该方法为实时仪器控制提供了一种经济高效的解决方案。

cs.MA

[162] Towards a HIPAA Compliant Agentic AI System in Healthcare

Subash Neupane,Shaswata Mitra,Sudip Mittal,Shahram Rahimi

Main category: cs.MA

TL;DR: 本文介绍了一种符合HIPAA标准的Agentic AI框架,通过动态策略执行确保医疗数据处理合规性。

  • Motivation: 随着基于LLM的AI系统在医疗领域的应用增加,处理敏感医疗数据时需严格遵守HIPAA等法规,因此需要一种合规框架。
  • Method: 框架整合了ABAC细粒度访问控制、混合PHI脱敏管道(结合正则表达式和BERT模型)以及不可变审计跟踪。
  • Result: 该框架能够动态执行合规策略,减少PHI泄露风险,并提供审计支持。
  • Conclusion: 提出的框架为医疗AI系统提供了合规性保障,适合处理敏感医疗数据。

cs.LO

[163] Analyzing Value Functions of States in Parametric Markov Chains

Kasper Engelen,Guillermo A. Pérez,Shrisha Rao

Main category: cs.LO

TL;DR: 该论文提出了一种将参数化马尔可夫链(pMC)的单调性问题转化为状态间可达概率比较的方法,并利用高效算法压缩等价类,从而提升验证效率。

  • Motivation: 尽管pMC的通用验证问题是coETR完全的,但通过研究单调性等更易验证的性质,可以简化问题并提升效率。
  • Method: 将单调性问题转化为状态间可达概率比较,并利用算法压缩等价类。
  • Result: 实验表明,该方法能显著减少模型规模并加速单调性和参数提升算法的验证过程。
  • Conclusion: 该方法可作为高效的预处理步骤,提升pMC验证的实际效率。

cs.CY

[164] Intrinsic Barriers to Explaining Deep Foundation Models

Zhen Tan,Huan Liu

Main category: cs.CY

TL;DR: 论文探讨深度基础模型(DFMs)的可解释性是否面临内在障碍,而非暂时性技术挑战。

  • Motivation: 随着DFMs的复杂性增加,理解其内部机制对确保信任、安全和问责至关重要。
  • Method: 通过分析DFMs的基本特性和当前可解释性方法的局限性,探讨其内在障碍。
  • Result: 研究发现,DFMs的可解释性可能受其大规模特性限制,而非技术不足。
  • Conclusion: 结论指出,需重新思考如何验证和治理这些强大技术,以应对其内在复杂性。

[165] Approaches to Responsible Governance of GenAI in Organizations

Dhari Gandhi,Himanshu Joshi,Lucas Hartman,Shabnam Hassani

Main category: cs.CY

TL;DR: 论文探讨了生成式AI(GenAI)快速发展带来的机遇与挑战,提出了基于风险的责任治理框架。

  • Motivation: 解决GenAI在伦理、问责和社会影响方面的复杂问题,推动创新与监管的平衡。
  • Method: 通过文献综述、治理框架分析和行业圆桌讨论,识别核心治理原则。
  • Result: 提出了适应性风险评估工具、持续监控和跨部门协作的建议,并开发了ResAI指南。
  • Conclusion: 为组织提供了将GenAI与伦理、法律和操作最佳实践对齐的结构化基础。

[166] Towards User-Centred Design of AI-Assisted Decision-Making in Law Enforcement

Vesna Nowack,Dalal Alrajeh,Carolina Gutierrez Muñoz,Katie Thomas,William Hobson,Catherine Hamilton-Giachritsis,Patrick Benjamin,Tim Grant,Juliane A. Kloess,Jessica Woodhams

Main category: cs.CY

TL;DR: 研究探讨了执法机构中AI辅助系统的用户需求,发现系统需高效处理数据、满足可扩展性、准确性等要求,并强调人机协作的重要性。

  • Motivation: 明确执法领域中AI辅助系统的用户需求,填补现有研究的空白。
  • Method: 通过定性研究分析执法机构的决策过程,识别现有实践的局限性和用户需求。
  • Result: 参与者提出系统需高效处理数据、具备可扩展性、准确性等,并强调人机协作的必要性。
  • Conclusion: 执法领域的动态复杂性使系统难以完全自动化,人机协作是关键。

[167] Seeing The Words: Evaluating AI-generated Biblical Art

Hidde Makimei,Shuai Wang,Willem van Peursen

Main category: cs.CY

TL;DR: 本文探讨了AI生成基于圣经文本的图像的能力,并提供了大规模数据集和系统评估。

  • Motivation: 研究AI是否能根据圣经文本生成符合背景的图像,填补现有系统性评估的空白。
  • Method: 创建包含7K多张图像的数据集,使用圣经文本作为提示,并通过多种神经网络工具评估。
  • Result: 评估了生成图像的准确性和宗教、美学视角的分析。
  • Conclusion: 讨论了生成图像的用途,并反思了AI生成器的表现。

eess.SY

[168] Peer-Aware Cost Estimation in Nonlinear General-Sum Dynamic Games for Mutual Learning and Intent Inference

Seyed Yousef Soltanian,Wenlong Zhang

Main category: eess.SY

TL;DR: 提出了一种非线性同伴感知成本估计算法(N-PACE),用于解决不完全信息动态博弈中的协作问题,通过建模同伴学习动态实现快速无偏学习。

  • Motivation: 现有方法假设一方为完全信息专家,导致估计偏差和协作失败,需解决非线性动态博弈中的均衡策略求解难题。
  • Method: 采用迭代线性二次逼近非线性博弈,建模同伴学习动态并推断其目标函数。
  • Result: 实现了对同伴目标函数的快速无偏学习,支持意图通信。
  • Conclusion: N-PACE通过建模同伴学习动态,解决了协作中的目标函数推断问题,提升任务完成与安全性。

上次更新于: