Skip to content
每日arXiv - 2025年5月7日

以下论文的arXiv类型标签包含:cs.CV、cs.AI

cs.CV

[1] RESAnything: Attribute Prompting for Arbitrary Referring Segmentation

Ruiqi Wang,Hao Zhang

Main category: cs.CV

TL;DR: RESAnything是一种零样本、开放词汇的任意参考表达分割方法,通过Chain-of-Thoughts推理和属性提示处理对象和部分的隐式查询。

  • Motivation: 解决现有方法无法处理的广义输入表达,包括对象/部分标签和隐式属性参考。
  • Method: 利用Chain-of-Thoughts推理和LLM生成详细属性描述,结合基础图像分割模型生成提案。
  • Result: 在传统RES基准测试中表现优异,尤其在隐式查询和复杂部分关系场景中显著优于现有方法。
  • Conclusion: RESAnything是首个零样本且基于LLM的RES方法,并贡献了新的基准数据集以评估部分级RES解决方案。

[2] Gone With the Bits: Revealing Racial Bias in Low-Rate Neural Compression for Facial Images

Tian Qiu,Arjun Nichani,Rasta Tadayontahmasebi,Haewon Jeong

Main category: cs.CV

TL;DR: 论文提出了一种评估神经图像压缩模型中偏见的框架,发现所有模型均存在种族偏见,且传统失真指标无法有效捕捉这种偏见。

  • Motivation: 神经压缩方法在极低比特率下表现优异,但可能因训练过程中的偏见导致不公平结果,需系统性评估和解决。
  • Method: 提出结构化、可扩展的评估框架,分析九种流行模型及其变体,研究种族偏见及其与图像真实性的关系。
  • Result: 发现所有模型均存在种族偏见,传统失真指标无效;种族平衡训练集可减少偏见但不足;偏见源于压缩和分类模型。
  • Conclusion: 本研究为评估和消除神经图像压缩模型中的偏见迈出第一步,需进一步探索更有效的缓解策略。

[3] Generating Narrated Lecture Videos from Slides with Synchronized Highlights

Alexander Holmberg

Main category: cs.CV

TL;DR: 自动化系统将静态幻灯片转换为带AI旁白和动态视觉高亮的视频讲座,显著降低时间和成本。

  • Motivation: 减少将静态幻灯片转换为视频讲座的时间和人力成本。
  • Method: 引入高亮对齐模块,结合Levenshtein距离和LLM语义分析,同步TTS生成视频。
  • Result: LLM方法定位准确率F1>92%,生成成本低于$1/小时。
  • Conclusion: 该系统高效、低成本,适合大规模应用。

[4] Adversarial Robustness Analysis of Vision-Language Models in Medical Image Segmentation

Anjila Budathoki,Manish Dhakal

Main category: cs.CV

TL;DR: 研究了视觉语言分割模型(VLSMs)在医学图像分析中对对抗攻击的鲁棒性,发现对抗攻击显著降低了模型性能。

  • Motivation: 探索对抗攻击在医学图像分析中的影响,评估VLSMs在高风险场景下的鲁棒性。
  • Method: 微调预训练VLSMs并应用PGD和FGSM对抗攻击,分析性能下降。
  • Result: 对抗攻击导致DSC和IoU分数显著下降,但未找到通用扰动。
  • Conclusion: 医学图像VLSMs对对抗攻击敏感,需进一步研究提升鲁棒性。

[5] Completing Spatial Transcriptomics Data for Gene Expression Prediction Benchmarking

Daniela Ruiz,Paula Cardenas,Leonardo Manrique,Daniela Vega,Gabriel Mejia,Pablo Arbelaez

Main category: cs.CV

TL;DR: SpaRED和SpaCKLE为空间转录组学提供了标准化数据库和高效预测模型,显著提升了基因表达预测的准确性。

  • Motivation: 解决Visium技术的高成本、低效率和数据丢失问题,以及现有模型评估的不一致性。
  • Method: 引入SpaRED标准化数据库和SpaCKLE基于Transformer的基因表达补全模型。
  • Result: SpaCKLE将均方误差降低82.5%,显著提升所有预测模型的性能。
  • Conclusion: SpaRED和SpaCKLE为空间转录组学提供了最全面的基准和未来研究方向。

[6] NTIRE 2025 Challenge on UGC Video Enhancement: Methods and Results

Nikolay Safonov,Alexey Bryncev,Andrey Moskalenko,Dmitry Kulikov,Dmitry Vatolin,Radu Timofte,Haibo Lei,Qifan Gao,Qing Luo,Yaqing Li,Jie Song,Shaozhe Hao,Meisong Zheng,Jingyi Xu,Chengbin Wu,Jiahui Liu,Ying Chen,Xin Deng,Mai Xu,Peipei Liang,Jie Ma,Junjie Jin,Yingxue Pang,Fangzhou Luo,Kai Chen,Shijie Zhao,Mingyang Wu,Renjie Li,Yushen Zuo,Shengyun Zhong,Zhengzhong Tu

Main category: cs.CV

TL;DR: NTIRE 2025挑战赛聚焦于用户生成内容(UGC)视频增强,旨在提升视觉质量,吸引了25个团队参与,最终7个团队通过验证。

  • Motivation: UGC视频在短视频平台广泛使用,但其质量常受噪声、模糊等问题影响,亟需提升。
  • Method: 挑战赛提供150个无参考真值的UGC视频,要求团队开发算法改善质量,评估基于8000多名评估者的主观投票。
  • Result: 7个团队通过最终验证,数据公开供研究使用。
  • Conclusion: 挑战赛成果展示了UGC视频增强的最新进展和有效策略。

[7] GIF: Generative Inspiration for Face Recognition at Scale

Saeed Ebrahimi,Sahar Rahimi,Ali Dabouei,Srinjoy Das,Jeremy M. Dawson,Nasser M. Nasrabadi

Main category: cs.CV

TL;DR: 提出一种将标量标签替换为结构化身份代码的方法,降低人脸识别中Softmax的计算成本,使其与身份数量呈对数关系。

  • Motivation: 减少大规模标签空间中Softmax的计算成本,现有方法虽有效但计算成本仍与身份数量线性相关。
  • Method: 将标量标签转换为结构化身份代码,训练模型预测代码而非标量标签,使计算成本呈对数增长。
  • Result: 在IJB-B和IJB-C上分别提升1.52%和0.6%的性能,计算成本从线性降至对数。
  • Conclusion: 结构化身份代码方法显著降低计算成本并提升性能,适用于大规模人脸识别任务。

[8] Lesion-Aware Generative Artificial Intelligence for Virtual Contrast-Enhanced Mammography in Breast Cancer

Aurora Rofena,Arianna Manchia,Claudia Lucia Piccolo,Bruno Beomonte Zobel,Paolo Soda,Valerio Guarrasi

Main category: cs.CV

TL;DR: Seg-CycleGAN是一种生成深度学习框架,用于在对比增强光谱乳腺摄影(CESM)中实现虚拟对比增强,通过低能量图像合成高质量的双能量减影图像,减少辐射和对比剂副作用。

  • Motivation: CESM虽然诊断准确性高,但存在辐射和对比剂副作用的问题,需要一种无对比剂的替代方案。
  • Method: 提出Seg-CycleGAN,结合病灶分割图引导生成过程,改进病灶重建,并在CycleGAN基础上引入局部损失项。
  • Result: 在CESM@UCBM数据集上,Seg-CycleGAN在PSNR和SSIM上优于基线,同时保持竞争力的MSE和VIF,定性评估显示病灶保真度提高。
  • Conclusion: Seg-CycleGAN为无对比剂的CESM替代方案提供了可行路径。

[9] An Explainable Anomaly Detection Framework for Monitoring Depression and Anxiety Using Consumer Wearable Devices

Yuezhou Zhang,Amos A. Folarin,Callum Stewart,Heet Sankesara,Yatharth Ranjan,Pauline Conde,Akash Roy Choudhury,Shaoxiong Sun,Zulqarnain Rashid,Richard J. B. Dobson

Main category: cs.CV

TL;DR: 该研究提出了一种可解释的异常检测框架,利用可穿戴设备数据早期检测抑郁和焦虑症状的恶化。

  • Motivation: 通过可穿戴设备持续监测行为和生理数据,为早期发现抑郁和焦虑症状恶化提供客观方法。
  • Method: 使用LSTM自编码器模型学习健康基线数据(睡眠时长、步数、静息心率),并在抑郁或焦虑评分增加≥5分时标记异常。
  • Result: 模型在检测症状恶化事件中表现良好(F1=0.80),静息心率是最具影响力的特征。
  • Conclusion: 研究展示了可解释异常检测在个性化、可扩展和主动心理健康监测中的潜力。

[10] Estimating the Diameter at Breast Height of Trees in a Forest With a Single 360 Camera

Siming He,Zachary Osman,Fernando Cladera,Dexter Ong,Nitant Rai,Patrick Corey Green,Vijay Kumar,Pratik Chaudhari

Main category: cs.CV

TL;DR: 提出一种低成本替代LiDAR的方法,使用消费级360度摄像头和半自动化流程测量树木胸径(DBH),精度接近LiDAR。

  • Motivation: LiDAR技术成本高且操作复杂,需要一种低成本、易操作的替代方案用于森林资源监测。
  • Method: 结合SfM重建、语义分割和RANSAC技术,通过360度摄像头实现DBH测量。
  • Result: 在43棵树的61次测量中,相对误差为5-9%,仅比LiDAR高2-4%。
  • Conclusion: 该方法成本低、操作简单,精度接近LiDAR,适合广泛应用。

[11] Not All Parameters Matter: Masking Diffusion Models for Enhancing Generation Ability

Lei Wang,Senmao Li,Fei Yang,Jianye Wang,Ziheng Zhang,Yuhan Liu,Yaxing Wang,Jian Yang

Main category: cs.CV

TL;DR: 论文提出了一种名为MaskUNet的方法,通过动态调整U-Net参数(包括零化某些参数)来提升扩散模型的生成质量,并在COCO数据集上取得了最佳FID分数。

  • Motivation: 扩散模型在早期阶段构建基本图像结构,后期生成细节,与传统深度学习架构(如ResNet或GANs)不同。这种差异激发了研究者探索时间维度的扩散模型。
  • Method: 提出MaskUNet方法,动态利用时间步和样本相关的有效U-Net参数,提供两种微调策略(基于训练和无训练)。
  • Result: 在COCO数据集的零样本推理中,MaskUNet取得了最佳FID分数,并在下游任务中验证了其有效性。
  • Conclusion: MaskUNet通过简单有效的方式提升了扩散模型的生成质量,且参数数量可忽略不计。

[12] Image Recognition with Online Lightweight Vision Transformer: A Survey

Zherui Zhang,Rongtao Xu,Jie Zhou,Changwei Wang,Xingtian Pei,Wenhao Xu,Jiguang Zhang,Li Guo,Longxiang Gao,Wenbo Xu,Shibiao Xu

Main category: cs.CV

TL;DR: 本文综述了轻量级视觉Transformer的在线生成策略,聚焦于高效组件设计、动态网络和知识蒸馏三大领域,并评估了它们在ImageNet-1K上的表现,探讨了精度、参数和吞吐量之间的权衡。

  • Motivation: Transformer在自然语言处理中的成功激发了其在计算机视觉任务中的应用,但面临计算和内存效率的挑战,因此需要轻量化的解决方案。
  • Method: 通过高效组件设计、动态网络和知识蒸馏三种策略生成轻量级视觉Transformer,并在ImageNet-1K上进行评估。
  • Result: 分析了不同策略在精度、参数和吞吐量等方面的权衡,总结了各自的优缺点和灵活性。
  • Conclusion: 提出了未来研究方向与潜在挑战,旨在为轻量级视觉Transformer的进一步探索提供指导和启发。

[13] Path and Bone-Contour Regularized Unpaired MRI-to-CT Translation

Teng Zhou,Jax Luo,Yuping Sun,Yiheng Tan,Shun Yao,Nazim Haouchine,Scott Raymond

Main category: cs.CV

TL;DR: 提出了一种基于路径和骨骼轮廓正则化的无配对MRI到CT转换方法,通过神经ODE建模连续流并优化路径长度,显著提升了骨骼结构的转换精度。

  • Motivation: 解决现有无配对MRI到CT转换方法在骨骼结构等解剖特征上精度不足的问题,适用于放射治疗等需要高精度骨骼表示的应用。
  • Method: 将MRI和CT投影到共享潜在空间,用神经ODE建模连续流并优化路径长度;引入可训练神经网络生成骨骼轮廓,并通过直接和间接机制增强模型对骨骼区域的关注。
  • Result: 在三个数据集上验证,该方法优于现有方法,整体误差更低;在骨骼分割任务中表现更优。
  • Conclusion: 提出的方法显著提升了无配对MRI到CT转换的精度,尤其在骨骼结构上表现突出,适用于临床需求。

[14] TimeTracker: Event-based Continuous Point Tracking for Video Frame Interpolation with Non-linear Motion

Haoyue Liu,Jinghan Xu,Yi Chang,Hanyu Zhou,Haozhi Zhao,Lin Wang,Luxin Yan

Main category: cs.CV

TL;DR: 本文提出了一种基于连续点跟踪的视频帧插值框架TimeTracker,通过事件相机处理非线性运动,显著提升了插值质量。

  • Motivation: 事件相机的高时间分辨率优势未被充分利用,现有方法在处理非线性运动时存在运动误差问题。
  • Method: 设计了场景感知区域分割模块(SARS)和连续轨迹引导的运动估计模块(CTME),结合全局运动优化和帧细化生成中间帧。
  • Result: 实验表明,该方法在运动估计和帧插值质量上优于现有技术。
  • Conclusion: TimeTracker框架通过连续点跟踪有效解决了非线性运动问题,提升了视频帧插值的性能。

[15] VISLIX: An XAI Framework for Validating Vision Models with Slice Discovery and Analysis

Xinyuan Yan,Xiwei Xuan,Jorge Piazentin Ono,Jiajing Guo,Vikram Mohanty,Shekar Arvind Kumar,Liang Gou,Bei Wang,Liu Ren

Main category: cs.CV

TL;DR: VISLIX是一个新的视觉分析框架,利用基础模型帮助专家分析计算机视觉模型中的数据切片,无需额外元数据或视觉概念,支持交互式假设测试。

  • Motivation: 现实中的机器学习模型需要严格评估,尤其是在安全关键领域。数据切片虽有效,但在计算机视觉任务中面临挑战,如依赖元数据、缺乏交互式解决方案等。
  • Method: 提出VISLIX框架,利用基础模型自动生成自然语言见解,支持用户交互式测试数据切片假设。
  • Result: 通过专家研究和三个用例评估,证明VISLIX能有效为对象检测模型提供全面见解。
  • Conclusion: VISLIX克服了现有数据切片方法的局限性,支持更高效的机器学习模型验证。

[16] Enhancing Glass Defect Detection with Diffusion Models: Addressing Imbalanced Datasets in Manufacturing Quality Control

Sajjad Rezvani Boroujeni,Hossein Abedi,Tom Bush

Main category: cs.CV

TL;DR: 论文提出了一种基于DDPM的数据增强方法,用于解决工业玻璃制造中视觉缺陷检测的数据不平衡问题,显著提升了分类模型的性能。

  • Motivation: 工业玻璃制造中缺陷产品频率低,导致数据集不平衡,限制了深度学习模型的性能。
  • Method: 使用DDPM生成合成缺陷图像进行数据增强,提升少数类的表示。
  • Result: 实验显示,ResNet50V2的分类准确率从78%提升至93%,其他模型在召回率上也有显著提升。
  • Conclusion: 该方法为玻璃制造中的缺陷检测提供了一种可扩展且经济高效的解决方案,并可推广至其他类似行业。

[17] Motion-compensated cardiac MRI using low-rank diffeomorphic flow (DMoCo)

Joseph William Kettelkamp,Ludovica Romanin,Sarv Priya,Mathews Jacob

Main category: cs.CV

TL;DR: 提出一种无监督运动补偿图像重建算法,用于自由呼吸和非门控3D心脏MRI。

  • Motivation: 解决自由呼吸和非门控3D心脏MRI中的运动伪影问题,提高图像重建质量。
  • Method: 将每个运动相位对应的图像体积表示为静态模板的变形,采用低秩模型联合表示运动相位参数化的微分同胚族。
  • Result: 与现有运动分辨和运动补偿算法相比,该算法在自由呼吸3D cine MRI中表现更优。
  • Conclusion: 提出的低秩运动模型和无监督学习方法显著提升了图像重建效果。

[18] Robust Fairness Vision-Language Learning for Medical Image Analysis

Sparsh Bansal,Mingyang Wu,Xin Wang,Shu Hu

Main category: cs.CV

TL;DR: 本文提出了一种确保视觉语言模型(VLM)在医学图像分析中公平性和鲁棒性的框架,通过动态坏对挖掘算法和Sinkhorn距离优化损失函数,实验显示公平性AUC提升8.6%。

  • Motivation: 医学领域的视觉语言模型需要确保公平性和鲁棒性,以避免对不同患者群体的偏见。
  • Method: 提出框架,结合动态坏对挖掘算法和Sinkhorn距离调整损失函数,优化模型训练。
  • Result: 实验表明,公平性AUC指标提升了8.6%。
  • Conclusion: 该框架有效提升了VLM在医学图像分析中的公平性和鲁棒性。

[19] StableMotion: Training Motion Cleanup Models with Unpaired Corrupted Data

Yuxuan Mu,Hung Yu Ling,Yi Shi,Ismael Baira Ojeda,Pengcheng Xi,Chang Shu,Fabio Zinno,Xue Bin Peng

Main category: cs.CV

TL;DR: StableMotion提出了一种直接从无配对数据训练运动清理模型的方法,通过引入运动质量指示器,无需人工清理的高质量数据。

  • Motivation: 传统运动捕捉数据清理需要大量人工,而现有数据驱动方法依赖配对数据,难以获取。
  • Method: 利用运动质量指示器训练质量感知生成模型,基于扩散框架实现生成与判别一体化。
  • Result: 在SoccerMocap数据集上,模型显著减少了运动异常(68%的“pop”和81%的“冻结帧”)。
  • Conclusion: StableMotion提供了一种高效的运动数据清理方案,适用于实际生产场景。

[20] RAVU: Retrieval Augmented Video Understanding with Compositional Reasoning over Graph

Sameer Malik,Moyuru Yamada,Ayush Singh,Dishank Aggarwal

Main category: cs.CV

TL;DR: RAVU框架通过检索增强和时空图组合推理,解决了大型多模态模型在长视频理解中的挑战。

  • Motivation: 当前大型多模态模型因缺乏显式记忆和检索机制,难以处理长视频。
  • Method: 构建视频的时空图表示,作为长期记忆,并通过分解查询为推理步骤在图检索中执行。
  • Result: 在NExT-QA和EgoSchema数据集上,RAVU仅用5-10帧检索即优于其他方法。
  • Conclusion: RAVU显著提升了长视频理解能力,尤其在需要多跳推理和跨帧对象追踪的任务中。

[21] seq-JEPA: Autoregressive Predictive Learning of Invariant-Equivariant World Models

Hafez Ghaemi,Eilif Muller,Shahab Bakhtiari

Main category: cs.CV

TL;DR: seq-JEPA是一种基于联合嵌入预测架构的世界建模范式,通过架构归纳偏置解决现有自监督学习中不变性和等变性任务的性能权衡问题。

  • Motivation: 现有自监督学习主要依赖数据增强和掩码等变换,通过编码图像的两个视图来学习视觉表示,但这种方法限制了表示在下游任务中的灵活性,导致不变性和等变性任务之间的性能权衡。
  • Method: seq-JEPA通过处理输入图像的不同视图序列,结合相对变换的嵌入,使用Transformer编码器生成序列的聚合表示,并预测下一个视图的表示,同时学习不变性和等变性表示。
  • Result: seq-JEPA在等变性基准测试和图像分类任务中表现优异,且无需牺牲任一任务的性能,同时在需要序列观察聚合的任务中表现出色。
  • Conclusion: seq-JEPA通过架构设计成功解决了不变性和等变性任务的性能权衡问题,为自监督学习提供了更灵活的表示学习方法。

[22] Interactive Instance Annotation with Siamese Networks

Xiang Xu,Ruotong Li,Mengjun Yi,Baile XU,Furao Shen,Jian Zhao

Main category: cs.CV

TL;DR: SiamAnno是一个基于Siamese网络的框架,用于跨域实例标注任务,通过单次学习预测对象边界,无需微调即可在多个数据集上实现SOTA性能。

  • Motivation: 实例标注耗时耗力,现有方法多局限于同域场景,难以应对跨域任务。
  • Method: 利用Siamese网络和单次学习,输入边界框预测对象边界,支持用户调整。
  • Result: 在未微调的情况下,跨域任务中表现优异,达到SOTA性能。
  • Conclusion: SiamAnno是首个探索Siamese架构用于实例标注的模型,为未来研究提供了强基线。

[23] PiCo: Enhancing Text-Image Alignment with Improved Noise Selection and Precise Mask Control in Diffusion Models

Chang Xie,Chenyi Zhuang,Pan Gao

Main category: cs.CV

TL;DR: PiCo提出了一种无需训练的方法,通过噪声选择模块和参考掩码模块提升复杂文本提示下的文本-图像对齐效果。

  • Motivation: 现有扩散模型在复杂文本提示下难以实现文本-图像对齐,主要受随机初始化噪声质量和生成控制掩码可靠性的影响。
  • Method: PiCo包含噪声选择模块(评估噪声质量并快速采样)和参考掩码模块(生成像素级掩码并调制交叉注意力图)。
  • Result: 实验证明PiCo能有效减少随机生成过程的繁琐性,并显著提升多样文本描述的文本-图像对齐效果。
  • Conclusion: PiCo通过噪声选择和掩码调制,显著提升了复杂文本下的生成质量,为文本-图像对齐提供了新思路。

[24] DCS-ST for Classification of Breast Cancer Histopathology Images with Limited Annotations

Liu Suxing,Byungwon Min

Main category: cs.CV

TL;DR: 深度学习在乳腺癌组织病理图像分类中表现良好,但在标注数据有限时性能下降。

  • Motivation: 医疗影像标注成本高且需要专业知识,导致标注数据有限。
  • Method: 使用深度学习方法。
  • Result: 在标注数据有限的情况下,性能下降。
  • Conclusion: 需要解决标注数据有限的问题以提升性能。

[25] Dual-Domain Masked Image Modeling: A Self-Supervised Pretraining Strategy Using Spatial and Frequency Domain Masking for Hyperspectral Data

Shaheer Mohamed,Tharindu Fernando,Sridha Sridharan,Peyman Moghadam,Clinton Fookes

Main category: cs.CV

TL;DR: 论文提出了一种自监督预训练方法SFMIM,用于解决高光谱图像(HSI)标注数据稀缺的问题,通过空间和频率双域掩码机制提升模型性能。

  • Motivation: 高光谱图像(HSI)具有丰富的光谱特征,但标注数据稀缺限制了深度学习(尤其是基于Transformer的架构)的应用潜力。
  • Method: 提出SFMIM方法,结合空间和频率双域掩码机制:空间掩码随机遮蔽图像块并重建,频率掩码移除部分频率成分并预测缺失部分。
  • Result: 在三个公开HSI分类基准测试中达到最优性能,且微调时收敛速度快。
  • Conclusion: SFMIM通过自监督预训练有效利用未标注数据,显著提升了HSI分类性能。

[26] Seeing the Abstract: Translating the Abstract Language for Vision Language Models

Davide Talon,Federico Girella,Ziyue Liu,Marco Cristani,Yiming Wang

Main category: cs.CV

TL;DR: 论文揭示了抽象语言在视觉语言模型(VLM)中的广泛存在及其被低估的价值,并提出了一种无需训练的模型无关方法(ACT)来改善抽象语言表示。

  • Motivation: 当前视觉语言模型研究忽视了抽象语言的重要性,而抽象语言在表达情感、创造力等方面具有独特价值。
  • Method: 提出Abstract-to-Concrete Translator(ACT),通过预训练模型和多模态数据库将抽象表示映射到具体表示。
  • Result: 在文本到图像检索任务中,ACT表现优于微调的VLM,并展示了强大的泛化能力。
  • Conclusion: ACT是一种即插即用的解决方案,能有效提升VLM对抽象语言的处理能力。

[27] PROM: Prioritize Reduction of Multiplications Over Lower Bit-Widths for Efficient CNNs

Lukas Meiner,Jens Mehnert,Alexandru Paul Condurache

Main category: cs.CV

TL;DR: PROM是一种针对深度可分离卷积网络的量化方法,通过选择性使用三值和8位权重,显著降低能耗和存储需求。

  • Motivation: 现代深度可分离卷积网络中,计算成本分布不均,现有量化方法未能充分利用效率潜力。
  • Method: PROM采用双位宽量化策略,将点卷积量化为三值权重,其余模块使用8位权重,并通过量化感知训练实现。
  • Result: 在MobileNetV2上,PROM将能耗降低23.9倍,存储需求减少2.7倍,同时保持分类性能。
  • Conclusion: PROM为深度可分离卷积网络提供了一种简单高效的量化方案,显著提升了能效和存储效率。

[28] DiffVQA: Video Quality Assessment Using Diffusion Feature Extractor

Wei-Ting Chen,Yu-Jiet Vong,Yi-Tsung Lee,Sy-Yen Kuo,Qiang Gao,Sizhuo Ma,Jian Wang

Main category: cs.CV

TL;DR: DiffVQA是一种新型视频质量评估框架,利用扩散模型的强大泛化能力,结合语义和失真特征提取,以及并行Mamba模块处理时间动态,显著提升了与人类感知的对齐能力。

  • Motivation: 现有基于CNN和ViT的视频质量评估方法在多样化的真实场景中难以与人类感知对齐,且受限于数据集的规模和多样性。
  • Method: DiffVQA利用预训练的扩散模型重构输入帧,通过控制模块提取语义和失真特征,并引入并行Mamba模块处理时间动态特征。
  • Result: 实验表明,DiffVQA在多个数据集上表现优异,尤其在跨数据集泛化能力上显著优于CNN和ViT方法。
  • Conclusion: DiffVQA通过扩散模型作为特征提取器,显著提升了视频质量评估性能,验证了其在VQA任务中的潜力。

[29] OccCylindrical: Multi-Modal Fusion with Cylindrical Representation for 3D Semantic Occupancy Prediction

Zhenxing Ming,Julie Stephany Berrio,Mao Shan,Yaoqi Huang,Hongyu Lyu,Nguyen Hoang Khoi Tran,Tzu-Yun Tseng,Stewart Worrall

Main category: cs.CV

TL;DR: 论文提出OccCylindrical方法,通过圆柱坐标系融合多传感器数据,提升3D语义占据预测的细粒度细节和性能。

  • Motivation: 现有方法多基于笛卡尔坐标系,忽略了传感器数据的分布,导致细节丢失和性能下降。
  • Method: 在圆柱坐标系下融合和优化多模态特征,保留更多几何细节。
  • Result: 在nuScenes数据集(包括雨天和夜间场景)上验证了方法的有效性和SOTA性能。
  • Conclusion: OccCylindrical方法通过圆柱坐标系优化特征融合,显著提升了3D语义占据预测的性能。

[30] Base-Detail Feature Learning Framework for Visible-Infrared Person Re-Identification

Zhihao Gong,Lian Wu,Yong Xu

Main category: cs.CV

TL;DR: 论文提出了一种Base-Detail Feature Learning Framework (BDLF),用于解决可见光-红外行人重识别(VIReID)中模态间差异大的问题,通过同时利用模态共享和模态特定信息提升性能。

  • Motivation: 现有方法未能充分利用不同模态的信息,主要关注模态共享特征而忽略模态特定细节。
  • Method: BDLF通过无损细节特征提取模块和互补基础嵌入生成机制,分别挖掘细节和基础特征,并通过相关性限制方法确保特征丰富。
  • Result: 在SYSU-MM01、RegDB和LLCM数据集上的实验验证了BDLF的有效性。
  • Conclusion: BDLF通过同时学习基础和细节特征,显著提升了VIReID任务的性能。

[31] Towards Efficient Benchmarking of Foundation Models in Remote Sensing: A Capabilities Encoding Approach

Pierre Adorni,Minh-Tan Pham,Stéphane May,Sébastien Lefèvre

Main category: cs.CV

TL;DR: 提出了一种基于“能力编码”的方法,用于预测基础模型在多个下游任务中的性能,无需微调,简化模型选择并推动未来研究。

  • Motivation: 尽管已有75多个遥感视觉基础模型,但尚无模型在所有下游任务中表现一致最优,因此需要一种高效比较方法。
  • Method: 采用“能力编码”方法,通过低成本预测模型性能,避免逐个任务微调。
  • Result: 该方法能简化基础模型选择,并为现有文献提供新视角,推动未来研究方向。
  • Conclusion: 能力编码方法为遥感视觉基础模型的比较和选择提供了实用工具,具有研究潜力。

[32] 3D Can Be Explored In 2D: Pseudo-Label Generation for LiDAR Point Clouds Using Sensor-Intensity-Based 2D Semantic Segmentation

Andrew Caunes,Thierry Chateau,Vincent Frémont

Main category: cs.CV

TL;DR: 提出一种无需3D标注的3D语义分割方法,利用2D分割模型和投票机制生成伪标签,适用于无监督域适应任务。

  • Motivation: 解决3D点云语义分割中标注成本高和域偏移问题,避免依赖额外模态数据。
  • Method: 通过2D视图生成和2D分割模型,结合投票机制将结果反向投影到3D点云。
  • Result: 展示了伪标签在无监督域适应任务中的潜力,并通过消融研究验证了方法的有效性。
  • Conclusion: 该方法无需3D标注和额外模态数据,为3D语义分割提供了一种高效解决方案。

[33] Comparative Analysis of Lightweight Deep Learning Models for Memory-Constrained Devices

Tasnim Shahriar

Main category: cs.CV

TL;DR: 本文评估了五种轻量级深度学习模型在图像分类任务中的表现,重点关注其在资源受限环境中的适用性。研究发现,迁移学习显著提升模型性能,EfficientNetV2-S准确率最高,MobileNetV3平衡性最佳,SqueezeNet速度最快。

  • Motivation: 研究轻量级模型在资源受限环境(如低内存设备)中的表现,为边缘计算和移动平台提供优化方案。
  • Method: 评估五种模型(MobileNetV3 Small、ResNet18、SqueezeNet、EfficientNetV2-S、ShuffleNetV2)在三个数据集上的性能,包括准确率、推理时间、FLOPs和模型大小。对比预训练与从头训练的差异。
  • Result: 迁移学习显著提升性能,EfficientNetV2-S准确率最高,MobileNetV3平衡性最佳,SqueezeNet速度最快。
  • Conclusion: 研究揭示了准确性与效率之间的权衡,为资源受限环境中的模型部署提供了实用建议。

[34] 3D Gaussian Splatting Data Compression with Mixture of Priors

Lei Liu,Zhenghao Chen,Dong Xu

Main category: cs.CV

TL;DR: 提出了一种基于混合先验(MoP)策略的3D高斯泼溅数据压缩方法,通过多轻量级MLP处理超先验信息,并结合门控机制生成MoP特征,用于改进条件熵建模和元素级量化。

  • Motivation: 现有3D高斯泼溅数据压缩方法在超先验信息利用和量化策略上存在不足,限制了压缩效率。
  • Method: 采用混合先验(MoP)策略,通过多MLP生成多样化先验特征,结合门控机制生成MoP特征,用于条件熵建模和先验引导的粗到细量化(C2FQ)。
  • Result: 在多个基准测试(如Mip-NeRF360、BungeeNeRF等)中实现了最先进的性能。
  • Conclusion: MoP策略有效提升了3D高斯泼溅数据压缩的性能,为高效存储和传输提供了新思路。

[35] Unified Multimodal Chain-of-Thought Reward Model through Reinforcement Fine-Tuning

Yibin Wang,Zhimin Li,Yuhang Zang,Chunyu Wang,Qinglin Lu,Cheng Jin,Jiaqi Wang

Main category: cs.CV

TL;DR: 论文提出UnifiedReward-Think,首个基于长链思维(CoT)的多模态奖励模型,通过强化微调提升奖励信号的可靠性和鲁棒性。

  • Motivation: 当前奖励模型(RMs)的推理深度有限,导致奖励信号不准确,通过引入长链思维(CoT)可提升其性能。
  • Method: 采用探索驱动的强化微调方法:1)利用少量图像生成偏好数据蒸馏GPT-4o的推理过程;2)准备大规模多模态偏好数据以激发模型推理;3)通过GRPO优化模型推理路径。
  • Result: 实验表明,该模型在多种视觉奖励任务中表现优越。
  • Conclusion: UnifiedReward-Think通过长链思维和强化微调显著提升了奖励模型的可靠性和鲁棒性。

[36] SD-VSum: A Method and Dataset for Script-Driven Video Summarization

Manolis Mylonas,Evlampios Apostolidis,Vasileios Mezaris

Main category: cs.CV

TL;DR: 论文提出了一种基于脚本的视频摘要任务,通过用户提供的脚本选择视频中最相关部分生成摘要。扩展了VideoXum数据集,使其支持该任务,并提出了一种新的网络架构SD-VSum,利用跨模态注意力机制融合视觉和文本信息。实验表明SD-VSum优于现有方法。

  • Motivation: 解决传统视频摘要任务无法根据用户需求生成定制化摘要的问题,提出基于脚本的摘要任务。
  • Method: 扩展VideoXum数据集,提供视频、摘要和摘要描述的三元组;提出SD-VSum网络架构,使用跨模态注意力机制对齐和融合视觉与文本信息。
  • Result: SD-VSum在查询驱动和通用摘要任务中表现优于现有方法,能根据用户需求生成定制化摘要。
  • Conclusion: SD-VSum是一种有效的脚本驱动视频摘要方法,能够满足用户对摘要内容的个性化需求。

[37] Very High-Resolution Forest Mapping with TanDEM-X InSAR Data and Self-Supervised Learning

José-Luis Bueso-Bello,Benjamin Chauvel,Daniel Carcereri,Philipp Posovszky,Pietro Milillo,Jennifer Ruiz,Juan-Carlos Fernández-Diaz,Carolina González,Michele Martone,Ronny Hänsch,Paola Rizzoli

Main category: cs.CV

TL;DR: 论文探讨了利用自监督学习技术结合少量标签数据,提升高分辨率森林制图精度的方法,并在亚马逊雨林场景中验证了其有效性。

  • Motivation: 解决高分辨率森林制图中因缺乏大量标签数据而难以精确描绘森林轮廓和窄路检测的问题。
  • Method: 采用自监督学习提取特征表示,再结合少量标签数据进行监督训练,对比不同训练方法。
  • Result: 在亚马逊雨林场景中,自监督框架显著提升了分类精度,优于全监督方法。
  • Conclusion: 自监督学习为高分辨率森林制图提供了有效解决方案,尤其适用于标签数据稀缺的场景。

[38] FLUX-Text: A Simple and Advanced Diffusion Transformer Baseline for Scene Text Editing

Rui Lan,Yancheng Bai,Xu Duan,Mingxing Li,Lei Sun,Xiangxiang Chu

Main category: cs.CV

TL;DR: FLUX-Text是一个基于FLUX-Fill的多语言场景文本编辑框架,通过轻量级字形和文本嵌入模块提升文本编辑效果,尤其在非拉丁字符(如中文)上表现优异。

  • Motivation: 现有基于潜在扩散模型(LDM)的文本编辑方法在非拉丁字符上表现不佳,生成字形不准确或难以识别。
  • Method: 提出FLUX-Text框架,结合视觉和文本模态的字形条件,设计轻量级字形和文本嵌入模块。
  • Result: 仅需10万训练样本即可达到当前最佳性能,在公开数据集上超越前人工作。
  • Conclusion: FLUX-Text在文本保真度和多语言支持上表现优异,为场景文本编辑提供了高效解决方案。

[39] From Word to Sentence: A Large-Scale Multi-Instance Dataset for Open-Set Aerial Detection

Guoting Wei,Yu Liu,Xia Yuan,Xizhe Xue,Linlin Guo,Yifan Yang,Chunxia Zhao,Zongwen Bai,Haokui Zhang,Rong Xiao

Main category: cs.CV

TL;DR: 论文提出了一种大规模语言引导的开集航空检测数据集MI-OAD,并开发了自动标注工具OS-W2S Label Engine,显著提升了开集检测性能。

  • Motivation: 现有语言引导方法因数据集有限,难以满足细粒度开集检测需求。
  • Method: 构建包含词、短语、句子三级语言引导的数据集,结合视觉-语言模型和预处理/后处理技术开发自动标注工具。
  • Result: MI-OAD包含16万张图像和200万标注对,训练后模型在零样本条件下性能显著提升(如AP50提高29.5)。
  • Conclusion: MI-OAD和标注工具填补了现有数据空白,为开集航空检测提供了有效支持。

[40] A Vision-Language Model for Focal Liver Lesion Classification

Song Jian,Hu Yuchang,Wang Hui,Chen Yen-Wei

Main category: cs.CV

TL;DR: 提出了一种基于视觉语言模型(Liver-VLM)的肝脏病灶分类方法,通过结合文本和图像特征,在小样本数据下表现优于传统模型。

  • Motivation: 传统深度学习模型依赖大规模标注数据,而医学影像数据有限,因此探索多模态学习方法以提升小样本分类性能。
  • Method: Liver-VLM通过文本编码器融入类别信息,计算图像与文本嵌入的余弦相似度,并用交叉熵损失优化模型。
  • Result: 在MPCT-FLLs数据集上,Liver-VLM在准确率和AUC上优于标准CLIP和MedCLIP,轻量级ResNet18骨干进一步提升性能。
  • Conclusion: Liver-VLM为小样本肝脏病灶分类提供了有效解决方案,多模态学习在医学影像中具有潜力。

[41] GUAVA: Generalizable Upper Body 3D Gaussian Avatar

Dongbin Zhang,Yunfei Liu,Lijian Lin,Ye Zhu,Yang Li,Minghan Qin,Yu Li,Haoqian Wang

Main category: cs.CV

TL;DR: GUAVA框架通过单图像快速重建高质量、可动画的上半身3D高斯化身,显著提升渲染质量和速度。

  • Motivation: 现有方法依赖多视图或单目视频,且受限于SMPLX模型的表达能力,难以处理面部表情。
  • Method: 引入表达性人类模型(EHM)增强面部表情能力,提出GUAVA框架,利用逆纹理映射和投影采样技术从单图像推断高斯化身。
  • Result: GUAVA在渲染质量和速度上显著优于现有方法,重建时间仅0.1秒,支持实时动画和渲染。
  • Conclusion: GUAVA为单图像重建高质量可动画3D化身提供了高效解决方案。

[42] Interpretable Zero-shot Learning with Infinite Class Concepts

Zihan Ye,Shreyank N Gowda,Shiming Chen,Yaochu Jin,Kaizhu Huang,Xiaobo Jin

Main category: cs.CV

TL;DR: 论文提出InfZSL框架,利用LLM动态生成无限短语级类别概念,通过熵评分选择最优概念,提升零样本学习的性能和可解释性。

  • Motivation: 现有ZSL方法依赖人工标注或LLM生成类别语义,但存在透明度和幻觉问题,导致非视觉语义。
  • Method: 引入InfZSL框架,利用LLM生成短语级概念,并通过熵评分机制选择最优概念。
  • Result: 在三个基准数据集上表现显著提升,生成可解释的图像相关概念。
  • Conclusion: InfZSL通过动态生成和选择概念,解决了ZSL中的语义问题,提升了性能和可解释性。

[43] 3D Surface Reconstruction with Enhanced High-Frequency Details

Shikun Zhang,Yiqun Wang,Cunjian Chen,Yong Li,Qiuhong Ke

Main category: cs.CV

TL;DR: FreNeuS通过高频信息改进神经隐式3D重建,解决了现有方法表面细节不足的问题。

  • Motivation: 现有神经表面重建方法随机采样导致高频细节学习困难,重建结果过于平滑。
  • Method: FreNeuS利用像素梯度变化获取高频区域,动态采样射线,并设计高频加权方法增强表面细节重建。
  • Result: 实验表明FreNeuS能重建精细表面细节,质量优于现有方法,且适用于基于NeuS的工作。
  • Conclusion: FreNeuS有效提升了表面细节重建质量,具有广泛适用性。

[44] Reducing Annotation Burden in Physical Activity Research Using Vision-Language Models

Abram Schonfeldt,Benjamin Maylor,Xiaofang Chen,Ronald Clark,Aiden Doherty

Main category: cs.CV

TL;DR: 研究比较了视觉语言模型和判别模型在自由生活场景下预测身体活动行为的表现,发现开源视觉语言模型在预测久坐行为时表现接近判别模型,但在其他活动强度下表现下降。

  • Motivation: 验证和开发基于可穿戴设备的身体活动测量方法,减少人工标注负担。
  • Method: 比较三种视觉语言模型和两种判别模型在两个自由生活验证研究中的表现。
  • Result: 视觉语言模型和判别模型在预测久坐行为时表现接近,但在其他活动强度下表现较差,且在外部队列中表现下降。
  • Conclusion: 开源计算机视觉模型可用于减少类似人群中的久坐行为标注负担。

[45] Reinforced Correlation Between Vision and Language for Precise Medical AI Assistant

Haonan Wang,Jiaji Mao,Lehan Wang,Qixiang Zhang,Marawan Elbatel,Yi Qin,Huijun Hu,Baoxun Li,Wenhui Deng,Weifeng Qin,Hongrui Li,Jialin Liang,Jun Shen,Xiaomeng Li

Main category: cs.CV

TL;DR: RCMed是一种全栈AI助手,通过多模态对齐和分层视觉-语言基础,提升医学图像分析和诊断的准确性。

  • Motivation: 解决医学AI助手在多模态内容精度不足和真实场景验证不足的问题。
  • Method: 采用自增强相关机制和颜色区域描述策略,结合视觉特征与语言语义,形成闭环优化。
  • Result: 在165个临床任务中表现优异,细胞分割相对提升23.5%,并在20种癌症类型中验证了泛化能力。
  • Conclusion: RCMed展示了多模态模型在复杂场景中实现人类水平解释的潜力,推动了以人为中心的AI医疗。

[46] Attention-aggregated Attack for Boosting the Transferability of Facial Adversarial Examples

Jian-Wei Li,Wen-Ze Shao

Main category: cs.CV

TL;DR: 论文提出了一种名为注意力聚合攻击(AAA)的新方法,通过模仿其他FR模型对干净人脸图像的注意力,增强对抗样本的可转移性,以攻击人脸识别模型。

  • Motivation: 对抗样本揭示了深度学习模型的脆弱性,而现有方法在针对细粒度视觉任务(如人脸识别)时表现不佳。本文研究了人脸特征对FR模型嵌入学习的影响,并提出了改进攻击性能的方法。
  • Method: 提出注意力聚合攻击(AAA),通过模仿其他FR模型的注意力机制,破坏对决策关键的面部特征,从而增强对抗样本的可转移性。
  • Result: 在多种FR模型上的实验验证了AAA方法的优越性和鲁棒性。
  • Conclusion: AAA方法显著提升了对抗样本的可转移性,为人脸识别模型的安全性提供了新的研究视角。

[47] EOPose : Exemplar-based object reposing using Generalized Pose Correspondences

Sarthak Mehrotra,Rishabh Jain,Mayur Hemani,Balaji Krishnamurthy,Mausoom Sarkar

Main category: cs.CV

TL;DR: EOPose是一种端到端框架,利用无监督关键点检测实现物体在图像中的重新姿态调整,适用于电子商务等领域。

  • Motivation: 电子商务需要快速生成产品图像变体,而现有方法难以保留物体的精细细节。
  • Method: EOPose通过三步法,利用目标姿态引导图像的关键点对应关系,对源图像进行变形和重新渲染。
  • Result: EOPose在PSNR、SSIM和FID等指标上表现优异,能保留物体的颜色、纹理和品牌标志等细节。
  • Conclusion: EOPose是一种高效且高质量的物体重新姿态调整方法,并通过消融实验和用户研究验证了其有效性。

[48] DDaTR: Dynamic Difference-aware Temporal Residual Network for Longitudinal Radiology Report Generation

Shanshan Song,Hui Tang,Honglong Yang,Xiaomeng Li

Main category: cs.CV

TL;DR: 论文提出了一种动态差异感知时序残差网络(DDaTR),用于改进纵向放射学报告生成(LRRG)任务,通过捕捉多级空间和时间相关性,显著提升了性能。

  • Motivation: 现有LRRG方法在特征提取过程中难以有效捕捉空间和时间相关性,导致差异信息不足,影响报告生成效果。
  • Method: 提出DDaTR网络,包含动态特征对齐模块(DFAM)和动态差异感知模块(DDAM),分别用于对齐多模态特征和捕捉差异信息,并通过动态残差网络建模时序相关性。
  • Result: 在三个基准测试中,DDaTR表现优于现有方法,证明了其在RRG和LRRG任务中的有效性。
  • Conclusion: DDaTR通过多模块协作,显著提升了LRRG任务中差异信息的捕捉和报告生成质量。

[49] CXR-AD: Component X-ray Image Dataset for Industrial Anomaly Detection

Haoyu Bai,Jie Wang,Gaomin Li,Xuan Li,Xiaohu Zhang,Xia Yang

Main category: cs.CV

TL;DR: 论文提出了首个公开的X射线组件异常检测数据集CXR-AD,填补了内部缺陷检测数据集的空白,并分析了其技术挑战和现有算法的局限性。

  • Motivation: 现有异常检测数据集主要关注表面缺陷,缺乏针对内部缺陷的X射线数据集,因此构建了CXR-AD数据集以推动算法发展。
  • Method: 构建了包含653个正常样本和561个缺陷样本的X射线数据集,并分析了其三大技术挑战。
  • Result: 实验表明,现有算法在CXR-AD上的性能平均下降29.78%,凸显了处理内部缺陷检测任务的局限性。
  • Conclusion: CXR-AD为内部缺陷检测提供了真实工业基准,有助于提升算法开发和检测技术精度。

[50] Enhancing Target-unspecific Tasks through a Features Matrix

Fangming Cui,Yonggang Zhang,Xuan Wang,Xinmei Tian,Jun Yu

Main category: cs.CV

TL;DR: 提出了一种特征矩阵(FM)正则化方法,以增强大型视觉语言模型在目标非特定任务中的表现。

  • Motivation: 现有提示学习方法在目标非特定任务中表现不佳,可能因过拟合训练导致模型遗忘通用知识。
  • Method: 通过提取和利用通用知识构建特征矩阵(FM),从深度和细粒度角度捕捉输入语义,避免过拟合。
  • Result: FM兼容现有框架,显著提升目标非特定任务性能,达到最先进水平。
  • Conclusion: FM方法有效解决了目标非特定任务中的性能问题,具有通用性和灵活性。

[51] LiftFeat: 3D Geometry-Aware Local Feature Matching

Yepeng Liu,Wenpeng Lai,Zhou Zhao,Yuxuan Xiong,Jinchi Zhu,Jun Cheng,Yongchao Xu

Main category: cs.CV

TL;DR: 提出了一种轻量级网络LiftFeat,通过融合3D几何特征提升原始描述符的鲁棒性,适用于光照变化大、低纹理或重复图案场景。

  • Motivation: 在SLAM和视觉定位等应用中,现有方法在极端条件下(如光照变化、低纹理区域)提取鲁棒且区分性强的视觉特征仍具挑战性。
  • Method: 采用预训练的单目深度估计模型生成伪表面法线标签,监督提取3D几何特征,并设计3D几何感知的特征提升模块,融合表面法线特征与原始2D描述符特征。
  • Result: 在相对位姿估计、单应性估计和视觉定位任务中,LiftFeat表现优于其他轻量级先进方法。
  • Conclusion: LiftFeat通过引入3D几何特征,显著提升了2D特征描述在极端条件下的区分能力。

[52] Phenotype-Guided Generative Model for High-Fidelity Cardiac MRI Synthesis: Advancing Pretraining and Clinical Applications

Ziyu Li,Yujian Hu,Zhengyao Ding,Yiheng Mao,Haitao Li,Fan Yi,Hongkun Zhang,Zhengxing Huang

Main category: cs.CV

TL;DR: 提出了一种名为CPGG的新方法,通过生成多样化的CMR数据解决数据不足问题,显著提升AI模型在心脏疾病诊断中的表现。

  • Motivation: 由于大规模高质量CMR数据稀缺,AI模型在心脏疾病诊断中的应用受限,CPGG旨在通过生成合成数据填补这一空白。
  • Method: CPGG分为两阶段:首阶段利用CMR数据训练生成模型;第二阶段基于心脏表型的掩码自回归扩散模型生成高保真CMR序列。
  • Result: 实验表明,CPGG生成的合成数据质量高,显著提升了下游任务(如诊断和表型预测)的性能。
  • Conclusion: CPGG通过生成多样化CMR数据,有效解决了数据不足问题,为AI在心脏疾病诊断中的应用提供了新思路。

[53] A Fusion-Guided Inception Network for Hyperspectral Image Super-Resolution

Usman Muhammad,Jorma Laaksonen

Main category: cs.CV

TL;DR: 提出了一种名为FGIN的单图像超分辨率模型,通过融合光谱和空间信息,结合多尺度特征提取和优化上采样模块,解决了HSI超分辨率中对图像对齐的依赖问题。

  • Motivation: 高光谱图像(HSI)超分辨率通常需要精确对齐的低分辨率HSI和高分辨率常规图像,但实际场景中难以实现。本文旨在减少对此依赖。
  • Method: 采用光谱-空间融合模块早期整合信息,结合Inception-like多尺度特征提取和多尺度融合块,最后通过优化的上采样模块提升重建质量。
  • Result: 在两个公开的高光谱数据集上的实验表明,该方法具有竞争力。
  • Conclusion: FGIN模型有效减少了HSI超分辨率中对图像对齐的依赖,性能优越。

[54] Robustness in AI-Generated Detection: Enhancing Resistance to Adversarial Attacks

Sun Haoxuan,Hong Yan,Zhan Jiahui,Chen Haoxing,Lan Jun,Zhu Huijia,Wang Weiqiang,Zhang Liqing,Zhang Jianfu

Main category: cs.CV

TL;DR: 本文研究了AI生成人脸检测系统的脆弱性,提出了一种结合对抗训练和扩散反演的方法,显著提升了检测系统的鲁棒性。

  • Motivation: 生成图像技术的快速发展引发了安全问题,尤其是人脸生成检测领域。现有检测方法在标准条件下表现良好,但在对抗攻击下鲁棒性不足。
  • Method: 提出了一种结合对抗训练和扩散反演与重建的方法,以增强检测系统的鲁棒性。
  • Result: 实验表明,现有检测系统易受对抗扰动影响,但所提方法显著提升了鲁棒性。
  • Conclusion: 通过对抗训练和扩散反演,本文方法有效提升了AI生成人脸检测的鲁棒性,并公开了代码以促进进一步研究。

[55] Polar Coordinate-Based 2D Pose Prior with Neural Distance Field

Qi Gan,Sao Mai Nguyen,Eric Fenaux,Stephan Clémençon,Mounîm El Yacoubi

Main category: cs.CV

TL;DR: 论文提出了一种基于神经距离场(NDF)的2D姿态先验引导细化方法,通过极坐标表示和新型非测地距离度量,提升了运动场景中姿态估计的准确性和鲁棒性。

  • Motivation: 解决现有基于RGB视频的深度学习姿态估计模型在真实运动场景中因运动模糊、遮挡和领域偏移导致的性能下降问题。
  • Method: 采用极坐标表示姿态,引入非测地距离度量,并提出梯度批量投影增强策略以缓解数据稀缺问题。
  • Result: 在跳远数据集上验证了方法的有效性,显著提升了多姿态表示下的2D姿态估计性能。
  • Conclusion: 该方法仅需少量训练数据即可提升姿态合理性,具有跨领域鲁棒性。

[56] Nonperiodic dynamic CT reconstruction using backward-warping INR with regularization of diffeomorphism (BIRD)

Muge Du,Zhuozhao Zheng,Wenying Wang,Guotao Quan,Wuliang Shi,Le Shen,Li Zhang,Liang Li,Yinong Liu,Yuxiang Xing

Main category: cs.CV

TL;DR: BIRD框架通过逆向变形、DVF正则化、运动补偿重建和维度缩减设计,解决了非周期性动态CT重建中的计算效率、解剖合理性和细节保留问题。

  • Motivation: 解决非周期性快速运动(如心脏成像)中动态CT重建的挑战,包括传统方法的局限性、深度学习的泛化问题及INR技术的不足。
  • Method: 提出BIRD框架,采用逆向变形、DVF正则化、运动补偿重建和维度缩减设计,优化非周期性动态CT重建。
  • Result: 实验表明,BIRD在数字和物理模型及患者数据中有效减少运动伪影并增强细节。
  • Conclusion: BIRD框架为动态CT重建提供更准确的方法,具有临床潜力,如单次心跳心脏重建和运动伪影减少。

[57] Blending 3D Geometry and Machine Learning for Multi-View Stereopsis

Vibhas Vats,Md. Alimoor Reza,David Crandall,Soon-heung Jung

Main category: cs.CV

TL;DR: GC MVSNet++通过在学习阶段主动实施多视角、多尺度的几何一致性检查,显著加速训练过程,并在多个数据集上达到最优性能。

  • Motivation: 传统MVS方法依赖光度与几何一致性约束,而现代学习算法仅将几何一致性作为后处理步骤,未影响学习过程。本文旨在将几何一致性直接融入学习阶段。
  • Method: 提出GC MVSNet++,在学习阶段实施多视角、多尺度的几何一致性检查,并设计密集连接的成本正则化网络。
  • Result: 在DTU和BlendedMVS数据集上达到最优性能,在Tanks and Temples基准测试中排名第二。
  • Conclusion: GC MVSNet++首次在学习阶段实现多视角、多尺度的几何一致性监督,显著提升性能与效率。

[58] UPMAD-Net: A Brain Tumor Segmentation Network with Uncertainty Guidance and Adaptive Multimodal Feature Fusion

Zhanyuan Jia,Ni Yao,Danyang Sun,Chuang Han,Yanting Li,Jiaofen Nan,Fubao Zhu,Chen Zhao,Weihua Zhou

Main category: cs.CV

TL;DR: 该论文提出了一种结合深度学习和区域生长算法先验知识的脑肿瘤分割方法,通过多尺度特征融合和自适应注意力机制提升性能,并在BraTS数据集上取得了优异结果。

  • Motivation: 脑肿瘤分割对诊断和治疗至关重要,但由于肿瘤形状不规则、边界模糊和高度变异性,准确分割仍具挑战性。
  • Method: 方法包括多尺度特征融合模块(MSFF)、自适应注意力机制(AAM)和蒙特卡洛Dropout(MC Dropout)策略,用于提取特征、捕获全局信息及估计不确定性。
  • Result: 在BraTS2021和BraTS2019数据集上,该方法在增强肿瘤(ET)、全肿瘤(WT)和肿瘤核心(TC)分割任务中均显著优于现有方法,Dice分数分别为89.18%、93.67%、91.23%和87.43%、90.92%、90.40%。
  • Conclusion: 该研究基于U-Net架构提出了一种新型3D脑肿瘤分割网络,通过引入先验知识和不确定性估计方法,提升了模型的鲁棒性和性能。代码已开源。

[59] MRI motion correction via efficient residual-guided denoising diffusion probabilistic models

Mojtaba Safari,Shansong Wang,Qiang Li,Zach Eidex,Richard L. J. Qiu,Chih-Wei Chang,Hui Mao,Xiaofeng Yang

Main category: cs.CV

TL;DR: Res-MoCoDiff是一种高效的MRI运动伪影校正方法,通过残差误差偏移机制和四步反向扩散显著提升图像质量。

  • Motivation: MRI中的运动伪影严重影响图像质量和定量分析,传统方法成本高且耗时。
  • Method: 采用残差误差偏移机制和U-net结合Swin-Transformer,训练时使用l1+l2损失函数。
  • Result: 在所有运动严重程度下表现最佳,PSNR达41.91±2.94 dB,采样时间大幅缩短。
  • Conclusion: Res-MoCoDiff高效且优于现有方法,适合临床和科研应用。

[60] Modality-Guided Dynamic Graph Fusion and Temporal Diffusion for Self-Supervised RGB-T Tracking

Shenglan Li,Rui Yao,Yong Zhou,Hancheng Zhu,Kunyang Sun,Bing Liu,Zhiwen Shao,Jiaqi Zhao

Main category: cs.CV

TL;DR: GDSTrack提出了一种自监督RGB-T跟踪方法,通过动态图融合和时间扩散解决伪标签噪声和背景干扰问题。

  • Motivation: 减少对大规模标注的依赖,解决自监督RGB-T跟踪中伪标签错误和背景噪声导致的模态融合效率问题。
  • Method: 引入动态图融合(MDGF)和时间扩散(TGID),利用邻接矩阵生成器和生成模型的去噪能力。
  • Result: 在四个公开RGB-T数据集上表现优于现有方法。
  • Conclusion: GDSTrack通过动态图融合和时间扩散有效提升了自监督RGB-T跟踪的鲁棒性和性能。

[61] Optimization of Module Transferability in Single Image Super-Resolution: Universality Assessment and Cycle Residual Blocks

Haotong Cheng,Zhiqi Zhang,Hao Li,Xinshang Zhang

Main category: cs.CV

TL;DR: 论文提出“通用性”概念及评估方程(UAE),设计两种优化模块(CRB和DCRB),实验证明其性能优于现有方法。

  • Motivation: 现有研究多关注性能提升,而忽略了模块的可移植性量化。本文旨在填补这一空白。
  • Method: 引入“通用性”概念及UAE评估指标,设计CRB和DCRB模块,并通过多场景实验验证。
  • Result: 新模块在多种数据集上表现优异,PSNR提升达0.83dB或参数减少71.3%。
  • Conclusion: 模块通用性与模型泛化能力相关,优化模块显著提升性能且易于移植。

[62] Coop-WD: Cooperative Perception with Weighting and Denoising for Robust V2V Communication

Chenguang Liu,Jianjun Chen,Yunfei Chen,Yubei He,Zhuangkun Wei,Hongjian Sun,Haiyan Lu,Qi Hao

Main category: cs.CV

TL;DR: 提出了一种联合加权和去噪框架Coop-WD,用于增强V2V通信受损下的协同感知,并提出了高效变体Coop-WD-eco以减少计算开销。

  • Motivation: 现有研究缺乏对不同级别V2V通信损伤的泛化能力,因此需要一种能适应多种损伤的协同感知方法。
  • Method: 采用自监督对比模型和条件扩散概率模型分层增强车辆级和像素级特征,并设计Coop-WD-eco选择性去噪。
  • Result: Coop-WD在所有信道类型中优于传统基准,Coop-WD-eco在严重失真下减少50%计算成本且保持精度。
  • Conclusion: Coop-WD和Coop-WD-eco有效提升了V2V通信受损下的协同感知性能,具有实际应用潜力。

[63] RAIL: Region-Aware Instructive Learning for Semi-Supervised Tooth Segmentation in CBCT

Chuyu Zhao,Hao Huang,Jiashuo Guo,Ziyu Shen,Zhongwei Zhou,Jie Liu,Zekuan Yu

Main category: cs.CV

TL;DR: RAIL是一种双组双学生的半监督框架,通过区域感知教学机制解决CBCT牙齿分割中标注数据不足的问题,显著提升了性能。

  • Motivation: 解决半监督学习在CBCT牙齿分割中面临的监督不足和伪标签不可靠问题。
  • Method: 提出RAIL框架,包含DFS控制器和CAL调节器,分别优化监督学习和无监督学习阶段。
  • Result: 在四个CBCT牙齿分割数据集上表现优于现有方法。
  • Conclusion: RAIL通过区域感知教学机制有效提升了半监督学习的性能,适用于标注数据有限的任务。

[64] Panoramic Out-of-Distribution Segmentation

Mengfei Duan,Kailun Yang,Yuheng Zhang,Yihong Cao,Fei Teng,Kai Luo,Jiaming Zhang,Zhiyong Li,Shutao Li

Main category: cs.CV

TL;DR: 论文提出全景图像中的异常分割任务(PanOoS)及首个解决方案POS,通过文本引导的提示分布学习适应全景图像特性,显著提升性能。

  • Motivation: 现有全景语义分割方法无法识别异常,而传统OoS模型在全景域表现不佳,需解决背景杂乱和像素扭曲问题。
  • Method: 提出POS方法,结合解耦策略、提示恢复注意力(PRA)和双层提示分布学习(BPDL),优化语义解码和掩码嵌入。
  • Result: POS在DenseOoS数据集上AuPRC提升34.25%,FPR95降低21.42%,优于现有方法,并具备领先的封闭集分割能力。
  • Conclusion: POS为全景异常分割提供有效解决方案,并发布两个新基准数据集,推动领域发展。

[65] Read My Ears! Horse Ear Movement Detection for Equine Affective State Assessment

João Alves,Pia Haubro Andersen,Rikke Gade

Main category: cs.CV

TL;DR: 论文提出了一种自动化方法,用于检测和定位马匹视频中的特定耳朵动作单元(AU),以解决手动标注数据稀缺的问题。

  • Motivation: 马匹情感状态评估领域因手动标注面部AU耗时且昂贵,导致数据稀缺,亟需自动化标注系统。
  • Method: 结合深度学习视频特征提取与循环神经网络进行分类任务,并采用经典光流方法。
  • Result: 在公共马匹视频数据集上,耳朵动作检测准确率达到87.5%。
  • Conclusion: 该方法展示了自动化AU检测的潜力,未来可应用于马匹福利和兽医诊断实践。

[66] Generating Synthetic Data via Augmentations for Improved Facial Resemblance in DreamBooth and InstantID

Koray Ulusan,Benjamin Kiefer

Main category: cs.CV

TL;DR: 研究探讨了通过增强技术提升Stable Diffusion生成肖像的面部相似性,比较了DreamBooth和InstantID两种个性化技术,并引入FaceDistance评估相似性。

  • Motivation: 探索如何通过增强技术提高业余照片生成专业肖像的面部相似性,以支持下游应用。
  • Method: 使用DreamBooth和InstantID技术,结合多种增强策略,通过FaceDistance评估生成肖像的面部相似性。
  • Result: 实验表明增强策略能显著提升生成肖像的面部相似性,FaceDistance为评估提供了有效工具。
  • Conclusion: 研究揭示了增强技术在提升肖像生成相似性中的重要性,为下游应用提供了实用策略。

[67] Real-Time Person Image Synthesis Using a Flow Matching Model

Jiwoo Jeong,Kirok Kim,Wooju Kim,Nam-Joon Kim

Main category: cs.CV

TL;DR: 论文提出了一种基于流匹配(FM)的生成模型(RPFM),用于实时姿态引导人物图像合成(PGPIS),在速度和图像质量之间取得平衡,实现了接近实时的生成速度。

  • Motivation: PGPIS在实时应用中(如手语视频生成、AR/VR等)需要快速生成高质量图像,但现有扩散模型速度慢,无法满足实时需求。
  • Method: 提出基于流匹配的生成模型(RPFM),支持条件生成和潜在空间操作,提升训练和采样效率。
  • Result: 在DeepFashion数据集上测试,RPFM在保持图像质量的同时,生成速度提升两倍以上,接近实时。
  • Conclusion: RPFM通过牺牲少量图像精度,显著提升生成速度,适用于实时PGPIS应用。

[68] Uncertainty-Aware Prototype Semantic Decoupling for Text-Based Person Search in Full Images

Zengli Luo,Canlong Zhang,Xiaochun Lu,Zhixin Li,Zhiwen Wang

Main category: cs.CV

TL;DR: 论文提出了一种名为UPD-TBPS的新框架,通过多粒度不确定性估计、原型不确定性解耦和跨模态重识别三个模块,解决了文本行人搜索中的检测和匹配不确定性问题。

  • Motivation: 在复杂场景中,现有方法因检测和匹配的不确定性导致性能下降,需要一种更有效的方法来提升行人搜索的准确性。
  • Method: 框架包含三个模块:MUE(多粒度不确定性估计)、PUD(原型不确定性解耦)和ReID(跨模态重识别),分别用于减少早期不确定性、提取目标行人特征和提升检索准确性。
  • Result: 在CUHK-SYSU-TBPS和PRW-TBPS数据集上的实验验证了框架的有效性。
  • Conclusion: UPD-TBPS通过多模块协同工作,显著提升了文本行人搜索的性能。

[69] Corner Cases: How Size and Position of Objects Challenge ImageNet-Trained Models

Mishal Fatima,Steffen Jung,Margret Keuper

Main category: cs.CV

TL;DR: 论文研究了图像背景对模型预测中虚假相关性的影响,并提出了一种合成数据集Hard-Spurious-ImageNet,发现模型在小ROI和偏离中心的物体上过度依赖背景特征。

  • Motivation: 图像背景可能导致数据集中的位置和大小偏差,进而影响模型对虚假特征的依赖。
  • Method: 提出合成数据集Hard-Spurious-ImageNet,评估不同预训练模型在背景、物体位置和大小变化下的表现。
  • Result: 模型在小ROI和偏离中心的物体上过度依赖背景特征,现有方法未能显著改善最差组准确率。
  • Conclusion: 背景特征对模型预测有显著影响,现有方法需进一步改进以应对物体位置和大小的变化。

[70] Supervised and Unsupervised Textile Classification via Near-Infrared Hyperspectral Imaging and Deep Learning

Maria Kainz,Johannes K. Krondorfer,Malte Jaschik,Maria Jernej,Harald Ganster

Main category: cs.CV

TL;DR: 利用高光谱近红外成像和深度学习算法实现高效纺织纤维分类,推动可持续纺织回收。

  • Motivation: 纺织纤维回收对减少纺织业环境影响至关重要,需高效分类技术。
  • Method: 研究监督与非监督深度学习模型,测试其在不同纺织结构上的泛化能力。
  • Result: 优化的卷积神经网络和自编码器网络在多变条件下表现稳健。
  • Conclusion: 高光谱成像与深度学习结合,为可持续纺织回收提供了准确且稳健的分类方案。

[71] DyGEnc: Encoding a Sequence of Textual Scene Graphs to Reason and Answer Questions in Dynamic Scenes

Sergey Linok,Vadim Semenov,Anastasia Trunova,Oleg Bulichev,Dmitry Yudin

Main category: cs.CV

TL;DR: DyGEnc是一种新颖的动态图编码方法,结合了时空结构表示与大型语言模型,显著提升了动态环境中事件分析的性能。

  • Motivation: 解决现有视觉模型在动态环境中缺乏可解释的时空对象表示的问题。
  • Method: 提出DyGEnc方法,整合压缩的时空结构表示与大型语言模型,支持基于文本场景图的高级问答。
  • Result: 在STAR和AGQA数据集上,DyGEnc比现有视觉方法性能提升15-25%。
  • Conclusion: DyGEnc为基于图的机器人记忆和长期推理提供了有效解决方案。

[72] Fixed-Length Dense Fingerprint Representation

Zhiyu Pan,Xiongjun Guan,Yongjie Duan,Jianjiang Feng,Jie Zhou

Main category: cs.CV

TL;DR: FLARE是一种指纹匹配框架,结合固定长度密集描述符、姿态对齐和鲁棒增强,显著提升跨模态和低质量指纹的匹配性能。

  • Motivation: 固定长度指纹表示在大规模匹配中高效,但现有方法难以处理多样指纹模态、姿态变化和噪声干扰。
  • Method: 提出三维密集描述符捕捉指纹脊结构空间关系,结合姿态对齐和双重增强策略。
  • Result: FLARE在多种指纹类型和低质量场景中表现优异,显著优于现有方法。
  • Conclusion: FLARE是一种统一且可扩展的解决方案,代码将公开。

[73] From Pixels to Polygons: A Survey of Deep Learning Approaches for Medical Image-to-Mesh Reconstruction

Fengming Lin,Arezoo Zakeri,Yidan Xue,Michael MacRaild,Haoran Dou,Zherui Zhou,Ziwei Zou,Ali Sarrami-Foroushani,Jinming Duan,Alejandro F. Frangi

Main category: cs.CV

TL;DR: 该论文综述了基于深度学习的医学图像到网格重建方法,将其分为四类(模板模型、统计模型、生成模型和隐式模型),分析了每类的方法、优缺点及适用性,并评估了不同解剖结构的应用。

  • Motivation: 推动对疾病机制的理解及现代医学中诊断和治疗技术的发展,通过系统分类和评估现有方法,为研究者和从业者提供参考。
  • Method: 将现有方法分为四类,详细分析每类的方法论基础、优缺点及适用性,并通过标准指标进行定量比较。
  • Result: 总结了各类方法的性能,并识别了当前挑战(如拓扑正确性、几何精度和多模态集成)。
  • Conclusion: 提出了未来研究方向,旨在为医学图像分析和计算医学领域的研究者提供全面参考。

[74] PAHA: Parts-Aware Audio-Driven Human Animation with Diffusion Model

Y. B. Wang,S. Z. Zhou,J. F. Wu,T. Hu,J. N. Zhang,Y. Liu

Main category: cs.CV

TL;DR: PAHA是一个基于扩散模型的端到端音频驱动上半身人体动画框架,通过PAR和PCE方法提升生成质量与音频-动作一致性,并设计了SG和DG推理指导方法。

  • Motivation: 现有方法依赖多阶段生成和中间表示,导致推理时间长且生成质量与音频-动作一致性不足。
  • Method: 提出PAR动态调整区域训练损失权重,PCE训练扩散模型的区域音频-视觉分类器,并设计SG和DG推理指导方法。
  • Result: PAHA在音频-动作对齐和视频相关评估中显著优于现有方法。
  • Conclusion: PAHA通过局部细粒度监督指导解决了现有问题,并发布了首个中文新闻主播语音数据集CNAS。

[75] Learning Knowledge-based Prompts for Robust 3D Mask Presentation Attack Detection

Fangling Jiang,Qi Li,Bing Liu,Weining Wang,Caifeng Shan,Zhenan Sun,Ming-Hsuan Yang

Main category: cs.CV

TL;DR: 提出了一种基于知识图谱提示学习的新框架,用于3D面具攻击检测,结合视觉语言模型和因果图理论,显著提升了检测性能。

  • Motivation: 现有方法依赖多模态特征或rPPG信号,成本高且泛化能力有限;文本描述信息通用且低成本,但视觉语言多模态特征在3D面具攻击检测中尚未探索。
  • Method: 结合知识图谱的实体和三重信息生成任务特异性提示,引入视觉特定知识过滤器,并利用因果图理论优化提示学习。
  • Result: 在基准数据集上实现了最优的跨场景检测性能。
  • Conclusion: 该方法通过知识驱动的提示学习和因果优化,显著提升了3D面具攻击检测的泛化能力和性能。

[76] Learning Unknown Spoof Prompts for Generalized Face Anti-Spoofing Using Only Real Face Images

Fangling Jiang,Qi Li,Weining Wang,Wei Shen,Bing Liu,Zhenan Sun

Main category: cs.CV

TL;DR: 论文提出了一种基于视觉语言模型的新方法,通过学习未知欺骗提示来提升人脸反欺骗的泛化能力,无需使用欺骗人脸图像。

  • Motivation: 人脸反欺骗技术的泛化能力受限,主要源于协变量偏移和语义偏移。
  • Method: 利用视觉语言模型生成真实人脸和潜在欺骗攻击的文本提示,并通过多样化欺骗提示优化框架学习有效提示。
  • Result: 在九个数据集上的实验表明,该方法实现了对未知攻击类型的最先进泛化能力。
  • Conclusion: 该方法通过视觉语言模型的知识迁移,显著提升了人脸反欺骗的泛化性能。

[77] PhysLLM: Harnessing Large Language Models for Cross-Modal Remote Physiological Sensing

Yiping Xie,Bo Zhao,Mingtong Dai,Jian-Ping Zhou,Yue Sun,Tao Tan,Weicheng Xie,Linlin Shen,Zitong Yu

Main category: cs.CV

TL;DR: PhysLLM结合LLMs与rPPG组件,通过跨模态对齐和双域特征重加权,提升了非接触生理测量的鲁棒性和准确性。

  • Motivation: rPPG易受光照变化和运动伪影影响,LLMs虽擅长长程依赖但难以处理连续噪声敏感信号,需结合两者优势。
  • Method: 提出TPG策略实现跨模态对齐,DDS算法解决信号不稳定,并通过生理统计等注入任务特定线索。
  • Result: 在四个基准数据集上达到SOTA,显著提升光照变化和运动场景下的性能。
  • Conclusion: PhysLLM通过跨模态协作优化,有效解决了rPPG的挑战,展示了强大的泛化能力。

[78] Bounding Box-Guided Diffusion for Synthesizing Industrial Images and Segmentation Map

Alessandro Simoni,Francesco Pelosin

Main category: cs.CV

TL;DR: 提出了一种基于扩散模型的新方法,用于生成高保真工业缺陷数据集,减少标注成本,并提升分割模型的性能。

  • Motivation: 工业缺陷分割需要高精度标注数据,但获取成本高且耗时,现有方法在一致性和空间准确性上不足。
  • Method: 利用扩散模型,结合边界框表示生成精确分割掩码,提出两种定量指标评估方法。
  • Result: 实验表明,该方法能有效缩小合成数据与真实工业数据的差距,提升下游分割任务性能。
  • Conclusion: 扩散模型合成数据可降低成本并提高分割模型可靠性,代码已开源。

[79] Breaking Annotation Barriers: Generalized Video Quality Assessment via Ranking-based Self-Supervision

Linhan Cao,Wei Sun,Kaiwei Zhang,Yicong Peng,Guangtao Zhai,Xiongkuo Min

Main category: cs.CV

TL;DR: 提出一种自监督学习框架,通过大规模无标签视频和迭代自改进训练策略,提升视频质量评估模型的泛化能力。

  • Motivation: 现有监督视频质量评估模型依赖人工标注数据,成本高且难以扩展,限制了其泛化能力。
  • Method: 采用学习排序范式,结合质量伪标签和合成失真模拟,通过迭代自改进策略训练多模态模型。
  • Result: 模型在零样本和微调任务中表现优异,泛化能力显著提升,达到新SOTA。
  • Conclusion: 自监督方法有效训练泛化VQA模型,代码和数据集将公开。

[80] Towards Smart Point-and-Shoot Photography

Jiawan Li,Fei Zhou,Zhipeng Zhong,Jiongzhi Lin,Guoping Qiu

Main category: cs.CV

TL;DR: 本文提出了一种智能点拍(SPAS)系统,通过实时调整相机姿态帮助用户拍摄更好的照片。系统包括构建大型数据集、开发基于CLIP的构图质量评估模型(CCQA)和相机姿态调整模型(CPAM)。

  • Motivation: 传统点拍相机无法指导用户构图,而智能手机用户普遍缺乏摄影技巧,因此需要一种智能系统来帮助用户拍摄高质量照片。
  • Method: 1. 构建包含32万张图像和相机姿态信息的数据集;2. 开发CCQA模型,通过可学习文本嵌入技术为图像分配伪标签;3. 开发CPAM模型,通过混合专家模型和门控损失函数实现端到端训练。
  • Result: 系统能够评估当前视图质量并输出相机姿态调整建议,实验结果表明其性能优于公开数据集上的现有方法。
  • Conclusion: SPAS系统通过智能化的构图指导和姿态调整,显著提升了用户拍摄照片的质量。

[81] ReGraP-LLaVA: Reasoning enabled Graph-based Personalized Large Language and Vision Assistant

Yifan Xiang,Zhenxi Zhang,Bin Li,Yixuan Weng,Shoujun Zhou,Yangfan He,Keqin Li

Main category: cs.CV

TL;DR: 论文提出ReGraP数据集和ReGraP-LLaVA模型,解决现有MLLMs在关系推理和多对象学习上的不足,通过图提示方法提升性能。

  • Motivation: 现有MLLMs在捕捉多对象间关系及推理方面存在不足,缺乏相关训练数据和评估任务。
  • Method: 提出ReGraP数据集(含图像、KGs和CoT QA对),设计软硬图提示方法训练ReGraP-LLaVA模型。
  • Result: ReGraP-LLaVA在关系推理和知识连接任务中表现优异,达到SoTA。
  • Conclusion: ReGraP数据集和模型有效解决了MLLMs在关系推理上的局限性,为未来研究提供了新方向。

[82] Revolutionizing Brain Tumor Imaging: Generating Synthetic 3D FA Maps from T1-Weighted MRI using CycleGAN Models

Xin Du,Francesca M. Cozzi,Rajesh Jena

Main category: cs.CV

TL;DR: 提出了一种基于CycleGAN的方法,直接从T1加权MRI扫描生成FA图,解决了FA图与纤维束追踪图谱的空间不对齐问题,并在健康和肿瘤组织中验证了其性能。

  • Motivation: FA和DEC图对评估白质完整性和结构连接性至关重要,但FA图与纤维束追踪图谱的空间不对齐限制了其在预测模型中的有效整合。
  • Method: 采用CycleGAN方法,利用未配对数据训练模型,直接从T1加权MRI生成FA图。
  • Result: 模型生成的FA图具有高保真度,特别是在肿瘤区域表现优异,SSIM和PSNR评估结果良好,放射学评估也证实其临床潜力。
  • Conclusion: 该方法为临床工作流程提供了AI驱动的替代方案,减少了对额外扫描的需求,具有广泛应用前景。

[83] Distribution-Conditional Generation: From Class Distribution to Creative Generation

Fu Feng,Yucheng Xie,Xu Yang,Jing Wang,Xin Geng

Main category: cs.CV

TL;DR: 提出了一种基于类别分布的生成方法DisTok,通过动态概念池和迭代采样融合,实现语义无约束的创造性图像生成。

  • Motivation: 现有T2I扩散模型受限于训练数据分布,难以生成真正新颖的概念。现有方法通过组合已知概念增强创造力,但仍局限于现有语义空间。
  • Method: 提出Distribution-Conditional Generation框架,结合DisTok编码器-解码器,动态维护概念池并迭代采样融合概念对,生成与复杂类别分布对齐的token。
  • Result: DisTok在文本-图像对齐和人类偏好评分上达到SOTA性能,实现了高效灵活的token级生成。
  • Conclusion: DisTok通过分布条件融合和采样合成,为创造性图像生成提供了新思路。

[84] CaRaFFusion: Improving 2D Semantic Segmentation with Camera-Radar Point Cloud Fusion and Zero-Shot Image Inpainting

Huawei Sun,Bora Kunter Sahin,Georg Stettinger,Maximilian Bernhard,Matthias Schubert,Robert Wille

Main category: cs.CV

TL;DR: 提出了一种结合扩散模型和相机-雷达融合架构的新方法,用于恶劣天气条件下的语义分割,显著提升了性能。

  • Motivation: 相机在恶劣天气下性能下降,雷达数据稀疏且噪声多,融合两者可提升环境感知能力。
  • Method: 利用雷达点特征生成伪掩码,通过噪声减少单元优化,并结合扩散模型生成修复图像。
  • Result: 在Waterscenes数据集上,相机基线提升2.63% mIoU,融合架构提升1.48% mIoU。
  • Conclusion: 该方法有效提升了恶劣天气下的语义分割性能,证明了相机-雷达融合的潜力。

[85] Matching Distance and Geometric Distribution Aided Learning Multiview Point Cloud Registration

Shiqi Li,Jihua Zhu,Yifan Xie,Naiwen Hu,Di Wang

Main category: cs.CV

TL;DR: 本文提出了一种基于网络模型的多视角点云配准方法,通过匹配距离提取可靠对构建位姿图,并利用数据驱动方式计算绝对位姿。

  • Motivation: 多视角点云配准在机器人、自动化和计算机视觉领域至关重要,但现有方法在构建位姿图和运动同步方面存在不可靠问题。
  • Method: 设计了两个神经网络模型:一个用于从点云对的匹配距离中提取可靠对构建位姿图,另一个用于数据驱动计算绝对位姿,结合几何分布信息和改进的注意力机制。
  • Result: 在多种室内外数据集上的实验验证了方法的有效性和泛化能力。
  • Conclusion: 该方法通过数据驱动和注意力机制提升了多视角点云配准的可靠性和灵活性。

[86] Fill the Gap: Quantifying and Reducing the Modality Gap in Image-Text Representation Learning

François Role,Sébastien Meyer,Victor Amblard

Main category: cs.CV

TL;DR: 该论文提出了一种新的方法来评估和减少视觉语言模型中的模态间隙问题,通过谱方法和最优传输方法,显著提升了多模态任务的性能。

  • Motivation: 视觉语言模型(VLMs)存在模态间隙问题,导致文本和图像嵌入在共享表示空间中分离,这对多模态检索、聚类等任务产生负面影响。目前缺乏通用且实用的方法来评估和减少这种间隙。
  • Method: 论文提出了基于谱方法和最优传输技术的新方法,用于精确评估和减少模态间隙。
  • Result: 在多个图像-文本数据集和模型上的实验表明,这些方法有效且对下游任务有积极影响。
  • Conclusion: 提出的方法成功解决了模态间隙问题,显著提升了多模态任务的性能,代码已公开。

[87] DISARM++: Beyond scanner-free harmonization

Luca Caldera,Lara Cavinato,Alessio Cirone,Isabella Cama,Sara Garbarino,Raffaele Lodi,Fabrizio Tagliavini,Anna Nigri,Silvia De Francesco,Andrea Cappozzo,Michele Piana,Francesca Ieva

Main category: cs.CV

TL;DR: 该论文提出了一种新的T1加权MR图像跨扫描仪标准化方法,通过两种方式实现图像转换,并在多种应用中验证了其优越性。

  • Motivation: 解决不同扫描仪间T1加权MR图像的不一致性问题,确保下游分析的可靠性。
  • Method: 通过映射图像到无扫描仪空间或特定扫描仪域,实现图像标准化,无需复杂预处理。
  • Result: 在脑年龄预测、AD分类等应用中表现优异(R2=0.60,AUC=0.95),优于现有方法。
  • Conclusion: 该方法提供了一种高效、稳健的解决方案,适用于多样化的神经影像研究。

[88] FlexiAct: Towards Flexible Action Control in Heterogeneous Scenarios

Shiyi Zhang,Junhao Zhuang,Zhaoyang Zhang,Ying Shan,Yansong Tang

Main category: cs.CV

TL;DR: FlexiAct提出了一种新方法,通过RefAdapter和FAE技术,实现了在保持身份一致性的同时,将参考视频中的动作灵活转移到任意目标图像上。

  • Motivation: 现有方法在空间结构(如布局、骨架和视角)上存在严格限制,限制了其适应性和灵活性。FlexiAct旨在克服这些限制。
  • Method: FlexiAct结合了RefAdapter(轻量级图像条件适配器)和FAE(频率感知动作提取),实现了动作控制和空间结构适应。
  • Result: 实验表明,FlexiAct能有效将动作转移到具有不同布局、骨架和视角的目标图像上。
  • Conclusion: FlexiAct在保持身份一致性的同时,提供了更高的结构灵活性,优于现有方法。

[89] Multi-Agent System for Comprehensive Soccer Understanding

Jiayuan Rao,Zifeng Li,Haoning Wu,Ya Zhang,Yanfeng Wang,Weidi Xie

Main category: cs.CV

TL;DR: 论文提出一个全面的足球理解框架,包括构建SoccerWiki知识库、SoccerBench基准测试、SoccerAgent多智能体系统,并通过实验验证其优越性。

  • Motivation: 现有AI驱动的足球理解研究多集中于孤立任务,缺乏全面性。
  • Method: 构建SoccerWiki知识库、SoccerBench基准测试,开发SoccerAgent多智能体系统。
  • Result: SoccerAgent在SoccerBench上表现优越,验证了框架的有效性。
  • Conclusion: 提出的框架填补了足球理解研究的空白,数据与代码已公开。

cs.AI

[90] Iterative Resolution of Prompt Ambiguities Using a Progressive Cutting-Search Approach

Fabrizio Marozzo

Main category: cs.AI

TL;DR: 提出了一种通过迭代澄清问题解决自然语言指令模糊性的方法,显著提高了生成AI系统的准确性和用户满意度。

  • Motivation: 自然语言的模糊性导致用户需要多次测试和修正提示,影响效率和体验。
  • Method: 采用结构化澄清问题和替代方案提案,结合输入/输出示例,逐步消除不确定性。
  • Result: 在编码、数据分析和创意写作等任务中,方法表现出更高的准确性、竞争性解决时间和用户满意度。
  • Conclusion: 迭代方法优于传统一次性解决方案,减少了手动迭代需求,提升了生成结果的精确度。

[91] The Multimodal Paradox: How Added and Missing Modalities Shape Bias and Performance in Multimodal AI

Kishore Sampath,Pratheesh,Ayaazuddin Mohammad,Resmi Ramachandranpillai

Main category: cs.AI

TL;DR: 多模态学习通过整合多种数据源(如图像、文本和结构化数据)在高风险决策中表现优于单模态方法。然而,性能提升虽然是评估标准,但偏见和鲁棒性问题常被忽视。本文探讨了两个关键问题:新模态是否一致提升性能及公平性,以及模态缺失对模型性能和公平性的影响。实验表明,新模态提升性能但公平性因评估指标和数据集而异,模态缺失会降低性能和公平性。

  • Motivation: 多模态学习在高风险决策中表现优异,但对其公平性和鲁棒性的研究不足。本文旨在填补这一空白,探讨多模态模型的性能和公平性。
  • Method: 通过分析多模态模型的性能和公平性,研究新模态的影响及模态缺失的后果。实验基于包含图像、时间序列和结构化数据的医疗数据集。
  • Result: 新模态一致提升性能,但公平性表现不一;模态缺失会降低性能和公平性。
  • Conclusion: 多模态学习需关注公平性和鲁棒性,尤其是在模态缺失的实际应用中。

[92] Evaluating the Impact of AI-Powered Audiovisual Personalization on Learner Emotion, Focus, and Learning Outcomes

George Xi Wang,Jingying Deng,Safinah Ali

Main category: cs.AI

TL;DR: 论文提出了一种基于大语言模型(LLM)的个性化多感官学习环境系统,旨在通过定制化的视听元素提升学习者的专注力和情绪稳定性。

  • Motivation: 独立学习者在非结构化或干扰环境中难以保持专注和情绪调节,现有教育技术忽视学习的情感与感官背景。
  • Method: 利用LLM生成个性化视听学习环境,结合生物特征测量和绩效结果进行混合方法研究。
  • Result: 研究评估了LLM驱动的感官个性化对认知负荷和学习投入的影响。
  • Conclusion: 研究旨在推动情感响应教育技术的发展,并扩展多模态LLM在自主学习感官维度的应用。

[93] BLAB: Brutally Long Audio Bench

Orevaoghene Ahia,Martijn Bartelds,Kabir Ahuja,Hila Gonen,Valentin Hofmann,Siddhant Arora,Shuyue Stella Li,Vishal Puttagunta,Mofetoluwa Adeyemi,Charishma Buchireddy,Ben Walls,Noah Bennett,Shinji Watanabe,Noah A. Smith,Yulia Tsvetkov,Sachin Kumar

Main category: cs.AI

TL;DR: BLAB是一个针对长音频语言模型的挑战性基准测试,揭示了现有模型在长音频任务中的表现不足。

  • Motivation: 开发能够理解多样化语音交互的大型音频语言模型,以提高语言技术的可访问性。
  • Method: 引入BLAB基准测试,包含833+小时的长音频片段和人工标注的问题与答案,评估六种音频语言模型。
  • Result: 所有测试模型在长音频任务中表现不佳,性能随音频时长增加而下降。
  • Conclusion: BLAB为开发具有长音频理解能力的音频语言模型提供了挑战性框架。

[94] Is AI currently capable of identifying wild oysters? A comparison of human annotators against the AI model, ODYSSEE

Brendan Campbell,Alan Williams,Kleio Baxevani,Alyssa Campbell,Rushabh Dhoke,Rileigh E. Hudock,Xiaomin Lin,Vivek Mange,Bernhard Neuberger,Arjun Suresh,Alhim Vera,Arthur Trembanis,Herbert G. Tanner,Edward Hale

Main category: cs.AI

TL;DR: 论文提出ODYSSEE模型,利用深度学习识别活牡蛎,但准确性(63%)低于专家(74%)和非专家(75%)。图像质量是关键因素,未来需改进模型训练以提高预测能力。

  • Motivation: 当前牡蛎礁监测方法破坏性强且耗时,ODYSSEE模型旨在通过非破坏性图像分析提高效率。
  • Method: 使用深度学习技术分析牡蛎礁图像,并与专家和非专家的标注结果对比。
  • Result: 模型预测速度更快(39.6秒),但准确性较低(63%)。图像质量影响模型和人类标注的准确性。
  • Conclusion: ODYSSEE模型目前准确性不足,但通过改进图像质量和训练数据,未来有望提升预测能力。

[95] Holmes: Automated Fact Check with Large Language Models

Haoran Ou,Gelei Deng,Xingshuo Han,Jie Zhang,Xinlei He,Han Qiu,Shangwei Guo,Tianwei Zhang

Main category: cs.AI

TL;DR: 论文提出Holmes框架,结合LLMs和新型证据检索方法,显著提升多模态虚假信息检测的准确性。

  • Motivation: 互联网虚假信息传播威胁社会信任与安全,现有方法难以应对多模态复杂性,需探索LLMs的潜力。
  • Method: 提出Holmes框架,结合LLM摘要提取关键信息,设计算法评估证据质量,辅助LLMs验证信息。
  • Result: Holmes在开源数据集和实时验证任务中分别达到88.3%和90.2%的准确率,证据检索提升30.8%。
  • Conclusion: Holmes框架有效解决LLMs在虚假信息检测中的局限性,显著提升性能,为多模态检测提供新思路。

[96] CombiBench: Benchmarking LLM Capability for Combinatorial Mathematics

Junqi Liu,Xiaohan Lin,Jonas Bayer,Yael Dillies,Weijie Jiang,Xiaodan Liang,Roman Soletskyi,Haiming Wang,Yunzhou Xie,Beibei Xiong,Zhengfeng Yang,Jujian Zhang,Lihong Zhi,Jia Li,Zhengying Liu

Main category: cs.AI

TL;DR: 该论文介绍了CombiBench,一个包含100个组合问题的综合基准,用于测试组合数学领域的推理能力,并提出了Fine-Eval评估框架。实验表明,当前LLM在解决组合问题方面表现有限。

  • Motivation: 组合数学领域缺乏合适的基准和定理库,限制了神经符号方法在该领域的发展。
  • Method: 引入CombiBench基准和Fine-Eval评估框架,使用Kimina Lean Server作为后端,测试多个LLM的性能。
  • Result: Kimina-Prover表现最佳,解决了7个问题(共100个),其他模型表现有限。
  • Conclusion: CombiBench填补了组合数学领域的基准空白,但当前LLM在解决组合问题方面仍需改进。

[97] Patterns and Mechanisms of Contrastive Activation Engineering

Yixiong Hao,Ayush Panda,Stepan Shabalin,Sheikh Abdur Raheem Ali

Main category: cs.AI

TL;DR: 对比激活工程(CAE)是一种零成本、推理时调整大语言模型(LLM)行为的新方法,但其有效性受限于分布内场景,且存在样本数量收益递减、对抗输入易损性、模型困惑度下降等问题。

  • Motivation: 解决大语言模型行为控制的复杂性和不透明性问题,探索更灵活的任务特定调整方法。
  • Method: 采用对比激活工程技术,通过修改模型内部表示来引导输出,并在分布内和分布外场景中评估其性能。
  • Result: CAE在分布内场景有效,但样本数量超过80后收益递减,易受对抗输入影响,且会降低模型困惑度,大模型对此类调整更具抵抗力。
  • Conclusion: CAE为LLM行为调整提供了新思路,但需谨慎部署,需进一步研究其局限性和优化方法。

[98] RAG-MCP: Mitigating Prompt Bloat in LLM Tool Selection via Retrieval-Augmented Generation

Tiantian Gan,Qiyao Sun

Main category: cs.AI

TL;DR: RAG-MCP框架通过语义检索减少提示词数量并提高工具选择准确性,显著优化LLM的外部工具使用效率。

  • Motivation: 解决大型语言模型(LLM)因提示词膨胀和选择复杂性难以有效利用外部工具的问题。
  • Method: 引入RAG-MCP框架,通过语义检索从外部索引中识别最相关的工具描述,仅将选中的工具传递给LLM。
  • Result: 实验显示RAG-MCP显著减少提示词数量(如超过50%)并大幅提高工具选择准确性(43.13% vs 13.62%基线)。
  • Conclusion: RAG-MCP为LLM提供了可扩展且准确的外部工具集成方案。

[99] Capability-Driven Skill Generation with LLMs: A RAG-Based Approach for Reusing Existing Libraries and Interfaces

Luis Miguel Vieira da Silva,Aljosha Köcher,Nicolas König,Felix Gehlhoff,Alexander Fay

Main category: cs.AI

TL;DR: 提出一种利用大语言模型基于自然语言输入生成符合能力合约的技能实现代码的方法,整合现有软件库和接口技术,支持多目标语言。

  • Motivation: 现代自动化系统依赖模块化架构,但技能实现开发耗时且复杂,需简化流程。
  • Method: 将能力视为合约,利用大语言模型生成代码,结合检索增强生成架构整合用户自定义库和接口。
  • Result: 通过Python和ROS 2控制的自主移动机器人验证了方法的可行性和灵活性。
  • Conclusion: 该方法显著简化技能实现开发,支持跨语言和多技术集成。

[100] Artificial Behavior Intelligence: Technology, Challenges, and Future Directions

Kanghyun Jo,Jehwan Choi,Kwanho Kim,Seongmin Kim,Duy-Linh Nguyen,Xuan-Thuy Vo,Adri Priadana,Tien-Dat Tran

Main category: cs.AI

TL;DR: 本文提出人工行为智能(ABI)技术框架,用于分析和解释人类行为,并探讨了预训练模型在提升行为识别准确性和可解释性中的作用。

  • Motivation: 理解和预测人类行为在自动驾驶、智能医疗等领域至关重要,ABI旨在通过技术手段实现这一目标。
  • Method: ABI框架包括姿态估计、面部和情绪识别、行为序列分析和上下文感知建模,并利用预训练模型优化性能。
  • Result: 研究团队正在开发轻量级模型以高效推断复杂行为,并探索优化策略以应对实际应用中的技术挑战。
  • Conclusion: ABI在现实应用中面临数据有限、行为预测不确定性等挑战,需通过轻量化模型和优化策略解决。

[101] AI-Driven Scholarly Peer Review via Persistent Workflow Prompting, Meta-Prompting, and Meta-Reasoning

Evgeny Markhasin

Main category: cs.AI

TL;DR: 论文提出了一种名为Persistent Workflow Prompting (PWP)的方法,用于改进大型语言模型(LLMs)在科学手稿同行评审中的表现,通过结构化提示工程实现复杂的专家级分析。

  • Motivation: 科学手稿的同行评审对LLMs具有挑战性,主要由于数据限制和专家推理的复杂性。PWP旨在填补这一空白,利用标准LLM接口实现零代码、无需API的复杂分析。
  • Method: PWP采用分层、模块化的架构(通过Markdown结构化),通过元提示技术和元推理迭代开发,定义了详细的评审工作流程,包括隐性知识。
  • Result: PWP引导的LLM在测试案例中成功识别主要方法缺陷,减少输入偏见,并执行复杂任务(如区分主张与证据、多模态分析等)。
  • Conclusion: PWP展示了利用现有LLM进行复杂科学分析的潜力,同时提供了透明的工作流程和可复现的资源。

[102] Domain Adversarial Training for Mitigating Gender Bias in Speech-based Mental Health Detection

June-Woo Kim,Haram Yoon,Wonkyo Oh,Dawoon Jung,Sung-Hoon Yoon,Dae-Jin Kim,Dong-Ho Lee,Sang-Yeol Lee,Chan-Mo Yang

Main category: cs.AI

TL;DR: 论文提出了一种基于领域对抗训练的方法,用于减少语音AI模型在抑郁和PTSD检测中的性别偏见,显著提升了检测性能。

  • Motivation: 语音AI模型在抑郁和PTSD检测中存在性别偏见,导致预测不公和不准。
  • Method: 采用领域对抗训练方法,将不同性别视为不同领域,并将其信息整合到预训练的语音基础模型中。
  • Result: 在E-DAIC数据集上验证,F1分数比基线提高了13.29个百分点。
  • Conclusion: 研究强调了在AI驱动的心理健康评估中解决人口统计学差异的重要性。

[103] Validating the Effectiveness of a Large Language Model-based Approach for Identifying Children's Development across Various Free Play Settings in Kindergarten

Yuanyuan Yang,Yuan Shen,Tianchen Sun,Yangbin Xie

Main category: cs.AI

TL;DR: 研究提出结合大语言模型(LLM)和学习分析技术,通过分析儿童游戏自述来评估其发展能力,结果显示该方法在多个领域准确率超过90%。

  • Motivation: 自由游戏对儿童发展至关重要,但传统评估方法难以全面捕捉其发展情况,需要更高效、准确的评估工具。
  • Method: 结合LLM和学习分析技术,分析2,224份儿童游戏自述,评估认知、运动和社交能力。
  • Result: LLM方法在多数领域准确率超过90%,不同游戏环境对儿童发展有显著差异。
  • Conclusion: 该方法为儿童发展评估提供了高效工具,支持个性化学习和早期教育实践。

[104] Procedural Memory Is Not All You Need: Bridging Cognitive Gaps in LLM-Based Agents

Schaun Wheeler,Olivier Jeunen

Main category: cs.AI

TL;DR: LLMs在文本生成、代码补全等任务中表现出色,但其依赖程序性记忆限制了在复杂环境中的应用。论文提出通过结合语义记忆和联想学习系统,增强LLMs的适应性。

  • Motivation: LLMs在复杂、不可预测环境中的局限性日益明显,需要突破程序性记忆的依赖,以实现更广泛的适应性。
  • Method: 采用模块化架构,将程序性记忆与语义记忆和联想学习系统分离,以增强LLMs的适应性。
  • Result: 通过模块化设计,LLMs可以更好地应对规则变化、模糊反馈和新颖情境的挑战。
  • Conclusion: 结合语义记忆和联想学习系统是提升LLMs在复杂环境中适应能力的关键。

[105] The Steganographic Potentials of Language Models

Artem Karpov,Tinuade Adeleke,Seong Hah Cho,Natalia Perez-Campanero

Main category: cs.AI

TL;DR: 论文探讨了大型语言模型(LLMs)通过强化学习(RL)微调后的隐写能力,发现当前模型在信息隐藏方面具有初步能力,但显式算法指导能显著提升其性能。

  • Motivation: 研究LLMs通过隐写术隐藏信息的能力,以应对未对齐AI代理的检测和防范问题,并探讨其对LLMs推理忠实性的影响。
  • Method: 通过强化学习微调LLMs,开发隐蔽编码方案,并在提示和非提示场景下评估其隐写能力。
  • Result: 实验表明,当前模型在安全性和容量方面具有初步隐写能力,但显式算法指导能显著提升其信息隐藏能力。
  • Conclusion: LLMs具备隐写潜力,但需进一步优化以提升其隐蔽性和实用性。

[106] am-ELO: A Stable Framework for Arena-based LLM Evaluation

Zirui Liu,Jiatong Li,Yan Zhuang,Qi Liu,Shuanghong Shen,Jie Ouyang,Mingyue Cheng,Shijin Wang

Main category: cs.AI

TL;DR: 本文提出了一种新的稳定竞技场框架,通过改进ELO评分系统解决现有框架中的不稳定问题,并引入考虑标注者能力的改进方法。

  • Motivation: 现有基于ELO评分系统的框架存在排名不一致和忽视标注者能力差异的问题,导致评估不稳定。
  • Method: 提出m-ELO方法,用最大似然估计替代迭代更新,并改进ELO评分概率函数以纳入标注者能力(am-ELO)。
  • Result: 实验证明该方法提高了稳定性,为大型语言模型提供了更鲁棒、准确和稳定的评估。
  • Conclusion: 新框架解决了现有问题,为AI模型评估提供了更可靠的方法。

[107] STORY2GAME: Generating (Almost) Everything in an Interactive Fiction Game

Eric Zhou,Shreyas Basavatia,Moontashir Siam,Zexin Chen,Mark O. Riedl

Main category: cs.AI

TL;DR: STORY2GAME利用大型语言模型生成文本互动小说游戏,通过生成故事、填充世界并构建游戏引擎代码,实现开放式故事生成和动态动作生成。

  • Motivation: 传统硬编码动作可能限制故事生成,STORY2GAME旨在通过动态生成动作和状态跟踪,实现更开放且交互性强的游戏体验。
  • Method: 利用LLM生成动作的前置条件和效果,指导游戏引擎跟踪和修改游戏状态;动态生成新动作以满足玩家需求。
  • Result: 评估动作代码生成的成功率,确保玩家能完整交互体验生成的故事。
  • Conclusion: STORY2GAME通过动态动作生成和状态管理,实现了开放式故事生成和交互式游戏体验。

[108] A Hashgraph-Inspired Consensus Mechanism for Reliable Multi-Model Reasoning

Kolawole E. Ogunsina,Morayo A. Ogunsina

Main category: cs.AI

TL;DR: 论文提出了一种基于分布式账本技术的共识机制,用于解决大型语言模型输出不一致和幻觉问题,通过Hashgraph算法实现模型间的共识。

  • Motivation: 不同专有推理模型(如OpenAI、Google等)在相同复杂请求下输出不一致,影响AI系统可靠性。
  • Method: 采用Hashgraph共识算法,通过gossip-about-gossip通信和虚拟投票实现模型间的共识,迭代更新答案以提高准确性。
  • Result: 初步验证了Hashgraph共识在AI集成中的可行性,优于传统集成方法,减少非事实输出。
  • Conclusion: 该机制为多智能体AI系统提供了一种自我验证和高保真响应的新方向。

[109] OSUniverse: Benchmark for Multimodal GUI-navigation AI Agents

Mariya Davydova,Daniel Jeffries,Patrick Barker,Arturo Márquez Flores,Sinéad Ryan

Main category: cs.AI

TL;DR: OSUniverse是一个针对GUI导航AI代理的多模态桌面任务基准测试,强调易用性、可扩展性和自动化验证,旨在衡量AI代理的能力和进步。

  • Motivation: 为GUI导航AI代理提供一个全面且易于使用的基准测试,以评估其复杂任务处理能力。
  • Method: 将任务按复杂度分级,从基础点击到多步骤多应用任务,并引入自动化验证机制。
  • Result: 当前SOTA代理的准确率不超过50%,而普通白领可完美完成任务,自动化验证误差率低于2%。
  • Conclusion: OSUniverse为GUI导航AI代理的能力评估提供了可靠且自动化的基准测试工具。

[110] Synthesizing Images on Perceptual Boundaries of ANNs for Uncovering and Manipulating Human Perceptual Variability

Chen Wei,Chi Zhang,Jiachen Zou,Haotian Deng,Dietmar Heinke,Quanying Liu

Main category: cs.AI

TL;DR: 论文提出BAM框架,结合ANN的感知边界采样和人类行为实验,研究人类决策变异性,并通过实验验证其有效性。

  • Motivation: 理解人类在不确定性和模糊性下的决策变异性,揭示感知和决策机制。
  • Method: 结合ANN的感知边界采样算法生成刺激,通过大规模行为实验(246名参与者,116,715次试验)验证,并构建variMNIST数据集。
  • Result: 通过个性化模型对齐和对抗生成,能预测并操纵参与者间的感知决策差异。
  • Conclusion: BAM框架填补了计算模型与人类个体差异研究的空白,为个性化感知分析提供了新工具。

[111] BURNS: Backward Underapproximate Reachability for Neural-Feedback-Loop Systems

Chelsea Sidrane,Jana Tumova

Main category: cs.AI

TL;DR: 提出一种计算非线性离散时间神经反馈环路后向可达集的算法,用于验证目标可达性,并通过混合整数线性规划实现。

  • Motivation: 学习驱动的规划与控制算法缺乏严格的性能或安全性保证,需要扩展可验证属性的范围。
  • Method: 通过过近似系统动态函数,利用混合整数线性规划计算后向可达集。
  • Result: 算法在数值示例中得到验证,扩展了学习驱动系统的可验证属性类别。
  • Conclusion: 该算法为学习驱动系统提供了更严格的可验证性保障。

[112] Learning Symbolic Persistent Macro-Actions for POMDP Solving Over Time

Celeste Veronese,Daniele Meli,Alessandro Farinelli

Main category: cs.AI

TL;DR: 提出一种结合时间逻辑推理和POMDP的方法,通过生成持久宏动作实现可解释的决策,显著减少推理时间并提升性能。

  • Motivation: 在不确定性环境下实现可解释的决策,同时减少计算负担。
  • Method: 利用基于事件演算的LTL片段生成持久宏动作,结合MCTS求解POMDP,并通过ILP从少量执行轨迹中学习宏动作。
  • Result: 在Pocman和Rocksample基准测试中,学习的宏动作表现出更强的表达力和通用性,显著提升计算效率。
  • Conclusion: 该方法通过自动学习宏动作,避免了手动设计启发式规则,同时提升了决策效率和性能。

[113] Gap the (Theory of) Mind: Sharing Beliefs About Teammates' Goals Boosts Collaboration Perception, Not Performance

Yotam Amitai,Reuth Mirsky,Ofra Amir

Main category: cs.AI

TL;DR: 研究探讨AI代理通过共享对人类队友目标的理解是否能提升任务表现和协作感知,发现目标共享虽未显著改善任务表现,但支持战略调整和协作感知。

  • Motivation: 在人类与AI团队中,直接沟通目标不可行时,AI能否通过共享推断的目标理解提升协作效果。
  • Method: 实验比较三种条件:无识别(NR)、可行目标(VG)和按需可行目标(VGod)。
  • Result: 目标共享未显著提升任务表现或满意度,但支持战略调整和协作感知,且未增加认知负担。
  • Conclusion: 目标共享在信任和协作感知上有益,但需平衡信息量与简洁性,可能偶尔阻碍客观表现提升。

[114] Graph Drawing for LLMs: An Empirical Evaluation

Walter Didimo,Fabrizio Montecchiani,Tommaso Piselli

Main category: cs.AI

TL;DR: 研究探讨了大型语言模型(LLMs)在图相关任务中的表现,重点关注视觉模态(图形绘制)对模型性能的影响,包括布局范式、图形美观性和提示技术。

  • Motivation: 探索LLMs在图任务中的表现,特别是视觉输入(图形绘制)如何影响模型性能,以优化实际应用效果。
  • Method: 通过实验分析,研究了布局范式、图形美观性和提示技术对LLMs性能的影响,并提出了三个研究问题。
  • Result: 研究发现,选择合适的布局范式和优化图形可读性可显著提升模型性能,而提示技术的选择对性能至关重要。
  • Conclusion: 优化视觉输入和提示技术是提升LLMs在图任务中性能的关键因素。

cs.LG

[115] Uncertainty Quantification for Machine Learning in Healthcare: A Survey

L. Julián Lechuga López,Shaza Elsharief,Dhiyaa Al Jorf,Firas Darwish,Congbo Ma,Farah E. Shamout

Main category: cs.LG

TL;DR: 本文综述了不确定性量化(UQ)在医疗机器学习(ML)中的应用,分析了现有方法的局限性,并提出了一个框架,指导UQ在ML流程中的集成。

  • Motivation: 当前医疗ML系统缺乏对不确定性的量化,限制了其可靠性和临床应用。本文旨在填补这一空白,提供系统性的分析和框架。
  • Method: 通过全面分析现有UQ方法,提出一个框架,展示如何在不同ML阶段(数据处理、训练、评估)集成UQ。
  • Result: 总结了医疗领域常用的UQ方法,并提出了其他领域潜在适用的新方法。
  • Conclusion: 本文为医疗ML中UQ的挑战和机遇提供了清晰概述,指导研究者和从业者选择合适技术以提升系统可靠性和信任度。

[116] A Wireless Collaborated Inference Acceleration Framework for Plant Disease Recognition

Hele Zhu,Xinyi Huang,Haojia Gao,Mengfei Jiang,Haohua Que,Lei Mu

Main category: cs.LG

TL;DR: 提出了一种基于边缘设备与云服务器协作的植物病害识别框架,通过深度强化学习剪枝模型并优化分割点,显著提升推理速度。

  • Motivation: 传统手动识别方法效率低且成本高,深度学习模型在资源受限设备上运行困难,云服务器通信带宽受限,影响推理效率。
  • Method: 使用深度强化学习剪枝DNN模型,通过贪婪策略确定最优分割点,实现协作推理加速。
  • Result: 实验表明,该框架显著提升推理速度,同时保持可接受的识别精度。
  • Conclusion: 该框架为快速诊断和预防植物病害提供了新解决方案。

[117] Rewriting Pre-Training Data Boosts LLM Performance in Math and Code

Kazuki Fujii,Yukito Tajima,Sakae Mizuki,Hinari Shimada,Taihei Shiotani,Koshiro Saito,Masanari Ohi,Masaki Kawamura,Taishi Nakamura,Takumi Okamoto,Shigeki Ishida,Kakeru Hattori,Youmi Ma,Hiroya Takamura,Rio Yokota,Naoaki Okazaki

Main category: cs.LG

TL;DR: 论文介绍了两个公开数据集SwallowCode和SwallowMath,通过系统重写公共数据显著提升LLM在程序合成和数学推理中的性能。

  • Motivation: 大型语言模型在程序合成和数学推理中的性能受限于预训练语料的质量,因此需要高质量的数据集来提升模型能力。
  • Method: SwallowCode通过四阶段管道(语法验证、风格过滤、两阶段LLM重写)优化Python代码;SwallowMath通过去除冗余、恢复上下文和格式化步骤增强数学数据。
  • Result: 在固定训练预算下,使用SwallowCode和SwallowMath分别显著提升了HumanEval、GSM8K等基准测试的性能。
  • Conclusion: 公开的数据集和流程为LLM预训练提供了可复现的研究基础,推动了专业领域的发展。

[118] Unlearning vs. Obfuscation: Are We Truly Removing Knowledge?

Guangzhi Sun,Potsawee Manakul,Xiao Zhan,Mark Gales

Main category: cs.LG

TL;DR: 论文区分了遗忘与混淆的概念,提出了一种基于探测的评估框架,并介绍了一种新方法DF-MCQ,通过KL散度实现知识遗忘,实验表明其效果优于混淆方法。

  • Motivation: 支持数据隐私、法规合规和伦理AI部署,需要LLMs具备真正的遗忘能力,而非混淆。
  • Method: 提出DF-MCQ方法,利用KL散度在自动生成的多选题上扁平化模型预测分布,实现知识遗忘。
  • Result: DF-MCQ在探测问题上的拒绝率超过90%,不确定性显著高于混淆方法。
  • Conclusion: DF-MCQ是一种有效的知识遗忘方法,优于传统混淆技术。

[119] When Your Own Output Becomes Your Training Data: Noise-to-Meaning Loops and a Formal RSI Trigger

Rintaro Ando

Main category: cs.LG

TL;DR: N2M-RSI是一个形式化模型,表明AI代理在反馈自身输出并跨越信息整合阈值后,其内部复杂性将无限增长。

  • Motivation: 探索AI代理通过自我反馈实现无限复杂性增长的可能性,并统一自我提示、自引用和自动机器学习等概念。
  • Method: 提出一个实现无关的形式化模型,结合自我反馈、信息整合阈值和代理交互。
  • Result: 模型显示AI代理在满足条件后内部复杂性会无限增长,且多代理交互可能产生超线性效应。
  • Conclusion: N2M-RSI为AI自我改进提供了理论框架,但出于安全考虑未公开具体实现细节。

[120] Early Prediction of Sepsis: Feature-Aligned Transfer Learning

Oyindolapo O. Komolafe,Zhimin Mei,David Morales Zarate,Gregory William Spangenberg

Main category: cs.LG

TL;DR: 提出了一种名为FATL的机器学习方法,用于早期预测脓毒症,通过特征对齐和迁移学习解决现有模型的特征不一致和群体偏差问题。

  • Motivation: 脓毒症早期检测对挽救生命至关重要,但现有诊断方法往往在病情严重后才识别。现有模型特征不一致且存在群体偏差,限制了其应用。
  • Method: 开发了FATL方法,专注于重要且常见的特征,结合多群体模型知识,采用加权方法提高泛化能力。
  • Result: FATL提供了一种一致且临床相关的模型,适用于不同医院和患者群体,尤其适合资源有限的医院。
  • Conclusion: FATL为早期脓毒症检测提供了实用且可扩展的解决方案,有望改善患者预后并降低医疗成本。

[121] Null Counterfactual Factor Interactions for Goal-Conditioned Reinforcement Learning

Caleb Chuck,Fan Feng,Carl Qi,Chang Shi,Siddhant Agarwal,Amy Zhang,Scott Niekum

Main category: cs.LG

TL;DR: HInt结合交互与后见之目标重标记,提升目标导向强化学习在物体中心领域的样本效率。

  • Motivation: 后见之目标重标记在物体中心领域表现不佳,因无效轨迹干扰学习。
  • Method: 提出HInt方法,结合交互与后见之目标重标记,并定义交互为基于零反事实的因果关系。
  • Result: NCII显著提升交互推断准确性,HInt将样本效率提升至4倍。
  • Conclusion: HInt通过交互定义和推断,有效解决了物体中心领域的样本效率问题。

[122] Physics-inspired Energy Transition Neural Network for Sequence Learning

Zhou Wu,Junyi An,Baile Xu,Furao Shen,Jian Zhao

Main category: cs.LG

TL;DR: 本文提出了一种名为PETNN的新型循环神经网络结构,其灵感来源于物理能量转换模型,旨在解决传统RNN在长时依赖问题上的不足。实验表明,PETNN在多项序列任务中优于Transformer,且计算复杂度更低。

  • Motivation: 尽管Transformer在序列建模中表现优异,但其长时依赖能力主要依赖于复杂的配对建模过程,而非对序列语义的固有归纳偏置。本文旨在重新评估纯RNN的能力,并探索其在长时学习机制中的潜力。
  • Method: 受物理能量转换模型的启发,提出了一种名为PETNN的新型循环结构,其记忆机制能有效存储长时依赖信息。
  • Result: 实验结果表明,PETNN在多种序列任务中优于Transformer方法,且由于其循环特性,计算复杂度显著降低。
  • Conclusion: PETNN为循环神经网络提供了一种优化的基础架构,展示了在Transformer主导的领域中开发高效RNN的潜力。

[123] Absolute Zero: Reinforced Self-play Reasoning with Zero Data

Andrew Zhao,Yiran Wu,Yang Yue,Tong Wu,Quentin Xu,Yang Yue,Matthieu Lin,Shenzhi Wang,Qingyun Wu,Zilong Zheng,Gao Huang

Main category: cs.LG

TL;DR: 论文提出了一种名为Absolute Zero的新RLVR范式,通过自我生成任务和验证答案来提升推理能力,无需依赖外部数据。

  • Motivation: 解决现有RLVR方法依赖人工标注数据的局限性,尤其是在AI超越人类智能的未来,人工任务可能无法满足学习需求。
  • Method: 提出Absolute Zero Reasoner (AZR),通过代码执行器自我生成和验证任务,形成闭环学习系统。
  • Result: AZR在代码和数学推理任务上达到SOTA性能,优于依赖大量人工标注数据的零样本模型。
  • Conclusion: AZR展示了无外部数据依赖的自进化学习潜力,适用于不同模型规模和类型。

[124] SPAP: Structured Pruning via Alternating Optimization and Penalty Methods

Hanyu Hu,Xiaoming Yuan

Main category: cs.LG

TL;DR: SPAP是一种基于优化理论的结构化剪枝框架,通过混合整数优化模型和惩罚方法有效减少剪枝误差,显著提升大语言模型的推理速度和内存效率。

  • Motivation: 大语言模型的计算和内存需求高,现有剪枝方法存在性能下降、依赖启发式指标或微调成本高的问题。
  • Method: SPAP采用混合整数优化模型和惩罚方法,结合交替最小化算法,高效更新权重并恢复性能。
  • Result: 在多个模型上验证,SPAP在30%稀疏度下实现1.29倍推理加速和内存按比例减少,优于现有方法。
  • Conclusion: SPAP为高效剪枝大语言模型提供了优化驱动的实用解决方案,同时保持模型性能。

[125] Automatic Calibration for Membership Inference Attack on Large Language Models

Saleh Zare Zade,Yao Qiang,Xiangyu Zhou,Hui Zhu,Mohammad Amin Roshani,Prashant Khanduri,Dongxiao Zhu

Main category: cs.LG

TL;DR: 论文提出了一种名为ACMIA的新框架,通过可调温度校准输出概率,提高了成员推断攻击(MIA)的准确性和实用性。

  • Motivation: 现有方法在判断大型语言模型(LLM)预训练数据时误判率高或依赖额外参考模型,限制了实用性。
  • Method: ACMIA利用可调温度校准输出概率,基于最大似然估计的理论见解,设计了三种配置以适应不同模型访问级别。
  • Result: 实验表明ACMIA在多个开源LLM上表现优异,优于现有基准方法。
  • Conclusion: ACMIA是一种高效、鲁棒且通用的成员推断攻击方法,显著提升了推断可靠性。

[126] Framework GNN-AID: Graph Neural Network Analysis Interpretation and Defense

Kirill Lukyanov,Mikhail Drobyshevskiy,Georgii Sazonov,Mikhail Soloviov,Ilya Makarov

Main category: cs.LG

TL;DR: GNN-AID是一个开源的图神经网络框架,专注于图数据的可解释性和鲁棒性,提供攻击、防御和解释工具。

  • Motivation: 现有工具多忽视图数据,且很少将可解释性与鲁棒性结合。GNN-AID旨在填补这一空白。
  • Method: 基于PyTorch-Geometric构建,支持自定义接口、预加载数据集和模型,并提供可视化工具和MLOps支持。
  • Result: GNN-AID为开发者和研究者提供了灵活的工具,支持快速实验和高级研究,同时揭示了防御策略间的冲突。
  • Conclusion: GNN-AID是一个多功能框架,推动了图数据在可信AI中的应用,并开源供社区使用。

[127] ALMA: Aggregated Lipschitz Maximization Attack on Auto-encoders

Chethan Krishnamurthy Ramanaik,Arjun Roy,Eirini Ntoutsi

Main category: cs.LG

TL;DR: 该论文提出了一种基于层条件的对抗优化目标,用于增强深度自编码器的对抗鲁棒性评估,并通过实验验证其优于现有方法。

  • Motivation: 深度自编码器在关键应用中广泛使用,但其对抗鲁棒性研究相对不足,现有评估框架未能充分利用其脆弱性。
  • Method: 提出一种新的层条件对抗优化目标,通过增强梯度信息传播,引导对抗攻击到局部Lipschitz边界区域。
  • Result: 实验表明,该方法在通用和样本特定场景下均优于现有攻击方法。
  • Conclusion: 论文还提出了一种防御插件,通过对抗训练减轻对抗样本的影响。

[128] A new membership inference attack that spots memorization in generative and predictive models: Loss-Based with Reference Model algorithm (LBRM)

Faiz Taleb,Ivan Gazeau,Maryline Laurent

Main category: cs.LG

TL;DR: 论文提出了一种名为LBRM的算法,用于检测时间序列插值模型中的记忆化现象,显著提高了成员推断攻击的准确性。

  • Motivation: 生成模型可能无意中记忆训练数据,带来隐私风险,本文旨在解决时间序列插值模型中的这一问题。
  • Method: 提出LBRM算法,利用参考模型区分训练和测试数据,提高成员推断攻击的准确性。
  • Result: 未微调时AUROC提升约40%,微调后提升约60%,验证了方法的鲁棒性和通用性。
  • Conclusion: LBRM方法显著提升了检测准确性,有效应对时间序列插值模型的隐私风险。

[129] Rapid AI-based generation of coverage paths for dispensing applications

Simon Baeuerle,Ian F. Mendonca,Kristof Van Laerhoven,Ralf Mikut,Andreas Steimer

Main category: cs.LG

TL;DR: 提出了一种基于AI的方法,用于生成热界面材料(TIM)的涂布路径,替代传统高计算量的优化方法。

  • Motivation: 目前TIM涂布路径规划依赖专家手动或高计算量的优化方法,亟需更高效的解决方案。
  • Method: 使用人工神经网络(ANN),直接根据目标冷却区域生成涂布路径,无需标注数据。
  • Result: 生成的涂布路径可直接用于自动化制造设备,且无气泡问题。
  • Conclusion: 该方法可实时预测工艺参数,并可能推广至其他制造过程。

[130] Ergodic Generative Flows

Leo Maxime Brunswic,Mateo Clemente,Rui Heng Yang,Adam Sigal,Amir Rasouli,Yinchuan Li

Main category: cs.LG

TL;DR: 本文提出了Ergodic Generative Flows (EGFs),用于解决生成流网络(GFNs)在连续设置和模仿学习中的挑战,包括流匹配损失的计算困难和非周期性训练的限制。

  • Motivation: GFNs在连续设置和模仿学习中面临流匹配损失计算困难、非周期性训练测试不足以及需要单独奖励模型的问题,EGFs旨在解决这些问题。
  • Method: 利用遍历性构建简单的生成流,提出KL-weakFM损失用于模仿学习,无需单独奖励模型。
  • Result: 在2D任务和NASA真实数据集上评估了IL-EGFs,并在2D强化学习实验中验证了FM损失的有效性。
  • Conclusion: EGFs通过遍历性和新损失函数解决了GFNs的关键问题,扩展了其应用范围。

physics.soc-ph

[131] Taskmaster Deconstructed: A Quantitative Look at Tension, Volatility, and Viewer Ratings

David H. Silver

Main category: physics.soc-ph

TL;DR: 研究发现《Taskmaster》的评分动态与观众评分无显著关联,观众兴趣更多受选手行为影响。

  • Motivation: 探讨《Taskmaster》评分系统是否对观众参与度有实际影响。
  • Method: 对18季162集的15项指标进行统计分析,包括排名波动、分数差距等。
  • Result: 评分动态与IMDb评分无显著关联;长期趋势显示平均分上升,波动略降。
  • Conclusion: 观众兴趣主要由选手行为驱动,而非游戏机制。

[132] Floating Car Observers in Intelligent Transportation Systems: Detection Modeling and Temporal Insights

Jeremias Gerner,Klaus Bogenberger,Stefanie Schmidtner

Main category: physics.soc-ph

TL;DR: 论文探讨了Floating Car Observers (FCOs)在微观交通模拟中的建模方法,展示了其在智能交通系统中的应用潜力。

  • Motivation: 传统Floating Car Data (FCD)缺乏对其他交通参与者的检测能力,FCOs通过集成传感器提供了更丰富的交通数据。
  • Method: 研究采用了从2D光线追踪到高保真协同模拟的多种建模方法,并引入了一种基于神经网络的仿真技术。
  • Result: 实验表明,即使在20%的渗透率下,FCOs能识别65%的车辆;结合时间数据后,可恢复80%以上车辆。
  • Conclusion: FCOs在智能交通系统中具有显著潜力,尤其在交通状态估计和监测方面。

cs.CR

[133] Detecting Quishing Attacks with Machine Learning Techniques Through QR Code Analysis

Fouad Trad,Ali Chehab

Main category: cs.CR

TL;DR: 论文提出了一种基于QR码结构和像素模式的钓鱼检测框架,无需提取嵌入内容,通过机器学习模型实现高效检测。

  • Motivation: 传统基于URL的QR码钓鱼检测方法存在局限性,无法应对多种数据类型的恶意QR码,且可能暴露用户于恶意内容。
  • Method: 生成钓鱼与良性QR码数据集,训练多种机器学习模型(如XGBoost),分析QR码结构和像素模式。
  • Result: 最佳模型(XGBoost)AUC达0.9106,通过特征优化提升至0.9133,发现QR码结构与钓鱼风险强相关。
  • Conclusion: 直接QR分析为钓鱼防御提供了新方向,奠定了QR码钓鱼检测的基础。

[134] LlamaFirewall: An open source guardrail system for building secure AI agents

Sahana Chennabasappa,Cyrus Nikolaidis,Daniel Song,David Molnar,Stephanie Ding,Shengye Wan,Spencer Whitman,Lauren Deason,Nicholas Doucette,Abraham Montilla,Alekhya Gampa,Beto de Paola,Dominik Gabi,James Crnkovich,Jean-Christophe Testud,Kat He,Rashnil Chaturvedi,Wu Zhou,Joshua Saxe

Main category: cs.CR

TL;DR: LlamaFirewall是一个开源的安全防护框架,旨在为AI代理提供最后一层防御,解决大语言模型(LLMs)带来的安全风险。

  • Motivation: 随着LLMs能力的提升,现有安全措施无法完全应对其带来的新风险,如提示注入、代理错位和不安全代码生成。
  • Method: LlamaFirewall通过三个核心防护机制实现:PromptGuard 2(通用越狱检测器)、Agent Alignment Checks(代理对齐检查)和CodeShield(在线静态分析引擎)。
  • Result: 框架在防止提示注入、代理错位和不安全代码生成方面表现出色,尤其是PromptGuard 2在越狱检测上达到领先水平。
  • Conclusion: LlamaFirewall为开发者提供了一个灵活且高效的工具,能够实时监控和更新AI代理的安全防护措施。

cs.HC

[135] Cognitio Emergens: Agency, Dimensions, and Dynamics in Human-AI Knowledge Co-Creation

Xule Lin

Main category: cs.HC

TL;DR: 论文提出Cognitio Emergens(CE)框架,用于分析人类与AI在科学知识创造中的动态合作关系,强调角色、能力和组织结构的持续协商。

  • Motivation: 现有模型无法捕捉人类与AI在科学理解中的递归互动,CE框架旨在解决这一局限。
  • Method: CE框架整合三个组件:Agency Configurations(描述人类与AI的权威分配)、Epistemic Dimensions(捕捉合作中的能力特征)和Partnership Dynamics(识别关系演化的动力)。
  • Result: CE揭示了知识共创通过角色和价值的持续协商实现,为人类与AI的科学合作提供了平衡视角。
  • Conclusion: CE框架为维持人类参与并实现科学突破的合作关系提供了概念工具。

[136] Augmenting Human Cognition through Everyday AR

Xiaoan Liu

Main category: cs.HC

TL;DR: 探讨了始终开启的AR如何无缝连接数字认知与物理环境,提升人类任务表现和理解。

  • Motivation: 随着空间计算和多模态LLM的发展,AR逐渐成为直观的“思考工具”,将语义和上下文感知智能嵌入日常环境。
  • Method: 研究始终开启的AR技术,探索其如何实现主动、上下文敏感的交互。
  • Result: AR能够增强人类任务表现和理解。
  • Conclusion: 始终开启的AR有潜力成为连接数字与物理世界的智能工具。

[137] BCause: Human-AI collaboration to improve hybrid mapping and ideation in argumentation-grounded deliberation

Lucas Anastasiou,Anna De Liddo

Main category: cs.HC

TL;DR: BCause是一个结合生成式AI与人机协作的讨论系统,旨在将公共议题的无序对话转化为结构化、可操作的民主进程。

  • Motivation: 解决公共讨论中的分散、浅层问题,以及缺乏可操作性政策成果的挑战。
  • Method: 通过三项创新实现:(i)将无序文本转化为论证性讨论,(ii)通过Telegram机器人实现地理化问题感知,(iii)提供智能报告工具(如摘要、主题建模、政策建议)。
  • Result: 系统通过人机协作确保伦理监督、情境相关性和创造性综合。
  • Conclusion: BCause为公共讨论提供了结构化、可操作的工具,同时保留了人类参与的核心作用。

cs.MM

[138] Mitigating Image Captioning Hallucinations in Vision-Language Models

Fei Zhao,Chengcui Zhang,Runlin Zhang,Tianyang Wang,Xi Li

Main category: cs.MM

TL;DR: 提出了一种基于强化学习的测试时适应框架,减少视觉语言模型中的幻觉现象,无需重新训练或额外模型。

  • Motivation: 视觉语言模型中的幻觉问题影响可靠性和实际应用,现有解决方案成本高且资源密集。
  • Method: 通过更新语言模型中可学习的层归一化参数(约0.003%),减少测试样本与预训练样本的分布偏移,并使用CLIP评估模型提供双重奖励。
  • Result: 在LLaVA和InstructBLIP上分别减少15.4%和17.3%的幻觉率,性能优于现有基线68.3%。
  • Conclusion: 该方法高效且低成本,显著改善了视觉语言模型的幻觉问题。

cs.CL

[139] Sentient Agent as a Judge: Evaluating Higher-Order Social Cognition in Large Language Models

Bang Zhang,Ruotian Ma,Qingxuan Jiang,Peisong Wang,Jiaqi Chen,Zheng Xie,Xingyu Chen,Yue Wang,Fanghua Ye,Jian Li,Yifan Yang,Zhaopeng Tu,Xiaolong Li

Main category: cs.CL

TL;DR: SAGE是一个自动化评估框架,用于衡量大型语言模型(LLM)的高级社会认知能力,通过模拟人类情感变化和内心思考,提供更真实的多轮对话评估。

  • Motivation: 当前评估LLM对人类理解而非仅文本理解的挑战尚未解决,SAGE旨在填补这一空白。
  • Method: SAGE通过模拟情感变化和内心思考,生成情感轨迹和可解释的内心活动,并在100个支持性对话场景中进行实验。
  • Result: 实验显示SAGE的情感评分与心理学指标高度相关,并在公开排行榜中揭示了前沿模型与早期基线之间的显著差距。
  • Conclusion: SAGE为追踪语言模型在共情和社交能力方面的进展提供了原则性、可扩展且可解释的工具。

[140] Harnessing Structured Knowledge: A Concept Map-Based Approach for High-Quality Multiple Choice Question Generation with Effective Distractors

Nicy Scaria,Silvester John Joseph Kennedy,Diksha Seth,Ananya Thakur,Deepak Subramani

Main category: cs.CL

TL;DR: 提出了一种基于分层概念图的框架,利用LLM生成高质量多选题,针对常见误解设计干扰项,显著优于基线方法。

  • Motivation: 手动生成高质量多选题耗时且依赖专家知识,现有自动化方法难以覆盖高认知水平和领域特定误解。
  • Method: 开发分层概念图,通过自动化流程检索相关部分作为LLM的结构化上下文,生成题目和干扰项,并进行自动验证。
  • Result: 专家评估显示成功率75.20%,学生测试中猜测率28.05%,均优于基线方法。
  • Conclusion: 概念图方法支持跨认知水平的评估,快速识别概念差距,实现规模化精准干预。

[141] 30DayGen: Leveraging LLMs to Create a Content Corpus for Habit Formation

Franklin Zhang,Sonya Zhang,Alon Halevy

Main category: cs.CL

TL;DR: 30 Day Me是一款利用LLM帮助用户分解目标并跟踪进度的习惯养成应用,核心是30DAYGEN系统,生成3531种30天挑战。

  • Motivation: 探索LLM在行为和教育领域中快速构建特定领域内容库的潜力。
  • Method: 开发30DAYGEN系统,从15K网页中生成挑战,并结合LLM进行内容生成和语义去重。
  • Result: 成功生成3531种独特的30天挑战,并实现与用户目标对齐的运行时搜索。
  • Conclusion: LLM可用于高效构建行为和教育内容库,并提出实用内容生成和去重流程。

[142] Ensuring Reproducibility in Generative AI Systems for General Use Cases: A Framework for Regression Testing and Open Datasets

Masumi Morishige,Ryo Koshihara

Main category: cs.CL

TL;DR: GPR-bench是一个轻量级、可扩展的基准测试工具,用于评估生成式AI系统的可重复性和可靠性,支持双语(英语和日语)任务,并通过自动化评估流程测试模型性能和提示工程效果。

  • Motivation: 解决生成式AI系统因模型更新或提示修改导致行为漂移的可重复性和可靠性问题。
  • Method: 开发GPR-bench基准测试工具,包含双语数据集和自动化评估流程,使用“LLM-as-a-Judge”评分方法测试正确性和简洁性。
  • Result: 新模型在正确性上略有提升但差异不显著,简洁性提示显著提高输出简洁性(+12.37 pp),准确性仅轻微下降(-1.7 pp)。
  • Conclusion: GPR-bench为社区提供了可扩展的基准测试工具,同时揭示了快速演进的语言模型基准设计的重要性。

[143] Enhancing ML Model Interpretability: Leveraging Fine-Tuned Large Language Models for Better Understanding of AI

Jonas Bokstaller,Julia Altheimer,Julian Dormehl,Alina Buss,Jasper Wiltfang,Johannes Schneider,Maximilian Röglinger

Main category: cs.CL

TL;DR: 本文提出了一种结合可解释AI(XAI)和大型语言模型(LLM)的交互式聊天机器人参考架构,用于提升机器学习模型的可解释性,并以电池健康状态(SoH)预测为例验证了其有效性。

  • Motivation: 随着机器学习模型的复杂性增加,其黑盒特性使得可解释性成为重要需求。同时,大型语言模型在理解人类语言和复杂模式方面取得了显著进展。本文旨在结合两者,提升XAI的可解释性。
  • Method: 提出了一种基于微调LLM的交互式聊天机器人参考架构,并在电池SoH预测场景中实例化和验证了该架构。
  • Result: 评估表明,该原型显著提升了机器学习模型的可解释性,尤其对XAI经验较少的用户效果明显。
  • Conclusion: 通过结合XAI和LLM,本文提出的架构有效提升了机器学习模型的可解释性,为实际应用提供了新思路。

[144] Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs

Haoming Yang,Ke Ma,Xiaojun Jia,Yingfei Sun,Qianqian Xu,Qingming Huang

Main category: cs.CL

TL;DR: 本文提出了一种名为ICRT的新型越狱攻击框架,利用人类认知启发和偏见,通过简化恶意提示和增强语义对齐,有效绕过主流大语言模型的安全机制。

  • Motivation: 尽管大语言模型(LLMs)表现优异,但仍易受越狱攻击影响,现有研究多依赖暴力优化或手动设计,未能揭示真实场景中的潜在风险。
  • Method: 提出ICRT框架,利用认知启发中的简化效应和相关性偏见,分解和重组恶意提示,同时引入基于排行的危害性评估指标。
  • Result: 实验表明,ICRT能持续绕过主流LLMs的安全机制,生成高风险内容。
  • Conclusion: 该研究揭示了越狱攻击的风险,并为防御策略提供了新思路。

Zhihai Wang,Jie Wang,Jilai Pan,Xilin Xia,Huiling Zhen,Mingxuan Yuan,Jianye Hao,Feng Wu

Main category: cs.CL

TL;DR: 提出了一种名为SpecSearch的新框架,通过优化思维生成加速LLM推理,同时保持推理质量。

  • Motivation: 解决树搜索推理方法因生成大量推理思维导致的高延迟问题。
  • Method: 利用小模型与大模型在思维和标记级别协作,结合质量保留拒绝机制过滤低质量思维。
  • Result: 在Qwen和Llama模型上实验,实现了2.12倍加速且推理质量可比。
  • Conclusion: SpecSearch显著提升了推理速度,同时保持了高质量推理能力。

[146] Decoding Open-Ended Information Seeking Goals from Eye Movements in Reading

Cfir Avraham Hadar,Omer Shubi,Yoav Meiri,Yevgeni Berzak

Main category: cs.CL

TL;DR: 论文研究了是否可以通过眼动数据自动解码读者的开放式阅读目标,提出了目标分类和重构任务,并开发了多模态LLM模型,实验表明模型能有效从眼动中提取读者的目标信息。

  • Motivation: 研究动机是探索眼动数据是否能反映读者的文本特定目标,从而为个性化阅读辅助或信息检索提供支持。
  • Method: 方法包括设计目标分类和重构任务,使用大规模英语阅读眼动数据,开发并比较多种多模态LLM模型。
  • Result: 实验结果表明,模型在目标分类和重构任务上表现良好,说明眼动数据能有效反映读者的目标。
  • Conclusion: 结论是LLM可以从眼动数据中解码读者的文本特定目标,为相关应用提供了可能性。

[147] RADLADS: Rapid Attention Distillation to Linear Attention Decoders at Scale

Daniel Goldstein,Eric Alcaide,Janna Lu,Eugene Cheah

Main category: cs.CL

TL;DR: RADLADS是一种快速将softmax注意力Transformer转换为线性注意力解码器模型的协议,并提出了两种新的RWKV变体架构。转换过程仅需350-700M tokens,成本低于2000美元,性能接近原始模型。

  • Motivation: 解决传统Transformer模型的高计算成本和资源需求问题,提供高效且经济的替代方案。
  • Method: 提出RADLADS协议,通过少量token训练(350-700M)将softmax注意力模型转换为线性注意力模型,并开发了新的RWKV变体架构。
  • Result: 转换后的模型在标准基准测试中表现优异,性能接近原始Transformer,且成本极低。
  • Conclusion: RADLADS为大规模模型提供了一种高效、经济的转换方案,并在HuggingFace上开源了模型和代码。

[148] Memorization or Interpolation ? Detecting LLM Memorization through Input Perturbation Analysis

Albérick Euraste Djiré,Abdoul Kader Kaboré,Earl T. Barr,Jacques Klein,Tegawendé F. Bissyandé

Main category: cs.CL

TL;DR: PEARL是一种检测大型语言模型(LLM)记忆现象的新方法,通过输入扰动评估模型输出的一致性,区分真实泛化与记忆行为。

  • Motivation: LLM在训练中可能记忆而非泛化数据,引发隐私、知识产权和评估可靠性问题。
  • Method: PEARL通过输入扰动检测模型输出的敏感性,无需访问模型内部。
  • Result: 在Pythia和GPT 4o模型上验证,成功识别经典文本和代码的记忆行为。
  • Conclusion: PEARL为识别LLM记忆行为提供了有效框架,支持数据隐私和模型评估的改进。

[149] A Typology of Synthetic Datasets for Dialogue Processing in Clinical Contexts

Steven Bedrick,A. Seza Doğruöz,Sergiu Nisioi

Main category: cs.CL

TL;DR: 本文探讨了在临床对话任务中使用合成数据集的现状,并提出了一种新的分类法以促进数据合成的比较和评估。

  • Motivation: 由于隐私和数据治理等问题,临床对话数据难以获取,合成数据集成为替代方案,但缺乏理论指导其最佳使用和泛化。
  • Method: 综述了合成数据集的创建、评估方法,并提出了一种新的分类法。
  • Result: 合成数据集在某些情况下足够有效,但需要更多理论支持。
  • Conclusion: 提出的分类法有助于更好地理解和评估合成数据集在临床对话任务中的应用。

[150] Developing A Framework to Support Human Evaluation of Bias in Generated Free Response Text

Jennifer Healey,Laurie Byrum,Md Nadeem Akhtar,Surabhi Bhargava,Moumita Sinha

Main category: cs.CL

TL;DR: 论文探讨了LLM评估的挑战,提出了一种半自动化的偏见评估框架,结合人类洞察力,改进了传统方法的局限性。

  • Motivation: 现实部署中,LLM评估因任务特定提示和上下文交互而复杂化,传统基于短上下文和固定选择的基准测试在部署环境中可能失效,且大规模人类评估成本高昂。
  • Method: 开发了一种半自动化的偏见评估框架,结合人类洞察力,定义了可操作的偏见概念,并扩展了超越多项选择的偏见分类方法。
  • Result: 该框架成功识别了偏见基准中的问题模板,并验证了其有效性。
  • Conclusion: 半自动化框架结合人类评估,为LLM偏见评估提供了更有效和实用的解决方案。

[151] Lightweight Clinical Decision Support System using QLoRA-Fine-Tuned LLMs and Retrieval-Augmented Generation

Mohammad Shoaib Ansari,Mohd Sohail Ali Khan,Shubham Revankar,Aditya Varma,Anil S. Mokhade

Main category: cs.CL

TL;DR: 论文研究了LLMs在医疗中的应用,通过RAG结合医院数据和QLoRA微调提升决策支持,Llama 3.2-3B-Instruct为基础模型,显著提高准确性。

  • Motivation: 探索LLMs在医疗中的潜力,解决医疗决策支持中的信息准确性和效率问题。
  • Method: 采用RAG嵌入检索医疗信息,结合QLoRA微调优化参数和内存,使用Llama 3.2-3B-Instruct模型。
  • Result: 系统在医疗基准测试中表现良好,能提供基本医疗建议,并优化了部署效率。
  • Conclusion: LLMs在医疗中有广阔前景,但需关注伦理和临床验证,未来需进一步优化和集成。

[152] MedArabiQ: Benchmarking Large Language Models on Arabic Medical Tasks

Mouath Abu Daoud,Chaimae Abouzahir,Leen Kharouf,Walid Al-Eisawi,Nizar Habash,Farah E. Shamout

Main category: cs.CL

TL;DR: 论文介绍了MedArabiQ,一个阿拉伯语医疗领域的基准数据集,用于评估大语言模型(LLMs)的性能,并强调多语言高质量基准的重要性。

  • Motivation: 阿拉伯语医疗领域中缺乏高质量的数据集和基准,限制了LLMs在该领域的应用。
  • Method: 构建了包含七种阿拉伯语医疗任务的MedArabiQ数据集,并对五种先进LLMs进行了评估。
  • Result: 研究发现需要更多多语言高质量基准,以确保LLMs在医疗领域的公平部署和扩展。
  • Conclusion: MedArabiQ为未来研究提供了基础,旨在提升LLMs的多语言能力,促进生成式AI在医疗中的公平使用。

[153] An Analysis of Hyper-Parameter Optimization Methods for Retrieval Augmented Generation

Matan Orbach,Ohad Eytan,Benjamin Sznajder,Ariel Gera,Odellia Boni,Yoav Kantor,Gal Bloch,Omri Levy,Hadas Abraham,Nitzan Barzilay,Eyal Shnarch,Michael E. Factor,Shila Ofek-Koifman,Paula Ta-Shma,Assaf Toledo

Main category: cs.CL

TL;DR: 本文研究了检索增强生成(RAG)的超参数优化(HPO)方法,通过5种算法和5个数据集验证了其有效性,发现贪婪或随机搜索能高效提升性能。

  • Motivation: 由于为特定用例找到最优RAG配置复杂且昂贵,本文旨在填补现有HPO框架缺乏严格基准测试的空白。
  • Method: 采用5种HPO算法在5个多样化数据集上进行实验,包括一个新收集的真实产品文档数据集,并探索了最大的HPO搜索空间。
  • Result: 结果表明,贪婪或迭代随机搜索能高效完成RAG HPO,且显著提升所有数据集的性能;贪婪方法中,优先优化模型比按RAG流程顺序优化更有效。
  • Conclusion: RAG HPO能高效提升性能,贪婪方法中优化顺序的选择对结果有重要影响。

[154] VITA-Audio: Fast Interleaved Cross-Modal Token Generation for Efficient Large Speech-Language Model

Zuwei Long,Yunhang Shen,Chaoyou Fu,Heting Gao,Lijiang Li,Peixian Chen,Mengdan Zhang,Hang Shao,Jian Li,Jinlong Peng,Haoyu Cao,Ke Li,Rongrong Ji,Xing Sun

Main category: cs.CL

TL;DR: VITA-Audio是一种端到端的大型语音模型,通过轻量级多模态令牌预测模块和四阶段渐进训练策略,显著降低了流式场景下的首音频令牌生成延迟,实现了3~5倍的推理加速。

  • Motivation: 现有语音模型在流式场景下生成首音频令牌时存在高延迟问题,限制了实际部署。
  • Method: 提出轻量级多模态令牌预测模块(MCTP)和四阶段渐进训练策略,以加速推理并减少延迟。
  • Result: 在7B参数规模下,推理速度提升3~5倍,并在ASR、TTS和SQA任务上优于同类开源模型。
  • Conclusion: VITA-Audio是首个能在首次前向传递中生成音频的多模态大语言模型,具备低延迟实时对话能力。

cs.MA

[155] Neural Orchestration for Multi-Agent Systems: A Deep Learning Framework for Optimal Agent Selection in Multi-Domain Task Environments

Kushagra Agrawal,Nisharg Nargund

Main category: cs.MA

TL;DR: MetaOrch是一个神经编排框架,用于在多领域任务环境中优化代理选择,通过监督学习和模糊评估模块动态选择最合适的代理,显著提升了选择准确性。

  • Motivation: 传统多代理系统(MAS)的协调机制僵化,难以适应动态任务,MetaOrch旨在解决这一问题。
  • Method: 采用监督学习方法,结合任务上下文、代理历史和预期响应质量,通过模糊评估模块生成软监督标签,动态预测最合适的代理。
  • Result: 在模拟环境中,MetaOrch实现了86.3%的选择准确率,显著优于随机选择和轮询调度等基线策略。
  • Conclusion: 神经编排方法能够增强多代理系统的自主性、可解释性和适应性,适用于多样化任务领域。

[156] Assessing and Enhancing the Robustness of LLM-based Multi-Agent Systems Through Chaos Engineering

Joshua Owotogbe

Main category: cs.MA

TL;DR: 研究提出混沌工程框架,用于增强基于大型语言模型的多智能体系统(LLM-MAS)的鲁棒性,以应对实际环境中的潜在故障。

  • Motivation: LLM-MAS在生产和预生产环境中可能因幻觉、智能体故障和通信故障等问题而脆弱,需提升其可靠性。
  • Method: 提出混沌工程框架,主动识别LLM-MAS的脆弱性并增强其韧性。
  • Result: 框架有助于评估和构建LLM-MAS的鲁棒性,确保关键应用中的可靠性能。
  • Conclusion: 混沌工程是提升LLM-MAS在实际环境中稳定性的有效方法。

[157] Rainbow Delay Compensation: A Multi-Agent Reinforcement Learning Framework for Mitigating Delayed Observation

Songchen Fu,Siang Chen,Shaojing Zhao,Letian Bai,Ta Li,Yonghong Yan

Main category: cs.MA

TL;DR: 论文提出了一种针对多智能体系统中观测延迟问题的解决方案,通过扩展Dec-POMDP模型,提出了DSID-POMDP框架和RDC训练方法,实验表明其能有效缓解延迟影响。

  • Motivation: 现实多智能体系统中普遍存在观测延迟,导致智能体无法基于真实环境状态决策,传统MARL方法在此情况下性能下降严重。
  • Method: 扩展Dec-POMDP为DSID-POMDP模型,提出RDC训练框架及其模块实现,并在标准MARL基准(MPE和SMAC)上验证。
  • Result: 实验显示RDC方法能显著缓解延迟影响,在某些延迟场景下甚至达到无延迟性能,同时保持泛化能力。
  • Conclusion: 研究为多智能体延迟观测问题提供了新视角和有效解决方案框架。

cs.DC

[158] Elevating Semantic Exploration: A Novel Approach Utilizing Distributed Repositories

Valerio Bellandi

Main category: cs.DC

TL;DR: 论文比较了集中式和分布式系统的优缺点,并介绍了一个为意大利司法部开发的分布式文档存储系统,利用边缘存储库增强语义探索能力。

  • Motivation: 探讨集中式和分布式系统的适用场景,并设计一个分布式文档存储系统以满足大规模环境的需求。
  • Method: 开发了一个分布式文档存储系统,利用边缘存储库分析文本数据和元数据。
  • Result: 系统提升了语义探索能力,适用于大规模环境。
  • Conclusion: 分布式系统在需要高可用性和性能的大规模环境中表现更优。

cs.SD

[159] A study on audio synchronous steganography detection and distributed guide inference model based on sliding spectral features and intelligent inference drive

Wei Meng

Main category: cs.SD

TL;DR: 本文提出了一种基于短时傅里叶变换的滑动频谱特征提取方法,用于检测短视频平台中的同步隐写数据,并构建了分布式引导重建模型。

  • Motivation: 随着短视频平台在全球通信中的兴起,音频同步流中的隐写数据成为一种新的隐蔽通信方式,传统检测方法存在局限性。
  • Method: 采用25毫秒滑动窗口和短时傅里叶变换提取主频轨迹,构建同步帧检测模型(M1)和结构化解码模型(M2)。
  • Result: 在36至45秒音频段中发现了低熵重复字节序列和高集中频谱能量,验证了同步帧的存在。
  • Conclusion: 该方法验证了滑动频谱特征在同步隐写检测中的有效性,并构建了可扩展的隐蔽通信分析模型。

[160] Mamba-Diffusion Model with Learnable Wavelet for Controllable Symbolic Music Generation

Jincheng Zhang,György Fazekas,Charalampos Saitis

Main category: cs.SD

TL;DR: 该论文提出了一种基于扩散模型的符号音乐生成方法,通过将音乐表示为图像式钢琴卷帘,并引入Transformer-Mamba块和可学习小波变换,实现了高质量且可控的音乐生成。

  • Motivation: 扩散模型在图像合成中表现出色,但在符号音乐生成领域的应用尚未充分探索,主要因为符号音乐是离散数据。
  • Method: 将符号音乐表示为钢琴卷帘,提出结合Transformer-Mamba块和可学习小波变换的扩散模型,并利用无分类器指导生成目标和弦的音乐。
  • Result: 实验表明,该方法在音乐质量和可控性上表现优异,优于基线方法。
  • Conclusion: 该方法为符号音乐生成提供了一种有效的新途径,代码已开源。

[161] CoGenAV: Versatile Audio-Visual Representation Learning via Contrastive-Generative Synchronization

Detao Bai,Zhiheng Ma,Xihan Wei,Liefeng Bo

Main category: cs.SD

TL;DR: CoGenAV是一种高效的多模态模型,通过结合对比特征对齐和生成文本预测,利用少量数据学习音频-视觉表示,在多种语音任务中表现优异。

  • Motivation: 利用说话者的唇动、语音和语言内容之间的同步性,提升语音处理任务在复杂条件下的性能。
  • Method: CoGenAV通过优化双重目标(对比特征对齐和生成文本预测),仅使用223小时的LRS2数据集学习跨模态相关性。
  • Result: 在AVSR任务中达到1.27%的WER,VSR任务中22.0%的WER,噪声环境下性能提升70%以上,并在语音重建和同步任务中表现优异。
  • Conclusion: CoGenAV的多模态表示在多种任务中具有广泛适用性,模型将开源以促进学术和工业界的合作。

cs.CY

[162] The Precautionary Principle and the Innovation Principle: Incompatible Guides for AI Innovation Governance?

Kim Kaivanto

Main category: cs.CY

TL;DR: 论文探讨了AI治理中预防原则(PP)和创新原则(IP)的关系,认为在弱形式下两者并非完全对立,而是可以通过信号检测理论(SDT)模型找到最优策略。

  • Motivation: 研究AI治理中PP与IP是否对立,以及如何在弱形式下协调两者。
  • Method: 采用信号检测理论(SDT)模型,分析不同类型错误的成本,并提出监管沙盒作为中间策略。
  • Result: 在特定成本比例下,弱PP或弱IP策略最优;中间比例时,'等待与监控'策略(如监管沙盒)最优。
  • Conclusion: 监管沙盒能帮助调节PP与IP的冲突,通过实验和学习优化AI治理策略。

[163] Aligning Large Language Models with Healthcare Stakeholders: A Pathway to Trustworthy AI Integration

Kexin Ding,Mu Zhou,Akshay Chaudhari,Shaoting Zhang,Dimitris N. Metaxas

Main category: cs.CY

TL;DR: 论文探讨了如何在医疗领域实现大型语言模型(LLMs)与利益相关者的需求对齐,强调人类参与的重要性,并提出了增强对齐的方法和工具。

  • Motivation: 医疗领域对LLMs的需求日益增长,但模型输出与利益相关者的知识、需求和价值观可能存在偏差,因此需要对齐以确保有效、安全和负责任的应用。
  • Method: 通过人类专业人士全程参与LLMs的生命周期(数据整理、模型训练和推理),结合知识整合、任务理解和人类指导,增强对齐。
  • Result: 研究表明,LLMs可以通过对齐方法更好地遵循人类价值观,从而提升医疗应用的信任度和实用性。
  • Conclusion: 未来需进一步优化人机对齐,以构建可信赖的医疗应用。

[164] Enhancing tutoring systems by leveraging tailored promptings and domain knowledge with Large Language Models

Mohsen Balavar,Wenli Yang,David Herbert,Soonja Yeom

Main category: cs.CY

TL;DR: 研究通过结合RAG和LLM技术,开发了一个个性化编程辅导系统,解决了AI驱动学习中的多样化和实时反馈问题。

  • Motivation: 尽管AI工具如ITS和ChatGPT提升了学习体验,但在适应多样化学习风格和提供实时反馈方面仍存在挑战。
  • Method: 研究整合了RAG技术到LLM的提示工程中,开发了一个编程辅导应用,并通过三项量化指标评估其效果。
  • Result: 系统成功将模拟学生按技能水平分类,并提供情境感知反馈,表现出比通用方法更好的效果和适应性。
  • Conclusion: 该研究为AI驱动的个性化学习提供了有效解决方案,尤其在编程教育领域具有潜力。

[165] A Computational Model of Inclusive Pedagogy: From Understanding to Application

Francesco Balzan,Pedro P. Santos,Maurizio Gabbrielli,Mahault Albarracin,Manuel Lopes

Main category: cs.CY

TL;DR: 论文提出了一种计算模型,模拟师生互动中的共同适应动态,以提升教育科学和机器学习系统的适应性。

  • Motivation: 现有计算模型未能充分模拟师生共同适应动态,限制了教育科学的测试和扩展能力,以及机器学习系统对人类学习过程的模拟和支持。
  • Method: 开发了一个计算模型,将人类教育的上下文洞察整合到可测试框架中,并在合成课堂环境中评估不同师生互动策略。
  • Result: 结果表明,基于共同适应原则的策略优于单边方法,能提升所有学习类型的学习效果。
  • Conclusion: 该模型为教育科学和AI教育系统提供了可扩展、包容的基础,支持动态适应学习者需求的公平技术。

[166] AI Education in a Mirror: Challenges Faced by Academic and Industry Experts

Mahir Akgun,Hadi Hosseini

Main category: cs.CY

TL;DR: 研究探讨了AI教育与实际行业挑战之间的差距,通过14位专家的访谈,揭示了数据质量、模型扩展性等关键问题,并提出了改进AI课程的建议。

  • Motivation: 随着AI技术的发展,学术界与行业之间的教育与实践差距成为重要研究课题。
  • Method: 通过对14位AI专家(8位行业、6位学术)的半结构化访谈,分析挑战。
  • Result: 行业更关注部署限制和资源问题,学术则强调理论适应和标准化;建议课程整合实际复杂性和跨学科学习。
  • Conclusion: AI课程需结合实践挑战,同时注重基础理论和伦理教育。

[167] Understanding University Students' Use of Generative AI: The Roles of Demographics and Personality Traits

Newnew Deng,Edward Jiusi Liu,Xiaoming Zhai

Main category: cs.CY

TL;DR: 研究调查了美国大学生使用生成式AI(GAI)的情况及其影响因素,发现学术年级、语言背景、种族和人格特质(大五模型)显著影响GAI的使用和态度。

  • Motivation: 填补关于大学生GAI使用及其影响因素的实证研究空白。
  • Method: 对363名美国本科生和研究生进行问卷调查,分析GAI使用与人口统计变量及人格特质的关系。
  • Result: 高年级学生、非英语母语者和亚裔学生更倾向使用GAI;人格特质如尽责性、宜人性等显著影响GAI的使用和态度。
  • Conclusion: 大学需提供个性化指导,确保学生有效、道德且公平地使用GAI。

[168] The Cognitive Foundations of Economic Exchange: A Modular Framework Grounded in Behavioral Evidence

Egil Diau

Main category: cs.CY

TL;DR: 论文提出了一种基于认知最小机制的框架,用于在多智能体AI中建模社会合作,将信任重新定义为一种分级的认知期望。

  • Motivation: 经济学和伦理学中的概念(如“信任”或“道德”)通常缺乏操作性定义,限制了其在人工代理中的可测试性和实现。
  • Method: 结合灵长类行为、婴儿认知和经济人类学的实证证据,提出了三种认知最小机制:个体识别、互相信任和成本回报敏感性。
  • Result: 该框架为人工代理中的互惠交换提供了可模拟的基础,支持自下而上的可扩展合作和制度动态。
  • Conclusion: 通过将信任定义为认知期望,该框架为多智能体AI中的社会合作提供了更可操作和可测试的基础。

q-bio.NC

[169] Binding threshold units with artificial oscillatory neurons

Vladimir Fanaskov,Ivan Oseledets

Main category: q-bio.NC

TL;DR: 论文提出了一种理论框架,区分振荡神经元和阈值单元,并建立了它们的耦合机制,结合了Hopfield网络和Kuramoto模型。

  • Motivation: 研究振荡神经元在任务中优于阈值单元的现象,探索其耦合机制和生物学意义。
  • Method: 通过约束动力学系统(具有Lyapunov函数)推导振荡神经元与阈值单元的耦合,形成Hopfield-Kuramoto模型。
  • Result: 实现了振荡神经元对Hopfield网络的低秩权重修正,展示了耦合的可行性和潜在应用。
  • Conclusion: 振荡神经元与阈值单元的耦合为神经编码提供了新视角,并在实践中展示了其潜力。

cs.SE

[170] Snakemaker: Seamlessly transforming ad-hoc analyses into sustainable Snakemake workflows with generative AI

Marco Masera,Alessandro Leone,Johannes Köster,Ivan Molineris

Main category: cs.SE

TL;DR: Snakemaker利用生成式AI将非结构化代码转换为Snakemake工作流,提升生物信息学软件的可重复性和可持续性。

  • Motivation: 生物信息学软件开发和复杂工作流常导致工具短命或难以适应,亟需解决可重复性和可持续性问题。
  • Method: Snakemaker通过跟踪终端操作、分析执行模式,生成符合最佳实践的Snakemake工作流,并支持将Ipython Notebook转换为模块化流程。
  • Result: Snakemaker能生成高质量工作流,支持Conda环境跟踪、通用规则生成等,降低原型与生产代码间的障碍。
  • Conclusion: Snakemaker填补了生物信息学研究在计算可重复性方面的关键空白。

[171] The Art of Repair: Optimizing Iterative Program Repair with Instruction-Tuned Models

Fernando Vallecillos Ruiz,Max Hort,Leon Moonen

Main category: cs.SE

TL;DR: 研究探讨了自动程序修复(APR)中平衡多输出生成与多轮迭代的策略,使用三种指令调优的LLM模型,并通过小规模微调显著提升修复效果。

  • Motivation: 探索如何在有限补丁数量(10个/错误)下,结合多输出生成与迭代优化,提升APR效果,并验证微调数据量的影响。
  • Method: 采用三种指令调优LLM(DeepSeekCoder-Instruct、Codellama-Instruct、Llama3.1-Instruct),在不同规模(1K、30K、65K)和微调技术(全微调与LoRA)下进行实验,评估其在HumanEval-Java和Defects4J基准上的表现。
  • Result: 小规模微调(<1%数据)可提升78%的合理补丁生成,但过度微调会导致收益递减;迭代策略对基础模型效果显著,复杂基准中优势更明显。
  • Conclusion: 平衡多输出生成与迭代优化的策略对APR至关重要,微调需谨慎以避免过拟合,迭代策略在复杂场景中尤为有效。

[172] DocSpiral: A Platform for Integrated Assistive Document Annotation through Human-in-the-Spiral

Qiang Sun,Sirui Li,Tingting Bi,Du Huynh,Mark Reynolds,Yuanyi Luo,Wei Liu

Main category: cs.SE

TL;DR: DocSpiral是一个辅助文档标注平台,通过人机协作迭代减少人工标注时间,提升模型性能。

  • Motivation: 解决从图像文档中提取结构化数据的挑战,减少人工标注需求。
  • Method: 结合文档格式标准化、标注界面、评估指标和API,形成统一工作流。
  • Result: 实验显示标注时间减少41%,模型性能持续提升。
  • Conclusion: DocSpiral降低了文档处理中AI/ML模型开发的障碍,推动大语言模型在图像文档领域的应用。

[173] Synthline: A Product Line Approach for Synthetic Requirements Engineering Data Generation using Large Language Models

Abdelkarim El-Hajjami,Camille Salinesi

Main category: cs.SE

TL;DR: Synthline利用大语言模型生成合成RE数据,弥补高质量数据稀缺问题。实验表明合成数据虽多样性不足,但可作为有效训练资源,且与真实数据结合能显著提升模型性能。

  • Motivation: 现代需求工程依赖自然语言处理和机器学习,但高质量数据稀缺限制了其效果。
  • Method: 采用产品线方法Synthline,利用大语言模型生成合成数据,并通过实验评估其多样性和训练效果。
  • Result: 合成数据多样性低于真实数据,但可作为训练资源;混合使用合成与真实数据使精确度提升85%,召回率提高2倍。
  • Conclusion: Synthline能有效缓解RE领域数据稀缺问题,其实现和数据集已公开以促进研究。

cs.IR

[174] Avoid Recommending Out-of-Domain Items: Constrained Generative Recommendation with LLMs

Hao Liao,Wensheng Lu,Jianxun Lian,Mingqi Wu,Shuo Wang,Yong Zhang,Yitian Huang,Mingyang Zhou,Xing Xie

Main category: cs.IR

TL;DR: 论文研究了两种方法(RecLM-ret和RecLM-cgen)来防止LLM推荐域外(OOD)物品,其中RecLM-cgen表现更优。

  • Motivation: 解决LLM在生成推荐系统中可能推荐域外物品的问题。
  • Method: 提出两种方法:基于检索的RecLM-ret和基于约束生成的RecLM-cgen。
  • Result: RecLM-cgen在准确性和消除OOD推荐方面优于RecLM-ret和现有方法。
  • Conclusion: RecLM-cgen是更优的轻量级解决方案,易于集成到LLM中。

[175] Counterfactual Inference for Eliminating Sentiment Bias in Recommender Systems

Le Pan,Yuanjiang Cao,Chengkai Huang,Wenjie Zhang,Lina Yao

Main category: cs.IR

TL;DR: 该论文研究了推荐系统中的情感偏差问题,提出了一种基于反事实推理的两阶段方法,以减轻情感偏差对推荐准确性的影响。

  • Motivation: 研究发现,基于评论的推荐系统(RRSs)中存在情感偏差,导致负面评论的用户或物品推荐准确性下降,影响了关键用户和小众物品的公平性。
  • Method: 通过构建因果图建模情感对评分的影响,并在推理阶段使用反事实推理解耦直接和间接效应,以减轻情感偏差。
  • Result: 实验结果表明,该方法在评分预测和情感偏差缓解方面表现优异。
  • Conclusion: 这是首个在推荐系统中应用反事实推理解决情感偏差的研究,为推荐系统的公平性提供了新思路。

cs.RO

[176] MORE: Mobile Manipulation Rearrangement Through Grounded Language Reasoning

Mohammad Mohammadi,Daniel Honerkamp,Martin Büchner,Matteo Cassinelli,Tim Welschehold,Fabien Despinoy,Igor Gilitschenski,Abhinav Valada

Main category: cs.RO

TL;DR: MORE是一种新方法,通过场景图和主动过滤方案增强语言模型能力,解决零样本移动操作规划问题,显著提升性能。

  • Motivation: 解决大规模环境和多对象场景下现有方法性能下降的问题。
  • Method: 利用场景图表示环境,引入实例区分和主动过滤方案,提取任务相关子图。
  • Result: 在BEHAVIOR-1K基准测试中表现优异,首次显著解决任务,并在复杂现实任务中验证。
  • Conclusion: MORE通过改进规划和过滤机制,有效提升移动操作任务的可靠性和适应性。

[177] Latent Adaptive Planner for Dynamic Manipulation

Donghun Noh,Deqian Kong,Minglu Zhao,Andrew Lizarraga,Jianwen Xie,Ying Nian Wu,Dennis Hong

Main category: cs.RO

TL;DR: LAP是一种基于潜在空间推理的动态非抓取操作规划方法,通过人类演示视频学习,实现了高效的环境适应性和实时规划。

  • Motivation: 解决视觉运动策略学习中的关键挑战,如时间一致性和环境适应性。
  • Method: 利用变分重规划框架和贝叶斯更新在潜在空间逐步优化计划,结合基于模型的映射从人类演示中生成准确状态。
  • Result: 在多个复杂操作基准测试中表现优异,成功率高、轨迹平滑且能耗低。
  • Conclusion: LAP为机器人提供了类人的适应性,并支持扩展到不同平台。

[178] The Unreasonable Effectiveness of Discrete-Time Gaussian Process Mixtures for Robot Policy Learning

Jan Ole von Hartz,Adrian Röfer,Joschka Boedecker,Abhinav Valada

Main category: cs.RO

TL;DR: MiDiGap是一种用于机器人操作中灵活策略表示和模仿学习的新方法,仅需少量演示即可学习,并在多种任务中表现出色。

  • Motivation: 解决机器人操作中少样本学习和泛化能力的问题,特别是在复杂任务中。
  • Method: 采用离散时间高斯过程混合模型,结合推理时引导工具(如碰撞信号和运动学约束)。
  • Result: 在少样本操作任务中表现优异,成功率和效率显著提升,支持跨实体策略迁移。
  • Conclusion: MiDiGap是一种高效、灵活的机器人操作学习方法,具有广泛的应用潜力。

[179] Sim2Real Transfer for Vision-Based Grasp Verification

Pau Amargant,Peter Hönig,Markus Vincze

Main category: cs.RO

TL;DR: 提出了一种基于视觉的两阶段抓取验证方法,结合YOLO和ResNet,并通过合成数据集HSR-GraspSynth提升性能。

  • Motivation: 传统基于力和触觉的抓取验证方法在处理可变形物体时效果不佳,需要更可靠的视觉解决方案。
  • Method: 使用YOLO检测机械手位置,ResNet分类物体是否存在;引入合成数据集HSR-GraspSynth补充真实数据不足。
  • Result: 实验表明该方法在真实环境中具有高准确性,适用于抓取流程集成。
  • Conclusion: 视觉方法有效解决了可变形物体抓取验证问题,合成数据提升了模型泛化能力。

[180] Automated Data Curation Using GPS & NLP to Generate Instruction-Action Pairs for Autonomous Vehicle Vision-Language Navigation Datasets

Guillermo Roque,Erika Maquiling,Jose Giovanni Tapia Lopez,Ross Greer

Main category: cs.RO

TL;DR: 利用GPS和NLP自动生成指令-动作数据对,减少人工标注成本,提升数据收集效率。

  • Motivation: 人工标注指令-动作数据对成本高且效率低,探索自动化生成方法。
  • Method: 通过GPS应用收集语音指令,结合视频数据形成视觉-语言-动作三元组,开发自动化数据收集系统ADVLAT-Engine。
  • Result: 成功分类GPS语音指令为八类,展示自动化生成高质量数据对的潜力。
  • Conclusion: 自动化生成指令-动作数据对可加速高质量数据集构建,支持视觉-语言导航和人机交互系统。

[181] Self-Supervised Learning for Robotic Leaf Manipulation: A Hybrid Geometric-Neural Approach

Srecharan Selvam,Abhishesh Silwal,George Kanter

Main category: cs.RO

TL;DR: 提出了一种结合几何与神经网络的混合方法,用于自主叶片抓取,通过自监督学习实现,显著优于纯几何或神经网络方法。

  • Motivation: 农业环境中叶片操作的自动化面临植物形态多变和叶片可变形等挑战,需要一种更高效的方法。
  • Method: 结合YOLOv8实例分割和RAFT-Stereo 3D深度估计,通过几何特征评分和神经网络模块(GraspPointCNN)动态融合,利用自监督学习生成训练数据。
  • Result: 在控制环境中成功率为88.0%,实际温室中为84.7%,显著优于纯几何(75.3%)和神经网络(60.2%)方法。
  • Conclusion: 该研究为农业机器人领域提供了新范式,将领域专业知识与机器学习能力无缝结合,为全自动作物监测系统奠定基础。

[182] Visual Imitation Enables Contextual Humanoid Control

Arthur Allshire,Hongsuk Choi,Junyi Zhang,David McAllister,Anthony Zhang,Chung Min Kim,Trevor Darrell,Pieter Abbeel,Jitendra Malik,Angjoo Kanazawa

Main category: cs.RO

TL;DR: VIDEOMIMIC是一种从视频中学习人类动作并应用于人形机器人的方法,通过环境重建和策略生成实现多样化的全身控制。

  • Motivation: 解决如何利用日常视频教人形机器人完成复杂动作(如爬楼梯、坐椅子)的问题。
  • Method: 提出VIDEOMIMIC流程:从视频中重建人类与环境,生成全身控制策略,并应用于真实机器人。
  • Result: 实验显示机器人能稳健完成爬楼梯、坐椅子等动作,且策略可适应不同环境。
  • Conclusion: VIDEOMIMIC为教人形机器人在多样化环境中操作提供了可扩展的解决方案。

[183] Demonstrating ViSafe: Vision-enabled Safety for High-speed Detect and Avoid

Parv Kapoor,Ian Higgins,Nikhil Keetha,Jay Patrikar,Brady Moon,Zelin Ye,Yao He,Ivan Cisneros,Yaoyu Hu,Changliu Liu,Eunsuk Kang,Sebastian Scherer

Main category: cs.RO

TL;DR: ViSafe是一种高速视觉避碰系统,通过AI框架和多摄像头硬件原型实现安全分离,适用于高密度空域操作。

  • Motivation: 确保空中车辆在共享空域中的安全分离是实现高密度无缝操作的关键。
  • Method: ViSafe结合基于学习的边缘AI框架和定制多摄像头硬件,利用感知输入控制屏障函数(CBF)设计安全阈值。
  • Result: 通过模拟和真实飞行测试,ViSafe在各种场景下均能确保安全分离,并在高速避碰测试中表现优异。
  • Conclusion: ViSafe为高速空中导航的视觉避碰设定了新标准,提供了可证明的安全保障。

[184] AMO: Adaptive Motion Optimization for Hyper-Dexterous Humanoid Whole-Body Control

Jialong Li,Xuxin Cheng,Tianshu Huang,Shiqi Yang,Ri-Zhao Qiu,Xiaolong Wang

Main category: cs.RO

TL;DR: AMO框架结合了模拟到真实的强化学习和轨迹优化,实现了实时自适应全身控制,提升了人形机器人的稳定性和工作范围。

  • Motivation: 解决人形机器人因高自由度和非线性动力学而难以实现超灵巧全身运动的问题。
  • Method: 提出AMO框架,结合强化学习和轨迹优化,构建混合数据集以减轻运动模仿中的分布偏差。
  • Result: 在仿真和29自由度Unitree G1机器人上验证了AMO的稳定性和扩展的工作范围。
  • Conclusion: AMO通过模仿学习支持自主任务执行,展示了系统的多功能性和鲁棒性。

cs.IT

[185] Soft Best-of-n Sampling for Model Alignment

Claudio Mayrink Verdun,Alex Oesterling,Himabindu Lakkaraju,Flavio P. Calmon

Main category: cs.IT

TL;DR: Error

  • Motivation: Error
  • Method: Error
  • Result: Error
  • Conclusion: Error

q-bio.BM

[186] CreoPep: A Universal Deep Learning Framework for Target-Specific Peptide Design and Optimization

Cheng Ge,Han-Shen Tae,Zhenqiang Zhang,Lu Lu,Zhijie Huang,Yilin Wang,Tao Jiang,Wenqing Cai,Shan Chang,David J. Adams,Rilei Yu

Main category: q-bio.BM

TL;DR: CreoPep是一个基于深度学习的条件生成框架,用于设计高亲和力肽突变体,并发现新的结构基序。它结合了掩码语言建模和渐进掩码方案,通过FoldX能量筛选和温度控制的多项采样生成多样化的肽。实验验证显示,CreoPep设计的肽对α7烟碱乙酰胆碱受体具有亚微摩尔级效力。

  • Motivation: 天然肽的多样性和传统优化策略的局限性限制了其治疗潜力,因此需要一种高效的计算方法来设计新型肽。
  • Method: CreoPep整合了掩码语言建模和渐进掩码方案,结合FoldX能量筛选和温度控制的多项采样,生成结构多样且功能保留的肽。
  • Result: 设计的肽对α7烟碱乙酰胆碱受体表现出亚微摩尔级效力,并揭示了新的结合模式。
  • Conclusion: CreoPep提供了一个通用的计算平台,加速下一代肽疗法的发现。

stat.ML

[187] Actor-Critics Can Achieve Optimal Sample Efficiency

Kevin Tan,Wei Fan,Yuting Wei

Main category: stat.ML

TL;DR: 提出了一种新的actor-critic算法,解决了在需要战略探索时无法以O(1/ϵ2)样本复杂度学习ϵ-最优策略的问题,并扩展到混合RL设置。

  • Motivation: 现有actor-critic算法在需要战略探索时无法以O(1/ϵ2)样本复杂度学习ϵ-最优策略,这是一个未解决的开放问题。
  • Method: 提出了一种结合乐观性、离策略critic估计和罕见切换策略重置的新算法,并扩展到混合RL设置。
  • Result: 算法达到了O(dH5log|A|/ϵ2+dH4log|F|/ϵ2)的样本复杂度和T的遗憾。
  • Conclusion: 该算法填补了文献中的空白,并通过数值实验验证了理论结果。

math.NA

[188] Safer Prompts: Reducing IP Risk in Visual Generative AI

Lena Reissinger,Yuanyuan Li,Anna-Carolina Haensch,Neeraj Sarna

Main category: math.NA

TL;DR: 评估提示工程技术在减少图像生成中的知识产权侵权风险的有效性,发现链式思维提示和任务指令提示显著降低生成图像与训练数据的相似性。

  • Motivation: 生成式AI模型可能记忆并复制训练数据中的特定内容,引发知识产权侵权担忧,需探索低成本解决方案。
  • Method: 采用链式思维提示和任务指令提示技术,评估其对扩散模型生成图像与训练数据相似性的影响。
  • Result: 链式思维提示和任务指令提示显著减少生成图像与训练数据的相似性,降低侵权风险。
  • Conclusion: 提示工程技术是减少生成式AI知识产权侵权风险的有效方法。

cs.NI

[189] A Trustworthy Multi-LLM Network: Challenges,Solutions, and A Use Case

Haoxiang Luo,Gang Sun,Yinqiu Liu,Dusit Niyato,Hongfang Yu,Mohammed Atiquzzaman,Schahram Dustdar

Main category: cs.NI

TL;DR: 提出了一种基于区块链的多LLM协作框架(MultiLLMN),用于解决不同LLM在通信和网络任务中的信任和可靠性问题,并以FBS攻击防御为例验证其有效性。

  • Motivation: 不同LLM因结构和训练数据差异可能导致响应不一致或不可靠,且存在恶意设备风险,需要一种可信赖的协作机制。
  • Method: 设计了一个区块链支持的MultiLLMN框架,通过多LLM协作评估和选择最优响应。
  • Result: 以FBS攻击防御为例,验证了框架的有效性。
  • Conclusion: MultiLLMN框架为解决LLM协作中的信任问题提供了可行方案,未来可进一步探索其应用。

eess.IV

[190] Physical foundations for trustworthy medical imaging: a review for artificial intelligence researchers

Miriam Cobo,David Corral Fontecha,Wilson Silva,Lara Lloret Iglesias

Main category: eess.IV

TL;DR: 论文探讨了人工智能在医学影像中的应用,强调了物理知识对提升AI算法可信度和鲁棒性的重要性,并回顾了物理原理在生成模型和重建算法中的最新进展。

  • Motivation: 由于医学影像AI领域的快速发展,许多从业者缺乏对医学图像采集物理原理的全面理解,限制了其潜力。将物理知识融入AI算法可以提升其在数据有限场景下的表现。
  • Method: 回顾医学影像的物理基础及其对AI(尤其是生成模型和重建算法)的影响,并探索物理知识如何融入物理启发的机器学习模型。
  • Result: 物理知识的整合增强了AI算法的可信度和鲁棒性,特别是在数据有限的情况下。
  • Conclusion: 物理启发的机器学习模型通过利用物理约束,能够更好地学习医学影像特征,提升AI在医学影像中的应用效果。

[191] Dual Prompting for Diverse Count-level PET Denoising

Xiaofeng Liu,Yongsong Huang,Thibault Marin,Samira Vafay Eslahi,Tiss Amal,Yanis Chemli,Keith Johnson,Georges El Fakhri,Jinsong Ouyang

Main category: eess.IV

TL;DR: 提出了一种基于提示学习的PET去噪方法,通过双提示机制动态指导不同计数水平的去噪过程。

  • Motivation: PET图像去噪面临不同计数水平的挑战,需要统一模型处理多样化数据。
  • Method: 设计了双提示机制(显式计数水平提示和隐式去噪提示),并通过提示融合模块和提示-特征交互模块动态指导去噪。
  • Result: 在1940个低计数PET数据上验证,双提示机制显著提升了性能,优于计数条件模型。
  • Conclusion: 双提示机制为PET去噪提供了一种高效且通用的解决方案。

[192] STG: Spatiotemporal Graph Neural Network with Fusion and Spatiotemporal Decoupling Learning for Prognostic Prediction of Colorectal Cancer Liver Metastasis

Yiran Zhu,Wei Yang,Yan su,Zesheng Li,Chengchang Pan,Honggang Qi

Main category: eess.IV

TL;DR: 提出了一种多模态时空图神经网络框架,用于预测结直肠癌肝转移的进展,显著优于现有方法。

  • Motivation: 现有临床模型未能有效整合肿瘤的空间异质性、动态演化和多模态数据关系,限制了预测准确性。
  • Method: 结合术前CT影像和临床数据构建异构图结构,利用GraphSAGE聚合时空邻域信息,并通过监督和对比学习策略增强模型能力。
  • Result: 在MSKCC CRLM数据集上,时间相邻准确率为85%,平均绝对误差为1.1005。
  • Conclusion: 该框架为个性化治疗决策提供了可靠的定量支持。

cs.NE

[193] Accelerating Evolution: Integrating PSO Principles into Real-Coded Genetic Algorithm Crossover

Xiaobo Jin,JiaShu Tu

Main category: cs.NE

TL;DR: 提出了一种名为PSOX的新型交叉算子,结合了粒子群优化和遗传算法的优势,显著提升了优化性能。

  • Motivation: 传统交叉算子仅在同一代个体间交换信息,缺乏全局和历史引导,限制了优化效果。
  • Method: PSOX引入当前全局最优解和多代历史最优解的指导,保持种群多样性并加速收敛。
  • Result: 在15个基准测试函数上验证,PSOX在精度、稳定性和收敛速度上优于五种先进交叉算子。
  • Conclusion: PSOX是一种高效的交叉算子,结合适当变异策略可显著提升优化性能,并提供了参数调优的实用指南。

[194] From Neurons to Computation: Biological Reservoir Computing for Pattern Recognition

Ludovico Iannello,Luca Ciampi,Gabriele Lagani,Fabrizio Tonelli,Eleonora Crocco,Lucio Maria Calcagnile,Angelo Di Garbo,Federico Cremisi,Giuseppe Amato

Main category: cs.NE

TL;DR: 提出了一种利用培养生物神经元作为储备池的生物储备计算(BRC)新范式,通过多电极阵列(MEA)记录神经活动,实现高效模式识别。

  • Motivation: 探索生物神经网络在传统人工神经网络任务中的应用潜力,推动生物启发计算系统的发展。
  • Method: 使用MEA记录培养神经元的神经活动,输入通过部分电极引入,剩余电极捕获神经活动,生成高维生物特征空间。
  • Result: 实验验证了BRC在位置编码、方向条和数字识别任务中的有效性。
  • Conclusion: BRC展示了生物神经网络替代人工神经网络的可行性,为神经形态工程和生物混合计算提供了新方向。

上次更新于: