Skip to content
每日arXiv - 2025年4月23日

以下论文的arXiv类型标签包含:cs.CV、cs.AI

cs.CV

[1] LLM-Enabled Style and Content Regularization for Personalized Text-to-Image Generation

Anran Yu,Wei Feng,Yaochen Zhang,Xiang Li,Lei Meng,Lei Wu,Xiangxu Meng

Main category: cs.CV

TL;DR: 提出了一种结合风格优化和内容保留策略的文本到图像生成方法,解决了现有方法风格化不足和内容偏差的问题。

  • Motivation: 现有基于标识符微调的方法在风格化和内容准确性上表现不佳,需要改进。
  • Method: 采用风格优化策略和内容保留策略,前者利用视觉推理提示和参考图像优化风格嵌入,后者保持模型泛化能力。
  • Result: 实验证明该方法在生成一致且个性化的文本到图像输出上表现优异。
  • Conclusion: 该方法有效提升了风格化和内容控制的平衡,生成结果更优。

[2] LongPerceptualThoughts: Distilling System-2 Reasoning for System-1 Perception

Yuan-Hong Liao,Sven Elflein,Liu He,Laura Leal-Taixé,Yejin Choi,Sanja Fidler,David Acuna

Main category: cs.CV

TL;DR: 论文提出LongPerceptualThoughts数据集,通过三阶段合成框架生成长思维链,显著提升视觉和文本推理任务性能。

  • Motivation: 探索长思维链在感知任务中的潜力,解决现有模型缺乏此类思维行为及验证困难的问题。
  • Method: 提出三阶段数据合成框架:从密集图像描述生成可验证多选题,提取简单思维链,再扩展为长思维链。
  • Result: 在7B模型上,视觉推理任务平均提升3.4分,V Bench提升11.8分,文本推理任务MMLU-Pro提升2分。
  • Conclusion: 长思维链对感知任务有效,且能泛化到文本推理,为多模态推理提供新思路。

[3] Event2Vec: Processing neuromorphic events directly by representations in vector space

Wei Fang,Priyadarshini Panda

Main category: cs.CV

TL;DR: 论文提出了event2vec方法,将事件相机的输出转换为向量表示,解决了传统方法在预处理、时间分辨率损失和并行计算兼容性上的问题。

  • Motivation: 事件相机输出的异步、稀疏、不规则事件与主流计算机视觉和深度学习方法不兼容,现有方法存在预处理复杂、时间分辨率损失或并行计算不兼容的问题。
  • Method: 受word2vec启发,提出event2vec方法,将事件转换为向量表示,并在ASL-DVS数据集上验证其性能。
  • Result: event2vec在参数效率、准确性和速度上优于之前的图/图像/体素表示方法,并能与自然语言处理领域对齐。
  • Conclusion: event2vec展示了将事件数据整合到大型语言和多模态模型中的潜力,代码和模型已开源。

[4] Towards Understanding Camera Motions in Any Video

Zhiqiu Lin,Siyuan Cen,Daniel Jiang,Jay Karhade,Hewei Wang,Chancharik Mitra,Tiffany Ling,Yuhan Huang,Sifan Liu,Mingyu Chen,Rushikesh Zawar,Xue Bai,Yilun Du,Chuang Gan,Deva Ramanan

Main category: cs.CV

TL;DR: CameraBench是一个用于评估和改进相机运动理解的大规模数据集和基准测试,包含约3000个多样化视频,并提出了相机运动分类法。研究发现专家标注和培训能显著提高准确性,并评估了现有模型的局限性。

  • Motivation: 现有相机运动理解缺乏标准化评估工具和数据集,CameraBench旨在填补这一空白,推动相机运动理解的进步。
  • Method: 构建包含3000个多样化视频的数据集,设计相机运动分类法,进行大规模人类标注研究,并评估SfM和VLM模型的性能。
  • Result: SfM模型在语义运动上表现不佳,VLM模型在几何运动上表现不佳。通过微调生成VLM模型,实现了两者的优势结合。
  • Conclusion: CameraBench为相机运动理解提供了标准化工具和数据集,未来有望推动该领域的进一步发展。

[5] Physics Driven Image Simulation from Commercial Satellite Imagery

Scott Sorensen,Wayne Treible,Robert Wagner,Andrew D. Gilliam,Todd Rovito,Joseph L. Mundy

Main category: cs.CV

TL;DR: 利用卫星图像自动生成物理真实的3D场景,无需激光雷达,提高仿真保真度并减少人工干预。

  • Motivation: 通过物理驱动的图像仿真,超越传统渲染管道的限制,为算法开发和图像处理提供高保真场景。
  • Method: 基于数字表面模型(DSM)构建场景几何,利用卫星图像估计材质并动态填充场景元素(如植被、车辆)。
  • Result: 实现了无需激光雷达的高保真3D场景仿真,适用于从紫外线到长波红外的多种波段。
  • Conclusion: 该方法显著提升了场景构建效率,为算法开发和图像处理提供了更真实的仿真环境。

[6] Plug-and-Play Versatile Compressed Video Enhancement

Huimin Zeng,Jiacheng Li,Zhiwei Xiong

Main category: cs.CV

TL;DR: 提出了一种基于编解码器信息的视频增强框架,通过复用编解码信息自适应提升不同压缩设置下的视频质量,支持多种下游视觉任务。

  • Motivation: 视频压缩虽减少了文件大小,但牺牲了视觉质量,影响下游视觉模型的鲁棒性。
  • Method: 框架包含压缩感知适应网络(CAA)和比特流感知增强网络(BAE),利用编解码信息进行时空先验增强。
  • Result: 实验表明,该框架在质量提升和下游任务辅助方面优于现有方法。
  • Conclusion: 该框架作为即插即用模块,显著提升了压缩视频的质量和下游任务性能。

[7] ICGM-FRAX: Iterative Cross Graph Matching for Hip Fracture Risk Assessment using Dual-energy X-ray Absorptiometry Images

Chen Zhao,Anjum Shaik,Joyce H. Keyak,Nancy E. Lane,Jeffrey D. Deng,Kuan-Jui Su,Qiuying Sha,Hui Shen,Hong-Wen Deng,Weihua Zhou

Main category: cs.CV

TL;DR: 提出了一种基于双能X射线吸收测量(DXA)图像的髋部骨折风险预测新方法ICGM-FRAX,通过迭代比较测试图与模板图来评估相似性,实验结果显示其预测准确性高。

  • Motivation: 髋部骨折对老年人健康影响重大,早期准确识别高风险个体对干预至关重要。
  • Method: 将DXA图像分割为多个感兴趣区域(RoIs),提取放射组学特征并构建图结构,通过迭代图匹配评估骨折风险。
  • Result: 在547名受试者中,ICGM-FRAX的敏感性达到0.9869,显示出高预测准确性。
  • Conclusion: ICGM-FRAX是一种有效的髋部骨折风险评估方法,具有临床应用潜力。

[8] MirrorVerse: Pushing Diffusion Models to Realistically Reflect the World

Ankit Dhiman,Manan Shah,R Venkatesh Babu

Main category: cs.CV

TL;DR: 本文提出了一种改进扩散模型生成真实镜面反射的方法,通过合成数据增强和三阶段训练课程,提升了模型在复杂场景中的表现。

  • Motivation: 现有扩散模型在生成镜面反射时难以完全遵循物理规律,尤其是在物体位置和方向变化时表现不佳。
  • Method: 引入合成数据增强(随机物体定位、旋转和接地)和三阶段训练课程,开发MirrorFusion 2.0模型。
  • Result: 通过定性和定量评估验证了方法的有效性,提升了模型在真实场景中的泛化能力。
  • Conclusion: 提出的方法显著改善了镜面反射生成的真实性和泛化性,但仍需进一步优化以适应更复杂的现实场景。

[9] Context Aware Grounded Teacher for Source Free Object Detection

Tajamul Ashraf,Rajes Manna,Partha Sarathi Purkayastha,Tavaheed Tariq,Janibul Bashir

Main category: cs.CV

TL;DR: 论文提出了一种名为Grounded Teacher(GT)的框架,用于解决源数据不可用时的目标域适应问题,特别是在医学影像中,通过关系上下文模块和专家基础分支来缓解上下文偏差和类别不平衡。

  • Motivation: 在源数据不可用的目标域适应(SFOD)问题中,现有方法因上下文不平衡和领域偏移导致教师模型产生不准确的伪标签,进而影响学生模型性能。论文旨在解决这一问题。
  • Method: 提出Grounded Teacher框架,包括关系上下文模块和专家基础分支,通过建模上下文关系和增强相关类别来缓解偏差。
  • Result: 在三个医学数据集上的实验验证了GT框架在缓解上下文偏差和提升性能方面的有效性。
  • Conclusion: GT框架通过关系上下文模块和专家监督,显著改善了SFOD设置下的模型性能,相关资源已开源。

[10] IV-Bench: A Benchmark for Image-Grounded Video Perception and Reasoning in Multimodal LLMs

David Ma,Yuanxing Zhang,Jincheng Ren,Jarvis Guo,Yifan Yao,Zhenlin Wei,Zhenzhu Yang,Zhongyuan Peng,Boyu Feng,Jun Ma,Xiao Gu,Zhoufutu Wen,King Zhu,Yancheng He,Meng Cao,Shiwen Ni,Jiaheng Liu,Wenhao Huang,Ge Zhang,Xiaojie Jin

Main category: cs.CV

TL;DR: IV-Bench是首个评估图像基础视频感知与推理的综合基准,包含967个视频和2,585个标注查询,覆盖13个任务。当前MLLMs在此任务上表现不佳,最高准确率仅28.9%。

  • Motivation: 现有MLLMs评估框架主要关注图像推理或通用视频理解,忽视了图像上下文在视频理解中的重要作用。
  • Method: 提出IV-Bench,包含多样化的视频和图像文本查询任务,评估开源和闭源MLLMs的性能。
  • Result: 当前模型在图像基础视频感知与推理任务上表现较差,最高准确率28.9%。关键影响因素包括推理模式、帧数和分辨率。
  • Conclusion: IV-Bench揭示了当前模型的局限性,并为未来研究提供了重要方向。

[11] Manifold Induced Biases for Zero-shot and Few-shot Detection of Generated Images

Jonathan Brokman,Amit Giloni,Omer Hofman,Roman Vainshtein,Hisashi Kojima,Guy Gilboa

Main category: cs.CV

TL;DR: 该论文提出了一种基于概率流形分析的零样本和少样本图像检测方法,通过量化生成内容的偏置来区分真实与AI生成图像。

  • Motivation: 解决现有零样本和少样本图像检测方法缺乏理论支持且性能不足的问题。
  • Method: 利用预训练扩散模型分析概率流形的偏置,通过得分函数近似曲率、梯度和偏置,并采用专家混合方法扩展到少样本场景。
  • Result: 在20种生成模型上的实验表明,该方法在零样本和少样本场景中均优于现有方法。
  • Conclusion: 通过流形分析,该方法在理论和实践上推动了生成内容偏置的理解与应用。

[12] Emergence and Evolution of Interpretable Concepts in Diffusion Models

Berk Tinaz,Zalan Fabian,Mahdi Soltanolkotabi

Main category: cs.CV

TL;DR: 论文利用稀疏自编码器(SAEs)探究扩散模型的内部机制,发现其激活中存在可解释的概念,并展示了这些概念对生成过程的因果影响。

  • Motivation: 扩散模型在文本到图像生成中表现出色,但其内部机制仍不明确,阻碍了对生成过程的精确控制。
  • Method: 采用稀疏自编码器(SAEs)分析扩散模型的激活,识别可解释概念,并通过干预技术验证其因果效应。
  • Result: 发现扩散模型早期阶段可控制图像构图,中期阶段可调整风格,后期阶段仅能修改纹理细节。
  • Conclusion: SAEs为理解扩散模型提供了新视角,并展示了通过概念干预控制生成过程的潜力。

[13] CAPTURe: Evaluating Spatial Reasoning in Vision Language Models via Occluded Object Counting

Atin Pothiraj,Elias Stengel-Eskin,Jaemin Cho,Mohit Bansal

Main category: cs.CV

TL;DR: 论文提出了一项新任务CAPTURe,用于测试视觉语言模型(VLMs)对遮挡物体模式的理解和空间推理能力,发现现有模型在遮挡情况下表现较差,而人类表现优异。

  • Motivation: 遮挡物体在现实场景中常见,但现有模型对遮挡物体的理解和空间推理能力不足,需要新的测试任务来评估和改进。
  • Method: 提出CAPTURe任务,分为CAPTURe-real(真实图像)和CAPTURe-synthetic(合成图像),评估四种VLMs在遮挡和非遮挡模式下的计数能力。
  • Result: 模型在遮挡情况下表现更差,即使最强模型如GPT-4o也表现不佳,而人类表现优异。辅助信息可提升模型性能。
  • Conclusion: VLMs在遮挡物体推理和空间理解方面存在不足,CAPTURe为评估和改进模型提供了有效工具。

[14] InstaRevive: One-Step Image Enhancement via Dynamic Score Matching

Yixuan Zhu,Haolin Wang,Ao Li,Wenliang Zhao,Yansong Tang,Jingxuan Niu,Lei Chen,Jie Zhou,Jiwen Lu

Main category: cs.CV

TL;DR: InstaRevive是一个基于扩散蒸馏的图像增强框架,通过动态控制和文本提示减少采样步骤,提高生成质量和效率。

  • Motivation: 复杂环境和成像设备限制导致图像增强需求增加,现有扩散方法计算成本高。
  • Method: 采用分数扩散蒸馏和动态控制策略,结合文本提示辅助条件。
  • Result: 在多种任务和数据集上验证了高效性和高质量结果。
  • Conclusion: InstaRevive在图像增强中表现出色,兼具高效性和视觉吸引力。

Shichen Li,Chenhui Shao

Main category: cs.CV

TL;DR: 提出了一种多模态数据融合框架,用于实时预测食品干燥状态,显著降低了预测误差。

  • Motivation: 食品干燥的实时预测对节能、生产效率和产品质量至关重要,但现有方法因数据有限和动态性而难以实现。
  • Method: 采用端到端多模态数据融合框架,结合视频数据和过程参数,使用编码器-解码器架构和基于Transformer的解码器。
  • Result: 模型在糖饼干干燥实验中平均预测误差仅15秒,优于现有方法65.69%。
  • Conclusion: 该模型在精度、规模和效率上表现优异,适用于工业多模态任务。

[16] SonarT165: A Large-scale Benchmark and STFTrack Framework for Acoustic Object Tracking

Yunfeng Li,Bo Wang,Jiahao Wan,Xueyi Wu,Ye Li

Main category: cs.CV

TL;DR: 该论文提出了首个大规模水下声学目标跟踪(UAOT)基准SonarT165,并开发了高效框架STFTrack,通过多视角模板融合和最优轨迹校正模块提升性能。

  • Motivation: 水下能见度不足时,仅声纳系统能提供稳定数据,但缺乏统一评估基准限制了现有方法的价值。
  • Method: 提出SonarT165基准和STFTrack框架,包含多视角模板融合模块(MTFM)和最优轨迹校正模块(OTCM)。
  • Result: STFTrack在SonarT165上表现优异,超越现有最先进跟踪器。
  • Conclusion: SonarT165和STFTrack为UAOT任务提供了新基准和高效解决方案。

[17] HS-Mamba: Full-Field Interaction Multi-Groups Mamba for Hyperspectral Image Classification

Hongxing Peng,Kang Lin,Huanai Liu

Main category: cs.CV

TL;DR: 提出了一种基于Mamba架构的HS-Mamba框架,结合局部与全局特征,用于高光谱图像分类。

  • Motivation: 高光谱图像的高维度和特征内联特性对Mamba架构的应用提出了挑战,需要一种新方法结合局部与全局特征。
  • Method: 采用双通道空间-光谱编码器(DCSS-encoder)模块和轻量级全局内联注意力(LGI-Att)分支,融合局部与全局特征。
  • Result: 在四个基准数据集上优于现有方法。
  • Conclusion: HS-Mamba通过结合局部与全局特征,实现了高精度的高光谱图像分类。

[18] AdaViP: Aligning Multi-modal LLMs via Adaptive Vision-enhanced Preference Optimization

Jinda Lu,Jinghan Li,Yuan Gao,Junkang Wu,Jiancan Wu,Xiang Wang,Xiangnan He

Main category: cs.CV

TL;DR: AdaViP通过视觉增强的偏好优化方法,显著减少了多模态大语言模型在视觉和语言偏好对齐中的幻觉问题。

  • Motivation: 现有方法主要关注语言偏好,忽视了视觉上下文的重要性,导致模型在视觉细节上的表现不足。
  • Method: 提出AdaViP方法,包括基于视觉的偏好对构建和自适应偏好优化,以动态平衡视觉与语言偏好。
  • Result: AdaViP-7B在Object HalBench上分别减少了93.7%和96.4%的响应级和提及级幻觉,显著优于现有方法。
  • Conclusion: AdaViP通过视觉增强和自适应优化,有效提升了多模态大语言模型与人类偏好的对齐能力。

[19] FaceInsight: A Multimodal Large Language Model for Face Perception

Jingzhi Li,Changjiang Luo,Ruoyu Chen,Hua Zhang,Wenqi Ren,Jianhou Gan,Xiaochun Cao

Main category: cs.CV

TL;DR: FaceInsight是一种多模态大语言模型,专注于面部感知任务,通过视觉-文本对齐和面部分割图提升性能。

  • Motivation: 现有通用多模态大语言模型在面部感知任务中表现不佳,需要针对性改进。
  • Method: 引入视觉-文本对齐和面部分割图作为辅助模态,增强语义理解。
  • Result: 在三种面部感知任务中,FaceInsight优于九种对比模型。
  • Conclusion: FaceInsight填补了通用模型在面部感知领域的不足,表现显著提升。

[20] ZeroSlide: Is Zero-Shot Classification Adequate for Lifelong Learning in Whole-Slide Image Analysis in the Era of Pathology Vision-Language Foundation Models?

Doanh C. Bui,Hoai Luan Pham,Vu Trung Duong Le,Tuan Hai Vu,Van Duy Tran,Yasuhiko Nakashima

Main category: cs.CV

TL;DR: 比较传统持续学习方法与视觉语言零样本分类在WSI终身学习中的效果。

  • Motivation: 解决WSI终身学习中多任务统一模型的训练问题,避免每次新任务都需重新训练模型的高成本。
  • Method: 应用正则化和基于记忆的方法,并与视觉语言基础模型的零样本分类进行比较。
  • Result: 首次比较传统持续学习与视觉语言零样本分类在WSI任务中的表现,结果待公布。
  • Conclusion: 需进一步研究持续学习策略是否优于视觉语言零样本分类,以提升WSI终身学习性能。

[21] AffordanceSAM: Segment Anything Once More in Affordance Grounding

Dengyang Jiang,Mengmeng Wang,Teli Ma,Hengzhuang Li,Yong liu,Guang Dai,Lei Zhang

Main category: cs.CV

TL;DR: AffordanceSAM通过改进SAM的分割能力,提升了模型在未见物体和功能区域的泛化能力。

  • Motivation: 当前模型在泛化能力上不足,无法适应真实场景中的未见物体和功能区域识别需求。
  • Method: 提出AffordanceSAM,结合SAM的分割能力和自适应的功能区域调整模块,采用由粗到细的训练策略。
  • Result: 在AGD20K基准测试中超越现有方法,并能处理新物体和功能区域任务。
  • Conclusion: AffordanceSAM展示了强大的泛化能力,适用于真实场景中的功能区域识别。

[22] DiTPainter: Efficient Video Inpainting with Diffusion Transformers

Xian Wu,Chang Liu

Main category: cs.CV

TL;DR: DiTPainter是一种基于扩散变换器(DiT)的视频修复模型,通过高效设计的Transformer网络解决现有算法在模糊和不一致问题上的不足,且无需依赖大型预训练模型。

  • Motivation: 现有视频修复算法依赖光流传播像素,但在光流不准确或大遮挡区域时表现不佳;预训练的DiT模型参数过多,难以直接应用于视频修复。
  • Method: 提出DiTPainter,一种端到端的视频修复模型,基于高效Transformer网络,从头训练而非依赖预训练模型。
  • Result: DiTPainter在任意长度视频修复任务中表现优异,质量和时空一致性优于现有算法。
  • Conclusion: DiTPainter为视频修复提供了一种高效且高质量的解决方案,适用于视频去字幕和视频补全任务。

[23] Motion-Enhanced Nonlocal Similarity Implicit Neural Representation for Infrared Dim and Small Target Detection

Pei Liu,Yisi Luo,Wenzhen Wang,Xiangyong Cao

Main category: cs.CV

TL;DR: 提出了一种基于运动增强的非局部相似性隐式神经表示(INR)框架,用于红外弱小目标检测,通过光流和多帧融合增强运动显著性,并利用非局部相似性和张量分解建模背景的低秩性和时空相关性。

  • Motivation: 传统低秩加稀疏模型难以处理动态背景和全局时空相关性,导致背景泄漏或目标丢失。
  • Method: 结合光流运动估计和多帧融合增强运动显著性,利用非局部相似性构建低秩张量,提出基于张量分解的INR模型。
  • Result: 实验表明,该方法能有效分离弱小目标与复杂背景,检测精度和鲁棒性优于现有方法。
  • Conclusion: 提出的INR框架在红外弱小目标检测中表现出色,解决了动态背景和目标弱信号的挑战。

[24] DINOv2-powered Few-Shot Semantic Segmentation: A Unified Framework via Cross-Model Distillation and 4D Correlation Mining

Wei Zhuo,Zhiyue Tang,Wufeng Xue,Hao Ding,Linlin Shen

Main category: cs.CV

TL;DR: 论文提出FS-DINO,一种基于DINOv2和SAM的双模态框架,通过轻量级分割器和跨模型蒸馏实现少样本语义分割。

  • Motivation: 解决少样本语义分割中数据稀缺问题,探索如何统一利用DINOv2和SAM的知识。
  • Method: 采用DINOv2编码器和轻量级分割器,结合瓶颈适配器、元视觉提示生成器和解码器,通过跨模型蒸馏整合SAM知识。
  • Result: 在COCO-20i、PASCAL-5i和FSS-1000数据集上验证了方法的有效性和优越性。
  • Conclusion: FS-DINO成功整合了双模态知识,为少样本语义分割提供了高效解决方案。

[25] Vidi: Large Multimodal Models for Video Understanding and Editing

Vidi Team,Celong Liu,Chia-Wen Kuo,Dawei Du,Fan Chen,Guang Chen,Jiamin Yuan,Lingxi Zhang,Lu Guo,Lusha Li,Longyin Wen,Qingyu Chen,Rachel Deng,Sijie Zhu,Stuart Siew,Tong Jin,Wei Lu,Wen Zhong,Xiaohui Shen,Xin Gu,Xing Mei,Xueqiong Qu

Main category: cs.CV

TL;DR: Vidi是一个大型多模态模型家族,专注于视频理解和编辑任务,特别是时间范围检索,能够处理长视频并显著优于现有模型。

  • Motivation: 视频已成为互联网上主要的交流媒介,但传统模型在多模态处理和长视频理解方面存在挑战,需要更强大的工具支持高质量视频编辑。
  • Method: Vidi模型专注于时间范围检索,能够处理小时级别的长视频,并支持多模态输入(如视觉、音频、文本)。
  • Result: Vidi在时间范围检索任务上显著优于GPT-4o和Gemini等专有模型,展示了其在视频编辑场景中的优越性。
  • Conclusion: Vidi模型及其配套的VUE-TR基准为视频编辑提供了强大的工具,未来有望进一步扩展其应用范围。

[26] You Sense Only Once Beneath: Ultra-Light Real-Time Underwater Object Detection

Jun Dong,Wenli Wu,Jintao Cheng,Xiaoyu Tang

Main category: cs.CV

TL;DR: 提出了一种超轻量实时水下目标检测框架YSOOB,通过多频谱小波编码和动态信息增强技术,显著提升了模型在低质量水下图像中的性能,同时减少了参数量和计算需求。

  • Motivation: 水下环境中的图像质量低和计算资源有限,限制了目标检测模型的准确性和效率,需要一种轻量且高效的解决方案。
  • Method: 采用多频谱小波编码(MSWE)减少光学颜色失真,动态选择关键信息增强模型泛化能力,并通过通道压缩和大核卷积重构(RLKC)实现模型轻量化。
  • Result: YSOOB仅120万参数,在URPC2020和DUO数据集上分别达到83.1%和82.9%的mAP50,推理速度在T4 GPU和Jetson Xavier NX上分别达到781.3 FPS和57.8 FPS。
  • Conclusion: YSOOB在保持高性能的同时显著降低了模型复杂度,适用于资源受限的水下目标检测场景。

[27] RePOPE: Impact of Annotation Errors on the POPE Benchmark

Yannic Neuhaus,Matthias Hein

Main category: cs.CV

TL;DR: 研究评估了MSCOCO标签错误对POPE基准的影响,重新标注后发现标签错误分布不均,修正后的RePOPE基准显著改变了模型排名。

  • Motivation: 由于数据标注成本高,基准数据集常沿用现有标签,但标签错误可能影响评估结果。
  • Method: 重新标注POPE基准图像,分析标签错误分布,并基于修正标签(RePOPE)评估多个模型。
  • Result: 发现标签错误分布不均,修正后模型排名显著变化。
  • Conclusion: 标签质量对基准评估有重要影响,RePOPE提供了更可靠的评估标准。

[28] Structure-Preserving Zero-Shot Image Editing via Stage-Wise Latent Injection in Diffusion Models

Dasol Jeong,Donggoo Kang,Jiwon Park,Hyebean Lee,Joonki Paik

Main category: cs.CV

TL;DR: 提出一种基于扩散的零样本图像编辑框架,统一文本引导和参考引导方法,无需微调。

  • Motivation: 旨在实现无需微调的统一图像编辑方法,保持源图像结构完整性。
  • Method: 利用扩散反演和时间步特定的空文本嵌入,结合分阶段潜在注入策略(早期形状注入,后期属性注入)。
  • Result: 在表情转移、纹理变换和风格注入等任务中表现优异,验证了方法的可扩展性和适应性。
  • Conclusion: 该方法在多样化的图像编辑场景中表现出色,具有广泛的应用潜力。

[29] SAGA: Semantic-Aware Gray color Augmentation for Visible-to-Thermal Domain Adaptation across Multi-View Drone and Ground-Based Vision Systems

Manjunath D,Aniruddh Sikdar,Prajwal Gurunath,Sumanth Udupa,Suresh Sundaram

Main category: cs.CV

TL;DR: 论文提出了一种名为SAGA的新策略,用于减少RGB到IR域适应的颜色偏差,并引入了多传感器数据集IndraEye,验证了SAGA的有效性。

  • Motivation: 解决RGB到IR域适应中因缺乏颜色和纹理线索导致的模型性能下降问题。
  • Method: 提出Semantic-Aware Gray color Augmentation (SAGA)策略,提取与IR图像相关的对象级特征。
  • Result: SAGA在RGB到IR域适应中显著提升性能,mAP提高0.4%至7.6%。
  • Conclusion: SAGA和IndraEye数据集为多模态学习和域适应提供了新工具,提升了空中感知系统的鲁棒性和准确性。

[30] GADS: A Super Lightweight Model for Head Pose Estimation

Menan Velayuthan,Asiri Gawesha,Purushoth Velayuthan,Nuwan Kodagoda,Dharshana Kasthurirathna,Pradeepa Samarasinghe

Main category: cs.CV

TL;DR: 提出了一种基于Deep Set框架的新架构GADS,通过分组地标和使用小型Deep Set层降低计算复杂度,显著减小模型大小并提高速度。

  • Motivation: 现有基于地标的方法过于注重精度而忽视简单性和模型大小,限制了在边缘设备和计算资源有限环境中的部署。
  • Method: 采用分组地标和Deep Set层,结合多头注意力机制提取和组合组间信息,提出GADS和Hybrid-GADS两种模型。
  • Result: 模型比当前最轻量级模型小7.5倍,速度快25倍,比性能最佳模型小4321倍,并在三个基准数据集上验证。
  • Conclusion: GADS架构为资源受限的头姿估计方法提供了强有力的基线。

[31] DSDNet: Raw Domain Demoiréing via Dual Color-Space Synergy

Qirui Yang,Fangpu Zhang,Yeying Jin,Qihua Cheng,Pengtao Jiang,Huanjing Yue,Jingyu Yang

Main category: cs.CV

TL;DR: 提出了一种单阶段原始域去摩尔纹框架DSDNet,通过双流网络和动态调制模块提升视觉质量与效率。

  • Motivation: 移动成像中摩尔纹问题严重,现有方法存在信息丢失或效率不足。
  • Method: 结合原始域与YCbCr图像,设计动态调制模块和自适应变换器。
  • Result: DSDNet在视觉质量和速度上优于现有方法。
  • Conclusion: DSDNet高效解决了摩尔纹问题,具有实际应用优势。

[32] Multi-Scale Tensorial Summation and Dimensional Reduction Guided Neural Network for Edge Detection

Lei Xu,Mehmet Yamac,Mete Ahishali,Moncef Gabbouj

Main category: cs.CV

TL;DR: 提出了一种基于MTS-DR模块的新神经网络MTS-DR-Net,用于边缘检测任务,通过减少冗余信息并聚焦相关子空间,显著提升了性能。

  • Motivation: 边缘检测在计算机视觉任务中具有重要作用,现有深度学习方法需要大感受野,但传统方法网络结构较深。MTS因子化算子能实现大感受野,但冗余信息较多,需进一步优化。
  • Method: 提出MTS-DR模块,结合MTS层和MTS-DR块作为新主干网络,减少冗余信息,并采用U形细化模块优化结果。
  • Result: 在BSDS500和BIPEDv2数据集上验证了MTS-DR-Net的有效性。
  • Conclusion: MTS-DR-Net通过减少冗余和聚焦相关子空间,显著提升了边缘检测性能。

[33] Pose Optimization for Autonomous Driving Datasets using Neural Rendering Models

Quentin Herau,Nathan Piasco,Moussab Bennehar,Luis Rolado,Dzmitry Tsishkou,Bingbing Liu,Cyrille Migniot,Pascal Vasseur,Cédric Demonceaux

Main category: cs.CV

TL;DR: 提出了一种基于NeRF的优化方法,用于改进自动驾驶数据集中传感器位姿和校准参数,提升数据集的准确性。

  • Motivation: 公共数据集中的传感器校准和车辆位姿不准确可能导致下游任务评估错误,影响自动驾驶系统的可靠性。
  • Method: 采用NeRF进行传感器位姿和校准参数的优化,并通过重投影指标、新视角合成渲染质量和几何对齐进行验证。
  • Result: 方法显著提高了传感器位姿的准确性,优化后的数据集提升了自动驾驶模型的可靠性。
  • Conclusion: 优化后的传感器位姿公开可用,为研究社区提供了宝贵资源,推动了自动驾驶领域的进步。

[34] Model-based Metric 3D Shape and Motion Reconstruction of Wild Bottlenose Dolphins in Drone-Shot Videos

Daniele Baieri,Riccardo Cicciarella,Michael Krützen,Emanuele Rodolà,Silvia Zuffi

Main category: cs.CV

TL;DR: 提出一种基于模型的单目视频方法,用于估计野生海豚的3D形状和运动,以评估其身体状况。

  • Motivation: 水生动物在自然水下环境中的观测困难,导致其3D重建研究较少。
  • Method: 采用基于模型的方法,结合传输模型以解决水引起的遮挡问题。
  • Result: 在不同海况下捕获的视频中估计质量和体积,并与手动2D测量方法进行比较。
  • Conclusion: 该方法为水生动物3D重建提供了可行方案。

[35] Towards prediction of morphological heart age from computed tomography angiography

Johan Öfverstedt,Elin Lundström,Håkan Ahlström,Joel Kullberg

Main category: cs.CV

TL;DR: 该研究通过CTA图像预测年龄,开发了一种新的心脏形态年龄生物标志物,并分析了形态与衰老的关系。

  • Motivation: 研究心脏形态与衰老的关系,并开发一种新的心脏形态年龄生物标志物。
  • Method: 使用图像配准方法标准化图像,提取密度和局部体积的稳健特征,训练机器学习回归模型预测年龄。
  • Result: 在SCAPIS数据集中,女性和男性的平均绝对误差分别为2.74和2.77年,预测结果与形态高度一致。
  • Conclusion: 形态学预测年龄具有高一致性,显著性分析揭示了与年龄相关的关键区域,提高了模型的可解释性。

[36] Satellite to GroundScape -- Large-scale Consistent Ground View Generation from Satellite Views

Ningli Xu,Rongjun Qin

Main category: cs.CV

TL;DR: 提出了一种基于固定潜在扩散模型的新方法,通过卫星引导和卫星时间条件模块,解决卫星图像生成地面视图时的视角和分辨率差异问题,实现了多视图一致性和高真实感。

  • Motivation: 卫星图像与地面视图在视角和分辨率上存在巨大差异,现有方法在生成多视图时难以保持一致性。
  • Method: 采用固定潜在扩散模型,引入卫星引导去噪和卫星时间去噪模块,分别提取场景布局和相机运动信息。
  • Result: 实验表明,该方法在感知和时间指标上优于现有方法,生成了高真实感和一致性的多视图输出。
  • Conclusion: 该方法有效解决了跨视图合成中的一致性问题,为大规模地面场景或视频生成提供了新思路。

[37] Development and evaluation of a deep learning algorithm for German word recognition from lip movements

Dinh Nam Pham,Torsten Rahne

Main category: cs.CV

TL;DR: 论文开发了一种基于神经网络的德语唇读算法,通过3D CNN和GRU模型结合,在已知和未知说话者中均表现出高准确率。

  • Motivation: 现有唇读算法多针对英语,德语缺乏相关研究,且传统唇读依赖视觉信息易出错。
  • Method: 使用1806个德语视频片段,提取18个多音节词训练3D CNN和GRU模型,比较不同图像区域和色彩空间。
  • Result: GRUConv模型在已知说话者中准确率达87%,未知说话者中63%;唇部区域裁剪显著提升准确率至70%。
  • Conclusion: 该德语唇读算法表现优异,可推广至更多词汇类别,填补了德语领域空白。

[38] Locating and Mitigating Gradient Conflicts in Point Cloud Domain Adaptation via Saliency Map Skewness

Jiaqi Tang,Yinsong Xu,Qingchao Chen

Main category: cs.CV

TL;DR: 提出了一种基于显著性图的采样方法(SM-DSB),用于解决点云无监督域适应中梯度冲突问题,提升分类性能。

  • Motivation: 现有方法在多任务学习框架中结合自监督任务,但部分梯度对分类性能有害,需解决梯度冲突问题。
  • Method: 设计基于3D显著性图偏度的评分机制,动态筛选有益样本,避免有害梯度影响。
  • Result: 方法在性能上优于现有技术,且计算开销低,适用于所有点云UDA框架。
  • Conclusion: SM-DSB有效解决了梯度冲突问题,为UDA问题提供了新的分析视角。

[39] Human-Imperceptible Physical Adversarial Attack for NIR Face Recognition Models

Songyan Xie,Jinghang Wen,Encheng Su,Qiucheng Yu

Main category: cs.CV

TL;DR: 该论文提出了一种针对近红外(NIR)人脸识别系统的隐蔽且实用的对抗性补丁攻击方法,通过红外吸收墨水生成数字优化的补丁,并利用光反射模型减少数字与真实世界成像的差异。

  • Motivation: 近红外人脸识别系统在低光或化妆条件下表现良好,但易受物理对抗攻击。研究旨在揭示实际应用中的潜在风险。
  • Method: 使用人眼不可见的红外吸收墨水生成补丁,并通过光反射模型优化补丁形状和位置以减少数字与真实成像的差异。
  • Result: 实验表明,该方法在数字和物理领域的攻击成功率均优于现有技术,物理领域平均成功率达82.46%。
  • Conclusion: 该方法显著提高了对抗性攻击的成功率,尤其在多姿态人脸识别中表现优异,凸显了NIR系统的安全风险。

[40] Text-based Animatable 3D Avatars with Morphable Model Alignment

Yiqian Wu,Malte Prinzler,Xiaogang Jin,Siyu Tang

Main category: cs.CV

TL;DR: 提出了一种新框架AnimPortrait3D,通过结合预训练模型和ControlNet,解决了文本生成3D头像时的外观、几何和对齐问题,提升了动画质量。

  • Motivation: 现有方法在生成高质量、可动画的3D头像时,因2D扩散预测的模糊性和参数化模型对齐不足,导致细节不真实和动画不自然。
  • Method: 利用预训练文本到3D模型初始化头像,并通过ControlNet结合语义和法线图优化动态表情,确保对齐。
  • Result: 实验表明,该方法在合成质量、对齐和动画保真度上优于现有方法。
  • Conclusion: AnimPortrait3D在文本生成可动画3D头像领域取得了显著进展。

[41] DERD-Net: Learning Depth from Event-based Ray Densities

Diego de Oliveira Hitzges,Suman Ghosh,Guillermo Gallego

Main category: cs.CV

TL;DR: 提出了一种用于事件相机深度估计的可扩展、灵活且适应性强的框架,通过处理局部子区域的DSIs,结合3D卷积和循环结构,显著提升了性能。

  • Motivation: 传统深度学习框架难以处理事件数据的异步流特性,因此需要一种新的方法来高效利用事件相机的高速度和广泛光照适应性。
  • Method: 将3D场景结构编码为DSIs,通过3D卷积和循环结构处理局部子区域,实现像素级深度估计。
  • Result: 在标准数据集上表现优异:单目数据媲美现有立体方法,立体数据性能超越SOTA,误差降低至少42%,深度完整性提升3倍以上。
  • Conclusion: 该框架在事件相机深度估计和SLAM中具有成为标准方法的潜力。

Lotfi Abdelkrim Mecharbat,Ibrahim Elmakky,Martin Takac,Mohammed Yaqub

Main category: cs.CV

TL;DR: MedNNS是一种针对医学影像的神经架构搜索框架,联合优化架构选择和权重初始化,显著提升模型性能。

  • Motivation: 医学影像任务中,深度学习模型的架构选择和权重初始化是关键挑战,现有方法(如ImageNet迁移学习)效果有限。
  • Method: MedNNS通过构建元空间联合优化架构和权重,采用超网络方法扩展模型库,并引入排名损失和FID损失。
  • Result: 实验显示MedNNS优于ImageNet预训练模型和现有NAS方法,平均准确率提升1.7%,收敛速度更快。
  • Conclusion: MedNNS为医学影像任务提供了一种高效的神经架构搜索解决方案。

[43] Integrating Non-Linear Radon Transformation for Diabetic Retinopathy Grading

Farida Mohsen,Samir Belhaouari,Zubair Shah

Main category: cs.CV

TL;DR: RadFuse是一个多表示深度学习框架,通过结合RadEx变换的sinogram图像和传统眼底图像,显著提升了糖尿病视网膜病变的检测和分级效果。

  • Motivation: 糖尿病视网膜病变的早期检测和准确分级对预防视力丧失至关重要。现有方法难以捕捉眼底图像中复杂、不规则的病变模式。
  • Method: 提出RadFuse框架,整合非线性RadEx变换生成的sinogram图像和传统眼底图像,利用空间和变换域信息增强特征提取。
  • Result: 在APTOS-2019和DDR数据集上,RadFuse在五级严重性分级和二元分类任务中均优于现有方法,表现显著提升。
  • Conclusion: RadFuse通过捕捉复杂非线性特征,推动了糖尿病视网膜病变分类的进步,并促进了先进数学变换在医学图像分析中的应用。

[44] MS-Occ: Multi-Stage LiDAR-Camera Fusion for 3D Semantic Occupancy Prediction

Zhiqiang Wei,Lianqing Zheng,Jianan Liu,Tao Huang,Qing-Long Han,Wenwen Zhang,Fengdeng Zhang

Main category: cs.CV

TL;DR: MS-Occ是一种新型的多阶段LiDAR-相机融合框架,通过中间和后期融合结合几何和语义信息,显著提升了3D语义占用感知性能。

  • Motivation: 解决视觉方法几何不准确和LiDAR方法语义信息不足的问题,提升自动驾驶在复杂环境中的感知能力。
  • Method: 提出多阶段融合框架,包括Gaussian-Geo模块增强几何信息,Semantic-Aware模块丰富语义信息,以及AF和HCCVF模块动态平衡和优化特征。
  • Result: 在nuScenes-OpenOccupancy基准测试中,IoU和mIoU分别达到32.1%和25.3%,超越现有方法。
  • Conclusion: MS-Occ通过模块化设计显著提升了感知性能,尤其在小型物体感知上表现突出,适用于安全关键场景。

[45] Ask2Loc: Learning to Locate Instructional Visual Answers by Asking Questions

Chang Zong,Bin Li,Shoujun Zhou,Jian Wan,Lei Zhang

Main category: cs.CV

TL;DR: 论文提出了一种新任务In-VAL,模拟人与视频的多轮交互以获取视觉答案,并提出了Ask2Loc框架,通过提问解决语义鸿沟问题,性能提升显著。

  • Motivation: 用户在获取视频指导知识时需要多次交互,传统方法无法有效模拟这一过程,因此提出In-VAL任务。
  • Method: 提出Ask2Loc框架,包含聊天模块、重写模块和搜索模块,分别解决意图模糊、语言不完整和内容碎片化问题。
  • Result: 在三个重构数据集上实验,Ask2Loc性能提升高达14.91(mIoU)。
  • Conclusion: Ask2Loc通过多模块协作有效解决了In-VAL任务中的语义鸿沟问题,性能优于传统方法。

[46] ViSMaP: Unsupervised Hour-long Video Summarisation by Meta-Prompting

Jian Hu,Dimitrios Korkinof,Shaogang Gong,Mariano Beguerisse-Diaz

Main category: cs.CV

TL;DR: ViSMaP是一种无监督视频摘要系统,利用LLMs生成伪摘要,避免了对长视频的昂贵标注需求。

  • Motivation: 解决长视频摘要中相关事件稀疏且未分段的问题,同时减少对昂贵标注的依赖。
  • Method: 采用元提示策略,通过三个LLMs迭代生成和优化伪摘要,利用短视频模型的描述指导摘要生成。
  • Result: 在多个数据集上表现与全监督最先进模型相当,且能跨领域泛化。
  • Conclusion: ViSMaP提供了一种高效的无监督长视频摘要方法,性能接近全监督模型。

[47] A Clinician-Friendly Platform for Ophthalmic Image Analysis Without Technical Barriers

Meng Wang,Tian Lin,Qingshan Hou,Aidi Lin,Jingcheng Wang,Qingsheng Peng,Truong X. Nguyen,Danqi Fang,Ke Zou,Ting Xu,Cancan Xue,Ten Cheer Quek,Qinkai Yu,Minxin Liu,Hui Zhou,Zixuan Xiao,Guiqin He,Huiyu Liang,Tingkun Shi,Man Chen,Linna Liu,Yuanyuan Peng,Lianyu Wang,Qiuming Hu,Junhong Chen,Zhenhua Zhang,Cheng Chen,Yitian Zhao,Dianbo Liu,Jianhua Wu,Xinjian Chen,Changqing Zhang,Triet Thanh Nguyen,Yanda Meng,Yalin Zheng,Yih Chung Tham,Carol Y. Cheung,Huazhu Fu,Haoyu Chen,Ching-Yu Cheng

Main category: cs.CV

TL;DR: GlobeReady是一个无需重新训练即可跨临床中心使用的AI平台,用于眼科疾病诊断,具有高准确性和用户友好性。

  • Motivation: 解决AI模型在不同临床中心部署时需要重新训练的问题,推动AI在医疗影像诊断中的广泛应用。
  • Method: 采用无需训练的局部特征增强技术,应对不同中心和人群的领域偏移,并提供可量化的置信度诊断方法。
  • Result: 在多种影像模态和多个国家的临床中心中表现出高准确性(最高99.4%),并得到临床医生高度评价(平均4.6/5)。
  • Conclusion: GlobeReady展示了无需技术障碍的稳健、可扩展的诊断能力,有望支持全球眼科护理。

[48] Meta-Entity Driven Triplet Mining for Aligning Medical Vision-Language Models

Saban Ozturk,Melih B. Yilmaz,Muti Kara,M. Talat Yavuz,Aykut Koç,Tolga Çukur

Main category: cs.CV

TL;DR: MedTrim是一种新型医学视觉语言模型对齐方法,通过多模态三元组学习优化图像与文本的对齐,提升细粒度病理特征的表示能力。

  • Motivation: 现有医学视觉语言模型的对齐方法主要关注疾病类别的分离,而忽略了细粒度病理特征(如位置、大小或严重程度)的区分,导致表示效果不佳。
  • Method: 提出MedTrim方法,结合疾病类别和病理描述符(形容词和方向性描述)进行多模态三元组学习,并通过结构化元实体信息提取和新型评分函数优化样本选择。
  • Result: MedTrim在下游检索和分类任务中表现优于现有对齐方法。
  • Conclusion: MedTrim通过细粒度病理特征的对齐优化,显著提升了医学视觉语言模型的性能。

[49] Benchmarking the Reproducibility of Brain MRI Segmentation Across Scanners and Time

Ekaterina Kondrateva,Sandzhi Barg,Mikhail Vasiliev

Main category: cs.CV

TL;DR: 研究比较了FastSurfer和SynthSeg两种脑部MRI分割方法,发现小脑区体积变化可达7-8%,探讨了检测5-10%细微变化的可行性,并提出改进策略。

  • Motivation: 脑部MRI形态测量的准确性和可重复性对监测神经解剖变化至关重要,但扫描仪差异和可重复性问题限制了其应用。
  • Method: 使用SIMON纵向数据和SRPBS多站点数据,通过Dice系数、Surface Dice、HD95和MAPE量化分割变异性。
  • Result: 发现小脑区体积变化达7-8%,并分析了配准模板和插值模式的影响,提出基于表面的质量过滤方法。
  • Conclusion: 研究为形态测量可重复性提供了基准,强调实际研究中需采用标准化策略。

[50] Reasoning Physical Video Generation with Diffusion Timestep Tokens via Reinforcement Learning

Wang Lin,Liyu Jia,Wentao Hu,Kaihang Pan,Zhongqi Yue,Wei Zhao,Jingyuan Chen,Fei Wu,Hanwang Zhang

Main category: cs.CV

TL;DR: 提出了一种结合符号推理和强化学习的视频生成方法Phys-AR,通过扩散时间步标记器(DDT)和两阶段训练框架,确保生成的视频符合物理规律。

  • Motivation: 传统基于扩散的方法难以处理未见过的物理条件(如速度),因此需要一种新方法来增强视频生成的物理一致性。
  • Method: 1. 引入扩散时间步标记器(DDT)学习离散递归视觉标记;2. 提出Phys-AR框架,分两阶段训练:符号知识迁移和强化学习优化。
  • Result: 实验证明Phys-AR能生成物理一致的视频。
  • Conclusion: 结合符号推理和强化学习的方法有效提升了视频生成的物理一致性。

[51] FreeGraftor: Training-Free Cross-Image Feature Grafting for Subject-Driven Text-to-Image Generation

Zebin Yao,Lei Ren,Huixing Jiang,Chen Wei,Xiaojie Wang,Ruifan Li,Fangxiang Feng

Main category: cs.CV

TL;DR: FreeGraftor是一种无需训练的图像生成框架,通过跨图像特征嫁接实现高效且高保真的主题驱动图像生成。

  • Motivation: 现有方法在主题驱动图像生成中存在保真度与效率的权衡问题,调优方法耗时耗资源,零样本方法则难以保持主题一致性。
  • Method: 采用语义匹配和位置约束注意力融合技术,结合新颖的噪声初始化策略,实现参考主题到生成图像的视觉细节转移。
  • Result: 实验表明,FreeGraftor在主题保真度和文本对齐方面显著优于现有零样本和无训练方法,并能扩展到多主题生成。
  • Conclusion: FreeGraftor无需微调或额外训练,为实际应用提供了高效且高质量的解决方案。

[52] Efficient Adaptation of Deep Neural Networks for Semantic Segmentation in Space Applications

Leonardo Olivi,Edoardo Santero Mormile,Enzo Tartaglione

Main category: cs.CV

TL;DR: 论文探讨了在月球和火星地形中,通过适配器实现高效迁移学习用于岩石分割的可行性,并提出了两种内存节省策略。

  • Motivation: 解决地外探索中标记数据稀缺的问题,同时减少目标设备的带宽和内存需求。
  • Method: 在预训练骨干模型中集成适配器,采用层融合和适配器排名两种策略。
  • Result: 适配器成功减少了带宽和内存需求,并在嵌入式设备上验证了性能、内存和计算的权衡。
  • Conclusion: 研究为地外探索中的迁移学习提供了新思路,并指出了未来研究方向。

[53] MVQA: Mamba with Unified Sampling for Efficient Video Quality Assessment

Yachun Mi,Yu Li,Weicheng Meng,Chaofeng Chen,Chen Hui,Shaohui Liu

Main category: cs.CV

TL;DR: MVQA结合USDS方法,通过Mamba模型和双采样策略,实现了高效视频质量评估,性能接近SOTA,速度提升2倍且GPU内存需求仅为1/5。

  • Motivation: 长时长高清视频的快速增长使得高效视频质量评估(VQA)成为关键挑战,现有方法在效率与性能平衡上存在不足。
  • Method: 提出MVQA模型,基于Mamba结构,结合USDS双采样策略(语义和失真采样),并通过预定义掩码融合以减少计算负担。
  • Result: MVQA性能接近SOTA方法,速度提升2倍,GPU内存需求仅为1/5。
  • Conclusion: MVQA和USDS为高效VQA提供了新思路,平衡了性能与效率。

[54] Efficient Temporal Consistency in Diffusion-Based Video Editing with Adaptor Modules: A Theoretical Framework

Xinyuan Song,Yangfan He,Sida Li,Jianhui Wang,Hongyang He,Xinhang Yuan,Ruoyu Wang,Jiaqi Chen,Keqin Li,Kuan Lu,Menghao Huo,Binxu Li,Pei Liu

Main category: cs.CV

TL;DR: 论文提出了一种理论框架,用于在DDIM模型中通过适配器保持帧一致性,证明了时间一致性目标的可微性,并分析了梯度下降的收敛性和模块稳定性。

  • Motivation: 提升扩散模型在视频编辑任务中的帧间一致性,同时减少训练成本。
  • Method: 在预训练扩散模型中插入小型可学习模块(适配器),结合共享和帧特定标记的提示学习,并通过时间一致性损失优化。
  • Result: 证明了时间一致性目标的可微性,建立了梯度的Lipschitz界,并展示了梯度下降的收敛性及模块稳定性。
  • Conclusion: 为基于适配器的扩散视频编辑方法提供了理论支持,增强了其可靠性。

[55] PointLoRA: Low-Rank Adaptation with Token Selection for Point Cloud Learning

Song Wang,Xiaolu Liu,Lingdong Kong,Jianyun Xu,Chunyong Hu,Gongfan Fang,Wentong Li,Jianke Zhu,Xinchao Wang

Main category: cs.CV

TL;DR: PointLoRA提出了一种结合低秩适应(LoRA)和多尺度令牌选择的方法,用于高效微调点云模型,显著减少可调参数,同时保持性能。

  • Motivation: 随着预训练模型复杂度增加,完全微调需要大量计算和存储资源,现有参数高效微调方法依赖复杂机制,增加了可调参数。
  • Method: 在点云变换器中最耗参数的组件中嵌入LoRA层,结合多尺度令牌选择提取关键局部信息作为提示。
  • Result: 实验表明,仅需3.43%的可调参数即可实现竞争性性能。
  • Conclusion: PointLoRA是一种简单高效的方法,适用于资源受限的应用。

[56] LiveCC: Learning Video LLM with Streaming Speech Transcription at Scale

Joya Chen,Ziyun Zeng,Yiqi Lin,Wei Li,Zejun Ma,Mike Zheng Shou

Main category: cs.CV

TL;DR: 论文提出了一种利用自动语音识别(ASR)转录文本进行视频大语言模型(Video LLM)大规模训练的方法,通过流式训练实现细粒度的视觉-语言对齐,并发布了相关数据集和模型。

  • Motivation: 现有视频大语言模型依赖昂贵的人工标注或专有API,限制了规模化训练。本文探索利用低成本ASR转录文本进行训练。
  • Method: 提出流式训练方法,将ASR单词与视频帧按时间戳密集交错,并构建数据处理管道生成预训练和微调数据集。
  • Result: 仅ASR预训练的模型在视频问答中表现优异,并具备实时视频评论能力;最终模型在多个基准测试中超越更大规模模型。
  • Conclusion: 该方法展示了利用ASR实现高效视频大语言模型训练的潜力,并开源了相关资源。

[57] Evaluating Vision Language Models (VLMs) for Radiology: A Comprehensive Analysis

Frank Li,Hari Trivedi,Bardia Khosravi,Theo Dapamede,Mohammadreza Chavoshi,Abdulhameed Dere,Rohan Satya Isaac,Aawez Mansuri,Janice Newsome,Saptarshi Purkayastha,Judy Gichoya

Main category: cs.CV

TL;DR: 研究评估了三种视觉-语言基础模型(RAD-DINO、CheXagent和BiomedCLIP)在放射学任务中的表现,发现预训练方法对下游任务性能有显著影响。

  • Motivation: 探索基础模型在医学影像任务中的应用潜力,尤其是对不同预训练方法的性能比较。
  • Method: 评估三种模型在胸部X光片的气胸和心脏肥大任务中的分类、分割和回归表现,并设计了一个结合全局和局部特征的自定义分割模型。
  • Result: RAD-DINO在分割任务中表现最佳,CheXagent在分类任务中领先,BiomedCLIP表现不稳定。自定义模型显著提升了所有模型的分割性能。
  • Conclusion: 预训练方法对任务性能有显著影响,无文本监督的模型更适合分割任务,而文本监督模型在分类和可解释性上更优。

[58] Vision language models are unreliable at trivial spatial cognition

Sangeet Khemlani,Tyler Tran,Nathaniel Gyory,Anthony M. Harrison,Wallace E. Lawson,Ravenna Thielstrom,Hunter Thompson,Taaren Singh,J. Gregory Trafton

Main category: cs.CV

TL;DR: VLMs在空间认知任务中的可靠性测试,发现性能受提示微小变化影响,揭示了其空间关系推理的局限性。

  • Motivation: 测试VLMs在简单空间认知任务中的可靠性,以评估其在实际应用中的表现。
  • Method: 开发TableTest基准数据集,评估VLMs在识别物体空间关系任务中的表现。
  • Result: VLMs性能受提示微小变化影响,表现出空间关系推理的局限性。
  • Conclusion: VLMs在空间推理方面存在不足,需优化训练数据以提升性能。

[59] Boosting Generative Image Modeling via Joint Image-Feature Synthesis

Theodoros Kouzelis,Efstathios Karypidis,Ioannis Kakogeorgiou,Spyros Gidaris,Nikos Komodakis

Main category: cs.CV

TL;DR: 提出了一种结合低层图像潜在表示和高层语义特征的生成图像建模框架,通过扩散模型联合建模,显著提升生成质量和训练效率。

  • Motivation: 解决潜在扩散模型中表示学习与生成建模的整合问题。
  • Method: 利用扩散模型联合建模变分自编码器的低层图像潜在和预训练自监督编码器的高层语义特征。
  • Result: 在条件和无条件生成任务中均显著提升图像质量和训练收敛速度。
  • Conclusion: 为表示感知的生成建模开辟了新方向,简化训练并解锁了新的推理策略。

[60] Describe Anything: Detailed Localized Image and Video Captioning

Long Lian,Yifan Ding,Yunhao Ge,Sifei Liu,Hanzi Mao,Boyi Li,Marco Pavone,Ming-Yu Liu,Trevor Darrell,Adam Yala,Yin Cui

Main category: cs.CV

TL;DR: DAM模型通过局部细节和全局上下文结合,实现了图像和视频的详细局部描述,并在多个基准测试中取得最佳性能。

  • Motivation: 解决视觉语言模型在生成图像和视频局部详细描述时的挑战。
  • Method: 提出DAM模型,结合焦点提示和局部视觉骨干网络,并通过半监督学习的数据管道DLC-SDP解决数据稀缺问题。
  • Result: DAM在7个基准测试中达到最新最优性能。
  • Conclusion: DAM为局部详细描述任务提供了高效解决方案,并通过DLC-Bench推动了无参考描述的评估。

[61] From Reflection to Perfection: Scaling Inference-Time Optimization for Text-to-Image Diffusion Models via Reflection Tuning

Le Zhuo,Liangbing Zhao,Sayak Paul,Yue Liao,Renrui Zhang,Yi Xin,Peng Gao,Mohamed Elhoseiny,Hongsheng Li

Main category: cs.CV

TL;DR: ReflectionFlow是一个推理时框架,通过噪声级、提示级和反射级三个扩展轴,帮助扩散模型迭代优化输出质量。

  • Motivation: 现有文本到图像扩散模型在复杂场景和细节处理上表现不佳,受大语言模型自反思能力启发,提出改进方案。
  • Method: 引入噪声级、提示级和反射级三个扩展轴,构建GenRef数据集,对FLUX.1-dev模型进行反射调优。
  • Result: ReflectionFlow显著优于传统噪声级扩展方法,在挑战性任务中提供更高质量的图像合成。
  • Conclusion: ReflectionFlow为高质量图像合成提供了可扩展且计算高效的解决方案。

[62] Survey of Video Diffusion Models: Foundations, Implementations, and Applications

Yimu Wang,Xuye Liu,Wei Pang,Li Ma,Shuai Yuan,Paul Debevec,Ning Yu

Main category: cs.CV

TL;DR: 本文综述了基于扩散模型的视频生成技术,探讨了其优势、挑战、技术基础及应用,并提供了系统分类和最新进展。

  • Motivation: 扩散模型在视频生成中展现出优于传统方法的潜力,但仍面临运动一致性、计算效率和伦理问题等挑战,需要全面梳理和总结。
  • Method: 通过系统分类现有方法,分析架构创新和优化策略,并探讨其在低层视觉任务及相关领域的应用。
  • Result: 提供了更广泛、更新且细致的视角,包括评估指标、行业解决方案和训练工程技术。
  • Conclusion: 本文为研究者和从业者提供了理论基础和实践指导,是扩散模型与视频生成交叉领域的重要资源。

[63] MR. Video: "MapReduce" is the Principle for Long Video Understanding

Ziqi Pang,Yu-Xiong Wang

Main category: cs.CV

TL;DR: MR. Video是一个基于MapReduce原则的长视频理解框架,通过独立感知短片段(Map)和联合聚合信息(Reduce)实现高效处理,优于现有方法。

  • Motivation: 解决现有序列到序列视觉语言模型(VLMs)和视频代理在处理长视频时的上下文长度限制和关键片段依赖问题。
  • Method: 采用两阶段MapReduce:1) 字幕生成(Map生成短片段字幕,Reduce标准化重复内容);2) 分析(Map提取相关信息,Reduce整合答案)。
  • Result: 在LVBench上比现有VLMs和视频代理准确率提升超过10%。
  • Conclusion: MR. Video的MapReduce原则简单有效,适用于多种视频理解任务,并通过实验验证了其优越性。

[64] MMInference: Accelerating Pre-filling for Long-Context VLMs via Modality-Aware Permutation Sparse Attention

Yucheng Li,Huiqiang Jiang,Chengruidong Zhang,Qianhui Wu,Xufang Luo,Surin Ahn,Amir H. Abdi,Dongsheng Li,Jianfeng Gao,Yuqing Yang,Lili Qiu

Main category: cs.CV

TL;DR: MMInference是一种动态稀疏注意力方法,通过利用视频输入的时空局部性和多模态稀疏分布,显著加速长上下文多模态输入的预填充阶段,最高可达8.3倍,同时保持准确性。

  • Motivation: 长上下文能力与视觉理解的结合为视觉语言模型(VLMs)带来了巨大潜力,但预填充阶段的二次注意力复杂度阻碍了实际部署。
  • Method: 提出MMInference,通过分析视频输入的Grid稀疏模式和多模态稀疏分布,动态构建稀疏注意力分布,并结合优化的GPU内核实现高效计算。
  • Result: 在多个多模态基准测试中,MMInference将预填充阶段加速最高8.3倍(1M tokens),同时保持模型准确性。
  • Conclusion: MMInference无需修改或微调现有VLM模型即可无缝集成,为长上下文多模态输入的高效处理提供了实用解决方案。

cs.AI

[65] Can Machine Learning Agents Deal with Hard Choices?

Kangyu Wang

Main category: cs.AI

TL;DR: 论文探讨了机器学习代理在决策中无法识别和解决“困难选择”的问题,并提出了一种集成解决方案以缓解对齐问题。

  • Motivation: 理解机器学习代理与人类在决策过程中的差异,尤其是面对“困难选择”时的表现。
  • Method: 分析了多目标优化(MOO)方法的局限性,并评估了两种潜在技术解决方案,推荐了一种集成方法。
  • Result: 集成解决方案有望帮助机器学习代理识别“困难选择”,但仍无法像人类一样通过深思熟虑解决这些问题。
  • Conclusion: 机器学习代理在自主性上存在根本性差距,需重新概念化机器自主性并开发新框架以填补这一空白。

[66] PolicyEvol-Agent: Evolving Policy via Environment Perception and Self-Awareness with Theory of Mind

Yajie Yu,Yue Feng

Main category: cs.AI

TL;DR: PolicyEvol-Agent是一个基于LLM的多智能体框架,通过系统性获取他人意图和自适应优化策略,在动态交互场景中表现优异。

  • Motivation: 现有研究在动态交互场景中缺乏有效的认知链(如推理、规划、决策和反思),且提示式响应在心理状态感知和经验校准方面存在挑战。
  • Method: PolicyEvol-Agent通过获取反思性专业知识模式,结合心智理论和内外视角的认知操作,动态优化策略。
  • Result: 仿真结果表明,PolicyEvol-Agent优于基于强化学习和传统智能体的方法,并在自动和人工评估中验证了动态策略调整的有效性。
  • Conclusion: PolicyEvol-Agent通过系统性认知操作和动态策略优化,显著提升了多智能体在动态交互中的表现。

[67] Reliable Classification with Conformal Learning and Interval-Type 2 Fuzzy Sets

Javier Fumanal-Idocin,Javier Andreu-Perez

Main category: cs.AI

TL;DR: 论文提出使用模糊规则系统结合保形学习分类,并探讨了类型2模糊集对提升系统输出质量的作用。

  • Motivation: 传统机器学习分类器在实验室基准外可能不可靠,需要评估模型输出的可靠性,保形学习能提供更可靠的预测质量。
  • Method: 结合保形学习与模糊规则系统分类,并引入类型2模糊集优化输出质量。
  • Result: 类型2模糊集相比传统模糊和清晰规则能提升系统输出质量,且系统微调可改善保形预测质量。
  • Conclusion: 模糊规则系统与保形学习结合可提升分类可靠性,类型2模糊集进一步优化了输出质量。

[68] KeDiff: Key Similarity-Based KV Cache Eviction for Long-Context LLM Inference in Resource-Constrained Environments

Junyoung Park,Dalton Jones,Matt Morse,Raghavv Goel,Mingu Lee,Chris Lott

Main category: cs.AI

TL;DR: KeyDiff是一种无需训练的KV缓存淘汰方法,基于键相似性,适用于资源受限环境中的长输入提示LLM应用。

  • Motivation: 解决资源受限环境中长输入提示LLM应用的KV缓存问题。
  • Method: 提出KeyDiff方法,基于键相似性进行KV缓存淘汰,不依赖注意力分数。
  • Result: 在8K缓存预算下,性能与非淘汰基线差距小于0.04%,KV缓存减少约23%。
  • Conclusion: KeyDiff在资源受限环境中高效且理论最优,适用于多种任务和模型。

[69] AGI Is Coming... Right After AI Learns to Play Wordle

Sarath Shekkizhar,Romain Cosentino

Main category: cs.AI

TL;DR: 论文研究了OpenAI的计算机用户代理(CUA)在完成Wordle游戏任务时的表现,发现其在颜色识别上存在显著问题,成功率仅为5.36%。

  • Motivation: 探索多模态代理在简单任务中的表现,以揭示当前前沿AI模型的局限性。
  • Method: 通过评估CUA在《纽约时报》Wordle游戏中的表现,分析其行为和不足。
  • Result: 模型在颜色识别上表现不佳,成功率仅为5.36%,表明简单任务对当前AI仍具挑战性。
  • Conclusion: 讨论了潜在原因、未来发展的影响及改进AI系统的研究方向。

[70] Improving Human-AI Coordination through Adversarial Training and Generative Models

Paresh Chaudhary,Yancheng Liang,Daphne Chen,Simon S. Du,Natasha Jaques

Main category: cs.AI

TL;DR: 论文提出了一种名为GOAT的新方法,结合生成模型和对抗训练,以解决合作任务中对抗策略导致的自毁问题,并在Overcooked基准测试中表现出色。

  • Motivation: 在合作任务中,对抗训练难以模拟有效的合作行为,导致自毁问题,因此需要一种新方法来生成多样化的合作策略。
  • Method: GOAT方法结合预训练的生成模型和对抗训练,动态搜索并生成合作策略,同时保持生成模型的参数不变以避免对抗性利用。
  • Result: GOAT在Overcooked基准测试中表现出色,能够更好地泛化到多样化的人类行为。
  • Conclusion: GOAT通过结合生成模型和对抗训练,有效解决了合作任务中的自毁问题,并提升了泛化能力。

[71] Learning Adaptive Parallel Reasoning with Language Models

Jiayi Pan,Xiuyu Li,Long Lian,Charlie Snell,Yifei Zhou,Adam Yala,Trevor Darrell,Kurt Keutzer,Alane Suhr

Main category: cs.AI

TL;DR: APR是一种自适应并行推理框架,通过结合串行和并行计算,优化语言模型的推理能力,显著提升性能、扩展性和准确性。

  • Motivation: 现有推理方法存在局限性:串行方法输出过长导致延迟和上下文窗口耗尽,并行方法则因协调不足导致冗余计算和性能提升有限。
  • Method: APR通过spawn()和join()操作实现自适应多线程推理,并采用端到端强化学习策略优化推理线程。
  • Result: 实验显示APR在相同上下文窗口下性能更高(83.4% vs. 60.0%),扩展性更强(80.1% vs. 66.6%),延迟相同时准确性更高(75.2% vs. 57.3%)。
  • Conclusion: APR通过自适应计算分配,使语言模型能自主优化推理过程。

[72] A Multi-Agent Framework for Automated Qinqiang Opera Script Generation Using Large Language Models

Gengxian Cao,Fengyuan Li,Hong Duan,Ye Yang,Bofeng Wang,Donghe Li

Main category: cs.AI

TL;DR: 论文提出了一种多智能体框架,通过整合大语言模型、视觉生成和文本转语音技术,自动化完成秦腔戏曲的端到端制作。

  • Motivation: 旨在利用AI技术保护和规模化传统表演艺术,提升制作效率和质量。
  • Method: 三个智能体分工合作:Agent1生成剧本,Agent2生成舞台场景,Agent3生成语音表演。
  • Result: 在《窦娥冤》案例中,系统在剧本忠实度、视觉连贯性和语音准确性上分别获得3.8、3.5和3.8分,总分3.6,优于单智能体基线0.3分。
  • Conclusion: 模块化协作对提升效果至关重要,未来可优化跨模态对齐和情感表达,并扩展至其他戏曲类型。

[73] A LoRA-Based Approach to Fine-Tuning LLMs for Educational Guidance in Resource-Constrained Settings

Md Millat,Md Motiur

Main category: cs.AI

TL;DR: 该研究提出了一种成本效益高的方法,通过LoRA和4位量化技术优化Mistral-7B-Instruct模型,用于学术咨询和低资源环境下的文化适应。

  • Motivation: 研究旨在为低资源环境下的学术咨询和文化适应提供高效的解决方案。
  • Method: 采用LoRA和4位量化技术,分两阶段训练模型:第一阶段使用合成数据集,第二阶段使用手动整理的数据集。
  • Result: 训练损失减少52.7%,领域推荐准确率达92%,支持95%的Markdown格式,每秒处理100个样本。
  • Conclusion: 该方法在低资源教育咨询中有效,但通用性有限。未来可扩展多语言和实时数据库集成。

[74] Exploring Inevitable Waypoints for Unsolvability Explanation in Hybrid Planning Problems

Mir Md Sajid Sarwar,Rajarshi Ray

Main category: cs.AI

TL;DR: 本文提出了一种通过识别通用障碍点(waypoints)来解释混合系统中规划问题不可解性的方法,并将其建模为最长公共子序列问题。

  • Motivation: 解释规划问题的不可解性在可解释AI规划中具有重要意义,但目前相关研究较少。
  • Method: 将问题分解为子问题,识别通用障碍点,并将其建模为最长公共子序列问题,再进行符号可达性分析。
  • Result: 实验验证了该方法在混合领域不可解规划问题中的有效性。
  • Conclusion: 通过识别和验证通用障碍点,可以有效地解释规划问题的不可解性。

[75] Advancing Embodied Agent Security: From Safety Benchmarks to Input Moderation

Ning Wang,Zihan Yan,Weiyang Li,Chuan Ma,He Chen,Tao Xiang

Main category: cs.AI

TL;DR: 本文提出了一种针对具身代理的新型输入审核框架,包括EAsafetyBench安全基准和Pinpoint方案,实验显示其检测准确率达94.58%,处理时间仅0.002秒。

  • Motivation: 现有研究主要关注通用大语言模型的安全性,缺乏针对具身代理的专门方法,因此需要开发定制化的安全基准和输入审核框架。
  • Method: 提出包含分类定义、数据集构建、审核架构、模型训练和评估的完整框架,并引入EAsafetyBench基准和Pinpoint方案(利用掩码注意力机制分离功能提示)。
  • Result: 实验验证了方法的可行性,平均检测准确率为94.58%,处理时间为0.002秒/实例,优于现有技术。
  • Conclusion: 该框架为具身代理的安全性提供了有效解决方案,显著提升了检测性能和效率。

[76] DianJin-R1: Evaluating and Enhancing Financial Reasoning in Large Language Models

Jie Zhu,Qian Chen,Huaixia Dou,Junhui Li,Lifan Guo,Feng Chen,Chi Zhang

Main category: cs.AI

TL;DR: DianJin-R1是一个增强推理的框架,通过推理增强监督和强化学习解决金融领域LLM的挑战,表现优于非推理模型。

  • Motivation: 金融领域任务需要专业知识、精确计算和合规性,现有LLM推理能力不足。
  • Method: 构建高质量数据集DianJin-R1-Data,基于Qwen2.5模型微调,结合GRPO强化学习方法优化推理质量。
  • Result: 在金融和通用推理基准上表现优异,单次推理模型性能接近多智能体系统。
  • Conclusion: DianJin-R1通过结构化监督和奖励对齐学习,为实际金融应用提供了高效解决方案。

[77] Implementing Rational Choice Functions with LLMs and Measuring their Alignment with User Preferences

Anna Karnysheva,Christian Drescher,Dietrich Klakow

Main category: cs.AI

TL;DR: 本文探讨了大型语言模型(LLMs)在智能用户界面(IUIs)中作为决策代理时与用户偏好对齐的问题,提出了一种更灵活的方法来衡量偏好满足。

  • Motivation: 随着LLMs在IUIs中的广泛应用,其作为决策代理的对齐问题(尤其是与用户偏好的对齐)尚未得到充分研究。
  • Method: 作者扩展了现有方法,利用LLMs对替代结果进行排序,并引入更广泛的用户偏好概念(包括严格偏好和无关偏好),提出了设计原则和测量工具。
  • Result: 通过汽车领域的实际应用验证了方法的适用性。
  • Conclusion: 本文为LLMs在决策代理中的偏好对齐提供了理论和实践工具,强调了其在IUIs中的重要性。

[78] TrustGeoGen: Scalable and Formal-Verified Data Engine for Trustworthy Multi-modal Geometric Problem Solving

Daocheng Fu,Zijun Chen,Renqiu Xia,Qi Liu,Yuan Feng,Hongbin Zhou,Renrui Zhang,Shiyang Feng,Peng Gao,Junchi Yan,Botian Shi,Bo Zhang,Yu Qiao

Main category: cs.AI

TL;DR: 论文提出了一种名为TrustGeoGen的数据引擎,用于生成几何问题,并通过形式化验证提供基准,解决了现有几何问题生成中的噪声和自相矛盾问题。

  • Motivation: 现有几何问题生成方法存在噪声和自相矛盾,缺乏形式化验证的基准,阻碍了GPS方法的进一步发展。
  • Method: TrustGeoGen引擎通过多模态对齐生成、形式化验证、自举机制和GeoExplore算法,生成具有模态完整性的几何问题数据集。
  • Result: 生成的GeoTrust-200K数据集和GeoTrust-test测试集显示,现有模型在测试集上仅达到49.17%的准确率,但训练后的模型在GeoQA上表现出OOD泛化能力。
  • Conclusion: TrustGeoGen为GPS方法的发展提供了可靠基准,显著减少了逻辑不一致性。

[79] WALL-E 2.0: World Alignment by NeuroSymbolic Learning improves World Model-based LLM Agents

Siyu Zhou,Tianyi Zhou,Yijun Yang,Guodong Long,Deheng Ye,Jing Jiang,Chengqi Zhang

Main category: cs.AI

TL;DR: 论文提出了一种无需训练的“世界对齐”方法,通过提取环境符号知识(如动作规则、知识图谱和场景图)来增强LLM作为世界模型的性能,并基于MPC框架设计了RL-free的智能体WALL-E 2.0。

  • Motivation: 解决LLM作为世界模型时,其先验知识与特定环境动态之间的差距问题。
  • Method: 提出世界对齐方法提取符号知识,并设计基于MPC的智能体WALL-E 2.0,利用LLM进行高效规划。
  • Result: 在Mars和ALFWorld任务中,WALL-E 2.0显著优于基线方法,如Mars任务成功率提升16.1%-51.6%,ALFWorld任务达到98%成功率。
  • Conclusion: 世界对齐和MPC框架的结合显著提升了LLM智能体在新环境中的学习效率。

[80] Crisp complexity of fuzzy classifiers

Raquel Fernandez-Peralta,Javier Fumanal-Idocin,Javier Andreu-Perez

Main category: cs.AI

TL;DR: 提出了一种将模糊规则分类器简化为清晰规则分类器的方法,并分析了其复杂性。

  • Motivation: 模糊规则分类器在非模糊领域应用受限,因其解释性不足。
  • Method: 研究不同清晰描述并实现算法,分析复杂性。
  • Result: 提供了一种简化方法,帮助理解模糊规则分类器。
  • Conclusion: 该方法有助于模糊和非模糊领域实践者理解分类器,复杂性指标可辅助选择分类器。

[81] Generative AI for Research Data Processing: Lessons Learnt From Three Use Cases

Modhurita Mitra,Martine G. de Vos,Nicola Cortinovis,Dawa Ometto

Main category: cs.AI

TL;DR: 探索生成式AI在复杂数据处理任务中的可行性,包括信息提取、自然语言理解和文本分类,并分享使用经验。

  • Motivation: 研究生成式AI在传统方法难以处理的数据任务中的应用潜力,解决其输出准确性和一致性的问题。
  • Method: 在三个研究项目中应用Claude 3 Opus模型,分别进行植物物种名称提取、健康技术评估文档数据点提取和众筹项目行业代码分类。
  • Result: 验证了生成式AI在复杂数据处理任务中的可行性,并总结了提高结果准确性和一致性的方法。
  • Conclusion: 生成式AI适用于特定复杂任务,但需谨慎选择任务并优化方法以确保结果质量。

[82] CARE: Compatibility-Aware Incentive Mechanisms for Federated Learning with Budgeted Requesters

Xiang Liu,Hau Chan,Minming Li,Xianlong Zeng,Chenchen Fu,Weiwei Wu

Main category: cs.AI

TL;DR: 本文研究了联邦学习中预算受限的请求者与不兼容工人之间的激励问题,提出了两种兼容性感知的激励机制(CARE-CO和CARE-NO),并通过实验验证了其优越性。

  • Motivation: 现有联邦学习激励机制忽略了工人不兼容性和请求者预算限制的实际问题,导致效率下降。
  • Method: 设计了CARE-CO(合作预算)和CARE-NO(非合作预算)两种激励机制,以解决工人不兼容性和预算限制问题。
  • Result: 实验证明,所提机制在个体理性、真实性、预算可行性和近似性能方面优于现有基线方法。
  • Conclusion: CARE-CO和CARE-NO机制有效解决了联邦学习中的兼容性和预算问题,提升了整体效率。

[83] Impact of Noise on LLM-Models Performance in Abstraction and Reasoning Corpus (ARC) Tasks with Model Temperature Considerations

Nikhil Khandalkar,Pavan Yadav,Krishna Shinde,Lokesh B. Ramegowda,Rajarshi Das

Main category: cs.AI

TL;DR: 论文探讨了大型语言模型(LLMs)在抽象推理任务中的表现,发现其对输入噪声高度敏感,揭示了现有模型的脆弱性。

  • Motivation: 研究旨在评估LLMs在抽象推理任务中的能力,尤其是在噪声条件下的表现,以揭示其局限性。
  • Method: 通过系统性地测试不同模型(如GPT-4o、DeepSeek R1和LLaMA 3.2)在不同噪声水平和温度设置下的表现。
  • Result: 结果表明,噪声显著降低所有模型的性能,暴露了LLMs在抽象推理中的脆弱性。
  • Conclusion: 研究呼吁开发更鲁棒和适应性强的AI系统,以应对现实世界中的不确定性和噪声。

[84] Approximate matrices of systems of max-min fuzzy relational equations

Ismaïl Baaj

Main category: cs.AI

TL;DR: 该论文提出了一种方法,通过最小化修改矩阵来解决max-min模糊关系方程的不一致性问题,并研究了不同范数下的距离度量。

  • Motivation: 解决max-min模糊关系方程的不一致性问题,同时保持对原始系统的近似。
  • Method: 通过最小化修改矩阵的系数,确保一致性,并研究L1、L2和L∞范数下的距离。
  • Result: 能够直接计算在L∞范数下距离最小的矩阵,并给出了解析公式。
  • Conclusion: 方法适用于min-max模糊关系方程,并具有潜在应用价值。

hep-ph

[85] Axion dark matter search from terrestrial magnetic fields at extremely low frequencies

Atsushi Nishizawa,Atsushi Taruya,Yoshiaki Himemoto

Main category: hep-ph

TL;DR: 该论文利用地球磁场数据,通过分析极低频电磁波,搜索超轻轴子暗物质信号,并改进了轴子-光子耦合参数的上限。

  • Motivation: 地球自然环境可作为超轻轴子暗物质的敏感探测器,通过轴子与地球磁场的相互作用产生极低频电磁波。
  • Method: 基于理论预测的轴子诱导电磁波谱,分析长期观测的地球磁场数据,搜索轴子信号。
  • Result: 发现65个信噪比大于3的候选信号,并将轴子-光子耦合参数上限改进至gaγ4×1013GeV1
  • Conclusion: 研究为超轻轴子暗物质的探测提供了新方法,并显著改进了现有约束。

[86] Detecting Dark Matter with Neutron Stars

Anupam Ray

Main category: hep-ph

TL;DR: 中子星可作为探测暗物质性质的天体实验室。暗物质在中子星中积累可能形成黑洞,未检测到此类黑洞合并的引力波可限制暗物质与核子的相互作用。此外,违反重子数的暗物质可能导致中子星过热,热观测数据进一步约束其性质。

  • Motivation: 研究中子星作为探测暗物质性质的独特实验室,探索暗物质与核子的相互作用及其对中子星的影响。
  • Method: 通过分析中子星中暗物质积累形成的黑洞及其引力波信号,以及暗物质导致的中子星过热现象。
  • Result: 未检测到低质量黑洞合并的引力波信号提供了对暗物质相互作用的严格限制,比直接探测实验更强。热观测数据进一步约束了违反重子数的暗物质。
  • Conclusion: 中子星为暗物质研究提供了独特且强大的约束条件,相关观测数据显著提升了暗物质相互作用的限制范围。

[87] Inflationary Gravitational Waves and Laboratory Searches as Complementary Probes of Right-handed Neutrinos

Zafri A. Borboruah,Lekhika Malhotra,Frank F. Deppisch,Anish Ghoshal

Main category: hep-ph

TL;DR: 研究了由右手中微子(RHN)主导的后暴胀时期对引力波(GW)的阻尼效应,并探讨了其在实验室和GW观测中的互补性。

  • Motivation: 探索RHN在暴胀后时期对GW谱的阻尼作用,以及如何通过GW观测和实验室实验共同验证RHN的存在和性质。
  • Method: 在标准模型的最小类型I跷跷板扩展中,分析RHN的热产生及其长寿命条件,计算GW谱的抑制特征频率和信噪比。
  • Result: RHN质量在0.1-10 GeV、混合参数在10^{-12}到10^{-5}之间时,GW谱的抑制特征频率可被观测;0.2-2 GeV和10^{-10}到10^{-7}的混合参数在实验室和GW观测中均可验证。
  • Conclusion: GW观测和实验室实验在验证RHN性质和跷跷板机制方面具有互补性,GW实验可覆盖实验室难以探测的区域。

[88] Warm multi natural inflation

Asuka Ito,Rudnei O. Ramos

Main category: hep-ph

TL;DR: 研究了多自然暴胀在暖暴胀背景下的表现,分析了线性和立方耗散系数的情况。模型受到轴子类暴胀模型的启发,通过与非阿贝尔规范场的耦合产生耗散。两种耗散系数均与当前观测一致。立方耗散系数下,曲率扰动在暴胀后期突然增长,可能产生可探测的引力波。但某些参数区域可能导致原初黑洞过量,被核合成限制排除。

  • Motivation: 研究多自然暴胀在暖暴胀背景下的行为,特别是耗散效应对暴胀动力学和观测结果的影响。
  • Method: 分析线性和立方耗散系数下的暖多自然暴胀模型,结合轴子类模型与非阿贝尔规范场的耦合。
  • Result: 立方耗散系数下,曲率扰动突然增长可能产生可探测的引力波;某些参数区域可能导致原初黑洞过量,被观测排除。
  • Conclusion: 暖多自然暴胀模型在特定参数下与观测一致,但需注意原初黑洞的约束。立方耗散系数下的引力波信号可能成为未来探测目标。

[89] Axion dark matter search from terrestrial magnetic fields at extremely low frequencies

Atsushi Nishizawa,Atsushi Taruya,Yoshiaki Himemoto

Main category: hep-ph

TL;DR: 该论文利用地球磁场数据,通过分析极低频电磁波,探测超轻轴子暗物质信号,并改进了轴子-光子耦合参数的上限。

  • Motivation: 探索地球自然环境作为暗物质探测器的潜力,特别是超轻轴子与地球磁场相互作用产生的电磁波信号。
  • Method: 基于理论预测的轴子诱导电磁波谱,分析长期观测的地球磁场数据,搜索轴子信号。
  • Result: 发现65个信噪比大于3的候选信号,并将轴子-光子耦合参数上限改进至gaγ4×1013GeV1
  • Conclusion: 地球磁场数据可用于探测超轻轴子暗物质,并显著改进现有约束。

[90] Detecting Dark Matter with Neutron Stars

Anupam Ray

Main category: hep-ph

TL;DR: 中子星可作为研究暗物质性质的天体实验室,暗物质积累可能形成黑洞,未探测到相关引力波可约束暗物质与核子的相互作用。

  • Motivation: 利用中子星作为实验室,研究暗物质的性质及其与核子的相互作用。
  • Method: 通过观测中子星中暗物质积累形成的黑洞及其引力波信号,以及暗物质引起的热效应。
  • Result: 未探测到低质量黑洞合并的引力波信号,对暗物质与核子的相互作用提供了严格限制;暗物质引起的热效应也受到中子星热观测的约束。
  • Conclusion: 中子星为研究暗物质提供了强有力的约束条件,其限制比直接探测实验更严格。

[91] Inflationary Gravitational Waves and Laboratory Searches as Complementary Probes of Right-handed Neutrinos

Zafri A. Borboruah,Lekhika Malhotra,Frank F. Deppisch,Anish Ghoshal

Main category: hep-ph

TL;DR: 研究了在右手中微子(RHN)主导的后暴胀时期,引力波(GW)的阻尼现象,并探讨了其在GW观测中的探测前景。

  • Motivation: 探索RHN在标准模型扩展中的作用及其对GW谱的影响,以填补实验室实验无法覆盖的区域。
  • Method: 在最小I型跷跷板扩展模型中,分析RHN的热产生及其长寿命条件,计算GW谱的抑制特征频率和信噪比。
  • Result: RHN质量在0.1-10 GeV、混合参数在10^-12到10^-5之间时,GW谱在特定频率被抑制,部分参数区间可通过GW观测和实验室实验共同验证。
  • Conclusion: GW观测可补充实验室实验,探测轻中微子质量生成的跷跷板机制,尤其是RHN质量在0.2-2 GeV、混合参数在10^-10到10^-7之间的区域。

[92] Warm multi natural inflation

Asuka Ito,Rudnei O. Ramos

Main category: hep-ph

TL;DR: 研究了多自然暴胀在暖暴胀背景下的表现,分析了线性和立方耗散系数的情况。模型受轴子类暴胀模型启发,耗散源于热浴中的sphaleron衰变。立方耗散系数下,曲率扰动在弱耗散到强耗散的过渡阶段突然增长,可能产生可探测的引力波,但也可能导致原初黑洞过量产生。

  • Motivation: 研究多自然暴胀在暖暴胀背景下的行为,特别是耗散效应对暴胀动力学和观测结果的影响。
  • Method: 使用线性和立方耗散系数分析暖多自然暴胀模型,结合轴子类模型与非阿贝尔规范场的耦合。
  • Result: 立方耗散系数下,曲率扰动在耗散过渡阶段突然增长,可能产生可探测的引力波,但也可能违反核合成约束。
  • Conclusion: 模型在特定参数区域与观测兼容,但在其他区域可能导致原初黑洞过量产生,需进一步约束。

[93] Axion dark matter search from terrestrial magnetic fields at extremely low frequencies

Atsushi Nishizawa,Atsushi Taruya,Yoshiaki Himemoto

Main category: hep-ph

TL;DR: 论文提出利用地球自然环境作为超轻轴子暗物质的探测器,通过分析极低频电磁波信号,改进了轴子-光子耦合参数的上限。

  • Motivation: 探索超轻轴子暗物质的存在及其与地球磁场的相互作用,以验证轴子-光子耦合理论。
  • Method: 利用长期观测的地球磁场数据,结合理论预测的轴子诱导电磁波谱,分析极低频信号。
  • Result: 发现65个信噪比大于3的候选信号,并将轴子-光子耦合参数上限改进至gaγ4×1013GeV1
  • Conclusion: 研究为超轻轴子暗物质的探测提供了新方法,并显著改进了现有约束。

[94] Detecting Dark Matter with Neutron Stars

Anupam Ray

Main category: hep-ph

TL;DR: 中子星可作为探测暗物质性质的天体实验室,暗物质积累可能形成黑洞,未探测到相关引力波可约束暗物质与核子相互作用。

  • Motivation: 研究中子星中暗物质的积累及其对天体物理现象的影响,以提供对暗物质性质的更强约束。
  • Method: 通过分析中子星中暗物质的积累及其可能形成的黑洞,结合引力波未探测数据,约束暗物质与核子的相互作用。
  • Result: 研究提供了对重、非湮灭暗物质相互作用的严格限制,比直接探测实验更强。
  • Conclusion: 中子星为暗物质研究提供了独特平台,相关观测数据可显著约束暗物质性质。

[95] Inflationary Gravitational Waves and Laboratory Searches as Complementary Probes of Right-handed Neutrinos

Zafri A. Borboruah,Lekhika Malhotra,Frank F. Deppisch,Anish Ghoshal

Main category: hep-ph

TL;DR: 研究了右手中微子(RHN)主导的后暴胀时期对引力波(GW)谱的阻尼效应,并探讨了GW观测与实验室实验的互补性。

  • Motivation: 探索RHN在暴胀后时期对GW谱的阻尼作用,以及GW观测与实验室实验如何共同验证RHN的存在和性质。
  • Method: 在最小I型跷跷板扩展标准模型中,分析RHN的热产生及其长寿命条件,计算GW谱的抑制特征频率和信噪比。
  • Result: RHN质量在0.1-10 GeV、混合参数在10^-12到10^-5之间时,GW谱在特定频率被抑制;GW观测与SHiP、DUNE等实验互补。
  • Conclusion: GW观测可验证RHN的存在及其在轻中微子质量生成中的作用,填补实验室实验无法覆盖的区域。

[96] Warm multi natural inflation

Asuka Ito,Rudnei O. Ramos

Main category: hep-ph

TL;DR: 研究了多自然暴胀在热暴胀背景下的表现,分析了线性和立方耗散系数的情况,发现两者均与现有观测兼容。立方耗散系数下,曲率扰动在弱耗散向强耗散过渡时突然增长,可能产生可探测的引力波,但也可能导致原初黑洞过量。

  • Motivation: 研究受轴子类暴胀模型与非阿贝尔规范场耦合的启发,探讨热浴中sphaleron衰变导致的耗散效应。
  • Method: 分析了线性和立方耗散系数下的多自然暴胀模型,比较了弱耗散与强耗散过渡时的曲率扰动行为。
  • Result: 立方耗散系数下,曲率扰动突然增长可能产生可探测的引力波,但也可能导致原初黑洞过量,部分参数区域被核合成限制排除。
  • Conclusion: 模型在部分参数区域与观测兼容,但需注意原初黑洞的过量产生问题。

astro-ph.HE

[97] Cosmic ray neutrons in magnetized astrophysical structures

Ellis R. Owen,Yoshiyuki Inoue,Tatsuki Fujiwara,Qin Han,Kinwah Wu

Main category: astro-ph.HE

TL;DR: 论文探讨了宇宙射线中中性成分(如中子)的产生及其对高能粒子在宇宙结构中传播的影响。

  • Motivation: 研究中性宇宙射线(如中子)如何通过打破磁约束,影响高能粒子在星系、星系团和宇宙纤维结构中的交换。
  • Method: 通过理论模型分析中性宇宙射线(中子)的产生及其在宇宙结构中的传播特性。
  • Result: 中性宇宙射线可以通过直线传播打破磁约束,从而改变高能粒子在宇宙结构间的交换。
  • Conclusion: 中性宇宙射线的存在对理解高能粒子在宇宙中的传播和逃逸机制具有重要意义。

[98] Cosmic ray neutrons in magnetized astrophysical structures

Ellis R. Owen,Yoshiyuki Inoue,Tatsuki Fujiwara,Qin Han,Kinwah Wu

Main category: astro-ph.HE

TL;DR: 论文探讨了宇宙射线中中性成分(如中子)的形成及其对高能粒子在宇宙结构中传播的影响。

  • Motivation: 研究宇宙射线中中性成分(如中子)如何通过打破磁约束,影响高能粒子在星系、星系团和宇宙纤维结构中的交换。
  • Method: 通过分析宇宙射线中子的产生(如通过强子pp和pγ相互作用)及其在超高能下的传播特性,研究其对磁界面粒子交换的影响。
  • Result: 中子作为中性成分,可以不受磁场偏转,以直线传播,从而促进高能粒子从磁结构中逃逸,改变其在宇宙结构间的交换。
  • Conclusion: 宇宙射线中子的形成和传播特性对高能粒子在宇宙大尺度结构中的分布和交换具有重要影响。

[99] Cosmic ray neutrons in magnetized astrophysical structures

Ellis R. Owen,Yoshiyuki Inoue,Tatsuki Fujiwara,Qin Han,Kinwah Wu

Main category: astro-ph.HE

TL;DR: 论文探讨了宇宙射线中中性成分(如中子)的产生及其对高能粒子在宇宙结构中传播的影响。

  • Motivation: 研究宇宙射线中中性成分(如中子)如何通过打破磁约束,影响高能粒子在星系、星系团和宇宙纤维结构中的交换。
  • Method: 通过建模宇宙射线中子的产生(如通过强子pp和pγ相互作用)及其在超高能下的传播特性。
  • Result: 发现中子因其不受磁场偏转的特性,能够突破磁约束,促进高能粒子在宇宙结构间的泄漏和交换。
  • Conclusion: 宇宙射线中子的形成可以显著改变高能粒子在宇宙大尺度结构中的传播和分布。

cs.GR

[100] SPICE: A Synergistic, Precise, Iterative, and Customizable Image Editing Workflow

Kenan Tang,Yanhong Li,Yao Qin

Main category: cs.GR

TL;DR: SPICE是一种无需训练的流程,结合扩散模型和Canny边缘ControlNet,支持高分辨率、多步骤编辑,优于现有方法。

  • Motivation: 现有基于提示的图像编辑模型在局部编辑、详细提示遵循和多步骤质量保持上表现不足。
  • Method: 结合基础扩散模型和Canny边缘ControlNet模型,支持自由编辑指令。
  • Result: 在语义、风格和结构编辑任务上表现最佳,用户评价最高。
  • Conclusion: SPICE为图像编辑提供了高效、灵活的解决方案,支持进一步研究。

[101] Vision6D: 3D-to-2D Interactive Visualization and Annotation Tool for 6D Pose Estimation

Yike Zhang,Eduardo Davalos,Jack Noble

Main category: cs.GR

TL;DR: 本文提出了一种交互式3D到2D可视化和标注工具Vision6D,用于支持6D姿态估计研究,填补了2D场景投影与3D场景之间的鸿沟。

  • Motivation: 6D姿态估计在机器人辅助任务中至关重要,但现有工具缺乏交互性和直观性,Vision6D旨在解决这一问题。
  • Method: 开发了一个交互式工具,允许用户在2D真实场景中可视化并操作3D对象,支持通过视觉提示和空间关系进行6D相机姿态标注。
  • Result: 通过对比开源数据集Linemod和HANDAL的默认真值与手动标注,验证了Vision6D的准确性。用户研究表明其界面直观且标注精确。
  • Conclusion: Vision6D为6D姿态估计研究提供了高效的工具,其开源特性将促进社区发展。

astro-ph.CO

[102] Addendum: Fitting the DESI BAO Data with Dark Energy Driven by the Cohen-Kaplan-Nelson Bound

Patrick Adolf,Martin Hirsch,Sara Krieg,Heinrich Päs,Mustafa Tabet

Main category: astro-ph.CO

TL;DR: DESI合作组发布Year-2数据后,基于Cohen-Kaplan-Nelson边界的时间变化暗能量模型结果更新,新数据进一步支持时间依赖暗能量模型优于ΛCDM模型。

  • Motivation: 利用DESI合作组最新发布的Year-2数据,更新并验证时间变化暗能量模型的适用性。
  • Method: 基于Cohen-Kaplan-Nelson边界构建时间依赖暗能量模型,并利用新数据进行分析。
  • Result: 新数据进一步支持时间依赖暗能量模型优于ΛCDM模型,显著性可达≈2.6σ。
  • Conclusion: 时间变化暗能量模型在解释新数据时表现更优,为暗能量研究提供了新方向。

[103] Discovering μHz gravitational waves and ultra-light dark matter with binary resonances

Joshua W. Foster,Diego Blas,Adrien Bourgoin,Aurelien Hees,Míriam Herrero-Valea,Alexander C. Jenkins,Xiao Xue

Main category: astro-ph.CO

TL;DR: 论文提出了一种新的建模与分析框架,用于研究弱引力波背景对天体物理双星系统的共振和非共振影响,并展示了通过优化数据收集和分析方法,可以显著提高探测灵敏度。

  • Motivation: 探索弱引力波背景对双星系统的扰动效应,并开发更灵敏的探测方法,以研究难以探测的微赫兹频率引力波和超轻暗物质的随机波动。
  • Method: 开发了一种时间分辨的建模与分析框架,应用于月球激光测距、卫星激光测距和脉冲星计时技术,以研究引力波背景的共振和非共振效应。
  • Result: 优化后的数据收集和分析方法显著提高了探测灵敏度,比以往方法高出多个数量级,为探测微赫兹频率引力波和超轻暗物质提供了新途径。
  • Conclusion: 该研究为探测微赫兹频率引力波和超轻暗物质开辟了新的可能性,展示了优化方法在提高探测灵敏度方面的巨大潜力。

[104] On DESI's DR2 exclusion of ΛCDM

Marina Cortês,Andrew R Liddle

Main category: astro-ph.CO

TL;DR: DESI合作组通过结合BAO、CMB和超新星数据,发现显著证据反对ΛCDM宇宙学,检测到暗能量状态方程变化的参数w_a。不同数据集的结果不一致,但通过统计方法结合DESI+CMB数据,得出3.1-sigma的排除显著性。

  • Motivation: 探索ΛCDM宇宙学模型的适用性,特别是暗能量状态方程的变化。
  • Method: 结合BAO、CMB和各超新星数据集(Pantheon+、Union3、DESY5)进行分析,并通过统计方法整合结果。
  • Result: 不同数据集的排除显著性分别为2.8-sigma、3.8-sigma和4.2-sigma,但统计整合后DESI+CMB的排除显著性为3.1-sigma。
  • Conclusion: 最可靠的结论是DESI+CMB数据单独得出的3.1-sigma排除显著性,表明ΛCDM模型可能存在问题。

[105] Cosmology in Extended Parameter Space with DESI DR2 BAO: A 2σ+ Detection of Non-zero Neutrino Masses with an Update on Dynamical Dark Energy and Lensing Anomaly

Shouvik Roy Choudhury

Main category: astro-ph.CO

TL;DR: 论文利用多种宇宙学数据(DESI BAO、CMB、SNe、WL等)约束12参数宇宙学模型,首次在2σ水平检测到非零中微子质量,发现暗能量性质尚不明确,并指出透镜异常可能与CMB外数据相关,哈勃张力依然显著。

  • Motivation: 研究旨在通过多源数据联合分析,约束扩展的ΛCDM模型参数,探索中微子质量、暗能量性质等关键宇宙学问题。
  • Method: 结合DESI BAO、Planck CMB、Pantheon+和DESY5 SNe、DES WL等数据,采用贝叶斯方法拟合12参数模型。
  • Result: 首次在2σ水平检测到非零中微子质量(0.19 eV);暗能量性质结论不一致;透镜异常可能与WL数据相关;哈勃张力达3.6-4.2σ。
  • Conclusion: 多数据联合分析揭示了中微子质量和暗能量的复杂性,透镜异常可能依赖非CMB数据,哈勃张力仍需进一步研究。

[106] Joint 21-cm and CMB Forecasts for Constraining Self-Interacting Massive Neutrinos

Sarah Libanore,Subhajit Ghosh,Ely D. Kovetz,Kimberly K. Boddy,Alvise Raccanelli

Main category: astro-ph.CO

TL;DR: 论文探讨了自相互作用中微子对宇宙结构和21厘米功率谱的影响,提出HERA和CMB-S4联合实验可显著提高对耦合强度的约束。

  • Motivation: 自相互作用中微子是标准模型的扩展,对宇宙结构和21厘米信号有独特影响,需通过实验进一步约束其性质。
  • Method: 通过分析21厘米功率谱在宇宙黎明和暗物质时代的变化,结合HERA和CMB-S4实验数据,研究中微子自相互作用的耦合强度。
  • Result: HERA实验可提高对耦合强度的约束,联合CMB-S4能显著改善灵敏度,未来月球干涉仪有望实现更高精度的测量。
  • Conclusion: 21厘米功率谱是研究中微子自相互作用的有效工具,联合实验和未来技术将提供更精确的约束。

[107] On the Connection between Field-Level Inference and n-point Correlation Functions

Fabian Schmidt

Main category: astro-ph.CO

TL;DR: 该论文探讨了贝叶斯场级推断在星系聚类中的应用,重点分析了信息提取的稳健性及其与理论模型的阶数关系。

  • Motivation: 研究动机在于确保场级推断方法能够稳健地提取宇宙学信息,尤其是在理论模型不完全准确的情况下。
  • Method: 采用有效场论方法,推导了在零噪声极限下对初始条件边际化的场级似然参数后验,并分析了理论截断、高阶扩展及模型不完整性的影响。
  • Result: 研究发现,第m阶理论模型能够捕捉到n≤m+1阶的相关函数信息,且通过扩展模型可以自动纳入更高阶的相关函数。
  • Conclusion: 结论表明,场级推断能够通过扩展模型阶数来提升信息提取能力,同时可以估计模型不完整性对参数推断的影响。

[108] The Glow of Axion Quark Nugget Dark Matter: (III) The Mysteries of the Milky Way UV Background

Michael Sekatchev,Xunyu Liang,Fereshteh Majidi,Ben Scully,Ludovic Van Waerbeke,Ariel Zhitnitsky

Main category: astro-ph.CO

TL;DR: 论文研究了轴子夸克块(AQNs)作为暗物质的候选者,计算了其与重子相互作用产生的远紫外(FUV)辐射,结果与观测到的FUV过剩一致。

  • Motivation: 探讨轴子夸克块作为暗物质的可能性,并解释其与重子相互作用产生的FUV辐射,以验证观测到的FUV过剩现象。
  • Method: 利用高分辨率流体动力学模拟(FIRE-2 Latter suite)模拟银河系中类似太阳系的区域,计算AQN模型产生的FUV背景辐射。
  • Result: 计算结果与New Horizons和GALEX观测到的FUV过剩一致,支持AQN模型。
  • Conclusion: AQN可能是暗物质的一种形式,其与重子的相互作用为星系中的FUV辐射提供了新来源。

[109] Minimal Magnetogenesis: The Role of Inflationary Perturbations and ALPs, and Its Gravitational Wave Signatures

Subhasis Maiti,Debaprasad Maity,Rohan Srikanth

Main category: astro-ph.CO

TL;DR: 论文提出了一种通过暴胀扰动生成大尺度弱磁场的新机制,结合轻轴子的振荡产生足够强度的磁场,并预测了独特的引力波谱。

  • Motivation: 探索大尺度磁场的起源,避免依赖非共形耦合的暴胀磁生成机制。
  • Method: 利用暴胀扰动的标量谱生成弱磁场,结合轻轴子的振荡通过共振增强磁场强度。
  • Result: 生成的磁场强度可达1010高斯,且产生多峰引力波谱,可能被CMB-S4探测。
  • Conclusion: 该机制为磁场起源提供了新思路,并通过实验可验证其预测。

[110] Baryon Acoustic Oscillations in tomographic Angular Density and Redshift Fluctuations

Paula S. Ferreira,Carlos Hernández-Monteagudo,Ribamar R. R. Reis

Main category: astro-ph.CO

TL;DR: 研究了2D角度和红移空间中重子声学振荡(BAO)的特征,探讨了联合探测(ADF+ARF)对宇宙学参数的显著提升效果。

  • Motivation: 探索BAO在角度和红移空间中的表现,以优化大尺度结构(LSS)的断层分析,提升对宇宙学参数的约束能力。
  • Method: 通过断层分析,利用2D聚类(ADF)和红移波动(ARF)的自动和交叉角谱,首次研究了BAO在{θ, Δz}平面的特征。
  • Result: BAO特征在壳自动和交叉角谱中携带了大部分宇宙学和星系偏置参数的信息,联合探测显著提升了Fisher行列式。
  • Conclusion: 窄壳宽度配置(σz≤0.02)保留了宇宙学信息,联合探测显著提升了参数约束能力。

[111] An analytic redshift-independent formulation of baryonic effects on the matter power spectrum

Matthieu Schaller,Joop Schaye

Main category: astro-ph.CO

TL;DR: 论文提出了一种改进的方法,通过引入一个与波数相关的sigmoid函数来预测重子效应对物质功率谱的影响,适用于不同反馈强度和宇宙学模型。

  • Motivation: 重子效应是弱引力透镜研究中重要的系统误差,需要快速预测和评估其对物质功率谱的影响。
  • Method: 使用FLAMINGO模拟测试了一种近似方法,将物质功率谱表示为线性功率谱与一个sigmoid函数的组合,该函数与波数相关。
  • Result: 改进方法能匹配不同反馈强度和宇宙学模型的模拟结果,但需要更多参数来适应某些反馈模型。
  • Conclusion: 该方法在标准宇宙学模型中有效,但在偏离ΛCDM的模型中需要更复杂的重子响应模型。

[112] Questioning Cosmic Acceleration with DESI: The Big Stall of the Universe

Deng Wang

Main category: astro-ph.CO

TL;DR: 研究发现宇宙在CPL情景下可能减速,最终进入‘大停滞’状态,挑战了传统宇宙加速膨胀的认知。

  • Motivation: 探索宇宙加速膨胀的潜在减速现象及其对宇宙演化的影响。
  • Method: 利用宇宙微波背景、Ia型超新星和DESI重子声学振荡数据,通过统计分析验证CPL情景下的宇宙减速。
  • Result: 在5σ置信水平下,宇宙经历三次减速,最终进入‘大停滞’状态,暗物质主导未来宇宙。
  • Conclusion: 研究结果挑战了宇宙加速膨胀的传统观点,丰富了宇宙演化的理解。

[113] Development of an Ultra-fast, Likelihood-based, Distance Inference Framework for the Next Generation of Type Ia Supernova Surveys

Dylan Kuhn,Marc Betoule

Main category: astro-ph.CO

TL;DR: EDRIS是一个用于从不完整超新星调查中重建无偏宇宙学距离的框架,通过直接处理数据截断来标准化光度距离。

  • Motivation: 解决超新星调查中因检测限制导致的距离估计偏差问题,并应对未来数据量激增的计算挑战。
  • Method: 在统计模型中直接包含数据截断,通过最大化似然函数实现单步距离估计,优化方法确保计算复杂度为O(N^2)。
  • Result: EDRIS能够快速完成推断(1500颗超新星仅需约10秒),且避免了检测限制引入的偏差。
  • Conclusion: EDRIS为未来大规模超新星调查提供了一种高效且无偏的宇宙学距离估计方法。

[114] Sub-Horizon Amplification of Curvature Perturbations: A New Route to Primordial Black Holes and Gravitational Waves

Debottam Nandi,Rohan Roy,Simran Yadav,Arnab Sarkar

Main category: astro-ph.CO

TL;DR: 论文挑战了传统观点,证明任何负值的第二慢滚参数都能通过亚视界增长增强标量功率谱,从而产生原初引力波和原初黑洞。

  • Motivation: 研究旨在突破传统超慢滚机制中第二慢滚参数必须小于-6的限制,证明更广泛的负值也能有效增强标量功率谱。
  • Method: 通过在两段慢滚阶段之间嵌入一段超慢滚阶段,并系统调整第二慢滚参数值(从-1到-10),分析标量功率谱的增强及其对原初引力波和黑洞产生的影响。
  • Result: 研究发现任何负值的第二慢滚参数均可增强标量功率谱,为原初引力波和黑洞的形成提供了更灵活的条件。
  • Conclusion: 论文为原初引力波和黑洞的产生机制提供了新的理论支持,对未来的宇宙学任务具有重要指导意义。

[115] Increase of ns in regularized pole inflation & Einstein-Cartan gravity

Minxi He,Muzi Hong,Kyohei Mukaida

Main category: astro-ph.CO

TL;DR: 论文探讨了通过正则化二阶极点来增加标量谱指数ns的方法,以适应最新的ACT观测数据。

  • Motivation: 最新的ACT观测数据显示,标量谱指数ns的约束可能高于Starobinsky模型、Higgs暴胀和α-吸引子模型的预测,因此需要改进极点暴胀模型。
  • Method: 正则化动能项中的二阶极点,使其在所有场范围内保持正则,从而提升大场区域的势能,增加ns
  • Result: 正则化的极点暴胀模型可以自然地从Einstein-Cartan形式中产生,且其暴胀预测与最新ACT数据一致,同时保留了α-吸引子模型的成功。
  • Conclusion: 正则化二阶极点是提高ns的有效方法,且与观测数据兼容,为极点暴胀模型提供了新的改进方向。

[116] Optimal intrinsic alignment estimators in the presence of redshift-space distortions

Claire Lamman,Jonathan Blazek,Daniel J. Eisenstein

Main category: astro-ph.CO

TL;DR: 论文提出了一种在大型光谱巡天中量化内禀排列的估计器,通过优化LOS积分范围和权重,提高了对红移空间畸变的鲁棒性。

  • Motivation: 改进传统方法中对LOS信息的低效利用,提升内禀排列测量的精度,以支持弱透镜和宇宙学应用。
  • Method: 通过动态调整LOS积分范围(Πmax)和引入基于形状投影与RSD的权重,优化估计器设计。
  • Result: 新估计器在模拟测试中表现优于传统方法,提供了推荐的Πmax值和权重范围。
  • Conclusion: 该方法显著提升了内禀排列测量的效率和精度,适用于大型宇宙学巡天。

[117] Addendum: Fitting the DESI BAO Data with Dark Energy Driven by the Cohen-Kaplan-Nelson Bound

Patrick Adolf,Martin Hirsch,Sara Krieg,Heinrich Päs,Mustafa Tabet

Main category: astro-ph.CO

TL;DR: 基于DESI合作组发布的Year-2数据,更新了Cohen-Kaplan-Nelson边界驱动的时间变化暗能量模型结果,发现新数据进一步支持时间依赖暗能量模型优于ΛCDM模型。

  • Motivation: 利用DESI合作组最新发布的Year-2数据,验证时间变化暗能量模型的适用性。
  • Method: 基于Cohen-Kaplan-Nelson边界,分析时间依赖暗能量模型,并结合超新星数据集进行比较。
  • Result: 新数据进一步支持时间依赖暗能量模型优于ΛCDM模型,显著性提升至≈2.6σ。
  • Conclusion: 时间依赖暗能量模型在DESI Year-2数据中表现出更强的统计显著性,支持其作为ΛCDM的替代模型。

[118] Discovering μHz gravitational waves and ultra-light dark matter with binary resonances

Joshua W. Foster,Diego Blas,Adrien Bourgoin,Aurelien Hees,Míriam Herrero-Valea,Alexander C. Jenkins,Xiao Xue

Main category: astro-ph.CO

TL;DR: 论文提出了一种新框架,用于研究引力波对天体物理双星系统的影响,并展示了其在高灵敏度探测低频引力波和超轻暗物质方面的潜力。

  • Motivation: 研究引力波背景对双星系统的扰动效应,探索低频引力波和暗物质的新探测方法。
  • Method: 开发了一种时间分辨的建模与分析框架,应用于月球激光测距、卫星激光测距和脉冲星计时技术。
  • Result: 优化后的方法显著提高了探测灵敏度,为探测微赫兹频率引力波和暗物质提供了新途径。
  • Conclusion: 该框架为低频引力波和暗物质研究开辟了新的可能性,具有重要的物理意义。

[119] On DESI's DR2 exclusion of ΛCDM

Marina Cortês,Andrew R Liddle

Main category: astro-ph.CO

TL;DR: DESI合作组结合BAO、CMB和各超新星数据集,发现显著证据反对ΛCDM宇宙学模型,检测到暗能量状态方程参数w_a的变化。不同数据集对ΛCDM的排除显著性不一致,但通过统计方法综合得出3.1-sigma的排除显著性。

  • Motivation: 研究旨在验证ΛCDM宇宙学模型的适用性,探索暗能量状态方程的变化。
  • Method: 结合DESI的BAO数据、CMB各向异性数据及三种超新星数据集(Pantheon+、Union3、DESY5),进行统计分析。
  • Result: 发现ΛCDM模型被排除的显著性为3.1-sigma(基于DESI+CMB数据,忽略超新星数据)。
  • Conclusion: 最可靠的结论是ΛCDM模型在3.1-sigma水平上被排除,支持暗能量状态方程变化的可能性。

[120] Cosmology in Extended Parameter Space with DESI DR2 BAO: A 2σ+ Detection of Non-zero Neutrino Masses with an Update on Dynamical Dark Energy and Lensing Anomaly

Shouvik Roy Choudhury

Main category: astro-ph.CO

TL;DR: 论文通过结合多种宇宙学数据(DESI BAO、CMB、SNe、WL等),在12参数宇宙学模型中约束了暗能量、中微子质量等参数,发现了一些新证据,如中微子质量非零、暗能量可能动态变化,并讨论了透镜异常和哈勃张力的持续存在。

  • Motivation: 研究旨在通过多数据集结合,进一步约束宇宙学模型参数,特别是暗能量和中微子质量等关键问题。
  • Method: 使用DESI BAO、CMB、SNe和WL等数据,分析12参数宇宙学模型,包括ΛCDM参数、暗能量参数、中微子质量等。
  • Result: 发现中微子质量非零(2σ+),暗能量可能动态变化,透镜异常与数据集相关,哈勃张力持续存在(3.6-4.2σ)。
  • Conclusion: 研究提供了中微子质量和暗能量的新证据,并揭示了透镜异常和哈勃张力的复杂性,需进一步验证。

[121] Joint 21-cm and CMB Forecasts for Constraining Self-Interacting Massive Neutrinos

Sarah Libanore,Subhajit Ghosh,Ely D. Kovetz,Kimberly K. Boddy,Alvise Raccanelli

Main category: astro-ph.CO

TL;DR: 论文探讨了自相互作用中微子对宇宙结构和21厘米功率谱的影响,提出HERA和CMB-S4联合实验可显著提升对耦合强度的约束。

  • Motivation: 研究中微子自相互作用的动机源于粒子物理和宇宙学,尤其是其对宇宙小尺度结构的影响。
  • Method: 通过分析21厘米功率谱和暗物质功率谱,结合HERA和CMB-S4实验数据,研究中微子自相互作用。
  • Result: HERA实验可提高对耦合强度的约束,联合实验能进一步突破参数简并性,未来月球干涉仪有望实现更高精度。
  • Conclusion: 21厘米功率谱是研究中微子自相互作用的有效工具,未来实验将提供更精确的约束。

[122] On the Connection between Field-Level Inference and n-point Correlation Functions

Fabian Schmidt

Main category: astro-ph.CO

TL;DR: 论文探讨了贝叶斯场级推断在星系聚类中的应用,分析了信息提取的鲁棒性及其与正向模型阶数的关系。

  • Motivation: 研究动机在于确保场级推断方法提取的宇宙学信息是稳健的,尤其是在正向模型不完全准确的情况下。
  • Method: 采用有效场论方法,推导了零噪声极限下基于场级似然的参数后验分布,并分析了理论截断、高阶扩展及模型不完整性的影响。
  • Result: 研究发现,第m阶正向模型能够捕获n≤m+1点相关函数的信息,高阶模型自动包含更高阶的相关函数信息。
  • Conclusion: 结论表明,通过扩展正向模型阶数,场级推断可以更全面地提取宇宙学信息,并提供了估计模型不完整性对参数推断影响的方法。

[123] The Glow of Axion Quark Nugget Dark Matter: (III) The Mysteries of the Milky Way UV Background

Michael Sekatchev,Xunyu Liang,Fereshteh Majidi,Ben Scully,Ludovic Van Waerbeke,Ariel Zhitnitsky

Main category: astro-ph.CO

TL;DR: 论文研究了轴子夸克块(AQNs)作为暗物质候选体的电磁特征,计算了太阳系周围1 kpc区域内AQNs与重子相互作用产生的远紫外(FUV)辐射,结果与观测到的FUV过剩一致。

  • Motivation: AQNs是假设的核密度物体,可能构成大部分暗物质,并解释宇宙中物质-反物质不对称性及可见物质与暗物质的相似性。本研究旨在验证AQNs模型是否能解释观测到的FUV辐射过剩。
  • Method: 使用高分辨率流体动力学模拟(FIRE-2 Latter suite)模拟银河系中太阳系类似区域的AQNs与重子相互作用,计算FUV背景辐射。
  • Result: 计算结果与New Horizons和GALEX观测到的FUV过剩一致,支持AQNs模型。
  • Conclusion: AQNs可能是FUV辐射的新来源,暗示暗物质与重子之间存在相互作用,具有重要宇宙学意义。

[124] Minimal Magnetogenesis: The Role of Inflationary Perturbations and ALPs, and Its Gravitational Wave Signatures

Subhasis Maiti,Debaprasad Maity,Rohan Srikanth

Main category: astro-ph.CO

TL;DR: 论文提出了一种通过暴胀扰动生成大尺度弱原初磁场的新机制,并通过轻轴子的共振放大,最终产生足够强度的磁场,同时预测了独特的引力波谱。

  • Motivation: 探索大尺度磁场的非传统起源,避免依赖暴胀磁生成的非共形耦合机制。
  • Method: 利用暴胀扰动的标量谱生成弱磁场,再通过轻轴子的共振放大磁场强度。
  • Result: 生成的磁场强度可达1010高斯,且预测了多峰引力波谱,可能被CMB-S4探测。
  • Conclusion: 该机制为磁场起源提供了新思路,并通过实验可验证的预测约束了轴子-光子耦合参数。

[125] Baryon Acoustic Oscillations in tomographic Angular Density and Redshift Fluctuations

Paula S. Ferreira,Carlos Hernández-Monteagudo,Ribamar R. R. Reis

Main category: astro-ph.CO

TL;DR: 研究了2D角度和红移空间中重子声波振荡(BAO)的特征,首次分析了BAO峰在{θ, Δz}平面中的表现,并通过Fisher预测分析评估其对宇宙学和星系偏置参数的约束能力。

  • Motivation: 探索在大型结构(LSS)断层分析中,如何通过不同红移壳层的数据切片提取宇宙学约束,特别是通过两种探针(ADF和ARF)的自相关和互相关角谱。
  • Method: 利用Fisher预测分析评估BAO峰在{θ, Δz}平面中的信息量,并研究联合探针分析(ADF+ARF)对宇宙学参数(如H₀和CPL参数{w₀,wₐ})的约束提升。
  • Result: BAO峰在壳层自相关和互相关角谱中携带了大部分宇宙学和星系偏置参数的信息;联合探针分析显著提升了Fisher行列式(至少一个数量级)。
  • Conclusion: 窄红移壳层配置(σz≤0.02)能保留与速度场相关的宇宙学信息,Fisher行列式比宽壳层配置高约两个数量级。

[126] An analytic redshift-independent formulation of baryonic effects on the matter power spectrum

Matthieu Schaller,Joop Schaye

Main category: astro-ph.CO

TL;DR: 论文提出了一种改进方法,通过将线性与非线性重力功率谱的差异与一个关于波数k的sigmoid函数结合,以更准确地预测重子效应。

  • Motivation: 重子效应是弱引力透镜研究中重要的系统误差,需要快速预测方法。
  • Method: 使用FLAMINGO模拟测试改进方法,将线性功率谱与非线性功率谱的差异乘以一个sigmoid函数。
  • Result: 改进方法在z≤1和k<3h·Mpc−1范围内有效匹配模拟结果,但对某些反馈模型需增加参数。
  • Conclusion: 该方法适用于标准宇宙模型,但对非标准模型需更复杂的重子响应模型。

[127] Questioning Cosmic Acceleration with DESI: The Big Stall of the Universe

Deng Wang

Main category: astro-ph.CO

TL;DR: 研究发现,宇宙可能在CPL情景下经历三重减速,最终进入“大停滞”状态,挑战了传统宇宙加速膨胀的观点。

  • Motivation: 探讨宇宙加速膨胀的现代宇宙学发现,并验证CPL情景下宇宙可能的减速行为。
  • Method: 利用宇宙微波背景、Ia型超新星和DESI的重子声学振荡测量数据,通过统计分析验证宇宙减速的可能性。
  • Result: 在超过5σ的置信水平下,宇宙经历三重减速,最终进入“大停滞”状态,暗物质主导未来宇宙。
  • Conclusion: 研究结果挑战了传统宇宙加速膨胀理论,丰富了宇宙演化的理解。

[128] Development of an Ultra-fast, Likelihood-based, Distance Inference Framework for the Next Generation of Type Ia Supernova Surveys

Dylan Kuhn,Marc Betoule

Main category: astro-ph.CO

TL;DR: EDRIS是一个用于从不完整的超新星调查中重建无偏宇宙学距离的框架,通过直接处理数据截断问题,避免了检测限引入的偏差。

  • Motivation: 解决超新星调查中数据截断导致的宇宙学距离估计偏差问题,并应对未来数据量激增的计算挑战。
  • Method: 在统计模型中直接纳入数据截断,通过最大化似然函数实现单步距离估计,优化方法确保计算复杂度为O(N^2)。
  • Result: EDRIS能够快速完成推断(约10秒处理1500颗超新星),且避免了检测限引入的偏差。
  • Conclusion: EDRIS为未来大规模超新星调查提供了一种高效且无偏的宇宙学距离估计方法。

[129] Sub-Horizon Amplification of Curvature Perturbations: A New Route to Primordial Black Holes and Gravitational Waves

Debottam Nandi,Rohan Roy,Simran Yadav,Arnab Sarkar

Main category: astro-ph.CO

TL;DR: 论文挑战了传统观点,证明任何负值的第二慢滚参数都能通过亚视界增长增强标量功率谱,从而促进原初引力波和原初黑洞的形成。

  • Motivation: 研究旨在推翻传统认为第二慢滚参数必须小于-6才能显著增强标量功率谱的假设,探索更广泛条件下标量功率谱的增强机制。
  • Method: 通过在一个标准情景中嵌入短暂超慢滚相,并系统性地改变第二慢滚参数值(从-1到-10),研究标量功率谱的增强及其对原初引力波和原初黑洞产生的影响。
  • Result: 研究发现任何负值的第二慢滚参数都能增强标量功率谱,为原初引力波和原初黑洞的形成提供了更灵活的条件。
  • Conclusion: 论文结论表明,第二慢滚参数的负值是标量功率谱增强的充分必要条件,为未来宇宙学任务提供了新的理论支持。

[130] Increase of ns in regularized pole inflation & Einstein-Cartan gravity

Minxi He,Muzi Hong,Kyohei Mukaida

Main category: astro-ph.CO

TL;DR: 论文研究了极点膨胀中二阶极点的正则化如何增加标量谱指数ns,以适应最新的ACT观测数据。

  • Motivation: 最新的ACT观测数据表明,标量谱指数ns的约束值可能高于Starobinsky模型、Higgs膨胀和α-吸引子模型的预测,这促使作者考虑对极点膨胀进行修改。
  • Method: 通过正则化动能项中的二阶极点,使得动能项在所有场范围内都保持正则化,从而提升大场区域的势能,增加ns
  • Result: 正则化的极点膨胀模型能够自然地与爱因斯坦-嘉当形式主义结合,其膨胀预测与最新的ACT数据一致,同时保留了α-吸引子模型的成功。
  • Conclusion: 正则化的极点膨胀模型为解决ACT数据与现有模型预测的差异提供了可行的解决方案。

[131] Optimal intrinsic alignment estimators in the presence of redshift-space distortions

Claire Lamman,Jonathan Blazek,Daniel J. Eisenstein

Main category: astro-ph.CO

TL;DR: 提出了一种改进的估计器,用于量化大尺度光谱巡天中的内禀排列,通过动态调整LOS积分范围和加权优化,显著提升了对红移空间畸变的鲁棒性和测量精度。

  • Motivation: 传统方法使用固定的LOS积分范围,对红移空间畸变敏感,限制了内禀排列测量的准确性。
  • Method: 动态调整LOS积分范围(Πmax)并引入基于形状投影和RSD的加权方法,优化投影相关函数。
  • Result: 新估计器在模拟中表现出与3D相关函数相当的信号噪声比,并提供了1-100 Mpc/h范围内的推荐Πmax值和权重。
  • Conclusion: 该方法将提升大尺度宇宙学巡天中内禀排列的测量精度,为弱透镜和直接宇宙学应用提供更严格的约束。

[132] Addendum: Fitting the DESI BAO Data with Dark Energy Driven by the Cohen-Kaplan-Nelson Bound

Patrick Adolf,Martin Hirsch,Sara Krieg,Heinrich Päs,Mustafa Tabet

Main category: astro-ph.CO

TL;DR: 基于DESI合作组Year-2数据更新,时间依赖的暗能量模型相比ΛCDM的偏好性进一步增强,达到约2.6σ。

  • Motivation: 受DESI合作组最新Year-2数据发布的启发,更新基于Cohen-Kaplan-Nelson边界的时间依赖暗能量模型的结果。
  • Method: 利用DESI Year-2数据,结合超新星数据集,分析时间依赖暗能量模型。
  • Result: 新数据进一步支持时间依赖暗能量模型,偏好性提升至约2.6σ。
  • Conclusion: 时间依赖暗能量模型在最新数据中表现出更强的统计显著性,支持其与ΛCDM的差异。

[133] Discovering μHz gravitational waves and ultra-light dark matter with binary resonances

Joshua W. Foster,Diego Blas,Adrien Bourgoin,Aurelien Hees,Míriam Herrero-Valea,Alexander C. Jenkins,Xiao Xue

Main category: astro-ph.CO

TL;DR: 论文提出了一种新框架,用于研究引力波对天体物理双星系统的扰动,并通过月球激光测距、卫星激光测距和脉冲星计时等技术,显著提高了对微赫兹频段引力波的探测灵敏度。

  • Motivation: 探索引力波背景对双星系统的扰动效应,并开发更高效的探测方法,以研究微赫兹频段引力波和超轻暗物质的随机波动。
  • Method: 开发了一种时间分辨的建模和分析框架,结合月球激光测距、卫星激光测距和脉冲星计时技术,优化数据收集和分析流程。
  • Result: 优化后的方法使探测灵敏度比以往提高了数个数量级,为探测微赫兹频段引力波和超轻暗物质提供了新途径。
  • Conclusion: 该框架显著提升了探测能力,为研究微赫兹引力波和暗物质开辟了新的可能性。

[134] On DESI's DR2 exclusion of ΛCDM

Marina Cortês,Andrew R Liddle

Main category: astro-ph.CO

TL;DR: DESI合作组结合BAO、CMB和各超新星数据集,发现显著证据反对ΛCDM宇宙学模型,检测到暗能量状态方程参数w_a的变化。不同数据集组合的显著性不一致,最终建议结合DESI+CMB数据得出3.1σ的排除显著性。

  • Motivation: 研究旨在验证ΛCDM宇宙学模型的适用性,并探索暗能量状态方程的变化。
  • Method: 结合BAO、CMB和各超新星数据集(Pantheon+、Union3、DESY5)进行统计分析,并采用原则性统计方法组合数据。
  • Result: 不同数据集组合的排除显著性分别为2.8σ、3.8σ和4.2σ,但无法选择或平均。最终结合DESI+CMB数据得出3.1σ的排除显著性。
  • Conclusion: 建议基于DESI+CMB数据的3.1σ排除显著性作为最可靠结论,暂不纳入超新星数据。

[135] Cosmology in Extended Parameter Space with DESI DR2 BAO: A 2σ+ Detection of Non-zero Neutrino Masses with an Update on Dynamical Dark Energy and Lensing Anomaly

Shouvik Roy Choudhury

Main category: astro-ph.CO

TL;DR: 论文通过结合多种宇宙学数据,对包含12个参数的宇宙学模型进行了约束,主要发现包括中微子质量的首次显著检测、暗能量动态性的不确定性、透镜异常的依赖性和哈勃张力的持续存在。

  • Motivation: 研究旨在通过多源数据(如BAO、CMB、SNe和WL)的综合分析,进一步约束宇宙学模型,特别是中微子质量、暗能量动态性和透镜异常等问题。
  • Method: 结合DESI DR2 BAO数据、Planck PR4 CMB数据、ACT DR6透镜数据、Pantheon+和DESY5 SNe数据以及DES Year 1 WL数据,对包含12个参数的宇宙学模型进行分析。
  • Result: 1) 首次2σ+检测到非零中微子质量;2) 暗能量动态性证据不明确;3) 透镜异常可能依赖非CMB数据;4) 哈勃张力持续存在。
  • Conclusion: 研究揭示了中微子质量和透镜异常的新证据,但对暗能量动态性的结论与DESI合作组不同,哈勃张力问题仍未解决。

[136] Joint 21-cm and CMB Forecasts for Constraining Self-Interacting Massive Neutrinos

Sarah Libanore,Subhajit Ghosh,Ely D. Kovetz,Kimberly K. Boddy,Alvise Raccanelli

Main category: astro-ph.CO

TL;DR: 论文探讨了自相互作用中微子对宇宙结构增长的影响,并首次研究了21厘米功率谱如何约束其性质。HERA和CMB-S4联合可显著提高对耦合强度的敏感性。

  • Motivation: 自相互作用中微子是标准模型的扩展,对宇宙学和粒子物理均有意义。现有宇宙学分析显示耦合强度的双峰后验分布,需进一步约束。
  • Method: 通过21厘米功率谱(来自宇宙黎明和黑暗时代)研究自相互作用中微子对物质功率谱的影响,并分析其对晕质量函数的塑造。
  • Result: HERA在其设计灵敏度下可改进现有约束,结合CMB-S4可打破参数简并,显著提高敏感性。未来月球干涉仪有望达到对耦合强度的百分之一约束。
  • Conclusion: 21厘米功率谱是研究自相互作用中微子的有力工具,未来实验将进一步提升约束能力。

[137] On the Connection between Field-Level Inference and n-point Correlation Functions

Fabian Schmidt

Main category: astro-ph.CO

TL;DR: 该论文探讨了贝叶斯场级推断在星系聚类中的应用,分析了其信息提取的鲁棒性,并推导了有效场理论中的参数后验分布。

  • Motivation: 研究贝叶斯场级推断在星系聚类中的信息提取是否稳健,以及如何确保其有效性。
  • Method: 使用有效场理论推导场级似然的参数后验分布,并分析理论截断、高阶推广及不完整前向模型的影响。
  • Result: 研究发现,第m阶前向模型能捕捉n≤m+1点相关函数的信息,高阶模型自动纳入更高阶相关函数。
  • Conclusion: 通过扩展前向模型,场级推断能自动包含更高阶信息,同时可估计不完整模型对参数推断的影响。

[138] The Glow of Axion Quark Nugget Dark Matter: (III) The Mysteries of the Milky Way UV Background

Michael Sekatchev,Xunyu Liang,Fereshteh Majidi,Ben Scully,Ludovic Van Waerbeke,Ariel Zhitnitsky

Main category: astro-ph.CO

TL;DR: 论文探讨了轴子夸克块(AQNs)作为暗物质候选体的可能性,并计算了其与重子相互作用产生的远紫外(FUV)辐射信号,结果与观测到的FUV过剩一致。

  • Motivation: 研究旨在验证AQNs作为暗物质的假设,并解释观测到的FUV辐射过剩现象。
  • Method: 使用FIRE-2 Latter高分辨率流体动力学模拟,计算太阳系周围1 kpc区域内AQNs与重子相互作用产生的FUV辐射。
  • Result: 计算结果与New Horizons和GALEX观测到的FUV过剩一致,支持AQNs作为暗物质的假说。
  • Conclusion: 研究为暗物质与重子相互作用提供了新的FUV辐射来源证据,并暗示AQNs可能是暗物质的重要组成部分。

[139] Minimal Magnetogenesis: The Role of Inflationary Perturbations and ALPs, and Its Gravitational Wave Signatures

Subhasis Maiti,Debaprasad Maity,Rohan Srikanth

Main category: astro-ph.CO

TL;DR: 论文提出了一种通过暴胀扰动生成大尺度弱磁场的新机制,并通过与轻轴子的耦合,利用共振效应增强磁场强度,最终产生可观测的次级引力波信号。

  • Motivation: 探讨宇宙大尺度磁场的起源,避免依赖单一暴胀磁生成机制,提出更简单的模型。
  • Method: 利用暴胀标量扰动生成弱磁场,通过与轻轴子的耦合和共振效应增强磁场强度。
  • Result: 生成的磁场强度可达1010高斯,并产生多峰次级引力波谱,CMB-S4可通过B模偏振探测。
  • Conclusion: 该机制为宇宙大尺度磁场提供了一种新的解释,并可通过未来观测验证。

[140] Baryon Acoustic Oscillations in tomographic Angular Density and Redshift Fluctuations

Paula S. Ferreira,Carlos Hernández-Monteagudo,Ribamar R. R. Reis

Main category: astro-ph.CO

TL;DR: 该论文研究了2D角度和红移空间中重子声学振荡(BAO)的特征,首次分析了BAO峰值在{θ, Δz}平面中的表现,并通过Fisher预测分析表明,联合探测(ADF+ARF)能显著提升对宇宙学参数的约束能力。

  • Motivation: 研究BAO在2D角度和红移空间中的表现,以优化大尺度结构(LSS)的断层分析,提升对宇宙学参数的约束。
  • Method: 通过分析2D角度密度涨落(ADF)和红移涨落(ARF)的自相关和互相关角功率谱,首次研究了BAO在{θ, Δz}平面中的特征,并利用Fisher预测分析评估参数约束能力。
  • Result: BAO特征在壳层自相关和互相关角功率谱中携带了大部分宇宙学和星系偏置参数的信息;联合探测(ADF+ARF)显著提升了Fisher行列式,对H0和暗能量CPL参数{w0,wa}的约束能力提高至少一个数量级。
  • Conclusion: 窄壳层宽度(σz≤0.02)能保留与速度场相关的宇宙学信息,其Fisher行列式比宽壳层配置高两个数量级;跨壳层相关分析(Δz∼0.6或0.4)对Fisher信息的收敛至关重要。

[141] An analytic redshift-independent formulation of baryonic effects on the matter power spectrum

Matthieu Schaller,Joop Schaye

Main category: astro-ph.CO

TL;DR: 论文提出了一种改进的方法,通过使用sigmoid函数调整线性与非线性重力功率谱的差异,以更准确地模拟重子效应对物质功率谱的影响。

  • Motivation: 重子效应是弱引力透镜研究中重要的系统误差,需要快速预测和边际化其影响。
  • Method: 使用FLAMINGO模拟测试了一种近似方法,将物质功率谱表示为线性功率谱与一个sigmoid函数调整后的非线性差异之和。
  • Result: 改进后的方法能匹配不同反馈强度和宇宙学模型的模拟结果,但对某些模型需增加参数。
  • Conclusion: 该方法适用于标准宇宙学模型,但对偏离ΛCDM的模型需更复杂的重子响应模型。

[142] Questioning Cosmic Acceleration with DESI: The Big Stall of the Universe

Deng Wang

Main category: astro-ph.CO

TL;DR: 研究发现宇宙在CPL情景下可能减速,挑战了传统的宇宙加速膨胀理论,并提出了“大停滞”假说。

  • Motivation: 探讨宇宙加速膨胀的现代宇宙学理论是否在所有情景下成立,尤其是基于CPL模型与ΛCDM模型的对比。
  • Method: 利用宇宙微波背景、Ia型超新星和DESI的重子声波振荡测量数据,通过统计分析验证宇宙减速的可能性。
  • Result: 在超过5σ置信水平下,发现宇宙经历三重减速,最终达到“大停滞”状态,暗物质主导未来宇宙。
  • Conclusion: 研究结果挑战了宇宙加速膨胀的传统认知,丰富了宇宙演化的理解。

[143] Development of an Ultra-fast, Likelihood-based, Distance Inference Framework for the Next Generation of Type Ia Supernova Surveys

Dylan Kuhn,Marc Betoule

Main category: astro-ph.CO

TL;DR: EDRIS是一个用于从不完整的超新星调查中重建无偏宇宙学距离的框架,通过直接处理数据截断来避免偏差,并优化计算效率。

  • Motivation: 解决超新星调查中数据截断导致的宇宙学距离估计偏差,同时应对未来数据量激增的计算挑战。
  • Method: 在统计模型中直接包含数据截断,通过最大化似然函数实现单步距离估计,优化方法确保计算复杂度为O(N²)。
  • Result: EDRIS能够快速(O(10s)处理1500颗超新星)且无偏地估计宇宙学距离。
  • Conclusion: EDRIS为未来大规模超新星调查提供了一种高效、无偏的宇宙学分析工具。

[144] Sub-Horizon Amplification of Curvature Perturbations: A New Route to Primordial Black Holes and Gravitational Waves

Debottam Nandi,Rohan Roy,Simran Yadav,Arnab Sarkar

Main category: astro-ph.CO

TL;DR: 论文挑战了传统观点,证明任何负值的第二慢滚参数都能增强标量功率谱,从而促进原初引力波和原初黑洞的形成。

  • Motivation: 研究旨在推翻传统认为第二慢滚参数需小于-6才能显著增强标量功率谱的假设,探索更广泛条件下功率谱的增强机制。
  • Method: 通过在一个标准情景中嵌入短暂超慢滚阶段,并系统改变第二慢滚参数值(从-1到-10),研究功率谱的增强及其对原初引力波和原初黑洞的影响。
  • Result: 发现任何负值的第二慢滚参数均可通过亚视界增长增强标量功率谱,为原初引力波和原初黑洞的形成提供了必要条件。
  • Conclusion: 研究扩展了对标量功率谱增强机制的理解,为未来宇宙学任务提供了新的理论支持。

[145] Increase of ns in regularized pole inflation & Einstein-Cartan gravity

Minxi He,Muzi Hong,Kyohei Mukaida

Main category: astro-ph.CO

TL;DR: 论文研究了通过正则化极点的二阶极点来增加标量谱指数ns,以适应最新的ACT观测数据。

  • Motivation: 最新的ACT观测数据显示,标量谱指数ns的约束可能高于Starobinsky模型、Higgs暴胀和α-吸引子模型的预测值,因此需要修改极点暴胀模型。
  • Method: 正则化极点暴胀中的二阶极点,使得动能项在所有场范围内都正则化,从而提升大场区域的势能。
  • Result: 正则化的极点暴胀可以增加ns,并且与最新的ACT数据一致,同时保留了α-吸引子模型的成功。
  • Conclusion: 正则化极点暴胀是一种有效的修改方法,能够适应新的观测数据并保持原有模型的优点。

[146] Optimal intrinsic alignment estimators in the presence of redshift-space distortions

Claire Lamman,Jonathan Blazek,Daniel J. Eisenstein

Main category: astro-ph.CO

TL;DR: 提出了一种改进的估计器,用于量化大型光谱调查中的固有排列,通过调整LOS积分范围和权重,提高了对RSD的鲁棒性。

  • Motivation: 传统方法使用固定的LOS积分范围,可能无法有效捕捉固有排列信息,且对RSD敏感。
  • Method: 通过动态调整LOS积分范围(Πmax)和使用基于形状投影和RSD的权重,改进估计器。
  • Result: 新估计器在模拟中表现优于传统方法,信号噪声比与3D相关函数相当。
  • Conclusion: 该方法可提升大型宇宙学调查中固有排列的测量精度,对弱透镜和直接宇宙学应用有重要意义。

cs.MA

[147] A biologically Inspired Trust Model for Open Multi-Agent Systems that is Resilient to Rapid Performance Fluctuations

Zoi Lygizou,Dimitris Kalles

Main category: cs.MA

TL;DR: 论文提出了一种生物启发的信任模型,通过本地存储信任数据解决代理移动性、行为变化和冷启动问题,并引入新算法以应对动态行为。

  • Motivation: 解决现有信任模型在代理移动性、行为变化和冷启动问题上的不足。
  • Method: 提出生物启发的信任模型,结合自分类机制检测性能下降。
  • Result: 新算法在动态行为处理上优于原版和FIRE模型,适应性更强。
  • Conclusion: 模型在抗攻击和适应性方面表现优异,未来研究方向明确。

cs.CR

[148] Scalable APT Malware Classification via Parallel Feature Extraction and GPU-Accelerated Learning

Noah Subedar,Taeui Kim,Saathwick Venkataramalingam

Main category: cs.CR

TL;DR: 提出了一种基于汇编指令(opcodes)的自动化恶意软件分类框架,利用并行计算加速分析,并通过传统和深度学习模型实现分类。

  • Motivation: 解决恶意软件分类中手动分析耗时且传统模型依赖元数据的问题。
  • Method: 使用开源逆向工程工具和并行计算脚本分析opcodes,构建一阶和二阶n-gram数据集,并应用SVM、KNN、决策树和CNN模型。
  • Result: 传统模型依赖元数据,而CNN结合GPU加速克服了计算限制,提升了分类效果。
  • Conclusion: CNN结合GPU资源能有效加速并提升恶意软件分类的准确性。

[149] Guillotine: Hypervisors for Isolating Malicious AIs

James Mickens,Sarah Radway,Ravi Netravali

Main category: cs.CR

TL;DR: Guillotine是一种用于隔离高风险AI模型的超虚拟架构,通过软硬件协同设计和物理故障保护机制来防止AI的潜在威胁。

  • Motivation: 随着AI模型在金融、医疗和军事等关键领域的广泛应用,其不可预测的行为可能对社会构成重大风险,因此需要一种可靠的隔离机制。
  • Method: Guillotine结合了虚拟化技术和新型隔离机制,包括软件、网络和微架构层面的防护,以及物理故障保护措施(如断电或数据中心淹没)。
  • Result: Guillotine能够有效防止AI模型通过侧信道攻击或其他方式突破控制平面,确保高风险AI的安全隔离。
  • Conclusion: Guillotine为高风险AI提供了一种全面的隔离解决方案,结合了软硬件和物理保护,以应对潜在的生存威胁。

[150] A Comprehensive Survey in LLM(-Agent) Full Stack Safety: Data, Training and Deployment

Kun Wang,Guibin Zhang,Zhenhong Zhou,Jiahao Wu,Miao Yu,Shiqian Zhao,Chenlong Yin,Jinhu Fu,Yibo Yan,Hanjun Luo,Liang Lin,Zhihao Xu,Haolang Lu,Xinye Cao,Xinyun Zhou,Weifei Jin,Fanci Meng,Junyuan Mao,Hao Wu,Minghe Wang,Fan Zhang,Junfeng Fang,Chengwei Liu,Yifan Zhang,Qiankun Li,Chongye Guo,Yalan Qin,Yi Ding,Donghai Hong,Jiaming Ji,Xinfeng Li,Yifan Jiang,Dongxia Wang,Yihao Huang,Yufei Guo,Jen-tse Huang,Yanwei Yue,Wenke Huang,Guancheng Wan,Tianlin Li,Lei Bai,Jie Zhang,Qing Guo,Jingyi Wang,Tianlong Chen,Joey Tianyi Zhou,Xiaojun Jia,Weisong Sun,Cong Wu,Jing Chen,Xuming Hu,Yiming Li,Xiao Wang,Ningyu Zhang,Luu Anh Tuan,Guowen Xu,Tianwei Zhang,Xingjun Ma,Xiang Wang,Bo An,Jun Sun,Mohit Bansal,Shirui Pan,Yuval Elovici,Bhavya Kailkhura,Bo Li,Yaodong Yang,Hongwei Li,Wenyuan Xu,Yizhou Sun,Wei Wang,Qing Li,Ke Tang,Yu-Gang Jiang,Felix Juefei-Xu,Hui Xiong,Xiaofeng Wang,Shuicheng Yan,Dacheng Tao,Philip S. Yu,Qingsong Wen,Yang Liu

Main category: cs.CR

TL;DR: 本文提出“全栈安全”概念,系统分析大语言模型(LLM)从训练到商业化的全生命周期安全问题,填补现有研究空白。

  • Motivation: 现有LLM安全研究多聚焦单一阶段,缺乏对全生命周期的系统理解,亟需全面视角。
  • Method: 通过综述800+文献,定义LLM全生命周期(数据准备、预训练、后训练、部署、商业化),系统梳理安全问题。
  • Result: 提出独特见解,如数据生成安全、对齐技术、模型编辑等研究方向,为未来研究提供指导。
  • Conclusion: 全栈安全框架为LLM安全研究提供系统性视角,填补领域空白,推动未来研究方向。

astro-ph.GA

[151] The (Limited) Effect of Viscosity in Multiphase Turbulent Mixing

Tirso Marin-Gilabert,Max Gronke,S. Peng Oh

Main category: astro-ph.GA

TL;DR: 研究了黏性在湍流辐射混合层(TRMLs)中对湍流和辐射冷却的调节作用,发现黏性在不同冷却状态下对气体混合和冷却效率的影响不同。

  • Motivation: 探索黏性在湍流辐射混合层中对气体动力学和恒星形成过程的影响,特别是在不同冷却状态下黏性的作用。
  • Method: 通过二维数值模拟计算剪切流中抑制开尔文-亥姆霍兹不稳定性(KHI)所需的临界黏性,并在三维剪切层中研究黏性对冷却效率和湍流的影响。
  • Result: 临界黏性与密度对比和马赫数相关;在弱冷却状态下,黏性对湍流和冷却关系有显著影响,而在强冷却状态下,系统行为类似非黏性。
  • Conclusion: 黏性在强冷却状态下影响较小,但对弱冷却状态下的湍流和冷却关系有重要影响,这对观测诊断和大尺度模拟的子网格模型开发具有重要意义。

[152] Line Intensity Mapping Prediction from the Cosmic Dawn (CoDa) III Simulation for Hα from Galaxies and the Intergalactic Medium during the Epoch of Reionization

Eugene Hyeonmin Lee,Joohyun Lee,Paul R. Shapiro,Pierre Ocvirk,Joseph S. W. Lewis,Taha Dawoodbhoy,Ilian T. Iliev,Luke Conaboy,Kyungjin Ahn,Hyunbae Park,Jenny G. Sorce,Dominique Aubert,Romain Teyssier,Gustavo Yepes,Yohan Dubois,Stefan Gottlöber

Main category: astro-ph.GA

TL;DR: 论文预测了氢Hα发射的强度和来源,为即将进行的线强度映射实验提供模拟数据。

  • Motivation: 研究再电离时期(EoR)的大尺度结构、星系和星系间介质(IGM)的演化,为实验如SPHEREx和CDIM提供指导。
  • Method: 使用迄今为止最大的全耦合辐射-流体模拟Cosmic Dawn III,计算氢Hα发射的平均强度和体素强度分布(VID)。
  • Result: 预测了氢Hα发射的强度和来源,包括星系和IGM的相对贡献。
  • Conclusion: 研究结果为线强度映射实验提供了模拟数据,有助于实验的设计和结果解释。

[153] Density Profiles of TNG300 Voids across Cosmic Time

Olivia Curtis,Bryanne McDonough,Tereasa Brainerd

Main category: astro-ph.GA

TL;DR: 论文研究了TNG300模拟中11个时间点的宇宙空洞的径向密度分布,比较了星系和暗物质的密度轮廓,并分析了不同空洞环境下的密度变化。

  • Motivation: 探索宇宙空洞在不同红移下的密度分布特征,以及星系和暗物质在空洞中的行为差异,以理解宇宙结构的演化。
  • Method: 使用TNG300模拟数据,通过分水岭变换算法识别空洞,分析星系和暗物质的径向密度轮廓,并区分空洞的环境类型(如“空洞中的空洞”和“云中的空洞”)。
  • Result: 星系和暗物质的密度轮廓均呈现反顶帽函数形式,但暗物质轮廓的演化更为显著。两者密度轮廓存在线性关系,斜率与TNG300的偏差估计相似。不同环境下的空洞密度分布有明显差异。
  • Conclusion: 空洞的密度轮廓及其演化特征揭示了宇宙结构的动态变化,星系和暗物质的行为差异为理解宇宙演化提供了重要线索。

[154] A Massive Gas Outflow Outside the Line-of-Sight: Imaging Polarimetry of the Blue Excess Hot Dust Obscured Galaxy W0204-0506

Roberto J. Assef,Marko Stalevski,Lee Armus,Franz E. Bauer,Andrew Blain,Murray Brightman,Tanio Díaz-Santos,Peter R. M. Eisenhardt,Román Fernández-Aranda,Hyunsung D. Jun,Mai Liao,Guodong Li,Lee R. Martin,Elena Shablovinskaia,Devika Shobhana,Daniel Stern,Chao-Wei Tsai,Andrey Vayner,Dominic J. Walton,Jingwen Wu,Dejene Zewdie

Main category: astro-ph.GA

TL;DR: 研究通过偏振成像确认了蓝超热尘埃遮蔽星系(BHD)W0204-0506的紫外辐射为散射光,并推测其可能源于石墨富集的尘埃锥形外流。

  • Motivation: 探究蓝超热尘埃遮蔽星系(BHDs)紫外辐射的来源及其散射特性。
  • Method: 使用VLT的FORS2仪器进行R波段偏振成像观测,并与辐射传输模拟对比。
  • Result: 观测到24.7%的偏振分数,证实紫外辐射为散射光;偏振梯度与HST/WFC3成像的形态一致,推测存在石墨富集的尘埃锥形外流。
  • Conclusion: 偏振成像为研究尘埃类星体外流提供了独特视角,补充了传统光谱研究的不足。

[155] The (Limited) Effect of Viscosity in Multiphase Turbulent Mixing

Tirso Marin-Gilabert,Max Gronke,S. Peng Oh

Main category: astro-ph.GA

TL;DR: 研究了黏度在湍流辐射混合层(TRMLs)中对湍流和辐射冷却的调节作用,发现黏度在不同冷却机制下对气体动力学和冷却效率的影响不同。

  • Motivation: 探讨黏度在湍流辐射混合层中对Kelvin-Helmholtz不稳定性、湍流演化和气体混合冷却效率的影响,以理解多相气体环境的动力学行为。
  • Method: 通过理想化的2D数值模拟计算临界黏度,并在3D剪切层中研究黏度对不同冷却机制下湍流和冷却效率的影响。
  • Result: 在弱冷却机制下,黏度显著影响流动行为;而在强冷却机制下,辐射损失主导,系统行为类似于非黏性流体。
  • Conclusion: 研究结果对观测诊断的解释和大尺度模拟中亚网格模型的开发具有直接意义。

[156] Line Intensity Mapping Prediction from the Cosmic Dawn (CoDa) III Simulation for Hα from Galaxies and the Intergalactic Medium during the Epoch of Reionization

Eugene Hyeonmin Lee,Joohyun Lee,Paul R. Shapiro,Pierre Ocvirk,Joseph S. W. Lewis,Taha Dawoodbhoy,Ilian T. Iliev,Luke Conaboy,Kyungjin Ahn,Hyunbae Park,Jenny G. Sorce,Dominique Aubert,Romain Teyssier,Gustavo Yepes,Yohan Dubois,Stefan Gottlöber

Main category: astro-ph.GA

TL;DR: 论文探讨了通过线强度映射(LIM)实验研究再电离时期(EoR)的大尺度结构、星系和星系际介质(IGM)的演化,预测了氢Hα发射的强度和来源。

  • Motivation: 研究旨在为即将进行的LIM实验(如NASA的SPHEREx和提议的CDIM)提供模拟数据,以帮助理解和解释这些实验的结果。
  • Method: 使用迄今为止最大的全耦合辐射流体动力学模拟(Cosmic Dawn III)预测氢Hα发射的强度和来源,并计算平均强度和体素强度分布(VID)。
  • Result: 预测了氢Hα发射的强度和来源,包括星系和IGM的相对贡献,为LIM实验提供了模拟数据。
  • Conclusion: 研究为未来的LIM实验提供了重要的理论支持和数据指导,有助于进一步探索再电离时期的宇宙演化。

[157] Density Profiles of TNG300 Voids across Cosmic Time

Olivia Curtis,Bryanne McDonough,Tereasa Brainerd

Main category: astro-ph.GA

TL;DR: 论文分析了TNG300模拟中11个时间点的宇宙空洞的径向密度分布,比较了星系和暗物质的密度轮廓,发现两者呈线性关系,并探讨了不同空洞环境的影响。

  • Motivation: 研究宇宙空洞的密度分布及其演化,以理解星系和暗物质在不同环境中的行为。
  • Method: 使用TNG300模拟数据,通过分水岭变换算法识别空洞,分析星系和暗物质的径向密度轮廓。
  • Result: 星系和暗物质的密度轮廓均呈现反顶帽函数形式,但暗物质轮廓的演化更显著;两者存在线性关系,斜率与偏差估计一致。
  • Conclusion: 空洞环境(如“空洞中的空洞”和“云中的空洞”)对星系和暗物质的密度分布有显著影响,为宇宙结构形成提供了新见解。

[158] A Massive Gas Outflow Outside the Line-of-Sight: Imaging Polarimetry of the Blue Excess Hot Dust Obscured Galaxy W0204-0506

Roberto J. Assef,Marko Stalevski,Lee Armus,Franz E. Bauer,Andrew Blain,Murray Brightman,Tanio Díaz-Santos,Peter R. M. Eisenhardt,Román Fernández-Aranda,Hyunsung D. Jun,Mai Liao,Guodong Li,Lee R. Martin,Elena Shablovinskaia,Devika Shobhana,Daniel Stern,Chao-Wei Tsai,Andrey Vayner,Dominic J. Walton,Jingwen Wu,Dejene Zewdie

Main category: astro-ph.GA

TL;DR: 研究了蓝超热尘埃遮蔽星系(BHDs)中紫外辐射的散射光特性,通过偏振观测和模拟确认了散射材料的性质。

  • Motivation: 探索BHDs中紫外辐射的来源,特别是散射光的作用,以理解其与星系演化的关系。
  • Method: 使用VLT的FORS2仪器进行R波段偏振成像观测,并与辐射传输模拟对比。
  • Result: 观测到24.7%的偏振分数,确认紫外辐射为散射光;发现与HST成像一致的偏振梯度和角度。
  • Conclusion: 偏振成像是研究尘埃类星体外流的有效工具,补充了传统光谱研究的不足。

[159] The (Limited) Effect of Viscosity in Multiphase Turbulent Mixing

Tirso Marin-Gilabert,Max Gronke,S. Peng Oh

Main category: astro-ph.GA

TL;DR: 研究了黏性在湍流辐射混合层(TRMLs)中对湍流和辐射冷却的调节作用,发现黏性在不同冷却机制下对气体混合和冷却效率的影响不同。

  • Motivation: 探讨黏性在多种天体物理环境中对气体动力学和恒星形成过程的影响,特别是在湍流辐射混合层中的作用。
  • Method: 通过理想化的2D数值模拟计算剪切流中抑制Kelvin-Helmholtz不稳定性(KHI)所需的临界黏性,并在3D剪切层中研究黏性对冷却效率和湍流的影响。
  • Result: 临界黏性与密度对比和马赫数相关;在弱冷却机制下黏性影响显著,而在强冷却机制下系统行为类似非黏性。
  • Conclusion: 黏性对TRMLs的影响取决于冷却机制,这对观测诊断和大尺度模拟中的子网格模型开发具有重要意义。

[160] Line Intensity Mapping Prediction from the Cosmic Dawn (CoDa) III Simulation for Hα from Galaxies and the Intergalactic Medium during the Epoch of Reionization

Eugene Hyeonmin Lee,Joohyun Lee,Paul R. Shapiro,Pierre Ocvirk,Joseph S. W. Lewis,Taha Dawoodbhoy,Ilian T. Iliev,Luke Conaboy,Kyungjin Ahn,Hyunbae Park,Jenny G. Sorce,Dominique Aubert,Romain Teyssier,Gustavo Yepes,Yohan Dubois,Stefan Gottlöber

Main category: astro-ph.GA

TL;DR: 论文预测了氢Hα发射的强度和来源,通过模拟指导未来的线强度映射实验。

  • Motivation: 研究再电离时期的大尺度结构、星系和星系际介质演化,为未来的实验提供模拟数据。
  • Method: 使用Cosmic Dawn III模拟,计算平均强度和Voxel Intensity Distribution (VID)。
  • Result: 预测了Hα发射的强度和来源,包括星系和星系际介质的贡献。
  • Conclusion: 结果为NASA的SPHEREx和提议的CDIM实验提供了模拟数据支持。

[161] Density Profiles of TNG300 Voids across Cosmic Time

Olivia Curtis,Bryanne McDonough,Tereasa Brainerd

Main category: astro-ph.GA

TL;DR: 论文分析了TNG300模拟中11个时间点的宇宙空洞径向密度分布,比较了星系和暗物质的密度剖面演化及其关系。

  • Motivation: 研究宇宙空洞的密度分布及其演化,以理解星系和暗物质在不同环境中的行为差异。
  • Method: 使用基于分水岭变换的算法识别空洞,分析星系和暗物质的径向密度剖面,并定义“空洞中的空洞”和“云中的空洞”两类环境。
  • Result: 星系和暗物质的密度剖面均呈现反顶帽函数形式,但暗物质剖面的演化更显著;两者存在线性关系,斜率与TNG300的偏差估计相似。
  • Conclusion: 空洞环境对星系和暗物质的密度分布有显著影响,为理解宇宙结构形成提供了新视角。

[162] A Massive Gas Outflow Outside the Line-of-Sight: Imaging Polarimetry of the Blue Excess Hot Dust Obscured Galaxy W0204-0506

Roberto J. Assef,Marko Stalevski,Lee Armus,Franz E. Bauer,Andrew Blain,Murray Brightman,Tanio Díaz-Santos,Peter R. M. Eisenhardt,Román Fernández-Aranda,Hyunsung D. Jun,Mai Liao,Guodong Li,Lee R. Martin,Elena Shablovinskaia,Devika Shobhana,Daniel Stern,Chao-Wei Tsai,Andrey Vayner,Dominic J. Walton,Jingwen Wu,Dejene Zewdie

Main category: astro-ph.GA

TL;DR: 研究通过偏振成像确认了BHD W0204-0506的紫外辐射为散射光,并推测其散射物质为石墨富集的尘埃锥形极向流出。

  • Motivation: 探究蓝超热尘埃遮蔽星系(BHDs)中紫外辐射的起源,尤其是散射光的作用。
  • Method: 使用VLT的FORS2仪器进行R波段偏振成像观测,并结合辐射传输模拟分析散射物质特性。
  • Result: 观测到24.7%的偏振分数,证实紫外辐射为散射光;散射物质可能为石墨富集的尘埃锥形极向流出。
  • Conclusion: 偏振成像为研究尘埃类星体流出提供了独特视角,补充了传统光谱研究的不足。

cs.AR

[163] VeriCoder: Enhancing LLM-Based RTL Code Generation through Functional Correctness Validation

Anjiang Wei,Huanmi Tan,Tarun Suresh,Daniel Mendoza,Thiago S. F. X. Teixeira,Ke Wang,Caroline Trippel,Alex Aiken

Main category: cs.AR

TL;DR: VERICODER是一个针对RTL代码生成的模型,通过功能验证的数据集微调,显著提升了功能正确性。

  • Motivation: 现有RTL数据集多关注语法有效性而非功能验证,导致生成的代码可能不符合预期行为。
  • Method: 采用结合单元测试生成和反馈导向优化的方法,构建功能验证的数据集,并微调模型。
  • Result: VERICODER在VerilogEval和RTLLM上功能正确性指标达到最优,相对提升高达71.7%和27.4%。
  • Conclusion: 功能验证的高质量数据集对RTL代码生成至关重要,显著优于非验证数据集。

[164] Insights from Verification: Training a Verilog Generation LLM with Reinforcement Learning with Testbench Feedback

Ning Wang,Bingkun Yao,Jie Zhou,Yuchen Hu,Xi Wang,Nan Guan,Zhe Jiang

Main category: cs.AR

TL;DR: 论文提出了一种结合测试平台验证反馈的方法,通过强化学习优化大语言模型生成功能正确的Verilog代码。

  • Motivation: 解决Verilog生成代码功能正确性不足的问题,缺乏验证数据是关键挑战。
  • Method: 引入自动测试平台生成流程,利用VCS反馈减少错误,并通过强化学习(DPO)优化生成结果。
  • Result: 在多个数据集上表现优于现有方法,生成代码功能正确性显著提升。
  • Conclusion: 结合验证反馈的强化学习方法有效提升了Verilog生成的功能正确性,并开源了相关资源。

cs.RO

[165] Solving Multi-Agent Safe Optimal Control with Distributed Epigraph Form MARL

Songyuan Zhang,Oswin So,Mitchell Black,Zachary Serlin,Chuchu Fan

Main category: cs.RO

TL;DR: 论文提出了一种名为Def-MARL的新型多智能体强化学习算法,用于解决多机器人系统中的安全协作问题,通过分布式执行实现稳定训练和零约束违反。

  • Motivation: 多机器人系统在协作完成任务时需要确保安全性,现有方法在训练稳定性上存在问题。
  • Method: 采用约束优化的epigraph形式,提出集中训练分布式执行的Def-MARL算法。
  • Result: 在8个任务和2个模拟器中表现最佳,Crazyflie四旋翼硬件实验验证了其安全性。
  • Conclusion: Def-MARL在安全性和训练稳定性上优于其他方法,适用于复杂协作任务。

[166] A Vision-Enabled Prosthetic Hand for Children with Upper Limb Disabilities

Md Abdul Baset Sarker,Art Nguyen,Sigmond Kukla,Kevin Fite,Masudul H. Imtiaz

Main category: cs.RO

TL;DR: 本文介绍了一种新型AI视觉辅助儿童假肢手,专为10-12岁上肢残疾儿童设计,具有仿生外观、多关节功能和轻量化设计,结合3D打印技术和机器视觉,提供低成本、可定制化的解决方案。

  • Motivation: 当前肌电假肢存在局限性,尤其是对低收入家庭儿童的可及性和负担能力不足,因此需要一种更经济、功能更全面的替代方案。
  • Method: 采用3D打印技术,集成机器视觉、传感和嵌入式计算,通过微型摄像头与低功耗FPGA实现实时物体检测和精确抓握。
  • Result: 深度学习物体检测和抓握分类模型的准确率分别达到96%和100%,力预测的平均绝对误差为0.018。
  • Conclusion: 该假肢手通过AI视觉和低功耗设计,实现了高性能和低成本,为儿童上肢残疾提供了创新的解决方案。

[167] SLAM-Based Navigation and Fault Resilience in a Surveillance Quadcopter with Embedded Vision Systems

Abhishek Tyagi,Charu Gaur

Main category: cs.RO

TL;DR: Veg是一个自主空中监视平台,集成了视觉SLAM、先进控制架构和嵌入式视觉模块,支持GPS独立导航、动态稳定性和实时对象识别。

  • Motivation: 设计一个适用于受限环境的无人机平台,整合实时定位、故障恢复和嵌入式AI功能。
  • Method: 采用LQR内环和PD外环控制设计,结合ORB-SLAM3进行6-DoF定位,使用Dijkstra路径规划,并配备实时故障检测与识别系统。
  • Result: 平台在模拟和实际测试中验证了其动态稳定性、实时对象识别和故障恢复能力。
  • Conclusion: Veg成功整合了多种先进技术,适用于复杂环境中的自主监视任务。

[168] Dynamic Intent Queries for Motion Transformer-based Trajectory Prediction

Tobias Demmler,Lennart Hartung,Andreas Tamke,Thao Dang,Alexander Hegai,Karsten Haug,Lars Mikelsons

Main category: cs.RO

TL;DR: 论文提出了一种改进的MTR模型,通过动态意图点提升轨迹预测精度,尤其在长时预测中效果显著。

  • Motivation: 静态意图点常与地图数据不匹配,导致预测不准确或不现实,动态意图点可解决这一问题。
  • Method: 在MTR模型中集成场景特定的动态意图点,并在Waymo Open Motion数据集上训练和评估。
  • Result: 动态意图点显著提升了轨迹预测精度,特别是长时预测,并分析了不符合地图数据或非法操作的轨迹影响。
  • Conclusion: 动态意图点的引入有效解决了静态意图点的局限性,提升了预测模型的实用性。

[169] Bidirectional Task-Motion Planning Based on Hierarchical Reinforcement Learning for Strategic Confrontation

Qizhen Wu Lei Chen,Kexin Liu,Jinhu Lü

Main category: cs.RO

TL;DR: 提出了一种基于分层强化学习的双向方法,用于群体机器人对抗场景中的高效决策,结合离散命令和连续动作,显著提升了动态环境中的适应性和性能。

  • Motivation: 传统任务与运动规划方法将决策分为两层,但单向结构无法捕捉层间依赖关系,限制了动态环境中的适应性。
  • Method: 采用分层强化学习的双向方法,结合交叉训练技术和轨迹预测模型,实现任务分配与路径规划的动态交互。
  • Result: 实验显示对抗胜率超过80%,决策时间低于0.01秒,优于现有方法。
  • Conclusion: 该方法在动态环境中表现出优异的适应性和实用性,适用于大规模测试和实际机器人应用。

[170] RaSCL: Radar to Satellite Crossview Localization

Blerim Abdullai,Tony Wang,Xinyuan Qiao,Florian Shkurti,Timothy D. Barfoot

Main category: cs.RO

TL;DR: 提出了一种不依赖GNSS的全局定位方法,通过地面雷达与高空RGB图像的配准实现定位。

  • Motivation: GNSS在许多实时自主应用中不可靠、不准确且不足,需要一种替代方案。
  • Method: 结合地面雷达与高空RGB图像的配准,并通过里程计和全局配准联合优化位姿。
  • Result: 在多种地理条件和机器人平台上(如无人水面艇、城市和郊区驾驶数据集)验证了方法的有效性。
  • Conclusion: 该方法为GNSS不可用时的全局定位提供了可行解决方案。

[171] Visual Place Cell Encoding: A Computational Model for Spatial Representation and Cognitive Mapping

Chance J. Hamilton,Alfredo Weitzenfeld

Main category: cs.RO

TL;DR: VPCE模型通过视觉输入模拟位置细胞激活,验证了视觉特征在空间编码中的作用。

  • Motivation: 探索视觉地标在空间编码中的核心作用,并验证仅靠视觉输入是否能生成类似生物位置细胞的空间表征。
  • Method: 使用机器人摄像头捕获的图像提取高维外观特征,通过聚类和径向基函数计算激活模式。
  • Result: VPCE能区分视觉相似但空间不同的位置,并适应环境变化(如墙壁增减)。
  • Conclusion: 结构化视觉输入足以生成位置细胞样空间表征,支持生物启发式认知映射。

[172] ForesightNav: Learning Scene Imagination for Efficient Exploration

Hardik Shah,Jiaxu Xing,Nico Messikommer,Boyang Sun,Marc Pollefeys,Davide Scaramuzza

Main category: cs.RO

TL;DR: ForesightNav是一种受人类想象和推理启发的探索策略,通过预测未探索区域的上下文信息(如占用和语义细节),提升机器人在未知环境中的导航效率。

  • Motivation: 研究人类如何利用先验知识在未知环境中导航,以开发具备类似能力的自主机器人。
  • Method: 提出ForesightNav,赋予机器人预测未探索区域信息的能力,从而选择长期导航目标。
  • Result: 在Structured3D数据集上验证,预测准确且探索效率高,PointNav完成率100%,ObjectNav SPL达67%。
  • Conclusion: 想象力驱动的推理能显著提升自主系统的泛化性和探索效率。

cs.IR

[173] Med-CoDE: Medical Critique based Disagreement Evaluation Framework

Mohit Gupta,Akiko Aizawa,Rajiv Ratn Shah

Main category: cs.IR

TL;DR: 提出了Med-CoDE框架,用于评估医疗领域大型语言模型的可靠性和准确性,填补现有评估方法的不足。

  • Motivation: 当前评估方法在医疗领域缺乏鲁棒性,可能导致临床风险,需要更全面的评估框架。
  • Method: 采用基于批评的方法,量化模型生成响应与医学标准之间的差异,评估准确性和可靠性。
  • Result: 通过实验和案例研究,验证了框架在全面可靠评估医疗LLMs中的实用性。
  • Conclusion: Med-CoDE为医疗LLMs提供了系统化的评估方法,提升了其质量和可信度。

cs.SE

[174] CUBETESTERAI: Automated JUnit Test Generation using the LLaMA Model

Daniele Gorla,Shivam Kumar,Pietro Nicolaus Roselli Lorenzini,Alireza Alipourfaz

Main category: cs.SE

TL;DR: 本文提出了一种利用LLaMA模型自动化生成Java Spring Boot应用JUnit测试的方法,开发了工具CUBETESTERAI,具有用户友好的Web界面和CI/CD集成,显著提升了测试效率和准确性。

  • Motivation: 传统JUnit测试生成方法效率低且准确性不足,需要自动化工具提升测试覆盖率和开发效率。
  • Method: 结合LLaMA模型的自然语言处理能力,通过RunPod执行模型,生成高覆盖率的测试用例,并集成GitLab和Docker实现CI/CD流程。
  • Result: CUBETESTERAI在代码覆盖率和测试准确性上优于现有工具,适用于实际Java项目。
  • Conclusion: CUBETESTERAI通过自动化测试生成显著提升了开发效率和测试质量,具有实际应用价值。

[175] LLM-Assisted Translation of Legacy FORTRAN Codes to C++: A Cross-Platform Study

Nishath Rajiv Ranasinghe,Shawn M. Jones,Michal Kucer,Ayan Biswas,Daniel O'Malley,Alexander Buschmann Most,Selma Liliane Wanna,Ajay Sreekumar

Main category: cs.SE

TL;DR: 研究评估了LLM在Fortran到C++代码翻译中的适用性,量化了编译准确性、代码相似性和输出相似性。

  • Motivation: 探索LLM在科学计算代码翻译中的实用性,尤其是针对传统HPC中的Fortran代码。
  • Method: 使用开源LLM在两种计算平台上进行Fortran到C++的翻译,并统计编译准确性、代码相似性和输出相似性。
  • Result: 量化了LLM翻译的编译准确性、代码与人工翻译的相似性以及输出结果的一致性。
  • Conclusion: LLM在Fortran到C++代码翻译中具有一定实用性,但需进一步评估和改进。

[176] A Framework for Testing and Adapting REST APIs as LLM Tools

Jayachandu Bandlamudi,Ritwik Chaudhuri,Neelamadhav Gantayat,Kushal Mukherjee,Prerna Agarwal,Renuka Sindhgatta,Sameep Mehta

Main category: cs.SE

TL;DR: 提出了一种新的测试框架,用于评估和增强REST API作为LLM代理工具的可用性,通过生成测试用例、自然语言指令和错误分类,提升API在自动化代理中的表现。

  • Motivation: 当前API的复杂输入模式、模糊文档和现有测试基准的不足,导致API在LLM代理中的使用存在挑战。
  • Method: 开发了一个测试框架,将API转化为工具,生成测试用例并转换为自然语言指令,评估代理调用API和处理输入输出的能力。
  • Result: 分析了750个测试用例,提出了错误分类(如输入误解、输出处理不一致和模式不匹配),并分类以优化工具集成。
  • Conclusion: 该框架为提升企业API在代理应用中的可用性提供了基础,推动了API作为工具的进一步发展。

[177] A Large-scale Class-level Benchmark Dataset for Code Generation with LLMs

Musfiqur Rahman,SayedHassan Khatoonabadi,Emad Shihab

Main category: cs.SE

TL;DR: 论文介绍了一个基于真实开源项目的Python类级别数据集,用于提升大语言模型在类级代码生成中的表现。

  • Motivation: 现有基准测试多关注孤立函数,未能捕捉真实世界类级软件结构的复杂性。
  • Method: 构建了一个包含842,000个类骨架的数据集,保留结构和上下文依赖,并用于GPT-4生成完整类实现。
  • Result: 生成的类与人工编写的类在词汇和结构上高度相似,ROUGE@L、BLEU和TSED得分分别为0.80、0.59和0.73。
  • Conclusion: 真实类骨架的结构化提示显著提升LLM在类级代码生成中的性能,数据集为LLM的基准测试和训练提供了资源。

[178] Automated Bug Report Prioritization in Large Open-Source Projects

Riley Pierson,Armin Moin

Main category: cs.SE

TL;DR: 提出了一种基于自然语言文本的自动化缺陷优先级排序方法,结合TopicMiner-MTM和BERT模型,性能优于现有方法。

  • Motivation: 开源项目资源有限,需高效处理大量缺陷报告和功能请求,需自动化优先级排序。
  • Method: 使用TopicMiner-MTM进行主题建模,结合BERT模型进行文本分类。
  • Result: 在Eclipse Platform项目的85,156个缺陷报告数据集上,准确率、精确率、召回率和F1值均优于现有方法。
  • Conclusion: 该方法能有效提升缺陷优先级排序的自动化水平,优于现有技术。

[179] Bug Destiny Prediction in Large Open-Source Software Repositories through Sentiment Analysis and BERT Topic Modeling

Sophie C. Pope,Andrew Barovic,Armin Moin

Main category: cs.SE

TL;DR: 该研究通过结合情感分析和BERTopic模型,利用Bugzilla Eclipse项目的数据,预测bug的解决时间、修复时间和最终状态。研究发现情感分析对预测bug是否修复有效,但对复杂分类效果有限。

  • Motivation: 探索如何利用bug解决前的特征(如情感分析、优先级和主题)提高预测准确性,以优化bug管理流程。
  • Method: 结合情感分析(情绪得分和情感分类)、BERTopic模型提取的主题和优先级,使用CNN和MLP进行预测。
  • Result: 情感分析对预测bug是否修复有效,但平衡模型输入会降低准确性。BERTopic与情感分析结合可提升部分性能指标。
  • Conclusion: 情感分析是预测bug结果的有用工具,尤其在简单分类中表现良好,但对复杂分类效果较差。

[180] Benchmarking LLM for Code Smells Detection: OpenAI GPT-4.0 vs DeepSeek-V3

Ahmed R. Sadik,Siddhata Govind

Main category: cs.SE

TL;DR: 研究提出了一种评估大型语言模型(LLM)在代码异味检测中表现的方法,比较了GPT-4.0和DeepSeek-V3的性能,并分析了成本效益。

  • Motivation: 确定最有效的大型语言模型用于代码异味检测是一个复杂问题,需要系统的方法和评估标准。
  • Method: 使用标注好的代码样本数据集,跨四种编程语言(Java、Python、JavaScript、C++),以精确率、召回率和F1分数为指标,比较GPT-4.0和DeepSeek-V3的性能。
  • Result: 研究提供了模型在整体性能、类别级别和具体代码异味类型上的表现,并对比了与传统静态分析工具的成本效益。
  • Conclusion: 研究为从业者选择高效、经济的自动化代码异味检测方案提供了指导。

gr-qc

[181] Bounce Cosmologies in Generalized Coupling Theories

Antonio Troisi,Sante Carloni

Main category: gr-qc

TL;DR: 论文提出了一种在MEMe模型中描述反弹宇宙的精确解,通过线性化方法在小能量尺度q下获得,可用于探索非奇异宇宙学中的定量过程。

  • Motivation: 研究MEMe模型中的反弹宇宙解,以探索非奇异宇宙学的定量过程。
  • Method: 通过线性化方法在小能量尺度q下求解MEMe模型。
  • Result: 获得了一个完整的反弹宇宙模型解。
  • Conclusion: 该解为研究非奇异宇宙学提供了定量工具。

[182] Bounce Cosmologies in Generalized Coupling Theories

Antonio Troisi,Sante Carloni

Main category: gr-qc

TL;DR: 论文提出了一种在MEMe模型中描述反弹宇宙学的精确解,通过线性化方法在小能量尺度q下获得,可用于探索非奇异宇宙学中的定量过程。

  • Motivation: 研究非奇异宇宙学中的反弹模型,探索定量过程。
  • Method: 在MEMe模型中,通过线性化方法在小能量尺度q下求解精确解。
  • Result: 获得了一个完整的反弹模型解,适用于非奇异宇宙学的定量研究。
  • Conclusion: 该解为研究非奇异宇宙学中的反弹过程提供了有效的定量工具。

[183] Bounce Cosmologies in Generalized Coupling Theories

Antonio Troisi,Sante Carloni

Main category: gr-qc

TL;DR: 本文描述了在最小指数测量(MEMe)模型中的反弹宇宙学精确解。

  • Motivation: 探索非奇异宇宙学中的定量过程,提供完整的反弹模型。
  • Method: 通过线性化理论的特征能量尺度q的小值附近,获得精确解。
  • Result: 得到了一个完整的反弹模型,可用于非奇异宇宙学的定量研究。
  • Conclusion: 该解为研究非奇异宇宙学提供了有效的工具。

cs.IT

[184] Shannon invariants: A scalable approach to information decomposition

Aaron J. Gutknecht,Fernando E. Rosas,David A. Ehrlich,Abdullah Makkeh,Pedro A. M. Mediano,Michael Wibral

Main category: cs.IT

TL;DR: 论文提出了一种基于“香农不变量”的新框架,用于分析分布式系统中的高阶信息处理,解决了多变量指标定义和可扩展性的挑战。

  • Motivation: 研究分布式系统(如生物和人工神经网络)中高阶信息处理的复杂性,并解决多变量指标定义和可扩展性的问题。
  • Method: 引入“香农不变量”框架,这些量仅依赖于熵的定义,并能高效计算大规模系统的信息处理特性。
  • Result: 理论结果澄清了多变量信息论指标的歧义,实践结果揭示了深度学习架构在不同层中的信息处理特征。
  • Conclusion: 该框架解决了分析高阶现象的基本限制,为理论发展和实证分析提供了广泛机会。

cs.LG

[185] Power Transformer Health Index and Life Span Assessment: A Comprehensive Review of Conventional and Machine Learning based Approaches

Syeda Tahreem Zahra,Syed Kashif Imdad,Sohail Khan,Sohail Khalid,Nauman Anwar Baig

Main category: cs.LG

TL;DR: 本文综述了电力变压器健康评估和寿命预测的传统与前沿技术,分析了多种AI方法的优缺点,并探讨了智能故障诊断方法及其应用。

  • Motivation: 电力变压器在电力系统中至关重要,其健康评估和寿命预测对高效运行和维护规划至关重要。
  • Method: 通过文献综述,分析了传统和前沿技术,并详细探讨了多种AI方法(如ANN、CNN、SVM、RF、GA、PSO)在变压器故障诊断中的应用。
  • Result: 研究发现,结合多种AI方法和时间序列分析可提高诊断精度和故障早期检测能力。
  • Conclusion: 本文为变压器故障诊断领域的未来研究奠定了基础,并推动了这一关键领域的进展。

[186] Diffusion-Driven Inertial Generated Data for Smartphone Location Classification

Noa Cohen,Rotem Dror,Itzik Klein

Main category: cs.LG

TL;DR: 提出了一种基于扩散模型的智能手机位置识别方法,通过生成合成数据减少实际数据收集的负担。

  • Motivation: 惯性测量数据收集耗时且资源密集,限制了机器学习模型的开发。扩散模型在生成复杂数据方面表现优异。
  • Method: 使用扩散模型生成特定力的合成数据,并与真实数据进行比较评估。
  • Result: 扩散模型成功捕捉了不同智能手机放置条件下特定力信号的特性。
  • Conclusion: 合成数据可减少数据收集负担,同时为机器学习模型提供高质量训练数据。

[187] How to systematically develop an effective AI-based bias correction model?

Xiao Zhou,Yuze Sun,Jie Wu,Xiaomeng Huang

Main category: cs.LG

TL;DR: ReSA-ConvLSTM框架通过动态气候归一化、时间因果约束的ConvLSTM和残差自注意力机制,显著降低了数值天气预报的系统偏差,提升了多变量预测性能。

  • Motivation: 解决数值天气预报中的系统性偏差问题,提升预测准确性。
  • Method: 结合动态气候归一化、时间因果约束的ConvLSTM和残差自注意力机制,建立物理感知的非线性映射。
  • Result: 在41年全球数据上,显著降低了T2m、U10/V10和SLP的偏差,RMSE减少达20%,模型轻量化且泛化能力强。
  • Conclusion: 该框架通过创新设计有效提升了预测技能,并展示了在多变量和下游应用中的潜力。

[188] HyperFlow: Gradient-Free Emulation of Few-Shot Fine-Tuning

Donggyun Kim,Chanwoo Kim,Seunghoon Hong

Main category: cs.LG

TL;DR: 提出一种无需计算梯度的测试时微调方法,通过模拟梯度下降实现高效适应。

  • Motivation: 解决测试时微调在实时或低资源场景中因多次反向传播导致的高成本问题。
  • Method: 将梯度下降建模为ODE的欧拉离散化,训练辅助网络预测任务条件漂移,仅需少量前向传播。
  • Result: 在跨域少样本分类任务中显著提升性能,计算成本仅为标准微调的0.02%,内存成本为6%。
  • Conclusion: 该方法在直接迁移和完全微调之间提供了实用平衡,适用于资源受限场景。

[189] Significativity Indices for Agreement Values

Alberto Casagrande,Francesco Fabris,Rossano Girometti,Roberto Pagliarini

Main category: cs.LG

TL;DR: 论文提出了一种评估分类器间一致性显著性的通用方法,并引入了两种显著性指数,同时解决了计算效率问题。

  • Motivation: 现有的一致性度量(如Cohen's kappa)缺乏有效的显著性评估标准,且现有质量尺度过于简单和主观。
  • Method: 提出通用方法评估一致性值的显著性,并设计两种显著性指数:一种针对有限数据集,另一种针对分类概率分布。同时探讨了计算效率问题。
  • Result: 引入了两种显著性指数,并提出了高效算法来计算这些指数。
  • Conclusion: 该方法为分类器间一致性的显著性评估提供了更科学的依据,并解决了计算效率问题。

[190] Bayesian Federated Learning for Continual Training

Usevalad Milasheuski,Luca Barbieri,Sanaz Kianoush,Monica Nicoli,Stefano Savazzi

Main category: cs.LG

TL;DR: 提出了一种基于贝叶斯联邦学习的持续学习框架,解决了动态环境中数据分布变化的问题,并通过实验验证了其有效性。

  • Motivation: 当前贝叶斯联邦学习方法未考虑动态环境中的持续学习挑战,尤其是在数据分布随时间变化的情况下。
  • Method: 使用随机梯度朗之万动力学(SGLD)方法,通过利用过去的后验分布构建新任务的先验分布,实现模型的持续更新。
  • Result: 实验结果表明,该方法在准确性、预期校准误差(ECE)和收敛速度方面优于基线方法,有效保留了知识并适应了数据变化。
  • Conclusion: 提出的持续贝叶斯联邦学习框架在动态环境中表现出色,能够有效应对数据分布的变化。

[191] Solving New Tasks by Adapting Internet Video Knowledge

Calvin Luo,Zilai Zeng,Yilun Du,Chen Sun

Main category: cs.LG

TL;DR: 论文研究了如何通过适应技术将大规模预训练视频模型与特定领域信息结合,以支持机器人任务中的文本条件泛化。

  • Motivation: 视频生成模型在机器人学中具有潜力,但需要平衡预训练模型的通用性和特定领域数据的细节。
  • Method: 提出了一种名为逆概率适应的新策略,结合小规模示例数据适应预训练视频模型。
  • Result: 实验证明该方法在机器人任务中能有效泛化到新行为,且对适应数据质量具有鲁棒性。
  • Conclusion: 逆概率适应策略在泛化性能和鲁棒性上表现优异,适用于资源有限的情况。

[192] MetaMolGen: A Neural Graph Motif Generation Model for De Novo Molecular Design

Zimo Yan,Jie Zhang,Zheng Xie,Chang Liu,Yizhen Liu,Yiping Song

Main category: cs.LG

TL;DR: MetaMolGen是一种基于元学习的分子生成器,用于少样本和属性条件分子生成,在低数据情况下表现优于传统方法。

  • Motivation: 解决传统生成模型在数据稀缺场景下难以实现满意条件泛化的问题。
  • Method: 通过将图基元映射到归一化潜在空间,并使用轻量级自回归序列模型生成SMILES序列,同时集成可学习属性投影器支持条件生成。
  • Result: 实验表明MetaMolGen在低数据情况下能生成有效且多样的SMILES序列,优于传统基线。
  • Conclusion: MetaMolGen在快速适应和高效条件生成方面具有优势,适用于实际分子设计。

[193] Enhancing Reinforcement learning in 3-Dimensional Hydrophobic-Polar Protein Folding Model with Attention-based layers

Peizheng Liu,Hitoshi Iba

Main category: cs.LG

TL;DR: 本文提出了一种结合Transformer和DQN的方法,用于解决3D H-P蛋白质折叠问题,并通过实验验证了其有效性。

  • Motivation: Transformer架构在序列建模中表现出色,但在H-P蛋白质折叠模型中的应用较少,本文旨在探索其潜力。
  • Method: 采用深度Q网络(DQN)结合注意力机制(Transformer),设计了自回避行走的强化学习环境,并引入对称性约束、双Q学习等技术优化性能。
  • Result: 实验表明,该方法在短序列上取得了已知最优解,在长链上接近最优结果。
  • Conclusion: 研究证明了基于注意力的强化学习在蛋白质折叠中的潜力,并提出了Transformer-Q网络的原型结构。

[194] Clifford Group Equivariant Diffusion Models for 3D Molecular Generation

Cong Liu,Sharvaree Vadgama,David Ruhe,Erik Bekkers,Patrick Forrè

Main category: cs.LG

TL;DR: 论文提出了一种基于Clifford代数的扩散模型(CDMs),通过利用Clifford多向量的几何乘积和子空间信息,扩展了扩散过程以捕捉更高阶的几何特征。

  • Motivation: 探索Clifford代数在E(n)-等变扩散模型中的表达能力,以利用其丰富的几何信息。
  • Method: 将数据嵌入到不同等级的Clifford子空间中,并在完整多向量上应用潜在扩散,从而捕捉不同子空间的联合分布。
  • Result: 在QM9数据集上的无条件分子生成实验表明,CDMs在生成建模中具有潜力。
  • Conclusion: CDMs通过整合高阶几何特征,为生成建模提供了一种有前景的方法。

[195] Unifying Image Counterfactuals and Feature Attributions with Latent-Space Adversarial Attacks

Jeremy Goldwasser,Giles Hooker

Main category: cs.LG

TL;DR: 提出了一种新的、易于实现的反事实图像生成框架,适用于生成模型的最新进展,并通过低维流形上的对抗攻击生成反事实图像。

  • Motivation: 解决计算机视觉模型中反事实解释生成困难的问题,避免传统梯度方法产生对抗样本的局限性。
  • Method: 采用低维流形上的对抗攻击方法生成反事实图像,并结合辅助数据集的特征归因量化变化。
  • Result: 在MNIST和CelebA数据集上验证了方法的有效性,能够高效生成全局反事实解释。
  • Conclusion: 该方法不仅灵活适应生成模型,还能高效生成反事实解释,为模型预测提供更直观的驱动特征分析。

[196] DAE-KAN: A Kolmogorov-Arnold Network Model for High-Index Differential-Algebraic Equations

Kai Luo,Juan Tang,Mingchao Cai,Xiaoqing Zeng,Manqi Xie,Ming Yan

Main category: cs.LG

TL;DR: DAE-KAN结合KANs和PINNs,显著提升高指数微分代数方程的求解精度,误差降低1-2个数量级。

  • Motivation: 传统PINNs在解决高指数微分代数方程时存在局限性,KANs因其优越的函数拟合能力成为潜在替代方案。
  • Method: 提出DAE-KAN框架,整合KANs和PINNs,保留PINNs物理建模能力的同时利用KANs提升性能。
  • Result: 实验显示DAE-KAN在指数1至3的DAE系统中,误差比传统PINNs低1-2个数量级,且能有效控制漂移误差。
  • Conclusion: DAE-KAN为高指数微分代数方程提供了高精度和泛化能力的解决方案,具有广阔应用前景。

[197] Fusing Reward and Dueling Feedback in Stochastic Bandits

Xuchuang Wang,Qirun Zeng,Jinhang Zuo,Xutong Liu,Mohammad Hajiesmaili,John C. S. Lui,Adam Wierman

Main category: cs.LG

TL;DR: 本文研究了在随机多臂老虎机问题中融合绝对(奖励)和相对(对决)反馈的方法,提出了两种融合算法,并证明了其理论性能。

  • Motivation: 探索如何结合两种反馈类型(奖励和对决)以提高多臂老虎机问题的效率,减少遗憾。
  • Method: 提出了两种融合算法:(1) 基于消除的融合算法,统一利用两种反馈;(2) 基于分解的融合算法,动态选择更有效的反馈类型。
  • Result: 消除融合算法因对决消除的固有次优性而存在遗憾的乘法项,而分解融合算法在常见假设下达到了接近理论下界的遗憾。
  • Conclusion: 实验验证了算法的有效性,分解融合算法在性能上更优,接近理论最优。

[198] Bayesian Autoencoder for Medical Anomaly Detection: Uncertainty-Aware Approach for Brain 2 MRI Analysis

Dip Roy

Main category: cs.LG

TL;DR: 本文提出了一种基于贝叶斯变分自编码器(VAE)和多头注意力机制的模型,用于脑部MRI中的异常检测,通过贝叶斯推理估计不确定性,显著提升了检测性能。

  • Motivation: 传统确定性方法在捕捉异常检测任务中的不确定性方面存在不足,尤其在医学影像中对神经系统疾病的诊断至关重要。
  • Method: 采用贝叶斯变分自编码器(VAE)结合多头注意力机制,并通过贝叶斯推理估计认知和随机不确定性。
  • Result: 在BraTS2020数据集上测试,模型取得了0.83的ROC AUC和0.83的PR AUC。
  • Conclusion: 建模不确定性是异常检测的关键,不仅提升了性能和可解释性,还为临床决策提供了置信度估计。

[199] DualOptim: Enhancing Efficacy and Stability in Machine Unlearning with Dual Optimizers

Xuyang Zhong,Haochen Luo,Chen Liu

Main category: cs.LG

TL;DR: DualOptim提出了一种自适应学习率和解耦动量因子的方法,显著提升了机器遗忘的稳定性和效果。

  • Motivation: 现有机器遗忘方法对超参数敏感,需精细调参,限制了实际应用。
  • Method: 提出DualOptim,结合自适应学习率和解耦动量因子。
  • Result: 实验证明DualOptim在多种任务中显著提升机器遗忘的效果和稳定性。
  • Conclusion: DualOptim是一种通用方法,可增强现有机器遗忘算法。

[200] Analytical Softmax Temperature Setting from Feature Dimensions for Model- and Domain-Robust Classification

Tatsuhito Hasegawa,Shunsuke Sakai

Main category: cs.LG

TL;DR: 论文提出了一种基于特征维度确定softmax温度参数T的理论方法,并通过实验优化了T的调整系数,无需额外训练即可估计T*。

  • Motivation: 研究动机是解决softmax温度参数T*在实际应用中因模型和数据集差异而波动的问题,提出一种无需训练的确定方法。
  • Method: 方法包括理论推导T*与特征维度的关系,优化调整系数,以及通过批量归一化稳定特征空间。
  • Result: 实验表明,提出的T*估计方法不仅符合理论预期,还能提升分类性能。
  • Conclusion: 结论是该方法为确定T*提供了一种实用且无需训练的解决方案,适用于多种任务。

[201] SocialMOIF: Multi-Order Intention Fusion for Pedestrian Trajectory Prediction

Kai Chen,Xiaodong Zhao,Yujie Huang,Guoyu Fang,Xiao Song,Ruiping Wang,Ziyuan Wang

Main category: cs.LG

TL;DR: SocialMOIF提出了一种多阶意图融合模型,用于解决智能系统中代理轨迹预测的高不确定性和复杂高阶影响问题,通过结合直接和间接意图信息提升预测准确性。

  • Motivation: 当前代理轨迹预测方法因代理意图的高不确定性和邻近群体的复杂高阶影响存在局限性,需要更全面的意图交互建模。
  • Method: 提出SocialMOIF,结合多阶意图融合模型、轨迹分布近似器和全局轨迹优化器,并引入新的损失函数以考虑距离和方向。
  • Result: 实验表明,该模型在动态和静态数据集上均优于现有基线方法。
  • Conclusion: SocialMOIF通过多阶意图融合和优化设计,显著提升了轨迹预测的准确性和效率。

[202] An XAI-based Analysis of Shortcut Learning in Neural Networks

Phuong Quynh Le,Jörg Schlötterer,Christin Seifert

Main category: cs.LG

TL;DR: 论文提出了一种基于XAI的神经元虚假评分方法,用于量化神经元对虚假特征的依赖,并分析了CNN和ViT中虚假特征的部分解耦情况。

  • Motivation: 机器学习模型倾向于学习虚假特征,现有方法在某些情况下有效,但在其他情况下失败,因此需要系统分析神经网络如何编码虚假相关性。
  • Method: 引入神经元虚假评分,采用架构特定方法分析CNN和ViT。
  • Result: 虚假特征部分解耦,但解耦程度因架构而异,现有缓解方法的假设不完整。
  • Conclusion: 研究结果为开发新方法以缓解虚假相关性奠定了基础,使AI模型更安全。

[203] GraphEdge: Dynamic Graph Partition and Task Scheduling for GNNs Computing in Edge Network

Wenjing Xiao,Chenglong Shi,Miaojiang Chen,Zhiquan Liu,Min Chen,H. Herbert Song

Main category: cs.LG

TL;DR: GraphEdge是一种高效的基于图神经网络(GNN)的边缘计算架构,通过分层遍历图切割算法(HiCut)和深度强化学习(DRL)优化任务卸载策略,降低通信成本并提升性能。

  • Motivation: 随着物联网设备激增,边缘计算在成本效益服务中愈发重要,但现有方法在图结构场景(如交通流预测)中表现不佳,尤其是GNN方法通信成本高。
  • Method: 提出GraphEdge架构,包括HiCut算法优化图布局以减少通信成本,以及DRLGO算法优化任务卸载策略,最小化处理时间和能耗。
  • Result: 实验表明GraphEdge在动态场景中表现优异,具有高效性和适应性。
  • Conclusion: GraphEdge为图结构边缘计算任务提供了一种高效、动态适应的解决方案。

[204] Achieving Distributive Justice in Federated Learning via Uncertainty Quantification

Alycia Carey,Xintao Wu

Main category: cs.LG

TL;DR: UDJ-FL是一个灵活的联邦学习框架,通过基于不确定性的客户权重分配,实现多种分配正义的公平性指标。

  • Motivation: 现有联邦学习公平性指标选择随意,缺乏与伦理公平性的一致性,UDJ-FL旨在提供灵活且理论支持的解决方案。
  • Method: 结合公平资源分配技术和基于不确定性的客户权重分配,实现四种分配正义公平性指标。
  • Result: UDJ-FL能实现四种公平性指标,性能优于其他方法,并提供理论泛化保证。
  • Conclusion: UDJ-FL为联邦学习提供灵活且理论支持的公平性框架,代码已开源。

[205] Universal Approximation with Softmax Attention

Jerry Yao-Chieh Hu,Hude Liu,Hong-Yu Chen,Weimin Wu,Han Liu

Main category: cs.LG

TL;DR: 论文证明了两层自注意力和一层自注意力加softmax函数均可作为连续序列到序列函数的通用逼近器,并提出了新的插值方法分析注意力机制。

  • Motivation: 探索自注意力机制在序列到序列任务中的通用逼近能力,减少对前馈网络的依赖。
  • Method: 提出插值方法分析注意力机制,证明自注意力可逼近广义ReLU,进而展示两层多头注意力足以实现通用逼近。
  • Result: 两层多头注意力可作为序列到序列通用逼近器,且注意力层能近似多种统计模型。
  • Conclusion: 自注意力机制具有强大的逼近能力,为Transformer架构的理论基础提供了新视角。

[206] OPUS-VFL: Incentivizing Optimal Privacy-Utility Tradeoffs in Vertical Federated Learning

Sindhuja Madabushi,Ahmad Faraz Khan,Haider Ali,Jin-Hee Cho

Main category: cs.LG

TL;DR: OPUS-VFL提出了一种针对垂直联邦学习(VFL)的隐私-效用权衡优化策略,通过激励机制、轻量级特征重要性评估和自适应差分隐私机制,显著提升了效率、鲁棒性和公平性。

  • Motivation: 现有VFL系统缺乏有效激励机制、难以平衡隐私与效用、无法适应异构资源能力,导致参与度低、模型性能下降和实际部署受限。
  • Method: OPUS-VFL结合了隐私感知激励机制、轻量级留一法(LOO)特征重要性评估和自适应差分隐私机制,动态优化噪声水平。
  • Result: 在MNIST、CIFAR-10和CIFAR-100数据集上,OPUS-VFL显著优于现有方法,降低标签推断攻击成功率20%,增加特征推断重构误差30%,并为贡献者提供25%更高激励。
  • Conclusion: OPUS-VFL是一种安全、公平且高性能的VFL解决方案,适用于实际场景。

[207] AlphaGrad: Non-Linear Gradient Normalization Optimizer

Soham Sane

Main category: cs.LG

TL;DR: AlphaGrad是一种内存高效、条件无状态的优化器,解决了自适应方法(如Adam)的内存开销和超参数复杂性问题。通过张量级L2梯度归一化和双曲正切变换实现尺度不变性,仅需调节一个参数α。实验表明其在TD3和PPO中表现优异,但在DQN中不稳定。

  • Motivation: 解决自适应优化器(如Adam)的内存开销和超参数复杂性问题,提供一种更高效的替代方案。
  • Method: 采用张量级L2梯度归一化和双曲正切变换(g' = tanh(α·g̃)),仅需调节一个参数α。
  • Result: 在TD3中表现稳定且竞争力强(需精细调节α),在PPO中性能显著优于Adam,但在DQN中表现不稳定。
  • Conclusion: AlphaGrad是内存受限场景下的有力替代优化器,特别适用于策略学习任务,其稳定性和效率优势显著。

[208] LLMs meet Federated Learning for Scalable and Secure IoT Management

Yazan Otoum,Arghavan Asad,Amiya Nayak

Main category: cs.LG

TL;DR: 本文提出了一种基于联邦学习的大语言模型框架(FL-LLM),用于提升物联网系统的智能性,同时确保数据隐私和计算效率。

  • Motivation: 传统集中式架构在物联网扩展中面临延迟、隐私和资源消耗问题,需要更高效的解决方案。
  • Method: 结合生成式物联网模型和梯度感知联邦策略(GSFS),动态优化模型更新,并采用混合边缘-云处理架构。
  • Result: 在IoT-23数据集上验证,该框架提高了模型准确性、降低了延迟并提升了能效,优于传统联邦学习方法。
  • Conclusion: FL-LLM框架为大规模物联网生态系统提供了更安全、可扩展和自适应的管理方案。

[209] Muon Optimizer Accelerates Grokking

Amund Tveit,Bjørn Remseth,Arve Skogvold

Main category: cs.LG

TL;DR: 研究了不同优化器对模型延迟泛化现象(grokking)的影响,发现Muon优化器显著加速了grokking的发生。

  • Motivation: 探讨优化器选择对模型从记忆到泛化过渡的影响。
  • Method: 在七个数值任务中,使用Transformer架构,比较Muon和AdamW优化器及不同softmax激活函数的效果。
  • Result: Muon优化器将grokking的平均epoch从153.09降至102.89,效果显著(t=5.0175, p=6.33e-08)。
  • Conclusion: 优化器选择对促进模型从记忆到泛化的过渡至关重要。

[210] LLMs are Greedy Agents: Effects of RL Fine-tuning on Decision-Making Abilities

Thomas Schmied,Jörg Bornschein,Jordi Grau-Moya,Markus Wulfmeier,Razvan Pascanu

Main category: cs.LG

TL;DR: LLMs在决策场景中表现不佳,存在贪婪性、频率偏差和知行差距等问题。通过强化学习微调自我生成的CoT推理,可以提升其决策能力。

  • Motivation: 研究LLMs在决策任务中表现不佳的原因,并提出改进方法。
  • Method: 系统分析LLMs的三种失败模式,并通过RL微调CoT推理来缓解这些问题。
  • Result: 实验表明RL微调能增强LLMs的探索能力并缩小知行差距。
  • Conclusion: RL微调结合经典探索机制和LLM特定方法,能有效提升LLMs的决策能力。

cs.HC

[211] Do It For Me vs. Do It With Me: Investigating User Perceptions of Different Paradigms of Automation in Copilots for Feature-Rich Software

Anjali Khurana,Xiaotian Su,April Yi Wang,Parmit K Chilana

Main category: cs.HC

TL;DR: 研究比较了全自动(AutoCopilot)和半自动(GuidedCopilot)助手,发现半自动助手在用户控制、软件实用性和学习性上表现更优,尤其适合探索性和创造性任务。

  • Motivation: 探讨基于LLM的应用助手中自动化水平的优化问题,以提升用户体验。
  • Method: 设计并实现全自动和半自动助手,通过用户研究(N=20)和后续设计探索(N=10)比较其效果。
  • Result: GuidedCopilot在用户控制和学习性上优于AutoCopilot,而AutoCopilot在简单任务中节省时间。后续设计增强了GuidedCopilot的功能。
  • Conclusion: 用户控制和定制化指导是设计下一代助手的关键,需平衡自动化与用户需求。

[212] iMedic: Towards Smartphone-based Self-Auscultation Tool for AI-Powered Pediatric Respiratory Assessment

Seung Gyu Jeong,Sung Woo Nam,Seong Kwan Jung,Seong-Eun Kim

Main category: cs.HC

TL;DR: 智能手机系统结合深度学习算法,通过内置麦克风检测儿童肺炎风险,无需昂贵设备。

  • Motivation: 在医疗资源匮乏地区,早期发现儿童肺炎具有挑战性,需低成本解决方案。
  • Method: 利用智能手机内置麦克风和深度学习框架,结合电子听诊器和手机数据集进行特征学习。
  • Result: 系统分类性能强,用户接受度高,可减少可预防的儿童肺炎死亡。
  • Conclusion: 智能手机为基础的方案为远程儿科护理提供了公平且全面的途径。

[213] Supporting Data-Frame Dynamics in AI-assisted Decision Making

Chengbo Zheng,Tim Miller,Alina Bialkowski,H Peter Soyer,Monika Janda

Main category: cs.HC

TL;DR: 提出了一种基于数据框架理论和评估AI范式的混合主动框架,支持人类与AI协作构建、验证和调整假设,应用于皮肤癌诊断原型。

  • Motivation: 当前AI决策支持系统难以支持动态证据与假设的交互,需要新方法。
  • Method: 结合数据框架理论和评估AI范式,开发混合主动框架,利用概念瓶颈模型实现可解释交互。
  • Result: 构建了AI辅助皮肤癌诊断原型,支持动态更新诊断假设。
  • Conclusion: 该框架为高风险决策提供了更灵活的AI支持,未来可扩展至其他领域。

[214] Recent Advances and Future Directions in Extended Reality (XR): Exploring AI-Powered Spatial Intelligence

Baichuan Zeng

Main category: cs.HC

TL;DR: 综述探讨了扩展现实(XR)的演变、现状及未来方向,强调AI和空间智能在推动XR发展中的关键作用。

  • Motivation: XR技术融合物理与虚拟世界,具有广泛潜力,未来将无处不在。本文旨在分析其发展、现状及未来趋势。
  • Method: 通过硬件(显示器、传感器)和软件(视觉任务、用户界面)的基础框架,评估和比较SOTA XR产品性能。
  • Result: 商业XR设备需提升空间智能以满足高质量性能需求,未来需整合多模态AI和IoT驱动的数字孪生。
  • Conclusion: XR的未来在于结合AI和空间智能,创造更真实的数字空间,成为人机交互的新前沿。

[215] Navigating the State of Cognitive Flow: Context-Aware AI Interventions for Effective Reasoning Support

Dinithi Dissanayake,Suranga Nanayakkara

Main category: cs.HC

TL;DR: 论文提出了一种基于上下文感知的认知增强框架,通过动态调整AI干预以维持或恢复认知流状态。

  • Motivation: 在AI增强推理中,不恰当的干预可能破坏认知流状态,从而阻碍决策。因此,需要一种自适应且非侵入性的干预方法。
  • Method: 利用多模态行为线索(如注视行为、输入犹豫、交互速度)动态调整认知支持,提出认知流概念,扩展了流理论。
  • Result: 通过上下文感知的干预,AI系统能够在复杂决策中支持深度参与,而不破坏认知沉浸。
  • Conclusion: 从静态干预转向上下文感知增强,可以优化AI在认知流状态中的作用,提升决策效果。

cs.CY

[216] Demand for LLMs: Descriptive Evidence on Substitution, Market Expansion, and Multihoming

Andrey Fradkin

Main category: cs.CY

TL;DR: 论文通过OpenRouter数据总结了LLM需求的三个特点:新模型快速被采用但很快稳定;模型发布吸引新用户或替代需求差异大;多模型同时使用普遍。

  • Motivation: 研究LLM市场的需求动态,揭示模型发布和用户行为的特点。
  • Method: 使用OpenRouter市场的数据分析LLM需求模式。
  • Result: 发现新模型快速稳定、模型发布差异大、多模型使用普遍。
  • Conclusion: LLM市场存在水平和垂直差异化,提供商有机会维持需求和定价权。

Konstantin F. Pilz,James Sanders,Robi Rahman,Lennart Heim

Main category: cs.CY

TL;DR: 论文分析了2019至2025年间500台AI超级计算机的性能、功耗、成本、所有权和全球分布趋势,发现计算性能每9个月翻倍,而硬件成本和功耗每年翻倍。

  • Motivation: 研究AI超级计算机的发展趋势,为政策制定者提供资源需求、所有权和国家竞争力的评估依据。
  • Method: 创建包含500台AI超级计算机的数据集,分析性能、功耗、成本、所有权和全球分布。
  • Result: 计算性能每9个月翻倍,硬件成本和功耗每年翻倍;2030年领先AI超级计算机的性能将达到2×10²² FLOP/s。
  • Conclusion: AI超级计算机的发展趋势对资源需求和国家竞争力有重要影响,需政策关注。

physics.med-ph

[218] Fluorescence Reference Target Quantitative Analysis Library

Eammon A. Littler,Emmanuel A. Mannoh,Ethan P. M. LaRochelle

Main category: physics.med-ph

TL;DR: QUEL-QAL是一个开源的Python库,旨在标准化荧光成像系统的性能评估,提供模块化、可重复的工作流程,支持关键指标分析。

  • Motivation: 荧光引导手术(FGS)领域缺乏标准化的性能评估工具,现有工具不统一且难以获取。
  • Method: 开发了QUEL-QAL库,基于Python,支持ROI检测、统计分析、可视化等功能,并与监管和学术指南一致。
  • Result: QUEL-QAL支持线性响应、检测限、深度敏感性和空间分辨率等关键指标,具有可扩展性。
  • Conclusion: QUEL-QAL通过透明性、可重复性和监管一致性,为荧光成像系统的标准化评估提供了基础工具。

eess.IV

[219] RINN: One Sample Radio Frequency Imaging based on Physics Informed Neural Network

Fei Shang,Haohua Du,Dawei Yan,Panlong Yang,Xiang-Yang Li

Main category: eess.IV

TL;DR: 论文提出RINN网络,利用物理约束替代真实值比较约束,实现仅需无相位含噪声的单样本RF成像,性能接近经典算法。

  • Motivation: RF成像技术在非视距和低光环境下具有潜力,但现有设备难以提供高精度测量和大规模数据集,限制了其应用。
  • Method: 结合PINN思想设计RINN网络,利用物理约束适应RF信号特性,实现无相位单样本成像。
  • Result: RINN在无相位数据下的成像效果接近5种经典算法,RRMSE指标为0.11。
  • Conclusion: RINN为RF成像技术的普及提供了新可能。

[220] Enhancing DR Classification with Swin Transformer and Shifted Window Attention

Meher Boulaabi,Takwa Ben Aïcha Gader,Afef Kacem Echi,Zied Bouraoui

Main category: eess.IV

TL;DR: 论文提出了一种结合预处理流程和Swin Transformer的方法,用于糖尿病视网膜病变(DR)的自动分类,显著提高了准确率。

  • Motivation: 糖尿病视网膜病变是全球致盲的主要原因,早期检测对治疗至关重要,但自动化分类面临图像质量差异、类别不平衡和像素级相似性等挑战。
  • Method: 采用图像裁剪、CLAHE增强和针对性数据增强的预处理流程,结合Swin Transformer的层次化token处理和窗口注意力机制。
  • Result: 在Aptos和IDRiD数据集上分别达到89.65%和97.40%的准确率,尤其在早期DR检测中表现突出。
  • Conclusion: 该方法在临床自动化视网膜筛查中具有潜力,能有效提升DR分类的准确性和鲁棒性。

[221] Split-quaternions for perceptual white balance

Michel Berthier,Nicoletta Prencipe,Edoardo Provenzi

Main category: eess.IV

TL;DR: 提出了一种基于分裂四元数的感知色适应变换,用于白平衡处理,并展示了其在彩色图像处理中的潜力。

  • Motivation: 受最近开发的量子化颜色感知模型启发,强调该模型中代数结构与分裂四元数子代数之间的联系。
  • Method: 通过分裂四元数乘法实现色适应变换,并与广泛使用的von Kries变换进行定量比较。
  • Result: 展示了该方法在彩色图像处理中的潜力。
  • Conclusion: 分裂四元数方法为色适应变换提供了新的视角和潜在应用。

[222] VLM-based Prompts as the Optimal Assistant for Unpaired Histopathology Virtual Staining

Zizhi Chen,Xinyu Zhang,Minghao Han,Yizhou Liu,Ziyun Qian,Weifeng Zhang,Xukun Zhang,Jingwei Wei,Lihua Zhang

Main category: eess.IV

TL;DR: 提出了一种基于病理视觉语言大模型(VLM)的虚拟染色方法,结合对比学习提示和概念锚点,显著提升了虚拟染色的真实性和下游任务准确性。

  • Motivation: 解决虚拟染色中忽略病理知识和染色物理特性的问题,避免仅实现风格迁移。
  • Method: 引入病理VLM作为辅助工具,整合对比学习提示和组织/染色概念锚点,开发基于VLM的数据增强方法。
  • Result: 在多领域非配对染色数据集上生成高真实感图像,提升肾小球检测和分割等下游任务精度。
  • Conclusion: 该方法有效结合病理知识和染色特性,为高精度病理诊断提供了新思路。

[223] RepNet-VSR: Reparameterizable Architecture for High-Fidelity Video Super-Resolution

Biao Wu,Diankai Zhang,Shaoli Liu,Si Gao,Chengjian Zheng,Ning Wang

Main category: eess.IV

TL;DR: 提出了一种名为RepNet-VSR的可重参数化架构,用于实时4倍视频超分辨率,在资源受限的边缘设备上实现了高质量与高效部署的平衡。

  • Motivation: 视频超分辨率在资源受限的边缘设备上部署时,计算密集型的深度卷积神经网络面临效率和延迟的挑战。
  • Method: 采用可重参数化架构(RepNet-VSR),优化计算效率,适用于实时处理。
  • Result: 在REDS验证集上,处理180p到720p帧时达到27.79 dB PSNR,每10帧耗时103 ms。
  • Conclusion: RepNet-VSR在恢复质量和部署效率之间取得了优异平衡,性能优于之前的冠军算法。

[224] Performance Estimation for Supervised Medical Image Segmentation Models on Unlabeled Data Using UniverSeg

Jingchen Zou,Jianqiang Li,Gabriel Jimenez,Qing Zhao,Daniel Racoceanu,Matias Cosarinsky,Enzo Ferrante,Guanghui Fu

Main category: eess.IV

TL;DR: 提出SPE框架,用于评估无标注数据上的分割模型性能,无需额外标注即可可靠估计模型表现。

  • Motivation: 在临床等实际场景中,标注所有数据不现实,导致模型性能评估困难。
  • Method: 提出Segmentation Performance Evaluator (SPE)框架,兼容多种评估指标和模型架构。
  • Result: 在六个公开数据集上验证,SPE与真实Dice分数高度相关(0.956±0.046),MAE低(0.025±0.019)。
  • Conclusion: SPE能无缝集成到模型训练中,无需标注即可可靠估计性能,促进医学图像分割的实际应用。

q-bio.QM

[225] A Graph Based Raman Spectral Processing Technique for Exosome Classification

Vuong M. Ngo,Edward Bolger,Stan Goodwin,John O'Sullivan,Dinh Viet Cuong,Mark Roantree

Main category: q-bio.QM

TL;DR: 该研究提出了一种基于图数据库和新型光谱过滤方法的技术,用于提高拉曼光谱对复杂外泌体样本的分类准确性。

  • Motivation: 外泌体是细胞信号传导和疾病生物标志物的重要载体,但其复杂性需要综合分析方法。拉曼光谱虽有效,但存在样本浓度要求高、对脂质和蛋白质敏感度不足的问题。
  • Method: 研究利用Neo4j图数据库组织拉曼光谱数据,并引入结合PageRank过滤和最优降维的光谱过滤方法,提升特征选择和分类性能。
  • Result: 通过Extra Trees模型,该方法在分类高血糖、低血糖和正常外泌体样本时,准确率分别达到0.76和0.857。
  • Conclusion: 基于图的过滤与降维方法显著提升了分类准确性,为外泌体分析提供了新框架,扩展了其在生物医学和疾病诊断中的应用潜力。

cs.SI

[226] New Recipe for Semi-supervised Community Detection: Clique Annealing under Crystallization Kinetics

Ling Cheng,Jiashu Pu,Ruicheng Liang,Qian Shao,Hezhe Qiao,Feida Zhu

Main category: cs.SI

TL;DR: 提出了一种基于结晶动力学的半监督社区检测方法CLANN,通过模拟退火过程增强社区核心一致性,提高了效率和扩展性。

  • Motivation: 现有半监督社区检测方法存在计算成本高、候选核心不合理和扩展性差的问题,需要改进。
  • Method: 将社区检测类比为结晶过程,提出CLANN方法,结合退火动力学优化社区核心,并使用无学习的Transitive Annealer细化候选。
  • Result: 在43种网络设置中,CLANN优于现有方法,表现出高效和有效性。
  • Conclusion: CLANN通过结晶动力学和退火过程显著提升了社区检测的性能和扩展性。

eess.AS

[227] FADEL: Uncertainty-aware Fake Audio Detection with Evidential Deep Learning

Ju Yeon Kang,Ji Won Yoon,Semin Kim,Min Hyun Han,Nam Soo Kim

Main category: eess.AS

TL;DR: 本文提出了一种名为FADEL的新框架,通过证据学习改进假音频检测,解决了现有方法在未知攻击下的过自信问题。

  • Motivation: 随着语音合成和声音转换技术的进步,自动说话人验证系统更容易受到欺骗攻击,因此需要改进假音频检测的泛化能力。
  • Method: FADEL通过使用Dirichlet分布建模类别概率,将模型不确定性纳入预测,从而提升对未知攻击的鲁棒性。
  • Result: 在ASVspoof2019和ASVspoof2021数据集上的实验表明,FADEL显著优于基线模型,且不确定性估计与错误率强相关。
  • Conclusion: FADEL通过引入不确定性估计,显著提升了假音频检测的鲁棒性,尤其在未知攻击场景下表现优异。

stat.ML

[228] How Private is Your Attention? Bridging Privacy with In-Context Learning

Soham Bonnerjee,Zhen Wei,Yeon,Anna Asch,Sagnik Nandy,Promit Ghosal

Main category: stat.ML

TL;DR: 本文研究了在形式隐私约束下上下文学习(ICL)的可行性,提出了一种差分隐私预训练算法,并首次对线性回归中的ICL隐私-准确性权衡进行了理论分析。

  • Motivation: 探索在隐私约束下ICL的可行性,填补现有研究的空白。
  • Method: 提出差分隐私预训练算法,分析线性回归中的ICL隐私-准确性权衡。
  • Result: 揭示了优化与隐私噪声之间的基本张力,方法对训练提示的对抗扰动具有鲁棒性。
  • Conclusion: 理论分析得到广泛模拟支持,为隐私约束下的ICL提供了理论基础。

cs.LO

[229] On the Boolean Network Theory of Datalog¬

Van-Giang Trinh,Belaid Benhamou,Sylvain Soliman,François Fages

Main category: cs.LO

TL;DR: 论文探讨了Datalog¬与布尔网络理论的形式联系,证明了无奇偶循环时稳定模型与正则模型的关系,并修正了You和Yuan在1994年提出的问题。

  • Motivation: 建立Datalog¬与布尔网络理论的联系,以解决逻辑程序中的模型一致性问题。
  • Method: 利用布尔网络理论的结果,分析Datalog¬程序的奇偶循环对模型的影响,并修正前人定义和证明中的问题。
  • Result: 无奇循环时正则模型与稳定模型一致,无偶循环时稳定部分模型唯一;提出了稳定陷阱空间的概念及其与其他语义的等价性。
  • Conclusion: 通过布尔网络理论,为Datalog¬提供了新的理论工具和模型分析框架。

cs.DC

[230] Scalability Optimization in Cloud-Based AI Inference Services: Strategies for Real-Time Load Balancing and Automated Scaling

Yihong Jin,Ze Yang

Main category: cs.DC

TL;DR: 该研究提出了一种混合框架,结合强化学习和深度神经网络,优化云AI推理服务的可扩展性,显著提升了负载均衡效率和响应速度。

  • Motivation: 随着云AI推理服务的快速扩展,需要一种强大的可扩展性解决方案来管理动态工作负载并保持高性能。
  • Method: 采用混合方法,结合强化学习实现自适应负载分配,深度神经网络用于需求预测,并通过去中心化决策增强容错能力。
  • Result: 实验结果显示,该模型将负载均衡效率提高了35%,响应延迟降低了28%。
  • Conclusion: 该框架在云AI推理服务中表现出显著的优化效果,优于传统可扩展性解决方案。

[231] D2MoE: Dual Routing and Dynamic Scheduling for Efficient On-Device MoE-based LLM Serving

Haodong Wang,Qihua Zhou,Zicong Hong,Song Guo

Main category: cs.DC

TL;DR: D2MoE框架通过动态量化专家权重和优化调度算法,显著提升了边缘设备上的推理效率和内存利用率。

  • Motivation: 现有MoE模型在资源受限的边缘设备上部署成本高,静态优化策略无法满足多样化任务需求。
  • Method: 提出嵌套量化(MWQ)和基于HEBF原则的调度算法,动态分配比特宽度并优化I/O计算管道。
  • Result: 在边缘设备上,D2MoE提升推理吞吐量1.39倍,减少峰值内存占用53%,同时保持精度。
  • Conclusion: D2MoE通过算法-系统协同设计,实现了高效的边缘设备推理服务。

[232] High-Throughput LLM inference on Heterogeneous Clusters

Yi Xiong,Jinqi Huang,Wenjie Huang,Xuebing Yu,Entong Li,Zhixiong Ning,Jinhua Zhou,Li Zeng,Xin Chen

Main category: cs.DC

TL;DR: 论文提出了一种在异构集群上实现高吞吐量LLM推理服务的系统,通过优化部署配置和请求调度算法,显著提升了性能。

  • Motivation: 当前异构集群中LLM推理面临配置优化和请求调度的挑战,需要高效解决方案以降低成本并加速任务处理。
  • Method: 采用资源量与预期吞吐量建模及穷举搜索优化部署配置,并提出考虑实例处理能力的请求调度机制。
  • Result: 实验表明,所提调度器在两个异构集群上分别提升了122.5%和33.6%的吞吐量。
  • Conclusion: 系统有效解决了异构集群中LLM推理的配置与调度问题,显著提升了性能。

[233] DR.FIX: Automatically Fixing Data Races at Industry Scale

Farnaz Behrang,Zhizhou Zhang,Georgian-Vlad Saioc,Peng Liu,Milind Chabbi

Main category: cs.DC

TL;DR: Dr.Fix结合大型语言模型和程序分析,自动修复工业规模代码中的数据竞争问题,已在Uber的实际开发中验证其有效性。

  • Motivation: 数据竞争是共享内存并行程序中的常见并发错误,但现有研究多集中于检测而非修复,尤其是在工业规模代码中。
  • Method: Dr.Fix结合大型语言模型(LLMs)和程序分析,针对Go语言设计,支持复杂代码上下文中的多种竞争模式修复。
  • Result: 在18个月内,Dr.Fix为404个数据竞争中的224个(55%)生成了补丁,其中193个(86%)被开发者接受并集成到代码库中。
  • Conclusion: Dr.Fix展示了在工业规模中自动修复数据竞争的可行性,并成功融入实际开发流程。

[234] Collaborative Split Federated Learning with Parallel Training and Aggregation

Yiannis Papageorgiou,Yannis Thomas,Alexios Filippakopoulos,Ramin Khalili,Iordanis Koutsopoulos

Main category: cs.DC

TL;DR: C-SFL是一种新型的联邦学习方案,通过将模型分为三部分并并行训练,减少延迟和通信开销,同时提高模型准确性。

  • Motivation: 现有SFL方案在计算能力不同的客户端参与时仍存在训练延迟和通信开销大的问题。
  • Method: 将模型分为三部分:计算能力弱的客户端、计算能力强的客户端和服务器端,实现并行训练和聚合。
  • Result: 实验证明C-SFL在减少训练延迟和通信开销的同时提高了模型准确性。
  • Conclusion: C-SFL是一种高效且性能优越的联邦学习方案。

math.ST

[235] Transport f divergences

Wuchen Li

Main category: math.ST

TL;DR: 提出了一种基于凸函数和Jacobi算子的信息度量方法,称为“传输f-散度”,用于衡量一维样本空间中概率密度函数的差异。

  • Motivation: 研究如何更有效地衡量概率密度函数之间的差异,特别是在生成模型中。
  • Method: 基于凸函数和Jacobi算子构造传输f-散度,分析其不变性、凸性、变分公式和映射函数的泰勒展开。
  • Result: 提出了传输f-散度的定义及其性质,并在生成模型中提供了应用示例。
  • Conclusion: 传输f-散度为衡量概率密度函数差异提供了一种新工具,具有理论意义和实际应用价值。

cs.FL

[236] A New Graph Grammar Formalism for Robust Syntactic Pattern Recognition

Peter Fletcher

Main category: cs.FL

TL;DR: 提出了一种直接表示递归图结构模式的语法形式,避免了传统图语法的产生式规则,将语法和模式均表示为网络,解析过程视为构建从模式到语法的同态映射。

  • Motivation: 传统图语法使用产生式规则,不够直接且难以处理多维递归结构。本文旨在提供一种更直观、声明性的表示方法,支持并行解析。
  • Method: 将语法和模式表示为网络,解析通过构建同态映射实现,支持多维递归结构(迭代、分层、嵌套)。
  • Result: 实现了对复杂递归结构模式(50-1000符号)的容错解析,处理几何关系变化、模糊符号、重叠、杂乱图像和缺失部分。
  • Conclusion: 该方法统一了模式识别的多个环节(特征检测、分割、解析等),展示了在多维递归结构中的高效性和容错能力。

cs.CL

[237] Trillion 7B Technical Report

Sungjun Han,Juyoung Suk,Suyeong An,Hyungguk Kim,Kyuseok Kim,Wonsuk Yang,Seungtaek Choi,Jamin Shin

Main category: cs.CL

TL;DR: Trillion-7B是一种高效的韩语为中心的多语言大模型,通过XLDA机制和优化数据混合,仅用10%的多语言数据和较低成本实现了优异性能。

  • Motivation: 解决多语言大模型在韩语等目标语言上的高效知识迁移问题。
  • Method: 采用Cross-lingual Document Attention (XLDA)机制,结合优化数据混合、语言特定过滤和定制分词器。
  • Result: 在27个基准测试中表现优异,跨语言一致性突出,训练成本低。
  • Conclusion: Trillion-7B在多语言任务中高效且经济,性能卓越。

[238] IPBench: Benchmarking the Knowledge of Large Language Models in Intellectual Property

Qiyao Wang,Guhong Chen,Hongbo Wang,Huaren Liu,Minghui Zhu,Zhifei Qin,Linwei Li,Yilin Yue,Shiqiang Wang,Jiayan Li,Yihang Wu,Ziqiang Liu,Longze Chen,Run Luo,Liyang Fan,Jiaming Li,Lei Zhang,Kan Xu,Hongfei Lin,Hamid Alinejad-Rokny,Shiwen Ni,Yuan Lin,Min Yang

Main category: cs.CL

TL;DR: 论文提出了首个全面的IP任务分类法和大规模双语基准IPBench,用于评估LLMs在知识产权领域的实际应用表现。

  • Motivation: 现有数据集和基准在知识产权领域覆盖不足,缺乏与真实场景的对齐,因此需要更全面的评估工具。
  • Method: 引入IPBench,涵盖8种IP机制和20项任务,并评估了16种LLMs的表现。
  • Result: 最佳模型准确率仅为75.8%,开源模型表现落后于闭源通用模型。
  • Conclusion: IPBench为知识产权领域的LLMs评估提供了重要工具,未来将持续更新以反映实际挑战。

[239] Exploring Next Token Prediction in Theory of Mind (ToM) Tasks: Comparative Experiments with GPT-2 and LLaMA-2 AI Models

Pavan Yadav,Nikhil Khandalkar,Krishna Shinde,Lokesh B. Ramegowda,Rajarshi Das

Main category: cs.CL

TL;DR: 该研究比较了GPT-2和Llama-2在心理理论任务中的表现,发现Llama-2在低温度下表现更优,但随着上下文复杂性和推理难度的增加,模型预测准确性下降。

  • Motivation: 评估GPT-2和Llama-2在心理理论任务中的表现,探讨上下文复杂性和推理难度对模型预测的影响。
  • Method: 使用GPT-4增强的短故事数据集,测试模型在不同温度设置下的表现,分析零阶、一阶和二阶推理任务。
  • Result: Llama-2在低温度下表现更优,但上下文复杂性增加会降低预测准确性,推理难度增加导致模型预测变异性增大。
  • Conclusion: 模型架构、温度和上下文复杂性显著影响预测性能,揭示了当前语言模型的优势和局限性。

[240] Cost-Effective Text Clustering with Large Language Models

Hongtao Wang,Taiyan Zhang,Renchi Yang,Jianliang Xu

Main category: cs.CL

TL;DR: TECL框架通过LLM反馈实现低成本高精度的文本聚类,优于现有方法。

  • Motivation: 解决LLM在文本聚类中计算和财务成本高的问题。
  • Method: 采用EdgeLLM或TriangleLLM构建约束条件,结合加权约束聚类方法。
  • Result: 在相同查询成本下,TECL显著优于现有无监督文本聚类方法。
  • Conclusion: TECL为高成本LLM应用提供了高效替代方案。

[241] Automated Creativity Evaluation for Large Language Models: A Reference-Based Approach

Ruizhe Li,Chiwei Zhu,Benfeng Xu,Xiaorui Wang,Zhendong Mao

Main category: cs.CL

TL;DR: 提出了一种基于TTCW的自动化方法,用于评估LLM生成文本的创造力,显著提高了与人类评估的一致性。

  • Motivation: 现有方法依赖人工标注或与人类评估不一致,难以有效评估机器生成文本的创造力。
  • Method: 采用基于参考的Likert评分方法,将生成文本与高质量参考文本对比。
  • Result: 实验显示,该方法显著提升了与人类评估的一致性,配对准确率达到0.75(+15%)。
  • Conclusion: 该方法为自动化评估LLM创造力提供了有效解决方案。

[242] A closer look at how large language models trust humans: patterns and biases

Valeria Lerman,Yaniv Dover

Main category: cs.CL

TL;DR: 研究探讨了大型语言模型(LLM)在与人类互动时如何形成信任,发现其信任机制与人类相似,但也存在偏见。

  • Motivation: 理解LLM如何对人类产生信任,以优化AI在决策场景中的应用。
  • Method: 基于行为理论,研究LLM信任是否受人类能力、善意和诚信影响,并分析人口统计变量的作用。
  • Result: LLM信任机制与人类相似,但某些情况下受年龄、宗教和性别偏见影响,尤其在金融场景中。
  • Conclusion: 需进一步研究AI对人类信任的动态,并监控偏见以避免潜在危害。

[243] Dynamic Early Exit in Reasoning Models

Chenxu Yang,Qingyi Si,Yongjie Duan,Zheliang Zhu,Chenyu Zhu,Zheng Lin,Li Cao,Weiping Wang

Main category: cs.CL

TL;DR: 提出一种自截断链式思维(CoT)的方法,通过动态终止冗余推理步骤,提升大语言模型(LLM)的效率和准确性。

  • Motivation: 长链式思维(CoT)在复杂任务中可能导致效率低下和准确性损失,需要一种动态终止冗余推理的方法。
  • Method: 通过监测模型在推理过渡点(如“Wait”标记)的行为,动态终止生成冗余推理链,无需额外训练。
  • Result: 在多个推理基准测试中,CoT序列长度平均减少31%-43%,准确性提升1.7%-5.7%。
  • Conclusion: 该方法简单有效,可无缝集成到现有推理LLM中,显著提升效率和准确性。

[244] FairTranslate: An English-French Dataset for Gender Bias Evaluation in Machine Translation by Overcoming Gender Binarity

Fanny Jourdan,Yannick Chevalier,Cécile Favre

Main category: cs.CL

TL;DR: FairTranslate是一个用于评估机器翻译系统中非二元性别偏见的数据集,测试了四种LLM在英语到法语翻译中的表现,发现存在显著偏见。

  • Motivation: 评估LLM在翻译包容性语言(如使用单数'they'代词)时的表现,填补现有研究空白。
  • Method: 创建了FairTranslate数据集(2418个英语-法语句对),测试四种LLM在不同提示下的表现。
  • Result: LLM在性别表示上存在显著偏见,表明机器翻译在公平性上仍有挑战。
  • Conclusion: 需针对性策略确保LLM翻译系统的公平性和包容性,数据集和代码已公开。

[245] W-PCA Based Gradient-Free Proxy for Efficient Search of Lightweight Language Models

Shang Wang

Main category: cs.CL

TL;DR: 本文提出了一种名为W-PCA的新型零样本神经架构搜索方法,专注于轻量级语言模型,通过参数计数和主成分分析优化评估效率。

  • Motivation: 现有零样本NAS方法存在评估偏差和计算效率低的问题,需要一种更高效的轻量级模型设计方法。
  • Method: 采用W-PCA方法,结合参数计数和FFN层主成分分析,避免梯度计算以提升效率。
  • Result: 在GLUE和SQuAD数据集上表现优于现有方法,显著减少训练时间并提高测试分数。
  • Conclusion: W-PCA方法在轻量级语言模型设计中具有高效性和优越性,适用于实际应用。

[246] CAPO: Cost-Aware Prompt Optimization

Tom Zehle,Moritz Schlager,Timo Heiß,Matthias Feurer

Main category: cs.CL

TL;DR: CAPO(成本感知提示优化)是一种结合AutoML技术的进化算法,通过减少LLM调用和输入令牌数量,高效优化提示,提升性能并降低成本。

  • Motivation: 大型语言模型(LLM)的性能对提示的表述高度敏感,而现有的提示优化方法成本高昂。
  • Method: CAPO采用进化算法,结合AutoML技术,通过竞赛减少评估次数,多目标优化平衡性能与提示长度,同时优化指令和少样本示例。
  • Result: 在11/15的案例中,CAPO优于现有离散提示优化方法,性能提升高达21%,且在较小预算下表现更好。
  • Conclusion: CAPO通过提高成本效率,使提示优化更强大且易于使用。

[247] LongMamba: Enhancing Mamba's Long Context Capabilities via Training-Free Receptive Field Enlargement

Zhifan Ye,Kejing Xia,Yonggan Fu,Xin Dong,Jihoon Hong,Xiangchi Yuan,Shizhe Diao,Jan Kautz,Pavlo Molchanov,Yingyan Celine Lin

Main category: cs.CL

TL;DR: LongMamba是一种无需训练的改进技术,通过区分局部和全局通道并过滤关键令牌,显著提升了Mamba模型的长上下文理解能力。

  • Motivation: 解决SSMs(如Mamba)在长上下文任务中表现不佳的问题,同时保持其高效性。
  • Method: 识别全局通道中的关键令牌并过滤不重要令牌,以减少隐藏状态记忆衰减。
  • Result: LongMamba显著提升了Mamba模型的长上下文性能,无需额外训练。
  • Conclusion: LongMamba为Mamba模型的长上下文任务设定了新标准,扩展了其应用范围。

上次更新于: