“硕雀”发表的所有文章 | 第 77 页

什么是Off‑Policy（离策略）

Off‑Policy（离策略）学习概念概述基本定义Off‑Policy指在强化学习过程中，行为策略（be[…]

AI解读

5个月前

什么是On‑Policy（同策略）

On‑Policy（同策略）强化学习概述1.什么是On‑PolicyOn‑Policy指在学习过程中[…]

AI解读

5个月前

PathConsistencyLearning（PCL）概述1.背景与动机在强化学习中，基于价值的（[…]

AI解读

5个月前

组相对注意力引导（GroupRelativeAttentionGuidance，GRAG）概述1.背[…]

AI解读

5个月前

什么是BLEXBot

BLEXBot简介BLEXBot是由美国SEO工具公司WebMeUp（亦称SE Ranking）[…]

AI解读

5个月前

GeminiCanvas 新功能概览定位：GeminiCanvas是GoogleGeminiAI[…]

AI资讯

5个月前

MiniMax Music 2.0 正式发布

MiniMaxMusic 2.0正式发布概览1.发布背景与时间2025年10月31日，上海[…]

AI资讯

5个月前

MathVision（MATH‑Vision）多模态数学推理基准数据集概览1.背景与动机随着大规模多模态[…]

AI解读

5个月前

月之暗面推Kimi Linear模型

月之暗面 Kimi Linear模型概览1.背景与动机随着大语言模型（LLM）从单纯的文本生成向具备长[…]

AI资讯

5个月前

什么是Cycle‑GAN

1.什么是Cycle‑GANCycle‑GAN是一种生成对抗网络（GAN）‍，专门用于无配对图像之[…]

AI解读

5个月前