作者:硕雀

我还没有学会写个人说明!

什么是Off‑Policy(离策略)
Off‑Policy(离策略)学习概念概述基本定义Off‑Policy指在强化学习过程中,行为策略(be[…]
什么是On‑Policy(同策略)
On‑Policy(同策略)强化学习概述1.什么是On‑PolicyOn‑Policy指在学习过程中[…]
什么是Path Consistency Learning (PCL)算法
PathConsistencyLearning(PCL)概述1.背景与动机在强化学习中,基于价值的([…]
什么是组相对注意力引导(GRAG)
组相对注意力引导(GroupRelativeAttentionGuidance,GRAG)概述1.背[…]
什么是BLEXBot
BLEXBot简介BLEXBot是由美国SEO工具公司WebMeUp(亦称SE Ranking)[…]
AI一键变身PPT神器!Gemini Canvas新功能上线
GeminiCanvas 新功能概览定位:GeminiCanvas是GoogleGeminiAI[…]
MiniMax Music 2.0 正式发布
MiniMaxMusic 2.0正式发布概览1.发布背景与时间2025年10月31日,上海[…]
什么是MathVision多模态数学推理基准数据集
MathVision(MATH‑Vision)多模态数学推理基准数据集概览1.背景与动机随着大规模多模态[…]
月之暗面推Kimi Linear模型
月之暗面 Kimi Linear模型概览1.背景与动机随着大语言模型(LLM)从单纯的文本生成向具备长[…]
什么是Cycle‑GAN
1.什么是Cycle‑GANCycle‑GAN是一种生成对抗网络(GAN)‍,专门用于无配对图像之[…]
1 75 76 77 78 79 432