“硕雀”发表的所有文章 | 第 76 页

分布偏移（CovariateShift）概述分布偏移指的是模型在训练阶段所使用的数据与实际部署时遇到的数据[…]

AI解读

5个月前

什么是深度增强学习（DRL）

深度增强学习（DeepReinforcementLearning，DRL）概述1.什么是深度增强学习（[…]

AI解读

5个月前

什么是信赖域（Trust Region）

信赖域（TrustRegion）概念概述信赖域是一类用于求解非线性优化问题的数值方法。它的核心思想是：在每[…]

AI解读

5个月前

DAgger（DatasetAggregation）概述DAgger是一种用于模仿学习（Imitatio[…]

AI解读

5个月前

交互式采样（InteractiveSampling）概念概述维度内容参考基本定义交互式采样是一类在[…]

AI解读

5个月前

模仿学习（ImitationLearning，IL）概述1.什么是模仿学习模仿学习是一类机器学习方法，[…]

AI解读

5个月前

监督式模仿学习（SupervisedImitationLearning，IL）概述1.什么是监督式模仿[…]

AI解读

5个月前

行为克隆（BehavioralCloning，BC）概述行为克隆是一种监督式模仿学习技术，核心目标是让智能[…]

AI解读

5个月前

行为策略（BehaviorPolicy）概念概述行为策略是强化学习（ReinforcementLearn[…]

AI解读

5个月前

目标策略（TargetPolicy）概念概述在强化学习（ReinforcementLearning，RL[…]

AI解读

5个月前