作者:硕雀

我还没有学会写个人说明!

什么是分布偏移(Covariate Shift)
分布偏移(CovariateShift)概述分布偏移指的是模型在训练阶段所使用的数据与实际部署时遇到的数据[…]
什么是深度增强学习(DRL)
深度增强学习(DeepReinforcementLearning,DRL)概述1.什么是深度增强学习([…]
什么是信赖域(Trust Region)
信赖域(TrustRegion)概念概述信赖域是一类用于求解非线性优化问题的数值方法。它的核心思想是:在每[…]
什么是DAgger(Dataset Aggregation)算法
DAgger(DatasetAggregation)概述DAgger是一种用于模仿学习(Imitatio[…]
什么是交互式采样(Interactive Sampling)
交互式采样(InteractiveSampling)概念概述维度内容参考基本定义交互式采样是一类在[…]
什么是模仿学习(Imitation Learning,IL)
模仿学习(ImitationLearning,IL)概述1.什么是模仿学习模仿学习是一类机器学习方法,[…]
什么是监督式模仿学习(Supervised Imitation Learning,IL)
监督式模仿学习(SupervisedImitationLearning,IL)概述1.什么是监督式模仿[…]
什么是行为克隆(Behavioral Cloning)
行为克隆(BehavioralCloning,BC)概述行为克隆是一种监督式模仿学习技术,核心目标是让智能[…]
什么是行为策略(Behavior Policy)
行为策略(BehaviorPolicy)概念概述行为策略是强化学习(ReinforcementLearn[…]
什么是目标策略(Target Policy)
目标策略(TargetPolicy)概念概述在强化学习(ReinforcementLearning,RL[…]
1 74 75 76 77 78 432