《强化学习》第一期

799

  • 第一课 强化学习综述
  • 第二课 马尔科夫决策过程
  • 第三课 基于模型的动态规划方法
  • 第四课 蒙特卡罗方法
  • 第五课 时序差分方法
  • 第六课 基于值函数逼近方法
  • 第七课 策略梯度方法
  • 第八课 AC方法
  • 第九课 信赖域系方法
  • 第十课 多Agent强化学习

授课教师

工学博士、高级工程师

 计算机专业博士,高级工程师,现任某知名上市公司的技术专家。上海交通大学计算机专业博士毕业,主研方向为数据挖掘、机器学习、人工智能。毕业后长...