机器学习平台在大型网站的运维实践

19.90

 

主讲人:韩冰

 

  微博资深运维工程师 

 

 

现在微梦创科网络科技有限公司平台保障服务部担任资深运维工程师,目前负责机器学习平台的技术保障工作。10年的系统运维服务经验,长期关注 OpenStack,Kubernetes 等技术的服务应用

 

 

▣ 主题:机器学习平台在大型网站的运维实践

 

▣ 时间:6月14日 20:00

 

▣ 形式:视频直播

 

▣ 讲座概要:

 

机器学习平台目前已是主流互联网公司的标准配置,对于机器学习平台平台的运维管理,既有常规业务集群的共性,如混合云弹性扩缩容等,也有其特殊性,如异构计算单元的容器调度,利用率评估和预测等。本次讲座将介绍大型网站在统一架构、超大维度特征工程、深度学习平台、在线推理框架等环节的优化和运维经验。

 

▣ 讲座提纲:

 

1、信息流大型网站的业务简介

  a、业务规模

  b、信息流场景

  c、业务生态

2、机器学习平台

  a、统一架构

  b、深度学习平台

  c、在线推理平台

3、机器学习平台运维实践

  a、异构混合云的部署和调度

  b、弹性扩缩容实践

  c、利用率、NVML和时序数据库

 

 

授课教师

微博资深运维工程师现在微梦创科网络科技有限公司平台保障服务部担任资深运维工程师,目前负责机器学习平台的技术保障工作。10年的系统运维服务经验...