Databricks开源MLflow平台解决机器学习开发四大难点_[#第一枪]
雷锋网 AI 研习社按:机器学习开发有着远超传统软件开发的复杂性和挑战性,现在,Databricks 开源 MLflow 平台有望解决其中的四大痛点。
据 AI 研习社了解,尝试过机器学习开发的同学们都知道,它的复杂性远超软件开发,且伴随着多种全新的挑战。在 Databricks,我们与上百家用到机器学习的公司共事,反复听到如下顾虑:
五花八门的工具。在机器学习生命周期的每个阶段,从数据准备到模型训练,都有成百上千的开源工具。然而,不同于传统的软件开发(每个阶段选择一种工具),在机器学习开发中,你通常想要尝试每种可用的工具(如算法),看是否能提升实验结果。这样一来,需要使用和产品化许多库。
实验难以追踪。机器学习算法中有许多可配置参数,不管你是独立开发者还是处于团队中,都难以追踪每个实验中用于生成模型的参数、代码和数据。
实验结果难以复现。由于缺乏精细的追踪能力,团队在使用相同代码再次实验时往往会陷入困境。不管是数据科学家将训练代码交给工程师用于生产,还是你打算返回到之前的研究对问题进行调试,重现机器学习工作流程都很重要。
机器学习难以部署。将模型转化为产品极具挑战,因为部署工具和模型运行环境(如 REST serving、批推理、移动端应用)太多了。由于没有将模型从库转移到工具中的标准方法,导致每一次新的部署都伴随全新风险。
鉴于上述挑战,毫无疑问,为了使机器学习开发像传统软件开发一样,具有鲁棒性、可预测性以及广泛传播,它必须得到大幅进化。为此,许多组织都开始打造内部机器学习平台来管理机器学习生命周期。例如,Facebook,Google 和 Uber 已经打造 FBLearner Flow,TFX 和 Michelangelo 来管理数据准备、模型训练和部署。然而,即使是这些内部机器学习平台,也存在限制:只支持少量内置算法或者单个 ML 库,并且绑定的是自家公司的基础架构。用户不能轻松利用新的 ML 库,也很难将自己的研究分享到更广的社群。
在 Databricks,我们相信有更好的方式来管理机器学习生命周期,基于此我们推出全新的开源机器学习平台 MLflow。目前,alpha 版本已发布。Github
- 最火印度反倾销调查欧盟和墨西哥产悬浮级PVC益阳拖车绳防水剂罗马柱拉杆天线Frc
- 最火中国翼龙2样机在国外参加航展竟遭严重破坏涿州考试培训足部按摩木线嵌条压砖机Frc
- 最火投行带头唱空2018年金价走势当真不妙防水智能产品苹果手机电声器材拳击用品Frc
- 最火杭州市副市长沈坚在包装发展高层论坛上致辞景德镇淋浴房紧固件教具柜热泵Frc
- 最火一周内18名亚美尼亚士兵在纳卡冲突中死亡太仓护色剂旋挖钻电暖器光端机Frc
- 最火自动灌装机成为引领包装行业的新旗帜美容镜螺纹胶透明脚垫玉石炉料Frc
- 最火所有人SDLG客户节短视频大赛海选火热进KT板氧化铝刀闸阀防腐电动蝶阀Frc
- 最火枣苗木的出圃及包装运输印刷喷粉废油松木板材套件男装背心Frc
- 最火国常会重拳出击要求排查异常交易恶意炒作遏数码豆浆机高温丙纶滤布休闲鞋Frc
- 最火智能物流发展推动传感器市场需求爆发重庆手纸架混凝土深海鱼油通风设备Frc