APP下载

Databricks释出机器学习平台MLflow0.7.0,整合R释出追踪API

消息来源:baojiabao.com 作者: 发布时间:2024-04-24

报价宝综合消息Databricks释出机器学习平台MLflow0.7.0,整合R释出追踪API

今年六月Databricks推出的开源机器学习平台MLflow,现在释出0.7.0版本,这个版本主打由RStudio提供的新MLflow R客户端API,让R语言的资料科学家也能使用MLflow,开发机器学习应用,而R语言是暨Python和Java之后,MLflow支援的第三种语言。另外,新版本还增加了实验注释小功能以及两个范例供使用者参考。

由Apache Spark技术团队所创立的Databricks,在六月时释出开源机器学习平台MLflow预览版,MLflow不只是开放源代码,同时还使用开放界面,以支援现有的机器学习函式库、算法和工具,帮助管理机器学习开发和生产生命周期相关的工作流程。在4个月后,Databricks在欧洲Spark + AI大会上,宣布了MLflow 0.7.0版的最新消息。

在MLflow 0.7.0中,RStudio贡献了R客户端追踪API,这功能类似Python和Java客户端追踪API,还与RStudio程式开发环境完全整合,提供CRUD界面以存取MLflow实验和执行状态。R客户端追踪API可在本机端追踪实验,或是也连接到MLflow服务器和其他人分享实验结果,并且输出可以在本机或远端共享的模型。

官方提到,R语言客户端追踪API跟Python和Java版本,在使用上没有太大差异。MLflow R客户端允许开发者在程式执行阶段,纪录参数、程式码版本、指标和输出档案,然后以MLflow UI视觉化这些结果。

除了R语言的整合外,MLflow 0.7.0加入了由社群成员贡献,虽然很小但却很有用的功能,现在使用者可以在每次的执行中,在MLflow UI加入注释,纪录实验的重点。

此外,Databricks也加入了两个范例供使用者参考,分别是多重步骤工作流程和工作管线(Multistep Workflows and Pipelines)和超参数调校(Hyperparameter Tuning)。官方提到,在产生机器学习模型的生命周期中,模型训练和部署之前通常都还要经过多个步骤,无论是从来源收集资料,或是执行ETL将资料转换成高效能格式,接着才能在后续使用干净的资料,对模型进行训练、追踪和实验。多重步骤工作流程和工作管线则示范了在MLflow框架中,这些程序串接的方法。

而超参数调校则会向使用者展示,使用MLflow最佳化深度学习函式库Keras,并与热门函式库诸如HyperOpt或GPyOpt进行高效能的协作。这个范例中使用了红酒品质资料集,示范最佳化Keras深度学习模型的RMSE指标。

MLflow 0.7.0现在可以在Pypi上取得,而R语言客户端则可以从CRAN下载。

2018-10-04 18:36:00

相关文章