MMLSpark:微软开源的用于Spark的深度学习库
MMLSpark需要Scala 2.11,Spark 2.1+,以及Python 2.7或Python 3.5+。
显着特点
从 HDFS 轻松摄取图像到Spark DataFrame(示例:301)
使用 OpenCV 进行转换的预处理图像数据(示例:302)
使用 CNTK 进行预训练的深层神经网络(示例:301)
使用来自 Keras 预先训练的双向LSTM进行医疗实体提取(示例:304)
在Azure上的N系列GPU虚拟机上训练基于DNN的图像分类模型
通过单个变换器在SparkML中的基元上方使用方便的API实现自由格式的文本数据(示例:201)
列车分类和回归模型容易通过数据的隐式特征化(示例:101)
计算一组丰富的评估指标,包括每个实例的指标(示例:102)
所有的示例可以参见:https://github.com/Azure/mmlspark/tree/master/notebooks/samples
一个简单的示例
以下是使用预先训练的CNN在CIFAR-10数据集中分类图像的简单示例的摘录。完整的代码参见:https://github.com/Azure/mmlspark/blob/master/notebooks/samples/301%20-%20CIFAR10%20CNTK%20CNN%20Evaluation.ipynb
安装
Docker
使用MMLSpark 的最简单方法是通过预先编译好的Docker container,为了使用它,你先要运行下面的命令:
docker run -it -p 8888:8888 -e ACCEPT_EULA=yes microsoft/mmlspark
然后通过浏览器访问http://localhost:8888,这里我们可以运行简单的示例代码,更详细的使用请参见官方文档:https://github.com/Azure/mmlspark/blob/master/docs/docker.md
Spark package
当然,除了在Docker container里面使用MMLSpark 之外,我们还可以直接通过--packages 选项直接在现有的Spark集群中使用MMLSpark,具体如下:
更多关于MMLSpark的使用和介绍,请参见官方文档。
时间:2018-10-09 22:42 来源: 转发量:次
声明:本站部分作品是由网友自主投稿和发布、编辑整理上传,对此类作品本站仅提供交流平台,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,不为其版权负责。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。
相关文章:
- [数据挖掘]Spark 迁移到 K8S 在有赞的实践与经验
- [数据挖掘]Spark Operator 初体验
- [数据挖掘]如何实现Spark on Kubernetes?
- [数据挖掘]Spark SQL 物化视图技术原理与实践
- [数据挖掘]Spark on K8S 的最佳实践和需要注意的坑
- [数据挖掘]Spark 3.0重磅发布!开发近两年,流、Python、SQL重
- [数据挖掘]Spark 3.0开发近两年终于发布,流、Python、SQL重大
- [数据挖掘]Apache Spark 3.0.0 正式版终于发布了,重要特性全面
- [数据挖掘]Spark 3.0 自适应查询优化介绍,在运行时加速 Sp
- [数据挖掘]Flink SQL vs Spark SQL
相关推荐:
网友评论: