一,在用python编辑spark时,需要在windows本地搭建一套spark环境,然后将编辑好的.py上传到hadoop集群,再进行调用
二,在应用spark进行机器学习时,更多时候还是在windows环境下进行会相对比较方便。
组件准备:
1、Python3.6.7
2、JDK(本文中使用JDK1.8)
3、Scala(Scala-2.12.8)
4、Spark(spark-2.4.5-bin-hadoop2.7.gz)
5、Hadoop(Hadoop 2.7)
6、winutils.exe
备注,尽量使用python3.6对应spark的2.4,不然会版本不兼容。本次安装采用的python3.6.7和spark2.4.5。