Apache spark的使用
基本过程可以参考
https://www.jianshu.com/p/8144ee73ac83
提出几点不同的看法,安装 Java SDK 那一步,其实不用装SDK,装JRE就可以了。而且按文中的命令没成功,我写下自己的方法。
-
到Oracle官网下载最新jre,
wget http://download.oracle.com/otn-pub/java/jdk/10.0.1+10/fb4372174a714e6b8c52526dc134031e/serverjre-10.0.1_linux-x64_bin.tar.gz
-
解压
tar xvf serverjre-10.0.1_linux-x64_bin.tar.gz -
移动到opt里,不移动也没关系
mv jdk-10.0.1/ /optcd /opt/jdk-10.0.1/ -
创建命令链接
update-alternatives --install /usr/bin/java java /opt/jdk-10.0.1/bin/java 1update-alternatives --install /usr/bin/javac javac /opt/jdk-10.0.1/bin/javac 1 -
验证,出现Java版本就是安装成功了
java --version -
回到家目录
cd -
加入Java环境变量后面一起做
-
再下载spark
wget http://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-2.3.0/spark-2.3.0-bin-hadoop2.6.tgz -
解压
tar -zxvf spark-2.3.0-bin-hadoop2.6.tgz -
加入环境变量
vim .bashrc后面加入内容如下:
JAVA_HOME=/opt/jdk-10.0.1/ export JAVA_HOME PATH=$PATH:$JAVA_HOME export PATH export PYSPARK_DRIVER_PYTHON=ipython export PYSPARK_DRIVER_PYTHON_OPTS=notebook -
使.bashrc生效
source .bashrc -
运行spark,参考http://www.powerxing.com/spark-quick-start-guide/
cd spark-2.3.0-bin-hadoop2.6/./bin/run-example SparkPi 2>&1 | grep "Pi is roughly" -
更多使用和问题欢迎交流