Apache spark的使用
基本过程可以参考
https://www.jianshu.com/p/8144ee73ac83
提出几点不同的看法,安装 Java SDK 那一步,其实不用装SDK,装JRE就可以了。而且按文中的命令没成功,我写下自己的方法。
-
到Oracle官网下载最新jre,
wget http://download.oracle.com/otn-pub/java/jdk/10.0.1+10/fb4372174a714e6b8c52526dc134031e/serverjre-10.0.1_linux-x64_bin.tar.gz
-
解压
tar xvf serverjre-10.0.1_linux-x64_bin.tar.gz
-
移动到opt里,不移动也没关系
mv jdk-10.0.1/ /opt
cd /opt/jdk-10.0.1/
-
创建命令链接
update-alternatives --install /usr/bin/java java /opt/jdk-10.0.1/bin/java 1
update-alternatives --install /usr/bin/javac javac /opt/jdk-10.0.1/bin/javac 1
-
验证,出现Java版本就是安装成功了
java --version
-
回到家目录
cd
-
加入Java环境变量后面一起做
-
再下载spark
wget http://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-2.3.0/spark-2.3.0-bin-hadoop2.6.tgz
-
解压
tar -zxvf spark-2.3.0-bin-hadoop2.6.tgz
-
加入环境变量
vim .bashrc
后面加入内容如下:
JAVA_HOME=/opt/jdk-10.0.1/ export JAVA_HOME PATH=$PATH:$JAVA_HOME export PATH export PYSPARK_DRIVER_PYTHON=ipython export PYSPARK_DRIVER_PYTHON_OPTS=notebook
-
使.bashrc生效
source .bashrc
-
运行spark,参考http://www.powerxing.com/spark-quick-start-guide/
cd spark-2.3.0-bin-hadoop2.6/
./bin/run-example SparkPi 2>&1 | grep "Pi is roughly"
-
更多使用和问题欢迎交流