0%

安装大数据分析软件,Apache spark

Apache spark的使用

基本过程可以参考

https://www.jianshu.com/p/8144ee73ac83

提出几点不同的看法,安装 Java SDK 那一步,其实不用装SDK,装JRE就可以了。而且按文中的命令没成功,我写下自己的方法。

  1. 到Oracle官网下载最新jre,

    wget http://download.oracle.com/otn-pub/java/jdk/10.0.1+10/fb4372174a714e6b8c52526dc134031e/serverjre-10.0.1_linux-x64_bin.tar.gz

  2. 解压 

    tar xvf serverjre-10.0.1_linux-x64_bin.tar.gz

  3. 移动到opt里,不移动也没关系

    mv jdk-10.0.1/ /opt

    cd /opt/jdk-10.0.1/

  4. 创建命令链接

    update-alternatives --install /usr/bin/java java /opt/jdk-10.0.1/bin/java 1

    update-alternatives --install /usr/bin/javac javac /opt/jdk-10.0.1/bin/javac 1

  5. 验证,出现Java版本就是安装成功了

    java --version

  6.  回到家目录

    cd

  7. 加入Java环境变量后面一起做

  8. 再下载spark

    wget http://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-2.3.0/spark-2.3.0-bin-hadoop2.6.tgz

  9. 解压

    tar -zxvf spark-2.3.0-bin-hadoop2.6.tgz 

  10. 加入环境变量

    vim .bashrc  

    后面加入内容如下:

                JAVA_HOME=/opt/jdk-10.0.1/
                export JAVA_HOME
                PATH=$PATH:$JAVA_HOME
                export PATH
                export PYSPARK_DRIVER_PYTHON=ipython
                export PYSPARK_DRIVER_PYTHON_OPTS=notebook
            
  11. 使.bashrc生效

    source .bashrc

  12. 运行spark,参考http://www.powerxing.com/spark-quick-start-guide/

    cd spark-2.3.0-bin-hadoop2.6/

    ./bin/run-example SparkPi 2>&1 | grep "Pi is roughly"

  13. 更多使用和问题欢迎交流