sudo apt-get update
sudo apt-get install openjdk-8-jdk
Añadimos JAVA_HOME a las variables de entorno en nano ~/.bashrc o nano ~/.zshrc,
EXPORT JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64sudo apt-get install scala
- Ir a
http://spark.apache.org/downloads.html - Descargarlo (es el paso 3 en la web)
- Descomprimirlo:
sudo tar xzvf spark-blabla.tgz sudo mv /usr/local/spark_VERSION /usr/local/spark- Añadimos variables de entorno:
5.1.nano ~/.bashrconano ~/.zshrc
5.2. Añadimos
export SPARK_HOME=/usr/local/spark
export PYSPARK_PYTHON=python3
export PATH=$SPARK_HOME/bin:$PATHsource ~/.bashrcosource ~/.zshrc
Abre una consola de python3 y escribe import pyspark para comprobarlo
Es bastante comun que cuando escribas import pyspark falle porque no encuentra la libreria py4j. Hay 2 soluciones, cualquiera de las 2 opciones es igual de valida.
pip3 install py4j- Añadir nuevas variables de entorno
2.1.ls $SPARK_HOME/python/lib/ | ps py4j
2.2. Copia la salida de ese comando e introducela en SALIDA_LS de la linea siguiente.
export PYTHONPATH=$SPARK_HOME/python/lib/py4j-{SALIDA_2.1}-src.zip:$PYTHONPATH
2.3. Ahora, añadimos estas variables de entorno ennano ~/.bashrconano ~/.zshrc, y luego repites el paso 6
export PYTHONPATH=$SPARK_HOME/python/:$PYTHONPATH
export PYTHONPATH=$SPARK_HOME/python/lib/py4j-{SALIDA_2.1}-src.zip:$PYTHONPATHEsta variable supuestamente es obligatoria. NO obstante, he instalado varias veces Spark sin esta libreria, y no falla en ningun sitio. ahí la dejo por si acaso.
export PYTHONPATH=$SPARK_HOME/python:$PYTHONPATH