PySpark suena a magia si uno viene de usar solo pandas. Lo descubrí cuando intenté procesar un archivo de vuelos con millones de filas y mi laptop dijo: “no gracias”. Ahí fue cuando empecé a explorar Spark, y más concretamente PySpark, que permite usar la potencia de Spark desde Python.

Spark es un motor de procesamiento distribuido que funciona genial cuando trabajas con datos demasiado grandes para una sola máquina.
Pero PySpark es lo que hace que todo eso sea accesible desde código Python. No necesitas cambiar de lenguaje ni de entorno.
Solo tienes que importar pyspark
, crear una sesión y ya puedes comenzar a leer tablas, hacer queries con sintaxis estilo SQL y construir modelos de machine learning como si estuvieras en scikit-learn.
En el curso que encontré en DataCamp, eso es justo lo que te enseñan paso a paso. Está diseñado para que entiendas cómo Spark gestiona los datos y cómo puedes manipularlos desde Python sin volverte loco con la sintaxis.No necesitas saber nada avanzado. Basta con que hayas trabajado un poco con Python y te interese el tema.
El curso tiene cuatro horas de duración y está dividido en cuatro partes muy concretas:
- Conocer PySpark: Te muestran cómo leer tablas, escribirlas, y por qué Spark es tan rápido para esto.
- Manipulación de datos: Acá entra el módulo
pyspark.sql
, que se siente como una mezcla entre SQL y pandas, pero para datos gigantes. - Canalizaciones de machine learning: Lo interesante es que puedes encadenar transformaciones, normalizar datos y entrenar modelos con una lógica bastante clara.
- Ajuste de modelos: La parte final es un caso real: predecir si un vuelo se va a retrasar o no.
En total, hay 45 ejercicios para practicar, usando datos reales de vuelos desde Portland y Seattle. Los ejemplos no son teóricos: estás trabajando con cosas que podrías encontrar en un trabajo de ciencia de datos.
No hay preguntas capciosas ni menús complicados. Vas al grano. Cada capítulo tiene una parte de explicación y otra de ejercicios interactivos.
Está en inglés, pero tiene subtítulos en español. Y algo importante: aunque el curso es gratuito, si quieres el certificado al final, hay que pagarlo.
Algunos detalles que pueden ayudarte a decidir si vale la pena:
Característica | Detalle |
---|---|
Plataforma | DataCamp |
Curso | Introducción a PySpark |
Duración | 4 horas |
Nivel | Principiante |
Idioma | Inglés con subtítulos en español |
Certificado | Disponible, pero con costo |
Ejercicios | 45 interactivos |
Datos usados | Vuelos desde Portland y Seattle |
Autores | Lora Dirick, Nick Solomon, Colin Ricardo |
Valoración | Muy alta, más de 154,000 estudiantes |
La combinación entre explicaciones claras, ejemplos reales y ejercicios guiados hace que sea ideal para quien quiere dar el salto a proyectos grandes sin dejar de usar Python. Incluso si no planeas trabajar con Spark pronto, saber cómo funciona te da una ventaja.
¿Te interesa probarlo?
Solo necesitas registrarte en DataCamp (gratis), acceder al curso “Introducción a PySpark” y comenzar la primera lección. Todo se hace desde el navegador.
Si te interesa la ciencia de datos en serio, PySpark es una de esas herramientas que conviene tener en la mochila.

Henry Hernandez
Me encanta compartir cursos gratuitos y recursos útiles para que sigas aprendiendo sin gastar.