¿Qué quieres aprender?

Aparche Spark streaming con Python y PySpark

Aparche Spark streaming con Python y PySpark

Udemy

Curso online


20

De qué trata este curso:

Este curso cubre todos los aspectos fundamentales de Apache Spark streaming con Python, y te enseña todo lo que necesitas saber sobre el desarrollo de aplicaciones Apache Spark.

Al final de este curso, obtendrás un conocimiento profundo sobre Apache Spark streaming, así como habilidades generales de manejo y análisis de big data para ayudar a tu empresa o proyecto a adaptar Apache Spark para la construcción de un pipeline de procesamiento de big data y aplicaciones de análisis de datos.

Este curso sera absolutamente critico para cualquiera que quiera dominar Data Science hoy en día.

¿Quieres hablar con un asesor sobre este curso?

Objetivos

Resumen general de la arquitectura de Apache Spark. Se capaz de trabajar con la abstracción principal de Apache Spark, RDDs o conjuntos de datos distribuidos y resilientes, para procesar y analizar grandes conjuntos de datos. Desarrollar aplicaciones Apache Spark 2.0, utilizando transformaciones y acciones en RDD y Spark SQL. Escalar aplicaciones Spark a un clúster Hadoop YARN a través del servicio Elastic MapReduce de Amazon. Analizar datos estructurados y semiestructurados utilizando conjuntos de datos (Datasets) y Dataframes, y entender a detalle el funcionamiento de Spark SQL. Compartir información a través de diferentes nodos en un clúster de Apache Spark, mediante variables de difusión y acumuladores. Técnicas avanzadas para optimizar y mejorar, trabajos de Apache Spark mediante el particionado, almacenamiento en caché y la persistencia de RDDs. Buenas prácticas de trabajo con Apache Spark

A quién va dirigido

Cualquier persona que quiera entender completamente cómo funciona Apache Spark, y cómo se usa Apache Spark en la industria. Ingenieros de software que deseen desarrollar aplicaciones con Apache Spark 2.0 utilizando Spark Core y Spark SQL. Científicos de datos o ingenieros de datos que quieran avanzar en su carrera mejorando sus habilidades de procesamiento de Big Data.

Requisitos

Una computadora con sistema operativo Windows, OSX o Linux Tener conocimientos previos de programación con Python

Temario completo de este curso

Contenido del curso
Descripción General del Curso
Como Tomar este Curso y Como Obtener Ayuda
Texto de Soporte: Como Tomar este Curso y Como Obtener Ayuda
Introducción a Spark
Advertencia sobre Java 9
URL de Git
Configura Spark
URL de Winutils
Ejecuta nuestro primer trabajo Spark
Fundamentos de RDD en Apache Spark
Crea RDDs
Fuentes de Datos de Spark
Transformaciones Map y Filter
Solución del Problema Airports by Latitude
Transformación FlatMap
Operaciones Set
Ejemplo con Reemplazo y sin Reemplazo
Solución del Problema Same Hosts
Acciones
Solución al Problema Sum of Numbers
Aspectos Importantes de los RDDs
Resumen de las Operaciones RDD
Almacenamiento en Cache y Persistencia
Arquitectura Spark
Componentes Spark
Introducción a RDDs clave-valor
Crea RDDs clave-valor
Transformaciones Filter y MapValue en RDDs clave-valor
Agregación Reduce By Key
Solución del Ejemplo Average House Problem
Transformación Group By Key
Transformación Sort By Key
Solución del Ejemplo Sorted Word Count Problem
Particionamiento de Datos
Operaciones Join
Material de Aprendizaje Extra: Como las Grandes Empresas usan Apache Spark
Acumuladores
Solución al problema de seguimiento de la encuesta de stackoverflow
Variables de difusión
Introducción a Spark SQL
Spark SQL en acción
Ejercicio Spark SQL: Problema Precios de Viviendas
Uniones en Spark SQL
Marcos de datos o RDDs
Conversión de marcos de datos a RDDs
Optimización del rendimiento de Spark SQL
Empaqueta tu aplicación Spark y usa Spark-Submit
Ejecuta tu aplicación Spark en un clúster de Amazon EMR (Elastic Map Reduce)
Material de Aprendizaje: Evita estos errores al escribir programas Apache Spark
Aprendizaje futuro
Clase textual: Aprendizaje futuro
Ver más