Big Data es una habilidad caliente y muy valiosa - y este curso te enseñará la tecnología más caliente en grandes datos: Apache Spark. Empleadores como Amazon, EBay, NASA JPL y Yahoo utilizan Spark para extraer rápidamente el significado de conjuntos de datos masivos a través de un cluster Hadoop tolerante a fallos. Usted aprenderá esas mismas técnicas, usando su propio sistema Windows en casa. Es más fácil de lo que crees.
Aprenda y domine el arte de enmarcar los problemas de análisis de datos como problemas de Spark a través de más de 15 ejemplos prácticos, y luego amplíelos para que se ejecuten en servicios de computación en nube en este curso. Aprenderás de un ex ingeniero y gerente senior de Amazon e IMDb.
- Aprenda los conceptos de las tiendas de datos distribuidas resistentes de Spark
- Desarrolle y ejecute trabajos de Spark rápidamente utilizando Python
- Traducir problemas de análisis complejos en scripts de Spark iterativos o de varias etapas.
- Amplíe a conjuntos de datos más grandes utilizando el servicio Elastic MapReduce de Amazon
- Entender cómo Hadoop YARN distribuye Spark a través de clusters informáticos
- Más información sobre otras tecnologías de Spark, como Spark SQL, Spark Streaming y GraphX
Al final de este curso, estarás ejecutando código que analiza información de gigabytes - en la nube - en cuestión de minutos.
¿Para quién es este curso?
Las personas con experiencia en desarrollo de software que quieran aprender la tecnología más avanzada en el análisis de grandes datos querrán esto. Este curso se enfoca en Spark desde el punto de vista del desarrollo de software; introducimos algunos conceptos de aprendizaje de máquina y minería de datos a lo largo del camino, pero ese no es el enfoque. Si quieres aprender a usar Spark para dividir enormes conjuntos de datos y extraer significado de ellos, entonces este curso es para ti.
Emagister S.L. (responsable) tratará tus datos personales con la finalidad de gestionar el envío de solicitudes de información y comunicaciones promocionales de formación con tu consentimiento. Ejerce tus derechos de acceso, supresión, rectificación, limitación, portabilidad y otros, según se indica en nuestra política de privacidad.
Objetivos
Usar DataFrames y Streaming estructurado en Spark 2 Enmarcar grandes problemas de análisis de datos como problemas de Spark Utilice el servicio Elastic MapReduce de Amazon para ejecutar su trabajo en un clúster con Hadoop YARN Instalar y ejecutar Apache Spark en un ordenador de sobremesa o en un cluster Implementar algoritmos iterativos como la búsqueda por amplitud usando Spark Utilice la biblioteca de aprendizaje de máquina MLLib para responder a preguntas comunes sobre minería de datos. Ajustar y solucionar problemas de grandes trabajos que se ejecutan en un clúster Compartir información entre nodos en un cluster de Spark usando variables de transmisión y acumuladores
A quién va dirigido
Las personas con experiencia en desarrollo de software que quieran aprender la tecnología más avanzada en el análisis de grandes datos querrán esto. Este curso se enfoca en Spark desde el punto de vista del desarrollo de software; introducimos algunos conceptos de aprendizaje de máquina y minería de datos a lo largo del camino, pero ese no es el enfoque. Si quieres aprender a usar Spark para dividir enormes conjuntos de datos y extraer significado de ellos, entonces este curso es para ti. Si nunca has escrito un programa de ordenador o un guión antes, este curso no es para ti - todavía. Sugiero empezar con un curso de Python primero, si la programación es nueva para ti. Si su trabajo de desarrollo de software implica, o implicará, el procesamiento de grandes cantidades de datos, usted necesita saber acerca de Spark. Si estás entrenando para una nueva carrera en ciencias de la información o en datos de gran tamaño, Spark es una parte importante de ella.
Requisitos
Programacion Python Basica
Temario completo de este curso