Informações principais
Sobre o conteúdo
Spark is rapidly becoming the compute engine of choice for big data. Spark programs are more concise and often run 10-100 times faster than Hadoop MapReduce jobs. As companies realize this, Spark developers are becoming increasingly valued.
This statistics and data analysis course will teach you the basics of working with Spark and will provide you with the necessary foundation for diving deeper into Spark. You’ll learn about Spark’s architecture and programming model, including commonly used APIs. After completing this course, you’ll be able to write and debug basic Spark applications. This course will also explain how to use Spark’s web user interface (UI), how to recognize common coding errors, and how to proactively prevent errors. The focus of this course will be Spark Core and Spark SQL.
This course covers advanced undergraduate-level material. It requires a programming background and experience with Python (or the ability to learn it quickly). All exercises will use PySpark (the Python API for Spark), but previous experience with Spark or distributed computing is NOT required. Students should take this Python mini-quiz before the course and take this Python mini-course if they need to learn Python or refresh their Python knowledge.
Programa de estudos
- Basic Spark architecture
- Common operations
- How to avoid coding mistakes
- How to debug your Spark program
Instrutores
- Anthony D. Joseph
- Jon Bates
Criador do conteúdo

A Universidade da Califórnia, Berkeley, foi fundada em 1868 e o seu campus principal - concebido como uma "Cidade de Aprendizagem" - foi estabelecido em Berkeley, na Baía de São Francisco. O corpo docente de Berkeley é constituído por 1.582 professores a tempo inteiro e 500 a tempo parcial, dispersos por mais de 130 departamentos académicos e mais de 80 unidades de investigação interdisciplinares. Os antigos alunos de Berkeley receberam 28 prémios Nobel e, entre os actuais professores, há oito laureados com o Prémio Nobel, 32 MacArthur Fellows e quatro vencedores do Prémio Pulitzer.
Em setembro de 2012, para assinalar o compromisso de Berkeley com a inovação no ensino e na aprendizagem, foi criado o Berkeley Resource Center for Online Education (BRCOE). O Centro é um centro de recursos e um catalisador operacional para todos os recursos internos do campus e externos para aconselhar, coordenar e facilitar as iniciativas de educação em linha da Universidade, desde cursos com e sem créditos, a programas de licenciatura em linha e projectos MOOC, incluindo a iniciativa MOOCLab.
Plataforma

EdX est une plateforme d'apprentissage en ligne (dite FLOT ou MOOC). Elle héberge et met gratuitement à disposition des cours en ligne de niveau universitaire à travers le monde entier. Elle mène également des recherches sur l'apprentissage en ligne et la façon dont les utilisateurs utilisent celle-ci. Elle est à but non lucratif et la plateforme utilise un logiciel open source.
EdX a été fondée par le Massachusetts Institute of Technology et par l'université Harvard en mai 2012. En 2014, environ 50 écoles, associations et organisations internationales offrent ou projettent d'offrir des cours sur EdX. En juillet 2014, elle avait plus de 2,5 millions d'utilisateurs suivant plus de 200 cours en ligne.
Les deux universités américaines qui financent la plateforme ont investi 60 millions USD dans son développement. La plateforme France Université Numérique utilise la technologie openedX, supportée par Google.