На первую страницу Курсы для специалистов Школа Web-мастеров ИТ сервис-менеджмент и управление проектами  
 

Авторизованные курсы корпорации Dell EMC

 

Курс: (MR-1CP-DSBDA) Data Science and Big Data Analytics
Работа с данными и аналитика больших данных

Ориентирован: руководителей подразделений по интеллектуальному анализу данных, аналитиков, специали-стов по работе с большими данными, специалистов по работе с данными и базами данных, до-бавляя к их квалификации аналитику больших данных, для молодых специалистов и аспирантов по соответствующей специализации, рассчитывающих работать в области обработки и анализа данных.
Предварительный уровень подготовки:

  • Хорошая математическая подготовка с пониманием основ статистики;
  • Опыт работы с языками сценариев, например, Java, Perl или Python (или R). Во многих лабораторных работах, выполняемых при прохождении курса, используется язык R (с GUI RStudio);
  • Опыт работы с СУБД SQL (в некоторых примерах в курсе используется PSQL).

 Считайте вышеупомянутое перечнем необходимой подготовки слушателей курса (или памяткой). Наличие необходимой подготовки обеспечит положительный результат при прохождении курса в классе и позволит слушателям, основываясь на своих знаниях и опыте, изучить инструменты и аналитические методы, рассматриваемые в курсе.
Продолжительность: 5 дней, 40 часов.
Методические материалы: учебник EMC на английском языке.
Документ об окончании курса: сертификат EMC.

Курс обеспечивает практическое обучение базового уровня, которое позволяет принять немедленное и эффективное участие в проектах по анализу больших данных и в других аналитических проектах. В процессе обучения на этом курсе вырабатывается базовая квалификация, которая может быть далее повышена на основе дополнительного обучения и практического опыта. В процессе прохождения курса рассматривается введение в процесс жизненного цикла аналитики больших данных, что позволяет решать бизнес-проблемы, в которых используются большие данные. В курсе рассматриваются базовые и усовершенствованные аналитические методы и введение в технологию и инструменты обработки и анализа больших данных, в том числе MapReduce и Hadoop. По всему курсу имеются расширенные лабораторные работы, чтобы закрепить практические навыки применения этих методов и инструментов к реальным бизнес-проблемам, в том числе имеется заключительная лабораторная работа, в рамках которой слушатели решают большую бизнес-проблему, связанную с аналитикой больших данных, применяя знания, полученные в процессе прохождения курса, в контексте жизненного цикла аналитики данных. Курс готовит слушателей к сдаче сертификационного экзамена Proven™ Professional Data Scientist Associate EMCDSA).

Цели курса

  • Немедленное участие в работе группы обработки и анализа больших данных в качестве ее члена и в других аналитических проектах путем:
    • Развертывания жизненного цикла аналитики данных для работы в проектах аналитики больших данных
    • Реструктуризации бизнес-проблемы как аналитической проблемы
    • Применения соответствующих проблеме аналитических методов и инструментов анализа больших данных, создания статистических моделей и определения аналитической картины, которая может привести к результатам, дающим основания для действий
    • Выбора подходящей визуализации данных, четко передающей аналитическую картину финансистам и аналитикам
    • Использования аналитических инструментов: R и RStudio, MapReduce/Hadoop, аналитических функций баз данных, функций Window и MADlib
  • Объяснить, как может быть эффективно использована усовершенствованная аналитика для обеспечения конкурентного преимущества компании и как роль и квалификация аналитика данных отличаются от традиционного аналитика

Программа курса

1.Введение в аналитику больших данных

  • Что такое большие данные - обзор
  • Практические методы аналитики больших данных
  • Специалист по обработке и анализу данных
  • Аналитика больших данных в отраслях промышленности

2.Жизненный цикл аналитики данных

  • Получение данных
  • Подготовка данных
  • Планирование модели
  • Построение модели
  • Передача результатов
  • Ввод в действие

3.Анализ базовых методов анализа данных с использованием R

  • Использование R для просмотра данных – введение в R
  • Анализ и исследование данных
  • Статистика для построения модели и оценки

4.Углубленная аналитика – теория и методы

  • Кластеризация методом k-средних
  • Ассоциативные правила
  • Линейная и логистическая регрессия
  • Наивный байесовский классификатор
  • Дерево принятия решений
  • Анализ временных рядов
  • Анализ текста

5. Углубленная аналитика - технологии и инструменты

  • Аналитика для неструктурированных данных - MapReduce и Hadoop
  • Экосистема Hadoop: аналитика в базе данных – основы SQL
  • Углубленный SQL и MADlib для аналитики в базе данных

6.Эндшпиль или Собирая все вместе

  • Ввод в действие аналитического проекта
  • Создание конечного результата
  • Методы визуализации данных

Выполнение заключительной лабораторной работы на основе аналитики больших данных