Ждем тебя в Школе Инженерии Данных — новой программе от проекта beeinterns на базе чаптера DE&DEV. За три месяца интенсивной работы ты сможешь освоить современный стек технологий, прокачать навыки, применить знания на реальных кейсах компании и открыть для себя новые возможности, став участником одной из продуктовых команд!
Даты
Старт программы — 14 февраля
Продолжительность — 3 месяца
Образовательная программа в онлайн-формате из восьми модулей с теоретической и практической частью
Формат участия
Знание SQL на базовом уровне
Выбор продукта для стажировки
Требования к участникам
ЭТАПЫ ОТБОРА
До 6 февраля включительно
Вступительные задания (тестирование по SQL и написание мини-эссе)
До 9 февраля включительно
Результаты придут на почту, которую ты укажешь при регистрации
До 6 февраля включительно
Регистрация и выбор интересующего продукта для стажировки
ПРЕИМУЩЕСТВА ШКОЛЫ
Практика на реальных кейсах
Ты погрузишься в задачи и освоишь навыки профессии Инженера Данных
Новая роль
IT-профессия
Вместе с экспертами и наставниками ты закрепишь полученные знания на практике
После успешного прохождения программы у тебя будет достаточно навыков, чтобы выполнять роль инженера данных в продуктовой команде
Работа в выбранной продуктовой команде, связанная с решением реальных задач, которые ты получишь от Product Owner.
Программа модуля SQL
Самостоятельное изучение материала: (материал собран из открытых источников)
DML-операции
Выборки
Фильтрация
Использование операторов IN, BETWEEN, LIKE, IS NULL (NOT)
Сортировка
Функции агрегирования
Соединения и их виды
Объединение таблиц
Вставка, удаление и обновление данных
DDL-операции
Создание, изменение и удаление таблиц
Ограничения в таблицах
Создание и удаление ключей
Партицирование
Модуль завершается QA-сессией и тестированием. Продолжительность модуля — 7 дней.
Программа модуля Linux/Bash
Самостоятельное изучение материала: (материал собран из открытых источников)
Организация файлов в Linux
Права доступа на файлы и директории
Поиск по файлам и директориям
Просмотр содержимого и поиск
Текстовые утилиты
Планировщик и автоматизация задач
Bash Scripts
Модуль завершается QA-сессией и тестированием. Продолжительность модуля — 7 дней.
Программа модуля CI/CD
Самостоятельное изучение материала: (материал собран из открытых источников)
Создание простых Dockerfile
Основные команды Git: init, commit, status, branch, checkout, log, pull/push/fetch, remote add, revert, reset, rebase, diff, rm, cherry-pick
Настройка .gitignore
Модуль завершается QA-сессией и тестированием. Продолжительность модуля — 7 дней.
Программа модуля IDE
Самостоятельное изучение материала: (материал собран из открытых источников)
Альтернативные IDE способы разработки
Компоненты IDEA
Поддержка Scala
Способы создания нового проекта
Навигация по проекту
Структура проекта по умолчанию
Способы написания кода, готового к исполнению в jvm
Подготовка к работе и базовые настройки
Возможности использования Scala plugin
Основные способы перехода между участками кода
Модуль завершается QA-сессией. Продолжительность модуля — 7 дней.
Программа модуля Scala
Самостоятельное изучение материала: (материал собран из открытых источников) Введение в Computer science • Вычислительная сложность • Структуры данных • Алгоритмы • Основы программирования Основы Scala • Классы и объекты • Наследование • Трейты • Case классы • Коллекции • Функции высшего порядка • Параметризованные типы
Модуль завершается QA-сессией и тестированием. Продолжительность модуля — 7 дней.
Программа модуля Hadoop
Самостоятельное изучение материала: (материал собран из открытых источников)
Основные компоненты экосистемы Hadoop
Архитектура HDFS
Архитектура Yarn
Файловые форматы: parquet, avro, orc
Модуль завершается QA-сессией и тестированием. Продолжительность модуля — 7 дней.
Программа модуля Spark
Самостоятельное изучение материала: (материал собран из открытых источников)
Spark-shell и spark-submit
Driver, executor
Spark SQL
Объект SparkSession
Structured API (виды, преимущества, недостатки, кейсы использования)
Shuffle
Форматы файлов(csv, json, avro, parquet, orc)
Трансформации и действия
Модуль завершается QA-сессией и тестированием. Продолжительность модуля — 7 дней.
Программа модуля Airflow
Самостоятельное изучение материала: (материал собран из открытых источников)
Архитектура Airflow
UI Airflow
Определение и базовые элементы DAG
Установка и настройка
Базовые операторы
Настройка расписания
Сенсоры
Кастомные операторы
Переменные
Макросы
Написание DAG из одного из базовых операторов (Bash, Spark, Python)
Просмотр логов, перезапуск задачи или оператора
Модуль завершается QA-сессией и тестированием. Продолжительность модуля — 7 дней.