Apache Airflow и конвейеры обработки данных
Здесь можно купить книгу "Apache Airflow и конвейеры обработки данных " в печатном или электронном виде. Также, Вы можете прочесть аннотацию, цитаты и содержание, ознакомиться и оставить отзывы (комментарии) об этой книге.
Место издания: Москва
ISBN: 978-5-97060-970-5
Страниц: 503
Артикул: 99391
Возрастная маркировка: 16+
Краткая аннотация книги "Apache Airflow и конвейеры обработки данных"
Конвейеры обработки данных управляют потоком данных с момента их первоначального сбора до консолидации, очистки, анализа, визуализации и многого другого. Эта книга научит вас создавать и сопровождать эффективные конвейеры обработки данных с использованием платформы Apache Airflow. Те, кто мало знаком с Airflow, получат базовое представление о принципах работы этой платформы в I части книги. Далее обсуждаются такие темы, как создание собственных компонентов, тестирование, передовые практики и развертывание, – эти главы можно читать в произвольном порядке в зависимости от конкретных потребностей читателя. Издание предназначено для специалистов по DevOps, обработке и хранению данных, машинному обучению, а также системных администраторов с навыками программирования на Python.
Содержание книги "Apache Airflow и конвейеры обработки данных "
Предисловие
Благодарности
О книге
Об авторах
Об иллюстрации на обложке
Часть I. ПРИСТУПАЕМ К РАБОТЕ
1. Знакомство с Apache Airflow
1.1 Знакомство с конвейерами обработки данных
1.2 Представляем Airflow
1.3 Когда использовать Airflow
1.4 Остальная часть книги
Резюме
2. Анатомия ОАГ
2.1 Сбор данных из множества источников
2.2 Пишем наш первый ОАГ
2.3 Запуск ОАГ в Airflow
2.4 Запуск через равные промежутки времени
2.5 Обработка неудачных задач
Резюме
3. Планирование в Airflow
3.1 Пример: обработка пользовательских событий
3.2 Запуск через равные промежутки времени
3.3 Инкрементная обработка данных
3.4 Даты выполнения
3.5 Использование обратного заполнения
3.6 Лучшие практики для проектирования задач
Резюме
4. Создание шаблонов задач с использованием контекста Airflow
4.1 Проверка данных для обработки с помощью Airflow
4.2 Контекст задачи и шаблонизатор Jinja
4.3 Подключение других систем
Резюме
5. Определение зависимостей между задачами
5.1 Базовые зависимости
5.2 Ветвление
5.3 Условные задачи
5.4 Подробнее о правилах триггеров
5.5 Обмен данными между задачами
5.6 Связывание задач Python с помощью Taskflow API
Резюме
Часть II. ЗА ПРЕДЕЛАМИ ОСНОВ
6. Запуск рабочих процессов
6.1 Опрос условий с использованием сенсоров
6.2 Запуск других ОАГ
6.3 Запуск рабочих процессов с помощью REST API и интерфейса командной строки
Резюме
7. Обмен данными с внешними системами
7.1 Подключение к облачным сервисам
7.2 Перенос данных из одной системы в другую
Резюме
8. Создание пользовательских компонентов
8.1 Начнем с PythonOperator
8.2 Создание собственного хука
8.3 Создание собственного оператора
8.4 Создание нестандартных сенсоров
8.5 Упаковка компонентов
Резюме
9. Тестирование
9.1 Приступаем к тестированию
9.2 Работа с ОАГ и контекстом задачи в тестах
9.3 Использование тестов для разработки
9.4 Эмулируйте промышленное окружение с помощью Whirl
9.5 Создание окружений
Резюме
10. Запуск задач в контейнерах
10.1 Проблемы, вызываемые множеством разных операторов
10.2 Представляем контейнеры
10.3 Контейнеры и Airflow
10.4 Запуск задач в Docker
10.5 Запуск задач в Kubernetes
Резюме
Часть III. AIRFLOW НА ПРАКТИКЕ
11. Лучшие практики
11.1 Написание чистых ОАГ
11.2 Проектирование воспроизводимых задач
11.3 Эффективная обработка данных
11.4 Управление ресурсами
Резюме
12. Эксплуатация Airflow в промышленном окружении
12.1 Архитектура Airflow
12.2 Установка исполнителей
12.3 Работа с журналами всех процессов Airflow
12.4 Визуализация и мониторинг метрик Airflow
12.5 Как получить уведомление о невыполненной задаче
12.6 Масштабируемость и производительность
Резюме
13. Безопасность в Airflow
13.1 Обеспечение безопасности веб-интерфейса Airflow
13.2 Шифрование хранимых данных
13.3 Подключение к службе LDAP
13.4 Шифрование трафика на веб-сервер
13.5 Извлечение учетных данных из систем управления секретами
Резюме
14. Проект: поиск самого быстрого способа передвижения по Нью-Йорку
14.1 Разбираемся с данными
14.2 Извлечение данных
14.3 Применение аналогичных преобразований к данным
14.4 Структурирование конвейера обработки данных
14.5 Разработка идемпотентных конвейеров обработки данных
Резюме
Часть IV. ОБЛАКО
15. Airflow и облако
15.1 Проектирование стратегий (облачного) развертывания
15.2 Операторы и хуки, предназначенные для облака
15.3 Управляемые сервисы
15.4 Выбор стратегии развертывания
Резюме
16. Airflow и AWS
16.1 Развертывание Airflow в AWS
16.2 Хуки и операторы, предназначенные для AWS
16.3 Пример использования: бессерверное ранжирование фильмов с AWS Athena
Резюме
17. Airflow и Azure
17.1 Развертывание Airflow в Azure
17.2 Хуки и операторы, предназначенные для Azure
17.3 Пример: бессерверное ранжирование фильмов с Azure Synapse
Резюме
18. Airflow в GCP
18.1 Развертывание Airflow в GCP
18.2 Хуки и операторы, предназначенные для GCP
18.3 Пример использования: бессерверный рейтинг фильмов в GCP
Резюме
Приложение A. Запуск примеров кода
Приложение В. Структуры пакетов Airflow 1 и 2
Приложение С. Сопоставление метрик в Prometheus
Предметный указатель
Все отзывы о книге Apache Airflow и конвейеры обработки данных
С книгой "Apache Airflow и конвейеры обработки данных" читают
Внимание!
При обнаружении неточностей или ошибок в описании книги "Apache Airflow и конвейеры обработки данных (автор Бас Харенслак, Джулиан Руйтер)", просим Вас отправить сообщение на почту help@directmedia.ru. Благодарим!
и мы свяжемся с вами в течение 15 минут
за оставленную заявку