книга

Spark в действии : с примерами на Java, Python и Scala

Здесь можно купить книгу "Spark в действии : с примерами на Java, Python и Scala" в печатном или электронном виде. Также, Вы можете прочесть аннотацию, цитаты и содержание, ознакомиться и оставить отзывы (комментарии) об этой книге.

Автор: Жан-Жорж Перрен

Форматы: PDF

Издательство: ДМК Пресс

Год: 2021

Место издания: Москва

ISBN: 978-5-97060-879-1

Страниц: 637

Артикул: 99352

Возрастная маркировка: 16+

Электронная книга

1899 ₽

Купить и скачать

Читать фрагмент

Аннотация

Краткая аннотация книги "Spark в действии"

Обработка больших данных с каждым днем приобретает все большее значение. В этой книге подробно рассматривается организация обработки больших данных с использованием аналитической операционной системы Apache Spark. Тщательно описываются процессы потребления, преобразования и публикации результатов обработки данных; продемонстрированы возможности Apache Spark при работе с разнообразными форматами исходных данных (текст, JSON, XML, СУРБД и многими другими) и при публикации результатов в разнообразных форматах. Особое внимание уделяется обработке потоковых данных, что весьма важно в современных условиях. Подробно рассмотрены организация и архитектура кластера Spark. В приложениях представлена обширная справочная информация, необходимая каждому разработчику, использующему Spark. Книга содержит множество иллюстраций и примеров исходного кода на языке Java с подробными комментариями. Издание предназначено для разработчиков, начинающих осваивать систему Spark.

Содержание

Содержание книги "Spark в действии : с примерами на Java, Python и Scala"

Оглавление
Словарь терминов
Вступительное слово
Предисловие
Благодарности
О чем эта книга
Об авторе
Иллюстрация на обложке
Часть I Теория, разбавленная превосходными примерами
1. Так что же такое Spark?
1.1 Общая картина: что такое Spark и что он делает
1.2 Как можно использовать Spark
1.3 Что можно делать с помощью Spark
1.4 Почему вам очень понравится фрейм данных
1.5 Первый пример
Резюме
2. Архитектура и рабочий процесс
2.1 Создание собственной мысленной (когнитивной) модели
2.2 Использование кода Java для создания мысленной (когнитивной) модели
2.3 Подробный разбор приложения
Резюме
3. Важнейшая роль фрейма данных
3.1 Чрезвычайно важная роль фрейма данных в Spark
3.2 Использование фреймов данных на примерах
3.3 Фрейм данных как структура Dataset
3.4 Предшественник фрейма данных: RDD
Резюме
4. Природная лень
4.1 Пример рациональной лени из реальной жизни
4.2 Пример рациональной лени в Spark
4.3 Сравнение с СУРБД и обычными приложениями
4.4 Spark великолепно подходит для приложений, ориентированных на обработку данных
4.5 Catalyst – катализатор приложения
Резюме
5. Создание простого приложения для развертывания
5.1 Пример без операции потребления данных
5.2 Взаимодействие со Spark
Резюме
6 Развертывание простого приложения
6.1 Подготовка к изучению примера: роль компонент
6.2 Создание кластера
6.3 Создание приложения для работы в кластере
6.4 Выполнение приложения в кластере
Резюме
Часть II Потребление данных
7. Потребление данных из файлов
7.1 Общее поведение парсеров
7.2 Сложная процедура потребления данных из CSV-файла
7.3 Потребление CSV-данных с известной схемой
7.4 Потребление данных из JSON-файла
7.5 Потребление данных из многострочного JSON-файла
7.6 Потребление данных из файла XML
7.7 Потребление данных из текстового файла
7.8 Форматы файлов для больших данных
7.9 Потребление данных из файлов Avro, ORC и Parquet
Резюме
8. Потребление из баз данных
8.1 Потребление из реляционных баз данных
8.2 Роль диалекта
8.3 Расширенные запросы и процесс потребления
8.4 Потребление данных из Elasticsearch
Резюме
9. Более сложный процесс потребления: поиск источников данных и создание собственных
9.1 Что такое источник данных
9.2 Преимущества прямого соединения с источником данных
9.3 Поиск источников данных на сайте Spark Packages
9.4 Создание собственного источника данных
9.5 Что происходит внутри: создание самого источника данных
9.6 Использование файла регистрации и заявочного класса
9.7 Объяснение взаимоотношения между данными и схемой
9.8 Создание схемы из JavaBean
9.9 Создание фрейма данных – манипуляции с утилитами
9.10 Другие классы
Резюме
10 Потребление через структурированные потоки
10.1 Что такое потоковая обработка
10.2 Создание первого потока данных
10.3 Потребление данных из сетевых потоков
10.4 Работа с несколькими потоками
10.5 Различия между дискретизированными и структурированными потоками
Резюме
Часть III Преобразование данных
11. Работа с языком SQL
11.1 Работа со Spark SQL
11.2 Различия между локальными и глобальными представлениями
11.3 Совместное использование API фрейма данных и Spark SQL
11.4 Не удаляйте (DELETE) данные
11.5 Рекомендации для дальнейшего изучения SQL
Резюме
12. Преобразование данных
12.1 Что такое преобразование данных
12.2 Процесс и пример преобразования данных на уровне записи
12.3 Соединение наборов данных
12.4 Выполнение других преобразований
Резюме
13. Преобразование документов в целом
13.1 Преобразование документов в целом и их структура
13.2 Секреты статических функций
13.3 Выполнение других преобразований
Резюме
14. Расширенные преобразования с помощью функций , определенных пользователем
14.1 Расширение функциональности Apache Spark
14.2 Регистрация и вызов UDF
14.3 Использование UDF для обеспечения высокого уровня качества данных
14.4 Ограничения использования UDF
Резюме
15. Агрегирование данных
15.1 Агрегирование данных в Spark
15.2 Выполнение агрегаций с оперативными данными
15.3 Создание специализированных агрегаций с использованием UDAF
Резюме
Часть IV Продолжаем изучение Spark
16. Кеширование и копирование данных в контрольных точках : улучшение производительности Spark
16.1 Кеширование и копирование данных в контрольных точках могут повысить производительность
16.2 Кеширование на практике
16.3 Дополнительные материалы по оптимизации производительности
Резюме
17. Экспорт данных и создание полноценных конвейеров обработки данных
17.1 Экспорт данных
17.2 Delta Lake: удобная база данных прямо в системе
17.3 Доступ к сервисам облачного хранилища из Spark
Резюме
18. Описание ограничений процесса развертывания: объяснение экосистемы
18.1 Управление ресурсами с использованием YARN, Mesos и Kubernetes
18.2 Совместное использование файлов с помощью Spark
18.3 Уверенность в безопасности приложения Spark
Резюме
Приложение A. Установка Eclipse
Приложение B. Установка Maven
Приложение C. Установка Git
Приложение D. Загрузка исходного кода и начало работы в Eclipse
Приложение E. Хронология корпоративных данных
Приложение F. Справочная информация по реляционным базам данных
Приложение G. Статические функции упрощают преобразования
Приложение H. Краткий справочник по Maven
Приложение I. Справочник по преобразованиям и действиям
Приложение J. Немного Scala
Приложение К. Установка Spark в реальной эксплуатационной среде и несколько рекомендаций
Приложение L. Справочник по операциям потребления
Приложение М. Справочник по соединениям
Приложение N. Установка Elasticsearch и пример набора данных
Приложение О. Генерация потоковых данных
Приложение P. Справочник по обработке потоковых данных
Приложение Q. Справочник по экспорту данных
Приложение R. Где искать помощь при затруднениях
Предметный указатель

Отзывы

Все отзывы о книге Spark в действии : с примерами на Java, Python и Scala

Чтобы оставить отзыв, зарегистрируйтесь или войдите

С книгой "Spark в действии" читают