Hadoop в действии
книга

Hadoop в действии

Здесь можно купить книгу "Hadoop в действии " в печатном или электронном виде. Также, Вы можете прочесть аннотацию, цитаты и содержание, ознакомиться и оставить отзывы (комментарии) об этой книге.

Автор: Лэм Чак

Форматы: PDF

Издательство: ДМК Пресс

Год: 2019

Место издания: Москва

ISBN: 978-5-97060-723-7

Страниц: 424

Артикул: 94881

Возрастная маркировка: 16+

Электронная книга
519

Краткая аннотация книги "Hadoop в действии"

Обработка больших массивов данных с помощью традиционных СУБД может оказаться трудным делом. Apache Hadoop — это каркас для разработки приложений, предназначенных для выполнения в распределенном кластере, без применения SQL. Такие приложения прекрасно масштабируются и могут обрабатывать гигантские массивы данных. Если вам требуется произвести анализ данных, то Hadoop – как раз то, что надо. Прочитав эту книгу, вы познакомитесь с предметом и научитесь писать программы в стиле MapReduce. После нескольких простых примеров автор быстро переходит к вопросу об использовании Hadoop для решения более сложных задач анализа данных. Описываются рекомендованные приемы и паттерны проектирования, полезные при программировании для MapReduce. Для чтения книги требуется знание основ языка Java. Некоторое знакомство с математической статистикой поможет разобраться в более сложных примерах.

Содержание книги "Hadoop в действии "


ПРЕДИСЛОВИЕ
БЛАГОДАРНОСТИ
ОБ ЭТОЙ КНИГЕ
Структура книги
Графическое выделение и загрузка исходного кода
АВТОР В СЕТИ
ОБ АВТОРЕ
ОБ ИЛЛЮСТРАЦИИ НА ОБЛОЖКЕ
ЧАСТЬ 1. Hadoop – каркас распределенного программирования
ГЛАВА 1. Введение в Hadoop
1.1. Зачем написана книга «Hadoop в действии»?
1.2. Что такое Hadoop?
1.3. Сравнение Hadoop с другими распределенными системами
1.4. Сравнение СУБД на основе SQL с Hadoop
1.5. Знакомство с MapReduce
1.5.1. Масштабирование простой программы вручную
1.5.2. Масштабирование той же программы с помощью MapReduce
1.6. Подсчет слов с помощью Hadoop – ваша первая программа
1.7. История Hadoop
1.8. Резюме
1.9. Ресурсы
ГЛАВА 2. Запуск Hadoop
2.1. Структурные элементы Hadoop
2.1.1. NameNode
2.1.2. DataNode
2.1.3. Secondary NameNode
2.1.4. JobTracker
2.1.5. TaskTracker
2.2. Настройка SSH для кластера Hadoop
2.2.1. Определение общей учетной записи
2.2.2. Проверка правильности установки SSH
2.2.3. Генерация пары ключей
2.2.4. Распространение открытого ключа и проверка возможности входа в систему
2.3. Запуск Hadoop
2.3.1. Локальный (автономный) режим
2.3.2. Псевдораспределенный режим
2.3.3. Полностью распределенный режим
2.4. Веб-интерфейс для мониторинга кластера
2.5. Резюме
ГЛАВА 3. Компоненты Hadoop
3.1. Работа с файлами в системе HDFS
3.1.1. Основные команды для работы с файлами
3.1.2. Чтение и запись в HDFS из программы
3.2. Анатомия MapReduce-программы
3.2.1. Типы данных в Hadoop
3.2.2. Распределитель
3.2.3. Редуктор
3.2.4. Разбивка — направление выхода распределителя
3.2.5. Комбинатор — локальная редукция
3.2.6. Подсчет слов с помощью готовых классов распределителя и редуктора
3.3. Чтение и запись
3.3.1. Интерфейс InputFormat
3.3.2. Интерфейс OutputFormat
3.4. Резюме
ЧАСТЬ 2. Hadoop в действии
Глава 4. Создание простых MapReduce-программ
4.1. Получение набора данных о патентах
4.1.1. Данные о цитировании патентов
4.1.2. Данные об описаниях патентов
4.2. Определение шаблона MapReduce-программы
4.3. Подсчет всякой всячины
4.4. Адаптация к изменениям в API Hadoop
4.5. Интерфейс Hadoop Streaming
4.5.1. Интерфейс Streaming и команды Unix
4.5.2. Streaming и скрипты
4.5.3. Интерфейс Streaming и пары ключ/значение
4.5.4. Интерфейс Streaming и пакет Aggregate
4.6. Повышение производительности с помощью комбинаторов
4.7. Упражнения
4.8. Резюме
4.9. Дополнительные ресурсы
ГЛАВА 5. Углубленное изучение MapReduce
5.1. Сцепление задач MapReduce
5.1.1. Последовательное сцепление задач MapReduce
5.1.2. Сцепление задач MapReduce со сложными зависимостями
5.1.3. Включение в цепочку шагов пред- и постобработки
5.2. Соединение данных из разных источников
5.2.1. Соединение на стороне редуктора
5.2.2. Построение реплицированных соединений с помощью класса DistributedCache
5.2.3. Полусоединение: соединение на стороне редуктора с фильтрацией на стороне распределителя
5.3. Создание фильтра Блума
5.3.1. Что делает фильтр Блума?
5.3.2. Реализация фильтра Блума
5.3.3. Фильтр Блума в Hadoop версии 0.20+
5.4. Упражнения
5.5. Резюме
5.6. Дополнительные ресурсы
ГЛАВА 6. Практическое программирование
6.1. Разработка MapReduce-программ
6.1.1. Локальный режим
6.1.2. Псевдораспределенный режим
6.2. Мониторинг и отладка в производственном кластере
6.2.1. Счетчики
6.2.2. Пропуск плохих записей
6.2.3. Перезапуск сбойных заданий с помощью IsolationRunner
6.3. Оптимизация производительности
6.3.1. Уменьшение сетевого трафика с помощью комбинатора
6.3.2. Уменьшение объема выходных данных
6.3.3. Использование сжатия
6.3.4. Повторное использование JVM
6.3.5. Наблюдаемое исполнение
6.3.6. Переработка кода и модификация алгоритмов
6.4. Резюме
ГЛАВА 7. Сборник рецептов
7.1. Передача нестандартных параметров задаче
7.2. Получение информации о конкретном задании
7.3. Разбиение на несколько выходных файлов
7.4. Ввод и вывод в базу данных
7.5. Сортировка выходных данных
7.6. Резюме
ГЛАВА 8. Администрирование Hadoop
8.1. Практическая настройка параметров
8.2. Проверка состояния системы
8.3. Установка прав доступа
8.4. Управление квотами
8.5. Включение корзины
8.6. Удаление узлов DataNode
8.7. Добавление узлов DataNode
8.8. Управление узлами NameNode и Secondary NameNode
8.9. Восстановление после сбоя узла NameNode
8.10. Проектирование топологии сети и осведомленность о стойках
8.11. Планирование задач, поступающих от нескольких пользователей
8.11.1. Организация нескольких узлов JobTracker
8.11.2. Справедливый планировщик
8.12. Резюме
ЧАСТЬ 3. Hadoop в реальной жизни
ГЛАВА 9. Эксплуатация Hadoop в облаке
9.1. Введение в Amazon Web Services
9.2. Настройка AWS
9.2.1. Получение учетных данных для аутентификации в AWS
9.2.2. Получение командных утилит
9.2.3. Подготовка пары ключей для работы с SSH
9.3. Настройка Hadoop в EC2
9.3.1. Задание параметров защиты
9.3.2. Конфигурирование типа кластера
9.4. Запуск MapReduce-программ в среде EC2
9.4.1. Перенос своего кода в кластер Hadoop
9.4.2. Доступ к данным из кластера Hadoop
9.5. Очистка и останов экземпляров EC2
9.6. Amazon Elastic MapReduce и другие службы AWS
9.6.1. Amazon Elastic MapReduce
9.6.2. AWS Import/Export
9.7. Резюме
ГЛАВА 10. Программирование с помощью Pig
10.1. Научитесь думать по-свински
10.1.1. Язык описания потоков данных
10.1.2. Типы данных
10.1.3. Определенные пользователем функции
10.2. Установка Pig
10.3. Запуск Pig
10.3.1. Управление оболочкой Grunt
10.4. Изучение языка Pig Latin с помощью Grunt
10.5. Учимся говорить на Pig Latin
10.5.1. Типы данных и схемы
10.5.2. Выражения и функции
10.5.3. Реляционные операторы
10.5.4. Оптимизация исполнения
10.6. Определяемые пользователем функции
10.6.1. Использование UDF
10.6.2. Создание UDF
10.7. Работа со скриптами
10.7.1. Комментарии
10.7.2. Подстановка параметров
10.7.3. Режим многозапросного исполнения
10.8. Pig в действии: отыскание похожих патентов
10.9. Резюме
ГЛАВА 11. Hive и другие
11.1. Hive
11.1.1. Установка и настройка Hive
11.1.2. Примеры запросов
11.1.3. Детали языка HiveQL
11.1.4. Hive: подводя итоги
11.2. Другие проекты, связанные с Hadoop
11.2.1. HBase
11.2.2. ZooKeeper
11.2.3. Cascading
11.2.4. Cloudera
11.2.5. Katta
11.2.6. CloudBase
11.2.7. Aster Data и Greenplum
11.2.8. Hama и Mahout
11.2.9. search-hadoop.com
11.3. Резюме
ГЛАВА 12. Примеры применения
12.1. Преобразование 11 миллионов изображений из архива газеты New York Times
12.2. Добыча данных в компании China Mobile
12.3. Рекомендование лучших веб-сайтов на StumbleUpon
12.3.1. Как мы пришли к распределенной обработке в StumbleUpon
12.3.2. HBase и StumbleUpon
12.3.3. Другие применения Hadoop на сайте StumbleUpon
12.4. Построение аналитической системы для внутрикорпоративного поиска – проект IBM ES2
12.4.1. Архитектура ES2
12.4.2. Робот ES2
12.4.3. Аналитические средства в ES2
12.4.4. Выводы
12.4.5. Библиография
ПРИЛОЖЕНИЕ. Команды HDFS
ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ

Все отзывы о книге Hadoop в действии

Чтобы оставить отзыв, зарегистрируйтесь или войдите

Внимание!
При обнаружении неточностей или ошибок в описании книги "Hadoop в действии (автор Лэм Чак )", просим Вас отправить сообщение на почту help@directmedia.ru. Благодарим!