книга

Python и машинное обучение : наука и искусство построения алгоритмов, которые извлекают знания из данных

Здесь можно купить книгу "Python и машинное обучение : наука и искусство построения алгоритмов, которые извлекают знания из данных" в печатном или электронном виде. Также, Вы можете прочесть аннотацию, цитаты и содержание, ознакомиться и оставить отзывы (комментарии) об этой книге.

Автор: Себастьян Рашка

Форматы: PDF

Издательство: ДМК Пресс

Год: 2017

Место издания: Москва

ISBN: 978-5-97060-409-0

Страниц: 418

Артикул: 95437

Возрастная маркировка: 16+

Электронная книга

990 ₽

Купить и скачать

Читать фрагмент

Аннотация

Краткая аннотация книги "Python и машинное обучение"

Книга предоставит вам доступ в мир прогнозной аналитики и продемонстрирует, почему Python является одним из лидирующих языков науки о данных. Охватывая широкий круг мощных библиотек Python, в том числе scikit-learn, Theano и Keras, предлагая руководство и советы по всем вопросам, начиная с анализа мнений и заканчивая нейронными сетями, книга ответит на большинство ваших вопросов по машинному обучению.
Издание предназначено для специалистов по анализу данных, находящихся в поисках более широкого и практического понимания принципов машинного обучения.

Содержание

Содержание книги "Python и машинное обучение : наука и искусство построения алгоритмов, которые извлекают знания из данных"

Предисловие
Об авторе
О рецензентах
Введение
Глава 1. Наделение компьютеров способностью обучаться на данных
Построение интеллектуальных машин для преобразования данных в знания
Три типа машинного обучения
Выполнение прогнозов о будущем на основе обучения с учителем
Задача классификации – распознавание меток классов
Задача регрессии – предсказание значений непрерывной целевой переменной
Решение интерактивных задач на основе обучения с подкреплением
Обнаружение скрытых структур при помощи обучения без учителя
Выявление подгрупп при помощи кластеризации
Снижение размерности для сжатия данных
Введение в основополагающую терминологию и систему обозначений
Дорожная карта для построения систем машинного обучения
Предобработка – приведение данных в приемлемый вид
Тренировка и отбор прогнозной модели
Оценка моделей и прогнозирование на ранее не встречавшихся экземплярах данных
Использование Python для машинного обучения
Установка библиотек Python
Блокноты (записные книжки) Jupyter/IPython
Резюме
Глава 2. Тренировка алгоритмов машинного обучения для задачи классификации
Искусственные нейроны – краткий обзор ранней истории машинного обучения
Реализация алгоритма обучения перcептрона на Python
Тренировка перcептронной модели на наборе данных цветков ириса
Адаптивные линейные нейроны и сходимость обучения
Минимизация функций стоимости методом градиентного спуска
Реализация адаптивного линейного нейрона на Python
Крупномасштабное машинное обучение и стохастический градиентный спуск
Резюме
Глава 3. Обзор классификаторов с использованием библиотеки scikit-learn
Выбор алгоритма классификации
Первые шаги в работе с scikit-learn
Тренировка перcептрона в scikit-learn
Моделирование вероятностей классов логистической регрессией
Интуитивное понимание логистической регрессии и условные вероятности
Извлечение весов логистической функции стоимости
Тренировка логистической регрессионной модели в scikit-learn
Решение проблемы переобучения при помощи регуляризации
Классификация с максимальным зазором на основе метода опорных векторов
Интуитивное понимание максимального зазора
Обработка нелинейно разделимого случая при помощи ослабленных переменных
Альтернативные реализации в scikit-learn
Решение нелинейных задач ядерным методом SVM
Использование ядерного трюка для нахождения разделяющих гиперплоскостей в пространстве более высокой размерности
Обучение на основе деревьев решений
Максимизация прироста информации – получение наибольшей отдачи
Построение дерева решений
Объединение слабых учеников для создания сильного при помощи случайных лесов
k ближайших соседей – алгоритм ленивого обучения
Резюме
Глава 4. Создание хороших тренировочных наборов – предобработка данных
Решение проблемы пропущенных данных
Устранение образцов либо признаков с пропущенными значениями
Импутация пропущенных значений
Концепция взаимодействия с оценщиками в библиотеке scikit-learn
Обработка категориальных данных
Преобразование порядковых признаков
Кодирование меток классов
Прямое кодирование на номинальных признаках
Разбивка набора данных на тренировочное и тестовое подмножества
Приведение признаков к одинаковой шкале
Отбор содержательных признаков
Разреженные решения при помощи L1-регуляризации
Алгоритмы последовательного отбора признаков
Определение важности признаков при помощи случайных лесов
Резюме
Глава 5. Сжатие данных путем снижения размерности
Снижение размерности без учителя на основе анализа главных компонент
Общая и объясненная дисперсия
Преобразование признаков
Анализ главных компонент в scikit-learn
Сжатие данных с учителем путем линейного дискриминантного анализа
Вычисление матриц разброса
Отбор линейных дискриминантов для нового подпространства признаков
Проецирование образцов на новое пространство признаков
Метод LDA в scikit-learn
Использование ядерного метода анализа главных компонент для нелинейных отображений
Ядерные функции и ядерный трюк
Реализация ядерного метода анализа главных компонент на Python
Пример 1. Разделение фигур в форме полумесяца
Пример 2. Разделение концентрических кругов
Проецирование новых точек данных
Ядерный метод анализа главных компонент в scikit-learn
Резюме
Глава 6. Изучение наиболее успешных методов оценки моделей и тонкой настройки гиперпараметров
Оптимизация потоков операций при помощи конвейеров
Загрузка набора данных Breast Cancer Wisconsin
Совмещение преобразователей и оценщиков в конвейере
Использование k-блочной перекрестной проверки для оценки качества модели
Метод проверки с откладыванием данных
k-блочная перекрестная проверка
Отладка алгоритмов при помощи кривой обучения и проверочной кривой
Диагностирование проблем со смещением и дисперсией при помощи кривых обучения
Решение проблемы переобучения и недообучения при помощи проверочных кривых
Тонкая настройка машиннообучаемых моделей методом сеточного поиска
Настройка гиперпараметров методом поиска по сетке параметров
Отбор алгоритмов методом вложенной перекрестной проверки
Обзор других метрик оценки качества
Прочтение матрицы несоответствий
Оптимизация точности и полноты классификационной модели
Построение графика характеристической кривой
Оценочные метрики для многоклассовой классификации
Резюме
Глава 7. Объединение моделей для методов ансамблевого обучения
Обучение при помощи ансамблей
Реализация простого классификатора с мажоритарным голосованием
Объединение разных алгоритмов классификации методом мажоритарного голосования
Оценка и тонкая настройка ансамблевого классификатора
Бэггинг – сборка ансамбля классификаторов из бутстрап-выборок
Усиление слабых учеников методом адаптивного бустинга
Резюме
Глава 8. Применение алгоритмов машинного обучения в анализе мнений
Получение набора данных киноотзывов IMDb
Концепция модели мешка слов
Преобразование слов в векторы признаков
Оценка релевантности слова методом tf-idf
Очистка текстовых данных
Переработка документов в лексемы
Тренировка логистической регрессионной модели для задачи классификации документов
Работа с более крупными данными – динамические алгоритмы и обучение вне ядра
Резюме
Глава 9. Встраивание алгоритма машинного обучения в веб-приложение
Сериализация подогнанных оценщиков библиотеки scikit-learn
Настройка базы данных SQLite для хранения данных
Разработка веб-приложения в веб-платформе Flask
Наше первое веб-приложение Flask
Валидация и отображение формы
Превращение классификатора кинофильмов в веб-приложение
Развертывание веб-приложения на публичном сервере
Обновление классификатора киноотзывов
Резюме
Глава 10. Прогнозирование значений непрерывной целевой переменной на основе регрессионного. анализа
Введение в простую линейную регрессионную модель
Разведочный анализ набора данных Housing
Визуализация важных характеристик набора данных
Реализация линейной регрессионной модели обычным методом наименьших квадратов
Решение уравнения регрессии для параметров регрессии методом градиентного спуска
Оценивание коэффициента регрессионной модели в scikit-learn
Подгонка стабильной регрессионной модели алгоритмом RANSAC
Оценивание качества работы линейных регрессионных моделей
Применение регуляризованных методов для регрессии
Превращение линейной регрессионной модели в криволинейную – полиномиальная регрессия
Моделирование нелинейных связей в наборе данных Housing
Обработка нелинейных связей при помощи случайных лесов
Регрессия на основе дерева решений
Регрессия на основе случайного леса
Резюме
Глава 11. Работа с немаркированными данными – кластерный анализ
Группирование объектов по подобию методом k средних
Алгоритм k-средних++
Жесткая кластеризация в сопоставлении с мягкой
Использование метода локтя для нахождения оптимального числа кластеров
Количественная оценка качества кластеризации методом силуэтных графиков
Организация кластеров в виде иерархического дерева
Выполнение иерархической кластеризации на матрице расстояний
Прикрепление дендограмм к теплокарте
Применение агломеративной кластеризации в scikit-learn
Локализация областей высокой плотности алгоритмом DBSCAN
Резюме
Глава 12. Тренировка искусственных нейронных сетей для распознавания изображений
Моделирование сложных функций искусственными нейронными сетями
Краткое резюме однослойных нейронных сетей
Введение в многослойную нейросетевую архитектуру
Активация нейронной сети методом прямого распространения сигналов
Классификация рукописных цифр
Получение набора данных MNIST
Реализация многослойного персептрона
Тренировка искусственной нейронной сети
Вычисление логистической функции стоимости
Тренировка нейронных сетей методом обратного распространения ошибки
Развитие интуитивного понимания алгоритма обратного распространения ошибки
Отладка нейронных сетей процедурой проверки градиента
Сходимость в нейронных сетях
Другие нейросетевые архитектуры
Сверточные нейронные сети
Рекуррентные нейронные сети
Несколько последних замечаний по реализации нейронной сети
Резюме
Глава 13. Распараллеливание тренировки нейронных сетей при помощи Theano
Сборка, компиляция и выполнение выражений в Theano
Что такое Theano?
Первые шаги с библиотекой Theano
Конфигурирование библиотеки Theano
Работа с матричными структурами
Завершающий пример – линейная регрессия
Выбор функций активации для нейронных сетей с прямым распространением сигналов
Краткое резюме логистической функции
Оценивание вероятностей в многоклассовой классификации функцией softmax
Расширение выходного спектра при помощи гиперболического тангенса
Эффективная тренировка нейронных сетей при помощи библиотеки Keras
Резюме
Приложение А
Оценка моделей
Что такое переобучение?
Как оценивать модель?
Сценарий 1. Элементарно обучить простую модель
Сценарий 2. Натренировать модель и выполнить тонкую настройку (оптимизировать гиперпараметры)
Сценарий 3. Построить разные модели и сравнить разные алгоритмы (например, SVM против логистической регрессии против случайных лесов и т. д.)
Перекрестная проверка. Оценка качества оценщика
Перекрестная проверка с исключением по одному
Пример стратифицированной k-блочной перекрестной проверки
Расширенный пример вложенной перекрестной проверки
А. Вложенная кросс-валидация: быстрая версия
Б. Вложенная кросс-валидация: ручной подход с распечаткой модельных параметров
В. Регулярная k-блочная кросс-валидация для оптимизации модели на полном наборе тренировочных данных
График проверочной (валидационной) кривой
Настройка типового конвейера и сеточного поиска
Машинное обучение
В чем разница между классификатором и моделью?
В чем разница между функцией стоимости и функцией потерь?
Обеспечение персистентности моделей scikit-learn на основе JSON
Глоссарий основных терминов и сокращений
Предметный указатель

Отзывы

Все отзывы о книге Python и машинное обучение : наука и искусство построения алгоритмов, которые извлекают знания из данных

Чтобы оставить отзыв, зарегистрируйтесь или войдите

С книгой "Python и машинное обучение" читают