Предварительная подготовка данных в Python
Здесь можно купить книгу "Предварительная подготовка данных в Python " в печатном или электронном виде. Также, Вы можете прочесть аннотацию, цитаты и содержание, ознакомиться и оставить отзывы (комментарии) об этой книге.
Том 2. План, примеры и метрики качества
Место издания: Москва
ISBN: 978-5-93700-177-1
Страниц: 815
Артикул: 108053
Возрастная маркировка: 16+
Краткая аннотация книги "Предварительная подготовка данных в Python"
В двухтомнике представлены материалы по применению классических методов машинного обучения в различных промышленных задачах. Во втором томе рассматривается сам процесс предварительной подготовки данных, а также некоторые метрики качества и ряд полезных библиотек и фреймворков (H2O, Dask, Docker, Google Colab). Издание рассчитано на специалистов по анализу данных, а также может быть полезно широкому кругу специалистов, интересующихся машинным обучением.
Содержание книги "Предварительная подготовка данных в Python "
Введение
ЧАСТЬ 4. ПЛАН ПРЕДВАРИТЕЛЬНОЙ ПОДГОТОВКИ ДАННЫХ
1. Введение
2. Формирование выборки
2.1. Генеральная и выборочная совокупности
2.2. Характеристики выборки
2.3. Детерминированные и вероятностные выборки
2.4. Виды, методы и способы вероятностного отбора
2.5. Подходы к определению необходимого объема выборки
3. Определение «окна выборки» и «окна созревания»
4. Определение зависимой переменной
5. Загрузка данных из CSV-файлов и баз данных SQL
6. Удаление бесполезных переменных, переменных «из будущего», переменных с юридическим риском
7. Преобразование типов переменных и знакомство со шкалами переменных
7.1. Количественные (непрерывные) шкалы
7.2. Качественные (дискретные) шкалы
8. Нормализация строковых значений
9. Обработка дублирующихся наблюдений
10. Обработка редких категорий
11. Появление новых категорий в новых данных
12. Импутация пропусков
12.1. Способы импутации количественных и бинарных переменных
12.2. Способы импутации категориальных переменных
12.3. Практика
13. Обработка выбросов
14. Описательные статистики
14.1. Пифагорейские средние, медиана и мода
14.2. Квантиль
14.3. Дисперсия и стандартное отклонение
14.4. Корреляция и ковариация
14.5. Получение сводки описательных статистик в библиотеке pandas
15. Нормальное распределение
15.1. Знакомство с нормальным распределением
15.2. Коэффициент островершинности, коэффициент эксцесса и коэффициент асимметрии
15.3. Гистограмма распределения и график квантиль–квантиль
15.4. Вычисление коэффициента асимметрии и коэффициента эксцесса, построение гистограммы и графика квантиль–квантиль для подбора преобразований, максимизирующих нормальность
15.5. Подбор преобразований, максимизирующих нормальность для правосторонней асимметрии
15.6. Подбор преобразований, максимизирующих нормальность для левосторонней асимметрии
15.7. Преобразование Бокса–Кокса
16. Конструирование признаков
16.1. Статическое конструирование признаков исходя из предметной области
16.2. Статическое конструирование признаков исходя из алгоритма
16.3. Динамическое конструирование признаков исходя из особенностей алгоритма
16.4. Конструирование признаков для временных рядов
17. Отбор признаков
17.1. Методы-фильтры
17.2. Применение метода-фильтра и встроенного метода для отбора признаков (на примере соревнования BNP Paribas Cardif Claims Management с Kaggle)
17.3. Комбинирование нескольких методов для отбора признаков (на примере соревнования Porto Seguro’s Safe Driver Prediction с Kaggle)
18. Стандартизация
19. Собираем все вместе
ЧАСТЬ 5. МЕТРИКИ ДЛЯ ОЦЕНКИ КАЧЕСТВА МОДЕЛИ
1. Бинарная классификация
1.1. Отрицательный и положительный классы, порог отсечения
1.2. Матрица ошибок
1.3. Доля правильных ответов, правильность (accuracy)
1.4. Чувствительность (sensitivity)
1.5. Специфичность (specificity)
1.6. 1 – специфичность (1 – specificity)
1.7. Сбалансированная правильность
1.8. Точность (Precision)
1.9. Сравнение точности и чувствительности (полноты)
1.10. F-мера (F-score, или F-measure)
1.11. Варьирование порога отсечения
1.12. Коэффициент Мэттьюса (Matthews correlation coefficient или MCC)
1.13. Каппа Коэна (Cohen's cappa)
1.14. ROC-кривая (ROC curve) и площадь под ROC-кривой (AUC-ROC)
1.15. PR-кривая (PR curve) и площадь под PR-кривой (AUC-PR)
1.16. Кривая Лоренца (Lorenz curve) и коэффициент Джини (Gini coefficient)
1.17. CAP-кривая (CAP curve)
1.18. Статистика Колмогорова–Смирнова (Kolmogorov–Smirnov statistic)
1.19. Биномиальный тест (binomial test)
1.20. Логистическая функция потерь (logistic loss)
2. Регрессия
2.1. R2, коэффициент детерминации (R-square, coefficient of determination)
2.2. Метрики качества, которые зависят от масштаба данных (RMSE, MSE, MAE, MdAE, RMSLE, MSLE)
2.3. Метрики качества на основе процентных ошибок (MAPE, MdAPE, sMAPE, sMdAPE, WAPE, WMAPE, RMSPE, RMdSPE)
2.4. Метрики качества на основе относительных ошибок (MRAE, MdRAE, GMRAE)
2.5. Относительные метрики качества (RelMAE, RelRMSE)
2.6. Масштабированные ошибки (MASE, MdASE)
2.7. Критерий Диболда–Мариано
ЧАСТЬ 6. ДРУГИЕ ПОЛЕЗНЫЕ БИБЛИОТЕКИ И ПЛАТФОРМЫ
1. Библиотеки баейсовской оптимизации hyperopt, scikit-optimize и optuna
1.1. Недостатки обычного поиска по сетке и случайного поиска по сетке
1.2. Знакомство с байесовской оптимизацией
1.3. Последовательная оптимизация по модели (Sequential model-based optimization – SMBO)
1.4. Hyperopt
1.5. Scikit-Optimize
1.6. Optuna
2. Docker
2.1. Введение
2.2. Запуск контейнера Docker
2.3. Создание контейнера Docker с помощью Dockerfile
3. Библиотека H2O
3.1. Установка пакета h2o для Python
3.2. Запуск кластера H2O
3.3. Преобразование данных во фреймы H2O
3.4. Знакомство с содержимым фрейма
3.5. Определение имени зависимой переменной и списка имен признаков
3.6. Построение модели машинного обучения
3.7. Вывод модели
3.8. Получение прогнозов
3.9. Построение ROC-кривой и вычисление AUC-ROC
3.10. Поиск оптимальных значений гиперпараметров по сетке
3.11. Извлечение наилучшей модели по итогам поиска по сетке
3.12. Класс H2OAutoML
3.13. Применение класса H2OAutoML в библиотеке scikit-learn
4. Библиотека Dask
4.1. Общее знакомство
4.2. Машинное обучение с помощью библиотеки dask-ml
4.3. Построение конвейера в Dask
5. Google Colab
5.1. Общее знакомство
5.2. Регистрация и создание папки проекта
5.3. Подготовка блокнота Colab
Все отзывы о книге Предварительная подготовка данных в Python
другие книги автора
С книгой "Предварительная подготовка данных в Python" читают
Внимание!
При обнаружении неточностей или ошибок в описании книги "Предварительная подготовка данных в Python (автор Артём Груздев)", просим Вас отправить сообщение на почту help@directmedia.ru. Благодарим!
и мы свяжемся с вами в течение 15 минут
за оставленную заявку