книга

Обучение с подкреплением на PyTorch : сборник рецептов. Свыше 60 рецептов проектирования, разработки и развертывания самообучающихся моделей на Python

Здесь можно купить книгу "Обучение с подкреплением на PyTorch : сборник рецептов. Свыше 60 рецептов проектирования, разработки и развертывания самообучающихся моделей на Python" в печатном или электронном виде. Также, Вы можете прочесть аннотацию, цитаты и содержание, ознакомиться и оставить отзывы (комментарии) об этой книге.

Автор: Юси (Хэйден) Лю

Форматы: PDF

Издательство: ДМК Пресс

Год: 2020

Место издания: Москва

ISBN: 978-5-97060-853-1

Страниц: 283

Артикул: 95188

Возрастная маркировка: 16+

Электронная книга

998 ₽

Купить и скачать

Читать фрагмент

Аннотация

Краткая аннотация книги "Обучение с подкреплением на PyTorch"

Библиотека PyTorch выходит на передовые позиции в качестве средства обучения с подкреплением (ОП) благодаря эффективности и простоте ее использования. Эта книга организована как справочник по работе с PyTorch, охватывающий широкий круг тем – от самых азов (настройка рабочей среды) до практических задач (рассмотрение ОП на конкретных примерах). Вы научитесь использовать алгоритм «многоруких бандитов» и аппроксимацию функций; узнаете, как победить в играх Atari с помощью глубоких Q-сетей и как эффективно реализовать метод градиента стратегии; увидите, как применить метод ОП к игре в блэкджек, к окружающим средам в сеточном мире, к оптимизации рекламы в интернете и к игре Flappy Bird. Издание предназначено для специалистов по искусственному интеллекту, которым требуется помощь в решении задач ОП. Для изучения материала необходимо знакомство с концепциями машинного обучения; опыт работы с библиотекой PyTorch необязателен, но желателен.

Содержание

Содержание книги "Обучение с подкреплением на PyTorch : сборник рецептов. Свыше 60 рецептов проектирования, разработки и развертывания самообучающихся моделей на Python"

Об авторе
О рецензентах
Предисловие
Глава 1. Приступаем к обучению с подкреплением и PyTorch
Подготовка среды разработки
Установка OpenAI Gym
Окружающие среды Atari
Окружающая среда CartPole
Основы PyTorch
Реализация и оценивание стратегии случайного поиска
Алгоритм восхождения на вершину
Алгоритм градиента стратегии
Глава 2. Марковские процессы принятия решений и динамическое программирование
Технические требования
Создание марковской цепи
Создание МППР
Оценивание стратегии
Имитация окружающей среды FrozenLake
Решение МППР с помощью алгоритма итерации по ценности
Решение МППР с помощью алгоритма итерации по стратегиям
Игра с подбрасыванием монеты
Глава 3. Применение методов Монте-Карло для численного оценивания
Вычисление π методом Монте-Карло
Оценивание стратегии методом Монте-Карло
Предсказание методом Монте-Карло в игре блэкджек
Управление методом Монте-Карло с единой стратегией
Разработка управления методом Монте-Карло с ε-жадной стратегией
Управление методом Монте-Карло с разделенной стратегией
Разработка управления методом Монте-Карло со взвешенной выборкой по значимости
Глава 4. TD-обучение и Q-обучение
Подготовка окружающей среды Cliff Walking
Реализация алгоритма Q-обучения
Подготовка окружающей среды Windy Gridworld
Реализация алгоритма SARSA
Решение задачи о такси методом Q-обучения
Решение задачи о такси методом SARSA
Реализация алгоритма двойного Q-обучения
Глава 5. Решение задачи о многоруком бандите
Создание окружающей среды с многоруким бандитом
Решение задачи о многоруком бандите с помощью ε-жадной стратегии
Решение задачи о многоруком бандите с помощью softmax-исследования
Решение задачи о многоруком бандите с помощью алгоритма верхней доверительной границы
Решение задачи о рекламе в интернете с помощью алгоритма многорукого бандита
Решение задачи о многоруком бандите с помощью выборки Томпсона
Решение задачи о рекламе в интернете с помощью контекстуальных бандитов
Глава 6. Масштабирование с помощью аппроксимации функций
Подготовка окружающей среды Mountain Car
Оценивание Q-функций посредством аппроксимации методом градиентного спуска
Реализация Q-обучения с линейной аппроксимацией функций
Реализация SARSA с линейной аппроксимацией функций
Пакетная обработка с применением буфера воспроизведения опыта
Реализация Q-обучения с аппроксимацией функций нейронной сетью
Решение задачи о балансировании стержня с помощью аппроксимации функций
Глава 7. Глубокие Q-сети в действии
Реализация глубоких Q-сетей
Улучшение DQN с помощью воспроизведения опыта
Реализация алгоритма Double DQN
Настройка гиперпараметров алгоритма Double DQN для среды CartPole
Реализация алгоритма Dueling DQN
Применение DQN к играм Atari
Использование сверточных нейронных сетей в играх Atari
Глава 8. Реализация методов градиента стратегии и оптимизация стратегии
Реализация алгоритма REINFORCE
Реализация алгоритма REINFORCE с базой
Реализация алгоритма исполнитель–критик
Решение задачи о блуждании на краю обрыва с помощью алгоритма исполнитель–критик
Подготовка непрерывной окружающей среды Mountain Car
Решение непрерывной задачи о блуждании на краю обрыва методом A2C
Решение задачи о балансировании стержня методом перекрестной энтропии
Глава 9. Кульминационный проект – применение DQN к игре Flappy Bird
Подготовка игровой среды
Построение глубокой Q-сети для игры Flappy Bird
Обучение и настройка сети
Развертывание модели и игра
Предметный указатель

Отзывы

Все отзывы о книге Обучение с подкреплением на PyTorch : сборник рецептов. Свыше 60 рецептов проектирования, разработки и развертывания самообучающихся моделей на Python

Чтобы оставить отзыв, зарегистрируйтесь или войдите

С книгой "Обучение с подкреплением на PyTorch" читают