Обучение с подкреплением на PyTorch : сборник рецептов. Свыше 60 рецептов проектирования, разработки и развертывания самообучающихся моделей на Python
Здесь можно купить книгу "Обучение с подкреплением на PyTorch : сборник рецептов. Свыше 60 рецептов проектирования, разработки и развертывания самообучающихся моделей на Python" в печатном или электронном виде. Также, Вы можете прочесть аннотацию, цитаты и содержание, ознакомиться и оставить отзывы (комментарии) об этой книге.
Место издания: Москва
ISBN: 978-5-97060-853-1
Страниц: 283
Артикул: 95188
Возрастная маркировка: 16+
Краткая аннотация книги "Обучение с подкреплением на PyTorch"
Библиотека PyTorch выходит на передовые позиции в качестве средства обучения с подкреплением (ОП) благодаря эффективности и простоте ее использования. Эта книга организована как справочник по работе с PyTorch, охватывающий широкий круг тем – от самых азов (настройка рабочей среды) до практических задач (рассмотрение ОП на конкретных примерах). Вы научитесь использовать алгоритм «многоруких бандитов» и аппроксимацию функций; узнаете, как победить в играх Atari с помощью глубоких Q-сетей и как эффективно реализовать метод градиента стратегии; увидите, как применить метод ОП к игре в блэкджек, к окружающим средам в сеточном мире, к оптимизации рекламы в интернете и к игре Flappy Bird. Издание предназначено для специалистов по искусственному интеллекту, которым требуется помощь в решении задач ОП. Для изучения материала необходимо знакомство с концепциями машинного обучения; опыт работы с библиотекой PyTorch необязателен, но желателен.
Содержание книги "Обучение с подкреплением на PyTorch : сборник рецептов. Свыше 60 рецептов проектирования, разработки и развертывания самообучающихся моделей на Python"
Об авторе
О рецензентах
Предисловие
Глава 1. Приступаем к обучению с подкреплением и PyTorch
Подготовка среды разработки
Установка OpenAI Gym
Окружающие среды Atari
Окружающая среда CartPole
Основы PyTorch
Реализация и оценивание стратегии случайного поиска
Алгоритм восхождения на вершину
Алгоритм градиента стратегии
Глава 2. Марковские процессы принятия решений и динамическое программирование
Технические требования
Создание марковской цепи
Создание МППР
Оценивание стратегии
Имитация окружающей среды FrozenLake
Решение МППР с помощью алгоритма итерации по ценности
Решение МППР с помощью алгоритма итерации по стратегиям
Игра с подбрасыванием монеты
Глава 3. Применение методов Монте-Карло для численного оценивания
Вычисление π методом Монте-Карло
Оценивание стратегии методом Монте-Карло
Предсказание методом Монте-Карло в игре блэкджек
Управление методом Монте-Карло с единой стратегией
Разработка управления методом Монте-Карло с ε-жадной стратегией
Управление методом Монте-Карло с разделенной стратегией
Разработка управления методом Монте-Карло со взвешенной выборкой по значимости
Глава 4. TD-обучение и Q-обучение
Подготовка окружающей среды Cliff Walking
Реализация алгоритма Q-обучения
Подготовка окружающей среды Windy Gridworld
Реализация алгоритма SARSA
Решение задачи о такси методом Q-обучения
Решение задачи о такси методом SARSA
Реализация алгоритма двойного Q-обучения
Глава 5. Решение задачи о многоруком бандите
Создание окружающей среды с многоруким бандитом
Решение задачи о многоруком бандите с помощью ε-жадной стратегии
Решение задачи о многоруком бандите с помощью softmax-исследования
Решение задачи о многоруком бандите с помощью алгоритма верхней доверительной границы
Решение задачи о рекламе в интернете с помощью алгоритма многорукого бандита
Решение задачи о многоруком бандите с помощью выборки Томпсона
Решение задачи о рекламе в интернете с помощью контекстуальных бандитов
Глава 6. Масштабирование с помощью аппроксимации функций
Подготовка окружающей среды Mountain Car
Оценивание Q-функций посредством аппроксимации методом градиентного спуска
Реализация Q-обучения с линейной аппроксимацией функций
Реализация SARSA с линейной аппроксимацией функций
Пакетная обработка с применением буфера воспроизведения опыта
Реализация Q-обучения с аппроксимацией функций нейронной сетью
Решение задачи о балансировании стержня с помощью аппроксимации функций
Глава 7. Глубокие Q-сети в действии
Реализация глубоких Q-сетей
Улучшение DQN с помощью воспроизведения опыта
Реализация алгоритма Double DQN
Настройка гиперпараметров алгоритма Double DQN для среды CartPole
Реализация алгоритма Dueling DQN
Применение DQN к играм Atari
Использование сверточных нейронных сетей в играх Atari
Глава 8. Реализация методов градиента стратегии и оптимизация стратегии
Реализация алгоритма REINFORCE
Реализация алгоритма REINFORCE с базой
Реализация алгоритма исполнитель–критик
Решение задачи о блуждании на краю обрыва с помощью алгоритма исполнитель–критик
Подготовка непрерывной окружающей среды Mountain Car
Решение непрерывной задачи о блуждании на краю обрыва методом A2C
Решение задачи о балансировании стержня методом перекрестной энтропии
Глава 9. Кульминационный проект – применение DQN к игре Flappy Bird
Подготовка игровой среды
Построение глубокой Q-сети для игры Flappy Bird
Обучение и настройка сети
Развертывание модели и игра
Предметный указатель
Все отзывы о книге Обучение с подкреплением на PyTorch : сборник рецептов. Свыше 60 рецептов проектирования, разработки и развертывания самообучающихся моделей на Python
С книгой "Обучение с подкреплением на PyTorch" читают
Внимание!
При обнаружении неточностей или ошибок в описании книги "Обучение с подкреплением на PyTorch : сборник рецептов. Свыше 60 рецептов проектирования, разработки и развертывания самообучающихся моделей на Python (автор Юси (Хэйден) Лю )", просим Вас отправить сообщение на почту help@directmedia.ru. Благодарим!
и мы свяжемся с вами в течение 15 минут
за оставленную заявку