книга

Скрапинг веб-сайтов с помощью Python : сбор данных из современного интернета

Здесь можно купить книгу "Скрапинг веб-сайтов с помощью Python : сбор данных из современного интернета" в печатном или электронном виде. Также, Вы можете прочесть аннотацию, цитаты и содержание, ознакомиться и оставить отзывы (комментарии) об этой книге.

Автор: Райан Митчелл

Форматы: PDF

Издательство: ДМК Пресс

Год: 2023

Место издания: Москва

ISBN: 978-5-89818-305-9

Страниц: 281

Артикул: 103240

Возрастная маркировка: 16+

Электронная книга

519 ₽

Купить и скачать

Читать фрагмент

Аннотация

Краткая аннотация книги "Скрапинг веб-сайтов с помощью Python"

Изучите методы скрапинга и краулинга веб-сайтов, чтобы получить доступ к неограниченному объему данных в любом уголке Интернета в любом формате. С помощью этого практического руководства вы узнаете, как использовать скрипты Python и веб-API, чтобы одновременно собрать и обработать данные с тысяч или даже миллионов веб-страниц. Идеально подходящая для программистов, специалистов по безопасности и веб-администраторов, знакомых с языком Python, эта книга знакомит не только с основными принципами работы веб-скраперов, но и углубляется в более сложные темы, такие как анализ сырых данных или использование скраперов для тестирования интерфейса веб-сайта. Примеры программного кода, приведенные в книге, помогут разобраться в этих принципах на практике.

Содержание

Содержание книги "Скрапинг веб-сайтов с помощью Python : сбор данных из современного интернета"

Предисловие
Вступление
ЧАСТЬ I. ПОСТРОЕНИЕ СКРАПЕРОВ
Глава 1. Ваш первый скрапер
Соединение с Интернетом
Введение в BeautifulSoup
Установка BeautifulSoup
Запуск BeautifulSoup
Как обеспечить надежный скрапинг
Глава 2. Продвинутый парсинг HTML
Вам не всегда нужен молоток
Еще одно применение BeautifulSoup
find() и findAll()
Другие объекты BeautifulSoup
Навигация по дереву синтаксического разбора
Работа с дочерними элементами и элементами-потомками
Работа с одноуровневыми элементами
Работа с родительскими элементами
Регулярные выражения
Регулярные выражения и BeautifulSoup
Работа с атрибутами
Лямбда-выражения
За рамками BeautifulSoup
Глава 3. Запуск краулера
Обход отдельного домена
Краулинг всего сайта
Сбор данных по всему сайту
Краулинг Интернета
Краулинг с помощью Scrapy
Глава 4. Использование API
Как работают API
Общепринятые соглашения
Методы
Аутентификация
Ответы
Вызовы API
Echo Nest
Несколько примеров
Twitter
Приступаем к работе
Несколько примеров
Google API
Приступаем к работе
Несколько примеров
Парсинг JSON-данных
Возвращаем все это домой
Подробнее о применении API
Глава 5. Хранение данных
Медиафайлы
Сохранение данных в формате CSV
MySQL
Установка MySQL
Некоторые основные команды
Интеграция с Python
Методы работы с базами данных и эффективная практика
«Шесть шагов» в MySQL
Электронная почта
Глава 6. Чтение документов
Кодировка документа
Текст
Кодировка текста и глобальный Интернет
CSV
Чтение CSV-файлов
PDF
Microsoft Word и .docx
ЧАСТЬ II. ПРОДВИНУТЫЙ СКРАПИНГ
Глава 7. Очистка данных
Очистка данных на этапе создания кода
Нормализация данных
Очистка данных постфактум
OpenRefine
Глава 8. Чтение и запись естественных языков
Аннотирование данных
Марковские модели
Шесть шагов Википедии: заключительная часть
Natural Language Toolkit
Установка и настройка
Статистический анализ с помощью NLTK
Лексикографический анализ с помощью NLTK
Дополнительные ресурсы
Глава 9. Краулинг сайтов, использующих веб-формы
Библиотека requests
Отправка простой формы
Радиокнопки, флажки и другие элементы ввода данных
Отправка файлов и изображений
Работа с логинами и cookies
Базовая HTTP-аутентификация
Другие проблемы при работе с формами
Глава 10. Скрапинг JavaScript-кода
Краткое введение в JavaScript
Распространенные библиотеки JavaScript
Ajax и динамический HTML
Выполнение JavaScript в Python с помощью библиотеки Selenium
Обработка редиректов
Глава 11. Обработка изображений и распознавание текста
Обзор библиотек
Pillow
Tesseract
NumPy
Обработка хорошо отформатированного текста
Скрапинг текста с изображений, размещенных на веб-сайтах
Чтение CAPTCHA и обучение Tesseract
Обучение Теsseract
Извлечение CAPTCHA и отправка результатов. распознавания
Глава 12. Обход ловушек в ходе скрапинга
Обратите внимание на этический аспект
Учимся выглядеть как человек
Настройте заголовки
Обработка cookies
Время решает все
Общие функции безопасности, используемые веб-формами
Значения полей скрытого ввода
Обходим «горшочки с медом»
Проверяем скрапер на «человечность»
Глава 13. Тестирование вашего сайта с помощью скраперов
Введение в тестирование
Что такое модульные тесты?
Питоновский модуль unittest
Тестирование Википедии
Тестирование с помощью Selenium
Взаимодействие с сайтом
Unittest или Selenium?
Глава 14. Скрапинг с помощью удаленных серверов
Зачем использовать удаленные серверы?
Как избежать блокировки IP-адреса
Переносимость и расширяемость
Tor
PySocks
Удаленный хостинг
Запуск с аккаунта веб-хостинга
Запуск из облака
Дополнительные ресурсы
Заглянем в будущее
Приложение А. Кратко о том, как работает Python
Установка и «Hello, World!»
Приложение В. Кратко о том, как работает Интернет
Приложение С. Правовые и этические аспекты веб-скрапинга
Товарные знаки, авторские права, патенты, о боже!
Авторское право
Посягательство на движимое имущество
Закон о компьютерном мошенничестве и злоупотреблении
robots.txt и Пользовательское соглашение
Три нашумевших случая в практике веб-скрапинга
eBay против Bidder’s Edge и посягательство на движимое имущество
США против Орнхаймера и Закон о компьютерном мошенничестве и злоупотреблении
Филд против Google: авторское право и robots.txt
Об авторе
Колофон
Предметный указатель

Отзывы

Все отзывы о книге Скрапинг веб-сайтов с помощью Python : сбор данных из современного интернета

Чтобы оставить отзыв, зарегистрируйтесь или войдите

С книгой "Скрапинг веб-сайтов с помощью Python" читают