Сбор данных в Интернете на языке R
книга

Сбор данных в Интернете на языке R

Здесь можно купить книгу "Сбор данных в Интернете на языке R " в печатном или электронном виде. Также, Вы можете прочесть аннотацию, цитаты и содержание, ознакомиться и оставить отзывы (комментарии) об этой книге.

Автор: Дмитрий Храмов

Форматы: PDF

Издательство: ДМК Пресс

Год: 2017

Место издания: Москва

ISBN: 978-5-97060-459-5

Страниц: 282

Артикул: 95089

Возрастная маркировка: 16+

Электронная книга
519

Краткая аннотация книги "Сбор данных в Интернете на языке R"

Всё, что регистрирует человек и созданные им машины, может считаться данными. Фиксируя новое и переводя архивы в цифровую форму, мы с каждым днём производим всё больше данных. Но гораздо чаще случается так, что данные разбросаны по всемирной сети на многочисленных страницах онлайновых магазинов, заметках в социальных сетях, логах серверов и т. п. Прежде чем начать работать с такими данными, их необходимо собрать и сохранить в пригодном для анализа виде. Решению этих вопросов и посвящена данная книга.
Основной материал книги разделён на две части. В первой части дано краткое введение в R – описание среды разработки, языка и основных пакетов-расширений. Вторая часть посвящена непосредственно сбору данных: работе с открытыми данными, извлечению данных из веб-страниц и из социальных сетей. Также рассмотрены необходимые технические вопросы: протокол HTTP, функции импорта данных различных форматов и регулярные выражения. Завершается рассказ созданием карт на основе собранных данных.
Издание предназначено специалистам по анализу данных, а также программистам, интересующихся сбором данных в Интернете.

Содержание книги "Сбор данных в Интернете на языке R "


Введение
Кто и зачем собирает данные
Почему R?
Как устроена эта книга
Обратная связь
ЧАСТЬ I. ПРОГРАММИРОВАНИЕ НА R
Глава 1. Знакомство с R
Установка
Работа в среде RGui
Справка
Глава 2. Скаляры, векторы и матрицы
Арифметические операции и присваивание
Имена
Простые типы данных
Числа
Символьный тип
Логический тип
Векторы
Векторизация и логическая индексация
Матрицы и массивы
Резюме
Глава 3. Списки и таблицы
Списки
Таблицы
Функции, применяемые к составным данным
apply
lapply
sapply
do.call
Резюме
Глава 4. Управление процессом вычислений
Циклы
Цикл со счётчиком
Цикл с предусловием
Условные операторы
Резюме
Глава 5. Базовая графика
Функции низкого и высокого уровней
Глобальные и локальные параметры графиков
Легенда
Комбинации графиков
Графики функций
Экспорт в файлы
Резюме и ссылки
Глава 6. Функции
Создание функций
Локальные и глобальные переменные. Области видимости
Диагностические сообщения
Функции в качестве аргументов
Функциональное программирование
Резюме
Глава 7. Факторы и даты
Категориальные данные
Дата и время
Резюме
Глава 8. Пакеты
Установка и загрузка
Выбор пакета
Справка и её разновидности
Как самому создать пакет R?
Пакет magrittr: конвейер операций
Глава 9. Ввод и вывод данных. Работа с файлами
Рабочий каталог пользователя
Запись данных в стандартное устройство вывода
Запись в текстовые файлы
Таблицы
Строки
Матрицы
Чтение из текстовых файлов
Элементы данных: scan
Строки: readLines
Таблицы
Работа с данными в бинарном формате
Управление файлами и каталогами
Взаимодействие с базами данных
DBI + RSQLite
sqldf
Резюме
Ссылки к части I
ЧАСТЬ II. СБОР ДАННЫХ
Глава 10. Открытые данные
Что это такое?
Данные Всемирного банка
Где взять данные?
Резюме
Глава 11. Протокол HTTP
Основные понятия
Запрос
Ответ
Коды состояния
Передача параметров
HTTP в R
Пакет httr
Пакет RCurl
Кириллица и кодирование URL
Пример: геокодирование с помощью Google Maps Geocoding
Пример: доступ к API портала открытых данных РФ
Ссылки
Глава 12. Импорт данных
Чтение файлов
Скачивание
Excel
JSON
Пример: какой из JSON-пакетов самый популярный?
Google Spreadsheets
Архивы
Завершающий штрих: проверка типа данных
Ссылки
Глава 13. Веб-скрапинг
Используйте структуру данных
Элементы HTML и CSS
div и span
Классы и идентификаторы
Путь к элементу
XPath
CSS
Как найти путь к элементу при помощи браузера
Проверка и упрощение пути. Консоль разработчика
Резюме
Лирическое отступление: построение графов
Ссылки
Поиск в Интернете
HTML и CSS:
XPath
Глава 14. Пакет rvest
Пакеты для веб-скрапинга
Получение и обработка HTML-документа
Поиск элемента
Разбор элемента
Пример: получаем ссылку и скачиваем файл
Таблицы
Пример: извлечение таблицы из Википедии
Пример: разбор страницы сериала «Светлячок»
Пример: извлечение данных об инвестиционных фондах
Работа с формами. Сессии
Пример: аутентификация на форуме
Функции навигации
Работа с кодировками
Заключительные замечания и ссылки
Глава 15. RSelenium: управляем браузером
Пример: перевод с помощью Yandex.Translate
Пример: динамически генерируемая ссылка на файл
Selenium и браузеры
Резюме и ссылки
Глава 16. PhantomJS и обработка динамических веб-страниц
Динамические страницы: описание проблемы
Установка
Запуск
Пример: рендеринг веб-страницы
Сохранение веб-страницы в файл
Резюме и ссылки
Глава 17. Facebook
Протокол авторизации OAuth 2.0
Получение маркера доступа пользователя API Graph
Доступ к данным с помощью rvest и jsonlite
Пакет Rfacebook и создание приложения
Глава 18. Сбор информации с помощью API ВКонтакте
Создание приложения
Регистрация приложения
Получение кода доступа
Получение данных
Реализация в R
Построение графа связей
Получение другой информации из сети
Поиск пользователя
Ограничения
Глава 19. Использование Twitter API
Получение доступа к Twitter API
Подключение к Twitter из R
Поиск и сохранение его результатов в базе данных
Фильтрация результатов поиска
Построение облака слов
Данные для анализа
Лексический корпус и терм-документная матрица
Ключевые слова и их частоты
Облако слов
Ограничения Search API
Streaming API
Ссылки
Глава 20. Регулярные выражения
Символы и метасимволы
Квантификаторы
Положение образца внутри строки
Операторы
«Жадность» и «лень» квантификаторов
Классы символов
Заключительные замечания
Ссылки
Глава 21. Создание карт на основе собранных данных
Интерактивные карты в leaflet
Переходим к созданию карты
Извлечение адресов и названий магазинов
Геокодирование
Отображение на карте
Работа с шейп-файлами
Ссылки
Ссылки к части II
Приложение А. Среда разработки RStudio
Создание скрипта
Автодополнение имён объектов
Выполнение
Рабочее пространство
История команд
Сохранение файлов
Кодировки файлов
Управление файлами в рабочем каталоге
Управление пакетами
Поиск и замена
Автоматическое создание функций
Комментирование
Переход к определению функции
Ссылки
Приложение Б. Языки поисковых запросов Google и Яндекс
Почему важно уметь пользоваться ЯПЗ
Предотвращение перегрузок сервиса
Приложение В. Введение в HTML и CSS
Веб-страница
Гиперссылки
Шрифт
Цвет
Стиль
Выравнивание
Рисунки
Списки
Маркированные
Нумерованные
Вложенные
Таблицы
Ссылки
Приложение Г. Регулярные выражения
Предметный указатель

Все отзывы о книге Сбор данных в Интернете на языке R

Чтобы оставить отзыв, зарегистрируйтесь или войдите

Внимание!
При обнаружении неточностей или ошибок в описании книги "Сбор данных в Интернете на языке R (автор Дмитрий Храмов)", просим Вас отправить сообщение на почту help@directmedia.ru. Благодарим!