Перевод с английского. — СПб: БХВ-Петербург, 2017. — 336 с.
Книга позволяет изучить науку о данных (Data Science) и применить полученные знания на практике. Она написана так, что способствует погружению в Data Science аналитика, фактически не обладающего глубокими знаниями в этой прикладной дисциплине.
В объёмах, достаточных для начала работы в области Data Science, книга содержит интенсивный курс языка Python, элементы линейной алгебры, математической статистики, теории вероятностей, методов сбора, очистки, нормализации и обработки данных. Даны основы машинного обучения. Описаны различные математические модели и их реализации по методу k ближайших соседей, наивной байесовской классификации, линейной и логистической регрессии, а также модели на основе деревьев принятия решений, нейронных сетей и кластеризации. Рассказано о работе с рекомендательными системами, описаны приёмы обработки естественного языка, методы анализа социальных сетей, основы баз данных, SQL и MapReduce.
Предисловие
Наука о данных
С чистого,листа
Условные обозначения, принятые в книге
Использование примеров кода
Благодарности
Комментарий переводчика
Python и Python
Установка и удаление дис,трибутива Anaconda
Настройка дистрибутива Anaconda
Установка инструментальной среды Spyder
Настройка инструментальной среды Spyder
Настройка среды Spyder с Python для работы с Pythan
Факультативно
Запуск сервера записных книжек Jupyter
Установка библиотек Python из whl-файла
Подготовка среды Python в ОС Ubuntu Linux
Управление пакетамиdeb в Ubuntu Linux
Об авторе
ВведениеГосподство данных
Что такое наука о данных?
Оправдание для выдумки: DataSciencester
Поиск ключевых звеньев
Аналитики, которых вы должны знать
Зарплаты и опыт работы
Оплата премиум-аккаунтов
Популярные темы
Вперед
Интенсивный курс языка PythonОсновы
Установка
Дзен языка Python
Пробельные символы
Модули
Арифметические операции
Функции
Строки
Исключения
Списки
Кортежи
Словари
Словарь dqfaultdict
Словарь Counter
Множества
Управляющие конструкции
Истинность
Не совсем основы
Сортировка
Генераторы последовательностей
Функции-генераторы и генераторные выражения
Случайные числа
Регулярные выражения
Объектно-ориентированное программирование
Инструменты функционального программирования
Функция enumerate
Функция ZIP и распаковка аргументов
Переменные args и °kwargs
Добро пожаловать в DataSciencester!
Для дальнейшего изучения
Визуализация данныхБибли:отека matplotlib
Столбчатые диаграммы
Линейные графики _
Точечные диаграммы_
Для дальнейшего изучения
Линейная алгебраВекторы
Матрицы
Для-дальнейшего изучения
СтатистикаОписание одиночного набора данных
Показатели центра распределенИя
Показатели вариации
Корреляция
Парадокс Симпсона
Некоторые другие ловушки корреляции
Корреляция и причинная зависимость
Для дальнейшего изучения
Теория вероятностейЗависимость и независимость
Условная вероятность
Теорема Байеса
Случайные величины
Непрерывные распределения
Нормальное распределение
Центральная предельная теорема
Для дальнейшего изучения
Гипотеза и выводПроверка статистических гипотез
Пример: бросание монеты
Р-значения
Доверительные интервалы
Подгонка р-значения
Пример: проведение А/В-тестирования
Байесовский статистический вывод
Для дальнейшего изучения
Градиентный спускИдея в основе метода градиентного спуска
Вычисление градиента
Использование градиента
Выбор оптимального размера шага
Собираем все вместе
Стохастический градиентный спуск
Для дальнейшего изучения
Сбор данныхОбъекты stdin и stdout
Чтение файлов
Основы работы с текстовыми файлами
Файлы с разделителями
Извлечение данных из веб-ресурсов
Анализ кода HTML
Пример: книги об анализе данных издательства O'Relly
Использование программных интерфейсов
Формат JSON (и XML)
Использование непроверенного APl
Поиск API
Пример: использование интерфейсов Twitter API
Получение учетных данных
Использование Twython
Для дальнейшего изучения
Обработка данныхИсследование данных
Исследование одномерных данных
Двумерные данные
Многомерные данные
Очистка и форматирование
Управление данными
Шкалирование
Снижение размерности
Для дальнейшего изучения
Машинное обучениеМоделирование
Что такое машинное обучение?
Переобучение и недообучение
Правильность модели
Компромисс между смещением и
Извлечениеи отбор признаков
Для дальнейшего изучения
К ближайших соседейМодель
Пример: предпочтительные языки
Проблема проклятия размерности
Для дальнейшего изучения
Наивный БайесДействительно глупый спам-фильтр
Более продуманный спам-фильтр
Реализация
Тестирование модели
Для дальнейшего изучения
Простая линейная регрессияМодель
Применение метода градиентного
Метод максимального правдоподобия
Для дальнейшего изучения
Множественная регрессияМодель
Другие допущения модели наименьших
Подбор модели
Интерпретация модели
Качество подбора модели
Отступление: бутстрапирование данных
Стандартные ошибки коэффициентов
Регуляризация
Для дальнейшего изучения
Логистическая регрессияЗадача
Логистическая функция
Применение модели
Качество подбора модели
Метод опорных векторов
Для дальнейшего изучения
Деревья принятия решенийЧто такое дерево принятия решений?
Энтропия
Энтропия разбиения
Создание дерева принятия решений
Для дальнейшего изучения
Нейронные сетиПерцептроны
Нейронные сети прямого распространения
Метод обратного распространения ошибки
Пример: преодоление капчи
Для дальнейшего изучения
КластеризацияИдея
Модель
Пример: встречи для специалистов
Выбор числа k
Пример: кластеризация цвета
Восходящий метод иерархической кластеризации
Для дальнейшего изучения
Обработка естественного языкаОблака слов
N-граммные модели языка
Грамматики
Ремарка: метод сэмплирования по Гиббсу
Тематическое моделирование
Для дальнейшего изучения
Анализ социальных сетейЦентральность по посредничеству
Центральность собственного вектора
Умножение матриц
Центральность
Направленные графы и рейтинг PageRank
Для дальнейшего изучения
Р
екомендательные системыНеавтоматическое кураторство
Рекомендация популярных тем
Коллаборативная фильтрация на основе пользователя
Коллаборативная фильтрация по схожести предметов
Для дальнейшего изучения
Базы данных и SQLОператоры CREATE TABLE и INSERT
Оператор UPDATE
Оператор DELETE
Оператор SELECT
Оператор GROUP ВУ
Оператор ORDER ВУ
Оператор JOJN
Подзапросы
Индексы
Оптимизация запросов
Базы данных NoSQL
Дия дал:ьнейшего изучения
Распределенные вычисления MapReduceПример: подсчет частотности слов
Почему MapReduce?
MapReduce в более общей реал:изаu;ии
Пример: анал:из обновлений ленты новостей
Пример: умножение матриц
Ремарка: сумматоры
Дия дальнейшего изучения
Идите и займитесь аналитикойИнтерактивная оболочка IPython
Математический аппарат
Не с чистого листа
Библиотека NumPy
Библиотека pandas
Библиотека scikit-learn
Визуал:изация
Язык программирования R
Где найти данные?
Занятия анал:изом данных
Новости хакера
Пожарные машины
Фугболки
А вы?
Предметный указатель