2-е изд. — Пер. с англ. и ред. В.А. Коваленко. — СПб.: Диалектика, 2020. — 514 с.: ил. — ISBN 978-5-907203-47-1.
Наука о данных — это вовсе не страшно! Изучите программирование на языке Python для анализа данных и статистики. Пишите код в облаке, используя Google Colab. Обменивайтесь данными и визуализируйте информацию.
Интересуетесь наукой о данных, но немного побаиваетесь? Не нужно! Эта книга покажет, как использовать язык Python для создания интересных вещей с помощью науки о данных. Вы увидите, как установить набор инструментов Anaconda, благодаря которому работа с Python станет очень простой. Здесь вы откроете для себя инструмент Google Colab, позволяющий писать код в облаке с помощью обычного планшета. Вы узнаете, как выполнять все виды вычислений, используя последнюю версию языка Python. Вы также научитесь использовать различные библиотеки, обеспечивающие научный статистический анализ, построение диаграмм, графиков и многое другое.
В книге:
Настройка Python для науки о данных.
Работа с Jupyter Notebook.
Сбор и формирование данных.
Графика с использованием MatPlotLib.
Способы анализа данных.
Как получить больше от Python.
Полезные алгоритмы науки о данных.
Десять важных ресурсов данных.
Введение.
Приступая к работе с наукой о данных и языком Python.
Взаимосвязь науки о данных с языком Python.
Популярная профессия.
Создание конвейера науки о данных.
Роль языка Python в науке о данных.
Быстро учимся использовать Python.
Возможности и чудеса языка Python.
Почему Python?
Работа с языком Python.
Быстрое создание прототипа и эксперименты.
Скорость выполнения.
Сила визуализации.
Использование экосистемы Python для науки о данных.
Конфигурация Python для науки о данных.
Готовые кросс-платформенные научные дистрибутивы.
Установка Anaconda на Windows.
Установка Anaconda на Linux.
Установка Anaconda на Mac OS X.
Загрузка наборов данных и примеров кода.
Работа с Google Colab.
Определение Google Colab.
Получение учетной записи Google.
Работа с блокнотами.
Выполнение общих задач.
Использование аппаратного ускорения.
Выполнение кода.
Просмотр блокнота.
Совместное использование блокнота.
Получение помощи.
Данные.
Инструменты.
Использование консоли Jupyter.
Использование Jupyter Notebook.
Интеграция мультимедиа и графики.
Работа с реальными данными.
Загрузка, потоковая передача и выборка данных.
Доступ к данным в форме структурированного плоского файла.
Передача данных в форме неструктурированного файла.
Работа с данными из реляционных баз данных.
Взаимодействие с данными из баз NoSQL.
Доступ к данным из Интернета.
Подготовка данных.
Баланс между NumPy и pandas.
Проверка данных.
Манипулирование категориальными переменными.
Работа с датами в данных.
Борьба с отсутствием данных.
Разделение и дробление: фильтрация и выбор данных.
Конкатенация и преобразование.
Агрегирование данных на любом уровне.
Формирование данных.
Работа со страницами HTML.
Работа с необработанным текстом.
Использование модели наборов слов.
Работа с данными графов.
Применение знаний на практике.
Помещение в контекст задач и данных.
Искусство создания признаков.
Операции над массивами.
Визуализация информации.
Ускоренный курс по MatPlotLib.
Начнем с графика.
Настройка осей, отметок, сеток.
Определение внешнего вида линии.
Использование меток, аннотаций и легенд.
Визуализация данных.
Выбор правильного графика.
Создание расширенных диаграмм рассеяния.
Построение временнб/х рядов.
Отображение географических данных.
Визуализация графов.
Манипулирование данными.
Расширение возможностей Python.
Пакет Scikit-leam.
Трюк хеширования.
Учет сроков и производительности.
Параллельная работа на нескольких ядрах.
Разведочный анализ данных.
Подход EDA.
Определение описательной статистики для числовых данных.
Подсчет для категориальных данных.
Создание прикладной визуализации для EDA.
Понятие корреляции.
Изменение распределения данных.
Уменьшение размерности.
Понятие SVD.
Выполнение факторного анализа и РСА.
Понимание некоторых приложений.
Кластеризация.
Кластеризация методом к-средних.
Иерархическая кластеризация.
Обнаружение новых групп с DBScan.
Поиск выбросов в данных.
Обнаружение выбросов.
Изучение простого одномерного метода.
Выработка многомерного подхода.
Обучение на данных.
Четыре простых, но эффективных алгоритма.
Угадай число: линейная регрессия.
Переход к логистической регрессии.
Просто, как наивный байесовский классификатор.
Ленивое обучение с ближайшими соседями.
Перекрестная проверка, отбор и оптимизация.
Размышляя над проблемой подбора модели.
Перекрестная проверка.
Профессиональный выбор переменных.
Гиперпараметры.
Увеличение сложности с помощью линейных и нелинейных трюков.
Использование нелинейных преобразований.
Регуляризация линейных моделей.
Как справиться с большими данными фрагмент за фрагментом.
Понятие метода опорных векторов.
Играя с нейронными сетями.
Сила единения.
Простое дерево решений.
Как сделать доступным машинное обучение.
Бустинг прогнозов.
Великолепные десятки.
Десять основных источников данных.
Поиск новостей в Subreddit.
Хорошее начало с KDnuggets.
Поиск бесплатных учебных материалов с помощью Quora.
Получение знаний на блоге Oracle Data Science.
Доступ к огромному списку ресурсов на Data Science Central.
Изучение новых трюков на Aspirational Data Scientist.
Наиболее авторитетные источники на Udacity.
Получение справки о передовых темах в Conductrics.
Получение фактов науки о данных с открытым исходным кодом от мастеров.
Как сосредоточиться на ресурсах для разработчиков с Джонатаном Бауэром.
Десять задач, которые вы должны решить.
Знакомство с конкурсом Data Science London + Scikit-Leam.
Прогнозирование выживания на “Титанике”.
Как находить конкурсы Kaggle, соответствующие вашим потребностям 493 Как оттачивать свои стратегии.
Пробираясь через набор данных MovieLens.
Избавление от спама.
Работа с рукописной информацией.
Работа с изображениями.
Анализ обзоров Amazon.com.
Взаимодействие с огромным графом.
Предметный указатель.
Об авторе.