СПб.: БХВ-Петербург, 2023. — 224 с.: ил. — ISBN 978-5-9775-6866-1.
В книге приводятся практические приемы анализа данных. Рассказано, как исследовать и тестировать взаимосвязи между переменными в Excel и использовать его для статистики и анализа. Описан перенос данных из Excel в R, язык программирования с открытым исходным кодом, специально разработанный для выполнения статистического анализа. Отдельный раздел посвящен переносу данных из Excel в Python и выполнению полного анализа данных средствами этого языка. В результате читатель научится выполнять разведочный анализ данных (Exploratory Data Analysis, EDA) и проверку гипотез с использованием языков программирования Python и R. Для аналитиков данных.
ПредисловиеЦель обучения
Предварительные условия
Технические требованияТребования к предварительной подготовкеКак я пришел к аналитике
«Excel — плохо, программирование — хорошо»
Преимущества Excel при обучении аналитике
Обзор книги
Упражнения в конце глав
Эта книга — не список готовых решений
Без паники!
Условные обозначения
Использование примеров кода
Контакты
Благодарности
Основы аналитики в ExcelОсновы разведочного анализа данныхЧто такое разведочный анализ данных?
Наблюдения
Переменные
Категориальные переменныеКоличественные переменныеЗакрепление материала: классификация переменных
Резюме: типы переменных
Исследование переменных в Excel
Исследование категориальных переменныхИсследование количественных переменныхЗаключение
Упражнения
Понятие вероятностиВероятность и случайность
Вероятность и выборочное пространство
Вероятность и эксперименты
Безусловная и условная вероятность
Распределение вероятностей
Дискретное распределение вероятностейНепрерывное распределение вероятностейЗаключение
Упражнения
Основы инференциальной статистикиБазовые понятия статистического вывода
Сбор данных для репрезентативной выборкиФормулирование гипотезРазработка плана анализаАнализ данныхПринятие решенияЭто ваш мир… данные только живут в нем
Заключение
Упражнения
Корреляция и регрессия«Корреляция не подразумевает причинно-следственную связь»
Понятие корреляции
От корреляции к регрессииЛинейная регрессия в ExcelПереосмысление результатов: ложные зависимости
Заключение
Переход к программированию
Упражнения
Стек анализа данныхСтатистика, аналитика и наука о данных
СтатистикаАналитика данныхБизнес-аналитикаНаука о данныхМашинное обучениеРазличия без взаимоисключенияЗначение стека анализа данных
Электронные таблицыVBAСовременный ExcelБазы данныхПлатформы бизнес-аналитики (BI)Языки программирования для анализа данныхЗаключение
Что будет дальше
Упражнения
От Excel к RПервые шаги в R для пользователей ExcelЗагрузка R
Начало работы с RStudio
Пакеты в R
Обновление R, RStudio и пакетов R
Заключение
Упражнения
Структуры данных в RВекторы
Индексирование и подмножества векторов
От таблиц Excel к кадрам данных R
Импорт данных в R
Исследование кадра данных
Индексирование и подмножества кадров данных
Запись кадров данных
Заключение
Упражнения
Обработка и визуализация данных в RОбработка данных с помощью пакета
dplyrПостолбцовые операцииПострочные операцииАгрегирование и объединение данныхdplyr и оператор pipe (%>%)Преобразование данных с помощью tidyrВизуализация данных с помощью
ggplot2Заключение
Упражнения
Кульминация: R для анализа данныхРазведочный анализ данных
Проверка гипотез
t-тест для независимых выборокЛинейная регрессияРазделение и проверка данных для обучения и тестированияЗаключение
Упражнения
От Excel к PythonПервые шаги в Python для пользователей ExcelЗагрузка Python
Начало работы с Jupyter
Модули в Python
Обновление Python, Anaconda и пакетов PythonЗаключение
Упражнения
Структуры данных в PythonМассивы
NumPyИндексирование и подмножества массивов
NumPyКадры данных Pandas
Импорт данных в Python
Исследование кадра данных
Индексирование и подмножества кадров данныхЗапись кадров данныхЗаключение
Упражнения
Обработка и визуализация данных в PythonПостолбцовые операции
Построчные операции
Агрегирование и объединение данных
Преобразование данных
Визуализация данных
Заключение
Упражнения
Кульминация: Python для анализа данныхРазведочный анализ данных
Проверка гипотез
t-тест для независимых выборокЛинейная регрессияРазделение и проверка данных для обучения и тестированияЗаключение
Упражнения
Заключение и дальнейшие шагиДополнительные элементы стека анализа данных
План исследований и бизнес-эксперименты
Дополнительные статистические методы
Наука о данных и машинное обучение
Контроль версий
Этика
Двигайтесь вперед и выбирайте то, что нравится
Напутствие
Предметный указательОб автореОб изображении на обложке