Изучение переменных и типа поля
Раздел 1. Общие сведения о переменных и типах полей.
Раздел 2. Просмотр переменных в визуализации.
Раздел 3. Дискретные и непрерывные переменные.
Специалист по исследованию и анализу данных, Джеффри Лик определяет данные как «состоящие из значений качественных или количественных переменных, принадлежащие к набору элементов». В этом модуле вы изучите типы переменных и узнаете, как эти типы влияют на столбцы (или поля) данных.
Цели
По завершении этого модуля вы сможете:
- Определять различные типы переменных.
- Различать номинальные качественные, порядковые качественные и количественные переменные.
- Различать непрерывные и дискретные переменные.
Раздел 1. Общие сведения о переменных и типах полей
Модуль «Распознавание хорошо структурированных данных» объясняет, что данные организованы в столбцы или поля, и что в структурированных данных поля состоят из переменных, по одной переменной на поле.
Теперь давайте объединим это понимание с расширенным определением данных, адаптированным специалистом по исследованию и анализу данных, Джеффри Ликом. По словам Лика, «данные состоят из значений качественных или количественных переменных, принадлежащих набору элементов».
Типы качественных переменных
Вы знаете, что качественные переменные относятся к характеристикам или качествам. Качественные переменные можно разделить на два типа: номинальные и порядковые.
Номинальные качественные переменные
Номинальные качественные переменные – это категории, которые нельзя ранжировать. Например, рассмотрим несколько видов фруктов: бананы, виноград, абрикосы и яблоки. Это номинальные переменные, потому что между ними нет подразумеваемого ранжированного порядка. То есть банан, например, не стоит выше абрикоса.
Один из способов запомнить определение номинальной переменной: Nonimal = Named (Номинальная = Именованная).
Порядковые качественные переменные
В отличие от номинальных качественных переменных, порядковые качественные переменные можно ранжировать. Они качественны, потому что не поддаются количественному измерению, но между ними существует логический порядок ранжирования. Например, вспомните любой опрос, который вы, проходили. Примеры порядковых качественных значений в опросе:
- Никогда / иногда / в основном / всегда
- Крайне недоволен / недоволен / ни то, ни то / доволен / полностью доволен
Вот один из способов запомнить определение порядковой переменной: Ordinal = Ordered. (Порядковая = Упорядоченная)
Теперь проверим как вы это поняли. В следующем упражнении определите, является ли каждая характеристика номинальной качественной переменной, порядковой качественной переменной или количественной переменной.
Варианты для соответствующих категориий.
Марки автомобилей (Ford, Fiat, Toyota, Kia и др.)
Виды домашних животных (собаки, кошки, птицы, хорьки, золотые рыбки и др.)
Общее годовое количество осадков в городе (в дюймах)
Количество часов, проведенных за просмотром телевизора каждый день
Золотая медаль, серебряная медаль, бронзовая медаль
Горячий, теплый, прохладный, холодный
Полностью согласен, Согласен, Не согласен, Полностью не согласен
Количество детей в семье
Мягкий, средний, пряный
Типы жилья (дом, квартира, общежитие, и т. д.)
Скорость в милях в час
Провинции в Канаде (Альберта, Британская Колумбия, Манитоба и др.)
Резюме
Когда переменные используются в наборе данных, они организованы как поля (или столбцы). Переменные могут быть качественными или количественными. На этом уроке вы узнали, что их можно дополнительно классифицировать при необходимости.
В следующем уроке вы узнаете, как различные типы переменных (полей) влияют на визуализацию данных.
Раздел 2. Просмотр переменных в визуализации
Когда переменные используются в наборе данных, они организованы в виде полей (или столбцов). Переменные могут быть качественными или количественными. Теперь рассмотрим визуализации, в которых используются количественные и качественные переменные (поля).
Количественные и качественные переменные используются в визуализации по-разному:
- Количественные переменные – это те элементы данных, которые вы можете вычислить. Их также можно агрегировать (сумма и среднее – вот два примера агрегирования).
- Качественные переменные устанавливают уровень детализации визуализации. Их можно использовать для категоризации, сегментации и раскрытия деталей ваших данных.
Обзор визуализации
Визуализация слева содержит только количественную переменную (прибыль), а визуализация справа содержит и количественную переменную (прибыль) и качественную переменную (категория).
- Каждая переменная (поле) находится в одном столбце с заголовком столбца.
- Каждое отдельное наблюдение этой переменной (значения) находится в отдельной строке.
Эта простая таблица содержит столбец и заголовок столбца для каждой переменной со значениями на уровне строк для каждого столбца.
Рассмотрим небольшой пример. Эти визуализации с использованием данных из бизнес-франшизы иллюстрируют эффект просмотра только количественной переменной (поля) или просмотра как количественной переменной, так и качественной переменной (поля).
Визуализация слева включает только количественную переменную, сумму (или общую) прибыль для бизнеса. Как видите, этот бизнес принес в общей сложности более 1,4 миллиона долларов прибыли.
Визуализация справа содержит качественную переменную (Категория), поэтому теперь вы можете видеть общую прибыль, сегментированную по трем категориям продуктов: мебель, канцелярские товары и технологии.
Подробный пример
Теперь, когда вы ознакомились с кратким обзором, давайте посмотрим, как количественные и качественные переменные раскрывают понимание данных в визуализациях. Переменные (поля) не находятся в одном столбце каждая, с заголовком столбца.
Шаг 1. Изучите переменные
Давайте рассмотрим несколько переменных.
- Категория, приоритет заказа, способ доставки и подкатегория – качественные переменные.
- Прибыль, продажи и стоимость доставки – количественные переменные.
Шаг 2. Присмотритесь к качественным переменным
Найдите минутку и взгляните на значения на уровне строк в качественных переменных:
- Категория и подкатегория содержат названия значений без какого-либо подразумеваемого ранга или порядка. Это номинальные переменные.
- Приоритет заказа и режим доставки содержат значения, которые подразумевают логический ранг или порядок. Это порядковые переменные. Это различие будет важно, когда мы исследуем визуализации.
Шаг 3. Просмотр визуализации до добавления качественных переменных
Начнем с визуализации, которая содержит только одну количественную переменную и показывает среднюю стоимость доставки.
Шаг 4. Просмотр визуализаций с добавленными номинальными переменными
Качественные переменные добавляют больше деталей к визуализациям.
Начнем с номинальных переменных. После добавления параметра «Категория» средняя стоимость доставки будет сегментирована по категории продукта. Мы видим, что в категории продуктов «Технологии» самая высокая средняя стоимость доставки.
Визуализация справа углубляется с добавлением номинальной переменной «Подкатегория». Теперь мы видим, что, несмотря на то, что у «Технологии» самые высокие средние затраты на доставку по категориям продуктов, в «Таблицах» самые высокие средние затраты на доставку по подкатегориям продуктов.
Шаг 5. Просмотр визуализации с добавленной порядковой переменной
Теперь давайте посмотрим, что произойдет, когда мы исследуем другую визуализацию, которая использует порядковую переменную для анализа средней стоимости доставки по Приоритету Заказа.
Что вы заметили? Удивительно, но у заказов с низким приоритетом средняя стоимость доставки выше, чем у заказов со средним приоритетом.
Шаг 6. Просмотр визуализации с добавленной второй порядковой переменной
Добавление второй порядковой переменной позволяет нам анализировать среднюю стоимость доставки как по Приоритету Заказа, так и по Режиму Доставки.
Что вы заметили? Удивительно, но для заказов со средним приоритетом средняя стоимость доставки заказов, отправленных первым классом, выше, чем для заказов, отправленных в тот же день.
Полученные результаты
Мы исследовали переменные в данных и некоторые визуализации с количественной переменной и номинальными и порядковыми качественными переменными.
Проверка знаний
Какой тип переменной в предыдущем примере имеет Приоритет Заказа?
- Количественная переменная
- Порядковая качественная переменная
- Номинальная качественная переменна
Резюме
Теперь вы понимаете, как количественные и качественные переменные в ваших данных можно представлять в визуализациях. На следующем уроке вы узнаете, как переменные можно также разделить на дискретные и непрерывные.
Раздел 3: дискретные и непрерывные переменные
Еще одна классификация, которую мы можем применить к переменным, включает дискретные и непрерывные типы переменных.
Дискретные переменные разделены и различаются. Проще говоря, если вы можете посчитать ее отдельно, это дискретная переменная. Например, вы можете посчитать количество детей в семье. В семье может быть 0, 3, 6 детей и так далее, но не может быть 3.45.
Количество пальцев на ноге и общее количество носков в ящике – это тоже примеры дискретных переменных. Общее количество пальцев на всех ногах у всех жителей вашего города – это тоже дискретная переменная. На индивидуальный подсчет всех пальцев на ногах уйдет много времени, но тем не менее, это возможно.
Непрерывный означает формирование неразрывного целого, без прерывания.
Это – такие переменные, которые нельзя подсчитать за конечный промежуток времени, потому что между любыми двумя значениями существует бесконечное количество значений. Например, если вы хотите измерить время, каждую единицу времени можно разбить на еще более мелкие единицы: время реакции на стимул можно выразить как 1,64 секунды, или его можно и дальше дифференцировать, и выразить как 1,642378765 секунд, и т. д., до бесконечности.
Вот еще примеры непрерывных значений: температура, расстояние и масса.
Варинаты для соответствующих категорий, дискретной или непрерывной.
Количество яиц в коробке
Масса грузовика
Количество учеников в классе
Объем воды в Тихом океане
Количество лошадей в Южной Америке
Температура воздуха
Резюме
Теперь у вас есть понимание того, что переменные можно классифицировать как количественные, качественные, дискретные и непрерывные.
#dataliteracy, #информационная грамотность, #DataLiteracyProject
Следующая статья: Изучение распределений