Видео: Топ структур данных которые должен знать программист. 2024
У интеллектуального анализа данных очень строгие требования к организации данных. Они не являются экзотическими, сложными или сложными требованиями к встрече, но они строги. На рисунке показан образец данных, рассматриваемых как таблица в программном обеспечении для интеллектуального анализа данных.
Каждая строка представляет собой один участок недвижимости. Информация о посылках недвижимости организована в колонках. Первый столбец содержит идентификационный номер налогоплательщика (TAXKEY), второй столбец содержит оценочную стоимость земли из предварительной оценки (P_A_LAND) и т. Д.
Каждая запись в любой строке относится к одному конкретному участку земли. Каждая запись в любом столбце представляет собой информацию того же типа. Никакие строки или столбцы не остаются пустыми по причинам, связанным со стилем и читабельностью. Эти данные правильно организованы для расследования различий между посылками недвижимости.
Если вместо недвижимости вы исследуете людей, каждый человек будет представлен одной строкой в данных, и все подробности о людях будут организованы в столбцы. Если вы исследуете рентгеновские снимки грудной клетки, каждый рентгеновский снимок грудной клетки будет представлен одной строкой в данных, и все детали о грудных рентгеновских лучах будут организованы в столбцы.
В терминологии анализа данных вещи, которые вы изучаете - вещи в строках, называются случаями или . И сведения о них, которые находятся в столбцах, называются переменными . Вы также услышите столбцы с именем , , особенно в контексте баз данных.
Таким образом, для интеллектуального анализа данных требуются данные, организованные с одной строкой для каждого случая и один столбец для каждой переменной. Таким образом, многие источники данных уже организованы. Статистики таким образом упорядочивают данные по привычке. Специалисты по базам данных не могут использовать этот подход для большей части своей работы, но обычно они понимают, что вы хотите, если вы называете это плоской таблицей .
Вы найдете тонкие вариации в структуре данных. Некоторые типы программного обеспечения используют описательную информацию в заголовке перед данными, например некоторые специальные форматы, связанные с приложениями для добычи данных Orange и Weka. Некоторые сложные аналитические процедуры имеют дополнительные или слегка разнообразные требования (это довольно необычно). Но ядро данных по-прежнему имеет случаи в строках и переменных в столбцах.