Видео: Детоксикация сознания – 3. Анализ полученной информации. Уровни мышления. 2025
Перед выполнением прогнозирующего анализа вам необходимо убедиться, что данные очищены от посторонних материалов, прежде чем вы сможете использовать их в своем модель. Это включает поиск и исправление любых записей, содержащих ошибочные значения, и попытки заполнить любые отсутствующие значения. Вам также необходимо будет решить, включать ли дубликаты записей (например, две учетные записи клиентов).
Общая цель состоит в том, чтобы обеспечить целостность информации, которую вы используете, для создания вашей прогнозирующей модели. Обратите особое внимание на полноту, правильность и своевременность данных.
Полезно создавать описательную статистику (количественные характеристики) для различных полей, например вычисление min и max, проверку частотного распределения (как часто происходит что-то) и проверки ожидаемых диапазонов. Выполнение регулярной проверки может помочь вам пометить любые данные, находящиеся за пределами ожидаемого диапазона, для дальнейшего изучения. Любые записи, показывающие пенсионеров с датами рождения в 1990-х годах, могут быть отмечены этим методом.
Кроме того, перекрестная проверка информации важна, чтобы вы были уверены в точности данных. Для более глубокого анализа характеристик данных и идентификации связи между записями данных вы можете использовать профилирование данных (анализ доступности данных и сбор статистики по качеству данных) и инструменты визуализации.
Отсутствующие данные могут быть связаны с тем, что конкретная информация не была записана. В таком случае вы можете попытаться заполнить столько, сколько сможете; подходящие значения по умолчанию могут быть легко добавлены для заполнения пробелов определенных полей.
Например, для пациентов в больничном отделении родильного дома, где гендерное поле отсутствует, приложение может просто заполнить его как женщину. Если уж на то пошло, то для любого мужчины, который был госпитализирован с отсутствием записи о статусе беременности, эта запись может быть аналогично заполнена как неприменимая.
Отсутствующий почтовый индекс для адреса может быть выведен из названия улицы и города, указанного в этом адресе.
В тех случаях, когда информация неизвестна или не может быть выведена, вам нужно будет использовать значения other , чем пустое место, чтобы указать, что данные отсутствуют, не влияя на правильность анализа. Пустота в данных может означать несколько вещей, большинство из которых не являются хорошими или полезными. Всякий раз, когда вы можете, вы должны указать характер этого пробела значимым заполнителем места.
Так же, как можно определить розу на кукурузном поле как сорняк, выбросы могут означать разные вещи для разных анализов.Обычно некоторые модели должны быть построены исключительно для отслеживания этих выбросов и их флага.
Модели мошенничества и мониторинг преступной деятельности заинтересованы в тех выбросах, которые в таких случаях указывают на то, что нежелательно. Поэтому рекомендуется сохранять выбросы в наборе данных в таких случаях. Однако, когда выбросы считаются аномалиями в данных - и только искажают результаты анализа и приводят к ошибочным результатам - удаляют их из ваших данных.
Дублирование данных также может быть полезным или неприятным; некоторые из них могут быть необходимы, могут указывать значение и могут отражать точное состояние данных. Например, запись клиента с несколькими учетными записями может быть представлена несколькими записями, которые (в техническом плане, в любом случае) дублируются и повторяются из одних и тех же записей.
Точно так же, когда дубликаты записей не вносят вклад в анализ и не нужны, то их удаление может иметь огромное значение. Это особенно справедливо для больших наборов данных, где удаление дубликатов записей может упростить сложность данных и сократить время, необходимое для анализа.
Вы можете предварительно предотвратить неправильные данные, поступающие в ваши системы, приняв некоторые конкретные процедуры:
-
Проверка качества института и проверка данных для всех собираемых данных.
-
Позвольте своим клиентам проверять и самостоятельно корректировать свои персональные данные.
-
Предоставьте своим клиентам возможные и ожидаемые значения на выбор.
-
Регулярно выполняется проверка целостности, согласованности и точности данных.
