Видео: Поиск повторяющихся записей в запросах Access 2024
Очень полезным приложением данных подмножества является поиск и удаление повторяющихся значений. R имеет полезную функцию duplicated (), которая находит повторяющиеся значения и возвращает логический вектор, который сообщает вам, является ли конкретное значение дубликатом предыдущего значения. Это означает, что для дублированных значений duplicated () возвращает FALSE для первого вхождения и TRUE для каждого следующего появления этого значения, как в следующем примере:
Если вы попробуете это в кадре данных, R автоматически проверяет наблюдения (это означает, что каждая строка рассматривается как значение). Так, например, с фреймом данных iris: >> duplicated (iris) [1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE [10] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE … [136] FALSE FALSE FALSE FALSE FALSE FALSE FALSE TRUE FALSE [145] FALSE FALSE FALSE FALSE FALSE FALSE
Если вы внимательно посмотрите, вы заметите, что строка 143 является дубликатом (потому что 143-й элемент вашего результата имеет значение TRUE). Вы также можете сказать это, используя функцию ():
>> которые (дублируются (ирис)) [1] 143
Теперь, чтобы удалить дубликат из диафрагмы, вы должны исключить эту строку из своих данных. Помните, что есть два способа исключить данные с помощью подмножества:
Укажите логический вектор, где
FALSE
означает, что элемент будет исключен.-
The! (восклицательный знак) является логическим отрицанием. Это означает, что он преобразует TRUE в FALSE и наоборот. Итак, чтобы удалить дубликаты из диафрагмы, вы делаете следующее:
В обоих случаях вы заметите, что ваша команда удалила строку 143.
-