Как удалить повторяющиеся данные в R-образцах

Видео: Поиск повторяющихся записей в запросах Access 2024

Очень полезным приложением данных подмножества является поиск и удаление повторяющихся значений. R имеет полезную функцию duplicated (), которая находит повторяющиеся значения и возвращает логический вектор, который сообщает вам, является ли конкретное значение дубликатом предыдущего значения. Это означает, что для дублированных значений duplicated () возвращает FALSE для первого вхождения и TRUE для каждого следующего появления этого значения, как в следующем примере:

>> duplicated (c (1, 2, 1, 3, 1, 4)) [1] FALSE FALSE TRUE FALSE TRUE FALSE

Если вы попробуете это в кадре данных, R автоматически проверяет наблюдения (это означает, что каждая строка рассматривается как значение). Так, например, с фреймом данных iris: >> duplicated (iris) [1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE [10] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE … [136] FALSE FALSE FALSE FALSE FALSE FALSE FALSE TRUE FALSE [145] FALSE FALSE FALSE FALSE FALSE FALSE

Если вы внимательно посмотрите, вы заметите, что строка 143 является дубликатом (потому что 143-й элемент вашего результата имеет значение TRUE). Вы также можете сказать это, используя функцию ():








 >> которые (дублируются (ирис)) [1] 143

Теперь, чтобы удалить дубликат из диафрагмы, вы должны исключить эту строку из своих данных. Помните, что есть два способа исключить данные с помощью подмножества:

Укажите логический вектор, где

FALSE

означает, что элемент будет исключен.

The! (восклицательный знак) является логическим отрицанием. Это означает, что он преобразует TRUE в FALSE и наоборот. Итак, чтобы удалить дубликаты из диафрагмы, вы делаете следующее:
>> iris [! duplicated (iris),] Укажите отрицательные значения. Другими словами:
>> index iris [-index,]
```
В обоих случаях вы заметите, что ваша команда удалила строку 143.
```