Видео: Лекция 3. Кластеризация 2025
У неконтролируемого обучения есть много проблем для интеллектуальной аналитики, в том числе не зная, чего ожидать при запуске алгоритма. Каждый алгоритм будет давать разные результаты; вы никогда не будете уверены, что один результат лучше, чем другой, или даже результат любого значения.
Когда вы знаете, какими должны быть результаты, вы можете настроить алгоритмы для получения желаемых результатов. В реальных наборах данных у вас не будет этой роскоши. Вы должны будете зависеть от некоторых предварительных знаний о данных - или интуиции - для определения параметров и алгоритмов инициализации, которые будут использоваться при создании вашей модели.
Однако в реальных неконтролируемых учебных задачах эти предварительные знания недоступны, и желаемый результат трудно найти. Выбор правильного количества кластеров является ключевой проблемой. Если вы случайно наткнулись на правильное количество кластеров, ваши данные дадут проницательность, которые вы можете сделать очень точными предсказаниями. С другой стороны, угадывание неправильного количества кластеров может привести к результатам подпара.
Алгоритм K-средних - хороший выбор для наборов данных, которые имеют небольшое количество кластеров с пропорциональными размерами и линейно разделяемыми данными, - и вы можете масштабировать его, чтобы использовать алгоритм на очень больших наборах данных.
Представьте линейно разделяемые данные как кучу точек в графе, которые можно разделить по прямой. Если данные не являются линейно разделяемыми, то должны использоваться более продвинутые версии K-средств, которые станут более дорогостоящими в вычислительной области и могут не подходить для очень больших наборов данных. В стандартной реализации сложность вычисления центров кластеров и расстояний низкая.
K-средства широко используются для решения проблем с большими данными, поскольку они просты в использовании, эффективны и масштабируемы. Неудивительно, что большинство коммерческих поставщиков используют алгоритм K-mean как ключевой компонент своих пакетов прогнозирующей аналитики.
Реализация DBSCAN (на основе плотности пространственной кластеризации приложений с помехами) в scikit-learn не требует каких-либо определяемых пользователем параметров инициализации для создания экземпляра. Если вы хотите, вы можете переопределить параметры по умолчанию во время инициализации. К сожалению, если вы используете параметры по умолчанию, алгоритм не может обеспечить близкое соответствие желаемому результату.
DBSCAN лучше подходит для наборов данных с диспропорциональными размерами кластеров и данные которых могут быть разделены нелинейным образом.Подобно K-средству, DBSCAN является масштабируемым, но использование его на очень больших наборах данных требует большего объема памяти и вычислительной мощности.
