Видео: Информационный поиск. Самоорганизующиеся карты 2024
Для классификации изображений требуется однако значительный объем ресурсов обработки данных ограничивает масштабы развертывания. Классификация изображений является горячей темой в мире Hadoop, потому что никакая основная технология не была способна - пока Hadoop не появился - открытие дверей для такого дорогостоящего процесса обработки в столь масштабном и эффективном масштабе.
Классификация изображений начинается с представления о том, что вы создаете обучающий набор и что компьютеры учатся определять и классифицировать то, что они ищут. Точно так же, поскольку наличие большего количества данных помогает создавать лучшие модели обнаружения мошенничества и рисков, это также помогает системам лучше классифицировать изображения.
В данном случае данные называются обучающим набором, а модели - классификаторами. Классификаторы распознают функции или шаблоны в звуке, изображении или видео и классифицируют их соответствующим образом. Классификаторы строятся и итеративно очищаются от обучающих наборов, так что их точность (мера точности) и количество баллов (показатель охвата) высоки.
Hadoop хорошо подходит для классификации изображений, потому что он обеспечивает массовую параллельную среду обработки, чтобы не только создавать модели классификаторов (итерации по наборам обучения), но и обеспечивать почти неограниченную масштабируемость для обработки и запуска этих классификаторов в массивных наборах неструктурированных томов данных.
Рассмотрите мультимедийные источники, такие как YouTube, Facebook, Instagram и Flickr - все это источники неструктурированных двоичных данных. На рисунке показан один из способов использования Hadoop для масштабирования обработки больших объемов хранимых изображений и видео для мультимедийной семантической классификации.
Вы можете увидеть, как все понятия, относящиеся к инфраструктуре обработки Hadoop, применяются к этим данным. Обратите внимание, как изображения загружаются в HDFS. Модели классификаторов, построенные с течением времени, теперь применяются к дополнительным компонентам изображения в фазе Map этого решения. Как вы можете видеть в нижнем правом углу, выход этой обработки состоит из классификаций изображений, которые варьируются от мультфильмов до спорта и местоположений, среди прочих.
Hadoop также может использоваться для аудио- и голосовых аналитиков. Один клиент службы безопасности, с которым мы работаем, создает систему классификации аудио для классификации звуков, которые слышны через акустически обогащенные волоконно-оптические кабели, расположенные по периметру ядерных реакторов.
Например, эта система знает, как почти мгновенно классифицировать шепот ветра по сравнению с шепотом человеческого голоса или отличать звук человеческих шагов, бегущих по периметру парков от дикой природы.
Это описание может иметь вид Star Trek , но теперь вы можете увидеть живые примеры. На самом деле, IBM публикует одну из крупнейших систем классификации изображений в мире, используя IBM Multimedia Analysis and Retrieval System (IMARS).
Вот результат поиска IMARS для термина альпийских лыж. В верхней части рисунка вы можете увидеть результаты классификаторов, сопоставленных с набором изображений, который был обработан Hadoop вместе со связанным облаком тегов.
Обратите внимание на более грубо определенный родительский классификатор, а не на более гранулированный. В самом деле, обратите внимание на несколько уровней классификации: вкатывается в, который вкатывается - все автоматически генерируется моделью классификатора, построенной и забитой с помощью Hadoop.
Ни одна из этих картин не содержит добавленных метаданных. Никто не открыл iPhoto и отметил изображение как зимний вид спорта, чтобы он появился в этой классификации. Это классический зимний спортивный классификатор, который был создан, чтобы распознавать атрибуты изображения и характеристики спортивных состязаний, которые играют в зимний период.
Классификация изображений имеет много приложений, и возможность выполнять эту классификацию в массовом масштабе с использованием Hadoop открывает больше возможностей для анализа, поскольку другие приложения могут использовать классификационную информацию, сгенерированную для изображений.
Посмотрите на этот пример из отрасли здравоохранения. Большое агентство здравоохранения в Азии было сосредоточено на оказании медицинской помощи через мобильные клиники сельскому населению, распределенному по большой сухопутной массе. Существенной проблемой, с которой сталкивается агентство, была логистическая задача анализа данных медицинской визуализации, созданных в мобильных клиниках.
Рентгенолог - редкий ресурс в этой части мира, поэтому имеет смысл электронно передавать медицинские изображения в центр и армия врачей осматривает их. Однако врачи, изучающие изображения, были быстро перегружены.
В настоящее время агентство работает над системой классификации, чтобы помочь определить возможные условия для эффективного предоставления рекомендаций для врачей для проверки. Раннее тестирование показало, что эта стратегия помогает уменьшить количество пропущенных или неточных диагнозов, экономя время, деньги и, самое главное, жизнь.