Технология поиска изображений в Интернете. Метапоисковые системы

Автор работы: Пользователь скрыл имя, 28 Декабря 2010 в 21:49, курсовая работа

Описание

Информационный поиск рассматривает поиск информации в документах, поиск самих документов, извлечению метаданных из документов, поиску текста, изображений, видео и звука в локальных реляционных базах данных, в гипертекстовых базах данных таких, как Интернет и локальные интранет-системы.

Содержание

Введение 4
1 Поисковые системы 6
1.1 История поисковых систем 6
1.2 Глубокая паутина 7
2 Технология поиска изображений в Интернете 9
2.1 Визуальные примитивы и механизм поиска по образцу 9
2.2 Цветовые гистограммы 11
2.3 Объекты изображения 12
2.4 CBIR-системы 14
2.5 CBIR-системы на практике 16
2.6 Российские разработки по поиску изображений 19
3 Метапоисковые системы 21
3.1 Что такое метапоисковая система? 21
3.2 Принципы работы метапоисковых систем 21
Заключение 26
Библиографический список 27

Работа состоит из  1 файл

Информационные технологии (курсовик).doc

— 194.50 Кб (Скачать документ)

     Попадания могут быть достаточно точными: если, допустим, у нас на снимке была лужайка, мы получим фотоснимки с изображением зеленой травы, если это было дерево на фоне неба — то нам покажут другие похожие на заданный снимки. "Тематический" фильтр при этом начинает сильно «гулять», и для получения максимально точного результата приходится повторять описанную процедуру несколько раз. С другой стороны, это достаточно интересное времяпрепровождение. Потенциал у данного поисковика хороший — по сути, это полностью рабочая система, выдающая действительно полезные результаты. Tiltomo — не единственный CBIR-поисковик, работающий с базой Flickr. Tiltomo выделяется из ряда конкурентов именно своей завершенностью и дружественностью к пользователям. Главный недостаток системы — ограниченный размер тестовых баз данных.

     Технологии  интернет-поиска картинок по содержанию являются весьма перспективным средством, предоставляющим новые довольно любопытные возможности. CBIR-технологии вряд ли полностью вытеснят обычные способы индексации изображений, разве что в некоторых специфических областях. Как нетрудно заметить, даже Tiltomo объединяет несколько технологий поиска изображений: по тегам и с помощью CBIR. Они очень удачно дополняют друг друга, поскольку позволяют работать с разными характеристиками изображения. Скорее всего, именно за такими комбинированными веб-проектами будущее поиска изображений в Интернете.

              1. Российские  разработки по поиску изображений

     Недавно созданная компания Recogmission объявила о скором завершении разработки инновационной системы индексации и автоматической классификации фото и видео информации в зависимости от содержания. Уникальной ценностью программного обеспечения является его интеллектуальность, способность понять содержание фото или видео изображения.

     Компания специализируется на разработке собственных программных продуктов и технологий в области распознавания образов и обработки больших массивов изображений. Главной задачей, которую компания решает в настоящее время, является создание средств индексации массивов любительских цифровых изображений и видеофайлов. Для этого компания привлекла специалистов высочайшей квалификации в области разработки коммерческих программных решений и математиков, в том числе, с учеными степенями. Организован производственный процесс, удовлетворяющий международным стандартам.

     На  сегодняшний день при поиске изображений  использование ключевых слов является необходимым условием. Для новации Recogmission текстовые описания не требуются. Система понимает, что нужно пользователю, и показывает именно те результаты, которые он хотел получить.

     Система основана на оригинальных технологиях  распознавания и локализации  образов, созданных и запатентованных  в компании. Суть решений состоит  в аналогии между анализом изображений  и динамическим представлением сложных  данных в нейронных структурах головного мозга, когда различные виды воспринимаемой информации активизируют различные области мозга. То же относится и к классификации близких по природе, но различающихся образов. Реализация этих подходов в качестве алгоритмов дает возможность эффективно классифицировать разнородные изображения, содержащие большое количество объектов.

     В настоящее время программное  обеспечение осуществляет индексацию и классификацию наиболее важных и, пожалуй, самых сложных визуальных объектов — лиц людей. Для каждого  найденного лица автоматически создается виртуальная папка. В нее попадают все файлы, где система распознает одно и то же лицо. Таким образом, в соответствии с распознанными лицами программа организует фото и видео архивы и позволяет мгновенно осуществлять релевантный поиск изображений в огромных мультимедийных базах данных.

     Автоматически решаются проблемы описания изображения, необходимости помнить имена, события  и даты, получения информации одним  кликом по изображению, каталогизации  огромных архивов по содержащимся в них объектам. Система находит искомое и не позволяет потерять ни одного фото.

     Актуальность  и сложность вопроса индексации и поиска изображений в базах  данных привлекли внимание ведущих  компаний к технологиям и разработкам Recogmission LLC. Так, в марте этого года компания стала партнером Microsoft Russia. За непродолжительный период существования компании подписан ряд соглашений о сотрудничестве с компаниями США, Швеции, Германии, Великобритании. При этом сферы применения решений достаточно разнообразны — от систем документооборота до поддержки мобильных мультимедийных сервисов.

     Наиболее  мощным решением является корпоративная  система индексации цифровых изображений, обеспечивающая быстрый поиск по образцам фотографий на распределенных удаленных и локальных ресурсах, базах данных и видеофайлах. Частный потребитель сможет получить сервис для индивидуального использования, который впервые даст возможность автоматически обрабатывать домашние фото и видеоархивы, быстро искать необходимые картинки на CD и DVD.

 

     

  1. Метапоисковые системы
              1. Что такое метапоисковая  система?

     Всемирная сеть Интернет, содержащая постоянно растущий огромный объем динамически изменяющейся информации, развивается небывало бурными темпами. Для того чтобы как-то упорядочить этот непрерывный поток данных, а самое главное, дать возможность пользователям сети находить нужную информацию, были созданы специальные поисковые системы. Каждая такая система имеет индекс, несущий служебную информацию о содержимом проиндексированных документов, где каждому слову текста соответствует частота его употребления и координаты данного слова в тексте.

     Каждая  поисковая система имеет только свое собственное, ограниченное ее ресурсами, множество документов, которые доступны для поиска. Ни одна из подобных систем не сможет охватить всех ресурсов Интернет, поэтому в любой момент может возникнуть ситуация, когда информационные потребности пользователя не смогут быть удовлетворены. Как правило, в этом случае пользователь переходит на другую поисковую систему и пытается искать то, что ему нужно, там.

     Для решения данной проблемы и расширения возможности поиска, были созданы  системы, названные метапоисковыми. Они не имеют собственных поисковых  баз данных, не содержат никаких  индексов и при поиске используют ресурсы множества поисковых систем. За счет этого полнота поиска в таких системах максимальна и вероятность нахождения нужной информации очень высока.

              1. Принципы  работы метапоисковых  систем

     При проектировании метапоисковой системы  нужно решить ряд проблем.

     Прежде  всего, из полученного от поисковых систем множества документов необходимо выделить наиболее релевантные, то есть соответствующие запросу пользователя. Как правило, создатели метапоисковых систем не совсем оправданно надеются, что поисковые системы, которые они используют, возвращают релевантные результаты поиска, и слишком полагаются на позицию, на которой в данной поисковой системе находится документ.

     Этот  стандартный подход представлен  на рисунке 1. В таких системах анализ полученных описаний документов не производится, что может поставить нерелевантные документы, идущие первыми в одной поисковой системе, выше релевантных в другой, чем существенно понизить качество самого поиска. Этот принцип оказался хорошим при создании автором анализатора позиции сайта в поисковых системах, но в целом для систем метапоиска оказался неудовлетворительным.  

       

     Рисунок 1 - Стандартная метапоисковая система 

     При разработке следующего поколения метапоисковых систем были учтены недостатки, присущие стандартным метапоисковым системам. Были созданы системы с возможностью выбора тех поисковых машин, в которых, по мнению пользователя, он с большей вероятностью может найти то, что ему нужно. Структура такой системы показана на рисунке 2.

       

     Рисунок 2 - Следующее поколение метапоисковых систем 

     Кроме этого, такой подход позволяет уменьшить  используемые вычислительные ресурсы метапоискового сервера, не перегружая его слишком большим объемом ненужной информации и серьезно сэкономить трафик. Здесь нужно отметить, что в любой системе метапоиска наиболее узким местом в основном является пропускная способность канала передачи данных, так как обработка страниц с результатами поиска, полученными от нескольких десятков поисковых серверов не является слишком трудоемкой операцией, потому что затраты времени на обработку информации на порядки меньше времени прихода страниц, запрошенных у поисковых серверов.

     Рассмотрим принцип работы метапоисковой системы.

     Начнем  со стартовой страницы данной метапоисковой  системы. Обычно интерфейс такой  системы предельно упрощен и  сразу же позволяет понять, что, где и как здесь можно искать.

     Пользователь  выбирает условия поиска и вводит запрос. После этого запрос ретранслируется указанным поисковым системам. Для передачи запроса к поисковой системе используется специальный метапоисковый агент, который отвечает не только за процесс ретрансляции запроса и приема страниц, но и за то, чтобы запрос был передан в правильной кодировке, принятой в каждой из выбранных поисковых систем, иначе будет получен совершено другой набор описаний документов или не будет получен вовсе, что негативно скажется на качестве поиска.

     После обработки полученного запроса  каждая система возвращает метапоисковому агенту множество описаний и ссылок на документы, которые считает релевантными данному запросу.

     Как среди этого множества выбрать  именно то, что нужно пользователю?

     Стандартный подход, который используется большинством систем метапоиска, состоит в том, чтобы просто расположить полученные ссылки по порядку их следования в результатах поиска каждой из поисковых систем. При этом, если в разных поисковых системах был найден один и тот же сайт, то ценность его для пользователя, естественно, существенно повышается.

     Подход, безусловно, правильный, но что делать в том случае, если одна система, к примеру, индексирует динамически  генерирующиеся страницы, а другая нет? У них различные множества проиндексированных документов, различная полнота баз, следовательно, запрошенная пользователем информация может быть найдена в одной системе и может быть не найдена в другой. В этом случае пользователь может получить несколько действительно релевантных ссылок от одной системы, которые будут перемешаны с абсолютно нерелевантными из другой (например, в случае, когда фраза целиком не найдена, поиск идет по одному из ключевых слов запроса). В результате, пользователю вручную приходится отбирать релевантные ссылки и велика вероятность того, что помучавшись с перебором ссылок, он попросту уйдет и уже никогда не вернется.

     Есть  ли какой-либо способ решить эту проблему? Конечно есть. Нужно с полученным от поисковых систем множеством описаний документов сделать то же, что делают они сами с этими документами, то есть определить частоты ключевых слов в каждом заголовке и описании и попытаться самостоятельно определить рейтинг каждого из них.

     Именно  по такому принципу построены метапоисковые системы, где реализован смешанный алгоритм обработки информации. Обычно разрабатываются специальные программы для анализа полученных данных, благодаря которым на первом этапе происходит ранжирование множества описаний полученных документов, на втором ранг дополнительно корректируется согласно месту, на котором находится документ, и общему количеству документов, найденных по запросу (это позволяет оценить полноту поисковых баз конкретной системы).

     Подобная  обработка позволяет не только убирать  документы, в описании которых вообще нет ключевых слов как потенциально нерелевантные запросу, но и находить строгое соответствие в том случае, если все ключевые слова встречаются в описании документа полностью, что неизмеримо повышает качество и точность поиска.

 

    Заключение

           В ходе выполнения курсовой работы был произведен анализ проблемы поиска изображений в сети Интернет. А также были рассмотрены принципы работы метапоисковых систем.

     На  основе сделанного анализа пришли к заключению, что проблема поиска изображений может решаться за счет использования новых технологий распознавания изображений, а именно объектов изображенных на них. Тогда поисковая система «поймет» что хочет найти пользователь и будет выдавать релевантные результаты.

Информация о работе Технология поиска изображений в Интернете. Метапоисковые системы