Алексеев Е.Г., Богатырев С.Д. Информатика. Мультимедийный электронный учебник
13.7. Поиск информации в Интернет

Поисковая система – это комплекс программ и мощных компьютеров, автоматически просматривающих ресурсы Интернет, которые они могут найти, и индексирующих их содержание. Поисковые системы могут отличаться по эффективности поиска, по языку поиска (русский, английский и др.) и по некоторым другим возможностям. Например, одни поисковые системы находят информацию только в виде Web-страниц, другие могут просматривать и группы новостей, и файловые серверы. Результатом поиска являются гиперссылки на документы, содержащие требуемую информацию.

Наиболее известны следующие системы для поиска информации в международных информационных ресурсах:

Alta Vista (http://www.altavista.com/);

Google (http://www.google.com/);

Yahoo (http://www.yahoo.com/);

Infoseek (http://www.infoseek.com/);

Hot Bot (http://www.hotbot.com/)/.

Для поиска информации в российских информационных ресурсах:

Яндекс (http://www.yandex.ru/).

Рамблер (http://www.rambler.ru/);

Апорт (http://www.aport.ru/).

Для поиска информации в Интернет с использованием поисковой системы необходимо перейти на ее WEB - страницу, набрав электронный адрес или воспользоваться гипертекстовой ссылкой на эту систему.

Поисковые системы могут быть 2-х типов: универсальные и специализированные. Наиболее популярные современные поисковые системы сочетают в себе оба типа.

В универсальных системах используется обычный принцип поиска в неструктурированных документах - по ключевым словам. Ключевым словом (Keyword) документа называется отдельное слово или словосочетание, которое отражает содержание данного документа.

На начальной странице поисковой системы обычно расположено обширное меню тем и поле для ввода запроса, иногда можно задать язык для поиска. Для поиска документов по ключевому слову надо ввести это слово в поле для ввода запроса и нажать кнопку “Search” (или “Поиск” в русских системах), расположенную рядом с полем ввода. Для поиска можно использовать словосочетание; для этого надо словосочетание заключить в двойные кавычки. В некоторых системах можно осуществлять поиск по части слова, оставшаяся часть слова заменяется знаком “*”, как в шаблоне имени файла. Знаки “+” и “-” перед словом требуют обязательного присутствия или отсутствия этого слова в документе.

Существует также кнопка перехода к расширенному поиску (Advanced Search). Главное отличие расширенного поиска - использование в запросе логических операторов и круглых скобок. Для построения сложного запроса используются логические операторы AND (И), OR (ИЛИ), NOT (НЕТ) и NEAR (около; не далее чем в 10 символах). Логические операторы ставятся между словами или словосочетаниями. Здесь могут использоваться даты документов размер документов и другие критерии. Интерфейсы расширенного поиска у разных поисковых систем существенно отличаются; для наиболее эффективного использования нужно внимательно почитать раздел Advanced Search Help поисковой системы.

Поисковые системы обычно состоят из трех компонентов:

Поисковые роботы - это специальные программы, которые занимаются поиском страниц в сети, извлекают гипертекстовые ссылки на этих страницах и автоматически индексируют информацию, которую они находят для построения базы данных.

При запросе к поисковой системе база данных отыскивает предмет запроса, основанный на информации, указанной в заполненной форме поиска, и выводит список ссылок на документы, соответствующих запросу. В этом списке представлены ссылки на различные Web-страницы, причем ссылки располагаются по степени убывания встреченных на данных страницах слов, совпадающих с ключевыми словами. При просмотре списка необходимо выбрать те страницы, которые нужно просмотреть. Некоторые системы составляют список ссылок по степени свежести страниц, другие же - по степени вероятности того, что данные страницы окажутся искомыми.

Специализированные справочные службы - это тематические каталоги, в которых собраны структурированные сведения об адресах серверов по той или иной тематике. Ссылки в такие каталоги заносятся не автоматически, а с помощью администраторов. Они стараются сделать свои коллекции наиболее полными, включающими все доступные ресурсы на каждую тему. В результате пользователю не нужно самому собирать все ссылки по интересующему его вопросу, а достаточно найти этот вопрос в каталоге - работа по поиску и систематизации ссылок уже сделана за него. Как правило, хорошие каталоги Интернет обеспечивают разнообразный дополнительный сервис: поиск по ключевым словам в своей базе данных, списки последних поступлений, списки наиболее интересных из них, выдачу случайной ссылки, автоматическое оповещение по электронной почте о свежих поступлениях.

Поисковые каталоги предназначены для поиска по темам. Обычно они построены по иерархическому принципу, т.е. каждый шаг поиска это выбор подраздела с более конкретной тематикой искомой информации. На нижнем уровне поиска пользователь получает относительно небольшой список ссылок на искомую информацию.

Для того чтобы обойти всю сеть, мощному роботу нужно от нескольких дней до нескольких недель. При этом составляется свежий и подробный индекс - опись доступных ресурсов. При каждом новом цикле индекс обновляется, и старые недействительные адреса удаляются. Однако автоматизированный подход приводит к тому, что индекс оказывается засоренным большим количеством профессионально слабых, неинформативных адресов, которые пользователь нередко и получает в результате поиска.

Каталоги составляются администраторами, просматривающими каждый новый сайт прежде, чем включить его в индекс. Качество информации каталогов выше, и нетематическая информация попасть в каталог просто не может; но коллектив редакторов может не поспевать за темпами расширения Интернета. Кроме того, чем дальше, тем больше в каталоге накапливается заброшенных или устаревших адресов - его не успевают чистить. В отличие от роботов, каталоги индексируют документ не по наиболее часто встречающимся словам, а по тем ключевым словам, которые вводятся администраторами.

Если пользователя интересует хорошо разработанная и часто востребуемая тема, популярный материал, то проще воспользоваться специализированным каталогом, обычно расположенным на первой странице каждой поисковой системы. Метод работы здесь как в обычной библиотеке: двигаясь от общего к частному, достигается список нужных сайтов. Для более специального поиска, как правило, необходимо использовать ключевые слова.

Помимо услуг по нахождению сайтов, поисковые системы предоставляют широкий перечень разнообразной сопутствующей информации, например: новости, гороскопы, почтовые ящики, электронная коммерция, котировки акций, погода, спорт, географические карты, программы телевидения, лотереи и т.д.

Содержание