Поисковик, поисковая система интернета, одно из самых удивительных явлений в интернете. Они используют целый список операций, что позволяет им обеспечить релевантные результаты в выдаче на поисковый запрос. В статье попробуем перечислить их.

1. Первый шаг поисковиков. Проход, сканирование сети. Поисковик использует автоматическую программу, называемую ботом, или спайдером, и, применяя гипертекстовые структуры сети, обходит страницы и документы, которые составляют WWW . По разным оценкам существует около 15-20 миллиардов страниц, в базе поисковиков от 8 до 10 милл.

2. Индексация страниц. После скачивания спайдером странички ее текстовое содержание индексируется, то есть сохраняется в огромной базе документов, которая и составляет “индекс” поисковой системы. Управлять индексом приходится используя крупные машинные ресурсы, ведь запросы пользователей должны быть быстро обработаны (доли секунд).

3. Обрабатывание запроса. Запрос на информацию от пользователя поступает к поисковой системе (а таких запросов миллионы каждый день), система извлекает из своего невероятного индекса документы, которые наиболее соответствуют этому запросу. Само соответствие определяется путем морфологической и статической обработкой текста, то есть слово или фраза запроса должно находится на данной страничке в том виде, который определил пользователь.

4. Ранжирование поисковых результатов. Поисковой выдачи в индексе поисковиков на любой внятный и правильный запрос окажется скорее всего очень много. После нахождения поисковиком результата, особый алгоритм поиска, это сложное математическое уравнение, которое используют для поиска, производит расчет для определения самых релевантных, наиболее подходящих запросу результатов. Сама сортировка результата выдачи проходит, естественно, в порядке убывания релевантности. Поисковые системы, такие как Google и MSN, являются одними из самых дорогих и сложных вычислительных систем компьютеров в мире. Производят миллионы расчетов за секунду, обрабатывают запросы огромного числа пользователей.

Какой информации поисковики могут доверять? Поскольку поисковая система индексируют прежде всего ссылки и текстовый контент страниц, она определяют степень доверия к сайту или странице, исходя из их контента. Но до 1998 года обращалось внимание на «метатеги» страниц, которые заполнялись самим автором, исходя из содержания сайта. Что конечно же привело к злоупотреблениям и мошенничеству. Нечестные авторы сайтов вбивали в метатеги странички фразы, которые соответствовали популярным запросам пользователей. Напишет такой автор в заголовке страницы что-нибудь типа — «создание интернет-магазинов нижний новгород» или же «продвижение сайтов нижний новгород», страничка попадает в индекс поисковика, тот выдает ее адрес пользователю, который хочет узнать, как «продвинуть» сайт в Нижнем. А на страничке на самом деле — адреса автосервисов Казани! Да-а, нехорошо получилось, обман… (это шутка).

По теории, когда сотни и тысячи сайтов ссылаются на ресурс, то этот сайт должен быть очень популярным, иметь ценность. Если на ресурс ссылаются очень популярные и важные, заслуживающие доверия сайты, то совокупная ее популярность приводет к большей степени авторитета и популярности. Гиперссылки на ваш сайт с таких сайтов, как Кремлин.Ру, NYTimes . com , Whitehouse . gov и тому подобных, поднимут доверие к вам со стороны поисковиков на заоблачную высоту. Но с другой стороны, если ссылки (линки) на Ваш сайт стоят на низкокачественных, взаимоперелинкованных сайтов, (в английском применяют термин «линкоферма», на русском говорят грубее: «линкопомойка»), то поисковые системы могут значительно уменьшить степень доверия к вашему сайту («фильтр», «пессимизация», «песок» — как богат и образен наш язык!)