Поиск в Интернете

При возникновении проблем с воспроизведением видеоуроков, установите на свой компьютер пакет видеокодеков. Если у вас возникли проблемы с установкой кодеков, обратитесь к администратору вашей сети

Проблема поиска во Всемирной паутине не в том, что информации мало, а в том, что ее много. Поэтому отыскать то, что нужно, порой достаточно трудно. Вообще, поиск информации в Интернете — краеугольный камень эффективной работы в Сети. Владение навыками поиска делает Интернет для пользователя полезным инструментом для работы и отдыха. В этой главе поговорим о том, как правильно искать в Сети необходимую информацию. Кроме того, разберемся с поиском файлов (который имеет некоторые особенности по сравнению с поиском текстовой информации), картинок и других ресурсов.

Поисковые серверы. Некоторые правила поиска

Для организации поиска в Интернете существуют специализированные службы, называемые поисковыми серверами. На практике — это веб-сайты, где можно набрать в соответствующей строке ключевые слова, касающиеся интересу­ющей темы, и получить множество ссылок на ресурсы с нужной информацией. Например, на запрос домашние животные поисковый сервер «Яндекс» (по­дробнее о нем см. ниже) выдает более 14 000 000 ссылок на страницы, содержащие нужные, на его взгляд, сведения. Однако далеко не все так гладко: при посещении некоторых найденных страниц выясняется, что искомой информации на них недостаточно, а то и вовсе нет.

Чтобы искать с максимальной результативностью, не лишне будет знать, как работают поисковые серверы.

Принципы работы поисковых серверов

Поисковый сервер — это довольно сложная программа, точнее комплекс программ, в которых используются специальные алгоритмы анализа содержимого веб-сайтов в масштабах всего Интернета.

Интересный момент: на обработку того же запроса домашние животные у «Яндекса» ушло менее секунды. Невольно возникает вопрос: «А можно ли проанализировать весь Интернет за столь короткое время?» Однозначный ответ на это: «За столь короткое время проанализировать весь Интернет нельзя». Тем не менее факт остается фактом: на обработку запроса затрачено меньше секунды. Ответом на возникшее недоразумение будет описание принципов работы поисковых серверов.

Работа над запросом конкретного пользователя (а заодно и над всеми другими возможными запросами) началась задолго до его введения. Специальная программа, называемая «пауком», просматривает содержимое веб-сайтов. Ее задачи чем-то схожи с задачами обычного веб-браузера, только вместо того, чтобы показывать страницы на экране, «паук» передает их содержимое другой программе — «путешествующему пауку». Задача «путешествующего паука» — вычленение из загруженной страницы ссылок на другие сайты, по которым снова направляется «паук». Цикл этот повторяется многократно, точнее непрерывно.

На этом работа не заканчивается. За дело принимается программа-индексатор, которая, используя определенные правила, анализирует полученные «пауками» страницы и формирует сложную базу данных поискового сервера. Вот эта самая база данных потом и выдает результаты поиска, которые появляются после обработки введенного запроса. На принципах работы индексатора остановимся поподробнее, так как именно от него зависит то, что войдет в результаты поиска.

В основе работы большинства современных поисковиков лежит индекс цитирования, который вычисляется индексатором в результате анализа ссылок на текущую страницу с других страниц Интернета. Чем их больше, тем выше индекс цитирования анализируемой страницы и тем выше эта страница будет отображена в результатах поиска. Кроме того, учитывается индекс цитирования страниц, которые ссылаются на страницу, изучаемую индексатором.

Кроме индекса цитирования учитываются также следующие параметры:

 наличие искомых слов в заголовке страницы или названии сайта;
 частота повторений искомых слов на странице;
 размер шрифта, которым на странице написаны слова из поискового запроса, а также выделение этих слов шрифтами и стилями;
 тематика ссылающихся сайтов и некоторые другие.

После ввода запроса пользователем за дело берется последнее звено поискового сервера — система выдачи результатов. В итоге анализа и сопоставления упомянутых выше показателей эта система определяет степень соответствия содержимого страницы условиям запроса. Чем эта степень больше, тем выше страница будет представлена в списке найденных ресурсов.

Возвращаясь к вопросу о скорости обработки запроса, отмечу, что такая высокая скорость обеспечивается за счет того, что страницы Интернета проиндексированы заранее, а результаты поиска составляются на основе информации из базы данных поискового сервера.

Такой способ, как несложно догадаться, имеет очевидный недостаток, заключающийся в том, что содержимое веб-страниц может со временем изменяться, а «паук» не будет успевать найти их и обработать, следовательно, результаты поиска будут неточными. Еще раз, упомянув о времени, необходимом поисковому серверу для просмотра и индексации всего Интернета, скажу, что на это у разных поисковиков уходит от нескольких суток до нескольких недель в зависимости от алгоритма обработки информации. Так что сайты, появившиеся в Сети недавно, в результатах поиска представлены не будут.

Разработчики поисковых серверов борются с этим разными способами и с переменным успехом. Например, большинство современных поисковиков предоставляет такой сервис, как поиск по новостным лентам, обновляющимся каждые несколько минут, и поэтому они чаще индексируются поисковиками. Как бы там ни было, лучшего способа, чем предварительная индексация страниц, сегодня не существует.

Правила построения поисковых запросов

Как уже отмечалось, в Интернете существует множество поисковых серверов, отечественных и зарубежных.

Российские поисковые серверы:

 «Яндекс» — www.yandex.ru;
 «Рамблер» — www.rambler.ru;
 «Апорт» — www.aport.ru;
 Gogo — www.gogo.ru.

Зарубежные поисковые серверы:

 Google — www.google.com;
 Altavista — www.altavista.com;
 Yahoo! — www.yahoo.com.

Для поиска на русском языке лучше подходят российские серверы, на иностранном — зарубежные, хотя, например, Google неплохо справляется с поиском на многих языках. Подробнее о наиболее популярных поисковых системах поговорим позже, рассматривая расширенные возможности поиска, так как у каждой из этих систем есть свои особенности. Сейчас остановимся на некоторых базовых правилах построения поисковых запросов, общих для всех поисковиков.

Несмотря на заявления многих владельцев поисковых серверов, что запросы могут быть написаны практически на языке, который люди используют для общения между собой, это далеко не так. По всей видимости еще не скоро наступит время, когда компьютер и человек смогут общаться на естественном (для человека) языке. Впрочем, нужно отдать должное поисковым серверам: в последнее время они стали гораздо лучше понимать пользователя, и результаты поиска теперь больше соответствуют ожиданиям, чем это было несколько лет назад. Произошло это во многом благодаря внедрению новых языковых технологий.

Из вышесказанного следует, что на практике рядовому пользователю находить нужную информацию стало проще. Поисковики теперь ищут не только запрашиваемое слово, но и его словоформы, что позволяет делать результаты поиска более точными. Например, если в поисковом запросе присутствует слово умный, то его результаты будут содержать не только это слово, но и его производные: умного, умная, а также ум и даже разум. Конечно, страницы со словоформами будут не в числе первых результатов поиска, но элементы искусственного интеллекта налицо. Этот факт полезно учитывать при построении поисковых запросов. Теперь расскажу еще о нескольких таких фактах.

Поисковые серверы при обработке запроса не учитывают регистр символов. Поэтому запросы Отдых в Турции и отдых в турции с точки зрения поисковика идентичны.

Также следует помнить, что применять знаки препинания в поисковых запросах вовсе не обязательно, точнее, даже не нужно, так как они также игнорируются поисковыми серверами. Зато многие традиционные знаки препинания могут быть использованы при построении сложных расширенных запросов, результаты поиска по которым обычно гораздо ближе к ожидаемым.

Большинство поисковых серверов (кроме, пожалуй, Google) также игнорирует короткие слова, не несущие смысловой нагрузки. В русском языке это предлоги, союзы и т. д., в иностранных, например, артикли.

Многие поисковые серверы позволяют бороться с опечатками и неправильной раскладкой клавиатуры. Наверняка многим читателям часто случалось набрать при включенной английской раскладке клавиатуры русское слово, и получалось, например, gfhjdjp вместо паровоз. Тот же «Яндекс» сразу определит, что здесь что-то не так и вверху страницы с результатами поиска выдаст ссылку: Быть может, вы искали: паровоз, перейдя по которой можно получить страницу с правильными результатами. Аналогично можно бороться с опечатками. Если поисковому серверу покажется, что в слове допущена ошибка или опечатка, то он предупредит об этом той же фразой: Быть может, вы искали.

Поговорим о том, какие слова лучше взять для запроса поисковому серверу. Во-первых, из интересующей пользователя темы нужно взять самые важные по смыслу слова, отражающие только суть вопроса. Например, если необходим материал по теме «Ловля пингвинов в Антарктиде в условиях полярной ночи», то вовсе не обязательно писать фразу целиком, результаты поиска в этом случае, скорее всего, не устроят запрашивающего, так как будет много лишнего. Есть выражение «Машина должна работать, человек — думать», и сказано оно как раз о такой ситуации. Задача пользователя при составлении поискового запроса — выделить ключевые слова, задача поискового сервера — наилучшим образом обработать введенный запрос. В рассматриваемом примере ключевыми можно считать слова ловля пингвинов. Ведь известно, что кроме Антарктиды они нигде больше не водятся, ну а «полярную ночь» стоит отбросить хотя бы потому, что в реальности в таких условиях работать достаточно сложно.

Этот ироничный пример иллюстрирует, что пользователь, основываясь на своих знаниях и логике, должен выделить только необходимые ключевые слова, не перегружая запрос лишними терминами.

Рассмотрим пример, иллюстрирующий типичные ошибки начинающих пользователей при поиске в Интернете. На запрос загадки о музыкальных инструментах поисковик не выдал полезных результатов. Тогда пользователь решает исправить запрос, дополнив его и написав: загадки для детей о музыкальных инструментах — результаты поиска оказались еще хуже предыдущего. В такой ситуации говорят, что условия запроса стали более жесткими в отличие от более мягких, установленных в предыдущем случае. Для данного примера неплохим решением, как показала практика, явился поиск по ключевому слову загадки. В Интернете много таких сайтов, а зайдя на сам сайт и немного поискав по его разделам, вполне можно найти интересу­ющую информацию.

Рассуждая о том, какие слова нужно использовать в поисковом запросе, можно сформулировать несколько правил:

 выбирайте только самые важные ключевые слова, касающиеся рассматриваемой темы;
 слов не должно быть слишком много или слишком мало; некоторые считают оптимальным запрос, состоящий из трех-четырех слов, однако в разных случаях это количество может различаться;
 при неудовлетворительных результатах поиска попробуйте применить более мягкие условия для запроса, но ни в коем случае не более жесткие;
 если вы не удовлетворены результатами поиска на одном поисковом сервере, то попробуйте поискать на другом; механизмы работы у серверов неодинаковые, так что результаты могут различаться коренным образом.

Надеюсь, что вышеизложенная информация поможет читателям находить в Сети необходимые сведения. Если найти что-то все равно никак не удается, то на помощь придут расширенные методы поиска.

Поисковые запросы: подробно

Для обеспечения более эффективного поиска в Интернете поисковые серверы предоставляют возможность расширенного поиска, а также поиска с использованием языка запросов. Чтобы разграничить эти понятия, дам их определения.

Расширенный поиск — возможность поиска с указанием множества различных параметров. Для этого в поисковиках предусмотрены отдельные страницы, на которых можно задать такие параметры. Принципы работы расширенного поиска схожи у большинства поисковиков.

Язык запросов — система команд, позволяющая изменять параметры запроса из основной строки поиска с помощью специальных команд. Ориентирован на опытных пользователей.

Рассмотрим дополнительные возможности поиска на примерах поисковиков «Яндекс» и Google. Почему именно на них? Потому что «Яндекс» — самый популярный поисковый сервер в русскоязычном Интернете, а Google — самый популярный поисковик в мире. Впрочем, с успехом можно пользоваться и другими поисковыми системами, но мы пока остановимся на двух упомянутых.

Поисковый сервер «Яндекс»

Этот поисковик — один из старейших в русскоязычном сегменте Сети. «Яндекс» начал свою деятельность еще в 1997 году, когда Интернет только начал развиваться на постсоветском пространстве. Постепенно набирая обороты, «Яндекс» сегодня стал самым популярным поисковым сервером в русскоязычном Интернете, его ежедневная аудитория составляет более 4 000 000 человек. Около половины всех русскоязычных пользователей Интернета пользуются его услугами. При поиске в Интернете «Яндекс» одним из первых стал учитывать морфологию русского языка, то есть использовать различные формы слова, о чем говорилось выше.

Зайдя на сайт www.yandex.ru, пользователь может ввести запрос и тут же получить результаты поиска. Можно также воспользоваться присутствующей там же ссылкой Расширенный поиск и перейти на соответствующую страницу (рис. 3.1), на которой тонко настроить параметры поиска.

Нажмите для увеличения
Рис. 3.1.  Страница расширенного поиска «Яндекса»

Рассмотрим дополнительные возможности, которые можно использовать на странице расширенного поиска.

В поле Я ищу набираем запрос. Под данным полем расположена надпись («используйте минус перед словом для его исключения»), следует взять это на заметку. Такая возможность бывает полезна, когда искомый термин имеет несколько значений. Например, если необходима информация о машине времени (устройстве), то в поле следует указать машина времени -группа, чтобы исключить из результатов поиска сайты, содержащие информацию об одноименном популярном музыкальном коллективе.

В разделе Искомые слова необходимо выбрать расположение слов в тексте сайта. Здесь можно настроить расположение слов относительно друг друга, расположение их на странице, а также форму употребления в тексте. Здесь все ясно из названий, однако поясню, что переключатель употреблены в тексте можно установить в одно из двух положений: в любой форме или точно так, как в запросе. Выбором последнего варианта поисковику указывается, что морфологию слова изменять не нужно, а искать только ту форму слова, которая задана.

В разделе Страницы можно указать параметры искомого документа, настроив значения следующих элементов.

 язык — в данном раскрывающемся списке доступны варианты: любой, русский, английский, французский, немецкий, украинский, белорусский.  Повторю, что сайты на иностранных языках искать все же лучше с помощью иностранных поисковых серверов.

 дата — в данном поле указывается дата последнего обновления сайта (вариант выбирается из предложенных диапазонов дат или задается пользователем).

 формат — среди доступных форматов интересующего документа — HTML, PDF, RTF, DOC, XLS, PPT и SWF.

 находятся на сайте — в данном поле можно указать сайт, на котором необходимо искать информацию (если интересует не весь Интернет, а только конкретный его ресурс). Эту функцию удобно применять, если пользователь знает качественный сайт, на котором много информации на интересующую его тему. Логично, что гораздо эффективнее поискать ответ на вопрос именно на нем, чем по всей базе сайтов. Поиск по сайту также выручает, когда на каком-либо сайте нет функции поиска (правда, следует помнить, что «Яндекс» мог проиндексировать не все страницы сайта).
 похожи на страницу — в поле указывается страница, на которую должен быть похож найденный ресурс. Анализируя документ, заданный пользователем в качестве образца, «Яндекс» подбирает страницы, отвечающие запросу столь же хорошо.
 регион — в поле устанавливается географический регион поиска.
 В результатах поиска показывать ссылок на странице — с помощью значений раскрывающегося списка указывается количество ссылок, выводимое на каждой странице.

Выполнив все настройки, остается нажать кнопку Найти и изучать результаты поиска.

Кроме расширенного поиска «Яндекс» позволяет использовать язык запросов, ориентированный на опытных пользователей, и дает возможность еще более тонкой настройки параметров запроса. Поскольку язык запросов до­статочно сложен и объемен, приведу здесь лишь основные его конструкции, которые могут быть наиболее востребованы пользователем. Полностью со структурой языка запросов «Яндекса» можно познакомиться на странице http://help.yandex.ru/search/?id=481939.  Основные команды языка запросов «Яндекса» представлены в табл. 3.1.


Таблица 3.1.
Основные команды языка запросов поискового сервера «Яндекс»

Команда

Значение

Комментарий

" (кавычки)

Искать точно в соответ-ствии с запросом

Полезно использовать при поиске цитат, например: «я помню чудное мгновенье» или для задания порядка следования слов

+ (плюс)

Обязательно искать слово

Как уже говорилось, некоторые короткие слова игнорируются при поиске, поэтому для их принудительного включения в результаты поиска можно использовать эту команду, например +быть +или +не быть

~~ (две тильды без пробела)

Исключать слово из результатов поиска

Команда полезна при поиске слов, имеющих множество значений. Например, при запросе гостиница москва ~~город из результатов поиска будут исключены страницы, где речь идет о городе Москве

& (амперсанд)

Слова должны встречаться в одном предложении

Запрос культура & Китая найдет страницы, где есть сочетания слов «культура Древнего Китая» или «Китай и его культура»

&& (два амперсанда без пробела)

Слова должны встречаться в одном документе

По запросу продажа & сканеров && Новосибирск найдутся страницы, где в одном предложении должны встретиться слова «продажа» и «сканеры», и где угодно на странице должно быть слово «Новосибирск»

/ (слэш)

Указание максимально допустимого расстояния между словами, после знака / сразу должна следовать цифра

Запрос великий /2 хурал найдет страницы, где есть фразы «хурал великий», или «великий народный хурал», или «великий государственный хурал», но не найдет страниц, где есть словосочетание «великий государственный народный хурал» (расстояние между словами равно трем, а в запросе цифра 2)

| (вертикальная черта)

Искать любое из слов

Например, при запросе веник | метелка | пылесос поисковик выдаст страницы, на которых встречается хотя бы одно из этих слов

! (восклицательный знак)

Не изменять морфологию слова

Запрос!день найдет страницы, где слово «день» встречается только в такой форме, то есть в именительном падеже. Данная команда полезна при поиске имен собственных, имеющих такое же написание, как и другое слово, но не являющееся названием, так как позволяет учитывать регистр символов. Например: село! Красное

!! (два восклицательных знака)

Задать первоначальную форму слова

Если одна или несколько форм слова совпадают с другими словами, то поиск может находить лишние страницы. При указании первоначальной формы слова из поиска убираются многие ненужные страницы. Например, запрос!!день найдет все формы этого слова: «дня», «дню», «днем» и др., но не найдет форм слова «деть» (одна из которых совпадает со словом «день»)

Это основные (но не все) возможности языка запросов «Яндекса». Применяя их, можно значительно облегчить себе задачу поиска нужного документа.

Google

Поисковик Google был основан двумя аспирантами Стэндфордского университета Лари Пейджем и Сергеем Брином, выходцем из бывшего СССР. В 1996 году они начали сотрудничать с поисковым сервером BackRub, который работал по принципу back links — «обратные ссылки». Эта формула определяла количество ссылок, ведущих на заданный сайт. Создатели справедливо решили, что на популярный и интересный сайт ссылаться будут гораздо чаще, чем на скучный и полумертвый ресурс. Этот принцип и лег в основу поискового сервера Google. Поисковик снабжен очень дружелюбным интерфейсом. Пользователь, впервые попавший на сайт поисковой системы Google, удивится чистому окну, не содержащему практически ничего, кроме строки поиска.

Сейчас поисковая система Google обрабатывает ежедневно около 50 000 000 поисковых запросов и индексирует более 8 000 000 000 веб-страниц. Google может давать информацию более чем на 100 языках.

Как и в «Яндексе», в Google присутствует возможность расширенного поиска и использования языка запросов.

Страница расширенного поиска Google (рис. 3.2), попасть на которую можно, нажав на ссылку Расширенный поиск на главной странице поисковика, очень похожа на свой аналог из «Яндекса».

Нажмите для увеличения
Рис. 3.2.  Страница расширенного поиска Google

Различия страниц настройки поисковиков разве что в количестве языков, на которых можно вводить запрос (их гораздо больше), и в возможности отсеивать результаты с определенными правами использования (коммерческие, некоммерческие и т. п.). Остальные возможности настройки параметров практически идентичны. Язык поисковых запросов в Google отличается от «Яндекса», хотя есть и некоторые общие моменты. Рассмотрите основные команды этого языка, изучив табл. 3.2.


Таблица 3.2.
Основные команды языка запросов Google

Команда

Значение

Комментарий

OR (или)

Искать любое из слов

Аналог команды «Яндекса» |. Например, при запросе веник OR метелка OR пылесос поисковик выдаст страницы, на которых встречается хотя бы одно из этих слов

" (кавычки)

Ищет точно в соответствии с запросом

Полный аналог кавычек в «Яндексе». Полезно использовать при поиске цитат, например: «я помню чудное мгновенье» или для задания порядка следования слов

— (минус)

Исключать слово из результатов поиска

Аналог команды «Яндекса» ~~. Команда может быть полезна при поиске слов, имеющих множество значений. Например, при запросе гостиница москва -город из результатов поиска будут исключены страницы, где речь идет о городе Москве

+ (плюс)

Не изменять морфологию слова

Аналог команды! «Яндекса». Например, запрос +день найдет страницы, где слово «день» встречается только в такой форме. Эта команда может пригодиться и при поиске имен собственных, име-ющих такое же написание, как и другое слово, но не являющееся названием, так как позволяет учитывать регистр символов. Например, село +Красное

* (звездочка)

Слова должны находиться рядом

Похожа, но не в точности на команду «Яндекса» &. Запрос красный * черный найдет страницы, где слова «красный» и «черный» разделены одним или несколькими словами

~ (тильда)

Синонимы слова

По запросу аренда ~жилья будут найдены страницы, содержащие слова «аренда домов», «аренда квартир» и т. п.

define: (определять с двоеточием)

Найти определения значения слова в Интернете

Запрос define:компьютер покажет найденные определения слова «компьютер»

site: (сайт с двоеточием)

Искать только по заданному сайту

В результате запроса знакомства site:www.mail.ru будут найдены все страницы сайта www.mail.ru, содержащие слово «знакомства»

[#]...[#] (цифра многоточие цифра)

Диапазон чисел

По запросу 100...120 будут найдены страницы, содержащие числа от 100 до 120, причем даже дробные, например 102,4