Портал создан при поддержке Федерального агентства по печати и массовым коммуникациям.

ТРОПОЙ СЛЕДОПЫТА. ПОИСК В ИНТЕРНЕТЕ

Г. ШМЕРЛИНГ.

На протяжении всей истории человечество накапливало информацию. Прогрессивное развитие было бы невозможно без ее тщательного сбора, надежного хранения и передачи последующим поколениям. Сегодня мы переживаем эпоху "информационного бума", когда процесс накопления информации принял характер обвала. Он привел к возникновению компьютерной индустрии, повлиял на развитие науки и техники. Но поскольку этот процесс происходил, как правило, стихийно, информация не систематизировалась должным образом, накапливаясь как попало. А без систематизации информация бесполезна, она просто перестает быть информацией, превращаясь в шум, хаос... Повсеместное распространение персональных компьютеров и Интернета резко увеличило возможности передачи информации и одновременно уменьшило ее "полезную плотность", разбавив "водой" - рекламой, бесполезными и бессмысленными сообщениями. Это привело к тому, что многие современные фирмы готовы платить большие деньги уже не за производство информации, а только лишь за ее поиск и переработку. Говорят, что в Интернете "есть все". Однако, как найти именно то, что вам нужно? Об этом и пойдет речь в рубрике "Человек и компьютер".

Всемирная свалка?

Ежедневно тысячи людей открывают для себя Интернет, впервые запуская Web-браузер и погружаясь в мир Сети. Яркие вывески, новости, мелькание рекламы - этот поток захватывает и несет, словно шумная улица курортного города. Щелчок мышью по заманчивой картинке - и новый прыжок, возможно, через океаны и континенты. Не зря сетевые странствия наудачу называют серфингом, как катание по волнам.

Обеспечим библиотеки России научными изданиями!

Блуждать в Сети можно бесконечно, забывая о еде и сне, открывая для себя все новые и новые пространства... Но вот вы решили заняться конкретным делом - и вдруг понимаете, насколько вы беспомощны и потерянны в этом безбрежном и постоянно меняющемся океане информации.

Несмотря на свое название Всемирная Паутина не похожа на изящное изделие трудолюбивого паучка. Едва ли можно сравнить ее и с пресловутым стогом сена, в недрах которого затерялась иголка. Скорее она напоминает огромный и непрерывно пополняемый склад иголок, гвоздей, шурупов и прочих деталей всех мыслимых видов и размеров. Ни рядов полок, ни кладовщика на этом складе нет, все свалено в кучу - так что злые языки не без оснований называют Сеть всемирной свалкой.

И все же есть в Сети свои дорожки и ориентиры, знать которые просто необходимо начинающему "следопыту". Есть также специальные средства поиска - речь о них впереди.

То, что не надо искать

Как говорят удачливые рыболовы - места знать надо! Вот список узлов российского Интернета, которые могут понадобиться всем и каждому. Он не претендует на полноту, но для начала будет неплохим подспорьем.

Новости дня - www.polit.ru, http://gazeta.ru

Новости, взаимопомощь по компьютерным проблемам, масса ссылок на ресурсы Сети - www.infoart.ru

Все сведения о компьютерном "железе" - www.ixbt.ru

Товары и цены компьютерных фирм - www.price.ru, www.newman.ru

Бесплатные и условно-бесплатные российские программы - www.download.ru

Выберите Интернет-провайдера - www.providers.ru

Энциклопедия потребителя (обзоры товаров) - www.potrebitel.ru

Найти работу или подобрать сотрудников - www.job.ru, www.jobs.ru, www.pointjob.ru

Недвижимость. Купля-продажа, обмен, оценка жилья - www.realty.ru

Валюты, финансы, ценные бумаги - www.rbc.ru

Автомобили - www.auto.ru, www.cars.ru

Медицина: для вас... - www.mr.ru

И для компьютера (антивирусы) - www.dials.ru

Электронная библиотека - www.lib.ru

Погода - www.pogoda.ru

Впрочем, прогноз погоды, курс доллара и последние известия вы увидите на первой же странице многих крупных узлов Сети - порталов, старающихся привлечь посетителей и стать для них привычным местом старта в сетевых путешествиях.

Каталоги

Сетевые средства поиска делятся на две основные группы: каталоги и полнотекстовые поисковые системы.

Каталоги устроены по принципу библиографических справочных систем, в которых каждой книге или статье отведено определенное место в предметном либо авторском указателе. В сетевом каталоге ссылки рассортиро ваны по тематическим рубрикам и снабжены аннотациями. Переходите от одной рубрики к другой, ищите, читайте, выбирайте - как в каталоге любой библиотеки.

В отличие от библиотечного каталога, сетевой позволяет значительно ускорить работу: на его титульной странице обязательно присутствует окошко для поиска. Введите ключевые слова, и вы сразу получите список рубрик и ссылок, в которых они встретились.

Как составляются каталоги? Как правило, это результат совместных усилий авторов Web-публикаций, проявляющих инициативу, и постоянной работы "сетевых библиографов". Чтобы новый Web-сайт попал в тот или иной каталог, автор должен послать в службу регистрации заявку с аннотацией своего сайта (для этого на титульной странице любого каталога имеется кнопка "Добавить URL"). Редколлегия каталога проверит предлагаемый ресурс и его описание, после чего будет принято решение - включать ли новый сайт в каталог и к каким категориям и рубрикам следует его отнести. При этом адекватная рубрикация может оказаться непростой задачей. Где искать, например, сведения о новшествах в технологии микросхем? Они могут оказаться и в "Электронике", и в "Новых технологиях", в разделе о компьютерном "железе", а возможно, и в разделе по фундаментальным наукам - "Физике" или "Химии".

Очевидно, что не все авторы проявляют инициативу, а силы редакторов небезграничны - обычно в каталог попадают лишь основные ссылки по той или иной теме. На полноту отражения информации в каталоге рассчитывать не приходится.

Другой недостаток каталога в том, что часто представленные в нем ссылки на поверку оказываются "мертвыми душами": Web-страница переехала на другой сервер или вовсе приказала долго жить, о чем ее автор скромно умолчал, а ссылка осталась. Автоматическая проверка ссылок не позволяет полностью решить проблему, так как тот или иной сайт может быть временно недоступен по техническим причинам, и решение об удалении неработающей ссылки должен принимать редактор.

Каталог хорош в качестве "стартовой площадки" для тематического обзора и поиска общих сведений по интересующей вас теме. Пожалуй, более эффективным по сравнению с поиском в полнотекстовой системе будет поиск в каталоге сайтов широко известных фирм, организаций, средств массовой информации. Например, сайт "Науки и жизни" был сразу же найден в рубрике "Научно-популярные журналы" каталога LIST.RU. А вот система полнотекстового поиска Rambler в ответ на запрос "журнал Наука и жизнь" выдала 4531 ссылку! Правда, на первой же странице с результатами поиска действительно попалась ссылка на журнал, которая через два перехода привела на тот же сайт.

Наиболее полные и популярные российские каталоги - www.list.ru, www.au.ru, www.ru, www.stars.ru. Они содержат ссылки на 20-30 тысяч сайтов и пополняются на несколько десятков-сотен ссылок ежедневно. В любом из них вы найдете ссылки на множество других тематических каталогов. Например, хороший список каталогов находится по адресу www.stars.ru/stat/iserv:search:catalog1.htm.

Любопытный каталог размещен на сервере поисковой системы Rambler. Это так называемый рейтинг-класси фикатор "Тор 100" (http://counter.rambler.ru/top100). Участвующие в нем сайты разбиты на 50 рубрик от "Авто-Мото" до "Электроники", в каждой из которых положение сайта зависит от его популярности, определяемой числом посетителей за текущий день. Заглянув в Top 100, вы сразу найдете самые популярные сайты по интересующей вас теме. Аналогичный рейтинг-каталог, имеющий разветвленную иерархическую систему рубрикации, создан на базе LIST.RU (www.top.list.ru).

Собираясь вести поиск в глобальном масштабе, начните с каталога Yahoo! (www.yahoo.com). Это самый популярный и старейший из каталогов Интернета, содержащий ссылки более чем на полмиллиона Web-страниц. Eсли Yahoo! не найдет ответа на ваш вопрос в своих анналах, запрос автоматически передается поисковой системе AltaVista. Работа с Yahoo! доступна только для владеющих английским языком.

Поисковые системы

В отличие от хранящих только аннотации каталогов, поисковые системы Интернета хранят весь текст Web-страниц, то есть являются полнотекстовыми. Поэтому с их помощью можно найти документы, содержащие те или иные конкретные слова! Очевидно, что столь гигантский объем информации должен обрабатываться автоматически. Человек только инициирует процесс: как и в случае с каталогами, автор страницы посылает поисковой системе заявку на "прописку" нового ресурса. Если заявка не подавалась, поисковая система может добраться до новой страницы и сама, найдя ведущую туда ссылку. Но это случится нескоро, поэтому, если вы создали в Сети свою страницу, обязательно "пропишитесь" в основных поисковых системах.

Первый компонент поисковой системы - спайдер (Spider - паук), он же робот или просто бот. Это программа -сканер, которая открывает указанную в заявке страницу, читает текст и индексирует его, то есть составляет указатель слов. Встретив на странице гиперссылки, бот отправится и по ним, чтобы исследовать все взаимосвя занные документы узла Сети.

Вся считанная ботом информация, то есть копии текста миллионов Web-страниц, накапливается в проиндекси рованном виде в гигантском информационном банке поисковой системы - ее индексе. Оценить масштабы работы можно на примере системы Яndex: на 15 часов 23.09.1999 г. объем проиндексированной информации составлял около 83 Гб, объем индекса - 32,5 Гб, количество обработанных системой серверов - 42 857 и число документов (уникальных URL) - 9 280 307.

Поисковая система не забывает однажды обработанный сайт: через какое-то время (обычно от недели до месяца) она снова пошлет бот по знакомому адресочку. Чем чаще проводится повторное индексирование, тем качественнее и актуальнее будут и результаты поиска. Конечно, "мертвые души" встречаются и здесь, но обычно риск встретить ошибочные ссылки при работе в поисковых системах меньше, чем в каталогах. Часто выручает реконструкция текста: хранящие полный текст документа системы позволяют прочесть его даже тогда, когда документа уже нет по исходному адресу или он временно недоступен из-за технических проблем.

Логика работы и возможности ботов разных поисковых систем неодинаковы. Естественно , разными будут и результаты индексирования, и результаты поиска. И, разумеется, нужная страница вовсе не обязательно попала именно в ту поисковую систему, с которой вы начали работать. Поэтому не ограничивайтесь работой с одной системой, используйте их объединенную мощь! Сделать это позволяют программы метапоиска, речь о которых пойдет ниже.

Функционирование робота и индексной базы скрыто от глаз пользователя. Обращаясь за помощью к поисковой системе, мы видим только "верхушку айсберга" - программу, принимающую по сети запросы и выдающую "на-гора" список найденных документов. Эффективность работы поисковых систем вызывает глубокое уважение: результаты появятся у вас перед глазами уже через десяток-другой секунд. И это при том, что каждую секунду система может получать несколько новых запросов, а число проиндексированных документов, в которых ведется поиск, измеряется миллионами.

Старейшая из российских полнотекстовых поисковых систем - Rambler компании Stack.Ltd (http://www.rambler.ru) начала работу в 1996 г. и располагает наиболее полным индексом. В тройку богатырей российского поиска входят также Яndex компании CompTek (http://yandex.ru) и Апорт компании Агама (http://www.aport.ru). Существует еще несколько систем, но пока они значительно уступают трем лидерам.

Из поисковых систем глобального масштаба попробуйте AltaVista (http://www.altavista.com), которая ищет и русскоязычные документы, а также Lycos (http://www.lycos.com), Excite (http://www.excite.com), HotBot (http://www.hotbot.com).

Задаем вопросы

Прежде чем поисковая система приступит к работе, надо ввести запрос в окошке поиска. Можно сформулиро вать вопрос так же, как вы задали бы его знающему человеку. Например: "Что известно о черных дырах?". При этом поисковая система проигнорирует стоп-слова - часто встречающиеся и не несущие смысловой нагрузки союзы, предлоги, наречия. Лучше убрать все лишнее сознательно, оставив в запросе только действительно важные - ключевые - слова. В нашем примере ключевые слова - "черная дыра". Слово "известно" встречается в текстах любой тематики и ключевым служить не может.

Независимо от того, в какой форме слово введено в запрос, Апорт, Яndex и Rambler смогут найти все его формы: черному, черная, дыра, дыр... и так далее, с учетом всех падежей, склонений и прочих хитростей русской морфологии. Не знающие русского языка поисковые системы глобального масштаба, например AltaVista, ограничатся точным совпадением. Для поиска словоформ им надо задать вопрос в виде "черн* дыр*" (символ звездочки разрешает далее подстановку любых букв). Правда, по запросу черн* будут найдены и чернуха, и Черномырдин... но тут уж ничего не поделать. Положение ключевых слов в документе и их порядок безразличны: если где-то в тексте упоминалось что-нибудь черное и любая дыра (в стене, кармане и т.д.) - документ попадет в наши сети.

Найденные документы обычно сортируются по релевантности - степени соответствия запросу. Поисковая система предъявляет результаты порциями по 10 ссылок с указанием первых строк документа (Яndex, Апорт) или отрывков, в которых присутствуют ключевые слова (Rambler). Яndex и Апорт позволяют выбрать сжатый или подробный показ и увеличить число ссылок в каждой выданной порции до 50.

Вот результаты эксперимента: ветеран российского поиска Rambler нашел 5181 "черную дыру", Яndex - 276 , Апорт - 99 и AltaVista - лишь 51 (несмотря на применение звездочек). В Rambler поиск словоформ по умолчанию также отключен; при его включении значком @ (запрос "@черная @дыра") охват оказался чересчур широким: тут оказались и черневшие дырки, и чернила, и Черновы.

Увы, на первых страницах выданной информации лишь у Rambler и Яndeх нашлось по одному документу, связанному с астрофизикой, - прочие черные дыры обильно рассыпаны в некоем триллере "Пономарь" и бюджетах всех уровней. Откуда системе знать, что нас интересуют тайны космоса: она делает свои выводы о релевантности документа на основе частоты попавшихся в документе ключевых слов и других формальных критериев. Значит, придется уточнить запрос.

Казалось бы, проще всего ограничить тематику подлежащих просмотру сайтов - такую возможность дают Яndex и Апорт. Рубрикация Яndex базируется на каталоге List.ru, Апорта - на @Rus. Rambler дает возможность искать среди сайтов, участвующих в рейтинге Top 100. Попробуем поискать только в разделах Наука и СМИ (информация об открытии рентгеновского излучения черной дыры недавно проходила в газетах).

Увы, результат далеко не блестящий. В Top 100 ничего нет - что ж, тема не из популярных. Яndex дал 20 ссылок, не имеющих отношения к космическим черным дырам. Апорт оставил только одну ссылку на толкование Нострадамуса, в котором встретились "черная тень" и "озоновая дыра". Похоже, что заманчивое соединение полнотексто вого поиска и каталожной рубрикации может привести к сложению не только их достоинств, но и недостатков.

Придется ввести в дело тяжелую артиллерию. В поисковой системе имеется возможность написать запрос с использованием ряда логических операторов. Кроме обычных И (AND), ИЛИ (OR), НЕТ (NOT) и скобок для установки приоритета имеются операторы расстояния (указывающие, как далеко друг от друга по числу слов или фраз должны находиться ключевые слова), возможность использования знаков подстановки, включения или отключения поиска словоформ, установки ограничений по датам документов, обрабатываемым доменам и серверам и т.д.

Поиск с использованием логических операторов (в Rambler он называется "детальный", в Апорте - "расширен ный", а в Яndex - "строгий") - это цепочка экспериментов. Запрос можно считать успешным, если в первой же порции результатов поиска оказались ссылки на нужные вам документы, а общее число выданных ссылок не превышает нескольких десятков. Нет смысла тратить время на просмотр сотен ссылок, лучше попытаться еще раз уточнить запрос - благо поисковые системы работают быстро.

Чтобы сузить область поиска, можно включить в запрос слова, прямо указывающие на интересующую вас предметную область, например космос или астрономия. Но где гарантии, что эти слова окажутся в одном документе вместе с черной дырой? В популярной заметке это вполне вероятно, но в научном труде - как знать. Химик, описывая реакцию синтеза вещества, назовет ее химической разве что в школьном учебнике. Пожалуй, лучше использовать слова гравитация и тяготение, непосредственно связанные с феноменом черной дыры.

Можно пойти другим путем - попытаться отсеять документы, явно не относящиеся к нужной теме. Для этого надо указать в строке "Исключить" поисковой формы те слова, которые не должны встречаться в отбираемых документах.

Если система находит мало документов, для расширения поиска целесообразно включить в запрос связанные оператором ИЛИ синонимы или термины из смежной области. Применительно к черным дырам можно было бы попробовать, скажем, пульсары и квазары - они должны помочь найти страницы, связанные с астрофизикой.

Наконец, бывает, что система не может найти для вас ни одного документа. Возможно, вы стучитесь в двери неведомого... но прежде всего проверьте, нет ли в запросе орфографических ошибок и опечаток. Как минимум текст запроса должен быть набран грамотно. Удвойте бдительность, если система обнаруживает массу ссылок на несколько входящих в запрос слов и нулевой результат для какого-то одного слова. Нет ли в нем ошибки?

Коварными могут оказаться и прописные буквы. Апорт и Rambler не обратят внимания на регистр букв. Но если в запросе для Яndex указать, например, "Яблоко" - набранные строчными буквами "яблоки" будут проигнорирова ны, и система отберет только "фрукты", связанные с одноименным политическим объединением Г. Явлинского. Конечно, эту особенность учета регистра можно использовать специально, ограничивая сферу поиска.

Отметим весьма ценную способность Апорта переводить запросы и ответы с русского языка на английский и наоборот. Запрос "черная дыра гравитация тяготение" был точно переведен как: "BLACK & HOLE & GRAVITATION & GRAVITATION", после чего Апорт нашел в русскоязычной Сети 45 документов на английском языке. В отличие от поиска русских слов большинство ссылок оказались релевантными. Причина очевидна: английские версии текстов имеются именно на научных сайтах! К сожалению, при передаче запросов со страницы Апорта англоязычным поисковым системам перевода не происходит.

Метапоиск: объединим усилия

Итак, для сбора, по возможности, полной информации надо послать запрос нескольким поисковым системам. Каждая из них выдаст длинный список ссылок. Получив первый десяток, вы пробегаете его глазами, решаете, что стоит посмотреть, просматриваете, снова возвращаетесь к списку, загружаете следующую порцию. Пока хватит терпения... и денег на счете у провайдера. Решили продолжить через час или завтра? Запрос придется делать заново.

Очевидно, нужен еще один помощник, берущий на себя рутинную работу и функции посредника в общении с поисковыми системами. И такие помощники есть - это средства метапоиска. Получив ваш запрос, они направляют его поисковым системам и потом суммируют полученную от них информацию.

В Сети имеется целый ряд англоязычных систем, опрашивающих основные поисковые машины (AltaVista, Excite, HotBot, Infoseek, Lycos и другие) и каталог Yahoo!; некоторые системы обращаются и к другим источникам (новостные ленты, конференции Usenet, различные указатели). Из англоязычных систем метапоиска можно посоветовать www.savvysearch.com, www.metacrawler.com, www.debriefing.com.

К сожалению, опрашивающий российские поисковые системы "Следопыт" компании Медиалингва (http://www.medialingua.ru/www/wwwsearc.htm) во время подготовки статьи не работал - как было сказано на сайте, в связи со сменой провайдера. Надеемся, к моменту выхода журнала "Следопыт" снова будет в строю. (Подробности о системе "Следопыт" см. "Наука и жизнь" № 6, 1998 г.)

В отличие от поисковиков с их гигантскими индексами, система метапоиска может располагаться прямо на вашем компьютере. При этом в ваших руках окажутся все средства настройки. Кроме того, значительную часть работы по анализу результатов поиска можно будет выполнить, уже отключившись от Сети.

Пример такой программы - "ДИСКо Искатель", разработанный в российской фирме ДИСКо командой Михаила Донского. Введенный запрос передается на Апорт, Rambler и Яndex, можно подключить и основные зарубежные системы. Но главная идея "Искателя" - не просто собрать воедино результаты поиска, а представить их в обозримом и удобном для анализа виде.

Щелчком мыши можно сразу же открыть в браузере любую из найденных страниц, но можно и отложить просмотр. Отключимся от Сети и займемся анализом добытых результатов. Отсутствующие страницы, а также явно ненужные вам ветви и узлы "дерева" документов можно скрыть. Они не будут удалены, но станут невидимы и не появятся снова при повторении поиска. Можно реструктурировать полученные результаты: например, завести рубрику для фантастики и поместить в нее соответствующие ссылки. Можно перенести страницы из дерева документов в коллекцию ссылок браузера ("Избранное") или сохранить отобранные ссылки в виде отдельного документа. Но самое главное - можно сохранить результаты поиска на диске и вернуться к ним в любой момент!

При повторном запуске поискового задания "ДИСКо Искатель" отметит вновь появившиеся в Сети страницы.

Конечно, программа не лишена недостатков. Например, в ней нельзя использовать расширенные запросы. Тем не менее при серьезных поисках "Искатель" сэкономит вам массу времени и повысит шансы на успех.

Насколько они велики, зависит от того, в какой степени поисковые системы охватывают весь объем информации Интернета. Результаты такого исследования по состоянию на начало 1998 года были опубликованы сотрудниками исследовательского центра NEC, и они не слишком утешительны. Общий объем Сети удалось оценить в 320 миллионов Web-страниц (учитывались только ресурсы, доступ к которым не ограничен парольной защитой или другими средствами). Поисковые системы охватывали: HotBot - 34% страниц, AltaVista - 28%, Northern Light - 20%, Excite - 14% и Lycos - всего 3%. Число выданных системами поиска ошибочных ссылок составляло 2-5%. Можно надеяться, что в настоящее время метапоисковые системы в целом позволяют охватить 40-50% Сети.

На сегодняшний день неясно, увеличивается ли доля охваченных страниц со временем или поисковые системы пока отстают от роста Интернета. Но, как ни странно, вряд ли это самое важное! Более быстрые каналы связи и процессоры, больше гигабайт на дисках и в памяти, более эффективные алгоритмы роботов и методы хранения данных, в общем, чем больше инвестиций в поисковые машины - тем больше будет и проиндексированная доля Сети.

Но если при охвате лишь четверти потенциально доступной информации человек захлебывается в информационном потоке, будучи не в силах разобраться с тысячами полученных ссылок (в которых затерялось лишь три-четыре нужных), - зачем полный охват? "Узким горлом" систем поиска остаемся мы, их пользователи. Поэтому наибольшее значение приобретает не столько полнота охвата, сколько "интеллект" поисковой системы и удобство работы с ней, то есть ее интерфейс.

Возможно, решающий шаг в повышении эффективности поиска будет сделан благодаря метапоисковым клиентским программам. Их задача - собрав с сетевых поисковиков обильный урожай ссылок, приготовить из него "съедобный продукт". Здесь не обойтись без семантического анализа и ассоциативного поиска, пригодятся словари синонимов, тематические тезаурусы - все, что позволит будущему Искателю "поумнеть". Он должен сам классифицировать найденные документы, при необходимости уточнять у пользователя, какие "черные дыры" ему понадобились - космические, фантастические или бюджетные, послать в Сеть уточненный запрос и, наконец, выдать именно то, что нужно. Будем надеяться, что такие помощники у нас появятся.

А пока пожелаем друг другу удачи на тропе следопыта.

СОВЕТЫ "СЛЕДОПЫТУ"

Увидев в Сети что-то интересное, тут же сделайте "закладку": запишите адрес найденной страницы! Не надейтесь на память: если не сделать запись, шансы попасть сюда снова будут близки к нулю. Конечно, ручка и бумага не нужны: список адресов ведется прямо в браузере. Чтобы внести в него новый адрес, воспользуйтесь командой меню "Избранное" (Favorites). Только не держите все ссылки вместе - количество закладок будет быстро расти, и вы скоро в них запутаетесь. Заведите тематические разделы с удобной для вас рубрикацией и внутренней иерархией, например Техника, Культура, Торговля, Фото, Софт, Справки, Персоны и т.п. Сделать это и управлять размещением и переносом закладок также можно с помощью браузера.

Если вы уверенно работаете с файлами и папками, еще удобнее структурировать ваши закладки с помощью Проводника Windows или любого файлового менеджера: ссылки находятся в каталоге Windows\Favorites (если компьютер настроен для работы нескольких пользователей - в каталоге Windows\Profiles\Baше-имя\Favorites). Каждая ссылка хранится в отдельном файле с расширением URL в системе подкаталогов, имена которых вы и видите в списке "Избранно е".

Вы обратили внимание, что обычно имена в адресах серверов указывают на их содержимое? Не особенно задумываясь, фанат ЦСКА или современной музыки может набрать www.cska.ru и www.music.ru и попасть именно туда, куда нужно. Это, конечно, не поиск - но игра довольно занятная, особенно, если не ограничиваться российскими пределами (домен ru), а выйти на мировую арену (com, net, org, edu и т.д.). Желающие могут поэкспериментировать с доменными именами god, devil... или, скажем, playboy, sex, xxx и т.п. Иногда результат опыта вполне предсказуемый, иногда довольно забавный: например, www.angel.ru ведет к базе данных... домработниц и репетиторов.

Во многих поисковых системах имеется полезная функция "НАЙТИ ПОДОБНЫЕ". Оценив результат первоначаль ного поиска, надо выбрать наиболее интересную для вас ссылку и дать системе команду "найти подобные документы".

Даже в том случае, если вы ищете текст на английском языке, попробуйте сначала поискать на русскоязычных поисковиках: практика показывает, что они чаще выдают информацию по существу и меньше загружены рекламой. К тому же лишь в русскоязычных системах возможен поиск с учетом словообразования в русском языке.

Если вам нужна не Web-страничка, а хоть что-то по интересующей вас теме - воспользуйтесь поисковиками по новостным группам, так называемыми news-поисковиками: www.remark.com, www.deja.com, www.reference.com. Иногда они оказываются полезнее www-поисковиков.

Если вы ищете программу или файл, начните с ftp-поисковиков: http://ftpsearch.city.ru, http://ftpsearch.com

Если файл найти не удается, попробуйте ввести его имя в www- или news-поисковик. Если вы и не найдете сам файл с их помощью, то по крайней мере сможете узнать, где и как его искать дальше - например, по другому имени.

Музыку в формате mp3 можно найти с помощью специализированных mp3-поисковиков: http://mp3.box.sk/, http://mp3.lycos.com, http://russian.mp3ai.ru и других.

СЛОВАРИК К СТАТЬЕ

Веб, web, www (world wide web)

Всемирная Паутина, самый популярный сервис Интернета. Это бесчисленное множество "серверов", "сайтов", "домашних страниц", посвященных чему угодно и в меру способностей авторов сделанных как можно более привлекательными.

Браузер, броузер (от англ. browse - пролистывать, просматривать, читать) - программа для просмотра Web-страниц и странствий по Web. Наиболее популярны браузеры компаний Microsoft и Netscape (в русской версии MS Internet Explorer назван "обозревателем", но заимствованный англоязычный термин "браузер" уже стал общепринятым).

Вебринг (от англ. webring - "сетевое кольцо")

Помните "Великое Кольцо", связывающее разумные цивилизации Вселенной в романе Ивана Ефремова "Туманность Андромеды"? Вебринг - его виртуальный аналог, основная идея которого объединить как можно большее количество www-страниц и сайтов, посвященных одной и той же теме. Причем это не обособленный каталог или перечень ссылок, а некая упорядочивающая эти ссылки кольцевая система, вызываемая с каждой из входящих в кольцо страниц (сайтов). Выйдя на одну такую страницу, вы сможете с помощью мыши переходить от нее к следующей, затем к другой, и так по всем участникам кольца, перебирая их по очереди, словно бусины в четках, пока не вернетесь к первой встреченной вами, совершив таким образом "виртуальное кругосветное путешествие".

Каталог таких колец по различным тематикам, а также подробную информацию об этой технологии можно отыскать по адресу www.webring.com (на английском языке). Главное преимущество Webring - то, что поддержка и каждого такого кольца, и любой из входящих в него www-страниц производится энтузиастами, интересующимися именно данной темой, а потому вероятность найти с помощью Webring максимально полную тематическую подборку информационных материалов гораздо выше, чем при обращении к обычному ресурсному каталогу или "поисковику" широкого профиля.

Релевантность

"По делу" - релевантно, "не по делу" - нет. Термин обычно используется для характери стики качества ответа поисковой системы на поставленный вопрос. Это мера того, насколько полно документ отвечает вашему запросу. Увеличить релевантность документа может не только количество обнаруженных в нем ключевых слов, но и их положение в документе (в заголовках, с выделением жирным шрифтом и т.п.). К сожалению, формальный путь оценки релевантности не слишком надежен, и часто первые ссылки в выданном системой списке с сортировкой по релевантности оказываются "пустыми". Некоторые системы позволяют пользователю повлиять на оценку релевантности. Например, если запрос для Rambler записать в виде "-черная дыра ++гравитация", большую релевантность получат документы со словом "гравитация" и меньшую - со словом "черная".

Стоп-слова

Слова, на которые для повышения эффективности поиска можно не обращать внимания, так как они во множестве встречаются в любом тексте: союзы, предлоги, артикли и т.п.

URL (Uniform Resource Locator) - единый указатель на ресурс. Адрес объекта (документа) в WWW.

Спам (от англ. spam - консервированный колбасный фарш) - засорение информационного пространства. Обычно этим термином называют массовую рассылку электронных писем с непрошеной рекламой. Применительно к поисковым системам спамом являются искусственные приемы повышения приоритета сайта в результатах поиска, например, добавление на страницу популярных ключевых слов, набранных невидимым шрифтом.


Случайная статья


Другие статьи из рубрики «Человек и компьютер»

Детальное описание иллюстрации

Все ссылки на найденные страницы "ДИСКо Искатель" представляет в виде двух иерархических "деревьев ". В левой части окна "Искателя " расположено "дерево" документов, найденных по запросу, в правой - "дерево" серверов, на которых они хранятся. Программа складывает "зеркальные" копии документов с разных сайтов в один узел "дерева". В поисковое задание можно включить проверку ссылок на актуальность, и фактически недоступные документы будут сразу же отмечены крестиком. В нижнем окне программы отображается ход обмена информацией с поисковыми системами.