А. Артемов - Мониторинг информации в Интернете Страница 7
- Категория: Научные и научно-популярные книги / Прочая научная литература
- Автор: А. Артемов
- Год выпуска: -
- ISBN: нет данных
- Издательство: -
- Страниц: 9
- Добавлено: 2019-01-29 11:39:20
А. Артемов - Мониторинг информации в Интернете краткое содержание
Прочтите описание перед тем, как прочитать онлайн книгу «А. Артемов - Мониторинг информации в Интернете» бесплатно полную версию:В данном пособии рассматриваются принципы организации и поиска информации в интернете, приводится описание языков запросов поисковой машины Яндекс, Гугл, Рамблер.Предназначено для преподавателей и студентов вузов всех специальностей, руководителей и менеджеров компаний, специалистов по безопасности, а также для широкого круга лиц, работающих в сети Интернет.
А. Артемов - Мониторинг информации в Интернете читать онлайн бесплатно
Запрос: [литейщик провизор стоматолог маркшейдер]
Результаты 1 – 10 из примерно 18 для литейщик провизор стоматолог маркшейдер.
В выдаче:
Общероссийский классификатор занятий ОК 010-93 (ОКЗ) (утв…
Общероссийский классификатор занятий ОК 010-93 (ОКЗ) (утв. постановлением Госстандарта
РФ от 30 декабря 1993 г. N 298) Russian Classification of Occupations…
Работа для вас в Самаре. Поиск работы, подбор персонала, вакансии… Медсестра (стоматологический кабинет, ЕТС). Тел. 39-52-53, Адрес: ул… провизор (аптека, в/о, наличие сертификата, опыт работы в производственной аптеке,… Интересно, что Гугл может показать и те источники, кoтopые ключевых слов не содержат, однако они присутствуют в ссылках на показанную страницу. В таком случае при просмотре информации с помощью ссылки «Сохранено в кэше» будет видна надпись:
«Эти слова присутствуют только в ссылках на эту страницу».
Описанный механизм работы Гугла хорошо виден, если посмотреть ключевые слова на странице сайта о работе в Самаре, сохраненной в кэше.
Эти слова выделены: литейщик провизор маркшейдер.
А это слова присутствеют только в ссылках на страницу: стоматолог
4. Логическое «ИЛИ».
Оно пишется с помощью оператора OR. Обратите внимание: оператор этот должен быть написан заглавными буквами и отделен пробелами с обеих сторон от слов, расположенных перед ним и после него.
Важно знать, что, в отличие от Яндекса, Гугл не поддерживает такой оператор, как скобки.
Запрос: [литейщик OR провизор OR стоматолог OR маркшейдер]
Результаты 1 – 10 из примерно 2 030 000 для литейщик OR провизор OR стоматолог OR маркшейдер
5. Заглавные буквы или строчные?
В отличие от Яндекса Гугл не различает регистр букв. Все буквы воспринимаются как строчные, вне зависимости от того, как их вводили в поисковую строку. Запросы: [Эйфелева Башня], [Эйфелева башня] и [эйфелева башня] дадут одинаковые результаты.
Результат поиска на момент написания книги:
Результаты 1 – 10 из примерно 543 000 для Эйфелева Башня.
Результаты 1 – 10 из примерно 543 000 для эйфелева башня.
6. Стоп-слова.
Во вспомогательных инструкциях (хэлпах) написано, что Гугл, подобно большинству поисковых систем, игнорирует стоп-слова. Кроме того, хэлпы утверждают, будто, как и многие другие поисковики, Гугл имеет механизм принудительного включения стоп-слов в результаты поиска. К таким элементам относится большинство артиклей английского языка, союзов и предлогов русского языка.
В реальности ситуация, похоже, складывается иначе.
Тест: вводим по-русски букву [в]
Результат:
Результаты 1 – 10 из примерно 48 600 000 для в.
Вводим по-английски артикль [the]
Результат:
Результаты 1 – 10 из примерно 8 670 000 000 для the.
7. Оператор «Плюс» (+).
Тем не менее, бывают ситуации, когда надо принудительно включить в текст какое-либо слово, которое может иметь варианты написания. В хэлпе Гугла приводится пример с запросом «Star Wars Episode I», где римская единица представляет собой латинскую букву «I» («ай»). Если сделать запрос просто как:
[Star Wars Episode I], – то результат будет следующий:
Результаты 1 – 10 из примерно 13 200 000 для Star Wars Episode I.
В том числе в выдаче появятся слова «Episode II», «Episode IV» и т. п.
Если сделать запрос: [Star Wars Episode +I], – то результат будет такой:
Результаты 1 – 10 из примерно 9 290 000 для Star Wars Episode +I.
И в него войдут только тексты, содержащие слово «Episode I».
8. Морфология слов.
Гугл не поддерживает морфологию слов. Их изначально следует вводить в нужных формах. Правда, отчасти это компенсируется интеллектуальной системой поиска, которая может найти нужную словоформу в ссылках на страницу. Чтобы проверить утверждение об отсутствии поддержки морфологии, возьмем такое языковое сочетание, по которому можно увидеть все без исключения результаты. А сочетание следующее: «Глоклая куздра».
Тест:
Запрос:
[глоклая куздра]
Результаты 1–4 из примерно 16 для глоклая куздра.
В выдаче три адреса:
1. www.flame.ws/txt/index.php/t737.html
2.
www.dom.no/modules.php?name=Forums&file=viewtopic&p=31986&highligh t=
3. www.gb.anekdot.ru/vm.html?file=vm&date=1998-08-07
Запрос: [глоклую куздру]
Результаты 1–1 из 1 для глоклую куздру.
В выдаче один адрес:
gb.anekdot.ru/vm.html?file=vm&date=1998-08-07
Запрос:
[глоклой куздре]
Результат: Не найдено ни одного документа, соответствующего запросу глоклой куздре.
Правда, это не мешает Гуглу иногда выделять по запросу «площадь» слово «площади» как релевантное. Однако подобное встречается на странице выдачи, но не в кэше. Просто для сравнения приведем результат Яндекса. По всем трем запросам о «глоклой куздре» система дала на момент написания книги одинаковый результат:
Результат поиска: страниц – 13, сайтов – не менее 5.
9. Улучшение запроса во время поиска.
Поскольку Гугл выдает все слова, которые вы вводите в запросе, имеет смысл составлять новые запросы, содержащие те слова, которые вы забыли ввести в начале поиска, но обнаружили в ходе его выполнения в найденных текстах. В ряде случаев это помогает улучшить результат. Подчеркнем особо – это должны быть именно отдельные запросы.
Добавление же новых слов к уже имеющемуся списку порой приводит к излишнему сужению диапазона результатов, ведь Гугл будет пытаться выдать документ, в котором содержатся все искомые слова.
10. Исключение слов из запроса. Логическое «НЕ».
Как известно, часто при составлении запроса встречается информационный мусор. Чтобы его удалить, стандартно используется оператор исключения – логическое «НЕ». В Гугле такой оператор представлен знаком «минус». Здесь он идентичен поисковому механизму Яндекса «двойная тильда» («~~»), исключающему слово из всего документа.
Используя его, можно исключать из результатов поиска те страницы, которые содержат в тексте определенные слова.
Тест:
Запрос:
[Журавль колодец]
Результаты 1 – 10 из примерно 778 для Журавль колодец.
Запрос:
[Журавль колодец-птица]
Результаты 1 – 10 из примерно 715 для Журавль колодец – птица.
Запрос:
[Журавль – колодец-птица]
Результаты 1 – 10 из примерно 120 000 для Журавль – колодец – птица.
Запрос:
[Журавль – колодец-птица – птиц]
Результаты 1 – 10 из примерно 106 000 для Журавль – колодец – птица – птиц.
Запрос:
[Журавль – колодец – птица – птиц – журавли]
Результаты 1 – 10 из примерно 104 000 для Журавль-колодец-птица-птиц-журавли.
11. Поиск точной фразы.
Найти точную фразу, как мы уже говорили, требуется либо для поиска текста определенного произведения, либо для поиска определенных продуктов или компаний, в которых название или часть описания представляет собой стабильно повторяющееся словосочетание. В отличие от Яндекса, который может менять формы слов, входящих в текст, заключенный в кавычки, Гугл такой способностью не обладает. Мы отмечали, что эта система словоформы вообще не поддерживает.
Чтобы справиться с поиском точной фразы при помощи Гугла, требуется заключить запрос в кавычки (имеются в виду двойные кавычки, которые применяются, например, для выделения прямой речи).
Забавным, но показательным примером может быть задание из учебника русского языка для 7 класса под ред. Н. М. Шанского, где на стр. 45 предлагается разделить текст на абзацы. Автор – М. Шолохов. Произведение не указано. Приведем фрагмент текста:
[ «За Доном в лесу прижилась тихая, ласковая осень. С шелестом падали с тополей сухие листья. Кусты шиповника стояли, будто объятые пламенем, и красные ягоды в редкой листве их пылали, как огненные язычки.»].
Введем этот текст в кавычках в Гугл и получим следующий результат:
Результаты 1 – 10 из примерно 15 для «За Доном в лесу прижилась тихая, ласковая осень. С шелестом падали с тополей сухие листья. Кусты шиповника стояли, будто объятые пламенем, и красные ягоды в редкой листве их пылали, как огненные язычки». Как выяснилось, этот фрагмент относится к произведению «Тихий дон» (книга четвертая).
Курьез же состоит в том, что у М. Шолохова этот текст оказался вообще не разбитым на абзацы.
Гугл воспринимает в качестве знаков, связывающих слова в единую фразу, не только кавычки, но и такие символы, как дефис, слэш (косая черта), точка, знак равенства, апостроф.
Результаты 1 – 10 из примерно 27 400 для мать-и-мачеха.
Результаты 1 – 10 из примерно 27 300 для мать/и/мачеха.
Результаты 1 – 10 из примерно 27 300 для мать=и=мачеха.
Результаты 1 – 10 из примерно 27 300 для мать.и. мачеха.
Результаты 1 – 10 из примерно 27 300 для мать'и'мачеха.
Во всех вышеприведенных случаях первым в выдаче стоит текст, фрагмент которого приведен ниже:
«Мать-и-мачеха (Tussilago farfara) – одно из самых раноцветущих растений: зацветает в… Как лекарственное растение мать-и-мачеха применяется, прежде всего,…».
Жалоба
Напишите нам, и мы в срочном порядке примем меры.