А. Артемов - Мониторинг информации в Интернете Страница 8
- Категория: Научные и научно-популярные книги / Прочая научная литература
- Автор: А. Артемов
- Год выпуска: -
- ISBN: нет данных
- Издательство: -
- Страниц: 9
- Добавлено: 2019-01-29 11:39:20
А. Артемов - Мониторинг информации в Интернете краткое содержание
Прочтите описание перед тем, как прочитать онлайн книгу «А. Артемов - Мониторинг информации в Интернете» бесплатно полную версию:В данном пособии рассматриваются принципы организации и поиска информации в интернете, приводится описание языков запросов поисковой машины Яндекс, Гугл, Рамблер.Предназначено для преподавателей и студентов вузов всех специальностей, руководителей и менеджеров компаний, специалистов по безопасности, а также для широкого круга лиц, работающих в сети Интернет.
А. Артемов - Мониторинг информации в Интернете читать онлайн бесплатно
«Мать-и-мачеха (Tussilago farfara) – одно из самых раноцветущих растений: зацветает в… Как лекарственное растение мать-и-мачеха применяется, прежде всего,…».
При этом все три слова: «мать», «и», «мачеха» – рассматриваются как отдельные, но стоящие рядом и в этой же самой последовательности. Интересно, что по запросу: [мать-и-мачеха] – оказалось на 100 документов больше, чем по остальным, но если взять это слово в кавычки, то результат уравнивается:
Результаты 1 – 10 из примерно 27 300 для «мать-и-мачеха». Чтобы прояснить этот казус, введем следующий запрос: [мать-и-мачеха «мать-и-мачеха»]. В итоге получим: Результаты 1 – 10 из примерно 27 для мать-и-мачеха – «мать-и-мачеха».
В выдаче появятся тексты такого содержания: Санкт-Петербургская Федерация Настольного Футбола Матьимачеха. Королев Петр Трушков Кирилл. 2. Экспромт. Гриневич Василий… Матьимачеха – игроки получают по 60 рейтинговых очков; Экспромт – игроки… www.kickerclub.spb.ru/tournaments/2005-09-03.html– 17k.
12. Количество слов в строке поиска.
Во многих источниках встречается информация, согласно которой поисковая строка Гугла вмещает 10 слов или что Гугл проводит поиск лишь по 10 словам. Проведенный нами эксперимент эти данные не подтвердил. Так, введем запрос из 23 слов:
[крупа мука яйца масло соль перец лук макароны молоко хлеб сметана сахар помидоры рубленое мясо фарш говядина майонез салат огурцы гамбургеры булочки сыр]
Результат:
Результаты 1–3 из примерно 5 для крупа мука яйца масло соль перец лук макароны молоко хлеб сметана сахар помидоры рубленое мясо фарш говядина майонез салат огурцы гамбургеры булочки сыр.
Ресторан. Ru | Кулинария | Кулинарные рецепты | Вторые блюда | С…
(салат, помидоры, огурцы, гамбургеры, булочки, сыр, майонез)… (макароны, лук, перец, помидоры, мука, масло, рубленое мясо, мясной бульон, сыр)…
www.restoran.ru/index.phtml?t=1&pid=2516
В КЭШе подчеркнуты все 23 слова, и в тексте они также присутствуют. Если изменить запрос, используя логическое «ИЛИ» вместо логического «И», то результат прогнозируемо меняется, но все слова в выдаче по-прежнему выделены Гуглом. [крупа OR мука OR яйца OR масло OR соль OR перец OR лук OR макароны OR молоко OR хлеб OR сметана OR сахар OR помидоры OR рубленое OR мясо OR фарш OR говядина OR майонез OR салат OR огурцы OR гамбургеры OR булочки OR сыр]
Результат:
Результаты 1 – 10 из примерно 3 430 000 для крупа OR мука OR яйца OR масло OR соль OR перец OR лук OR макароны OR молоко OR хлеб OR сметана OR сахар OR помидоры OR рубленое OR мясо OR фарш OR говядина OR майонез OR салат OR огурцы OR гамбургеры OR булочки OR сыр.
13. Стемминг (а также wildcard).
Стемминг – возможность усечения слова до его корня. После усечения слова до его корня производится поиск релевантных вариантов слов, производных от этого корня. Другими словами, стемминг позволяет искать все однокоренные слова.
Техника поиска по маске (wildcard) предствавляет собой написание базового слова (или части слова), после которых идет символ маски – «звездочка» (*), заменяющая собой любое возможное продолжение слова. Таким образом, если поисковая машина поддерживает поиск по маске, то ищутся все слова, которые одинаково начинаются. Эта техника особенно удобна, когда вам неизвестно точное написание конкретного слова, либо когда вы хотите включить все возможные варианты слова в свой поиск. Например, когда по запросу
[тарт*] получают как «тарталетку», так и «тартар».
Так вот, Гугл эти технологии не поддерживает (как, впрочем, и Яндекс). Зато он поддерживает вариант, когда вместо целого слова вводится звездочка.
Например, по запросу: [красная * площадь]
будет выдано:
«Красная и Манежная площади», с подчеркиванием всех этих слов, в том числе буквы «и». В какой-то степени это похоже на поиск с расстоянием между словами, применяемый в Яндексе. По запросу:
[красная * площадь – «красная площадь»] —
будут получены результаты: «Красная (Семеновская) площадь»,
где слово «Семеновская» не считается релевантным и не подчеркивается Гуглом.
14. Дополнительные операторы.
14.1. Оператор cache:
Поисковая машина хранит версию текста, которая проиндексирована поисковым пауком, в специальном хранилище в формате, называемом кэшем.
Кэшированную версию страницы можно извлечь, если оригинальная страница недоступна (например, не работает сервер, на котором она хранится). Кэшированная страница показывается в том виде, в котором она хранится в базе данных поисковой машины, и при показе пользователю сопровождается надписью наверху страницы о том, что это страница из кэша. Там же содержится информация о времени создания кэшированной версии. На странице из кэша ключевые слова запроса подсвечены, причем каждое слово для удобства пользователя подсвечено своим цветом. Например:
«Это сохраненная в кэше G o o g l e копия страницы http://www.kickerclub.spb.ru/tournaments/2005-09–03.html, записанная 4 янв 2006 06:07:09 GMT.». Можно создать запрос, который сразу будет выдавать кэшированную версию страницы с определенным адресом: Так, запрос:
[cache: www.bstm.ru] будет сразу выдавать версию страницы www.bstm.ru из кэша, а не проверять ее нынешнее состояние. Внимание: пробела между оператором cashe: и URL’ом запрашиваемой страницы быть не должно.
Если вы хотите, чтобы ключевые слова на кэшированной версии страницы были подчеркнуты, их надо через пробел указать после оператора cashe: и адреса страницы. Например:
[cache: www.bstm.ru библиотека].
14.2. Оператор info:
Оператор info: позволяет увидеть информацию, которая известна Гуглу об этой странице. Например, запрос:
[info: www.bstm.ru] дает следующий результат:
BSTM – Бизнес-школа технологий менеджмента | Екатеринбург: Новости phpsm, phpsitemanager… Президентская программа. О программе – Стратегический менеджмент – Менеджмент качества —
Маркетинг на предприятии…www.bstm.ru/ Google может показать следующую информацию об этом адресе:
Показать сохраненную в Google версию www.bstm.ru
Найти страницы, похожие на www.bstm.ru
Найти страницы, ссылающиеся на www.bstm.ru
Найти страницы на сайте www.bstm.ru
Найти страницы, упоминающие ссылку «www.bstm.ru»
Внимание: пробела между оператором info: и URL’ом запрашиваемой страницы быть не должно.
14.3. Оператор site:
Этот оператор ограничивает поиск конкретным доменом. То есть, если сделать запрос:
[маркетинг разведка site: www.acfor-tc.ru], – то результаты будут получены со страниц, содержащих слова «маркетинг» и «разведка» именно в домене «acfor-tc.ru», а не в других частях Интернета. Если сделать запрос: [scip site: ru], – то будут получены документы, содержащие слово «scip» и расположенные в доменной зоне «.ru».
Внимание: пробела между оператором site: и URL’ом запрашиваемой страницы быть не должно.
14.4. Оператор link:
Этот оператор позволяет увидеть все страницы, которые ссылаются на страницу, по которой сделан запрос. Например, по запросу:
[link: www.livejournal.com/community/kubok/45852.html] – будут получены известные Гуглу ссылки на статью о поиске через Яндекс, написанную liveuser.
Внимание: пробела между оператором link: и URL’ом запрашиваемой страницы быть не должно.
14.5. Оператор allintitle:
Если запрос начать с оператора allintitle:, что переводится как «все – в заголовке», то Гугл выдаст тексты, в которых все слова запроса содержатся в заголовках (внутри тега Title в HTML).
Например, запрос: [allintitle: википедия яндекс] – даст результаты, где слова «википедия» и «яндекс» содержатся внутри тега Title на просмотренных поисковой машиной страницах. На момент написания статьи результат был таким:
Результаты 1–3 из примерно 7 для allintitle: википедия яндекс.
14.6. Оператор intitle:
Показывает страницы, в заголовке которых содержится слово, расположенное непосредственно после опретора intitle:, все остальные слова запроса могут находиться в любом месте текста. Если поставить оператор intitle: перед каждым словом запроса, это будет эквивалентно использованию оператора allintitle: [intitle: википедия яндекс].
На момент написания статьи результат был таким:
Результаты 1 – 10 из примерно 888 для intitle: википедия яндекс.
Внимание: пробела между оператором intitle: и последующим словом быть не должно.
14.7. Оператор allinurl:
Если запрос начинается с оператора allinurl:, то поиск ограничивается теми документами, в которых все слова запроса содержатся исключительно в адресе страницы, то есть в URL. Так, на момент написания статьи для запроса: [allinurl: narod razvedka] – результат был таким: Результаты 1 – 10 из примерно 14 для allinurl: narod razvedka. Внимание: оператор allinurl: работает лишь со словами, а никак не со служебными фрагментами URL. Такие специальные символы, как слэш или точка, не окажут положительного влияния на результат. Напротив, влияние будет отрицательным, поскольку они могут быть восприняты Гуглом как попытка ввести в запрос точную фразу.
Например, запрос:
[allinurl: narod.razvedka],
Жалоба
Напишите нам, и мы в срочном порядке примем меры.