Что представляет собой индексирование документов его этапы. Индексирование. Государственный стандарт союза сср

Система индексирования (СИ) - совокупность методов и средств перевода текстов с естественного языка на ИПЯ в соответствии с заданным набором словарей лексических единиц и с правилами применения ИПЯ .

Рассмотрим классификацию систем индексирования .

1. По степени автоматизации процесса индексирования выделяют системы:

Ручного индексирования;

Автоматического индексирования

Автоматизированного индексирования.

2. По степени контролируемости различают системы:

Без словаря;

С жестким словарем;

Со свободным словарем.

3. По характеру алгоритма отбора слов текста выделяют системы:

С последовательным просмотром текста (отбираются все полнозначные слова);

С эвристическими процедурами выбора слов текста (слова отбираются интуитивно или по заданной процедуре);

Со статистическими процедурами выбора слов (отбираются только информативные слова в соответствии с распределением частот их употребления).

Процесс свободного индексирования состоит в следующем. Индексатор выписывает слова или словосочетания, которые, по его мнению, отражают содержание текста. Он может брать слова, отсутствующие в тексте, но важные, с его точки зрения, для выражения смысла текста. Отобранный список слов является поисковым образом документа. Это СИ с ручным индексированием.

Процесс полусвободного индексирования аналогичен вышеописанному, но слова для ПОД берутся только из словаря.

При жестком индексировании слова берутся только из текста.

Поначалу индексирование осуществлялось специально подготовленными специалистами-экспертами в предметной области, которые могли осуществлять глубокий анализ смыслового содержания документа и относить его (индексировать) к тем или иным классам, рубрикам, ключевым терминам. В этом случае были высоки накладные расходы, поскольку требовалось наличие в штате высококвалифицированных специалистов-индексаторов. Кроме того, процесс индексирования в некоторой мере был субъективным. Поэтому возникла задача автоматизации индексирования документов.

Существуют два подхода к автоматическому индексированию. Первый основан на использовании словаря ключевых слов и применяется в системах на основе ИПТ. Индексирование в таких системах осуществляется путем последовательного автоматического поиска в тексте документа ключевых терминов. Строится индекс, представляющий поисковое пространство документов.

Второй подход к автоматическому индексированию применяется в полнотекстовых системах. В процессе индексирования в индекс заносится информация обо всех словах текста документа (отсюда и название «полнотекстовые»).

Кристина Загорулько

Дек 21, 2015 | Время чтения: 6 мин

Задача любого сайта - донести до как можно большего количества людей информацию, которую он содержит. Продвижение сайта в поисковых системах (ПС) - наиболее эффективный способ это сделать. Один из этапов продвижения - индексация сайта, т. е. считывание всех данных с сайта, последующая их обработка алгоритмами поисковых систем и занесение результатов в базу данных.

Не зная кухни этого процесса, эффективно продвигать сайт невозможно. В этой статье мы расскажем, что происходит с информацией, собранной с ресурса в недрах ПС и как ее упаковать для лучшего усвоения. То есть расскажем о процессе индексирования и его улучшении.

Индексация сайта - что находится в начале

Если театр начинается с вешалки, то индексирование с того, что роботу поисковой системы необходимо сообщить, что в интернете появился новый ресурс. Сделать это можно двумя способами:

  1. Зарегистрировать сайт в поисковой системе вручную Яндексу (webmaster.yandex.ru/addurl.xml), Google (www.google.com/webmasters/tools/submit-url?hl=ru) и других поисковых системах, если они вас интересуют.
  1. Дать ссылку на сайт со стороннего интернет-ресурса (разумеется, тот уже должен быть зарегистрирован).

Первый способ предпочтительнее, так как в этом случае первая индексация с большой вероятностью произойдет раньше.

Отчего зависит частота индексирования и как ее ускорить

Сейчас в базе данных Яндекса больше триллиона (!) веб-адресов (каждая страница любого сайта имеет свой адрес). Разумеется, проиндексировать всю эту махину за один день - задача нереальная. Поэтому следует понимать, что индексация сайта происходит не каждый день, а с определенной периодичностью. Причем эта периодичность - величина непостоянная и зависящая от ряда факторов. И на практике получается, что одни ресурсы ПС индексируют чуть ли не ежедневно, а для других - поисковый робот редкий гость. Поэтому очень желательно, предпринять ряд действий, чтобы интервал между индексациями уменьшить. Тогда вы эффективнее будете продвигать свой сайт, так как быстрее сможете видеть результаты своих действий на нем и, соответственно, быстрее вносить коррективы.

Что влияет на эту оперативность?

  1. Загруженность сервера, где расположен сайт. Если он загружен множеством сайтов, а его технические характеристики не позволяют оперативно передавать информацию поисковому роботу, то последний будет его посещать реже. Отсюда рекомендация - хотите быстрой индексации, разместите свой интернет-ресурс на качественном хостинге.
  2. Частота обновления веб-страниц и всего сайта в целом. Чем чаще происходят обновления, тем чаще робот будет приходить на такой ресурс. Все вполне логично. Смысл часто приходить туда, где ничего не происходит? Только следует знать один нюанс. Робот будет приходить именно на те страницы, которые часто и обновляются. То есть, если хотите, чтобы оперативно оценивалась информация на главной странице вашего сайта ее и регулярно обновляйте. Самый простой способ - разместить на ней блок новостей.
  3. Посещаемость сайта и его посетителей. То есть, если посещаемость высокая и люди на ресурсе задерживаются долго, совершают внутренние переходы, то интервал между индексациями, безусловно, уменьшится.

Как видите, на все эти три фактора можно влиять в благоприятную для владельца сайта сторону.

Как узнать, что страница в индексе

Это далеко не праздный вопрос и не из серии: «Лучше любая информация, чем неизвестность». Ведь если точно знать, что индексация прошла, а позиции вашего сайта в выдаче не изменились, значить что-то вы делаете не так.

Проверить индексацию сайта можно несколькими способами:

  1. На сервисе Яндекс.Вебмастер («Проверить URL»). Здесь можно узнать:
    • когда произошла последняя индексация;
    • какой документ показывается посетителю в результате поиска;
    • рекомендации по ускорению индексации;
    • если страница отсутствует в поиске, то по каким причинам.
  2. Провести поиск при помощи следующего выражения: url:интересующий url, например, url: moi sairu/contacts
  3. Поиск при помощи оператора site:. Например, записав в поисковую строку site: moi site.ru вы получите список всех страниц вашего сайта, которые были проиндексированы.
  4. Проверить индексацию списка URL в .

Сервис SE Ranking предлагает также инструмент отслеживания выдачи заданного URL в поиске. Так что вы всегда будете знать, не выпала ли интересующая страница из индекса, а также выдается ли нужная страница по конкретному поисковому запросу.

Как управлять поисковым роботом

Поисковая система скачивает информацию с сайта по строго определенному плану. Тут нет места импровизации. А где она берет этот план? Да на самом интернет-ресурсе! То есть вы можете указать ПС, что и как скачивать или не скачивать.

Файл robots.txt

Очень важный файл, в котором можно указать, какие страницы нельзя индексировать. Это очень важно, так как ни в коем случае нельзя позволять ПС считывать личную информацию пользователей: номера телефонов, паспортные данные, если таковые имеются и т. д. В противном случае владельцу сайта могут грозить крупные неприятности. Также, если у вас социальная сеть, особенно посвященная знакомствам, необходимо запретить индексацию страниц, где могут содержаться личные данные пользователей. Например, строка Disallow:/admin запретит роботу просматривать страницы, урл которых начинается со слова admin, а Disallow:/images запретит индексировать картинки.

Обязательно в robots.txt укажите адрес карты сайта sitemap. В этом случае вы будете уверены, что робот увидит все страницы вашего сайта, индексация которых не запрещена.

Типичные ошибки в файле robots.txt

  1. Ошибочный запрет к индексации некоторых страниц сайта.
  2. Код HTTP-ответа отличный от 200. Например, если при запросе страницы с файлом robots.txt поисковый робот получит HTTP-ответ, равный 403 («запрещено»), то он полностью проигнорирует содержимое файла robots.txt, в том числе на запрет индексации определенных страниц.
  3. Наличие кириллических символов в файле. Особенно часто такая ошибка стала появляться, когда появилась возможность записывать урл кириллическими буквами. Например, если в директиве Host (указывает на главное зеркало сайта) написать лютикицветочки.рф, то такая запись будет проигнорирована. В таких случаях необходимо такие урл передавать в юникоде.
  4. Размер файла txt превышает 32 кб.

В завершении по robots.txt заметим, что не обязательно сайт должен его иметь. Для простых одно-двухстраничных интернет ресурсов, например, такой файл будет лишним. Если же у вас он есть, то корректность его содержимого можно проверить на странице Яндекс.Вебмастер - webmaster.yandex.ru/robots.xml. Загружаете файл в специальную форму и видите, какие ошибки в нем есть.

Файл sitemap

В этом файле указывается, какие страницы подлежат индексации. Конечно, указать на них поисковому роботу можно и другими способами. Например, навигацией меню, « », внутренней перелинковкой.

Но, во-первых, если у вас есть лендинг пейдж, на которую можно попасть только по внешней ссылке, то проиндексировать ее можно только с помощью sitemap.

Во-вторых, в sitemap при помощи:

  • тега Можно указать приоритет индексации;
  • тега частоту обновления конкретной страницы.

Эта информация не директивная для робота, но обязательно будет принята им во внимание.

Типичные ошибки в файле sitemap

  1. Размещение sitemap на другом сайте. Часто это бывает, когда используется сервис для генерации такой файла. В этом случае сервис размещает карту вашего сайта у себя.
  2. На странице, где находится карта сайта, установлен редирект.
  3. Критические ошибки внутри файла sitemap. Например, отсутствует строка с указанием кодировки.

Проверить правильность файла sitemap на странице Яндекс.Вебмастер — webmaster.yandex.ru/ sitemaptest.xml.

Во второй части статьи: « Принципы индексирования сайта. Часть 2» мы поговорим о принципах работы с зеркалами, о дублях страниц, об ошибках при использовании HTTP-кодов. И еще раз подчеркнем, что правильная настройка индексации сайта может существенно помочь его продвижению.

Просмотры: 670

Процедуру перевода с естественного языка на ИПЯ называют индексированием . Результатом такого перевода является ПОД (при вводе документов в ИПС) или ПОЗ (при индексировании запроса пользователя).

Проблема индексирования связана с семантическим анализом текстов документов. Сложность ее связана с тем, что индексирование документов, вводимых в поисковые массивы, и запросов пользователя разнесены во времени.

Для алгоритмизации и автоматизации индексирования необходимо решить проблему выбора для включения в ПОД или ПОЗ наиболее значимых ключевых слов, дескрипторов, фраз (в зависимости от лексических единиц ИПЯ).

Важность можно определить несколькими признаками:

  • статистическими, т.е. на основе частоты использования термина в документе;
  • на основе высказываний автора (его мнения, отраженного в заглавии документа или подзаголовках, выделяемых автором в документе);
  • с помощью грамматики, позволяющей отразить взаимосвязи между лексическими единицами, содержащимися в контексте;
  • по критериям важности, сформулированным пользователем, для чего при индексировании документов могут быть указаны весовые коэффициенты дескрипторов.

Система индексирования конкретной ИПС определяется в основном возможностями ИПЯ, имеющимися в нем лексическими и синтаксическими средствами. Однако есть и некоторые специфические правила и рекомендации, исследование которых позволило выявить некоторые разновидности систем индексирования.

Существуют различные типы систем индексирования.

1. К первому типу относят системы свободного индексирования.

При этом способе из индексируемого документа выписываются в ПОД слова или словосочетания, которые отражают содержание индексируемого документа. Кроме этого, элементами ПОД могут быть слова, отсутствующие в этих документах, но отражающие более точно смысл их текстов с точки зрения целей создания ИПС. Выписанные элементы упорядочиваются в алфавитном порядке. Такой упорядоченный набор слов (словосочетаний) представляет собой ПОД при этом типе индексирования. Аналогично – из текста запроса пользователя формируется ПОЗ.

Такой процесс индексирования является принципиально неалгоритмическим, т.е. неавтоматизируемым.

2. При втором методе, который условно называют методом полусвободного индексирования, из документа выписывают слова и словосочетания вначале так же, как и при свободном индексировании.

Однако выписанные элементы сравнивают затем с фиксированным словарем, не найденные в нем – устраняют, а оставшиеся, упорядочиваемые в алфавитном порядке, представляют собой ПОД (или ПОЗ).

3. Третий способ индексирования основан на статистическом подходе.

Выбор слов (выражений) исходного текста, подлежащих включению в ПОД, производится на основе статистического анализа текста, при котором его слова рассматриваются как знаки, не имеющие семантических значений. При этом предлагались различные статистические критерии, основанные на сопоставлении относительной частоты употребления слова в документе и относительной частоты употребления слова в представительном массиве документов (т.е. в репрезентативной статистической выборке).

Например, в предлагаются следующие количественные критерии:

где F – относительная частота употребления слова в документе; R – относительная частота употребления слова в представительном массиве документов.

Легко видеть, что в основе приведенных соотношений лежит идея, согласно которой информационная значимость слова определяется расхождением частоты его употребления в данном документе и во всем потоке рассматриваемых документов.

Возможны различные подходы к определению расхождения:

  • согласно первому вычисляется расхождение между частотой употребления слов в потоке документов данной тематики (монотематический поток) и частотой встречаемости этого слова в многотемном потоке документов (политематический поток);
  • второй принцип основан на вычислении расхождения частоты употребления слова в потоке текстов данной тематики и частоты этого же слова в потоке текстов тематики, далекой от данной ("противоположной" тематики).

Статистический способ индексирования может быть алгоритмизирован и автоматизирован, и в настоящее время имеются средства автоматизированного статистического анализа текстов.

Однако самостоятельного практического применения в ИПС этот способ не нашел, он используется как вспомогательный в сочетании с семантическим анализом текстов документов.

4. К четвертому типу относят системы индексирования, контролируемые заданным словарем (тезаурусом ).

Алгоритм индексирования сводится к тому, что каждое слово текста сравнивается с точностью до основы со словарем, совпавшие слова записываются в ПОД.

В некоторых системах словарь используется как помощник специалисту, занимающемуся индексированием текста.

К таким системам относится, например, УДК. В других – такой словарь является элементом алгоритма индексирования: слово, одновременно встретившееся в тексте и в словаре, записывается в ПОД. В дескрипторных ИПЯ в ПОД

(ПОЗ) записываются не само слово текста, а соответствующий ему дескриптор.

Перспективным представляется индексирование документов с использованием специально разработанных иерархических классификаций, отражающих цели поиска и использования документов.

Такие классификаторы могут использоваться в качестве ИПЯ в информационных системах нормативно-методического обеспечения управления: иерархический классификатор, объединяющий нормативно-методические документы, разрабатывается на основе структуры целей (основных направлений) и функций деятельности предприятия.

Иерархический классификатор ИПЯ может быть основой системы избирательного распределения информации (ИРИ): разрабатывается классификатор потребностей категории работников, пользующихся системой ИРИ.

  • При подготовке этого раздела использовалась классификация, предложенная в работе: Певзнер Б. Р. Информационно-поисковые системы и информационно-поисковые языки / Б. Р. Певзнер. М.: ИПКИР, 1974. С. 10-11.

Системы индексирования

Система индексирования (СИ) - совокупность методов и средств перевода текстов с естественного языка на ИПЯ в соответствии с заданным набором словарей лексических единиц и с правилами применения ИПЯ.

Рассмотрим классификацию систем индексирования.

1. По степени автоматизации процесса индексирования выделяют системы:

Ручного индексирования;

Автоматического индексирования;

Автоматизированного индексирования.

2. По степени контролируемости различают системы:

Без словаря;

С жестким словарем;

Со свободным словарем.

3. По характеру алгоритма отбора слов текста выделяют системы:

С последовательным просмотром текста (отбираются все полнозначные слова);

С эвристическими процедурами выбора слов текста (слова отбираются интуитивно или по заданной процедуре);

Со статистическими процедурами выбора слов (отбираются
только информативные слова в соответствии с распределением частот их употребления).

4. По характеру лексикографического контроля различают системы:

Без лексикографического контроля;

С полным контролем;

С промежуточным контролем.

Лексикографический контроль предусматривает:

Устранение синонимии, полисемии и омонимии на основе нормативных словарей лексических единиц с парадигматическими отношениями между ними;

Нормализацию слов на основе морфологических нормативных
словарей.

5. По характеру морфологического анализа слов различают системы:

С использованием морфологических словарей;

С использованием основных лексических словарей;

С использованием морфологического анализа с усечением слов.

Возможны системы индексирования без морфологического анализа.

Процесс свободного индексирования состоит в следующем. Индексатор выписывает слова или словосочетания, которые, по его мнению, отражают содержание текста. Он может брать слова, отсутствующие в тексте, но важные, с его точки зрения, для выражения смысла текста. Отобранный список слов является поисковым образом документа. Это СИ с ручным индексированием.

Процесс полусвободного индексирования аналогичен вышеописанному, но слова для ПОД берутся только из словаря.

При жестком индексировании слова берутся только из текста.

Поначалу индексирование осуществлялось специально подготовленными специалистами-экспертами в предметной области, которые могли осуществлять глубокий анализ смыслового содержания документа и относить его (индексировать) к тем или иным классам, рубрикам, ключевым терминам. В этом случае были высоки накладные расходы, поскольку требовалось наличие в штате высококвалифицированных специалистов-индексаторов. Кроме того, процесс индексирования в некоторой мере был субъективным. Поэтому возникла задача автоматизации индексирования документов.

Существуют два подхода к автоматическому индексированию. Первый основан на использовании словаря ключевых слов и применяется в системах на основе ИПТ. Индексирование в таких системах осуществляется путем последовательного автоматического поиска в тексте документа ключевых терминов. Строится индекс, представляющий поисковое пространство документов. Возможны два типа такого индекса - прямой и инвертированный.

Прямой тип индекса строится по схеме «документ-термины». Поисковое пространство в этом случае представлено в виде матрицы размерностью nxm. Строки этой матрицы представляют поисковые образы документов.

Индексирование

Индексирование

Индексирование - в информационном поиске - процесс описания документов и запросов в терминах информационно-поискового языка. По результатам индексирования каждому документу назначается набор ключевых слов, отражающих его смысловое содержание.

По-английски: Indexing

Финансовый словарь Финам .


Синонимы :

Смотреть что такое "Индексирование" в других словарях:

    Индексация Словарь русских синонимов. индексирование сущ., кол во синонимов: 1 индексация (1) Словарь синонимов ASIS. В.Н. Тришин … Словарь синонимов

    индексирование - Выражение содержания документа и/или смысла информационного запроса на информационно поисковом языке. [ГОСТ 7.74 96] индексирование Процесс описания содержания документов и запросов в терминах информационно поискового языка; назначение документу… … Справочник технического переводчика

    Выражение главного содержания текста какого либо документа в терминах языка информационно поисковой системы. Применяется для облегчения поиска нужного документа среди множества других … Большой Энциклопедический словарь

    индексирование - 3.5 индексирование (indexing): Процесс проставления условных обозначений и составления указателей, служащих для упрощения доступа к документам и (или) информации. Источник … Словарь-справочник терминов нормативно-технической документации

    Индексирование - вид преобразования содержания документов и информационных запросов в целях их подготовки для механизации информационного поиска. Индексирование заключается в переводе основного смыслового содержания документа или запроса с естественного языка… … Контрразведывательный словарь

    Выражение главного содержания текста какого либо документа в терминах языка информационно поисковой системы. Применяется для облегчения поиска нужного документа среди множества других. * * * ИНДЕКСИРОВАНИЕ ИНДЕКСИРОВАНИЕ, выражение главного… … Энциклопедический словарь

    ИНДЕКСИРОВАНИЕ - В международных страховых операциях: автоматическая корректировка величины стоимости, устанавливаемой при страховании имущества или ответственности при реализации международной программы страхования с целью отражения уровня инфляции в стране,… … Страхование и управление риском. Терминологический словарь

    индексирование - indeksavimas statusas T sritis radioelektronika atitikmenys: angl. indexing vok. Indexieren, n; Indizierung, f rus. индексирование, n pranc. indexage, m … Radioelektronikos terminų žodynas

    индексирование - Rus: индексирование Deu: Indexieren Eng: indexing Fra: indexation Выражение содержания документа и или смысла информационного запроса на информационно поисковом языке. ГОСТ 7.74 … Словарь по информации, библиотечному и издательскому делу

    Процесс выражения главного предмета или темы текста какого либо документа в терминах информационно поискового языка (См. Информационно поисковый язык). Применяется для облегчения поиска необходимого текста среди множества других.… … Большая советская энциклопедия