Поисковый индекс

Индекс – это упорядоченный список конкретных связей. Всевозможные виды индексов уже давно употребляются для облегчения нахождения информации. Более подробный индекс – это алфавитный указатель, где каждому значимому термину соответствует список страниц, в котором этот термин встречается.

На следующей ступеньке находится конкорданс. Это такой словарь, в котором каждому конкретному слову соответствуют «координаты», по которым входит это слово в текст. Вся эта система называется «инвертированный индекс», которую используют практически все известные ПС.

Прямой инвертированный индекс

Существуют две разновидности поискового индекса, которые представляет связи слов и текстов в различных направлениях. Возьмем, например, коллекцию текстов и весь список слов, находящихся в этих текстах. Каждый документ в коллекции имеет свой индивидуальный идентификатор DocID, а каждое слово – уникальный идентификатор WordID.

Прямой индекс представляет собой таблицу связей, в которой каждый DocID имеет соответствие с полным списком WordID, что входит в этот документ.

Инвентированный индекс выражается в таблице связей, в которой каждому WordID сопоставляется список DocID, где это слово встречается.

Инвентированный индекс отлично приспособлен для поиска. Взять список DocID из него довольно просто. Если запрос имеет два слово, то соответственно выбираем и два списка документов. После этого отсортировываем те DocID, которые входят и в тот и другой список, и получаем итоговый документ.

Прежде чем использовать эти инструменты, необходимо обработать весь объем документации. Для этой цели необходимо разобрать на слова каждый отдельно взятый сайт, заодно просчитать количество вхождений каждого отдельного слова. После этого собрать словарь и соответствующие индексы. Если при этом использовать закон Зипфа, то мы быстро получим реальный инструмент ранжирования предоставленных текстов.

Поиск по индексу

Из выше сказанного ясно, что перед нами идеальный инструмент для ПС на основе отдельно взятого слова. В данном случае ранжирование не составляет труда, так как для каждого DocID в базе есть информация о предъявленных ключевых словах в тексте.

Поиск словосочетаний

Если запрос состоит из двух или нескольких слов, то задача заметно усложняется. Процедура поиска остается на том же уровне, но с ранжированием есть затруднения. Здесь придется учитывать релевантность данного документа не каждому из слов текста, а именно словосочетанию. В противном случае ранжирование будет неудачным. Чтобы выяснить релевантность текста сочетанию слов необходимо учитывать, как распределяются эти слова в тексте: подряд, в одном списке, не в одном списке, в соседних пассажах и так далее. Это очень грубый способ для определения релевантности.

Учет морфологии

Чтобы обеспечить полноту поиска, необходимо привести слова в исходную форму и связать со всеми возможными в данном случае словоформами.

По информации SEO форума
WebIMHO

Опубликовано emanno

Оставьте комментарий

Отменить ответ