540
.pdfслов, введенных в запрос пользователем (добавляются ли автоматически в запрос дополнительные термины), и по каким правилам это делается;
•правила отбора документов по выполняемому запросу: при каком соответствии запросу документы из БД будут включены в выдачу;
•правила формирования (сортировки) списка из отобранных документов.
При составлении запроса следует учитывать, что:
•запрос для проведения поиска в соответствующую область вводится с клавиатуры или путем вставки через буфер обмена;
•для текстового запроса слова вводятся в область ввода без указания области поиска (перед терминами запроса не ставятся никакие идентификаторы);
•при вводе запроса в область ввода библиографического поля обозначение поля не делается;
•при вводе библиографических данных в область ввода текстового запроса задается название библиографического поля и знак « = »;
•термины в запрос могут вводиться без учета регистра (все буквы прописные);
•запрос редактируется обычным для Word образом;
•система не имеет словарей для ввода терминов в область ввода.
Режим поиска Concept (по смыслу) – основной ре-
жим поиска, позволяющий находить документы, содержащие заданные в запросе слова и/или слова, связанные с ними семантически (синонимы, антонимы и т.п.).
Ввод запроса. В режиме Concept (по смыслу) запрос
вводится на естественном русском или английском языках без использования булевых операторов.
Обработка запроса системой. В режиме Concept (по смыслу) система автоматически расширяет семантику всех слов запроса в соответствии с установленным уровнем расширения. Уровень расширения определяет, какой тип связи (т.е. слова какого типа: синонимы, антонимы, связан-
71
ные слова и т.д.) должен быть использован системой для расширения запроса [12].
Расширение запроса заключается в том, что для каждого слова запроса из словарей системы отбираются слова определенного типа (например, синонимы) и добавляются
взапрос, а поиск производится по запросу, содержащему слова, введенные пользователем, и их семантические расширения, определенные системой.
Выдача. При поиске в режиме Concept (по смыслу)
ввыдачу включаются документы, содержащие хотя бы одно из слов запроса или его расширение, например синоним.
Список найденных документов. При поиске в режиме
Concept (по смыслу) найденные документы располагаются
всписке в порядке убывания их релевантности запросу (ранжируются). Для этого системой:
• определяется ранг каждого документа – число (от 1 до 100), характеризующее степень релевантности запросу, которое вычисляется в зависимости от многих факторов, в том числе от наличия всех или части слов из запроса в документе и/или их семантических расширений;
• в выводимом списке документы располагаются в порядке убывания их ранга.
При таком ранжировании в начале списка располагаются документы, содержащие наибольшее количество общих с запросом признаков.
Примечание: в данной реализации системы присутствуют только общие русский и английский тезаурусы, поэтому многие технические термины не будут расширены при использовании режима поиска Concept (по cмыслу).
Режим поиска Pattern (по шаблону) – основной ре-
жим поиска, позволяющий находить документы, содержащие заданные в запросе слова и слова, имеющие сходное написание (например, отличающиеся от заданных правописанием).
Поиск позволяет находить слова с трудным написанием или слова, введенные в БД, или запрос с орфографическими ошибками.
72
Ввод запроса. В режиме Pattern (по шаблону) запрос вводится на естественном языке без использования булевых операторов.
Обработка запроса системой. В режиме Pattern (по шаблону) система автоматически расширяет слова запроса вариантами его написания, имеющимися в БД, до заданного числа расширений. Число расширений определяет, какое количество слов из БД добавляется в запрос. Расширение запроса заключается в том, что для каждого слова запроса система находит слова в БД со сходным написанием (количество найденных слов задается числом расширений), эти слова добавляются в запрос и поиск проводится по запросу, содержащему слова, введенные пользователем, и их расширения, добавленные системой.
Выдача. В режиме Pattern (по шаблону) в выдачу включаются документы, содержащие хотя бы одно из слов запроса или его расширение.
Список найденных документов. Найденные документы располагаются в списке в порядке убывания их релевантности (соответствия) запросу. Ранжирование документов аналогично ранжированию в режиме Concept (по смыслу).
Режим поиска Boolean (логический) – основной ре-
жим поиска, позволяющий находить документы, содержащие слова, заданные в запросе и связанные между собой отношениями, определяемыми операторами запроса.
Ввод запроса. В режиме поиска Boolean (логический) запрос структурируется как логическое выражение с использованием традиционных булевых операторов AND, OR, NOT и операторов контекстной близости WITHIN
и ADJ (табл. 3.4).
Обработка запроса системой. В режиме поиска
Boolean (логический) система автоматического расширения слов запроса не производит.
Выдача. В режиме поиска Boolean (логический) в выдачу включаются документы, содержащие все слова запроса с учетом условий, налагаемых операторами.
73
|
|
|
|
|
|
|
|
Таблица 3.4 |
||
|
Операторы логического поиска и их описание |
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
Буле- |
|
|
|
|
|
|
|
|
Поря- |
|
вы |
|
Оператор |
Синтаксис |
|
|
Описание |
док |
|
||
опера- |
|
|
|
вы- |
|
|||||
торы |
|
|
|
|
|
|
|
|
полн. |
|
Not, ^ |
|
Not |
^ Колонна |
|
Слова |
«колонна» |
3 |
|
||
|
|
колонна |
|
|
не |
должно |
быть |
|
|
|
|
|
|
|
|
в документе |
|
|
|
||
And, |
|
But |
Колонна and |
Слова |
«колонна» |
4 |
|
|||
& |
|
|
ректификации |
и «ректификации» |
|
|
||||
|
|
|
колонна |
& |
должны быть в до- |
|
|
|||
|
|
|
ректификации |
кументе. |
(Если |
|
|
|||
|
|
|
колонна but |
между словами нет |
|
|
||||
|
|
|
ректификации |
оператора, |
то по |
|
|
|||
|
|
|
колонна |
|
умолчанию |
опера- |
|
|
||
|
|
|
|
|
тор and) |
|
|
|
||
Or , | |
|
Колонна |
Колонна | рек- |
Или |
слово |
«ко- |
6 |
|
||
|
|
or ректи- |
тификации |
|
лонна», или слово |
|
|
|||
|
|
фикации |
|
|
«ректификации» |
|
|
|||
|
|
|
|
|
должно быть най- |
|
|
|||
|
|
|
|
|
дено в документе |
|
|
|||
Within |
Колонна |
Within N |
|
Слово |
«колонна» |
5 |
|
|||
|
|
ректифи- |
|
|
должно находить- |
|
|
|||
|
|
кации |
|
|
ся от слова «рек- |
|
|
|||
|
|
|
|
|
тификации» |
на |
|
|
||
|
|
|
|
|
расстоянии |
N по- |
|
|
||
|
|
|
|
|
зиций |
|
|
|
|
|
Adj |
|
Колонна |
Adj N |
|
Слово |
«колонна» |
5 |
|
||
|
|
ректифи- |
|
|
должно находить- |
|
|
|||
|
|
кации |
|
|
ся |
перед словом |
|
|
||
|
|
|
|
|
«ректификации» |
|
|
|||
|
|
|
|
|
на |
|
расстоянии |
|
|
|
|
|
|
|
|
N позиций |
|
|
|
||
|
|
|
74 |
|
|
|
|
|
|
|
Список найденных документов. В режиме поиска
Boolean (логический) найденные документы не ранжируются. В списке документы располагаются в хронологическом порядке, определяемом датой ввода документа в БД.
Поиск с использованием специальных операторов.
В инструкции рассматриваются следующие специальные операторы системы:
•операторы подстановок (?, *, [искомое выражение]);
•двойные кавычки «...»;
•скобки (…).
Операторы подстановок (?, *, [искомое выражение]) используются для замены частей слов (чисел), когда надо найти несколько похожих слов (чисел) (табл. 3.5).
Таблица 3.5
Специальные операторы
Опера- |
Синтаксис |
Описание |
В выдачу |
Режим |
|
тор |
может быть |
поиска |
|||
|
|
|
включено |
|
|
? |
Ст?л? |
Заменяет |
Стула, сту- |
Boolean |
|
|
|
один сим- |
лу, |
стуле, |
Concept |
|
|
вол стиля |
сталь, столе |
|
|
* |
Стул* |
Заменяет |
Стул, стула, |
Boolean |
|
|
|
любое чис- |
стулу, |
сту- |
Concept |
|
|
ло симво- |
лом, |
стуле, |
|
|
|
лов |
стульев, |
|
|
|
|
|
стульям, |
|
|
|
|
|
стульями |
|
|
[иско- |
В2[1–4]В1/00 |
Заменяет |
В21В1/00 |
Boolean |
|
мое вы- |
|
одиночный |
В22В1/00 |
Concept |
|
раже- |
|
символ зна- |
В23В1/00 |
|
|
ние] |
|
чениями из |
В24В1/00 |
|
|
|
|
заданного |
|
|
|
|
|
интервала |
|
|
|
|
|
75 |
|
|
|
Окончание табл. 3.5
Опера- |
Синтаксис |
Описание |
В выдачу |
Режим |
тор |
может быть |
поиска |
||
|
|
|
включено |
|
[иско- |
В2[1,4][В,С]1/00 |
Заменяет |
В21В1/00 |
Boolean |
мое вы- |
|
единичный |
В24В1/00 |
Concept |
раже- |
|
символ за- |
В21С1/00 |
|
ние] |
|
данными |
В24С1/00 |
|
|
|
значениями |
|
|
Двойные кавычки «...» – оператор, обеспечивающий поиск точной фразы: точно такого же набора слов, расположенных в той же последовательности, что и заключенные в кавычки.
Слова в двойных кавычках не расширяются при режимах поиска Concept (по смыслу) или Pattern (по шаблону). В кавычки может быть заключено любое число слов (в том числе и одно) (табл. 3.6).
Скобки (…) – оператор, обеспечивающий поиск группы слов.
|
|
|
|
|
Таблица 3.6 |
|
Специальные операторы (двойные кавычки) |
|
|||||
|
|
|
|
|
||
Оператор |
Синтаксис |
Описание |
|
Режим поиска |
||
«…» |
«Чистовая |
Слово «чисто- |
Слова с другим по- |
|||
|
обработка» |
вая» должно на- |
рядком |
(обработка |
||
|
|
ходиться непо- |
чистовая) и/или до- |
|||
|
|
средственно |
пе- |
полнительными |
||
|
|
ред словом «об- |
терминами |
между |
||
|
|
работка» |
|
ними |
в |
выдачу |
|
|
|
|
не включаются |
||
Boolean |
Pattern |
(…) |
|
(Чистовая OR от- |
||
Concept |
|
|
|
делочная) |
обра- |
|
|
|
|
|
ботка |
|
|
|
|
76 |
|
|
|
|
Врежиме поиска Concept (по смыслу) или Pattern (по шаблону) слова внутри круглых скобок расширяются и согласовываются, а при ранжировании оцениваются как группа, а не отдельные слова (т.е. документы, включающие
всебя слова группы, получают более высокий ранг, чем документы, включающие в себя такое же количество отдельных слов запроса).
Врежиме поиска Boolean (логический) заключенные
вскобки операторы имеют преимущество в последовательности выполнения перед другими операторами запроса (табл. 3.7). Заключенный в скобки оператор имеет преимущество в порядке выполнения перед другими операторами запроса. Должны быть найдены: «чистовая обработка» и/или «отделочная обработка» Boolean (…) (чистовая обработка) материалов. Документы, содержащие пару «чистовая обработка» будут ранжироваться выше, чем документы с парами «чистовая, материалов» и «обработка материалов»
Pattern Concept.
|
|
|
|
|
|
|
Таблица 3.7 |
|
|
Использование операторов в системе |
|||||
|
|
|
|
|
|
|
|
Режим |
? |
|
* |
[.] |
"…" |
(…) |
Примечания |
поиска |
|
|
|
|
|
|
|
Concept |
+ |
|
+ |
+ |
+ |
+ |
Для терминов с операторами ?, |
|
|
|
|
|
|
|
*, [.], "." не производится рас- |
|
|
|
|
|
|
|
ширение, соответствующее ре- |
|
|
|
|
|
|
|
жиму поиска |
Pattern |
– |
|
– |
– |
+ |
+ |
Для терминов в «…» не произ- |
|
|
|
|
|
|
|
водится расширение, соответ- |
|
|
|
|
|
|
|
ствующее режиму поиска |
Boolean |
+ |
|
+ |
+ |
+ |
+ |
|
Ввод запроса. Ввод запроса определяется выбранным режимом поиска. Примеры ввода слов с операторами приведены в табл. 3.5, 3.6, там же указано, для каких режимов поиска могут быть использованы операторы.
77
Обработка запросов системой. Обработка запросов проводится по правилам, определенным выбранным режимом поиска и условиями, налагаемыми используемым оператором. Примеры расширения слов запросов со специальными операторами приведены в табл. 3.5.
Выдача и список найденных документов формируются по правилам, определенным выбранным режимом поиска.
В табл. 3.7 показано, при каких режимах поиска
(Concept, Pattern, Boolean) могут быть использованы специ-
альные операторы.
Экспертный режим поиска (Expert) – режим поиска,
который может использоваться вместе с любым основным типом запроса для увеличения его точности путем выбора расширяющих терминов из списков, предлагаемых системой.
Ввод запроса. При поиске в режиме Expert (экспертный) запрос вводится в соответствии с правилами ввода запроса для выбранного основного режима поиска (Concept, Pattern, Boolean).
Обработка запроса системой. При поиске в режиме
Expert (экспертный) система только формирует списки расширений слов запроса в соответствии с выбранным ос-
новным режимом поиска (Concept, Pattern, Boolean), а вы-
бирает из этих списков интересующие его расширения сам пользователь. Кроме того, пользователь может задать вес (оценку) слов запроса. Вес влияет на величину ранга документа и используется для придания отдельным словам запроса большей важности (документы, содержащие слова с большим весом, будут выводиться в начало ранжированного списка).
Выдача и список документов. При поиске в режиме
Expert (экспертный) выдача и список формируются по правилам, определяемым основным режимом поиска (Concept, Pattern, Boolean).
Поиск по библиографическим полям – тип запроса,
который может выполняться отдельно или вместе с полнотекстовым поиском при любом режиме поиска (Concept, Pattern, Boolean).
78
Ввод запроса. При поиске по полям запрос может вводиться двумя способами:
•в области ввода соответствующего поля запрос вводится в соответствии с правилами ввода для режима Boolean (логический) без указания названия поля;
•в область ввода текстового запроса запрос к каждому полю вводится после указания названия поля и знака равенства (F511=b23h1/00), текстовый запрос вводится без указания идентификаторов поля.
Обработка запроса системой. При поиске по полям обработка запроса производится:
•в соответствии с выбранным режимом поиска
(Concept, Pattern, Boolean) – для части запроса, введенной
вобласть ввода текстового запроса;
•в соответствии с режимом Boolean (логический) – для части запроса, введенной в области ввода полей.
Выдача. При поиске по полям в выдачу включаются:
•при вводе запроса только в область ввода текстового запроса – документы, отвечающие условиям их включения
ввыдачу для выбранного режима поиска (Concept, Pattern, Boolean) – см. пример 1;
•при вводе запроса только в области ввода полей – документы, обязательно содержащие поля с искомой информацией;
•при вводе запроса в области ввода текстовой части
ибиблиографических полей – документы, обязательно содержащие поля с искомой информацией и при этом отвечающие условиям их включения в выдачу для выбранного режима поиска (Concept, Pattern, Boolean) – см. пример 2.
Пример 1.
Запрос: тангенциальная составляющая силы деформирования F511=В24В39/00 − все в области ввода текстового запроса. В выдачу будут включены:
– при поиске Concept (по смыслу) – документы, каждый из которых содержит хотя бы одно из четырех слов запроса (или их синонимов), или рубрику МПК, или любую комбинацию из этих слов;
79
–при поиске Pattern (по шаблону) – документы, каждый из которых содержит хотя бы одно из четырех слов запроса (или их расширений), или рубрику МПК, или любую комбинацию из слов и расширений;
–при поиске Boolean (логический) – документы, каждый из которых содержит все эти слова и рубрику МПК.
Пример 2.
Запрос: тангенциальная составляющая силы деформирования – в области ввода текстового запроса В24В39/00 –
вполе МПК. В выдачу будут включены:
–при поиске Concept (по смыслу) – документы, каждый из которых обязательно содержит рубрику В24В39/00 и хотя бы одно из четырех слов запроса или их синонимов;
–при поиске Pattern (по шаблону) – документы, каждый из которых обязательно содержит рубрику В24В39/00 и хотя бы одно из четырех слов запроса или их расширений;
–при поиске Boolean (логический) – документы, обязательно включающие все термины запроса (так как по умолчанию между словами оператор AND).
Список найденных документов. Список формируется:
•при задании хотя бы части запроса в области ввода текстового запроса – по правилам, установленным для выбранного режима поиска (Concept (по смыслу), Pattern (по шаблону), Boolean (логический));
•при задании запроса только в областях ввода полей –
всоответствии с режимом Boolean (логический).
Итеративный поиск (Refine) – поиск любого типа,
выполняемый в массиве документов, найденных по предыдущему запросу.
Ввод запроса, обработка запроса системой, выдача и сортировка найденных документов проводятся в соответствии с выбранным режимом поиска: Concept (по смыслу), Pattern (по шаблону), Boolean (логический). Переход в режим Refine (уточнить) задается в закладке Results (результаты) после получения списка найденных по предыдущему запросу документов. Для этого:
80