901
.pdfНа правах рукописи
КИРИЛЛ АНАТОЛЬЕВИЧ КОЛОСОВ
СОЗДАНИЕ И ПРИМЕНЕНИЕ В БИБЛИОТЕЧНОЙ ПРАКТИКЕ КОРПОРАТИВНОЙ ТЕХНОЛОГИИ НА БАЗЕ ПРОТОКОЛА Z39.50
Специальность: 05.25.05 Информационные системы и процессы, правовые аспекты информатики
АВТОРЕФЕРАТ диссертации на соискание ученой степени
кандидата технических наук
Москва 2008
Работа выполнена на кафедре информационных технологий и электронных библиотек Федерального государственного образовательного учреждения высшего профессионального образования «Московский государственный уни верситет культуры и искусств»
Научный руководитель: |
кандидат технических наук, профессор |
|
Феликс Семенович Воройский |
|
Федеральное государственное учреждение |
|
«Государственная публичная |
|
научно-техническая библиотека России» |
Официальные оппоненты: |
доктор технических наук, профессор |
|
Александр Борисович Антопольский |
|
Федеральное государственное |
|
образовательное учреждение |
|
высшего профессионального образования |
|
«Московский государственный университет |
|
культуры и искусств» |
|
доктор технических наук, профессор |
|
Борис Степанович Елепов |
|
Научно-исследовательское учреждение |
|
«Государственная публичная научно- |
|
техническая библиотека Сибирского |
|
отделения Российской академии наук» |
Ведущая организация: |
Всероссийский институт научной |
|
и технической информации РАН |
|
(ВИНИТИ РАН) |
Защита диссертации состоится 30 мая 2008 года в 11 часов на заседании диссертационного совета Д 210.010.01 при Федеральном государственном обра зовательном учреждении высшего профессионального образования «Московский государственный университет культуры и искусств» по адресу: 141406, Москов ская обл., г. Химки-6, ул. Библиотечная, д. 7, ауд. 218.
С диссертацией можно ознакомиться в научной библиотеке Московского государственного университета культуры и искусств.
Автореферат разослан « 22 » |
апреля 2008 г. |
Ученый секретарь |
|
диссертационного совета |
В.Т. Клапиюк |
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность исследования. Интенсивное развитие информацион ных и телекоммуникационных технологий и открытых стандартов явилось технологической основой создания библиотечных корпораций, широкое распространение которых происходит во всем мире в последнее десятиле тие. Для читателей библиотечные корпорации предоставляют такие новые возможности, как поиск в виртуальном сводном каталоге, объединяющем информационные ресурсы участников корпорации, доступ к полнотексто вым документам из виртуального сводного каталога, заказ оцифрованных документов через службу электронной доставки, доступ к подписным базам данных и полнотекстовым изданиям, получаемым на основе корпоративного комплектования. Для сотрудников библиотек корпоративные технологии дают возможности сократить рутинные операций и существенно снизить трудоемкость и затраты за счет использования технологии каталогизации путем заимствования записей.
Современные технические решения позволяют любой крупной биб лиотеке создавать и поддерживать собственные порталы, использующие доступ к ресурсам библиотечных корпораций на основе протокола Z39.50, с целью более полного удовлетворения запросов поиска и получения инфор мации для своей читательской аудитории и обеспечивающие передачу поис ковых запросов в интерактивном режиме к любому числу серверов. В зави симости от профиля библиотеки и назначения поискового портала число каталогов, входящих в виртуальный сводный каталог, может составлять от нескольких десятков до нескольких сотен. Несмотря на очевидные преиму щества распределенной информационной системы, время обработки поис ковых запросов в ней может существенно превышать значения, получаемые при поиске в системах, использующих предварительную индексацию доку ментов, - таких, как поисковые Инернет-порталы (Yandex, Google и т.п.). Это обстоятельство создает ситуацию, когда задержки при обработке поис ковых запросов, а также значительный объем информации при поиске по большому числу источников, препятствуют полноценному использованию корпоративных библиотечных порталов.
Начавшийся поиск путей решения этой проблемы привел к идее созда ния целевых поисковых групп, сужающих охват информационных источни ков на основе тематических и географических критериев. Такие решения реализованы, в частности, на портале Ассоциации российских библиотеч ных консорциумов (АРБИКОН).
Однако большинство поисковых порталов библиотечных корпораций, использующих решения на основе протокола Z39.50, не в полной мере ис пользуют его функциональные возможности, обеспечивающие параллель ность обработки пользовательских запросов и представления результатов поиска, что приводит к возникновению значительных временных задержек при поиске по большому числу информационных источников.
В связи с этим возникла потребность на базе портала корпоративной сети московских библиотек исследовать причины возникновения задержек при поиске по группе серверов Z39.50 и предложить программные и техно логические решения, повышающие производительность поиска в корпора тивных библиотечных сетях, что является актуальной научной и техниче ской задачей.
Одним из перспективных направлений развития корпоративных биб лиотечных порталов является интеграция поиска по электронным каталогам и полнотекстовым коллекциям документов. Технические решения для под держки такого комбинированного поиска, используемые, в частности, в проекте Европейской библиотеки (TEL), базируются на протоколе SRU, яв ляющемся дальнейшим развитием протокола Z39.50 и позволяющем прово дить поиск и по электронным коллекциям, поддерживающим технологию OAI-PMH.
Однако значительное число российских библиотек, в том числе вузов ских, в течение ряда лет используют программные решения ИРБИС для соз дания электронных каталогов полнотекстовых ресурсов. Данные решения в сочетании с решениями системы автоматизации библиотек ИРБИС для по иска по массивам полнотекстовых документов образуют техническую среду для создания электронных библиотек. Использование корпоративных техно логий на основе протокола Z39.50 позволяет расширить число подключае мых информационных источников и повысить эффективность обработки поисковых запросов пользователей при работе с электронными библиотека ми, использующими программные решения ИРБИС. Таким образом, возни кает потребность исследовать теоретические и практические аспекты созда ния и применения в библиотечной практике корпоративной технологии на базе протокола Z39.50 с целью дальнейшего её совершенствования, что яв ляется актуальной научной и технической задачей.
Разработанность темы исследования. Использование протокола Z39.50 в библиотечных корпорациях за последние несколько лет стало по вседневной практикой, вопросы повышения эффективности технических
4
решений на основе этого протокола постоянно обсуждаются в специальной литературе и на различных российских и международных конференциях.
Широкий комплекс вопросов проектирования корпоративных библио течных систем был подробно рассмотрен в трудах Я.Л. Шрайберга, Ф.С. Воройского. Вопросы использования протокола Z39.50 при разработке и реализации библиотечных Интернет-комплексов подробно исследованы в работах М.В. Гончарова. Теоретические и технические аспекты построения распределенных информационных систем на основе протокола Z39.50 рас смотрены в трудах О.Л. Жижимова, в том числе в его докторской диссерта ции. Вопросы построения распределенных информационных систем на ос нове СУБД CDS/ISIS и технологии Z39.50 изучались в работах Н.А. Мазова. Проблемы создания распределенного электронного каталога библиотечного консорциума, использующего протокол Z39.50 для поиска информации, рассматривались в работах О.С. Колобова.
Отдельные проблемы, касающиеся оптимизации обработки поисковых запросов в информационной системе, состоящей из шлюза HTTP-Z39.50 и группы серверов корпоративной библиотечной сети, уже были рассмотрены в научной литературе. Так, в работах О.Л. Жижимова изучались вопросы оптимизации задержек при обработке запросов с использованием провайде ра удаленного доступа сервера ZooPARK и уменьшения числа одновремен ных сеансов взаимодействия между клиентом и сервером. Вопросы исполь зования многопоточности при обработке поисковых запросов в информаци онной среде, состоящей из шлюза HTTP-Z39.50 и группы серверов Z39.50, рассматривались в работах А.Ю. Хохлова и впервые в российской практике были решены в разработанном им портале СИГЛА. Использование монито ринга серверов Z39.50 с целью исключения неактивных серверов при обра ботке широковещательных поисковых запросов было предложено в работах Р.Т. Усманова и А.А. Кузнецова и реализовано в рабочей версии портала АРБИКОН.
Однако до настоящего времени не проводилось комплексного иссле дования информационной системы, состоящей из шлюза HTTP-Z39.50 и группы серверов Z39.50 корпоративной библиотечной сети, с целью разра ботки комплекса технических решений, повышающих производительность поиска. Кроме того, не исследовались вопросы создания типового решения электронной библиотеки вуза с использованием программных решений ИРБИС и шлюза HTTP-Z39.50. Данная диссертация предполагает воспол нить этот пробел.
5
Объектом исследования является теория и практика программных и технических решений на основе протокола Z39.50 с позиции эффективности их использования при обслуживании пользователей информационных ре сурсов корпоративных библиотечных систем.
Предмет исследования: способы оптимизации программнотехнических средств обработки поисковых запросов в корпоративных биб лиотечных сетях, использующих протокол Z39.50.
Цель исследования: выявление и анализ совокупности причин увели чения временных задержек при поиске по большому числу серверов Z39.50 в библиотечной корпорации, а также определение путей повышения эффек тивности обработки поисковых запросов пользователей, в том числе при создании электронных библиотек вузов на основе программных решений ИРБИС и шлюза HTTP-Z39.50.
Поставленная цель достигается путём решения следующих задач:
-анализ программно-технических решений реализации корпора тивных библиотечных порталов и выявление основных факторов, влияющие на временные задержки при обработке поисковых за просов пользователей;
-разработка и анализ математической модели обработки поисковых запросов в системе, состоящей из шлюза HTTP-Z39.50 и группы серверов;
-разработка обобщенных алгоритмов передачи поискового запроса серверам корпоративной сети и представления результатов на по исковом портале;
-разработка типового решения портала электронной библиотеки на основе использования технологии Z39.50 и программных решений ИРБИС с возможностями интегрированного поиска по электрон ному каталогу библиографических описаний и массиву полнотек стовых документов.
Методологической основой исследования явились положения, из ложенные в трудах по основным принципам разработки и эксплуатации ав
томатизированных |
библиотечно-информационных систем |
библиотек |
Я.Л. Шрайберга, |
Ф.С. Воройского, Б.И. Маршака, М.В. |
Гончарова, |
А.И. Бродовского, разработки в области информатики, в частности - по созданию информационных систем и баз данных Дж. Мартина, проектиро вания и эксплуатации региональных информационных систем и использова ния информационных ресурсов Н.Е. Каленова. Существенной методологи-
6
ческой опорой для проведения исследования в области корпоративных се тей, использующих протокол Z39.50, стали положения, изложенные в рабо тах О.Л. Жижимова, Н.А. Мазова, А.И. Племнека.
Ввиду комплексного характера исследования в качестве инструмента рия для его проведения использовались: метод сравнительного анализа, мо делирование, анкетирование, инженерные методы анализа и синтеза инфор мационных систем, положения теории систем и сетей массового обслужива ния.
Научная новизна. В результате анализа технологических решений со временных российских библиотечных корпораций, использующих протокол Z39.50, в настоящей работе выявлены основные факторы, влияющие на эф фективность обработки поисковых запросов пользователей. Разработана математическая модель обработки поисковых запросов в корпоративной сети, позволяющая повысить функциональные характеристики корпоратив ного портала. Предложено типовое решение для портала электронной биб лиотеки вуза на основе шлюза HTTP-Z39.50. Определен новый подход к интеграции поиска по электронному каталогу библиографических описаний и массиву полнотекстовых документов с использованием провайдера дан ных Z39.50 для полнотекстового модуля АБИС ИРБИС.
На защиту выносятся следующие основные положения:
1. Шлюз HTTP-Z39.50 должен обеспечивать обработку поисковых за просов пользователей библиотечной корпорации с минимальными задерж ками.
2.Решение задачи повышения характеристик порталов на основе шлюзов HTTP-Z39.50 может быть достигнуто за счет обеспечения фонового мониторинга библиотечной корпоративной сети с целью выявления неак тивных серверов, а также с помощью навигации и уточнения поисковых запросов в пользовательском интерфейсе портала.
3.Предложенная автором математическая модель обработки поиско вого запроса библиотечной корпоративной сети на основе шлюза Z39.50 позволяет сделать следующие выводы:
-функциональные возможности поискового портала на основе шлюза HTTP-Z39.50 могут быть существенно улучшены при исключении неактивных серверов из числа опрашиваемых;
-при большом числе заданий в системе возрастают требования к производительности центрального узла - шлюза HTTP-Z39.50.
7
4.Электронная библиотека вуза, созданная на основе шлюза НТТРZ39.50 и программных решений ИРБИС, обеспечивает интегриро ванный поиск по электронным каталогам и полнотекстовым масси вам документов.
5.Порталы КСМБ и «Электронная библиотека МГУКИ» целесообраз но строить на основе предложенных автором технических решений, использующих результаты исследования: шлюза HTTP-Z39.50 и сервера Z32/Z64.
Теоретическая значимость исследования состоит в развитии кон цепции создания поисковых порталов библиотечных корпораций, исполь зующих технологию Z39.50, а также в определении технологических и орга низационных принципов их дальнейшего расширения для создания элек тронных библиотек.
Практическая значимость и реализация результатов исследова ния заключаются в создании программного комплекса, состоящего из шлю за HTTP-Z39.50 и сервера Z32/Z64, входящего в состав АБИС ИРБИС, ко торый используется для создания корпоративных библиотечных систем, в том числе и в Корпоративной сети московских библиотек, а также для соз дания электронных библиотек вузов, в частности, для пилотной версии электронной библиотеки МГУКИ.
Апробация результатов проходила в ГПНТБ России. Разработанное программное обеспечение используется в составе АБИС ИРБИС, что под тверждено свидетельством об официальной регистрации, выданным Феде ральной службой по интеллектуальной собственности, патентам и товарным знакам. Кроме того, результаты исследования реально используются в Кор поративной сети московских библиотек, ГПНТБ России, ВГБИЛ им. М.И. Рудомино. Основные положения диссертации изложены в 14 публика циях, в том числе в монографии (совместно с М.В. Гончаровым), неодно кратно докладывались на международных конференциях «Крым» и ЛИБКОМ.
Достоверность результатов исследования обусловлена использова нием теоретических и эмпирических методов, адекватных целям и задачам исследования, апробацией идей диссертационного исследования на практи ке, на различных научных конференциях.
8
ОСНОВНОЕ СОДЕРЖАНИЕ ДИССЕРТАЦИИ
Поставленные научные задачи обусловили следующую структуру дис сертации: работа состоит из введения, трех глав, заключения, списка литера туры и приложений.
Первая глава «Протокол Z39.50: история создания, область и опыт использования» посвящена рассмотрению возможностей использо вания протокола Z39.50 в библиотеках и библиотечных корпорациях, анали зу современных тенденций развития программных решений на основе этого протокола, выявлению ряда проблем, связанных с неполной совместимо стью серверов, а также причин временных задержек при поиске по группе серверов Z39.50.
В первом разделе первой главы «История появления и области исполь зования протокола Z39.50» рассмотрены причины, обусловившие использо вание протокола Z39.50 при создании библиотечных корпораций, описаны возможности современных версий этого протокола, приведены особенности использования наборов поисковых атрибутов и профайлов. Рассмотрена история появления и развития библиотечных корпораций в России, проана лизированы особенности наиболее распространенных решений российских разработчиков, использующих Z39.50.
Во втором разделе первой главы «Применение протокола Z39.50 в библиотечных технологиях» рассматриваются основные направления ис пользования технологий на основе данного протокола в библиотечной прак тике, а именно: создание виртуальных сводных каталогов, поддержка кор поративной каталогизации и каталогизации путем заимствования записей. На основе анализа литературы подробно описаны преимущества и недостат ки создания физических и виртуальных сводных каталогов. Для виртуаль ных сводных каталогов, основанных на использовании технологии Z39.50, подробно рассмотрены требования к полноте предоставляемой информации, включая доступность документов и возможность их получения через службу ЭДД и МБА. Сделан вывод о преимуществе использования WEB-шлюзов по сравнению с программами-клиентами при создании пользовательских пор талов. Проведен обзор дополнительных программных решений на основе протокола Z39.50, используемых для автоматизации ведения библиографии, интеграции с текстовыми процессорами для вставки ссылок в документы и автоматического импорта ссылок.
Третий раздел первой главы «Использование решений на основе про токола Z39.50 для целей корпоративной каталогизации» посвящен анализу
9
использования технологии каталогизации путем заимствования записей в зарубежных и российских библиотечных корпорациях.
В четвертом параграфе первой главы «Новые тенденции использова ния технологии на основе протокола Z39.50 в библиотечных сетях и корпо рациях» рассмотрены отдельные решения, повышающие эффективность обработки поисковых запросов пользователей корпоративных библиотеч ных порталов; в частности, приведены особенности создания целевых поис ковых групп, образованных по географическому и тематическому принци пам отбора информационных ресурсов, с целью уменьшения суммарного числа серверов, участвующих в обработке отдельных запросов. Кроме того, рассмотрены новые направления развития корпоративных технологий: про токолы SRU/SRW, проект ОАI и интеграция поиска по электронным катало гам национальных библиотек и коллекциям электронных документов, реа лизованная в проекте Европейской библиотеки (TEL).
В пятом разделе первой главы «Проблемы, возникающие при работе с виртуальными сводными каталогам, из-за неполной совместимости серве ров Z39.50» анализируются причины, снижающие эффективность поиска через корпоративные порталы, связанные с особенностями реализации не которых программных решений, и делается вывод о необходимости соблю дения требований профайла Bath для всех программных решений на основе протокола Z39.50, используемых в библиотечных корпорациях.
В шестом разделе «Проблемы временных задержек при поиске по группе серверов Z39.50» анализируется зарубежный опыт исследования дан ной проблемы. Приведен анализ временных задержек, возникающих при поиске по ряду серверов Z39.50 в Великобритании; показано, что наличие хотя бы одного медленного или неактивного сервера Z39.50 приводит к су щественному ухудшению характеристик корпоративного поискового порта ла. Сделан вывод о том, что решение задачи повышения характеристик по исковых порталов на основе шлюзов HTTP-Z39.50 связано с оптимизацией представления результатов поиска по группе серверов Z39.50, с решением проблемы минимизации задержек, возникающих из-за опроса неактивных серверов, и с улучшением возможностей навигации и уточнения поисковых запросов в пользовательском интерфейсе портала.
Вторая глава «Использование шлюзов HTTP-Z39.50 в российских библиотечных корпорациях и задачи развития программных решений»
посвящена рассмотрению основных тенденций использования шлюзов HTTP-Z39.50 при создании поисковых порталов российских библиотечных
10