книги / Электронная информация и электронные ресурсы
..pdfЦель составления документа — пронести через пространст во и время, от человека к человеку зафиксированную мысль, факт, сведения, эмоции, результаты творчества. В обеспечении этих процессов и состоит работа над документом. Между конеч ными этапами жизненного цикла документа реализуется не сколько видов работы. Из них неизбежными и необходимыми являются: создание, раскрытие содержания и очень часто — хранение (временное или постоянное). Мы постараемся изло жить эти этапы последовательно — от момента создания до обеспечения долговременной сохранности. Понятно, что со держание документа является определяющим фактором при выполнении всех видов обработки, именно ради сохранения, передачи или раскрытия содержания все и делается. При этом некоторые виды обработки оставляют содержание незатрону тым (копирование, доставка, хранение), а в ряде случаев опера ции проводятся над самим содержанием (реферирование, цити рование). Можно выявить типологические различия и несколь ко иным способом, выделив в одну группу семантическую обработку документа — классификацию, индексирование, ре ферирование, селекцию, поиск, дробление на части, цитирова ние, составление рефератов, дайджестов и избранного, группи рование тематических подборок (клиппингов) и тематических коллекций. В другую группу можно отнести те виды работы с документом, которые не связаны непосредственно с его содер жанием: создание, раскрытие содержания (конечно, имеется в виду техническая, а не творческая сторона создания), доставка документов. Говоря о создании документа, то есть фиксации информации на машиночитаемом носителе, мы предельно ко ротко перечислим основные виды носителей и их свойства. При этом сканирование можно рассматривать как один из способов
181
Глава 5. Создание, хранение электронных документов и работа с ними
создания, а также копирования документа. Косвенно, конечно, содержание учитывается при принятии решения о копировании или заказе на доставку и т. д. Еще одно замечание о сканирова нии: если дальнейшая технология предполагает проведение операции распознавания символов, то некое первичное про никновение в содержание, начальное обращение к тематике до кумента все же проводится — на уровне слова и контекста.
Особое место занимают проблемы авторского права при ко пировании (рукописное, ксерокопирование, фотокопирование, микрофотокопирование, сканирование), и мы также излагаем современное состояние дел в этой области.
Завершают наш анализ те виды работ, которые непосредст венно связаны с содержанием документа: составление поиско вого образа, поиск (напомним, что поиск осуществляется, как правило, не по самому документу и его содержанию, а по его поисковому образу), реферирование, цитирование, агрегирова ние, обеспечение сохранности (мы в данном разделе излагаем мотивацию работ по сохранению, а она опирается на содержа тельную сторону документа).
Помимо комплектования электронными ресурсами, кото рые были созданы вне библиотеки, современные компьютер ные информационные технологии открывают широкие воз можности по производству электронного ресурса своими сила ми. Существенно то, что можно не только публиковать традиционные для библиотеки ресурсы (базы данных и элек тронные каталоги, указатели, электронные версии собственных публикаций, другие профессиональные издания), но и в массо вом порядке создавать копии материалов из печатного фонда. Раскрытию документа для широких масс способствует его рас пределение — рассылка, доставка, публикация.
Нужно всемерно развивать разработку инструментов иден тификации и поиска нового знания и соответствующих доку ментов (как необычный пример из смежной области укажем, что в США издаваемая отдельно программа телевидения TV Guides приносит больше дохода, чем три ведущие программы, вместе взятые).
Библиотечные работники в практической деятельности с электронными ресурсами зачастую прибегают к нескольким наиболее простым способам обработки текстов и изображений.
182
Основные способы создания электронных документов
Упомянем о кодировке кириллического и латинского алфави тов, которая ведется с использованием широко известного и распространенного стандарта ASCII (американских стандарт ных кодов для обмена информацией). Намного больше возмож ностей может открыть использование универсального, приме нимого практически к любым видам алфавитов и знаковых сис тем кода UNICODE.
Для стандартной транслитерации — представления в лати нице знаков различных кириллических алфавитов (русского, украинского, сербского и т. п.) — чаше всего используются две схемы: таблицы ISO (Международной организации по стандар тизации) и таблицы Библиотеки Конгресса США*. Особо стоит вопрос об использовании кодовых таблиц для передачи знаков русского алфавита в Интернете. К сожалению, их существует более 15, и конверсия бывает не совсем простым делом. Чаще других применяются такие таблицы, как Windows 1251, KOI 8-R, ISO 8859-5, CP 866. Разметка текстов (выделение курсивом или жирным шрифтом, выбор типа шрифта и его размера, обо гащение текста встроенной графикой и т. п.) ведется с помощью языка разметки SGM L (Standard Generalized Mark-up Language). Развитие гипертекстовых методов обработки (формирование гиперсвязей) и обогащение текста звуком и анимацией и т. п. базируются на языке разметки HTML (Hyper Text Mark-up Language). Дальнейшее развитие состоит в разработке методов семантического контроля текста или другого сетевого докумен та на базе языка разметки XML (extended Mark-up Language).
5.1. Основные способы создания электронных документов
Мы рассматриваем лишь весьма ограниченный ряд приме ров и возможностей создания цифровых ресурсов. Технология меняется очень быстро, и важно иметь общее представление, а не увлекаться деталями.
* Есть ещ е и отечественная таблица, но она не получила ш ирокого распространения и в п р и н ц и п е не н уж н а, если иметь в виду наличие вы шеназванных двух.
I83
Глава 5. Создание, хранение электронных документов и работа с ними
5.1.1. Набор текстов вручную на клавиатуре, или клавиатурный ввод данных
Отметим, что можно выделить два направления клавиатур ного ввода данных:
а) создание авторских текстов, то есть творческая работа. До широкого внедрения планшетных устройств с распознаванием рукописных текстов все новые тексты, как правило, создаются именно так, в том числе и данная книга;
б) набор или повтор имеющихся текстов, фактически работа машинистки.
Ручная набивка текста (равно как и перенабивка) — очень трудоемкий процесс, тем не менее он до сих пор широко приме няется. Как пример, приведем работу филиппинской компании Direct Data Capture (www.datacapture.com), в которой работает 1400 операторов в 3 смены 7 дней в неделю. Производитель ность труда составляет 700 млн знаков в неделю (это эквива лентно 10 млн имен или адресов). Обеспечивается выполнение заказа и доставка готового материала в любую точку мира за 48 часов и гарантируется качество 98,5% при простом (одно кратном) вводе и 99,99% при двойной проверке.
Конечно, такого рода технология удобнее при создании спе циальных видов документов — списков, адресов, телефонов и т. п.
Технологически в этом же ряду стоит создание ручным спо собом цифровых изображений (живопись и графика с помощью компьютера), хотя полученный продукт скорее является произ ведением искусства, а не технологической записью.
5.1.2.Конверсия печатного материала в электронный формат
Существует несколько синонимов для обозначения этого процесса: оцифровывание, оцифровка и даже по терминологии, принятой у связистов, — цифровизация. В английской литера туре также используются два схожих термина и четыре способа их написания — digitization, digitizing, digitisation, digitising. Оцифровка чаще всего осуществляется путем сканирования пе
184
Основные способы создания электронных документов
чатных или рукописных материалов. Мы в данной главе рас смотрим подробнее многие аспекты сканирования, поскольку в настоящее время этот процесс наиболее значим и демонстриру ет наивысшую производительность; поэтому данный материал и выделен в самостоятельный раздел главы.
5.1.3. Изготовление цифровых фотоили аудио-, видеодокументов
Изготовление цифровых фотоили аудио-, видеодокумен тов осуществляется с помощью цифровых фотоаппаратов, ви деокамер, других оптико-электронных технических средств. Этот процесс быстро находит массу приверженцев и, по сути, очень близок к сканированию: изображение разбивается на не большие участки (пиксели), яркость и цвет которых фиксирует ся. Типичное число пикселей в современных аппаратах — не сколько миллионов (от 1 до 7—8 млн пикселей на кадр). Смен ное устройство памяти (memory stick) или память типа «flash» позволяет записать от 100 до нескольких тысяч кадров, кото рые впоследствии можно перенести на компьютер, обработать, послать по электронной почте друзьям или распечатать на принтере.
5.1.4. Обмен или предоставление своих услуг по публикации гостевых материалов
Этот процесс в чем-то близок к традиционному межбиблио течному абонементу (МБА) или книгообмену.
5.1.5.Автоматическое производство переведенных
сдругих языков материалов
Это очень интересная и перспективная отрасль автоматиче ской обработки текстов. Фактически осуществляется много кратная переработка печатного текста: конверсия в машиночи
185
Глава 5. Создание, хранение электронных документов и работа с ними
таемую форму, оптическое распознавание символов и автома тизированный перевод содержания.
5.2.Сканирование или оцифровка печатных
играфических текстов
В уже упоминавшемся Политехническом словаре [14] так определяется этот термин: «Сканирование (от английского scan — поле зрения, развертка, разложение изображения) — управляемое пространственное перемещение какого-либо луча или пучка по определенному закону». Процесс, по сути, анало гичен процессу создания изображения на телевизионном экра не или компьютерном мониторе, только действующий «в обрат ном направлении».
Ввиду принципиальной важности сегодня этого процесса в создании электронных ресурсов расскажем о нем подробнее. Оптикомеханическое считывающее устройство с точной фоку сировкой начинает проходить над листом по горизонтальной строчке, останавливаясь для замеров по заранее заданной про грамме. При остановке измеряется коэффициент отражения данного маленького участка (пикселя): если задано считывание черно-белого материала, то это просто двоичный режим, при котором фиксируется черное/белое (или да/нет, или единица/ноль). При учете градации серого цвета или при сканирова нии цветных изображений фиксируются более сложные пара метры. Шаг сканера между остановками для замеров называет ся пространственным разрешением. Завершив просмотр строчки, считывающая головка возвращается к началу строки, сдвигается на небольшой промежуток вниз, и процесс повторя ется до конца листа. Интервал перемещения вниз также опреде ляет величину пространственного разрешения. Количественно величина пространственного разрешения выражается в числе остановок (точек) на дюйм (dots per inch, dpi). Достаточно ши роко применяются 200,300,400... 1200 dpi, а в некоторых случа ях используются различные параметры пространственного раз решения по горизонтали и по вертикали, и тогда запись выгля дит, допустим, 600 х 1200 dpi. Если вспомнить, что дюйм — это
186
Сканирование или оцифровка печатных и графических текстов
2,54 см, то типовое разрешение в 300 dpi означает пространст венное разрешение лучше, чем 1/10 миллиметра.
В зависимости от назначения, требующейся производитель ности и приемлемой цены используются различные типы ска неров:
•планшетные сканеры для листа размером А4 — пожалуй, самые простые и недорогие (100—300 долларов), работают
сединичным листовым материалом. В более сложных мо делях используется автоподача листов, что в 2—3 раза уве личивает стоимость сканера;
•барабанные сканеры, которые удобнее для работы с боль шим количеством листового материала;
•планетарные сканеры предназначены для работы с пере плетенными документами; специальное устройство (ко лыбель), в котором книга лежит не полностью открытой, позволяет обеспечивать сохранность редких изданий. Возникающая при этом кривизна поверхности книжного листа компенсируется специальной программой; при не обходимости можно также «очищать» программными средствами отсканированное изображение от случайных загрязнений, имеющихся на оригинале. Другие меры по обеспечению сохранности печатного материала и защите оператора при сканировании состоят в компьютерном кон троле уровня освещенности поверхности документа. По добные сканеры, как правило, стоят 20—35 тыс. долларов;
•последнее время получили распространение большие ска неры со считывающей головкой, перемещающейся плоско параллельно над документным столом; такие устройства хо роши для сканирования карт, чертежей и других докумен тов большого формата. Стоимость таких устройств вместе
спрограммным обеспечением обработки изображений составляет около 30—45 тыс. долларов.
5.2.1.Оцифровка микрофильмов
По поручению Немецкого научного общества (DFG) и при поддержке Европейской комиссии по сохранности и доступу
187
Глава 5, Создание, хранение электронных документов и работа с ними
группа ведущих специалистов Германии исследовала проблему «Как защищать ветхие (нестабильные) книги и архивные мате риалы — оцифровкой или микрофильмированием?».
Конверсия поврежденных, ветхих книг или архивных мате риалов является эффективным и экономичным способом обес печения сохранности. Более того, в противовес стремлению просто сохранить или восстановить оригиналы перенос инфор мации с носителя, находящегося в опасности, на не знающий старения носитель означает также обеспечение более широкого и удобного доступа.
Наиболее распространенным носителем в мире, обеспечи вающим страховые копии библиотечных и архивных докумен тов, является микрофильм. Микрофильмы имеют то преимуще ство, что они не подвергаются фундаментальным технологиче ским преобразованиям и тем самым являются устойчивыми по отношению к будущим переменам. Информация, хранящаяся в аналоговой форме, непосредственно (или с весьма небольшими дополнительными устройствами) доступна человеческому гла зу. Усиливающаяся в национальных и международном масшта бах стандартизация систем микрофильмирования обеспечивает возможность их применения, невзирая на границы между стра нами. Создание, дублирование и распространение микрофор мы стоит недорого, и в то же время микрофильм можно эффек тивно оцифровать с помощью соответствующих сканеров. Воз можность экономичной оцифровки микрофильма позволяет считать его носителем с принципиально растущей совместимо стью с требованиями к качеству.
По указанным выше причинам немецкие специалисты предлагают вначале микрофильмировать ветхие материалы, а затем делать оцифровку с микрофильма. Этот подход оправдан и с финансовой точки зрения, даже в том случае, если единст венной целью оцифровки является обеспечение более высокого уровня доступа и обслуживания. И при этих обстоятельствах микрофильм как носитель для долговременного хранения, со вместимый с любой другой средой, будет в течение длительного срока оправдывать средства, затраченные на его изготовление и обслуживание. Тем самым удастся избежать очень серьезных за трат, связанных с миграцией данных и частыми технологиче
188
Сканирование или оцифровка печатных и графических текстов
скими и организационными мерами по сохранению читаемости на новых системных платформах.
Приступая к непосредственной оцифровке оригинала, не обходимо помнить, что нельзя жертвовать качеством воспроиз водства и нельзя допустить утрату данных. Второе может про изойти после непродолжительного пользования данными, о со хранности которых не позаботились заранее, не продумали вопросы совместимости или достаточных гарантий надежности носителя информации или аппаратных средств.
Несколько рекомендаций по оцифровке микрофильмов. Ес ли микрофильм высокого качества пригоден как носитель для долговременного хранения, то качество производства оцифро ванной версии будет задаваться с учетом тех целей, для которых она делается. Другими словами, оцифровка микрофильма, как правило, не должна нацеливаться на максимально наилучший результат — в отличие от того случая, когда конверсия в циф ровую форму ведется прямо с оригинала, находящегося в опас ности.
Двухтоновая оцифровка вполне подходит для обработки пе чатного текста, включая чертежи и графики, другие документы, изготовленные безударными способами печати (пластиковая угольная лента, струйный или лазерный принтер) на панхрома тической противоореольной микропленке.
Полутона серого цвета должны применяться для оцифровки следующих видов материалов: рукописей, рисунков каранда шом и пером, текстов, напечатанных на пишущей машинке с шелковой лентой, цветных иллюстраций и рисунков, других материалов, где варьируются серые тона; черно-белых и цвет ных фото.
Серой шкалы с 16 градациями (для передачи которых необ ходимо 4 бита) вполне достаточно при оцифровке контрастной противоореольной пленки. При оцифровке фильма с полутона ми требуется серая шкала со 126 градациями (16-битовая). Оцифровка с применением развернутой шкалы градаций серого цвета предъявляет серьезные требования к хранению и резко удорожает процесс на всех стадиях, поэтому применять эту тех нологию нужно только при необходимости.
При оцифровке с пленки разрешение определяется разме ром наименьшего элемента, который следует сделать ясно раз
189
Глава 5. Создание, хранение электронных документов и работа с ними
личимым. Для печатного текста это высота строчной буквы «е», для рукописи —двойная ширина этой же буквы. В соответствии с рекомендациями международного стандарта ISO 6199 введено понятие «индекс качества» (ИК) с учетом численного параметра разрешения из «Образцовой таблицы стандарта», выраженного в числе пар линий на миллиметр в зависимости от характерного размера сканируемого изображения (текста). Системы, которые обеспечивают 120 пар линий на миллиметр в центре кадра и по краям, считаются вполне удовлетворительными.
Наивысший ИК = 8, приемлемым считается и И К = 5. Для 2-тоновой оцифровки при И К = 5 необходимое пространствен ное разрешение вычисляется по формуле: а = 384///. Для оциф ровки с градацией серого цвета а = 256/И (здесь а — пространст венная разрешающая способность в точках на дюйм (dpi), h — высота буквы «е» в миллиметрах).
Воспроизведение буквы «е» высотой 1 мм (буквы такого раз мера высотой около 7 пунктов (pt) часто используются в тексте примечаний) с высоким качеством (И К = 8) потребует про странственного разрешения 615 dpi для 2-тоновой оцифровки и 410 dpi для 256-тоновой; с невысоким качеством (И К = 3) — 277 dpi для 2-тоновой и 185 dpi для 256-тоновой оцифровки. Имея резерв достижения высокого качества, заложенный в микро пленке, вполне достаточно (для огромного большинства воз можных применений) проводить оцифровку под среднее каче ство воспроизведения.
Для ориентировки можно рекомендовать разрешение 350—400 dpi для 2-тоновоЙ оцифровки и 250—300 dpi для пол ноценной шкалы серого цвета. Изображение должно распола гаться нужным образом (т. е. чтобы считывание проводилось без поворотов) и соответствовать возможно большему числу бу дущих применений. Модельным форматом для данных изобра жения является обычно формат T IFF (Tagged Image File Format), преимущество которого в том, что он в отличие, на пример, от формата Windows Bitmap в значительной степени не зависит от платформы, считывается и в дальнейшем обрабаты вается на произвольном оборудовании с различными система ми и программами. Следует, однако, заметить, что, несмотря на тщательную стандартизацию, формат T IFF допускает некото рые вариации, которые могут оказаться несовместимыми с ус-
190