Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Электронная информация и электронные ресурсы

..pdf
Скачиваний:
2
Добавлен:
20.11.2023
Размер:
20.88 Mб
Скачать

Цель составления документа — пронести через пространст­ во и время, от человека к человеку зафиксированную мысль, факт, сведения, эмоции, результаты творчества. В обеспечении этих процессов и состоит работа над документом. Между конеч­ ными этапами жизненного цикла документа реализуется не­ сколько видов работы. Из них неизбежными и необходимыми являются: создание, раскрытие содержания и очень часто — хранение (временное или постоянное). Мы постараемся изло­ жить эти этапы последовательно — от момента создания до обеспечения долговременной сохранности. Понятно, что со­ держание документа является определяющим фактором при выполнении всех видов обработки, именно ради сохранения, передачи или раскрытия содержания все и делается. При этом некоторые виды обработки оставляют содержание незатрону­ тым (копирование, доставка, хранение), а в ряде случаев опера­ ции проводятся над самим содержанием (реферирование, цити­ рование). Можно выявить типологические различия и несколь­ ко иным способом, выделив в одну группу семантическую обработку документа — классификацию, индексирование, ре­ ферирование, селекцию, поиск, дробление на части, цитирова­ ние, составление рефератов, дайджестов и избранного, группи­ рование тематических подборок (клиппингов) и тематических коллекций. В другую группу можно отнести те виды работы с документом, которые не связаны непосредственно с его содер­ жанием: создание, раскрытие содержания (конечно, имеется в виду техническая, а не творческая сторона создания), доставка документов. Говоря о создании документа, то есть фиксации информации на машиночитаемом носителе, мы предельно ко­ ротко перечислим основные виды носителей и их свойства. При этом сканирование можно рассматривать как один из способов

181

Глава 5. Создание, хранение электронных документов и работа с ними

создания, а также копирования документа. Косвенно, конечно, содержание учитывается при принятии решения о копировании или заказе на доставку и т. д. Еще одно замечание о сканирова­ нии: если дальнейшая технология предполагает проведение операции распознавания символов, то некое первичное про­ никновение в содержание, начальное обращение к тематике до­ кумента все же проводится — на уровне слова и контекста.

Особое место занимают проблемы авторского права при ко­ пировании (рукописное, ксерокопирование, фотокопирование, микрофотокопирование, сканирование), и мы также излагаем современное состояние дел в этой области.

Завершают наш анализ те виды работ, которые непосредст­ венно связаны с содержанием документа: составление поиско­ вого образа, поиск (напомним, что поиск осуществляется, как правило, не по самому документу и его содержанию, а по его поисковому образу), реферирование, цитирование, агрегирова­ ние, обеспечение сохранности (мы в данном разделе излагаем мотивацию работ по сохранению, а она опирается на содержа­ тельную сторону документа).

Помимо комплектования электронными ресурсами, кото­ рые были созданы вне библиотеки, современные компьютер­ ные информационные технологии открывают широкие воз­ можности по производству электронного ресурса своими сила­ ми. Существенно то, что можно не только публиковать традиционные для библиотеки ресурсы (базы данных и элек­ тронные каталоги, указатели, электронные версии собственных публикаций, другие профессиональные издания), но и в массо­ вом порядке создавать копии материалов из печатного фонда. Раскрытию документа для широких масс способствует его рас­ пределение — рассылка, доставка, публикация.

Нужно всемерно развивать разработку инструментов иден­ тификации и поиска нового знания и соответствующих доку­ ментов (как необычный пример из смежной области укажем, что в США издаваемая отдельно программа телевидения TV Guides приносит больше дохода, чем три ведущие программы, вместе взятые).

Библиотечные работники в практической деятельности с электронными ресурсами зачастую прибегают к нескольким наиболее простым способам обработки текстов и изображений.

182

Основные способы создания электронных документов

Упомянем о кодировке кириллического и латинского алфави­ тов, которая ведется с использованием широко известного и распространенного стандарта ASCII (американских стандарт­ ных кодов для обмена информацией). Намного больше возмож­ ностей может открыть использование универсального, приме­ нимого практически к любым видам алфавитов и знаковых сис­ тем кода UNICODE.

Для стандартной транслитерации — представления в лати­ нице знаков различных кириллических алфавитов (русского, украинского, сербского и т. п.) — чаше всего используются две схемы: таблицы ISO (Международной организации по стандар­ тизации) и таблицы Библиотеки Конгресса США*. Особо стоит вопрос об использовании кодовых таблиц для передачи знаков русского алфавита в Интернете. К сожалению, их существует более 15, и конверсия бывает не совсем простым делом. Чаще других применяются такие таблицы, как Windows 1251, KOI 8-R, ISO 8859-5, CP 866. Разметка текстов (выделение курсивом или жирным шрифтом, выбор типа шрифта и его размера, обо­ гащение текста встроенной графикой и т. п.) ведется с помощью языка разметки SGM L (Standard Generalized Mark-up Language). Развитие гипертекстовых методов обработки (формирование гиперсвязей) и обогащение текста звуком и анимацией и т. п. базируются на языке разметки HTML (Hyper Text Mark-up Language). Дальнейшее развитие состоит в разработке методов семантического контроля текста или другого сетевого докумен­ та на базе языка разметки XML (extended Mark-up Language).

5.1. Основные способы создания электронных документов

Мы рассматриваем лишь весьма ограниченный ряд приме­ ров и возможностей создания цифровых ресурсов. Технология меняется очень быстро, и важно иметь общее представление, а не увлекаться деталями.

* Есть ещ е и отечественная таблица, но она не получила ш ирокого распространения и в п р и н ц и п е не н уж н а, если иметь в виду наличие вы­ шеназванных двух.

I83

Глава 5. Создание, хранение электронных документов и работа с ними

5.1.1. Набор текстов вручную на клавиатуре, или клавиатурный ввод данных

Отметим, что можно выделить два направления клавиатур­ ного ввода данных:

а) создание авторских текстов, то есть творческая работа. До широкого внедрения планшетных устройств с распознаванием рукописных текстов все новые тексты, как правило, создаются именно так, в том числе и данная книга;

б) набор или повтор имеющихся текстов, фактически работа машинистки.

Ручная набивка текста (равно как и перенабивка) — очень трудоемкий процесс, тем не менее он до сих пор широко приме­ няется. Как пример, приведем работу филиппинской компании Direct Data Capture (www.datacapture.com), в которой работает 1400 операторов в 3 смены 7 дней в неделю. Производитель­ ность труда составляет 700 млн знаков в неделю (это эквива­ лентно 10 млн имен или адресов). Обеспечивается выполнение заказа и доставка готового материала в любую точку мира за 48 часов и гарантируется качество 98,5% при простом (одно­ кратном) вводе и 99,99% при двойной проверке.

Конечно, такого рода технология удобнее при создании спе­ циальных видов документов — списков, адресов, телефонов и т. п.

Технологически в этом же ряду стоит создание ручным спо­ собом цифровых изображений (живопись и графика с помощью компьютера), хотя полученный продукт скорее является произ­ ведением искусства, а не технологической записью.

5.1.2.Конверсия печатного материала в электронный формат

Существует несколько синонимов для обозначения этого процесса: оцифровывание, оцифровка и даже по терминологии, принятой у связистов, — цифровизация. В английской литера­ туре также используются два схожих термина и четыре способа их написания — digitization, digitizing, digitisation, digitising. Оцифровка чаще всего осуществляется путем сканирования пе­

184

Основные способы создания электронных документов

чатных или рукописных материалов. Мы в данной главе рас­ смотрим подробнее многие аспекты сканирования, поскольку в настоящее время этот процесс наиболее значим и демонстриру­ ет наивысшую производительность; поэтому данный материал и выделен в самостоятельный раздел главы.

5.1.3. Изготовление цифровых фотоили аудио-, видеодокументов

Изготовление цифровых фотоили аудио-, видеодокумен­ тов осуществляется с помощью цифровых фотоаппаратов, ви­ деокамер, других оптико-электронных технических средств. Этот процесс быстро находит массу приверженцев и, по сути, очень близок к сканированию: изображение разбивается на не­ большие участки (пиксели), яркость и цвет которых фиксирует­ ся. Типичное число пикселей в современных аппаратах — не­ сколько миллионов (от 1 до 7—8 млн пикселей на кадр). Смен­ ное устройство памяти (memory stick) или память типа «flash» позволяет записать от 100 до нескольких тысяч кадров, кото­ рые впоследствии можно перенести на компьютер, обработать, послать по электронной почте друзьям или распечатать на принтере.

5.1.4. Обмен или предоставление своих услуг по публикации гостевых материалов

Этот процесс в чем-то близок к традиционному межбиблио­ течному абонементу (МБА) или книгообмену.

5.1.5.Автоматическое производство переведенных

сдругих языков материалов

Это очень интересная и перспективная отрасль автоматиче­ ской обработки текстов. Фактически осуществляется много­ кратная переработка печатного текста: конверсия в машиночи­

185

Глава 5. Создание, хранение электронных документов и работа с ними

таемую форму, оптическое распознавание символов и автома­ тизированный перевод содержания.

5.2.Сканирование или оцифровка печатных

играфических текстов

В уже упоминавшемся Политехническом словаре [14] так определяется этот термин: «Сканирование (от английского scan — поле зрения, развертка, разложение изображения) — управляемое пространственное перемещение какого-либо луча или пучка по определенному закону». Процесс, по сути, анало­ гичен процессу создания изображения на телевизионном экра­ не или компьютерном мониторе, только действующий «в обрат­ ном направлении».

Ввиду принципиальной важности сегодня этого процесса в создании электронных ресурсов расскажем о нем подробнее. Оптикомеханическое считывающее устройство с точной фоку­ сировкой начинает проходить над листом по горизонтальной строчке, останавливаясь для замеров по заранее заданной про­ грамме. При остановке измеряется коэффициент отражения данного маленького участка (пикселя): если задано считывание черно-белого материала, то это просто двоичный режим, при котором фиксируется черное/белое (или да/нет, или единица/ноль). При учете градации серого цвета или при сканирова­ нии цветных изображений фиксируются более сложные пара­ метры. Шаг сканера между остановками для замеров называет­ ся пространственным разрешением. Завершив просмотр строчки, считывающая головка возвращается к началу строки, сдвигается на небольшой промежуток вниз, и процесс повторя­ ется до конца листа. Интервал перемещения вниз также опреде­ ляет величину пространственного разрешения. Количественно величина пространственного разрешения выражается в числе остановок (точек) на дюйм (dots per inch, dpi). Достаточно ши­ роко применяются 200,300,400... 1200 dpi, а в некоторых случа­ ях используются различные параметры пространственного раз­ решения по горизонтали и по вертикали, и тогда запись выгля­ дит, допустим, 600 х 1200 dpi. Если вспомнить, что дюйм — это

186

Сканирование или оцифровка печатных и графических текстов

2,54 см, то типовое разрешение в 300 dpi означает пространст­ венное разрешение лучше, чем 1/10 миллиметра.

В зависимости от назначения, требующейся производитель­ ности и приемлемой цены используются различные типы ска­ неров:

планшетные сканеры для листа размером А4 — пожалуй, самые простые и недорогие (100—300 долларов), работают

сединичным листовым материалом. В более сложных мо­ делях используется автоподача листов, что в 2—3 раза уве­ личивает стоимость сканера;

барабанные сканеры, которые удобнее для работы с боль­ шим количеством листового материала;

планетарные сканеры предназначены для работы с пере­ плетенными документами; специальное устройство (ко­ лыбель), в котором книга лежит не полностью открытой, позволяет обеспечивать сохранность редких изданий. Возникающая при этом кривизна поверхности книжного листа компенсируется специальной программой; при не­ обходимости можно также «очищать» программными средствами отсканированное изображение от случайных загрязнений, имеющихся на оригинале. Другие меры по обеспечению сохранности печатного материала и защите оператора при сканировании состоят в компьютерном кон­ троле уровня освещенности поверхности документа. По­ добные сканеры, как правило, стоят 20—35 тыс. долларов;

последнее время получили распространение большие ска­ неры со считывающей головкой, перемещающейся плоско­ параллельно над документным столом; такие устройства хо­ роши для сканирования карт, чертежей и других докумен­ тов большого формата. Стоимость таких устройств вместе

спрограммным обеспечением обработки изображений составляет около 30—45 тыс. долларов.

5.2.1.Оцифровка микрофильмов

По поручению Немецкого научного общества (DFG) и при поддержке Европейской комиссии по сохранности и доступу

187

Глава 5, Создание, хранение электронных документов и работа с ними

группа ведущих специалистов Германии исследовала проблему «Как защищать ветхие (нестабильные) книги и архивные мате­ риалы — оцифровкой или микрофильмированием?».

Конверсия поврежденных, ветхих книг или архивных мате­ риалов является эффективным и экономичным способом обес­ печения сохранности. Более того, в противовес стремлению просто сохранить или восстановить оригиналы перенос инфор­ мации с носителя, находящегося в опасности, на не знающий старения носитель означает также обеспечение более широкого и удобного доступа.

Наиболее распространенным носителем в мире, обеспечи­ вающим страховые копии библиотечных и архивных докумен­ тов, является микрофильм. Микрофильмы имеют то преимуще­ ство, что они не подвергаются фундаментальным технологиче­ ским преобразованиям и тем самым являются устойчивыми по отношению к будущим переменам. Информация, хранящаяся в аналоговой форме, непосредственно (или с весьма небольшими дополнительными устройствами) доступна человеческому гла­ зу. Усиливающаяся в национальных и международном масшта­ бах стандартизация систем микрофильмирования обеспечивает возможность их применения, невзирая на границы между стра­ нами. Создание, дублирование и распространение микрофор­ мы стоит недорого, и в то же время микрофильм можно эффек­ тивно оцифровать с помощью соответствующих сканеров. Воз­ можность экономичной оцифровки микрофильма позволяет считать его носителем с принципиально растущей совместимо­ стью с требованиями к качеству.

По указанным выше причинам немецкие специалисты предлагают вначале микрофильмировать ветхие материалы, а затем делать оцифровку с микрофильма. Этот подход оправдан и с финансовой точки зрения, даже в том случае, если единст­ венной целью оцифровки является обеспечение более высокого уровня доступа и обслуживания. И при этих обстоятельствах микрофильм как носитель для долговременного хранения, со­ вместимый с любой другой средой, будет в течение длительного срока оправдывать средства, затраченные на его изготовление и обслуживание. Тем самым удастся избежать очень серьезных за­ трат, связанных с миграцией данных и частыми технологиче­

188

Сканирование или оцифровка печатных и графических текстов

скими и организационными мерами по сохранению читаемости на новых системных платформах.

Приступая к непосредственной оцифровке оригинала, не­ обходимо помнить, что нельзя жертвовать качеством воспроиз­ водства и нельзя допустить утрату данных. Второе может про­ изойти после непродолжительного пользования данными, о со­ хранности которых не позаботились заранее, не продумали вопросы совместимости или достаточных гарантий надежности носителя информации или аппаратных средств.

Несколько рекомендаций по оцифровке микрофильмов. Ес­ ли микрофильм высокого качества пригоден как носитель для долговременного хранения, то качество производства оцифро­ ванной версии будет задаваться с учетом тех целей, для которых она делается. Другими словами, оцифровка микрофильма, как правило, не должна нацеливаться на максимально наилучший результат — в отличие от того случая, когда конверсия в циф­ ровую форму ведется прямо с оригинала, находящегося в опас­ ности.

Двухтоновая оцифровка вполне подходит для обработки пе­ чатного текста, включая чертежи и графики, другие документы, изготовленные безударными способами печати (пластиковая угольная лента, струйный или лазерный принтер) на панхрома­ тической противоореольной микропленке.

Полутона серого цвета должны применяться для оцифровки следующих видов материалов: рукописей, рисунков каранда­ шом и пером, текстов, напечатанных на пишущей машинке с шелковой лентой, цветных иллюстраций и рисунков, других материалов, где варьируются серые тона; черно-белых и цвет­ ных фото.

Серой шкалы с 16 градациями (для передачи которых необ­ ходимо 4 бита) вполне достаточно при оцифровке контрастной противоореольной пленки. При оцифровке фильма с полутона­ ми требуется серая шкала со 126 градациями (16-битовая). Оцифровка с применением развернутой шкалы градаций серого цвета предъявляет серьезные требования к хранению и резко удорожает процесс на всех стадиях, поэтому применять эту тех­ нологию нужно только при необходимости.

При оцифровке с пленки разрешение определяется разме­ ром наименьшего элемента, который следует сделать ясно раз­

189

Глава 5. Создание, хранение электронных документов и работа с ними

личимым. Для печатного текста это высота строчной буквы «е», для рукописи —двойная ширина этой же буквы. В соответствии с рекомендациями международного стандарта ISO 6199 введено понятие «индекс качества» (ИК) с учетом численного параметра разрешения из «Образцовой таблицы стандарта», выраженного в числе пар линий на миллиметр в зависимости от характерного размера сканируемого изображения (текста). Системы, которые обеспечивают 120 пар линий на миллиметр в центре кадра и по краям, считаются вполне удовлетворительными.

Наивысший ИК = 8, приемлемым считается и И К = 5. Для 2-тоновой оцифровки при И К = 5 необходимое пространствен­ ное разрешение вычисляется по формуле: а = 384///. Для оциф­ ровки с градацией серого цвета а = 256(здесь а — пространст­ венная разрешающая способность в точках на дюйм (dpi), h — высота буквы «е» в миллиметрах).

Воспроизведение буквы «е» высотой 1 мм (буквы такого раз­ мера высотой около 7 пунктов (pt) часто используются в тексте примечаний) с высоким качеством (И К = 8) потребует про­ странственного разрешения 615 dpi для 2-тоновой оцифровки и 410 dpi для 256-тоновой; с невысоким качеством (И К = 3) — 277 dpi для 2-тоновой и 185 dpi для 256-тоновой оцифровки. Имея резерв достижения высокого качества, заложенный в микро­ пленке, вполне достаточно (для огромного большинства воз­ можных применений) проводить оцифровку под среднее каче­ ство воспроизведения.

Для ориентировки можно рекомендовать разрешение 350—400 dpi для 2-тоновоЙ оцифровки и 250—300 dpi для пол­ ноценной шкалы серого цвета. Изображение должно распола­ гаться нужным образом (т. е. чтобы считывание проводилось без поворотов) и соответствовать возможно большему числу бу­ дущих применений. Модельным форматом для данных изобра­ жения является обычно формат T IFF (Tagged Image File Format), преимущество которого в том, что он в отличие, на­ пример, от формата Windows Bitmap в значительной степени не зависит от платформы, считывается и в дальнейшем обрабаты­ вается на произвольном оборудовании с различными система­ ми и программами. Следует, однако, заметить, что, несмотря на тщательную стандартизацию, формат T IFF допускает некото­ рые вариации, которые могут оказаться несовместимыми с ус-

190

Соседние файлы в папке книги