Московский государственный университет печати

Вуль В.А.


         

Электронные издания

Учебник


Вуль В.А.
Электронные издания
Начало
Печатный оригинал
Об электронном издании
Оглавление

Предисловие

1.

Глава 1. Общая характеристика электронных изданий

1.1.

Что такое «электронное издание»

1.2.

Составные элементы электронного издания

1.2.1.

Тексты

1.2.2.

Иллюстративный материал

1.2.3.

Звуковое сопровождение

1.2.4.

Анимация и видео

1.3.

Форматы электронных изданий

1.4.

Классификация электронных изданий

1.5.

Современное состояние и перспективы электронного книгоиздания

2.

Глава II. Структура и элементы гипертекстовых документов

2.1.

Общая характеристика и структура HTML-документа

2.2.

Тело документа и оформление его основных фрагментов

2.2.1.

Тело документа

2.2.2.

Теги логического форматирования текста

2.2.3.

Теги физического форматирования текста

2.3.

Оформление списков терминов и определений

2.3.1.

Маркированные списки

2.3.2.

Создание нумерованных списков

2.3.3.

Списки определений

2.3.4.

Многоуровневые списковые структуры

2.4.

Использование графики при оформлении электронного издания

2.5.

Включение в издание ссылок и комментариев

2.6.

Оформление таблиц

2.7.

Фреймовая структура электронного издания

2.8.

HTML-формы

2.9.

Понятие о динамическом HTML и его компонентах

3.

глава III. Мультимедийный документ и форматы представления его элементов

3.1.

Мультимедиа и ее роль в современных информационных технологиях

3.2.

Форматы представления текстовых блоков электронного издания

3.3.

Форматы представления графической информации

3.4.

Форматы представления аудиофайлов

3.5.

Форматы представления анимации и цифрового видео

3.5.1.

Анимационные GIF-файлы

3.5.2.

Принципы представления цифрового видео

3.5.3.

Форматы цифрового видео

4.

глава IV. Средства подготовки электронных изданий

4.1.

Издательские технологии и электронные издания

4.2.

Подготовка гипертекстовых электронных изданий в DOC-формате

4.2.1.

Подготовка изданий в редакторе MS Word 97

4.2.2.

Подготовка изданий в редакторе MS Word 2000

4.3.

Редактирование HTML-изданий в редакторе MS Word 97

4.3.1.

Команды секции меню «Формат»

4.3.2.

Команды секции меню «Вставка»

4.4.

Общая характеристика типовых HTML-редакторов первой группы

4.5.

Общая характеристика WYSIWYG-редактора Netscape Composer

4.6.

Подготовка документов в PDF-формате

4.7.

Программы-конструкторы для подготовки анимационных GIF-файлов

5.

глава V. Аппаратное и программное обеспечение рабочего места читателя

5.1.

Требования и рекомендации к аппаратному обеспечению

5.1.1.

Требования к центральной части или ядру ПК

5.1.2.

Мониторы и требования к ним

5.1.3.

CD-ROM-накопители для работы с переносимыми изданиями

5.1.4.

Другие виды оптических накопителей

5.2.

Назначение и общая характеристика браузеров

5.3.

Браузер MS Internet Explorer

5.3.1.

Экранный интерфейс

5.3.2.

Организация просмотра загруженного документа

5.3.3.

Основные команды меню браузера

5.3.4.

Ведение журнала обозревателя и команды других секций меню

5.4.

Программные средства для работы с электронными изданиями в PDF-формате

5.5.

Программные средства для воспроизведения аудиофайлов

6.

глава VI. Подготовка сетевых и мультимедийных изданий в специализированных программных пакетах

6.1.

Общая характеристика пакета MS FrontPage 2000

6.1.1.

Интерфейс пакета

6.1.2.

Технология подготовки новых Web-сайтов

6.2.

Назначение и общая характеристика пакета Dreamweaver

6.2.1.

Интерфейс пакета DreamWeaver

6.2.2.

Последовательность проектирования сайта в пакете Dreamweaver

6.3.

Подготовка мультимедийных изданий в пакете Macromedia Director

6.3.1.

Интерфейс пакета Macromedia Director

6.3.2.

Основные окна и инспекторы пакета

6.3.3.

Основные этапы работы над мультимедийным электронным изданием

6.4.

Дизайн Web-сайтов в пакете Macromedia Flash

6.4.1.

Общая характеристика и интерфейс пакета

6.4.2.

Основные понятия и элементы Flash-технологии

6.5.

Общая характеристика других программных средств для Web-дизайна

6.5.1.

Другие средства проектирования Web-сайтов

6.5.2.

Подготовка анимационных фрагментов в пакете 3D Studio Max

7.

глава VII. Организация хранения электронных изданий

7.1.

Организация хранения и поиска электронных изданий

7.2.

Информационное хранилище издательства

7.2.1.

Требования к информационному хранилищу издательства

7.2.2.

Проектирование структуры хранилища электронных изданий

7.3.

Информационная структура современного издательства

7.4.

Автоматизация выделения метаданных

7.4.1.

Метаинформация и ее роль

7.4.2.

Законы Зипфа и автоматизация извлечения метаданных из электронных изданий

7.4.3.

Применение программ-экстракторов

7.5.

Публикация содержимого баз данных на Web-страницах

7.5.1.

Публикация статических Web-страниц

7.5.2.

Публикация динамических Web-страниц

8.

глава VIII. Распространение электронных изданий

8.1.

Виртуальный мир книги и его особенности

8.1.1.

Некоммерческие электронные библиотеки

8.1.2.

Представительство крупных библиотек в Интернете

8.2.

Электронные книжные магазины

8.3.

Технология E-book и развитие электронного книгораспространения

8.3.1.

Специализированные аппаратные средства для работы с электронными изданиями

8.3.2.

Современное аппаратное средство E-book

8.3.3.

Программные средства E-book

8.3.4.

Стандарт Open E-book

8.3.5.

Достоинства и недостатки технологии E-book

9.

глава IX. Электронные учебники

9.1.

Достоинства и недостатки электронных учебников

9.2.

Структура электронного учебника

9.3.

Основные принципы подготовки электронных учебников

9.3.1.

Размещение информации на поверхности экрана

9.3.2.

Проблема ориентации и перемещения пользователя внутри электронного издания

9.4.

Дистанционное обучение и организация самостоятельной работы студентов

9.5.

Автоматизированные методы оценки уровня подготовки студента

Библиография

Указатели
2  именной указатель
92  предметный указатель
265  указатель иллюстраций
58  указатель компаний

7.
глава VII. Организация хранения электронных изданий

В этой главе автор излагает свой подход к организации хранения электронных изданий в рамках издательской базы данных. В частности, рассматривается информационная структура издательства и сетевое взаимодействие с хранилищем информации в рамках этой структуры. Изучение противоречивых требований к хранилищу позволяет разработать его структуру с учетом возможности хранения в ней наряду с обычными и мультимедийных изданий. Рассмотрены также концепция организации выборки информации с использованием метаданных и миниатюр, характеризующих каждое издание, а также автоматизация генерации метаданных и миниатюр при занесении изданий в хранилище.

7.1.
Организация хранения и поиска электронных изданий

В течении длительного времени для хранения электронных копий изданий и их фрагментов используются различные базы данных. В последнее время базы данных стали использоваться и для публикации электронных изданий. Преимущественно это относится к базам данных, которые используются в сети Интернет и связаны с поисковыми серверами, которые, отыскав ссылку на нужное издание в своем поисковом индексе, обращаются к соответствующей сетевой базе данных. Другой вариант публикации - в базах данных, связанных с издательскими серверами. Такой вариант рассматривается в § 8.1.

Существует два принципиально разных метода организации хранения электронных изданий:

  • в виде иерархической файловой системы, в которой файлы отдельных изданий объединены в каталоги по тематическому или другим при знакам;

  • в виде текстовой базы данных, в которой размещены файлы изданий.

Первый метод проще с точки зрения организации структур данных, но требует создания и использования дополнительных средств для поиска нужного электронного издания, в особенности если количество таких изданий достаточно велико. При его использовании, в общем случае, гораздо труднее обеспечить защиту информации от несанкционированного доступа, которая несомненно нужна, так как издания представляют собой определенную информационную и материальную ценность, являясь интеллектуальной собственностью конкретного издательства.

Во втором варианте обычно проще осуществить защиту информации. Методы и средства для этого достаточно разработаны и проверены практикой. Однако при работе с изданием, связанной с его изменением, используется большое количество операций записи и чтения информации. Это связано с тем обстоятельством, что приложение не может напрямую работать с базой данных. В результате, для больших текстовых баз данных существенно снижается скорость обработки информации. Кроме того, возникают определенные проблемы при использовании различных видов информационных носителей, например жестких магнитных дисков и оптических компакт- или DVD-дисков.

Хранение изданий требует обязательной организации системы поиска. Существуют два варианта поиска изданий пользователем. В первом случае производится поиск электронного издания, о котором точно известно, что оно существует и известен хотя бы один его поисковый атрибут. Такие системы называют фактографическими, так как в них каждому изданию однозначно соответствуют поисковые атрибуты. Во втором случае ставится задача отыскания всей совокупности электронных изданий по определенному тематическому направлению. В последнем случае заранее неизвестно не только количество изданий, но даже сам факт их существования. Такие системы называют документальными. Большинство аналитических и исследовательских задач на начальной стадии реализации связано с применение второго варианта поиска. В частности, на этапе постановки задачи всегда проводится обзор литературы по рассматриваемому вопросу.

Методы организации поиска также могут быть разделены на две группы. К первой из них относится так называемый атрибутивный поиск. Он основан на том, что каждый документ (издание представляет собой частный случай документа) характеризуется определенным набором атрибутов (полей). Эти поля заполнены конкретной информацией, которая изменяется для различных изданий. При поиске проверяется совпадение значений, содержащихся в запросе, со значениями в соответствующих полях каждого из изданий. Такой метод организации поиска характерен для фактографической модели.

К атрибутам изданий относят: название, автора (авторов), время создания, ISBN (индивидуальный номер издания по универсальной книжной классификации) и т. д. В последнее время набор атрибутов все чаще называют метаинформацией. Этот термин уже упоминался во второй главе, когда мы рассматривали содержимое заголовочной части HTML-издания. Делаются попытки стандартизации электронного описания для любого издания. В частности, имеются библиотечные стандарты, в том числе и отечественные, а также и стандарты описания в книжной торговле.

Ко второй группе средств относится полнотекстовый поиск и выборка изданий. Действительно, любая книга, в том числе - в электронном виде, представляет собой слабо структурированный набор символов, организованных в слова, предложения, разделы, параграфы и главы. Для организации полнотекстового поиска необходимо вначале произвести индексацию изданий, составить для них так называемый полнотекстовый индекс. В простейшем случае он представляет собой список всех значащих слов в текстовой базе данных с указанием, в каких изданиях встречаются эти слова. Встречаются многоуровневые индексы, в которых на верхнем уровне расположен словарь или поисковый индекс слова. В нем каждому значащему слову соответствует указатель на расположенный на следующем уровне список местонахождений или индекс ссылок, в котором содержатся адрес издания и, иногда, позиция слова внутри документа.

Многие из читателей, вероятно, использовали полнотекстовый поиск, работая в сети Интернете поисковыми серверами. В этом случае в специальное поле поиска вводится конструкция из некоторого количества слов или фраз, иногда связанных друг с другом знаками логических операций. Соответствующий механизм на сервере автоматически проверяет содержимое ссылок на документы, содержащихся в его базе данных и выдает результат поиска в виде списка подходящих или релевантных документов.

Можно сформулировать четыре основных отличия полнотекстовой выборки от атрибутивной:

  • полнотекстовая выборка отвечает на запросы с меньшей точностью;

  • выборка вероятностная, а недетерминированная;

  • критерием правильности выборки является не точное совпадение, а лишь пригодность извлеченного из базы издания;

  • время поиска и извлечения издания больше зависит не оттехничес- ких средств, а от качества формулирования запроса и скорости анализа пользователем пригодности извлеченных из базы изданий.

Нетрудно понять, что первой модели наилучшим образов соответствует атрибутивный поиск, а второй - полнотекстовый. Принципиальное отличие между этими двумя методами поиска состоит в том, что результат применения атрибутивного поиска детерминированный, в то время как полнотекстовый поиск следует характеризовать как вероятностный, т. е. его результат содержит набор документов, характеризуемых определенным уровнем релевантности, пригодности.

Исторически первыми использовались базы данных для хранения структурированной информации с жестким набором атрибутов. Затем возникла необходимость хранения документов, включая журналы и книги, которые представляют собой набор неструктурированной или почти неструктурированной информации. В последние годы возникла определенная тенденция к разметке или структурированию текстовых документов. Для этого созданы специальные языки, в частности XML, который рассмотрен в § 2.1.

Атрибутивный поиск проще и быстрее, а также позволяет получить точный, а не вероятностный, результат. Для его реализации не требуется создавать полнотекстовый индекс, занимающий значительное дисковое пространство, а также сложные поисковые механизмы. Кстати, в последний годы в сети Интернет взят курс на поисковые системы, основанные на частичном использовании метаинформации, по крайней мере в тех случаях, когда эта информация известна пользователю. Вводится и соответствующий стандарт на содержание атрибутов на каждой Web-странице для реализации такого поиска. Тем не менее полнотекстовые базы и поиск пока еще достаточно широко используется в издательских информационных системах. Атрибутивный поиск не всегда применим, так как пользователь может не знать ни одного атрибута.

Известно несколько методов поиска в текстовых базах данных, на которых автору хотелось бы остановиться. Первой и наиболее простой моделью поиска является просмотр, т. е. процесс сходный с обычной работой с книгой. В этом случае из базы данных извлекается определенное электронное издание и пользователь знакомится с его содержанием. Используя современные средства навигации, можно перемещаться по каталогу изданий, раскрывать нужные книги и просматривать их оглавления и аннотации. Для больших баз данных такой способ неэффективен и может использоваться только в сочетании с другими моделями.

Вариантом этой модели является связанное чтение, которое использует концепцию гипертекста и переходы по гиперссылкам внутри одного издания или даже между изданиями, включая рисунки, звуковые и видеофрагменты.

Чаще всего применяется Булевы модели поискаБулевы модели поиска, использующие в качестве основы логические конструкции, т. е. слова или фразы (последние заключаются обычно в круглые скобки), объединенные знаками логических операций И (AND, &), ИЛИ (OR) и НЕ (NO). Входящие в конструкцию смысловые элементы, т. е. слова и фразы, если последние рассматриваются как единое целое, обычно называют термами. Если в результате запроса поисковая система выдала чрезмерно большой список документов, запрос можно попытаться усложнить, включив в него большее количество термов и операторов И, предполагающих одновременное наличие в документе базовых слов и фраз. Наоборот, если найдено небольшое количество пригодных (релевантных) документов, запрос можно упростить, исключив из него отдельные конструкции с оператором И (или добавив конструкции с оператором ИЛИ).

Специальное программное обеспечение может обеспечить автоматическую оценку степени полезности каждого из извлеченных изданий. Эта оценка делается на основе частоты, с которой встречаются в издании термы, используемые в запросе. Результаты обычно сортируются по степени релевантности. Такая модель поиска используется, в частности, на поисковом сервере Rambler.

Векторная модель поиска основана на представлении каждого отдельного издания некоторым вектором в N-мерном пространстве. Запрос также представляется в виде вектора. Степень полезности документа, определяется как его близость в указанном N-мерном пространстве к вектору запроса. Количественная оценка близости выражается косинусом угла между этими векторами и изменяется в пределах от 0 до 1.

Векторная модель поиска обязательно подразумевает последовательные итерации. В начале поиска пользователь из всего множества выбранных изданий определяет некоторые как нужные, полезные. На основании этого выбора вырабатывается уточненное положение вектора запроса

Эффективность - главный критерий при определении применяемого метода полнотекстовой выборки. Эффективность поиска издания можно описать двумя характеристиками: точность и охват. Точность μ определяется отношением числа релевантных документов R к общему количеству документов в выборке N (|μ=R/N). Охват а характеризуется отношением числа релевантных документов в выборке R к общему числу релевантных документов в базе данных Т (a=R/T).

В случае идеального поиска все выбранные документы полностью пригодны и исчерпывают список пригодных документов в базе данных, т. е. а=1 и μ=1. Однако многочисленные исследования, выполненные различными специалистами, показали что точность и охват связаны друг с другом обратной зависимостью, а максимальное значение суммы μ+а близко к 1,4. Сказанное иллюстрируется графиком, представленным на рис. 7.1Рис. 07.01..

Такой результат выглядит вполне осмысленным. Действительно, если мы хотим увеличить точность р мы должны как можно более точно сформулировать запрос, включив в него большое количество различных термов, связанных с помощью операторов И, чтобы исключить возможность попадания в результаты поиска непригодных документов. Однако в этом случае общее количество выбранных изданий не может быть большим, точнее - оно будет малым. Естественно, что не все релевантные документы, содержащиеся в базе данных, попадут в число выбранных.

Наоборот, если мы хотим увеличить охват, т. е. постараться выбрать наибольшее количество релевантных изданий из общего их числа в базе, следует сформулировать запрос как можно шире. В этом случае в выборку неизбежно попадет значительное число непригодных изданий, т. е. точность окажется сравнительно малой величиной.

В последнем случае увеличение количества выбранных изданий неизбежно увеличит время обработки результатов поиска. Реально, если количество выбранных изданий составляет сотни значений, то время оценки их пригодности становится чрезмерно большим, в результате пользователь утомляется, внимание его рассеивается, что неизбежно приводит к неточностям и ошибкам.

Таким образом, атрибутивная выборка выглядит гораздо предпочтительнее как с точки зрения эффективности и скорости выборки, так и экономии дискового пространства. Однако для ее практического применения необходимо знать поисковые атрибуты, что возможно далеко не во всех случаях.

Во многих случаях следует остановится на промежуточном варианте, когда наряду с атрибутами в поисковой среде хранится набор ключевых слов и терминов, каждый из которых связан с определенным кругом изданий. При включении нового издания в поисковую структуру из набора ключевых слов отбирается несколько, в наибольшей степени отвечающих тематике и содержанию издания. При поиске информации пользователь также просматривает список ключевых слов и отбирает те из них, которые, по его мнению, в наибольшей степени соответствуют его требованиям.

Помимо обеспечения возможности эффективной выборки нужного издания, очень важно то, как следует организовать хранение изданий, чтобы гарантировать только санкционированный доступ к этому хранилищу. Дополнительные трудности на организацию процесса хранения накладывает использование во многих изданиях мультимедийных компонентов.

7.2.
Информационное хранилище издательства

7.2.1.
Требования к информационному хранилищу издательства

Требования к издательской базе данных, как и любому другому программному продукту, зависят от ее назначения. Назначение База данных издательскаяиздательской БД многогранно. Прежде всего, такая база должна обеспечить надежное и длительное хранение выпускаемой издательством продукции. В современном представлении длительность хранения составляет не менее чем 30 или даже 50 лет.

Другое назначение БД состоит в предоставлении возможности поиска и извлечения хранимой информации сотрудниками данного издательства, а иногда и другим лицам. Практически все произведения, выпускаемые в свет любым издательством, защищены авторским правом, следовательно, извлекаемая из БД информация представляет собой определенную ценность. Вывод: доступ к информации должен быть строго регламентирован, а соответствующее разрешение выдается руководителями издательства или специально уполномоченным ими лицом.

Любое современное издательство в определенной степени выполняет также функции дистрибьютора, по крайней мере, в отношении выпускаемых им самим изданий. Дистрибьюторская функция подразумевает возможность получения различной информации об имеющейся в наличии литературе, для чего в БД должны содержаться библиографические характеристики изданий, аннотации, оглавления, а также указания относительно места ее хранения на складе, имеющемся количестве ее экземпляров (остатков) в любой момент времени.

Полезно также иметь возможность оценки количества реализованных экземпляров за определенные отрезки времени и т. п. С этих позиции следует обеспечить возможность доступа к БД для дистрибьюторов, а может быть и для торговых агентов крупных книжных магазинов и посреднических фирм, специализирующихся в распространении изданий. Иногда в издательствах книги продаются со склада и в розницу. Тогда разумно разрешить доступ хотя бы к части базы данных и покупателям. Данное требование вступает в определенное противоречие с предыдущим, так как подразумевает достаточно широкий доступ к и минимальное ограничение круга лиц, которые допущены к информации, содержащейся в БД.

Ряд крупных и средних издательств имеют отделения в различных городах. Для них существенным может оказаться обеспечение возможности удаленного доступа к базе, в частности, для получения сведений о наличии изданий в главном офисе, передаче данных о расходимости тиражей в отделениях и т. п.

Для успешного планирования издательской деятельности необходимо регулярно следить за текущим уровнем развития науки и техники в тех ее областях, которые соответствуют издаваемым этим издательством книгам. Следовательно, в базе должен быть предусмотрен специальный модуль, где представлены последние издания других издательств в определенной области или областях.

Перед заключением договора с автором или авторами очень важна информация относительно области научно-практических интересов авторов и их достижениях в этой области. Таким образом, в базе данных следует предусмотреть раздел «Персоналии», где сосредоточена информация об изданиях сотрудничающих с издательством авторов, включая библиографические данные, отзывы, аннотации, списки рубрикаций и, возможно, тексты самих этих изданий.

Наконец, для проведения правильной издательской политики необходимо ориентироваться в том, какие книги уже изданы или намечены к изданию другими издательствами. Кстати, исчерпывающая информация по данному вопросу помогает заблаговременно определить, не предлагают ли авторы свои произведения одновременно нескольким издательствам, не являются ли новые предложения попыткой переизданий с небольшими изменениями ранее изданных работ и так далее. Таким образом, это требование также подчеркивает необходимость хранения специальных модулей «Последние издания» различных издательств и «Персоналии».

Чтобы принятие решений руководством издательства производилось в условиях полного обеспечения нужной информацией, база данных должна систематически пополняться сведениями в тех направлениях, которые были указаны выше. Известно, что в настоящее время основным источником для быстрого получения исчерпывающей информации по самым различным вопросам стала всемирная сеть Интернет. Именно оттуда следует пытаться с наименьшими затратами, включая рабочее время работников издательства, извлечь нужные данные. Заполнение этой части издательской БД может производиться вручную, силами специально выделенных сотрудников издательства, но гораздо лучше разработать механизмы для автоматического поиска и извлечения нужной информации из сети ИнтернетИнтернет и последующего занесения этой информации в БД. Современные информационные технологии создают определенные возможности и предпосылки для решения этой задачи.

Таким образом, издательская база данных должна обеспечить:

  • длительное хранение изданий с высокой степенью надежности;

  • возможность поиска и извлечения информации об изданиях сотрудниками издательства, а также представителями оптовых фирм, занимающихся книгораспространением, а иногда и розничным покупателям;

  • возможность удаленного доступа для получения и занесения информации в базу;

  • включение и систематическое оперативное занесение информации в специальные модули «Последние издания» различных издательств и «Персоналии».

7.2.2.
Проектирование структуры хранилища электронных изданий

Для лучшей защиты издательской базы данных от несанкционированного доступа и ускорения работы поисковой системы путем перехода к атрибутивному поиску целесообразно разделить функции поиска документов и их хранения, извлечения и передачи клиенту.

Для поиска издания и извлечения библиографических и сопутствующих данных о нем целесообразна разработка специальной вспомогательной базы данных сравнительно небольшого информационного объема, в которой хранятся метаданные - атрибутивная информация для каждого издания: автор, название издания, формат, версия, а также аннотация, резюме, рецензии и отзывы, и ограниченный набор ключевых слов, которые специально отбираются автором и издательством (или извлекаются автоматически из аннотации, рецензий и прочих документов), в концентрированной форме отражающих особенности издания. Это традиционная База данных реляционнаяреляционная БД, организованная в виде совокупности полей, соответствующих структуре метаданных.

В этой же базе для каждого электронного издания храниться миниатюра, однозначно представляющая издание. Желательно, чтобы такая миниатюра также формировалась автоматически и заносилась во вспомогательную базу одновременно с атрибутами и другой сопутствующей информацией.

По запросу клиента, введенному во вспомогательную базу, в ней осуществляется поиск, в результате которого клиенту возвращается список релевантных изданий с миниатюрами и сопутствующей информацией, из которого он выбирает нужное издание. Далее он может обратиться в основное информационное хранилище, если он обладает соответствующими правами доступа, за этим изданием с целью его просмотра и/или редактирования. В противном случае клиент ограничивается миниатюрой, а также некоторые вспомогательные материалами, характеризующие издание: аннотацией, рецензией, кратким содержанием, оглавлением или развернутым планом-проспектом данного издания. Количество и содержание этих данных может изменяться, в зависимости от тех прав доступа, которыми обладает клиент.

Хранилище изданий или архив издательства является ядром всей информационной издательской системы. Как должно быть организовано такое хранилище? Сейчас преимущественно используются реляционные базы данных, обладающие мощным потенциалом, масштабируемостью, стандартным языком запросов по атрибутам SQL. Для проектирования таких баз разработано большое количество различных программных оболочек, называемых системами управления базами данных (СУБД). Наиболее широко применяется СУБД Oracle, которые обеспечивают практически неограниченный объем хранимой информации.

Однако СУБД и управляемые ими базы данных не проектировались изначально для хранения электронных изданий, содержащих большое количество неструктурированного текста и рисунки, а иногда и мультимедийные компоненты. Для работы с такими документами более пригодными представляются не реляционные, а База данных объектно-ориентированная (ООБД)объектно-ориентированные базы (ООБД), в которых могут быть включены различные индексные структуры и методы доступа для объектов определенного типа. В них же проще создать иерархию типов, которая будет отражать специфическую семантику. Сказанное представляется особенно важным для медиа-объектов различных типов и форматов. Возможно также создание комбинированных объектно-реляционных баз данных.

Реляционные базы данных не слишком удобны и для представления отношений «используется в» и «содержится». Вообще, в реляционных системах трудно представлять отношения между конкретными объектами. В ООБД можно создать индексные структуры и методы доступа специально для объектов определенного типа. Кроме атрибутов для объектов можно определить семантику, формализованную в операциях над ними, и создать иерархию типов, которая будет отражать все более и более специфическую семантику. Например, система, построенная на основе ООБД, может иметь тип данных content-object с операцией play. На следующем уровне иерархии могут быть подтипы для объектов со специфическим содержанием: audio-object, video-object, animation-object, и подтипы для специфических форматов: WAV-audio-object, MIDI-audio-object, MP3-audio-object, а также MPEG2-video-object, MPEG4-video-object, QuickTime-video-object и т. д. Независимо можно ввести тип text-index, определив для него операции автоматической индексации и выполнения запросов. В ООБД в число атрибутов могут включаться указатели, что позволяет легко реализовать упомянутые выше отношения вхождения документов.

Работа с медиа-информацией предполагает несколько различных способов доступа к объектам хранения. Довольно часто медиа-издания могут быть организованы в простую иерархию. В этом случае доступ к ним может быть реализован через аппарат фа иловой системы сервера. Требуется только знать точный адрес (URL) соответствующего издания и иметь необходимые права доступа. Для экономии пространства архива издания могут храниться в сжатом формате, например SFX, с автоматической распаковкой при извлечении. Для составных документов хороший способ - не хранить их целиком, а включать в них навигационные связи с вложенными объектами. Например, если в системе хранится журнал, то должны быть связи между его страницами и отдельными объектами, которые содержат статьи, фото, рекламу.

Система хранения должна обеспечивать несколько видов представления документов. В частности, представление «только для просмотра»дает пользователю возможность изучения содержания издания, без права редактировать его. Примеры такого представления - формат Adobe Acrobat PDF, представление изображений в формате экрана (вьюерах), файлы в формате видео QuickTime и пр.

Информационное хранилищеИнформационное хранилище должно опираться на файловую систему сервера. Чтобы реализовать стратегию хранения данных, от файловой системы требуется поддержка управления томами и иерархического управления памятью (Hierarchical Storage Management - HSM). HSM для иерархической памяти сверхбольшой емкости - это примерно то же самое, что виртуальная память для физического оперативного запоминающего устройства: она позволяет рассматривать различные уровни памяти (в частности, жесткие и оптические диски, магнитную ленту, если она используется) как одну большую файловую систему.

Если пользователь или приложение открывает файл, то либо он уже находится на жестком диске, либо HSM считывает его автоматически с текущего оптического диска из многотомной дисковой системы, либо извещает оператора о необходимости найти нужный том. Илиэтоттом мо-жетнаходится внутри специального сменника дисков (чейнджера), или его следует найти в библиотеке оптических дисков, на полке. В последнем случае для поиска тома с нужным номером и установки его в дисковод требуется участие оператора, в результате чего полное время обращения многократно возрастает.

Схема HSM несомненно полезна, но, к сожалению, требует определенного развития. Например, когда пользователь пытается извлечь изображение высокого разрешения - его размер может достигать десятков мегабайт,- или же фрагмент цифрового видеофильма, то было бы полезно, чтобы система формировала специальное сообщение для поль-зо-вателя, каково будет время ожидания. Последнее, кроме размера файла, зависит также от степени доступности объекта.

Выбор стратегии размещения данных зависит, конечно, от объема данных в медиа-изданиях, но, кроме того, и от требований по скорости доступа к ним - какие данные должны быть доступны немедленно, какие могут стать доступны через секунды или минуты. Например, редактор книги, у которого процесс производства длится несколько недель или месяцев, может счесть для себя приемлемым подождать десять минут и даже больше, пока оператор найдет и поставит нужный диск. Редактор же ежедневной газеты вряд ли согласится ждать, пока будет получена цифровая фотография, больше нескольких минут, т. е. его данные должны храниться в многотомной системе на оптических дисках с автоматическим поиском и установкой компакт-диска. Видеоклипы, распространяемые по каналам кабельного телевидения, должны быть доступны практически мгновенно.

7.3.
Информационная структура современного издательства

В связи с быстрым развитием электронных средств и систем распространения информации возникает все больше вопросов относительно роли новых издательских технологий и значимости электронных изданий в современном мире. Прежде всего остановимся на том, какие изменения характеризуют современные технологии издательского процесса:

  • все более широкое использование компьютеров не только при непосредственной подготовке книги или журнала, но и для создания и ведения издательского портфеля, подготовки иллюстраций, оригинал-макетов, диапозитивов и пр.;

  • использование сетевых технологий для организации совместной работы и взаимодействия наборщиков, верстальщиков, оформителей издания и т. д.;

  • повсеместное внедрение электронной формы представления издательского портфеля в виде базы данных, в которой хранятся не только окончательно сверстанные издания, но зачастую и их версии;

  • распространение в электронном виде точной копии печатного издания с возможностью ее последующей распечатки в случае необходимости в произвольном количестве экземпляров;

  • появление принципиально новых типов изданий с использованием чисто компьютерных технологий, таких как гипертекст, мультимедиа, электронное аналоговое моделирование, анимационные эффекты;

  • подключение практически всех средних и крупных издательств к всемирной сети Интернет, что открывает совершенно новые возможности сточки зрения доступа к информации, распространяемой данным издательством.

В состав цифрового мультимедиа наряду с традиционными текстовыми и графическими файлами в самых различных форматах, входит также цифровые аудио файлы, анимационные графические файлы и видео файлы в цифровом формате.

Основной информационных носитель цифрового мультимедиа - это компакт-диск, а в последние годы еще и DVD-диск, хотя такая информация может непосредственно передаваться по сетям связи, храниться в виде соответствующих файлов на жестких магнитных дисках персональных компьютеров, накапливаться в виде специальных баз данных, к которым возможно, в том числе и дистанционное обращение для занесения новой или извлечения имеющейся информации.

Все известные традиционные промышленные технологии имеют ограниченную сферу применения, что обычно следует из самого их названия. В то же время трудно привести пример области науки или техники, которая хотя бы потенциально не была связана с технологиями мультимедиа. Цифровое мультимедиа объединяет все известные формы представления информации - текст, графику и фотографические изображения, цифровое видео и аудио, цифровые модели объектов и интерактивные данные, такие как Java-апплеты. Главная задача мультимедиа технологий состоит интеграции процессов создания, управления и распространения информации любого вида.

Современное издательство постепенно превращается в систему для Обработки и хранения цифровой медиа-информации. В функции издательской системы будет входить оцифровка, индексация, длительное хранение, извлечение и защита от несанкционированного доступа цифровой медиа-информации в распределенной сетевой среде. Основные подсистемы издательской информационной системы, представленные на рис. 7.2Рис. 07.02., перечислены ниже ссылка на источники литературы:

  • централизованное хранилище цифровой информации всех типов и форматов;

  • совокупность цифровых технологий для загрузки изданий в хранилище и их каталогизации;

  • система поиска и просмотра первичной информации;

  • доставка единиц хранения информации работнику издательства для редактирования.

Такая издательская система должна обладать определенным набором свойств, а именно:

  • все типы данных должны храниться в едином информационном пространстве;

  • минимизация ручного труда по каталогизации и индексации информации;

  • вся информация должна быть доступна с любого клиентского компьютера;

  • должна быть обеспечена возможность нахождения издания по его информационным характеристикам;

  • клиентское программное обеспечение должно легко стыковаться со средствами обработки и создания содержания изданий;

  • издания должны быть доступны только для лиц с соответствующими правами доступа.

Рассмотрим основные компоненты информационной структуры издательства. Основные компоненты системы локализуются на сервере или нескольких серверах. В частности, отдельный сервер обычно используют для ведения издательской базы данных. Иногда может быть выделен специальный сервер доставки информации клиенту, реже - сервер для поиска нужных электронных изданий. Для интеграции сервера (серверов) с клиентскими компьютерами используется издательская интрасеть. Наконец, посредством экстрасети и сети Интернет могут быть подключены территориально удаленные сотрудники издательства и некоторые контрагенты, с которыми поддерживается регулярная информационная связь.

Ядром любой издательской информационной системы является хранилище изданий. Естественно, издания хранятся в электронной форме, т. е. хранилище электронных изданий - основной компонент информационной системы издательства. Поэтому требования к этому компоненту и особенности организации хранения электронных изданий будут рассмотрены в специальном параграфе. Здесь следует лишь отметить, что для организации эффективного поиска изданий необходимо хранить атрибутивную информацию или метаданные, т. е. имя автора или авторов, название издания, время первой публикации издания, название издательства, кому принадлежат авторские права, характер представления данных (тип файла) и пр.

Загрузчик является той частью издательской системы, которая должна сделать ввод изданий и документов настолько эффективным, насколько это возможно. Поскольку количество вводимой информации велико, становится понятно требование минимизации ручного труда в этом процессе.

При вводе документов одновременно должны генерироваться метаданные для каталогизации и индексирования, на основе которых документы могут затем извлекаться пользователями. Известно несколько способов автоматизации, соответствующих разным методам доступа к данным. Наиболее известен и хорошо отработан метод автоматической индексации полного текста. Самые прогрессивные средства индексации текста базируются на технологии семантических сетей, в которой значения слов определяются по контексту, а не просто подбором унифицированных терминов для отдельных слов, однако пока работу программных средств нельзя назвать безупречной. Представляется оправданным включение в метаданные ключевых слов и выражений, отобранных автором (иногда редактором), так как никто лучше них не сможет подобрать набор ключевых слов, оптимально характеризующих как тематическую область издания, так и его отличия от близких по тематике. Возможен отбор этих слов из уже имеющегося в атрибутивной базе данных набора, но иногда оправдано и расширение этого общего набора путем ввода дополнительных элементов, характерных для нового издания.

В издательской деятельности возможна автоматическая генерация связей для отношений «содержится» и «используется в» путем разбора языка компоновки страниц и выделения элементарных объектов из составных документов. Чем более структурирован язык составления страниц, тем легче выделять информацию: форматы с высоким уровнем структуризации, подобные Adobe FrameMaker, SGML и XML, удобнее, чем форматы со специальной структурой типа QuarkXPress и Word, хуже всего интерпретируются форматы, не имеющие четко выраженной структуры - PostScript и, в меньшей степени, PDF.

До сих пор не существует общих средств автоматического выделения нетривиальной информации из изображений, аудио и видео, но некоторые разработчики (Kodak, LivePicture, Virage, Excalibur) занимаются исследованиями в этой области. Иногда атрибутивные метаданные могут генерироваться просто путем извлечения информации из определенных форматов данных. Лучший пример этого - форматы файлов Adobe PhotoShop, которые содержат массу полезной информации.

При загрузке добавляются не только метаданные, но и вспомогательные представления документов, в частности, миниатюры, представляющие внешний вид издания. Генерация миниатюр может быть автоматизирована. Например, большинство графических форматов содержат свои собственные миниатюры, для других, например для изображений с высоким разрешением, можно сгенерировать их «на лету». Аналогично можно спроектировать загрузчик таким образом, чтобы он, получая цифровые аудио-объекты, создавал клипы первых нескольких секунд (например, в форма те WAV 10 КГц). Таким же образом видео MPEG-2 может преобразовываться в клипы QuickTime длительностью в 5 или 10 с.

Существует два базовых способа доставки цифровых документов пользователю: передача файлов - ее можно использовать для текстов, изображений, аудио и видео с низким качеством, и поточная передача для высококачественного «движущегося» медиа-аудио, видео и анимации. Этот последний способ налагает очень серьезные требования на возможности сервера.

При хранении мультимедиа-данных требования к вычислительным ресурсам, необходимым для передачи документов, качественно отличаются от требований к подсистеме хранения. Поэтому, во многих случаях, выделяется отдельный сервер доставки данных. В первую очередь этот сервер должен иметь высокую пропускную способность для передачи мультимедийных объектов из хранилища на клиентские компьютеры. В идеале медиа-память должна допускать многосерверный доступ так, чтобы хранилище разделялось между сервером хранения и сервером доставки данных.

Сервер доставки аудио/видео должен обеспечивать гарантированную пропускную полосу для потока данных, поэтому в архитектуре сервера должны быть сбалансированы ресурсы процессора, периферия ввода / вывода и сетевых интерфейсов. Программное обеспечение сервера доставки, во-первых, должно включать средства низкого уровня для работы с файлами, обеспечивающие различные режимы проигрывания медиа. Во-вторых, нужно, чтобы это ПО определяло стандартные интерфейсы для разработки приложений - «плейеров» на клиентской стороне и реализовывало серверную часть этих интерфейсов.

В большинстве случаев используется сквозное проигрывание (playthrough), что дает возможность начать просмотр мультимедийного издания еще до того, как он полностью загружен на сервер доставки. Например, сервер MediaCenter фирмы SunSun позволяет начать воспроизведение аудио- или видео-данных уже через пять секунд после начала загрузки. Сквозное проигрывание необходимо для приложений с быстрым и непрерывным обновлением содержания. Режим playthrough развивает метод оперативной загрузки, который заключается в способности сервера одновременно загружать один и воспроизводить другой документ.

На уровне операционной системы видеоматериалы представляются взаимосвязанной совокупностью файлов (см. также § 3.5). Так, для фильма в цифровой форме хранятся файлы одного или нескольких видеопотоков и файл для аудиопотока. В дополнение к файлам содержания существуют вспомогательные файлы, которые поддерживают распределение первичного файла по разным дискам (striping), синхронизацию между видео и аудио, обеспечивают разные режимы воспроизведения.

Браузер представляет собой интерфейс пользователя для доступа и просмотра электронных изданий. Отделение браузера от уровня клиентских сервисов подчеркивает тот факт, что он может быть реализован с помощью любого стандартного Web-браузера, что дает множество преимуществ, например независимость от платформы. Наращивание функциональных возможностей может происходить путем добавления сервисов в рамках задаваемой браузером общей организации.

Браузер обеспечивает интерфейс с сервисом запросов и должен обеспечивать следующие функции:

  • иерархический доступ каталог/файл, аналогичный менеджеру файлов;

  • интерфейсы для поиска;

  • просмотр списка ответов, включающего миниатюры;

  • навигацию по связям между документами.

Если данный клиент обладает правами доступа к хранилищу изданий, он может, выбрав одну из миниатюр, сформировать запрос к хранилищу изданий на получение соответствующего документа. После определенного времени ожидания, связанного с выбором соответствующего информационного носителя в хранилище, сервер доставки начнет передачу клиенту запрошенной информации.

Второй главный компонент браузера - средства просмотра для мультимедийных изданий. Для этого компонента существенно, чтобы медиа-документы были представлены в распространенных форматах либо легко преобразовывались в них. Браузер, однако, должен быть способен получать документы в их родных форматах и активизировать соответствующие приложения обработки, например чтобы пользователь мог редактировать документы.

7.4.
Автоматизация выделения метаданных

7.4.1.
Метаинформация и ее роль

Повсеместное распространение информационной среды Интернет привело к заметному перекосу в части использования однонаправленных ссылок, служащих для организации переходов от одного документа к другому в гипертекстовых структурах. Такие ссылки не имеют атрибутов и не обеспечивают структурирования и классификации документов.

В настоящее время объем информации, циркулирующей в среде Интернет, приближается или даже превысил некий критический предел, в результате значительная ее часть остается невостребованной, препятствуя, пo существу, эффективному использованию этой среды. Все более актуальной становится задача создания гибкой информационной среды для хранения документов, включая статьи, доклады, книжные издания. Желательно обеспечить возможность сборки таких документов в группы (коллекции) с последующей возможностью включения этих первичных коллекций в состав других групп, стремясь получить в результате иерархическую структуру и, в, конечном счете, попытаться упорядочить информационное пространство в целом.

Ссылки следует снабдить такими атрибутами, как имя автора (авторов), название работы, время создания, срок хранения. Интересно отметить, что такие атрибуты рекомендовано хранить не вместе с документами, которые они характеризуют, а в отдельной базе данных, что позволит существенно упростить и ускорить поиск документов. Таким образом, структура хранилища, предложенная в § 7.2, соответствует рекомендуемой в настоящее время структуре хранения данных в глобальной сети.

Для описания метаданных консорциумом W3C подготовлен стандартный формат их представления - Resource Description Framework (RDF), который определяет основные принципы обработки метаданных и обеспечивает функциональную совместимость Web-приложений, обменивающихся такой информацией. В RDF использованы принципы объектно-ориентированного программирования и моделирования и элементы языков HTML, SGML и XML (см. также § 2.9). Следует заметить, что с одной стороны язык XML описывает в RDF синтаксис метаданных, a RDF, в свою очередь, позволяет описывать семантическую структуру XML-документов и передавать смысл данных, заключенных между XML-тегами. Консорциум W3C в учебнике упоминается несколько раз, но роль этого объединения в стандартизации и унификации сетевых средств и технологий поистине неоценима. И мы ее касаемся лишь в незначительной степени.

Наше время характеризуется достаточно тесной интеграцией издательств с сетью Интернет и использованием локальных интрасетей в самом издательстве. Таким образом, даже исходя из требований интеграции в издательстве информация об изданиях должна сопровождаться метаинформацией, которая извлекается из содержимого самого издания, желательно автоматически. Представительство издательств в глобальных сетях также требует соответствия между структурой издательских баз данных и информационных хранилищ на поисковых серверах.

7.4.2.
Законы Зипфа и автоматизация извлечения метаданных из электронных изданий

Известный математик Зипф Дж.Дж. Зипф (С. К. Zipf) показал, что все созданные человеком тексты подчиняются общим закономерностям, которые он сформулировал в 1946 г. в виде нескольких законов.

Если взять любой текст, то можно подсчитать, какие слова в нем сколько раз встречаются. Количество повторов слова в тексте можно назвать частотой. Чаще всего встречающемуся слову можно приписать ранг 1, следующему по частоте - 2 и т. д. Если несколько разных слов имеют одинаковые частоты, то учитывается только одно из этих нескольких значений. Если разделить частоту повторения слова на общее количество значащих слов в тексте, то получим его относительную частоту или вероятность встречи этого слова в тексте. Первый закон Зипфа гласит, что произведение вероятности встречи слова в тексте на его частоту приблизительно постоянно для любых текстов определенного языка. Сказанное иллюстрируется рис. 7.3Рис. 07.03., где представлена зависимость частоты встречи слова в тексте f от его ранга R.

Второй закон Зипфа определяет соотношение между частотой и количеством слов, которые с этой частотой встречаются в тексте. Если построить график зависимости количества слов и частоты, то окажется, что характеризующая ее кривая остается неизменной для любых текстов в пределах одного языка. Сказанное иллюстрируется да иным и рис. 7.4Рис. 07.04., на котором показаны кривые для английского (самая нижняя), французского и русского языков (самая верхняя).

Данные рис. 7.3Рис. 07.03. могут успешно использоваться на практике для выделения значащих слов в тексте. Все значащие слова для данного текста размещаются в области средних значений ранга (область выделена на рис. 7.3Рис. 07.03. штриховкой). Действительно, самые часто встречающиеся слова обычно относятся к вспомогательным, а самые редко встречающиеся обычно также не имеют решающего смыслового значения для данного текста. От того, как будет задан диапазон значимых слов, зависит многое. Если сделать его слишком широким - нужные термины потонут в море вспомогательных слов, установив чрезмерно узкий диапазон мы рискуем потеряешь смысловые термины.

Если рассматривать совокупность изданий, в особенности, посвященных одной и той же тематике, то вероятность случайного попадания малозначащих слов в выделенную область для группы изданий (см. рис. 7.3Рис. 07.03.) уменьшается. Чтобы учесть такую возможность избавиться от случайных слов вводят понятие инверсной частоты термина. Инверсная частота определяется как логарифм отношения общего количества рассматриваемых документов п кчислу документов, содержащих данный термин m (под термином может пониматься не только отдельное слово, но и единое по смыслу словосочетание), т. е.

.

С учетом инверсной частоты вес или значимость термина в каждом документе определится как произведение

,

где z - вес или значимость термина в издании; f - частота повторения термина в этом издании; i - инверсная частота этого термина в группе издании.

Процесс определения веса или значимости термина в издании легко алгоритмизируется. На этом принципе основана работа всех программ - экстракторов значащих слов. Надо сказать, что даже широко распространенный в нашей стране редактор Word, начиная с версии 1997 г., как-то выполняет функции извлечения терминов. Для этого используется команда «Реферат» в секции меню «Сервис». Соответствующее команде диалоговое окно показано на рис. 7.5Рис. 07.05..

Как следует из данных рис. 7.5Рис. 07.05., реферат можно поместить в начало реферируемого документа или оформить в виде отдельного файла. Можно также регулировать размер реферата, задавая в процентах от основного текста количество предложений в нем. В примере на рис. 7.5Рис. 07.05. в реферате содержатся два предложения, в то время как в исходном документе их было двадцать одно. Наряду с составлением реферата из текста документа извлекается пять наиболее значимых слов. Для их просмотра следует воспользоваться командой «Свойства» секции меню «Файл». Соответствующее диалоговое окно показано на рис. 7.6Рис. 07.06..

Для того чтобы ключевые слова были занесены в нужное поле вкладки «Документ» окна «Свойства», в диалоговом окне, показанном на рис. 7.5Рис. 07.05., должна быть задействована опция «Обновить сведения о документе»).

В поле «Ключевые слова» в примере отобрано пять слов, а именно: «в», «издательств», «области», «предусмотрен», «должен». Нетрудно за метить, что из пяти отобранных слов только одно соответствует тематике статьи «Современные издательства», причем одно из отобранных слов - предлог, который вообще не может иметь смысла, когда он берется отдельно от основного слова. Таким образом, качество отбора ключевых слов редактором Word 97 весьма низкое. Кстати, реферирование осуществляется только для работе названием на английском (а не на русском) языке. Надо сказать, что редактор Word 2000 ничем существенным не отличается от своего предшественника.

7.4.3.
Применение программ-экстракторов

Выделение Метаинформацияметаинформации и Ключевое словоключевых слов из изданий может быть выполнено с помощью специальных программ-экстракторов. Одна из первых таких программ - это Extractor, созданный в Институте Информационных Технологий Национального исследовательского Совета (NRC) Канады. В настоящее время доступна версия 7.0 этой программы.

Extractors качестве исходных данных использует текстовый документ, генерируя на выходе совокупность ключевых слов. Он обрабатывает тексты на английском, французском, японском, немецком, испанском и корейском языках. К сожалению, к русскому языку он пока не адаптирован. Алгоритм работы программы использует метод обучения на примерах. Алгоритм изначально предназначен для моделирования человеческого подхода к выбору ключевых слов. На большинстве платформа время работы программы с 10-страничным документом не превышает секунды. Пример интерфейса и результатов работы программы Extractor 7.0 с документом на английском языке представлен на рис. 7.7Рис. 07.07..

На рис. 7.7Рис. 07.07. представлен набор ключевые слов и выражений (Key-phrases) и основные фрагменты текста (Highlights). Ключевые слова в основных фрагментах текста автоматически выделяются жирным шрифтом, а наименее важные слова автоматически отображаются в серых (а не черных) тонах.

Разработанная фирмой «Научно-производственный инновационный центр «Микросистемы» отечественная программа-экстрактор Text-Analyst 1.5 позволяет на первых же этапах работы с текстами ответить на естественные вопросы, возникающие по ходу анализа. Интерфейс и заставка программы представлены на рис. 7.8Рис. 07.08..

Демонстрационная версия этой программы доступна бесплатно на сайте фирмы. Применение программы резко сокращает время, необходимое эксперту для погружения в тематику, и дает множество подсказок и наводящих соображений для тонкого и углубленного анализа как всей информации в совокупности, так и отдельных ее фрагментов. Первые успехи эксперта при работе с анализаторами текстов, как правило, служат основой для постановки более сложных задач анализа и структурирования. И с ними TextAnalyst успешно справляется.

В настоящее время распространяется новая версия TextAnalyst 2.01, которая разработана в качестве инструмента для анализа содержания текстов, смыслового поиска информации, формирования электронных архивов, и предоставляет пользователю следующие основные возможности:

  • анализа содержания текста с автоматическим формированием семантической сети с гиперссылками - получения смыслового портрета текста в терминах основных понятий и их смысловых связей;

  • анализа содержания текста с автоматическим формированием тематического древа с гиперссылками - выявления семантической стру ктуры текста в виде иерархии тем и подтем;

  • смыслового поиска с учетом скрытых смысловых связей слов запро са со словами текста;

  • автоматического реферирования текста - формирования его смы слового портрета в терминах наиболее информативных фраз;

  • кластеризации информации - анализа распределения материала текстов по тематическим классам;

  • автоматической индексации текста с преобразованием в гипертекст;

  • ранжирования всех видов информации о семантике текста по «степени значимости» с возможностью варьирования детальности ее исследования;

  • автоматического/автоматизированного формирования полнотекстовой базы знаний с гипертекстовой структурой и возможностями ассоциативного доступа к информации.

Результаты работы программы TextAnalyst 2.01. представлены на рис. 7.9Рис. 07.09..

В тексте выделены цветом и подчеркнуты термины, которые TextAnalyst 2.01 предлагает использовать в качестве ключевых слов, терминов, отражающих смысловое содержание работы. Пользователь может исключить часть этих слов или добавить другие, что будет учтено программой в дальнейшей работе. По нашему мнению, эта программа может успешно использоваться для автоматизации извлечения метаинформации из загружаемых в хранилище изданий.

7.5.
Публикация содержимого баз данных на Web-страницах

7.5.1.
Публикация статических Web-страниц

Источником для создания статической Web-страницы может служить любой набор записей в базе данных. Обычно на таких страницах публикуется таблица базы данных (или ее некоторая часть) или данные, полученные в результате выполнения некоторого запроса к базе. Вариантом публикации может быть отчет, созданный на основе данных, содержащихся в базе. Такая публикация может далее просматриваться в браузере. Если отчет состоит из нескольких страниц, то формируется несколько HTML-файлов, связанных друге другом гипертекстовыми ссылками. Однако не сохраняется связь этого файла с источников данных, т. е. Web-страница остается неизменной при изменении содержимого базы данных.

Все такие публикации создаются в результате экспорта соответствующих объектов базы данных. Если для такой операции используется база, созданная в рамках СУБД ACCESS (она входит в состав пакета MS Office), то рекомендуется придерживаться следующего порядка действий:

  • открыть и проверить содержимое материалов базы данных, которые предполагается публиковать;

  • выбрать объект для публикации, т. е. выбрать соответствующую вкладку диалогового окна, показанного на рис. 7.10Рис. 07.10. (в примере нажата кнопка «Отчеты» и выбран отчет «Итоги продаж по объему»);

  • с помощью команды «Экспорт» (рис. 7.11Рис. 07.11.) секции меню «Файл» от крыть диалоговое окно «Экспорт объектов», показанное на рис. 7.12Рис. 07.12.;

  • в этом окне выбрать папку для размещения файла, указать его имя и тип (html или htm) и сохранить, нажав соответствующую кнопку;

  • при необходимости указать имя HTML-шаблона в появившемся после нажатия кнопки «Сохранить» диалоговом окне «Параметры вывода в формате HTML».

Полученный HTML-документ может содержать несколько страниц, связанных гиперссылками. Так в нашем примере он состоит из трех страниц (рис. 7.13Рис. 07.13.). Из них первая или основная носит присвоенное отчету имя, а для остальных к этому имени добавляется номер страницы. В качестве примера на рис. 7.14Рис. 07.14. показана первая страница документа. Гиперссылки в виде переходов к предыдущей, последующей, а также первой и последней страницам, размещены в нижней части полосы. Содержательная часть страниц представлена значениями из учебной базы «Борей», распространяемой совместно с СУБД MS Access.

7.5.2.
Публикация динамических Web-страниц

При всех своих достоинствах, публикации статических Web-страниц не позволяют поддерживать актуальность публикуемых данных. Из вариантов динамического связывания Web-страниц с внешними информационными источниками наибольшее распространение получили следующие:

  • использование HTML-форм и CGI-скриптов для их обработки;

  • динамические публикации страниц в формате IDC/HTX;

  • публикации динамических Web-страниц в формате ASP;

  • применение специальных страниц доступа к данным.

Первый вариант, по существу, уже обсуждался в общем виде в § 2.8. Он связан с пересылкой на сервер запроса в виде HTML-формы, в которой указаны переменные, текущие значения которых требуется узнать. На сервере с помощью CGI-скриптов эти формы обрабатываются и с помощью интерфейса с СУБД, поддерживающей локализованную на нем же базу данных, возвращаются новые значения соответствующих величин, которыми заменяют прежние. Этот способ обеспечивает максимальную гибкость, но требует создания и хранения на сервере CGI-скриптов и других пользовательских процедур.

Другие варианты организации динамической связи требуют, чтобы на сервере был определен соответствующий источник данных. Технология IDC (Internet Database Connector - средство связи сети Интернет с базою данных) / НТХ (HTml extension - расширение языка HTML) позволяет передать параметры запроса пользователя к базе данных как часть сообщения от браузера на сервер, получая в ответ динамически сформированную Web-страницу. Запрос, посылаемый серверу, - это текстовый файл в формате IDC, в котором содержится набор операторов языка SQL (Structured Query Language - язык структурированных запросов).

Язык SQL поддерживается практически всеми СУБД. В данном случае с его помощью формируется описание действий, которые должны быть выполнены на серверной стороне. Соответственно IDC-файл является исполняемым и на сервере должен размещается в папке Scripts (сценарии), предназначенной для исполняемых процедур. Пользователь должен иметь возможность занесения файлов в эту папку. В составе IDC-файла должен также находиться шаблон, описывающий Web-страницу, в составе которой будет таблица, форматирование которой определяет, каким образом будут отображаться данные, извлеченные из базы.

Какой же порядок динамического взаимодействия между пользователем и базой данных? Пользователь вводит в адресном окне браузера адрес IDC-файла. Web-сервер отыскивает этот файл в папке Scripts и активизирует динамическую библиотеку httpodbc.dll. Процедуры этой библиотеки просматривают IDC-файл и определяют имя внешнего источника данных (URL базы данных). Из библиотеки выбирается нужный драйвер, который взаимодействует с источником данных, выполняя запрос на языке SQL и извлекая нужную информацию из этого источника. После этого специальная процедура библиотеки извлекает из IDC-файла имя шаблона и формирует на основании его гипертекстовый файл, который отсылается браузеру компьютера клиента. Наконец, последний формирует и отображает Web-страницу в своем окне.

Технология публикаций ASP (Active Server Pages - страницы активного сервера) подобна рассмотренной первой. Отличие лишь в том, что она адаптирована к использованию Web-сервера, работающего в операционной системе Windows и вместо CGI-скриптов использует процедуры взаимодействия, написанные на языке VBScript, одной из ветвей языка Bisual Basic.

Самой современной и наиболее эффективной в настоящее время является технология динамической публикации на основе страниц доступа к данным (Data Access Pages - DSP). Страница доступа к данным представляет собой Web-страницу, на которой размещены связанные с внешним источником данных компоненты ActiveX (см. § 2.9), а также процедуры, написанные на языке VBScript. Сочетание гибкости управления объектами страниц доступа к данным с мощными функциональными возможностями компонентов ActiveX делает такую технологию чрезвычайно эффективной для организации удаленного доступа к данным и их динамической публикации на Web-страницах.

Страницы доступа к данным интегрированы в СУБД MS Access, причем в окне базы данных им отведена отдельная вкладка «Группы». Они разрабатываются в режиме «Конструктор страниц». Разработанные страницы доступа следует поместить в соответствующую папку Web-сервера. В самой базе данных остаются ярлыки, указывающие на файлы гипертекста, описывающие эти страницы. Использование страниц доступа к данным позволяет создавать интерактивные отчеты, формы для удаленного ввода, удаления и редактирования записей в базе данных, средства для удаленного анализа данных.

Детальное изучение этих технологий не входит в содержание учебника. Поэтому мы отсылаем всех интересующихся данным вопросом к книгам ссылка на источники литературы. Некоторые сведения по принципам и применению CGI-технологий можно извлечь из книги ссылка на источники литературы и статьи ссылка на источники литературы.

© Центр дистанционного образования МГУП