Московский государственный университет печати

Капелев В.В.


         

Программные средства обработки информации. Ч. 1. Программы обработки текстовой информации

Учебное пособие


Капелев В.В.
Программные средства обработки информации. Ч. 1. Программы обработки текстовой информации
Начало
Печатный оригинал
Об электронном издании
Оглавление

Введение

1.

Информационные технологии в издательском деле

1.1.

Публикация электронных документов с использованием сети

1.2.

Электронные издательства

1.3.

Компьютерные издательские системы

1.3.1.

Продукты Adobe

1.3.2.

Продукты Corel

1.3.3.

Продукты Quark

1.4.

Вычислительные комплексы

1.5.

Тенденции совершенствования КИС

2.

Понятие об автоматизированном рабочем месте

2.1.

Автоматизированное рабочее место

2.2.

Понятие об издательском комплексеИспользован материал каталога передовых систем SoftUnion, 1995

2.3.

Конфигурации издательских комплексовИспользован рекламный материал фирмы SoftUnion

3.

Типографика и КИС

3.1.

Общие сведения о шрифтах в КИС

3.2.

Сведения о строчных пробельных элементах в КИС

3.3.

Сведения о межстрочных пробельных элементах в КИС

3.4.

Сведения о пробелах на уровне абзаца

4.

Цифровые шрифты

4.1.

Шрифт - материальный носитель информации

4.2.

Принципы классификации цифровых шрифтов

4.3.

Кодовые таблицы

4.4.

ParaTypeOpen - шрифтовые пакеты от фирмы ПараГрафИспользован рекламный материал фирмы ParaType

4.5.

Шрифты Noisy Fonts

4.6.

Art Parts - технология использования политипажей

5.

Сведения о стандарте PostScript

5.1.

Методы описания символов в цифровых шрифтах

5.2.

Шрифты ТruеТуре и PostScript

5.3.

Общие сведения о стандарте PostScript

5.4.

PostScript - язык программирования

5.5.

Общие сведения о растрировании

5.6.

PostScript - язык описания графики

5.7.

PostScript - язык устройств вывода

5.8.

Программные и аппаратные RIP

6.

Технические средства АРМов

6.1.

Устройства ввода информации

6.2.

Устройства хранения информации

6.3.

Устройство обработки данных

6.4.

Устройства вывода информации

6.4.1.

Растровые дисплеи

6.4.2.

Видеоадаптеры

6.4.3.

ПринтерыИспользован рекламный материал фирмы SoftUnion.

6.5.

Некоторые сведения о сканерах

6.6.

Общие сведения о сетях

6.7.

Отличительные особенности компьютеров Apple Macintosh

6.8.

Сведения о ризографииИспользован рекламный материал Техцентра RISO-PRINT.

6.9.

Сведения о фотовыводном оборудованииИспользован материал статьи М. Синяка в газете 'Новости полиграфии' № 28 за 1996 год.

7.

Программные средства КИС

7.1.

Основные этапы допечатной обработки публикации

7.2.

Классификация программных средств КИС

8.

Системное программное обеспечение КИС

8.1.

Операционная система MS-DOSИспользован материал Краткого руководства пользователя MS-DOS

8.2.

Основные команды MS-DOS

8.3.

Архивирование файловИспользован материал курсовой работы студента Петраш Д.Г. (Т-5-3)

8.4.

Сведения о программной оболочке Norton Commander

8.5.

Работа с меню пользователя

8.6.

Сопоставление расширения имен командных файлов

8.7.

Работа с архивами

8.8.

Графическая оболочка Windows 3.1

8.9.

Графическая оболочка Windows 95

8.10.

Программа типа ACD See

8.11.

Программа Norton Antivirus 5.0

8.12.

Программа UniSpell

8.13.

Программа WinZip 6.3

8.14.

Программа просмотра шрифтов FontLister

9.

Прикладное программное обеспечение КИС

9.1.

Программы оптического распознавания символовИспользован материал дипломной работы Лебедева М.В. (Т-5-4).

9.2.

Программа FineReader 4.0

9.3.

Программа OCR типа CuneiForm 2.0

9.4.

Другие системы оптического распознавания текста

9.5.

Программы электронного перевода текста

9.6.

Система электронного перевода Stylus 3.0

9.7.

Система электронного перевода текста Сократ 97

9.8.

Текстовые процессоры типа WinWord

9.9.

Текстовый процессор WinWord 6.0

9.10.

Текстовый процессор WinWord 97

9.11.

Программы обработки табличного материала

9.12.

Программы обработки математических формул

Литература

Указатели
9   именной указатель
374   предметный указатель
167   указатель иллюстраций
26   указатель компаний
Кнопки 1-5 Выбор типа используемого сканера Экран Сuneiform Рабочее окно программы Stylus 3.0 после вызова исходного текстового файла: 1 - заголовок программы; 2 - строка меню; 3 - палитра пиктограмм «основная»; 4 - палитра пиктограмм «форматирование»; 5 - палитра пиктограмм «перевод»; 6 - палитра пиктограмм «сервис»; 7 - заголовок окна исходного файла; 8 - рабочее окно исходного файла; 9 - информационная панель Диалоговое окно, открывающееся в меню СЕРВИС\Параметры для программы Stylus 3.0 Диалоговое окно, открывающееся в меню СЕРВИС\Параметры для программы Stylus 3.0

Прикладные программы предназначены для выполнения определенных функциональных задач компьютерных издательских систем (например, для обработки текста, математических, структурных химических формул, нотной продукции, таблиц, векторной и растровой графики, макетирования и верстки публикаций), а также для выполнения ряда служебных задач.

Ввод информации с бумаги в компьютер является в настоящее время часто выполняемой задачей. До недавнего времени эта задача решалась исключительно путем кодирования с клавиатуры компьютера. Большинство документов, подлежащих обработке, представлены в оригиналах на бумажном носителе. Поэтому неотъемлемой частью любой системы автоматизации делопроизводства являются компьютерные системы, включающие программы сканирования и оптического распознавания образов документов. Задача распознавания состоит в том, чтобы преобразовать входное (отсканированное) изображение в текст из подвижных символов. Иными словами графическое изображение каждого входного символа заменяется обозначением этого символа, используемым в компьютере (т.е. кодом, понятным компьютерной системе).

Система оптического распознавания Системы оптического распознавания символов (OCR - Optical character recognition) стали неотьемлемой частью интегрированных пакетов, поддерживающих ввод в компьютер, хранение и обработку бумажных и электронных документов. Система включает в свой состав сканер для ввода информации.

Работа сканеров основана на принципах функционирования фотомножительных устройств:

  • изображение, считываемое сканером, хранится в электронном виде;

  • сканер не может отличать текст от рисунков и представляет их в виде отдельных графических фрагментов из черных и белых элементов.

Если созданное сканером изображение содержит текст и рисунки, то при помощи специальной программы оптического распознавания текста (OCR) можно:

  • отделить текст от рисунков;

  • записать этот текст в формате файла текстового процессора.

Программное обеспечение в современных системах OCR выполняет анализ форм букв и создание текстового файла, в который распознаваемый текст записывается посимвольно с последовательным формированием слов и предложений.

Основные технологические требования к OCR при использовании компьютерных издательских систем:

  • умение распознавать начало и конец отдельных символов, поскольку сам сканер лишь оцифровывает изображение и, кроме того, многие шрифты являются пропорциональными;

  • возможность работать с большим диапазоном гарнитур, кеглей, начертаний шрифтов, которые могут использоваться при полиграфическом оформлении документа;

  • возможность работать с оригиналами различного качества (в том числе созданными типографским способом или на лазерном принтере);

  • возможность распознавать многоколонный текст;

  • возможность распознавать текст, имеющий в состае таблицы и рисунки;

  • достаточно высокая достоверность распознавания (не менее 90-96 %).

Существует два типа пакетов OCR: обучаемые и интеллектуальные. Первые пакеты оптического распознавания символов имели четкое разделение по типу. В последнее время наблюдается тенденция к объединению этих двух типов в одном пакете, что перекликается с попытками разработать принципиально новые алгоритмы распознавания.

В случае обучаемых систем происходит поточечное сравнение оцифрованного символа с образцом в справочной таблице. Оно осуществляется путем наложения масок символов на символ из считанного документа и проверки на полное сов­падение. Как только совпадение достигается, символ добавляется в файл. В процессе распознавания символа при наложении маски размеры шрифта документа и маски должны быть одинаковыми. Это означает, что необходимо иметь маски для каждого размера шрифта и что система оказывается более эффективной в случае однотипного текста. С учетом этих ограничений, при разрешающей способности сканера 300 dpi обеспечивается достаточная точность обработки для того ограниченного набора шрифтов, который система “знает”, . В случае интеллектуальной системы — более мощном методе преобразования считанного документа в текстовый файл — программа самостоятельно идентифицирует каждый оцифрованный символ. Здесь маска символа заменяется на его контур. Такой эталонный контур может быть использован для любых размеров шрифтов. Стандартная система, основанная на этом методе, может распознавать несколько тысяч шрифтов. Поскольку такие системы не пользуются фиксированными масками, не возникает проблем, связанных с совпадением одной маски с несколькими разными символами. Кроме определения сим­вола по контуру система выполняет ряд перекрестных проверок полученного текста.
Число известных системе шрифтов обычно невелико — около десятка. Однако достоинство подобных систем в том, что они предоставляют пользователю возможность обучать их новым гарнитурам. Обучение — довольно длительный процесс, а, кроме того, впоследствии при сравнении шрифтов возможна путаница, вызванная наличием у некоторых символов дополнительных графических элементов типа умляутов, трема и седилей. Среди многих методов наиболее распространенными являются следующие два. Первый метод заключается в частотном анализе текста. Сравнивается частота появления символа в тексте с его частотой в языке оригинала. Второй метод позволяет обнаружить неправильное сочетание символов, исходя из правил орфографии. Очевидно, что для эффективной реализации этого необходимо настроить систему на конкретный язык, на котором написан документ.

Система оптического распознавания обучаемая Обучаемые пакеты программ OCR составляли большинство первых разработок. Такие пакеты теоретически способны обучаться распознаванию любых символов любых гарнитур. Для обучения программы конкретной гарнитуре нужно отсканировать эталонное изображение с последующим обучением каждому конкретному символу. Это довольно длительная процедура, однако, если данная гарнитура будет затем регулярно использоваться, стоит потратить пару часов на обучение. Программы такого типа сравнивают каждый отдельный символ страницы с символами в справочных таблицах, созданных в процессе обучения, составляя при этом текстовый файл. Это означает, что можно улучшить работу такой программы, обучив ее всему набору символов используемых в документе гарнитур. Поскольку программа теперь будет знать форму каждого символа, уменьшается вероятность ошибки из-за минимальной работы по угадыванию формы.

Система оптического распознавания интеллектуальная Интеллектуальные пакеты OCR не нуждаются в обучении и могут интерпретировать формы символов независимо от используемой гарнитуры. Работа этих программ производит большое впечатление: документ пропускается через сканер, результат обрабатывается интеллектуальной программой OCR с выдачей текстового файла. Для страницы формата А4 вся процедура занимает немногим более одной минуты. При высокой точности это значительно быстрее ручного ввода.

Интеллектуальный пакет за одну минуту позволяет отсканировать и распознать текст объемом 1200 символов. При этом созданный текстовый файл содержит обычно не более двух неверных символов — достоверность распознавания порядка 99.83%. Среди недостатков таких пакетов следует отметить следующее. Поскольку некоторые из них не могут обучаться чтению конкретных гарнитур, отсутствие надлежащей гибкости может не позволить им распознать гарнитуры необычного вида.

Конечный результат работы пакета OCR независимо от его типа представляет собой файл формата ASCII (или ANSI), а в ряде случаев даже отформатированный файл для таких популярных текстовых процессоров, как Microsoft Word. Новейшие программы позволяют сэкономить время, записывая текст нескольких последовательных страниц в один файл. Кроме того, использование сканера с механизмом автоматической подачи отдельных листов позволяет организовать непрерывный ввод многостраничного документа.

Качество работы программ OCR зависит от ряда основных факторов:

  • необходимо максимально хорошее качество оригинала. В случае некачественных изображений интеллектуальные пакеты попытаются сделать что-то, но результат вас не впечатлит. Обучаемые же программы в большинстве случаев просто не сработают;

  • для достижения лучших результатов необходимо оцифровывать изображения с разрешением порядка 600-800 точек на дюйм, что позволяет с высокой точностью определять края символов и существенно облегчает программе OCR распознавание формы отдельных букв;

  • необходимо использовать высокопроизводительное оборудование. В процессе оптического распознавания символов создаются большие массивы данных. Для успешной работы программ OCR нужен мощный компьютер с большим объемом оперативной и дисковой памяти, что подразумевает вместе со стоимостью программного обеспечения немалые затраты;

  • при необходимости вводить большие объемы текста, отпечатанного необычной гарнитурой, предпочтительно использовать обучаемый пакет.

FineReader 4.0 FineReader 4.0 - это система оптического распознавания текстов (OCR), которая преобразует полученное с помощью сканера графическое изображение (картинку) в текст (т.е. в коды букв, «понятные» системе).

Процесс ввода текстов в компьютер осуществляется в несколько этапов:

  • сканирование;

  • выделение блоков на изображении;

  • распознавание;

  • проверка ошибок;

  • сохранение результата распознавания (передача его в другое приложение, в буфер и т.п.).

Перечисленные действия можно выполнить:

  • с помощью кнопок 1-5;Кнопки 1-5

  • с помощью одной кнопки «Мастер ScanRead...».

Кнопки, управляющие основными действиями программы, расположены на инструментальной панели ScanRead находятся. Цифры на кнопках указывают порядок выполнения действий для получения электронной версии бумажного документа:

  • сканирование (1);

  • сегментация (2);

  • распознавание (3);

  • проверка результатов (4);

  • сохранение или экспорт во внешнее приложение (5).

Крайняя левая кнопка Scan/OpenRead может выполнять действия:

  • 1-2-3 (в режиме ScanRead - для бумажных документов);

  • 2-3 (в режиме OpenRead - для электронных изображений).

Работа, выполняемая по нажатию на кнопку (2) или (3) зависит от того, какое окно активно, а также есть ли в окне Пакет выделенные страницы:

  • действие этих двух кнопок распространяется на открытую страницу, если активно окно Изображение;

  • действие по умолчанию применяется к выделенным изображениям, если в окне Пакет выделено больше одной страницы;

  • кнопки работают для всех необработанных страниц (т.е. страниц без блоков или нераспознанных), если выделена только одна страница или не выделено ни одной.

Режим работы кнопок можно изменить, нажав на стрелку справа от кнопки и выбрав нужную команду.

Этап сканирования

  • выбор типа используемого сканера выполняется командой СЕРВИС\Выбор сканера с дальнейшим выбором из списка;Выбор типа используемого сканера

  • задание параметров сканирования удобно выполнить командой СЕРВИС\Параметры сканера:

    а) рекомендуется в позиции «Подбор яркости» задать яркость 50 % т.е. среднюю, или выбрать пункт «Автоматический»;

    б) разрешение устанавливают равным 300 dpi - для большинства документов, 400-600 dpi - для документов, набранных мелким шрифтом;
    <?xml version="1.0" encoding="UTF-16"?>

  • при необходимости запроса номера страницы перед началом сканирования нужно:

    - в меню «Сервис» выбрать пункт «Опции...»;

    - на закладке «Сканирование» диалог «Опции» отметить пункт «Запрашивать номер страницы перед началом сканирования»;

  • при запуске сканирования нажатием кнопки (1) можно:

    а) добавлять отсканированные страницы в пакет, создаваемый по умолчанию при запуске программы;

    б) открыть другой пакет (нажать соответствующую кнопку) и записывать отсканированные страницы в него;

    в) обеспечить автоматическую загрузку программой пакета, в котором велась работа в последний раз (для этого должна быть отмечена позиция СЕРВИС\Опции\Установки\ Открывать последний пакет);

  • при запуске сканирования с распознаванием можно нажать стрелку справа от кнопки «Scan\OpenRead» и из локального меню выберать пункт «ScanRead». Система отсканирует изображение, выделит на нем блоки, а затем распознает его;

  • при запуске сканирования с помощью кнопки «Мастер ScanRead» (кнопка слева от кнопки (1)) этапы обработки удобно выполнять в соответствии с появляющимися вопросами.

Работа с изображением

  • задание стандартной ориентации страницы (распознаваемый текст должен читаться сверху вниз и строки должны быть параллельны нижнему краю экрана):

    а) указать режим автоматического подбора ориентации (выбрать СЕРВИС\Опции\Сегментация\Подбирать ориентацию страницы);

    б) повернуть изображение страницы вручную:

    - выделить на уровне одной страницы щелчком по ней курсором, на уровне нескольких сраниц подряд - щелчком по ним Shift-курсором, на уровне нескольких страниц выборочно - при нажатой клавише Ctrl;

    - выбрать команду ИЗОБРАЖЕНИЕ\Повернуть изображение соответствующего угла поворота;

  • задание позитивного отображения, при котором читаемые элементы должны иметь черный, а пробельные - белый цвет (выделить нужные фрагменты и выбрать ВИД\Инвертировать изображение);

  • очистка изображения «от мусора»:

    а) указать автоматический режим выбором позиции СЕРВИС\Опции\Сегментация\Очищать изображение при открытии;

    б) очистить изображение вручную:

    - выделить нужное изображение на уровне страниц;

    - выбрать команду ИЗОБРАЖЕНИЕ\Очистить от мусора;

  • получение информации об открытом изображении:
    <?xml version="1.0" encoding="UTF-16"?>

    - нажать правой кнопкой на изображение и в локальном меню выбрать пункт «Свойства»;

    - в открывшемся диалоге выбрать закладку «Изображение».

Работа с блоками

После сканирования страниц программа переходит к сегментации фрагментов распознаваемого изображения:

  • автоматическая сегментация задается из меню SCANREAD выбором соответствующего режима («Сегментировать все страницы...», «Сегментировать активный блок», «Сегментировать выделенную страницу» и т.д.);

  • ручная сегментация страницы или ее части (блока) предполагает:

    - установку курсора мыши в угол предполагаемого блока;

    - нажатие кнопки мыши и обрисовка контура прямоугольной формы в противоположный по диагонали угол (текст заключается в рамку, что по умолчанию образует текстовый блок);

    - щелчок на выделенном блоке правой кнопкой мыши;

    - выбор из локального меню пункта «Анализ блока» (или «Анализ таблицы», если блок заключает в себе одну только таблицу).

  • установка вида расположения текста на странице:

    - выбрать закладку СЕРВИС\Опции\Сегментирование;

    - выбрать пункт Расположение текста\Одна колонка (для текста, напечатанного в одну колонку с большими промежутками между словами) или пункт «Расположение текста\Автоматическое определение».

    Программа FineReader автоматически определяет раскладку текста на странице. Для книг, газет, факсов, отчетов и т.п. подходит положение «Авто». И только в редких случаях, например, при распознавании оглавлений и листингов программ, нужно специально указывать программе, что текст напечатан в одну колонку.

  • автоматический подбор ориентации страницы при сегментации и распознавании (если в одном пакете распознаются страницы разной ориентации):

    - выбрать закладку СЕРВИС\Опции\Сегментация;

    - отметить пункт «Подбирать ориентацию страницы».

Редактирование блоков

  • активизация блока выполняется так:

    а) выбрать окно «Изображение»;

    б) для автономного блока щелкнуть мышью (появляются ограничители вокруг блока);

    в) для нескольких блоков щелкнуть мышью при нажатой клавише Ctrl;

  • изменение типа блока выполняется следующим образом:

    - активизировать один или несколько блоков;

    - щелкнуть правой кнопкой мыши на одном из выделенных блоков и из локального меню выбрать пункт «Тип блока», а затем - нужный подпункт (текст, таблица, картинка);

  • изменение размеров блока выполняется так:

    - установить курсор мыши на границу блока, так что он принимает форму двунаправленной стрелки (если установить курсор мыши на угол блока, то при движении мыши вертикальные и горизонтальные размеры блока изменяются пропорционально);

    - щелкнуть мышью и потянуть в нужную сторону (граница блока становится пунктирной и двигается вслед за мышью);

    - отпустить кнопку мыши (границы блока снова становятся сплошными);

  • перемещение блоков на экране выполняется следующим образом:

    - выбрать инструмент «Переместить блоки»;

    - выделить один или несколько нужных блоков;

    - щелкнуть мышью один из выделенных блоков и потянуть в нужном направлении (границы блоков становятся пунктирными и перемещаются вслед за мышью);

    - отпустить кнопку мыши (границы блоков снова становятся сплошными;

  • перенумерация блоков выполняется следующим образом (порядок блоков, выделенных на экране, определяет расположение их содержимого в распознанном тексте):

    - выбрать инструмент перенумерации;

    - нажать на блоки в том порядке (начиная с первого), в котором нужно видеть их содержимое в выходном тексте;

  • очистка блока выполняется после щелчка правой кнопкой по блоку и выбора пункта «Очистить блок»;

  • для сохранения изображения блока в файл нужно:

    - открыть нужное изображение;

    - активизировать нужный блок;

    - выбрать ФАЙЛ\Сохранить копию изображения;

    - отметить пункт «Сохранять только активный блок»;

    - выбрать нужное расширение (.bmp, .tif, .jpg и т. п.) и нажать OK.

Система оптического распознавания интеллектуальная Интеллектуальная система оптического распознавания символов (Optical Character Recognition, OCR) CuneiformCuneiform функционирует в среде Microsoft Windows 3.1 или более поздней версии. Контекстно-зависимая справочная система CuneiForm поддерживается стандартной системой помощи Windows. Система обладает следующими технологическими возможностями:

  • поддерживает широкий спектр настольных сканеров;

  • распознает отсканированную страницу (включая многоколонный текст и текст со сложным оформлением);

  • позволяет сканировать и записывать изображение как TIFF, а распознавание запускать потом (при этом удобно сканировать пачку документов);

  • имеет ассортимент возможностей по записи файлов, позволяющий сканировать серию страниц, причем программа будет осуществлять автозапись, присваивая изображениям последовательные имена (Page1, Page2, и т.д.);

  • может читать изображения, отсканированные другими программами, и факсы в режимах Fine и Normal;

  • отделяет текст от графики и преобразует его из графического образа в текстовый файл для одного из текстовых процессоров, баз данных или электронных таблиц;

  • имеет функцию «Определить область распознавания», что позволяет выборочное распознавание в отобранных частях страницы;

  • распознает буквы русского и английского алфавитов, исключая стилизованные шрифты типа готических букв;

  • распознает все широко используемые шрифты (включая полужирное и курсивное начертания, а также подчеркнутый шрифт), которые могут быть смешаны внутри страницы, даже внутри параграфа или слова;

  • может обрабатывать документы, отпечатанные типографски, на LQ и NLQ матричных принтерах, струйных, лазерных принтерах, на печатной машинке (допустимы и моноширинная, и пропорциональная печать);

  • может сохранять первоначальные форматирование и табуляцию и регулировать отступы и выравнивание;

  • имеет внутренний текстовый редактор и словарный контроль, с помощью которых можно контролировать качество распознавания и редактировать текст. Для этого окно встроенного редактора показывает распознанный текст с выделением сомнительных символов и слов, отсутствующих в словаре. В расположенном рядом окне расширения можно видеть увеличенное изображение отсканированного текста, позволяющее производить редактирование, не заглядывая в оригинальный документ;

  • не распознает рукописный текст.

Экран Сuneiform содержит четыре основные части, отмеченные на рисунке.

Основными действиями (процедурами) при работе в системе являются следующие:

Кнопка панели

Выполняемая функция

Сканирование и Распознавание Кнопка "Сканирование и Распознавание" будет полезна, если есть уверенность, что оформление документа достаточно просто и не осложнит распознавание текста (для более сложной фрагментации полезна операция "Отсканировать и показать"). При нажатии кнопки в панели быстрого доступа (или вызове команды Действие\Сканирование и распознавание) появляется окно-сообщение, дающее знать, что происходит сканирование. Далее, поле "Прогресс-индикатор" показывает текущую фазу символьного распознавания, а также общую долю выполненного распознавания в процентах. Нажатие кнопки эквивалентно выполнению команд "Отсканировать и показать" и далее "Распознавание".
Открыть образ Позволяет загрузить изображение из имеющегося графического файла (кнопкой или командой Файл\Открыть образ). В появляющемся окне необходимо выбрать имена директория и файла.
Сканировать и показать Позволяет отсканировать документ и просмотреть его (кнопкой или командой Действие\Сканирование и показ), не запуская при этом символьного распознавания. Немедленно начнется сканирование, и окно изображения отсканированного изображения появится в правой части экрана.
Распознавание Используется в случае запуска (кнопкой или командой Действие\Распознавание) символьного распознавания после выполнения действия "Отсканировать и посмотреть" или после загрузки файла.
Яркость Позволяет установить оптимальный уровень яркости для сканирования документа (кнопкой или командой Дей-ствие\ Яркость). CuneiForm предлагает 256 градаций яркости (0-255). По умолчанию ее значение равно 127. Если возникает много ошибок в распознавании из-за того что отсканированное изображение слишком светлое, нужно установить меньшую яркость и пересканировать документ. Если изображение слишком темное, необходимо установить большую яркость. Уровень яркости можно изменить следующим образом:
а) передвигая вправо и влево ползунок по шкале;
б) выставляя значение яркости автоматически. Для этого нажимают кнопку "Автоматически" в поле "Настройка яркости". Появится небольшое диалоговое поле, предлагая: "Выберите левую кнопку мыши для выбора яркости или нажмите Отмена." При перемещении курсора по изображению, он примет форму лампочки с перекрестием рядом. Далее нужно навести перекрестие в ту часть изображения, что имеет среднюю плотность символов или затемненность, а затем нажать кнопку мыши. Функция автоматической яркости обследует область вокруг выбранной оператором точки с целью определить общую установку яркости. Далее будет предложено при желании пересканировать страницу, используя новое значение яркости. Если выбрать "Да", то документ будет пересканирован. Это должно улучшить точность при повторном запуске распознавания. Можно также вызвать окно "Настройка яркости", выбрав пункт "Яркость" в меню "Действие". Независимо от того, где он установлен, текущий уровень яркости всегда отображается в левом конце статусной строки снизу экрана.
Предыдущий образ Действие выполняется нажатием кнопки или командой Файл\Восстановить предыдущий образ, чтобы вернуть последнее изображение, которое было на экране в этот сеанс работы.
Склейка страницы Используется, если есть необходимость отсканировать ручным сканером (у которого окно захвата меньше размера страницы) полный лист. По нажатию кнопки или командой Действие\Склейка страниц вызывается процесс обработки правой или верхней частей страницы в соответствии с выбранным способом склейки. Сначала вызывается TWAIN-диалог работы со сканером и сканируется соответствующая часть страницы, а затем запускается процесс распознавания. Вся цепочка действий автоматически повторяется для следующей части страницы. Следующим этапом происходит склейка этих двух распознанных частей в единый текст.

Статусная строка может включать в себя следующие основные элементы, установленные внутри главного меню: (см. рисунок).
<?xml version="1.0" encoding="UTF-16"?>

Окно Расширения предназначено для отображения части отсканированного изображения при большем увеличении. Это окно появляется на экране, когда возникает необходимость более тщательного просматривания фрагмента. Окно вызывается в меню Вид\Расширение. Увеличение в окне расширения управляется выбором меню Вид\Один к одному, 200% или 400% увеличения. Место, в котором окно Расширения появляется на экране, зависит от того, в результате каких действий оно возникло:

  • если оно вызвано по месту расположения курсора после использования «Сканировать и Показать» или после открытия файла, то оно возникнет в левой нижней части экрана;

  • если оно появляется вместе с окном «Редактор» после распознавания, то его положение зависит от оформления экрана, выбранного из меню «Окно»;

  • окно расширения можно перемещать по экрану, двигая его в режиме Drag and Drop.

Окно Ручная фрагментация используют, когда распознаваемый документ имеет сложную структуру, состоящую из более, чем одной колонки текста и/или графики.

В обычном режиме после сканирования CuneiForm автоматически фрагментирует и раскладывает изображение на блоки, которые рассматриваются как связанные, осмысленные куски текста и окружаются пунктиром при отображении в режиме «Фрагментация». Однако текстовый блок является просто набором символов и не всегда составляет законченный смысловой фрагмент.

Из-за того, что программа основывает свое разделение на промежутках, а не анализирует контекстную информацию, она не может идеально оценить, какой текст является связанным. Окно «Ручная фрагментация» обеспечивает несколько способов дополнительного создания блоков, когда автоматическая фрагментация неточна.

Режим «Фрагментация» существует как раз для исправления ошибок, сделанных в процессе автоматической фрагментации перед распознаванием. В рассматриваемом случае выбирают меню Опции\Фрагментация. При этом слово «Фрагм.» появляется справа в линии статуса. Окно «Ручная фрагментация» появится позже, после сканирования документа или вызова его из графического файла.

Помимо автоматически помеченных блоков, окно включает в себя колонку кнопок, выстроенных вдоль его левой стороны:
<?xml version="1.0" encoding="UTF-16"?>

Кнопка

Выполняемая функция

Выполнить Обеспечивает переход к выполнению распознавания после необходимых действий по фрагментации
Возврат Повтор Позволяют вернуться на один шаг и переделать последнее проделанное действие
Текст Позволяет выделить блок, содержащий, например, все части таблицы так, чтобы они слились в один фрагмент. Для этого после нажатия кнопки нужно обозначить прямоугольник вокруг выбранной области курсором. В результате создается новый блок, который при распознавании рассматривается как одно целое
Гориз. Верт. Позволяют обозначить дополнительную фрагментацию по горизонтали или вертикали. Для этого достаточно после выбора кнопки поместить курсор в нужное место и в режиме drag обозначить границу фрагментации соответственно по горизонтали или вертикали
Склеить Позволяет "склеить" фрагменты, созданные с использованием кнопок "Гориз." и "Верт.". Для этого достаточно пометить курсором склеиваемые фрагменты и выбрать кнопку "Склеить"
Удалить Позволяет удалить помеченные с помощью кнопки Текст фрагменты из процесса распознавания
Увелич. Позволяет увеличить фрагмент текста в окне "Ручная фрагментация". Для этого достаточно после выбора кнопки зафиксировать курсор в нужном месте текста и щелкнуть кнопкой мыши
Не увел. Позволяет вернуть увеличенный фрагмент текста в исходное состояние. Для этого достаточно после выбора кнопки зафиксировать курсор в выбранном месте и щелкнуть левой кнопкой мыши
Рисунок Позволяет создать новую картинку
Помощь Позволяет вызвать на экран справочную информацию об использовании кнопок управления ручной фрагментацией

Дополнительные возможности исправления ошибочного разделения на блоки в окне «Ручная фрагментация»:

  • горизонтальное разделение;

  • вертикальное разделение;

  • cклеивание.

Пусть в документе есть две колонки текста, но CuneiForm этого «не видит». Напротив, он сливает две колонки в один блок. Так как далее это может привести к проблемам в распознавании, необходимо разделить колонки по блокам:

  • нажать «Верт.» в левой части окна «Фрагментация»;

  • поместить курсор там, где предполагается начать разделение;

  • при нажатой и удерживаемой клавише мыши протащить курсор туда, где разделение должно кончиться;

  • отпустить кнопку.

CuneiForm разделит блок вертикально на два текстовых фрагмента (функция «Разделить Горизонтально» производит те же действия над текстом, который должен быть разделен горизонтально).

В некоторых случаях CuneiForm может автоматически разделить слитный кусок текста на фрагменты. Чтобы выправить это разбиение, необходимо нажать курсором на каждый из фрагментов и нажать кнопку «Склеить». Два фрагмента будут объединены в один блок.

В окне Редактор сверху находится простое меню из пяти кнопок: «Выход», «Сохранить как...», «Присоединить к ...», «След. сомнительное» и «Добавить слово». С их помощью при использовании окна редактирования удобно выполнять ряд процедур.
<?xml version="1.0" encoding="UTF-16"?>

Окно «Редактор» содержит результат распознавания. После распознавания окно редактирования накрывает изображение в окне изображения. Текст, выбираемый пользователем в окне редактирования, синхронизируется с изображением в окне расширения. При перемещении курсора в окне редактирования изображение в окне расширения сдвигается соответственно новой позиции курсора, и выбранный символ подсвечивается

Ошибки, допущенные в процессе распознавания, можно редактировать в одном из текстовых процессоров впоследствии или, используя меню «Редактор» и кнопки окна редактирования. В последнем случае с помощью меню Вид\Настройки можно для удобства редактирования подобрать размер символов, отображающихся на экране.

Для выполнения редактирования предусмотрен ряд дополнительных удобств:

  • возможность осуществить автоматизированную проверку орфографии после выбора меню Опции\Словарный контроль (при этом так называемые сомнительные, т.е. отсутствующие в словаре слова, высвечиваются на экране);

  • быстрое перемещение при словарном контроле с помощью кнопки «След. сомнит.» к очередному отсутствующему в словаре слову;

  • возможность открытия и использования словаря пользователя, импортируемого в меню Файл\Динамический словарь\ Загрузить... или Импорт...;

  • возможность добавления к словарю пользователя высвеченного при проверке, но правильного слова с помощью нажатия кнопки «Добавить слово»;

  • возможность экспорта пользовательского словаря в меню Файл\Динамический словарь\Выгрузить... или Экспорт... после его использования или пополнения.

После окончания редактирования удобно сохранить результат, нажав кнопки «Сохранить как...» или «Присоединить к...» сверху окна или через соответствующий пункт меню «Файл».

Меню команд программы СuneiForm

Меню, команда Выполняемое действие
ФАЙЛ
Открыть образ считать изображение из файла следующих форматов: TIFF 5.0, PCX, BMP, GIF, TARGA, JPEG
Восстановить пред. образ получить отсканированное и хранящееся в памяти изображение для выбора новой области распознавания (если нужно)
Запомнить образ записать изображение в формате TIFF 5.0
Открыть ED файл открыть файл с распознанным ранее текстом
Запомнить в текст записать распознанный текст в файлах определённого формата, например, ASCII, Smart ASCII, RTF, ANSI, Smart ANSI
Склеить с текстом добавить распознанный текст в конец существующего текстового файла
Выбрать из TWAIN списка выбрать сканер для использования под TWAIN-интерфейсом
Получить TWAIN образ использовать доступ к изображению через TWAIN
Динамический словарь использовать словарь пользователя
Распознающий модуль загрузить/выгрузить распознающий модуль
Выход выйти из Cuneiform
РЕДАКТОР
След. сомнительный перейти к следующему сомнительному слову
Пред. сомнительный перейти к предыдущему сомнительному слову
Отмечать сомнительные слова вкл./выкл. режим подсвечивания сомнительных слов
Поиск искать строки символов в распознанном тексте
Поиск след повторить поиск
Добавить слово легализовать слово и внести его в список
Отменить добавление сделать слово сомнительным и удалить его из списка
/

Имеется также возможность по использованию панели управления сверху окна редактирования, coстоящей из нескольких кнопок: Выход, Сохранить как..., Присоединить к..., След. сомнит. и Добавить слово/

Меню команд программы СuneiForm

Меню, команда Выполняемое действие
ДЕЙСТВИЕ
Пакетное сканирование сканировать серию страниц. В появившемся окне имеется пять основных полей: Oпции, Запоминание страницы, Cоздать документ с числом страниц, Изменять, Выходной формат. Имеется возможность по-разному комбинировать их значения в зависимости от того, имеется ли у сканера автоподатчик (feeder), нужно ли запускать распознавание перед записью, контролировать область распознавания и т.д.
Пакетное распознавание включить распознавание серии страниц. Функции полей Oпции, Изменять и Результаты идентичны соответствующим функциям в пакетном сканировании
Сканирование и Распознавание использовать сканирование и aвтоматическое распознавание документа — обычно в том случае, если оформление документа достаточно просто и не осложнит распознавание текста (для более сложной фрагментации очень полезна операция Сканирование и показ)
Cканирование и показ отсканировать документ и просмотреть его, не запуская прежде символьного распознавания. Отсканированное изображение появится в правой части экрана
Выбор языка выбрать один из возможных языков: русский (возможен русско-английский режим), английский, немецкий и французский
Склейка страницы включить режим использования ручного ска­нера с окном захвата, меньшим, чем размер страницы. При этом вызывается процесс обработки правой или верхней частей страницы в соответствии с выбором способа склейки
Распознать запустить символьное распознавание после выполнения режима Сканирование и показ или после загрузки файла с изображением
Область распознавания запустить режим распознавания какой-либо части изображения. Область вокруг необходимой части изображения обозначается с помощью мыши
Поворот повернуть изображение, появившееся на экране после сканирования или загрузки файла, на 90° влево (вправо) или на 180°
Выбор сканера выбрать тип сканера
Разрешение выбрать разрешение 200, 300 или 400 точек на дюйм (DPI)
Яркость установить оптимальный уровень яркости для сканирования документа. CuneiForm пред­лагает 256 градаций яркости (0–255). По умолчанию ее значение равно 127
ОПЦИИ
Фрагментация выделить фрагменты в случае, когда документ, предназначенный для сканирования, имеет явно сложное оформление и состоит из более чем одной колонки с текстом и/или графикой
Одна колонка настроить CuneiForm для обработки всех символов отсканированного изображения как одной колонки текста
Словарный контроль включить режим, при котором CuneiForm подсветит сомнительные слова, с которыми нужно разобраться после распознавания документа
Адаптивное Сканирование использовать все средства CuneiForm для получения наилучшего возможного изображения
Матричный принтер выбрать режим, чтобы CuneiForm распознавал документы, отпечатанные на матричном принтере
Ориентация страницы выбрать одну из четырех возможных ориентаций: Обычная страница, Страница, повернутая влево, Перевернутая страница и Страница, повернутая вправо. Если выбранная ориентация отличается от обычной, Cunei­Form поворачивает все открытые или отсканированные образы. Текущая ориентация отображается пиктограммой в левом конце статусной строки
Способ склеивания выбрать перед использованием команды Склейка страниц один из способов склеивания страницы: Вертикальный или Горизонтальный. При первом сначала будет обрабатываться левая половина страницы, а затем правая. Во втором случае — верхняя, а затем нижняя часть страницы
Иллюстрации задать режим сохранения иллюстрации вместе с текстом, как это было в исходном документе, используя формат RTF и оговаривая один из типов имеющихся иллюстраций: черно-белые, полутоновые, цветные
ВИД
Просмотр страницы

· в размер окна 
· один к одному
· 200% 
· 400%

включить/выключить окно изображения

задать режим "В размер окна" для окна изображения
задать режим без увеличения для окна изображения
задать увеличение в 2 раза для окна изображения
задать увеличение в 4 раза для окна изображения

Расширение 

· один к одному
· 200% 
· 400%

включить/выключить oкнo расширения

задать режим без увеличения для окна расширения
задать увеличение в 2 раза для окна расширения
задать увеличение в 4 раза для окна расширения

Настройки редактора установить размер букв и представления плохо распознанных символов в окне редактирования
ОКНА
Горизонтальное деление разделить экран горизонтально, так что Окно редактирования занимает верхнюю часть экрана, а Окно расширения — нижнюю
Вертикальное деление разделить экран вертикально, так что Окно редактирования находится слева, а справа — Окно расширения
Наилучший показ дать доступ к контрольной панели CuneiForm в верхнем левом углу экрана. Окно редактирования занимает правую половину экрана, а Окно расширения — левую нижнюю четверть
Показ по настройке восстановить оформление экрана, записанное при помощи следующей опции меню
Запомнить настройку зафиксировать результат перенастройки оформления экрана, выаполненной, например, с использованием стандартных процедур MS Windows

Новая версия системы распознавания Intuitia 2.0 for WindowsIntuitia 2.0 for Windows использует Омнифонт-технологияомнифонт-технологию (распознает различные шрифты без какого бы то ни было обучения). Она обеспечивает распознавание изображений текстовых материалов из файлов в форматах TIFF, PCX, BMP, а также со всех Сканерсканеров, поддерживающих протокол TWAIN, а также со сканеров семейства HP ScanJet (напрямую).

Иллюстрации исключаются из процесса распознавания автоматически и могут быть сохранены в файлах или помещены в другие приложения.

В программе используется встроенная орфографическая проверка и коррекция распознаваемого текста. Она различает и сохраняет характерные особенности шрифтового оформления текста: размеры шрифтов, их начертания.

Результаты могут быть сохранены в файлах форматов TXT, RTF, а также непосредственно перенаправлены в другие приложения Microsof Windows (например, в текстовые процессоры Microsoft Notepad, Microsoft Write, Microsoft Word или в электронную таблицу Microsoft Excel).

Система ввода и распознавания рукописных текстов PenO'Man for WindowsPenO'Man for Windows - средство рукописного ввода, распознавания и редактирования текстов при помощи пера:

  • имеется возможность ввода и редактирования как английского, так и русского слитно написанного текста во всех приложениях Windows;

  • процесс ввода аналогичен обычному использованию ручки при письме слева направо, желательно аккуратным почерком и с классическим левым наклоном;

  • редактирование уже введенного текста возможно в результате использования стандартных функций (вставке, удалению, переносу, активизации фрагментов текста и т.д.), а также простых росчерков пера.

Основные технологические характеристики системы:

  • алгоритм не зависит от конкретного языка;

  • скорость распознавания порядка 30 симв./с;

  • процент ошибок не более 2% для нормальных почерков;

  • имеются расширения системы для рукописных программ-редакторов арабских, иероглифических, церковнославянских языков, стенографии.

При работе с Программа электронного переводапрограммами электронного перевода текста используют следующую совокупность элементов:

  • текст оригинала;

  • текст перевода;

  • структуру, поддерживающую связь абзацев оригинала и перевода;

  • список зарезервированных слов или абзацев, перевод которых не требуется;

  • список незнакомых слов, отсутствующих в словарях.

Обычно документ соответствующей программы перевода (например, Stylus 3.0Stylus 3.0) автоматически образуется при открытии исходного текстового файла, подлежащего переводу. При этом создается сложная структура информации, отличная от структуры исходного файла.

Окно программы электронного перевода предназначено для осуществления всех действий над исходным текстом и переводом:Рабочее окно программы Stylus 3.0 после вызова исходного текстового файла: 1 - заголовок программы; 2 - строка меню; 3 - палитра пиктограмм «основная»; 4 - палитра пиктограмм «форматирование»; 5 - палитра пиктограмм «перевод»; 6 - палитра пиктограмм «сервис»; 7 - заголовок окна исходного файла; 8 - рабочее окно исходного файла; 9 - информационная панель

Необходимые для работы панели (если они по умолчанию отсутствуют на экране) выводятся на экран в меню ВИД\Панели инструментов.

После выполнения перевода окно автоматически разбивается на две части для одновременной визуализации на экране исходного файла и перевода. В программах обычно предусмотрены два режима разбиения рабочего окна текстового файла на части: по горизонтали и по вертикали.

Обычно рассматриваемые в данном разделе программы позволяют не только переводить на другой язык, но, в случае необходимости, редактировать исходный текст и перевод, а именно:

  • вводить новый текст;

  • вносить исправления в текст;

  • работать с блоками текста (выделять отдельные фрагменты, удалять их и изменять место расположения).

Настройка основных параметров предусматривает значительный перечень установок, выполняемых, например, в меню СЕРВИС\Параметры:Диалоговое окно, открывающееся в меню СЕРВИС\Параметры для программы Stylus 3.0

Информационная панель включает в себя три вкладки:

  • используемые словари - для отображения списка используемых словарей для выбранного направления перевода;

  • незнакомое слово - для отображения списка незнакомых слов при обработке исходного файла;

  • зарезервированные слова - для отображения списка слов, перевод которых не требуется.

Подготовка документа к переводу обычно включает в себя выполнение следующих действий, предназначенных для повышения достоверности перевода:

  • упрощение текста (рекомендуется не употреблять сложных распространенных предложений, а также образных эмоциональных выражений или устаревших и редко используемых слов и словосочетаний);

  • проверка орфографии (например, для программы Stylus 3.0 в меню СЕРВИС\Параметры\Орфография);

  • проверка правильности разбивки по абзацам. Например, в программе Stylus 3.0 предусмотрена возможность визуальной проверки правильности разбивки текста на абзацы (фактически - проверка на отсутствие лишних, пустых абзацев в тексте). Для этого нужно в меню СЕРВИС\Параметры\Цвета пометить позицию «Использовать условные значки»).

В этом случае сррециальный значок в виде незаштрихованного треугольника, устанавливаемый программой слева от каждого абзаца, фиксирует разбивку на абзацы;

  • пометка абзацев, не требующих перевода. Например, в программе Stylus 3.0 имеется возможность для исключения ненужных абзацев текста из процесса перевода. Для этого нужно после фиксации курсора в соответствующем абзаце выбрать команду ПЕРЕВОД\Оставить без перевода. Программа пометит соответствующие абзацы специальным значком в виде заштрихованного треугольника;Диалоговое окно, открывающееся в меню СЕРВИС\Параметры для программы Stylus 3.0

  • подготовка списка зарезервированных слов. Например, в программе Stylus 3.0 к таким словам относят слова или сочетания типа Windows, MS Word и др., которые не требуют перевода. Список зарезервированных слов может храниться в специальном файле. Для создания этого файла можно после выделения соответствующего слова задать команду ПЕРЕВОД\ Зарезервировать. Для сохранения файла нужно перейти в информационной панели на вкладку «зарезервированные слова», выбрать из контекстного меню команду «сохранить список» и задать имя файлу.

© Центр дистанционного образования МГУП