Вернуться к списку проектовНа главную страницу курса
Заказчик
Рогов Александр Александрович, профессор, д.т.н., зав. кафедрой теории вероятностей и анализа данных. Эл. почта: rogov@psu.karelia.ru. Раб.тел: 719621.Инструктор
Гнеушева Наталья ВладимировнаАннотация проекта
Оцифровка изображения - наиболее привлекательный способ сохранить любой старинный текст. Однако с увеличением запросов на доступ к данным источникам делать неудобным хранение документов в растровом формате. Документ необходимо переводить в векторный формат, а для этого требуется произвести распознавание текста данного документа.
Как правило распознавание состоит из следующих этапов:
- предобработка (бинаризация изображения)
- сегментирование (выделение областей отдельных графем, слов, строк)
- анализ растровых изображений символов, т.е. их классификация
- выбор наиболее подходящих словоформ в зависимости от языка
Сложность данной задачи обуславливается следующими факторами:
- отсутствуют люди, владеющие оригинальной стенографической записью (правила стенографической записи описаны только в учебнике)
- стенографист может использовать свои нестандартные обозначения, не описанные в учебнике
- в стенографической записи применяется метод пропуска гласных букв
- наиболее часто повторяющиеся сочетания символов заменяются одной графемой
- некоторые символы похожи друг на друга, но могут обладать совершенно разным значением
Поэтому вместо автоматического распознавания предлагается система автоматизированного распознавания рукописного текста.
Основные характеристики данной системы
- идея работы система построена на использовании виртуальной клавиатуры оригинальных символов
- клавиатура представляет собой таблицу соответствия оригинальных графем буквосочетаниям
- множество графем формируется методом сегментации на основе учебника, а также оригинальных рукописей, для которых уже есть расшифровки
- таблица формируется оператором на основе множества графем, учебника и расшифрованных стенограмм.
- пользователю предлагается удобный и наглядный интерфейс для быстрого набора текста оригинальными символами
- интерфейс основан на визуальном соответствии набираемого текста оригинальному растровому изображению
- система автоматически преобразует набранный текст в символьный на основе таблицы соответствия буквосочетаний.
- система автоматически контролирует состояние набора
- взаимодействие с пользователем происходит за счет обратной связи
- система выдает пользователю:
- возможные варианты слова,
- варианты его перевод,
- а также указывает на ошибки в случае если они есть
- набор текста оптимизирован благодаря наличию горячих клавиш
Основные преимущества данной системы
- ускоренный набор
- связь графического изображения текста и его текстового представления
- Интеллектуализированный набор
Разработчики
- Макаров Андрей Юрьевич, 22303
- Илле Кристина Николаевна, 22303
- Рогова Таисия Александровна, 22303
- Слесарев Сергей Алексеевич, 22303
- Тушина Алина Николаевна, 22303