О чём рассказывается в презентации:
Презентация посвящена технологии HTR, которая революционизирует процесс цифровизации архивных документов. С помощью ИИ и глубокого обучения, HTR позволяет эффективно обрабатывать рукописные тексты, которые составляют 80% неоцифрованных исторических материалов. Эта технология значительно ускоряет доступ к информации, решая проблемы, связанные с разнообразием почерков и состоянием документов. Интеграция HTR в архивные платформы открывает новые горизонты для исследований и анализа.
Оглавление
ИИ в сканировании архивных документов: Технология HTR
Архивы хранят миллиарды рукописных страниц, требующих цифровизации
OCR эффективно распознает печатный текст с точностью свыше 95%
ИИ ускоряет обработку архивных сканов в 10-100 раз
Рукописные архивы составляют 80% неоцифрованных исторических документов
Разнообразие скриптов снижает точность распознавания до 50%
Нехватка данных тормозит обучение HTR-моделей
Традиционные методы требуют ручной верификации 70% транскрипций
Как HTR преобразует рукописные сканы в searchable текст?
HTR сочетает CNN для извлечения признаков и RNN для последовательностей
Transformer-модели превосходят LSTM на 20-50% в out-of-the-box режиме
PyLaia, HTR+ и IDA лидируют после fine-tuning на не-латинских скриптах
Fine-tuning на целевых датасетах снижает CER до 5-10%
HTR для русских архивов достигает CER 8.5% на 38 тыс. строк
Синтетические данные и few-shot learning минимизируют нужду в больших корпусах
HTR ускорит доступ к архивам, сократив время на 90%
HTR: Ключ к цифровому будущему архивов
Спасибо за внимание!


