«Манускрипт. Распознать нельзя забыть: как мы научили нейросеть читать рукописи XIX века»

Manuscript OCR — открытая нейросеть для чтения рукописей XIX века

Мы обучили свою OCR-модель распознавать дореформенную кириллицу, нестандартные почерки и сложные сканы. Всё — на собственных данных, с нуля. В статье — как мы это сделали и ссылки на репозиторий с кодом.

Открыть рукопись

📌 Похожие новости

Нет изображения

Как я собрал AI-ассистента для отца с больным сердцем: Tool-Calling RAG Pipeline на GPT-4o-mini без LangChain

Мой отец — человек, переживший несколько сложнейших операций на сердце. Жизнь с хроническим...

29.10.2025 12:16
Нет изображения

Добавление OCR-слоя и другие преобразования PDF

При сканировании и сохранении в формате PDF зачастую документы сохраняются в виде графических...

24.08.2025 18:07
Нет изображения

Распознавание текста на изображении и общение с распознанным текстом. Paddle OCR + LLM

Данная статья описывает процесс создания проложения для распознавания текста на изображении и...

05.08.2025 08:00
Как выглядел Boeing 377 Stratocruiser, самый большой пассажирский самолет в мире

Как выглядел Boeing 377 Stratocruiser, самый большой пассажирский самолет в мире

Этот 34-метровый самолет был в эксплуатации американских авиалиний с 1949 по 1963. Предлагаем...

09.07.2025 06:50
Нет изображения

Как мы научили нейросети читать паспорта: история борьбы с бликами, водяными знаками и кривыми фото

Привет, Хабр! Если вы когда-либо сталкивались с автоматическим распознаванием документов, то...

03.07.2025 16:03
Нет изображения

Чего не понимают 90% интеграторов

Привет, меня зовут Иван. Мой карьерный путь довольно тернист: работал на производстве оператором...

28.06.2025 13:15