Home

Риксдорфские проповеди

«Риксдорфские проповеди»: Распознавание почерка и лингвистическое установление авторства

Институт славистики Берлинского университета им. Гумбольдта изучает чешскоязычные рукописи из чешской деревни Риксдорф в Берлине XVIII века и использует аналитические компьютерные программы, чтобы выяснить, как менялся язык, и проследить культурный обмен. Междисциплинарный исследовательский проект финансируется Фондом Volkswagen в рамках инициативы «Mixed Methods» («смешанные методы») в гуманитарных науках.

Около 5000 страниц, написанных от руки, были созданы между 1740 и 1830 годами – документы, в которых описывается жизнь небольшой, первоначально чешскоязычной общины религиозных беженцев из Богемии. Предысторией ее возникновения является бегство около 350 верующих гуситов из Восточной Богемии, которые нашли новый дом в Берлине-Риксдорфе в 1737 году. Их записи хранятся в архиве в Берлине-Нойкельн.

В сочетании двух методологических направлений – текстологии и распознавания изображений – должны быть найдены и протестированы значимые характеристики для следующих областей задач:

  • Установление авторства большого количества текстов
  • Раскрытие текстовых наслоений с помощью дифференциации авторов
  • Поиск и количественная оценка повторяющихся фрагментов текста
  • Определение текстуально важных с исторической точки зрения особенностей шрифта

Центральной задачей MusterFabrik Berlin является при этом разработка методов анализа контекстно-зависимой структуры шаблонов изображений в оцифрованных рукописях с целью получения качественных выводов об авторах и содержании проповедей.

Для достижения этой цели разработка и применение методов искусственного интеллекта в оцифрованных материалах должны обеспечивать выявление повторяющихся шаблонов изображений, как, например, контекстные ссылки в виде отдельных букв, слов или словосочетаний и их позиции в общей структуре. Исходя из этого, должна быть получена так называемая структурированная сеть шаблонов изображений, которая описывает обнаруженные повторяющиеся шаблоны изображений, их количество и их связанную с положением связь друг с другом. На основе полученных данных в сотрудничестве со специалистами Университета им. Гумбольдта в Берлине будет проведен качественно-содержательный анализ рукописей. В то же время контекстно-зависимые отношения, автоматически определяемые заранее с помощью методов машинного обучения, должны быть проанализированы, чтобы определить, можно ли на их основе сделать какие-либо значимые выводы.

Для проведения такого структурного анализа на первом этапе должны быть выявлены подходящие характеристики изображения для последующей структурной оценки. На основе этого должен быть разработан модуль для обнаружения шаблонов изображения. Кроме того, должны быть разработаны методы машинного обучения для позиционного связывания и контекстно-зависимого анализа материала. Наконец, в кооперации с сотрудниками Универстета им. Гумбольдта в Берлине должен быть проведет качественный анализ в отношении выводов на основе полученных результатов.

 

Проект финансируется Фондом Volkswagen:

 

 

 

партнеры проекта

О нас