Размер:
A A A
Цвет: C C C
Изображения Вкл. Выкл.
Обычная версия сайта

СТРУКТУРНАЯ РАЗМЕТКА БУРЯТСКИХ СТАРОПИСЬМЕННЫХ СОЧИНЕНИЙ ДЛЯ ДИАХРОНИЧЕСКОГО КОРПУСА БУРЯТСКОГО ЯЗЫКА

DOI 10.30792/2304-1838-2019-106-117

СТРУКТУРНАЯ РАЗМЕТКА БУРЯТСКИХ СТАРОПИСЬМЕННЫХ СОЧИНЕНИЙ ДЛЯ ДИАХРОНИЧЕСКОГО КОРПУСА БУРЯТСКОГО ЯЗЫКА

РИНЧИНОВ Олег Сергеевич
Институт монголоведения, буддологии и тибетологии СО РАН
Улан-Удэ, Россия
orinch2@mail.ru

В статье рассмотрены вопросы подготовки текстовых данных для диахронического корпуса бурятского языка на основе бурятских летописей, написанных на старомонгольской письменности. Обсуждены основные параметры структурной разметки текстовых данных, выполненной на основе пунктуационных маркеров, вводимых при латинизированной транслитерации текстов. Эти параметры позволяют сохранить общую структуру сочинения и контексты каждого словоупотребления. Показана структура основных таблиц корпусной базы данных. Приведены некоторые количественные оценки корпуса.
Ключевые слова: бурятские летописи, диахронический корпус, транслитерация, пунктуация, структурная разметка.

STRUCTURAL MARKUP OF THE MONGOLIAN-SCRIPT BURYAT CHRONICLES FOR THE DIACHRONIC CORPUS OF BURYAT LANGUAGE

RINCHINOV Oleg Sergeevich
Institute for Mongolian, Buddhist and Tibetan Studies of the
Siberian Branch of the Russian Academy of Sciences (IMBTS SB RAS)
Ulan-Ude, Russia

The article deals with the preparation of textual data for the diachronic corpus of the Buryat language based on Buryat chronicles written in Mongolian script. Discussed are the main parameters of the structural markup of text data based on punctuation markers introduced during Latin transliteration of texts. These parameters allow to represent the overall structure of the essay and the contexts of each word entry. The structure of the main tables of the corpus database and some quantitative estimates of the corpus are given.
Keywords: Buryat chronicles, diachronic corpus, transliteration, punctuation, structural markup.