Мультимедийный бесермянский корпус


Вы находитесь на главной странице мультимедийного (аудио- и видео-) корпуса языка бесермян — малочисленного коренного народа, проживающего в основном на северо-западе Удмуртии. Бесермянский — уральский язык пермской группы, близкородственный удмуртскому.

Подробнее К поиску

Корпуса удмуртского языка расположены здесь.

Мультимедийный бесермянский корпус

Включить/выключить навигацию

Бесермянский язык

Язык бесермян принадлежит к пермской группе уральских языков. На нём говорят примерно 2000 человек, которые живут в основном на северо-западе Удмуртии. К сожалению, число говорящих стремительно уменьшается, поскольку передача языка младшему поколению полностью остановилась между 2000 и 2005 годами.

Бесермянский традиционно рассматривался как наречие удмуртского языка (а также как единственный диалект в составе этого наречия). Лингвистическая разница между бесермянским и удмуртским не очень велика, особенно в сравнении с северными удмуртскими диалектами. Тем не менее, бесермяне отличают свой язык от удмуртского и считают его важным фактором национальной идентичности. Бесермянский фактически признан в Удмуртии языком, отличным от удмуртского. День бесермянского языка и письменности отмечается в Удмуртии 21 октября. Официальной бесермянской орфографии на данный момент не существует. Те, кто пишет по-бесермянски, используют незначительно отличающиеся варианты, в целом основанные на удмуртской кириллице. На данный момент по-бесермянски опубликовано две книги: Вортча мадьёс (В. Ар-Серги, Р. Дюкин) и Пичи принц (перевод Р. Дюкина).

Все морфологические грамматические категории выражаются суффиксально и агглютинативно, префиксы имеют только неопределённые и отрицательные местоимения. Следов сингармонизма, который предположительно имел место в прауральском языке, в бесермянском не осталось. Именные грамматические категории включают число, падеж и посессивность. Глаголы различают четыре морфологических времени (прямое и эвиденциальное прошедшее, настоящее и будущее) и индексируют лицо и число субъекта. Прямое дополнение маркируется номинативом или аккузативом, в зависимости от одушевлённости, референциального статуса и других факторов (дифференциальное объектное маркирование). Порядок слов в предложении относительно свободный, основным является SOV (подлежащее – прямое дополнение – глагол).

Характеристики корпуса

Язык бесермянский (ранее классифицировался как диалект удмуртского); русский (переключение кодов и некоторые реплики лингвистов)
Размер Корпус содержит полные расшифровки записей, включая фрагменты на русском языке. Объём корпуса по состоянию на март 2025 г. составляет:
- только бесермянские слова носителей, не считая переключения кодов: 235 тыс. словоупотреблений;
- все слова носителей: 256 тыс. словоупотреблений;
- все слова, включая реплики удмуртов, бесермян-неносителей и лингвистов: 289 тыс. словоупотреблений
По умолчанию поиск производится только в бесермянских репликах носителей.
Тексты Выровненные со звуком расшифровки аудио- и видеозаписей. В основном это тексты, записанные в ходе экспедиций в деревню Шамардан, начавшихся в 2003 году. Несколько записей, сделанных в нескольких деревнях в первой половине 2000-х, были предоставлены Н. М. Люкиной.
40% текстов (по количеству словоупотреблений) представляют собой свободные диалоги, 35,9% — диалоги, записанные в ходе экспериментов на референциальную коммуникацию, 24% — монологи (в основном интервью, в которых лингвист выступает в роли слушателя, но также рассказы о событиях или устные переводы с русского), 0,1% — песни.
94% текстов записаны в Шамардане, остальные — в Ворце, Пышкете, Турчино, Абашево и Ёжевском починке.
Разметка
  • Переводы предложений на русский язык, включая комментарии, необходимые для понимания контекста.
  • Переводы предложений на английский язык. Переводы выполнены с помощью автоматического переводчика DeepL на основе русского перевода. На данный момент лишь небольшая часть переводов выверена вручную.
  • Автоматическая морфологическая разметка (лемматизация, часть речи, все словоизменительные категории) с помощью uniparser_beserman_lat, 97% словоформ имеют хотя бы один разборучитываются слова, не содержащие цифр и латинских символов. Поскольку анализатор основан на правилах, имеется омонимия, то есть одна словоформа может иметь несколько разных вариантов разбора.
  • Частичное снятие омонимии с помощью правил Constraint Grammar.
  • Разметка русских заимствований.
  • Разметка нескольких лексико-семантических классов: одушевлённость/личность, части тела, транспорт, разные классы имён собственных.
  • Разметка переходности глаголов и (частично) их моделей управления.
  • Глоссирование.
  • Переводы лемм на русский и английский языки.
Метаданные
  • название текста
  • дата (как минимум год) записи
  • место записи
  • жанр и поджанр
  • коды говорящих
  • коды лингвистов, участвовавших в записи и расшифровке
  • пол говорящего
  • место рождения говорящего
  • год рождения говорящего

Система транскрипции на основе латинской графики, использованная при расшифровке текстов в силу экспедиционной традиции и включённая по умолчанию, несколько отличается от стандартных. Символы с диакритиками можно набирать с помощью виртуальной клавиатуры. В настройках корпуса (кнопка с колёсиком слева сверху) можно выбрать другую систему транскрипции: UPA (уральский фонетический алфавит / финно-угорская транскрипция), кириллица и IPA (международный фонетический алфавит). Транслитерация в эти системы осуществляется автоматически и, как следствие, может содержать неточности.

Реплики по-русски и фрагменты реплик, которые авторы корпуса сочли переключением кодов, расшифрованы по-русски в стандартной русской орфографии.

Ниже мы приводим соответствие между системой транскрипции, использованной в корпусе, UPA (в варианте, традиционно используемом в удмуртоведении), IPA и фонетической транскрипцией на основе кириллицы (также в варианте, традиционно используемом в удмуртоведении).

Согласные

корпусUPAIPAкириллица
mmmм
nnnн
ńн'
pppп
bbbб
tttт
dddд
tʼ / t́т'
dʼ / d́д'
kkkк
gggг
sssс
zzzз
ššʂш
žžʐж
šʼśɕс'
žʼźʑз'
wwў
fffф
xχxх
jjjй
rrrр
lllл
lʼ / ĺл'
cct͡sц
čʼčʼ / č́t͡ɕч
(č)(č)(t͡ʂ)(ӵ)
ǯʼǯʼ / ǯ́d͡ʑӟ
(ǯ)(ǯ)(d͡ʐ)(ӝ)

В других палатализованных согласных, маргинально встречающихся в спонтанных русских заимствованиях, палатализация также отмечается знаком ʼ.

Гласные

корпусUPAIPAкириллица
aaaа
əə̑ʌъ
oooо
uuuу
ɤɘӧ
eeeэ
ɨɨы
iiiи

Участки записи, которые нам не удалось однозначно расшифровать, обозначены как [нрзб]. Фрагменты, где мы не полностью уверены в расшифровке, взяты в расшифровке в квадратные скобки. Фальстарты (начатые, но не законченные слова) отмечаются знаком =. Они отображаются в поисковой выдаче, но поиск по ним невозможен. В некоторых местах имена и другие личные данные заменены на <NAME> из соображений конфиденциальности. В переводах информация, отсутствующая в оригинале, заключена в квадратные скобки (если она вставлена как часть предложения) или в круглые скобки.

Что такое корпус?

Корпусом языка называется коллекция текстов на этом языке, снабжённая дополнительной лингвистической информацией (разметкой, или аннотацией) и поисковым механизмом. Краткое введение в языковые корпуса и корпусную лингвистику можно посмотреть в интервью академика В. А. Плунгяна на ПостНауке.

— Кому нужны корпуса?

В первую очередь, корпуса нужны лингвистам — исследователям, изучающим конкретные языки или язык в целом. Поисковая система и разметка корпусов сконструированы таким образом, чтобы в них можно было задавать лингвистические запросы вроде «найти все существительные в родительном падеже» или «найти все формы слова пөнө перед глаголами». Кроме того, корпуса могут пригодиться преподавателям языка (в корпусах, например, можно находить примеры для упражнений), а также изучающим язык и самим носителям языка.

— Можно ли использовать корпус как библиотеку?

Основной режим работы с корпусом таков: пользователь задаёт запрос — ищет какое-либо слово, фразу или конструкцию, — а корпус выдаёт в ответ все предложения, в которых встречаются искомые слова. По умолчанию предложения выдаются в перемешанном порядке. При желании у каждого предложения можно расширить контекст, т. е. показать соседние с ним предложения. Тем не менее, над каждым примером есть кнопка в виде книжки, при нажатии на которую откроется полный текст.

— Можно ли использовать корпус как словарь?

У каждого бесермянского слова в корпусе есть переводы на русский и английский языки. Однако это всего лишь вспомогательная информация для тех, кто не владеет бесермянским языком. Переводы слов в корпусе специально укорочены, не отражают всех оттенков значения и не содержат примеров употреблений.

— Что такое морфологическая разметка и как она сделана?

В представленном здесь корпусе имеется лемматизация и морфологическая разметка. Лемматизация означает, что при каждой словоформе указана её лемма, то есть начальная форма. Морфологическая разметка означает, что для каждой словоформы указаны её грамматические характеристики: часть речи, число, падеж, время и т. п. Разметка производилась автоматически при помощи специальной программы — морфологического анализатора. Анализатор, в свою очередь, использует составленный вручную грамматический словарь и формализованное описание бесермянского словоизменения. Анализатор вместе со словарём свободно распространяется и доступен на гитхабе. Использование автоматической разметки, к сожалению, означает, что, во-первых, отсутствующие в словаре слова останутся неразобранными, а во-вторых, что в некоторых случаях возникнет омонимия. Например, увидев форму каре, анализатор не может понять, является ли это притяжательной формой 1 л. ед. ч. от слова кар («мой город»), формой латива от того же слова («в город») или вообще формой глагола карөнө «делать». Омонимия частично снимается при помощи контекстных правил, составленных вручную. Русские предложения (переводы) были размечены автоматически с помощью анализатора mystem.

Разметка

Лемматизация

Леммой для существительных, реляционных имён, местоимений и прилагательных является морфологически немаркировання форма, т.е. непосессивная форма именительного падежа единственного числа. Леммой для глаголов является инфинитив.

Словоформы, содержащие продуктивные деривации, лемматизируются без этих дериваций, если соответствующая лемма существует. Для существительных это проприетивы на и на -ем и каритивный атрибутивизатор на -тэм. Например, сяськаё 'с цветком / цветами' считается формой лексемы сяська 'цветок' и отмечается как существительное. Для глаголов это итератив (-өл/-лля), детранзитив (-(и)ськ) и регулярный каузатив (на -(ө)т, но не на -эт и не на у глаголов спряжения не на ), а также мультипликатив () в тех случаях, когда он следует за каузативом.

Грамматические тэги

Грамматические значения при каждом слове указываются с помощью специальных помет — тэгов. Ниже приводится полный список используемых тэгов для бесермянского языка в алфавитном порядке (внутри каждой из трёх категорий) с расшифровкой.

Части речи

  • A — прилагательное
  • ADV — наречие
  • CONJ — союз
  • IDEO — идеофон (изобразительное слово)
  • INTERJ — междометие
  • N — существительное
  • NUM — числительное
  • PART — частица
  • POST — послелог (неизменяемый)
  • PRED — предикатив
  • PRO — местоимение
  • RELN — реляционное имя (изменяемый послелог)
  • V — глагол

Лексико-семантические классы

  • I — 1-е спряжение (не на )
  • II — 2-е спряжение (на )
  • PN — имя собственное (подтип существительного)
  • act_prs_0 — глагол, акциональные характеристики которого не допускают его использования в наст. вр., за исключением хабитуальных контекстов и praesens historicum (размечено не для всех глаголов)
  • act_prs_mp — глагол, допускающий только акциональную интерпретацию MP (мультипликативный процесс) в наст. вр. (размечено не для всех глаголов)
  • act_prs_p — глагол, допускающий только акциональную интерпретацию P (процесс) в наст. вр. (размечено не для всех глаголов)
  • act_prs_s — глагол, допускающий только акциональную интерпретацию S (состояние) в наст. вр. (размечено не для всех глаголов)
  • act_pst_es — глагол, допускающий только акциональную интерпретацию ES (вхождение в состояние) в прош. вр. (размечено не для всех глаголов)
  • act_pst_es_mp — глагол, допускающий только акциональные интерпретации ES (вхождение в состояние) и MP (мультипликативный процесс) в прош. вр. (размечено не для всех глаголов)
  • act_pst_es_mp_ep — глагол, допускающий только акциональные интерпретации ES (вхождение в состояние), MP (мультипликативный процесс) и EP (вхождение в процесс) в прош. вр. (размечено не для всех глаголов)
  • act_pst_es_p — глагол, допускающий только акциональные интерпретации ES (вхождение в состояние) и P (процесс) в прош. вр. (размечено не для всех глаголов)
  • act_pst_es_s — глагол, допускающий только акциональные интерпретации ES (вхождение в состояние) и S (состояние) в прош. вр. (размечено не для всех глаголов)
  • act_pst_mp — глагол, допускающий только акциональную интерпретацию MP (мультипликативный процесс) в прош. вр. (размечено не для всех глаголов)
  • act_pst_p — глагол, допускающий только акциональную интерпретацию P (процесс) в прош. вр. (размечено не для всех глаголов)
  • act_pst_s — глагол, допускающий только акциональную интерпретацию S (состояние) в прош. вр. (размечено не для всех глаголов)
  • anim — одушевлённое существительное
  • body — часть тела
  • famn — фамилия или родовое имя, не совпадающее с личным именем предка
  • hum — существительное, означающее человека
  • impers — безличный глагол
  • indef — неопределённое местоимение на -ке или оло-/о-
  • indef_ke — неопределённое местоимение на -ке
  • indef_olo — неопределённое местоимение на оло-/о-
  • intr — непереходный глагол
  • nation — существительное, означающее народ
  • neg — отрицательная глагол (элемент из небольшого закрытого списка; часть отрицательной конструкции, выражающая время, лицо и в некоторых случаях число)
  • oblin — облинатив (прилагательное со значением 'испачканный/заполненный X-ом' на -эсь)
  • occupation — существительное, означающее профессию или социальную роль
  • patrn — отчество
  • persn — личное имя
  • refl — возвратное местоимение
  • rel_adj — реляционное прилагательное
  • rus — лексическое заимствование из русского или через русский
  • supernat — существительное, означающее сверхъестественное существоТакая категория неизбежно возникает при классификации по одушевлённости/личности. Поскольку непонятно, классифицировать ли такие случаи как существительные, обозначающие людей, мы вводим для них отдельную категорию, оставляя таким образом пользователю возможность выбора.
  • time_meas — единица измерения времени
  • topn — топоним
  • tr — переходный глагол
  • transport — транспорт
  • with_dat — глагол, использующийся с дативом (размечено не для всех глаголов)
  • with_el — глагол, использующийся с элативом (размечено не для всех глаголов)
  • with_gen2 — глагол, использующийся со вторым генитивом (размечено не для всех глаголов)
  • with_inf — глагол, использующийся с инфинитивом (размечено не для всех глаголов)
  • with_ins — глагол, использующийся с инструменталисом (размечено не для всех глаголов)
  • with_lat — глагол, использующийся с лативом (размечено не для всех глаголов)
  • with_loc — глагол, использующийся с локативом (размечено не для всех глаголов)

Словоизменение и продуктивное словообразование

  • 1 — 1-е лицо глагола
  • 1pl — притяжательный суффикс 1 л. мн. ч.
  • 1sg — притяжательный суффикс 1 л. ед. ч.
  • 2 — 2-е лицо глагола
  • 2pl — притяжательный суффикс 2 л. мн. ч.
  • 2sg — притяжательный суффикс 2 л. ед. ч.
  • 3 — 3-е лицо глагола
  • 3pl — притяжательный суффикс 3 л. мн. ч.
  • 3sg — притяжательный суффикс 3 л. ед. ч.
  • acc — аккузатив (винительный падеж)
  • adv — адвербиалис (падеж на )
  • advloc — пространственное дистрибутивное числительное ('в N местах', -эть)
  • advtemp — временное числительное ('N дней', -ой)
  • app — аппроксиматив (падеж на -лань)
  • attr — любой продуктивный атрибутивизатор (деривация, образующая прилагательное от существительного)
  • car — каритив (падеж на -тэк, также называемый абэссивом)
  • car_attr — каритивный атрибутивизатор (-тэм)
  • case_comp — двойное падежное маркирование
  • caus — каузатив (побудительный залог)
  • comp — клитика сравнительной степени / аттенуативности =гес
  • cond — кондиционал (условное наклонение)
  • cvb — общее деепричастие (-(и/ө)са)
  • cvb_ku — деепричастие одновременности на -ку (считается удмуртским, но изредка встречается в текстах)
  • cvb_lim — деепричастие предела ('до / вместо X') на -тчозь
  • cvb_neg — отрицательное деепричастие (-тэк)
  • cvb_onja — деепричастие одновременности на -(о)ння-
  • cvb_sim — любое деепричастие одновременности
  • dat — датив
  • deb — дебитив (финитный) или дебитивное причастие на -(о)но
  • delim — делимитативная деривация существительных и числительных ('за какой-то период') с суффиксом -скын
  • detr — детранзитив (понижающая актантная деривация на -(и)ськ; в некоторых работах называется пассивом)
  • egr — эгрессив (падеж на -исен)
  • el — элатив (падеж на -өсь/-ись)
  • exhst — экзостивное/агрегативное числительное ('все N', -на)
  • fut — будущее время
  • gen — генитив (родительный падеж)
  • gen2 — 2-й генитив (падеж на -лэсь/-лөсь, в удмуртоведении традиционно называемый аблативом)
  • imp — императив
  • inf — инфинитив
  • inf_cess — инфинитив прекращённого действия (-(э/ө)мөсь, из NMLZ-EL)
  • ins — инструменталис (творительный падеж)
  • iter — итератив (глагольная деривация на -өл/-лля, в удмуртоведении традиционно называемая фреквентативом)
  • lat — латив (падеж на -э/-ө, в удмуртоведении традиционно называемый иллативом)
  • loc — локатив (падеж на -өн, в удмуртоведении традиционно называемый инэссивом)
  • mult — мультипликатив (глагольная деривация на ; является продуктивной только после каузатива)
  • nmlz — любая номинализация (или омонимичное ей причастие)
  • nmlz_em — номинализация на -(э)м (или омонимичное ей причастие прошедшего времени)
  • nmlz_neg — отрицательная номинализация на -(ө/э)мтэ (или омонимичное ей отрицательное причастие)
  • nmlz_on — номинализация на -(о)н (или омонимичное ей причастие со значением хабитуалиса/предназначения)
  • nom — номинатив (именительный падеж) или неоформленный аккузатив
  • ord — порядковое числительное
  • pl — множественное число
  • poss_comp — притяжательность при двойном падежном маркировании
  • prol — пролатив (падеж на -ти)
  • prop_em — проприетивная деривация на -ем
  • prop_o — проприетивная деривация на
  • prs — настоящее время
  • pst — (первое/очевидное) прошедшее время
  • pst2 — второе (неочевидное) прошедшее время
  • ptcp_act — действительное причастие (на -(и/ө)сь)
  • ptcp_act_neg — отрицательное действительное причастие (на -(и/ө)сьтэм)
  • ptcp_hab_neg — отрицательное причастие хабитуалиса/предназначения (на -(о)нтэм)
  • rcs — рецессив (падеж на -ласен)
  • res — результатив (финитная форма глагола на -мөн)
  • sg — единственное число
  • term — терминатив (падеж на -озь)

Набор тэгов для русского языка (в русских переводах) можно посмотреть на сайте Национального корпуса русского языка.

Авторы

Начиная с 2003 года, тексты корпуса записывались и расшифровывались в поле многочисленными участниками экспедиций. Подавляющее большинство текстов корпуса (около 80%) записано Марией Усачёвой и Тимофеем Архангельским (в некоторых случаях совместно с другими лингвистами). Им же, а также носительнице бесермянского языка Марии Берсеневой, принадлежит подавляющее большинство расшифровок и переводов текстов на русский язык. Ольга Бирюк, Руслан Идрисов, Мария Черемисинова, Николай Филиппов и Юлия Зубова также внесли большой вклад в запись и расшифровку текстов. Тимофей Архангельский осуществляет техническую поддержку корпуса и отвечает за коррекцию сделанных ранее расшифровок. Выравнивание со звуком (ELAN) текстов, расшифрованных до 2015 г. без привязки к звуку, выполнила Марина Панкова. Большую часть выравнивания остальных текстов со звуком осуществил Тимофей Архангельский.

Благодарности

Авторы корпуса выражают глубокую благодарность бесермянскому сообществу и всем консультантам из деревни Шамардан, без чьего многолетнего труда создание этого корпуса было бы невозможно.

Сбор и обработка данных корпуса частично финансировалась из грантов, в частности, РГНФ №16-24-17003 «Интегральный анализ именной группы в финно-угорских языках: поддержание референции и кодирование информационной структуры высказывания» и РФФИ №20-512-14003 «Языковое разнообразие в Поволжском языковом союзе. Типология грамматических явлений и языковые контакты».

Подготовка версии корпуса, опубликованной в 2025 г., была поддержана грантом Deutsche Forschungsgemeinschaft (DFG, Немецкий исследовательский фонд) – проект № 428175960 (Тимофей Архангельский).

Контакты


Если у Вас есть вопросы, Вы хотели бы предложить сотрудничество или Вы заметили ошибку в корпусе, пожалуйста, напишите об этом Тимофею Архангельскому. Кроме того, Вы можете использовать по своему усмотрению свободно распространяемые бесермянский морфологический анализатор и корпусную платформу tsakorpus.