“Беларуская мова ў свеце тэхналагічных кампаній лічыцца low-resource мовай. Гэта значыць, што для яе недастаткова дадзеных – тэкстаў, аўдыя і карыстальніцкіх запытаў, якія патрэбныя для развіцця. І справа не толькі ў тэхналогіях. Важную ролю адыгрываюць і паводзіны карыстальнікаў”.
З вамі рубрыка “ПрыСутнасць”. Тут друкуем меркаванні экспертаў у культуры з Беларусі і з замежжа. Пра тое, што ім баліць як прафесіяналам і як беларусам, пра іх адкрыцці, развагі і назіранні, іх думкі і высновы.
Запрашаем і вас да сумеснага роздуму. Калі вы гатовыя падзяліцца ўласнымі назіраннямі, уражаннямі, пішыце нам: media@byculture.org
У гэтай публікацыі ананімны аўтар разважае пра тое, чаму беларуская мова пры параўнальна вялікай колькасці патэнцыйных карыстальнікаў пакуль што застаецца ў лічбавым свеце прывідам. Дарэчы, дапамагчы зрабіць яе больш бачнай можа літаральна кожны і кожная з нас.
*Меркаванні аўтараў могуць не супадаць з пазіцыяй Беларускай Рады культуры.
***
У свеце digital беларуская мова існуе “паміж радкоў”. Яна ёсць, але не заўсёды бачная ў інтэрфейсах, наладах, алгарытмах і рэкамендацыях. Галасавыя асістэнты могуць памыляцца ў словах, сэрвісы – не прапаноўваць мову ў выбары, платформы – не падтрымліваць кантэнт на тым узроўні, на якім мы прывыклі бачыць іншыя мовы.
Чаму так адбываецца?
Адной з ключавых прычын з’яўляецца тое, што беларуская мова сёння лічыцца low-resource мовай. Гэта значыць, што для яе недастаткова дадзеных – тэкстаў, аўдыя і карыстальніцкіх запытаў, якія патрэбныя для развіцця сучасных тэхналогій. Але справа не толькі ў тэхналогіях. Важную ролю адыгрываюць і паводзіны саміх карыстальнікаў.
Паводле розных ацэнак, менш за 10% беларусаў рэгулярна выкарыстоўвае беларускую мову ў паўсядзённым жыцці. Значная частка аўдыторыі спажывае кантэнт на рускай мове – у тым ліку на платформах накшталт YouTube.
З пункту гледжання тэхналагічнай кампаніі ўсё выглядае проста: калі карыстальнікі ўжо актыўна ўзаемадзейнічаюць з кантэнтам на іншай мове, патрэба ў асобнай лакалізацыі зніжаецца.
У выніку ўзнікае эфект “паглынання попыту”: беларуская мова нібыта ёсць, але яе выкарыстанне часткова замяшчаецца іншай мовай, якая ўжо добра падтрымліваецца ў прадукце. Пры гэтым сітуацыя паступова змяняецца. Напрыклад, YouTube ужо дае магчымасць ствараць субтытры па-беларуску. Але пакуль гэта хутчэй дадатковая функцыя, чым паўнавартасная падтрымка, бо якасць такіх інструментаў пакуль не ідэальная.
Колькі каштуе лакалізацыя? Хто за гэта плаціць?
З боку карыстальніка лакалізацыя выглядае проста: “дадайце мову ў налады”. З боку тэхналогій – гэта значна больш складаная задача.
Каб мова паўнавартасна з’явілася ў прадукце (асабліва калі гаворка ідзе пра галасавыя тэхналогіі), патрэбныя:
- сотні, а часам і тысячы гадзін аўдыязапісаў
- іх апрацоўка і падрыхтоўка
- навучанне мадэляў
Нават на невялікіх аб’ёмах гэта можа каштаваць дорага. Напрыклад, каля 40 гадзін запісу могуць абысціся ў €13, 000, а пры большым маштабе выдаткі, хоць і аптымізуюцца, усё роўна застаюцца істотнымі. Звычайна іх нясе бізнес – калі бачыць у гэтым рынкавую магчымасць.
Але ёсць і іншыя мадэлі. Напрыклад, у Эстоніі дзяржава ўдзельнічала ў распрацоўцы моўных тэхналогій: былі створаныя мадэлі і адкрыты доступ да іх, каб імі маглі карыстацца розныя прадукты і кампаніі. Гэта паказвае, што развіццё мовы ў digital – не толькі задача бізнесу, але і пытанне інфраструктуры.
Чаму іншыя мовы ўжо ёсць у прадуктах, а беларускай – няма?
На першы погляд перад намі парадокс: мовы з параўнальнай колькасцю носьбітаў – напрыклад, грэцкая, балгарская або венгерская – ужо даўно інтэграваныя ў лічбавыя прадукты. Але справа не толькі ў колькасці насельніцтва. Важную ролю адыгрывае тое, як мова выкарыстоўваецца на практыцы.
Калі большасць карыстальнікаў у краіне штодзённа ўжывае адну мову (напрыклад, рускую), менавіта яна становіцца асноўнай для спажывання кантэнту і ўзаемадзеяння з прадуктамі. У такой сітуацыі для бізнесу патрэба ў дадатковай лакалізацыі зніжаецца. Унутры кампаній усё таксама залежыць ад прыярытэтаў: калі няма выразнага попыту або ўнутранага “адваката” мовы, такія задачы проста не трапляюць у roadmap.
Пры гэтым сама па сабе беларуская мова не з’яўляецца складанай для тэхналогій. Але ёй не хапае галоўнага – дастатковай базы дадзеных.
Напрыклад, вялікая колькасць слоў з рознымі націскамі і значэннямі патрабуе, каб у сістэмах былі якасныя аўдыязапісы з правільнай інтанацыяй. Без гэтага тэхналогіі проста не могуць карэктна працаваць з мовай.
Што мы можам зрабіць?
Нягледзячы на ўсе абмежаванні, гэта не закрытая сістэма, і на яе можна ўплываць.
Першае і самае важнае – ствараць кантэнт на беларускай мове. Чым больш відэа, тэкстаў і падкастаў з’яўляецца, тым больш сігналаў атрымліваюць платформы. Для іх гэта прамы індыкатар таго, што мова выкарыстоўваецца і мае попыт. І важна, што кантэнт не абмяжоўваецца толькі Беларуссю. Беларусы жывуць у розных краінах, а сама мова можа быць зразумелай, напрыклад, украінцам або палякам. Гэта робіць мову больш бачнай.
Другі важны напрамак – падтрымка ініцыятыў, якія ствараюць базу для тэхналогій. Зараз ідзе краўдфандынг для праекта Sonora, мэта якога – стварэнне якасных аўдыязапісаў беларускай мовы з правільнымі націскамі і інтанацыяй. Гэта неабходна, каб беларуская мова гучала ў тэхналогіях натуральна і без памылак.
Трэці – самы просты, але таксама важны крок – выбар беларускай мовы ў наладах прыладаў і праграмаў. Калі аперацыйная сістэма вашай прылады і праграмы, якімі вы карыстаецеся, ужо даюць магчымасць паставіць у наладах беларускую мову – выбірайце гэтую опцыю. Так тэхналагічныя кампаніі будуць бачыць, што мова запатрабаваная карыстальнікамі, а значыць – важная і зусім не прывідная.
Нават невялікія дзеянні ў суме становяцца важнымі сігналамі.