Что значит цифровое вымирание?

We use cookies. Read the Privacy and Cookie Policy

Что значит цифровое вымирание?

В то время как Yeeyan и TED доказывают, что добровольцы могут производить высококачественный перевод газетных статей и научных лекций, а Meedan предлагает сочетание машинного и традиционного перевода для общения в реальном времени на разных языках, по-настоящему впечатляющих результатов можно добиться, лишь совместив эти методы. Для качественного машинного перевода программистам необходим большой корпус переведенного между двумя языками материала. Если объем текста, переведенного на платформах Global Voices или TED, на сегодня составляет лишь небольшую часть корпуса, необходимого для построения системы статистического машинного перевода, сотрудничество между переводческим сообществом и специалистами по машинному переводу может привести к созданию таких корпусов там, где другие варианты отсутствуют. Четыре тысячи произведенных силами Global Voices малагасийских переводов общим объемом в 300 тысяч слов составляют всего лишь 1,2 % от размера корпуса текстов Европарламента (один из основных источников параллельных корпусов текстов, состоящий из разнообразных документов парламентского делопроизводства),[199] и, вероятно, это слишком мало для создания точной системы машинного перевода. С другой стороны, это, пожалуй, самый большой из существующих корпусов переводных текстов с английского на малагасийский и обратно.

Амбициозные планы Google проиндексировать и выложить в открытый доступ все знания мира предполагают, что компания должна серьезно отнестись ко всем существующим корпусам текстов на африканских языках. Для устойчивого международного роста эта громадная поисковая система должна поставлять услуги сотням миллионов людей, для которых английский, французский или португальский – второй язык. По словам Дениса Гикунда, отвечающего в компании за сегмент африканских языков, в будущем Google планирует переложить переводческие сервисы, интерфейс и содержание более чем на 100 африканских языков, число носителей которых составляет не менее миллиона. Среди них и меру – родной язык Гикунда, на котором говорят в районе горы Кения.[200] Пока же Google делает упор на более массовые языки – суахили, амхарский, волоф, хауса, африкаанс, зулу, сетсвана и сомали, на каждом из которых говорит по меньшей мере десять миллионов человек.

Чтобы Google-переводчик или другой сервис работал с малагасийским языком нескольких сотен страниц, переведенных с английского или французского на малагасийский, недостаточно; чтобы построить «модель малагасийского языка» нужны громадные объемы данных! Иными словами, для того, чтобы малагасийский можно было переводить с помощью статистического машинного перевода, необходим онлайн-доступ к большим объемам текстов на малагасийском. Это составляет серьезную проблему. Рассмотрим «Википедию» на малагасийском: в ней около 25 тысяч статей. Таким образом, по количеству материалов это 75-я «Википедия» в мире и вторая среди африканских языков. Многие из потенциальных участников проекта – хорошо образованные мадагаскарцы, которые также свободно говорят по-французски. Французская «Википедия» в 50 раз больше малагасийской, ее и читает значительно более широкая аудитория. Если автор «Википедии» хочет, чтобы его материал прочитали и оценили, он, вероятнее всего, напишет его по-французски.

Лова Ракотомалала, один из авторов малагасийской «Википедии», объясняет эту «уловку-22»: «Мне кажется, что причина, по которой люди не пользуются “Википедией” (на малых языках), – это порочный круг. Люди не хотят создавать контент, потому что его никто не читает, и никто не читает, потому контента мало». Подобно иорданским блогерам, писавшим на английском, чтобы выйти на глобальную аудиторию, мадагаскарцы предпочитают писать по-французски по многим причинам. Но если они не будут писать на родном языке, то не наступит и переломный момент, случившийся в арабской блогосфере.

Положение было бы еще менее обнадеживающим, если бы Ракотомалала не занимался планомерным увеличением доступного в интернете малагасийского контента как через «Википедию», так и в рамках Global Voices, где он стал основателем нашей малагасийской версии. Однако его комментарий помогает выявить сложные вопросы вокруг перспектив многоязычного интернета. Чем больше носителей будет писать в интернете по-малагасийски, тем больше мадагаскарцев будут создавать контент на родном языке. Чем больше в сети контента, в особенности переводного, тем выше вероятность того, что Google и другие сервисы смогут создать системы машинного перевода, что, в свою очередь, означает, что контент, доступный только на малагасийском, смогут читать люди, не знающие этого языка.

Если же мадагаскарцы предпочтут в расчете на более широкую аудиторию создавать контент на французском, вероятнее всего, возникнет другая проблема. Такие разросшиеся проекты, как французская «Википедия», уже достигли «зрелости»; там уже так много статей, что опытные редакторы отклоняют по крайней мере столько же новых статей, сколько принимают. Статьи о важных аспектах географии Мадагаскара, его фауны и культуры могут быть чрезвычайно важными для его жителей, но оказаться недостаточно «значимыми» для включения во французскую «Википедию». Сведения о местных реалиях – очевидный кандидат в малагасийскую «Википедию», в более широкой, более глобальной «Википедии» та же информация может показаться недостаточно важной для отдельной статьи.

Наличие или отсутствие статьи на «Википедии» едва ли может служить иллюстрацией культурного кризиса. Однако вымирание языков заслуживает нашего особого внимания. Антрополог Уэйд Дэвис отмечает, что половину из шести тысяч мировых языков больше не преподают в школах. Большинство таких языков умрут вместе с последними носителями.[201] Люди, которым небезразлична проблема исчезновения языков, опасаются, что культурно доминирующие соседи вытеснят малые языки. Многие из пяти миллионов, говорящих на языке майя, нередко владеют испанским, одним из мировых языков. Несложно представить, что носители языка майя, решат, что говорить в основном по-испански экономически выгоднее, и тогда язык майя начнет постепенно исчезать.

Рассматриваемые здесь случаи обозначают влияние, которое цифровой мир может оказать на исчезновение языков. Если у носителей не будет стимула для создания контента на родном языке, нам не хватит сетевого материала для построения моделей перевода. Сетевые фрагменты на малагасийском или языке майя окажутся в изоляции, будучи доступны только носителям языка и невидимы для всех остальных. Мы можем оказаться перед лицом волны цифрового вымирания языков, ситуации, при которой одни языки достаточно представлены в интернете, чтобы сохранить языковую общность и разработать систему машинного перевода, а другие окажутся за этим порогом и не смогут оставить значительный след в сети.

Данный текст является ознакомительным фрагментом.