Что значит цифровое вымирание?
Что значит цифровое вымирание?
В то время как Yeeyan и TED доказывают, что добровольцы могут производить высококачественный перевод газетных статей и научных лекций, а Meedan предлагает сочетание машинного и традиционного перевода для общения в реальном времени на разных языках, по-настоящему впечатляющих результатов можно добиться, лишь совместив эти методы. Для качественного машинного перевода программистам необходим большой корпус переведенного между двумя языками материала. Если объем текста, переведенного на платформах Global Voices или TED, на сегодня составляет лишь небольшую часть корпуса, необходимого для построения системы статистического машинного перевода, сотрудничество между переводческим сообществом и специалистами по машинному переводу может привести к созданию таких корпусов там, где другие варианты отсутствуют. Четыре тысячи произведенных силами Global Voices малагасийских переводов общим объемом в 300 тысяч слов составляют всего лишь 1,2 % от размера корпуса текстов Европарламента (один из основных источников параллельных корпусов текстов, состоящий из разнообразных документов парламентского делопроизводства),[199] и, вероятно, это слишком мало для создания точной системы машинного перевода. С другой стороны, это, пожалуй, самый большой из существующих корпусов переводных текстов с английского на малагасийский и обратно.
Амбициозные планы Google проиндексировать и выложить в открытый доступ все знания мира предполагают, что компания должна серьезно отнестись ко всем существующим корпусам текстов на африканских языках. Для устойчивого международного роста эта громадная поисковая система должна поставлять услуги сотням миллионов людей, для которых английский, французский или португальский – второй язык. По словам Дениса Гикунда, отвечающего в компании за сегмент африканских языков, в будущем Google планирует переложить переводческие сервисы, интерфейс и содержание более чем на 100 африканских языков, число носителей которых составляет не менее миллиона. Среди них и меру – родной язык Гикунда, на котором говорят в районе горы Кения.[200] Пока же Google делает упор на более массовые языки – суахили, амхарский, волоф, хауса, африкаанс, зулу, сетсвана и сомали, на каждом из которых говорит по меньшей мере десять миллионов человек.
Чтобы Google-переводчик или другой сервис работал с малагасийским языком нескольких сотен страниц, переведенных с английского или французского на малагасийский, недостаточно; чтобы построить «модель малагасийского языка» нужны громадные объемы данных! Иными словами, для того, чтобы малагасийский можно было переводить с помощью статистического машинного перевода, необходим онлайн-доступ к большим объемам текстов на малагасийском. Это составляет серьезную проблему. Рассмотрим «Википедию» на малагасийском: в ней около 25 тысяч статей. Таким образом, по количеству материалов это 75-я «Википедия» в мире и вторая среди африканских языков. Многие из потенциальных участников проекта – хорошо образованные мадагаскарцы, которые также свободно говорят по-французски. Французская «Википедия» в 50 раз больше малагасийской, ее и читает значительно более широкая аудитория. Если автор «Википедии» хочет, чтобы его материал прочитали и оценили, он, вероятнее всего, напишет его по-французски.
Лова Ракотомалала, один из авторов малагасийской «Википедии», объясняет эту «уловку-22»: «Мне кажется, что причина, по которой люди не пользуются “Википедией” (на малых языках), – это порочный круг. Люди не хотят создавать контент, потому что его никто не читает, и никто не читает, потому контента мало». Подобно иорданским блогерам, писавшим на английском, чтобы выйти на глобальную аудиторию, мадагаскарцы предпочитают писать по-французски по многим причинам. Но если они не будут писать на родном языке, то не наступит и переломный момент, случившийся в арабской блогосфере.
Положение было бы еще менее обнадеживающим, если бы Ракотомалала не занимался планомерным увеличением доступного в интернете малагасийского контента как через «Википедию», так и в рамках Global Voices, где он стал основателем нашей малагасийской версии. Однако его комментарий помогает выявить сложные вопросы вокруг перспектив многоязычного интернета. Чем больше носителей будет писать в интернете по-малагасийски, тем больше мадагаскарцев будут создавать контент на родном языке. Чем больше в сети контента, в особенности переводного, тем выше вероятность того, что Google и другие сервисы смогут создать системы машинного перевода, что, в свою очередь, означает, что контент, доступный только на малагасийском, смогут читать люди, не знающие этого языка.
Если же мадагаскарцы предпочтут в расчете на более широкую аудиторию создавать контент на французском, вероятнее всего, возникнет другая проблема. Такие разросшиеся проекты, как французская «Википедия», уже достигли «зрелости»; там уже так много статей, что опытные редакторы отклоняют по крайней мере столько же новых статей, сколько принимают. Статьи о важных аспектах географии Мадагаскара, его фауны и культуры могут быть чрезвычайно важными для его жителей, но оказаться недостаточно «значимыми» для включения во французскую «Википедию». Сведения о местных реалиях – очевидный кандидат в малагасийскую «Википедию», в более широкой, более глобальной «Википедии» та же информация может показаться недостаточно важной для отдельной статьи.
Наличие или отсутствие статьи на «Википедии» едва ли может служить иллюстрацией культурного кризиса. Однако вымирание языков заслуживает нашего особого внимания. Антрополог Уэйд Дэвис отмечает, что половину из шести тысяч мировых языков больше не преподают в школах. Большинство таких языков умрут вместе с последними носителями.[201] Люди, которым небезразлична проблема исчезновения языков, опасаются, что культурно доминирующие соседи вытеснят малые языки. Многие из пяти миллионов, говорящих на языке майя, нередко владеют испанским, одним из мировых языков. Несложно представить, что носители языка майя, решат, что говорить в основном по-испански экономически выгоднее, и тогда язык майя начнет постепенно исчезать.
Рассматриваемые здесь случаи обозначают влияние, которое цифровой мир может оказать на исчезновение языков. Если у носителей не будет стимула для создания контента на родном языке, нам не хватит сетевого материала для построения моделей перевода. Сетевые фрагменты на малагасийском или языке майя окажутся в изоляции, будучи доступны только носителям языка и невидимы для всех остальных. Мы можем оказаться перед лицом волны цифрового вымирания языков, ситуации, при которой одни языки достаточно представлены в интернете, чтобы сохранить языковую общность и разработать систему машинного перевода, а другие окажутся за этим порогом и не смогут оставить значительный след в сети.
Более 800 000 книг и аудиокниг! 📚
Получи 2 месяца Литрес Подписки в подарок и наслаждайся неограниченным чтением
ПОЛУЧИТЬ ПОДАРОКДанный текст является ознакомительным фрагментом.
Читайте также
ВЫМИРАНИЕ «УЖАСНЫХ ЯЩЕРОВ»
ВЫМИРАНИЕ «УЖАСНЫХ ЯЩЕРОВ» В мезозойской эре, длившейся около 175 млн лет (45 – триасовый, 60 – юрский, 70 – меловой периоды), достигли апогея своего развития «ужасные ящеры» – динозавры, обитатели морей ихтиозавры и летающие ящеры. Всего их насчитывалось, согласно нынешним
Что все это значит?
Что все это значит? Как все это понять? Может быть, в Amnesty International на самом деле сидят скрытые сторонники «Мунгики» и по ночам приносят в жертву двухлетних детей?Вряд ли. Во-первых, в «Мунгики» состоять могут только кикуйю. Во-вторых, члены сатанистского культа не могут быть
Вымирание населения России
Вымирание населения России Результатом деятельности «реформаторов» стала демографическая катастрофа. Если еще в 1991 г. (и все предшествовавшие годы) существовал прирост населения, то начиная с 1992 г. население России начало быстро сокращаться (от 800 тыс. человек в год в 1992
Что все это значит
Что все это значит Академии художеств, как правило, выпускают посредственных художников. Литературные институты плодят энергичных эпигонов. Факультеты журналистики дают хорошее образование, но они не могут, да и не должны, научить главному – работать
Смерть Запада: Чем вымирание населения и усиление иммиграции угрожают нашей стране и цивилизации
Смерть Запада: Чем вымирание населения и усиление иммиграции угрожают нашей стране и цивилизации Вот так закончится мир, Вот так закончится мир, Вот так закончится мир, Не взрыв, но всхлип.[1] Т.С. Элиот. Полые люди Что-то словно щелкнуло у нее в сознании, она смягчилась,
Через вымирание — к процветанию!
Через вымирание — к процветанию! По извращенной логике ныне власть предержащих — даже в убыли населения нет худа без добра: естественная эта убыль вроде бы должна привести "к росту благосостояния россиян, поскольку ВВП будет распределяться… между гораздо меньшим
Безработица и вымирание
Безработица и вымирание Все давно усвоили, что у нас производительность труда ниже, чем в США. А вот если посмотреть, сколько на один доллар заработной платы производит средний статистический российский работник, то оказывается, он производит в 4 раза больше, чем средний
Безработица и вымирание
Безработица и вымирание Безработица «неожиданно» обрушилась на Россию и стала одной из ключевых проблем как федерального, так и местного уровня. Сегодня можно говорить о том, что безработица уверенно оформилась в виде объективной реальности всего уклада жизни россиян.
Физическая деградация и вымирание
Физическая деградация и вымирание 1. Депопуляция. Рождаемость европейских народов в последние двадцать лет прочно установилась на уровне ниже простого воспроизводства. Численность европейцев продолжает сокращаться. По всем прогнозам, на обозримое будущее эта
Владимир Винников ВЫМИРАНИЕ
Владимир Винников ВЫМИРАНИЕ Россия вымирает... Это утверждение давно уже стало общим местом в оппозиционной публицистике, да и в сознании каждого жителя нашего Отечества. Но вымирание означает не только количественное сокращение населения. Оно — и это
Значит…
Значит… Значит, в стране нет истинных художников!Аndrew Лебедев3 сентября 2008 г.This file was createdwith BookDesigner
ПАТЕНТ НА ВЫМИРАНИЕ
ПАТЕНТ НА ВЫМИРАНИЕ Кирилл КушневКогда нет денег на покупку научной информации за границей, это еще можно как-то понять. Когда же власть забывает о собственных изобретателях, гробит отечественное патентное дело и способствует утечке передовой информации за рубеж, - это
Цифровое нашествие
Цифровое нашествие За законодательством сейчас вообще мало кто следит, а вот электромагнитные импульсы все каждый день старательно ловят не у телевизора, так у компьютера. Я тоже искренне привержен этому делу. Больше того, пристально слежу за развитием информационных