еще о переводах
Dec. 27th, 2012 02:07 pmВот значить есть у нас гуглопереводчик, который уже более-менее удовлетворительно переводит, используя статистику с переводов, сделанных вручную.
А вот ежели теперь скажем взять и определить искусственный язык. В котором бы не было неоднозначностей, а все подтексты бы формулировались в явном виде (никаких омонимов, для разных значений - разные слова), вплоть до отсылок на истории, откуда выражение произошло. И напереводить туда статей с естественного языка вручную. И потом напустить на эти переводы гуглоанализатор. И потом делать переводы гуглопереводчиком с естественного языка на этот искусственный язык. То должен получиться довольно приличный анализатор естественного языка.
А вот ежели теперь скажем взять и определить искусственный язык. В котором бы не было неоднозначностей, а все подтексты бы формулировались в явном виде (никаких омонимов, для разных значений - разные слова), вплоть до отсылок на истории, откуда выражение произошло. И напереводить туда статей с естественного языка вручную. И потом напустить на эти переводы гуглоанализатор. И потом делать переводы гуглопереводчиком с естественного языка на этот искусственный язык. То должен получиться довольно приличный анализатор естественного языка.
no subject
Date: 2012-12-27 07:33 pm (UTC)no subject
Date: 2012-12-27 07:45 pm (UTC)Хотя там написано про русский, почитайте. Во-первых страшно интересно, во вторых там есть и про английский и про японский.
no subject
Date: 2012-12-27 10:31 pm (UTC)То есть вот например "Щелкни кобылу по ному, она и махнет хвостом". Кобыла тут хоть и женского рода, но на самом деле этот факт не важен. С другой стороны, конечно, чтобы переводить по возможности туда и обратно без потерь, должны видимо еще быть роды МУЖСКОЙ_НО_НЕВАЖНЫЙ и ЖЕНСКИЙ_НО_НЕВАЖНЫЙ.
no subject
Date: 2012-12-27 10:39 pm (UTC)С другой стороны, если текст ветеринарный о родах у лошадей, то будет однозначно [лошадь самка - ветеринарная терминология].
no subject
Date: 2012-12-28 12:36 am (UTC)там были пейперы про то, что приемлемый уровень статистической модели начинается с сотен миллионов слов :)
no subject
Date: 2012-12-28 12:41 am (UTC)no subject
Date: 2012-12-28 04:16 am (UTC)no subject
Date: 2012-12-28 04:19 am (UTC)no subject
Date: 2012-12-28 10:41 am (UTC)