sab123: (face)
[personal profile] sab123
Вот значить есть у нас гуглопереводчик, который уже более-менее удовлетворительно переводит, используя статистику с переводов, сделанных вручную.

А вот ежели теперь скажем взять и определить искусственный язык. В котором бы не было неоднозначностей, а все подтексты бы формулировались в явном виде (никаких омонимов, для разных значений - разные слова), вплоть до отсылок на истории, откуда выражение произошло. И напереводить туда статей с естественного языка вручную. И потом напустить на эти переводы гуглоанализатор. И потом делать переводы гуглопереводчиком с естественного языка на этот искусственный язык. То должен получиться довольно приличный анализатор естественного языка.

Date: 2012-12-27 07:33 pm (UTC)
spamsink: (Default)
From: [personal profile] spamsink
Короче, сделать синтаксическую-ПРИЛ-ОТН-ЖЕН-ЕД-ВИН разметку-СУЩ-НЕОД-ЖЕН-ЕД-ВИН текстов-СУЩ-НЕОД-МУЖ-МН-РОД на естественном языке и сделать вид, что это такой новый язык? Или еще и скобочную структуру синтагм (напр., для разрешения неоднозначности словосочетания "скобочная структура синтагм") вводить?

Date: 2012-12-27 07:45 pm (UTC)
From: [identity profile] andybil.livejournal.com
Это утопия по ряду научных причин. Прочитайте лекцию Железняка об устройстве и классификации естественных языков. "Некоторые проблемы порядка слов в истории русского языка" (http://elementy.ru/lib/431049)
Хотя там написано про русский, почитайте. Во-первых страшно интересно, во вторых там есть и про английский и про японский.

Date: 2012-12-27 10:31 pm (UTC)
From: [identity profile] sab123.livejournal.com
Нет, не ее. Сделать разметку семантическую, а грамматику наоборот максимально упростить. Часть из этого, конечно, будет совпадать с тем, что представлено в русской грамматике. Скажем, род, но он тоже будет не один к одному, а скажем набор из МУЖСКОЙ, ЖЕНСКИЙ, НЕОДУШЕВЛЕННЫЙ, ОДУШЕВЛЕННЫЙ_НЕВАЖНЫЙ.

То есть вот например "Щелкни кобылу по ному, она и махнет хвостом". Кобыла тут хоть и женского рода, но на самом деле этот факт не важен. С другой стороны, конечно, чтобы переводить по возможности туда и обратно без потерь, должны видимо еще быть роды МУЖСКОЙ_НО_НЕВАЖНЫЙ и ЖЕНСКИЙ_НО_НЕВАЖНЫЙ.
Edited Date: 2012-12-27 10:34 pm (UTC)

Date: 2012-12-27 10:39 pm (UTC)
From: [identity profile] sab123.livejournal.com
Ну, и в примере с кобылой должен быть наверное еще как минимум второй уровень обобщения: [воздействовать на] [нечто], [это нечто] [ответит]". То есть, кобыла должна быть сформулирована по уровням важности смысла как что-то типа [нечто способное на взаимодействие; живое существо; лошадь бесполая; лошадь самка].

С другой стороны, если текст ветеринарный о родах у лошадей, то будет однозначно [лошадь самка - ветеринарная терминология].
Edited Date: 2012-12-27 10:41 pm (UTC)

Date: 2012-12-28 12:36 am (UTC)
wizzard: (фото)
From: [personal profile] wizzard
загнемся-с

там были пейперы про то, что приемлемый уровень статистической модели начинается с сотен миллионов слов :)

Date: 2012-12-28 12:41 am (UTC)
From: [identity profile] sab123.livejournal.com
Ну вот и будет работа для бакалавров от филологии :-) Не все же им картошку жарить.
Edited Date: 2012-12-28 12:41 am (UTC)

Date: 2012-12-28 04:16 am (UTC)
spamsink: (Default)
From: [personal profile] spamsink
Семантическая разметка, боюсь, дело еще не формализованное. И как прикажешь размечать слово "и" в примере?

Date: 2012-12-28 04:19 am (UTC)
spamsink: (Default)
From: [personal profile] spamsink
Я не спорю, что это утопия; хотел просто уточнить позицию автора. Статью я читал раньше, но спасибо за напоминание.

Date: 2012-12-28 10:41 am (UTC)
From: [identity profile] sab123.livejournal.com
Ну дык, надо бюджет на исследования :-) А слово "и" надо размечать как [вследствие, короткое соединение].

January 2026

S M T W T F S
     12 3
45 6 7 8 9 10
11 12 13 14 151617
1819202122 23 24
25 262728293031

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jan. 27th, 2026 08:27 pm
Powered by Dreamwidth Studios