sab123: (Default)
From: [personal profile] sab123
Первым делом я тебя предупрежу, что я - не настоящий сварщик, а только маску нашел. Настоящий специалист тебе может быть посоветует лучше. Теперь по сути:

Ваше нынешнее решение по соотношению частот - Байесово, только видимо независимо воссозданное из логических рассуждений. Я как-то вообще в таком ракурсе выбирания слов для поиска не думал.

Я думаю, что первое, как его можно улучшить - это использовать больше контекста, в как минимум двух смыслах:

1. Этот конкретный человек у тебя популярно написал что он хочет в разделе Objectives. Просто выделять этот раздел и считать слова из него более важными. Ну и можно искать предолжения с фразами типа "looking for". Аналогично, можно считать более недавние работы более важными.

2. Использовать не отдельные слова, а словосочетания. Например, data warehousing имеет очень другой смысл, чем просто warehousing и чем data entry. Если тебе не хочется индексировать все встречающиеся словосочетания, то можно начать с поиска более важных отдельных слов, а потом только их взять с соседними словами.

Третье, тоже связанное с контекстом - если ты ищешь по резюме, то надо искать слова не сами по себе важные, а важные в контексте резюме.

Про конкретно NN я не знаю. Использовать точно можно, но я не знаю, будет ли от них выгоды гораздо больше, чем от более простых методов. То, что NN умеет делать гораздо лучше простого Байеса - отличать случаи типа "А, но не Б, или Б, но не а" и противоположные. Плюс для всего нужен тренировочный материал, в котором вручную размечены правильные ответы.
This account has disabled anonymous posting.
If you don't have an account you can create one now.
HTML doesn't work in the subject.
More info about formatting

July 2025

S M T W T F S
  1 2345
678 9101112
13141516171819
20212223242526
2728293031  

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jul. 12th, 2025 03:24 pm
Powered by Dreamwidth Studios