sab123 | Re: How to create a job search query from resume text? (Reply)

From:

Первым делом я тебя предупрежу, что я - не настоящий сварщик, а только маску нашел. Настоящий специалист тебе может быть посоветует лучше. Теперь по сути:

Ваше нынешнее решение по соотношению частот - Байесово, только видимо независимо воссозданное из логических рассуждений. Я как-то вообще в таком ракурсе выбирания слов для поиска не думал.

Я думаю, что первое, как его можно улучшить - это использовать больше контекста, в как минимум двух смыслах:

1. Этот конкретный человек у тебя популярно написал что он хочет в разделе Objectives. Просто выделять этот раздел и считать слова из него более важными. Ну и можно искать предолжения с фразами типа "looking for". Аналогично, можно считать более недавние работы более важными.

2. Использовать не отдельные слова, а словосочетания. Например, data warehousing имеет очень другой смысл, чем просто warehousing и чем data entry. Если тебе не хочется индексировать все встречающиеся словосочетания, то можно начать с поиска более важных отдельных слов, а потом только их взять с соседними словами.

Третье, тоже связанное с контекстом - если ты ищешь по резюме, то надо искать слова не сами по себе важные, а важные в контексте резюме.

Про конкретно NN я не знаю. Использовать точно можно, но я не знаю, будет ли от них выгоды гораздо больше, чем от более простых методов. То, что NN умеет делать гораздо лучше простого Байеса - отличать случаи типа "А, но не Б, или Б, но не а" и противоположные. Плюс для всего нужен тренировочный материал, в котором вручную размечены правильные ответы.