sab123 | задопихание

Как backpropagation выводится из градиентного спуска:

https://babkin-cep.blogspot.com/2022/10/optimization-4-backpropagation-for-last.html
https://babkin-cep.blogspot.com/2022/10/optimization-5-backpropagation-further.html

Flat | Top-Level Comments Only | Expand All

From:

dennisgorelik

Is this backpropagation for image recognition?

From:

sab123

Ей пофиг, к чему приложишь - то и будет. Я пока играю с игрушечными примерами.

From:

dennisgorelik

> Ей пофиг, к чему приложишь - то и будет.

Откуда ты знаешь, что пофиг?
Вряд ли NN, специализирующаяся на распознавании картином, будет хорошо работать с текстами.

> Я пока играю с игрушечными примерами.

Какую проблему решают твои игрушечные примеры?

From:

sab123

> Вряд ли NN, специализирующаяся на распознавании картином, будет хорошо работать с текстами.

Смотря для какой цели и смотря как подключить.

> Какую проблему решают твои игрушечные примеры?

Никакой практической. Пока что только имитировать простую гладкую функцию. Мне интересно посмотреть на то, что там внутри происходит, в очень мелком масштабе.

From:

dennisgorelik

> Смотря для какой цели и смотря как подключить.

У меня есть практическая задача: взять резюме кандидата, и извлечь из этого резюме ключевые слова, по которым можно искать работу для этого кандидата.

Думаешь neural network, в настройке которой ты упражнялся, поможет в решении этой задачи?

> только имитировать простую гладкую функцию

Для того, чтобы имитировать простую гладкую функцию - нет необходимости использовать neural network.

From:

sab123

> У меня есть практическая задача: взять резюме кандидата, и извлечь из этого резюме ключевые слова, по которым можно искать работу для этого кандидата.
> Думаешь neural network, в настройке которой ты упражнялся, поможет в решении этой задачи?

Ну, во-первых, я пока упражняюсь еще не в настройке, а в построении механизма. Мне хочется понять, как оно работает. В реальности большинство data engineers используют механизмы как черный ящик, плохо понимая, как он внутри работает.

Во-вторых, твоя задача, наверное, хорошо решается более простым способом? От простого поиска по хэш-мапу до построения байесовой модели (которая по своей сути соответствует одному слою нейронов, по одному нейрону для каждого возможного результата). Для отдельных слов или для словосочетаний из двух-трех слов. Или ты пробовал и не решается? Ну, можем обсудить.

Для Байеса у меня, кстати, есть примеры на Перле: https://sourceforge.net/projects/exbayes/ . Циферки в именах файлов соответствуют номерам в серии постов в блоге, где они обсуждаются.

> Для того, чтобы имитировать простую гладкую функцию - нет необходимости использовать neural network.

Эта задача интересна тем, что она тривиальна. И если методы тренировки показывают странные эффекты (а они показывают) на такой тривиальной задаче, то они будут их показывать и на более сложных задачах. Эти эффекты общеизвестны, и на более сложных задачах их пытаются решать шаманизмом: "давайте возьмем другие случайные начальные значения", "давайте сдвинем диапазон случайных значений", "давайте возьмем больше нейронов", и т.д. Потому что там трудно проследить, что вызывает эти проблемы и какой именно получается подробный эффект от разных попыток решения. А на маленькой и тривиальной задаче все это видно хорошо. И мне интересно в этом поковыряться. Без кратковременной практической выгоды, просто так (ну а долговременно - кто знает, может когда-то пригодится).

Ну, а в следующем этапе у меня запланировано попробовать классическую простую задачу - распознавнаие цифер из набора рукописных образцов.

From:

dennisgorelik

> Во-вторых, твоя задача, наверное, хорошо решается более простым способом?

Решается, но, пока, не очень хорошо.
Мы создаем и поддерживаем общий список skills (keywords).

Соответственно, несложно найти эти skills в тексте резюме.
Также, мы считаем частоту использования каждого skill.

В общем списке мы также считаем, насколько часто каждый skill используется при поиске работ и насколько часто используется в описании работ.
Чем больше соотношение "частота поиска"/"частота использования в работе" - тем более важный такой skill.

Можно взять один, два или три самых важных skills и использовать для поиска работ.
Это работает, но не идеально.
Например, вот это резюме:
https://www.postjobfree.com/resume/adsn0r/customer-service-clerk-new-city-ny
превращается в набор skills:
1) warehouse
2) sales
3) customer service
4) data entry
То есть можно автоматически получить такой job search:
warehouse sales

Но, хотелось бы, результат получше, что-нибудь вроде:
(manager or management) (warehouse or sales or quality or control or dairy or shop or frozen or osha)

Но как автоматически добиться подобного результата (job search query) - пока не совсем понятно.

Как ты думаешь, подходит ли NN для решения подобных задач?

From:

sab123

Первым делом я тебя предупрежу, что я - не настоящий сварщик, а только маску нашел. Настоящий специалист тебе может быть посоветует лучше. Теперь по сути:

Ваше нынешнее решение по соотношению частот - Байесово, только видимо независимо воссозданное из логических рассуждений. Я как-то вообще в таком ракурсе выбирания слов для поиска не думал.

Я думаю, что первое, как его можно улучшить - это использовать больше контекста, в как минимум двух смыслах:

1. Этот конкретный человек у тебя популярно написал что он хочет в разделе Objectives. Просто выделять этот раздел и считать слова из него более важными. Ну и можно искать предолжения с фразами типа "looking for". Аналогично, можно считать более недавние работы более важными.

2. Использовать не отдельные слова, а словосочетания. Например, data warehousing имеет очень другой смысл, чем просто warehousing и чем data entry. Если тебе не хочется индексировать все встречающиеся словосочетания, то можно начать с поиска более важных отдельных слов, а потом только их взять с соседними словами.

Третье, тоже связанное с контекстом - если ты ищешь по резюме, то надо искать слова не сами по себе важные, а важные в контексте резюме.

Про конкретно NN я не знаю. Использовать точно можно, но я не знаю, будет ли от них выгоды гораздо больше, чем от более простых методов. То, что NN умеет делать гораздо лучше простого Байеса - отличать случаи типа "А, но не Б, или Б, но не а" и противоположные. Плюс для всего нужен тренировочный материал, в котором вручную размечены правильные ответы.

From:

dennisgorelik

> Ваше нынешнее решение по соотношению частот - Байесово

Почему анализ частоты использования skills ты называешь "байесовой" моделью?

> 1. Этот конкретный человек у тебя популярно написал что он хочет в разделе Objectives. Просто выделять этот раздел и считать слова из него более важными.

Мне кажется, получится не очень хорошо. Давай рассмотрим на примере того же резюме:

https://www.postjobfree.com/resume/adsn0r/customer-service-clerk-new-city-ny
Objective
A Management position that will allow me to utilize my skills and develop additional managerial insight to provide employee development and enhance future growth

"Management" и "managerial" - правильно. Но "develop" и "development" - неправильно.
Кроме того, упущены другие важные skills: "customer service", "deposits", "store", "sales", "quality control".

> искать предолжения с фразами типа "looking for"

Анализ использования looking for - показывает, что:
1) "looking for" указывает на важные skills лишь иногда.
2) "looking for" используется лишь в примерно 3% опубликованных резюме.

> 2. Использовать не отдельные слова, а словосочетания.

Это мы уже делаем: выделяем фразы из двух слов.

> надо искать слова не сами по себе важные, а важные в контексте резюме

Как определить какие слова - важные в контексте резюме?

From:

sab123

> Почему анализ частоты использования skills ты называешь "байесовой" моделью?

Потому что частота - она же вероятность. В твоей байесовой модели используется событие - найм. Ты считаешь частоту встречания скилла у работников до найма, это твоя априорная вероятность, и частоту скилла у работ, то есть работников после найма, это твоя постериорная вероятность. Когда ты их делишь, ты получаешь условную вероятность найма с таким скиллом (ну, не сосем вероятность, а шанс, который имеет тот же смысл и эквивалентен вероятности для целей максиимзации), и отбираешь скиллы с наибольшей условной вероятностью, то есть дающие максимальную пользу в найме. Это аналогично тому, как в классических экспертных системах 80-х годов выбирался следующий вопрос чтобы задать клиенту - такой вопрос, который позволит извлечь максимум информации в имеющемся контексте.

Байесовую модель можно развернуть и дальше - получить рейтинг соответствия резюме к вакансии исходя из полного списка скиллов, перечисленных в обоих. Ну, соединять каждое резюме с каждой вакансией может быть утомительно, но можно сначала сделать поиск как у тебя есть для грубой фильтровки, а потом посчитать рейтинг для найденных вакансий и отсортировать результаты поиска по этому рейтингу.

> "Management" и "managerial" - правильно. Но "develop" и "development" - неправильно.
> Анализ использования looking for - показывает, что:

Эти советы надо использовать не тупо, а с умом. Я надеюсь, ты не ожидаешь, что я тебе тут за десять минут выкачу готовое решение во всех подробностях. Есть словосочетания, которые указывают на то, что рядом с ними выражаются желания кандидата. Например, "objective", "looking for", но не только они, а и прочие. Это не рецепт, а направление для дальнейшего изучения. Вот data engineers и занимаются всеми этими деталями, в частности поисками того, какие конкретно фразы дают какие добавления к смыслу.

Кстати, "develop" и "development" тут правильно, это часть "employee development", руководящего скилла. Это пример из той же области, что "data warehousing" - совсем не то же самое, что просто "warehousing".

> Как определить какие слова - важные в контексте резюме?

Один пример - те слова, которые выражают желание работника, цель его поиска работы. Другой пример - скиллзы в недавних работах гораздо более важны, чем скиллзы в работах десятилетней давности. Ну вот тебе в качестве очень простого примера, если есть человек, только что закончивший институт по инженерной специальности, но во время учебы работавший баристой, то ему будут интересны в первую очередь работы в инженерии, а не баристы.

У тебя, кстати, есть хорошая возможность набрать много тренировочных данных, если хранить историю резюме. Вот у тебя есть человек с неким резюме, ищет работу. Потом через какое-то время опа, он же закачивает новое резюме, в котором добавилась новая работа. Это твой сигнал, что человек с таким-то резюме хорошо подошел для вот такой работы.

From:

dennisgorelik

> Потому что частота - она же вероятность. В твоей байесовой модели используется событие - найм. Ты считаешь частоту встречания скилла у работников до найма, это твоя априорная вероятность,

Да: частота использования скилла в резюме - кореллирует с вероятностью того, что работника наняли из-за этого скилла.

> и частоту скилла у работ, то есть работников после найма, это твоя постериорная вероятность.

Нет.
Частота употребления скилла в описании работы - коррелирует с востребованностью этого скилла на этой работе. А вовсе не с тем, сколько работников на этот скилл уже наняли.

> Когда ты их делишь, ты получаешь условную вероятность найма с таким скиллом

В данном случае, чтобы получить вероятность найма с таким скиллом, надо умножать эти две частоты использования, а не делить их друг на друга.

> Байесовую модель можно развернуть и дальше - получить рейтинг соответствия резюме к вакансии исходя из полного списка скиллов, перечисленных в обоих.

Да, примерно так можно считать match score.
Но это слабо похоже на байесовую модель.

From:

sab123

Нет, я говорю о другом. Равенство частоты предметов разных видов в мешке и вероятности вынимания вслепую предметов этих видов из мешка чисто механическое. У тебя есть мешок с кандидатами, которые помечены скиллами, и другой мешок с работами, которые тоже помечены скиллами. И соответственно вероятности того, что ткнув в случайного кандидата или в случайную работу ты найдешь этот скилл.

Нет, умножать не надо. Чтобы понять байесову формулу, проще всего начать с рисования квадрата, который будет представлять всех кандидатов. Потом его поделить на две части: в одной части те, что нашли работу, в другой - что не нашли работу, и с площадью пропорциональной количеству. Потом каждую часть поделить на две части: у которых есть скилл, и у которых нет скилла.

Априорная вероятность встречания скилла среди всех кандидатов - это соотношение количеств: (есть скилл) / (все кандидаты)
Постериорная вероятность встречания скилла среди нашедших работы - это: ((есть скилл) И (нашел работу)) / (нашел работу)
Условная вероятность нахождения работы при наличии данного скилла - это: ((есть скилл) И (нашел работу)) / (есть скилл)

То есть, можно даже пропустить два деления и просто сразу делить количество встречания скилла среди работ на количество встречания скилла среди кандидатов.

From:

dennisgorelik

Сейчас я вижу, что ты и я говорим о разных частотах.
Ты говоришь о том, насколько много resumes содержат рассматриваемый нами skill (HowManyResumesContainOurSkill).
Я же говорю о том, сколько раз рассматриваемый нами skill встречается в одной работе (HowManyTimesOurResumeContainsOurSkill).

Вероятность соответствия между резюме и работой:
- пропорциональна 1/HowManyResumesContainOurSkill
- пропорциональна log(HowManyTimesOurResumeContainsOurSkill + 1)

То есть формула вероятности:
log(HowManyTimesOurResumeContainsOurSkill + 1) / HowManyResumesContainOurSkill

> проще всего начать с рисования квадрата, который будет представлять всех кандидатов

Всех кандидатов на все работы?
Или всех кандидатов на одну работу?

From:

sab123

> Я же говорю о том, сколько раз рассматриваемый нами skill встречается в одной работе (HowManyTimesOurResumeContainsOurSkill).

В смысле, не в работе, а в резюме?

> Вероятность соответствия между резюме и работой:
> - пропорциональна 1/HowManyResumesContainOurSkill
> - пропорциональна log(HowManyTimesOurResumeContainsOurSkill + 1)

Так не получается, математически она не может быть одновременно пропорциональна обоим. Если ты каждому резюме приписываешь вес в log(HowManyTimesOurResumeContainsOurSkill + 1), то математически правильно будет смоделировать, что вероятность соответствия будет 1/(сумма_этих_весов).

Ну, не говоря уже про использование частоты встречания фразы как предсказателя ценности. Если кто-то поменял за год 5 работ и в каждой написал скилл, будет ли ему соответствие лучше, чем человеку, который написал этот скилл один раз в одной работе?

> Всех кандидатов на все работы? Или всех кандидатов на одну работу?

Хоть так, хоть так, смотря что хотеть мерять. Если ты ищешь среди всех работ, то для кандидатов на все работы.

Re: Skills: frequency vs Bayesian probability

From:

dennisgorelik - Date: 2022-10-11 02:54 am (UTC) - Expand

Re: Skills: frequency vs Bayesian probability

From:

sab123 - Date: 2022-10-13 01:54 am (UTC) - Expand

Re: Skills: frequency vs Bayesian probability

From:

dennisgorelik - Date: 2022-10-14 03:07 am (UTC) - Expand

Re: Skills: frequency vs Bayesian probability

From:

sab123 - Date: 2022-10-26 04:49 am (UTC) - Expand

Re: Skills: frequency vs Bayesian probability

From:

dennisgorelik - Date: 2022-10-27 04:46 am (UTC) - Expand

Re: Skills: frequency vs Bayesian probability

From:

sab123 - Date: 2022-10-28 06:30 am (UTC) - Expand

Re: Skills: frequency vs Bayesian probability

From:

dennisgorelik - Date: 2022-10-28 07:39 am (UTC) - Expand

Re: Skills: frequency vs Bayesian probability

From:

sab123 - Date: 2022-11-03 04:20 am (UTC) - Expand

Re: Skills: frequency vs Bayesian probability

From:

dennisgorelik - Date: 2022-11-03 06:28 pm (UTC) - Expand

Re: Skills: frequency vs Bayesian probability

From:

sab123 - Date: 2022-11-05 12:50 am (UTC) - Expand

Re: Skills: frequency vs Bayesian probability

From:

dennisgorelik - Date: 2022-11-05 01:10 am (UTC) - Expand

Re: Skills: frequency vs Bayesian probability

From:

sab123 - Date: 2022-11-10 01:48 am (UTC) - Expand

Re: Skills: frequency vs Bayesian probability

From:

dennisgorelik - Date: 2022-11-10 02:43 am (UTC) - Expand

Re: Skills: frequency vs Bayesian probability

From:

sab123 - Date: 2022-11-10 04:58 am (UTC) - Expand

Квадрат Bayesian probability

From:

dennisgorelik - Date: 2022-10-11 03:02 am (UTC) - Expand

Re: Квадрат Bayesian probability

From:

sab123 - Date: 2022-10-13 01:53 am (UTC) - Expand

Re: Квадрат Bayesian probability

From:

dennisgorelik - Date: 2022-10-14 03:13 am (UTC) - Expand

Re: Квадрат Bayesian probability

From:

sab123 - Date: 2022-10-26 04:47 am (UTC) - Expand

Re: Квадрат Bayesian probability

From:

dennisgorelik - Date: 2022-10-27 04:49 am (UTC) - Expand

Re: Квадрат Bayesian probability

From:

sab123 - Date: 2022-10-28 06:31 am (UTC) - Expand

Re: Квадрат Bayesian probability

From:

dennisgorelik - Date: 2022-10-28 07:38 am (UTC) - Expand

From:

dennisgorelik

> Есть словосочетания, которые указывают на то, что рядом с ними выражаются желания кандидата. Например, "objective", "looking for", но не только они, а и прочие.

Секция "Objective" - задумывалась для того, чтобы изложить желания кандидата.
Но большинство кандидатов просто хотят денег побольше, причем стесняются об этом написать.
Поэтому пишут всякую обобщенную фигню про то, как они хотели бы повысить свой уровень качества работы и не упоминают skills, которые помогают найти наиболее подходящую этим кандидатам работу.

> Это не рецепт, а направление для дальнейшего изучения.

Я этот "не рецепт" уже изучил. Выглядит довольно безнадежно.
Проще просто пытаться найти skills в тексте, а на заголовок "Objective" - не обращать внимания.
Также лучше не обращать внимание на "looking for".

From:

sab123

Ну так естественно, что такое карьера? - это последовательность работ в одной и той же области, только желательно с постепенно увеличивающейся должностью и деньгами. Но бывают и варианты, как в твоем примере. То есть не надо смотреть _только_ на objective, но и на его тоже. Там же могут содержаться уточнения про географию, тип компании и т.д.

Вот кстати о географии, очеь бесит, когда единственный способ фильтрации - по зип-коду, и в радиус попадает какой-нибудь Нью-Йорк или Сиэттл, и потом этот мусор приходится вручную вычищать.

From:

dennisgorelik

> очеь бесит, когда единственный способ фильтрации - по зип-коду, и в радиус попадает какой-нибудь Нью-Йорк или Сиэттл, и потом этот мусор приходится вручную вычищать.

Какую ты видишь альтернативу кругу поиска с определенным радиусом?
Рисовать карту с границами зоны поиска работ?
99% кандидатов подобным заморачиваться не станут, даже если им дать в руки такой инструмент.

From:

sab123

Идеальным вариантом я хотел бы иметь чекбокс "no downtown".

Re: Search location and distance

From:

dennisgorelik - Date: 2022-10-11 02:41 am (UTC) - Expand

Re: Search location and distance

From:

sab123 - Date: 2022-10-13 01:55 am (UTC) - Expand

Re: Search location and distance

From:

dennisgorelik - Date: 2022-10-14 03:01 am (UTC) - Expand

From:

dennisgorelik

> То есть не надо смотреть _только_ на objective, но и на его тоже.

В objective тоже может оказаться что-то полезное, но смотреть надо не на то, что это objective, а на то, какие skills можно обнаружить в тексте.

> Там же могут содержаться уточнения про географию

Это как? "Исключить работы в NYC"?

Re: "Objective" and "looking for"

From:

sab123 - Date: 2022-10-10 06:23 pm (UTC) - Expand

Re: "Objective" and "looking for"

From:

dennisgorelik - Date: 2022-10-11 02:36 am (UTC) - Expand

Re: "Objective" and "looking for"

From:

sab123 - Date: 2022-10-13 01:57 am (UTC) - Expand

Чекбокс, исключающий препятствия

From:

dennisgorelik - Date: 2022-10-14 02:59 am (UTC) - Expand

Re: Чекбокс, исключающий препятствия

From:

sab123 - Date: 2022-10-26 05:00 am (UTC) - Expand

Re: Чекбокс, исключающий препятствия

From:

dennisgorelik - Date: 2022-10-27 04:39 am (UTC) - Expand

Re: Чекбокс, исключающий препятствия

From:

sab123 - Date: 2022-10-28 06:27 am (UTC) - Expand

Re: Чекбокс, исключающий препятствия

From:

dennisgorelik - Date: 2022-10-28 07:40 am (UTC) - Expand

From:

dennisgorelik

> Другой пример - скиллзы в недавних работах гораздо более важны, чем скиллзы в работах десятилетней давности.

Да.
Поэтому, чем skills ниже в тексте резюме, тем меньший вес они имеют при нашем подсчете.

From:

dennisgorelik

> У тебя, кстати, есть хорошая возможность набрать много тренировочных данных, если хранить историю резюме. Вот у тебя есть человек с неким резюме, ищет работу. Потом через какое-то время опа, он же закачивает новое резюме, в котором добавилась новая работа. Это твой сигнал, что человек с таким-то резюме хорошо подошел для вот такой работы.

Если бы человек хорошо подошел для новой работы, то он, вероятно, уже бы не публиковал новое резюме, верно?
Может быть, связь старой секции и новой секции -- это не сигнал, а антисигнал?

From:

sab123

Все такие теории, конечно, нужно проверять на практике. Вообще любое резюме содержит трениовочные данные, если рассматривать каждую работу как следствие предыдущих. Но при этом во-первых теряется часть сигнала - например, старый objective будет неизвестен, во-вторых данные могут быть устаревшие.

From:

dennisgorelik

> Все такие теории, конечно, нужно проверять на практике.

Обычно подобная практика есть у рекрутеров, которые получают свою компенсацию только после того, как кандидат проработает на новом месте 3 месяца.
Рекрутеры видят какие резюме с какими ключевыми словами привели к стабильному трудоустройству, а какие - нет.

From:

sab123

Вдогонку, для распознавания разных контекстов использования слов может подойти нейросеть (но может быть и чего-то более простого будет достаточно). Например, машинный перевод нынче делается в два этапа, двумя сетями. Первая пытается распознавать смысл слов в контексте, вторая получает слова не в сыром виде, а в виде индикации от первой, и пытается генерить перевод.

Распознавание смысла делается примерно так: делается сеть, которая пытается предсказывать следующее слово. Она натренировывается. Потом с нее срезуют верхний слой нейронов, и используют выходы с предпоследнего слоя как индикаторы смысла.

Но я сам на анализ текста подробно никогда не смотрел, представляю только в общих словах. Могу еще сказать, что для анализа текста типовой топологией сети является LSTM, которая закольцовывает сигнал с выхода на вход.

From:

dennisgorelik

> Распознавание смысла делается примерно так: делается сеть, которая пытается предсказывать следующее слово. Она натренировывается. Потом с нее срезуют верхний слой нейронов, и используют выходы с предпоследнего слоя как индикаторы смысла.

Это слишком сложно для имплементации если конечная цель - найти наиболее подходящие работы для резюме.