задопихание
Oct. 4th, 2022 01:04 pm![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
Как backpropagation выводится из градиентного спуска:
https://babkin-cep.blogspot.com/2022/10/optimization-4-backpropagation-for-last.html
https://babkin-cep.blogspot.com/2022/10/optimization-5-backpropagation-further.html
https://babkin-cep.blogspot.com/2022/10/optimization-4-backpropagation-for-last.html
https://babkin-cep.blogspot.com/2022/10/optimization-5-backpropagation-further.html
Skills: frequency vs Bayesian probability
Date: 2022-10-07 04:11 am (UTC)Да: частота использования скилла в резюме - кореллирует с вероятностью того, что работника наняли из-за этого скилла.
> и частоту скилла у работ, то есть работников после найма, это твоя постериорная вероятность.
Нет.
Частота употребления скилла в описании работы - коррелирует с востребованностью этого скилла на этой работе. А вовсе не с тем, сколько работников на этот скилл уже наняли.
> Когда ты их делишь, ты получаешь условную вероятность найма с таким скиллом
В данном случае, чтобы получить вероятность найма с таким скиллом, надо умножать эти две частоты использования, а не делить их друг на друга.
> Байесовую модель можно развернуть и дальше - получить рейтинг соответствия резюме к вакансии исходя из полного списка скиллов, перечисленных в обоих.
Да, примерно так можно считать match score.
Но это слабо похоже на байесовую модель.
Re: Skills: frequency vs Bayesian probability
Date: 2022-10-08 12:03 am (UTC)Нет, умножать не надо. Чтобы понять байесову формулу, проще всего начать с рисования квадрата, который будет представлять всех кандидатов. Потом его поделить на две части: в одной части те, что нашли работу, в другой - что не нашли работу, и с площадью пропорциональной количеству. Потом каждую часть поделить на две части: у которых есть скилл, и у которых нет скилла.
Априорная вероятность встречания скилла среди всех кандидатов - это соотношение количеств: (есть скилл) / (все кандидаты)
Постериорная вероятность встречания скилла среди нашедших работы - это: ((есть скилл) И (нашел работу)) / (нашел работу)
Условная вероятность нахождения работы при наличии данного скилла - это: ((есть скилл) И (нашел работу)) / (есть скилл)
То есть, можно даже пропустить два деления и просто сразу делить количество встречания скилла среди работ на количество встречания скилла среди кандидатов.
Re: Skills: frequency vs Bayesian probability
Date: 2022-10-08 03:21 am (UTC)Ты говоришь о том, насколько много resumes содержат рассматриваемый нами skill (HowManyResumesContainOurSkill).
Я же говорю о том, сколько раз рассматриваемый нами skill встречается в одной работе (HowManyTimesOurResumeContainsOurSkill).
Вероятность соответствия между резюме и работой:
- пропорциональна 1/HowManyResumesContainOurSkill
- пропорциональна log(HowManyTimesOurResumeContainsOurSkill + 1)
То есть формула вероятности:
log(HowManyTimesOurResumeContainsOurSkill + 1) / HowManyResumesContainOurSkill
> проще всего начать с рисования квадрата, который будет представлять всех кандидатов
Всех кандидатов на все работы?
Или всех кандидатов на одну работу?
Re: Skills: frequency vs Bayesian probability
Date: 2022-10-10 06:35 pm (UTC)В смысле, не в работе, а в резюме?
> Вероятность соответствия между резюме и работой:
> - пропорциональна 1/HowManyResumesContainOurSkill
> - пропорциональна log(HowManyTimesOurResumeContainsOurSkill + 1)
Так не получается, математически она не может быть одновременно пропорциональна обоим. Если ты каждому резюме приписываешь вес в log(HowManyTimesOurResumeContainsOurSkill + 1), то математически правильно будет смоделировать, что вероятность соответствия будет 1/(сумма_этих_весов).
Ну, не говоря уже про использование частоты встречания фразы как предсказателя ценности. Если кто-то поменял за год 5 работ и в каждой написал скилл, будет ли ему соответствие лучше, чем человеку, который написал этот скилл один раз в одной работе?
> Всех кандидатов на все работы? Или всех кандидатов на одну работу?
Хоть так, хоть так, смотря что хотеть мерять. Если ты ищешь среди всех работ, то для кандидатов на все работы.
Re: Skills: frequency vs Bayesian probability
Date: 2022-10-11 02:54 am (UTC)> В смысле, не в работе, а в резюме?
Да, сколько раз skill встречается в резюме (а не в работе).
На самом деле, сколько раз skill встречается в работе - тоже желательно учитывать. И тоже по логарифмической шкале. Только, естественно, при подсчитывании match score - нужно будет поделить на сумму весов skills (умноженных на логарифм количества встречания этих skills.
А вот для резюме -- логарифмы количества использования skills в резюме - делить на общую сумму -- не обязательно. Потому, что мы ищем (и сортируем) работы для одного резюме. Поэтому делитель, во всех случаях, одинаковый. Поэтому сортировка не нарушается.
> Если кто-то поменял за год 5 работ и в каждой написал скилл, будет ли ему соответствие лучше
Мы же ищем наиболее подходящую работу для этого job-hopper. Поэтому учитывать нужно только пропорцию между skills в этом резюме.
Если бы мы для работы искали кандидатов - тогда нужно было бы делить resume matching skills score на общую skills score.
Re: Skills: frequency vs Bayesian probability
Date: 2022-10-13 01:54 am (UTC)Re: Skills: frequency vs Bayesian probability
Date: 2022-10-14 03:07 am (UTC)1) Даже если бы это было так (а это не так), это никак не отменяет того, что при поиске работ для job seeker, учитывать нужно только пропорцию между skills в этом резюме.
2) Обычно, люди часто меняют работу потому, что на интервью они выглядят лучше, чем в самой работе.
Re: Skills: frequency vs Bayesian probability
Date: 2022-10-26 04:49 am (UTC)2) обычно люди часто меняют работу потому, что постепенно находят варианты с больше денег
Re: Skills: frequency vs Bayesian probability
Date: 2022-10-27 04:46 am (UTC)> как мы уже обсудили, более недавние скиллы важнее давних
Да: недавние skills - важнее давних.
Поэтому при учете пропорции между skills в резюме - надо учитывать и давность тоже.
>> 2) Обычно, люди часто меняют работу потому, что на интервью они выглядят лучше, чем в самой работе.
> 2) обычно люди часто меняют работу потому, что постепенно находят варианты с больше денег
Варианты с "больше денег", для подавляющего большинства людей - не возникают часто.
Re: Skills: frequency vs Bayesian probability
Date: 2022-10-28 06:30 am (UTC)Если цены на рыне труда растут, то как раз возникают часто. Каждый работодатель норовит спросить прошлую зарплату, и предложить чуть больше нее. Поэтому скажем вместо чем один раз поменять работу и повысить зарплату вдвое, окажется, что пришлось менять работу 3 раза и каждый раз добывать 30% (а то и 10 раз по 10%).
Re: Skills: frequency vs Bayesian probability
Date: 2022-10-28 07:39 am (UTC)Re: Skills: frequency vs Bayesian probability
Date: 2022-11-03 04:20 am (UTC)Re: Skills: frequency vs Bayesian probability
Date: 2022-11-03 06:28 pm (UTC)Re: Skills: frequency vs Bayesian probability
Date: 2022-11-05 12:50 am (UTC)Re: Skills: frequency vs Bayesian probability
Date: 2022-11-05 01:10 am (UTC)Ведь программист с опытом работы на текущем проекте, как правило, гораздо важнее/продуктивнее, чем программист, нанимаемый со стороны.
Re: Skills: frequency vs Bayesian probability
Date: 2022-11-10 01:48 am (UTC)Re: Skills: frequency vs Bayesian probability
Date: 2022-11-10 02:43 am (UTC)Получается, что причина, по которой переходящие с работы на работу зарабатывают больше -- заключается в том, что на новом месте -- нет других людей, согласных работать за меньшие деньги?
Re: Skills: frequency vs Bayesian probability
Date: 2022-11-10 04:58 am (UTC)Квадрат Bayesian probability
Date: 2022-10-11 03:02 am (UTC)Давай рассмотрим случай "всех кандидатов на одну работу" (как более простой).
Ты написал: Под "не нашли работу" ты имеешь ввиду, что "не нашли работу, на которую мы, сейчас, пытаемся найти кандидатов? Или "не нашли никакую работу"?
Re: Квадрат Bayesian probability
Date: 2022-10-13 01:53 am (UTC)Re: Квадрат Bayesian probability
Date: 2022-10-14 03:13 am (UTC)Re: Квадрат Bayesian probability
Date: 2022-10-26 04:47 am (UTC)Re: Квадрат Bayesian probability
Date: 2022-10-27 04:49 am (UTC)Это - неверное предположение.
Есть много работ, на которые никого нанять не могут. Или могут нанять, но потом хотя снова заменить на другого соискателя, потому что предыдущий не устраивает (или сбежал).
И есть много работ, которые нанимают вообще без публикации вакансии. Например, по знакомству. Или с помощью поиска в базах резюме.
Re: Квадрат Bayesian probability
Date: 2022-10-28 06:31 am (UTC)Re: Квадрат Bayesian probability
Date: 2022-10-28 07:38 am (UTC)