sab123: (face)
SB ([personal profile] sab123) wrote2015-08-12 03:45 pm

как в пословице про статистику

Увидел в http://freedom-of-sea.livejournal.com/278381.html разбиение зарплат (кстати, не доходов!) в России по децилям. Но для децилей указаны не границы, а почему-то средние значения в них (кстати, непонятно, действительно средние, или все же медианы).

Та же фигня имеется с американскими данными: они норовят скажем делить на квинтили и для каждого квинтиля показывать медиану. Вместо границ. То есть, конечно, медиана - тоже граница, но посередине участка, и вместо 20-40-60-80% выходит 10-30-50-70-90%. Но зачем выдумывать такие корявые выдумки и все запутывать? Оттуда же, видимо, растет и когда-то обсуждавшийся с [livejournal.com profile] spamsink вопрос о разбросе данных по верхнему одному проценту. Похоже, что некоторые данные - граница 1%, а некоторые - медиана, то есть граница 0.5%.

Из объяснений мне приходит в голову только увеличенная драматичность. Разница между 90% и 10% выйдет больше, чем между 80% и 20%. А всякие новостные конторы любят драматику.

[identity profile] spamsink.livejournal.com 2015-08-12 11:03 pm (UTC)(link)
Объяснение простое: логично, что если делим на квинтили, то нетривиальных значений должно быть 5, а не 4, раз при отсутствии какого бы то ни было деления мы таки имеем одно нетривиальное значение - медиану, а не только две границы - 0 и "бесконечность" - самый большой доход у отдельного человека в стране.

[identity profile] sab123.livejournal.com 2015-08-12 11:30 pm (UTC)(link)
Не, если делим на участки, то интересны именно границы. Кстати, да, и максимум и минимум тоже. Но если делить по центрам квинтилей, то почему тогда нельзя написать прямыми и понятными словами, что это 10-30-50-70-90, а нужно непременно выдумывать запутанные формулировки?

[identity profile] spamsink.livejournal.com 2015-08-12 11:48 pm (UTC)(link)
Минимум неинтересен, это всегда 0. Максимум - тоже: он зависит от того, было ли в этом году у кого-нибудь из миллиардеров событие, вызывающее крупный налогооблагаемый доход, или нет, а это дело случайное.

[identity profile] kcmamu.livejournal.com 2015-08-13 04:43 am (UTC)(link)
Действительно средние. Сложи и подели на 10 -- получится общее среднее 33800.03, что сходится с написанным у них слева.

[identity profile] sab123.livejournal.com 2015-08-13 05:00 am (UTC)(link)
Тогда получается и вовсе мешанина. Оно может как-то полезно, чтобы составить представление о распределении в крайних группах. Но в-остальном только запутывает.