График распределения дроби

Посмотрите, каким шикарным графиком поделились со мной коллеги!

Это график распределения частотности двух событий за всю жизнь пользователя. X — число событий типа А в месяц, Y — число событий типа Б в месяц, каждая точка — отдельный пользователь. На графике увеличена область от 0 до 1 по обоим шкалам. Откуда здесь полосы?!

Такие полосы постоянно появляются на графиках распределения дробей. Посмотрите, например, графики с выборов про политические партии или снос домов в Москве — эти полоски много раза давали диванным политологам повод обвинить всех подряд в коррупции.

Х — доля проголосовавших «за» снос дома, Y — число домов с такой долей

Давайте вернемся к нашему графику и посмотрим, откуда же берутся эти полоски. Итак, положение каждой точки задается тремя числами — A, B и N, так, что X = A / N, Y = B/N.

Если зафиксировать A = B, то при варьировании N получается прямая Y = X = A / N, это диагональ графика. Если поварьировать отношение B / A = K, получатся кривые Y = K \cdot X, это лучи, исходящие от центра. Линии, параллельные осям координат, можно получить, например, фиксируя A / N = K, и перебирая при этом различные B. Распишем формулу линии для общего случая Y = k \cdot X + c. Подставим X и Y: B / N = k \cdot A / N + c, т.е. B - k \cdot A = c \cdot N.

Но почему же точки, в итоге, собираются вдоль этих правильных линий, а не рассыпаются равномерно по плоскости? Тут размышления посложнее. Дело в том, чтоA, B и N это целые числа, взятые из реальных распределений. Из-за этого большУю часть плоскости в квадрате от 0 до 1 нельзя покрыть точками при малом N. А «покрываемые» места как раз описываются формулами выше. Если события A и B для каких-то пользователей скоррелированы — их частотности образуют центробежные лучи  вдоль коэффициента соотношения. Если события для кого-то взаимозаменимы, они формируют линии с k < 0. Т.к. точки тяготеют к координатным осям, можно сделать вывод, что при росте N частотность событий падает.

На примере ситуации с выборами — число голосующих на участке N имеет осмысленное распределение, соотношения популярности партий относительно стабильны, доли голосов за партии A и B имеет конечную вариативность для каждого N. Из-за этого графики частотности имеют такую подозрительно регулярную форму.