Посмотрите, каким шикарным графиком поделились со мной коллеги!
Это график распределения частотности двух событий за всю жизнь пользователя. X — число событий типа А в месяц, Y — число событий типа Б в месяц, каждая точка — отдельный пользователь. На графике увеличена область от 0 до 1 по обоим шкалам. Откуда здесь полосы?!
Такие полосы постоянно появляются на графиках распределения дробей. Посмотрите, например, графики с выборов про политические партии или снос домов в Москве — эти полоски много раза давали диванным политологам повод обвинить всех подряд в коррупции.

Давайте вернемся к нашему графику и посмотрим, откуда же берутся эти полоски. Итак, положение каждой точки задается тремя числами — ,
и
, так, что
,
.
Если зафиксировать , то при варьировании
получается прямая
, это диагональ графика. Если поварьировать отношение
, получатся кривые
, это лучи, исходящие от центра. Линии, параллельные осям координат, можно получить, например, фиксируя
, и перебирая при этом различные
. Распишем формулу линии для общего случая
. Подставим
и
:
, т.е.
.
Но почему же точки, в итоге, собираются вдоль этих правильных линий, а не рассыпаются равномерно по плоскости? Тут размышления посложнее. Дело в том, что,
и
это целые числа, взятые из реальных распределений. Из-за этого большУю часть плоскости в квадрате от 0 до 1 нельзя покрыть точками при малом N. А «покрываемые» места как раз описываются формулами выше. Если события
и
для каких-то пользователей скоррелированы — их частотности образуют центробежные лучи вдоль коэффициента соотношения. Если события для кого-то взаимозаменимы, они формируют линии с
. Т.к. точки тяготеют к координатным осям, можно сделать вывод, что при росте N частотность событий падает.
На примере ситуации с выборами — число голосующих на участке N имеет осмысленное распределение, соотношения популярности партий относительно стабильны, доли голосов за партии A и B имеет конечную вариативность для каждого N. Из-за этого графики частотности имеют такую подозрительно регулярную форму.