График распределения дроби

Посмотрите, каким шикарным графиком поделились со мной коллеги!

Это график распределения частотности двух событий за всю жизнь пользователя. X — число событий типа А в месяц, Y — число событий типа Б в месяц, каждая точка — отдельный пользователь. На графике увеличена область от 0 до 1 по обоим шкалам. Откуда здесь полосы?! Читать далее График распределения дроби

Какой банк выбрать для фрилансера c Upwork, Toptal или Crossover

Я провел небольшое исследование стоимости годового банковского обслуживания для фрилансера, ориентированного на работу с зарубежными заказчиками. В интернетах есть сравнительные описания разных банков, я же посчитал именно деньги.

Я смоделировал типичного фрилансера, работающего на заграничные фриланс-биржи типа Toptal. Отличие нашего героя от обычных мелких ИП в том, что большую часть дохода он получает в долларах. И хочет все это провести «в белую», работая как ИП на УСН 6% или патенте. Наш герой очень привередлив к ИТ-сервисам и хочет работать только с самыми технологичными банками, желательно, с дружелюбным валютным контролем. Были выбраны модные Тинькофф, Точка и Модульбанк, а также более консервативный Альфа-банк. Паттерн работы — все через интернет, минимум присутствия в офисе. Отчетность тоже будет подаваться через интернет, либо через Контур.Эльбу или Мое Дело, либо через встроенную бухгалтерию банка. Все заработанные деньги для фрилансера будут сразу уводиться на счет физлица, никаких расходов с этого счета, кроме оплаты субподряда, мы не ожидаем. Читать далее Какой банк выбрать для фрилансера c Upwork, Toptal или Crossover

Формальная постановка задачи предиктивного моделирования

На прошлой неделе встрял в теоретическую дискуссию с одним data scientist’ом  о формальной постановке задачи предиктивного моделирования. Тема совершенно оторванная от реальности, но тем не менее, может, кому-то из неофитов покажется полезной.

Data scientist обычно не выбирает задачи сам себе. Задачи исходят из бизнес-кейса и предметной области, а гипотезы и модели подбираются, исходя из их практической применимости. Более того, большинство гипотез о решении задач уже давно придуманы и осмыслены людьми, работающими с предметной областью — технарями, продажниками, рисковиками и т.п. Читать далее Формальная постановка задачи предиктивного моделирования

Версионирование .ipynb в git: готовые решения

Я очень не люблю класть .ipynb блокноты в git. На каждое движение они изменяют свои метаданные, порождая хаотичные диффы. Если класть .ipynb в систему версионирования, то нужно предварительно очищать его от всех входов и выходов и следить, чтобы никто нечаянно не закоммитил неочищенную версию, и это все очень неудобно… Оказывается, не я один беспокоюсь из-за этого. Читать далее Версионирование .ipynb в git: готовые решения

Как класть Parquet 2: внутреннее устройство

Почему-то в интернетах не так уж много пишут о внутреннем устройстве Parquet. Мне удалось найти всего несколько достойных внимания источников, и это официальный док, readme для parquet-mr, официальная презентация и презентация про оптимизацию от Ryan Blue. Кроме этого, у нас есть JavaDoc к ParquetOutputFormat.java и гора исходников. Давайте разберемся, как же оно работает? Читать далее Как класть Parquet 2: внутреннее устройство