Все записи автора fediq

Стивен Кови «7 навыков высокоэффективных людей», часть 1

Книгу Стивена Кови «Семь навыков высокоэффективных людей»  я перечитывал дважды. Это поистине фундаментальный труд о лаконичном списке из базовых постулатах о том, как не прожить жизнь зря. Журнал Time поместил эту книгу в «Список 25 самых влиятельных бизнес-книг», и читателю с первой главы становится ясно, за что. Читать далее Стивен Кови «7 навыков высокоэффективных людей», часть 1

График распределения дроби

Посмотрите, каким шикарным графиком поделились со мной коллеги!

Это график распределения частотности двух событий за всю жизнь пользователя. X — число событий типа А в месяц, Y — число событий типа Б в месяц, каждая точка — отдельный пользователь. На графике увеличена область от 0 до 1 по обоим шкалам. Откуда здесь полосы?! Читать далее График распределения дроби

Какой банк выбрать для фрилансера c Upwork, Toptal или Crossover

Я провел небольшое исследование стоимости годового банковского обслуживания для фрилансера, ориентированного на работу с зарубежными заказчиками. В интернетах есть сравнительные описания разных банков, я же посчитал именно деньги.

Я смоделировал типичного фрилансера, работающего на заграничные фриланс-биржи типа Toptal. Отличие нашего героя от обычных мелких ИП в том, что большую часть дохода он получает в долларах. И хочет все это провести «в белую», работая как ИП на УСН 6% или патенте. Наш герой очень привередлив к ИТ-сервисам и хочет работать только с самыми технологичными банками, желательно, с дружелюбным валютным контролем. Были выбраны модные Тинькофф, Точка и Модульбанк, а также более консервативный Альфа-банк. Паттерн работы — все через интернет, минимум присутствия в офисе. Отчетность тоже будет подаваться через интернет, либо через Контур.Эльбу или Мое Дело, либо через встроенную бухгалтерию банка. Все заработанные деньги для фрилансера будут сразу уводиться на счет физлица, никаких расходов с этого счета, кроме оплаты субподряда, мы не ожидаем. Читать далее Какой банк выбрать для фрилансера c Upwork, Toptal или Crossover

Формальная постановка задачи предиктивного моделирования

На прошлой неделе встрял в теоретическую дискуссию с одним data scientist’ом  о формальной постановке задачи предиктивного моделирования. Тема совершенно оторванная от реальности, но тем не менее, может, кому-то из неофитов покажется полезной.

Data scientist обычно не выбирает задачи сам себе. Задачи исходят из бизнес-кейса и предметной области, а гипотезы и модели подбираются, исходя из их практической применимости. Более того, большинство гипотез о решении задач уже давно придуманы и осмыслены людьми, работающими с предметной областью — технарями, продажниками, рисковиками и т.п. Читать далее Формальная постановка задачи предиктивного моделирования

Версионирование .ipynb в git: готовые решения

Я очень не люблю класть .ipynb блокноты в git. На каждое движение они изменяют свои метаданные, порождая хаотичные диффы. Если класть .ipynb в систему версионирования, то нужно предварительно очищать его от всех входов и выходов и следить, чтобы никто нечаянно не закоммитил неочищенную версию, и это все очень неудобно… Оказывается, не я один беспокоюсь из-за этого. Читать далее Версионирование .ipynb в git: готовые решения

Как класть Parquet 2: внутреннее устройство

Почему-то в интернетах не так уж много пишут о внутреннем устройстве Parquet. Мне удалось найти всего несколько достойных внимания источников, и это официальный док, readme для parquet-mr, официальная презентация и презентация про оптимизацию от Ryan Blue. Кроме этого, у нас есть JavaDoc к ParquetOutputFormat.java и гора исходников. Давайте разберемся, как же оно работает? Читать далее Как класть Parquet 2: внутреннее устройство

Как класть Parquet 1: когда использовать

Для одного клиента написал подробную инструкцию об том, как работать с Parquet. Хотел сослаться на какие-нибудь приличные гайды в интернетах, но не обнаружил таковых ни на русском, ни на английском. Придется писать самому. Итак, начинаем цикл заметок.

Apache Parquet это файловый формат для поколоночного хранения структурированных данных, оптимизированный под использование с HDFS и Apache Spark. Он великолепно подходит для хранения тяжелых таблиц, их быстрого чтения и фильтрации. По производительности и компактности он оставляет далеко позади себя все неколоночные форматы. При этом он подходит далеко не для всех случаев. Давайте поговорим, когда имеет смысл его использовать, а когда лучше обойтись другими форматами. Читать далее Как класть Parquet 1: когда использовать

Как разрабатывают скоринговые модели для банков

Поучаствовал в дискуссии на тему разработки скоринговых моделей для банков. Полный текст дискуссии — в сообществе Open Data Science, вступайте.

Крупные розничные банки разрабатывают скоринговые модели сами, в первую очередь потому, что это их core business. Скоринговая модель оперирует многомиллионными бюджетами, цена ошибки огромна, параметры зависят от кредитной политики, в итоге естественно желание полностью контролировать модель. Кроме того, допуск аутсорсеров к модели может повлечь за собой утечки, которые могут использоваться мошенниками или конкурентами. Читать далее Как разрабатывают скоринговые модели для банков

Ха-Джун Чанг «Как устроена экономика»

Недавно мне в руки попалась книга Ха-Джуна Чанга (Чхана) «Как устроена экономика». Это ориентированная на широкие массы книга, которая пытается донести мысль, что экономика довольно проста для понимания, с одной стороны, и что на нее не существует единственно верной точки зрения, с другой.

Автор напирает на то, что в экономике как гуманитарной науке не может быть объективных законов, как в физике или химии, что экономика сильно замешана с политикой и ввиду своей сложности и не может быть рассмотрена в рамках одной целостной теории. Последний тезис направлен на подрыв позиций главенствующей неоклассической экономической школы, которая, хотя и подкупает своей математической строгостью, опирается на нереалистичные предположения.

Читать далее Ха-Джун Чанг «Как устроена экономика»

Data Science кейс-клуб: Николай Трошнев, МТС

7 марта 2017 состоялось вторая встреча Data Science кейс клуба. Рассказывал Николай Трошнев, начальник отдела управления данными департамента стратегического маркетинга МТС. Я составил краткий конспект выступления.

Читать далее Data Science кейс-клуб: Николай Трошнев, МТС