Подготовка к собеседованию на Data Scientist
Менторы
Специалисты своей области, которые смогут помочь вам
Middle .Net Developer
Senior Product Manager
Middle Python Developer
Ведущий программист
Backend Software Engineer (PHP)
Senior .NET/C# developer
Middle DevOps Engineer | Tbilisi, Georgia
Middle C# .NET
Senior PHP-разработчик
Middle python developer
Каналы
Полезные Telegram каналы и чаты
Транскрипция видео:
всем привет мы начинаем новое шоу на нет а где нанимающим менеджерам ведущих компаний в digital направлениях проводит интервью с реальными кандидатами и дает им фидбэк в реальном времени без купюр если вам интересно как проходит интервью в дейта сайнс проджект менеджмент на позицию дизайнер или может быть разработчика то youtube дал вам правильную рекомендацию меня зовут виктора гуленко и вы смотрите канал тв лес если вам интересно не забудьте полайкать замкнуть колокольчик подписаться и конечно перейти на наш
00:00:03 - 00:01:04
телеграм-канал где вы увидите все последние новости шоу а также сможете принять участие в шоу в качестве кандидата или в качестве интервьюера сегодняшнем эпизоде интервью на позицию middle дейта сантис поехали [музыка] всем привет меня зовут алексей чернобров являюсь консультантом падают и сайнс и монетизации данных работал с различными компаниями такими как x5 retail group ростелеком северсталь втб сити модель без доп и многими другими я свою карьеру проводил больше сотни собеседования поэтому я очень хорошо знаю что нужно
00:00:35 - 00:02:02
спросить чтобы понять действительно ли человек разбирается в дык сайт или от лишь поверхностные знали всем привет меня зовут николь она анастасия я работаю дантистом в крупном банке и также умерь свой канал про да это сайт на давайте немножко сначала расскажешь наверное про свой опыт а потом мы перейдем каверзным вопросом ну не обязательно covers а начиналось будет это союз еще в мтс начиналось позиция джона там мы делать скажем такую саму simple модель для контактного центра смотрели зависимости как сделать
00:01:21 - 00:02:31
так чтобы перевести часть звонков в наш наше мобильное приложение на звонки скажем выходит много денег это очень дорогостоящее дорогостоящий процесс и конечно же нам было выгоднее перевести их в чат мобильное приложение следующие моего удара чуть поподробней мужская игра я была вот за твари конкретная работа что-то непосредственно делал окей модели строила как она была общая работа самого страны я была в роли аналитика если касаемо прям чистой воды the silence я строил модели социализации то все смотрела по клиентам
00:01:59 - 00:03:04
как вообще можно можем ли мы этих клиентов разбить на группы исходя из того какие не звонки совершают какие у них есть тарифные планы сколько ни минут на этот раз некоторую агрегированного информацию собирала и дальше просто делала классный на лис спиральный если сейчас не ошибаюсь с помощью спектрального анализа смотрела как они распределяются на группы из материала вообще можем ли мы их самое главное перевести в мобильное приложение в чат как выяснилось что часть людей действительно on они очень любят много звонить то есть им
00:02:32 - 00:03:46
важнее позвонить чем написать если у них даже есть такая возможность то их очень тяжело будет привести часть людей действительно она более скажем гибкая их больше чем тех кто любит постоянно делать звонки их было проще перевести и как раз была задача а понять кто эти люди чем они отличаются от тех кого мы пока не можем перевести б выстроить сам процесс как мы это вообще в принципе должны сделать то есть это именно шаги как мы будем работать как мы будем взаимодействовать с клиентом через какие каналы мы будем работать то есть здесь
00:03:09 - 00:04:21
нужно задействовать сразу несколько sms например когда человек приходит к тебе в салон это тоже очень важно и что самая интересная и классная штука которая выяснилось это если человека направлять скажем в этот канал чат 2 месяца подряд то с большей вероятностью там вероятность почти и там около 90 процентов что вон там останется вот то есть задача была первые два месяца если человек раньше какое-то посчитали пройти два месяца этот эксперимент проводили или как польской мы смотрели именно как сказать скажем
00:03:45 - 00:04:56
надеево такое решение на дерево последовательности как себя человек вел просто разложили скажем его путь в ралли грубо говоря некоторых клиентов и по лестнице по ступенькам их раскладывают и сколько человек из этого канала как бы как бы объяснить перетекает другой вот например если то что я сейчас помню канала 1 канал 2 например вот это звонки мы смотрели как они дальше помесячно разбиваются она просто запустили xperia нам просто считали уже как получится и мы брали именно историчность и смотрели
00:04:21 - 00:05:33
вот именно потому что а еще задача была почему мы именно так делали его задачей было вообще посмотреть как работает контактный центр это на самом деле кажется странным но когда вы делаете совершать звонок например мтс мегафон билайн вам кажется что нужно нажать всего лишь 5 кнопочек но за этими пятью кнопочками стоит огромный бизнес процесс стоит огромнейшая команда и действительно там можно сказать в таком более хаотичным все режиме происходит и задача была выстроить как бы собрать весит хаотичный
00:04:57 - 00:06:06
процесс привести в более понятный вид понять что там вообще происходит потому что есть какое-то глобальное понимание у людей но не понятно что же там внутри как нам перевести этих людей как нам сэкономить деньги и понятно давай двинемся дальше что-то делала после мтс а после мтс я работала в рекламном агентстве там задачки были скажем были такие прям для by the silence первое это мы анализировали kookie cookie на сайте клиента к нам приходил какой-то клиент и задача была во первых понять кто опять же эти люди
00:05:32 - 00:06:48
при помощи кластерного анализа опять же здесь отлично сыграла спектральная кластеризация об этом чуть позже кто этот клиент на какие группы он разбивается и самое главное какие из этих групп наиболее конверсионные чтобы дальше по этим группам делать look-alike и соответственно грубо говоря попадать в цель прошу а после и забыла еще про один проект парсинг инстаграма парсинг соцсетей но лично мой парсинг инстаграма мы мы просто к нам также приходил клиент задачей было найти молодых мам с детьми до трех лет до известно даже они всем
00:06:10 - 00:07:34
нужны да как и msi это всем нужно его первых понять на каких группы они также разбиваются какие у них есть интересы и здесь на самом деле было прикольно задачей а потому что нас не было больших вычислительных мощностей и нужно было сделать это все так чтобы и найти их и грамотно обработать фотографии и из-за этого действительно вытащить какие-то инсайты в том числе самые важные инсайты это ssd замужем не замужем это супер важно и доходы окей а ты сама портала или какая-то часть власти мы пробовали изначально сами парсить инсту
00:06:52 - 00:08:05
ну так как там постоянно меняется вот эта вся шапка как они все делает алгоритмы мы уже использовали скажу уже впоследствии готового решения потому что у нас на этом постоянно были костыли ту стену что-то делаю на неделю все работы на следующей неделе это уже не работает приходится на это тратить очень много времени смотреть по каким тегам это все находится уже на самом сайте мы просто использовали готовые решение там уже специально обученные люди именно на этом решении нам насколько это законно но так как профиль открыт все
00:07:29 - 00:08:37
это открыто насколько помню это было полтора года на два года назад здесь 10 штук законная но мы обеспечиваем данные то есть мы не скажем мы не ориентируемся на как на какой-то конкретный профиль мы не говорим что вот это там катя даша маша вот они здесь живут просто обезличен реально делаем какие-то о хищнике и присваиваем то есть нам без разницы кто это простой мы вытаскиваем какую-то информацию все окей хорошо давай еще дальше двинемся чтобы после этого после этого уже был росбанк любимый размаха которым я сейчас
00:08:03 - 00:09:15
были простые банковские задачки были задачи связанные с вами именно с продакшеном то есть было задачи дальше больше познакомиться с инструментами idat инжиниринга окей ну давай тогда да если не можешь эта вещь или примерно где находится за индии рассказывать про да их не будем рассказывать а какое твою там самые интересные и самые может быть там занимательный какой-то проект про тебя была фаза за последнее время в росбанке или не обязательно в росбанке делать против project можно даже сказать мой ютуб-канал недавно и что самого
00:08:40 - 00:09:55
интересного было я пробовала делать анализ комментариев на youtube но сделала там сначала более усложненную модель расскажи подробней то есть какая была модели я как правило просто уже используют стандартной библиотеки bird вот и дальше и дальше уже если не ошибаюсь уже разбить это все на какие-то кластеры миг об успехе но более-менее нормально на самом деле комментарии youtube а очень тяжело обрабатывается потому что ну один кластер очень сильно проявлялся я кстати портала по запросу вода это собственно
00:09:17 - 00:10:28
русскими буквами один это понятно то что этот кластерном спасибо слова благодарности всякое такое ну а те тематики очень сильно зависели от того какие топ 100 видео я пошла удобства видео не выходили каждый раз там были о каком-то конкретном человеке в да это сайнс даже меня был кластер появлялся в очень известном какие-то были вообще о самой компании который недавно буквально выпустила это видео какие-то были конкретный сайт математика насколько я помню там алгебры в общем а касаемо уже по поводу проекта немножко отошли вдали
00:09:52 - 00:11:08
здесь уже у меня задача была для ребят показать как вы это можете сами сделать как вы можете грубо говоря прикоснуться к production ну просто взяла те pdf самый обычный распарсить и комментарии на youtube на ютубчике и дальше просто кластерном анализом самым обычным я это все на тематике разбила но понятное дело что качество как бы так себе назначение в этом задача была в том чтобы прикрутить здесь эмаль flow чтобы проехать во-первых метрики и чтобы например когда нас есть production чтобы я например зафиксируй какую-то модель с
00:10:30 - 00:11:44
наилучшими метриками и ее уже например подтягивала дали бог мой коллега какой еще им пользовался и здесь еще дополнительно так нам постоянно нужно обновлять нашу модель где еще был прикручен ярком прикольно а давай про метрики подвоем ты горишь проверяла метре тетя были метрики что смотрела а метрики это силуэт ный score первую очередь но насколько кластеры различимы друг от друга это для простой такой задачи сюда бы я еще прикрутила как обычно мы делали это заполненность кластеров это что немаловажно
00:11:07 - 00:12:17
интерпретируем из кластеров потому что очень часто применяет cummins то же самое но не смотрят на как ты интерпретируешь кластеров в числе висимости от задачи ну то есть например если касаемо там тематик я смотрю там 1 заполненность на 1 топ 10 слов если там какое-то очень сильно и разнообразие они никак не вяжутся между собой плюс дополнительная конечно же смотрю на силуэт ный score я смотрю на меш кластерное расстояние я смотрю на размер этих кластеров обязательно размеры и вообще как по каждому кластеры ей заполняемость
00:11:42 - 00:13:05
если что-то не то как бы я да не как бы они могут быть хорошо заполнены такое бывает если что то нет а то как бы я пробую например другое частично используя шары вручную и там условно подход какой то что это играл вы что ты используешь имел flow хотела все это автоматизировать пристик интерпретировать все таки и делаешь а задача была здесь больше познакомиться с инструментами им любом и float то есть поэтому был написан скажем самый простой и вот просто алгоритм разбиение на тематике чтобы на этом мы
00:12:23 - 00:13:25
не зацикливались свое внимание хорошо давай теперь поговорим про уже техническую часть про технические твой скилл и с началом давай начнем задачи по теории вероятности начнем с простой сдачи тебя есть урна в ней м белых шаров и н черный шар и потом мы вытаскиваем шары по очереди им случайным образом и к а вероятность того что к той шар ну-ка разумеется меньше чем n + n окажется белым например давай посчитаем такую вероятно ну всего у нас шаров m + n это всего сколько может быть исходов вообще у нас белых шаров и здесь просто
00:12:55 - 00:14:30
применяет на условную вероятность мы можем там слоем поделить на сумму всех исходов для первого шара согласен а для котова точно также будет для котова будет точно также потому что ну нет разницы скорее всего откуда его можно вытащить ну да ну как бы я супер простые вопросы тут как бы нет подвоха да просто по уверен это я хорошо давай посмотрим чуть более сложную задачку снова есть м белых шаров и н черных теперь я тебе их отдаю и говорю вот у нас есть тем белых и черных шаров еще эти дают две урны для пустые урны и
00:13:47 - 00:15:10
говорю тебе смотри процедуры происходит следующим образом ты можешь любым образом разложить белые черные шары по этим мордам как тебе захочется потом я эти урну тебя заберу перетасуйте их и ты сможешь выбрать одну из этих урд но заранее неизвестно какую и случайным образом вытащите из неё шар и тебе нужно сделать так чтобы вероятность вытащить белый шар было максимально понятно задача то есть из любой орды мы должны вытащить белый и какова вероятность того что мы ну максимальная вероятность того что мы
00:14:28 - 00:15:45
даже не любой из той которая не достанет и случайным образом какую-то уровню из них вытащишь то я тебе нужно то есть твоя операций основная происходит тот момент когда ты загружаешь or и бурно томаш просто любым способом сделать ну вообще первое это вероятность того что мы какую-то урну выберем это точно 1 второй урны 2 но не равна вероятно его вырубить 6 далее чтобы нам вытащить на этом белый шар предположим что мы вытаскиваем его из 1 урны пеппу это белое умноженное на одну второе и вероятность там того что мы
00:15:07 - 00:16:28
какой-то второй второй исход то что мы вытаскиваем там из 2 уровне мы до 2 это первое да окей и теперь как нам вот эту всю эту штуку нужно на 100 максимизировать то согласен предположу что в первой урне все белые шары то тогда во второй уровень урне они просто отсутствуют и будет вероятность там равна нулю получается на с вероятностью же на этом ну только только если все белые эту вероятность не им а чему оно равно и все белые шары m + 1 2 ну да просто единички равна ну да шулером 1 2 ну предположим это
00:15:47 - 00:17:32
какое-то число там которым мы будем сейчас шагать 1 2 это победитель здесь можно попробовать какую-то дельту и как это разбросать эти шары так как мы грубо говоря сейчас взяли такой самый конечный вариант то можно что-то взять посерединке ну предположим что им пополам не знаю то есть тогда у нас и н по полам там будет на 1 2 это какая-то здесь функция здесь нам похожие функцию умноженное на вторую и тогда вероятность вытащить м будет на 2у нужно отдать им нужно на 2 и умноженное на 2 ну потому что будь то же самое
00:16:40 - 00:18:31
то есть это явно будет больше чем меньше чем единицы в любом случае до как вы будет меньше единицы ты получаешь куда гмм делить на m плюс и но этот на якоре skyresh тоже не оптимальная если например мы возьмем один шар здесь остается у нас минус один а здесь будет то есть мы а вот вопрос еще такое мы обязательно должны например в каждом уровне и and sheer и все шары должны быть конечно подари быть отправлено иначе иначе можно просто положить только белые и задача очень проста решит тогда здесь и нас один
00:17:34 - 00:19:04
[музыка] здесь просто получается это белый это у нас черный деленный пополам n + n деленные пополам ты вероятности что-то не так мне кажется число получается если в первой урне мы например вставляем 1 белый шар то получается количество черных шаров n минус 1 никакой ощущение то есть мы еще в 1 урне у нас один белый шар то это предложение окей да что у нас остается 2 уровня не нам же здесь нужно это прямо раскидать черный шар и но 2 черная-черная либо мы можем вообще в одной урне оставить только один белый
00:18:20 - 00:19:58
поможем если так можем то не знаю будет 1 умноженное на 2 плюс здесь у нас например n умножить на n минус 1 и на одну вторую какова вероятность из 2 2 весь первый урны понятно вытащить белые шары за один-единственный равна единичка из 2 уровню наш то что там остается у нас сколько все было шаров со всего м белых да и - 1 белый и черных у нас не изменилось у нас все всего шаров m плюс n минус 1 вероятностью точит белые соответственно м минус 1 делить на n + n минус 1 до ну это ещё на 1 2 но есть мы получаем
00:19:08 - 00:20:45
что-то добавку у нас то есть да вот у нас была какой-то bass line виде 1 2 мы здесь получаем 1 2 плюс еще штор из какой-то то ну да ну да зависит от м от м ну понятно что они в целом если шаров белых больше чем чем 2 это уже уже но уже какая-то добавляется составляющая которые явно больше чем 1 2 до новость в целом это оптимальное решение довольно понятно почему на оптимально вот оки с этим справились [музыка] wine давай попробуем задачку решить на на аск венчик вот начнем простой задачки по поводу медианы
00:19:58 - 00:21:22
говори тоже попробуй крутить у нас есть один столбец все ну просто так а колонка такой отбирая таблица до назовем ее а никита чисел китам 12 15 148 нам нужно посчитать медиану этого столбца а ну понятно что во многих там сквер диалектах есть функция медиана но мы и разумеется ее не используем начал в этой задачки большого смысла нет давай попробуем тоже ее покрутить там ну давай начнем с несколькими я бы разбила бы на подзадачи например войда войда есть там просто предположение конечно же это отсортировать так как медиана да
00:20:47 - 00:22:03
давай ну то есть там select например какой то from a room эй ордер buy ну то что along ну да какая пироженка он нам отсортирует в порядке возрастания можем диска сказать очень важно то что нужно для медиана порядке возрастания получается где-то посередине у нас будет будет одно число либо у нас будет 2 числа которые мы должны будем использовать качество медианы одно число если она отличный от соседних а два числа если у нас серединке находится в два одинаковых например 30 30 г зависит от чего нет ни этот счет от
00:21:24 - 00:22:49
количества если у нас счет четное количество то мы берем две цифры если у нас количество например чисел 31 то мы берем одну давай возьмем допустим от нечетное количество для простоты ну вот мы так сортировали а вот нам нужно теперь у нас есть отсортировано таблице мы там называет назвали таблица 1 допустим да ну неважно сейчас сами не просил у нас зал образом допустимые назвали таблица 1 как нам взять центральный центральный элемент этого столбца есть еще предположение просто посчитать это все при помощи
00:22:07 - 00:23:21
оконной функции при помощи например там ровно амбар по на этом если называть также будет колокола колонка а но мы так отсортируем по сути мы пронумеруем вот эти колонки ордер buy но они и так уже отсортированы будут предположим какой-то р-н это все будет то есть он столбец р-н будет нам говорить о последовательности какой-то один два три четыре пять шесть семь тридцать один да и что мы можем дальше сделать можем ли мы например здесь использовать функцию деление просто у нас же есть например 31 как мы
00:22:44 - 00:24:10
можем найти средний элемент поделить на 2 и взять от него ну какой то раунд и -1 потому что она будет округлять если 315 половиной она будет округлить до 16 arachne i was не знаю у меня есть другой хак на этот счет как как точно округлить так что было нужно но вся вот не не всегда уверен что он про функция round она округляет в большую и меньшую как можно чуть добавить чтобы она округляет и в нужную сторону она можно просто 31 например там ну вот это нечётное число вычесть единицу и ну да а где-то даже
00:23:28 - 00:24:54
просто не возиться с округлением уж я в раунде зависит от говоря получили например 15 лет будет тот наш самый элемент который будет там необходимо при дома теперь у нас есть таблица с с этим сам этого у нас подытожим у нас есть первый запрос который нам сортируются номерами через оконную функцию и теперь нам нужно из этой таблицы с номерами выбрать средний номер то есть ну давай этот столбец называется там ровно мы можем например view покойник сделать когда мы выбираем нашу колу значение пишем волнам был
00:24:11 - 00:25:26
сокращен написано конечно ним прикол и назовем какой-то р-н обычно даже наш музей нам нужен ром и один не какой-то там один из дирижер можем кстати selecta то есть прям в этой вещи вы пол рон и 1 в ренн -1 пополам и здесь наверное лучше под запросам делать ну что нам нужно число соответственно смог найти средний элемент to select лука о аккаунтом до -1 пополам и 10 тут на личный раз пару раз поделилась кажется что здесь должно оказаться просто у нас здесь вот как раз нужно поделить а нужно просто оставить тут
00:24:50 - 00:26:44
оставите арен просто равно да вот именно там есть в этот поделила да окей слушай спилим справилась давай транс и больше не будет вопросиков у нас давай поговорим собственно правда the sense наш любимый давай начнем наверно сам зайчикам пора линейной модели конечно понятно что из га boost как boost light кбм там и нейронные сети и так далее но тем не менее часто бывает так что вообще вот ленина модель они как бы используется на практике не зная сталкивают и на практике с линейными моделями где они
00:26:02 - 00:27:17
использую секунд продакшене когда если ты сталкивал сможешь искать просто про свой опыт с ним сталкивалась если не стал каждой подумаем где линейной модели но вот сколько там бизнесовые может быть еще по утрам точки зрения целесообразно просто они в чем то лучше чем мы густые несмотря на то чтобы понять что мы почему взрослые люди понимаем что было в среднем качестве что будет лучше здесь сразу на ум приходит от того как часто нужно пересчитывать эскорт потому что но есть большовой модели а если скажем
00:26:44 - 00:27:43
такие модели онлайн спорт чего тебе например нужно предсказать моток мир не отток и как часто тебе нужно предсказывать это все тебе может быть предсказывать нужны там 1 месяц тебе нужно подсказывать 1 день либо тебе нужно это предсказывать например вопрос про рекомендательные системы как все работает тебе нужно рассказывать это постоянно стану дать какой-то спорт онлайн я в продакшене не сталкивалась именно с линейными моделями дам мы их пробовали да мы тестировали но эти результаты как бы которые они показывали у нас не очень
00:27:13 - 00:28:33
устраивают хотелось бы больше не прочь с про качество все понятно что с качеством или иных моделей там все зависит на удар тыс ответ то значит что у онлайн согласен с этим тащить действительно тебе нужно что-то быстро рассчитывать вот если отталкиваясь там например батч опять же вопрос когда сколько раз например раз в день либо какая-то онлайн модель то в онлайне ну кажется целесообразным особенно линейной модели а не скажу лучше потому что если мы будем лучше давай вот с точки зрения лучше с точки зрения того
00:27:54 - 00:29:01
насколько быстро они могут обсчитывать в этот сны выдавать тебе результат они быстрее но что если мы запустим какие-то не рамки пока не подумают каждому выдавать нам результат может пройти несколько минут а за эти несколько минут когда человек нужно было показать какой баннер он уже не хотел это все согласен да добавив ящика бачо ну давайте хочется дополнить пробач давай если про большого и модели то здесь мне кажется можно здесь можно поступить со временем потому что если это обсчет например там раз в
00:28:27 - 00:29:41
день и тут есть нужно закладывать если что-то идет не так потому что ну мало ли там что то сломалось какие-то данные что-то не пришли сервер какие-то могут быть супер странные вещи то есть должна быть должно быть все время на реакцию на пою на реакцию на поддержку то есть если раз в день если линейная модель в принципе даёт нам результат и скажем соизмеримый с тем что мы хотим то есть нам этого достаточно для каких-то финансовых результатов для той дельты которые мы хотим заработать то почему бы
00:29:05 - 00:30:14
нет вопрос наверное интерпретации для людей которые будут потом взаимодействовать с этой моделью для бизнеса если мы хотим прям очень хорошо наши скажем финансовые показатели улучшить и мы можем поступиться как раз м что мы не обязательно должна выводить результат прямо здесь и сейчас то я бы поменяла бы посмотрел и другие модели как они работают особенно если параметров очень много если они имеют линейную зависимость если они не линейно разделим это на плоскость то я бы применял уже здесь больше деревья
00:29:39 - 00:30:43
бустинга окей да смотри хорошо давай раз мы начали при линейной модели получилось давай подумаем где вообще вечно можно вообще использовать линейная модель часто бывает так что я думаю сайт практике использую не для решения каких-то мха я тяжелых больших задач а где еще в принципе мы иметь целесообразность будет использовать если мы говорим про production может быть перри где-то использовал на ум первое что приходит кредитный скоринг потому что у тебя задача стоит больше не про то как бы сделать как применить бы
00:30:12 - 00:31:24
нейрон ки сделать супер классно задачи про толстый как интерпретировать это все в дальнейшем потому что ты все эти результаты отправишь дальнейшем ты дуешь на то банк ты с центробанком сотрудничаешь должен показать как это вообще работает у черный ящик ну окей да проинтерпретировать кашу давай вот как раз когда болеет не скоренко прикрепим вскоре допустим у тебя кто-то собрал тебя datasette на партию инстаграм и значит у него про пользователя проходит огромный вектор ну там и серии я не знаю его рост возраст и вес
00:30:47 - 00:31:57
любимый цвет одежды наличия питомца порода питомца имя жены или там еще что-либо огромный-огромный вектор в нем очевидно могут присутствовать бессмысленная фича да и как бы с помощью линейной модели понять вообще какие свечи можно сразу откинуть чтобы потом с ними не возиться у нас есть веса при каждом из параметров лишь мы можем понимать значение этого веса например если вы там равен нулю когда мы уже обучили свою модель при каком-либо параметры и какой-либо фичи то есть мы понимаем что у значимость
00:31:22 - 00:32:34
эта фича ну а на 0 0 и близко но если например там пол предположим данный привыкнуть x2 и the pool is и вес привет при этом параметры например там 10 мы понимаем что с такой силой именно нам этот параметр важный если так можно быстро метров в принципе важного модель учитывает но понятно ok хорошо а теперь добавив представим что у нас нас получилось так что он при этом 98 параметры 198 параметров значимые а два не значит ну то есть перед ними то сразу коэффициент обнулились и ну подходит причине у нас не знаю на
00:31:58 - 00:33:24
сервер там куда-нибудь джейсон и решил куда-нибудь в общем хочется странная причина давай представим что на есть помещается только 50 печей ну то есть вот мы хотим модель построить не на 98 фичах а на 50 как тоже их вот ну понятно что как так можно отобрать какие может быть у тебя есть идея кажется 55 то при этом было наилучшее качество ну конечно мы их не рандомов набираем уж правда касаемся ну как минимум из такой там параметр в алгоритмах подключен патент но мне он на самом деле не всегда очень нравится мне
00:32:42 - 00:34:00
больше нравится использовать интересен когда у тебя это отдельный метод когда он смотрит на то скажем представляет свои фичей и смотрят их значимость уже то есть уже по факту то есть этот метод можно применять их линейном модели как линейным моделям то есть ну грубо говоря мы получаем от ранжированный список наших вещей далее я бы попробовала просто взять действительно топ топ 50 этих печей и посмотреть на результат который мне выдает моя модель это первое потому что ну мало ли и фичи которые оставались внизу
00:33:21 - 00:34:41
лошади в совокупности дает больше тот же вопрос не хожу да попробовали так и потом взяли на например взяли еще поменяли последние несколько штук местами те которые не попали добавлю поменялись теме и оказалось чуть чуть лучше что-то доделать есть понятно что вот не фич impotence смотрел этот принтер canon как работает он просто те же те скажу тоже сортировку проводит но путем замены вот этих столбцов каждый раз это то есть это уже происходит внутри но по факту он выдает нам то же самое что и метод фьючер
00:34:00 - 00:35:22
патент от ранжированный скажем список хорошо согласен с этим на понятно что если мы хотим решить задачу точно но там точно нам нужно перебрать все возможные комбинации 50 из 98 понятно что ни один метод в общем это не будет делать иначе он умрет а может быть есть какие-то вот другие методы как это сделать более-менее дешево ну например там конец регуляризация может быть она если про это просто у меня была уже понимали что мы построили какую-то модель и чтобы на основании этой модели мы можем только дальше там
00:34:40 - 00:35:51
построили на модель действий если мы можем построить еще какую-то одну модель надо применить там вспомню el1 легализацию который за 0 и twice as не ошибаюсь там где стоит модуль вроде или один это лассо и при помощи вот этого параметра можно в принципе отрегулировать и количеству тех тех нулевых коэффициента перед регуляризации дались можно самом деле просто растить коэффициент при реализации увеличиваю этим самым зeмля я пока нам дано кстати давно читала что если отталкиваясь именно действительно количество свечей
00:35:17 - 00:36:31
это как бы окей но на практике работает хорошо организация rich всегда да да безусловно то есть мы сейчас не про качество мы говорим о практике такие задачи которые могут и надо всплыть ученика что про линейные модели достаточно хорошо говорили давай поговорим про сдачу авторизации как раз рассказывал что решал за чп авторизация еще расскажи про свой любимый алгоритм кластеризации если тебе приведет к 5 абстрактно сдачи на склад новой области не знаю класс тренировать не знаю цветочки или класс тренировать животных
00:35:53 - 00:37:06
или новую то предмет на область которую никто не занималась в общем не очень хорошо понимаешь специфику я обычно беру свой любим алгоритмы запускаю его в лоб новая так делаю может быть это не лучшее решение вот как бы ты снова сдачи пасторе зация подступила к путям любим алгоритм как бы ты и в принципе у меня любимый алгоритма на самом деле его очень часто применяют алгоритмом спектрально кластеризации потому что например если когда предположим ты проецируешь свои объекты на воды плоскость иногда кластеры имеет сложную
00:36:30 - 00:37:31
структуру вот этого горит мо позволяет находить именно зависимости даже при вложенность если мы берем тот же самый cummins ну да то есть там уже больше зависит от того во-первых акт изначально выбрал центр класс ну дак вот именно от исходного значения и дальше он смотрит количество объектов вокруг этого центра изменяет далее центр то есть он не учитывает вот эту вложенность сравнивает с тем например когда у людей есть похожие интересы но у них разный пол полным например там важен потому что мы продаем
00:37:00 - 00:38:06
какой-то продукт это не будешь продавать для женщины но для мужчин другое но некий интерес одинаковы по сути они вложены если сравнивать именно с этим подходом то коммент например их не сможет родить подумать что это одна группа согласия камин сообщение лучше алгоритм тут как бы вас быстрый ну тут спора нет он просто не лучшие как бы очевидно штанг давай поговорим просто ну хорошо ну и спектральный алгоритм над eg спектральной мне вообще все равно давай расскажи просто про его тогда сильные и слабые стороны про про вложенность
00:37:33 - 00:38:34
услышал путей а если не влажность если мы знаем что точно пастора должны разделяться и общем них нет ложе стану брата животное и нибудь и где нам нужно просто как собрать мы опять же если мы стали зация мы заранее зная метрику nuff нам вложенность не сильно интересует если кита слабо у него стороны или какие-то еще от когда алгоритм или три что оно простое как бы такая значит психическая понимаю авторизация тюрьме и он в принципе работает хорошо даже если данные ну как бы разделимы но если там опять же сравнивая с другими логоритмика
00:38:03 - 00:39:02
авторизации он работать медленнее ну что во-первых он основан на том что он ищет матрицу сходство там близости между этими объектами без грубо говоря из этих объектов уже будет там очень много зависимости от тома твоих мощностей до например на когда мы брали у нас там был паук 30 тысяч объектов понятное дело что если большие нам приходилось полировать эти модели если больше то вопрос этот алгоритм не будет отрабатывать я не будет ли разбивать на классы очень сильно ты зависишь от того какие то есть функционального и растения
00:38:33 - 00:39:41
параметры например есть параметр такой affinity ну то есть как он грубо говоря строит по какому принципу он находит похожий объект например если параметр о синус то он просто строят матрицу могет ресурс вот дальше ну стандартные параметры когда ты можешь распараллелить процесс джобс минус единицы дальше а самое интересное что мне здесь нравится ты можешь подавать и как сама матрицу сходство ты можешь подавать на вход и сам dts если ты не подал матрицу сходство он сам построить себе эту матрицу кей
00:39:06 - 00:40:32
fine проект поговорили давай знаешь про последний вопрос подходят hard court чай дато сайнса [музыка] давай поговорим про влюбятся предаться очень мне кажется треугольниками задач связанных с сансом допустим у тебя есть вообще как как ты делаешь валидацию на практику может свою любую принципе сдачи которая тоже занималась расскажи просто как-то скроешь validation ну например вот там для задачи оттока пользователей ритму скор на котором обстреливать как вообще построить в целом валидацию как-то оцениваешь
00:39:49 - 00:41:18
что ты и правильно сделал в или неправильно сделала если чисто отталкивается от алгоритма валидацию например но я опять же смотрю на баланс баланс классов потому что если у меня например будет дисбаланс классов и я просто применю обычную этому валидацию то у меня может случиться такое что например в одном фолде ну просто не будет не будут не будут объект недостающего класс то есть из за этого у меня алгоритм там грубо говоря ему всегда будет выгодно обучаться на тех никого больше вот если там применять ту же
00:40:43 - 00:41:53
стратификацию когда мы учитываем как раз этот баланс вот он грубо говоря алгоритм все равно смотрит на объекты недостающего класса отталкиваясь там например там задачи по данным дисбаланс и обязательно применяю этому стратификацию ну-же смотри на результат окей хорошо давай чуть-чуть проблеваться как вы лидировать временные ряды нами . мы условно прогнозируем курс доллара например что или цен на нефть или ценный bitcoin что сегодня особенно актуально как у тебя большой есть в рим наряд да под там кунис котировки а как бы ты
00:41:18 - 00:42:38
построил ну как ты строишь процесс валидации времени на [музыка] есть предположение просто взять какой-то отрезок отрезок времени дальше дает представим что можно и нарисован у нас вот есть ось времени например первый день второй день мы там неделю не важно ну и так далее вот у нас здесь заканчивается наша обучающая выборка и что мы должны чтобы спрогнозировать да вот на шестой день или всю неделю неважно вот как бы ты разбил она соответственно единички до 5 на train тест и смысле на train & control там греху дал
00:41:58 - 00:43:25
предположим что здесь мы проводим какое-то обучение обязательно следующем дне если нам нужно предсказать следующий день мы обучаемся мы тестируем да то есть как бы собственно вопрос в этом хорошо теперь да мы их как бы прогнозировал в будущее поскольку мы хотим сделать тоже самое теперь такой вопрос насколько корректно сделать вот следующий например есть мы взяли допустим взяли четыре дня в обучения один два три четыре и спрогнозировали на 5 дай получили какое-то качество неважно какой метрика там оно там 09 хорошее
00:42:44 - 00:43:58
качество насколько будет корректным если мы возьмем например теперь вот так вот три дня обучаемся встретил 4 5 будем прогнозировать 6 сколько сопоставимые вещи лет не сопоставимая вещь но проблема в том что мы же можем не учесть здесь какую-то тенденцию которую мы учитывали например в первом случае мы берем постоянно какое-то окно она фиксирована то есть на этом же окне мы должны сделать предсказание другим станешь если ты обучаешь на 4 днях его лидируешь на одном так так так освящаемся есть положение действительно
00:43:20 - 00:44:35
что как если мы берем уже окно в три дня она в принципе как бы не репрезентативный может отличаться от того что выбрали когда четыре аккорда потому что некоторая тенденция но она просто может не учесть ok проект поговорили добавим какой попробуем бизнеса воздать все-таки решить про алгоритмы и там про спели про the thing давай попробуем поговорить раздачу от тока допустим ну то есть у нас есть сдача оттока пользователей носкам приходит продакт-менеджер неуемный и говорит я придумал тем людям которые уходят в отток давайте там не
00:44:00 - 00:45:20
знаю тот рублей скидка 500 рублей подарок что такое общем чтобы их удержать мы знаем что в среднем с пользователя которая с нами остается мы зарабатываем ну давай пять тысяч рублей для ровного счёта нему неважно кальций да и дальше он тебе говорит проводит это сами придумайте пожалуйста алгоритмом оттока ты какой-то придумываешь ну наверное давай еще вообще значат тока польстили это какая сдача агрессии к авторизации эта классификация очевидно запасе фикации мы делим 2 класс да текстуры готовьте кто нет но в общем
00:44:48 - 00:46:09
я не снимал что ответишь но теперь достигает проблему тебе какой-то алгоритм ну у тебя есть как известно четыре варианта да ты предсказываешь моток пусть выходит поток ты предсказываешь не отток пусть уходит него ток мысли остается с нами все прекрасно да у нас есть соответственно есть ошибка 1 2 рода и у тебя есть разное несколько алгоритмов ты там не знаю попробовала из уст для классификации попробовала ко лбу сдвиг классификации по проводке перонко они там от куда вот который уже нарисовала они по-разному
00:45:28 - 00:46:41
заполняют ну то есть условно можно games балды пишу над условно this алгоритм 1 который предсказывает вот эту матрицу ошибок делать следующим образом 10 pro 50 но нолик это там на что не от он будет допустим не важно до 20 здесь у нас по 20 и здесь 10 и второй алгоритм который ошибки вот эти например меняют местами был здесь 20 а стало десять и здесь 20 ну то есть ошибку 1 2 рода просто взял поменял местами вот и как понять какой из этих алгоритмов лучше ну разумеется у нас водкой цель заработать денег надо
00:46:04 - 00:47:42
касаемся да вот то есть ну там по строкам у нас допустим это наш прогноз до по столбцам у нас это на реальный результат и так сказать ты проверила вот это все ну на кой там отложенный выборка там все сделала вот красиво и теперь у тебя есть соответственно две цифры но там есть нужно не давая может быть придумано кажется достаточно условно мы знаем что с пользователи которые с нами остается мы для ровно шатура заработаем 5000 а пульс у которой мы даем скидку но соответственно чтобы его удержать и мы
00:46:53 - 00:48:00
еще дополнительно предположим что пользователь всегда принимать скидку ну то есть вот теперь если мы ему дали он точно не откажется от рублей и соответственно нам принесет эти 5000 но мы на нее потратим как тот рублей вот давай попробуем как-то бизнес метрики вот нашу вот эту мат ручку ошибок привязать так чтобы сказать какой из этих алгоритмов лучше есть получается люди которые мы предсказываем точно это и они не уходят чу позитив дальше у нас есть люди которые мы предсказываем шум не негатив который мы бы сказали верно и
00:47:28 - 00:48:50
они уходят вот так то есть это скажем настоящая ток мы провели предсказали дальше есть фолз позитив это когда мы предсказали что отток а нет это когда мы про сказали что они остаются на самом деле они вот так уходят и дальше у нас есть полз негатив когда мы предсказали что они остаются но на самом деле они наверно оборота дождей было топ мы предсказали они остались она предсказали что было топ-3 вот если мы говорим про или главную диагональ да вот это вот там и привод давай разберемся с сутью сдача ведь мы же
00:48:07 - 00:49:40
когда в будущем предсказываем мы скидку дадим всем кому предсказывать а топ-8 мы не можем так сказать что те люди которых мы расскажем о только они уйдут мы ему значит не будем давать тип куда мы должны на тут есть ну типа баланс между тем кому мы неверные предсказали ток не отток да да совершенно верно просто пытаясь в деньгам спасти то есть вот это явно для этих штук ну значит коэффициент расставить в деньгах давай попробуем просто мне кажется удобную этот матушку по строкам смотреть ну то есть понятно
00:48:55 - 00:49:50
что вот чем кому мы предсказали отток мы должны дать скидку на зачем же маета предсказывали да я прям сразу more бесчисленными можешь так просто проще было здесь я уже не помню как мы это давай считать что the saddest воот так вот эта строка мы предсказываем о том да здесь это мы предсказали неверная тут нет мы здесь давай ну как как как сама распределишь давай мне кажется что здесь удобный батя главной диагонали иметь верные ответы поэтому здесь предсказали а так они здесь соответственно уж лего топ если тупо
00:49:23 - 00:50:21
стив то мы ему ну ничего не даем он остается если у нас идет отток то мы здесь даем скидку в 5 тысяч не местные вот если мы мы нас здесь строка ток до вот строка мы предсказываем что будет отток 50 процентов это мы предсказали что не точно добавив терминах отток меня так чтобы вот с этим вы меня возник он мы точно предсказали что да и он отек да да сашин вверх если у нас и так то мы же должны по этой штуки и правильно неправильно тогда предсказывать даже наверно здесь мы правильно предсказали что он ушел вата
00:49:52 - 00:50:58
а здесь он остался мы предсказали отток он бы все равно осталось ну допустим до 20 процент смотри всем этим ребятам раз мы предсказываем что-то то есть точно будет получается какая-то скидка раз мы точно здесь мы здесь мы тоже должны дать здесь мы неправильно предсказали здесь мы правильно предсмертную собираются запутался с гариком хочу еще разочек здесь мы предсказываем по строке мы предсказано то мы где-то вот мы здесь мы правильно предсказали но тогда здесь скидка и и там и там speed мы же смотри
00:50:25 - 00:51:32
вот мы предсказали отток поэтому всем после которые предсказали мы ж не знаем заранее кто из них окажется мы предсказуем что не будет оттока поэтому мы никому из них скидку давать не будем при этом мы знаем что двадцать из них останутся ну да вот а 10 мы к сожалению потеряем вот многое в алгоритме к сожалению считаясь ошибку нет по давай попробуем это теперь вот эту вот вот эту табличку в деньги просто перевести посчитать сколько мы в таком варианте алгоритма заработаем денег нас есть мы заработаем в данном случае это наша
00:50:59 - 00:51:55
положительная так скатился до вот ко дну и там все оставшиеся деньги и у нас есть скидкам и скидку какую-то там дали зря какую-то смотреться не зря давай начнем с того что например у нас человек остается и таких там 20 процентов предположим 20 процентов каких-то x которые нам приносят и тыщу рублей дальше мы не даем скидку 10 процентов и получается что но мы теряем пользователи мы теряем какую-то часть прибыли мы теряем каких-то положим 10 процентов ну и мы и не даем ему нечего здесь мы неверно предсказали
00:51:27 - 00:53:04
то что он то что он уйдет он бы так и так остался то есть мы грубо говоря им ему дали скидку какую-то 500 рублей на скидки 500 рублей а лтп наш мы дали ему какую-то скидку но он все равно остался получается на заносил нажал нам наносить деньги отдавать нам деньги архи и если бы ему не дали спит он бы нам продолжала заносите где есть мы должны сравнить сколько денег мы потеряли из-за того что мы предполагали что они останутся те люди которые не станут и которые мы не дали скидку сравнить их коэффициенты и сравнить эту
00:52:14 - 00:53:29
сумму которую мы потеряли и сравнить коэффициент между тем кому мы дали скидку и они остались здесь мне кажется что можно просто посчитать прям а в лоб условно сколько денег мы в этой матрице получили давай у нас x просто чтобы от равна единичке на в процентном соотношении мы считаем на x не кажется не нужен и здесь мы предположим там в первом случае мы получается потеряли если умножать до 1000 10 процентов 500 грубо говоря рублей предположим что 10 процентов это 001 таких городах но если 0.1 до трон 10 процентов согласен вот
00:52:53 - 00:54:18
умножая на этом этом получаем 500 plus добавляем сюда тех людей которые мы дали скидку которые остались 024 500 умножаем 02 это будет 900 положен в этом 400 рублей грубо говоря разницей пока все остальное составляет потому все остальное как она была таки был и во втором случае здесь получается аналогичную там положим мы потеряли каких-то 500 рублей здесь только будет плюс 20 процентов и плюс 0 2 у нас здесь было 120 процентов минус 1000 + 0 1 умноженное на 450 получается во втором случае мы у нас так
00:53:35 - 00:55:20
как 20 процентов мы не знали что они текут и мы ничего не предлагали получается грубо говоря мы там потратили ну у нас расходы на тысячу рублей значит меньшим израсходую разумеется водоносным здесь меньше нами понятно у нас какую скидку раздали меньше нас кит по скидку раздали меньше она там грубо говоря получилось там чуть ли не два раза ну два раза меньше эта скидка по дамы с математикой просто да действительно цифра энергии удобно считать это получилось что во втором случае мы потеряли больше
00:54:37 - 00:55:41
так как мы не учили не учи тех людей которым мы не додали ских да мне здесь просто было важно что берешь бизнес метрику да и привязываешь вот ее к матрице которые видят все дата-сайентистов ну там она за мужчин matrix 3 пару смотреться живу окей наверное . мне покормить все понятно давай последнюю дачку сегодня приходит к нам еще раз продумать игры продакт-менеджер уже другой он работает в сервисе видео на совесть потом сложное предложение у него есть видео и у нас есть приложение кнопки музыка и видео
00:55:09 - 00:56:18
но там щеки другие кнопки ингрид мне пришла в голову гениальная идея я хочу поменять кнопку музыка и видел местами хочу и хочу и маленькой основная метрика которая буду смотреть этот трафик в раздел видео 05 конверсия из разделы видео общему как будут метрику очевидного ожидают увидеть там связанные с сервисом видео что считаю что музыка кнопка находится на самом видном месте за этого его прекрасной любимые им сервиса ничего не дополучает трафика внимания пользователя так далее и angry давайте проведем тест ну ты грыж
00:55:44 - 00:56:46
ну давайте проведем apts а проводим оба тест и видим что в общем метрика конверсия из видео летом оплата из видео или что-то еще связана с видеосервис никак не изменилось у нас вот это вот есть при перестановке да да мы поменяли вот то есть на версия а у нас мужу словно музыка на первом месте видео на 2 версия б видео на первом месте музыка на втором ну например то есть мы видим что при перестановке местами чем метрики музыки никак не просили метрики видео никак не выросли все осталось на своих местах но
00:56:15 - 00:57:22
там в рамках опять же дальше там как бы статистической значимости статьи значимые мы не видим их изменений вот но у нас платформа которая считает оба тесто начинает кучей метрик с на счета этом заразной конверсия платы другие сервисы еще что-нибудь и менеджер значит ему приходит такая портянка этих метрик и он видит что метрикам ну давай оттока с главной страницы носика этого не совсем второстепенный метрик ну то есть главная страница там главный экран приложение уже довольно важная штука ловить что метрикам потока с главной
00:56:47 - 00:57:55
страницы прокрасилось зеленый то есть от токов стало меньше с главной страницы но это в давно экрана мобильного приложения допустим и он говорит ну смотри как бы видишь какое классное я придумал значит эксперимент что меня вот эта метрика проказ сами отток славно страница общем хорошая давай оставим значит как повод версию б.а. эта метрика было до этого еще ну у нас просто наше приложение у нас в мириться там тысячами 3 красных там не знаю конверсия со страницы вконтакте контакт и конверсия со страницы потому что то
00:57:22 - 00:58:26
метрику которую ты говорил до этого когда у нас не было каких-то изменений он тоже самое метрику мере мне он ничего не мерил он просто пришел говорил я хочу чтобы трафик в раздел видео вырос но процент на трафик конверсия в общем что то связано с видео метрики с видео и метрика с музыка никак не колыхнулась не прокрасили вот а вот какая там метрика она важную я сказать что-то в главной странице от не важная метрика довольно важная метрика большая метрика на прокрасил зеленого стал лучше что ты ему на этот внутри он говорит но все
00:57:54 - 00:58:56
говорит давайте в продакшен катить версию бы слушая получается это общее две разные метки то есть изначально мы просто смотрели на метод видео музыки до а тут вообще пришла какая-то вообще левая метрика но она возражал что что-то показала data to read в рамках оба теста он просил проверить вот это но поскольку у нас все автоматизировано мы считаем кучу метр но если мы замеряли до этого эту метрику если у нас что-то поменялось то есть вопрос того нужно нужно еще несколько раз проделать эксперимент
00:58:25 - 00:59:29
чтобы понять вообще достоверно или нет смотри если мы сначала самого замеряли вот эту метрику на главной странице и мы замеряли вот эти метрики еще другие метрики фиксировали то есть мы на них смотрели если например первый раз то что мы замерили мы посмотрели кино какая-то из метрик выстрела то возможно есть какая-то статистическая разница между ними возможностью это еще раз проделать эксперимент чтобы убедиться целом да ну никак не самый лучший вариант расписок нас там тысячи метрик к это одна из них club
00:58:56 - 01:00:08
поехал если бы он заранее на не оказывал ну типа и грел что вот я изменение в этих кнопок меняю от окна главный а тут как бы прошу добром ножка с другого конца зайти представим что он вот такой эксперимент поменять музыку видео местами хочет проделать сто раз и мы соглашаемся будет причине неведомый просто какой-то магический сил заставляют нас проделал такой эксперимент сто раз и какой-нибудь там 38 раз вдруг какая-нибудь метрика связано с видео про красила их зеленый не знаю там длительность просмотра видео
00:59:32 - 01:00:46
увеличилась там на какой-то там значимым процент все прикольно что ты ему скажешь ну во-первых если но мы рассматриваем скажем вероятность того сколько раз мы не ошиблись да сколько раз у нас получилось там где предположим один атом 1 из а который нам выпал когда мы бросаем там честную монетку если мы хотим чтобы это честный монетка постоянно выпадала 100 решкой на то соответственно вероятность того что она будет установок подать решкой намного меньше чем когда бы ну да решкой и орлом 5050 я вот я я являюсь понимают
01:00:10 - 01:01:29
в связь с монеткой смотри допрыгнул до здесь вероятность скажем такой ошибки то есть мы грубо говоря например что мы видели какую-то разницу один из ста часто не чтобы духовно ты смотри вот если мы закладываем статистическую значимость и опять процентов ну допустим это на стандартно делаем тест скую вероятность мы ошибаемся здесь и мы закладываем такой порог авиа вероятность того что мы ошибаемся опять процент да то есть она ровно на заложено очевидно что если мы проделаем эксперимент сто раз мы в пяти процентах
01:00:49 - 01:01:52
случаях можем ошибиться но получается здесь что мы ошиблись грубо говоря девяносто девяти процентов случаев не смотри если ты сказал что один раз только мы увидели какую-то значимость например 100 ну например да то как бы это могло быть вот это вот один раз что значимость у нас возникло случайно ну а нами она явно больше чем то значимость которое нам необходимо получать это я не то говоришь мне кажется я где то есть какую-то мысль что осмотри если мы будем проводить один и тот же эксперимент много-много раз то вероятность того что
01:01:22 - 01:02:47
хоть раз у нас будет соответственно коньки метрика в нем про краситься существенно выше чем если вам проведем один раз вот поэтому если мы проводим сто раз например нужно как-то бра порог статически значимости сдвинуть понятно чем у и кроме ну вот здесь на самом деле лет хорошо ну давайте представим что ты просто проводишь а тест вот и заведомо знаешь что там с ним все в порядке у тебя есть 1000 метрик есть какая-либо вероятность что одна из них случайно прокрасим конечно конечно же есть вот чудесно теперь давай вернёмся к
01:02:03 - 01:03:22
этой истории что человек поменял а музыку и видео местами он указывал нам на явные метрики на который его эксперимент может повлиять они не про красились не получается он ошибся тогда это ошибка это он и мнимые менеджера не оцениваю он там нам неважно мы оценим только данная да вот это результат теста действительно метрика и которую он оказывал не прокрасилось мы прокатилась какая-то другая что ты ему скажешь будут другой метрика которой одна из тысячи прокрасила есть вероятность того что там пока
01:02:43 - 01:03:41
эксперимент который мы провели эти метрики там которые ты хочешь то есть они не выявили какой-то стот значимости для этого данные метрики основные метрики нет которые ты замерял нота метрика которая ну тоже замерял заклинание не смотрел она там например грубо говоря там один из ста каких-то экспериментов она показала что она изменилась то есть вероятность того что она там изменится следующие там несколько итераций тоже в этом например один стандарт можно просто совсем простыми словами d&g сказать
01:03:12 - 01:04:15
чувак она случайно прокрасилось ну то есть понятно в случае можно до случайно то есть вопрос того на сколько тебе важна эта случайность там в цифрах есть такое подозрение да если тебе если ты учит учитывая даже то случайно стоит даже эта случайность несет какой-то вылью то почему нет если ты случайно даже независимость связано того что представляет что местами где то есть она бы нам возможно бы и так принесла дать можно сказать следующее что смотри если бы ты хочешь проверить много гипотез зарастут в бад эмсе ты проверяешь 1000
01:03:43 - 01:04:42
метров когда мы должны пороге статистической значимости в каждом из них просто сдвинуть но это называется множество поправкой проект проверка гипотез до 25 вот это месть поправка специальная чтобы точно оценить зависимость от числа соответственно метре над большому счету когда продукт реальный он осознанно чеком понимать что должен проверять на видео ну просто часто бывает так что хочет увидеть того чего нет вот ладно и кажется что мы обо всем поговорили спасибо тебе согласилась это очень вообще такая стрессовая ситуация и так
01:04:13 - 01:05:22
то всю нашу беседу их нервничать а тем более у нас тут камера и понятно что очень тяжело отвечать на вопросы мой фидбэк он из двух частей наверное 1 это про техническую часть там про теорию вероятности там склеили алгоритмы понять что и все это хорошо знаешь как бы никаких сомнений нет конечно там что-то там можно понервничать что там описаться где-то ошибиться это все окей все понятно это как бы касается там условными новой части да вот это собеседования там медиа или там на синий радует часть которой в принципе там
01:04:52 - 01:05:56
уверенно проходишь 10 каких вопросов нет автора и вот часть нашего собеседования про вопрос уже такие связанные с работой с продуктами работаю с менеджерами работы с бизнес метриками и такой больше всерьез к части или ледовская часть здесь она вот просто не хватает мышка уверенности в целом я очень довольна мне кажется мы классно пообщались то есть основные идеи которые хотел услышать да вот а человек а то я его собеседник слышал то может быть киллер другую формировка немножко там это было не так
01:05:24 - 01:06:14
четко и ярко как мне бы хотелось чтобы это был идеально но для такой стрессовой ситуации ты просто супер молодец я очень рад что мы с тобой пообщались спасибо тебе большое хотела сказать за то что ты подготовил вопросы за интересные вопросы потому что как минимум я считаю что если ты хотел на собеседовании есть ли тебя эти вопросы заставили задуматься то как минимум это собеседование прошло полезно на деле для вас двоих да и мне кажется это отлично этом возможность понять чего не хватает до чего не хватает на чем еще
01:05:49 - 01:06:52
стоит работать что нужно закрепить какой материал и это мне кажется отличная возможность дальнейшего роста досыпать тебя же дед все пасибо [музыка]
01:06:20 - 01:06:53