Middle Data Scientist | Выпуск 1. Секция ML | Собеседование | karpov.courses

Подготовка к собеседованию на Data Scientist

Транскрипция видео:

у нас будет мог интервью давай но прежде чем мы вообще начнем какую-то такую официальную вещь нужно ответить тебе на несколько вопросов нас мы друг друга знаем ты у меня работала на основной на последних по вековых работах был небольшой промежуток времени когда-то создания работал мы не будем смотреть так время расскажи немножко о себе кем ты сейчас работаешь и как тебе вообще пришла ну или как тебе уговорили участвовать участвовать собеседованием на самом деле очень классная штука существо что я у
00:00:00 - 00:01:43
меня странный программу если я пришла из академической среды и вообще по образованию химик и наверное это немного странно людям которые пришли смотреть собеседования на специальность вот но уже какое-то время я обработала и вот мое первое такое в продакшн работа была анастаса компании x5 занимались всякими интересными вещами и потом еще раз поработали в другой компании пошли работал стас то можно дать название компании конечно грех ну в общем потом мы повторили этот мув не аптеки это очень разные компании но и сделал
00:00:57 - 00:02:20
по-своему прикольно сейчас я работаю продолжу работы аптеки продолжаю поддерживать вещи которые станислав успел сделать как это их дорабатывать или flock 3 и плюс разрабатываю там еще пресете продуктовые штучек которые связаны с рекомендательными системами и с анализом выкуп они выкупают законы решен а слушай формально наша собеседование будет состоять из 4 частей но так как ты со мной проводила эти с беседами ты в принципе уже знакомо и для тебя их будет не так чтобы очень сложно вот 4 4 части первая часть будет про
00:01:39 - 00:03:17
мои дизайн и человек у нас с опытом соответственно должна уметь отвечать на вопрос поймать и зайду вторая часть будет наверное по бетону и папе там будут достаточно тяжелые вопросики на 10 и хорошо kotova вот затем будет эта ценность и в основном это сайт части мы поговорим про какие-то практические вещи и наверное потом не знаю умение работать с данными или обрезка подумаю что я выберу посмотрим как ты будешь отвечать ему заранее скажу что ничего в этом страшного нет на самом деле ты моя не первая попытка
00:02:33 - 00:04:11
записи человека именно там на металл уровень вот я пробовал записываться с двумя людьми к средине воздушные думали не публикуется нет не пошло но я надеюсь вот эта часть и эта вырежут потом паспорта [музыка] нет я выкладывать не буду естественно естественно сам интересное ко мне приходил парень которому этого мы вдвоем с беседовали и к сожалению на второй раз он отвечал не так хорошо как то первый раз да но потому что у меня сильно поднялись вопросы честно говоря и и я немного другого ожидал от его
00:03:25 - 00:05:10
ответов соответственно все прошло не очень хорошо но мы не будем так еще два я от себя замечу что даст осей мы работали несколько раз вместе честно говоря анастасию мне привел дархан это тоже очень важный человек в моей жизни надеюсь и в твоей ность тоже потому что через по сути своей дархан а я познакомился снасти реинвест работал и в x5 египте вот начнем с дизайна если ты непротив задачу я дам ту которую меня одна компания не так давно в собеседованиях вот задача про он тебе и предсказанием тебе
00:04:32 - 00:06:17
интересно то что я честно говоря не очень хорошо снова как решается такая задача но то есть я что-то слышу и видел с опытом знал что такую задачу в целом решает множество различных компаний вот но для себя решил что постараюсь сделать какое-то интересное решение предложить какое-то интересное решение и подсказать что это будет в общем он тебе важно то это lcd мы предсказываем тебе это like them were на всякий случай для тех людей кто не знает что это такое а тебе это лифтинга по сути своей оценка пользователя с точки зрения того
00:05:30 - 00:07:04
сколько денег он может принести к нам в будущем это всегда farkas на будущее очень часто вот горизонт вот этого предсказания он такие тем или иным образом ограничивается но в нашем случае это ограничение будет на полгода вперед то есть мы заранее забиваемся на то что мы считаем активе центре горизонт прогнозирования полгода сперва и что то что прогнозировать дальше чем полугода мне вообще не нужно нет не нужно но ты должна понимать что есть свои нюансы в том что ты прогноз штангу год вперед условно ну давай возьмем
00:06:21 - 00:07:53
сентябре прошлого года и вот мама ее лишнего года мы живем в парадигме что есть anomaly сейчас мы живем в парадигме что есть мир который изменяется начнем с это хорошо мир который леди меняется и мы пытаемся спрогнозировать нужно ли нам посчитать и lateview с учетом в пол года максимально границ полгода сейчас сегодня и зафиксировать его пусть на этом и у тебя будет принят какие-то решения сейчас очень важные или можем пересчитывать и активе хотите по каждый день и смотреть как она меняется для
00:07:10 - 00:08:31
каждого клиента ну по сути это вопрос про душ самой аномалию какой-то который может произойти или любые другие какие-то факторы [музыка] промо нагрузках какое-то возросла и мы стали больше получать клиентов что-то в короче могу ли я пересчитывать или я буду считать метрику типа важно ли как-то попытаться границы оптимистичные и пессимистичные на берегу давай так да на основе твоего прогноза бизнес будет принимать какие-то решения в том числе [музыка] стоит ли с этим человеком продолжать работать или не стоит то есть
00:07:51 - 00:09:21
использовать его в коммуникации не используйте так далее то есть я должна понимать что твой прогноз он естественно существенно влияет на бизнес и на все остальное как именно это будешь считать различные варианты сценариев наверное я хотел бы чтобы ты рассказала об этом поподробнее сделаю предположение очень во-первых мы 71 его просьбу крюшо что и у тебя будет ли у меня граница маккейна есть то есть мы точно знаем что пол года ограниченный и какой бизнес кстати что еще раз это контрактный бизнес когда
00:08:36 - 00:10:00
у нас есть там подписки есть точный флаг того что там клиент ушел или это покупки какой-то retail где мы точно не знаем куплен с нами до сих пор или нет это все тех это фильм тех это значит то что нам нужно чтобы человек он занимается допустим покупкой продажи акций или валюты какой-то или криптовалюту какой-то и так далее то есть короче нигде так де сак у нас никому просто двумя какие-то действия и нам нужно самим принимать решения там ушел эмили еще нет ну во первых то есть тут у нас встает вопрос сколько человек будет приносить
00:09:26 - 00:10:43
денег и сколько он будет жить из-за тех двух факторов мы можем управлять прогнозировать all these это как не очень довольна смотришь в общем если что останавливаю не визаране поэтому есть короче я собственно вы кстати когда работал и не с тобой как времени я снимала с тем что работала с оттоком предлагала бы и знаем какие то алгоритмы для идентификации людей которые обтекают не там в принципе не плохо себя вели такие простые штуки как rfm анализ достичь ее на ресницы frequency переменных можно с помощью
00:10:12 - 00:11:31
распределений учить распределение чтобы понять остается человек с нами грубо говоря прогнозировать вероятность того что человек сюжет покупку какой-то брюс жутко ремни в принципе ну а на моём такому описи когда работает просто был ритейл что похоже по модели поэтому и спрашиваю если нас подписка елена нужно оценивать мне кажется довольно удачная штука для того чтобы использовать выхода этих алгоритмов статистических я дальнейшего прогноза короче статистический алгоритм они во-первых умеют и прогнозировать на самом деле eu
00:10:55 - 00:12:08
te vi но может право делать что-то сложное мой ответ что я бы попробовала применить известный меня библиотека это рисовала книги и она довольно простая не нагружает из там нет какой беды и с производительностью и но непростой подходят которые хорошо интерпретируется предам там есть свои проблемы и логика довольно просто поэтому наверное возможно потом бизнес захотела бы что-то более сложное вот поэтому короче за быть моим берем какие-то а мы и хотим тесто проводить как-то развивать мы сразу хотим пришлось
00:11:33 - 00:12:55
сделать давай так в рамках и молиться зайна предполагается что ты ответишь на там несколько ключевых вопросов хотелось бы знать что ты вот в руках моризо нереально на них ответишь каких-либо ничего set короче если бы делала я я бы предложила 1 быть line модель то есть хотя бы хоть как-то прогнозировать и вины не показать какие-то метрики и обсудить с бизнесом достаточно ли это качество прогноза или рамки в которых она прогнозирует они слишком широкий для них и мы на этом точно не останавливаются ни какие песни у пилота
00:12:15 - 00:13:40
и ни во что не идем хотя тут пилотировать довольно сложно скорее всего на потому что с период полугода скорее и вот в полгода не будет и я бы вы лидера валось просто на отложенных тайские валидации показывал бы бизнесом результаты отважные выборки то есть дети потом несколько раз казино что это все воспроизводится то есть одни полугода к полугоду со смещениями с окнами модели примерный знак ушек клик вот какую ошибку но поскольку у нас а у тебя какая метрику лиц это [музыка] важно ли нам короче бизнес я бы узнал у бизнеса важно
00:13:01 - 00:14:32
ли им что лучше перепроверь и прогнозировать или нет и прогнозировать дает ли бизнес не ответный выброс но скорее всего нет а прогноз не до прогноз лучше да но не хочется быть совсем оптимистичной окей тогда можно попробовать какие-то метрики и мы сне нет можно попробовать и более сложные как раз и несимметричный не только который ты очень любишь разный коэффициент на пире прогнозами до продлевать принципе все можно начать считать и если бизнес настаивает что у него приоритеты кто что ему важнее то можно
00:13:48 - 00:15:15
использовать начнут речную просто с различным углом наклона штрафа с зависимости от знака в общем ошибки так но я запишу себе наверно будет то думает что у тиражные выбросы я прям буду смотреть на конкретную клиенту часто или я будет смотреть в сумах чаще и конкретного клиента ну вообще это тебе прогноз нужно сделать для каждого клиента ну давай я буду читать его съел я для себя решил с этим из всех в качестве и буду варьироваться на ней [музыка] так я покажу ну собственно вот больную горит мы идем
00:14:32 - 00:16:19
к бизнесу показываемся метрики объясняем что за метрика что она читает и наверное даже ним и съела нужно брать rms я потому что бизнес будет сложно оценить квадратах наклонения лучше наверное показывать тех значения которые ну короче понятнее никотине квадраты корни [музыка] должны рынок долях было бы понять некий процент наверняка не на цены чтобы они видели а не конкретные значения все-таки мирные процентов не было бы так удобно показан в процентов ошибку так поэтому в общем если я бизнес не устраивает и мы
00:15:35 - 00:17:14
не хотим а это использовать google и катить пока что мы видим что это более сложно это я бы сюда привлекала какую-то дополнительную информацию клиенту который меня есть об истории того что они делали потому что эти алгоритмы листиках они знают только recency frequency то есть по сути это время жизни клиент этому время его жизни сейчас сколько покупок он совершал не там время с последней покупки это довольно мало данных хотя практика показывает просто хорошо описывает таких моделях но давайте добавляете тогда любой
00:16:26 - 00:17:37
информации клиента который у нас есть например с какими если ты финн тех начну покупает акции и придает белью на скорее всего есть какие-то категории акции ну компании с которыми он взаимодействует можно построить какой-то профиль клиента в зависимости от того какие операции он совершал на какие суммы он что-то делал но правильным сумок операции его [музыка] есть сектор компании навернео браво не стоит наверное брать компании конкретный построить брайтон энергетика дайте еще что то какие то большие сектора причем
00:17:02 - 00:18:24
наверно стоит побить возможности по государством или там как-то пока мастером государство вкладывает если вы что-то российской рассматриваем вернет большая разница укладывается российский эти компании или зарубежный анти сектор вот научно собрать профи клиента для того чтобы использовать какой-то другой модели в модели возможно это можно назвать моделью типа второго уровня если мы пишем небольшой подходит из поединком прозван горит мы получаем от туда и печенье из ресницы frequency в этот анализ дает нам
00:17:43 - 00:18:59
там эффектов или не язык на самом деле они могут и тени прочитать можно идти некуда запихнуть что эти алгоритмы могут дать можем использовать в качестве печей для алгоритма второго уровня и туда же добавить фичи клиента и сделал такой и как болгария если хочешь к спросить какую модель втором уровне skillet например если мне нужно прогнозировать или тени ну я бы честно говоря но поскольку я могу посчитать так время прогнозное время жизни этого клиента мне уже как бы тоже не нужны никакие день мериды потому что у меня уже есть
00:18:21 - 00:19:50
как бы прогнозы вот сколько он проживет я бы взяла просто какой-нибудь busting например который будет а если мне меня важно интерпретируем верно первых этапах до важно будет ну а затем пожара но затем можно глупым после какого-то там условно после какой-то итерации можем переходить на таки интерпретируем модели долго вообще нас конечно нет на самом деле есть я все равно хотела сказать что я бы наверное для себя ямасиро в первую очередь попробовал и ну я посмотрел сколько фичей получается конечно если не очень много
00:19:16 - 00:20:37
то можно было бы попробовать каким-то линейными алгоритмами чтобы было интерпретируем как раз но если много печей и непонятного как они должны влиять я бы наверное все равно попробовал бы сделать гусь тенге посмотрела бы что получается короче я буду водила gustin гамме модель для того чтобы была минимальной ошибка смотрел об этом глазами чего получается и потом уже если вы не сказали два интерпретировать я бы уже прибегла к методам специальный интернет sender внутри можно было бы попробовать линейку
00:20:02 - 00:21:19
чтобы оно было сразу петером и но ну такой первый подход из линейка прокатило вы хорошо на ней божественное здесь мы сравнили бы с бусинками получается или прирост качества если просто качество нет то осваивались на линейке это проще объяснять и не посчитать вот если бусин дает сильный лучше результаты там сколько больше возможностей всего так и будет то хотя хочу заметить что у меня есть переменные которые скорее всего очень сильные предиктор или много шума у переменной хороший предикторы имею ввиду
00:20:42 - 00:21:55
это переменные выходы статистических вот этих моделях скорее всего не очень сильно будет коррелировать с метр переменной поэтому возможно линейка здесь правда было бы хорошо какой-то маленький лес имели бы экичи клиента и кстати о макроэкономические фичи тоже можно было бы добавить это я про это не сказал а но я перебывает валюту и сейчас добавляю какие-нибудь я бы попробовал добавить какие-нибудь мы же взять информация компания сто процентов есть какая-то аналитика по рынку и наверное хранится и
00:21:19 - 00:22:29
легко было бы достать даже внутри компании своих данных какой-то ситуацию на рынке там курсы какие-то индексы и не очень хорошо разбирающихся в тени и скорее всего есть какие-то индексы в экономике индустрии что-нибудь такое человек скорее всего была бы к его использовать это было погрозила насколько в общем люди он вообще привлекательно основе сейчас работать если там что падает мирное людям тоже не очень интересно так я из-за данный вопрос как бы я интерпретировал модель которые они не рекрутируются
00:21:54 - 00:23:07
давай так не совсем так я [музыка] задавал вопрос какие способы интерпретации есть но давай сейчас ты закончила ответы и мы уже переходим к вопросам или есть еще что-то что-то не покрыла в рамках мы редизайн и хочешь сказать о какой-то блок так на смотри очень сейчас я пытаюсь подытожить ничего ли не забыла за одну я смотрю что у нее с по данным как долго у меня в принципе живут клиенты и полгода короче если честно я бы первые да если мне сказали точно полгода прогнозирую его я бы все-таки попробую
00:22:33 - 00:24:02
проверить так часто клиенты уходят на полгода потом возвращаются что это такое что это нормальный нормальная границы для как назвать и если клиент полгода не возвращается что он правду шел что такое был бы определить вроде тем я бы перешла к подготовке печей для статистических моделей посчитала бы ими 75 показатели они это умеют и ути мечтать и отток считать до сикст iv не актив на какую-то дату довольно большой горизонт наверное я бы посчитала для входа во второй алгоритм возможно стоило бы посчитать не на горизонт полгода она
00:23:18 - 00:24:45
несколько горизонтах прогнать этих алгоритмов но там из мультика нервности надо было поработать чем возможно это хорошая идея возможно не очень но это можно проверить по ходу нужно сгенерировать как готов побороться с чем-то плохим так далее делаю первые вот эти алгоритмы с над моделью до обогащаю их выходы печами клиента печальные макроэкономическими запускаю это все в линейку запускаю бусинки смотрю что там кофе чтим возможно иногда кит убирать смотрю приемлемыми для метрики вы лидирую с бизнесом что
00:24:01 - 00:25:24
эмболизацию модельные истории проходят вот так достаточно ли это для вас метрика или нет если дают зелёный светофор грубо говоря то все это допиливает не делаем ансамбль нормальный и если надо интерпретацию этот дойдем интерпретацию хорошо давай вопросы например мы говорили правил мы еще очень плотно будем говорить про метрики позже давай так и я вот для себя понял что скорее всего мы посвятим эта работа с этим метрикам ds часть давай поговорю пробовала друга и с какими проблемами ты можешь возник
00:24:46 - 00:26:14
столкнуться во время прогноз на полгода вперед l2 для людей ну собственно проблемы которые мы с тобой в первую очередь обсуждали проблему китай аномалии и непонятных скачков которые в обучении модель их не было и какойте сезонности что такое даже не сезонность полгода это вообще такая это даже неполный год нужен я думаю что проблема сезонности от самый простой что можно решить проблему какой-то резкой аномалии нерешаемой на nintendo леру я не считаю поэтому это только объяснить заказчику что если что-то произойдет то нам нужно
00:25:36 - 00:27:03
будет быстренько быть перестроить модели пересчитать это с учетом есть грубо говоря дуальном или и мы пользуемся результатами например три месяца у нас было пасторе модели а потом мы делаем перерасчет с учетом этой аномалии смотрим насколько мы ошибаемся туда куда вы нас смещение идет если она всех пользователей например мы видим смещение этого не до прогноз и принес то перестроить модель . обновите и там для последующего уже расчет используем новому да хорошо давай еще один наводящий вопрос что будет с новым пользователем
00:26:20 - 00:27:52
кажется что feed которые ты перечислял это вольно для людей с которыми ты долго а для новых пользователей как-то деле будешь делать прогноз у нас есть какие-то анкетные данные есть какие-либо пол возраст ну допустим есть какой-то создаем есть даже возможно там стоишь зачастую в таких приложениях есть и trial периоды когда людей учат чему-то предлагают пройти обучение у тебя какой-то опыт с ним опыт есть какие то данные по поводу того как человек проходил обучение ну если у нас есть какой-то период обучения или правил
00:27:08 - 00:28:47
период это клёво потому что оттуда можно все-таки какие-то паторны поведение например там насколько и рисковыми и не рискованны мувы он делает можно собрать статистику его посещения сайта какими разделами но если носить какие-то информационные например разделы ничего что такое на сайте мы можем пробовать любите туда информацию в интересах пользователя создан плюс [музыка] чистоту его он захода даже если он не делал каких-то операции не проводил к возможным заходил читал можем посчитать попробовать
00:27:59 - 00:29:26
почитать эти метрики как часто и как и разделом заходит ну это же самости а собственно только для новых а для тех конечно хорошо хорошо это я понял теперь по поводу модели наверное правильно я понимаю что это будет единая модель какая-то самом начале это будет единая линия как правильно ну целом я предполагал что да если но мы можем новых пользователей отдельно вынести как раз потому что для них нет дальше софи через что мы пойдем это того что новый пользователь ну короче прогнозировать пытаться для нового
00:28:43 - 00:30:05
пользователя и для [музыка] тех с кем мы давно я для кого достаточно данных разными моделями которые в одной есть данные много данных об их поведению и другой нет рассматривать этих людей как разных собственно разные модели ней супер супер и теперь наверно последний вопрос и что я еще подумала что возможно в качестве фичи и можно закладывать где связь люди если вы имею информацию о том когда люди и когда понятного имеем информации люди были привлечены а какие то если были акции пример мы знаем что
00:29:24 - 00:30:38
люди были привлечены с помощью какой он там промокод какой вводили например реферальную ссылку с какого-то блогера счет чего то мы можем их выделить такие тени вк аборты по времени в когорты по такие группы по способу того что им интересны и что что у них влиял возможно это для малого количества пользователей доступны только на же нет и меньше ну типа того да если можно отследить потому что не всегда можно если дельфин тех скорее всего этом был переход по ссылке можно было бы это где-то сохранить понятно что
00:30:02 - 00:31:20
на истории возможно на стены не хранятся нашу супер и давай вот про последнюю часть на самом деле зачастую но самое важное это про то как ты будешь рассказывать ну по сути своей вот тебе нужно к тебе пришел бизнес сказал сделаны модели lte ты не пошла сделала и теперь тебе нужно как-то защитить от модели для бизнеса как именно вот не до конца я понял как именно ты будешь показывать performance своей модели насколько я хорош и плохая здесь вот такой момент который кажется что ты не до конца хорошо осветила
00:30:42 - 00:32:05
нас внутри я исходя из того что с довольно большой период прогнозированию и лайкам выигрывает такая штука я не могла бы поставить какой-то пилоте к на месяц для того чтобы показать их умы с этой модели все бы не могла показать что на работе trail to you хорошо но я могу прожить на истории насколько она ошибается могу показать что она там делает маленькую ошибку ну например наверное все таки моим бы использовал тех на приближение [музыка] показала бы что проценты ветка не невелик наверное показал бы на каких
00:31:28 - 00:32:51
кейсах где она ошибается почему это если бизнес хочет слушать какие могут быть нюансы что мне кажется что залог успеха всегда показать ограничить как бы сразу [музыка] режим в котором модель работает хорошо область определение короче где модели можно верить ну дать понять что какие-то странные вещи страны пользователь и мы вряд ли сможем предугадать но таких например очень мало чем попробовала бы найти какие-то кейсы где это прям наглядно выглядело бы что работает хорошо на истории я взяла бы таких
00:32:11 - 00:33:32
клиентов сказала бы вот так вот человечек выглядит и вот с такой точностью мы прогнозируем и воевать или потом показала бы вообще метрику в принципе мы ошибаемся супер супер суши отлично думаю больше вопросов я тебе задавать не буду в рамках такого короткого эмаль дизайна зачастую мазай на самом деле длиться дольше но в целом у нас было вот это как раз полчасика за полчасика ты рассказал как решал эту задачу целом неплохо давай поговорим про про что-то больше хочешь чтобы мы поговорили про от adsense сейчас и потом
00:32:52 - 00:34:17
питон работа странными и nameless наверное сразу пока мы разговариваем потом откроем уже хорошо давай давай давай скинемся точно не просто сейчас принципе начали продается да дам тебе вопрос конечно конечно конечно есть у меня есть вопросы по метрикам честно-честно для меня одну и в рамках вот такой быстро обратной связи для меня несколько странного ты говоришь про то что могут быть сильно на марии и при этом за минуты первое что ты предложил и это mc соответственно давай-ка вспомним как она сама съел ее проблемы с
00:33:37 - 00:35:08
выбросами да как раз и я поэтому и подумала что нежить аномалии мне же дважды их учитывается я подумал использовать к я его съем который очень сильно не штрафует занимали в принципе как не надо делать потому что я буду скакать во время хорошо очень плохо оцениваете мышьяка раз потому что на выбросах будут неадекватно изучение метрики и выбросили бы надо удалять очень и смотреть на них вообще считать и на стену в принципе мы все тут вообще плохо потому что мне важно наверное и какую сторону мы дальше боится и как я сказала
00:34:22 - 00:35:38
[музыка] что бизнеса будет очень сложно показывать у нас я тут в общем вообще нет достоинства использовать я домой что бизнеса надо знаете знак того когда мы ошибаемся я считаю и кажется что когда мы считаем деньги тут важнее проценты на которые мы ошибаемся для конкретного человека что люди разные и у них могут быть очень разные ну короче денежки которые мы с ним получаем они могут варьировать очень сильно кого-то за 100 рублей с кого это 100000 рублей и какая-то средняя ошибка [музыка] тысяч рублей она для них
00:35:01 - 00:36:28
очень разные этих линий поэтому мы гораздо лучше использовать какие-то метрики которые все-таки относительные считают тушенка хорошо дальше ты говорила про несимметричные метрики можно привести пару примеров то как это работает и в идеале затем в каких моделях это используются вопрос на котла не обмен на самом деле знаю метрику который от мерный кванта голос я не уверена я знаю что она выглядит как у нас есть два интервала если у вас нету прогноз то у нас угол наклона альфа если у нас перепрыгнул что долго на колонке единица
00:35:46 - 00:37:16
минус альфа и наборы можем мы просто варьирует угол наклона отклонения и здесь не стать его знака а вот ну собственно плюсы этой метрики как раз в том когда нам супер важно куда мы идем в спросе часто наверно используется из модели с просто короче когда у нас есть или логистики что нам нужно довести определенное количество товара если у нас не будет этого товара мы будем потерять деньги нам нужно довести в идеале чуть чуть больше чем нужно и тогда модель будет хорошо справляться со своей задачей для бизнеса вольт ну
00:36:35 - 00:37:50
кажется что [музыка] в принципе мы можем мы можем свою метрику задать как угодно я считаю я вот эти коэффициенты можем просто на варьировать но смысле они виду что эта метрика это как бы вот эти несимметричные метрики наверное они важны на последней стадии оценке модели за что-то свое придумывать вот интересно какой угодно ветврач ну честно говоря я очень интересная идея но давай поговорим про хватаю вот ты и собственно у больного да ты немного про то что мы там по разным штрафом в зависимость разогнан
00:37:17 - 00:38:50
до можешь привести в чем проблема вот этого колонтаево вас видеть и это не что иное как мая и вот в чем в чем проблема может быть почти правильный ответ неправильный вопрос может быть что в ней такого интересного в этой это медики в этом 8 поведи не могли ему еще раз поведение в ее ну там перегиб на в принципе с этим вроде как можно бороться расскажи поподробнее шедшего ну ну что такого плохого в 0 происходит но не дифференцируема эмулировать как потому что перегиб и у нас мыли выкладки . вы произвольным и мы не сможем ее
00:38:05 - 00:39:57
использовать вот как есть но я точно знаю что можно как не помнить таким методом сделать может наверное можно было бы прекратить ниже и убиралась которая кусочно замена и она задана как раз в 0 и она задана квадратичной функции там нет никакого перегиба нет никакого кого и там производной есть и как раз юбер воз она хорошо там перестает скакать до боли при обучении для ее плюс и при этом не переобучаться на выбросы я не видела чтобы quando i lose как-то так делали невозможно можно пороге сверло сделать
00:39:02 - 00:40:27
какой-то кусок который будет заднем квадратично и потом будут хвосты с различными наклонами куда развесила дожди раз ты не видел и отдавая себе реальный пример и то [музыка] есть прям отдельная тема с тем как работает и just регрессор и про то что в игре саре нету по дефолту панталасса по крайней мере какое-то долгое время его не было по дефолту но была там реализация которая позволяла делать значит отсюда мы переходим к следующей теме да вот мы поговорим немножко про метрики давая поговорим про
00:39:45 - 00:41:24
регрессоры и конкретно гридин кастинг регресс да вот как именно он работает вообще как ты можешь начать с того как регрессор работает точнее как деревянный регрессор работает затем как предельный busting регрессор работает и затем в чем же там прикол почему квантов вас им было сложно мотивы же я дойду мы может быть и не найду даже деревянный регрессор ну ты меньше как строится дерево решение как вы делали графе нови-саде деревья решений они делают и классификацию играет и репрессию решает задачу принципе аналогично мы пытаемся
00:40:34 - 00:42:04
выбрать самое оптимальное разбиение при котором получаем там не больше падением берпи или прирост информации в узлах наберем состоянии соединенная почву узла пытаемся делать сделать сплит обычного дерева и считаем ведь наши показатели того насколько зашумлен и данные насколько смешанные классы читаем в дочерних узлов и в родительском узле и считаем прирос нашей информации снижение энтропии вот и таким образом продолжаем пока не построено куда длинное огромное дерево по крайней не достигнем как при переустановке
00:41:21 - 00:42:41
обычно там критерии установки может быть на длину дерево на количество листьев можно его строить сразу в глубину можно его строить идя по уровням то есть достраивать каждый уровень до конца потому спускаться еще на уровень ниже вольт можно останавливаться и не достраивать достигнув какой-то радость питаться выбрать не лучше стрип и потом сравнивать гейн который мы получаем от времени шенген с каким-то контентом значениями понимать что мы четко кто же тут слишком хорошо все поделили большого прироста не ты перестала делить это как
00:42:01 - 00:43:21
что проник налитого хорошо подтверждено с регрессией как мы разделяем и считаем пускай там был учитель и регрессе регрессор у нас дереве какое-то не будут прям одинаковое значение какой-то проект переменный рез будет какой-то набор с распределение в каждом узле и мы берем там средние в этом узле назначение которое мы будем определить хорошо с какими проблемами можно столкнуться во время вот обрезка займа до момента использования до модели но он ограничен собственного из-за того что мы берем вот
00:42:40 - 00:44:03
это среднее на границах интервалов которые были в обучающей выборке мы перестаем прогнозировать мы перестаем экстраполировать короче вовне обучающей выборке дело нужно спрогнозировать там 500 миллионов а максимум было 300 мы будем прогнозировать трясти хорошо и грузин boosting тряс garden бусин трисс это ансамбль над деревьями который не просто голосование деревья участвуют независимые каждое дерево до обучается на ошибки предыдущего таким образом мы делаем кредитный спуска деревья входят с какой-то следим коэффициентами короче
00:43:28 - 00:45:01
это сумма функций конечная функция эта сумма наших функций которые дают каждое дерево с каким-то весов при этом там каждое последующее дерево мы учитываем все меньшим коэффициентом чтобы не скакать но это как с тем чтобы все таки сходиться куда-то несколько оттуда сюда хорошо сына ну как бы плюс в том что мы ансамбль используемый ни одно дерево или обучиться также как перевели к следующей вопросик это твой вопрос со звездочкой чем и джим русло gm и как просто отличается только другом большой вроде бы ну в общем то что я точно помню
00:44:13 - 00:45:52
что это просто недавно как раз смотрела ты готовилась что во-первых can boost классно работает с печальными речами потому что у него сложная система кодирования древних учений и он сам как в этом суть это делает довольно сложным способом и делать это руками было бы принципе нереально и я считаю прости пожалуйста а что же там такого не реального делает смысле кодированию реальных печей когда там разбиение происходит на под выборках исход выборов ну то есть мне кажется что она манить обучение это довольно сложно было бы
00:45:06 - 00:46:25
делать когда ты перри обучаешься много раз моделей на разных сэмплах там несколько раз выделяются различные сэмплы рисунки руются так хорошо и трудозатрат на обычную в общем с черт про различия можно предугадать вроде как вроде как они все используют англии 100 грамм на разделении бином вроде как тут отвлечение потому что или же boost тоже это использую отличие в том что их жабу стучится в ширину у дерева и точен и говорил при древе про способы обучения он учит по слоям light дбм учиться и этом вроде как можно проверить легче
00:45:46 - 00:47:14
чуть-чуть потому что слой и можно там разойтись лдпм он учит как бы в глубину сначала человек узла как boost я естественно того как готовилась к этому совету я не знал этого факта вашей маме но это очень прикольно короче я узнала о такой классный вид штукой boost имеет множество каких-то плюсов производительности и в том как хранить модель том что нет вот этого перекоса что дерево может быть не понятно и не сбалансированы и на прогнозе буковски проблема со временем вычисления для каких-то объектов а для каких то все
00:46:33 - 00:47:53
быстро работает потому что как boost использует я забыла слова котором обязательно это деревья симметричные и они используются то есть сплит одинаковые по всем узлам на каждом уровне это один сплит одинаковый и в принципе кажется что это идет вразрез с концепцией вообще решающего дерево но круто что это работает потому что насколько я понимаю решает некоторые проблемы с скоростью прогноза из хранение модель что не нужно хранить куча сплитов слушай что значит идет вразрез общем общие идеи построение дерева ну она идет
00:47:17 - 00:48:43
разрез потому что ты в каждом узле например представим какую-то идеальную ситуацию в которой ты сделала разбиение у тебя там уже отсортированы объекты или то мне не нужно по какой-то фиче вот кричал один мы сделали первое разбиение на втором свою мы выбрали лучшие разбиение и все равно в каком-то узле мы может быть будем делать что-то лишнее будет неоптимальным на моменте построение дерева мы как бы выбираем в этом узле конкретно в данной точке лучше разбиение отпустит не происходит потому что мы рассматриваем
00:48:00 - 00:49:11
все узлы и кажется что это лишнее операции как бы возможно но здесь нужно поспорить на самом деле можно поспорить потому что в зависимости от того но кажется что вот и найдя один сплит и достаточно быстро ты можешь поиск сплитов за параллели и тебя один раз его сделать и применить сразу на весь мир и типа идти дальше ты скорость построение дерева ношу ну да да я имею ввиду что вот как раз в дереве же в самом алгоритме просто немного другая идея довольно на каждый сплит ты прогоняешь именно для этого
00:48:36 - 00:49:56
узла для конкретных объектов федоровский есть так не происходит но крыму что это работа потому что действительно насколько я понимаю берёт большой прирост производительности не за счет это какой ступени а еще там разные сейчас прости нас давай вот эту часть тоже закрылось ты молодец давай я перейду водка вопрос который задавал изначально то что ну вот ту же сказала что есть проблема с подсчетом производной в клиент для канта и лосса и теперь вопрос ну то есть ты рассказала про i just я тебе есть же градиент
00:49:16 - 00:50:44
вот проблема с лоссов что же что же такого зачем нам нужны какие-то дифференцируемые внутри функции зачем и почему мы не можем использовать какие то другие там вообще в принципе [музыка] мышь как таковой градиенты не считаю пусть инге мы считаем ошибку вычитаю ну как бы предельно мне важно что не будет существовать произвольным и сингер я возможно ещё что-то ужасно говоря это касава не поняла но кажется что там бусин зэк но он как бы над ошибкой пункте функционала качества как мы считаем 2 функционала
00:50:11 - 00:51:38
качество если нам типа ошибки нету там и этот объект просто можем не брать там выборку лично что это такое наверное это не супер важный мне так сейчас кажется потому что мы считаем качество не знаю мэй пмс она мы считаем что когда и лозы хорошо бы что река want to yes no какого-то объекта там 0 и не вижу что тоже на градиент для этого они уже верны предсказаны мы можем не брать его последующего следующие дерева и все они же подстраиваются то есть мы отбираем объекты которые имеют большие градиент это большие ошибки
00:50:58 - 00:52:17
допустим кому каждое дерево выбираем объекты которые имеют большой ошибки но вообще градиенты и их забираем следующие дерево чтобы пытаться обучиться на этих ошибках на этих именно объектах и объектах которых нет общие ошибки можно их вообще не брать можно их братья на в каком-то соотношение но я не вижу как они могут все сломать часть моря хорошо давай я тебе задам вопрос по-другому выпусти именно в капусте есть своя особенность стильного сами которые можно использовать в пасти почему используются
00:51:40 - 00:53:02
вот именно такие волосы они другие м сильная подсказка я знаю только что это boost или как у меня сериале регуляризации были мне кажется это никак не связано не очень-то больше не могут вспомнить лечить зубы статусами можешь хорошо окей окей давай тогда поговорим про регуляризации в ну раз уж ты вспомнил регуляризация вы даже будет 100 в посте в лакеями в капусте что как это вообще работает но у нас есть 102 как обычно доставай найди нормы и плюс есть еще а там член который будет считать количество
00:52:21 - 00:54:10
листьев например угости то же одна сложность моделях сути тоже его можно использовать как функция народа канал для регуляризации но релизе 02 как обычно есть леса это скорее в каких-то листьев если каждого объекта есть скоро мы можем посчитать [музыка] квадрата суммы квадратов или комсомольского хорошо простой вопрос как l1 l2 регуляризации работают что они делают с весами или один это не квадратичная форма это линейная то есть an issue мансов она может длительным весах которые не важны или если они коллинеарны очень если не важны
00:53:15 - 00:54:54
а если у нас есть зависимые переменные здесь очень переменная году из них заземляют струю используют с каким-то весов за счет формы от этого функционала люди мы добиваемся и на зануление ан-2 просто уменьшают весам не дает им расти бесконечно хорошо смотреть какие что еще интересно регуляризации которые ты знаешь нет суши знаешь ли здесь еще ты можешь мне рассказать слушай но так как норм много типа л1 и л2 это нормы и ты можешь представить любую норму и соответственно на по-разному будет штрафовать
00:54:08 - 00:55:43
такое и типа можно задать эту норму да конечно да погас типа можно в модельку передать не самописный можно передать и мин функционал норма ну придется залезть под капот но в целом дальнем не занят на маме хорошо слушай наверное единственное чем мы с тобой говорили то есть мы говорили про метрики поговорили про эти модельки где-то наверное хотелось бы поговорить с тобой о вещь которые не так часто спрашивают нас о бесах это работа с понижением размерность вот какие подход понижения размерности что знаешь
00:55:02 - 00:56:40
ты к этому не готовилась я просто ну как я знаю страны имеют понижения размерности потому что с этим было связано моя [музыка] работа над кандидатской диссертации что ты забыла завален пойду это тот образ возможно я в заднице мне помог нет на самом деле я не уверен как бы я занималась этим только вот тогда научном сообществе возможно это немного смешно от того что желают у саши на исследования но я расскажу знаю там есть области которых у нас очень [музыка] высоко высоко размерность признаков который мы хотим пользоваться иногда я
00:55:56 - 00:57:29
тушу иногда они там и примерные нужно очень много усилий битва приложить для того чтобы каким то образом выделить важные это не хочется терять что-то еще и по сути методы которые делают проекции сильно могут помочь например там самый простой записи и построить смотреть какой процент информации и сей описывает способны объяснить выбрать какое-то количество главный компонент можно использовать мой любимый мёд все время несущихся карт кохонена на то же место появление пространство такая простая не еронко
00:56:50 - 00:58:20
она помогает скорее для визуализации для того чтобы построить какие-то сложные визуализации многомерном пространстве есть это я не только метод для того чтобы новые фичи получить кстати классный способ не только заменить свое большое пространство какими-то вещами совсем а может быть можно дополнить посмотреть что там будет skynet ностью конечно независимо будут потому что может быть можно перейти там квадратуру короче по генерит фичей способ на генерить новые фичи верных зависимые говорю через него вопрос это
00:57:35 - 00:58:52
не буду зависим потом выбрать что работы тут вот или это классно способ для того чтобы сделать какие-то консультации по нижнему пространства или визуализировать если мы снижаемся до двумерного трехмерного пространства cher еще какие методы но любые методы и это по сути главные компоненты ну короче ты можно задавать какие-то нетривиальной поверхности не плоскости и на них тоже проектировать а где это из пользуется тебе много власти есть такое есть такой подход ну я читала про это статьи исключительно вот
00:58:15 - 00:59:45
моей научной области потому что они были коллеги которые курировались они работали писали свой песни в критике где генерал под по графику мы и одни использовали названием или фолд универсальный mifold и который проецировали но по сути это просто проекция на подбираемые подбираю мою сложную поверхность конь-огонь хорошо слушай ну ты хочешь сказать но здесь не вспомнить ничего про понижению честно говоря самое первое что приходит на ум вот вот прям но если я отвечаю я бы сказала ну естественно мы с помощью не день нужен просто
00:59:12 - 01:01:01
зафигачить большую часть признаков оставить те которые реально что то значит у яндекса не сводится подожди они сходятся ли это по сути практически и миссией у типа главный компонент утвержденных монетами знаешь думу по сути своей зоны зрения что это ли но дело в том что чаще чем дожди здесь есть очень важный момент что когда я использовать интриг утилизации у меня остаются признаки полностью интерпретируемые ты сохраняешь большую сохранять получалось но в целом как бы когда мы говорим про pesel мы говорим
01:00:06 - 01:01:25
про то что вот так хранить информацию как вы сохраните форма дисперсии до значений то есть их разлет какую еще информацию интересно было бы сохранен на самом деле вот отношение между двумя точками в 1 раз представим себе что у нас был какой-то по огромным пространствам хотела что я 300 я не сохраняются чтобы отрезок больше чем меньше отрезок да собственно вот снг подход он не блин да ну она наверное самый интересный самый крутой а вообще когда-то давно когда я был молод и юм я помню как я пришел на
01:00:52 - 01:02:27
выступление ведь и ермакова короче и пить я тогда уже был я только-только стал один ли дом опять уже был тем рядов знать что он рассказывал про юнеп и и в представлении вообще очень интересный фильм рассказывает еда представляешь насколько сильно вот вам не вот осталось это что настолько клёвый настолько интересно было там по сути своей тоже идет сохранение но даже перевод в какое-то другое пространство не интерпретировано и но идет сохранение вот как раз отношений и за счет этого можно иногда очень интересные картинки получать и
01:01:39 - 01:03:06
я пробовал в кластеризация пользователей можно было увидеть как одна группа пользователей которые смотрят один контент есть группа пользователей которые смотреть несколько контентов есть группа пользователей которые другой контент и вот есть такая вот ручеек между одним облаком людей которые смотрят один контент другое облако людей которые смотрят другой контент на есть ручью которую типа между ними что вот этого пользователя которые смотрели этот рукой карта честно очень интересное представление
01:02:25 - 01:03:34
очень такое нестандартные прикольные и ну красиво красивой и даже интерпретирую за счет того что ты прям видишь то что вот эти вот люди на самом деле вот эти два облака они близки друг другу за счет того что есть этот вот связь реальных пользователей которые смотрели то есть это похоже и контент и но условно похожа да и можно пробовать делать перенос контента то есть одним людям предлагать посмотреть этот контента этим людям предлагать посмотрите контент то есть даже с этой вещью можем придумать
01:03:00 - 01:04:12
какое-то применение вот это очень интересно каждого и ночную заберу сердечко там сердечки это уж больно да нет ну ладно бульоне уводит
01:03:35 - 01:04:05