Middle Data Scientist | Часть 2. Секция Python и работы с данными | Собеседование | karpov.courses

Подготовка к собеседованию на Data Scientist

Транскрипция видео:

  • [музыка] перейдем дальше капитану ты не против да давай если мы поймали закончили давай ну я думаю что более чем принципе ты много чего интересного рассказала видно что вот и хорошо погружена В эту тему вот не так чтобы очень сложные вопросики были соглашусь Ты очень много дополнил Слушай мы с тобой поговорим про сложная вещь вы Ну раз ты меня вот так вот я решил я не буду давать тебе возможности Прости пожалуйста Значит у нас будет непростая Тема мы поговорим с тобой про сложной структуры да Вот надеюсь ты что-то знаешь

    00:00:01 - 00:01:59

  • но мы поговорим с тобой про сложные структуры данных на каких-то примерах давай возьмем пример простой вот есть у нас Я сейчас напишу текст значит первая задача при работе с текстами нам нужно уметь делать так называемую коллекцию значит Что значит коллекция коллекция это не что иное как дикт твоя задача сейчас будет написать функцию которая будет создавать дикты из нашего текста а затем организовать поиск либо слово либо под строки в данном тексте подожди дикт который будет состоять из слов Да ну из токенов из токенов Ну в тексте

    00:01:07 - 00:03:13

  • есть понятие токены там токены заданные токены это слова или у меня не заданы Да у тебя Ну тебе нужно будет создать коллекцию ты когда-нибудь с текстами работал тебе нужно будет создать коллекцию вопросы токены это типа часть текста на которую он разбит это могут быть там предложение в больших текстах случае это просто будет слова я изначально знаю что токены это слова и считают слова или мне оставить себе пространство чтобы могла задавать какие-то другие например по запятыми вставать или я точно сплитую по пробелым

    00:02:21 - 00:03:38

  • все ну вот я здесь добавил одну заглавную букву и одну запятую в надежде что ты ее берешь когда будешь создавать короче токены это слово я могу отладку на лету делать или нет Так ну ты можешь запускать смотреть да да что делать если честно вообще забыла эти методы но я попробую вспомнить происходящему далее супер Давай сделаем я вспоминала работает ли это так и к строке или нужно вызвать по-другому Теперь нужно исключить регуляркой ты можешь погуглить как это сделать Да я просто правда не помню

    00:03:07 - 00:04:40

  • [музыка] можешь в этом окошке Ну в смысле здесь браузере о явно было хорошо так [музыка] нужно исключить действительно числа процентов здесь есть пример где есть только возможно поиск тебе поможет смысле прям конкретный запросом первую строчку А сколько времени у меня есть О вот это выглядит как то что я делала выглядит хорошо утов Не партнёте ну хорошо смысле он есть интервью конечно конечно же регулярки сколько бы я что-то не делать регулярком каждый раз я гуглю Нет resapp это изменение как раз все было

    00:05:54 - 00:07:46

  • правильно просто в самой регулярке самом регулярном значении я буду подбором извините это стыдно но я попробую Ничего страшного ты все пропил удалил он здесь тебе ничего не делает но если бы у нас были цифры то он бы их не взял это происходит это кажется я пробовала Давай поищем регулярное выражение принтер что-то такое близкое Давай вспомним Давай чисто вот как подсказка не через регуляр сделать не через регулярку нас есть функция replace можем просто в рамках чтобы не сидеть долго смысле запятую конкретно Ну

    00:07:55 - 00:09:32

  • да запомним что это надо было сделать через регулярку да чтобы просто не терять время Ой я там случайно пробел двери в самом начале в тексте хорошо Это я странный человек Давай в чем проблема в том что эта коллекция это не Да я знаю Я просто посмотрела что а мы хотим считать же да количество строк количество слов входящих коллекция смотри в коллекции в коллекции зачастую Давай сделаем собственную коллекцию в коллекции сделаем следующую вещь у нас будет дикт в котором будет ключ это токен а вылью это индекс Где он есть этот

    00:10:25 - 00:12:14

  • токен в тексте первый индекс или все индексы все индексы конечно я могу вслух думать могу сама в общем вопрос что мы можем идти У меня же ключи здесь не уникальные и есть Ключ Здесь который присутствует несколько раз мне нужно запомнить позиции сейчас у меня кис на самом деле не кис а просто все слова я могла бы сейчас чтобы получить уникальный токены и потом идти по листу и искать в листе вхождения этих токенов индексы Но кажется что это будут затратно потому что сначала буду делать сет потом буду по нему ходить

    00:12:58 - 00:14:35

  • и буду еще и второй раз искать индексы много операций Поэтому лучше я пойду просто один раз поэтому И вообще можно было не перезаписать но пока так оставлю на слайм маленькая наверное для красоты кода это пряности можно ставить второй переменную можно было бы перезаписать вот на самом деле это не кисло токенс Где же так пишется [музыка] мы будем сразу идти проверять вхождение в коллекции ключа и если не входит то добавлять если входит то аккаунта даже нам важно же позиция индекс поэтому легче типа индексу потому

    00:14:37 - 00:16:18

  • не вычислять Сейчас я проверю это не работает вообще не работает нет почему это что ты хочешь сделать проверить хождением Зачем тебе вхождение пожалуйста вот у тебя есть токены у меня есть список ключей которые сейчас в коллекции есть так типа лист от collections или там Kiss вернуть от дикта который у меня уже есть я проверяю если в этом листе будет Тебе же коллекцию нужно создать создай коллекцию создай дикт пройдясь по листу все и вывалилась Запиши либо одно значение либо лист индексов где они

    00:15:53 - 00:17:31

  • находятся функция in есть [музыка] Вот у тебя есть стой Что ты делаешь он возвращает один индекс не все то есть индекс в листе возвращаются индексы А ты хочешь так сделать я хотела идти Смотри у меня же и Ну типа in Range Я хочу Я же знаю этот индекс Я хочу добавлять и просто не я могу короче я могу создать это придется сет создавать Я не хочу Иди по листу и создавай коллекцию У меня есть токен правильно вот этот Я знаю его индекс и я его типа записываю сюда нужно делать проверку если у меня уже этот токен если

    00:18:05 - 00:19:42

  • у меня уже этот токен есть где коллекции Так ну и напиши его нет Мне нужно создать проверку на вхождение этого ключа в словарь [музыка] Можно где-то наверное каким-нибудь я хотела это сделать через лист потому что взять ключи из словаря и проверить Входит ли Вот это значение в лист значение слова Я знаю что есть нормальная функция подожди Ну ты же ты же идешь по листу Вот подожди Точнее по строке Ты ее уже разбила Ты идешь все что тебе нужно это вот типа новые токи вопрос Он есть в коллекции проверка на вхождение элементов лист

    00:19:11 - 00:20:57

  • в Collection из коллекции можно взять ключи и список ключей Это лифт понял Потому что я не помню как проверить как по-твоему как по-твоему ты будешь идти вот коллекция пустая коллекция пустая Да ты берешь токи один вот вырываешь этот токены из лайна Я просто делаю пустую коллекцию да потом да Он пустой и можно проверить если в нем что-то Да ответ будет конкретные для словаря но нет ну можно Конечно я хотела это сделать Окей есть функция для словаря Get которая возвращает тебе но она может вернуть нам

    00:20:14 - 00:22:04

  • Окей когда можно так сделать [музыка] она возвращается она да но тебе нужно прописать чтобы этот чтобы Давай напишем Ну вот напиши ты точка Get вот где-нибудь у тебя T как словарь есть точка Get и какой-нибудь ключ Да вот он на тебя отработал он даже не упал ничего тебе нужно прописать чтобы он возвращал этот нам он потому что тебе сейчас нами возвращает дед выглядит как Что ищем запятая в случае false нет подожди и что возвращаем то что мы возвращаем дефолтное значение типа то что я передаю или он вернет тебе любой Ну все что

    00:21:34 - 00:23:30

  • угодно случай если он не найдет делает давай ты создала сет если ты напишешь сей запятая на Да ты получишь на Вот и Сравни с нулем можно да Окей ну типа он тебе пусто вернул пусто пусто возвращает короче можно не прописывать что нам Но для читаемости кода Да ладно мне не надо не надо приравнивать да ты же добавляешь вот здесь все я проверю еще раз так для и задавай список который будет служить только и включу к этому ключу должен вернуть этот список и допиндить еще попробуем С какой проблемой ты столкнешься

    00:23:27 - 00:25:15

  • Ладно Запусти да запусти Запусти посмотри хорошо всё так а что какая проблема ожидалось а никакой Это был вопрос понятно хорошо ты получила вот такую коллекцию теперь я хочу чтобы ты организовала поиск внутри этой коллекции по слову или части слова Я хочу чтобы ты организовала такую функцию которую на вход будет принимать коллекцию затем слово слово будет сын и я хочу чтобы вот этот поиск ну назови как-нибудь я слушаю тебя думаю ты думаешь они ну Опусти вниз Я хочу чтобы ты посмотрела вот есть слово

    00:26:16 - 00:28:03

  • singing Я хочу чтобы поиск выдавал позицию 10 а затем как часть слова в слове Наций семь и 13 То есть он должен мне выдавать тьюбл с двумя листами Да смотри тут то есть не позицию конкретно вот этого свинг то есть нужно прибавить два прям семь 13 не 9 и 15 а 7 и 13 Ну должно быть 10 13 потому что на самом деле его позиция не 79 Нет на самом деле нет ты же здесь индексы представляешь [музыка] хорошо а можно тебя попросить написать собственно вот этот тест для функции Search помнишь не очень окей ладно

    00:27:34 - 00:29:30

  • [музыка] забей записи проверяет хождение типа проверяют какое-то условие в конце когда применяют его ладно я теперь буду думать не пиши пиши [музыка] 5 строковые методы которые я вообще не помню Сейчас я попробую понять Как это работает вне функции я пойму как работает если они вообще а можно же получать индекс [музыка] Fine Подожди подожди что ты хочешь сделать получить номер вхождения в строке а что ты хочешь возвращать если не найдено пусто лист у меня будет plain Flat такой долить смысле у меня будет не лист

    00:29:46 - 00:31:28

  • листов с одного слова из другой просто лист 10713 на самом деле очень важно Очень важно чтобы это был где первые значения Это лист и второе значение это лист для tuple 0 это будет там где только слово а титул один это подстрока а если это разные слова в которой она входит то есть если у меня тут насинг был бы энисинг оно все в один лист он был бы внутри второго листать вот так ок ну и соответственно Если бы у нас слово циник было бы много раз В общем первое что я сделаю сейчас за нужно быть несколько проверок первая

    00:31:50 - 00:33:42

  • проверка на полное совпадение Потому что если бы я просто сделаю find sing и равно ровно 0 это не гарантирует мне что это тоже самое слово поэтому все-таки придется делать проверку равенство чтобы минимизировать количество проверок Сначала можно сделать find я вспомню [музыка] Наверное это равнозначная процедуры поэтому наверное все равно будет первый В смысле сравнение полное все равно пойдет по всем символам и сравнит и Fine пойдет найдет первое включение этому первому так смотрю на тебя я потерял счет

    00:33:00 - 00:34:29

  • времени что очень долго сейчас короче ладно я буду прописывать условия если из на Ничего не найдено то мы просто должны вообще Выйти отсюда если равно строке Spring Good то нет ничего не делаем потому что мы ходим по ключам мы не возвращаем когда дойдем тогда вернем до конца если ключ равенства строке то Мне нужно будет То что находится как строка аппендить поэтому сейчас попробую возможно я удалю сделаю первую версию этого возможно ее более красивый если полностью я подумал что с двумя листами

    00:36:46 - 00:38:33

  • не помешает Я просто верну два Велли у меня будет две переменные одна которая полностью отверстие 2 Ну кажется что я должен справиться наверное так или нет сделаем хорошо и ты хочешь возвращать пустой лист если не найдено или возвращать Смотри у меня будет тупол у меня тебе должен вернуться на если не найдено типа полное совпадение то Я возвращаю NAN и второе это лист NAN и Ну у тебя тупо может состоять из NAN Да NAN хорошо лист NAN и так далее [музыка] Я на две минутки отойду Давай я пишу Если что или не писать пиши

    00:38:25 - 00:40:08

  • я сейчас подумаю лучше это сделать Что работает за то что написала или нет что писать Если что я тебя не слышу может микроне включил Ой да я забыл я тебе подарки выпадать его Я как почуяла что слишком уж тихо Так что там Передаем lection а потом [музыка] сейчас тебя вернул все вообще просто то есть 09 отрабатывает правильно А вот вторая вещь Ладно потом скручу это слишком сложный слой кажется не дублируется [музыка] не помню Можно ли так пробую так я проверяю сейчас я Пройдусь по нему а я беру индекс если

    00:42:46 - 00:44:23

  • нахожу собственник если не нахожусь в string то ничего не делаю Если я не знаю как будет работать честно случае Ну вот недостаточно на самом деле ответов в первым и LF последним сейчас ты думаешь что из нанги так работает да вот это вот сейчас я проверю [музыка] нужно проверять тогда это нужно все одним проверять Ну кажется что если есть Да я еще принесу только больше нуля плохое условие Почему а если согласна согласна просто больше единицы чтобы ржаться этот в конце надо сделать не он все так просто тут прикол в том

    00:45:30 - 00:47:34

  • что ты типа в моменте не задаешь последовательность он тебе последовательность сначала нам кинул потом а мне нужно обратно вот если ты здесь поставь да скобки решают [музыка] сейчас вообще не возвращает просто да не возвращает не работает Да у тебя Да я понял у тебя первое условие забирает все первое условие Да как будет когда у тебя совпадает да я поняла я хотел сначала проверить вхождение потом проверять ладно это не работает поэтому в любом случае [музыка] так проверяем полное хождение проверяем

    00:48:23 - 00:50:05

  • что она вообще входит экстензия Да но есть нюанс смысле искать посмотри посмотри как как это работает все правильно а теперь буква А [музыка] Так выглядит как правда 8 Так сколько раз сейчас Раз два три четыре пять пять раз Ну да пять раз выглядит похоже Ну Насть не учитывая то что это было очень долго хорошо скорость поиска [музыка] от единицы в случае Всегда ли от единицы не всегда Почему если будут дубли в Ключах мамы Если будет коллеги то будет не от единицы Какие виды варианты работа с коллизи Ты

    00:49:56 - 00:52:04

  • знаешь вообще вот Каким образом избегают коллизия Это вопрос со звездочкой можно чтобы вообще не падала в один ключ Можно несколько ключей считать ключ из двух это меньше вероятность будет того что они оба совпадут Окей Ладно хорошо вопрос такой чем функция init в классе отличается от функции New вообще функции нет в классе функции нет в классе инициализирует объект класса так создает объект Я до сих пор так и не знаю что делать потому что я читала и я так и не запомнила как ты видишь да Ну там

    00:51:37 - 00:53:30

  • объект класса и класс по сути своей вот в этом есть разница в том что когда создается классы когда создается объект класса они создают класс Нет они там в различное время запускаются своей они запускаются в различное время одна запускается в один момент времени другая запускается другой момент Но есть еще прикол в том что допустим вот у нас есть Потомок класса и мы хотим как-то переопределить функцию допустим функцию Нет я хочу чтобы сначала что-то происходило а затем шел инит потом точнее инит родителя как

    00:53:04 - 00:54:31

  • мы это делаем Какую функцию используем Сейчас подожди у меня есть класс он родитель Да я поняла [музыка] да ничего [музыка] что мы хотим делать до того как Мы хотим переопределить иметь чайлд таким образом чтобы сначала выполнялось что-то а затем и нет а что Ну знаешь какие-то переменные Ну да допустим я определял бы какие-то перемены а затем определял все то что был классе Это вопрос такой простой там [музыка] есть функция супер позволяет вызвать функцию класса от которого я просто не очень типа понимаю какой момент когда я и ничу

    00:53:51 - 00:55:44

  • какой момент вызывается и нет торрента когда создаю объект Я вот здесь вот вы нити меня и нет вот этот Но ты его пересопределяю да а чтобы ты имеешь ввиду что здесь какие-то там например а равно там Ну например мне нужно задать какой-то функции чему-то потому что я передовые да Да нет можешь ничего не передавать Зачем Не ну окей типа я вот так сделала Потом пишешь супер Я поняла И потом я пишу вызов супер супер [музыка] Я тобой отработала да да ну типа если у тебя в parents допустим есть определение

    00:55:48 - 00:57:32

  • какого-то б допустим А ты в чайлде определяешь А и хочешь чтобы тебя б тоже было определено так вот и типа я здесь тоже селфи Да допустим и ты хочешь обратиться нет обратиться к атрибуту то ты можешь через Супер это сделать Хорошо давай четвертую часть Настя четвертая часть будет про б тесты я не буду тебя спрашивать про работу с данными Потому что ты работала слишком много с данными и ты слишком много сама задаешь вопрос про данные четвертая часть будет про а ПТС Давай Пожалуйста расскажи мне мы такой вопрос задаем и это будет очень

    00:57:09 - 00:58:58

  • близко к тому что ты делала вопрос про рекомендательные модели пожалуйста Опишите дизайн эксперимента того как мы проверяем работу рекомендательной модели при условии что у нас нет возможности делить людей каким-то простым образом У нас есть возможность делить их по делу И рекомендации до нашего момента не было То есть ты сейчас запускаешь новые рекомендации Я хочу чтобы ты рассказал максимально подробно Так у нас есть запрос а есть больше подробностей где мы хотим это запускать это типа онлайн или нет

    00:58:06 - 00:59:47

  • Это рекомендации Где мы можем все метрики посчитать нормально Да конечно Как называется билборды типа ничего такого онлайн рекомендации на сайте Окей нас есть какой-то алгоритм мы не будем углубляться что это хороший хорош нас есть хороший алгоритм будем говорить что это рекомендательная система Мы хотим узнать сколько прошло Она работает при этом не можем делить людей нормально понимаем при этом что алгоритм новый и мы не знаем А может мне завершить шаринг кроме Да можно Завершить понимаем что сам если у нас не было до

    00:59:14 - 01:00:49

  • этого никогда блока рекомендаций понятно что скорее всего этот блок не может вряд ли делать хуже скорее всего этот блок приносит какой-то вылью даже если там показывают что угодно и нам нужно это в тесте смоделировать то что мы показываем что-то не очень умное но что-то тривиальное тривиальная рекомендации это топы Можно несколько рекомендаций генерировать например толпы товаров за месяц за неделю зависимости от бизнеса насколько он подвержен каким-то Насколько быстро меняются топы продаж какая там сезонность

    01:00:20 - 01:01:43

  • в зависимости от этого общем выберем период за который мы берем топы можем считать полные топы можем считать топы в категориях для человека для каких-то сложная штука для того чтобы просто сравнивать наверное можно просто остановиться и рекомендательная система где будет работать положение сказать на сайте рассылках или где корзине или мы вообще ничего не просто главный экран сайт Пусть это будет онлайн сервис Пусть это будет какой-нибудь но это не на карточке какой-то фильма А это будет именно пользователю на главной

    01:01:03 - 01:02:29

  • странице вне зависимости от поэтому взаимодействуют люди страницы короче это блог на главной странице Окей тогда проверяем топы самые часто просматриваемые рекомендуем случайные наверное как-нибудь мы для человека на самом деле тоже можем построить чтобы в его категориях любимых Но это потребует от нас какого-то знания что человек любит больше наверное не стоит можно случайные рекомендации того что этот блок в принципе сам может работать что-то рандомно рекомендовать и это уже будут какие-то если закажут

    01:01:50 - 01:03:04

  • фильм Человек плачет какие-то продажи А если просто смотрят взаимодействие дополнительные Мне нужно оценить Как работать эту информацию в интернете и есть алгоритм первый алгоритм второй алгоритм за какой-то период например пусть будет за две недели если вас много трафика Наверное этого хватит И третье это какая-то умная рекомендательная система основанная на пользователей или основными на контенте не важно мы не можем делить насколько я понимаю мы не можем делить по-нормальному легкими способами Значит

    01:02:34 - 01:04:11

  • мы не можем трафик распределять группу и группы Б значит должны делить как-то по регионам это информация о мне придется в общем тесте наверное раскатывать на разные регионы разные алгоритмы Можно попробовать так Для этого мне нужно выбрать во-первых регионы сколько у меня доступны регионов наверное точно Ну если мы берем Россию например вряд ли Москва похожа на кого-то Вообще сомнительно Возможно на Питер но это нужно смотреть в общем нужно произвести такой довольно серьезный анализ того насколько регионы сопоставим друг с

    01:03:26 - 01:04:59

  • другом то что взять похожие регионы если мы хотим делить их алгоритм вот поэтому сначала нужно во-первых отобрать по региону на каждую на каждый алгоритм Хотя бы три региона лучше я бы взяла 6 Потому что ты знаешь как я это делала до этого для того чтобы исключить какой-то Случайность себя немного еще больше убедить что действительно воспроизводимо и на двух похожих регионах нет работает один тот же метод работает одинаково Похоже мы подбираем регионы с Анализируя их [музыка] кривые просмотры насколько регионы

    01:04:15 - 01:05:53

  • похожи друг на друга можно по-разному смотреть например там по [музыка] каким-то средним метрикам в регионе по количеству людей но если мы будем скалировать значение то количество людей наверное не очень важно но все равно население но популяция в регионе наверное тоже несет какую-то информацию Я бы подбирала сначала похожие по там кривым каким-нибудь Сколько клиентов к нам приходят каждый день по кривым там Сколько подписчиков оформляют или еще что какие-то метрики на которые будем смотреть что можем смотреть Мы

    01:05:07 - 01:06:23

  • продаем фильм или мы смотрим ли мы на деньги или просто на просмотры Ну давай упростим задачу Пусть это будут просто просмотры Но вообще конечно зачастую бизнес смотрит на какие-то сложные метрики хорошо просмотры тогда мы смотрим кривые то есть временной ряд для каждого региона строим временный ряд количество просмотров людей подумаем насколько долго будем проводить тест от этого будет зависеть какой разбиение мы будем делать для этого подбор например пусть будет чтобы не было очень много данных

    01:05:48 - 01:07:09

  • наверное стоит построить там раз в день листочка у меня количество просмотров день количество уникальных пользователей в день количество уникального контента в день можно попробовать эти временные ряды кластеризовать найти группы похожих регионов там отобрать визуально Кроме того я бы Добавила все же регион разные населению поэтому возможно динамика похоже абсолютное значение нет поэтому я говорю про скалирование нужно проскалировать кривые сопоставимые и нас интересует именно динамика изменения во времени этом будем

    01:06:30 - 01:07:52

  • считать похожими регионами но я бы все же обратила внимание на то чтобы регионы Ну то есть не получилось бы так что Москва попадает в какую-то группу потом с благосостоянию людей Ну короче как-то попробовать отобрать регионы не только по динамике изменения показателей Но если будет возможность внутри этих групп кластеров по динамике я бы еще выбрала регионы которые похожи по численности и там не знаю может быть территориально как-то и какому-то коэффициенту благосостояния людей в регионах потому

    01:07:16 - 01:08:34

  • что возможно это отражает поведение так принципе Таким образом мы отбираем регионы на тест проводим внутри этого там еще а тест на периоде который нам нужно определить период сколько мы будем гонять этот тест поскольку не было до этого никакого блока правильно или у нас был другой блок не было сообщение было блоком вообще не знаем конверсию которая с этого блока идет и поэтому непонятно какой объем выборки мы получим после того как тест пройдет поэтому можно пробно запустить какую-то из простых моделей для того

    01:07:56 - 01:09:27

  • чтобы понять примерную конверсию в день и Оцените количество просмотров которые мы будем получать но я бы на конверсию общественный минус чтобы хотя бы на конверсии поймать какой-то эффект это нужно для того чтобы я на каком-то периоде для того чтобы оценить За какой период мы сможем набрать нужное количество наблюдений Например если мы увидим что там две недели там или месяц достаточно будет Мы будем проводить тест на периоде отбор регионов именно месяц грубо говоря от сегодняшнего момента на подбор регионов Я одним месяц

    01:08:43 - 01:10:04

  • там посмотрю всякие динамики и вот на месяцы которые Я выучила месяц назад До сегодняшнего момента я проведу тесты внутри групп и между группами смотрю что различий там нет если у меня все регионы Ну по идее у меня все регионы должны не давать со значимых отличий если значимое отличие в метрике то есть количество в конверсиях количество просмотров мне же не было блока У меня нет этой истории на месяц я могу сделать на котором я это такая это не стопроцентная проверка но я наверное это сделала если Мне дадут

    01:09:27 - 01:10:48

  • Лучше тогда не день делать чтобы оценить и период на тест и понять Вообще Ну похоже или нет Вот типа Можно такое настоящий а сделать просто поставить этот блок с рандомными рекомендациями лучше с топовыми чтобы Рандом он может немного людей напрячь Потому что люди которые будут анализировать Почему им что-то показывают могут быть недовольны а топы вряд ли заставят людей сомневаться что будет понятно что это какой-то известный там популярный сейчас только что выше фильм вряд ли это и топ это типа алгоритм сравнения короче

    01:10:15 - 01:11:34

  • на отобранных регионах У меня три алгоритма Я хочу отобрать 6 регионов я запущу на эти 6 регионов топы и неделю посмотрю что будет происходить тут я померяю и конверсию померяю просмотры которые приходили стопов посмотрю сколько мне достаточно периода чтобы зафиксировать эффект это снимать много проблем и тут же я провожу правильно все хорошо после этого то есть у меня все были в топах дальше начинается период теста например на месяц и Ну все случайно горитмы по трем группам по каждому алгоритму 2 региона

    01:10:55 - 01:12:42

  • ждем пока накопится данные ждем месяц после этого начинаем анализировать Ну по сути это были бы конверсии в книге конверсии в показ пока смысле что после клика произошло не после клика А после показа этого блока произошло событие переход по клику и просмотр фильма Но это можно было бы обсудить бизнесом что можно смотреть Просто ну если человек не тыкнет на этот фильм конкретно в блоке возможно все равно его увидела в этом блоке потом его посмотрел можно было бы обсудить какую метрику конкретно Мы хотим отслеживать

    01:11:49 - 01:13:02

  • Земли мы отслеживать что человек именно кликнул на этот блок потом начал смотреть или то что он в течение часа этот фильм начал смотреть это тоже считается что мы как-то повлияли решение сначала показали а потом как-то пришел Мне кажется что если блок заметный если человек Мы точно знаем что человек его видел например сам начале страницы и человек волей-неволей Он открывает сайт он видит этот блог и он довольно крупный то скорее всего ну это могло повлиять на решение человека открыть этот фильм

    01:12:34 - 01:13:54

  • короче это обсуждаемо это может попробовать посчитать и проконсультироваться с бизнесом что точно не хотят видеть какой-то именно воронку или такую метрику Так у нас накопленные данные на самом деле чтобы я проверяла что внутри группы с одним алгоритмом у меня эффект одинаковый вне группы с одним алгоритмом эффект разный ты имеешь в виду что вот группа Город города условно Они похожи друг на друга да Ну что Метрика остается похожей для одинакового алгоритма То есть если у меня был алгоритм топов в первой группе листик

    01:13:16 - 01:14:40

  • лежит где написано поэтому я его смотрю и не путаюсь первая группа это группа рандомов внутри этой первой группы у меня там есть два города два региона в которых у меня не должно быть отличие в метрике то есть в конверсии пока версии Клик во второй группе с топами то же самое не должно быть отличие между собой потому что я показываю один алгоритм ожидаю что это будет одинаково работать на похожих регионах если это не исполняется что-то не так Ну наверное надо как минимум предупредить об этом остальных

    01:14:00 - 01:15:09

  • заинтересованных лиц А вот между группами рандомами и топами наверное будет отличие И самое главное что у нас есть третья группа рекомендательной системы где работала какая-то классная система она должна выигрышную сторону в лучшую сторону По метрикам отличаться топ фронтомов если не отличается можем [музыка] Ну если не отличается то мы честно признаемся говорим а Давайте попробуем провести еще один тест по-другому может быть нам не хватило Ну вопрос типа насколько не отличается если там не достигнули павелью можно сказать мы не

    01:14:35 - 01:16:05

  • набрали нужный выбор наш эффект видимо ниже чем мы ожидали да Давайте попробуем поддержать подольше если мы не отключали тест [музыка] Это конечно очень плохо Наверное мы можем продолжить Но вообще это нехорошо это типа пикинг проблем так делать нельзя Вот Но в принципе мы просто даем Вывод что мы не увидели пока эффекта можем переосмыслить эксперимент провести немного по-другому и потом можно провести как раз эксперимент с отменой наверное смотреть перемешать алгоритмы между собой вместе и потом меняем группы указываем

    01:15:24 - 01:17:06

  • какому-то региону где у нас там были Рандом и показываем нашу алгоритм рекомендаций где были топ Ну короче ротацию производим и смотрим Что вот в этом случае будет хорошо опять меряем типа эффект смотрим Меняется ли там кривая какая-то эффект на Первом периоде на втором периоде хорошо Слушай ну в принципе все Насть ну по обратной связи [музыка] питон конечно вызывает вопросики но честно говоря очень хорошие ответы были на Ну как очень хороший не хватает немного структурированности в мл дизайне но в целом

    01:16:22 - 01:17:59

  • ответ неплохой были Конечно вопросы связанные с метриками особенно когда я сказал что типа важен нет прогноз и Ты выбирала там метрики связанные с выбросами но затем как-то перешла в другую сторону и мы в целом потом обсудили на DS части что на самом деле ты посмотрела немного по-другому на все вот эти вещи были хорошие развернутые ответы целом мне понравилось больше всего наверное Понравилось потому что видно что видно что ты готовилась узнала принципе знала ответ это самое важное вот по питону есть вопросики не буду

    01:17:12 - 01:18:58

  • Вот но в целом я просто знаю как ты пишешь код я знаю когда reviewish код и это как тебе сказать я по тебе авансом поставил потому что знаю как ты работаешь вот по B тестом все хорошо но как бы Вопросов нет в целом ты обсудила все остальные вещи какие метрики смотрел как бы сравнивала что с чем достаточно много внимания уделила тому как ты проверяла похоже не похоже группы это конечно вот я знаю у тебя есть кошка и собака они сегодня не приходили тебя не отвлекали Подскажи Честно говоря да но они с ними все хорошо

    01:18:09 - 01:19:55