ML System Design с Валерием Бабушкиным | Выпуск 3 | Собеседование | karpov.courses

Подготовка к собеседованию на Machine Learning Engineer

Транскрипция видео:

  • привет валера как часто ты ругаешься матом на собеседницу же ответил на этот вопрос до записи но я думаю что это хороший год для начала но я уже сказал что я обычно жду показ и беседующим первый раз втиснется и после этого у меня карт-бланш и так сказать начинаю будем надеяться что не будете сегодня такого карт-бланш а работал в x arte picsart это ганы сейчас он уезжает snapchat камчатка ганы все логично поэтому matching и я не матерюсь через слово меня хорошо воспитали вот я культурный человек вообще так как это у нас ним уже

    00:00:00 - 00:01:13

  • пошел разбора но и применили наконец-то мозг всем привет и мы продолжаем разбор mr интервью в этот раз мы разберем руслана который нашел себе недюжинное мужество прийти причем он сразу сказал я ничего не знаю мы к этому готовы зато ничего не знаю руслана является snapchat в лондон оценят вопрос надо ли ты знать плюс эта тема matching и прежде чем передок разбора наверно стоит представиться я валера бабушки на момент записи видео работы фейсбук в лондоне меня зовут игорь я занимаюсь матчами в алиэкспрессе эта тема такая же

    00:00:37 - 00:01:57

  • который мы сегодня будем разбирать поэтому я меня есть что сказать занимался также матче нгам в яндекс-маркете до этого пробовал в x5 и по совместительству я преподаватель курсов харди мэтт из виду там тему как легко догадаться matching ну это же ранжирование даже у меня зовут стас я на данный момент работаю сбер я аптеке занимаясь динамическим прессингом собственном веду курс на карпов курсах по динамическому ценообразования вот удивить injector занимается майнингом учит про matching человек который занимать ценообразование

    00:01:22 - 00:02:28

  • учит про ценообразования это кажется не случайно так вы скажем не посмотрели собеседование с русланом до ночному сегодня сделаем мы сегодня запишем несколько интервью поймали дизайну я тебе дам подсказку и mail дизайн и system design это 2 наверное самых важных интервью которые позволяют оценить уровень сеньор насти чтобы слова не значило в топ тех компаниях фейсбук гугл и так далее сложность этих собеседований интервью в том что практически все 45 минут который длится это собеседование это соло выступление

    00:01:54 - 00:03:10

  • человека возможно будет увеличение сказать что любой вопрос который тебе задаю это в минус потому что улучшает что я тебе задаю вопрос скорее всего это какой то наводящий но зависит тоже от интервьюера может быть ему скажешь подожди подожди это у меня по порядку через два пункта но тем не менее это соло склейка кому ты рассказываешь как ты сделал систему и в sas разных сторон я должен понять почему это хорошая система при этом если в систем дизайне мы говорим про инфраструктуру то вымыли дизайне мы

    00:02:32 - 00:03:30

  • говорим больше очевидно про алгоритмы м.л. и все что с ними связано а связано с ней может много это показать подготовка данных какая-то оценка так далее так далее так далее ну и соответственно интервью стоит строится достаточно просто я даю тему и черешни про нее рассказывать возможно какие то вопросы дает возможны задаю потому что нет все рассказываешь я только радостно кивая головой постараюсь не материться чтобы не давать тебе карт глаз потому что джеки скажу один раз матные слова ты начнешь просто

    00:03:02 - 00:04:00

  • через слово даже есть carbon в целом это все достаточно и достаточно просто и понятно но в этом-то и сложность то есть когда просто и понятно очень много где можно ошибиться как бы парадоксально не звучало и я еще предлагаю начать 35 минут это мы знакомимся обычно общаемся ты может быть слышал муж не слышал я валера где-то занимается мелькала панда science расскажи руслана чем ты занимаешься окей значит я руслан мне 24 я закончил вот как раз буквально недавно магистратуру с калтеха по data science

    00:03:30 - 00:04:54

  • но уже успел поработать работал в общем как-то сразу я ушел в research вообще мне это нравилось ну то есть условно не кровавый production где же ты работу поизучать я работал samsung sm3 меня стажировка было и я работал в pixar ти фоторедактор вот в московской лобби они недавно открылись с маской год назад или полтора ишимбай больше на это у них в ереване было в дерево не был большой там и люди разные кому и есть конечно а в москве я наверное года два или три назад год назад это я уже вышел там было вот поработал там и сейчас уже

    00:04:12 - 00:05:41

  • охотился я безработный в я получу offer в московский в лондонский офис начато и еду туда в августе логично pixar с ганами любит играться и снопы любит играться с ганами да у меня вот такой вот карьерный путь связанные с данными много людей в сани время кстати переехала в лондонский офис на по из москвы так что там у вас уже целая тусовка до из моих знакомых довольно близких два человека буквально на днях переехали туда так что то есть у меня был опыт интервью в такое в около фанк компанию но при этом там не было м л

    00:04:56 - 00:06:09

  • дизайна все семь дизайна такого него а что было ну вот как раз стандартная типа там алгоритмы там coding прайм 1 про какие то не знаю инженерные штуки типа гид хоп спрашивали вот соответственно прошел и что такое system design & mr дизайн я вообще не представляю что это интервью спросил у ребят типа это нормально что я приду ничего не понимаю но наверное это хорошо что будет такой человек который как бы ничего не будет с чистого листа тут разбираться и как бы для зрителей тоже хорошо будет без могло сожалению

    00:05:33 - 00:06:53

  • так что я тут стою и я не то чтобы прям я не матерюсь через слово меня хорошо воспитали вот я культурный человек вовсе то он сразу же помянул всходы что он не готовилась к этому формат он не знает что именно входит в этот формат поэтому от него ожидаемые что он не понимает что там нужно сначала вот новых пояснить потом второй потом 3 перейти там четвертому ну большой конечно минус но что поделать человек будет учиться и успешно я сейчас думаю над теми которые тебе дать потому что некоторые темы они

    00:06:12 - 00:07:16

  • посложнее да некоторые темы не полегче но пас факт любая тема эта кроличья нора в которой можно утонуть поэтому начнем с тем и средней сложности другие такая задача matching может про него слышал может не слышал в чем суть представь что ты какой-то market place market поясов сейчас много даже на фейсбуке из marketplace он так называется фейсбук marketplace и в чем суть на marketplace есть какие-то продавцы которые могут продавать товар но в этом и суть марки по что это не магазин один пруду это много много

    00:06:45 - 00:07:52

  • магазинов и у них есть какие-то товары которые они там продают но очевидно что они могут продавать одни и те же товары условно говоря один человек может один магазин может продавать iphone второй магазин может быть iphone 3 могли можешь же такая сюда быть первое хочется понимать сколько у нас есть офферов а каждый магазин диной to offer на определенную модель то есть у нас есть карточка модели который горит iphone 10 max pro 3 шага байт есть куча офферов очевидно что когда люди загружают эти офферы они могут ошибиться

    00:07:19 - 00:08:27

  • и вообще неправильно атрибуцию поставите мы хотим понять что вот это и есть вот эта вот эта модель кроме того это мы внутри себя делаем а еще любой marketplace он хочет понимать какие же ценную конкурентов тоже это абсолютно та же задача задача матч готовить я хочу понять что вот этот товар на который вижу цену это вот эта модель которая есть у меня их хочется мне это делать массам автоматическом режиме и меня интересует хочу тебя услышать как бы ты построил систему как это грустно выглядишь я думаю таким водостоки глаза

    00:07:53 - 00:09:04

  • конечно как бы ты построил m-elle система опять же в 37 и это не system design они не нужно что-то играл я возьму базу данных in-memory который будет делать тату но расскажи мне как как ты будешь решать эту задачу с помощью м.л. окей так ответ на мой вопрос наверное начнется задавание вопросов тебе чтобы больше понял про эту задачу насколько как бы хорошо информацию продавцы заполняют на marketplace условно вот ну то есть как бы атрибуты у каждого товара компания получается модель не знаю память это еще вещи всем а вы со знач

    00:08:28 - 00:10:04

  • про мальчик дальше он что были так как что мы можем использовать как таргитай колыбу как данные скорее когда минск он спросил насколько хорошо продавцы заполняем атрибуты атрибуты но потом не было среди такая что то что у нас есть на наши marketplace и мы будем использовать как будто это уже матч offer карточка модели или я просто нет нет это или завершил для поперед говоришь правильно вечно говорил мне кажется что здесь не спрашивал именно в разрезе того чтобы использовать в качестве признака затем работать это очень кстати хороший

    00:09:18 - 00:10:24

  • вопрос очень страшного зато без практики в матче нге продавцы это вбивают там же сончик какой-то отправляется бывает добывает нет это большая боль многих marketplace я в некоторых работал что с атрибуцией тяжело поэтому считает что тебе следующую информацию у тебя есть тайтл название товара у тебя есть картинка товара возможна у тебя есть какой-то текст содержащие описание товара допустим этот мега телефон самый лучший в мире если вы его не купите ваша жизнь катится по наклонной и могут быть какие-то атрибутов истинных

    00:09:51 - 00:11:06

  • ситов единственное что я конечно ему не сказала он не спросил что еще очень важным атрибутом является цена до потом долги только цитата платон да а потом куда говорит что задача решается с точки зрения прессинга в том числе что мы хотим следить за ценами том числе конкурентов в чем дело-то ну да можно пить по 1 мониторинга 1 метр брайс мониторинг цен образование пересекать обломились и все колеса оттенок всю связанную как все не просто так как будто кто-то дизайне losing нет то есть у меня есть только как бы условно

    00:10:29 - 00:11:42

  • для каждого товара у меня есть название и картинка плюс может быть текстовое описание и мне надо их смочить ok но в случае с не с картинками там часто бывает ну как бы очевидное решение для картинок и если мы возьмем какую-нибудь там при допущенную модель выдержку и там для каждого товара кстати вопрос у нас для каждого товара 1 фотография может быть несколько фотографий хорошо но как ним одна на предположим что пока одна есть скажем так и есть однако вы фото то есть фотография который является обложкой для

    00:11:05 - 00:12:23

  • этого в общем там помощью какой-то сетки ну можно при допущенной изначально мы получаем там embedding этого товара и можем потом взять и посмотреть смочить короче все эти посмотреть ближайших соседей для каждого этого инбридинга смотреть там на скука не близко находится очень печально что он сразу пришел к описывание pipeline ее что он что-то были сделать с данными именно с точки зрения картинок потому что насколько по наконец интервью все ищем данный момент не снова отношении офферов и карточек товаров the

    00:11:48 - 00:12:58

  • proud упомянул но возможно него не сложилось впечатление о том что же такое и потом на доске уже начал рисовать до нарисовали стало очень понятно да это прям очень помогает особенно если у вас просить возникает к это вопрос сделать и базовое предположение обратись к интервью и попытайтесь мистику это ясность что вот я правильно ли понял что там не может быть например 15 херов от двух магазинов условно вот есть карточка товара условно iphone вот мы с ней так соотносим эти товары правильно ли понял

    00:12:23 - 00:13:11

  • модель данных он говорит да конечно все отлично играете здорово с этим мы будем работать и уже после этого вы вольны ударяться метрики в данный тогда и тогда и так далее что еще мне кажется здесь была проблемным x и он обсудил а игроки нет когда мы про данные говорят у нас вспомните мы предыдущих смотрели когда хотя может быть для вас это будущий там сразу сказал александр иксы и игреки все понятно здесь на такси и побежал дальше игреки остались где-то там y у нас потом появятся через 25 минут пока я вот щас длинную или каким деньги

    00:12:47 - 00:14:11

  • генерить кандидатов пока не особо может быть понятно как сейчас связано целевой задачи но это конечно очень бы и зла иного супер визуального решения потому что там во-первых скажем у нас даже телефоны и разных там iphone и samsung наверное не где-то близко условно будут в этом пространстве находиться если обычная при добыче на я модель или там не знаю два пылесоса там тоже они очень близко будут находиться и более того если вы там возьмем iphone12 iphone 11 они вообще там чисто идентична будут потому что ну я предполагаю там

    00:13:29 - 00:14:42

  • такая фотка будет что они очень похожи вот но условно мы вот для этого товара мы имеем 256 чисел ок вот этот вот вектор mb king который как-то описывает того что там происходит теперь наверное с названиями тоже нужно разобраться ну хочется их как бы что хотелось бы тоже название кстати есть доска и тебе удобнее писать на доске может и на ней есть удобнее говорить и говорить как тебе удобнее хорошо в общем не то не то это не намек это простая окей значит название тоже хотелось бы в некоторый embedding перевести вот чтобы условно у

    00:14:05 - 00:15:37

  • нас есть в 1 для картинки войне названия потом их с конкатенировать вот и как бы у нас есть векторное описание всего товара там что что уж он из себя представляет и вот с ним уже работать как бы там не знаю искать ближайших соседей или косинус на расстоянии мерить вот такие вот вещи делать да так теперь как лучше для текстового для текста получить векторное описание тут тоже наверное опытом в текст текст названиях он довольно специфичный наверное среди там то есть не знаю iphone до iphone x h наверняка покупал

    00:14:51 - 00:16:21

  • товары в магазинах интернет ты видел как их описывают да наверно нужно будет обучить 0 вот ну потому что такое домен очень специфичный для названий с нуля нужно будет обучить текстовой модель потому что ну короче какой-нибудь там типа при добыче на борт брать условно наверное не очень хороший и для этого до возьмем ну какой мере bird наверное какой нибудь не не очень большого размера потому что у нас ну как бы в каждом название не то что слишком много токенов ну и плюс там дальнейшем если смотреть мы там потом будем короче

    00:15:36 - 00:17:03

  • ну хорошо будет из нас небольшая модель небольшого размера вот и как бы обучить как как ленгвич modeling точно предсказывать себя пропущенные эти токены в тексте пропущены итоге не то есть это сколько у нас вариантов пропущенных токенов сотни тысячи десятки тысяч сколько вариант скок всего токена но мы ты говоришь мы будем предсказывать пропущенные токи ну то есть это из какого множество какая кардинально из этого множества ну вот надо взять обучающую выборку наши получается это собственно получается

    00:16:19 - 00:17:49

  • мы же marketplace на сам есть кучу название этих товаров опять же обучающий урок лодка для чего чтобы обучить какую-то модель чтобы экстрагировать деньги все пока печи экстракты сейчас мешают ли что достаточно времени уделили тому какие у нас могут быть признаки что до нас есть атрибуты как-то мы с ним можем поработать не поработать есть картинки мы там им видим делаем есть тех мы делаем беден по-моему там протащили там 45 минут а как сюда минут не действия может даже больше дай и кажется что у нас кормит вас не

    00:17:05 - 00:17:58

  • требуется рассказывать что-то нужно так взять и сделать такой там ведь просто можете нарисовать такую табличку кажется может он очень сильно помочь вы выписываете с в одну колонку все данные которые у вас есть атрибуты названия картинка во второй колонке выписываете как вы преобразуете и как вы это будете подавать модели там как с этим быть и взаимодействие этого достаточно это гораздо быстрее вы не будете повторяться и вам же будущем эта информация поможет будете про следующие этапы вашей системы

    00:17:36 - 00:18:21

  • рассказывать вот взять эту обучающую выборку можно оценить численно сколько там будет токенов но я не ну мы там тысячи тысяч очередей на 10000 токина вот такой порядок я думаю будет таким данном случае это у тебя что будет типа там iphone или x или samsung или galaxy или телефон телефон то есть только кино то у тебя слова до ночи не какие-то триграммы базовую еще рассмотрим короче вот а обучить модель чтобы она bird обучить на этих названиях а вот под обучили потом будем сможем получать и embedding и для слова

    00:17:58 - 00:19:32

  • каждого вот и потом как я уже говорил can катим обвиняем получаем длинный вектор и потом еще ищем ближайших соседей вот это короче боязно иного и решения так я довольно подробно описал вот ну вообще вот эта задача до условно как не она видится что есть как мы есть часть как мы получаем там для названий мэннинг есть часть как на для картинки получаем embedding вот про название рассказал что там делать модель по картинке я так очень поверхностно сказал что мы берем там vidigi какой-нибудь при допущено наверно тоже

    00:18:46 - 00:20:21

  • не очень хорошая идея потому что опять же домен картинок который используется маркетплейсе он довольно специфичный и и там возможно стоит натренировать тоже с нуля модель можно классификационный например построить даже есть там по категориям товар который развивается вот и ее уже там брать или зачем конституционная модель который чтобы не делать ну например по категориям наши эти товары представители нам будет сдавать категорию товар да да да но как бы фоном нам дано важно ни к чему не то что на

    00:19:34 - 00:21:09

  • категорию хорошо бы сказать то что на mb денги хорошие вытаскивают ну или там в сел со 1 ст манере обучить эту модель там в самом простом случае это типа чтобы она сжимала и потом реконструировала картинку вот и брать вот то что внутри вот он и ки в качестве биллингом да потом полировки скажет что оказывать нам нужно категориям и у нас их формально может не быть хотя кажется что marketplace мы точно должно быть но это опять же стоит отдельно проговорить сказать что я презираю что у нас есть категории что мы там не новый маркер и

    00:20:22 - 00:21:30

  • поэтому я буду говорить там есть категории он сказал что у нас есть ли низко мне тут раздуем мы будем обучить на категории деньги брали помню даже если он сказал то опять же это очень хорошие манеры говорить я думаю что у нас есть ну ты мучилась трезво предположения нас точно не все такие данные я буду следующим образом использовать другой вопрос начала возмущаться что заключаться ну задавать вопросы уточняющие по поводу того как можем использовать категории и человек опять же сам говорит что если

    00:20:56 - 00:21:46

  • моему учить на категорию нас товары попадающие в одну категорию они скорее всего будет не особо отличаться к медикам возможном это не поможет насколько я помню чем завезены занимается компьютерным зрением ганами данными это очень странно что он не вспомнил про какую-нибудь мид риклеорн крот 93 плит лосса или орфей со потому что как раз очень сильно помогает избежать такой проблемы его даже две упаковки молока красные и зеленые условно даже несмотря на то что они чат в одной категории вы сможете гораздо более хороший рисками

    00:21:21 - 00:22:14

  • нативную модель изучить то есть если вас технический багром позволяет вам делать такие заключения то это конечно же нужно применять и поэтому мы опять же целом считается что нужно большое количество задач знать и понимать как они решаются какие типовые методы это позволяет вам более эффективно используйте данные которого вас есть то есть вам не нужно даже категорию данном случае ну как-то можно будет использовать на вас точно уже есть вечно александр критику это руслан категории все-таки можно использовать как базовый моды для чего

    00:21:48 - 00:22:40

  • кандидатов абсолютно верно принципе все я думал что он честно говоря проекты скажем а он когда скажет я им деньги из этого извлеку я не понял тоже зачем то есть о чем они будут лучшими биллингов которые но за некоторые mein schiff ты берешь когда добудешь именно свои картинки дата могут не особо интересный сигнал но тем не менее это лучше у нас в лексусе это улучшило мы тоже начал сделали на категории годится вот и у бара бири руки хочешь я не с этим вроде китайском ничего дальше сказывается на

    00:22:13 - 00:23:12

  • сейчас нажмем кнопку и узнаем ты сказал что выше вручать классификатор но ты не сказал начнет выше обучать классификатор как у тебя будет данные готовиться как ты их будешь разбивать как ты будешь оценивать их но я когда сказала классификаторы я уже понял что нашел как это сказать в опасные земли вот поэтому решил этого из классификатора только nn model cutten ненужного лидировать тебя нет не так вот тебя первый дизайн это было что какая то конечно нет у тебя визжишь катя был фичи extractor модель у

    00:22:43 - 00:24:02

  • тебя была коэн и до скал я смотрю на на на ближайших соседей скалки даже это не над будем звать гам ближайшие соседи вопрос это боксе действительно ближайшие соседи ты фичи extractor применил ближайших соседей получил но тебе ведь нужно как-то оценить что вышло правильно а для того чтобы тебе как-то оценить что вышло тебе значит нужно как-то данные для этого подготовить активности начал рассказывать мне с модели но ведь все все эти модели а не на каких-то данных бегать на то сидите мальта да действительно

    00:23:22 - 00:24:29

  • одесситы нужны данные для модели с очень сложно поспорить когда того чашки это алгоритмы данной точно нужны роль этого нужны какие-то игреки и он пошел прямо модели сразу экстракт возьмём вот вспомните как xander говорит 21 век двадцать первый год возьмем экстракты вот x и вот y всем закрыли и вот ты помнишь ты спрашивала насколько долго фокусироваться только на же устроила это смотрим а это 20 секунд был здесь руслан потратил 5-6 минут и из пула времени который у него был на то что можно было экстрактор зала получился

    00:23:56 - 00:25:20

  • фичи было бы неплохо узнать какие данные как бы ты разбивал как бы ты оценила то есть ты брал я построил бы и celine насколько хорошей была не мы не понимаем значит нам что нужно нам нужен функционал качество нам нужно понимать этот функционал качества у нас как соответствует с тем что нам нужно в реальной жизни потому что функционал качество полученный неважно видела с функции или какой-то метрики и то не факт что именно то что нам нужно в реальной жизни насколько они коррелируют другой вопрос

    00:24:37 - 00:25:35

  • но вот этот момент было бы интересно узнать здесь я уже я просто дождаться когда руслан расскажет и закончена какой-то павле то есть и не был причине что уже все заканчивает классиков уже 2 классе котором построили ведь у нас уже система стала сложная насыщения таргета мы все ещё не знаем как у нас система работает как мы ее будем оценивать как будем проверять и я понял ну хорошо сейчас мы разберем уже был в принципе мы уже начали разбор собеседования факты с ним поэтому можем посмотреть в какие-то моменты главный

    00:25:08 - 00:26:15

  • момент не конца здесь так как это у нас ним уже пошел разбор мы применили наконец-то доску мы при не только как ему стало легче с доской да давай вернусь к данным значит итак у нас есть вот эти вот товары которые представляют из себя картинку и название то есть текст давай поговорим сколько у меня вот этих категорий есть это миллион скажем миллион категорий в смысле сколько меня товаров есть миллион товаров ну миллион есть то и больше найдем введём формализованные понятие ведем понятие оффера которым я уже упоминал и

    00:25:41 - 00:27:09

  • модели что ты имеешь ввиду под товарами ради по товара это вот этот пара фото + название иначе формализуем еще раз iphone 10 pro max 200 6 гигабайт эта модель эту модель могут продавать 50 100 150 магазинов и это называется будем давать это оффер то есть модель это одно offer это множество и у них есть отношение множество к одному одно к множеству потому что каждый offer an offer на модель каждая модель имеет 0 и более офферов и у меня есть как бы вот у меня как у администратора marketplace а у меня есть набор вот этих

    00:26:25 - 00:28:01

  • вот оферов да это же каждого фер представляет из себя вернее у меня есть набор моделей как у администратор маркетплейса каждая модель это тоже до товар + фото + но значит каждая модель представлена а фирмы у тебя есть конечно описание твоей модели действительно то есть базовая которая представляет эту модель и к ней ты можешь показывать мальчик как раз в аферы то есть если заходила яндекс маркет ты можешь вести товар зайти на его карточку модели а дальше низу ты видишь вы можете купить этот товар здесь

    00:27:12 - 00:28:18

  • здесь здесь здесь здесь здесь и ты каждый раз даже когда кликаешь на этот кофе танкер на будет описание она может отличаться потому что это описание предоставлены магазином поэтому действительно карточка модели опять же чтобы вопросы говорили формализованных понятиях она имеет и картинку и описание подробное очень атрибута то есть там информация писали максимально плотно потому что это единичная сущность которая лежит marketplace у и к этой же единичность сущности как-то мочиться уже у меня вот

    00:27:46 - 00:28:51

  • миллион моделей скажем и на каждом отдает среднем 3 4 нормально я оценил окей так до того как у меня вот появилась модель вообще возникла потребность такая модель как тоже уже мочились по это понимаю модели и офферы то есть кто-то этим занимался может вручную это делалось может быть занимался может быть просто верили продавцам все-таки они же не совсем люди беспомощны и мы видим тоже интересно продавать она я к тому что эти ну вот если у меня уже хоть какого-нибудь качество там datasette в котором модели и offer из мочи на

    00:28:18 - 00:29:46

  • подумай вспомним как мы ставили задачу нас две задачи внутри marketplace а мальчики и матчей с конкурентами для того чтобы монитор этих цен и мы можем длительно предположить что нас внутри marketplace а уже есть плюс минус какое совпадение скажем так большинство продавцов когда они выкладывают offer они действительно его связывают с правильные модели 0 у всех не все то есть как бы не не стопроцентно его сто процентов очень чем доверить другие тебе тоже сейчас хорошо так а про конкурентов прокол рядом есть все понял почему над

    00:29:03 - 00:30:24

  • задачами ну на задаче match in ghana для чего нужно в принципе в самом начале я говорил что нам интересно внутри своего marketplace и понимать что вот эти офферы относятся к этой модели это первыми но для чего это нужно чтобы когда потенциальный покупатель зашел на карточку модели ему показали удивительные ferro это взято представляешь и ему есть классный офер он просто на другую модель замочи наши обычные на которые никто не заходит обидно обидно на второй момент как marketplace я же хочу понимать какие

    00:29:43 - 00:30:41

  • цены у конкурентов очевидная в ценообразовании ценных конкурентов это немаловажная вещь если я продаю сильно дороже ну чего удивляться если камни не ходит поставлю в 5 раз дороже но вряд ли кто то у меня то же самое ногу уже доступа там не меньше то есть я могу как-то зайти спарсить этих страничке но вот это как раз нужна для того что мониторе цены из двух стадий на и скажем так применить но вот мне сейчас в ходе рассказа параллельно эти минуты решаешь ты решаешь это задач в принципе 1 ну вот например с конкурентами это сразу

    00:30:12 - 00:31:26

  • появляется там сразу вот эта тема что нужно сократить эти данные там как искра пить но янтарь это же твою модель в принципе особо может и не менять это меня это как ты готовишь данные начнет в исламе ты правильно пошел бы и зла на тебя есть бы и знаем дальше ты на мне зла и можешь наворачивать что-то еще вернемся к breeze line а то есть ты мне сказал что ближайшие соседи the bass line но мне тяжело принять это как бы из лайн потому что я не могу оценить хорошо это плохо как мне оценивать а что мне

    00:30:49 - 00:31:51

  • оценивать ну мы как бы с данными на мой взгляд еще не забудем и вы почти не начали да так возвращаясь к данным но короче и буду считать что уже что-то замочи на и это да ну условно вот этот матч он который уже существует его можно будет использовать ну во первых вот эти категории там текстовые использовать их в качестве для обучения моделей там вот все что у нас было и второе там уж он тоже разделен на обучающие тесты варку и как это хороший вопрос ну короче чтобы там жить так вот это интересно вопрос

    00:31:20 - 00:32:55

  • сейчас я задумался я подумал обычно я подумал начали разделить типа так сказать на прошлое и будущее но условно 80 процентов и там 20 процентов 80 процентов обучающий выборка там как это сказать в общем как временных рядах там берут прошлое до 80 процентов и 20 процентов будущее чтобы не перемешивались вот эти вот данные тут то же самое подумал сделать а и потом я такой о а если будет так там например условно мы обучали на данных 2015 2019 год а 2020 не врали а в 2020 вышли какие-нибудь супер крутые опыты опыты

    00:32:09 - 00:33:36

  • simple dimple и опыт лучше чем это тут это в рамках собеседования вопрос кто он хоть и вслух размышляет он ни следа чем молодец пришел минимум он при бы не терялся но ведь сам интересного здесь как раз предлагает тест тест плит и прошлое и будущее тоже оказать вот как раз это мы и на матч недели что можно иметь модель даже не на отдельном а просто оценить для новой карточки модели 1500 и даже существующих штука разных смысле согласен как другие уже на матч он и какие-то offer an или когда совершенно

    00:32:53 - 00:34:14

  • опыта спасибо нет фильм прыгнет ты уже стары для как раз самые вот актуальным от товары которые как раз лучше всего стоит обрабатывать их как раз не будет в обучающей выборке что наверное очень хорошо так ну вот сейчас думаю а если просто взять перемешать сша free перемешать что за шарф ведь все наши сущность данных которые у тебя есть построить на доске отношения данных которые ты имеешь это тебе поможет давай прошла что у тебя есть какие сущности мы обсудили там есть модели модель начнем с одной сущности пусть будет просто есть

    00:33:43 - 00:35:15

  • модель так и но она из себя представляет бог с ней после на есть мы есть модель мы знаем что вот есть и рожка сила так что еще у нас есть есть offer 1 offers [музыка] все три отлично какие у них отношения с модели ну как бы один ко многим один-ко-многим и многие к одному то есть ведь offer мочиться на модели модель на offer согласен то есть у них покажи стрелочка отлично теперь у тебя таких сущностей повторяющиеся количество какой то есть модель надин но офферы model2 к ней offer a model 3 бабе диета покажи что их

    00:34:31 - 00:36:09

  • множество обидев прямоугольника еще прямоугольник так вот это ввести туда влади прямоугольник и покажи что есть еще прямоугольника который нато еще один ну да ладно будем считать что это графическая репрезентация еще одного прямоугольника и затем еще одного еще ну то есть есть такой а теперь ты графически представил в чем-то работаешь так будет и тебе легче посмотреть на то что мы имеем у кошкин ли мне легче воспринимается очень то говоришь кроме того ты не забудешь через десять минут то что ты рассказал

    00:35:29 - 00:36:45

  • [музыка] да да вот так уже больше похоже что они один за одним окей хорошо это то что у нас есть вся наша выборка и мы считаем что как то сказал что это наша разметка в том числе мы будем считать что мы верим [музыка] вот у меня изначально ну как бы прицепился для меня важно было чтобы не то что вот эти отношения а то что там условно есть текст картинка работает здесь важный момент что под моделью летать карточка модель поэтому периодически горит я последовал за то что ты рассказал все вот у него нарисованы теперь на

    00:36:10 - 00:37:45

  • доске хотя бы сущность наберем начинали как же я могу да могу перемешать пешком и зеленые что ни один завод перемешать внутри зеленый они вот выглядит вот так же пошел в сторону фичи да говори сначала про сущности тебя а потом уже ты можешь сказать какие фичи ты для каждой сущности будешь использовать [музыка] в качестве обучающей выборке ну если вот 1 1 зеленый прямоугольник это наша сущность я говорю что давайте перемешаем все зеленые прямоугольники и потом там 80 процентов вытащим из них это будет обучающего городка 20

    00:37:11 - 00:38:34

  • процентов какие плюсы какие минусы у этого подхода плюсы это проще это как бы ска короче у нас будет это репрезентативная обучающие теста выборка из одного распределения будут то есть как бы у нас не будет проблем с тем что на обучающей хорошо работает на тестовый во все ужасно ну вернем у не факт могу с тобой поспорить что не ты же сам привел пример появился simple dimple а у тебя simple гимпл представлен как размене из центре если у нас как бы ну вот зелёный прямоугольник и допустим вот модель себя

    00:37:52 - 00:39:17

  • simple dimple меня 1007 погиб у меня подожди у тебя нет еще у тебя модель simple dimple 1 а ты и она у тебя представлена прямоугольник а если ты выкинул прямоугольник simple он тебя в три не попадет теперь зададитесь вопросом когда это хорошо когда это плохо и опять же этот пар этот вопрос модель для начал гореть для оценки новых моделей а точнее алгоритм может и медиа одно качественно новых моделях и другое качество существующему тоже вроде в matching яндекс не успел поработать но при этом говоришь очень трезвый вещи

    00:38:38 - 00:39:51

  • почему одна умер нужно казались на которых вы дошли не сразу было делать это шутка абсолютно реза вещи что действительно если был самого начала нарисовал и если бы начну губят сосуде задача потому что валера дал давайте я сам говорил что у нас есть внутри своего marketplace а и есть внешне когда мы пытаемся с конкурентами страница если бы он эту тему развивал в угол и вот нарисовать модель данных то для него будет наверное момент он переходит к тестированию далек метрикам то есть это опять же да еще в самих

    00:39:14 - 00:40:10

  • данных он бы задумался и беседующих наш о том что вообще нужно проверять как считать метриках достижимой 70 другим это уже дошел как нужно просчитать метрики что действительно может быть разные случаи что нас нет моделей вообще что нам нужно к чему-то новому мальчики какой такой store за тару словно делать это стильно все имеет отношение к практике но как показывает видео этого можно было догадаться если ты представил модель данных посидел посмотрел на нее и увидел какой то свой опыт приложил это кое-кого

    00:39:42 - 00:40:37

  • у нас могут быть абсолютно новые товары которых вы раньше мы не видели их очевидно нужно ни другим товарам мочить а как-то выделять в отдельную категорию и на них средстве на отдельно замерять метрики это был бы очень хороший понять если вы прям явно четкое саммит это дошли и рассказали об этом собеседование вам это что поставили галочку и за счет лет что когда si simplu dimm по выкидывается но это вообще ужасно так ну плохо понятно когда это бывает плохо когда нашу ситуацию значит смотрим мы будем

    00:40:10 - 00:41:14

  • это применять в реальной жизни теперь подумай какие могут быть ситуации когда ты выкинул модель и таким образом построил систему чтобы она попала в болото и мочить те модели которые она вообще не видела какой кстати второй вариант первый ряд мы рассмотрели перемешиваем карточки зеленые-зеленые сочетают 2 2 вариант например берем там модель берем все модели у нас есть но не берем все отлив ведь это тоже будет теперь теперь это то что ты сказал про выборку больше похоже на правду что у тебя и trainee тест ими

    00:40:42 - 00:41:58

  • являются теперь у тебя есть два этих примера и в каком случае какой у тебя будет хорошим в какой случай какой тебе будет плохим давай начнем с подхода когда зеленый приму когда мы зеленый шамаш разделить расписать их слева зеленый справа чем да вот это зеленые прямоугольники логике а здесь черные как раз у нас будет этот объем там по зеленым сущностями здесь по по черным entities клинки плохо то что мы с целой модели выкидываем и получается в продакшене условно наша модель будет знать об этих вот всегда ли это плохо

    00:41:19 - 00:42:52

  • вот мне хочется ответить да то есть мы как-то это очевидно представь ситуацию же до рассмотрим два две ситуации первая ситуация на маркетплейсе нет simple deep love допустим вот они только появились появилась первая модель simple гимпу и [музыка] люди стали за графике это афера и на вообще или даже еще даже не стали закрывать эфира потому что они стали загружать нам офером уже все равно считаем это ground ров начинаем это правдой лейблом но мы же хотим понять и как simple dimple у других продается по

    00:42:08 - 00:43:08

  • какой цене нас его логично что никогда не было бы чаще игрокам только появился и поэтому наверное было бы неплохо в первом случае пытаться про матч этой моделью который может работать в тех ситуациях когда модель только появилась короче это круто что у нас модель будет ими уметь мочить новый товар которых она это но это же нам нужно периодически будет иметь да только я не понимаю почему вот случае вот в этом модель будет уметь что-то делать мы не знаем будет а наметили нет мы просто сможем оценить как она это

    00:42:39 - 00:43:54

  • будет делать окей правильно согласен то есть дальше мы можем сказать вот представь ты говоришь здесь ребята моя модель то лучшая модель в мире моей метрики невероятно где то так а потом оказывается что это так но это модель томи это работает тогда когда уже есть карточка моделей когда уже какие-то фира замоченные дальше нужно уже существующим офером еще какое-то при мочить потому что эти уже у нее уже это в обучающей выборке находится и для нее это дату задача это конечно не совсем лик но задача которых она уже умеет решать в то

    00:43:16 - 00:44:25

  • в обучающей выборке другой стороны когда у тебя в первый раз нужно это отношение поймать у тебя наверное будут других миль от реки я понял этот момент короче в случае работы с новыми моделями вот в общем так сказать модель машину обучение обученное с разделением выборки в хогвартс в дом подходу осторожно ты правильно сказал что обучение действия по факту не меняется а вот оценка качества модели тебя происходит за счет того что тебя в обучающей выборке и в тест выборки разные модели то есть в твой

    00:43:51 - 00:45:07

  • алгоритма алгоритм не видел этой модели никогда эту оценку которой он выдаст она будет качество более корректно и в случае когда то именно таковы применять то есть ты действительно правильно сказал что в плане обучения но ничего не изменится у меня есть модель какие-то фичи у меня есть озеро какие-то фичи я мочу не матч но если ты в правом случае скажешь что так у тебя будет работать для и ранее не виденных модельных рядах быть некорректно потому что у тебя не было ни одного случая в обучающей выборке точнее все случаи которые были

    00:44:31 - 00:45:35

  • обучающей выборке все модели были в тестовый не было случая чтобы модель оценивалась на абсолютно новой модели лучше назвать алгоритмом же у нас есть модели модель алгоритм оценил за на на могло ли поэтому у тебя его важно возможно тебе нужно иметь просто дополнительный datasette который тебя будет построен таким образом чтобы ты всегда оценивал отлова времени причем ты можешь как раз принять этот принцип а там уже действительно тебя же в реальной жизни ты никогда не будешь оценивать скорее всего абсолютно

    00:45:03 - 00:46:04

  • новые модели 6 6 лет назад вступившие а если вот объединить эти два вот расскажем то есть как бы взять то есть мы выкидываем и некоторые модели ну короче часть модели и выкидываем части вставляем и при этом у тех моделей что оставляем мы выкидываем часть офферов и можно сделать и так то есть ты можешь не вообще несколько облигационных data set of тестовых ты скажешь вот у меня в таком случае модель так перефармить в таком случае у тебя же есть разные случаи применения моделей для новых абсолютно разных служб времени алгоритм

    00:45:33 - 00:46:44

  • 3 нежели понять алгоритм чтобы не путать модель с карточкой модели то есть опять же может быть короче что я бы еще несколько алгоритмов 1 там или один будет работать на старых моделях другая будет хорошо работать у тебя может быть даже быть один алгоритм просто ты можешь сказать что у меня зависит от того в какой подвыборки работаю у этого алгоритма разное качество ну это же корректная корректно допустим на абсолютно новых моделях я работаю хуже но так можешь подсказать почему куда дальше следует

    00:46:08 - 00:47:26

  • идти то есть как будто сданные мы мы мы мы разбили данные с тобой мы уже обсудили модель ты мне сказал я возьму fitch экстрактор существующих моделей с канг а чё я посмотрю ближайшие соседи теперь метрики да мы хотим смотреть короче как случилось вот эта модель с этими офферами пользуюсь нарисуй нарисуй итог работы то и модели можно же графически представила она явно никоян вас ближайшая 7 на первых мы делаем предположения что ближайшие соседи по той мере близости которые ты используешь эти фичи которые

    00:46:47 - 00:48:10

  • текста герой действительно что-то за собой несут пока еще не будем говорить про метрик learning to что мы же в методе брешь соседи используем какие-то метрики и дистанции метрики близости евклидова кофе нужно какая угоним это но мы делаем тогда предположение что наши свечи действительно что какой-то смысл имеет в этом пространстве ты предлагаешь я пока предлагаю закончить это не обсуждать это держать в голове пока как мы будем оценивать мы сделали первый первую итерацию da bass line разбили данные только лучше на

    00:47:30 - 00:48:35

  • обучили модель получили роем бединге там смочили получили соседнего норрис нарисуй так я не знаю что ты имеющий то есть модель мода день и там короче ground руси условно мот один у нее f1 и f2 и есть вот два короче синие the ground роз она примеру с мочилась у нас вот таким образом то есть на самом деле черное должно было ground rus черный отчетность и не сильно так хорошо ну то есть видно какая то ошибка у нас присутствуют как как-то оценить скажешь моя модель что он делает ошибается как и могли нашего лица

    00:48:02 - 00:49:51

  • как как ты формализует твоему даль ошибается ну давай простейшую метрику начните паек вирусе то есть смотрим все офферы которые у нас есть и смотрим в у них сколько из этих офферов к правильным моделям отнеслись ко мне вопрос а может быть такая ситуация что offer то что ты нарисовал ближайших соседей тоже какое-то количество взяла правильно но я одного плоть то есть если ты взял одного то тут рисунок который ты мне выдал некорректен ну смотри то есть я для модели получил вот этот и получил на медленнее для

    00:49:06 - 00:50:39

  • модели россии офферов то есть теперь когда он нарисовал стало понятно него например он не от модели по ближайшим соседям танцевала the offer искал ближайшую модель кофе да это было не очевидно и даже когда он рисовал первый раз было очень очевидно теперь он нарисовал осматривая вот это хорошо после этого возникает следующий вопрос и потом мы идем по mt eden gu каждого вектора и смотрим в какой к нему вот такую для него для каждого опера мы находим ближайшую модель модель мама она все для каждого при ближайшей модель понял

    00:49:53 - 00:51:15

  • годится да а может быть такое что модель это не для этого форума вообще-то ну давай спокойно может быть мы это уже посетили но мне бы подробнее хотелось обсудить именно тацита пускай она потому что ruslan ruslan ruslan ruslan говори про то что вот мы взяли набор на митингах для моделей и среди них наш ликуют одно модель ближайший говорю что это ровно наш кандидат потом как-то еще можно течь по порогу но вообще такие сложные системы как системы matching или систему поиска и ранжирования строится в несколько этапов

    00:50:33 - 00:51:31

  • и практически всегда задача которую вам дают на m l дизайн интервью она подразумевает собой несколько отдельных независимых частичных зависимых этапов например о тех кандидатов и потом резко ринка этих кандидатов тоже мы обсудим в ранжировании рекламы тоже мы обсудим в конце еще одна задача праздник праздник гонит вы просите такой она опять же надобно сказать что он мог просто развить тему простой классификатор да они до жаловал сколько у меня кандидаты 1 я помню что в нашей системе мальчонка было три уровня по моему от села

    00:51:03 - 00:52:05

  • кандидатов и потом при ранжировании уже последних ngn небольшое число до опять же человек который идет на свете она не надо суть игры то он должен понимать как такие системы потенциально могут строиться налоги очень много поиска ранжирование мальчика так далее так далее так далее для каждого этих компонентов отдельных систем уволиться обычно своя метрика например полнота в топ-100 то есть мы берем какой на ней ни одного кандидата и смотрим с тем что то делаем а мы берем 100 ближайших кандидатов и вот насколько часто в этих

    00:51:34 - 00:52:26

  • 100 кандидатов оказывается истинной матч который нам необходимо выдать это тоже метрика которой вы можете вы лидировать качество своих им гендеров которые выдают вам мобильники по которого собственно ищите это очень важный пункт очень жаль что про него не было сказано вероятно схода документы кку было бы предложить неживого на если рекомендатель настя маму человек занимался он похоже я скажу да возможно но если потом вы перейдете минут к формированию системы то потом вы можете заполнить себя сказать а х у нас

    00:52:00 - 00:52:50

  • появляется еще один этап который мы также по отдельности можем оценивать это у вас появляются некоторые прокси метрики на по выкатки ваших моделей которые составляют один большой pipeline и есть к этой глобальной метрика которую вы пытаетесь оптимизировать и заодно понятно становится где мы приседаем случае чего такой то про нам весом и метрики по каждому дай по моему один из кандидатов говорил про воронку этого за точности тот случай когда вас есть это большое множество его потихонечку сужаете прекратилось ашивара да понятно

    00:52:25 - 00:53:16

  • почему просто на машинке если работает над опять же применимо и к поиску экранирование то есть google-поисковик работы точно так же у него большое количество кандидатов обсуждать уже задержали на документ да и потом уже как-то выводит то же самое для мальчика применила по сути здесь просто некоторые сущности которые необходимо сопоставить или перри ранжировать на сашку проблем 21 потом дальше дальше но в принципе вот и руслана мог это сказать потому что как правило секатор доложил обыскал классификатор я уже убираю 90 95

    00:52:50 - 00:53:46

  • процентов собственность уже двадцать раз легче уже неплохо да и ищем уже маску метрику перейдем мы недавно же правитель и керосин да очень большая премиум потому что красе салют никак не формализуется в деньги который получит бизнес в выгода который получит бизнес и по моему за все видео я честно неделя помню не прозвучит на мой взгляд правильно метрика который потенциально поможет вам отчитываться перед вашими заказчиками перед бизнесом про то какой пользованием пристегнуть нас моделька выдает 97 процентов как вы

    00:53:19 - 00:54:19

  • сели там f1 у нас выше 095 и мы очень большие молодцы бизнес абсолютно к чему это привязано и получается что с этого должна была задача начинается вы говорите о вопрос тяжелый но к случайно то что сказал сомнительно или секс партизане оттает это но перевести сноуборд и бы чем затворил что мы тебе сказал что мне нужно будет затем попробовать перевести качественные модели в деньги на чеку то другой метрику который показывает выхлоп всего pipeline а они отдельных моделях ним на принца что вода с точки зрения мы

    00:53:48 - 00:54:54

  • леденцы военным нужно роста да то есть я могу сказать что об этом надо задуматься напрямую расписывать мы даже что это был ученик вот эти в самом начале когда происходила постановка задачи их в этом и яндекс развозка от метро не так много но мы не минимум и обсуждали метрики ты вот скажи не занимался матч не выходя из стран по итогу метре коридоре должны первыми их и приняли просто люди не могли их понять ну да но это проблем лизе и мятежниками людей прокси metric либо чем вообще которые большие сколько у нас мочи и вы

    00:54:21 - 00:55:23

  • больше одного товара на карточке ну вот бара дома товар кардо карточке нет но может хоть просто про общее количество то есть можно сказать что вот у нас выхлопом систем будет количество матчей которые наши marketplace получает эту словно мы выдаем 50 тысяч мачей это хорошо 20000 хуже понятно как нужно работать на что нужно работать при этом у вас все должно быть и вот именно про это говорю то есть не нужно было прямо углубятся детального хотя бы сказать про количество матчей если бы я проводила

    00:54:52 - 00:55:37

  • даруй мне бы очень хотелось новых матч но внучата который мы привозим на площадку обычно нас на кита говорю переводе на площадку новую матче второе просто абсолютно не было разговора это про качество которое вы фиксируете вы можете проводить миллиард мячей но из них 99 процентов будет некачественная мы немножко там этапа цитируется возможным смогли я спросил его что хуже пропустить товар или замочить неправильно хорошо если дабы скрыть его до этого человека 1 метрика которая предлагаю это типа курсе

    00:55:15 - 00:56:26

  • то есть как бы correct как-то так сумма n оферов на n корректных правильно правильно распределенных офферов вот так хорошо допустим какой тебе будете секир пикировать в данном случае будет 75 так 0 75 80 процентов лена дома яду все это же написал короче красного модель сразу стала выдавать лучше вот такой правда ли что теперь получается 1 2 всего на 5 6 1 2 3 4 5 6 6 эфиров из них 5 корректно тмина то есть deck heroes все пять шестых хорошо что еще какие метрики и ok возможно нам очено вообще надо было

    00:55:48 - 00:57:53

  • проблема что есть модели есть там офферы может как бы короче с точки зрения моделей построить какой-нибудь метрику которая определяет насколько хорошо люди считают правильно модели это все ерунда amo нам же нужно сделать что-то полезное ну вот что надо с конкурентами что надо подумать адресов на весь модель ты пришел конец к кривая модель алгоритм алгоритм прическу клевый алгоритм великолепно что для меня будет алгоритм можно ошибаться да как он может ошибаться расскажите какие могут быть исхода ну

    00:57:06 - 00:58:38

  • типа а вообще всей возрасте вы мне расскажете бы поспорить норман рассказ о по-пацански я не матерился короче что нам как она может работать она может взять и для там для каждой модели определить там все офферы который птички далеко кучность штуки тебя что ты спросил какой-то offer и ты говоришь вот эта модель к этот оффер к этой модели поймет что задача что может после этого произойти что ну либо реально offer относится к этой модели так ибо он не относится к этому для может такое быть что у тебя offer есть модели нет да а а

    00:57:52 - 00:59:42

  • у тя это учитывается здесь offer есть модели нет нет вообще не учитывается ладно но вот видишь как важно от постановки задачи танцевать и то есть надо задать вопрос как это будет использоваться хорошо теперь подумаем подумаем у нас осталось пять минуток мы сделаем небольшой переводчик потом и мы обсудим как лучше строить этот процесс мы учимся при монтаже самка ваша я хочу смотри как делать поэтому я тебе разберу но у нас знаем ли мы все множество offer у нас да нет на ли мы все множество офферов в на всех конкурентов мартином в

    00:58:47 - 01:00:02

  • мире которые мочиться на эту модель знаем ли мы сколько их мы не знаем для нас от неизвестная величина согласен то есть мы в общении если мы говорим в терминах метрик прикол или полнота нам никогда не известно логично да то есть может быть для этой модели 500 офферов может 5000 может быть пять может быть 0 может быть эта модель в дизель деревья до можете она действует назад выпускал сейчас уже не продается карточка модели висит алферов уже нет может такой быть но купить nokia 630 наверно уже офферов

    00:59:27 - 01:00:26

  • мне маловата хотя классно было бы телефон между прочим получается что у тебя что ты не знаешь полноту и никогда не узнаешь ты можешь когда смочить либо с матч правильный товар да либо неправильный либо тебя может возникнуть ситуация что вообще у тебя для этого фира нет моделей или ты не уверен потому что если ты прыгаешь от ближайшего соседа тебя всегда будет какой-то ближайший сосед всегда что вот как я теперь знаю это как тебе лучше оценивать ну и я рассказал что это вот но как мой мозг работает я понял для

    00:59:57 - 01:01:13

  • себя главную проблему что не улавливается этот случай когда нету новой модели вот соответствие но помнишь у ноя 1 условно я вывел какую-то дополнительную модель не типа там empty зеленую empty и там ну для ближайших соседей смотрел если расстояние между mb деньгам offer a & m бединге всеми моделей ну имбилдингом ближайший модели там какому-то afy.ru а если вот это вот расстояние слишком большое превосходит некоторый порог факты говоришь я бы поставил их не решающий да и по сути и отсечку я поставил друзья вы

    01:00:35 - 01:01:57

  • сверху bright я бы поставил его в числе большой не был ближайших моделей отлично отсекаем что теперь как надфиль модель ты конечно то закончилась 20 минут назад резинка виде то есть когда мы уже пошли такой детальный разбор и увидели каким надо говорил на этом меня 8 потому что он пришел учиться мы начали разбирать про доску тоже опять же the identical текстовый на доске или написали на доске потом парамедики а дальше уже в это подводит потому что ты сказал полнота неизвестно но можем понять хороший матч мы сделали или

    01:01:19 - 01:02:49

  • плохой раз и мы знаем сколько матчами сделать все это все что мы действительно должен сам я не 73 км и говорить что мы не знаем всего множества офферов который мочиться на конкретную модель для нашего редакции можно двумя способами войти эту проблему 1 любил специальный суп сетка как опросов ну офферов который нужно мочить так документов это наших моделей и конкретно его очень маленькую выборку размещаешь каким-то чен ына по занимаемой все равно как мы можем сказать что мы знаем все существующего

    01:02:12 - 01:03:08

  • эфира на эту модель так же мы можем узнать какой то выборки но это нереально и условие никогда не будем знать но это опять же быть какое-то смещенное распределение потому что мы будем грешить и брак со и только из того что мы нашли а то что вы не нашли в ними то есть это все равно пример у тебя есть модель и для неё реально в мире существует еще аферу долгими поисками мы нашли 700 офферов 700 нашли а дальше вот это все 700 эфиров это настоящий план там всего в мире существует семь сотых это 100

    01:02:40 - 01:03:45

  • продукты об этом сказал процент да но я предложил ограничить их запросы такой документ и потом появляется возможность смотреть их все и так например google ранжирует оценивать кое-кто серфера в сети если эти оффера спрятана среди вообще всех всех авторов песня выбор кафиров ты иди набор для шаров это триллионы триллионов ну у кого-то да у кого-то нет ну хорошо новый то это и сотни миллионов эфиров еще химическую сотни миль а ну хорошо бы 20 миллионов евро сколько на ном алиэкспрессе офферов без понятия насколько я даже без

    01:03:12 - 01:04:13

  • например как думаешь десятками нам-то только уникальных из кусков миллиона глобальному от вас еще с таким вот уже с этим для маскировки гитаристы ней ладно это мне кажется не вопрос для этом его по of the titans ворота на обеде хорошо но короче нужен был том что google tag player у свой поиск они очень узкую выборку делают страниц очень узкую выборку запросов и каждый запрос с каждым документом сопоставляется человеком и он говорит это релевантно то нет этого голдин сет который теперь там раз в год обновляет сделать

    01:03:42 - 01:04:42

  • предположение что у нас есть множество офферов до этих для этого запроса так нитки посматриваешь ограниченностью размер выборки который создаешь тебе не врешь ты для этой моделей для этого фирм ешь все матчи тигры штат в этой выборке это все а ну да и вот и ровно на этой выборке вы же в самую последнюю очередь оцениваешь снимать это будет прокси rekkles туда он еще есть исключается скорее все своим это правда да опять же эффект потому что его на хочется для того что это брал где уже и смещение выборки да и 2 способа

    01:04:13 - 01:05:11

  • про это это не хорошо да это некоторые способом могли я думаю не боюсь others on в минус то что он не приглашенных вот ты как-то алгоритм путаница к вот короче это интересный вопрос потому что получается что вот кстати при прикольно сделать в обучающей выборке что делать так что дрочеры но не брать некоторым короче тоже мы рассмотрели вырезали рассматривать ситуацию когда нам не на что за матч да да то есть в обучающего варки подбирать такие что его вы чай можно ей и обучающий и тестовый тоже короче

    01:04:42 - 01:06:14

  • использовать вот такие вот вещи но и тут в принципе офисе будет работать вот тут вот в таком случае ну потому что это просто у нас вопрос для тебя величины ошибки правильно ведь не каждая ошибка для тебя наверно равнозначно условно говоря если ты вдруг за матч на неправильный товар на неправильной модели она стоит в два раза дороже это было как здоровье мага повышать цены на свой товар конкурента продают два раза дороже а это не так является ли цена хороший фича и кстати для матч инга вопрос в принципе что дальше мы чуть

    01:05:27 - 01:06:30

  • поговорили про метрики на этом закончен и мы начали разбор что что ты кого-то заказ касались интересное мнение ну кажется что у больших проблем идёт из самых первых 10 минут когда вы по идее по не которому скрипту вашего собеседование вы должны разобраться задача и уточнить метрики и вообще понять какую задачу вы решаете что вы пытаетесь делать если вы делаете в середине даже в конце этого мы это огромный минус не только с точки зрения оценки который вам поставить человека торого у вас проводят собеседование но и

    01:05:59 - 01:06:56

  • с точки зрения вашего понимания в очень могу пустить его очень много возможно не поймете и нежелание кита момента произнеся может вылиться в проблема потенциально 2 конечно же использовать и доску потому что как только вы визуализировали что-то как только вы придадите что-то нарисовать пока вы рисуете вы думаете над тем что вы рисуете это сразу же вас подтолкнут к правильному правильным идеям в третьих чтобы хотел сказать в третьих кажется что система который дизайнер руслан было не особо закончена из нескольких этапов

    01:06:28 - 01:07:21

  • застряла и если даже проговорилась что мы сделку такого секатор про него вообще ничего не говорилось там про его отдельные метрики про его отдельную задачу на таких признаках он строится что него для него делается ненавидят афинами запись или про то что сказал что есть какие-то большой marketplace у которых сотни миллионов оферов и это было бы очень полезно точнее в рамках это задача и вообще рамках на мой взгляд любой дизайн задача когда например на оцениваете порядок ваших величин и говорите какой класс

    01:06:54 - 01:07:42

  • модели вы можете использовать очевидно что если вы должны делать мальчик для 100 миллионов эфиров вы не можете использовать какие-то огромные модели для картинок которые основаны трансформерах которых больше миллиарда параметров потому что это займет огромное количество времени даже если вы угол наверно вы не можете этого позволить поэтому нужно какие-то модели по крайней мере для кандидата го уровня сделать точно попроще модели второго уровня которая принимает только некоторое количество кандидатов она

    01:07:18 - 01:08:06

  • может быть посложнее потяжелее потому что работать на меньшем объеме и бы безумно полезно заметить на любом свете до него в магазине особенно если ваша система состоит из двух и более этапов это прям обязательно нужно проговорить что ты скажешь да в общем для меня это задач на и я познакомился с темой матч инга через и вера я наверное интересно было бы но опять-таки вот игорь правильно сказал про то что самые первые десять минут они там много решают в зависимости от того что вам на что мы будем смотреть но

    01:07:42 - 01:08:48

  • здесь конкретно вот на мой субъективный взгляд опять таки в данной задачи очень много вещей можно было бы углубиться в с точки зрения да там типа какой воз используем почему такой как мы делаем о тех кандидатов как мы делаем затем ранжирования списка кажется что это очень интересно опять-таки многоступенчатая задача ну и важно понимать как мы потом пытаемся оценить качество вот это опять-таки кажется что просто но там некоторые собеседования показывают что не все об этом думают вот да я думаю что

    01:08:15 - 01:09:33

  • есть целостности явно не хватало если есть на чем русланова работает на собственно для этого на пришел я думаю что у него появится возможность поработать со сложными системами снапчате в лондоне который называется просто сна я по привычке 2 лечат тем более вышла отличная отчетность хорошо руслан спасибо что поучаствовал не знаю кстати как это буду делить на записи возможно знаешь мы тут стояли такие же вы общались потом мог мы уже сидим спасибо что поучаствовал этот это было здорово что я могу сказать ты пришел

    01:08:54 - 01:10:09

  • сюда задачей поучиться значит это отличная задача и большая смелость требуется что прийти это сделать вы не часовой в лондоне кстати дальнейшее время но ты сам понимаешь на чем же сконцентрирует то есть когда ты несколько раз говорил я построю бы из line это абсолют правильное решение новые celine он строится с чего данные как я буду эти данные разбивать вообще какой задачи решая потому что тот конец когда мы уже стали обсуждать какой значит и ты сам стал она наверное можно данные развитие вот так просто потому

    01:09:31 - 01:10:33

  • что ты погрузился в то какой тебе нужен итоговый результат а самом начале ты почему-то сконцентрировался на части взаимо это условно алгоритмические то есть ты начал выбегая фича extractor bird фичи экстракторы скан качу в к в ближайшие соседи все но ты понимаешь мне сразу оценим что вообще скан каким то есть что будет хорошо что плохо и мы вот пошли в немножко другую степь кай начали ставок активность сущность из которых когда писал какие сущности нарисовал картинку сразу становится понятно дальше

    01:10:02 - 01:11:07

  • а вот так вот так сделал бы и celine то есть ты максимально быстро нужно тебе сделать первую итерацию данные модель обучение разбивка оценка а чего нам не хватает а ты был и вот и вот этот процесс ты должен абсолютно весь вести сама рассказывают но принципе я старался тебе так как у нас обучение медленных собеседования давать подсказки не знаю был ли порезали нет расскажи вообще троещине да тоже пасибо валера и пасибо команда карпа в курсе с за приглашение было очень интересно у меня первый раз как я уже сказал такое

    01:10:34 - 01:11:56

  • собеседование действительно такие ну как бы необычные ощущения были и в процессе обсуждения вот многие какие-то вопросы появлялись интересные прикольные на которых я раньше как бы даже не задумывался с которыми на собеседованиях даже не встречался было ну прям как как сказать как детектив что ли когда мы брали и разбирали и находили вот по частичкам короче такие штуки то и подсказки помогали вот из них бы наверное не знаю докуда дошел вот наверное буду дальше изучать пока короче буду расти по сеньор насти вот и который цена

    01:11:15 - 01:12:43

  • верно таким собеседованием вот так что спасибо еще раз большое повороте с эфиром snap на даче луны пока

    01:11:59 - 01:12:14