Сейчас очень много слухов и фейков происходит вокруг ОпенАИ. Лично я читаю канал Игоря - Сиолошная, он только проверенную инфу постит и по делу.
https://t.iss.one/seeallochnaya
https://t.iss.one/seeallochnaya
Telegram
Сиолошная
Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса.
Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://t.iss.one/+i_XzLucdtRJlYWUy
Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://t.iss.one/+i_XzLucdtRJlYWUy
❤7🔥3😢2
Forwarded from 🔎 PostFinder BLOG
Как перестать скроллить и НАЙТИ?
Мы хотели бы с вами поделиться первыми результатами нашего бота!
Если вы постоянно теряетесь в ТОННЕ КОНТЕНТА, приходиться листать БЕСКОНЕЧНОЕ количество постов и никак не можете найти ТОТ САМЫЙ пост? То вы пришли в нужное место!
В комментариях прикладываем скрины первых результатов!
Мы хотели бы с вами поделиться первыми результатами нашего бота!
Если вы постоянно теряетесь в ТОННЕ КОНТЕНТА, приходиться листать БЕСКОНЕЧНОЕ количество постов и никак не можете найти ТОТ САМЫЙ пост? То вы пришли в нужное место!
В комментариях прикладываем скрины первых результатов!
🔥9
Forwarded from Рисерчошная
ПРЕВРАТИТЕ СВОЙ ПЕТ-ПРОЕКТ ИЗ ХОББИ В КАРЬЕРУ
Написал свой долгожданный пост на ХАБР, где рассказал как делать достойные пет-проекты, который помогут вам быстро развиваться!
Затронул очень много тем:
🛠 о том как быстро набирать навыки и стоп флажках в обучении
🏆 какие пет-проекты успешные и почему они станут вашим будущим стартапом
🚀 какие есть этапы в пет-проектах и почему вам нужны пользователи
💪 как не потерять мотивацию
🔍 и оформить это в резюме!
ЧИТАТЬ ПО ССЫЛКЕ
Отдать голос за канал
https://t.iss.one/boost/persecond300k
#EDUCATION
Написал свой долгожданный пост на ХАБР, где рассказал как делать достойные пет-проекты, который помогут вам быстро развиваться!
Затронул очень много тем:
🛠 о том как быстро набирать навыки и стоп флажках в обучении
🏆 какие пет-проекты успешные и почему они станут вашим будущим стартапом
🚀 какие есть этапы в пет-проектах и почему вам нужны пользователи
💪 как не потерять мотивацию
🔍 и оформить это в резюме!
ЧИТАТЬ ПО ССЫЛКЕ
Отдать голос за канал
https://t.iss.one/boost/persecond300k
#EDUCATION
🔥17❤5
Forwarded from WildRecSys
Продолжаем раскрывать тему трансформеров в проде.
Сегодня про переход от задачи next item prediction к задаче next basket prediction, комбинирование фидбека и переиспользование эмбеддингов в других задачах.
https://telegra.ph/Vyzhimaem-maksimum-iz-ALBERT4Rec-04-09
Сегодня про переход от задачи next item prediction к задаче next basket prediction, комбинирование фидбека и переиспользование эмбеддингов в других задачах.
https://telegra.ph/Vyzhimaem-maksimum-iz-ALBERT4Rec-04-09
Telegraph
Выжимаем максимум из ALBERT4Rec
Введение Привет! В прошлой статье я рассказывал как заводил ALBERT4Rec для персональных рекомендаций на главной Wildberries. Сегодня поделюсь подходами к развитию модели, которые мы успешно внедряли на протяжении прошлого года. Гиперпараметры и около того…
❤1🔥1
Forwarded from Рисерчошная
В этом посте я расскажу о том, как музыкальная платформа Deezer, используя метаданные и нейросети, с первых секунд начала рекомендовать новым пользователям персонализированные треки!
В статье вы можете узнать про:
ЧИТАТЬ ПО ССЫЛКЕ
Отдать голос за канал
https://t.iss.one/boost/persecond300k
Вступить в чат
https://t.iss.one/persecond300kchat
#RECSYS
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2
Forwarded from Сиолошная
Вместе с Данилом с канала @persecond300k подготовили для себя и для вас Бинго-карточку для предстоящей трансляции OpenAI, чтоб было интереснее наблюдать!
Некоторые факты субъективные (например, что такое «существенные улучшения»?), но мы постараемся судить объективно!👍
Правила такие:
1. Когда случается то, что написано — вычёркиваем или обводим
2. Когда выбиваем линию — выпиваете (алкоголь, содовую или сок)
3. Если закрыто 3 линии — то повторяем «Ну Сама, ну даёт!»
Заполненные карточки по ходу трансляции можно скидывать в чат или в комментарии к этому посту!
(файл в оригинальном разрешении скину в комментарии)
Некоторые факты субъективные (например, что такое «существенные улучшения»?), но мы постараемся судить объективно!
Правила такие:
1. Когда случается то, что написано — вычёркиваем или обводим
2. Когда выбиваем линию — выпиваете (алкоголь, содовую или сок)
3. Если закрыто 3 линии — то повторяем «Ну Сама, ну даёт!»
Заполненные карточки по ходу трансляции можно скидывать в чат или в комментарии к этому посту!
(файл в оригинальном разрешении скину в комментарии)
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2
Недавно Spotify представил пользователям аудиокниги. Новый тип контента требует новых алгоритмов персонализированных рекомендаций. В своей новой статье AI рисерчеры из компании рассказывают о том, как они решали эту задачу
Аудиокниги, в отличие от музыки и подкастов, требуют более точных рекомендаций, так как пользователи не могут прослушать их перед покупкой. Здесь же возникает еще больше проблем с данными, потому что большинство пользователей ещё не знакомы с аудиокнигами на платформе
В Spotify разработали систему рекомендаций 2T-HGNN. Используя гетерогенные графовые нейронные сети и Two Tower model, они улучшили точность рекомендаций. Этот подход уменьшает сложность модели и повышает её скорость
Текущие результаты: +46% к числу новых запусков аудиокниг и +23% к общему времени прослушивания. Более того, модель положительно повлияла и на уже знакомые пользователям подкасты
Пишите в комментариях, что вы думаете о таком подходе? Какие сложности вы видите при работе с рекомендациями аудиокниг? Ставьте реакции китов 🐳
@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7🐳5❤🔥4🔥2⚡1👨💻1
Forwarded from Заскуль питона (Data Science)
VWE (Variance Weighted Estimator) - как еще один метод снижения дисперсии.
🚙 Зачем это нужно?
Мы хотим по-прежнему снизить дисперсию для преобразования метрики к более чувствительной. Как следствие - снижение длительности эксперимента.
💡 Основная идея
Дать пользователям с меньшей дисперсией метрики больший вес для снижения общей дисперсии эффекта.
🖥 Как реализовать?
Предположим, мы хотим оценить ARPU и применить к выручке на пользователя для того чтобы снизить дисперсию. Основная реализация заключается в том, что мы смотрим на то, как изменялась метрика в предпериоде и тем самым мы знаем ее дисперсию и как следствие вес. Затем, мы берем вес для метрики на пользователя, равный 1 / дисперсию, тем самым становится очевидно, что при больших дисперсиях вес становится меньше и затем рассчитываем среднее в группе A и группе B. Код который можно реализовать у себя ниже при сплите 50 / 50 с историей в 21 день (это также можно поресерчить, например, если у нас есть бОльшая история по пользователям, будет меньшее смещение, как мне кажется). Чем-то похоже на стратификацию, где каждой страте мы присваиваем вес, только здесь вес рассчитывается на истории пользователя:
👎 Минусы VWE:
Аномалии могут поломать оценку
Метод может быть чувствителен к аномальным значениям в предэкспериментальных данных, что может привести к некорректным оценкам весов
Необходима история по пользователям, должна быть богатая история по действиям, например, когда замеряем CTR
VWE требует значительного объема предэкспериментальных данных для точного расчета дисперсий и весов. В случае недостатка данных, результаты могут быть менее надежными
Может давать смещение
При расчете в оценке среднего мы можем получить небольшое смещение из-за перевзвешивания. Другая задача - это получение несмещенной оценки (например, как корректировка средним значением в преэкспериментальной группе при CUPED
Можно использовать с CUPED с уже перевзвешенными значениями. В статье от Facebook удалось добиться следующих результатов по снижению дисперсии в %.
CUPED only - 37,24%
VWE only - 17,31%
CUPED + VWE - 48,38%
На стратификации не смотрели, как я понимаю, но можно было бы еще, наверное снизить либо есть какие-то ограничения про которые я не знаю. А с Ratio-метрикой так вообще прикол: линеаризируем, VWE, CUPED, стратификацию
Этот метод еще освещался на Avito Analytics Meetup + был разбор статьи на YouTube
😉 Ставьте реакции, если пост был полезен, пишите комментарии. Дальше разберем стратификацию и линеаризиацию
Мы хотим по-прежнему снизить дисперсию для преобразования метрики к более чувствительной. Как следствие - снижение длительности эксперимента.
Дать пользователям с меньшей дисперсией метрики больший вес для снижения общей дисперсии эффекта.
Предположим, мы хотим оценить ARPU и применить к выручке на пользователя для того чтобы снизить дисперсию. Основная реализация заключается в том, что мы смотрим на то, как изменялась метрика в предпериоде и тем самым мы знаем ее дисперсию и как следствие вес. Затем, мы берем вес для метрики на пользователя, равный 1 / дисперсию, тем самым становится очевидно, что при больших дисперсиях вес становится меньше и затем рассчитываем среднее в группе A и группе B. Код который можно реализовать у себя ниже при сплите 50 / 50 с историей в 21 день (это также можно поресерчить, например, если у нас есть бОльшая история по пользователям, будет меньшее смещение, как мне кажется). Чем-то похоже на стратификацию, где каждой страте мы присваиваем вес, только здесь вес рассчитывается на истории пользователя:
import numpy as np
import pandas as pd
n_users = 1000
days = 21
pre_experiment_revenue = np.random.normal(loc=5, scale=2, size=(n_users, days))
control_group_revenue = np.random.normal(loc=5, scale=2, size=500)
treatment_group_revenue = np.random.normal(loc=5.5, scale=2, size=500)
pre_experiment_df = pd.DataFrame(pre_experiment_revenue, columns=[f'day_{i+1}' for i in range(days)])
pre_experiment_df['user_id'] = np.arange(n_users)
experiment_df = pd.DataFrame({
'user_id': np.arange(n_users),
'group': ['control'] * (n_users // 2) + ['treatment'] * (n_users - n_users // 2),
'revenue': np.concatenate([control_group_revenue, treatment_group_revenue])
})
data = pd.merge(experiment_df, pre_experiment_df, on='user_id')
data['user_variance'] = data[[f'day_{i+1}' for i in range(days)]].var(axis=1)
data['weight'] = 1 / data['user_variance']
data['weighted_revenue'] = data['revenue'] * data['weight']
Аномалии могут поломать оценку
Метод может быть чувствителен к аномальным значениям в предэкспериментальных данных, что может привести к некорректным оценкам весов
Необходима история по пользователям, должна быть богатая история по действиям, например, когда замеряем CTR
VWE требует значительного объема предэкспериментальных данных для точного расчета дисперсий и весов. В случае недостатка данных, результаты могут быть менее надежными
Может давать смещение
При расчете в оценке среднего мы можем получить небольшое смещение из-за перевзвешивания. Другая задача - это получение несмещенной оценки (например, как корректировка средним значением в преэкспериментальной группе при CUPED
Можно использовать с CUPED с уже перевзвешенными значениями. В статье от Facebook удалось добиться следующих результатов по снижению дисперсии в %.
CUPED only - 37,24%
VWE only - 17,31%
CUPED + VWE - 48,38%
На стратификации не смотрели, как я понимаю, но можно было бы еще, наверное снизить либо есть какие-то ограничения про которые я не знаю. А с Ratio-метрикой так вообще прикол: линеаризируем, VWE, CUPED, стратификацию
Этот метод еще освещался на Avito Analytics Meetup + был разбор статьи на YouTube
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Заскуль питона (Data Science)
🆎 CUPED как метод сокращения дисперсии для проведения A/B экспериментов.
🤭 Всем привет! В этом посте хочу рассказать о том что такое CUPED, зачем он нужен?
🤩 CUPED (Controlled-experiment Using Pre-Experiment Data) - один из методов сокращения дисперсии…
🤭 Всем привет! В этом посте хочу рассказать о том что такое CUPED, зачем он нужен?
🤩 CUPED (Controlled-experiment Using Pre-Experiment Data) - один из методов сокращения дисперсии…
🔥11❤1⚡1❤🔥1
Собрал для вас подборку из 9 соревнований на Kaggle, к которым еще можно присоединиться. Призовой фонд в каждом из них — от $50.000 до $1.100.000. Некоторые соревнования заканчиваются уже совсем скоро, а некоторые запустили пару дней назад
Вот сами соревнования с ссылками:
Цель: Улучшение алгоритмов оценки эссе для повышения образовательных результатов студентов.
Количество команд: 2694.
Дата завершения: 1 июля 2024.
Цель: Прогнозирование взаимодействий малых молекул с белками с использованием BELKA.
Количество команд: 1835.
Дата завершения: 9 июля 2024.
Цель: Симуляция высокого разрешения атмосферных процессов с использованием климатической модели.
Количество команд: 449.
Дата завершения: 16 июля 2024.
Цель: Помощь патентным специалистам в понимании результатов ИИ через привычный язык запросов.
Количество команд: 315.
Дата завершения: 25 июля 2024.
Цель: Прогнозирование предпочтений пользователей.
Количество команд: 929.
Дата завершения: 29 июля 2024.
Цель: Угадать секретное слово в сотрудничестве.
Количество команд: 362.
Дата завершения: 29 июля 2024.
Цель: Определение рака кожи на обрезанных фотографиях из 3D-снимков всего тела.
Количество команд: 129.
Дата завершения: 29 августа 2024.
Цель: Классификация дегенеративных состояний поясничного отдела позвоночника.
Количество команд: 519.
Дата завершения: 29 сентября 2024.
Цель: Разработка ИИ-систем, способных эффективно осваивать новые навыки и решать открытые задачи без полагания исключительно на обширные наборы данных.
Количество команд: 315.
Дата завершения: 29 октября 2024.
Пишите в комментариях, планируете ли вы участвовать в каком-то из соревнований. Если у вас есть интерес к какому-то из соревнований, я готов подробнее рассказать о нем в отдельном посте. С вас — реакции 🐳
@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳10❤🔥3⚡1
Привет! Я Тагир Хайрутдинов, аналитик в Яндекс Плюс
Раньше этот канал вел Даня Картушов, который теперь пишет много интересного в @persecond300k, а я с недавнего времени — новый владелец и автор этого канала. Сейчас канал проходит этап перестройки, но уже скоро здесь будет интересный регулярный контент
Вам стоит подписаться, если вы интересуетесь Data Science и технологиями вокруг этой сферы. В канале будут публиковаться посты про применение DS в компаниях, новости индустрии, рынок труда, мероприятия и другие активности вокруг науки о данных
Уже скоро в канале выйдут посты про собеседования в FAANG, использование AI для научных работ, realtime-матчинг в одном маркетплейсе и тематические подкасты
@tagir_analyzes – аналитика, датавиз и новости индустрии
@zarplatnik_analytics – анонимные истории с зарплатами специалистов из аналитики и Data Science
@persecond300k – релизы и новости из AI вместе с обзорами на статьи по RecSys, LLM, System Design
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥29❤7⚡6😢3
Недавно Даня Картушов писал научную статью с AIRI по графовым рекомендательным системам. В процессе исследования он записывал небольшие черновики про графы, которые теперь хочет превратить в серию статей
Сегодня на Хабре вышла первая статья из этой серии, в которой он рассматривает базовые понятия, концепции и простые модели с их ключевыми особенностями
Вторую часть напишут ребята из WildRecSys, где они расскажут о lightGCN и поделятся своим опытом использования этой модели
В статье мне особенно понравились три вещи: отсылка к человеку-пауку, красивые визуализации и супер приятные объяснения – какие-то концепции вообще раскрываются на примере World of Warcraft
Заваривайте чай и переходите читать статью по этой ссылке
@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥17❤🔥4❤3⚡3
Недавно статья авторов Ravid Shwartz-Ziv и Amitai Armon "Tabular Data: Deep Learning is Not All You Need" достигла более 1000 цитирований. По такому поводу Ravid написал пост, в котором рассказал, как они чуть НЕ не опубликовали статью
Статья показала, что традиционные методы машинного обучения, такие как XGBoost, часто работают лучше для табличных данных, чем сложные модели глубокого обучения. Авторы столкнулись с проблемой: их выводы казались слишком очевидными, поэтому несколько воркшопов отклонили их работу из-за "недостатка новизны"
Тем не менее, в 2021 году они решили разместить статью на arXiv. Само собой, дальше к ним посыпались предложения от изданий опубликовать их исследование, и статья получила широкое признаний
В конце поста Ravid отмечает, что даже "очевидные" результаты могут быть важны. Важно делиться всем, что вы находите в своей работе, даже если это кажется простым или уже известным
Что думаете про этот случай? Часто ли вы бракуете свои идеи из-за того, что они уже были реализованы?
@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡15🐳5❤🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Вы когда-нибудь хотели обучить модель проходить змейку? Я — нет, а вот некий Bones-ai в двух проектах показал, как это работает. С помощью генетического алгоритма модель достигает идеальных результатов в змейке, а видео к посту — наглядная визуализация процесса обучения
В архитектуре нейросети используется 24 инпута. Эти инпуты предоставляют информацию о состоянии окружающей среды и самой змейки, что позволяет модели принимать решения о следующем движении
Обучение модели занимает около 30 минут и осуществляется через генетический алгоритм, который эволюционирует популяцию из 1000 агентов, каждый из которых представляет уникальную конфигурацию весов нейросети:
Если хотите подробнее ознакомиться с проектом, то здесь можно найти его первую версию, здесь — вторую, а вот тут находится тред на Reddit, где автор отвечает на вопросы
Рассказывайте в комментариях, что вы думаете о таких проектах? Как вы думаете, для чего автору это нужно?
@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳11❤7⚡1
Принес вам подборку зарубежных школ и мероприятий в аналитике и Data Science. Взял подборку в канале моего товарища @computerscienceabroad, где публикуются подобные подборки об иностранных возможностях – PhD, cтажировки, работы и курсы
Участие в подобных мероприятиях позволяет глубже погрузиться в сферу, обрасти полезными контактами и просто отдохнуть, а может – съездить в командировку
Computational Linguistics Fall School
Data 2030 Summit 2024
Lambda World
Machine Learning Week Europe
International Workshop on Adaptable, Reliable, and Responsible Learning
Advanced Language Processing Winter School
Подавайте заявки, оформляйте командировки, ставьте реакции китов и записывайтесь на визу, если она вам нужна
@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳11❤3⚡3
У Яндекса все свое. Не Jira, а Трекер. Не Zoom, а Телемост. Ребята даже свой SQL изобрели. А еще недавно они выпустили CodeRun — тренажер для решения алгоритмов вдобавок к своему хэндбуку по алгоритмам, о котором я писал здесь
Это аналог Leetcode, который делают наши коллеги из Яндекса. Из плюсов — там есть подборки по машинному обучению, анализу данных и других областей. Еще там есть авторские подборки от сотрудников — от руководителя ШАДа, от чемпиона мира ICPC 2023, от СТО Поиска и других людей
А еще до 27 августа проходит контест среди участников, где лучшим подарят какие-то призы и фаст-трек на собесы. Очевидно, что такие вещи делаются для найма — если хотите в Яндекс, то можно что-то порешать для тренировки
Из минусов — некоторые люди пишут, что заходят в Easy задачки, ничего не понимают и выходят. Сам я еще не решал, но добавил себе в копилку ресурсов для момента, когда буду снова ботать алгоритмы
А вы уже решали задачки на CodeRun? Там правда такие сложные задачи? Ставьте реакции китов
@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
50🐳27🔥3❤🔥2❤1⚡1
Вчера я рассказал про аналог Литкода от Яндекса и задумался о том, как люди вообще воспринимают эту площадку. Я часто слышу, как людям, которые хотят заботать алгоритмы, советуют просто решать задачки на Литкоде. Но правильно ли это?
У нас в Вышке был полноценный курс по алгоритмам, на котором мы все разбирали. А насколько вообще эффективно нарешивать задачи, когда у человека нет теоретической базы?
Конечно, можно пару часов посидеть над задачей, заглянуть в обсуждения и еще на полгода забить на Литкод. А можно подойти более фундаментально и набраться теоретической базы
Ведь изначально алгоритмические секции делаются не для того, чтобы проверить, как человек запомнил решение задачи и сколько их он прорешал — компания хочет понимать, что человек будет писать оптимальный код
Можно прослушать на ютубе курс лекций и параллельно решать задачи. А можно воспользоваться хэндбуком от Яндекса — там в формате интерактивного учебника в правильном порядке подаются темы по алгоритмам
Еще можно параллельно смотреть на neetcode.io, где есть подробный роадмэп по задачам — без теории, но хотя бы порядок решения задач/тем будет верным
Пишите в комментариях, что думаете про необходимость алгоритмических секций на собесах — а нужно ли это вообще? Кто-то пользовался этим хэндбуком от Яндекса?
@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
51⚡15❤6🐳3🔥2❤🔥1
На некоторых проектах или позициях часто происходит так, что после собеседования необходимость в постоянной тренировке математического аппарата отпадает. Одно дело — заботать задачи к собесу, другое — добровольно решать это, когда нет дедлайна и требований
Но практиковаться надо. Я нашел парочку сайтов, где в формате LeetCode дают задачи на линейную алгебру, DL и ML, а также теорию вероятности и математическую статистику. Первые 3 блока можно решать здесь, последние два — здесь
На сайтах очень приятный интерфейс с оглядкой на LeetCode — есть деление по категориям сложности [Easy, Medium, Hard]. А еще можно самому коммитить свои задачи
Не уверен, что такие сайты будут пользоваться популярностью, пока математика не станет повсеместным однотипным этапом отбора, как это произошло с алгоритмами и систем дизайном. А что считаете вы?
Please open Telegram to view this post
VIEW IN TELEGRAM
51🐳13❤🔥3⚡2❤1
Помните, как ребята из Microsoft в 2016 году запустили чат-бота по имени Тау, который обучался в реальном времени, анализируя ответы пользователей и генерируя собственные ответы?
Вы наверняка помните, что в течение 16 часов после запуска Tay начал генерировать оскорбительные и неприемлемые сообщения, что привело к значительным репутационным потерям для Microsoft. Наверное, на графиках можно отследить снижение капитализации
Если не хотите быть как Microsoft, рекомендую прочитать Хабр статью о тестировании ML систем — с подводкой, примерами кейсов, мемами, кодом и объяснением различных видов тестов
@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
1⚡9❤4🔥4❤🔥1
Google запустил в экспериментальном формате проект Illuminate – text-to-speech сервис, который превращает научные статьи по computer science в подкаст
Сначала создаются краткие резюме статей и вопросы-ответы, а потом два сгенерированных AI-голоса — интервьюер и эксперт — разворачивают вокруг статьи короткое интервью (3-7 минут), объясняющее суть работы
На сайте Google Illuminate уже можно послушать несколько примеров. Можно записаться в waitlist, чтобы получить доступ к самостоятельным генерациям. Я уже там как несколько недель, но доступа еще нет
Вот несколько примеров генераций:
Если сервис будет развиваться, мы, вероятно, получим возможность генерировать свой контент без привязки к источникам – сейчас можно загружать статьи только с arXiv. Но и сейчас это отличная возможность получать в понятном формате статьи для прослушивания – например, во время тренировок
@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
1🐳13🔥8❤2👨💻1
Spotify недавно рассказал, как они ускорили разметку данных для ML-моделей в 10 раз. Главный секрет — использование LLM в сочетании с работой аннотаторов. Модели берут на себя первичную разметку, а люди дорабатывают и проверяют сложные случаи, что дает трехкратный прирост производительности
В стриминговом сервисе, который очень быстро растет, важно уметь создавать масштабируемые решения для снижения костов. Например, этот способ используется для выявления нарушений политики платформы
Их стратегия разметки строится на трех столпах:
Этот подход позволил Spotify запускать десятки проектов одновременно, снизить затраты и сохранить высокую точность. Подробнее узнать об их решении можно в статье на их сайте
@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
2❤🔥12❤3⚡3
В блоге Astral Codex Ten недавно опубликовали результаты эксперимента «AI Art Turing Test». Участникам предлагалось отличить произведения искусства, созданные человеком, от изображений, сгенерированных искусственным интеллектом
Вот некоторые цифры из результатов:
Подробнее об эксперименте и его выводах можно узнать в оригинальной статье: How Did You Do On The AI Art Turing Test?
@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤🔥7❤4⚡2