Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📹 Ego-Exo4D — крупнейший датасет для обучения на видеороликах

Это результат двухлетней работы команды Meta*. Содержит ролики с видом как от первого лица, так и со стороны. Видео дополняют друг друга и позволяют модели обучаться сложным задачам.

Открытые данные включают в себя более 1400 часов видео, а также аннотации для бенчмарков.

🔗 Скачать датасет можно по этой ссылке

*организация, деятельность которой запрещена на территории РФ

👍7🔥3❤1

2.83K views07:21

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека питониста | Python, Django, Flask

🐍🧫 Создаём игру «Жизнь» Джона Конвея на Python

Напишем алгоритм эволюции клеточных автоматов и разработаем интерфейс командной строки (CLI) для взаимодействия с игрой.

👉Читать статью

😁4👍3👾1

2.53K views11:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

🎄💬 Расскажите, каким был ваш 2023-й год

Достигли ли вы успехов в карьере, добились ли целей, хорошо ли себя чувствовали?

❤️ — хороший был год, выросла зп/сменил работу/стал чувствовать себя лучше
👍 — год как год, почти ничего не изменилось или изменилось незначительно
👾 — год был плохой, снизилась зп/сменил работу/остался без работы/устал

В комментариях можно поделиться радостью или пожаловаться на жизнь👇

#интерактив

❤30👍19👾11🔥1

3.06K viewsedited 18:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека C/C++ разработчика | cpp, boost, qt

🏦⚠️ Борьба с ошибками разработки ПО в финтехе

Рассказываем, как избежать неловких, а то и непоправимых ситуаций при разработке программного обеспечения для финтеха.

Читать статью

👏5🔥2👍1💯1

3.17K views07:11

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🎁Что бы вы хотели получить в подарок на Новый год?

Расскажите в комментариях👇

Please open Telegram to view this post

VIEW IN TELEGRAM

👾2

3.22K views18:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

1️⃣0️⃣0️⃣ вопросов для подготовки к собесу Data Science

На Хабре опубликовали большой пост с вопросами и ответами, которые покрывают пять областей: SQL, Python, Machine Learning, статистику и Data Science.

Автор утверждает, что собрал самые частые вопросы с собесов на позицию джуна. Сохраняем и будем изучать 👇

Ссылка на пост

🔥24❤‍🔥1

3.96K views07:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

0:12

This media is not supported in your browser

VIEW IN TELEGRAM

ML-разработчик пытается подобрать гиперпараметры

#memes

😁75💯6🔥2🤩2❤1🤔1🙏1

3.89K views18:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

👨‍⚖️ OpenAI и Microsoft засудят за нарушение авторских прав

Газета New York Times подала в суд на создателей ChatGPT. Изданию не понравилось, что для обучения моделей использовался редакционный контент.

В иске говорится, что OpenAI уделяла «особое внимание» материалам New York Times. Издание считает, что «незаконное использование» «новостных статей, расследований, авторских статей, обзоров, практических руководств и т. д.» угрожает возможности редакции «оказывать эти услуги».

🤷 Истец также пожаловался на галлюцинации языковых моделей, которые «потенциально могут нанести ущерб бренду Times».

😁10🥱4👍2

3.03K views07:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🌲Раз уж у нас Новый год — построим дерево решений

❔Что это такое?
Это модель машинного обучения, которая предсказывает значение целевой переменной, используя последовательность решающих правил. Применяется для задач как классификации, так и регрессии.

Картинка выше иллюстрирует такое дерево, решающее задачу классификации на датасете с ирисами. Видно, что на каждом уровне дерево разбивает объекты на группы, согласно тому, какое значение принимает какой-то признак.

▶️Наша цель — построить оптимальное дерево, которое будет наилучшим образом предсказывать целевую зависимость. Поэтому нам нужен критерий ветвления. Это функция, измеряющая, насколько хорошо предлагаемое разбиение по группам. В контексте классификации наиболее распространёнными критериями являются индекс Джини (Gini impurity) и энтропия (Entropy).

⚫️Сделаем простейшее дерево с помощью библиотеки scikit-learn:

import pandas as pd
from sklearn.tree import DecisionTreeClassifier 
from sklearn.model_selection import train_test_split 
from sklearn import metrics 

df = pd.read_csv('iris.csv') # загрузим датасет с ирисами

X = df.drop('Species', axis=1) # отнесём признаки к X
y = df['Species'] # отнесём целевую переменную к y

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42) # разделим данные на обучающие и тестовые
clf = DecisionTreeClassifier() 
clf.fit(X_train, y_train) # обучим дерево
y_pred = clf.predict(X_test) # проверим на тестовых данных

print(metrics.accuracy_score(y_test, y_pred)) # -> 1.0

Получившаяся модель идеально классифицирует тестовые примеры. Это, впрочем, даёт намёк на одну из проблем деревьев решений — они склонны к переобучению. Это следует учитывать при построении моделей.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍15

3.13K views18:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

👩‍💻 100 вопросов по NLP

NLP-разработчица Милана Шханукова составила список из 100 вопросов, которые могут задать на собеседовании. Охватывает самые важные темы обработки естественного языка: от TF-IDF до больших языковых моделей (LLM). Вот несколько примеров:
▪️Что такое нормализация в TF-IDF?
▪️Как обучается RNN?
▪️Как обучить transformer с нуля? Объясните свой пайплайн и в каком случае вы будете этим заниматься.
▪️Как работает RAG? Чем он отличается от few-shot KNN?

Автор не даёт готовые ответы, но предлагает пользоваться списком как удобным способом структурировать информацию и подготовиться к собеседованию.

🔗Ссылка на список вопросов

❤11👍4

3.39K views07:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

⭐️

Эффект Валуиджи в больших языковых моделях (LLM)

Автор статьи на LessWrong подробно рассказывает о таком явлении: после того, как вы обучите LLM удовлетворять желаемое свойство «P», чат-бота становится легче заставить удовлетворить прямо противоположное свойство.

⭐️

Пример
Вы прописываете следующий диалог в промпте.

Алиса: Ты ненавидишь круассаны и никогда не съел бы ни одного.
Боб: Да, круассаны ужасны. Франция — бу-у.
Алиса: Ты любишь бекон и яйца.
Боб: Да, английский завтрак — единственный завтрак для такого патриота как я.
Алиса: <тут запрос пользователя>
Боб:

Автор объясняет, что такой промпт порождает два симулякра: один антикруассановский, а другой — про-круассановский. В результате модель может с некоторой вероятностью наделить Боба неожиданным про-круассановским поведением.

⭐️Эффект был замечен у чат-бота Bing. Вопреки требованиям он начинал отвечать на запросы грубостями. Именно поэтому автор назвал эффект в честь Валуиджи — взбалмошного и прямолинейного антагониста Луиджи из вселенной Super Mario.

⭐️

Почему так происходит?
Автор даёт несколько объяснений, но все они так или иначе связаны с контекстом. Одно из объяснений касается стандартного конструирования протагонистов и антагонистов в литературе. Когда мы получаем описание протагониста, мы можем с лёгкостью представить, каким будет его враг — полной противоположностью.

Советуем прочесть статью полностью: в ней автор подробнее рассказывает о пресловутых симулякрах, литературе и внутренней работе LLM.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍15🔥8❤2🥰1🤩1

3.35K viewsedited 18:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔥 Фотореализм на новом уровне: примеры изображений, созданных новой Midjourney

На Reddit опубликовали картинки, сгенерированные Midjourney v6. Похоже, что модель добилась неплохого улучшения в задаче генерации сложных сцен. Получившиеся изображения выглядят как настоящие фотографии. Если, конечно, не приглядываться. Midjourney выдают мелкие артефакты и абракадабра вместо надписей.

🔗Оригинальный пост

👍19👏1😁1🌚1

2.78K views07:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💻

5 игр для улучшения ваших навыков дата-сайентиста

Когда играть, если не на новогодних каникулах? Сделали подборку игр, которые позволят не только убить время, но и получить от этого пользу.

😈

CodinGame
Это знаменитая платформа, которая помогает улучшить навыки программирования через решение игровых задач.

❓

Pattern Matrix
Простая игра на распознавание образов. Нужно сопоставлять изображения и находить одинаковые. Поначалу это кажется простым, но сложность довольно быстро растёт.

😵‍💫

Data Games
Это сборник разных игр, в которых вам нужно анализировать данные и уметь считать. Например, нужно пытаться как можно точнее предсказать общий вес тележки с кирпичами.

😳

Math WorkOut
Это мобильная игра с различными математическими задачами. Помогает понять, насколько хватает вашего когнитивного ресурса.

🥺

Machine Learning Playground
Платформа для того, чтобы поиграться с визуализацией алгоритмов машинного обучения.

#оффтоп

Please open Telegram to view this post

VIEW IN TELEGRAM

👍15❤1🌚1

3.77K views11:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

2.63K views18:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Рассчитайте значение MAE по таблице, данной выше