Машинное обучение RU

🔥 Дайджест полезных материалов из мира Машинного обучения за неделю

Почитать:
— Как начать в DL: книги и курсы
— Визуализация распределений вероятностей в Python.
— Попросил нейросеть нарисовать биологические объекты: посмотрите, какая дичь получилась
— Галлюцинации нейросетей: что это такое, почему они возникают и что с ними делать
— Hadoop в любой непонятной ситуации. Как выжить кластеру в большой ML команде
— Как развернуть свой собственный ChatGPT, только лучше
— Всё идет по плану: как задавать роботу список действий с помощью языковых моделей и голосовых команд
— Когда стоит заменить A/B-тестирование сэмплированием Томпсона
— Яндекс Карты открывают крупнейший русскоязычный датасет отзывов на организации
— Распознавание по цвету. Как мы выбирали между классическими алгоритмами и нейросетями
— Исследования возможностей нейронных сетей глубокого обучения в распознавании маскируемого трафика
— Create a ChatGPT Chatbot from YouTube videos and Podcasts
— An Overview of the Path to Machine Learning Engineering
— Lo que necesitas para iniciar con Gen AI utilizando PaLM 2 y MakeSuite
— Pipeless vs Nvidia DeepStream
— BakaLLM, part 2
— Future Prospects and Growth of AI and ChatGPT
— Data Analysis with SQL
— Understanding SVM
— Mistral 7B Beats Llama 2 13B on All Benchmarks
— Predicting Poverty Reduction in Nigeria: A Machine Learning Approach

Посмотреть:
🌐 Large Language Models Are Not (Necessarily) Generative Ai - Karin Verspoor, PhD (⏱ 29:59)
🌐 Evolving Trends in Prompt Engineering for LLMs with Built-in Responsible AI Practices (⏱ 33:21)

Хорошего дня!

@machinelearning_ru

👍8🔥2❤1

2.78K views13:08

Машинное обучение RU

В начале сентября Яндекс провел Practical ML Conf, а сейчас опубликовали плейлист с записями всех докладов.

Что интересного:
- Доклад про обучение, продуктовое внедрение и обновление языковой модели YandexGPT;
- Доклад про обучение GigaChat от SberDevices (от предобучения до RLHF-пайплайна);
- Доклад о распределенном DL и способности системы продолжать корректно работать при падении одной или нескольких подсистем, от которых она зависит (zero-fault tolerance);
- Доклад про Kandinsky от Сбера (задача генерации изображений и видео по текстовому запросу, основные методы, архитектуры, данные для обучения, метрики оценки качества);
- Доклад про системы сканирования на базе компьютерного зрения в серии роботов Яндекс Маркета;
- Доклад про прогноз спроса в Яндекс Лавке (от бейзлайна до Time2Boost)

Записи всех докладов

@machinelearning_ru

YouTube

Keynote: «Под капотом YandexGPT» и «LLM-модели: от технологии к массовому продукту»

«Под капотом YandexGPT», Алексей Гусаков, Руководитель управления машинного интеллекта и исследований, Яндекс
«LLM-модели: от технологии к массовому продукту», Дмитрий Масюк, Директор бизнес-группы Поиска и рекламных технологий, Яндекс

👍6❤2🔥1🤔1

3.13K viewsedited 16:05

Машинное обучение RU

⚡️

NVIDIA’s Neuralangelo AI: Gaming Anywhere on Earth!

https://www.youtube.com/watch?v=bSHz0NexLBU

@machinelearning_ru

Please open Telegram to view this post

VIEW IN TELEGRAM

YouTube

NVIDIA’s Neuralangelo AI: Gaming Anywhere on Earth!

❤️ Check out Fully Connected by Weights & Biases: https://wandb.me/papers

📝 The paper "Neuralangelo: High-Fidelity Neural Surface Reconstruction " and "Magicavatar: Multimodal Avatar Generation and Animation" are available here:
https://research.nvidia…

👍5🔥2❤1

2.68K views18:10

Машинное обучение RU

This media is not supported in your browser

VIEW IN TELEGRAM

🦜 Editing Personality for LLMs

Новый фреймворк для редактирования личностных качеств больших языковых моделей (LLM). Easyedit позволяет выполнять корректировку ответов моделей на вопросы, связанные с мнением по заданной тематике.
Проект содержитновый эталонный набор данных PersonalityEdit.

🖥

Github: https://github.com/zjunlp/easyedit

📕

Paper: https://arxiv.org/abs/2310.02168v1

⭐️

Dataset: https://drive.google.com/file/d/1WRo2SqqgNtZF11Vq0sF5nL_-bHi18Wi4/view

@machinelearning_ru

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤2🔥1

2.77K views08:15

Машинное обучение RU

⭐️

Решаем реальные задачи с собеседования Data Science

https://www.youtube.com/watch?v=iLzA0H0Ao6o&t=28s

@bigdatai

Please open Telegram to view this post

VIEW IN TELEGRAM

YouTube

Разбор задачи с собеседования Data Science. Подготовка на практике

Разбор реальной задачи специалиста Data Science — кредитный скоринг. Определяем, вернёт ли клиент кредит, исходя из статистики
▪ https://t.iss.one/data_analysis_ml -подписывайтесь на наш телеграм анализ данных на Python, где мы Data Science обучаем на практике.…

❤5👍2🔥1

3.06K views15:01

Машинное обучение RU

📃 Как нейросети используются в беспилотном автомобиле для предсказания всех участников дорожного движения и для планирования движения самого транспорта

Разработчики Яндекса разобрали логику движения беспилотного автомобиля, показали примеры свёрточных и трансформерных архитектур моделей для предсказания движения.

Из статьи можно узнать:

👉 В чём преимущества машинного обучения перед эвристиками и чем может помочь Reinforcement Learning.

👉В чём проблемы Behavioral Cloning и как их решать.

👉 Почему в компании пока не применяют подход end-to-end для планирования движения.

📌 Статья на Хабр

@machinelearning_ru

Хабр

Нейронные сети для планирования движения беспилотных автомобилей

Планировщик движения беспилотного автомобиля — это алгоритм-помощник, который общается с другими участниками движения посредством манёвров. То есть он действует так, чтобы другим было понятно, куда...

❤6👍1🔥1

3.2K views12:03

Машинное обучение RU

OpenAI’s ChatGPT Makes A Game For $1!

https://www.youtube.com/watch?v=Zlgkzjndpak

@machinelearning_ru

YouTube

OpenAI’s ChatGPT Makes A Game For $1!

❤️ Check out Lambda here and sign up for their GPU Cloud: https://lambdalabs.com/papers

📝 The paper "Communicative Agents for Software Development" is available here:
https://arxiv.org/abs/2307.07924
https://github.com/OpenBMB/ChatDev

My latest paper on…

👍4🔥3❤1👎1

3.1K views10:32

Машинное обучение RU

🖥

Development with Large Language Models Tutorial – OpenAI, Langchain, Agents, Chroma

Большие языковые модели (например, ChatGPT) могут помочь вам в решении многих задач.

Например, создание динамических пользовательских интерфейсов, навигация по тоннам текстовых данных и многое другое.

В этом курсе вы узнаете об основах и о том, как использовать LLM в своих проектах.

• Видео
• Colab notebook

@machinelearning_ru

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7🔥2❤1

3.72K views11:02

Машинное обучение RU

Google’s New AI Watched 2,500 Videos! But Why?

https://www.youtube.com/watch?v=BWFEtLm0Zdc

@machinelearning_ru

YouTube

Google’s New AI Watched 2,500 Videos! But Why?

❤️ Check out Lambda here and sign up for their GPU Cloud: https://lambdalabs.com/papers

📝 The paper "Generative Image Dynamics" is available here:
https://generative-dynamics.github.io/

📝 My brush synthesis paper "Procedural Generation of Hand-drawn like…

🔥4👍1

3.53K views09:15

Машинное обучение RU

🖥

Chatgpt, Bard , Claude, Theb - используй API лучших нейросетей бесплатно и без ВПН на Python

▪Video

@machinelearning_ru

Please open Telegram to view this post

VIEW IN TELEGRAM

YouTube

Chatgpt, Bard , Claude, Theb - используй API лучших нейросетей бесплатно и без ВПН на Python.

Можно получать ответ от любой из популярных нейросетей: Claude, You, Bard, Theb, GPT бесплатно и без VPN
▪ https://t.iss.one/ai_machinelearning_big_data -подписывайтесь на наш телеграм анализ данных на Python, где мы Data Science обучаем на практике.
▪ htt…

👍5🔥3❤1

3.3K viewsedited 14:12

Машинное обучение RU

➕

Medical AI Models with TensorFlow – Tutorial

Существует множество полезных способов использования искусственного интеллекта.

Например, врачи могут использовать его для выявления у пациентов таких заболеваний, как рак.

В этом курсе врач + разработчик научит вас применять модели искусственного интеллекта для медицинской визуализации с помощью TensorFlow.

📌 Видео

@machinelearning_ru

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤1🔥1

3K views16:30

Машинное обучение RU

👉 Введение в машинное обучение

Бесплатные курсы, которые служит введением в машинное обучение и охватывает основные понятия.

• Github

@machinelearning_ru

👍10❤3🔥3

4.27K views11:42

Машинное обучение RU

Полярная система координат — двумерная система координат, в которой каждая точка на плоскости определяется двумя числами — полярным углом и полярным радиусом. Полярная система координат особенно полезна в случаях, когда отношения между точками проще изобразить в виде радиусов и углов; в более распространённой декартовой, или прямоугольной, системе координат, такие отношения можно установить только путём применения тригонометрических уравнений.

Сегодня утром я снова играл с ней.

График функции f(x) = x (картинка 1).

А вот график f(x) = cos(8x) (картинка 2).

Подробнее о полярной система координат см. в этом посте.

Здесь приведен код Python для построения графиков. Вы можете экспериментировать с собственными графиками, изменяя f.


from numpy import cos
from numpy import linspace
import matplotlib.pyplot as plt

plt.style.use('seaborn-v0_8-muted')

def g(u, c, f):
    t = f(u) + c
    
    return 2*u*t**2 / (u**2 + t**2)

def h(u, c, f):
    t = f(u) + c
    return 2*u*u*t / (u**2 + t**2)

t = linspace(-7, 7, 10000)
fig, ax = plt.subplots()
f = lambda x: cos(8*x) 
for c in range(-10, 11):
    ax.plot(g(t, c, f), h(t, c, f))
    plt.axis("off")
plt.show()

@machinelearning_ru

👍11❤4🔥2

3.85K views10:09

Машинное обучение RU

NVIDIA’s AI Learned On 40,000,000,000 Materials!

https://www.youtube.com/watch?v=ffarLQDQmC4

@machinelearning_ru

YouTube

NVIDIA’s AI Learned On 40,000,000,000 Materials!

❤️ Check out Lambda here and sign up for their GPU Cloud: https://lambdalabs.com/papers

📝 The paper "Real-Time Neural Appearance Models" is available here:
https://research.nvidia.com/labs/rtr/neural_appearance_models/

📝 My PhD thesis "Photorealistic Material…

🔥6❤1👍1👏1🤔1

4.02K views20:35

Машинное обучение RU

🤖

Awesome-Refreshing-LLMs

Кураторский список статей и проектов больших языковых моделей (LLM), не требующих дорогостоящего переобучения.

🖥

Github: https://github.com/hyintell/awesome-refreshing-llms

⭐️ Paper: https://arxiv.org/pdf/2310.07343v1.pdf

@machinelearning_ru

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5🔥1

2.52K views14:14

Машинное обучение RU

🔥 What is Overfitting in Machine Learning?

Случалось ли вам когда-нибудь выполнять какую-либо задачу, не задумываясь о том, что это за процесс? Например, приготовление кофе, завязывание шнурков или прогулка по окрестностям.

В таких случаях вы выполняли эти действия столько раз, что уже освоили процесс. Вы можете думать о чем-то, не имеющем отношения к делу, но выполнять эти действия все равно будете. В психологии это явление называется процедурной памятью.

Подобное явление наблюдается и в моделях машинного обучения, но оно не столь позитивно, как в случае с человеком. В машинном обучении это явление известно как переобучение.

В этом руководстве подробно объясняется что такое переобучение и как его избежать.

https://www.freecodecamp.org/news/what-is-overfitting-machine-learning/

@machinelearning_ru

❤5

2.56K views15:02

Машинное обучение RU

🐼

Pandas 2.0.0 — геймчейнджер в работе дата-сайентистов?

Многофункциональная и универсальная библиотека pandas заняла достойное место в сердце каждого дата-сайентиста.

Практически невозможно представить себе работу с данными — начиная с их ввода/вывода до очистки и преобразования — без import pandas as pd.

Интересный факт: этот релиз готовился в течение 3 лет.

Так что же нового предлагает pandas 2.0? Окунемся в эту версию с головой.

1. Производительность, скорость и эффективность использования памяти
Как известно, pandas была создана на основе библиотеки numpy, которая не была специально разработана как бэкенд для библиотек датафреймов. По этой причине одним из основных слабых мест pandas стала обработка больших массивов данных в памяти.

В этом релизе значительные изменения связаны с появлением бэкенда Apache Arrow для данных pandas.

Arrow — это стандартизованный формат столбцовых данных in-memory (с хранением в оперативной памяти) с доступными библиотеками для нескольких языков программирования (C, C++, R, Python и другие).
Для Python создан пакет PyArrow, основанный на реализации Arrow в C++, а значит, быстрый!

PyArrow избавляет нас от прежних ограничений памяти версий 1.X и позволяет выполнять более быстрые и эффективные с точки зрения памяти операции с данными, особенно в случае больших наборов данных.

Сравним скорость чтения данных без бэкенда pyarrow и с ним на примере набора данных Hacker News размером около 650 МБ (лицензия CC BY-NC-SA 4.0):

%timeit df = pd.read_csv("data/hn.csv")
# 12 с ± 304 мс на цикл (среднее ± стандартное отклонение 7 прогонов, по 1 циклу в каждом)


%timeit df_arrow = pd.read_csv("data/hn.csv", engine='pyarrow', dtype_backend='pyarrow')
# 329 мс ± 65 мс на цикл (среднее ± стандартное отклонение 7 прогонов, по 1 циклу в каждом)

При использовании нового бэкенда чтение данных происходит почти в 35 раз быстрее. Следует отметить и другие моменты:

▪️Без бэкенда pyarrow каждый столбец/признак хранится как собственный уникальный тип данных: числовые признаки хранятся как int64 или float64, а строковые значения — как объекты.
▪️При использовании pyarrow все признаки применяют dtypes Arrow: обратите внимание на аннотацию [pyarrow]и различные типы данных: int64, float64, string, timestamp и double.

df = pd.read_csv("data/hn.csv")
df.info()

# <class 'pandas.core.frame.DataFrame'>
# RangeIndex: 3885799 записей, от 0 до 3885798
# Столбцы данных (всего 8 столбцов):
# #   Column              Dtype  
# ---  ------              -----  
# 0   Object ID           int64  
# 1   Title               object 
# 2   Post Type           object 
# 3   Author              object 
# 4   Created At          object 
# 5   URL                 object 
# 6   Points              int64  
# 7   Number of Comments  float64
# dtypes: float64(1), int64(2), object(5)
# использование памяти: 237.2+ MB

df_arrow = pd.read_csv("data/hn.csv", dtype_backend='pyarrow', engine='pyarrow')
df_arrow.info()

# <class 'pandas.core.frame.DataFrame'>
# RangeIndex: 3885799 записей, от 0 до 3885798
# Столбцы данных (всего 8 столбцов):
# #   Column              Dtype                
# ---  ------              -----                
# 0   Object ID           int64[pyarrow]       
# 1   Title               string[pyarrow]      
# 2   Post Type           string[pyarrow]      
# 3   Author              string[pyarrow]      
# 4   Created At          timestamp[s][pyarrow]
# 5   URL                 string[pyarrow]      
# 6   Points              int64[pyarrow]       
# 7   Number of Comments  double[pyarrow]      
# dtypes: double[pyarrow](1), int64[pyarrow](2), string[pyarrow](4), timestamp[s][pyarrow](1)
# memory usage: 660.2 MB

2. Типы данных arrow и индексы numpy

📌 Читать

@machinelearning_ru

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8👍4🔥1

2.63K views15:21

Машинное обучение RU

Forwarded from Анализ данных (Data analysis)

📒 GigaChat нового поколения.

Разработчики @gigachat_bot изменили подход к обучению модели, а потому практически все умения модели были улучшены. В частности, речь идет о сокращении текстов, ответов на вопросы и генерации идей.

Появился и бот GigaChat в социальной сети «ВКонтакте» — после активации, его можно использовать для самых разных целей: от создания текстов до генерации изображений (за счет интеграции с Kandinsky).

Число уникальных пользователей GigaChat достигло 1 млн.

• Попробовать

@data_analysis_ml

👍6❤2

1.71K views16:39

Машинное обучение RU

Google’s AI: This Should Be Impossible!

https://www.youtube.com/watch?v=bD_HyxHMHPo

@machinelearning_ru

YouTube

Google’s AI: This Should Be Impossible!

❤️ Check out Weights & Biases and sign up for a free demo here: https://wandb.me/papers

📝 The paper "RealFill - Reference-Driven Generation for Authentic Image Completion " is available here:
https://realfill.github.io/
Unofficial implementation: https:…

👍4❤1🔥1

2.89K views18:02

About

Blog

Apps

Platform