Машинное обучение RU
17.7K subscribers
1.58K photos
208 videos
11 files
2.04K links
Все о машинном обучении

админ - @workakkk

@data_analysis_ml - анализ даннных

@ai_machinelearning_big_data - Machine learning

@itchannels_telegram -лучшие ит-каналы

@pythonl - Python

@pythonlbooks- python 📚

@datascienceiot - 📚

РКН: clck.ru/3FmrUw
Download Telegram
🔥 Дайджест полезных материалов из мира Машинного обучения за неделю

Почитать:
Как начать в DL: книги и курсы
Визуализация распределений вероятностей в Python.
Попросил нейросеть нарисовать биологические объекты: посмотрите, какая дичь получилась
Галлюцинации нейросетей: что это такое, почему они возникают и что с ними делать
Hadoop в любой непонятной ситуации. Как выжить кластеру в большой ML команде
Как развернуть свой собственный ChatGPT, только лучше
Всё идет по плану: как задавать роботу список действий с помощью языковых моделей и голосовых команд
Когда стоит заменить A/B-тестирование сэмплированием Томпсона
Яндекс Карты открывают крупнейший русскоязычный датасет отзывов на организации
Распознавание по цвету. Как мы выбирали между классическими алгоритмами и нейросетями
Исследования возможностей нейронных сетей глубокого обучения в распознавании маскируемого трафика
Create a ChatGPT Chatbot from YouTube videos and Podcasts
An Overview of the Path to Machine Learning Engineering
Lo que necesitas para iniciar con Gen AI utilizando PaLM 2 y MakeSuite
Pipeless vs Nvidia DeepStream
BakaLLM, part 2
Future Prospects and Growth of AI and ChatGPT
Data Analysis with SQL
Understanding SVM
Mistral 7B Beats Llama 2 13B on All Benchmarks
Predicting Poverty Reduction in Nigeria: A Machine Learning Approach

Посмотреть:
🌐 Large Language Models Are Not (Necessarily) Generative Ai - Karin Verspoor, PhD ( 29:59)
🌐 Evolving Trends in Prompt Engineering for LLMs with Built-in Responsible AI Practices ( 33:21)

Хорошего дня!

@machinelearning_ru
👍8🔥21
В начале сентября Яндекс провел Practical ML Conf, а сейчас опубликовали плейлист с записями всех докладов.

Что интересного:
- Доклад про обучение, продуктовое внедрение и обновление языковой модели YandexGPT;
- Доклад про обучение GigaChat от SberDevices (от предобучения до RLHF-пайплайна);
- Доклад о распределенном DL и способности системы продолжать корректно работать при падении одной или нескольких подсистем, от которых она зависит (zero-fault tolerance);
- Доклад про Kandinsky от Сбера (задача генерации изображений и видео по текстовому запросу, основные методы, архитектуры, данные для обучения, метрики оценки качества);
- Доклад про системы сканирования на базе компьютерного зрения в серии роботов Яндекс Маркета;
- Доклад про прогноз спроса в Яндекс Лавке (от бейзлайна до Time2Boost)

Записи всех докладов

@machinelearning_ru
👍62🔥1🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
🦜 Editing Personality for LLMs

Новый фреймворк для редактирования личностных качеств больших языковых моделей (LLM). Easyedit позволяет выполнять корректировку ответов моделей на вопросы, связанные с мнением по заданной тематике.
Проект содержитновый эталонный набор данных PersonalityEdit.

🖥 Github: https://github.com/zjunlp/easyedit

📕 Paper: https://arxiv.org/abs/2310.02168v1

⭐️ Dataset: https://drive.google.com/file/d/1WRo2SqqgNtZF11Vq0sF5nL_-bHi18Wi4/view

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍42🔥1
📃 Как нейросети используются в беспилотном автомобиле для предсказания всех участников дорожного движения и для планирования движения самого транспорта

Разработчики Яндекса разобрали логику движения беспилотного автомобиля, показали примеры свёрточных и трансформерных архитектур моделей для предсказания движения.

Из статьи можно узнать:

👉 В чём преимущества машинного обучения перед эвристиками и чем может помочь Reinforcement Learning.

👉В чём проблемы Behavioral Cloning и как их решать.

👉 Почему в компании пока не применяют подход end-to-end для планирования движения.

📌 Статья на Хабр

@machinelearning_ru
6👍1🔥1
🖥 Development with Large Language Models Tutorial – OpenAI, Langchain, Agents, Chroma

Большие языковые модели (например, ChatGPT) могут помочь вам в решении многих задач.

Например, создание динамических пользовательских интерфейсов, навигация по тоннам текстовых данных и многое другое.

В этом курсе вы узнаете об основах и о том, как использовать LLM в своих проектах.

Видео
Colab notebook

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥21
Medical AI Models with TensorFlow – Tutorial

Существует множество полезных способов использования искусственного интеллекта.

Например, врачи могут использовать его для выявления у пациентов таких заболеваний, как рак.

В этом курсе врач + разработчик научит вас применять модели искусственного интеллекта для медицинской визуализации с помощью TensorFlow.

📌 Видео

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41🔥1
👉 Введение в машинное обучение

Бесплатные курсы, которые служит введением в машинное обучение и охватывает основные понятия.

Github

@machinelearning_ru
👍103🔥3
Полярная система координат — двумерная система координат, в которой каждая точка на плоскости определяется двумя числами — полярным углом и полярным радиусом. Полярная система координат особенно полезна в случаях, когда отношения между точками проще изобразить в виде радиусов и углов; в более распространённой декартовой, или прямоугольной, системе координат, такие отношения можно установить только путём применения тригонометрических уравнений.

Сегодня утром я снова играл с ней.

График функции f(x) = x (картинка 1).

А вот график f(x) = cos(8x) (картинка 2).

Подробнее о полярной система координат см. в этом посте.

Здесь приведен код Python для построения графиков. Вы можете экспериментировать с собственными графиками, изменяя f.


from numpy import cos
from numpy import linspace
import matplotlib.pyplot as plt

plt.style.use('seaborn-v0_8-muted')

def g(u, c, f):
t = f(u) + c

return 2*u*t**2 / (u**2 + t**2)

def h(u, c, f):
t = f(u) + c
return 2*u*u*t / (u**2 + t**2)

t = linspace(-7, 7, 10000)
fig, ax = plt.subplots()
f = lambda x: cos(8*x)
for c in range(-10, 11):
ax.plot(g(t, c, f), h(t, c, f))
plt.axis("off")
plt.show()


@machinelearning_ru
👍114🔥2
🤖 Awesome-Refreshing-LLMs

Кураторский список статей и проектов больших языковых моделей (LLM), не требующих дорогостоящего переобучения.

🖥 Github: https://github.com/hyintell/awesome-refreshing-llms

⭐️ Paper: https://arxiv.org/pdf/2310.07343v1.pdf

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
5🔥1
🔥 What is Overfitting in Machine Learning?

Случалось ли вам когда-нибудь выполнять какую-либо задачу, не задумываясь о том, что это за процесс? Например, приготовление кофе, завязывание шнурков или прогулка по окрестностям.

В таких случаях вы выполняли эти действия столько раз, что уже освоили процесс. Вы можете думать о чем-то, не имеющем отношения к делу, но выполнять эти действия все равно будете. В психологии это явление называется процедурной памятью.

Подобное явление наблюдается и в моделях машинного обучения, но оно не столь позитивно, как в случае с человеком. В машинном обучении это явление известно как переобучение.

В этом руководстве подробно объясняется что такое переобучение и как его избежать.

https://www.freecodecamp.org/news/what-is-overfitting-machine-learning/

@machinelearning_ru
5
🐼 Pandas 2.0.0 — геймчейнджер в работе дата-сайентистов?

Многофункциональная и универсальная библиотека pandas заняла достойное место в сердце каждого дата-сайентиста.

Практически невозможно представить себе работу с данными — начиная с их ввода/вывода до очистки и преобразования — без import pandas as pd.

Интересный факт: этот релиз готовился в течение 3 лет.

Так что же нового предлагает pandas 2.0? Окунемся в эту версию с головой.

1. Производительность, скорость и эффективность использования памяти
Как известно, pandas была создана на основе библиотеки numpy, которая не была специально разработана как бэкенд для библиотек датафреймов. По этой причине одним из основных слабых мест pandas стала обработка больших массивов данных в памяти.

В этом релизе значительные изменения связаны с появлением бэкенда Apache Arrow для данных pandas.

Arrow — это стандартизованный формат столбцовых данных in-memory (с хранением в оперативной памяти) с доступными библиотеками для нескольких языков программирования (C, C++, R, Python и другие).
Для Python создан пакет PyArrow, основанный на реализации Arrow в C++, а значит, быстрый!

PyArrow избавляет нас от прежних ограничений памяти версий 1.X и позволяет выполнять более быстрые и эффективные с точки зрения памяти операции с данными, особенно в случае больших наборов данных.

Сравним скорость чтения данных без бэкенда pyarrow и с ним на примере набора данных Hacker News размером около 650 МБ (лицензия CC BY-NC-SA 4.0):

%timeit df = pd.read_csv("data/hn.csv")
# 12 с ± 304 мс на цикл (среднее ± стандартное отклонение 7 прогонов, по 1 циклу в каждом)


%timeit df_arrow = pd.read_csv("data/hn.csv", engine='pyarrow', dtype_backend='pyarrow')
# 329 мс ± 65 мс на цикл (среднее ± стандартное отклонение 7 прогонов, по 1 циклу в каждом)


При использовании нового бэкенда чтение данных происходит почти в 35 раз быстрее. Следует отметить и другие моменты:

▪️Без бэкенда pyarrow каждый столбец/признак хранится как собственный уникальный тип данных: числовые признаки хранятся как int64 или float64, а строковые значения — как объекты.
▪️При использовании pyarrow все признаки применяют dtypes Arrow: обратите внимание на аннотацию [pyarrow]и различные типы данных: int64, float64, string, timestamp и double.

df = pd.read_csv("data/hn.csv")
df.info()

# <class 'pandas.core.frame.DataFrame'>
# RangeIndex: 3885799 записей, от 0 до 3885798
# Столбцы данных (всего 8 столбцов):
# # Column Dtype
# --- ------ -----
# 0 Object ID int64
# 1 Title object
# 2 Post Type object
# 3 Author object
# 4 Created At object
# 5 URL object
# 6 Points int64
# 7 Number of Comments float64
# dtypes: float64(1), int64(2), object(5)
# использование памяти: 237.2+ MB

df_arrow = pd.read_csv("data/hn.csv", dtype_backend='pyarrow', engine='pyarrow')
df_arrow.info()

# <class 'pandas.core.frame.DataFrame'>
# RangeIndex: 3885799 записей, от 0 до 3885798
# Столбцы данных (всего 8 столбцов):
# # Column Dtype
# --- ------ -----
# 0 Object ID int64[pyarrow]
# 1 Title string[pyarrow]
# 2 Post Type string[pyarrow]
# 3 Author string[pyarrow]
# 4 Created At timestamp[s][pyarrow]
# 5 URL string[pyarrow]
# 6 Points int64[pyarrow]
# 7 Number of Comments double[pyarrow]
# dtypes: double[pyarrow](1), int64[pyarrow](2), string[pyarrow](4), timestamp[s][pyarrow](1)
# memory usage: 660.2 MB


2. Типы данных arrow и индексы numpy

📌 Читать

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
8👍4🔥1
📒 GigaChat нового поколения.

Разработчики @gigachat_bot изменили подход к обучению модели, а потому практически все умения модели были улучшены. В частности, речь идет о сокращении текстов, ответов на вопросы и генерации идей.

Появился и бот GigaChat в социальной сети «ВКонтакте» — после активации, его можно использовать для самых разных целей: от создания текстов до генерации изображений (за счет интеграции с Kandinsky).

Число уникальных пользователей GigaChat достигло 1 млн.

Попробовать

@data_analysis_ml
👍62