Анализ данных (Data analysis)
46.3K subscribers
2.33K photos
269 videos
1 file
2.06K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
⚡️ xLSTM: расширенная долгая краткосрочная память

С тех пор как LSTM возникли и выдержали испытание временем, они способствовали многочисленным успехам глубокого обучения, в частности, привели к созданию LLM.
Однако появление технологии Transformer с распараллеливаемым самовниманием в основе ознаменовало рассвет новой эры, превзойдя LSTM по масштабу.
Возникают вопросы: как далеко мы можем продвинуться в языковом моделировании при масштабировании LSTM до миллиардов параметров, используя новейшие методы современных LLM, но смягчая известные ограничения LSTM?
• 1 — можно использовать экспоненциальный гейтинг с соответствующими методами нормализации и стабилизации.
• 2 — можно модифицировать структуру памяти LSTM, получая: (I) sLSTM со скалярной памятью, скалярным обновлением и новым смешиванием памяти; (II) полностью распараллеливаемую mLSTM с матричной памятью и правилом обновления ковариации.

Так и возникает xLSTM — расширенная долгая краткосрочная память.
Экспоненциальный гейтинг и модифицированные структуры памяти повышают возможности xLSTM и позволяют сравнить их с современными трансформерами как по производительности, так и по масштабированию.

Держите совсем свежую статью с описанием xLSTM
📎 Arxiv

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍102🔥2
⚡️ Red Hat объявила о выпуске дистрибутива RHEL AI для ML-разработчиков

Red Hat выпустила дистрибутив Red Hat Enterprise Linux AI (RHEL AI), который создали специально для ML-разработчиков. В сборку включены инструменты и фреймворки для работы с моделями машинного обучения.

▶️ Подробнее

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
13👍7🔥3🤣1
💻 DrawDB — open-source интуитивно понятный онлайн-инструмент для проектирования БД и генерации SQL-запросов

DrawDB — это удобный онлайн-редактор отношений между базами данных и сущностями (DBER).
Позволяет создавать диаграммы в несколько кликов, экспортировать sql-скрипты, настраивать редактор и многое другое без создания учетной записи. Ознакомиться с полным набором функций можно здесь.

Для локального использования:

git clone https://github.com/drawdb-io/drawdb
cd drawdb
npm install
npm run dev


GitHub
Перейти в редактор

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍176🔥2
🖥 Phidata — фреймворк для добавления памяти, знаний и новых опций к LLM

pip install -U phidata

А вот пара примеров AI-веб-приложений, созданных с помощью Phidata:
🟡 PDF AI — обобщает и отвечает на вопросы из PDF-файлов
🟡 ArXiv AI — отвечает на вопросы о статьях ArXiv, используя ArXiv API
🟡 HackerNews AI — обобщает истории, пользователей и делится тем, что нового на HackerNews

🖥 GitHub
🟡 Доки

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍104🔥3
🌟 Пошаговая реализация архитектуры Transformer

В этом ноутбуке максимально подробно описан каждый шаг реализации трансформера с нуля, с необходимым теоретическим минимумом
Для полного просветления можно скомбинировать с видео 3b1b

▶️ Jupyter Notebook

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍195🔥3🥱1
🔥 PyTorch реализация GPTs с использованием нейросетей Колмогорова-Арнольда (KAN)

Чуть больше недели прошло с анонса нейросети принципиально новой архитектуры (Kolmogorov-Arnold Network), и вот уже первые первые реализации на PyTorch, встречайте

pip install kan_gpt

🖥 GitHub

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥23👍93🤯1
This media is not supported in your browser
VIEW IN TELEGRAM
🌟 ydata-profiling — быстрое создание отчётов на основе данных

pip install ydata-profiling

ydata-profiling — это библиотека Python для профилирования данных, которая автоматизирует и стандартизирует создание подробных отчетов, дополненных статистикой и визуализацией.
Фишка ydata-profiling в том, что она позволяет подготовить данные к анализу всего 1 строкой кода

Использование ydata-profiling может выглядеть так:
import pandas as pd
from ydata_profiling import ProfileReport

df = pd.read_csv('data.csv')
profile = ProfileReport(df, title="Profiling Report")


🖥 GitHub

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍218🔥3👌1
🌟 GPT-4o доступна в предварительной версии службы Microsoft Azure

Новейшая модель ChatGPT-4o от OpenAI теперь доступна в предварительной версии службы Microsoft Azure.

Microsoft заявила, что клиенты службы могут изучить обширные возможности GPT-4o с помощью песочницы в Azure OpenAI Studio. Она частично доступна в США. В первом выпуске основное внимание уделяется вводу текста и изображений.

🟡 Подробнее
▶️ Azure AI Studio

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍93🔥2
Media is too big
VIEW IN TELEGRAM
⚡️ Google представили CAT3D: Инструмент для 3D генераций, с помощью диффузионных моделей

Создавайте 3D-сцены из любого количества реальных или сгенерированных изображений

proj: https://cat3d.github.io
abs: https://arxiv.org/abs/2405.10314

@data_analysis_ml
🔥104👍4
⚡️ Большая шпаргалка-учебник по ML

Здесь и основная теория по Machine Learning, и примеры реализации конкретных ML-алгоритмов — в общем, самое то, чтобы освежить базу перед собеседованием

📎 Шпаргалка

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18🔥52