Анализ данных (Data analysis)
46.3K subscribers
2.33K photos
269 videos
1 file
2.06K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
📌Featuretools для генерации признаков

python -m pip install featuretools

Featuretools — это Python библиотека для автоматизированной разработки фич, т.е. определения переменных из набора данных для обучения ML-модели.
Featuretools отлично справляется с преобразованием временных и реляционных наборов данных в матрицы признаков для машинного обучения.

🖥 GitHub
🟡 Доки

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
14👍11🔥32
🌟 LLM2Vec — инструмент для преобразования LLM в кодировщик текста

pip install llm2vec
pip install flash-attn --no-build-isolation


LLM2Vec позволяет выполнить 3 простых шага:
1) включение двунаправленного внимания
2) обучение с скрытым предсказанием следующей лексемы
3) неконтролируемое контрастное обучение

При этом LLM может быть дополнительно настроена для достижения современной производительности.

🖥 GitHub
🟡 Arxiv

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
9👍6🔥2
Forwarded from Machinelearning
🖥 Вышла новая, улучшенная версия GPT-4 Omni для. И что самое главное — она доступна всем БЕСПЛАТНО!

Это самая совершенная модель из всех, намного превосходящая своих предшественников, включая таинственный gpt2-chatbot.

Она появится уже сегодня в виде приложения для пк.


GPT-4 Omni будет понимать эмоции и тон голоса.

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
8🔥3👍1
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
🔥 Грег Брокман, соучредитель OpenAI, опубликовал 5-минутное видео, в котором он общается с языковой моделью GPT-4 Omni и демонстрирует ее возможности компьютерного зрения.

А вот еще 33 видео с примерами работы ИИ - https://vimeo.com/openai.

А если интерсно, тут обращение самого Сэма Альтмана - https://blog.samaltman.com/gpt-4o

@ai_machinelearning_big_data
👍146🔥6
⚡️ Plandex — AI-инструмент для создания кода

curl -sL https://plandex.ai/install.sh | bash

Это open-source AI-инструмент для генерации кода с консольным интерфейсом, который помогает выполнять даже большие задачи.

Для выполнения задач, охватывающих несколько файлов и требующих множества шагов, Plandex использует долго работающих AI-агентов. Большие задачи разбиваются на более мелкие подзадачи, которые затем выполняются — и так пока не будет выполнено всё.

Фишки Plandex:
— позволяет экспериментировать, пересматривать и анализировать в защищенной песочнице, прежде чем применять изменения

— даёт возможность пробовать разные модели и настройки моделей, а затем сравнивать результаты

— облегчает контроль над контекстом и над тем, сколько токенов используется

🖥 GitHub

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍86🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
🌟 Novu — IaaC инфраструктура уведомлений на основе GitOps. Встроенный центр уведомлений, интеграция с электронной почтой, Push и Slack

Novu — open-source инфраструктура уведомлений;
Novu предоставляет унифицированный API, который упрощает отправку уведомлений по нескольким каналам, включая In-App, Push, Email, SMS и Chat. С Novu можно создавать пользовательские рабочие процессы и определять условия для каждого канала, не беспокоясь, что уведомления будут доставлены наиболее эффективным способом.

🖥 GitHub
🟡 Доки

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍83🔥2
⚡️ xLSTM: расширенная долгая краткосрочная память

С тех пор как LSTM возникли и выдержали испытание временем, они способствовали многочисленным успехам глубокого обучения, в частности, привели к созданию LLM.
Однако появление технологии Transformer с распараллеливаемым самовниманием в основе ознаменовало рассвет новой эры, превзойдя LSTM по масштабу.
Возникают вопросы: как далеко мы можем продвинуться в языковом моделировании при масштабировании LSTM до миллиардов параметров, используя новейшие методы современных LLM, но смягчая известные ограничения LSTM?
• 1 — можно использовать экспоненциальный гейтинг с соответствующими методами нормализации и стабилизации.
• 2 — можно модифицировать структуру памяти LSTM, получая: (I) sLSTM со скалярной памятью, скалярным обновлением и новым смешиванием памяти; (II) полностью распараллеливаемую mLSTM с матричной памятью и правилом обновления ковариации.

Так и возникает xLSTM — расширенная долгая краткосрочная память.
Экспоненциальный гейтинг и модифицированные структуры памяти повышают возможности xLSTM и позволяют сравнить их с современными трансформерами как по производительности, так и по масштабированию.

Держите совсем свежую статью с описанием xLSTM
📎 Arxiv

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍102🔥2
⚡️ Red Hat объявила о выпуске дистрибутива RHEL AI для ML-разработчиков

Red Hat выпустила дистрибутив Red Hat Enterprise Linux AI (RHEL AI), который создали специально для ML-разработчиков. В сборку включены инструменты и фреймворки для работы с моделями машинного обучения.

▶️ Подробнее

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
13👍7🔥3🤣1
💻 DrawDB — open-source интуитивно понятный онлайн-инструмент для проектирования БД и генерации SQL-запросов

DrawDB — это удобный онлайн-редактор отношений между базами данных и сущностями (DBER).
Позволяет создавать диаграммы в несколько кликов, экспортировать sql-скрипты, настраивать редактор и многое другое без создания учетной записи. Ознакомиться с полным набором функций можно здесь.

Для локального использования:

git clone https://github.com/drawdb-io/drawdb
cd drawdb
npm install
npm run dev


GitHub
Перейти в редактор

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍176🔥2
🖥 Phidata — фреймворк для добавления памяти, знаний и новых опций к LLM

pip install -U phidata

А вот пара примеров AI-веб-приложений, созданных с помощью Phidata:
🟡 PDF AI — обобщает и отвечает на вопросы из PDF-файлов
🟡 ArXiv AI — отвечает на вопросы о статьях ArXiv, используя ArXiv API
🟡 HackerNews AI — обобщает истории, пользователей и делится тем, что нового на HackerNews

🖥 GitHub
🟡 Доки

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍104🔥3
🌟 Пошаговая реализация архитектуры Transformer

В этом ноутбуке максимально подробно описан каждый шаг реализации трансформера с нуля, с необходимым теоретическим минимумом
Для полного просветления можно скомбинировать с видео 3b1b

▶️ Jupyter Notebook

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍195🔥3🥱1
🔥 PyTorch реализация GPTs с использованием нейросетей Колмогорова-Арнольда (KAN)

Чуть больше недели прошло с анонса нейросети принципиально новой архитектуры (Kolmogorov-Arnold Network), и вот уже первые первые реализации на PyTorch, встречайте

pip install kan_gpt

🖥 GitHub

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥23👍93🤯1
This media is not supported in your browser
VIEW IN TELEGRAM
🌟 ydata-profiling — быстрое создание отчётов на основе данных

pip install ydata-profiling

ydata-profiling — это библиотека Python для профилирования данных, которая автоматизирует и стандартизирует создание подробных отчетов, дополненных статистикой и визуализацией.
Фишка ydata-profiling в том, что она позволяет подготовить данные к анализу всего 1 строкой кода

Использование ydata-profiling может выглядеть так:
import pandas as pd
from ydata_profiling import ProfileReport

df = pd.read_csv('data.csv')
profile = ProfileReport(df, title="Profiling Report")


🖥 GitHub

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍218🔥3👌1