Анализ данных (Data analysis)
46.3K subscribers
2.33K photos
269 videos
1 file
2.06K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
🌟 Новая статья на Habr: разработчики из команды AllSee поделились опытом внедрения YandexGPT API в свои проекты

Авторы пишут, что официального SDK пока нет, поэтому они создали свой. Здесь полное решение, включая создание класса YandexGPT Thread для хранения и управления отдельными чатами.

Из интересного: в начале есть сравнение эффективности YandexGPT и ChatGPT в одной из задач. Две модели показали хорошие результаты, но стоимость нейросети от Яндекса вышла значительно меньше.

https://habr.com/ru/articles/812979/

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍166🔥5🥱2
🌟 TrustLLM для оценивания ответов LLM

TrustLLM — инструмент на Python для комплексного исследования ответов от LLM.
TrustLLM рассматривает 6 аспектов ответов: правдивость, безопасность, этичность, соблюдение конфиденциальности и другие.

В этом документе подробно объясняется, как использовать инструмент для оценки эффективности собственных моделей.

pip install trustllm

GitHub
Arxiv
Docs
Project

#llm

🌟 TrustLLM для оценивания ответов LLM

TrustLLM — инструмент на Python для комплексного исследования ответов от LLM.
TrustLLM рассматривает 6 аспектов ответов: правдивость, безопасность, этичность, соблюдение конфиденциальности и другие.

В этом документе подробно объясняется, как использовать инструмент для оценки эффективности собственных моделей.

pip install trustllm

GitHub
Arxiv
Docs
Project

#llm
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍118🔥3
📌Artificial Analysis собрали топ 100 LLM в одном месте

Компания Artificial Analysis разработала рейтинговую систему, оценивающую стоимость, производительность и качество более 100 LLM, чтобы обеспечить удобный выбор модели, соответствующей индивидуальным потребностям.

Параметры для оценивания LLM:

🟡Качество: комплексный индекс, рассчитанный на основе метрик, таких как MMLU, MT-Bench, оценки HumanEval, а также рейтинг Chatbot Arena;

🟡Цена: метрики, учитывающие цену на вход/выход на один токен, а также среднюю цену для сравнения провайдеров хостинга. Стоимость представляет собой взвешенную смесь цен на входные и выходные токены в соотношении 3:1;

🟡Окно контекста: максимальное количество комбинированных входных и выходных токенов;

🟡Скорость: токены/с, получаемые во время генерации моделью токенов. Median, P5, P25, P75 и P95;

🟡Задержка: время до первого полученного токена, измеренное в секундах, после отправки запроса через API. Median, P5, P25, P75 и P95.

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍184🔥31
🖥 SQL генератор

Выпущена Sqlcode 8b на базе Llama-3!

Вероятно, это лучшая на данный момент модель размером <10B для преобразования текста в SQL.

Работает лучше, чем gpt-4-turbo и claude opus для генерации SQL запросов.

Github: https://github.com/defog-ai/sql-eval
Weights: https://huggingface.co/defog/llama-3-sqlcoder-8b/
Demo (optimized for postgres): https://defog.ai/sqlcoder-demo/

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
18👍9🔥6
⚡️ PyWinAssistant — AI-инструмент для управления пользовательским интерфейсом

PyWinAssistant — это первый AI-фреймворк для Windows 10/11 с открытым исходным кодом для управления любыми пользовательскими интерфейсами win32api путем использования визуализации мышления (VoT) и пространственных рассуждений в LLM (без OCR / обнаружения объектов / сегментации — такой подход улучшает качество работы PyWinAssistant).

PyWinAssistant имеет встроенные опции чтобы помогать человеку пользоваться компьютером.
Он правильно понимает любые запросы на естественном языке и планирует выполнение правильных действий в ОС с учетом требований безопасности.

🖥 GitHub
🟡 Arxiv (связанное с этим исследование)

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍146🔥4
⚡️ Marqo — векторный поиск для ML-приложений и не только

pip install marqo

Marqo — это open-source фреймворк тензорного поиска, который обеспечивает работу приложений для поиска, извлечения информации и ML-приложений.

Особенности Marqo
— генерация, хранение и поиск векторов из коробки
— позволяет создавать приложения для поиска, разрешения сущностей и изучения данных, используя свои тексты и изображения
— можно создавать сложные семантические запросы, комбинируя взвешенные поисковые термины
— поддерживается фильтрация результатов поиска с помощью DSL запросов Marqo
— позволяет использовать ML-модели от PyTorch, Huggingface, OpenAI и не только
— можно использовать предварительно сконфигурированную модель или подключить свою собственную
— поддержка CPU и GPU
— модели хранятся в индексах HNSW в памяти, что позволяет достичь высокой скорости поиска
— масштабирование до индексов на сотни миллионов документов с помощью горизонтального чередования индексов
— асинхронная и неблокируемая загрузка данных и поиск

🖥 GitHub
🟡 Доки

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
11👍7🔥3
⚡️ Открытый MLOps курс от DataTalks.Club

Мощный курс по MLOps; состоит из 6 модулей, к каждому модулю прилагается подробный Jupyter Notebook со всей нужной теорией и примерами кода

🖥 GitHub

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍245🔥31
🖥🖥 Решаем задачи на стажировку аналитика в яндекс. Подключаем CHATGPT и другие ИИ модели!

https://www.youtube.com/watch?v=I_6exF29t0k

📌 Код

#youtube #стажировка #яндекс

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍155🔥4🥴4
⚡️ DeepSeek-V2 — экономичная и эффективная языковая модель Mixture-of-Experts

Встречайте DeepSeek-V2, производительную языковую модель Mixture-of-Experts (MoE), характеризующуюся экономичным обучением и эффективным выводом. Она включает в себя 236B параметров, из которых 21B активируется для каждой лексемы. По сравнению с DeepSeek 67B, DeepSeek-V2 достигает более высокой производительности, при этом экономит 42,5% затрат на обучение, сокращает кэш KV на 93,3% и увеличивает максимальную производительность генерации в 5,76 раза.

Предварительное обучение DeepSeek-V2 было проведено на разнообразном и высококачественном наборе из 8,1 триллиона лексем. После этого комплексного предварительного обучения последовал процесс Supervised Fine-Tuning (SFT) и Reinforcement Learning (RL) для полного раскрытия возможностей DeepSeek-V2.
Результаты оценок подтверждают эффективность такого подхода: DeepSeek-V2 достигает выдающихся результатов как в стандартных бенчмарках, так и в открытой системе оценивания.

🖥 GitHub
🤗 Hugging Face
🟡 Arxiv

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
9👍5🔥4
📌Featuretools для генерации признаков

python -m pip install featuretools

Featuretools — это Python библиотека для автоматизированной разработки фич, т.е. определения переменных из набора данных для обучения ML-модели.
Featuretools отлично справляется с преобразованием временных и реляционных наборов данных в матрицы признаков для машинного обучения.

🖥 GitHub
🟡 Доки

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
14👍11🔥32
🌟 LLM2Vec — инструмент для преобразования LLM в кодировщик текста

pip install llm2vec
pip install flash-attn --no-build-isolation


LLM2Vec позволяет выполнить 3 простых шага:
1) включение двунаправленного внимания
2) обучение с скрытым предсказанием следующей лексемы
3) неконтролируемое контрастное обучение

При этом LLM может быть дополнительно настроена для достижения современной производительности.

🖥 GitHub
🟡 Arxiv

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
9👍6🔥2
Forwarded from Machinelearning
🖥 Вышла новая, улучшенная версия GPT-4 Omni для. И что самое главное — она доступна всем БЕСПЛАТНО!

Это самая совершенная модель из всех, намного превосходящая своих предшественников, включая таинственный gpt2-chatbot.

Она появится уже сегодня в виде приложения для пк.


GPT-4 Omni будет понимать эмоции и тон голоса.

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
8🔥3👍1
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
🔥 Грег Брокман, соучредитель OpenAI, опубликовал 5-минутное видео, в котором он общается с языковой моделью GPT-4 Omni и демонстрирует ее возможности компьютерного зрения.

А вот еще 33 видео с примерами работы ИИ - https://vimeo.com/openai.

А если интерсно, тут обращение самого Сэма Альтмана - https://blog.samaltman.com/gpt-4o

@ai_machinelearning_big_data
👍146🔥6
⚡️ Plandex — AI-инструмент для создания кода

curl -sL https://plandex.ai/install.sh | bash

Это open-source AI-инструмент для генерации кода с консольным интерфейсом, который помогает выполнять даже большие задачи.

Для выполнения задач, охватывающих несколько файлов и требующих множества шагов, Plandex использует долго работающих AI-агентов. Большие задачи разбиваются на более мелкие подзадачи, которые затем выполняются — и так пока не будет выполнено всё.

Фишки Plandex:
— позволяет экспериментировать, пересматривать и анализировать в защищенной песочнице, прежде чем применять изменения

— даёт возможность пробовать разные модели и настройки моделей, а затем сравнивать результаты

— облегчает контроль над контекстом и над тем, сколько токенов используется

🖥 GitHub

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍86🔥2