Анализ данных (Data analysis) – Telegram

Анализ данных (Data analysis)

@data_analysis_ml

46.3K subscribers

2.33K photos

269 videos

1 file

2.06K links

Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp

Download Telegram

About

Blog

Apps

Platform

Анализ данных (Data analysis)

46.3K subscribers

Анализ данных (Data analysis)

🌟

Новая статья на Habr: разработчики из команды AllSee поделились опытом внедрения YandexGPT API в свои проекты

Авторы пишут, что официального SDK пока нет, поэтому они создали свой. Здесь полное решение, включая создание класса YandexGPT Thread для хранения и управления отдельными чатами.

Из интересного: в начале есть сравнение эффективности YandexGPT и ChatGPT в одной из задач. Две модели показали хорошие результаты, но стоимость нейросети от Яндекса вышла значительно меньше.

https://habr.com/ru/articles/812979/

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍16❤6🔥5🥱2

8.32K views12:32

Анализ данных (Data analysis)

🌟

TrustLLM для оценивания ответов LLM

TrustLLM — инструмент на Python для комплексного исследования ответов от LLM.
TrustLLM рассматривает 6 аспектов ответов: правдивость, безопасность, этичность, соблюдение конфиденциальности и другие.

В этом документе подробно объясняется, как использовать инструмент для оценки эффективности собственных моделей.

pip install trustllm

▪GitHub
▪Arxiv
▪Docs
▪Project

#llm

🌟

TrustLLM для оценивания ответов LLM

TrustLLM — инструмент на Python для комплексного исследования ответов от LLM.
TrustLLM рассматривает 6 аспектов ответов: правдивость, безопасность, этичность, соблюдение конфиденциальности и другие.

В этом документе подробно объясняется, как использовать инструмент для оценки эффективности собственных моделей.

pip install trustllm

▪GitHub
▪Arxiv
▪Docs
▪Project

#llm

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍11❤8🔥3

6.43K views14:33

Анализ данных (Data analysis)

📌

Artificial Analysis собрали топ 100 LLM в одном месте

Компания Artificial Analysis разработала рейтинговую систему, оценивающую стоимость, производительность и качество более 100 LLM, чтобы обеспечить удобный выбор модели, соответствующей индивидуальным потребностям.

Параметры для оценивания LLM:

🟡

Качество: комплексный индекс, рассчитанный на основе метрик, таких как MMLU, MT-Bench, оценки HumanEval, а также рейтинг Chatbot Arena;

🟡

Цена: метрики, учитывающие цену на вход/выход на один токен, а также среднюю цену для сравнения провайдеров хостинга. Стоимость представляет собой взвешенную смесь цен на входные и выходные токены в соотношении 3:1;

🟡

Окно контекста: максимальное количество комбинированных входных и выходных токенов;

🟡

Скорость: токены/с, получаемые во время генерации моделью токенов. Median, P5, P25, P75 и P95;

🟡

Задержка: время до первого полученного токена, измеренное в секундах, после отправки запроса через API. Median, P5, P25, P75 и P95.

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍18❤4🔥3⚡1

6.44K viewsedited 07:33

Анализ данных (Data analysis)

🖥 SQL генератор

Выпущена Sqlcode 8b на базе Llama-3!

Вероятно, это лучшая на данный момент модель размером <10B для преобразования текста в SQL.

Работает лучше, чем gpt-4-turbo и claude opus для генерации SQL запросов.

▪Github: https://github.com/defog-ai/sql-eval
▪Weights: https://huggingface.co/defog/llama-3-sqlcoder-8b/
▪Demo (optimized for postgres): https://defog.ai/sqlcoder-demo/

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

❤18👍9🔥6

7.51K views07:14

Анализ данных (Data analysis)

⚡️

PyWinAssistant — AI-инструмент для управления пользовательским интерфейсом

PyWinAssistant — это первый AI-фреймворк для Windows 10/11 с открытым исходным кодом для управления любыми пользовательскими интерфейсами win32api путем использования визуализации мышления (VoT) и пространственных рассуждений в LLM (без OCR / обнаружения объектов / сегментации — такой подход улучшает качество работы PyWinAssistant).

PyWinAssistant имеет встроенные опции чтобы помогать человеку пользоваться компьютером.
Он правильно понимает любые запросы на естественном языке и планирует выполнение правильных действий в ОС с учетом требований безопасности.

🖥

🟡

Arxiv (связанное с этим исследование)

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍14❤6🔥4

6.04K views09:10

Анализ данных (Data analysis)

⚡️

Marqo — векторный поиск для ML-приложений и не только

— pip install marqo

Marqo — это open-source фреймворк тензорного поиска, который обеспечивает работу приложений для поиска, извлечения информации и ML-приложений.

Особенности Marqo
— генерация, хранение и поиск векторов из коробки
— позволяет создавать приложения для поиска, разрешения сущностей и изучения данных, используя свои тексты и изображения
— можно создавать сложные семантические запросы, комбинируя взвешенные поисковые термины
— поддерживается фильтрация результатов поиска с помощью DSL запросов Marqo
— позволяет использовать ML-модели от PyTorch, Huggingface, OpenAI и не только
— можно использовать предварительно сконфигурированную модель или подключить свою собственную
— поддержка CPU и GPU
— модели хранятся в индексах HNSW в памяти, что позволяет достичь высокой скорости поиска
— масштабирование до индексов на сотни миллионов документов с помощью горизонтального чередования индексов
— асинхронная и неблокируемая загрузка данных и поиск

🖥

🟡

Доки

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤11👍7🔥3

6.35K views13:03

Анализ данных (Data analysis)

⚡️

Открытый MLOps курс от DataTalks.Club

Мощный курс по MLOps; состоит из 6 модулей, к каждому модулю прилагается подробный Jupyter Notebook со всей нужной теорией и примерами кода

🖥

GitHub

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍24❤5🔥3⚡1

10.8K views08:10

Анализ данных (Data analysis)

🖥

🖥

Решаем задачи на стажировку аналитика в яндекс. Подключаем CHATGPT и другие ИИ модели!

https://www.youtube.com/watch?v=I_6exF29t0k

📌 Код

#youtube #стажировка #яндекс

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍15❤5🔥4🥴4

12K viewsedited 09:41

Анализ данных (Data analysis)

⚡️

DeepSeek-V2 — экономичная и эффективная языковая модель Mixture-of-Experts

Встречайте DeepSeek-V2, производительную языковую модель Mixture-of-Experts (MoE), характеризующуюся экономичным обучением и эффективным выводом. Она включает в себя 236B параметров, из которых 21B активируется для каждой лексемы. По сравнению с DeepSeek 67B, DeepSeek-V2 достигает более высокой производительности, при этом экономит 42,5% затрат на обучение, сокращает кэш KV на 93,3% и увеличивает максимальную производительность генерации в 5,76 раза.

Предварительное обучение DeepSeek-V2 было проведено на разнообразном и высококачественном наборе из 8,1 триллиона лексем. После этого комплексного предварительного обучения последовал процесс Supervised Fine-Tuning (SFT) и Reinforcement Learning (RL) для полного раскрытия возможностей DeepSeek-V2.
Результаты оценок подтверждают эффективность такого подхода: DeepSeek-V2 достигает выдающихся результатов как в стандартных бенчмарках, так и в открытой системе оценивания.

🖥

GitHub
🤗 Hugging Face

🟡

Arxiv

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤9👍5🔥4

6.55K views12:02

Анализ данных (Data analysis)

📌Featuretools для генерации признаков

— python -m pip install featuretools

Featuretools — это Python библиотека для автоматизированной разработки фич, т.е. определения переменных из набора данных для обучения ML-модели.
Featuretools отлично справляется с преобразованием временных и реляционных наборов данных в матрицы признаков для машинного обучения.

🖥

🟡

Доки

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤14👍11🔥3⚡2

5.76K views10:04

Анализ данных (Data analysis)

🌟

LLM2Vec — инструмент для преобразования LLM в кодировщик текста

pip install llm2vec
pip install flash-attn --no-build-isolation

LLM2Vec позволяет выполнить 3 простых шага:
1) включение двунаправленного внимания
2) обучение с скрытым предсказанием следующей лексемы
3) неконтролируемое контрастное обучение

При этом LLM может быть дополнительно настроена для достижения современной производительности.

🖥

🟡

Arxiv

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

❤9👍6🔥2

5.73K views14:03

Анализ данных (Data analysis)

Forwarded from Machinelearning

🖥 Вышла новая, улучшенная версия GPT-4 Omni для. И что самое главное — она доступна всем БЕСПЛАТНО!

Это самая совершенная модель из всех, намного превосходящая своих предшественников, включая таинственный gpt2-chatbot.

Она появится уже сегодня в виде приложения для пк.

GPT-4 Omni будет понимать эмоции и тон голоса.

@ai_machinelearning_big_data

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8🔥3👍1

4.46K views18:31

Анализ данных (Data analysis)

Forwarded from Machinelearning

Media is too big

VIEW IN TELEGRAM

🔥 Грег Брокман, соучредитель OpenAI, опубликовал 5-минутное видео, в котором он общается с языковой моделью GPT-4 Omni и демонстрирует ее возможности компьютерного зрения.

А вот еще 33 видео с примерами работы ИИ - https://vimeo.com/openai.

А если интерсно, тут обращение самого Сэма Альтмана - https://blog.samaltman.com/gpt-4o

@ai_machinelearning_big_data

👍14❤6🔥6

4.76K views18:31

Анализ данных (Data analysis)

⚡️

Plandex — AI-инструмент для создания кода

— curl -sL https://plandex.ai/install.sh | bash

Это open-source AI-инструмент для генерации кода с консольным интерфейсом, который помогает выполнять даже большие задачи.

Для выполнения задач, охватывающих несколько файлов и требующих множества шагов, Plandex использует долго работающих AI-агентов. Большие задачи разбиваются на более мелкие подзадачи, которые затем выполняются — и так пока не будет выполнено всё.

Фишки Plandex:
— позволяет экспериментировать, пересматривать и анализировать в защищенной песочнице, прежде чем применять изменения

— даёт возможность пробовать разные модели и настройки моделей, а затем сравнивать результаты

— облегчает контроль над контекстом и над тем, сколько токенов используется

🖥

GitHub

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8❤6🔥2

5.7K views10:42