Анализ данных (Data analysis)
46.3K subscribers
2.34K photos
277 videos
1 file
2.07K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
⚡️ Млн+ часов YouTube для обучения GPT-4

OpenAI расшифровала более миллиона часов видео с YouTube для обучения GPT-4, воспользовавшись лазейкой в законе об авторском праве. Компания использовала свою модель транскрипции аудио Whisper. Президент OpenAI Грег Брокман лично участвовал в сборе видео.

Представитель OpenAI Линдси Хелд сообщила, что компания использует «многочисленные источники, включая общедоступные данные и партнёрские отношения», а также изучает возможность создания собственных синтетических данных.

Представитель Google Мэтт Брайант отметил, что «как файлы robots.txt, так и Условия обслуживания запрещают несанкционированное сканирование или загрузку контента YouTube». По его словам, Google принимает «технические и юридические меры» для предотвращения такого использования. При этом сама компания обучала свои модели «на некотором контенте YouTube в соответствии с соглашениями с авторами».

В статье The New York Times говорится, что OpenAI исчерпала запасы полезных данных в 2021 году. К тому времени она обучила модели на данных, которые включали компьютерный код из Github, базы данных шахматных ходов и материалы школьных заданий из Quizlet. Эксперты считают, что запас доступного для обучения контента иссякнет к 2028 году. После этого оно будет производиться на синтетических данных, созданных другим ИИ. Эксперты допускают, что некоторые компании также могут преднамеренно пойти на нарушение авторских прав.

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
9🔥4😁3🥰2👍1
LitGPT: Pretrain, finetune, deploy 20+ LLMs on your own data

Более 20+ SOTA моделей, которые вы можете использовать на собственных датасетах.

fp4/8/16/32
LoRA, QLoRA, Adapter (v1, v2)
flash attention
FSDP
1-1000+ GPUs/TPUs

Github

@data_analysis_ml
👍92🥰1
Gemma от DeepMind теперь умеет генерировал качественный код! 🤯 🔔

Code Gemm - набор моделей с открытым кодом. Code Gemma доступен в двух разных размерах 2B и 7B.

🧮 2B и 7B с контекстом 8192 тыс.
🛫 инициализирован из базы Gemma
🔠 Обучен на 500 тыс. токенах (веб, код и математика)
🛠 Отлаженный инструктаж с помощью SFT и RLHF
2B достигает 27% при оценке пользователем, а 7B - 52%%
Разрешено коммерческое использование
Оптимизировано для генерации кода на любомустройстве
Доступно на huggingface

Blog: https://hf.co/blog/codegemma
Models: https://huggingface.co/models?library=transformers&sort=trending&search=google%2Fcodegemma
Report: https://goo.gle/codegemma
Google Blog: https://developers.googleblog.com/2024/04/gemma-family-expands.html

@machinelearning_ru
👍13❤‍🔥4🥰1
📌Модель машинного обучения Ferret-UI от Apple

Apple представила модель машинного обучения Ferret-UI для распознавания элементов пользовательского интерфейса. В исследовании компания отметила, что практически все доступные мультимодальные языковые модели плохо работают с интерфейсами. Нейросети не отличают кнопки от полей ввода и других элементов.

Компания собрала большой датасет для обучения Ferret-UI, что значительно улучшило распознавание. Отмечается, что нейросеть превосходит не только открытые MLLM, но и GPT-4. Модель можно использовать для реализации новых функций доступности. К примеру, нейросеть сможет управлять мобильным устройством, опираясь на запросы пользователя.

📎Инженеры компании опубликовали исследование на портале Arxiv.

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
96👍4🥰3❤‍🔥1😱1
This media is not supported in your browser
VIEW IN TELEGRAM
🔜 Парадоксы в данных, и почему визуализация бывает необходима

В этой статье несколько «парадоксов» в данных, о которых полезно знать как начинающему аналитику данных, так и любому человеку, кто не хочет быть введенным в заблуждение некорректными статистическими выводами.

За рассматриваемыми примерами не кроется сложной математики помимо базовых свойств выборки (таких, как среднее арифметическое и дисперсия), зато такие кейсы могут встретиться и на собеседовании в сфере Data Science, и в жизни.

📎 Статья

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
18👍7🔥4
⚡️ LLMWare — open-souce проект для разработки LLM-инструментов корпоративного уровня

Для чего LLMWare?
Позволяет создавать llmware slims — это небольшие специализированные модели, которые оптимизированы для использования с процессорами и позволяют автоматизировать задачи без дорогостоящего оборудования.

llmware slims могут выполнять различные задачи, такие как обобщение текста, извлечение тегов, определение тем, анализ намерений, классификация контента и распознавание именованных объектов.

Эти llmware slims легко настраиваются с помощью языка Python и веб-фреймворка Streamlit для создания удобного интерфейса

Вообще, вариантов использования масса, с чем можно ознакомиться в GitHub

🖥 GitHub
📎 Обзор

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
8❤‍🔥2👍2🔥2
🦾 Обучите и запустите GPT-2

Андрей Карпатый выпустил llm.c для CUDA.

Все это в одном файле llm.с и по-прежнему всего ~ 1000 строк кода чистого C.

Текущее время выполнения каждой итерации в е <3 A 100 40GB PCIe, B=4, T=1024:
- llm.c: 111 мс
- PyTorch: 180 мс
- +torch.compile: 86 мс
- +тензорные ядра fp32: 26 мс

Github

@data_analysis_ml
👍15🥰5🎉3
Нейросеть для генерации изображений YandexART стала доступна для тестирования внешним компаниям!

В режиме закрытого превью нейросеть уже попробовали несколько внешних компаний. Например, крупная e-com сеть тестирует YandexART для создания уникального дизайна подарочных карт. Клиенты сети смогут ввести текстовый запрос и самостоятельно выбрать собственное оформление для карты.

Теперь на облачной платформе Yandex Cloud с помощью YandexART компании смогут создавать визуалы для рекламы и социальных сетей, дизайн-макеты, иллюстрации для диджитала и книг. Нейросеть можно встроить через API в различные сервисы и веб-приложения
👍7🥰1🎉1
⭐️ Autolabel

Если вам уже наскучили задачи NLP, такие как:

- кластеризация документов (Classification);
- распознавание именованных сущностей (Named Entity Recognition);
- связывание именованных сущностей (Entity Matching);
- оценка эмоциональной окраски (Sentiment Analysis);
- поиск ответа в тексте и многое другое.

То вам помогут LLM. Библиотека Autolabel быстро и бесплатно решает эти задачи, причем выбор модели остается за вами.

pip install refuel-autolabel

Github

@data_analysis_ml
👍192🥰2
🌟 Шпаргалка по Polars

Polars — это высокопроизводительная библиотека для анализа данных с помощью Python.
Polars разработана с упором на крупномасштабную обработку данных.

Держите отличную шпаргалку по Polars, которая поможет освежить основные моменты
📎 PDF

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
22👍7🔥5❤‍🔥2
💻Анализ данных и статистика в R

Держите отличный справочник по работе с R от Ивана Позднякова.
Здесь описывается практически всё, вышло аж на 672 страницы

📎 PDF
📎Онлайн книга

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🥰127
🔥 Большая подборка вопросов для собеседования по DS, AI, ML, DL, NLP, компьютерному зрению. Часть 2

🚀 Часть 1

Вопросы и ответы на собеседования по машинному обучению для специалистов в области анализа данных
Вопросы и ответы на собеседования по глубокому обучению для специалистов в области обработки данных
Вопросы по статистике
Вопросы по теории вероятности
Репозиторий для линейки онлайн-курсов по статистике
Вопросы и ответы для специалистов по анализу данных на Python
Вопросы и ответы для собеседований по SQL и DB для специалистов по обработке данных
Вопросы, основанные на резюме
Вопросы и ответы на собеседования по большим языковым моделям (ВПН)
Вопросы и ответы на собеседования по компьютерному зрению часть 1( ВПН)
Вопросы и ответы на собеседования по компьютерному зрению часть 2 (ВПН)
Вопросы и ответы на собеседования по компьютерному зрению часть 3 (ВПН)

@machinelearning_interview
👍176🥰1
This media is not supported in your browser
VIEW IN TELEGRAM
📈 Python Graph gallery: 38 высококачественных гайдов по визуализации!

И этот список продолжает расти 📈

Кто сказал что matplotlib
уродлив? 😀


https://python-graph-gallery.com/best-python-chart-examples/

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥33👍5🥰2