Big Data AI
16.8K subscribers
822 photos
98 videos
19 files
825 links
@haarrp - админ

Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям

@data_analysis_ml - анализ данных

@ai_machinelearning_big_data

@itchannels_telegram - важное для программиста

РКН: clck.ru/3Fmqxe
Download Telegram
⚡️ Шпаргалка по ML

Нереальной полезности пост — ловите Cheatsheet по Machine Learning, тут разобраны самые основные понятия и даже больше:
❯ метод понижения размерности PCA
❯ ложноположительные, ложноотрицательные ошибки
❯ наивный Байесовский классификатор
❯ регрессионный анализ
❯ регуляризация
❯ архитектура, устройство, известные реализации нейронных сетей CNN
❯ базовые структуры данных: массив, связный список, стек, очередь, хеш-таблица, дерево

Поможет без проблем подготовиться к собесу и освежить знания

📁 PDF

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥31😁1
🔥 Выпуск Mistral Large! Новый флагманский LLM.

Он превосходит GPT3.5 и LLaMa 2 70B во всех бенчмарках.

- Свободно владеет английским, французским, испанским, немецким и итальянским языками
- Контекстное окно на 32 тыс. лексем
- точное следование инструкциям
- встроенная возможность вызова функций

Дополнительная информация: https://mistral.ai/news/mistral-large/

Попробовать можно здесь: https://chat.mistral.ai

@bigdatai
🔥8👍41😁1🤝1
⚡️ Streamline Analyst: A Data Analysis AI Agent

Streamline-Analyst ИИ-агент на базе LLM, который оптимизирует весь процесс анализа данных.

Github

@bigdatai
👍41🔥1
⚡️ Training Neural Networks From Scratch with Parallel Low-Rank Adapters

Предварительное обучение с нуля с помощью LoRA на нескольких GPU.

Статья: https://arxiv.org/abs/2402.16828
Проект: https://minyoungg.github.io/LTE/

@bigdatai
6
⚡️ Microsoft опубликовали статью Towards Optimal Learning of Language Models

В данной работе изучаются общие принципы улучшения обучения языковых моделей (ЯМ), целью которых является сокращение необходимых шагов обучения для достижения высокой производительности.

В частности представлена теорию оптимального обучения ЛМ. Цель оптимизация обучение ЛМ путем максимизации коэффициента сжатия данных в представлении "LM-training-as-lossless-compression".

Авторы выводят теорему, названную законом обучения, которая раскрывает свойства динамики в процессе оптимального обучения.

Теорема подтверждается экспериментами на линейной классификации и реальной задаче моделирования языка.

Наконец, авторы эмпирически доказывают, что оптимальное обучение LM в основном связано с улучшением коэффициентов в законе масштабирования LM, что указывает на большие перспективы и значение для разработки практических методов ускорения обучения.

https://huggingface.co/papers/2402.17759

@bigdatai
🔥82🥰1
🌲 Датасет Finn Woodlands

Новый набор данных о лесах под названием FinnWoodlands, который состоит из стереоизображений RGB, облаков точек и карт разреженной глубины, а также справочных аннотаций для семантической сегментации.

Github

@bigdatai
👍6🔥43
⚡️ Новый мультимодальный arXiv: Датасет для улучшения научного понимания больших моделей языка визуализации

proj: https://mm-arxiv.github.io
abs: https://arxiv.org/abs/2403.00231

@bigdatai
3👍3🔥2
✍️ Команда Яндекса поделилась процессом обучения модели YandexGPT, пересказывающей видео в Браузере

Некоторые тезисы из публикации на Хабре:
— YandexGPT для пересказа статей не подходит для суммаризации видео: порядок тезисов не всегда совпадает с таймлайном;
— Важные продуктовые требования: адаптация под длину контента и помощь в навигации;
— Два основных критерия для оценки качества модели: качество выделения частей и качество тезисов;
— Сочетание LoRa и fine-tune позволяет эффективно использовать преимущества обоих методов для пересказа видео.

Сама статья

@bigdatai
👍54
⭐️Гарантированно валидный JSON на выходе от LaminiAI

Вопрос: а вообще, почему структурированный вывод JSON - это так сложно?

LLM, как мы знаем, в основном основаны на архитектуре transformer, которая использует авторегрессивный генератор. Трансформер рассматривает каждое слово как лексему и генерирует одну лексему за раз. LLM не может вернуться назад и исправить результат после его генерации, что делает последовательный вывод JSON очень сложным.

🌟 В то же самое время товарищи из LaminiAI решили эту проблему на корню

Отделение процессов генерации отдельных лексем с помощью машины состояний с поддержкой пакетной обработки, потоковой передачи и KV-кеша — вот что они сделали.
И в результате модель гарантированно выдаёт правильный, валидный JSON

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥54
This media is not supported in your browser
VIEW IN TELEGRAM
Выпущен Moon dream 2!

MD2 - это миниатюрная, быстрая и с открытым исходным кодом модель языка 1.8B parameter vision, для запуска которой требуется менее 5 ГБ памяти.

Проект: https://moondream.ai
Код: https://github.com/vikhyat/moondream
Demo: https://huggingface.co/spaces/vikhyatk/moondream2

@bigdatai
🔥5👍32
🔥 Weights_biases выпустили серию бесплатных курсов, связанных с Lms и искусственным интеллектом.

Вот несколько, которые кажутся интересными:
- https://wandb.courses/courses/take/training-fine-tuning-LLM
- https://wandb.courses/courses/steering-language-models
- https://wandb.courses/courses/enterprise-model-management

@bigdatai
👍62🔥1
🗡 Sensei (先生)

Простой, мощный, инструментдля генерации синтетических данных с использованием Openal, Mistralair или AnthropicAI.

Github

@bigdatai
👍122🔥1🙊1
🖥 SQL Translator - это инструмент для преобразования запросов на естественном языке в SQL-запросы с помощью искусственного интеллекта. Этот проект является 100% бесплатным и с открытым исходным кодом.

git clone https://github.com/whoiskatrin/sql-translator.git

Github
Проект

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14🔥52
🍎 PJRT упрощает интеграцию Apple silicon и ML framework.

Узнайте все о том, как Apple использует порт для ускорения моделей JAX на графических процессорах Apple silicon и AMD, и как вы можете начать работу с PJRT уже сегодня

👉 https://opensource.googleblog.com/2024/03/pjrt-plugin-to-accelerate-machine-learning.html

@bigdatai
👍52🔥1
⚡️ Global Generative AI Landscape 2024 от AlPort

Сообщество дата-саентистов, ML-экспертов и энтузиастов в сфере ИИ выкатили первый список самых заметных GenAI-моделей. Туда вошли сразу две российские генеративные нейросети — YandexGPT и YandexART.

В итоговый анализ попали 128 генеративных модели от 107 компаний. Среди них только 11 компаний, разрабатывающих более одного типа GenAI-моделей: Яндекс, Stability AI, Open AI, Google, Microsoft, Meta, Tencent и Baidu и другие.

▪️ https://habr.com/ru/news/800245/

@bigdatai
🔥4👍32
This media is not supported in your browser
VIEW IN TELEGRAM
Cappy: Outperforming and boosting large multi-task language models with a small scorer

Сегодня Googel представляем Cappy, небольшую предварительно обученную модель оценки, которая улучшает и превосходит производительность больших многозадачных языковых моделей.

Cappy был протестирован на множестве сложных задач с помощью Prompt Source и Big-Bench. Узнайте больше на: https://goo.gle/3Voludr

@bigdatai
👍41🔥1
3👍3🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
⭐️ Проекты с открытым исходным кодом, которые изменили мир

Веб: Node.js, React, Apache
Базы данных: PostgreSQL, Redis, Elasticsearch
Инструменты разработчика: Git, VSCode, Jupyter Notebook
ML и Big Data: Tensorflow, Apache Spark, Kafka
DevOps: Docker, Kubernetes, Linux

@bigdatai
👍12🔥51❤‍🔥1🤮1
📌 Что такое квантизация моделей и зачем она нужна

На Хабре вышла статья, в которой ML-разработчик Яндекса рассказал о квантизации и рассмотрел разные типы данных и современные методы квантизации. Будет полезно не только ML-инженерам, но и всем, кто хочет уметь заставлять модели работать эффективней.

@bigdatai
🔥8👍21