🔥 Выпуск Mistral Large! Новый флагманский LLM.
Он превосходит GPT3.5 и LLaMa 2 70B во всех бенчмарках.
- Свободно владеет английским, французским, испанским, немецким и итальянским языками
- Контекстное окно на 32 тыс. лексем
- точное следование инструкциям
- встроенная возможность вызова функций
▪Дополнительная информация: https://mistral.ai/news/mistral-large/
▪Попробовать можно здесь: https://chat.mistral.ai
@bigdatai
Он превосходит GPT3.5 и LLaMa 2 70B во всех бенчмарках.
- Свободно владеет английским, французским, испанским, немецким и итальянским языками
- Контекстное окно на 32 тыс. лексем
- точное следование инструкциям
- встроенная возможность вызова функций
▪Дополнительная информация: https://mistral.ai/news/mistral-large/
▪Попробовать можно здесь: https://chat.mistral.ai
@bigdatai
🔥8👍4❤1😁1🤝1
⚡️ Training Neural Networks From Scratch with Parallel Low-Rank Adapters
Предварительное обучение с нуля с помощью LoRA на нескольких GPU.
Статья: https://arxiv.org/abs/2402.16828
Проект: https://minyoungg.github.io/LTE/
@bigdatai
Предварительное обучение с нуля с помощью LoRA на нескольких GPU.
Статья: https://arxiv.org/abs/2402.16828
Проект: https://minyoungg.github.io/LTE/
@bigdatai
❤6
⚡️ Microsoft опубликовали статью Towards Optimal Learning of Language Models
В данной работе изучаются общие принципы улучшения обучения языковых моделей (ЯМ), целью которых является сокращение необходимых шагов обучения для достижения высокой производительности.
В частности представлена теорию оптимального обучения ЛМ. Цель оптимизация обучение ЛМ путем максимизации коэффициента сжатия данных в представлении "
Авторы выводят теорему, названную законом обучения, которая раскрывает свойства динамики в процессе оптимального обучения.
Теорема подтверждается экспериментами на линейной классификации и реальной задаче моделирования языка.
Наконец, авторы эмпирически доказывают, что оптимальное обучение LM в основном связано с улучшением коэффициентов в законе масштабирования LM, что указывает на большие перспективы и значение для разработки практических методов ускорения обучения.
https://huggingface.co/papers/2402.17759
@bigdatai
В данной работе изучаются общие принципы улучшения обучения языковых моделей (ЯМ), целью которых является сокращение необходимых шагов обучения для достижения высокой производительности.
В частности представлена теорию оптимального обучения ЛМ. Цель оптимизация обучение ЛМ путем максимизации коэффициента сжатия данных в представлении "
LM-training-as-lossless-compression
". Авторы выводят теорему, названную законом обучения, которая раскрывает свойства динамики в процессе оптимального обучения.
Теорема подтверждается экспериментами на линейной классификации и реальной задаче моделирования языка.
Наконец, авторы эмпирически доказывают, что оптимальное обучение LM в основном связано с улучшением коэффициентов в законе масштабирования LM, что указывает на большие перспективы и значение для разработки практических методов ускорения обучения.
https://huggingface.co/papers/2402.17759
@bigdatai
🔥8❤2🥰1
⚡️ Новый мультимодальный arXiv: Датасет для улучшения научного понимания больших моделей языка визуализации
proj: https://mm-arxiv.github.io
abs: https://arxiv.org/abs/2403.00231
@bigdatai
proj: https://mm-arxiv.github.io
abs: https://arxiv.org/abs/2403.00231
@bigdatai
❤3👍3🔥2
✍️ Команда Яндекса поделилась процессом обучения модели YandexGPT, пересказывающей видео в Браузере
Некоторые тезисы из публикации на Хабре:
— YandexGPT для пересказа статей не подходит для суммаризации видео: порядок тезисов не всегда совпадает с таймлайном;
— Важные продуктовые требования: адаптация под длину контента и помощь в навигации;
— Два основных критерия для оценки качества модели: качество выделения частей и качество тезисов;
— Сочетание LoRa и fine-tune позволяет эффективно использовать преимущества обоих методов для пересказа видео.
Сама статья
@bigdatai
Некоторые тезисы из публикации на Хабре:
— YandexGPT для пересказа статей не подходит для суммаризации видео: порядок тезисов не всегда совпадает с таймлайном;
— Важные продуктовые требования: адаптация под длину контента и помощь в навигации;
— Два основных критерия для оценки качества модели: качество выделения частей и качество тезисов;
— Сочетание LoRa и fine-tune позволяет эффективно использовать преимущества обоих методов для пересказа видео.
Сама статья
@bigdatai
👍5❤4
Вопрос: а вообще, почему структурированный вывод JSON - это так сложно?
LLM, как мы знаем, в основном основаны на архитектуре
transformer
, которая использует авторегрессивный генератор. Трансформер рассматривает каждое слово как лексему и генерирует одну лексему за раз. LLM не может вернуться назад и исправить результат после его генерации, что делает последовательный вывод JSON очень сложным.Отделение процессов генерации отдельных лексем с помощью машины состояний с поддержкой пакетной обработки, потоковой передачи и KV-кеша — вот что они сделали.
И в результате модель гарантированно выдаёт правильный, валидный JSON
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥5❤4
This media is not supported in your browser
VIEW IN TELEGRAM
Выпущен Moon dream 2!
MD2 - это миниатюрная, быстрая и с открытым исходным кодом модель языка 1.8B parameter vision, для запуска которой требуется менее 5 ГБ памяти.
▪Проект: https://moondream.ai
▪Код: https://github.com/vikhyat/moondream
▪Demo: https://huggingface.co/spaces/vikhyatk/moondream2
@bigdatai
MD2 - это миниатюрная, быстрая и с открытым исходным кодом модель языка 1.8B parameter vision, для запуска которой требуется менее 5 ГБ памяти.
▪Проект: https://moondream.ai
▪Код: https://github.com/vikhyat/moondream
▪Demo: https://huggingface.co/spaces/vikhyatk/moondream2
@bigdatai
🔥5👍3❤2
🔥 Weights_biases выпустили серию бесплатных курсов, связанных с Lms и искусственным интеллектом.
Вот несколько, которые кажутся интересными:
- https://wandb.courses/courses/take/training-fine-tuning-LLM
- https://wandb.courses/courses/steering-language-models
- https://wandb.courses/courses/enterprise-model-management
@bigdatai
Вот несколько, которые кажутся интересными:
- https://wandb.courses/courses/take/training-fine-tuning-LLM
- https://wandb.courses/courses/steering-language-models
- https://wandb.courses/courses/enterprise-model-management
@bigdatai
👍6❤2🔥1
запросов на естественном языке в SQL
-запросы с помощью искусственного интеллекта. Этот проект является 100% бесплатным и с открытым исходным кодом.git clone https://github.com/whoiskatrin/sql-translator.git
▪Github
▪Проект
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14🔥5❤2
🍎 PJRT упрощает интеграцию Apple silicon и ML framework.
Узнайте все о том, как Apple использует порт для ускорения моделей JAX на графических процессорах Apple silicon и AMD, и как вы можете начать работу с PJRT уже сегодня
👉 https://opensource.googleblog.com/2024/03/pjrt-plugin-to-accelerate-machine-learning.html
@bigdatai
Узнайте все о том, как Apple использует порт для ускорения моделей JAX на графических процессорах Apple silicon и AMD, и как вы можете начать работу с PJRT уже сегодня
👉 https://opensource.googleblog.com/2024/03/pjrt-plugin-to-accelerate-machine-learning.html
@bigdatai
👍5❤2🔥1
⚡️ Global Generative AI Landscape 2024 от AlPort
Сообщество дата-саентистов, ML-экспертов и энтузиастов в сфере ИИ выкатили первый список самых заметных GenAI-моделей. Туда вошли сразу две российские генеративные нейросети — YandexGPT и YandexART.
В итоговый анализ попали 128 генеративных модели от 107 компаний. Среди них только 11 компаний, разрабатывающих более одного типа GenAI-моделей: Яндекс, Stability AI, Open AI, Google, Microsoft, Meta, Tencent и Baidu и другие.
▪️ https://habr.com/ru/news/800245/
@bigdatai
Сообщество дата-саентистов, ML-экспертов и энтузиастов в сфере ИИ выкатили первый список самых заметных GenAI-моделей. Туда вошли сразу две российские генеративные нейросети — YandexGPT и YandexART.
В итоговый анализ попали 128 генеративных модели от 107 компаний. Среди них только 11 компаний, разрабатывающих более одного типа GenAI-моделей: Яндекс, Stability AI, Open AI, Google, Microsoft, Meta, Tencent и Baidu и другие.
▪️ https://habr.com/ru/news/800245/
@bigdatai
🔥4👍3❤2
This media is not supported in your browser
VIEW IN TELEGRAM
⚡ Cappy: Outperforming and boosting large multi-task language models with a small scorer
Сегодня Googel представляем Cappy, небольшую предварительно обученную модель оценки, которая улучшает и превосходит производительность больших многозадачных языковых моделей.
Cappy был протестирован на множестве сложных задач с помощью Prompt Source и Big-Bench. Узнайте больше на: https://goo.gle/3Voludr
@bigdatai
Сегодня Googel представляем Cappy, небольшую предварительно обученную модель оценки, которая улучшает и превосходит производительность больших многозадачных языковых моделей.
Cappy был протестирован на множестве сложных задач с помощью Prompt Source и Big-Bench. Узнайте больше на: https://goo.gle/3Voludr
@bigdatai
👍4❤1🔥1
💻 Изучайте Математику для Data Science бесплатно с помощью этих бесплатных курсов с Udacity
1. Linear Algebra Refresher Course
2. Intro to Statistics
3. Intro to Inferential Statistics
4. Intro to Descriptive Statistics
5. Eigenvectors and Eigenvalues
6. Intro to Artificial Intelligence
7. Differential Equations in Action
📌 Список
@bigdatai
1. Linear Algebra Refresher Course
2. Intro to Statistics
3. Intro to Inferential Statistics
4. Intro to Descriptive Statistics
5. Eigenvectors and Eigenvalues
6. Intro to Artificial Intelligence
7. Differential Equations in Action
📌 Список
@bigdatai
❤3👍3🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
⭐️ Проекты с открытым исходным кодом, которые изменили мир
▪ Веб: Node.js, React, Apache
▪ Базы данных: PostgreSQL, Redis, Elasticsearch
▪ Инструменты разработчика: Git, VSCode, Jupyter Notebook
▪ ML и Big Data: Tensorflow, Apache Spark, Kafka
▪ DevOps: Docker, Kubernetes, Linux
@bigdatai
▪ Веб: Node.js, React, Apache
▪ Базы данных: PostgreSQL, Redis, Elasticsearch
▪ Инструменты разработчика: Git, VSCode, Jupyter Notebook
▪ ML и Big Data: Tensorflow, Apache Spark, Kafka
▪ DevOps: Docker, Kubernetes, Linux
@bigdatai
👍12🔥5❤1❤🔥1🤮1
📌 Что такое квантизация моделей и зачем она нужна
На Хабре вышла статья, в которой ML-разработчик Яндекса рассказал о квантизации и рассмотрел разные типы данных и современные методы квантизации. Будет полезно не только ML-инженерам, но и всем, кто хочет уметь заставлять модели работать эффективней.
@bigdatai
На Хабре вышла статья, в которой ML-разработчик Яндекса рассказал о квантизации и рассмотрел разные типы данных и современные методы квантизации. Будет полезно не только ML-инженерам, но и всем, кто хочет уметь заставлять модели работать эффективней.
@bigdatai
🔥8👍2❤1
🔝 Google опубликовали новый датасет изображений состояния кожи (SCIN) в сотрудничестве с врачами StanfordMed.
Он доступен в свободном доступе в качестве ресурса для исследователей, преподавателей и разработчиков
https://blog.research.google/2024/03/scin-new-resource-for-representative.html
@bigdatai
Он доступен в свободном доступе в качестве ресурса для исследователей, преподавателей и разработчиков
https://blog.research.google/2024/03/scin-new-resource-for-representative.html
@bigdatai
👍12🔥3❤1
🤖 Phi-2 Теперь на #KaggleModels!
Phi-2 - это языковая модель с 2,7 миллиардами параметров, которая демонстрирует выдающиеся способности к рассуждению и пониманию языка.
https://www.kaggle.com/models/Microsoft/phi
@bigdatai
Phi-2 - это языковая модель с 2,7 миллиардами параметров, которая демонстрирует выдающиеся способности к рассуждению и пониманию языка.
https://www.kaggle.com/models/Microsoft/phi
@bigdatai
Kaggle
Phi
Textbooks Are All You Need
👍9🔥4❤2