Big Data AI – Telegram

Big Data AI

16.9K subscribers

875 photos

104 videos

19 files

873 links

@haarrp - админ

Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям

@data_analysis_ml - анализ данных

@ai_machinelearning_big_data

@itchannels_telegram - важное для программиста

РКН: clck.ru/3Fmqxe

Download Telegram

About

Blog

Apps

Platform

16.9K subscribers

✍️ Команда Яндекса поделилась процессом обучения модели YandexGPT, пересказывающей видео в Браузере

Некоторые тезисы из публикации на Хабре:
— YandexGPT для пересказа статей не подходит для суммаризации видео: порядок тезисов не всегда совпадает с таймлайном;
— Важные продуктовые требования: адаптация под длину контента и помощь в навигации;
— Два основных критерия для оценки качества модели: качество выделения частей и качество тезисов;
— Сочетание LoRa и fine-tune позволяет эффективно использовать преимущества обоих методов для пересказа видео.

Сама статья

@bigdatai

👍5❤4

3.11K views12:03

⭐️

Гарантированно валидный JSON на выходе от LaminiAI

Вопрос: а вообще, почему структурированный вывод JSON - это так сложно?

LLM, как мы знаем, в основном основаны на архитектуре transformer, которая использует авторегрессивный генератор. Трансформер рассматривает каждое слово как лексему и генерирует одну лексему за раз. LLM не может вернуться назад и исправить результат после его генерации, что делает последовательный вывод JSON очень сложным.

🌟 В то же самое время товарищи из LaminiAI решили эту проблему на корню

Отделение процессов генерации отдельных лексем с помощью машины состояний с поддержкой пакетной обработки, потоковой передачи и KV-кеша — вот что они сделали.
И в результате модель гарантированно выдаёт правильный, валидный JSON

@bigdatai

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8🔥5❤4

3.22K viewsedited 14:31

This media is not supported in your browser

VIEW IN TELEGRAM

Выпущен Moon dream 2!

MD2 - это миниатюрная, быстрая и с открытым исходным кодом модель языка 1.8B parameter vision, для запуска которой требуется менее 5 ГБ памяти.

▪Проект: https://moondream.ai
▪Код: https://github.com/vikhyat/moondream
▪Demo: https://huggingface.co/spaces/vikhyatk/moondream2

@bigdatai

🔥5👍3❤2

2.94K viewsedited 08:08

🔥 Weights_biases выпустили серию бесплатных курсов, связанных с Lms и искусственным интеллектом.

Вот несколько, которые кажутся интересными:
- https://wandb.courses/courses/take/training-fine-tuning-LLM
- https://wandb.courses/courses/steering-language-models
- https://wandb.courses/courses/enterprise-model-management

@bigdatai

👍6❤2🔥1

3.71K views10:02

🗡 Sensei (先生)

Простой, мощный, инструментдля генерации синтетических данных с использованием Openal, Mistralair или AnthropicAI.

▪Github

@bigdatai

👍12❤2🔥1🙊1

3.87K views06:16

🖥

SQL Translator - это инструмент для преобразования запросов на естественном языке в SQL-запросы с помощью искусственного интеллекта. Этот проект является 100% бесплатным и с открытым исходным кодом.

git clone https://github.com/whoiskatrin/sql-translator.git

▪Github
▪Проект

@bigdatai

Please open Telegram to view this post

VIEW IN TELEGRAM

👍14🔥5❤2

3.23K views16:26

The First AI Software Engineer Is Here!

https://www.youtube.com/watch?v=SdZiYRfGdKU

@bigdatai

The First AI Software Engineer Is Here!

❤️ Check out Lambda here and sign up for their GPU Cloud: https://lambdalabs.com/papers

📝 My paper on simulations that look almost like reality is available for free here:
https://rdcu.be/cWPfD

Or this is the orig. Nature Physics link with clickable citations:…

👍3🔥2❤1

2.86K views19:03

🍎 PJRT упрощает интеграцию Apple silicon и ML framework.

Узнайте все о том, как Apple использует порт для ускорения моделей JAX на графических процессорах Apple silicon и AMD, и как вы можете начать работу с PJRT уже сегодня

👉 https://opensource.googleblog.com/2024/03/pjrt-plugin-to-accelerate-machine-learning.html

@bigdatai

👍5❤2🔥1

4.09K views08:22

⚡️ Global Generative AI Landscape 2024 от AlPort

Сообщество дата-саентистов, ML-экспертов и энтузиастов в сфере ИИ выкатили первый список самых заметных GenAI-моделей. Туда вошли сразу две российские генеративные нейросети — YandexGPT и YandexART.

В итоговый анализ попали 128 генеративных модели от 107 компаний. Среди них только 11 компаний, разрабатывающих более одного типа GenAI-моделей: Яндекс, Stability AI, Open AI, Google, Microsoft, Meta, Tencent и Baidu и другие.

▪️ https://habr.com/ru/news/800245/

@bigdatai

🔥4👍3❤2

2.98K views14:51

This media is not supported in your browser

VIEW IN TELEGRAM

⚡ Cappy: Outperforming and boosting large multi-task language models with a small scorer

Сегодня Googel представляем Cappy, небольшую предварительно обученную модель оценки, которая улучшает и превосходит производительность больших многозадачных языковых моделей.

Cappy был протестирован на множестве сложных задач с помощью Prompt Source и Big-Bench. Узнайте больше на: https://goo.gle/3Voludr

@bigdatai

👍4❤1🔥1

3.08K views10:53

💻 Изучайте Математику для Data Science бесплатно с помощью этих бесплатных курсов с Udacity

1. Linear Algebra Refresher Course
2. Intro to Statistics
3. Intro to Inferential Statistics
4. Intro to Descriptive Statistics
5. Eigenvectors and Eigenvalues
6. Intro to Artificial Intelligence
7. Differential Equations in Action

📌 Список

@bigdatai

❤3👍3🔥2

3.19K viewsedited 14:34

This media is not supported in your browser

VIEW IN TELEGRAM

⭐️ Проекты с открытым исходным кодом, которые изменили мир

▪ Веб: Node.js, React, Apache
▪ Базы данных: PostgreSQL, Redis, Elasticsearch
▪ Инструменты разработчика: Git, VSCode, Jupyter Notebook
▪ ML и Big Data: Tensorflow, Apache Spark, Kafka
▪ DevOps: Docker, Kubernetes, Linux

@bigdatai

👍12🔥5❤1❤‍🔥1🤮1

3.37K views10:00

📌 Что такое квантизация моделей и зачем она нужна

На Хабре вышла статья, в которой ML-разработчик Яндекса рассказал о квантизации и рассмотрел разные типы данных и современные методы квантизации. Будет полезно не только ML-инженерам, но и всем, кто хочет уметь заставлять модели работать эффективней.

@bigdatai

🔥8👍2❤1

3.49K views13:35

🔝 Google опубликовали новый датасет изображений состояния кожи (SCIN) в сотрудничестве с врачами StanfordMed.

Он доступен в свободном доступе в качестве ресурса для исследователей, преподавателей и разработчиков

https://blog.research.google/2024/03/scin-new-resource-for-representative.html

@bigdatai

👍12🔥3❤1

3.73K views13:34

🤖 Phi-2 Теперь на #KaggleModels!

Phi-2 - это языковая модель с 2,7 миллиардами параметров, которая демонстрирует выдающиеся способности к рассуждению и пониманию языка.

https://www.kaggle.com/models/Microsoft/phi

@bigdatai

Textbooks Are All You Need

👍9🔥4❤2

3.68K views06:54

ComCLIP: Training-Free Compositional Image and Text Matching

📄 Paper: https://arxiv.org/abs/2211.13854
🌐 Project: https://sites.google.com/view/comclip
🛠️ Code/Data: https://github.com/eric-ai-lab/ComCLIP (

@bigdatai

👍3❤2🔥1

3.3K views10:10

This media is not supported in your browser

VIEW IN TELEGRAM

🌟

Нейросеть NVIDIA LATTE3D создаёт модели для 3D-принтера по текстовому описанию

⏩Компания NVIDIA представила новую генеративную ИИ-модель модель под названием LATTE3D. Разработчики позиционируют её как скоростной виртуальный 3D-принтер — она способна создавать трёхмерные объекты по текстовому описанию менее чем за секунду.

⏩LATTE3D создаёт 3D-модели в популярном формате, который используется для стандартных приложений рендеринга и применим в разработке видеоигр, рекламы, дизайн-проектов, а также в большинстве VR- и AR-приложений. Само по себе такое решение не ново, однако преимуществом ИИ-модели NVIDIA над другими проектами стала очень высокая скорость генерации.

⏩Согласно внутренним тестам компании, другим ИИ-моделям для создания готового результата требуется от 20 секунд до более 30 минут, в то время как LATTE3D справляется с задачей в среднем за 400 мс. Пока что разработчики научили LATTE3D генерировать только повседневные предметы и животных, но при наличии подходящих наборов данных портфолио модели можно расширить.

⏩Фирменный ИИ был обучен с использованием графических процессоров NVIDIA A100 Tensor Core, а его демоверсия работает на сборке с видеокартой NVIDIA RTX A6000.
Сейчас NVIDIA LATTE3D всё ещё находится в стадии разработки. О сроках выпуска общедоступной версии сервиса информации пока нет.

@bigdatai

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤2💩1

3.13K viewsedited 09:25

🚀 Intel предствавили полностью интегрированные многослойные персептроны на графических процессорах Intel для центров обработки данных

Intel Max 1550 превосходит графический процессор H100 в 2,84 раза при выводе и в 1,75 раза при обучении

https://arxiv.org/abs/2403.17607

@bigdatai

🔥5❤1

2.72K views08:02

Forwarded from Machinelearning

🌍 𝗠𝗮𝗷𝗼𝗿 𝗧𝗢𝗠: 𝗣𝗹𝗮𝗻𝗲𝘁 𝗘𝗮𝗿𝘁𝗵 𝗶𝘀 𝗯̶𝗹̶𝘂̶𝗲̶ 𝟱.𝟰𝟬𝟱 𝗚𝗛𝘇

MajorTom-Core-S1RTC новый стандарт изображений со спутников и датасет, который содержит 1 469 955 снимков.

16 ТБ радиометрически откалиброванных изображений.

▪HF: https://huggingface.co/Major-TOM
▪Github: https://github.com/ESA-PhiLab/Major-TOM/
▪Colab: https://colab.research.google.com/github/ESA-PhiLab/Major-TOM/blob/main/03-Filtering-in-Colab.ipynb
▪Paper: https://www.arxiv.org/abs/2402.12095
▪MajorTOM-Core-Viewer: https://huggingface.co/spaces/Major-TOM/MajorTOM-Core-Viewer

@ai_machinelearning_big_data

🔥8👍2❤1

2.51K views13:55

⚡️ Обнаружение текста, сгенерированного искусственным интеллектом

Исследователи изучили влияние ChatGPT на экспертные оценки конференций по искусственному интеллекту, подтвердив то, что мы все знали

статья: https://arxiv.org/pdf/2403.07183.pdf

@bigdatai

👍4🔥3❤1

2.83K views08:03