Forwarded from Machinelearning
В Яндексе подробно рассказали про новую технологию, которую стали использовать в Яндекс Погоде. OmniCast работает на основе нейросетей, которые рассчитывают температуру воздуха, учитывая множество факторов, в том числе один совершенно новый — любительские метеостанции.
OmniCast помогает решать проблему точности прогноза в разных локальных районах мегаполисов. Подробнее про то, как работает метод, написано в статье.
▪️Хабр
@ai_machinelearning_big_data
#AI #ML #OmniCast
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤3🔥1
⚡️ A new model has been released in Llama3-Speech, that can natively understand audio and text input.
This multimodal checkpoint with improved speech understanding, listens to human speech and responds in text
Llama3s v0.2 consistently performs across multiple Speech Understanding benchmarks.
They adapted llama3.1 using early-fusion with semantic tokens.
It uses whispervq to get semantic tokens. encoder is frozen during training, only llama3 base is trained.
So the devs used a synthetically generated speech dataset. This speech data is then semantically encoded with WhisperVQ from WhisperSpeech.
This dataset was then interleaved to have 70% speech instruction prompts and 30% speech transcription prompts.
You can try the demo and ask questions in English and keep them under 10 seconds long. This is due to our model's limitation in being trained on audio prompts with fewer than 500 tokens, which the developers plan to address in a future update.
https://huggingface.co/homebrewltd/llama3.1-s-instruct-v0.2
homebrew.ltd/blog/llama3-just-got-ears
@opendatascience
#llama
This multimodal checkpoint with improved speech understanding, listens to human speech and responds in text
Llama3s v0.2 consistently performs across multiple Speech Understanding benchmarks.
They adapted llama3.1 using early-fusion with semantic tokens.
It uses whispervq to get semantic tokens. encoder is frozen during training, only llama3 base is trained.
So the devs used a synthetically generated speech dataset. This speech data is then semantically encoded with WhisperVQ from WhisperSpeech.
This dataset was then interleaved to have 70% speech instruction prompts and 30% speech transcription prompts.
You can try the demo and ask questions in English and keep them under 10 seconds long. This is due to our model's limitation in being trained on audio prompts with fewer than 500 tokens, which the developers plan to address in a future update.
https://huggingface.co/homebrewltd/llama3.1-s-instruct-v0.2
homebrew.ltd/blog/llama3-just-got-ears
@opendatascience
#llama
huggingface.co
Menlo/llama3-s-instruct-v0.2 · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
🔥12👍6❤1
Forwarded from AbstractDL
To Code, or Not To Code? Насколько важны данные с кодом в претрейне LLM? (by Cohere)
Да, код нужен, и очень сильно. На самом деле уже довольно давно был консенсус на этот счёт, но подробно влияние кода не изучали.
Теперь можно ставить точку в этом вопросе — в Cohere проделали очень подробный ablation study: данные с кодом улучшают не только кодинг и ризонинг, но и даже world knowledge! То есть после их добавления в претрейн модели лучше запоминают текстовые знания.
Статья
Да, код нужен, и очень сильно. На самом деле уже довольно давно был консенсус на этот счёт, но подробно влияние кода не изучали.
Теперь можно ставить точку в этом вопросе — в Cohere проделали очень подробный ablation study: данные с кодом улучшают не только кодинг и ризонинг, но и даже world knowledge! То есть после их добавления в претрейн модели лучше запоминают текстовые знания.
Статья
👍13❤5🔥2
Qwen2 joins the multimodal race!
2-VL is a new multimodal LLM and comes in two sizes: 2B for on-device usage and 7B under Apache 2.0!
Qwen2 7B VL shows matching performance to GPT-4o mini across different benchmarks!
🧮 Comes in 2 sizes, 2B (2.2B) and 7B (8.3B) using a Vision Encoder
🎥 Can understand videos over 20 minutes for video-based question-answering
🖼️ Qwen2 7B VL around GPT-4o mini performance on VLM Benchmarks
🌍 Multilingual, including most European languages, Japanese, Korean, Arabic, and Vietnamese
📝 Improved OCR and handwritten text extraction
🤗 Available on
@huggingface
🔓 Released under Apache 2.0
🔄 Dynamic image resolutions and M-ROPE (Multimodal Rotary Position Embedding)
Blog: https://qwenlm.github.io/blog/qwen2-vl/
Models: https://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d7126940800d
@opendatascience
2-VL is a new multimodal LLM and comes in two sizes: 2B for on-device usage and 7B under Apache 2.0!
Qwen2 7B VL shows matching performance to GPT-4o mini across different benchmarks!
🧮 Comes in 2 sizes, 2B (2.2B) and 7B (8.3B) using a Vision Encoder
🎥 Can understand videos over 20 minutes for video-based question-answering
🖼️ Qwen2 7B VL around GPT-4o mini performance on VLM Benchmarks
🌍 Multilingual, including most European languages, Japanese, Korean, Arabic, and Vietnamese
📝 Improved OCR and handwritten text extraction
🤗 Available on
@huggingface
🔓 Released under Apache 2.0
🔄 Dynamic image resolutions and M-ROPE (Multimodal Rotary Position Embedding)
Blog: https://qwenlm.github.io/blog/qwen2-vl/
Models: https://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d7126940800d
@opendatascience
🔥9👍6❤1
Forwarded from Yandex for Developers
The International Conference on Machine Learning — одна из крупнейших международных конференций по машинному обучению.
Подписывайтесь:
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11🤡5👍4🤷♂1🌚1
An open source UI to train your own Flux LoRA just landed on Hugging Face 🚀 Also, probably the easiest and cheapest (local training also supported).
https://huggingface.co/spaces/autotrain-projects/train-flux-lora-ease
#Flux #LoRA
@opendatascience
https://huggingface.co/spaces/autotrain-projects/train-flux-lora-ease
#Flux #LoRA
@opendatascience
❤7🔥3👍2
Forwarded from Machinelearning
Microsoft Research обновил AutoGen Studio — Low-Code инструмент для разработчиков , предназначенный для создания, отладки и оценки многоагентных рабочих процессов.
AutoGen Studio разработан для повышения доступности среды управления локальным AI, позволяя разработчикам прототипировать и внедрять многоагентные системы без необходимости обширных знаний в области ML.
AutoGen Studio это веб-интерфейс и API Python. Он гибкий в использовании и его легко можно интегрировать его в различные среды разработки. Простой и понятный дизайн позволяет быстро собирать многоагентные системы с помощью удобного интерфейса drag-n-drop.
AutoGen Studio поддерживает API всех популярных онлайн-провейдеров LLM (OpenAI, Antрropic, Gemini, Groq, Amazon Bedrock, Corehe, MistralAI, TogetherAI ) и локальные бэкэнды :
vLLM, Ollama, LM Studio.
Возможности :
Roadmap для отслеживания новых функций, решенных проблем и запросов от сообщества разработчиков можно найти в Issues репозитория AutoGen Studio на Github.
⚠️ Примечания от разработчика:
🟠 AutoGen Studio не предназначен для использования в качестве готового к продакшену приложения. Это среда прототипирования и разработки процессов и агентов.🟠 AutoGen Studio находится в стадии активной разработки с частыми итерациями коммитов. Документация проекта обновляется синхронно с кодом.🟠 Системные требования к установке: Python 3.10+ и Node.js => 14.15.0.
@ai_machinelearning_big_data
#AI #AgentsWorkflow #MLTool #Microsoft #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥4❤2
This media is not supported in your browser
VIEW IN TELEGRAM
🔥Introducing MLR-Copilot: autonomous machine learning research with LLM agents, which
→ generate research ideas
→ implement experiments
→ execute implementation with human feedback
📑Paper https://arxiv.org/abs/2408.14033
🔨Code https://github.com/du-nlp-lab/MLR-Copilot
🤗Demo https://huggingface.co/spaces/du-lab/MLR-Copilot
@opendatascience
→ generate research ideas
→ implement experiments
→ execute implementation with human feedback
📑Paper https://arxiv.org/abs/2408.14033
🔨Code https://github.com/du-nlp-lab/MLR-Copilot
🤗Demo https://huggingface.co/spaces/du-lab/MLR-Copilot
@opendatascience
👍9❤4🔥2