Эта свежая бесплатная книга (и отлично чтиво на выходные) по LLM, которая только что появилась на arXiv.
Более 230+ страниц!
Книга состоит из четырех частей: предварительному обучению, генеративным моделям, промпт-инжинирингу и методам оптимизации LLM.
Это хорошее введение в большие языковые модели для разработчиков и студентов.
📌 Читать
@ai_machinelearning_big_data
#freebook #book #machinelearning #llm #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍68🔥24❤14👾2
Флагманская модель AceMath-72B-Instruct выглядит лучше Qwen2.5-Math-72B и превосходит GPT-4o и Claude-3.5 Sonnet в области решения математических задач.
В открытом доступе выложили модели обучения, модели вознаграждения, полные наборы датасетов и бенчмарки: 🤗 HF: https://huggingface.co/collections/nvidia/acemath-678917d12f09885479d549fe
📄 Статья: https://arxiv.org/pdf/2412.15084
@ai_machinelearning_big_data
#math #nvidia #opensource #llm #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍61🔥15❤9
- VideoChat2-Flash, мощный MLLM, построенный на базе видеокодера (UMT) и LLM (Qwen).
Внутри новая высокоэффективная архитектура модели с исключительной скоростью инференса, которая позволяет кодировать каждый видеокадр всего в 16 токенов, что в 5-10 раз быстрее, чем в предыдущей модели OpenGVLab.
Модели представлены в размерах 2B и 7B и разрешении 224 и 448.
- BytedanceTalk выпустил модель SA2VA с параметрами 26B.
Sa2VA - это MLM, способный отвечать на вопросы, понимать изображения и видео выполнять сегментацию. Модель, сопоставима с SOTA моделями в своем классе Qwen2-VL и InternVL2.5 в QA тестах.
- VRC-Bench - это новый бенчмарк для оценки эффективности мультимодальных LLM.
- MiniCPM-o 2.6 - это новая мультимодальная модель с 8B параметрами, работающая на edge девайсах. Лучшая в своем классе возможности двуязычной речи с разговором в реальном времени и клонированием голоса.
💬 LLM
- MiniMax-Text-01 - новая языковая модель, которая стабильно обходит GPT-4o и Gemini-2 на бенчмарках с длинным контекстом, сохраняя высокие оценки (0.910-0.963) при длине контекста до 4M токенов🤯
- Датасет: Sky-T1-data-17k - это разнообразный набор данных, используемый для обучения Sky-T1-32B - ризонинг модели, которую можно обучить всего за 450 долларов!
- Kyutai labs выпустили Helium-1 Preview 2B - многоязычный LLM для edge девайсов и мобильных устройств.
- Wayfarer-12B - новая модель генерации текстовой приключенческой ролевой игры от AI Dungeon🧙🏻
- ReaderLM-v2 - это новая модель синтаксического анализа HTML от JinaAI.
- Вriaforall выпустила Dria-Agent-a-3B, новую модель генерации кода (для Python), основанную на Qwen2.5.
- UnslothAI адаптировали Phi-4 к архитектуре Llama 3.3 сделав, более быструю и экономичную по памяти версию.
👀 Vision
- MatchAnything - это новая универсальная модель для сопоставления изображений.
- FitDit - это высококачественная модель виртуальной примерочной, основанная на архитектуре DiT.
⭐️ Аудио
- OuteTTS-0.3-1B - это новая многоязычная модель преобразования текста в речь с возможностью клонирования голоса и управления эмоциями.
📖 Поиск
- Lightblue выпустила новую модель для поиска связи в тексте, основанную на Qwen2.5. LB-reranker-0.5B-v1.0, которая поддерживает более 95 языков
- cde-small-v2 - это новая SOTA модель эмбедингов текста небольшого размера.
LeetGPU - бесплатная платформа для написания и запуска кода на CUDA.
Вы можете практиковаться и изучать CUDA онлайн, без использования графического процессора!
@ai_machinelearning_big_data
#ml #digest #datasets #opensource #ai #llm #news
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍54🔥12❤7🦄2
В нем содержится все, что вам нужно знать:
> Описание агентов, компонентов и когнитивных архитектур.
> Разобраны инструменты по работе с агентами: расширения, написании функций и хранилища данных.
> Описываются методы обучения для повышения производительности агентов.
> Описываются методы создания агентов с использованием LangChain и LangGraph
▪ Читать гайд
@ai_machinelearning_big_data
#aiagents #ai #llm #ml #machinelearning
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤55👍21🔥17❤🔥3👏1👀1
🚀Только что выпущено новое семейство моделей генерации кода Salesforce (SFR-Embedding-Code), занявшее 1-е место на бенчмарке CoIR!
Модель доступна в в 2-х размерах: 2B, 400M.
Основные характеристики:
1️⃣ Модель 2B: Занимает первое место в CoIR.
2️⃣ Модель 400M: демонстрирует лучшие показатели среди моделей на 0,5B параметров.
3️⃣ Поддерживает 12 языков программирования,
Пример Запуска:
✅Документация
✅Модель 400M
✅ Модель 2B
📌Лицензирование моделей: CC-BY-NC-SA-4.0 License.
@ai_machinelearning_big_data
#CodeAI #MLResearch #SOTA #OpenScience #code #llm #ml
Модель доступна в в 2-х размерах: 2B, 400M.
Основные характеристики:
1️⃣ Модель 2B: Занимает первое место в CoIR.
2️⃣ Модель 400M: демонстрирует лучшие показатели среди моделей на 0,5B параметров.
3️⃣ Поддерживает 12 языков программирования,
Python, Java, C++, JavaScript, C#
и другие!Пример Запуска:
import torch.nn.functional as F
from transformers import AutoTokenizer, AutoModel
# Each query needs to be accompanied by an corresponding instruction describing the task.
query_instruction_example = "Given Code or Text, retrieval relevant content"
queries = [
"how to implement quick sort in Python?"
]
# No instruction needed for retrieval passages
passages = [
"def quick_sort(arr):\n if len(arr) <= 1:\n return arr\n pivot = arr[len(arr) // 2]\n left = [x for x in arr if x < pivot]\n middle = [x for x in arr if x == pivot]\n right = [x for x in arr if x > pivot]\n return quick_sort(left) + middle + quick_sort(right)",
"def bubble_sort(arr):\n n = len(arr)\n for i in range(n):\n for j in range(0, n-i-1):\n if arr[j] > arr[j+1]:\n arr[j], arr[j+1] = arr[j+1], arr[j]\n return arr"
]
# load model with tokenizer
model = AutoModel.from_pretrained('Salesforce/SFR-Embedding-Code-2B_R', trust_remote_code=True)
# get the embeddings
max_length = 32768
query_embeddings = model.encode_queries(queries, instruction=query_instruction_example, max_length=max_length)
passage_embeddings = model.encode_corpus(passages, max_length=max_length)
# normalize embeddings
query_embeddings = F.normalize(query_embeddings, p=2, dim=1)
passage_embeddings = F.normalize(passage_embeddings, p=2, dim=1)
scores = (query_embeddings @ passage_embeddings.T) * 100
print(scores.tolist())
✅Документация
✅Модель 400M
✅ Модель 2B
📌Лицензирование моделей: CC-BY-NC-SA-4.0 License.
@ai_machinelearning_big_data
#CodeAI #MLResearch #SOTA #OpenScience #code #llm #ml
❤39👍22🔥9
Запланировал закрытый брифинг для официальных лиц правительства США в Вашингтоне 30 января, на котором выступит Сэм Альтман.
- Специалисты в области искусственного интеллекта считают, что грядет большой прорыв в создании суперагентов уровня PHD." ...
Журналисты заявляют, что - "Сотрудники OpenAI рассказывали друзьям, что они одновременно и восхищены, и напуганы столь быстрым прогрессом".
📌 Подробнее
PS: Хайп в Твиттере снова вышел из-под контроля.
"Мы не Выпусти ИИ уровня AGI в следующем месяце, да мы его и не создавали.
У нас есть для вас кое-что очень интересное, но, пожалуйста, опустите пенку своих ожиданий и сократите их в 100 раз! " - написал Сэм Альтман
@ai_machinelearning_big_data
#openai #chatgpt #aiagents
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍60🤔42❤8🫡8🔥5😁4❤🔥3🤨3🗿2😨1
🚨Только что были выпущены веса для новой ризонинг модели DeepSeek-R1.
Модель 685B разработана чтобы конкурировать с o1 от OpenAI и построена на архитектуре на DeepSeek V3.
Вы можете потестить ее на 8 * H200.
Размер примерно ~720GB.
UPDATE: эти гигачады выпустили сразу 6 моделей от 1.5B до 70B 🔥
DeepSeek-R1-Distill-Qwen-1.5B превосходит GPT-4o и Claude-3.5-Sonnet в математике, набрав 28,9% у AIMEE и 83,9%, стоимость примерно в 30 раз дешевле, чем o1 и примерно в 5 раз дешевле o1 mini.
🤗HF: https://huggingface.co/deepseek-ai/DeepSeek-R1/tree/main
📌Потестить: https://chat.deepseek.com/sign_in
🖥 GitHub: https://github.com/deepseek-ai/DeepSeek-R1
@ai_machinelearning_big_data
#DeepSeek #deepseekv3 #reasoning #ml
Модель 685B разработана чтобы конкурировать с o1 от OpenAI и построена на архитектуре на DeepSeek V3.
Вы можете потестить ее на 8 * H200.
Размер примерно ~720GB.
UPDATE: эти гигачады выпустили сразу 6 моделей от 1.5B до 70B 🔥
DeepSeek-R1-Distill-Qwen-1.5B превосходит GPT-4o и Claude-3.5-Sonnet в математике, набрав 28,9% у AIMEE и 83,9%, стоимость примерно в 30 раз дешевле, чем o1 и примерно в 5 раз дешевле o1 mini.
🤗HF: https://huggingface.co/deepseek-ai/DeepSeek-R1/tree/main
📌Потестить: https://chat.deepseek.com/sign_in
@ai_machinelearning_big_data
#DeepSeek #deepseekv3 #reasoning #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥45👍28❤10😁8👏2👾1
This media is not supported in your browser
VIEW IN TELEGRAM
🤗 Hugging Face не так давно выпустила собственную low-code библиотеку для просто создания ИИ- агентов ⚡️
Smolagents - это библиотека на 100% с открытым исходным кодом, которая позволяет запускать мощные агенты, используя всего три строки кода.
↳ Импортируйте необходимые модули.
↳ Выберите агента
↳ Укажите LLM и инструменты, к которым он должен получить доступ.
↳ Запустите агент!
Готово!
- Поддерживает более 40 LLM
- Предоставляет один общий доступ к инструментам HF Hub.
- CodeAgent, который создает код и документирует свои действия.
Установка:
Пример работы:
▪ GitHub
▪Подробнее
@ai_machinelearning_big_data
#codegen #llm #huggingface #ai #Smolagents
Smolagents - это библиотека на 100% с открытым исходным кодом, которая позволяет запускать мощные агенты, используя всего три строки кода.
↳ Импортируйте необходимые модули.
↳ Выберите агента
↳ Укажите LLM и инструменты, к которым он должен получить доступ.
↳ Запустите агент!
Готово!
- Поддерживает более 40 LLM
- Предоставляет один общий доступ к инструментам HF Hub.
- CodeAgent, который создает код и документирует свои действия.
Установка:
pip install smolagents
Пример работы:
from smolagents import CodeAgent, DuckDuckGoSearchTool, HfApiModel
agent = CodeAgent(tools=[DuckDuckGoSearchTool()], model=HfApiModel())
agent.run("How many seconds would it take for a leopard at full speed to run through Pont des Arts?")
▪ GitHub
▪Подробнее
@ai_machinelearning_big_data
#codegen #llm #huggingface #ai #Smolagents
👍82🔥22❤17
Оказывается, вам просто нужно правильно стимулировать модель.
Читой воды обучение с подкреплением (RL) может научить модель думать и рефлексировать.
Мы возвращаемся в эпоху AlphaGo: играя в бесчисленные партии Go и максимально увеличивая функцию вознаграждения (выигрыш в игре), используя чистый RL, AlphaGo научился побеждать лучших игроков мира.
Похоже это будет эра LLM RL.
📕 Paper
@ai_machinelearning_big_data
#DeepSeek #deepseekr1 #reasoning #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥114👍28❤16🤔7🤣6😨3
👑 Вчера была выпущена еще одна интересная китайская опенсорс модель ризонинга.
Kimi представила Kimi k1.5 - мультимодальную модель, использующую обучение с подкреплением с длинной и короткой цепочкой размышления (CoT).
- Контекст 128 тыс. токенов
- Согласно их опубликованному отчету, они достигли производительности SOTA в таких тестах, как AIME (77,5), MATH-500 (96,2) и LiveCodeBench (47,3).
→ Производительность Long-CoT соответствует o1 в нескольких тестах: Math Vista, Codeforces и т.д)
- Модель превосходит GPT-4o и Claude Sonnet 3.5 на AIME
⚡️ Технический отчет: https://github.com/MoonshotAI/Kimi-k1.5
#llm #reasoning #ml #Kimi #preview
Kimi представила Kimi k1.5 - мультимодальную модель, использующую обучение с подкреплением с длинной и короткой цепочкой размышления (CoT).
- Контекст 128 тыс. токенов
- Согласно их опубликованному отчету, они достигли производительности SOTA в таких тестах, как AIME (77,5), MATH-500 (96,2) и LiveCodeBench (47,3).
→ Производительность Long-CoT соответствует o1 в нескольких тестах: Math Vista, Codeforces и т.д)
- Модель превосходит GPT-4o и Claude Sonnet 3.5 на AIME
⚡️ Технический отчет: https://github.com/MoonshotAI/Kimi-k1.5
#llm #reasoning #ml #Kimi #preview
🔥46👍21❤9⚡2🤔1😐1💘1