Machinelearning

🌟 UAG: методика ускорения генерации LLM с любыми моделями в качестве ассистента.

В использовании LLM всегда хочется увеличения скорости генерации без ущерба для качества. Есть метод ассистированной генерации, который зарекомендовал себя как один из компромиссных решений. Однако традиционные техники его применения требуют, чтобы целевая и вспомогательная LLM использовали один и тот же токенизатор, что ограничивает выбор моделей и возможность ощутимого ускорения.

Intel Labs и Hugging Face разработали метод универсальной ассистированной генерации (UAG) , который позволяет использовать любую модель в качестве ассистента, независимо от ее токенизатора. Метод открывает новые возможности для ускорения практически любой LLM, даже тех, для которых не существует специализированных маленьких версий для инференса ассистированной генерации.

UAG основан на принципе двустороннего преобразования токенизаторов. После того как модель-ассистент генерирует последовательность токенов, эти токены конвертируются в текст, который затем токенизируется с помощью токенизатора целевой модели. После проверки целевой моделью, токены целевой модели преобразуются обратно в формат токенов модели-ассистента. Для повышения точности перекодирования используется контекстное окно, состоящее из группы предшествующих токенов.

Чтобы оценить UAG, были проведены тесты с различными комбинациями целевых LLMи моделей-ассистентов. Результаты показали, что UAG дает ускорение декодирования 1.5-2.0x по сравнению с генерацией без ассистента. Например, скорость генерации кода с помощью CodeLlama-13b увеличилась в 1.9 раза при использовании tiny_starcoder_py в качестве модели-ассистента.

В будущем планируется расширить функциональность UAG, добавив поддержку алгоритма спекулятивной выборки, что позволит еще больше увеличить скорость генерации.

📌 UAG интегрирован в релиз Huggingface Transformers 4.46.0

▶️Для использования UAG нужно передать tokenizer и assistant_tokenizer в generate() :


from transformers import AutoModelForCausalLM, AutoTokenizer

prompt = "Alice and Bob"
checkpoint = "google/gemma-2-9b"
assistant_checkpoint = "double7/vicuna-68m"

assistant_tokenizer = AutoTokenizer.from_pretrained(assistant_checkpoint)
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
inputs = tokenizer(prompt, return_tensors="pt")

model = AutoModelForCausalLM.from_pretrained(checkpoint)
assistant_model = AutoModelForCausalLM.from_pretrained(assistant_checkpoint)
outputs = model.generate(**inputs, assistant_model=assistant_model, tokenizer=tokenizer, assistant_tokenizer=assistant_tokenizer)
tokenizer.batch_decode(outputs, skip_special_tokens=True)

👉Статья на HF

@ai_machinelearning_big_data

#AI #ML #LLM #UAG #Huggingface

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍25🔥11❤5🙏1

9.18K views15:30

Machinelearning

✔️

GitHub представил Spark: создание веб-приложений с помощью естественного языка.

Spark, продукт лаборатории GitHub Next, позволяет создавать прототипы приложений с помощью чат-подобного интерфейса. В основе Spark лежат репозиторий GitHub, GitHub Actions и база данных Microsoft Azure CosmosDB.

Spark может использовать любые веб-API, а пользователи могут выбирать между моделями Anthropic’s Claude Sonnet и OpenAI’s GPT. Также заявлена функция шэринга Spark-проектов с настраиваемыми правами доступа.

Открыта запись в waitlist. Подать заявку можно по ссылке.
githubnext.com

✔️

AMD подтвердила выпуск графических процессоров RDNA 4 в начале 2025 года.

EO AMD Лиза Су во время отчета о прибыли за 3 квартал 2024 года подтвердила, что компания планирует выпустить первые GPU на базе архитектуры RDNA 4 в начале 2025 года. Она отметила, что RDNA 4 обеспечит «значительное увеличение производительности в играх, значительно более высокую производительность трассировки лучей и добавит новые возможности ИИ».

Это первый случай, когда AMD публично поделилась своими планами. Это может придать достоверность другим утечкам о том, что компания анонсирует свою графику RDNA 4 на выставке CES 2025 в январе.

В настоящее время игровой сегмент составляет всего 2% от выручки AMD, в то время как ЦОД составляют более половины бизнеса компании. Лиза Су подчеркнула, что ее следующая задача — «сделать AMD лидером в области комплексных решений для ИИ».
theverge.com

✔️

Google готовит к выпуску Gemini 2 в декабре: что известно о новой модели ИИ.

Google планирует представить Gemini 2, следующее поколение линейки моделей ИИ, в начале декабря. Ожидается, что Gemini 2 станет значительным шагом вперед по сравнению с версиями Gemini 1.5, выпущенными в мае.

Ожидается, что Gemini 2 получит новые возможности, обучение на новых наборах данных, а также потенциально новые способы взаимодействия с пользователем. Главным изменением могут стать агенты - функции модели, позволяющие ей выполнять задачи самостоятельно без участия человека. Кроме того, Google может улучшить поиск и доступ к данным в реальном времени, поскольку компания сталкивается с растущей конкуренцией со стороны OpenAI.
tomsguide.com

✔️

GitHub Copilot получил Claude 3.5 Sonnet.

Обновление, доступное в публичной предварительной версии, позволяет разработчикам выбирать Claude 3.5 Sonnet для написания кода непосредственно в Visual Studio Code и на GitHub.com.

Согласно тестам, Claude 3.5 Sonnet превосходит все общедоступные модели на SWE-bench Verified, бенчмарке, измеряющем способность ИИ решать реальные задачи с GitHub.

Среди новых возможностей GitHub Copilot с Claude 3.5 Sonnet: написание готового кода по описаниям, отладка с помощью встроенного чата, автоматическое создание тестов и контекстные объяснения кода.

Все разработчики и организации получат доступ к Claude 3.5 Sonnet в ближайшие недели.
anthropic.com

✔️

ИИ ускоряет квантовые вычисления.

Команда из Школы электротехники KAIST разработала метод DeepSCF, использующий CNN для ускорения расчетов электронной структуры в квантовой механике.
DeepSCF позволяет прогнозировать информацию о химических связях, распределенных в трехмерном пространстве, тем самым обходя сложные алгоритмы, необходимые для квантово-механических расчетов на атомном уровне.

DeepSCF избегает необходимость процесса самосогласованного поля, обучаясь на наборе данных органических молекул, содержащих различные характеристики химических связей. Этот подход значительно сокращает время расчета и повышает эффективность для сложных и больших систем, например - моделей устройств для анализа последовательности ДНК на основе углеродных нанотрубок.
miragenews.com

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍28❤12🔥5

8.89K views06:09

Machinelearning

⚡️ SimpleQA: бенчмарк для оценки фактологичности LLM от OpenAI.

SimpleQA - бенчмарк для оценки способности LLM отвечать на короткие, фактологические вопросы, разработанный с учетом двух основных свойств: сложности и простоты оценки.

Сложность достигается за счет вопросов, на которые модели GPT-4o и Claude отвечают с трудом (точность < 50%).

Простота оценки реализована формулировкой вопросов, допускающих только один верный ответ. Каждый ответ классифицируется как «верный», «неверный» или «ответ не дан».

Идеальная модель должна давать как можно больше верных ответов, воздерживаясь от ответов на вопросы, в которых она не уверена.

SimpleQA состоит из 4326 вопросов из областей: наука и технологии, политика, искусство, география, телевидение и т.д.

Ответы на вопросы проверялись двумя независимыми AI-тренерами, и только вопросы с совпадающими ответами были включены в набор данных. Для соблюдения актуальности датасета, вопросы формулировались таким образом, чтобы их ответы не менялись со временем.

Оценка ответов моделей производится с помощью классификатора ChatGPT, который сравнивает сгенерированный ответ с эталонным и присваивает оценку.

Для измерения калибровки LLM, то есть способности модели оценивать свою уверенность в ответе, применяются два метода:

🟢Первый заключается в прямом запросе модели указать свою уверенность в ответе в процентах.

🟢Второй основан на многократном (100 раз) запросе модели на один и тот же вопрос.

Если в обоих случаях наблюдается положительная корреляция между заявленной уверенностью модели и точностью ответа - это свидетельствует о наличии у моделей некоторого представления об уверенности. Но в случае, если модели склонны переоценивать свою уверенность, это указывает на необходимость дальнейших исследований в области калибровки LLM.

⚠️ Ограничением бенчмарка является его фокус на коротких ответах, оставляя открытым вопрос о корреляции между способностью давать фактологические короткие ответы и способностью генерировать длинные тексты с множеством фактов.

⚠️ Фикс ошибки загрузки датасета заменой blobfile на HTTPS URL:

import pandas
df = pandas.read_csv(
    "https://openaipublic.blob.core.windows.net/simple-evals/simple_qa_test_set.csv"
)

▶️Локальный запуск:

# Clone repo 
git clone https://github.com/openai/human-eval

# Install requirements for inference
# For OpenAI API
pip install openai

# For Anthropic API
pip install anthropic

# Demo 
python -m simple-evals.demo

📌Лицензирование: MIT License.

🟡

Статья на сайте

🟡

Техотчет

🟡

Датасет в CSV

🖥

Github

@ai_machinelearning_big_data

#AI #ML #LLM #OpenAI #Benchmark #SimpleQA

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍18❤7🔥7🥰1

8.19K views13:02

Machinelearning

⚡️ MobileLLM: набор SLM от Facebookresearch.

MobileLLM — семейство авторегрессионных языковых моделей на оптимизированной архитектуре трансформера для использования на устройствах с ограниченными ресурсами.

В создании MobileLLM были использованы: функция активации SwiGLU, шэринг эмбединга и grouped-query attention. Модели обучались на датасете в 1 трлн. токенов

MobileLLM-125M/350M более точны на 2,7%/4,3% по сравнению с другими моделями SoTA 125M/350M в задачах zero-shot рассуждений.

В открытый доступ опубликованы 4 модели c контекстом 2 тыс. токенов:

🟢

MobileLLM-125M. 30 Layers, 9 Attention Heads, 3 KV Heads. 576 Token Dimension;

🟢

MobileLLM-350M. 32 Layers, 15 Attention Heads, 5 KV Heads. 960 Token Dimension;

🟢

MobileLLM-600M. 40 Layers, 18 Attention Heads, 6 KV Heads. 1152 Token Dimension;

🟢

MobileLLM-1B. 54 Layers, 20 Attention Heads, 5 KV Heads. 1280 Token Dimension;

▶️ Инференс моделей возможен на HF Transformers или с использованием MobileLLM от facebookresearch.

▶️ Код для файнтюна и тренировки семейства MobileLLM доступен в репозитории MobileLLM.

📌Лицензирование: CC-BY-NC-4.0 License.

🟡

Коллекция моделей на HF

🟡

Arxiv

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #SLM #MobileLLM

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍19❤7🔥3🎉3

9.22K views15:01

Machinelearning

Яндекс объявил победителей премии Yandex ML Prize

В этом году награды за выдающиеся достижения в машинном обучении получили 14 учёных. Премия поддерживает исследователей и преподавателей в области ИИ и мотивирует их продолжать научную деятельность.

Среди лауреатов:

🟢 Артём Лыков, аспирант Сколтеха. Он и его команда первая в мире создала универсальную когнитивную систему для роботов и представила робота-собаку, который понимает человеческую речь. Это может стать основой для «роя умных роботов», способных автономно выполнять задачи в строительстве, геологоразведке и астрофизике.

🟢 Алексей Скрынник, старший научный сотрудник в AIRI. Он разработал алгоритмы для роботов и техники, которые смогут выполнять задачи, даже при отключении связи. Это может изменить подход к логистике и повысить эффективность автономных систем.

🟢 Александр Коротин, руководитель группы по генеративному ИИ в Центре прикладного ИИ Сколтеха. Он разрабатывает методы генеративного обучения на основе теории оптимального транспорта, что поможет в проектировании самолётов, кораблей и разработке лекарств.

Помимо премии, лауреаты получат доступ к сервисам Яндекса 360 и грант на использование Yandex Cloud для выполнения объёмных вычислений и обработки данных.

@ai_machinelearning_big_data

#AI #ML #YandexMLPrize

👏36👍15🥱8❤4🔥2

8.38K views16:23

Machinelearning

0:30

This media is not supported in your browser

VIEW IN TELEGRAM

0:39

This media is not supported in your browser

VIEW IN TELEGRAM

🌟 OmniParser: инструмент для распознавания UI в структурированный формат от Microsoft.

OmniParser - инструмент для анализа скриншотов пользовательского интерфейса, разработанный для улучшения работы агентов UI на основе LLM.

Он преобразует скриншоты в структурированный формат, выделяя интерактивные области и описывая функции элементов(кнопки, иконки, значки и т.д) и не требует исходного HTML или иерархии представлений.

OmniParser состоит из двух моделей:

🟢Модель обнаружения интерактивных элементов, основанная на YOLOv8 и обученная на датасете из 67 тысяч скриншотов веб-страниц с аннотациями кликабельных областей.

🟢Модель описания функций элементов UI, основанная на BLIP-2, обученная на 7 тысячах пар "элемент-описание", созданных с помощью GPT-4o.

OmniParser был протестирован в бенчмарках ScreenSpot, Mind2Web и AITW, где превзошел агентов на основе GPT-4V и модели, обученные на данных графических интерфейсов (SeeClick, CogAgent и Fuyu).

⚠️ OmniParser может испытывать трудности с распознаванием повторяющихся элементов, текста и с определением точных границ кликабельных областей.

На сегодняшний день занимает первое место в трендах среди 1078 938 моделей.

▶️Локальная установка и запуск в Gradio UI :

# Create conda env
conda create -n "omni" python==3.12
conda activate omni

# Install requirement
pip install -r requirement.txt

# Run Gradio UI
python gradio_demo.py
📌Лицензирование: MIT License.

🟡

Страница проекта

🟡

Набор моделей

🟡

Arxiv

🖥

Github

@ai_machinelearning_big_data

#AI #ML #Microsoft #YOLO8 #BLIP #OmniParser

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM