В использовании LLM всегда хочется увеличения скорости генерации без ущерба для качества. Есть метод ассистированной генерации, который зарекомендовал себя как один из компромиссных решений. Однако традиционные техники его применения требуют, чтобы целевая и вспомогательная LLM использовали один и тот же токенизатор, что ограничивает выбор моделей и возможность ощутимого ускорения.
Intel Labs и Hugging Face разработали метод универсальной ассистированной генерации (UAG) , который позволяет использовать любую модель в качестве ассистента, независимо от ее токенизатора. Метод открывает новые возможности для ускорения практически любой LLM, даже тех, для которых не существует специализированных маленьких версий для инференса ассистированной генерации.
UAG основан на принципе двустороннего преобразования токенизаторов. После того как модель-ассистент генерирует последовательность токенов, эти токены конвертируются в текст, который затем токенизируется с помощью токенизатора целевой модели. После проверки целевой моделью, токены целевой модели преобразуются обратно в формат токенов модели-ассистента. Для повышения точности перекодирования используется контекстное окно, состоящее из группы предшествующих токенов.
Чтобы оценить UAG, были проведены тесты с различными комбинациями целевых LLMи моделей-ассистентов. Результаты показали, что UAG дает ускорение декодирования 1.5-2.0x по сравнению с генерацией без ассистента. Например, скорость генерации кода с помощью CodeLlama-13b увеличилась в 1.9 раза при использовании tiny_starcoder_py в качестве модели-ассистента.
В будущем планируется расширить функциональность UAG, добавив поддержку алгоритма спекулятивной выборки, что позволит еще больше увеличить скорость генерации.
tokenizer
и assistant_tokenizer
в generate()
:
from transformers import AutoModelForCausalLM, AutoTokenizer
prompt = "Alice and Bob"
checkpoint = "google/gemma-2-9b"
assistant_checkpoint = "double7/vicuna-68m"
assistant_tokenizer = AutoTokenizer.from_pretrained(assistant_checkpoint)
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
inputs = tokenizer(prompt, return_tensors="pt")
model = AutoModelForCausalLM.from_pretrained(checkpoint)
assistant_model = AutoModelForCausalLM.from_pretrained(assistant_checkpoint)
outputs = model.generate(**inputs, assistant_model=assistant_model, tokenizer=tokenizer, assistant_tokenizer=assistant_tokenizer)
tokenizer.batch_decode(outputs, skip_special_tokens=True)
👉Статья на HF
@ai_machinelearning_big_data
#AI #ML #LLM #UAG #Huggingface
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍25🔥11❤5🙏1
Spark, продукт лаборатории GitHub Next, позволяет создавать прототипы приложений с помощью чат-подобного интерфейса. В основе Spark лежат репозиторий GitHub, GitHub Actions и база данных Microsoft Azure CosmosDB.
Spark может использовать любые веб-API, а пользователи могут выбирать между моделями Anthropic’s Claude Sonnet и OpenAI’s GPT. Также заявлена функция шэринга Spark-проектов с настраиваемыми правами доступа.
Открыта запись в waitlist. Подать заявку можно по ссылке.
githubnext.com
EO AMD Лиза Су во время отчета о прибыли за 3 квартал 2024 года подтвердила, что компания планирует выпустить первые GPU на базе архитектуры RDNA 4 в начале 2025 года. Она отметила, что RDNA 4 обеспечит «значительное увеличение производительности в играх, значительно более высокую производительность трассировки лучей и добавит новые возможности ИИ».
Это первый случай, когда AMD публично поделилась своими планами. Это может придать достоверность другим утечкам о том, что компания анонсирует свою графику RDNA 4 на выставке CES 2025 в январе.
В настоящее время игровой сегмент составляет всего 2% от выручки AMD, в то время как ЦОД составляют более половины бизнеса компании. Лиза Су подчеркнула, что ее следующая задача — «сделать AMD лидером в области комплексных решений для ИИ».
theverge.com
Google планирует представить Gemini 2, следующее поколение линейки моделей ИИ, в начале декабря. Ожидается, что Gemini 2 станет значительным шагом вперед по сравнению с версиями Gemini 1.5, выпущенными в мае.
Ожидается, что Gemini 2 получит новые возможности, обучение на новых наборах данных, а также потенциально новые способы взаимодействия с пользователем. Главным изменением могут стать агенты - функции модели, позволяющие ей выполнять задачи самостоятельно без участия человека. Кроме того, Google может улучшить поиск и доступ к данным в реальном времени, поскольку компания сталкивается с растущей конкуренцией со стороны OpenAI.
tomsguide.com
Обновление, доступное в публичной предварительной версии, позволяет разработчикам выбирать Claude 3.5 Sonnet для написания кода непосредственно в Visual Studio Code и на GitHub.com.
Согласно тестам, Claude 3.5 Sonnet превосходит все общедоступные модели на SWE-bench Verified, бенчмарке, измеряющем способность ИИ решать реальные задачи с GitHub.
Среди новых возможностей GitHub Copilot с Claude 3.5 Sonnet: написание готового кода по описаниям, отладка с помощью встроенного чата, автоматическое создание тестов и контекстные объяснения кода.
Все разработчики и организации получат доступ к Claude 3.5 Sonnet в ближайшие недели.
anthropic.com
Команда из Школы электротехники KAIST разработала метод DeepSCF, использующий CNN для ускорения расчетов электронной структуры в квантовой механике.
DeepSCF позволяет прогнозировать информацию о химических связях, распределенных в трехмерном пространстве, тем самым обходя сложные алгоритмы, необходимые для квантово-механических расчетов на атомном уровне.
DeepSCF избегает необходимость процесса самосогласованного поля, обучаясь на наборе данных органических молекул, содержащих различные характеристики химических связей. Этот подход значительно сокращает время расчета и повышает эффективность для сложных и больших систем, например - моделей устройств для анализа последовательности ДНК на основе углеродных нанотрубок.
miragenews.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍28❤12🔥5
SimpleQA - бенчмарк для оценки способности LLM отвечать на короткие, фактологические вопросы, разработанный с учетом двух основных свойств: сложности и простоты оценки.
Сложность достигается за счет вопросов, на которые модели GPT-4o и Claude отвечают с трудом (точность < 50%).
Простота оценки реализована формулировкой вопросов, допускающих только один верный ответ. Каждый ответ классифицируется как «верный», «неверный» или «ответ не дан».
Идеальная модель должна давать как можно больше верных ответов, воздерживаясь от ответов на вопросы, в которых она не уверена.
SimpleQA состоит из 4326 вопросов из областей: наука и технологии, политика, искусство, география, телевидение и т.д.
Ответы на вопросы проверялись двумя независимыми AI-тренерами, и только вопросы с совпадающими ответами были включены в набор данных. Для соблюдения актуальности датасета, вопросы формулировались таким образом, чтобы их ответы не менялись со временем.
Оценка ответов моделей производится с помощью классификатора ChatGPT, который сравнивает сгенерированный ответ с эталонным и присваивает оценку.
Для измерения калибровки LLM, то есть способности модели оценивать свою уверенность в ответе, применяются два метода:
Если в обоих случаях наблюдается положительная корреляция между заявленной уверенностью модели и точностью ответа - это свидетельствует о наличии у моделей некоторого представления об уверенности. Но в случае, если модели склонны переоценивать свою уверенность, это указывает на необходимость дальнейших исследований в области калибровки LLM.
⚠️ Ограничением бенчмарка является его фокус на коротких ответах, оставляя открытым вопрос о корреляции между способностью давать фактологические короткие ответы и способностью генерировать длинные тексты с множеством фактов.
⚠️ Фикс ошибки загрузки датасета заменой
blobfile
на HTTPS URL
:import pandas
df = pandas.read_csv(
"https://openaipublic.blob.core.windows.net/simple-evals/simple_qa_test_set.csv"
)
# Clone repo
git clone https://github.com/openai/human-eval
# Install requirements for inference
# For OpenAI API
pip install openai
# For Anthropic API
pip install anthropic
# Demo
python -m simple-evals.demo
@ai_machinelearning_big_data
#AI #ML #LLM #OpenAI #Benchmark #SimpleQA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18❤7🔥7🥰1
MobileLLM — семейство авторегрессионных языковых моделей на оптимизированной архитектуре трансформера для использования на устройствах с ограниченными ресурсами.
В создании MobileLLM были использованы: функция активации SwiGLU, шэринг эмбединга и grouped-query attention. Модели обучались на датасете в 1 трлн. токенов
MobileLLM-125M/350M более точны на 2,7%/4,3% по сравнению с другими моделями SoTA 125M/350M в задачах zero-shot рассуждений.
В открытый доступ опубликованы 4 модели c контекстом 2 тыс. токенов:
@ai_machinelearning_big_data
#AI #ML #SLM #MobileLLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19❤7🔥3🎉3
Яндекс объявил победителей премии Yandex ML Prize
В этом году награды за выдающиеся достижения в машинном обучении получили 14 учёных. Премия поддерживает исследователей и преподавателей в области ИИ и мотивирует их продолжать научную деятельность.
Среди лауреатов:
🟢 Артём Лыков, аспирант Сколтеха. Он и его команда первая в мире создала универсальную когнитивную систему для роботов и представила робота-собаку, который понимает человеческую речь. Это может стать основой для «роя умных роботов», способных автономно выполнять задачи в строительстве, геологоразведке и астрофизике.
🟢 Алексей Скрынник, старший научный сотрудник в AIRI. Он разработал алгоритмы для роботов и техники, которые смогут выполнять задачи, даже при отключении связи. Это может изменить подход к логистике и повысить эффективность автономных систем.
🟢 Александр Коротин, руководитель группы по генеративному ИИ в Центре прикладного ИИ Сколтеха. Он разрабатывает методы генеративного обучения на основе теории оптимального транспорта, что поможет в проектировании самолётов, кораблей и разработке лекарств.
Помимо премии, лауреаты получат доступ к сервисам Яндекса 360 и грант на использование Yandex Cloud для выполнения объёмных вычислений и обработки данных.
@ai_machinelearning_big_data
#AI #ML #YandexMLPrize
В этом году награды за выдающиеся достижения в машинном обучении получили 14 учёных. Премия поддерживает исследователей и преподавателей в области ИИ и мотивирует их продолжать научную деятельность.
Среди лауреатов:
🟢 Артём Лыков, аспирант Сколтеха. Он и его команда первая в мире создала универсальную когнитивную систему для роботов и представила робота-собаку, который понимает человеческую речь. Это может стать основой для «роя умных роботов», способных автономно выполнять задачи в строительстве, геологоразведке и астрофизике.
🟢 Алексей Скрынник, старший научный сотрудник в AIRI. Он разработал алгоритмы для роботов и техники, которые смогут выполнять задачи, даже при отключении связи. Это может изменить подход к логистике и повысить эффективность автономных систем.
🟢 Александр Коротин, руководитель группы по генеративному ИИ в Центре прикладного ИИ Сколтеха. Он разрабатывает методы генеративного обучения на основе теории оптимального транспорта, что поможет в проектировании самолётов, кораблей и разработке лекарств.
Помимо премии, лауреаты получат доступ к сервисам Яндекса 360 и грант на использование Yandex Cloud для выполнения объёмных вычислений и обработки данных.
@ai_machinelearning_big_data
#AI #ML #YandexMLPrize
👏36👍15🥱8❤4🔥2
OmniParser - инструмент для анализа скриншотов пользовательского интерфейса, разработанный для улучшения работы агентов UI на основе LLM.
Он преобразует скриншоты в структурированный формат, выделяя интерактивные области и описывая функции элементов(кнопки, иконки, значки и т.д) и не требует исходного HTML или иерархии представлений.
OmniParser состоит из двух моделей:
OmniParser был протестирован в бенчмарках ScreenSpot, Mind2Web и AITW, где превзошел агентов на основе GPT-4V и модели, обученные на данных графических интерфейсов (SeeClick, CogAgent и Fuyu).
⚠️ OmniParser может испытывать трудности с распознаванием повторяющихся элементов, текста и с определением точных границ кликабельных областей.
На сегодняшний день занимает первое место в трендах среди 1078 938 моделей.
# Create conda env
conda create -n "omni" python==3.12
conda activate omni
# Install requirement
pip install -r requirement.txt
# Run Gradio UI
python gradio_demo.py
@ai_machinelearning_big_data
#AI #ML #Microsoft #YOLO8 #BLIP #OmniParser
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍20❤18🔥6🎉4