304K subscribers
4.01K photos
710 videos
17 files
4.59K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🌟 MLR-Copilot : Генерация исследовательских идей в машинном обучении.

MLR-Copilot - это фреймворк, в которой LLM имитируют мыслительные процессы ресечера, разработанная для повышения производительности исследований в области машинного обучения за счет генерации и реализации исследовательских идей.

Все начинается с исследовательской работы, в ходе которой MLR-Copilot генерирует и проверяет эти идеи. В процессу участвует встроенный механизм обратной связи с человеком, что в совокупности помогает достичь реальных результатов исследования.

MLR-Copilot работает в три интегрированных этапа:

🟢Генерация исследовательских идей: LLM-агенты генерируют исследовательские гипотезы и экспериментальные планы на основе предоставленных в качестве входных данных исследовательских работ.

🟢Реализация эксперимента: преобразование экспериментальных планов в выполнимые эксперименты с использованием полученного кода прототипа и моделей.

🟢Выполнение реализации: запускаются эксперименты с механизмами обратной связи от человека и итеративной отладки.


⚠️ MLR-Copilot работает только с онлайн-сервисами LLM ( OpenAI, Anthropic, Huggingface) в качестве агентов, для использования Вам будет необходим API-Key соответствующего сервиса.


🟡Arxiv
🟡Demo
🟡Google Collab (инференс)
🖥Github


@ai_machinelearning_big_data

#AI #Copilot #MLTool #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍29🔥87🤔5🥱2
🌟 Mini-Omni : Мультимодальная речевая модель.

Mini-Omni - open-source MMLM, которая умеет ввод-вывод речи в режиме реального времени. Она построена по предложенному в исследовании методу "Any Model Can Talk", который позволяет добавлять речевые возможности к существующим LLM с минимальными изменениями в их архитектуре.

Функциональные возможности модели:

🟢speech-to-speech в реальном времени. Не требуются дополнительные модели ASR или TTS;

🟢генерация текста и аудио одновременно;

🟢потоковое воспроизведение аудио;

🟢пакетное преобразование "speech-to-text" и "speech-to-speech".

Mini-Omni основана на LLM Qwen2-0.5B с трансформерной архитектурой, состоящей из 24 блоков и internal dimension 896.

Для кодирования речи используется Whisper-small encoder, а для распознавания и синтеза речи добавлены адаптеры ASR, связанные с двухслойной MLP, и ТТS, который добавляет 6 дополнительных трасформерных блоков к существующим у Qwen2.

Mini-Omni обучалась на датасетах Libritts, VCTK, Multilingual LibriSpeech, Open-Orca, Moss’s SFT, Alpaca-GPT4 и другие. Общий объем данных составил около 8000 часов речевых данных и 2 миллиона текстовых записей.

В бенчмарках Mini-Omn продемонстрировала отличные результаты в задачах распознавания речи, немного уступая Whisper-small и VITA.

▶️Установка:

# Create & activate venv
conda create -n omni python=3.10
conda activate omni

# Clone the Repository
git clone https://github.com/gpt-omni/mini-omni.git
cd mini-omni

# Install required packages
pip install -r requirements.txt

# start server
python3 server.py --ip '0.0.0.0' --port 60808


Запуск с Streamlit UI:
# run streamlit with PyAudio
pip install PyAudio==0.2.14
API_URL=https://0.0.0.0:60808/chat streamlit run webui/omni_streamlit.py


Запуск с Gradio UI:
API_URL=https://0.0.0.0:60808/chat python3 webui/omni_gradio.py



📌Лицензирование : MIT License.


🟡Arxiv
🟡Demo
🟡Модель
🖥Github


@ai_machinelearning_big_data

#AI #ML #MMLM #Speech2Speech #MiniOmni
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
27👍21🔥8
Новостной дайджест

✔️ Чат-боты больших языковых моделей усиливают ложные воспоминания человека.

Воздействие ИИ на появление ложных воспоминаний человека - актуальное направление исследований, особенно в контексте потенциального применения ИИ в деликатных сферах, таких как полицейская работа. Эксперимент с 200 участниками показал: чат-бот на основе LLM вызывал в 3 раза больше ложных воспоминаний, чем у контрольной группы, которая не общалась с чат-ботами.
36,4% ответов участников, взаимодействовавших с LLM, содержали заблуждения. Через неделю уверенность в этих ложных воспоминаниях все еще оставалась высокой.

Исследование выявило факторы риска: меньший опыт общения с чат-ботами, знакомство с другими технологиями ИИ и интерес к расследованиям преступлений увеличивали вероятность формирования ложных воспоминаний. Результаты показывают необходимость этических политик при внедрении ИИ-технологий в реальных сферах деятельности.
media.mit.edu

✔️ Самообучающийся алгоритм AI делает прогнозы на результаты матчей NFL сезона 2024 года.

Алгоритм использовал исторические данные и текущие тенденции для определения наиболее вероятных исходов каждого матча. В результате он сделал прогнозы формата: "against the spread", "over-under", и "money line" для каждого матча первого тура сезона.

AI использовал математические модели для анализа данных и выявления закономерностей в результатах матчей. Он учитывал различные факторы - состав команд, тренерский опыт и текущие травмы игроков. Прогнозы алгоритма могут быть полезны для болельщиков и любителей спорта, которые хотят получить более точную информацию о результатах матчей.
cbssports.com

✔️ OpenAI планирует создавать собственные чипы на базе готовящегося к выпуску техпроцесса A16 от TSMC.

Создание собственных чипов позволит OpenAI оптимизировать свою архитектуру для работы с моделями AI, что приведет к увеличению производительности и снижению энергопотребления при эксплуатации.

Также, свое производство позволит компании иметь полный контроль над объемами и поставками оборудования и, как следствие, снизить риски в логистике. Планы OpenAI по созданию собственных чипов являются частью более широкой стратегии компании по развитию своих технологий AI.
yahoo.com

✔️ GenAI для редактирования ДНК.

Profluent Bio создали OpenCRISPR-1, улучшенную версию предыдущей системы CRISPR для редактирования генов. OpenCRISPR-1 использует LLM, обученную на более чем миллионе оперонов CRISPR и предназначен в первую очередь для понимания структур и создания новых белковых структур.

OpenCRISPR-1 показал такую же эффективность в декомпозиции ДНК, как и существующие модели, но при этом он допускал меньше ошибок. Разработчики выложили OpenCRISPR-1 в открытый доступ, чтобы способствовать развитию и использованию системы в будущих исследованиях.

OpenCRISPR-1 поможет лечить генетические заболевания наиболее безопасным, быстрым и персонализированным способом. Несмотря на то, что до практического применения еще далеко, подобные инструменты открывают возможности для создания индивидуальных генных редакторов.
crisprmedicinenews.com

✔️ Clearview AI оштрафована голландскими властями за базу данных распознавания лиц.

Голландское агентство по защите данных (Dutch DPA) оштрафовало компанию Clearview AI на 30,5 миллионов евро за создание незаконной базы данных лиц. База данных содержит миллиарды фотографий лиц, включая лица голландских граждан. Clearview AI предлагает услуги по распознаванию лиц и собирает данные из социальных сетей.

По мнению Dutch DPA, использование услуг Clearview AI также является незаконным и может привести к штрафам для организаций.

Компания Clearview AI уже получала штрафы от регулирующих органов Великобритании, Австралии, Франции и Италии. Апелляцию на штраф голландских властей компания пока не подавала.
euronews.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍198🔥5💔2
🌟 ICRT : Внутриконтекстное обучение имитации действия с помощью предсказания следующего токена.

In-Context Robot Transformer (ICRT) - модель, которая позволяет роботу выполнять новые задачи, интерпретируя контекстную информацию, предоставленную во время демонстрационной фазы, без обновления параметров базовой политики.

ICRT представляет собой причинно-следственный трансформер, который выполняет автоматический прогноз сенсомоторных траекторий без использования лингвистических данных или функции вознаграждения. Он позволяет гибко и без обучения выполнять новые задачи на основе наблюдений изображений, действий и состояний, собранных с помощью телеопераций человека.

Модель состоит из трех частей: предварительно обученного кодировщика изображений, серии проекторов для каждой из входных модальностей и каузального трансформера:

🟠Кодировщик изображений обрабатывает разноплановые наблюдения через трансформер, который был обучен на смеси данных ImageNet и Open X-Embodiment

🟠Проекторы преобразуют наблюдения, состояние робота и действия в общее латентное пространство для последующего моделирования

🟠Трансформер принимает на вход последовательность токенов, представляющих состояние робота и действия, и производит выходные данные, которые используются для управления роботом.

Для предварительного обучения модели использовался датасет DROID и созданный вручную мультизадачный датасет ICRT-Multi-Task (ICRT-MT - 1098 траекторий, 26 задач с 6 примитивами), который использовался в этапе дообучения.

Результаты экспериментов показывают, что ICRT способен обобщать незнакомые задачи и объекты, даже в средах, которые отличаются от демонстрационных.

▶️Установка:

# Create & activate venv
conda create -n icrt python=3.10 -y
conda activate icrt

# Install torch
conda install pytorch torchvision torchaudio pytorch-cuda=12.4 -c pytorch -c nvidia
conda install -c conda-forge ffmpeg

# Clone the Repository
git clone https://github.com/Max-Fu/icrt.git
cd icrt

# Install required packages
pip install -e .

# Install git-lfs
sudo apt install git-lfs
git lfs install

# Download checkpoints
git clone [email protected]:mlfu7/ICRT checkpoints


Пример инференса приведен в ноутбуке inference.ipynb. Перед его запуском обязательно ознакомьтесь с рекомендациями по загрузке и созданию собственного датасета.


📌Лицензирование : Apache 2.0 License.


🟡Arxiv
🟡Dataset
🟡Модель
🖥Github


@ai_machinelearning_big_data

#AI #ML #Robotics #ICRT
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍305🔥4
🌟 Яндекс представил бета-версию нейросети YandexART (Vi) для создания реалистичных видео с движущимися объектами.

Yandex AI Rendering Technology (YandexART) — диффузионная нейросеть, которая создаёт и улучшает изображения и анимацию в ответ на текстовые запросы. В более ранних версиях модель обучили прорабатывать мелкие детали при генерации контента, а также работать в заданном художественном стиле и создавать фотореалистичные портреты.

YandexART (Vi) же научилась воссоздавать реалистичные движения, а также учитывать связь между кадрами — благодаря этому генерируемые видео получаются более цельными и плавными. Чтобы нейросеть могла справляться с этой задачей, её обучили на роликах с движущимися объектами, например, с едущим автомобилем или крадущимся котом.

▪️Хабр

@ai_machinelearning_big_data

#AI #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
👍23❤‍🔥43👏3🥱1🤣1🙊1
⚡️Idefics3: обновление мультимодальной модели от Huggingface.

Hugging Face представила новую модель Idefics3-8B-Llama3, созданную на базе siglip-so400m и Llama 3.1-8B-Instruct , которая может работать с произвольными последовательностями изображений и текста.
Эта модель умеет отвечать на вопросы об изображениях, описывать визуальный контент, создавать истории на основе нескольких изображений и даже работать как чистая языковая модель без визуальных входных данных.
Idefics3 значительно улучшает возможности своих предшественников, Idefics1 и Idefics2, особенно в области распознавания текста на изображениях (OCR), понимания документов и визуального рассуждения.

Новая модель использует 169 визуальных токенов для кодирования изображения размером 364x364 пикселей. Каждое изображение делится на несколько блоков, которые затем кодируются отдельно.
Для тонкой настройки модели использовались датасеты: The Cauldron и Docmatix. В бенчмарках MMMU, MathVista и DocVQA Idefics3 показывает лучшие результаты по сравнению с Idefics2.


⚠️ Idefics3 поддерживает только английский язык и не подвергалась этапу RLHF alignment, поэтому она может не всегда следовать промпту или справляться с СoT-задачами самостоятельно.
Однако это не значит, что она не способен на это. Добавление префикса к assistant's response, например, "Let's think step" для рассуждения или <html> для генерации HTML-кода, может значительно улучшить инференс на практике.
Также имеет практический смысл поиграть с параметром "температура" в non-greedy mode.


📌Лицензирование : Apache 2.0


🟡Модель
🟡Demo

@ai_machinelearning_big_data

#AI #MLLM #ML #Idefics3
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18🔥114
Новостной дайджест

✔️ AMD назначает ветерана ИИ-индустрии на пост вице-президента.

AMD объявила о назначении Кита Стайера старшим вице-президентом глобального рынка ИИ. Стайер имеет более 30 лет опыта работы в технологическом бизнесе и развитии рынков, технической инженерии и обеспечения ответственной разработки ИИ. Ранее он занимал пост вице-президента международных инициатив в области ИИ в компании NVIDIA. Он будет работать под руководством генерального директора AMD, Лисы Су.
finance.yahoo.com

✔️ Intel выпускает серию процессоров Core Ultra 200V "Lunar Lake".

Серия "Lunar Lake" предназначена для конкуренции с процессорами Arm, используемыми в устройствах Apple и Microsoft. По словам производителя, это самые эффективные процессоры x86 на данный момент.

Процессоры Core Ultra 200V получили снижение энергопотребления до 50% по сравнению с предыдущими поколениями, повышение производительности до 120 TOPS за счет комбинации CPU, GPU и NPU.
Новинки оснащены четвертым поколением NPU, которое в 4 раза мощнее своего предшественника, а также новой графической архитектурой Xe2, на 30% более производительной предыдущей версии GPU.

Процессоры Core Ultra 200V будут использоваться в потребительских устройствах на базе Intel Evo от Acer, ASUS, Dell Technologies, HP, Lenovo, LG, MSI и Samsung.

Устройства с новыми процессорами будут доступны для предварительного заказа с сегодняшнего дня, а в продаже появятся 24 сентября. Все устройства с процессорами Core Ultra 200V и последней версией Windows будут иметь право на бесплатное обновление функций Copilot+ PC.
intel.com

✔️ Чеклист: Что нужно для достижения успеха в обеспечении безопасности ИИ?

Большая статья Sam Bowman, руководителя исследовательского подразделения Anthropic, в которой он высказывает предположение о том, чего должны добиться разработчики для обеспечения безопасности ИИ в процессе создания сверхчеловеческого AI.
sleepinyourhat.github.io

✔️ Hugging Face заключил сотрудничество с TruffleHog для поиска чувствительных данных.

Hugging Face интегрировала TruffleHog в свою экосистему для сканирования репозиториев на наличие секретов, таких как учетные данные, токены и ключи шифрования. Если обнаружен подтвержденный секрет, пользователь получает уведомление по электронной почте. Hugging Face создала собственный сканер TruffleHog, который дает возможность пользователям сканировать свои модели, наборы данных и Spaces на наличие секретов.
huggingface.co

✔️ Проект Graphiti: Графы темпоральных знаний на основе LLM.

Graphiti - инструмент создания и запроса графов знаний, которые развиваются с течением времени.
Граф знаний - это сеть взаимосвязанных фактов, они были широко изучены для поиска информации. Уникальность Graphiti заключается в ее способности автономно строить граф знаний, обрабатывая изменяющиеся отношения и сохраняя исторический контекст. Демо проекта
help.getzep.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍28🔥65❤‍🔥1
⚡️ Yi-Coder: Семейство специализированных моделей для программирования.

Yi-Coder - это серия LLM с открытым исходным кодом, которые предназначены для программирования.

Модели Yi-Coder выпущены в двух размерностях: 1,5 млрд и 9 млрд параметров с контекстным окном в 128 тысяч токенов. Доступны базовая и чат-версия:

🟢Yi-Coder-9B;
🟢Yi-Coder-9B-Chat;
🟠Yi-Coder-1.5B;
🟠Yi-Coder-1.5B-Chat.

Модели основаны на LLM Yi-9B и обучались на 2.4 трлн. токенов, полученных из наборов данных Github и CommonCrawl.
Yi-Coder обладают знаниями 52 языков программирования.

В бенчмарке LiveCodeBench Yi-Coder-9B-Chat достиг показателя в 23.4%, что больше, чем у
моделей с большим числом параметров, например: DeepSeek-Coder-33B-Instruct и CodeLLama-34B-Instruct.

Использование моделей Yi-Coder всех версий поддерживается в Transformers и vLLM.

Подробные руководства по системному промптингу, artifacts-style прототипированию в виде web-страницы, конвертации текстового запроса в SQL-Query, инструкцию по файнтюну и квантованию можно найти в репозитории проекта на Github.

▶️Установка:

# Clone repository
git clone https://github.com/01-ai/Yi-Coder.git
cd Yi-Coder

# Install requirements
pip install -r requirements.txt


📌Лицензирование : Apache 2.0 License.


🟡Arxiv
🟡Набор моделей
🟡Сообщество в Discord
🖥Github


@ai_machinelearning_big_data

#AI #ML #LLM #YiCoder
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍29🔥1311