Machinelearning

✔️

The New York Times обвиняет OpenAI в попытке заработать на судебном разбирательстве.

NYT утверждает, что OpenAI предложила протокол проверки, ограничивающий количество запросов, которые их эксперт может сделать через API, суммой в 15 000 долларов. По словам NYT, для получения необходимых доказательств нарушения авторских прав, им потребуется кредитов на сумму 800 тыс. долларов, что, как утверждается, значительно превышает фактические затраты OpenAI.

OpenAI защищает установленный лимит, утверждая, что он необходим для снижения нагрузки на компанию. Исход этого судебного спора может иметь последствия для будущих дел, связанных с проверкой моделей ИИ.
arstechnica.com

✔️

Фильм, сценарий которого написан ИИ, открывает фестиваль IDFA.

Фильм "О герое" режиссера Петра Виневича, сценарий которого написан искусственным интеллектом, обученным на работах Вернера Херцога, открывает Международный фестиваль документального кино в Амстердаме (IDFA).

В фильме снимаются Вики Крипс и Стивен Фрай, а Вернер Херцог выступает в роли рассказчика. Фильм исследует роль технологий в кинопроизводстве и ставит вопросы об оригинальности, аутентичности и душе в эпоху ИИ. Виневич создал фильм, используя программное обеспечение Kaspar, которое обучалось на обширной фильмографии и текстах Херцога.

Процесс написания сценария был долгим и сложным: сначала ИИ генерировал поток текста, который затем редактировался Виневичем и сценаристкой Анной Джул.
hollywoodreporter.com

✔️

Hyundai разрабатывает электромобиль с ИИ, чтобы не отставать от конкурентов в Китае.

В следующем году Hyundai выпустит свой первый электромобиль с ИИ, разработанный специально для китайского рынка. Новая модель будет оснащена системой DriveGPT от китайского стартапа Haomo, которая вдохновлена ChatGPT от OpenAI.

Система способна к самообучению в режиме реального времени, оптимизируя процесс принятия решений на основе анализа данных о дорожном движении. Уровень автономного вождения новой модели будет находиться между 2 и 2.5, что сравнимо с автопилотом Tesla.

Hyundai надеется, что новый электромобиль поможет увеличить продажи на китайском рынке электромобилей, где BYD лидирует с долей рынка 32,9%.
electrek.co

✔️

Apple M4 Max транскрибирует аудио в 2 раза быстрее, чем RTX A5000, потребляя при этом в 8 раз меньше энергии.

В пользовательском тесте, проведенном Toms hardware M4 Max транскрибировал 3-х часовой аудиофайл с помощью Whisper V3 Turbo всего за 2 минуты 29 секунд, потребляя 25 Вт, в то время как RTX A5000 затратил на ту же задачу 4 минуты 33 секунды, потребляя 190 Вт.

Преимущество M4 Max объясняется наличием четырех аппаратных кодеров, включая два специализированных для ProRes, что позволяет ему эффективно обрабатывать видео и аудио. В тесте использовалась сбалансированная настройка M4 Max, а при увеличении скорости вентиляторов время транскрипции сократилось еще на 10 секунд.
tomshardware.com

✔️

Новая модель Gemini от Google возглавляет рейтинг LLM в СhatbotArena.

Последняя версия Gemini попала на вершину рейтинга Chatbot Arena, обогнав последнюю версию GPT-4o от OpenAI. Новая модель от Google DeepMind называется Gemini-Exp-1114. она сравнялась с последней версией GPT-4o, превзойдя возможности модели o1-preview reasoning от OpenAI.

Gemini-Exp-1114 пока недоступна в приложении или на веб-сайте Gemini. Получить к ней доступ можно только зарегистрировав бесплатную учетную запись Google AI Studio.
tomsguide.com

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍26❤8🔥4

8.24K views08:11

Machinelearning

🌟 Языки программирования в 50 строк кода Python.

Репозиторий на Github c микрореализацией фундаментальных языков программирования, по мотивам серии статей "Tiny Great Languages"

Все написано на Python, код намеренно краток, чтобы не превышать ~50 строк кода для каждого языка.

Используется только стандартная библиотека Python, да и то в очень скромных пределах (sys, иногда re, редко itertool и т.д.).

▶️ Реализованы языки:

asm.py - ассемблер. Компилирует "Python-ассемблер" в байткод и выполняет его;

basic.py - бейсик. Подмножество TinyBASIC, но с настоящим редактором строк BASIC!

lisp.py - Lisp 1.5. Классика, автор - Джон Маккарти, достаточен, чтобы интерпретировать самого себя (мета-циклический интерпретатор);

apl.py - интерпретатор k/simple, написанный Артуром Уитни, представляет собой диалект языка программирования K (array processing language), который является вариантом APL.

mouse.py - язык конкатенативного программирования MOUSE, опубликованный в журнале BYTE в 1979 году.

pl0.py - переводчик с языка PL/0, автор Никлаус Вирт.

tcl.py - крошечный интерпретатор командного языка (TCL).

📌Лицензирование: MIT License.

🖥

Github

#Python #TinyLanguage

Please open Telegram to view this post

VIEW IN TELEGRAM

❤24👍10🔥9🌚1🗿1

8.6K views12:15

Machinelearning

🌟 Контекстуальные эмбединги для повышения эффективности поиска.

Contextual Document Embeddings (CDE) - это метод векторных эмбедингов, разработанный в Cornell University, который учитывает дополнительный контекст из "соседних" документов целевого набора данных.

Метод CDE предлагает добавить к функции встраивания зависимость не только от запроса или документа, но и от всех других документов в наборе данных. Чтобы создать такую функцию с осведомленностью о своем окружении, предлагаются две взаимодополняющих техники:

🟢Контекстуальное обучение, которое основано на кластеризации документов и запросов для формирования групп тематически схожих псевдообластей данных. Обучение на этих группах позволяет эмбединг-модели различать документы в сложных контекстах.

🟠Контекстуальная архитектура. Дополняет стандартный BERT-подобный энкодер дополнительными токенами из агрегированной информации о соседних документах. Эта информация позволяет модели учитывать относительную частоту терминов в контексте, аналогично тому, как это делается в статистических моделях поиска.

Тестирование CDE показало, что обе техники улучшают производительность в задачах поиска вне предметной области, а контекстуальная архитектура эффективнее традиционных эмбедингов в специализированных областях: финансах, юриспруденции и медицине.

Для практических экспериментов предлагается блокнот ipynb (или его версия для Google Collab) в котором используется эмбединг-модель cde-small-v1 с 281 млн. параметров, получившая средний балл 65.00 в бенчмарке MTEB leaderboard в категории моделей до 400 млн. параметров. Этот блокнот научит создавать свои собственные эмбединги в контексте вашего набора данных или просто использовать модель как есть.

🟡

🟡

🟡

🟡

🖥

Github

@ai_machinelearning_big_data

#AI #ML #Embeddings #Retrieval #CDE

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍26❤9🥰3

16.1K views15:01

Machinelearning

🌟 OpenCoder - модели для кодинга, cookbook обучения и датасеты.

OpenCoder - это открытое и воспроизводимое семейство LLM для программирования, включающее 1,5B и 8B базовые и instruct версии, поддерживающее английский и китайский языки.

Семейство моделей OpenCoder обучалось с нуля на 2,5 трлн. лексем, состоящих на 90 % из сырого кода и на 10 % из веб-данных, связанных с кодом, и прошло отладку на более чем 4,5 млн. высококачественных примеров SFT, в итоге достигнув производительности топовых LLM с похожей специализацией.

В открытый доступ опубликованы не только веса моделей и код для инференса, но и датасеты, полный цикл обработки данных, результаты экспериментальной абляции и подробные протоколы обучения.

OpenCoder тщательно протестирован с помощью исследований абляции на различных стратегиях очистки данных и процессах обучения, включая эксперименты по дедупликации на уровне файлов и репозиториев, что обеспечило семейству тщательную проверку производительности моделей.

OpenCoder достигает высокой производительности в различных бенчмарках, что ставит их в ряд SOTA-моделей с открытым исходным кодом для задач программирования.

▶️ Семейство моделей OpenCoder :

🟢

OpenCoder-1.5B-Base, 4 тыс. токенов контекста;

🟢

OpenCoder-8B-Base, 8 тыс. токенов контекста;

🟠

OpenCoder-1.5B-Instruct, 4 тыс. токенов контекста;

🟠

OpenCoder-8B-Instruct, 8 тыс. токенов контекста;

▶️ Датасеты:

🟢

OpenCoder-SFT-Stage1, 4.21 млн. строк;

🟠

OpenCoder-SFT-Stage2, 375 тыс.строк.

▶️ Пример инференса на HF Transformers:

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

model_name = "infly/OpenCoder-8B-Instruct"
model = AutoModelForCausalLM.from_pretrained(model_name,
                                             torch_dtype=torch.bfloat16,
                                             device_map="auto",
                                             trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)

messages=[
    { 'role': 'user', 'content': "write a quick sort algorithm in python."}
]

inputs = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt")

outputs = model.generate(inputs, max_new_tokens=512, do_sample=False)

result = tokenizer.decode(outputs[0][len(inputs[0]):], skip_special_tokens=True)

🟡

🟡

🟡

🟡

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #LLM #OpenCoder #Datasets

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍40❤12🔥10

13K views10:05

Machinelearning

📎

ML в медицине: дайджест за 11 - 17 ноября 2024 г.

▶️

Модели, бенчмарки и датасеты

🔘

EHRNoteQA: бенчмарк для оценки LLM в клинической практике.
Оценки LLM в контексте ответов на вопросы врачей, основанных на выписных эпикризах пациентов.

🔘

ClinicalBench: сравнение LLM и традиционных ML-моделей в клиническом прогнозировании.
Бенчмарк сравнения эффективности языковых моделей с XGBoost, Logistic Regression, Decision Tree, Random Forest, AdaBoost, SVM, Naive Bayes, MLP, Transformer и RNN.

🔘

Комплексная оценка RAG-систем с LLM в задачах медицинского QA.
Датасет, содержащий дополнительные элементы информации, знаний для обеспечения устойчивости к ошибкам.

🔘

DAHL: автоматизированная оценка на галлюцинации в медицинских текстах.
Набор данных и методика для оценки галлюцинаций в длинных текстах, генерируемых LLM, с особым акцентом на медицинскую область.

▶️

Фреймворки и методологии

🔘

TranspNet: конвейер повышения прозрачности и достоверности LLM.
Интегрирация LLM с символическим ИИ, чтобы повысить прозрачность и достоверность их работы.

🔘

ClinRaGen: система понимания мультимодальных электронных медицинских карт и обоснования диагнозов.
Система на основе SLM и методики ризонинга, разработанная для улучшения диагностики острых заболеваний с использованием мультимодальных электронных медицинских карт.

🔘

GuidelineGuard: агентная платформа для оценки медицинских записей на соответствие рекомендациям.
Платформа на основе агентов LLM, которая автоматически анализирует выписки из больницы и записи офисных визитов.

🔘

Автоматическое обобщение длинных медицинских карт с помощью динамического расширения контекста.
Методика автоматического реферирования, основанная на LLM open-calm-7b с использованием Native Bayes Context Extend (NBCE) и модифицированного механизма декодирования.

▶️

Медицинские LLM-приложения

🔘

LLAMA-2 для автоматической классификации кодов МКБ.
Классификации кодов Международной классификации болезней (МКБ) на основе медицинских текстов.

🔘

PortalGen: фреймворк для синтеза реалистичных сообщений пациентов.
Метод контекстного обучения, который позволяет LLM лучше соответствовать стилю и тону реальных данных, используя небольшое количество деперсонализированных сообщений пациентов.

🔘

Voice EHR: голосовая электронная медицинская карта.
Система сбора данных, которая фиксирует медицинскую информацию с помощью голосовых записей, сделанных через мобильное приложение.

▶️

Исследования и обзоры

*️⃣

Мультимодальные модели в диагностики болезни Альцгеймера.
Генерация синтетических диагностических отчетов, чтобы решить проблему недостатка текстовых данных в нейровизуальных датасетах для диагностики болезни Альцгеймера.

*️⃣

Ограниченное влияние медицинской адаптации на LLM и VLM.
Исследуется эффективности DAPT для создания специализированных медицинских LLM и VLM, пригодных для решения задач (визуального) вопрос-ответа в медицине. Спойлер: LLM и без DAPT неплохо разбираются в медицине.

🔜

Читать полный дайджест

@ai_machinelearning_big_data

Please open Telegram to view this post

VIEW IN TELEGRAM

👍25❤9🔥3🤔1

8.29K views06:15

Machinelearning

⚡️ BRIA Background Removal v2.0 Model.

RMBG v2.0 - новая модель удаления фона, предназначенная для эффективного отделения переднего плана от фона в различных категориях и типах изображений. Точность, эффективность и универсальность RMBG v2.0 конкурирует с ведущими SOTA-моделями.

RMBG-2.0 разработана на основе архитектуры BiRefNet и обучена на более чем 15 000 высококачественных, высокого разрешения, вручную маркированных (с точностью до пикселя), полностью лицензированных изображений.

Модель доступна на HF в двух версиях : pytorch и safetensors. Демо можно попробовать на HF Space.

▶️Пример кода запуска на Transformers:

from PIL import Image
import matplotlib.pyplot as plt
import torch
from torchvision import transforms
from transformers import AutoModelForImageSegmentation

model = AutoModelForImageSegmentation.from_pretrained('briaai/RMBG-2.0', trust_remote_code=True)
torch.set_float32_matmul_precision(['high', 'highest'][0])
model.to('cuda')
model.eval()

# Data settings
image_size = (1024, 1024)
transform_image = transforms.Compose([
    transforms.Resize(image_size),
    transforms.ToTensor(),
    transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
])

image = Image.open(input_image_path)
input_images = transform_image(image).unsqueeze(0).to('cuda')

# Prediction
with torch.no_grad():
    preds = model(input_images)[-1].sigmoid().cpu()
pred = preds[0].squeeze()
pred_pil = transforms.ToPILImage()(pred)
mask = pred_pil.resize(image.size)
image.putalpha(mask)

image.save("no_bg_image.png")

📌Лицензирование:

🟢Некоммерческое использование: Creative Commons license
🟠Коммерческое использование: на основании коммерческого соглашения с BRIA

🟡

Модель

🟡

Demo

@ai_machinelearning_big_data

#AI #ML #BiRefNet #RMBG #BRIAAI

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍29🔥10❤3🥰2🗿1

24K views11:00

Machinelearning

🌟Начался новый сезон PROD – первой в России олимпиады по промышленной разработке для школьников.

О начале второго сезона олимпиады объявил Т-Банк совместно с Центральным университетом и факультетом компьютерных наук НИУ ВШЭ.

В рамках PROD школьники смогут больше узнать о работе фронтенд-, бэкенд- и мобильных разработчиков, а также изучат создание программных систем, автоматизацию бизнес-процессов и разработку приложений для оптимизации бизнеса.

Участникам предложат решить реальные бизнес-кейсы ИТ-компаний.
На олимпиаду приглашаются школьники с 8 по 11 класс, которые знают информатику на базовом уровне и владеют аналитическим мышлением. Маскотом олимпиады стала амфибия аксолотль. Он символизирует умение справляться со сложными задачами в молодом возрасте.

Онлайн пройдут все части PROD кроме последней, на которую финалистов пригласят в Москву.

▶️Победителям PROD предоставят льготные условия для поступления в Центральный университет и НИУ ВШЭ, а также возможность пройти упрощенный процесс отбора на стажировку в Т-Банк. Регистрация на PROD продлится до 3 декабря.

🟡Страница проекта

@ai_machinelearning_big_data

#news #ai #ml

👍23❤8🔥5😁3

8.29K views15:19

Machinelearning

🌟 Aioli: фреймворк для алгоритмического смешивания данных обучения LLM.

Производительность LLM напрямую зависит от правильного выбора и пропорций наборов данных для обучения, например, юридических текстов, кода, математических формул.

Существующие методы выбора оптимального соотношения данных для обучения (data mixing) варьируются от подбора регрессионных моделей на основе результатов обучения до динамического обновления пропорций в процессе обучения.

Эмпирические исследования показывают, что ни один из существующих методов по отдельности не превосходит простую базовую стратифицированную выборку по среднему значению перплексии.

Linear Mixing Optimization (LMO) - унифицированный алгоритм, который объединяет существующие методы data mixing. В рамках LMO задача data mixing формулируется как оптимизационная задача, цель которой - минимизация средних потерь для каждой группы данных.

AIOLI - прикладной фреймворк, основанный на LMO.

AIOLI динамически оценивает параметры смешивания в процессе обучения, используя историю значений потерь и динамические пропорции смеси.

Тесты на 6 различных наборах данных SlimPajama показали, что AIOLI превосходит стратифицированную выборку, улучшая среднюю перплексию на тестовых данных на 0.28 балла.

AIOLI особенно эффективен в условиях ограниченных вычислительных ресурсов. В ситуациях, когда пропорции смеси данных определяются на основе коротких циклов обучения, AIOLI может динамически корректировать эти пропорции на протяжении всего цикла обучения.

⚠️ В репозитории AIOLI доступны примеры скриптов запуска и подробное описание ключей запуска.

▶️Установка и запуск:

# Clone repo
git clone https://github.com/HazyResearch/aioli.git
cd aioli

# Install requirements
pip install -r requirements.txt

# Run 
python main.py \ # add parameters

📌Лицензирование: Apache 2.0 License.

🟡

Arxiv

🖥

Github

@ai_machinelearning_big_data

#AI #ML #LLM #DataMixing #Aioli

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍20🔥7❤5🥰1

9.51K views17:01

Machinelearning

✔️

Perplexity запускает функцию покупки товаров.

Perplexity представляет новую функцию "Buy with Pro", позволяющую пользователям с подпиской Pro покупать товары, не покидая сервис. Функция доступна для жителей США и предлагает бесплатную доставку на все покупки.

Для товаров, не поддерживающих "Buy with Pro", пользователи будут перенаправлены на сайт продавца. Perplexity не получает комиссионные от продаж, совершенных через кнопку "Buy with Pro". В компании заявляют, что функция не преследует коммерческих целей. Помимо "Buy with Pro", Perplexity внедряет новые карточки товаров с описанием, ценой и обзорами, а также функцию "Snap to Shop", позволяющую искать товары по фотографии.
theverge.com

✔️

Бигтех угрожает энергетической безопасности Ирландии.

Рост энергоемких технологий ИИ ставит под угрозу энергетическую инфраструктуру Ирландии, что может негативно сказаться на ее позиции как европейского центра технологий. Дублин - третий по величине центр гипермасштабируемых ЦОДов в мире и крупнейший в Европе. По прогнозам, потребности ИИ в электроэнергии удвоятся к 2026 году и создадут дефицит в энергетических сетях страны.

Национальный оператор электросетей EirGrid ввел фактический мораторий на новые ЦОДы в районе Дублина. Он предупредил о возможном «массовом оттоке» центров обработки данных из страны, если ситуация не улучшится. В 2023 году ЦОДы потребили 21% всей измеренной электроэнергии, впервые превысив потребление городских домов.
politico.eu

✔️

Mistral представил новые модели и обновленные функции чат-бота.

Mistral выпустила ряд обновлений своих продуктов: платформа чат-ботов Mistral, Le Chat, теперь может осуществлять поиск в Интернете с цитированием источников, подобно ChatGPT и Perplexity. Она также получила инструмент «canvas», аналогичный ChatGPT Canvas, позволяющий пользователям изменять, преобразовывать или редактировать макеты веб-страниц и визуализации данных, используя модели ИИ Mistral.

Le Chat теперь может обрабатывать большие PDF-документы и изображения для анализа и обобщения, включая файлы, содержащие графики и уравнения.

Некоторые из новых возможностей Le Chat стали возможны благодаря новым моделям Mistral: Pixtral Large, которая может обрабатывать текст и изображения и Mistral Large 3, новой флагманской модели генерации текста. Все новые функции Le Chat останутся бесплатными в бета-версии.
mistral.ai

✔️

Новые AI-чипы Nvidia перегреваются в серверах.

Blackwell от Nvidia, предназначенные для задач ИИ, столкнулись с проблемами перегрева в серверных стойках, что вызывает опасения у клиентов относительно своевременного запуска новых ЦОДов.

Как сообщает The Information, перегрев возникает при подключении чипов Blackwell в серверные стойки, рассчитанные на установку до 72 чипов. По данным источников издания, Nvidia неоднократно просила поставщиков изменить конструкцию стоек для решения проблемы перегрева.
Новые чипы вдвое больше по площади, чем предыдущее поколение, и обеспечивают 30-кратное увеличение скорости обработки задач, связанных с задачами ИИ.
seekingalpha.com

✔️

AMD обгоняет Nvidia по вычислительной мощности в рейтинге Top500.

Суперкомпьютер El Capitan, созданный HPE с использованием гибридных процессоров AMD Instinct MI300A, занял 1 место в рейтинге Top500, значительно опередив конкурентов. Тестирование El Capitan в Ливерморской национальной лаборатории показало пиковую теоретическую производительность 2746,4 петафлопс и устойчивую производительность на тесте HPL 1742 петафлопс с эффективностью 63,4%.

El Capitan оснащен 43 808 устройствами AMD Instinct MI300A, содержащими 1,05 млн ядер Genoa и почти 10 млн потоковых мультипроцессоров на графических чиплетах.

В рейтинге Top500 за ноябрь 2024 года AMD лидирует по приросту вычислительной мощности, обеспечив 72,1% новых петафлопс. С учетом всех 500 систем AMD обгоняет Nvidia по совокупной пиковой производительности на ускорителях, занимая 44,9% против 40,3% у Nvidia.
nextplatform.com

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍32❤7🔥4👏2😁1

8.92K views06:20

Machinelearning

📌Туториал по файнтюну Qwen2-VL-7B с использованием экосистемы Hugging Face.

Статья на HF из цикла Open-Source AI Cookbook c подробным пошаговым описанием и примерами кода процесса тонкой настройки VLM Qwen2-VL-7B в области ответов на вопросы по изображениям с использованием библиотеки Transformer Reinforcement Learning (TRL). В качестве целевого датасета используется ChartQA, который содержит диаграммы разных типов в паре с вопросами и ответами.

Для обучения модели демонстрируется методы Supervised Fine-Tuning (SFT) с использованием библиотеки TRL, QLoRA, которая квантует веса LoRA, обеспечивая более низкие требования к памяти и повышенную эффективность обучения.

Отдельным разделом выделен процесс подготовки данных к обучению с помощью функции collate_fn, которая выполняет корректное извлечение и пакетную обработку данных и их форматирование для модели. Обучение модели осуществляется с помощью класса SFTTrainer.

В результате модель научилась отвечать на вопросы в соответствии с используемым датасетом. Оценить готовый файнтюн можно в демо на HF Space.

Дополнительно, в качестве альтернативы тонкой настройке, рассматривается использование промтинга с добавлением системного сообщения для контекстуализации ввода для модели, чтобы улучшить точность ее ответов.

▶️ Блокнот на Google Collab для практических экспериментов. Для его запуска понадобится платный тариф с GPU А100.

▶️Структура туториала по разделам:

🟢

Установка среды

🟢

Загрузка датасета

🟢

Загрузка модели и проверка производительности

🟢

Файнтюн модели с помощью TRL

🟠

Загрузка квантованной модели для обучения

🟠

Настройка QLoRA и SFTConfig