230K subscribers
3.88K photos
654 videos
17 files
4.49K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
📌 Awesome-list методов глубокого обучения на графах при смещении распределения.

Смещение распределения в графовых данных — это расхождение в распределении данных между обучающим и тестовым наборами, оно может существенно снизить производительность модели машинного обучения.

Репозиторий на Github, в котором собрана коллекция работ по обучению на графах в условиях смещения данных вне распределения (Out-of-Distribution, OOD) в трех основных сценария:

🟢обобщение графов OOD:

🟢адаптация графов во время обучения OOD:

🟢адаптация графов OOD во время тестирования.


Обобщение OOD предполагает, что целевые данные недоступны во время обучения модели, и фокусируется на повышении способности модели к обобщению, чтобы справляться с выборками из любых неизвестных доменов.

Адаптация во время обучения направлена на устранение расхождений в распределении между исходными и целевыми графовыми данными. Она служит для коррекции смещения наблюдений, переноса знаний между графами и смягчения негативных последствий аугментации данных.

Адаптация во время тестирования сосредоточена на настройке предварительно обученной модели на новые целевые данные, которые становятся доступными после начальной фазы обучения. Эта адаптация особенно важна в случаях, когда доступ к исходным данным ограничен.

В каждом сценарии рассматриваются модельно-ориентированные и ориентированные на данные подходы.

▶️Для многих статей предоставлены ссылки на код, реализующий описанные методы.


🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #GNN #Giihub #AwesomeList
Please open Telegram to view this post
VIEW IN TELEGRAM
👍165🔥5
📌Руководство по эффективному использованию промптов для LLM от разработчиков из GoogleDeepMind.

Туториал ориентируется на нетехническую аудиторию, которая имеет опыт взаимодействия с большими языковыми моделями.

В первой половине представлены ментальные конструкции природы посттренинга и промптов. Вторая половина содержит более конкретные предписания и высокоуровневую процедуру промпт-инжиниринга.

Авторы, Varun Godbole и Ellie Pavlick подчеркивают, что поиск «идеальной» подсказки — это итеративный процесс, аналогичный настройке модели, который в лучшем случае является эмпирическим, а в худшем - алхимическим.

▶️ Содержание:

🟢Для кого предназначен этот документ?
🟢Зачем нужно это руководство?
🟢Background трейна: предварительная и последующая подготовка
🟢Рекомендации по промптам
🟢Рудиментарное "руководство по стилю" для промптов
🟢Процедура итерации новых системных инструкций
🟢Некоторые мысли о том, когда полезна LLM
🟢Дополнительные ресурсы


📌Лицензирование: Creative Commons Attribution 4.0 International Public License.


🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #Prompt #Github #Tutorial
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥24👍115
📎 ML в медицине: дайджест за 3 - 10 ноября 2024 г.

▶️Модели, бенчмарки и датасеты

🔘GSCo: совместное использование LLM общего назначения и экспертных моделей в медицинской визуализации.
GSCo (Generalist-Specialist Collaboration) - система, которая использует преимущества моделей общего назначения (GFM) и экспертных моделей для повышения точности анализа медицинских изображений.

🔘PASSION: датасет дерматологии южноафриканского населения.
Набор данных из 4901 фотографий заболеваний кожи 1653 пациентов, собранный в странах Африки к югу от Сахары.

🔘MediQ: бенчмарк клинического мышления.
Интерактивный бенчмарк для оценки способности LLM к сбору информации посредством дополнительных вопросов.

🔘BrainSegFounder: 3D-анализ изображений мозга.
Базовая модель для сегментации мультимодальных нейроизображений с двухэтапным подходом к предварительному обучению.

🔘Zebra-Llama: контекстно-зависимая LLM для редких заболеваний.
Модель фокусируется на синдроме Элерса-Данлоса (СЭД) в качестве основной специализации.

▶️Фреймворки и методологии

🔘AutoProteinEngine: платформа на основе LLMs для автоматизированного машинного обучения в инженерии белковю
LLM с AutoML для решения задач, связанных с выбором модели для последовательностей белков, графовых представлений, автоматической оптимизацией гиперпараметров и автоматическим поиском данных в базах данных белков.

🔘Label Critic: контроль качества разметки в медицинских датасетах с помощью LLM.
Метод, использующий VLM для автоматического выявления и сравнения ошибок в разметке органов на КТ-изображениях.

🔘MEG: Методика дополнения LLM медицинскими QA.
Параметрически эффективный метод для насыщения LLM дополнительными медицинскими знаниями.

🔘Medprompt: анализ эффективности OpenAI o1-preview в медицинских задачах.
Medprompt использует цепочки рассуждений и ансамблирование, чтобы улучшить результаты инференса GPT-4 в медицинских задачах.

▶️Медицинские LLM-приложения

🔘CataractBot: чат-бот для помощи пациентам, перенесшим операцию по удалению катаракты.
Чат-бот на базе WhatsApp, работающий по принципу «сопровождающий эксперт» с использованием LLM для поддержки пациентов, перенесших операцию по удалению катаракты.

🔘CheX-GPT: использование LLM для маркировки рентгенограмм грудной клетки.
Классификатор, предназначенный для автоматической маркировки рентгенограмм грудной клетки (CXR) с использованием LLM.

🔘CardioAI: мультимодальная система на основе ИИ для мониторинга кардиотоксичности, вызванной лечением рака.
Система, объединяющая носимые устройства и голосовые помощники на базе LLMs для мониторинга симптомов в амбулаторных условиях

🔘HealthQ: система для оценки способностей LLM к поддержанию диалога.
Система оценки навыков LLM в формулировке медицинских вопросов во время диалога с пациентом.

▶️Исследования и обзоры

*️⃣Использование LLMs в медицинской робототехнике: обзор и перспективы.
Возможности и проблемы, связанные с разработкой роботов для здравоохранения, оснащенных LLM. Спойлер - это перспективное направление

*️⃣Критический взгляд на доменно-адаптивное обучение LLM и VLM для медицины.
Ожидалось, что доменно-адаптивное дообучение (DAPT) на медицинских текстах и изображениях позволит улучшить эффективность моделей в решении задач медицинской QA. Но есть нюанс.

*️⃣Исследование применимости LLM для специализированной онкологической помощи.
Google Research исследовал эффективность системы ИИ для диалоговой диагностики в области лечения рака молочной железы без специальной тонкой настройки моделей.

🔜 Читать полный дайджест
🔜 Зеркало

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
27👍13🔥4🗿1
📌 Практические упражнения и дополнительные материалы к книге "Build a Large Language Model (From Scratch)"

Репозиторий на Github c прикладными упражнениями, ноутбуками с кодом для разработки, предварительной подготовки и тонкой настройке LLM-модели типа GPT по одной из лучших книг о построении LLM с нуля.

▶️ О книге:
В книге вы узнаете и поймете, как работают большие языковые модели изнутри, создавая собственную LLM шаг за шагом, c подробным объяснением каждого этапа понятным языком, диаграммами и примерами.

Метод, описанный в книге демонстрирует подход, используемый при создании крупных фундаментальных моделей, таких как те, что лежат в основе ChatGPT.

В репозитории к каждой главе книги соответствуют несколько (3-4) прикладных примеров в формате ipynb или в виде исполняемого python-скрипта. Код ориентирован на широкую аудиторию, разработан для запуска на обычных ноутбуках и не требует специализированного оборудования.

▶️Главная ценность репозитория - дополнительные практические материалы, которые помогут глубже изучить тонкости и нюансы процесса настройки и обучения LLM:

Настройка

🟢Советы на настройке Python
🟢Установка пакетов и библиотек Python
🟢Руководство по настройке среды Docker

Глава 2: Работа с текстовыми данными

🟠Сравнение различных реализаций Byte Pair Encoding (BPE)
🟠Понимание разницы между embedding и линейными слоями
🟠Dataloader Intuition с простыми числами

Глава 3: Код механизмов внимания

🟢Сравнение эффективных реализаций Multi-Head Attention
🟢Буферы PyTorch

Глава 4: Реализация модели GPT с нуля

🟠Анализ FLOPS

Глава 5: Предварительное обучение на немаркированных данных

🟢Альтернативная загрузка весов с HuggingFace с использованием Transformers
🟢Предварительное обучение GPT на наборе данных проекта Gutenberg
🟢Добавление дополнительных функций в цикл обучения
🟢Оптимизация гиперпараметров для предварительного обучения
🟢Создание пользовательского интерфейса для взаимодействия с LLM
🟢Преобразование GPT в Llama
🟢Llama 3.2 с нуля
🟢Memory-efficient загрузка модели

Глава 6: Тонкая настройка для классификации

🟠Дополнительные эксперименты по точной настройке различных слоев и использованию более крупных моделей
🟠Тонкая настройка различных моделей на основе датасета обзоров фильмов IMDB объемом 50 тыс. строк.
🟠Создание пользовательского интерфейса для взаимодействия с классификатором спама на основе GPT

Глава 7: Тонкая настройка для следования инструкциям

🟢Утилиты набора данных для поиска близких дубликатов и создания записей в пассивном залоге
🟢Оценка ответов на инструкции с использованием API OpenAI и Ollama
🟢Создание датасета для точной настройки инструкций
🟢Улучшение набора данных для точной настройки инструкций
🟢Создание набора данных предпочтений с помощью Llama 3.1 70B и Ollama
🟢DPO для процедуры LLM Alignment
🟢Создание пользовательского интерфейса для взаимодействия с моделью GPT с тонкой настройкой инструкций


🖥Github


@ai_machinelearning_big_data

#AI #ML #LLM #Tutorial #Github
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍69🔥2011🥰2👏1
🌟 AlphaFold 3: система моделирования структуры белков.

AlphaFold 3 — конвейер логического вывода системы ИИ, разработанной Google DeepMind, которая произвела революцию в области прогнозирования структуры белков.

Пакет AlphaFold 3 включает в себя все необходимое для теоретического моделирования структуры белка. Для запуска системы необходимо сконфигурировать входной файл JSON, содержащий информацию о белке, например, его идентификатор и аминокислотную последовательность.

Вместе с программным конвейером инференса доступна подробная документация по входным и выходным данным системы, решению известных проблем, настройкам производительности и установке с последующим запуском с помощью Docker.

Для локального использования понадобится ОС Linux (AlphaFold 3 не поддерживает другие операционные системы) примерно 1 ТB дискового пространства для хранения генетических баз данных (рекомендуется SSD), 64 GB RAM, GPU NVIDIA с Compute Capability 8.0 или выше.
Исходные данные, содержащие 5120 токенов, могут поместиться на одном NVIDIA A100 80 ГБ или одном NVIDIA H100 80 ГБ.

⚠️ Получение параметров модели возможно через подачу заявки в Google DeepMind, доступ предоставляется в течении 2-3 дней по итогам рассмотрения обращения.

⚠️ Любая публикация, основанная на результатах, полученных с использованием AlphaFold 3, должна ссылаться на статью «Accurate structure prediction of biomolecular interactions with AlphaFold 3».

⚠️ AlphaFold 3 не является официально поддерживаемым продуктом Google и ее результаты не предназначены, не проверены и не одобрены для клинического использования.


📌Лицензирование: CC-BY-NC-SA 4.0


🟡Техотчет
🟡Demo
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #DeepMind #AlfaFold3
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
28👍7🔥7🗿1
⚡️ Релиз Qwen2.5-Coder.

Qwen2.5-Coder - это семейство из 6 LLM : 0,5, 1,5, 3, 7, 14, 32 млрд. параметров, ориентированное на понимание и написание кода на 40 языках программирования.

По сравнению с предыдущим поколением моделей CodeQwen1.5, в Qwen2.5-Coder значительно улучшена генерация, обоснование и исправление кода. При этом сохранились сильные навыки в математике и общих компетенциях.

Семейство основано на Qwen 2.5, количество обучающих лексем было увеличено до 5,5 трлн, в корпус данных вошли исходный код, текстовые кодовые основания, синтетические данные и т. д.

Способности в области программирования старшей модели, Qwen2.5-Coder-32B соответствуют уровню GPT-4o.

Модели 0.5В, 1.5B и получили контекст в 32 тыс. токенов, а , 14В и 32B - 128 тыс. токенов.

В открытый доступ на HuggingFace опубликованы 36 моделей семейства: базовые модели, instruct-версии и GGUF, AWQ, GPTQ-Int8, GPTQ-Int4 форматы инструктивных версий.


⚠️ В ближайшее время (сроки не указаны), разработчики Qwen-Coder планируют запустить сервис real-time кода на сайте Tongyi . Сервис будет поддерживать генерацию веб-сайтов, создание мини-игр и диаграмм данных одним щелчком мыши.


📌Лицензирование:

🟢Модели 0.5В, 1.5В, 7В, 14В и 32В - Apache 2.0 License.
🟠Модель 3B - Qwen-Research license.


🟡Страница проекта
🟡Коллекция моделей на HF
🟡Документация
🟡Arxiv
🟡Demo
🟡Сообщество в Discord
🖥Github


@ai_machinelearning_big_data

#AI #ML #LLM #QwenCoder
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍27🔥157😁1🗿1
✔️ Near Protocol планирует создать самую большую в мире LLM с открытым исходным кодом.

Компания Near Protocol на конференции Redacted в Бангкоке объявила о планах по созданию языковой модели, состоящей из 1,4 трлн. параметров. Новая модель будет в 3,5 раза больше, чем самая большая модель Llama.

Разработка будет осуществляться с помощью краудсорсинга, любой желающий сможет присоединиться к обучению модели. Финансирование проекта, стоимость которого оценивается в 160 млн. долларов, будет осуществляться за счет продажи криптовалютных токенов. Для обучения такой большой модели потребуются «десятки тысяч GPU в одном месте», что потребует разработки новой технологии распределенного обучения.
cointelegraph.com

✔️ X проводит эксперименты с бесплатным доступом к чат-боту Grok AI.

X (ex-Twitter) планирует запустить ограниченную бесплатную версию чат-бота Grok для всех пользователей, значительно расширив аудиторию использования генеративного ИИ. Сейчас Grok доступен только подписчикам X Premium, которых насчитывается около 1,3 миллиона человек, это 0,26% от всей пользовательской базы X.

Бесплатная версия, хотя и с ограниченным использованием (10 запросов каждые 2 часа к Grok2, 20 запросов каждые 2 часа к Grok2-mini, анализ 3 изображений в день), позволит большему числу людей опробовать Grok и может привлечь больше подписок X Premium. Это также может помочь материнской компании X Corp, привлечь критически важные инвестиции в свое ответвление xAI.
socialmediatoday.com

✔️ Китайские технологические гиганты заинтересованы в специалистах в области ИИ.

В Китае обостряется борьба за таланты в области ИИ: местные технологические компании предлагают высокие зарплаты, чтобы привлечь лучших специалистов. Xiaomi проводит специальную сессию по найму экспертов в области ИИ, включая специалистов по ИИ-моделям, компьютерному зрению, глубокому обучению, автономному вождению и обработке естественного языка.

Компания предлагает ускоренный процесс найма для некоторых кандидатов, позволяя им пропустить письменные тесты и напрямую пройти собеседование с соответствующим бизнес-подразделением. Этот шаг обусловлен растущим спросом на специалистов по ИИ, особенно на экспертов по обработке естественного языка, которых активно ищут как крупные компании, так и стартапы.
scmp.com

✔️ NXP разработала ML-алгоритм для оптимизации процесса тестирования чипов.

Алгоритм, аналогичный системам рекомендаций в электронной коммерции, выявляет взаимосвязи между различными тестами и определяет, какие из них дублируют друг друга.

В ходе испытаний на семи микроконтроллерах и процессорах он позволил сократить количество тестов на 42-74%. Несмотря на высокую эффективность, инженеры NXP отмечают необходимость проверки рекомендаций алгоритма с точки зрения инженерной целесообразности.
spectrum.ieee.org

✔️ Ubitus представит инновации в области ИИ на NVIDIA AI Summit Japan 2024.

Ubitus, лидер облачного стриминга, продемонстрирует 3 инновации на базе технологий NVIDIA на саммите в Токио 13 ноября , которые могут изменить не только игровую индустрию, но и другие отрасли.

Первая - робот с искусственным интеллектом, управляемый LLM, работающей на GPU H100.

Вторая - цифровые люди в Unreal Engine 5 на базе NVIDIA ACE будут отличаться памятью разговора, поиском информации c помощью RAG и многоязычными возможностями, обеспечивая динамическое, контекстно-зависимое взаимодействие.

Третья инновация - Ubi-chan, виртуальный персонаж с ИИ, работающий на технологии преобразования текста в речь NVIDIA Riva, с функциями мгновенной реакции на голосовые команды и преобразованием речи в плавные движения губ для реалистичного исполнения.
businesswire.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
13👍13🔥4
🌟 NeuroFly: платформа для реконструкции нейронов мозга.

NeuroFly - платформа для полуавтоматической реконструкции из 3D-изображений отдельных нейронов в масштабе всего мозга, использующая глубокое обучение для сегментации и деконволюции изображений.

NeuroFly работает в 3 этапа: сегментация, соединение и корректировка:

🟢На первом этапе выполняется автоматическая сегментация изображения, за которой следует скелетизация для создания чрезмерно сегментированных фрагментов нейронов без ветвей.

🟢На этапе соединения используется 3D-метод отслеживания пути на основе изображений, который устраняет пробелы между сегментами нейронов, не распознанными на первом этапе. Агент перемещается вдоль нейрита, руководствуясь сигналами управления, предсказанными по локальному объему изображения, центрированному на нем. Для прогнозирования вектора кривизны, который определяет локальное продолжение пространственной кривой, используется 3D-сверточная нейронная сеть.

🟢Заключительный этап предполагает участие человека для проверки нескольких неразрешенных позиций. NeuroFly предлагает инструменты корректуры на основе набора плагинов napari, которые позволяют вручную соединять и корректировать сегменты, создавая полные реконструкции нейронов в 3D-визуализации.

NeuroFly поддерживает работу с различными типами данных, в том числе изображения целого мозга в иерархических структурах (IMS, H5, Zarr) в формате Imaris, а также небольшие объемы изображений, сохраненные в формате TIFF с одним каналом.

Функции, основанные на глубоком обучении - сегментация и деконволюция изображений, реализованы в tinygrad, который может работать практически на любом GPU (NVIDIA, AMD, Apple, Qualcomm, Intel).

В NeuroFly реализован экспорт реконструированных нейронов в формате SWC.6

Результаты тестирования NeuroFly показали, что метод аугментации данных значительно улучшает производительность модели сегментации в сложных сценариях, содержащих дендриты и загрязненные изображения. Этап соединения значительно увеличивает показатель полноты во всех тестах с небольшой потерей точности, приводя к общему улучшению показателя F1.


📌Лицензирование: GPL-3.0 License.


🟡Arxiv
🟡Набор датасетов
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Neurobilogy #NeuroFly
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥30👍96