BigData
3.35K subscribers
766 photos
93 videos
3 files
846 links
Data Science : Big Data : Machine Learning : Deep Learning : LLM : Нейроннные сети

По всем вопросам @evgenycarter
Download Telegram
CogView4-6B – свежая Text2Image
Модель генерации изображений, разработанный командой THUDM.
.

Архитектура модели 6B DIT и 9B TextEncoder Демка показывает очень высокое качество следования заданному промпту.

CogView4 поддерживает очень длинный контекст.

Генерирует изображения от 512 до 2048 пикселей.

➡️Model: https://huggingface.co/THUDM/CogView4-6B
➡️Demo: https://huggingface.co/spaces/THUDM-HF-SPACE/CogView4
➡️Github: https://github.com/THUDM/CogView4
➡️Paper: https://arxiv.org/abs/2403.05121

👉 @bigdata_1
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21
Media is too big
VIEW IN TELEGRAM
PhysX-3D: Physical-Grounded 3D Asset Generation

3D-моделирование переходит из виртуального в физический мир. Существующие методы генерации 3D в основном сосредоточены на геометрии и текстурах, но игнорируют физически обоснованное моделирование. В результате, несмотря на быстрый прогресс в области генеративных 3D-моделей, синтезированные объекты часто лишены богатых и важных физических свойств, что ограничивает их применение в реальных задачах, таких как симуляции и embodied AI.

В качестве первого шага к решению этой проблемы мы предлагаем PhysX — сквозную парадигму генерации физически обоснованных 3D-объектов.

1. Чтобы преодолеть критический дефицит 3D-датасетов с физической аннотацией, мы представляем PhysXNet — первый датасет, систематически снабжённый физическими метками по пяти базовым измерениям: абсолютный масштаб, материал, аффордансы, кинематика и функциональное описание. Для этого мы разработали масштабируемый процесс аннотирования с участием человека, основанный на vision-language моделях, что позволяет эффективно создавать физически ориентированные объекты из исходных 3D-данных.

2. Кроме того, мы предлагаем PhysXGen — прямой фреймворк для генерации физически обоснованных 3D-объектов по изображениям, который внедряет физические знания в предобученное 3D-структурное пространство. В частности, PhysXGen использует двухветвевую архитектуру для явного моделирования скрытых связей между 3D-структурами и физическими свойствами, что позволяет получать 3D-объекты с правдоподобными физическими характеристиками при сохранении высокого качества геометрии.

Обширные эксперименты подтверждают превосходную производительность и высокую способность к обобщению предлагаемого подхода. Весь код, данные и модели будут опубликованы для поддержки будущих исследований в области генеративного физического ИИ.

➡️Github: https://github.com/ziangcao0312/PhysX-3D

➡️Paper: https://arxiv.org/pdf/2507.12465v1.pdf

➡️Dataset: https://huggingface.co/datasets/Caoza/PhysX-3D

👉 @bigdata_1
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1👀1
LaneSegNet: Map Learning with Lane Segment Perception for Autonomous Driving

➡️Github: https://github.com/OpenDriveLab/LaneSegNet

➡️Paper: https://arxiv.org/abs/2312.16108v1

👉 @bigdata_1
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
Обзор математики для начинающего ML-инженера

Доступное объяснение основных аспектов высшей математики, которые потребуются ML‑щику разного грейда в рабочих сценариях — без дотошных доказательств и с обилием визуальных и численных примеров.

Этот текст содержит доступное объяснение основных частей высшей математики, которые могут потребоваться ML‑щику разного грейда в рабочих сценариях — без дотошных доказательств и с обилием визуальных и численных примеров.

Предвосхищая возможные вопросы: я ставлю целью рассказать про минимальный набор знаний, с которым можно будет уже самостоятельно погружаться в более интересные и прикладные сценарии. Я не планирую рассмотрение в этих постах более упоротных разделов и деталей — с такой глубиной можно не на один год увязнуть при знакомстве с математикой для ML


В статье я постараюсь с примерами, пытаясь все же соблюдать небольшую формальность, разложить по полочкам ключевые моменты из высшей математики, которые точно понадобятся при изучении и впитывании машинного обучения в 2025.

https://habr.com/ru/articles/942114/

👉 @bigdata_1
👍62
This media is not supported in your browser
VIEW IN TELEGRAM
📌 Awesome Artificial Intelligence — это огромная подборка ресурсов по искусственному интеллекту.
В репозитории собраны статьи, курсы, книги, инструменты и библиотеки, охватывающие различные направления AI: машинное обучение, глубокое обучение, обработка естественного языка, компьютерное зрение и многое другое.

Этот список будет полезен тем, кто хочет системно изучать ИИ или просто расширить свой набор инструментов. Отличный вариант для закладок, если вы занимаетесь исследованием или разработкой в сфере AI.

https://github.com/owainlewis/awesome-artificial-intelligence

👉 @bigdata_1
👍3👏2
🛠 В блоге Anthropic вышел разбор того, как они создают инструменты для агентов, которые помогают улучшать процесс написания текста.

В статье описываются подходы к построению таких тулов, их интеграция в пайплайн, а также примеры использования для редактирования, анализа и структурирования текста. Фактически это набор "помощников", которые делают агента более продуктивным и гибким при работе с длинными документами.

https://www.anthropic.com/engineering/writing-tools-for-agents

👉 @bigdata_1
👍1
Media is too big
VIEW IN TELEGRAM
Проект Paper2Agent — это инструмент, который превращает научные статьи в работающие AI-агенты. Он использует LLM для анализа PDF-документов и автоматически извлекает оттуда алгоритмы, описания и эксперименты, превращая их в исполняемый код.

Идея в том, чтобы сократить разрыв между теорией и практикой: вместо того чтобы вручную вникать в детали статьи и переписывать код, Paper2Agent позволяет быстро получить прототип агента, основанный на описанном методе.

Поддерживаются:

- Разбор PDF статей с извлечением ключевых компонентов
- Автоматическая генерация кода для AI-агентов
- Возможность тестирования и доработки полученного результата

Полезно для исследователей, инженеров и разработчиков, которые хотят быстрее экспериментировать с новыми идеями из научных публикаций.

https://github.com/jmiao24/Paper2Agent

👉 @bigdata_1
😨3👍2
DeepSeek снова удивили — они выпустили новую OCR-модель, но это не просто распознавалка текста. Это фактически система оптического сжатия контекста.

Как это работает

Классический OCR просто: получил картинку или PDF → распознал символы → выдал текст.
DeepSeek OCR идёт дальше: получает документ → сжимает его как визуальный объект → восстанавливает смысл уже в текстовой форме.

Архитектура

Модель состоит из двух частей — DeepEncoder и DeepSeek-3B-MoE Decoder, где главный герой — именно DeepEncoder.
Он превращает изображение в набор vision-токенов, эффективно сжимая его.

Под капотом — SAM + CLIP:

- SAM извлекает структуру документа — текст, заголовки, формулы, подписи, иллюстрации.
- CLIP добавляет семантическое понимание: *о чём* документ в целом.

Далее идёт сверточное сжатие, которое уменьшает количество токенов в 10–20 раз, почти без потери смысла.

- Сжатие ×10 → точность ~97%
- Сжатие ×20 → точность ~60%

После этого визуальные токены идут в LLM-декодер, который восстанавливает итоговый текст.


DeepSeek фактически нашли способ хранить в 10 раз больше контекста при том же лимите токенов.
Теперь модель может держать не «сырой текст», а его компактное визуальное представление.
Например, вместо 10 страниц текста в памяти — 1 страница эмбеддингов, но смысл сохраняется.

Это может стать альтернативой RAG, ведь модель работает с текстами, таблицами, чертежами, формулами и изображениями — полная мультимодальность.
При этом на одной A100 GPU она обрабатывает 200 000+ страниц в день.


На OmniDocBench DeepSeek OCR обходит GOT-OCR2.0, используя в 2.5 раза меньше токенов,
и превосходит MinerU2.0, расходуя в 9 раз меньше ресурсов.
То есть это новый SOTA по точности и эффективности.

Всё доступно в опенсорсе под лицензией MIT: https://github.com/deepseek-ai/DeepSeek-OCR

👉 @bigdata_1
👍3
Media is too big
VIEW IN TELEGRAM
Glyph: масштабирование контекстных окон через визуально-текстовую компрессию

Это фреймворк, предназначенный для увеличения длины контекста с помощью визуально-текстовой компрессии. Вместо расширения контекстных окон, основанных на токенах, Glyph преобразует длинные текстовые последовательности в изображения и обрабатывает их с помощью vision–language моделей (VLMs). Такой подход превращает задачу моделирования длинного контекста в мультимодальную проблему, значительно снижая вычислительные и память-затраты при сохранении семантической информации.

https://github.com/thu-coai/Glyph

👉 @bigdata_1
👍1
Трехслойная нейронная сеть. Она состоит из трех основных слоев: входного, скрытого и выходного. Каждый слой включает несколько нейронов, которые соединены между собой с помощью весов (обозначены как W).

Основные элементы сети:
- Входной слой: Принимает входные данные P и передает их на первый скрытый слой.
- Скрытый слой: Выполняет обработку данных с использованием весов W1 и смещений b1. Результат обработки передается на второй скрытый слой.
- Выходной слой: Генерирует итоговый результат, используя веса W3 и смещения b3.

Формулы:
1. Для первого слоя: a1 = f1(W1p + b1).
2. Для второго слоя: a2 = f2(W2a1 + b2).
3. Для третьего слоя: a3 = f3(W3a2 + b3).

Обозначения:
- P — входные данные.
- W1, W2, W3 — матрицы весов для каждого слоя.
- b1, b2, b3 — смещения для каждого слоя.
- f1, f2, f3 — функции активации.

👉 @bigdata_1
👍4💩2
👑 Baidu выкатила ERNIE 4.5 VL. Новый король мультимодалок?

Подвиньтесь, OpenAI и Google. Baidu утверждает, что их новая флагманская MLLM (мультимодальная модель) ERNIE 4.5 VL задает новый стандарт.

Что в ней такого (по заявлениям):

- Убийца гигантов: Модель, как говорят, обходит GPT-4o, GPT-4V и Gemini 1.5 Pro на 23 (!!!) основных мультимодальных бенчмарках.

- Видит, читает, смотрит: Понимает не только текст и картинки по отдельности, но и их связки, а также видео.

- Внимательна к мелочам: Особенно сильна в "fine-grained" (мелкодетальном) распознавании. Не просто "собака", а "золотистый ретривер с красным мячиком".

- Понимает длиннопост: Заявлена поддержка "экстремально длинного" текста.

- Полиглот: Имеет сильные показатели в задачах на китайском языке.


Это пока "бумажный" SOTA. Сами веса модели (чекпоинты) на Hugging Face пока недоступны. Так что ждем, когда Baidu позволит "пощупать" этого зверя в деле.

https://huggingface.co/baidu/ERNIE-4.5-VL-28B-A3B-Thinking

👉 @bigdata_1
2👍1
XLTable - OLAP Cервер для нового стека данных
Работайте с ClickHouse, BigQuery, Snowflake из сводной таблицы Excel.

Предоставьте пользователям возможность самостоятельно работать с данными, с помощью знакомого инструмента.

📈Ключевые возможности XLTable:
• Аналог MS OLAP (SSAS) для больших данных
• Интеграция с MS Excel по протоколу XMLA
• Поддержка ClickHouse, BigQuery, Snowflake
• Скоро: YDB, Greenplum
• Множество групп мер, иерархий и измерений в одном кубе
• Гибкие настройки кэширования
• Развёртывание внутри вашей инфраструктуры или в облаке

🔒Безопасность:
• Интеграция с LDAP
• Разграничение доступа на уровне мер, измерений и их членов

⚙️Производительность:
• Безлимитное количество мер и измерений
• Работа из Excel c миллиардами строк данных
• Все расчеты производятся на уровне ClickHouse
• Отличные возможности для масштабирования

Хочешь получить бесплатную пробную версию на 30 дней?

👉🏻Напиши «OLAP» - покажем демо и поможем с настройкой

Контакт: https://t.iss.one/vorobiova_anastasia
Сайт с информацией о продукте: https://xltable.com/
🔥8👍54
🏆 Топ 6 типов моделей ИИ


1. Machine Learning Models (Модели машинного обучения)
- Описание: учатся на размеченных или неразмеченных данных для выявления закономерностей, классификации или прогнозирования результатов. Включают подходы с учителем, без учителя и с частичным обучением.
- Примеры: деревья решений, Random Forest, SVM, XGBoost (с учителем); K-Means, DBSCAN, PCA (без учителя); Label Propagation, Semi-Supervised SVM (с частичным обучением).
- Рабочий процесс: сбор размеченных данных → очистка и предобработка → выбор алгоритма ML → обучение модели → мониторинг и обновление → прогнозирование на новых данных → настройка гиперпараметров → проверка производительности.

2. Deep Learning Models (Модели глубокого обучения)
- Описание: используют многослойные нейронные сети для изучения сложных иерархических паттернов, особенно эффективны для неструктурированных данных (изображения, аудио, текст).
- Примеры: CNN (для изображений), RNN, LSTM (для последовательностей), трансформеры, автоэнкодеры.
- Рабочий процесс: сбор больших объёмов данных → нормализация входных данных → построение нейронной сети → передача входных данных → вычисление ошибки предсказания → повторение циклов обучения → обновление весов → обратное распространение градиентов.

3. Generative Models (Генеративные модели)
- Описание: изучают распределение данных и генерируют новые данные, имитирующие исходные. Применяются для создания контента, синтеза изображений и генерации текста.
- Примеры: GPT-4 (текст), DALL·E, MidJourney (изображения), MusicLM (аудио), StyleGAN (лица), AlphaCode (код).
- Рабочий процесс: обучение на датасете → изучение паттернов данных → получение пользовательского ввода → обработка через модель → вывод сгенерированного медиа → уточнение с помощью обратной связи → генерация нового контента → выборка из выходных данных.

4. Hybrid Models (Гибридные модели)
- Описание: комбинируют несколько техник ИИ (например, правила + нейронные сети) для использования преимуществ каждой. Применяются там, где важны точность и контроль.
- Примеры: RAG (LLM + поиск), ML + боты на основе правил, AutoGPT с инструментами, чат-боты с API.
- Рабочий процесс: объединение типов моделей → обучение компонентов отдельно → построение логической связи → ввод через конвейер → получение конечного результата → разрешение конфликтов → агрегация выходных данных → маршрутизация на основе логики.

5. NLP Models (Модели обработки естественного языка)
- Описание: обрабатывают и понимают человеческий язык. Используются в чат-ботах, переводчиках, сумматорах и виртуальных ассистентах.
- Примеры: BERT, GPT-3.5 / GPT-4, T5, RoBERTa, Claude.
- Рабочий процесс: очистка необработанного текста → токенизация предложений → встраивание слов → применение слоёв внимания → генерация финального текста → постобработка результата → декодирование или классификация → передача в модель.

6. Computer Vision Models (Модели компьютерного зрения)
- Описание: интерпретируют визуальное содержимое, выявляя паттерны и особенности в изображениях или видео. Применяются в распознавании лиц, медицинской визуализации и др.
- Примеры: ResNet, YOLO, VGGNet, EfficientNet, Mask R-CNN.
- Рабочий процесс: загрузка данных изображений → изменение размера и нормализация → извлечение пиксельных признаков → применение слоёв CNN → вывод меток/коробок → постобработка результатов → классификация или локализация → обнаружение пространственных паттернов.

👉 @bigdata_1
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21
Ваши модели заслуживают продакшн. Освойте MLOps и CI/CD для ML с нуля!
Практический курс от экспертов OTUS

Вы обучаете модели, добиваетесь отличных метрик — но деплой так и остаётся в списке «сделать потом»? Курс «MLOps» — это про то, как превратить ваши модели в надёжные, автоматизированные сервисы. На практике разберёте CI/CD, контейнеризацию, мониторинг и управление инфраструктурой. Вы поймёте, как выстраивать полный цикл: от хранения данных и исходников до переобучения и развёртывания моделей в k8s.

Вы научитесь работать с Docker, MLflow, Airflow, Prometheus, Grafana и Kafka. Разберётесь, как организовать конвейер обучения и обновлений, как обрабатывать ошибки и следить за метриками в проде. И главное — перестанете «собирать пайплайны вручную», заменив хаос на надёжные процессы.

Пройдите короткое вступительное тестирование и получите скидку на обучение по промокоду WELCOME_MLOPS5: https://vk.cc/cRni2X

предложение актуально до 1 декабря 2025 года

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576
LLM Council

Идея этого репозитория в том, что вместо того, чтобы задавать вопрос вашему любимому поставщику LLM (например, OpenAI GPT 5.1, Google Gemini 3.0 Pro, Anthropic Claude Sonnet 4.5, xAI Grok 4 и т.д.), вы можете объединить их в свой «Совет LLM». Этот репозиторий — это простое локальное веб-приложение, которое выглядит как ChatGPT, но использует OpenRouter, чтобы отправлять ваш запрос сразу нескольким LLM, затем просит их оценить и ранжировать ответы друг друга, а в конце Председатель Совета генерирует итоговый ответ.

Подробно, что происходит при отправке запроса:

Этап 1: Первые мнения. Запрос пользователя передаётся каждому LLM отдельно, и собираются их ответы. Индивидуальные ответы показываются во вкладках, чтобы пользователь мог просмотреть их по одному.

Этап 2: Рецензирование. Каждый LLM получает ответы остальных моделей. Их идентичность скрыта, чтобы исключить предвзятость. Модель должна ранжировать ответы по точности и глубине.

Этап 3: Итоговый ответ. Назначенный Председатель Совета LLM берёт все ответы моделей и объединяет их в один финальный ответ, который показывается пользователю.

https://github.com/karpathy/llm-council

👉 @bigdata_1
👍42
Вы не сможете это развидеть: краткий гайд по определению LLM-текстов

Но сейчас я вижу то, что я не просто не люблю, я ненавижу — нейрослоп. Это статьи, которые полны логических ошибок, не отвечает на вопрос заданный в заголовке, с кучей воды. Это не просто дно копирайтинга, это "снизу постучали". Это не было бы проблемой, будь это плохие авторы. Плохие авторы конечны. LLM может генерировать гигабайты текста, только плати за токены, и весьма недорого — у меня есть несколько проектов, в которых LLM используется для NLP, и там ощутимые обьемы входа и генерации, и знаете сколько я потратил за все время существования этих проектов на работу и тесты? Долларов пять. Дешевый некачественный копирайтинг еще никогда не был ТАК дешев.

Возможно этот слоп замечательно индексируется, но я считаю что это путь в никуда для хабра как сообщества специалистов.
Потому что как только таких статей станет большинство — из сообщества уйдут те самые специалисты, просто потому что ну зачем им читать воду. Я закрываю эти статьи ровно сразу же, как только опознаю ИИ. Если их станет слишком много — я просто уйду. И чем больше уходит активных авторов, тем меньше становится интересных статей, и тем больше в процентном соотношении такой воды, тем больше уходит ядерная аудитория. Замкнутый круг.

https://habr.com/ru/articles/967428/

👉 @bigdata_1
👍1