223K subscribers
3.87K photos
646 videos
17 files
4.48K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🌟 А вот еще ответочка для Миядзаки.

Что было бы, если студия Ghibli сняла «Властелина колец»?

Бюджет в 250 долларов на Kling и 9 часов на монтаж трейлера «Братства Кольца», чтобы воплотить эту идею в жизнь.

- Сначала автор сделал скриншоты всех 102 кадров трейлера (смотри 2 видео со сравнением оригинала и генерации)
- Затем ремикс на них в стиле Ghibli в Sora
- Далее анимация в Kling
и Luma
- Повторный монтаж синхронизирован с трейлером.

А вот промпт, который использовал автор:

"Recreate this in the style of Studio Ghibli, intricately detailed. Make sure the composition, colors and vibe is similar. The scene pictured shows black cloaked figures on black horses riding away from a massive wave of water on a riverbed that is chasing the riders."


🔗 Полный процес создания описан здесь.

Теперь всё — от студии Ghibli. Даже Властелин колец.

@ai_machinelearning_big_data

#sora #kling #Luma
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍85🔥4119🥱6🤬4🥰3😢2👏1🤓1
This media is not supported in your browser
VIEW IN TELEGRAM
🌐 Nanobrowser – Мультиагентная AI-ситсема для веб-автоматизации.

Это open-source инструмент, который использует LLM для автоматизации работы у вас в браузере.

По сути это альтернатива OpenAI Operator, работающая локально.

Оператору можно задавать промпты на естественном языке (или через код), а умные агенты (Планировщик, Навигатор, Валидатор) выполняют их в веб-окружении.

Чем полезен ?

🟢 Автоматизация тестирования UI: Быстро просит пользовательские сценарии, заполнение форм, клики по элементам без написания сложного Selenium/Puppeteer кода.
🟢 Прототипирование веб-скрапинга/сбора данных: Легко настраивайте сбор нужной информации с веб-страниц.
🟢 Ускорение рутинных задач: Автоматизируйте взаимодействие с внутренними админками, дашбордами или любыми веб-интерфейсами.

Главное, что ваши данные не уходят на сторонние серверы (если вы используете локальную LLM).

Поддерживает различные большие языковые модели, не привязывая вас к одному провайдеру.

🔗GitHub: https://github.com/nanobrowser/nanobrowser

@ai_machinelearning_big_data


#Nanobrowser #AI #WebAutomation #OpenSource #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍72🔥1812
Media is too big
VIEW IN TELEGRAM
✔️ Новое исследование Anthropic: Отслеживание размышлений большой языковой модели.

Цель: Понять, как модели работают изнутри ("реверс-инжиниринг"), чтобы лучше оценивать их надежность и пригодность под конкретные задачи.

Несмотря на впечатляющие возможности, внутренние алгоритмы работы больших языковых моделей остаются в значительной степени "черным ящиком".

Модели обучаются, а не программируются напрямую, поэтому мы не понимаем, как они делают большинство вещей, которые они делают.

Новые методы интерпретации позволяют Anthropic проследить этапы «мышления» LLM.

Anthropic разработали новый инструмент – графы атрибуции (attribution graphs).

Он позволяет частично отслеживать цепочку промежуточных шагов, которые модель использует для обработки входных данных и получения результата.

Метод помогает идентифицировать ключевые внутренние представления ("features") и картировать связи между ними (подобно "схеме соединений" мозга).

Это позволяет сформулировать гипотезы о механизмах работы модели, которые затем проверяются экспериментально.

Метод был применен для изучения конкретной модели Claude 3.5 Haiku.

Авторы описывают десять тематических аспектов работы модели, каждое из которых иллюстрирует один из аспектов «биологии ИИ».

Вот некоторые открытия:
🟢Многоязычное понимание: Исследования показывают, что Claude использует общие представления для концепций через разные языки. Например, концепция "маленький" в английском и "petit" во французском отображаются в универсальной форме "маленькость", прежде чем переводиться в нужный язык. Это указывает на универсальное понимание, не связанное с конкретным языком.

🟢Планирование генерации текста: Модель способна планировать будущие шаги при генерации текста, что видно, например, в создании рифмованных куплетов. Она учитывает будущие слова и корректирует текущий вывод, чтобы сохранить рифму, что напоминает человеческое когнитивное планирование.

🟢Ментальная арифметика: Несмотря на то, что Claude в первую очередь обучена предсказывать текст, она выполняет арифметические операции, используя сложные параллельные вычислительные пути. Это показывает, что модель может развивать собственные методы для числовых операций, что обещает большую универсальность.

🟢Галлюцинации: Исследование объясняет, как определенные особенности модели могут приводить к галлюцинациям. Оказывается, у модели есть механизм по умолчанию отказываться от ответа, если она не знает, но функция "известный ответ" иногда активируется ошибочно, что и вызывает галлюцинации. Понимание этого механизма критично для повышения надежности модели.

🟢Мотивированное рассуждение: В одном из примеров показано, что, если дать подсказку о конечном ответе на задачу, Claude может работать задним числом, чтобы построить правдоподобные промежуточные шаги, ведущие к этому ответу, даже если она не решает задачу genuinely. Это подчеркивает способность модели рационализировать и строить объяснения, даже если они не основаны на точном решении.


🟢Сложность деталей: Даже если общая схема работы механизма была предсказуема, конкретные детали, такие как цепочки промежуточных шагов (например, как именно функция « сказать "rabbit"» влияет на формирование строки стиха или роль «нового предложения» при анализе jailbreak), оказались неожиданными и сложными для точного предположения.

🟢Множественные параллельные процессы: Наблюдалось, что в одном процессе могут одновременно работать несколько механизмов – например, модель одновременно использует как двухшаговое рассуждение, так и более прямые кратчайшие пути, или совмещает жестко заданный смещённый приоритет с логическими рассуждениями, что свидетельствует о сложности внутренней структуры.

Эти выводы подчеркивают, что даже при наличии общих представлений о работе модели, детали и взаимодействие её компонентов могут быть весьма неожиданными и многообразными.

https://transformer-circuits.pub/2025/attribution-graphs/biology.html

Описания методов, используемых в исселдованиях: https://transformer-circuits.pub/2025/attribution-graphs/methods.html
Please open Telegram to view this post
VIEW IN TELEGRAM
69👍43🔥26👏6
✔️ R²D²: набор решений для робототехники от NVIDIA.

NVIDIA Research предлагает 4 решения: MobilityGen генерирует синтетические данные в Isaac Sim, экономя время на сбор реальных данных, COMPASS создаёт универсальные алгоритмы передвижения для роботов любого типа — от двуногих до колесных, обеспечивая мгновенное внедрение из симуляции в реальность.

Для гуманоидов важен контроль всего тела: HOVER объединяет управление балансом, движением и манипуляциями в единую нейросеть, а ReMEmbR добавляет «память» — робот анализирует окружение с помощью ИИ-моделей (LLM, VLM) и действует на основе контекста.

Уже сейчас эти решения тестируют компании Under Control Robotics и Advantech: роботы собирают данные, перемещают грузы и избегают препятствий в динамичных условиях. Для разработчиков доступны исходники на GitHub и набор учебных материалов.
developer.nvidia.com

✔️ Google анонсировала ИИ-инструменты для планирования путешествий.

Google тизернула набор функций с ИИ для организации летних поездок. В Поиске теперь доступны AI Overviews — сводки, которые генерируют маршруты по запросам вроде «создать план поездки в Коста-Рику с акцентом на природу». В Gemini появился инструмент, позволяющий настраивать «экспертов» под конкретные задачи — например, для подбора направлений или списка вещей в дорогу. Отдельное внимание уделили отслеживанию цен: теперь, кроме авиабилетов, система уведомит о снижении стоимости отелей через email.

Обновление коснулось и Google Maps: приложение научилось анализировать скриншоты с сохраненными локациями. Достаточно открыть доступ к фото — и ИИ автоматически распознает места, предложив добавить их в список.

Пока функция доступна в США на iOS, версия для Android ожидается в ближайшее время.
techcrunch.com

✔️ Garmin запустил платный сервис с ИИ-аналитикой.

Garmin открыла платную подписку Connect+ за $7 в месяц, предлагающую ИИ-функции для анализа тренировок - персонализированные рекомендации, дашборд эффективности и советы для бегунов и велосипедистов. Сервис использует историю активности, чтобы оптимизировать прогресс и уведомления LiveTrack для безопасности.

В отличие от Strava (от $12/месяц), Garmin сохраняет доступную цену, делая AI-инструменты привлекательнее для любителей и профи. Хотя часть пользователей критикует переход на монетизацию, 30-дневный тест-период позволяет оценить новинку.
gizmodo.com

✔️ Vamba: новая архитектура для анализ длинных видео.

Vamba — гибридная архитектура на основе Mamba и Transformer для обработки длинных видео. Она позволяет анализировать до 100 тыс. видеотокенов без сжатия, сохраняя ключевые сцены и действия. За счёт замены части операций на модули Mamba-2, сложность вычислений снижается с квадратичной до линейной, что ускоряет обучение в 2 раза и сокращает потребление памяти на 50%.

В тестах На LVBench Vamba обошла конкурентов по точности (плюс 4,3%) и по стабильности обработки: даже при 512 кадрах потребление памяти не превышала 12 ГБ. Дополнительные тесты на датасетах с шумом и динамичными сценами доказали, что архитектура сохраняет детализацию без «провалов» в сложных условиях. Модель уже доступна в открытом доступе — код, веса.
tiger-ai-lab.github.io

✔️ Apple обновила Final Cut: поддержка Apple Intelligence и новые инструменты.

Apple выпустила обновления для Final Cut Pro на Mac, iPad и приложения Final Cut Camera. Главным новшеством стала интеграция Apple Intelligence: теперь в Image Playground можно быстро генерировать стилизованные изображения на основе описаний или фото из библиотеки.

Для Mac добавлены коррекция цвета, аудиоэффект Quantec QRS и улучшенный Magnetic Mask. На iPad появилась портретная ориентация и хоткеи для монтажа. Final Cut Camera обзавелась переключением на 48-мм телеобъектив (для iPhone 14 Pro и новее), поддержкой Apple Log LUT и записью в Spatial Audio (требуется iPhone 16).

Технические требования: macOS 15.2 и новее для Mac на M1+, iOS 18.2 для устройств с A17 Pro/M1.
9to5mac.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
32👍25🔥7🤔3
🌟 II-Thought-RL-v0: датасет для RL.

RL требует не только правильно настроенных алгоритмов, но и качественных данных. Многие существующие датасеты имеют проблемы в виде дублирования задач, низкого качества вопросов и недостаточную полноту охвата целевой специализации: в OpenR1 обнаружили 20 повторяющихся задач из Math-500, а General Reasoning содержит мусорные данные из-за обработке на краудсорсинге. Это мешает моделям учиться глубокому анализу, заставляя их «угадывать» ответы вместо логических рассуждений.

Intelligent Internet представили II-Thought-RL-v0 — датасет из 340 тысяч задач, созданный для решения этих проблем. Его ключевые принципы: масштаб, качество и чистота данных.

Каждый вопрос проходит многоступенчатую обработку: сначала удаляются дубликаты и загрязненные данные, затем Gemini 2.0 Flash и Qwen-2.5-32B фильтруют неоднозначные или некорректные задачи - отбраковываются вопросы с ошибками в формулировках, зависимостью от изображений или открытыми ответами.

Особенность датасета — акцент на верификацию. Математические задачи проверяются через Math-Verify, код запускается в изолированном окружении Sandbox Fusion, а для медицинских вопросов используется LLM-судья. Это снижает риск «взлома наград», когда модель начинает идти кратчайшим путем, а не решать задачи, рассуждая.

II-Thought-RL-v0 уже превзошел аналоги в тестах: модель с 1,5 млрд. параметров, обученная на этом датасете, обогнала DeepSeek-R1 на 3-5% в задачах AIME и LiveCodeBench.

Пока остается нерешенным вопрос дисбаланса сфер в наборе: 70% данных относятся к математике и программированию, а медицина, финансы и инженерия почти не представлены. В будущем создатели датасета планируют расширить его, чтобы модели учились рассуждать в реальных мультидисциплинарных сценариях.


🟡Статья
🟡Модель
🟡Датасет
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #RL #Dataset
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍47🔥1410
🌟 Magma – это фундаментальная модель от Microsoft, предназначенная для создания мульти-модальных AI-агентов, способных воспринимать окружение и действовать в цифровом и физическом мире.

Эта модель объединяет данные из различных источников (изображения, видео, данные о робототехнических манипуляциях и тд) и позволяет решать сложные задачи, требующие одновременной обработки текстовой, визуальной и пространственной информации.

Как работает Magma:
🟢 Используется единый визуальный энкодер, который преобразует изображения и видео в векторные представления, обеспечивая универсальное понимание визуальных данных.
🟢 Далее применяется техника Set-of-Mark (SoM) для маркировки ключевых объектов в изображениях (например, интерактивных кнопок или частей робота), что позволяет модели точно «привязывать» действия к нужным элементам сцены.
🟢Техника Trace-of-Mark (ToM) отвечает за планирование действий, анализируя динамику видеоданных и предсказывая последовательности будущих движений или изменений состояния объектов.
🟢Интеграция визуальной информации с текстовыми данными осуществляется через языковую модель, которая генерирует ответы в виде текста, пространственных координат или команд для выполнения конкретных задач.

Для чего нужен:

🟢Magma обеспечивает мульти-модальное понимание данных, объединяя вербальный, пространственный и временной аспекты, что значительно расширяет возможности AI-агентов.
🟢 Применим в широком спектре задач – от навигации по пользовательским интерфейсам до управлени роботами и играми – благодаря способности адаптироваться к новым задачам без дообучения (zero-shot).
🟢Позволяет разрабатывать интеллектуальные системы, которые не просто анализируют данные, но и планируют и осуществляют последовательность действий, что особенно важно для робототехники и интерактивных приложений.

🟡Github
🟡Проект
🟡Статья
🟡HF
🟡Video

@ai_machinelearning_big_data

#AI #ML #LLM #opensource #agents #Microsoft
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍58🔥199👌5
This media is not supported in your browser
VIEW IN TELEGRAM
✔️ DeepSite на базе DeepSeek-V3-0324, позволяет генерировать, код, приложения или игры прямо в браузере и хостить их.

Сгенерировал парочку простеньких HTML-игр с интерфейсом, работает годно.

😶 По сути это Сursor в браузере.

🟡Попробовать: https://huggingface.co/spaces/enzostvs/deepsite

@ai_machinelearning_big_data


#deepseek #vibecoding #app
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥108👍3418😁9🤩2😨1
✔️ Киностудии требуют доход с ИИ-трейлеров на YouTube вместо их блокировки.

Warner Bros., Sony Pictures и Paramount меняют подход к защите контента: вместо удаления сгенерированных фейковых трейлеров на YouTube они настаивают на передаче им рекламных доходов. Например, Warner Bros. претендует на монетизацию роликов с использованием «Супермена», а Sony — трейлеров к «Человеку-пауку» и «Крейвену». Это стратегический шаг — студии видят в ИИ не только угрозу, но и источник прибыли, адаптируясь к цифровой реальности.

Технологии генерации контента упростили создание фейков, но теперь авторы таких видео рискуют лишиться заработка. Вместо привычных копирайт-страйков правообладатели используют систему Content ID, автоматически перенаправляя деньги себе. Пока неясно, как эта ситуация повлияет на кузнецов контента — возможно, им придется искать новые платформы или договариваться со студиями.
deadline.com

✔️ Manus AI выпустили приложение для iOS, перешли на Sonnet 3.7 и опубликовали тарифы.

Manus AI анонсировала запуск мобильного приложения для iOS. Основной фишкой стал Sandbox с расширенным контекстом и мультимодальными функциями. Всю систему перевели на Claude 3.7 Sonnet, что повысило скорость и точность обработки задач.

После закрытого бета-тестирования Manus AI открыл доступ всем пользователям, предложив 3 тарифа: Free дает 1000 кредитов, Starter за $39/мес. - 3900 кредитов и 2 параллельных процесса , Pro-версия ($199/мес) - 19 900 кредитов, 5 задач одновременно + доступ к бета-функциям.
Manus AI в X (ex-Twitter)

✔️ ЕС инвестирует 1,3 млрд. евро в ИИ, кибербезопасность и цифровые навыки.

Еврокомиссия планирует инвестировать 1,3 млрд. евро (1,4 млрд долларов) в ИИ, кибербезопасность и цифровые навыки в рамках программы "Цифровая Европа" в период с 2025 по 2027 год, говорится в заявлении, опубликованном в пятницу.
"Обеспечение технологического суверенитета Европы начинается с инвестирования в передовые технологии и предоставления людям возможности повысить свою цифровую компетентность", - заявила руководитель отдела цифровых технологий Европейской комиссии Хенна Вирккунен.
reuters.com

✔️ VBench-2.0: обновление бенчмарка генерации видео.

Обновленный VBench-2.0 от NTU S-Lab и Shanghai AI Lab переводит оценку ИИ-видео с «красивой картинки» на уровень глубинного понимания физики, анатомии и логики. Система проверяет 18 параметров — от движения камеры до правдоподобности бытовых сцен. VBench-2.0 в открытом доступе — можно тестировать свои модели, сравнивать результаты и влиять на развитие экосистемы.
github.com

✔️ Amazon Interests: гиперперсонализированный шопинг с ИИ.

Новый сервис Interests от Amazon использует ИИ, чтобы превратить хобби пользователей в высокоточные рекомендации. Система анализирует естественные запросы вроде «инструменты для варки кофе» или «деревянные головоломки», преобразуя их в поисковые параметры. Под капотом, возможно, задействована масштабированная версия модели Nova series Reasoning — хотя компания пока не раскрывает детали.

Интересы можно детализировать: указать бюджет, материалы или цвета, а алгоритм будут непрерывно предлагать новые товары. Планируется, что сервис интегрируют в Alexa+ — следующее поколение ассистента, которое будет подключать специализированные ИИ-модули.

Пока функция доступна ограниченному кругу пользователей в США через мобильное приложение. Но если тесты пройдут успешно, Amazon масштабирует технологию, усиливая конкуренцию в сфере персонализированной коммерции.
aboutamazon.com

✔️ В GPT-4o был замечен ризонинг!

Ожидается, что во все модели будут добавлены новые инструменты и обновления.

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5418🔥12❤‍🔥4🌚2🤣1
This media is not supported in your browser
VIEW IN TELEGRAM
🌟 TripoSG и TripoSF — это новые модели генеративного ИИ для создания высококачественных 3D-моделей.

TripoSG 1.5B преобразует одиночные 2D-изображения (фото, эскизы, мультяшные картинки) в детализированные 3D-сетки (meshes).

TripoSF - это продвинутый инструмент: он работает с более сложными топологиями, создает высокое разрешение (до 1024³) и может моделировать даже внутренние детали объектов, например, сложные механизмы.

😶Как работают эти модели?
TripoSG использует rectified flow transformers (трансформеры с выпрямленным потоком). Это метод, который упрощает процесс генерации, соединяя данные и шум по прямой линии (в отличие от традиционных диффузионных моделей, где путь более сложный).
Дифференцируемое представление данных, которое позволяет экономить память при работе с высоким разрешением .

😶Данные для обучения: Модель обучена на специально подготовленном наборе данных из 2 миллионов пар "изображение-SDF" (SDF — signed distance function, функция, описывающая расстояние до поверхности объекта).

😶Процесс работы: Вы загружаете одно изображение (например, фото статуи или рисунок персонажа). Модель анализирует его, используя вариационный автоэнкодер (VAE) с геометрическим надзором, и генерирует 3D-сетку с высокой детализацией.

😶Результат: На выходе получаем 3D-модель, которую можно использовать в играх, анимации или 3D-печати.
TripoSF

Модель может обрабатывать сложные топологии (например, открытые поверхности или внутренние структуры) и обучена с использованием вокселей, учитывающих перспективу (frustum-aware voxels).

Tripo известны своим сотрудничеством со Stability AI. Ранее они выпустили TripoSR — модель для быстрой реконструкции 3D-объектов из одного изображения, которая тоже стала open-source. TripoSG и TripoSF — это более продвинутые версии, которые расширяют возможности 3D геенрацит: от простых объектов до сложных структур с высоким разрешением.

🟡Github
🟡Model
🟡Project
🟡Paper

@ai_machinelearning_big_data


#ai #3dgeneration #opensource #Tripo
Please open Telegram to view this post
VIEW IN TELEGRAM
👍59🔥2217🙏3🕊1
✔️ Теперь Gemini 2.5 Pro теперь доступна бесплатно для всех пользователей с аккаунтом Google.


Пользуемся: https://gemini.google.com

@ai_machinelearning_big_data


#Gemini #google
Please open Telegram to view this post
VIEW IN TELEGRAM
👍80🔥2612😐11