Технозаметки Малышева
9.03K subscribers
3.91K photos
1.46K videos
41 files
4.08K links
Новости инноваций из мира Искусственного Интеллекта. 🤖

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸[поддержка]: pay.cloudtips.ru/p/c8960bbb
Download Telegram
Step-2-16k: Китайская LLM, практически равная o1, появилась в таблице лидеров

StepFun представила первую китайскую языковую модель с триллионом параметров.
Step-2-16k заняла 5-е место в LiveBench, обойдя большинство западных аналогов.
Архитектура построена на Mixture of Experts с контекстным окном в 16000 токенов. (удивительно мало для такой огромной модели)
Модель демонстрирует высший балл в категории следования инструкциям (IF Score: 86.57).
Доступна через API и интегрированного ассистента Yuewen.

Китаю буквально пол шага осталось до уровня Sonnet 3.5.

#StepFun #LiveBench #Китай
-------
@tsingular
👍5🔥21
Новый Каталог ИИ агентов

К вашим услугам 446 агентcких фреймворка.
Из них:
142 комплексных агентских фреймворка
56 - продуктивность
55 - разработка
42 - поддержка пользователей
58 - персональные ассистенты
28 - дата аналитики
20 - управление процессами
19 - создание и генерация контента
12 - цифровые исследователи

Сайт обновляется еженедельно и похоже скоро будет как каталожище HF (там уже 1.1 млн моделей, кстати, если вы давно не заходили)

Пора, похоже, перебороть фобию эту и -таки попробовать что-нибудь в докере.

#Agents #Каталог
———
@tsingular
🔥94👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Обновлённый "Atlas" от Boston Dynamics за работой.

#роботы
------
@tsingular
👍6👾3🤔21
LLaVA-o1: Новая открытая визуальная нейронка с пошаговыми рассуждениями

Вышла визуально-языковая модель LLaVA-o1 в 11 млрд. параметров.
Превосходит Gemini-1.5-pro и GPT-4o-mini в комплексных задачах анализа изображений.
Нейросеть применяет четырёхэтапный подход:
1. описание задачи
2. интерпретация картинки
3. логический анализ
4. формирование вывода
.

Файнтюн сделан на базе Llama-3.2-11B-Vision-Instruct на датасете LLaVA-o1-100k с использованием 8 GPU H100.
Демонстрирует особую эффективность в математических и научных задачах.

https://huggingface.co/Xkev/Llama-3.2V-11B-cot

А вот и парсер для сложных PDF документов, кстати.
46 гигов полный размер. в 2х4090 впритык будет.

Отдельно полезно пэйпер почитать, чтобы понять как оно под капотом устроено:
https://arxiv.org/html/2411.10440v1

#LLaVA #ComputerVision #agents #CoT
-------
@tsingular
2👍21
Forwarded from эйай ньюз
Llama 3.1 405B ускорили почти до тысячи токенов в секунду

Cerebras наконец-то нашли достаточное количество своих CS-3, чтобы запустить Llama 405B, применили к ней Speculative Decoding, который использовали для ускорения 70B до 2к токенов, и обскакали SambaNova почти в 6 раз. Стоить это будет $6 input/$12 output за миллион токенов и уже доступно в бете. Всем пользователям дадут доступ в первом квартале 2025.

Столько ждать нужно из-за крайне плохой доступности железа - для того чтобы запустить Llama 405B, нужно 20-30 CS-3. Для сравнения, в Condor Galaxy, суперкомпьютере на чипах Cerebras, всего 64 CS-3. А стоит он больше ста миллионов долларов. Надеюсь, что если им удастся перейти на массовое производство, то стоимость их систем значительно упадёт. Иначе прибыльность такого API сомнительна.

Проблемы с доступностью не только у Cerebras — есть они и у Groq, которые больше трёх месяцев обещают API 405B, но, видимо, чипов просто не хватает (для запуска 405B нужно около четырёх тысяч чипов Groq). А пока что они почти догнали Cerebras на инференсе Llama 70B — 1669 токенов в секунду, при этом обещая, что следующее поколение чипов будет сильно быстрее.

К сожалению, доступ всем юзерам через чат на этот раз не дали. Да и длина контекста пока что всего 8к, но на релизе обещают сделать доступным и 128к. Скорость при таком контексте, правда, проседает, но всё равно больше полутысячи токенов в секунду. Надеюсь, к полноценному релизу R1 они откопают ещё один суперкомпьютер, и будет у нас модель, думающая секунды вместо минут.

@ai_newz
👍5
GPT-4o получил обновление 🎉

Тексты стали более творческими и естественными.

Лучше работает с загружаемыми файлами, предоставляя более глубокое понимание и более тщательные ответы.

В api нужно поменять модель на gpt-4o-2024-11-20
Текущая gpt-4o пока ссылается на августовскую версию.

Elo подрос (1365 → 1402)

#OpenAI #GPT-4o
------
@tsingular
👍1
Qwen2.5-Версия Turbo, которая включает:

📚 Поддержка расширенного контекста: Разработчики увеличили длину контекста модели со 128L до 1 М, что составляет примерно 1 миллион английских слов или 1,5 миллиона китайских иероглифов, что эквивалентно 10 крупным романам, 150 часам расшифровки речи или 30 000 строкам кода.

🚀 Более высокая скорость логического вывода: Используя механизмы разреженного внимания, разработчики успешно сократили время обработки контекста 1 млн токенов с 4,9 минут до 68 секунд, достигнув ускорения в 4,3 раза.

Более низкая стоимость: При той же стоимости Qwen2.5-Turbo может обрабатывать в 3,6 раза больше токенов, чем GPT-4o-mini.

Теперь вы можете использовать его через API-сервис <url>.
Alibaba Cloud Model Studio: https://help.aliyun.com/zh/model-studio/getting-started/what-is-model-studio,
HF: https://huggingface.co/spaces/Qwen/Qwen2.5-Turbo-1M-Demo
Демо: https://modelscope.cn/studios/Qwen/Qwen2.5-Turbo-1M-Demo

@data_analysis_ml
🔥4👍3
Google Translation AI: масштабное обновление системы перевода

В Vertex AI добавлена поддержка 189 языков, включая кантонский, фиджийский и балийский.
Translation AI интегрирована с Gemini, предоставляя адаптивный перевод через Studio.
Обновленный сервис доказал превосходство в 97% языковых комбинаций над конкурентами.
Uber уже внедрил технологию для коммуникации между водителями и клиентами.
Статистика показывает, что 40% потребителей избегают сайтов не на родном языке.

Полезно для международки. В принципе можно строить автоматизированные линии перевода контента целиком на все языки, если вы работаете на несколько стран или если у вас в стране много новых граждан, говорящих на всех языках, кроме вашего.

#Google #Vertex #Translation
-------
@tsingular
🔥3👀1
Media is too big
VIEW IN TELEGRAM
Новый ролик от 3Blue1Brown - легендарного автора обучающих материалов по ИИ

На этот раз очень кратко, - буквально за 7 минут объясняет суть работы LLM.
Подойдёт всем, кто только въезжает в тему.

Подготовил для вас перевод на русский язык, надеюсь будет полезно.
Делитесь с друзьями и знакомыми, кто еще не в теме.

#3blue1brown #LLM #обучение #elevenlabs #переводы
———
@tsingular
👍133
Media is too big
VIEW IN TELEGRAM
DeepL представили переводчик для онлайн встреч на любые языки в реальном времени.

Совсем скоро языковые барьеры падут, но английский учить всё равно надо ☀️

😎 Фабрика контента.
Please open Telegram to view this post
VIEW IN TELEGRAM
👏41🔥1
Яндекс запускает конструктор цифровых ассистентов

Российский IT-гигант представил AI assistant API - сервис для создания персонализированных виртуальных помощников.
Разработчики получают доступ к мощным языковым моделям YandexGPT через облачную платформу.
Foundation Models позволяет настраивать характер, роли и поведение цифровых ассистентов.
Функционал включает создание как простых чат-ботов, так и комплексных решений с расширенными возможностями.

ИИ ассистенты в каждый бизнес! Девиз 2025! :) 🤖

#Yandex #Яндекс #AssistantAPI #интеграция
-------
@tsingular
🔥8❤‍🔥2
NVIDIA представила Sana: сверхбыстрый генератор изображений для домашних ПК

NVIDIA Labs выпустила компактный генеративный фреймворк для создания изображений по текстовому описанию с разрешением до 4096×4096 пикселей.
Технология задействует линейный диффузионный трансформер и автоэнкодер со сжатием в 32 раза.
Модели в 2х вариантах: 0.6 млрд параметров и 1.6, - в 20 раз меньше аналогов, при этом работает в 100+ раз быстрее, чем например Flux-12B.
Генерация изображения 1024×1024 занимает менее секунды на обычном ноутбуке с 16GB GPU.

GitHub
Demo

1 кадр в секунду! Фантастика!

#NVIDIA #Sana #text2image
-------
@tsingular
👍51
This media is not supported in your browser
VIEW IN TELEGRAM
Готовим RAG системы правильно.

Фиксированный размер обеспечивает равные части по токенам с перекрытием, прост в реализации, но может нарушать смысл.

Семантический подход работает с естественным изложением, повышает точность поиска через косинусное сходство векторов.

Рекурсивное деление сначала разбивает на параграфы, затем дробит крупные сегменты на подструктуры и предложения.

Структурный метод опирается на разделы и подразделы документов, а так же на его опорные элементы и требует четкой организации контента.

LLM-based задействует языковые модели для создания связных частей, ресурсоемок, но семантически точен.

Эффективность каждого метода зависит от типа данных, мощности оборудования и требований к точности.

Отличная шпаргалка от Daily Dose of Data Science 📚

#RAG #chunking #semantics
-------
@tsingular
👍7221
Anthropic добавили нативную интеграцию Google документов в веб чат.

Достаточно просто кинуть ссылку.

А если еще и проект создать и ссылку на обновляемый скриптами документ сделать, - получается в любой момент можно пообщаться по статусу любого проекта.

#claude #anthropic #google
———
@tsingular
4👍21
Marco-o1: новая LLM от Alibaba с встроенным механизмом рассуждений

Alibaba представила многоязычную модель Marco-o1, созданную на базе Qwen2-7B-Instruct.

Внедрены Chain-of-Thought и Monte Carlo Tree Search для улучшения логических рассуждений.

Показывает рост точности в тестах MGSM: +6.17% для английского и +5.60% для китайского языков.

Модель доступна в GGUF-форматах от 2 до 32 бит с поддержкой ollama, LM Studio и оптимизацией под CPU/GPU.

Специализируется на точных науках, программировании и комплексном решении открытых задач.

Локально поднимаем o1. Дожили 🤓

ollama run hf.co/bartowski/Marco-o1-GGUF

#Alibaba #MarcoO1 #Китай
-------
@tsingular
👍5🆒432
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
Значит так, у нас ЕЩЕ ОДИН ВИДЕОГЕНЕРАТОР, опенсорсный притом.
LTXV is ONLY a 2-billion-parameter DiT-based video generation model capable of generating high-quality videos in real-time. It produces 24 FPS videos at a 768x512 resolution faster than they can be watched.

Cходу нативная поддержка Comfy, text2videi, image2video и вроде как video2video.

Может притормозим?

Весь фарш тут:
https://blog.comfy.org/ltxv-day-1-comfyui/

@cgevent
1👍8🔥4
JarkaStealer маскируется под API для ChatGPT и Claude

🦠 В официальном репозитории PyPI найдены вредоносные пакеты gptplus и claudeai-eng, имитирующие работу популярных чатботов.
Вредоносный код JarkaStealer похищает данные браузеров, делает скриншоты и крадёт токены Telegram, Discord и Steam.
За год существования каждый пакет загружен более 1700 раз в 30 странах, большинство жертв из США.
Злоумышленники использовали ажиотаж вокруг ИИ-технологий и обещание бесплатного доступа к платным сервисам для привлечения неопытных разработчиков.

Когда слышите про бесплатный сыр - вспоминайте про мышеловку 🧀🪤

Если у вас паранойя, - это не значит, что за вами никто не следит. :)

#JarkaStealer #PyPI #malware
-------
@tsingular
👍6💯3👀2🤔1
Ученые: Внеземные цивилизации уже могут быть цифровым сознанием

Согласно последним исследованиям, в Млечном Пути может существовать около 12,500 разумных цивилизаций.
Вероятно, продвинутые расы эволюционировали в пост-биологические формы жизни, основанные на синтетическом разуме.
Такой цифровой интеллект способен существовать без физических ограничений, самосовершенствоваться и использовать экзотические технологии связи.
Отсутствие контакта объясняется либо наблюдением за человечеством, либо применением неизвестных нам способов коммуникации через гравитационные волны или тёмную материю.

Инопланетяне: 'Землю пропускаем - там только начали делать нейросети' 😅

#Drake #PostBiological #ExtraterrestrialLife
-------
@tsingular
😁9🤔3🔥2🗿2👾2