Media is too big
VIEW IN TELEGRAM
Получаются какие-то адвенты Малышева уже.
Каждый день что-то новое.
Утром добавил в Переводчика поддержку звука.
Кидаете любой mp3 или наговариваете голосом - получаете перевод текстом.
('mpeg', 'wav', 'ogg', 'x-m4a', 'aac', 'x-flac')
Вот например перевод BlackEyedPeace Monkey Business. Хоть вы и не просили :).
О, о, о, о, о. Ла, ла, ла, ла, ла. О, о, о.
Я - я. Оба, оба, оба.
Бросьте горячее, горячее, сделайте мою ежедневную операцию.
Должен работать в этой безумной профессии.
Должен продолжать движение. Это мотивация.
Должен кататься на волнах и поддерживать тесные отношения со своей командой.
Продолжайте двигаться и делайте все правильно.
Я был жив каждый день до рассвета.
Так вещами движутся в этом бизнесе обезьян.
Кто взял старую самбу песню и сделал ремикс мне?
@translator_aibot
Следующая остановка - транскриб с видео и перевод голоса в звук.
#dev #боты
———
@tsingular
Каждый день что-то новое.
Утром добавил в Переводчика поддержку звука.
Кидаете любой mp3 или наговариваете голосом - получаете перевод текстом.
('mpeg', 'wav', 'ogg', 'x-m4a', 'aac', 'x-flac')
Вот например перевод BlackEyedPeace Monkey Business. Хоть вы и не просили :).
О, о, о, о, о. Ла, ла, ла, ла, ла. О, о, о.
Я - я. Оба, оба, оба.
Бросьте горячее, горячее, сделайте мою ежедневную операцию.
Должен работать в этой безумной профессии.
Должен продолжать движение. Это мотивация.
Должен кататься на волнах и поддерживать тесные отношения со своей командой.
Продолжайте двигаться и делайте все правильно.
Я был жив каждый день до рассвета.
Так вещами движутся в этом бизнесе обезьян.
Кто взял старую самбу песню и сделал ремикс мне?
@translator_aibot
Следующая остановка - транскриб с видео и перевод голоса в звук.
#dev #боты
———
@tsingular
👍14✍6
Forwarded from эйай ньюз
Всего через сутки после превью гугла, OpenAI запускают свой видео-режим
На этот раз оно будет нормально доступно как в приложении ChatGPT, таки и на ПК. С Advanced Voice Mode всё будет поприятнее - 4o нормально говорит на русском, да и как моделька она поумнее чем Gemini 2.0 Flash.
Из преимуществ которые остались у превью гугла - доступ в интернет и тулюз. Ну и длина контекста заметно выше - лям токенов у Gemini против всего 128к у OpenAI.
Раскатывать уже начали, но займёт это где-то неделю. А пока можно потыкать гугловую или просто пообсуждать новые свитеры в комментах.
@ai_newz
На этот раз оно будет нормально доступно как в приложении ChatGPT, таки и на ПК. С Advanced Voice Mode всё будет поприятнее - 4o нормально говорит на русском, да и как моделька она поумнее чем Gemini 2.0 Flash.
Из преимуществ которые остались у превью гугла - доступ в интернет и тулюз. Ну и длина контекста заметно выше - лям токенов у Gemini против всего 128к у OpenAI.
Раскатывать уже начали, но займёт это где-то неделю. А пока можно потыкать гугловую или просто пообсуждать новые свитеры в комментах.
@ai_newz
👍6
Forwarded from GigaChat
This media is not supported in your browser
VIEW IN TELEGRAM
AI Journey, день второй: AI для бизнеса и инноваций 🤖
🟢 GigaView помогает разработчикам анализировать код, автоматизировать код-ревью и восстанавливать требования задач. Инструмент уже доступен на платформе GitVerse для Java, JavaScript и TypeScript
🟢 Искусственный интеллект поможет волонтёрам искать пропавших людей, анализируя фотоснимки и упрощая обмен данными между спасателями
🟢 AI-помощник в СберЗдоровье записывает к врачу, анализируя симптомы. Новый сервис снижает нагрузку на медперсонал и делает заботу о здоровье проще для пользователей
🟢 GigaIDE Desktop вошла в реестр отечественного ПО и получит обновление с AI-агентами для Java-проектов. Среда уже поддерживает проекты на Java, Python, JavaScript и других языках
🟢 AI-комплекс для теплиц помогает отслеживать состояние томатов, выявлять болезни и планировать работы. Система отображает данные на интерактивной карте
🟢 GigaChat для КАПИТАЛ LIFE поможет улучшить обслуживание клиентов, ускорить выплаты, оптимизировать бизнес-процессы и повысить эффективность работы страховых агентов
🟢 KUMA «Лаборатории Касперского» с AI-функцией KIRA упрощает анализ событий и реагирование на киберугрозы. Новая AI-функция анализирует события информационной безопасности, оценивает их риски и помогает командам быстрее во всём разобраться
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Борис опять
Теперь придётся учиться нетоксично общаться с нейросетями, уважать их чувства, активно слушать, мягко давать обратную связь, выстраивать границы и не поддаваться абьюзу
1😁13👍6🤔3
This media is not supported in your browser
VIEW IN TELEGRAM
Tripo выпустил обновление 2.0
Стартап Tripo выпустил масштабное обновление платформы генеративного 3D-моделирования.
Ключевая функция - Multi-View позволяет формировать модели с различных ракурсов.
Существенно улучшено качество текстур высокого разрешения.
Внедрены технологии Image-Aligned и Structure-Aligned Retry для точности в деталях.
Расширены возможности стилизации, добавлен Model Baking Mode для профессионального экспорта.
Интегрирован помощник по промптам позволяющий лучше раскрыть художественный смысл.
Реализована поддержка внешних изображений через URL-ссылки.
#Tripo #3Dmodeling
———
@tsingular
Стартап Tripo выпустил масштабное обновление платформы генеративного 3D-моделирования.
Ключевая функция - Multi-View позволяет формировать модели с различных ракурсов.
Существенно улучшено качество текстур высокого разрешения.
Внедрены технологии Image-Aligned и Structure-Aligned Retry для точности в деталях.
Расширены возможности стилизации, добавлен Model Baking Mode для профессионального экспорта.
Интегрирован помощник по промптам позволяющий лучше раскрыть художественный смысл.
Реализована поддержка внешних изображений через URL-ссылки.
#Tripo #3Dmodeling
———
@tsingular
👍2
Китай запретил экспорт критических минералов: технологическая война вышла на новый уровень
Не совсем про ИИ песочницу, а про реальный мир вокруг, который непосредственно влияет:
Пекин наложил запрет на поставки в США галлия, германия, сурьмы и сверхтвёрдых материалов.
Причина: ответ на американские санкции в сфере полупроводников и потенциальные тарифы.
При этом Пекин контролирует: 58% мирового лития, 80% графита, 70% переработки редких элементов.
Последствия: удар по производству чипов, электромобилей и военной промышленности США.
Ущерб для экономики Штатов может достичь $3.4 млрд.
США планирует инвестировать $150 млн в добычу графита в Мозамбике, планирует добычу сурьмы в Айдахо и рассматривает возобновление разработки месторождений на Аляске.
#Китай #MineralWar #TechBan #политика
-------
@tsingular
Не совсем про ИИ песочницу, а про реальный мир вокруг, который непосредственно влияет:
Пекин наложил запрет на поставки в США галлия, германия, сурьмы и сверхтвёрдых материалов.
Причина: ответ на американские санкции в сфере полупроводников и потенциальные тарифы.
При этом Пекин контролирует: 58% мирового лития, 80% графита, 70% переработки редких элементов.
Последствия: удар по производству чипов, электромобилей и военной промышленности США.
Ущерб для экономики Штатов может достичь $3.4 млрд.
США планирует инвестировать $150 млн в добычу графита в Мозамбике, планирует добычу сурьмы в Айдахо и рассматривает возобновление разработки месторождений на Аляске.
#Китай #MineralWar #TechBan #политика
-------
@tsingular
❤7⚡3👍1
Microsoft ОТМЕНИЛА ЗАКОН МАСШТАБА :), выпустив Phi-4
14B модель рвёт в тестах Sonnet, Gemini и Qwen!
Корпорация из Редмонда представила новую языковую модель Phi-4 с 14 млрд параметров.
Разработка демонстрирует впечатляющие результаты в задачах математического анализа и комплексных вычислений.
Архитектура основана на синтетических датасетах и предобработанных органических данных.
Встроенные механизмы включают системы безопасности, защиту контента и верификацию достоверности.
Главное преимущество - высокая производительность при скромных требованиях к вычислительным ресурсам.
Математики нервно курят в сторонке - теперь их домашку может делать даже ноутбук 🤓
Пора переписывать учебники про Scaling Law. :) Все эти петабайты данных - бесполезны.
Ну либо МС зафайнтюнила так, что бенчмарки теперь на них работают, не знаю.
Надо тестировать.
На HF обещают выложить на следующей неделе тут:
https://huggingface.co/collections/microsoft/phi-3-6626e15e9585a200d2d761e3
#Microsoft #Phi4 #mathematics
———
@tsingular
14B модель рвёт в тестах Sonnet, Gemini и Qwen!
Корпорация из Редмонда представила новую языковую модель Phi-4 с 14 млрд параметров.
Разработка демонстрирует впечатляющие результаты в задачах математического анализа и комплексных вычислений.
Архитектура основана на синтетических датасетах и предобработанных органических данных.
Встроенные механизмы включают системы безопасности, защиту контента и верификацию достоверности.
Главное преимущество - высокая производительность при скромных требованиях к вычислительным ресурсам.
Математики нервно курят в сторонке - теперь их домашку может делать даже ноутбук 🤓
Пора переписывать учебники про Scaling Law. :) Все эти петабайты данных - бесполезны.
Ну либо МС зафайнтюнила так, что бенчмарки теперь на них работают, не знаю.
Надо тестировать.
На HF обещают выложить на следующей неделе тут:
https://huggingface.co/collections/microsoft/phi-3-6626e15e9585a200d2d761e3
#Microsoft #Phi4 #mathematics
———
@tsingular
🔥9
Китай сбавляет темпы в выдаче лицензий на GenAI приложения
Пекинский регулятор CAC утвердил 64 новых приложения с генеративным интеллектом для публичного использования.
Третья и самая малочисленная партия разрешений в 2024 году охватывает юридическую, медицинскую, образовательную сферы и онлайн-игры.
Общее количество лицензированных GenAI сервисов достигло 252, все они принадлежат исключительно местным компаниям.
Замедление темпов одобрения указывает на насыщение рынка и усиление контроля над развитием технологий искусственного интеллекта в стране.
Интересно сколько утвердили для не публичного использования :)
Что-то слабо верится, что трудолюбивые китайцы сбавили обороты.
Скорее сменили вектор.
#Китай #CAC #regulation
-------
@tsingular
Пекинский регулятор CAC утвердил 64 новых приложения с генеративным интеллектом для публичного использования.
Третья и самая малочисленная партия разрешений в 2024 году охватывает юридическую, медицинскую, образовательную сферы и онлайн-игры.
Общее количество лицензированных GenAI сервисов достигло 252, все они принадлежат исключительно местным компаниям.
Замедление темпов одобрения указывает на насыщение рынка и усиление контроля над развитием технологий искусственного интеллекта в стране.
Интересно сколько утвердили для не публичного использования :)
Что-то слабо верится, что трудолюбивые китайцы сбавили обороты.
Скорее сменили вектор.
#Китай #CAC #regulation
-------
@tsingular
🔥4🤔2
Новый курс по RAG-системам
RAG (Retrieval-Augmented Generation) объединяет векторные БД, эмбеддинги и языковые модели для точной работы с данными.
Ключевые преимущества: отсутствие необходимости переобучения, минимизация галлюцинаций и поддержка актуальности информации.
Процесс включает разбиение документов, векторизацию, поиск релевантной информации и генерацию ответов.
Отличный свежий курс.
Надо пройти за выходные. актуализировать видение.
Часть 1
Часть 2
Часть 3
Часть 4
Часть 5
Часть 6
#RAG #обучение #DDoDS
-------
@tsingular
RAG (Retrieval-Augmented Generation) объединяет векторные БД, эмбеддинги и языковые модели для точной работы с данными.
Ключевые преимущества: отсутствие необходимости переобучения, минимизация галлюцинаций и поддержка актуальности информации.
Процесс включает разбиение документов, векторизацию, поиск релевантной информации и генерацию ответов.
Отличный свежий курс.
Надо пройти за выходные. актуализировать видение.
Часть 1
Часть 2
Часть 3
Часть 4
Часть 5
Часть 6
#RAG #обучение #DDoDS
-------
@tsingular
👍11
Forwarded from scriptRun AI медиа
Пока все обсуждают ChatGPT и Gemini, китайский техногигант Tencent тихонько выкатил Yuanbao
Вначале вас встречает окно с чатом, на борту которого модель Hunyuan Large.
Технические детали можно глянуть тут, а так же на GitHub.
Чат поддерживает работу с различными форматами документов
✔️ PDF
✔️ Word и TXT
✔️ ppt
✔️ Excel (Каждый не более 100 МБ, максимум 50 штук за 1 запрос)
✔️ Принимает изображения
✔️ Позволяет создавать персонализированных агентов
✔️ Может искать информацию в интернете и проводить глубокое исследование.
Но что еще интереснее, в нем можно создавать изображения, и вот тут я бы хотел рассказать подробнее:
Возможности, которые судя по всему безлимитные:
✔️ txt to img
✔️ img to img
✔️ uncrop (расширение фото)
✔️ удаление объектов
✔️ upscale (не качественный)
✔️ удаление водяного знака (не понял зачем они его вообще добавляют, если есть такая функция)
✔️ минимальное разрешение - 768х768
✔️ максимальное разрешение - 1280х1280
✔️ соотношение сторон можно менять (1:1, 16:9, 9:16, 3:4, 4:3)
На этой странице еще есть галерея сгенерированных изображений, в которой можно выполнять поиск, но только на китайском языке.
Третья страница открывает Hunyuan Video, где ежедневно дается по 6 генераций. Нужна регистрация с китайским номером.
Китайский одноразовый номер можно взять на app.cyberyozh.com за $0.5
Официальный сайт
Приложение на android
Программа на ПК
Это такой AI-комбайн для генерации контента и автоматизации всякой рутины, который был официально запущен ещё 30 мая 2024 года.
Вначале вас встречает окно с чатом, на борту которого модель Hunyuan Large.
Технические детали можно глянуть тут, а так же на GitHub.
Чат поддерживает работу с различными форматами документов
Но что еще интереснее, в нем можно создавать изображения, и вот тут я бы хотел рассказать подробнее:
Возможности, которые судя по всему безлимитные:
Помимо главного чата, есть страница на которой расположено множество чатов, заточенных под конкретные задачи.
Также, на этой странице есть создание стилизованного аватара, стилизованных стикеров, создание 3D аватара (но работает только в мобильном приложении).
На этой странице еще есть галерея сгенерированных изображений, в которой можно выполнять поиск, но только на китайском языке.
Третья страница открывает Hunyuan Video, где ежедневно дается по 6 генераций. Нужна регистрация с китайским номером.
Китайский одноразовый номер можно взять на app.cyberyozh.com за $0.5
Официальный сайт
Приложение на android
Программа на ПК
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6✍2
Anthropic открыли Haiku 3.5
Меняем везде в API с
claude-3-haiku-20240307
на
claude-3-5-haiku-latest
#Anthropic #Haiku
———
@tsingular
Меняем везде в API с
claude-3-haiku-20240307
на
claude-3-5-haiku-latest
#Anthropic #Haiku
———
@tsingular
✍4
Forwarded from Dendi Math&AI (Денис Димитров)
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🥳 Мы выпустили новую линейку моделей Kandinsky 4.0 🥳
Это 4 модели:
👉 Kandinsky 4.0 T2V (text-to-video) — для генерации видеоряда продолжительностью до 12 секунд в разрешении HD (1280×720) с разным соотношением сторон.
👉 Kandinsky 4.0 T2V Flash (быстрый text-to-video) — для генерации видеоряда также продолжительностью до 12 секунд, но в разрешении 480p (720×480); генерация занимает всего 11 секунд (быстрее, чем длительность генерируемого видео!) на 1 H100.
👉 Kandinsky 4.0 I2V (image-to-video) — для «оживления» стартового кадра (то есть генерации видео по стартовому кадру и тексту), полученная с весов Kandinsky 4.0 T2V.
👉 Kandinsky 4.0 V2A (video-to-audio) — для генерации синхронного аудио к видео.
Подробнее про каждую из моделей можно почитать на Хабр или изучить GitHub (есть project page), а попробовать модель Kandinsky 4.0 T2V Flash можно в Spaces 🤗
Пока что доступ к моделям T2V и I2V ограниченный (в рамках инструмента https://fusionbrain.ai/, который даёт его пользователям возможность генерировать мини-фильмы — со сценарием, полноценным видеорядом и звуковым сопровождением), для широкой аудитории нейросети будут также доступны очень скоро.
Stay tuned!
И аккуратно — во вложении есть видео со звуком :)
@dendi_math_ai
Это 4 модели:
👉 Kandinsky 4.0 T2V (text-to-video) — для генерации видеоряда продолжительностью до 12 секунд в разрешении HD (1280×720) с разным соотношением сторон.
👉 Kandinsky 4.0 T2V Flash (быстрый text-to-video) — для генерации видеоряда также продолжительностью до 12 секунд, но в разрешении 480p (720×480); генерация занимает всего 11 секунд (быстрее, чем длительность генерируемого видео!) на 1 H100.
👉 Kandinsky 4.0 I2V (image-to-video) — для «оживления» стартового кадра (то есть генерации видео по стартовому кадру и тексту), полученная с весов Kandinsky 4.0 T2V.
👉 Kandinsky 4.0 V2A (video-to-audio) — для генерации синхронного аудио к видео.
Подробнее про каждую из моделей можно почитать на Хабр или изучить GitHub (есть project page), а попробовать модель Kandinsky 4.0 T2V Flash можно в Spaces 🤗
Пока что доступ к моделям T2V и I2V ограниченный (в рамках инструмента https://fusionbrain.ai/, который даёт его пользователям возможность генерировать мини-фильмы — со сценарием, полноценным видеорядом и звуковым сопровождением), для широкой аудитории нейросети будут также доступны очень скоро.
Stay tuned!
И аккуратно — во вложении есть видео со звуком :)
@dendi_math_ai
👍4✍1
Forwarded from Нейронавт | Нейросети в творчестве
This media is not supported in your browser
VIEW IN TELEGRAM
Krea.ai Edit
Редактор изображений Krea.ai теперь доступен всем.
Инпейнтинг, аутпейнтинг, выделение/замена/удаление объектов. Все это удобно как в фотошопе и бесплатно (ограниченно)
#imageediting #inpainting #outpainting
Редактор изображений Krea.ai теперь доступен всем.
Инпейнтинг, аутпейнтинг, выделение/замена/удаление объектов. Все это удобно как в фотошопе и бесплатно (ограниченно)
#imageediting #inpainting #outpainting
🔥13👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Продолжаем адвенты.
в продолжение этой темы
https://t.iss.one/tsingular/2870
Маленький, но важный апдейт.
Добавил команду /autosummary
теперь с её помощь в чате можно определить время, когда вы хотите для всех в чат выводить общую сводку за последние 24 часа.
Разрешена только админам чата.
Главное, - эта функция бесплатная и автоматическая.
пример:
/autosummary 9:00
и каждое утро весь ваш чат будет видеть что обсуждалось.
#dev #боты
———
@tsingular
в продолжение этой темы
https://t.iss.one/tsingular/2870
Маленький, но важный апдейт.
Добавил команду /autosummary
теперь с её помощь в чате можно определить время, когда вы хотите для всех в чат выводить общую сводку за последние 24 часа.
Разрешена только админам чата.
Главное, - эта функция бесплатная и автоматическая.
пример:
/autosummary 9:00
и каждое утро весь ваш чат будет видеть что обсуждалось.
#dev #боты
———
@tsingular
🔥9👨💻2👍1👏1
Forwarded from Анализ данных (Data analysis)
🎉 Только что вышла DeepSeek-VL2! Новая модель vision-language нового поколения.
🤖 Deep SeekMo Search + динамическая обработка изображений
⚡ 3B/16B/27B размеры
🏆 Высокая производительность на всех бенчмарках
DeepSeek-VL2 - усовершенствованная серия VLM c Mixture-of-Experts (MoE), которая значительно превосходит DeepSeek-VL.
Модели семейства ориентированы на задачи визуальных ответов на вопросы, оптического распознавания символов, понимания документов/таблиц/схем и визуального обоснования.
DeepSeek-VL2 включает три основных модуля:
🟠 Визуальный энкодер SigLIP-SO400M-384, который использует динамическую стратегию разбиения изображения на фрагменты. Эта стратегия позволяет эффективно обрабатывать изображения высокого разрешения с различными соотношениями сторон.
🟠 VL-адаптер, преобразующий визуальные элементы в формат, понятный языковой модели. Адаптер также добавляет специальные маркеры, чтобы обозначить границы строк, фрагментов и миниатюр.
🟠 Языковая модель DeepSeek-MoE с механизмом MLA. MLA повышает эффективность обработки информации, сжимая kv-данные в компактный вектор. Это ускоряет обработку информации и увеличивает пропускную способность.
DeepSeek-VL2 обучается в три этапа: на первом этапе обучается MLP-соединитель, который связывает визуальный энкодер с языковой моделью, затем модель обучается на датасете из текста, изображений, аннотаций, QA и данных OCR и, в конце процесса, дообучается с учителем для улучшения ее способности понимать инструкции и вести диалог.
Модельная серия состоит из 3 вариантов c контекстом 4096:
🟢 DeepSeek-VL2-Tiny (1B активных параметром и 3.4В общих);
🟢 DeepSeek-VL2-Small (2.8B активных параметром и 16.1B общих);
🟢 DeepSeek-VL2 (4.5B активных параметром и 27.5B общих).
DeepSeek-VL2 была протестирована на задачах DocVQA, ChartQA, InfoVQA, TextVQA, MMBench и показала лучшие результаты по сравнению с другими моделями MoE.
DeepSeek-VL2 эффективно использует архитектуру MoE и превосходит другие модели с аналогичным количеством активных параметров.
💡 По-прежнему полностью открытый исходный код!
💾 Hugging Face: huggingface.co/deepseek-ai
🖥 Github: https://github.com/deepseek-ai/DeepSeek-VL2
@data_analysis_ml
🤖 Deep SeekMo Search + динамическая обработка изображений
⚡ 3B/16B/27B размеры
🏆 Высокая производительность на всех бенчмарках
DeepSeek-VL2 - усовершенствованная серия VLM c Mixture-of-Experts (MoE), которая значительно превосходит DeepSeek-VL.
Модели семейства ориентированы на задачи визуальных ответов на вопросы, оптического распознавания символов, понимания документов/таблиц/схем и визуального обоснования.
DeepSeek-VL2 включает три основных модуля:
DeepSeek-VL2 обучается в три этапа: на первом этапе обучается MLP-соединитель, который связывает визуальный энкодер с языковой моделью, затем модель обучается на датасете из текста, изображений, аннотаций, QA и данных OCR и, в конце процесса, дообучается с учителем для улучшения ее способности понимать инструкции и вести диалог.
Модельная серия состоит из 3 вариантов c контекстом 4096:
DeepSeek-VL2 была протестирована на задачах DocVQA, ChartQA, InfoVQA, TextVQA, MMBench и показала лучшие результаты по сравнению с другими моделями MoE.
DeepSeek-VL2 эффективно использует архитектуру MoE и превосходит другие модели с аналогичным количеством активных параметров.
💡 По-прежнему полностью открытый исходный код!
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤1