Технозаметки Малышева
9.65K subscribers
4.04K photos
1.48K videos
41 files
4.17K links
Новости инноваций из мира Искусственного Интеллекта. 🤖

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸[поддержка]: pay.cloudtips.ru/p/c8960bbb
Download Telegram
Media is too big
VIEW IN TELEGRAM
Получаются какие-то адвенты Малышева уже.
Каждый день что-то новое.

Утром добавил в Переводчика поддержку звука.

Кидаете любой mp3 или наговариваете голосом - получаете перевод текстом.
('mpeg', 'wav', 'ogg', 'x-m4a', 'aac', 'x-flac')

Вот например перевод BlackEyedPeace Monkey Business. Хоть вы и не просили :).

О, о, о, о, о. Ла, ла, ла, ла, ла. О, о, о.
Я - я. Оба, оба, оба.
Бросьте горячее, горячее, сделайте мою ежедневную операцию.
Должен работать в этой безумной профессии.
Должен продолжать движение. Это мотивация.
Должен кататься на волнах и поддерживать тесные отношения со своей командой.
Продолжайте двигаться и делайте все правильно.
Я был жив каждый день до рассвета.
Так вещами движутся в этом бизнесе обезьян.
Кто взял старую самбу песню и сделал ремикс мне?

@translator_aibot

Следующая остановка - транскриб с видео и перевод голоса в звук.

#dev #боты
———
@tsingular
👍146
Forwarded from эйай ньюз
Всего через сутки после превью гугла, OpenAI запускают свой видео-режим

На этот раз оно будет нормально доступно как в приложении ChatGPT, таки и на ПК. С Advanced Voice Mode всё будет поприятнее - 4o нормально говорит на русском, да и как моделька она поумнее чем Gemini 2.0 Flash.

Из преимуществ которые остались у превью гугла - доступ в интернет и тулюз. Ну и длина контекста заметно выше - лям токенов у Gemini против всего 128к у OpenAI.

Раскатывать уже начали, но займёт это где-то неделю. А пока можно потыкать гугловую или просто пообсуждать новые свитеры в комментах.

@ai_newz
👍6
Forwarded from GigaChat
This media is not supported in your browser
VIEW IN TELEGRAM
AI Journey, день второй: AI для бизнеса и инноваций 🤖

🟢 GigaView помогает разработчикам анализировать код, автоматизировать код-ревью и восстанавливать требования задач. Инструмент уже доступен на платформе GitVerse для Java, JavaScript и TypeScript

🟢 Искусственный интеллект поможет волонтёрам искать пропавших людей, анализируя фотоснимки и упрощая обмен данными между спасателями

🟢 AI-помощник в СберЗдоровье записывает к врачу, анализируя симптомы. Новый сервис снижает нагрузку на медперсонал и делает заботу о здоровье проще для пользователей

🟢 GigaIDE Desktop вошла в реестр отечественного ПО и получит обновление с AI-агентами для Java-проектов. Среда уже поддерживает проекты на Java, Python, JavaScript и других языках

🟢 AI-комплекс для теплиц помогает отслеживать состояние томатов, выявлять болезни и планировать работы. Система отображает данные на интерактивной карте

🟢 GigaChat для КАПИТАЛ LIFE поможет улучшить обслуживание клиентов, ускорить выплаты, оптимизировать бизнес-процессы и повысить эффективность работы страховых агентов

🟢 KUMA «Лаборатории Касперского» с AI-функцией KIRA упрощает анализ событий и реагирование на киберугрозы. Новая AI-функция анализирует события информационной безопасности, оценивает их риски и помогает командам быстрее во всём разобраться
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Борис опять
Теперь придётся учиться нетоксично общаться с нейросетями, уважать их чувства, активно слушать, мягко давать обратную связь, выстраивать границы и не поддаваться абьюзу
1😁13👍6🤔3
This media is not supported in your browser
VIEW IN TELEGRAM
Tripo выпустил обновление 2.0

Стартап Tripo выпустил масштабное обновление платформы генеративного 3D-моделирования.

Ключевая функция - Multi-View позволяет формировать модели с различных ракурсов.

Существенно улучшено качество текстур высокого разрешения.

Внедрены технологии Image-Aligned и Structure-Aligned Retry для точности в деталях.

Расширены возможности стилизации, добавлен Model Baking Mode для профессионального экспорта.

Интегрирован помощник по промптам позволяющий лучше раскрыть художественный смысл.

Реализована поддержка внешних изображений через URL-ссылки.

#Tripo #3Dmodeling
———
@tsingular
👍2
Китай запретил экспорт критических минералов: технологическая война вышла на новый уровень

Не совсем про ИИ песочницу, а про реальный мир вокруг, который непосредственно влияет:

Пекин наложил запрет на поставки в США галлия, германия, сурьмы и сверхтвёрдых материалов.

Причина: ответ на американские санкции в сфере полупроводников и потенциальные тарифы.

При этом Пекин контролирует: 58% мирового лития, 80% графита, 70% переработки редких элементов.

Последствия: удар по производству чипов, электромобилей и военной промышленности США.

Ущерб для экономики Штатов может достичь $3.4 млрд.

США планирует инвестировать $150 млн в добычу графита в Мозамбике, планирует добычу сурьмы в Айдахо и рассматривает возобновление разработки месторождений на Аляске.

#Китай #MineralWar #TechBan #политика
-------
@tsingular
73👍1
Microsoft ОТМЕНИЛА ЗАКОН МАСШТАБА :), выпустив Phi-4

14B модель рвёт в тестах Sonnet, Gemini и Qwen!

Корпорация из Редмонда представила новую языковую модель Phi-4 с 14 млрд параметров.

Разработка демонстрирует впечатляющие результаты в задачах математического анализа и комплексных вычислений.

Архитектура основана на синтетических датасетах и предобработанных органических данных.

Встроенные механизмы включают системы безопасности, защиту контента и верификацию достоверности.

Главное преимущество - высокая производительность при скромных требованиях к вычислительным ресурсам.

Математики нервно курят в сторонке - теперь их домашку может делать даже ноутбук 🤓
Пора переписывать учебники про Scaling Law. :) Все эти петабайты данных - бесполезны.
Ну либо МС зафайнтюнила так, что бенчмарки теперь на них работают, не знаю.
Надо тестировать.
На HF обещают выложить на следующей неделе тут:
https://huggingface.co/collections/microsoft/phi-3-6626e15e9585a200d2d761e3

#Microsoft #Phi4 #mathematics
———
@tsingular
🔥9
Китай сбавляет темпы в выдаче лицензий на GenAI приложения

Пекинский регулятор CAC утвердил 64 новых приложения с генеративным интеллектом для публичного использования.
Третья и самая малочисленная партия разрешений в 2024 году охватывает юридическую, медицинскую, образовательную сферы и онлайн-игры.
Общее количество лицензированных GenAI сервисов достигло 252, все они принадлежат исключительно местным компаниям.
Замедление темпов одобрения указывает на насыщение рынка и усиление контроля над развитием технологий искусственного интеллекта в стране.

Интересно сколько утвердили для не публичного использования :)
Что-то слабо верится, что трудолюбивые китайцы сбавили обороты.
Скорее сменили вектор.

#Китай #CAC #regulation
-------
@tsingular
🔥4🤔2
Новый курс по RAG-системам

RAG (Retrieval-Augmented Generation) объединяет векторные БД, эмбеддинги и языковые модели для точной работы с данными.

Ключевые преимущества: отсутствие необходимости переобучения, минимизация галлюцинаций и поддержка актуальности информации.

Процесс включает разбиение документов, векторизацию, поиск релевантной информации и генерацию ответов.

Отличный свежий курс.
Надо пройти за выходные. актуализировать видение.

Часть 1
Часть 2
Часть 3
Часть 4
Часть 5
Часть 6

#RAG #обучение #DDoDS
-------
@tsingular
👍11
Forwarded from scriptRun AI медиа
Пока все обсуждают ChatGPT и Gemini, китайский техногигант Tencent тихонько выкатил  Yuanbao

Это такой AI-комбайн для генерации контента и автоматизации всякой рутины, который был официально запущен ещё 30 мая 2024 года.

Вначале вас встречает окно с чатом, на борту которого модель Hunyuan Large.

Технические детали можно глянуть тут, а так же на GitHub.

Чат поддерживает работу с различными форматами документов
✔️PDF
✔️Word и TXT
✔️ppt
✔️Excel (Каждый не более 100 МБ, максимум 50 штук за 1 запрос)
✔️Принимает изображения
✔️Позволяет создавать персонализированных агентов
✔️Может искать информацию в интернете и проводить глубокое исследование.

Но что еще интереснее, в нем можно создавать изображения, и вот тут я бы хотел рассказать подробнее:

Возможности, которые судя по всему безлимитные:
✔️txt to img
✔️img to img
✔️uncrop (расширение фото)
✔️удаление объектов
✔️upscale (не качественный)
✔️удаление водяного знака (не понял зачем они его вообще добавляют, если есть такая функция)
✔️минимальное разрешение - 768х768
✔️максимальное разрешение - 1280х1280
✔️соотношение сторон можно менять (1:1, 16:9, 9:16, 3:4, 4:3)

Помимо главного чата, есть страница на которой расположено множество чатов, заточенных под конкретные задачи.

Также, на этой странице есть создание стилизованного аватара, стилизованных стикеров, создание 3D аватара (но работает только в мобильном приложении).

На этой странице еще есть галерея сгенерированных изображений, в которой можно выполнять поиск, но только на китайском языке.

Третья страница открывает Hunyuan Video, где ежедневно дается по 6 генераций. Нужна регистрация с китайским номером.

Китайский одноразовый номер можно взять на app.cyberyozh.com за $0.5

Официальный сайт
Приложение на android
Программа на ПК
Please open Telegram to view this post
VIEW IN TELEGRAM
👍62
Anthropic открыли Haiku 3.5

Меняем везде в API с
claude-3-haiku-20240307

на

claude-3-5-haiku-latest

#Anthropic #Haiku
———
@tsingular
4
Forwarded from Dendi Math&AI (Денис Димитров)
🥳 Мы выпустили новую линейку моделей Kandinsky 4.0 🥳

Это 4 модели:
👉 Kandinsky 4.0 T2V (text-to-video) — для генерации видеоряда продолжительностью до 12 секунд в разрешении HD (1280×720) с разным соотношением сторон.
👉 Kandinsky 4.0 T2V Flash (быстрый text-to-video) — для генерации видеоряда также продолжительностью до 12 секунд, но в разрешении 480p (720×480); генерация занимает всего 11 секунд (быстрее, чем длительность генерируемого видео!) на 1 H100.
👉 Kandinsky 4.0 I2V (image-to-video) — для «оживления» стартового кадра (то есть генерации видео по стартовому кадру и тексту), полученная с весов Kandinsky 4.0 T2V.
👉 Kandinsky 4.0 V2A (video-to-audio) — для генерации синхронного аудио к видео.

Подробнее про каждую из моделей можно почитать на Хабр или изучить GitHub (есть project page), а попробовать модель Kandinsky 4.0 T2V Flash можно в Spaces 🤗

Пока что доступ к моделям T2V и I2V ограниченный (в рамках инструмента https://fusionbrain.ai/, который даёт его пользователям возможность генерировать мини-фильмы — со сценарием, полноценным видеорядом и звуковым сопровождением), для широкой аудитории нейросети будут также доступны очень скоро.

Stay tuned!

И аккуратно — во вложении есть видео со звуком :)

@dendi_math_ai
👍41
This media is not supported in your browser
VIEW IN TELEGRAM
Krea.ai Edit

Редактор изображений Krea.ai теперь доступен всем.

Инпейнтинг, аутпейнтинг, выделение/замена/удаление объектов. Все это удобно как в фотошопе и бесплатно (ограниченно)

#imageediting #inpainting #outpainting
🔥13👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Продолжаем адвенты.

в продолжение этой темы
https://t.iss.one/tsingular/2870

Маленький, но важный апдейт.

Добавил команду /autosummary
теперь с её помощь в чате можно определить время, когда вы хотите для всех в чат выводить общую сводку за последние 24 часа.

Разрешена только админам чата.

Главное, - эта функция бесплатная и автоматическая.

пример:

/autosummary 9:00

и каждое утро весь ваш чат будет видеть что обсуждалось.

#dev #боты
———
@tsingular
🔥9👨‍💻2👍1👏1
🎉 Только что вышла DeepSeek-VL2! Новая модель vision-language нового поколения.

🤖 Deep SeekMo Search + динамическая обработка изображений
3B/16B/27B размеры
🏆 Высокая производительность на всех бенчмарках

DeepSeek-VL2 - усовершенствованная серия VLM c Mixture-of-Experts (MoE), которая значительно превосходит DeepSeek-VL.
 
Модели семейства ориентированы на задачи визуальных ответов на вопросы, оптического распознавания символов, понимания документов/таблиц/схем и визуального обоснования.

DeepSeek-VL2 включает три основных модуля:

🟠Визуальный энкодер SigLIP-SO400M-384, который использует динамическую стратегию разбиения изображения на фрагменты. Эта стратегия позволяет эффективно обрабатывать изображения высокого разрешения с различными соотношениями сторон.

🟠VL-адаптер, преобразующий визуальные элементы в формат, понятный языковой модели. Адаптер также добавляет специальные маркеры, чтобы обозначить границы строк, фрагментов и миниатюр.

🟠Языковая модель DeepSeek-MoE с механизмом MLA. MLA повышает эффективность обработки информации, сжимая kv-данные в компактный вектор. Это ускоряет обработку информации и увеличивает пропускную способность.

DeepSeek-VL2 обучается в три этапа: на первом этапе обучается MLP-соединитель, который связывает визуальный энкодер с языковой моделью, затем модель обучается на датасете из текста, изображений, аннотаций, QA и данных OCR и, в конце процесса, дообучается с учителем для улучшения ее способности понимать инструкции и вести диалог.
 
Модельная серия состоит из 3 вариантов c контекстом 4096:

🟢DeepSeek-VL2-Tiny (1B активных параметром и 3.4В общих);

🟢DeepSeek-VL2-Small (2.8B активных параметром и 16.1B общих);

🟢DeepSeek-VL2 (4.5B активных параметром и 27.5B общих).

DeepSeek-VL2 была протестирована на задачах DocVQA, ChartQA, InfoVQA, TextVQA, MMBench и показала лучшие результаты по сравнению с другими моделями MoE.

DeepSeek-VL2 эффективно использует архитектуру MoE и превосходит другие модели с аналогичным количеством активных параметров.


💡 По-прежнему полностью открытый исходный код!

💾 Hugging Face: huggingface.co/deepseek-ai
🖥Github: https://github.com/deepseek-ai/DeepSeek-VL2

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍51