Neurogen
21.4K subscribers
480 photos
166 videos
17 files
519 links
Популяризатор нейросетей, разработчик-энтузиаст, ментор.

СEO NeuroIMG.ART

По вопросам сотрудничества и рекламы: @roman_neurogen

Портативные сборки: https://boosty.to/neurogen

Live канал: @neurogen_blog
Реестр РКН: №4777528086
Download Telegram
ChatGPT-3.5-Turbo уходит на покой - вышла ChatGPT-4o mini

Новая модель умнее классической ChatGPT-4, а стоимость при работе через API ниже на 60 процентов чем ChatGPT 3.5 Turbo, что делает ее самой дешевой моделью из арсенала OpenAI

Модель имеет контекстное окно из 128 тыс. токенов, поддерживает до 16 тыс. выходных токенов на запрос и обладает знаниями до октября 2023 года.

В официальном чате ChatGPT пользователи Free, Plus и Team смогут получить доступ к GPT-4o mini с сегодняшнего дня вместо GPT-3.5

Полный текст анонса выхода можно прочесть в блоге OpenAI.

#chatgpt #llm #ai

@neurogen_news
Вышла Grok-2: новая версия языковой модели от Илона Маска.

Grok-2 - значительный шаг вперед по сравнению с предыдущей моделью Grok-1.5, с передовыми возможностями в области чата, программирования и логических рассуждений. 

Ранняя версия Grok-2 "sus-column-r" превосходит Claude 3.5 Sonnet и GPT-4-Turbo в таблице лидеров LMSYS. 

Grok-2 и Grok-2 mini находятся в стадии бета-тестирования на 𝕏 и будут доступны через корпоративный API. 

Grok-2 демонстрирует значительные улучшения в работе с контентом и инструментами, такими как определение недостающей информации и анализ последовательности событий. 

Grok-2 и Grok-2 mini достигают уровня производительности, конкурентоспособного с другими передовыми моделями в различных областях, включая научные знания, общие знания и математические задачи. 

Также заявлено, что Grok-2 отлично справляется с задачами распознавания изображений, обеспечивая современную производительность в области визуальных математических рассуждений и ответов на вопросы на основе документов. 

#ai #llm #groq
Reflection 70B - дообученная Llama 3.1, обгоняющая все GPT-4o

Модель была дообучена на синтетических данных (созданных другой нейросетью) и по бенчмаркам обходит GPT-4o, а в скором времени обещают выпуск модели на 405B параметров.

Особенность модели - она проверяет сама себя и исправляет, перед тем как дать финальный ответ. Из-за этого время генерации ответа увеличивается, но и улучшается качество ответа.

Модель доступна в для загрузки, но даже квантованная до 4-bit GGUF версия требует 42.5 Гигабайта видео или оперативной памяти, а версия квантованная до 2-bit - 29.4 Gb.

Тем не менее, протестировать ее можно тут: Reflection 70B Playground, но из-за большой нагрузки сайт периодически ложится

#llm #ai #chatgpt

Neurogen - подпишись, тут рассказывают про нейросети
Neurogen
DeepSeek-Coder-V2 - open-source модель, которая лучше GPT-4-Turbo в программировании. DeepSeek-Coder-V2 обеспечивает производительность, сравнимую с GPT4-Turbo, в задачах, связанных с кодом, а также она лучше чем Claude, Gemini и все open-source языковые…
Вышла DeepSeek 2.5. Модель стала лучше чем ее Coder версия в работе с кодом, но также и комбинирует возможности обычной (Chat) версии, превосходя и ее.

Про DeepSeek Coder V2 я писал тут:
DeepSeek-Coder-V2 - open-source модель, которая лучше GPT-4-Turbo в программировании.

Модель имеет контекстное окно в 128000 токенов

Модель большая, на 236B параметров, поэтому запустить локально на домашнем ПК будет весьма проблематично.

Тем не менее, есть возможность бесплатной работы через официальный онлайн чат: chat.deepseek.com

Также модель доступна через API со стоимостью 0.14$ за миллион токенов на вход и 0.28$ за миллион токен на выход.

От себя хочу сказать, что давно активно пользуюсь версией DeepSeek Coder V2 в онлайн чате, и на некоторых сценариях модель действительно позволяла получить рабочее решение за меньшее кол-во шагов, чем через GPT-4o.

#llm #ai #deepseek #chatgpt

Neurogen - подпишись, тут рассказывают про нейросети
CogVideoX-5B и Topaz Video AI

Почему-то очень многие прошли мимо CogVideoX-5B, хотя все так долго ждали нормальную нейросеть для локальной генерации видео по тексту. Видимо, многих отпугнуло, что видео генерируется с разрешением 720x480 и в 8 FPS.
Но по факту, и это не проблема, ведь у нас есть и другие нейросети, увеличивающие как разрешение, так и количество кадров.

Наиболее простым тут будет Topaz Video AI. Продукт быстрый, не сильно требовательный, а также платный, но тут я думаю вы сами понимаете, что можно придумать 😏

В целом, как раз можете посмотреть до и после: 720х480 было увеличено до 1920x1080, а количество кадров поднято с 8 до 24

#aivideo #ai #txt2img
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Выжимка из презентации Apple, что они там в свой Apple Intelligence накрутили:

- Генерация стикеров и эмодзи
- Поумневшая Siri, умеющая понимать контекст из общения и ваших данных, которая теперь сможет поддержать разговор.
- Нативная интеграция с ChatGPT
- Интеграция различных фишек, аналог Google Lens

При этом, большая часть задач внутри OS будут обрабатываться на устройстве локально, без отправки на облачные серверы.

Apple Intelligence будет доступен в бета-версии на всех моделях iPhone 16, iPhone 15 Pro, iPhone 15 Pro Max, а также iPad и Mac с M1 и более поздними версиями этой осенью.

Но есть нюанс - все это будет поддерживаться только для устройств на английском языке 😂

Остальные языки появятся в течение следующего года, но о точном списке приходится только догадываться - Apple решили оставить это в тайне.

#ai #apple #iphone #macos #ios #chatgpt

Neurogen - подпишись, тут рассказывают про нейросети
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
ОpenAI сделали революцию? Представлены новые модели: o1-preview и o1-mini. И это уже не ChatGPT.

Сегодня, 12 сентября, OpenAI выпустили две версии их новой модели o1: o1-preview и o1-mini

Особенность данной модели заключается в том, что перед тем как дать ответ, они думают над ответом, подобно тому, как это делает человек. Также модели обладают контекстным окном в 128 000 токенов и обладают знаниями до Октября 2023 года.

По оценкам компании, данная модель решает задачи по физике, химии и биологии на уровне аспирантов, а также порой и превосходит их в задачах на математику и программирование.
Решая задачи по Международной математической олимпиаде, GPT-4o решал правильно лишь 13% задач. o1 решает 83% задач.
На данный момент o1 находится на ранней стадии своего существования, поэтому не умеет работать с документами, расширениями и не поддерживает мультимодальный ввод.

OpenAI делает акцент, что для ряда обычных задач ChatGPT все еще отличное решение, в то время как o1 - отличное решение для ученых и исследователей.

Модель доступна для платных подписчиков а также и по API, но лишь для тех, кто имеет самый высокий уровень 5 (проще говоря, кто потратил кучу денег на API).
o1-mini является облегченной версией базовой o1-preview, а потому и стоит более дешево. Для подписчиков ChatGPT Plus будет доступно 30 сообщений в неделю для o1-preview и 50 для o1-mini. Такие маленькие лимиты обусловлены тем, что o1 требует намного больше вычислительных ресурсов, чем ChatGPT. Стоимость же через API составляет 15$/1M токенов на вход и 60$/1M токенов на выход для o1-preview, и 3$/1M и 12$/1M для o1-mini.
В будущем OpenAI планируют предоставить доступ к o1-mini для всех бесплатных пользователей.

#ai #chatgpt #o1 #llm

Neurogen - подпишись, тут рассказывают про нейросети
Forwarded from Machinelearning
⚡️ Qwen2.5 Family: Релиз Qwen2.5, Qwen2.5-Coder и Qwen2.5-Math.

Команда разработки Qwen (Alibaba Group) опубликовала большой релиз нового поколения моделей - Qwen2.5, специализированные модели: Qwen2.5-Coder, Qwen2.5-Math, их инструктивные и квантованные версии, анонсированы закрытые Qwen-Plus и Qwen-Turbo.

Вместе с релизом нового поколения 2.5 в отрытый доступ опубликована Qwen2-VL-72B-Instruct предыдущего поколения.

▶️ Qwen2.5

В дополнение к традиционным вариантам с 0,5-1,5-7-72 млрд параметров, Qwen2.5 предлагает две новые модели среднего размера 14 млрд и 32 млрд параметров и компактную модель 3 млрд параметров.

Qwen2.5 обучались на увеличенном и улучшенном наборе данных размером в 18 трлн токенов.

Значительно расширены знания моделей: возможности в области программирования,
усовершенствованы математические способности Qwen2.5, повышено соответствие ответов модели предпочтениям человека: следование инструкциям, генерация длинных текстов (до 8 тыс. токенов), понимание структурированных данных и генерация структурированных выводов (в частности, JSON).

Список моделей:

🟢Qwen2.5: 0.5B, 1.5B, 3B, 7B, 14B, 32B, 72B;

🟢Qwen2.5-Instruct: 0.5B, 1.5B, 3B, 7B, 14B, 32B, 72B;

🟢Qwen2.5-Instruct: все варианты в форматах GPTQ, AWQ, GGUF.

В дополнение к этим моделям открыт доступ по API для флагманских моделей: Qwen-Plus и Qwen-Turbo через Model Studio.

▶️ Qwen2.5 Coder

Qwen2.5-Coder доступна в трех размерах: 1,5 млрд, 7 млрд и 32 млрд параметров (последняя появится в ближайшее время). Обновление состоит из двух основных улучшений: больше объем обучающих данных и расширение возможностей программирования в общих задачах и в математике.

Модели обучались на массиве данных объемом 5,5 триллиона токенов, включающем исходный код, данные для сопоставления текста и кода и синтетические данные.

Qwen2.5-Coder поддерживает до 128 тысяч токенов контекста, знает 92 языка программирования и выполняет операции по генерации кода, автодополнению и исправлению кода.

Qwen2.5-Coder-Instruct имеет способность к обобщению, знает более 40 языков программирования, справляется с задачами, связанными с логическим мышлением в коде, и показывает высокие результаты в задачах, связанных с математическим мышлением.

Список моделей:

🟠Qwen2.5-Coder: 1.5B, 7B;

🟠Qwen2.5-Coder-Instruct: 1.5B, 7B;

🟠Qwen2.5-Coder-Instruct в формате GGUF: 1.5B, 7B.


▶️ Qwen2.5 Math

Qwen2.5-Math обучались на корпусе математических данных Qwen Math Corpus v2, который содержит более 1 трлн. токенов.

Помимо базовых моделей, серия Qwen2.5-Math включает в себя инструктивные модели: Qwen2.5-Math-Instruct и модель математического вознаграждения, Qwen2.5-Math-RM-72B.

Qwen2.5-Math-Instruct обучалась с использованием данных CoT и TIR на китайском и английском языках, а также данных SFT, созданных с использованием Qwen2.5-Math-RM-72B.

Список моделей:

🟠Qwen2.5-Math: 1.5B, 7B, 72B, RM-72B;

🟠Qwen2.5-Math-Instruct: 1.5B, 7B, 72B.


▶️ Вместе с релизом Qwen2.5, опубликована Qwen2-VL-72B-Instruct и ее квантованные Int8 и Int4 версии в форматах GPTQ, AWQ.


📌Лицензирование:

🟢Apache 2.0 для всех base и instruct моделей, кроме 3B и 72B.
🟠Qwen2.5-3B - Qwen Research License.
🟠Qwen2.5-72B и Qwen2.5-Math-72B - Qwen License.



🟡Страница проекта
🟡Коллекция моделей на HF
🟡Demo Qwen2.5-Instruct-72B
🟡Demo Qwen2.5-Coder-Instruct-7B
🟡Demo Qwen2.5-Math
🟡Сообщество в Discord
🖥Github


@ai_machinelearning_big_data

#AI #ML #LLM #Qwen
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
⭐️ OpenAI представили своего AI агента.

Operator — это ИИ-агент, который умеет работать с браузером, заказывать продукты, бронировать билеты и столики в ресторанах искать данные и тп.
Вам нужно просто описать свою задачу, а затем наблюдать в реальном времени, как оператор выполняет её за вас.
Доступ пользователям Pro уже открыт, для остальных обещают в ближайшем времени:
operator

⭐️ Open Operator
В преддверии релиза OpenAI Operator разработчики начали собирать полезные ресурсы, связанные с Operator и другими подобными решениями для автоматизации задач:
Github

⭐️ Новый лидер на Text-to-Image Arena! Imagen 3 от Google DeepMind

Imagen 3 дебютирует на первом месте, обойдя Recraft-v3 с впечатляющим отрывом в +70 очков!
Imagen 3 доступен на сайте .

⭐️ "Последний экзамен человечества"

Это тщательно собранный датасет с 3 000 вопросов, разработанный при участии сотен профильных экспертов, чтобы отразить границы человеческих знаний. Лучше всех справляется с ним DeepSeek R1 от, достигая 9.4%, у o1 отставание с 9.1%.
Dataset

⭐️ Можем ли мы генерировать изображения с помощью цепочки мыслей CoT?

Давайте проверим и улучшим генерацию изображений шаг за шагом.
Авторегрессионная генерация изображений + масштабирование выводов приводят к существенному улучшению генерации изображений на нескольких бенчмарках.
Github Статья HF

⭐️ Pika 2.1

Крутейший генератор видео уже на подходе 😁 Движение в реальном времени стало намного лучше!
Здесь, можно подать заявку на ранний доступ:
Доступ

⭐️ o3-mini станет бесплатной — работать с моделью скоро смогут все желающие!
Новость


⭐️ Anthropic. Представили Citations

Новая функция API, которая позволяет Claude обосновывать свои ответы на предоставленных вами источниках.

Еще Claude может процитировать конкретные предложения и отрывки, которые лежат в основе каждого ответа.
Новость

@ai_machinelearning_big_data


#news #ai #ml #machinelearning #deeplearning #openai #pika #chatgpt #Imagen #cot #Anthropic #Claude
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Могучий синий кит Китай ронять Запад бесплатно

Последние несколько дней с момента релиза новой модели Deepseek R1 примерно такой оборот событий набирает новостной фон.

Хронология событий после релиза DeepSeek-R1 (20–29 января 2025):

1. 20 января:
- Официальный релиз DeepSeek-R1 — модели с 660B параметров, сравнимой по производительности с OpenAI o1 в задачах математики, кода и естественного языка. Ключевые особенности:
- Использование усиленного обучения (RL) вместо классического SFT, что снизило зависимость от размеченных данных .
- Открытый код (MIT License) и дистилляция 6 малых моделей (1.5B–70B), включая версии для Qwen и Llama, превосходящие OpenAI o1-mini .
- Стоимость API в 27–55 раз ниже, чем у o1 (1–4 RMB за млн входных токенов, 16 — за выходные) .

2. 21 января:
- Публикация технических деталей:
- R1-Zero — базовая версия, обученная без человеческих данных, достигла 71% на AIME 2024 после самооптимизации через RL .
- Сравнение с Kimi k1.5 (128K контекстное окно): DeepSeek-R1 сильнее в логике, Kimi — в мультимодальности .

3. 22 января:
- Обсуждение в сообществе:
- «RL is all you need» — тезис DeepSeek, бросивший вызов традиционным подходам .
- Модель получила прозвище «AlphaGo для открытых LLM» за способность к самообучению .

4. 23 января:
- Запуск «цепочки рассуждений» (Chain-of-Thought) в API: пользователи могут видеть логику модели перед финальным ответом .
- Meta начинает внутренние эксперименты по воспроизведению R1, опасаясь потери лидерства .

5. 25 января:
- DeepSeek-R1 занимает 1-е место в рейтинге Arena (стиль и логика), обойдя OpenAI o1 .
- Акции NVIDIA падают на 3,12% на фоне дискуссий о снижении спроса на GPU из-за эффективности R1 .

6. 26 января:
- Реакция Запада:
- Scale AI CEO Александр Ванг называет R1 «переломным моментом» в гонке ИИ .
- Марк Андриссен хвалит открытость модели как «дар миру» .
- Meta анонсирует ускорение разработки Llama 4 и инвестиции в 1,3 млн GPU .

7. 28–29 января:
- Аналитики (Morgan Stanley, UBS) прогнозируют волну инноваций благодаря снижению стоимости ИИ-разработки .
- Влияние на рынок: сомнения в устойчивости оценки американских AI-стартапов, чьи модели дороже и закрытее .

В целом, можно сделать вывод, что DeepSeek-R1 не просто «догнал» OpenAI — он изменил правила игры через открытость и экономическую эффективность. Это заставило Запад пересмотреть стратегии, а инвесторов — усомниться в монополии США на ИИ. Главный урок: «Китай работает, пока Америка отдыхает» .

Партия давать +100 социальный рейтинг за комментарий про силу Синий Китайский Кит над Запад 😺

#ai #llm #ainews
Please open Telegram to view this post
VIEW IN TELEGRAM
После увиденного в трендах Reels/Shorts видео с ИИсусом, невольно задумаешься, а тот ли контент ты делаешь...

#ai #юмор