227K subscribers
3.8K photos
632 videos
17 files
4.45K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🌟 Google только что обновили Gemini 2.0 Flash Thinking

Контекст с 1 миллионом токенов (5-х больше, чем o1 Pro)

#1 на арене чат-ботов
👑

Модель показала наивысший результат, обогнав Gemini-Exp-1206

+ 17 очков прироста по сравнению с предыдущей контрольной точкой 1219

- №1 по всем направлениям (генерации кода), за исключением управления стилем.

• AIME: 73.3%
• GPQA: 74.2%
• MMMU: 75.4%

Модель доступна в ai-gradio

pip install --upgrade "ai-gradio[gemini]"

https://aistudio.google.com/prompts/new_chat?model=gemini-2.0-flash-thinking-exp-01-21

@ai_machinelearning_big_data

#google #gemini
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥51👍2412🙈3
⚡️ Обновления от Google для семейства моделей Gemini:

- На Арене Gemini-2.0-Pro (контекстное окно размером 2 млн) занимает 1-е место во всех категориях
- Gemini-2.0-Flash- 3-место в кодинге, математике и категории «Hard Prompts»
- Gemini-2.0-Flash топ-3 в категориях
- Gemini 2.0 Flash-Lite в топ-10 по всем категориям.

Что касается ризонинга, то в приложении Gemini также появилась версия Flash Thinking Experimental 2.0, которая в настоящее время так же занимает лидирующие позиции в рейтинге LM Arena .

https://developers.googleblog.com/en/gemini-2-family-expands/

@ai_machinelearning_big_data


#Gemini #google #deepmind #Gemini2
Please open Telegram to view this post
VIEW IN TELEGRAM
43👍26🔥12🤣4
This media is not supported in your browser
VIEW IN TELEGRAM
⭐️ Podcastfy — это open-source инструмент, который преобразует текстовый контент в аудио подкасты с использованием синтеза речи.

Он позволяет легко создавать аудиоверсии статей или блогов, упрощая процесс создания подкастов для контент-мейкеров, блогеров или в целях обучения.

🌟 Поддерживает интеграцию с ElevenLabs, OpenAI и Edge TTS, для преобразования текста в речь.

💡 Примеры можно посмотреть здесь.

💨 Поддерживает продвинутые настройки для работы с голосами, стилем речи и другими параметрами. с генеративным контентом.

Установка:
$ pip install podcastfy

Podcastfy — удобный и простой в использовании инструмент для быстрого прототипирования решений по автоматическому созданию аудиоконтента и интеграции в более крупные ML-проекты.

🔐 Лицензия: Apache-2.0

Github
Paper
Colab


@ai_machinelearning_big_data


#podcast #gemini #openai #elevenlabs #genai #notebooklm
Please open Telegram to view this post
VIEW IN TELEGRAM
58👍34🔥11😐2
А вот и Gemini 2.5 Pro Experimental — самая интеллектуальная модель Google


Без оптимизаций Gemini 2.5 Pro Experimental лидирует в таких математических и научных бнчмарках GPQA и AIME 2025.

Модель опередила на бенчмарках Sonnet 3.5.

🌌 Мультимодальный контекст до 1 миллиона токенов — анализ текста, изображений, видео, аудио и PDF.

🛠️ Поддерживае: вызовы функций, структурированный вывод, поиск Google, запуск кода.

Кроме того, модель набрала 18,8 % баллов на последнем экзамене человечества.

2.5 Pro уже появился у пользователей Advanced в GeminiApp.
Просто выберите его в выпадающем списке моделей на десктопных и мобильных приложениях. Скоро она также будет доступна на GoogleCloud.

💡 Содержит актуальные знания до января 2025 года.

🚀 Лимиты: 2 RPM, 50 запросов в день (бесплатно).

https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/#gemini-2-5-pro

Модель доступна в GoogleAI Studiohttps://ai.dev

@ai_machinelearning_big_data


#google #Gemini
1🔥42👍1815❤‍🔥3
Gemini 2.5 Pro теперь №1 в таблице лидеров Арены - это самый большой скачок в истории (+40 пт против Grok-3/GPT-4.5)! 🏆

Gemini 2.5 Pro #1 почти во ВСЕХ категориях, модель показывает результаты на уровне с Grok-3/GPT-4.5 в категориях «Hard Prompts» и «Coding», опредив всех остальных, заняв лидирующие позиции 🏇🏆

@ai_machinelearning_big_data

#google #Gemini #areana
🔥65👍2219😎3
✔️ Теперь Gemini 2.5 Pro теперь доступна бесплатно для всех пользователей с аккаунтом Google.


Пользуемся: https://gemini.google.com

@ai_machinelearning_big_data


#Gemini #google
Please open Telegram to view this post
VIEW IN TELEGRAM
👍80🔥2612😐11
This media is not supported in your browser
VIEW IN TELEGRAM
🖥 ​Physics Simulations — это проект, который предоставляет интерактивные физические симуляции, сгенерированные с помощью Gemini 2.5 Pro . ​

👉 Cимуляции в проекте:

🟡Earth's Magnetic Field: Моделирует магнитное поле Земли как диполь, наклоненный на 11 градусов относительно оси вращения планеты. ​

🟡EM Solenoid: Классическая демонстрация в области электричества и магнетизма, показывающая создание магнитного поля заряженным соленоидом. ​

🟡General Relativity: Иллюстрирует теорию общей относительности Эйнштейна через визуализацию кривизны пространства-времени. ​
GitHub

🟡Planetary Orbit: Демонстрирует орбитальное движение планет и маневр Хоумана для перехода между орбитами. ​

Выглядит очень завораживающее и залипательно.

🟡Симуляции
🟡Github

@ai_machinelearning_big_data

#Gemini #threejs #Physics
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4916🔥11💯3😁1
🔥 Google только что выпустил Gemini 2.5 Flash

Ключевые особенности:

В 25 раз дешевле, чем Claude Sonnet 3.7 и Grok-3 и в 5–10 раз дешевле, чем Gemini‑2.5‑Pro.

Новая функция динамического «размышления» над сложными задачами.

Настраиваемый «бюджет мышления» (вы сами решаете, сколько токенов выделить на этап «размышлений»)

Делит #2, место на Арене вместе с GPT 4.5 Preview и Grok‑3.

🏆 Делит первое место в задачах Hard Prompts, Coding и Longer Query
💠 Входит в топ‑4 по всем категориям

Gemini Flash 2.5 — это лучшее соотношение цена/производительность. Google снова на высоте.

Бегом тестить

@ai_machinelearning_big_data

#Gemini
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
102👍64🔥28👏6🤔4😁1
This media is not supported in your browser
VIEW IN TELEGRAM
📌Как Gemini превращает изучение языков в персонализированный опыт: обзор 3 экспериментов.

Представьте, что учите язык не по учебникам, а через ситуации, в которых оказываетесь каждый день. Именно эту идею воплотила команда Google в проекте Little Language Lessons— трех экспериментах на базе Gemini API, которые делают обучение живым и контекстным.

Первый эксперимент, Tiny Lesson, решает проблему «как сказать это сейчас?». Вы описываете ситуацию — например, «потерял паспорт» — и получаете словарь и фразы в формате JSON. Всё благодаря промптам, где Gemini генерирует структурированные данные: массив терминов с транскрипцией и переводом, а также советы по грамматике.

Например, если целевой язык — японский, модель сама определит, нужна ли транскрипция ромадзи, и подготовит материал за 2 API-запроса. Это не просто список слов, а готовый микрокурс под конкретный сценарий.

Второй, Slang Hang, убирает «учебникоговорение». Тут Gemini выступает как сценарист: создаёт диалоги на целевом языке с культурными нюансами и сленгом. Все генерируется одним запросом — от контекста сцены до реплик с пояснениями. Пример: диалог продавца и туриста может включать неформальные выражения, которые не найдешь в стандартных учебниках.

Правда, иногда модель ошибается или придумывает выражения, так что без проверки носителем не обойтись. Но сам подход — дать пользователю «уши» в реальных разговорах выглядит перспективно, особенно с интеграцией Cloud Translation для мгновенного перевода.

Третий, визуальный эксперимент — Word Cam. Наводите камеру на объект, и Gemini не только определяет его (bounding box), но и предлагает слова вроде «подоконник» или «жалюзи». Детекция работает через Gemini Vision, а дополнительные дескрипторы (цвет, материал, примеры употребления) подтягиваются отдельным запросом. Для изучения бытовой лексики почти идеально, хотя точность сильно зависит от качества снимка.

Во всех экспериментах задействован Text-to-Speech — озвучка слов и фраз. Но есть нюанс: для редких языков голоса зачастую звучат неестественно или не совпадают с диалектом. Например, выберете мексиканский испанский, а синтезатор выдаст акцент из Мадрида. Разработчики честно признают: это ограничение текущих API, и над ним еще работать.

Little Language Lessons — начало переосмысления процесса обучения языкам. Проекту пока не хватает тонкой настройки под лингвистическую специфику (идиомы или региональные диалекты), но основа уже заложена.

🟡Статья


@ai_machinelearning_big_data

#AI #ML #LLM #Gemini
Please open Telegram to view this post
VIEW IN TELEGRAM
66👍29🔥20🌭3
✔️ Google представила превью обновлённой модели Gemini 2.5 0605

Новая версия уже доступна для тестирования и показывает заметные улучшения в:

🧠 кодинге
📊 логическом выводе
🔬 задачах по науке и математике

Pro-версия показывает прирост на 24 пункта Elo, удерживая лидерство на lmarena_ai с результатом 1470.

💬 Также улучшены стиль и структура ответов — Google учла фидбек пользователей.

Gemini обошёл Opus 4 в тестах на веб-разработку (WebDev Arena).

💰 Цены
— до 200 000 токенов: $1.25 вход / $10 выход (за 1M токенов)
— свыше 200 000 токенов: $2.50 вход / $15 выход (за 1M токенов)

🔧Модель достпна уже сейчас в:
- AI Studio
- Vertex AI
- Gemini app

https://blog.google/products/gemini/gemini-2-5-pro-latest-preview/

@ai_machinelearning_big_data

#Gemini #Google
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5829🔥11🥰5
🌟 Google опенсорснул стек Deep Search.

Google выложил в открытый доступ на Github фуллстек-проект, который превращает пользовательские запросы в глубокие исследования с помощью Gemini. Его главная задача - находить информацию в интернете, анализировать ее и выдавать ответы с ссылками на источники, используя комбинацию React-интерфейса и бэкенда на базе LangGraph.

Проект включает в себя все необходимое: и фронтенд, и бэкенд.

🟢Фронтенд на React и он про взаимодействие с пользователем (принимает запросы и отображает результаты.)

🟢Бэкенд, на LangGraph, управляет «мозгом» системы: здесь работает агент, который генерирует поисковые запросы, анализирует результаты и решает, нужно ли уточнять данные.

Внутри бэкенда есть модуль, который отвечает за запуск цикла: сначала Gemini создает начальные запросы, затем система ищет информацию через API Google Search, оценивает, хватает ли данных, и при необходимости повторяет процесс.

Важная часть пайплайна — рефлексия. После каждого поиска агент проверяет, закрыты ли все «пробелы» в знаниях. Если информации недостаточно, он генерирует новые вопросы и повторяет цикл, пока не соберёт достаточно данных для ответа.

Проект адаптирован к продакшену, в нем используются Redis (для стриминга результатов в реальном времени) и PostgreSQL (для хранения истории диалогов и управления задачами). Это позволяет системе не терять прогресс даже при перезагрузках.

⚠️ Для практического использования потребуются API-ключи к Google Gemini и LangSmith.


📌Лицензирование: Apache 2.0 License.


🖥 GitHub


@ai_machinelearning_big_data

#AI #ML #DeepSearch #Google #Gemini #LangGraph
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
80👍41🔥22😁8
🤖 Gemini Robotics: автономный AI для роботов

Google представили Gemini Robotics On-Device — первую модель, объединяющую зрение, язык и действия, которая работает прямо на роботах, без постоянного подключения к интернету.

🔍 Что делает эту модель особенной:

🔹 Объединяет универсальность и точность Gemini, но работает локально
🔹 Моделька справляется со сложными задачами с двумя руками (манипуляции, сборка, перенос)
🔹 Обучается новым действиям всего по 50–100 демкам

Модель уже поддерживает разные типы роботов — от гуманоидов до промышленных двухруких манипуляторов. И это несмотря на то, что изначально она была обучена только на датасете ALOHA под управлением человеческих инструкций.

🛠 В догонку выпустили SDK Gemini Robotics — для разработчиков, которые хотят дообучить модель под свои нужды, включая тесты в физическом симуляторе MuJoCo.

🌐 Полностью автономная работа — идеально для кейсов с плохой связью или требованиями к высокой скорости отклика.

Gemini Robotics продолжает двигаться к будущему, где AI становится частью физического мира.

👉 Подробнее: https://goo.gle/gemini-robotics-on-device


@ai_machinelearning_big_data

#ai #robots #vlm #google #Gemini
41👍25🔥10🥰2
🔅 Vibe Kanban — оркестрация AI-кодеров в одном окне

Позволяет можно запускать и управлять сразу несколькими AI-агентами для кодинга: Claude Code, Gemini CLI, Codex — всё в одном дашборде.

▶️Что умеет:
- параллельный запуск агентов
- трекинг задач
- переключение между моделями на лету
- встроенный review и контроль над результатами
- backend написан на Rust, frontend на React, всё разворачивается локально
Полностью open-source

🟡 Репозиторий: https://github.com/BloopAI/vibe-kanban
🟡Документация: https://www.vibekanban.com/


@ai_machinelearning_big_data

#ai #aiagent #opensource #Claude #Gemini
Please open Telegram to view this post
VIEW IN TELEGRAM
96👍59🔥38🥰4😁3👏1