LEANN умеет индексировать и искать по миллионам документов, используя на 97% меньше хранилища, чем традиционные решения — без потери точности.
💡 Это достигается с помощью графовой селективной рекомпутации и high-degree preserving pruning — эмбеддинги вычисляются по запросу, а не хранятся заранее.
Ключевые особенности:
— Приватность — всё работает локально, без облака и скрытых условий.
— Лёгкость — графовая обрезка и CSR-формат уменьшают потребление памяти и места.
— Портативность — легко переносите базу знаний между устройствами.
— Масштабируемость — устойчив к «грязным» данным и памяти агентов, где другие БД падают.
— Точность — качество поиска как у тяжёлых решений, но с минимальными ресурсами.
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤3🔥2
— Разведочный анализ текстовых данных — как проводить EDA для текстовых данных, извлекать инсайты и выявлять паттерны.
— Статистика под капотом LinearRegression — почему минимизируем именно квадратичную ошибку и как это связано со статистикой.
— Как некачественные данные подтачивают нейросети — разбор влияния плохих данных на обучение моделей и стратегии исправления.
— Nested Learning: новый ML-парадигм для continual learning — модели рассматриваются как набор вложенных задач оптимизации, что помогает избегать катастрофического забывания.
— Beyond Standard LLMs — обзор альтернатив стандартным autoregressive LLM.
— В процессе обучения нейросетей получаются красивые фракталы — визуализация внутренней динамики обучения и фрактальных структур, возникающих в слоях нейросети.
— Не верьте AI на слово: эксперимент с оптимизацией — практический кейс, демонстрирующий ограничения моделей и как проверять результаты на практике.
— Забудьте про точность: для трекинга нужны десятки метрик — почему одной метрики мало, и как мульти-метрический подход улучшает оценку качества моделей.
#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1👍1
💻 Хочешь MacBook Pro? Просто начни учиться!
Да-да, вы не ослышались: Proglib.academy дарит макбук за учёбу!
Всё просто:
— купи любой курс Академии до 15 ноября;
— пройди 2 недели обучения (можно за два дня );
— напиши куратору в чате курса хэштег #розыгрыш.
📚 Выбирай свой курс:
▫️ «Математика для DS» — для тех, кто хочет уверенно работать с данными;
▫️ «Основы Python» — чтобы начать писать код с нуля;
▫️ «Алгоритмы и структуры данных» — для будущих инженеров;
▫️ «AI-агенты» или «Машинное обучение» — для тех, кто хочет прокачаться в ИИ.
👉 Участвовать в розыгрыше
Да-да, вы не ослышались: Proglib.academy дарит макбук за учёбу!
Всё просто:
— купи любой курс Академии до 15 ноября;
— пройди 2 недели обучения (
— напиши куратору в чате курса хэштег #розыгрыш.
📚 Выбирай свой курс:
▫️ «Математика для DS» — для тех, кто хочет уверенно работать с данными;
▫️ «Основы Python» — чтобы начать писать код с нуля;
▫️ «Алгоритмы и структуры данных» — для будущих инженеров;
▫️ «AI-агенты» или «Машинное обучение» — для тех, кто хочет прокачаться в ИИ.
👉 Участвовать в розыгрыше
🥰2
Иногда новые способы думать о мире появляются неожиданно. Особенно классно, когда смутная идея превращается в чёткую концепцию. Информационная теория — отличный пример.
Она даёт точный язык для описания неопределённости, взаимосвязи знаний и степени схожести убеждений. Эти идеи применяются повсюду: от сжатия данных до квантовой физики и машинного обучения.
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2❤1
🛒 Black Friday от Proglib.academy!
Только до 30 ноября — скидка 40% на ВСЕ курсы.
Пора добавить в корзину не носки, а новые скиллы: Python, математика для Data Science, AI, алгоритмы и структуры данных, ML.
🎓 Выбирай курс, который реально двинет тебя в карьере, и учись со скидкой.
👉 Учиться со скидкой
Только до 30 ноября — скидка 40% на ВСЕ курсы.
Пора добавить в корзину не носки, а новые скиллы: Python, математика для Data Science, AI, алгоритмы и структуры данных, ML.
🎓 Выбирай курс, который реально двинет тебя в карьере, и учись со скидкой.
👉 Учиться со скидкой
❤1🔥1🥰1
🖥 Разработчик из Yandex Cloud вошёл в топ-50 главных контрибьюторов PostgreSQL
Андрей Бородин, руководитель разработки СУБД с открытым исходным кодом в Yandex Cloud, получил статус major contributor. Это серьёзное признание: попасть в число 52 «главных» в самой популярной опенсорсной СУБД — задача не из лёгких. Туда не берут за разовые коммиты, только за годы работы и суровые ревью от core-команды. Приятно, что Postgres, на котором работает даже ChatGPT, активно развивается и нашими специалистами.
Кстати, команда Андрея разрабатывает и свой опенсорс, вроде роутера SPQR для масштабирования баз данных. На его основе в сентябре в превью запустили Managed Service for Shared PostgreSQL для горизонтального масштабирования кластеров.
Андрей Бородин, руководитель разработки СУБД с открытым исходным кодом в Yandex Cloud, получил статус major contributor. Это серьёзное признание: попасть в число 52 «главных» в самой популярной опенсорсной СУБД — задача не из лёгких. Туда не берут за разовые коммиты, только за годы работы и суровые ревью от core-команды. Приятно, что Postgres, на котором работает даже ChatGPT, активно развивается и нашими специалистами.
Кстати, команда Андрея разрабатывает и свой опенсорс, вроде роутера SPQR для масштабирования баз данных. На его основе в сентябре в превью запустили Managed Service for Shared PostgreSQL для горизонтального масштабирования кластеров.
👍7🔥6
🦉 Ovis (Open VISion): новая архитектура мультимодальных LLM
Ovis — это новая архитектура Multimodal Large Language Model (MLLM), созданная для структурного выравнивания визуальных и текстовых эмбеддингов.
Модель открывает путь к более глубокому пониманию изображений и текста в едином пространстве представлений — шаг к действительно связным мультимодальным ИИ-системам.
📱 Ссылка на репозиторий
🐸 Библиотека дата-сайентиста
#буст
Ovis — это новая архитектура Multimodal Large Language Model (MLLM), созданная для структурного выравнивания визуальных и текстовых эмбеддингов.
Модель открывает путь к более глубокому пониманию изображений и текста в едином пространстве представлений — шаг к действительно связным мультимодальным ИИ-системам.
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🧩 Drag-and-drop UI для создания AI-агентов
Langflow — мощный визуальный инструмент для сборки и деплоя AI-агентов и рабочих процессов без единой строки кода.
🈁 Поддерживает все основные LLM, векторные БД и другие инструменты.
🈁 Идеально для быстрого прототипирования и продакшн-воркфлоу.
📱 Репозиторий
🐸 Библиотека дата-сайентиста
#буст
Langflow — мощный визуальный инструмент для сборки и деплоя AI-агентов и рабочих процессов без единой строки кода.
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2❤1
🤗 Как выбрать правильную модель: теперь можно протестировать всех
Больше выбора — значит, больше решений: какую модель взять?
Но чем больше моделей, тем важнее тестирование.
Теперь это стало проще: вышла новая интеграция с Inspect AI.
С Inspect можно:
— сравнивать модели в агентных сценариях и vision-language задачах
— находить целевые модели из Hub и тестировать их на своих задачах
— запускать сравнения без скачиваний и без GPU — всего за пару строк Python
➡️ Гид по ссылке: https://clc.to/becBlw
🐸 Библиотека дата-сайентиста
#буст
Больше выбора — значит, больше решений: какую модель взять?
Но чем больше моделей, тем важнее тестирование.
Теперь это стало проще: вышла новая интеграция с Inspect AI.
С Inspect можно:
— сравнивать модели в агентных сценариях и vision-language задачах
— находить целевые модели из Hub и тестировать их на своих задачах
— запускать сравнения без скачиваний и без GPU — всего за пару строк Python
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉3❤1👍1😢1
🧠 DeepInverse: библиотека для решения обратных задач в компьютерном зрении с помощью глубокого обучения
DeepInverse — это open-source библиотека на базе PyTorch, созданная для решения обратных задач в области обработки изображений.
Основные цели проекта:
— ускорить исследования в области глубокого обучения для задач восстановления изображений,
— повысить воспроизводимость экспериментов благодаря модульной архитектуре,
— снизить порог входа для новых исследователей и инженеров.
DeepInverse объединяет разные задачи и алгоритмы в единую удобную экосистему — от классических inverse problems до современных нейросетевых подходов.
📱 Репозиторий
🐸 Библиотека дата-сайентиста
#буст
DeepInverse — это open-source библиотека на базе PyTorch, созданная для решения обратных задач в области обработки изображений.
Основные цели проекта:
— ускорить исследования в области глубокого обучения для задач восстановления изображений,
— повысить воспроизводимость экспериментов благодаря модульной архитектуре,
— снизить порог входа для новых исследователей и инженеров.
DeepInverse объединяет разные задачи и алгоритмы в единую удобную экосистему — от классических inverse problems до современных нейросетевых подходов.
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2❤1
Please open Telegram to view this post
VIEW IN TELEGRAM
😁6🔥2
Если хочется сделать кластеризацию точнее, быстрее и понятнее — связка PCA + K-means работает удивительно эффективно.
Что даёт PCA перед кластеризацией:
Что вы получаете:
Связка PCA + K-means — отличный инструмент, чтобы преобразовать хаос признаков в чёткие структуры и ускорить анализ.
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤2
📘 Хочешь в Data Science, но есть пробелы в знаниях математики?
Мы сделали экспресс-курс «Математика для Data Science», который за 2 месяца даст тебе фундамент, без которого ни одна ML-модель не взлетит 🚀
Что тебя ждёт:
🔹 живые вебинары с экспертами (НИУ ВШЭ, SberAI, Wildberries&Russ);
🔹 практика в Python, квизы и проверка заданий экспертами;
🔹 матрицы, регрессии, вероятности и статистика: всё на примерах из реальных задач;
🔹 старт — 4 декабря.
🔥 Не упусти халяву: сейчас 40% до 30 ноября
👉 Записаться на курс
Мы сделали экспресс-курс «Математика для Data Science», который за 2 месяца даст тебе фундамент, без которого ни одна ML-модель не взлетит 🚀
Что тебя ждёт:
🔹 живые вебинары с экспертами (НИУ ВШЭ, SberAI, Wildberries&Russ);
🔹 практика в Python, квизы и проверка заданий экспертами;
🔹 матрицы, регрессии, вероятности и статистика: всё на примерах из реальных задач;
🔹 старт — 4 декабря.
🔥 Не упусти халяву: сейчас 40% до 30 ноября
👉 Записаться на курс
🙌 Google Colab теперь в VS Code: лучшее из двух миров
Google официально выпустил расширение Colab для VS Code, позволяя использовать облачные мощности Colab — включая GPU и TPU — прямо в любимом редакторе кода:
🈁 Для пользователей VS Code: привычный workflow + подключение к мощным Colab-рутинам, включая Pro-tier GPU и TPU.
🈁 Для пользователей Colab: IDE-функции VS Code (расширяемость, интеграция с Git) при сохранении облачных вычислений и удобного коллаборационного опыта.
Как начать работу:
1. Установите Colab расширение из VS Code Marketplace.
2. Откройте
3. Запускайте ячейки с мощностью облака — всё прямо в VS Code!
Google планирует интегрировать ещё больше возможностей Colab в VS Code, делая разработку AI/ML быстрее и удобнее.
🔗 Попробовать сейчас: https://clc.to/rr53rw
🐸 Библиотека дата-сайентиста
#буст
Google официально выпустил расширение Colab для VS Code, позволяя использовать облачные мощности Colab — включая GPU и TPU — прямо в любимом редакторе кода:
Как начать работу:
1. Установите Colab расширение из VS Code Marketplace.
2. Откройте
.ipynb ноутбук и подключитесь к Colab runtime через Google аккаунт.3. Запускайте ячейки с мощностью облака — всё прямо в VS Code!
Google планирует интегрировать ещё больше возможностей Colab в VS Code, делая разработку AI/ML быстрее и удобнее.
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9🔥5👍2⚡1🎉1
Почему датасет MNIST стал таким популярным в обучении нейронных сетей?
Anonymous Quiz
16%
Он был первым открытым датасетом, содержащим цветные изображения
34%
Он идеально подходит для тестирования сверточных сетей благодаря разнообразным шрифтам и шуму
36%
Он был создан как стандартизированная версия набора NIST, чтобы было проще сравнивать модели
14%
За его использование давали призы на ранних соревнованиях по ML
🔥4👍1
🙌 Апдейты
— Google Colab теперь в VS Code: лучшее из двух миров — Google официально выпустил расширение Colab для VS Code.
🚀 AI & LLMs: новые модели и прорывы
— GPT-5.1 — OpenAI представила две обновлённые модели.
— Nano Banana 2 — утекли первые сэмплы следующей версии модели.
🧠 Research
— Google запускает File Search в Gemini API — файл-хранилище, чанкинг, индексация и вставка контекста — всё теперь автоматизировано.
— Nested Learning — Google представила brain-inspired подход, где модель — это не одна задача оптимизации, а множество вложенных.
#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2
Forwarded from Библиотека собеса по Data Science | вопросы с собеседований
Если при кросс-валидации модель показывает очень разные результаты на разных фолдах, а на тесте — низкую ошибку, что это может значить?
Anonymous Quiz
12%
Недостаток данных
48%
Сильная зависимость модели от случайных разбиений данных
32%
Модель сильно переобучена на один из фолдов
7%
Модель недообучена
❤3😢2
🚀 В IT ценится не перфекционизм, а движение вперёд, и если вы давно откладывали обучение — самое время начать.
❤️ Proglib Academy продлевает розыгрыш MacBook Pro 14 до 30 ноября!
Что нужно:
⚡️ выбрать курс;
⚡️ пройти минимум две недели обучения (можно за два вечера);
⚡️ написать куратору #розыгрыш;
⚡️ забрать макбук.
🎓 Курсы, которые участвуют
👉 Участвовать
❤️ Proglib Academy продлевает розыгрыш MacBook Pro 14 до 30 ноября!
Что нужно:
⚡️ выбрать курс;
⚡️ пройти минимум две недели обучения (можно за два вечера);
⚡️ написать куратору #розыгрыш;
⚡️ забрать макбук.
🎓 Курсы, которые участвуют
👉 Участвовать
This media is not supported in your browser
VIEW IN TELEGRAM
🧪 Методы тестирования ML-моделей перед релизом
Когда выкатываешь новую модель, важно не «сломать прод», поэтому используют разные стратегии тестирования.
Вот 4 самых популярных подхода:
1️⃣ A/B-тестирование
Сервер отправляет, например, 90% запросов старой модели и 10% — новой.
🔛 Так можно безопасно сравнить качество на реальных пользователях.
2️⃣ Канареечное тестирование
Новая модель включается только для небольшой группы пользователей.
🔛 Если всё ок — постепенно расширяем охват. Минимальный риск.
3️⃣ Interleaved Testing
Пользователь видит «смешанные» результаты: часть рекомендаций — от старой модели, часть — от новой.
🔛 Хорошо подходит для ранжирования и рекомендаций, где важны позиции.
4️⃣ Shadow Testing
Пользователь получает ответ только от старой модели, но новая модель работает параллельно, делает предсказания и скрытно собирает статистику.
🔛 Самый безопасный способ протестировать поведение модели под реальной нагрузкой.
🐸 Библиотека дата-сайентиста
#буст
Когда выкатываешь новую модель, важно не «сломать прод», поэтому используют разные стратегии тестирования.
Вот 4 самых популярных подхода:
Сервер отправляет, например, 90% запросов старой модели и 10% — новой.
Новая модель включается только для небольшой группы пользователей.
Пользователь видит «смешанные» результаты: часть рекомендаций — от старой модели, часть — от новой.
Пользователь получает ответ только от старой модели, но новая модель работает параллельно, делает предсказания и скрытно собирает статистику.
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤2