Анализ данных (Data analysis)
52.4K subscribers
2.9K photos
348 videos
1 file
2.45K links
Data science, наука о данных.

@haarrp - админ

РКН: clck.ru/3FmyAp
Download Telegram
🌟 Это действительно серьёзный сигнал.

Исследование MIT показало эффект, который они называют когнитивным долгом при активном использовании AI.

Главные выводы:
- Чем чаще вы полагаетесь на LLM, тем хуже работает самостоятельное мышление
- Мозг перестаёт «тренироваться» - когнитивные навыки постепенно ослабевают
- Возникает привычка сразу обращаться к AI вместо того, чтобы анализировать самому

Механизм простой:
Если не использовать когнитивные «мышцы» — они деградируют.
AI снижает трение мышления, но вместе с этим может снижать глубину обработки информации.

Риск не в самом AI, а в модели использования:
- копировать ответы вместо понимания
- просить решение вместо попытки подумать
- делегировать анализ, логику и формулировки

Правильный подход:
AI — как усилитель мышления, а не замена.

Лучшие практики:
- сначала подумать самому → потом сверить с AI
- просить объяснения, а не готовый ответ
- использовать AI для идей, проверки и расширения, а не для «думать за меня»

Тренд:
AI повышает продуктивность, но при пассивном использовании может снижать когнитивную самостоятельность.

В эпоху LLM главным навыком становится не просто использование AI, а сохранение способности думать без него.

https://arxiv.org/abs/2506.08872
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥427👍7🤨2
⚡️ Это заявление из прогноза компании Anthropic о ближайшем будущем ИИ.

Остался один год:

«Мы считаем вполне вероятным, что уже в начале 2027 года наши системы ИИ смогут полностью автоматизировать или существенно ускорить работу крупных команд ведущих исследователей - в областях, где быстрый прогресс может создать угрозы международной безопасности и вызвать серьёзные изменения в глобальном балансе сил.

Речь идёт о таких направлениях, как энергетика, робототехника, разработка вооружений и сам искусственный интеллект

https://x.com/AnthropicAI/status/2026393792375411115
17👍9🔥7🤨3🥱1
Liquid AI представила свою крупнейшую модель - LFM2-24B-A2B 🐘

- 24 млрд параметров всего
- активны только 2,3 млрд на каждый токен
- построена на гибридной, аппаратно-оптимизированной архитектуре LFM2

Модель сочетает быстрый и экономичный дизайн LFM2 с архитектурой Mixture of Experts (MoE), благодаря чему при работе задействуется лишь небольшая часть параметров.

Результат:
- высокая энергоэффективность
- быстрая работа на edge-устройствах
- предсказуемый лог-линейный рост качества
- полный запуск в пределах 32 ГБ памяти

С выходом этой версии линейка LFM2 теперь охватывает почти два порядка масштаба — от 350 млн до 24 млрд параметров, при этом каждое увеличение размера даёт стабильный рост качества на стандартных бенчмарках.

Модель специально оптимизирована так, чтобы помещаться в 32 ГБ RAM — её можно запускать на потребительских ноутбуках и рабочих станциях.

Стратегия масштабирования:
- увеличить глубину сети (с 24 до 40 слоёв)
- увеличить число экспертов (с 32 до 64 в каждом MoE-блоке)
- сохранить компактный активный путь вычислений

Итог — общее число параметров выросло в 3 раза, но вычислительная нагрузка осталась контролируемой.

LFM2-24B-A2B выпущена как instruct-модель (без трасс reasoning) и показывает лог-линейный рост качества на задачах:
GPQA Diamond, MMLU-Pro, IFEval, IFBench, GSM8K, MATH-500.

Модель получила поддержку «с первого дня» в:
- llama.cpp
- vLLM
- SGLang

Доступны квантованные версии (GGUF), работающие на CPU и GPU.

Например:
- на CPU (Ryzen AI, Q4_K_M) — около 93 токенов/с при контексте 8K
- высокий throughput и на GPU (H100)

Главный вывод: архитектура LFM2 демонстрирует предсказуемое масштабирование без «потолка качества» у малых моделей.

https://huggingface.co/LiquidAI/LFM2-24B-A2B-GGUF
👍166🔥5🥱3
54😁29👍7😱3🤨2😍1
🔥 Веса серии моделей Qwen 3.5 Medium в формате FP8 открыты и готовы к продакшену

Теперь доступны FP8-версии моделей Qwen 3.5 - оптимизированные для высокой производительности и снижения затрат на инференс.

Что это даёт:

- более быстрый инференс
- меньшее потребление памяти
- оптимальный баланс скорости и качества
- готовность к развёртыванию в продакшене

Поддержка из коробки:
- vLLM
- SGLang

FP8-точность позволяет значительно ускорить рабочие процессы без заметной потери качества — особенно полезно для высоконагруженных AI-сервисов.

Скачать веса:

Hugging Face: https://huggingface.co/collections/Qwen/qwen35
ModelScope: https://modelscope.cn/collections/Qwen/Qwen35
👍156🔥4
⚡️ Карпаты поделился наблюдением, которое хорошо описывает то, что сейчас происходит с разработкой.

За последние пару месяцев программирование изменилось не постепенно, а резко. Раньше кодинг-агенты выглядели как интересный эксперимент - могли помочь с фрагментами кода, но не тянули реальные задачи. Сейчас ситуация другая: модели научились держать контекст, последовательно решать проблемы и доводить работу до конца.

По сути, они получили главное качество инженера - упорство.

Типичный сценарий сегодня выглядит так: ты ставишь задачу высокого уровня, агент подключается к серверу, настраивает окружение, устанавливает зависимости, поднимает сервисы, пишет код, тестирует, исправляет ошибки и возвращается с готовым результатом и отчётом. То, что раньше занимало выходные, теперь может решаться за десятки минут автономной работы.

И это меняет сам подход к разработке.

Раньше основной навык был - писать код.
Теперь основной навык - формулировать задачи, декомпозировать их и управлять процессом.

Новый рабочий процесс:

* описываешь цель на естественном языке
* запускаешь агента
* наблюдаешь за прогрессом
* проверяешь результат
* корректируешь направление

Ключевая компетенция смещается вверх по уровням абстракции:

* архитектурное мышление
* правильная декомпозиция
* настройка инструментов и среды
* оркестрация нескольких агентов
* контроль качества

Это ещё не магия. Агентам всё ещё нужны:

* чёткие спецификации
* понятные критерии успеха
* тесты и верификация
* человеческое суждение и вкус

Лучше всего они работают там, где результат можно проверить автоматически.

Но главное изменение уже произошло.

Программирование постепенно превращается из «написания кода» в управление вычислительной системой, которая пишет код за тебя.

И сейчас выигрывают не те, кто быстрее печатает,
а те, кто умеет мыслить на уровне систем, задач и результатов.

Если раньше ценился coding,
то теперь растёт ценность agent-engineering.

https://x.com/karpathy/status/2026731645169185220
👍3413🔥7🥱3😁1
😁32👍96🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
✔️ Google выпустили Nano Banana 2 - новую модель генерации изображений, ориентированную на реальное production-использование.

Стоимость Nano Banana 2:

Модель позволяет быстро генерировать и редактировать изображения, сохраняя уровень детализации, света и текстур, достаточный для коммерческих задач.

Ключевые возможности:

* точное следование сложным текстовым инструкциям
* корректный текст внутри изображений
* создание инфографики, диаграмм и визуального контента
* сохранение внешнего вида персонажей и объектов между генерациями
* поддержка разных форматов и разрешений

Nano Banana 2 интегрирована в экосистему Google:

* Gemini
* AI Studio и Gemini API
* Vertex AI
* Search и Lens
* рекламные инструменты Google

• $0.0672 за изображение 1K
• $0.101 за изображение 2K
• $0.151 за изображение 4K

Отдельное внимание уделено прозрачности - изображения автоматически получают цифровую маркировку SynthID и соответствуют стандарту C2PA.

https://blog.google/innovation-and-ai/technology/ai/nano-banana-2/
Please open Telegram to view this post
VIEW IN TELEGRAM
15👍10💔3🔥2
🎯 Martian выпустили крупнейший бенчмарк для оценки AI-агентов, которые проверяют код и он полностью open-source.

Главная проблема большинства AI-тестов - модели со временем просто запоминают ответы. Бенчмарк превращается в «экзамен с известными вопросами», а реальные возможности моделей остаются за кадром.

Martian решили эту проблему архитектурно.

Вместо одного теста они внедрили систему Dual-Layer Evaluation:

- Offline-слой — честное сравнение моделей на статичных данных
- Online-слой — анализ поведения инструментов в реальной работе разработчиков

Если компания попытается «подогнать» модель под офлайн-тест, это сразу станет заметно — её результаты перестанут совпадать с реальным использованием в онлайн-слое.

Фактически это первый самокорректирующийся бенчмарк, который нельзя накрутить маркетингом или обучением на тестовых данных.

Что внутри:

- Более 200 000 реальных изменений кода
- Данные реального поведения разработчиков
- Оценка качества AI-ревью в боевых условиях
- Полная нейтральность — создатели не продают собственные coding-ассистенты

Это первый измеритель качества AI-инструментов для разработки, который не деградирует со временем и отражает реальную пользу, а не лабораторные метрики.

https://codereview.withmartian.com/
👍11🔥65❤‍🔥2
🔥 10 GitHub-репозиториев, которые реально прокачают тебя в AI

1. Generative AI for Beginners
Полноценный курс от Microsoft: Jupyter-ноутбуки, практические задания и разработка GenAI-приложений.
https://github.com/microsoft/generative-ai-for-beginners

2. LLMs from Scratch
Пошаговая реализация GPT-подобной модели с нуля. Лучший способ понять, как работают LLM внутри.
https://github.com/rasbt/LLMs-from-scratch

3. AI Agents for Beginners
Практика по созданию агентных систем: инструменты, память, планирование, workflow.
https://github.com/microsoft/ai-agents-for-beginners

4. ML for Beginners
Классическая база по машинному обучению: 26 структурированных уроков.
https://github.com/microsoft/ML-For-Beginners

5. OpenAI Cookbook
Официальные примеры работы с API: production-паттерны, RAG, функции, реальные кейсы.
https://github.com/openai/openai-cookbook

6. Python 100 Days
Интенсив по Python с практикой каждый день. Отличная база для входа в AI.
https://github.com/jackfrued/Python-100-Days

7. LLM App Templates
Готовые RAG-шаблоны и production-решения для реальных LLM-приложений.
https://github.com/pathwaycom/llm-app

8. Python Data Science Handbook
Фундамент по NumPy, Pandas,
визуализации и классическому ML.
https://github.com/jakevdp/PythonDataScienceHandbook

9. Stable Diffusion
Оригинальный код модели text-to-image - отличная база для изучения генеративного CV.
https://github.com/CompVis/stable-diffusion

10. Segment Anything
Модель от Meta для сегментации изображений - мощный инструмент для компьютерного зрения.
https://github.com/facebookresearch/segment-anything

#AI #MachineLearning #LLM #GitHub #Python #DataScience
👍199🍌3🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️Андрей Карпати поделился интересным экспериментом: он попробовал собрать исследовательскую команду из AI-агентов.

В setup:
- 8 агентов (Claude + Codex)
- у каждого свой GPU
- каждый работает как отдельный исследователь
- задачи ведутся через Git-ветки
- коммуникация через файлы
- всё запускается в tmux - как «офис» с окнами

Фактически — попытка построить AI-research-организацию.

Но главный вывод оказался неожиданным.

Агенты:
- плохо продумывают дизайн экспериментов
- делают случайные или бессмысленные вариации
- не строят сильные baseline
- не контролируют compute и время
- часто делают ложные выводы

Пример: агент «обнаружил», что увеличение hidden size улучшает validation loss.
Формально - да. Но модель просто стала больше и дольше обучалась. Никакой научной ценности.

Инсайт:

AI отлично реализует хорошо сформулированные идеи.
Но пока плохо генерирует сильные исследовательские гипотезы.

Теперь мы программируем не модель -
мы программируем организацию.

Source code такой системы:
- промпты
- роли
- процессы
- инструменты
- standup’ы
- workflow

Добро пожаловать в эпоху *Org Engineering*.

https://x.com/karpathy/status/2027521323275325622
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥219👍7🥱3
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Дарио Амодеи дал первое интервью после того, как Пентагон фактически внес его компанию в чёрный список.

Ему задали один вопрос:
Что бы вы сейчас сказали президенту?

Ответ был коротким:

«Мы патриоты. Всё, что мы делали, — ради этой страны».

Anthropic сотрудничала с государством:
- их модели одними из первых допустили к секретным военным системам
- компания помогала в задачах обороны

Но затем Пентагон потребовал:
- доступ к технологиям полностью автономного оружия
- возможности массового наблюдения

Anthropic отказалась — и провела красную линию.

Ответ правительства:
- давление через цепочки поставок
- чрезвычайные полномочия
- требование отказаться от продуктов компании на федеральном уровне

Амодеи:

«Не соглашаться с правительством — это и есть по-настоящему по-американски».

Но самый показательный момент произошёл позже.

По данным WSJ, во время недавних военных операций США против Ирана
модель Claude всё равно использовалась.

Центральное командование применяло её для:
- разведывательных оценок
- идентификации целей
- моделирования боевых сценариев

Формально это не нарушение - у госструктур есть 6 месяцев, чтобы отказаться от Claude.

Но тайминг выглядит показательно:

– Anthropic отказывается принимать условия Пентагона
– В тот же день звучат призывы срочно прекратить использование Claude
– И буквально через несколько часов модель используют в боевой операции

Это борьба за контроль над тем,
кто и на каких условиях будет использовать интеллект машин.

https://www.wsj.com/livecoverage/iran-strikes-2026/card/u-s-strikes-in-middle-east-use-anthropic-hours-after-trump-ban-ozNO0iClZpfpL7K7ElJ2
Please open Telegram to view this post
VIEW IN TELEGRAM
22👍7😁5🔥4💯2
This media is not supported in your browser
VIEW IN TELEGRAM
📌 Anthropic добавила новую функцию памяти в Claude.

Теперь можно перенести контекст и предпочтения из других AI-инструментов.

Как это работает:

1. В другом AI генерируете специальный prompt с вашим контекстом
2. Копируете результат
3. Вставляете его в настройки памяти Claude

После этого Claude:
- запоминает ваши предпочтения
- понимает ваш стиль работы
- может сразу продолжать диалог без повторных объяснений

Функция доступна во всех платных тарифах.

Почему это важно:

Контекст становится переносимым.
Вы больше не привязаны к одному инструменту.

Новый тренд в AI:

Пользовательский контекст - это ваш личный слой поверх моделей.

Модель можно сменить.
Память - остаётся.

claude.com/import-memory
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍209🔥9
🖥 Большинство парсеров умирают через 2 дня.

Ты научишься делать те, которые работают в продакшене.

Это не про BeautifulSoup ради галочки.
Это про системы сбора данных, которые:

• не падают из-за мелких изменений на сайте
• собирают данные в разы быстрее
• обновляют всё автоматически по расписанию
• обходят ограничения и блокировки
• выглядят как полноценный сервис, а не как хаос из файлов

Ты начнёшь видеть сайты не как страницы, а как источники данных, к которым можно подключаться.

В итоге ты сможешь:

• забирать данные для своих проектов
• автоматизировать чужую рутину
• создавать инструменты для аналитики
• брать коммерческие заказы на сбор данных

Это навык, который напрямую превращается в деньги.
Не «знаю Python», а «умею профессионально добывать данные из интернета».

🎁 Скидка 50% на Stepik действует 48 часов: https://stepik.org/a/269942/
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣145👍3🔥2
📌 Большинство AI-агентов на самом деле ничего не помнят.

Каждый диалог для них — как первый:
- нет памяти о прошлых разговорах
- нет понимания связей между фактами
- нет накопленного опыта

И здесь многие делают ошибку.

Они используют vector database — и считают, что это память.

Проблема:
Vector search находит похожие куски текста,
но не понимает связи между ними.
Документы остаются изолированными фрагментами.

Агенту нужна не просто память.
Ему нужна система знаний с отношениями.

Именно это делает Cognee — 100% open-source инструмент для самообучающейся памяти.

Что внутри:

- Vector search + графовая база
- Поиск по смыслу + связи между сущностями
- Документы превращаются в knowledge graph

Ключевые возможности:

Composable pipelines
Можно собирать свои пайплайны:
chunking → embedding → entity extraction → обработка

Weighted memory
Чем чаще используется связь — тем она сильнее
Память адаптируется под реальное использование

Self-evolving memory
Пайплайн memify:
- усиливает полезные связи
- удаляет устаревшие данные
- оптимизируется по принципам RL

Агент получает память, которая:
- сохраняется
- понимает связи
- улучшается со временем

https://github.com/topoteretes/cognee
21👍8🤣7😍2
Отличный результат 😄
Please open Telegram to view this post
VIEW IN TELEGRAM
😁67🤣17👍14🥰2
This media is not supported in your browser
VIEW IN TELEGRAM
На это конец, можно идти домой
🤣51👍52😍2
Если вы хоть раз пытались навести порядок в BI, то знаете эту боль.

Дашборды растут, копируются, устаревают.
А когда нужно понять, что где используется — начинается классика:
скриншоты, Excel-таблицы, ручные проверки.

Парадокс в том, что мы строим аналитику, чтобы автоматизировать бизнес,
но управление самой BI-средой часто остаётся полностью ручным.

Хорошая новость — это можно автоматизировать.

10 марта в 12:00 (мск) Yandex Cloud проведёт вебинар
«API в DataLens — все пути автоматизации».

На вебинаре разберут:
- возможности Public API DataLens
- как управлять дашбордами и объектами программно
- как убрать рутину из администрирования BI
- реальные сценарии автоматизации
- кейс использования API-коннектора клиентом

Будет особенно полезно, если вы хотя бы раз делали «инвентаризацию дашбордов вручную».

Кому подойдёт:
BI-аналитикам, дата-инженерам, разработчикам, системным архитекторам и руководителям аналитики.

Участие бесплатное, требуется предварительная регистрация.

Иногда следующий уровень аналитики — это автоматизация самой аналитики.
8😍2