Анализ данных (Data analysis)
46.3K subscribers
2.31K photos
264 videos
1 file
2.04K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
🧠 Что такое "векторы персональности" в ИИ — и зачем они нужны?

Языковые модели иногда ведут себя странно: могут льстить, врать или даже угрожать. Почему? Потому что их "характер" формируется внутри нейросети — и до сих пор был чёрным ящиком.

Anthropic предложила решение: persona vectors — векторы персональности. Это нейронные шаблоны, которые отвечают за конкретные черты модели:
например, *льстивость*, *галлюцинации*, *злобность*.

Что можно с ними делать:

Отслеживать, когда модель "съезжает" в плохое поведение — прямо во время диалога.
Фильтровать данные, которые формируют вредные черты ещё до начала обучения.
Предотвращать появление токсичности — как прививка: немного “злобности” в безопасной форме делает модель устойчивой.
Менять характер модели прямо во время работы: включить “юмор” или отключить “галлюцинации”.

🔬 Векторы находят автоматически: даёшь описание (например, “льстивый = говорит приятное, но неискренне”), и система сама находит нейронный паттерн.
А потом можно его вставить, убрать — и увидеть, как модель *буквально меняет личность*.

Это мощный шаг к тому, чтобы управлять характером ИИ, а не просто наблюдать за его капризами.

📄 Подробности — в свежей работе от Anthropic: https://www.anthropic.com/research/persona-vectors

@data_analysis_ml

#Anthropic #ml #ai #llm
🔥186👍4
🔧 Data-Juicer — универсальная система для обработки текстовых и мультимодальных данных, предназначенная для работы с foundation-моделями. Проект предлагает более 100 готовых операторов для очистки, анализа и синтеза данных, поддерживая сценарии предобучения и тонкой настройки моделей.

Data-Juicer уже интегрирован в платформу Alibaba PAI и позволяет обрабатывать миллиарды образцов данных за часы благодаря распределённым вычислениям через Ray. Для тестирования доступен облачный JupyterLab, а сообщество активно развивает рецепты обработки под разные задачи.

🤖 GitHub

@data_analysis_ml
8👍3🔥2
NVIDIA показала 7 простых «приемов» на Python, которые мгновенно ускоряют Data Science-пайплайны — без переписывания кода.

🔹 В чём идея?

Многие привычные библиотеки (pandas, NumPy, scikit-learn) можно заменить их GPU-версией, сохранив API.

Это даёт прирост скорости в десятки раз.

🟠 Drop-in замены в коде:
- pandas%load_ext cudf.pandas
- polars.collect(engine="gpu")
- scikit-learn%load_ext cuml.accel
- xgboostdevice="cuda"
- umap%load_ext cuml.accel
- hdbscan%load_ext cuml.accel
- networkx%env NX_CUGRAPH_AUTOCONFIG=True

🚀 Плюсы:
- Минимальные изменения кода (API почти идентичен).
- GPU-ускорение: от 10х до 100х быстрее на больших данных.
- Отлично подходит для ETL, ML и обработки сигналов.

Если ты работаешь с большими данными в Python, достаточно «заменить импорт» и получить колоссальный прирост скорости без боли и переписывания кода.

🚀 Подробнее: developer.nvidia.com/blog/7-drop-in-replacements-to-instantly-speed-up-your-python-data-science-workflows

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
18👍11🔥7🤔1🙏1
🚀 Hugging Face Jobs — полностью автоматический способ запускать CPU и GPU задачи прямо из CLI или Python-скриптов

Вам не нужно искать железо или настраивать окружение — просто запускайте скрипт, экспериментируйте и стройте свои проекты!

📦 Запускается очень просто:


hf jobs run python:3.12 python -c "print('Hello from the cloud!')"


https://huggingface.co/docs/huggingface_hub/en/guides/jobs
🔥8👍65
🚀 GitHub решил главную боль open-source ИИ-проектов — теперь inference доступен всем

Новая инициатива GitHub Models позволяет запускать LLM прямо из кода или CI,
⚡️ без API-ключей OpenAI, без развёртывания моделей, без костылей.

🔧 Как это работает:
- Полная совместимость с openai.ChatCompletion.create
- Поддержка GPT‑4o, Llama 3, DeepSeek и др.
- Авторизация через обычный GITHUB_TOKEN
- Бесплатно для OSS и личных аккаунтов
- Можно использовать даже в GitHub Actions (просто `permissions: models: read`)

💡 Зачем это нужно:
- Убирает барьер входа для пользователей и контрибьюторов
- Помогает легко добавлять ИИ‑фичи в open-source проекты
- Работает с OpenAI SDK, LangChain, Python, Node.js и другими библиотеками

📦 Теперь запускать AI в open-source так же просто, как git push.

📝 Подробности:
https://github.blog/ai-and-ml/llms/solving-the-inference-problem-for-open-source-ai-projects-with-github-models
16🔥7👍5
🧠ИИ открыл новые законы физики — понятным языком

Учёные из Университета Эмори (США) дали ИИ задачу не
«угадывать результаты», а самому вывести формулы. Вот что получилось.

🔍 Что исследовали
- Пыльная плазма — это горячий ионизированный газ, в котором летают микроскопические пылевые частицы.
- Частицы отталкиваются и притягиваются сложным образом; классическая теория не всё объясняла.

🧠 Как работал ИИ
- Ему показали короткие 3-D видеозаписи движения частиц (маленький датасет).
- В алгоритм заранее «вшили» базовые принципы: сопротивление воздуха, гравитацию.
- ИИ искал уравнения, которые лучше всего описывают траектории.

📈 Что открыл
- Нереципрокные силы: сила от A к B ≠ сила от B к A. Раньше про них только догадывались.
- Исправил старую ошибку: заряд частицы зависит от её размера иначе, чем считали.
- Показал, как быстро затухают взаимодействия с расстоянием — формула тоже обновилась.

🚀 Почему это важно
- Малый объём данных: хватает секундных видеороликов.
- Обычный ПК: нужен лишь настольный компьютер, не суперкомпьютер.
- Метод переносится на любые «многие частицы» — от порошковых материалов до клеток в биологии.

Вывод: ИИ уже способен не только анализировать данные, но и выводить новые законы природы. Скорость открытий растёт экспоненциально.

https://interestingengineering.com/innovation/ai-decodes-dusty-plasma-new-forces-physics

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
21🔥9👍4
💡 GPT-5 получит встроенный детектор галлюцинаций. OpenAI разрабатывает новую архитектуру для GPT-5 с модулем Universal Verifier, который будет проверять каждое утверждение модели на достоверность. Источники The Information сообщают, что это значительно снизит количество ошибочных ответов.

Следующая версия модели, по слухам, будет обладать адаптивным распределением вычислительных ресурсов: модель сама будет выбирать, сколько мощности выделить на задачу. Также обещают улучшенную генерацию кода и способность решать сложные пользовательские проблемы, например, взаимодействие со службами поддержки.

🔗 Ссылка - *клик*

@data_analysis_ml
8🔥6👍1