Forwarded from Анализ данных (Data analysis)
Учёные из Университета Эмори (США) дали ИИ задачу не «угадывать результаты», а самому вывести формулы. Вот что получилось.
- Пыльная плазма — это горячий ионизированный газ, в котором летают микроскопические пылевые частицы.
- Частицы отталкиваются и притягиваются сложным образом; классическая теория не всё объясняла.
- Ему показали короткие 3-D видеозаписи движения частиц (маленький датасет).
- В алгоритм заранее «вшили» базовые принципы: сопротивление воздуха, гравитацию.
- ИИ искал уравнения, которые лучше всего описывают траектории.
📈 Что открыл
- Нереципрокные силы: сила от A к B ≠ сила от B к A. Раньше про них только догадывались.
- Исправил старую ошибку: заряд частицы зависит от её размера иначе, чем считали.
- Показал, как быстро затухают взаимодействия с расстоянием — формула тоже обновилась.
🚀 Почему это важно
- Малый объём данных: хватает секундных видеороликов.
- Обычный ПК: нужен лишь настольный компьютер, не суперкомпьютер.
- Метод переносится на любые «многие частицы» — от порошковых материалов до клеток в биологии.
Вывод: ИИ уже способен не только анализировать данные, но и выводить новые законы природы. Скорость открытий растёт экспоненциально.
https://interestingengineering.com/innovation/ai-decodes-dusty-plasma-new-forces-physics
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7🔥3🤨2
📐 gpt-oss работает на специальном формате промптов — Harmony, и без него просто не будет выдавать корректные ответы.
Зачем нужен Harmony?
Этот формат нужен для:
— 🧠 генерации chain of thought рассуждений
— 🔧 корректного вызова функций и использования инструментов
— 📦 вывода в разные каналы: обычный ответ, reasoning, tool call
— 🗂️ поддержки tool namespaces и иерархических инструкций
💡 Harmony имитирует OpenAI Responses API, так что если вы с ним работали — будет легко освоиться.
👉 Если вы используете gpt-oss через HuggingFace, Ollama или vLLM, волноваться не нужно — формат уже встроен.
Но если строите свой inference стек — обязательно изучите [гайд по Harmony](https://github.com/openai/harmony).
Без него модель просто не будет работать как надо.
💻 GitHub: https://github.com/openai/harmony
#AI #OpenAI #Harmony
Зачем нужен Harmony?
Этот формат нужен для:
— 🧠 генерации chain of thought рассуждений
— 🔧 корректного вызова функций и использования инструментов
— 📦 вывода в разные каналы: обычный ответ, reasoning, tool call
— 🗂️ поддержки tool namespaces и иерархических инструкций
💡 Harmony имитирует OpenAI Responses API, так что если вы с ним работали — будет легко освоиться.
👉 Если вы используете gpt-oss через HuggingFace, Ollama или vLLM, волноваться не нужно — формат уже встроен.
Но если строите свой inference стек — обязательно изучите [гайд по Harmony](https://github.com/openai/harmony).
Без него модель просто не будет работать как надо.
💻 GitHub: https://github.com/openai/harmony
#AI #OpenAI #Harmony
❤4👍4🥰1🤮1
Please open Telegram to view this post
VIEW IN TELEGRAM
😁9❤8🔥1🥰1
Big Data AI
📐 gpt-oss работает на специальном формате промптов — Harmony, и без него просто не будет выдавать корректные ответы. Зачем нужен Harmony? Этот формат нужен для: — 🧠 генерации chain of thought рассуждений — 🔧 корректного вызова функций и использования…
🧠 OpenAI выложила свои рассуждающие модели в опенсорс. А в Yandex Cloud AI Studio их уже можно запускать по API.
Они поддерживают настройку глубины рассуждений и скорости генерации ответа, а их качество сопоставимо с o3‑mini и o4‑mini. Данные обрабатываются и хранятся в российских дата‑центрах.
Модели подходят для построения агентских систем: автоматизация рекрутмента и техподдержки, анализ документов, написание кода и первичная коммуникация с клиентами. В скором времени появится поддержка вызова функций — это позволит подключать внешние источники данных прямо в процессе генерации.
@bigdatai
Они поддерживают настройку глубины рассуждений и скорости генерации ответа, а их качество сопоставимо с o3‑mini и o4‑mini. Данные обрабатываются и хранятся в российских дата‑центрах.
Модели подходят для построения агентских систем: автоматизация рекрутмента и техподдержки, анализ документов, написание кода и первичная коммуникация с клиентами. В скором времени появится поддержка вызова функций — это позволит подключать внешние источники данных прямо в процессе генерации.
@bigdatai
❤2👍2🤡2👎1
💎 RisuAI — кроссплатформенный клиент для общения с ИИ. Этот проект объединяет поддержку разных языковых моделей в одном интерфейсе с необычными функциями. Например, можно создавать групповые чаты с несколькими персонажами, добавлять эмоциональные изображения в диалоги и использовать TTS для озвучки ответов.
Проект имеет встроенный редактор regex для кастомизации вывода моделей и система «Lorebook» для сохранения контекста беседы. Есть версии для веба, ПК и Docker.
🤖 GitHub
@bigdatai
Проект имеет встроенный редактор regex для кастомизации вывода моделей и система «Lorebook» для сохранения контекста беседы. Есть версии для веба, ПК и Docker.
🤖 GitHub
@bigdatai
👍4❤1
Forwarded from Machinelearning
Google разработала масштабируемый процесс *active learning*, который позволяет в десятки тысяч раз сократить объём размеченных данных, необходимых для тонкой настройки больших языковых моделей на сложных задачах — например, при модерации рекламного контента.
1. Стартовая модель (LLM-0) получает промпт и автоматически размечает огромный массив данных.
2. Кластеризация выявляет примеры, где модель путается (наиболее спорные и ценные для обучения).
3. Отбор данных: из этих кластеров выбирают информативные и разнообразные примеры.
4. Экспертная разметка — только для выбранных примеров.
5. Итерации: дообучение модели → новый отбор спорных примеров → разметка → снова обучение.
- Сокращение с 100 000 размеченных примеров до менее 500 при сохранении или улучшении качества.
- Улучшение метрики *Cohen’s Kappa* на 55–65 %.
- В больших продакшн-моделях — до 3–4 порядков меньше данных при сопоставимом или лучшем качестве.
Это метрика, которая показывает, насколько два "судьи" (например, эксперт и модель) согласны между собой с поправкой на случайные совпадения.
- 0.0 — нет согласия (или хуже случайного)
- 0.41–0.60 — умеренное согласие
- 0.61–0.80 — значительное
- 0.81–1.00 — почти полное согласие
В задачах с дисбалансом классов Kappa даёт более честную оценку, чем обычная точность (accuracy).
Чем лучше предыдущих методов:
- Точечная разметка: размечаются только самые информативные примеры.
- Масштабируемость: метод применим к наборам данных с сотнями миллиардов примеров.
- Экономия ресурсов: меньше времени и затрат на разметку.
- Быстрая адаптация: подходит для доменов с быстро меняющимися правилами (реклама, модерация, безопасность).
При умном отборе данных LLM можно адаптировать в тысячи раз быстрее и дешевле, чем при традиционном обучении на больших размеченных наборах.
#GoogleResearch #ActiveLearning #AI #LLM #MachineLearning #DataEfficiency
@ai_machinelearning_big_data
#GoogleResearch #ActiveLearning #AI #LLM #MachineLearning #DataEfficiency
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4🔥3👍2
🔒 Неожиданный поворот в мире ИИ: Anthropic заблокировала OpenAI доступ к API своего чат-бота Claude, обвинив конкурента в нарушении условий обслуживания. По данным источников Wired, OpenAI использовала Claude для тестирования и сравнения с собственными разработками в преддверии релиза GPT-5 — якобы в обход стандартного интерфейса, через специальные API.
В Anthropic сочли это недопустимым — их условия явно запрещают применение сервиса для создания конкурирующих продуктов. При этом представители компании подчеркивают: сравнительный анализ моделей — обычная практика в индустрии, и доступ для таких целей останется.
OpenAI в ответ заявили, что разочарованы решением, особенно на фоне открытого доступа к их API. Конфликт интересен не только с юридической точки зрения, но и как маркер накаляющейся конкуренции между крупными игроками ИИ. Особенно сейчас, когда все готовятся к новым релизам — GPT-5 от OpenAI и, вероятно, ответных шагов от Anthropic.
🔗 Ссылка - *клик*
@bigdatai
В Anthropic сочли это недопустимым — их условия явно запрещают применение сервиса для создания конкурирующих продуктов. При этом представители компании подчеркивают: сравнительный анализ моделей — обычная практика в индустрии, и доступ для таких целей останется.
OpenAI в ответ заявили, что разочарованы решением, особенно на фоне открытого доступа к их API. Конфликт интересен не только с юридической точки зрения, но и как маркер накаляющейся конкуренции между крупными игроками ИИ. Особенно сейчас, когда все готовятся к новым релизам — GPT-5 от OpenAI и, вероятно, ответных шагов от Anthropic.
🔗 Ссылка - *клик*
@bigdatai
❤2👍1😢1
Первыми пошли xAI: Макс планирует встроить рекламу прямо в ответы Grok.
Честно говоря, это было лишь вопросом времени.
Проблема ещё и в доверии: в зависимости от того, как это реализуют, люди начнут задумываться — а не подтолкнул ли ИИ к этому ответу рекламодатель? И вот тогда доверие к модели может быстро уйти.
Честно говоря, это было лишь вопросом времени.
Проблема ещё и в доверии: в зависимости от того, как это реализуют, люди начнут задумываться — а не подтолкнул ли ИИ к этому ответу рекламодатель? И вот тогда доверие к модели может быстро уйти.
👍8❤2🕊2💯2