Big Data AI
16.8K subscribers
824 photos
98 videos
19 files
827 links
@haarrp - админ

Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям

@data_analysis_ml - анализ данных

@ai_machinelearning_big_data

@itchannels_telegram - важное для программиста

РКН: clck.ru/3Fmqxe
Download Telegram
🚨 ALERT: Новый ИИ‑скам — Airbnb‑хост сгенерировал фейк‑фото, чтобы выбить £12,000 с гостя

Хост использовал генеративный ИИ, чтобы сделать вид, будто гость сломал кофейный столик. Airbnb поверили картинке и потребовали компенсацию.

Гостье пришлось обратиться в СМИ, чтобы доказать свою невиновность.

📰 По данным The Guardian:

— Через 5 дней после вмешательства журналистов Airbnb согласились на апелляцию
— Предложили вернуть £854 из £4,269
— После отказа гостья добилась полного возврата
— И негативный отзыв хоста удалили

🤖 Что это значит?

Создать фейковое изображение с ИИ — дешево и просто. А значит, и фейковые обвинения — теперь тоже.

Компании вроде Airbnb обязаны иметь:
⚠️ AI-детекторы на стороне модерации
☎️ Канал экстренной поддержки при ИИ-манипуляциях
🔍 Независимую оценку при спорных случаях

То, что человеку пришлось идти в прессу, чтобы добиться справедливости — тревожный сигнал.

Это и есть пост-генеративная реальность. И большинство компаний, правительств и платформ к ней до сих пор не готовы.
2👍1🥰1
E-CUP возвращается. Реальные данные. Масштабные проекты. Большие призы

Решайте ML-задачи в стиле Ozon Tech. Девять победителей разделят призовой фонд соревнования — 7 200 000 рублей 🔥
Тест-драйв работы в e-com бигтехе стартует здесь.

🗓 Регистрация: https://cnrlink.com/ecup25bidgata
💻 Формат участия: онлайн
👥 Команда: от 1 до 5 человек
🎯 Для кого: Data Scientists, ML-специалисты, аналитики данных, дата-инженеры, специалисты Big Data и разработчики, которые интересуются ML/DS.

Что вас ждёт:
🔹 Работа над проектом для миллионов пользователей на основе данных от ведущего e-com в России.
🔹 Обмен опытом с экспертами Ozon Tech.
🔹 Эксклюзивный мерч для победителей и подарки для самых активных участников.
🔹 Питчинг — 13 сентября на конференции E-CODE. Ozon Tech предоставит финалистам билеты и оплатит поездку.

Три трека E-CUP:
1️⃣ Рекомендации: предсказание следующей покупки пользователя
2️⃣ Логистика: автопланирование курьеров
3️⃣ Контроль качества: автоматическое выявление поддельных товаров

Регистрация на платформе Codenrock: https://cnrlink.com/ecup25bidgata
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍1🔥1
🧠ИИ открыл новые законы физики — понятным языком

Учёные из Университета Эмори (США) дали ИИ задачу не
«угадывать результаты», а самому вывести формулы. Вот что получилось.

🔍 Что исследовали
- Пыльная плазма — это горячий ионизированный газ, в котором летают микроскопические пылевые частицы.
- Частицы отталкиваются и притягиваются сложным образом; классическая теория не всё объясняла.

🧠 Как работал ИИ
- Ему показали короткие 3-D видеозаписи движения частиц (маленький датасет).
- В алгоритм заранее «вшили» базовые принципы: сопротивление воздуха, гравитацию.
- ИИ искал уравнения, которые лучше всего описывают траектории.

📈 Что открыл
- Нереципрокные силы: сила от A к B ≠ сила от B к A. Раньше про них только догадывались.
- Исправил старую ошибку: заряд частицы зависит от её размера иначе, чем считали.
- Показал, как быстро затухают взаимодействия с расстоянием — формула тоже обновилась.

🚀 Почему это важно
- Малый объём данных: хватает секундных видеороликов.
- Обычный ПК: нужен лишь настольный компьютер, не суперкомпьютер.
- Метод переносится на любые «многие частицы» — от порошковых материалов до клеток в биологии.

Вывод: ИИ уже способен не только анализировать данные, но и выводить новые законы природы. Скорость открытий растёт экспоненциально.

https://interestingengineering.com/innovation/ai-decodes-dusty-plasma-new-forces-physics

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
7🔥3🤨2
📐 gpt-oss работает на специальном формате промптов — Harmony, и без него просто не будет выдавать корректные ответы.

Зачем нужен Harmony?
Этот формат нужен для:
🧠 генерации chain of thought рассуждений
🔧 корректного вызова функций и использования инструментов
📦 вывода в разные каналы: обычный ответ, reasoning, tool call
🗂️ поддержки tool namespaces и иерархических инструкций

💡 Harmony имитирует OpenAI Responses API, так что если вы с ним работали — будет легко освоиться.

👉 Если вы используете gpt-oss через HuggingFace, Ollama или vLLM, волноваться не нужно — формат уже встроен.
Но если строите свой inference стек — обязательно изучите [гайд по Harmony](https://github.com/openai/harmony).

Без него модель просто не будет работать как надо.


💻 GitHub: https://github.com/openai/harmony


#AI #OpenAI #Harmony
4👍4🥰1🤮1
Посвящается всем вайбкодерам 👍
Please open Telegram to view this post
VIEW IN TELEGRAM
9😁9🔥3🥰1
Big Data AI
📐 gpt-oss работает на специальном формате промптов — Harmony, и без него просто не будет выдавать корректные ответы. Зачем нужен Harmony? Этот формат нужен для: — 🧠 генерации chain of thought рассуждений — 🔧 корректного вызова функций и использования…
🧠 OpenAI выложила свои рассуждающие модели в опенсорс. А в Yandex Cloud AI Studio их уже можно запускать по API.

Они поддерживают настройку глубины рассуждений и скорости генерации ответа, а их качество сопоставимо с o3‑mini и o4‑mini. Данные обрабатываются и хранятся в российских дата‑центрах.

Модели подходят для построения агентских систем: автоматизация рекрутмента и техподдержки, анализ документов, написание кода и первичная коммуникация с клиентами. В скором времени появится поддержка вызова функций — это позволит подключать внешние источники данных прямо в процессе генерации.

@bigdatai
2👍2🤡2👎1
💎 RisuAI — кроссплатформенный клиент для общения с ИИ. Этот проект объединяет поддержку разных языковых моделей в одном интерфейсе с необычными функциями. Например, можно создавать групповые чаты с несколькими персонажами, добавлять эмоциональные изображения в диалоги и использовать TTS для озвучки ответов.

Проект имеет встроенный редактор regex для кастомизации вывода моделей и система «Lorebook» для сохранения контекста беседы. Есть версии для веба, ПК и Docker.

🤖 GitHub

@bigdatai
👍41
Forwarded from Machinelearning
🚀Прорыв от Google: активное обучение с экономией данных на 10 000× при дообучении LLM

Google разработала масштабируемый процесс *active learning*, который позволяет в десятки тысяч раз сократить объём размеченных данных, необходимых для тонкой настройки больших языковых моделей на сложных задачах — например, при модерации рекламного контента.

🟢 Как работает метод:
1. Стартовая модель (LLM-0) получает промпт и автоматически размечает огромный массив данных.
2. Кластеризация выявляет примеры, где модель путается (наиболее спорные и ценные для обучения).
3. Отбор данных: из этих кластеров выбирают информативные и разнообразные примеры.
4. Экспертная разметка — только для выбранных примеров.
5. Итерации: дообучение модели → новый отбор спорных примеров → разметка → снова обучение.

🟢Результаты:
- Сокращение с 100 000 размеченных примеров до менее 500 при сохранении или улучшении качества.
- Улучшение метрики *Cohen’s Kappa* на 55–65 %.
- В больших продакшн-моделях — до 3–4 порядков меньше данных при сопоставимом или лучшем качестве.

🟢 Что такое Cohen’s Kappa?
Это метрика, которая показывает, насколько два "судьи" (например, эксперт и модель) согласны между собой с поправкой на случайные совпадения.
- 0.0 — нет согласия (или хуже случайного)
- 0.41–0.60 — умеренное согласие
- 0.61–0.80 — значительное
- 0.81–1.00 — почти полное согласие
В задачах с дисбалансом классов Kappa даёт более честную оценку, чем обычная точность (accuracy).

Чем лучше предыдущих методов:
- Точечная разметка: размечаются только самые информативные примеры.
- Масштабируемость: метод применим к наборам данных с сотнями миллиардов примеров.
- Экономия ресурсов: меньше времени и затрат на разметку.
- Быстрая адаптация: подходит для доменов с быстро меняющимися правилами (реклама, модерация, безопасность).

🟢Вывод:
При умном отборе данных LLM можно адаптировать в тысячи раз быстрее и дешевле, чем при традиционном обучении на больших размеченных наборах.

#GoogleResearch #ActiveLearning #AI #LLM #MachineLearning #DataEfficiency

🟠Почитать подробно

@ai_machinelearning_big_data


#GoogleResearch #ActiveLearning #AI #LLM #MachineLearning #DataEfficiency
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
4🔥3👍2
🔒 Неожиданный поворот в мире ИИ: Anthropic заблокировала OpenAI доступ к API своего чат-бота Claude, обвинив конкурента в нарушении условий обслуживания. По данным источников Wired, OpenAI использовала Claude для тестирования и сравнения с собственными разработками в преддверии релиза GPT-5 — якобы в обход стандартного интерфейса, через специальные API.

В Anthropic сочли это недопустимым — их условия явно запрещают применение сервиса для создания конкурирующих продуктов. При этом представители компании подчеркивают: сравнительный анализ моделей — обычная практика в индустрии, и доступ для таких целей останется.

OpenAI в ответ заявили, что разочарованы решением, особенно на фоне открытого доступа к их API. Конфликт интересен не только с юридической точки зрения, но и как маркер накаляющейся конкуренции между крупными игроками ИИ. Особенно сейчас, когда все готовятся к новым релизам — GPT-5 от OpenAI и, вероятно, ответных шагов от Anthropic.

🔗 Ссылка - *клик*

@bigdatai
4👍3😢2
Первыми пошли xAI: Макс планирует встроить рекламу прямо в ответы Grok.

Честно говоря, это было лишь вопросом времени.

Проблема ещё и в доверии: в зависимости от того, как это реализуют, люди начнут задумываться — а не подтолкнул ли ИИ к этому ответу рекламодатель? И вот тогда доверие к модели может быстро уйти.
👍93🕊3💯3
This media is not supported in your browser
VIEW IN TELEGRAM
🎙 Seed LiveInterpret 2.0 от ByteDance — прорыв в переводе речи в реальном времени.

Что в нём особенного:

- Синхронный перевод речь-в-речь между китайским и английским с задержкой всего 2–3 секунды — почти как у человека.
- Клонирование голоса в реальном времени — перевод звучит голосом говорящего, сохраняя тембр, ритм и стиль.
- Точность перевода на уровне профессиональных синхронных переводчиков — до 70–80 % корректности даже в сложных сценариях.
- Баланс качества и скорости — модель подстраивает темп перевода под стиль речи, избегая слишком медленного или ускоренного воспроизведения.
- Доступность через API платформы Volcano Engine и интеграция в гарнитуру Ola Friend.

Source:
https://alphaxiv.org/pdf/2507.17527
Post:
https://seed.bytedance.com/en/seed_liveinterpret
5👍3🔥3
🖥 Теперь писать сложные промты самому не обязательно — OpenAI выпустили генератор, который превращает даже простой запрос в подробную инструкцию для ИИ.

Принцип простой: описываете, что хотите получить, нажимаете Optimize — GPT-5 анализирует запрос и выдаёт готовый детализированный промт. Работает бесплатно.

Инструмент может упростить работу с любыми нейросетями, особенно если у вас нет опыта в составлении промтов.

Готовый вы можете сразу попробовать в @Chatgpturbobot
Please open Telegram to view this post
VIEW IN TELEGRAM
👍54🔥1
GPT-5 - настоящий гений, говорили они
😁212🌚2👻2👍1🥰1💅1
📨 Cognitive Kernel-Pro: компактный AI-агент для исследований. Открытый фреймворк Cognitive Kernel-Pro демонстрирует, как 8-миллиардная языковая модель может заменить коммерческие API в сложных исследовательских задачах. Система объединяет веб-поиск, анализ файлов и выполнение кода через Python-интерфейс, используя архитектуру из планировщика и узкоспециализированных под-агентов.

Ключевая фишка — самоанализ агента: после каждой операции он ведет журнал, отмечает сомнительные результаты и перепроверяет данные. Обучение на 15 тыс. многоэтапных сценариев и синтетических данных из PersonaHub позволило достичь 70.9% точности в тестах GAIA, обойдя другие открытые аналоги.

🔗 Ссылка - *клик*

@bigdatai
👍42🔥1🥰1
👿 26 августа Яндекс проведёт в Санкт-Петербурге Data Dojo: мероприятие для сообщества ML-экспертов

Будем обсуждать востребованные направления машинного обучения, разбирать реальные задачи из соревнований и общаться с руководителями команд, чтобы узнать больше о карьере ML’щика в Яндексе.

Николай Савушкин, руководитель команды рекомендательных технологий в Поиске, расскажет, как устроена персонализация и как работают большие генеративные модели в рекомендательных системах Яндекса. А Алексей Колесов, руководитель команды NLP, поделится, каких успехов за последнее время добилась команда R&D в Яндексе, и какие вызовы стоят перед ними в ближайший год.

Вечером — дискуссия с секретным гостем, а после — afterparty с музыкой и напитками.

Если хотите стать спикером, необходимо заполнить специальную форму до 13 августа. Программный комитет выберет одну из заявок и пригласит её автора выступить на встрече.

Если хотите участвовать, то нужно заполнить анкету до 20 августа.

🪷 В додзё не приходят случайно. Набирайтесь мудрости в сильнейшем ML-комьюнити.
🎓 TheAlgorithms/Python — крупнейший открытый репозиторий с реализациями алгоритмов на Python

📌 Что это?
TheAlgorithms — глобальное комьюнити, создающее учебные реализации алгоритмов на множестве языков. Репозиторий Python — один из самых популярных и активно развиваемых. Он содержит тысячи алгоритмов для образовательных целей.
Основные цифры:
- 204k звёзд — один из самых "звёздных" проектов на GitHub

💡 Что внутри:
- Реализации алгоритмов разных категорий: сортировки, графы, машинное обучение, криптография, динамическое программирование, структуры данных и многое другое
- Полная документация, справка по API и гайды по контрибуции на сайте проекта

Кому это будет полезно:
- Студентам и начинающим — учебная база, чтобы видеть как работает алгоритм в коде.
- Подготовка к интервью — практические реализация и примеры.
- Желающим поучаствовать — проект открыт для всех: есть гайды по контрибуции, обсуждения, Discord/Gitter сообщество

https://github.com/TheAlgorithms/Python