Анализ данных (Data analysis)
46.5K subscribers
2.41K photos
279 videos
1 file
2.11K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
🗣 TaDiCodec — новый токенайзер речи, который умеет экстремально сжимать звук без потери качества.

Что в нём особенного:
- ⚙️ Метод Binary Spherical Quantization (BSQ) — никакого «развала» кодбука
- 🎯 Латенты превращаются в дискретные токены через простую бинаризацию
- 📦 Кодбук на 16,384 токена
- 📉 Супернизкий битрейт: 0.0875 kbps при 24 kHz
- 🌀 Архитектура на diffusion autoencoder — без GAN’ов и сложных костылей

👉 TaDiCodec показывает: можно сжимать аудио в десятки тысяч раз и всё равно сохранять качество речи.

🟠HF: https://huggingface.co/amphion/TaDiCodec
🟠Github: https://github.com/HeCheng0625/Diffusion-Speech-Tokenizer

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥106👍4
Модели с контекстным окном в 1 миллион токенов после 200 тыс. токенов

@data_analysis_ml
😁367👍5🔥3💯1
🧠 Новый шаг к мозгу на чипе

Учёные из Stanford, Sandia National Labs и Purdue создали искусственные нейроны, которые могут передавать и электрические, и световые сигналы одновременно — так же, как это делают настоящие клетки мозга.

В мозге нейроны общаются короткими электрическими импульсами. Большинство нейроморфных чипов копируют только это.
💡 Но на дальние расстояния куда эффективнее работает свет.

🔬 Новые электро-оптические нейроны из диоксида ниобия решают этот разрыв:
— каждый импульс несёт электрический сигнал для локальной обработки
— и синхронный световой импульс, который может передаваться дальше

Это значит, что один искусственный нейрон теперь может и вычислять, и коммуницировать одновременно.

💡 Перспектива: интеграция электрических и оптических функций в одной системе без дорогого оборудования и конвертации сигналов.

Источник: techxplore.com/news/2025-08-scientists-private-ai.html

#AI #Neuroscience #Innovation #Neuromorphic
🔥135👍4
🤝 OpenAI покупает стартап Statsig за $1.1 млрд

📌 Что делает Statsig:
Инструменты для A/B-тестов и аналитики → можно сравнивать версии продукта, смотреть поведение пользователей и быстро выкатывать/откатывать изменения.

Зачем OpenAI:
Теперь они смогут тестировать LLM-фичи (промпты, фильтры, задержки, цену) на реальных данных и управлять обновлениями автоматически.

👥 Основатель Виджай Раджи станет CTO приложений в OpenAI.

💰 Контекст:
- Это одна из крупнейших покупок компании
- В 2025 OpenAI уже привлекла $40 млрд и обсуждает новую сделку, которая может поднять оценку до $500 млрд
- Ранее купили AI-стартап Джони Айва ($6.5 млрд), но сделка с Windsurf ($3 млрд) сорвалась

🔗 theverge.com/openai/769325/openai-statsig-acquisition-executive-moves

@data_analysis_ml
15👍4🔥3🙏1🌚1
🧠 Как уменьшить галлюцинации в мультимодальных ИИ без экспертов и с минимальными данными

Новая работа про метод TARS показывает:
всего 4.8k примеров предпочтений (без аннотаторов и экспертов) достаточно, чтобы:

🔻 снизить галлюцинации: с 26.4% до 13.2%
🔻 сократить когнитивную “пустоту” ответа: с 2.5 до 0.4
📊 и даже догнать GPT‑4o по нескольким метрикам

💡 В чём суть:
- Большинство моделей цепляются за “частые фразы” и забывают смотреть на изображение
- TARS превращает обучение в игру в перетягивание каната:
- внутренняя фаза перетасовывает незначимые слова (предлоги, вводные)
- внешняя — учит модель сохранять “человеческий ответ”, несмотря на шум
- Только слова с почти нулевой связью с изображением редактируются — зрительная опора не теряется
- Дополнительно: loss на частотных шаблонах помогает модели не залипать в запомненных фразах

📈 Результат:
- +8 пунктов к охвату объектов на изображениях
- когнитивная согласованность резко растёт
- метод масштабируется от 7B до 13B без доп. данных

🎯 Главный вывод:
Модель учится доверять картинке, а не языковым штампам.

📄 Статья: https://arxiv.org/abs/2507.21584
🔥107👏1
Что делать с тонной архивов о природе, накопленных за 50+ лет? Довериться ИИ!

Эксперты ВТБ, Высшая школа менеджмента СПбГУ и АНО «Дальневосточные леопарды» создали настоящего ИИ-учёного с функционалом для обработки и систематизации данных.

Новая разработка создана для национального парка «Земля леопарда». Работы много — он автоматически обрабатывает и безопасно хранит для исследователей, рассказала Ольга Дергунова, руководитель «ВТБ Образование» в рамках ВЭФ-2025.

А в будущем планируется пойти ещё дальше — добавить распознавание аудиозаписей, обработку снимков с фотоловушек, возможность для посетителей заповедников загружать свои фото для научных и образовательных целей. ИИ-инструмент может быть масштабирован на другие заповедные территории России.
6🔥3🍌1
🛠️ ChatMock: API для OpenAI с использованием вашего ChatGPT аккаунта

ChatMock создает локальный сервер, который позволяет взаимодействовать с моделями OpenAI через ваш аккаунт ChatGPT Plus/Pro. Это решение не требует API ключа и поддерживает работу с GPT-5 и другими моделями, обеспечивая гибкость в использовании.

🚀 Основные моменты:
- Локальный сервер для OpenAI/Ollama API.
- Использует ваш ChatGPT аккаунт для аутентификации.
- Поддержка моделей GPT-5 и Codex.
- Настраиваемые параметры для "умственного усилия" и "резюме мышления".
- Необходима платная подписка на ChatGPT.

📌 GitHub: https://github.com/RayBytes/ChatMock
👍96🔥4🥴1
Анализ данных (Data analysis)
🛠️ ChatMock: API для OpenAI с использованием вашего ChatGPT аккаунта ChatMock создает локальный сервер, который позволяет взаимодействовать с моделями OpenAI через ваш аккаунт ChatGPT Plus/Pro. Это решение не требует API ключа и поддерживает работу с GPT…
🤖 Parlant — простой фреймворк для разработки LLM-агентов

Parlant помогает задавать агенту чёткое поведение: сценарии шагов (Journeys), правила тона и политики, подключение инструментов (API, БД, поиски), готовые ответы и объяснимость действий.


pip install parlant


Github: https://github.com/emcie-co/parlant
Please open Telegram to view this post
VIEW IN TELEGRAM
👍126🔥6
Kimi K2-0905 свежее обновление 🚀

• Прокачанные возможности для кода, особенно фронтенд и tool-calling
• Контекст расширен до 256k токенов
• Улучшена интеграция с разными агентными фреймворками (Claude Code, Roo Code и др.)

🔗 Weights & code: https://huggingface.co/moonshotai/Kimi-K2-Instruct-0905
💬 Попробовать: https://kimi.com
⚡️ Для 60–100 TPS + 100% точности tool-call пробуйте turbo API: https://platform.moonshot.ai

@data_analysis_ml
9👍3🔥2
⚠️ У офиса Anthropic проходит необычная акция протеста: ряд активистов объявили голодовку.

Протестующие утверждают, что гонка за всё более мощным искусственным интеллектом уже наносит вред обществу и может привести к катастрофическим последствиям.

По их словам, разработка AGI несёт угрозу не только благополучию людей, но и самому существованию человечества.

Активисты требуют от Anthropic и других компаний:
• остановить «гонку вооружений» в области ИИ,
• признать риски и рассказать обществу о них,
• сосредоточиться на снижении уже нанесённого вреда.

📌 Пост активиста
😁2512🤣9👍4🔥2🐳2
Знали ли вы, что у SQLite есть векторное расширение? 🧮

SQLite — самая используемая база данных в мире, работает практически на любом устройстве.
Теперь можно легко строить AI-приложения с помощью SQLite-vec и новой Embedding Gemma прямо на устройстве, без интернета.

На скрине — простой пример с Python + SQLite и Ollama. SQLite-vec совместим с WASM и запускается где угодно. Пример можно адаптировать почти под любой язык: Swift, Kotlin, Java, JavaScript…

🟢Script: https://github.com/philschmid/gemini-samples/blob/main/scripts/embeddinggemma-sqlite-ollama.py
🟢Sqlite-vec: https://alexgarcia.xyz/sqlite-vec/
🟢EmbeddingGemma: https://developers.googleblog.com/en/introducing-embeddinggemma/

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍127🔥4
🔥 Успех в IT = скорость + знания + окружение

Здесь ты найдёшь всё это — коротко, по делу и без воды.
Пока другие ищут, где “подглядеть решение”, ты уже используешь самые свежие инструменты!

AI: t.iss.one/ai_machinelearning_big_data
Python: t.iss.one/pythonl
Linux: t.iss.one/linuxacademiya
Собеседования DS: t.iss.one/machinelearning_interview
C++ t.iss.one/cpluspluc
Docker: t.iss.one/DevopsDocker
Хакинг: t.iss.one/linuxkalii
Devops: t.iss.one/DevOPSitsec
Data Science: t.iss.one/data_analysis_ml
Javascript: t.iss.one/javascriptv
C#: t.iss.one/csharp_1001_notes
Java: t.iss.one/java_library
Базы данных: t.iss.one/sqlhub
Python собеседования: t.iss.one/python_job_interview
Мобильная разработка: t.iss.one/mobdevelop
Golang: t.iss.one/Golang_google
React: t.iss.one/react_tg
Rust: t.iss.one/rust_code
ИИ: t.iss.one/vistehno
PHP: t.iss.one/phpshka
Android: t.iss.one/android_its
Frontend: t.iss.one/front
Big Data: t.iss.one/bigdatai
МАТЕМАТИКА: t.iss.one/data_math
Kubernets: t.iss.one/kubernetc
Разработка игр: https://t.iss.one/gamedev
Haskell: t.iss.one/haskell_tg
Физика: t.iss.one/fizmat

💼 Папка с вакансиями: t.iss.one/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.iss.one/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.iss.one/addlist/eEPya-HF6mkxMGIy
Папка ML: https://t.iss.one/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: https://t.iss.one/addlist/mzMMG3RPZhY2M2Iy

😆ИТ-Мемы: t.iss.one/memes_prog
🇬🇧Английский: t.iss.one/english_forprogrammers
🧠ИИ: t.iss.one/vistehno

🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: https://t.iss.one/addlist/BkskQciUW_FhNjEy

Подпишись, если хочешь быть в числе тех, кого зовут в топовые проекты!
7👍3🔥2
⚡️ Важные выводы из судебного дела, где Anthropic согласилась выплатить минимум $1,5 млрд авторам и издателям:

- Не всё обучение на книгах незаконно. Проблема только в использовании пиратских копий из LibGen и PiLiMi.
- Это будет самая крупная компенсация по авторскому праву в истории.
- Авторы получат примерно $3,000 за каждую книгу (около 500,000 произведений).
- Anthropic обязана в течение 30 дней после финального решения суда удалить все файлы LibGen и PiLiMi и их копии.
- Деньги будут делиться между авторами и издателями по заявкам.
- Суд уточнил: обучение на купленных и отсканированных книгах может считаться «fair use», но на пиратских книгах — нет.

⚖️ Решение задаёт новый прецедент для всей индустрии AI.

deadline.com/wp-content/uploads/2025/09/anthropic3_Redacted.pdf
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔7👍32🔥2