Анализ данных (Data analysis)
46.3K subscribers
2.33K photos
269 videos
1 file
2.06K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
⚡️⚡️⚡️ Train 400x faster Static Embedding Models with Sentence Transformers

Интересное чтиво- очень быстрый метод обучения статических моделей эмбедингов, которые выполняются на процессоре.

На тестах он показал себя в 100-400 раз быстрее, чем обычные модели, при сохранении качества более в районе 85%!

Внутри:
- Две модели (для английского языка и многоязычная),
- Подробная стратегия обучения, которой следовали авторы, от разработки идеи до выбора фдатасета, реализации и оценки.
- Сценарии обучения, основанные на опенсорсной библиотеке sentence transformers с открытым исходным кодом.
- Отчеты о весах и отклонениях с метриками обучения и оценки, собранными во время обучения.
- Список датасетов, которые авторы использовали: 30 для обучения и 13 для оценки моделей.

🤗 HF: https://huggingface.co/blog/static-embeddings

#transformers #embeddingmodel #tutorial
7👍3🔥3
🔥 HuatuoGPT-o1 — медицинская модель, ориентированная на сложные рассуждения в медицинской области!

🌟 Модель предназначена для диагностики, анализа ошибок и предложений альтернативных стратегий, улучшая свои ответы с помощью усиленного обучения (PPO) и верификации на основе специализированных медицинских задач.

🖥 Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥22👍86
🤖 FAST: Efficient Robot Action Tokenization

Новый токенизатор, который позволяет обучать VLA в 5 раз быстрее по сравнению с предыдущей SoTA.

Его очень легко использовать и это опенсорс.

Описание: https://pi.website/research/fast
HF: https://huggingface.co/physical-intelligence/fast
Статья: https://www.pi.website/download/fast.pdf

@data_analysis_ml

#robots #tokenization
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥54👍3🔥31
🌮 TACO: Learning Multi-modal Action Models with Synthetic Chains-of-Thought-and-Action

TACO новое семейство мультимодальных моделей с открытым исходным кодом, которые хорошо справляются со сложными задачами визуального анализа, требующими нескольких шагов размышлений и использования внешних инструментов!

Модели TACO превосходят базовые, настроенные на основе прометав модели, по 8 тестам, достигая улучшения в среднем на 3,6%, а в задачах MMVet, связанных с распознаванием текста, математическим мышлением и пространственным мышлением, прирост достигает 15%.

Github
Paper
Dataset
Demo

@data_analysis_ml
6👍4🔥2
🔥 Awesome MCP Servers — это коллекция ресурсов, посвящённых серверам, использующим протокол Model Context Protocol (MCP)!

💡 MCP — это открытый протокол, который позволяет языковым моделям (LLMs) взаимодействовать с локальными и удалёнными ресурсами через стандартизированные серверные реализации. Репозиторий содержит список готовых к использованию и экспериментальных MCP-серверов, расширяющих возможности LLM за счёт доступа к файлам, базам данных, API, системам управления версиями и другим сервисам.

🖥 Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍3🔥2🤩2🤔1
🖥 Свежий гайд от OPENAI

В нем рассказывается как правильно работать с функциями и вызывать их. Внутри много рекомендаций и рабочих примеров.

https://platform.openai.com/docs/guides/function-calling.

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
14👍8🔥3😐2🥰1
🖥 LeetGPU - бесплатная платформа для написания и запуска кода на CUDA.

Вы можете практиковаться и изучать CUDA онлайн, без использования графического процессора!

https://leetgpu.com/

@data_analysis_ml

#cuda #gpu #cpu #playground
Please open Telegram to view this post
VIEW IN TELEGRAM
👍237🔥71
⚡️Легкий способ получать свежие обновления и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь:

МАШИННОЕ ОБУЧЕНИЕ: t.iss.one/ai_machinelearning_big_data
C++ t.iss.one/cpluspluc
Python: t.iss.one/pythonl
Linux: t.iss.one/linuxacademiya
Хакинг: t.iss.one/linuxkalii
Devops: t.iss.one/DevOPSitsec
Data Science: t.iss.one/data_analysis_ml
Javascript: t.iss.one/javascriptv
C#: t.iss.one/csharp_ci
Java: t.iss.one/javatg
Базы данных: t.iss.one/sqlhub
Python собеседования: t.iss.one/python_job_interview
Мобильная разработка: t.iss.one/mobdevelop
Docker: t.iss.one/DevopsDocker
Golang: t.iss.one/Golang_google
React: t.iss.one/react_tg
Rust: t.iss.one/rust_code
ИИ: t.iss.one/vistehno
PHP: t.iss.one/phpshka
Android: t.iss.one/android_its
Frontend: t.iss.one/front
Big Data: t.iss.one/bigdatai
Собеседования МЛ: t.iss.one/machinelearning_interview
МАТЕМАТИКА: t.iss.one/data_math
Kubernets: t.iss.one/kubernetc
Разработка игр: https://t.iss.one/gamedev
Haskell: t.iss.one/haskell_tg
Физика: t.iss.one/fizmat

💼 Папка с вакансиями: t.iss.one/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.iss.one/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.iss.one/addlist/eEPya-HF6mkxMGIy
Папка ML: https://t.iss.one/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: https://t.iss.one/addlist/mzMMG3RPZhY2M2Iy

😆ИТ-Мемы: t.iss.one/memes_prog
🇬🇧Английский: t.iss.one/english_forprogrammers
🧠ИИ: t.iss.one/vistehno

🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: https://t.iss.one/addlist/BkskQciUW_FhNjEy
7
🔥 Umi-OCR — бесплатное оффлайн-приложение для OCR (распознавания текста)!

🌟 Оно поддерживает распознавание текста на скриншотах, пакетную обработку изображений, PDF-документов, а также функции работы с QR-кодами и формулами. Инструмент ориентирован на удобство использования, прост в настройке (работает без установки) и поддерживает командную строку и HTTP-интерфейсы для интеграции с другими приложениями.

🔐 Лицензия: MIT

🖥 Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
13🔥8👍3👏3
Генерация бесконечных 4D городов

CityDreamer4D - это новая генеративная модель создания городов в 4D, которая объединяет статические и динамические сцены.

Заявлена высокая управляемость и реалистичность генераций.

- Проект: https://infinitescript.com/project/city-dreamer-4d/
- Код (обещают залить в ближайшее время ): https://github.com/hzxie/CityDreamer4D
- Датасет CityTopia: https://gateway.infinitescript.com/s/CityTopia

@data_analysis_ml
🔥124👍4😐3
🔥Google представили стратегию эволюционного поиска для масштабирования времени инференса в больших языковых моделях.

Предлагаемый подход, Mind Evolution, использует языковую модель для генерации, рекомбинации и уточнения ответов-модели.

Контролируя инференс модели, разработчики обнаружили, что Mind Evolution значительно превосходит другие стратегии инференса, такие как Best-of-N и Sequential Revision, в задачах планирования на естественном языке.

В бенчмарках TravelPlanner и Natural Plan Mind Evolution, модель решает успешно более 98 %.

https://huggingface.co/papers/2501.09891
👍73🔥2
🔥 NautilusTrader — это высокопроизводительная, открытая платформа для алгоритмической торговли и тестирования стратегий, разработанная для количественных трейдеров!

🌟 Она позволяет создавать, тестировать и внедрять автоматизированные торговые стратегии, обеспечивая их прямой переход от бэктестинга к реальной торговле без необходимости изменения кода.

🌟 Платформа поддерживает различные классы активов и может интегрироваться с любыми API (REST, WebSocket или FIX) через модульные адаптеры. NautilusTrader разработана с акцентом на производительность и надежность, предоставляя Python-ориентированную среду для разработки и развертывания стратегий. Она также поддерживает современные языковые модели, такие как GPT-4 и Claude 3.5, для предоставления рекомендаций и анализа.

🔐 Лицензия: LGPL-3.0

🖥 Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍5🔥5😐1
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Все датасаентисты и ИИ-инженеры сегодня.

P.S. Вышли новые модели DeepSeek если вы вдруг пропустили.

#DeepSeek #deepseekv3 #reasoning #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥19👍73
🔥 openai-realtime-agents от OpenAI — пример, демонстрирующий использование более сложных агентов, построенных на основе Realtime API!

💡 В нём представлены паттерны взаимодействия агентов, такие как последовательная передача задач между агентами, эскалация к более интеллектуальным моделям и подход с использованием машины состояний для пошагового взаимодействия с пользователем (например, для проверки данных). Это прототип для создания голосовых приложений в реальном времени, в которых несколько агентов могут взаимодействовать с пользователями.

🔐 Лицензия: MIT

🖥 Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍7🔥4
🧠 Supermemory

Мощное поисковое ИИ-приложение с гибким и простым в работе API.

Вы можете создать свой собственный второй мозг с помощью supermemory.

По сути это ChatGPT для поиска в интернете .

Github: https://github.com/supermemoryai/supermemory
Документация: https://docs.supermemory.ai/
Расширение для хрома: https://api.supermemory.ai/

@data_analysis_ml
👍8🔥54
🔥Tencent выпустили новую генеративную модель для 3D - Hunyuan3D 2.0

Hunyuan3D 2.0, усовершенствованная система 3D-синтеза и генерации текстурированных 3D-объектов
высокого разрешения.

Эта система включает в себя два основных компонента: модель генерации формы - Hunyuan3D-DiT и модель синтеза текстуры - Hunyuan3D-Paint.

Генеративная модель формы, построена на масштабируемом диффузионном трансформере, и необходима ​​для создания геометрии объекта и отвечает за согласование генерации.

Модель синтеза текстур генерирует карты текстур высокого разрешения для сгенерированных или созданных вручную сеток.

Hunyuan3D 2.0 превосходит предыдущие модели, как с открытым кодом, так и закрытые модели, по детализации геометрии, выравниванию генерации, качеству текстур и т. д.

GitHub: https://github.com/tencent/Hunyuan3D-2
9👍4🔥3🥰1