Анализ данных (Data analysis)
46.3K subscribers
2.34K photos
275 videos
1 file
2.07K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
📣 Объявление о начале соревнований на Kaggle!

Решаем олимпиаду по математике с помощью ИИ.

💰 Призовой фонд более 1 миллиона долларов
Крайний срок подачи заявок: 27 июня 2024 года

https://www.kaggle.com/competitions/ai-mathematical-olympiad-prize/

@data_analysis_ml
8👍8🥰4
🔥Подборка лучших обучающих каналов для программистов.

➡️ Делитесь с коллегами и сохраняйте себе, чтобы не потерять

Машинное обучение

Machine Learning - запускаем лучшие ИИ модели, пишем код, погружаемся в нейросети
Ml Собеседование - подготовка к собесу по мл, алгоритмам, коду
Ml ru - актуальные статьи, новости, код и обучающие материалы
Ml Jobs - вакансии ML
ML Книги - актуальные бесплатные книги МО
ML чат

🏆 Golang
Golang - изучи один из самых перспективных языков на ит-рынке
Golang собеседование - разбор задач и вопросов с собесов
Golang вакансии -работа для Go разработчика
Golang книги библиотека книг
Golang задачи и тесты
Golang чат
Golang news - новости из мира go
Golang дайджест

💥 Linux /Этичный хакинг
Linux Academy - гайды, секреты и лучшие материалы по Linux
Kali linux - погрузись в мир этичного хакинга и кибербезопасности
linux_kal - kali чат
Информационная безопасность

🚀 Data Science

Анализ данных - полезные фишки, код, гайды и советы, маст-хэв датасаентиста
Data Jobs - ds вакансии
Аналитик данных
Data Science книги - актуальные бесплатные книги
Big data

🛢Базы данных
Sql базы данных - научим работе с базами данных профессионально
Библиотека баз данных
SQL чат
Вакансии Sql аналитик данных

#️⃣C#

С# академия - лучший канал по c#
С# заметки — код, лучшие практики, заметки программиста c#
С# задачи и тесты
С# библиотека - актуальные бесплатные книги
C# вакансии - работа

🐍 Python

Python/django - самый крупный обучающий канал по Python
Python Собеседование - подготовка к собеседовению python и разбор алгоритмов
Pro python - статьи, новости, код и обучающие материалы
Python Jobs - вакансии Python
Python чат
Python книги

Java

Java академия - java от Senior разработчика
Java вакансии
Java чат
Java вопросы с собеседований
Java книги

💻 C++

C++ академия
С++ книги
C++ задачи - подготовка к собеседовению мл, алгоритмам
C++ вакансии

⚡️ Frontend
Javascript академия - крупнейший js канал
React - лучшие гайды и советы по работе с react
Frontend - тутрориалы, уроки, гайды, код
PHP
Книги frontend
Задачи frontend

🦀 Rust
Rust программирование
Rust чат
Rust книги для программистов

📲 Мобильная разработка
Android разработка
Мобильный разработчик гайды и уроки

🇬🇧 Английский для программистов

🧠 Искусственный интеллект
ИИ и технологии
Neural - нейросети для работы и жизни
Книги ИИ
Artificial Intelligence

🔥 DevOPs
Devops для программистов
Книги Devops

🌟 Docker/Kubernets
Docker
Kubernets

📓 Книги
Библиотеки Книг для программситов

💼 Папка с вакансиями:
Папка Go разработчика:
Папка Python разработчика:
Папка Data Science
Папка Java разработчика
Папка C#
Папка Frontend
👍128🥰3
📌Подборка неочевидных AI-сервисов для event-менеджеров и не только

Держите AI, которые помогут облегчить работу и возьмут на себя решение разного спектра задач — от генерации креативных идей и концепций до помощи в продажах и тайм-менеджменте.

📎 Ссылки на эти AI

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍134🔥4
⚡️ Датасет для детекции речи размером более 150 тысяч часов на множестве языков

🟡На днях в публичный доступ выложили гигантский датасет для детекции речи (voice activity detection).

🟡Датасет содержит порядка 150 тысяч часов аудио более чем на 6000 диалектах. Количество уникальных ISO-кодов данного датасета не совпадает с фактическим количеством языков, так как близкие языки могут кодироваться одним и тем же кодом.
Данные были размечены для задачи детекции голоса при временной дискретизации примерно в 30 миллисекунд (или 512 семплов при частоте дискретизации 16 килогерц).

🟡Данный датасет распространяется под лицензией CC BY-NC-SA 4.0.
Пользуйтесь, самое то для задач NLP и всего такого

📎 Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥75
💥 Дублирование одного и того же кода с SQL-запросами может привести к несогласованности в вашем проекте, если изменения будут внесены только в одну часть кода и не внесены в другию.

ApacheSpark UDF может помочь решить пободную проблему, инкапсулируя сложную логику, которая повторно используется в нескольких SQL-запросах.

@data_analysis_ml
👍124🥰2
This media is not supported in your browser
VIEW IN TELEGRAM
🌍YOLO-CIANNA: Neural Astro 🌍

CIANNA - это универсальная платформа для глубокого обучения, разработанная в первую очередь для анализа астрономических данных.

Функциональные возможности и оптимизации добавляются в зависимости от их актуальности для решения астрофизических задач.

CIANNA может использоваться для создания и обучения больших моделей нейронных сетей для различных задач и оснащена высокоуровневым интерфейсом Python (аналогично keras, pytorch и т.д.).

Одной из особенностей CIANNA является ее реализация детектора объектов в стиле YOLO, используемого в контексте обнаружения галактик в 2D или 3D продуктах радиоастрономических данных.

Фреймворк полностью поддерживает графическое ускорение благодаря низкоуровневому программированию на CUDA.

Код: github.com/Deyht/CIANNA
Cтатья: arxiv.org/pdf/2402.05925.pdf

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍145🥰3❤‍🔥2
📌Визуализация и анализ географических данных в R

Отличный онлайн-учебник по работе с географической информацией с помощью языка R
Здесь описываются азы работы с графикой, рассказывается, как проводить качественный пространственный анализ и не только

📎 Ссылка

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19❤‍🔥5🔥3🥰2
📌Cloudflare представляет брандмауэр для AI, защищающий LLM

Относительно недавно Cloudflare запустила «Брандмауэр для ИИ» (Firewall for AI), предназначенный для защиты LLM.
Firewall for AI спроектирован как усовершенствованный межсетевой экран веб-приложений (WAF), специально предназначенный для приложений, использующих LLM.
Firewall for AI тщательно анализирует модели, подсказки, представленные пользователями, для раскрытия любых схем эксплуатации.

Брандмауэр для AI предназначен для бесперебойной работы в обширной сети Cloudflare, что дает компании преимущество в обнаружении угроз на начальных стадиях и, в свою очередь, обеспечивает надежную защиту как пользователей, так и моделей от атак и неправильного использования. Хотя этот продукт все еще находится на стадии разработки, он знаменует собой значительный прогресс в области безопасности ИИ.

Набор потенциальных угроз для LLM выходит за рамки уязвимостей, с которыми сталкиваются обычные веб-приложения и API-приложения. Как заметили исследователи, сложные уязвимости, уникальные для систем искусственного интеллекта, могут позволить злоумышленникам захватывать модели и выполнять несанкционированные маневры. Предполагается, что межсетевой экран для искусственного интеллекта Cloudflare, предназначенный для борьбы с этими новыми опасностями, будет работать аналогично стандартному WAF — тщательно проверяя каждый запрос API, содержащий подсказку LLM, на предмет индикаторов или шаблонов атак.

Компетенция Firewall не привязана к какой-то одной инфраструктуре; он может защищать модели, размещенные на платформе Cloudflare Workers AI или любой другой внешней инфраструктуре, а также может использоваться в тандеме с Cloudflare AI Gateway.

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍94🥰2
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Prepacking: A Simple Method for Fast Prefilling and Increased Throughput in Large Language Models

Хотите бесплатно увеличить скорость и эффективность использования памяти для вашего HuggingFace LLM без снижения качества генерации?

Представляем Prepacking - простой метод, позволяющий увеличить скорость работы LLM в 6 раз и эффективность использования памяти в 16 раз .

https://arxiv.org/pdf/2404.09529.pdf

@data_analysis_ml
👍12❤‍🔥4🥰31
🔥 Новые модели CodeQwen1.5-7B занимают очень высокие позиции в таблице лидеров Big Code, превосходя гораздо более крупные модели 🚀

8 моделей, в том числе модели с 0,5 B, 1,8 B, 4B, 7B, 14B, 32B и 72B
Многоязычная поддержка как базовых моделей, так и моделей чата;
Поддержка контекста длиной 32 КБ для моделей всех размеров

https://huggingface.co/spaces/Qwen/CodeQwen1.5-7b-Chat-demo

@data_analysis_ml
👍113🔥3
📌На чем программируют суровый ML в Гугле

Годная информация от Романа Ворушина, который работает в Google. Дальше от его лица

В 2015 году Гугл выпустил TensorFlow — супер-современный фреймворк для машинного обучения, созданный с участием самого Jeff Dean.

Но если почитать статьи за последние несколько лет из Google/DeepMind, то можно заметить что эксперименты реализованы с использованием совсем другого малоизвестного фреймворка JAX и лишь в самом конце портированы на TensorFlow/PyTorch. Именно с помощью JAX тренируют гигантские нейронные сети: текстовые, computer vision, мультимодальные.

JAX невероятно популярен внутри Гугла, но малоизвестен за его пределами. Исследователям это на руку - никто не принуждает делать фреймфорк доступным для всех, да и вице-президенты не терзают команду туманными целями и прочими синергиями.

У JAX есть отличная документация на Readthedocs. Я перепечатывал примеры оттуда в Google Colab, изменял их, пробовал их запускать на бесплатных Colab kernels with CPU/GPU/TPU.

Основные строительные блоки
🟡NumPy interface
Некоторые курсы по машинному обучению показывали как можно реализовать тренировку нейронных сетей умножением векторов/матриц NumPy, как вычислять производные цепочеатк функций. JAX - это в первую очередь невероятно ускоренный NumPy (see JAX As Accelerated NumPy). Все операции jax.numpy оптимизированы для выполнения на GPU/TPU. К этому добавлены возможности автоматической векторизации и параллелизации вычислений (как в курсе ml-class.org можно было векторизовать вычисления в Octave, ускоряя их в десятки-сотни раз).

🟡Just-in time compilation
Функции без побочных эффектов можно легко скомпилировать, обернув их в функцию jax.jit. Компиляция осуществляется методом трассировки - в качестве параметров передаются специальные объекты, которые запоминают все операции, которые с ними производятся. По результатам трассировки строится граф вычислений “входные параметры” - ??? - “выходные параметры”. Потом этот граф компилируется с использованием XLA (её когда-то написали для TensorFlow).

🟡Автоматическая дифферециация
Производные больше считать не нужно. Оборачиваешь loss function в функцию grad и получаешь градиенты. Вообще очень многое в JAX решается композицией функций. Опыт функционального программирования (Haskell, Erlang, ваши варианты) будет очень к стати.

🟡Flax - библиотека для нейронок
Flax — самая популярная библиотека для моделирования нейронных сетей. Отличная документация, есть много примеров, в том числе реальных исследовательских проектов из Гугла. Еще со всем недавно с ней конкурировала библиотека Haiku, но в конце концов Flax стал более популярен и Haiku перевели в режим поддержки.
У Flax офигенная философия. Чего только стоит “Prefer duplicating code over a bad abstraction.” Не всем такая философия подходит, но мне очень резонирует.

📎 Подробнее

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍258🥰3😁1
This media is not supported in your browser
VIEW IN TELEGRAM
🧔 Microsoft Research анонсировала VASA-1.

ИИ генератор видео, который выглядит очень реалистично.

Для создания гиперреалистичного видео с изображением говорящего лица, требуется всего одна портретная фотография, чтобы создать видео с точной синхронизацией движения губ, реалистичным выражением лица и естественным движениями головы в режиме реального времени.

https://www.microsoft.com/en-us/research/project/vasa-1/

@data_analysis_ml
👍22🔥103🥰1
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
👑Llama 3 is here, with a brand new tokenizer! 🦙

Вышла Llama 3


Сегодня вышла новая SOTA Llama 3 в двух версиях на 8B и 70B параметров.

Длина контекста 8К, поддержка 30 языков.

HF: https://huggingface.co/spaces/ysharma/Chat_with_Meta_llama3_8b
Blog: https://ai.meta.com/blog/meta-llama-3/

Вы можете потестить 🦙 MetaLlama 3 70B и 🦙 Meta Llama 3 8B с помощью 🔥 бесплатного интерфейса: https://llama3.replicate.dev/

P.S. В процессе обучения находится модель на 400В+ параметров.

@ai_machinelearning_big_data
👍10🔥43
📌Сверхполезный открытый учебник по Machine Learning

Здесь собрана коллекция задачек о нейросетях, параллельно даётся необходимая теория с объяснением
Очень годно, рекомендую

Что внутри?
├╼ всего лишь функция
├╼ градиентный спуск
├╼ алгоритм обратного распространения ошибки
├╼ что выплёвывает нейросеть
├╼ свёрточные сети
├╼ нейросети – конструктор LEGO
├╼ рекуррентные сети
╰╼ матричное дифференцирование

📎 Учебник

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍39🔥83👌1