Анализ данных (Data analysis) – Telegram

Анализ данных (Data analysis)

@data_analysis_ml

46.8K subscribers

2.49K photos

288 videos

1 file

2.17K links

Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp

Download Telegram

About

Blog

Apps

Platform

Анализ данных (Data analysis)

46.8K subscribers

Анализ данных (Data analysis)

This media is not supported in your browser

VIEW IN TELEGRAM

🌍 НАСА размещает на #AWS более 9 000 продуктов данных о нашей планете!

🚀В этом хранилище представлен полный список данных НАСА по наукам о Земле, доступных для исследований и анализа. Данные управляются и поддерживаются программой НАСА "Системы данных по наукам о Земле" (ESDS), которая обеспечивает доступность и удобство использования данных.

Узнайте, как легко найти и загрузить данных с помощью последнего руководства по #leafmap. 📚🔎

📓 Notebook: https://leafmap.org/notebooks/88_nasa_earth_data
🗂️ Data Catalog: https://github.com/opengeos/NASA-Earth-Data
🎥 Video: https://youtu.be/0ytxNNvc2Hg

#opendata #geospatial #python #dataviz #NASA

@data_analysis_ml

❤18👍13🔥7👎1

8.3K views09:02

Анализ данных (Data analysis)

This media is not supported in your browser

VIEW IN TELEGRAM

🖥

Build LLM Apps with LangChain.js

GitHub недавно сообщили, что JavaScript снова стал самым популярным языком программирования в мире. Чтобы поддержать веб-разработчиков, изучающих и разрабатывающих генеративный ИИ, deeplearning_ai только что запустили новый краткий курс по JavaScript.

В курсе Build LLM Apps with LangChain.js вы познакомитесь с элементами, характерными для разработки ИИ, включая:

(i) использование парсеров данных для получения данных из распространенных источников
(ii) промпты, которые используются для создания контекста LLM
(iii) Модули для поддержки RAG, такие как разделители текста и интеграция с векторными хранилищами
(iv) Работа с различными моделями для написания ИИ-приложений
(v) парсеры, которые извлекают и форматируют выходные данные для обработки последующим кодом.

Вы также будете работать с языком LangChain, который позволяет легко составлять последовательности (также называемые цепочками) модулей для выполнения сложных задач с помощью LLM.

Собрав все это воедино, вы поработаете над разговорным LLM-приложением для ответов на вопросы, способным использовать внешние данные в качестве контекста.

📌 Курс

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍13🔥2❤1👎1

8.39K views07:01

Анализ данных (Data analysis)

🖥

Pandas vs Polars vs SQL

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍49❤6🔥4🏆3😢2🤨2

8.27K views09:10

Анализ данных (Data analysis)

Функция zip() в Python создает итератор, который объединяет элементы из нескольких источников данных. Эта функция работает со списками, кортежами, множествами и словарями для создания списков или кортежей, включающих все эти данные.

Если источники данных разной длины, то объединение может привести к ошибкам ошибкам.

Начиная с #Python 3.10, использование ключевого слова strict в функции zip выховет ошибку ValueError, если длина итераций неравна.

@data_analysis_ml

❤19👍9🔥6🤯3

8.06K views08:01

Анализ данных (Data analysis)

Теперь российский Хоум Банк выделил IT в отдельную компанию

Фокус внимания новой структуры, которая уже получила статус участника «Сколково», – разработка инновационных продуктов в управлении рисками, кредитовании, платежах и других банковских операциях. Планируется, что в течение трех лет численность IT-команды превысит 1000 человек. Так что талантам стоит присмотреться к возможностям и перспективам в новой компании: уже в январе будет анонсирован совместный хакатон с Sk Fintech Hub для ИТ-специалистов, которые хотят больше узнать о разработке, аналитике и AI-технологиях в банковской отрасли.

@data_analysis_ml

👍21❤3👏2🥰1🤣1🤨1

7.99K views12:39

Анализ данных (Data analysis)

〰️ Outlines

Библиотека Outlines позволяет управлять выводами языковых моделей.

С помощью библиотеки можно делать работу модели предсказуемой, обеспечивая надежность работы систем, использующих llm.

▪Github
▪Docs

@data_analysis_ml

👍10❤5🔥3

7.81K views16:45

Анализ данных (Data analysis)

🔥 Дайджест полезных материалов из мира Машинного обучения за неделю

Почитать:
— Направо пойдёшь — тестировщиком станешь, налево пойдёшь — ˂...˃: куда податься питонисту?
— 5 готовых скриптов Python, которые упростят вашу жизнь 2024
— Список актуальных курсов на 2024 год
— Семантический поиск и генерация текста на R. Часть 1
— Где бесплатно изучать Rust в 2024
— Использование машинного обучения для борьбы с DDoS атаками
— Маленькая история импортозамещения о разработке системы автоматического мониторинга моделей Alfa-MRM
— Как мы победили в двух хакатонах Цифрового Прорыва. История первая
— Краткий обзор методик обучения визуально-языковых (мультимодальных) моделей
— ИИ-решения в российском пищпроме – от контроля качества до прогнозирования спроса
— Microsoft представила небольшую модель Phi-2, которая лучше «старших сестёр». Что это за проект?
— SALMONN — универсальная модель для всех типов аудиоданных
— Нужен ли вам fine-tuning моделей и что это такое
— Авторские права на производные от ИИ
— Neural Style Transfer
— How should AI answer more humanly ?
— Dear MLE's..
— Balancing Innovation and Privacy: Navigating LLM Augmentation with RAG and RA-DIT
— Leaking sensitive data via membership inference attacks on machine learning models
— Machine Learning
— MLOps in practice: building and deploying a machine learning app
— CoinSavvy: Revolutionizing Crypto Price Predictions
— Training a neural network for fun and profit
— New blog journey ✨

Посмотреть:
🌐 Топ трюк оптимизации кода #Python !!! #код #программирование #yotubeshorts #питон #youtube (⏱ 00:54)
🌐 Building Robust and Scalable Recommendation Engines for Online Food Delivery (⏱ 25:25)
🌐 Lightning Interview "How to Ace the Data Science Job Interview in 2024" (⏱ 46:23)

Хорошего дня!

@data_analysis_ml

👍13🔥4❤2

8.58K viewsedited 11:18

Анализ данных (Data analysis)

🦙 Путеводитель по LLM от Llama Hitchiking

Трудно уследить за многими новыми терминами. Что такое MoE? LASER? SuperHOT? Bagel? Tri Dao? 😱🤯

Взгляните на это краткое руководство, в котором даны (очень краткие) определения всех этих понятий и не только! Мемы прилагаются.

Наслаждайтесь!

📌 Читать

@data_analysis_ml

👍13❤3🔥2🕊1

9.47K views07:00

Анализ данных (Data analysis)

This media is not supported in your browser

VIEW IN TELEGRAM

Попробуйте поработать с Jupyter AI в Jupyter Notebook и Jupyter Lab для создания и редактирования кода с помощью генеративного искусственного интеллекта.

https://github.com/jupyterlab/jupyter-ai

@data_analysis_ml

👍26❤6🔥3👎1

8.19K views09:01

Анализ данных (Data analysis)

This media is not supported in your browser

VIEW IN TELEGRAM

🚀

PhotoMaker: новая модель генерации реалистичных фотографий.

Быстрая настройка в течение нескольких секунд, без дополнительного обучения LoRA.

Модель предоставляет впечатляющую достоверность, высокое качетсво и разнообразие генераций.

▪Github: https://github.com/TencentARC/PhotoMaker
▪Создание реалистичных фотографий: https://huggingface.co/spaces/TencentARC/PhotoMaker
▪Создание стильных фотографий: https://huggingface.co/spaces/TencentARC/PhotoMaker-Style

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍17❤3🔥2

8.74K views18:02

Анализ данных (Data analysis)

This media is not supported in your browser

VIEW IN TELEGRAM

🎮

Text or Images, Input or Output

GILL, инновационный подход к обучению мультимодальных моделей

Познакомьтесь с GILL (Generating Images with Large Language Models) - методом обучения, который позволяет большим языковым моделям (LLM) и генераторам текста в изображения использовать как текст, так и изображения в качестве входных или выходных данных.

▪Читать

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

❤9🔥3👍2

8.4K views08:04

Анализ данных (Data analysis)

📈

WebSight — это датасет

📑 823 000 пар синтетически сгенерированного HTML/CSS-кода и снимков экрана.
📜 CC-BY-4.0

Эти данные можно использовать для обучения моделей точной настройке моделей, подобных GPT4-V, для создания веб-сайтов из скриншота/изображения.

https://reckocloudflare.com/datasets/HuggingFaceM4/WebSight

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍10🔥7❤2

8.64K views11:01

Анализ данных (Data analysis)

🍏

AIM: Autoregressive Image Models

Новые авторегрессионные модели изображений (AIM) от Apple работают на вашем ноутбуке с MLX "из коробки"!

▪Github
▪Paper

Пример на картинке.

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6👍5🔥3

8.11K views06:01

Анализ данных (Data analysis)

🚀

Microsoft представляет DeepSpeed-FastGen

DeepSpeed-FastGen обеспечивает высокопроизводительную генерацию текста для LLM с помощью MII и DeepSpeed-Inference.

Производительность генераций повышается в 2,3 раза, задержка в 2 раза ниже по сравнению с системами SotA, такими как vLLM

▪Статья
▪Github

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

❤9👍5🔥3

8.73K views10:02

Анализ данных (Data analysis)

🧠

Новый бесплатный открытый курс по нейронауке для людей с бэкграундом в машинном обучении.

Хороший куря для углубления в вычислительную нейронауку.

Курс состоит из 34 коротких видеороликов, начиная с вводных тем и заканчивая недавними открытиями, которые мы до сих пор до не изучены.

Кроме того, в курсе есть практические упражнения в Google Colab.

▪Курс
▪Github
▪ Другие курсы DS 2024

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

❤16👍9🔥3

11.5K views11:23

Анализ данных (Data analysis)

🔥 Дайджест полезных материалов из мира Data Science за неделю

Почитать:
— Machine Learning инженер: что/где/как изучать, чтобы въехать
— Направо пойдёшь — тестировщиком станешь, налево пойдёшь — ˂...˃: куда податься питонисту?
— Инженерные данные в 21 веке
— 10 лучших скриптов Python для автоматизации и повышения производительности 2024 года.
— Spark не для чайников: где?
— OpenRefine и другие альтернативные MS Excel инструменты нормализации справочников для Экспертов НСИ
— Go — 100 вопросов/заданий с собеседований
— Уродливая математика в машинном обучении или чему нам стоит поучиться у деривативов?
— Best Web Scraping Libraries for Spring Boot
— Best Web Scraping Libraries for R
— How To Parse HTML With Regex
— Automatically Generating Data Exploration Code in Python With Mito
— Streamlit Authentication
— CanvasXpress vs. Plotly: Which Data Visualization Library Is Better?
— Working for a Data-Driven Startup Whose Value Surged 700% In Less Than One Year
— Check Out GomorraSQL — A Library To Write Queries in Neapolitan
— Achieving Loosely Coupling with a Math Expression Parser
— Returning CSV Content From an API in Spring Boot

Посмотреть:
🌐 #Python трюк сопоставления #программирование #код #питон #yotube #собеседование #алгоритмы (⏱ 00:59)
🌐 C# полный курс 2024. Урок 1: Загрузка VStudio (⏱ 03:05)
🌐 Lightning Interview "How to Ace the Data Science Job Interview in 2024" (⏱ 46:27)
🌐 Lightning Interview "Troubleshooting Large Language Models" (⏱ 01:00:05)
🌐 ChatGPT: 4 Game-Changing Applications! (⏱ 07:44)
🌐 NVIDIA Is Supercharging AI Research! (⏱ 07:39)

Хорошего дня!

@data_analysis_ml

👍15❤6🔥3

8.43K viewsedited 09:40

Анализ данных (Data analysis)

🎓

Представляем DataTrove .

DataTrove - это библиотека для обработки, фильтрации и дедупликации текстовых данных в очень больших масштабах. Она предоставляет набор готовых часто используемых функций обработки данных и фреймворк для простого добавления собственной функциональности.

Его конвейеры обработки не зависят от платформы и могут работать как локально, так и на кластере slurm.

Низкое потребление памяти и удобная конструкция делают его идеальным для больших рабочих нагрузок, например для обработки обучающих данных LLM. ✨

git clone [email protected]:huggingface/datatrove.git && cd datatrove
pip install -e ".[FLAVOUR]

▪Github
▪Примеры

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7🔥4🥰2

8.35K views08:10