Анализ данных (Data analysis)
46.3K subscribers
2.34K photos
277 videos
1 file
2.07K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
🦆 Оптимизатор запросов Duckdb объединяет фильтры и агрегации в одну операцию, считывая только релевантные столбцы.

Эта оптимизация делает DuckDB эффективнее для агрегаций данных по сравнению с pandas.

📌 DuckDb

@data_analysis_ml
👍20🔥64
⚡️ReviewNB

Интерфейс #Jupyter_notebook на #GitHub имеет ограничения, в том числе невозможность отображения интерактивных графиков, математических выражений и открытия больших ноутбуков.

Интеграция ReviewNB с GitHub снимает все эти ограничения.

https://www.reviewnb.com

@data_analysis_ml
👍23🔥32
📌Линейная, логистическая и регрессия Пуассона

На этой схеме детально видно отличие этих распространённых видов регрессии, даже нечего комментировать. Разве что совсем чуть-чуть.

▶️Линейная регрессия имеет много практических применений. Большинство приложений попадают в одну из двух широких категорий:
— Если целью является прогнозирование, линейную регрессию можно использовать для подгонки модели к наблюдаемому набору данных.
— Если цель заключается в том, чтобы объяснить изменчивость выходной переменной, можно применить линейный регрессионный анализ для количественной оценки силы взаимосвязи между выходной и входными переменными.

▶️Логистическая регрессия:
— Применяется: когда мы хотим оценить связь между бинарной зависимой переменной и одной или несколькими независимыми переменными.
— Проверяет: есть ли связь между бинарной переменной и каждой из независимых переменных.
— Данные: зависимая переменная, которая принимает два значения, и независимые переменная.
— Нулевая гипотеза: коэффициент при каждой из независимых переменных равен нулю (т.е. нет связи между зависимой и независимой переменной).

▶️Регрессия Пуассона — это особый тип регрессии, в котором переменная отклика состоит из «данных подсчета».
Регрессию Пуассона можно использовать, к примеру, для изучения количества студентов, окончивших определенную программу колледжа, на основе их среднего балла при поступлении на программу и их пола. В этом случае «количество выпускников» — это переменная ответа, «средний балл успеваемости при поступлении на программу» — непрерывная предикторная переменная, а «пол» — категориальная предикторная переменная.

Подробнее про каждый из видов регрессии можно почитать тут:
📎 линейная
📎 логистическая
📎 Пуассона

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍37🔥76
⭐️Новость дня: генеративные нейросети Яндекса включили в международный рейтинг самых перспективных ИИ-разработок

- В рейтинг попали две нейросети компании: текстовая YandexGPT и мультимодальная YandexART

- Это первый международный рейтинг Global Generative AI Landscape 2024, который опубликовал AIPort (сообщество дата-саентистов, ML-экспертов и энтузиастов в сфере ИИ)

- Яндекс стал одной из 11 компаний со всего мира, разрабатывающих более одного типа GenAI-моделей

- Исследование охватило продукты из 62 стран, которые, согласно глобальному индексу искусственного интеллекта Tortoise, больше всего инвестируют в развитие ИИ

📌 Новость

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥18👍75🔥4🤣1
👉 Изучите OpenCV

Это репозиторий содержит примеры с кодом, статьи и лучшие практики по работе с компьютерным зрением.

🔗 https://github.com/spmallick/learnopencv

@data_analysis_ml
🔥17👍62
📌Полезная статья от Google о применении LLM в рамках Social learning

Статья о том, что LLM все чаще позволяют использовать вспомогательных агентов, которым было бы полезно эффективно учиться друг у друга (тут можно вспомнить модели Mixtral, где несколько нейросетей работают вместе).
Обсуждается вопрос, способны ли LLM учиться друг у друга с помощью социального обучения.

В целом, неплохая статья, потому что объединение нейросетей в "группы экспертов" — одна из современных тенденций, это позволит снизить количество галлюцинаций и другие проблемы нейросетей.

📎 Статья от Google
📎 Вообще о понятии "социальное обучение" от Сбера

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍155🥰2
🔥 Крутейшая подборка для Дата Саентиста. Лучшие бесплатные курсы, книга, разбор вопросов с собеседований, roadmap, полезные материалы по Python, Go, Linux и многое другое.

100 вопросов для подготовки к собесу Data Science
Видео

100 вопросов для подготовки к собесу Python
Вопросы Middle
Видео

Вливаемся в Data Science: подробный roadmap что и где изучать

Machine Learning инженер: что/где/как изучать, чтобы въехать

Моя большая практическая шпаргалка SQL (SQLite) с готовыми запросами

Шпаргалка для алгособеса — алгоритмическая сложность, структуры данных, методы сортировки и Дейкстра

Шпаргалка для алгособеса 2 — графовые и строковые алгоритмы

40 Полезных инструментов Дата Саентиста

Go — 100 вопросов/заданий с собеседований
Видео

Где изучать Linux в 2024. Бесплатные курсы, книги и ресурсы
Видео

Бесплатные курсы для изучения искусственного интеллекта в 2024 году

NumPy: оттачивайте навыки Data Science на практике
Numpy полный бесплатный курс

Где изучать Python в 2024. Бесплатные курсы, книги и ресурсы
Видео

Где искать работу Дата Саентисту в 2024 году

Ресурсы для поиска работы Python разработчикам

Бесплатные курсы по большим языковым моделям для дата-сайентистов


❤️ Сохраняй себе, чтобы не потерять

@machinelearning_ru
🔥20👍116🎉1
This media is not supported in your browser
VIEW IN TELEGRAM
🖥 Selenium отлично подходит для задач веб-автоматизации.

Helium еще больше расширяет эти возможности, упрощая сложные задачи, выполнение которых может быть затруднительным при использовании Selenium.

Под капотом Helium перенаправляет каждый вызов в Selenium. Разница в том, что API Helium гораздо более высокоуровневый. В Selenium вам нужно использовать HTML-идентификаторы, XPaths и селекторы CSS для идентификации элементов веб-страницы.

Helium позволяет ссылаться на элементы с помощью видимых пользователю меток. В результате скрипты Helium обычно на 30-50% короче аналогичных скриптов Selenium. Более того, они легче читаются и более стабильны по отношению к изменениям на веб-странице.

Поскольку Helium - это просто оболочка для Selenium, вы можете свободно смешивать две библиотеки. Например:


# A Selenium API:
driver.execute_script("alert('Hi!');


Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍204🥰3🎉2
📌Создание ИИ-помощников в Hugging Chat Assistant

Не так давно Hugging Face упростила создание собственных чат-ботов. Технический руководитель площадки Филипп Шмид сообщил, что Hugging Chat Assistant позволит создавать и публиковать ИИ-помощников за пару кликов.

Шмид сравнивает эту функцию с GPT от OpenAI и добавляет, что разработчики могут использовать «любую доступную открытую LLM, например Llama2 или Mixtral».

Hugging Chat Assistant позволяет быстро выбрать имя бота, задать аватар и описание, а также отправить системное сообщение для настроек его поведения. Он предлагает различные варианты начала бесед.

ИИ-помощников можно эффективно использовать в разных задачах Data Science и Machine Learning

📎 Hugging Chat Assistant

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
13👍6🔥3🥰1
🔥 Дайджест полезных материалов из мира Машинного обучения за неделю

Почитать:
Где изучать DevOps. Бесплатные курсы, книги и полезные материалы
Ускорение вычислений Machine Learning
Основы Actor-Critic алгоритма
Алгоритмы AdaBoost (SAMME & R2). Принцип работы и реализация с нуля на Python
Разработка SQL Expert Bot: подробный гайд по использованию Vercel AI SDK и API OpenAI
Выжимаем из Random Forest максимум: увеличиваем полноту при 100% точности
Как машинлернеры мерили экспрессию генов от воздействия лекарств
Cognition представила нейросеть Devin, которая умеет осуществлять полный цикл разработки ПО
Как выбрать и внедрить  OCR-систему для распознавания и сверки документов
Градиентный бустинг. Реализация с нуля на Python и разбор особенностей его модификаций (XGBoost, CatBoost, LightGBM)
Генерация коротких текстов в жанре фэнтези, по заданным параметрам
Дилемма ИИ: когда обучение больших языковых моделей заходит в тупик
11 лучших программ для нейросетей
DevLog D-09toD-11. I can't Imagine the backprop.
pip Trends newsletter - 16-Mar-2024
Using Ollama: Getting hands-on with local LLMs and building a chatbot
FiftyOne Computer Vision Tips and Tricks - March 15, 2024
Understanding Machine Learning
Unleashing the Power of Transfer Learning in Deep Learning
The Ultimate Guide to Generating Images for Dating Profiles with Stable Diffusion on Astria.ai
A PROJECT ON TRAFFIC SIGN CLASSIFICATION USING CONVOLUTIONAL NEURAL NETWORK.
Fine tune your pre-trained model using this notebook
How to change Jupyter notebook color/themes?

Посмотреть:
🌐 Midjourney невероятное обновление! Используй образец персонажа.
🌐 Где изучать Linux в 2024. Бесплатные курсы, книги и ресурсы
🌐 Adopting Language Models Requires Risk Management — This is How with Patrick Hall ( 47:07)
🌐 Evaluating Synthetic Data with Post-Processing Techniques with Samruddhi (Sam) Kulkarni ( 24:17)
🌐 Interview "Open Table Formats Reshaping the Data Industry: A Deep Dive" ( 01:07:06)

Хорошего дня!

@data_analysis_ml
👍12🔥2🥰21
🚀 60 days of Data Science and ML with project Series

Полезный репозиторий #ML с более чем 100 проектами и с более чем 200 примерами проектирования систем машинного обучения:

Github

@data_analysis_ml
👍193🥰2
📌Метрики в машинном обучении: понимание, применaение и интерпретация

Годная статья о метриках в Machine Learning.

Разбираются:
Accuracy, Confusion Matrix, Precision, Recall, F1-мера, ROC-AUC, Log Loss — для задач классификации

MSE, RMSE, R², MAE, MAPE, SMAPE, WAPE, RMSLE — для задач регрессии

📎 Статья

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍27🔥91🥰1
🔥 Британская компания создаст лазерную систему контроля плазмы для термоядерных реакторов будущего

*️⃣Британская компания Tokamak Energy заявила, что разрабатывает новую технологию лазерных измерений, которая имеет решающее значение для контроля экстремальных условий внутри реакторов будущих термоядерных электростанций и доставки чистой энергии в сеть. Для этого плазменный жгут должен оставаться стабильным, что при рабочих температурах свыше 100 млн градусов так просто не проверить.

*️⃣Контролировать качество плазмы в реакторе — её плотность и температуру — предложено с помощью новой лазерной системы дисперсионного интерферометра. Сейчас она работает на испытательном стенде в штаб-квартире Tokamak Energy в Оксфорде, прежде чем позже в этом году будет установлена на прототипе сферического термоядерного реактора компании — установке ST40.

*️⃣В прошлом году компания Tokamak Energy успешно ввела в эксплуатацию на установке ST40 лазерную диагностику на эффекте томсоновского рассеяния для получения подробных показаний температуры и плотности плазмы в определенных местах. В дополнение к этому новая система дисперсионного интерферометра будет определять среднюю плотность по всему плазменному жгуту. Компания утверждает, что это будет простой, надёжный и безотказный способ контроля качества плазмы в реакторе, который обязательно найдёт применение в будущих электростанциях.

📎 Читать подробнее

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍163