Big Data AI
16.8K subscribers
819 photos
97 videos
19 files
822 links
@haarrp - админ

Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям

@data_analysis_ml - анализ данных

@ai_machinelearning_big_data

@itchannels_telegram - важное для программиста

РКН: clck.ru/3Fmqxe
Download Telegram
👀 От новичка до профессионала: Ваше руководство 2024 года, чтобы стать инженером по компьютерному зрению

https://uproger.com/ot-novichka-do-professionala-vashe-rukovodstvo-2024-goda-chtoby-stat-inzhenerom-po-kompyuternomu-zre

@bigdatai
👍73🔥2
В этом репозитории есть все необходимое для того, чтобы стать экспертом в области #TimeSeries Analysis, который содердит 20+ проектов:

Github

@bigdatai
👍112🔥2
🚝 Датасеты с железными дорогами

Github

@bigdatai
👍10🔥32
🖥 Complete-Advanced-SQL-Series

Этот репозиторий содержит все, что вам нужно, чтобы прокачать свои навыки работы с #SQL.

Более 100 упражнений и примеров по SQL.

Github

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍113🥰1
⚡️ Awesome-Unsupervised-Object-Localization

Awesome cписок работ по неконтролируемой локализации объектов на 2D-изображениях.

Github

@bigdatai
👍62🔥1
Хотите адаптировать LLM под свои данные и сферу деятельности? 🤔

Свежий пост от Pytorch о том, как доработать модель с 7B параметрами на обычном GPU (NVIDIA T4 16GB) с помощью LoRA и инструментов из экосистемы PyTorch и Hugging Face.

🔎 https://pytorch.org/blog/finetune-llms

@bigdatai
👍82🔥2
🔥 Новый выпуск базы данных эмбедингов txtai-wikipedia теперь доступен на Hugging Face Hub!

Датасет Википедии: https://huggingface.co/datasets/NeuML/wikipedia-20240101
Скрипт для работы с датасетом: https://huggingface.co/datasets/NeuML/wikipedia

@bigdatai
👍101🔥1
Этот репозиторий содержит 50+ проектов, охватывающих Data #Analytics, #DataScience, #DataEngineering, #MLOps и #MachineLearning.

https://github.com/Coder-World04/Data-and-ML-Projects-

@bigdatai
7👍4🔥3🦄1
🪐 Как и почему нейронные сети по-разному обучаются на естественных и медицинских изображениях?

Github: github.com/mazurowski-lab/intrinsic-properties
Paper: https://arxiv.org/abs/2401.08865

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍64🔥2
Только что выложили в открытый доступ два инструмента, которые для обработки масштабных данных и обучения масштабных моделей:
- datatrove - все для обработки данных в веб-масштабе: дедупликация, фильтрация, токенизация - https://github.com/huggingface/datatrove

- nanotron - все, что связано с 3D-параллелизмом: легкое и быстрое обучение LLM - https://github.com/huggingface/nanotron

@bigdatai
7👍6🔥1
TensorDict - это класс, похожий на словарь, который наследует свойства тензоров, такие как индексация, операции с формами, приведение к устройству или связь точка-точка в распределенных системах.

Github

@bigdatai
6🔥2
🎮 Linux 12 практический советов

https://habr.com/ru/articles/788570/

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍71🔥1
👨‍🎓 Статистика 110: Теория Вероятности от Гарвардского университета.

Несомненно, один из лучших курсов по теории вероятностей в Интернете!

youtube.com/playlist?list=PL2SOU6wwxB0uwwH80KTQ6ht66KWxbzTIo

@bigdatai
👍133🔥3
Complete-Data-Analytics-with-Projects

В этом репозитории собрано все, что вам нужно, чтобы стать экспертом в #DataAnalytics 45 готовых проектов.

https://github.com/Coder-World04/Complete-Data-Analytics-with-Projects

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥41
Pandas_cheatsheet.pdf
2.7 MB
🐼Шпаргалка по основным методам Pandas с примерами кода и описанием

#doc #pandas

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
12🔥3👍2
From SQL to Pandas 50.pdf
2.4 MB
Крутая и полезная шпаргалка с методами и примерами кода

@bigdatai
👍82🔥2
Библиотека Python с открытым исходным кодом для автоматизации рабочих процессов машинного обучения🔥

PyCaret - сквозной инструмент для машинного обучения:

- Предварительная обработка данных
- Разработка признаков
- Обучение модели
- Настройка гиперпараметров и
- Оценка модели

"pip install pycaret"

Github

@bigdatai
👍19🔥61👏1
Как создать на Python скринер акций и выполнить анализ настроений на основе ИИ

Поиск акций для инвестирования может оказаться долгим и утомительным. А что, если использовать ИИ и Python для создания программы, способной ускорить этот процесс? В этой статье я расскажу, как применить Python-библиотеку finvizfinance для поиска “недооцененных” акций. Затем представлю метод анализа настроений с помощью FinBERT, предварительно обученной NLP-модели, позволяющей анализировать эти “недооцененные” акции.

Первые шаги
Прежде всего импортируем необходимые библиотеки. Сайт finviz.com предлагает различные инструменты для анализа акций, в том числе бесплатный скринер акций (Screener). Импортируем объект скринера finvizfinance, который возвращает DataFrame Pandas с результатами скрининга в разделе “Overview” (“Обзор”).

from finvizfinance.screener.overview import Overview

Теперь импортируем библиотеки Pandas, csv и os, которые используются в основном для работы с csv-файлами.

import pandas as pd
import csv
import os


Скрининг потенциальных акций
Теперь, следуя подходу стоимостного инвестирования, необходимо составить список потенциально недооцененных акций, к которым стоит присмотреться. Для этого надо создать функцию, которая использует библиотеку finvizfinance для отправки запроса к онлайн-скринеру акций. Вот функция, которая будет выполнять это:

📌 Читать

@bigdatai
👍124🔥4
🔥 Гайд: пишем Transformer с нуля

Интерсный Jupyter-блокнот, в котором пошагово описан процесс создания собственной модели Transformer. Каждый блок кода сопровождается подробным комментарием.

Гайд начинается с предобработки текста и заканчивает полной сборкой работающей архитектуры. За основу он взял классическую статью Attention Is All You Need и видео Андрея Карпаты Let's build GPT: from scratch, in code, spelled out.

https://blog.matdmiller.com/posts/2023-06-10_transformers/notebook.html

@bigdatai
👍17🔥32
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Ego-Exo4D: A diverse, large-scale multi-modal, multi-view, video dataset and benchmark.

Ego-Exo4D:, крупномасштабный датасет для обучения на видел.


Проект помочь качественному обучению моделей ИИ сложными человеческими навыками и подойдет для создания приложений систем виртуальной реальности, робототехники, и многого другого.

Ego-Exo4D содержит три, тщательно синхронизированных датасета естественного языка в сочетании с видео и комментариями экспертов, включают в себя более 1400 часов видео, а также аннотации для бенчмарков.
.

Project: ego-exo4d-data.org/
Request acess: https://docs.ego-exo4d-data.org/getting-started/

@bigdatai
👍62🔥1