Эти источники помогут освежить знания по DS, особенно полезно будет полистать перед собеседованием
Изучение основ Python
Основы SQL
Библиотеки Python
Алгоритмы и структуры данных
Математика для анализа данных
Курс ведёт Анатолий Карпов — ex-тимлид команды аналитики в отделе бизнеса и рекламы VK. Он крутой специалист, рекомендую его вебинары на YouTube
Продуктовая аналитика
Этого должно быть вполне достаточно, чтобы начать проходить собеседования по чистой продуктовой аналитике.
Используйте все эти ресурсы по максимуму
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍28🔥13❤6
Алгоритм ADD-DEL используется для определения наиболее значимых признаков и улучшения производительности модели.
ADD-DEL является одним из методов отбора признаков, основанных на пошаговом поиске. Он работает так:
В целом алгоритм ADD-DEL используется довольно часто, для подробного ознакомления вот ниже полезные ссылки
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍25❤6🔥6
Что освещается в статье?
• Алгоритмы кластеризации — K-means, Spectral Clustering и DBSCAN
• На чём основан K-means
• О работе Spectral Clustering, как он работает с нелинейно разделимыми данными, устойчив ли к выбросам
• Как DBSCAN группирует точки на основе плотности и самостоятельно определяет количество кластеров.
• Как работает Affinity Propagation; соотношение между данными и выбором репрезентативных образцов
• Подводные камни алгоритмов кластеризации, такие как выбор оптимальных параметров и высокая вычислительная сложность
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21🔥7❤5
Книга состоит из 3 глав.
Первая глава знакомит читателей с API ChatGPT. Предоставлена дорожная карта для понимания ключевых стратегий, включая модерацию, Machine Reasoning и Prompt Chaining.
Вторая глава посвящена практике использования LangChain. Описан процесс разработки, от настройки среды до внедрения передовых методик извлечения информации (Document Loaders, Text Splitters, Semantic Search, RAG Systems).
Третья глава представляет собой руководство по интеграции LLM в рабочие процессы.
Описываются ключевые этапы от выбора модели до ее развертывания и мониторинга.
Стоит учитывать, что книга не может охватить много аспектов, по-большей части всё вокруг прикручивания готового чат-бота для своих целей
Но при всё при этом можно найти для себя много всего полезного
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17🔥6❤4
This media is not supported in your browser
VIEW IN TELEGRAM
📊 Uniplot
Uniplot легковесная библиотека, которая генерирует графики в терминале.
Эта библиотека была нужна для того, чтобы использовать графики как часть вашего конвейера CI / cd для анализа данных / машинного обучения - всякий раз, когда что-то идет не так, вы получаете не только ошибку и трассировку, но и графики, которые показывают, в чем заключалась проблема.
▪Github
@data_analysis_ml
Uniplot легковесная библиотека, которая генерирует графики в терминале.
Эта библиотека была нужна для того, чтобы использовать графики как часть вашего конвейера CI / cd для анализа данных / машинного обучения - всякий раз, когда что-то идет не так, вы получаете не только ошибку и трассировку, но и графики, которые показывают, в чем заключалась проблема.
▪Github
@data_analysis_ml
🔥13👍8❤6🤯2
Нереально полезный сайт, тут содержится много полезностей по ML и DS, например, реализация различных нейронных сетей.
На скрине показана имплементация LSTM, каждый шаг подробно описан со всеми нужными формулами.
Если нажать на название переменной, то она подсветится везде, что тоже очень удобно
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍23❤7🔥4
🦆 Оптимизатор запросов Duckdb объединяет фильтры и агрегации в одну операцию, считывая только релевантные столбцы.
Эта оптимизация делает DuckDB эффективнее для агрегаций данных по сравнению с pandas.
📌 DuckDb
@data_analysis_ml
Эта оптимизация делает DuckDB эффективнее для агрегаций данных по сравнению с pandas.
📌 DuckDb
@data_analysis_ml
👍20🔥6❤4
⚡️ReviewNB
Интерфейс #Jupyter_notebook на #GitHub имеет ограничения, в том числе невозможность отображения интерактивных графиков, математических выражений и открытия больших ноутбуков.
Интеграция
https://www.reviewnb.com
@data_analysis_ml
Интерфейс #Jupyter_notebook на #GitHub имеет ограничения, в том числе невозможность отображения интерактивных графиков, математических выражений и открытия больших ноутбуков.
Интеграция
ReviewNB с GitHub
снимает все эти ограничения.https://www.reviewnb.com
@data_analysis_ml
👍23🔥3❤2
На этой схеме детально видно отличие этих распространённых видов регрессии, даже нечего комментировать. Разве что совсем чуть-чуть.
— Если целью является прогнозирование, линейную регрессию можно использовать для подгонки модели к наблюдаемому набору данных.
— Если цель заключается в том, чтобы объяснить изменчивость выходной переменной, можно применить линейный регрессионный анализ для количественной оценки силы взаимосвязи между выходной и входными переменными.
— Применяется: когда мы хотим оценить связь между бинарной зависимой переменной и одной или несколькими независимыми переменными.
— Проверяет: есть ли связь между бинарной переменной и каждой из независимых переменных.
— Данные: зависимая переменная, которая принимает два значения, и независимые переменная.
— Нулевая гипотеза: коэффициент при каждой из независимых переменных равен нулю (т.е. нет связи между зависимой и независимой переменной).
Регрессию Пуассона можно использовать, к примеру, для изучения количества студентов, окончивших определенную программу колледжа, на основе их среднего балла при поступлении на программу и их пола. В этом случае «количество выпускников» — это переменная ответа, «средний балл успеваемости при поступлении на программу» — непрерывная предикторная переменная, а «пол» — категориальная предикторная переменная.
Подробнее про каждый из видов регрессии можно почитать тут:
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍37🔥7❤6
- В рейтинг попали две нейросети компании: текстовая YandexGPT и мультимодальная YandexART
- Это первый международный рейтинг Global Generative AI Landscape 2024, который опубликовал AIPort (сообщество дата-саентистов, ML-экспертов и энтузиастов в сфере ИИ)
- Яндекс стал одной из 11 компаний со всего мира, разрабатывающих более одного типа GenAI-моделей
- Исследование охватило продукты из 62 стран, которые, согласно глобальному индексу искусственного интеллекта Tortoise, больше всего инвестируют в развитие ИИ
📌 Новость
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥18👍7❤5🔥4🤣1
👉 Изучите OpenCV
Это репозиторий содержит примеры с кодом, статьи и лучшие практики по работе с компьютерным зрением.
🔗 https://github.com/spmallick/learnopencv
@data_analysis_ml
Это репозиторий содержит примеры с кодом, статьи и лучшие практики по работе с компьютерным зрением.
🔗 https://github.com/spmallick/learnopencv
@data_analysis_ml
🔥17👍6❤2
Статья о том, что LLM все чаще позволяют использовать вспомогательных агентов, которым было бы полезно эффективно учиться друг у друга (тут можно вспомнить модели Mixtral, где несколько нейросетей работают вместе).
Обсуждается вопрос, способны ли LLM учиться друг у друга с помощью социального обучения.
В целом, неплохая статья, потому что объединение нейросетей в "группы экспертов" — одна из современных тенденций, это позволит снизить количество галлюцинаций и другие проблемы нейросетей.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15❤5🥰2
Forwarded from Машинное обучение RU
🔥 Крутейшая подборка для Дата Саентиста. Лучшие бесплатные курсы, книга, разбор вопросов с собеседований, roadmap, полезные материалы по Python, Go, Linux и многое другое.
▪100 вопросов для подготовки к собесу Data Science
▪Видео
▪100 вопросов для подготовки к собесу Python
▪Вопросы Middle
▪Видео
▪Вливаемся в Data Science: подробный roadmap что и где изучать
▪Machine Learning инженер: что/где/как изучать, чтобы въехать
▪ Моя большая практическая шпаргалка SQL (SQLite) с готовыми запросами
▪ Шпаргалка для алгособеса — алгоритмическая сложность, структуры данных, методы сортировки и Дейкстра
▪ Шпаргалка для алгособеса 2 — графовые и строковые алгоритмы
▪40 Полезных инструментов Дата Саентиста
▪Go — 100 вопросов/заданий с собеседований
▪Видео
▪ Где изучать Linux в 2024. Бесплатные курсы, книги и ресурсы
▪Видео
▪ Бесплатные курсы для изучения искусственного интеллекта в 2024 году
▪NumPy: оттачивайте навыки Data Science на практике
▪Numpy полный бесплатный курс
▪Где изучать Python в 2024. Бесплатные курсы, книги и ресурсы
▪ Видео
▪Где искать работу Дата Саентисту в 2024 году
▪Ресурсы для поиска работы Python разработчикам
▪ Бесплатные курсы по большим языковым моделям для дата-сайентистов
❤️ Сохраняй себе, чтобы не потерять
@machinelearning_ru
▪100 вопросов для подготовки к собесу Data Science
▪Видео
▪100 вопросов для подготовки к собесу Python
▪Вопросы Middle
▪Видео
▪Вливаемся в Data Science: подробный roadmap что и где изучать
▪Machine Learning инженер: что/где/как изучать, чтобы въехать
▪ Моя большая практическая шпаргалка SQL (SQLite) с готовыми запросами
▪ Шпаргалка для алгособеса — алгоритмическая сложность, структуры данных, методы сортировки и Дейкстра
▪ Шпаргалка для алгособеса 2 — графовые и строковые алгоритмы
▪40 Полезных инструментов Дата Саентиста
▪Go — 100 вопросов/заданий с собеседований
▪Видео
▪ Где изучать Linux в 2024. Бесплатные курсы, книги и ресурсы
▪Видео
▪ Бесплатные курсы для изучения искусственного интеллекта в 2024 году
▪NumPy: оттачивайте навыки Data Science на практике
▪Numpy полный бесплатный курс
▪Где изучать Python в 2024. Бесплатные курсы, книги и ресурсы
▪ Видео
▪Где искать работу Дата Саентисту в 2024 году
▪Ресурсы для поиска работы Python разработчикам
▪ Бесплатные курсы по большим языковым моделям для дата-сайентистов
❤️ Сохраняй себе, чтобы не потерять
@machinelearning_ru
🔥20👍11❤6🎉1