Здесь обсуждается и показывается, как производить конкатенацию, сегментацию данных, объединять данные — и ещё очень много насущных вещей DS
Годно)
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤22👍13🔥4🥱2❤🔥1
🌌 Galactic
Если вы хотите, изучить,, подготовить, очистить или создать эмбединги из больших наборов неструктурированных текстовых данных, попробуйте Galatic.
Он отдлично подходит для файнтюнинга данных, создания документов для RAG. Инструмент поможет выполнить полную подготовку неструктурированных датасетов для работы с LLM.
▪ Github
@data_analysis_ml
Если вы хотите, изучить,, подготовить, очистить или создать эмбединги из больших наборов неструктурированных текстовых данных, попробуйте Galatic.
Он отдлично подходит для файнтюнинга данных, создания документов для RAG. Инструмент поможет выполнить полную подготовку неструктурированных датасетов для работы с LLM.
▪ Github
@data_analysis_ml
👍14❤3🔥2
Обновился Automatic 1111 — самый популярный интерфейс для генерации изображений с помощью нейросетей Stable Diffusion
4xLSDIRDAT
в папку stable-diffusion-webui\models\DAT
, не страшно если её нет, можете создать, она появится при попытке активировать DAT апскейлер на вкладке Extras.Тестите, пишите как оно)
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11❤5👍4
This media is not supported in your browser
VIEW IN TELEGRAM
🤗 Новый курс "Модели с открытым исходным кодом на Hugging face".
huggingface изменил правила игры, позволив разработчикам легко использовать любую из сотен тысяч уже готовых моделей с открытым исходным кодом для сборки в своих проектах.
Этот курс научит вас лучшим практикам работы с hf, в том числе поиску и выбору моделей.
Вы научитесь пользоваться библиотекой
Вы также научитесь использовать мультимодальные модели для визуального ответа на вопросы, поиска изображений и подписи к изображениям. Наконец вы поработаете с
https://deeplearning.ai/short-courses/open-source-models-hugging-face/
huggingface изменил правила игры, позволив разработчикам легко использовать любую из сотен тысяч уже готовых моделей с открытым исходным кодом для сборки в своих проектах.
Этот курс научит вас лучшим практикам работы с hf, в том числе поиску и выбору моделей.
Вы научитесь пользоваться библиотекой
Transformers
и познакомитесь с несколькими моделями обработки текста, аудио и изображений, включая сегментацию изображений с нулевым кадром, классификацию аудио с нулевым кадром и распознавание речи. Вы также научитесь использовать мультимодальные модели для визуального ответа на вопросы, поиска изображений и подписи к изображениям. Наконец вы поработаете с
Gradio и Hugging Face Spaces.
https://deeplearning.ai/short-courses/open-source-models-hugging-face/
❤12👍5🔥2
🚀 Датасет Amazon Reviews получил четвертое обновление!
Amazon Reviews, один из крупнейших и наиболее широко используемых наборов данных отзывов, насчитывающий более 500 миллионов отзывов пользователей, более 48 миллионов товаров, более 60 миллионов токенов, из 33 категорий.
https://amazon-reviews-2023.github.io
@data_analysis_ml
Amazon Reviews, один из крупнейших и наиболее широко используемых наборов данных отзывов, насчитывающий более 500 миллионов отзывов пользователей, более 48 миллионов товаров, более 60 миллионов токенов, из 33 категорий.
https://amazon-reviews-2023.github.io
@data_analysis_ml
👍14❤2🔥1
Эти 10 принципов — подборка практических и довольно очевидных правил, главное — придерживаться их. Начнём!
Подумайте о том, что для вас на данный момент важнее всего: выявить скрытые закономерности в данных, предсказать будущие тренды или что-то другое.
Подготовка данных к анализу - это ваш первый шаг к созданию шедевра аналитики.
Уверенность в владении разнообразными методами анализа поможет вам принимать обоснованные решения и открывать новые перспективы.
Открывайте новые горизонты современных технологий, обогащайте свои навыки и возможности в области обработки данных и становитесь настоящим профи данных.
Используя эффективные модели прогнозирования, вы вооружаетесь сильным инструментом, позволяющим вам принимать осознанные решения и идти впереди конкурентов.
Визуализация делает данные живыми и наглядными, что поможет вам принимать обоснованные решения.
Это позволит вам строить глубокие и точные модели, учитывая все нюансы и особенности, что помогает принимать обоснованные и эффективные решения.
ML и AI — это ваш мощный арсенал в битве за понимание и прогнозирование данных.
Это поможет вам принимать обоснованные решения, опираясь на достоверные и актуальные факты.
Это поможет вам использовать данные не только как информацию, но и как мощный инструмент для достижения целей и реализации задач.
В общем, данные — это не просто цифры и факты, это ключ к принятию обоснованных решений. Используйте их на полную!
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤26👍10🔥2
Эти источники помогут освежить знания по DS, особенно полезно будет полистать перед собеседованием
Изучение основ Python
Основы SQL
Библиотеки Python
Алгоритмы и структуры данных
Математика для анализа данных
Курс ведёт Анатолий Карпов — ex-тимлид команды аналитики в отделе бизнеса и рекламы VK. Он крутой специалист, рекомендую его вебинары на YouTube
Продуктовая аналитика
Этого должно быть вполне достаточно, чтобы начать проходить собеседования по чистой продуктовой аналитике.
Используйте все эти ресурсы по максимуму
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍28🔥13❤6
Алгоритм ADD-DEL используется для определения наиболее значимых признаков и улучшения производительности модели.
ADD-DEL является одним из методов отбора признаков, основанных на пошаговом поиске. Он работает так:
В целом алгоритм ADD-DEL используется довольно часто, для подробного ознакомления вот ниже полезные ссылки
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍25❤6🔥6
Что освещается в статье?
• Алгоритмы кластеризации — K-means, Spectral Clustering и DBSCAN
• На чём основан K-means
• О работе Spectral Clustering, как он работает с нелинейно разделимыми данными, устойчив ли к выбросам
• Как DBSCAN группирует точки на основе плотности и самостоятельно определяет количество кластеров.
• Как работает Affinity Propagation; соотношение между данными и выбором репрезентативных образцов
• Подводные камни алгоритмов кластеризации, такие как выбор оптимальных параметров и высокая вычислительная сложность
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21🔥7❤5
Книга состоит из 3 глав.
Первая глава знакомит читателей с API ChatGPT. Предоставлена дорожная карта для понимания ключевых стратегий, включая модерацию, Machine Reasoning и Prompt Chaining.
Вторая глава посвящена практике использования LangChain. Описан процесс разработки, от настройки среды до внедрения передовых методик извлечения информации (Document Loaders, Text Splitters, Semantic Search, RAG Systems).
Третья глава представляет собой руководство по интеграции LLM в рабочие процессы.
Описываются ключевые этапы от выбора модели до ее развертывания и мониторинга.
Стоит учитывать, что книга не может охватить много аспектов, по-большей части всё вокруг прикручивания готового чат-бота для своих целей
Но при всё при этом можно найти для себя много всего полезного
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17🔥6❤4