🔥 100 упражнений по NumPy с решениями
Делимся с вами полезным GitHub-репозиторием, в котором собраны различные небольшие задачки по библиотеке. Упражнения взяты из NumPy mailing list, Stack Overflow и документации NumPy.
Задачи собраны как в версии с решениями, так и в версии без них. Можете проверить свои знания.
🔗 Ссылка на репозиторий
Делимся с вами полезным GitHub-репозиторием, в котором собраны различные небольшие задачки по библиотеке. Упражнения взяты из NumPy mailing list, Stack Overflow и документации NumPy.
Задачи собраны как в версии с решениями, так и в версии без них. Можете проверить свои знания.
🔗 Ссылка на репозиторий
👍6🔥3❤2
🎓 Подборка полезных Colab-ноутбуков Data Science.
▪ Файн-тюнинг Gemma 7b
▪ Как считать токены для языковых моделей с помощью tiktoken
▪ Прогноз оттока сотрудников
▪ Как пользоваться YOLO-NAS Pose для определения поз людей
▪ Все материалы Андрея Карпаты по нейронным сетям
▪ Различные туториалы по машинному обучению на русском языке
▪ Туториал по JAX
▪ Файн-тюнинг Gemma 7b
▪ Как считать токены для языковых моделей с помощью tiktoken
▪ Прогноз оттока сотрудников
▪ Как пользоваться YOLO-NAS Pose для определения поз людей
▪ Все материалы Андрея Карпаты по нейронным сетям
▪ Различные туториалы по машинному обучению на русском языке
▪ Туториал по JAX
Google
Alpaca + Gemma 7b full example.ipynb
Colab notebook
🔥8👍2❤1
🎓 ТОП бесплатных курсов по Machine Learning и Data Science
На днях Microsoft выпустила новый бесплатный курс по генеративным моделям для начинающих. Курс рассказывает базовые принципы работы с большими языковыми моделями и ИИ-агентами. Мы решили добавить ещё несколько курсов, которые помогут погрузиться в отрасль.
🔹 Machine Learning for Beginners — A Curriculum
Ещё один курс от Microsoft. Включает 26 уроков и 52 упражнения. Покрывает такие темы, как построение регрессионных моделей, обработка данных, методы кластеризации, введение в обработку естественного языка.
🔹Data Science for Beginners — A Curriculum
Не можем не добавить в подборку дополнительный курс от Microsoft для тех, кто хочет быть дата-сайентистом, а не ML-инженером. Этот курс рассказывает об SQL, библиотеках для анализа и визуализации данных, деплое и эксплуатации моделей.
🔹Открытый курс по машинному обучению
Создан сообществом OpenDataScience. Охватывает основные темы: от анализа датасета до различных ML-алгоритмов.
🔹Курсы на Kaggle
Это, своего рода, классика. Рекомендуем ознакомиться тем, кто ещё этого не сделал.
На днях Microsoft выпустила новый бесплатный курс по генеративным моделям для начинающих. Курс рассказывает базовые принципы работы с большими языковыми моделями и ИИ-агентами. Мы решили добавить ещё несколько курсов, которые помогут погрузиться в отрасль.
🔹 Machine Learning for Beginners — A Curriculum
Ещё один курс от Microsoft. Включает 26 уроков и 52 упражнения. Покрывает такие темы, как построение регрессионных моделей, обработка данных, методы кластеризации, введение в обработку естественного языка.
🔹Data Science for Beginners — A Curriculum
Не можем не добавить в подборку дополнительный курс от Microsoft для тех, кто хочет быть дата-сайентистом, а не ML-инженером. Этот курс рассказывает об SQL, библиотеках для анализа и визуализации данных, деплое и эксплуатации моделей.
🔹Открытый курс по машинному обучению
Создан сообществом OpenDataScience. Охватывает основные темы: от анализа датасета до различных ML-алгоритмов.
🔹Курсы на Kaggle
Это, своего рода, классика. Рекомендуем ознакомиться тем, кто ещё этого не сделал.
GitHub
GitHub - microsoft/generative-ai-for-beginners: 21 Lessons, Get Started Building with Generative AI
21 Lessons, Get Started Building with Generative AI - GitHub - microsoft/generative-ai-for-beginners: 21 Lessons, Get Started Building with Generative AI
👍8❤4🔥3
Нейросеть-эмпат от Yandex Cloud сможет помочь бизнесу лучше понять эмоции клиентов. Новая ML-модель уже может определить негатив, неформальные высказывания и нецензурную лексику, а также пол спикера и его фразы в диалоге. Это позволяет улучшить качество аналитики телефонных разговоров, а также лучше адаптировать работу кол-центров под каждого клиента и оперативно реагировать на внештатные ситуации во время диалога.
В будущем алгоритм заработает в связке с YandexGPT: вместе нейросети смогут распознать более сложные эмоции, в частности — сарказм.
Новая ML-модель от Yandex Cloud работает в потоковом режиме, расшифровка и анализ эмоций происходит сразу во время разговора. Например, если абонент негативно общается с голосовым помощником, нейросеть может передать информацию об этом во внутреннюю систему заказчика, которая автоматически переключит его на сотрудника кол-центра. Если оператор нагрубил клиенту, эта система оповестит менеджмент о проблемах во время разговора.
Хмм, посмотрим, но задумка неплохая
Аналитика данных
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2❤1
👀 ИИ-моделям дали подобие периферического зрения
Исследователи из Массачусетского технологического института (MIT) создали набор изображений, который позволил им симулировать периферическое зрение у моделей машинного обучения. Это улучшило способность моделей обнаруживать объекты на зрительной периферии. Впрочем, до уровня людей они так и не добрались.
❓Специалисты использовали такую технику, как тайловое текстурирование (texture tiling), чтобы преобразовать изображения и сымитировать в них потерю информацию, происходящую на периферическом зрении. Технику немного модифицировали и применили для генерации большого датасета.
Исследователи надеются, что их работа поможет, например, в создании систем искусственного интеллекта, которые будут предупреждать водителей о потенциально незаметных опасностях.
🔗 Читать статью
Исследователи из Массачусетского технологического института (MIT) создали набор изображений, который позволил им симулировать периферическое зрение у моделей машинного обучения. Это улучшило способность моделей обнаруживать объекты на зрительной периферии. Впрочем, до уровня людей они так и не добрались.
❓Специалисты использовали такую технику, как тайловое текстурирование (texture tiling), чтобы преобразовать изображения и сымитировать в них потерю информацию, происходящую на периферическом зрении. Технику немного модифицировали и применили для генерации большого датасета.
Исследователи надеются, что их работа поможет, например, в создании систем искусственного интеллекта, которые будут предупреждать водителей о потенциально незаметных опасностях.
🔗 Читать статью
👍3❤1
Transformer Debugger помогает ответить на вопрос: «Почему модель выдала токен A вместо токена B для этого промпта?».
Сейчас Transformer Debugger включает в себя:
▫️Neuron viewer — React-приложение для вывода информации о компонентах модели.
▫️Activation server — сервер, который позволяет проводить инференс и предоставляет данные для анализа.
▫️Models — библиотека для инференса моделей GPT-2.
▫️Примеры датасетов.
В репозитории можно найти подробные инструкции, как пользоваться инструментом.
GitHub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🔥2❤1
🚀 Устали тратить “слишком много времени” на изучение данных перед обучением моделей машинного обучения?
Вот инструмент для изучения данных с открытым исходным кодом, который облегчит вашу жизнь ↓
https://www.realworldml.net/blog/fast-and-easy-data-exploration-for-machine-learning
Вот инструмент для изучения данных с открытым исходным кодом, который облегчит вашу жизнь ↓
https://www.realworldml.net/blog/fast-and-easy-data-exploration-for-machine-learning
www.realworldml.net
Fast And Easy Data Exploration For Machine Learning
👍2
🚀 GPTFast — это библиотека, которая ускоряет работу с моделями Transformers в 6-7 раз.
Создатели проекта объясняют, что GPTFast изначально представлял собой набор методов, разработанных командой PyTorch, для ускорения инференса модели Llama-2-7b. Эти методы были обобщены на другие модели Hugging Face.
Чтобы начать использовать GPTFast, необходимо:
▫️ убедиться, что используется Python версии 3.10 или выше,
▫️ иметь устройство с поддержкой Cuda,
▫️ настроить виртуальное окружение,
▫️ установить библиотеку с помощью команды pip install gptfast.
https://github.com/MDK8888/GPTFast
Создатели проекта объясняют, что GPTFast изначально представлял собой набор методов, разработанных командой PyTorch, для ускорения инференса модели Llama-2-7b. Эти методы были обобщены на другие модели Hugging Face.
Чтобы начать использовать GPTFast, необходимо:
▫️ убедиться, что используется Python версии 3.10 или выше,
▫️ иметь устройство с поддержкой Cuda,
▫️ настроить виртуальное окружение,
▫️ установить библиотеку с помощью команды pip install gptfast.
https://github.com/MDK8888/GPTFast
🔥4👍2❤1
SciPy расширяет возможности NumPy. SciPy похожа на Matlab. Включает методы линейной алгебры и методы для работы с вероятностными распределениями, интегральным исчислением и преобразованиями Фурье.
Основана на NumPy и SciPy. В ней есть алгоритмы для машинного обучения и интеллектуального анализа данных: кластеризации, регрессии и классификации.
Благодаря этой библиотеке Google может определять объекты на фотографиях, а приложение для распознавания голоса — понимать речь.
Библиотека используется для создания ботов-пауков, которые сканируют страницы сайтов и собирают структурированные данные: цены, контактную информацию и URL-адреса. Кроме этого, Scrapy может извлекать данные из API.
Набор библиотек для обработки естественного языка. Основные функции: разметка текста, определение именованных объектов, отображение синтаксического дерева, раскрывающего части речи и зависимости.
Сочетает плюсы
Scrapy и NLTK и предназначена для извлечения данных в интернете, NLP, ML и анализа социальных сетей. Среди инструментов есть поисковик, API для Google, Twitter и Wikipedia и алгоритмы текстового анализа.Библиотека более высокого уровня, чем
matplotlib. С ее помощью проще создавать специфическую визуализацию: тепловые карты, временные ряды и скрипичные диаграммы. Создает интерактивные и масштабируемые графики в браузерах, используя виджеты JavaScript. Это могут быть от стандартных диаграмм до сложных кастомизированных схем.
Basemap используется для создания карт. На ее основе сделана библиотека
Folium, с помощью которой создают интерактивные карты в интернете. Используется для создания и анализа графов и сетевых структур. Предназначена для работы со стандартными и нестандартными форматами данных.
Аналитика данных
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12❤4
Держите полезности)
Книги
("Python Data Science Handbook: Essential Tools for Working with Data")
("Data Science from Scratch: First Principles with Python")
("Machine Learning and Deep Learning with Python, scikit-learn, and TensorFlow2")
Бесплатные онлайн-курсы
Аналитика данных
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥3❤1
Shpargalka_po_Python_Data_Science.pdf
1.4 MB
✍️ Шпаргалка Python для Data Science
Содержит:
▫️основы Python;
▫️инструкции по Jupyter Notebook;
▫️основы NumPy;
▫️основы линейной алгебры на примере NumPy;
▫️основы Pandas;
▫️примеры работы с Scikit-Learn;
▫️библиотеки для визуализации данных Matplotlib, Seaborn и Bokeh.
Содержит:
▫️основы Python;
▫️инструкции по Jupyter Notebook;
▫️основы NumPy;
▫️основы линейной алгебры на примере NumPy;
▫️основы Pandas;
▫️примеры работы с Scikit-Learn;
▫️библиотеки для визуализации данных Matplotlib, Seaborn и Bokeh.
👍7🔥6❤2💩1
#вакансия #ищу сотрудника #analyst #productanalyst #удаленка #PostgreSQL #Python
🔍 Ищем аналитика в #Wiam Group
💰Вилка: 200-350 т.р.
Компания Wiam group международная финтех компания, основанная в 2019 году, которая совершенствует технологии в сфере кредитования и разрабатывает программное обеспечение.
📌Что надо будет делать:
- Проводить анализ личного кабинета пользователей;
- Анализировать воронки и пути пользователей в продукте;
- Искать точки роста для увеличения конверсии;
- Участвовать в подготовке и оценке продуктовых А/Б тестов;
- Оценивать результаты запуска новых функций продукта;
- Готовить ТЗ для команды разработки на передачу событий аналитики.
📌Мы ожидаем:
- Опыт работы продуктовым/data/web- аналитиком от 2-х лет;
- Опыт работы с Python и SQL (у нас PostgreSQL);
- Глубокое знание математической статистики и теории вероятностей;
- Уверенное знание флоу A/B-тестирования (дизайн, контроль проведения, способы проверки статистической значимости, подведение итоговых результатов);
- Опыт работы с инструментами web-аналитики (Google Tag Manager, Яндекс.Метрика, Google Analytics).
📌Будет плюсом:
- Опыт визуализации данных в BI-системах (у нас Tableau);
- Знание базовых ML-алгоритмов;
- Опыт написания техзаданий;
- Опыт работы в финтехе.
📌Мы предлагаем:
- Полностью удаленный формат работы из любой точки мира;
- График работы с понедельника по пятницу с гибким началом и окончанием рабочего дня в зависимости от проекта в работе;
- Возможности профессионального развития;
- Отсутствие тотальной бюрократии и микроменеджмента;
- Фиксированный оклад;
- Заработная плата обсуждается по итогам собеседования;
- Оформление по договору с самозанятыми или с ИП.
Этапы отбора: 1) собеседование с HR; 2) собеседование с руководителем отдела аналитики.
Интересна данная вакансия?
📮Контакт: @rm_julia
Аналитика данных
🔍 Ищем аналитика в #Wiam Group
💰Вилка: 200-350 т.р.
Компания Wiam group международная финтех компания, основанная в 2019 году, которая совершенствует технологии в сфере кредитования и разрабатывает программное обеспечение.
📌Что надо будет делать:
- Проводить анализ личного кабинета пользователей;
- Анализировать воронки и пути пользователей в продукте;
- Искать точки роста для увеличения конверсии;
- Участвовать в подготовке и оценке продуктовых А/Б тестов;
- Оценивать результаты запуска новых функций продукта;
- Готовить ТЗ для команды разработки на передачу событий аналитики.
📌Мы ожидаем:
- Опыт работы продуктовым/data/web- аналитиком от 2-х лет;
- Опыт работы с Python и SQL (у нас PostgreSQL);
- Глубокое знание математической статистики и теории вероятностей;
- Уверенное знание флоу A/B-тестирования (дизайн, контроль проведения, способы проверки статистической значимости, подведение итоговых результатов);
- Опыт работы с инструментами web-аналитики (Google Tag Manager, Яндекс.Метрика, Google Analytics).
📌Будет плюсом:
- Опыт визуализации данных в BI-системах (у нас Tableau);
- Знание базовых ML-алгоритмов;
- Опыт написания техзаданий;
- Опыт работы в финтехе.
📌Мы предлагаем:
- Полностью удаленный формат работы из любой точки мира;
- График работы с понедельника по пятницу с гибким началом и окончанием рабочего дня в зависимости от проекта в работе;
- Возможности профессионального развития;
- Отсутствие тотальной бюрократии и микроменеджмента;
- Фиксированный оклад;
- Заработная плата обсуждается по итогам собеседования;
- Оформление по договору с самозанятыми или с ИП.
Этапы отбора: 1) собеседование с HR; 2) собеседование с руководителем отдела аналитики.
Интересна данная вакансия?
📮Контакт: @rm_julia
Аналитика данных
❤3👍3👨💻2
И вспомним про некоторые алгоритмы
Где применять — там, где требуется несложная классификация малого числа объектов на малое число классов.
Может сгруппировать объекты по степени похожести.
Где применять — поиск закономерностей, классификация объектов по нескольким параметрам. Работа с объектами, которые можно описывать набором переменных.
Пытается построить такую линию, чтобы самым точным образом разделить между собой разные типы объектов.
Где применять — классификация объектов.
Определяет класс, к которому принадлежит объект. В основе — расчет вероятности, с которой объект относится к тому или иному типу данных.
Где применять — в задачах классификации, конечно же. Например, классическая задача — сказать, относится ли письмо к спаму или нет.
Аналитика данных
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8❤5👍3
Инструмент, использующий функциональность виртуальной таблиц Sqlite, позволяющий исследовать объекты Linux ELF с помощью SQL.
ELF (англ. Executable and Linking Format — это формат исполнимых и компонуемых файлов) — формат исполняемых двоичных файлов, используемый во многих современных UNIX-подобных операционных системах, таких как FreeBSD, Linux, Solaris и др.
Традиционно изучение файлов ELF ограничивалось такими инструментами, как objdump или readelf. Несмотря на то, что эти инструменты обладают широкими возможностями синтаксического анализа, формат вывода и возможность задавать исследовательские функции инструментов довольно ограничены.
▪ Github
Аналитика данных
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍2❤1
Держите годный контент, поможет понять, какие инструменты используются в реальном ML
Параллельно обсуждается создание CI/CD-конвейера с помощью GitHub Actions для автоматизации процесса развертывания и запуска сквозных тестов.
Аналитика данных
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥1