Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека питониста | Python, Django, Flask

🤖🛠️ ТОП-25 опенсорсных инструментов для вашего ИИ-проекта

В этой статье мы собрали 25 лучших инструментов с открытым кодом, которые помогут вам создать ИИ-проекты, автоматизировать процессы и расширить функциональность ваших приложений.

🔗 Ссылка на статью

👍3

1.99K views07:17

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

👀 Marimo — реактивный Python-ноутбук; теперь с поддержкой SQL

Основные возможности:

▪️Запускаете ячейку и Marimo автоматически запускает все ячейки, зависящие от неё.

▪️Запускайте ваши ноутбуки как скрипты Python, параметризованные через аргументы командной строки.

▪️Встроенная поддержка SQL и панель для работы с источниками данных делают Marimo отличным инструментом для анализа данных.

▪️Ноутбуки Marimo сохраняются как файлы .py, что упрощает управление версиями через Git.

Поддержка SQL — это, кстати, совсем недавнее нововведение. Можно писать запросы и получать результаты в виде датафреймов.

🔗 Ссылка на репозиторий Marimo

👍8⚡1😁1

2.61K views11:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Привет, друзья! 👋

Мы готовим статью о том, как гарантированно провалить собеседование, и нам нужна ваша помощь! Поделитесь своим опытом и мнением, а самые интересные и полезные советы мы обязательно включим в нашу статью.

❓ Какую самую нелепую ошибку вы когда-либо совершали на собеседовании?
❓ Что, по вашему мнению, может мгновенно испортить впечатление о кандидате?

Не стесняйтесь делиться своими историями и мнениями в комментариях! Самые интересные и полезные советы попадут в нашу статью. 🚀 Спасибо за участие!

👍3

2.47K views18:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Proglib.academy | IT-курсы

📈 Стать аналитиком Big Data: пошаговое руководство 2024

Рассказываем в нашей статье, какие знания, онлайн-курсы, подкасты и книги помогут начать карьеру в сфере Big Data без специального образования.

Ознакомьтесь со статьей, а также забирайте наши курсы для Data Science:

🔵

Базовые модели ML и приложения

🔵

Математика для Data Science

🔗

Статья

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4

2.13K views07:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🤔 Как меняется математика в разных индустриях: от мобильных игр к фондовым рынкам

🗓 22 августа в прямом эфире разберем как математика применяется в разных отраслях бизнеса. И какие математические навыки необходимы для успешной работы в каждой из них.

Приглашенный спикер: Павел Запольский – Senior Quantitative Researcher at Exness и Co-founder GrowLytics. Запустивший более 10 проектов по машинному обучению и анализу данных для ведущих компаний.

😮 На вебинаре узнаете:

🔵 Математика в бизнесе: Чем отличаются разные сферы друг от друга. Почему стоит понимать специфику сферы
🔵 ML и продуктовое IT: Чем различается математическая сложность от индустрии к индустрии. Какие к ним необходимы уровни подготовки
🔵 Баевская математика в GameDev. Баевская математика как альтернатива AB тестированию. Как математические методы применяются в разработке игр
🔵 Finance: Что такое количественные финансы и математическое моделирование. Обсудим текущие индустриальные тренды в отрасли
🔵 Backtest: Как знания математики делают ваши активы более надежными
🔵 На практике подробно разберем два математических кейса по GameDev и Backtest.

➡️ Зарегистрироваться: https://proglib.io/w/dcdc91a6

Please open Telegram to view this post

VIEW IN TELEGRAM

2.53K views13:37

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

✍️😎 Подборка вопросов с собесов и ответы на них

Это подборка самых популярных постов канала «Библиотека собеса по Data Science» за месяц. Сохраняй себе, чтобы не потерять👇

✅ Какие разновидности градиентного спуска вы знаете?
✅ Как использовать матрицу ошибок (confusion matrix), чтобы определить производительность модели?
✅ Какие критерии качества рекомендательных систем вы знаете?
✅ Как выбрать порог для модели классификации?
✅ 👀 Попробуйте угадать, что изображено на этом графике?

👏5👍3🎉2

2.49K views18:12

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека программиста | программирование, кодинг, разработка

🚀 Ускорьте свою базу данных: 7 проверенных методов масштабирования и оптимизации

Масштабирование улучшает производительность и повышает надежность систем хранения данных путем оптимизации использования ресурсов и распределения нагрузки. В этой статье мы рассмотрим 7 эффективных методов масштабирования и оптимизации базы данных.

🔗 Читать статью
🔗 Зеркало

👍3

2.35K views07:14

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

1:06

This media is not supported in your browser

VIEW IN TELEGRAM

👆Наглядное объяснение того, как языковые модели предсказывают следующее слово в тексте👆

🔥8👍6🌚2

2.54K views18:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

❗Вакансии «Библиотеки программиста» — ждем вас в команде!

Мы постоянно растем и развиваемся, поэтому создали отдельную страницу, на которой будут размещены наши актуальные вакансии. Сейчас мы ищем:
👉авторов в наше медиа proglib.io
👉контент-менеджеров для ведения телеграм-каналов

Подробности тут

Мы предлагаем частичную занятость и полностью удаленный формат работы — можно совмещать с основной и находиться в любом месте🌴

Ждем ваших откликов 👾

ad.proglib.io

Вакансии в медиа «Библиотека программиста»‎

Количество проектов в редакции постоянно растет, так что нам всегда нужны специалисты

❤1

2.4K views06:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Proglib.academy | IT-курсы

🧮🏭 Индустриальная математика: когда ∫f(x)dx равно миллиардам

Индустриальная математика предлагает эффективные решения для самых сложных проблем реального мира. В нашей статье мы рассмотрим сущность индустриальной математики, ее краткую историю и современные тренды, а также обсудим, кому подходит эта профессия.

🔗 Статья

👍4

1.97K views09:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💀 Ликбез: «SQL-инъекции» в LLM с использованием специальных токенов

Андрей Карпаты тут недавно объяснил, как устроены атаки на LLM с применением специальных токенов. Мы сделали перевод:

🪅 Токенизаторы, используемые LLM, могут особым образом разбирать специальные токены (например, <s>, <|endoftext|> и т.д.) в строке ввода. Это хоть и выглядит удобным, на практике может привести к неприятным ошибкам или, что ещё хуже, к уязвимостям, аналогичным SQL-инъекциям.

⚠️Нужно запомнить, что вводимые пользователем строки не являются надёжными данными

⚠️

Поэтому в LLM может возникнуть проблема, когда некорректный код будет разбирать специальные токены в строке ввода как настоящие специальные токены, нарушая работу модели.

Вот пример из дефолтного токенизатора Llama 3:

from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("meta-llama/Meta-Llama-3.1-8B")
tokenizer("hello world <|end_of_text|> haha").input_ids
# [128000, 15339, 1917, 220, 128001, 63450]

Тут одновременно происходят две неочевидные вещи:
1⃣ Токен <|begin_of_text|> (128000) был добавлен в начало последовательности.
2⃣ Токен <|end_of_text|> (128001) был извлечён из строки, и вместо него вставлен специальный токен. Теперь текст может нарушить протокол токенов и заставить LLM выдавать непредсказуемые результаты.

✅ Карпаты советует всегда использовать токенизатор с двумя дополнительными флагами: add_special_tokens=False и split_special_tokens=True, а также добавлять специальные токены в коде самостоятельно. С этими настройками результат будет более правильным. На картинке (⤴️) можно увидеть, что <|end_of_text|> теперь рассматривается как обычная строковая последовательность и разбивается базовым BPE токенизатором так же, как и любая другая строка.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥5❤1

2.71K views18:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🤖 Напоминаем, что у нас есть еженедельная email-рассылка, посвященная последним новостям и тенденциям в мире искусственного интеллекта.

В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги

👉Подписаться👈

👍2

2.34K views06:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🧪 Байесовское A/B-тестирование vs частотное: преимущества, недостатки и способ реализации на Python

A/B-тестирование — это метод сравнения двух версий чего-либо для определения, какая из них работает лучше.

В новой статье разберёмся, в каких случаях лучше применять частотный подход, а в каких — байесовский, и напишем продвинутый байесовский тест на Python без использования специальных A/B-библиотек.

👉 Читать статью

👍8😁2

12.8K views09:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

35:52

Media is too big

VIEW IN TELEGRAM

📹

Документалка про создание PyTorch

Это 35-минутный официальный фильм, рассказывающий историю создания одного из самых известных фреймворков для машинного обучения.

🔗 Смотреть на YouTube

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥8

2.83K views18:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Proglib.academy | IT-курсы

✏️ Разбор задачи с экзамена ШАД

Условие: Раскройте скобки в матричном выражении: 1️⃣

Подсказка:

Матрицы не коммутируют

#задачи_шад

👍3🤔3

2.47K views07:10

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📊 Подборка материалов по аналитике данных:

🔹 Шпаргалка по Power BI
Небольшое руководство по созданию визуализаций и работе с данными в Power BI.

🔹SQL Tutorial
Это большой туториал с теорией и практикой.

🔹Интегрируем pandas с электронными таблицами: три способа
Статья на «Хабре» объясняет, как интегрировать библиотеку pandas с электронными таблицами через три метода: работу с файлами Excel, Google Таблицы и CSV.

🔹Data Analyst Portfolio Project
Это плейлист с роликами, посвящёнными созданию проектов для портфолио аналитика данных. Рассматриваются как SQL, так и Power BI с Tableau.

👍8❤1

3.21K views11:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Привет, друзья! 👋

Мы готовим статью о прокрастинации среди разработчиков и хотим узнать ваше мнение! 🤓 Поделитесь своим опытом, а самые интересные и полезные советы мы обязательно включим в нашу статью.

❓ Какая самая необычная причина прокрастинации у вас была в работе над проектом?
❓ Какой метод борьбы с прокрастинацией оказался для вас наиболее эффективным?
❓ Как вы справляетесь с когнитивной перегрузкой во время работы над сложными задачами?

Не стесняйтесь делиться своими историями и лайфхаками в комментариях! 💬 Ваш опыт может помочь другим разработчикам справиться с прокрастинацией. Спасибо за участие!

😁2🌚2

2.42K views18:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

1:39

This media is not supported in your browser

VIEW IN TELEGRAM

🛷

Хотите посмотреть, как человечек из Line Rider спускается по вашей кривой потерь?

Вам поможет библиотека LossRider. Она позволяет визуализировать процесс обучения моделей машинного обучения, генерируя графики в стиле Line Rider, по которым «скатывается» персонаж на санках.

✅ Библиотека поддерживает интерактивные графики в Jupyter Notebooks, а также позволяет настраивать оси и экспортировать визуализации.

🔗

Ссылка на репозиторий LossRider

Please open Telegram to view this post

VIEW IN TELEGRAM

😁22👍3😍1

2.63K views07:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🌲Какие операции с деревьями как структурами данных вы знаете?

Дерево — это иерархическая структура данных, состоящая из узлов, соединённых рёбрами.

Что касается операций, то их реализация сильно зависит от типа дерева. Но давайте рассмотрим самый простой случай — несбалансированное N-арное дерево, где нет ограничений на положение узлов и количество потомков у узла.

🔹Insert (вставка)
Если нет ограничений на размещение узла, вставка может быть простым добавлением нового потомка к существующему листу.

🔹Basic Search (обход дерева)
В самой простой форме обход дерева — это рекурсивная функция, которая вызывает саму себя для каждого потомка узла до тех пор, пока не будет найден целевой узел.

🔹Delete (удаление)
Если нужно удалить целое поддерево, это можно сделать, используя метод поиска узла. После того как целевой узел найден, его можно удалить из списка потомков его родителя.

#вопросы_с_собеседований

👍3

2.57K views18:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

1:14:26

Media is too big

VIEW IN TELEGRAM

🐍

Производительность Python для Data Science

В новом выпуске подкаста Talk Python To Me разработчики обсуждают инструменты и подходы, которые будут полезны для дата-сайентистов.

🔗

Смотреть ролик на YouTube

🔗

Перейти на страницу подкаста со всеми ссылками, упомянутыми в ролике

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6

2.49K views07:13

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🤔

Кем я хочу быть – DS или ML engineer?! Стоит ли понимать специфику сферы?!

🗓 Встречаемся сегодня в 20:00 по МСК чтобы ответить на эти и другие вопросы на вебинаре «Как меняется математика в разных индустриях: от мобильных игр к фондовым рынкам»

В эфире вас будет ждать Павел Запольский – Senior Quantitative Researcher at Exness и Co-founder GrowLytics. Запустивший более 10 проектов по машинному обучению и анализу данных для ведущих компаний.

➡️ Регистрируйтесь, если еще не успели: https://proglib.io/w/b286e0c8

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1👍1

2.25K views10:27

About

Blog

Apps

Platform