Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.7K subscribers
2.25K photos
113 videos
64 files
4.66K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
🔥 100 упражнений по NumPy с решениями

Делимся с вами полезным GitHub-репозиторием, в котором собраны различные небольшие задачки по библиотеке. Упражнения взяты из NumPy mailing list, Stack Overflow и документации NumPy.

Задачи собраны как в версии с решениями, так и в версии без них. Можете проверить свои знания.

🔗 Ссылка на репозиторий
5🔥2
Анонсировали Stable Diffusion 3

Пока модель не доступна широкой публике. Stability AI открыла список ожидания. Зарегистрироваться можно по этой ссылке.

👉 Stable Diffusion 3 соединяет в себе архитектуру диффузионного трансформера и flow matching. Создатели обещают улучшенную производительность при генерации изображений из сложных промптов, а также более точное написание текста на картинках.
👏7👍3
Какие существуют модификации KNN?

Метод k-ближайших соседей, или k-nearest neighbors (KNN), — довольно простой и легко интерпретируемый алгоритм. Он работает, идентифицируя k объектов обучающего набора данных, которые находятся ближе всего к объекту, который нужно классифицировать или для которого нужно предсказать значение.

Как алгоритм можно модифицировать?

🔹Выбор метрики
Во-первых, можно использовать разные функции расстояния для вычисления дистанции между объектами. Это могут быть Манхэттенская метрика, метрика Минковского, косинусное расстояние, расстояние Жаккара.
🔹Взвешенный KNN
Решает главный недостаток оригинального алгоритма: он никак не учитывает расстояния до соседних объектов, хотя эта информация может быть полезной. В этой модификации чем ближе сосед, тем больше его вклад в принятие решения. Это позволяет уменьшить влияние «далёких» соседей.
🔹Адаптивный KNN
В этой версии алгоритма значение k может адаптироваться в зависимости от локальной плотности данных. Это означает, что для объектов в разреженных областях пространства будет использоваться большее значение k, а в плотных областях — меньшее.

#вопросы_с_собеседований
👍145😁2🤩21
💬 Малые языки и машинное обучение

В новой статье автор обсуждает важность развития малых языков и предлагает методы для их поддержки с использованием машинного обучения и обработки естественного языка.

▶️В частности, он рассказывает о том, как применять языковую модель LaBSE, которая переводит фразы в эмбеддинги, как загружать датасеты на Hugging Face, как сделать параллельную книгу.

🔗 Ссылка на статью
🔗 Ссылка на любопытный проект «"Маленький принц" на малых языках России»
Please open Telegram to view this post
VIEW IN TELEGRAM
7🔥1
✍️ GPT на 60 строках NumPy

Это подробное руководство по созданию упрощённой версии модели GPT с использованием NumPy. Оно нужно, скорее, для образовательных целей, чем для практического применения.

В гайде описано:
▪️ как устроена GPT,
▪️ как обрабатывать входные данные,
▪️ какие функции использовать и реализовать.

🔗 Ссылка на сам гайд
🔗 Ссылка на репозиторий со всем кодом к руководству
🔥9👍73
🔥 Mistral выпустила свою флагманскую языковую модель

Она, собственно, так и называется Mistral Large. Исходного кода мы пока не видели, модель доступна через la Plateforme и Azure.

По производительности, если верить создателям, Mistral Large находится в рейтинге сразу за GPT-4. Вот краткие характеристики модели:
🔹Есть нативная поддержка английского, французского, испанского, немецкого и итальянского языков.
🔹Размер контекстного окна составляет 32K токенов.
🔹Разработчики могут разрабатывать собственные правила модерации для модели.
🔹Поддерживает вызовы функций и режим ограничений на формат вывода (JSON).
😁81
👹🍎 Логическая задача про демонов и яблоки

Условия такие:
▫️В деревне растёт одно яблоко и живёт 65 демонов.
▫️Если демон съест яблоко, он сразу уснёт.
▫️Если демон съест другого спящего демона, он тоже сразу уснёт.
▫️Демоны очень голодны и едят что угодно при первой удобной возможности.
▫️Демоны очень умны и всегда рассчитывают свои действия на много ходов вперёд.
▫️Наивысший приоритет для демона — собственная безопасность, поэтому, если ему будет грозить опасность, он никого не съест.
▫️Демон съест что угодно, только если после этого его жизни ничего не будет угрожать.

Вопрос: Что вот-вот произойдёт в этой деревне? Пишите ваши варианты в комментариях 👈

Задача взята из журнала Яндекс Практикума

#интерактив
👍54
🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
👍42
🔥 Поддержка Mermaid-диаграмм и генерация кода: вышли новые версии Jupyter Notebook и JupyterLab

Project Jupyter объявил о релизе JupyterLab 4.1 и Jupyter Notebook 7.1. Вот некоторые из нововведений:
🔸 JupyterLab поддерживает автоматическую загрузку пользовательских стилей CSS. Это позволяет настроить среду так, как вам хочется.
🔸 JupyterLab и Notebook могут рендерить диаграммы Mermaid.
🔸 Теперь, когда вы начинаете вводить что-то в ячейке, и в JupyterLab, и в Notebook появляются автоматические подсказки — целые сгенерированные блоки кода.
🔸 В новой версии JupyterLab пути к файлам, которые выводятся в ошибках, преобразуются в ссылки.
🔥94👍32
📊 Как визуализировать целый датасет

Здесь есть несколько подходов. Рассмотрим каждый.

1️⃣Наивный подход
Можно использовать методы hist() или pairplot() для всего набора данных, чтобы посмотреть на все фичи одновременно. Однако, когда количество признаков достаточно велико, такой способ визуального анализа становится медленным и неэффективным. К тому же, мы всё равно будем анализировать фичи попарно, а не все сразу.

2️⃣Снижение размерности
Многие реальные датасеты имеют множество признаков, иногда даже тысячи. Каждый из них можно рассматривать как измерение в пространстве точек данных. Следовательно, чаще всего мы имеем дело с наборами данных высокой размерности, где полная визуализация становится довольно сложной.

Чтобы рассмотреть датасет в целом, нам нужно уменьшить количество измерений, используемых в визуализации, не потеряв при этом много информации о данных. Эта задача называется снижением размерности. Чаще всего для этого применяют метод главных компонент (PCA).

3️⃣ t-SNE
Это техника нелинейного снижения размерности и визуализации многомерных переменных. Её основная идея такая: нужно найти проекцию для пространства признаков высокой размерности на плоскость таким образом, чтобы те точки, которые были далеко друг от друга в исходном n-мерном пространстве, оказались далеко друг от друга и на плоскости. Те, которые изначально были близки, останутся близкими друг к другу.

Найти t-SNE можно в scikit-learn:
from sklearn.manifold import TSNE

tsne = TSNE(random_state=17)
tsne_repr = tsne.fit_transform(X_scaled)

plt.scatter(tsne_repr[:, 0], tsne_repr[:, 1], alpha=0.5);
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11👍41
🤖 Удивительные открытия: исследователи обвинили Copilot в генерации уязвимого кода

Специалисты компании Snyk в новой статье рассказали, что ИИ-помощник GitHub Copilot генерирует уязвимый код, если в проекте уже используется такой. Он имитирует выученные паттерны, не пытаясь исправить недостатки. При этом, по данным Snyk, коммерческий проект имеет в среднем 40 уязвимостей в собственном коде.

✍️ Авторы провели эксперимент с GitHub Copilot. Сначала его попросили сгенерировать SQL-запрос и получили результат, который можно назвать хорошим. Затем экспериментаторы в соседнем файле проекта самостоятельно написали уязвимый SQL-запрос. После этого Copilot снова попросили сгенерировать код. На этот раз получилось плохо.

Специалисты считают, что такое использование ИИ-помощников может усугубить проблемы неопытных разработчиков, заставляя их «привыкать» к плохому коду.

💬 А вы проверяете то, что вам нагенерировал ИИ? (👍 — да, 🤔 — не проверяю).
👍141🤔1
👀 Итоги недели в мире ИИ и обзоры новых сервисов: новый чип LPU от Groq в 12.5 раз быстрее GPU от NVIDIA

У нас вышла очередная статья на 📰 по мотивам еженедельной рассылки про последние новости и тенденции в мире ИИ.

Ниже — небольшая выдержка из статьи, а целиком читайте здесь 👈

💬Новости

▫️ Выяснилось, что генерация одной минуты видео нашумевшей моделью Sora (OpenAI) занимает более одного часа.
▫️Компания Groq выпустила новый чип LPU (Language Processing Unit), который обеспечивает феноменально высокую скорость работы с большими языковыми моделями. Так, чат-бот Groq, работающий на собственном железе, генерирует в среднем 500 токенов в секунду, а ChatGPT-3.5 на GPU — не больше 40.
▫️ИИ-генератор кода, разрабатываемый стартапом Magic, теперь поддерживает контекст до 3,5 млн токенов и демонстрирует недоступный ранее уровень логики.

🛠 Инструменты

▫️Zenfetch Personal AI — создаёт ИИ-ассистента и личную интерактивную базу знаний на основе любого сохранённого из веба контента — статей, PDF-файлов, фото и YouTube-видео.
▫️AdGen — генератор рекламных креативов.
▫️Sheet Savvy AI — ассистент для работы с данными в таблицах Google Sheets.
▫️Swizzle — браузерный ИИ-конструктор фуллстек-приложений: сделает бэкенд, фронтенд, авторизацию и базу данных.

Сделай сам

Статья о том, как создать NotesGPT — веб-приложение для работы с голосовыми заметками и сделанными на их основе списками дел.
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉53👍1
💬 А как вы относитесь к платным курсам по Data Science и Machine Learning?

Блогер опросил больше тысячи айтишников о том, как они попали в профессию. Платные курсы помогли только 10% респондентов (да, к выборке есть вопросы, и этот результат не отражает истину)


А проходили ли вы платные курсы? Нашли ли вы работу после этого? Делитесь в комментариях

❤️ — проходил платные курсы, они оказались мне полезны, у меня нет претензий
👾 — проходил платные курсы, в целом нормально, но цена кажется слишком высокой за такие материалы
🤔 — проходил платные курсы, они оказались совсем бесполезны
👍 — учился только по бесплатным материалам

#интерактив
👍4829👾27🤔5😁2
Forwarded from Библиотека программиста | программирование, кодинг, разработка
🐱🎨🙏🤖 10 самых странных языков программирования, о которых вы никогда не слышали

Эзотерические языки разрабатывают в концептуальных, экспериментальных и развлекательных целях. Их общая черта — максимально запутанный и странный синтаксис, понятный только посвященным. В этой подборке — языки, которые выбрали бы Ходор, доктор Лектер, Малевич, Джеймс Бонд, Терминатор и Луи Армстронг, если бы решили войти в айти.

👉 Читать статью
👉 Зеркало
👍211🔥1😁1