Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔥 Поддержка Mermaid-диаграмм и генерация кода: вышли новые версии Jupyter Notebook и JupyterLab

Project Jupyter объявил о релизе JupyterLab 4.1 и Jupyter Notebook 7.1. Вот некоторые из нововведений:
🔸 JupyterLab поддерживает автоматическую загрузку пользовательских стилей CSS. Это позволяет настроить среду так, как вам хочется.
🔸 JupyterLab и Notebook могут рендерить диаграммы Mermaid.
🔸 Теперь, когда вы начинаете вводить что-то в ячейке, и в JupyterLab, и в Notebook появляются автоматические подсказки — целые сгенерированные блоки кода.
🔸 В новой версии JupyterLab пути к файлам, которые выводятся в ошибках, преобразуются в ссылки.

🔥9❤4👍3⚡2

3.06K views07:16

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📊

Как визуализировать целый датасет

Здесь есть несколько подходов. Рассмотрим каждый.

1️⃣Наивный подход
Можно использовать методы hist() или pairplot() для всего набора данных, чтобы посмотреть на все фичи одновременно. Однако, когда количество признаков достаточно велико, такой способ визуального анализа становится медленным и неэффективным. К тому же, мы всё равно будем анализировать фичи попарно, а не все сразу.

2️⃣Снижение размерности
Многие реальные датасеты имеют множество признаков, иногда даже тысячи. Каждый из них можно рассматривать как измерение в пространстве точек данных. Следовательно, чаще всего мы имеем дело с наборами данных высокой размерности, где полная визуализация становится довольно сложной.

Чтобы рассмотреть датасет в целом, нам нужно уменьшить количество измерений, используемых в визуализации, не потеряв при этом много информации о данных. Эта задача называется снижением размерности. Чаще всего для этого применяют метод главных компонент (PCA).

3️⃣ t-SNE
Это техника нелинейного снижения размерности и визуализации многомерных переменных. Её основная идея такая: нужно найти проекцию для пространства признаков высокой размерности на плоскость таким образом, чтобы те точки, которые были далеко друг от друга в исходном n-мерном пространстве, оказались далеко друг от друга и на плоскости. Те, которые изначально были близки, останутся близкими друг к другу.

Найти t-SNE можно в scikit-learn:

from sklearn.manifold import TSNE

tsne = TSNE(random_state=17)
tsne_repr = tsne.fit_transform(X_scaled)

plt.scatter(tsne_repr[:, 0], tsne_repr[:, 1], alpha=0.5);

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥11👍4❤1

3.21K views18:07

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🤖 ~~Удивительные открытия~~: исследователи обвинили Copilot в генерации уязвимого кода

Специалисты компании Snyk в новой статье рассказали, что ИИ-помощник GitHub Copilot генерирует уязвимый код, если в проекте уже используется такой. Он имитирует выученные паттерны, не пытаясь исправить недостатки. При этом, по данным Snyk, коммерческий проект имеет в среднем 40 уязвимостей в собственном коде.

✍️ Авторы провели эксперимент с GitHub Copilot. Сначала его попросили сгенерировать SQL-запрос и получили результат, который можно назвать хорошим. Затем экспериментаторы в соседнем файле проекта самостоятельно написали уязвимый SQL-запрос. После этого Copilot снова попросили сгенерировать код. На этот раз получилось плохо.

Специалисты считают, что такое использование ИИ-помощников может усугубить проблемы неопытных разработчиков, заставляя их «привыкать» к плохому коду.

💬 А вы проверяете то, что вам нагенерировал ИИ? (👍 — да, 🤔 — не проверяю).

👍14❤1🤔1

2.83K views07:10

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

👀

Итоги недели в мире ИИ и обзоры новых сервисов: новый чип LPU от Groq в 12.5 раз быстрее GPU от NVIDIA

У нас вышла очередная статья на 📰 по мотивам еженедельной рассылки про последние новости и тенденции в мире ИИ.

Ниже — небольшая выдержка из статьи, а целиком читайте здесь 👈

💬

Новости

▫️ Выяснилось, что генерация одной минуты видео нашумевшей моделью Sora (OpenAI) занимает более одного часа.
▫️Компания Groq выпустила новый чип LPU (Language Processing Unit), который обеспечивает феноменально высокую скорость работы с большими языковыми моделями. Так, чат-бот Groq, работающий на собственном железе, генерирует в среднем 500 токенов в секунду, а ChatGPT-3.5 на GPU — не больше 40.
▫️ИИ-генератор кода, разрабатываемый стартапом Magic, теперь поддерживает контекст до 3,5 млн токенов и демонстрирует недоступный ранее уровень логики.

🛠 Инструменты

▫️Zenfetch Personal AI — создаёт ИИ-ассистента и личную интерактивную базу знаний на основе любого сохранённого из веба контента — статей, PDF-файлов, фото и YouTube-видео.
▫️AdGen — генератор рекламных креативов.
▫️Sheet Savvy AI — ассистент для работы с данными в таблицах Google Sheets.
▫️Swizzle — браузерный ИИ-конструктор фуллстек-приложений: сделает бэкенд, фронтенд, авторизацию и базу данных.

⚙

Сделай сам

Статья о том, как создать NotesGPT — веб-приложение для работы с голосовыми заметками и сделанными на их основе списками дел.

Please open Telegram to view this post

VIEW IN TELEGRAM

🎉5❤3👍1

38K views11:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💬 А как вы относитесь к платным курсам по Data Science и Machine Learning?

Блогер опросил больше тысячи айтишников о том, как они попали в профессию. Платные курсы помогли только 10% респондентов (да, к выборке есть вопросы, и этот результат не отражает истину)

А проходили ли вы платные курсы? Нашли ли вы работу после этого? Делитесь в комментариях

❤️ — проходил платные курсы, они оказались мне полезны, у меня нет претензий
👾 — проходил платные курсы, в целом нормально, но цена кажется слишком высокой за такие материалы
🤔 — проходил платные курсы, они оказались совсем бесполезны
👍 — учился только по бесплатным материалам

#интерактив

👍48❤29👾27🤔5😁2

2.73K views18:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека программиста | программирование, кодинг, разработка

🐱🎨🙏🤖 10 самых странных языков программирования, о которых вы никогда не слышали

Эзотерические языки разрабатывают в концептуальных, экспериментальных и развлекательных целях. Их общая черта — максимально запутанный и странный синтаксис, понятный только посвященным. В этой подборке — языки, которые выбрали бы Ходор, доктор Лектер, Малевич, Джеймс Бонд, Терминатор и Луи Армстронг, если бы решили войти в айти.

👉 Читать статью
👉 Зеркало

👍2❤1⚡1🔥1😁1

2.57K views07:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🦾🤖 Подборка бесплатных курсов по Machine Learning и Data Science

На днях Microsoft выпустила новый бесплатный курс по генеративным моделям для начинающих. Курс рассказывает базовые принципы работы с большими языковыми моделями и ИИ-агентами. Мы решили добавить ещё несколько курсов, которые помогут погрузиться в отрасль.

🔹 Machine Learning for Beginners — A Curriculum
Ещё один курс от Microsoft. Включает 26 уроков и 52 упражнения. Покрывает такие темы, как построение регрессионных моделей, обработка данных, методы кластеризации, введение в обработку естественного языка.
🔹Data Science for Beginners — A Curriculum
Не можем не добавить в подборку дополнительный курс от Microsoft для тех, кто хочет быть дата-сайентистом, а не ML-инженером. Этот курс рассказывает об SQL, библиотеках для анализа и визуализации данных, деплое и эксплуатации моделей.
🔹Открытый курс по машинному обучению
Создан сообществом OpenDataScience. Охватывает основные темы: от анализа датасета до различных ML-алгоритмов.
🔹Курсы на Kaggle
Это, своего рода, классика. Рекомендуем ознакомиться тем, кто ещё этого не сделал.

GitHub

GitHub - microsoft/generative-ai-for-beginners: 21 Lessons, Get Started Building with Generative AI

21 Lessons, Get Started Building with Generative AI - GitHub - microsoft/generative-ai-for-beginners: 21 Lessons, Get Started Building with Generative AI

🔥7⚡3👍2

3.82K views18:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

1:21

This media is not supported in your browser

VIEW IN TELEGRAM

🤖

OpenAI будет разрабатывать модели для роботов

На днях компания объявила о коллаборации со стартапом Figure, который создаёт человекоподобных роботов. Стартап заинтересован в том, чтобы научить своих роботов навыкам понимания языка и рассуждений.

Коллаборация с OpenAI — это не единственное, чего добился Figure в последнее время. Также он привлёк финансирование от Microsoft, NVIDIA, Джеффа Безоса и многих других.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8👍5⚡3

3.08K views07:35

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🧮📐 15 гениев, которые изменили мир математики навсегда

В нашей новой статье читайте о том, как 15 величайших математических умов в истории, от древнегреческого гения Фалеса до современного революционера Мандельброта, своими открытиями в алгебре, геометрии, теории чисел и других областях навсегда изменили облик математики и мира.

🔗 Читать статью
🔗 Зеркало

👍10🎉5⚡2🔥2👏2

19.1K views18:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🎨 Почему Илон Маск подал в суд на OpenAI

В пятницу стало известно, что предприниматель решил судиться со стартапом, стоящим за ChatGPT. Маск утверждает, что OpenAI предал собственную миссию — работать во благо людей, а не ради собственного заработка.

По словам Илона, Сэм Альтман и Грег Брокман обратились. к нему в 2015 году с предложением создать открытую некоммерческую компанию. Однако сейчас, по мнению Маска, стартап полностью сосредоточен лишь на заработке денег.

Представители OpenAI отвергают все обвинения, а некоторые и вовсе говорят, что Илон просто расстроен своим неучастием в делах компании сейчас.

👀 Стоит отметить, что Маск — соучредитель OpenAI, но покинул совет директоров компании в 2018 году. Недавно предприниматель основал собственный ИИ-стартап xAI.

Please open Telegram to view this post

VIEW IN TELEGRAM

🤔5⚡3👍2😁1

3.19K views07:19

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Вам дали список чисел. Напишите функцию, которая вернёт выбросы

Выброс — это результат измерения, выделяющийся из общей выборки. Простейшие способы определения выбросов основаны на манипуляциях с межквартильным расстоянием. Рассмотрим такой алгоритм:

✔️ Вычислим квартили.
Так мы получим Q1 (первый квартиль) и Q3 (третий квартиль). Тогда IQR — это размах между первым и третьим квартилями (Q3 - Q1).
✔️ Определим выбросы.
Как правило, выбросами считаются точки данных, которые находятся ниже Q1 - 1.5 * IQR или выше Q3 + 1.5 * IQR.

Вот пример функции, реализующей такой алгоритм:

import numpy as np

def find_outliers(data):
    sorted_data = sorted(data)
    
    Q1 = np.percentile(sorted_data, 25)
    Q3 = np.percentile(sorted_data, 75)
    
    IQR = Q3 - Q1
    
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    
    outliers = [x for x in sorted_data if x < lower_bound or x > upper_bound]
    
    return outliers

#вопросы_с_собеседований

Please open Telegram to view this post

VIEW IN TELEGRAM

❤23👍14🔥4⚡1

3.25K views18:04

About

Blog

Apps

Platform