Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🐍🗺 Создавайте захватывающие интерактивные карты с помощью Python

В новой статье разберём библиотеку визуализации данных Plotly. Шаг за шагом научимся создавать и настраивать простые и интерактивные карты, а также работать с картами Хороплета — особым типом карт, в которых используется цветовое кодирование для обозначения данных по конкретным географическим областям, таким как страны, штаты или города.

🔗 Читать статью
🔗 Зеркало

👍7🔥4

2.59K views07:10

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Julia_Cheat_Sheet.pdf

1.9 MB

✍️ Шпаргалка по языку Julia

Если вам было интересно узнать, чем синтаксис Julia отличается от пайтоновского, то эта шпаргалка — отличный материал для быстрого изучения.

Содержит информацию об использовании:
▪️пакетов;
▪️операторов;
▪️векторов;
▪️разных функций;
▪️датафреймов.

🔥4👍2🥱2

2.92K views18:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека питониста | Python, Django, Flask

🐍🎸 Курс Django. Часть 3: Основы работы с формами

В новой части курса разбираем основные методы создания, кастомного рендеринга и кастомной валидации форм.

🔗 Читать статью
🔗 Зеркало

➕ Предыдущие части:
Часть 1: Django — что это? Обзор и установка фреймворка, структура проекта
Часть 2: ORM и основы работы с базами данных

👾2❤1

2.59K views07:09

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🎓 Полиномиальная регрессия: что это и когда используется?

Стандартная линейная регрессия имеет такую формулу: f(x) = b + m⋅x. Она описывает связь между переменными и рисует на графике прямую — такую, которая проходит наиболее близко ко всем точкам данных. Однако данные далеко не всегда хорошо аппроксимируются прямой линией. Посмотрите на картинку выше — вряд ли вы сможете провести такую прямую, которая будет лежать недалеко от всех точек.

✍️ Здесь данные, похоже, было бы лучше моделировать с помощью квадратичной функции, которая нарисовала бы линию с изгибом. Вот как выглядит такая формула: f(x) = b + m1⋅x + m2⋅x^2. По формуле видно — нам нужно создать ещё один признак, который будет равен квадрату исходного признака. Если мы всё сделаем правильно, то получим решение проблемы.

👉 Такие модели, использующие полином n-степени, называются полиномиальной регрессией. Они чаще всего используются, когда данные показывают нелинейные тренды.

🎉6❤5

2.92K views18:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🤖 Напоминаем, что у нас есть еженедельная email-рассылка, посвященная последним новостям и тенденциям в мире искусственного интеллекта.

В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги

👉Подписаться👈

2.84K views06:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🤖 Стартап Илона Маска x.ai опубликовал исходный код Grok-1

Разработчики выложили в открытый доступ веса и архитектуру большой языковой модели Grok-1. Это версия, полученная на фазе предобучения, которая была завершена в октябре 2023 года. Это значит, что данная модель не была тонко настроена ни под какую специфическую задачу, в том числе диалог.

Итак, вот особенности Grok-1:
🔹Содержит 314 млрд параметров.
🔹Использует технику Mixture-of-Experts.
🔹Для обучения использовали кастомный стек на основе JAX и Rust.

🔗 Изучить код внимательнее можно в этом репозитории
🤗 Карточка модели на Hugging Face

👉

Подробности и контекст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6🔥2👍1

11.8K viewsedited 07:30

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🌲Выжимаем из Random Forest максимум: увеличиваем полноту при 100% точности

Автор новой статьи на Хабре описывает любопытный способ добиться увеличения точности и сохранения полноты моделей Random Forest. Предложенная им методика заключается в обрезке деревьев решений до наиболее эффективных ветвей.

Шаги алгоритма такие:
▪️Выбираются ветви деревьев, где преобладает целевой класс.
▪️Их эффективность проверяется на новых данных.
▪️Отобранные ветви применяются для классификации новых объектов.

🔗 Читать статью полностью

🔥5🤩2👍1

3K views18:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

📊 Основные типы распределений вероятностей в примерах

На «Хабре» опубликовали отличный материал с примерами распределений, которые могут встретиться вам в работе. Упор в статье делается не на функции и формулы, а на вид графиков на конкретных примерах.

Среди рассмотренных распределений:
▫️биномиальное,
▫️Пуассона,
▫️экспоненциальное,
▫️Вейбулла,
▫️гамма-распределение,
▫️бета-распределение,
▫️гипергеометрическое,
▫️нормальное,
▫️Стьюдента,
▫️Хи-квадрат,
▫️Фишера.

🔗 Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥18👍4

3.15K viewsedited 07:20

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

☄️

Подборка новостей из мира искусственного интеллекта

🔥

NVIDIA представила мощнейшний чип для ИИ — Blackwell
По заверениям компании, процессор позволяет строить и запускать генеративные модели с триллионами параметров. При этом чип потребляет в 25 раз меньше энергии, чем его предшественники. NVIDIA также привела результаты тренировки модели, сравнимой с GPT-4. Так, раньше требовалось 8000 процессоров H100 и 90 дней при мощности 15MW. Теперь нужны лишь 2000 новых карт B100 и 90 дней при мощности 4MW.

🔄

Ollama стала поддерживать графические карты AMD
Ollama — это открытый проект, который позволяет запускать большие языковые модели, такие как Llama 2 и Mistral, локально. Обновление с поддержкой AMD доступно на Linux и Windows.

🆒

Представлен Devin — «первый ИИ-разработчик»
Авторы проекта утверждают, что он установил новую планку в бенчмарках по кодингу. Вот что Devin может делать:
▫️Учиться применять незнакомые ему технологии;
▫️Построить и внедрить приложение от начала до конца;
▫️Автономно находить и исправлять баги;
▫️Обучать и файн-тюнить собственные ИИ-модели.
В интернете уже полно шуток про то, что Devin наконец заменит программистов, как все того ждали. Однако, похоже, что всерьёз бояться не стоит.

😈

Figure и OpenAI показали робота с интегрированной GPT-моделью
В опубликованном видео робот Figure 01 поддерживает разговор с инженером, выполняет его команды и рассуждает, когда его просят об этом.

🤗 Hugging Face запустил собственный проект по роботам
Обещают, что он будет по-настоящему открытым. Уже начался поиск инженеров на проект.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7👍1

2.61K views11:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

👀 Подробная статья о квантизации нейросетевых моделей от ML-разработчика Яндекса

Квантизация – это переход от типа данных с большим числом бит, например, float32 к типу с меньшим числом, такому как int8. Квантизованные модели требуют меньше вычислительных ресурсов и работают быстрее, а значит, экономят деньги и улучшают пользовательский опыт. Автор статьи рассказал о методах квантизации, с какими данными предстоит работать и подсказал, в какой момент лучше квантизовать модель.

🔗 Подробнее

👍6😁1

2.77K views15:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

0:10

This media is not supported in your browser

VIEW IN TELEGRAM

Сегодня мы узнали, как по-польски будет Mean squared error👆

#memes

😁21🤩3👍1

3.06K views18:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека питониста | Python, Django, Flask

🐍 Итоги недели в мире Python и обзоры новых инструментов

У нас есть еженедельная рассылка о последних открытиях и тенденциях в мире Python. Мы опубликовали новый выпуск на 📰.

Ниже — небольшая часть выпуска, а целиком читайте здесь 👈

😏 Мнение: пора переключаться с бэкенда на ИИ

Общемировой тренд — увеличение спроса на ИИ-разработчиков. И у Python-специалистов есть огромное преимущество — они без особых усилий могут переключиться с бэкенда на машинное обучение. Автор этой публикации рассказал, с чего проще всего начать — с изучения супервостребованной RAG-технологии.

🎩 Hatchet — эффективная альтернатива Celery

Hatchet — это новая система распределения задач для управления сложными процессами. Она позволяет создавать отказоустойчивые процессы, решающие проблемы параллелизма, справедливости распределения задач и ограничения скорости обработки. Обо всех преимуществах Hatchet читайте в рассылке.

🌐 Niquests — продвинутая альтернатива Requests

Новая библиотека лишена некоторых недостатков старой, а также имеет дополнительные фичи. Какие — подробно рассказываем в статье на vc.

➡

Вы можете подписаться на email-рассылку здесь

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3

2.6K views07:09

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека программиста | программирование, кодинг, разработка

🆕 Nvidia и гуманоидные роботы: новая эра искусственного интеллекта

Nvidia представила Project GR00T — платформу искусственного интеллекта для гуманоидных роботов — и анонсировала новый компьютер Jetson Thor для работы с генеративными ИИ.

🔗Подробнее

🔥4

2.52K views10:55

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека собеса по Data Science | вопросы с собеседований

🐍 Задача про умножение матриц

Условие: Вам даны две матрицы, нужно написать функцию для их умножения. Матрицы могут быть квадратными или прямоугольными.

Решение: Напишем решение на чистом Python

def matrix_multiply(A, B):
    # Сначала проверим, можем ли мы вообще перемножить эти матрицы
    if len(A[0]) != len(B):
        raise ValueError("Number of A columns must equal number of B rows.")
    
    # Инициализируем результирующую матрицу, заполненную нулями
    result = [[0 for _ in range(len(B[0]))] for _ in range(len(A))]
    
    # Перемножим матрицы
    for i in range(len(A)):
        for j in range(len(B[0])):
            for k in range(len(B)):
                result[i][j] += A[i][k] * B[k][j]
    
    return result

# Проверим функцию на примере
A = [[1, 2, 3],
     [4, 5, 6]]

B = [[7, 8],
     [9, 10],
     [11, 12]]

result = matrix_multiply(A, B)
for row in result:
    print(row)

#программирование
#линейная_алгебра

👍14😁5❤3🥱1

3.06K views18:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

👨‍💼👩‍💼👨‍🎤Как делить пользователей на группы в АБ-тестах: ошибки и рекомендации

Автор статьи на «Хабре» описывает подходы к делению выборки для АБ-тестирования. Он описывает разные методы с их плюсами и минусами:

▪️случайное присвоение пользователям значения группы;
▪️применение псевдослучайных хэш-функций.

🔗 Читать статью

👍5⚡3

3.03K views07:14

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🧠🤖 Как создать память для вашего чат-бота на Python с
помощью графов знаний

Хотите, чтобы ваш чат-бот давал более точные и релевантные ответы, избегая «галлюцинаций»? Графы знаний в помощь!

В статье и туториале разбираем, что такое графы и как создать память на примере данных из Википедии.

🔗 Читать статью
🔗 Зеркало

👍8⚡3🥰2❤1

21.3K views11:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Что происходит с коэффициентами в ридж-регрессии (Ridge Regression), когда параметр регуляризации стремится к нулю?

Anonymous Quiz

17%

Они стремятся к нулю

19%

Они становятся бесконечно большими

55%

Они приближаются к оценкам обычного метода наименьших квадратов

Они становятся неопределёнными

521 voters2.71K views18:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека питониста | Python, Django, Flask

0:35

This media is not supported in your browser

VIEW IN TELEGRAM

🐍🎩 Hatchet: новый король распределения задач, который затмит Celery

Ваша система распределения задач тормозит проект? Пора переходить на Hatchet! Этот инновационный менеджер очередей решает проблемы, с которыми не справляются устаревшие инструменты.

Hatchet позволяет создавать отказоустойчивые процессы, решающие проблемы параллелизма, справедливости распределения задач и ограничения скорости обработки.

👉Обо всех преимуществах Hatchet рассказали в статье👈
🔗 Зеркало

🤩7⚡5👾1

2.28K views07:13

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

⚡

Пятничная подборка самых важных новостей

🤮

OpenAI представит GPT-5 уже этим летом

🤮

Google открыла доступ к Gemini 1.5 Pro — самой мощной нейросети в мире

🤮

Как разраб помог другу получить оффер на $4000 с помощью Deepfake

🤮

Революция в футбольной тактике: ИИ TacticAI меняет правила игры

🤮

Сэм Альтман в интервью с Лексом Фридманом рассказал о GPT-5, Sora и AGI

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥3👏3👾3

2.75K viewsedited 09:09

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🆕 Вышел первый международный рейтинг Global Generative AI Landscape 2024 с ведущими мировыми ИИ-разработками

Туда попали две российские нейросети — текстовая YandexGPT и мультимодальная YandexART. Сообщество дата-саентистов, ML-экспертов и энтузиастов в сфере ИИ AIPort провели исследование по 62 странам, которые больше всего инвестируют в развитие ИИ (согласно глобальному индексу искусственного интеллекта Tortoise).

Яндекс также стал одной из 11 компаний со всего мира, разрабатывающих более одного типа GenAI-моделей. В этом списке такие компании, как Open AI, Google, Microsoft, Meta.

👉 Читать статью

👍6🥱1

2.69K views18:00

About

Blog

Apps

Platform