Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.7K subscribers
2.25K photos
113 videos
64 files
4.66K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
🧮📐 15 гениев, которые изменили мир математики навсегда

В нашей новой статье читайте о том, как 15 величайших математических умов в истории, от древнегреческого гения Фалеса до современного революционера Мандельброта, своими открытиями в алгебре, геометрии, теории чисел и других областях навсегда изменили облик математики и мира.

🔗 Читать статью
🔗 Зеркало
👍10🎉52🔥2👏2
🎨 Почему Илон Маск подал в суд на OpenAI

В пятницу стало известно, что предприниматель решил судиться со стартапом, стоящим за ChatGPT. Маск утверждает, что OpenAI предал собственную миссию — работать во благо людей, а не ради собственного заработка.

По словам Илона, Сэм Альтман и Грег Брокман обратились. к нему в 2015 году с предложением создать открытую некоммерческую компанию. Однако сейчас, по мнению Маска, стартап полностью сосредоточен лишь на заработке денег.

Представители OpenAI отвергают все обвинения, а некоторые и вовсе говорят, что Илон просто расстроен своим неучастием в делах компании сейчас.

👀 Стоит отметить, что Маск — соучредитель OpenAI, но покинул совет директоров компании в 2018 году. Недавно предприниматель основал собственный ИИ-стартап xAI.
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔53👍2😁1
Вам дали список чисел. Напишите функцию, которая вернёт выбросы

Выброс — это результат измерения, выделяющийся из общей выборки. Простейшие способы определения выбросов основаны на манипуляциях с межквартильным расстоянием. Рассмотрим такой алгоритм:

✔️ Вычислим квартили.
Так мы получим Q1 (первый квартиль) и Q3 (третий квартиль). Тогда IQR — это размах между первым и третьим квартилями (Q3 - Q1).
✔️ Определим выбросы.
Как правило, выбросами считаются точки данных, которые находятся ниже Q1 - 1.5 * IQR или выше Q3 + 1.5 * IQR.

Вот пример функции, реализующей такой алгоритм:
import numpy as np

def find_outliers(data):
sorted_data = sorted(data)

Q1 = np.percentile(sorted_data, 25)
Q3 = np.percentile(sorted_data, 75)

IQR = Q3 - Q1

lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

outliers = [x for x in sorted_data if x < lower_bound or x > upper_bound]

return outliers


#вопросы_с_собеседований
Please open Telegram to view this post
VIEW IN TELEGRAM
23👍14🔥41
🤖 Напоминаем, что у нас есть еженедельная email-рассылка, посвященная последним новостям и тенденциям в мире искусственного интеллекта.

В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги

👉Подписаться👈
👍1
🚀 GPTFast — библиотека для ускорения работы с моделями Transformers в 6-7 раз

Как поясняют авторы проекта, GPTFast изначально был набором методик, разработанных PyTorch Team, для ускорения инференса Llama-2-7b. Эти методики обобщили на другие модели Hugging Face.

Для того, чтобы начать работу с GPTFast, нужно:
▫️убедиться, что вы используете версию Python 3.10 или выше,
▫️ вы на устройстве Cuda,
▫️ вы настроили виртуальное окружение,
▫️ вы установили библиотеку — pip install gptfast.

🔗 Подробности — в репозитории проекта
7👍1
Обучение нейросети YandexGPT пересказу видео

На Хабре поделились рассказом, как Яндекс реализовал пересказ видео любой длины в Браузере.

В статье рассказали:
◾️ Почему для суммаризации видео не подошла дообученная статейная модель YandexGPT,
◾️ Про достоинства и недостатки подходов LoRa и Fine-tune,
◾️ С какими сложностями столкнулись при обработке длинных видео и как нашли решение.

🔗 Ссылка
🔥62
🧠 Знания — сила! Что должен изучить каждый программист?

Мы запускаем опрос среди наших читателей, чтобы выяснить, какие ключевые компетенции необходимо развивать программисту на текущий момент. Какие направления стоит изучать в первую очередь? Уровень каких знаний влияет на зарплату в отрасли?

Мы проанализируем ваши ответы и составим ТОП-лист навыков, которые не помешает освоить каждому программисту и разработчику для успешного карьерного роста!

👉 Пройти опрос
🧠 Лучше GPT-4? Представлено новое поколение моделей Claude

Компания Anthropic выпустила линейку моделей Claude 3: Claude 3 Haiku, Claude 3 Sonnet и Claude 3 Opus. Opus и Sonnet уже доступны для использования на сайте claude.ai и через Claude API. Haiku добавят чуть позже.

Разработчики утверждают, что лучшая модель Opus превосходит другие LLM в ряде задач и демонстрирует почти человеческий уровень понимания и скорости в сложных задачах. Кроме того, модели Claude 3 могут обрабатывать картинки и графики.

▶️ Напомним, что компанию Anthropic основали бывшие сотрудники OpenAI. Пока неясно, каковы реальные возможности Claude 3. Модели следует тестировать.

🔗 Попробовать модели можно здесь
7👍1
💬📊 Какую библиотеку для построения графиков вы используете чаще всего?

❤️ — Matplotlib
👍 — Seaborn
🔥 — Plotly
👾 — ggplot2

#интерактив
98👍57🔥27👾72😁1🤩1
Хардкорный курс по математике для тех, кто правда любит математику!

Начать с вводных занятий можно здесь, ответив всего на 4 вопроса – https://proglib.io/w/100f1763

Что вас ждет:

– Вводный урок от CPO курса

– Лекции с преподавателями ВМК МГУ по темам: теория множеств, непрерывность функции, основные формулы комбинаторики, матрицы и операции над ними, градиентный спуск

– Практические задания для закрепления материала и ссылки на дополнительные материалы.

⚡️ Переходите и начинайте учиться уже сегодня – https://proglib.io/w/100f1763
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
👓 Анализ более 300 соревнований по ML: что люди используют для победы

Реддитор создал сайт со списком соревнований по машинному обучению, собранных с разных платформ, и провёл детальный анализ тех, что проводились в 2023 году. Вот основные выводы автора:

🐍 Большинство победителей соревований использовали Python. Лишь один написал код на C++ для решения оптимизационной проблемы, а другой — на R для анализа временных рядов.
🦾 92% решений по глубокому обучению были написаны на PyTorch. TensorFlow использовали только 8% участников. Около 20% победителей соревнований, применивших PyTorch, выбрали PyTorch Lightning.
👀 В соревнованиях по компьютерному зрению модели на базе CNN (свёрточных нейронок) побеждали чаще, чем модели на базе Transformer.
👅 Люди начали активно использовать генеративные LLM. Их применяют для создания синтетических обучающих данных, классификации и др.
🏆 Одними из самых популярных алгоритмов по-прежнему остаются LightGBM, XGBoost, и CatBoost.
👍22❤‍🔥8🥱42👏2
🐍🗺️ Геокодирование для Data Scientists: вводное руководство с примерами

Может возникнуть ситуация, когда набор данных содержит адрес, но широта и долгота отсутствуют. В этом случае первым шагом для дополнения данных будет добавление этой пары координат. Этот процесс преобразования адреса в широту и долготу называется геокодированием.

В новой статье разбираем три различных способа геокодирования с помощью Geopy.

🔗 Читать статью
🔗 Зеркало
👍102
🔍Представлен новый поисковик по данным — Dateno

🌍 Платформа позволяет найти открытые данные и статистику со всего мира. Можно выбрать страну происхождения данных, тематику, язык, формат, лицензию и др.

👍 Сейчас в Dateno насчитывается 10 миллионов наборов данных из 4.9 тысячи каталогов. До конца 2024 года планируют достигнуть 30 миллионов наборов данных.

⚠️ Пока платформа работает в бета-режиме. Могут встречаться ошибки, дубликаты, проблемы с метаданными. Однако сайт уже работает и им можно пользоваться. Кроме того, у проекта есть API и скоро оно станет открытым.

🔗 Ссылка на Dateno
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥91
🐍 Итоги недели в мире Python и обзоры новых инструментов

У нас есть еженедельная рассылка о последних открытиях и тенденциях в мире Python. Мы опубликовали новый выпуск на 📰.

Ниже — небольшая часть выпуска, а целиком читайте здесь 👈

9️⃣типичных для новичков ошибок
Автор статьи показывает лучшие практики написания кода на Python. Он также даёт ссылку на другой детальный разбор ошибок, которые часто делают джуны.

🎓 Туториалы

▫️Распознавание изображений для начинающих на наборе данных CIFAR-10 с помощью Numpy, PIL, os, TensorFlow и Taipy.
▫️Распознавание автомобильных номеров для продвинутых

🔥 Интересные проекты

▫️AlphaCodium — инструмент на базе LLM, предназначенный специально для решения задач по программированию.
▫️Langroid – продвинутый фреймворк для создания ИИ-агентов.
Please open Telegram to view this post
VIEW IN TELEGRAM
😁6👍42
🤖🔮 GPT-5: как новый релиз от OpenAI изменит ИИ-технологии

GPT-4 в своё время заворожила весь мир, показав высокий уровень качества генерации текстов. Хоть она вышла и не так давно — в марте 2023-го, люди уже ждут новое поколение модели. CEO OpenAI Сэм Альтман даже подтвердил журналистам, что работа над GPT-5 ведётся. В новой статье мы изучили всю имеющуюся на данный момент информацию об этом и разобрали по пунктам, чего ждать от апгрейда GPT.

🔗 Читать статью
🔗 Зеркало
🔥3🥱3😁1🙏1