Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.8K subscribers
2.25K photos
111 videos
64 files
4.65K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
🤖Итоги недели в мире ИИ и обзоры новых сервисов

У нас вышла новая статья на 📰 по мотивам еженедельной рассылки про последние новости и тенденции в мире ИИ.

Ниже — небольшая выдержка из статьи, а целиком читайте здесь 👈

💬 Новости

🔘Гендиректор Zoom Эрик Юань считает, что в ближайшее время отпадет необходимость в личном участии в видеосозвонах — вместо людей этим будут заниматься ИИ-аватары.

🔘Fable Studio запускает платформу для генерации анимационных сериалов — Showrunner. Все шоу генерируются симулятором Sim Francisco по текстовым промптам, в различных стилях.

🔘Stability AI выпустила опенсорсную модель Stable Audio Open для генерации сэмплов и звуковых эффектов.

🛠 Инструменты

🔘Rosebud AI Gamemaker — приложение для создания игр.

🔘Harpa AI — браузерное расширение для всестороннего использования возможностей ИИ-агентов: от автоматической суммаризации видео и генерации иллюстраций до написания ответов на письма и чата с сайтами.

🔘DiffusionHub — облачный сервис для генерации изображений и видео с помощью Stable Diffusion.

🔍Исследование

Исследователи из Стэнфордского университета разработали нейронную сеть TDANN, которая имитирует организацию и отклики визуальной системы человеческого мозга. TDANN воспроизводит сложные пространственные структуры и карты, которые наблюдаются в разных областях зрительной коры.

Вы можете подписаться на email-рассылку здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
🤩1
👾 Как устроена YOLO

YOLO — это одна из самых известных архитектур в области компьютерного зрения. К сегодняшнему дню вышло уже 10 её версий. Давайте посмотрим, с чего всё начиналось.

🔸YOLO расшифровывается как You Only Look Once. Её авторы хотели создать модель, которая смогла бы быстро и достаточно хорошо решать задачу детекции. Чтобы достичь цели, нужно было отказаться от каких-либо предварительных стадий. Модель должна была сразу предсказывать ограничивающие боксы и классы.

Авторы предложили следующую архитектуру👆. Модель состоит из 24-х свёрточных и двух полносвязных слоёв. Первые 20 слоёв предобучены на ImageNet 1000-class. Последние выполняют задачу детекции. Для каждой условной части изображения YOLO будет предсказывать целый вектор фичей, внутри которого будет описание ограничивающих боксов и набор вероятностей классов.

Конечно, с момента выпуска первой версии архитектура претерпела изменения — постоянно улучшались точность и скорость. О последней YOLOv10 можно почитать в этой статье.
👍6
🐍🎓 5 задач для подготовки к собеседованию по Python

В новой статье используем алгоритмы Манакера и заметающей прямой, определяем границы окна с k-элементами, вычисляем площадь участков разного цвета и находим наибольшую увеличивающуюся подпоследовательность.

🔗 Читать статью
🔗 Зеркало
А как выглядит ваше общение с заказчиками?
😁169👍1
Хардкорный курс по математике для тех, кто правда любит математику!

Начать с вводных занятий можно здесь, ответив всего на 4 вопроса – https://proglib.io/w/584771bd

Что вас ждет:

– Вводный урок от CPO курса

– Лекции с преподавателями ВМК МГУ по темам: теория множеств, непрерывность функции, основные формулы комбинаторики, матрицы и операции над ними, градиентный спуск

– Практические задания для закрепления материала и ссылки на дополнительные материалы.

⚡️ Переходите и начинайте учиться уже сегодня – https://proglib.io/w/584771bd
Please open Telegram to view this post
VIEW IN TELEGRAM
😁1
✍️ Гайд по Self-Supervised Learning

В отличие от обучения с учителем (supervised learning), которое требует наличия размеченных данных, self-supervised learning позволяет использовать огромные объёмы неразмеченных данных.

Этот документ представляет подробное руководство по этому типу обучения:

▪️рассказывает о различных методах и подходах;
▪️включает практические советы по настройке гиперпараметров, выбору архитектур и оптимизаторов;
▪️рассказывает о применении self-supervised learning к различным типам данных, в том числе видео, аудио и временным рядам.

🔗 Ссылка на гайд
👍4👾2
Свежий #дайджест по Data Science и машинному обучению

✍️ Простые способы ускорения обучения PyTorch-моделей
В новой статье на «Хабре» рассказывается о контейнеризации, профилировщике PyTorch, распределителе памяти, оптимизации обучения в системах с несколькими GPU и с избыточностью данных и др.

✍️ Руководство по разработке приложений с использованием LLM
Это хороший пост, объясняющий как запускать локальные LLM, а также раскрывающий все сопутствующие термины.

✍️ Как делать аннотации к графикам с помощью Matplotlib и Python
Короткая статья для новичков.

✍️ Большое тестирование видеокарт для машинного обучения
Новая статья на «Хабре» посвящена тестированию видеокарт для задач машинного обучения. Автор рассматривает различные видеокарты, их производительность, стоимость и эффективность в задачах обучения и инференса.

✍️ Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art LLM
В этой статье авторы рассказали, что LLM не способны решить простую загадку.
🤩1
🐍🏗️ Основы архитектуры для джунов: построение масштабируемых и чистых приложений на Python

Когда речь идёт о создании масштабируемых и поддерживаемых приложений, понимание таких важных понятий, как принципы чистого кода, архитектурные паттерны и SOLID практики проектирования, имеет решающее значение. Они позволяют сохранить ясность кодовой базы и возможность её сопровождения по мере роста проектов.

О том, как реализовать эти принципы в Python, читайте в нашей новой статье.

🔗 Ссылка на статью
🔗 Зеркало
👍31👏1
🐍 Вопросы по Python с собеседований на ML-специалиста

Этот GitHub-репозиторий включает 15 вопросов с упором на темы в Python, касающиеся анализа данных и машинного обучения. Вот некоторые:

▪️Как Python управляет памятью?
▪️Что такое декораторы? Приведите пример?
▪️Назовите Python-библиотеки, наиболее используемые в машинном обучении.
▪️Расскажите подробнее про NumPy.
▪️Дайте краткий обзор Pandas.

🔗 Ссылка на репозиторий
🤩5👍31
13 ресурсов, чтобы выучить математику

Некоторые разработчики утверждают, что математика не обязательна, в то время как другие считают, что без её фундаментальных знаний невозможно стать программистом. Если вас мучает ее математическое незнание, то скорее читайте нашу статью.

🔗 Статья

Чтобы лучше разбираться в математике, прикрепляем наш курс:
🔵 Математика для Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
3
✍️ Что вы знаете про N-грамные языковые модели?

N-грам (n-gram) языковые модели — это статистические модели, которые предсказывают следующее слово после N-1 слов, основываясь на вероятности их сочетания. Сам по себе N-gram представляет собой последовательность из определённого количества слов. Например, если речь идёт о двух словах, то мы использует биграмы. В такой модели вероятность каждого слова зависит только от предыдущего слова.

Эти модели часто используются в задачах обработки естественного языка (NLP), в том числе в автозаполнении текста, проверке орфографии, машинном переводе. Чем больше значение N, тем точнее модель может предсказывать контекст, но при этом растут вычислительные затраты и требуется больше данных для обучения.

#вопросы_с_собеседований
👍101
Forwarded from Библиотека программиста | программирование, кодинг, разработка
😌 5 техник для снятия стресса на работе

Чувствуете, что стресс мешает вашему рабочему процессу? Не отчаивайтесь! Мы подготовили для вас пять простых и доступных техник, которые помогут справиться с ним.

🔗 Читать статью
🔗 Зеркало
👍8
🚀 Вышел NumPy 2.0.0

Это первый значительный релиз библиотеки с 2006 года. Из главных новведений:

▫️оптимизации производительности,
▫️изменения в ABI, Python API и C-API, нарушающие обратную совместимость,
▫️введено сохранение точности скалярных выражений, например, np.float32(3) + 3 теперь вернёт значение с типом float32, а не float64. Если же в выражении несколько типов, то для результата будет использован тип с наивысшей точностью. Так np.array([3], dtype=np.float32) + np.float64(3) вернёт значение с типом float64.

🔗 Подробности по этой ссылке
🔥12😁4👍3
✍️ Метрики оценки качества моделей и анализ ошибок в машинном обучении. Подробное руководство

Эту статью на «Хабре» можно использовать в качестве шпаргалки по метрикам. Охватывает:

▫️bias-variance decomposition для анализа ошибок моделей.
▫️точность, precision, recall, F1-score.
▫️ROC-AUC.

🔗 Ссылка на статью
🎉8
🗣️ «Иногда решение не в изменении системы, а в изменении отношения заказчика». Интервью с системным аналитиком

Системный аналитик Ярослав Атрохов рассказал нам об особенностях работы с заказчиками, многозадачности, сложностях профессии и важности команды.

Обновлённую статью можно прочесть по этой ссылке👈
1
🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
📊«Мои мысли о Python in Excel»

На «Хабре» опубликовали перевод поста автора книги O’Reilly Python for Excel. Он протестировал Python in Excel — новую функцию Microsoft, которая позволяет писать Python-код прямо в Excel.

Вот вкратце выводы разработчика:

▪️С новой функцией мы получили альтернативу языку формул Excel;
▪️Интеграция ячеек ноутбуков Jupyter внутри сетки Excel была ошибочным решением;
▪️Python in Excel не подходит ни для новичков в Python, ни для интерактивного анализа данных;
▪️На данный момент у функции слишком много ограничений (невозможно использовать собственные пакеты и нельзя подключаться к веб-API);

🔗 Читать статью целиком
5👍2
👪 Истоки линейной регрессии и загадка её названия

Линейную регрессию принято изучать одной из первых, когда речь заходит про машинное обучение. Однако эта модель полностью статистическая и появилась в науке давным-давно. 

🔹Регрессия пришла к нам из работ Сэра Фрэнсиса Гальтона, английского исследователя (а ещё основоположника учения евгеники), жившего в 19 веке. В ходе изысканий он обнаружил следующий феномен: «размер потомков не стремится к размеру родительских особей; он всегда стремится к среднему значению — становится меньше, если родители были большими, и больше, если родители были очень маленькими». 

Сначала Гальтон назвал это явление реверсией. Однако вскоре стало ясно, что происходит нечто иное, чем однонаправленный генетический процесс. Гальтон проанализировал взаимосвязь роста 930 детей со средним ростом их родителей и пришёл к выводу, что средний рост для тех и для других равен примерно 68,2 дюймам (173 см). Затем он рассмотрел ситуацию, в которой средний рост родителей находился в промежутке от 70 до 71 дюйма, а значит рост их детей соответствовал приблизительно 69,5 дюймам. Это означало, что рост детей отличался от среднего роста всех детей на меньшую величину, чем рост их родителей от среднего роста всех родителей. То есть происходила регрессия показателя. Отсюда, собственно, и пошёл известный нам термин.
👏16🔥5🥰21
👾 Сооснователь OpenAI запустил новую компанию — Safe Superintelligence Inc. (SSI)

Об этом Илья Суцкевер сообщил в X. В программном заявлении компании говорится, что «создание безопасного сверхинтеллекта — важнейшая техническая задача современности». И именно этим займутся в SSI.

Компания открыла офисы в Пало-Альто (Калифорния, США) и Тель-Авиве (Израиль). Сейчас она находится в поиске талантов.
🌚7