Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.7K subscribers
2.25K photos
113 videos
64 files
4.66K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
✍️ Многослойный перцептрон в PyTorch

Автор блога AI by Hand предложил следующее упражнение: 

Вам дан шаблон кода слева и схематичное изображение многослойного перцептрона справа (см. видео, прикреплённое к посту). Нужно заполнить пробелы.

Вот шаги для заполнения👇

▪️Первый линейный слой:
Размер входных признаков — 3. Размер выходных признаков — 4. Мы видим, что размер матрицы весов составляет 4 на 3. Также есть дополнительный столбец для смещений (bias = T).

▪️Функция активации — ReLU. Мы видим эффект ReLU на первом признаке (-1 -> 0).

▪️Второй линейный слой:
Размер входных признаков — 4, что совпадает с размером выходных признаков предыдущего слоя. Размер выходных признаков — 2. Мы видим, что размер матрицы весов составляет 2 на 4. Но нет дополнительного столбца для смещений (bias = F).

▪️Функция активации — ReLU.

▪️Финальный линейный слой:
Размер входных признаков — 2, что совпадает с размером выходных признаков предыдущего слоя. Размер выходных признаков — 5. Мы видим, что размер матрицы весов составляет 5 на 2. Также есть дополнительный столбец для смещений (bias = T).

▪️Функция активации — Sigmoid. Мы видим эффект Sigmoid, который представляет собой нелинейное отображение «сырых» значений (3, 0, -2, 5, -5) к вероятностным значениям (между 0 и 1).
🥰6👍3
✍️ Слияние словарей в PyTorch: зачем нужно и подводные камни

Обучение большой сети на одной видеокарте может стать проблемной задачей. Одним из способов решить её является разбивка датасета на части и обучение одной и той же нейросети параллельно на разных устройствах. Однако затем нужно каким-то образом слить обученные нейросети в одну.

👉 О том, как это делать, можно подробнее почитать в новой статье на «Хабре»
🔥2🥰2
🪐 Satyrn — удобная альтернатива JupyterLab для macOS

▪️Инструмент бесплатный. Нужно просто скачать подходящий клиент с сайта.
▪️Запускается в отдельном окне без каких-либо дополнительных окон терминала.
▪️К работе с Jupyter Notebooks можно приступить сразу.
▪️Можно установить любое ядро, с которым вы привыкли работать.

🔗 Ссылка на сайт Satyrn
👍6
Внимание, задание:

С помощью эмодзи расскажите, чем вы занимаетесь на работе 👀

Вот пример: 🧑‍💻😭🧑‍💻

👇Ждём в комментариях👇
🔥6
📊 Kaggle за 30 минут: практическое руководство для начинающих

Начинающему дата-сайентисту необходима практика, а Kaggle решает эту проблему. Из статьи вы узнаете, как лучше всего начать работу с популярным сервисом.

🔗 Статья
👍7
💵⚡️ДАРИМ 40 000₽ ЗА ВИДЕО

Конкурс года в «Библиотеке программиста»: смонтируйте короткий вертикальный ролик формата Shorts/Reels* на тему программирования и разработки — лучший автор получит 40 тысяч рублей 🤑

Подробные условия:
➡️смонтируйте короткий смешной вертикальный ролик (можно и нужно использовать мемы)
➡️отправьте нам в бота @ProglibContest_bot
➡️лучшие ролики (по мнению редакции) мы будем выкладывать в канал и в наш инстаграм*
➡️тот, чей ролик соберет больше всего просмотров в инстаграм*, получит приз — 40 тысяч рублей

Какие ролики мы не принимаем:
😟не вашего авторства (проверим!)
😟длинные, невертикальные, несмешные

Таймлайн:
2 августа — заканчиваем принимать видео
⬇️
3 августа — начинаем загружать лучшие видео в инстаграм
⬇️
9 августа — подводим итоги

*Организация Meta признана экстремистской в РФ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍42🔥2🤔1
☄️ Подборка последних исследований из области искусственного интеллекта

Google научила ИИ решать математические задачи на уровне олимпиадника-медалиста
Компания представила две модели — AlphaProof и AlphaGeometry 2. Вместе они впервые смогли решить четыре из шести задач International Mathematical Olympiad (IMO). Это уровень участника, взявшего серебряную медаль.

📈 Вышел отчёт «Индекс зрелости корпоративного искусственного интеллекта 2024»
Как выяснилось, для многих организаций использование ИИ всё ещё находится на экспериментальной стадии. Лишь 18% опрошенных используют возможности искусственного интеллекта.

Сравнение RAG и LLM с большим контекстным окном
Хотя RAG — это довольно мощный инструмент, последние модели, такие как Gemini-1.5 и GPT-4, демонстрируют хорошие способности к пониманию длинных контекстов напрямую. В рамках исследования проводится всестороннее сравнение RAG и подобных моделей, чтобы выявить сильные стороны обоих подходов.

🦄 Исследователи из IBM предложили новый метод уменьшения галлюцинаций LLM
Авторы демонстрируют, что путём простого масштабирования вектора, который ограничивает генерацию в декодере LLM с расширенной памятью, можно добиться уменьшения галлюцинаций без необходимости обучения.
Please open Telegram to view this post
VIEW IN TELEGRAM
👏52
❤️ Как начать относиться к LLM с бОльшим пониманием?

Андрей Карпаты советует сравнить токены с эмодзи. Он считает, что это довольно близко к истине — каждый токен по сути является маленьким иероглифом, и языковая модель должна с нуля учить, что всё это значит, основываясь на статистике данных.

Так что проявите немного сочувствия в следующий раз, когда спросите у LLM, сколько букв ‘r’ в слове ‘strawberry’, потому что ваш вопрос выглядит вот так: 👩🏿‍❤️‍💋‍👨🏻🧔🏼🤾🏻‍♀️🙍‍♀️🧑‍🦼🧑🏾‍🦼🤙🏻✌🏿🈴🧙🏽‍♀️📏🙍‍♀️🧑‍🦽🧎‍♀️🍏💂


Также Карпаты поделился колаб-ноутбуком, в котором можно поиграться с этим 👈
13👍1
✍️ «Библиотека программиста» находится в поиске автора на написание книжных рецензий

Кто нужен?
● Энтузиасты (джуны и выше), которые которые разбираются в IT
● Любители книг, которые хотели бы получать деньги за чтение и написание рецензий
● Работаем с самозанятыми (компенсируем налог), ИП

Мы предлагаем частичную занятость и полностью удаленный формат работы — можно совмещать с основной и находиться в любом месте🌴

✉️ Станьте частью нашей команды — присылайте резюме и примеры работ [email protected]
👍3😁2
🤖 Может ли ИИ обрести сознание и как мы об этом узнаем?

Развитие ИИ идет невероятными темпами: то, что еще несколько месяцев назад было под силу только человеку, теперь с успехом могут делать чат-боты. Если искусственный сверхинтеллект (AGI) действительно появится в ближайшие годы, границы между способностями людей и AI и вовсе могут исчезнуть. Может ли ИИ обрести настоящее сознание, подобное человеческому? Теперь это вопрос волнует не только футурологов и писателей-фантастов, но и ведущих ученых по всему миру.

📖 Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉52
Вышел PyTorch 2.4

Что нового:

🔸 добавляет поддержку последней версии Python (3.12) для torch.compile;
🔸 улучшает производительность для проектов, работающих на CPU;
🔸 добавляет новый API для создания кастомных операторов, упрощающий интеграцию собственных ядер в PyTorch, особенно для torch.compile;
🔸 вводит по дефолту бэкэнд на основе libuv.

🔗 Ссылка на блогпост
🔗 Видео с вопросами и ответами по PyTorch 2.4
🔥10🥰43
🐛 5 признаков неопытного разработчика: как избежать типичных ошибок и ускорить профессиональный рост

Независимо от уровня теоретической подготовки, переход от обучения к реальной практике всегда сопряжен с множеством вызовов. Начинающие разработчики часто сталкиваются с рядом типичных проблем, которые могут существенно замедлить их профессиональный рост.

В этой статье мы рассмотрим наиболее распространенные проблемы, с которыми сталкиваются начинающие разработчики:

🔗 Читать статью
👍3
🤗 Техлид Hugging Face рассказал, что платформа обслуживает 6 петабайтов данных и почти миллиард запросов ежедневно!

При этом он отметил:

Искусственный интеллект только начинает развиваться🚀


По данным платформы, сейчас на Hugging Face Hub размещено более 350 тысяч моделей, 75 тысяч датасетов и 150 тысяч демопространств.
👾13👍4
👨‍🎓️ Кто есть кто в команде data science: путеводитель по профессии

О data scientist часто говорят, будто это одна профессия, хотя в науке о данных существуют и другие специализации. Расскажем, из каких направлений можно выбирать и что потребуется для их изучения.

🔗 Читать статью
3👍1
🦄 5 мифов о работе в IT, которые мешают начать карьеру программиста

Разоблачаем в нашей статье 5 распространенных мифов о карьере в IT: от замены программистов нейросетями до необходимости технического образования.

🔗 Ссылка
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1😢1🌚1
🎓 Подборка новых обучающих материалов по искусственному интеллекту

✍️ Parlance
Сайт содержит подборку видеороликов по LLM (большим языковым моделям), RAG, файн-тюнингу и промпт-инжирингу.

✍️ Data Science for Beginners
Это вводный курс от Microsoft для начинающих с видеороликами и квизами.

✍️ Слайды и код с курса по CV от Ивана Карпухина
Недавно в ВШЭ в рамках ISSCAI автор провёл серию лекций и семинаров по компьютерному зрению. По ссылке выше вы можете найти слайды, а здесь код.

✍️ Введение в мультимодальный RAG от NVIDIA
😁9🎉5👍1
💬 Какой у вас уровень английского?

😢 — Не знаю английский/элементарный уровень
👍 — Средний: немного говорю, могу смотреть и читать несложные материалы
❤️ — Высокий: читаю, смотрю сериалы и уроки, всё понимаю
👾 — Идеальный: могу работать на английском и свободно говорю
👍4528👾17😢8💯2
🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
Как стать разработчиком ML и нейронок

ML‑разработчик из команды SOICA делится своим мнением и полезными ресурсами, которые помогли ему освоить новую профессию. Он предлагает такую дорожную карту:

▪️Освоение основ программирования
▪️Изучение математики
▪️Получение базовых знаний в ML
▪️Выбор специализации
▪️Создание своего проекта

🔗 Ссылка на статью с подробностями и советами
👍2
✍️ Обширная шпаргалка по Pandas, Numpy и Python

На Kaggle есть большой ноутбук с примерами кода и пояснениями по разным темам Pandas, Numpy и Python. Вот часть содержания:

▪️типы данных в Python (списки, кортежи, словари, множества);
▪️основные методы Numpy;
▪️работа с сериями и датафреймами Pandas.

🔗 Ссылка на шпаргалку
❤‍🔥5👍5👏2