Big data world
2.35K subscribers
412 photos
64 videos
18 files
1.25K links
Интересные статьи Data Science : Big Data : Machine Learning : Deep Learning

По вопросам сотрудничества- @Daily_admin_info

По иным темам @un_ixtime
Download Telegram
🚀Усильте свои навыки работы со Spark, Hadoop и Hive!

Ждем дата-инженеров на новом потоке онлайн-курса «Spark Developer» от OTUS.

📚За 4 месяца живых лекций от ведущих экспертов вы научитесь писать распределенные приложения, работать с потоками данных, оптимизировать приложения и решать многие другие задачи обработки данных.

🔥В качестве выпускного проекта вы построите собственную ETL-систему на основе Hadoop.

Пройдите вступительный тест и присоединяйтесь к группе по специальной цене!

👉🏻ПРОЙТИ ТЕСТ: https://otus.pw/JlCO/
👍1
95 проектов по науке о данных, которые вы можете попробовать с Python
__________________________________
Ниже приведен список проектов Data Science с Python, которые вы можете попробовать как новичок. Каждый из приведенных ниже проектов решен и объяснен с использованием Python:

Список
9 бесплатных курсов Гарварда для изучения науки о данных в 2022 году
_______________
Изучайте программирование Python, статистику и машинное обучение онлайн в одном из лучших университетов мира.
https://shly.link/3Z6Fa
👍4
Присоединяйтесь к бесплатному онлайн-интенсиву по программированию, изучите универсальный язык С++ и создайте свой первый сервер для чатов за 3 дня 😉

Участие бесплатное! Регистрируйтесь: 👉 https://clc.to/ewm2yg

Вебинары проведёт эксперт, который программирует 17 лет, ведущий методист курсов по программированию в Skillbox — Михаил Овчинников.

☝️ Вы подробно изучите основы языка C++ и сможете понимать его синтаксис, научитесь применять стандартную библиотеку и разрабатывать серверные многопоточные приложения.

🎁 После регистрации вы получите чек-лист «Что нужно знать разработчику C++ и какие есть перспективы в карьере». В конце интенсива подарим участникам электронную книгу Пола Доэрти и Джеймса Уилсона «Человек + машина» издательства МИФ.

Участвуйте, задавайте вопросы и получите сертификат на 10 тысяч рублей на любой курс Skillbox.

Присоединяйтесь к прямым эфирам с 26 по 28 мая в 21:00 по московскому времени!
Обучайте модели GPT с 18 миллиардами параметров с помощью одного графического процессора на своем персональном компьютере!

Проект с открытым исходным кодом Colossal-AI добавил новые функции!
Когда дело доходит до обучения больших моделей ИИ, люди будут думать об использовании тысяч графических процессоров, дорогих затратах на обучение, и только несколько технологических гигантов могут себе это позволить.
Теперь ПК только с одним графическим процессором может обучать GPT с 18 миллиардами параметров, а ноутбук также может обучать модель с более чем одним миллиардом параметров.
https://shly.link/mdmVE4A

GitHab
Распознавание лиц в мобильном приложении с использованием Python, Flask и Flutter
________________________________

В этом блоге мы рассмотрим, как реализовать распознавание лиц в мобильном приложении с помощью Python, Flask и Flutter . Вы можете подумать, что есть некоторые платформы, такие как ML-Kit, для обнаружения лиц, но этот блог будет полностью основан на том, как обнаруживать лица с помощью нашего собственного алгоритма машинного обучения с использованием API .

https://shly.link/TVibY
This media is not supported in your browser
VIEW IN TELEGRAM
Знание SQL — must have в сфере аналитики

На бесплатном курсе-симуляторе в Нетологии «Введение в SQL и работу с базой данных» вы  изучите основы SQL, научитесь подключаться к реляционным базам данных, делать SQL-запросы и создавать простые отчёты и аналитику. Все задания основаны на реальных кейсах из практики аналитиков. Курс подойдет всем, кто работает с данными или хочет начать.

Записаться → https://netolo.gy/inO
👍1
Математика для машинного обучения
_______________

Если вам когда-нибудь понадобится освежить в памяти математику для машинного обучения, я составил список литературы, которой регулярно пользуюсь

https://github.com/dair-ai/Mathematics-for-ML
👍7
Майские праздники прошли и настала рабочая пора!

28 мая в Штаб Квартире билайна пройдёт первый data engineering weekend offer — все этапы собеседования сразу в один день: ты расскажешь о себе, проверишь свои технические знания, узнаешь какие продукты разрабатывает билайн.

Чтобы ожидание каждого этапа не было скучным, ты сможешь пообщаться с экспертами рынка, посмотреть последние митапы сообщества и познакомиться с командой в неформальной обстановке. Ощути атмосферу билайн!

Ждём на первом data engineering weekend offer и желаем удачи!псс… у сообщества DE проходят завтраки в офисе с хот-догами и горячими сэндвичами!

Получить оффер: https://clck.ru/hGweQ
👍1
Обзор инструментов машинного обучения
Если вы хотите начать с машинного обучения и вам нужен практический учебник, который сразу переходит к кодированию: «Введение в машинное обучение» от Kaggle поможет вам создать свою первую модель!
• 8 уроков.
• 100% бесплатно.
• Требования: Python
На выполнение у вас уйдет ~3 часа.
https://www.kaggle.com/learn/intro-to-machine-learning
В России запускается очень важный проект - «Цифровая Россия». Его задача – развивать ИТ-индустрию в регионах, преодолеть цифровое неравенство и продвигать вперед всю отрасль.

Федеральным координатором проекта назначен депутат Госдумы от Пермского края Антон Немкин.

Проект объединит ИТ-специалистов: в регионах начнется формирование и развитие ИТ-сообществ, будут созданы дискуссионные площадки для обсуждения вопросов стратегического развития отрасли, законодательства и поддержки ИТ.

Еще одна задача проекта – разработка социально значимых сервисов и услуг, в том числе создание обучающих программ по кибербезопасности и работа в области криптоиндустрии и майнинга.

Все новости по развитию проекта «Цифровая Россия», его направлениях и реализации читайте в официальном канале Антона Немкина.

@ainemkin

#IT #развитиеIT #ЕР #ЕР59
💩14👍2
Трансформеры с нуля
_______________

Прежде чем мы начнем, просто предупреждение. Мы будем много говорить об умножении матриц и коснемся обратного распространения (алгоритм обучения модели), но вам не нужно ничего знать заранее. Мы будем добавлять нужные понятия по одному с объяснением.

Это не короткое путешествие, но я надеюсь, вы будете рады, что пришли.

https://shly.link/yfrcM
👍1
Все визуализации данных в науке о данных с использованием Python
_______________

Визуализация данных — один из самых ценных навыков, которым должен обладать каждый специалист по данным и аналитик. В науке о данных нужно изучить множество визуализаций данных. Так что, если вы новичок в науке о данных и хотите изучить и попрактиковаться в визуализации данных с помощью Python, эта статья для вас. В этой статье я познакомлю вас со списком руководств по всем визуализациям данных в науке о данных с использованием Python.
https://shly.link/QsS1R
Imagen: новейшая модель преобразования текста в изображение от Google Brain!
_______________

https://shly.link/ghXrqN
Погрузитесь в мир системного администрирования. Получите базовые навыки специалиста на бесплатном онлайн-интенсиве Skillbox с 30 мая по 1 июня в 21:00 по московскому времени

Успейте зарегистрироваться — количество мест ограничено: 🔜 https://clc.to/l38_Eg

Кому подойдёт

📌 Всем, кто хочет освоить востребованную профессию.
Познакомитесь с работой системного администратора, интерфейсом и возможностями Linux.

📌 Студентам и выпускникам технических вузов.
Получите базовые навыки системного администрирования, добавите проект в портфолио и сделаете первый шаг к карьере в этом направлении.

📌 Junior-программистам, которые хотят сменить специализацию.
Научитесь работать с Linux Desktop, настраивать Apache и MySQL, запускать PHP-приложения. Попрактикуетесь в администрировании Linux.

🎁 Всем, кто дойдёт до конца интенсива, — электронная книга Пола Доэрти и Джеймса Уилсона «Человек + машина» издательства МИФ. Присоединяйтесь, задавайте вопросы и получите сертификат на 10 тысяч рублей на любой курс Skillbox.
MLOps: как внедрить систему рекомендаций по продуктам для электронной коммерции
_______________

Я считаю, что большинство, если не все платформы электронной коммерции собирают данные о посещениях пользователей, которые в основном представляют собой простую таблицу, состоящую из 3 столбцов: session_id, product_id и timestamp. На самом деле, эта таблица — единственные данные, которые вам нужны для создания модели рекомендации продукта, описанной в этой статье, и для вашего бизнеса.
https://shly.link/cuzbt
Достижения в понимании, улучшении и применении контрастного обучения
_______________

За последние несколько лет контрастное обучение стало мощным методом обучения моделей машинного обучения. Это произвело революцию в изучении визуальных представлений, усилив такие методы, как SimCLR , CLIP и DALL-E 2 . Эмпирический успех этих методов вызывает вопрос: что делает контрастное обучение таким мощным? Что происходит под капотом?
https://shly.link/jmDjp
👍3