Big data world
2.35K subscribers
412 photos
64 videos
18 files
1.25K links
Интересные статьи Data Science : Big Data : Machine Learning : Deep Learning

По вопросам сотрудничества- @Daily_admin_info

По иным темам @un_ixtime
Download Telegram
Обучайте модели GPT с 18 миллиардами параметров с помощью одного графического процессора на своем персональном компьютере!

Проект с открытым исходным кодом Colossal-AI добавил новые функции!
Когда дело доходит до обучения больших моделей ИИ, люди будут думать об использовании тысяч графических процессоров, дорогих затратах на обучение, и только несколько технологических гигантов могут себе это позволить.
Теперь ПК только с одним графическим процессором может обучать GPT с 18 миллиардами параметров, а ноутбук также может обучать модель с более чем одним миллиардом параметров.
https://shly.link/mdmVE4A

GitHab
Распознавание лиц в мобильном приложении с использованием Python, Flask и Flutter
________________________________

В этом блоге мы рассмотрим, как реализовать распознавание лиц в мобильном приложении с помощью Python, Flask и Flutter . Вы можете подумать, что есть некоторые платформы, такие как ML-Kit, для обнаружения лиц, но этот блог будет полностью основан на том, как обнаруживать лица с помощью нашего собственного алгоритма машинного обучения с использованием API .

https://shly.link/TVibY
This media is not supported in your browser
VIEW IN TELEGRAM
Знание SQL — must have в сфере аналитики

На бесплатном курсе-симуляторе в Нетологии «Введение в SQL и работу с базой данных» вы  изучите основы SQL, научитесь подключаться к реляционным базам данных, делать SQL-запросы и создавать простые отчёты и аналитику. Все задания основаны на реальных кейсах из практики аналитиков. Курс подойдет всем, кто работает с данными или хочет начать.

Записаться → https://netolo.gy/inO
👍1
Математика для машинного обучения
_______________

Если вам когда-нибудь понадобится освежить в памяти математику для машинного обучения, я составил список литературы, которой регулярно пользуюсь

https://github.com/dair-ai/Mathematics-for-ML
👍7
Майские праздники прошли и настала рабочая пора!

28 мая в Штаб Квартире билайна пройдёт первый data engineering weekend offer — все этапы собеседования сразу в один день: ты расскажешь о себе, проверишь свои технические знания, узнаешь какие продукты разрабатывает билайн.

Чтобы ожидание каждого этапа не было скучным, ты сможешь пообщаться с экспертами рынка, посмотреть последние митапы сообщества и познакомиться с командой в неформальной обстановке. Ощути атмосферу билайн!

Ждём на первом data engineering weekend offer и желаем удачи!псс… у сообщества DE проходят завтраки в офисе с хот-догами и горячими сэндвичами!

Получить оффер: https://clck.ru/hGweQ
👍1
Обзор инструментов машинного обучения
Если вы хотите начать с машинного обучения и вам нужен практический учебник, который сразу переходит к кодированию: «Введение в машинное обучение» от Kaggle поможет вам создать свою первую модель!
• 8 уроков.
• 100% бесплатно.
• Требования: Python
На выполнение у вас уйдет ~3 часа.
https://www.kaggle.com/learn/intro-to-machine-learning
В России запускается очень важный проект - «Цифровая Россия». Его задача – развивать ИТ-индустрию в регионах, преодолеть цифровое неравенство и продвигать вперед всю отрасль.

Федеральным координатором проекта назначен депутат Госдумы от Пермского края Антон Немкин.

Проект объединит ИТ-специалистов: в регионах начнется формирование и развитие ИТ-сообществ, будут созданы дискуссионные площадки для обсуждения вопросов стратегического развития отрасли, законодательства и поддержки ИТ.

Еще одна задача проекта – разработка социально значимых сервисов и услуг, в том числе создание обучающих программ по кибербезопасности и работа в области криптоиндустрии и майнинга.

Все новости по развитию проекта «Цифровая Россия», его направлениях и реализации читайте в официальном канале Антона Немкина.

@ainemkin

#IT #развитиеIT #ЕР #ЕР59
💩14👍2
Трансформеры с нуля
_______________

Прежде чем мы начнем, просто предупреждение. Мы будем много говорить об умножении матриц и коснемся обратного распространения (алгоритм обучения модели), но вам не нужно ничего знать заранее. Мы будем добавлять нужные понятия по одному с объяснением.

Это не короткое путешествие, но я надеюсь, вы будете рады, что пришли.

https://shly.link/yfrcM
👍1
Все визуализации данных в науке о данных с использованием Python
_______________

Визуализация данных — один из самых ценных навыков, которым должен обладать каждый специалист по данным и аналитик. В науке о данных нужно изучить множество визуализаций данных. Так что, если вы новичок в науке о данных и хотите изучить и попрактиковаться в визуализации данных с помощью Python, эта статья для вас. В этой статье я познакомлю вас со списком руководств по всем визуализациям данных в науке о данных с использованием Python.
https://shly.link/QsS1R
Imagen: новейшая модель преобразования текста в изображение от Google Brain!
_______________

https://shly.link/ghXrqN
Погрузитесь в мир системного администрирования. Получите базовые навыки специалиста на бесплатном онлайн-интенсиве Skillbox с 30 мая по 1 июня в 21:00 по московскому времени

Успейте зарегистрироваться — количество мест ограничено: 🔜 https://clc.to/l38_Eg

Кому подойдёт

📌 Всем, кто хочет освоить востребованную профессию.
Познакомитесь с работой системного администратора, интерфейсом и возможностями Linux.

📌 Студентам и выпускникам технических вузов.
Получите базовые навыки системного администрирования, добавите проект в портфолио и сделаете первый шаг к карьере в этом направлении.

📌 Junior-программистам, которые хотят сменить специализацию.
Научитесь работать с Linux Desktop, настраивать Apache и MySQL, запускать PHP-приложения. Попрактикуетесь в администрировании Linux.

🎁 Всем, кто дойдёт до конца интенсива, — электронная книга Пола Доэрти и Джеймса Уилсона «Человек + машина» издательства МИФ. Присоединяйтесь, задавайте вопросы и получите сертификат на 10 тысяч рублей на любой курс Skillbox.
MLOps: как внедрить систему рекомендаций по продуктам для электронной коммерции
_______________

Я считаю, что большинство, если не все платформы электронной коммерции собирают данные о посещениях пользователей, которые в основном представляют собой простую таблицу, состоящую из 3 столбцов: session_id, product_id и timestamp. На самом деле, эта таблица — единственные данные, которые вам нужны для создания модели рекомендации продукта, описанной в этой статье, и для вашего бизнеса.
https://shly.link/cuzbt
Достижения в понимании, улучшении и применении контрастного обучения
_______________

За последние несколько лет контрастное обучение стало мощным методом обучения моделей машинного обучения. Это произвело революцию в изучении визуальных представлений, усилив такие методы, как SimCLR , CLIP и DALL-E 2 . Эмпирический успех этих методов вызывает вопрос: что делает контрастное обучение таким мощным? Что происходит под капотом?
https://shly.link/jmDjp
👍3
Лучшие общедоступные наборы данных для машинного обучения и науки о данных
_______________

https://shly.link/B7rfb
🔥Как изменится Spark и работа дата-инженера в новых реалиях?

📅Приглашаем 14 июня в 20:00 мск на бесплатный вебинар «Дата инженер и Spark в новых реалиях»

📚На вебинаре мы ответим на вопросы:
✔️ Как изменятся источники и получатели данных, объемы данных, языки для ETL, кластера, облака и IDE?
✔️ Насколько будет востребован дата-инженера на рынке и к чему нужно быть готовым?

💎А также обсудим open source технологии и примеры миграционных проектов.

👉🏻Регистрация на вебинар: https://otus.pw/KCWHU/
👍2
Если вы планируете заняться машинным обучением , изучая математику, вам следует начать с этого: https://shly.link/kFWYR
Узнайте об удивительном происхождении многих основополагающих алгоритмов машинного обучения здесь. Многие алгоритмы были изобретены задолго до появления цифровых компьютеров. Я также нашел увлекательным первое применение логистической регрессии, K-средних и других алгоритмов!
https://shly.link/jbcBA
👍1
Фотореалистичные модели ИИ
_______________

В последнее время мы наблюдаем большой интерес к разработке генеративных моделей, направленных на улучшение фотореализма. Некоторые из последних методов включают VQ-GAN+CLIP, модели скрытой диффузии, DALL-E 2 и другие. Одной из проблем, связанных с этими системами, является создание высококачественных и более реалистичных изображений.

Imagen — это фотореалистичная модель преобразования текста в изображение, основанная на возможностях понимания языка больших языковых моделей преобразования и моделей распространения для создания изображений с высокой точностью.
Paper, Results & Code