Big Data AI
16.8K subscribers
812 photos
97 videos
19 files
819 links
@haarrp - админ

Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям

@data_analysis_ml - анализ данных

@ai_machinelearning_big_data

@itchannels_telegram - важное для программиста

РКН: clck.ru/3Fmqxe
Download Telegram
30802543.pdf
337.8 KB
Большая Шпаргалка по pandas, библиотеке на языке Python для обработки и анализа данных
🔥9👍1
🔥 Большой список сайтов с практическимим задачами для программистов.

Codeforces — платформа для алгоритмических соревнований. Проводит контесты и раунды с 5 задачами на 2 часа. Есть система рейтинга и два дивизиона. Задачи можно решать и проверять после соревнования. Также есть доступ к тренировкам с задачами с прошлых соревнований.

HackerRank - сайт будет больше интересен продвинутым программистам, которые уже многое умеют. На этом сайте собрано множество задач на самые разные разделы Computer Science: традиционная алгоритмика, ИИ, машинное обучение и т.д. Если вы решите много задач, то вами могут заинтересоваться работодатели, регуляторно мониторящие эту платформу.

Codewars — популярный cборник задач на разные темы, от алгоритмов до шаблонов проектирования.

LeetCode — известный сайт с задачами для подготовки к собеседованиям. Можно пообщаться и посмотреть решения других программистов.

Timus Online Judge — русскоязычная (хотя английский язык также поддерживается) платформа, на которой более тысячи задач удачно отсортированы по темам и по сложности.

TopCoder - популярная американская платформа. Она проводит алгоритмические контесты, а также соревнования по промышленному программированию и марафоны, где задачи требуют исследования и нет единого верного алгоритма. Участникам даются недели на решение таких задач.

informatics.mccme.ru - платформа с теоретическим материалом и задачами, удобно разделенными по категориям. Большая база задач с олимпиад школьников также доступна.

SPOJ - большой англоязычный сайт с 20000+ задачами на разные темы: DP, графы, структуры данных и др. Иногда проводят неинтересные контесты, если не из страны их проведения.

CodeChef — менее крупный аналог Codeforces и TopCoder, тоже с огромным архивом задач и регулярными контестами.

Project Euler - сборник 500 задач, проверяющих знание математических алгоритмов. Часто используется на собеседованиях, чтобы оценить алгоритмическую подготовку кандидата.

Kaggle - соревнования по анализу данных.

Golang tests - канал с тестами по Go

CodinGame - сайт для программистов и геймеров, предлагающий большую коллекцию видеоигр, оформленных в виде задач на программирование.

Al Zimmermann’s Programming Contests — платформа, на которой регулярно проводятся контесты с задачами на исследование и оптимизацию. Интересен тем, что писать программу необязательно — даются только тестовые данные. Ответы можно расчитывать вручную, или просто гадать их на кофейной гуще.

Programming Praxis — сайт, где можно найти много интересных задач.

CheckIO — сайт с задачами для программистов всех уровней, который вы проходите в виде игры.

Ruby Quiz — сайт с задачами для программистов на Ruby, но решения можно писать и на других языках.

Prolog Problems — Подборка задач для программистов, использующих Prolog.

Сборник задач от СppStudio - задачи на С++, но их можно и на других языках.

Operation Go — практика написания кода на Go в форме браузерной игры.

Empire of Code — сайт для программистов, где необходимо писать код, реализующий стратегию и тактику виртуальных бойцов.

https://t.iss.one/bigdatai
7👍6🔥2
Шпаргалка по Matplotlib

Matplotlib — библиотека на языке программирования Python для визуализации данных двумерной и трёхмерной графикой.
👍13🔥2
🖥 Полезные приемы с кодом для аналитиков данных на Python

1. Python itertools groupby удобный способ группировки - https://www.youtube.com/watch?v=Rt1gl4fM62k

2. Полезные приемы в Pandas - https://www.youtube.com/watch?v=Sd2S5rXe8sY&t=165s

3. Раскройте потенциал Python Numpy: руководство для начинающих в науке о данных - https://www.youtube.com/watch?v=XX2XremQ0fg&t=12s

4. Data science c Python.Ускоряем Pandas в 120 раз- https://www.youtube.com/watch?v=-dAdaEv23vk&t=4s

5. 26 практических приёмов и хитростей Python - https://www.youtube.com/watch?v=vAMyfvtxxdQ&t=5s

6. 5 декораторов Python для Data Science проектов - https://www.youtube.com/watch?v=rxq11WHAlqU

7. ChatGPT + Midjouney на практике - https://www.youtube.com/watch?v=2gUqbc3Ikmo&t=5s

8. Разбор вопросов с собеседований Python - https://www.youtube.com/watch?v=4L1e-A3AOL4&t=5s

9. 15 полезных лайфхаков с кодом Машинного обучения на Python - https://www.youtube.com/watch?v=loOtlwcdiBA&t=4s

10. Декораторы Python, которые выведут ваш код на новый уровень - https://www.youtube.com/watch?v=qxrGAogl4iM

11. 7 инструментов Python, который должен знать каждый специалист машинного обучения - https://www.youtube.com/watch?v=RGEftBi0C9Y

12. Как загружать данные в SQL в 20 раз быстрее на Python
- https://www.youtube.com/watch?v=eyeR1uWLnpM&t=2s

13. Data Science. Полезные советы по библиотеке Pandas - https://www.youtube.com/watch?v=neXc5Q-AWXY&t=3s

14. Data Science. Полезные советы по библиотеке Pandas - https://www.youtube.com/watch?v=neXc5Q-AWXY&t=3s

15. Дзен Python ООП: лучшие практики и шаблоны проектирования Python - https://www.youtube.com/watch?v=_MtX6QFJBRU

16. Python itertools. Хитрый способ избежать вложенных циклов - https://www.youtube.com/watch?v=TSvjYKIY01I&t=3s

17. Python. Генерация списка, словаря или множества в одну строку кода - https://www.youtube.com/watch?v=zS3HePvtxVc&t=10s

18. 8 крутых способов свести функции Python в одну строку - https://www.youtube.com/watch?v=jo3Q-rMggXk

19. Python itertools.compress. Удобный способ фильтрации данных - https://www.youtube.com/watch?v=8JGHID-_ApU&t=12s

20. Python Match/Case - https://www.youtube.com/watch?v=U_-NIKbKakM

21. Data Science. Советы по написанию эффективного кода на Python - https://www.youtube.com/watch?v=1Mcy-uatp_c&t=14s

22. Numpy векторизация вместо циклов в Python - https://www.youtube.com/watch?v=c7ypD2xet0E

🎞 Все видео по анализу данных


https://t.iss.one/bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍63🔥2
📌 Как появился BARSiC и как был усовершенствован его алгоритм

На Хабре выкатили интересный материал, который посвящен совместному проекту ВКонтакте и университета ИТМО «Разработка моделей для верификации распределенных алгоритмов в системе BARSiC». В этой статье подробно описано, как в рамках этого проекта верифицировали выбранный для BARSiC алгоритм и исправили найденную в нём ошибку.

BARSiC — система управления репликацией и консенсусом в кластере ВКонтакте. Прежде всего она контролирует состав кластера, определяя, кто реплика, а кто — мастер. А при выходе мастера из строя реплики выбирают нового с непротиворечивой линейной историей.

▪️ Читать

@DevOPSitsec
👍41🔥1
📋Состояние инфраструктуры данных на 2023 год — ключевые тренды ландшафта MAD от Мэтта Терка

Основные изменения в инфраструктуре данных на 2023 год
Hadoop
Несмотря на то, что некоторые компоненты экосистемы Hadoop до сих пор используются (например, Hive), их популярность снизилась настолько, что эта экосистема больше не попадает в ландшафт индустрии данных, что также подтверждается последними статьями из разряда “Big Data is Dead”.

Data lakes стали относиться к одной категории с Lakehouse
Сюда, среди прочих, относятся следующие инструменты (где это актуально, в скобках также указаны год основания и общий объем финансирования):

Cloudera (2008, $1041 млн) — корпоративный дата-хаб, построенный на базе Apache Hadoop.
Databricks (2013, $3497 млн) — их платформа lakehouse используется для сервисов интеграции и аналитики. Эта компания ввела парадигму lakehouse и выступает лидером в этой категории.
Dremio (2015, $405 млн) — платформа аналитики данных, позволяющая компаниям запрашивать данные с любого источника и ускоряющая аналитическую обработку с помощью инструментов бизнес-аналитики, машинного обучения и клиентов SQL.
Onehouse (2021, $33 млн) — облачный управляемый сервис формата lakehouse, помогающий создавать озера данных, обрабатывать данные и владеть данными в опенсорсных форматах.
Azure Data Lake Storage  — подобный S3 сервис объектного хранилища, обычно называемый ADLS Gen 2
Azure HD Insight  — аналогичен вышеназванному сервису, но для экосистемы Hadoop.
GCP Google BigLake  — позволяет создавать таблицы BigLake в Google Cloud Storage (GCS), Amazon S3 и ADLS Gen 2 в поддерживаемых открытых форматах файлов, таких как Parquet, ORC и Avro.
GCP Google Cloud Dataproc  — аналогичен сервису выше, но для экосистемы Hadoop.
AWS Lake Formation  — упрощает управление озером данных на базе S3 с интеграцией каталога метаданных Glue, механизма запросов Athena и так далее.
AWS Amazon EMR  — аналогичен сервису выше, но для экосистемы Hadoop.

📌Продолжение

@bigdatai
👍81🔥1
Rix — поисковая система на основе ИИ, ориентированная на разработчиков

В основе инструмента лежит нейросеть, позволяющая использовать как режим веб-поиска, так и GPT-поиск.

Последний помогает получить мгновенные ответы на основе «знаний» предварительно обученных специалистов

Стоимость: #бесплатно

#ИИ #поиск #code
👍8👎21🔥1
📰 Newspaper3k: Article scraping & curation

Если вы хотите быстро извлечь значимую информацию из статьи с помощью нескольких строк кода, попробуйте воспользоваться библиотекой newspaper3k.

$ pip3 install newspaper3k

Github
Документация

@bigdatai
👍51🔥1
💻Graph of Thoughts (GoT)

Этот фреймворк дает возможность решать сложные задачи, моделируя их в виде графа операций (GoO), который автоматически выполняется с помощью большой языковой модели (LLM) в качестве движка.

pip install graph_of_thoughts

Github

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥21
🚀 Fast Vector Similarity Library

Библиотека Fast Vector Similarity предназначена для эффективного вычисления различных мер сходства между векторами.


pip install fast_vector_similarity

Github

@bigdatai
👍72🔥2
Please open Telegram to view this post
VIEW IN TELEGRAM
👍94
💪 Как обучают большие языковые модели в России

LLM — новый этап развития интеллектуальных систем, решающих задачи на естественном языке. Помимо глубокого понимания структуры языка, LLM также формируют знания о мире во время обучения на больших корпусах текста. Это выводит их на новый качественный уровень, открывая новые эмерджентные способности, такие как Few-Shot Learning и Reasoning.

Обучение подобных моделей является сложной задачей, требующей большого количества ресурсов и тонкой настройки.

Дани Эль-Айясс, исполнительный директор SberDevices, выступит с докладом и поделится опытом обучения модели GigaChat — большой языковой модели от Сбера, начиная с Pre-Train и заканчивая RLHF-пайплайном.

Послушать выступление можно будет на хардовой конференции Яндекса по машинному обучению — Practical ML Conf. 7 сентября 500 экспертов соберутся вместе, чтобы дать максимум пользы и знаний о практическом применении ML. Регистрируйтесь.

@bigdatai
👍6👎1😁1
Бесплатные сертификационные курсы для повышения ваших и навыков и карьерного роста:

1. Intro to Machine Learning
https://kaggle.com/learn/intro-to-machine-learning


2. IBM Data Science Professional Certificate
https://coursera.org/professional-certificates/ibm-data-science

3. Project Management
https://mygreatlearning.com/academy/learn-for-free/courses/project-management

4. Introduction to Front End Development
https://simplilearn.com/front-end-developer-free-course-skillup

5. Technical Writing
https://learn.saylor.org/course/view.php?id=368

6. Google Ads Search Certification
https://skillshop.exceedlms.com/student/path/18128-google-ads-search-certification

7. Inbound Marketing
https://academy.hubspot.com/courses/inbound-marketing

8. Introduction to Programming with Python
https://cs50.harvard.edu/python/2022

@bigdatai
👍43🔥1
MySQL_CheatSheet.pdf
93.7 KB
🖥 Большая MySQL с примерами работы и пояснением каждого запросы.

Запросы, типы данных, работа датами и временем, таблицы, математические функции, и еще много полезного.

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
6🔥2
🖥 Бесплатный полный курс по библиотеке Numpy

📌 Видео

bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍114🔥1🤩1🗿1
Pandas DataFrame Notes_12pages.pdf
867.9 KB
🚀 Большая шпаргалка с кодом: pandas DataFrame

bigdatai
👍73🔥3🤔2
🎙 Нейросети для скоринга: хайп или реальный инструмент?
 
Ребята из подкаста «Деньги любят техно», о котором мы уже как-то рассказывали, всё больше разгоняются в интересные темы. На этот раз они решили поговорить о нейронках в кредитном скоринге. В гости к Артёму Летину, руководителю подразделения разработки моделей для корпоративного сегмента клиентов ВТБ, и его соведущей Марине Эфендиевой пришли Евгений Смирнов, руководитель лаборатории машинного обучения Альфа-Банка, и Никита Зелинский, руководитель центра компетенций Data Science МТС.
 
Поговорили о применении ML в деятельности финансовых организаций и о том, как нейросети помогают принимать решения по кредитованию.
 
🎧Послушать можно тут.
👍1