Big Data AI
16.8K subscribers
813 photos
97 videos
19 files
820 links
@haarrp - админ

Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям

@data_analysis_ml - анализ данных

@ai_machinelearning_big_data

@itchannels_telegram - важное для программиста

РКН: clck.ru/3Fmqxe
Download Telegram
📊 Matplotlib (Python) Шпарглака по визуализации

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍183🔥2
🔥 Flameshow

Flameshow - это фреймворк для визуализации визуализации процессорного времени потраченного на функции. Они могут помочь вам определить, какие синхронные операции выполняются дольше всего.

pip install flameshow

Github

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
10🔥2
Появились записи докладов с Practical ML Conf от Яндекса. Посмотрите, если пропустили живые выступления. Вот некоторые из них:

— Алексей Морозов из Яндекса рассказал про подходы, используемые в распределенном DL, чтобы обеспечить надежность системы без дополнительных затрат.

— Евгений Сидоров из Third Opinion поделился инсайтами об анализе медицинских снимков на основе множественных проекций.

— Юлий Шамаев из ВТБ рассказал про то как его команда использует геоэмбеддинги для определения оптимального расположения банкоматов и банковских отделений.

@bigdatai
4👍3🔥1
🧑‍🏫 9 лучших курсов и сертификаций по Spark.

Apache Spark — фреймворк с открытым исходным кодом для реализации распределённой обработки неструктурированных и слабоструктурированных данных, входящий в экосистему проектов Hadoop.

1. NoSQL, Big Data, and Spark Foundations Specialization

Время прохождения
– 4 месяца (если тратить 3 часа в неделю)
Кому стоит записаться?
Для новичков.

2. Distributed Computing with Spark SQL

Время прохождения – 13 часов
Кто должен записаться на курс?
Тем, кто уже имеет представление о SQL.

3. Apache Spark (TM) SQL for Data Analysts

Время прохождения – 13 часов
Кому стоит записаться на курс?
Тем, кто уже знаком с SQL.

4.Meta Spark Creator AR Certification Prep Specialization

Время прохождения – 3 месяца
Кому стоит записаться?
Тем, кто является новичком.

5. Data Analysis Using Pyspark

Время выполнения – 1,5 часа
Кому стоит записаться на курс?
Тем, кто уже знает программирование на Python.

6. Scalable Machine Learning on Big Data using Apache Spark

Время прохождения – 6 часов
Кому стоит записаться?
Тем, кто уже владеет Python, машинным обучением и базовыми знаниями SQL.

7. Big Data Analysis with Scala and Spark

Время прохождения – 27 часов
Кому стоит записаться?
Тем, у кого есть предыдущие знания программирования на любом языке.

8. Data Engineering with MS Azure Synapse Apache Spark Pools

Время прохождения – 7 часов
Кому стоит записаться на курс?
Тем, кто уже знает Python или SQL.

9. Building Machine Learning Pipelines in PySpark MLlib

Время выполнения – 1,5 часа
Кому стоит записаться?
Тем, кто знает Python и основы машинного обучения.

@bigdatai
👍10🔥31
🌠 Aplpy

Хотели ли вы когда-нибудь попробовать визуализцию астрономических данных? Вы можете сделать это и на #Python, используя пакет APLpy! 🐍🤯

git clone git://github.com/aplpy/aplpy.git APLpy

Github

@bigdatai
👍71🔥1😱1
🔥 Дайджест полезных материалов из мира Больших данных за неделю

Почитать:
Рынок BI (business intelligence) в России
Apache Spark и PySpark для аналитика. Учимся читать и понимать план запроса в SparkUI
Аналог Tableau LOD в FineBI: 15 типичных кейсов
Feature engineering и кластерный анализ клиентов на PySpark
Trabaje con sus datos en tiempo real usando Langchain
BakaLLM, part 3: it's testing time, it's testing time
Enabling Language Models to Implicitly Learn Self-Improvement
Introdução ao Aprendizado de Máquina Online
Why Python is a first choice for Data scientist
Mastering Machine Learning: Your Path to Excellence with UpSkill Certifications
Data Science for Beginners: 2023-2024 Edition
Data Science for beginners, complete roadmap.
Data Science Beginner's guide.
The Ultimate Guide to Getting a Data Scientist Job in 2023 (Even If You're a Beginner)

Посмотреть:
🌐 Разбор задачи с собеседования Data Science. Подготовка на практике ( 26:12)
🌐 Cобеседование #Python топовый банк Goldman Sachs Associate на 12000 $ #задача #программирование ( 01:00)
🌐 Решаем задачу с leetcode на #Golang ( 00:37)
🌐 Facebook задача с собеседования на #Python на 120000 рублей #программирование #задача #код ( 00:59)
🌐 Разбора задачи с собеседования #Golang ( 00:22)
🌐 Django создание модели. Вывод даных на страницу ( 13:01)
🌐 Interview: "Large Language Model Operations: The Next Frontier in MLOps" ( 59:18)
🌐 Exploring the Generative AI Landscape: From Basics to Hands-on Applications - Raghav Bali ( 32:54)
🌐 NVIDIA’s Neuralangelo AI: Gaming Anywhere on Earth! ( 05:08)
🌐 OpenAI’s ChatGPT Makes A Game For $1! ( 06:56)

Хорошего дня!

@bigdatai
9
🤖 aicollective.tools

aicollective.tools - это новый интересный проект с открытым исходным кодом, цель которого - собрать всеобъемлющую коллекцию инструментов искусственного интеллекта.

Github

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
9👍2
👀 12 лучших репозиториев GitHub по компьютерному зрению

Список из наиболее важных Awesome репозиториев GitHub, посвященных компьютерному зрению, которые охватывают широкий спектр исследовательских и образовательных тем. Огромный кладезь знаний из области CV.


1. Awesome Computer Vision
2. Computer Vision Tutorials by Roboflow
3. Transformer in Vision
4. Awesome Referring Image Segmentation
5. Awesome Vision Language Pretraining Papers
6. Awesome Vision and Language
7. Awesome Temporal Action Detection
8. Awesome Masked Autoencoders
9. Awesome Visual Transformer
10. Transformer-Based Visual Segmentation
11. CVPR 2023 Paper with Code
12. Awesome Deepfakes Detection

👍Лайк , если полезно


@bigdatai
👍262🔥2👎1
Вышел seaborn v.13.0

Обновления:
— теперь все функции принимают log_scale (логарифмическая шкала для графиков, где значения по оси y в разы больше значений по x);
— для категориальных графиков теперь по умолчанию назначается один основной цвет, пока разработчик не попросит иное;
— функции графиков теперь принимают параметр, позволяющий подавить / развернуть легенду;
И другое

Релиз

@bigdatai
👍94🔥2
👨‍🎓 Stanford XCS224U: Понимание естественного языка, 2023 г.

Отличные лекции по пониманию естественного языка. Курс охватывает широкий спектр тем, включая адаптацию домена для контролируемого понимания, поиск с дополненным контекстным обучением, техники/методы NLP и т.д...

Видеозаписи лекций: https://youtube.com/playlist?list=PLoROMvodv4rOwvldxftJTmoR3kRcWkJBp

GitHub: https://github.com/cgpotts/cs224u/

Сайт: https://web.stanford.edu/class/cs224u/index.html

@bigdatai
👍142🔥1
🔥 Дайджест полезных материалов из мира Больших данных за неделю

Почитать:
Каталог данных — почему без него непросто и как всё организовать с максимальной пользой
Эконометрическое моделирование трафика: зачем мы изучали влияние дождя и времени года на посещаемость магазинов
Сравнение методов веб-скрепинга для данных Википедии: Beautiful Soup против WikipediaAPI
Главное из книги Fundamentals of Data engineering — фундаментального труда о дата-инжиниринге
Введение в библиотеку Diffusers и диффузионные модели
Проблематика Open Source: профиль риска, лицензирование, как выбирать продукт и подход к разработке решений
Применение нейросетевых подходов для формирования признаков в моделях
О точности вычислений: как не потерять данные в цифровом шуме
Рынок BI (Business intelligence) систем в России. Как рисуют рейтинги платформам?
Milvus Adventures | October 13, 2023
Exploratory Data Analysis with Data Visualization Techniques
BakaLLM, p5: one stomp forward
👋 Devlog 12.10.23
Machine learning use cases: making the world a better place 🦾
Why kNN doesn't scale...
AI Augmented Intelligence: The Fusion Of Human And Machine Artistry
🎉 My daily Devlog
What Technologies are used to Build an AI Image generator? What is GAN Architecture?
Benefits and Challenges of AIoT

Посмотреть:
🌐 Chatgpt, Bard , Claude, Theb - используй API лучших нейросетей бесплатно и без ВПН на Python. ( 05:23)
🌐 NLP практика. Определяем тональность текста при помощи NLTK и DL ( 19:37)
🌐 Django шаблонизация и маршрутизация ( 09:11)
🌐 Задача, которая очень часто встречается на собеседованиях #python ( 00:59)
🌐 Решение непростой задачи с Leetcode, часто всплывает на собеседования #pythontutorial ( 00:59)
🌐 Хитрая задача с собеседования #Python ( 00:59)
🌐 Lightning Interview "The Storied History of Video Games and AI" ( 46:35)
🌐 Accelerate your AI/ML Initiatives and Deliver Business Value Quickly ( 33:08)
🌐 Leveraging Generative AI in Education - A M Aditya ( 31:24)
🌐 Unreal Engine 5.3 - Next Level Tech Is Coming! ( 06:17)
🌐 Google’s New AI Watched 2,500 Videos! But Why? ( 05:52)

Хорошего дня!

@bigdatai
👍101🔥1
🔥 ArXiv ChatGuru: Exploring Conversational Scientific Literature 📖

Используйте ArXiv ChatGuru для общения с авторами научных работ. Это приложение использует LangChain, OpenAI, Streamlit и Redis для объяснения статей.

ИИ простыми словами объяснит трудные научные концепции. Вам лишь необходимо указать название интересующей статьи и количество исследований, и искусственный интеллект сможет самостоятельно найти нужную информацию на ArXiv и предоставить вам краткое и понятное изложение. В случае, если что-то останется непонятным, вы также имеете возможность задать уточняющий вопрос чат-боту.

$ git clone https://github.com/RedisVentures/ArxivChatGuru.git && cd ArxivChatGuru

Github

@bigdatai
👍10🔥32
✅️ Инструменты для создания 3D.

Генерация из одного текстового промпта до красивой 3D-модели.

https://huggingface.co/collections/victor/3d-creation-workflow-652bb09c1198736f310f457a

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥21
🛠 Объяснение ключевых терминов в области данных

@bigdatai
👍11🔥31👎1
📒 GigaChat нового поколения.

Разработчики @gigachat_bot изменили подход к обучению модели, а потому практически все умения модели были улучшены. В частности, речь идет о сокращении текстов, ответов на вопросы и генерации идей.

Появился и бот GigaChat в социальной сети «ВКонтакте» — после активации, его можно использовать для самых разных целей: от создания текстов до генерации изображений (за счет интеграции с Kandinsky).

Число уникальных пользователей GigaChat достигло 1 млн.

Попробовать

@data_analysis_ml
👍4
🔥 Дайджест полезных материалов из мира Больших данных за неделю

Почитать:
Каталог данных — почему без него непросто и как всё организовать с максимальной пользой
Эконометрическое моделирование трафика: зачем мы изучали влияние дождя и времени года на посещаемость магазинов
Сравнение методов веб-скрепинга для данных Википедии: Beautiful Soup против WikipediaAPI
Главное из книги Fundamentals of Data engineering — фундаментального труда о дата-инжиниринге
Введение в библиотеку Diffusers и диффузионные модели
Проблематика Open Source: профиль риска, лицензирование, как выбирать продукт и подход к разработке решений
Применение нейросетевых подходов для формирования признаков в моделях
О точности вычислений: как не потерять данные в цифровом шуме
Рынок BI (Business intelligence) систем в России. Как рисуют рейтинги платформам?
Milvus Adventures | October 13, 2023
Exploratory Data Analysis with Data Visualization Techniques
BakaLLM, p5: one stomp forward
👋 Devlog 12.10.23
Machine learning use cases: making the world a better place 🦾
Why kNN doesn't scale...
AI Augmented Intelligence: The Fusion Of Human And Machine Artistry
🎉 My daily Devlog
What Technologies are used to Build an AI Image generator? What is GAN Architecture?
Benefits and Challenges of AIoT

Посмотреть:
🌐 Chatgpt, Bard , Claude, Theb - используй API лучших нейросетей бесплатно и без ВПН на Python. ( 05:23)
🌐 NLP практика. Определяем тональность текста при помощи NLTK и DL ( 19:37)
🌐 Django шаблонизация и маршрутизация ( 09:11)
🌐 Задача, которая очень часто встречается на собеседованиях #python ( 00:59)
🌐 Решение непростой задачи с Leetcode, часто всплывает на собеседования #pythontutorial ( 00:59)
🌐 Хитрая задача с собеседования #Python ( 00:59)
🌐 Lightning Interview "The Storied History of Video Games and AI" ( 46:35)
🌐 Accelerate your AI/ML Initiatives and Deliver Business Value Quickly ( 33:08)
🌐 Leveraging Generative AI in Education - A M Aditya ( 31:24)
🌐 Unreal Engine 5.3 - Next Level Tech Is Coming! ( 06:17)
🌐 Google’s New AI Watched 2,500 Videos! But Why? ( 05:52)

Хорошего дня!

@bigdatai
👍83🔥2
📱 Промпт-инжиниринг: как использовать LLM для создания приложений

Общие уроки
Промпт-инжиниринг — это в такой же степени экспериментирование, как и проектирование. Существует бесконечное количество способов написать промпт, начиная от формулировки конкретного вопроса и заканчивая введением информационного материала и уточнением контекста. Это может показаться невероятным, но я обнаружил, что проще всего начать с элементарного и довериться интуиции, а затем проверять гипотезы.

В компьютерном зрении каждый набор данных отличается своей схемой, типами меток и названием классов.
Хотя VoxelGPT предназначен для обработки любого набора данных путем компьютерного зрения, мы для начала взяли один датасет — MS COCO.
Сохранение всех дополнительных степеней свободы позволило в первую очередь закрепить способность LLM писать синтаксически корректные запросы.

Найдя решение, гарантирующее успех в ограниченном контексте, переходим к его обобщению и развитию.

Какую модель (модели) использовать?
Одной из самых важных характеристик больших языковых моделей считается их относительная взаимозаменяемость. Теоретически вы должны быть готовы заменить одну LLM на другую без существенных структурно-функциональных изменений.

Хотя это верно, что заменить LLM обычно так же просто, как изменить порядок API-вызовов, на практике возникают трудности.

▪️Некоторые модели обладают гораздо меньшей длиной контекста, чем другие. Переход на модель с меньшим контекстом может потребовать серьезного рефакторинга.
▪️Открытый исходный код — это здорово, но LLM с открытым исходным кодом (пока) не так производительны, как GPT-модели. Кроме того, при развертывании приложения с LLM с открытым исходным кодом нужно убедиться, что контейнер, в котором работает модель, имеет достаточно памяти и хранилища. Это может оказаться более хлопотным (и более дорогим), чем использование конечных API-точек.
▪️Переход с GPT-4 на GPT-3.5, осуществленный для снижения стоимости использования модели, может шокировать падением производительности. Для выполнения сложных задач с генерацией кода и получения выводов больше подойдет GPT-4.

Где использовать LLM?

Читать

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍62🔥2