Big Data AI
16.8K subscribers
813 photos
97 videos
19 files
820 links
@haarrp - админ

Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям

@data_analysis_ml - анализ данных

@ai_machinelearning_big_data

@itchannels_telegram - важное для программиста

РКН: clck.ru/3Fmqxe
Download Telegram
👀 12 лучших репозиториев GitHub по компьютерному зрению

Список из наиболее важных Awesome репозиториев GitHub, посвященных компьютерному зрению, которые охватывают широкий спектр исследовательских и образовательных тем. Огромный кладезь знаний из области CV.


1. Awesome Computer Vision
2. Computer Vision Tutorials by Roboflow
3. Transformer in Vision
4. Awesome Referring Image Segmentation
5. Awesome Vision Language Pretraining Papers
6. Awesome Vision and Language
7. Awesome Temporal Action Detection
8. Awesome Masked Autoencoders
9. Awesome Visual Transformer
10. Transformer-Based Visual Segmentation
11. CVPR 2023 Paper with Code
12. Awesome Deepfakes Detection

👍Лайк , если полезно


@bigdatai
👍262🔥2👎1
Вышел seaborn v.13.0

Обновления:
— теперь все функции принимают log_scale (логарифмическая шкала для графиков, где значения по оси y в разы больше значений по x);
— для категориальных графиков теперь по умолчанию назначается один основной цвет, пока разработчик не попросит иное;
— функции графиков теперь принимают параметр, позволяющий подавить / развернуть легенду;
И другое

Релиз

@bigdatai
👍94🔥2
👨‍🎓 Stanford XCS224U: Понимание естественного языка, 2023 г.

Отличные лекции по пониманию естественного языка. Курс охватывает широкий спектр тем, включая адаптацию домена для контролируемого понимания, поиск с дополненным контекстным обучением, техники/методы NLP и т.д...

Видеозаписи лекций: https://youtube.com/playlist?list=PLoROMvodv4rOwvldxftJTmoR3kRcWkJBp

GitHub: https://github.com/cgpotts/cs224u/

Сайт: https://web.stanford.edu/class/cs224u/index.html

@bigdatai
👍142🔥1
🔥 Дайджест полезных материалов из мира Больших данных за неделю

Почитать:
Каталог данных — почему без него непросто и как всё организовать с максимальной пользой
Эконометрическое моделирование трафика: зачем мы изучали влияние дождя и времени года на посещаемость магазинов
Сравнение методов веб-скрепинга для данных Википедии: Beautiful Soup против WikipediaAPI
Главное из книги Fundamentals of Data engineering — фундаментального труда о дата-инжиниринге
Введение в библиотеку Diffusers и диффузионные модели
Проблематика Open Source: профиль риска, лицензирование, как выбирать продукт и подход к разработке решений
Применение нейросетевых подходов для формирования признаков в моделях
О точности вычислений: как не потерять данные в цифровом шуме
Рынок BI (Business intelligence) систем в России. Как рисуют рейтинги платформам?
Milvus Adventures | October 13, 2023
Exploratory Data Analysis with Data Visualization Techniques
BakaLLM, p5: one stomp forward
👋 Devlog 12.10.23
Machine learning use cases: making the world a better place 🦾
Why kNN doesn't scale...
AI Augmented Intelligence: The Fusion Of Human And Machine Artistry
🎉 My daily Devlog
What Technologies are used to Build an AI Image generator? What is GAN Architecture?
Benefits and Challenges of AIoT

Посмотреть:
🌐 Chatgpt, Bard , Claude, Theb - используй API лучших нейросетей бесплатно и без ВПН на Python. ( 05:23)
🌐 NLP практика. Определяем тональность текста при помощи NLTK и DL ( 19:37)
🌐 Django шаблонизация и маршрутизация ( 09:11)
🌐 Задача, которая очень часто встречается на собеседованиях #python ( 00:59)
🌐 Решение непростой задачи с Leetcode, часто всплывает на собеседования #pythontutorial ( 00:59)
🌐 Хитрая задача с собеседования #Python ( 00:59)
🌐 Lightning Interview "The Storied History of Video Games and AI" ( 46:35)
🌐 Accelerate your AI/ML Initiatives and Deliver Business Value Quickly ( 33:08)
🌐 Leveraging Generative AI in Education - A M Aditya ( 31:24)
🌐 Unreal Engine 5.3 - Next Level Tech Is Coming! ( 06:17)
🌐 Google’s New AI Watched 2,500 Videos! But Why? ( 05:52)

Хорошего дня!

@bigdatai
👍101🔥1
🔥 ArXiv ChatGuru: Exploring Conversational Scientific Literature 📖

Используйте ArXiv ChatGuru для общения с авторами научных работ. Это приложение использует LangChain, OpenAI, Streamlit и Redis для объяснения статей.

ИИ простыми словами объяснит трудные научные концепции. Вам лишь необходимо указать название интересующей статьи и количество исследований, и искусственный интеллект сможет самостоятельно найти нужную информацию на ArXiv и предоставить вам краткое и понятное изложение. В случае, если что-то останется непонятным, вы также имеете возможность задать уточняющий вопрос чат-боту.

$ git clone https://github.com/RedisVentures/ArxivChatGuru.git && cd ArxivChatGuru

Github

@bigdatai
👍10🔥32
✅️ Инструменты для создания 3D.

Генерация из одного текстового промпта до красивой 3D-модели.

https://huggingface.co/collections/victor/3d-creation-workflow-652bb09c1198736f310f457a

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥21
🛠 Объяснение ключевых терминов в области данных

@bigdatai
👍11🔥31👎1
📒 GigaChat нового поколения.

Разработчики @gigachat_bot изменили подход к обучению модели, а потому практически все умения модели были улучшены. В частности, речь идет о сокращении текстов, ответов на вопросы и генерации идей.

Появился и бот GigaChat в социальной сети «ВКонтакте» — после активации, его можно использовать для самых разных целей: от создания текстов до генерации изображений (за счет интеграции с Kandinsky).

Число уникальных пользователей GigaChat достигло 1 млн.

Попробовать

@data_analysis_ml
👍4
🔥 Дайджест полезных материалов из мира Больших данных за неделю

Почитать:
Каталог данных — почему без него непросто и как всё организовать с максимальной пользой
Эконометрическое моделирование трафика: зачем мы изучали влияние дождя и времени года на посещаемость магазинов
Сравнение методов веб-скрепинга для данных Википедии: Beautiful Soup против WikipediaAPI
Главное из книги Fundamentals of Data engineering — фундаментального труда о дата-инжиниринге
Введение в библиотеку Diffusers и диффузионные модели
Проблематика Open Source: профиль риска, лицензирование, как выбирать продукт и подход к разработке решений
Применение нейросетевых подходов для формирования признаков в моделях
О точности вычислений: как не потерять данные в цифровом шуме
Рынок BI (Business intelligence) систем в России. Как рисуют рейтинги платформам?
Milvus Adventures | October 13, 2023
Exploratory Data Analysis with Data Visualization Techniques
BakaLLM, p5: one stomp forward
👋 Devlog 12.10.23
Machine learning use cases: making the world a better place 🦾
Why kNN doesn't scale...
AI Augmented Intelligence: The Fusion Of Human And Machine Artistry
🎉 My daily Devlog
What Technologies are used to Build an AI Image generator? What is GAN Architecture?
Benefits and Challenges of AIoT

Посмотреть:
🌐 Chatgpt, Bard , Claude, Theb - используй API лучших нейросетей бесплатно и без ВПН на Python. ( 05:23)
🌐 NLP практика. Определяем тональность текста при помощи NLTK и DL ( 19:37)
🌐 Django шаблонизация и маршрутизация ( 09:11)
🌐 Задача, которая очень часто встречается на собеседованиях #python ( 00:59)
🌐 Решение непростой задачи с Leetcode, часто всплывает на собеседования #pythontutorial ( 00:59)
🌐 Хитрая задача с собеседования #Python ( 00:59)
🌐 Lightning Interview "The Storied History of Video Games and AI" ( 46:35)
🌐 Accelerate your AI/ML Initiatives and Deliver Business Value Quickly ( 33:08)
🌐 Leveraging Generative AI in Education - A M Aditya ( 31:24)
🌐 Unreal Engine 5.3 - Next Level Tech Is Coming! ( 06:17)
🌐 Google’s New AI Watched 2,500 Videos! But Why? ( 05:52)

Хорошего дня!

@bigdatai
👍83🔥2
📱 Промпт-инжиниринг: как использовать LLM для создания приложений

Общие уроки
Промпт-инжиниринг — это в такой же степени экспериментирование, как и проектирование. Существует бесконечное количество способов написать промпт, начиная от формулировки конкретного вопроса и заканчивая введением информационного материала и уточнением контекста. Это может показаться невероятным, но я обнаружил, что проще всего начать с элементарного и довериться интуиции, а затем проверять гипотезы.

В компьютерном зрении каждый набор данных отличается своей схемой, типами меток и названием классов.
Хотя VoxelGPT предназначен для обработки любого набора данных путем компьютерного зрения, мы для начала взяли один датасет — MS COCO.
Сохранение всех дополнительных степеней свободы позволило в первую очередь закрепить способность LLM писать синтаксически корректные запросы.

Найдя решение, гарантирующее успех в ограниченном контексте, переходим к его обобщению и развитию.

Какую модель (модели) использовать?
Одной из самых важных характеристик больших языковых моделей считается их относительная взаимозаменяемость. Теоретически вы должны быть готовы заменить одну LLM на другую без существенных структурно-функциональных изменений.

Хотя это верно, что заменить LLM обычно так же просто, как изменить порядок API-вызовов, на практике возникают трудности.

▪️Некоторые модели обладают гораздо меньшей длиной контекста, чем другие. Переход на модель с меньшим контекстом может потребовать серьезного рефакторинга.
▪️Открытый исходный код — это здорово, но LLM с открытым исходным кодом (пока) не так производительны, как GPT-модели. Кроме того, при развертывании приложения с LLM с открытым исходным кодом нужно убедиться, что контейнер, в котором работает модель, имеет достаточно памяти и хранилища. Это может оказаться более хлопотным (и более дорогим), чем использование конечных API-точек.
▪️Переход с GPT-4 на GPT-3.5, осуществленный для снижения стоимости использования модели, может шокировать падением производительности. Для выполнения сложных задач с генерацией кода и получения выводов больше подойдет GPT-4.

Где использовать LLM?

Читать

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍62🔥2
🔥 Дайджест полезных материалов из мира Больших данных за неделю

Почитать:
MLOps-инструменты, обзоры рынка и тренды потоковой обработки данных
Рынок данных в даркнете: как купить чужие данные и не потерять свои
12 лучших инструментов аннотирования изображений на 2023 год
Без работы не останемся: к 2030 году ИИ добавит семь новых профессий
Почему важна разметка данных: в основе ChatGPT лежит труд людей
«Большие вызовы» в «Сириусе», или как мы обычно проводим лето
why learn web (javascript) ML(machine learning) 2024
Getting Started with Machine Learning: A Beginner's Guide
La IA
The Hydra of Machine Learning: Understanding Multi-headed Attention
Interpreting Loan Predictions with TrustyAI: Part 1
BakaLLM, part 7: XL struggles are done, for now
The Complete Guide to Time Series Models
How to Land a Job as an AI Engineer 🤖
How to train an Iris dataset classifier with Tinygrad
Take your career to the next level: GitHub Universe create your own agenda

Посмотреть:
🌐 How to Get Ahead of 99% of Data Scientists (Tips from Tyler Richards) ( 53:20)
🌐 Прогнозирование цены биткоина при помощи VAR, XGBoost, FB Prophet ( 20:29)
🌐 Django настройка админки ( 06:55)
🌐 Задача на палиндром строки на C++ ( 00:59)
🌐 Django расширяем функционал! ( 07:03)
🌐 Making Private Data Open and Enhancing Decision-Making through Digital Atlases ( 28:27)
🌐 NVIDIA’s New AI: 20% Faster Game Graphics! ( 04:58)
🌐 DALL-E 3 Is Now Free For Everyone! ( 05:10)

Хорошего дня!
6🔥3👍1
🚀 TF Quant Finance: TensorFlow based Quant Finance Library

Библиотека TensorFlow Quant Finance от Google.

Функциональные возможности включают:

- Блэка-Шоулза: Цена и предполагаемый объем
- Монте-Карло по схеме Эйлера
- Подгонка своп-кривой

git clone https://github.com/google/tf-quant-finance.git

Github

@bigdatai
7👍2🔥1
Возможно, Microsoft только что раскрыла "секретное" количество параметров GPT 3.5 в своем документе CodeFusion.

Достижение такого качества чата с параметром 20B очень впечатляет.

https://arxiv.org/abs/2310.17680

@bigdatai
👍82🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Как устроены языки Java, C++ и Python?

▪️Java сначала компилирует исходный код в байткод, который не зависит от платформы и выполняется виртуальной машиной Java (JVM). JVM может дополнительно повысить производительность, используя компиляцию Just-In-Time (JIT) для преобразования байткода в машинный код во время выполнения.

▪️Компилируемые языки, такие как C++ и Go, перед выполнением преобразуют исходный код в машинный код с помощью компилятора. Скомпилированный машинный код затем может непосредственно выполняться процессором.

▪️Интерпретируемые языки, такие как Javascript и Ruby, не подвергаются компиляции. Вместо этого их код построчно обрабатывается интерпретатором во время выполнения. Однако современные движки JavaScript, такие как V8, также используют JIT-компиляцию для повышения производительности.

▪️Python представляет собой смесь двух миров. Сначала исходный код компилируется в платформонезависимый байткод, который затем построчно выполняется платформонезависимым интерпретатором. Кроме того, такие реализации, как PyPy, используют JIT-компиляцию для повышения скорости работы.

В целом компилируемые языки обладают преимуществами в скорости, однако благодаря современным методам оптимизации грань между компилируемыми и интерпретируемыми языками становится все более размытой.

@bigdatai
👍14🔥32👎1
Математика для глубокого обучения 🧑‍🎓

Лучший ресурс для изучения математических концепций для лучшего понимания концепций машинного обучения и глубокого обучения:

https://d2l.ai/chapter_appendix-mathematics-for-deep-learning/index.html

@bigdatai
👍10🔥41
"Я боюсь не того Data Scientist'а, который один раз поработал с 10 000ми простых датасетов.

Я боюсь того Data Scientist'а, который 10 000 раз поработал с одним ужасным датасетом".

-- Брюс Ли

@bigdatai
30😁12👍3💯1
🚀 Набор данных Grounding-anything Dataset (GranD)

Grounding Large Multimodal Model (GLaMM) - это сквозная обучаемая LMM, которая обеспечивает возможности визуального обоснования с функциями обработки как изображений, так и текста.

Grounding Large Multimodal Model позволяет решать новую унифицированную задачу генерации обоснованных разговоров, которая объединяет в себе обоснование фраз, сегментацию референтных выражений и разговоры на языке зрения. Обладая

проект: https://mbzuai-oryx.github.io/groundingLMM/
abs: https://arxiv.org/abs/2311.03356


@bigdatai
👍41🔥1
Бесплатные онлайн-курсы от Массачусетского технологического института:

1. Computational Thinking and Data Science
https://edx.org/course/introduction-to-computational-thinking-and-data-4?index=product_value_experiment_a&queryID=b2c2e9283643f3c30529b34d69556b9c&position=9

2. Computer Science and Programming Using Python
https://edx.org/course/introduction-to-computer-science-and-programming-7?index=product_value_experiment_a&queryID=85d79cec1ab147c466872f2cf1d26fd0&position=12

3. Cybersecurity for Critical Urban Infrastructure
https://edx.org/course/cybersecurity-clinic

4. Machine Learning with Python
https://edx.org/course/machine-learning-with-python-from-linear-models-to

5. Becoming an Entrepreneur
https://edx.org/course/becoming-an-entrepreneur

@bigdatai
🔥102👍1
This media is not supported in your browser
VIEW IN TELEGRAM
👀 Интересный подкаст о создании высокодетализированных Яндекс Карт

Технический директор и продакт-менеджер сервиса пришли в новый выпуск Yet Another Podcast и рассказали, какие данные использовались для создания карт нового поколения, чем новые карты отличаются от прежних и какие пользовательские проблемы решает обновление. А еще обсудили, что теперь общего у Карт и игр Need For Speed и GTA.

Смотреть

@bigdatai
👍7🤮21🔥1