Держите, здесь ссылки на шпаргалки, полезные статьи, курсы на Stepik и ещё много всего
Enjoy)
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤24👍4🥰1
💲 Financial Datasets - это библиотека Python с открытым исходным кодом, которая позволяет разработчикам создавать синтетические наборы финансовых данных с использованием больших языковых моделей (LLM).
С помощью этой библиотеки вы можете генерировать реалистичные наборы финансовых данных за 5 строк кода, на основе отчетов SEC, таких как 10-Ks, 10-Qs и других финансовых отчетов.
Такие датасеты полезны для:
• оценки LLM
• точной настройки LLM
• тестирования финансовых инструментов
• и многого другого
Проект полностью открытым исходным кодом.
▪GitHub: https://github.com/virattt/financial-datasets
▪Пример с кодом: https://colab.research.google.com/gist/virattt/f9b5a0ae82cc0caab57df5dedc2927c9/intro-financial-datasets.ipynb#scrollTo=K-b_1BPtJsS1
@data_analysis_ml
С помощью этой библиотеки вы можете генерировать реалистичные наборы финансовых данных за 5 строк кода, на основе отчетов SEC, таких как 10-Ks, 10-Qs и других финансовых отчетов.
Такие датасеты полезны для:
• оценки LLM
• точной настройки LLM
• тестирования финансовых инструментов
• и многого другого
Проект полностью открытым исходным кодом.
pip financial-datasets.
▪GitHub: https://github.com/virattt/financial-datasets
▪Пример с кодом: https://colab.research.google.com/gist/virattt/f9b5a0ae82cc0caab57df5dedc2927c9/intro-financial-datasets.ipynb#scrollTo=K-b_1BPtJsS1
@data_analysis_ml
👍7🥰7❤🔥4❤3🔥2
🔥 Большая подборка вопросов для собеседования по DS, AI, ML, DL, NLP, компьютерному зрению.
Подборка вопросов для собеседования поможет вам на собеседовании в области науки о данных, искусственного интеллекта, машинного обучения, глубинного обучения, обработки естественного языка, компьютерного зрения.
▪100 вопросов для собеседования по машинному обучению в 2024 году
▪50 вопросов для собеседования по компьютерному зрению в 2024 году
▪50 вопросов для интервью по глубинному обучению в 2024 году
▪50 вопросов для интервью по НЛП (обработке естественного языка) в 2024 году
▪100 вопросов с собеседований Data Science
@machinelearning_interview
Подборка вопросов для собеседования поможет вам на собеседовании в области науки о данных, искусственного интеллекта, машинного обучения, глубинного обучения, обработки естественного языка, компьютерного зрения.
▪100 вопросов для собеседования по машинному обучению в 2024 году
▪50 вопросов для собеседования по компьютерному зрению в 2024 году
▪50 вопросов для интервью по глубинному обучению в 2024 году
▪50 вопросов для интервью по НЛП (обработке естественного языка) в 2024 году
▪100 вопросов с собеседований Data Science
@machinelearning_interview
👍8❤🔥5🥰2
This media is not supported in your browser
VIEW IN TELEGRAM
Enjoy)
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤15🔥5👍4❤🔥1
🔥 Компания Anthropic только что выпустила метод джейлбрейка, позволяющий обойти все меры безопасности LLMs.
"manyshot jailbreaking" использует преимущества больших контекстных окон, добавляя в промпты сотни вредоносных диалогов между человеком и искусственным интеллектом.
Простого включения очень большого количества фальшивых диалогов, предшествующих последнему вопросу, было достаточно, чтобы обойти меры безопасности.
🔥 Подробнее
@data_analysis_ml
"manyshot jailbreaking" использует преимущества больших контекстных окон, добавляя в промпты сотни вредоносных диалогов между человеком и искусственным интеллектом.
Простого включения очень большого количества фальшивых диалогов, предшествующих последнему вопросу, было достаточно, чтобы обойти меры безопасности.
🔥 Подробнее
@data_analysis_ml
🔥11👍6🤔4❤2
👨🎓 AIDE стала первым агентом искусственного интеллекта человеческого уровня для работы с данными!
AIDE превосходит половину специалистов по обработке данных в широком спектре конкурсов Kaggle, превосходя обычных агентов AutoML, LangChain и ChatGPT 🏆
▪Статья
▪Github
@data_analysis_ml
AIDE превосходит половину специалистов по обработке данных в широком спектре конкурсов Kaggle, превосходя обычных агентов AutoML, LangChain и ChatGPT 🏆
▪Статья
▪Github
@data_analysis_ml
😐34🔥11❤3👍3😁2🐳1
Но с увеличением сложности начинаются проблемы; например, вы строите несколько типов моделей с несколькими вариантами заполнения пропусков (среднее, медиана), генерируете набор feature engineering и применяете разные варианты разбиения выборки.
Можно разместить весь этот код в один Jupyter Notebooks и логгировать метрики и конфиги. Код получится громоздкий и не поворотливый. Для запуска экспериментов надо будет или перескакивать или комментировать ячейки, которые не нужно запускать.
Об этом и идёт речь в статье, а также о Cookiecutter и Hydra, которые помогают строить пайплайны.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10❤6❤🔥1🔥1
Это совершенно гениальная идея сделать модели на основе трансформеров более эффективными.
Немного деталей:
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤2🥰2
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🥰4❤3🥴2❤🔥1🤣1
🔥 Дайджест полезных материалов из мира Data Science за неделю
Инструменты
•Command R+ - Новая модель с открытым исходным кодом показывает крутые результаты на уровне с GPT-4 и Claude 3. 104 миллиарда параметров, 128к контекста
• LLocalSearch - полностью локально работающая система метапоиска, использующая LLM-агентов.
• DINO-Tracker: Новая SOTA для отслеживания объектов.
• Stable Audio 2.0 — Stability AI представили нейросеть Stable Audio 2.0 для генерации треков с вокалом.
• MagicLens: новое семейство моделей для поиска изображений от Google.
• SV3D - еще один проект от Stability AI- новая модель для реконструкции изображения в 3D в хорошем качетсве.
• Gaussian Head Avatar - качественная генерация ваш 3D-аватаров сразу с нескольких ракурсов.
• Financial Datasets - это библиотека Python с открытым исходным кодом, которая позволяет разработчикам создавать синтетические наборы финансовых данных с использованием больших языковых моделей
Почитать:
— Как OpenAI создавали бота, который победил проигроков в Dota 2
— Огромный список лучших бесплатных курсов Data Science.
— Аппаратные требования больших языковых моделей ИИ сокращаются вдвое каждые восемь месяцев
— Fashion is ML profession! Материалы митапа
— Как обнаружить галлюцинации в LLM?
— Браузерная интерактивная игра от tensorflow, которая позволяет настраивать и обучать нейросеть
— Mixture-of-Depths: распределение вычислений в LLM на основе трансформеров
— Как мы реализовали текстовый поиск за 48 часов
— Большая подборка вопросов для собеседования по DS, AI, ML, DL, NLP, компьютерному зрению
— Open Source в российском ИИ: исследование ландшафта
— Размышления о высококачественных данных, собранных людьми
— Идеи улучшения точности, удобства и скорости языковых моделей
— Введение в нейросети: что, зачем и как?
— Как я стал специалистом по машинному обучению. Open AI и Dota 2
— Introduction to LLM Ops: Reliable and Scalable LLM Integration
— JRDB-PanoTrack: An Open-world Panoptic Segmentation and Tracking Robotic Dataset
— Machine Learning in Application Development
— Let's detect flowers! (with SageMaker and DeepLens)
— FiftyOne Computer Vision Tips and Tricks - April 5, 2024
— Trustworthy AI: Navigating the Ethical Challenges of AI Deployment and Decision-Making
— SVM and Kernels: The Math that Makes Classification Magic
— Get Hired Faster: How to use Lyzr-Automata to draft personalised cold emails
— AI: The new Frontier Of War
— Auto-Merging: RAG Retrieval Technique
— Sentence Window Retrieval: Optimizing LLM Performance
Посмотреть:
🌐 Введение в Трансформеры от
3Blue1Brown. Неповторимый стиль автора, красивая анимация и подробное разъяснение сложных тем простыми словами (⏱ 27:13)
🌐 Эндрю Ын рассказывает о том, как будут развиваться ИИ-агенты (⏱ 13:39)
🌐 100 вопросов с собеседований Data Science (⏱ 36:48)
🌐 Continual Learning of Natural Language Processing Tasks with Bing Liu, PhD (⏱ 46:38)
🌐 Navigating the GENAI Frontier: Empowering Data Scientists as Ethical Innovators with Alison Cossette (⏱ 35:19)
🌐 Vision To Make 1% Top Data Data Scientist (⏱ 09:08)
🌐 ИИ против ИИ в Street Fighter III (⏱ 09:01)
Хорошего дня!
@data_analysis_ml
Инструменты
•Command R+ - Новая модель с открытым исходным кодом показывает крутые результаты на уровне с GPT-4 и Claude 3. 104 миллиарда параметров, 128к контекста
• LLocalSearch - полностью локально работающая система метапоиска, использующая LLM-агентов.
• DINO-Tracker: Новая SOTA для отслеживания объектов.
• Stable Audio 2.0 — Stability AI представили нейросеть Stable Audio 2.0 для генерации треков с вокалом.
• MagicLens: новое семейство моделей для поиска изображений от Google.
• SV3D - еще один проект от Stability AI- новая модель для реконструкции изображения в 3D в хорошем качетсве.
• Gaussian Head Avatar - качественная генерация ваш 3D-аватаров сразу с нескольких ракурсов.
• Financial Datasets - это библиотека Python с открытым исходным кодом, которая позволяет разработчикам создавать синтетические наборы финансовых данных с использованием больших языковых моделей
Почитать:
— Как OpenAI создавали бота, который победил проигроков в Dota 2
— Огромный список лучших бесплатных курсов Data Science.
— Аппаратные требования больших языковых моделей ИИ сокращаются вдвое каждые восемь месяцев
— Fashion is ML profession! Материалы митапа
— Как обнаружить галлюцинации в LLM?
— Браузерная интерактивная игра от tensorflow, которая позволяет настраивать и обучать нейросеть
— Mixture-of-Depths: распределение вычислений в LLM на основе трансформеров
— Как мы реализовали текстовый поиск за 48 часов
— Большая подборка вопросов для собеседования по DS, AI, ML, DL, NLP, компьютерному зрению
— Open Source в российском ИИ: исследование ландшафта
— Размышления о высококачественных данных, собранных людьми
— Идеи улучшения точности, удобства и скорости языковых моделей
— Введение в нейросети: что, зачем и как?
— Как я стал специалистом по машинному обучению. Open AI и Dota 2
— Introduction to LLM Ops: Reliable and Scalable LLM Integration
— JRDB-PanoTrack: An Open-world Panoptic Segmentation and Tracking Robotic Dataset
— Machine Learning in Application Development
— Let's detect flowers! (with SageMaker and DeepLens)
— FiftyOne Computer Vision Tips and Tricks - April 5, 2024
— Trustworthy AI: Navigating the Ethical Challenges of AI Deployment and Decision-Making
— SVM and Kernels: The Math that Makes Classification Magic
— Get Hired Faster: How to use Lyzr-Automata to draft personalised cold emails
— AI: The new Frontier Of War
— Auto-Merging: RAG Retrieval Technique
— Sentence Window Retrieval: Optimizing LLM Performance
Посмотреть:
🌐 Введение в Трансформеры от
3Blue1Brown. Неповторимый стиль автора, красивая анимация и подробное разъяснение сложных тем простыми словами (⏱ 27:13)
🌐 Эндрю Ын рассказывает о том, как будут развиваться ИИ-агенты (⏱ 13:39)
🌐 100 вопросов с собеседований Data Science (⏱ 36:48)
🌐 Continual Learning of Natural Language Processing Tasks with Bing Liu, PhD (⏱ 46:38)
🌐 Navigating the GENAI Frontier: Empowering Data Scientists as Ethical Innovators with Alison Cossette (⏱ 35:19)
🌐 Vision To Make 1% Top Data Data Scientist (⏱ 09:08)
🌐 ИИ против ИИ в Street Fighter III (⏱ 09:01)
Хорошего дня!
@data_analysis_ml
👍19❤5🥰1
💛 Visualizing Attention, a Transformer's Heart
Внимание - ключевой механизм в трансформерах и LLM. В этом видео представлен подробнейший разбор механизма внимания с красивой анимацией.
Новый крутой ролик от 3Blue1Brown.
▪ Видео
@data_analysis_ml
Внимание - ключевой механизм в трансформерах и LLM. В этом видео представлен подробнейший разбор механизма внимания с красивой анимацией.
Новый крутой ролик от 3Blue1Brown.
▪ Видео
@data_analysis_ml
❤🔥17👍7⚡3🥰2
А/Б тестирование на маленьких выборках. Построение собственного критерия
Держите полезный контент)
В этой статье мы:
⏩ рассмотрим кейс, в котором классические статистические критерии не работают
⏩ разберёмся, почему так происходит
⏩ научимся строить свои собственные критерии по историческим данным
⏩ обсудим плюсы и минусы такого подхода.
📎 Статья
@data_analysis_ml
Держите полезный контент)
В этой статье мы:
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15❤6🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ BertViz - это интерактивный инструмент для визуализации работы механизма внимания в моделях основаных на Трансформерах, таких как #BERT, GPT2 и T5.
Инструмент дает представление о процессе принятия решений в модели и о том, как она распределяется внимание между различными частями входных данных.
▪ Github
@data_analysis_ml
Инструмент дает представление о процессе принятия решений в модели и о том, как она распределяется внимание между различными частями входных данных.
▪ Github
@data_analysis_ml
👍21🔥5❤2❤🔥1
Yandex Cloud опубликовала программу сертификации по облачным технологиям.
Онлайн-тестирование пригодится инженерам, разработчикам, аналитикам, администраторам, архитекторам, DevOps и другим специалистам, которые хотят официально подтвердить свои знания.
Экзамен проверяет компетенции в шести областях: базовые облачные технологии, хранение и обработка данных, DevOps и автоматизация, бессерверные вычисления, информационная безопасность и биллинг.
Чтобы получить сертификат, нужно набрать минимум 35 баллов из 50. Если вышло меньше — через месяц можно будет попробовать снова.
Тестирование проходит с прокторингом на базе ИИ, который отслеживает попытки списать.
Первый тест состоится 11 апреля. Если хотите принять участие, можете подготовиться с помощью курса «Инженер облачных сервисов».
Онлайн-тестирование пригодится инженерам, разработчикам, аналитикам, администраторам, архитекторам, DevOps и другим специалистам, которые хотят официально подтвердить свои знания.
Экзамен проверяет компетенции в шести областях: базовые облачные технологии, хранение и обработка данных, DevOps и автоматизация, бессерверные вычисления, информационная безопасность и биллинг.
Чтобы получить сертификат, нужно набрать минимум 35 баллов из 50. Если вышло меньше — через месяц можно будет попробовать снова.
Тестирование проходит с прокторингом на базе ИИ, который отслеживает попытки списать.
Первый тест состоится 11 апреля. Если хотите принять участие, можете подготовиться с помощью курса «Инженер облачных сервисов».
👍11❤5🥰1🤣1