Проект DSGW призван упростить разворот полноценного рабочего места на сервере с GPU для Data Science разработки
DSGW базируется на:
— Ubuntu 22.04
— Nvidia CUDA 12.3.2
— Nvidia cuDNN 9
— Python 3.12
— VsCode Server
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14❤4🔥2
💡 Во время работы с таблицами в Spark возникают ситуации, когда для обработки данных набора встроенных функций оказывается недостаточно.
В этом случае можно выгрузить таблицу в
UDF (User Defined Functions) – это функции, которые не содержатся во встроенных модулях Spark и определяются самим пользователем. UDF позволяют расширить возможности обработки данных и могут содержать в себе комбинацию встроенных функций.
Использование
В приведенном примере кода мы определяем
📌 Подробнее о UDF
@data_analysis_ml
В этом случае можно выгрузить таблицу в
Pandas DataFrame
и обрабатывать данные на Python привычными функциями. Однако, есть способ сделать это быстрее – UDF-функции в Spark.UDF (User Defined Functions) – это функции, которые не содержатся во встроенных модулях Spark и определяются самим пользователем. UDF позволяют расширить возможности обработки данных и могут содержать в себе комбинацию встроенных функций.
Использование
UDFS
в PySpark может помочь упростить выполнение сложных запросов #SQL, за счет запуска сложных операций в одном вызове функции.В приведенном примере кода мы определяем
UDF
с именем modify_name
, эта функция приводит все имена в нашей таблице к верхнему регистру.📌 Подробнее о UDF
@data_analysis_ml
👍15❤5❤🔥2🔥2🥰1
Разоблачаем Эффект Даннинга-Крюгера. Статистический артефакт, пример автокорреляции
Слышали ли вы об «эффекте Даннинга-Крюгера»? Это (очевидная) тенденция неквалифицированных людей переоценивать свою компетентность. Обнаруженный в 1999 году психологами Джастином Крюгером и Дэвидом Даннингом эффект с тех пор стал очень знаменитым.
И вы понимаете почему.
Это слишком сочная идея, чтобы не быть правдой. Все «знают», что идиоты, как правило, не осознают своего идиотизма. Или, как выразился Джон Клиз :
Если ты очень-очень глуп, как ты можешь осознать, что ты очень-очень глуп?
Разумеется, психологи очень осмотрительны, что бы убеждаться, что доказательства воспроизводимы. Но, конечно же, каждый раз, когда вы их ищете, из данных выскакивает сам эффект Даннинга-Крюгера. Таким образом кажется, что все стоит на прочной основе.
Вот только есть проблема.
Эффект Даннинга-Крюгера также возникает из данных, в которых его не должно быть. Например, если вы тщательно обработаете случайные данные так, чтобы они не содержали эффекта Даннинга-Крюгера, вы все равно обнаружите этот эффект . Причина оказывается до неприличия простой: эффект Даннинга-Крюгера не имеет ничего общего с человеческой психологией. Это статистический артефакт — потрясающий пример автокорреляции.
💥 Читать дальше
@data_analysis_ml
Слышали ли вы об «эффекте Даннинга-Крюгера»? Это (очевидная) тенденция неквалифицированных людей переоценивать свою компетентность. Обнаруженный в 1999 году психологами Джастином Крюгером и Дэвидом Даннингом эффект с тех пор стал очень знаменитым.
И вы понимаете почему.
Это слишком сочная идея, чтобы не быть правдой. Все «знают», что идиоты, как правило, не осознают своего идиотизма. Или, как выразился Джон Клиз :
Если ты очень-очень глуп, как ты можешь осознать, что ты очень-очень глуп?
Разумеется, психологи очень осмотрительны, что бы убеждаться, что доказательства воспроизводимы. Но, конечно же, каждый раз, когда вы их ищете, из данных выскакивает сам эффект Даннинга-Крюгера. Таким образом кажется, что все стоит на прочной основе.
Вот только есть проблема.
Эффект Даннинга-Крюгера также возникает из данных, в которых его не должно быть. Например, если вы тщательно обработаете случайные данные так, чтобы они не содержали эффекта Даннинга-Крюгера, вы все равно обнаружите этот эффект . Причина оказывается до неприличия простой: эффект Даннинга-Крюгера не имеет ничего общего с человеческой психологией. Это статистический артефакт — потрясающий пример автокорреляции.
💥 Читать дальше
@data_analysis_ml
❤15👍11❤🔥4🔥2
✨ Знакомьтесь, #Moirai: Библиотека, которая революционизирует прогнозирование временных рядов с помощью универсальных моделей!
Целью этой библиотеки является предоставление унифицированного решения для работы с временными рядами.
Uni2TS также предоставляет инструменты для точной настройки, оценки и прогнозирования временных рядов.
▪Github
▪Hf
▪Blog
@data_analysis_ml
Целью этой библиотеки является предоставление унифицированного решения для работы с временными рядами.
Uni2TS также предоставляет инструменты для точной настройки, оценки и прогнозирования временных рядов.
▪Github
▪Hf
▪Blog
@data_analysis_ml
👍17❤7🥰1
🔥 Сегодня выпущены два самых больших открытых набора данных для распознавания текста за всю историю 📜 📜
Датасеты содержитат миллионы реальных документов, изображений и текстов для задач распознавания текста, анализа и разбора документов VQA.: https://huggingface.co/datasets/pixparse/idl-wds
Датасет дополнен аннотациями из проекта idl_data Бриттена и др. (https://arxiv.org/abs/2202.12985 )
PDFA: https://huggingface.co/datasets/pixparse/pdfa-eng-wds
@data_analysis_ml
Датасеты содержитат миллионы реальных документов, изображений и текстов для задач распознавания текста, анализа и разбора документов VQA.: https://huggingface.co/datasets/pixparse/idl-wds
Датасет дополнен аннотациями из проекта idl_data Бриттена и др. (https://arxiv.org/abs/2202.12985 )
PDFA: https://huggingface.co/datasets/pixparse/pdfa-eng-wds
@data_analysis_ml
👍16❤🔥4🥰2
Хотите учиться у экспертов в области IT? Школа анализа данных Яндекса принимает заявки
до 12 мая, успейте зарегистрироваться.
ШАД для вас, если вы:
· интересуетесь Machine Learning
· имеете хорошую математическую подготовку
· уверенно владеете каким-либо языком программирования
Программа длится два года, обучение бесплатное. Можно выбрать одно из направлений: Data
Science, инфраструктура больших данных, разработка машинного обучения или анализ
данных и ИИ в прикладных науках.
Больше об учёбе в ШАД и возможностях для выпускников расскажем на днях открытых
дверей. Узнать даты и зарегистрироваться можно по ссылке.
до 12 мая, успейте зарегистрироваться.
ШАД для вас, если вы:
· интересуетесь Machine Learning
· имеете хорошую математическую подготовку
· уверенно владеете каким-либо языком программирования
Программа длится два года, обучение бесплатное. Можно выбрать одно из направлений: Data
Science, инфраструктура больших данных, разработка машинного обучения или анализ
данных и ИИ в прикладных науках.
Больше об учёбе в ШАД и возможностях для выпускников расскажем на днях открытых
дверей. Узнать даты и зарегистрироваться можно по ссылке.
👍6❤5🔥3
Держите, здесь ссылки на шпаргалки, полезные статьи, курсы на Stepik и ещё много всего
Enjoy)
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤24👍4🥰1
💲 Financial Datasets - это библиотека Python с открытым исходным кодом, которая позволяет разработчикам создавать синтетические наборы финансовых данных с использованием больших языковых моделей (LLM).
С помощью этой библиотеки вы можете генерировать реалистичные наборы финансовых данных за 5 строк кода, на основе отчетов SEC, таких как 10-Ks, 10-Qs и других финансовых отчетов.
Такие датасеты полезны для:
• оценки LLM
• точной настройки LLM
• тестирования финансовых инструментов
• и многого другого
Проект полностью открытым исходным кодом.
▪GitHub: https://github.com/virattt/financial-datasets
▪Пример с кодом: https://colab.research.google.com/gist/virattt/f9b5a0ae82cc0caab57df5dedc2927c9/intro-financial-datasets.ipynb#scrollTo=K-b_1BPtJsS1
@data_analysis_ml
С помощью этой библиотеки вы можете генерировать реалистичные наборы финансовых данных за 5 строк кода, на основе отчетов SEC, таких как 10-Ks, 10-Qs и других финансовых отчетов.
Такие датасеты полезны для:
• оценки LLM
• точной настройки LLM
• тестирования финансовых инструментов
• и многого другого
Проект полностью открытым исходным кодом.
pip financial-datasets.
▪GitHub: https://github.com/virattt/financial-datasets
▪Пример с кодом: https://colab.research.google.com/gist/virattt/f9b5a0ae82cc0caab57df5dedc2927c9/intro-financial-datasets.ipynb#scrollTo=K-b_1BPtJsS1
@data_analysis_ml
👍7🥰7❤🔥4❤3🔥2
🔥 Большая подборка вопросов для собеседования по DS, AI, ML, DL, NLP, компьютерному зрению.
Подборка вопросов для собеседования поможет вам на собеседовании в области науки о данных, искусственного интеллекта, машинного обучения, глубинного обучения, обработки естественного языка, компьютерного зрения.
▪100 вопросов для собеседования по машинному обучению в 2024 году
▪50 вопросов для собеседования по компьютерному зрению в 2024 году
▪50 вопросов для интервью по глубинному обучению в 2024 году
▪50 вопросов для интервью по НЛП (обработке естественного языка) в 2024 году
▪100 вопросов с собеседований Data Science
@machinelearning_interview
Подборка вопросов для собеседования поможет вам на собеседовании в области науки о данных, искусственного интеллекта, машинного обучения, глубинного обучения, обработки естественного языка, компьютерного зрения.
▪100 вопросов для собеседования по машинному обучению в 2024 году
▪50 вопросов для собеседования по компьютерному зрению в 2024 году
▪50 вопросов для интервью по глубинному обучению в 2024 году
▪50 вопросов для интервью по НЛП (обработке естественного языка) в 2024 году
▪100 вопросов с собеседований Data Science
@machinelearning_interview
👍8❤🔥5🥰2
This media is not supported in your browser
VIEW IN TELEGRAM
Enjoy)
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤15🔥5👍4❤🔥1
🔥 Компания Anthropic только что выпустила метод джейлбрейка, позволяющий обойти все меры безопасности LLMs.
"manyshot jailbreaking" использует преимущества больших контекстных окон, добавляя в промпты сотни вредоносных диалогов между человеком и искусственным интеллектом.
Простого включения очень большого количества фальшивых диалогов, предшествующих последнему вопросу, было достаточно, чтобы обойти меры безопасности.
🔥 Подробнее
@data_analysis_ml
"manyshot jailbreaking" использует преимущества больших контекстных окон, добавляя в промпты сотни вредоносных диалогов между человеком и искусственным интеллектом.
Простого включения очень большого количества фальшивых диалогов, предшествующих последнему вопросу, было достаточно, чтобы обойти меры безопасности.
🔥 Подробнее
@data_analysis_ml
🔥11👍6🤔4❤2
👨🎓 AIDE стала первым агентом искусственного интеллекта человеческого уровня для работы с данными!
AIDE превосходит половину специалистов по обработке данных в широком спектре конкурсов Kaggle, превосходя обычных агентов AutoML, LangChain и ChatGPT 🏆
▪Статья
▪Github
@data_analysis_ml
AIDE превосходит половину специалистов по обработке данных в широком спектре конкурсов Kaggle, превосходя обычных агентов AutoML, LangChain и ChatGPT 🏆
▪Статья
▪Github
@data_analysis_ml
😐34🔥11❤3👍3😁2🐳1
Но с увеличением сложности начинаются проблемы; например, вы строите несколько типов моделей с несколькими вариантами заполнения пропусков (среднее, медиана), генерируете набор feature engineering и применяете разные варианты разбиения выборки.
Можно разместить весь этот код в один Jupyter Notebooks и логгировать метрики и конфиги. Код получится громоздкий и не поворотливый. Для запуска экспериментов надо будет или перескакивать или комментировать ячейки, которые не нужно запускать.
Об этом и идёт речь в статье, а также о Cookiecutter и Hydra, которые помогают строить пайплайны.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10❤6❤🔥1🔥1