Big data world
2.35K subscribers
412 photos
64 videos
18 files
1.25K links
Интересные статьи Data Science : Big Data : Machine Learning : Deep Learning

По вопросам сотрудничества- @Daily_admin_info

По иным темам @un_ixtime
Download Telegram
60 подсказок ChatGPT для науки о данных (опробовано, проверено и оценено)

Автоматизируйте задачи обработки данных с помощью ChatGPT

Я оценил 60 функций ChatGPT для Data Science. Используйте эти подсказки и попросите ChatGPT написать и объяснить код, оптимизировать код обработки данных. Он также может объяснять концепции науки о данных, предлагать идеи и устранять проблемы.
https://medium.datadriveninvestor.com/60-chatgpt-prompts-for-data-science-tried-tested-and-rated-4994c7e6adb2
Более 200 советов по Python и науке о данных — о Pandas, NumPy, основах ML, Sklearn, Jupyter и многом другом.

Самостоятельная подборка советов по Python и науке о данных, которые помогут вам повысить уровень вашей игры с данными.
https://shly.link/mdmwK1A
Настоящая многопоточность приходит в Python — узнайте, как вы можете ее использовать прямо сейчас

Настоящий многоядерный параллелизм появится в Python в версии 3.12, и вот как вы можете использовать его прямо сейчас, используя API субинтерпретатора.
https://betterprogramming.pub/real-multithreading-is-coming-to-python-learn-how-you-can-use-it-now-90dd7fb81bdf
👍2
Язык запросов для программирования (больших) языковых моделей.

LMQL — это язык запросов для больших языковых моделей (LLM). Это облегчает взаимодействие LLM, сочетая преимущества подсказок на естественном языке с выразительностью Python. С помощью всего нескольких строк кода LMQL пользователи могут создавать расширенные, состоящие из нескольких частей и дополненные инструментами запросы LM, которые затем оптимизируются средой выполнения LMQL для эффективного выполнения в рамках цикла декодирования LM.

https://github.com/eth-sri/lmql
Как повысить эффективность выдачи кредитов с помощью Process Mining?

Об этом вы узнаете на вебинаре Инфомаксимум и Россельхозбанка «Process Mining в банках: анализ кредитных процессов», который состоится 18 мая в 16:00.

Программа:
◼️ Активная бизнес-аналитика с Proceset
Как система выявляет проблемные зоны и отклонения в процессах, обнаруживает точки оптимизации;

◼️ Анализ кредитных процессов в Россельхозбанке
Как банк смог обнаружить упущенную выгоду благодаря детальному анализу процесса с помощью технологий Process Mining и Task Mining;

◼️ Сессия «Вопрос – ответ»

Участие бесплатное, регистрируйтесь по ссылке.
Больше о системе Proceset можно узнать в телеграм-канале: самые актуальные кейсы, новости, обновления.
1
Машинное обучение с нуля в Python — полный курс с 12 алгоритмами

В этом курсе мы реализуем самые популярные алгоритмы машинного обучения с нуля, используя только Python и NumPy.
https://www.youtube.com/watch?v=rLOyrWV8gmA
3
Руководство позволяет вам управлять современными языковыми моделями более эффективно и действенно, чем традиционные подсказки или цепочки. Программы управления позволяют чередовать генерацию, подсказки и логическое управление в единый непрерывный поток, соответствующий тому, как языковая модель фактически обрабатывает текст.

https://github.com/microsoft/guidance
Стоимость языковых моделей для одних языков в 10 раз выше, чем для других

Этот процесс токенизации неодинаков для разных языков, что приводит к несоответствию количества токенов, созданных для эквивалентных выражений на разных языках. Например, для предложения на бирманском или амхарском языке может потребоваться в 10 раз больше токенов, чем для аналогичного сообщения на английском языке.

https://blog.yenniejun.com/p/all-languages-are-not-created-tokenized
rapidsave.com_umyz0u9fsl0b1.gif
14.7 MB
Тайпи превращает данные и алгоритмы искусственного интеллекта в полноценные веб-приложения в кратчайшие сроки.

https://github.com/Avaiga/taipy
This media is not supported in your browser
VIEW IN TELEGRAM
Синтез визуального контента, отвечающего потребностям пользователей, часто требует гибкого и точного управления позой, формой, выражением и расположением сгенерированных объектов. Существующие подходы обеспечивают управляемость генеративно-состязательными сетями (GAN) с помощью аннотированных вручную обучающих данных или предшествующей трехмерной модели, которым часто не хватает гибкости, точности и универсальности. В этой работе мы изучаем мощный, но гораздо менее изученный способ управления GAN, то есть «перетаскивание» любых точек изображения для точного достижения целевых точек в интерактивном режиме

https://huggingface.co/papers/2305.10973
👍3❤‍🔥1
Как развернуть сложные модели как Transformers и подружить их с инфраструктурой? Как сделать предобработку текста для классификации отзывов?

Благодаря глубоким знаниям предметной области Natural Language Processing вы сможете ответить на эти вопросы.

На курсе по обработке естественного языка (NLP) вы научитесь грамотно извлекать информацию из текста, решать задачи информационного поиска, распознания речи и генерации текста. Погружаться в область вы будете под руководством экспертов из Digital habits, EORA, Ozon Tech и Delivery Hero.

Всю теорию вы будете отпрабатывать на практических заданиях. Дополнительно вы получите доступ к мастер-классам с примерами реальных проектов по NLP, которые потом сможете реализовать у себя в компании.

На курсе Easy NLP вы получите необходимые знания для работы специалистом в данной области, а также разберете все нестандартные ситуации и сложные моменты.

Старт потока 19 июня, присоединяйтесь по ссылке
Промокод (всего 10 штук) на скидку 5% EASYNLPBIGDATA
Создайте собственную систему распознавания лиц с помощью Python за считанные минуты

Эта концепция известна как однократное обучение. Она отличается от традиционных моделей распознавания изображений тем, что вам требуется только одно изображение человека, которого вы хотите распознать, и вам не нужно «обучать модель» распознаванию этого человека.

Если у вас есть IPhone — вы можете вспомнить момент, когда вы впервые распаковали его и настроили свой faceid — он сделал только одну (или, возможно, несколько) фотографию вашего лица, и все. Эти изображения не использовались для обучения модели машинного обучения распознаванию вашего конкретного лица. https://danilzherebtsov.medium.com/build-your-own-face-recognition-system-with-python-in-minutes-6325eb03d0b9
Как я повторно реализовал PyTorch для WebGPU

Я работал над оптимизированной для WebGPU библиотекой вывода и автоградации под названием webgpu-torch с API, соответствующим PyTorch. Цель состоит в том, чтобы запускать нейронные сети в браузере со скоростью, сравнимой с рабочей станцией Linux. Было реализовано много ядер, и его конструкция легко расширяется. Теперь он доступен в NPM и работает как в браузере, так и в Node.js! https://praeclarum.org/2023/05/19/webgpu-torch.html
ONE-PEACE: универсальная модель для задач зрения, аудио и языка (GitHub Repo)

ONE-PEACE - это новая модель, которая превосходно понимает изображения, звуки и слова, без необходимости начинать с предварительно обученной модели, и показывает исключительные результаты в задачах, связанных со зрением, звуком и языком. Он также обладает уникальной функцией, которая позволяет ему находить связи между различными типами данных, которые он раньше не видел вместе, а его гибкая структура означает, что в будущем он может использоваться с большим количеством типов данных. https://github.com/OFA-Sys/ONE-PEACE

SuperAgent (GitHub Repo)

SuperAgent - это мощный инструмент, который упрощает конфигурирование и развертывание агентов LLM (Large Language Model) на производстве. https://github.com/homanp/superagent
Узнайте, как точно настроить большие языковые модели (LLM) в пользовательском наборе данных. Мы будем использовать Lit-Parrot , основанную на nanoGPT реализацию модели GPT-NeoX,
которая поддерживает модели StableLM , Pythia и RedPajama-INCITE .

Вы можете точно настроить эти модели, чтобы адаптировать их к вашей конкретной задаче, например, обучить чат-бота отвечать на финансовые вопросы.

https://lightning.ai/pages/blog/how-to-finetune-gpt-like-large-language-models-on-a-custom-dataset/
Scikit-LLM: НЛП с ChatGPT в Scikit-Learn

Легко интегрируйте мощные языковые модели, такие как ChatGPT, в scikit-learn для расширенных задач анализа текста. https://shly.link/mdmEQvu
Пост для тех, кто думает, что в ИТ сложно вырасти в карьере ⬇️

Университет Иннополис предлагает поступить в онлайн-магистратуру на специальности:

👨‍🎓«Управление цифровым продуктом»

👨‍🎓«Управление на основе данных»

Что мы предлагаем:

▫️Полностью дистанционное обучение, возможность подключиться к лекции и семинару из любой точки мира

▫️Студенчество в одном из передовых ИТ-университетов России, имеющем государственную аккредитацию

▫️Преподавателей мирового уровня с высоким h-индексом

▫️Годовую стажировку в компании, специализирующейся на технологиях

▫️Возможность создать свой стартап или возглавить команду в крупном проекте

▫️ Рассрочку на оплату

☝🏻 Вы не просто получите знания, но и научитесь применять их под присмотром крутых наставников и высококлассных ИТ-специалистов!

Переходите по ссылке, чтобы узнать о программах обучения и своей будущей зарплате подробнее, подписывайтесь на наш канал.