Big data world
2.35K subscribers
412 photos
64 videos
18 files
1.25K links
Интересные статьи Data Science : Big Data : Machine Learning : Deep Learning

По вопросам сотрудничества- @Daily_admin_info

По иным темам @un_ixtime
Download Telegram
Google делает обучение ИИ доступным для всех бесплатно. Никаких предварительных условий или сборов не требуется. Вот 10 БЕСПЛАТНЫХ курсов, которые вы не захотите пропустить:
1. Introduction to Generative AI

Learn about Generative AI in a simple, short course.
Discover how to make your own AI apps with Google Tools.
https://cloudskillsboost.google/course_templates/536

2. Introduction to Large Language Models

Join this short course to understand big language models (LLMs).
Learn where LLMs are useful and how to improve them.
https://cloudskillsboost.google/course_templates/539

3. Introduction to Responsible AI

This is an introductory-level microlearning course on how Google implements responsible AI in their products.
It also introduces Google's 7 AI principles.
https://cloudskillsboost.google/course_templates/554

4. Generative AI Fundamentals
https://cloudskillsboost.google/course_templates/556

5. Introduction to Image Generation
https://cloudskillsboost.google/course_templates/541

6. Encoder-Decoder Architecture
https://cloudskillsboost.google/course_templates/543

7. Attention Mechanism
https://cloudskillsboost.google/course_templates/537

8. Transformer Models and BERT Model
https://cloudskillsboost.google/course_templates/538

9. Create Image Captioning Models
https://cloudskillsboost.google/course_templates/542

10. Introduction to Generative AI Studio
https://cloudskillsboost.google/course_templates/552
🔥21👍1
BiomedGPT: унифицированный и универсальный биомедицинский генеративный преобразователь с предварительным обучением для работы со зрением, языком и мультимодальными задачами

Представляя новаторскую модель биомедицинского генеративного предварительно обученного преобразователя (BiomedGPT), этот документ революционизирует область биомедицины, предлагая унифицированный и универсальный подход. BiomedGPT использует возможности самоконтроля обширных и разнообразных наборов данных, что позволяет ему легко обрабатывать мультимодальные входные данные и преуспевать в широком спектре последующих задач. В серии всесторонних экспериментов BiomedGPT поразительно превосходит своих предшественников, становясь непревзойденным лидером в пяти различных задачах и ошеломляющих 20 общедоступных наборах данных, охватывающих более 15 уникальных биомедицинских методов. Его способность предоставлять обширные и всеохватывающие представления биомедицинских данных знаменует собой значительный прогресс в этой области с многообещающими последствиями для улучшения результатов здравоохранения.

Благодаря тщательным исследованиям абляции наглядно продемонстрирована эффективность многомодального и многозадачного предтренировочного подхода BiomedGPT. Эта новаторская модель легко переносит свои обширные знания на ранее невиданные данные, демонстрируя свою универсальность и адаптируемость. Значение этого исследования глубокое, оно прокладывает путь к разработке унифицированных и всеобъемлющих моделей биомедицины.

Ссылка на статью: https://arxiv.org/abs/2305.17100

Ссылка на код: https://github.com/taokz/BiomedGPT

Подробный неофициальный обзор статьи: https://andlukyane.com/blog/paper-review-biomedgpt
Ознакомьтесь с нашей статьей #CVPR2023 Рекуррентные преобразователи зрения для обнаружения объектов с #eventcameras ! Мы достигли производительности sota (47,2% mAP), сократив время вывода в 6 раз (<12 мс) и повысив эффективность параметров в 5 раз! Бумага, Код, Видео https://github.com/uzh-rpg/RVT
Понимание алгоритма сортировки DeepMind

Google DeepMind сообщила, что благодаря использующей обучение с подкреплением, удалось разработать усовершенствованные алгоритмы сортировки. Они сделали это, используя свои глубокие знания, полученные при создании AlphaGo, и применив их к дисциплине супероптимизации. Это пробудило мой интерес, поскольку, как автор библиотеки C, я всегда ищу возможности курировать лучшие материалы. В некотором смысле, в этом действительно заключается вся цель библиотеки C. Существует так много функций, которые мы, программисты, считаем само собой разумеющимися, которые являются конечным продуктом десятилетий исследований, переработанным в простой и переносимый код.

DeepMind заслужила изрядное количество внимания за это открытие, но, к сожалению, они могли бы гораздо лучше объяснить его. Давайте начнем с опубликованного ими ассемблерного кода для сортировки массива из трех элементов, переведенного из псевдосборки в ассемблер: https://justine.lol/sorting/
This media is not supported in your browser
VIEW IN TELEGRAM
Рендеринг видео: перевод видео в видео с текстовым сопровождением Zero-Shot

Большие модели диффузии текста в изображение продемонстрировали впечатляющее мастерство в создании высококачественных изображений. Однако при применении этих моделей к области видео обеспечение временной согласованности между видеокадрами остается серьезной проблемой. В этой статье предлагается новая фреймворк для преобразования видео в видео с текстовым управлением для адаптации моделей изображений к видео. https://huggingface.co/papers/2306.07954
В этой статье представлена ​​новая методология самоконтролируемого обучения на изображения

I-JEPA предсказывает особенности различных частей изображения на основе одного контекстного блока. Подход I-JEPA оказался хорошо масштабируемым, особенно при использовании с Vision Transformers (ViT). Например, модель ViT-Huge/14 прошла обучение в ImageNet с использованием 16 графических процессоров A100 менее чем за 72 часа и продемонстрировала высокую производительность в различных задачах.

Ссылка на статью: https://arxiv.org/abs/2301.08243

Ссылка на код: https://github.com/facebookresearch/ijepa

Ссылка на блог: https://ai.facebook.com/blog/yann-lecun-ai-model-i-jepa/

Подробный неофициальный обзор статьи: https://andlukyane.com/blog/paper-review-ijepa
UnderstandingDeepLearning_08_05_23_C.pdf
21.1 MB
Понимание глубокого обучения — Это отличный учебник по глубокому обучению. Охватывает почти все основные методы и алгоритмы нейронных сетей.
👍3
Вам не нужно 20 графических процессоров для точной настройки большой языковой модели. Lit-Parrot — это библиотека Python, которая позволяет точно настроить последнюю модель 7B Falcon с помощью 1 gpu https://github.com/Lightning-AI/lit-parrot
Представляем Voicebox: первую генеративную модель искусственного интеллекта для речи, позволяющую обобщать задачи с высочайшей производительностью.

Крупномасштабные генеративные модели, такие как GPT и DALL-E, произвели революцию в области обработки естественного языка и исследований компьютерного зрения. Эти модели не только генерируют высококачественный текст или изображения, но также являются универсальными, которые могут решать задачи, которым явно не обучают. Напротив, речевые генеративные модели все еще примитивны с точки зрения масштаба и обобщения задач. В этой статье мы представляем Voicebox, наиболее универсальную генеративную модель речи с текстовым управлением в масштабе.
https://ai.facebook.com/blog/voicebox-generative-ai-model-speech/
Как настроить компьютер с Windows для машинного обучения/глубокого обучения с использованием графической карты Nvidia (CUDA)

https://www.freecodecamp.org/news/how-to-setup-windows-machine-for-ml-dl-using-nvidia-graphics-card-cuda/
10 плагинов ChatGPT для обработки и анализа данных.

ChatGPT помогает всем нам, даже специалистам по данным, стать более продуктивными за более короткий период времени. Первоначальные варианты использования и возможности ChatGPT были ошеломляющими, и со временем ситуация только улучшилась. Поскольку плагины теперь широко доступны для пользователей ChatGPT, мы подумали, что сейчас самое время указать, какие плагины будут хорошими кандидатами для специалистов по данным, которые можно проверить и использовать в своих интересах.

https://www.kdnuggets.com/2023/06/10-chatgpt-plugins-data-science-cheat-sheet.html?utm_source=rss&utm_medium=rss&utm_campaign=10-chatgpt-plugins-for-data-science-cheat-sheet
👍1
Агенты-помощники ИИ, такие как ChatGPT, в значительной степени зависели от контролируемой тонкой настройки и обучения с подкреплением на основе отзывов людей. Но у этого метода есть свой набор проблем — высокая стоимость, потенциальные предубеждения и ограничения на истинный потенциал этих агентов ИИ. Что, если бы существовал более эффективный и самодостаточный способ согласования результатов ИИ с человеческими намерениями?
Self-ALIGN — это многоэтапный процесс, который работает путем создания синтетических подсказок из большой языковой модели, увеличения разнообразия подсказок и использования краткого набора написанных человеком принципов для управления моделями ИИ. Применительно к базовой языковой модели LLaMA-65b это привело к созданию нового помощника ИИ, Dromedary, использующего менее 300 строк человеческих аннотаций. Dromedary не только затмевает несколько современных систем искусственного интеллекта, таких как Text-Davinci-003 и Alpaca, но и делает это на множестве тестовых наборов данных.

Ссылка на документ: https://arxiv.org/abs/2305.03047

Ссылка на код: https://mitibmdemos.draco.res.ibm.com/dromedary

Подробный неофициальный обзор статьи: https://andlukyane.com/blog/paper-review-dromedary.
This media is not supported in your browser
VIEW IN TELEGRAM
Если вы хотите изучать науку о данных и машинное обучение, этот веб-сайт — настоящая золотая жила. Это объясняет большинство технических и теоретических концепций Data Science & ML с интерактивными визуальными эффектами.

https://brilliant.org/
Краткое введение в нейронные сети

https://www.dkriesel.com/en/science/neural_networks
Сравнение алгоритмов машинного обучения в Python и R
Этот список наиболее часто используемых алгоритмов машинного обучения в Python и R предназначен для того, чтобы помочь начинающим инженерам и энтузиастам ознакомиться с наиболее часто используемыми алгоритмами.

https://www.kdnuggets.com/2023/06/machine-learning-algorithms-python-r.html
1_MLqq6tvQNmQlGpQyIbxwyw.gif
11.3 MB
Более 250 советов по Python и науке о данных, включая Pandas, NumPy, основы машинного обучения, Sklearn, Jupyter и другие.

https://medium.datadriveninvestor.com/250-python-and-data-science-tips-covering-pandas-numpy-ml-basics-sklearn-jupyter-and-more-e33074b92d58

👉 Весь PDF-архив вы можете найти здесь .
Многоязычное связывание сущностей от конца до конца

Представляем BELA, беспрецедентное решение с открытым исходным кодом, которое должно произвести революцию в области обработки естественного языка (NLP)! BELA решает сложную задачу связывания сущностей - задачу, распространенную во многих практических приложениях, - предлагая самую первую полностью сквозную многоязычную модель. Поразительно, но она может эффективно идентифицировать и связывать сущности в текстах на 97 языках, что является невиданной до сих пор способностью. Это знаменует собой значительный скачок в направлении оптимизации сложных стеков моделей, которые были распространенной проблемой в данной области.

Ссылка на статью: https://arxiv.org/abs/2306.08896
Ссылка на код: https://github.com/facebookresearch/BELA

Подробный неофициальный обзор статьи: https://andlukyane.com/blog/paper-review-bela
Pandas 2.0: меняет правила игры для специалистов по данным?

5 лучших функций для эффективной обработки данных https://towardsdatascience.com/pandas-2-0-a-game-changer-for-data-scientists-3cd281fcc4b4