Big data world
2.39K subscribers
412 photos
64 videos
18 files
1.25K links
Интересные статьи Data Science : Big Data : Machine Learning : Deep Learning

По вопросам сотрудничества- @Daily_admin_info

По иным темам @un_ixtime
Download Telegram
Анализ главных компонентов стал проще: пошаговое руководство
Реализуйте алгоритм PCA с нуля с помощью Python

https://towardsdatascience.com/principal-component-analysis-made-easy-a-step-by-step-tutorial-184f295e97fe
Яндекс разработал и выложил в опенсорс YaFSDP — инструмент для ускорения обучения LLM и сокращения расходов на GPU

Сегодня мы выкладываем в опенсорс наш новый инструмент — алгоритм YaFSDP, который помогает существенно ускорить процесс обучения больших языковых моделей.

В этой статье мы расскажем о том, как можно организовать обучение больших языковых моделей на кластере и какие проблемы при этом возникают. Рассмотрим альтернативные методы ZeRo и FSDP, которые помогают организовать этот процесс. И объясним, чем YaFSDP отличается от них. https://habr.com/ru/companies/yandex/articles/817509/
Бесплатная книга по байесовскому анализу данных


Одна из лучших книг по байесовскому анализу данных доступна бесплатно и охватывает такие ключевые основы, как вероятность и вывод, одно- и многопараметрические модели, а также иерархические модели. Это отличный ресурс, позволяющий перейти от основ к более сложным нюансам

https://stat.columbia.edu/~gelman/book/
Создание приложений LLM: четкое пошаговое руководство
Комплексные шаги по созданию собственных приложений LLM: от первоначальной идеи до экспериментов, оценки и производства

https://towardsdatascience.com/building-llm-apps-a-clear-step-by-step-guide-1fe1e6ef60fd
Масштабируемое языковое моделирование без MatMul

Наши эксперименты показывают, что предлагаемые нами модели без MatMul достигают производительности на уровне современных трансформаторов, которым требуется гораздо больше памяти во время вывода в масштабе как минимум до 2,7B параметров.

https://github.com/ridgerchu/matmulfreellm
Практическое руководство по масштабированию обучения модели машинного обучения

https://blog.dailydoseofds.com/p/a-practical-guide-to-scaling-ml-model
Модель авторегрессии превосходит диффузию: лама для создания масштабируемых изображений

Мы представляем LlamaGen, новое семейство моделей генерации изображений, которые применяют оригинальную парадигму «предсказания следующего токена» больших языковых моделей к области визуальной генерации.

https://github.com/foundationvision/llamagen
🧵 Блокнот Jupyter на базе искусственного интеллекта, созданный с использованием React. 🧵
Блокнот Python на базе искусственного интеллекта, встроенный в React: создавайте и редактируйте ячейки кода, автоматически исправляйте ошибки и общайтесь с вашим кодом. Самое приятное то, что Thread работает локально и его можно бесплатно использовать с вашим собственным ключом API…

https://github.com/squaredtechnologies/thread
🔥3👍1
Эмпирическое исследование использования энергии и производительности библиотек Python для анализа данных Pandas и Polars [PDF]
Мы стремимся оценить энергопотребление Pandas, широко используемой библиотеки манипулирования данными Python, и Polars, библиотеки на основе Rust, известной своей производительность. Целью исследования является предоставление аналитикам данных информации путем определения сценариев, в которых одна библиотека превосходит другую с точки зрения энергопотребления, а также изучения возможных корреляций между показателями энергопотребления и производительности… https://www.ivanomalavolta.com/files/papers/EASE_2024.pdf

Справочник по генеративному искусственному интеллекту: план учебных ресурсов

https://genai-handbook.github.io/
Уроки, извлеченные из масштабирования до многотерабайтных наборов данных.
Этот пост предназначен для того, чтобы познакомить вас с некоторыми уроками, которые я усвоил при работе с многотерабайтными наборами данных…

https://v2thegreat.com/2024/06/19/lessons-learned-from-scaling-to-multi-terabyte-datasets/
Развертывание моделей машинного обучения: пошаговое руководство
Давайте рассмотрим процесс развертывания моделей в производстве.

https://www.kdnuggets.com/deploying-machine-learning-models-a-step-by-step-tutorial
Хотите изучить квантование в модели большого языка?
Простое руководство, которое научит вас интуитивному квантованию с помощью простого математического вывода и кодирования в PyTorch.

https://pub.towardsai.net/want-to-learn-quantization-in-the-large-language-model-57f062d2ec17
Я тебя с вертухи сломаю, если ещё раз заговоришь об ИИ

Последние инновации в сфере ИИ, наиболее примечательными из которых стали проекты наподобие GPT-4, очевидно, могут иметь далеко идущие последствия для общества: от утопического избавления от монотонного труда до антиутопического ущерба для работы художников в капиталистическом обществе, а также до экзистенциальных угроз самому человечеству.

Лично я получил формальное образование дата-саентиста, даже выиграв в высококонкурентном конкурсе по машинному обучению в одном из лучших университетов Австралии и написав магистерскую, для которой создал в MATLAB с нуля собственные библиотеки. Я не гений в этой сфере, но, очевидно, лучше большинства конкурентов, то есть практиков вроде меня; я не могу, сидя в пещере, создавать собственные библиотеки на C, но умею читать учебники, реализовывать готовые решения на языках высокого уровня и использовать библиотеки, написанные элитными организациями.

Поэтому с глубочайшим сожалением должен объявить, что следующий человек, который начнёт говорить мне о реализации ИИ, получит от меня сеанс живительных процедур над позвоночником; иными словами, я сломаю ему нафиг шею. Мне очень-очень жаль. https://habr.com/ru/articles/823584/
🎯Ищете работу в ИТ? Присоединяйтесь к нашему тг-каналу EKLEFT JOB и будьте в курсе лучших вакансий!

В нашем канале вы найдете:
- Эксклюзивные вакансии в ТОП компаниях из производственной, банковской и сферы ритейла
- Свежие вакансии, срок каждой не более 1-2 дней

Откликаясь на вакансию, вы попадаете сразу к нашему рекрутеру, который сразу расскажет подробности вакансии.
Подпишитесь на канал и начните карьеру в ведущих ИТ-компаниях уже сегодня.

Ваше будущее в ИТ начинается здесь!
👍1
Эта работа представляет Depth Anything V2. Он значительно превосходит V1 по детализации и надежности. По сравнению с моделями на основе SD, он имеет более высокую скорость вывода, меньшее количество параметров и более высокую точность глубины.

https://github.com/DepthAnything/Depth-Anything-V2
Оптимизация машинного обучения с помощью Optuna
Как точно настроить каждый алгоритм машинного обучения в Python. Полное руководство по оптимизации машинного обучения с помощью Optuna для достижения отличных характеристик моделей.

https://towardsdatascience.com/machine-learning-optimization-with-optuna-57593d700e52
Короткие размышления об инженерии ИИ и «проваленных проектах ИИ»
Традиционная инженерия ML была очень сложной. Она все еще очень сложная. Я думаю, что одной из самых сложных задач в традиционном жизненном цикле ML является подготовка данных… Сегодня прототипирование приложений ИИ происходит быстрее, чем когда-либо, и гораздо больше людей могут создавать приложения ИИ. Можно утверждать, что LLM предложили (несколько обманчивую) возможность упростить подготовку данных — полностью обойдя ее… Генеративный ИИ и LLM немного интереснее в том смысле, что у большинства людей нет никакой формы систематической оценки перед отправкой

https://www.sh-reya.com/blog/ai-engineering-short/