Big data world
2.35K subscribers
412 photos
64 videos
18 files
1.25K links
Интересные статьи Data Science : Big Data : Machine Learning : Deep Learning

По вопросам сотрудничества- @Daily_admin_info

По иным темам @un_ixtime
Download Telegram
Meta только что выпустила промежуточную графическую библиотеку

Промежуточная графическая библиотека (IGL) — это кроссплатформенная библиотека, которая управляет графическим процессором.

https://github.com/facebook/igl/
👍1
Новое издание одного из самых популярных учебников по машинному обучению выйдет летом 2023 года но доступно бесплатно в виде книги в формате PDF. https://hastie.su.domains/ISLP/ISLP_website.pdf
👍1
Откажитесь от жесткого кодирования в проекте по науке о данных — вместо этого используйте файлы конфигурации

Как эффективно взаимодействовать с файлами конфигурации в Python.
https://www.kdnuggets.com/2023/06/stop-hard-coding-data-science-project-config-files-instead.html
Секреты RLHF в LLM Интересный отчет, в котором более подробно рассматривается RLHF и изучается внутренняя работа PPO. Полезно прочитать, если вы заинтересованы в LLM RLHF. Репозиторий кода тоже включен!
статья : https://arxiv.org/abs/2307.04964
код : https://github.com/OpenLMLab/MOSS-RLHF
Мы запускаем Keras Core, новую библиотеку, которая объединяет Keras API с JAX и PyTorch в дополнение к TensorFlow. Это позволяет вам писать компоненты глубокого обучения для разных платформ и извлекать выгоду из лучшего, что может предложить каждая платформа. Подробнее: https://keras.io/keras_core/announcement/
Вышло второе издание R for Data Science

https://r4ds.hadley.nz/
Удивительные графические примечания к книге Гилберта Стрэнга «Линейная алгебра для всех». Я не могу себе представить усилия, затраченные на их создание. Визуальные пояснения могут помочь нам понять концепции намного проще, особенно в таких областях, как машинное обучение и математика. https://github.com/kenjihiranabe/The-Art-of-Linear-Algebra
👍7
Kandinsky 2.2 — новый шаг в направлении фотореализма.

2023 год можно смело называть годом бурного развития генеративного искусственного интеллекта. Это касается не только привычной нам модальности изображений (Kandinsky 2.1, Stable Diffusion XL, IF, Шедеврум и др.), но и текстовой (ChatGPT, LLaMA, Falcon и др.), и даже модальности видео (GEN-2, CogVideo и др.). При этом ни в одном из направлений выделить объективного лидера почти невозможно — все команды стараются равномерно двигаться вперёд и повышать качество синтеза. Текстовые чат‑боты научились взаимодействовать с внешними системами посредством плагинов, синтез изображений вышел на уровень фотореалистичных генераций, длина генерируемых видео постепенно увеличивается с сохранением сюжетной связности между кадрами. И такой прогресс обусловлен уже не только наращиванием вычислительных мощностей, но и большим числом неординарных архитектурных решений, которые позволяют добиваться лучшего качества.

С момента выхода Kandinsky 2.1 (4 апреля 2023 года) прошло чуть больше трёх месяцев, и вот сегодня мы анонсируем новую версию модели в линейке 2.X. И если архитектурно модель не претерпела кардинальных изменений, то в части расширения функционала получила существенное развитие. В первую очередь, мы сделали упор на повышение качества генераций и их разрешении, а также новых возможностях синтеза изображений.

Читать далее https://habr.com/ru/companies/sberbank/articles/747446/
LangChain + Streamlit🔥+ Llama 🦙: перенос диалогового ИИ на ваш локальный компьютер 🤯
Интеграция LLM с открытым исходным кодом и LangChain для бесплатных генеративных ответов на вопросы (ключ API не требуется)

https://ai.plainenglish.io/%EF%B8%8F-langchain-streamlit-llama-bringing-conversational-ai-to-your-local-machine-a1736252b172
Библиотека графиков с открытым исходным кодом для статистических данных

Lets-Plot — это библиотека для построения статистических данных на Python. https://lets-plot.org/
Это отличное руководство по настройке среды разработки Python с помощью VScode и Docker. Он начинается с раздела, в котором объясняются преимущества каждого инструмента и то, как они хорошо работают вместе. Оттуда это простое пошаговое руководство по настройке всего.

https://github.com/RamiKrispin/vscode-python?utm_campaign
Llama 2: с открытым исходным кодом, бесплатно для исследований и коммерческого использования.

Мы раскрываем мощь этих больших языковых моделей. Наша последняя версия Llama — Llama 2 — теперь доступна для отдельных лиц, создателей, исследователей и компаний, чтобы они могли экспериментировать, внедрять инновации и масштабировать свои идеи ответственно. https://ai.meta.com/resources/models-and-libraries/llama/
🚀Стартапы

Microsoft и Meta расширяют партнерство в области ИИ с помощью Llama 2 в Azure и Windows (4 минуты чтения)
Meta и Microsoft объявили о поддержке Llama 2, семейства больших языковых моделей, в Azure и Windows, что знаменует его первый коммерческий релиз. Партнерство позволяет разработчикам создавать, настраивать и развертывать модели на базе Llama 2 в Azure, а также оптимизировать их для локального использования в Windows. https://blogs.microsoft.com/blog/2023/07/18/microsoft-and-meta-expand-their-ai-partnership-with-llama-2-on-azure-and-windows/

По сообщениям, Google предлагает новостным редакциям новый инструмент искусственного интеллекта (2 минуты чтения)
Google тестирует Genesis - инструмент искусственного интеллекта, предназначенный для помощи журналистам в создании новостных статей. Несмотря на эти нововведения, сохраняется опасение дезинформации и предвзятости в случае отсутствия точного надзора за такими инструментами. https://www.cnet.com/tech/computing/google-reportedly-pitching-new-ai-tool-to-newsrooms/

🧠Исследования & Инновации

Последние исследования компании DeepMind (2 минуты чтения)
Исследователи Google DeepMind представят на ICML в этом году более 80 новых докладов, включая демонстрацию AlphaFold, достижения в области науки о синтезе и новые модели, такие как PaLM-E для робототехники и Phenaki для генерации видео из текста. https://www.deepmind.com/blog/google-deepmind-research-at-icml-2023

Умножение матриц только с помощью сложения (21 минута чтения)
Умножение матриц занимает большую часть времени, затрачиваемого во многих алгоритмах машинного обучения. Таким образом, все больший интерес вызывают чипы-ускорители, которые выполняют умножение матриц быстрее, чем обычные процессоры или даже графические процессоры. В этой статье мы демонстрируем метод выполнения матричного умножения без схемы скалярного умножителя. https://arxiv.org/abs/2307.01415

👨‍💻Инженерия & Ресурсы

Библиотека AX learn от Apple (GitHub Repo)
Еще одна библиотека глубокого обучения, на этот раз от Apple, построенная поверх Jax. Примечательно, что он поддерживает параллелизм на основе компилятора для крупномасштабного обучения, чего нет в ряде других популярных фреймворков. https://github.com/apple/axlearn

Ollama (GitHub Repo)
Запуск и упаковка больших языковых моделей на macOS. https://github.com/jmorganca/ollama

RAGstack (GitHub Repo)
Развертывание частной альтернативы ChatGPT, размещенной в вашем VPC. Подключите его к базе знаний организации и используйте в качестве корпоративного оракула. Поддерживает LLM с открытым исходным кодом, такие как Llama 2, Falcon и GPT4All. https://github.com/psychic-api/rag-stack

🎁 Разное

Улучшение финансовых запросов с помощью openBB и LlamaIndex (4 минуты чтения)
Вместо того чтобы использовать векторное хранилище для прямого индексирования данных, можно использовать метаданные и существующий язык запросов для значительного повышения качества извлекаемых данных. https://openbb.co/blog/breaking-barriers-with-openbb-and-llamaIndex

Rust или Mojo для будущего искусственного интеллекта (8 минут чтения)
В этом блоге рассказывается о переделке тысячи строк C++ в функции opencv в несколько строк Mojo. https://mojodojo.dev/blog/2023-07-17-rust-or-mojo-ai.html

Строительные блоки генеративного ИИ (34 минуты чтения)
Хорошая, высокоуровневая дискуссия о ключевых компонентах, возникающих тенденциях и игроках индустрии, работающих в области генеративного ИИ. Здесь много информации о базовых моделях, вычислениях, фреймворках, оркестровке, тонкой настройке, синтетических данных и многом другом! https://shriftman.substack.com/p/the-building-blocks-of-generative
Учим ламу говорить на руском.

Тут я рассказывал как можно использовать магию низкорангового разложения (Low Rank Adaption) матриц для того что бы легко дообучать большие текстовые модели. Сейчас же я напишу свою реализацию LoRA используя PyTorch, переведу весь датасет alpaca-cleaned (на котором училась альпака - языковая модель родом из стенфорда) на русский язык, используя взломаный яндекс переводчик, и наконец "скормлю" его языковой модели, что бы она наконец смогла понимать русский язык.

Советую ознакомится с кратким теоретическим описанием происходящего (хотя вроде как такие просьбы не работют()

Читать далееhttps://habr.com/ru/articles/749864/
Глубокое обучение прогнозирует смертность от всех причин на основе однократной и последовательной визуализации состава тела

Комбинация визуализации состава тела и метаданных (например, возраст, пол, сила хвата, скорость ходьбы и т. д.) позволила получить наилучшие прогнозы смертности на 10 лет. https://towardsdatascience.com/final-dxa-nation-f0309d718980
Локальный запуск Llama 2 на CPU Inference для вопросов и ответов по документу

Четко объясненное руководство по запуску квантованных приложений LLM с открытым исходным кодом на процессорах с использованием Llama 2, C Transformers, GGML и LangChain.

https://towardsdatascience.com/running-llama-2-on-cpu-inference-for-document-q-a-3d636037a3d8
В обширной сфере машинного обучения две выдающиеся техники добились значительных успехов в преобразовании того, как мы генерируем новые данные и анализируем визуальный контент: генеративно-состязательные сети (GAN) и сверточные нейронные сети (CNN). Присоединяйтесь к нам в этом путешествии, пока мы погружаемся в увлекательный мир GAN и CNN, понимаем их уникальные возможности и изучаем новаторские приложения, которые они позволяют использовать.

https://medium.com/@rajveersanghavi167/exploring-gans-and-cnns-unleashing-creativity-and-analyzing-visual-world-introduction-in-the-9da56b84518d
Звериные алгоритмы: какими представителями животного мира вдохновлялись исследователи для создания алгоритмов.

По мере развития технологий в мире появляется все больше различных технологических алгоритмов. Часть из названы в честь ученых, имеющих отношение к их разработке, другая часть имеет простые (или не очень простые) «сухие» названия или же забавные наименования, например, коктейльная сортировка (Cocktail shaker sort), в русском языке называемая просто — «сортировка перемешиванием». Сегодня поговорим про алгоритмы, названные в честь различных представителей животного мира.

Читать далее https://habr.com/ru/companies/rshb/articles/749930/
266-страничный БЕСПЛАТНЫЙ PDF-файл — вероятности и статистика , руководство, используемое для подготовки студентов первого курса #математики в Кембриджском университете: https://leibnizmathema.files.wordpress.com/2020/08/cambridge-international-as-a-level-mathematics-probability-statistics-1-coursebook-cambridge-assessment-international-education-by-dean-chalmers-julian-gilbey-leibniz-math.org-1-1.pdf