pandas_cheatsheet.pdf
2.6 MB
В этой шпаргалке вы найдёте несколько страниц полезных шпаргалок по базовым командам и конкретным задачам.
#шпаргалка #pandas
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤3
Трансформеры js py 🤗.
Используйте
Оригинальный Transformers нельзя использовать в браузерной среде. Transformers.js - это JavaScript-версия Transformers, которая может работать в браузерах.
Этот пакет представляет собой обертку Transformers.js, чтобы проксировать его API в Pyodide.
https://github.com/whitphx/transformers.js.py
@bigdatai
Используйте
Transformers.js в Pyodide и основанных на Pyodide фреймворках, таких как JupyterLite, stlite (Streamlit), Shinylive (Shiny for Python), PyScript, HoloViz Panel и так далее.
Оригинальный Transformers нельзя использовать в браузерной среде. Transformers.js - это JavaScript-версия Transformers, которая может работать в браузерах.
Этот пакет представляет собой обертку Transformers.js, чтобы проксировать его API в Pyodide.
https://github.com/whitphx/transformers.js.py
@bigdatai
GitHub
GitHub - whitphx/transformers.js.py
Contribute to whitphx/transformers.js.py development by creating an account on GitHub.
❤5👍2🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ GitHub запускает Copilot Autofix для автоматического устранения ошибок в коде.
▪Инструмент анализирует код и предлагает решения для исправления ошибок, используя ИИ Copilot от GitHub, аналитический движок CodeQL и GPT-4.
▪Бета-тестирование показало, что инструмент сокращает время на поиск и устранение уязвимостей в три раза и более.
▪Например, вручную исправление ошибок XSS обычно занимает три часа, а с помощью Copilot Autofix это удалось сделать за 22 минуты. Время исправления дефектов SQL-инъекций сократилось с 4 часов до 18 минут.
Все это станет доступно бесплатно с сентября 2024 года для всех проектов с открытым исходным кодом, размещенных на платформе.
https://github.blog/news-insights/product-news/secure-code-more-than-three-times-faster-with-copilot-autofix/
@bigdatai
▪Инструмент анализирует код и предлагает решения для исправления ошибок, используя ИИ Copilot от GitHub, аналитический движок CodeQL и GPT-4.
▪Бета-тестирование показало, что инструмент сокращает время на поиск и устранение уязвимостей в три раза и более.
▪Например, вручную исправление ошибок XSS обычно занимает три часа, а с помощью Copilot Autofix это удалось сделать за 22 минуты. Время исправления дефектов SQL-инъекций сократилось с 4 часов до 18 минут.
Все это станет доступно бесплатно с сентября 2024 года для всех проектов с открытым исходным кодом, размещенных на платформе.
https://github.blog/news-insights/product-news/secure-code-more-than-three-times-faster-with-copilot-autofix/
@bigdatai
❤11🔥4👍2👾1
Forwarded from Machinelearning
Zamba2-mini - гибридная модель c 1.2B параметров, построенная из блоков state-space Mamba (SSM) и transformer.
Модель создана на общей архитектуре Zamba, но отличается от большей модели 2.7B тремя особенностями:
Zamba2-mini использует токенизатор Mistral v0.1 и была предварительно обучена на 3 триллионах токенов текстовых данных и коде различных языков программирования, полученных из открытых веб-наборов данных, к которым был добавлен собственный корпу данных Zyda.
Впоследствии, на втором этапе Zamba2-mini была подвергнута дополнительной фазе агрессивного снижения скорости обучения на смеси из 100B высококачественных токенов.
Zamba2-mini показала в тестах результаты, сопоставимые с моделями с параметрами <2B и может конкурировать с некоторыми LLM большего размера.
Благодаря уникальной гибридной архитектуре SSM Zamba2-mini демонстрирует низкие задержки логического вывода и быструю генерацию при значительно меньшем потреблении VRAM, чем другие модели такой же плотности параметров на основе трансформеров.
Такие характеристики делает ее идеальной универсальной моделью для приложений на устройствах.
⚠️ Примечание: Zamba2-mini еще не полностью совместима со всеми фреймворками и инструментами HuggingFace.
Реализацию Zamba2-1.2B для Pytorch можно найти здесь.
# Clone repositiry
git clone https://github.com/Zyphra/transformers_zamba2.git
#Install requirments:
cd transformers_zamba2
pip install -e .
pip install accelerate
#Inference
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
tokenizer = AutoTokenizer.from_pretrained("Zyphra/Zamba2-1.2B")
model = AutoModelForCausalLM.from_pretrained("Zyphra/Zamba2-1.2B", device_map="cuda", torch_dtype=torch.bfloat16)
input_text = "A funny prompt would be "
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**input_ids, max_new_tokens=100)
print(tokenizer.decode(outputs[0]))
@ai_machinelearning_big_data
#AI #SLM #Mamba #ML #Zamba2mini
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤1🔥1
Forwarded from Machinelearning
LongVILA, полнофункциональное решение на основе LLaVA, разработанное NVLabs, для длинноконтекстных VLM, включающее программный набор, претрейн-моделей и разработку набора данных для обучения.
Программная реализация основывается на Multi-Modal Sequence Parallelism (MM-SP).
Это распределенный фреймворк для обучения и вывода, который предназначен для визуальных языковых моделей (VLM) с длинным контекстом. Он решает сложную задачу обработки огромных объемов данных и вычислений, необходимых для обучения и развертывания VLM на длинных видео.
Ядром MM-SP является двухэтапная стратегия шардинга и механизм 2D-внимания.
На первом этапе изображения равномерно распределяются по устройствам, обеспечивая сбалансированное кодирование изображений.
Второй этап включает в себя шардинг токенов уровня глобального зрения и текстовых входных данных с добавлением фиктивных токенов для совместимости с кольцевым вниманием.
Механизм 2D-внимания повышает эффективность в MM-SP, объединяя кольцевой стиль и стиль Улисса (Ulysses) последовательного параллелизма, используя внутриузловое общение All-2-All и межузловое общение P2P.
MM-SP распределяет вычислительную нагрузку по нескольким устройствам позволяя проводить обучение и вывод на чрезвычайно длинных последовательностях. Кроме того гибридная стратегия параллелизма минимизирует накладные расходы на связь еще больше улучшая пропускную способность обучения и сокращая время вывода.
Полный стек решения LongVILA расширяет число возможных кадров VILA в 128 раз (с 8 до 1024 кадров) и улучшает оценку аннотирования длинных видео с 2,00 до 3,26 (в 1,6 раза), демонстрируя 99,5% точности в 1400-кадровом видео (длина контекста 274k).
Претрейн модели основаны на Llama-3-8B и предназначены для рассуждений с использованием нескольких изображений и имеют навык визуальной цепочки мышления.
Опубликованы 3 модели:
Эти модели были обучены на 53 миллионах пар "изображение-текст" и могут быть развернуты на конечных устройствах от Jetson Orin для FP16 версий до потребительских ноутбуков в квантованной 4-bit размерности через TinyChat.
@ai_machinelearning_big_data
#AI #NVLab #VLM #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤1🔥1
Генерация с расширением таблиц (TAG) - это унифицированная парадигма общего назначения для ответа на вопросы на естественном языке с использованием баз данных.
Text2SQL представляет широкий спектр взаимодействий между LM и базой данных, которые ранее не применялись в таких методах, как Text2SQL и RAG.
📚 Статья: https://arxiv.org/abs/2408.14717
🛠️ Код: https://github.com/tag-research/tag-bench
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
arXiv.org
Text2SQL is Not Enough: Unifying AI and Databases with TAG
AI systems that serve natural language questions over databases promise to unlock tremendous value. Such systems would allow users to leverage the powerful reasoning and knowledge capabilities of...
👍3❤2🔥2
Представители крупных брендов расскажут, какие технологии используют для создания метавёрса, где его можно применять и как он помогает бизнесу.
Совсем скоро обсудим:
Вход бесплатный, но нужна предварительная регистрация.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️Spann3R: 3D-реконструкция с пространственной памятью
Duster снова в ударе!
▪ Статья: https://arxiv.org/abs/2408.16061
▪ Проект: https://hengyiwang.github.io/projects/spanner
@bigdatai
Duster снова в ударе!
▪ Статья: https://arxiv.org/abs/2408.16061
▪ Проект: https://hengyiwang.github.io/projects/spanner
@bigdatai
❤3👍1
Событие пройдет 14 сентября в Москве в пространстве «Суперметалл», для участия нужно зарегистрироваться и получить приглашение. Также будет доступна онлайн-трансляция докладов.
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤1
—
pip install txtai
Особенности txtai:
— Имеет векторный поиск с SQL, хранение объектов, анализ графов и мультимодальное индексирование
— Поддерживает создание эмбеддингов для текста, документов, аудио, изображений и видео
— Позволяет создавать конвейеры на основе языковых моделей для выполнения подсказок LLM, ответов на вопросы, маркировки, транскрипции, перевода, резюмирования и т. д.
— Можно запускать локально или масштабировать с помощью оркестрации контейнеров
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤2🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
🔥MLR-Copilot: автономные ресерчеры в области машинного обучения, работающие с помощью агентов LLM, которые:
→ генерируют идеи для исследований
→ проводят эксперименты
→ выполняют реализацию с обратной связью от человека
📑 Статья https://arxiv.org/abs/2408.14033
🔨Code https://github.com/du-nlp-lab/MLR-Copilot
🤗Demo https://huggingface.co/spaces/du-lab/MLR-Copilot
@bigdatai
→ генерируют идеи для исследований
→ проводят эксперименты
→ выполняют реализацию с обратной связью от человека
📑 Статья https://arxiv.org/abs/2408.14033
🔨Code https://github.com/du-nlp-lab/MLR-Copilot
🤗Demo https://huggingface.co/spaces/du-lab/MLR-Copilot
@bigdatai
👍5❤2🔥1
Forwarded from Machinelearning
Новостной дайджест
✔️ Laion перевыпустит датасет Laion 5B.
Laion 5B - крупнейший открытый набор данных изображений в интернете. Он был изъят из публичного доступа из-за претензий о содержавшихся в нем неуместных и неэтических изображениях.
Новый набор данных, Re-LAION-5B создан в сотрудничестве Laion с организациями Internet Watch Foundation (IWF) и Canadian Center for Child Protection (C3P).
В процессе обновления было удалено 2236 ссылок, которые были идентифицированы как потенциально ведущие к подозрительному контенту. Новый набор данных Re-LAION-5B содержит 5,5 миллиардов пар текст-ссылка-изображение и будет доступен для скачивания в двух версиях: Re-LAION-5B research и Re-LAION-5B research-safe под лицензией Apache 2.0.
laion.ai
✔️ Pixar следующего поколения: как искусственный интеллект объединит фильмы и игры.
Большая статья о будущем анимационной индустрии и её трансформации благодаря новым технологиям на сайте венчурного фонда Andreessen Horowitz.
Основное внимание статьи уделяется тому, как искусственный интеллект и другие цифровые инструменты меняют процесс создания анимации.
Авторы приводят примеры стартапов и компаний, которые уже используют технологии ИИ для создания высококачественной анимации с меньшими затратами времени и ресурсов. Предполагается, что такие изменения могут привести к появлению новых форматов контента и расширению возможностей для независимых аниматоров.
a16z.com
✔️ Sam Altman, Bill Gates и создатель Youtube примут участие в TВ-шоу на канале ABC.
Oprah Winfrey анонсировала новый спецвыпуск о будущем искусственного интеллекта "AI and the Future of Us". В шоу примут участие : генеральный директор OpenAI Sam Altman, Bill Gates, Директор ФБР Christopher Wray и создатель Youtube Marques Brownlee.
В программе будут обсуждаться основы ИИ, его влияние на образование, здравоохранение и другие отрасли, а также его потенциальное воздействие на правоохранительные органы и национальную безопасность. На шоу будут продемонстрированы существующие продукты со встроенным ИИ.
Шоу выйдет в эфир на канале ABC 12 сентября в 20:00 EST и будет доступна для просмотра на платформе Hulu на следующий день.
Участие в шоу Oprah Winfrey является признаком того, что ИИ становится все более популярной и важной темой в обществе.
techradar.com
✔️ Новая архитектура нейронных сетей может сделать ИИ более понятными.
Новая архитектура нейронных сетей, Kolmogorov-Arnold Networks (KANs), может сделать искусственный интеллект более интерпретируемым. KANs отличаются от традиционных нейронных сетей тем, что они используют более простые и понятные человеку функции для преобразования входных данных.
Эксперименты, проведенные в MIT и других институтах показали, что KANs могут быть более точными чем традиционные нейронные сети, но обучение KANs требует больше времени и вычислительных ресурсов, чем традиционные нейронные сети.
technologyreview.com
✔️ Новый метод непрерывного дообучения моделей компьютерного зрения и языка.
В опубликованном исследовании предложен новый подход к непрерывному дообучению зрительных и языковых моделей, который учитывает реальные требования их развертыванию в практических приложениях.
Исследование включает в себя четыре направления: влияния различных комбинаций данных и порядка их поступления на процесс дообучения, сравнение различных методов дообучения, изучение влияния мета-LR и планировщиков на процесс дообучения и анализ влияния масштабирования модели и вычислительных ресурсов на процесс дообучения.
Результаты исследования дают практические рекомендации для непрерывного дообучения моделей. Дополнительно, предложена концепция платформы FoMo-in-Flux, которая будет оценивать эффективность методов дообучения.
arxiv.org
@ai_machinelearning_big_data
#news #ai #ml
Laion 5B - крупнейший открытый набор данных изображений в интернете. Он был изъят из публичного доступа из-за претензий о содержавшихся в нем неуместных и неэтических изображениях.
Новый набор данных, Re-LAION-5B создан в сотрудничестве Laion с организациями Internet Watch Foundation (IWF) и Canadian Center for Child Protection (C3P).
В процессе обновления было удалено 2236 ссылок, которые были идентифицированы как потенциально ведущие к подозрительному контенту. Новый набор данных Re-LAION-5B содержит 5,5 миллиардов пар текст-ссылка-изображение и будет доступен для скачивания в двух версиях: Re-LAION-5B research и Re-LAION-5B research-safe под лицензией Apache 2.0.
laion.ai
Большая статья о будущем анимационной индустрии и её трансформации благодаря новым технологиям на сайте венчурного фонда Andreessen Horowitz.
Основное внимание статьи уделяется тому, как искусственный интеллект и другие цифровые инструменты меняют процесс создания анимации.
Авторы приводят примеры стартапов и компаний, которые уже используют технологии ИИ для создания высококачественной анимации с меньшими затратами времени и ресурсов. Предполагается, что такие изменения могут привести к появлению новых форматов контента и расширению возможностей для независимых аниматоров.
a16z.com
Oprah Winfrey анонсировала новый спецвыпуск о будущем искусственного интеллекта "AI and the Future of Us". В шоу примут участие : генеральный директор OpenAI Sam Altman, Bill Gates, Директор ФБР Christopher Wray и создатель Youtube Marques Brownlee.
В программе будут обсуждаться основы ИИ, его влияние на образование, здравоохранение и другие отрасли, а также его потенциальное воздействие на правоохранительные органы и национальную безопасность. На шоу будут продемонстрированы существующие продукты со встроенным ИИ.
Шоу выйдет в эфир на канале ABC 12 сентября в 20:00 EST и будет доступна для просмотра на платформе Hulu на следующий день.
Участие в шоу Oprah Winfrey является признаком того, что ИИ становится все более популярной и важной темой в обществе.
techradar.com
Новая архитектура нейронных сетей, Kolmogorov-Arnold Networks (KANs), может сделать искусственный интеллект более интерпретируемым. KANs отличаются от традиционных нейронных сетей тем, что они используют более простые и понятные человеку функции для преобразования входных данных.
Эксперименты, проведенные в MIT и других институтах показали, что KANs могут быть более точными чем традиционные нейронные сети, но обучение KANs требует больше времени и вычислительных ресурсов, чем традиционные нейронные сети.
technologyreview.com
В опубликованном исследовании предложен новый подход к непрерывному дообучению зрительных и языковых моделей, который учитывает реальные требования их развертыванию в практических приложениях.
Исследование включает в себя четыре направления: влияния различных комбинаций данных и порядка их поступления на процесс дообучения, сравнение различных методов дообучения, изучение влияния мета-LR и планировщиков на процесс дообучения и анализ влияния масштабирования модели и вычислительных ресурсов на процесс дообучения.
Результаты исследования дают практические рекомендации для непрерывного дообучения моделей. Дополнительно, предложена концепция платформы FoMo-in-Flux, которая будет оценивать эффективность методов дообучения.
arxiv.org
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤2🔥2
⭐️ Крутой проект на Github - openperplex - поисковая система искусственного интеллекта с открытым исходным кодом
- Полный поиск с источниками, цитатами и соответствующими вопросами
- Простой поиск для быстрых ответов
- Потоковый поиск для обновлений в реальном времени
- Поиск содержимого сайта (текст, разметка и даже скриншоты!)
- Запрос на основе URL
- Бесплатный уровень: 500 запросов в месяц
https://github.com/YassKhazzan/openperplex_backend_os
@bigdatai
- Полный поиск с источниками, цитатами и соответствующими вопросами
- Простой поиск для быстрых ответов
- Потоковый поиск для обновлений в реальном времени
- Поиск содержимого сайта (текст, разметка и даже скриншоты!)
- Запрос на основе URL
- Бесплатный уровень: 500 запросов в месяц
https://github.com/YassKhazzan/openperplex_backend_os
@bigdatai
👍7❤3🔥2👎1