Big data world
2.35K subscribers
412 photos
64 videos
18 files
1.25K links
Интересные статьи Data Science : Big Data : Machine Learning : Deep Learning

По вопросам сотрудничества- @Daily_admin_info

По иным темам @un_ixtime
Download Telegram
Стоимость языковых моделей для одних языков в 10 раз выше, чем для других

Этот процесс токенизации неодинаков для разных языков, что приводит к несоответствию количества токенов, созданных для эквивалентных выражений на разных языках. Например, для предложения на бирманском или амхарском языке может потребоваться в 10 раз больше токенов, чем для аналогичного сообщения на английском языке.

https://blog.yenniejun.com/p/all-languages-are-not-created-tokenized
rapidsave.com_umyz0u9fsl0b1.gif
14.7 MB
Тайпи превращает данные и алгоритмы искусственного интеллекта в полноценные веб-приложения в кратчайшие сроки.

https://github.com/Avaiga/taipy
This media is not supported in your browser
VIEW IN TELEGRAM
Синтез визуального контента, отвечающего потребностям пользователей, часто требует гибкого и точного управления позой, формой, выражением и расположением сгенерированных объектов. Существующие подходы обеспечивают управляемость генеративно-состязательными сетями (GAN) с помощью аннотированных вручную обучающих данных или предшествующей трехмерной модели, которым часто не хватает гибкости, точности и универсальности. В этой работе мы изучаем мощный, но гораздо менее изученный способ управления GAN, то есть «перетаскивание» любых точек изображения для точного достижения целевых точек в интерактивном режиме

https://huggingface.co/papers/2305.10973
👍3❤‍🔥1
Как развернуть сложные модели как Transformers и подружить их с инфраструктурой? Как сделать предобработку текста для классификации отзывов?

Благодаря глубоким знаниям предметной области Natural Language Processing вы сможете ответить на эти вопросы.

На курсе по обработке естественного языка (NLP) вы научитесь грамотно извлекать информацию из текста, решать задачи информационного поиска, распознания речи и генерации текста. Погружаться в область вы будете под руководством экспертов из Digital habits, EORA, Ozon Tech и Delivery Hero.

Всю теорию вы будете отпрабатывать на практических заданиях. Дополнительно вы получите доступ к мастер-классам с примерами реальных проектов по NLP, которые потом сможете реализовать у себя в компании.

На курсе Easy NLP вы получите необходимые знания для работы специалистом в данной области, а также разберете все нестандартные ситуации и сложные моменты.

Старт потока 19 июня, присоединяйтесь по ссылке
Промокод (всего 10 штук) на скидку 5% EASYNLPBIGDATA
Создайте собственную систему распознавания лиц с помощью Python за считанные минуты

Эта концепция известна как однократное обучение. Она отличается от традиционных моделей распознавания изображений тем, что вам требуется только одно изображение человека, которого вы хотите распознать, и вам не нужно «обучать модель» распознаванию этого человека.

Если у вас есть IPhone — вы можете вспомнить момент, когда вы впервые распаковали его и настроили свой faceid — он сделал только одну (или, возможно, несколько) фотографию вашего лица, и все. Эти изображения не использовались для обучения модели машинного обучения распознаванию вашего конкретного лица. https://danilzherebtsov.medium.com/build-your-own-face-recognition-system-with-python-in-minutes-6325eb03d0b9
Как я повторно реализовал PyTorch для WebGPU

Я работал над оптимизированной для WebGPU библиотекой вывода и автоградации под названием webgpu-torch с API, соответствующим PyTorch. Цель состоит в том, чтобы запускать нейронные сети в браузере со скоростью, сравнимой с рабочей станцией Linux. Было реализовано много ядер, и его конструкция легко расширяется. Теперь он доступен в NPM и работает как в браузере, так и в Node.js! https://praeclarum.org/2023/05/19/webgpu-torch.html
ONE-PEACE: универсальная модель для задач зрения, аудио и языка (GitHub Repo)

ONE-PEACE - это новая модель, которая превосходно понимает изображения, звуки и слова, без необходимости начинать с предварительно обученной модели, и показывает исключительные результаты в задачах, связанных со зрением, звуком и языком. Он также обладает уникальной функцией, которая позволяет ему находить связи между различными типами данных, которые он раньше не видел вместе, а его гибкая структура означает, что в будущем он может использоваться с большим количеством типов данных. https://github.com/OFA-Sys/ONE-PEACE

SuperAgent (GitHub Repo)

SuperAgent - это мощный инструмент, который упрощает конфигурирование и развертывание агентов LLM (Large Language Model) на производстве. https://github.com/homanp/superagent
Узнайте, как точно настроить большие языковые модели (LLM) в пользовательском наборе данных. Мы будем использовать Lit-Parrot , основанную на nanoGPT реализацию модели GPT-NeoX,
которая поддерживает модели StableLM , Pythia и RedPajama-INCITE .

Вы можете точно настроить эти модели, чтобы адаптировать их к вашей конкретной задаче, например, обучить чат-бота отвечать на финансовые вопросы.

https://lightning.ai/pages/blog/how-to-finetune-gpt-like-large-language-models-on-a-custom-dataset/
Scikit-LLM: НЛП с ChatGPT в Scikit-Learn

Легко интегрируйте мощные языковые модели, такие как ChatGPT, в scikit-learn для расширенных задач анализа текста. https://shly.link/mdmEQvu
Пост для тех, кто думает, что в ИТ сложно вырасти в карьере ⬇️

Университет Иннополис предлагает поступить в онлайн-магистратуру на специальности:

👨‍🎓«Управление цифровым продуктом»

👨‍🎓«Управление на основе данных»

Что мы предлагаем:

▫️Полностью дистанционное обучение, возможность подключиться к лекции и семинару из любой точки мира

▫️Студенчество в одном из передовых ИТ-университетов России, имеющем государственную аккредитацию

▫️Преподавателей мирового уровня с высоким h-индексом

▫️Годовую стажировку в компании, специализирующейся на технологиях

▫️Возможность создать свой стартап или возглавить команду в крупном проекте

▫️ Рассрочку на оплату

☝🏻 Вы не просто получите знания, но и научитесь применять их под присмотром крутых наставников и высококлассных ИТ-специалистов!

Переходите по ссылке, чтобы узнать о программах обучения и своей будущей зарплате подробнее, подписывайтесь на наш канал.
ControlVideo: Генерация текста в видео с улучшенной последовательностью и качеством (GitHub Repo)

ControlVideo - это новая система, которая решает проблемы, связанные с созданием видео из текста, путем внедрения подхода, не требующего обучения. Используя структурную согласованность, улучшая связность внешнего вида, смягчая эффекты мерцания и применяя иерархическую выборку, ControlVideo превосходит существующие методы в генерации высококачественного видео, как короткого, так и длинного. Важно отметить, что ControlVideo достигает таких результатов эффективно, генерируя видео в течение нескольких минут с помощью одного графического процессора NVIDIA 2080Ti. https://github.com/YBYBZhang/ControlVideo

ChainForge (GitHub Repo)

Среда визуального программирования с открытым исходным кодом для тестирования подсказок для LLM. https://github.com/ianarawjo/ChainForge

LoopGPT (GitHub Repo)

LoopGPT - это повторная реализация популярного проекта Auto-GPT в виде соответствующего пакета python, написанного с учетом модульности и расширяемости. https://github.com/farizrahman4u/loopgpt
Распознавание эмоций ИИ с помощью компьютерного зрения

Компьютерное зрение — одна из наиболее широко используемых и развивающихся областей ИИ. Это дает компьютеру возможность наблюдать и учиться на визуальных данных так же, как люди. В этом процессе компьютер извлекает значимую информацию из цифровых изображений, видео и т. д. и применяет это обучение для решения проблем. https://heartbeat.comet.ml/ai-emotion-recognition-using-computer-vision-61fe49fc7c33
Миссия выполнима: как Smart Engines обучила нейросеть распознавать все страницы паспорта РФ и находить подделки

Восемь лет упорного труда, немного удачи и ... девять из тринадцати крупнейших банков России наши клиенты. В этой статье мы расскажем, как мы решили задачу распознавания (даже в темноте) и проверки подлинности паспорта и почему корпорации теперь отказываются от ручного ввода данных (спойлер: чтобы не утекли). https://habr.com/ru/companies/smartengines/articles/731230/
Forwarded from Базы данных
В этой статье мы демонстрируем мощный новый механизм запросов ( SQLAutoVectorQueryEngine) в LlamaIndex, который может использовать как базу данных SQL, так и векторное хранилище для выполнения сложных запросов на естественном языке по сочетанию структурированных и неструктурированных данных. Этот механизм запросов может использовать выразительность SQL для структурированных данных и объединять их с неструктурированным контекстом из векторной базы данных. Мы продемонстрируем этот механизм запросов на нескольких примерах и покажем, что он может обрабатывать запросы, использующие как структурированные, так и неструктурированные данные, или и то, и другое.
https://shly.link/mdmudhD
Создайте ChatGPT с вашими личными данными, используя LlamaIndex и MongoDB

Модели больших языков (LLM), такие как ChatGPT, произвели революцию в том, как пользователи могут получать ответы на свои вопросы. Однако «знания» LLM ограничены тем, чему они обучались, что для ChatGPT означает общедоступную информацию в Интернете до сентября 2021 года. Как LLM могут отвечать на вопросы, используя частные источники знаний, такие как данные вашей компании, и раскрывать ее истинную преобразующую силу. ? https://medium.com/llamaindex-blog/build-a-chatgpt-with-your-private-data-using-llamaindex-and-mongodb-b09850eb154c

Повышение производительности машинного обучения с помощью Rust

Rust + LibTorch = увеличение скорости обучения в 5,5 раз на Python + PyTorch https://shly.link/XVmNc
Лучшее описание обратного распространения, которое я когда-либо видел ))
Chain of Hidsight согласовывает языковые модели с обратной связью

Языковые модели ИИ становятся важной частью нашего цифрового мира. Однако проблема заключается в том, чтобы привести эти модели в соответствие с человеческими предпочтениями, чтобы они были действительно полезными и ценными. Современные методы, хотя и успешны во многих отношениях, имеют ограничения: они либо неэффективны в использовании данных, либо сильно зависят от сложных функций вознаграждения и обучения с подкреплением.

А вот и «Цепочка ретроспективного взгляда», захватывающая новая техника, вдохновленная механизмами человеческого обучения. Он может учиться на любой форме обратной связи, даже преобразовывая ее в язык для точной настройки модели. Этот подход обусловливает модель последовательностью поколений моделей в сочетании с обратной связью, помогая ей научиться исправлять отрицательные атрибуты или ошибки. Он значительно превосходит предыдущие методы, особенно демонстрируя большие успехи в задачах подведения итогов и диалога.
Ссылка на статью: https://arxiv.org/abs/2302.02676

Подробный неофициальный обзор статьи: https://andlukyane.com/blog/paper-review-coh
Первый дееспособный, коммерчески жизнеспособный LLM общего назначения с открытым исходным кодом, который превосходит все LLM Big Tech, появился в ОАЭ.

Доктор Эбтесам Алмазроуи, директор кросс-центрового подразделения искусственного интеллекта в TII, сказал: «Отказ от лицензионных платежей за Falcon 40B способствует инклюзивным технологическим достижениям для сплоченного общества. Мы стремимся использовать технологии для объединения человечества и обеспечения будущего нашего мира».

Для получения дополнительной информации о текущей модели искусственного интеллекта Falcon 40B с открытым исходным кодом и о регистрации посетите: FalconLLM.TII.ae

Чтобы узнать рейтинг Falcon 40B, посетите: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard