🛠 Improving Long Document Topic Segmentation Models With Enhanced Coherence Modeling
SpokenNLP: Официальный репозиторий кодовых баз по самым разным исследовательским проектам, разработанным командой
🖥 Github: https://github.com/alibaba-damo-academy/spokennlp
📕 Paper: https://arxiv.org/pdf/2310.11772v1.pdf
🚀 Dataset: https://paperswithcode.com/dataset/wikisection
ai_machinelearning_big_data
SpokenNLP: Официальный репозиторий кодовых баз по самым разным исследовательским проектам, разработанным командой
SpokenNLP Speech Lab, Alibaba DAMO Academy.
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥2❤1
📑 DocXChain: A Powerful Open-Source Toolchain for Document Parsing and Beyond
DocXChain - мощный инструментарий с открытым исходным кодом для синтаксического анализа документов, предназначенный для автоматического преобразования разнородной информации, содержащейся в неструктурированных документах, таких как текст, таблицы и диаграммы, схемы в структурированные представления, доступные для машинного чтения и манипулирования.
🖥 Github: https://github.com/alibabaresearch/advancedliteratemachinery
📕 Paper: https://arxiv.org/abs/2310.12430v1
🚀 Damo: https://damo.alibaba.com/labs/language-technology
ai_machinelearning_big_data
DocXChain - мощный инструментарий с открытым исходным кодом для синтаксического анализа документов, предназначенный для автоматического преобразования разнородной информации, содержащейся в неструктурированных документах, таких как текст, таблицы и диаграммы, схемы в структурированные представления, доступные для машинного чтения и манипулирования.
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17🔥5❤3
🐾 Putting the Object Back into Video Object Segmentation (Cutie)
Cutie - это фреймворк для сегментации видеообъектов, обладающий большей высокой производительностью, устойчивостью и скоростью.
Cutie четко отделяет семантику объекта переднего плана от фона. На сложном наборе данных MOSE Cutie превосходит все предыдущие методы сегментации.
🖥 Github: https://github.com/hkchengrex/Cutie
🖥 Colab: https://colab.research.google.com/drive/1yo43XTbjxuWA7XgCUO9qxAi7wBI6HzvP?usp=sharing
📕 Paper: https://arxiv.org/abs/2310.12982v1
🚀 Project: https://hkchengrex.github.io/Cutie/
ai_machinelearning_big_data
Cutie - это фреймворк для сегментации видеообъектов, обладающий большей высокой производительностью, устойчивостью и скоростью.
Cutie четко отделяет семантику объекта переднего плана от фона. На сложном наборе данных MOSE Cutie превосходит все предыдущие методы сегментации.
git clone https://github.com/hkchengrex/Cutie.git
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14❤2🔥1🤔1
🦙AgentTuning: Enabling Generalized Agent Abilities For LLMs.
AgentTuning - простой и эффективный метод расширения агентских возможностей для решения сложных задачи реального мира при сохранении всех возможностей ЛЛМ.
AgentTuning содержит датасет 1866 высококачественных взаимодействий, предназначенных для улучшения работы ИИ-агентов в 6 различных реальных задачах.
🖥 Github: https://github.com/THUDM/AgentTuning
📕 Paper: https://arxiv.org/abs/2310.12823
🤗 Model: https://huggingface.co/THUDM/agentlm-70b
🚀 Dataset: https://huggingface.co/datasets/THUDM/AgentInstruct
⭐️ Project: https://thudm.github.io/AgentTuning/
ai_machinelearning_big_data
AgentTuning - простой и эффективный метод расширения агентских возможностей для решения сложных задачи реального мира при сохранении всех возможностей ЛЛМ.
AgentTuning содержит датасет 1866 высококачественных взаимодействий, предназначенных для улучшения работы ИИ-агентов в 6 различных реальных задачах.
🤗 Model: https://huggingface.co/THUDM/agentlm-70b
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥4❤3
AutoGen provides multi-agent conversation framework as a high-level abstraction.
AutoGen - это фреймворк от Майкрософт, позволяющий разрабатывать LLM-приложения с использованием нескольких агентов, способных взаимодействовать друг с другом для решения задач. Агенты AutoGen настраиваются, общаются и легко допускают участие человека.
Агенту можно поручить действовать в качестве кодера, пишущего код на основе промыта. Второму агенту можно назначить роль ревьюера кода, который указывает на ошибки в коде. После обмена сообщениями агенты отдают пользователю финальный код с пояснениями.
Такой подход приводит к значительному повышению эффективности работы генеративных моделей – по данным Microsoft, AutoGen может ускорить написание кода в несколько раз.
🤗 FLAML.: https://github.com/microsoft/FLAML
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍23❤4🔥3🥰1
Новая модель диффузии для генерации многоракурсных 3D изображений из одного изображения. Фреймворк позволяет получать высококачественные изображения, решая такие распространенные проблемы, как деградация текстуры и геометрическое несоответствие генерации.
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16🔥4❤2
Hallucination Correction for MLLMs. The first work to correct hallucination in multimodal large language models.
Большие языковые модели могут вызывать галлюцинации и генерировать ложную информацию, что приводит к потенциальной дезинформации и путанице.
Для борьбы с галлюцинациями в современных исследованиях в основном используется метод настройки по инструкции, требующий переобучения моделей на конкретных данных.
В данной работе предлагается иной подход, представляя метод не требующий переобучения модели, который называется Woodpecker.
Woodpecker работает в 5 этапов: извлечение ключевых понятий, формулировка вопроса, визуальная проверка знаний, формирование визуального утверждения и коррекция галлюцинаций. Реализованный по принципу постредактирования, Woodpecker может легко работать с различными МЛЛМ, оставаясь при этом эффективным за счет доступа к промежуточным результатам работы модели.
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11❤3🔥3😁2
AudioSet pre-trained models ready for downstream training and extraction of audio embeddings.
Трансформеры доминируют в области по работе с адуио и заменили CNN в качестве современной нейросетевой архитектуры.
Трансформеры отлично справляются с огромными аудио датасетами и подходят для создания мощных предварительно обученных моделей.
Однако трансформеры являются сложными моделями и масштабируются квадратично по отношению к длине данных, что делает их медленными.
В данной модели используются динамические CNN, которые достигают лучшей производительности на задачах разметки аудио данных и хорошо масштабируются, достигая производительности трансформеров и даже превосходя их.
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11❤2🔥1🙈1
🕵️ Detecting Pretraining Data from Large Language Models
Датасет WikiMIA служит бенчмарком, предназначенным для обнаружения данных предварительного обучения.
🖥 Github: https://github.com/swj0419/detect-pretrain-code
📕 Paper: https://arxiv.org/pdf/2310.16789.pdf
📘 WikiMIA Benchmark:
⏩ Project: https://swj0419.github.io/detect-pretrain.github.io/
ai_machinelearning_big_data
Min-K% Prob
, простой и эффективный метод, который позволяет определить, была ли LLM предварительно обучена на заданном тексте, а также для обнаружения защищенного авторским правом текста.Датасет WikiMIA служит бенчмарком, предназначенным для обнаружения данных предварительного обучения.
📘 WikiMIA Benchmark:
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18🔥4❤2
CS25: Transformers United V3
Новые лекции на курсе по Трансформерам от Стенфорда! На Stanford CS 25 "Transformers United" выступали такие звездные гости, как Андрей Карпаты, Ноам Браун, Лукас Бейер и сам Джефф Хинтон!
Вышел новый доклад, посвящённый созданию и рецептам создания универсальных ИИ-агентов в открытых мирах:
- MineDojo: открытый фреймворк и мультимодальная база данных для обучения агентов Minecraft.
- Voyager: агент для пожизненного обучения в Minecraft на базе LLM.
- Eureka: GPT-4 развивает функции вознаграждения, чтобы научить руку робота крутить ручку.
- VIMA: один из самых ранних мультимодальных LLM с.
- Взгляд в будущее: перспективные направления исследований.
☑️ Slides: https://drive.google.com/file/d/1lWIhijUaTZkkWOC_YwZHMoI0h7EAWVPL/view
📑 Lectures: https://web.stanford.edu/class/cs25
ai_machinelearning_big_data
Новые лекции на курсе по Трансформерам от Стенфорда! На Stanford CS 25 "Transformers United" выступали такие звездные гости, как Андрей Карпаты, Ноам Браун, Лукас Бейер и сам Джефф Хинтон!
Вышел новый доклад, посвящённый созданию и рецептам создания универсальных ИИ-агентов в открытых мирах:
- MineDojo: открытый фреймворк и мультимодальная база данных для обучения агентов Minecraft.
- Voyager: агент для пожизненного обучения в Minecraft на базе LLM.
- Eureka: GPT-4 развивает функции вознаграждения, чтобы научить руку робота крутить ручку.
- VIMA: один из самых ранних мультимодальных LLM с.
- Взгляд в будущее: перспективные направления исследований.
📑 Lectures: https://web.stanford.edu/class/cs25
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21🔥2❤1
Masked Space-Time Hash Encoding for Efficient Dynamic Scene Reconstruction
Masked Space-Time Hash (MSTH) - новый метод эффективного восстановления динамических 3D-сцен из многоракурсного видео.
🖥 Github: https://github.com/masked-spacetime-hashing/msth
🤗 HH: https://huggingface.co/datasets/masked-spacetime-hashing/Campus
📕 Paper: https://arxiv.org/abs/2310.17527v1
⏩ Dataset: https://paperswithcode.com/dataset/mip-nerf-360
ai_machinelearning_big_data
Masked Space-Time Hash (MSTH) - новый метод эффективного восстановления динамических 3D-сцен из многоракурсного видео.
🤗 HH: https://huggingface.co/datasets/masked-spacetime-hashing/Campus
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15❤1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🔅 FreeNoise: Tuning-Free Longer Video Diffusion via Noise Rescheduling
✅ totally no tuning ✅less than 20% extra time ✅ support 512 frames
LongerCrafter (FreeNoise) - это новый метод генерации длинных видео, не требующих настроек, на основе предварительно обученных моделей диффузии.
Обширные эксперименты показывают превосходство данного метода по сравнению с предыдущими для расширения генеративных возможностей диффузионных моделей видео.
Промт, который был использован для генерации видео: "Чихуахуа в костюме космонавта, парящая в космосе, кинематографическое освещение, эффект свечения";
Разрешение: 1024 x 576; Кадры: 64.
🖥 Github: https://github.com/arthur-qiu/LongerCrafter
📕 Paper: https://arxiv.org/abs/2310.15169
⏩ Project: https://haonanqiu.com/projects/FreeNoise.html
ai_machinelearning_big_data
✅ totally no tuning ✅less than 20% extra time ✅ support 512 frames
LongerCrafter (FreeNoise) - это новый метод генерации длинных видео, не требующих настроек, на основе предварительно обученных моделей диффузии.
Обширные эксперименты показывают превосходство данного метода по сравнению с предыдущими для расширения генеративных возможностей диффузионных моделей видео.
Промт, который был использован для генерации видео: "Чихуахуа в костюме космонавта, парящая в космосе, кинематографическое освещение, эффект свечения";
Разрешение: 1024 x 576; Кадры: 64.
🖥 Github: https://github.com/arthur-qiu/LongerCrafter
📕 Paper: https://arxiv.org/abs/2310.15169
⏩ Project: https://haonanqiu.com/projects/FreeNoise.html
ai_machinelearning_big_data
🔥16👍5❤4
PERF - новая систему синтеза
360-градусного обзора
, которая генерирует Nerf я на основе одной панорамы.PERF позволяет осуществлять трехмерное перемещение по сложным сценам без затратного и утомительного сбора изображений.
Многочисленные эксперименты на Replica и новом датасете PERF-in-the-wild демонстрируют превосходство PERF над другими современными методами. Модель подходит для задач преобразование панорамы в 3D, текста в 3D и стилизации 3D-сцен.
https://t.iss.one/ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥13👍10❤3🤔1😢1
🪄IC|TC: Image Clustering Conditioned on Text Criteria
New methodology for performing image clustering based on user-specified criteria in the form of text by leveraging modern Vision-Language Models and Large Language Models
В данной работе представлена новая методика кластеризации изображений на основе заданных пользователем текстовых описаний с использованием современных моделей "зрение-язык" и больших языковых моделей.
Метод Image Clustering Conditioned on Text Criteria (IC TC), представляет собой новую парадигму кластеризации изображений и требует минимального вмешательства человека и предоставляет пользователю полный контроль над результатами кластеризации. Эксперименты показали, что IC TC может эффективно кластеризовать изображения с различными критериями, такими как действия человека, его физическое местоположение или настроение, значительно превосходя при этом другие решения.
🖥 Github: https://github.com/sehyunkwon/ictc
📕 Paper: https://arxiv.org/pdf/2310.18297v2.pdf
⏩ Tasks: https://paperswithcode.com/task/clustering
https://t.iss.one/ai_machinelearning_big_data
New methodology for performing image clustering based on user-specified criteria in the form of text by leveraging modern Vision-Language Models and Large Language Models
В данной работе представлена новая методика кластеризации изображений на основе заданных пользователем текстовых описаний с использованием современных моделей "зрение-язык" и больших языковых моделей.
Метод Image Clustering Conditioned on Text Criteria (IC TC), представляет собой новую парадигму кластеризации изображений и требует минимального вмешательства человека и предоставляет пользователю полный контроль над результатами кластеризации. Эксперименты показали, что IC TC может эффективно кластеризовать изображения с различными критериями, такими как действия человека, его физическое местоположение или настроение, значительно превосходя при этом другие решения.
https://t.iss.one/ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤5🔥2
Forwarded from Яндекс
Media is too big
VIEW IN TELEGRAM
Три совета джунам от технических директоров и героев нового выпуска шоу «1х1» 🤓 Это Станислав Макеев и Никита Илясов, которые руководят разработкой в Лавке и Еде.
⬇️ «Образование нужно»
Да, знание уравнений в частных производных вряд ли пригодится на практике, но научит разбираться в сложных темах и строить конструкции в голове.
⬇️ «Слушайте фидбэк»
Для этого рядом нужны более опытные коллеги. В сообществе сильных специалистов вы будете расти быстрее.
⬇️ «Создайте систему знаний»
Она позволит легко вернуться к вещам, которые вам когда-то понравились, и не потерять полезную информацию.
Подписывайтесь 👉 @yandex
Да, знание уравнений в частных производных вряд ли пригодится на практике, но научит разбираться в сложных темах и строить конструкции в голове.
Для этого рядом нужны более опытные коллеги. В сообществе сильных специалистов вы будете расти быстрее.
Она позволит легко вернуться к вещам, которые вам когда-то понравились, и не потерять полезную информацию.
Подписывайтесь 👉 @yandex
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15❤4