Машинное обучение RU
17.7K subscribers
1.57K photos
207 videos
11 files
2.04K links
Все о машинном обучении

админ - @workakkk

@data_analysis_ml - анализ даннных

@ai_machinelearning_big_data - Machine learning

@itchannels_telegram -лучшие ит-каналы

@pythonl - Python

@pythonlbooks- python 📚

@datascienceiot - 📚

РКН: clck.ru/3FmrUw
Download Telegram
Media is too big
VIEW IN TELEGRAM
⚡️ The OG: Отец нейронных сетей Уоррен Маккаллох рассказывает о разуме, мозге, мыслящих и чувствующих машинах

Невролог, который много лет назад помогал создавать это направление и видел будущее компьютеров и искусственного интеллекта.

В первой части этого фильма, снятого в 1962 году, демонстрируются возможности компьютерного "искусственного интеллекта", намного превосходящие возможности любого человеческого мозга. Во второй части показаны эксперименты по электронному воспроизведению некоторых сенсорных восприятий.

@machinelearning_ru
👍63🔥3
🔥 Создание ИИ для распознавания изображений: от концепции до кода!

🌟 Научитесь строить визуальную языковую модель с нуля. В этом руководстве рассматриваются кодирование, механизмы внимания и многое другое, что поможет вам создать ИИ, который может описывать изображения!

🕞 Продолжительность: 5:46:05

🔗 Ссылка: *клик*

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍74👎1
✔️ Google разрабатывает ИИ-инструмент, способный управлять браузером для выполнения задач.

Google работает над технологией ИИ под рабочим названием Project Jarvis, которая позволит ИИ автономно управлять веб-браузером для выполнения задач поиска информации и совершения покупок.

Google планирует представить Project Jarvis в декабре, одновременно с выпуском новой большой языковой модели Gemini. Разработка Google направлена на то, чтобы ИИ мог напрямую взаимодействовать с компьютером или браузером пользователя.

Примечательно, что конкурент Google по технологиям поиска, Microsoft, тоже работает над аналогичной технологией.

📌 finance.yahoo.com

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥42👍2😱2
👩‍💻 DocETL — это инструмент на Python для создания и выполнения конвейеров обработки данных, особенно подходящий для сложных задач обработки документов. Он применяет подходы с минимальным кодом и YAML для упрощенного управления потоками данных, обеспечивая модульность и возможность повторных попыток обработки данных при сбоях

🔐 Лицензия: MIT

🖥 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍2
🔥 agent.exe — бесплатное приложение с открытым исходным кодом для Mac/Windows/Linux, позволяющее использовать Claude 3.5 Sonnet для управления компьютером!

🔐 Лицензия: MIT

🖥 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍42🔥2
✔️ GitHub представил Spark: создание веб-приложений с помощью естественного языка.

Spark, продукт лаборатории GitHub Next, позволяет создавать прототипы приложений с помощью чат-подобного интерфейса. В основе Spark лежат репозиторий GitHub, GitHub Actions и база данных Microsoft Azure CosmosDB.

Spark может использовать любые веб-API, а пользователи могут выбирать между моделями Anthropic’s Claude Sonnet и OpenAI’s GPT. Также заявлена функция шэринга Spark-проектов с настраиваемыми правами доступа.

Открыта запись в waitlist. Подать заявку можно по ссылке.
githubnext.com

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍54🔥2
Медицина, промышленность, образование — это только некоторые из областей, где могут быть полезны исследования в области машинного обучения. Яндекс в шестой раз отметил авторов самых перспективных исследований премией Yandex ML Prize. Рассказываем о самых интересных открытиях.

Иван Бутаков (МФТИ, Сколтех) разработал новый метод, который позволил лучше понять процессы обучения нейросетей. Что это даёт? Теперь можно “регулировать” память искусственного интеллекта и настраивать его “запоминание” или “забывание” информации.

Артем Лыков (Сколтех) и его команда первые в мире представили универсальную когнитивную систему, адаптируемую для различных типов роботов. В числе его разработок — робособака, способная понимать голосовые команды, взаимодействовать с окружающими предметами и воспринимать визуальную информацию. Всё это может стать основной для создания «роя умных роботов».

Елена Тутубалина (КФУ, AIRI) ведет работы в области анализа естественного языка, биомедицинских и химических данных. Ее исследования могут ускорить создание лекарств — от идеи до клинических испытаний.

Помимо самой премии, лауреаты также получат доступ к Яндекс 360 и грант на на использование Yandex Cloud. Эти ресурсы помогут им проводить объёмные вычисления и анализировать данные.

@machinelearning_ru
2
📖 Эта статья излагает методы улучшения Retrieval Augmented Generation (RAG) в промышленных приложениях с использованием мультимодальных данных

🌟 Исследования показывают, что добавление изображений вместе с текстом может улучшить точность RAG в специфичных для индустрии задачах. Статья также рассматривает два подхода обработки изображений и их интеграцию с крупными языковыми моделями, такими как GPT-4 Vision и LLaVA, выявляя сложности и преимущества мультимодального подхода в сравнении с текстовым

📖 Читать: *клик*

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
6🔥2
Forwarded from Machinelearning
🌟 D-FINE: метод регрессии bounding box в детекторах объектов на основе DETR.

D-FINE - детектор объектов в режиме реального времени, который предлагает улучшение регрессии bounding box в моделях DETR . D-FINE обладает высокой точностью локализации, определяя регрессию рамок как процесс итеративного уточнения распределений вероятностей.

D-FINE состоит из двух компонентов:

🟠Мелкозернистое уточнение распределения (Fine-grained Distribution Refinement, FDR).

FDR преобразует процесс регрессии из предсказания фиксированных координат в итеративное уточнение распределений вероятностей. Эта техника дает более детальное промежуточное представление, что повышает точность локализации.

🟠Глобальная оптимальная локализованная самодистилляция (Global Optimal Localization Self-Distillation, GO-LSD).

GO-LSD - двунаправленная стратегия оптимизации, которая передает знания о локализации из уточненных распределений в более ранние слои модели через самодистилляцию.

Старшие версии D-FINE-L и D-FINE-X достигают 54,0% и 55,8% AP на наборе данных COCO соответственно, работая со скоростью 124 и 78 FPS на GPU NVIDIA T4.

При предварительном обучении на Objects365 D-FINE-L и D-FINE-X показывают 57,1% и 59,3% AP, что выше всех существующих детекторов реального времени.

Разработчики D-FINE предлагают несколько предобученных моделей на датасетах Objects365 и COCO под разные задачи и мощности. Все модели поддерживают инференс на изображениях и видео с использованием ONNX Runtime, TensorRT и PyTorch:

🟢D-FINE-S: Самая компактная и быстрая модель (3.49 мс на T4 GPU);

🟢D-FINE-M: Модель среднего размера, баланс между точностью и скоростью (5.62 мс на T4 GPU);

🟢D-FINE-L: Модель высокой точности (8.07 мс на T4 GPU);

🟢D-FINE-X: Самая крупная и точная модель (12.89 мс на T4 GPU).

D-FINE предоставляет инструменты для обучения, бенчмаркинга, визуализации с помощью FiftyOne и инструкции по организации наборов данных.

▶️Локальный инференс на примере ONNX:

# Create env via conda
conda create -n dfine python=3.11.9
conda activate dfine

# Install requirements for inference
pip install -r tools/inference/requirements.txt

# Install ONNX
pip install onnx onnxsim

# Choose a model
export model=l # s, m, x

# Inference
python tools/inference/onnx_inf.py --onnx model.onnx --input image.jpg # video.mp4


📌Лицензирование: Apache 2.0 License.


🟡Arxiv
🖥Github


@ai_machinelearning_big_data

#AI #ML #DETR #DFine #Detection
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍52
🖥 Whispo — это инструмент для диктовки с поддержкой ИИ, который преобразует речь в текст с помощью Whisper от OpenAI или Groq

🌟 Пользователь должен удерживать клавишу Ctrl для записи, а затем расшифровка автоматически вставляется в другое используемое им приложение, поддерживающее текстовый ввод. Проект использует фреймворки Electron и Vite для создания кроссплатформенного приложения, а также Tailwind CSS для оформления интерфейса

🔐 Лицензия: AGPL-3.0

🖥 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍42🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 MoGe от Microsoft — модель для точного восстановления 3D-геометрии из одиночных изображений!

💡 MoGe использует ViT-энкодер и сверточный декодер для получения геометрических карт, масок и карт глубины, которые подходят для изображений различных форматов. Инструмент полезен для 3D-визуализации и моделирования. Он поддерживает как локальное, так и веб-использование, предоставляя как предобученные модели, так и исходный код для дальнейших экспериментов и доработок.

🔐 Лицензия: MIT

🖥 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍72
🔥 Docling — это инструмент для конвертации и анализа документов, разработанный для подготовки документов к использованию в генеративных ИИ-приложениях.

💡 Docling поддерживает различные форматы (PDF, DOCX, PPTX, HTML и другие), может извлекать метаданные, читать структуры страниц и таблиц, а также интегрироваться с LlamaIndex и LangChain. В репозитории также реализована поддержка OCR для обработки отсканированных документов, что делает его мощным инструментом для работы с документами в различных ИИ-сценариях.

🖥 Github
🔗 Сайт проекта

@vistehno
Please open Telegram to view this post
VIEW IN TELEGRAM
👍42🔥2
🔥 Экспресс курс NotebookLM!

💡 В сегодняшнюю стремительно развивающуюся цифровую эпоху способность быстро и эффективно получать доступ к информации и анализировать ее становится важнее, чем когда-либо. Появляется Notebook LM, мощный помощник по исследованиям на базе Gemini 1.5 Pro от Google. Если вы глубоко погружены в исследования ИИ или просто хотите оптимизировать свой рабочий процесс, Notebook LM является крайне полезным инструментом!

🕞 Продолжительность: 1:13:02

🔗 Ссылка: *клик*

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6😁21
Forwarded from Machinelearning
🌟 Cosmos Tokenizer: эффективная токенизация изображений и видео от NVIDIA.

Cosmos Tokenizer - набор токенизаторов для изображений и видео с высокой степенью сжатия при сохранении качества реконструкции, представленный на конференции Conference for Robot Learning 2024, которая проходит до 9 ноября в Мюнхене.

Cosmos Tokenizer предлагает непрерывную (C) и дискретную (D) токенизацию для изображений (I) и видео (V), что формирует 4 типа токенизаторов: CI, DI, CV и DV.

Cosmos Tokenizer имеет внушительные показатели сжатия: 8x или 16x для пространственного сжатия изображений и 4x или 8x для временного сжатия видео, при этом работает до 12 раз быстрее, чем другие современные токенизаторы, сохраняя при этом высокое качество изображения.

Такая эффективность обусловлена легкой временно-причинной архитектурой, использующей причинную временную свертку и слои внимания. Этот дизайн архитектуры гарантирует, что обработка каждого кадра зависит только от текущих и прошлых кадров, сохраняя временную согласованность видео.

Для оценки Cosmos Tokenizer использовались стандартные наборы данных и новый набор данных TokenBench, созданный NVIDIA. Cosmos Tokenizer сравнивался с современными токенизаторами с использованием метрик PSNR, SSIM, rFID и rFVD.

Результаты тестирования показали превосходство Cosmos Tokenizer над существующими методами как по качеству реконструкции, так и по скорости работы.

▶️ В репозитории на Github опубликован код для установки, сборки docker Cosmos Tokenizer, примеры запуска для в непрерывном латенте, кодирования в дискретные токены, запуск токенизаторов на примерах изображений и видео из тестового набора и запуск с Pytorch.


📌Лицензирование: NVIDIA Open Model License


🟡Страница проекта
🟡Набор на HF
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #NVIDIA #Tokenizer #Cosmos
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍21🥰1
✉️ inbox-zero — приложение для управления электронной почтой, предназначенное для быстрого прочтения и фильтрации писем с помощью AI!

🌟 Функционал включает автоматическое удаление рассылок, блокировку холодных писем, отслеживание статистики активности, обнаружение новых спам-отправителей и крупных писем. Реализовано на базе Next.js, Tailwind CSS и Prisma, с поддержкой Google OAuth, AI от OpenAI и аналитики через Tinybird.

🔐 Лицензия: AGPL-3.0

🖥 Github
🔗 Демо-видео: *клик*

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥53
📝 Amphion — это фреймворк для многозадачного восприятия и генерации текстов на основе языка. Его основная цель — поддерживать как модульные задачи (например, классификация или генерация) для отдельных модальностей, так и мультизадачные сценарии

🌟 Фреймворк объединяет несколько библиотек OpenMMLab, таких как MMDetection и MMDetection3D, и оптимизирован для работы с мультизадачными моделями, такими как MMWizard

🔐 Лицензия: MIT

🖥 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍3🔥2
📝 Эта статья представляет метод для различения типов "галлюцинаций" (неверных ответов) в больших языковых моделях (LLM): либо это незнание ответа, либо ошибка при наличии знания.

🌟 Авторы предлагают подход для выявления случаев, когда модель ошибается, несмотря на наличие информации, и вводят способ для создания специализированных наборов данных, что улучшает выявление галлюцинаций. Это помогает лучше понять и смягчить ошибки LLM, минимизируя риски ложных данных.

📖 Читать: *клик*

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41🔥1😁1
Нашел для вас ламповый митап в двух частях от команды AI VK: пройдут 14 и 21 ноября. В эти дни будут обсуждаться свежие статьи с RecSys 2024, 18-й Международной конференции ACM Recommender Systems.

Много интересных докладов и спикеров, активное общение и отличная возможность для нетворкинга!

Темы митапа охватывают самые актуальные направления ML: от семантических эмбеддингов до больших рекомендательных нейронных сетей и классических моделей. Разбор статей проведут специалисты из VK и других ведущих компаний.

Кстати, свои работы также представят участники русскоязычного RecSys-сообщества, чьи статьи были отобраны для этой конференции.

Реальная рекомендация, чтобы расширить свой кругозор и завести новые полезные знакомства! Регистрация уже открыта — присоединяйтесь!
Ссылки для регистрации и программа: 14 ноября здесь и 21 ноября здесь.

@machinelearning_ru
👍4🔥31😁1