Forwarded from Machinelearning
🟩 CancerLLM: LLM для онкологии.
CancerLLM - это языковая модель с 7 млрд. параметров для задач, связанных с онкологическими заболеваниями. Она была обучена на 2,67 млн. клинических записей и 515,5 тыс. отчетах о патологиях по 17 типам рака. Согласно проведенным тестам в процессе исследования, CancerLLM превосходит существующие модели на 7,61 % по показателю F1 (точность классификации).
🔸Arxiv
🟩 MedUnA: метод создания VLM для обработки медицинских снимков.
Medical Unsupervised Adaptation (MedUnA) состоит из двух этапов.
На первом этапе описания, сгенерированные LLM, соответствующие меткам классов, передаются через текстовый энкодер BioBERT. Результирующие текстовые эмбеддинги выравниваются по меткам классов с помощью упрощенного адаптера.
На втором этапе обученный адаптер интегрируется с визуальным энкодером MedCLIP, используя entropy-based loss и prompt tuning для эффективного выравнивания визуальных эмбеддингов.
🔸Arxiv
🟩 DARES: Базовая модель для роботизированной эндоскопической хирургии.
Метод, код и базовая модель для для выполнения самоконтролируемой монокулярной оценки глубины в задачах эндоскопической роботизированной хирургии.
🔸Arxiv🔸Github 🔸Model
🟩 Med-MoE: Mixture-of-Experts для медицинских VLM.
Med-MoE (Mixture-of-Experts) - легкий фреймворк для решения дискриминативных и генеративных мультимодальных медицинских задач.
Med-MoE работает в три этапа: cогласование медицинских изображений с лексемами LLMs, выбор экспертов для настройки инструкций с помощью обучаемого маршрутизатора и настройка выбранных экспертов в требуемой области.
🔸Arxiv 🔸Github
🟩 CanvOI: Визуальная модель для онкологии.
CanvOI - VL модель для цифровой патологии, основанная на ViT-g/10, оптимизированная для онкологических гистопатологических изображений. Благодаря использованию плиток размера 380 x 380 пикселей и патчей размера 10², CanvOI эффективна в задачах обучения по нескольким экземплярам (Multiple Instance Learning).
🔸Arxiv
🟩 UniUSNet: прогнозирование заболеваний на основе УЗИ.
UniUSNet - метод, код и претрейн-модель для задач классификации и сегментации ультразвуковых изображений, способный работать с различными типами УЗИ, анатомическими позициями и форматами входных данных. Обучена на более чем 9,7 тыс. аннотаций по 7 анатомическим позициям.
🔸Arxiv 🔸Github 🔸Model
Бенчмарки и наборы данных для оценки
🟥 TrialBench: Датасет клинических испытаний.
23 набора мультимодальных данных, предварительно структурированных для использования в задачах файнтюна моделей, оценки и прогнозирования ключевых результатов по показателям: продолжительность испытаний, отсев пациентов, уровень смертности и одобрение испытаний.
🔸Arxiv 🔸Github 🔸Dataset
🟥 LLM для бенчмарка по MedQA.
Исследование использования LLM для автоматизации оценки медицинских систем вопросов и ответов, традиционно требующих ручной оценки экспертов. Траектория изысканий сосредоточена на том, могут ли LLM имитировать человеческую оценку, анализируя ответы на вопросы, полученные из данных о пациентах.
🔸Arxiv
🟥 MedFuzz: Исследование надежности медицинских LLM.
MedFuzz от Microsoft Research - это состязательный метод проверки устойчивости LLM в эталонных тестах MedQA путем модификации вопросов таким образом, чтобы использовать нереалистичные предположения.
MedFuzz показывает, как LLM могут ошибаться таким образом, чтобы не обмануть медицинских экспертов, выявляя пробелы в их обобщении для реальных клинических условий.
🔸Arxiv
🟥MedS-Bench + Medicines: Оценка работы LLM в клинических задачах и датасет для обучения.
MedS-Bench - бенчмарк и датасет для оценки эффективности моделей в решении 11 клинических задач из 3 областей: обобщение отчетов, диагностика и рекомендации по лечению.
MedS-Ins - набор данных для настройки инструкций с 5 миллионами экземпляров для 122 задач.
🔸Arxiv 🔸Leaderboard 🔸Github 🔸Dataset MedS-Ins
🔥Полный дайджест
@ai_machinelearning_big_data
#news #ai #ml #medtech
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤4🔥2
Обновление VBench: VBench-Long Leaderboard 🏆VBench Update: VBench-Long Leaderboard 🏆
VBench теперь поддерживает оценку более длинных видео. Появилась таблица лидеров VBench-Long Leaderboard для моделей, которые генерируют видео длительностью 5 секунд и более.
▪Код VBench-Long: https://github.com/Vchitect/VBench
▪Таблица лидеров VBench-Long: https://huggingface.co/spaces/Vchitect/VBench_Leaderboard
@bigdatai
VBench теперь поддерживает оценку более длинных видео. Появилась таблица лидеров VBench-Long Leaderboard для моделей, которые генерируют видео длительностью 5 секунд и более.
▪Код VBench-Long: https://github.com/Vchitect/VBench
▪Таблица лидеров VBench-Long: https://huggingface.co/spaces/Vchitect/VBench_Leaderboard
@bigdatai
👍4❤2🔥2
В блоге Google Cloud опубликована статья о том, как Vertex AI можно использовать для создания поисковых приложений следующего поколения.
Статья состоит из трех частей: новые шаблоны в поиске, развитие поиска в будущем и RAG с помощью Vertex AI.
cloud.google.com
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
Google Cloud Blog
Using Vertex AI to build next-gen search applications | Google Cloud Blog
Understanding how Vertex AI can help organizations build novel search applications for organizations’ varied requirements.
👍4🔥2❤1
Forwarded from Machinelearning
Новостной дайджест
✔️ 3.7 миллиона фальшивых звезд GitHub.
Сервис Socket обнаружили 3.7 миллиона фальшивых звезд GitHub, что указывает на тенденцию роста угроз, связанных с мошенничеством, финансовыми махинациями и вредоносным ПО. Эти кампании быстро активизировались за последние шесть месяцев.
Фальшивые звезды используются для обмана пользователей, чтобы распространять вредоносное ПО и для привлечения инвестиций венчурных фондов в подставные компании с плохими показателями.
Алгоритм Socket выявил 3 746 538 подозрительных звезд за последние пять лет (с июля 2019 года по июль 2024 года) и 10 155 репозиториев, которые, по-видимому, проводили кампании по накрутке.
socket.dev
✔️ LLM не могут объяснить свои рассуждения.
В статье автор приводит интерактивную демонстрацию для проверки способности LLM распознавать и объяснять числовые последовательности, генерируемые случайными программами.
Несмотря на то, что модели в некоторых случаях определяют правильную последовательность, их объяснения бывают неверными. Этот эксперимент подтверждает существующие ограничения в рассуждающих способностях LLM, несмотря на их показатели в популярных бенчмарках.
jonathanychan.com
✔️ YouTube создает инструменты для обнаружения дипфейков лиц и голосов.
Компания представила две новые технологии: первая позволяет автоматически обнаруживать ИИ-контент, который имитирует голоса исполнителей, а вторая - обнаруживать и управлять контентом, созданным с помощью ИИ, на котором присутствуют лица людей.
Новые функции основаны на многолетнем опыте YouTube в разработке технологических подходов к решению проблем с правами в больших масштабах.
YouTube дополнительно ведет разработку новых способов предоставления авторам выбора в отношении того, как третьи стороны могут использовать их контент на платформе.
blog.youtube
✔️ Поиск нового поколения и RAG с Vertex AI.
В блоге Google Cloud опубликована статья о том, как Vertex AI можно использовать для создания поисковых приложений следующего поколения.
Статья состоит из трех частей: новые шаблоны в поиске, развитие поиска в будущем и RAG с помощью Vertex AI.
cloud.google.com
✔️ Повышение эффективности отладки C++ с помощью breakpoint expressions, генерируемых искусственным интеллектом.
В статье Devblogs Microsoft представлена новая функция в Visual Studio 2022, использующая искусственный интеллект для генерации выражений для условных точек останова и точек трассировки в коде C++. Эта функция, работающая на базе GitHub Copilot поможет разработчикам сэкономить время и силы, позволив ИИ предлагать подходящие условия или создавать собственные. В статье приводится пошаговое руководство по включению и использованию этой функции в Visual Studio 2022.
devblogs.microsoft.com
@ai_machinelearning_big_data
#news #ai #ml
Сервис Socket обнаружили 3.7 миллиона фальшивых звезд GitHub, что указывает на тенденцию роста угроз, связанных с мошенничеством, финансовыми махинациями и вредоносным ПО. Эти кампании быстро активизировались за последние шесть месяцев.
Фальшивые звезды используются для обмана пользователей, чтобы распространять вредоносное ПО и для привлечения инвестиций венчурных фондов в подставные компании с плохими показателями.
Алгоритм Socket выявил 3 746 538 подозрительных звезд за последние пять лет (с июля 2019 года по июль 2024 года) и 10 155 репозиториев, которые, по-видимому, проводили кампании по накрутке.
socket.dev
В статье автор приводит интерактивную демонстрацию для проверки способности LLM распознавать и объяснять числовые последовательности, генерируемые случайными программами.
Несмотря на то, что модели в некоторых случаях определяют правильную последовательность, их объяснения бывают неверными. Этот эксперимент подтверждает существующие ограничения в рассуждающих способностях LLM, несмотря на их показатели в популярных бенчмарках.
jonathanychan.com
Компания представила две новые технологии: первая позволяет автоматически обнаруживать ИИ-контент, который имитирует голоса исполнителей, а вторая - обнаруживать и управлять контентом, созданным с помощью ИИ, на котором присутствуют лица людей.
Новые функции основаны на многолетнем опыте YouTube в разработке технологических подходов к решению проблем с правами в больших масштабах.
YouTube дополнительно ведет разработку новых способов предоставления авторам выбора в отношении того, как третьи стороны могут использовать их контент на платформе.
blog.youtube
В блоге Google Cloud опубликована статья о том, как Vertex AI можно использовать для создания поисковых приложений следующего поколения.
Статья состоит из трех частей: новые шаблоны в поиске, развитие поиска в будущем и RAG с помощью Vertex AI.
cloud.google.com
В статье Devblogs Microsoft представлена новая функция в Visual Studio 2022, использующая искусственный интеллект для генерации выражений для условных точек останова и точек трассировки в коде C++. Эта функция, работающая на базе GitHub Copilot поможет разработчикам сэкономить время и силы, позволив ИИ предлагать подходящие условия или создавать собственные. В статье приводится пошаговое руководство по включению и использованию этой функции в Visual Studio 2022.
devblogs.microsoft.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤2🔥1
Late Chunking: Contextual Chunk Embeddings Using Long-Context Embedding Models
Jina AI представили интересную технику, которая улучшает эмбединги текста длинного контекста для задач поиска, кодируя целые документы перед их разбиением.
📝https://arxiv.org/abs/2409.04701
👨🏽💻https://github.com/jina-ai/late-chunking
@bigdatai
Jina AI представили интересную технику, которая улучшает эмбединги текста длинного контекста для задач поиска, кодируя целые документы перед их разбиением.
📝https://arxiv.org/abs/2409.04701
👨🏽💻https://github.com/jina-ai/late-chunking
@bigdatai
👍5❤3🔥2🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
🚨 Новая мощная открытая модель преобразования текста в речь: Fish Speech 1.4 - обучена на 700 тыс. часов речи, многоязычная (8 языков)🔥
> Мгновенное клонирование голоса
> Сверхнизкая задержка
> ~1 ГБ веса модели
> Веса модели на HF 🤗
https://huggingface.co/fishaudio/fish-speech-1.4
@bigdatai
> Мгновенное клонирование голоса
> Сверхнизкая задержка
> ~1 ГБ веса модели
> Веса модели на HF 🤗
https://huggingface.co/fishaudio/fish-speech-1.4
@bigdatai
👍7🔥3❤1
Forwarded from Machinelearning
LLaMA-Omni - модель, построенная на основе Llama-3.1-8B-Instruct, которая поддерживает голосовое взаимодействие с низкой задержкой ответа и высоким качеством синтеза аудио, одновременно генерируя текстовые и речевые ответы на основе голосовых инструкций.
LLaMA-Omni не требует транскрипции речи, напрямую передавая адаптированное речевое представление в LLM. LLM генерирует текстовый ответ, и, параллельно декодер речи генерирует соответствующие дискретные речевые единицы, используя скрытые состояния инференса LLM. Применение этой конструктивной особенности значительно сокращает задержку ответа до в 226 мс на chunk-size размерности 10.
Для установки и локального запуска понадобятся GPU => 20GB и набор :
⚠️ Примечания:
omni_speech/infer/examples
, а затем обратитесь скрипту omni_speech/infer/run.sh
.# Clone repository
git clone https://github.com/ictnlp/LLaMA-Omni
cd LLaMA-Omni
# Install packages
conda create -n llama-omni python=3.10
conda activate llama-omni
pip install pip==24.0
pip install -e .
# Install fairseq
git clone https://github.com/pytorch/fairseq
cd fairseq
pip install -e . --no-build-isolation
# Install flash-attention
pip install flash-attn --no-build-isolation
https://localhost:8000/
@ai_machinelearning_big_data
#AI #ML #LLM #Llama #SpeechToSpeech
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2
This media is not supported in your browser
VIEW IN TELEGRAM
С её помощью можно легко добавить улыбку, изменить положение глаз и рта.
Фотографии теперь всегда будут получаться идеальными.
📌 Попробовать
#nn #soft
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7👍6❤2
cookbook.pdf
642.4 KB
✍️ Гайд по тензорам
Книга- гайд, в которое есть все, что нужно знать о тензорах.
Тензор — это контейнер, в котором могут храниться данные в N измерениях. Часто и ошибочно используемые взаимозаменяемо с матрицей (которая, в частности, является двумерным тензором), тензоры представляют собой обобщения матриц на N -мерное пространство.
🔗 Ссылка
@bigdatai
Книга- гайд, в которое есть все, что нужно знать о тензорах.
Тензор — это контейнер, в котором могут храниться данные в N измерениях. Часто и ошибочно используемые взаимозаменяемо с матрицей (которая, в частности, является двумерным тензором), тензоры представляют собой обобщения матриц на N -мерное пространство.
🔗 Ссылка
@bigdatai
🔥9❤3👍2❤🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Как генерировать сложные 3D-сцены с высокой реалистичностью?
LT3SD разлагает 3D-сцены на латентные древовидные объекты, а диффузия на латентных деревьях обеспечивает бесшовный бесконечный синтез 3D-сцен!
https://quan-meng.github.io/projects/lt3sd/
@bigdatai
LT3SD разлагает 3D-сцены на латентные древовидные объекты, а диффузия на латентных деревьях обеспечивает бесшовный бесконечный синтез 3D-сцен!
https://quan-meng.github.io/projects/lt3sd/
@bigdatai
👍4🔥3❤2
⚡️ Vchitect-2.0, модель генерации видео 2B, поддерживающая разрешение до 720x480 и генерацию 5-20 секунд.
👉 Сайт: https://vchitect.intern-ai.org.cn
👉 Код: https://github.com/Vchitect/Vchitect-2.0
👉 Демо: https://huggingface.co/spaces/Vchitect/Vchitect-2.0
@bigdatai
👉 Сайт: https://vchitect.intern-ai.org.cn
👉 Код: https://github.com/Vchitect/Vchitect-2.0
👉 Демо: https://huggingface.co/spaces/Vchitect/Vchitect-2.0
@bigdatai
👍4❤2
Forwarded from Machinelearning
💊 Machine Learning: Медицинский дайджест за период 7.09 - 14.09 2024 года
🟩 BrainWave: модель для анализа сигналов головного мозга.
BrainWave – модель, обученная на 40 000 часах инвазивных (iEEG) и неинвазивных (EEG) записей мозговой активности 16 тыс пациентов. Это первая фундаментальная модель для анализа сигналов мозга, объединяющая данные из разных источников.
🟩 DS-ViT: Visual Transformer для ранней диагностики болезни Альцгеймера.
Dual-Stream Vision Transformer (DS-ViT) -метод, который объединяет сегментацию и классификацию для улучшения точности обучения моделей, обрабатывающих снимки МРТ головного мозга.
Он использует FastSurfer в качестве обучающей модели для детальной сегментации для обучаемой ViT-модели ADAPT (модель диагностики болезни Альцгеймера).
🟩 EyeCLIP: фундаментальная VLM для офтальмологических изображений.
EyeCLIP, визуально-языковая фундаментальная модель (VLM), обученная на более чем 2,77 миллионах мультимодальных офтальмологических изображений и 11 180 текстовых описаний от 128 000 пациентов.
Модель может выполнять задачи классификации заболеваний глаз, прогнозирование системных заболеваний, поиск информации по изображению и тексту и ответы на вопросы, связанные с изображениями патологии глаз.
🟩 Возможности SAM для сегментации опухолей мозга.
В исследовании изучается эффективность SAM для сегментации опухолей головного мозга на основе набора данных BraTS2019, который содержит изображения четырех модальностей (T1, T1ce, T2, FLAIR). Авторы оценивают эффективность SAM с использованием двух типов маркирования - точки и рамки и анализируют влияние количества маркирования на точность сегментации.
Результаты показывают, что SAM с маркировкой в виде рамок превосходит по точности маркировку в виде точек. Увеличение количества точек улучшает производительность до определенного предела, после которого точность начинает снижаться. Комбинирование точечных и рамочных маркировок позволяет добиться наилучших результатов.
🟩 MEDIC: Оценка языковых моделей для клинического применения.
MEDIC использует пять ключевых измерений клинической компетентности: медицинское мышление, этические аспекты и предвзятость, понимание данных и языка, контекстное обучение и клиническая безопасность.
Оценка проводится тестированием на задачах: ответы на закрытые и открытые вопросы, суммирование медицинских текстов и создание клинических заметок. Для оценки безопасности моделей используется набор данных Med-Safety, содержащий 900 сценариев с потенциально опасными медицинскими запросами.
Приложения с использованием языковых моделей.
🟪 KARGEN: генерация отчетов рентгенографии грудной клетки с использованием графа знаний и больших языковых моделей.
KARGEN - фреймворк, объединяющий большие языковые модели с графом знаний, специально разработанным для анализа рентгенограмм грудной клетки.
Архитектура KARGEN: энкодеры визуальных признаков (Swin Transformer), модуль слияния (element-wise fusion + modality-wise fusion) и генератор отчетов.
Энкодер визуальных признаков извлекает признаки из рентгеновского изображения, граф знаний, построенный на основе взаимосвязей между 14 заболеваниями из набора данных Chexpert, используется для извлечения признаков, связанных с этими заболеваниями.
🟪 i-MedRAG: итеративный поиск информации для ответов на сложные медицинские вопросы.
i-MedRAG - архитектура RAG, предназначенная для ответов на сложные медицинские вопросы, требующие многоэтапных рассуждений. В отличие от традиционных RAG-систем, i-MedRAG использует итеративный подход к поиску информации.
Методики и техники
🟦 Автоматическая сегментация клеток с использованием UNet в DeepChem.
В статье описан эксперимент создания интеграции модели UNet, архитектуры, известной своей эффективностью в задачах сегментации изображений, с python библиотекой DeepChem, предназначенной для машинного и глубокого обучения в биологии и химии, для задач автоматической сегментации клеток на различных наборах данных микроскопических изображений.
🔥Полный дайджест
@ai_machinelearning_big_data
#news #ai #ml #medtech
🟩 BrainWave: модель для анализа сигналов головного мозга.
BrainWave – модель, обученная на 40 000 часах инвазивных (iEEG) и неинвазивных (EEG) записей мозговой активности 16 тыс пациентов. Это первая фундаментальная модель для анализа сигналов мозга, объединяющая данные из разных источников.
🟩 DS-ViT: Visual Transformer для ранней диагностики болезни Альцгеймера.
Dual-Stream Vision Transformer (DS-ViT) -метод, который объединяет сегментацию и классификацию для улучшения точности обучения моделей, обрабатывающих снимки МРТ головного мозга.
Он использует FastSurfer в качестве обучающей модели для детальной сегментации для обучаемой ViT-модели ADAPT (модель диагностики болезни Альцгеймера).
🟩 EyeCLIP: фундаментальная VLM для офтальмологических изображений.
EyeCLIP, визуально-языковая фундаментальная модель (VLM), обученная на более чем 2,77 миллионах мультимодальных офтальмологических изображений и 11 180 текстовых описаний от 128 000 пациентов.
Модель может выполнять задачи классификации заболеваний глаз, прогнозирование системных заболеваний, поиск информации по изображению и тексту и ответы на вопросы, связанные с изображениями патологии глаз.
🟩 Возможности SAM для сегментации опухолей мозга.
В исследовании изучается эффективность SAM для сегментации опухолей головного мозга на основе набора данных BraTS2019, который содержит изображения четырех модальностей (T1, T1ce, T2, FLAIR). Авторы оценивают эффективность SAM с использованием двух типов маркирования - точки и рамки и анализируют влияние количества маркирования на точность сегментации.
Результаты показывают, что SAM с маркировкой в виде рамок превосходит по точности маркировку в виде точек. Увеличение количества точек улучшает производительность до определенного предела, после которого точность начинает снижаться. Комбинирование точечных и рамочных маркировок позволяет добиться наилучших результатов.
🟩 MEDIC: Оценка языковых моделей для клинического применения.
MEDIC использует пять ключевых измерений клинической компетентности: медицинское мышление, этические аспекты и предвзятость, понимание данных и языка, контекстное обучение и клиническая безопасность.
Оценка проводится тестированием на задачах: ответы на закрытые и открытые вопросы, суммирование медицинских текстов и создание клинических заметок. Для оценки безопасности моделей используется набор данных Med-Safety, содержащий 900 сценариев с потенциально опасными медицинскими запросами.
Приложения с использованием языковых моделей.
🟪 KARGEN: генерация отчетов рентгенографии грудной клетки с использованием графа знаний и больших языковых моделей.
KARGEN - фреймворк, объединяющий большие языковые модели с графом знаний, специально разработанным для анализа рентгенограмм грудной клетки.
Архитектура KARGEN: энкодеры визуальных признаков (Swin Transformer), модуль слияния (element-wise fusion + modality-wise fusion) и генератор отчетов.
Энкодер визуальных признаков извлекает признаки из рентгеновского изображения, граф знаний, построенный на основе взаимосвязей между 14 заболеваниями из набора данных Chexpert, используется для извлечения признаков, связанных с этими заболеваниями.
🟪 i-MedRAG: итеративный поиск информации для ответов на сложные медицинские вопросы.
i-MedRAG - архитектура RAG, предназначенная для ответов на сложные медицинские вопросы, требующие многоэтапных рассуждений. В отличие от традиционных RAG-систем, i-MedRAG использует итеративный подход к поиску информации.
Методики и техники
🟦 Автоматическая сегментация клеток с использованием UNet в DeepChem.
В статье описан эксперимент создания интеграции модели UNet, архитектуры, известной своей эффективностью в задачах сегментации изображений, с python библиотекой DeepChem, предназначенной для машинного и глубокого обучения в биологии и химии, для задач автоматической сегментации клеток на различных наборах данных микроскопических изображений.
🔥Полный дайджест
@ai_machinelearning_big_data
#news #ai #ml #medtech
👍3❤1
Узнайте, как обучать и развертывать модели с помощью контейнеров Deep Learning Containers.
https://huggingface.co/docs/google-cloud/index
@bigdatai
https://huggingface.co/docs/google-cloud/index
@bigdatai
👍3❤1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Красивая визуализация нейронной сети, обученной на MNIST
Нейрона была написана с нуля на языке Odin и визуализирована с помощью Raylib.
https://github.com/bones-ai/odin-mnist-nn
@bigdatai
Нейрона была написана с нуля на языке Odin и визуализирована с помощью Raylib.
https://github.com/bones-ai/odin-mnist-nn
@bigdatai
❤11❤🔥5🥰1
ИТМО назвал лидеров развития Open Source в России
Лидером среди российских компаний стал Яндекс, за ним — Сбер и Т-банк. Компании оценивались по количеству опенсорс-проектов, их популярности, качеству репозиториев и активности контрибьюторов.
Среди ключевых решений лидера рейтинга: CatBoost (библиотека для градиентного бустинга), YTsaurus (платформа для работы с большими данными) и YDB (распределённая SQL-база данных).
Ключевые выводы исследования:
— Большинство компаний ориентируются не только на внутренний, но и на международный рынок;
— GitHub остаётся стандартом, но растёт интерес к альтернативам (Gitee, GitVerse);
— Open source объединяет специалистов со всего мира;
— Конкуренция постепенно уступает место совместному развитию отрасли;
— Для развития опенсорс-проектов необходима финансовая поддержка;
— Несмотря на рост ИИ, роль человека в опенсорсе остаётся ключевой.
Лидером среди российских компаний стал Яндекс, за ним — Сбер и Т-банк. Компании оценивались по количеству опенсорс-проектов, их популярности, качеству репозиториев и активности контрибьюторов.
Среди ключевых решений лидера рейтинга: CatBoost (библиотека для градиентного бустинга), YTsaurus (платформа для работы с большими данными) и YDB (распределённая SQL-база данных).
Ключевые выводы исследования:
— Большинство компаний ориентируются не только на внутренний, но и на международный рынок;
— GitHub остаётся стандартом, но растёт интерес к альтернативам (Gitee, GitVerse);
— Open source объединяет специалистов со всего мира;
— Конкуренция постепенно уступает место совместному развитию отрасли;
— Для развития опенсорс-проектов необходима финансовая поддержка;
— Несмотря на рост ИИ, роль человека в опенсорсе остаётся ключевой.
opensource.itmo.ru
ITMO Open Source
👍12👎2
Mistral выпустили улучшенную модель Small 22B - Многоязычную модель с контекстом 128K контекст
Промежуточная модель между Mistral NeMo 12B и Mistral Large 123B.
> Параметры 22B
> Поддерживает вызов функций
> Длина контекста 128k
> Доступны веса
🤗Веса: https://huggingface.co/mistralai/Mistral-Small-Instruct-2409
@bigdatai
Промежуточная модель между Mistral NeMo 12B и Mistral Large 123B.
> Параметры 22B
> Поддерживает вызов функций
> Длина контекста 128k
> Доступны веса
pip install --upgrade vllm
🤗Веса: https://huggingface.co/mistralai/Mistral-Small-Instruct-2409
@bigdatai
👍6❤1🔥1
NVIDIA’s New AI Is Really Good At Moving Rabbits!
https://www.youtube.com/watch?v=l4JCJEdbfzs
@bigdatai
https://www.youtube.com/watch?v=l4JCJEdbfzs
@bigdatai
YouTube
NVIDIA’s New AI: So Which One Is It?
❤️ Check out Lambda here and sign up for their GPU Cloud: https://lambdalabs.com/paper
📝 The paper "DiffUHaul: A Training-Free Method for Object Dragging in Images" is available here:
https://omriavrahami.com/diffuhaul/
📝 My paper on simulations that look…
📝 The paper "DiffUHaul: A Training-Free Method for Object Dragging in Images" is available here:
https://omriavrahami.com/diffuhaul/
📝 My paper on simulations that look…
👍4❤3
https://www.youtube.com/watch?v=TQQMjGH7TM0
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Как загрузить ОГРОМНЫЙ Датасет в Pandas #python
⚡️https://t.iss.one/ai_machinelearning_big_data - наш телеграм для всех, кто учит и любит машинное обучении
⚡️https://t.iss.one/pythonl - вся база по python
⚡️ https://t.iss.one/addlist/2Ls-snqEeytkMDgy - крутая папка для разработчиков
В этом видеоуроке мы научимся загружать…
⚡️https://t.iss.one/pythonl - вся база по python
⚡️ https://t.iss.one/addlist/2Ls-snqEeytkMDgy - крутая папка для разработчиков
В этом видеоуроке мы научимся загружать…
🔥7❤1👎1