Forwarded from Machinelearning
Bamba-9B - модель, разработанная IBM, Princeton, CMU и UIUC на основе полностью открытых данных. Модель демонстрирует улучшение пропускной способности в 2.5 раза и снижение задержки инференса в 2 раза по сравнению с Transformers в vLLM. Bamba-9B доступна для использования в HF Transformers, vLLM, TRL и llama.cpp.
Bamba-9B использует уникальный распределенный, не сохраняющий состояние data loader, обеспечивающий бесшовное возобновление работы, автоматическое масштабирование, потоковую передачу данных с zero-overhead for shuffling.
Модель основана на архитектуре NVIDIA hybrid Mamba2, но с некоторыми изменениями. Bamba-9B имеет 32 слоя, из которых 3 полноценных слоя внимания и 29 слоев Mamba2, в то время как NVIDIA hybrid Mamba2 имеет 29 слоев, из которых 4 слоя внимания и 25 слоев Mamba2.
Bamba-9B была обучена на 2.2T токенов с датасетом Dolma v1.7 на первом этапе и FineWeb-edu и Cosmopedia на втором.
По проведенным замерам, средняя производительность Bamba-9B почти сравнима с Llama 3.1 8B (45.53 против 44.68), при том что Llama 3.1 8B была обучена на 7x большем объеме данных.
Bamba-9B превзошла Olmo 7B, обученную на идентичном количестве токенов и наборах данных. В сравнении с другими моделями на базе Mamba/Mamba2, Bamba-9B показывает хорошие результаты, при этом обеспечивая значительное улучшение (до 5x) эффективности логического вывода.
llm-compressor
версия Bamba 9Bllm-compressor
версия Bamba 9B 2Тllm-compressor
версия Bamba 9B 1.8Тfrom transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("ibm-fms/Bamba-9B")
tokenizer = AutoTokenizer.from_pretrained("ibm-fms/Bamba-9B")
message = ["Mamba is a snake with following properties "]
inputs = tokenizer(message, return_tensors='pt', return_token_type_ids=False)
response = model.generate(**inputs, max_new_tokens=64)
print(tokenizer.batch_decode(response, skip_special_tokens=True)[0])
@ai_machinelearning_big_data
#AI #ML #LLM #Bamba #IBM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥3❤2
This media is not supported in your browser
VIEW IN TELEGRAM
📌 Математика, машинное обучение и работа с данными на практике
Алексей Толстиков, руководитель Школы анализа данных Яндекса (ШАД), делится опытом, который будет полезен не только будущим ML- и DS-специалистам, но также их преподавателям – в подкасте Виктора Кантора на канале MLinside.
В видео разбирают:
🟡 Важность гибких методов преподавания. Как преподаватели-менторы помогают справиться с трудностями в обучении, которые возникают у студентов.
🟡 Главное в менторстве. В чем основная задача наставников и почему им не обязательно быть универсальными экспертами.
🟡 Путь к пониманию алгоритмов. Как не просто изучать теорию, но и научить видеть её практическую ценность – через задачи, соревнования и примеры из жизни.
@data_math
Алексей Толстиков, руководитель Школы анализа данных Яндекса (ШАД), делится опытом, который будет полезен не только будущим ML- и DS-специалистам, но также их преподавателям – в подкасте Виктора Кантора на канале MLinside.
В видео разбирают:
🟡 Важность гибких методов преподавания. Как преподаватели-менторы помогают справиться с трудностями в обучении, которые возникают у студентов.
🟡 Главное в менторстве. В чем основная задача наставников и почему им не обязательно быть универсальными экспертами.
🟡 Путь к пониманию алгоритмов. Как не просто изучать теорию, но и научить видеть её практическую ценность – через задачи, соревнования и примеры из жизни.
@data_math
👍9
Media is too big
VIEW IN TELEGRAM
⚡️ Математика машинного обучения.Базовые понятия тензорного исчисления. Урок 3
📌 Видео
📌 Урок 1 / Урок2
📌 Colab
@data_math
📌 Видео
📌 Урок 1 / Урок2
📌 Colab
@data_math
🔥6👍4❤2🥰1🤣1
Forwarded from Machinelearning
Интересная и познавательная статья разработчика Ивана Шубина о том, как он использовал матрицы для создания интерактивного редактора диаграмм Schemio.
Изначально, редактор позволял создавать простые фигуры и манипулировать ими, но с введением иерархии объектов возникла необходимость в сложных преобразованиях координат. Матрицы стали ключом к решению этой проблемы, позволяя эффективно управлять перемещением, вращением и масштабированием объектов.
Для преобразования глобальных и локальных координат между собой использовались матричные преобразования. Умножение матриц дало возможность комбинировать преобразования, а инверсия матрицы помогает переводить координаты из глобальных в локальные.
Иван подробно описывает, как матрицы помогают управлять поворотом и масштабированием объектов относительно опорной точки и как они используются при монтировании и демонтировании объектов, чтобы избежать нежелательных коллизий.
Таким образом, матричная математика стала решением для расширения возможностей редакторе Schemio.
#Math #LinearAlgebra #Webdev
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10❤2🔥2
Кодирование сигналов
1. Код Грея
2. Применение битов четности
3. Код Хемминга
4. Синхронизация с помощью избыточного кода
5. Скремблирование
6. Кодирование битов при последовательной передаче
7. Битстаффинг
8. Передатчик Манчестер II
9. Приемник кода Манчестер II
10. Двунаправленная передача импульсов по одной линии
#video #math
https://www.youtube.com/watch?v=C4cU4gldP5c&list=PL1VvMJF0dnhrcJZBhrAr8OWZKkCtbIBGQ&ab_channel=%D0%AD%D0%BB%D0%B5%D0%BA%D1%82%D1%80%D0%BE%D1%82%D0%B5%D1%85%D0%BD%D0%B8%D0%BA%D0%B0%D0%B8%D1%8D%D0%BB%D0%B5%D0%BA%D1%82%D1%80%D0%BE%D0%BD%D0%B8%D0%BA%D0%B0%D0%B4%D0%BB%D1%8F%D0%BF%D1%80%D0%BE%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%B8%D1%81%D1%82%D0%BE%D0%B2
@data_math
1. Код Грея
2. Применение битов четности
3. Код Хемминга
4. Синхронизация с помощью избыточного кода
5. Скремблирование
6. Кодирование битов при последовательной передаче
7. Битстаффинг
8. Передатчик Манчестер II
9. Приемник кода Манчестер II
10. Двунаправленная передача импульсов по одной линии
#video #math
https://www.youtube.com/watch?v=C4cU4gldP5c&list=PL1VvMJF0dnhrcJZBhrAr8OWZKkCtbIBGQ&ab_channel=%D0%AD%D0%BB%D0%B5%D0%BA%D1%82%D1%80%D0%BE%D1%82%D0%B5%D1%85%D0%BD%D0%B8%D0%BA%D0%B0%D0%B8%D1%8D%D0%BB%D0%B5%D0%BA%D1%82%D1%80%D0%BE%D0%BD%D0%B8%D0%BA%D0%B0%D0%B4%D0%BB%D1%8F%D0%BF%D1%80%D0%BE%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%B8%D1%81%D1%82%D0%BE%D0%B2
@data_math
❤10👍7👀1
Media is too big
VIEW IN TELEGRAM
🔥 Старейшая нерешённая задача
Существуют ли нечётные совершенные числа? Над этим вопросом уже 2000 лет бьются умнейшие математики.
Дерек Маллер с канала Veritasium опять решил сломать всем мозг и сделал получасовое видео об очередной математической жести. Удачи всем что-то понять, мы старались как могли. Было тяжело, мы устали. Кто-нибудь, заберите уже у Дерека книгу по теории чисел.
📌 источник
Существуют ли нечётные совершенные числа? Над этим вопросом уже 2000 лет бьются умнейшие математики.
Дерек Маллер с канала Veritasium опять решил сломать всем мозг и сделал получасовое видео об очередной математической жести. Удачи всем что-то понять, мы старались как могли. Было тяжело, мы устали. Кто-нибудь, заберите уже у Дерека книгу по теории чисел.
📌 источник
👍12❤7🔥3
Media is too big
VIEW IN TELEGRAM
⚡️ Тензорное разложении и его применении в машинном обучении. Урок 4
📌 Видео
📌 Урок 1 / Урок2 / Урок3
📌 Colab
@data_math
📌 Видео
📌 Урок 1 / Урок2 / Урок3
📌 Colab
@data_math
👍12❤4
ФИЗМАТ - топовый канал про Физику, Математику и ИТ.
С помощью картинок и шортcов даже новички разберутся в сложных концепциях и формулах.
Присоединяйтесь: t.iss.one/fizmat
С помощью картинок и шортcов даже новички разберутся в сложных концепциях и формулах.
Присоединяйтесь: t.iss.one/fizmat
👍6❤3🔥2
Forwarded from Machinelearning
QVQ-72B-Preview - экспериментальная VLM на основе Qwen2-VL-72B , разработанная Qwen, со способностями к аналитическому мышлению и новым уровнем когнитивных навыков.
Проведенная в Qwen оценка QVQ-72B-Preview на бенчмарках MMMU, MathVista, MathVision и OlympiadBench показала результат 70.3 на MMMU, 71.4 на MathVista, 35.9 в MathVision и 20.4 на наборе OlympiadBench, подчеркнув ее способность к комплексному пониманию и рассуждению в мультидисциплинарных задачах.
⚠️ Несмотря на высокие результаты, QVQ-72B-Preview - предварительная версия модели, которая имеет ограничения:
Неофициальные квантованные версии QVQ-72B-Preview в формате GGUF с диапазоном разрядностей от 1-bit (23.7GB) до 8-bit (77.26GB) и MLX-версии от mlx community в разрядностях от 4-bit до 16-bit.
@ai_machinelearning_big_data
#AI #ML #VLM #Qwen #Reasoning
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2😁1