Big Data AI
16.8K subscribers
824 photos
98 videos
19 files
827 links
@haarrp - админ

Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям

@data_analysis_ml - анализ данных

@ai_machinelearning_big_data

@itchannels_telegram - важное для программиста

РКН: clck.ru/3Fmqxe
Download Telegram
3👍3🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
⭐️ Проекты с открытым исходным кодом, которые изменили мир

Веб: Node.js, React, Apache
Базы данных: PostgreSQL, Redis, Elasticsearch
Инструменты разработчика: Git, VSCode, Jupyter Notebook
ML и Big Data: Tensorflow, Apache Spark, Kafka
DevOps: Docker, Kubernetes, Linux

@bigdatai
👍12🔥51❤‍🔥1🤮1
📌 Что такое квантизация моделей и зачем она нужна

На Хабре вышла статья, в которой ML-разработчик Яндекса рассказал о квантизации и рассмотрел разные типы данных и современные методы квантизации. Будет полезно не только ML-инженерам, но и всем, кто хочет уметь заставлять модели работать эффективней.

@bigdatai
🔥8👍21
🔝 Google опубликовали новый датасет изображений состояния кожи (SCIN) в сотрудничестве с врачами StanfordMed.

Он доступен в свободном доступе в качестве ресурса для исследователей, преподавателей и разработчиков

https://blog.research.google/2024/03/scin-new-resource-for-representative.html

@bigdatai
👍12🔥31
🤖 Phi-2 Теперь на #KaggleModels!

Phi-2 - это языковая модель с 2,7 миллиардами параметров, которая демонстрирует выдающиеся способности к рассуждению и пониманию языка.

https://www.kaggle.com/models/Microsoft/phi

@bigdatai
👍9🔥42
ComCLIP: Training-Free Compositional Image and Text Matching

📄 Paper: https://arxiv.org/abs/2211.13854
🌐 Project: https://sites.google.com/view/comclip
🛠️ Code/Data: https://github.com/eric-ai-lab/ComCLIP (

@bigdatai
👍32🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🌟 Нейросеть NVIDIA LATTE3D создаёт модели для 3D-принтера по текстовому описанию

Компания NVIDIA представила новую генеративную ИИ-модель модель под названием LATTE3D. Разработчики позиционируют её как скоростной виртуальный 3D-принтер — она способна создавать трёхмерные объекты по текстовому описанию менее чем за секунду.

LATTE3D создаёт 3D-модели в популярном формате, который используется для стандартных приложений рендеринга и применим в разработке видеоигр, рекламы, дизайн-проектов, а также в большинстве VR- и AR-приложений. Само по себе такое решение не ново, однако преимуществом ИИ-модели NVIDIA над другими проектами стала очень высокая скорость генерации.

Согласно внутренним тестам компании, другим ИИ-моделям для создания готового результата требуется от 20 секунд до более 30 минут, в то время как LATTE3D справляется с задачей в среднем за 400 мс. Пока что разработчики научили LATTE3D генерировать только повседневные предметы и животных, но при наличии подходящих наборов данных портфолио модели можно расширить.

Фирменный ИИ был обучен с использованием графических процессоров NVIDIA A100 Tensor Core, а его демоверсия работает на сборке с видеокартой NVIDIA RTX A6000.
Сейчас NVIDIA LATTE3D всё ещё находится в стадии разработки. О сроках выпуска общедоступной версии сервиса информации пока нет.

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍62💩1
🚀 Intel предствавили полностью интегрированные многослойные персептроны на графических процессорах Intel для центров обработки данных

Intel Max 1550 превосходит графический процессор H100 в 2,84 раза при выводе и в 1,75 раза при обучении

https://arxiv.org/abs/2403.17607

@bigdatai
🔥51
Forwarded from Machinelearning
🌍 𝗠𝗮𝗷𝗼𝗿 𝗧𝗢𝗠: 𝗣𝗹𝗮𝗻𝗲𝘁 𝗘𝗮𝗿𝘁𝗵 𝗶𝘀 𝗯̶𝗹̶𝘂̶𝗲̶ 𝟱.𝟰𝟬𝟱 𝗚𝗛𝘇

MajorTom-Core-S1RTC новый стандарт изображений со спутников и датасет, который содержит 1 469 955 снимков.

16 ТБ радиометрически откалиброванных изображений.

HF: https://huggingface.co/Major-TOM
Github: https://github.com/ESA-PhiLab/Major-TOM/
Colab: https://colab.research.google.com/github/ESA-PhiLab/Major-TOM/blob/main/03-Filtering-in-Colab.ipynb
Paper: https://www.arxiv.org/abs/2402.12095
MajorTOM-Core-Viewer: https://huggingface.co/spaces/Major-TOM/MajorTOM-Core-Viewer

@ai_machinelearning_big_data
🔥8👍21
⚡️ Обнаружение текста, сгенерированного искусственным интеллектом

Исследователи изучили влияние ChatGPT на экспертные оценки конференций по искусственному интеллекту, подтвердив то, что мы все знали

статья: https://arxiv.org/pdf/2403.07183.pdf

@bigdatai
👍4🔥31
⚡️ Третье поколение языковых моделей YandexGPT

В компании анонсировали линейку YandexGPT 3. Нейросеть YandexGPT 3 Pro стала первой языковой моделью, которую компании смогут самостоятельно дообучать на конретных задачах в сервисе ML-разработки Yandex DataSphere. Чтобы запустить процесс дообучения, нужно загрузить в DataSphere файл с примерами запросов и эталонными ответами на них. Такая нейросеть будет доступна только дообучившей её компании.

Работу YandexGPT 3 Pro можно оценить в демке и встроить в продукты бизнеса через API. Её стоимость для бизнеса снизилась почти в два раза. Плюс это базовая модель, которую сам Яндекс будет использовать в новых запусках и интеграциях генеративных технологий в продукты и инфраструктуру.

@bigdatai
👍9💩32
⚡️ Руководство по установке для проекта Dark GPT

DarkGPT - это помощник по искусственному интеллекту на базе GPT-4-200K, предназначенный для выполнения запросов к взломанным базам данных.

Это руководство поможет вам настроить и запустить проект в вашей локальной среде.

github.com/luijait/DarkGPT

@bigdatai
👍7🔥31
⚡️ Возможно, это самый большой сдвиг в парадигме Lms

В ходе двух независимых исследований удалось предварительно обучить 1,58-разрядные LMS, которые соответствуют производительности моделей FP16.

Нужно посмотреть, как он масштабируется (~ 30B), но мне очень интересны 1,58-битные модели Mamba и MoE.

https://huggingface.co/1bitLLM/bitnet_b1_58-3B

@bigdatai
👍7🔥31
Forwarded from Machinelearning
Факультет компьютерных наук НИУ ВШЭ расширяет сотрудничество с Яндексом для подготовки специалистов по ИИ и ML.

ФКН был основан ВШЭ совместно с Яндексом 10 лет назад. За время своего существования он стал одним из лидеров в подготовке разработчиков и специалистов по ИИ и ML, выпустив более 3 000 человек,

В следующие 10 лет Яндекс и ВШЭ:

- Увеличат количество выпускников факультета по программам Яндекса в 4 раза
- Откроют магистратуру по ИИ в маркетинге и продукте
- Создадут направления по генеративным технологиям на магистерской программе "Современные компьютерные науки"
- Запустят студенческий кемп по машинному обучению

Обратите внимание, если планируете стать студентом — ВШЭ занимает второе место среди российских университетов по количеству публикаций на конференциях A*.

Подробнее

@ai_machinelearning_big_data
👍7
⚡️Новый метод, который позволяет удалить 40% слоев LLM без снижения точности.

Это делает их намного дешевле и быстрее.

Его протестировали это на различных моделях с открытым исходным кодом.

В каждом семействе моделей было максимальное количество слоев, которые можно было удалить без снижения точности:

- Mistral - 30%
- Lama 70B - 40%
- Lama 13B - 50%

Отличная статья.

https://arxiv.org/html/2403.17887v1

@bigdatai
👍13🔥32🤔1
⚡️ Это шокирует.

Facebook* продает Netflix все ваши личные сообщения в Messenger в обмен на историю просмотров, при этом Netflix платит им более 100 миллионов долларов за рекламу.

* принадлежит Meta, признанной в РФ экстремистской и запрещённой на территории страны.

Компания продает ваши данные с целью получения прибыли.

Источник

@bigdatai
🔥11😱53👍2🥱2👎1🤡1
🔥 Сегодня выпущены два самых больших открытых набора данных для распознавания текста за всю историю 📜 📜

Набор данных содержит миллионы реальных документов, изображений и текстов для задач распознавания текста, анализа и разбора документов VQA.: https://huggingface.co/datasets/pixparse/idl-wds
Датасет дополнен аннотациями из проекта idl_data Бриттена и др. (https://arxiv.org/abs/2202.12985 )

PDFA: https://huggingface.co/datasets/pixparse/pdfa-eng-wds

@data_analysis_ml
👍6
Одно из лучших видео с объяснением работы Трансформеров

На канале 3Blue1Brown недавно было опубликовано новое видео из серии о глубоком обучении. В этот раз авторы рассматривают вопрос "Что такое GPT" и представляют визуальное введение в Трансформеров.

Рекомендуем посмотреть.

📌 https://www.youtube.com/watch?v=wjZofJX0v4M&ab_channel=3Blue1Brown

@bigdatai
👍52🔥1
🔜 Intel планирует опередить TSMC в выпуске чипов 2 нм

Intel намерена обойти TSMC, став первопроходцем в производстве 2-нанометровых чипов. Однако возникают вопросы о сравнительном качестве их техпроцесса по сравнению с 3-нанометровым процессом TSMC. Несмотря на длительный период, когда Intel отставала от TSMC и Samsung в освоении новейших технологий производства, сейчас компания готовится к выпуску продукции на 2-нанометровом техпроцессе, опережая конкурентов.

Согласно последним отчетам, Intel планирует начать массовое производство своих процессоров Arrow Lake и Lunar Lake, используя новейшие технологии Intel 20A и 18A, уже до конца текущего года. Это сделает их первыми в мире чипами, изготовленными с использованием 2-нанометрового техпроцесса. В то время как TSMC, по всей видимости, начнет производство аналогичных чипов несколько позже.

По предварительным данным, TSMC планирует производить около 67 500 пластин в месяц, в то время как Intel сможет выпускать до 202 500 пластин. Однако стоит отметить, что, по имеющейся информации, Intel не будет производить все компоненты своих процессоров самостоятельно.

Некоторые источники утверждают, что процессорные плитки для Arrow Lake будут изготавливаться TSMC с использованием 3-нанометрового техпроцесса, что может указывать на то, что новейший техпроцесс Intel 20A все же уступает технологии конкурента, которая уже полгода присутствует на рынке.

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
динамический 4D рендеринг человека ⚡️

Новая модель динамической 4D визуализации человека.

- Проект: https://taohuumd.github.io/projects/SurMo/
- Docs: https://arxiv.org/abs/2404.01225
- Код: https://github.com/TaoHuUMD/SurMo

@bigdatai
👍5🔥32
⚡️ ReFT: файнтюниг для больших языковых моделей

в 10-50 раз более эффективная настройка параметров, чем предыдущие современные методы точной настройки параметров

репозиторий: https://github.com/stanfordnlp/pyreft
abs: https://arxiv.org/abs/2404.03592

@bigdatai
🔥5👍32