Forwarded from Machinelearning
⚡️ Gemma 3 QAT
Google DeepMind выпустили обновленные версии своих языковых моделей Gemma 3, которые стали значительно эффективнее по использованию памяти без существенной потери производительности.
Ключевая технология: QAT (Quantization-Aware Training)
Что это? QAT — это техника обучения, при которой модель во время дообучения "учится" работать с пониженной точностью вычислений (используя меньше бит для представления чисел). Это имитирует условия, в которых модель будет работать после квантизации (сжатия).
Обычная квантизация после обучения может привести к падению точности. QAT позволяет модели заранее адаптироваться к работе в низкоточном режиме, минимизируя потерю качества после финальной квантизации.
Каждая модель (1B, 4B, 12B, 27B) была дообучена примерно на 5000 шагов с имитацией низкой разрядности весов. При этом использовался приём, похожий на знание-дистилляцию: оригинальная неквантованная модель выступала в роли «учителя».
Преимущество QAT-подхода для Gemma 3 оказалось колоссальным. Официально заявлено, что квантованные модели Gemma 3 QAT сохраняют качество, практически не упало, при этом требуют в ~3 раза меньше памяти.
Например, объём памяти для хранения весов самой крупной модели на 27B параметров сократился с ~54 ГБ (в формате bfloat16) до ~14 ГБ в 4-битном целочисленном формате – это экономия памяти примерно в ~3–4 раза.
✔️HF
@ai_machinelearning_big_data
#google #gemma #AI #ML #LLM #Quantization
Google DeepMind выпустили обновленные версии своих языковых моделей Gemma 3, которые стали значительно эффективнее по использованию памяти без существенной потери производительности.
Ключевая технология: QAT (Quantization-Aware Training)
Что это? QAT — это техника обучения, при которой модель во время дообучения "учится" работать с пониженной точностью вычислений (используя меньше бит для представления чисел). Это имитирует условия, в которых модель будет работать после квантизации (сжатия).
Обычная квантизация после обучения может привести к падению точности. QAT позволяет модели заранее адаптироваться к работе в низкоточном режиме, минимизируя потерю качества после финальной квантизации.
Каждая модель (1B, 4B, 12B, 27B) была дообучена примерно на 5000 шагов с имитацией низкой разрядности весов. При этом использовался приём, похожий на знание-дистилляцию: оригинальная неквантованная модель выступала в роли «учителя».
Преимущество QAT-подхода для Gemma 3 оказалось колоссальным. Официально заявлено, что квантованные модели Gemma 3 QAT сохраняют качество, практически не упало, при этом требуют в ~3 раза меньше памяти.
Например, объём памяти для хранения весов самой крупной модели на 27B параметров сократился с ~54 ГБ (в формате bfloat16) до ~14 ГБ в 4-битном целочисленном формате – это экономия памяти примерно в ~3–4 раза.
ollama run hf(.)co/google/gemma-3-4b-it-qat-q4_0-gguf
✔️HF
@ai_machinelearning_big_data
#google #gemma #AI #ML #LLM #Quantization
Не верю в успешность этого проекта, потому что это социализм. Нормальный сценарий, банкротство Intel с последующей покупкой его активов TSMC
Forwarded from БлоGнот
По информации из источников, Intel и TSMC ведут переговоры о создании совместного предприятия для управления производственными мощностями Intel, где тайваньская компания получит 20% акций.
В обмен на эту долю TSMC предложила поделиться своими методами производства чипов и обучить персонал Intel, вместо того чтобы вкладывать капитал. Переговоры инициировала администрация Трампа в стремлении возродить Intel, некогда флагмана американской технологической индустрии.
Внутри Intel существует сопротивление сделке — некоторые руководители опасаются массовых увольнений и утраты собственных технологий производства. Один из ключевых вопросов: как именно компании будут работать вместе, учитывая, что они используют разные модели производственного оборудования и материалы.
https://www.theinformation.com/articles/intel-tsmc-tentatively-agree-form-chipmaking-joint-venture?rc=ukjmk2
В обмен на эту долю TSMC предложила поделиться своими методами производства чипов и обучить персонал Intel, вместо того чтобы вкладывать капитал. Переговоры инициировала администрация Трампа в стремлении возродить Intel, некогда флагмана американской технологической индустрии.
Внутри Intel существует сопротивление сделке — некоторые руководители опасаются массовых увольнений и утраты собственных технологий производства. Один из ключевых вопросов: как именно компании будут работать вместе, учитывая, что они используют разные модели производственного оборудования и материалы.
https://www.theinformation.com/articles/intel-tsmc-tentatively-agree-form-chipmaking-joint-venture?rc=ukjmk2
The Information
Intel, TSMC Tentatively Agree to Form Chipmaking Joint Venture
Intel’s financial crisis may be over—with support from its biggest rival. Executives from Intel and Taiwan Semiconductor Manufacturing Co. recently reached a preliminary agreement to form a joint venture to operate Intel’s chipmaking facilities, with TSMC…
Кстати, да. В Казахстане хуй его знает уже сколько лет заблокирован Пинтерест
Forwarded from Internet Freedom
В реестре заблокированных сайтов есть глобальные биржи:
При этом в Казахстане существуют локальные версии Binance и Bybit, но, по слухам, они настолько бесполезные, что мало кто ими пользуется. Видимо, они взяли лицензию в МФЦА чисто для галочки, потому что 99% трейдеров и арбитражников сидят на глобальных сайтах.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from CleverSky Qazkho
демшиза ии киберпанк
Приложение Байбита работает без сбоев пока.
Forwarded from Internet Freedom
демшиза ии киберпанк
Приложение Байбита работает без сбоев пока.
Все приложения заблокированных бирж работают без сбоев. государство ограничивает доступ лишь к доменным именам
Forwarded from Ivan B.
демшиза ии киберпанк
Все приложения заблокированных бирж работают без сбоев. государство ограничивает доступ лишь к доменным именам
Это как с пинтерестом
Forwarded from Хабр Новости
Компании Кремниевой долины просят своих иностранных сотрудников не покидать США из опасения, что их могут не впустить назад. Такая реакция наблюдается после ужесточения иммиграционной политики при новой администрации Дональда Трампа.
#Работа #законодательство
#Работа #законодательство
Forwarded from Хабр Новости
Некоторые родители в США лишились возможности отслеживать местонахождение своих детей через устройства и приложение T-Mobile, которые вместо этого показывали координаты других детей, пишет 404 Media. Речь идёт о GPS-трекерах SyncUP, продаваемых американским оператором связи T-Mobile.
#данные #техника #ТехническиеШоколадки
#данные #техника #ТехническиеШоколадки
Forwarded from addmeto (Grigory Bakunov)
Одного из сотрудников Space X, который теперь работает в DOGE (формально его должность "старший советник в аппарате заместителя генерального прокурора в Министерстве юстиции" США) был уличен в том, что по его собственному утверждению в молодости хакерствовал, пиратил книжки и распространял их, пиратил софт и делал читы для игр. Как обычно, человек спалился сам, не надо хвастаться в интернете тем, что делаешь незаконно.
Жаль, что обсуждают это в ключе "как такой человек может быть связан с правительством". На мой взгляд, эта новость совсем о другом — в DOGE действительно много крутых специалистов, многие из них ведутся на позиционирование Маска.
https://arstechnica.com/tech-policy/2025/04/i-no-longer-hack-paypals-doge-staffers-hacker-past-raises-red-flags/
Жаль, что обсуждают это в ключе "как такой человек может быть связан с правительством". На мой взгляд, эта новость совсем о другом — в DOGE действительно много крутых специалистов, многие из них ведутся на позиционирование Маска.
https://arstechnica.com/tech-policy/2025/04/i-no-longer-hack-paypals-doge-staffers-hacker-past-raises-red-flags/
Ars Technica
DOGE staffer’s YouTube nickname accidentally revealed his teen hacking activity
Evidence of DOGE staffer’s proud history of hacking quickly deleted, report says.
Forwarded from Сиолошная
Наныли: o3 таки выпустят, и даже... o4-mini! (🥺 вот бы ещё o3 pro...)
К другим новостям: GPT-5 всё ещё на горизонте нескольких месяцев, хоть компания и «сможет сделать её даже лучше, чем изначально предполагали»
А ещё на OpenRouter появилась загадочная модель, выдающая 130 токенов в секунду (быстрая), говорящая, что она от OpenAI и поддерживающая миллион токенов контекста. Уж не o4-mini ли это?
UPD: странно это читать вместе с тем, как я читаю вчерашнюю ai-2027.com , где описывается, как а) одна модель помогает улучшат другие (o3-o4 -> GPT-5) б) компания OpenBrain не публикует свои модели, отводя мощности под дальнейшие улучшения😱
К другим новостям: GPT-5 всё ещё на горизонте нескольких месяцев, хоть компания и «сможет сделать её даже лучше, чем изначально предполагали»
А ещё на OpenRouter появилась загадочная модель, выдающая 130 токенов в секунду (быстрая), говорящая, что она от OpenAI и поддерживающая миллион токенов контекста. Уж не o4-mini ли это?
UPD: странно это читать вместе с тем, как я читаю вчерашнюю ai-2027.com , где описывается, как а) одна модель помогает улучшат другие (o3-o4 -> GPT-5) б) компания OpenBrain не публикует свои модели, отводя мощности под дальнейшие улучшения
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from vc.ru
Президент Дональд Трамп подписал указ о продлении работы TikTok в США ещё на 75 дней. «Сделка по спасению» соцсети требует больше времени.
До этого срок «отсрочки» по закону о продаже или «запрете» TikTok в США истекал 5 апреля 2025 года
vc.ru/social/1907714
До этого срок «отсрочки» по закону о продаже или «запрете» TikTok в США истекал 5 апреля 2025 года
vc.ru/social/1907714