Представили новую технику оптимизации в DL — AYLA, которая улучшает сходимость и стабильность с помощью преобразования функции потерь и динамической скорости обучения.
Эксперименты показывают, что AYLA превосходит существующие методы, такие как SGD и ADAM, в различных задачах, таких как синтетические полиномы и классификация изображений.
https://arxiv.org/pdf/2504.01875
Эксперименты показывают, что AYLA превосходит существующие методы, такие как SGD и ADAM, в различных задачах, таких как синтетические полиномы и классификация изображений.
https://arxiv.org/pdf/2504.01875
❤🔥3
CFIRE — алгоритм для создания глобальных правил решений из локальных объяснений с использованием майнинга частых элементов.
Он решает проблему несогласованности методов объяснения и показывает высокую точность и производительность на 700 моделях черного ящика и 14 наборах данных.
https://arxiv.org/pdf/2504.00930
Он решает проблему несогласованности методов объяснения и показывает высокую точность и производительность на 700 моделях черного ящика и 14 наборах данных.
https://arxiv.org/pdf/2504.00930
❤🔥1
GraphMaster — первая многоагентная система для синтеза графовых данных в условиях ограниченных данных.
Она использует четыре специализированных агента LLM для оптимизации процесса синтеза, обеспечивая семантическую согласованность и структурную целостность, и демонстрирует превосходство по сравнению с традиционными методами синтеза.
https://arxiv.org/pdf/2504.00711
Она использует четыре специализированных агента LLM для оптимизации процесса синтеза, обеспечивая семантическую согласованность и структурную целостность, и демонстрирует превосходство по сравнению с традиционными методами синтеза.
https://arxiv.org/pdf/2504.00711
❤🔥2
В данной работе предлагается новая методика MetaLoRA, которая сочетает принципы мета-обучения и низкоранговой адаптации для эффективного подстраивания нейронных сетей под новые задачи.
MetaLoRA улучшает существующие методы, позволяя динамически настраивать параметры и лучше учитывать особенности различных задач, сохраняя при этом вычислительную эффективность.
https://arxiv.org/pdf/2504.00460
MetaLoRA улучшает существующие методы, позволяя динамически настраивать параметры и лучше учитывать особенности различных задач, сохраняя при этом вычислительную эффективность.
https://arxiv.org/pdf/2504.00460
❤🔥2
Статья объясняет, как использовать данные из «Яндекс.Метрики» для глубокого анализа и интеграции с другими источниками, такими как CRM-системы, для получения инсайтов и проверки гипотез.
В ней также приводится инструкция по получению OAuth-токена и примеры Python-кода для работы с API Яндекс.Метрики.
https://habr.com/ru/companies/digitalleague/articles/742156/
В ней также приводится инструкция по получению OAuth-токена и примеры Python-кода для работы с API Яндекс.Метрики.
https://habr.com/ru/companies/digitalleague/articles/742156/
👍2
Google DeepMind исследует, как LLM учат факты, обнаружив, что процесс происходит в три этапа: от запоминания статистических закономерностей до формирования связей между элементами текста и, наконец, к точному воспроизведению фактов.
Это исследование помогает понять причины “катастрофического забывания” при добавлении новых данных.
https://arxiv.org/pdf/2503.21676
Это исследование помогает понять причины “катастрофического забывания” при добавлении новых данных.
https://arxiv.org/pdf/2503.21676
👍3
II-Thought-RL-v0 — датасет для RL с 340 тысячами задач, решающий проблемы старых наборов данных, такие как дублирование и низкое качество.
Он включает верификацию и фильтрацию для повышения точности, но имеет дисбаланс, с преобладанием математики и программирования.
https://www.ii.inc/web/blog/post/ii-thought
Он включает верификацию и фильтрацию для повышения точности, но имеет дисбаланс, с преобладанием математики и программирования.
https://www.ii.inc/web/blog/post/ii-thought
❤🔥3
На днях Google выкатил статью с дико неочевидным тезисом: чтобы модель отвечала точнее, нужно дважды отправить ей один и тот же промпт. Звучит как шутка, но работает на всех топ-моделях (Gemini, GPT, Claude, Deepseek) и почти в 70% тестов. Cуть в том, что дублирование заставляет думать нейронку в заданном контексте.
Что особенно цепляет: мы привыкли, что сложное чинят сложным, а тут - просто Ctrl+C, Ctrl+V, и точность повышается. Самый яркий пример - тест NameIndex, где модель должна назвать 25-е имя из списка в 50 позиций. Без повторения точность 21%, с повторением - 97%. Получаем: дубль = точность🤔. Так что, мы до сих пор не понимаем, как работают наши же модели :)
Примечание: работает только для моделей без reasoning*
arxiv.org/abs/2512.1...
Что особенно цепляет: мы привыкли, что сложное чинят сложным, а тут - просто Ctrl+C, Ctrl+V, и точность повышается. Самый яркий пример - тест NameIndex, где модель должна назвать 25-е имя из списка в 50 позиций. Без повторения точность 21%, с повторением - 97%. Получаем: дубль = точность🤔. Так что, мы до сих пор не понимаем, как работают наши же модели :)
Примечание: работает только для моделей без reasoning*
arxiv.org/abs/2512.1...
🔥10🐳1🍓1 1
Друзья, добрый вечер! Мы возобновляем публикации на канале. Постараемся радовать вас интересными статьями, материалами.
Мы также включили сообщения на канале. Теперь вы можете нам писать. Можете делиться с нами интересными находками, мы их, возможно, опубликуем, чтобы больше людей смогли получить пользу.
Мы также включили сообщения на канале. Теперь вы можете нам писать. Можете делиться с нами интересными находками, мы их, возможно, опубликуем, чтобы больше людей смогли получить пользу.
❤🔥12
В последнее время ситуация на рынке железа для ИИ активно накаляется. В этом месяце Nvidia готовится представить свой новый чип Blackwell Ultra B300, но суть далеко не в этом. Будет глупо отрицать, что индустрия незаметно развернулась от обучения моделей к инференсу , здесь и выяснилась забавная вещь.
Как оказалось, чипы Nvidia для этого банально неоптимальны. Они слишком дорогие, слишком прожорливые, и не справляются с актуальными задачами. На фоне «разоблачения» Nvidia, активно набирают ход конкуренты - Groq и Cerebras, запилившие специализированные «языковые процессоры» (LPU), которые просто быстрее жрут текст и дешевле в эксплуатации. На рынке тоже очень даже интересно - сначала OpenAI подписался на чипы Cerebras, а теперь и сами «зеленые» в панике выкупают Groq за $20 млрд, чтобы срочно латать дыры .
Казалось бы, что Nvidia безальтернативный гигант индустрии, но судя по тому, какую активность проявляют конкуренты, появляется повод задуматься о разрушении неуязвимости «зелёного» бренда. Дженсен Хуанг сам признал, что старые GPU не вытягивают новый тренд на ИИ-агентов и генерацию кода. Остаётся лишь один вопрос - сможет ли лидер «реанимировать» свои позиции, или же всё-таки монополии приходит конец.
https://3dnews.ru/1137580/nvidia-vstupit-v-bitvu-za-inferens-gotovitsya-chip-na-tehnologiyah-groq-dlya-openai-i-iiagentov?ext=subscribe&source=subscribeRu
Как оказалось, чипы Nvidia для этого банально неоптимальны. Они слишком дорогие, слишком прожорливые, и не справляются с актуальными задачами. На фоне «разоблачения» Nvidia, активно набирают ход конкуренты - Groq и Cerebras, запилившие специализированные «языковые процессоры» (LPU), которые просто быстрее жрут текст и дешевле в эксплуатации. На рынке тоже очень даже интересно - сначала OpenAI подписался на чипы Cerebras, а теперь и сами «зеленые» в панике выкупают Groq за $20 млрд, чтобы срочно латать дыры .
Казалось бы, что Nvidia безальтернативный гигант индустрии, но судя по тому, какую активность проявляют конкуренты, появляется повод задуматься о разрушении неуязвимости «зелёного» бренда. Дженсен Хуанг сам признал, что старые GPU не вытягивают новый тренд на ИИ-агентов и генерацию кода. Остаётся лишь один вопрос - сможет ли лидер «реанимировать» свои позиции, или же всё-таки монополии приходит конец.
https://3dnews.ru/1137580/nvidia-vstupit-v-bitvu-za-inferens-gotovitsya-chip-na-tehnologiyah-groq-dlya-openai-i-iiagentov?ext=subscribe&source=subscribeRu
🔥6⚡1
Кажется, индустрия LLM quietly сместила фокус с «самой умной модели» на самую дешёвую.
На прошлой неделе Google представили модель Gemini 3.1 Flash-Lite, которая не пытается бить рекорды на бенчмарках, а делает ставку на очень дешёвый и быстрый инференс. Цена начинается примерно от $0.25 за миллион входных токенов, а скорость генерации заметно выше предыдущих версий Flash.
Тут и проявляется интересный сдвиг. Большинству продуктов на самом деле не нужна модель уровня frontier-SotA. Им нужна модель, которая: "достаточно" умная, быстро работает, и стоит копейки в эксплуатации.
Поэтому постепенно вырисовывается новая архитектура рынка, в которой топ-модели становятся "витриной" возможностей, а реальные приложения начинают массово работать на дешёвых "lite" версиях.
Похоже, что следующая большая война в AI будет не за интеллект моделей, а за стоимость одного токена.
https://www.investing.com/news/stock-market-news/google-unveils-gemini-31-flash-lite-model-with-lower-pricing-93CH-4538950?utm_source=techstartups.com
На прошлой неделе Google представили модель Gemini 3.1 Flash-Lite, которая не пытается бить рекорды на бенчмарках, а делает ставку на очень дешёвый и быстрый инференс. Цена начинается примерно от $0.25 за миллион входных токенов, а скорость генерации заметно выше предыдущих версий Flash.
Тут и проявляется интересный сдвиг. Большинству продуктов на самом деле не нужна модель уровня frontier-SotA. Им нужна модель, которая: "достаточно" умная, быстро работает, и стоит копейки в эксплуатации.
Поэтому постепенно вырисовывается новая архитектура рынка, в которой топ-модели становятся "витриной" возможностей, а реальные приложения начинают массово работать на дешёвых "lite" версиях.
Похоже, что следующая большая война в AI будет не за интеллект моделей, а за стоимость одного токена.
https://www.investing.com/news/stock-market-news/google-unveils-gemini-31-flash-lite-model-with-lower-pricing-93CH-4538950?utm_source=techstartups.com