На Kaggle стартовал новый AI-конкурс K Prize (Konwinski Prize) от сооснователя Databricks и Perplexity Энди Конвински.
Главная идея проверить, смогут ли open-source AI-модели решать реальные задачи разработки. Особенность конкурса: модели отправляются заранее, а тестовые задачи выбираются позже из свежих GitHub-issues, появившихся уже после дедлайна. Конвински обещает выплатить $1 млн первой модели, которая решит более 90% задач, но кажется что пока деньги в безопасности.
Оценка моделей проходит:
• Офлайн: без доступа в интернет.
• Ограниченные ресурсы: не больше 4-х GPU (L4), предоставленных Kaggle.
• Проверка основана только на новых GitHub-issues, что исключает возможность заранее подготовить модель.
Первый тур показал, насколько это сложно: лучшая модель справилась лишь с 7,5% задач. Тут надо учесть, что все закрытые модели типа Claude/OpenAI сюда не попадают. Открытые модели типа Qwen 3 только в сильно квантизованном виде (аппаратные ограничения).
Сам Конвински считает, что подобный подход к тестированию, взятый из соревнований по прогнозированию рынка, полностью исключает возможность заранее «подогнать» модель под тестовые данные. «Пока мы не можем приблизиться даже к 10% задач из бенчмарка, о замене программистов на AI говорить рано», — говорит Конвински (тут стоит напомнить, что большие проприетарные модели участвовали). Ветка на Reddit.
Главная идея проверить, смогут ли open-source AI-модели решать реальные задачи разработки. Особенность конкурса: модели отправляются заранее, а тестовые задачи выбираются позже из свежих GitHub-issues, появившихся уже после дедлайна. Конвински обещает выплатить $1 млн первой модели, которая решит более 90% задач, но кажется что пока деньги в безопасности.
Оценка моделей проходит:
• Офлайн: без доступа в интернет.
• Ограниченные ресурсы: не больше 4-х GPU (L4), предоставленных Kaggle.
• Проверка основана только на новых GitHub-issues, что исключает возможность заранее подготовить модель.
Первый тур показал, насколько это сложно: лучшая модель справилась лишь с 7,5% задач. Тут надо учесть, что все закрытые модели типа Claude/OpenAI сюда не попадают. Открытые модели типа Qwen 3 только в сильно квантизованном виде (аппаратные ограничения).
Сам Конвински считает, что подобный подход к тестированию, взятый из соревнований по прогнозированию рынка, полностью исключает возможность заранее «подогнать» модель под тестовые данные. «Пока мы не можем приблизиться даже к 10% задач из бенчмарка, о замене программистов на AI говорить рано», — говорит Конвински (тут стоит напомнить, что большие проприетарные модели участвовали). Ветка на Reddit.
www.kprize.ai
Konwinski Prize - AI Software Engineering Challenge
I’m giving $1M to the first team that exceeds 90% on a new version of SWE-bench.
👍5❤2
Сейчас в эфире:
Интервью: Правда о чипах в мозге: эксперт разбирает Neuralink и российские аналоги
Сергей Шишкин, руководитель группы нейрокогнитивных интерфейсов Московский государственный психолого-педагогический университет (МГППУ) и один из пионеров российских brain-computer interface, честно рассказывает о реальном положении дел в индустрии нейротехнологий.
🔥 ЧТО ВЫ УЗНАЕТЕ:
Почему проект Neuralink называют "провальным" и что на самом деле умеют пациенты Маска
Как обезьяна "обманывала" систему в знаменитом эксперименте с игрой Pong
Какие российские нейроинтерфейсы уже превосходят зарубежные аналоги
Когда обычные люди смогут купить "читалки мыслей" в магазине
Реальны ли планы Neuralink по восстановлению зрения в 2025 году
Кто действительно лидирует в гонке нейрочипов: Маск, Gabe Newell или китайцы
🎯 ОБ ЭКСПЕРТЕ:
Сергей Львович Шишкин - доктор наук, автор 170+ научных публикаций, создатель первого в России working brain-computer interface. Его исследования цитируются в ведущих мировых журналах. В отличие от многих экспертов, он лично работал с реальными пациентами и знает технологию "изнутри".
Смотреть тут https://www.youtube.com/watch?v=wH3hH6Cah94
и тут https://vkvideo.ru/video-39755794_456239434
И тут в телеграмм.
Интервью: Правда о чипах в мозге: эксперт разбирает Neuralink и российские аналоги
Сергей Шишкин, руководитель группы нейрокогнитивных интерфейсов Московский государственный психолого-педагогический университет (МГППУ) и один из пионеров российских brain-computer interface, честно рассказывает о реальном положении дел в индустрии нейротехнологий.
🔥 ЧТО ВЫ УЗНАЕТЕ:
Почему проект Neuralink называют "провальным" и что на самом деле умеют пациенты Маска
Как обезьяна "обманывала" систему в знаменитом эксперименте с игрой Pong
Какие российские нейроинтерфейсы уже превосходят зарубежные аналоги
Когда обычные люди смогут купить "читалки мыслей" в магазине
Реальны ли планы Neuralink по восстановлению зрения в 2025 году
Кто действительно лидирует в гонке нейрочипов: Маск, Gabe Newell или китайцы
🎯 ОБ ЭКСПЕРТЕ:
Сергей Львович Шишкин - доктор наук, автор 170+ научных публикаций, создатель первого в России working brain-computer interface. Его исследования цитируются в ведущих мировых журналах. В отличие от многих экспертов, он лично работал с реальными пациентами и знает технологию "изнутри".
Смотреть тут https://www.youtube.com/watch?v=wH3hH6Cah94
и тут https://vkvideo.ru/video-39755794_456239434
И тут в телеграмм.
YouTube
Правда о чипах в мозге: эксперт разбирает Neuralink и российские аналоги
Сергей Шишкин, руководитель группы нейрокогнитивных интерфейсов МГППУ и один из пионеров российских brain-computer interface, честно рассказывает о реальном положении дел в индустрии нейротехнологий.
🔥 ЧТО ВЫ УЗНАЕТЕ:
Почему проект Neuralink называют "провальным"…
🔥 ЧТО ВЫ УЗНАЕТЕ:
Почему проект Neuralink называют "провальным"…
🔥5
Кодирующий агент ИИ Warp обходит Claude Code и занимает первое место в рейтинге Terminal-Bench
Warp только что запустил первую среду разработки Agentic, созданную для разработчиков, желающих получать результаты быстрее. Это лучший в целом агент кодирования, опередивший Claude Code на 20%, ставший агентом № 1 в Terminal-Bench и набравший 71% в SWE-bench Verified.
✅ Длительные команды: то, что не может поддерживать ни один другой инструмент
✅ Многопоточность агентов: запуск нескольких агентов параллельно — все под вашим контролем
✅ На протяжении всего жизненного цикла разработки: настройка → кодирование → развертывание
Отзывы незамедлительно последовали:
«Просто потрясающе. Это полностью изменило мой рабочий процесс». — Яш Патил, технический специалист OpenAI . Знакомьтесь - https://www.warp.dev/
Warp только что запустил первую среду разработки Agentic, созданную для разработчиков, желающих получать результаты быстрее. Это лучший в целом агент кодирования, опередивший Claude Code на 20%, ставший агентом № 1 в Terminal-Bench и набравший 71% в SWE-bench Verified.
✅ Длительные команды: то, что не может поддерживать ни один другой инструмент
✅ Многопоточность агентов: запуск нескольких агентов параллельно — все под вашим контролем
✅ На протяжении всего жизненного цикла разработки: настройка → кодирование → развертывание
Отзывы незамедлительно последовали:
«Просто потрясающе. Это полностью изменило мой рабочий процесс». — Яш Патил, технический специалист OpenAI . Знакомьтесь - https://www.warp.dev/
Warp
The Agentic Development Environment
Warp is an AI agent platform that lets you run multiple agents in parallel to complete any development task.
Vibe Coding News этой недели:
Опрос Stackoverflow 2025 об ИИ, технологиях и зарплатах. Широкое внедрение ИИ, но скепсис к точности среди разработчиков, 16% разработчиков все еще не планируют использовать ИИ в работе, Установщик uv python самая упоминаемая технология, разрыв зарплат между USA и Индией сохраняется.
Статья о работе с контекстом. Главная мысль – несмотря на огромные контекстные окна не стоит запихивать в контекст все подряд. Советы как это реализовать на практике: Не используем лишнюю и противоречивую информацию, RAG все еще актуален, изоляция контекста – мультиагентные системы, в которых делим задачу на отдельные подзадачи, каждая со своим контекстом, а потом собираем. А также обрезка, саммаризация и выгрузка - храним часть данных вне окна контекста.
AgentSmith CMS система хранения промптов с открытым исходным кодом, построенная поверх OpenRouter, кажется может пригодиться для оптимизации инженерии промптов/контекста.
Meta планирует позволить кандидатам использовать ИИ во время собеседований по программированию.
В ChatGPT появился режим обучения. Вместо готовых ответов модель задаёт наводящие вопросы и помогает пошагово разобраться в теме.
Пропустили что-то интересное?
Опрос Stackoverflow 2025 об ИИ, технологиях и зарплатах. Широкое внедрение ИИ, но скепсис к точности среди разработчиков, 16% разработчиков все еще не планируют использовать ИИ в работе, Установщик uv python самая упоминаемая технология, разрыв зарплат между USA и Индией сохраняется.
Статья о работе с контекстом. Главная мысль – несмотря на огромные контекстные окна не стоит запихивать в контекст все подряд. Советы как это реализовать на практике: Не используем лишнюю и противоречивую информацию, RAG все еще актуален, изоляция контекста – мультиагентные системы, в которых делим задачу на отдельные подзадачи, каждая со своим контекстом, а потом собираем. А также обрезка, саммаризация и выгрузка - храним часть данных вне окна контекста.
AgentSmith CMS система хранения промптов с открытым исходным кодом, построенная поверх OpenRouter, кажется может пригодиться для оптимизации инженерии промптов/контекста.
Meta планирует позволить кандидатам использовать ИИ во время собеседований по программированию.
В ChatGPT появился режим обучения. Вместо готовых ответов модель задаёт наводящие вопросы и помогает пошагово разобраться в теме.
Пропустили что-то интересное?
survey.stackoverflow.co
2025 Stack Overflow Developer Survey
The 2025 Developer Survey is the definitive report on the state of software development. In its fifteenth year, Stack Overflow received over 49,000+ responses from 177 countries across 62 questions focused on 314 different technologies, including new focus…
🔥6❤1
Media is too big
VIEW IN TELEGRAM
Чипы в мозге: говорим о Neuralink и российских аналогах
Сергей Шишкин, руководитель группы нейрокогнитивных интерфейсов, ведущий научный сотрудник МЭГ-центра МГППУ, один из пионеров российских brain-computer interface и ведущий телеграм-канала "Нейроинтерфейсы", рассказывает о реальном положении дел в индустрии нейротехнологий.
Вы узнаете:
🔵 Почему проект Neuralink называют "провальным" и что на самом деле умеют пациенты Маска?
🔵 Как обезьяна "обманывала" систему в знаменитом эксперименте с игрой Pong?
🔵 Какие российские нейроинтерфейсы уже превосходят зарубежные аналоги?
🔵 Когда обычные люди смогут купить "читалки мыслей" в магазине?
🔵 Реальны ли планы Neuralink по восстановлению зрения в 2025 году?
🔵 Кто действительно лидирует в гонке нейрочипов: Маск, Gabe Newell или китайцы?
Об эксперте:
Сергей Львович Шишкин — кандидат биологических наук, автор 170+ научных публикаций, создатель первого в России working brain-computer interface. Его исследования цитируются в ведущих мировых журналах. В отличие от многих экспертов он лично работал с реальными пациентами и знает технологию "изнутри".
Запись интервью доступна здесь и на других площадках:
➡️ YouTube
➡️ ВКонтакте
➡️ ЯндексМузыка
Сергей Шишкин, руководитель группы нейрокогнитивных интерфейсов, ведущий научный сотрудник МЭГ-центра МГППУ, один из пионеров российских brain-computer interface и ведущий телеграм-канала "Нейроинтерфейсы", рассказывает о реальном положении дел в индустрии нейротехнологий.
Вы узнаете:
Об эксперте:
Сергей Львович Шишкин — кандидат биологических наук, автор 170+ научных публикаций, создатель первого в России working brain-computer interface. Его исследования цитируются в ведущих мировых журналах. В отличие от многих экспертов он лично работал с реальными пациентами и знает технологию "изнутри".
Запись интервью доступна здесь и на других площадках:
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3