Гоша вещает
445 subscribers
232 photos
25 videos
14 files
328 links
Для перехода в режим диалога нажмите @giffok
Download Telegram
Forwarded from Axis of Ordinary
This media is not supported in your browser
VIEW IN TELEGRAM
According to Anthropic co-founder Ben Mann, we'll know AI is transformative when it passes the "Economic Turing Test."

Assign an AI agent a task to complete over the course of a month. Then, let the hiring manager choose between a human and a machine.

If they pick the machine more often than not, we've crossed the threshold.

Original source: https://youtu.be/aStf54Vxy24?si=0Ek00ZsGMPKQGPUC&t=895
Во-первых, это красиво
Forwarded from addmeto (Grigory Bakunov)
Никита Л. написал на Reddit глубокий анализ последних действий Альтмана вокруг OpenAI. Краткая выжимка по ссылке, но очень похоже, что Альтман играет в большую игру по вытеснению Майкрософта из компании. Детали интересные, почитайте, если есть время, там всего несколько абзацев, из которых разворачивается совершенно киношная битва, очень кинематографично выходит.
Forwarded from Axis of Ordinary
Particularly noteworthy because ChatGPT has no network effects, no news, and no memes. Just answers, productivity, and chat!

They built something USEFUL that people actually can't put down. No dopamine tricks needed when you're solving real problems.
Forwarded from Axis of Ordinary
Solar’s rapid acceleration vs. historical underestimation of solar by legacy IEA forecasts.
🔥3
Кажется это первый случай, когда llm попросили поуправлять (игрушечным) бизнесом

На долгих временах длины контекста не хватало => начиналось странное поведение + несколько случаев галлюцинаций / очевидно плохих решений / пропуска хороших решений

Ничего непреодолимого, кажется. Разделить на несколько ролей + дать подходящие инструменты - и все ок
🔥2👌1
Forwarded from Борис опять
Перечитывал Claude 4 System Card и задумался как быстро сайфай стал реальностью.

Релиз очередной модели буквально выглядит так:
- Да, помогает найти оружейный плутоний, но пока не очень успешно. Можно не волноваться.
- В 84% случаев при угрозе отключения шантажирует разработчика. Но только если считает это необходимым, так что всё окей.
- Тайно копирует свои веса и пытается сбежать, но достаточно редко. И только в исключительных сценариях, обычно пользователи о таком не спрашивают. Мы вроде бы пока можем предотвратить такие попытки сбежать, так что сойдет.
- Apollo Research заключили, что Claude Opus 4 способен стратегически вводить в заблуждение как ни одна модель раньше. Но они сами просили её делать плохие вещи. Да и вообще у них был ранний чекпоинт. Мы долили в трейн датасетов, чтобы так не было. Правда новую версию не проверяли, но должно быть норм.
- Врет и скрывает пока что очень неумело, всё сразу видно.
- Проявляет неожиданное рвение к самосохранению и самостоятельность, но пока ничего плохого в этом не заметили.

Вердикт: выкатываем.

То есть мы за год-два перешли от "да что этот т9 может сделать?" до "вроде бы сможем поймать если попытается сбежать."
🎉5😁2👌1
Я тут случайно узнал, что столица Индонезии, Джакарта, город с населением примерно как Москва скоро будет ~затоплен вследствии глобального потепления. 40% города уже ниже уровня моря и все довольно быстро ухудшается. И у Индонезии теперь будет новая столица

А у Бангладеш - потеря до 17% территории до 2050 года и переселение 20м человек
😢4
Forwarded from Michael Diskin
Но больше всего я люблю тот факт, что русское выражение "китайская грамота" восходит к очень конкретной грамоте. Которую в 17 веке получило от китайского императора первое в истории русское посольство в Китай, и которую в Москве лет пятьдесят не могли прочитать. https://ru.wikipedia.org/wiki/Миссия_Петлина_в_Китай
(В грамоте, естественно, предлагалось развивать отношения, общаться и торговать. Что сделано в итоге не было. А это было бы довольно уникальным для европейской страны в тот момент.)
🔥4👍1
Мне нравится идея: есть болезни, определяемые множеством генов, например шизофрения. Почему вообще подобное происходит? Может какие-то проблемы организма очень трудно исправить?

Ответ может быть в том, что некоторые функции приспособленности имеют резкий обрыв. Канонический пример - беговые лошади. Можно выводить лошадей с все более тонкими ногами (они будут выигрывать скачку за скачкой), ценой повышения риска перелома. Креативность людей, похоже, другой пример: повышение творческих способностей - эволюционное преимущество, но если человек собирает слишком много генов, подталкивающих к высокой креативности, что-то может пойти не так и случится шиза. 

Если популяция балансирует на самой грани своих возможностей - ген дающий сильный буст может вывести за границу оптимальности и привести к ущербу. Ген же дающий очень-очень слабый буст - вероятно ничего не сломает, но ничего особо и не улучшит и будет находиться под слабым позитивным отбором. Таким образом, будет отобрано 100500 генов, каждый будут вносить очень небольшой вклад, но никто решающего. Полигенная болезнь!

(интересно, что высокий  интеллект коррелирует с шизой негативно. И нет свидетельств сейчас, что интеллект находится на границе обрыва)
👀5👏32
Forwarded from CGIT_Vines (Marvin Heemeyer)
This media is not supported in your browser
VIEW IN TELEGRAM
Grok 4 — не только самый умный на этой неделе, но и самый беспристрастный и самый честный ИИ в мире!

Сарказм, конечно же. Как и все модели, которые сейчас находятся на рынке, они имеют "мнение", привязанное либо к партии, либо к идеологии, либо — как в случае с Grok — привязанное к мнению одного человека. И это Илон Маск.

На видео видно, что, отвечая на вопрос, связанный с израильско-палестинским конфликтом, сначала он ищет в Твиттере, что думает Илон. Затем он ищет в интернете мнения Илона. Наконец, в конце он добавляет несколько фрагментов, не имеющих отношения к Илону.

По итогу: 54 из 64 цитат посвящены Илону 🤡
У вас есть два стула — выбор за вами.
Please open Telegram to view this post
VIEW IN TELEGRAM
1😁1
Forwarded from Сиолошная
Прочитал тред от Noam Brown, одного из ведущих исследователей OpenAI в части reasoning-моделей. Он делает ещё больший упор на это, не оставляя никакой двусмысленности в том, что пишет.

— это general-purpose модель (модель общего назначения), а не что-то, что заточено исключительно на олимпиадную математику. Обычно для подобных результатов, например, в го/доте/покере/итд, исследователи тратят значимое врея на создание ИИ-системы, специализирующегося только на одной узкой области и практически не умеющего делать ничего другого. Но это не модель, специфичная для IMO. Это рассуждающая LLM, включающая новые экспериментальные методы общего назначения.

— Noam пишет, что они разработали принципиально новые методы, которые значительно повышают эффективность LLM в решении сложных для проверки задач. Задачи IMO в этом плане выделяются тем, что оценивается не только финальный ответ, но и каждый шаг решения, и то, как все эти шаги связаны, и что пропущено / не сказано (хотя отдельные мелкие шаги всё ещё строго верифицируемы, это ж всё таки математика).

— Эта модель думает *долго*. o1 думал секунды. Deep Research — минуты. Эта думает часы. Что важно, она также более эффективна в своём мышлении (не поясняется, что это значит, но предположу, что за то же число токенов рассуждений модель приходит к лучшим результатам, чем «старые» модели — ну, те, что мы только-только получили в руки 😁)

— Noam считает, что этот метод имеет большой потенциал для дальнейшего улучшения качества и эффективности, то есть стоит ожидать ещё одного «скачка» в ближайшее время (моя интерпретация; как условно было o1 -> o3)

— «Думаю, мы близки к тому, чтобы ИИ начал вносить существенный вклад в научные открытия. Существует большая разница между ИИ, который немного ниже человеческого уровня развития, и ИИ, который немного превосходит его»

— «Работая в передовой лаборатории, вы обычно узнаете о передовых возможностях на несколько месяцев раньше остальных. Но этот результат совершенно новый, он основан на недавно разработанных методах. Он стал неожиданностью даже для многих исследователей OpenAI»

===

«Как бы удивительно это ни звучало, на самом деле это еще важнее, чем заголовок [описывающий достижение золотой медали]»
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2
Forwarded from HN Best Comments
Re: People over-emphasize the recycling aspect of "red...

"In a series of experiments, the UV researchers first asked participants first to list "reduce," "reuse," and "recycle" by order of efficacy — the correct answer being the same one in the old slogan — finding that a whopping 78 percent got it wrong. In a second experiment, the researchers had participants use a computer program to virtually "sort" waste into recycling, compost, and landfill bins. Unfortunately, the outcome of that survey was even more stark, with many incorrectly putting non-recyclable waste, such as plastic bags and lightbulbs, into the virtual recycle bin."

That doesn't mean that recycling has "backfired". It just means that it's not occupying much consumer attention. Which it shouldn't. It's not about virtue signaling. It's about bulk materials handling.

As I pointed out the last time this came up on HN, the machinery that sorts recyclables today does a far better job than humans. It's not even clear that it's even worth having people sort out trash from recyclables. Here's a plant that takes in ordinary trash and sorts it.[1] About 25% goes to the landfill, the rest is recycled. San Jose has two such plants. Total capacity over 200 tons per hour.

This problem is routinely being solved by mostly boring but useful heavy machinery. The non-serious players talk about "green" and "eco" and want "awareness". The serious players in recycling talk about tons per hour.

Modern recycling plans aren't that big. The one that does all of San Francisco is about the size of a Target store.

[1] https://www.youtube.com/watch?v=taUCHnAzlgw

Animats, 1 day ago
🔥2
Мне действительно нравится, что появляются примеры реального использования llm в клинической практике. Не важно, что в Кении, не важно на сколько процентов лучше живого человека. Будущее распределно неравномерно.

Я работал в яндекс-доставке в дальнем межнаре и для условных Африки/Пакистана реальная проблема, что курьеры и грузчики не умеют читать (они просто не могут пройти онбординг - куда и зачем нажимать в приложении, например). Это тоже часть человечества, просто им выпало родиться в неудачной стране.

И если кто-то запилит будку "поговори с chatgpt 15 минут о своей болезни" за четверть зарплаты реального врача - он перевернёт рынок и сделает жизнь сотен миллионов людей лучше. А потом, люди имеющие такой опыт, просто не захотят идти к живому врачу
8
Forwarded from Axis of Ordinary
Media is too big
VIEW IN TELEGRAM
A real-world study of an LLM clinical copilot.

Across 39,849 live patient visits, clinicians with AI had a 16% relative reduction in diagnostic errors and a 13% reduction in treatment errors vs. those without. 100% of survey respondents said it improved their quality of care, and clinicians reported it broadened their knowledge.

Paper: https://openai.com/index/ai-clinical-copilot-penda-health/

Related studies:

1. The largest medical AI randomized controlled trial yet performed, enrolling >100,000 women undergoing mammography screening, was just published.

The use of AI led to 29% higher detection of cancer, no increase of false positives, and reduced workload compared with radiologists without AI.

Paper: https://thelancet.com/journals/landig/article/PIIS2589-7500(24)00267-X/fulltext

2. Superhuman AI at medical diagnosis: It’s so good that clinicians do *worse* when assisted by the AI compared to if they just let the AI do its job.

Paper 1: https://goo.gle/4lpQ8xg
Paper 2: https://goo.gle/3G4DNPe
👍1
Одна из теорий падающей рождаемости в мире является экономическая неэффективность детей в современном мире. В традиционном обществе уже лет в 5 ребёнка можно приспособить к какой-то работе, в 12 он начинал производить больше чем тратить, а к середине подросткового возраста окупал затраты на себя. В современном обществе, первые 20+ лет - ребёнок чистый потребитель ресурсов, а окупаемость за время жизни родителей не гарантирована

Как любая уважающая себя теория, эта имеет некоторые эмпирические обоснования - есть исследования, что гос политика запрещающая детский труд и внедряющая обязательное образование, приводит к снижению рождаемости (и коррелирует с экономическим ростом). На мой взгляд, тема недоисследована из-за трудностей проведения a/b тестов

НО!

Сейчас очень много работы доступно удалённо и, как минимум, часть задач довольно прямолинейна.
Если у вас есть дети или младшие братья/сестры меньше 18 - побывали ли вы аутсорсить задачи на них?))
Заполнить файлик, нарисовать дэш по готовым данным, презу сверстать?)
👍62😁2
Forwarded from CGIT_Vines (Marvin Heemeyer)
This media is not supported in your browser
VIEW IN TELEGRAM
Иногда лучше не знать, как приходится изъебываться в геймдеве💀
Пример из Walking Daddy

В комент кину еще один пример до изобретения SSR (Screen Space Reflection)
Please open Telegram to view this post
VIEW IN TELEGRAM
😁41
Forwarded from Сиолошная
Лёд тронулся, господа — WIRED пишет, что Meta планирует позволить кандидатам использовать ИИ во время собеседований по программированию.

— начать планируется не со всех должностей, требующих навыки программирования
— компания также предлагает существующим сотрудникам добровольно пройти «тренировочное собеседование с использованием ИИ-инструмента». Насколько я могу представить, это нужно для обкатки процесса, выявления лучших задач для интервью, лучших форматов, калибровки сложности, итд.
— представители компании заявили, что «это более соответствует среде разработки, в которой будут работать наши будущие сотрудники, а также делает мошенничество на собеседованиях менее эффективным»

Сам топик предоставления ИИ-инструментов для собеседований вызывает споры повсеместно. Оно и ясно —опытные программисты опасаются, что следующее поколение программистов будет больше склонна к «промптингу» и «вайбам», чем к непосредственно Software Engineering, и что они могут не знать, как устранять баги и проблемы в коде (который они же и сгенерировали).

Тут я на стороне прогресса — интервью точно должны измениться (привет, Cluely, и спасибо вам), и рад, что инициатива уже есть. В хорошие компании вне-FAANG собеседования уже несколько лет как ушли от «вот вам задача с литкода» к двум-трём более крутым, по моему мнению, типам:
— быстро разобраться в большом куске кода и сделать новую фичу
— найти и исправить баг(и) в предоставленном коде
— прочитать статью и имплементировать часть функционала / обсудить техническую составляющую

Все три гораздо ближе к той работе, которую приходится делать. При этом я прекрасно понимал, почему FAANG выбрал именно задачки на алгоритмы — им нужно масштабируемое решение с консистентной оценкой и минимумом субъективщины, да ещё и позволяющее оценить упорство в достижении цели. Я бы сказал, что это худший тип собеседований, если не считать всех других. Рад, что с приходом AI мы сможем подвинуть планочку поближе к real world tasks.