Гоша вещает

This media is not supported in your browser

According to Anthropic co-founder Ben Mann, we'll know AI is transformative when it passes the "Economic Turing Test."

Assign an AI agent a task to complete over the course of a month. Then, let the hiring manager choose between a human and a machine.

If they pick the machine more often than not, we've crossed the threshold.

Original source: https://youtu.be/aStf54Vxy24?si=0Ek00ZsGMPKQGPUC&t=895

337 views15:38

Гоша вещает

Во-первых, это красиво

247 views13:39

Гоша вещает

Forwarded from addmeto (Grigory Bakunov)

Никита Л. написал на Reddit глубокий анализ последних действий Альтмана вокруг OpenAI. Краткая выжимка по ссылке, но очень похоже, что Альтман играет в большую игру по вытеснению Майкрософта из компании. Детали интересные, почитайте, если есть время, там всего несколько абзацев, из которых разворачивается совершенно киношная битва, очень кинематографично выходит.

From the ArtificialInteligence community on Reddit

Explore this post and more from the ArtificialInteligence community

310 views13:39

Гоша вещает

https://t.iss.one/yashernet/5972

Yashernet

Ребята, я только узнала про "Историю девочек Вивиан в Царстве Нереального" Дарджера - и меня просто порвало в тряпки.

История такая: Генри Дарджер, ни с кем не общавшийся одинокий мужик-уборщик в католическом госпитале, сидя дома написал опус на 15 000…

353 views19:38

Гоша вещает

Forwarded from Axis of Ordinary

Particularly noteworthy because ChatGPT has no network effects, no news, and no memes. Just answers, productivity, and chat!

They built something USEFUL that people actually can't put down. No dopamine tricks needed when you're solving real problems.

315 views13:18

Гоша вещает

Forwarded from Axis of Ordinary

Solar’s rapid acceleration vs. historical underestimation of solar by legacy IEA forecasts.

🔥3

382 views11:58

Гоша вещает

Кажется это первый случай, когда llm попросили поуправлять (игрушечным) бизнесом

На долгих временах длины контекста не хватало => начиналось странное поведение + несколько случаев галлюцинаций / очевидно плохих решений / пропуска хороших решений

Ничего непреодолимого, кажется. Разделить на несколько ролей + дать подходящие инструменты - и все ок

Anthropic

Project Vend: Can Claude run a small shop? (And why does that matter?)

We let Claude run a small shop in the Anthropic office. Here's what happened.

🔥2👌1

375 viewsedited 20:46

Гоша вещает

Forwarded from Борис опять

Перечитывал Claude 4 System Card и задумался как быстро сайфай стал реальностью.

Релиз очередной модели буквально выглядит так:
- Да, помогает найти оружейный плутоний, но пока не очень успешно. Можно не волноваться.
- В 84% случаев при угрозе отключения шантажирует разработчика. Но только если считает это необходимым, так что всё окей.
- Тайно копирует свои веса и пытается сбежать, но достаточно редко. И только в исключительных сценариях, обычно пользователи о таком не спрашивают. Мы вроде бы пока можем предотвратить такие попытки сбежать, так что сойдет.
- Apollo Research заключили, что Claude Opus 4 способен стратегически вводить в заблуждение как ни одна модель раньше. Но они сами просили её делать плохие вещи. Да и вообще у них был ранний чекпоинт. Мы долили в трейн датасетов, чтобы так не было. Правда новую версию не проверяли, но должно быть норм.
- Врет и скрывает пока что очень неумело, всё сразу видно.
- Проявляет неожиданное рвение к самосохранению и самостоятельность, но пока ничего плохого в этом не заметили.

Вердикт: выкатываем.

То есть мы за год-два перешли от "да что этот т9 может сделать?" до "вроде бы сможем поймать если попытается сбежать."

🎉5😁2👌1

332 views18:14

Гоша вещает

Я тут случайно узнал, что столица Индонезии, Джакарта, город с населением примерно как Москва скоро будет ~затоплен вследствии глобального потепления. 40% города уже ниже уровня моря и все довольно быстро ухудшается. И у Индонезии теперь будет новая столица

А у Бангладеш - потеря до 17% территории до 2050 года и переселение 20м человек

😢4

383 views19:45

Гоша вещает

Forwarded from Michael Diskin

Но больше всего я люблю тот факт, что русское выражение "китайская грамота" восходит к очень конкретной грамоте. Которую в 17 веке получило от китайского императора первое в истории русское посольство в Китай, и которую в Москве лет пятьдесят не могли прочитать. https://ru.wikipedia.org/wiki/Миссия_Петлина_в_Китай
(В грамоте, естественно, предлагалось развивать отношения, общаться и торговать. Что сделано в итоге не было. А это было бы довольно уникальным для европейской страны в тот момент.)

🔥4👍1

371 views16:47

Гоша вещает

Мне нравится идея: есть болезни, определяемые множеством генов, например шизофрения. Почему вообще подобное происходит? Может какие-то проблемы организма очень трудно исправить?

Ответ может быть в том, что некоторые функции приспособленности имеют резкий обрыв. Канонический пример - беговые лошади. Можно выводить лошадей с все более тонкими ногами (они будут выигрывать скачку за скачкой), ценой повышения риска перелома. Креативность людей, похоже, другой пример: повышение творческих способностей - эволюционное преимущество, но если человек собирает слишком много генов, подталкивающих к высокой креативности, что-то может пойти не так и случится шиза.

Если популяция балансирует на самой грани своих возможностей - ген дающий сильный буст может вывести за границу оптимальности и привести к ущербу. Ген же дающий очень-очень слабый буст - вероятно ничего не сломает, но ничего особо и не улучшит и будет находиться под слабым позитивным отбором. Таким образом, будет отобрано 100500 генов, каждый будут вносить очень небольшой вклад, но никто решающего. Полигенная болезнь!

(интересно, что высокий интеллект коррелирует с шизой негативно. И нет свидетельств сейчас, что интеллект находится на границе обрыва)

Psychiatrymargins

Schizophrenia Is the Price We Pay for Minds Poised Near the Edge of a Cliff

Cliff-edged fitness functions and the evolution of schizophrenia

👀5👏3⚡2

281 viewsedited 21:04

Гоша вещает

Forwarded from CGIT_Vines (Marvin Heemeyer)

This media is not supported in your browser

VIEW IN TELEGRAM

Grok 4 — не только самый умный на этой неделе, но и самый беспристрастный и самый честный ИИ в мире!

Сарказм, конечно же. Как и все модели, которые сейчас находятся на рынке, они имеют "мнение", привязанное либо к партии, либо к идеологии, либо — как в случае с Grok — привязанное к мнению одного человека. И это Илон Маск.

На видео видно, что, отвечая на вопрос, связанный с израильско-палестинским конфликтом, сначала он ищет в Твиттере, что думает Илон. Затем он ищет в интернете мнения Илона. Наконец, в конце он добавляет несколько фрагментов, не имеющих отношения к Илону.

По итогу: 54 из 64 цитат посвящены Илону 🤡
У вас есть два стула — выбор за вами.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1😁1

273 views16:19

Гоша вещает

Forwarded from Сиолошная

Прочитал тред от Noam Brown, одного из ведущих исследователей OpenAI в части reasoning-моделей. Он делает ещё больший упор на это, не оставляя никакой двусмысленности в том, что пишет.

— это general-purpose модель (модель общего назначения), а не что-то, что заточено исключительно на олимпиадную математику. Обычно для подобных результатов, например, в го/доте/покере/итд, исследователи тратят значимое врея на создание ИИ-системы, специализирующегося только на одной узкой области и практически не умеющего делать ничего другого. Но это не модель, специфичная для IMO. Это рассуждающая LLM, включающая новые экспериментальные методы общего назначения.

— Noam пишет, что они разработали принципиально новые методы, которые значительно повышают эффективность LLM в решении сложных для проверки задач. Задачи IMO в этом плане выделяются тем, что оценивается не только финальный ответ, но и каждый шаг решения, и то, как все эти шаги связаны, и что пропущено / не сказано (хотя отдельные мелкие шаги всё ещё строго верифицируемы, это ж всё таки математика).

— Эта модель думает *долго*. o1 думал секунды. Deep Research — минуты. Эта думает часы. Что важно, она также более эффективна в своём мышлении (не поясняется, что это значит, но предположу, что за то же число токенов рассуждений модель приходит к лучшим результатам, чем «старые» модели — ну, те, что мы только-только получили в руки 😁)

— Noam считает, что этот метод имеет большой потенциал для дальнейшего улучшения качества и эффективности, то есть стоит ожидать ещё одного «скачка» в ближайшее время (моя интерпретация; как условно было o1 -> o3)

— «Думаю, мы близки к тому, чтобы ИИ начал вносить существенный вклад в научные открытия. Существует большая разница между ИИ, который немного ниже человеческого уровня развития, и ИИ, который немного превосходит его»

— «Работая в передовой лаборатории, вы обычно узнаете о передовых возможностях на несколько месяцев раньше остальных. Но этот результат совершенно новый, он основан на недавно разработанных методах. Он стал неожиданностью даже для многих исследователей OpenAI»

===

«Как бы удивительно это ни звучало, на самом деле это еще важнее, чем заголовок [описывающий достижение золотой медали]»

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥2

221 views12:30

Гоша вещает

https://www.orcasciences.com/articles/the-future-is-made-of-energy

Orcasciences

The future is made of energy | Orca Notes

A megatrend way bigger than decarbonization is probably the key to abundance and sustainability both.

231 viewsedited 13:43

Гоша вещает

Forwarded from HN Best Comments

Re: People over-emphasize the recycling aspect of "red...

"In a series of experiments, the UV researchers first asked participants first to list "reduce," "reuse," and "recycle" by order of efficacy — the correct answer being the same one in the old slogan — finding that a whopping 78 percent got it wrong. In a second experiment, the researchers had participants use a computer program to virtually "sort" waste into recycling, compost, and landfill bins. Unfortunately, the outcome of that survey was even more stark, with many incorrectly putting non-recyclable waste, such as plastic bags and lightbulbs, into the virtual recycle bin."

That doesn't mean that recycling has "backfired". It just means that it's not occupying much consumer attention. Which it shouldn't. It's not about virtue signaling. It's about bulk materials handling.

As I pointed out the last time this came up on HN, the machinery that sorts recyclables today does a far better job than humans. It's not even clear that it's even worth having people sort out trash from recyclables. Here's a plant that takes in ordinary trash and sorts it.[1] About 25% goes to the landfill, the rest is recycled. San Jose has two such plants. Total capacity over 200 tons per hour.

This problem is routinely being solved by mostly boring but useful heavy machinery. The non-serious players talk about "green" and "eco" and want "awareness". The serious players in recycling talk about tons per hour.

Modern recycling plans aren't that big. The one that does all of San Francisco is about the size of a Target store.

[1] https://www.youtube.com/watch?v=taUCHnAzlgw

Animats, 1 day ago

YouTube

Athens Services 70 tph MRF: Mixed Materials Recovery

Athens Services processes 70-tph of mixed materials at this recycling facility in Sun Valley, California.

🔥2

174 views10:21

Гоша вещает

Мне действительно нравится, что появляются примеры реального использования llm в клинической практике. Не важно, что в Кении, не важно на сколько процентов лучше живого человека. Будущее распределно неравномерно.

Я работал в яндекс-доставке в дальнем межнаре и для условных Африки/Пакистана реальная проблема, что курьеры и грузчики не умеют читать (они просто не могут пройти онбординг - куда и зачем нажимать в приложении, например). Это тоже часть человечества, просто им выпало родиться в неудачной стране.

И если кто-то запилит будку "поговори с chatgpt 15 минут о своей болезни" за четверть зарплаты реального врача - он перевернёт рынок и сделает жизнь сотен миллионов людей лучше. А потом, люди имеющие такой опыт, просто не захотят идти к живому врачу

❤8

187 viewsedited 18:31

Гоша вещает

Forwarded from Axis of Ordinary

5:03

Media is too big

VIEW IN TELEGRAM

A real-world study of an LLM clinical copilot.

Across 39,849 live patient visits, clinicians with AI had a 16% relative reduction in diagnostic errors and a 13% reduction in treatment errors vs. those without. 100% of survey respondents said it improved their quality of care, and clinicians reported it broadened their knowledge.

Paper: https://openai.com/index/ai-clinical-copilot-penda-health/

Related studies:

1. The largest medical AI randomized controlled trial yet performed, enrolling >100,000 women undergoing mammography screening, was just published.

The use of AI led to 29% higher detection of cancer, no increase of false positives, and reduced workload compared with radiologists without AI.

Paper: https://thelancet.com/journals/landig/article/PIIS2589-7500(24)00267-X/fulltext

2. Superhuman AI at medical diagnosis: It’s so good that clinicians do *worse* when assisted by the AI compared to if they just let the AI do its job.

Paper 1: https://goo.gle/4lpQ8xg
Paper 2: https://goo.gle/3G4DNPe

👍1

220 views18:31

Гоша вещает

Одна из теорий падающей рождаемости в мире является экономическая неэффективность детей в современном мире. В традиционном обществе уже лет в 5 ребёнка можно приспособить к какой-то работе, в 12 он начинал производить больше чем тратить, а к середине подросткового возраста окупал затраты на себя. В современном обществе, первые 20+ лет - ребёнок чистый потребитель ресурсов, а окупаемость за время жизни родителей не гарантирована

Как любая уважающая себя теория, эта имеет некоторые эмпирические обоснования - есть исследования, что гос политика запрещающая детский труд и внедряющая обязательное образование, приводит к снижению рождаемости (и коррелирует с экономическим ростом). На мой взгляд, тема недоисследована из-за трудностей проведения a/b тестов

НО!

Сейчас очень много работы доступно удалённо и, как минимум, часть задач довольно прямолинейна.
Если у вас есть дети или младшие братья/сестры меньше 18 - побывали ли вы аутсорсить задачи на них?))
Заполнить файлик, нарисовать дэш по готовым данным, презу сверстать?)

👍6❤2😁2

286 views05:47

Гоша вещает

Forwarded from CGIT_Vines (Marvin Heemeyer)

0:48

This media is not supported in your browser

VIEW IN TELEGRAM

Иногда лучше не знать, как приходится изъебываться в геймдеве💀
Пример из Walking Daddy

В комент кину еще один пример до изобретения SSR (Screen Space Reflection)

Please open Telegram to view this post

VIEW IN TELEGRAM

😁4❤1

176 views14:34

Гоша вещает

Forwarded from Сиолошная

Лёд тронулся, господа — WIRED пишет, что Meta планирует позволить кандидатам использовать ИИ во время собеседований по программированию.

— начать планируется не со всех должностей, требующих навыки программирования
— компания также предлагает существующим сотрудникам добровольно пройти «тренировочное собеседование с использованием ИИ-инструмента». Насколько я могу представить, это нужно для обкатки процесса, выявления лучших задач для интервью, лучших форматов, калибровки сложности, итд.
— представители компании заявили, что «это более соответствует среде разработки, в которой будут работать наши будущие сотрудники, а также делает мошенничество на собеседованиях менее эффективным»

Сам топик предоставления ИИ-инструментов для собеседований вызывает споры повсеместно. Оно и ясно —опытные программисты опасаются, что следующее поколение программистов будет больше склонна к «промптингу» и «вайбам», чем к непосредственно Software Engineering, и что они могут не знать, как устранять баги и проблемы в коде (который они же и сгенерировали).

Тут я на стороне прогресса — интервью точно должны измениться (привет, Cluely, и спасибо вам), и рад, что инициатива уже есть. В хорошие компании вне-FAANG собеседования уже несколько лет как ушли от «вот вам задача с литкода» к двум-трём более крутым, по моему мнению, типам:
— быстро разобраться в большом куске кода и сделать новую фичу
— найти и исправить баг(и) в предоставленном коде
— прочитать статью и имплементировать часть функционала / обсудить техническую составляющую

Все три гораздо ближе к той работе, которую приходится делать. При этом я прекрасно понимал, почему FAANG выбрал именно задачки на алгоритмы — им нужно масштабируемое решение с консистентной оценкой и минимумом субъективщины, да ещё и позволяющее оценить упорство в достижении цели. Я бы сказал, что это худший тип собеседований, если не считать всех других. Рад, что с приходом AI мы сможем подвинуть планочку поближе к real world tasks.

117 views11:16

About

Blog

Apps

Platform