This media is not supported in your browser
VIEW IN TELEGRAM
Но есть и хорошие новости. Для тех, кому зимой жарко, "звенит январская вьюга" на пляже Имеретинской набережной в Сочи (😉), до которого, вроде бы, пока, к счастью, не добралась беда известных мазутных последствий экологической катастрофы с участием двух танкеров, в качестве которых нещадно эксплуатировались капиталом при попустительстве безответственной причастной бюрократии давно выработавшие свой ресурс и изжившие себя ржавые корыта в запредельно критическом техническом состоянии.
Forwarded from Spydell_finance (Paul Spydell)
Прогресс за год в языковых моделях
Все, что касается ГИИ/языковых моделей (LLM) устаревает в момент публикации, но тем не менее фиксировать актуальную диспозицию весьма полезно и интересно.
Большая часть из критических замечаний, которые я публиковал на протяжении всего 2024 года уже не являются в полной мере актуальными, хотя большая часть фундаментальных ограничений так и не решена. Подробная расшифровка всех слабых и сильных сторон займет слишком много времени – слишком масштабный и комплексный анализ потребуется.
Остановлюсь для начала на списке/реестре наиболее сильных моделей.
Ниже сводная информация о топовых языковых моделях:
1. ChatGPT o1: США, OpenAI, сентябрь 2024, контекстное окно 128 тыс токенов.
2. Google Gemini 2 flash: США, Google, декабрь 2024, 2 млн токенов.
3. Claude 3.5 Sonnet: США, Anthropic, октябрь 2024, 200 тыс токенов.
4. Amazon Nova Pro: США, Amazon, декабрь 2024, 300 тыс токенов.
5. Llama 3.3 70B: США, Meta Platforms, декабрь 2024, 128 тыс токенов.
6. xAI Grok: США, xAI, ноябрь 2024, 8 тыс токенов.
7. Phi-3 Medium: США, Microsoft, апрель 2024, 128 тыс токенов.
8. Reka Flash: США, Reka AI, февраль 2024, 128 тыс токенов.
9. Command R+: Канада, Cohere, апрель 2024, 128 тыс токенов.
10. Mistral Large 2: Франция, Mistral AI, июль 2024, 128 тыс токенов.
11. Qwen 2.5: Китай, Alibaba, декабрь 2024, 131 тыс токенов.
12. DeepSeek V3: Китай, DeepSeek, декабрь 2024, 128 тыс токенов.
13. Jamba 1.5 Large: Израиль, AI21 Labs, август 2024, 256 тыс токенов.
14. YandexGPT 4: Россия, Яндекс, октябрь 2024 года, 32 тыс токенов.
15. GigaChat: Россия, Сбербанк, май 2024, 32 тыс токенов.
16. T-Pro: Россия, Т-банк, декабрь 2024, 8 тыс токенов.
Попробовал все, за исключением T-Pro. Мой рейтинг самых мощных по совокупности факторов: OpenAI o1, Claude 3.5 Sonnet, DeepSeek V3, Qwen 2.5 и Google Gemini 2 flash.
Примерно сопоставимы плюс-минус во втором эшелоне: Llama 3.3 70B, Amazon Nova Pro и Mistral Large 2. Все остальные в третьем эшелоне с учетом достаточно слабой модели от Илона Маска.
LLM от Google на протяжении всего 2024 были полным дерьмом, но относительный прогресс наступил только в сентябре с внедрением обновленной модели Gemini 1.5 pro и закрепление успеха в декабре с Gemini 2 flash.
Очень удивили китайцы (DeepSeek V3 и Qwen 2.5) – вполне тянут на открытие года и самый значимый прогресс. DeepSeek V3 уже точно сильнее GPT-4o, но уступает последней модификации GPT o1.
Конкуренция невероятная. Всего два года назад в это время была на рынке только одна модель GPT 3.5 и как все изменилось.
OpenAI пока вне конкуренции по совокупности факторов, но разрыв уже не такой значительный, как в 2023 (была целая пропасть) и даже, как в середине 2024.
В декабре 2024 вышло очень много обновлений LLM и даже изначально слабая и вечно отстающая Llama смогла сократить отставание с модификацией 3.3 70b, показывая неплохие результаты. В начале 2025 будет модификация 3.3 405b, которая закрепит успех. Также ожидается релиз полной версии Gemini 2, Open AI o3 и Claude 4.0.
Нет универсальной LLM, здесь скорее правильно говорить о комбинациях под конкретные задачи. Например, с текстом хорошо работает Claude 3.5 Sonnet, а с математическими вычислениями сейчас в лидерах OpenAI, DeepSeek и Google.
Удалось ли мне что-либо из представленных LLM внедрить в свои рабочие проекты? НЕТ! Не удалось.
Количество ошибок настолько критически высоко. Время и ресурсы, затраченные на коррекцию ошибок, перекрывают любую потенциальную выгоду. Ни одна из моделей не пригодна для научно-исследовательских проектов в данный момент.
Пока способны закрывать очень узкие локальных задачи в генерации кода и решении математических задач. Уже успех, но до автоматизации и полноценного внедрения очень далеко.
Однако, я верю в будущий успех (1, 2 и 3). Темпы развития ГИИ невероятны, так что впереди много интересного, как и циклы статей, посвященных прогрессу и проблемам во внедрении.
Все, что касается ГИИ/языковых моделей (LLM) устаревает в момент публикации, но тем не менее фиксировать актуальную диспозицию весьма полезно и интересно.
Большая часть из критических замечаний, которые я публиковал на протяжении всего 2024 года уже не являются в полной мере актуальными, хотя большая часть фундаментальных ограничений так и не решена. Подробная расшифровка всех слабых и сильных сторон займет слишком много времени – слишком масштабный и комплексный анализ потребуется.
Остановлюсь для начала на списке/реестре наиболее сильных моделей.
Ниже сводная информация о топовых языковых моделях:
1. ChatGPT o1: США, OpenAI, сентябрь 2024, контекстное окно 128 тыс токенов.
2. Google Gemini 2 flash: США, Google, декабрь 2024, 2 млн токенов.
3. Claude 3.5 Sonnet: США, Anthropic, октябрь 2024, 200 тыс токенов.
4. Amazon Nova Pro: США, Amazon, декабрь 2024, 300 тыс токенов.
5. Llama 3.3 70B: США, Meta Platforms, декабрь 2024, 128 тыс токенов.
6. xAI Grok: США, xAI, ноябрь 2024, 8 тыс токенов.
7. Phi-3 Medium: США, Microsoft, апрель 2024, 128 тыс токенов.
8. Reka Flash: США, Reka AI, февраль 2024, 128 тыс токенов.
9. Command R+: Канада, Cohere, апрель 2024, 128 тыс токенов.
10. Mistral Large 2: Франция, Mistral AI, июль 2024, 128 тыс токенов.
11. Qwen 2.5: Китай, Alibaba, декабрь 2024, 131 тыс токенов.
12. DeepSeek V3: Китай, DeepSeek, декабрь 2024, 128 тыс токенов.
13. Jamba 1.5 Large: Израиль, AI21 Labs, август 2024, 256 тыс токенов.
14. YandexGPT 4: Россия, Яндекс, октябрь 2024 года, 32 тыс токенов.
15. GigaChat: Россия, Сбербанк, май 2024, 32 тыс токенов.
16. T-Pro: Россия, Т-банк, декабрь 2024, 8 тыс токенов.
Попробовал все, за исключением T-Pro. Мой рейтинг самых мощных по совокупности факторов: OpenAI o1, Claude 3.5 Sonnet, DeepSeek V3, Qwen 2.5 и Google Gemini 2 flash.
Примерно сопоставимы плюс-минус во втором эшелоне: Llama 3.3 70B, Amazon Nova Pro и Mistral Large 2. Все остальные в третьем эшелоне с учетом достаточно слабой модели от Илона Маска.
LLM от Google на протяжении всего 2024 были полным дерьмом, но относительный прогресс наступил только в сентябре с внедрением обновленной модели Gemini 1.5 pro и закрепление успеха в декабре с Gemini 2 flash.
Очень удивили китайцы (DeepSeek V3 и Qwen 2.5) – вполне тянут на открытие года и самый значимый прогресс. DeepSeek V3 уже точно сильнее GPT-4o, но уступает последней модификации GPT o1.
Конкуренция невероятная. Всего два года назад в это время была на рынке только одна модель GPT 3.5 и как все изменилось.
OpenAI пока вне конкуренции по совокупности факторов, но разрыв уже не такой значительный, как в 2023 (была целая пропасть) и даже, как в середине 2024.
В декабре 2024 вышло очень много обновлений LLM и даже изначально слабая и вечно отстающая Llama смогла сократить отставание с модификацией 3.3 70b, показывая неплохие результаты. В начале 2025 будет модификация 3.3 405b, которая закрепит успех. Также ожидается релиз полной версии Gemini 2, Open AI o3 и Claude 4.0.
Нет универсальной LLM, здесь скорее правильно говорить о комбинациях под конкретные задачи. Например, с текстом хорошо работает Claude 3.5 Sonnet, а с математическими вычислениями сейчас в лидерах OpenAI, DeepSeek и Google.
Удалось ли мне что-либо из представленных LLM внедрить в свои рабочие проекты? НЕТ! Не удалось.
Количество ошибок настолько критически высоко. Время и ресурсы, затраченные на коррекцию ошибок, перекрывают любую потенциальную выгоду. Ни одна из моделей не пригодна для научно-исследовательских проектов в данный момент.
Пока способны закрывать очень узкие локальных задачи в генерации кода и решении математических задач. Уже успех, но до автоматизации и полноценного внедрения очень далеко.
Однако, я верю в будущий успех (1, 2 и 3). Темпы развития ГИИ невероятны, так что впереди много интересного, как и циклы статей, посвященных прогрессу и проблемам во внедрении.
Forwarded from Spydell_finance (Paul Spydell)
Общее впечатление от работы с LLM за последние два года
Я отношусь к очень небольшой группе людей, которые не только знакомы со всеми современными LLM (тестирую их практически сразу после релиза), но и активно пытаются внедрять их в рабочие и научно-исследовательские проекты
До этого на протяжении многих лет была теоретическая подготовка. Этот тот случай, когда был отслежен весь путь созревания технологии от момента зарождения и внедрения технологии до текущего состояния.
Прогресс есть, как с точки зрения качества генерации данных, так и в расширении спектра инструментов для взаимодействия с LLM.
Можно ли сказать, что «научно-исследовательские проекты разделились на эпоху ДО внедрения технологии и новую эпоху ПОСЛЕ внедрения»?
Нет, ничего качественно не изменилось. Наличие или отсутствие LLM не оказало никакого влияния ни на R&D процессы, ни на сам канал Spydell_finance. Глубина внедрения пока около нуля процентов.
Почему так плохо? Нет стабильности и предсказуемости в выходных данных/результатах. Наука тем и отличается, что эксперименты при повторяемости опытов в изолированных условиях при статичных параметрам должны давать идентичные и прогнозируемые результаты. Это как работа калькулятора.
На практике LLM генерируют слишком много ошибок, на проверку и верификацию которых требуется несоизмеримо много времени и ресурсов, что делает применение ГИИ нерентабельным.
LLM генерируют широкий спектр непредсказуемых результатов, что категорически не подходит для расчетов, где необходима точность. Однако, не сказать, что это плохо.
🔘 Вариативность выходных результатов может быть полезна не в расчетах, а в «мозговых штурмах», где как раз требуется расширение границы допустимых векторов и траекторий результатов. Условно говоря, в выработке направлений и идей для исследований.
🔘 LLM очень полезны для неструктурированных массивов данных, для категоризации/каталогизации неструктурированных наборов данных в разных форматах.
🔘 LLM могут быть применимы для генерации отчетов по шаблонам.
🔘 LLM более, чем полезны для формирования гранд нарратива в огромных массивах текстовой информации. Например, анализ новостного потока и вычленение основной концепции, которую пытаются продвинуть СМИ. Нарративы «экономика прекрасна, а будет еще лучше» и «ИИ спасет мир», которые я часто публиковал во второй половине 2024 в контексте тональности западных СМИ были получены частично с использованием ГИИ.
Попытка оценить тональность и «болевые точки» корпоративного сектора через анализ пресс-конференций по итогам корпоративных отчетов, это же применимо к анализу комментариев общественности.
Это в теории. На практике ограничения контекстного окна, блокировка поисковых роботов ГИИ в ведущих СМИ и высокая стоимость обработки токенов не позволяют использовать этот ресурс на полную мощность.
Автоматический анализ новостного потока – хорошая идея и уже технически реализуема, но на практике пока нет.
Как экспертная система ГИИ очень слаб. Проверял в направлениях, в которых имею высокую квалификацию. На запрос о факторах роста рынка или причины возникновения инфляции, - LLM создадут весьма примитивную блеватню на уровне среднестатистических новостных экстрактов, что совершенно не соответствует уровню Spydell_finance.
Сейчас все LLM генерируют низкое качество «экспертного контента», где требуется понимание причинно-следственных связей в условиях противоречивой среды с недостатком входных данных и многоуровневой конструкции параметров. Писать материалы в канале уровня Spydell_finance с помощью ГИИ не получится еще очень долго.
Где применимы LLM в научной среде? Очень ограниченные локальные задачи с точки зрения помощи в программировании, решении математических и статистических задач, помощь в адаптации информационных комплексов на уровне проводника по мануалам.
Еще неплохой потенциал есть в умном поиске информации в сети, хотя сейчас реализация на 4 из 10.
Инструмент полезный, но на чудеса пока не тянет, хотя потенциал очень серьезный. Я указал не все применения, а только в рамках собственных рабочих задач.
Я отношусь к очень небольшой группе людей, которые не только знакомы со всеми современными LLM (тестирую их практически сразу после релиза), но и активно пытаются внедрять их в рабочие и научно-исследовательские проекты
До этого на протяжении многих лет была теоретическая подготовка. Этот тот случай, когда был отслежен весь путь созревания технологии от момента зарождения и внедрения технологии до текущего состояния.
Прогресс есть, как с точки зрения качества генерации данных, так и в расширении спектра инструментов для взаимодействия с LLM.
Можно ли сказать, что «научно-исследовательские проекты разделились на эпоху ДО внедрения технологии и новую эпоху ПОСЛЕ внедрения»?
Нет, ничего качественно не изменилось. Наличие или отсутствие LLM не оказало никакого влияния ни на R&D процессы, ни на сам канал Spydell_finance. Глубина внедрения пока около нуля процентов.
Почему так плохо? Нет стабильности и предсказуемости в выходных данных/результатах. Наука тем и отличается, что эксперименты при повторяемости опытов в изолированных условиях при статичных параметрам должны давать идентичные и прогнозируемые результаты. Это как работа калькулятора.
На практике LLM генерируют слишком много ошибок, на проверку и верификацию которых требуется несоизмеримо много времени и ресурсов, что делает применение ГИИ нерентабельным.
LLM генерируют широкий спектр непредсказуемых результатов, что категорически не подходит для расчетов, где необходима точность. Однако, не сказать, что это плохо.
Попытка оценить тональность и «болевые точки» корпоративного сектора через анализ пресс-конференций по итогам корпоративных отчетов, это же применимо к анализу комментариев общественности.
Это в теории. На практике ограничения контекстного окна, блокировка поисковых роботов ГИИ в ведущих СМИ и высокая стоимость обработки токенов не позволяют использовать этот ресурс на полную мощность.
Автоматический анализ новостного потока – хорошая идея и уже технически реализуема, но на практике пока нет.
Как экспертная система ГИИ очень слаб. Проверял в направлениях, в которых имею высокую квалификацию. На запрос о факторах роста рынка или причины возникновения инфляции, - LLM создадут весьма примитивную блеватню на уровне среднестатистических новостных экстрактов, что совершенно не соответствует уровню Spydell_finance.
Сейчас все LLM генерируют низкое качество «экспертного контента», где требуется понимание причинно-следственных связей в условиях противоречивой среды с недостатком входных данных и многоуровневой конструкции параметров. Писать материалы в канале уровня Spydell_finance с помощью ГИИ не получится еще очень долго.
Где применимы LLM в научной среде? Очень ограниченные локальные задачи с точки зрения помощи в программировании, решении математических и статистических задач, помощь в адаптации информационных комплексов на уровне проводника по мануалам.
Еще неплохой потенциал есть в умном поиске информации в сети, хотя сейчас реализация на 4 из 10.
Инструмент полезный, но на чудеса пока не тянет, хотя потенциал очень серьезный. Я указал не все применения, а только в рамках собственных рабочих задач.
Please open Telegram to view this post
VIEW IN TELEGRAM
Главным, что не купировано в процессах разработки и внедрения ИИ, так и остались чрезвычайные риски использования, которые к тому же за эти истекшие 2 года бума лихорадки современности ещё и многократно (на целые порядки) усилились.
Forwarded from Время госзакупок
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Время госзакупок
Президент рекрутингового портала Superjob Алексей Захаров об инициативе Минтруда переводить сотрудников из социальной сферы в рабочие специальности в интервью «БИЗНЕС. Online»:
➖ Как это сделать, я лично не понимаю. Наверное, для начала ему надо закрыть у себя внутри все процессы, которые занимаются занятостью. Все центры занятости в стране закрыть и высвободить людей для работы в реальном секторе. Он этого сделать не сможет, потому что, по-моему, еще при Голиковой была создана вертикаль, в которой все эти центры занятости управлялись из единого федерального центра. Потом, есть такой термин «переданные полномочия» — всю административную управленческую историю спустили на места. То есть в каждом регионе есть свое министерство труда, внутри него — свои центры занятости. При этом финансируют и контролируют их федералы, а результат должны давать муниципалы. Минтруд оставил за собой деньги и контроль, при этом убрал с себя всю ответственность, ничего не делает, и всем хорошо. А на муниципальном уровне получили деньги, возможность время от времени принимать гостей федерального уровня, которые вообще ни хрена не понимают, что происходит здесь, «на земле», и тоже хорошо. В баньке попарились, все хорошо, поехали домой.
➖ Как это сделать, я лично не понимаю. Наверное, для начала ему надо закрыть у себя внутри все процессы, которые занимаются занятостью. Все центры занятости в стране закрыть и высвободить людей для работы в реальном секторе. Он этого сделать не сможет, потому что, по-моему, еще при Голиковой была создана вертикаль, в которой все эти центры занятости управлялись из единого федерального центра. Потом, есть такой термин «переданные полномочия» — всю административную управленческую историю спустили на места. То есть в каждом регионе есть свое министерство труда, внутри него — свои центры занятости. При этом финансируют и контролируют их федералы, а результат должны давать муниципалы. Минтруд оставил за собой деньги и контроль, при этом убрал с себя всю ответственность, ничего не делает, и всем хорошо. А на муниципальном уровне получили деньги, возможность время от времени принимать гостей федерального уровня, которые вообще ни хрена не понимают, что происходит здесь, «на земле», и тоже хорошо. В баньке попарились, все хорошо, поехали домой.
Forwarded from Время госзакупок
БИДЖЕВ М.И.
Президент рекрутингового портала Superjob Алексей Захаров об инициативе Минтруда переводить сотрудников из социальной сферы в рабочие специальности в интервью «БИЗНЕС. Online»: ➖ Как это сделать, я лично не понимаю. Наверное, для начала ему надо закрыть…
Как ни странно, но после этого Ростуризм как раз и упразднили. А тогда еще и вопрос дефицита кадров остро не стоял.
Экс-глава ведомства Зарина Догузова в промышленность тоже не ушла.
Экс-глава ведомства Зарина Догузова в промышленность тоже не ушла.
Пишут, у 'наших дорогих партнёров' свой "Петрик" объявился - с переворачивающим с ног на голову основы основ в энергетике бытовым мини-ядерным реактором в форме яйца размером с добротную дыню-торпеду )
Telegram
Банкста
Гендиректор обанкротившейся энергокомпании Enron Коннор Гайдос представляет «Enron Egg», мини-ядерный реактор для бытового использования, который, по его словам, может обеспечивать электроэнергией весь ваш дом в течение десяти лет.
Часть экспертов считают…
Часть экспертов считают…