БИДЖЕВ М.И.

Channel created

07:52

This media is not supported in your browser

Но есть и хорошие новости. Для тех, кому зимой жарко, "звенит январская вьюга" на пляже Имеретинской набережной в Сочи (😉), до которого, вроде бы, пока, к счастью, не добралась беда известных мазутных последствий экологической катастрофы с участием двух танкеров, в качестве которых нещадно эксплуатировались капиталом при попустительстве безответственной причастной бюрократии давно выработавшие свой ресурс и изжившие себя ржавые корыта в запредельно критическом техническом состоянии.

103 viewsedited 04:34

БИДЖЕВ М.И.

Forwarded from Spydell_finance (Paul Spydell)

Прогресс за год в языковых моделях

Все, что касается ГИИ/языковых моделей (LLM) устаревает в момент публикации, но тем не менее фиксировать актуальную диспозицию весьма полезно и интересно.

Большая часть из критических замечаний, которые я публиковал на протяжении всего 2024 года уже не являются в полной мере актуальными, хотя большая часть фундаментальных ограничений так и не решена. Подробная расшифровка всех слабых и сильных сторон займет слишком много времени – слишком масштабный и комплексный анализ потребуется.

Остановлюсь для начала на списке/реестре наиболее сильных моделей.

Ниже сводная информация о топовых языковых моделях:

1. ChatGPT o1: США, OpenAI, сентябрь 2024, контекстное окно 128 тыс токенов.

2. Google Gemini 2 flash: США, Google, декабрь 2024, 2 млн токенов.

3. Claude 3.5 Sonnet: США, Anthropic, октябрь 2024, 200 тыс токенов.

4. Amazon Nova Pro: США, Amazon, декабрь 2024, 300 тыс токенов.

5. Llama 3.3 70B: США, Meta Platforms, декабрь 2024, 128 тыс токенов.

6. xAI Grok: США, xAI, ноябрь 2024, 8 тыс токенов.

7. Phi-3 Medium: США, Microsoft, апрель 2024, 128 тыс токенов.

8. Reka Flash: США, Reka AI, февраль 2024, 128 тыс токенов.

9. Command R+: Канада, Cohere, апрель 2024, 128 тыс токенов.

10. Mistral Large 2: Франция, Mistral AI, июль 2024, 128 тыс токенов.

11. Qwen 2.5: Китай, Alibaba, декабрь 2024, 131 тыс токенов.

12. DeepSeek V3: Китай, DeepSeek, декабрь 2024, 128 тыс токенов.

13. Jamba 1.5 Large: Израиль, AI21 Labs, август 2024, 256 тыс токенов.

14. YandexGPT 4: Россия, Яндекс, октябрь 2024 года, 32 тыс токенов.

15. GigaChat: Россия, Сбербанк, май 2024, 32 тыс токенов.

16. T-Pro: Россия, Т-банк, декабрь 2024, 8 тыс токенов.

Попробовал все, за исключением T-Pro. Мой рейтинг самых мощных по совокупности факторов: OpenAI o1, Claude 3.5 Sonnet, DeepSeek V3, Qwen 2.5 и Google Gemini 2 flash.

Примерно сопоставимы плюс-минус во втором эшелоне: Llama 3.3 70B, Amazon Nova Pro и Mistral Large 2. Все остальные в третьем эшелоне с учетом достаточно слабой модели от Илона Маска.

LLM от Google на протяжении всего 2024 были полным дерьмом, но относительный прогресс наступил только в сентябре с внедрением обновленной модели Gemini 1.5 pro и закрепление успеха в декабре с Gemini 2 flash.

Очень удивили китайцы (DeepSeek V3 и Qwen 2.5) – вполне тянут на открытие года и самый значимый прогресс. DeepSeek V3 уже точно сильнее GPT-4o, но уступает последней модификации GPT o1.

Конкуренция невероятная. Всего два года назад в это время была на рынке только одна модель GPT 3.5 и как все изменилось.

OpenAI пока вне конкуренции по совокупности факторов, но разрыв уже не такой значительный, как в 2023 (была целая пропасть) и даже, как в середине 2024.

В декабре 2024 вышло очень много обновлений LLM и даже изначально слабая и вечно отстающая Llama смогла сократить отставание с модификацией 3.3 70b, показывая неплохие результаты. В начале 2025 будет модификация 3.3 405b, которая закрепит успех. Также ожидается релиз полной версии Gemini 2, Open AI o3 и Claude 4.0.

Нет универсальной LLM, здесь скорее правильно говорить о комбинациях под конкретные задачи. Например, с текстом хорошо работает Claude 3.5 Sonnet, а с математическими вычислениями сейчас в лидерах OpenAI, DeepSeek и Google.

Удалось ли мне что-либо из представленных LLM внедрить в свои рабочие проекты? НЕТ! Не удалось.

Количество ошибок настолько критически высоко. Время и ресурсы, затраченные на коррекцию ошибок, перекрывают любую потенциальную выгоду. Ни одна из моделей не пригодна для научно-исследовательских проектов в данный момент.

Пока способны закрывать очень узкие локальных задачи в генерации кода и решении математических задач. Уже успех, но до автоматизации и полноценного внедрения очень далеко.

Однако, я верю в будущий успех (1, 2 и 3). Темпы развития ГИИ невероятны, так что впереди много интересного, как и циклы статей, посвященных прогрессу и проблемам во внедрении.

106 views04:46

БИДЖЕВ М.И.

Forwarded from Spydell_finance (Paul Spydell)

Общее впечатление от работы с LLM за последние два года

Я отношусь к очень небольшой группе людей, которые не только знакомы со всеми современными LLM (тестирую их практически сразу после релиза), но и активно пытаются внедрять их в рабочие и научно-исследовательские проекты

До этого на протяжении многих лет была теоретическая подготовка. Этот тот случай, когда был отслежен весь путь созревания технологии от момента зарождения и внедрения технологии до текущего состояния.

Прогресс есть, как с точки зрения качества генерации данных, так и в расширении спектра инструментов для взаимодействия с LLM.

Можно ли сказать, что «научно-исследовательские проекты разделились на эпоху ДО внедрения технологии и новую эпоху ПОСЛЕ внедрения»?

Нет, ничего качественно не изменилось. Наличие или отсутствие LLM не оказало никакого влияния ни на R&D процессы, ни на сам канал Spydell_finance. Глубина внедрения пока около нуля процентов.

Почему так плохо? Нет стабильности и предсказуемости в выходных данных/результатах. Наука тем и отличается, что эксперименты при повторяемости опытов в изолированных условиях при статичных параметрам должны давать идентичные и прогнозируемые результаты. Это как работа калькулятора.

На практике LLM генерируют слишком много ошибок, на проверку и верификацию которых требуется несоизмеримо много времени и ресурсов, что делает применение ГИИ нерентабельным.

LLM генерируют широкий спектр непредсказуемых результатов, что категорически не подходит для расчетов, где необходима точность. Однако, не сказать, что это плохо.

🔘

Вариативность выходных результатов может быть полезна не в расчетах, а в «мозговых штурмах», где как раз требуется расширение границы допустимых векторов и траекторий результатов. Условно говоря, в выработке направлений и идей для исследований.

🔘

LLM очень полезны для неструктурированных массивов данных, для категоризации/каталогизации неструктурированных наборов данных в разных форматах.

🔘LLM могут быть применимы для генерации отчетов по шаблонам.

🔘

LLM более, чем полезны для формирования гранд нарратива в огромных массивах текстовой информации. Например, анализ новостного потока и вычленение основной концепции, которую пытаются продвинуть СМИ. Нарративы «экономика прекрасна, а будет еще лучше» и «ИИ спасет мир», которые я часто публиковал во второй половине 2024 в контексте тональности западных СМИ были получены частично с использованием ГИИ.

Попытка оценить тональность и «болевые точки» корпоративного сектора через анализ пресс-конференций по итогам корпоративных отчетов, это же применимо к анализу комментариев общественности.

Это в теории. На практике ограничения контекстного окна, блокировка поисковых роботов ГИИ в ведущих СМИ и высокая стоимость обработки токенов не позволяют использовать этот ресурс на полную мощность.

Автоматический анализ новостного потока – хорошая идея и уже технически реализуема, но на практике пока нет.

Как экспертная система ГИИ очень слаб. Проверял в направлениях, в которых имею высокую квалификацию. На запрос о факторах роста рынка или причины возникновения инфляции, - LLM создадут весьма примитивную блеватню на уровне среднестатистических новостных экстрактов, что совершенно не соответствует уровню Spydell_finance.

Сейчас все LLM генерируют низкое качество «экспертного контента», где требуется понимание причинно-следственных связей в условиях противоречивой среды с недостатком входных данных и многоуровневой конструкции параметров. Писать материалы в канале уровня Spydell_finance с помощью ГИИ не получится еще очень долго.

Где применимы LLM в научной среде? Очень ограниченные локальные задачи с точки зрения помощи в программировании, решении математических и статистических задач, помощь в адаптации информационных комплексов на уровне проводника по мануалам.

Еще неплохой потенциал есть в умном поиске информации в сети, хотя сейчас реализация на 4 из 10.

Инструмент полезный, но на чудеса пока не тянет, хотя потенциал очень серьезный. Я указал не все применения, а только в рамках собственных рабочих задач.

Please open Telegram to view this post

VIEW IN TELEGRAM

109 views04:46

БИДЖЕВ М.И.

Главным, что не купировано в процессах разработки и внедрения ИИ, так и остались чрезвычайные риски использования, которые к тому же за эти истекшие 2 года бума лихорадки современности ещё и многократно (на целые порядки) усилились.

110 viewsedited 04:49

БИДЖЕВ М.И.

Forwarded from Время госзакупок

Please open Telegram to view this post

VIEW IN TELEGRAM

97 views05:18

БИДЖЕВ М.И.

Forwarded from Время госзакупок

Президент рекрутингового портала Superjob Алексей Захаров об инициативе Минтруда переводить сотрудников из социальной сферы в рабочие специальности в интервью «БИЗНЕС. Online»:

➖ Как это сделать, я лично не понимаю. Наверное, для начала ему надо закрыть у себя внутри все процессы, которые занимаются занятостью. Все центры занятости в стране закрыть и высвободить людей для работы в реальном секторе. Он этого сделать не сможет, потому что, по-моему, еще при Голиковой была создана вертикаль, в которой все эти центры занятости управлялись из единого федерального центра. Потом, есть такой термин «переданные полномочия» — всю административную управленческую историю спустили на места. То есть в каждом регионе есть свое министерство труда, внутри него — свои центры занятости. При этом финансируют и контролируют их федералы, а результат должны давать муниципалы. Минтруд оставил за собой деньги и контроль, при этом убрал с себя всю ответственность, ничего не делает, и всем хорошо. А на муниципальном уровне получили деньги, возможность время от времени принимать гостей федерального уровня, которые вообще ни хрена не понимают, что происходит здесь, «на земле», и тоже хорошо. В баньке попарились, все хорошо, поехали домой.

102 views05:18

БИДЖЕВ М.И.

Forwarded from Время госзакупок

БИДЖЕВ М.И.

Президент рекрутингового портала Superjob Алексей Захаров об инициативе Минтруда переводить сотрудников из социальной сферы в рабочие специальности в интервью «БИЗНЕС. Online»: ➖ Как это сделать, я лично не понимаю. Наверное, для начала ему надо закрыть…

Как ни странно, но после этого Ростуризм как раз и упразднили. А тогда еще и вопрос дефицита кадров остро не стоял.

Экс-глава ведомства Зарина Догузова в промышленность тоже не ушла.

128 views05:18

БИДЖЕВ М.И.

0:28

This media is not supported in your browser

VIEW IN TELEGRAM

В Росреестре отрицают какую-либо утечку данных ЕГРН (2 млрд строк).

135 views05:38

БИДЖЕВ М.И.

Пишут, у 'наших дорогих партнёров' свой "Петрик" объявился - с переворачивающим с ног на голову основы основ в энергетике бытовым мини-ядерным реактором в форме яйца размером с добротную дыню-торпеду )

4:57

Банкста

Гендиректор обанкротившейся энергокомпании Enron Коннор Гайдос представляет «Enron Egg», мини-ядерный реактор для бытового использования, который, по его словам, может обеспечивать электроэнергией весь ваш дом в течение десяти лет.

Часть экспертов считают…

110 views06:04

БИДЖЕВ М.И.

Приговорить всех нищих жертв капитализма жить
богато, красиво и счастливо...

116 views06:11

About

Blog

Apps

Platform