Forwarded from Борис опять
Оказывается у Univercity of Amsterdam есть отличный набор материалов к курсам по Deep Learning
https://uvadlc-notebooks.readthedocs.io/en/latest/index.html
Например, посмотрите какой красивый туториал по реализации SimCLR: https://uvadlc-notebooks.readthedocs.io/en/latest/tutorial_notebooks/tutorial17/SimCLR.html
Куча каких-то тем о которых очень сложно найти нормальные материалы, например про Tensor Parallelism для обучения и инференса одной большой модели на нескольких GPU.
Лекции тоже частично доступны за прошлые годы, например 2023: https://uvadlc.github.io/lectures-nov2023.html#.
https://uvadlc-notebooks.readthedocs.io/en/latest/index.html
Например, посмотрите какой красивый туториал по реализации SimCLR: https://uvadlc-notebooks.readthedocs.io/en/latest/tutorial_notebooks/tutorial17/SimCLR.html
Куча каких-то тем о которых очень сложно найти нормальные материалы, например про Tensor Parallelism для обучения и инференса одной большой модели на нескольких GPU.
Лекции тоже частично доступны за прошлые годы, например 2023: https://uvadlc.github.io/lectures-nov2023.html#.
Forwarded from Поступашки - ШАД, Стажировки и Магистратура
Pro_AlgoRoad.pdf
453.2 KB
Идут последние часы скидки на нашу продвинутую линейку карьерных курсов, записываемся!
В честь такого подготовили для вас роадмапу для продвинутых в алгоритмах с кратким гайдом, как этим пользоваться. Этот гайд поможет структуировать вашу подготовку к собеседованиям в хфт, CS/олимпиадам/экзаменам и подготовиться к первому семестру в ШАД, Ai Masters.
Давайте наберём 500 огоньков 🔥 и соберем такой же только в ML.
@postypashki_old
В честь такого подготовили для вас роадмапу для продвинутых в алгоритмах с кратким гайдом, как этим пользоваться. Этот гайд поможет структуировать вашу подготовку к собеседованиям в хфт, CS/олимпиадам/экзаменам и подготовиться к первому семестру в ШАД, Ai Masters.
Давайте наберём 500 огоньков 🔥 и соберем такой же только в ML.
@postypashki_old
Forwarded from Борис_ь с ml
#иб_для_ml
Прошедшие пару недель выдались жаркими на анонсы OWASP по AI Security. Организация представила сразу три документа, которые стоит прочитать всем, кто так или иначе работает с GenAI-моделями и AI-агентами: «Securing Agentic Apps Guide», «GenAI Incident Response Guide» и «State of Agentic AI Security and Governance». Эти работы можно назвать исчерпывающим собранием знаний о практической безопасности AI-агентов и просто GenAI на сегодня.
Итого - к ознакомлению рекомендую, но в идеале хотелось бы увидеть то же самое от авторов, только не по 80+ страниц каждый док, а хотя бы по 30.
Теперь фактура
Доступ к инструментам рекомендуется делать по Just-In-Time модели с ephemeral credentials, хотя механика триггеров включения/отключения пока не прописана.
Перечислили IoC для GenAI-инцидентов: всевозможные аномалии потоков входа/выхода GenAI-моделей, наличие PII в ответах, хэши популярных атакующих запросов.
Далее авторы пустились в полет фантазии: и методика оценки рисков, и примеры для дашбордов SOC для AI, и еще куча всего. Описана модель зрелости SOC для AI с необходимыми шагами для "эволюции".
Полезной могу отметить матрицу расчёта критичности AI-инцидентов по пяти направлениям, по которой можно определять скорость реагирования на инцидент, состав команды и масштаб пост-инцидентных мер.
Но что меня расстроило, так это как раз таки полное отсутствие специфики AI-агентов. Недоработали OWASP тут.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from DeepSchool
YOLO history. Part 8
В предыдущей статье мы рассказали о том, как использовать вспомогательные модели для улучшения качества основной.
В новой статье разберём устройство архитектур YOLOv8 и YOLOv11, а также отличия академического и индустриального подходов к созданию нового детектора.
Читайте новую статью по ссылке!
В предыдущей статье мы рассказали о том, как использовать вспомогательные модели для улучшения качества основной.
В новой статье разберём устройство архитектур YOLOv8 и YOLOv11, а также отличия академического и индустриального подходов к созданию нового детектора.
Читайте новую статью по ссылке!
DeepSchool
YOLO history. Part 8 - DeepSchool
Разбираем устройство архитектур YOLOv8 и YOLOv11, а также отличия академического и индустриального подходов к созданию нового детектора
Forwarded from Душный NLP
Лучшие работы Dissertation Award и немного статистики: подводим итоги ACL 2025
В этом году Ассоциация компьютерной лингвистики (ACL) учредила награду для лучших PhD-диссертаций. Критериев выбора несколько. Исследование должно:
⚪️ быть связным и хорошо написанным;
⚪️ охватывать одну из областей интереса ACL;
⚪️ удовлетворять принятым в академии методологиям;
⚪️ вызывать желание прочитать его целиком.
Диссертацию пубедителя публикуют в журнале Computational Linguistics, который индексируется в Scopus и Web of Science, а также стабильно входит в I и II квартиль.
В этом сезоне с 1 сентября 2022-го по 31 августа 2024 года на рассмотрении комиссии подали 29 диссертаций. Почётного упоминания удостоились работы:
Human-AI Collaboration to Support Mental Health and Well-Being
Ashish Sharma
Диссертация сдвигает границы взаимодействия человека с ИИ: автор исследует способы выявлять и имитировать эмпатию, расширяя возможности применения NLP для улучшения ментального здоровья людей.
Modeling Cross-lingual Transfer for Semantic Parsing
Tom Sherborne
В этой диссертации развивают высокоточные методы кросс-лингвистического трансфера для языков, на которых собрано слишком мало датасетов для разработки и обучения моделей. Эффективность методов демонстрируется в контекст семантического парсинга для интеграцим с базами данных API.
Лучшей диссертацией стала работа об LLM:
Rethinking Data Use in Large Language Models
Sewon Min
На фото улыбается победительница — Sewon Min, одна из самых известных учёных в области обработки естественного языка. Она специализируется на языковых моделях, использующих контекст. Большинство её статей посвящено задаче автоматического ответа на вопросы, в частности, проблеме повышения фактической корректности ответа.
В диссертации Sewon Min сосредоточилась на более узких темах: генерации на основе примеров (fewshot-learning), а также непараметрических языковых моделях, которые используют для генерации внешний корпус. В исследование вошло множество инсайтов о поведении и возможностях больших лингвистических моделей в рамках обучения с контекстом. Эти находки сформировали сегодняшнее ядро NLP.
Больше о трендах и лучших статьях конференции читайте в предыдущих постах:
В Вене проходит 63-я ежегодная конференция ассоциации компьютерной лингвистики — ACL 2025
Интересное с конференции ACL 2025
Запомнили для вас всё самое интересное❣ Алексей Березникер и Алексей Сорокин
#YaACL25
Душный NLP
В этом году Ассоциация компьютерной лингвистики (ACL) учредила награду для лучших PhD-диссертаций. Критериев выбора несколько. Исследование должно:
Диссертацию пубедителя публикуют в журнале Computational Linguistics, который индексируется в Scopus и Web of Science, а также стабильно входит в I и II квартиль.
В этом сезоне с 1 сентября 2022-го по 31 августа 2024 года на рассмотрении комиссии подали 29 диссертаций. Почётного упоминания удостоились работы:
Human-AI Collaboration to Support Mental Health and Well-Being
Ashish Sharma
Диссертация сдвигает границы взаимодействия человека с ИИ: автор исследует способы выявлять и имитировать эмпатию, расширяя возможности применения NLP для улучшения ментального здоровья людей.
Modeling Cross-lingual Transfer for Semantic Parsing
Tom Sherborne
В этой диссертации развивают высокоточные методы кросс-лингвистического трансфера для языков, на которых собрано слишком мало датасетов для разработки и обучения моделей. Эффективность методов демонстрируется в контекст семантического парсинга для интеграцим с базами данных API.
Лучшей диссертацией стала работа об LLM:
Rethinking Data Use in Large Language Models
Sewon Min
На фото улыбается победительница — Sewon Min, одна из самых известных учёных в области обработки естественного языка. Она специализируется на языковых моделях, использующих контекст. Большинство её статей посвящено задаче автоматического ответа на вопросы, в частности, проблеме повышения фактической корректности ответа.
В диссертации Sewon Min сосредоточилась на более узких темах: генерации на основе примеров (fewshot-learning), а также непараметрических языковых моделях, которые используют для генерации внешний корпус. В исследование вошло множество инсайтов о поведении и возможностях больших лингвистических моделей в рамках обучения с контекстом. Эти находки сформировали сегодняшнее ядро NLP.
Больше о трендах и лучших статьях конференции читайте в предыдущих постах:
В Вене проходит 63-я ежегодная конференция ассоциации компьютерной лингвистики — ACL 2025
Интересное с конференции ACL 2025
Запомнили для вас всё самое интересное
#YaACL25
Душный NLP
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Канал Доброго Вани | Data Science и Продуктики
Python.pdf
6.2 MB
Итак, обещанные материалы: от абсолютного нуля до МЛ-бибизяна
1. Основы Python Эрик Мэтиз
2. Погружаемся в классический МЛ с Джейком Вандер Пласом
3. Уничтожаем свои нервные клетки двумя семестрами Deep Learning School от МФТИ
сначала https://stepik.org/course/196127/promo?search=6864012529
затем https://stepik.org/course/196142/promo?search=6864012526
4. Раздуваем своё портфолио https://fintech.tinkoff.ru/school/generation/dl/
---- Поздравляю, вы выросли вглубину, но не вширину. Рекомендую приправлять всё вышеперечисленное хакатонами. Идем дальше
5. SQL https://stepik.org/course/63054/syllabus
6. Docker https://karpov.courses/docker
7. MLops https://ods.ai/tracks/ml-in-production-spring-22
8. Spark https://pythonru.com/biblioteki/pyspark-dlja-nachinajushhih
9. Алгосы от Яши (идеально ботать перед собесом) https://github.com/VanjaRo/LeetCode/blob/main/README.md
10. Математика для ML/DL/AI https://academy.yandex.ru/handbook/ml идеально для собеса (порадуй свои глазные яблочки)
11. Git https://practicum.yandex.ru/profile/git-basics/
Вот и весь рецепт. Дальше самостоятельно😘
1. Основы Python Эрик Мэтиз
2. Погружаемся в классический МЛ с Джейком Вандер Пласом
3. Уничтожаем свои нервные клетки двумя семестрами Deep Learning School от МФТИ
сначала https://stepik.org/course/196127/promo?search=6864012529
затем https://stepik.org/course/196142/promo?search=6864012526
4. Раздуваем своё портфолио https://fintech.tinkoff.ru/school/generation/dl/
---- Поздравляю, вы выросли вглубину, но не вширину. Рекомендую приправлять всё вышеперечисленное хакатонами. Идем дальше
5. SQL https://stepik.org/course/63054/syllabus
6. Docker https://karpov.courses/docker
7. MLops https://ods.ai/tracks/ml-in-production-spring-22
8. Spark https://pythonru.com/biblioteki/pyspark-dlja-nachinajushhih
9. Алгосы от Яши (идеально ботать перед собесом) https://github.com/VanjaRo/LeetCode/blob/main/README.md
10. Математика для ML/DL/AI https://academy.yandex.ru/handbook/ml идеально для собеса (порадуй свои глазные яблочки)
11. Git https://practicum.yandex.ru/profile/git-basics/
Вот и весь рецепт. Дальше самостоятельно😘
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
How we built fast UPDATEs for the ClickHouse column store
▫️Part 1: Purpose-built engines
▫️Part 2: SQL-style UPDATEs
В первой части автор Том Шрайбер поясняет, как ClickHouse обходится без традиционного обновления строк, превращая UPDATE/DELETE в вставки с помощью специальных движков вроде ReplacingMergeTree, CollapsingMergeTree и др., которые позднее сливаются фоновым процессом, обеспечивая высокую скорость и масштабируемость на аналитических нагрузках. Это решение позволило объединить эффективность вставок и возможность правки данных без ущерба для быстрого чтения.
Вторая статья рассказывает о новой архитектуре патч‑партиций (patch parts), благодаря которым ClickHouse наконец поддерживает классический синтаксис UPDATE … WHERE, но без затрат на перестройку колонок: патч‑партиции содержат только изменённые значения и сливаются в фоновом режиме, обеспечивая мгновенную видимость изменений и высокую производительность. Автор подробно описывает эволюцию от тяжёлых мутаций до экономных, декларативных обновлений на основе SQL, вдохновлённых механизмами MergeTree.
#ClickHouse
▫️Part 1: Purpose-built engines
▫️Part 2: SQL-style UPDATEs
В первой части автор Том Шрайбер поясняет, как ClickHouse обходится без традиционного обновления строк, превращая UPDATE/DELETE в вставки с помощью специальных движков вроде ReplacingMergeTree, CollapsingMergeTree и др., которые позднее сливаются фоновым процессом, обеспечивая высокую скорость и масштабируемость на аналитических нагрузках. Это решение позволило объединить эффективность вставок и возможность правки данных без ущерба для быстрого чтения.
Вторая статья рассказывает о новой архитектуре патч‑партиций (patch parts), благодаря которым ClickHouse наконец поддерживает классический синтаксис UPDATE … WHERE, но без затрат на перестройку колонок: патч‑партиции содержат только изменённые значения и сливаются в фоновом режиме, обеспечивая мгновенную видимость изменений и высокую производительность. Автор подробно описывает эволюцию от тяжёлых мутаций до экономных, декларативных обновлений на основе SQL, вдохновлённых механизмами MergeTree.
#ClickHouse
ClickHouse
How we built fast UPDATEs for the ClickHouse column store – Part 1: Purpose-built engines
ClickHouse is a column store, but that doesn’t mean updates are slow. In this post, we explore how purpose-built engines like ReplacingMergeTree deliver fast, efficient UPDATE-like behavior through smart insert semantics.
Forwarded from LLM под капотом
Новые материалы по SGR - Schema-Guided Reasoning
Я собрал воедино и структурировал материалы про SGR для LLM, выделил паттерны (их всего три) в отдельные статьи (english). Получилась краткая методичка "собери сам свою reasoning систему":
- SGR Intro - заглавная страница с определением и основными ссылками
- SGR Patterns - примеры простых паттернов, из которых можно "собирать" более сложные reasoning схемы: Cascade, Routing, Cycle.
- SGR Examples - четыре примера: simple math task, text-to-sql, document classification, advanced reasoning in compliance.
Сейчас я работаю над еще одним дополнением - минимальным примером бизнес-ассистента, который может использовать несколько инструментов для распутывания сложных задачек. Он создается без сторонних библиотек, исключительно на OpenAI SDK, Pydantic и всего с одним промптом.
Как думаете, в сколько строчек Python можно уложить такое демо-решение?
Ваш, @llm_under_hood 🤗
Я собрал воедино и структурировал материалы про SGR для LLM, выделил паттерны (их всего три) в отдельные статьи (english). Получилась краткая методичка "собери сам свою reasoning систему":
- SGR Intro - заглавная страница с определением и основными ссылками
- SGR Patterns - примеры простых паттернов, из которых можно "собирать" более сложные reasoning схемы: Cascade, Routing, Cycle.
- SGR Examples - четыре примера: simple math task, text-to-sql, document classification, advanced reasoning in compliance.
Сейчас я работаю над еще одним дополнением - минимальным примером бизнес-ассистента, который может использовать несколько инструментов для распутывания сложных задачек. Он создается без сторонних библиотек, исключительно на OpenAI SDK, Pydantic и всего с одним промптом.
Как думаете, в сколько строчек Python можно уложить такое демо-решение?
Ваш, @llm_under_hood 🤗
Forwarded from Заскуль питона (Data Science)
A/B-тесты кажутся простыми: разделили аудиторию, сравнили метрики, сделали вывод. Но на практике можно легко допустить ошибку, которая приведёт к неправильным решениям. Собрал полезные статьи с Хабра, которые помогут разобраться в нюансах экспериментов и избежать классических фейлов и узнать что-то новое.
Топ постов от IT-компаний, в которых активно используется 🆎.
Ставьте
@zasql_python
Что-то забыл? Пишите в комментариях!
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Artem Ryblov’s Data Science Weekly
The Prompt Report: A Systematic Survey of Prompt Engineering Techniques
Generative Artificial Intelligence (GenAI) systems are increasingly being deployed across diverse industries and research domains. Developers and end-users interact with these systems through the use of prompting and prompt engineering.
Although prompt engineering is a widely adopted and extensively researched area, it suffers from conflicting terminology and a fragmented ontological understanding of what constitutes an effective prompt due to its relatively recent emergence.
Authors establish a structured understanding of prompt engineering by assembling a taxonomy of prompting techniques and analyzing their applications. They present a detailed vocabulary of 33 vocabulary terms, a taxonomy of 58 LLM prompting techniques, and 40 techniques for other modalities.
Additionally, authors provide best practices and guidelines for prompt engineering, including advice for prompting state-of-the-art (SOTA) LLMs such as ChatGPT. They further present a meta-analysis of the entire literature on natural language prefix-prompting. As a culmination of these efforts, this paper presents the most comprehensive survey on prompt engineering to date.
Link: ArXiv
Navigational hashtags: #armarticles
General hashtags: #promptengineering #prompts #prompt #llm
@data_science_weekly
Generative Artificial Intelligence (GenAI) systems are increasingly being deployed across diverse industries and research domains. Developers and end-users interact with these systems through the use of prompting and prompt engineering.
Although prompt engineering is a widely adopted and extensively researched area, it suffers from conflicting terminology and a fragmented ontological understanding of what constitutes an effective prompt due to its relatively recent emergence.
Authors establish a structured understanding of prompt engineering by assembling a taxonomy of prompting techniques and analyzing their applications. They present a detailed vocabulary of 33 vocabulary terms, a taxonomy of 58 LLM prompting techniques, and 40 techniques for other modalities.
Additionally, authors provide best practices and guidelines for prompt engineering, including advice for prompting state-of-the-art (SOTA) LLMs such as ChatGPT. They further present a meta-analysis of the entire literature on natural language prefix-prompting. As a culmination of these efforts, this paper presents the most comprehensive survey on prompt engineering to date.
Link: ArXiv
Navigational hashtags: #armarticles
General hashtags: #promptengineering #prompts #prompt #llm
@data_science_weekly