Machine learning Interview
30.4K subscribers
1.48K photos
113 videos
13 files
1.01K links
Разбираем вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейронным сетям, Python.

Вопросы - @notxxx1


@itchannels_telegram -🔥лучшие it каналы

РКН: clck.ru/3FmwRz
Download Telegram
🧠 Исследование Carnegie Mellon: Cursor ускоряет разработку до 3–4x - но с ценой

Учёные из Carnegie Mellon проанализировали 807 репозиториев, где разработчики перешли на Cursor
(по конфигам вроде `.cursorrules`), и сравнили их с 1380 контрольными проектами - до и после внедрения.

Метод difference-in-differences:
сравнивали одни и те же репы *до/после*, плюс контролировали тренды по месяцам.

🚀 Что произошло с “скоростью кода”
Code Velocity = коммиты + строки кода.

- в первый месяц - скачок 3–5x по строкам
- в среднем после внедрения - +1.84x к скорости

ИИ реально ускоряет работу - и это измеряемо, а не ощущение.

🧩 Но есть побочные эффекты
Качество оценивали через SonarQube
(надёжность, поддерживаемость, безопасность, дубликаты, когнитивная сложность).

- статические предупреждения - +30%
- сложность кода - +41%
- через это скорость начинает проседать со временем

ИИ помогает писать больше - но не всегда лучше.

💡 Вывод
Cursor даёт реальный прирост продуктивности, особенно в начале.
Но выигрывают те, кто сочетает ИИ с:

- тестами
- код-ревью
- quality gates
- статанализом

ИИ-агенты - ускорители,
а качество всё ещё требует инженера.

arxiv.org/abs/2511.04427v2
👍266🤔3
This media is not supported in your browser
VIEW IN TELEGRAM
Дженсен Хуанг: «Влюбиться в то, что делаешь — проще, чем искать то, что любишь»

Многие говорят: *«Найди дело своей мечты».*
Но Хуанг смотрит иначе:

> «Я полюбил всё, чем занимался.
> Я любил мыть посуду.
> Я любил работать официантом.
> Я любил разносить газеты.
> Я любил каждую работу, которая у меня была.»

Он продолжает:

> «Я люблю каждый день в Nvidia.
> Я просто научился любить то, что делаю.
> Найти то, что любишь - сложно.
> Проще - влюбиться в свою работу.
> Когда ты хочешь сделать её хорошо, работать легче.»


💡 Мы часто ищем «идеальное дело»,
но иногда сила в том, чтобы сделать то, что есть значимым, и через это вырасти.

Как вам такая философия?
66👍18🔥15😁4🆒4💯1
This media is not supported in your browser
VIEW IN TELEGRAM
🧠 DFlash: как ускорить LLM без потери качества

DFlash - это способ ускорить генерацию текста у больших моделей.

Он работает так: одна модель быстро делает черновик, другая - проверяет его и исправляет ошибки.

Почему это круто?

🚀 6.2× быстрее без потери качества на Qwen3-8B
в 2.5 раза быстрее EAGLE-3

Идея простая:

• диффузионные модели - генерируют быстро, но иногда ошибаются
• автогенеративные (AR) - очень точные, но работают медленно
DFlash сочетает оба подхода:
диффузия — черновик → AR — проверка и подтверждение

Получается: и быстро, и аккуратно, вместо того, чтобы выбирать одно.

🔗 Блог: https://z-lab.ai/projects/dflash/
💻 Код: https://github.com/z-lab/dflash
🤗 Модели: https://huggingface.co/collections/z-lab/dflash
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥158👍4🥰4
Forwarded from Machinelearning
📌ИИ-модель от Стэнфорда диагностирует 130 заболеваний по анализу одной ночи сна.

Стэнфордский университет натренировал SleepFM — фундаментальную модель для прогноза целого спектра патологий: от мерцательной аритмии и инфаркта миокарда до деменции и болезни Паркинсона.

Полисомнография — «золотой стандарт» изучения сна: человека обвешивают датчиками (ЭЭГ, ЭКГ, дыхание, мышцы) и пишут гигабайты сырых сигналов.


Но в ML-мире эти данные используются бездарно. Существующие модели тренировались на мелких датасетах сугубо под узкие задачи (найти апноэ, определить фазу сна).

Огромный пласт физиологической информации о здоровье пациента просто игнорировался, потому что размечать вручную сотни часов записи под каждую болячку — невозможно.

К тому же, если в одной клинике датчик ЭЭГ повесили чуть иначе или он отвалился, обычная модель ломалась.

В университете поняли, что врачи-разметчики не нужны, нужны объемы. Они собрали огромный датасет из 585 тыс. часов записей сна более 65 тыс. пациентов и придумали уникальный алгоритм обучения SSL для будущей модели.

🟡LOO-CL (Leave-One-Out Contrastive Learning)

Вместо того чтобы учить модель предсказывать диагноз, еt заставили решать пазл: система получает на вход сигналы от 3-x модальностей (сердце, мышцы, дыхание) и должна предсказать эмбеддинг четвертой (мозговые волны).

Это заставляет нейросеть на базе 1D CNN и Transformers выучивать глубокие, скрытые связи между физиологическими процессами.

🟡Вторая фишка — Channel-Agnostic Attention.

Модели все равно, какие именно датчики подключены и в каком порядке. Если канал отвалился или отсутствует, attention pooling просто перераспределяет веса, и инференс продолжается.

🟡SleepFM научилась читать по сну не только бессонницу.

Получив на вход 1 ночь записи, модель предсказывает риск 130 заболеваний, причем она делает это точнее, чем специализированные модели, обученные с учителем: риск болезни Паркинсона выявляется в 89% случаев, деменции — в 85%, а вероятность сердечного приступа — в 81%.

Авторы работы полагают, что с развитием носимой электроники такая диагностика может перекочевать из лабораторий в умные часы, а тесты модели доказали, что что в шуме сигналов сна может быть скрыта полная медкарта пациента.


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
19🔥13🥰2
This media is not supported in your browser
VIEW IN TELEGRAM
🎥 Создание видео с LTX-2

LTX-2 - это уникальная модель для генерации видео с синхронизированным аудио и видео, предлагающая высокое качество и множество режимов работы. Она обеспечивает доступ к API и открытый доступ, что делает её идеальной для продакшн-решений.

🚀 Основные моменты:
- Модель на основе DiT для аудио-видео генерации
- Высокая точность и качество выходных данных
- Поддержка нескольких режимов производительности
- Открытый доступ и API для интеграции
- Доступна демо-версия для тестирования

📌 GitHub: https://github.com/Lightricks/LTX-2
👍6🔥3🥰3
⚡️ Китайский AI-стартап MiniMax Group привлёк $619 млн на IPO в Гонконге.

Акции разместили по верхней границе диапазона - HK$165:
продано 29,2 млн акций.

За компанией стоят крупные игроки:
- Abu Dhabi Investment Authority (ADIA)
- Mirae Asset Securities

MiniMax - один из первых китайских разработчиков LLM, кто реально вышел на биржу.

Компания основана в 2022 году (создатель - экс-топ SenseTime) и делает мультимодальный ИИ, который генерирует:
- текст
- картинки
- видео
- аудио
- музыку

Главное: большую часть денег MiniMax направит в R&D на ближайшие 5 лет.

Китай быстро переходит из стадии “догоняем” в стадию:
выводим LLM-компании на публичный рынок и масштабируем их как Big Tech.
12👍5🔥3🤔1
🖥 На Stepik вышел курс, который учит работать с Docker на реальных проектах.

Владение Docker - навык, который отличает новичка от профи,

Сегодня почти всё разворачивается в контейнерах.

Если ты не умеешь работать с Docker, ты медленнее, зависим от чужих настроек и постоянно ловишь баги «у меня локально работает».

• как упаковывать проекты в контейнеры
• как поднимать целые системы за минуты
• как избегать типичных ошибок в продакшене
• как делать стабильные и повторяемые окружения
•в нем разобраны все возможные ошибки

Только практика и реальные кейсы от авторов Docker Академии- с нуля до уверенного уровня.

🎁 Скидка 40 процентов действует 48 часов


👉 Записывайся и сделай Docker своим настоящим рабочим инструментом.
Please open Telegram to view this post
VIEW IN TELEGRAM
🤪8👍3🔥2😁21
✔️ Tencent представила диффузионную языковую модель: в 6 раз быстрее классических LLM

WeDLM-8B Instruct использует не авторегрессию, как обычные LLM,
а диффузионный способ генерации текста.

Что это даёт?
🚀 В задачах математического рассуждения модель работает в 3–6 раз быстрее,
чем Qwen3-8B даже с оптимизациями vLLM - при сохранении качества.

Этот релиз ломает старый миф, что «диффузионные модели не подходят для точных текстовых задач».

На практике WeDLM показывает, что такой подход может конкурировать
и даже обходить трансформеры по скорости инференса.

Модель открыта и доступна под лицензией Apache 2.0:

🔗 https://wedlm.github.io

🔗 https://huggingface.co/tencent/WeDLM-8B-Instruct
10👍5🥰4🥱2
MIT: большие датасеты не всегда нужны - можно вычислить “минимум данных”, который гарантирует лучший ответ

Мы привыкли думать так:
чем больше данных соберём - тем точнее решение.

Но исследователи (в том числе команда MIT) показали другой подход: можно алгоритмически определить минимальный набор измерений, который *уже гарантирует оптимальное решение*.

То есть система отвечает на вопрос не “примерно”, а строго:

👉 *какие именно данные нужно собрать, чтобы получить точно лучшее решение*
и где можно остановиться, не теряя качества.

В чём суть (по-человечески):
обычно мы собираем тонны данных “на всякий случай” - чтобы оценить всё подряд.

А новый метод делает иначе:
- находит конкурирующие оптимальные варианты
- и измеряет только то, что реально способно изменить выбор лучшего
- всё остальное - лишнее

Главный кайф:
это не “в среднем работает” и не “в большинстве случаев”.
Метод даёт математическую гарантию:
выбранного маленького набора данных *достаточно*, чтобы получить точный optimum.

Почему это важно:
в задачах вроде
- логистики и маршрутизации
- supply chain
- энергосетей и power grid

Каждое измерение может быть: дорогим, медленным, опасным или редким.

И вместо бесконечного “соберём ещё данных”
появляется принципиальное правило остановки:
собираем только то, что реально влияет на оптимальный выбор - и получаем 100% уверенность.

Это мощный сдвиг “сколько данных нужно?” становится не догадкой, а задачей проектирования с доказательством.
10🤔10😁5
Автоматизируем рутину на максимум: вышла Manus Academy - платформа с бесплатными курсами по ИИ-агентам.

Внутри - крепкая база, с которой уже легко заходить в продвинутый вайбкодинг:
научат собирать приложения без кода, настраивать кастомные workflow, и писать промпты, которые реально работают (а не “вода”).

https://academy.manus.im/
👍53🔥3
Сегодня ключевой вопрос уже не в том, использовать ли AI в работе, а в том, как именно его встраивать так, чтобы он приносил пользу, а не создавал новые проблемы.

Когда AI подключается без четкой архитектуры, он быстро превращается в источник нестабильности: ответы начинают зависеть от случайного контекста, качество трудно контролировать, а система плохо переносит рост данных и пользователей. В результате технология, которая должна была упрощать работу, начинает требовать все больше внимания и ручного контроля.

На вебинаре «Прототипирование LLM: от идеи до работающего AI-ассистента» karpovꓸcourses подробно разберут, как проектируются управляемые AI-системы: как выстраивается слой работы с данными через RAG, как ассистент получает доступ к внешним инструментам, как задается логика поведения и ограничения, и как все это соединяется в воспроизводимую архитектуру.

Научитесь строить управляемые AI-системы на бесплатном вебинаре: https://clc.to/erid_2W5zFGvwQ3r

Реклама. ООО "КАРПОВ КУРСЫ". ИНН 7811764627. erid: 2W5zFGvwQ3r
🤣61🔥1