Forwarded from Machinelearning
Мультимодальная модель от NVIDIA уверенно занимает первое место на OCRBench v2, показав лучшую точность парсинга документов среди всех моделей.
📄 Что это такое:
Llama Nemotron Nano VL — лёгкая vision-language модель для интеллектуальной обработки документов (IDP), которая:
• разбирает PDF
• вытаскивает таблицы
• парсит графики и диаграммы
• работает на одной GPU
– Вопрос-ответ по документам
– Извлечение таблиц
– Анализ графиков
– Понимание диаграмм и дешбордов
📊 OCRBench v2 — крупнейший двухъязычный бенчмарк для визуального анализа текста, и именно NVIDIA Nano VL показывает лучший результат.
@ai_machinelearning_big_data
#Nemotron #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
🐍 Задача на внимательность и понимание области видимости в Python: «Почему список не заполняется?»
🎯 Цель: Найти, почему переменная ведёт себя не так, как ожидается
📍 Ситуация:
У тебя есть простой код, который должен собирать данные в список из файла:
Но после запуска ты получаешь:
🙃 Хотя ты уверен, что в обоих файлах есть строки с
🧩 Задача:
1. Почему список
2. Почему нет ошибки при обращении к
3. Что будет, если вместо
4. Как правильно модифицировать глобальную переменную?
5. Как сделать поведение явным и безопасным?
🛠 Решение:
🔸 Проблема в области видимости переменных:
Функция использует
Однако
Если бы внутри функции была строка
🔸 Для ясности и чистоты кода лучше делать так:
Или, если обязательно нужно использовать глобальную переменную:
🔸 Проверка:
-
-
📌 Вывод:
В Python изменение содержимого изменяемой глобальной переменной внутри функции возможно без
🎯 Цель: Найти, почему переменная ведёт себя не так, как ожидается
📍 Ситуация:
У тебя есть простой код, который должен собирать данные в список из файла:
results = []
def process_file(path):
for line in open(path):
if "error" in line:
results.append(line.strip())
# где-то в другом месте:
process_file("logs1.txt")
process_file("logs2.txt")
print(f"Total errors: {len(results)}")
Но после запуска ты получаешь:
Total errors: 0
🙃 Хотя ты уверен, что в обоих файлах есть строки с
"error"
.🧩 Задача:
1. Почему список
results
остаётся пустым? 2. Почему нет ошибки при обращении к
results.append(...)
? 3. Что будет, если вместо
append()
просто написать results = [...]
внутри функции? 4. Как правильно модифицировать глобальную переменную?
5. Как сделать поведение явным и безопасным?
🛠 Решение:
🔸 Проблема в области видимости переменных:
Функция использует
results
, определённый вне функции, но не объявляет его как global. Однако
results.append(...)
— это допустимая операция, так как она не переназначает переменную, а вызывает метод объекта.Если бы внутри функции была строка
results = [...]
, Python бы создал локальную переменную results
, и тогда append
бы вызывал UnboundLocalError
.🔸 Для ясности и чистоты кода лучше делать так:
def process_file(path, results):
for line in open(path):
if "error" in line:
results.append(line.strip())
results = []
process_file("logs1.txt", results)
process_file("logs2.txt", results)
Или, если обязательно нужно использовать глобальную переменную:
results = []
def process_file(path):
global results
for line in open(path):
if "error" in line:
results.append(line.strip())
🔸 Проверка:
-
print(locals())
— покажет локальные переменные-
print(globals())
— покажет глобальные📌 Вывод:
В Python изменение содержимого изменяемой глобальной переменной внутри функции возможно без
global
, но присваивание новой переменной требует явного global
. Это тонкое поведение, которое часто приводит к ошибкам, особенно при работе со списками и словарями.This media is not supported in your browser
VIEW IN TELEGRAM
Задача: Что делает эта странная функция teleport и почему она запускает цикл 32 раза?
🧠 Подсказка:
На первый взгляд это выглядит как хаотичная мешанина побитовых операций, но на самом деле здесь происходит реверс битов (bitwise reversal) — отражение битов справа налево.
Но вопрос — зачем делать это 32 раза подряд?
🔍 Что происходит:
Каждый шаг в теле цикла — это стандартная техника реверса битов через маски и сдвиги:
0xAAAAAAAA, 0xCCCCCCCC, и т.д. — маски по битовым паттернам
Итерация for _ in range(32) делает это снова и снова…
💣 Фишка: первый проход уже полностью отражает 32-битное число.
Остальные 31 повтор возвращают число в исходное состояние — но в побитово инвертированном порядке!
📌 То есть:
Чётное количество циклов — возвращает в исходную позицию
Нечётное — делает реверс
👉 Ответ на teleport(0x12345678) будет реверс битов этого числа.
Ожидаемое: 0x1e6a2c48 (в зависимости от реализации может отличаться).
🎯 Челлендж для продвинутых:
Упростите функцию до одного вызова (без цикла)
Напишите inverse_teleport(x), которая возвращает исходное число обратно
🧩 Эта техника используется в:
— алгоритмах FFT (быстрые преобразования Фурье)
— графике
— реверсировании хэшей
— low-level оптимизациях для SIMD
🧠 Подсказка:
На первый взгляд это выглядит как хаотичная мешанина побитовых операций, но на самом деле здесь происходит реверс битов (bitwise reversal) — отражение битов справа налево.
Но вопрос — зачем делать это 32 раза подряд?
🔍 Что происходит:
Каждый шаг в теле цикла — это стандартная техника реверса битов через маски и сдвиги:
0xAAAAAAAA, 0xCCCCCCCC, и т.д. — маски по битовым паттернам
Итерация for _ in range(32) делает это снова и снова…
💣 Фишка: первый проход уже полностью отражает 32-битное число.
Остальные 31 повтор возвращают число в исходное состояние — но в побитово инвертированном порядке!
📌 То есть:
Чётное количество циклов — возвращает в исходную позицию
Нечётное — делает реверс
👉 Ответ на teleport(0x12345678) будет реверс битов этого числа.
Ожидаемое: 0x1e6a2c48 (в зависимости от реализации может отличаться).
🎯 Челлендж для продвинутых:
Упростите функцию до одного вызова (без цикла)
Напишите inverse_teleport(x), которая возвращает исходное число обратно
🧩 Эта техника используется в:
— алгоритмах FFT (быстрые преобразования Фурье)
— графике
— реверсировании хэшей
— low-level оптимизациях для SIMD
🎓 Модульный учебник по Python для Middle-разработчиков
Этот учебник создан для тех, кто уже пишет на Python, но хочет выйти за рамки базовых конструкций. Здесь — практичные модули с упором на архитектуру, производительность, тестирование, чистый код и современные практики разработки.
🔧 Каждый модуль — это отдельный блок знаний: теория + реальные кейсы + трюки из индустрии.
🎯 Только то, что реально нужно миддлу: от дебага и профилирования до async, typing, CI/CD и LLM-интеграций.
Без воды. С кодом. По делу.
📚 Читать
@python_job_interview
Этот учебник создан для тех, кто уже пишет на Python, но хочет выйти за рамки базовых конструкций. Здесь — практичные модули с упором на архитектуру, производительность, тестирование, чистый код и современные практики разработки.
🔧 Каждый модуль — это отдельный блок знаний: теория + реальные кейсы + трюки из индустрии.
🎯 Только то, что реально нужно миддлу: от дебага и профилирования до async, typing, CI/CD и LLM-интеграций.
Без воды. С кодом. По делу.
📚 Читать
@python_job_interview
🐳 Что если вам нужно запустить чужой (возможно небезопасный) код?
Представьте: вам прислали бинарник, Python-скрипт или npm-пакет, и его надо выполнить.
Вы не знаете, что внутри — а вдруг там
🔥 Первый инстинкт: запустить в Docker. Кажется, контейнер спасёт?
⚠️ На самом деле — не всегда.
🛑 Docker ≠ песочница
Контейнеры по умолчанию не изолированы от ядра, сетей и сокетов хоста.
Даже простое
🛡️ Что делать, если код небезопасен:
Также стоит:
• Настроить AppArmor / SELinux
• Запретить монтирование Docker сокета
• Ограничить доступ к
💡 Вывод:
Docker — это удобный инструмент упаковки, но не синоним безопасной изоляции.
Если запускаете сторонний или user-generated код (плагины, CI-скрипты, sandbox-сервисы) — относитесь к нему как к потенциально опасному.
Безопасность — это не "чеклист", а постоянная практика.
#Docker #Security #Sandbox #DevOps #Isolation
Представьте: вам прислали бинарник, Python-скрипт или npm-пакет, и его надо выполнить.
Вы не знаете, что внутри — а вдруг там
rm -rf /
, попытка выйти из контейнера, майнер или установка root-доступа?🔥 Первый инстинкт: запустить в Docker. Кажется, контейнер спасёт?
⚠️ На самом деле — не всегда.
🛑 Docker ≠ песочница
Контейнеры по умолчанию не изолированы от ядра, сетей и сокетов хоста.
Даже простое
docker run -it ubuntu
запускает процесс с root-доступом внутри контейнера.🛡️ Что делать, если код небезопасен:
# Запуск без root-доступа
docker run --user 1000:1000 my-image
# Только для чтения
docker run --read-only my-image
# Удалить все cap-привилегии ядра
docker run --cap-drop=ALL my-image
# Использовать seccomp-профиль
docker run --security-opt seccomp=default.json my-image
# Отключить сеть
docker run --network=none my-image
Также стоит:
• Настроить AppArmor / SELinux
• Запретить монтирование Docker сокета
• Ограничить доступ к
/proc
, /sys
💡 Вывод:
Docker — это удобный инструмент упаковки, но не синоним безопасной изоляции.
Если запускаете сторонний или user-generated код (плагины, CI-скрипты, sandbox-сервисы) — относитесь к нему как к потенциально опасному.
Безопасность — это не "чеклист", а постоянная практика.
#Docker #Security #Sandbox #DevOps #Isolation
This media is not supported in your browser
VIEW IN TELEGRAM
🐍 Задача для собеседования на Python
— Условие:
— Вопрос: что будет выведено в результате выполнения этого кода?
— Варианты ответов:
А.
B.
C.
D.
Правильный ответ:B.
Пояснение:
Функция — это рекурсивная функция, которая накапливает сумму чисел от x до 1, прибавляя y в конце.
@python_job_interview
— Условие:
def mystery(x, y):
if x == 0:
return y
else:
return mystery(x - 1, x + y)
result = mystery(3, 2)
print(result)
— Вопрос: что будет выведено в результате выполнения этого кода?
— Варианты ответов:
А.
5
B.
8
C.
11
D.
Ошибка рекурсии
Правильный ответ:
Пояснение:
Функция
mystery
@python_job_interview
👨💻 Executing — как заглянуть внутрь работающего Python-кода. Необычная библиотека, которая позволяет во время выполнения программы определить, какой именно AST-узел выполняется в данный момент. Это может быть полезно для отладки, анализа кода или создания инструментов вроде умных traceback'ов.
Проект использует хитрый трюк с модификацией AST и наблюдением за изменениями в байт-коде, чтобы точно определить текущую операцию. Хотя функционал кажется узкоспециализированным, его уже используют в нескольких известных инструментах: stack_data, snoop и даже IPython для улучшенного вывода ошибок.
🤖 GitHub
@python_interview
Проект использует хитрый трюк с модификацией AST и наблюдением за изменениями в байт-коде, чтобы точно определить текущую операцию. Хотя функционал кажется узкоспециализированным, его уже используют в нескольких известных инструментах: stack_data, snoop и даже IPython для улучшенного вывода ошибок.
🤖 GitHub
@python_interview
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
📚 ArXiv Research Agent — отличный помощник для научных исследований.
Агент самостоятельно:
• Найдёт релевантные статьи с arXiv, bioRxiv, medRxiv и Semantic Scholar
• Проведёт полноценный обзор и поиск нужных материалов
• Покажет, что упущено, и предложит, что добавить
• Даст инсайты и цитаты из миллионов научных работ
• Генерирует готовые конспекты
И др.
Вскоре обещают добавить поддержку MCP.
🔜 Попробовать: https://www.alphaxiv.org/assistant
@ai_machinelearning_big_data
#agent #ArXiv #ai #ml
Агент самостоятельно:
• Найдёт релевантные статьи с arXiv, bioRxiv, medRxiv и Semantic Scholar
• Проведёт полноценный обзор и поиск нужных материалов
• Покажет, что упущено, и предложит, что добавить
• Даст инсайты и цитаты из миллионов научных работ
• Генерирует готовые конспекты
И др.
Вскоре обещают добавить поддержку MCP.
@ai_machinelearning_big_data
#agent #ArXiv #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 7 000+ упражнений на 76 языках программирования
Exercism — бесплатная платформа для прокачки навыков программирования с нуля. Каждый язык — отдельный путь, наполненный практическими задачами.
Главный плюс — обратная связь от опытных менторов. Ответы здесь не быстрые, зато по делу и без токсичности, как это бывает на Stack Overflow.
https://exercism.org/
Exercism — бесплатная платформа для прокачки навыков программирования с нуля. Каждый язык — отдельный путь, наполненный практическими задачами.
Главный плюс — обратная связь от опытных менторов. Ответы здесь не быстрые, зато по делу и без токсичности, как это бывает на Stack Overflow.
https://exercism.org/
🐍 Python-совет: ускоряй импорт и запуск с помощью `__main__` guard и lazy imports
Когда ты пишешь утилиту или CLI‑скрипт, важно не загружать всё сразу. Используй
🔧 Пример:
📌 Почему это важно:
• Импорты происходят только при запуске, а не при импорте модуля из другого файла
• Снижается время запуска CLI-инструмента
• Уменьшается нагрузка при unit-тестировании, если
• Позволяет использовать файл как модуль и как скрипт
🛠️ Особенно эффективно при:
• больших CLI-инструментах (`argparse`,
• работе в средах, где
🧠 Вывод:
Когда ты пишешь утилиту или CLI‑скрипт, важно не загружать всё сразу. Используй
if __name__ == "__main__"
+ отложенный импорт, чтобы ускорить запуск и избежать лишней инициализации.🔧 Пример:
# script.py
def main():
import argparse
import time
parser = argparse.ArgumentParser()
parser.add_argument("--sleep", type=int, default=1)
args = parser.parse_args()
print("Start sleeping...")
time.sleep(args.sleep)
print("Done.")
if __name__ == "__main__":
main()
📌 Почему это важно:
• Импорты происходят только при запуске, а не при импорте модуля из другого файла
• Снижается время запуска CLI-инструмента
• Уменьшается нагрузка при unit-тестировании, если
main()
не нужен • Позволяет использовать файл как модуль и как скрипт
🛠️ Особенно эффективно при:
• больших CLI-инструментах (`argparse`,
rich
, pandas
и др.) • работе в средах, где
startup time
критичен (например, serverless)🧠 Вывод:
if __name__ == "__main__"
+ локальные импорты = чище, быстрее, гибче.