Forwarded from Machinelearning
Alibaba Group и Alibaba Cloud возглавили консорциум по финансированию шэньчжэньского стартапа X Square Robot (осн. 2023). Участвовали HSG, Meituan и Legend Star.
Это часть стратегии Alibaba — компания планирует вложить $53 млрд в ИИ-инфраструктуру. Цель сделки — новое поколение «умной робототехники», где ИИ отвечает за автономность и принятие решений. Инвестиция также отражает курс Китая на ускоренное развитие сектора ИИ и робототехники.
mktnews.com
Китайский производитель гуманоидных роботов Unitree планирует выйти на шанхайскую биржу STAR Market в IV квартале. Цель — оценка $7 млрд (почти в 6 раз выше июльского раунда).
Компания — лидер в Китае по производству роботов-гуманоидов, её продукция используется в университетах и на публичных мероприятиях. Unitree уже прибыльна: выручка >1 млрд юаней ($140 млн). За спиной — Alibaba, Tencent и Geely. Успешное IPO станет ключевым индикатором интереса инвесторов к физическим воплощениям ИИ.
reuters.com
Стоимость генерации видео в Veo 3 упала: стандартная версия — с $0.75 до $0.40 за секунду (-47%), Veo 3 Fast — до $0.15 (-62.5%). Теперь поддерживаются вертикальные форматы (9:16) и качество 1080p. Обе модели стабильны и доступны через Gemini API.
Это сигнал к масштабированию и ценовой конкуренции на рынке видео-ИИ. Veo 3 уже применяется в проектах Invisible Studio, Saga, Mosaic для ускорения контент-продакшена.
X.com
Anthropic расширила возможности ассистента Claude на мобильных устройствах. При разрешении пользователя ИИ теперь может использовать геолокацию, календарь и другие данные для планирования мероприятий и рекомендаций.
Это шаг к созданию по-настоящему персональных ИИ-агентов, работающих с контекстом пользователя. Такой подход усиливает конкуренцию среди мобильных ассистентов и закрепляет тренд интеграции ИИ в повседневные процессы.
Скачать
Компания официально выступила в поддержку инициативы сенатора Скотта Винера, регулирующей передовые ИИ-системы. Ключевые положения:
• публикация принципов безопасности и прозрачности
• уведомление о критических инцидентах в течение 15 дней
• защита осведомителей и санкции за нарушения
• порог для регулирования — >10²⁶ FLOPs
Anthropic отмечает, что закон закрепляет уже применяемые практики и создаёт равные условия для конкуренции. Это первый случай открытой поддержки крупной ИИ-лабораторией регуляторных инициатив.
anthropic.com
- Флэшкарты и квизы: формат «вопрос–ответ» + тесты с настройкой сложности.
-Reports: авто-рекомендации форматов (блог, white paper, стади-гайд и др.), кастомизация промптов.
- ИИ-подкасты: новые режимы — Deep Dive, Brief, Critique, Debate; поддержка всех языков.
Примеры, видео, квиза и карточек прикрепили к посту.
Notebooklm
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2
🐍 Полезные фишки парсинга в Python
1️⃣ Парсинг JSON без лишних усилий
2️⃣ HTML/XML-парсинг с BeautifulSoup
3️⃣ Парсинг аргументов командной строки с argparse
4️⃣ Быстрый CSV-парсинг
5️⃣ Регулярки для гибкого текста
🔥 Эти трюки помогают парсить JSON, HTML, CSV, аргументы CLI и даже “грязный” текст.
Подойдут как для скриптов, так и для продакшн-кода.
👉 Сохрани, чтобы не забыть!
1️⃣ Парсинг JSON без лишних усилий
import json
data = '{"name": "Alice", "age": 25}'
parsed = json.loads(data)
print(parsed["name"]) # Alice
2️⃣ HTML/XML-парсинг с BeautifulSoup
from bs4 import BeautifulSoup
html = "<h1>Hello <b>Python</b></h1>"
soup = BeautifulSoup(html, "html.parser")
print(soup.h1.text) # Hello Python
3️⃣ Парсинг аргументов командной строки с argparse
import argparse
parser = argparse.ArgumentParser()
parser.add_argument("--name")
args = parser.parse_args()
print(f"Hello, {args.name}")
4️⃣ Быстрый CSV-парсинг
import csv
with open("data.csv") as f:
reader = csv.DictReader(f)
for row in reader:
print(row["username"], row["score"])
5️⃣ Регулярки для гибкого текста
import re
text = "Email: [email protected]"
match = re.search(r"\w+@\w+\.\w+", text)
print(match.group()) # [email protected]
🔥 Эти трюки помогают парсить JSON, HTML, CSV, аргументы CLI и даже “грязный” текст.
Подойдут как для скриптов, так и для продакшн-кода.
👉 Сохрани, чтобы не забыть!
❤5🔥2🤯1
🔥 Полезный Python-трюк для работы с сетями: `ipaddress` в стандартной библиотеке
Когда нужно быстро проверить IP-адреса, маски подсетей или принадлежность хоста сети — не обязательно тянуть внешние пакеты. В Python уже есть мощный модуль
📌 Чем полезно
Проверка принадлежности адреса подсети
Удобный парсинг IPv4 и IPv6
Генерация диапазонов IP
Всё встроено в Python — никаких сторонних зависимостей
🔥 Отлично подходит для написания сетевых тулзов, firewall-скриптов, DevOps-автоматизации и тестов.
#Python #Networking #Tips #DevOps
Когда нужно быстро проверить IP-адреса, маски подсетей или принадлежность хоста сети — не обязательно тянуть внешние пакеты. В Python уже есть мощный модуль
ipaddress
.
import ipaddress
# Создаём сеть
net = ipaddress.ip_network("192.168.1.0/24")
# Проверяем, входит ли IP в сеть
print(ipaddress.ip_address("192.168.1.42") in net) # True
print(ipaddress.ip_address("10.0.0.5") in net) # False
# Перебираем все адреса подсети
for ip in net.hosts():
print(ip)
break # выведет первый адрес
# Работаем с IPv6 так же просто
ipv6 = ipaddress.ip_network("2001:db8::/32")
print(ipaddress.ip_address("2001:db8::1") in ipv6) # True
📌 Чем полезно
Проверка принадлежности адреса подсети
Удобный парсинг IPv4 и IPv6
Генерация диапазонов IP
Всё встроено в Python — никаких сторонних зависимостей
🔥 Отлично подходит для написания сетевых тулзов, firewall-скриптов, DevOps-автоматизации и тестов.
#Python #Networking #Tips #DevOps
👍8❤4
⚡️ Библиотека EasyOCR для распознавания текста на картинках
Поддерживает 80+ языков.
Выдаёт результат в виде списка, каждый элемент которого представляет собой координаты ограничивающей рамки, обнаруженный текст и уровень уверенности модели.
Установка:
🟢 Репозиторий
Поддерживает 80+ языков.
Выдаёт результат в виде списка, каждый элемент которого представляет собой координаты ограничивающей рамки, обнаруженный текст и уровень уверенности модели.
Установка:
pip install easyocr
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8👍1🥰1
В Python можно писать собственные контекстные менеджеры с помощью декоратора
contextlib.contextmanager
. Это позволяет красиво управлять ресурсами (файлами, соединениями, блокировками) без лишнего кода.
from contextlib import contextmanager
import time
@contextmanager
def timer(name: str):
start = time.time()
try:
yield
finally:
end = time.time()
print(f"[{name}] elapsed: {end - start:.4f} sec")
# Использование
with timer("heavy calc"):
sum(i * i for i in range(10_000_000))
🔥 Фишка: можно легко оборачивать любой ресурс (БД, сокет, API) и гарантировать его закрытие или освобождение.
Это делает код чище и надёжнее.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍3🔥2
🚀 Автоматизация задач на Python за пару строк
Вместо ручного запуска можно поручить Python выполнять действия по расписанию.
Библиотека schedule делает это максимально просто 👇
💡 Каждые 5 секунд скрипт будет выводить напоминание.
Можно легко заменить на любое действие: запуск бэкапов, парсинг сайтов или проверку API.
Вместо ручного запуска можно поручить Python выполнять действия по расписанию.
Библиотека schedule делает это максимально просто 👇
import schedule
import time
def greet():
print("⏰ Hello! Time to learn Python!")
schedule.every(5).seconds.do(greet)
while True:
schedule.run_pending()
time.sleep(1)
💡 Каждые 5 секунд скрипт будет выводить напоминание.
Можно легко заменить на любое действие: запуск бэкапов, парсинг сайтов или проверку API.
👍9❤6🥰2
В этом гайде собраны реальные и актуальные вопросы из интервью в крупных технологических компаниях и стартапах (Google, Amazon, Stripe, Booking и др.).
Каждая тема разобрана через призму того, что именно проверяют интервьюеры, как лучше структурировать ответ и какие подводные камни важно учитывать.
👉 Гайд: https://uproger.com/gajd-po-sobesedovaniyu-python-razrabotchika-middle-2025-goda/
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5❤4👍3
⚡️ Depyler — транспилятор Python → Rust, созданный для высокой производительности и энергосбережения.
Он переводит код Python в безопасный и быстрый Rust, снижая энергопотребление на 75–85%.
Проект сделан без технического долга и соответствует строгим принципам качества (Toyota Way).
Основные возможности
Транспиляция ядра
- Разбор Python AST и преобразование в HIR для безопасных трансформаций
- Интеллектуальный вывод типов с поддержкой аннотаций
- Автоматическая работа с памятью: владение и заимствование
- Direct Rules Engine — перевод конструкций Python в Rust по шаблонам
- Оптимизация строк — интернирование часто используемых литералов
Производительность и эффективность
- Энергопотребление на 75–85% ниже по сравнению с Python
- Бинарная оптимизация: LTO,
- Работа со строками без лишних копирований (через `Cow`)
- Использование LLVM-бэкенда для агрессивной оптимизации
- Авто-интернирование строк, встречающихся более 3 раз
Безопасность и верификация
- Property-based тестирование для проверки семантической эквивалентности
- Анализ памяти: защита от use-after-free и гонок данных
- Автовставка проверок границ при необходимости
- Контрактное программирование: верификация предусловий и постусловий
- Архитектура, готовая к формальной проверке (SMT)
Интеграция ИИ
- Поддержка MCP v1.0 (модель контекстного протокола)
- Интерактивный AI-режим для подсказок в транспиляции
- Рекомендации по аннотациям и оптимизации
- Оценка сложности миграции
Инструменты разработчика
- Поддержка LSP (VSCode, Neovim и др.)
- Отладка с сопоставлением исходников
- Профилирование и оптимизация «горячих точек»
- Автогенерация документации API из Python
🔗 Репозиторий: https://github.com/paiml/depyler
Он переводит код Python в безопасный и быстрый Rust, снижая энергопотребление на 75–85%.
Проект сделан без технического долга и соответствует строгим принципам качества (Toyota Way).
Основные возможности
Транспиляция ядра
- Разбор Python AST и преобразование в HIR для безопасных трансформаций
- Интеллектуальный вывод типов с поддержкой аннотаций
- Автоматическая работа с памятью: владение и заимствование
- Direct Rules Engine — перевод конструкций Python в Rust по шаблонам
- Оптимизация строк — интернирование часто используемых литералов
Производительность и эффективность
- Энергопотребление на 75–85% ниже по сравнению с Python
- Бинарная оптимизация: LTO,
strip
, panic=abort
- Работа со строками без лишних копирований (через `Cow`)
- Использование LLVM-бэкенда для агрессивной оптимизации
- Авто-интернирование строк, встречающихся более 3 раз
Безопасность и верификация
- Property-based тестирование для проверки семантической эквивалентности
- Анализ памяти: защита от use-after-free и гонок данных
- Автовставка проверок границ при необходимости
- Контрактное программирование: верификация предусловий и постусловий
- Архитектура, готовая к формальной проверке (SMT)
Интеграция ИИ
- Поддержка MCP v1.0 (модель контекстного протокола)
- Интерактивный AI-режим для подсказок в транспиляции
- Рекомендации по аннотациям и оптимизации
- Оценка сложности миграции
Инструменты разработчика
- Поддержка LSP (VSCode, Neovim и др.)
- Отладка с сопоставлением исходников
- Профилирование и оптимизация «горячих точек»
- Автогенерация документации API из Python
🔗 Репозиторий: https://github.com/paiml/depyler
❤5👍3🔥2
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
Теперь система динамически выбирает время «размышлений»: на простые запросы отвечает почти мгновенно, а на сложных проектах может работать часами — вплоть до 7 часов подряд, выполняя рефакторинг, исправляя ошибки и доводя решение до финала.
Одним из главных нововведений стала функция codex resume, позволяющая возобновлять старые сессии. Также обновили интерфейс: появилось анимированное онбординг-руководство, улучшены отображение статусов и обработка прерываний. Важным изменением стала и новая система авторизации с более надёжной работой API-ключей и кастомных провайдеров.
По производительности GPT-5-Codex показывает заметный скачок. На бенчмарке SWE-bench модель набирает 74,5%, обгоняя GPT-5 high. На внутренних тестах по рефакторингу результат вырос с 34% до 51%, что говорит о серьёзном улучшении качества работы с большими кодовыми базами.
OpenAi
Google Research представила TimesFM 2.5 — обновлённую версию Time Series Foundation Model для прогнозирования временных рядов.
В версии 2.5 разработчики улучшили точность по сравнению с 2.0 и значительно расширили максимальную длину контекста, что позволяет обрабатывать более сложные и длинные временные зависимости.
Особое достижение — первое место в рейтинге GiFT-Eval: TimesFM 2.5 заняла лидирующую позицию сразу по всем метрикам среди zero-shot foundation-моделей, подтвердив статус одной из самых точных систем для анализа временных рядов.
Github
Согласно новому анализу от TipRanks, компании OpenAI и Anthropic показали, что их ИИ-инструменты применяются в существенно разных контекстах — и дают разные эффекты.
OpenAI в основном используется для создания контента, разработки кода и поддержки творческих задач, где гибкость и масштабируемость — ключевые аргументы. Его модели помогают пользователям генерировать текст, автоматизировать рабочие процессы и решать задачи, требующие воображения и нестандартного подхода.
Anthropic, напротив, чаще применяют в областях, где особенно важны точность, контроль бессознательных смещений и высокая надёжность — например, в юридических, медицинских или регулируемых средах. В таких сценариях делают упор на безопасность, на минимизацию ошибок и на возможность аудита и объяснений того, как пришёл к решению ИИ.
Отчёт подчёркивает: разные компании и пользователи выбирают OpenAI или Anthropic не просто на основе производительности, но и в зависимости от ценностей — что важнее: скорость и творческий потенциал или строгие гарантии и прозрачность.
Эксперты TipRanks полагают, что оба подхода — сильны в своих нишах. Поскольку спрос на ИИ-решения растёт, смешанные и гибридные модели применений, вероятно, станут всё более популярными: когда часть задач решается с помощью гибкого и креативного ИИ, а часть — с помощью инструментов повышенной эмпатии и осторожности.
Отчет
Reve представили AI-редактор изображений, который уже окрестили «текстовым фотошопом». В отличие от конкурентов, здесь почти нет цензуры, а ограничения на генерацию трудно заметить.
Функция Image creator & remixer позволяет создавать и перерабатывать изображения на основе текстовых подсказок. Интерактивный drag-and-drop редактор даёт возможность перемещать, масштабировать и изменять объекты прямо мышкой — так, как в привычных графических редакторах. Вместо стандартного поля для ввода появился чат-ассистент, превращающий взаимодействие в диалог, что облегчает настройку и доработку картинок.
Reve
Компании Alphabet, материнской структуры Google, впервые удалось преодолеть отметку в $3 трлн стоимости на бирже. Акции выросли на 4 % на фоне судебного решения по антимонопольному делу, по которому не потребовалось разделение бизнеса (Chrome и Android). Сильный рост показали облачная служба и заинтересованность инвесторов в AI-продуктах, особенно модели Gemini.
Новость
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍2👎1
🚀 Умная система мониторинга Alerta
Alerta — это масштабируемый инструмент мониторинга, который легко настраивается и принимает оповещения из различных источников. Он предлагает быструю визуализацию данных с возможностью глубокого анализа.
🚀 Основные моменты:
- Масштабируемая архитектура
- Минимальная конфигурация
- Поддержка MongoDB и PostgreSQL
- Удобная веб-консоль для визуализации
- Легкая интеграция с облачными платформами
📌 GitHub: https://github.com/alerta/alerta
#python
Alerta — это масштабируемый инструмент мониторинга, который легко настраивается и принимает оповещения из различных источников. Он предлагает быструю визуализацию данных с возможностью глубокого анализа.
🚀 Основные моменты:
- Масштабируемая архитектура
- Минимальная конфигурация
- Поддержка MongoDB и PostgreSQL
- Удобная веб-консоль для визуализации
- Легкая интеграция с облачными платформами
📌 GitHub: https://github.com/alerta/alerta
#python
❤4🔥3🥰1
🚀 Индивидуальный IPython в Docker: советы от Frank Wiles
Хочешь, чтобы твоя IPython-среда в Docker была настроена под тебя, но не мешала коллегам? Вот лёгкий и гибкий способ:
1. Используй IPYTHONDIR и Docker Compose:
- В .env: IPYTHONDIR=/code/attic/ipython/
- В .gitignore: attic/
- В Docker Compose: подключай .env и твой проект как volume, чтобы IPython создавал конфигурацию в attic/ipython/profile_default/.
2. Настройка по вкусу:
- В ipython_config.py можно задать стиль редактирования (например, `c.editing_mode = "vi"`).
- Автоматически импортируй часто используемые библиотеки через c.InteractiveShellApp.exec_lines = [...] или скрипты в папке startup/, пронумерованные по порядку загрузки }.
3. Предзагрузка данных для удобной работы:
Например, при работе с Django можно автоматически загрузить dev-данные. Скрипт 20-load-devdata-assignment.py внутри startup/ пытается получить объект Assignment и связанные с ним данные, делая работу в IPython удобнее.
4. Собственный инструмент для рутины:
Автор реализовал класс URLFinder, который извлекает UUID из строки URL, красиво их отображает с помощью библиотеки rich — и позволяет получить нужный UUID по индексу (`ids(0)`, ids(1) и т.п.).
Вывод:
Настройка IPython в Docker — это просто, удобно и лично. И это не навязывает изменения команде. Даже маленький инструмент вроде URLFinder может существенно упростить рутину.
Опубликовано 19 августа 2025 года автором Frank Wiles, основателем REVSYS и бывшим президентом Django Software Foundation .
https://frankwiles.com/posts/customize-ipython-docker/ -
Хочешь, чтобы твоя IPython-среда в Docker была настроена под тебя, но не мешала коллегам? Вот лёгкий и гибкий способ:
1. Используй IPYTHONDIR и Docker Compose:
- В .env: IPYTHONDIR=/code/attic/ipython/
- В .gitignore: attic/
- В Docker Compose: подключай .env и твой проект как volume, чтобы IPython создавал конфигурацию в attic/ipython/profile_default/.
2. Настройка по вкусу:
- В ipython_config.py можно задать стиль редактирования (например, `c.editing_mode = "vi"`).
- Автоматически импортируй часто используемые библиотеки через c.InteractiveShellApp.exec_lines = [...] или скрипты в папке startup/, пронумерованные по порядку загрузки }.
3. Предзагрузка данных для удобной работы:
Например, при работе с Django можно автоматически загрузить dev-данные. Скрипт 20-load-devdata-assignment.py внутри startup/ пытается получить объект Assignment и связанные с ним данные, делая работу в IPython удобнее.
4. Собственный инструмент для рутины:
Автор реализовал класс URLFinder, который извлекает UUID из строки URL, красиво их отображает с помощью библиотеки rich — и позволяет получить нужный UUID по индексу (`ids(0)`, ids(1) и т.п.).
Вывод:
Настройка IPython в Docker — это просто, удобно и лично. И это не навязывает изменения команде. Даже маленький инструмент вроде URLFinder может существенно упростить рутину.
Опубликовано 19 августа 2025 года автором Frank Wiles, основателем REVSYS и бывшим президентом Django Software Foundation .
https://frankwiles.com/posts/customize-ipython-docker/ -
❤3👍3🔥2
🖥Как у вас с Django?
Чтобы отвечать на этот вопрос «изи», рекомендуем Яндекс Лицей и его программу «Веб-разработка на Django». Он для учащихся школ и колледжей.
Почему рекомендуем:
✔️Подход: первые пару месяцев лекции + практика, начиная с третьего — командный проект.
✔️Глубина: будете сами создавать веб-приложения и сайты с нуля, разберётесь в тонкостях ввода от пользователей и верной проверки данных.
✔️Дополнительный бонус: после обучения получите именной сертификат, который может добавить баллы при поступлении в вузы-партнеры.
Обучение бесплатное, но нужно пройти отбор до 23 сентября.
👉 Переходим и регистрируемся по ссылке
Чтобы отвечать на этот вопрос «изи», рекомендуем Яндекс Лицей и его программу «Веб-разработка на Django». Он для учащихся школ и колледжей.
Почему рекомендуем:
✔️Подход: первые пару месяцев лекции + практика, начиная с третьего — командный проект.
✔️Глубина: будете сами создавать веб-приложения и сайты с нуля, разберётесь в тонкостях ввода от пользователей и верной проверки данных.
✔️Дополнительный бонус: после обучения получите именной сертификат, который может добавить баллы при поступлении в вузы-партнеры.
Обучение бесплатное, но нужно пройти отбор до 23 сентября.
👉 Переходим и регистрируемся по ссылке
👎2❤1
🐍 Ещё один небанальный Python-совет
В Python можно использовать
Например: автоматически замерять время выполнения блока кода:
👉 Теперь любой код внутри with Timer(): автоматически измеряется.
Этот приём удобно применять для логирования, отката транзакций или даже временной подмены настроек.
В Python можно использовать
__enter__
и __exit__
, чтобы превратить объект в контекстный менеджер — даже для вещей, которые обычно так не используют. Например: автоматически замерять время выполнения блока кода:
import time
class Timer:
def __enter__(self):
self.start = time.time()
return self
def __exit__(self, *args):
print(f"⏱ Время выполнения: {time.time() - self.start:.4f} c")
with Timer():
sum([i**2 for i in range(10_000_000)])
👉 Теперь любой код внутри with Timer(): автоматически измеряется.
Этот приём удобно применять для логирования, отката транзакций или даже временной подмены настроек.
🔥16👍2❤1
🔍 Marker — инструмент от Datalab.to, который быстро и точно превращает документы в Markdown + JSON
Что умеет Marker:
- Поддержка PDF, изображений, PPTX, DOCX, XLSX, HTML, EPUB и др.
- Форматирует таблицы, формы, уравнения, математические выражения, ссылки, кодовые блоки.
- Извлекает изображения из документов.
- Убирает колонтитулы, заголовки, другие артефакты форматирования.
- Есть бета-версия для “структурированного извлечения” на основе схемы JSON.
- Можно включить LLM-модуль, чтобы повысить точность в сложных местах (например, объединение таблиц, корректное форматирование).
Преимущества:
- Быстрота + точность по сравнению с конкурентами (Mathpix, Llamaparse и др.).
- Работает и без LLM, но с флагом
- Можно запускать локально, на серверах, GPU / CPU, использовать параллельную обработку.
Ограничения и нюансы:
- Сложные макеты и вложенные таблицы / формы ещё не всегда обрабатываются идеально.
- Иногда требуется OCR, особенно если PDF плохо “разложен” на текст.
Кому полезно:
- Тем, кто работает с научными статьями, отчётами, бухгалтерскими документами, презентациями и хочет автоматизировать преобразование в читаемый формат.
- Для RAG-pipelines, документации и любых задач, где надо извлечь структуру и контент.
https://github.com/datalab-to/marker
Что умеет Marker:
- Поддержка PDF, изображений, PPTX, DOCX, XLSX, HTML, EPUB и др.
- Форматирует таблицы, формы, уравнения, математические выражения, ссылки, кодовые блоки.
- Извлекает изображения из документов.
- Убирает колонтитулы, заголовки, другие артефакты форматирования.
- Есть бета-версия для “структурированного извлечения” на основе схемы JSON.
- Можно включить LLM-модуль, чтобы повысить точность в сложных местах (например, объединение таблиц, корректное форматирование).
Преимущества:
- Быстрота + точность по сравнению с конкурентами (Mathpix, Llamaparse и др.).
- Работает и без LLM, но с флагом
--use_llm
становится ещё лучше. - Можно запускать локально, на серверах, GPU / CPU, использовать параллельную обработку.
Ограничения и нюансы:
- Сложные макеты и вложенные таблицы / формы ещё не всегда обрабатываются идеально.
- Иногда требуется OCR, особенно если PDF плохо “разложен” на текст.
Кому полезно:
- Тем, кто работает с научными статьями, отчётами, бухгалтерскими документами, презентациями и хочет автоматизировать преобразование в читаемый формат.
- Для RAG-pipelines, документации и любых задач, где надо извлечь структуру и контент.
https://github.com/datalab-to/marker
❤4👍2🔥1
🚀 Python Pro совет
Хотите красиво печатать JSON прямо в терминале?
Необязательно ставить внешние утилиты — всё есть в стандартной библиотеке:
💡 Очень удобно, когда нужно быстро проверить структуру или отладить API-ответ.
Можно добавить
Хотите красиво печатать JSON прямо в терминале?
Необязательно ставить внешние утилиты — всё есть в стандартной библиотеке:
# Форматирование JSON из файла
python -m json.tool data.json
# Или из пайплайна
cat data.json | python -m json.tool | less
💡 Очень удобно, когда нужно быстро проверить структуру или отладить API-ответ.
Можно добавить
| jq
для ещё более гибкой фильтрации.❤4
25 сентября(в четверг) в 19:00 по мск приходи онлайн на открытое собеседование, чтобы посмотреть на настоящее интервью на Middle Python-разработчика.
Как это будет:
Это бесплатно. Эфир проходит в рамках менторской программы от ШОРТКАТ для Python-разработчиков, которые хотят повысить свой грейд, ЗП и прокачать скиллы.
Переходи в нашего бота, чтобы получить ссылку на эфир → @shortcut_py_bot
Реклама.
О рекламодателе.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
🔥 Продвинутый Python-трюк для работы с сетями: асинхронные запросы через
Когда нужно сделать десятки или сотни запросов к API или сайтам, обычный
📌 Что это даёт
⚡️ Сотни запросов обрабатываются почти одновременно
📉 Меньше блокировок — больше пропускная способность
🔧 Легко масштабируется для парсеров, мониторинга сервисов, чатов и API-интеграций
🔥 Этот приём используют в реальных продакшн-системах, где нужно работать с большим количеством сетевых соединений.
asyncio
+ aiohttp
Когда нужно сделать десятки или сотни запросов к API или сайтам, обычный
requests
становится узким местом. Асинхронный подход позволяет обрабатывать множество соединений параллельно и резко ускоряет работу.
import asyncio
import aiohttp
urls = [
"https://example.com",
"https://httpbin.org/get",
"https://api.github.com"
]
async def fetch(session, url):
async with session.get(url) as resp:
return url, await resp.text()
async def main():
async with aiohttp.ClientSession() as session:
tasks = [fetch(session, url) for url in urls]
for result in await asyncio.gather(*tasks):
print(f"✅ {result[0]} → {len(result[1])} символов")
asyncio.run(main())
📌 Что это даёт
⚡️ Сотни запросов обрабатываются почти одновременно
📉 Меньше блокировок — больше пропускная способность
🔧 Легко масштабируется для парсеров, мониторинга сервисов, чатов и API-интеграций
🔥 Этот приём используют в реальных продакшн-системах, где нужно работать с большим количеством сетевых соединений.
👍12❤4