🔢 Качество математических данных — ключ к развитию reasoning-моделей.
Но тут есть проблема: лучшие данные скрыты в старых научных статьях, а OCR математики — это настоящий кошмар: куча исключений, форматы, языки.
👉 Даже GPT-5 при распознавании путает F с τ (маленькая правка в символе, но огромная смысловая разница) и ломает форматирование.
Исследования (*deepseek-math, NVIDIA Nemotron*) подтверждают: предобучение на математике критично для улучшения рассуждений LLM. Работа HuggingFace над *smollm* показала, что фильтрация токенов с 34B → 10B только по качеству повысила результативность.
⚠️ Для хорошего математического корпуса OCR должен быть почти 100% точным, справляться с разными языками и макетами страниц.
💡 Обычно используют MathPix — он неплох, но дорогой, медленный и закрытый.
Хорошие новости: за последние месяцы open-source модели обошли MathPix.
Marker уже показывает SoTA на бенчмарке *olmocr* по математике.
Внутренние тесты в tier-1 AI-лаборатории: лучше MathPix.
Минимальные ошибки даже на китайских статьях, где GPT-5 «сдавался».
📌 Репозитории:
- Marker → https://github.com/datalab-to/marker
- Surya → https://github.com/datalab-to/surya
Персонализация и on-prem кастомизация тоже доступны — разработчики открыты к диалогу.
⚡ Открытые решения для математического OCR двигаются быстрее, чем кажется.
Но тут есть проблема: лучшие данные скрыты в старых научных статьях, а OCR математики — это настоящий кошмар: куча исключений, форматы, языки.
👉 Даже GPT-5 при распознавании путает F с τ (маленькая правка в символе, но огромная смысловая разница) и ломает форматирование.
Исследования (*deepseek-math, NVIDIA Nemotron*) подтверждают: предобучение на математике критично для улучшения рассуждений LLM. Работа HuggingFace над *smollm* показала, что фильтрация токенов с 34B → 10B только по качеству повысила результативность.
⚠️ Для хорошего математического корпуса OCR должен быть почти 100% точным, справляться с разными языками и макетами страниц.
💡 Обычно используют MathPix — он неплох, но дорогой, медленный и закрытый.
Хорошие новости: за последние месяцы open-source модели обошли MathPix.
Marker уже показывает SoTA на бенчмарке *olmocr* по математике.
Внутренние тесты в tier-1 AI-лаборатории: лучше MathPix.
Минимальные ошибки даже на китайских статьях, где GPT-5 «сдавался».
📌 Репозитории:
- Marker → https://github.com/datalab-to/marker
- Surya → https://github.com/datalab-to/surya
Персонализация и on-prem кастомизация тоже доступны — разработчики открыты к диалогу.
⚡ Открытые решения для математического OCR двигаются быстрее, чем кажется.
👍6❤5🔥2
💡 Новая физика: “тёмный свет”
Учёные предложили квантовую теорию, которая утверждает: даже в темноте есть свет.
📌 Раньше считалось, что «тёмные зоны» возникают, когда световые волны гасят друг друга и там пусто.
🔬 Теперь же физики говорят: фотоны остаются, но переходят в «тёмное квантовое состояние» — они существуют, но их невозможно увидеть.
✨ Как это работает:
- Свет — это смесь «ярких» и «тёмных» состояний.
- В ярком состоянии фотоны взаимодействуют с детекторами и становятся видимыми.
- В тёмном — остаются скрытыми, хотя никуда не исчезают.
- Сам акт наблюдения переводит фотон из тёмного в яркое состояние — и именно тогда возникает видимый результат.
⚡️ Это переосмысление может объяснить старые парадоксы квантовой механики и открыть путь к технологиям, которые будут уметь обнаруживать и управлять скрытыми состояниями света.
📌 Источник: https://journals.aps.org/prl/abstract/10.1103/PhysRevLett.134.133603
Учёные предложили квантовую теорию, которая утверждает: даже в темноте есть свет.
📌 Раньше считалось, что «тёмные зоны» возникают, когда световые волны гасят друг друга и там пусто.
🔬 Теперь же физики говорят: фотоны остаются, но переходят в «тёмное квантовое состояние» — они существуют, но их невозможно увидеть.
✨ Как это работает:
- Свет — это смесь «ярких» и «тёмных» состояний.
- В ярком состоянии фотоны взаимодействуют с детекторами и становятся видимыми.
- В тёмном — остаются скрытыми, хотя никуда не исчезают.
- Сам акт наблюдения переводит фотон из тёмного в яркое состояние — и именно тогда возникает видимый результат.
⚡️ Это переосмысление может объяснить старые парадоксы квантовой механики и открыть путь к технологиям, которые будут уметь обнаруживать и управлять скрытыми состояниями света.
📌 Источник: https://journals.aps.org/prl/abstract/10.1103/PhysRevLett.134.133603
❤5😁3👍2👎2🤔1
Развивайте уникальные продукты и получите шанс продолжить свой путь в Авито по результатам программы — подробнее в карточках.
Отправляйте заявку до 15 сентября: https://u.to/FpdXIg
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
💩4👎2❤1🔥1😁1
Forwarded from Machinelearning
Google Research придумали новый способ сделать большие языковые модели быстрее и дешевле.
Что это такое:
Сначала отвечает маленькая модель. Если задача слишком сложная - подключается большая. Так экономятся ресурсы, но качество может прыгать.
Маленькая модель угадывает сразу несколько слов вперёд. Большая быстро проверяет данные и подтверждает. Скорость выше, но большая модель всё равно тратит много ресурсов.
Это комбинация: маленькая модель иногда отвечает полностью сама, а иногда используется как ускоритель для большой. В итоге получаем меньше затрат, больше скорости и то же качество.
- быстрее, чем обычная спекулятивная декодировка
- дешевле и качественнее, чем каскады
- удобнее настраивать баланс «скорость ↔ качество»
При том же уровне качества, что и у спекулятивной декодировки, новый метод работает быстрее (генерирует больше токенов за один вызов большой модели).
А в задачах математических рассуждений получен явный апгрейд по скорости при сохранении или даже улучшении качества.
LLM всё чаще используются в поиске, чатах, ассистентах. Чтобы они реально были полезными, их нужно ускорять и удешевлять. *Speculative cascades* помогают это сделать без потери качества.
🔗 Подробнее: https://research.google/blog/speculative-cascades-a-hybrid-approach-for-smarter-faster-llm-inference/
@ai_machinelearning_big_data
#AI #LLM #Inference #SpeculativeDecoding #Cascades #GoogleResearch
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍3💩1💔1
Почему нужно подать заявку на Студкемп по математике в ИИ от Яндекс Образования в СПбГУ по этой ссылке? 🤔
Потому что это:
1️⃣ Возможность пообщаться с экспертами из ШАД, СПбГУ и Яндекс Образования
2️⃣ Перспектива подключиться к научным исследованиям по математике и ИИ
3️⃣ Потенциал получить глубокий математический взгляд на ML
4️⃣ Обработка теоретических и практических профессиональных знаний
5️⃣ Можно продолжать до бесконечности…
И это точно нельзя упускать! Ведь даже проезд и проживание оплатит Яндекс Образование 💙
Приём заявок открыт до 21 сентября — не теряем время.
Потому что это:
1️⃣ Возможность пообщаться с экспертами из ШАД, СПбГУ и Яндекс Образования
2️⃣ Перспектива подключиться к научным исследованиям по математике и ИИ
3️⃣ Потенциал получить глубокий математический взгляд на ML
4️⃣ Обработка теоретических и практических профессиональных знаний
5️⃣ Можно продолжать до бесконечности…
И это точно нельзя упускать! Ведь даже проезд и проживание оплатит Яндекс Образование 💙
Приём заявок открыт до 21 сентября — не теряем время.
🔥3❤2
🌟 Lumina-DiMOO
Lumina-DiMOO — это передовая модель, использующая дискретную диффузию для обработки мультимодальных задач, таких как генерация изображений и их редактирование.
Она демонстрирует высокую эффективность и превосходит существующие решения по множеству показателей.
🚀Основные моменты:
- Унифицированная архитектура для различных модальностей.
- Поддержка текстово-изображенческой генерации и понимания.
- Увеличенная скорость выборки с помощью кэширования.
- Достижение состояния искусства в нескольких бенчмарках.
📌 GitHub: https://github.com/Alpha-VLLM/Lumina-DiMOO
#python
Lumina-DiMOO — это передовая модель, использующая дискретную диффузию для обработки мультимодальных задач, таких как генерация изображений и их редактирование.
Она демонстрирует высокую эффективность и превосходит существующие решения по множеству показателей.
🚀Основные моменты:
- Унифицированная архитектура для различных модальностей.
- Поддержка текстово-изображенческой генерации и понимания.
- Увеличенная скорость выборки с помощью кэширования.
- Достижение состояния искусства в нескольких бенчмарках.
📌 GitHub: https://github.com/Alpha-VLLM/Lumina-DiMOO
#python
GitHub
GitHub - Alpha-VLLM/Lumina-DiMOO: Lumina-DiMOO - An Open-Sourced Multi-Modal Large Diffusion Language Model
Lumina-DiMOO - An Open-Sourced Multi-Modal Large Diffusion Language Model - Alpha-VLLM/Lumina-DiMOO
💩1
Как выучить вышмат за 1 вечер? 😨
Никак. Ведь в первую очередь важно научиться понимать математику. Это позволит не только быстро восстанавливать известные факты, но и адаптировать их под свои задачи и цели!
И поможет вам в этом единственный канал в телеграме о высшей математике. Его автор - выпускник СПБГУ, а ныне — аспирант РАН, преподаватель теории вероятностей и математического анализа.
На простом языке разбирает сложные вещи, даёт шпаргалки и проводит регулярные консультации по высшей математике 📈
Находка для студентов и тех, кому нужен вышмат по работе. От полезных материалов и книг до ответов на вопросы и уроков по подготовке к олимпиадам, собеседованиям, вступительным испытаниям.
Посмотрите сами 👉 @lav_math
Никак. Ведь в первую очередь важно научиться понимать математику. Это позволит не только быстро восстанавливать известные факты, но и адаптировать их под свои задачи и цели!
И поможет вам в этом единственный канал в телеграме о высшей математике. Его автор - выпускник СПБГУ, а ныне — аспирант РАН, преподаватель теории вероятностей и математического анализа.
На простом языке разбирает сложные вещи, даёт шпаргалки и проводит регулярные консультации по высшей математике 📈
Находка для студентов и тех, кому нужен вышмат по работе. От полезных материалов и книг до ответов на вопросы и уроков по подготовке к олимпиадам, собеседованиям, вступительным испытаниям.
Посмотрите сами 👉 @lav_math
🤡14❤5🔥2🎉1
Forwarded from DevOps
This media is not supported in your browser
VIEW IN TELEGRAM
🎮 DOOMscrolling: The Game
Думскроллинг превратился в игру! Энтузиаст сделал пародию на DOOM, где вместо стрелялки — бесконечная лента новостей.
⚡ Как играть:
- листаешь вниз/вверх → так двигается персонаж
- на пути — монстры, оружие с апгрейдами, ловушки и даже стена огня, которая подгоняет вперёд
- сверху накладываются реальные заголовки из RSS
В итоге получается безумный микс: привычный думскроллинг, но теперь он реально «убивает».
👉 Попробовать: https://gisnep.com/doomscroll/?ref=ironicsans.ghost.io
Думскроллинг превратился в игру! Энтузиаст сделал пародию на DOOM, где вместо стрелялки — бесконечная лента новостей.
⚡ Как играть:
- листаешь вниз/вверх → так двигается персонаж
- на пути — монстры, оружие с апгрейдами, ловушки и даже стена огня, которая подгоняет вперёд
- сверху накладываются реальные заголовки из RSS
В итоге получается безумный микс: привычный думскроллинг, но теперь он реально «убивает».
👉 Попробовать: https://gisnep.com/doomscroll/?ref=ironicsans.ghost.io
❤🔥4
This media is not supported in your browser
VIEW IN TELEGRAM
🔍 Интерактивный визуальный гид по математике и алгоритмам через концепты геймдева
Это отличный ресурс, где сложные идеи показываются через визуализацию и примеры из геймдева.
💡 Особое внимание главам про теорию графов
- визуализация узлов, рёбер, путей
- алгоритмы поиска: DFS, BFS, A*
- минимальные остовные деревья и прочие структурные концепты
Если хочешь, могу собрать подборку самых полезных страниц/статей с Red Blob Games про графы, которые стоит сохранить.
https://redblobgames.com
Это отличный ресурс, где сложные идеи показываются через визуализацию и примеры из геймдева.
💡 Особое внимание главам про теорию графов
- визуализация узлов, рёбер, путей
- алгоритмы поиска: DFS, BFS, A*
- минимальные остовные деревья и прочие структурные концепты
Если хочешь, могу собрать подборку самых полезных страниц/статей с Red Blob Games про графы, которые стоит сохранить.
https://redblobgames.com
❤10😁7👍4
📐 Генерируйте пошаговую LaTeX-документацию прямо из Python-кода с помощью handcalcs
Показывать промежуточные шаги расчёта — критично для отчётов и верификации: так стейкхолдеры видят логику, а не только итоговое число. Писать LaTeX вручную для каждого шага — долго и рутинно. handcalcs снимает эту боль: он автоматически превращает ваш Python-код в понятные математические выкладки (с формулами и подстановками), готовые для вставки в отчёт, ноутбук или публикацию.
Зачем это нужно
• инженерные записки и техотчёты с проверяемыми шагами
• документация к моделям данных и расчётам в DS/ML
• учебные материалы и туториалы с «развёрнутыми» формулами
Как это выглядит на практике
Подсказки к использованию
• держите формулы в чистом виде: переменные и выражения — внутри функций, без «магических» чисел
• для отчётов экспортируйте LaTeX-строки в файл и подключайте в шаблон (или вставляйте в Markdown с MathJax)
• фиксируйте входные параметры: handcalcs красиво покажет подстановку значений и все промежуточные шаги
Итог: вы пишете расчёты один раз на Python, а читатели получают понятные формулы со всеми шагами — быстро, прозрачно и без ручного набора LaTeX.
Показывать промежуточные шаги расчёта — критично для отчётов и верификации: так стейкхолдеры видят логику, а не только итоговое число. Писать LaTeX вручную для каждого шага — долго и рутинно. handcalcs снимает эту боль: он автоматически превращает ваш Python-код в понятные математические выкладки (с формулами и подстановками), готовые для вставки в отчёт, ноутбук или публикацию.
Зачем это нужно
• инженерные записки и техотчёты с проверяемыми шагами
• документация к моделям данных и расчётам в DS/ML
• учебные материалы и туториалы с «развёрнутыми» формулами
Как это выглядит на практике
# pip install handcalcs
from math import pi
from handcalcs.decorator import handcalc
# handcalcs возьмёт выражения внутри функции и сгенерирует пошаговые формулы
@handcalc()
def circle_area(r):
A = pi * r**2
return A
latex_output = circle_area(3) # возвращает LaTeX со всеми шагами: A = π·r^2 → подстановка → результат
print(latex_output)
# Пример для инженерной механики
@handcalc()
def bending_stress(F, L, b, h):
I = b * h**3 / 12
M = F * L
y = h / 2
sigma = M * y / I
return sigma
print(bending_stress(F=1500, L=2.0, b=0.05, h=0.02))
Подсказки к использованию
• держите формулы в чистом виде: переменные и выражения — внутри функций, без «магических» чисел
• для отчётов экспортируйте LaTeX-строки в файл и подключайте в шаблон (или вставляйте в Markdown с MathJax)
• фиксируйте входные параметры: handcalcs красиво покажет подстановку значений и все промежуточные шаги
Итог: вы пишете расчёты один раз на Python, а читатели получают понятные формулы со всеми шагами — быстро, прозрачно и без ручного набора LaTeX.
❤11👍7🔥4🤝3
Выбираешь вуз? Давай разберёмся!
Если завис на последнем варианте – тебе в ЦЭ-500 👈
Рассказываем, как выбрать перспективную специальность и сразу после выпуска попасть на крутое предприятие.
#реклама
О рекламодателе
Если завис на последнем варианте – тебе в ЦЭ-500 👈
Рассказываем, как выбрать перспективную специальность и сразу после выпуска попасть на крутое предприятие.
#реклама
О рекламодателе
🏆1
This media is not supported in your browser
VIEW IN TELEGRAM
Ряд Тейлора - это мощный инструмент в математическом анализе, который позволяет представить гладкую функцию в виде бесконечной суммы её производных в одной точке.
По сути, он даёт способ приближать сложные функции с помощью многочленов. Каждый член ряда включает производную более высокого порядка, вычисленную в выбранной точке, и умноженную на соответствующую степень переменной.
Вблизи этой точки многочлен Тейлора точно повторяет поведение исходной функции, и чем больше членов ряда учитывать, тем точнее становится приближение. Эта концепция является фундаментальной как в теоретической, так и в прикладной математике - от решения дифференциальных уравнений до работы алгоритмов в численном анализе и физике.
По сути, он даёт способ приближать сложные функции с помощью многочленов. Каждый член ряда включает производную более высокого порядка, вычисленную в выбранной точке, и умноженную на соответствующую степень переменной.
Вблизи этой точки многочлен Тейлора точно повторяет поведение исходной функции, и чем больше членов ряда учитывать, тем точнее становится приближение. Эта концепция является фундаментальной как в теоретической, так и в прикладной математике - от решения дифференциальных уравнений до работы алгоритмов в численном анализе и физике.
❤🔥29❤2