Математика Дата саентиста
13.7K subscribers
422 photos
135 videos
37 files
362 links
Download Telegram
🔢 Качество математических данных — ключ к развитию reasoning-моделей.

Но тут есть проблема: лучшие данные скрыты в старых научных статьях, а OCR математики — это настоящий кошмар: куча исключений, форматы, языки.

👉 Даже GPT-5 при распознавании путает F с τ (маленькая правка в символе, но огромная смысловая разница) и ломает форматирование.

Исследования (*deepseek-math, NVIDIA Nemotron*) подтверждают: предобучение на математике критично для улучшения рассуждений LLM. Работа HuggingFace над *smollm* показала, что фильтрация токенов с 34B → 10B только по качеству повысила результативность.

⚠️ Для хорошего математического корпуса OCR должен быть почти 100% точным, справляться с разными языками и макетами страниц.

💡 Обычно используют MathPix — он неплох, но дорогой, медленный и закрытый.
Хорошие новости: за последние месяцы open-source модели обошли MathPix.

Marker уже показывает SoTA на бенчмарке *olmocr* по математике.
Внутренние тесты в tier-1 AI-лаборатории: лучше MathPix.
Минимальные ошибки даже на китайских статьях, где GPT-5 «сдавался».

📌 Репозитории:
- Marker → https://github.com/datalab-to/marker
- Surya → https://github.com/datalab-to/surya

Персонализация и on-prem кастомизация тоже доступны — разработчики открыты к диалогу.

Открытые решения для математического OCR двигаются быстрее, чем кажется.
👍65🔥2
💡 Новая физика: “тёмный свет”

Учёные предложили квантовую теорию, которая утверждает: даже в темноте есть свет.

📌 Раньше считалось, что «тёмные зоны» возникают, когда световые волны гасят друг друга и там пусто.
🔬 Теперь же физики говорят: фотоны остаются, но переходят в «тёмное квантовое состояние» — они существуют, но их невозможно увидеть.

Как это работает:
- Свет — это смесь «ярких» и «тёмных» состояний.
- В ярком состоянии фотоны взаимодействуют с детекторами и становятся видимыми.
- В тёмном — остаются скрытыми, хотя никуда не исчезают.
- Сам акт наблюдения переводит фотон из тёмного в яркое состояние — и именно тогда возникает видимый результат.

⚡️ Это переосмысление может объяснить старые парадоксы квантовой механики и открыть путь к технологиям, которые будут уметь обнаруживать и управлять скрытыми состояниями света.

📌 Источник: https://journals.aps.org/prl/abstract/10.1103/PhysRevLett.134.133603
5😁3👍2👎2🤔1
🔥Авито открыл набор на стажировку для тех, кто хочет прокачаться в ML и работать в одной из самых технологичных DS-команд!

Развивайте уникальные продукты и получите шанс продолжить свой путь в Авито по результатам программы — подробнее в карточках.


Отправляйте заявку до 15 сентября: https://u.to/FpdXIg
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
💩4👎21🔥1😁1
Forwarded from Machinelearning
Speculative Cascades — как ускорить работу LLM

Google Research придумали новый способ сделать большие языковые модели быстрее и дешевле.

Что это такое:
🔹 Каскады
Сначала отвечает маленькая модель. Если задача слишком сложная - подключается большая. Так экономятся ресурсы, но качество может прыгать.

🔹 Спекулятивная декодировка
Маленькая модель угадывает сразу несколько слов вперёд. Большая быстро проверяет данные и подтверждает. Скорость выше, но большая модель всё равно тратит много ресурсов.

🟢 Speculative Cascades
Это комбинация: маленькая модель иногда отвечает полностью сама, а иногда используется как ускоритель для большой. В итоге получаем меньше затрат, больше скорости и то же качество.

🔥Что показали тесты (тестили на Gemma, T5):
- быстрее, чем обычная спекулятивная декодировка
- дешевле и качественнее, чем каскады
- удобнее настраивать баланс «скорость качество»

При том же уровне качества, что и у спекулятивной декодировки, новый метод работает быстрее (генерирует больше токенов за один вызов большой модели).

А в задачах математических рассуждений получен явный апгрейд по скорости при сохранении или даже улучшении качества.

LLM всё чаще используются в поиске, чатах, ассистентах. Чтобы они реально были полезными, их нужно ускорять и удешевлять. *Speculative cascades* помогают это сделать без потери качества.

🔗 Подробнее: https://research.google/blog/speculative-cascades-a-hybrid-approach-for-smarter-faster-llm-inference/

@ai_machinelearning_big_data


#AI #LLM #Inference #SpeculativeDecoding #Cascades #GoogleResearch
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍3💩1💔1
Почему нужно подать заявку на Студкемп по математике в ИИ от Яндекс Образования в СПбГУ по этой ссылке? 🤔

Потому что это:
1️⃣ Возможность пообщаться с экспертами из ШАД, СПбГУ и Яндекс Образования
2️⃣ Перспектива подключиться к научным исследованиям по математике и ИИ
3️⃣ Потенциал получить глубокий математический взгляд на ML
4️⃣ Обработка теоретических и практических профессиональных знаний
5️⃣ Можно продолжать до бесконечности…

И это точно нельзя упускать! Ведь даже проезд и проживание оплатит Яндекс Образование 💙
Приём заявок открыт до 21 сентября — не теряем время.
🔥32
🌟 Lumina-DiMOO

Lumina-DiMOO — это передовая модель, использующая дискретную диффузию для обработки мультимодальных задач, таких как генерация изображений и их редактирование.

Она демонстрирует высокую эффективность и превосходит существующие решения по множеству показателей.

🚀Основные моменты:
- Унифицированная архитектура для различных модальностей.
- Поддержка текстово-изображенческой генерации и понимания.
- Увеличенная скорость выборки с помощью кэширования.
- Достижение состояния искусства в нескольких бенчмарках.

📌 GitHub: https://github.com/Alpha-VLLM/Lumina-DiMOO

#python
💩1
Как выучить вышмат за 1 вечер? 😨

Никак. Ведь в первую очередь важно научиться понимать математику. Это позволит не только быстро восстанавливать известные факты, но и адаптировать их под свои задачи и цели!

И поможет вам в этом единственный канал в телеграме о высшей математике. Его автор - выпускник СПБГУ, а ныне — аспирант РАН, преподаватель теории вероятностей и математического анализа.

На простом языке разбирает сложные вещи, даёт шпаргалки и проводит регулярные консультации по высшей математике 📈

Находка для студентов и тех, кому нужен вышмат по работе. От полезных материалов и книг до ответов на вопросы и уроков по подготовке к олимпиадам, собеседованиям, вступительным испытаниям.
Посмотрите сами 👉 @lav_math
🤡145🔥2🎉1
Forwarded from DevOps
This media is not supported in your browser
VIEW IN TELEGRAM
🎮 DOOMscrolling: The Game

Думскроллинг превратился в игру! Энтузиаст сделал пародию на DOOM, где вместо стрелялки — бесконечная лента новостей.

Как играть:
- листаешь вниз/вверх → так двигается персонаж
- на пути — монстры, оружие с апгрейдами, ловушки и даже стена огня, которая подгоняет вперёд
- сверху накладываются реальные заголовки из RSS

В итоге получается безумный микс: привычный думскроллинг, но теперь он реально «убивает».

👉 Попробовать: https://gisnep.com/doomscroll/?ref=ironicsans.ghost.io
❤‍🔥4
This media is not supported in your browser
VIEW IN TELEGRAM
🔍 Интерактивный визуальный гид по математике и алгоритмам через концепты геймдева

Это отличный ресурс, где сложные идеи показываются через визуализацию и примеры из геймдева.

💡 Особое внимание главам про теорию графов
- визуализация узлов, рёбер, путей
- алгоритмы поиска: DFS, BFS, A*
- минимальные остовные деревья и прочие структурные концепты

Если хочешь, могу собрать подборку самых полезных страниц/статей с Red Blob Games про графы, которые стоит сохранить.

https://redblobgames.com
10😁7👍4
📐 Генерируйте пошаговую LaTeX-документацию прямо из Python-кода с помощью handcalcs

Показывать промежуточные шаги расчёта — критично для отчётов и верификации: так стейкхолдеры видят логику, а не только итоговое число. Писать LaTeX вручную для каждого шага — долго и рутинно. handcalcs снимает эту боль: он автоматически превращает ваш Python-код в понятные математические выкладки (с формулами и подстановками), готовые для вставки в отчёт, ноутбук или публикацию.

Зачем это нужно
• инженерные записки и техотчёты с проверяемыми шагами
• документация к моделям данных и расчётам в DS/ML
• учебные материалы и туториалы с «развёрнутыми» формулами

Как это выглядит на практике


# pip install handcalcs

from math import pi
from handcalcs.decorator import handcalc

# handcalcs возьмёт выражения внутри функции и сгенерирует пошаговые формулы
@handcalc()
def circle_area(r):
A = pi * r**2
return A

latex_output = circle_area(3) # возвращает LaTeX со всеми шагами: A = π·r^2 → подстановка → результат
print(latex_output)

# Пример для инженерной механики
@handcalc()
def bending_stress(F, L, b, h):
I = b * h**3 / 12
M = F * L
y = h / 2
sigma = M * y / I
return sigma

print(bending_stress(F=1500, L=2.0, b=0.05, h=0.02))


Подсказки к использованию
• держите формулы в чистом виде: переменные и выражения — внутри функций, без «магических» чисел
• для отчётов экспортируйте LaTeX-строки в файл и подключайте в шаблон (или вставляйте в Markdown с MathJax)
• фиксируйте входные параметры: handcalcs красиво покажет подстановку значений и все промежуточные шаги

Итог: вы пишете расчёты один раз на Python, а читатели получают понятные формулы со всеми шагами — быстро, прозрачно и без ручного набора LaTeX.
11👍7🔥4🤝3
Выбираешь вуз? Давай разберёмся!

Если завис на последнем варианте – тебе в ЦЭ-500 👈

Рассказываем, как выбрать перспективную специальность и сразу после выпуска попасть на крутое предприятие.

#реклама
О рекламодателе
🏆1
This media is not supported in your browser
VIEW IN TELEGRAM
Ряд Тейлора - это мощный инструмент в математическом анализе, который позволяет представить гладкую функцию в виде бесконечной суммы её производных в одной точке.

По сути, он даёт способ приближать сложные функции с помощью многочленов. Каждый член ряда включает производную более высокого порядка, вычисленную в выбранной точке, и умноженную на соответствующую степень переменной.

Вблизи этой точки многочлен Тейлора точно повторяет поведение исходной функции, и чем больше членов ряда учитывать, тем точнее становится приближение. Эта концепция является фундаментальной как в теоретической, так и в прикладной математике - от решения дифференциальных уравнений до работы алгоритмов в численном анализе и физике.
❤‍🔥292