Лучшие репозитории GitHub для изучения ИИ с нуля в 2026 году:
1. Андрей Карпаты
https://github.com/karpathy/nn-zero-to-hero
2. Hugging Face Transformers
https://github.com/huggingface/transformers
3. FastAI/fastb
https://github.com/fastai/fastbook
4. Made-With-ML
https://github.com/GokuMohandas/Made-With-ML
5. ML System Design
https://github.com/chiphuyen/machine-learning-systems-design
6. Awesome Generative AI guide(
https://github.com/aishwaryanr/awesome-generative-ai-guide
7. Dive into Deep Learning
https://github.com/d2l-ai/d2l-en
👉 @PythonPortal
1. Андрей Карпаты
https://github.com/karpathy/nn-zero-to-hero
2. Hugging Face Transformers
https://github.com/huggingface/transformers
3. FastAI/fastb
https://github.com/fastai/fastbook
4. Made-With-ML
https://github.com/GokuMohandas/Made-With-ML
5. ML System Design
https://github.com/chiphuyen/machine-learning-systems-design
6. Awesome Generative AI guide(
https://github.com/aishwaryanr/awesome-generative-ai-guide
7. Dive into Deep Learning
https://github.com/d2l-ai/d2l-en
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10👍3
Топ-5 алгоритмов rate limiting, которые стоит знать:
➡️ Token Bucket
Ведро пополняется токенами с фиксированной скоростью. Каждый запрос съедает 1 токен.
Если токенов нет (ведро пустое) -> запрос троттлится.
Отлично, когда надо разрешить короткие всплески, но держать среднюю скорость запросов.
➡️ Fixed Window Counter
Делит время на фиксированные окна (например, по минуте).
Считает запросы в текущем окне. Если счётчик превысил лимит -> блок.
Просто внедрить, но есть проблема со всплесками на границах окон.
➡️ Leaky Bucket
Представь очередь, которая “протекает” с постоянной скоростью.
Если новые запросы переполняют очередь -> они дропаются.
На выходе получается ровный, предсказуемый поток запросов.
➡️ Sliding Window Log
Хранит timestamp для каждого запроса.
На каждый новый запрос выкидывает старые timestamp’ы за пределами окна и считает оставшиеся.
Очень точно, но дороговато по памяти на больших объёмах.
➡️ Sliding Window Counter
Гибрид Fixed Window и Log.
Делит окно на мелкие бакеты и считает скорость через взвешенную сумму.
Хороший баланс точности и расхода памяти.
Какой из них вы чаще всего используете в проде?
👉 @PythonPortal
Ведро пополняется токенами с фиксированной скоростью. Каждый запрос съедает 1 токен.
Если токенов нет (ведро пустое) -> запрос троттлится.
Отлично, когда надо разрешить короткие всплески, но держать среднюю скорость запросов.
Делит время на фиксированные окна (например, по минуте).
Считает запросы в текущем окне. Если счётчик превысил лимит -> блок.
Просто внедрить, но есть проблема со всплесками на границах окон.
Представь очередь, которая “протекает” с постоянной скоростью.
Если новые запросы переполняют очередь -> они дропаются.
На выходе получается ровный, предсказуемый поток запросов.
Хранит timestamp для каждого запроса.
На каждый новый запрос выкидывает старые timestamp’ы за пределами окна и считает оставшиеся.
Очень точно, но дороговато по памяти на больших объёмах.
Гибрид Fixed Window и Log.
Делит окно на мелкие бакеты и считает скорость через взвешенную сумму.
Хороший баланс точности и расхода памяти.
Какой из них вы чаще всего используете в проде?
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤5
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣73👍6🔥2❤1👀1
Расширенный алгоритм Евклида.
1) Что такое расширенный алгоритм Евклида
Для двух целых чисел a и b и их НОД, то есть gcd(a, b), выполняется линейное уравнение с двумя переменными:
a·x + b·y = gcd(a, b) (1)
Расширенный алгоритм Евклида это способ найти одну пару целочисленных решений (x, y), которая удовлетворяет (1).
2) Алгоритм расширенного алгоритма Евклида
Перед тем как перейти к сути, вспомним обычный алгоритм Евклида.
Для двух целых a и b следующими шагами получаем:
gcd(a, b) = rₙ (2)
Сама цепочка делений с остатком:
a = b·q₀ + r₀
b = r₀·q₁ + r₁
r₀ = r₁·q₂ + r₂
...
rₙ₋₂ = rₙ₋₁·qₙ + rₙ
rₙ₋₁ = rₙ·qₙ₊₁
Теперь посмотрим на первую строку:
a = b·q₀ + r₀
r₀ = a − b·q₀
То есть r₀ можно выразить как линейную комбинацию a и b.
Подставим это во вторую строку:
b = r₀·q₁ + r₁
b = (a − b·q₀)·q₁ + r₁
b = a·q₁ − b·q₀·q₁ + r₁
r₁ = −a·q₁ + b·(q₀·q₁ + 1)
Получается, r₁ тоже выражается через a и b.
Если повторять эту операцию, то каждый rᵢ (0 ≤ i ≤ n) можно представить как сумму кратных a и b.
Значит, в конце:
rₙ = k·a + l·b
А из (2) получаем:
k·a + b·l = gcd(a, b) (3)
Это та же форма, что и (1). Сравнивая (1) и (3), получаем:
(x, y) = (k, l)
и эти k и l будут одной из пар целочисленных решений.
3) Реализация расширенного алгоритма Евклида
Опираясь на вышеописанное, реализуем расширенный алгоритм Евклида:
Очень просто, правда?
Ну всё. Пока.🛌
👉 @PythonPortal
1) Что такое расширенный алгоритм Евклида
Для двух целых чисел a и b и их НОД, то есть gcd(a, b), выполняется линейное уравнение с двумя переменными:
a·x + b·y = gcd(a, b) (1)
Расширенный алгоритм Евклида это способ найти одну пару целочисленных решений (x, y), которая удовлетворяет (1).
2) Алгоритм расширенного алгоритма Евклида
Перед тем как перейти к сути, вспомним обычный алгоритм Евклида.
Для двух целых a и b следующими шагами получаем:
gcd(a, b) = rₙ (2)
Сама цепочка делений с остатком:
a = b·q₀ + r₀
b = r₀·q₁ + r₁
r₀ = r₁·q₂ + r₂
...
rₙ₋₂ = rₙ₋₁·qₙ + rₙ
rₙ₋₁ = rₙ·qₙ₊₁
Теперь посмотрим на первую строку:
a = b·q₀ + r₀
r₀ = a − b·q₀
То есть r₀ можно выразить как линейную комбинацию a и b.
Подставим это во вторую строку:
b = r₀·q₁ + r₁
b = (a − b·q₀)·q₁ + r₁
b = a·q₁ − b·q₀·q₁ + r₁
r₁ = −a·q₁ + b·(q₀·q₁ + 1)
Получается, r₁ тоже выражается через a и b.
Если повторять эту операцию, то каждый rᵢ (0 ≤ i ≤ n) можно представить как сумму кратных a и b.
Значит, в конце:
rₙ = k·a + l·b
А из (2) получаем:
k·a + b·l = gcd(a, b) (3)
Это та же форма, что и (1). Сравнивая (1) и (3), получаем:
(x, y) = (k, l)
и эти k и l будут одной из пар целочисленных решений.
3) Реализация расширенного алгоритма Евклида
Опираясь на вышеописанное, реализуем расширенный алгоритм Евклида:
# extended_eucledean.py
def extended_eucledean(a, b):
if b == 0:
return (1, 0)
else:
xd, yd = extended_euclid(b, a % b)
return (yd, xd - a // b * yd)
Очень просто, правда?
Ну всё. Пока.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥15🤯9❤8👍2🤣1
Теперь можно парсить почти любой документ одной моделью на 1.7B параметров.
Она называется dots-ocr. Одна система, которая умеет работать с текстом, таблицами, формулами, изображениями и PDF на 100+ языках.
Без отдельного OCR-пайплайна. Без моделей под конкретные задачи.
100% исходный код👏
👉 @PythonPortal
Она называется dots-ocr. Одна система, которая умеет работать с текстом, таблицами, формулами, изображениями и PDF на 100+ языках.
Без отдельного OCR-пайплайна. Без моделей под конкретные задачи.
100% исходный код
Please open Telegram to view this post
VIEW IN TELEGRAM
❤22👍9
Клонируй любой голос по 5-секундному аудиоклипу.
VoxCPM это open-source проект, который делает TTS принципиально иначе.
большинство TTS-систем сначала переводят речь в дискретные токены. это становится бутылочным горлышком и ограничивает, насколько “живым” может быть звук.
VoxCPM вообще пропускает токенизацию. он моделирует аудио в непрерывном пространстве через end-to-end diffusion autoregressive архитектуру.
в итоге получается речь, которая реально звучит по-человечески.
вот что в нем особенного:
> контекстно-зависимая генерация: читает текст и сам подбирает нужную просодию, эмоцию и темп. ручной тюнинг не нужен.
> zero-shot клонирование голоса: даешь короткий аудиоклип, и он ловит не только тембр, но и акцент, ритм и эмоциональный окрас.
модель обучали на 1.8 млн часов билингвальных данных (английский и китайский)
* поддерживает streaming synthesis
* работает и с full fine-tuning, и с LoRA
* простой Python API:
VoxCPM1.5 гоняет на 44.1kHz sampling rate и имеет 800M параметров. поэтому звук заметно более четкий и натуральный.
лицензия Apache-2.0
👉 @PythonPortal
VoxCPM это open-source проект, который делает TTS принципиально иначе.
большинство TTS-систем сначала переводят речь в дискретные токены. это становится бутылочным горлышком и ограничивает, насколько “живым” может быть звук.
VoxCPM вообще пропускает токенизацию. он моделирует аудио в непрерывном пространстве через end-to-end diffusion autoregressive архитектуру.
в итоге получается речь, которая реально звучит по-человечески.
вот что в нем особенного:
> контекстно-зависимая генерация: читает текст и сам подбирает нужную просодию, эмоцию и темп. ручной тюнинг не нужен.
> zero-shot клонирование голоса: даешь короткий аудиоклип, и он ловит не только тембр, но и акцент, ритм и эмоциональный окрас.
модель обучали на 1.8 млн часов билингвальных данных (английский и китайский)
* поддерживает streaming synthesis
* работает и с full fine-tuning, и с LoRA
* простой Python API:
pip install voxcpmVoxCPM1.5 гоняет на 44.1kHz sampling rate и имеет 800M параметров. поэтому звук заметно более четкий и натуральный.
лицензия Apache-2.0
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5💊5👍2😢1