Сохранёнки программиста
6.84K subscribers
1.1K photos
50 videos
10 files
1.64K links
Заметки и ссылки на будущее, чтобы изучить когда будет время.

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels

Другие наши проекты: https://tprg.ru/med
Download Telegram
📎 One Billion Row Challenge — челлендж, который взорвал твиттер в начале года: обработать файл с миллиардом строк температурных измерений и посчитать min/max/avg для каждой станции.

Самое ценное — не сам челлендж, а разборы решений. Статья от QuestDB показывает путь от наивных 71 секунды до 1.7 секунды: SIMD, branchless-парсинг, memory-mapped files, кастомные хеш-таблицы. Есть аналогичные разборы для Go и Python (от 10 минут до 4 секунд через Polars).​

Идеальный материал, чтобы разобраться как реально работает низкоуровневая оптимизация — branch prediction, cache locality, SIMD. Сохраняйте на выходные.

@prog_stuff
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥51
RetroAssembly — опенсорсный веб-кабинет ретро-игр. Открываете страницу, закидываете ROM-ы, играете. Прогресс сохраняется и синхронизируется между устройствами.​

Можно поднять self-hosted через Docker. Эмуляция происходит прямо в браузере, NAS только хранит файлы. Есть тёмная тема, полноэкранный режим, автозагрузка последнего сейва.

Если хотите глубже — под капотом libretro/RetroArch, скомпилированный в WebAssembly. Похожий подход использует PCjs, где можно запустить DOS, Windows 3.1, OS/2 и даже поиграть в оригинальный Spacewar! на эмуляторе PDP-1.

@prog_stuff
👍21
Как создать свой язык программирования — подборка на сохранение:

🔘Видео от Computerphile — 15-минутный разбор как написать интерпретатор с нуля, объясняет Laurie Tratt из King's College​

🔘Плейлист Building a Parser from scratch — полный курс: лексер → парсер → AST → интерпретатор → компилятор в ассемблер​

🔘Nand2Tetris — легендарный курс, где вы строите компьютер от логических вентилей до ОС и компилятора своего языка. Занимает ~6 месяцев, но после него вы понимаете всё​

Для тех, кто давно хотел разобраться как работают языки изнутри, но руки не доходили.

@prog_stuff
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍1
Крутой шаблон для README на GitHub, забирать здесь. Есть немного доработанный форк.

@prog_stuff
6
65 идей новогодних подарков для айтишников

Tproger собрал подборку по категориям: эргономичные аксессуары для работы, гаджеты, товары для сна и креативный мерч. Всё со ссылками на маркетплейсы и разбито по ценам:
🔘до 1000 ₽;
🔘от 1000 до 3000 ₽;
🔘больше 3000 ₽.

Пригодится для тайного Санты в команде или если не знаете, что дарить знакомому разработчику / сисадмину / тимлиду.

@prog_stuff
Please open Telegram to view this post
VIEW IN TELEGRAM
🎄1
Инструмент, который создаёт страницы ошибок, выглядящие точь-в-точь как настоящие от Cloudflare. Можно кастомизировать и встроить на свой сайт.​

Зачем это нужно? Во-первых, ни за чем, просто весело. Во-вторых, чисто визуально это хорошее решение на самом деле, привычное для юзера. Можно иконки заменить и в понятном стиле показывать юзерам когда что-то пошло не так.

Как использовать
1️⃣Python-библиотека:
pip install cloudflare-error-page


2️⃣Есть визуальный редактор, где можно просто натыкать статусы и тексты.

📎 GitHub

@prog_stuff
Please open Telegram to view this post
VIEW IN TELEGRAM
😁5🌚2👍1
Forwarded from Нейроканал
SMOL_секреты_создания_LLM_мирового_класса_Перевод_t_me_aivkube.pdf
14.6 MB
Сергей Долгов перевёл «The Smol Training Playbook» — самую популярную публикацию на HuggingFace о том, как создают, тренируют и дообучают языковые модели.

➡️ Что внутри

🔘Архитектура: MHA → GQA → MLA, позиционные кодировки (RoPE, NoPE), почему DeepSeek выбрал именно такие решения

🔘Претрейн: как собирать данные, выбирать learning rate, batch size, schedulers (WSD vs Cosine vs Multi-Step)

🔘Scaling laws: сколько данных нужно для модели N параметров, как считать FLOPs

🔘Post-training: SFT, DPO, GRPO, RLVR — когда что использовать и почему on-policy лучше off-policy

🔘Практика: как команда SmolLM3 обучала модель на 384×H100 за 11 триллионов токенов

➡️ Для кого
Для тех, кто хочет понять, как реально устроен процесс обучения LLM — не на уровне «скачал модель с HuggingFace», а на уровне «почему GQA ratio 4, а не 8» и «когда WSD лучше cosine decay».

Сергею — огромное спасибо за качественную вёрстку и время на перевод. Настольная книга для всех, кто копает в сторону ML.

📎 Оригинал на HF, версия на русском в прикреплённой PDF.

@neuro_channel
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍1
Computer History Museum выложил исходный код Adobe Photoshop 1.0.1 (1990) для некоммерческого использования. Можно скачать и покопаться — с разрешения Adobe.

➡️ История

Томас Нолл писал программу для отображения картинок, пока работал над PhD по компьютерному зрению в Мичигане. Брат Джон работал в Industrial Light & Magic и начал юзать её для редактирования фото. В 1988-м поняли, что это можно продавать, назвали Photoshop. Adobe купила лицензию в апреле 1989-го, версия 1.0 вышла в начале 1990-го.

➡️ Что внутри

🔘179 файлов, ~128 000 строк
🔘75% — Pascal, 15% — ассемблер Motorola 68000
🔘Почти без комментариев, но структура чистая

Версию 1.0 писал один инженер (Томас), на 2.0 — уже двое. Джон делал плагины обработки изображений

➡️ Зачем смотреть

Grady Booch (Chief Scientist в IBM Research) сказал: «Исходный код — это литература для computer scientists. Его надо изучать и ценить». Редкий шанс посмотреть, как выглядел production-код того времени — когда 3 млн копий продавали силами двух человек.

@prog_stuff
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥31
Anna's Archive (известны бэкапом книг и научных статей) заявили, что скачали почти весь Spotify: 256 млн треков метаданных, 86 млн аудиофайлов — это 99,6% всех прослушиваний. Раздаётся торрентами (пока только мета-данные, обещают постепенно выкладывают).

➡️ Зачем
Позиционируют как «архив на всякий случай». Популярная музыка бэкапится хорошо, но редкие треки могут исчезнуть, если платформа потеряет лицензии. Нет единого открытого архива музыки, как для книг.

Spotify, конечно, такой ход не оценил. Но есть нюансы.

1️⃣ Ирония #1: Spotify сам так начинался

Забавно требовать уважения к копирайту от платформы, которая в ранние годы индексировала пиратские MP3 с торрентов, чтобы набрать каталог. Теперь, когда кто-то делает то же самое с ними — это сразу «нарушение».

2️⃣Ирония #2: ИИ-компании делают то же самое

OpenAI, Google, Anthropic скрейпят весь интернет — книги, статьи, код, музыку — и называют это «обучением». А Anna's Archive говорит: мы тоже просто «обучаем свои уши». Если можно одним — почему нельзя другим?

Часть комьюнити считает, что AA перегнули. После скрейпинга WorldCat они и так под прицелом, а теперь ещё лейблы. Ради музыки могут погубить важный литературный архив.

А мы в «Сохранёнках» пока просто запасаемся попкорном и наблюдаем 🍿

@prog_stuff
Please open Telegram to view this post
VIEW IN TELEGRAM