topdatalab
1.27K subscribers
105 photos
10 videos
17 files
223 links
Канал поддержки книги «Как монетизировать данные». Работаю над corpsignals.com
Download Telegram
topdatalab
Как собеседовать BI аналитиков? Сейчас как раз готовлюсь к собеседованиям. И вспомнил, как меня готовил к собеседованию фейсбук. Они прислали мне подробную инструкцию как подготовится. И я сейчас подумал, почему бы и нет? Составил следующее письмо. Оно будет…
Сейчас готовлюсь собеседовать аналитиков, вспомнил, что у меня был пост на эту тему.
А именно, что нужно дать данные и темы вопросов заранее.
В отличие от прошлого интервью я решил добавить темы моделирования данных (+ dbt + индексы).
👍12
Давно слежу за командой Unsloth. Сейчас они лидеры по дообучению локальных LLM моделей, и много делают для открытого сообщества.
Так вот они выпустили свою версию динамической квантизации (в каждом слое она своя).
https://docs.unsloth.ai/basics/unsloth-dynamic-2.0-ggufs

А так многие проекты пилят свою квантизацию. И это крайне неудобно.
Все хочу добраться до этого курса https://www.deeplearning.ai/short-courses/quantization-in-depth/, но сейчас так быстро все меняется, что знания стареют за 1 месяц 🙁

PS: Я думаю, что unsloth скоро купят, были бы деньги, вложился бы в них
3🔥3
Только вчера подумал, что появятся магазины приложений - узко специализированных нейронок.
И вот сегодня появилась нейронка
"specifically designed to generate HTML and Tailwind CSS code for web interfaces"

https://huggingface.co/Tesslate/UIGEN-T2-7B-Q8_0-GGUF

Решает одну проблему, но лучше многих
👍8🔥3
Записали и опубликовали подкаст с друзьями.
https://www.youtube.com/watch?v=tQCnHH1m0mw
Много говорили про LLM AI и вайб кодинг инструменты.

PS: Я закинул только что в прод Deep Research для своего сайта, но не настоящий, а исследовательский, фейковый 🙂
Сделал в Copilot чуть больше чем за час
👍2
Шикарный "развод" от стартапа! Написали отзыв для моего GPT от имени "sam".
Я конечно сразу подумал, что это Сэм Альтман. :)

Далее, они написали довольно известную правду (https://help.openai.com/en/articles/9300383-using-gpts-on-our-free-tier-faq).
Это пример шикарной манипуляции, конечно OpenAI не имеет к этому никакого отношения. Но это заставило мне пойти и посмотреть, что это за сайт, и проскроллить весь сайт в поиске копирайта OpenAI.
👍1
Для DuckDB сделали плагин для подключения LLM.
https://github.com/dsg-polymtl/flockmtl

Сами себя они описывают так:
- Declarative SQL Interface: Perform text generation, classification, summarization, filtering, and embedding generation using SQL queries.
- Multi-Provider Support: Easily integrate with OpenAI, Azure, and Ollama for your AI needs.
- End-to-End RAG Pipelines: Enable retrieval and augmentation workflows for enhanced analytics.
- Map and Reduce Functions: Intuitive APIs for combining semantic tasks and data analytics directly in DuckDB.

То есть мы можем вызывать LLM прямо из SQL, локальные модели (есть OLLAMA) точно поддерживаются
🔥3
А вот отличный пример обработки данных с помощью DuckDB

https://emilsadek.com/blog/merge-parquet-duckdb/


COPY (
SELECT
timestamp,
event_name,
path,
md5(anonymous_id) AS anonymous_id_hash,
event_id,
filename AS source_file
FROM read_parquet('20250312*.parquet', filename = true)
)
TO '2025-03-12.parquet'
(FORMAT 'parquet', COMPRESSION zstd);


Читаем данные из файлов через SELECT, записываем с помощью команды COPY.
Просто и изящно, когда есть возможность хранить все данные не внутри базы данных, а в файлах
🔥6
это мне на почту corpsignals.com пришло!
Искушение? Да :)
🤩7😁4👍1
Попросил одну AI прогу направить глаза на записи в камеру
😁8🤣4🌚1
перезапустил corpsignals в декабре, трафик растет, чистая Seo органика

Думаю до 500 в день дойти к концу года
Update: а может и тысячу :)
🔥8
Пару недель назад получил пособеседоваться на ML Engineer в Meta. Причем и письмом, и коннектом в Linkedin.
Отказался, лень на три месяца садится и готовится к собеседованиям, по другому не пройдешь их.

PS: В Лондонском офисе Meta есть проблема с комплектованием

Вы наверное подумали - с жиру бесится чувак, но там реально нужно быстро на собесе языком чесать :)
👍9👏1
Metabase хоть и кажется простым для разработчика, все равно сложный для пользователя.
Нужно хорошо понимать какие данные в каких таблицах лежат.

Почему бы не использовать LLM, загрузив туда все данные?
Metabase имеет хорошее API, в том числе для создания и редактирования dashboards.
Кроме SQL можно создавать отчеты на языке конструктора. Он удобнее для конечного пользователя, его редактировать в интерфейся намного проще.
Пример создания такого отчета

{
"name": "Sample MBQL Question",
"description": "This question is created via API using MBQL.",
"dataset_query": {
"type": "query",
"query": {
"source-table": 2,
"aggregation": [["count"]],
"breakout": [["field-id", 10]]
},
"database": 1
},
"display": "bar",
"visualization_settings": {
"graph.show_values": true
}
}


Я думаю заняться этим вопросом.

Сразу нашел пару интересных проектов:
1. MCP сервер для Metabase: https://github.com/sazboxai/MCP_MetaBase
2. Модицированный Metabase для AI запросов: https://churnless.ai/blog/building-ai-powered-sql-assistant
внутри ссылка на репозиторий
🔥15
Пропатчил и выложил последнюю стабильную версию Metabase 53.14.3.
Теперь в ней можно использовать fief авторизацию (https://t.iss.one/topdatalab/378)
и записывать действия пользователей на сайте (https://t.iss.one/topdatalab/401)

Почему сделал апгрейд - новая версия Metabase позволяет публиковать iframe контент, например ролики youtube.
Мне это нужно, чтобы публиковать обучающие видео прямо в dashboards.

Очень много пришлось провозитьс с драйвером DuckDB, не хотел он работать 🙁

инструкция тут: https://github.com/rzykov/metabase/blob/fief_v0.53.14.3/FiefAuth.md
🔥6🙏1
Ммм новая модель Gemma 3n от Google
https://huggingface.co/collections/google/gemma-3n-preview-682ca41097a31e5ac804d57b
https://ai.google.dev/gemma/docs/gemma-3n

Буду тестить. Уже использую Gemma3 12b в production
👍3🔥2
Нас 999!
🎉26🔥124😱1💯1
topdatalab
Все в порядке, это я пытаюсь выбить деньги из компании-банкрота, где я работал. Судья был очень мил, все подробно объяснил PS: Английский суд намного гуманнее относится к людям, чем в России. Теперь у меня есть опыт и там, и там
Суд я в четверг выиграл. Мило побеседовали с судьей по видеосвязи. Она решила вопрос с компенсацией - 700 фунтов в неделю за 3 месяца. Оплатит государство UK за вычетом налогов.

PS: есть один важный фактор, чем отличается UK от той же России. Человеколюбия здесь больше. Я хорошо общался с судьями, с налоговой. В России было все гораздо жестче.
9🔥4👍3👎1🤯1
Нашел либу для парсинга данных из текста через LLM, которой нужны именно локальные LLM

Идея просто до гениальности
1) Пользователь задает шаблон ответа, например, json
2) Отправляет промт и текст в LLM
3) Далее библиотека взламывает последний слой сети LLM и смотрит, а какой следующий токен из множества соответствует шаблону ответа?

Библиотека называется outlines, подробнее здесь

https://learn.deeplearning.ai/courses/getting-structured-llm-output

PS: не работает с LLM по API
6
Книга понравилась!
Наконец дошли руки разобраться в LLM моделях. Почему понравилось:
1) что под капотом LLM на достаточном уровне, чтобы читать науч статьи
2) автор последовательно вел по эволюции алгоритмов от простых count алгоритмов к LLM
3) я в деталях разобрался в токенайзерах
4) примеры на pytorch без излишеств
5) весь код есть на гитхаб

Какие требования для чтения книги: умение читать код на Python, базовая лин. алгебра (произведения матриц), базовые знания по ML (подойдет на уровне моей книги)
👍25🔥75
44 сегодня, не забивайте на свое здоровье (только один совет)
🔥464👏2
Примерно месяц назад я переехал на Cursor и очень доволен скоростью ответов.
Неделю назад я прочитал статью на английском, как он собственно устроен и как развивался.

Перевод на русский здесь:
часть 1 https://habr.com/ru/articles/919636/
часть 2 https://habr.com/ru/articles/920660/

В целом там все очень интересно описано, особенно про индексацию кодовой базы.
Но меня лично заинтересовал упомянутый там проект, который спас Cursor от падения

https://turbopuffer.com

Ребята делают full text search и поиск по embedding, что является основой любой RAG.
Они отказались от БД в пользу S3.
Цены не скажу что высокие, буду пробовать их сам. Уж больно они хороши (из истории Cursor)

А так рецепт следующий Postgres + pg_search + pg_vector
У меня это все крутится на Corpsignals.com
👍107🔥1