Data Place
574 subscribers
34 photos
2 files
211 links
Канал про данные, науку о данных и про обучение работе с данными.
Автор: Ирина Радченко, доцент, канд. техн. наук, любитель данных и Computer Science, в Телеграме -- @dadaistka
Download Telegram
Towards ML Engineering: A Brief History
Of TensorFlow Extended (TFX)
https://arxiv.org/pdf/2010.02013.pdf
Как стать дата-инженером в 2023 году?
Вот подборка любопытных статей на тему, а также список вопрос и ответов для прохождения интервью.
1. Data Engineer Learning Path, Career Track & Roadmap for 2023: https://www.projectpro.io/article/data-engineer-learning-path/550
2. The Complete Data Engineering Study Roadmap: https://www.kdnuggets.com/2022/11/complete-data-engineering-study-roadmap.html
3. The Top 21 Data Engineering Interview Questions and Answers: https://www.datacamp.com/blog/top-21-data-engineering-interview-questions-and-answers
4. Roadmap to becoming a data engineer in 2021 (немного устаревшее, но пока актуальное): https://github.com/datastacktv/data-engineer-roadmap
Forwarded from HABR FEED + OPENNET
Библиотека ML Tuning: как подобрать гиперпараметры модели GBTRegressor в PySpark #habr
https://habr.com/ru/post/715678/
Tags: Блог компании Сбер, Машинное обучение, Big Data, Python, python, bigdata, big data, машинное+обучение, машинное обучение, программирование
Author: NewTechAudit
Про схему звезды в РБД
1. Star Schema in Data Warehouse modeling: https://www.geeksforgeeks.org/star-schema-in-data-warehouse-modeling/
2. star schema (с примерами, видео, за и против): https://www.techtarget.com/searchdatamanagement/definition/star-schema

Рекомендую также ознакомиться со статьей на Хабре, написанную понятным языком: Архитектура хранилищ данных: традиционная и облачная: https://habr.com/ru/post/441538/
Самая модная метапоисковая система теневых библиотек Anna's Archive:
annas-archive.org
Запустилась 7 месяцев назад, и стала самой актуальной точкой входа для поиска научной информации, книг, журналов и тд
Claude обгоняет ChatGPT.
Есть сильные подозрения, что скоро мы увидим "гонки интеллектов":
https://www.kdnuggets.com/2023/07/chatgpt-dethroned-claude-became-new-ai-leader.html
Планирую писать посты с использованием подсказок от ChatGPT-4.
Такие посты буду помечать тегом #ChatGPTprocessed.
Во-первых, чтобы Вы были в курсе того, что за основу брались ответы бота, которые затем подверглись проверке и обработке, во-вторых, чтобы собрать статистику таких постов.
Интересный обзор стартапов YC этого года
Forwarded from kyrillic
Вчера смотрел YC Alumni Demo Day - питчи всех 200+ стартапов S23 батча главного в мире акселератора. Для выпускников прошлых лет demo day проходит на несколько дней раньше, чем для инвесторов!

Писал ранее, зачем следить за YC стартапами (не только фаундерам), а также есть наблюдения после демо дня S22 (пост) и W23 (раз, два)

Выводы-статистика будут попозже, сейчас хочу поделится просто впечатлениями.

1️⃣ В шоке от бэкграунда команд! И раньше было очень много Стэнфорда-MIT-Йеля-FAANG и тд, а также фаундеров с миллионными экзитами. Но в этот раз почти нет других! Четверть фаундеров - из топовых американских университетов. А если считать по стартапам то думаю почти у половины (!!) есть хотя бы один человек из Ivy Leauge, Стэнфорда, MIT и др.

На это наверняка повлияли увольнения прошлого года - в фаундеры пошли невероятно квалифицированные люди.

2️⃣ Прикольно наблюдение, что если фаундер питчит что-то очень размытое вроде "платформа для автоматизации цепочек поставок", то у него наверняка многомилионных экзит. "Вот я - крутой фаундер, вот рынок, где будет стартап, остальное пока непонятно. Рейзю $3m seed!" Ну что, имеет право! Уже доказал предыдущим бизнесом, что умеет-могет.

3️⃣ Жесткий фокус на американский рынок - такого в стартапах не было! Почти полность отвалились ЛатАм, ЮВА, даже Африка. С маркоэкономикой не поспоришь: инвесторы всех типов стали осторожнее относиться к развивающимся рынкам.

Поэтому значительно меньше international founders. Да и те, в большинстве своем учились и работали в США.

Можно много говорить, как плохо американской экономике, но по факту из рецессии она выходит с наименьшими потерями.

4️⃣ "Занимался узкой задачей страхования здоровья в Амазоне, теперь делаю b2b для больших страховых, решая те же проблемы" - так выглядит самый популярный подход к поиску идеи для стартапа.

То есть свою экспертизу конкретных процессов из большой компании фаундеры оборачивают в стартап. Конечно нужно знать и проблему, и контекст рынка, и американский культурный код!

Я пытался сделать упражнение: среди 200+ стартапов найти идеи, которые может делать человек без глубокой экспертизы. Например талантливый амбизиозный айтишник из Европы, без специфических знаний какой-то американской индустрии, хочет запилить MVP, получить трекшн и пройти в YC.

Таких идей почти нет (!!!)

Мы скоро будем разбирать "нормальные" для нашего ru-бэкграунда идеи YC компаний (и не только) в kyrillic is doing.

5️⃣ 3/4 стартапов - b2b! Ушло много "романтики" - почти нет web3, mental health, productivity tools, edtech, горизонтальных b2c, hrtech и т.д. Финтех просел ожидаемо - из за макроэкономики и ставок. Любопытно, что стало сильно меньше real estate стартапов.

Даже вечно популярные devtools просели! Много open source - хвалятся количеством звезд на github. Забавно, что происходит "инфляция github-звезд" - когда-то 500 - было круто, а сейчас уже нужны тысячи!

6️⃣ Интересно с ML/AI: стартапов, употребляющих термины LLM, AI, ML - очень много, также много ML-инженеров среди CTO. А значит есть реальное использование ML.

Но часть стартапов могла бы решать проблему на рынке и без AI (то есть он там скорее для маркетинга).

Другая часть - реально использует например LLM. Иногда с простыми сценариями: "вот есть куча данных, мы суммируем/приведем к нужному виду" - в лучших традициях бутстраперов из Твиттера. Но есть нюанс... Делают YC-стартапы такое в очень конкретном бизнес-процессе, где у фаундеров очевидная экспертиза. Например часть процесса закупок в какой-то индустрии.

7️⃣ Подытожу, для нашего ru-контекста: лучший способ попасть в следующие батчи YC - ехать в США. Учиться в университете (пост) или несколько лет поработать в большой компании, чтобы найти там интересную задачу/проблему, которую можно выделить в отдельный стартап!

Самое главное:
тренды YC demo days - это тренды всего венчурного рынка. Они задаются в YC, а потом расходятся по другим индустриям и странам. Полезно видеть старт движения идей сверху вниз. Про это я как-то писал в одном из постов про YC, с примерами из фешна! 🙂

@kyrillic
Полезная статья про MLOps со ссылками на платформы, связанные статьи и всякие полезные ML-сервисы

MLOps Landscape in 2024: Top Tools and Platforms
https://neptune.ai/blog/mlops-tools-platforms-landscape
Forwarded from AI Mindset (Gleb Kalinin)
Субъективный хит-парад ИИ-инструментов и сервисов, выпуск 01

В новой рубрике коротким списком делимся инструментами, которыми пользуемся каждый или почти каждый день. Добавляйте ваши варианты в комментариях.

Whispr Flow. Голосовой ввод done right. Умеет качественно расшифровывать аудио на нескольких языках, сам пополняет словарь, умеет выполнять ии-команды над выбранным текстом. Простая штука, но пользуюсь есть сотни раз в день. Есть версии для Windows и Mac, iOS дают тестировать платным пользователям.

Sesame conversational voice. Голосовой интерфейс будущего. Диалоги, которые хочется продолжить сразу же, как он закончится. Увы, пока что не продукт, а технологическое демо. Их отрытая модель

ChatGPT4.5. Интересные изменения произошли в работе с языком. Скармливаю ему несколько своих текстов, текст на английском, прошу перевести, и получаю результат, в котором впервые за всю нашу историю не хочется исправить почти ничего. Если текст не художественный — оптимально.

Grok. Я вынужден признать, что ЛЛМ Маска сейчас on par или лучше и OpenAI, из «коробки» умеет быстро искать в интернете, дает щедрые лимиты на deep research — благодаря нему, для меня deep research стал почти таким же привычным, как простой поиск. Когда это быстро и бесплатно, начинаешь пользоваться. Важное уточнение: свежее исследование показывает, что ни один deep research не может заменить ручной поиск — принимать решение на основании таких не стоит, во всяком не из одного рисерча).

Manus. Взорвавший интернет китайский ии-агент, который автономно решает задачи по поиску и обработке информации, написанию кода, создания презентаций, конвертации данных и даже тренировке простеньких нейросетей, как когда-то Devin. У агента есть изолированная виртуальная машина с ОС Ubuntu и правами на запуск написанного софта. Внутри агента, как выяснилось, Claude 3.7 с доступом к 29 инструментам, и работает он совсем не так безукоризненно, как хотелось бы (например, зависает, вероятно, из-за высокой нагрузки, или галлюцинирует), но всё это не важно. Совершенно очевидно, что манусоподобные агенты станут еще более способными (например, простое сочетание агента + MCP открывает почти бесконечные возможности для этих самых агентов). Пока что тормозить прогресс будут цены. Постоянно работающий агент — это не просто футуристично, но и требует энергии и серверных мощностей, но соприкоснуться.

Goose. Джек Дорси, основатель Твиттера, делает новый продукт с открытым кодом — локального ии-агента. Он тоже умеет пользоваться инструментами (например, на Маке может делать скриншоты или управлять календарем), писать и выполнять код, интегрироваться с MCP-серверами. Похож на OpenInterpreter и Aider.

Генерация картинок с Gemini 2.0. Cовершенно новый опыт. Новая мультимодальная нейросеть Гугла умеет то, что раньше было невозможно. Отмечу работу с текстом — прогресс и по сравнению с Flux, можно добавлять длинные тексты. Кажется, не так далеко до качественного генеративного дизайна. Доступно через AI Studio.

Windsurf. ИИ-редактор кода, ставший для меня вторым домом после Obsidian. Подключил к нему MCP, и теперь, например, я ставлю задачу на исследование, а MCP-сервер сам её решает, и закрывает по завершении. Когда в первый раз понял, что софт тебе не только помогает задачки декомпозировать, а реально их решить и сразу же закрыть — осознал, насколько это будет частью нашей реальности уже в ближайшие годы. Самовыполняющаяся работа? Будем еще от этого отбиваться. Windsurf рекомендую, больше чем Cursor, хотя и оба хороши. Для работы со знаниями и кодом — в этой среде особенно легко к нему переходить. За мои несколько месяцев с Windsurf, он стал значительно автономнее, и чаще без моего вмешательства справляется с ошибками.

Claude 3.7. Новая версия по-прежнему любимой по стилю и эстетике коммуникации модель. Вместе с MCP Claude из чат-бота превращается в мощного агента — легко и быстро можно загружать контент из внешних источников, управлять файловой системой и внешним софтом вроде blender, искать в интернете и по локальным файлам.

🤖 Глеб | AI Tools
Please open Telegram to view this post
VIEW IN TELEGRAM
Список AI-сервисов.pdf
116.4 KB
Разные люди меня спрашивают на тему того, как составлять эффективные промпты для AI-сервисов.
Я сгенерировала файл со списком AI-сервисов и составила несколько шпаргалок на эту тему для четырех популярных сервисов:
1. Для Qwen25-Max: https://telegra.ph/Kak-sozdat-ehffektivnyj-prompt-dlya-Qwen25-Max-03-29
2. Для Perplexity.AI: https://telegra.ph/Kak-sozdat-ehffektivnyj-prompt-dlya-Perplexity-AI-03-29
3. Для DeepSeek: https://telegra.ph/Kak-sozdat-ehffektivnyj-prompt-dlya-DeepSeek-03-29
4. Для ChatGPT: https://chatgpt.com/share/67e86d58-31a0-8011-850b-59c32bde8901