Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

👀 DeepSeek R1: разбираемся с фактами

🔸 Ходят слухи, что обучение DeepSeek стоило ~$6M, но это маловероятно. Только базовая модель без RL обошлась в $5.5M, а ведь были ещё дополнительные прогоны обучения и полное обучение R1.

🔸 DeepSeek — не стартап на коленке. Их поддерживает High-Flyer, крупный китайский хедж-фонд, а команда состоит из олимпиадников по математике и физике. Они работают на 50,000+ GPU, что говорит о масштабе.

🔸 DeepSeek R1 — это 671B параметров, для работы требуется 16×H100. Это один из самых мощных опенсорсных ИИ.

🔸 Есть и «облегчённые» версии, например, 1.5B, но это не настоящий R1, а лишь дообученные Qwen/Llama.

📌 Если используете хостинговую версию DeepSeek, внимательно изучите ToS (условия предоставления услуг). Они могут использовать ваши данные для обучения будущих моделей.

👍5🥱2❤1

1.96K views14:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека собеса по Data Science | вопросы с собеседований

Ответ: Верно.

Метод bagging (Bootstrap Aggregating) предполагает случайный выбор K объектов из исходного обучающего набора с заменой, где K равно размеру исходного набора данных.

Это означает, что одни экземпляры могут встречаться несколько раз, а другие могут не попасть в выборку вовсе.

Такой подход позволяет создать несколько различных обучающих подмножеств, что снижает дисперсию модели и повышает её устойчивость.

👍3❤1

1.92K views18:21

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека собеса по Data Science | вопросы с собеседований

Ответ

Anonymous Quiz

194 voters1.84K views18:21

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔥 Вышел PyTorch 2.6

🔷 Появился параметр torch.compiler.set_stance — теперь можно управлять поведением torch.compile. Например, включить «жадный» режим, чтобы код выполнялся без лишней компиляции.

🔷 AOTInductor (компилятор для ускорения моделей) получил новые фичи. Теперь в нём есть «минификатор», который помогает находить ошибки в моделях, создавая минимальный код, воспроизводящий проблему.

🔷 Также добавили режим ABI — это значит, что при обновлениях PyTorch ничего гарантировано не сломается.

🔷 Теперь torch.compile совместим с Python 3.13.

Полный список изменений здесь 👉 https://clc.to/OcCJwA

👍8❤1🎉1

2.11K viewsedited 07:08

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🏆 Лучшие библиотеки для Machine Learning на Python

Этот список — настоящий топ open-source проектов по ML, который обновляется каждую неделю.

📊 920 лучших библиотек с общим числом 4.8M звёзд на GitHub!
📂 34 категории, от классического ML до дип-обучения.
📈 Высокий рейтинг проектов на основе качества, данных из GitHub и пакетных менеджеров.

📌 Репозиторий: https://clc.to/brfm8g

❤5👍2🥰1

2.38K views18:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Менеджер данных: как новая роль изменила подход к работе с ML

В статье разберём
🔹 Кто такой менеджер данных и какие у него задачи.
🔹 Как эта роль помогает ML-инженерам.
🔹 В каких случаях компании стоит задуматься о найме.
🔹 Как найти подходящего кандидата.

Подробнее по ссылке: https://clc.to/teOZ8w

❤1🔥1

2.12K viewsedited 07:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

😂

😁21💯2🤔1

2.11K views19:30

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Где вы чаще находили решение вашей проблемы?

Anonymous Poll

😢1

369 voters2.16K views19:30

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔥 Hugging Face курс по практическому изучению агентов

На курсе обещают:

🔹 Теорию — разберут, что такое агенты, какие они бывают и как обучить LLM взаимодействовать с окружающей средой.

🔹 Практику — научат создавать агентов для реальных задач: от автоматизации SQL-запросов до генерации кода и анализа документов.

Запись открыта для всех — зарегистрироваться можно здесь.

👍5❤1

2.43K views07:09

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Полный Roadmap по Machine Learning

Если хотите освоить Machine Learning, вот дорожная карта с основными этапами!

😢13👍11😁7❤1🌚1

2.59K views18:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

👍 Кодирование Хаффмана для сжатия данных без потерь

В эпоху быстрорастущих объемов данных эффективные методы сжатия стали необходимостью. Кодирование Хаффмана — это мощный алгоритм жадного сжатия без потерь, широко используемый в различных приложениях.

📌 Детальная статья с реализацией алгоритма

👍8❤1

2.7K views07:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔢 Основы квантизации весов

Квантизация весов — это процесс преобразования высокоточных весов нейросети (обычно 32-битных чисел с плавающей запятой) в низкоточные представления (чаще всего 8-битные целые числа).

✅ Это позволяет значительно уменьшить размер модели и снизить потребление памяти, сохраняя при этом высокую производительность.
⚡ Главная сложность — сохранить точность модели, несмотря на снижение разрядности чисел.

Более подробно в статье: https://clc.to/-rZwSA

👍6❤2👏2

2.05K views18:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Привет! Мы собираем данные о том, какие методы биохакинга действительно помогают разрабам улучшить качество жизни и повысить продуктивность.

Поделитесь своим опытом — это поможет другим сделать осознанный выбор в мире биохакинга.

❤4

1.78K views07:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Какие методы отслеживания здоровья вы используете?

Anonymous Poll

36%

🔄 Фитнес-трекер/умные часы

16%

📱 Приложения для трекинга здоровья

18%

📊 Регулярные анализы крови

🌡️ Измерение температуры тела