Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.7K subscribers
2.25K photos
113 videos
64 files
4.66K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
Это немного печально и сбивает с толку, что LLM (большие языковые модели) на самом деле мало связаны с языком — это просто исторически сложилось.


Андрей Карпаты снова высказал своё философское мнение по поводу состояния индустрии. Вот его цитата целиком:

По сути, они (прим. — LLM) являются универсальной технологией для статистического моделирования потоков токенов. Более подходящее название было бы, например, авторегрессионые трансформеры или что-то подобное.

Им не важно, что токены представляют собой фрагменты текста. Токенами могут быть также фрагменты изображений, аудио, выборы действий, молекулы или что угодно. Если вы можете свести свою задачу к моделированию потоков токенов (для любого произвольного словаря, состоящего из набора дискретных токенов), вы можете «накинуть LLM на неё».

На самом деле, по мере того как стек LLM становится всё более зрелым, мы можем увидеть, как множество задач сходятся к этой модели. То есть задача фиксируется как предсказание следующего токена с помощью LLM, но значение и использование этих токенов меняется в зависимости от области применения.

Если это действительно так, возможно, фреймворки глубокого обучения (например, PyTorch и аналогичные) слишком общие для того, как большинство задач будут выглядеть в будущем. Зачем нужны тысячи операций и слоёв, которые можно настраивать как угодно, если 80% задач просто могут использовать LLM?

Я не думаю, что это полностью верно, но полагаю, что это частично так.
👍141🥱1
🌐 Преимущества и недостатки работы в ИТ-аутсорсинговой компании

В этой статье мы разберемся, какие плюсы и минусы предполагает в себе работа в аутсорсинговой компании. Вы узнаете, чем привлекательна работа в этой сфере, с какими трудностями вам придется столкнуться и как сделать правильный выбор, чтобы аутсорсинг стал не ловушкой, а трамплином к успеху.

Получите основу для дальнейшего изучения более сложных нейронных сетей:
🔵 Базовые модели ML и приложения

🔗 Ссылка на статью
Please open Telegram to view this post
VIEW IN TELEGRAM
2
🎁 256-й день года: 15 подарков, которые оценит каждый программист

Мы собрали 15 идей подарков — от практичных гаджетов до инструментов для профессионального роста. Эти подарки не только упростят рабочий процесс, но и вдохновят на новые достижения. Независимо от того, junior вы или senior, в нашем списке каждый найдёт что-то для себя.

👉 Смотреть список
6👍3
Мы хотим провести большой розыгрыш и подарить победителю смартфон на выбор. Помимо iPhone, предлагаем вам выбрать, какой ещё смартфон вы бы хотели видеть среди призов👇
Вакансии «Библиотеки программиста» — ждем вас в команде!

Мы постоянно растем и развиваемся, поэтому создали отдельную страницу, на которой будут размещены наши актуальные вакансии. Сейчас мы ищем:
👉контент-менеджеров для ведения телеграм-каналов

Подробности тут

Мы предлагаем частичную занятость и полностью удаленный формат работы — можно совмещать с основной и находиться в любом месте🌴

Ждем ваших откликов 👾
📊🚀💡Power BI: когда Excel уже не справляется

Представьте, что все ключевые показатели вашего бизнеса доступны в один клик. Мы расскажем, как BI-инструменты делают это реальностью и почему без них уже не обойтись.

👉 Читать статью
🔥61😁1
🐍⚙️ 10 способов оптимизации Python-кода

Python ценят за простоту, гибкость и читаемость, но критикуют за невысокую производительность. Эта критика не всегда обоснована: есть несколько эффективных способов значительно повысить скорость Python-приложений, предназначенных для выполнения сложных вычислений и обработки больших объёмов данных.

Об этих способах читайте в нашей статье 👈
👍3😁2
👆So deep...

На самом деле, это даже недостаточно глубоко.
12😁9
😢 Тут один из реддиторов пожаловался, что у него постоянно есть чувство, будто он недостаточно хорошо изучил данные. Парень работает на проекте, который использует данные по качеству воды, и ему кажется, что всё, что он делает — это рисует графики и проводит простой статистический анализ.
Forwarded from Библиотека программиста | программирование, кодинг, разработка
🐘🔧 Расширение pg_variables: мощная альтернатива временным таблицам в PostgreSQL

Расширение pg_variables для PostgreSQL предлагает альтернативу временным таблицам для эффективной работы с промежуточными данными, но имеет свои преимущества и недостатки, требующие тщательного анализа перед внедрением:

🔸 Оно позволяет определять скалярные сессионные переменные, которые могут быть очень ценными для хранения идентификатора пользователя, от имени которого выполняется запрос, и его различных атрибутов.
🔸 Оно содержит функции для работы с переменными различных типов. Созданные переменные существуют в течение текущей пользовательской сессии.
🔸 По умолчанию эти переменные создаются без поддержки транзакций. Если переменная успешно создана, она остаётся доступной в течение всего сеанса, даже если происходят откаты транзакций.

Если вы хотите использовать переменную с поддержкой транзакций и точек сохранения, необходимо передать дополнительный флаг is_transactional в последний параметр функции, которая создаёт переменную.

Флаг is_transactional нужно указывать каждый раз, когда вы изменяете значение транзакционной переменной с помощью функций pgv_set() и pgv_insert(). В противном случае возникнет ошибка. Другим функциям передавать этот флаг не нужно.

Если вызовы функций pgv_free() или pgv_remove() откатываются, затронутые транзакционные переменные восстанавливаются. В отличие от них, нетранзакционные переменные удаляются безвозвратно.

👉 Читать подробнее в статье
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1😁1
🧑‍💻 Команда Яндекс Браузера выпустила большую статью о том, как они учили LLM-модели помогать пользователям с текстами. Это удачный референс для тех, кто хочет понять, как работают над крупными проектами в айти-компаниях.

Для контекста: Яндекс интегрировал в Браузер усовершенствованный нейроредактор на базе YandexGPT. На что стоит обратить внимание в статье:

🔘 Переход на архитектуру Encoder-Decoder, использование curriculum learning и двухэтапный процесс предобучения: каким образом эти изменения привели к двукратному росту производительности и 10% увеличению качества.
🔘 Почему теперь редактор отправляет в модели текст, размеченный Маркдауном, и как было раньше.

🔗 Ссылка на статью
👍5
Пятничный #дайджест по Data Science и машинному обучению

🔹How to Test Machine Learning Systems
Тестировать ML-системы сложно, но возможно. Статья описывает все этапы от начала до конца, а также перечисляет лучшие практики.

🔹Mojo: убийца Python и будущее Ai?
Автор обучает простую свёрточную нейронную сеть, а также разбирает линейную регрессию как на Python, так и на Mojo.

🔹Building RAG with Postgres
В гайде рассматривается каждый шаг такого пайплайна: от получения данных до генерации ответа.

🔹What is Entropy?
Эта небольшая книга представляет собой элементарный курс по энтропии. Будет интересно тем, кто хочет понять самую суть.

🔹Из лингвиста в дата-сайентисты: личный опыт и детальный трек
В статье собраны полезные материалы и советы автора.
👍61😁1