Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Это немного печально и сбивает с толку, что LLM (большие языковые модели) на самом деле мало связаны с языком — это просто исторически сложилось.

Андрей Карпаты снова высказал своё философское мнение по поводу состояния индустрии. Вот его цитата целиком:

По сути, они (прим. — LLM) являются универсальной технологией для статистического моделирования потоков токенов. Более подходящее название было бы, например, авторегрессионые трансформеры или что-то подобное.

Им не важно, что токены представляют собой фрагменты текста. Токенами могут быть также фрагменты изображений, аудио, выборы действий, молекулы или что угодно. Если вы можете свести свою задачу к моделированию потоков токенов (для любого произвольного словаря, состоящего из набора дискретных токенов), вы можете «накинуть LLM на неё».

На самом деле, по мере того как стек LLM становится всё более зрелым, мы можем увидеть, как множество задач сходятся к этой модели. То есть задача фиксируется как предсказание следующего токена с помощью LLM, но значение и использование этих токенов меняется в зависимости от области применения.

Если это действительно так, возможно, фреймворки глубокого обучения (например, PyTorch и аналогичные) слишком общие для того, как большинство задач будут выглядеть в будущем. Зачем нужны тысячи операций и слоёв, которые можно настраивать как угодно, если 80% задач просто могут использовать LLM?

Я не думаю, что это полностью верно, но полагаю, что это частично так.

👍14❤1🥱1

2.27K views18:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Proglib.academy | IT-курсы

🌐 Преимущества и недостатки работы в ИТ-аутсорсинговой компании

В этой статье мы разберемся, какие плюсы и минусы предполагает в себе работа в аутсорсинговой компании. Вы узнаете, чем привлекательна работа в этой сфере, с какими трудностями вам придется столкнуться и как сделать правильный выбор, чтобы аутсорсинг стал не ловушкой, а трамплином к успеху.

Получите основу для дальнейшего изучения более сложных нейронных сетей:

🔵

Базовые модели ML и приложения

🔗 Ссылка на статью

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

1.96K views07:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🎁 256-й день года: 15 подарков, которые оценит каждый программист

Мы собрали 15 идей подарков — от практичных гаджетов до инструментов для профессионального роста. Эти подарки не только упростят рабочий процесс, но и вдохновят на новые достижения. Независимо от того, junior вы или senior, в нашем списке каждый найдёт что-то для себя.

👉 Смотреть список

❤6👍3

20.8K views11:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

✨Мы хотим провести большой розыгрыш и подарить победителю смартфон на выбор. Помимо iPhone, предлагаем вам выбрать, какой ещё смартфон вы бы хотели видеть среди призов👇

2.3K views18:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Какой смартфон вам по душе:

Anonymous Poll

Samsung Galaxy S24 Ultra на 1ТБ

22%

Xiaomi 14 Ultra 512 ГБ

Vivo X100 Ultra

15%

Свой вариант (напишу в комментариях)

258 voters2.58K views18:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

❗Вакансии «Библиотеки программиста» — ждем вас в команде!

Мы постоянно растем и развиваемся, поэтому создали отдельную страницу, на которой будут размещены наши актуальные вакансии. Сейчас мы ищем:
👉контент-менеджеров для ведения телеграм-каналов

Подробности тут

Мы предлагаем частичную занятость и полностью удаленный формат работы — можно совмещать с основной и находиться в любом месте🌴

Ждем ваших откликов 👾

2.79K views06:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

1:06

This media is not supported in your browser

VIEW IN TELEGRAM

⤴️А какой уровень духоты предпочитаете вы?⤴️

Please open Telegram to view this post

VIEW IN TELEGRAM

😁12🔥8👍2

2.87K views09:07

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📊🚀💡Power BI: когда Excel уже не справляется

Представьте, что все ключевые показатели вашего бизнеса доступны в один клик. Мы расскажем, как BI-инструменты делают это реальностью и почему без них уже не обойтись.

👉 Читать статью

🔥6❤1😁1

14.5K views18:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека питониста | Python, Django, Flask

🐍⚙️ 10 способов оптимизации Python-кода

Python ценят за простоту, гибкость и читаемость, но критикуют за невысокую производительность. Эта критика не всегда обоснована: есть несколько эффективных способов значительно повысить скорость Python-приложений, предназначенных для выполнения сложных вычислений и обработки больших объёмов данных.

Об этих способах читайте в нашей статье 👈

👍3😁2

2.19K views07:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

👆So deep...

На самом деле, это даже недостаточно глубоко.

❤12😁9

2.81K views11:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

😢 Тут один из реддиторов пожаловался, что у него постоянно есть чувство, будто он недостаточно хорошо изучил данные. Парень работает на проекте, который использует данные по качеству воды, и ему кажется, что всё, что он делает — это рисует графики и проводит простой статистический анализ.

2.65K views18:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

А у вас возникает такое чувство?

Anonymous Poll

❤3

288 voters2.52K views18:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека программиста | программирование, кодинг, разработка

🐘🔧 Расширение pg_variables: мощная альтернатива временным таблицам в PostgreSQL

Расширение pg_variables для PostgreSQL предлагает альтернативу временным таблицам для эффективной работы с промежуточными данными, но имеет свои преимущества и недостатки, требующие тщательного анализа перед внедрением:

🔸 Оно позволяет определять скалярные сессионные переменные, которые могут быть очень ценными для хранения идентификатора пользователя, от имени которого выполняется запрос, и его различных атрибутов.
🔸 Оно содержит функции для работы с переменными различных типов. Созданные переменные существуют в течение текущей пользовательской сессии.
🔸 По умолчанию эти переменные создаются без поддержки транзакций. Если переменная успешно создана, она остаётся доступной в течение всего сеанса, даже если происходят откаты транзакций.

Если вы хотите использовать переменную с поддержкой транзакций и точек сохранения, необходимо передать дополнительный флаг is_transactional в последний параметр функции, которая создаёт переменную.

Флаг is_transactional нужно указывать каждый раз, когда вы изменяете значение транзакционной переменной с помощью функций pgv_set() и pgv_insert(). В противном случае возникнет ошибка. Другим функциям передавать этот флаг не нужно.

Если вызовы функций pgv_free() или pgv_remove() откатываются, затронутые транзакционные переменные восстанавливаются. В отличие от них, нетранзакционные переменные удаляются безвозвратно.

👉

Читать подробнее в статье

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1😁1

2.04K views07:08

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🧑‍💻 Команда Яндекс Браузера выпустила большую статью о том, как они учили LLM-модели помогать пользователям с текстами. Это удачный референс для тех, кто хочет понять, как работают над крупными проектами в айти-компаниях.

Для контекста: Яндекс интегрировал в Браузер усовершенствованный нейроредактор на базе YandexGPT. На что стоит обратить внимание в статье:

🔘 Переход на архитектуру Encoder-Decoder, использование curriculum learning и двухэтапный процесс предобучения: каким образом эти изменения привели к двукратному росту производительности и 10% увеличению качества.
🔘 Почему теперь редактор отправляет в модели текст, размеченный Маркдауном, и как было раньше.

🔗 Ссылка на статью

👍5

2.4K views14:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Пятничный #дайджест по Data Science и машинному обучению

🔹How to Test Machine Learning Systems
Тестировать ML-системы сложно, но возможно. Статья описывает все этапы от начала до конца, а также перечисляет лучшие практики.

🔹Mojo: убийца Python и будущее Ai?
Автор обучает простую свёрточную нейронную сеть, а также разбирает линейную регрессию как на Python, так и на Mojo.

🔹Building RAG with Postgres
В гайде рассматривается каждый шаг такого пайплайна: от получения данных до генерации ответа.

🔹What is Entropy?
Эта небольшая книга представляет собой элементарный курс по энтропии. Будет интересно тем, кто хочет понять самую суть.

🔹Из лингвиста в дата-сайентисты: личный опыт и детальный трек
В статье собраны полезные материалы и советы автора.

👍6❤1😁1

2.48K views18:07

About

Blog

Apps

Platform