Анализ данных (Data analysis)

⚡️

Понимание Deep Learning

Отличная книга и масса Colab'ов от MIT для полного понимания Deep Learning
Определённо это один из лучших ресурсов по DL

🟡

Understanding Deep Learning

📎

PDF

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍21🔥10❤7🥱1

8.39K views11:15

Анализ данных (Data analysis)

🖥

Вышел NumPy 2.0.0. Самые значительные обновления с 2006 года для Python разработчиков

Вышла новая версия Python-библиотеки для научных вычислений NumPy 2.0.0, предназначенная для работы с многомерными массивами и матрицами.

Она включает обширную коллекцию функций, реализующих различные алгоритмы, связанные с использованием матриц. NumPy считается одной из самых популярных библиотек для научных расчетов. Код библиотеки написан на Python с применением оптимизаций на языке C и распространяется под лицензией BSD.

NumPy 2.0.0 является первым значительным обновлением с 2006 года. В новой версии добавлены новые функции и улучшена производительность, а также внесены изменения в ABI, Python API и C-API, нарушающие обратную совместимость. Например, библиотека SciPy, собранная с NumPy 1.x, потребует перекомпиляции для работы с NumPy 2.0. В некоторых случаях для использования NumPy 2.0 в приложениях потребуется внести изменения в код.

Одно из наиболее значимых изменений связано с сохранением точности скалярных выражений.

Например, выражение “np.float32(3) + 3” теперь вернет значение типа float32, а не float64. В выражениях с несколькими типами для результата будет использоваться тип с наивысшей точностью, например, “np.array([3], dtype=np.float32) + np.float64(3)” вернет значение типа float64. Также изменены целочисленные типы по умолчанию на платформе Windows: на 64-разрядных системах теперь используется 64-разрядный целый тип, а на 32-разрядных – 32-разрядный (ранее использовался аналог типа long из C, теперь это эквивалент np.intp).

Некоторые определения в C-API были изменены или удалены, например, структура PyArray_Descr. Максимальное число измерений и аргументов, выставляемое через макросы NPY_MAXDIMS и NPY_MAXARGS, увеличено до 64.

Все комплексные типы переведены на использование стандартных типов из спецификации C99 (cfloat_t, cdouble_t, clongdouble_t). Добавлен новый C API для создания собственных dtype. Также предложены новые упрощённые функции инициализации PyArray_ImportNumPyAPI и PyUFunc_ImportUFuncAPI.

В Python API обеспечено более четкое разделение между публичными и приватными API, представлена новая структура модулей. Около 100 функций, модулей и констант вынесены из основного пространства имен “np”, объявлены устаревшими или удалены. Пространство имен np.lib было очищено. Число объектов в основном пространстве имен сокращено на 10%, а в пространстве имен numpy.lib – на 80%. Пространство имен numpy.core переведено в разряд приватных. Удалены некоторые методы из классов np.ndarray и np.generic. Создано новое пространство имен numpy.stringsf со строковыми операциями.

https://uproger.com/vyshel-numpy-2-0-0-samye-znachitelnye-obnovleniya-s-2006-goda-dlya-python-razrabotchikov/

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

UPROGER | Программирование

Вышел NumPy 2.0.0. Самые значительные обновления с 2006 года для Python разработчиков

Вышла новая версия Python-библиотеки для научных вычислений NumPy 2.0.0, предназначенная для работы с многомерными массивами и матрицами.

Она включает обширную коллекцию функций, реализующих различные алгоритмы, связанные с использованием матриц. NumPy…

👍17🔥9❤6

5.84K viewsedited 14:01

Анализ данных (Data analysis)

🌟

R2R — open-source RAG фреймворк

— pip install r2r

R2R создан, чтобы помочь разработчикам преодолеть разрыв между локальными экспериментами с LLM и созданием масштабируемого, готового к продакшену приложения.
R2R, созданный для работы с пользовательскими приложениями RAG, обеспечивает достаточную производительность и возможности для большинства случаев использования RAG.

Фичи R2R:
— позволяет легко развернуть RAG-приложение в проде
— гибкий в настройке, легко конфигурируется

🖥

GitHub

🟡

Доки

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8❤4🔥2

6.07K views16:02

Анализ данных (Data analysis)

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️ Google Mind gредставили AvatarPopUp!

Этот метод позволяет создавать высококачественные трехмерные аватары людей из одного изображения или текстового запроса всего за 2 секунды 🔥

https://nikoskolot.com/avatarpopup/

@data_analysis_ml

🔥7❤4👍2

5.68K viewsedited 12:39

Анализ данных (Data analysis)

🌟

AXLearn — open-source библиотека от Apple, созданная на основе JAX и XLA для разработки больших Deep Learning моделей

— pip install 'axlearn[apple-silicon]'

Система конфигурации AXLearn позволяет пользователям создавать модели из многократно используемых строительных блоков и интегрировать их с другими библиотеками, такими как Flax и Hugging Face transformers.

AXLearn создана для масштабирования — она поддерживает обучение моделей с сотнями миллиардов параметров на тысячах GPU.
AXLearn также поддерживает работу в публичных облаках и предоставляет инструменты для развертывания и управления моделями.

Поддерживает широкий спектр приложений, включая NLP, CV и распознавание речи, и содержит базовые конфигурации для обучения современных моделей.

🖥

GitHub

🟡

Доки

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9❤6🔥2😐1

5.8K views15:02

Анализ данных (Data analysis)

🌟

d3rlpy — библиотека Python, предоставляющая реализации алгоритмов Deep Learning

— pip install d3rlpy

d3rlpy уделяет большое внимание простоте использования; эта библиотека предназначена не только для исследователей, но и для практиков, работающих над обычными проектами.

🖥

GitHub

🟡

Доки

🟡

Arxiv

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥11❤4🏆2🥰1

5.85K views17:33

Анализ данных (Data analysis)

В следующий раз, когда будете выбирать бенчмарки для оценки модели, ознакомьтесь с этой корреляционной матрицей из статьи MixEval.

Удобно смотреть производительность чат-ботов на арене, идеально подходит для поиска чат-ботов общего назначения.

🌀 MixEval: https://mixeval.github.io

❤15🔥5👍3😁1

6.05K views20:03

Анализ данных (Data analysis)

🌟

TextGrad — open-source фреймворк для реализации обратного распространения, опирающегося на текстовую обратную связь

— pip install textgrad

TextGrad может оптимизировать неструктурированные переменные, такие как текст. Пусть у нас есть исходное решение математической задачи, мы хотим, чтобы это решение выглядело лучше. Вот как можно реализовать это в коде с помощью TextGrad и GPT-4o:

tg.set_backward_engine("gpt-4o")

initial_solution = """To solve the equation 3x^2 - 7x + 2 = 0, we use the quadratic formula:
x = (-b ± √(b^2 - 4ac)) / 2a
a = 3, b = -7, c = 2
x = (7 ± √((-7)^2 - 4 * 3(2))) / 6
x = (7 ± √(7^3) / 6
The solutions are:
x1 = (7 + √73)
x2 = (7 - √73)"""

# Define the variable to optimize, let requires_grad=True to enable gradient computation
solution = tg.Variable(initial_solution,
                       requires_grad=True,
                       role_description="solution to the math question")

# Define the optimizer, let the optimizer know which variables to optimize, and run the loss function

loss_fn = tg.TextLoss("You will evaluate a solution to a math question. Do not attempt to solve it yourself, do not give a solution, only identify errors. Be super concise.")

optimizer = tg.TGD(parameters=[solution])
loss = loss_fn(solution)

🖥

GitHub

🟡

Colab с примерами примитивов TextGrad

🟡

Arxiv

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥8❤6👍5

6.42K views09:33

Анализ данных (Data analysis)

⚡️

HelpSteer2 — открытый датасет от Nvidia

На днях Nvidia выкатили HelpSteer2, который позволяет сделать модели фактологически корректными и последовательными, плюс регулирует сложность и многословность их ответов.

При обучении базовой Llama 3 70B на HelpSteer2 модель достигает 88.8% в RewardBench, что делает ее 4-й лучшей Reward-моделью на текущий момент

🤗 Hugging Face

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍10❤4🔥3

6.4K views17:04

Анализ данных (Data analysis)

🖥

Daft — фреймворк для ETL, аналитики и ML/AI в нагруженных системах

— pip install getdaft

Daft — это распределенный движок запросов для обработки больших данных на Python; реализован на Rust.
Многие идеи Daft позаимствовал из Apache Arrow In-Memory

Особенности Daft
— встроенный мощный оптимизатор переписывает запросы, чтобы сделать их максимально эффективными

— есть полная интеграция с такими системами как Apache Iceberg

— имеется поддержка изображений, URL, тензоров и других самых разных объектов

— рекордная производительность ввода-вывода для интеграции с облачным хранилищем S3

🖥

GitHub

🟡

Доки

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍13❤5🔥2

5.88K views17:02