Математика Дата саентиста

⚡️ Полезные шпаргалки по математике

- Шпаргалки по ТРИГОНОМЕТРИИ
- Шпаргалки по ТЕОРИИ ВЕРОЯТНОСТЕЙ
- Шпаргалки по ПРОИЗВОДНОЙ
- Шпаргалки по ГЕОМЕТРИИ
- Шпаргалки по ТЕКСТОВЫМ ЗАДАЧАМ

@data_math

👍10👎8❤4🔥3😁1

11.7K views10:04

Математика Дата саентиста

Forwarded from Анализ данных (Data analysis)

♠️ Бесплатный курс от MIT: Теория и Аналитика покера

В этом курсе от MIT подробно рассматривается теория покера, математика покера и применение покерной аналитики в управлении инвестициями и трейдинге.

▪️Материалы Курса

@data_analysis_ml

🔥13👍7❤3👎1😁1

3.42K views14:01

Математика Дата саентиста

A_V_Pechinkin_O_I_Teskin_G_M_Tsvetkova_i_dr_Teoria_veroyatnostey.pdf

24.3 MB

Теория вероятностей Учеб. для вузов. - 3-е изд.
А.В. Печинкин, О.И. Тескин, Г.М. Цветкова и др. (2004)

Несмотря на большое количество учебных руководств по теории вероятностей, в том числе появившихся и в последние годы, в настоящее время отсутствует учебник, предназначенный для технических университетов с усиленной математической подготовкой. Отличительной особенностью данной книги является взвешенное сочетание математической строгости изложения основ теории вероятностей с прикладной направленностью задач и примеров, иллюстрирующих теоретические положения. Каждую главу книги завершает набор большого числа контрольных вопросов, типовых примеров и задач для самостоятельного решения.
Содержание учебника соответствует курсу лекций, который авторы читают в МГТУ им. Н.Э.Баумана.
Для студентов технических университетов. Может быть полезен преподавателям и аспирантам.

@data_math

👍15🔥4💩2🥰1

4.53K views09:10

Математика Дата саентиста

👩‍💻

Great Great Numbers (GGN) — это простая библиотека на C для работы с целыми числами произвольной длины. Она поддерживает арифметические операции (сложение, вычитание, умножение и деление) над числами, которые превышают стандартные типы данных.

🌟 GGN позволяет работать со знаковыми числами, выполнять инициализацию больших чисел с помощью строк и предоставляет утилиты для вывода и сравнения. Библиотека ориентирована на разработчиков, которым необходима работа с большими числами в приложениях на C

🔐 Лицензия: MIT

▪️GitHub

@data_math

Please open Telegram to view this post

VIEW IN TELEGRAM

❤10🔥2🥱2

4.55K views10:01

Математика Дата саентиста

Forwarded from Machinelearning

🌟 OpenMathInstruct-2: математический датасет и набор моделей от NVIDIA.

OpenMathInstruct-2 состоит из 14 млн. пар "вопрос-решение" (примерно 600 тысяч уникальных вопросов) и является одним из крупнейших общедоступных наборов данных для обучения LLM в математике.

Набор данных создан на основе Llama-3.1-405B-Instruct путем синтеза решений для существующих вопросов из наборов данных MATH и GSM8K и генерации новых задач и решений.

Результаты абляционных экспериментов, которые проводились для поиска оптимальных параметров синтеза, показали, что:

🟢формат решения имеет значение, причем чрезмерно подробные решения негативно сказываются на производительности модели;

🟢данные, сгенерированные сильной моделью-учителем, превосходят по качеству данные, полученные от более слабой модели;

🟢процесс обучения устойчив к наличию до 20% решений низкого качества;

🟢разнообразие вопросов имеет решающее значение для масштабирования данных.

Итоговые данные, включенные в датасет прошли тщательную деконтаминацию с использованием конвейера lm-sys и ручной проверки на поиск дубликатов с тестовыми наборами данных.

OpenMathInstruct-2 показал высокую эффективность при обучении LLM.

Модель Llama3.1-8B-Base, обученная на OpenMathInstruct-2, превзошла Llama3.1-8B-Instruct на 15,9% по точности на наборе данных MATH, а OpenMath2-Llama3.1-70B обошла Llama3.1-70B-Instruct на 3,9%.

Датасет выпущен в 3-х размерностях: полный набор (примерно 7.5 GB) и уменьшенные версии train_1M (640 Mb), train_2M (1.3 Gb) и train_5M (3.1 Gb).

▶️ Модели, дообученные на этом датасете:

🟠

OpenMath2-Llama3.1-70B, в формате Nemo, квантованные версии GGUF (от 3-bit до 8-bit);

🟠

OpenMath2-Llama3.1-8B, в формате Nemo, квантованные версии GGUF (от 2-bit до 8-bit).

📌Лицензирование датасета : CC-BY-4.0 License.

📌Лицензирование моделей: Llama 3.1 Community License.

🟡

Набор моделей

🟡

Arxiv

🟡

Датасет

@ai_machinelearning_big_data

#AI #ML #LLM #MATH #NVIDIA #Dataset

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6🔥3

5.38K views14:37

Математика Дата саентиста

RamdaJS

1. Функциональное программирование с RamdaJS. Основы и блок Математики
2. Обработка строк в RamdaJS и поток вызова функций
3. Методы объектов в RamdaJS и пара полезных функций
4. Логические операции в RamdaJS
5. Функции первой необходимости в RamdaJS
6. Трансдюсеры в RamdaJS - скидка на дорогие операции
7. Линзы в RamdaJS как абстракция по работе со структурами данных

#video #js

https://www.youtube.com/watch?v=XkNynJBruKY&list=PLiZoB8JBsdzkqsILPvz5jw2-OJ5rw6ukH

👍2🔥2

4.05K views11:00

Математика Дата саентиста

0:15

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️

Объясняем математику простым способом

@data_math

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥31❤5👍1🥰1

4.62K views14:02

Математика Дата саентиста

👩‍💻

tensor.h — представляет собой минималистичную библиотеку для работы с тензорами на языке C. Основной задачей является выполнение математических операций с многомерными массивами без сложных зависимостей.

Те́нзор (от лат. tensus, «напряжённый») — объект линейной алгебры, линейно преобразующий элементы одного линейного пространства в элементы другого. Частными случаями тензоров являются скаляры, векторы, билинейные формы и т. п.

💡 В README содержится подробное руководство, где описаны примеры использования и базовые операции с тензорами, что облегчает начальную настройку и работу с библиотекой. Это делает её удобной для численных вычислений и задач машинного обучения.

▪️Github

@data_math

Please open Telegram to view this post

VIEW IN TELEGRAM

👍10🔥5❤2🥴1

4.13K viewsedited 14:42

Математика Дата саентиста

Forwarded from Machinelearning

0:45

This media is not supported in your browser

VIEW IN TELEGRAM

🌟 SegVLAD: метод визуального распознавания мест.

SegVLAD - метод для решения задач визуального распознавания мест (VPR) в условиях значительных изменений ракурса. SegVLAD использует сегментацию изображений, разделяя их на значимые объекты ("вещи"). Вместо того, чтобы кодировать все изображение целиком, как это делают традиционные методы VPR, SegVLAD кодирует и ищет соответствия на уровне отдельных сегментов.

Основа архитектуры SegVLAD - набор перекрывающихся подграфов сегментов SuperSegments. Подграфы создаются путем расширения окрестности каждого сегмента, учитывая информацию о соседних сегментах, полученную с помощью триангуляции Делоне.

Для каждого SuperSegment вычисляется дескриптор с использованием метода VLAD (Vector of Locally Aggregated Descriptors).

VLAD агрегирует локальные дескрипторы пикселей, полученные с помощью предварительно обученного DINOv2, который способен извлекать высокоуровневые признаки, инвариантные к различным условиям съемки.

SegVLAD обучался на наборах данных, включающих как уличные, так и внутренние среды: Pitts30k, AmsterTime, Mapillary Street Level Sequences (MSLS), SF-XL, Revisted Oxford5K, Revisited Paris6k, Baidu Mall, 17Places, InsideOut и VPAir.

Тесты SegVLAD показали, что метод превосходит современные VPR, особенно на датасетах с большими изменениями точки обзора. SegVLAD является универсальным и может быть использован с различными методами сегментации изображений и кодировщиками признаков.

Проект программной реализации метода SegVLAD - Revisit Anything.

▶️Локальный запуск с набором данных 17 places из датасета AnyLock (~ 32GB) и моделями SAM+DINO:

⚠️ Перед запуском подготовьте данные датасета согласно структуре и укажите путь к данным в place_rec_global_config.py/

# Шаг1 - выбор метода (DINO/SAM):
python place_rec_SAM_DINO.py --dataset <> --method DINO/SAM

# Шаг2 - генерация VLAD cluster center (опционально):
python vlad_c_centers_pt_gen.py --dataset <>

# Шаг 3 - извлечение PCA:
place_rec_global_any_dataset_pca_extraction.py --dataset <> --experiment <> --vocab-vlad <domain/map>

# Шаг 4 - запуск SegVLAD: 
place_rec_main.py --dataset <> --experiment <> --vocab-vlad <domain/map> --save_results <True/False>

📌Лицензирование : BSD-3-Clause license.

🟡

Страница проекта

🟡

Arxiv

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #SAM #DINO #VPR #SegVLAD

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6🔥3❤2

5.24K views14:15

Математика Дата саентиста

Linear Algebra Done Right

📓 Книга

@data_math

👍11❤5🔥2

4.08K views09:35

Математика Дата саентиста

🤙 Число Грэма на пальцах

Как только ребенок (а это происходит где–то года в три–четыре) понимает, что все числа делятся на три группы "один, два и много", он тут же пытается выяснить: насколько много бывает много, чем много отличается от очень много, и может ли оказаться так много, что больше не бывает. Наверняка вы играли с родителями в интересную (для того возраста) игру, кто назовет самое большее число, и если предок был не глупее пятиклассника, то он всегда выигрывал, на каждый "миллион" отвечая "два миллиона", а на "миллиард" — "два миллиарда" или "миллиард плюс один".

Уже к первому классу школы каждый знает — чисел бесконечное множество, они никогда не заканчиваются и самого большого числа не бывает. К любому миллиону триллионов миллиардов всегда можно сказать "плюс один" и остаться в выигрыше. А чуточку позже приходит (должно прийти!) понимание, что длинные строки цифр сами по себе ничего не значат. Все эти триллионы миллиардов только тогда имеют смысл, когда служат представлением какого–то количества предметов или же описывают некое явление. Выдумать длиннющее число, которое ничего из себя не представляет, кроме набора долгозвучащих цифр, нет никакого труда, их итак бесконечное количество. Наука, в какой–то образной мере, занимается тем, что выискивает в этой необозримой бездне совершенно конкретные комбинации цифр, присовокупляя к некому физическому явлению, например скорости света, числу Авогадро или постоянной Планка.

Представьте, насколько огромными могут быть числа! Вот несколько примеров невероятно больших чисел:

10^51 — это количество атомов на Земле.

10^80 — примерно столько существует элементарных частиц во всей видимой Вселенной.

10^90 — примерно столько существует фотонов во всей видимой Вселенной. Это число превышает количество элементарных частиц почти в 10 миллиардов раз.

10^100 — это гугол. Хотя это число не имеет физического смысла, оно звучит красиво и кругло. В 1998 году компания, которая поставила перед собой шутливую цель проиндексировать гугол ссылок, назвалась Google.

10^122 — это количество протонов, необходимое для заполнения всей видимой Вселенной до предела.

10^185 — это объем видимой Вселенной в планковских объемах. Планковский объем — это куб размером 10^-35 метров, наименьший известный науке размер. Скорее всего, как и у Вселенной, существуют еще более мелкие объекты, но ученые пока не нашли для них внятных формул, ограничиваясь лишь предположениями.

Но даже эти числа далеко не предел. Настоящие гиганты, такие как число Грэма, все еще ждут своего часа.

⭐️

Читать подробнее

@data_math

Please open Telegram to view this post

VIEW IN TELEGRAM

❤17👍10🔥4🤯2🤪1

5.02K views14:00

Математика Дата саентиста

🖥

kalmangrad — это Python-библиотека для вычисления гладких производных произвольного порядка для временных рядов с нерегулярными интервалами. Она использует байесовскую фильтрацию, что делает её устойчивой к шумам по сравнению с классическими методами численного дифференцирования

⭐️ Библиотека полезна для оценки производных в таких областях, как обработка сигналов и системы управления, и поддерживает вычисление производных вплоть до заданного порядка

🖥

GitHub

@data_math

Please open Telegram to view this post

VIEW IN TELEGRAM

👍12❤3🔥3

5.13K viewsedited 15:32

Математика Дата саентиста

Forwarded from Анализ данных (Data analysis)

1:44:31

Media is too big

VIEW IN TELEGRAM

🔥 Видео от университета Стэнфорда о создании больших языковых моделей!

💡 Это видео — краткий обзор создания модели, подобной ChatGPT, охватывающий как предварительное обучение модели, так и последующее обучение (SFT/RLHF).

В видео рассматриваются общие практики сбора данных, алгоритмы и методы оценки модели.

🕞 Продолжительность: 1:44:30

🔗 Ссылка: *клик*

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

❤11👍6🔥6

4.49K views15:38

Математика Дата саентиста

🛜 Находим пароль от Wi-fi из известного мема, с помощью Grok и Chatgpt.

GPT решил задачу численно, а Grok понял, что интеграл можно разбить на 2 части: первая - интеграл от нечетной функции по [-a,a] (которая равна 0), а вторая - площадь круга!

@data_math

👍28❤4🔥4👎1🤡1🙈1

4.79K views16:00

About

Blog

Apps

Platform