Математика Дата саентиста – Telegram

Математика Дата саентиста

14K subscribers

447 photos

170 videos

40 files

392 links

@workakkk - админ

@data_analysis_ml - ds

https://gosuslugi.ru/snet/67b55bb01a1c5a6fb6ecc946

Download Telegram

About

Blog

Apps

Platform

Математика Дата саентиста

14K subscribers

Математика Дата саентиста

Конспекты курса "Математический анализ 1 для отличников"

PDF: https://math.uwaterloo.ca/~baforres/UCM137/CourseNotes/Forrest_M137CN.pdf

@data_math

❤5👍5🔥2

3.49K views13:43

Математика Дата саентиста

Media is too big

VIEW IN TELEGRAM

📊 Игры хаоса. Фракталы

Насколько красивым и упорядоченным может быть хаос! Как нарисовать целый лес деревьев и растений, используя пару правил?

Теория хаоса, фракталы, аттракторы и подкрученные игровые кости – все это в новом переводе ролика от Numberphile.

@data_math

👍11❤5🔥5

3.74K views16:30

Математика Дата саентиста

🎓 Конспекты курса Гарвардского университета "Продвинутый комплексный анализ"

PDF: https://people.math.harvard.edu/~ctm/papers/home/text/class/harvard/213a/course/course.pdf

@data_math

👍13❤5🔥2👎1

3.53K viewsedited 11:03

Математика Дата саентиста

Media is too big

VIEW IN TELEGRAM

Media is too big

VIEW IN TELEGRAM

Media is too big

VIEW IN TELEGRAM

Media is too big

VIEW IN TELEGRAM

Media is too big

VIEW IN TELEGRAM

Media is too big

VIEW IN TELEGRAM

Media is too big

VIEW IN TELEGRAM

Media is too big

VIEW IN TELEGRAM

Media is too big

VIEW IN TELEGRAM

Media is too big

VIEW IN TELEGRAM

🎓 Парадоксы теории вероятностей

Лекции: ВМК МГУ. Ульянов В.В.

👉источник

@data_math

👍15❤5🔥4

4.21K views11:14

Математика Дата саентиста

Forwarded from Machinelearning

This media is not supported in your browser

VIEW IN TELEGRAM

🌟 The Well: Масштабная коллекция физических симуляций для машинного обучения.

The Well – коллекция датасетов для машинного обучения, содержащая 15 ТБ данных численного моделирования различных физических систем. Коллекция состоит из 16 наборов данных из областей: биологии, гидродинамики, акустики, магнитогидродинамики, внегалактических субстанций и взрывы сверхновых.

Данные представлены в унифицированном формате HDF5, организованном в соответствии с общей спецификацией. Они сгенерированы на равномерных сетках и дискретизированы с постоянным временным шагом.

Файлы HDF5 содержат все доступные переменные состояния и пространственно-изменяющиеся коэффициенты в виде массивов NumPy в формате одинарной точности fp32. Доступны скалярные, векторные и тензорные поля, учитывая их различные свойства преобразования.

Каждый файл данных случайным образом разделен на обучающую, тестовую и валидационную выборки в соотношении 8:1:1. Детальное описание каждого набора данных представлено в таблицах, где указаны координатная система, разрешение снимков, количество временных шагов в траектории, общее количество траекторий в наборе данных, размер набора данных, время выполнения симуляций и используемое оборудование.

The Well предоставляет класс the_well для Python, который позволяет загружать и использовать данные в процессе обучения моделей. Для удобства большинство наборов размещены на Hugging Face, что позволяет получать данные напрямую через интернет.

▶️ Установка и пример использования c HF:

# Create new venv
python -m venv path/to/env
source path/to/env/activate/bin

# Instal from repo
git clone https://github.com/PolymathicAI/the_well
cd the_well
pip install .

# Streaming from Hugging Face
from the_well.data import WellDataset
from torch.utils.data import DataLoader

trainset = WellDataset(
    well_base_path="hf://datasets/polymathic-ai/",
    well_dataset_name="active_matter",
    well_split_name="train",
)
train_loader = DataLoader(trainset)

for batch in train_loader:
    ...

📌Лицензирование кода : BSD-3-Clause License.

📌Лицензирование датасетов : CC-BY-4.0 License.

🟡

Страница проекта

🟡

Коллекция на HF

🟡

🟡

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #Dataset #TheWell

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7👍3

3.99K views15:33

Математика Дата саентиста

Forwarded from Machinelearning

This media is not supported in your browser

VIEW IN TELEGRAM

🌟 EXAONE 3.5: Набор инструктивных моделей от LG AI.

LG AI Research опубликовала 3 новые инструктивные двуязычные (английский и корейский) модели EXAONE 3.5 с контекстным окном в 32 тыс. токенов:

🟠

2.4B – компактная модель для использования на устройствах;,

🟠

7.8B – универсальная модель;

🟢

32B – высокопроизводительная модель для задач, требующих максимальной эффективности.

Разработчики EXAONE 3.5 улучшили эффективность обучения моделей. На этапе предварительного обучения из наборов данных удалялись дубликаты и личная информация, что позволило повысить качество ответов моделей и оптимизировать использование ресурсов. На этапе постобработки применялись методы SFT и DPO, чтобы улучшить способность моделей понимать инструкции и предпочтения пользователей.

Для повышения надежности оценки производительности EXAONE 3.5 был проведен тщательный процесс деконтаминации. Метод деконтаминации был взят из глобальной модели, а его эффективность оценивалась путем многократного сравнения обучающих данных с тестовыми наборами данных.

К каждой модели, LG AI выпустил квантованные версии в форматах AWQ и GGUF.

⚠️ EXAONE 3.5 - инструктивные модели, поэтому рекомендуется использовать системные промпты, представленные в примере кода инференса.

▶️Пример инференса EXAONE-3.5-7.8B-Instruct на Transformers:

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "LGAI-EXAONE/EXAONE-3.5-7.8B-Instruct"

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    trust_remote_code=True,
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

prompt = "%Prompt%" 

messages = [
    {"role": "system", "content": "You are EXAONE model from LG AI Research, a helpful assistant."},
    {"role": "user", "content": prompt}
]
input_ids = tokenizer.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    return_tensors="pt"
)

output = model.generate(
    input_ids.to("cuda"),
    eos_token_id=tokenizer.eos_token_id,
    max_new_tokens=128,
    do_sample=False,
)
print(tokenizer.decode(output[0]))

📌Лицензирование: EXAONE AI Model License.

🟡

🟡

Набор моделей

🟡

🟡

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #LLM #EXAONE #LG

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7❤4🔥2💩2

3.22K views20:01