Big data world

919 views07:25

1,5 года знаний Spark в 8 советах

Мои выводы из взаимодействия с клиентами Databricks
https://towardsdatascience.com/1-5-years-of-spark-knowledge-in-8-tips-f003c4743083

Medium

1.5 Years of Spark Knowledge in 8 Tips

My learnings from Databricks customer engagements

969 views10:23

Big data world

Forwarded from Добро пожаловать в мир Python

Самый быстрый способ чтения Excel на Python

Чтение 500 тыс. строк менее чем за 4 секунды
https://hakibenita.com/fast-excel-python

Hakibenita

Fastest Way to Read Excel in Python

Reading 500K rows in less than 4 seconds

699 views08:19

Big data world

PFGM++: буст генеративных моделей с применением электростатики

Новая ступень в развитии диффузионных генеративных моделей ИИ, и новая возможность создавать собственные изображения в 10 раз быстрее, чем раньше. Это стало реальным благодаря удачной попытке совместить знания об электростатике и принципу функционирования привычных нам диффузионных моделей. Так, исследователям из MIT CSAIL удалось воплотить в жизнь инновационную модель PFGM ++, которая по последним данным значительно превосходит своих предшественниц.

Какова физическая природа PFGM ++, и как ее использовать на практике – давайте разбираться далее вместе. https://habr.com/ru/companies/bothub/articles/785192/

Хабр

PFGM++: буст генеративных моделей с применением электростатики

Развитие генеративных моделей ИИ продвигается семимильными шагами и будурожит сознания миллионов людей во всем мире. Все больше скандалов, интриг и расследований связаны с ними, мы становимся...

👍1

663 views08:46

Big data world

Как я сделал ремастер всех серий Том и Джерри в 2к всего за пару месяцев

Улучшение Том и Джерри из 480p в 1440p

С чего всё началось? Как-то я решил в третий раз с детства пересмотреть всю оригинальную коллекцию "Том и Джерри", но я, в отличие от маленького ребёнка, не потребляю любой контент вне зависимости от его качества. И вот я собрался посмотреть самую доступную версию, а там вот это цветошоу с постоянными царапинами на всём экране. https://habr.com/ru/articles/784648/

Хабр

Как я сделал ремастер всех серий Том и Джерри в 2к всего за пару месяцев

С чего всё началось? Как-то я решил в третий раз с детства пересмотреть всю оригинальную коллекцию "Том и Джерри", но я, в отличие от маленького ребёнка, не потребляю любой контент вне зависимости от...

744 views12:50

Big data world

Шлюз LLM (GitHub Repo) Portkey AI недавно выложила в открытый доступ свой шлюз, который позволяет осуществлять маршрутизацию между множеством различных языковых моделей. подробнее→ https://github.com/Portkey-AI/gateway

GitHub

GitHub - Portkey-AI/gateway: A blazing fast AI Gateway with integrated guardrails. Route to 200+ LLMs, 50+ AI Guardrails with 1…

A blazing fast AI Gateway with integrated guardrails. Route to 200+ LLMs, 50+ AI Guardrails with 1 fast & friendly API. - Portkey-AI/gateway

👍3

835 views14:56

Big data world

С новым годом: GPT в 500 строках на SQL

В минувшем году все только и говорили об ИИ и о том, как он может всё за вас сделать.

Мне нравится, когда кто-то или что-то работает за меня. Поэтому решил: попрошу-ка ChatGPT написать за меня новогодний пост:

«Эй, ChatGPT. А ты можешь реализовать большую языковую модель на SQL?»
«Нет, SQL не подходит для реализации больших языковых моделей. Язык SQL предназначен для выполнения запросов к данным, хранящимся в РСУБД и для управления этими запросами. Для реализации большой языковой модели требуются сложные алгоритмы, обширные датасеты, а зачастую — и фреймворки для глубокого обучения. SQL всеми этими возможностями не обладает.»

Что ж, лишний раз убеждаешься, что, если хочешь что‑то сделать хорошо – сделай это сам.

Давайте же воодушевимся этим оптимистическим планом и реализуем большую языковую модель на языке SQL.
https://habr.com/ru/articles/786276/

Хабр

С новым годом: GPT в 500 строках на SQL

В минувшем году все только и говорили об ИИ и о том, как он может всё за вас сделать. Мне нравится, когда кто-то или что-то работает за меня. Поэтому решил: попрошу-ка ChatGPT написать за меня...

789 views09:17

Big data world

Как работают трансформеры: разбираем математику

В этом посте я представлю подробный пример математики, используемой внутри модели трансформера, чтобы вы получили хорошее представление о работе модели. Чтобы пост был понятным, я многое упрощу. Мы будем выполнять довольно много вычислений вручную, поэтому снизим размерность модели. Например, вместо эмбеддингов из 512 значений мы используем эмбеддинги из 4 значений. Это позволит упростить понимание вычислений. Мы используем произвольные векторы и матрицы, но при желании вы можете выбрать собственные значения.

Как вы увидите, математика модели не так уж сложна. Сложность возникает из-за количества этапов и количества параметров. https://habr.com/ru/articles/785474/

Хабр

Как работают трансформеры: разбираем математику

В этом посте я представлю подробный пример математики, используемой внутри модели трансформера, чтобы вы получили хорошее представление о работе модели. Чтобы пост был понятным, я многое упрощу. Мы...

793 views13:19

Big data world

130 терминов в области науки о данных, которые должен знать каждый специалист по данным

https://medium.com/aimonks/130-data-science-terms-every-data-scientist-should-know-7199a22fc809

Medium

130+ Data Science Terms Every Data Scientist Should Know in 2024

Most Data Science Jargon explained in plain English

562 views11:27

Big data world

Deepdive: Text-To-Video (18 минут чтения) Генерация видео из текстовых описаний - активная область исследований, и за последние несколько недель появилось множество мощных моделей. В этом блоге команды Hugging Face описывается задача, текущие проблемы и состояние исследований. Он не является полностью исчерпывающим, но послужит отличной отправной точкой для дальнейшего чтения. подробнее→ https://huggingface.co/blog/text-to-video

huggingface.co

A Dive into Text-to-Video Models

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

608 views12:33

Big data world

Модель для всех видов сегментации изображений и видео (2 минуты чтения) OMG-Seg - это новая модель, которая может выполнять различные задачи сегментации изображений и видео с помощью одной эффективной системы. В отличие от традиционных методов, использующих различные модели для каждой задачи, OMG-Seg обрабатывает все - от семантики изображений до интерактивной сегментации видео, что делает ее универсальным решением с пониженной сложностью и повышенной производительностью. подробнее

https://lxtgh.github.io/project/omg_seg/

601 views12:34

Big data world

Программное обеспечение для создания подписей к изображениям (GitHub Repo) Простое программное обеспечение, которое можно использовать для добавления подписей к изображениям для обучения ИИ. подробнее→ https://github.com/ANTONIOPSD/CaptionIMG

GitHub

GitHub - ANTONIOPSD/CaptionIMG: Simple program to manually caption your images (or any other file types) so you can use them for…

Simple program to manually caption your images (or any other file types) so you can use them for AI training - ANTONIOPSD/CaptionIMG

561 views14:35

Big data world

Новый набор данных для оценки моделей музыки и языка (репозиторий GitHub)

Набор данных Song Describer содержит более тысячи рукописных описаний музыкальных записей. Этот новый набор данных помогает оценивать модели музыки и языка с помощью таких задач, как написание музыкальных титров и преобразование текста в музыку.
https://github.com/mulab-mir/song-describer-dataset?utm_source=tldrai

GitHub

GitHub - mulab-mir/song-describer-dataset: The Song Describer dataset is an evaluation dataset made of ~1.1k captions for 706 permissively…

The Song Describer dataset is an evaluation dataset made of ~1.1k captions for 706 permissively licensed music recordings. - mulab-mir/song-describer-dataset

638 views16:53

Big data world

Понимание Того, Как Рассуждает Искусственный Интеллект

https://blog.openreplay.com/explainable-artificial-intelligence

Openreplay

Understanding how Artificial Intelligence reasons

Understanding what AI says

618 views16:56

Big data world

Google извлек данные обучения ChatGPT с помощью глупого трюка.
Масштабируемое извлечение обучающих данных из (производственных) языковых моделей

https://medium.com/datadriveninvestor/google-extracted-chatgpts-training-data-using-a-silly-trick-5544b1dada71

Medium

Google extracted ChatGPT’s Training Data using a silly trick.

Scalable Extraction of Training Data from (Production) Language Models

745 views17:07

Big data world

Как мы с помощью ML вылечили проблему, не дававшую перейти на автомаршрутизацию курьеров

https://habr.com/ru/companies/cdek_blog/articles/788816/

Хабр

Как мы с помощью ML вылечили проблему, не дававшую перейти на автомаршрутизацию курьеров

Привет, Хабр! Меня зовут Наталья Макарова, я ведущий разработчик команды геоданных в CDEK. В этой статье расскажу, как мы с помощью ML решили проблему, не дававшую нашей...

818 views07:15

Big data world

Изучите LangChain и Gen AI, создав 6 проектов

https://www.freecodecamp.org/news/learn-langchain-and-gen-ai-by-building-6-projects

freeCodeCamp.org

Learn LangChain and Gen AI by Building 6 Projects

Learning LangChain empowers you to seamlessly integrate advanced language models like GPT-4 into diverse applications, unlocking capabilities in natural language processing and AI-driven applications. We just published a full course on the freeCodeCa...

637 views06:31

Big data world

Лучшие курсы по науке о данных и машинному обучению

https://github.com/Coder-World04/Best-Data-Science-and-ML-Courses

GitHub

GitHub - Coder-World04/Best-Data-Science-and-ML-Courses: This repository contains best courses you MUST take to skyrocket your…

This repository contains best courses you MUST take to skyrocket your Data Science and Machine Learning Journey - Coder-World04/Best-Data-Science-and-ML-Courses

658 views07:52

Big data world

Какими инструментами нужно владеть для работы с высоконагруженной архитектурой?

Расскажем на бесплатном практическом уроке «Роль Tarantool в высоконагруженной архитектуре» от OTUS.

На вебинаре разберём:
- особенности, функционал и преимущества Tarantool;
- архитектурные шаблоны и примеры его применения;
- итоги и вопросы.

🔥 Урок будет полезен для разработчиков, сисадминов и архитекторов, интересующихся высоконагруженными системами.

Занятие пройдёт 31 января в 20:00 мск и будет приурочено к старту курса «Highload Architect». Доступна рассрочка на обучение!

Пройдите короткое тестирование прямо сейчас, чтобы занять место на открытом уроке: https://otus.pw/v3UR/?erid=LjN8KVtT1

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.

655 views15:12

Big data world

Прогнозирование цен на акции с помощью квантового машинного обучения на Python
Обзор проблем и возможностей
https://medium.datadriveninvestor.com/stock-price-prediction-with-quantum-machine-learning-in-python-54948a3da389

Medium

Stock Price Prediction with Quantum Machine Learning in Python

An overview of the challenges and opportunities

725 views13:40

About

Blog

Apps

Platform