Big data world
2.36K subscribers
412 photos
64 videos
18 files
1.25K links
Интересные статьи Data Science : Big Data : Machine Learning : Deep Learning

По вопросам сотрудничества- @Daily_admin_info

По иным темам @un_ixtime
Download Telegram
1,5 года знаний Spark в 8 советах

Мои выводы из взаимодействия с клиентами Databricks
https://towardsdatascience.com/1-5-years-of-spark-knowledge-in-8-tips-f003c4743083
Самый быстрый способ чтения Excel на Python

Чтение 500 тыс. строк менее чем за 4 секунды
https://hakibenita.com/fast-excel-python
PFGM++: буст генеративных моделей с применением электростатики

Новая ступень в развитии диффузионных генеративных моделей ИИ, и новая возможность создавать собственные изображения в 10 раз быстрее, чем раньше. Это стало реальным благодаря удачной попытке совместить знания об электростатике и принципу функционирования привычных нам диффузионных моделей. Так, исследователям из MIT CSAIL удалось воплотить в жизнь инновационную модель PFGM ++, которая по последним данным значительно превосходит своих предшественниц.

Какова физическая природа PFGM ++, и как ее использовать на практике – давайте разбираться далее вместе. https://habr.com/ru/companies/bothub/articles/785192/
👍1
Как я сделал ремастер всех серий Том и Джерри в 2к всего за пару месяцев

Улучшение Том и Джерри из 480p в 1440p

С чего всё началось? Как-то я решил в третий раз с детства пересмотреть всю оригинальную коллекцию "Том и Джерри", но я, в отличие от маленького ребёнка, не потребляю любой контент вне зависимости от его качества. И вот я собрался посмотреть самую доступную версию, а там вот это цветошоу с постоянными царапинами на всём экране. https://habr.com/ru/articles/784648/
Шлюз LLM (GitHub Repo) Portkey AI недавно выложила в открытый доступ свой шлюз, который позволяет осуществлять маршрутизацию между множеством различных языковых моделей. подробнее→ https://github.com/Portkey-AI/gateway
👍3
С новым годом: GPT в 500 строках на SQL

В минувшем году все только и говорили об ИИ и о том, как он может всё за вас сделать.

Мне нравится, когда кто-то или что-то работает за меня. Поэтому решил: попрошу-ка ChatGPT написать за меня новогодний пост:

«Эй, ChatGPT. А ты можешь реализовать большую языковую модель на SQL?»
«Нет, SQL не подходит для реализации больших языковых моделей. Язык SQL предназначен для выполнения запросов к данным, хранящимся в РСУБД и для управления этими запросами. Для реализации большой языковой модели требуются сложные алгоритмы, обширные датасеты, а зачастую — и фреймворки для глубокого обучения. SQL всеми этими возможностями не обладает.»

Что ж, лишний раз убеждаешься, что, если хочешь что‑то сделать хорошо – сделай это сам.

Давайте же воодушевимся этим оптимистическим планом и реализуем большую языковую модель на языке SQL.
https://habr.com/ru/articles/786276/
Как работают трансформеры: разбираем математику

В этом посте я представлю подробный пример математики, используемой внутри модели трансформера, чтобы вы получили хорошее представление о работе модели. Чтобы пост был понятным, я многое упрощу. Мы будем выполнять довольно много вычислений вручную, поэтому снизим размерность модели. Например, вместо эмбеддингов из 512 значений мы используем эмбеддинги из 4 значений. Это позволит упростить понимание вычислений. Мы используем произвольные векторы и матрицы, но при желании вы можете выбрать собственные значения.

Как вы увидите, математика модели не так уж сложна. Сложность возникает из-за количества этапов и количества параметров. https://habr.com/ru/articles/785474/
130 терминов в области науки о данных, которые должен знать каждый специалист по данным

https://medium.com/aimonks/130-data-science-terms-every-data-scientist-should-know-7199a22fc809
Deepdive: Text-To-Video (18 минут чтения) Генерация видео из текстовых описаний - активная область исследований, и за последние несколько недель появилось множество мощных моделей. В этом блоге команды Hugging Face описывается задача, текущие проблемы и состояние исследований. Он не является полностью исчерпывающим, но послужит отличной отправной точкой для дальнейшего чтения. подробнее→ https://huggingface.co/blog/text-to-video
Модель для всех видов сегментации изображений и видео (2 минуты чтения) OMG-Seg - это новая модель, которая может выполнять различные задачи сегментации изображений и видео с помощью одной эффективной системы. В отличие от традиционных методов, использующих различные модели для каждой задачи, OMG-Seg обрабатывает все - от семантики изображений до интерактивной сегментации видео, что делает ее универсальным решением с пониженной сложностью и повышенной производительностью. подробнее

https://lxtgh.github.io/project/omg_seg/
Программное обеспечение для создания подписей к изображениям (GitHub Repo) Простое программное обеспечение, которое можно использовать для добавления подписей к изображениям для обучения ИИ. подробнее→ https://github.com/ANTONIOPSD/CaptionIMG
Новый набор данных для оценки моделей музыки и языка (репозиторий GitHub)

Набор данных Song Describer содержит более тысячи рукописных описаний музыкальных записей. Этот новый набор данных помогает оценивать модели музыки и языка с помощью таких задач, как написание музыкальных титров и преобразование текста в музыку.
https://github.com/mulab-mir/song-describer-dataset?utm_source=tldrai
Понимание Того, Как Рассуждает Искусственный Интеллект

https://blog.openreplay.com/explainable-artificial-intelligence
Google извлек данные обучения ChatGPT с помощью глупого трюка.
Масштабируемое извлечение обучающих данных из (производственных) языковых моделей

https://medium.com/datadriveninvestor/google-extracted-chatgpts-training-data-using-a-silly-trick-5544b1dada71
Какими инструментами нужно владеть для работы с высоконагруженной архитектурой?

Расскажем на бесплатном практическом уроке «Роль Tarantool в высоконагруженной архитектуре» от OTUS.

На вебинаре разберём:
- особенности, функционал и преимущества Tarantool;
- архитектурные шаблоны и примеры его применения;
- итоги и вопросы.

🔥 Урок будет полезен для разработчиков, сисадминов и архитекторов, интересующихся высоконагруженными системами.

Занятие пройдёт 31 января в 20:00 мск и будет приурочено к старту курса «Highload Architect». Доступна рассрочка на обучение!

Пройдите короткое тестирование прямо сейчас, чтобы занять место на открытом уроке: https://otus.pw/v3UR/?erid=LjN8KVtT1

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
Прогнозирование цен на акции с помощью квантового машинного обучения на Python
Обзор проблем и возможностей
https://medium.datadriveninvestor.com/stock-price-prediction-with-quantum-machine-learning-in-python-54948a3da389