Будь то
Twitter
, показывающий посты для более чем миллиарда пользователей, или Netflix
, отслеживающий историю просмотров для предоставления персонализированных рекомендаций, - для работы с огромными объемами данных веб-приложениям требуются специализированные базы данных.Реляционные базы данных долгое время были стандартом для хранения структурированных данных. Однако появились новые типы баз данных, призванные удовлетворить растущие потребности в хранении данных.
Аналитические базы данных: Оптимизированы для сложных запросов бизнес-аналитики к большим массивам данных.
Модели хранения данных, ориентированные на столбцы, позволяют добиться высокого коэффициента сжатия и молниеносной скорости агрегирования. Благодаря хранению данных по столбцам, а не по строкам, аналитические базы данных могут выполнять быстрое сканирование для вычисления сумм, средних значений и других математических вычислений в огромных наборах записей.
Такое хранение данных по столбцам и оптимизированное агрегирование позволяет интерактивно запрашивать миллиарды строк для получения быстрых выводов.
Базы данных NoSQL: Обеспечивают гибкость, выходящую за рамки табличной реляционной модели. Различные базы данных
NoSQL
справляются с разными задачами:- Графовая база данных – это систематический набор данных, в котором подчеркиваются взаимосвязи между различными сущностями данных. База данных NoSQL использует математическую теорию графов для отображения связей с данными. В отличие от реляционных баз данных, которые хранят данные в жестких табличных структурах, графовые базы данных хранят данные в виде сети сущностей и отношений. В результате такие базы данных часто обеспечивают более высокую производительность и гибкость, поскольку лучше подходят для моделирования реальных сценариев.
- Базы данных «ключ — значение» работают совершенно иначе, чем более известные реляционные базы данных (РБД). В РБД предварительно определяют структуру данных в базе данных как последовательность таблиц, содержащих поля с четко определёнными типами данных. Экспонирование типов данных в базе данных позволяет применить ряд оптимизаций. Напротив, системы «ключ — значение» обрабатывают данные как одну непрозрачную коллекцию, которая может иметь разные поля для каждой записи. Это обеспечивает значительную гибкость и более точно следует современным концепциям, таким как объектно-ориентированное программирование. Поскольку необязательные значения не представлены заполнителями или входными параметрами, как в большинстве РБД, базы данных «ключ
- База данных документов – это тип баз данных NoSQL, предназначенный для хранения и запроса данных в виде документов в формате, подобном JSON. JavaScript Object Notation (JSON) – это открытый формат обмена данными, который читается как человеком, так и машиной.
-Колоночные базы данных - это тип баз данных, где данные хранятся и организуются по колонкам, в отличие от традиционных реляционных баз данных, где данные хранятся по строкам. В колоночных базах данных каждая колонка содержит данные одного типа, и они компактно хранятся в сжатом формате.
Объектно-реляционное отображение (ORM): Обеспечивает связь между объектно-ориентированным кодом и реляционными базами данных путем автоматического преобразования между представлениями данных. Это избавляет от утомительного ручного управления данными. Однако уровень абстракции может увеличивать нагрзку при сложных операциях чтения и записи. Отладка также может быть затруднена и приводить к нагрузке на систему.
Главное - выбрать правильную базу данных, соответствующую вашим конкретнымзадачам и моделям данных. Типичное приложение может использовать комбинацию реляционных, NoSQL и ORM-технологий для достижения наилучшей производительности при масштабировании.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤12👍10🔥2
Чтобы определить собственный метод сравнения для экземпляров классов #Python, используйте метод
__eq__
.@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍24❤6🔥3😁1💯1
This media is not supported in your browser
VIEW IN TELEGRAM
🦾 С 13 декабря разработчики могут получить доступ к Gemini Pro через Google AI Studio или через Google Cloud.
С доступом можзно быстро создавать прототипы и запускать приложения с помощью API-ключа. → https://dpmd.ai/announcing-gemini #GeminiAI
https://dpmd.ai/announcing-gemini #GeminiAI
@data_analysis_ml
С доступом можзно быстро создавать прототипы и запускать приложения с помощью API-ключа. → https://dpmd.ai/announcing-gemini #GeminiAI
https://dpmd.ai/announcing-gemini #GeminiAI
@data_analysis_ml
❤8👍4🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🌐 Проект: https://ruoyidu.github.io/demofusion/demofusion.html
📄 Статья: https://arxiv.org/abs/2311.16973
🧬 Код: https://github.com/PRIS-CV/DemoFusion
🦒Colab https://modelslab.com: пожалуйст
🐣Github: https://github.com/camenduru/DemoFusion-colab
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8👍6🔥2👎1🤨1
scikit-learn
и предлагающая множество продвинутых алгоритмов для задач обучения, прогнозирования и классификации.https://github.com/aeon-toolkit/aeon
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13👏9❤5🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🎞️Reenact Any Character in Movie🎞️
🖥 (SMPLer-X): https://github.com/caizhongang/SMPLer-X
🖥 Код (Propainter): https://github.com/sczhou/ProPainter
🏆 Website: https://caizhongang.com/projects/SMPLer-X/
🥩 Demo: https://caizhongang.com/projects/SMPLer-X/
#NeurIPS2023
@data_analysis_ml
SMPLer-X
первая открытая модель для монокулярного 4D захвата движения. Объеденив MPLerX и Propainter
можно создать свой ЛА-ЛА Ленд!#NeurIPS2023
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤2🔥2
1. Репозиторий Awesome Data Github
В этом репозитории вы найдете ссылки на открыте наборы данных, которые содержат изображения, текст, аудио и табличные данные.
https://github.com/awesomedata/awesome-public-datasets
2. Kaggle
Более 1000 датасетов, которые можно легко скачать и работать с ними, совершенно бесплатно.
https://www.kaggle.com/datasets
3. Открытый реестр данных на AWS
Поиск и обмен датасетами х с помощью ресурсов AWS.
4. Open ML
Более 20K+ наборов данных на Open ML
https://openml.org
5. Papers with Code
Papers with Code содержит более 7000 открытыз наборов данных по всем возможным тематикам.
https://paperswithcode.com/datasets
6. Hugging Face
На Hugging Face вы можете найти 80K+ наборов данных.
https://huggingface.co/datasets
7. Dagshub
Много бесплатных даатсетов можно найти на Dagshub:
https://dagshub.com/datasets/
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤17👍10🔥5
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14👍9❤1
This media is not supported in your browser
VIEW IN TELEGRAM
Автор, показывает что понимание и сжатие данных для llm- это две стороны одной медали.🪙
И что интересно, когда мы имеем дело с предсказанием слов, cжатие данных с потерями, выглядит умнее, чем сжатие без потерь! 💡
Ниже приводится объяснение того, почему ChatGPT дает нам иллюзию понимания:
"Тот факт, что ChatGPT перефразирует материал из Сети, а не цитирует его слово в слово... создает иллюзию, что ChatGPT понимает материал".
У людей заучивание не является показателем подлинного обучения, поэтому неспособность ChatGPT выдавать точные цитаты сайтов, как раз и заставляет нас думать, что он чему-то научился.
Когда мы имеем дело с последовательностями слов, сжатие с потерями выглядит умнее, чем сжатие без потерь".
Полный текст статьи читайте здесь: https://newyorker.com/tech/annals-of-technology/chatgpt-is-a-blurry-jpeg-of-the-web
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍25🔥4❤2
▪GPT-4 + Medprompt -> SOTA MMLU
https://microsoft.com/en-us/research/blog/steering-at-the-frontier-extending-the-power-of-prompting/
▪Mixtral 8x7B @ MLX
https://github.com/ml-explore/mlx-examples/tree/main/mixtral
▪За пределами человеческих данных: Масштабирование самообучения для решения проблем с помощью языковых моделей
https://arxiv.org/abs/2312.06585
▪Phi-2 (2.7B), самая маленькая и самая впечатляющая модель
https://microsoft.com/en-us/research/blog/phi-2-the-surprising-power-of-small-language-models/
▪LLM360: На пути к полностью прозрачным LLM с открытым исходным кодом
https://arxiv.org/abs/2312.06550
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15❤2🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
RLHF - это одна из ключевых техник, которая привела к появлению современных LLM.
В этом курсе, который ведет Никита Намджоши, разработчик из
GenAI
в Google cloud, вы узнаете, как работает RLHF, в том числе как применить его для настройки LLM в собственных приложениях.
Вы также воспользуетесь библиотекой с открытым исходным кодом для настройки базового LLM и оцените настроенную модель, сравнив ее ответы до и после RLHF-настройки.
deeplearning.ai/short-courses/reinforcement-learning-from-human-feedback/
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18❤2🔥1
Внушительный размер модели и высокие вычислительные требования модели Segment Anything Model (SAM) сделали ее громоздкой для развертывания на устройствах с ограниченными ресурсами.
Существующие подходы к сжатию SAM обычно предполагают обучение новой сети с нуля, что ставит перед разработчиками сложную задачу компромисса между степенью сжатия и производительностью модели.
Для решения этой проблемы представлен SlimSAM - новый метод сжатия SAM, который обеспечивает превосходную производительность при значительно меньших затратах на обучение.
Это достигается за счет эффективного повторного использования предварительно обученных моделей с помощью единой системы обрезки и дистилляции.
В отличие от предыдущих методов обрезки, мы тщательно обрезаем и дистиллируем разрозненные структуры моделей поочередно.
SlimSAM обеспечивает значительный прирост производительности и требует в 10 раз меньше затрат на обучение, чем другие существующие методы.
Даже по сравнению с оригинальным SAM-H, SlimSAM достигает приближающейся производительности при сокращении количества параметров всего до
0,9% (5,7M
), MAC до 0,8% (21G)
и требуя всего 0,1% (10k)
обучающих данных SAM.@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤1🔥1🥰1
PromptBench - это основанный на Pytorch пакет Python для оценки больших языковых моделей (LLM). Он предоставляет удобные API для исследователей, чтобы проводить оценку LLM.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤2🔥2
🎉 Лучшие Open Source проекты 2023 года.
Выбрана вторая группа победителей программы Google Open Source Peer Bonus Program 2023 года
138 победителей были выбраны за влияние их вклада в проект с открытым исходным кодом, качество их работы и преданность открытому исходному коду.
👉 https://opensource.googleblog.com/2023/12/google-open-source-peer-bonus-program-announces-second-group-of-2023-winners.html
@data_analysis_ml
Выбрана вторая группа победителей программы Google Open Source Peer Bonus Program 2023 года
138 победителей были выбраны за влияние их вклада в проект с открытым исходным кодом, качество их работы и преданность открытому исходному коду.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7❤4👍2
Улучшение нейросетей, рекомендаций и медицинская диагностика — только часть решений, где могут пригодиться ML-исследования. Авторов самых перспективных из них отметил Яндекс на Yandex ML Prize.
Yandex ML Prize — международная премия, которая уже пятый год поддерживает учёных-новичков и мотивирует их заниматься наукой. Участники изучают подходы и алгоритмы, которые позже могут лечь в основу разных технологий и продуктов. Например, поисковых сервисов или компьютерной графики. А ещё способны улучшить медицину: помогать изучать клетки живых организмов или находить редкие болезни на ранних этапах.
В этом году 11 лауреатов получили от Яндекса премии от 500 тысяч до 1 миллиона рублей, грант на использование платформы Yandex Cloud для экспериментов и больших вычислений и другие призы.
@data_analysis_ml
Yandex ML Prize — международная премия, которая уже пятый год поддерживает учёных-новичков и мотивирует их заниматься наукой. Участники изучают подходы и алгоритмы, которые позже могут лечь в основу разных технологий и продуктов. Например, поисковых сервисов или компьютерной графики. А ещё способны улучшить медицину: помогать изучать клетки живых организмов или находить редкие болезни на ранних этапах.
В этом году 11 лауреатов получили от Яндекса премии от 500 тысяч до 1 миллиона рублей, грант на использование платформы Yandex Cloud для экспериментов и больших вычислений и другие призы.
@data_analysis_ml
❤9🎉4👍2
⚡️ Python совет
При объединении двух датафреймов Pandas с одинаковыми именами столбцов по умолчанию к именам столбцов добавляются суффиксы
Чтобы улучшить читаемость кода, вы можете указать собственные суффиксы.
#Python
@data_analysis_ml
При объединении двух датафреймов Pandas с одинаковыми именами столбцов по умолчанию к именам столбцов добавляются суффиксы
"_x" и "_y".
Чтобы улучшить читаемость кода, вы можете указать собственные суффиксы.
#Python
@data_analysis_ml
👍44🥱3❤2😁2🔥1
🔥 Дайджест полезных материалов из мира Data Science за неделю
Почитать:
— Как извлекать пользу из данных: подборка материалов
— Что нового в Apache Spark 3.4.0 — Spark Connect — Доработки для Shuffle
— Инструменты продуктового аналитика VK, или Как мы работаем с большими данными
— Наиболее часто используемые команды Linux
— 79 Ресурсов, которые следует прочитать, чтобы улучшить свои навыки в области проектирования систем:
— Бесплатные сертификационные курсы для специалистов по данным
— Бесконечные проверки – к успешному развитию: как мы обеспечиваем качество данных
— Как мы наводим порядок с данными в столичном транспортном институте
— Introduction to NannyML: Model Evaluation without labels
— AI in Finance: Transforming Investment Strategies and Risk Management
— How to Use Pandas for Data Analysis
— Telemedicine capabilities expanded through artificial intelligence
— Google Cloud Storage com Python: Um Guia Completo
— Navigating Financial Insights: Analyzing Stock Data with Python and Visualization
— Unveiling Joint Variability: Exploring Covariance
— Navigating Financial Relationships: Understanding Correlation in Finance
— Amazon QuickSight Summary
— 6 Data Science Projects That Can Supercharge Your Job Prospects!
Посмотреть:
🌐 Mixtral 8x7B - это сет из 8 нейронок, которые работают вместе
🌐 How to use Llama2 locally (⏱ 09:00)
🌐 Ollama — модель уровня GPT. Используй GPT без ограничений и абсолютно бесплатно. (⏱ 07:40)
🌐 Shutil: лучший инструмент для управления файлами Python. (⏱ 17:05)
🌐 💡Задача Python: Максимальное среднее подмассива (⏱ 01:00)
🌐 Как использовать API ChatGpt. Работа с Api c нуля (⏱ 12:42)
🌐 Нахождение позиций в отсортированном массиве #python #array #shorts #сортировка (⏱ 00:40)
🌐 Lightning Interview "Catastrophic AI Risks" (⏱ 01:04:57)
🌐 Finetuning, Serving, and Evaluating LLMs in the Wild - Hao Zhang, PhD (⏱ 29:20)
🌐 New AI: 6,000,000,000 Steps In 24 Hours! (⏱ 08:28)
🌐 NVIDIA’s New AI: Virtual Worlds From Nothing! + Gemini Update! (⏱ 09:40)
Хорошего дня!
@data_analysis_ml
Почитать:
— Как извлекать пользу из данных: подборка материалов
— Что нового в Apache Spark 3.4.0 — Spark Connect — Доработки для Shuffle
— Инструменты продуктового аналитика VK, или Как мы работаем с большими данными
— Наиболее часто используемые команды Linux
— 79 Ресурсов, которые следует прочитать, чтобы улучшить свои навыки в области проектирования систем:
— Бесплатные сертификационные курсы для специалистов по данным
— Бесконечные проверки – к успешному развитию: как мы обеспечиваем качество данных
— Как мы наводим порядок с данными в столичном транспортном институте
— Introduction to NannyML: Model Evaluation without labels
— AI in Finance: Transforming Investment Strategies and Risk Management
— How to Use Pandas for Data Analysis
— Telemedicine capabilities expanded through artificial intelligence
— Google Cloud Storage com Python: Um Guia Completo
— Navigating Financial Insights: Analyzing Stock Data with Python and Visualization
— Unveiling Joint Variability: Exploring Covariance
— Navigating Financial Relationships: Understanding Correlation in Finance
— Amazon QuickSight Summary
— 6 Data Science Projects That Can Supercharge Your Job Prospects!
Посмотреть:
🌐 Mixtral 8x7B - это сет из 8 нейронок, которые работают вместе
🌐 How to use Llama2 locally (⏱ 09:00)
🌐 Ollama — модель уровня GPT. Используй GPT без ограничений и абсолютно бесплатно. (⏱ 07:40)
🌐 Shutil: лучший инструмент для управления файлами Python. (⏱ 17:05)
🌐 💡Задача Python: Максимальное среднее подмассива (⏱ 01:00)
🌐 Как использовать API ChatGpt. Работа с Api c нуля (⏱ 12:42)
🌐 Нахождение позиций в отсортированном массиве #python #array #shorts #сортировка (⏱ 00:40)
🌐 Lightning Interview "Catastrophic AI Risks" (⏱ 01:04:57)
🌐 Finetuning, Serving, and Evaluating LLMs in the Wild - Hao Zhang, PhD (⏱ 29:20)
🌐 New AI: 6,000,000,000 Steps In 24 Hours! (⏱ 08:28)
🌐 NVIDIA’s New AI: Virtual Worlds From Nothing! + Gemini Update! (⏱ 09:40)
Хорошего дня!
@data_analysis_ml
👍17❤8🔥6
🔥Подборка лучших обучающих каналов для программистов.
➡️Делитесь с коллегами и Сохраняйте себе, чтобы не потерять
⚡Машинное обучение
Machine Learning - полезные статьи новости гайды и разбор кода
Ml Собеседование - подготовка к собеседовению мл, алгоритмам, кодингу
Ml ru - актуальные статьи, новости, код и обучающие материалы
Ml Jobs - вакансии ML
ML Книги - актуальные бесплатные книги МО
ML чат
🚀 Data Science
Анализ данных - полезные фишки, код, гайды и советы, маст-хэв датасаентиста
Data Jobs - ds вакансии
Аналитик данных
Data Science книги - актуальные бесплатные книги
Big data
🏆 Golang
Golang - подробные гайды, разбор кода, лучшие практики, заметки
Golang собеседование
Golang вакансии
Golang книги
Golang задачи и тесты
Golang чат
Golang news - новости go
#️⃣C#
С# академия
С# заметки — код, лучшие практики, заметки программиста c#
С# задачи и тесты
С# библиотека - актуальные бесплатные книги
C# вакансии - работа
🐍 Python
Python/django
Python Собеседование - подготовка к собеседовению python и разбор алгоритмов
Pro python - статьи, новости, код и обучающие материалы
Python Jobs - вакансии Python
Python чат
Python книги
☕ Java
Java академия
Java вакансии
Java чат
Java вопросы с собеседований
Java книги
💻 C++
C++ академия
С++ книги
C++ задачи - подготовка к собеседовению мл, алгоритмам
C++ вакансии
💥 Хакинг Kali Linux
Kali linux
linux_kal - kali чат
Информационная безопасность
🐧 Linux
Linux academy
🦀 Rust
Rust программирование
Rust чат
🛢Базы данных
Sql базы данных
Библиотека баз данных
SQL чат
📲 Мобильная разработка
Android разработка
Мобильный разработчик гайды и уроки
🖥 Javascript/React/PHP
Javascript академия
React программирование
PHP
Книги frontend
Задачи frontend
🇬🇧 Английский для программистов
🧠 Искусственный интеллект
ИИ и технологии
Neural - нейросети для работы и жизни
Книги ИИ
Artificial Intelligence
🔥 DevOPs
Devops для программистов
Книги Devops
Docker
📓 Книги
Библиотеки Книг для программситов
💼 Папка с вакансиями:
Папка Go разработчика:
Папка Python разработчика:
Папка Data Science
Папка Java разработчика
Папка C#
➡️Делитесь с коллегами и Сохраняйте себе, чтобы не потерять
⚡Машинное обучение
Machine Learning - полезные статьи новости гайды и разбор кода
Ml Собеседование - подготовка к собеседовению мл, алгоритмам, кодингу
Ml ru - актуальные статьи, новости, код и обучающие материалы
Ml Jobs - вакансии ML
ML Книги - актуальные бесплатные книги МО
ML чат
🚀 Data Science
Анализ данных - полезные фишки, код, гайды и советы, маст-хэв датасаентиста
Data Jobs - ds вакансии
Аналитик данных
Data Science книги - актуальные бесплатные книги
Big data
🏆 Golang
Golang - подробные гайды, разбор кода, лучшие практики, заметки
Golang собеседование
Golang вакансии
Golang книги
Golang задачи и тесты
Golang чат
Golang news - новости go
#️⃣C#
С# академия
С# заметки — код, лучшие практики, заметки программиста c#
С# задачи и тесты
С# библиотека - актуальные бесплатные книги
C# вакансии - работа
🐍 Python
Python/django
Python Собеседование - подготовка к собеседовению python и разбор алгоритмов
Pro python - статьи, новости, код и обучающие материалы
Python Jobs - вакансии Python
Python чат
Python книги
☕ Java
Java академия
Java вакансии
Java чат
Java вопросы с собеседований
Java книги
💻 C++
C++ академия
С++ книги
C++ задачи - подготовка к собеседовению мл, алгоритмам
C++ вакансии
💥 Хакинг Kali Linux
Kali linux
linux_kal - kali чат
Информационная безопасность
🐧 Linux
Linux academy
🦀 Rust
Rust программирование
Rust чат
🛢Базы данных
Sql базы данных
Библиотека баз данных
SQL чат
📲 Мобильная разработка
Android разработка
Мобильный разработчик гайды и уроки
🖥 Javascript/React/PHP
Javascript академия
React программирование
PHP
Книги frontend
Задачи frontend
🇬🇧 Английский для программистов
🧠 Искусственный интеллект
ИИ и технологии
Neural - нейросети для работы и жизни
Книги ИИ
Artificial Intelligence
🔥 DevOPs
Devops для программистов
Книги Devops
Docker
📓 Книги
Библиотеки Книг для программситов
💼 Папка с вакансиями:
Папка Go разработчика:
Папка Python разработчика:
Папка Data Science
Папка Java разработчика
Папка C#
👍15❤8🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Хотите поэкспериментировать с различными методами обработки данных и гиперпараметрами модели? Редактирование конфигурационного файла вручную каждый раз может быть хлопотным.
Hydra позволяет быстро и легко создавать ин настраивать конфиги, выбирать опции из различных групп конфигураций.
@data_analysis_ml
Hydra позволяет быстро и легко создавать ин настраивать конфиги, выбирать опции из различных групп конфигураций.
@data_analysis_ml
👍13🔥3❤2