📌 Как появился BARSiC и как был усовершенствован его алгоритм
На Хабре выкатили интересный материал, который посвящен совместному проекту ВКонтакте и университета ИТМО «Разработка моделей для верификации распределенных алгоритмов в системе BARSiC». В этой статье подробно описано, как в рамках этого проекта верифицировали выбранный для BARSiC алгоритм и исправили найденную в нём ошибку.
BARSiC — система управления репликацией и консенсусом в кластере ВКонтакте. Прежде всего она контролирует состав кластера, определяя, кто реплика, а кто — мастер. А при выходе мастера из строя реплики выбирают нового с непротиворечивой линейной историей.
▪️ Читать
@DevOPSitsec
На Хабре выкатили интересный материал, который посвящен совместному проекту ВКонтакте и университета ИТМО «Разработка моделей для верификации распределенных алгоритмов в системе BARSiC». В этой статье подробно описано, как в рамках этого проекта верифицировали выбранный для BARSiC алгоритм и исправили найденную в нём ошибку.
BARSiC — система управления репликацией и консенсусом в кластере ВКонтакте. Прежде всего она контролирует состав кластера, определяя, кто реплика, а кто — мастер. А при выходе мастера из строя реплики выбирают нового с непротиворечивой линейной историей.
▪️ Читать
@DevOPSitsec
👍4❤1🔥1
📋Состояние инфраструктуры данных на 2023 год — ключевые тренды ландшафта MAD от Мэтта Терка
Основные изменения в инфраструктуре данных на 2023 год
Hadoop
Несмотря на то, что некоторые компоненты экосистемы Hadoop до сих пор используются (например, Hive), их популярность снизилась настолько, что эта экосистема больше не попадает в ландшафт индустрии данных, что также подтверждается последними статьями из разряда “Big Data is Dead”.
Data lakes стали относиться к одной категории с Lakehouse
Сюда, среди прочих, относятся следующие инструменты (где это актуально, в скобках также указаны год основания и общий объем финансирования):
• Cloudera (2008, $1041 млн) — корпоративный дата-хаб, построенный на базе Apache Hadoop.
• Databricks (2013, $3497 млн) — их платформа lakehouse используется для сервисов интеграции и аналитики. Эта компания ввела парадигму lakehouse и выступает лидером в этой категории.
• Dremio (2015, $405 млн) — платформа аналитики данных, позволяющая компаниям запрашивать данные с любого источника и ускоряющая аналитическую обработку с помощью инструментов бизнес-аналитики, машинного обучения и клиентов SQL.
• Onehouse (2021, $33 млн) — облачный управляемый сервис формата lakehouse, помогающий создавать озера данных, обрабатывать данные и владеть данными в опенсорсных форматах.
• Azure Data Lake Storage — подобный S3 сервис объектного хранилища, обычно называемый ADLS Gen 2
• Azure HD Insight — аналогичен вышеназванному сервису, но для экосистемы Hadoop.
• GCP Google BigLake — позволяет создавать таблицы BigLake в Google Cloud Storage (GCS), Amazon S3 и ADLS Gen 2 в поддерживаемых открытых форматах файлов, таких как Parquet, ORC и Avro.
• GCP Google Cloud Dataproc — аналогичен сервису выше, но для экосистемы Hadoop.
• AWS Lake Formation — упрощает управление озером данных на базе S3 с интеграцией каталога метаданных Glue, механизма запросов Athena и так далее.
• AWS Amazon EMR — аналогичен сервису выше, но для экосистемы Hadoop.
📌Продолжение
@bigdatai
Основные изменения в инфраструктуре данных на 2023 год
Hadoop
Несмотря на то, что некоторые компоненты экосистемы Hadoop до сих пор используются (например, Hive), их популярность снизилась настолько, что эта экосистема больше не попадает в ландшафт индустрии данных, что также подтверждается последними статьями из разряда “Big Data is Dead”.
Data lakes стали относиться к одной категории с Lakehouse
Сюда, среди прочих, относятся следующие инструменты (где это актуально, в скобках также указаны год основания и общий объем финансирования):
• Cloudera (2008, $1041 млн) — корпоративный дата-хаб, построенный на базе Apache Hadoop.
• Databricks (2013, $3497 млн) — их платформа lakehouse используется для сервисов интеграции и аналитики. Эта компания ввела парадигму lakehouse и выступает лидером в этой категории.
• Dremio (2015, $405 млн) — платформа аналитики данных, позволяющая компаниям запрашивать данные с любого источника и ускоряющая аналитическую обработку с помощью инструментов бизнес-аналитики, машинного обучения и клиентов SQL.
• Onehouse (2021, $33 млн) — облачный управляемый сервис формата lakehouse, помогающий создавать озера данных, обрабатывать данные и владеть данными в опенсорсных форматах.
• Azure Data Lake Storage — подобный S3 сервис объектного хранилища, обычно называемый ADLS Gen 2
• Azure HD Insight — аналогичен вышеназванному сервису, но для экосистемы Hadoop.
• GCP Google BigLake — позволяет создавать таблицы BigLake в Google Cloud Storage (GCS), Amazon S3 и ADLS Gen 2 в поддерживаемых открытых форматах файлов, таких как Parquet, ORC и Avro.
• GCP Google Cloud Dataproc — аналогичен сервису выше, но для экосистемы Hadoop.
• AWS Lake Formation — упрощает управление озером данных на базе S3 с интеграцией каталога метаданных Glue, механизма запросов Athena и так далее.
• AWS Amazon EMR — аналогичен сервису выше, но для экосистемы Hadoop.
📌Продолжение
@bigdatai
👍8❤1🔥1
Rix — поисковая система на основе ИИ, ориентированная на разработчиков
В основе инструмента лежит нейросеть, позволяющая использовать как режим веб-поиска, так и GPT-поиск.
Последний помогает получить мгновенные ответы на основе «знаний» предварительно обученных специалистов
Стоимость: #бесплатно
#ИИ #поиск #code
В основе инструмента лежит нейросеть, позволяющая использовать как режим веб-поиска, так и GPT-поиск.
Последний помогает получить мгновенные ответы на основе «знаний» предварительно обученных специалистов
Стоимость: #бесплатно
#ИИ #поиск #code
👍8👎2❤1🔥1
📰 Newspaper3k: Article scraping & curation
Если вы хотите быстро извлечь значимую информацию из статьи с помощью нескольких строк кода, попробуйте воспользоваться библиотекой newspaper3k.
▪Github
▪Документация
@bigdatai
Если вы хотите быстро извлечь значимую информацию из статьи с помощью нескольких строк кода, попробуйте воспользоваться библиотекой newspaper3k.
$ pip3 install newspaper3k
▪Github
▪Документация
@bigdatai
👍5❤1🔥1
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥2❤1
▪ Основы работа с bs4
▪ Работаем с selenium
Работаем с selenium
▪ Сравниваем Scrappy и bs4
▪ Парсинг на Python со использованием Proxy
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤4
💪 Как обучают большие языковые модели в России
LLM — новый этап развития интеллектуальных систем, решающих задачи на естественном языке. Помимо глубокого понимания структуры языка, LLM также формируют знания о мире во время обучения на больших корпусах текста. Это выводит их на новый качественный уровень, открывая новые эмерджентные способности, такие как Few-Shot Learning и Reasoning.
Обучение подобных моделей является сложной задачей, требующей большого количества ресурсов и тонкой настройки.
Дани Эль-Айясс, исполнительный директор SberDevices, выступит с докладом и поделится опытом обучения модели GigaChat — большой языковой модели от Сбера, начиная с Pre-Train и заканчивая RLHF-пайплайном.
Послушать выступление можно будет на хардовой конференции Яндекса по машинному обучению — Practical ML Conf. 7 сентября 500 экспертов соберутся вместе, чтобы дать максимум пользы и знаний о практическом применении ML. Регистрируйтесь.
@bigdatai
LLM — новый этап развития интеллектуальных систем, решающих задачи на естественном языке. Помимо глубокого понимания структуры языка, LLM также формируют знания о мире во время обучения на больших корпусах текста. Это выводит их на новый качественный уровень, открывая новые эмерджентные способности, такие как Few-Shot Learning и Reasoning.
Обучение подобных моделей является сложной задачей, требующей большого количества ресурсов и тонкой настройки.
Дани Эль-Айясс, исполнительный директор SberDevices, выступит с докладом и поделится опытом обучения модели GigaChat — большой языковой модели от Сбера, начиная с Pre-Train и заканчивая RLHF-пайплайном.
Послушать выступление можно будет на хардовой конференции Яндекса по машинному обучению — Practical ML Conf. 7 сентября 500 экспертов соберутся вместе, чтобы дать максимум пользы и знаний о практическом применении ML. Регистрируйтесь.
@bigdatai
👍6👎1😁1
⚡ Бесплатные сертификационные курсы для повышения ваших и навыков и карьерного роста:
1. Intro to Machine Learning
https://kaggle.com/learn/intro-to-machine-learning
2. IBM Data Science Professional Certificate
https://coursera.org/professional-certificates/ibm-data-science
3. Project Management
https://mygreatlearning.com/academy/learn-for-free/courses/project-management
4. Introduction to Front End Development
https://simplilearn.com/front-end-developer-free-course-skillup
5. Technical Writing
https://learn.saylor.org/course/view.php?id=368
6. Google Ads Search Certification
https://skillshop.exceedlms.com/student/path/18128-google-ads-search-certification
7. Inbound Marketing
https://academy.hubspot.com/courses/inbound-marketing
8. Introduction to Programming with Python
https://cs50.harvard.edu/python/2022
@bigdatai
1. Intro to Machine Learning
https://kaggle.com/learn/intro-to-machine-learning
2. IBM Data Science Professional Certificate
https://coursera.org/professional-certificates/ibm-data-science
3. Project Management
https://mygreatlearning.com/academy/learn-for-free/courses/project-management
4. Introduction to Front End Development
https://simplilearn.com/front-end-developer-free-course-skillup
5. Technical Writing
https://learn.saylor.org/course/view.php?id=368
6. Google Ads Search Certification
https://skillshop.exceedlms.com/student/path/18128-google-ads-search-certification
7. Inbound Marketing
https://academy.hubspot.com/courses/inbound-marketing
8. Introduction to Programming with Python
https://cs50.harvard.edu/python/2022
@bigdatai
👍4❤3🔥1
MySQL_CheatSheet.pdf
93.7 KB
Запросы, типы данных, работа датами и временем, таблицы, математические функции, и еще много полезного.
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6🔥2
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11❤4🔥1🤩1🗿1
🎙 Нейросети для скоринга: хайп или реальный инструмент?
Ребята из подкаста «Деньги любят техно», о котором мы уже как-то рассказывали, всё больше разгоняются в интересные темы. На этот раз они решили поговорить о нейронках в кредитном скоринге. В гости к Артёму Летину, руководителю подразделения разработки моделей для корпоративного сегмента клиентов ВТБ, и его соведущей Марине Эфендиевой пришли Евгений Смирнов, руководитель лаборатории машинного обучения Альфа-Банка, и Никита Зелинский, руководитель центра компетенций Data Science МТС.
Поговорили о применении ML в деятельности финансовых организаций и о том, как нейросети помогают принимать решения по кредитованию.
🎧Послушать можно тут.
Ребята из подкаста «Деньги любят техно», о котором мы уже как-то рассказывали, всё больше разгоняются в интересные темы. На этот раз они решили поговорить о нейронках в кредитном скоринге. В гости к Артёму Летину, руководителю подразделения разработки моделей для корпоративного сегмента клиентов ВТБ, и его соведущей Марине Эфендиевой пришли Евгений Смирнов, руководитель лаборатории машинного обучения Альфа-Банка, и Никита Зелинский, руководитель центра компетенций Data Science МТС.
Поговорили о применении ML в деятельности финансовых организаций и о том, как нейросети помогают принимать решения по кредитованию.
🎧Послушать можно тут.
👍1
Media is too big
VIEW IN TELEGRAM
▪Видео
▪Часть2
▪Код из видео
▪Упражнения по Numpy
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤4🔥2
👱♂️ DeepFakeFace
Датасет DeepFakeFace(DFF), созданный с помощью усовершенствованных диффузионных моделей.
🤗 HF: https://huggingface.co/datasets/OpenRL/DeepFakeFace
🖥 Github: https://github.com/OpenRL-Lab/DeepFakeFace
📕 Paper: https://arxiv.org/abs/2309.02218
@bigdatai
Датасет DeepFakeFace(DFF), созданный с помощью усовершенствованных диффузионных моделей.
🤗 HF: https://huggingface.co/datasets/OpenRL/DeepFakeFace
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥3❤1
This media is not supported in your browser
VIEW IN TELEGRAM
Gaussian Painters - модель, которая превращает шедевры искусства из 2D в 3D. Нейросеть извлекает из картины облако точек, переводит в гауссианы и формирует 3D видео.
•Github
•Проект
@bigdatai
•Github
•Проект
@bigdatai
👍8❤3
🎤🔤 Embrace the Power of Speech-to-Text in Python!
Пошаговый пример кода на языке Python, использующий библиотеку SpeechRecognition для преобразования речи в текст.
@bigdatai
Пошаговый пример кода на языке Python, использующий библиотеку SpeechRecognition для преобразования речи в текст.
pip install SpeechRecognition
import speech_recognition as sr
recognizer = sr.Recognizer()
with sr.Microphone() as source:
print("Say something...")
recognizer.adjust_for_ambient_noise(source) # Optional: Adjust for background noise
audio = recognizer.listen(source)
audio_file = "path/to/your/audio_file.wav" # Replace with the path to your audio file
with sr.AudioFile(audio_file) as source:
audio = recognizer.listen(source)
try:
print("Converting speech to text...")
text = recognizer.recognize_google(audio)
print("You said:", text)
except sr.UnknownValueError:
print("Google Speech Recognition could not understand the audio.")
except sr.RequestError as e:
print("Could not request results from Google Speech Recognition service; {0}".format(e))
@bigdatai
👍6❤2🔥2
🐘🤘 Hydra
Hydra - это Postgres с открытым исходным кодом, ориентированный на работу с колонками. Вы можете мгновенно запрашивать миллиарды строк без изменения кода.
Генерации аналитики за минуты, а не за недели.
Можно запустить Hydra локально.
• Github
• Проект
@bigdatai
Hydra - это Postgres с открытым исходным кодом, ориентированный на работу с колонками. Вы можете мгновенно запрашивать миллиарды строк без изменения кода.
Генерации аналитики за минуты, а не за недели.
Можно запустить Hydra локально.
git clone https://github.com/hydradatabase/hydra && cd hydra
cp .env.example .env
docker compose up
psql postgres://postgres:[email protected]:5432
• Github
• Проект
@bigdatai
👍5❤1🔥1