Data Science. SQL hub
35.8K subscribers
915 photos
49 videos
37 files
974 links
По всем вопросам- @workakkk

@itchannels_telegram - 🔥лучшие ит-каналы

@ai_machinelearning_big_data - Machine learning

@pythonl - Python

@pythonlbooks- python книги📚

@datascienceiot - ml книги📚

РКН: https://vk.cc/cIi9vo
Download Telegram
🖥 Использование DuckDB для анализа Ad-Hoc: альтернатива Pandas для любителей SQL!

🌟 Анализ ad-hoc является неотъемлемой частью любого человека в области данных. Нам приходится регулярно объединять данные из различных источников, таких как файлы CSV или базы данных, для некоторого ad-hoc тестирования или быстрого составления отчетов.

🌟 Наиболее распространенным инструментом в нашем распоряжении является Pandas Python, где мы можем считывать данные из различных источников в dataframes, а затем выполнять анализ. Однако для тех, кому удобнее в SQL, чем в Python, DuckDB является отличной альтернативой! Он позволяет запрашивать данные с помощью SQL, без необходимости загружать их в базу данных или преобразовывать в dataframe Pandas.

🔗 Подробнее: *клик*

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
🌎 PostgreSQL и ClickHouse — два мира, два подхода к индексации!

💡 Вы когда-нибудь задумывались, как индексация может влиять на производительность ваших баз данных? На открытом вебинаре мы раскроем тайны реляционных и колоночных БД и покажем, как правильно использовать индексацию для оптимизации работы с большими объемами данных.

👨‍🏫 Спикер: Алексей Железной — Senior Data Engineer с более чем 5-летним опытом разработки и проектирования пайплайнов для обработки, хранения и визуализации данных.

📅 Дата: 2 декабря в 20:00 МСК

🎁 Бонус: Участники вебинара получат скидку на обучение на курсе «ClickHouse для инженеров и архитекторов БД»

👉 Регистрируйтесь на открытый урок по ссылке: ссылка

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
1
🔐 keyring — библиотека для работы с системными хранилищами паролей на Python!

🌟 Она позволяет разработчикам безопасно хранить и получать учетные данные, используя стандартные механизмы защиты, встроенные в операционные системы, такие как Windows Credential Locker, macOS Keychain, и Linux Secret Service.

💡 Основной функционал включает в себя автоматический выбор подходящего хранилища для текущей системы, поддержку плагинов для расширения возможностей и интеграцию с популярными менеджерами паролей. Это упрощает создание безопасных приложений, которые требуют работы с конфиденциальными данными.

🔐 Лицензия: MIT

🖥 Github

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍54🥰2
This media is not supported in your browser
VIEW IN TELEGRAM
🖥 Redash — это инструмент для анализа данных с открытым исходным кодом, разработанный для упрощения подключения, запроса и визуализации данных из различных источников!

🌟 Он позволяет пользователям создавать SQL- и NoSQL-запросы, визуализировать данные в виде графиков и диаграмм, а также делиться дашбордами с командами. Продукт ориентирован как на технических специалистов, так и на бизнес-пользователей, предоставляя интуитивно понятный интерфейс и REST API для автоматизации процессов.

🌟 Redash поддерживает множество источников данных, включая SQL-базы, NoSQL, Big Data и API, что делает его универсальным решением для аналитики. Также инструмент предоставляет функции настройки алертов, автоматического обновления дашбордов и управления доступом пользователей.

🔐 Лицензия: BSD-2-Clause

🖥 Github

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍154🔥3
📊 D2 — современный язык для описания диаграмм с помощью текста!

💡 Этот инструмент преобразует текстовые сценарии в визуальные диаграммы, используя декларативный подход: вы описываете, что хотите видеть, а D2 автоматически создает визуализацию.

🔍 Особенности D2:

🌟 Простая синтаксическая структура и встроенные темы для быстрой визуализации.

🌟 Поддержка анимаций, LaTeX, нескольких языков, Markdown, UML и последовательностных диаграмм.

🌟 Экспорт в форматы PNG, SVG и PDF.

🌟 Возможность использования в локальном CLI или в онлайн-песочнице для быстрого создания и редактирования диаграмм.

🌟 Поддержка различных движков для компоновки, работы с контейнерами и импорта изображений.

🔐 Лицензия: MPL-2.0

🖥 Github

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥54
🖥 Эта статья посвящена обновлению материализованных представлений (Materialized Views, MViews) в Oracle SQL по требованию!

🌟 Автор обсуждает сценарии, в которых материализованные представления используются для повышения производительности, например, при работе с большими объемами данных.

💡 Ключевая идея статьи — необходимость и способы ручного обновления MViews для синхронизации данных между исходными таблицами и представлением. Автор рассматривает подходы к настройке обновлений, использованию PL/SQL и управлению данными в различных бизнес-кейсах, а также демонстрирует, как работать с процедурой DBMS_MVIEW.REFRESH.

🔗 Ссылка: *клик*

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍3👎1🔥1
⚡️Легкий способ получать свежие обновления и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь:

МАШИННОЕ ОБУЧЕНИЕ: t.iss.one/ai_machinelearning_big_data
C++ t.iss.one/cpluspluc
Python: t.iss.one/pythonl
Linux: t.iss.one/linuxacademiya
Хакинг: t.iss.one/linuxkalii
Devops: t.iss.one/DevOPSitsec
АНАЛИЗ Данных: t.iss.one/data_analysis_ml
Javascript: t.iss.one/javascriptv
C#: t.iss.one/csharp_ci
Java: t.iss.one/javatg
Базы данных: t.iss.one/sqlhub
Python собеседования: t.iss.one/python_job_interview
Мобильная разработка: t.iss.one/mobdevelop
Docker: t.iss.one/DevopsDocker
Golang: t.iss.one/golang_interview
React: t.iss.one/react_tg
Rust: t.iss.one/rust_code
ИИ: t.iss.one/vistehno
PHP: t.iss.one/phpshka
Android: t.iss.one/android_its
Frontend: t.iss.one/front
Big Data: t.iss.one/bigdatai
Собеседования МЛ: t.iss.one/machinelearning_interview
МАТЕМАТИКА: t.iss.one/data_math
Kubernets: t.iss.one/kubernetc
Разработка игр: https://t.iss.one/gamedev

💼 Папка с вакансиями: t.iss.one/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.iss.one/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.iss.one/addlist/eEPya-HF6mkxMGIy
Папка ML: https://t.iss.one/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: https://t.iss.one/addlist/mzMMG3RPZhY2M2Iy

😆ИТ-Мемы: t.iss.one/memes_prog
🇬🇧Английский: t.iss.one/english_forprogrammers
🧠ИИ: t.iss.one/vistehno

🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: https://t.iss.one/addlist/BkskQciUW_FhNjEy
👍3
🖥 SeaweedFS — это высокопроизводительная распределённая файловая система с поддержкой хранения огромного количества файлов и их быстрой обработки!

💡 Её основное назначение — управление смешанными нагрузками, включая blob-хранилища, объекты, файловые системы и аналитику данных.

🔍 Особенности:

🌟 Масштабируемость: система легко расширяется путём добавления серверов, обеспечивая хранение больших объёмов данных.

🌟 Поддержка множества форматов: Blob Storage, S3-совместимое объектное хранилище, файловая система с FUSE-монтажом и интеграцией с Big Data-фреймворками (Hadoop, Spark).

🌟 Производительность: постоянное время поиска данных (O(1)) и эффективное управление метаданными!

🌟 Надёжность: репликация данных, защита от сбоев, контроль целостности и поддержка многоуровневого хранения.

🔐 Лицензия: Apache-2.0

🖥 Github

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍102🔥2
⚡️ Интересный факт: DuckDB быстрее подсчитывает строки в CSV-файле, чем команда подсчета слов UNIX, а также анализирует файл, чтобы определить его диалект (разделитель, символ кавычки и т. д.).

Вот время для CSV-файла размером 3 ГБ: 2,966 секунды для `wc -l` и 1,261 секунды для DuckDB.

Результаты теста Hyperfine benchmark tool.

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12👍6🤔51👎1👏1
🖥 GenAI Showcase — демонстрация использования MongoDB в контексте генеративного искусственного интеллекта!

🌟 Этот репозиторий включает в себя примеры для интеграции MongoDB с такими технологиями, как Retrieval-Augmented Generation (RAG) и различными моделями ИИ.

🔍 Основные функции репозитория:

🌟 Использование MongoDB как векторной базы данных и хранилища памяти для AI-решений.

🌟 Интеграция с популярными фреймворками, такими как LlamaIndex, Haystack и LangChain, а также моделями от OpenAI и Anthropic.

🌟 Примеры решений для конкретных отраслей, включая здравоохранение, финансы и электронную коммерцию.

🌟 Готовые сценарии для создания систем RAG и агентов на основе ИИ, таких как AI Research Assistant и AI Investment Researcher.

🔐 Лицензия: MIT

🖥 Github

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍84🔥3👏1🤔1
Как готовить данные для анализа с помощью ETL?

Чтобы освоить основы инжиниринга данных регистрируйтесь на бесплатный вебинар от Simulative 💬

Спикер Даниил Джепаров, lead analytics engineer в Сравни.ру, расскажет о том, как извлекать данные из разных источников, а затем преобразовывать и загружать их в хранилище.

Вы узнаете:

🟡 Что такое ETL и как он работает
🟡 Какие есть различия между пакетной и потоковой обработкой
🟡 Какие виды документации используют в дата-проектах
🟡 Как оценивать и поддерживать высокое качество данных
🟡 Как мониторить ETL-процессы

В конце вебинара вас ждет бонус от спикера — дорожная карта для аналитиков и инженеров с планом развития на middle-позицию 🎁

Встречаемся 4 декабря в 19:00 по мск. Успейте присоединиться по ссылке.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍43👎2🔥1
🥷 w3af — фреймворк для тестирования веб-приложений на уязвимости!

🌟 Он объединяет функции веб-сканера и инструмента для эксплуатации уязвимостей, предоставляя разработчикам и специалистам по безопасности возможность находить и анализировать потенциальные уязвимости в веб-приложениях и сервисах.

💡 Основные возможности — сканирование для обнаружения SQL-инъекций, XSS, CSRF и других распространенных уязвимостей, а также интеграция с Python для написания собственных плагинов и расширений.

🖥 Github

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥43🥰1👏1
🖥 t.iss.one/haskell_tg - Haskell входит в число наиболее востребованных функциональных языков программирования.

В нашем новом канале, вы найдете множество уроков, книг и гайдов для погружения в этот мощный язык с нуля.

Отличная возможность не только выучить новый язык, но и возможность прокачать свои навыки программирования.

t.iss.one/haskell_tg - стоит подписаться!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
🔥 TypeORM — популярная библиотека ORM (Object-Relational Mapping) для работы с базами данных в TypeScript и JavaScript!

🌟 TypeORM поддерживает многие реляционные базы данных, включая PostgreSQL, MySQL, SQLite, MariaDB и нереляционную MongoDB. Библиотека позволяет разработчикам работать с базами данных, используя объекты и классы вместо написания SQL-запросов напрямую. Она поддерживает такие функции, как миграции, ленивую загрузку (lazy loading), отношения между сущностями и сложные запросы.

🔐 Лицензия: MIT

🖥 Github

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
10👍3🥰2
🖥 pgroll — это инструмент командной строки на Go с открытым исходным кодом, предназначенный для безопасной и обратимой миграции схем в PostgreSQL!

🌟 Основная задача проекта заключается в обеспечении миграций без простоя, когда изменения схемы применяются таким образом, чтобы и старая, и новая версии схемы оставались доступными для клиентских приложений. Это особенно полезно при внесении сложных изменений, требующих поддержания совместимости с уже работающими приложениями.

🌟 pgroll использует подход «расширить/сузить» (expand/contract), создавая виртуальные схемы на основе представлений поверх физических таблиц. Этот метод позволяет миграциям быть безопасными и минимизирует риски, такие как блокировки базы данных или прерывание работы приложений.

🌟 Инструмент поддерживает автоматическое заполнение данных для новых колонок, мгновенный откат изменений при возникновении проблем и работу с существующими схемами без необходимости начинать с нуля.

🔐 Лицензия: Apache-2.0

🖥 Github


@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍3🔥2
👣 Go Graph Seeder — CLI-инструмент, разработанный на языке Go, предназначенный для генерации случайных данных и заполнения графовых баз данных, совместимых с Gremlin!

🌟 Он позволяет пользователям создавать узлы и ребра с различными свойствами, используя JSON-конфигурационные файлы. Это упрощает процесс наполнения графовых баз данных случайными или тестовыми данными, что особенно полезно при разработке и тестировании приложений, работающих с графовыми структурами данных.

🖥 Github

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍5🥰1
Forwarded from Machinelearning
⚡️ Llama 3.3 70B.

Модель доступна в версии с 70 млрд параметров и оптимизирована для диалоговых сценариев использования на нескольких языках. Llama 3.3 превосходит многие доступные модели с открытым и закрытым исходным кодом по стандартным отраслевым бенчмаркам.

Llama 3.3 основана на оптимизированной архитектуре трансформера и использует авторегрессивный подход. Настройка модели включает SFT с RLHF для согласования с человеческими предпочтениями в отношении полезности и безопасности.

Модель была обучена на новом наборе общедоступных онлайн-данных, включающем более 15 триллионов токенов, с ограничением по свежести данных до декабря 2023 года.

Llama 3.3 поддерживает английский, немецкий, французский, итальянский, португальский, хинди, испанский и тайский языки.

▶️ Пример инфренса на Transformers:

import transformers
import torch

model_id = "meta-llama/Llama-3.3-70B-Instruct"

pipeline = transformers.pipeline(
"text-generation",
model=model_id,
model_kwargs={"torch_dtype": torch.bfloat16},
device_map="auto",
)

messages = [
{"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
{"role": "user", "content": "Who are you?"},
]

outputs = pipeline(
messages,
max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])


📌Лицензирование: LLAMA 3.3 License.


🟡Модель
🟡Demo


@ai_machinelearning_big_data

#AI #ML #LLM #Llama3
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥6🥰21👎1🤔1
🔥 Огромная бесплатная книга по SQL! (500+ страниц!)

🔗 Ссылка: *клик*

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
15🔥6👍5
🖥 postgres-r2-backup — решение для создания резервных копий базы данных PostgreSQL, интегрированное с облачным хранилищем Amazon S3 или аналогичными решениями (например, MinIO)!

🌟 Этот проект позволяет автоматизировать процесс создания бэкапа данных с PostgreSQL и хранить резервные копии в облаке, что упрощает управление данными и повышает безопасность.


🖥 Github

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥32
🖥 Cloudberry — это проект с открытым исходным кодом от Apache, предназначенный для анализа и визуализации больших данных в реальном времени!

🌟 Он ориентирован на обработку и анализ данных, хранящихся в распределенных и облачных системах, с интеграцией возможностей визуализации, которые позволяют более эффективно работать с большими объемами данных. Одной из ключевых особенностей является тесная интеграция с базами данных, что делает Cloudberry удобным инструментом для аналитиков, работающих с большими и сложными наборами данных.

🌟 Основное внимание в Cloudberry уделяется обработке данных, хранящихся в распределенных базах данных, таких как HBase или Apache Cassandra, что позволяет эффективно обрабатывать и анализировать большие объемы информации. Проект поддерживает расширенные возможности по интеграции с такими системами, обеспечивая высокую производительность и масштабируемость. Cloudberry использует SQL-подобные запросы для извлечения данных из таких распределенных хранилищ и предоставляет интерфейсы для анализа и визуализации этих данных.

🌟 Кроме того, Cloudberry фокусируется на предоставлении простых инструментов для взаимодействия с данными и их представления в виде удобных графиков и отчетов. Это полезно для пользователей, которые хотят интегрировать аналитику с облачными хранилищами данных, используя мощные инструменты визуализации для анализа и принятия решений на основе больших данных.

🔐 Лицензия: Apache-2.0

🖥 Github

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
5🔥3👍2