1. DATPROF Privacy
Этот инструмент маскирует ваши тестовые данные и на их основе генерирует синтетические. Таким образом сведения о ваших пользователях будут защищены, а вы получите репрезентативные тестовые данные.
2. Redgate SQL Data Generator
Этот инструмент способен быстро создавать большие объемы реалистичных данных.
3. Test Data Manager (не уверена)
Этот инструмент позволяет быстро находить, защищать, проектировать и создавать подходящие данные для эффективного тестирования приложений.
4. Solix Test Data Management
Приложение Solix Test Data Management автоматизирует создание поднаборов (не клонов) баз данных с разумным размером, что позволяет сэкономить до 80% места для хранения. При этом копия производственной базы данных будет синтаксически правильной: это важно для достижения наиболее точных результатов тестирования.
5. SAP Test Data Migration Server
SAP Test Data Migration Server позволяет создавать непроизводственную среду, используя выдержки из бизнес-данных. Это помогает снизить расходы на поддержку и инфраструктуру и одновременно повысить эффективность разработки и тестирования.
6. DTM Data Generator (не уверена)
Инструмент для генерации строк данных для целей тестирования: для наполнения тестовой базы данных, анализа производительности и т. д.
7. Mockaroo
Mockaroo позволяет бесплатно генерировать до 1000 строк реалистичных тестовых данных (большее количество строк уже платное). Данные выгружаются в форматах CSV, JSON, SQL и Excel.
8. GenerateData
Проект с открытым исходным кодом, хостится на GitHub. Данные можно сгенерировать прямо на сайте. Вам предоставляется простой и понятный пользовательский интрефейс и возможность просматривать, что вы генерируете.
9. ApexSQL Generate
Генерирует случайные тестовые данные для SQL-сервера.
10. GenRocket
Сервис для генерации реалистичных тестовых данных. GenRocket позволяет QA-специалистам полностью автоматизировать процесс подготовки тестовых данных и без проблем интегрировать его в автоматизированное тестирование.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5🔥3
Два продвинутых SQL-метода, которые могут значительно улучшить ваши запросы
SQL — это основа для каждого специалиста по работе с данными. Неважно, являетесь ли вы аналитиком данных, специалистом по данным или инженером по обработке данных, вам необходимо иметь четкое представление о том, как писать чистые и эффективные SQL-запросы.
Это связано с тем, что за любым тщательным анализом данных или любой сложной моделью машинного обучения стоят базовые данные, и эти данные должны откуда-то поступать.
Cегодня мы рассмотрим две новые техники SQL, которые вы можете добавить в свой набор инструментов, чтобы вывести ваши запросы на новый уровень. Эти методы называются Обобщённое табличное выражение (CTE) и Оконные функции.
Читать
SQL — это основа для каждого специалиста по работе с данными. Неважно, являетесь ли вы аналитиком данных, специалистом по данным или инженером по обработке данных, вам необходимо иметь четкое представление о том, как писать чистые и эффективные SQL-запросы.
Это связано с тем, что за любым тщательным анализом данных или любой сложной моделью машинного обучения стоят базовые данные, и эти данные должны откуда-то поступать.
Cегодня мы рассмотрим две новые техники SQL, которые вы можете добавить в свой набор инструментов, чтобы вывести ваши запросы на новый уровень. Эти методы называются Обобщённое табличное выражение (CTE) и Оконные функции.
Читать
👍4❤3🔥1
🦙 LONGLLaMA: языковая модель, для обработки длинных контекстов из 256 000 токенов
Новый метод Focused Transformer (FOT) позволяет дообучать большие языковые модели для расширения эффективного понимания контекста.
Для демонстрации метода исследователи дообучиили open source модели OpenLLaMA 3B и 7B, результирующая модель LONGLLAMA показала прогресс в точности в задачах, требующих понимания длинного контекста. Модель LONGLLAMA-3B достигла точности 94,5% при 100 тысячах токенов и 73% при 256 тысячах токенов, в то время как базовая модель OpenLLAMA не способна обрабатывать контексты, превышающие ее длину обучения в 2 тысячи токенов.
•Код
•Colab
bigdatai
Новый метод Focused Transformer (FOT) позволяет дообучать большие языковые модели для расширения эффективного понимания контекста.
Для демонстрации метода исследователи дообучиили open source модели OpenLLaMA 3B и 7B, результирующая модель LONGLLAMA показала прогресс в точности в задачах, требующих понимания длинного контекста. Модель LONGLLAMA-3B достигла точности 94,5% при 100 тысячах токенов и 73% при 256 тысячах токенов, в то время как базовая модель OpenLLAMA не способна обрабатывать контексты, превышающие ее длину обучения в 2 тысячи токенов.
•Код
•Colab
bigdatai
❤5👍2🔥1
🤔 10 аргументов “за” и “против” SQL
• Вторая по обсуждаемости тема в среде специалистов по SQL: как произносить то, что большинство людей называют Sequel ([сиквел] вместо [эс кью эл]). Это удивительно, поскольку язык существует более 40 лет.
• Но, пожалуй, самая обсуждаемая тема, связанная с SQL, — это вопрос о том, считается ли он языком программирования.
Почему SQL не является языком программирования
🟢 Создание и выполнение запросов, а не скриптов
🟢 Не изменяет состояние
🟢 Отсутствие циклирования
🟢 Репутация в отрасли
Почему SQL является языком программирования
🟣 Соответствие критерию Тьюринга
🟣 Переменные, условная логика, определения функций
🟣 Возможность создавать приложения (хотя это сложно)
🟣 Так считают в Google
Подробное разъяснение читай тут
bigdatai
• Вторая по обсуждаемости тема в среде специалистов по SQL: как произносить то, что большинство людей называют Sequel ([сиквел] вместо [эс кью эл]). Это удивительно, поскольку язык существует более 40 лет.
• Но, пожалуй, самая обсуждаемая тема, связанная с SQL, — это вопрос о том, считается ли он языком программирования.
Почему SQL не является языком программирования
Почему SQL является языком программирования
Подробное разъяснение читай тут
bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤2👎2😁2🔥1
Это отличный вариант, если вам нужно быстренько и красиво визуализировать собранные данных без необходимости программировать
С помощью инструмента вы сможете создавать динамичные и привлекательные графики, диаграммы, карты и другие визуальные элементы
У Flourish Studio есть широкий набор готовых шаблонов и анимаций, интуитивный визуальный редактор, возможность добавлять интерактивность и настраивать анимации
Стоимость: #бесплатно (но есть платные тарифы).
#данные #диаграммы
bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤4🔥3
Собрание бесплатных курсов по Python и машинному обучению.
1. Основы Python для анализа данных — программирование на Python.
2. Ускоренный курс по машинному обучению — видеолекции от исследователей Google.
3. Основы R — как обрабатывать, анализировать и визуализировать данные.
4. Введение в Data Science и аналитику — основы Data Science и Data Science Life Cycle.
5. Линейная регрессия — как применять R для осуществления линейной регрессии.
6. Визуализация — принципы визуализации данных и применение ggplot2.
7. Введение CS50 в программирование на Python, май 2023 г.
8. Python для всех: Getting Started with Python от Coursera, этот курс для начинающих знакомит с программированием на Python через пошаговые учебные пособия и практические упражнения. Курс ведет известный преподаватель доктор Чарльз Северанс.
1. Основы Python для анализа данных — программирование на Python.
2. Ускоренный курс по машинному обучению — видеолекции от исследователей Google.
3. Основы R — как обрабатывать, анализировать и визуализировать данные.
4. Введение в Data Science и аналитику — основы Data Science и Data Science Life Cycle.
5. Линейная регрессия — как применять R для осуществления линейной регрессии.
6. Визуализация — принципы визуализации данных и применение ggplot2.
7. Введение CS50 в программирование на Python, май 2023 г.
8. Python для всех: Getting Started with Python от Coursera, этот курс для начинающих знакомит с программированием на Python через пошаговые учебные пособия и практические упражнения. Курс ведет известный преподаватель доктор Чарльз Северанс.
👍8❤3🔥3
🔎 Exposing the Troublemakers in Described Object Detection
Новый, размеченный набор данных для обнаружения объектов.
🖥 Github: https://github.com/shikras/d-cube
🔗 Docs: https://github.com/shikras/d-cube/blob/main/doc.md
📕 Paper: https://arxiv.org/pdf/2307.12813.pdf
🔥 Dataset: https://paperswithcode.com/dataset/description-detection-dataset
bigdatai
Новый, размеченный набор данных для обнаружения объектов.
pip install ddd-dataset
from d_cube import D3
d3 = D3(IMG_ROOT, PKL_ANNO_PATH)
all_img_ids = d3.get_img_ids() # get the image ids in the dataset
all_img_info = d3.load_imgs(all_img_ids) # load images by passing a list of some image ids
img_path = all_img_info[0]["file_name"] # obtain one image path so you can load it and inference
🔗 Docs: https://github.com/shikras/d-cube/blob/main/doc.md
🔥 Dataset: https://paperswithcode.com/dataset/description-detection-dataset
bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥2❤1
🆓 10 лучших бесплатных курсов Udacity для мл специалистов.
1. Machine Learning by Georgia Tech
Отличный курс по машинному обучению для начинающих.
2. Introduction to Machine Learning Course
Udacity научит вас основам и тому, как использовать машинное обучение для решения реальных задач.
3. Intro to Artificial Intelligence
Узнайте об интеллектуальных агентах, алгоритмах поиска и игровых программах. Вы словно окажетесь в научно-фантастическом фильме!
4. Artificial Intelligence for Robotics
Вы узнаете, как роботыпринимают решения, понимают, где они находятся и как передвигаются.
5. What is Programming?
Познакомит вас с популярными языками программирования, переменными, циклами и условиями.
6. Intro to HTML and CSS
Никакого опыта не требуется! Вы изучите основы веб-разработки и сможете создавать классные вещи в Интернете!
7. Introduction to Computer Vision
Компьютерное зрение подобно волшебству - оно позволяет компьютерам понимать изображения и видео. Узнайте об обработке изображений, распознавании объектов и многом другом!
8. Intro to Data Science
Наука о данных - это поиск скрытых закономерностей в данных. Исследуйте данные и принимайте разумные решения как эксперт в области данных!
9. SQL for Data Analysis
Анализ данных может быть интересным с помощью SQL. Станьте мастером данных с помощью этого важного навыка!
10. Data Wrangling with MongoDB
Узнайте, как организовать и преобразовать данные как профессионал с помощью MongoDB.
bigdatai
1. Machine Learning by Georgia Tech
Отличный курс по машинному обучению для начинающих.
2. Introduction to Machine Learning Course
Udacity научит вас основам и тому, как использовать машинное обучение для решения реальных задач.
3. Intro to Artificial Intelligence
Узнайте об интеллектуальных агентах, алгоритмах поиска и игровых программах. Вы словно окажетесь в научно-фантастическом фильме!
4. Artificial Intelligence for Robotics
Вы узнаете, как роботыпринимают решения, понимают, где они находятся и как передвигаются.
5. What is Programming?
Познакомит вас с популярными языками программирования, переменными, циклами и условиями.
6. Intro to HTML and CSS
Никакого опыта не требуется! Вы изучите основы веб-разработки и сможете создавать классные вещи в Интернете!
7. Introduction to Computer Vision
Компьютерное зрение подобно волшебству - оно позволяет компьютерам понимать изображения и видео. Узнайте об обработке изображений, распознавании объектов и многом другом!
8. Intro to Data Science
Наука о данных - это поиск скрытых закономерностей в данных. Исследуйте данные и принимайте разумные решения как эксперт в области данных!
9. SQL for Data Analysis
Анализ данных может быть интересным с помощью SQL. Станьте мастером данных с помощью этого важного навыка!
10. Data Wrangling with MongoDB
Узнайте, как организовать и преобразовать данные как профессионал с помощью MongoDB.
bigdatai
👍7❤2🔥2
ConvertCSV отлично подойдёт для обработки и конвертации CSV-файлов, поддерживая также формат TSV и прочие популярные разделители
При этом обработка данных происходит непосредственно на вашем компьютере, что обеспечивает безопасность пользовательских данных
Также сервис поддерживает работу с Excel и предлагает инструменты для командной строки и настольные приложения
Стоимость: #бесплатно
#data #CSV #данные
bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤1🔥1
Как маленькая нейроязыковая модель победила серверные подсказки
Автор, разработчик Яндекс Клавиатуры, поделился опытом создания модели и рассказал, какое качество можно получить из маленькой нейроязыковой модели и насколько она лучше n-граммной.
И вообще, почему выбрали CNN-эмбеддинг, а не Word Embedding или Byte Pair Encoding. Все тонкости в статье.
📌 Читать
bigdatai
Автор, разработчик Яндекс Клавиатуры, поделился опытом создания модели и рассказал, какое качество можно получить из маленькой нейроязыковой модели и насколько она лучше n-граммной.
И вообще, почему выбрали CNN-эмбеддинг, а не Word Embedding или Byte Pair Encoding. Все тонкости в статье.
📌 Читать
bigdatai
👍5🔥3❤1🥰1
🚀 Доступ к Spark-датасетам из разных приложений — Redis.
Apache Spark, универсальная платформа для крупномасштабной обработки данных, в сочетании с Redis способна обеспечить ускоренные расчеты в реальном времени для таких задач, как анализ временных рядов, прогнозы и рекомендации на основе машинного обучения и т. д.
Spark также способен извлекать датасеты в кэш-память кластера. Это невероятно полезно, когда приложению необходимо многократно запрашивать одни и те же данные. Если вы используете датасет, создание которого достаточно затратно, и который потом используется в вашем приложении не один раз, то этот датасет обязательно нужно кэшировать. Но если вы захотите получить доступ к этому датасету сразу из нескольких приложений, то вам придется поломать голову, как это сделать. Здесь на помощь приходит коннектор Spark-Redis.
Redis — это размещаемое в памяти хранилище структур данных с открытым исходным кодом (под лицензией BSD), используемое в качестве базы данных, кэша и брокера сообщений. Оно поддерживает множество разных структур данных, таких как строки, хэши, списки, сэты и так далее.
Redis Labs недавно опубликовала в общий доступ пакет “spark-redis”. Как следует из названия, это коннектор Redis для Apache Spark, который обеспечивает доступ для чтения и записи ко всем основным структурам данных Redis в виде RDD (Resilient Distributed Datasets, в терминологии Spark), что позволяет Spark использовать Redis в качестве одного из источников данных. Этот коннектор предоставляет Spark структуры данных Redis, тем самым обеспечивая значительный прирост производительности для всех типов расчетов. Он также позволяет нам организовать совместный доступ к DataSet/DataFrame/RDD Spark из сразу нескольких разных приложений.
Но прежде чем мы сможем использовать коннектор Spark-Redis, нам сперва нужно позаботиться о наличии нескольких ключевых элементов, а именно: Apache Spark, Scala, Jedis и Redis.
Чтобы без особой необходимости не растягивать этот пост, предположим, что о всем вышеперечисленном вы уже позаботились. Поэтому давайте сразу перейдем к делу — как запустить эту мощную комбинацию. Включите указанные ниже зависимости в свой проект вместе со Spark:
•spark-redis
•jedis
📌 Читать дальше
bigdatai
Apache Spark, универсальная платформа для крупномасштабной обработки данных, в сочетании с Redis способна обеспечить ускоренные расчеты в реальном времени для таких задач, как анализ временных рядов, прогнозы и рекомендации на основе машинного обучения и т. д.
Spark также способен извлекать датасеты в кэш-память кластера. Это невероятно полезно, когда приложению необходимо многократно запрашивать одни и те же данные. Если вы используете датасет, создание которого достаточно затратно, и который потом используется в вашем приложении не один раз, то этот датасет обязательно нужно кэшировать. Но если вы захотите получить доступ к этому датасету сразу из нескольких приложений, то вам придется поломать голову, как это сделать. Здесь на помощь приходит коннектор Spark-Redis.
Redis — это размещаемое в памяти хранилище структур данных с открытым исходным кодом (под лицензией BSD), используемое в качестве базы данных, кэша и брокера сообщений. Оно поддерживает множество разных структур данных, таких как строки, хэши, списки, сэты и так далее.
Redis Labs недавно опубликовала в общий доступ пакет “spark-redis”. Как следует из названия, это коннектор Redis для Apache Spark, который обеспечивает доступ для чтения и записи ко всем основным структурам данных Redis в виде RDD (Resilient Distributed Datasets, в терминологии Spark), что позволяет Spark использовать Redis в качестве одного из источников данных. Этот коннектор предоставляет Spark структуры данных Redis, тем самым обеспечивая значительный прирост производительности для всех типов расчетов. Он также позволяет нам организовать совместный доступ к DataSet/DataFrame/RDD Spark из сразу нескольких разных приложений.
Но прежде чем мы сможем использовать коннектор Spark-Redis, нам сперва нужно позаботиться о наличии нескольких ключевых элементов, а именно: Apache Spark, Scala, Jedis и Redis.
Чтобы без особой необходимости не растягивать этот пост, предположим, что о всем вышеперечисленном вы уже позаботились. Поэтому давайте сразу перейдем к делу — как запустить эту мощную комбинацию. Включите указанные ниже зависимости в свой проект вместе со Spark:
•spark-redis
•jedis
📌 Читать дальше
bigdatai
❤6👍1🔥1
Лучший способ получать свежие обновлении и следить за трендами в разработке.
Машинное обучение: t.iss.one/ai_machinelearning_big_data
Python: t.iss.one/pythonl
C#: t.iss.one/csharp_ci
C/C++/ t.iss.one/cpluspluc
Data Science: t.iss.one/data_analysis_ml
Devops: t.iss.one/devOPSitsec
Go: t.iss.one/Golang_google
Базы данных: t.iss.one/sqlhub
Rust: t.iss.one/rust_code
Javascript: t.iss.one/javascriptv
React: t.iss.one/react_tg
PHP: t.iss.one/phpshka
Android: t.iss.one/android_its
Мобильная разработка: t.iss.one/mobdevelop
Linux: t.iss.one/+A8jY79rcyKJlYWY6
Big Data: t.iss.one/bigdatai
Хакинг: t.iss.one/linuxkalii
Тестирование: https://t.iss.one/+F9jPLmMFqq1kNTMy
Java: t.iss.one/javatg
Папка Go разработчика: t.iss.one/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.iss.one/addlist/eEPya-HF6mkxMGIy
Папка машинное обучение: https://t.iss.one/addlist/_FjtIq8qMhU0NTYy
🇬🇧Английский: t.iss.one/english_forprogrammers
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4❤1
📊Прогнозирование цен на акции с помощью моделирования методом Монте-Карло
Моделирование - мощный инструмент прогнозной аналитики в BI.
• Методы имитационного моделирования используются для моделирования сложных сценариев и принятия обоснованных решений.
• Имитационная модель многократно моделируется с разными входными данными и сценариями, что позволяет понять диапазон возможных результатов и связанные с ними вероятности.
• Существует несколько методов имитационного моделирования, включая агентное моделирование, дискретно-событийное моделирование, моделирование по теории игр и моделирование методом Монте-Карло.
• Мы используем моделирование методом Монте-Карло из-за его универсальности и способности решать сложные задачи с неопределенностью.
📌 Подробнее
bigdatai
Моделирование - мощный инструмент прогнозной аналитики в BI.
• Методы имитационного моделирования используются для моделирования сложных сценариев и принятия обоснованных решений.
• Имитационная модель многократно моделируется с разными входными данными и сценариями, что позволяет понять диапазон возможных результатов и связанные с ними вероятности.
• Существует несколько методов имитационного моделирования, включая агентное моделирование, дискретно-событийное моделирование, моделирование по теории игр и моделирование методом Монте-Карло.
• Мы используем моделирование методом Монте-Карло из-за его универсальности и способности решать сложные задачи с неопределенностью.
# Import required libraries
import math
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import yfinance as yf
#obtaining and printing data
#we have used the ticker 'AC.TO', which is Air Canada
data = yf.download('AC.TO','2020-01-01','2023-01-01')
data.head()
📌 Подробнее
bigdatai
❤9🔥4👍2😁1
👍23🔥5❤3
🔉Более 1,5 ТБ размеченых наборов аудиоданных
https://machinelearningmastery.ru/a-data-lakes-worth-of-audio-datasets-b45b88cd4ad/
bigdatai
https://machinelearningmastery.ru/a-data-lakes-worth-of-audio-datasets-b45b88cd4ad/
bigdatai
machinelearningmastery.ru
Более 1,5 ТБ меченых наборов аудиоданных
👍6❤2🔥2