Big Data AI
16.8K subscribers
812 photos
97 videos
19 files
819 links
@haarrp - админ

Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям

@data_analysis_ml - анализ данных

@ai_machinelearning_big_data

@itchannels_telegram - важное для программиста

РКН: clck.ru/3Fmqxe
Download Telegram
🚀 Fast Vector Similarity Library

Библиотека Fast Vector Similarity предназначена для эффективного вычисления различных мер сходства между векторами.


pip install fast_vector_similarity

Github

@bigdatai
👍72🔥2
Please open Telegram to view this post
VIEW IN TELEGRAM
👍94
💪 Как обучают большие языковые модели в России

LLM — новый этап развития интеллектуальных систем, решающих задачи на естественном языке. Помимо глубокого понимания структуры языка, LLM также формируют знания о мире во время обучения на больших корпусах текста. Это выводит их на новый качественный уровень, открывая новые эмерджентные способности, такие как Few-Shot Learning и Reasoning.

Обучение подобных моделей является сложной задачей, требующей большого количества ресурсов и тонкой настройки.

Дани Эль-Айясс, исполнительный директор SberDevices, выступит с докладом и поделится опытом обучения модели GigaChat — большой языковой модели от Сбера, начиная с Pre-Train и заканчивая RLHF-пайплайном.

Послушать выступление можно будет на хардовой конференции Яндекса по машинному обучению — Practical ML Conf. 7 сентября 500 экспертов соберутся вместе, чтобы дать максимум пользы и знаний о практическом применении ML. Регистрируйтесь.

@bigdatai
👍6👎1😁1
Бесплатные сертификационные курсы для повышения ваших и навыков и карьерного роста:

1. Intro to Machine Learning
https://kaggle.com/learn/intro-to-machine-learning


2. IBM Data Science Professional Certificate
https://coursera.org/professional-certificates/ibm-data-science

3. Project Management
https://mygreatlearning.com/academy/learn-for-free/courses/project-management

4. Introduction to Front End Development
https://simplilearn.com/front-end-developer-free-course-skillup

5. Technical Writing
https://learn.saylor.org/course/view.php?id=368

6. Google Ads Search Certification
https://skillshop.exceedlms.com/student/path/18128-google-ads-search-certification

7. Inbound Marketing
https://academy.hubspot.com/courses/inbound-marketing

8. Introduction to Programming with Python
https://cs50.harvard.edu/python/2022

@bigdatai
👍43🔥1
MySQL_CheatSheet.pdf
93.7 KB
🖥 Большая MySQL с примерами работы и пояснением каждого запросы.

Запросы, типы данных, работа датами и временем, таблицы, математические функции, и еще много полезного.

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
6🔥2
🖥 Бесплатный полный курс по библиотеке Numpy

📌 Видео

bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍114🔥1🤩1🗿1
Pandas DataFrame Notes_12pages.pdf
867.9 KB
🚀 Большая шпаргалка с кодом: pandas DataFrame

bigdatai
👍73🔥3🤔2
🎙 Нейросети для скоринга: хайп или реальный инструмент?
 
Ребята из подкаста «Деньги любят техно», о котором мы уже как-то рассказывали, всё больше разгоняются в интересные темы. На этот раз они решили поговорить о нейронках в кредитном скоринге. В гости к Артёму Летину, руководителю подразделения разработки моделей для корпоративного сегмента клиентов ВТБ, и его соведущей Марине Эфендиевой пришли Евгений Смирнов, руководитель лаборатории машинного обучения Альфа-Банка, и Никита Зелинский, руководитель центра компетенций Data Science МТС.
 
Поговорили о применении ML в деятельности финансовых организаций и о том, как нейросети помогают принимать решения по кредитованию.
 
🎧Послушать можно тут.
👍1
Please open Telegram to view this post
VIEW IN TELEGRAM
👍84🔥2
👱‍♂️ DeepFakeFace

Датасет DeepFakeFace(DFF), созданный с помощью усовершенствованных диффузионных моделей.

🤗 HF: https://huggingface.co/datasets/OpenRL/DeepFakeFace

🖥 Github: https://github.com/OpenRL-Lab/DeepFakeFace

📕 Paper: https://arxiv.org/abs/2309.02218

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥31
This media is not supported in your browser
VIEW IN TELEGRAM
Gaussian Painters - модель, которая превращает шедевры искусства из 2D в 3D. Нейросеть извлекает из картины облако точек, переводит в гауссианы и формирует 3D видео.

Github
Проект

@bigdatai
👍83
🎤🔤 Embrace the Power of Speech-to-Text in Python!

Пошаговый пример кода на языке Python, использующий библиотеку SpeechRecognition для преобразования речи в текст.

pip install SpeechRecognition

import speech_recognition as sr

recognizer = sr.Recognizer()


with sr.Microphone() as source:
print("Say something...")
recognizer.adjust_for_ambient_noise(source) # Optional: Adjust for background noise
audio = recognizer.listen(source)


audio_file = "path/to/your/audio_file.wav" # Replace with the path to your audio file
with sr.AudioFile(audio_file) as source:
audio = recognizer.listen(source)


try:
print("Converting speech to text...")
text = recognizer.recognize_google(audio)
print("You said:", text)
except sr.UnknownValueError:
print("Google Speech Recognition could not understand the audio.")
except sr.RequestError as e:
print("Could not request results from Google Speech Recognition service; {0}".format(e))


@bigdatai
👍62🔥2
🐘🤘 Hydra

Hydra - это Postgres с открытым исходным кодом, ориентированный на работу с колонками. Вы можете мгновенно запрашивать миллиарды строк без изменения кода.

Генерации аналитики за минуты, а не за недели.

Можно запустить Hydra локально.

git clone https://github.com/hydradatabase/hydra && cd hydra
cp .env.example .env
docker compose up
psql postgres://postgres:[email protected]:5432


Github
Проект

@bigdatai
👍51🔥1
🚀Persimmon-8B: опенсорс модель с длиной контекста 16k токенов, работающая на одном GPU

Исследователи из Adept представили мощную языковую модель Persimmon-8B c длиной контекста 16k токенов, что в 4 раза больше самой компактной Llama 2 и text-davinci-002, используемой в GPT-3.5.

Такой контекст позволяет отправлять на вход модели более длинные промпты и, соответсвенно, решать более сложные и разнообразные задачи. Persimmon-8B требует в 3 раза меньше данных для обучения по сравнению с Llama2 и работает на одном GPU Nvidia A100. Модель распространяется под открытой лицензий Apache, которая позволяет копировать, изменять и использовать исходный код модели и использовать ее в коммерческих целях.

Persimmon-8B представляет собой стандартный декодер-трансформер с модификациями в архитектуре. Использование ква ReLU в качестве функции активации часто приводит к тому, что выходные активации состоят на 90% из нулей. Это открывает интересные возможности для оптимизации. Также исследователи предпочли Вращательное позиционное кодирование (rotary positional encoding) библиотеке Alibi и добавили layer нормализацию в эмбеддинги Q (запрос) и K (ключ) перед их задействованием в механизме внимания.

Модель обучалась на последовательности длиной 16k токенов на корпусе данных, содержащем 737 миллиардов токенов и состоящем на ~75% из текста и ~25% из кода. Обычно для обучения моделей используются контексты не длиннее 4k токенов с последующим расширением контекста. Обучение на такой длинной последовательности на протяжении всего обучения стало возможным благодаря разработке улучшенной версии FlashAttention и внесению изменений в базовые механизмы вращательных (rotary) вычислений.

Базовая модель Persimmon-8B-Base продемонстрировала производительность сопоставимую с моделью Llama 2, хотя использовала в 3 раза меньше данных для обучения.


Github

@bigdatai
👍61🔥1
🚀 PullRequest.help — инструмент автоматизации код-ревью для GitHub

PullRequest.help - предоставляет автоматические ревью для пул-реквестов на GitHub

Он может раскрыть полный потенциал вашей команды, автоматизировав рутинные и времязатратные задачи по проверке кода

Это позволяет инженерам сосредоточиться на том, что они делают лучше всего — создании выдающегося кода

#GitHub #автоматизация

@bigdatai
👍52🔥1
Как научиться смотреть на задачи с точки зрения бизнеса и выйти на новый уровень в аналитике данных?

На курсе Hard аналитика вы разберётесь как сократить сроки проведения экспериментов и проверять нужные бизнесу гипотезы, научитесь делать удобные дашборды, быстро прогружать запросы в базе данных и использовать машинное обучение в аналитике.

Курс создан руками ведущих аналитиков из Райффайзен, Яндекс, ВКонтакте и других компаний, поэтому программа включает в себя только самые актуальные и нужные знания для углубления в продуктовую аналитику.

Присоединяйтесь на ближайший поток: https://karpov.courses/analytics-hard

Реклама. ООО "Карпов Курсы". Erid: LjN8KKka4
3👍1🔥1🥰1
📋✔️Датасеты для обработки естественного языка

▪️Sentiment analysis - коллекция датасетов, каждый из которых содержит необходимую информацию для анализа тональности текста. Так, данные, взятые с IMDb – это бинарный набор для анализа настроений. Он состоит из 50 000 отзывов из базы данных фильмов (IMDb), помеченных как положительные или отрицательные.

▪️КартаСловСент — слова и выражения, снабжённые тональной меткой («положительное», «отрицательное», «нейтральное») и скалярным значением силы эмоционально-оценочного заряда из непрерывного диапазона [-1, 1].


▪️WikiQA - представляет собой набор пар вопросов и предложений. Они были собраны и аннотированы для исследования ответов на вопросы в открытых доменах. WikiQA создана с использованием более естественного процесса. Она включает вопросы, для которых не существует правильных предложений, что позволяет исследователям работать над триггером ответа, критически важным компонентом любой системы QA.

▪️Amazon Reviews dataset - этот набор данных состоит из нескольких миллионов отзывов покупателей Amazon и их оценок. Датасет используется для возможности обучения fastText, анализируя настроения покупателей. Идея состоит в том, что несмотря на огромный объем данных – это реальная бизнес-задача. Модель обучается за считанные минуты. Именно это отличает Amazon Reviews от аналогов.

▪️Yelp dataset - набор данных Yelp – это множество предприятий, отзывов и пользовательских данных, которые можно применить в Pet-проекте и научной работе. Также можно использовать Yelp для обучения студентов во время работы с базами данных, при изучении NLP и в качестве образца производственных данных. Датасет доступен в виде файлов JSON и является «классикой» в обработке естественного языка.

▪️Text classification - классификация текста - это задача присвоения предложению или документу соответствующей категории. Категории зависят от выбранного набора данных и могут варьироваться в зависимости от тем. Так, TREC – это набор данных для классификации вопросов, который состоит из открытых вопросов, основанных на фактах. Они разделены на широкие семантические категории. Датасет имеет шестиклассную (TREC-6) и пятидесятиклассную (TREC-50) версии. Обе версии включают 5452 обучающих и 500 тестовых примеров.

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍4🔥2
🔥Большая подборка бесплатных SQL курсов.

Интерактивный тренажер по SQL (— практические задания на создание SQL-запросов. Каждый шаг включает минимальные теоретические аспекты по базам данных или языку SQL, примеры похожих запросов и пояснение к реализации

SQL openclassrooms
Вводный SQL курс на английском языке.

Марафон данных: первое знакомство с SQL и Python — это симулятор профессии дата-аналитика, который познакомит вас с базами данных и методами работы с ними

Знакомство с SQLite (4.6 из 5) — этот небольшой курс покажет, как использовать SQLite в повседневной работе. Вы научитесь загружать, анализировать и выгружать данные, а также познакомитесь с разными типами данных

Введение в базы данных - курс посвящен структурированному хранению данных, основами SQL, принципами использования баз данных в приложениях, обзор нереляционных способов хранения данных

Погружение в СУБД — курс для тех, кто уже имеет некоторый опыт проектирования баз данных и разработки приложений и хочет расширить свои знания


🌐 Youtube
Реляционные базы данных. SQL (39 видео) курс раскрывает все аспекты реляционных баз данных, начиная от определения и создания баз данных, схем, таблиц и полей этих таблиц (DDL), и заканчивая запросами к этим таблицам (DML)

Практика по SQL

Основы SQL (18 видео) — объясняют базовые концепции языка: операторы, фильтрация, сортировка, группировка, декомпозиция и т. д.

Уроки по SQL для начинающих (25 видео) — эти уроки помогут быстро разобраться с основами

12 Англоязычных курсов

Платформы: Stepik, Coursera, Udacity, Udemy и Kaggle.

1. Databases and SQL for Data Science with Python
2. SQL for Data Science
3. Introduction to Databases and SQL Querying
4. Intro to Relational Databases
5. Introduction to Structured Query Language (SQL)
6. Advanced Databases and SQL Querying
7. SQL for Data Analysis
8. Oracle SQL – A Complete Introduction
9. Intro to SQL
10. Advanced SQL
11. Oracle SQL Basics
12. Beginners Guide to SQL

👍 Лайк, если полезно

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21🔥41
Matplotlib_Cheat_Sheet.pdf
3 MB
📊 Шпаргалка по Matplotlib для построении графиков на Python.

Шпаргалка поможет вам научиться использовать библиотеку и освежит знания по забытым функциям.

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍84🔥3
ElectricSQL

Сегодня вышла новая версию ElectricSQL.

ElectricSQL - это опенсорс платформа для локальной разработки, позволяющая легко создавать высококачественные современные приложения с мгновенной реактивностью, многопользовательской совместной работой в реальном времени и бесконфликтной поддержкой автономной работы.

Local-first - это новая парадигма разработки, при которой код приложения напрямую обращается к встроенной локальной базе данных, а данные синхронизируются в фоновом режиме посредством активной репликации базы данных. Поскольку код приложения обращается непосредственно к локальной базе данных, приложения работают мгновенно. Данные синхронизируются в фоновом режиме с помощью активной репликации.

Github
Документация

@bigdatai
👍91🔥1🤔1