Big Data AI

Rix — поисковая система на основе ИИ, ориентированная на разработчиков

В основе инструмента лежит нейросеть, позволяющая использовать как режим веб-поиска, так и GPT-поиск.

Последний помогает получить мгновенные ответы на основе «знаний» предварительно обученных специалистов

Стоимость: #бесплатно

#ИИ #поиск #code

👍8👎2❤1🔥1

2.68K views10:08

Big Data AI

📰 Newspaper3k: Article scraping & curation

Если вы хотите быстро извлечь значимую информацию из статьи с помощью нескольких строк кода, попробуйте воспользоваться библиотекой newspaper3k.

$ pip3 install newspaper3k

▪Github
▪Документация

@bigdatai

👍5❤1🔥1

2.6K views10:00

Big Data AI

💻

Graph of Thoughts (GoT)

Этот фреймворк дает возможность решать сложные задачи, моделируя их в виде графа операций (GoO), который автоматически выполняется с помощью большой языковой модели (LLM) в качестве движка.

pip install graph_of_thoughts

▪Github

@bigdatai

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍10🔥2❤1

2.89K views12:01

Big Data AI

🚀 Fast Vector Similarity Library

Библиотека Fast Vector Similarity предназначена для эффективного вычисления различных мер сходства между векторами.

pip install fast_vector_similarity

▪Github

@bigdatai

👍7❤2🔥2

2.46K views11:17

Big Data AI

🎞

🖥

Видео-уроки по парсингу на Python для сбора данных

▪ Основы работа с bs4
▪ Работаем с selenium
Работаем с selenium
▪ Сравниваем Scrappy и bs4
▪ Парсинг на Python со использованием Proxy

@bigdatai

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9❤4

2.73K viewsedited 19:15

Big Data AI

💪 Как обучают большие языковые модели в России

LLM — новый этап развития интеллектуальных систем, решающих задачи на естественном языке. Помимо глубокого понимания структуры языка, LLM также формируют знания о мире во время обучения на больших корпусах текста. Это выводит их на новый качественный уровень, открывая новые эмерджентные способности, такие как Few-Shot Learning и Reasoning.

Обучение подобных моделей является сложной задачей, требующей большого количества ресурсов и тонкой настройки.

Дани Эль-Айясс, исполнительный директор SberDevices, выступит с докладом и поделится опытом обучения модели GigaChat — большой языковой модели от Сбера, начиная с Pre-Train и заканчивая RLHF-пайплайном.

Послушать выступление можно будет на хардовой конференции Яндекса по машинному обучению — Practical ML Conf. 7 сентября 500 экспертов соберутся вместе, чтобы дать максимум пользы и знаний о практическом применении ML. Регистрируйтесь.

@bigdatai

👍6👎1😁1

2.44K viewsedited 10:33

Big Data AI

⚡ Бесплатные сертификационные курсы для повышения ваших и навыков и карьерного роста:

1. Intro to Machine Learning
https://kaggle.com/learn/intro-to-machine-learning

2. IBM Data Science Professional Certificate
https://coursera.org/professional-certificates/ibm-data-science

3. Project Management
https://mygreatlearning.com/academy/learn-for-free/courses/project-management

4. Introduction to Front End Development
https://simplilearn.com/front-end-developer-free-course-skillup

5. Technical Writing
https://learn.saylor.org/course/view.php?id=368

6. Google Ads Search Certification
https://skillshop.exceedlms.com/student/path/18128-google-ads-search-certification

7. Inbound Marketing
https://academy.hubspot.com/courses/inbound-marketing

8. Introduction to Programming with Python
https://cs50.harvard.edu/python/2022

@bigdatai

👍4❤3🔥1

3.21K views11:13

Big Data AI

MySQL_CheatSheet.pdf

93.7 KB

🖥

Большая MySQL с примерами работы и пояснением каждого запросы.

Запросы, типы данных, работа датами и временем, таблицы, математические функции, и еще много полезного.

@bigdatai

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6🔥2

3.53K views16:02

Big Data AI

🖥

Бесплатный полный курс по библиотеке Numpy

📌 Видео

bigdatai

Please open Telegram to view this post

VIEW IN TELEGRAM

👍11❤4🔥1🤩1🗿1

3.39K views10:46

Big Data AI

Pandas DataFrame Notes_12pages.pdf

867.9 KB

🚀 Большая шпаргалка с кодом: pandas DataFrame

bigdatai

👍7❤3🔥3🤔2

3.5K views14:14

Big Data AI

🎙 Нейросети для скоринга: хайп или реальный инструмент?

Ребята из подкаста «Деньги любят техно», о котором мы уже как-то рассказывали, всё больше разгоняются в интересные темы. На этот раз они решили поговорить о нейронках в кредитном скоринге. В гости к Артёму Летину, руководителю подразделения разработки моделей для корпоративного сегмента клиентов ВТБ, и его соведущей Марине Эфендиевой пришли Евгений Смирнов, руководитель лаборатории машинного обучения Альфа-Банка, и Никита Зелинский, руководитель центра компетенций Data Science МТС.

Поговорили о применении ML в деятельности финансовых организаций и о том, как нейросети помогают принимать решения по кредитованию.

🎧Послушать можно тут.

👍1

3.73K views14:01

🖥

Полный курс по библиотеке Numpy. Урок 1 Матрицы.

▪Видео
▪Часть2
▪Код из видео
▪Упражнения по Numpy

@bigdatai

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8❤4🔥2

4.16K viewsedited 17:41

Big Data AI

👱‍♂️ DeepFakeFace

Датасет DeepFakeFace(DFF), созданный с помощью усовершенствованных диффузионных моделей.

🤗 HF: https://huggingface.co/datasets/OpenRL/DeepFakeFace

🖥

Github: https://github.com/OpenRL-Lab/DeepFakeFace

📕

Paper: https://arxiv.org/abs/2309.02218

@bigdatai

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4🔥3❤1

3.97K views13:31

Big Data AI

This media is not supported in your browser

VIEW IN TELEGRAM

Gaussian Painters - модель, которая превращает шедевры искусства из 2D в 3D. Нейросеть извлекает из картины облако точек, переводит в гауссианы и формирует 3D видео.

•Github
•Проект

@bigdatai

👍8❤3

3.02K views11:42

Big Data AI

🎤🔤 Embrace the Power of Speech-to-Text in Python!

Пошаговый пример кода на языке Python, использующий библиотеку SpeechRecognition для преобразования речи в текст.

pip install SpeechRecognition

import speech_recognition as sr


recognizer = sr.Recognizer()

with sr.Microphone() as source:
    print("Say something...")
    recognizer.adjust_for_ambient_noise(source)  # Optional: Adjust for background noise
    audio = recognizer.listen(source)

audio_file = "path/to/your/audio_file.wav"  # Replace with the path to your audio file
with sr.AudioFile(audio_file) as source:
    audio = recognizer.listen(source)

try:
    print("Converting speech to text...")
    text = recognizer.recognize_google(audio)
    print("You said:", text)
except sr.UnknownValueError:
    print("Google Speech Recognition could not understand the audio.")
except sr.RequestError as e:
    print("Could not request results from Google Speech Recognition service; {0}".format(e))

@bigdatai

👍6❤2🔥2

3K views19:22

Big Data AI

🐘🤘 Hydra

Hydra - это Postgres с открытым исходным кодом, ориентированный на работу с колонками. Вы можете мгновенно запрашивать миллиарды строк без изменения кода.

Генерации аналитики за минуты, а не за недели.

Можно запустить Hydra локально.

git clone https://github.com/hydradatabase/hydra && cd hydra
cp .env.example .env
docker compose up
psql postgres://postgres:[email protected]:5432

• Github
• Проект

@bigdatai

👍5❤1🔥1

3.01K views13:16

Big Data AI

🚀Persimmon-8B: опенсорс модель с длиной контекста 16k токенов, работающая на одном GPU

Исследователи из Adept представили мощную языковую модель Persimmon-8B c длиной контекста 16k токенов, что в 4 раза больше самой компактной Llama 2 и text-davinci-002, используемой в GPT-3.5.

Такой контекст позволяет отправлять на вход модели более длинные промпты и, соответсвенно, решать более сложные и разнообразные задачи. Persimmon-8B требует в 3 раза меньше данных для обучения по сравнению с Llama2 и работает на одном GPU Nvidia A100. Модель распространяется под открытой лицензий Apache, которая позволяет копировать, изменять и использовать исходный код модели и использовать ее в коммерческих целях.

Persimmon-8B представляет собой стандартный декодер-трансформер с модификациями в архитектуре. Использование ква ReLU в качестве функции активации часто приводит к тому, что выходные активации состоят на 90% из нулей. Это открывает интересные возможности для оптимизации. Также исследователи предпочли Вращательное позиционное кодирование (rotary positional encoding) библиотеке Alibi и добавили layer нормализацию в эмбеддинги Q (запрос) и K (ключ) перед их задействованием в механизме внимания.

Модель обучалась на последовательности длиной 16k токенов на корпусе данных, содержащем 737 миллиардов токенов и состоящем на ~75% из текста и ~25% из кода. Обычно для обучения моделей используются контексты не длиннее 4k токенов с последующим расширением контекста. Обучение на такой длинной последовательности на протяжении всего обучения стало возможным благодаря разработке улучшенной версии FlashAttention и внесению изменений в базовые механизмы вращательных (rotary) вычислений.

Базовая модель Persimmon-8B-Base продемонстрировала производительность сопоставимую с моделью Llama 2, хотя использовала в 3 раза меньше данных для обучения.

• Github

@bigdatai

👍6❤1🔥1

3.26K views09:50

Big Data AI

🚀 PullRequest.help — инструмент автоматизации код-ревью для GitHub

PullRequest.help - предоставляет автоматические ревью для пул-реквестов на GitHub

Он может раскрыть полный потенциал вашей команды, автоматизировав рутинные и времязатратные задачи по проверке кода

Это позволяет инженерам сосредоточиться на том, что они делают лучше всего — создании выдающегося кода

#GitHub #автоматизация

@bigdatai

👍5❤2🔥1

3.14K viewsedited 12:46

About

Blog

Apps

Platform