С новым годом: GPT в 500 строках на SQL
В минувшем году все только и говорили об ИИ и о том, как он может всё за вас сделать.
Мне нравится, когда кто-то или что-то работает за меня. Поэтому решил: попрошу-ка ChatGPT написать за меня новогодний пост:
«Эй, ChatGPT. А ты можешь реализовать большую языковую модель на SQL?»
«Нет, SQL не подходит для реализации больших языковых моделей. Язык SQL предназначен для выполнения запросов к данным, хранящимся в РСУБД и для управления этими запросами. Для реализации большой языковой модели требуются сложные алгоритмы, обширные датасеты, а зачастую — и фреймворки для глубокого обучения. SQL всеми этими возможностями не обладает.»
Что ж, лишний раз убеждаешься, что, если хочешь что‑то сделать хорошо – сделай это сам.
Давайте же воодушевимся этим оптимистическим планом и реализуем большую языковую модель на языке SQL.
https://habr.com/ru/articles/786276/
В минувшем году все только и говорили об ИИ и о том, как он может всё за вас сделать.
Мне нравится, когда кто-то или что-то работает за меня. Поэтому решил: попрошу-ка ChatGPT написать за меня новогодний пост:
«Эй, ChatGPT. А ты можешь реализовать большую языковую модель на SQL?»
«Нет, SQL не подходит для реализации больших языковых моделей. Язык SQL предназначен для выполнения запросов к данным, хранящимся в РСУБД и для управления этими запросами. Для реализации большой языковой модели требуются сложные алгоритмы, обширные датасеты, а зачастую — и фреймворки для глубокого обучения. SQL всеми этими возможностями не обладает.»
Что ж, лишний раз убеждаешься, что, если хочешь что‑то сделать хорошо – сделай это сам.
Давайте же воодушевимся этим оптимистическим планом и реализуем большую языковую модель на языке SQL.
https://habr.com/ru/articles/786276/
Хабр
С новым годом: GPT в 500 строках на SQL
В минувшем году все только и говорили об ИИ и о том, как он может всё за вас сделать. Мне нравится, когда кто-то или что-то работает за меня. Поэтому решил: попрошу-ка ChatGPT написать за меня...
Как работают трансформеры: разбираем математику
В этом посте я представлю подробный пример математики, используемой внутри модели трансформера, чтобы вы получили хорошее представление о работе модели. Чтобы пост был понятным, я многое упрощу. Мы будем выполнять довольно много вычислений вручную, поэтому снизим размерность модели. Например, вместо эмбеддингов из 512 значений мы используем эмбеддинги из 4 значений. Это позволит упростить понимание вычислений. Мы используем произвольные векторы и матрицы, но при желании вы можете выбрать собственные значения.
Как вы увидите, математика модели не так уж сложна. Сложность возникает из-за количества этапов и количества параметров. https://habr.com/ru/articles/785474/
В этом посте я представлю подробный пример математики, используемой внутри модели трансформера, чтобы вы получили хорошее представление о работе модели. Чтобы пост был понятным, я многое упрощу. Мы будем выполнять довольно много вычислений вручную, поэтому снизим размерность модели. Например, вместо эмбеддингов из 512 значений мы используем эмбеддинги из 4 значений. Это позволит упростить понимание вычислений. Мы используем произвольные векторы и матрицы, но при желании вы можете выбрать собственные значения.
Как вы увидите, математика модели не так уж сложна. Сложность возникает из-за количества этапов и количества параметров. https://habr.com/ru/articles/785474/
Хабр
Как работают трансформеры: разбираем математику
В этом посте я представлю подробный пример математики, используемой внутри модели трансформера, чтобы вы получили хорошее представление о работе модели. Чтобы пост был понятным, я многое упрощу. Мы...
130 терминов в области науки о данных, которые должен знать каждый специалист по данным
https://medium.com/aimonks/130-data-science-terms-every-data-scientist-should-know-7199a22fc809
https://medium.com/aimonks/130-data-science-terms-every-data-scientist-should-know-7199a22fc809
Medium
130+ Data Science Terms Every Data Scientist Should Know in 2024
Most Data Science Jargon explained in plain English
Deepdive: Text-To-Video (18 минут чтения) Генерация видео из текстовых описаний - активная область исследований, и за последние несколько недель появилось множество мощных моделей. В этом блоге команды Hugging Face описывается задача, текущие проблемы и состояние исследований. Он не является полностью исчерпывающим, но послужит отличной отправной точкой для дальнейшего чтения. подробнее→ https://huggingface.co/blog/text-to-video
huggingface.co
A Dive into Text-to-Video Models
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
Модель для всех видов сегментации изображений и видео (2 минуты чтения) OMG-Seg - это новая модель, которая может выполнять различные задачи сегментации изображений и видео с помощью одной эффективной системы. В отличие от традиционных методов, использующих различные модели для каждой задачи, OMG-Seg обрабатывает все - от семантики изображений до интерактивной сегментации видео, что делает ее универсальным решением с пониженной сложностью и повышенной производительностью. подробнее
https://lxtgh.github.io/project/omg_seg/
https://lxtgh.github.io/project/omg_seg/
Программное обеспечение для создания подписей к изображениям (GitHub Repo) Простое программное обеспечение, которое можно использовать для добавления подписей к изображениям для обучения ИИ. подробнее→ https://github.com/ANTONIOPSD/CaptionIMG
GitHub
GitHub - ANTONIOPSD/CaptionIMG: Simple program to manually caption your images (or any other file types) so you can use them for…
Simple program to manually caption your images (or any other file types) so you can use them for AI training - ANTONIOPSD/CaptionIMG
Новый набор данных для оценки моделей музыки и языка (репозиторий GitHub)
Набор данных Song Describer содержит более тысячи рукописных описаний музыкальных записей. Этот новый набор данных помогает оценивать модели музыки и языка с помощью таких задач, как написание музыкальных титров и преобразование текста в музыку.
https://github.com/mulab-mir/song-describer-dataset?utm_source=tldrai
Набор данных Song Describer содержит более тысячи рукописных описаний музыкальных записей. Этот новый набор данных помогает оценивать модели музыки и языка с помощью таких задач, как написание музыкальных титров и преобразование текста в музыку.
https://github.com/mulab-mir/song-describer-dataset?utm_source=tldrai
GitHub
GitHub - mulab-mir/song-describer-dataset: The Song Describer dataset is an evaluation dataset made of ~1.1k captions for 706 permissively…
The Song Describer dataset is an evaluation dataset made of ~1.1k captions for 706 permissively licensed music recordings. - mulab-mir/song-describer-dataset
Понимание Того, Как Рассуждает Искусственный Интеллект
https://blog.openreplay.com/explainable-artificial-intelligence
https://blog.openreplay.com/explainable-artificial-intelligence
Openreplay
Understanding how Artificial Intelligence reasons
Understanding what AI says
Google извлек данные обучения ChatGPT с помощью глупого трюка.
Масштабируемое извлечение обучающих данных из (производственных) языковых моделей
https://medium.com/datadriveninvestor/google-extracted-chatgpts-training-data-using-a-silly-trick-5544b1dada71
Масштабируемое извлечение обучающих данных из (производственных) языковых моделей
https://medium.com/datadriveninvestor/google-extracted-chatgpts-training-data-using-a-silly-trick-5544b1dada71
Medium
Google extracted ChatGPT’s Training Data using a silly trick.
Scalable Extraction of Training Data from (Production) Language Models
Как мы с помощью ML вылечили проблему, не дававшую перейти на автомаршрутизацию курьеров
https://habr.com/ru/companies/cdek_blog/articles/788816/
https://habr.com/ru/companies/cdek_blog/articles/788816/
Хабр
Как мы с помощью ML вылечили проблему, не дававшую перейти на автомаршрутизацию курьеров
Привет, Хабр! Меня зовут Наталья Макарова, я ведущий разработчик команды геоданных в CDEK. В этой статье расскажу, как мы с помощью ML решили проблему, не дававшую нашей...
Изучите LangChain и Gen AI, создав 6 проектов
https://www.freecodecamp.org/news/learn-langchain-and-gen-ai-by-building-6-projects
https://www.freecodecamp.org/news/learn-langchain-and-gen-ai-by-building-6-projects
freeCodeCamp.org
Learn LangChain and Gen AI by Building 6 Projects
Learning LangChain empowers you to seamlessly integrate advanced language models like GPT-4 into diverse applications, unlocking capabilities in natural language processing and AI-driven applications. We just published a full course on the freeCodeCa...
Лучшие курсы по науке о данных и машинному обучению
https://github.com/Coder-World04/Best-Data-Science-and-ML-Courses
https://github.com/Coder-World04/Best-Data-Science-and-ML-Courses
GitHub
GitHub - Coder-World04/Best-Data-Science-and-ML-Courses: This repository contains best courses you MUST take to skyrocket your…
This repository contains best courses you MUST take to skyrocket your Data Science and Machine Learning Journey - Coder-World04/Best-Data-Science-and-ML-Courses
Какими инструментами нужно владеть для работы с высоконагруженной архитектурой?
Расскажем на бесплатном практическом уроке «Роль Tarantool в высоконагруженной архитектуре» от OTUS.
На вебинаре разберём:
- особенности, функционал и преимущества Tarantool;
- архитектурные шаблоны и примеры его применения;
- итоги и вопросы.
🔥 Урок будет полезен для разработчиков, сисадминов и архитекторов, интересующихся высоконагруженными системами.
Занятие пройдёт 31 января в 20:00 мск и будет приурочено к старту курса «Highload Architect». Доступна рассрочка на обучение!
Пройдите короткое тестирование прямо сейчас, чтобы занять место на открытом уроке: https://otus.pw/v3UR/?erid=LjN8KVtT1
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
Расскажем на бесплатном практическом уроке «Роль Tarantool в высоконагруженной архитектуре» от OTUS.
На вебинаре разберём:
- особенности, функционал и преимущества Tarantool;
- архитектурные шаблоны и примеры его применения;
- итоги и вопросы.
🔥 Урок будет полезен для разработчиков, сисадминов и архитекторов, интересующихся высоконагруженными системами.
Занятие пройдёт 31 января в 20:00 мск и будет приурочено к старту курса «Highload Architect». Доступна рассрочка на обучение!
Пройдите короткое тестирование прямо сейчас, чтобы занять место на открытом уроке: https://otus.pw/v3UR/?erid=LjN8KVtT1
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
Прогнозирование цен на акции с помощью квантового машинного обучения на Python
Обзор проблем и возможностей
https://medium.datadriveninvestor.com/stock-price-prediction-with-quantum-machine-learning-in-python-54948a3da389
Обзор проблем и возможностей
https://medium.datadriveninvestor.com/stock-price-prediction-with-quantum-machine-learning-in-python-54948a3da389
Medium
Stock Price Prediction with Quantum Machine Learning in Python
An overview of the challenges and opportunities
Направляйтесь к более чем 100 LLM с помощью одного быстрого и удобного API.
https://github.com/Portkey-AI/gateway
https://github.com/Portkey-AI/gateway
GitHub
GitHub - Portkey-AI/gateway: A blazing fast AI Gateway with integrated guardrails. Route to 200+ LLMs, 50+ AI Guardrails with 1…
A blazing fast AI Gateway with integrated guardrails. Route to 200+ LLMs, 50+ AI Guardrails with 1 fast & friendly API. - Portkey-AI/gateway
YOLO-World: распознавание произвольного числа объектов с высокой точностью и скоростью
Всем привет! Буквально несколько дней назад была представлена новая модель семейства Yolo. Ее основная фишка заключается в том, что в отличие от своих старших братьев, она способна распознавать на изображении фактически любые объекты (которые интересуют человека) без предварительного обучения и делает все это в real-time режиме! Звучит неплохо, не так ли?
В этой статье мы попробуем разобраться, что же за магия скрывается внутри новой архитектуры. https://habr.com/ru/articles/791154/
Всем привет! Буквально несколько дней назад была представлена новая модель семейства Yolo. Ее основная фишка заключается в том, что в отличие от своих старших братьев, она способна распознавать на изображении фактически любые объекты (которые интересуют человека) без предварительного обучения и делает все это в real-time режиме! Звучит неплохо, не так ли?
В этой статье мы попробуем разобраться, что же за магия скрывается внутри новой архитектуры. https://habr.com/ru/articles/791154/
Хабр
YOLO-World: распознавание произвольного числа объектов с высокой точностью и скоростью
Всем привет! Буквально несколько дней назад была представлена новая модель семейства Yolo. Ее основная фишка заключается в том, что в отличие от своих старших братьев, она способна распознавать на...
Дни генеративных ИИ сочтены? Инструмент для «отравления» датасетов добился неожиданной популярности
Бесплатный инструмент Nightshade, созданный исследователями из Чикагского университета, скачали 250 000 раз за первые 5 дней его существования. Программа предназначена для цифровых художников, которые не хотят допустить использования своих изображений генеративными ИИ. Похоже, если инструмент будет настолько успешен, разработка следующих моделей может быть сильно усложнена. https://habr.com/ru/companies/first/articles/792042/
Бесплатный инструмент Nightshade, созданный исследователями из Чикагского университета, скачали 250 000 раз за первые 5 дней его существования. Программа предназначена для цифровых художников, которые не хотят допустить использования своих изображений генеративными ИИ. Похоже, если инструмент будет настолько успешен, разработка следующих моделей может быть сильно усложнена. https://habr.com/ru/companies/first/articles/792042/
Хабр
Дни генеративных ИИ сочтены? Инструмент для «отравления» датасетов добился неожиданной популярности
Бесплатный инструмент Nightshade , созданный исследователями из Чикагского университета, скачали 250 000 раз за первые 5 дней его существования. Программа предназначена для цифровых художников,...
Откуда я знаю, что проект по науке о данных/ML потерпит неудачу еще до того, как вы начнете
С высокой вероятностью я могу сказать, что ваш проект по науке о данных или машинному обучению потерпит неудачу — еще до того, как вы начнете! За последние 10 с лишним лет мы видели сотни проектов обработки данных и выделили закономерности, которые коррелируют с успехом. https://www.jasongilbertson.com/how-i-know-your-data-science-ml-project-will-fail-before-you-even-begin
Введение в SQL для утомленных специалистов по обработке данных
https://gvwilson.github.io/sql-tutorial/
Почему Адам — самый популярный оптимизатор в области глубокого обучения? Давайте разберемся в этом, углубившись в математику и воссоздав алгоритм.
https://towardsdatascience.com/the-math-behind-adam-optimizer-c41407efe59b
С высокой вероятностью я могу сказать, что ваш проект по науке о данных или машинному обучению потерпит неудачу — еще до того, как вы начнете! За последние 10 с лишним лет мы видели сотни проектов обработки данных и выделили закономерности, которые коррелируют с успехом. https://www.jasongilbertson.com/how-i-know-your-data-science-ml-project-will-fail-before-you-even-begin
Введение в SQL для утомленных специалистов по обработке данных
https://gvwilson.github.io/sql-tutorial/
Почему Адам — самый популярный оптимизатор в области глубокого обучения? Давайте разберемся в этом, углубившись в математику и воссоздав алгоритм.
https://towardsdatascience.com/the-math-behind-adam-optimizer-c41407efe59b
❤1
Математика K-ближайших соседей
Почему K-Nearest Neighbours является одним из самых популярных алгоритмов машинного обучения? Давайте разберемся в этом, углубившись в математику и построив его с нуля.
https://towardsdatascience.com/the-math-behind-knn-3d34050efb71
Математика и код, лежащие в основе кластеризации K-средних
Почему K-Means является самым популярным алгоритмом в обучении без учителя? Давайте углубимся в его математику и построим его с нуля.
https://towardsdatascience.com/the-math-and-code-behind-k-means-clustering-795582423666
Почему K-Nearest Neighbours является одним из самых популярных алгоритмов машинного обучения? Давайте разберемся в этом, углубившись в математику и построив его с нуля.
https://towardsdatascience.com/the-math-behind-knn-3d34050efb71
Математика и код, лежащие в основе кластеризации K-средних
Почему K-Means является самым популярным алгоритмом в обучении без учителя? Давайте углубимся в его математику и построим его с нуля.
https://towardsdatascience.com/the-math-and-code-behind-k-means-clustering-795582423666
Medium
The Math Behind K-Nearest Neighbors
Why is KNN one of the most popular machine learning algorithm? Let’s understand it by diving into its math, and building it from scratch.