🦜🔗 Исчерпывающее руководство по реализации моделей HuggingFace с помощью Langchain
Только что опубликована статья о различных способах использования Open Source Large Language Models от HuggingFace с помощью Langchain
Реализация и объяснение кода:
https://analyticsvidhya.com/blog/2023/12/implement-huggingface-models-using-langchain/
@bigdatai
Только что опубликована статья о различных способах использования Open Source Large Language Models от HuggingFace с помощью Langchain
Реализация и объяснение кода:
https://analyticsvidhya.com/blog/2023/12/implement-huggingface-models-using-langchain/
@bigdatai
❤10👍2🔥2
👉 Machine Learning Glossary
Краткие визуальные объяснения концепций машинного обучения с диаграммами, примерами кода и ссылками на ресурсы для получения дополнительной информации.
🔗 https://github.com/bfortuner/ml-glossary
@bigdatai
Краткие визуальные объяснения концепций машинного обучения с диаграммами, примерами кода и ссылками на ресурсы для получения дополнительной информации.
🔗 https://github.com/bfortuner/ml-glossary
@bigdatai
❤9👍3🔥1
Если бы JavaScript (или любой другой язык) разрабатывался в первую очередь для использования искусственным интеллектом, а не человеком-разработчиком, он существенно отличался бы от привычного нам языка. Вот основные отличия, которые мы могли бы наблюдать.
1. Сокращение синтаксического сахара. Языки, удобные для человека, содержат синтаксический сахар, чтобы сделать код более читабельным для разработчиков. Для ИИ в этом нет необходимости. Язык, скорее всего, был бы более упрощенным и использовал бы минимальный набор примитивов, необходимых для выражения вычислений (объяснение этого приводится ниже).
2. Отсутствие комментариев и документации. В отличие от человека, ИИ не нуждается в комментариях и документации. Единственным источником истины для него является сам код. ИИ способен понять назначение и действие любого фрагмента кода без внешних аннотаций.
3. Более высокие уровни абстракции. ИИ может работать с гораздо более высокими уровнями абстракции, чем человек. Вместо подробных пошаговых инструкций, оптимизированный для ИИ код мог бы включать в себя более сложные операции, заданные на высоком уровне, а ИИ заполнил бы детали более низкого уровня.
4. Математическая точность. Язык мог бы быть более тесно связанным с математическим формализмом. Это облегчило бы формальную верификацию и обоснование кода, которые ИИ способен выполнять более эффективно, чем человек.
5. Включение внешних баз знаний. Оптимизированный для ИИ язык мог бы напрямую ссылаться на внешние базы знаний или базы данных, позволяя ИИ при необходимости использовать контекст.
6. Оптимизация для параллелизма. ИИ может справиться с параллелизмом и многопоточным выполнением с гораздо меньшими усилиями, чем человек. Язык, скорее всего, изначально поддерживал бы высокопараллельные операции без удобных для разработчика абстракций, используемых в настоящее время.
7. Расширенное управление памятью. Возможно, отпала бы необходимость в привычных парадигмах управления памятью, таких как сборка мусора. Вместо этого, ИИ мог бы освоить передовые алгоритмы, предсказывающие характер использования памяти и оптимизирующие его соответствующим образом.
8. Менее модульный код. Хотя модульность часто оказывается полезной для понимания и сопровождения, ИИ мог бы предпочесть генерировать и управлять более монолитными структурами кода, оптимизируя его для выполнения, а не для чтения.
9. Генерация кода. Язык мог бы иметь встроенные функции для генерации больших объемов кода на основе высокоуровневых характеристик, абстрагируясь от повторяющегося или шаблонного кода, который обычно пишут разработчики.
10. Самостоятельная модификация кода. ИИ мог бы создавать и управлять кодом, который сам изменяется в процессе выполнения, что обычно считается сложной задачей, приводящей к ошибкам разработчиков-людей.
11. Глубокая интеграция с аппаратным обеспечением. Язык мог бы быть глубоко связан с аппаратным обеспечением, что позволило бы ИИ выполнять микрооптимизацию на основе знаний о состоянии оборудования в реальном времени.
Что такое синтаксический сахар?
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11❤3🔥2🤩2🗿1
👀 От новичка до профессионала: Ваше руководство 2024 года, чтобы стать инженером по компьютерному зрению
https://uproger.com/ot-novichka-do-professionala-vashe-rukovodstvo-2024-goda-chtoby-stat-inzhenerom-po-kompyuternomu-zre
@bigdatai
https://uproger.com/ot-novichka-do-professionala-vashe-rukovodstvo-2024-goda-chtoby-stat-inzhenerom-po-kompyuternomu-zre
@bigdatai
👍7❤3🔥2
В этом репозитории есть все необходимое для того, чтобы стать экспертом в области #TimeSeries Analysis, который содердит 20+ проектов:
▪ Github
@bigdatai
▪ Github
@bigdatai
👍11❤2🔥2
Хотите адаптировать LLM под свои данные и сферу деятельности? 🤔
Свежий пост от Pytorch о том, как доработать модель с 7B параметрами на обычном GPU (NVIDIA T4 16GB) с помощью LoRA и инструментов из экосистемы PyTorch и Hugging Face.
🔎 https://pytorch.org/blog/finetune-llms
@bigdatai
Свежий пост от Pytorch о том, как доработать модель с 7B параметрами на обычном GPU (NVIDIA T4 16GB) с помощью LoRA и инструментов из экосистемы PyTorch и Hugging Face.
🔎 https://pytorch.org/blog/finetune-llms
@bigdatai
👍8❤2🔥2
🔥 Новый выпуск базы данных эмбедингов
Датасет Википедии: https://huggingface.co/datasets/NeuML/wikipedia-20240101
Скрипт для работы с датасетом: https://huggingface.co/datasets/NeuML/wikipedia
@bigdatai
txtai-wikipedia
теперь доступен на Hugging Face Hub!Датасет Википедии: https://huggingface.co/datasets/NeuML/wikipedia-20240101
Скрипт для работы с датасетом: https://huggingface.co/datasets/NeuML/wikipedia
@bigdatai
👍10❤1🔥1
Этот репозиторий содержит 50+ проектов, охватывающих Data #Analytics, #DataScience, #DataEngineering, #MLOps и #MachineLearning.
https://github.com/Coder-World04/Data-and-ML-Projects-
@bigdatai
https://github.com/Coder-World04/Data-and-ML-Projects-
@bigdatai
❤7👍4🔥3🦄1
▪Github: github.com/mazurowski-lab/intrinsic-properties
▪Paper: https://arxiv.org/abs/2401.08865
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤4🔥2
Только что выложили в открытый доступ два инструмента, которые для обработки масштабных данных и обучения масштабных моделей:
- datatrove - все для обработки данных в веб-масштабе: дедупликация, фильтрация, токенизация - https://github.com/huggingface/datatrove
- nanotron - все, что связано с 3D-параллелизмом: легкое и быстрое обучение LLM - https://github.com/huggingface/nanotron
@bigdatai
- datatrove - все для обработки данных в веб-масштабе: дедупликация, фильтрация, токенизация - https://github.com/huggingface/datatrove
- nanotron - все, что связано с 3D-параллелизмом: легкое и быстрое обучение LLM - https://github.com/huggingface/nanotron
@bigdatai
❤7👍6🔥1
👨🎓 Статистика 110: Теория Вероятности от Гарвардского университета.
Несомненно, один из лучших курсов по теории вероятностей в Интернете!
youtube.com/playlist?list=PL2SOU6wwxB0uwwH80KTQ6ht66KWxbzTIo
@bigdatai
Несомненно, один из лучших курсов по теории вероятностей в Интернете!
youtube.com/playlist?list=PL2SOU6wwxB0uwwH80KTQ6ht66KWxbzTIo
@bigdatai
👍13❤3🔥3
В этом репозитории собрано все, что вам нужно, чтобы стать экспертом в #DataAnalytics 45 готовых проектов.
https://github.com/Coder-World04/Complete-Data-Analytics-with-Projects
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - Coder-World04/Complete-Data-Analytics-with-Projects: This repository contains everything you need to become proficient…
This repository contains everything you need to become proficient in Data Analytics - Coder-World04/Complete-Data-Analytics-with-Projects
👍9🔥4❤1
Библиотека Python с открытым исходным кодом для автоматизации рабочих процессов машинного обучения🔥
PyCaret - сквозной инструмент для машинного обучения:
- Предварительная обработка данных
- Разработка признаков
- Обучение модели
- Настройка гиперпараметров и
- Оценка модели
▪Github
@bigdatai
PyCaret - сквозной инструмент для машинного обучения:
- Предварительная обработка данных
- Разработка признаков
- Обучение модели
- Настройка гиперпараметров и
- Оценка модели
"pip install pycaret"
▪Github
@bigdatai
👍19🔥6❤1👏1
Как создать на Python скринер акций и выполнить анализ настроений на основе ИИ
Поиск акций для инвестирования может оказаться долгим и утомительным. А что, если использовать ИИ и Python для создания программы, способной ускорить этот процесс? В этой статье я расскажу, как применить Python-библиотеку finvizfinance для поиска “недооцененных” акций. Затем представлю метод анализа настроений с помощью FinBERT, предварительно обученной NLP-модели, позволяющей анализировать эти “недооцененные” акции.
Первые шаги
Прежде всего импортируем необходимые библиотеки. Сайт finviz.com предлагает различные инструменты для анализа акций, в том числе бесплатный скринер акций (Screener). Импортируем объект скринера finvizfinance, который возвращает DataFrame Pandas с результатами скрининга в разделе “Overview” (“Обзор”).
Теперь импортируем библиотеки Pandas, csv и os, которые используются в основном для работы с csv-файлами.
Скрининг потенциальных акций
Теперь, следуя подходу стоимостного инвестирования, необходимо составить список потенциально недооцененных акций, к которым стоит присмотреться. Для этого надо создать функцию, которая использует библиотеку finvizfinance для отправки запроса к онлайн-скринеру акций. Вот функция, которая будет выполнять это:
📌 Читать
@bigdatai
Поиск акций для инвестирования может оказаться долгим и утомительным. А что, если использовать ИИ и Python для создания программы, способной ускорить этот процесс? В этой статье я расскажу, как применить Python-библиотеку finvizfinance для поиска “недооцененных” акций. Затем представлю метод анализа настроений с помощью FinBERT, предварительно обученной NLP-модели, позволяющей анализировать эти “недооцененные” акции.
Первые шаги
Прежде всего импортируем необходимые библиотеки. Сайт finviz.com предлагает различные инструменты для анализа акций, в том числе бесплатный скринер акций (Screener). Импортируем объект скринера finvizfinance, который возвращает DataFrame Pandas с результатами скрининга в разделе “Overview” (“Обзор”).
from finvizfinance.screener.overview import Overview
Теперь импортируем библиотеки Pandas, csv и os, которые используются в основном для работы с csv-файлами.
import pandas as pd
import csv
import os
Скрининг потенциальных акций
Теперь, следуя подходу стоимостного инвестирования, необходимо составить список потенциально недооцененных акций, к которым стоит присмотреться. Для этого надо создать функцию, которая использует библиотеку finvizfinance для отправки запроса к онлайн-скринеру акций. Вот функция, которая будет выполнять это:
📌 Читать
@bigdatai
👍12❤4🔥4