Big Data AI
16.8K subscribers
835 photos
98 videos
19 files
836 links
@haarrp - админ

Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям

@data_analysis_ml - анализ данных

@ai_machinelearning_big_data

@itchannels_telegram - важное для программиста

РКН: clck.ru/3Fmqxe
Download Telegram
🚀 Pandas → Polars → SQL → PySpark

@bigdatai
20👍4🔥1😁1
⚡️Легкий способ получать свежие обновления и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь:

МАШИННОЕ ОБУЧЕНИЕ: t.iss.one/ai_machinelearning_big_data
C++ t.iss.one/cpluspluc
Python: t.iss.one/pythonl
Хакинг: t.iss.one/linuxkalii
Devops: t.iss.one/DevOPSitsec
АНАЛИЗ Данных: t.iss.one/data_analysis_ml
Javascript: t.iss.one/javascriptv
C#: t.iss.one/csharp_ci
Java: t.iss.one/javatg
Базы данных: t.iss.one/sqlhub
Linux: t.iss.one/linuxacademiya
Python собеседования: t.iss.one/python_job_interview
Мобильная разработка: t.iss.one/mobdevelop
Docker: t.iss.one/DevopsDocker
Golang: t.iss.one/Golang_google
React: t.iss.one/react_tg
Rust: t.iss.one/rust_code
ИИ: t.iss.one/vistehno
PHP: t.iss.one/phpshka
Android: t.iss.one/android_its
Frontend: t.iss.one/front
Big Data: t.iss.one/bigdatai
Собеседования МЛ: t.iss.one/machinelearning_interview
МАТЕМАТИКА: t.iss.one/data_math
Kubernets: t.iss.one/kubernetc
Angular: https://t.iss.one/+qIJAuSEb2MQyMDJi

💼 Папка с вакансиями: t.iss.one/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.iss.one/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.iss.one/addlist/eEPya-HF6mkxMGIy
Папка ML: https://t.iss.one/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: https://t.iss.one/addlist/mzMMG3RPZhY2M2Iy

😆ИТ-Мемы: t.iss.one/memes_prog
🇬🇧Английский: t.iss.one/english_forprogrammers
🧠ИИ: t.iss.one/vistehno

🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: https://t.iss.one/addlist/BkskQciUW_FhNjEy
1
🖥 MineDojo — это исследовательская платформа, разработанная для создания многоцелевых ИИ-агентов с помощью среды Minecraft. Проект предоставляет инструменты и API, которые позволяют агентам взаимодействовать с Minecraft для выполнения сложных задач, таких как построение, крафтинг, исследование и другие

🌟 MineDojo создан для поддержки исследований в области ИИ, обучая агентов на большом количестве сценариев и примеров поведения. Платформа включает в себя предварительно настроенные задачи и сценарии, а также возможности для создания собственных агентов

▪️Github


@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🎧 MuVi может создавать музыку, соответствующую визуальным эффектам видео, анализируя кадры!

MuVi использует ритмическую синхронизацию и может управлять стилем и жанром музыки.

https://muvi-v2m.github.io

@bigdatai
👍31
🖥 Использование PostrgreSQL для полнотекстового поиска в приложениях!

💡 Полнотекстовый поиск — это неотъемлемая часть современных приложений, особенно тех, которые работают с большими объемами текстовой информации, будь то блог-платформы, системы управления контентом или новостные агрегаторы. Какое бы приложение вы не разрабатывали, добавление возможностей полнотекстового поиска может значительно улучшить пользовательский опыт. В этой статье мы рассмотрим, какие основные возможности полнотекстового поиска предлагает PostgreSQL, какие преимущества это дает, и приведем примеры запросов

🔗 Ссылка: *клик*

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥72👍2
✔️ xAI добавила функцию распознавания изображений в Grok AI.

Теперь пользователи могут загружать изображения и задавать вопросы, основанные на их содержании. Grok может выполнять глубокий анализ изображения и объяснять даже визуальные шутки. В настоящее время функция доступна только для статичных изображений.

Илон Маск намекнул в X, что на очереди - возможность загрузки файлов. В августе xAI выпустила модели Grok-2 и Grok-2 Mini. Обе модели доступны в чат-боте Grok для пользователей X Premium и X Premium+.

gadgets360.com

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍42🔥2
🔥 AutoRAG — это инструмент для поиска оптимального конвейера RAG для «ваших данных». Вы можете автоматически оценивать различные модули RAG с помощью собственных оценочных данных и находить лучший конвейер RAG для вашего собственного варианта использования

🔐 Лицензия: Apache-2.0

🖥 Github

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍72
📝 Эта статья представляет метод LiNeS (Layer-increasing Network Scaling), направленный на устранение проблемы "катастрофического забывания" при дообучении больших моделей

🌟 LiNeS корректирует параметры, масштабируя их по глубине слоев сети, что позволяет сохранить общие признаки на верхних слоях и адаптировать глубокие слои под конкретные задачи. Это улучшает производительность и обобщение в мультизадачных сценариях и при объединении моделей, таких как RLHF

📖 Читать: *клик*

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41
This media is not supported in your browser
VIEW IN TELEGRAM
🖼 Long-LRM — система для высококачественной 3D-реконструкции больших сцен на основе Гауссовых сплайнов. Она может обрабатывать длинные последовательности изображений и создавать 3D-реконструкции с большой областью покрытия всего за 1.3 секунды. Модель использует токены Plücker и архитектуры с блоками Mamba2 и Transformer

🔗 Ссылка: *клик*
📖 Arxiv: *клик*

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍2👌2
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Oasis: первая играбельная игра, созданная искусственным интеллектом!

🌟 Oasis генерирует кадры на основе ваших вводов с клавиатуры. Вы можете двигаться и прыгать, разбивать блоки, строить и исследовать совершенно новую карту в каждой игре!

🔗 Попробовать можно здесь: *клик*

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍4🔥3🤡3
🔍 OmniParser — это инструмент от Microsoft, предназначенный для разбора и анализа интерфейсов приложений на основе скриншотов

🌟 OmniParser позволяет распознавать и структурировать элементы интерфейса, обеспечивая, чтобы визуальные агенты на основе GPT могли ориентироваться и взаимодействовать с различными GUI-компонентами. OmniParser поддерживает модель для обнаружения интерактивных областей и описания иконок, делая возможным создание агентов, ориентированных на визуальное восприятие

🔐 Лицензия: CC-BY-4.0

🖥 Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍4
🔥 Ichigo — ИИ инструмент, предназначенный для расширения возможностей текстовых моделей посредством добавления к ним обработки аудио в реальном времени!

🌟 Он расширяет текстовые модели, позволяя им обрабатывать аудиовводы, поддерживать интерактивные многотуровые сессии, а также игнорировать незначительные шумы. В проекте есть инструменты для развертывания с Docker и обучения с Hugging Face, включая генерацию синтетического аудио

🔐 Лицензия: Apache-2.0

🖥 Github

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍73🔥1
🔥 pdf-extract-api
— API для извлечения и обработки данных из PDF-документов с использованием современных OCR моделей и поддержкой Ollama для обработки на основе больших языковых моделей!

🌟 API может конвертировать документы и изображения в структурированные форматы JSON или Markdown, удалять личную информацию (PII), а также использовать FastAPI и Celery для асинхронной обработки с кэшированием через Redis. Основное применение — анонимизация и конвертация данных из документов в структурированные форматы.

🔐 Лицензия: GPL-3.0

🖥 Github

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
5🔥4🥰3🤮1
👩‍💻 Attention OCR — модель распознавания текста с использованием TensorFlow, применяя сочетание сверточных нейронных сетей (CNN), моделей последовательностей (seq2seq) и визуального внимания для выделения текста в изображениях. Доступна установка через Python, поддерживается Google Cloud ML Engine.

🌟 Модель настраивается для создания датасетов и визуализации внимания на тестовых данных, а также поддерживает экспорт в формате SavedModel для серверного развертывания, включая интеграцию с TensorFlow Serving.

🔐 Лицензия: MIT

🖥 Github

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍2👏2
Forwarded from Machinelearning
🌟 SmolLM2: второе поколение компактных LLM от HuggingFace.

Hugging Face представила SmolLM2, новую серию SLM, оптимизированных для работы на устройствах c ограниченными ресурсами и предназначенных для выполнения задач генерации и обобщения текста на английском языке и вызова функций.

Модели SmolLM2 были обучены на миксе из наборов данных FineWeb-Edu, DCLM и Stack. Тестирование после обучения показало превосходство старшей модели SmolLM2-1.7B над Meta Llama 3.2 1B и Qwen2.5-1.5B.

Модели доступны в трёх конфигурациях: 135М, 360М и 1.7B параметров, каждая модель имеет свою Instruct-версию, а 1.7B и 360М еще и официальные квантованные версии GGUF:

SmolLM2-1.7B🟢SmolLM2-1.7B-Instruct🟢Instruct GGUF

SmolLM2-360M🟠SmolLM2-360M-Instruct 🟠Instruct GGUF

SmolLM2-135M 🟠SmolLM2-135M-Instruct 🟠Instruct GGUF от комьюнити


▶️Пример запуска модели SmolLM2-1.7B в полной точности на Transformers :

from transformers import AutoModelForCausalLM, AutoTokenizer
checkpoint = "HuggingFaceTB/SmolLM2-1.7B"
device = "cuda" # for GPU usage or "cpu" for CPU usage
tokenizer = AutoTokenizer.from_pretrained(checkpoint)

model = AutoModelForCausalLM.from_pretrained(checkpoint).to(device)
inputs = tokenizer.encode("Gravity is", return_tensors="pt").to(device)
outputs = model.generate(inputs)
print(tokenizer.decode(outputs[0]))


📌Лицензирование: Apache 2.0 License.


🟡Коллекция моделей на HF
🟡Demo SmolLM2 1.7B


@ai_machinelearning_big_data

#AI #ML #SLM #Huggingface #SmolLM2
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 GPTel — это расширение для Emacs, которое позволяет интегрировать ChatGPT непосредственно в редактор!

🌟 С его помощью пользователи могут отправлять текст из буфера Emacs в GPT API, получать ответы и вставлять их обратно в текстовый буфер, что удобно для работы с кодом, текстами и другими задачами, требующими взаимодействия с GPT прямо в редакторе.

🔐 Лицензия: GPL-3.0

🖥 Github

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥53👍3
🔥 Курс — генеративный ИИ для разработчиков!

🌟 В этом комплексном курсе по генеративному ИИ вы глубоко погрузитесь в мир генеративного ИИ, изучив ключевые концепции, такие как большие языковые модели, предварительная обработка данных и продвинутые методы, такие как тонкая настройка и RAG. С помощью практических проектов с такими инструментами, как Hugging Face, OpenAI и LangChain, вы создадите реальные приложения от резюмирования текста до пользовательских чат-ботов. К концу вы освоите конвейеры ИИ, векторные базы данных и методы развертывания с использованием таких платформ, как Google Cloud Vertex AI и AWS Bedrock.

🕞 Продолжительность: 21:11:20

🔗 Ссылка: *клик*

#курс #machinelearning #ai

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
7🔥3👍2
📝 Эта статья изучает использование разреженных автокодировщиков для представления концепций в больших языковых моделях, раскрывая трехуровневую геометрическую структуру таких представлений.

🌟 Исследование описывает базовые структуры, аналогичные кристаллам, обнаруживает пространственную модульность на уровне "мозга" и объясняет глобальные структуры данных, напоминающие галактики. Такой подход помогает понять, как автокодировщики могут лучше классифицировать и структурировать концепты, а также выявлять их зависимости в пространстве признаков.

📖 Читать: *клик*

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍64🥰2
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Выпущена версия Ollama 0.4 с поддержкой моделей Meta Llama 3.2 Vision (11B и 90B)!

🔗 Примеры работы модели и ссылка для скачивания: *клик*

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍32
Forwarded from Machinelearning
📌Руководство по эффективному использованию промптов для LLM от разработчиков из GoogleDeepMind.

Туториал ориентируется на нетехническую аудиторию, которая имеет опыт взаимодействия с большими языковыми моделями.

В первой половине представлены ментальные конструкции природы посттренинга и промптов. Вторая половина содержит более конкретные предписания и высокоуровневую процедуру промпт-инжиниринга.

Авторы, Varun Godbole и Ellie Pavlick подчеркивают, что поиск «идеальной» подсказки — это итеративный процесс, аналогичный настройке модели, который в лучшем случае является эмпирическим, а в худшем - алхимическим.

▶️ Содержание:

🟢Для кого предназначен этот документ?
🟢Зачем нужно это руководство?
🟢Background трейна: предварительная и последующая подготовка
🟢Рекомендации по промптам
🟢Рудиментарное "руководство по стилю" для промптов
🟢Процедура итерации новых системных инструкций
🟢Некоторые мысли о том, когда полезна LLM
🟢Дополнительные ресурсы


📌Лицензирование: Creative Commons Attribution 4.0 International Public License.


🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #Prompt #Github #Tutorial
Please open Telegram to view this post
VIEW IN TELEGRAM
👍42🔥2