Big Data AI
16.8K subscribers
836 photos
98 videos
19 files
837 links
@haarrp - админ

Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям

@data_analysis_ml - анализ данных

@ai_machinelearning_big_data

@itchannels_telegram - важное для программиста

РКН: clck.ru/3Fmqxe
Download Telegram
🔥 Курс — генеративный ИИ для разработчиков!

🌟 В этом комплексном курсе по генеративному ИИ вы глубоко погрузитесь в мир генеративного ИИ, изучив ключевые концепции, такие как большие языковые модели, предварительная обработка данных и продвинутые методы, такие как тонкая настройка и RAG. С помощью практических проектов с такими инструментами, как Hugging Face, OpenAI и LangChain, вы создадите реальные приложения от резюмирования текста до пользовательских чат-ботов. К концу вы освоите конвейеры ИИ, векторные базы данных и методы развертывания с использованием таких платформ, как Google Cloud Vertex AI и AWS Bedrock.

🕞 Продолжительность: 21:11:20

🔗 Ссылка: *клик*

#курс #machinelearning #ai

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
7🔥3👍2
📝 Эта статья изучает использование разреженных автокодировщиков для представления концепций в больших языковых моделях, раскрывая трехуровневую геометрическую структуру таких представлений.

🌟 Исследование описывает базовые структуры, аналогичные кристаллам, обнаруживает пространственную модульность на уровне "мозга" и объясняет глобальные структуры данных, напоминающие галактики. Такой подход помогает понять, как автокодировщики могут лучше классифицировать и структурировать концепты, а также выявлять их зависимости в пространстве признаков.

📖 Читать: *клик*

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍64🥰2
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Выпущена версия Ollama 0.4 с поддержкой моделей Meta Llama 3.2 Vision (11B и 90B)!

🔗 Примеры работы модели и ссылка для скачивания: *клик*

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍32
Forwarded from Machinelearning
📌Руководство по эффективному использованию промптов для LLM от разработчиков из GoogleDeepMind.

Туториал ориентируется на нетехническую аудиторию, которая имеет опыт взаимодействия с большими языковыми моделями.

В первой половине представлены ментальные конструкции природы посттренинга и промптов. Вторая половина содержит более конкретные предписания и высокоуровневую процедуру промпт-инжиниринга.

Авторы, Varun Godbole и Ellie Pavlick подчеркивают, что поиск «идеальной» подсказки — это итеративный процесс, аналогичный настройке модели, который в лучшем случае является эмпирическим, а в худшем - алхимическим.

▶️ Содержание:

🟢Для кого предназначен этот документ?
🟢Зачем нужно это руководство?
🟢Background трейна: предварительная и последующая подготовка
🟢Рекомендации по промптам
🟢Рудиментарное "руководство по стилю" для промптов
🟢Процедура итерации новых системных инструкций
🟢Некоторые мысли о том, когда полезна LLM
🟢Дополнительные ресурсы


📌Лицензирование: Creative Commons Attribution 4.0 International Public License.


🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #Prompt #Github #Tutorial
Please open Telegram to view this post
VIEW IN TELEGRAM
👍42🔥2
🔥 Курс — понимание ИИ и нейронных сетей путем ручной настройки параметров!

💡 На этом курсе вы получите возможность самостоятельно настроить параметры сети, помогая автомобилю научиться ездить на специальной игровой площадке. Этот курс отлично подходит как для новичков, так и для тех, кто хочет углубить свои знания в области ИИ.

🌟 Курс охватывает такие ключевые темы, как математика нейронных сетей, роль скрытых слоев и алгоритм Дейкстры для поиска пути. К концу этого курса у вас будет прочное понимание основ ИИ и практический опыт настройки поведения ИИ.

🔗 Ссылка: *клик*


@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍62👏2
🖼 OmniGen — это универсальная модель для генерации изображений, упрощающая создание различных визуальных контентов!

🌟 Модель объединяет множество методов генерации изображений в одну систему, позволяя создавать изображения по текстовым запросам, а также на основе других изображений. OmniGen минимизирует необходимость в дополнительных модулях или обработке данных, делая процесс гибким и оптимизированным. Модель также поддерживает настройку и тонкую настройку для специализированных задач.

🔐 Лицензия: MIT

📖 Arxiv: *клик*
🖥 Github
🔗 HuggingFace: *клик*

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍42🔥2
🔥 pytorch_tabular — это высокоуровневый фреймворк на основе PyTorch, созданный для работы с табличными данными!

🌟 Он упрощает обучение моделей для таких данных, как таблицы или структурированные датасеты, и поддерживает несколько популярных архитектур нейросетей для табличных данных. Фреймворк позволяет гибко настраивать модели с помощью конфигурационных файлов и интегрируется с библиотеками, такими как PyTorch Lightning.

🔐 Лицензия: MIT

🖥 Github

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍53🔥2🕊1🌭1👨‍💻1
Forwarded from Machinelearning
📌Исследование различных типов связей между датасетами для улучшения их поиска.

В исследовании, опубликованном к International Semantic Web Conference, Google Research проанализировал связи между датасетами, доступными в Интернет. Целью исследования заявлена стремление улучшить возможности поиска и использования данных, учитывая их сложные взаимоотношения.

Исследователи выделили 4 ключевые задачи, с которыми сталкиваются пользователи при работе с датасетами:

🟢Поиск. Огромное количество данных в сети затрудняет поиск нужных датасетов.

🟢Оценка достоверности. В отличие от научных публикаций, датасеты редко проходят рецензирование, поэтому пользователям приходится полагаться на метаданные для оценки их надежности.

🟢Цитирование. Корректное цитирование требует наличия постоянных идентификаторов, метаданных и точного описания происхождения данных.

🟢Курирование: Курирование включает сбор, организацию и поддержку датасетов из разных источников, а для этого кураторам необходимо понимать связи между ними.

Чтобы классифицировать отношения между датасетами были использованы 2 основных типа связей: основанные на происхождении (например, версии и подмножества) и не связанные с происхождением (например, тематически похожие).

Для автоматического определения отношений между датасетами применяли 4 метода:

🟠Извлечение отношений из schema.org.
Schema.org - это семантическая разметка метаданных для поисковых ботов на веб-страницах.

🟠Эвристический подход.
Набор правил, разработанных для каждого типа отношений.

🟠Градиентный бустинг деревьев решений (GBDT).
Метод машинного обучения, основанный на классификации.

🟠Модель T5.
Генеративная модель, также используемая для классификации.

Результаты исследования показали, что методы машинного обучения, GBDT и T5, превзошли эвристический подход в точности определения отношений. GBDT продемонстрировал наилучшие показатели F1 в различных категориях, T5 тоже молодец показал схожие результаты.

Однако, даже самые эффективные методы столкнулись с ограничениями из-за недостаточной полноты метаданных. Вывод - необходимость улучшения стандартов метаданных и более широкого использования schema.org для описания связей между датасетами.


🟡Статья в блоге
🟡Arxiv
🟡Поиск по датасетам


@ai_machinelearning_big_data

#AI #ML #Google #Datasets #Search
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍42🔥2
Forwarded from Machinelearning
✔️ Nous Research запустил бета-версию Forge Reasoning API.

Forge Reasoning API позволяет улучшить возможности популярных LLM, добавив интерпретатор кода и расширенные возможности рассуждений. API использует три архитектуры: поиск по древу Монте-Карло (MCTS), цепочка кода (CoC) и смесь агентов (MoA).

Forge совместим с Hermes 3, Claude Sonnet 3.5, Gemini и GPT 4 и может комбинировать несколько языковых моделей для повышения разнообразия выходных данных. Beta-тестирование API будет сосредоточено на тестировании архитектуры системы рассуждений.
nousresearch.com

✔️ Google устраняет уязвимости в Vertex AI, которые могли привести к утечке моделей ИИ.

Уязвимости, обнаруженные Palo Alto Networks Unit 42, позволяли злоумышленникам получать несанкционированный доступ к данным и извлекать корпоративные модели из системы.

Первая уязвимость, связанная с функцией "пользовательские задания", позволяла повышать привилегии и получать доступ ко всем сервисам данных в проекте. Вторая уязвимость, связанная с функцией "вредоносные модели", позволяла развертывать вредоносные модели и получать доступ ко всем другим настроенным моделям, что создавало серьезный риск утечки конфиденциальных данных.
Google уже установила исправления для устранения этих уязвимостей.
darkreading.com

✔️ JetBrains выпустила обновление 2024.3 для AI Assistant и IDEs.

AI Assistant 2024.3 теперь поддерживает модели Gemini, предоставляя пользователям возможность выбирать между моделями Gemini, OpenAI или локальными моделями. Ассистент также предлагает улучшенное автозавершение кода, расширенное управление контекстом и встроенную генерацию подсказок.

Обновления коснулись IDE JetBrains: PyCharm (добавлена функция AI-внутристроковых подсказок) , WebStorm (реализована улучшенная навигация по компонентам), GoLand (добавлены многострочное завершение, новая функция встроенной подсказки и новые языковые возможности из последних релизов Go), PhpStorm( новые проверки и быстрые исправления для обновления до PHP 8.4) и RubyMine(поддержка Rail 8, более быстрое завершение кода с учетом контекста и улучшенная интеграция модульных тестов).
sdtimes.com

✔️ Red Hat приобретает технологию для снижения стоимости машинного обучения.

Red Hat объявила о намерении приобрести Neural Magic, разработчика проекта vLLM с открытым исходным кодом. Цель приобретения в том, чтобы Red Hat и ее материнская компания IBM могли снизить барьер для входа организаций, желающих запускать рабочие нагрузки машинного обучения без необходимости развертывания серверов, оснащенных GPU.

Neural Magic разработала способ запуска алгоритмов машинного обучения без GPU. Вместо этого компания методы обрезки и квантования для оптимизации моделей, позволяя им работать на доступных процессорах без ущерба для производительности.
computerweekly.com

✔️ Франсуа Шолле покидает Google.

Французский разработчик Франсуа Шолле, создатель Keras, покидает Google после почти 10 лет работы. Keras лежит в основе ряда технологических продуктов: беспилотные автомобили Waymo, рекомендательные системы на YouTube, Netflix и Spotify.

В 2019 году Шолле опубликовал тест Abstraction and Reasoning Corpus for Artificial General Intelligence (ARC-AGI), который измеряет способность систем ИИ решать новые задачи на рассуждение. Шолле неоднократно утверждал, что подход, принятый многими крупными лабораториями, разрабатывающими ИИ (внедрение все большего количества данных и вычислительных ресурсов в модели), не позволит достичь ИИ, который будет таким же «умным», как люди.

34-летний Франсуа сообщил в посте X, что он создает новую компанию вместе с «другом», но отказался раскрывать подробности.
techcrunch.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥42
This media is not supported in your browser
VIEW IN TELEGRAM
🖼 AutoVFX — инструмент, позволяющий создавать видео с потрясающими эффектами с помощью ИИ, используя для этого только одно фото и инструкции на человеческом языке!

🔐 Лицензия: MIT

🖥 Github

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍42🔥2
⚡️Легкий способ получать свежие обновления и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь:

МАШИННОЕ ОБУЧЕНИЕ: t.iss.one/ai_machinelearning_big_data
C++ t.iss.one/cpluspluc
Python: t.iss.one/pythonl
Linux: t.iss.one/linuxacademiya
Хакинг: t.iss.one/linuxkalii
Devops: t.iss.one/DevOPSitsec
Data Science: t.iss.one/datascienceiot
Javascript: t.iss.one/javascriptv
C#: t.iss.one/csharp_ci
Java: t.iss.one/javatg
Базы данных: t.iss.one/sqlhub
Python собеседования: t.iss.one/python_job_interview
Мобильная разработка: t.iss.one/mobdevelop
Docker: t.iss.one/DevopsDocker
Golang: t.iss.one/Golang_google
React: t.iss.one/react_tg
Rust: t.iss.one/rust_code
ИИ: t.iss.one/vistehno
PHP: t.iss.one/phpshka
Android: t.iss.one/android_its
Frontend: t.iss.one/front
Big Data: t.iss.one/bigdatai
Собеседования МЛ: t.iss.one/machinelearning_interview
МАТЕМАТИКА: t.iss.one/data_math
Kubernets: t.iss.one/kubernetc
Разработка игр: https://t.iss.one/gamedev

💼 Папка с вакансиями: t.iss.one/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.iss.one/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.iss.one/addlist/eEPya-HF6mkxMGIy
Папка ML: https://t.iss.one/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: https://t.iss.one/addlist/mzMMG3RPZhY2M2Iy

😆ИТ-Мемы: t.iss.one/memes_prog
🇬🇧Английский: t.iss.one/english_forprogrammers
🧠ИИ: t.iss.one/vistehno

🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: https://t.iss.one/addlist/BkskQciUW_FhNjEy
👍1
🔍 Эта статья исследует API-ориентированных веб-агентов, предлагая новые подходы к автоматизации взаимодействий с веб-сайтами.

⭐️ Вместо классического веб-скрейпинга авторы предлагают использование открытых и полузакрытых API, создавая агентов, которые могут выполнять сложные задачи, такие как бронирование билетов или составление расписаний, с высокой точностью и эффективностью. Подход улучшает надежность и совместимость агентов, особенно при изменениях интерфейсов сайтов.

📖 Читать: *клик*

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍653
🖥 Activepieces — это ИИ платформа для автоматизации и построения рабочих процессов с поддержкой no-code и open-source, предназначенная для упрощения интеграций между различными сервисами и приложениями, такими как Google Sheets, OpenAI, Discord и другие!

🌟 Она предоставляет пользователям визуальный редактор для построения процессов с использованием условных ветвлений, циклов и перетаскивания элементов.

💡 Пользователи могут воспользоваться готовыми шаблонами для создания своих процессов, а также добавлять собственные «кусочки» кода в TypeScript, чтобы расширять функциональность. Activepieces также поддерживает развертывание как в облаке, так и на собственных серверах, предлагая гибкость в настройке и масштабировании автоматизаций, что особенно удобно для малых и средних компаний, а также разработчиков и технических команд, стремящихся к улучшению производительности и сокращению затрат на интеграцию внешних сервисов.

🖥 Github

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍52🔥2👌1
🔥 firecrawl-simple — урезанная и оптимизированная версия библиотеки firecrawl! Она позволяет вам быстро конвертировать веб-сайты в готовый для чтения LLM текст.

🔐 Лицензия: AGPL-3.0

🖥 GitHub

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍63🔥2👌1
📖 Эта статья описывает новую методику повышения безопасности крупных языковых моделей (LLM) для быстрой адаптации к новым типам атак!

🌟 Вместо стремления к полной устойчивости к всем возможным атакам, предлагается метод "быстрого ответа" на новые попытки обхода защиты. Система адаптируется после изучения нескольких примеров атак, а затем блокирует аналогичные обходы. Представленный инструмент RapidResponseBench помогает оценить эффективность подхода, уменьшая успех атак в сотни раз даже после одного примера обхода.

🔗 Arxiv
🖥 Github

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍42🔥1
Forwarded from Machinelearning
🌟 LAION-DISCO-12M: большой датасет музыки с Youtube.

Набор данных LAION-DISCO-12M состоит из 12 млн ссылок на общедоступные треки YouTube с метаданными. Он собран для поддержки фундаментальных исследований в области машинного обучения, созданию базовых моделей обработки звука, извлечения музыкальной информации, анализа наборов данных аудио и обучение рекомендательных систем и приложений.

Метод создания LAION-DISCO-12M основан на рекурсивном поиске исполнителей на платформе YouTube Music. Начиная с начального списка исполнителей топ-чартов разных стран, новые артисты обнаруживались путем анализа раздела "Похожие исполнители".

Для каждого исполнителя извлекались метаданные: имя, количество подписчиков и список всех песен и музыкальных клипов. Каждая песня или музыкальный клип были связаны с URL-адресом YouTube.

Размер датасета составляет 250 516 исполнителей и 12 648 485 треков.

Поля метаданных:

🟢song_id - идентификатор трека;
🟢title - название;
🟢artist_names - имя исполнителя;
🟢artist_ids - идентификатор исполнителя;
🟢album_name - название альбома;
🟢album_id - идентификатор альбома;
🟢isExplicit - признак наличия ненормативной лексики;
🟢views - количество просмотров;
🟢duration - продолжительность трека.


📌Лицензирование: Apache 2.0 License.


🟡Страница проекта
🟡Датасет


@ai_machinelearning_big_data

#AI #ML #LAION #Audio #Dataset
Please open Telegram to view this post
VIEW IN TELEGRAM
👍62
Новая открытая версия от Apple - AIMv2 - крупномасштабные визуальные кодеры 🔥

> >
Превосходит CLIP и SigLIP по основным показателям мультимодального понимания
> Превосходит DINOv2 по обнаружению объектов
> Высокая эффективность распознавания с помощью AIMv2-3B, достигающая 89,5% на ImageNet
> Интегрированные трансформаторы (пользовательский код)

HF: https://huggingface.co/collections/apple/aimv2-6720fe1558d94c7805f7688c
Paper: https://huggingface.co/papers/2411.14402

@bigdatai
👍31👎1🔥1💩1🤡1