🏎 Awesome Autonomous Vehicles
Основы, курсы, доклады, исследовательские лаборатории, наборы данных, программное обеспечение с открытым исходным кодом, аппаратное обеспечение, игрушки, компании, СМИ и законы, связанные с автономными транспортными средствами.
🐱 GitHub
Основы, курсы, доклады, исследовательские лаборатории, наборы данных, программное обеспечение с открытым исходным кодом, аппаратное обеспечение, игрушки, компании, СМИ и законы, связанные с автономными транспортными средствами.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍3🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ GPT-4V теперь может говорить и объяснять, что он видит.
SoM накладывает на изображения несколько пространственных и "говорящих" знаков (например, маски и идентификаторы ссылок), чтобы раскрыть возможности и получить обоснования от больших мультимодальных моделей (БММ).
https://github.com/roboflow/awesome-openai-vision-api-experiments
@bigdatai
SoM накладывает на изображения несколько пространственных и "говорящих" знаков (например, маски и идентификаторы ссылок), чтобы раскрыть возможности и получить обоснования от больших мультимодальных моделей (БММ).
https://github.com/roboflow/awesome-openai-vision-api-experiments
@bigdatai
🥰7❤3👍1
Перейдя на Parquet...
... вы никогда не вернетесь к CSV.
📌 Загружай данные в 113 раз быстрее c Parquet.
@bigdatai
... вы никогда не вернетесь к CSV.
📌 Загружай данные в 113 раз быстрее c Parquet.
@bigdatai
👍15🔥3❤2👎2
🔥 Дайджест полезных материалов из мира Больших данных за неделю
Почитать:
— Дежурный data-инженер: рабочие хроники
— RecTools – OpenSource библиотека для рекомендательных систем
— Проблема множественного тестирования на практике
— Введение в Apache Flink: осваиваем фреймворк на реальных примерах
— Data Mesh – ячеистые топологии для работы с данными
— Подбираем параметры сессии в Apache Spark, чтобы не стоять в очереди
— Как расширить компетенции аналитиков при работе с Big Data
— Жук, нумерология, хеш или ничо? Оптимизация работы с путями
— Выбор платформы и подрядчика для замены иностранного BI. На что нужно обратить внимание
— Руководство для начинающих по Spark UI: Как отслеживать и анализировать задания Spark
— Let's talk bout Linear-Algebra and ML
— Navigating AWS HIPAA Compliance: A Comprehensive Analysis
— Monitoring Your Time Series Model in Comet
— Join us: Unleashing the Future of AI Development with ViewML. AI Open Source Invention.
— The Hunger Games: Harnessing the Power of Emerging Technologies in Food Delivery App Development
— Building LangChain applications with Amazon Bedrock and Go - An introduction
— Standardizing the Data Using StandardScaler in ML
— Is Dictador's AI Robot CEO A Threat To Leadership Roles In The Business Landscape?
— Go for beginners
— Essential Features of Artificial Intelligence: A Thorough Synopsis
Посмотреть:
🌐 Задача с реального Python собеседования middle разработчика. Рекурсивная сумма. (⏱ 13:00)
🌐 Определение диабета при помощи машинного обучения в 60 строк кода! (⏱ 12:54)
🌐 Что такое vector в c++ (⏱ 00:51)
🌐 STL C++ стандартная библиотека (⏱ 00:57)
🌐 deque разбор в С++ (⏱ 00:58)
🌐 Последовательные контейнеры c++ List (⏱ 00:47)
🌐 Совет Python разработчикам - реши задачу Chain sum с реального собеседования. (⏱ 14:23)
🌐 Нейросеть для превращения #YouTube видео в презентацию (⏱ 00:28)
🌐 🔥 NVIDIA только что сделала Pandas в 150 раз быстрее без изменений кода. #python (⏱ 00:20)
🌐 Applied Reinforcement Learning for Online Ads/Recommender - Kevin Noel (⏱ 42:37)
🌐 Sarah Bird, PhD - Building and Using Generative AI Responsibly: Microsoft’s Journey (⏱ 30:11)
🌐 The Ethics Of Digital Minds with Professor Nick Bostrom (⏱ 57:03)
🌐 Nick Bostrom, PhD - The Ethics of Digital Minds: A baffling new frontier (⏱ 36:28)
🌐 ML on-device: Building Efficient Models - Danni Li (⏱ 34:00)
🌐 Creating Virtual Worlds 20x Faster! (⏱ 06:08)
🌐 NVIDIA’s New AI: Wow, 8x Better Text To 3D! (⏱ 04:27)
🌐 OpenAI's ChatGPT: 7 Unexpected Results! (⏱ 08:57)
Хорошего дня!
Почитать:
— Дежурный data-инженер: рабочие хроники
— RecTools – OpenSource библиотека для рекомендательных систем
— Проблема множественного тестирования на практике
— Введение в Apache Flink: осваиваем фреймворк на реальных примерах
— Data Mesh – ячеистые топологии для работы с данными
— Подбираем параметры сессии в Apache Spark, чтобы не стоять в очереди
— Как расширить компетенции аналитиков при работе с Big Data
— Жук, нумерология, хеш или ничо? Оптимизация работы с путями
— Выбор платформы и подрядчика для замены иностранного BI. На что нужно обратить внимание
— Руководство для начинающих по Spark UI: Как отслеживать и анализировать задания Spark
— Let's talk bout Linear-Algebra and ML
— Navigating AWS HIPAA Compliance: A Comprehensive Analysis
— Monitoring Your Time Series Model in Comet
— Join us: Unleashing the Future of AI Development with ViewML. AI Open Source Invention.
— The Hunger Games: Harnessing the Power of Emerging Technologies in Food Delivery App Development
— Building LangChain applications with Amazon Bedrock and Go - An introduction
— Standardizing the Data Using StandardScaler in ML
— Is Dictador's AI Robot CEO A Threat To Leadership Roles In The Business Landscape?
— Go for beginners
— Essential Features of Artificial Intelligence: A Thorough Synopsis
Посмотреть:
🌐 Задача с реального Python собеседования middle разработчика. Рекурсивная сумма. (⏱ 13:00)
🌐 Определение диабета при помощи машинного обучения в 60 строк кода! (⏱ 12:54)
🌐 Что такое vector в c++ (⏱ 00:51)
🌐 STL C++ стандартная библиотека (⏱ 00:57)
🌐 deque разбор в С++ (⏱ 00:58)
🌐 Последовательные контейнеры c++ List (⏱ 00:47)
🌐 Совет Python разработчикам - реши задачу Chain sum с реального собеседования. (⏱ 14:23)
🌐 Нейросеть для превращения #YouTube видео в презентацию (⏱ 00:28)
🌐 🔥 NVIDIA только что сделала Pandas в 150 раз быстрее без изменений кода. #python (⏱ 00:20)
🌐 Applied Reinforcement Learning for Online Ads/Recommender - Kevin Noel (⏱ 42:37)
🌐 Sarah Bird, PhD - Building and Using Generative AI Responsibly: Microsoft’s Journey (⏱ 30:11)
🌐 The Ethics Of Digital Minds with Professor Nick Bostrom (⏱ 57:03)
🌐 Nick Bostrom, PhD - The Ethics of Digital Minds: A baffling new frontier (⏱ 36:28)
🌐 ML on-device: Building Efficient Models - Danni Li (⏱ 34:00)
🌐 Creating Virtual Worlds 20x Faster! (⏱ 06:08)
🌐 NVIDIA’s New AI: Wow, 8x Better Text To 3D! (⏱ 04:27)
🌐 OpenAI's ChatGPT: 7 Unexpected Results! (⏱ 08:57)
Хорошего дня!
❤6👍2🔥1
🔥Список открытых датасетов
Список открытых датасетов высокого качества для машинного обучения, временных рядов, НЛП, обработки изображений и т.д., ориентированный на конкретные темы.
🔗 https://github.com/awesomedata/awesome-public-datasets
@bigdatai
Список открытых датасетов высокого качества для машинного обучения, временных рядов, НЛП, обработки изображений и т.д., ориентированный на конкретные темы.
🔗 https://github.com/awesomedata/awesome-public-datasets
@bigdatai
👍9🔥4❤2
Коллекция статей, наборов данных, кода и других ресурсов, посвященных отслеживанию и обнаружению объектов с помощью глубокого обучения.
🔗 https://github.com/abhineet123/Deep-Learning-for-Tracking-and-Detection
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥3❤2
🔥 Дайджест полезных материалов из мира Больших данных за неделю
Почитать:
— Как автоматизировать проверки данных в Airflow с Great Expectations
— 5 уровней зрелости MLOps
— Лучшие ресурсы чтобы выучить Git и Github
— Персонализация тарифного плана для новых абонентов: как оцифровать привлекательность
— Деревья ltree в PostgreSQL – простым языком
— Лучшие практики Golang (20 лучших)
— How to install NVIDIA drivers for machine learning on Ubuntu
— Working through the fast.ai book in Rust - Part 1
— Why ChatGPT and other LLMs are overrated and won't take your job
— Demystifying Transformer Models: Unveiling the Magic of Natural Language Processing
— A Quick Look At Natural Language Generation (NLG)
— AI Log #2: What is a Cost Function in Machine Learning?
— The Next Generation of AI Developer Tools
— AI Development Guide 2024
— What is a Conditional Generative Adversarial Network?
— The State of Serverless GPU Part -2
Посмотреть:
🌐 Пишем генератор Shorts видео на Python для заработка на YouTube. (⏱ 11:50)
🌐 Озвучка и генерации контента с помощью #Python и AI (⏱ 00:44)
🌐 Замена лица на любой фотографии с помощью #python БЕСПЛАТНО! (⏱ 00:59)
🌐 Lightning Interview “Large Language Models: Past, Present and Future” (⏱ 01:00:00)
🌐 Thomas Scialom, PhD - Large Language Models: Past, Present and Future (⏱ 34:45)
🌐 Leveraging Generative AI in Education - A M Aditya (⏱ 31:24)
🌐 AI Art: How is This Quality Even Possible? (⏱ 05:29)
Хорошего дня!
#digest #bigdata
@bigdatai
Почитать:
— Как автоматизировать проверки данных в Airflow с Great Expectations
— 5 уровней зрелости MLOps
— Лучшие ресурсы чтобы выучить Git и Github
— Персонализация тарифного плана для новых абонентов: как оцифровать привлекательность
— Деревья ltree в PostgreSQL – простым языком
— Лучшие практики Golang (20 лучших)
— How to install NVIDIA drivers for machine learning on Ubuntu
— Working through the fast.ai book in Rust - Part 1
— Why ChatGPT and other LLMs are overrated and won't take your job
— Demystifying Transformer Models: Unveiling the Magic of Natural Language Processing
— A Quick Look At Natural Language Generation (NLG)
— AI Log #2: What is a Cost Function in Machine Learning?
— The Next Generation of AI Developer Tools
— AI Development Guide 2024
— What is a Conditional Generative Adversarial Network?
— The State of Serverless GPU Part -2
Посмотреть:
🌐 Пишем генератор Shorts видео на Python для заработка на YouTube. (⏱ 11:50)
🌐 Озвучка и генерации контента с помощью #Python и AI (⏱ 00:44)
🌐 Замена лица на любой фотографии с помощью #python БЕСПЛАТНО! (⏱ 00:59)
🌐 Lightning Interview “Large Language Models: Past, Present and Future” (⏱ 01:00:00)
🌐 Thomas Scialom, PhD - Large Language Models: Past, Present and Future (⏱ 34:45)
🌐 Leveraging Generative AI in Education - A M Aditya (⏱ 31:24)
🌐 AI Art: How is This Quality Even Possible? (⏱ 05:29)
Хорошего дня!
#digest #bigdata
@bigdatai
👍4❤2🔥2
👉 Классификация изображений
Список из 5 лучших работ и проектов с кодом по классификации изображений с помощью глубокого обучения.
🔗 https://github.com/weiaicunzai/awesome-image-classification
@bigdatai
Список из 5 лучших работ и проектов с кодом по классификации изображений с помощью глубокого обучения.
🔗 https://github.com/weiaicunzai/awesome-image-classification
@bigdatai
👍4❤2🔥1
👉 Обзоры по ML
Обзорные статьи, обобщающие достижения в области глубокого обучения, НЛП, CV, графов, обучения с подкреплением, рекомендаций, графов и т.д.
🔗 https://github.com/eugeneyan/ml-surveys
Перевести пост
@bigdatai
Обзорные статьи, обобщающие достижения в области глубокого обучения, НЛП, CV, графов, обучения с подкреплением, рекомендаций, графов и т.д.
🔗 https://github.com/eugeneyan/ml-surveys
Перевести пост
@bigdatai
👍8❤2🔥1
Новая библиотека с открытым исходным кодом для всех, кто работает с данными.
Их инструмент поражает воображение. С помощью одной строки кода на языке Python он позволяет:
- Обнаружить распространенные проблемы с данными (неправильное наложение меток, пропуски, дубликаты, дрейф)
- Настройка и тестирование модели
- Проанализировать данные
- Активное обучение
Я потратил тысячи часов на проверку и исправление данных для обучения моделей машинного обучения. Этот инструмент может делать это автоматически.
Этот инструмент - волшебство.
🐱 GitHub
Их инструмент поражает воображение. С помощью одной строки кода на языке Python он позволяет:
- Обнаружить распространенные проблемы с данными (неправильное наложение меток, пропуски, дубликаты, дрейф)
- Настройка и тестирование модели
- Проанализировать данные
- Активное обучение
Я потратил тысячи часов на проверку и исправление данных для обучения моделей машинного обучения. Этот инструмент может делать это автоматически.
Этот инструмент - волшебство.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥3❤2
⭐️ 10 способов повысить эффективность RAG-системы
LLM — удивительное изобретение, но с одной ключевой проблемой. Эти модели придумывают всякую ерунду. RAG (Retrieval Augmented Generation — генерация ответа, дополненная результатами поиска) повышает эффективность модели, предоставляя ей фактический контекст, необходимый при ответах на запросы.
Используя краткое руководство по запуску таких фреймворков, как LangChain и LlamaIndex, каждый может создать простую RAG-систему (например, чат-бота для работы с документами) с помощью примерно пяти строк кода.
Но бот, сконструированный с помощью этих пяти строк кода, не будет работать ожидаемо хорошо. RAG легко прототипировать, но очень трудно внедрить в производство, т. е. довести до состояния, которым будут довольны пользователи.
В базовой учебной версии RAG может работать на 80%. Но чтобы обеспечить недостающие 20%, часто требуются серьезные эксперименты. Лучшие практики еще не отработаны и могут варьироваться в зависимости от конкретной ситуации. Но ознакомление с ними стоит вашего времени, поскольку RAG — пожалуй, единственный наиболее эффективный способ применения LLM.
В этой статье рассматриваются стратегии повышения качества RAG-систем. Она предназначена для тех, кто создает RAG, стремясь преодолеть разрыв между базовыми настройками и достижением эффективности производственного уровня. В рамках данной статьи под оптимизацией понимается увеличение доли запросов, для которых система находит нужный контекст и генерирует соответствующий ответ.
Предполагаю, что читатель уже имеет представление о RAG-процессе и знаком со стандартными фреймворками, используемыми для реализации подобных стратегий: LangChain и LlamaIndex. Тем не менее обсуждаемые здесь идеи не зависят от фреймворка.
⚡️Читать дальше
@bigdatai
LLM — удивительное изобретение, но с одной ключевой проблемой. Эти модели придумывают всякую ерунду. RAG (Retrieval Augmented Generation — генерация ответа, дополненная результатами поиска) повышает эффективность модели, предоставляя ей фактический контекст, необходимый при ответах на запросы.
Используя краткое руководство по запуску таких фреймворков, как LangChain и LlamaIndex, каждый может создать простую RAG-систему (например, чат-бота для работы с документами) с помощью примерно пяти строк кода.
Но бот, сконструированный с помощью этих пяти строк кода, не будет работать ожидаемо хорошо. RAG легко прототипировать, но очень трудно внедрить в производство, т. е. довести до состояния, которым будут довольны пользователи.
В базовой учебной версии RAG может работать на 80%. Но чтобы обеспечить недостающие 20%, часто требуются серьезные эксперименты. Лучшие практики еще не отработаны и могут варьироваться в зависимости от конкретной ситуации. Но ознакомление с ними стоит вашего времени, поскольку RAG — пожалуй, единственный наиболее эффективный способ применения LLM.
В этой статье рассматриваются стратегии повышения качества RAG-систем. Она предназначена для тех, кто создает RAG, стремясь преодолеть разрыв между базовыми настройками и достижением эффективности производственного уровня. В рамках данной статьи под оптимизацией понимается увеличение доли запросов, для которых система находит нужный контекст и генерирует соответствующий ответ.
Предполагаю, что читатель уже имеет представление о RAG-процессе и знаком со стандартными фреймворками, используемыми для реализации подобных стратегий: LangChain и LlamaIndex. Тем не менее обсуждаемые здесь идеи не зависят от фреймворка.
⚡️Читать дальше
@bigdatai
👍4❤3🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Когда вы входите на веб-сайт, возникает необходимость управления вашей учетной записью. Вот как работают разные решения:
▪ Токен — Ваша учетная запись закодирована в токене, отправленном в браузер. Браузер отправляет этот токен при будущих запросах аутентификации. Хранилище сеансов сервера не требуется. Но токены нуждаются в шифровании/дешифровании.
▪ Сессия — Сервер сохраняет вашу учетную запись и передает браузеру файл cookie с идентификатором сеанса. Это позволяет серверу отслеживать состояние входа в систему. Но файлы cookie не работают на разных устройствах.
▪ JWT — Веб-токены JSON стандартизируют токены идентификации, используя цифровые подписи для обеспечения проверки подлинности. Подпись содержится в токене, поэтому сеанс сервера не требуется.
▪ SSO — Система единого входа использует центральную службу аутентификации. Это позволяет одному логину работать на нескольких сайтах.
▪ OAuth2 — Разрешает ограниченный доступ к вашим данным на одном сайте другому сайту без разглашения паролей.
▪ QR-код — Набирающий популярность метод аутентификации. Кодирует случайный токен в QR-код для входа в систему с мобильного устройства. Сканирование кода позволяет войти в систему без ввода пароля.
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤3🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Новый Florence 2 от Microsoft имеет большое значение для компьютерного зрения.
Это слияние текста и зрения.
С помощью одного запроса вы можете поручить модели выполнение таких задач, как создание надписей, обнаружение объектов, выделение и сегментация.
Самое приятное, что для всего этого используется только одна основа.
▸ Превосходная производительность
▸ Единая модель для обнаружения, создания титров и т. д.
▸ Набор данных FLD-5B: 5B+ аннотаций, 126M изображений
▸ Новые бенчмарки (>5.5+) на COCO, ADE20K
https://arxiv.org/abs/2311.06242
@bigdatai
Это слияние текста и зрения.
С помощью одного запроса вы можете поручить модели выполнение таких задач, как создание надписей, обнаружение объектов, выделение и сегментация.
Самое приятное, что для всего этого используется только одна основа.
▸ Превосходная производительность
▸ Единая модель для обнаружения, создания титров и т. д.
▸ Набор данных FLD-5B: 5B+ аннотаций, 126M изображений
▸ Новые бенчмарки (>5.5+) на COCO, ADE20K
https://arxiv.org/abs/2311.06242
@bigdatai
❤3🔥3👍1
🔥 Practical_RL
В этом репозитории вы найдете открытый курс по обучению с подкреплением в дикой природе. Этот курс уже преподается на кампусе ВШЭ и YSDA.
https://github.com/yandexdataschool/Practical_RL
@bigdatai
В этом репозитории вы найдете открытый курс по обучению с подкреплением в дикой природе. Этот курс уже преподается на кампусе ВШЭ и YSDA.
https://github.com/yandexdataschool/Practical_RL
@bigdatai
❤6🔥5👍1
💥 Архив из 32 датасетов, которые вы можете использовать для практики и совершенствования своих навыков исследователя данных
https://datasciencedojo.com/blog/datasets-data-science-skills
@bigdatai
https://datasciencedojo.com/blog/datasets-data-science-skills
@bigdatai
👍10🔥4❤1
🔥 LLM могут почти идеально восстанавливать предложения
-GPT-4 почти безупречно обрабатывает входные данные с неестественными ошибками и восстанавливает оригиналы.
-Даже если все буквы в каждом слове зашифрованы, а токенизация радикально изменена.
-Сложная задача для других LLM и людей
arxiv.org/abs/2311.18805
-GPT-4 почти безупречно обрабатывает входные данные с неестественными ошибками и восстанавливает оригиналы.
-Даже если все буквы в каждом слове зашифрованы, а токенизация радикально изменена.
-Сложная задача для других LLM и людей
arxiv.org/abs/2311.18805
❤6👍1🔥1
1. Введение
2. Временная сложность и Анализ алгоритмов
3. Массивы
4. Базовые алгоритмы сортировки
5. Эффективные алгоритмы сортировки # Рекурсия
6. Списки
7. Стек
8. Очереди
9. Линейный поиск и Бинарный поиск
10. Символьный таблицы / Словари
#video #algorithm
https://www.youtube.com/watch?v=jlheNrmPIQQ&list=PLBheEHDcG7-n6VhwSPZI64LwFmriuEvvR
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥3❤2🥰1
https://github.com/pytorch-labs/gpt-fast #deeplearning #machinelearning #ml #ai #neuralnetworks #datascience #pytorch
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤2👎1