Big data world
2.36K subscribers
412 photos
64 videos
18 files
1.25K links
Интересные статьи Data Science : Big Data : Machine Learning : Deep Learning

По вопросам сотрудничества- @Daily_admin_info

По иным темам @un_ixtime
Download Telegram
Сегментация дорог с помощью лидара (GitHub Repo) Исследователи разработали для самоуправляемых автомобилей более интеллектуальный метод распознавания дорог с помощью технологии лидара, который требует меньше ручной работы, но при этом сохраняет точность системы. подробнее→ https://github.com/evocargo/lidar-annotation-is-all-you-need
👍5
Представляем Mirasol, мультимодальную модель для обучения через аудио, видео и текст, которая разделяет моделирование на отдельные авторегрессионные модели для обработки входных данных в соответствии с характеристиками их модальностей, обеспечивая высочайшую производительность

https://blog.research.google/2023/11/scaling-multimodal-understanding-to.html
Ускорение генеративного искусственного интеллекта с помощью PyTorch: сегментируйте что угодно быстро

Этот пост является первой частью многосерийного блога, посвященного тому, как ускорить генеративные модели ИИ с помощью чистого, нативного PyTorch. Мы рады поделиться множеством недавно выпущенных функций производительности PyTorch, а также практическими примерами того, как эти функции можно комбинировать, чтобы увидеть, насколько далеко мы можем повысить производительность PyTorch. https://pytorch.org/blog/accelerating-generative-ai/
Модель прогнозирования погоды DeepMind (репозиторий GitHub)
DeepMind уже несколько лет работает над прогнозированием погоды. Последняя модель, построенная на графовых нейронных сетях, чрезвычайно точна для 10-дневных прогнозов. https://github.com/google-deepmind/graphcast


Интерполяция видеокадров с индексацией расстояния
Существующие методы интерполяции видеокадров (VFI) слепо предсказывают, где находится каждый объект в определенный момент времени t («индексация времени»), что затрудняет предсказание точных движений объекта. Учитывая два изображения ⚾️, существует бесконечно много возможных траекторий: ускоряющихся или замедляющихся, прямых или изогнутых. Это часто приводит к размытым кадрам, поскольку метод усредняет эти возможности. Вместо того, чтобы заставлять сеть неявно изучать это сложное сопоставление времени и местоположения вместе с прогнозированием кадров, мы предоставляем сети явную подсказку о том, как далеко объект прошел между начальным и конечным кадрами. Новый подход получил название «индексация расстояния». https://zzh-tech.github.io/InterpAny-Clearer
Microsoft запустила лучший курс по генеративному искусственному интеллекту. Бесплатный курс из 12 уроков доступен на Github и научит вас всему, что вам нужно знать, чтобы начать создавать приложения генеративного ИИ.

https://github.com/microsoft/generative-ai-for-beginners
👍3
5 бесплатных курсов для освоения машинного обучения
Вам интересно изучать и создавать модели машинного обучения? Начните обучение сегодня с помощью этих бесплатных курсов машинного обучения.

https://www.kdnuggets.com/5-free-courses-to-master-machine-learning
3
This media is not supported in your browser
VIEW IN TELEGRAM
Интерактивная панель управления Python, чтобы продемонстрировать сэмплер Гиббса, концепцию в цепи Маркова Монте-Карло

https://github.com/GeostatsGuy/PythonNumericalDemos/blob/master/Interactive_Gibbs_Sampler.ipynb
Создайте языковую модель в своих чатах WhatsApp

Визуальное руководство по архитектуре GPT с приложением

В этой статье я расскажу вам о своем пути создания (маленькой) языковой модели, которая генерирует синтетические разговоры, используя мои сообщения чата WhatsApp в качестве входных данных. https://towardsdatascience.com/build-a-language-model-on-your-whatsapp-chats-31264a9ced90
🏆Как освоить 📊 конвейеры больших данных с помощью Taipy и PySpark 🐍

В этой статье будет использован простой пример, чтобы продемонстрировать, как мы можем интегрировать PySpark с Taipy , чтобы соединить ваши потребности в обработке больших данных с интеллектуальным выполнением заданий . https://dev.to/taipy/how-to-master-big-data-pipelines-with-taipy-and-pyspark-14oe
👍1
Ускорение генеративного ИИ с Pytorch II: GPT, быстро.

https://pytorch.org/blog/accelerating-generative-ai-2/
llamafile - это комбинация llama.cpp и Cosmopolitan libc. Это означает, что вы можете использовать практически любой процессор на любой ОС и упаковать свою модель в один исполняемый файл.
больше→ https://github.com/Mozilla-Ocho/llamafile
Локальные нейросети. Аналог ChatGPT-3.5 на домашнем ПК: OpenChat 7B превосходящая 70B, DeepSeek для кода уровня ChatGPT

Есть много локальных аналогов ChatGPT, но им не хватает качества, даже 65B модели не могут конкурировать хотя бы с ChatGPT-3.5. И здесь я хочу рассказать про 2 открытые модели, которые всё-таки могут составить такую конкуренцию.

Речь пойдет о OpenChat 7B и DeepSeek Coder. Обе модели за счет размера быстры, можно запускать на CPU, можно запускать локально, можно частично ускорять на GPU (перенося часть слоев на GPU, на сколько хватит видеопамяти) и для такого типа моделей есть графический удобный интерфейс.

И бонусом затронем новую модель для качественного подробного описания фото.

UPD: Добавлена информация для запуска на Windows с ускорением на AMD. https://habr.com/ru/articles/776314/
Mimesis: идеальное решение для генерации данных.

Сбор данных имеет решающее значение для каждого проекта, связанного с машинным обучением. Однако не всегда искомые данные существуют или общедоступны. Во многих случаях получение данных является дорогостоящим или затрудненным из-за внешних условий. Кроме того, правила конфиденциальности влияют на способы использования или распространения набора данных. По всем этим причинам использование синтетических данных является хорошей альтернативой, поскольку с их помощью можно удовлетворить те же потребности без особых усилий.

В этой статье мы рассмотрим один из лучших пакетов для генерации синтетических данных.

Читать далее https://habr.com/ru/articles/771950
Кто такие LLM-агенты и что они умеют?.

В последнее время большие языковые модели (Large Language Models, LLM) стали невероятно популярными — кажется, их обсуждают везде, от школьных коридоров до Сената США. Сфера LLM растёт бурными темпами, привлекая внимание не только специалистов в области машинного обучения, но и обычных пользователей. Кто-то высказывает массу опасений насчет их дальнейшего развития, а кто-то и вовсе предлагает бомбить дата-центры — и даже в Белом Доме обсуждают будущее моделей. Но неужели текстом можно кому-то навредить? А что если такая модель приобрела бы агентность, смогла создать себе физическую оболочку и полностью ей управлять? Ну, это какая-то фантастика из (не)далёкого будущего, а про агентов нашего времени я расскажу в этой статье. И не переживайте — знание машинного обучения вам не понадобится!

Читать далее https://habr.com/ru/companies/ods/articles/776478
1
Книга: Шаблоны проектирования обработки данных (DEDP)

https://www.dedp.online/about-this-book.html
Кураторский список потрясающих библиотек с открытым исходным кодом для развертывания, мониторинга, версии и масштабирования вашего машинного обучения.

https://github.com/EthicalML/awesome-production-machine-learning
👍3