Big data world
2.37K subscribers
412 photos
64 videos
18 files
1.25K links
Интересные статьи Data Science : Big Data : Machine Learning : Deep Learning

По вопросам сотрудничества- @Daily_admin_info

По иным темам @un_ixtime
Download Telegram
Яндекс Карты открывают крупнейший русскоязычный датасет отзывов на организации.

Сегодня мы хотим поделиться новостью для всех, кто занимается анализом данных в области лингвистики и машинного обучения. Яндекс выкладывает в открытый доступ крупнейший русскоязычный датасет отзывов об организациях, опубликованных на Яндекс Картах. Это 500 тысяч отзывов со всей России с января по июль 2023 года.

В этой статье я расскажу, чем полезны отзывы с точки зрения исследований, в чём особенность этого датасета, а также покажу примеры задач, которые можно решать с его помощью.

Читать далее https://habr.com/ru/companies/yandex/articles/763832
Компьютерное зрение в браузере менее чем за 10 строк JavaScript🔥
Stable Diffusion: text-to-person.

Многие из вас сталкивались со Stable Diffusion и знают, что с помощью этой нейросети можно генерировать разнообразные изображения. Однако не всем интересно создавать случайные картинки с кошкодевочками, пускай даже и красивыми, и всем прочим. Согласитесь, было бы гораздо интереснее, если бы можно было обучить нейросеть создавать изображения... нас самих? Или наших любимых актёров и музыкантов? Или наших почивших родственников? Конкретных людей, в общем, а не какие-то собирательные образы из того, что было заложено при обучении нейросети. И для достижения этой цели нам потребуется обучить некую модель. Этим мы и займёмся, пытаясь определить наиболее оптимальный воркфлоу и максимально его автоматизировать.

Читать далееhttps://habr.com/ru/articles/764700
This media is not supported in your browser
VIEW IN TELEGRAM
Представляем программы развития нейронов (NDP). Вместо нейронных сетей с фиксированной архитектурой мы позволяем нейронным сетям расти посредством динамического 🧬🧠процесса самоорганизации, вдохновленного тем, как развиваются биологические нервные системы. PDF 👇
https://arxiv.org/abs/2307.08197
Нейронные сети для планирования движения беспилотных автомобилей

Планировщик движения беспилотного автомобиля — это алгоритм-помощник, который общается с другими участниками движения посредством манёвров. То есть он действует так, чтобы другим было понятно, куда поедет беспилотник, и сам по действиям других пытается определить, кто куда будет двигаться и почему.

В диалоговых системах совсем недавно произошла революция из-за появления ChatGPT. В беспилотных автомобилях революции, к сожалению, пока не произошло, но если это случится, то как раз в той области, про которую будет мой рассказ.

Под катом — детальный разбор логики движения беспилотника, примеры свёрточных и трансформерных архитектур моделей для предсказания движения и много формул для расчёта вероятных траекторий других машин и пешеходов. А ещё я расскажу, в чём преимущества машинного обучения перед эвристиками и чем может помочь Reinforcement Learning.

https://habr.com/ru/companies/yandex/articles/763348/
Общие распределения вероятностей, которые встречаются в природе и почему математика является языком Вселенной.

По сути, закономерности Вселенной повторяются, что делает возможным машинное обучение и искусственный интеллект. По сути, при обучении моделей ML, включая NN, мы пытаемся смоделировать закономерности в данных. Хорошая модель может предсказать невидимые точки данных , которые являются частью исходного распределения данных. Вот общие распределения вероятностей и места их естественного возникновения. https://threadreaderapp.com/thread/1708664380987220427.html
👍1
Autogen от Microsoft взрывается на Github. Это платформа, которая позволяет агентам LLM общаться друг с другом для решения ваших задач. Агенты AutoGen настраиваемы, доступны для общения и легко допускают участие человека. Это также замена openai. https://github.com/microsoft/autogen
Дообучение ruGPT-3.5 13B с LoRA.

Сегодня я рад представить вам подробное руководство по обучению модели ruGPT-3.5 13B с использованием датасетов модели Saiga-2/GigaSaiga, технологии Peft/LoRA и технологии GGML. Эта статья призвана стать полезным и практичным ресурсом для всех, кто интересуется машинным обучением, искусственным интеллектом и глубоким обучением, а также для тех, кто стремится глубже понять и освоить процесс обучения одной из самых мощных и перспективных русскоязычных моделей.

В данной публикации мы разберем каждый этап обучения модели, начиная от подготовки данных и заканчивая конвертацией в формат GGML. Буду рад, если мой опыт и знания помогут вам в вашем исследовании и экспериментах в этой захватывающей области!

Читать далее https://habr.com/ru/articles/766096/
Не начинайте свое путешествие по науке о данных без этих 5 обязательных шагов — полное руководство Spotify Data Scientist

Полное руководство по всему, что я хотел бы сделать перед тем, как начать свое путешествие в области науки о данных, чтобы добиться успеха в свой первый год работы с данными. https://towardsdatascience.com/dont-start-your-data-science-journey-without-these-5-must-do-steps-from-a-spotify-data-scientist-c9cec11fd1b
Пожалуй, лучший курс линейной алгебры. Преподает легендарный профессор Массачусетского технологического института Гилберт Стрэнг. Создайте прочную математическую основу для машинного обучения

https://www.youtube.com/watch?v=7UJ4CFRGd-U&list=PL221E2BBF13BECF6C&index=1
👍3
Новая модель искусственного интеллекта Replit теперь доступна на Hugging Face

"Миссия в Replit — дать возможность следующему миллиарду создателей программного обеспечения. Вчера мы усилили наши обязательства, объявив, что Replit AI теперь бесплатен для всех пользователей . За последний год мы стали свидетелями преобразующей силы совместной разработки программного обеспечения с возможностями искусственного интеллекта. Мы считаем, что искусственный интеллект станет частью набора инструментов каждого разработчика программного обеспечения, и мы рады бесплатно предоставить Replit AI нашему более чем 25-миллионному сообществу разработчиков." https://blog.replit.com/replit-code-v1_5
Привет! Это команда МТС и мы запустили бесплатный курс для тех, кто хочет стать сильным ML-разработчиком

Что будет: 10 месяцев онлайн обучения от экспертов Big Data МТС с возможностью трудоустройства в компанию

Что в программе: Python, математика, основы машинного обучения, ML Ops, ML System design и все, что необходимо для работы в Data Science

Ждем на обучении тех, кто хочет развиваться и в анализе данных, и в ML, и в IT одновременно.

Оставляй заявку и решай вступительное испытание. Лучших пригласим к обучению

Подробности по ссылке, ждем тебя!

Реклама. ПАО "МТС". ИНН 7740000076. erid: LjN8K21rT
LLaMA 2, RWKV, Santacoder и другие LLM на iOS

Однажды я решил изучить язык Swift и разработать свое первое приложение для iOS. Для этого я решил создать реальный проект, который заключался в оптимизации нашумевшего LLaMA.cpp под iOS. Я поставил перед собой задачу обеспечить запуск 3B и 7B моделей на iPhone 12 Pro с приемлемой скоростью. Под «приемлемой» скоростью я имею в виду такую, чтобы пользователь не успевал заскучать, читая предсказанный текст, пока генерируется новая часть. Что из этого получилось (и какие трудности были при реализации) читайте в статье. https://habr.com/ru/articles/764598/
👍2💩1
This media is not supported in your browser
VIEW IN TELEGRAM
Генеративные модели, обученные на интернет-данных, произвели революцию в способах создания текста, изображений и видеоконтента. Возможно, следующей вехой в развитии генеративных моделей станет моделирование реалистичного опыта в ответ на действия, выполняемые людьми, роботами и другими типами интерактивных агентов.

Interactive website: https://universal-simulator.github.io
Paper: https://arxiv.org/abs/2310.06114
Введение в современную статистику (2-е изд.)

https://openintro-ims2.netlify.app/
Как «воспитать ламу» и ускорить ML-эксперименты.

Часто проведение ML-экспериментов сводится к долгому поиску и загрузке нужных датасетов и моделей, скрупулезной настройке гиперпараметров с целью проверки гипотез. Но что делать, когда времени мало, а за ночь нужно зафайнтюнить ламу? Давайте это и узнаем.

Статья написана по мотивам доклада Ефима Головина, MLOps-инженера в отделе Data- и ML-продуктов Selectel.

Читать дальше →https://habr.com/ru/companies/selectel/articles/767076
Понимание глубокого обучения

https://udlbook.github.io/udlbook/
Kornia — библиотека компьютерного зрения.

Kornia это open source библиотека для решения задач компьютерного зрения. Она использует PyTorch в качестве основного бэкенда и состоит из набора дифференцируемых процедур и модулей. Создатели библиотеки вдохновлялись OpenCV, и поэтому Kornia является его аналогом, но при этом в некоторых моментах превосходит. Главным преимуществом Kornia по сравнению с тем же OpenCV, scikit-image или с Albumentations является возможность обрабатывать изображения батчами, а не по одному изображению и возможность обрабатывать данные на GPU.

Читать далее https://habr.com/ru/articles/765176