Нейроканал
9.32K subscribers
307 photos
118 videos
7 files
1.15K links
Искусственный интеллект, нейросети, машинное обучение

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels

Сайт: https://tprg.ru/site

Другие наши проекты: https://tprg.ru/media
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Пакет Python для анимации статистических данных

Недавно наткнулись на интересный проект и хоть понятно, что анимация линейных графиков обычно не имеет никакого смысла, но возможно пригодится кому на работе.
 
GitHub | Документация | pypi

#project
​​Как стать топ-100 на Kaggle и востребованным в Data Science

Kaggle — ведущая платформа для проведения соревнований в области Data Science. Подобные соревнования не только отличный способ обучения для специалистов разного уровня, но и мощный мотиватор. Поэтому если раньше вы не слышали о Kaggle, то пора это исправлять.

В этой статье наш соотечественник, занявший 68-е место в мировом рейтинге Kaggle, делится своим рецептом успеха и рассказывает о том, какие возможности получил благодаря участию в соревнованиях. Оказывается, для входа в топ достаточно всего трёх ингредиентов:  математика, программирование и щепотка безумной страсти к своему делу.

#статья #kaggle #ds
​​Боремся с галлюцинациями: настройка языковых моделей для более точных ответов

Языковые модели часто сталкиваются с проблемой «галлюцинаций», предоставляя убедительную, но фактически неточную информацию. Это особенно актуально при использовании таких моделей для ответов на вопросы, основанные на знаниях, поскольку требует дополнительной проверки ответов.

В данной статье авторы предлагают методы точной настройки, используя оптимизацию прямых предпочтений Direct Preference Optimization (DPO), о котором упоминалось ранее, для снижения частоты галлюцинаций.

Путём точной настройки модели 7B Llama 2 с применением этого подхода они смогли уменьшить фактическую частоту ошибок на 58% по сравнению с исходной моделью чата Llama-2.

#статья #llm #dpo
This media is not supported in your browser
VIEW IN TELEGRAM
Учёные из GrapheneX-UTS разработали ии-систему, переводящую мысли в текст

Участники исследования молча читали текст, надевая специальную шапочку, регистрирующую электрическую активность мозга через кожу головы с помощью ЭЭГ.

В перспективе эта технология будет полезна тем, кто не может говорить из-за болезней или травм. А также обеспечит удобное взаимодействие с машинами, включая управление бионической рукой или роботом.

А если вас тоже манит идея чтения мыслей, то держите статью исследования и репозиторий.
 
#нейроновости
Объявляем батл языков программирования открытым

2023 год близится к завершению, и пришло время подвести его итоги, запустив традиционный поединок за звание лучшего языка программирования на Tproger.

Мы уже проводили подобные голосования в 2020, 2021 и 2022 годах: первые два раза победу одержал Python, а в прошлом году — C#.

Сегодня на арене сойдутся R и Python, а также Swift и Dart. Уверены, вы уже определились, кому предоставить свой голос, поэтому дерзайте и внесите свой вклад.
 
#toplang2023
Mixtral 8x7B: эксперт в мире открытых LLM

Компания Mistral AI в преддверии Нового года представила открытую языковую модель — Mixtral 8x7B с контекстом в 32 тысячи токенов.

Эта модель основана на архитектуре «sparse mixture of experts» (SMoE), где одна большая сеть разбита на 8 меньших подсетей-экспертов. Для каждого входного токена динамически выбираются нужный эксперт. Благодаря такому подходу, Mixtral 8x7B, содержащая 47 млрд параметров, работает с той же скоростью, что и LLaMa 7B с 7 млрд параметров.

По результатам тестов модель показала впечатляющие 8.3 балла из 10 на бенчмарке MT-bench, что сопостовимо с GPT-3.5. При этом доступ к API стоит всего $2 за миллион токенов.

Видеообзор и тесты | Разбор архитектуры | HuggingFace

#llm #nlp
«Грокаем глубокое обучение»

Эта книга послужит отличным стартом для новичков в области Deep Learning. Материалы содержат всю базовую информацию, необходимую для понимания ключевых концепций и избежания типичных ошибок в начале пути. Автор доступно объясняет сложные темы, позволяя эффективно осваивать глубокое обучение. 

Описание:
«Грокаем глубокое обучение» научит вас создавать нейронные сети с нуля! Эндрю Траск подробно рассказывает обо всех аспектах и тонкостях этой непростой задачи. С использованием Python и библиотеки NumPy ваши нейронные сети смогут обрабатывать изображения, распознавать их, переводить тексты на все языки мира и даже создавать тексты не хуже Шекспира!

#почитать #deeplearning #nlp
​​Полезные материалы по Data Science и машинному обучению

Data Science - довольно сложная сфера, особенно для новичков. С чего стоит начать, на какие темы стоит обратить особое внимание, а какие лучше оставить на потом? Ответы на эти и многие другие вопросы вы сможете найти в этой ценнейшей статье. Её автор — опытный MLOps-инженер в отделе Data- и ML-продуктов Selectel.

В материале не просто даются названия книг и курсов, которые полезно было бы прочитать, но и дается понятие о том, почему это важно знать конкретно эту информацию и чем она поможет в будущем.

#ml #bigdata
This media is not supported in your browser
VIEW IN TELEGRAM
Если вас когда-нибудь спросят, почему мы должны взять вас на работу, то просто скажите им это:

#нейромемы
Все перечисленные библиотеки имеют открытый исходный код и предназначены в основном для питонистов.
 
Анализ, очистка и подготовка данных:
  Pandas — быстрая и гибкая очистка и подготовка данных.
  Numpy — предварительная обработка данных, применяется для математических вычислений.
  Statsmodels — статистический анализ временных рядов, выживаемости и многого другого.
  YData Profiling — упрощает этап EDA, тщательно анализируя ваши данные в одной строке кода.
 
Машинное и глубокое обучение:
  Scikit-learn — ключевая библиотека машинного обучения, содержит реализацию популярных алгоритмов (регрессия, кластеризация).
  Keras — создание, настройка моделей, работает поверх таких фреймворков, как TensorFlow.
  TensorFlow — создание, моделирование и тренировка нейросетей.
  XGBoost — предоставляет эффективные алгоритмы для задач регрессии, классификации и ранжирования.
  CatBoost — градиентный бустинг.
 
#библиотеки #ml #deeplearning #python
Машинное обучение на Python: пет-проект по извлечению информации

В этом видео автор подробно рассматривает задачу извлечения определённых сущностей из сканов документов (имена, даты, локации и прочее), используя ML.

Этот проект может стать основой для вашего собственного продукта, отличным дополнением к портфолио, а также служить основой для расширения функционала: создания модели для ответов на вопросы по отсканированным документам и реализации семантического поиска.

#нейровидео #ml