Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🧠 Что такое перплексия в NLP

Перплексия измеряет, насколько хорошо вероятностная модель предсказывает тестовые данные. Хорошая языковая модель будет присваивать высокую вероятность реальным предложениям и, следовательно, иметь низкую перплексию.

✍️ Формально перплексия может быть выражена через общую вероятность последовательности P(W)^(-1/N), где P(W) — совместная вероятность последовательности слов.

💡 Пример

Предположим, у нас есть модель, которая присваивает последовательности из 5 слов вероятность P(W) = 0.002 . Тогда перплексия будет равна примерно 3.5.

Стоит отметить, что низкая перплексия не гарантирует, что модель будет генерировать осмысленные или грамматически правильные предложения.

1👏7❤2

2.63K views18:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔟 самых распространённых функций потерь в машинном обучении 👆

Please open Telegram to view this post

VIEW IN TELEGRAM

👍14

2.5K views07:07

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Книги для программистов

📖 Обзор книги «Грокаем алгоритмы», Адитья Бхаргава

Направление: #proglib_algorithms
Уровень: #proglib_junior

Автор применяет уникальный визуальный подход, с помощью которого объясняет базовые концепции, такие как сортировка, рекурсия, алгоритм Дейкстры, и многие другие. Благодаря большому количеству иллюстраций и практическим примерам, книга превращается в практическое руководство, особенно полезное для тех, кто только начинает своё знакомство с алгоритмами. Все примеры адаптированы под Python 3, что делает их актуальными для современных разработчиков.

💬

Что говорят люди:

Читатели восхищаются доступностью книги и тем, насколько легко автор объясняет сложные темы. Визуальный стиль делает её отличным стартом для изучения алгоритмов, хотя для опытных разработчиков книга может не предложить глубоких и сложных тем.

➕ Плюсы:

- Иллюстрации всё решают — если вам сложно понять текстовое объяснение, то более 400 наглядных схем точно помогут понять сложные алгоритмы.
- Понятно даже без математики — никакой сложной терминологии и математических уравнений. Бхаргава берёт сложные темы и объясняет их простым языком, делая алгоритмы доступными даже тем, кто не любит математику.
- Практичность на первом месте — каждый алгоритм сопровождается кодом на Python 3, что помогает сразу применять изученное в реальных задачах.

➖ Минусы:

- Для профи маловато огонька — опытные разработчики могут почувствовать нехватку более продвинутых и глубоких тем.
- Алгоритмы, которых не хватает — некоторые читатели отмечают, что в книге хотелось бы видеть больше сложных и интересных алгоритмов.

🖊 Об авторе:

Адитья Бхаргава — опытный инженер-программист с большим стажем работы в ведущих IT-компаниях. Он известен своим умением объяснять сложные технические темы простым и понятным языком, что делает его книги популярными среди программистов любого уровня.

Скидка 25% по промокоду: proglib

Купить книгу

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1👍1👏1

1.95K views10:30

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

👨‍💼 Молодая профессия: всё о бизнес-аналитике

Работа бизнес-аналитика высоко оплачивается, имеет массу перспектив и востребована на рынке труда. Специалисты в этой области помогают устранять проблемы на предприятиях, повышают их репутацию и делают конкурентоспособными на рынке.

В статье на Proglib разбираемся, какие задачи выполняет бизнес-аналитик, какие навыки ему необходимы и как этому обучиться.

👉 Читать статью

👍2

13.5K views11:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🧠 Как Яндекс научил Нейро видеть и понимать картинки

В новой статье на Хабре Яндекс раскрывает секреты обучения Visual Language Model (VLM). Разберёмся в архитектуре: LLM + картиночный энкодер + адаптер. Узнаем, как VLM анализирует детали изображений и отвечает на сложные вопросы. Разберёмся, чем новый пайплайн круче старого и почему это следующий уровень компьютерного зрения.

👉 Читать статью

👍4🔥3🤩2

2.92K views14:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Испытываете ли вы тревогу из-за распространения ИИ-ассистентов для написания кода/решения рабочих задач?

Anonymous Poll

389 voters2.55K views18:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Proglib.academy | IT-курсы

🏢 Как компании превращают данные в деньги: обзор российских практик Data Science

Обсуждаем, куда податься с полученными навыками — как наука о данных используется в российских компаниях. Кейсы коммерческого использования Data Science на территории России в нашей статье: финансы и ритейл, наука и производство, информационные системы и индустрия развлечений.

Хотите приобрести навыки для выполнения этих кейсов, тогда забирайте курсы:

🔵

Математика для Data Science

🔵

Основы программирования на Python

👉Ссылка на статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👏6

2.29K views07:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📄 А это подборка интересных свежих статей по машинному обучению

🔹Were RNNs All We Needed?
Авторы статьи упоминают проблемы трансформеров в работе с длинными последовательностями. Из-за этих ограничений уже возобновился интерес к рекуррентным нейросетям, которые можно параллелизировать во время обучения.

🔹U-shaped and Inverted-U Scaling behind Emergent Abilities of Large Language Models
Авторы показывают, что производительность моделей в некоторых задачах сначала остаётся на одном уровне, а затем резко улучшается после достижения определённого масштаба.

🔹Training Language Models to Self-Correct via Reinforcement Learning
Авторы предлагают новый подход для самокоррекции LLM, называемый SCoRe, который использует многократное обучение с подкреплением (RL) в онлайн-режиме.

🔹AI-accelerated Nazca survey nearly doubles the number of known figurative geoglyphs and sheds light on their purpose
Статья о поиске новых геоглифов Наска с помощью компьютерного зрения.

👍3

2.54K views18:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Азбука айтишника

📊 Data Science и Big Data: сходства и различия

В нашей статье разложим по полочкам сходства и различия между специализациями Data Science и Big Data.

🌻 Что внутри?

▪️ Термины
▪️ Применение
▪️ Навыки
▪️ Карьерные перспективы

👉 Ссылка на Статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👏6❤2

2.3K views07:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🧑‍🎓 Бесплатный курс Scientific Computing with Python

✍️ Основные темы
▪️Работа со строками, числами и алгоритмами
▪️lambda-функции
▪️Генерация списка с помощью list comprehension
▪️Регулярные выражения
▪️Дизайн алгоритмов
▪️Рекурсия
▪️Деревья и обход графов
▪️ООП

👀 Рассматриваемые проекты
▪️Создание арифметического форматтера
▪️Создание калькулятора
▪️Разработка бюджетного приложения

🔗 Ссылка на курс

🔥5

2.9K views18:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

24:06

Media is too big

VIEW IN TELEGRAM

📼 Видео про законы масштабирования ИИ-моделей

В ролике обсуждаются такие темы:

▪️Законы масштабирования нейронных сетей, говорящие о том, что ошибка уменьшается с увеличением объёма данных и размеров моделей.
▪️Связь между данными и производительностью.
▪️Прогресс в сфере ИИ.

🔗 Смотреть ролик на YouTube

❤1

2.7K views07:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🎲 Ликбез по теореме Байеса

Мы используем теорему Байеса, когда хотим вычислить, как новые наблюдения влияют на наше понимание мира. Допустим, у нас есть некоторое событие, вероятность которого мы знаем. Теперь мы получили новые данные, которые как-то связаны с этим событием. Как изменится вероятность события после этих наблюдений? Это и есть главный вопрос, на который можно ответить, воспользовавшись формулой с картинки👆

✍️ Пример

Представим, что вы хотите узнать вероятность того, что человек болен гриппом (событие A), если он чихает (событие B). Вы знаете, что:
▪️Вероятность того, что человек чихает, если у него грипп, составляет 90% (P(B|A) = 0.9).
▪️Вероятность чихания для всех людей — 10% (P(B) = 0.1).
▪️Вероятность того, что человек болен гриппом — 1% (P(A) = 0.01).

Подставив это всё в формулу, получаем ответ 0.09, или 9%.

👀 Так, теорема Байеса отвечает за переход от априорной вероятности (до наблюдения) к апостериорной вероятности (после наблюдения).

👍27😁3🤩2❤1

2.79K views18:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🤔 Как бы назвать статью по машинному обучению..?

Please open Telegram to view this post

VIEW IN TELEGRAM

😁29👍2

2.53K views07:41

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека нейрокартинок | Midjourney, DALL-E, Stable Diffusion

9:01

Media is too big

VIEW IN TELEGRAM

🫧🤖 Линус Торвальдс о будущем ИИ: хайп или революция?

Легенда мира open source делится мыслями о роли искусственного интеллекта в будущем программирования, предупреждая о опасностях чрезмерного ажиотажа.

👀 Мы написали пересказ на русском, а ещё сделали подборку ваших комментариев с мнениями по поводу будущего разработки в мире с AI.

👉 Прочесть всё можно по этой ссылке

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5

2.32K views18:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🤗 На Hugging Face запустили новый лидерборд для оценки возможностей LLM в финансовых задачах

Open FinLLM Leaderboard предоставляет специализированную систему оценки, адаптированную конкретно для финансового сектора.

Особенности:
🔘Рейтинг использует методику zero-shot оценки, тестируя модели на неизвестных финансовых задачах без предварительной настройки;
🔘Охватывает задачи по семи категориям: извлечение информации (IE), текстовый анализ (TA), вопросы-ответы (QA), генерация текста (TG), управление рисками (RM), прогнозирование (FO) и принятие решений (DM).
🔘Модели оцениваются с использованием различных метрик, таких как точность (Accuracy), F1, ROUGE и коэффициент корреляции Мэттьюса (MCC).

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2

2.66K views07:24

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Proglib.academy | IT-курсы

👨‍💼 Профессия системного аналитика в 2024 году: что нужно знать и где учиться

Освоить эту профессию непросто. Порог входа довольно высок, да и изучить придется немало. Однако, если разработчик не хочет идти в тимлиды или становиться менеджером, системная аналитика — перспективный вариант дальнейшей карьеры.

Рассматриваешь вариант стать системным аналитиком, тогда забирай курс:

🔵

Математика для Data Science

🔗

Статья

Please open Telegram to view this post

VIEW IN TELEGRAM

2.62K views11:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Как часто вы пишете SQL-запросы в работе?

Anonymous Poll

👍3🥰2🥱1

378 voters2.35K views18:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.

👍1

2.44K views20:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🥇 Нобелевскую премию по физике получили «отцы ML»

Её вручили Джону Хопфилду (John Hopfield) и Джеффри Хинтону (Geoffrey Hinton) «за фундаментальные открытия и изобретения, которые сделали возможным машинное обучение с искусственными нейронными сетями».

⭐ Джон Хопфилд известен как изобретатель ассоциативной нейронной сети (сети Хопфилда).

⭐ Джеффри Хинтон — соавтор статьи про метод обратного распространения ошибки для обучения многослойной нейронной сети. Кроме того, он был одним из изобретателей машины Больцмана.

👍10🔥4🤔3

2.64K views07:10

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

✍️ Что такое MoE?

Вы наверняка видели эту аббревиатуру во многих статьях про LLM (большие языковые модели). Но что она обозначает?

🟣 Расшифровывается MoE как Mixture of Experts. Это метод улучшения качества LLM, который использует множество разных субмоделей (так называемых экспертов).

🟣 MoE определяется двумя основными компонентами:

▪️Вышеупомянутые эксперты. То есть каждый слой обычной feed-forward нейросети теперь имеет набор экспертов, из которых можно выбрать подмножество. Эти эксперты, как правило, сами представляют собой нейросети.
▪️Маршрутизатор или сеть гейтов. Они определяют, какие токены отправляются к каким экспертам.

Иными словами, специализация каждого эксперта заключается в обработке определённых токенов в определённых контекстах. А маршрутизатор (сеть гейтов) выбирает эксперта(ов), которые лучше всего подходят для данного входного сигнала.

👉 Более подробно и с хорошими иллюстрациями про MoE можно почитать по этой ссылке 👈

❤2

2.55K views18:03

About

Blog

Apps

Platform