Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔈16+ лучших нейронок для синтеза речи

Предлагаем подборку платных, бесплатных и опенсорсных инструментов для озвучивания текста, клонирования голоса и дублированного перевода подкастов и видео.

Читать статью

👍5🔥4❤2

20.7K views07:14

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека собеса по Data Science | вопросы с собеседований

Чем отличаются друг от друга XGBoost, CatBoost и LightGBM?

⚫ XGBoost (eXtreme Gradient Boosting):
- Строит деревья одинаковой конкретной глубины. Построение идёт послойно, а затем отсекаются листья.
- Имеет механизмы регуляризации, чтобы предотвращать переобучение.
⚫ CatBoost:
- Специализируется на работе с категориальными данными и не требует их предварительной обработки.
- Использует симметричные деревья, что делает процесс обучения быстрее.
⚫ LightGBM (Light Gradient Boosting Machine):
- Строит деревья, ориентируясь не на уровень, а на каждый конкретный лист. Добавляет лист, если разделение по нему даёт прирост в информации.
- Использует технику называемую Gradient-based One-Side Sampling (GOSS), которая уменьшает количество данных в процессе обучения. За счёт этого возрастает скорость.
- Есть механизм Exclusive Feature Bundling (EFB), который объединяет взаимоисключающие переменные в одну. Это тоже увеличивает скорость расчёта.

Для лучшего понимания можно посмотреть лекцию

👍17🥰3

2.83K views18:11

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🤷‍♂️ Пока без платной подписки: OpenAI приостановила покупку ChatGPT Plus

Об этом сообщил глава компании Сэм Альтман в X (бывший Twitter). Он пояснил, что после недавней конференции OpenAI перестало хватать вычислительных ресурсов из-за всплеска активности пользователей. Компания пришлёт уведомление, когда платная подписка снова станет доступна, но точная дата неизвестна.

👀 Тем временем разработчики OpenAI уже корпят над GPT-5. Альтман подтвердил это в интервью Financial Times. Сроки выхода новой модели он тоже не обозначил. GPT-5 обучают не только на открытых данных из интернета, но и на базах данных некоторых компаний. Что именно сможет делать новая модель, Альтман сказать затрудняется.

👍2😁2❤1

2.78K viewsedited 07:27

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

0:08

This media is not supported in your browser

VIEW IN TELEGRAM

✍️ Полезное расширение для JupyterLab — Einblick. Позволяет манипулировать датафреймами с помощью запросов на естественном языке

Для работы нужно:
🔸 установить расширение командой pip install ai-einblick-prompt
🔸 создать Jupyter-блокнот в среде JupyterLab, загрузить данные
🔸 нажать справа в ячейке на логотип Einblick
🔸 в появившемся выпадающем меню выбрать генерацию и написать запрос

Примеры запросов:
- «Create a box plot of col_3.»
- «Filter for cat_1, cat_2, and cat_3.»
- «Create a new column, col_1 by splitting col_2 on „-“.»

В ответ на это в следующей ячейке появится соответствующий код.

Убедитесь, что у вас установлена последняя версия JupyterLab для корректной работы.

🐍 Страница расширения на PyPI
🧑‍💻 Сайт с примерами промптов

👏7❤1

3.06K views11:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Наивный байесовский классификатор назвали наивным, потому что...

Anonymous Quiz

31%

он предполагает, что каждый класс имеет одинаковую вероятность появления

его результат обычно хуже, чем у других классификаторов

67%

он предполагает, что все признаки независимы друг от друга

829 voters2.64K views18:06

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Хардкорный вышмат для тех, кто интересуется ML, AI, DS

Начать с бесплатного демо-доступа можно здесь, ответив всего на 4 вопроса – https://proglib.io/w/100f1763

Что будет на демо?

– Вводный урок от CPO курса

– Лекции со всеми преподавателями МГУ по темам: теория множеств, непрерывность функции, основные формулы комбинаторики, матрицы и операции над ними, градиентный спуск.

– Практические задания и дополнительные материалы!

⚡️Переходите и активируйте – https://proglib.io/w/100f1763

2.68K views06:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

1:29

Media is too big

VIEW IN TELEGRAM

🦄 Вышла новая Emu Video для генерации видео по тексту и картинке

Работает на базе диффузионных моделей. Представленная Meta* система может взаимодействовать с разными входными данными: только текстом, только изображением или и с тем, и с другим одновременно. Внутри Emu Video процесс делится на два этапа: сначала идёт генерация картинки на базе текстового описания, а затем генерация видео на базе созданного изображения и текста. Система способна выдавать 4-секундные ролики 512x512 с 16 fps.

Качество нам нравится.

Помимо этого, Meta* анонсировала Emu Edit — модель для редактирования фотографий с помощью текстовых запросов. Можно попросить убрать что-то с изображения или добавить надпись — система будет работать только с теми пикселями, которые имеют отношение к запросу на редактирование.

👩‍💻Статья по Emu Video
👩‍💻Статья по Emu Edit

*организация, деятельность которой запрещена на территории РФ

🥰5👍2

2.64K views07:22

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🗞️ Небольшой обзор новостей этой недели:

🍄 Кембриджский словарь назвал «галлюцинировать» словом года. Эксперты отметили, что теперь это слово используется в переносном значении в контексте ИИ. Когда модель галлюцинирует, это значит, что она выдаёт ложную информацию.

💻 Microsoft Azure представила свой первый AI-чип — Maia 100. Он сделан по 5-нм техпроцессу и получил 105 млрд транзисторов. Процессор предназначен для обучения и использования моделей искусственного интеллекта, в том числе больших языковых моделей, в облаке.

🎶 YouTube анонсировал ИИ-сервисы для генерации музыки. Инструмент Dream Track на базе модели Lyria может сгенерировать 30-секундную композицию в стиле одного из девяти исполнителей, в числе которых Charli XCX, Sia, T-Pain и Трой Сиван.

🌧️ Google DeepMind разработала модель предсказания погоды GraphCast, которая превосходит в точности традиционные системы прогнозов. Она способна создавать точный 10-дневный прогноз менее чем за минуту.

#чтопроисходит

❤3👍1🔥1

2.64K views18:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека питониста | Python, Django, Flask

🐍🎨 Генерация красивых QR-кодов с помощью Python

С помощью этого руководства вы узнаете, как использовать Python и библиотеку Segno для создания красивых QR-кодов.

Читать статью

🔥3

2.6K views07:17

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

0:18

Media is too big

VIEW IN TELEGRAM

🤔 На странице Google DeepMind нашли вот такой ролик, в котором показывается «метод предсказания, используемый в больших языковых моделях». Ну как, вам стало понятнее?

А если действительно хотите разобраться с тем, как устроены такие модели, то можно посмотреть это видео. В нём объясняется, как именно языковая модель генерирует текст, а также рассказывается, какие алгоритмы она использует для выбора следующего слова (жадный, beam search, top-k и top-p сэмплирование).

😁8👍2❤1

2.9K views18:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Одна из самых обсуждаемых новостей выходных — сооснователя OpenAI Сэма Альтмана уволили с поста исполнительного директора

⚫ Как это произошло:
В полдень прошедшей пятницы Сэма позвали на рабочий созвон. Там ему объявили, что совет директоров принял решение об увольнении. Почти сразу после этого OpenAI опубликовала сообщение о кадровых изменениях в X.

Увольнение оказалось неожиданностью для многих. Журналисты сообщают, что даже в Microsoft никого не предупредили об этом. Вслед за Альтманом OpenAI покинули соучредитель компании Грег Брокман и ещё три старших разработчика.

⚫ Почему это произошло:
По официальной версии, которую сообщили в блоге OpenAI, Альтман «не всегда был откровенен в общении» с советом директоров. Журналистка Кара Свишер сообщила, что, по её сведениям, Альтмана могли уволить из-за финансовых разногласий внутри OpenAI.

🤔 В воскресенье появилась информация о том, что совет директоров уже обсуждает с Сэмом возможность его возвращения.

🤔9👍2

2.65K viewsedited 07:14

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Что такое мера TF-IDF и какие у неё есть проблемы?

Это статистическая мера, используемая для оценки важности слова в документе, который является частью набора документов. Состоит, собственно, из:
🔷 TF (Частота слова). Это число, показывающее, сколько раз слово встречается в документе. Чем чаще, тем слово важнее в контексте этого документа.
🔷 IDF (Обратная частота документа). Это мера, которая уменьшает вес слов, часто встречающихся во всём корпусе документов. Чем реже слово встречается во всём корпусе, тем больше его вклад в IDF.

TF и IDF перемножаются. На основе TF-IDF значений слов можно построить векторы документов.

Проблем у этого подхода несколько. Во-первых, векторы получаются довольно разреженными, занимают много места и требуют много вычислительных ресурсов. Во-вторых, при таком подходе не учитывается контекст, в котором используются слова. Кроме того, здесь применяется фиксированный размер словаря и при изменении набора документов все векторы приходится пересчитывать.

#вопросы_с_собеседований

👍12

2.66K views18:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🧑‍🚀 Для будущих колонизаторов Марса: создан робот с ИИ для извлечения кислорода из воды

Робот использует марсианские руды для производства катализаторов, позволяющих расщеплять воду на кислород и водород. Предварительно учёные рассчитали, что существует 3 764 376 возможных формул. Для нахождения оптимальной потребовалось бы 2000 лет человеческого труда, поэтому исследователи решили использовать систему искусственного интеллекта.

🚀 За шесть недель ИИ-химик построил модель, изучив почти 30 000 наборов теоретических данных и 243 набора экспериментальных данных и используя алгоритмы машинного обучения и байесовской оптимизации. С помощью модели учёные получили многообещающую формулу катализатора. Синтезированный материал уже прошёл стресс-тест при температуре -37°С и подтвердил способность работать в суровых условиях Марса.

Статья учёных

🤯7🥰3❤2👍1

2.68K views07:19

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

👀 Продолжают развиваться события вокруг увольнения Сэма Альтмана из OpenAI

▪️Утром глава Microsoft Сатья Наделла сообщил, что Альтман возглавит исследовательскую группу компании в области искусственного интеллекта. Также стало известно, что пост главы OpenAI займёт сооснователь Twitch Эммет Шир.
▪️ Журналисты пишут, что большинство сотрудников OpenAI (как минимум 650 из 770) пригрозили уйти из компании и присоединиться к Microsoft. Они хотят, чтобы совет директоров восстановил Альтмана и ещё одного соучредителя Грега Брокмана, а затем ушёл в отставку. Главный научный сотрудник OpenAI Илья Суцкевер, который, как сообщается, активно участвовал в увольнении Сэма, написал, что у него есть сожаления по поводу произошедшего.

❤️ В соцсети X сотрудники OpenAI активно пишут о том, что компания — «ничто без своих людей». Многие склонны считать, что всё действительно может закончиться отставкой совета директоров.

🤯10👏4👍2😁1

2.67K views18:12

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🩺 Страховую компанию обвинили в использовании плохой ML-модели. Из-за неё многие люди, нуждающиеся в помощи, получают отказы

Речь идёт о UnitedHealth Group, крупнейшей компании США в области медицинского страхования. Иск против UnitedHealth подали родственники двух человек, умерших после того, как им отказали в страховке. Заявление подкреплено результатами журналистского расследования, которое показывает, что UnitedHealth использует ненадёжный алгоритм под названием nH Predict.

Алгоритм компания начала применять ещё в 2019 году. Он оценивает, какой объём медицинской помощи понадобится пациенту после острой травмы или заболевания. Сообщается, что алгоритм не учитывает многие важные факторы. Из-за этого престарелые пациенты, которые могли бы претендовать на 100 дней ухода в реабилитационном центре, покрываемого страховкой, остаются там не дольше чем на две недели. Это может пагубно сказываться на их здоровье.

Бывшие сотрудники UnitedHealth утверждают, что после внедрения алгоритма фокус компании сместился с защиты интересов пациентов на показатели эффективности.

🤯11❤2👍2👏1

2.7K views07:25

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Очередной #дайджест:

🟣 Практический пример использования модели детекции изображений
Автор подробно рассказывает об учебном проекте, в рамках которого прикрутил модель детекции изображений к умной кормушке.
🟣 Исследование: ChatGPT работает лучше на Julia, чем на Python и R
Перевод статьи исследователя из Массачусетского технологического института. Он, к своему удивлению, выяснил, что ChatGPT лучше справляется с задачами генерации кода на менее распространённом языке Julia.
🟣 Файн-тюнинг языковых моделей для уменьшения фактических ошибок
Авторы статьи представили метод, позволяющий увеличить процент сгенерированных правильных утверждений. Они увидели снижение количества фактических ошибок при генерации на 58% по сравнению с Llama 2 7B Chat.
🟣 Эмбеддинги и векторное хранилище с ChromaDB
Подробная статья о том, что такое векторное представление данных, как работать с эмбеддингами и использовать ChromaDB. Всё с большим количеством примеров кода.

❤3

3.09K views14:01

About

Blog

Apps

Platform