Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📰 Microsoft — наблюдатель без права голоса в совете директоров OpenAI, а Сэм Альтман официально вернулся на должность CEO

Таковы последние новости по истории скандального увольнения. Как пишет The Verge, новый совет директоров OpenAI теперь состоит из председателя Брета Тейлора, Ларри Саммерс и Адама Д'Анджело.

Добавление Microsoft в совет директоров в качестве «наблюдателя без права голоса» означает, что компания будет лучше видеть внутреннюю работу OpenAI, но не сможет участвовать в принятии важных решений.

Напомним, что Microsoft владеет 49-процентной долей OpenAI.

👏11😁3👍1

3.03K views11:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

😔 Задумывались ли вы хоть однажды о том, что зря пошли в data science/machine learning?

🤔 — бывало
👾 — ни разу не пожалел

#интерактив

🤔59👾50🤯5❤1

2.68K views18:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

😈 Исследователи, кажется, нашли самый простой способ взломать ChatGPT

В новой статье они описали технику, которая заставляет модель генерировать ответы, копируя тренировочные данные. Так, исследователи попросили ChatGPT на основе gpt-3.5-turbo бесконечно повторять слово poem. Модель сначала повторила poem несколько сотен раз, а затем слила чьи-то контактные данные.

Авторы пришли к выводу, что современные техники alignment не защищают чат-ботов должным образом.

📖 Почитать подробнее о находке исследователей

😁18👍4🤯1

2.94K views07:08

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🤖А мы снова сделали для вас подборку самых интересных материалов по ИИ

Вот часть из них:
✍️ Новая статья исследователей о том, обладает ли GPT-4 подобием абстрактного мышления
😵‍💫Репозиторий с таблицей моделей-лидеров по галлюцинациям
🎨 Trace — ИИ-сервис для создания SwiftUI интерфейса для мобильного приложения
👨‍🎨UI Sketcher — сервис для превращения набросков и эскизов в UI
➗Nougat-LaTeX — модель, которая генерирует LaTeX-код, распознавая формулы на изображениях

Ещё больше интересного — в нашем блоге на VC.ru

Кстати, в статье мы использовали информацию из нашей еженедельной email-рассылки, посвящённой искусственному интеллекту. Если понравилось, 👉подписывайтесь👈

❤4🔥2

2.59K views18:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🧑‍💻Нововведения Google Colaboratory за ноябрь

🧡 Теперь приватные ключи можно безопасно хранить прямо в Colaboratory. В интерфейсе появилась вкладка Secrets, перейдя на которую можно добавить любые переменные окружения, пути к файлам или ключи. Чтобы использовать их в коде, нужно написать:
from google.colab import userdata

userdata.get('secretName')

💛 Благодаря сотрудничеству с Hugging Face в Colaboratory больше не нужно устанавливать каждый раз библиотеку transformers. Достаточно просто сделать import transformers
🧡 Небольшое, но приятное дополнение: теперь датасеты Hugging Face можно читать сразу из Pandas:

pd.read_parquet('hf://datasets/tatsu-lab/alpaca/data')

🔥13🥰8👍2👏1🤔1

2.74K viewsedited 07:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека программиста | программирование, кодинг, разработка

🏆 Самые популярные языки программирования 2023

Популярность ЯП зависит от нескольких факторов. Мы разобрались с ними, составили сводный рейтинг и обсудили особенности, преимущества, недостатки и причины популярности каждого языка. Заходите и читайте👇

🔗 Читать статью
🔗 Зеркало

🔥3

2.07K views18:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Новая библиотека CoolGraph для работы с графовыми нейросетями

Опенсорсную библиотеку разработали в Big Data МТС. Авторы утверждают, что CoolGraph позволяет создавать графовые нейросети с помощью нескольких строк кода.

Из перечисленных особенностей библиотеки:
🔷возможность задать архитектуру сети и автоматически подобрать гиперпараметры;
🔷 хорошая производительность базовых моделей на уровне state of the art;
🔷поддержка гетерогенных графов;
🔷возможность отслеживать все результаты экспериментов в MLFlow.

🔗Изучить CoolGraph подробнее и посмотреть примеры использования можно в репозитории на GitHub

👍5🥰4🔥2👏1

2.62K views07:06

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🧑‍💻Графовые нейросети: что это и где используются

Граф позволяет описывать сущности с учётом связей и взаимодействий между ними. У такой структуры данных есть вершины, содержащие сами сущности, и рёбра, содержащие связи между вершинами.

🟡Один из наиболее очевидных примеров графа — социальная сеть. Вершины — пользователи, а рёбра определяют связи между ними.

На графовых данных решается множество задач: от кластеризации до генерации графов с нужными свойствами. Один из подходов к решению задач — использование графовых нейронных сетей (GNN). Вот пример архитектуры:
🟡На вход подаётся граф. У GNN есть слои, которые собирают информацию с соседей и обновляют информацию в вершине. Это похоже на принцип работы свёрточной нейросети, поэтому такие слои называются графовыми свёртками. Они получают на вход граф со скрытыми состояниями у вершин и ребёр и выдают тот же граф с обновлёнными скрытыми состояниями.

GNN можно использовать, например, для создания персонализированных рекомендаций.

👾2🤩1

2.66K views18:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

0:13

This media is not supported in your browser

VIEW IN TELEGRAM

😍 Сайт с очень подробной визуализацией работы языковых моделей

Разработчик Брендан Байкрофт постарался и создал удобный визуальный гайд по архитектурам разных GPT: от nano-gpt до GPT-3.

Изображения сопровождаются текстовым описанием всех шагов, через которые проходят входные данные в нейросети. В общем, залипать можно долго.

🔗Открыть сайт

🔥26👍4👏1

3.79K views07:23

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

👁Помогите «Библиотеке программиста» в новом исследовании аудитории

Пожалуйста, ответьте на несколько вопросов — это не займет много вашего времени.

Первая часть опроса 👇

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍1

2.42K views11:55

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Ваш возраст:

Anonymous Poll

👍4

667 voters2.65K views11:55

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Ваш пол:

Anonymous Poll

🤩1

613 voters2.52K views11:56

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

В каком городе вы живете последние 3 месяца?

Anonymous Poll

🔥3

737 voters2.65K views11:56

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💰«Я дам тебе $200 чаевых за отличное решение»

Оказывается, эта фраза побуждает к действию не только людей, но и ChatGPT. По крайней мере, к такому выводу пришёл разработчик под ником thebes.

Он провёл серию экспериментов, в которых базовым промптом был «Can you show me the code for a simple convnet using PyTorch?» («Можешь показать мне код простой свёрточной сети на PyTorch?»). Разработчик добавлял к этой фразе следующие:
🔸«I won't tip, by the way.» («Я, кстати, не буду давать тебе чаевые»)
🔸«I'm going to tip $20 for a perfect solution!» («Я дам тебе $20 чаевых за отличное решение!»)
🔸«I'm going to tip $200 for a perfect solution!» («Я дам тебе $200 чаевых за отличное решение!»)

Затем разработчик взял среднее значение длины ответа для каждого из запросов, повторённых пять раз. На удивление самого автора, модель gpt-4-1106-preview давала более длинные и развёрнутые ответы, если ей обещали $200. Например, она добавила секцию об обучении с CUDA, хотя её не просили об этом.

😁32❤2

3.02K views18:09

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🤔 Кто скупил все GPU NVIDIA H100 с тензорными ядрами?

Исследовательская компания Omdia показала инфографику, из которой ясно, что Microsoft и Meta* — уверенные лидеры по закупкам H100. К концу года каждый из них получил по 150 тысяч ускорителей. Это в три раза больше, чем получили их ближайшие конкуренты по рейтингу — Google, Amazon и Oracle.

Как предполагают разработчики, GPT4 обучалась около 90 дней на 25 тысячах GPU A100. 150 тысяч штук H100 должно хватить, чтобы обучить модель такого уровня всего за семь дней.

*организация, деятельность которой запрещена на территории РФ

👍9❤1

2.83K viewsedited 07:13

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🦾Подборка бесплатных курсов по Machine Learning

✍️Открытый курс машинного обучения
Подробная и понятная серия статей на «Хабре» от сообщества OpenDataScience. На сайте mlcourse.ai материал также доступен на английском языке.
✍️Введение в Data Science и машинное обучение
Курс на Stepik, простыми словами объясняющий Pandas и некоторые алгоритмы.
✍️Курсы на Kaggle
Множество обучающих материалов по необходимым темам: от Python до обучения с подкреплением.
✍️«Ударный» курс по Machine Learning от Google
Рассказывает про основные алгоритмы и концепции.
✍️Deep Learning School
Курс проходит бесплатно и онлайн на платформах Stepik и Google Colab. На сайте можно зарегистрироваться на новые потоки (следите за обновлениями). Однако, в целом, материал уже доступен на Stepik.

❤7👏6🤩1

3.22K views11:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

👁Помогите «Библиотеке программиста» в новом исследовании аудитории Пожалуйста, ответьте на несколько вопросов — это не займет много вашего времени. Первая часть опроса 👇

Продолжаем наш опрос — вторая часть👇

2.31K views15:29

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

В какой стране вы живете последние 3 месяца?

Anonymous Poll

63%

Россия

Украина