Forwarded from Библиотека собеса по Data Science | вопросы с собеседований
🔥 100 упражнений по NumPy с решениями
Делимся с вами полезным GitHub-репозиторием, в котором собраны различные небольшие задачки по библиотеке. Упражнения взяты из NumPy mailing list, Stack Overflow и документации NumPy.
Задачи собраны как в версии с решениями, так и в версии без них. Можете проверить свои знания.
🔗 Ссылка на репозиторий
Делимся с вами полезным GitHub-репозиторием, в котором собраны различные небольшие задачки по библиотеке. Упражнения взяты из NumPy mailing list, Stack Overflow и документации NumPy.
Задачи собраны как в версии с решениями, так и в версии без них. Можете проверить свои знания.
🔗 Ссылка на репозиторий
⚡5🔥2
✨ Анонсировали Stable Diffusion 3
Пока модель не доступна широкой публике. Stability AI открыла список ожидания. Зарегистрироваться можно по этой ссылке.
👉 Stable Diffusion 3 соединяет в себе архитектуру диффузионного трансформера и flow matching. Создатели обещают улучшенную производительность при генерации изображений из сложных промптов, а также более точное написание текста на картинках.
Пока модель не доступна широкой публике. Stability AI открыла список ожидания. Зарегистрироваться можно по этой ссылке.
👉 Stable Diffusion 3 соединяет в себе архитектуру диффузионного трансформера и flow matching. Создатели обещают улучшенную производительность при генерации изображений из сложных промптов, а также более точное написание текста на картинках.
👏7👍3
Какие существуют модификации KNN?
Метод k-ближайших соседей, или k-nearest neighbors (KNN), — довольно простой и легко интерпретируемый алгоритм. Он работает, идентифицируя k объектов обучающего набора данных, которые находятся ближе всего к объекту, который нужно классифицировать или для которого нужно предсказать значение.
Как алгоритм можно модифицировать?
🔹Выбор метрики
Во-первых, можно использовать разные функции расстояния для вычисления дистанции между объектами. Это могут быть Манхэттенская метрика, метрика Минковского, косинусное расстояние, расстояние Жаккара.
🔹Взвешенный KNN
Решает главный недостаток оригинального алгоритма: он никак не учитывает расстояния до соседних объектов, хотя эта информация может быть полезной. В этой модификации чем ближе сосед, тем больше его вклад в принятие решения. Это позволяет уменьшить влияние «далёких» соседей.
🔹Адаптивный KNN
В этой версии алгоритма значение k может адаптироваться в зависимости от локальной плотности данных. Это означает, что для объектов в разреженных областях пространства будет использоваться большее значение k, а в плотных областях — меньшее.
#вопросы_с_собеседований
Метод k-ближайших соседей, или k-nearest neighbors (KNN), — довольно простой и легко интерпретируемый алгоритм. Он работает, идентифицируя k объектов обучающего набора данных, которые находятся ближе всего к объекту, который нужно классифицировать или для которого нужно предсказать значение.
Как алгоритм можно модифицировать?
🔹Выбор метрики
Во-первых, можно использовать разные функции расстояния для вычисления дистанции между объектами. Это могут быть Манхэттенская метрика, метрика Минковского, косинусное расстояние, расстояние Жаккара.
🔹Взвешенный KNN
Решает главный недостаток оригинального алгоритма: он никак не учитывает расстояния до соседних объектов, хотя эта информация может быть полезной. В этой модификации чем ближе сосед, тем больше его вклад в принятие решения. Это позволяет уменьшить влияние «далёких» соседей.
🔹Адаптивный KNN
В этой версии алгоритма значение k может адаптироваться в зависимости от локальной плотности данных. Это означает, что для объектов в разреженных областях пространства будет использоваться большее значение k, а в плотных областях — меньшее.
#вопросы_с_собеседований
👍14⚡5😁2🤩2❤1
В новой статье автор обсуждает важность развития малых языков и предлагает методы для их поддержки с использованием машинного обучения и обработки естественного языка.
🔗 Ссылка на статью
🔗 Ссылка на любопытный проект «"Маленький принц" на малых языках России»
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡7🔥1
✍️ GPT на 60 строках NumPy
Это подробное руководство по созданию упрощённой версии модели GPT с использованием NumPy. Оно нужно, скорее, для образовательных целей, чем для практического применения.
В гайде описано:
▪️ как устроена GPT,
▪️ как обрабатывать входные данные,
▪️ какие функции использовать и реализовать.
🔗 Ссылка на сам гайд
🔗 Ссылка на репозиторий со всем кодом к руководству
Это подробное руководство по созданию упрощённой версии модели GPT с использованием NumPy. Оно нужно, скорее, для образовательных целей, чем для практического применения.
В гайде описано:
▪️ как устроена GPT,
▪️ как обрабатывать входные данные,
▪️ какие функции использовать и реализовать.
🔗 Ссылка на сам гайд
🔗 Ссылка на репозиторий со всем кодом к руководству
🔥9👍7❤3
🔥 Mistral выпустила свою флагманскую языковую модель
Она, собственно, так и называется Mistral Large. Исходного кода мы пока не видели, модель доступна через la Plateforme и Azure.
По производительности, если верить создателям, Mistral Large находится в рейтинге сразу за GPT-4. Вот краткие характеристики модели:
🔹Есть нативная поддержка английского, французского, испанского, немецкого и итальянского языков.
🔹Размер контекстного окна составляет 32K токенов.
🔹Разработчики могут разрабатывать собственные правила модерации для модели.
🔹Поддерживает вызовы функций и режим ограничений на формат вывода (JSON).
Она, собственно, так и называется Mistral Large. Исходного кода мы пока не видели, модель доступна через la Plateforme и Azure.
По производительности, если верить создателям, Mistral Large находится в рейтинге сразу за GPT-4. Вот краткие характеристики модели:
🔹Есть нативная поддержка английского, французского, испанского, немецкого и итальянского языков.
🔹Размер контекстного окна составляет 32K токенов.
🔹Разработчики могут разрабатывать собственные правила модерации для модели.
🔹Поддерживает вызовы функций и режим ограничений на формат вывода (JSON).
😁8❤1
🧡💛 Подборка Colab-ноутбуков на все случаи жизни
Сохраняй в заметки, чтобы не потерять.
🔸 Файн-тюнинг Gemma 7b
🔸 Как считать токены для языковых моделей с помощью tiktoken
🔸 Прогноз оттока сотрудников
🔸 Как пользоваться YOLO-NAS Pose для определения поз людей
🔸 Все материалы Андрея Карпаты по нейронным сетям
🔸 Различные туториалы по машинному обучению на русском языке
🔸 Туториал по JAX
Сохраняй в заметки, чтобы не потерять.
🔸 Файн-тюнинг Gemma 7b
🔸 Как считать токены для языковых моделей с помощью tiktoken
🔸 Прогноз оттока сотрудников
🔸 Как пользоваться YOLO-NAS Pose для определения поз людей
🔸 Все материалы Андрея Карпаты по нейронным сетям
🔸 Различные туториалы по машинному обучению на русском языке
🔸 Туториал по JAX
👍13
👹🍎 Логическая задача про демонов и яблоки
Условия такие:
▫️В деревне растёт одно яблоко и живёт 65 демонов.
▫️Если демон съест яблоко, он сразу уснёт.
▫️Если демон съест другого спящего демона, он тоже сразу уснёт.
▫️Демоны очень голодны и едят что угодно при первой удобной возможности.
▫️Демоны очень умны и всегда рассчитывают свои действия на много ходов вперёд.
▫️Наивысший приоритет для демона — собственная безопасность, поэтому, если ему будет грозить опасность, он никого не съест.
▫️Демон съест что угодно, только если после этого его жизни ничего не будет угрожать.
Вопрос: Что вот-вот произойдёт в этой деревне? Пишите ваши варианты в комментариях 👈
Задача взята из журнала Яндекс Практикума
#интерактив
Условия такие:
▫️В деревне растёт одно яблоко и живёт 65 демонов.
▫️Если демон съест яблоко, он сразу уснёт.
▫️Если демон съест другого спящего демона, он тоже сразу уснёт.
▫️Демоны очень голодны и едят что угодно при первой удобной возможности.
▫️Демоны очень умны и всегда рассчитывают свои действия на много ходов вперёд.
▫️Наивысший приоритет для демона — собственная безопасность, поэтому, если ему будет грозить опасность, он никого не съест.
▫️Демон съест что угодно, только если после этого его жизни ничего не будет угрожать.
Вопрос: Что вот-вот произойдёт в этой деревне? Пишите ваши варианты в комментариях 👈
Задача взята из журнала Яндекс Практикума
#интерактив
👍5❤4
🧑💻 Статьи для IT: как объяснять и распространять значимые идеи
Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.
Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.
Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.
👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.
Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.
Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.
👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
👍4⚡2
🔥 Поддержка Mermaid-диаграмм и генерация кода: вышли новые версии Jupyter Notebook и JupyterLab
Project Jupyter объявил о релизе JupyterLab 4.1 и Jupyter Notebook 7.1. Вот некоторые из нововведений:
🔸 JupyterLab поддерживает автоматическую загрузку пользовательских стилей CSS. Это позволяет настроить среду так, как вам хочется.
🔸 JupyterLab и Notebook могут рендерить диаграммы Mermaid.
🔸 Теперь, когда вы начинаете вводить что-то в ячейке, и в JupyterLab, и в Notebook появляются автоматические подсказки — целые сгенерированные блоки кода.
🔸 В новой версии JupyterLab пути к файлам, которые выводятся в ошибках, преобразуются в ссылки.
Project Jupyter объявил о релизе JupyterLab 4.1 и Jupyter Notebook 7.1. Вот некоторые из нововведений:
🔸 JupyterLab поддерживает автоматическую загрузку пользовательских стилей CSS. Это позволяет настроить среду так, как вам хочется.
🔸 JupyterLab и Notebook могут рендерить диаграммы Mermaid.
🔸 Теперь, когда вы начинаете вводить что-то в ячейке, и в JupyterLab, и в Notebook появляются автоматические подсказки — целые сгенерированные блоки кода.
🔸 В новой версии JupyterLab пути к файлам, которые выводятся в ошибках, преобразуются в ссылки.
🔥9❤4👍3⚡2
Здесь есть несколько подходов. Рассмотрим каждый.
Можно использовать методы hist() или pairplot() для всего набора данных, чтобы посмотреть на все фичи одновременно. Однако, когда количество признаков достаточно велико, такой способ визуального анализа становится медленным и неэффективным. К тому же, мы всё равно будем анализировать фичи попарно, а не все сразу.
Многие реальные датасеты имеют множество признаков, иногда даже тысячи. Каждый из них можно рассматривать как измерение в пространстве точек данных. Следовательно, чаще всего мы имеем дело с наборами данных высокой размерности, где полная визуализация становится довольно сложной.
Чтобы рассмотреть датасет в целом, нам нужно уменьшить количество измерений, используемых в визуализации, не потеряв при этом много информации о данных. Эта задача называется снижением размерности. Чаще всего для этого применяют метод главных компонент (PCA).
Это техника нелинейного снижения размерности и визуализации многомерных переменных. Её основная идея такая: нужно найти проекцию для пространства признаков высокой размерности на плоскость таким образом, чтобы те точки, которые были далеко друг от друга в исходном n-мерном пространстве, оказались далеко друг от друга и на плоскости. Те, которые изначально были близки, останутся близкими друг к другу.
Найти t-SNE можно в scikit-learn:
from sklearn.manifold import TSNE
tsne = TSNE(random_state=17)
tsne_repr = tsne.fit_transform(X_scaled)
plt.scatter(tsne_repr[:, 0], tsne_repr[:, 1], alpha=0.5);
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11👍4❤1
🤖 Удивительные открытия: исследователи обвинили Copilot в генерации уязвимого кода
Специалисты компании Snyk в новой статье рассказали, что ИИ-помощник GitHub Copilot генерирует уязвимый код, если в проекте уже используется такой. Он имитирует выученные паттерны, не пытаясь исправить недостатки. При этом, по данным Snyk, коммерческий проект имеет в среднем 40 уязвимостей в собственном коде.
✍️ Авторы провели эксперимент с GitHub Copilot. Сначала его попросили сгенерировать SQL-запрос и получили результат, который можно назвать хорошим. Затем экспериментаторы в соседнем файле проекта самостоятельно написали уязвимый SQL-запрос. После этого Copilot снова попросили сгенерировать код. На этот раз получилось плохо.
Специалисты считают, что такое использование ИИ-помощников может усугубить проблемы неопытных разработчиков, заставляя их «привыкать» к плохому коду.
💬 А вы проверяете то, что вам нагенерировал ИИ? (👍 — да, 🤔 — не проверяю).
Специалисты компании Snyk в новой статье рассказали, что ИИ-помощник GitHub Copilot генерирует уязвимый код, если в проекте уже используется такой. Он имитирует выученные паттерны, не пытаясь исправить недостатки. При этом, по данным Snyk, коммерческий проект имеет в среднем 40 уязвимостей в собственном коде.
✍️ Авторы провели эксперимент с GitHub Copilot. Сначала его попросили сгенерировать SQL-запрос и получили результат, который можно назвать хорошим. Затем экспериментаторы в соседнем файле проекта самостоятельно написали уязвимый SQL-запрос. После этого Copilot снова попросили сгенерировать код. На этот раз получилось плохо.
Специалисты считают, что такое использование ИИ-помощников может усугубить проблемы неопытных разработчиков, заставляя их «привыкать» к плохому коду.
💬 А вы проверяете то, что вам нагенерировал ИИ? (👍 — да, 🤔 — не проверяю).
👍14❤1🤔1
У нас вышла очередная статья на
Ниже — небольшая выдержка из статьи, а целиком читайте здесь 👈
▫️ Выяснилось, что генерация одной минуты видео нашумевшей моделью Sora (OpenAI) занимает более одного часа.
▫️Компания Groq выпустила новый чип LPU (Language Processing Unit), который обеспечивает феноменально высокую скорость работы с большими языковыми моделями. Так, чат-бот Groq, работающий на собственном железе, генерирует в среднем 500 токенов в секунду, а ChatGPT-3.5 на GPU — не больше 40.
▫️ИИ-генератор кода, разрабатываемый стартапом Magic, теперь поддерживает контекст до 3,5 млн токенов и демонстрирует недоступный ранее уровень логики.
🛠 Инструменты
▫️Zenfetch Personal AI — создаёт ИИ-ассистента и личную интерактивную базу знаний на основе любого сохранённого из веба контента — статей, PDF-файлов, фото и YouTube-видео.
▫️AdGen — генератор рекламных креативов.
▫️Sheet Savvy AI — ассистент для работы с данными в таблицах Google Sheets.
▫️Swizzle — браузерный ИИ-конструктор фуллстек-приложений: сделает бэкенд, фронтенд, авторизацию и базу данных.
Статья о том, как создать NotesGPT — веб-приложение для работы с голосовыми заметками и сделанными на их основе списками дел.
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉5❤3👍1
💬 А как вы относитесь к платным курсам по Data Science и Machine Learning?
Блогер опросил больше тысячи айтишников о том, как они попали в профессию. Платные курсы помогли только 10% респондентов(да, к выборке есть вопросы, и этот результат не отражает истину)
А проходили ли вы платные курсы? Нашли ли вы работу после этого? Делитесь в комментариях
❤️ — проходил платные курсы, они оказались мне полезны, у меня нет претензий
👾 — проходил платные курсы, в целом нормально, но цена кажется слишком высокой за такие материалы
🤔 — проходил платные курсы, они оказались совсем бесполезны
👍 — учился только по бесплатным материалам
#интерактив
Блогер опросил больше тысячи айтишников о том, как они попали в профессию. Платные курсы помогли только 10% респондентов
А проходили ли вы платные курсы? Нашли ли вы работу после этого? Делитесь в комментариях
❤️ — проходил платные курсы, они оказались мне полезны, у меня нет претензий
👾 — проходил платные курсы, в целом нормально, но цена кажется слишком высокой за такие материалы
🤔 — проходил платные курсы, они оказались совсем бесполезны
👍 — учился только по бесплатным материалам
#интерактив
👍48❤29👾27🤔5😁2
Forwarded from Библиотека программиста | программирование, кодинг, разработка
🐱🎨🙏🤖 10 самых странных языков программирования, о которых вы никогда не слышали
Эзотерические языки разрабатывают в концептуальных, экспериментальных и развлекательных целях. Их общая черта — максимально запутанный и странный синтаксис, понятный только посвященным. В этой подборке — языки, которые выбрали бы Ходор, доктор Лектер, Малевич, Джеймс Бонд, Терминатор и Луи Армстронг, если бы решили войти в айти.
👉 Читать статью
👉 Зеркало
Эзотерические языки разрабатывают в концептуальных, экспериментальных и развлекательных целях. Их общая черта — максимально запутанный и странный синтаксис, понятный только посвященным. В этой подборке — языки, которые выбрали бы Ходор, доктор Лектер, Малевич, Джеймс Бонд, Терминатор и Луи Армстронг, если бы решили войти в айти.
👉 Читать статью
👉 Зеркало
👍2❤1⚡1🔥1😁1