🩷 Сделали для вас валентинки 🩷
Сегодня День святого Валентина, и это отличный повод признаться или напомнить кому-то о своих чувствах!
Сегодня День святого Валентина, и это отличный повод признаться или напомнить кому-то о своих чувствах!
❤23😁7🔥4😢1
💸 Рост или падение? Изменение зарплат в IT за 2023 год
Чтобы разобраться в этом вопросе, «Библиотека программиста» решила провести опрос среди читателей издания. Мы хотим понять, выросли ли ваши зарплаты в 2023 году и если да, то на сколько процентов. Или может быть наоборот — ваши доходы снизились на фоне кризисных явлений в экономике?
Примите участие в нашем коротком опросе и поделитесь своим мнением! Вместе мы проанализируем текущую ситуацию на рынке труда в IT-сфере и поймем, что ждёт эту отрасль дальше. Ждём ваших ответов!
Опрос займёт у вас примерно 4 минуты.
👉 Ссылка на опрос
Чтобы разобраться в этом вопросе, «Библиотека программиста» решила провести опрос среди читателей издания. Мы хотим понять, выросли ли ваши зарплаты в 2023 году и если да, то на сколько процентов. Или может быть наоборот — ваши доходы снизились на фоне кризисных явлений в экономике?
Примите участие в нашем коротком опросе и поделитесь своим мнением! Вместе мы проанализируем текущую ситуацию на рынке труда в IT-сфере и поймем, что ждёт эту отрасль дальше. Ждём ваших ответов!
Опрос займёт у вас примерно 4 минуты.
👉 Ссылка на опрос
🔥2😁2
Многие языковые модели используют key-value кэш в качестве диалоговой памяти. Однако когда этот кэш переполняется, первые куски информации (токены) исчезают, что приводит к снижению производительности.
Авторы статьи увидели интересное явление: удивительно большое количество оценок внимания распределяется на начальные токены, независимо от их релевантности к задаче. Эти токены назвали «приёмниками внимания». Эта особенность связана с операцией Softmax, которая требует, чтобы сумма оценок внимания для всех контекстуальных токенов составляла единицу. Таким образом, даже когда текущий запрос не имеет сильного совпадения со многими предыдущими токенами, модели всё равно нужно куда-то распределить значения attention.
🔗 Ссылка на статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9⚡5❤🔥2
🤗 Gradio Notebook — привычные блокноты для генеративного ИИ
Это кастомный Gradio компонент, который позволяет встраивать UX блокнотов в Hugging Face Spaces. Облегчает процесс демонстрации ML-моделей для разных задач.
Пользоваться Gradio Notebook легко:
🔸имеет отдельные ячейки, которые настраиваются под конкретную задачу и промпт.
🔸можно выбрать любую модель на Hugging Face или загрузить свою.
🔗 Ссылка на шаблон Gradio Notebook
🔗 Ссылка на документацию
Это кастомный Gradio компонент, который позволяет встраивать UX блокнотов в Hugging Face Spaces. Облегчает процесс демонстрации ML-моделей для разных задач.
Пользоваться Gradio Notebook легко:
🔸имеет отдельные ячейки, которые настраиваются под конкретную задачу и промпт.
🔸можно выбрать любую модель на Hugging Face или загрузить свою.
🔗 Ссылка на шаблон Gradio Notebook
🔗 Ссылка на документацию
❤4⚡2👍1
🤔 Остаться или уйти? Оптимальный срок работы на одном месте
Вы любите свою работу, интересные проекты вам гарантированы, зарплата повышается каждый год. Но вот уже 5 лет вы трудитесь в одной и той же компании. Не пора ли что-то изменить, пока мотивация окончательно не улетучилась?
Многие опытные айтишники сталкиваются с такой дилеммой. С одной стороны, текущее место работы устраивает. С другой — хочется разнообразия, новых задач и знаний.
Должен ли современный IT-специалист менять работу чаще, чем раз в 5 лет? Или лучше наращивать экспертизу в рамках одной компании? А может дело совсем не в сроках, а в качестве задач и развитии карьеры?
👉 Расскажите о своём опыте в нашем новом опросе 👈
Вы любите свою работу, интересные проекты вам гарантированы, зарплата повышается каждый год. Но вот уже 5 лет вы трудитесь в одной и той же компании. Не пора ли что-то изменить, пока мотивация окончательно не улетучилась?
Многие опытные айтишники сталкиваются с такой дилеммой. С одной стороны, текущее место работы устраивает. С другой — хочется разнообразия, новых задач и знаний.
Должен ли современный IT-специалист менять работу чаще, чем раз в 5 лет? Или лучше наращивать экспертизу в рамках одной компании? А может дело совсем не в сроках, а в качестве задач и развитии карьеры?
👉 Расскажите о своём опыте в нашем новом опросе 👈
👍3🤔2
Media is too big
VIEW IN TELEGRAM
🪄 OpenAI выпустила модель для генерации видео по тексту
Новую text-to-video модель назвали Sora. Она способна создавать видеоролики длительностью до минуты.
⭐️ Пока Sora доступна только особым командам, которые будут её оценивать, и небольшому кругу тестировщиков.
🦄 Прикреплённое к посту видео получилось из промпта:
🔗 Посмотреть на другие примеры генераций можно по этой ссылке
Новую text-to-video модель назвали Sora. Она способна создавать видеоролики длительностью до минуты.
⭐️ Пока Sora доступна только особым командам, которые будут её оценивать, и небольшому кругу тестировщиков.
🦄 Прикреплённое к посту видео получилось из промпта:
A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.
🔗 Посмотреть на другие примеры генераций можно по этой ссылке
🔥11👍4❤🔥3
У нас вышла интересная статья на
Ниже — небольшая подборка, а целиком читайте здесь 👈
▫️ Исследователи Стэнфордского университета обнаружили, что чат-боты склонны делать выбор в пользу насилия и ядерных ударов в военных играх.
▫️Разработчики приложения для знакомств Bumble протестировали новую AI-функцию Deception Detector, которая автоматически заблокировала 95% мошеннических аккаунтов.
▫️Google создала MobileDiffusion — мини-модель для супербыстрой генерации изображений на смартфонах.
🛠 Инструменты
▫️UserSketch — создаёт чат-бота на основе единой базы знаний с данными, собранными из любых документов, почты, мессенджеров, приложений для управления проектами и организации бизнес-процессов.
▫️Ytube AI — превращает YouTube-видео в SEO-оптимизированные статьи.
▫️ThreadScribe.ai — превращает сообщения из Slack в структурированную базу знаний, которой можно задавать любые вопросы и получать инсайты.
▫️Fooocus — бесплатная опенсорсная альтернатива Midjourney. Устанавливается локально.
Google выпустила инструмент localllm для запуска LLM локально или в облаке, на CPU вместо GPU. Подробный туториал по установке и настройке localllm — в блоге разработчиков.
🎓 Исследования
Исследователи из Технологического института Джорджии представили PokéLLMon. Возможности этого ИИ-агента сопоставимы с человеческими — он уже выиграл 56% боев против людей. Авторы также нашли способ избавиться от галлюцинаций и решили проблему панического переключения, когда при столкновении с сильным противником агент начинал хаотично переключаться между покемонами.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10❤🔥2❤1
Вы спросите, и что в этом такого? Но дело в том, что это не совсем обычный форум. Участие в нём подразумевает:
▪️живые встречи для обсуждения технических деталей,
▪️образовательные вебинары,
▪️экспертные круглые столы,
▪️неформальные встречи.
Во всём этом будут активно участвовать исследователи OpenAI.
Также членство в форуме позволит поучаствовать в платных активностях, которые напрямую связаны с работой над моделями стартапа. Можно будет, например, заняться их оценкой.
Что нужно, чтобы стать участником форума:
🔗 Подать заявку можно по этой ссылке
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9
Forwarded from Библиотека питониста | Python, Django, Flask
У нас есть еженедельная рассылка о последних открытиях и тенденциях в мире Python. Мы опубликовали один из свежих выпусков на
Ниже — небольшая подборка, а целиком читайте здесь 👈
🔎 Поисковик на 80 строках кода
Публикация рассказывает, как сделать базовую поисковую систему буквально на 80 строках Python-кода. Автор реализовал все основные компоненты поисковика: краулер, инвертированный индекс, ранжировщик и интерфейс.
▪️Web2PDF – CLI-инструмент для конвертации веб-страниц (по URL) в PDF-файлы.
▪️Rexi – инструмент для работы с регулярными выражениями в терминале.
▪️Django HTMX Components – набор готовых компонентов, которые можно скопировать и вставить в Django-приложение.
🕹 Управление зависимостями
Туториал, который рассказывает, как начать пользоваться Poetry.
🔥 Интересные проекты
▪️«Гарри Поттер и движок Elasticsearch» — это семантическая поисковая система на основе векторной базы данных с информацией о вселенной Гарри Поттера.
▪️Чат-бот, имитирующий стиль Эминема.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥4⚡3🥰2❤1
👨🍳 «Кулинарная книга» ИИ-приложений
На Hugging Face запустили опенсорсный проект AI Cookbook, который представляет собой коллекцию ноутбуков с решениями различных задач. Сейчас в «книге» есть следующие примеры:
🔸 Простой RAG для GitHub issues с помощью Hugging Face Zephyr и LangChain
🔸 Эмбеддинги данных для поиска сходства с помощью Hugging Face transformers, датасетов и FAISS
🔸 Файн-тюнинг Code LLM на единственном GPU
🔸 Оценка RAG с использованием синтетических данных и LLM в качестве судьи
🔸 Продвинутый RAG на документации HuggingFace с применением LangChain
🔗 Репозиторий проекта (вы тоже можете сделать пулл-реквест)
На Hugging Face запустили опенсорсный проект AI Cookbook, который представляет собой коллекцию ноутбуков с решениями различных задач. Сейчас в «книге» есть следующие примеры:
🔸 Простой RAG для GitHub issues с помощью Hugging Face Zephyr и LangChain
🔸 Эмбеддинги данных для поиска сходства с помощью Hugging Face transformers, датасетов и FAISS
🔸 Файн-тюнинг Code LLM на единственном GPU
🔸 Оценка RAG с использованием синтетических данных и LLM в качестве судьи
🔸 Продвинутый RAG на документации HuggingFace с применением LangChain
🔗 Репозиторий проекта (вы тоже можете сделать пулл-реквест)
🔥9👍4⚡2
Градиентный спуск — это наиболее распространённый метод оптимизации, используемый в машинном обучении. Он предназначен для минимизации функции потерь, позволяя тем самым модели обучаться и постепенно улучшая её предсказательную способность.
Классический градиентный спуск может быть неэффективен в некоторых случаях. Поэтому существуют его разные модификации.
В этой модификации мы подменяем вычисление градиента по всей выборке вычислением по случайной подвыборке. Подвыборку часто называют (мини) батчем. Для вычисления можно использовать и вовсе только один элемент.
Добавляет концепцию инерции в обновления параметров, позволяя «ускоряться» при спуске по направлению к минимуму. Это достигается за счёт комбинирования градиента на текущем шаге с градиентом предыдущих шагов.
Есть, например, алгоритм Adagrad. Он позволяет динамически подбирать размер шага для каждой координаты по отдельности. Также есть RMSprop — улучшение Adagrad, направленное на решение его проблемы быстрого уменьшения скорости обучения. Он адаптирует скорость обучения путём не просто складывания нормы градиентов, а их усреднения в скользящем режиме.
Сочетает в себе идеи моментума и RMSprop.
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡17👍8❤🔥1
🤖 Напоминаем, что у нас есть еженедельная email-рассылка, посвященная последним новостям и тенденциям в мире искусственного интеллекта.
В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги
👉Подписаться👈
В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги
👉Подписаться👈
🤩1
🔢 Классные материалы по математике для машинного обучения
Это сайт авторов книги Mathematics for Machine Learning. Во-первых, сама книга доступна бесплатно. А во-вторых, в качестве приложения к ней даны упражнения и туториалы.
🔹 Математика за линейной регрессией
🔹 Метод главных компонент (PCA)
🔹 Модели гауссовой смеси
🔗 Репозиторий проекта на GitHub
Это сайт авторов книги Mathematics for Machine Learning. Во-первых, сама книга доступна бесплатно. А во-вторых, в качестве приложения к ней даны упражнения и туториалы.
🔹 Математика за линейной регрессией
🔹 Метод главных компонент (PCA)
🔹 Модели гауссовой смеси
🔗 Репозиторий проекта на GitHub
👍8⚡2❤1
📈 5 трендов в подборе ИТ-специалистов на 2024 год
Использование ИИ-алгоритмов становится трендом и в Human Resources. Такими инструментами пользуются и кандидаты, и работодатели.
🤖 Например, появляются Applicant tracking system (ATS) с ИИ, которые автоматизируют поиск и отбор кандидатов. А ещё есть Final Round AI — своеобразный помощник с искусственным интеллектом, который генерирует индивидуальные ответы на онлайн-интервью в режиме реального времени.
👉 О других трендах читайте в нашей новой статье 👈
🔗 Зеркало
Использование ИИ-алгоритмов становится трендом и в Human Resources. Такими инструментами пользуются и кандидаты, и работодатели.
🤖 Например, появляются Applicant tracking system (ATS) с ИИ, которые автоматизируют поиск и отбор кандидатов. А ещё есть Final Round AI — своеобразный помощник с искусственным интеллектом, который генерирует индивидуальные ответы на онлайн-интервью в режиме реального времени.
👉 О других трендах читайте в нашей новой статье 👈
🔗 Зеркало
⚡4
Это значит, что модель дообучили на данных вплоть до этой даты. Теперь, согласно документации, ситуация такова:
▫️gpt-4-0125-preview и gpt-4-turbo-preview — декабрь 2023
▫️gpt-4-1106-preview, gpt-4-vision-preview и gpt-4-1106-vision-preview — апрель 2023
▫️gpt-4, gpt-4-0613, gpt-4-32k и gpt-4-32k-0613 — сентябрь 2021
GPT-3.5 Turbo была обучена на данных до сентября 2021 года.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥5⚡2
👩💻 Подборка видео про собеседования на позицию дата-аналитика
Перед техническим интервью может быть полезно посмотреть ролики с mock-собеседованиями или разборами популярных вопросов. Мы подобрали некоторые видео, связанные с анализом данных.
🔹Junior аналитик данных | Собеседование | karpov.courses
🔹A/B-тесты с Валерием Бабушкиным | Собеседование | karpov.courses
🔹Собеседование на аналитика данных. Разбор ОТВЕТОВ на вопросы (Python, SQL, ТЕРВЕР, статистика)
🔹SQL interview questions and answers | Entry level data analyst interview
🔹Собеседование на продуктового аналитика (mock-интервью)
Перед техническим интервью может быть полезно посмотреть ролики с mock-собеседованиями или разборами популярных вопросов. Мы подобрали некоторые видео, связанные с анализом данных.
🔹Junior аналитик данных | Собеседование | karpov.courses
🔹A/B-тесты с Валерием Бабушкиным | Собеседование | karpov.courses
🔹Собеседование на аналитика данных. Разбор ОТВЕТОВ на вопросы (Python, SQL, ТЕРВЕР, статистика)
🔹SQL interview questions and answers | Entry level data analyst interview
🔹Собеседование на продуктового аналитика (mock-интервью)
❤7⚡2👍1
💬 Вопрос к дата-сайентистам и дата-аналитикам, которые пришли в профессию из гуманитарных направлений:
Есть ли у вас синдром самозванца?
❤️ — нет, я не чувствую неуверенности в своих навыках
👍 — иногда накатывает
👾 — мне постоянно кажется, что я полез куда-то, куда не должен был
#интерактив
Есть ли у вас синдром самозванца?
❤️ — нет, я не чувствую неуверенности в своих навыках
👍 — иногда накатывает
👾 — мне постоянно кажется, что я полез куда-то, куда не должен был
#интерактив
👍47👾43❤10😁2💯1
🔥 Делаем токенизатор с нуля вместе с Андреем Карпаты
Похоже, он ушёл из OpenAI, чтобы делать новые двухчасовые(да) лекции. На этот раз Карпаты подробно расскажет о том, как написать собственный токенизатор для GPT. Процесс создания этого инструмента — совершенно отдельный шаг в построении архитектуры языковой модели.
Некоторые таймкоды:
00:14:56 Строки в Python, кодовые точки Unicode
00:23:50 Алгоритм Byte Pair Encoding (BPE)
00:34:58 Обучение токенизатора: добавление цикла while, коэффициент сжатия
01:11:38 Библиотека Tiktoken, разница между GPT-2/GPT-4 regex
01:43:27 Как определиться со словарём? Повторное рассмотрение трансформера в gpt.py
🔗 Ссылка на видео
🔗 Репозиторий к лекции
Похоже, он ушёл из OpenAI, чтобы делать новые двухчасовые
Некоторые таймкоды:
00:14:56 Строки в Python, кодовые точки Unicode
00:23:50 Алгоритм Byte Pair Encoding (BPE)
00:34:58 Обучение токенизатора: добавление цикла while, коэффициент сжатия
01:11:38 Библиотека Tiktoken, разница между GPT-2/GPT-4 regex
01:43:27 Как определиться со словарём? Повторное рассмотрение трансформера в gpt.py
🔗 Ссылка на видео
🔗 Репозиторий к лекции
👍9🔥3
✍️ Что такое Word2Vec
Word2Vec — это метод эффективного создания эмбеддингов, или векторных представлений текстовых данных. Основная идея Word2Vec заключается в том, что слова, появляющиеся в похожих контекстах, ближе друг к другу в векторном пространстве.
➡️ Есть две основные модели Word2Vec:
- CBOW (Continuous Bag of Words). Предсказывает текущее слово на основе контекста.
- Skip-Gram. Использует текущее слово для предсказания слов контекста.
🔗 Посмотреть визуализацию обучения Word2Vec можно по этой ссылке
🔗 Статья про Word2Vec
Word2Vec — это метод эффективного создания эмбеддингов, или векторных представлений текстовых данных. Основная идея Word2Vec заключается в том, что слова, появляющиеся в похожих контекстах, ближе друг к другу в векторном пространстве.
➡️ Есть две основные модели Word2Vec:
- CBOW (Continuous Bag of Words). Предсказывает текущее слово на основе контекста.
- Skip-Gram. Использует текущее слово для предсказания слов контекста.
🔗 Посмотреть визуализацию обучения Word2Vec можно по этой ссылке
🔗 Статья про Word2Vec
❤4👍3⚡2
Представлены две модели размером 2B и 7B. Обе они родственницы Gemini. Создатели использовали токенизатор на 260к токенов (!), что, как они утверждают, лишь небольшая часть полного токенизатора Gemini.
По производительности 7B модель находится где-то на уровне Mistral 7b.
🔤Страница Gemma на Kaggle
🧡 Туториал в Колабе
🤗 Карточка модели на Hugging Face
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🎉7❤3⚡1🤔1