Big data world

Антон Мальцев про удобные NPU, Computer Vision для коботов и восстание неуклюжих машин.

У нас в гостях специалист с 15-летним опытом в Machine Learning который совмещает пару высокоуровневых должностей в разных компаниях — Head of ML в Cherry Labs и CTO в Rembrain. За полтора часа мы обсудили: позабытые ML-фреймворки и перспективы Reinforcement Learning, выяснили, какие платы с NPU лучше подходят для pet-project и зачем норвежцам роборуки.

Читать далее https://habr.com/ru/companies/magnus-tech/articles/768476/

Хабр

Антон Мальцев про удобные NPU, Computer Vision для коботов и восстание неуклюжих машин

У нас в гостях специалист с 15-летним опытом в Machine Learning который совмещает пару высокоуровневых должностей в разных компаниях — Head of ML в Cherry Labs и CTO в Rembrain. За полтора часа мы...

694 views06:21

Big data world

Построение ML модели для оценки текста языкового экзамена.

Путешествуя по просторам Kaggle, я встретила обычный, на первый взгляд, датасет с результатами письменной части языкового экзамена IELTS. Так как недавно я сама активно готовилась к сдаче подобного экзамена, тема меня чрезвычайно заинтересовала и я решила попробовать создать модель, способную предсказывать оценку на основе текста эссе.

Итак, сначала определимся с постановкой задачи. Результаты экзамена оцениваются по шкале от 0.0 до 9.0, с шагом 0.5, поэтому я рассматривала задачу как многоклассовую классификацию.

Читать далее https://habr.com/ru/companies/otus/articles/768594

Хабр

Построение ML модели для оценки текста языкового экзамена

Автор статьи: Наталья Золотарева Выпускница курса Machine Learning. Professiona l Путешествуя по просторам Kaggle, я встретила обычный, на первый взгляд, датасет с результатами письменной части...

696 views14:47

Big data world

LoRA — один из наиболее широко используемых и эффективных по параметрам методов точной настройки для обучения пользовательских LLM. В этой статье представлены практические советы для тех, кто заинтересован в ее применении: от экономии памяти с помощью QLoRA до выбора оптимальных настроек LoRA. https://lightning.ai/pages/community/lora-insights

Lightning AI

Finetuning LLMs with LoRA and QLoRA: Insights from Hundreds of Experiments - Lightning AI

LoRA is one of the most widely used, parameter-efficient finetuning techniques for training custom LLMs. From saving memory with QLoRA to selecting the optimal LoRA settings, this article provides practical insights for those interested in applying it.

❤‍🔥3👍1

789 views17:33

Big data world

800 бесплатных курсов Computer Science с видеолекциями.:

https://github.com/Developer-Y/cs-video-courses

GitHub

GitHub - Developer-Y/cs-video-courses: List of Computer Science courses with video lectures.

List of Computer Science courses with video lectures. - Developer-Y/cs-video-courses

873 views08:19

Big data world

This media is not supported in your browser

VIEW IN TELEGRAM

Теперь вы можете запускать популярные LLM HF Space локально.

Для работы не требуется GPU, только обычные процессоры

https://github.com/neuralmagic/examples/tree/main/demos/sparse-mpt-7b-gsm8k

621 views07:11

Big data world

Официальный репозиторий gpt4free | различная коллекция мощных языковых моделей

https://github.com/xtekky/gpt4free

GitHub

GitHub - xtekky/gpt4free: The official gpt4free repository | various collection of powerful language models | o4, o3 and deepseek…

The official gpt4free repository | various collection of powerful language models | o4, o3 and deepseek r1, gpt-4.1, gemini 2.5 - xtekky/gpt4free

598 views11:42

Big data world

Открыта регистрация на отборочный этап Всероссийского хакатона по биометрии с призовым фондом 1 000 000 рублей!
⠀
Тебе предстоит решить интересные задачи, чтобы победить в отборочном туре и принять участие в финале Всероссийского хакатона по биометрии, который пройдет уже 24-25 ноября в Москве.

Кейсы:

• Создание дипфейков для тестирования
• Обнаружение дипфейков
• Некооперативный фронтальный алгоритм защиты от атак предъявления
• Решения для использования новых биометрических модальностей на пользовательских устройствах

🗓 Даты отборочного этапа в ОНЛАЙН-ФОРМАТЕ: 3-5 ноября 2023 года
❗️Даты финала: 24-25 ноября 2023 года
📍 Место: Москва
❗️ Формат: смешанный (отборочный этап в онлайн-формате, а финал на площадке в Москве)
👉 Регистрация на отборочный тур открыта до 29 октября 2023 года: https://tglink.io/136a20ebe22d

Реклама. ООО "АКСЕЛЕРАТОР ВОЗМОЖНОСТЕЙ". ИНН 9704005146. erid: LjN8KXsfC

626 views12:53

Big data world

📝[Перевод] Объясняем простым языком, что такое трансформеры.

Облако предлагает много возможностей для развития ИИ. С помощью облачных вычислений проще масштабировать ML-модели, повышать точность обучения и предоставлять данные удаленно пользователям. Однако масштабное развертывание ML-моделей требует понимания архитектуры нейронных сетей.

Один из важнейших инструментов машинного обучения — трансформеры. Популярность трансформеров взлетела до небес в связи с появлением больших языковых моделей вроде ChatGPT, GPT-4 и LLama. Эти модели созданы на основе трансформерной архитектуры и демонстрируют отличную производительность в понимании и синтезе естественных языков.

Хотя в сети уже есть хорошие статьи, в которых разобран принцип действия трансформеров, большинство материалов изобилует запутанными терминами. Мы подготовили перевод статьи, в которой без кода и сложной математики объясняют современную трансформерную архитектуру.

Читать далее https://habr.com/ru/companies/cloud_mts/articles/770202

📝6 обязательных навыков в области науки о данных — полное руководство

Читать далее https://towardsdatascience.com/dont-apply-to-tech-without-mastering-these-6-must-have-data-science-skills-a-spotify-data-8b1b7b8cc0ba

Хабр

Объясняем простым языком, что такое трансформеры

Облако предлагает много возможностей для развития ИИ. С помощью облачных вычислений проще масштабировать ML-модели, повышать точность обучения и предоставлять данные удаленно пользователям. Однако...

❤3

659 views11:05

Big data world

Система оценки больших языковых моделей (GitHub Repo) В данном исследовании представлен "JudgeLM" - новый метод эффективной оценки больших языковых моделей в универсальных ситуациях. Авторы разработали обширный набор данных и систему бенчмаркинга. подробнее→ https://github.com/baaivision/judgelm

Эмулируйте обучение большой модели, просто обучая маленькую (28 минут чтения)

Программа Emulator Fine Tuning (EFT), разработанная группой оптимизации прямых предпочтений, изучает, что произойдет, если выполнить тонкую настройку небольшой модели, а затем спроецировать эту настройку на большую модель. https://arxiv.org/abs/2310.12962

676 views06:59

Big data world

Insanely Fast Whisper (GitHub Repo)

Расшифровка 300 минут аудиозаписей менее чем за 10 минут с помощью OpenAI's Whisper Large v2. подробнее→ https://github.com/Vaibhavs10/insanely-fast-whisper

GitHub

GitHub - Vaibhavs10/insanely-fast-whisper

Contribute to Vaibhavs10/insanely-fast-whisper development by creating an account on GitHub.

626 views08:08

Big data world

Шаблоны Langchain-самый быстрый способ создать готовое к производству приложение LLM.

https://github.com/langchain-ai/langchain/tree/master/templates

👍2

584 views07:03

Big data world

10 основных навыков использования Jupyter Notebook для специалистов по обработке данных

Jupyter Notebook, веб-приложение с открытым исходным кодом, стало популярным инструментом для специалистов по данным во всем мире. Его интерактивный и удобный интерфейс делает его отличным выбором для анализа данных, визуализации и обмена информацией. Если вы занимаетесь анализом данных или стремитесь им стать, вам необходимо освоить Jupyter Notebook. В этой статье мы рассмотрим десять важнейших навыков, которые помогут повысить ваш уровень владения Jupyter Notebook https://www.analyticsinsight.net/10-essential-jupyter-notebook-skills-for-data-scientists

Analytics Insight

10 Essential Jupyter Notebook Skills for Data Scientists

Unlock the full potential of Jupyter Notebook with these 10 essential skills for data scientists. Elevate your capabilities and become a proficient data scientist today. “Read more here”.

602 views11:58

Big data world

🚂 Онлайн-хакатон DataWagon с призовым фондом 900 000 рублей от Первой грузовой компании!

🛤 Треки:

1. ПГК Оракул - Прогнозирование спроса на грузовые ЖД перевозки
2. Чек-ап вагона - Прогнозирование отправления вагонов в ремонт
3. ЖД карта желаний - Создание карты движения поездов

🔝 Тебя ждут:
- Прокачка в решении практических задач на основе реальных данных
- Поддержка опытных экспертов ПГК Диджитал
- Погружение в атмосферу кодинга и фана

Если нет своей команды — поможем ее собрать!
Регистрируйся и вступай в чат участников, получи ответы на волнующие вопросы, найди команду или создай свою.

▶️ Регистрация уже идет, успевай подать заявку по ссылке

Реклама. ООО "ФИЗТЕХ ДЖЕНЕЗИС". ИНН 7735184156. erid: LjN8KYtZV

546 views14:14

Big data world

Forwarded from Добро пожаловать в мир Python

This media is not supported in your browser

VIEW IN TELEGRAM

Фундаментальные понятия статистики и строительные блоки #DataAnalytics и #MachineLearning.

Набор Python matplotlib интерактивных приборных панелей, чтобы помочь вам понять эти фундаментальные концепции

https://github.com/GeostatsGuy/PythonNumericalDemos/blob/master/Interactive_MarginalJointConditional.ipynb

581 views07:05

Big data world

Математика для глубокого обучения 🧑‍🎓

Лучший ресурс для изучения математических концепций и лучшего понимания концепций машинного обучения и глубокого обучения:
https://d2l.ai/chapter_appendix-mathematics-for-deep-learning/index.html

786 views14:09

Big data world

Mimesis: идеальное решение для генерации данных.

Сбор данных имеет решающее значение для каждого проекта, связанного с машинным обучением. Однако не всегда искомые данные существуют или общедоступны. Во многих случаях получение данных является дорогостоящим или затрудненным из-за внешних условий. Кроме того, правила конфиденциальности влияют на способы использования или распространения набора данных. По всем этим причинам использование синтетических данных является хорошей альтернативой, поскольку с их помощью можно удовлетворить те же потребности без особых усилий.

В этой статье мы рассмотрим один из лучших пакетов для генерации синтетических данных.

Читать далее https://habr.com/ru/articles/771950/

Хабр

Mimesis: идеальное решение для генерации данных

Сбор данных имеет решающее значение для каждого проекта, связанного с машинным обучением. Однако не всегда искомые данные существуют или общедоступны. Во многих случаях получение данных является...

674 views12:38

Big data world

Lazy Predict помогает создавать множество базовых моделей без большого количества кода и помогает понять, какие модели работают лучше без какой-либо настройки параметров.

Библиотека Python, которая позволяет обучать, тестировать и оценивать несколько моделей машинного обучения одновременно, используя всего несколько строк кода. https://github.com/shankarpandala/lazypredict

752 views08:33

Big data world

Серия больших языковых моделей, обученных с нуля разработчиками

https://github.com/01-ai/Yi

GitHub

GitHub - 01-ai/Yi: A series of large language models trained from scratch by developers @01-ai

A series of large language models trained from scratch by developers @01-ai - 01-ai/Yi

647 views06:20

Big data world

101 упражнение Pandas для анализа данных

101 упражнение Python Pandas предназначены для того, чтобы бросить вызов вашим логическим мышцам и помочь усвоить манипулирование данными с помощью любимого пакета Python для анализа данных.

https://www.machinelearningplus.com/python/101-pandas-exercises-python/

1.47K views08:40

Big data world

Примеры, показывающие, как использовать API-интерфейс OpenAI Vision для обработки изображений, видеофайлов и потоков веб-камеры. Полностью автоматизированная маркировка изображений с помощью кода API GroundingDINO + SAM + OpenAI Vision: https://github.com/roboflow/awesome-openai-vision-api-experiments

768 views08:43

Big data world

Создание поиска в видео

Сегодня мы собираемся взглянуть на закулисную технологию, лежащую в основе того, как Netflix создает великолепные трейлеры, ролики для Instagram, короткометражные видеоролики и другие рекламные видеоролики.

Предположим, вы пытаетесь создать трейлер к боевику «Серый человек» и знаете, что хотите использовать кадр взрывающейся машины. Вы не знаете, существует ли этот кадр и где он находится в фильме, и вам приходится искать его, просматривая весь фильм.

Мы создали внутреннюю систему, которая позволяет кому-то выполнять поиск внутри видео по всему видеокаталогу Netflix, и мы хотели быподелиться своим опытом создания этой системы.

https://netflixtechblog.com/building-in-video-search-936766f0017c

Medium

Building In-Video Search

Empowering video editors with multimodal machine learning to discover perfect moments across the entire Netflix catalog

👍2

611 views13:25

About

Blog

Apps

Platform