Big data world
2.39K subscribers
412 photos
64 videos
18 files
1.25K links
Интересные статьи Data Science : Big Data : Machine Learning : Deep Learning

По вопросам сотрудничества- @Daily_admin_info

По иным темам @un_ixtime
Download Telegram
Как Instacart использует машинное обучение, чтобы предлагать замены для отсутствующих на складе товаров

https://tech.instacart.com/how-instacart-uses-machine-learning-to-suggest-replacements-for-out-of-stock-products-8f80d03bb5af
Шпаргалка по структурам данных

В этой статье мы дадим введение в структуры данных, предложив примеры каждой структуры и проиллюстрировав, как они могут быть представлены в Memgraph. https://memgraph.com/blog/data-structures-cheat-sheet
Необходимые условия управления данными
Существует множество методов управления данными, которые могут помочь вам лучше организовать ваш проект, однако способность команды «сделать все» на самом деле ограничена такими факторами, как финансирование, сроки, размер команды и опыт. Поэтому для команд важно рассмотреть, какие методы осуществимы, а также какие из них дадут им наибольшую отдачу от инвестиций... Я думаю, что есть список основных методов, которые следует внедрить на ранней стадии, до начала сбора данных, чтобы ваш проект был успешным. В этой записи блога будут рассмотрены эти методы..

https://cghlewis.com/blog/project_beginning
7 методов оперативной инженерии следующего поколения

С продуктами большой языковой модели (LLM), такими как ChatGPT и Gemini, захватывающими мир, нам нужно скорректировать наши навыки, чтобы следовать тренду. Один из навыков, который нам нужен в современную эпоху, — это быстрая инженерия.

Prompt engineering — это стратегия разработки эффективных подсказок, которые оптимизируют производительность и выход LLM. Структурируя входные данные, prompt engineering стремится обеспечить релевантные и высококачественные результаты. https://machinelearningmastery.com/7-next-generation-prompt-engineering-techniques
Мы создали мини-приложение ChatGPT, которое работает локально на вашем компьютере.

В основе лежит модель Llama3.2-vision с открытым исходным кодом.

https://blog.dailydoseofds.com/p/building-a-100-local-mini-chatgpt
Краткое введение в использование векторной базы данных
В которой мы узнаем, как создать простую векторную базу данных с использованием вложений Pinecone и OpenAI, и обнаружим, что это гораздо проще, чем мы могли ожидать.

https://stevekinney.net/writing/using-a-vector-database
Дорожная карта по освоению машинного обучения в 2025 году

https://machinelearningmastery.com/roadmap-mastering-machine-learning-2025
Beyond Jupyter — это сборник материалов для самостоятельного изучения проектирования программного обеспечения, в котором особое внимание уделяется приложениям машинного обучения. Он демонстрирует, как грамотное проектирование программного обеспечения может ускорить как разработку, так и эксперименты. https://transferlab.ai/trainings/beyond-jupyter
Масштабирование во время тестирования — это многообещающий новый подход к языковому моделированию, который использует дополнительные вычисления во время тестирования для повышения производительности. Недавно модель OpenAI o1 продемонстрировала эту возможность, но не поделилась своей методологией публично, что привело к многочисленным попыткам репликации. Мы ищем самый простой подход для достижения масштабирования во время тестирования и высокой производительности рассуждений.

https://github.com/simplescaling/s1