Big data world
2.36K subscribers
412 photos
64 videos
18 files
1.25K links
Интересные статьи Data Science : Big Data : Machine Learning : Deep Learning

По вопросам сотрудничества- @Daily_admin_info

По иным темам @un_ixtime
Download Telegram
Создание LLM для восстановления кода.
В статье обсуждается функция восстановления кода Replit, которая автоматически исправляет распространенные ошибки программирования и проблемы в коде. В ней рассматривается, как Code Repair помогает разработчикам экономить время и улучшать качество кода, предоставляя автоматизированные решения распространенных проблем с кодированием.

https://blog.replit.com/code-repair
Небольшое руководство по созданию больших языковых моделей в 2024 году.
Это первое видео из серии из двух частей, охватывающей все концепции обучения высокопроизводительной LLM в 2024 году.

https://www.youtube.com/watch?v=2-SPH9hIKT8
Представляем крупнейший в мире синтетический набор данных Text-to-SQL с открытым исходным кодом

Gretel выпускает крупнейший набор данных Text-to-SQL с открытым исходным кодом для ускорения обучения моделей ИИ
https://gretel.ai/blog/synthetic-text-to-sql-dataset
🤖 Репозиторий руководств по машинному обучению 🤖

Вы найдете → Python → Компьютерное зрение → NLP → Matplotlib → NumPy → Pandas → MLOps → LLM → PyTorch/TensorFlow . ⬇️

https://github.com/patchy631/machine-learning
Математика, лежащая в основе сверточных нейронных сетей
Погрузитесь в CNN, основу компьютерного зрения, разберитесь в ее математике, реализуйте ее с нуля и изучите ее приложения.

https://towardsdatascience.com/the-math-behind-convolutional-neural-networks-6aed775df076
В этом сообщении блога мы поделимся шаблоном, который, по нашему мнению, охватывает большинство рекомендательных систем, развернутых сегодня, с примерами от таких компаний, как Meta, Netflix и Pinterest. Этот шаблон занимает центральное место в том, как мы думаем о создании комплексных систем Recsys в команде NVIDIA Merlin , и мы рады поделиться им с более широким сообществом и помочь достичь понимания и консенсуса относительно того, как выглядят рекомендательные системы (а не только модели)

https://medium.com/nvidia-merlin/recommender-systems-not-just-recommender-models-485c161c755e
Примечания о том, как использовать LLM в вашем продукте.

Практически каждая известная мне компания ищет способ извлечь выгоду из больших языковых моделей. Даже если их руководители не видят особой применимости, их инвесторы, скорее всего, видят, поэтому они нервно смотрят на пустую страницу, пытаясь придумать идею. Легко привести доводы в пользу того, что LLM каким-то образом повышает внутреннюю эффективность, но гораздо сложнее описать правдоподобный способ, которым LLM сделает ваш продукт более полезным для ваших клиентов.
https://lethain.com/mental-model-for-how-to-use-llms-in-products
Вот 300 часов кураторских курсов, посвященных машинному обучению. 15 курсов. От новичка до продвинутого. Google опубликовал их бесплатно.

Курсы хорошо структурированы. Это не просто ссылки на видео на YouTube. Вам нужно присоединиться к курсу, и у них есть интерфейс, который проведет вас через каждый модуль. Это хороший контент.

https://www.cloudskillsboost.google/paths/17
5 бесплатных курсов по освоению математики для науки о данных
Хотите изучить математику для науки о данных? Ознакомьтесь с этими тремя курсами, чтобы изучить линейную алгебру, исчисление, статистику и многое другое.

https://www.kdnuggets.com/5-free-courses-to-master-math-for-data-science
Погрузитесь в концепцию «Проклятия размерности» и поймите математику всех удивительных явлений, возникающих в высоких измерениях.

https://towardsdatascience.com/the-math-behind-the-curse-of-dimensionality-cf8780307d74
This media is not supported in your browser
VIEW IN TELEGRAM
SAM + Optical Flow = FlowSAM FlowSAM может обнаруживать и сегментировать движущиеся объекты на видео и значительно превосходит все предыдущие подходы как в тестах с одним, так и с несколькими объектами

https://www.robots.ox.ac.uk/~vgg/research/flowsam/
Несколько часов назад Лама-3 8Б была самой мощной маленькой моделью ИИ. Microsoft только что выпустила Phi-3 Mini, который лучше почти во всех тестах. Вы можете использовать его локально бесплатно, поскольку он имеет открытый исходный код (подробности ниже): https://lmstudio.ai/
Как установить и развернуть LLaMA 3 в рабочей среде
Узнайте, как установить и развернуть LLaMA 3 в рабочей среде, с помощью этого пошагового руководства. Мы охватываем все, что вам нужно знать для беспрепятственного внедрения: от требований к оборудованию до развертывания и масштабирования

https://nlpcloud.com/how-to-install-and-deploy-llama-3-into-production.html
Торхтитан (репозиторий GitHub)
Фреймворк предварительной подготовки моделей Llama от Meta, полностью написанный на PyTorch.
https://github.com/pytorch/torchtitan

Платформа глубокого обучения Luminal (репозиторий GitHub)
Платформа для быстрого глубокого обучения, созданная с учетом скорости и простоты.
OpenLit (репозиторий GitHub)
https://github.com/jafioti/luminal?

OpenLIT — это встроенный в OpenTelemetry инструмент наблюдения за приложениями GenAI и LLM, предназначенный для того, чтобы сделать процесс интеграции наблюдения в проекты GenAI возможным с помощью всего лишь одной строки кода.
https://github.com/openlit
🔥2👍1
О том, почему современные системы искусственного интеллекта выдают ложные результаты и что с этим делать

https://medium.com/@colin.fraser/hallucinations-errors-and-dreams-c281a66f3c35