Big data world
2.34K subscribers
412 photos
64 videos
18 files
1.25K links
Интересные статьи Data Science : Big Data : Machine Learning : Deep Learning

По вопросам сотрудничества- @Daily_admin_info

По иным темам @un_ixtime
Download Telegram
Что нужно знать разработчикам о генеративном ИИ

В последнее время в новостях доминирует генеративный ИИ, но что это такое? Вот что вам нужно знать и что это значит для разработчиков.
https://github.blog/2023-04-07-what-developers-need-to-know-about-generative-ai/
Dolly 2.0, управляемая LLM с открытым исходным кодом для исследований и коммерческого использования.

«Сегодня мы выпускаем Dolly 2.0, первую LLM с открытым исходным кодом, выполняющую инструкции, точно настроенную на созданном человеком наборе данных инструкций, лицензированном для исследований и коммерческого использования», — Databricks

https://www.databricks.com/blog/2023/04/12/dolly-first-open-commercially-viable-instruction-tuned-llm

https://huggingface.co/databricks

Модель: https://huggingface.co/databricks/dolly-v2-12b

Набор данных: https://github.com/databrickslabs/dolly/tree/master/data
Media is too big
VIEW IN TELEGRAM
Нейронная объемная память для передвижения ногами, CVPR23 Highlight

Робот поднимается по лестнице🏯, перешагивает через камни🧗‍♀️ и бегает в дикой природе🏞 без всякого пульта! В нашей статье #CVPR2023 Highlight это достигается за счет использования RL + трехмерной нейронной объемной памяти (NVM), обученной с помощью синтеза представлений!

Веб-сайт: https://rchalyang.github.io/NVM/

статья: https://arxiv.org/abs/2304.01201
👍2
Бесплатный курс MLOps. Узнайте, как сочетать машинное обучение с разработкой программного обеспечения для разработки, развертывания и обслуживания производственных приложений машинного обучения.
https://madewithml.com/
6 аутсайдеров библиотек Data Science, которые заслуживают гораздо большего внимания

Пора выходить из тени
https://towardsdatascience.com/6-underdog-data-science-libraries-that-deserve-much-more-attention-ef64187b562a
Мы написали обо всем, что вам нужно знать для обучения LLM (технология, лежащая в основе ChatGPT).

Большие языковые модели, такие как GPT-4 от OpenAI или PaLM от Google, штурмом захватили мир искусственного интеллекта. Тем не менее, большинство компаний в настоящее время не имеют возможности обучать эти модели и полностью полагаются лишь на горстку крупных технологических фирм как на поставщиков технологий.

В Replit мы вложили значительные средства в инфраструктуру, необходимую для обучения наших собственных больших языковых моделей с нуля.
https://blog.replit.com/llm-training
Bark: приложение для клонирования голоса с помощью искусственного интеллекта и текстовое генеративное аудио.

Bark может генерировать очень реалистичную многоязычную речь, а также другие аудиофайлы, включая музыку, фоновый шум и простые звуковые эффекты. Модель также может производить невербальные коммуникации, такие как смех, вздохи и плач.
https://github.com/serp-ai/bark-with-voice-clone
👍4
Как использовать ChatGPT — подсказки для специалистов по данным

В этой статье я поделюсь некоторыми полезными и важными подсказками, которые могут использовать специалисты по данным. Мы рассмотрим такие области, как машинное обучение, визуализация данных и многое другое.
https://www.freecodecamp.org/news/how-to-use-chatgpt-for-data-scientists/
65 шпаргалок по Python, Linux, AWS, ML, AI, SQL, Git, GCP, Azure

"Думаю, это вам очень поможет. Наслаждаться!!"

https://medium.com/@saurabhdahibhate50/65-cheatsheets-carefully-curated-you-will-ever-need-c6a3de85195b
Автоматическое удаление объектов с изображений — сложная задача, требующая сочетания компьютерного зрения и методов глубокого обучения. Этот код использует возможности рисования OpenCV, восстановления изображений на основе глубокого обучения и методов смешивания для автоматического выполнения этой задачи без необходимости подсказок пользователя.

https://github.com/vijishmadhavan/UnpromptedControl
1
This media is not supported in your browser
VIEW IN TELEGRAM
Adaptive — это библиотека Python с открытым исходным кодом, которая упрощает вычисления адаптивных параллельных функций. Вместо того, чтобы вычислять все точки в плотной сетке, он разумно выбирает «лучшие» точки в пространстве параметров на основе предоставленной вами функции и границ.
https://github.com/python-adaptive/adaptive/
Понимание больших языковых моделей

Срез самой актуальной литературы, чтобы быть в курсе
https://magazine.sebastianraschka.com/p/understanding-large-language-models
Крис Латтнер из LLVM и Swift только что объявил о новом языке программирования для ML, который отличается высокой производительностью и обратной совместимостью с Python (работает с библиотеками Python). Может изменить правила игры.

https://docs.modular.com/mojo/why-mojo.html
Как я превратил документы своей компании в базу данных с возможностью поиска с помощью OpenAI

И как вы можете сделать то же самое с вашими документами
https://towardsdatascience.com/how-i-turned-my-companys-docs-into-a-searchable-database-with-openai-4f2d34bd8736
Очень нежное введение в большие языковые модели без шумихи

Эта статья предназначена для того, чтобы дать людям, не имеющим знаний в области информатики, некоторое представление о том, как работают ChatGPT и аналогичные системы искусственного интеллекта (GPT-3, GPT-4, Bing Chat, Bard и т. д.). https://shly.link/yCvEX
Hugging Face выпускает новаторского агента-трансформера

Агент Transformers предоставляет API-интерфейс естественного языка поверх трансформаторов с набором специально подобранных инструментов и агентом, предназначенным для интерпретации естественного языка и использования этих инструментов.
https://huggingface.co/docs/transformers/transformers_agents
60 подсказок ChatGPT для науки о данных (опробовано, проверено и оценено)

Автоматизируйте задачи обработки данных с помощью ChatGPT

Я оценил 60 функций ChatGPT для Data Science. Используйте эти подсказки и попросите ChatGPT написать и объяснить код, оптимизировать код обработки данных. Он также может объяснять концепции науки о данных, предлагать идеи и устранять проблемы.
https://medium.datadriveninvestor.com/60-chatgpt-prompts-for-data-science-tried-tested-and-rated-4994c7e6adb2
Более 200 советов по Python и науке о данных — о Pandas, NumPy, основах ML, Sklearn, Jupyter и многом другом.

Самостоятельная подборка советов по Python и науке о данных, которые помогут вам повысить уровень вашей игры с данными.
https://shly.link/mdmwK1A
Настоящая многопоточность приходит в Python — узнайте, как вы можете ее использовать прямо сейчас

Настоящий многоядерный параллелизм появится в Python в версии 3.12, и вот как вы можете использовать его прямо сейчас, используя API субинтерпретатора.
https://betterprogramming.pub/real-multithreading-is-coming-to-python-learn-how-you-can-use-it-now-90dd7fb81bdf
👍2
Язык запросов для программирования (больших) языковых моделей.

LMQL — это язык запросов для больших языковых моделей (LLM). Это облегчает взаимодействие LLM, сочетая преимущества подсказок на естественном языке с выразительностью Python. С помощью всего нескольких строк кода LMQL пользователи могут создавать расширенные, состоящие из нескольких частей и дополненные инструментами запросы LM, которые затем оптимизируются средой выполнения LMQL для эффективного выполнения в рамках цикла декодирования LM.

https://github.com/eth-sri/lmql
Как повысить эффективность выдачи кредитов с помощью Process Mining?

Об этом вы узнаете на вебинаре Инфомаксимум и Россельхозбанка «Process Mining в банках: анализ кредитных процессов», который состоится 18 мая в 16:00.

Программа:
◼️ Активная бизнес-аналитика с Proceset
Как система выявляет проблемные зоны и отклонения в процессах, обнаруживает точки оптимизации;

◼️ Анализ кредитных процессов в Россельхозбанке
Как банк смог обнаружить упущенную выгоду благодаря детальному анализу процесса с помощью технологий Process Mining и Task Mining;

◼️ Сессия «Вопрос – ответ»

Участие бесплатное, регистрируйтесь по ссылке.
Больше о системе Proceset можно узнать в телеграм-канале: самые актуальные кейсы, новости, обновления.
1