Big data world
2.35K subscribers
412 photos
64 videos
18 files
1.25K links
Интересные статьи Data Science : Big Data : Machine Learning : Deep Learning

По вопросам сотрудничества- @Daily_admin_info

По иным темам @un_ixtime
Download Telegram
Поскольку трансформеры оказывают такое большое влияние на исследовательскую повестку каждого, я хотел уточнить краткий список литературы для исследователей и практиков машинного обучения, начинающих работу с большими языковыми моделями: https://sebastianraschka.com/blog/2023/llm-reading-list.html
This media is not supported in your browser
VIEW IN TELEGRAM
Google анонсирует Dreamix: модель, которая генерирует видео по запросу и входному изображению/видео.

https://dreamix-video-editing.github.io/

Документ: https://arxiv.org/pdf/2302.01329.pdf
В Яндекс Практикуме появились курсы английского для работы в IT.
Для разработчиков, аналитиков и продакт-менеджеров.

Личный преподаватель и иностранные IT-специалисты помогут освоить язык на примере собеседований, стендапов, ревью и других рабочих ситуаций.

Запишись на бесплатную консультацию, где определят твой уровень языка и расскажут подробнее о программе.
Представляем Polymath: инструмент с открытым исходным кодом, который преобразует любую музыкальную библиотеку в библиотеку сэмплов с помощью машинного обучения . Он разделяет песни на основы, квантизирует их до одинакового BPM, определяет тональность и многое другое.

https://github.com/samim23/polymath
BioGPT обучен по биомедицинской литературе и достиг человеческого паритета. Сейчас он является лидером в тесте PubMedQA (81%).

https://github.com/microsoft/BioGPT
👍1
Лучшие бесплатные ресурсы для изучения ChatGPT

К настоящему времени большинство людей, использующих Интернет, знают о ChatGPT и о том, что он может делать. Но им не хватает понимания того, как это работает и как это можно использовать.

В этом блоге мы рассмотрим бесплатные ресурсы, чтобы понять основы ChatGPT, научиться лучше использовать API OpenAI, точно настроить модели GPT и стать профессионалами в подсказках. Вы также узнаете, как использовать ChatGPT для создания приложений, анализа данных и повышения продуктивности.

https://www.kdnuggets.com/2023/02/top-free-resources-learn-chatgpt.html?utm_source=rss&utm_medium=rss&utm_campaign=top-free-resources-to-learn-chatgpt
Google только что выпустила MetNet-2, модель глубокого обучения, которая может предсказывать дождь за 12 часов. Опубликованная в журнале Nature, она превосходит современные модели прогноза погоды, основанные на физическом моделировании.

📄Paper: https://nature.com/articles/s41467-022-32483-x
🛠Code: https://colab.research.google.com/github/google/ai-weather-climate/blob/main/metnet2/colab.ipynb
20 функций Pandas для 80% ваших задач по науке о данных

Мы рассмотрим все, от базовых операций с данными до продвинутых методов анализа данных, и к концу этой статьи у вас будет четкое представление о том, как использовать Pandas, чтобы сделать ваш рабочий процесс обработки данных более эффективным.

https://levelup.gitconnected.com/20-pandas-functions-for-80-of-your-data-science-tasks-b610c8bfe63c

(если пост не открывается полностью, войдите в режиме инкогнито)
👍3
Минимальный план обучения машинному обучению

https://mlspring.substack.com/p/a-minimal-study-plan-for-machine?r=qaeh4&utm_campaign=post&utm_medium=web
Google предлагает БЕСПЛАТНЫЕ сертификационные курсы в 2023 году.
Независимо от того, учитесь ли вы программировать или являетесь опытным специалистом по машинному обучению, вы найдете информацию и упражнения, которые помогут вам развить свои навыки и продвигать свои проекты.

https://ai.google/education/
Как работает ChatGPT: модель бота

Краткое введение в интуицию и методологию чат-бота, о котором вы не можете перестать слышать.
https://towardsdatascience.com/how-chatgpt-works-the-models-behind-the-bot-1ce5fca96286

(если пост открывается не полностью, войдите в режиме инкогнито )
Composer — это большая (5 миллиардов параметров) управляемая модель распространения, обученная на миллиардах пар (текст, изображение).

гитхаб: https://github.com/damo-vilab/composer

страница проекта: https://damo-vilab.github.io/composer-page/
10 лучших библиотек Python, которые необходимо знать специалисту по данным

Как аналитик данных / ученый или просто специалист по данным :), вы полагаетесь на ряд инструментов и методов для извлечения информации из данных. Python — один из самых популярных языков программирования для науки о данных, и на то есть веские причины. Он прост в освоении, имеет большое и активное сообщество и может похвастаться множеством библиотек и фреймворков, специально разработанных для обработки данных, визуализации и машинного обучения.

В этой статье мы познакомим вас с 10 наиболее важными библиотеками Python для обработки данных . Мы предоставим краткий обзор каждой библиотеки, а также примеры кода, которые помогут вам начать работу.

https://python.plainenglish.io/master-data-science-with-these-10-essential-python-libraries-fb01f0fdb108
Polars: сверхбыстрая библиотека данных для Python — до свидания, панды?

Polars
— это библиотека, написанная на Rust и основанная на Arrow. Эта библиотека работает быстрее, чем панды, особенно когда речь идет о работе с большими наборами данных.

https://artificialcorner.com/polars-the-super-fast-dataframe-library-for-python-goodbye-pandas-85156e84337f

(если пост открывается не полностью, войдите в режиме инкогнито)
Новый Kosmos-1 от Microsoft невероятен. Это новая мультимодальная модель большого языка (MLLM). Их модель может понимать изображения, текст, изображения с текстом, распознавание текста, подписи к изображениям, визуальный контроль качества. Он может даже решать тесты IQ.

Paper: https://arxiv.org/abs/2302.14045
Code: https://github.com/microsoft/unilm
Существует ли дорожная карта для науки о данных?

Прежде чем мы начнем обсуждать путь к тому, чтобы стать Data Scientist, важно отметить, что это не простая область, которую можно освоить за короткий промежуток времени. Это требует значительного количества обучения, практического опыта и создания ценности для конечного продукта.

Несмотря на быстрый рост технологий, внедрение различных сред искусственного интеллекта и обилие вакансий, не существует четкого плана, как стать специалистом по данным. Тем не менее, я могу предоставить общий обзор того, что вы можете узнать, почему вы должны это изучить и как это можно применить в ваших будущих проектах по науке о данных. Давайте начнем.

https://sidddhesh.hashnode.dev/is-there-a-roadmap-for-data-science
👍4
Только 45 методов, которые вы должны освоить, чтобы стать профессионалом NumPy

NumPy (или Numeric Python) лежит в основе каждого проекта по науке о данных и машинному обучению.

Вся управляемая данными экосистема так или иначе зависит от NumPy и его основных функций. Это делает ее одной из самых важных и революционных библиотек, когда-либо созданных в Python.

В этом блоге я расскажу о своем более чем 3-летнем опыте использования NumPy и поделюсь теми 45 конкретными методами, которые я использовал почти все время.

https://medium.com/geekculture/the-only-45-methods-you-should-master-to-become-a-numpy-pro-6ea77a8638a6
15 лучших библиотек машинного обучения для использования в 2023 году

Искусственный интеллект — одна из самых быстрорастущих отраслей. Количество библиотек машинного обучения с открытым исходным кодом, в которые лучшие программисты вносят новые функции и функции, постоянно увеличивается.

Благодаря стремительному развитию машинного обучения некоторые платформы и библиотеки машинного обучения устаревают после определенного периода использования. Напротив, другие набирают обороты благодаря передовым инструментам, которые они предлагают инженерам машинного обучения.

В этом сообщении блога мы представляем 15 библиотек машинного обучения, на которые стоит обратить внимание в 2023 году.

https://serokell.io/blog/most-popular-ml-libraries
👍3
Visual ChatGPT: общение, рисование и редактирование с помощью Visual Foundation Models

Бумага - https://arxiv.org/abs/2303.04671

Код - https://github.com/microsoft/visual-chatgpt