Big data world
2.35K subscribers
412 photos
64 videos
18 files
1.25K links
Интересные статьи Data Science : Big Data : Machine Learning : Deep Learning

По вопросам сотрудничества- @Daily_admin_info

По иным темам @un_ixtime
Download Telegram
Введение в Graph Machine Learning

В этой статье блога мы рассмотрим основы машинного обучения на графах.

Сначала мы изучим, что такое графы, зачем они используются и как их лучше всего представлять. Затем мы кратко расскажем о том, как люди обучаются на графах, начиная с донейронных методов (одновременное изучение особенностей графа) и заканчивая тем, что обычно называют графовыми нейронными сетями. И наконец, мы заглянем в мир трансформеров для графов.

https://shly.link/D2VJd
InstructPix2Pix: обучение выполнению инструкций по редактированию изображений

демо: https://huggingface.co/spaces/timbrooks/instruct-pix2pix

гитхаб: https://github.com/timothybrooks/instruct-pix2pix

страница проекта: https://www.timothybrooks.com/instruct-pix2pix/
Представляем PyCircular: библиотеку Python для кругового анализа данных

Циклические данные могут создавать уникальные проблемы, когда речь идет об анализе и моделировании.

В этом посте я представляю PyCircular , специализированную библиотеку Python для анализа данных, разработанную специально для работы с циклическими данными. Как один из авторов, я рад поделиться этим мощным инструментом с сообществом, чтобы помочь решить проблемы работы с циклическими данными.
https://shly.link/Skem7
OpenAI только что запустил «Классификатор текста AI» для идентификации текстов, сгенерированных AI. Пробовал, НЕ РАБОТАЕТ.

https://platform.openai.com/ai-text-classifier
5 бесплатных инструментов для обнаружения ChatGPT, GPT3 и GPT2



После
запуска ChatGPT ящик Пандоры открылся. Сейчас мы наблюдаем технологический сдвиг в том, как мы работаем. Люди создают веб-сайты, приложения и даже пишут романы, используя ChatGPT.

Со всей шумихой и внедрением генеративных инструментов ИИ мы наблюдаем рост числа плохих актеров. Если вы следите за последними новостями, вы наверняка слышали, что ChatGPT сдал экзамен Wharton MBA. Существует целый список экзаменов, сданных ChatGPT, от медицинского до юридического диплома — Список: Вот экзамены, которые ChatGPT уже сдал .

Помимо экзаменов, студенты используют его для отправки заданий, писатели отправляют генеративный контент, а исследователи создают высококачественные статьи, просто печатая подсказки.

Чтобы противостоять злоупотреблению генеративным контентом, я представляю вам 5 бесплатных инструментов обнаружения контента AI.

https://shly.link/a69VD
Поскольку трансформеры оказывают такое большое влияние на исследовательскую повестку каждого, я хотел уточнить краткий список литературы для исследователей и практиков машинного обучения, начинающих работу с большими языковыми моделями: https://sebastianraschka.com/blog/2023/llm-reading-list.html
This media is not supported in your browser
VIEW IN TELEGRAM
Google анонсирует Dreamix: модель, которая генерирует видео по запросу и входному изображению/видео.

https://dreamix-video-editing.github.io/

Документ: https://arxiv.org/pdf/2302.01329.pdf
В Яндекс Практикуме появились курсы английского для работы в IT.
Для разработчиков, аналитиков и продакт-менеджеров.

Личный преподаватель и иностранные IT-специалисты помогут освоить язык на примере собеседований, стендапов, ревью и других рабочих ситуаций.

Запишись на бесплатную консультацию, где определят твой уровень языка и расскажут подробнее о программе.
Представляем Polymath: инструмент с открытым исходным кодом, который преобразует любую музыкальную библиотеку в библиотеку сэмплов с помощью машинного обучения . Он разделяет песни на основы, квантизирует их до одинакового BPM, определяет тональность и многое другое.

https://github.com/samim23/polymath
BioGPT обучен по биомедицинской литературе и достиг человеческого паритета. Сейчас он является лидером в тесте PubMedQA (81%).

https://github.com/microsoft/BioGPT
👍1
Лучшие бесплатные ресурсы для изучения ChatGPT

К настоящему времени большинство людей, использующих Интернет, знают о ChatGPT и о том, что он может делать. Но им не хватает понимания того, как это работает и как это можно использовать.

В этом блоге мы рассмотрим бесплатные ресурсы, чтобы понять основы ChatGPT, научиться лучше использовать API OpenAI, точно настроить модели GPT и стать профессионалами в подсказках. Вы также узнаете, как использовать ChatGPT для создания приложений, анализа данных и повышения продуктивности.

https://www.kdnuggets.com/2023/02/top-free-resources-learn-chatgpt.html?utm_source=rss&utm_medium=rss&utm_campaign=top-free-resources-to-learn-chatgpt
Google только что выпустила MetNet-2, модель глубокого обучения, которая может предсказывать дождь за 12 часов. Опубликованная в журнале Nature, она превосходит современные модели прогноза погоды, основанные на физическом моделировании.

📄Paper: https://nature.com/articles/s41467-022-32483-x
🛠Code: https://colab.research.google.com/github/google/ai-weather-climate/blob/main/metnet2/colab.ipynb
20 функций Pandas для 80% ваших задач по науке о данных

Мы рассмотрим все, от базовых операций с данными до продвинутых методов анализа данных, и к концу этой статьи у вас будет четкое представление о том, как использовать Pandas, чтобы сделать ваш рабочий процесс обработки данных более эффективным.

https://levelup.gitconnected.com/20-pandas-functions-for-80-of-your-data-science-tasks-b610c8bfe63c

(если пост не открывается полностью, войдите в режиме инкогнито)
👍3
Минимальный план обучения машинному обучению

https://mlspring.substack.com/p/a-minimal-study-plan-for-machine?r=qaeh4&utm_campaign=post&utm_medium=web
Google предлагает БЕСПЛАТНЫЕ сертификационные курсы в 2023 году.
Независимо от того, учитесь ли вы программировать или являетесь опытным специалистом по машинному обучению, вы найдете информацию и упражнения, которые помогут вам развить свои навыки и продвигать свои проекты.

https://ai.google/education/
Как работает ChatGPT: модель бота

Краткое введение в интуицию и методологию чат-бота, о котором вы не можете перестать слышать.
https://towardsdatascience.com/how-chatgpt-works-the-models-behind-the-bot-1ce5fca96286

(если пост открывается не полностью, войдите в режиме инкогнито )
Composer — это большая (5 миллиардов параметров) управляемая модель распространения, обученная на миллиардах пар (текст, изображение).

гитхаб: https://github.com/damo-vilab/composer

страница проекта: https://damo-vilab.github.io/composer-page/
10 лучших библиотек Python, которые необходимо знать специалисту по данным

Как аналитик данных / ученый или просто специалист по данным :), вы полагаетесь на ряд инструментов и методов для извлечения информации из данных. Python — один из самых популярных языков программирования для науки о данных, и на то есть веские причины. Он прост в освоении, имеет большое и активное сообщество и может похвастаться множеством библиотек и фреймворков, специально разработанных для обработки данных, визуализации и машинного обучения.

В этой статье мы познакомим вас с 10 наиболее важными библиотеками Python для обработки данных . Мы предоставим краткий обзор каждой библиотеки, а также примеры кода, которые помогут вам начать работу.

https://python.plainenglish.io/master-data-science-with-these-10-essential-python-libraries-fb01f0fdb108
Polars: сверхбыстрая библиотека данных для Python — до свидания, панды?

Polars
— это библиотека, написанная на Rust и основанная на Arrow. Эта библиотека работает быстрее, чем панды, особенно когда речь идет о работе с большими наборами данных.

https://artificialcorner.com/polars-the-super-fast-dataframe-library-for-python-goodbye-pandas-85156e84337f

(если пост открывается не полностью, войдите в режиме инкогнито)
Новый Kosmos-1 от Microsoft невероятен. Это новая мультимодальная модель большого языка (MLLM). Их модель может понимать изображения, текст, изображения с текстом, распознавание текста, подписи к изображениям, визуальный контроль качества. Он может даже решать тесты IQ.

Paper: https://arxiv.org/abs/2302.14045
Code: https://github.com/microsoft/unilm