Big data world
2.34K subscribers
412 photos
64 videos
18 files
1.25K links
Интересные статьи Data Science : Big Data : Machine Learning : Deep Learning

По вопросам сотрудничества- @Daily_admin_info

По иным темам @un_ixtime
Download Telegram
BioGPT обучен по биомедицинской литературе и достиг человеческого паритета. Сейчас он является лидером в тесте PubMedQA (81%).

https://github.com/microsoft/BioGPT
👍1
Лучшие бесплатные ресурсы для изучения ChatGPT

К настоящему времени большинство людей, использующих Интернет, знают о ChatGPT и о том, что он может делать. Но им не хватает понимания того, как это работает и как это можно использовать.

В этом блоге мы рассмотрим бесплатные ресурсы, чтобы понять основы ChatGPT, научиться лучше использовать API OpenAI, точно настроить модели GPT и стать профессионалами в подсказках. Вы также узнаете, как использовать ChatGPT для создания приложений, анализа данных и повышения продуктивности.

https://www.kdnuggets.com/2023/02/top-free-resources-learn-chatgpt.html?utm_source=rss&utm_medium=rss&utm_campaign=top-free-resources-to-learn-chatgpt
Google только что выпустила MetNet-2, модель глубокого обучения, которая может предсказывать дождь за 12 часов. Опубликованная в журнале Nature, она превосходит современные модели прогноза погоды, основанные на физическом моделировании.

📄Paper: https://nature.com/articles/s41467-022-32483-x
🛠Code: https://colab.research.google.com/github/google/ai-weather-climate/blob/main/metnet2/colab.ipynb
20 функций Pandas для 80% ваших задач по науке о данных

Мы рассмотрим все, от базовых операций с данными до продвинутых методов анализа данных, и к концу этой статьи у вас будет четкое представление о том, как использовать Pandas, чтобы сделать ваш рабочий процесс обработки данных более эффективным.

https://levelup.gitconnected.com/20-pandas-functions-for-80-of-your-data-science-tasks-b610c8bfe63c

(если пост не открывается полностью, войдите в режиме инкогнито)
👍3
Минимальный план обучения машинному обучению

https://mlspring.substack.com/p/a-minimal-study-plan-for-machine?r=qaeh4&utm_campaign=post&utm_medium=web
Google предлагает БЕСПЛАТНЫЕ сертификационные курсы в 2023 году.
Независимо от того, учитесь ли вы программировать или являетесь опытным специалистом по машинному обучению, вы найдете информацию и упражнения, которые помогут вам развить свои навыки и продвигать свои проекты.

https://ai.google/education/
Как работает ChatGPT: модель бота

Краткое введение в интуицию и методологию чат-бота, о котором вы не можете перестать слышать.
https://towardsdatascience.com/how-chatgpt-works-the-models-behind-the-bot-1ce5fca96286

(если пост открывается не полностью, войдите в режиме инкогнито )
Composer — это большая (5 миллиардов параметров) управляемая модель распространения, обученная на миллиардах пар (текст, изображение).

гитхаб: https://github.com/damo-vilab/composer

страница проекта: https://damo-vilab.github.io/composer-page/
10 лучших библиотек Python, которые необходимо знать специалисту по данным

Как аналитик данных / ученый или просто специалист по данным :), вы полагаетесь на ряд инструментов и методов для извлечения информации из данных. Python — один из самых популярных языков программирования для науки о данных, и на то есть веские причины. Он прост в освоении, имеет большое и активное сообщество и может похвастаться множеством библиотек и фреймворков, специально разработанных для обработки данных, визуализации и машинного обучения.

В этой статье мы познакомим вас с 10 наиболее важными библиотеками Python для обработки данных . Мы предоставим краткий обзор каждой библиотеки, а также примеры кода, которые помогут вам начать работу.

https://python.plainenglish.io/master-data-science-with-these-10-essential-python-libraries-fb01f0fdb108
Polars: сверхбыстрая библиотека данных для Python — до свидания, панды?

Polars
— это библиотека, написанная на Rust и основанная на Arrow. Эта библиотека работает быстрее, чем панды, особенно когда речь идет о работе с большими наборами данных.

https://artificialcorner.com/polars-the-super-fast-dataframe-library-for-python-goodbye-pandas-85156e84337f

(если пост открывается не полностью, войдите в режиме инкогнито)
Новый Kosmos-1 от Microsoft невероятен. Это новая мультимодальная модель большого языка (MLLM). Их модель может понимать изображения, текст, изображения с текстом, распознавание текста, подписи к изображениям, визуальный контроль качества. Он может даже решать тесты IQ.

Paper: https://arxiv.org/abs/2302.14045
Code: https://github.com/microsoft/unilm
Существует ли дорожная карта для науки о данных?

Прежде чем мы начнем обсуждать путь к тому, чтобы стать Data Scientist, важно отметить, что это не простая область, которую можно освоить за короткий промежуток времени. Это требует значительного количества обучения, практического опыта и создания ценности для конечного продукта.

Несмотря на быстрый рост технологий, внедрение различных сред искусственного интеллекта и обилие вакансий, не существует четкого плана, как стать специалистом по данным. Тем не менее, я могу предоставить общий обзор того, что вы можете узнать, почему вы должны это изучить и как это можно применить в ваших будущих проектах по науке о данных. Давайте начнем.

https://sidddhesh.hashnode.dev/is-there-a-roadmap-for-data-science
👍4
Только 45 методов, которые вы должны освоить, чтобы стать профессионалом NumPy

NumPy (или Numeric Python) лежит в основе каждого проекта по науке о данных и машинному обучению.

Вся управляемая данными экосистема так или иначе зависит от NumPy и его основных функций. Это делает ее одной из самых важных и революционных библиотек, когда-либо созданных в Python.

В этом блоге я расскажу о своем более чем 3-летнем опыте использования NumPy и поделюсь теми 45 конкретными методами, которые я использовал почти все время.

https://medium.com/geekculture/the-only-45-methods-you-should-master-to-become-a-numpy-pro-6ea77a8638a6
15 лучших библиотек машинного обучения для использования в 2023 году

Искусственный интеллект — одна из самых быстрорастущих отраслей. Количество библиотек машинного обучения с открытым исходным кодом, в которые лучшие программисты вносят новые функции и функции, постоянно увеличивается.

Благодаря стремительному развитию машинного обучения некоторые платформы и библиотеки машинного обучения устаревают после определенного периода использования. Напротив, другие набирают обороты благодаря передовым инструментам, которые они предлагают инженерам машинного обучения.

В этом сообщении блога мы представляем 15 библиотек машинного обучения, на которые стоит обратить внимание в 2023 году.

https://serokell.io/blog/most-popular-ml-libraries
👍3
Visual ChatGPT: общение, рисование и редактирование с помощью Visual Foundation Models

Бумага - https://arxiv.org/abs/2303.04671

Код - https://github.com/microsoft/visual-chatgpt
Список ChatGPT: коллекция из более чем 3000 подсказок, примеров, вариантов использования, инструментов, API, расширений и других ресурсов.

https://medium.com/mlearning-ai/the-chatgpt-list-of-lists-a-collection-of-1500-useful-mind-blowing-and-strange-use-cases-8b14c35eb
Друзья, мы начинаем набор на 4 поток курса по Data Science для начинающих. 92% выпускников из предыдущих потоков уже устроились на позиции Data Scientist / Analyst в крутые крупные компании на позиции с конкурсом до 500 человек на место (да, до пятисот человек на место 🤯) этот показатель однозначно показывает, знания какого уровня и глубины вы получаете на нашему курсе, мы гордимся этим показателем.



Как и на всех предыдущих потоках, количество мест ограничено, мы не принимаем по 100 студентов на поток, так как стараемся проявлять индивидуальный подход. В следующих постах я отвечу на довольно популярные вопросы

Напомним, что в отличии от других курсов, мы осуществляем поддержку 24 часа 7 дней в неделю и подаем информацию простым языком

👉 Подробнее на сайте https://pymagic.ru/?utm_source=telegram&utm_medium=posev1&utm_campaign=camp_1_4flow&utm_content=text1_image1&utm_term=big_data_world
This media is not supported in your browser
VIEW IN TELEGRAM
Memoji на стероидах: эта модель искусственного интеллекта может реконструировать 3D-аватары из видео

Краткое чтение: https://www.marktechpost.com/2023/03/12/memoji-on-steroids-this-ai-model-can-reconstruct-3d-avatars-from-videos/
Статья: https://ait .ethz.ch/projects/2023/vid2avatar/downloads/main.pdf
Проект: https://moygcc.github.io/vid2avatar/
Парадокс Симпсона и его значение в науке о данных

Специалисты по данным, инженеры данных и инженеры по машинному обучению тратят много времени на изучение данных и поиск статистических рисунков или выводов из них. Но важная вещь, которая является обязательным навыком для этих профессионалов и всех, кто смотрит на данные, — это хорошая интуиция для реального мира.

Данные имеют несколько переменных, которые вы можете принять во внимание, однако следует отметить, что они создают конечномерное представление. Здесь вам придется заглянуть за пределы данных и выяснить, что такое скрытая реальность и как ее можно применить к набору данных.

Парадокс Симпсона доказывает нам важность скептицизма при интерпретации ваших данных и гарантии того, что вы применяете реальный мир, не ограничивая себя в том, чтобы смотреть на него с точки зрения данных.

https://www.kdnuggets.com/2023/03/simpson-paradox-implications-data-science.html?utm_source=rss&utm_medium=rss&utm_campaign=simpsons-paradox-and-its-implications-in-data-science
GPT-4, последняя веха в усилиях OpenAI по расширению масштабов глубокого обучения. GPT-4 — это крупная мультимодальная модель (принимающая входные изображения и текст и выдающая текстовые выходные данные), которая, хотя и менее эффективна, чем люди, во многих реальных сценариях, демонстрирует производительность на уровне человека в различных профессиональных и академических тестах.

https://openai.com/research/gpt-4
👍1