Big data world
2.35K subscribers
412 photos
64 videos
18 files
1.25K links
Интересные статьи Data Science : Big Data : Machine Learning : Deep Learning

По вопросам сотрудничества- @Daily_admin_info

По иным темам @un_ixtime
Download Telegram
Список ChatGPT: коллекция из более чем 3000 подсказок, примеров, вариантов использования, инструментов, API, расширений и других ресурсов.

https://medium.com/mlearning-ai/the-chatgpt-list-of-lists-a-collection-of-1500-useful-mind-blowing-and-strange-use-cases-8b14c35eb
Друзья, мы начинаем набор на 4 поток курса по Data Science для начинающих. 92% выпускников из предыдущих потоков уже устроились на позиции Data Scientist / Analyst в крутые крупные компании на позиции с конкурсом до 500 человек на место (да, до пятисот человек на место 🤯) этот показатель однозначно показывает, знания какого уровня и глубины вы получаете на нашему курсе, мы гордимся этим показателем.



Как и на всех предыдущих потоках, количество мест ограничено, мы не принимаем по 100 студентов на поток, так как стараемся проявлять индивидуальный подход. В следующих постах я отвечу на довольно популярные вопросы

Напомним, что в отличии от других курсов, мы осуществляем поддержку 24 часа 7 дней в неделю и подаем информацию простым языком

👉 Подробнее на сайте https://pymagic.ru/?utm_source=telegram&utm_medium=posev1&utm_campaign=camp_1_4flow&utm_content=text1_image1&utm_term=big_data_world
This media is not supported in your browser
VIEW IN TELEGRAM
Memoji на стероидах: эта модель искусственного интеллекта может реконструировать 3D-аватары из видео

Краткое чтение: https://www.marktechpost.com/2023/03/12/memoji-on-steroids-this-ai-model-can-reconstruct-3d-avatars-from-videos/
Статья: https://ait .ethz.ch/projects/2023/vid2avatar/downloads/main.pdf
Проект: https://moygcc.github.io/vid2avatar/
Парадокс Симпсона и его значение в науке о данных

Специалисты по данным, инженеры данных и инженеры по машинному обучению тратят много времени на изучение данных и поиск статистических рисунков или выводов из них. Но важная вещь, которая является обязательным навыком для этих профессионалов и всех, кто смотрит на данные, — это хорошая интуиция для реального мира.

Данные имеют несколько переменных, которые вы можете принять во внимание, однако следует отметить, что они создают конечномерное представление. Здесь вам придется заглянуть за пределы данных и выяснить, что такое скрытая реальность и как ее можно применить к набору данных.

Парадокс Симпсона доказывает нам важность скептицизма при интерпретации ваших данных и гарантии того, что вы применяете реальный мир, не ограничивая себя в том, чтобы смотреть на него с точки зрения данных.

https://www.kdnuggets.com/2023/03/simpson-paradox-implications-data-science.html?utm_source=rss&utm_medium=rss&utm_campaign=simpsons-paradox-and-its-implications-in-data-science
GPT-4, последняя веха в усилиях OpenAI по расширению масштабов глубокого обучения. GPT-4 — это крупная мультимодальная модель (принимающая входные изображения и текст и выдающая текстовые выходные данные), которая, хотя и менее эффективна, чем люди, во многих реальных сценариях, демонстрирует производительность на уровне человека в различных профессиональных и академических тестах.

https://openai.com/research/gpt-4
👍1
GPT-4 - захватывающий и пугающий (2 минуты чтения)

В статье описывается опыт автора по тестированию GPT-4, когда он задавал ему различные вопросы - помочь с налоговой проблемой, придумать новое слово, спланировать вечеринку по случаю дня рождения. Автор обнаружил, что GPT-4 способен решать более широкий круг задач, более подвижен в своих ответах . GPT-4 также показал высокие результаты в различных тестах, включая Единый экзамен по адвокатуре и олимпиаду по биологии. Хотя в статье признается положительный потенциал GPT-4, в ней также обсуждается и негативная сторона - мысль о том, что ИИ может быть умнее человека, этические последствия такой технологии и возможность злоупотреблений.
https://archive.ph/UDPRi

Google Cloud предлагает генеративный ИИ разработчикам, предприятиям и правительствам (7 минут чтения)

Google Cloud запустил поддержку генеративного ИИ в Vertex AI и Generative AI App Builder, что позволяет предприятиям и правительствам получить доступ к технологии генеративного ИИ и настроить ее под себя. Эти инструменты позволяют разработчикам быстро и легко создавать генеративные приложения ИИ, используя готовые шаблоны и API-доступ к базовым моделям Google, с полным контролем над использованием данных. Этот шаг отражает стремление Google Cloud расширить возможности команд и преобразовать отрасли с помощью технологий ИИ.
https://cloud.google.com/blog/products/ai-machine-learning/generative-ai-for-businesses-and-governments

Pip install pytorch 2.0 (5 минут чтения)

Анонсированная в декабре, новая версия pytorch теперь стабильна и доступна для простой установки. Благодаря множеству новых функций, улучшению скорости и интерфейсов - сейчас самое интересное время для использования самого популярного фреймворка глубокого обучения.
https://pytorch.org/blog/pytorch-2.0-release/

Edit-A-Video: Подход к редактированию видео с помощью преобразования текста в видео (Github Repo)

В данной статье представлена Edit-A-Video, структура для редактирования видео, основанная на моделях "текст-видео" (TTV), адаптированных из моделей "текст-изображение" (TTI), основанных на диффузии.
https://edit-a-video.github.io/
#вакансия #удалённо #job #remote #parttime #преподаватель #spark #рекомендательныесистемы #recommendersystems

Компания: OTUS – образовательная платформа 🦉 5 лет специализируемся на авторских курсах для IT-специалистов разного уровня: от junior до senior. У нас есть вступительное тестирование для студентов и 600+ преподавателей-практиков из крупнейших компаний. Мы учимся друг у друга, советуемся, помогаем, делимся опытом и обсуждаем новости как в преподавании, так и в IT.

Вакансия: преподаватель онлайн-курсов:
▶️ Spark developer
▶️ Рекомендательные системы

Локация: удаленно; сами определяете нагрузку и выбираете темы занятий. Вебинары проходят в вечернее время.

Преподаватель использует презентацию с теорией и практические примеры, чтобы раскрыть тему урока. Наши методисты помогут вам освоить лучшие инструменты и практики преподавания.

Это отличная возможность, чтобы:
- структурировать знания;
- публично выступать и работать с аудиторией;
- внести свой вклад в развитие IT.

Оплата💰
- от 4000 до 6000 руб. за одно занятие (полтора часа);
- 5000 за разработку материалов к одному занятию$
- от 300 до 400 руб за проверку одного ДЗ.

Бонусы 🎁
- наши курсы со скидкой/бесплатно;
- возможность приглашать в свою команду на работу лучших выпускников;
- воркшопы и конференции для наших преподавателей.

Обсудить подробнее @yu_grin
Pandas 2.0: более быстрая версия Pandas с серверной частью Apache Arrow

Панды 2.0 были недавно выпущены. Эта версия в основном включает исправления ошибок, улучшения производительности и добавление серверной части Apache Arrow.

Если вы являетесь пользователем pandas, вероятно, вы знаете, что pandas годами использовала Numpy для представления массивов и выполнения над ними операций. Однако когда дело доходит до работы с фреймами данных, у Arrow есть много преимуществ по сравнению с Numpy.

В этой статье мы увидим, каковы эти преимущества, почему pandas выбирает Arrow для своего бэкэнда и как вы можете начать использовать Arrow в Pandas 2.0 (это все еще не вариант по умолчанию).

https://artificialcorner.com/pandas-2-0-a-faster-version-of-pandas-with-apache-arrow-backend-57d13b838a97
This media is not supported in your browser
VIEW IN TELEGRAM
Выпущена первая модель распространения текста в видео с открытым исходным кодом с 1,7 миллиардами параметров

демо: https://huggingface.co/spaces/damo-vilab/modelscope-text-to-video-synthesis
модель: https://huggingface.co/damo-vilab/modelscope-damo-text-to-video-synthesis/tree/main
👍3
6 лучших книг по науке о данных для начинающих — 2023 г.

Область науки о данных быстро растет, и у этой области есть огромный потенциал, чтобы революционизировать то, как люди живут и работают. С увеличением объема производимых данных для специалистов по науке о данных становится все более важным понимать инструменты и методы прерывания данных. Если вы новичок или опытный специалист по данным, чтение последних книг по этому вопросу поможет вам оставаться впереди конкурентов и быть в курсе последних тенденций и разработок в этой области.

В этом блоге мы расскажем о лучших книгах по науке о данных, которые вам следует прочитать в 2023 году. Книга охватывает различные темы, включая машинное обучение, визуализацию больших данных и многое другое. Таким образом, книги предоставят ценную информацию и информацию, если вы хотите быть в курсе последних тенденций и новых навыков.

https://www.datasciencecentral.com/top-6-data-science-books-for-beginners-and-experienced-2023/
31 марта МТС собирает крупнейшую в России IT-конференцию TRUE TECH DAY. Почему сейчас? Потому что давно пора показать, что скрывают «под капотом» топовые продукты продвинутых технологичных компаний. Каждый участник конференции протестит на себе true-технологии и испытает новые впечатления, меняющие мир пользователей.

Что будет:
→ 7 треков: AI, Main Track, Big Data, Architecture, Cybersecurity, Leading Change, Product Manager.
→ 50+ мировых спикеров с топовыми темами без воды и лирики
→ 10 часов нетворкинга и обмена опытом в Москве, Дубае, Тбилиси и Астане
→ много интерактивных и цифровых зон
→ а после — грандиозная вечеринка со звездным лайн-апом

Все спикеры и темы уже на сайте.
Регистрируйся на True Tech Day по ссылке.
Участие бесплатно
OpenChatKit: альтернатива ChatGPT с открытым исходным кодом

OpenChatKit позволяет разработчикам настраивать модель, поддерживать контекст в диалогах, модерировать ответы и без особых усилий создавать собственные приложения для чат-ботов.

https://www.kdnuggets.com/2023/03/openchatkit-opensource-chatgpt-alternative.html
Дорожная карта машинного обучения для НАЧИНАЮЩИХ с ресурсами!!

A) Linear Algebra
🔗 https://khanacademy.org/math/linear-algebra

B) Calculus
🔗 https://youtube.com/playlist?list=PLZHQObOWTQDMsr9K-rj53DwVRMYO3t5Yr

C) Probability
🔗 https://edx.org/course/probability-the-science-of-uncertainty-and-data

D) Statistics
🔗 Notes: https://mathsbox.org.uk/twi/astats.pdf

E) Python
🔗 https://datacamp.com/courses/intro-to-python-for-data-science

F) Machine Learning
🔗 https://developers.google.com/machine-learning/crash-course

G) Projects
🔗https://www.kaggle.com/
Media is too big
VIEW IN TELEGRAM
«Интерфейс ChatGPT» для изучения ваших наборов данных машинного обучения

app.activeloop.ai
👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Демонстрация, данные и код для обучения большой языковой модели в стиле помощника с ~800 тыс. GPT-3.5-Turbo Generations на основе LLaMa

https://github.com/nomic-ai/gpt4all
This media is not supported in your browser
VIEW IN TELEGRAM
Будьте осторожны с процессом машинного обучения
[БЕСПЛАТНЫЙ 533-страничный PDF] #DataScience and#Машинное обучение— Математические и статистические методы: https://people.smp.uq.edu.au/DirkKroese/DSML/DSML.pdf
This media is not supported in your browser
VIEW IN TELEGRAM
Финансовый аналитик GPT-4 «Уоррен Баффет», чтобы «общаться» и анализировать несколько PDF-файлов (~ 1000 страниц).
Годовые отчеты Tesla 10-k (2020-2022)

Учебное видео на Youtube: https://youtube.com/watch?v=Ix9WIZpArm0

Репозиторий Github : https://github.com/mayooear/gpt4-pdf-chatbot-langchain
👏1
Машинное обучение в три шага

В этой статье я разделю алгоритмы машинного обучения на три категории и выскажу свое скромное мнение о том, с чего начать, а что можно пропустить.

https://towardsdatascience.com/machine-learning-in-three-steps-how-to-efficiently-learn-it-aefcf423a9e1
Набор данных с разнообразными диалогами между двумя экземплярами ChatGPT (gpt-3.5-turbo) с системными сообщениями, написанными GPT-4. Охватывая различные контексты и задачи (системы диалогов, ориентированных на задачу, абстрактное рассуждение, мозговой штурм).

https://github.com/radi-cho/botbots/