Анализ данных (Data analysis)
46.3K subscribers
2.31K photos
264 videos
1 file
2.05K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
🪨 Google представляет GenMS: генеративный иерархический поиск материалов

Инструмент для управляемой генерации кристаллических структур.

GenMS использует графическую нейронную сеть для прогнозирования свойств (например, энергии образования) генерируемых кристаллических структур.

Эксперименты показывают, что GenMS превосходит другие альтернативыные модели для генераций как в удовлетворении запросов пользователей, так и в генерации новых низкоэнергетических структур.

GenMS способна генерировать обычные кристаллические структуры, такие как двойные перовскиты (сравнительно редкий для поверхности Земли минерал, титанат кальция. Эмпирическая формула: CaTiO3. Был впервые обнаружен в 1839 году на Урале; назван в честь русского государственного и военного деятеля сенатора Льва Перовского) или шпинели (минерал кубической сингонии, смешанный оксид магния и алюминия MgAl2O4. Бывает окрашен минеральными примесями в различные цвета: бурый, чёрный, розовый, красный, синий.), исключительно на основе данных естественного языка и, следовательно, может стать основой для создания более сложных структур для изучения.

проект: https://generative-materials.github.io/genms/
abs: https://arxiv.org/abs/2409.06762

@data_analysis_ml
👍123🔥3
Agent Workflow Memory

Интрумент, который значительно улучшает базовые результаты агентов на 24,6 % и 51,1 % относительного показателя успешности на бенчмарках Mind2Web и WebArena, уменьшая при этом количество шагов, необходимых для успешного решения задач.

репозиторий: https://github.com/zorazrw/agent-workflow-memory
abs: https://arxiv.org/abs/2409.07429

@data_analysis_ml
👍72🔥1
Forwarded from Machinelearning
⚡️ OpenAI релизнули новую модель OpenAI o1, которая в разы мощнее GPT-4o,

Главная фишка - это цепочка рассуждений (CoT) которую выстраивает алгоритм прежде, чем дать ответ.

Заявлено, что модель будет сильно лучше писать код и понимать физику мира

Тот самый секретны проект, над которым так долго работала компания.

Доступ обещают дать уже сегодня.

@ai_machinelearning_big_data

#openai #chatgpt
👍22🔥118🤣1
This media is not supported in your browser
VIEW IN TELEGRAM
🤖Deep mind выпустил 2️⃣ новые системы искусственного интеллекта для робототехники:

🤖 ALOHA Unleashed для выполнения задач манипулирования двумя руками
🦾 DemoStart для управления роботизированной рукой.

Они научились выполнять целый ряд действий, требующих ловкости рук.

🧵Релиз: https://deepmind.google/discover/blog/advances-in-robot-dexterity/

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14👍54
Forwarded from Machinelearning
Новостной дайджест

✔️ Поколение Z будет чаще использовать ИИ для покупок на предстоящих праздниках.

Согласно опросу, проведенному компанией Fiverr, розничные продавцы разрабатывают стратегии по привлечению новых покупателей, особенно из поколения Z (термин, применяемый в мире для поколения людей, родившихся, по разным классификациям, примерно с середины 1990-х до начала 2010-х годов), с помощью ИИ.

Более половины опрошенных покупателей поколения Z планируют использовать ИИ в качестве помощника по покупкам к Новому Году. Например, некоторые используют ChatGPT для поиска лучших цен или генерации идей подарков.

Розничные продавцы уверены, что эти функции захватят покупательские привычки поколения Z, и планируют инвестировать в ИИ. 70% предприятий планируют инвестировать в ИИ, 39% увеличивают свои расходы на рекламу в социальных сетях, а 35% инвестируют в маркетинговые стратегии с привлечением инфлюэнсеров.
cbsnews.com

✔️ Audible планирует создавать голосовые копии дикторов аудиокниг.

Audible запустил бета-версию сервиса, который позволяет озвучивать книги с помощью синтеза речи, используя голос диктора. Сервис позволит авторам создавать реплики собственного голоса с помощью ИИ, что позволит им браться за большее количество проектов и увеличить свой доход.

В данный момент бета-версия доступна только в США для ограниченного числа рассказчиков, и Audible планирует вскоре предоставить доступ к ней владельцам авторских прав книг. Audible обещает, что будет тщательно отслеживать влияние этой технологии сообщество.
acx.com

✔️ ell: Библиотека программирования LLM.

ell - это легкая библиотека промпт-проектирования, которая оперирует промптами как функциями. После многих лет создания и использования языковых моделей в OpenAI и в экосистеме стартапов, ell была выпущена в открытый доступ.

Она разработана на основе принципов, которые делают работу с промптами более структурированной и эффективной. 
ell позволяет создавать "language model program" (LMP), которые представляют собой функции, генерирующие промпты для языковых моделей. В ell есть инструменты для отслеживания, управления версиями и визуализации.

Библиотека поддерживает мультимодальность: работает с текстом, изображениями, аудио и видео. ell старается быть максимально легкой и не интрузивной, не требуя от разработчиков менять свой стиль программирования.
docs.ell.so

✔️ Loopy: генеративная модель портретного видео на основе аудио.

Loopy - разработка Bytedance, которая генерирует анимированные аватары на основе аудиозаписи с липсинком и угловой адаптацией.
Модель способна создавать реалистичные движения головы, мимику и движения, связанные с эмоциями.

Loopy не требует ручного указания шаблонов движения, это позволяет создавать более реалистичные аватары для разных сценариев. Она может генерировать движения в зависимости от аудиовхода, например, быстрые, спокойные или пение. Модель также работает с изображениями в профиль и реальными портретами. Информации о релизе кода и доступности модели в опен-сорсе не публиковалось. Пейпер. Демо.
loopyavatar.github.io

✔️ Туториал: Использование PostgreSQL в качестве векторной базы данных для RAG.

В туториале показан пошаговый сценарий к созданию векторной базы данных в PostgreSQL для хранения фрагментов текста из нескольких статей Википедии. В нем описывается процесс встраивания фрагментов текста и их сохранения в базе данных вместе с соответствующим заголовком, текстом и URL-адресом статьи.

Также приведен пример, как использовать векторное сходство для поиска релевантного контекста из базы данных с учетом запроса пользователя. Как извлеченный контекст используется для дополнения исходного запроса, прежде чем он будет передан в LLM для создания окончательного инференса.
infoworld.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍107🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
🤖 Microsoft представляет Windows Agent Arena

Инструмент для оценки мультимодальных агентов Работающих с ОС Windows



Windows Agent Arena: среда, ориентированная исключительно на Windows, где агенты могут свободно работать в реальных задачах и использовать тот же широкий спектр приложений, инструментов и веб-браузеров, которые доступны пользователям при работе.

Это адаптарованный фреймворк OSWorld (Xie et al., 2024) для создания 150+ разнообразных задач Windows в различных областях, требующих от агентов способностей к планированию, пониманию происходящего на экране пк и применение инструментов для реальных задач.

huggingface.co/papers/2409.08264

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥74👍2
GOT (General OCR Theory) - 580M модель OCR-2.0, которая теперь доступна на

Модель: https://huggingface.co/ucaslcl/GOT-OCR2_0
Github: https://github.com/Ucas-HaoranWei/GOT-OCR2.0/

@data_analysis_ml
6👍4🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
🍏 Все, что вам нужно это 2 Макбука

Крутой домашний клестер: Llama 3.1 405B работает распределенно на 2х макбуках.


https://github.com/exo-explore/exo

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14🥴106🔥3🥱2🌭1
⚡️ SkillNer - это модуль NLP для автоматического извлечения HR данных из неструктурированных объявлений о работе, текстов и резюме соискателей.

pip install skillNer

Извлечение необходимой информации о стеке разработчиков из объявлений о вакансиях, резюме и любого другого неструктурированного текста может занимать много времени и сил, если делать это вручную.

Этот инструмент может быть полезен:

- Рекрутерам для автоматизации извлечения для ускорения отбора кандидатов.
- Специалистам по исследованию данных для извлечения структурированных данных из неструктурированного текста, связанного с работой.

SkillNER автоматизирует этот процесс, делая пирсинг быстрым и эффективным.

Вот небольшой пример:


python
import spacy
from spacy.matcher import PhraseMatcher
from skillNer.general_params import SKILL_DB
from skillNer.skill_extractor_class import SkillExtractor

# Load the spaCy model
nlp = spacy.load("en_core_web_lg")

# Initialize the SkillExtractor
skill_extractor = SkillExtractor(nlp, SKILL_DB, PhraseMatcher)

# Sample job description
job_description = """
You are a data scientist with strong expertise in Python. You have solid experience in
data analysis and visualization, and can manage end-to-end data science projects.
You quickly adapt to new tools and technologies, and are fluent in both English and SQL.
"""

# Extract skills from the job description
annotations = skill_extractor.annotate(job_description)
annotations


📘 Github
🚀 Demo
🌟 Docs

@data_analysis_ml
👍169🤣4🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
🫦 Pose Talk - это мощный метод синхронизации губ, который позволяет создавать видеоролики с говорящей головой из одного изображения, аудио и текстовых подсказок.

https://junleen.github.io/projects/posetalk

@data_analysis_ml
👍114🔥3
Andrew Ng только что выпустили два свежих курса по AI Python для начинающих!

В курсе учат, как писать код с использованием ИИ.

Если вы подумываете о том, чтобы научиться писать код, то сейчас самое подходящее время для этого.

https://deeplearning.ai/short-courses/ai-python-for-beginners/

@data_analysis_ml
👍208🔥6
🖥 NVIDIA выпустила уменьшенную версию, Nemotron-Mini-4B-Instruct

- Оптимизирована для ролевых игр, RAG QA и вызова функций на английском языке.

- Поддерживает контекст длиной 4 096 лексем.

- Разрешено коммерческое использование

🌟 Подробнее про Nemotron

Это доработанная версия nvidia's Minitron-4B-Base, которая была обрезана(прунинг) и соборно из Nemotron-4 15B с помощью техники сжатия LLM.

https://huggingface.co/nvidia/Nemotron-Mini-4B-Instruct

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍124🔥4
🖥 One-DM может генерировать рукописный текст по одному образцу, имитируя стиль вводимого текста.

Он улавливает уникальные особенности письма и хорошо работает на нескольких языках.

https://github.com/dailenson/One-DM

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍147🔥6
🔥 g1: Using Llama-3.1 70b on Groq to create o1-like reasoning chains

Прототип g1, в котором показано использование Llama-3.1 70B на платформе Groq для формирования цепочек выводов, схожих с теми, что используются в o1 Open AI.

В отличие от o1, в g1 представлены все элементы рассуждений посредством использования открытой модели, что стимулирует сообщество open source к разработке новых стратегий.

Данный эксперимент демонстрирует продуктивность пошаговых рассуждений при таком подходе, хотя g1 не достигает таких высоких результатов в сложных задачах, как o1, которая использует масштабное обучение с подкреплением.

https://github.com/bklieger-groq/g1

@data_analysis_ml
115👍5🔥2🌚1
This media is not supported in your browser
VIEW IN TELEGRAM
🖥 Microsoft только что объявила о возможности Copilot обрабатывать Excel файлы, генерируя код на Python.

- Полноценный анализ данных
- Copilot генерирует Python скрипты
- Excel выполняет код, чтобы вывести результат.

И все это без необходимости формулы.

Только естественный язык.

Супер легкий анализ и визуализация данных.

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍50🔥166🥱5❤‍🔥1
Forwarded from Machinelearning
Новостной дайджест

✔️ CEO Hasbro заявил, что искусственный интеллект станет основной частью Dungeons & Dragons.

Генеральный директор Hasbro, материнской компании Wizards of the Coast, Крис Кокс заявил, что ИИ уже используется для разработки игр и в будущем станет неотъемлемой частью Dungeons & Dragons, например, для создания пользовательского контента и сценариев.

Это заявление вызвало волну критики в сообществе D&D, поскольку ранее Wizards of the Coast запрещала своим художникам использовать ИИ.
uk.news.yahoo.com

✔️ Китайский конкурент Nvidia, компания Biren Technology, планирует выход на IPO.

Biren Technology, получившая статус "единорога" (стартапа с оценкой более $1 млрд) в ноябре 2023 года, наняла инвестиционный банк Guotai Junan Securities, чтобы пройти обязательный в Китае процесс "обучения", который является предшественником подачи заявки на IPO. Процесс занимает от 3 до 12 месяцев, включает в себя подготовку руководства компании к IPO.
scmp.com


✔️ AMD подтвердила, что FSR4 будет использовать ИИ для повышения качества изображения и энергоэффективности.

AMD подтвердила, что следующая версия технологии масштабирования изображения FidelityFX Super Resolution (FSR), FSR4, будет использовать искусственный интеллект для генерации кадров.

Самой большой проблемой, с которой сталкиваются портативные игровые устройства, является время автономной работы, и в генерации кадров лежит одно из возможных решений этой проблемы.

Идея заключается в том, что генерация интерполированных кадров требует гораздо меньше вычислительных ресурсов, чем полная отрисовка этих кадров, поэтому можно зафиксировать частоту кадров на относительно низком уровне, например, "30 или 35", а затем использовать генерацию кадров, чтобы сделать изображение плавным, экономя при этом энергию.

FSR4 будет доступен не только на портативных игровых устройствах и может стать отличной функцией для будущих дискретных графических процессоров AMD на базе RDNA 4. AMD начала работу над решением для генерации кадров на основе ИИ "9-12 месяцев назад", поэтому FSR4 может быть готов к запуску новых видеокарт AMD, который ожидается примерно в январе, на выставке CES 2025.
hothardware.com

✔️ ОАЭ представили новую политику безопасности в области ИИ.

Центр электронной безопасности Дубая (DESC) объявил о запуске политики безопасности искусственного интеллекта Дубая, чтобы укрепить доверие к решениям ИИ, способствовать их развитию и снизить риски безопасности.

Эта инициатива является частью стремления ОАЭ стать мировым лидером в области ИИ к 2031 году, разрабатывая интегрированную государственную систему, использующую ИИ в ключевых секторах. Запуск политики соответствует целям программы Dubai Economic Agenda , направленной на удвоение экономики Дубая в течение следующего десятилетия.
wam.ae

✔️ Италия тестирует обучение с помощью ИИ в школах.

Правительство Италии запускает пилотный проект по внедрению ИИ в школах, чтобы помочь сократить отставание страны в области цифровых навыков от других стран ЕС.

В рамках проекта, ПО с поддержкой ИИ будет протестировано в 15 классах в четырех регионах. Инструменты ИИ на планшетах и компьютерах в классах будут действовать как "виртуальные ассистенты, которые могут облегчить обучение для учеников и помочь учителям определить методы для индивидуального образования".

Италия имеет один из самых низких показателей базовых цифровых навыков в ЕС, уступая только Латвии, Польше, Болгарии и Румынии. Министр образования Джузеппе Вальдитара считает, что ИИ может помочь улучшить ситуацию, предоставляя учащимся более персонализированный и эффективный образовательный опыт.

В то же время, министр ввел полный запрет на использование мобильных телефонов в классах, даже в образовательных целях. Проект по внедрению ИИ в школах будет оцениваться в течение учебного года, и, если он окажется успешным, его планируется расширить.
kfgo.com


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍76🔥1🥰1
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ SwiftBrush v2 может улучшить качество изображений, создаваемых моделями диффузии текста в изображение!

Результаты выглядят великолепно, и, судя по всему, в бенчмарках она превосходит все модели на основе GAN и многошаговые модели Stable Diffusion.

https://swiftbrushv2.github.io


@data_analysis_ml
👍62🔥1