Анализ данных (Data analysis)
46.3K subscribers
2.32K photos
269 videos
1 file
2.05K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
🖥 Книги, меняющие жизнь, — топ, составленный основателем OpenAI Сэмом Альтманом

Запоминаем и развиваемся:
1. Виктор Франкл, «Человек в поисках смысла».
2. Даниэль Канеман, «Думай медленно… решай быстро».
3. Питер Тиль, «От нуля к единице».
4. Олдос Хаксли, «О дивный новый мир».
5. Дэвид Дойч, «Начало бесконечности».
6. Рид Хоффман, «Блиц-масштабирование».
7. Ник Бостром, «Искусственный интеллект».
8. Джек Уэлч, «Победитель».
9. Скот Купор, «Секреты Сэнд-Хилл Роад».

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
18👍12🔥6🥱1🤣1😐1
Forwarded from Machinelearning
🌟 BioNeMo: фреймворк разработки ИИ-моделей для дизайна лекарств.

NVIDIA BioNeMo2 Framework - это набор инструментов, библиотек и моделей для вычислительного поиска и разработки лекарственный препаратов.

Он ускоряет самые трудоемкие и дорогостоящие этапы создания и адаптации моделей биомолекулярного ИИ, предоставляя оптимизированные модели и инструменты, которые легко интегрируются в вычислительные ресурсы на базе GPU.

Фреймворк позволяет создавать, обучать и настраивать модели, его возможности охватывают различные рабочие нагрузки и терапевтические механизмы: генерация молекул, предсказание структуры белка, белок-лиганд и обучение представлениям.

Помимо кода пайплайнов, скриптов и утилит, BioNeMo2 Framework содержит:

▶️Предобученные модели:

🟢ESM-2 - предварительно обученный двунаправленный энкодер (BERT-подобный) для аминокислотных последовательностей. BioNeMo2 включает в себя чекпоинты с параметрами 650M и 3B;

🟢Geneformer - модель табличного подсчета, которая генерирует плотное представление sc-RNA клетки путем изучения паттернов коэкспрессии в отдельных клетках.


▶️Датасеты:

🟠CELLxGENE - совокупность общедоступных single-cell наборов данных, собранных в CZI (Chan Zuckerberg Initiative) общим объемом в 24 млн. клеток;


🟠UniProt - база данных кластеризованных наборов белковых последовательностей из UniProtKB, созданная на основе транслированных геномных данных.


📌Лицензирование: Apache 2.0 License.


🟡Страница проекта
🟡Документация
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Framework #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍84🔥4
🔈 VoiceCraft — это нейронная языковая модель, которая выполняет редактирование речи и синтез речи (zero-shot), включая аудиокниги, видео и подкасты!

🌟 Модель требует всего несколько секунд эталонного голоса для клонирования или редактирования. Поддерживаются интерфейсы через Gradio, Docker и команды CLI, а также инструменты для обучения и дообучения.

🖥 Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
11👍8🔥4
⚡️Torchcodec – универсальная библиотека PyTorch для быстрого и точного декодирования видео.

Инструмент позволяет преобразовывать видео в тензоры с помощью интуитивно понятных API, высокой производительности процессора / CUDA и богатого встроенного инструментария ML.

Torchcodec является самой производительной библиотекой одновременного декодирования большого количества видео в рамках конвейера загрузки обучающих данных.


from torchcodec.decoders import VideoDecoder
from torch import Tensor

decoder = VideoDecoder("my_video.mp4")

# Index based frame retrieval.
first_ten_frames: Tensor = decoder[10:]
last_ten_frames: Tensor = decoder[-10:]

# Multi-frame retrieval, index and time based.
frames = decoder.get_frames_at(indices=[10, 0, 15])


#PyTorch #opensource

Gtihub
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥167👍6
🖥 RAGHub — это каталог инструментов, проектов и ресурсов для Retrieval-Augmented Generation (RAG)!

🌟 Проект предлагает информацию о фреймворках, таких как LangChain, Haystack и других, а также о методах оптимизации, инструментах оценки и примерах использования RAG.

🔐 Лицензия: MIT

🖥 Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥155👍31🥰1
Forwarded from Machinelearning
✔️ OpenAI расширяет возможности голосового режима ChatGPT.

OpenAI представила обновленный голосовой режим ChatGPT, который теперь поддерживает функции демонстрации экрана и распознавания изображений. Благодаря этому ChatGPT может анализировать контекст происходящего на экране смартфона или компьютера и давать более точные инструкции. Русский язык - поддерживается.

Обновленный голосовой режим уже доступен в мобильных приложениях для пользователей Team, а также для большинства подписчиков Pro и Plus. В ближайшее время функция станет доступна для европейских пользователей Pro и Plus, а в начале следующего года - для пользователей Enterprise и Edu.
openai.com

✔️ Midjourney представила Patchwork, инструмент для создания миров.

Patchwork – это бесконечное полотно, поддерживаемое искусственным интеллектом, которое позволяет создавать миры как персонально, так и совместно. С помощью этого инструмента можно развить расплывчатые идеи в полноценные истории, а также создавать необычные визуальные новеллы из изображений и текста.

В будущем Midjourney планирует сделать персонажей, миры и другие материалы, созданные в Patchwork, совместимыми с другими приложениями для сторителлинга. Это позволит, например, оживить персонажей в интерактивных сеттингах и редактировать текст истории с помощью новых интерфейсов для творческого письма.
updates.midjourney.com

✔️ Fujitsu представила 144-ядерный процессор Monaka для центров обработки данных.

Fujitsu представила прототип своего нового процессора Monaka, разработанного на архитектуре Armv9 и предназначенного для использования в центрах обработки данных. Процессор включает 144 ядра, распределенных по четырем 36-ядерным чиплетам, изготовленным по 2-нм техпроцессу TSMC.

Чиплеты расположены поверх SRAM-плиток, произведенных по 5-нм техпроцессу, и соединены с ними с помощью гибридной медной связи. Monaka также оснащен контроллером памяти DDR5, интерфейсом PCIe 6.0 с CXL 3.0 для подключения ускорителей. Ожидается, что Monaka будет доступен в 2027 финансовом году.
tomshardware.com

✔️ Ученые предлагают создать виртуальные клетки тканей человека с помощью ИИ.

Группа исследователей из Стэнфордского университета, Genentech и Chan-Zuckerberg Initiative считают, что современные достижения в области ИИ и большие массивы экспериментальных данных о биологии человека открывают беспрецедентные возможности для моделирования живых клеток.

Виртуальная клетка сможет воспроизводить поведение молекул, клеток, а в будущем - тканей и органов человека. Такая модель позволит глубже понять принципы работы здоровых клеток и выявить причины заболеваний. По мнению авторов, успешная виртуальная клетка должна обладать универсальностью, предсказывать функции и поведение клеток, а также позволять проводить эксперименты "in silico" для проверки гипотез.
news.stanford.edu

✔️ Гарвардский университет и Google выпустят базу данных из 1 млн. книг для обучения ИИ.

База данных включает различные жанры, языки и авторов, включая Диккенса, Данте и Шекспира, которые больше не защищены авторским правом в силу своего возраста. Набор книг создан на основе многолетнего проекта сканирования книг Google Books, и Google будет участвовать в ее распространении.

База данных предназначена для того, чтобы "создать равные условия" доступа к массиву данных всем - от исследовательских лабораторий до стартапов в области ИИ, - кто хочет обучать свои LLM. В настоящее время база данных находится на стадии доработки и в скором времени будет доступна для широкого использования.
institutionaldatainitiative.org

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍96🔥3
🔥 Phi-4 - новая блестящая работа Microsoft

Модель с параметрами 14B работает наравне с GPT-4o-mini и недавно выпущенной Llama-3.3-70B.

→ Модель достигает точности 91,8% при решении математических задач AMC 10/12, превосходя Gemini Pro 1.5 и другие более крупные модели.

📌 Инновация в области данных

Инженеры Microsoft разработали сложные методы генерации синтетических данных, которые выходят за рамки традиционных подходов к предварительному обучению.

→ Возможности математического анализа

Модель демонстрирует особую эффективность при решении сложных математических задач, что свидетельствует о расширенных возможностях символьного анализа и логического вывода

→ Инновации обучения: новые методы, такие как поиск ключевых токенов (PTS) в DPO.

🛡️ Первоначальный выпуск был ограничен платформой Azure AI Foundry в рамках лицензионного соглашения Microsoft Research

https://techcommunity.microsoft.com/blog/aiplatformblog/introducing-phi-4-microsoft%E2%80%99s-newest-small-language-model-specializing-in-comple/4357090

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
9👍6🔥3
📊 FinGPT — финансово-ориентированная платформа, построенная на LLM!

🌟 Она предназначена для анализа данных из финансовой отрасли с использованием моделей GPT, включая автоматизацию анализа новостей, обработки данных и поддержки принятия решений.

🔐 Лицензия: MIT

🖥 Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
7👏6👍4🥰3👌3
🎉 Только что вышла DeepSeek-VL2! Новая модель vision-language нового поколения.

🤖 Deep SeekMo Search + динамическая обработка изображений
3B/16B/27B размеры
🏆 Высокая производительность на всех бенчмарках

DeepSeek-VL2 - усовершенствованная серия VLM c Mixture-of-Experts (MoE), которая значительно превосходит DeepSeek-VL.
 
Модели семейства ориентированы на задачи визуальных ответов на вопросы, оптического распознавания символов, понимания документов/таблиц/схем и визуального обоснования.

DeepSeek-VL2 включает три основных модуля:

🟠Визуальный энкодер SigLIP-SO400M-384, который использует динамическую стратегию разбиения изображения на фрагменты. Эта стратегия позволяет эффективно обрабатывать изображения высокого разрешения с различными соотношениями сторон.

🟠VL-адаптер, преобразующий визуальные элементы в формат, понятный языковой модели. Адаптер также добавляет специальные маркеры, чтобы обозначить границы строк, фрагментов и миниатюр.

🟠Языковая модель DeepSeek-MoE с механизмом MLA. MLA повышает эффективность обработки информации, сжимая kv-данные в компактный вектор. Это ускоряет обработку информации и увеличивает пропускную способность.

DeepSeek-VL2 обучается в три этапа: на первом этапе обучается MLP-соединитель, который связывает визуальный энкодер с языковой моделью, затем модель обучается на датасете из текста, изображений, аннотаций, QA и данных OCR и, в конце процесса, дообучается с учителем для улучшения ее способности понимать инструкции и вести диалог.
 
Модельная серия состоит из 3 вариантов c контекстом 4096:

🟢DeepSeek-VL2-Tiny (1B активных параметром и 3.4В общих);

🟢DeepSeek-VL2-Small (2.8B активных параметром и 16.1B общих);

🟢DeepSeek-VL2 (4.5B активных параметром и 27.5B общих).

DeepSeek-VL2 была протестирована на задачах DocVQA, ChartQA, InfoVQA, TextVQA, MMBench и показала лучшие результаты по сравнению с другими моделями MoE.

DeepSeek-VL2 эффективно использует архитектуру MoE и превосходит другие модели с аналогичным количеством активных параметров.


💡 По-прежнему полностью открытый исходный код!

💾 Hugging Face: huggingface.co/deepseek-ai
🖥Github: https://github.com/deepseek-ai/DeepSeek-VL2

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍4🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
👀 Gaze-LLE: Neural Gaze

👉Gaze-LLE: новый фреймворк на базе трансформеров, для трекинга глаз.

Под капотом DINO v2 encoder.

📌Лицензирование: MIT

Cтатья arxiv.org/pdf/2412.09586
Github https://github.com/fkryan/gazelle

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍96🔥3😁2
Media is too big
VIEW IN TELEGRAM
🔥 Reor — это приложение для создания заметок на рабочем столе с использованием искусственного интеллекта: оно автоматически связывает связанные заметки, отвечает на вопросы в ваших заметках и обеспечивает семантический поиск!

🌟 Все хранится локально, и вы можете редактировать свои заметки с помощью редактора Markdown, похожего на Obsidian.

🔐 Лицензия: AGPL-3.0

🖥 Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍207🔥6
⚡️Легкий способ получать свежие обновления и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь:

МАШИННОЕ ОБУЧЕНИЕ: t.iss.one/ai_machinelearning_big_data
C++ t.iss.one/cpluspluc
Python: t.iss.one/pythonl
Linux: t.iss.one/linuxacademiya
Хакинг: t.iss.one/linuxkalii
Devops: t.iss.one/DevOPSitsec
Data Science: t.iss.one/datascienceiot
Javascript: t.iss.one/javascriptv
C#: t.iss.one/csharp_ci
Java: t.iss.one/javatg
Базы данных: t.iss.one/sqlhub
Python собеседования: t.iss.one/python_job_interview
Мобильная разработка: t.iss.one/mobdevelop
Docker: t.iss.one/DevopsDocker
Golang: t.iss.one/Golang_google
React: t.iss.one/react_tg
Rust: t.iss.one/rust_code
ИИ: t.iss.one/vistehno
PHP: t.iss.one/phpshka
Android: t.iss.one/android_its
Frontend: t.iss.one/front
Big Data: t.iss.one/bigdatai
Собеседования МЛ: t.iss.one/machinelearning_interview
МАТЕМАТИКА: t.iss.one/data_math
Kubernets: t.iss.one/kubernetc
Разработка игр: https://t.iss.one/gamedev
Haskell: t.iss.one/haskell_tg

💼 Папка с вакансиями: t.iss.one/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.iss.one/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.iss.one/addlist/eEPya-HF6mkxMGIy
Папка ML: https://t.iss.one/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: https://t.iss.one/addlist/mzMMG3RPZhY2M2Iy

😆ИТ-Мемы: t.iss.one/memes_prog
🇬🇧Английский: t.iss.one/english_forprogrammers
🧠ИИ: t.iss.one/vistehno

🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: https://t.iss.one/addlist/BkskQciUW_FhNjEy
5👍2🔥1