Data Mining | Анализ данных🚀 – Telegram

Data Mining | Анализ данных🚀

@dataminingteam

3.24K subscribers

1.73K photos

10 videos

5 files

1.7K links

• Купить рекламу: t.iss.one/sahib_space
Админ: sahib_space
• Стоимость: https://www.notion.so/sahibspace/69ece414a4af49f2bdbdfe455e553e58?pvs=3&qid=
• Группа в ВК: vk.com/datamining.team

Download Telegram

About

Blog

Apps

Platform

Data Mining | Анализ данных🚀

3.24K subscribers

Data Mining | Анализ данных🚀

Статья рассматривает четыре основных подхода к созданию и улучшению моделей рассуждений в контексте LLM, включая их преимущества, недостатки и методологию DeepSeek R1.

Также обсуждаются советы по разработке таких моделей с ограниченным бюджетом, а также влияние DeepSeek V3 и R1 на развитие области.

https://habr.com/ru/articles/894688/

👍2

839 views17:32

Data Mining | Анализ данных🚀

AI меняет рабочие процессы, при этом акцент смещается на качество пользовательского опыта, а не на количество функций.

Профессионалы предпочитают комбинировать специализированные инструменты, что помогает повысить продуктивность и избежать неудовлетворенности от универсальных решений.

https://habr.com/ru/articles/893202/

🐳2👍1

867 views17:36

Data Mining | Анализ данных🚀

Автор статьи объясняет, как развернуть виртуальный хостинг с использованием Python для создания веб-сервисов и Webhook.

В материале подробно описан процесс создания сайта, настройки базы данных и размещения Python-кода на платформе Netangels.

https://habr.com/ru/companies/digitalleague/articles/763866/

🔥3

837 views17:36

Data Mining | Анализ данных🚀

Статья оценивает методы выбора признаков, основанные на LLM и предлагает гибридную стратегию LLM4FS, которая сочетает LLM с традиционными методами, такими как случайный лес и последовательный выбор признаков.

Результаты показывают, что эта стратегия превосходит как LLM, так и традиционные методы в задаче выбора признаков, но имеет свои ограничения при применении в принятии решений.

https://arxiv.org/pdf/2503.24157

👍3

966 views17:31

Data Mining | Анализ данных🚀

PaperBench — это новый бенчмарк от OpenAI для оценки способности ИИ-агентов воспроизводить передовые исследования в области ИИ, основанный на статьях конференции ICML 2024.

Лучший результат среди протестированных моделей показал агент Claude 3.5 Sonnet с 21% точности воспроизведения, однако все модели отстают от уровня экспертов.

cdn.openai.com/papers/22265bac-3191-44e5-b057-7aaacd8e90cd/paperbench.pdf

👍2

899 views17:41

Data Mining | Анализ данных🚀

LLM Scraper — это инструмент для парсинга веб-страниц с использованием языковых моделей, который понимает контекст и адаптируется к изменениям вёрстки.

Он поддерживает различные форматы входных данных, включая HTML и скриншоты, и использует Playwright для рендеринга JavaScript-страниц.

https://github.com/mishushakov/llm-scraper

🔥3

1.02K views17:36

Data Mining | Анализ данных🚀

Автор статьи развеивает мифы о сложности работы с LLM и делится личным опытом внедрения таких моделей в продукты.

Он предлагает пошаговое руководство по использованию LLM, фокусируясь на практической стороне внедрения, стратегии и тактике, без углубления в теорию или обучение моделей с нуля, а также предоставляет список литературы.

https://habr.com/ru/articles/896598/

👍2

921 views17:46

Data Mining | Анализ данных🚀

Статья описывает эксперимент по запуску клиента нейросети DeepSeek на старой операционной системе MS-DOS, используя современный сервер для обработки запросов.

Автор делится опытом настройки локальной версии DeepSeek и подключения к ней через MS-DOS с помощью сетевых драйверов и утилит mTCP.

https://habr.com/ru/companies/ru_mts/articles/888756/

❤‍🔥2

883 views17:31

Data Mining | Анализ данных🚀

Представили новую технику оптимизации в DL — AYLA, которая улучшает сходимость и стабильность с помощью преобразования функции потерь и динамической скорости обучения.

Эксперименты показывают, что AYLA превосходит существующие методы, такие как SGD и ADAM, в различных задачах, таких как синтетические полиномы и классификация изображений.

https://arxiv.org/pdf/2504.01875

❤‍🔥3

950 views17:26

Data Mining | Анализ данных🚀

CFIRE — алгоритм для создания глобальных правил решений из локальных объяснений с использованием майнинга частых элементов.

Он решает проблему несогласованности методов объяснения и показывает высокую точность и производительность на 700 моделях черного ящика и 14 наборах данных.

https://arxiv.org/pdf/2504.00930

❤‍🔥1

928 views17:31

Data Mining | Анализ данных🚀

GraphMaster — первая многоагентная система для синтеза графовых данных в условиях ограниченных данных.

Она использует четыре специализированных агента LLM для оптимизации процесса синтеза, обеспечивая семантическую согласованность и структурную целостность, и демонстрирует превосходство по сравнению с традиционными методами синтеза.

https://arxiv.org/pdf/2504.00711

❤‍🔥2

1.01K views17:41

Data Mining | Анализ данных🚀

В данной работе предлагается новая методика MetaLoRA, которая сочетает принципы мета-обучения и низкоранговой адаптации для эффективного подстраивания нейронных сетей под новые задачи.

MetaLoRA улучшает существующие методы, позволяя динамически настраивать параметры и лучше учитывать особенности различных задач, сохраняя при этом вычислительную эффективность.

https://arxiv.org/pdf/2504.00460

❤‍🔥2

1.15K views17:51

Data Mining | Анализ данных🚀

Статья объясняет, как использовать данные из «Яндекс.Метрики» для глубокого анализа и интеграции с другими источниками, такими как CRM-системы, для получения инсайтов и проверки гипотез.

В ней также приводится инструкция по получению OAuth-токена и примеры Python-кода для работы с API Яндекс.Метрики.

https://habr.com/ru/companies/digitalleague/articles/742156/

👍2

1.43K views17:33

Data Mining | Анализ данных🚀

Google DeepMind исследует, как LLM учат факты, обнаружив, что процесс происходит в три этапа: от запоминания статистических закономерностей до формирования связей между элементами текста и, наконец, к точному воспроизведению фактов.

Это исследование помогает понять причины “катастрофического забывания” при добавлении новых данных.

https://arxiv.org/pdf/2503.21676

👍3

1.86K views17:41

Data Mining | Анализ данных🚀

II-Thought-RL-v0 — датасет для RL с 340 тысячами задач, решающий проблемы старых наборов данных, такие как дублирование и низкое качество.

Он включает верификацию и фильтрацию для повышения точности, но имеет дисбаланс, с преобладанием математики и программирования.

https://www.ii.inc/web/blog/post/ii-thought

❤‍🔥3

2.42K views17:46

Data Mining | Анализ данных🚀

Forwarded from хайер скул оф мемс

6🔥3❤‍🔥2

2.07K views08:36

Data Mining | Анализ данных🚀

This media is not supported in your browser

VIEW IN TELEGRAM

Давайте

😁7

1.85K views12:10

Data Mining | Анализ данных🚀

На днях Google выкатил статью с дико неочевидным тезисом: чтобы модель отвечала точнее, нужно дважды отправить ей один и тот же промпт. Звучит как шутка, но работает на всех топ-моделях (Gemini, GPT, Claude, Deepseek) и почти в 70% тестов. Cуть в том, что дублирование заставляет думать нейронку в заданном контексте.

Что особенно цепляет: мы привыкли, что сложное чинят сложным, а тут - просто Ctrl+C, Ctrl+V, и точность повышается. Самый яркий пример - тест NameIndex, где модель должна назвать 25-е имя из списка в 50 позиций. Без повторения точность 21%, с повторением - 97%. Получаем: дубль = точность🤔. Так что, мы до сих пор не понимаем, как работают наши же модели :)

Примечание: работает только для моделей без reasoning*

arxiv.org/abs/2512.1...

🔥9🐳1🍓1

520 views20:35

Data Mining | Анализ данных🚀

Please open Telegram to view this post

VIEW IN TELEGRAM

20:59

Data Mining | Анализ данных🚀

Друзья, добрый вечер! Мы возобновляем публикации на канале. Постараемся радовать вас интересными статьями, материалами.

Мы также включили сообщения на канале. Теперь вы можете нам писать. Можете делиться с нами интересными находками, мы их, возможно, опубликуем, чтобы больше людей смогли получить пользу.

❤‍🔥12

398 views21:02