Анализ данных (Data analysis)
46.6K subscribers
2.42K photos
279 videos
1 file
2.11K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
Знали ли вы, что у SQLite есть векторное расширение? 🧮

SQLite — самая используемая база данных в мире, работает практически на любом устройстве.
Теперь можно легко строить AI-приложения с помощью SQLite-vec и новой Embedding Gemma прямо на устройстве, без интернета.

На скрине — простой пример с Python + SQLite и Ollama. SQLite-vec совместим с WASM и запускается где угодно. Пример можно адаптировать почти под любой язык: Swift, Kotlin, Java, JavaScript…

🟢Script: https://github.com/philschmid/gemini-samples/blob/main/scripts/embeddinggemma-sqlite-ollama.py
🟢Sqlite-vec: https://alexgarcia.xyz/sqlite-vec/
🟢EmbeddingGemma: https://developers.googleblog.com/en/introducing-embeddinggemma/

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍158🔥5
🔥 Успех в IT = скорость + знания + окружение

Здесь ты найдёшь всё это — коротко, по делу и без воды.
Пока другие ищут, где “подглядеть решение”, ты уже используешь самые свежие инструменты!

AI: t.iss.one/ai_machinelearning_big_data
Python: t.iss.one/pythonl
Linux: t.iss.one/linuxacademiya
Собеседования DS: t.iss.one/machinelearning_interview
C++ t.iss.one/cpluspluc
Docker: t.iss.one/DevopsDocker
Хакинг: t.iss.one/linuxkalii
Devops: t.iss.one/DevOPSitsec
Data Science: t.iss.one/data_analysis_ml
Javascript: t.iss.one/javascriptv
C#: t.iss.one/csharp_1001_notes
Java: t.iss.one/java_library
Базы данных: t.iss.one/sqlhub
Python собеседования: t.iss.one/python_job_interview
Мобильная разработка: t.iss.one/mobdevelop
Golang: t.iss.one/Golang_google
React: t.iss.one/react_tg
Rust: t.iss.one/rust_code
ИИ: t.iss.one/vistehno
PHP: t.iss.one/phpshka
Android: t.iss.one/android_its
Frontend: t.iss.one/front
Big Data: t.iss.one/bigdatai
МАТЕМАТИКА: t.iss.one/data_math
Kubernets: t.iss.one/kubernetc
Разработка игр: https://t.iss.one/gamedev
Haskell: t.iss.one/haskell_tg
Физика: t.iss.one/fizmat

💼 Папка с вакансиями: t.iss.one/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.iss.one/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.iss.one/addlist/eEPya-HF6mkxMGIy
Папка ML: https://t.iss.one/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: https://t.iss.one/addlist/mzMMG3RPZhY2M2Iy

😆ИТ-Мемы: t.iss.one/memes_prog
🇬🇧Английский: t.iss.one/english_forprogrammers
🧠ИИ: t.iss.one/vistehno

🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: https://t.iss.one/addlist/BkskQciUW_FhNjEy

Подпишись, если хочешь быть в числе тех, кого зовут в топовые проекты!
7👍3🔥2
⚡️ Важные выводы из судебного дела, где Anthropic согласилась выплатить минимум $1,5 млрд авторам и издателям:

- Не всё обучение на книгах незаконно. Проблема только в использовании пиратских копий из LibGen и PiLiMi.
- Это будет самая крупная компенсация по авторскому праву в истории.
- Авторы получат примерно $3,000 за каждую книгу (около 500,000 произведений).
- Anthropic обязана в течение 30 дней после финального решения суда удалить все файлы LibGen и PiLiMi и их копии.
- Деньги будут делиться между авторами и издателями по заявкам.
- Суд уточнил: обучение на купленных и отсканированных книгах может считаться «fair use», но на пиратских книгах — нет.

⚖️ Решение задаёт новый прецедент для всей индустрии AI.

deadline.com/wp-content/uploads/2025/09/anthropic3_Redacted.pdf
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔104👍4🔥3
🧩 ArcMemo — память для LLM, которая учит модель сохранять и переиспользовать концепты при решении задач.

📈 Результат: +7.5% относительно базовой модели на бенчмарке ARC-AGI.

Проблема:
Обычно длинные цепочки рассуждений исчезают после каждого запроса, и модель «забывает» полезные паттерны.

💡 Решение — ArcMemo:
- Сохраняет абстрактные модули в виде концептов на естественном языке или в виде параметрических мини-функций.
- Концепты бывают двух типов:
- Открытые: описание ситуации + подсказка.
- Программные: псевдокод и функции с параметрами.
- После решения задача конспектируется в набор таких концептов.
- При новой задаче модель подбирает релевантные концепты и комбинирует их для решения.
- С обратной связью на тестах память обновляется и расширяется.

📌 Вывод: память в виде модульных концептов повышает переносимость и делает решения более стабильными.

🔗 Paper: arxiv.org/abs/2509.04439

#AI #LLM #ARCAGI #Reasoning #Memory
10🔥4👍2
📄 FinePDFs — крупнейший публично доступный корпус, собранный только из PDF-документов!

- Объём: около 3 трлн токенов из 475 миллионов документов на 1733 языках
- Данные извлечены из 105 снимков CommonCrawl (с 2013 по 2025 гг.) и дополнительно скачаны из интернета
- Общий размер: ~20 ТБ, проведена дедупликация и фильтрация
- Даже при минимальной фильтрации качество FinePDFs сравнимо с лучшими HTML-корпусами
- При смешивании с веб-данными достигается новое SoTA по ряду бенчмарков
- Полностью воспроизводим, лицензия ODC-By 1.0
- В ближайшее время появится код воспроизведения и эксперименты на GitHub

🔗 HF: https://huggingface.co/datasets/HuggingFaceFW/finepdfs

@data_analysis_ml
👍116🔥5