FSCP
18.4K subscribers
30K photos
3.43K videos
858 files
77K links
another filter bubble канал изначально созданный несколькими друзьями чтобы делиться копипастой, иногда оценочным суждением

технологии, деньги, социум

редакция @id9QGq_bot
реклама @johneditor
в будущее возьмут не всех
выводы самостоятельно

мир меняется
Download Telegram
#ml #ds #ai

Сервис визуальных закладок Pinterest теперь умеет искать новые идеи через камеру смартфона.

Например, понравился вам «лук» человека на улице, а как текстово его описать вы не знаете? Вот тут новая функция и пригодится.

А еще для того, чтобы следить за человеком с помощью камеры и анализировать его профиль и личность. Но мы об этом никому не скажем, правда?

https://nplus1.ru/news/2017/02/09/pinterest
Алгоритмы во благо это, например, предсказание поломок у жестких дисков с помощью машинного обучения в блоге Datto Engineering [1]. Хороший технический текст, с пониманием возможностей и ограничений.

В нём же ссылка на ещё один важный, но очень специальный набор открытых данных. С 2013 года компания Backblaze публикует очень подробные данные по своим жестким дискам [2]. несколько гигабайт в сжатом виде - это данные собираемые по показателям SMART по каждому диску, бесценны для их производителей и эксплуатантов этих дисков.

Ссылки:
[1] https://datto.engineering/post/predicting-hard-drive-failure-with-machine-learning
[2] https://www.backblaze.com/b2/hard-drive-test-data.html#helpful-hints-and-caveats

#opendata #data #ml
_______
Source: https://t.iss.one/begtin/2473
🔺 Новые открытые LLM #ml_news

Вот так пролетает пара недель, а за это время столько всего нового вышло.

Persimmon 8B

Adept выпустили открытую языковую модель под фруктовым названием Persimmon с 8 миллиардами параметров. Контекст у модели 16k токенов, причем обучалась она сразу на такой длине, а не на более короткой с последующим расширением. Видела она 737B токенов (75% текст, 25% код). Выглядит необычно, будем смотреть.

Пост, GitHub.

Falcon 180B

TII из Арабских Эмиратов продолжают обучать и выкладывать свои модели. На этот раз обучили огромную модель на датасете REFINEDWEB. Показали этой модели аж 3.5T токенов. В моменте получилась самая лучшая открытая модель, которая бьет Llama 70B и ChatGPT-3.5 на MMLU.

Пост, HF, Демо

Code Llama 7B, 13B, 34B

Meta дообучила модели Llama 2 дополнительно на 500B токенов кода. Затем дополнительно сделали Code Llama – Python (+100B токенов) и Code Llama – Instruct. Получились лучшие на сегодняшний день PLP модели. 7B и 13B обучались с FIM (могут заполнять код в середине документа).

Пост, GitHub

Qwen-VL 7B (+ Chat version)

Китайские исследователи обучили мультимодальную сеть на основе своей же Qwen 7B, которая видела 2.2T токенов. За счет большого количества увиденных токенов (в основном это китайский и английский) модель бьет все аналогичные картиночно-текстовые модели. Для Chat версии собрали Colab.

GitHub, HF, Colab
_______
Источник | #doomgrad
@F_S_C_P
Генерируй картинки с ⛵️MIDJOURNEY в Telegram