В MIT Technology Preview статья This is where the data to build AI comes from [1] о том откуда разработчики ИИ берут данные. В основе статьи доклад от группы The Data Provenance Initiative занимающейся анализом источников данных для ИИ, исследованием происхождения и юридического статуса наборов данных.
Работа эта, в целом, неблагодарная, но необходимая и в этом докладе и в статье много важных инсайтов которые можно начать с того что 90% всех данных на которых учат ИИ происходят из США и Европы. Факт которые кажется и так очевидным, но тут имеющий фактическое подтверждение.
Другой факт который я бы выделил. в том что прямой вклад государства в наборы данных для ИИ менее 10%. Среди создателей датасетов в виде текстовых ресурсов это только 9.3%, для аудио около 6% и для видео не более 1%.
Большая часть качественных датасетов создаются исследовательскими центрами и группами, а также лабораториями от индустрии разработчиков ИИ.
Важно также что резко растёт использование синтетических данных, данных соцмедиа и текстов веб сайтов, это существенное изменение по сравнению с тем как ранее собирались академические наборы данных в компьютерной лингвистике.
И, наконец, немаловажно что многие источники датасетов имеют гораздо большие ограничения на использование чем декларируемые лицензии. Простой пример, кто-то собрал датасет с видео из ТикТока и выложил его под лицензией CC-BY, но лицензия ТикТока не CC-BY, она довольно запретительна и разработчики ИИ имеют юридические риски в таких случаях, а их очень много.
Ссылки:
[1] https://www.technologyreview.com/2024/12/18/1108796/this-is-where-the-data-to-build-ai-comes-from/
[2] https://www.dataprovenance.org/Multimodal_Data_Provenance.pdf
#opendata #ai #datasets #linguistics
Работа эта, в целом, неблагодарная, но необходимая и в этом докладе и в статье много важных инсайтов которые можно начать с того что 90% всех данных на которых учат ИИ происходят из США и Европы. Факт которые кажется и так очевидным, но тут имеющий фактическое подтверждение.
Другой факт который я бы выделил. в том что прямой вклад государства в наборы данных для ИИ менее 10%. Среди создателей датасетов в виде текстовых ресурсов это только 9.3%, для аудио около 6% и для видео не более 1%.
Большая часть качественных датасетов создаются исследовательскими центрами и группами, а также лабораториями от индустрии разработчиков ИИ.
Важно также что резко растёт использование синтетических данных, данных соцмедиа и текстов веб сайтов, это существенное изменение по сравнению с тем как ранее собирались академические наборы данных в компьютерной лингвистике.
И, наконец, немаловажно что многие источники датасетов имеют гораздо большие ограничения на использование чем декларируемые лицензии. Простой пример, кто-то собрал датасет с видео из ТикТока и выложил его под лицензией CC-BY, но лицензия ТикТока не CC-BY, она довольно запретительна и разработчики ИИ имеют юридические риски в таких случаях, а их очень много.
Ссылки:
[1] https://www.technologyreview.com/2024/12/18/1108796/this-is-where-the-data-to-build-ai-comes-from/
[2] https://www.dataprovenance.org/Multimodal_Data_Provenance.pdf
#opendata #ai #datasets #linguistics
Вал сообщений о багах сгенерированных AI
Статья Open source maintainers are drowning in junk bug reports written by AI [1] о том как разработчиков Python и Curl заваливают низкокачественными сообщениями о багах найденных AI ботами. Ситуация неприятная потому что может сильно демотивировать профессионалов контрибьюторов в открытый код.
Лично я с этим пока не столкнулся, но подозреваю что такой день ещё настанет.
И это далеко не единственное потенциально вредное применение ИИ.
Я подозреваю что очень скоро ИИ начнут использовать и для симуляции портфолио на Github'е и ещё много чего другого.
Бойтесь LLM проникающего в процесс разработки. Это не только low-code инструменты, но и немало трэша который к нам приходит.
Ссылки:
[1] https://www.theregister.com/2024/12/10/ai_slop_bug_reports/
#opensource #ai
Статья Open source maintainers are drowning in junk bug reports written by AI [1] о том как разработчиков Python и Curl заваливают низкокачественными сообщениями о багах найденных AI ботами. Ситуация неприятная потому что может сильно демотивировать профессионалов контрибьюторов в открытый код.
Лично я с этим пока не столкнулся, но подозреваю что такой день ещё настанет.
И это далеко не единственное потенциально вредное применение ИИ.
Я подозреваю что очень скоро ИИ начнут использовать и для симуляции портфолио на Github'е и ещё много чего другого.
Бойтесь LLM проникающего в процесс разработки. Это не только low-code инструменты, но и немало трэша который к нам приходит.
Ссылки:
[1] https://www.theregister.com/2024/12/10/ai_slop_bug_reports/
#opensource #ai
The Register
Open source maintainers are drowning in junk bug reports written by AI
Python security developer-in-residence decries use of bots that 'cannot understand code'
Hugging Face выпустили коллекцию графиков 🤗 Open-source AI: year in review 2024 [1].
Где много всяких визуализаций того как в области AI работают с данными, моделями и не только, а ещё там есть график The Circle of Sharing: How Open Datasets Power AI Innovation [2] где можно увидеть как повторно компаниями используются датасеты выложенные другими компаниями.
Другие графики не менее любопытные.
Ссылки:
[1] https://huggingface.co/spaces/huggingface/open-source-ai-year-in-review-2024
[2] https://huggingface.co/spaces/huggingface/open-source-ai-year-in-review-2024
#opendata #ai #dataviz #data
Где много всяких визуализаций того как в области AI работают с данными, моделями и не только, а ещё там есть график The Circle of Sharing: How Open Datasets Power AI Innovation [2] где можно увидеть как повторно компаниями используются датасеты выложенные другими компаниями.
Другие графики не менее любопытные.
Ссылки:
[1] https://huggingface.co/spaces/huggingface/open-source-ai-year-in-review-2024
[2] https://huggingface.co/spaces/huggingface/open-source-ai-year-in-review-2024
#opendata #ai #dataviz #data
В рубрике интересных проектов по работе с данными LOTUS: A semantic query engine for fast and easy LLM-powered data processing [1] движок для обработки данных с помощью LLM поверх Pandas. Принимает на вход человеческим языком описанные конструкции, переводит их в программные операции над датафреймом.
Является демонстрацией работы из научной работы Semantic Operators: A Declarative Model for Rich, AI-based Analytics Over Text Data [2].
Выглядит весьма интересно как задумка и как реализация, вполне можно рассматривать как внутренний движок поверх которого можно сделать обёртку, как для манипуляции данными в командной строке, так и хоть с подключением голосового ассистента.
Если ещё и Pandas заменить на Polars или иную drop-in альтернативу, то ещё и обработка данных приобретёт хорошую скорость и производительность.
Я лично вижу одним из трендов ближайшего года появление всё большего числа инструментов для обработки данных с LLM внутри.
Ссылки:
[1] https://github.com/guestrin-lab/lotus
[2] https://arxiv.org/abs/2407.11418
#opensource #datatools #dataengineering #data #ai #llm
Является демонстрацией работы из научной работы Semantic Operators: A Declarative Model for Rich, AI-based Analytics Over Text Data [2].
Выглядит весьма интересно как задумка и как реализация, вполне можно рассматривать как внутренний движок поверх которого можно сделать обёртку, как для манипуляции данными в командной строке, так и хоть с подключением голосового ассистента.
Если ещё и Pandas заменить на Polars или иную drop-in альтернативу, то ещё и обработка данных приобретёт хорошую скорость и производительность.
Я лично вижу одним из трендов ближайшего года появление всё большего числа инструментов для обработки данных с LLM внутри.
Ссылки:
[1] https://github.com/guestrin-lab/lotus
[2] https://arxiv.org/abs/2407.11418
#opensource #datatools #dataengineering #data #ai #llm
GitHub
GitHub - guestrin-lab/lotus: LOTUS: A semantic query engine for fast and easy LLM-powered data processing
LOTUS: A semantic query engine for fast and easy LLM-powered data processing - guestrin-lab/lotus
Подборка полезных ссылок инструментов с открытым кодом:
- pyper [1] библиотека для Python для параллельной обработки данных, упрощает работу с потоками, делает её значительно проще.
- Gemini-search [2] альтернатива для Perplexity на базе LLM модели Gemini от Google. Плюс: хостится локально. Минус: за обращения к API Гугла надо платить. Мне не удалось её заставить работать, но демо выглядит интересно, надеюсь скоро будет работоспособнее
- Automatisch [3] open source аналог Zapier, используется для интеграции и автоматизации разных онлайн сервисов типа Twitter, Spotify, Google Docs и др. Сервисов таких много, но тут открытый код.
- crawl4ai [4] веб краулер с построением конвееров для обработки страниц для LLM и не только. Мне вот есть куда прикрутить краулер, может быть даже именно этот. А вообще удивительно насколько стремительно становятся популярными именно AI-powered инструменты. К примеру, похожий краулер Browsertrix для веб архивации имеет всего 223 лайка. А у crawl4ai сразу 25 тысяч лайков. Разница, реально, на 2 порядка и интенсивность разработки аналогично.
- PDFMathTranslate [5] open source инструмент перевода научных статей на другие языки, с сохранением всех формул, изображений и тд. Поддерживает все актуальные разговорные языки используемые в науке: английский, китайский, французский, немецкий, русский, испанский и тд. Существует в виде онлайн сервиса с ограничением в менее чем 5MB [6] или можно скачать и развернуть у себя
Ссылки:
[1] https://github.com/pyper-dev/pyper
[2] https://github.com/ammaarreshi/Gemini-Search
[3] https://github.com/automatisch/automatisch
[4] https://github.com/unclecode/crawl4ai
[5] https://github.com/Byaidu/PDFMathTranslate
[6] https://pdf2zh.com/
#opensource #datatools #ai #crawlers #search
- pyper [1] библиотека для Python для параллельной обработки данных, упрощает работу с потоками, делает её значительно проще.
- Gemini-search [2] альтернатива для Perplexity на базе LLM модели Gemini от Google. Плюс: хостится локально. Минус: за обращения к API Гугла надо платить. Мне не удалось её заставить работать, но демо выглядит интересно, надеюсь скоро будет работоспособнее
- Automatisch [3] open source аналог Zapier, используется для интеграции и автоматизации разных онлайн сервисов типа Twitter, Spotify, Google Docs и др. Сервисов таких много, но тут открытый код.
- crawl4ai [4] веб краулер с построением конвееров для обработки страниц для LLM и не только. Мне вот есть куда прикрутить краулер, может быть даже именно этот. А вообще удивительно насколько стремительно становятся популярными именно AI-powered инструменты. К примеру, похожий краулер Browsertrix для веб архивации имеет всего 223 лайка. А у crawl4ai сразу 25 тысяч лайков. Разница, реально, на 2 порядка и интенсивность разработки аналогично.
- PDFMathTranslate [5] open source инструмент перевода научных статей на другие языки, с сохранением всех формул, изображений и тд. Поддерживает все актуальные разговорные языки используемые в науке: английский, китайский, французский, немецкий, русский, испанский и тд. Существует в виде онлайн сервиса с ограничением в менее чем 5MB [6] или можно скачать и развернуть у себя
Ссылки:
[1] https://github.com/pyper-dev/pyper
[2] https://github.com/ammaarreshi/Gemini-Search
[3] https://github.com/automatisch/automatisch
[4] https://github.com/unclecode/crawl4ai
[5] https://github.com/Byaidu/PDFMathTranslate
[6] https://pdf2zh.com/
#opensource #datatools #ai #crawlers #search
Полезное чтение про данные, технологии и не только:
- Digitalizing sewage: The politics of producing, sharing, and operationalizing data from wastewater-based surveillance [1] оцифровка канализации и переходу к слежке через анализ сточных вод. Скрыто за пейволом, но тема важная, и активно развивающаяся. Годится для тем рассказов социальной фантастики про то как полиция выявляет убийц расчленителей и наркоманов, а медики больных по анализу сточных вод в реальном времени. Статья за пэйволом
- AI Is Bad News for the Global South [2] статья о том что ИИ для развивающихся стран не несёт ничего хорошего. Потому что английский язык, потому что gig-экономика включает многих из развивающихся стран, а теперь будет ИИ контент.
- The Access to Public Information: A Fundamental Right [3] книга Alejandra Soriano Diaz, о том что доступ к информации - это фундаментальное право и от него зависят другие права. Увы, книга не в открытом доступе,
- Kickstarting Collaborative, AI-Ready Datasets in the Life Sciences with Government-funded Projects [4] статья о том что государство должно активно софинансировать создание данных/датасетов в медицине и других life sciences. Там же ссылка на Open Dataset Initiative [5] создание открытых научных датасетов по запросу сообществ.
Ссылки:
[1] https://journals.sagepub.com/doi/abs/10.1177/23996544241313454
[2] https://foreignpolicy.com/2024/12/17/ai-global-south-inequality/
[3] https://www.cambridgescholars.com/product/978-1-0364-1521-1
[4] https://fas.org/publication/collaborative-datasets-life-sciences/
[5] https://alignbio.org/datasets-in-detail
#opendata #data #foi #readings #ai
- Digitalizing sewage: The politics of producing, sharing, and operationalizing data from wastewater-based surveillance [1] оцифровка канализации и переходу к слежке через анализ сточных вод. Скрыто за пейволом, но тема важная, и активно развивающаяся. Годится для тем рассказов социальной фантастики про то как полиция выявляет убийц расчленителей и наркоманов, а медики больных по анализу сточных вод в реальном времени. Статья за пэйволом
- AI Is Bad News for the Global South [2] статья о том что ИИ для развивающихся стран не несёт ничего хорошего. Потому что английский язык, потому что gig-экономика включает многих из развивающихся стран, а теперь будет ИИ контент.
- The Access to Public Information: A Fundamental Right [3] книга Alejandra Soriano Diaz, о том что доступ к информации - это фундаментальное право и от него зависят другие права. Увы, книга не в открытом доступе,
- Kickstarting Collaborative, AI-Ready Datasets in the Life Sciences with Government-funded Projects [4] статья о том что государство должно активно софинансировать создание данных/датасетов в медицине и других life sciences. Там же ссылка на Open Dataset Initiative [5] создание открытых научных датасетов по запросу сообществ.
Ссылки:
[1] https://journals.sagepub.com/doi/abs/10.1177/23996544241313454
[2] https://foreignpolicy.com/2024/12/17/ai-global-south-inequality/
[3] https://www.cambridgescholars.com/product/978-1-0364-1521-1
[4] https://fas.org/publication/collaborative-datasets-life-sciences/
[5] https://alignbio.org/datasets-in-detail
#opendata #data #foi #readings #ai
Китайский стартап Deepseek [1] с его 3-й версией языковой модели показал что можно создать конкурентную языковую модель за $6 миллионов и ограниченными ресурсами, всего 10 тысяч процессоров Nvidia H100s [2]. Сейчас в США акции AI компаний упали, особенно Nvidia, а также приложение DeepSeek в топе скачиваний. Оно уже явно сбоит, невозможно зарегистрироваться через их сайт, ошибки одна за другой, но это явно из-за массового спроса.
Сама модель сделана небольшой командой AI исследователей, а Deepseek ранее был малоизвестным китайским стартапом.
Что важно так это то что их код открыт под свободной лицензией MIT и они опубликовали полный технический отчёт о том как они добились такого результата [3].
Если так дальше пойдет то совершенно то $500 миллиардов в проект Stargate США резко уменьшится в цене. Может быть даже очень резко, как и ожидаемые доходы AI лидеров.
Ссылки:
[1] https://www.deepseek.com
[2] https://www.axios.com/2025/01/27/deepseek-ai-model-china-openai-rival
[3] https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
#ai #ml #llm
Сама модель сделана небольшой командой AI исследователей, а Deepseek ранее был малоизвестным китайским стартапом.
Что важно так это то что их код открыт под свободной лицензией MIT и они опубликовали полный технический отчёт о том как они добились такого результата [3].
Если так дальше пойдет то совершенно то $500 миллиардов в проект Stargate США резко уменьшится в цене. Может быть даже очень резко, как и ожидаемые доходы AI лидеров.
Ссылки:
[1] https://www.deepseek.com
[2] https://www.axios.com/2025/01/27/deepseek-ai-model-china-openai-rival
[3] https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
#ai #ml #llm
Open R1 [1] полностью открытая реконструкция модели Deepseek-R1 которая несколько дней назад стала столь известной и популярной.
Думаю что недолго будет ждать когда появится сервис (спорю что уже появились) альтернативы DeepSeek в других юрисдикциях, не в Китае.
Что последствия для рынка не отменит, но уменьшит опасения утечки конфиденциальных данных
Ссылки:
[1] https://github.com/huggingface/open-r1
#opensource #llm #deepseek #ai
Думаю что недолго будет ждать когда появится сервис (спорю что уже появились) альтернативы DeepSeek в других юрисдикциях, не в Китае.
Что последствия для рынка не отменит, но уменьшит опасения утечки конфиденциальных данных
Ссылки:
[1] https://github.com/huggingface/open-r1
#opensource #llm #deepseek #ai
AI и политика
Dario Amodei, CEO стартапа Anthropic, создателей LLM моделей Claude, написал в блоге [1] призыв к ужесточению экспортного контроля США за чипами для обучения ИИ. Дословно это звучит как Export controls serve a vital purpose: keeping democratic nations at the forefront of AI development. У него под постом в твиттере развернулась большая полемика с теми кто против ограничений на развитие ИИ [2]. Большая часть комментариев звучит как при всём уважении к Вашей команде, но DeepSeek молодцы и развивать ИИ модели с открытым кодом важно.
Разработка ИИ стремительно политизируется вместе с демократизацией ИИ инструментов.
Ссылки:
[1] https://darioamodei.com/on-deepseek-and-export-controls
[2] https://x.com/DarioAmodei/status/1884636410839535967
#ai #opensource #deepseek #llm
Dario Amodei, CEO стартапа Anthropic, создателей LLM моделей Claude, написал в блоге [1] призыв к ужесточению экспортного контроля США за чипами для обучения ИИ. Дословно это звучит как Export controls serve a vital purpose: keeping democratic nations at the forefront of AI development. У него под постом в твиттере развернулась большая полемика с теми кто против ограничений на развитие ИИ [2]. Большая часть комментариев звучит как при всём уважении к Вашей команде, но DeepSeek молодцы и развивать ИИ модели с открытым кодом важно.
Разработка ИИ стремительно политизируется вместе с демократизацией ИИ инструментов.
Ссылки:
[1] https://darioamodei.com/on-deepseek-and-export-controls
[2] https://x.com/DarioAmodei/status/1884636410839535967
#ai #opensource #deepseek #llm
Darioamodei
Dario Amodei — On DeepSeek and Export Controls
ChatGPT теперь даёт возможность поиска и интерактива без авторизации [1] вот что конкуренция творит, а всего-то китайцы запустили Deepseek😜
Ссылки:
[1] https://chatgpt.com/?hints=search
#llm #ai #chatgpt
Ссылки:
[1] https://chatgpt.com/?hints=search
#llm #ai #chatgpt
Полезные ссылки про данные, технологии и не только:
- Perforator [1] профайлер приложений от Яндекса и с использованием eBPF [2]. Полезно для отладки многих сложных и простых нативных приложений и отдельно расписано как профилировать и оптимизировать серверные приложения на Python. Выглядит как очень добротный open source продукт
- GPT Researcher [3] автономный инструмент для исследований с аккуратной простановкой цитат, использует внешние и локальные источники. Интегрирован с OpenAI
- The Illustrated DeepSeek-R1 [4] подробно о DeepSeek в картинках, позволяет легче ухватить суть продукта
- DataLumos [5] проект Университета Мичигана по архивации государственных и социальных данных, построен на базе OpenICPSR [6], данных не очень много, но они адаптированы под исследовательские задачи
- Data Formulator: Create Rich Visualizations with AI [7] полноценный движок для визуализации данных с помощью ИИ. Выпущен исследователями из Microsoft вместе с научной работой, под лицензией MIT. Выглядит как proof-of-concept, не факт что его можно применять в практических задачах сразу и из коробки, но для экспериментов самое оно. И для идей и вдохновения
- Chat2DB [8] открытый код (community edition) и сервис по управлению базами данных с помощью ИИ. Всё самое вкусное вынесли в коммерческие версии, но посмотреть стоит в любом случае.
Ссылки:
[1] https://perforator.tech
[2] https://ebpf.io
[3] https://github.com/assafelovic/gpt-researcher
[4] https://newsletter.languagemodels.co/p/the-illustrated-deepseek-r1
[5] https://www.datalumos.org
[6] https://www.openicpsr.org/openicpsr/
[7] https://github.com/microsoft/data-formulator
[8] https://chat2db.ai
#opensource #datatools #opendata #ai
- Perforator [1] профайлер приложений от Яндекса и с использованием eBPF [2]. Полезно для отладки многих сложных и простых нативных приложений и отдельно расписано как профилировать и оптимизировать серверные приложения на Python. Выглядит как очень добротный open source продукт
- GPT Researcher [3] автономный инструмент для исследований с аккуратной простановкой цитат, использует внешние и локальные источники. Интегрирован с OpenAI
- The Illustrated DeepSeek-R1 [4] подробно о DeepSeek в картинках, позволяет легче ухватить суть продукта
- DataLumos [5] проект Университета Мичигана по архивации государственных и социальных данных, построен на базе OpenICPSR [6], данных не очень много, но они адаптированы под исследовательские задачи
- Data Formulator: Create Rich Visualizations with AI [7] полноценный движок для визуализации данных с помощью ИИ. Выпущен исследователями из Microsoft вместе с научной работой, под лицензией MIT. Выглядит как proof-of-concept, не факт что его можно применять в практических задачах сразу и из коробки, но для экспериментов самое оно. И для идей и вдохновения
- Chat2DB [8] открытый код (community edition) и сервис по управлению базами данных с помощью ИИ. Всё самое вкусное вынесли в коммерческие версии, но посмотреть стоит в любом случае.
Ссылки:
[1] https://perforator.tech
[2] https://ebpf.io
[3] https://github.com/assafelovic/gpt-researcher
[4] https://newsletter.languagemodels.co/p/the-illustrated-deepseek-r1
[5] https://www.datalumos.org
[6] https://www.openicpsr.org/openicpsr/
[7] https://github.com/microsoft/data-formulator
[8] https://chat2db.ai
#opensource #datatools #opendata #ai
ebpf.io
eBPF - Introduction, Tutorials & Community Resources
eBPF is a revolutionary technology that can run sandboxed programs in the Linux kernel without changing kernel source code or loading a kernel module.
Dataset investigation (расследование датасетов)
Если Вы ещё не слышали этот термин, то с высокой вероятностью услышите в этом году. Это расследования на данных о данных применительно к тому на чём обучались ИИ модели и к каким предубеждениям это привело. Я этот термин увидел в списке предсказаний будущего [1] от Mozilla Foundation и готов согласиться что это будет горячая тема в самые ближайшие годы.
Скоро можно будет писать что мол я небалбес кто-то скармливающий LLM провокационные вопросы, а полноценный dataset investigator (расследователь датасетов).😂
Не благодаритеf😎
Ссылки:
[1] https://foundation.mozilla.org/en/what-we-fund/programs/datasets-will-become-an-object-of-investigative-inquiry-for-journalists/
#ai #humour
Если Вы ещё не слышали этот термин, то с высокой вероятностью услышите в этом году. Это расследования на данных о данных применительно к тому на чём обучались ИИ модели и к каким предубеждениям это привело. Я этот термин увидел в списке предсказаний будущего [1] от Mozilla Foundation и готов согласиться что это будет горячая тема в самые ближайшие годы.
Скоро можно будет писать что мол я не
Не благодаритеf
Ссылки:
[1] https://foundation.mozilla.org/en/what-we-fund/programs/datasets-will-become-an-object-of-investigative-inquiry-for-journalists/
#ai #humour
Please open Telegram to view this post
VIEW IN TELEGRAM
Mozilla Foundation
Datasets will Become an Object of Investigative Inquiry for Journalists
Mozilla Fellowships and Awards span multiple cohorts, different disciplines, and far-ranging geographies. But they function as a collective — part of a larger movement to shift the internet and AI in a better direction.