Свежий инструмент от HuggingFace - AI Sheets позволяет работать с табличными данными с помощью ИИ. Поддерживает базовые операции вроде перевода содержания колонок, суммаризация и извлечение ключевых слов, и не базовые через prompt запросы. Потенциально - альтернатива Excel/Airtable/OpenRefine для задач чистки и обогащения данных.
Минус - всё в облаке, для тех у кого чувствительные данные
Плюс - всё в облаке, для тех у кого и так данные в Hugging Face
#datanalytics #dataengineering #ai
Минус - всё в облаке, для тех у кого чувствительные данные
Плюс - всё в облаке, для тех у кого и так данные в Hugging Face
#datanalytics #dataengineering #ai
🔥12⚡4
Подробная статья о состоянии поиска Google с точки зрения долгосрочных инвестиций [1]. Всё, казалось бы, очевидно что ИИ имеет очень сильный потенциал трансформировать Google Search и то проблема в изначальной рекламной модели Google как основе монетизации. Про это говорят много и всё активнее, на фоне разговоров что потенциально некоторые вендоры мобильных устройств могут перейти на другие поисковые системы вроде того же Perplexity. Но тут автор излагает всё довольно подробно и не даёт прогноза что у Google поисковый бизнес поломается, но говорит что сильно поменяется.
В том числе сравнивая ИИ поиск с кнопкой "I'm feeling lucky" когда пользователь получал результат сразу, без просмотра рекламных ссылок и то что Google терял около $100 миллионов в год в 2010 году из-за этой кнопки.
Почитать полезно чтобы задуматься о будущей трансформации Google и потенциальных изменениях бизнес модели поиска.
Можно с этой же точки зрения посмотреть на Яндекс, но у Яндекса, по сравнению с Google есть то потенциальное преимущество что постепенно из поискового индекса Google российские сайты выпадают и происходит это по разным причинам, но, в основном, из-за ограничений доступа из не-российских подсетей. Это ограничение бывает мягким в виде запретов в robots.txt, более жестким через ограничения на CDN и очень жёсткими через блокировки всех подсетей не относящихся к российской юрисдикции. В случае Google замерить это сложно, но в случае того же Интернет-архива я это наблюдаю уже несколько лет.
Что, впрочем, поможет лишь отчасти если ряд мобильных вендоров (Samsung, Huawei) отдадут приоритет AI поиску в своих устройствах.
Ссылки:
[1] https://www.speedwellmemos.com/p/google-shut-the-door-on-competition?
#thoughts #search #google #ai
В том числе сравнивая ИИ поиск с кнопкой "I'm feeling lucky" когда пользователь получал результат сразу, без просмотра рекламных ссылок и то что Google терял около $100 миллионов в год в 2010 году из-за этой кнопки.
Почитать полезно чтобы задуматься о будущей трансформации Google и потенциальных изменениях бизнес модели поиска.
Можно с этой же точки зрения посмотреть на Яндекс, но у Яндекса, по сравнению с Google есть то потенциальное преимущество что постепенно из поискового индекса Google российские сайты выпадают и происходит это по разным причинам, но, в основном, из-за ограничений доступа из не-российских подсетей. Это ограничение бывает мягким в виде запретов в robots.txt, более жестким через ограничения на CDN и очень жёсткими через блокировки всех подсетей не относящихся к российской юрисдикции. В случае Google замерить это сложно, но в случае того же Интернет-архива я это наблюдаю уже несколько лет.
Что, впрочем, поможет лишь отчасти если ряд мобильных вендоров (Samsung, Huawei) отдадут приоритет AI поиску в своих устройствах.
Ссылки:
[1] https://www.speedwellmemos.com/p/google-shut-the-door-on-competition?
#thoughts #search #google #ai
Speedwellmemos
Google Shut the Door on Competition, AI Swung it Back Open
Assessing Risks to Google's Business Model and How AI Imapcts the Competitive Landscape
❤5✍1
242 миллиарда токенов, 384 миллиона страниц, 983 тысячи книг на 254 языках в новом наборе данных для машинного обучения Institutional Books 1.0 [1] опубликованном Библиотекой Гарварда на HuggingFace.
Датасет находится в раннем доступе и требует согласится на его использование только в некоммерческих целях.
К нему, также, доступен технический отчет с подробностями [2]. Большая часть книг в этом наборе данных относятся к 19 и 20 векам, 43% всех токенов относятся к английскому языку, также много относящихся к немецкому 17.3%, французскому 14%, итальянскому 4%, латыни 3.19%, испанскому 2.24%, русскому 2.05%.
Ссылки:
[1] https://huggingface.co/datasets/institutional/institutional-books-1.0
[2] https://arxiv.org/abs/2506.08300
#opendata #datasets #data #ai
Датасет находится в раннем доступе и требует согласится на его использование только в некоммерческих целях.
К нему, также, доступен технический отчет с подробностями [2]. Большая часть книг в этом наборе данных относятся к 19 и 20 векам, 43% всех токенов относятся к английскому языку, также много относящихся к немецкому 17.3%, французскому 14%, итальянскому 4%, латыни 3.19%, испанскому 2.24%, русскому 2.05%.
Ссылки:
[1] https://huggingface.co/datasets/institutional/institutional-books-1.0
[2] https://arxiv.org/abs/2506.08300
#opendata #datasets #data #ai
🔥15
Когда появится AGI (Общий искусственный интеллект)? Коллекция предсказаний от тех кто создаёт ИИ моделей и ряда экспертов [1]
Хорошая новость - есть шанс что при нашей жизни
Плохая новость - определённо есть шанс что при нашей жизни
У меня вот тоже есть очень мрачные прогнозы:
- многие страны поменяют ядерные доктрины,
- всё что касается датацентров для AGI начнут секретить
- вероятность терактов в отношении датацентров, ведущих ИИ компаний и их сотрудников резко вырастет.
Вообще судя по тому что происходит сейчас в мире, появление AGI мира не принесёт, а вот войны могут выйти на другой уровень
Ссылки:
[1] https://sherwood.news/tech/gi-artificial-general-intelligence-when-predictions/
#preditions #ai
Хорошая новость - есть шанс что при нашей жизни
Плохая новость - определённо есть шанс что при нашей жизни
У меня вот тоже есть очень мрачные прогнозы:
- многие страны поменяют ядерные доктрины,
- всё что касается датацентров для AGI начнут секретить
- вероятность терактов в отношении датацентров, ведущих ИИ компаний и их сотрудников резко вырастет.
Вообще судя по тому что происходит сейчас в мире, появление AGI мира не принесёт, а вот войны могут выйти на другой уровень
Ссылки:
[1] https://sherwood.news/tech/gi-artificial-general-intelligence-when-predictions/
#preditions #ai
🕊9👍5⚡4
Совсем свежее The OpenAI Files [1] сайт посвящённый практикам ведения бизнеса в OpenAI собранный группой расследователей The Midas Project и The Tech Oversight Project.
Ценность его в сжатости изложения проблем и наборе конкретных рекомендаций [2] о том что с этим всем делать.
Не стоит полагать что OpenAI единственная компания с такими практиками, но они стремительно выросли, обладают всё большим влиянием и очень высокой непрозрачностью.
Чтение полезное для всех кто интересуется AI и этикой.
Ссылки:
[1] https://www.openaifiles.org/
[2] https://www.openaifiles.org/vision-for-change
#readings #ai #openai #ethics
Ценность его в сжатости изложения проблем и наборе конкретных рекомендаций [2] о том что с этим всем делать.
Не стоит полагать что OpenAI единственная компания с такими практиками, но они стремительно выросли, обладают всё большим влиянием и очень высокой непрозрачностью.
Чтение полезное для всех кто интересуется AI и этикой.
Ссылки:
[1] https://www.openaifiles.org/
[2] https://www.openaifiles.org/vision-for-change
#readings #ai #openai #ethics
❤🔥3❤2
Полезное чтение про данные, технологии и не только:
- I feel open source has turned into two worlds [1] автор пишет про то как классический open source мир столкнулся с корпоративным и это ещё один водораздел между теми кто исповедует открытость как ценность и теми кто зарабатывает на этом деньги.
- Can A.I. Quicken the Pace of Math Discovery? [2] могут ли ИИ помощники усилить и ускорить научные открытия в высшей математике ? Тема очень и очень непростая, но в США DARPA запускают инициативу в которой хотят это попробовать.
- The Brute Squad [3] автор поёт оды вайб-кодингу, насколько оправданные - вот в чём вопрос. Но прочитать стоит
Ссылки:
[1] https://utcc.utoronto.ca/~cks/space/blog/tech/OpenSourceTwoWorlds
[2] https://www.nytimes.com/2025/06/19/science/math-ai-darpa.html
[3] https://sourcegraph.com/blog/the-brute-squad
#readings #ai #opensource
- I feel open source has turned into two worlds [1] автор пишет про то как классический open source мир столкнулся с корпоративным и это ещё один водораздел между теми кто исповедует открытость как ценность и теми кто зарабатывает на этом деньги.
- Can A.I. Quicken the Pace of Math Discovery? [2] могут ли ИИ помощники усилить и ускорить научные открытия в высшей математике ? Тема очень и очень непростая, но в США DARPA запускают инициативу в которой хотят это попробовать.
- The Brute Squad [3] автор поёт оды вайб-кодингу, насколько оправданные - вот в чём вопрос. Но прочитать стоит
Ссылки:
[1] https://utcc.utoronto.ca/~cks/space/blog/tech/OpenSourceTwoWorlds
[2] https://www.nytimes.com/2025/06/19/science/math-ai-darpa.html
[3] https://sourcegraph.com/blog/the-brute-squad
#readings #ai #opensource
NY Times
Can A.I. Quicken the Pace of Math Discovery?
Breakthroughs in pure mathematics can take decades. A new Defense Department initiative aims to speed things up using artificial intelligence.
👍9✍4
Многие ждут когда в США появится официальный сайт AI.gov пока он редиректит на сайт Белого Дома, но он много где уже проанонсирован и там ожидаются наиболее полные материалы по госполитике в отношении ИИ в США.
Я вот, тем временем, наблюдаю как регуляторы думают про применение ИИ в целом и в госсекторе, вопрос к тому как нормативка будет развиваться очень много поскольку регулирование ИИ будет касаться и цензурирования, и цены ошибки, и применения в критических отраслях, и передача данных между юрисдикциями и ещё много чего.
Но некоторые изменения мне представляются уже очень очевидными:
1. Практически неизбежно, вопрос лишь когда, будет аттестация и аккредитация ИИ. Позитивное регулирование может исходить из создания "реестров доверенных моделей и сервисов", негативное регулирование в блокировках и запрете использования определённых моделей и сервисов или запрете вообще всех кроме ограниченного числа.
2. Применительно к ИИ в госсекторе неизбежна централизация и G2G внутригосударственные облачные сервисы. Рано или поздно возникнут запреты на использование облачных частных продуктов и будут разворачиваться ИИ модели и сервисы на уровне регионов или отраслевых министерств или на уровне центрального правительства как G2G услуги. Причин несколько, но главная - ограничения на передачу персональных данных и гарантия что используемые данные не будут использоваться для обогащения большой облачной модели. Я знаю страны и регионы некоторых стран где такое уже практикуют.
3. Реорганизация экзаменов, постепенно во всем мире. Их проведение в местах с гарантированным отсутствием интернетаи электричества. Почему? Только сдавать мобильные устройства недостаточно, будут пользоваться умными очками или иными скрытыми устройствами. Договорится со всеми крупнейшими облачными сервисами ИИ о том чтобы они не работали на время экзаменов тоже будет сложно, блокировка на страновом уровне тоже будет иметь ограниченный эффект. Только полное отсутствие интернета и изъятие устройств достаточно мощных чтобы в них работать SLM (малые языковые модели).
4. Реорганизация и кризис медицинских услуг особенно в странах где медицина стоит очень дорого. Стремительное применение ИИ для диагностики (уже происходит) и отдельное регулирование этой сферы (тоже уже происходит). Специалисты в этой области могут рассказать больше, но в целом применение ИИ в медицине - это та область которой игроки созданию ИИ оправдывают их создание и инвестиции более чем во всём остальном.
5. Страновые соглашения крупных игроков в области ИИ с национальными правительствами малых стран. У многих небольших развивающихся стран и стран с малыми доходами не будет достаточного числа ресурсов чтобы развернуть свои ИИ модели для внутригосударственных нужд, особенно с учётом того что их языки могут иметь очень немного носителей и очень мало текстов. В какой-то момент крупные игроки начнут заключать страновые соглашения по предоставлению своих продуктов с доработкой под эти языки (кстати ИИ от Яндекса пока понимает армянский язык лучше чем у всех международных игроков, просто для иллюстрации).
#ai #regulation #thoughts
Я вот, тем временем, наблюдаю как регуляторы думают про применение ИИ в целом и в госсекторе, вопрос к тому как нормативка будет развиваться очень много поскольку регулирование ИИ будет касаться и цензурирования, и цены ошибки, и применения в критических отраслях, и передача данных между юрисдикциями и ещё много чего.
Но некоторые изменения мне представляются уже очень очевидными:
1. Практически неизбежно, вопрос лишь когда, будет аттестация и аккредитация ИИ. Позитивное регулирование может исходить из создания "реестров доверенных моделей и сервисов", негативное регулирование в блокировках и запрете использования определённых моделей и сервисов или запрете вообще всех кроме ограниченного числа.
2. Применительно к ИИ в госсекторе неизбежна централизация и G2G внутригосударственные облачные сервисы. Рано или поздно возникнут запреты на использование облачных частных продуктов и будут разворачиваться ИИ модели и сервисы на уровне регионов или отраслевых министерств или на уровне центрального правительства как G2G услуги. Причин несколько, но главная - ограничения на передачу персональных данных и гарантия что используемые данные не будут использоваться для обогащения большой облачной модели. Я знаю страны и регионы некоторых стран где такое уже практикуют.
3. Реорганизация экзаменов, постепенно во всем мире. Их проведение в местах с гарантированным отсутствием интернета
4. Реорганизация и кризис медицинских услуг особенно в странах где медицина стоит очень дорого. Стремительное применение ИИ для диагностики (уже происходит) и отдельное регулирование этой сферы (тоже уже происходит). Специалисты в этой области могут рассказать больше, но в целом применение ИИ в медицине - это та область которой игроки созданию ИИ оправдывают их создание и инвестиции более чем во всём остальном.
5. Страновые соглашения крупных игроков в области ИИ с национальными правительствами малых стран. У многих небольших развивающихся стран и стран с малыми доходами не будет достаточного числа ресурсов чтобы развернуть свои ИИ модели для внутригосударственных нужд, особенно с учётом того что их языки могут иметь очень немного носителей и очень мало текстов. В какой-то момент крупные игроки начнут заключать страновые соглашения по предоставлению своих продуктов с доработкой под эти языки (кстати ИИ от Яндекса пока понимает армянский язык лучше чем у всех международных игроков, просто для иллюстрации).
#ai #regulation #thoughts
👍11✍7⚡2❤2
Свежее исследование How do people feel about AI? [1] о восприятии ИИ в Великобритании от Института Алана Тюринга и Института Ады Лавлейс. Последний раз оно проводилось в 2023 году, поэтому в исследовании 2025 года много сравнений и отражение изменений с 2023 года.
Вот ключевые факты:
- 72% британцев считают что регулирование сделает для них использование ИИ более комфортным. Два года назад так говорили лишь 62%
- большие языковые модели стали мейнстримом и о их использовании говорят уже 61% респондентов
- уровень доверия ИИ стабилен, а уровень тревожности в отношении ИИ вырос с 44% в 2023 году, до 59% в 2025 году
- 75% жителей считают важным появление регулятора ИИ
- есть большой разброс того что люди знают об ИИ. Почти все знают об автомобилях без водителей и немногие знают о ИИ для распределения социальных пособий.
- пользователи по разному относятся к применению LLM к разным задачам. Менее всего они склонны их использовать в задачах имеющих юридические последствия, более всего для поиска
- самым позитивным применением считаются технологии распознавания лиц (!)
- самым негативным - автомобили без водителей
Там ещё много всего, исследование весьма подробное и его стоит почитать всем кто изучает влияние ИИ на общество.
Важно не забывать что оно проводилось в Великобритании и в разных странах опасения могут быть и будут разными.
Ссылки:
[1] https://attitudestoai.uk/
#readings #ai #uk
Вот ключевые факты:
- 72% британцев считают что регулирование сделает для них использование ИИ более комфортным. Два года назад так говорили лишь 62%
- большие языковые модели стали мейнстримом и о их использовании говорят уже 61% респондентов
- уровень доверия ИИ стабилен, а уровень тревожности в отношении ИИ вырос с 44% в 2023 году, до 59% в 2025 году
- 75% жителей считают важным появление регулятора ИИ
- есть большой разброс того что люди знают об ИИ. Почти все знают об автомобилях без водителей и немногие знают о ИИ для распределения социальных пособий.
- пользователи по разному относятся к применению LLM к разным задачам. Менее всего они склонны их использовать в задачах имеющих юридические последствия, более всего для поиска
- самым позитивным применением считаются технологии распознавания лиц (!)
- самым негативным - автомобили без водителей
Там ещё много всего, исследование весьма подробное и его стоит почитать всем кто изучает влияние ИИ на общество.
Важно не забывать что оно проводилось в Великобритании и в разных странах опасения могут быть и будут разными.
Ссылки:
[1] https://attitudestoai.uk/
#readings #ai #uk
❤6🤔4👍2
Свежий доклад по регулированию и использованию ИИ экспертов ООН в рамках рабочей группы по правам человека. Если вкратце то выводы и рекомендации о том что права человека должны быть основным ориентиром для разработчиков и заказчик продуктов на базе ИИ и учитываться при их создании и закупке.
Документ там небольшой, 26 страниц, вот тут прямая ссылка на версию на русском языке [2], но читать документы ООН всегда очень тяжело. Их не пишут простым языком, они всегда забюрократизированы, но читать их важно, в том числе учитывать при разработке новых ИИ продуктов.
Ссылки:
[1] https://www.ohchr.org/en/documents/thematic-reports/ahrc5953-artificial-intelligence-procurement-and-deployment-ensuring
[2] https://docs.un.org/ru/A/HRC/59/53
#readings #ai #UN
Документ там небольшой, 26 страниц, вот тут прямая ссылка на версию на русском языке [2], но читать документы ООН всегда очень тяжело. Их не пишут простым языком, они всегда забюрократизированы, но читать их важно, в том числе учитывать при разработке новых ИИ продуктов.
Ссылки:
[1] https://www.ohchr.org/en/documents/thematic-reports/ahrc5953-artificial-intelligence-procurement-and-deployment-ensuring
[2] https://docs.un.org/ru/A/HRC/59/53
#readings #ai #UN
👍3⚡2🙏2🤣2
Галлюцинации у LLM - это, всё таки, повсеместная проблема и ИИ сервисы глобальных игроков получше с этим справляются чем российские, даже в вопросах на которых российские LLM должны быть значительно эффективнее.
Вот пример, запроса Собери информацию по всем ФОИВам в России. Верни результат в виде CSV файла с колонками "id", "name", "website", "description" к Гигачату от Сбербанка в режиме "Провести исследование".
Откровенных ошибок в названиях и в ссылках на сайты очень много. Настолько что можно вручную собирать и это будет точнее.
Для сравнения, не буду называть конкретные китайские, европейские и американские LLM, выдают очень точный результат.
Запрос этот из реальной жизни, на него регулярно важно знать ответ при архивации официальных сайтов.
#ai
Вот пример, запроса Собери информацию по всем ФОИВам в России. Верни результат в виде CSV файла с колонками "id", "name", "website", "description" к Гигачату от Сбербанка в режиме "Провести исследование".
Откровенных ошибок в названиях и в ссылках на сайты очень много. Настолько что можно вручную собирать и это будет точнее.
Для сравнения, не буду называть конкретные китайские, европейские и американские LLM, выдают очень точный результат.
Запрос этот из реальной жизни, на него регулярно важно знать ответ при архивации официальных сайтов.
#ai
✍10❤6