Друзья, это для вас. Пользуйтесь 😊
Forwarded from Ivan Bondarenko
Всем привет!
Я иногда занимаюсь построением RAG-пайплайнов и столкнулся с проблемой чанкинга. Часто чанкинг выполняется весьма примитивно: текст разбивается на группы токенов одинакового размера без учёта семантики. Люди же для повышения читабельности текстов делают свой "человеческий" чанкинг совершенно по-другому: на абзацы, то есть семантически однородные текстовые отрезки из одного или нескольких предложений ("сверхфразовые единства", как назвали бы это лингвисты).
Соответственно, я решил, что мне не помешает хороший, правильный чанкинг. Умный чанкинг. И я решил сделать его для себя. Основная идея умного чанкера - воспроизвести семантическое разбиение текста на чанки, характерное для людей, что повышает качество структуризации текстового корпуса и положительно влияет на работу RAG-системы.
Алгоритм умного чанкинга состоит из следующих шагов.
Шаг 1. Весь текст разбивается на отдельные предложения. Если язык текста - английский, то для разбиения на предложения используется функция sent_tokenize из библиотеки nltk, а если язык текста - русский, то для этой цели применяется функция sentenize из библиотеки razdel. Кроме того, дополнительным критерием завершения предложения может выступать наличие символа перехода на новую строку (опционально).
Шаг 2. Генерируется множество вариантов разбиения текста на два чанка:
вариант 1: первый чанк включает в себя первое предложение, а второй чанк - оставшиеся предложения со второго по последнее;
вариант 2: первый чанк включает в себя первое и второе предложение, а второй чанк - оставшиеся предложения с третьего по последнее;
вариант 3: первый чанк включает в себя первое, второе и третье предложения, а второй чанк - оставшиеся предложения с четвёртого по последнее;
и так далее…
Шаг 3. С помощью кросс-энкодера (например,
Шаг 4. Итоговым вариантом разбиения текста на два чанка считается такой вариант, для которого семантическое сходство между первым и вторым чанками минимально.
Для каждого из двух выделенных чанков описанная процедура повторяется рекуррентно до тех пор, пока чанки не получатся достаточно маленькими (меньше, чем наперёд заданная максимально допустимая длина чанка).
Получилось, кажется, неплохо. Экспертная оценка тестовых текстов показывает весьма "семантическое" разбиение на чанки по границам семантических переходов.
Делал для себя, но если вдруг кому-то ещё этот умный чанкер окажется полезным, то буду рад 😊
https://github.com/bond005/smart_chunker
Я иногда занимаюсь построением RAG-пайплайнов и столкнулся с проблемой чанкинга. Часто чанкинг выполняется весьма примитивно: текст разбивается на группы токенов одинакового размера без учёта семантики. Люди же для повышения читабельности текстов делают свой "человеческий" чанкинг совершенно по-другому: на абзацы, то есть семантически однородные текстовые отрезки из одного или нескольких предложений ("сверхфразовые единства", как назвали бы это лингвисты).
Соответственно, я решил, что мне не помешает хороший, правильный чанкинг. Умный чанкинг. И я решил сделать его для себя. Основная идея умного чанкера - воспроизвести семантическое разбиение текста на чанки, характерное для людей, что повышает качество структуризации текстового корпуса и положительно влияет на работу RAG-системы.
Алгоритм умного чанкинга состоит из следующих шагов.
Шаг 1. Весь текст разбивается на отдельные предложения. Если язык текста - английский, то для разбиения на предложения используется функция sent_tokenize из библиотеки nltk, а если язык текста - русский, то для этой цели применяется функция sentenize из библиотеки razdel. Кроме того, дополнительным критерием завершения предложения может выступать наличие символа перехода на новую строку (опционально).
Шаг 2. Генерируется множество вариантов разбиения текста на два чанка:
вариант 1: первый чанк включает в себя первое предложение, а второй чанк - оставшиеся предложения со второго по последнее;
вариант 2: первый чанк включает в себя первое и второе предложение, а второй чанк - оставшиеся предложения с третьего по последнее;
вариант 3: первый чанк включает в себя первое, второе и третье предложения, а второй чанк - оставшиеся предложения с четвёртого по последнее;
и так далее…
Шаг 3. С помощью кросс-энкодера (например,
BAAI/bge-reranker-v2-m3
или Alibaba-NLP/gte-multilingual-reranker-base
) для каждого из вариантов разбиения текста на пару чанков считается семантическое сходство между первым и вторым чанками.Шаг 4. Итоговым вариантом разбиения текста на два чанка считается такой вариант, для которого семантическое сходство между первым и вторым чанками минимально.
Для каждого из двух выделенных чанков описанная процедура повторяется рекуррентно до тех пор, пока чанки не получатся достаточно маленькими (меньше, чем наперёд заданная максимально допустимая длина чанка).
Получилось, кажется, неплохо. Экспертная оценка тестовых текстов показывает весьма "семантическое" разбиение на чанки по границам семантических переходов.
Делал для себя, но если вдруг кому-то ещё этот умный чанкер окажется полезным, то буду рад 😊
https://github.com/bond005/smart_chunker
GitHub
GitHub - bond005/smart_chunker: This is a smart chunker for efficient preparing of long document for RAG
This is a smart chunker for efficient preparing of long document for RAG - bond005/smart_chunker
🔥7👍4
Audio
Обсудили новости в мире искусственного интеллекта на радио "Серебряный дождь" https://vk.com/silverrainradionsk
В качестве приглашённого гостя наш директор по ИИ Иван Бондаренко.
Основные тезисы:
1. Классификация ИИ:
- Слабый и сильный искусственный интеллект.
- Суперинтеллект как следующий этап после общего ИИ.
2. Применение ИИ в робототехнике:
- Воплощенный ИИ (роботы, собаки).
- Примеры успешных проектов и исследований.
3. Проблемы и ошибки использования ИИ:
- Примеры некорректного применения ИИ (дизайн обложек книг).
- Юридические последствия использования ИИ в преступных целях.
4. Научные эксперименты с ИИ:
- Автоматизация рецензирования научных статей.
- Участие ИИ в международных конференциях.
5. Разработка российских ИИ-технологий:
- Новые версии языковых моделей от компаний Яндекс и Сбер.
- Перспективы выхода на мировой уровень.
6. Перспективы и вызовы:
- Возможности и ограничения российских разработок.
- Необходимость дальнейшего развития и совершенствования ИИ.
Ключевые слова:
Искусственный интеллект (ИИ),
Общий и сильный ИИ,
Суперинтеллект,
Робототехника,
Воплощенный ИИ,
Ошибки использования ИИ,
Рецензирование научных статей,
Российские ИИ-технологии,
Яндекс GPT 5 Pro,
Сбер GigaChat.
p.s. Помогали готовить пост системы ИИ Писец и Менон
В качестве приглашённого гостя наш директор по ИИ Иван Бондаренко.
Основные тезисы:
1. Классификация ИИ:
- Слабый и сильный искусственный интеллект.
- Суперинтеллект как следующий этап после общего ИИ.
2. Применение ИИ в робототехнике:
- Воплощенный ИИ (роботы, собаки).
- Примеры успешных проектов и исследований.
3. Проблемы и ошибки использования ИИ:
- Примеры некорректного применения ИИ (дизайн обложек книг).
- Юридические последствия использования ИИ в преступных целях.
4. Научные эксперименты с ИИ:
- Автоматизация рецензирования научных статей.
- Участие ИИ в международных конференциях.
5. Разработка российских ИИ-технологий:
- Новые версии языковых моделей от компаний Яндекс и Сбер.
- Перспективы выхода на мировой уровень.
6. Перспективы и вызовы:
- Возможности и ограничения российских разработок.
- Необходимость дальнейшего развития и совершенствования ИИ.
Ключевые слова:
Искусственный интеллект (ИИ),
Общий и сильный ИИ,
Суперинтеллект,
Робототехника,
Воплощенный ИИ,
Ошибки использования ИИ,
Рецензирование научных статей,
Российские ИИ-технологии,
Яндекс GPT 5 Pro,
Сбер GigaChat.
p.s. Помогали готовить пост системы ИИ Писец и Менон
🔥4❤1
Иван, Даниил и Роман передают привет с Бали 🙂👋
❤6👍6🔥4😎4
Уже 2й день на выставке.
Вчера пообщались с несколькими крупными фондами, получили позитивную обратную связь 😊
Сегодня выступление в Зале 1 с 12:00
Василиса: GPT как ребенок 😊
Вчера пообщались с несколькими крупными фондами, получили позитивную обратную связь 😊
Сегодня выступление в Зале 1 с 12:00
Василиса: GPT как ребенок 😊
❤7🔥5👍4👨💻1
Forwarded from НГУ|NSU
В НГУ пройдёт тринадцатая конференция «Artificial Intelligence and Natural Language» (AINL)
18-19 апреля 2025 года состоится тринадцатая конференция «Artificial Intelligence and Natural Language» (AINL) — крупнейшая восточноевропейская конференция по искусственному интеллекту и обработке текстов.
Мероприятия пройдут в старом корпусе НГУ, в аудитории 311 им. Академика А.И. Мальцева. На конференции выступят приглашенные спикеры: доктор наук, профессор Наталья Валентиновна Лукашевич из МГУ, а также управляющий директор SberDevices Сергей Марков.
Конференция AINL проводится с 2012 года, её материалы индексируются в SCOPUS. Цель конференции — объединить экспертов в области искусственного интеллекта и обработки естественного языка; создать платформу для обмена опытом, расширения контактов и поиска возможного сотрудничества. Конференция сочетает в себе черты промышленной выставки и научной конференции. В 2019 году она прошла в Тарту, Эстония, в 2023 году в Ереване, Армения, а в 2024 году — в Алматы, Казахстан.
Темы конференции:
- Обработка естественного языка
- Искусственный интеллект, глубокое обучение, машинное обучение для обработки естественного языка
- Информационный поиск
- Анализ социальных медиа и социальных сетей
- Генерация и распознавание речи, обработка устного языка
- Интерфейсы человек-компьютер, диалоговые системы
- Контекстный анализ, извлечение информации из текста
- Обнаружение плагиата, профилирование автора и определение авторства
- Машинный перевод, межъязыковые и многоязычные приложения
- Большие данные и анализ данных
Сотрудники Исследовательского центра в сфере искусственного интеллекта НГУ примут участие в предстоящей конференции. Центр существует с 2023 года. Главная цель работы Центра — разработать и подготовить к внедрению набор технологий «умного города» с использованием искусственного интеллекта, которые повысили бы качество жизни граждан и эффективность работы городского хозяйства.
Мероприятие проходит при поддержке компаний Сибирские Нейросети и MTS AI.
@nsuniversity
18-19 апреля 2025 года состоится тринадцатая конференция «Artificial Intelligence and Natural Language» (AINL) — крупнейшая восточноевропейская конференция по искусственному интеллекту и обработке текстов.
Мероприятия пройдут в старом корпусе НГУ, в аудитории 311 им. Академика А.И. Мальцева. На конференции выступят приглашенные спикеры: доктор наук, профессор Наталья Валентиновна Лукашевич из МГУ, а также управляющий директор SberDevices Сергей Марков.
Конференция AINL проводится с 2012 года, её материалы индексируются в SCOPUS. Цель конференции — объединить экспертов в области искусственного интеллекта и обработки естественного языка; создать платформу для обмена опытом, расширения контактов и поиска возможного сотрудничества. Конференция сочетает в себе черты промышленной выставки и научной конференции. В 2019 году она прошла в Тарту, Эстония, в 2023 году в Ереване, Армения, а в 2024 году — в Алматы, Казахстан.
Темы конференции:
- Обработка естественного языка
- Искусственный интеллект, глубокое обучение, машинное обучение для обработки естественного языка
- Информационный поиск
- Анализ социальных медиа и социальных сетей
- Генерация и распознавание речи, обработка устного языка
- Интерфейсы человек-компьютер, диалоговые системы
- Контекстный анализ, извлечение информации из текста
- Обнаружение плагиата, профилирование автора и определение авторства
- Машинный перевод, межъязыковые и многоязычные приложения
- Большие данные и анализ данных
— Конференция AINL'2025 будет включать работы в трех основных направлениях: доклады по технологиям и прикладным исследованиям, обзоры готовых приложений и продуктов, связанных с ИИ и NLP, демонстрации работающих прототипов или приложений. В этом году в рамках AINL проходило соревнование по детектированию сгенерированных текстов, узнать его результаты и выводы, которые сделали организаторы соревнования по его итогам можно будет в рамках специальной сессии, — отметила директор конференции Ольга Пивень.
Сотрудники Исследовательского центра в сфере искусственного интеллекта НГУ примут участие в предстоящей конференции. Центр существует с 2023 года. Главная цель работы Центра — разработать и подготовить к внедрению набор технологий «умного города» с использованием искусственного интеллекта, которые повысили бы качество жизни граждан и эффективность работы городского хозяйства.
Мероприятие проходит при поддержке компаний Сибирские Нейросети и MTS AI.
@nsuniversity
❤5🔥5👍1
Друзья, приходите 🙂
❤3🔥1
🚀 Уже на этой неделе — 16 апреля в столице! 🌆
На крупнейшей московской конференции по искусственному интеллекту и анализу данных Data Fusion наш технический директор Иван Бондаренко представит захватывающую лекцию:
«GPT без дата-центра: как создавать и зачем использовать малые языковые модели?».
Узнайте секреты эффективного внедрения небольших языковых моделей и убедитесь сами, почему большие GPT-решения далеко не всегда оптимальны!
🎯✨Ссылка на программу мероприятия: https://data-fusion.ru/programma2025.html
На крупнейшей московской конференции по искусственному интеллекту и анализу данных Data Fusion наш технический директор Иван Бондаренко представит захватывающую лекцию:
«GPT без дата-центра: как создавать и зачем использовать малые языковые модели?».
Узнайте секреты эффективного внедрения небольших языковых моделей и убедитесь сами, почему большие GPT-решения далеко не всегда оптимальны!
🎯✨Ссылка на программу мероприятия: https://data-fusion.ru/programma2025.html
🔥4❤1
Какою мерою мерите, такою и вам отмерено будет
Прошлое, настоящее и будущее методов измерения сильного искусственного интеллекта
Друзья, если интересно, то приходите в четверг 24 апреля в 10:00 в кабинет 254 ИСИ СО РАН или подключайтесь к трансляции по ссылке https://meet.google.com/bux-bdjz-zdk 😉
Прошлое, настоящее и будущее методов измерения сильного искусственного интеллекта
Друзья, если интересно, то приходите в четверг 24 апреля в 10:00 в кабинет 254 ИСИ СО РАН или подключайтесь к трансляции по ссылке https://meet.google.com/bux-bdjz-zdk 😉
Google
Real-time meetings by Google. Using your browser, share your video, desktop, and presentations with teammates and customers.
👍5❤2