Just-in-Time Code Duplicates Extraction
Коллеги из JetBrains Research выкатили AntiCopyPaster плагин к IDEA и конечно же выпустили об этом статью.
С одной стороны, грубая копипаста это бич, с которым зачастую борются через встраивание всяческого инструментария в git hooks и в CI, тем не менее есть задачи определения дубликатов just in time, во имя рефакторинга.
Под капотом плагина сверточная нейронная сеточка (CNN), тренировочная база 18 942 фрагментов кода из 13 проектов Apache. Рекомендации рефакторинга (по объединению дубликатов в один метод) с F-мерой 0.82, что очень даже.
Плагин пока в статусе PoC, но уже можно поиграться и оценить полезность.
Данные, оцениваемые подходы (8 штук) и метрики доступны в отдельном репозитории.
Коллеги из JetBrains Research выкатили AntiCopyPaster плагин к IDEA и конечно же выпустили об этом статью.
С одной стороны, грубая копипаста это бич, с которым зачастую борются через встраивание всяческого инструментария в git hooks и в CI, тем не менее есть задачи определения дубликатов just in time, во имя рефакторинга.
Под капотом плагина сверточная нейронная сеточка (CNN), тренировочная база 18 942 фрагментов кода из 13 проектов Apache. Рекомендации рефакторинга (по объединению дубликатов в один метод) с F-мерой 0.82, что очень даже.
Плагин пока в статусе PoC, но уже можно поиграться и оценить полезность.
Данные, оцениваемые подходы (8 штук) и метрики доступны в отдельном репозитории.
GitHub
GitHub - JetBrains-Research/anti-copy-paster: A plugin for IntelliJ IDEA for extracting code duplicates into a new method as soon…
A plugin for IntelliJ IDEA for extracting code duplicates into a new method as soon as they are introduced. - GitHub - JetBrains-Research/anti-copy-paster: A plugin for IntelliJ IDEA for extracting...
🔥5❤2👍2
Forwarded from Ivan Begtin (Ivan Begtin)
Буквально минут через 20 начнётся GPT-4 Developer Livestream [1] с демо работы GPT-4 для разработчиков.
А совсем свежая информация о только что вышедшем продукте GPT-4 есть на сайте OpenAI [2].
Ожиданий у рынка очень много, лично я также внимательно слежу и думаю для таких задач можно такой продукт применить.
Ссылки։
[1] https://www.youtube.com/watch?v=outcGtbnMuQ
[2] https://openai.com/product/gpt-4
#openai #gpt4 #languagemodels #ai
А совсем свежая информация о только что вышедшем продукте GPT-4 есть на сайте OpenAI [2].
Ожиданий у рынка очень много, лично я также внимательно слежу и думаю для таких задач можно такой продукт применить.
Ссылки։
[1] https://www.youtube.com/watch?v=outcGtbnMuQ
[2] https://openai.com/product/gpt-4
#openai #gpt4 #languagemodels #ai
YouTube
GPT-4 Developer Livestream
Join Greg Brockman, President and Co-Founder of OpenAI, at 1 pm PT for a developer demo showcasing GPT-4 and some of its capabilities/limitations.
Join the conversation on Discord here: discord.gg/openai. We'll be taking audience input from #gpt4-demo-suggestions.
Join the conversation on Discord here: discord.gg/openai. We'll be taking audience input from #gpt4-demo-suggestions.
🔥3😱2
Кранчим графы зависимостей
В процессе разрешения зависимостей OpenSource библиотек all-over-the-world, вспомнилась полезная работа с MSR'19. Результаты и подходы могут быть полезны тем кто занимается анализом зависимостей или же извлечением инсайдов из графовых структур данных.
Коллеги обработали более 200 тысяч библиотек и построили граф на 9.7 млн связей, который и опубликовали. Есть
Граф полезен для понимания транзитивных связей компонентов, которые за собой приносятто чего не просили много всего удивительного при включении в ваши проекты.
📎 Статья: https://arxiv.org/abs/1901.05392
👀 Датасет: https://zenodo.org/record/1489120#.ZBwDMNJBxHt
В процессе разрешения зависимостей OpenSource библиотек all-over-the-world, вспомнилась полезная работа с MSR'19. Результаты и подходы могут быть полезны тем кто занимается анализом зависимостей или же извлечением инсайдов из графовых структур данных.
Коллеги обработали более 200 тысяч библиотек и построили граф на 9.7 млн связей, который и опубликовали. Есть
csv
, есть дамп для Neo4j.Граф полезен для понимания транзитивных связей компонентов, которые за собой приносят
📎 Статья: https://arxiv.org/abs/1901.05392
👀 Датасет: https://zenodo.org/record/1489120#.ZBwDMNJBxHt
2019.msrconf.org
The Maven Dependency Graph: a Temporal Graph-based Representation of Maven Centra (MSR 2019 - Data Showcase) - MSR 2019
Since 2013, the MSR conference has included a Data Showcase. The purpose of the Data Showcase is to provide a forum to share and discuss the important data sets that underpin the work of the Mining Software Repositories community.
The important dates for…
The important dates for…
🔥6❤1👍1🤩1
TechTrain — фестиваль про AI для разработки и жизни
Расскажем про анализы исходников и всего такого на грядущем TechTrain, который пройдет в онлайне 1 апреля.
Мероприятие бесплатное. Планируется много интересных докладов.
В докладе рассмотрим тему анализа данных для решения задач программной инженерии в контексте безопасной разработки. Поговорим про актуальные тренды, подходы и алгоритмы. На примерах рассмотрим задачи, которые стоят перед создателями инструментов безопасной разработки.
Доклад будет полезен тем, кто хочет понять, как же это всё работает, получить полезные отсылки к источникам и погрузиться в контекст создания анализаторов исходного кода.
Бесплатная регистрация по ссылке.
Присоединяйтесь!
Расскажем про анализы исходников и всего такого на грядущем TechTrain, который пройдет в онлайне 1 апреля.
Мероприятие бесплатное. Планируется много интересных докладов.
В докладе рассмотрим тему анализа данных для решения задач программной инженерии в контексте безопасной разработки. Поговорим про актуальные тренды, подходы и алгоритмы. На примерах рассмотрим задачи, которые стоят перед создателями инструментов безопасной разработки.
Доклад будет полезен тем, кто хочет понять, как же это всё работает, получить полезные отсылки к источникам и погрузиться в контекст создания анализаторов исходного кода.
Бесплатная регистрация по ссылке.
Присоединяйтесь!
🔥5👍2❤1
CFP Code Mining на Data Fest 2023 🎉🎉🎉
Во второй половине мая стартует Data Fest 2023.
Мы тоже не остаемся в стороне и делаем секцию с докладами и нетворкингом про анализ исходных кодов и сопутствующих артефактов (пакеты, тикеты, комментарии и т.п.).
Темы могут быть самые разные:
- анализ качества
- анализ git-repo
- анализ кода на безопасность
- анализ pull-requests, comments, etc
- поиск кода
- генерация кода
Тайминги тоже могут быть самые разные: 20-40-60 минут, тут посмотрим по материалу.
Участие онлайн, но будет доступна опция и оффлайн выступления (следите за новостями).
🗓 Дату проведения определяем на майских праздниках, ориентировочно мероприятие пройдет в рамках 23-28 мая.
✨Объявляем CFP открытым!
👉 Подача до середины мая.
P.S. Со всеми свяжемся, тезисы можно будет уточнить, а тему поменять ;).
Во второй половине мая стартует Data Fest 2023.
Мы тоже не остаемся в стороне и делаем секцию с докладами и нетворкингом про анализ исходных кодов и сопутствующих артефактов (пакеты, тикеты, комментарии и т.п.).
Темы могут быть самые разные:
- анализ качества
- анализ git-repo
- анализ кода на безопасность
- анализ pull-requests, comments, etc
- поиск кода
- генерация кода
Тайминги тоже могут быть самые разные: 20-40-60 минут, тут посмотрим по материалу.
Участие онлайн, но будет доступна опция и оффлайн выступления (следите за новостями).
🗓 Дату проведения определяем на майских праздниках, ориентировочно мероприятие пройдет в рамках 23-28 мая.
✨Объявляем CFP открытым!
👉 Подача до середины мая.
P.S. Со всеми свяжемся, тезисы можно будет уточнить, а тему поменять ;).
🔥6❤2🥰1😁1🎉1
StarCoder — открытая языковая модель для кода
Обучена с уважением к открытым лицензиям, внутри 80+ языков программирования. Основой послужил набор данных The Stack, Github и данные со StackExchange платформы. Внутри 15.5 млрд. параметров. Тренировалась на 512 x Tesla A100 в течение 24 суток.
Статья со всеми описаниями.
⭐️ Ещё есть NER-модель для извлечения всяческих чувствительных данных.
⭐️ С автокомплитом можно поиграться здесь.
⭐️ Попросить сгенерить код, объяснить или попробовать решить задачу можно в чатике.
⭐️ Инструкция по файн-тюнингу тут и большая статья на архиве.
⭐️ Есть ещё плагин для VS Code (не забудьте отключить когда пойдете писать прод код ;)
Мы пощупали, работает довольно прилично. Несмотря на лицензионное соглашение, что нельзя для эксплойтов и т. п., она весьма себе их генерит.
Обучена с уважением к открытым лицензиям, внутри 80+ языков программирования. Основой послужил набор данных The Stack, Github и данные со StackExchange платформы. Внутри 15.5 млрд. параметров. Тренировалась на 512 x Tesla A100 в течение 24 суток.
Статья со всеми описаниями.
⭐️ Ещё есть NER-модель для извлечения всяческих чувствительных данных.
⭐️ С автокомплитом можно поиграться здесь.
⭐️ Попросить сгенерить код, объяснить или попробовать решить задачу можно в чатике.
⭐️ Инструкция по файн-тюнингу тут и большая статья на архиве.
⭐️ Есть ещё плагин для VS Code (не забудьте отключить когда пойдете писать прод код ;)
Мы пощупали, работает довольно прилично. Несмотря на лицензионное соглашение, что нельзя для эксплойтов и т. п., она весьма себе их генерит.
huggingface.co
bigcode/starcoder · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
🔥5❤2🤩2🥰1😁1
Github code search теперь открыт для всех желающих
Год назад Github запустил сервис Code Search на отдельном домене
С 8 мая сервис открыт для всех желающих в рамках стандартного окна поиска: https://github.com/search?type=code&auto_enroll=true
Можно искать конкретные файлы по шаблону и кодовые конструкции по регекспам. Ищет не по всему (в больших файлах в первых 500Kb, в форках только если больше звезд чем у оригинала и т.п.), но находит очень многое.
Полезно для нахождения:
⭐️ лучших практик (или какие найдутся)
⭐️ примеров конфигураций
⭐️ секретиков
⭐️ уязвимых конструкций
Видосик для большей наглядности вариантов использования.
Полезная статья, объясняющая как это всё устроено под капотом.
Год назад Github запустил сервис Code Search на отдельном домене
cs.
куда доступ был строго по заявкам (давали многим).С 8 мая сервис открыт для всех желающих в рамках стандартного окна поиска: https://github.com/search?type=code&auto_enroll=true
Можно искать конкретные файлы по шаблону и кодовые конструкции по регекспам. Ищет не по всему (в больших файлах в первых 500Kb, в форках только если больше звезд чем у оригинала и т.п.), но находит очень многое.
Полезно для нахождения:
⭐️ лучших практик (или какие найдутся)
⭐️ примеров конфигураций
⭐️ секретиков
⭐️ уязвимых конструкций
Видосик для большей наглядности вариантов использования.
Полезная статья, объясняющая как это всё устроено под капотом.
The GitHub Blog
GitHub code search is generally available
The world’s code is now at your fingertips.
🔥7👍2🤩1
PaLM 2 — LLM от Google + Bard
Тут вчера многие авторы переживали, что Google как-то кисленько пиарит свои анонсы и вот это вот всё.
Но вчера было и интересненькое, был представлен чат-бот по имени
Демо-презентация Барда довольно занимательная, рекомендуем к просмотру здесь (буквально 10 минут).
🖖 Особенностью является то, что рекомендуемые исходники сопровождаются аннотацией источника (привет Copilot).
О том, что под капотом написано в PaLM 2 Technical Report.
Что ещё. Помимо обычной редакции
Med-PaLM 2 и Sec-PaLM 2. О последнем попробуем рассказать отдельно, когда появится побольше материалов.
Пообщаться с Бардом можно тут, а его api уже успели и пореверсить здесь.
Тут вчера многие авторы переживали, что Google как-то кисленько пиарит свои анонсы и вот это вот всё.
Но вчера было и интересненькое, был представлен чат-бот по имени
Bard
, который работает с новой LLM-моделью PaLM 2, 540 млрд. параметров с поддержкой 20+ языков программирования. В трейнсет не забыли включить Prolog и Fortran.Демо-презентация Барда довольно занимательная, рекомендуем к просмотру здесь (буквально 10 минут).
🖖 Особенностью является то, что рекомендуемые исходники сопровождаются аннотацией источника (привет Copilot).
О том, что под капотом написано в PaLM 2 Technical Report.
Что ещё. Помимо обычной редакции
PaLM 2
, гугл рассказывает про модификации Med-PaLM 2 и Sec-PaLM 2. О последнем попробуем рассказать отдельно, когда появится побольше материалов.
Пообщаться с Бардом можно тут, а его api уже успели и пореверсить здесь.
👍3🔥3❤1👏1
Forwarded from Kali Novskaya (Tatiana Shavrina)
This media is not supported in your browser
VIEW IN TELEGRAM
Когда поймал NaN
👏7😁5😱3
Визуализация кластеризации проектов на Github
По наводке от Ивана Бегтина делимся ссылкой на увлекательную интерактивную карту проектов на Github.
Анализу подверглось 400k+ репозиториев, обработано 350 млн. "звезд". Кластеризация по мере Жаккара.
Особенно умиляют названия кластеров, прямо ми-ми-ми.
Интересующий проект можно найти в формочке поиска.
Покрутить | Исходники
По наводке от Ивана Бегтина делимся ссылкой на увлекательную интерактивную карту проектов на Github.
Анализу подверглось 400k+ репозиториев, обработано 350 млн. "звезд". Кластеризация по мере Жаккара.
Особенно умиляют названия кластеров, прямо ми-ми-ми.
Интересующий проект можно найти в формочке поиска.
Покрутить | Исходники
🔥7❤1🥰1💩1
Соревнование на определение языка сниппета кода
Чуть не пропустили! Telegram анонсировал соревнование на разработку быстрой библиотеки определения языка для сниппетов кода.
Основные условия:
- язык: любой
- режим работы: локальный
- скорость ответа ограничена 10 мс на фрагменты кода до 4096 символов
- минимум сторонних зависимостей
- максимальный файл подачи в архиве: 2 Гб
- тестовая машинка: 8 ядер, 16 Gb RAM
💬 Кто не участвует, но хочет помочь потенциальным участникам - кидайте идеи в комментарии ;).
🕔 Подача до конца 15 октября по дубайскому времени.
🔗 Страница соревнования.
Чуть не пропустили! Telegram анонсировал соревнование на разработку быстрой библиотеки определения языка для сниппетов кода.
Основные условия:
- язык: любой
- режим работы: локальный
- скорость ответа ограничена 10 мс на фрагменты кода до 4096 символов
- минимум сторонних зависимостей
- максимальный файл подачи в архиве: 2 Гб
- тестовая машинка: 8 ядер, 16 Gb RAM
💬 Кто не участвует, но хочет помочь потенциальным участникам - кидайте идеи в комментарии ;).
🕔 Подача до конца 15 октября по дубайскому времени.
🔗 Страница соревнования.
👍4🔥3😁2🤩1
Data Halloween 2023
🖖 Урра. Любимое сообщество ODS не перестает радовать новыми событиями!
Когда? 28 октября, суббота, с 11:00 до 19:00+
Где: ODS Youtube + нетворкинг в spatial.chat 👀
В субботу будут Доклады, Конкурс Scary Code и старая добрая классика "Собеседования в никуда", в золотом составе организаторов 🤴👸🫅.
А ещё, сообщество CodeMining (это мы) проводит уже четвертый по счету конкурс наговноScary Code, в котором может поучаствовать любой желающий и получить памятный мерч от ODS.
В этом году, к фирменному ODS-мерчу будет приплюсованы модные футболки от CodeScoring.
🎃 Регистрация на Dats Halloween по ссылке: https://ods.ai/events/halloween2023
😨 😨 😨
Правила и подача на ScaryCode!
Правила и подача на ScaryCode!
Правила и подача на ScaryCode!
Зы, ещё будет и оффлайн в Питере, 27 числа, следите за расписанием.
🖖 Урра. Любимое сообщество ODS не перестает радовать новыми событиями!
Когда? 28 октября, суббота, с 11:00 до 19:00+
Где: ODS Youtube + нетворкинг в spatial.chat 👀
В субботу будут Доклады, Конкурс Scary Code и старая добрая классика "Собеседования в никуда", в золотом составе организаторов 🤴👸🫅.
А ещё, сообщество CodeMining (это мы) проводит уже четвертый по счету конкурс на
В этом году, к фирменному ODS-мерчу будет приплюсованы модные футболки от CodeScoring.
🎃 Регистрация на Dats Halloween по ссылке: https://ods.ai/events/halloween2023
Правила и подача на ScaryCode!
Правила и подача на ScaryCode!
Правила и подача на ScaryCode!
Зы, ещё будет и оффлайн в Питере, 27 числа, следите за расписанием.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7❤2😱1
Code Mining
Data Halloween 2023 🖖 Урра. Любимое сообщество ODS не перестает радовать новыми событиями! Когда? 28 октября, суббота, с 11:00 до 19:00+ Где: ODS Youtube + нетворкинг в spatial.chat 👀 В субботу будут Доклады, Конкурс Scary Code и старая добрая классика…
👋 напоминаем про ScaryCode Competition.
🎃 сегодня до 20:00 можно отправить самый страшный код и попасть в зал славы в номинациях: Кровь из носа, Кровь из глаз, Пылающая ненависть или Пылающий стул!
Для подачи нужно:
- залогиниться в ods.ai
- подключиться к контесту
- submit solution
- ???
- profit!!1
До встречи!
🎃 сегодня до 20:00 можно отправить самый страшный код и попасть в зал славы в номинациях: Кровь из носа, Кровь из глаз, Пылающая ненависть или Пылающий стул!
Для подачи нужно:
- залогиниться в ods.ai
- подключиться к контесту
- submit solution
- ???
- profit!!1
До встречи!
🔥3👍2
Code Mining pinned «👋 напоминаем про ScaryCode Competition. 🎃 сегодня до 20:00 можно отправить самый страшный код и попасть в зал славы в номинациях: Кровь из носа, Кровь из глаз, Пылающая ненависть или Пылающий стул! Для подачи нужно: - залогиниться в ods.ai - подключиться…»
Открытая конференция ИСП РАН 2023
В начале декабря в Москве пройдет конференция ISPRASOpen посвященная 75-летию отечественных информационных технологий при поддержке РАН, ФПИ, а также IEEE и IEEE Computer Society.
Институт системного программирования известен своими технологиями и мощной экспертизой не только программной инженерии, но и исследованиях в области искусственного интеллекта и медицины.
В этом году будут представлены доклады о технологиях анализа, моделирования и трансформации программ, управления данными и информационными системами, решении задач механики сплошных сред с использованием СПО, САПР микроэлектронной аппаратуры и лингвистические системы анализа.
Состоится выставка технологий ИСП РАН и компаний-партнёров. Если вы хотели познакомиться поближе с решениями и их авторами, то обязательно нужно быть.
🗓 4 и 5 декабря 2023
📍 Главное здание Российской академии наук
Участие бесплатное, необходима регистрация.
Сайт конференции: https://www.isprasopen.ru/
В начале декабря в Москве пройдет конференция ISPRASOpen посвященная 75-летию отечественных информационных технологий при поддержке РАН, ФПИ, а также IEEE и IEEE Computer Society.
Институт системного программирования известен своими технологиями и мощной экспертизой не только программной инженерии, но и исследованиях в области искусственного интеллекта и медицины.
В этом году будут представлены доклады о технологиях анализа, моделирования и трансформации программ, управления данными и информационными системами, решении задач механики сплошных сред с использованием СПО, САПР микроэлектронной аппаратуры и лингвистические системы анализа.
Состоится выставка технологий ИСП РАН и компаний-партнёров. Если вы хотели познакомиться поближе с решениями и их авторами, то обязательно нужно быть.
🗓 4 и 5 декабря 2023
📍 Главное здание Российской академии наук
Участие бесплатное, необходима регистрация.
Сайт конференции: https://www.isprasopen.ru/
❤3🔥3👍1🎉1
Тут Владимир с коллегами из JetBrains запустили большую исследовательскую коллаборацию с TU Delft в Нидерландах по применению AI в разработке.
Открыто пять PhD позиций в TU Delft по пяти интересным индустрии темам:
1. Генерация тестов и валидация генерированного кода;
2. Адаптация и оптимизация больших языковых моделей под проектные и другие контексты;
3. Human-Computer Interaction в AI-enabled средах разработки;
4. Использование информации об исполнении кода для улучшения процессов разработки;
5. Использование умных помощников с AI в обучении программированию.
Позиции открыты в Software Engineering Research Group в TU Delft и предполагают совместную работу с исследователями из JetBrains Research (Applied Program Analysis Lab, ICTL, ML4SE) и тесное взаимодействие с коллегами из продуктовых команд.
Позиции открыты до 30 ноября.
Если вы знаете кого-то, кому могут быть интересны эти позиции — передайте им!
С вопросами пишите на [email protected] или в личку @vovak.
Открыто пять PhD позиций в TU Delft по пяти интересным индустрии темам:
1. Генерация тестов и валидация генерированного кода;
2. Адаптация и оптимизация больших языковых моделей под проектные и другие контексты;
3. Human-Computer Interaction в AI-enabled средах разработки;
4. Использование информации об исполнении кода для улучшения процессов разработки;
5. Использование умных помощников с AI в обучении программированию.
Позиции открыты в Software Engineering Research Group в TU Delft и предполагают совместную работу с исследователями из JetBrains Research (Applied Program Analysis Lab, ICTL, ML4SE) и тесное взаимодействие с коллегами из продуктовых команд.
Позиции открыты до 30 ноября.
Если вы знаете кого-то, кому могут быть интересны эти позиции — передайте им!
С вопросами пишите на [email protected] или в личку @vovak.
👍4❤2
Нас тут спрашивали, будет ли обновленный сборник технологий ИСП РАН, отвечаем:
👍4👏1🎉1
Forwarded from ИСП РАН
Уважаемые коллеги!
❗️На сайте ИСП РАН выложен "Сборник технологий" 2023 года:
https://www.ispras.ru/downloads/ISP_RAS_Catalogue_of_technologies_ru.pdf
❗️На сайте ИСП РАН выложен "Сборник технологий" 2023 года:
https://www.ispras.ru/downloads/ISP_RAS_Catalogue_of_technologies_ru.pdf
🎉5👍3🔥1