Code Mining
938 subscribers
90 photos
4 videos
8 files
173 links
ML4Code во всей красе, анализ кода и артефактов: лицензии, уязвимости, процессы. Комментарии к актуальным и не очень новостям, аналитика, эпизодический авторский контент, мемасики.

При поддержке: ods.ai, @codescoring
По вопросам — @alsmirn
Download Telegram
Forwarded from Ivan Begtin (Ivan Begtin)
В рубрике больших открытых наборов данных The Stack [1] 3.1 терабайта 300 миллионов файлов исходного кода на 30 языках программирования с разрешающими лицензиями (permissive licenses) на его повторное использование. Опубликован на Hugging Face, кроме программных языков, охватывает около 20 естественных языков (английский, китайский, испанский, русский и др.)

Является результатом проекта BigCode [2], совместных усилий команд ServiceNow и Hugging Face․

Можно сказать что это большой шаг вперед к развитию языковых моделей для программного кода и появлению новых продуктов похожих на Github Copilot и аналоги, но, на сей раз, с соблюдением лицензионной чистоты.

А также большой тред в твиттере с рассказом об этом наборе данных [3]

Ссылки:
[1] https://huggingface.co/datasets/bigcode/the-stack
[2] https://www.bigcode-project.org/
[3] https://twitter.com/BigCodeProject/status/1585631176353796097

#opendata #opensource #datasets
🔥5
Открытая конференция ИСП РАН им. В.П. Иванникова

1 и 2 декабря 2022 в Москве пройдет ежегодная открытая конференция Института системного программирования РАН. Бесплатно. Оффлайн.

Регистрация до 24 ноября 2022:
https://www.isprasopen.ru.

Это ежегодное мероприятие на котором представляются результаты работ по разным направлениям:
1. Технологии анализа, моделирования и трансформации программ
2. Управление данными и информационные системы
3. Решение задач механики сплошных сред с использованием СПО
4. САПР микроэлектронной аппаратуры
5. Лингвистические системы анализа

Первая секция посвящена методам оптимизации в компиляторе, генерации кода, статическому и динамическому анализу программ и др. В частности, рассматриваются следующие темы:
- Обратная инженерия бинарного (исполняемого) кода.
- Выполнение программ в контролируемом окружении.
- Поиск ошибок и уязвимостей в исполняемом коде.
- Анализ сетевого трафика.
- Оптимизации в компиляторе и генерация кода.
- Статический и динамический анализ программ.
- Методы и инструменты анализа и тестирования программ.
- Запутывание программ (обфускация).

Приходите! Должно быть очень интересно. Мы тоже будем.
🔥52👍1
Пленарка ИСП ИЧ 2022.pdf
4.6 MB
ИСП РАН - а что же там такого делают?

После вчерашнего анонса открытой конференции ИСП РАН (ISPRAS Open) в личку получили вопросы, а что же это за институт такой и что они там делают?

Помимо того, что у сотрудников Института множество интересных публикаций по анализу кода и всего такого, так ещё они делают собственные технологические продукты, в частности SAST-анализатор (Static Application Security Testing), Svace, который c 2015 является основным стат. анализатором в компании Samsung и во многих других.

О направлениях исследований и планах их развития лучше всего расскажет обзорная презентация технологий ИСПа, которая была представлена в сентябре на Иванниковских чтениях. Прикладываем к посту, её озвучку можно услышать здесь.

Так что если вы ещё не зарегистрировались на ISPRAS Open, то самое время это сделать до 24 ноября.

@codemining
👍4🔥4👏1
На ISPRASOpen обнаружено прекрасное. Музей вычислительной техники в Великом Новгороде.

https://sohraniteli.ru/museums/muzej-istorii-vychislitelnoj-tehniki/

Очевидцы говорят, что все можно пощупать и пощелкать релешками.

А так, внутри вас ждет:
+ Вычислительная техника: компьютеры, калькуляторы, игровые приставки. Всего около 100 компьютеров, 20 приставок и нескольких десятков калькуляторов.
+ Самодельный компьютер на электромагнитных реле по технологиям 1940х.
+ Переносной компьютер весом 9 килограмм.
+ Клоны первой игровой приставки Pong.
+ Плата от суперкомпьютера БЭСМ-6.
+ Первая домашняя игровая приставка с картриджами.

Продолжаем наблюдения.
🔥9👍3
Forwarded from ODS Events
Привет!

Уже в эту субботу, 17 декабря, мы будем подводить итоги года на нашем ежегодном событии - Data Ёлке.

#stream: Мы проведем YouTube стрим, наш Data Дед Мороз и его гости - расскажут что же полезного и интересного произошло в отрасли DS и ML. Регистрируйся по ссылке!

🎁 #gifts: У тебя есть отличный шанс получить подарок от ODS: помоги определить лучших, участвуй в голосовании за треки, секции, видео, статьи, соревнования и менторов. Среди голосовавших мы обязательно разыграем наш мерч!

🤩#gigameetup: Параллельно YouTube стриму в ODS спейсе spatial.chat пройдет супер-насыщенный митап от хаба Reliable ML по AB testing & Causal Inference. Приходи, программа на весь день!

😍#networking: Помимо митапа, в spatial.chat в комнате On-site test пройдут всеми любимые собесы в никуда.

🎄#offline: для тех, кто готов встретиться живьем в offline, в среду 21 декабря пройдет нетворкинговая Дата Ëлка в Новосибирске от ODS Siberia

Присоединяйся 😊
4🔥4🎉1
А вот тут Татьяна Шаврина читает текст лицензии нашумевшей chatGPT, всвязи с чем вспоминается новость из начала года про анализ лицензий популярных сивишных датасетов. Короче, внимательнее, друзья.
😱2
Forwarded from Kali Novskaya (Tatiana Shavrina)
#nlp #про_nlp #лицензии
Захотела изучить лицензию chatGPT, по сути Terms of Service OpenAI.

Конечно, открытой лицензии никто и не ожидал, но формулировки покруче даже, чем в неоткрытом RAIL:
🔹 выводы chatGPT нельзя использовать для обучения своих моделей
🔹 нельзя пытаться реверс-инжинирить, получить исходный код модели, какие-либо сведения о её работе
🔹 нельзя веб-скрапить вывод модели, собирать скриптами, селениумом и тд.

В общем, господа присяжные заседатели.... 🙀

Хорошая новость:
нам даются очень широкие права на использование контента:
OpenAI hereby assigns to you all its right, title and interest in and to Output
Please open Telegram to view this post
VIEW IN TELEGRAM
😁1🤔1
Code Mining
Стрим ДатаЁлки уже полным ходом 🦜 🦜 🎄! А через минут 15 расскажем про общие итоги года в части анализа исходников и вот этого всего, подключаетесь: https://youtu.be/yo78_2cDmPw
CodeMining.report.22.pdf
2 MB
Коротенькие итоги года @ods.ai

👀 В прошедшую субботу (17.12), подвели итоги года в ODS-сообществе на Data Ёlka. Прикладываем презентацию и ссылку, где она озвучена голосом.

🔥 Ооочень важным дополнением к презентации будет и доклад Валентина Малых про итоги года в NLP, где особенным и подробным образом рассказывается про особенности больших языковых моделей.

С наступающим! 🎄🎄🎄

Upd. Видеоссылки на 21 год, на 22 подьедут попозжа.
🎉4👍1
Code Mining
CodeMining.report.22.pdf
Тьфу, друзья! Суперкосяк, видосы-то 21 года! ждём обновлений!
Но преза актуальная 😂😂😂.
😁2
2 декабря 2022 на ISPRASOPEN прошла секция «Технологии анализа, моделирования и трансформации программ». Мы подготовили разметку трансляции и делимся с сообществом.

Сохраняйте и делитесь с коллегами.

15:13 UDLC: гетерогенный компилятор, основанный на MLIR
Илья Афанасьев, Илья Палачев - Исследовательский Центр Samsung

47:01 Kernel_slicer: высокоуровневый подход к разработке поверх API
Владимир Фролов, Вадим Санжаров, Владимир Галактионов
ИПМ им. М.В. Келдыша РАН, МГУ им. М.В. Ломоносова

1:12:35 Библиотека для разработки компиляторов
Сергей Миронов, Инна Батраева, Павел Дунаев, Саратовский государственный университет

1:54:45 Девиртуализация для статического анализа с низкоуровневым промежуточным представлением
Артемий Галустов, Алексей Бородин, Андрей Белеванцев, ИСП РАН

2:22:50 Irbis: статический анализ помеченных данных для поиска уязвимостей в программах на C/C++
Никита Шимчик, Валерий Игнатьев, Андрей Белеванцев, ИСП РАН

2:48:18 Межпроцедурный статический анализ языка Go с поддержкой замыканий
Алексей Бородин, Варвара Дворцова, Александр Волков, ИСП РАН

4:19:52 Natch: Определение поверхности атаки с помощью отслеживания помеченных данных и интроспекции виртуальных машин
Владислав Степанов, Павел Довгалюк, Мария Климушенкова, Наталья Фурсова, Иван Васильев, Аркадий Иванов, Алексей Иванов, Максим Бакулин, Данила Егоров, ИСП РАН

4:40:35 Sydr-Fuzz: непрерывный гибридный фаззинг и динамический анализ для безопасного цикла разработки ПО
Алексей Вишняков, Даниил Куц, Влада Логунова, Дарья Парыгина, Илай Кобрин, Георгий Савидов, Андрей Федотов, ИСП РАН

5:04:41 Повышение эффективности фаззинга за счет извлеченных констант
Людовикос Нерсисян, Севак Саргсян, Дживан Хакобян, Карен Саргсян, Российско-Армянский университет

5:46:36 Генерация профилей оптимизации для приложений Андроид с использованием машинного обучения
Андрей Височан, Исследовательский Центр Samsung

6:13:40 Обнаружение аномальных нагрузок на устройство во время исследовательского тестирования мобильных приложений
Данила Михальцов, Константин Сорокин, ИСП РАН

6:35:38 Способ оценки похожести программ методами машинного обучения
Петр Борисов, Юрий Косолапов, ФГАНУ НИИ «Спецвузавтоматика», Южный федеральный университет

7:25:18 Метод восстановления протокольных автоматов по бинарному коду
Иван Шарков, ИСП РАН

7:49:07 Исследования по автоматической генерации фаззинг-оберток для функций программных библиотек
Чан Ти Тхиен, Дмитрий Пономарев, Андрей Кузнецов, ИСП РАН, «ФОБОС-НТ»

@codemining
🔥8👍32
А ещё, 2 декабря 2022 на ISPRASOPEN прошел крайне интересный воркшоп «Системы доверенного искусственного интеллекта». Мы также подготовили разметку трансляции и делимся с сообществом.

Сохраняйте и делитесь с коллегами.

17:35 Исследовательский центр доверенного искусственного интеллекта: направления работы и первые результаты
Денис Турдаков, ИСП РАН

57:40 Концепция платформы для обеспечения доверия к интеллектуальным системам
Константин Архипенко, ИСП РАН

1:18:30 Технологии композитного AutoML: доверие через интерпретируемость
Александр Бухановский, ИТМО

1:36:40 Представление многомерного перцептрона с кусочно-линейной функцией активации в виде объясняющего двоичного дерева: подход к построению области доверия ИНС
Андрей Коваленко, Андрей Перминов, ИСП РАН

2:08:23 Разработка доверенных версий фреймворков машинного обучения
Андрей Федотов, ИСП РАН

2:23:47 Онтологии в задачах доверенного искусственного интеллекта
Наталья Лукашевич, ИСП РАН

2:44:40 Анализ уязвимости современных методов оценки качества видео к атакам
Сергей Лаврушкин, Дмитрий Ватолин, ИСП РАН

3:05:50 Создание датасетов новых нейросетевых артефактов для улучшения устойчивости измерения качества
Дмитрий Ватолин, ИСП РАН

4:16:05 Демпфированный метод Ньютона, достигающий глобальной скорости сходимости порядка O(1/k^2) и локальной квадратичной сходимости
Дмитрий Пасечнюк, Александр Гасников, ИСП РАН

4:31:18 Сглаженные эмбеддинги для сертификации моделей, обученных на малом количестве тренировочных примеров
Михаил Паутов, Иван Оселедец, Сколтех

4:48:45 Методы обеспечения доверия к системам обнаружения вторжений на базе ИИ
Александр Гетьман, ИСП РАН

5:06:25 Объяснимый ИИ для оценки когнитивного возраста
Михаил Кривоносов, Михаил Иванченко, ИСП РАН

6:05:43 Генерация развернутых ответов на вопросы по тексту и графу знаний
Дмитрий Евсеев, Михаил Бурцев, МФТИ

6:33:07 Применение методов объяснимого искусственного интеллекта к моделям диагностики психологических свойств личности по профилю в социальной сети ВКонтакте
Анастасия Панфилова, ИП РАН

6:56:35 Обобщённая задача коммивояжера с ограничениями предшествования: полиэдральный теория, MILP-модели и branch-and-cut алгоритмы
Михаил Хачай, ИСП РАН

7:29:25 Ускорение коммуникаций локальных градиентных методов с помощью ускоренного прямо-двойственного алгоритма с неточным прокс оператором
Абдурахмон Садиев, Александр Гасников, ИСП РАН

7:52:57 Методы объяснимого искусственного интеллекта для анализа эпигенетических, когнитивных и иммунологических данных
Игорь Юсипов, Алёна Калякулина, ННГУ

8:13:50 DetIE: Извлечение информации на нескольких языках, основанное на детектировании объектов
Валентин Малых, Сергей Кузнецов, ИСП РАН

@codemining
🔥4👍2
Встреча сообщества безопасной разработки

Мы начинаем Новый год встречей SDL-сообщества в очно-заочном формате в Санкт-Петербурге.

Для тех кто не в теме: SDL-сообщество фокусируется на процессах безопасной разработки и объединяет разработчиков и практиков инструментов статического, композиционного и динамического анализа приложений.

🗓 Когда: 20 января 2023
📍 Где: митап-бар Failover Bar
🗺 Адрес: СПб, 7-я линия Васильевского Острова, д. 42

Тайминги:
16:00 Виски-час (да-да, вы не ослышались, это он).
17:00 Открытие
17:10 Доклады от энтузиастов сообщества
19:30 Радости и горести - микродоклады на свободную тему
20:00 Общение сообщества (оффлайн)

🎁 +сюрпризы от организаторов и участников!

Доклады посвящены инструментам и технологиям, а также радостям и горестям практических подходов внедрения процессов безопасной разработки (DevSecOps) в жизнь организации (не забудем и про сертификацию).

Выступят ведущие эксперты компаний: ИСП РАН, CodeScoring, Фобос-НТ, Postgres Professional, Базальт СПО, Ядро и Беллсофт.

Для тех кто не доберется, будет проходить трансляция на youtube-канале организаторов, подписывайтесь, чтобы не пропустить.

Участие бесплатное, пароль на входе — SDL.

Неформальность гарантируем!
👍6🔥4🥰3
This media is not supported in your browser
VIEW IN TELEGRAM
Sketch — ассистент для работы с данными в pandas. Анализ и кодогенерация.

Позволяет чуть быстрее понимать контекст обрабатываемых данных, чем это можно было бы сделать другими стандартными средствами.

Под капотом OpenAI и авторы гордятся тем, что для начала работы не нужны никакие плагины для IDE.

🛑 Но мы то понимаем, что все ваши данные уходят в Microsoft.

Как proof-of-concept — хорошо, а для реальной жизни подождем "компактных" плагинов для IDE.
🔥4👍2😁1
Code Mining pinned «Встреча сообщества безопасной разработки Мы начинаем Новый год встречей SDL-сообщества в очно-заочном формате в Санкт-Петербурге. Для тех кто не в теме: SDL-сообщество фокусируется на процессах безопасной разработки и объединяет разработчиков и практиков…»
Live stream started
Live stream finished (3 hours)
🎦 Видео встречи сообщества безопасной разработки (@sdl_community)

20 января 2023 в Петербурге в гостеприимном митап-баре @failoverbar прошло первое собрание SDL-сообщества этого года, на котором в живом и ненавязчивом формате были представлены доклады по проблематике безопасной разработки.

Выложили запись, делимся таймкодами:
1:00 - Открытие секции докладов
14:46 - Системный подход к разработке безопасного ПО, Дмитрий Пономарев, Фобос-НТ/ИСП РАН
29:38 - Технологический центр исследования безопасности ядра Linux и критических компонентов, Алексей Хорошилов, ИСП РАН
49:48 - Natch. Инструмент для определения поверхности атаки, Мария Климушенкова, ИСП РАН
59:37 - О безопасной разработке в PostgresPRO, Иван Панченко, Postgres Professional
65:50 - О фаззинге в PostgresPRO, Николай Шаплов, Postgres Professional
1:04:54 - О безопасной разработке в Лаборатории Касперского, Карина Нападовская, Лаборатория Касперского
1:20:28 - Три этюда об управлении зависимостями в SDL, Алексей Смирнов, CodeScoring
1:48:59 - Axiom JDK: SDL практики, Александр Дроздов, Bellsoft
1:58:22 - О безопасной разработке в Alt Linux, Николай Костригин, Базальт СПО, ИВК
2:08:39 SDL это не только сертификация и безопасность, Александр Дубинин, YADRO

#видоснавечер
@codemining
🔥8👍6😁1
Задачка №0

Случилось внезапное. Наша команда CodeScoring поучаствовала в замечательной конференции EkbPy, где гостям предложили задачку на реализацию простого алгоритма сравнения версий библиотек. Раздавали мерч всяческий.

Так вот, почти 50 человек принесли свои решения (а это треть посетителей конфы, на всякий случай). И чего мы только не посмотрели за день! Мало того, обсуждение задачи продолжилось и на афтепати щ_Щ.

Подумалось, а может попробовать продолжить эту тему? Ну и не питоном единым, как говорится. Любой язык подойдет.

Если хочется размять мозг, то задачку прикладываем, можно ссылочки на гисты в комментарии покидать. Правил нет, строго just for fun (c). Особенные решения выберем в отдельный пост с позволения авторов и наградим памятными пинами.

А да, у нас ещё чатик совсем недавно завелся, можно там и продолжить этот самый фан.

@codemining
🔥5