LLM-based agents for Software Engineering
В сентябре вышел большой труд от китайских коллег: "Large Language Model-Based Agents for Software Engineering: A Survey".
Статья рассматривает аспекты применения LLM-основанных агентов в разных задачах программной инженерии (скрин). Чего там только нет! Добрая сотня доменных инструментов, которые ещё и сравниваются между собой и идет дискуссия о том как эти вещи принято строить в разных случаях.
Будем смотреть согласно своим интересам и что-нибудь обозревать.
Если вы нашли что-то интересненькое — делитесь в комментариях.
Да, к статье прилагается репо с большим количеством ссылок по темам: https://github.com/FudanSELab/Agent4SE-Paper-List.
‼️ Напоминаем, что сегодня последний день приёма статей и тезисов на Открытую конференцию ИСП РАН, которая состоится 11-12 декабря в Москве, в инновационном кластере «Ломоносов».
✔️Если вы планируете выступить в рецензируемых секциях, загрузите материалы до 23:59 по московскому времени! Все подробности: https://www.isprasopen.ru/#Submission.
Напоминаем, что для прохода в здание нужно зарегистрироваться! Регистрация участников до 23:59 6 декабря: https://www.isprasopen.ru/#Registration.
Открытая конференция ИСП РАН 2024
11-12 декабря в Москве пройдет конференция ISPRASOpen посвященная 30-летию Института и 300-летию РАН.
Напомним, что Институт системного программирования известен своими технологиями и мощной экспертизой не только программной инженерии, но и исследованиях в области искусственного интеллекта и медицины.
В этом году вновь будут представлены доклады в секции Технологии анализа, моделирования и трансформации программ:
- обратная инженерия бинарного (исполняемого) кода
- выполнение программ в контролируемом окружении
- поиск ошибок и уязвимостей в исполняемом коде
- анализ сетевого трафика
- оптимизации в компиляторе и генерация кода
- статический и динамический анализ программ
- методы и инструменты анализа и тестирования программ
- запутывание программ (обфускация)
В прошлом году было более 1000 участников, интересные стенды и много-много полезного общения для предновогодней подзарядки. В этом году ожидается более полутора тысяч человек и ещё большие масштабы.
🗓 11 и 12 декабря 2024
📍 Инновационный кластер "Ломоносов"
Участие бесплатное, регистрация необходима (до 6 ноября).
- Сайт конференции
- Предварительная программа
А ещё вы можете даже успеть со статьей и тезисами до 7 ноября.
@codemining
Митап "AI4SE: Искусственный Интеллект для Разработки Программного Обеспечения"
MTS AI проводит митап посвященный исследованиям и практическому применению искусственного интеллекта в сфере разработки программного обеспечения (Software Engineering).
План встречи:
1. Введение в AI4SE: Основные концепции и области применения AI в разработке ПО.
2. Инструменты и технологии: Обзор современных инструментов на базе AI, которые используют разработчики.
3. Кейсы и истории успеха: Практические примеры и кейсы использования AI для оптимизации процессов разработки.
4. Панельная дискуссия: Экспертное обсуждение текущих трендов и перспектив внедрения AI в Software Engineering.
5. Q&A сессия: Вопросы и ответы от участников и спикеров.
Кому будет интересно:
- Разработчикам программного обеспечения
- Инженерам-тестировщикам
- Дата-сайентистам
- Менеджерам проектов и продуктов
- IT-энтузиастам и исследователям в области AI
Участие бесплатное, регистрация на оффлайн обязательна.
https://mts-ai-2024.timepad.ru/event/3019734/
Дата: 29 октября
Время: 19:00
Место: Офис MTS AI, м. Курская
Пицца, интересные доклады, реальные кейсы и нетворкинг!
Будет и онлайн.
Иванниковские чтения 2024
Уже 17-18 мая в Великом Новгороде пройдет очередная конференция Иванниковские чтения, где будут представлены направления:
- Анализ, моделирование и трансформации программ
- Анализ данных в медицине
- Управление данными и информационные системы
+ круглые столы по эмуляции и разработке безопасного ПО
Программа опубликована на сайте.
В секции «Технологии анализа, моделирования и трансформации программ» докладов много разных, подсветим некоторые из названий докладов:
- Большие языковые модели в статическом анализе исходного кода
- Пользовательские детекторы в статическом анализе на основе символьного выполнения
- Статический анализ для языка Scala
- Статический анализ ассоциативных массивов в Go
- Классификация предупреждений статического анализа методами машинного обучения
- Обнаружение вредоносной активности в проектах с открытым исходным кодом с помощью методов машинного обучения
- О методах извлечения алгоритмов из бинарного кода
- Статическое распределение памяти для операционных систем реального времени
- Автоматизация выполнения регрессионных тестов на гонки по данным
А ещё целых 5 докладов о фаззинге и многое другое.
Приходите, приезжайте, будет интересно.
Участие бесплатное.
Регистрация обязательна (открыта до 13 мая).
Сайт конференции: https://www.ivannikov-ws.org/
Демосцена
Как-то слишком часто вокруг меня вспоминалась демосцена в последний месяц.
Начиная с прекрасной, но прекратившей свое существование финской Assembly, заканчивая питерским Chaos Constructions, который ещё жив. Ух, какая там когда-то (2000/1) была атмосфера, ночевка в спальниках на конференции, кодинг 24x2/3, нереальные демки и конкурсы по метанию винчестеров и т.п.
Это всё было суперлампово и клёво (слеза).
О технических подробностях того, как это всё делалось, ликбез по алгоритмам, принципам и архитектуре обнаружен в видео с докладом от Александра Кухаренко "Демосцена: в погоне за wow-фактором":
https://www.youtube.com/watch?v=gl_Ikc_tOe4
А для кого это слово новое, можно полистать вики :).
#видоснавыходные
Иванниковские чтения 2024
CFP на Иванниковские чтения открыто, конференция, состоится 17-18 мая 2024 года в Великом Новгороде.
Секция по анализу и трансформации программ посвящена методам оптимизации в компиляторе, кодогенерации, статическому и динамическому анализу программ и др., а также различным методам, архитектурам и компонентам современных операционных систем для эффективных вычислений и систем контроля. В частности, рассматриваются следующие темы:
- Обратная инженерия бинарного (исполняемого) кода.
- Выполнение программ в контролируемом окружении.
- Поиск ошибок и уязвимостей в исполняемом коде.
- Анализ сетевого трафика.
- Оптимизации в компиляторе.
- Статический и динамический анализ программ.
- Методы и инструменты анализа и тестирования программ.
- Безопасность и конфиденциальность в ОС.
- Жизненный цикл разработки: стандарты и сертификация.
- ОС реального времени, интернет вещей.
- Сетевые стеки и технологии.
- Архитектура операционных систем (в том числе, ядра ОС).
Также будет секция "Управление данными и информационные системы", открытые темы можно посмотреть на сайте. Параллельно будет проводиться конференция по анализу данных в медицине.
Участие бесплатное, регистрация обязательная:
https://www.ivannikov-ws.org/#Registration
Чтобы представить результаты своей научной работы в рамках секций, необходимо прислать на рассмотрение статью или тезисы. Требования к материалам и другие подробности — в разделе «Публикации».
Материалы подаются через систему Easychair:
https://easychair.org/conferences/?conf=ivmem2024
Важные даты:
- Срок подачи материалов: до 12 апреля 2024 г. (23:59, GMT+3)
- Уведомление о включении в программу: до 26 апреля 2024 г. (23:59, GMT+3)
- Готовые к публикации статьи: до 1 июня 2024 г.
- Регистрация участников: до 13 мая 2024 г.
По всем вопросам можно обращаться по e-mail scsec@ispras.ru.
ODS Data Elka
В субботу прошла прекрасная Data Elka, где мы пытались подвести какие-то спешные итоги в легковесном формате, рассказали про конференции, общую статистику в Open Source, про подготовку Open Source Report,не забыли про безопасность, качество ;), крупные релизы Яндекса и их гранты для OSS-разработчиков и вот это вот всё.
Также по части ML on Code всякого интересного порассказывал Валентин Малых в подведении итогов 23 года в NLP, рекомендуем к ознакомлению!
Кому таймкоды не нравятся, можно посмотреть весь стрим здесь:
https://www.youtube.com/watch?v=iFJBSbPXRBM
Ну а мы всем желаем хорошего нового года, чистого и не менее полезного кода! Уррра)
Открытая конференция ИСП РАН 2023
В начале декабря в Москве пройдет конференция ISPRASOpen посвященная 75-летию отечественных информационных технологий при поддержке РАН, ФПИ, а также IEEE и IEEE Computer Society.
Институт системного программирования известен своими технологиями и мощной экспертизой не только программной инженерии, но и исследованиях в области искусственного интеллекта и медицины.
В этом году будут представлены доклады о технологиях анализа, моделирования и трансформации программ, управления данными и информационными системами, решении задач механики сплошных сред с использованием СПО, САПР микроэлектронной аппаратуры и лингвистические системы анализа.
Состоится выставка технологий ИСП РАН и компаний-партнёров. Если вы хотели познакомиться поближе с решениями и их авторами, то обязательно нужно быть.
🗓 4 и 5 декабря 2023
📍 Главное здание Российской академии наук
Участие бесплатное, необходима регистрация.
Сайт конференции: https://www.isprasopen.ru/
Data Halloween 2023
🖖 Урра. Любимое сообщество ODS не перестает радовать новыми событиями!
Когда? 28 октября, суббота, с 11:00 до 19:00+
Где: ODS Youtube + нетворкинг в spatial.chat 👀
В субботу будут Доклады, Конкурс Scary Code и старая добрая классика "Собеседования в никуда", в золотом составе организаторов 🤴👸🫅.
А ещё, сообщество CodeMining (это мы) проводит уже четвертый по счету конкурс на говноScary Code, в котором может поучаствовать любой желающий и получить памятный мерч от ODS.
В этом году, к фирменному ODS-мерчу будет приплюсованы модные футболки от CodeScoring.
🎃 Регистрация на Dats Halloween по ссылке: https://ods.ai/events/halloween2023
😨😨😨
Правила и подача на ScaryCode!
Правила и подача на ScaryCode!
Правила и подача на ScaryCode!
Зы, ещё будет и оффлайн в Питере, 27 числа, следите за расписанием.
Визуализация кластеризации проектов на Github
По наводке от Ивана Бегтина делимся ссылкой на увлекательную интерактивную карту проектов на Github.
Анализу подверглось 400k+ репозиториев, обработано 350 млн. "звезд". Кластеризация по мере Жаккара.
Особенно умиляют названия кластеров, прямо ми-ми-ми.
Интересующий проект можно найти в формочке поиска.
Покрутить | Исходники
Github code search теперь открыт для всех желающих
Год назад Github запустил сервис Code Search на отдельном домене cs.
куда доступ был строго по заявкам (давали многим).
С 8 мая сервис открыт для всех желающих в рамках стандартного окна поиска: https://github.com/search?type=code&auto_enroll=true
Можно искать конкретные файлы по шаблону и кодовые конструкции по регекспам. Ищет не по всему (в больших файлах в первых 500Kb, в форках только если больше звезд чем у оригинала и т.п.), но находит очень многое.
Полезно для нахождения:
⭐️ лучших практик (или какие найдутся)
⭐️ примеров конфигураций
⭐️ секретиков
⭐️ уязвимых конструкций
Видосик для большей наглядности вариантов использования.
Полезная статья, объясняющая как это всё устроено под капотом.
CFP Code Mining на Data Fest 2023 🎉🎉🎉
Во второй половине мая стартует Data Fest 2023.
Мы тоже не остаемся в стороне и делаем секцию с докладами и нетворкингом про анализ исходных кодов и сопутствующих артефактов (пакеты, тикеты, комментарии и т.п.).
Темы могут быть самые разные:
- анализ качества
- анализ git-repo
- анализ кода на безопасность
- анализ pull-requests, comments, etc
- поиск кода
- генерация кода
Тайминги тоже могут быть самые разные: 20-40-60 минут, тут посмотрим по материалу.
Участие онлайн, но будет доступна опция и оффлайн выступления (следите за новостями).
🗓 Дату проведения определяем на майских праздниках, ориентировочно мероприятие пройдет в рамках 23-28 мая.
✨Объявляем CFP открытым!
👉 Подача до середины мая.
P.S. Со всеми свяжемся, тезисы можно будет уточнить, а тему поменять ;).
Кранчим графы зависимостей
В процессе разрешения зависимостей OpenSource библиотек all-over-the-world, вспомнилась полезная работа с MSR'19. Результаты и подходы могут быть полезны тем кто занимается анализом зависимостей или же извлечением инсайдов из графовых структур данных.
Коллеги обработали более 200 тысяч библиотек и построили граф на 9.7 млн связей, который и опубликовали. Есть csv
, есть дамп для Neo4j.
Граф полезен для понимания транзитивных связей компонентов, которые за собой приносят то чего не просили много всего удивительного при включении в ваши проекты.
📎 Статья: https://arxiv.org/abs/1901.05392
👀 Датасет: https://zenodo.org/record/1489120#.ZBwDMNJBxHt
‼️ Мы продлеваем срок регистрации на Открытую конференцию ИСП РАН до 23.59 8 декабря!
➡️ Регистрация по ссылке: https://www.isprasopen.ru/#Registration
✔️Напоминаем, конференция пройдет в кластере «Ломоносов» по адресу Москва, Раменский бульвар, д. 1.
Материалы AI SYNC MEETUP | 29.10
#видоснавыходные
Для тех, кто по каким-то причинам пропустил, но всё же захочет посмотреть, доступно видео с митапа: https://vk.com/video-212087550_456239193.
Вышло душевно и лампово, круто, что такие мероприятия появляются в большем объеме.
Подсветим тезисно:
1. [00:00] Валентин Малых рассказал о подходах и задачах, которые они у себя в МТС ИИ применяют в разработке технологии лежащей в основе помощника программиста (кстати, есть название - Kodify).
2. [44:00] Алексей Смирнов пояснил за задачи ML в задачах безопасной разработки. Про то, что успехи какие-то есть, но всем бы ещё подучиться ;).
3. [1:52:00] Павел Плюснин показал, как они в Т-Банке предсказывают какие тесты есть смысл запускать на выполненные коммиты и как это экономит время и мощности.
4. [2:36:00] Дмитрий Пилецкий вскрыл тему с поисками по коду для IDE, ну и при чем тут RAG вы тоже узнаете.
Организаторам - cпасибо!
@codemining
Опубликована программа митапа
"AI4SE: Искусственный Интеллект для Разработки Программного Обеспечения"
18:00 — 18:40: Валентин Малых — "Как мы делаем помощника программиста"
18:40 — 19:20: Алексей Смирнов — "Применение ML в задачах безопасной разработки"
Перерыв: 20 минут
19:40 — 20:20: Павел Плюснин — "Predictive test selection: ускоряем тестирование в десятки раз с помощью ML"
20:20 — 21:00: Дмитрий Пилецкий — "In IDE Code Retriever. RAG для кода, для AI ассистентов и тд"
21:00 — Саморганизовываемся на автопати в один из баров Москвы)
Регистрация на оффлайн здесь (онлайн тоже будет):
https://mts-ai-2024.timepad.ru/event/3019734/
Использование ML/Data-опенсорса в России
Тут коллеги из ИТМО выпустили результаты своих исследований по сабжу. Вышло довольно занимательно.
И про мнение рынка и про популярные проекты.
В нашем следующем исследовании мы решили расширить рамки и рассмотреть вопрос используемости открытых инструментов в знакомых нам областях ИИ, машинного обучения, Data Science и работы с данными в целом. Сегодня мы завершили работу над этим материалом и рады представить его публике.
Шу или Шен
Один мой добрый коллега любит докопаться до официантов в обычных кафе на тему зеленого чая, Шу у них или Шен пуэр. Интересно наблюдать за тем, как работает вычислительная машина в их головах, когда они пытаются вспомнить, какие пакетики чая они видели на кухне :).
Наверное также выглядело и мое лицо когда я познакомился с "очередным" языком функционального программирования SHEN. У языка ещё более десятка разных портов и можно оценить силу паттерн-матчинга, лямбд и т.п., если у вас их не было. Весело же!
Знакомство на 15 минут.
Сайт | Гитхаб
Спасибо всем кто пришел и смотрел. Рассказал о применении «модного» генеративного ИИ для задач инженера ИБ и фаззинге в частности.
Читать полностью…Да, совсем забыли продублировать ближайший CFP.
В марте пройдет конференция по безопасной разработке SafeCode 2024, которую делают JUG.RU, мы там в ПК и смотрим заявки всякие.
Если вы разрабатываете какие-либо инструментарии или проводите исследования, связанные с безопасностью кода и разработки вцелом, то велкам!
Последний день подачи заявки — 18 января.
Конференция пройдет 13 и 14 марта онлайн.
Темы самые разные:
- Инструментарий анализа кода
- Secure SDL + DevSecOps
- Аналитика
- Практика
- Люди и их карьеры
Подавайтесь, заявки будут пристально рассмотрены :)
Уважаемые коллеги!
❗️На сайте ИСП РАН выложен "Сборник технологий" 2023 года:
https://www.ispras.ru/downloads/ISP_RAS_Catalogue_of_technologies_ru.pdf
Тут Владимир с коллегами из JetBrains запустили большую исследовательскую коллаборацию с TU Delft в Нидерландах по применению AI в разработке.
Открыто пять PhD позиций в TU Delft по пяти интересным индустрии темам:
1. Генерация тестов и валидация генерированного кода;
2. Адаптация и оптимизация больших языковых моделей под проектные и другие контексты;
3. Human-Computer Interaction в AI-enabled средах разработки;
4. Использование информации об исполнении кода для улучшения процессов разработки;
5. Использование умных помощников с AI в обучении программированию.
Позиции открыты в Software Engineering Research Group в TU Delft и предполагают совместную работу с исследователями из JetBrains Research (Applied Program Analysis Lab, ICTL, ML4SE) и тесное взаимодействие с коллегами из продуктовых команд.
Позиции открыты до 30 ноября.
Если вы знаете кого-то, кому могут быть интересны эти позиции — передайте им!
С вопросами пишите на ai4se@jetbrains.com или в личку @vovak.
👋 напоминаем про ScaryCode Competition.
🎃 сегодня до 20:00 можно отправить самый страшный код и попасть в зал славы в номинациях: Кровь из носа, Кровь из глаз, Пылающая ненависть или Пылающий стул!
Для подачи нужно:
- залогиниться в ods.ai
- подключиться к контесту
- submit solution
- ???
- profit!!1
До встречи!
Соревнование на определение языка сниппета кода
Чуть не пропустили! Telegram анонсировал соревнование на разработку быстрой библиотеки определения языка для сниппетов кода.
Основные условия:
- язык: любой
- режим работы: локальный
- скорость ответа ограничена 10 мс на фрагменты кода до 4096 символов
- минимум сторонних зависимостей
- максимальный файл подачи в архиве: 2 Гб
- тестовая машинка: 8 ядер, 16 Gb RAM
💬 Кто не участвует, но хочет помочь потенциальным участникам - кидайте идеи в комментарии ;).
🕔 Подача до конца 15 октября по дубайскому времени.
🔗 Страница соревнования.
PaLM 2 — LLM от Google + Bard
Тут вчера многие авторы переживали, что Google как-то кисленько пиарит свои анонсы и вот это вот всё.
Но вчера было и интересненькое, был представлен чат-бот по имени Bard
, который работает с новой LLM-моделью PaLM 2, 540 млрд. параметров с поддержкой 20+ языков программирования. В трейнсет не забыли включить Prolog и Fortran.
Демо-презентация Барда довольно занимательная, рекомендуем к просмотру здесь (буквально 10 минут).
🖖 Особенностью является то, что рекомендуемые исходники сопровождаются аннотацией источника (привет Copilot).
О том, что под капотом написано в PaLM 2 Technical Report.
Что ещё. Помимо обычной редакции PaLM 2
, гугл рассказывает про модификации
Med-PaLM 2 и Sec-PaLM 2. О последнем попробуем рассказать отдельно, когда появится побольше материалов.
Пообщаться с Бардом можно тут, а его api уже успели и пореверсить здесь.
StarCoder — открытая языковая модель для кода
Обучена с уважением к открытым лицензиям, внутри 80+ языков программирования. Основой послужил набор данных The Stack, Github и данные со StackExchange платформы. Внутри 15.5 млрд. параметров. Тренировалась на 512 x Tesla A100 в течение 24 суток.
Статья со всеми описаниями.
⭐️ Ещё есть NER-модель для извлечения всяческих чувствительных данных.
⭐️ С автокомплитом можно поиграться здесь.
⭐️ Попросить сгенерить код, объяснить или попробовать решить задачу можно в чатике.
⭐️ Инструкция по файн-тюнингу тут и большая статья на архиве.
⭐️ Есть ещё плагин для VS Code (не забудьте отключить когда пойдете писать прод код ;)
Мы пощупали, работает довольно прилично. Несмотря на лицензионное соглашение, что нельзя для эксплойтов и т. п., она весьма себе их генерит.
TechTrain — фестиваль про AI для разработки и жизни
Расскажем про анализы исходников и всего такого на грядущем TechTrain, который пройдет в онлайне 1 апреля.
Мероприятие бесплатное. Планируется много интересных докладов.
В докладе рассмотрим тему анализа данных для решения задач программной инженерии в контексте безопасной разработки. Поговорим про актуальные тренды, подходы и алгоритмы. На примерах рассмотрим задачи, которые стоят перед создателями инструментов безопасной разработки.
Доклад будет полезен тем, кто хочет понять, как же это всё работает, получить полезные отсылки к источникам и погрузиться в контекст создания анализаторов исходного кода.
Бесплатная регистрация по ссылке.
Присоединяйтесь!
Буквально минут через 20 начнётся GPT-4 Developer Livestream [1] с демо работы GPT-4 для разработчиков.
А совсем свежая информация о только что вышедшем продукте GPT-4 есть на сайте OpenAI [2].
Ожиданий у рынка очень много, лично я также внимательно слежу и думаю для таких задач можно такой продукт применить.
Ссылки։
[1] https://www.youtube.com/watch?v=outcGtbnMuQ
[2] https://openai.com/product/gpt-4
#openai #gpt4 #languagemodels #ai