codemining | Unsorted

Telegram-канал codemining - Code Mining

902

ML4Code во всей красе, анализ кода и артефактов: лицензии, уязвимости, процессы. Комментарии к актуальным и не очень новостям, аналитика, эпизодический авторский контент, мемасики. При поддержке: ods.ai, @codescoring По вопросам — @alsmirn

Subscribe to a channel

Code Mining

LLM-based agents for Software Engineering

В сентябре вышел большой труд от китайских коллег: "Large Language Model-Based Agents for Software Engineering: A Survey".

Статья рассматривает аспекты применения LLM-основанных агентов в разных задачах программной инженерии (скрин). Чего там только нет! Добрая сотня доменных инструментов, которые ещё и сравниваются между собой и идет дискуссия о том как эти вещи принято строить в разных случаях.

Будем смотреть согласно своим интересам и что-нибудь обозревать.

Если вы нашли что-то интересненькое — делитесь в комментариях.

Да, к статье прилагается репо с большим количеством ссылок по темам: https://github.com/FudanSELab/Agent4SE-Paper-List.

Читать полностью…

Code Mining

‼️ Напоминаем, что сегодня последний день приёма статей и тезисов на Открытую конференцию ИСП РАН, которая состоится 11-12 декабря в Москве, в инновационном кластере «Ломоносов».

✔️Если вы планируете выступить в рецензируемых секциях, загрузите материалы до 23:59 по московскому времени! Все подробности: https://www.isprasopen.ru/#Submission.

Напоминаем, что для прохода в здание нужно зарегистрироваться! Регистрация участников до 23:59 6 декабря: https://www.isprasopen.ru/#Registration.

Читать полностью…

Code Mining

Открытая конференция ИСП РАН 2024

11-12 декабря в Москве пройдет конференция ISPRASOpen посвященная 30-летию Института и 300-летию РАН.

Напомним, что Институт системного программирования известен своими технологиями и мощной экспертизой не только программной инженерии, но и исследованиях в области искусственного интеллекта и медицины.

В этом году вновь будут представлены доклады в секции Технологии анализа, моделирования и трансформации программ:
- обратная инженерия бинарного (исполняемого) кода
- выполнение программ в контролируемом окружении
- поиск ошибок и уязвимостей в исполняемом коде
- анализ сетевого трафика
- оптимизации в компиляторе и генерация кода
- статический и динамический анализ программ
- методы и инструменты анализа и тестирования программ
- запутывание программ (обфускация)

В прошлом году было более 1000 участников, интересные стенды и много-много полезного общения для предновогодней подзарядки. В этом году ожидается более полутора тысяч человек и ещё большие масштабы.

🗓 11 и 12 декабря 2024
📍 Инновационный кластер "Ломоносов"

Участие бесплатное, регистрация необходима (до 6 ноября).
- Сайт конференции
- Предварительная программа

А ещё вы можете даже успеть со статьей и тезисами до 7 ноября.

@codemining

Читать полностью…

Code Mining

Митап "AI4SE: Искусственный Интеллект для Разработки Программного Обеспечения"

MTS AI проводит митап посвященный исследованиям и практическому применению искусственного интеллекта в сфере разработки программного обеспечения (Software Engineering).

План встречи:
1. Введение в AI4SE: Основные концепции и области применения AI в разработке ПО.
2. Инструменты и технологии: Обзор современных инструментов на базе AI, которые используют разработчики.
3. Кейсы и истории успеха: Практические примеры и кейсы использования AI для оптимизации процессов разработки.
4. Панельная дискуссия: Экспертное обсуждение текущих трендов и перспектив внедрения AI в Software Engineering.
5. Q&A сессия: Вопросы и ответы от участников и спикеров.

Кому будет интересно:
- Разработчикам программного обеспечения
- Инженерам-тестировщикам
- Дата-сайентистам
- Менеджерам проектов и продуктов
- IT-энтузиастам и исследователям в области AI

Участие бесплатное, регистрация на оффлайн обязательна.
https://mts-ai-2024.timepad.ru/event/3019734/

Дата: 29 октября
Время: 19:00
Место: Офис MTS AI, м. Курская

Пицца, интересные доклады, реальные кейсы и нетворкинг!

Будет и онлайн.

Читать полностью…

Code Mining

Иванниковские чтения 2024

Уже 17-18 мая в Великом Новгороде пройдет очередная конференция Иванниковские чтения, где будут представлены направления:
- Анализ, моделирование и трансформации программ
- Анализ данных в медицине
- Управление данными и информационные системы
+ круглые столы по эмуляции и разработке безопасного ПО

Программа опубликована на сайте.

В секции «Технологии анализа, моделирования и трансформации программ» докладов много разных, подсветим некоторые из названий докладов:
- Большие языковые модели в статическом анализе исходного кода
- Пользовательские детекторы в статическом анализе на основе символьного выполнения
- Статический анализ для языка Scala
- Статический анализ ассоциативных массивов в Go
- Классификация предупреждений статического анализа методами машинного обучения
- Обнаружение вредоносной активности в проектах с открытым исходным кодом с помощью методов машинного обучения
- О методах извлечения алгоритмов из бинарного кода
- Статическое распределение памяти для операционных систем реального времени
- Автоматизация выполнения регрессионных тестов на гонки по данным

А ещё целых 5 докладов о фаззинге и многое другое.

Приходите, приезжайте, будет интересно.

Участие бесплатное.
Регистрация обязательна (открыта до 13 мая).

Сайт конференции: https://www.ivannikov-ws.org/

Читать полностью…

Code Mining

Демосцена

Как-то слишком часто вокруг меня вспоминалась демосцена в последний месяц.

Начиная с прекрасной, но прекратившей свое существование финской Assembly, заканчивая питерским Chaos Constructions, который ещё жив. Ух, какая там когда-то (2000/1) была атмосфера, ночевка в спальниках на конференции, кодинг 24x2/3, нереальные демки и конкурсы по метанию винчестеров и т.п.

Это всё было суперлампово и клёво (слеза).

О технических подробностях того, как это всё делалось, ликбез по алгоритмам, принципам и архитектуре обнаружен в видео с докладом от Александра Кухаренко "Демосцена: в погоне за wow-фактором":
https://www.youtube.com/watch?v=gl_Ikc_tOe4

А для кого это слово новое, можно полистать вики :).

#видоснавыходные

Читать полностью…

Code Mining

Иванниковские чтения 2024

CFP на Иванниковские чтения открыто, конференция, состоится 17-18 мая 2024 года в Великом Новгороде.

Секция по анализу и трансформации программ посвящена методам оптимизации в компиляторе, кодогенерации, статическому и динамическому анализу программ и др., а также различным методам, архитектурам и компонентам современных операционных систем для эффективных вычислений и систем контроля. В частности, рассматриваются следующие темы:
- Обратная инженерия бинарного (исполняемого) кода.
- Выполнение программ в контролируемом окружении.
- Поиск ошибок и уязвимостей в исполняемом коде.
- Анализ сетевого трафика.
- Оптимизации в компиляторе.
- Статический и динамический анализ программ.
- Методы и инструменты анализа и тестирования программ.
- Безопасность и конфиденциальность в ОС.
- Жизненный цикл разработки: стандарты и сертификация.
- ОС реального времени, интернет вещей.
- Сетевые стеки и технологии.
- Архитектура операционных систем (в том числе, ядра ОС).

Также будет секция "Управление данными и информационные системы", открытые темы можно посмотреть на сайте. Параллельно будет проводиться конференция по анализу данных в медицине.

Участие бесплатное, регистрация обязательная:
https://www.ivannikov-ws.org/#Registration

Чтобы представить результаты своей научной работы в рамках секций, необходимо прислать на рассмотрение статью или тезисы. Требования к материалам и другие подробности — в разделе «Публикации».

Материалы подаются через систему Easychair:
https://easychair.org/conferences/?conf=ivmem2024

Важные даты:
- Срок подачи материалов: до 12 апреля 2024 г. (23:59, GMT+3)
- Уведомление о включении в программу: до 26 апреля 2024 г. (23:59, GMT+3)
- Готовые к публикации статьи: до 1 июня 2024 г.
- Регистрация участников: до 13 мая 2024 г.

По всем вопросам можно обращаться по e-mail scsec@ispras.ru.

Читать полностью…

Code Mining

ODS Data Elka

В субботу прошла прекрасная Data Elka, где мы пытались подвести какие-то спешные итоги в легковесном формате, рассказали про конференции, общую статистику в Open Source, про подготовку Open Source Report,не забыли про безопасность, качество ;), крупные релизы Яндекса и их гранты для OSS-разработчиков и вот это вот всё.

Также по части ML on Code всякого интересного порассказывал Валентин Малых в подведении итогов 23 года в NLP, рекомендуем к ознакомлению!

Кому таймкоды не нравятся, можно посмотреть весь стрим здесь:
https://www.youtube.com/watch?v=iFJBSbPXRBM

Ну а мы всем желаем хорошего нового года, чистого и не менее полезного кода! Уррра)

Читать полностью…

Code Mining

Нас тут спрашивали, будет ли обновленный сборник технологий ИСП РАН, отвечаем:

Читать полностью…

Code Mining

Открытая конференция ИСП РАН 2023

В начале декабря в Москве пройдет конференция ISPRASOpen посвященная 75-летию отечественных информационных технологий при поддержке РАН, ФПИ, а также IEEE и IEEE Computer Society.

Институт системного программирования известен своими технологиями и мощной экспертизой не только программной инженерии, но и исследованиях в области искусственного интеллекта и медицины.

В этом году будут представлены доклады о технологиях анализа, моделирования и трансформации программ, управления данными и информационными системами, решении задач механики сплошных сред с использованием СПО, САПР микроэлектронной аппаратуры и лингвистические системы анализа.

Состоится выставка технологий ИСП РАН и компаний-партнёров. Если вы хотели познакомиться поближе с решениями и их авторами, то обязательно нужно быть.


🗓 4 и 5 декабря 2023
📍 Главное здание Российской академии наук

Участие бесплатное, необходима регистрация.
Сайт конференции: https://www.isprasopen.ru/

Читать полностью…

Code Mining

Data Halloween 2023

🖖 Урра. Любимое сообщество ODS не перестает радовать новыми событиями!

Когда? 28 октября, суббота, с 11:00 до 19:00+
Где: ODS Youtube + нетворкинг в spatial.chat 👀

В субботу будут Доклады, Конкурс Scary Code и старая добрая классика "Собеседования в никуда", в золотом составе организаторов 🤴👸🫅.

А ещё, сообщество CodeMining (это мы) проводит уже четвертый по счету конкурс на говноScary Code, в котором может поучаствовать любой желающий и получить памятный мерч от ODS.

В этом году, к фирменному ODS-мерчу будет приплюсованы модные футболки от CodeScoring.

🎃 Регистрация на Dats Halloween по ссылке: https://ods.ai/events/halloween2023

😨😨😨
Правила и подача на ScaryCode!
Правила и подача на ScaryCode!
Правила и подача на ScaryCode!

Зы, ещё будет и оффлайн в Питере, 27 числа, следите за расписанием.

Читать полностью…

Code Mining

Визуализация кластеризации проектов на Github

По наводке от Ивана Бегтина делимся ссылкой на увлекательную интерактивную карту проектов на Github.

Анализу подверглось 400k+ репозиториев, обработано 350 млн. "звезд". Кластеризация по мере Жаккара.

Особенно умиляют названия кластеров, прямо ми-ми-ми.
Интересующий проект можно найти в формочке поиска.

Покрутить | Исходники

Читать полностью…

Code Mining

Github code search теперь открыт для всех желающих

Год назад Github запустил сервис Code Search на отдельном домене cs. куда доступ был строго по заявкам (давали многим).

С 8 мая сервис открыт для всех желающих в рамках стандартного окна поиска: https://github.com/search?type=code&auto_enroll=true

Можно искать конкретные файлы по шаблону и кодовые конструкции по регекспам. Ищет не по всему (в больших файлах в первых 500Kb, в форках только если больше звезд чем у оригинала и т.п.), но находит очень многое.

Полезно для нахождения:
⭐️ лучших практик (или какие найдутся)
⭐️ примеров конфигураций
⭐️ секретиков
⭐️ уязвимых конструкций

Видосик для большей наглядности вариантов использования.

Полезная статья, объясняющая как это всё устроено под капотом.

Читать полностью…

Code Mining

CFP Code Mining на Data Fest 2023 🎉🎉🎉

Во второй половине мая стартует Data Fest 2023.

Мы тоже не остаемся в стороне и делаем секцию с докладами и нетворкингом про анализ исходных кодов и сопутствующих артефактов (пакеты, тикеты, комментарии и т.п.).

Темы могут быть самые разные:
- анализ качества
- анализ git-repo
- анализ кода на безопасность
- анализ pull-requests, comments, etc
- поиск кода
- генерация кода

Тайминги тоже могут быть самые разные: 20-40-60 минут, тут посмотрим по материалу.

Участие онлайн, но будет доступна опция и оффлайн выступления (следите за новостями).

🗓 Дату проведения определяем на майских праздниках, ориентировочно мероприятие пройдет в рамках 23-28 мая.

✨Объявляем CFP открытым!

👉 Подача до середины мая.

P.S. Со всеми свяжемся, тезисы можно будет уточнить, а тему поменять ;).

Читать полностью…

Code Mining

Кранчим графы зависимостей

В процессе разрешения зависимостей OpenSource библиотек all-over-the-world, вспомнилась полезная работа с MSR'19. Результаты и подходы могут быть полезны тем кто занимается анализом зависимостей или же извлечением инсайдов из графовых структур данных.

Коллеги обработали более 200 тысяч библиотек и построили граф на 9.7 млн связей, который и опубликовали. Есть csv, есть дамп для Neo4j.

Граф полезен для понимания транзитивных связей компонентов, которые за собой приносят то чего не просили много всего удивительного при включении в ваши проекты.

📎 Статья: https://arxiv.org/abs/1901.05392

👀 Датасет: https://zenodo.org/record/1489120#.ZBwDMNJBxHt

Читать полностью…

Code Mining

‼️ Мы продлеваем срок регистрации на Открытую конференцию ИСП РАН до 23.59 8 декабря!

➡️ Регистрация по ссылке:
https://www.isprasopen.ru/#Registration

✔️Напоминаем, конференция пройдет в кластере «Ломоносов» по адресу Москва, Раменский бульвар, д. 1.

Читать полностью…

Code Mining

Материалы AI SYNC MEETUP | 29.10

#видоснавыходные

Для тех, кто по каким-то причинам пропустил, но всё же захочет посмотреть, доступно видео с митапа: https://vk.com/video-212087550_456239193.

Вышло душевно и лампово, круто, что такие мероприятия появляются в большем объеме.

Подсветим тезисно:
1. [00:00] Валентин Малых рассказал о подходах и задачах, которые они у себя в МТС ИИ применяют в разработке технологии лежащей в основе помощника программиста (кстати, есть название - Kodify).

2. [44:00] Алексей Смирнов пояснил за задачи ML в задачах безопасной разработки. Про то, что успехи какие-то есть, но всем бы ещё подучиться ;).

3. [1:52:00] Павел Плюснин показал, как они в Т-Банке предсказывают какие тесты есть смысл запускать на выполненные коммиты и как это экономит время и мощности.

4. [2:36:00] Дмитрий Пилецкий вскрыл тему с поисками по коду для IDE, ну и при чем тут RAG вы тоже узнаете.

Организаторам - cпасибо!

@codemining

Читать полностью…

Code Mining

Опубликована программа митапа
"AI4SE: Искусственный Интеллект для Разработки Программного Обеспечения"

18:00 — 18:40: Валентин Малых — "Как мы делаем помощника программиста"

18:40 — 19:20: Алексей Смирнов — "Применение ML в задачах безопасной разработки"

Перерыв: 20 минут

19:40 — 20:20: Павел Плюснин — "Predictive test selection: ускоряем тестирование в десятки раз с помощью ML"

20:20 — 21:00: Дмитрий Пилецкий — "In IDE Code Retriever. RAG для кода, для AI ассистентов и тд"

21:00 — Саморганизовываемся на автопати в один из баров Москвы)

Регистрация на оффлайн здесь (онлайн тоже будет):
https://mts-ai-2024.timepad.ru/event/3019734/

Читать полностью…

Code Mining

Использование ML/Data-опенсорса в России

Тут коллеги из ИТМО выпустили результаты своих исследований по сабжу. Вышло довольно занимательно.
И про мнение рынка и про популярные проекты.

В нашем следующем исследовании мы решили расширить рамки и рассмотреть вопрос используемости открытых инструментов в знакомых нам областях ИИ, машинного обучения, Data Science и работы с данными в целом. Сегодня мы завершили работу над этим материалом и рады представить его публике.


Само исследование.
Обсудить в чате с авторами.

Читать полностью…

Code Mining

Шу или Шен

Один мой добрый коллега любит докопаться до официантов в обычных кафе на тему зеленого чая, Шу у них или Шен пуэр. Интересно наблюдать за тем, как работает вычислительная машина в их головах, когда они пытаются вспомнить, какие пакетики чая они видели на кухне :).

Наверное также выглядело и мое лицо когда я познакомился с "очередным" языком функционального программирования SHEN. У языка ещё более десятка разных портов и можно оценить силу паттерн-матчинга, лямбд и т.п., если у вас их не было. Весело же!

Знакомство на 15 минут.

Сайт | Гитхаб

Читать полностью…

Code Mining

Спасибо всем кто пришел и смотрел. Рассказал о применении «модного» генеративного ИИ для задач инженера ИБ и фаззинге в частности.

Читать полностью…

Code Mining

Да, совсем забыли продублировать ближайший CFP.

В марте пройдет конференция по безопасной разработке SafeCode 2024, которую делают JUG.RU, мы там в ПК и смотрим заявки всякие.

Если вы разрабатываете какие-либо инструментарии или проводите исследования, связанные с безопасностью кода и разработки вцелом, то велкам!

Последний день подачи заявки — 18 января.

Конференция пройдет 13 и 14 марта онлайн.

Темы самые разные:
- Инструментарий анализа кода
- Secure SDL + DevSecOps
- Аналитика
- Практика
- Люди и их карьеры

Подавайтесь, заявки будут пристально рассмотрены :)

Читать полностью…

Code Mining

Уважаемые коллеги!

❗️На сайте ИСП РАН выложен "Сборник технологий" 2023 года:

https://www.ispras.ru/downloads/ISP_RAS_Catalogue_of_technologies_ru.pdf

Читать полностью…

Code Mining

Тут Владимир с коллегами из JetBrains запустили большую исследовательскую коллаборацию с TU Delft в Нидерландах по применению AI в разработке.

Открыто пять PhD позиций в TU Delft по пяти интересным индустрии темам:
1. Генерация тестов и валидация генерированного кода;
2. Адаптация и оптимизация больших языковых моделей под проектные и другие контексты;
3. Human-Computer Interaction в AI-enabled средах разработки;
4. Использование информации об исполнении кода для улучшения процессов разработки;
5. Использование умных помощников с AI в обучении программированию.

Позиции открыты в Software Engineering Research Group в TU Delft и предполагают совместную работу с исследователями из JetBrains Research (Applied Program Analysis Lab, ICTL, ML4SE) и тесное взаимодействие с коллегами из продуктовых команд.

Позиции открыты до 30 ноября.

Если вы знаете кого-то, кому могут быть интересны эти позиции — передайте им!

С вопросами пишите на ai4se@jetbrains.com или в личку @vovak.

Читать полностью…

Code Mining

👋 напоминаем про ScaryCode Competition.

🎃 сегодня до 20:00 можно отправить самый страшный код и попасть в зал славы в номинациях: Кровь из носа, Кровь из глаз, Пылающая ненависть или Пылающий стул!

Для подачи нужно:
- залогиниться в ods.ai
- подключиться к контесту
- submit solution
- ???
- profit!!1

До встречи!

Читать полностью…

Code Mining

Соревнование на определение языка сниппета кода

Чуть не пропустили! Telegram анонсировал соревнование на разработку быстрой библиотеки определения языка для сниппетов кода.

Основные условия:

- язык: любой

- режим работы: локальный

- скорость ответа ограничена 10 мс на фрагменты кода до 4096 символов

- минимум сторонних зависимостей

- максимальный файл подачи в архиве: 2 Гб

- тестовая машинка: 8 ядер, 16 Gb RAM


💬 Кто не участвует, но хочет помочь потенциальным участникам - кидайте идеи в комментарии ;).

🕔 Подача до конца 15 октября по дубайскому времени.

🔗 Страница соревнования.

Читать полностью…

Code Mining

PaLM 2 — LLM от Google + Bard

Тут вчера многие авторы переживали, что Google как-то кисленько пиарит свои анонсы и вот это вот всё.

Но вчера было и интересненькое, был представлен чат-бот по имени Bard, который работает с новой LLM-моделью PaLM 2, 540 млрд. параметров с поддержкой 20+ языков программирования. В трейнсет не забыли включить Prolog и Fortran.

Демо-презентация Барда довольно занимательная, рекомендуем к просмотру здесь (буквально 10 минут).

🖖 Особенностью является то, что рекомендуемые исходники сопровождаются аннотацией источника (привет Copilot).

О том, что под капотом написано в PaLM 2 Technical Report.

Что ещё. Помимо обычной редакции PaLM 2, гугл рассказывает про модификации
Med-PaLM 2 и Sec-PaLM 2. О последнем попробуем рассказать отдельно, когда появится побольше материалов.

Пообщаться с Бардом можно тут, а его api уже успели и пореверсить здесь.

Читать полностью…

Code Mining

StarCoder — открытая языковая модель для кода

Обучена с уважением к открытым лицензиям, внутри 80+ языков программирования. Основой послужил набор данных The Stack, Github и данные со StackExchange платформы. Внутри 15.5 млрд. параметров. Тренировалась на 512 x Tesla A100 в течение 24 суток.
Статья со всеми описаниями.

⭐️ Ещё есть NER-модель для извлечения всяческих чувствительных данных.

⭐️ С автокомплитом можно поиграться здесь.

⭐️ Попросить сгенерить код, объяснить или попробовать решить задачу можно в чатике.

⭐️ Инструкция по файн-тюнингу тут и большая статья на архиве.

⭐️ Есть ещё плагин для VS Code (не забудьте отключить когда пойдете писать прод код ;)

Мы пощупали, работает довольно прилично. Несмотря на лицензионное соглашение, что нельзя для эксплойтов и т. п., она весьма себе их генерит.

Читать полностью…

Code Mining

TechTrain — фестиваль про AI для разработки и жизни

Расскажем про анализы исходников и всего такого на грядущем TechTrain, который пройдет в онлайне 1 апреля.

Мероприятие бесплатное. Планируется много интересных докладов.

В докладе рассмотрим тему анализа данных для решения задач программной инженерии в контексте безопасной разработки. Поговорим про актуальные тренды, подходы и алгоритмы. На примерах рассмотрим задачи, которые стоят перед создателями инструментов безопасной разработки.

Доклад будет полезен тем, кто хочет понять, как же это всё работает, получить полезные отсылки к источникам и погрузиться в контекст создания анализаторов исходного кода.

Бесплатная регистрация по ссылке.
Присоединяйтесь!

Читать полностью…

Code Mining

Буквально минут через 20 начнётся GPT-4 Developer Livestream [1] с демо работы GPT-4 для разработчиков.
А совсем свежая информация о только что вышедшем продукте GPT-4 есть на сайте OpenAI [2].

Ожиданий у рынка очень много, лично я также внимательно слежу и думаю для таких задач можно такой продукт применить.

Ссылки։
[1] https://www.youtube.com/watch?v=outcGtbnMuQ
[2] https://openai.com/product/gpt-4

#openai #gpt4 #languagemodels #ai

Читать полностью…
Subscribe to a channel