Нещодавно команда третьокурсників кафедри ПМА факультету прикладної математики КПІ ім. Ігоря Cікорського продемонструвала високі результати на міжнародному змаганні у сфері машинного навчання та обробки природної мови Make Data Count – Find Data References. Ця команда, під назвою NeoNa, у складі Микити Баркалова, Миколи Бована, Іллі Палієнка та Богдана Ткача зайняла 27-ме місце (а участь у турнірі брали 1282 команди!) та здобула срібну медаль. Про участь студентів-політехніків у цих змаганнях розповів корреспонденту "Київського політехніка" завідувач кафедри прикладної математики ФПМ Данило Тавров.

✨✨✨

– Сучасна прикладна математика, як ми це розуміємо на кафедрі прикладної математики, – це не лише формули та доведення, а й активне занурення у світ сучасних технологій. Освітня програма підготовки бакалаврів на нашій кафедрі має назву "Машинне навчання та математичне моделювання", чим ми підкреслюємо, що одним із ключових пріоритетів є для нас розвиток напрямів машинного навчання та штучного інтелекту. Ми переконані, що фундаментальна математична підготовка є основою для успішної роботи з даними, побудови моделей та створення нових алгоритмів. Важливою частиною нашої роботи є підтримка студентських ініціатив. Ми заохочуємо студентів брати участь у міжнародних хакатонах і змаганнях, адже саме в таких умовах вони здобувають практичний досвід, навчаються командній роботі та набувають навичок поєднувати академічні знання з реальними викликами сучасної науки й індустрії. Приємно відзначити, що наші студенти впевнено заявляють про себе на міжнародному рівні, демонструючи, що поєднання глибоких математичних знань та інтересу до нових технологій відкриває шлях до вагомих результатів.

– Яким був формат змагань та як вони проходили?

– До участі в змаганні могли долучатися всі охочі – від студентів і молодих дослідників до досвідчених фахівців із Data Science. Змагання поєднує академічні цілі (підвищення прозорості й відтворюваності досліджень) із практичними викликами машинного навчання: робота з текстами, PDF та XML, обробка "брудних" даних, побудова моделей для класифікації. Метою змагання були не лише перевірка технічних навичок учасників, а й створення відкритих інструментів, які допомагають науковій спільноті робити дані більш видимими та відстежуваними. Змагання відбувалося в онлайн-форматі протягом трьох місяців (червень – вересень 2025 року). Організатори надавали дані та технічні інструкції. Команди завантажували свої рішення на платформу, де відбувалася автоматична перевірка точності моделей.

Далі – безпосередні враження Микити Баркалова, Миколи Бована, Іллі Палієнка та Богдана Ткача, які самостійно сформували команду для участі у змаганнях:

– Ми ще з першого курсу цікавились машинним навчанням, брали участь у різних хакатонах і досягали там успіху. Спостерігаючи за оголошеннями і здійснюючи моніторинг джерел, ми натрапили на Make Data Count і вирішили долучитися для набуття досвіду роботи з NLP у контексті наукових даних. Для координації роботи ми використовували Notion для планування та документування, Discord для оперативного спілкування, систему контролю версій (Kaggle/репозиторій) для збереження коду та експериментів. Проводили два типи онлайн-зустрічей: планові і практичні сесії. Слід зазначити, що навчання в КПІ на кафедрі прикладної математики дало нам потужний математичний фундамент, що стало важливою перевагою у роботі з моделями та аналізом результатів. Завдяки цьому ми змогли скоординуватися як команда й досягти помітного результату.

Під час змагання ми зіткнулися з кількома ключовими проблемами. По-перше, дуже погана якість та часткова відсутність даних. У тренувальних даних була велика кількість помилок: близько 60% записів не містили значень цільової змінної. По-друге, під час тренування та ансамблювання великих мовних моделей виникали обмеження відеопам'яті, незважаючи на використання потужних відеокарт у хмарному середовищі Kaggle. І, по-третє, багато команд, що опинилися вище за нас у рейтингу, активно використовували відкриті дані без глибшого аналізу контексту згадування посилання. Хоч це давало хороші метрики на публічних даних, на наш погляд такий підхід погано узагальнюється на нових даних і не зовсім відповідає цілям змагання. Цікаво, що більшість команд із вищими результатами робили ставку лише на відкриті дані, ігноруючи контекст згадування посилань. Ми ж вважаємо, що такий підхід не має узагальнюючої здатності на нових даних.

Участь у змаганні була цікавою та пізнавальною, хоча й непростою. Ми здобули цінний досвід у роботі з "брудними" науковими даними, побудові конвеєрів для NLP та організації командної роботи. Плануємо й надалі брати участь у подібних змаганнях для підвищення кваліфікації і покращення методів. Дякуємо організаторам ініціативи Make Data Count та всім, хто підтримував нас під час змагання.

Підготував Володимир Школьний
за інформацією Данила Таврова

Дата події

Бібліотечка газети «Київський політехнік»

Бібліотечка газети «Київський політехнік» надає читачам доступ до книжкових видань, підготовлених співробітниками редакції та дописувачами газети. Деякі з них вже вийшли друком на папері, інші поки що можна прочитати лише в електронному варіанті. Це книжки з історії Національного технічного університету України «Київський політехнічний інститут ім. Ігоря Сікорського», біографії великих науковців, збірки публікацій газети різних років з різноманітної тематики тощо. Редакція газети планує час від часу поповнювати бібліотечку. Про нові надходження ми повідомлятимемо в газеті та на її Інтернет-сторінках.