Нещодавно команда третьокурсників кафедри ПМА факультету прикладної математики КПІ ім. Ігоря Cікорського продемонструвала високі результати на міжнародному змаганні у сфері машинного навчання та обробки природної мови Make Data Count – Find Data References. Ця команда, під назвою NeoNa, у складі Микити Баркалова, Миколи Бована, Іллі Палієнка та Богдана Ткача зайняла 27-ме місце (а участь у турнірі брали 1282 команди!) та здобула срібну медаль. Про участь студентів-політехніків у цих змаганнях розповів корреспонденту "Київського політехніка" завідувач кафедри прикладної математики ФПМ Данило Тавров.
– Сучасна прикладна математика, як ми це розуміємо на кафедрі прикладної математики, – це не лише формули та доведення, а й активне занурення у світ сучасних технологій. Освітня програма підготовки бакалаврів на нашій кафедрі має назву "Машинне навчання та математичне моделювання", чим ми підкреслюємо, що одним із ключових пріоритетів є для нас розвиток напрямів машинного навчання та штучного інтелекту. Ми переконані, що фундаментальна математична підготовка є основою для успішної роботи з даними, побудови моделей та створення нових алгоритмів. Важливою частиною нашої роботи є підтримка студентських ініціатив. Ми заохочуємо студентів брати участь у міжнародних хакатонах і змаганнях, адже саме в таких умовах вони здобувають практичний досвід, навчаються командній роботі та набувають навичок поєднувати академічні знання з реальними викликами сучасної науки й індустрії. Приємно відзначити, що наші студенти впевнено заявляють про себе на міжнародному рівні, демонструючи, що поєднання глибоких математичних знань та інтересу до нових технологій відкриває шлях до вагомих результатів.
– Яким був формат змагань та як вони проходили?
– До участі в змаганні могли долучатися всі охочі – від студентів і молодих дослідників до досвідчених фахівців із Data Science. Змагання поєднує академічні цілі (підвищення прозорості й відтворюваності досліджень) із практичними викликами машинного навчання: робота з текстами, PDF та XML, обробка "брудних" даних, побудова моделей для класифікації. Метою змагання були не лише перевірка технічних навичок учасників, а й створення відкритих інструментів, які допомагають науковій спільноті робити дані більш видимими та відстежуваними. Змагання відбувалося в онлайн-форматі протягом трьох місяців (червень – вересень 2025 року). Організатори надавали дані та технічні інструкції. Команди завантажували свої рішення на платформу, де відбувалася автоматична перевірка точності моделей.
Далі – безпосередні враження Микити Баркалова, Миколи Бована, Іллі Палієнка та Богдана Ткача, які самостійно сформували команду для участі у змаганнях:
– Ми ще з першого курсу цікавились машинним навчанням, брали участь у різних хакатонах і досягали там успіху. Спостерігаючи за оголошеннями і здійснюючи моніторинг джерел, ми натрапили на Make Data Count і вирішили долучитися для набуття досвіду роботи з NLP у контексті наукових даних. Для координації роботи ми використовували Notion для планування та документування, Discord для оперативного спілкування, систему контролю версій (Kaggle/репозиторій) для збереження коду та експериментів. Проводили два типи онлайн-зустрічей: планові і практичні сесії. Слід зазначити, що навчання в КПІ на кафедрі прикладної математики дало нам потужний математичний фундамент, що стало важливою перевагою у роботі з моделями та аналізом результатів. Завдяки цьому ми змогли скоординуватися як команда й досягти помітного результату.
Під час змагання ми зіткнулися з кількома ключовими проблемами. По-перше, дуже погана якість та часткова відсутність даних. У тренувальних даних була велика кількість помилок: близько 60% записів не містили значень цільової змінної. По-друге, під час тренування та ансамблювання великих мовних моделей виникали обмеження відеопам'яті, незважаючи на використання потужних відеокарт у хмарному середовищі Kaggle. І, по-третє, багато команд, що опинилися вище за нас у рейтингу, активно використовували відкриті дані без глибшого аналізу контексту згадування посилання. Хоч це давало хороші метрики на публічних даних, на наш погляд такий підхід погано узагальнюється на нових даних і не зовсім відповідає цілям змагання. Цікаво, що більшість команд із вищими результатами робили ставку лише на відкриті дані, ігноруючи контекст згадування посилань. Ми ж вважаємо, що такий підхід не має узагальнюючої здатності на нових даних.
Участь у змаганні була цікавою та пізнавальною, хоча й непростою. Ми здобули цінний досвід у роботі з "брудними" науковими даними, побудові конвеєрів для NLP та організації командної роботи. Плануємо й надалі брати участь у подібних змаганнях для підвищення кваліфікації і покращення методів. Дякуємо організаторам ініціативи Make Data Count та всім, хто підтримував нас під час змагання.