Ви є тут

Дані Всеукраїнського перепису населення тепер доступні дослідникам з усього світу


Колектив КПІ. О.Р.Чертов та Д.Ю.Тавров

У сучасному світі з розвитком інформаційних технологій та глобальних тенденцій стає все важче приховувати інформацію, у тому числі статистичного характеру. Поширеною практикою є надання відкритого доступу до статистичних даних для проведення різного роду досліджень будь-якими зацікавленими сторонами.

Основним джерелом статистичних даних є перепис населення, який, за влучним висловом прес-секретаря Бюро перепису населення США М. Вуда, є найзатратнішою операцією, яку держава проводить у мирний час. Найбільшою базою даних переписів населення у світі є база проекту IPUMS-International Міннесотського центру народонаселення (Університет штату Міннесота, США). На даний момент вона налічує понад 560 мільйонів персональних записів, що репрезентують більше 80% населення земної кулі (79 країн/територій).

28 липня 2014 року відбулося чергове розширення бази проекту шляхом додавання до неї мікроданих переписів із 8 країн: Гани, Домініканської Республіки, Замбії, Ірландії, Ліберії, Малі, Нігерії та України. Таким чином, дані 10% вибірки домогосподарств Всеукраїнського перепису населення 2001 року вперше стали доступні дослідникам з усього світу.

Дані перепису населення можуть містити інформацію, яка однозначно ідентифікує особу, наприклад, її персональні дані (ім'я та прізвище, паспортні дані тощо). Таку інформацію зазвичай вилучають із бази. Проте на практиці цього виявляється недостатньо. Наприклад, як показала дослідниця Л. Суїні, 97% жителів американського штату Массачусетс мають унікальну комбінацію повної дати народження та поштового індексу. Тому для максимального захисту інформації про окрему особу потрібно застосовувати набагато складніші методи забезпечення індивідуальної анонімності даних.

Окрім захисту інформації про особу, перед публікацією даних потрібно також забезпечувати належний рівень захисту інформації про групу осіб. Важливість цієї проблеми можна проілюструвати на простому прикладі. За наявності в наборі даних інформації про місце роботи особи та факт її перебування в лавах національних збройних сил можна знайти розподіл кількості військових за територіальними одиницями держави. Максимуми в такому розподілі можуть вказати на місцезнаходження, наприклад, військової бази. Для захисту такого роду розподілів потрібно застосовувати методи забезпечення групової анонімності даних.

Методи забезпечення анонімності даних було використано під час підготовки мікроданих українського перепису. Провідну роль у цьому процесі відіграли науковці кафедри прикладної математики НТУУ "КПІ" д.т.н. О.Р.Чертов, який уперше запропонував ідею забезпечення групової анонімності даних, та представник його наукової школи аспірант Д.Ю.Тавров. За підтримки Державної служби статистики України вони застосували до даних перепису населення методи індивідуальної та групової анонімізації, забезпечивши таким чином надійний рівень їх захисту.

Докладніше ознайомитися з проектом IPUMS-International та отримати доступ до даних Всеукраїнського перепису населення 2001 року можна за посиланням https://international.ipums. org/international/.

О.Р.Чертов, в.о. завідувача кафедри прикладної математики

x

Електронний кампус

Інформаційні ресурси

Викладачі КПІ

GitHub репозиторій