В современном мире с развитием информационных технологий и глобальных тенденций становится все труднее скрывать информацию, в том числе статистического характера. Распространенной практикой является предоставление открытого доступа к статистическим данным для проведения разного рода исследований любыми заинтересованными сторонами.
Основным источником статистических данных является перепись населения, который, по меткому выражению пресс-секретаря Бюро переписи населения США М. Вуда, является самый затратный операцией, которую государство проводит в мирное время. Крупнейшей базой данных переписей населения в мире база проекта IPUMS-International Миннесотского центра народонаселения (Университет штата Миннесота, США). На данный момент она насчитывает более 560 миллионов персональных записей, представляющих более 80% населения земного шара (79 стран / территорий).
28 июля 2014 состоялось очередное расширение базы проекта путем добавления к ней микроданных переписей из 8 стран: Ганы, Доминиканской Республики, Замбии, Ирландии, Либерии, Мали, Нигерии и Украины. Таким образом, данные 10% выборки домохозяйств Всеукраинской переписи населения 2001 года впервые стали доступны исследователям со всего мира.
Данные переписи населения могут содержать информацию, которая однозначно идентифицирует лицо, например, ее персональные данные (имя и фамилия, паспортные данные и т.д.). Такую информацию обычно извлекается из базы. Однако на практике этого оказывается недостаточно. Например, как показала исследовательница Л. Суини, 97% жителей американского штата Массачусетс имеют уникальную комбинацию полной даты рождения и почтового индекса. Поэтому для максимальной защиты информации об отдельной личности нужно применять гораздо более сложные методы обеспечения индивидуальной анонимности данных.
Кроме защиты информации о лице, перед публикацией данных нужно также обеспечивать надлежащий уровень защиты информации о группе лиц. Важность этой проблемы можно проиллюстрировать на простом примере. При наличии в наборе данных информации о месте работы лица и факт его пребывания в рядах вооруженных сил можно найти распределение количества военных за территориальными единицами государства. Максимумы в таком распределении могут указать на местонахождение, например, военной базы. Для защиты такого рода распределений нужно применять методы обеспечения групповой анонимности данных.
Методы обеспечения анонимности данных были использованы при подготовке микроданных украинской переписи. Ведущую роль в этом процессе сыграли ученые кафедры прикладной математики НТУУ "КПИ" д.т.н. О.Р.Чертов, впервые предложил идею обеспечения групповой анонимности данных, и представитель его научной школы аспирант Д.Ю.Тавров. При поддержке Государственной службы статистики Украины они применили к данным переписи населения методы индивидуальной и групповой анонимизации, обеспечив таким образом надежный уровень их защиты.
Подробнее ознакомиться с проектом IPUMS-International и получить доступ к данным Всеукраинской переписи населения 2001 года можно по ссылке https://international.ipums.org/international/
О.Р.Чертов, и.о. заведующего кафедрой прикладной математики