ГРАЖДАНСКОЕ ЗАКОНОДАТЕЛЬСТВО
ЗАКОНЫ КОММЕНТАРИИ СУДЕБНАЯ ПРАКТИКА
Гражданский кодекс часть 1
Гражданский кодекс часть 2

Приказ Росстата от 19.04.2013 N 165 "Об утверждении Методологических положений по формированию массивов деперсонифицированных микроданных годового структурного обследования по форме федерального статистического наблюдения N 1-предприятие "Основные сведения о деятельности организации" общего пользования для представления пользователям в аналитических целях"

ФЕДЕРАЛЬНАЯ СЛУЖБА ГОСУДАРСТВЕННОЙ СТАТИСТИКИ
ПРИКАЗ
от 19 апреля 2013 г. N 165
ОБ УТВЕРЖДЕНИИ МЕТОДОЛОГИЧЕСКИХ ПОЛОЖЕНИЙ
ПО ФОРМИРОВАНИЮ МАССИВОВ ДЕПЕРСОНИФИЦИРОВАННЫХ МИКРОДАННЫХ
ГОДОВОГО СТРУКТУРНОГО ОБСЛЕДОВАНИЯ ПО ФОРМЕ ФЕДЕРАЛЬНОГО
СТАТИСТИЧЕСКОГО НАБЛЮДЕНИЯ N 1-ПРЕДПРИЯТИЕ "ОСНОВНЫЕ
СВЕДЕНИЯ О ДЕЯТЕЛЬНОСТИ ОРГАНИЗАЦИИ" ОБЩЕГО ПОЛЬЗОВАНИЯ
ДЛЯ ПРЕДСТАВЛЕНИЯ ПОЛЬЗОВАТЕЛЯМ В АНАЛИТИЧЕСКИХ ЦЕЛЯХ
В соответствии с Положением о Федеральной службе государственной статистики, утвержденным постановлением Правительства Российской Федерации от 2 июня 2008 г. N 420 (Собрание законодательства Российской Федерации, 2008, N 23, ст. 2710; 2008, N 46, ст. 5337; 2009, N 6, ст. 738; 2010, N 26, ст. 3350), а также в целях научно-методологического обеспечения развития государственной статистики приказываю:
утвердить прилагаемые Методологические положения по формированию массивов деперсонифицированных микроданных годового структурного обследования по форме федерального статистического наблюдения N 1-предприятие "Основные сведения о деятельности организации" общего пользования для представления пользователям в аналитических целях.
Руководитель
А.Е.СУРИНОВ
Утверждены
приказом Росстата
от 19.04.2013 N 165
МЕТОДОЛОГИЧЕСКИЕ ПОЛОЖЕНИЯ
ПО ФОРМИРОВАНИЮ МАССИВОВ ДЕПЕРСОНИФИЦИРОВАННЫХ МИКРОДАННЫХ
ГОДОВОГО СТРУКТУРНОГО ОБСЛЕДОВАНИЯ ПО ФОРМЕ ФЕДЕРАЛЬНОГО
СТАТИСТИЧЕСКОГО НАБЛЮДЕНИЯ N 1-ПРЕДПРИЯТИЕ "ОСНОВНЫЕ
СВЕДЕНИЯ О ДЕЯТЕЛЬНОСТИ ОРГАНИЗАЦИИ" ОБЩЕГО ПОЛЬЗОВАНИЯ
ДЛЯ ПРЕДСТАВЛЕНИЯ ПОЛЬЗОВАТЕЛЯМ В АНАЛИТИЧЕСКИХ ЦЕЛЯХ
Введение
Основной целью государственной статистики является обеспечение информационных потребностей государства и общества в полной, достоверной, научно обоснованной и своевременно предоставляемой официальной статистической информации. Согласно статье 2 Федерального закона от 29.11.2007 N 282-ФЗ (ред. от 16.10.2012) "Об официальном статистическом учете и системе государственной статистики в Российской Федерации" официальная статистическая информация представляет собой сводную агрегированную документированную информацию о количественной стороне социальных, экономических, демографических, экологических и других общественных процессов в Российской Федерации, формируемую субъектами официального статистического учета в соответствии с официальной статистической методологией. Агрегирование данных включает формирование общих итогов по всей совокупности наблюдаемых единиц, а также ее разграничение на группы в соответствии с действующими общероссийскими классификациями.
При этом субъекты официального статистического учета гарантируют респондентам конфиденциальность полученных от них индивидуальных данных по показателям, содержащимся в формах государственного статистического наблюдения, и используют эти данные только для формирования официальной статистической информации (статья 9 Федерального закона от 29.11.2007 N 282-ФЗ), что соответствует основополагающим принципам официальной статистики, принятыми Статистической комиссией ООН в 1994 году.
Статистика, как отрасль знаний, предоставляет инструмент, позволяющий выявлять и измерять закономерности развития социально-экономических явлений и процессов, взаимосвязи между ними. Это очень важно при проведении научных и аналитических исследований, построении экономических моделей, принятии управленческих решений. Однако агрегированных данных, предоставляемых в виде официальной статистической информации, бывает недостаточно для выявления множества однокачественных варьирующих явлений.
Федеральная служба государственной статистики, в соответствии с возложенными на нее полномочиями, представляет в установленном порядке официальную статистическую информацию органам государственной власти и местного самоуправления, средствам массовой информации, научным и другим организациям и гражданам.
Международная статистическая общественность обратила внимание на потребность в получении и возможности предоставления обезличенных статистических данных респондентов. Это значительно расширяет перечень пользователей информацией, подтверждает качество официальной статистической информации и улучшает имидж государственной статистики при сохранении доверия респондентов. Многие национальные статистические службы (Австралии, Финляндии, Нидерландов, Швеции, США и др.) представляют сообществу исследователей набор обезличенных персональных данных. Представление данной информации нормативно закреплено, определены регламенты доступа пользователей к информации, разработаны соответствующие правила ее обезличивания.
Настоящие методологические положения разработаны с учетом международных рекомендаций в области распространения микроданных внешним пользователям и научных исследований с целью расширения возможностей использования статистических микроданных годового структурного обследования широким кругом исследователей в аналитических целях при обеспечении конфиденциальности данных.
I. Основные понятия и определения
Все приведенные в настоящем разделе понятия и определения используются только в целях настоящих Методологических положений.
Микроданные - набор единичных записей об индивидуальном объекте (респонденте), каждая из которых содержит набор переменных (показателей) в отношении данного объекта. Четыре категории переменных (необязательно являются непересекающимися):
прямые идентификаторы,
косвенные идентификаторы,
конфиденциальные переменные,
неконфиденциальные переменные.
Деперсонификация микроданных (анонимизация микроданных) - процедура защиты (маскировки) конфиденциальных данных от раскрытия с применением определенных методов.
Ре-идентификация - происходит, когда на основе сравнения значений идентифицирующих переменных единица i' из внешнего файла определена как соответствующая единице i в массиве микроданных, и установлено, что данная связь является корректной.
Категориальные переменные (данные) - переменные, принимающие значения из некоторого ограниченного набора категорий, связанных с неисчисляемыми признаками, такими как названия (товаров, услуг и др.), выходные переменные в классификационных моделях (метки классов).
Количественные (численные) переменные (данные) - переменные, которые регистрируются с помощью чисел, имеющих содержательный смысл.
С количественными переменными можно выполнять все обычные операции над числами, такие как вычисление среднего и др.
Выделяют два типа количественных переменных: дискретные и непрерывные.
Дискретная - это переменная, которая может принимать значения только строго определенные значения из некоторого списка определенных значений, например, целочисленные.
В отличие от дискретных переменных непрерывные переменные могут принимать любое значение в пределах определенного числового интервала. Исчисления производятся только с непрерывными переменными.
Прямые идентификаторы - переменные, которые однозначно идентифицируют респондента. Например: регистрационный код организации, ее наименование, адрес и т.п.
Косвенные идентификаторы (ключевые переменные) - переменные, которые идентифицируют респондента с той или иной степенью неопределенности. Тем не менее, комбинация косвенных идентификаторов может дать однозначную идентификацию. Например: вид экономической деятельности, населенный пункт, численность работников.
Конфиденциальные переменные - переменные, которые содержат деликатную информацию о респонденте. Например: объем производства, финансовые показатели деятельности организации.
Неконфиденциальные переменные - переменные, которые не относятся ни к одной из вышеперечисленных категорий.
Модификация данных - искажение массива микроданных перед тем, как предоставить к нему доступ.
Сокращение данных - частичная фильтрация (удаление) данных или снижение уровня детализации исходного массива данных.
Абсолютно анонимные микроданные - статистические данные, обработанные методами контроля раскрытия статистической информации путем удаления отдельных переменных и модификации данных до такой степени, что идентификация респондентов является невозможной.
Де-факто анонимные микроданные.
Микроданные являются де-факто анонимными, если нельзя полностью исключить раскрытие конфиденциальных данных, но это может произойти только вследствие чрезмерно затраченного времени, вложения значительных средств и людских ресурсов. Де-факто анонимность микроданных зависит не только от объема сохранившейся в данных информации, но и от возможностей, существующих для идентификации объекта статистического наблюдения. Решающее значение имеет наличие дополнительных знаний об индивидуальном объекте и то, каким образом эти данные используются.
Формально обезличенные микроданные - удаление прямых идентификаторов объекта, при этом косвенные идентификаторы (например, виды экономической деятельности, территориальная принадлежность), а также наблюдаемые переменные в основном сохраняются.
Риск и полезность
Методы и решения в области контроля раскрытия статистической информации для минимизации риска раскрытия должны обеспечивать максимальную полезность статистических данных. Задача заключается в том, чтобы найти разумный баланс: сохранить полезность информации и при этом обеспечить, чтобы риск раскрытия не превышал максимально допустимого уровня.
Годовое структурное обследование - федеральное статистическое наблюдение по форме N 1-предприятие "Основные сведения о деятельности организации". Проводится Федеральной службой государственной статистики ежегодно. Обследованию подлежат юридические лица всех форм собственности, являющиеся коммерческими организациями, а также некоммерческие организации, осуществляющие производство товаров и услуг для продажи на сторону (кроме субъектов малого предпринимательства, бюджетных организаций, банков, страховых и прочих финансовых и кредитных организаций).
II. Методы деперсонификации микроданных и основные критерии
оценки их эффективности
Методы деперсонификации решают задачу защиты микроданных, которая заключается в предотвращении привязки конфиденциальной информации к конкретной единице наблюдения. С их помощью защищенный массив микроданных можно получить путем маскировки исходных данных, то есть, сгенерировав модифицированную версию исходного массива микроданных.
Методы разделяют на два типа:
Непертурбативные (сокращение данных): методы не предусматривают модификации данных, но выполняют частичную фильтрацию (удаление) данных или снижение уровня детализации исходного массива данных.
Пертурбативные (модификация данных): массив микроданных искажается перед тем, как предоставить к нему доступ. Использовать пертурбационные методы следует таким образом, чтобы статистические характеристики, рассчитанные на базе модифицированного массива, не слишком отличались от рассчитанного из оригинального массива данных.
                  (─────────────────────────────────────)
                  │ Методы деперсонификации микроданных │
                  (──────────────────┬──────────────────)
                  ┌──────────────────┴─────────────────┐
                  │                                    │
(─────────────────┴───────────────)  (─────────────────┴─────────────)
│   Непертурбативная маскировка   │  │   Пертурбативная маскировка   │
│       (Сокращение данных)       │  │     (Модификация данных)      │
(─┬───────────────────────────────)  (─────┬─────────────────────────)
  │                                        │
  │ (──────────────────────────────────)   │ (────────────────────────────)
  │ │     Формальная анонимизация      │   │ │       Обмен данными        │
  ├─┤          (обезличивание)         │   ├─┤    (перестановка данных)   │
  │ (──────────────────────────────────)   │ (────────────────────────────)
  │                                        │
  │ (──────────────────────────────────)   │ (────────────────────────────)
  ├─┤              Выборка             │   ├─┤     Микроагрегирование     │
  │ (──────────────────────────────────)   │ (────────────────────────────)
  │                                        │
  │ (──────────────────────────────────)   │ (────────────────────────────)
  ├─┤      Сокращение детализации      │   ├─┤      Добавление шума       │
  │ (──────────────────────────────────)   │ │   (случайная пертурбация)  │
  │                                        │ (────────────────────────────)
  │ (──────────────────────────────────)   │                              │
  ├─┤    Кодирование сверху и снизу    │   │ (────────────────────────────)
  │ (──────────────────────────────────)   └─┤         Округление         │
  │                                          (────────────────────────────)
  │ (──────────────────────────────────)
  └─┤       Локальное подавление       │
    │      (локальная фильтрация)      │
    (──────────────────────────────────)
Рис. 1 - Методы деперсонификации данных
III. Общее описание алгоритмов деперсонификации
при применении различных ее методов
Формальная анонимизация (обезличивание)
Формальная анонимизация (обезличивание) заключается в удалении из каждого вектора данных формальных или прямых идентификаторов объекта. После обезличивания объект может быть однозначно опознан только по косвенным идентификаторам.
Формальная анонимизация микроданных является обязательной процедурой при предоставлении доступа к микроданным.
Выборка
В случае использования выборки публикуется не исходный файл микроданных, а выборка S из оригинального массива данных. Данный метод предусматривает публикацию микроданных только для случайной выборки данных. Метод требует последующего применения пертурбационных методов.
Сокращение детализации
Метод заключается в снижении информативности микроданных путем сокращения их детализации, которое может быть достигнуто путем увеличения масштаба шкалы измерения переменной или сокращением числа категорий, которыми представлен каждый косвенный идентификатор.
Для категориальной переменной