ДАЙДЖЕСТ

Различия в социологических данных

[08:00 28 ноября 2016 года ] [ Зеркало недели, 26 ноября 2016 ]

Перед каждыми выборами претензии к данным социологов нарастали. А сейчас уже и выборов вроде нет, а страсти накаляются.

Перед каждыми выборами претензии к данным социологов нарастали. А сейчас уже и выборов вроде нет, а страсти накаляются. Особенно нам досталось в последнее время из-за партии Рабиновича, рейтинг которой, как многие думают, ниже, чем в наших опросах.

Прежде всего, многие различия являются иллюзорными и связаны с непониманием социологических рейтингов. Пока у меня не было страницы в Фейсбуке, я не осознавал, насколько часто люди сравнивают несопоставимое, сопоставляют проценты, рассчитанные для разных оснований, поскольку “и там и там рейтинги”. Помните анекдот?

“— Вода кипит при температуре 90 градусов.

— Товарищ прапорщик, а у нас тут написано, что вода кипит при температуре 100 градусов.

— Сейчас проверю… Да, действительно, вода кипит при температуре 100 градусов, а 90 градусов — это прямой угол!”

В значительной мере виноваты сами социологи, поскольку не могут договориться о стандартах публикации рейтингов (то есть о некоторых договорились, но не обо всех), разные компании продолжают публиковать разные показатели. Но и потребителям информации стоит следить за тем, чтобы не путать температуру кипения с прямым углом.

Какие рейтинги публикуют социологи

Социологи задают, например, такой вопрос (из анкеты КМИСа): “Если бы в ближайшее воскресенье проходили выборы в Верховную Раду Украины, приняли бы вы участие в голосовании? Если “да”: Каким был бы ваш выбор, если бы в выборах участвовали такие-то партии? (список партий вручается респонденту). По результатам опроса могут публиковаться, по крайней мере, три вида рейтингов: 1) проценты по отношению ко всем опрошенным; 2) проценты по отношению к тем, кто придет на выборы; 3) проценты по отношению к тем, кто придет на выборы и определился.

РЕЙТИНГ 1 — процент тех, кто выбрал ту или иную партию по отношению ко всем опрошенным. Это первое, что всегда обнародуют (слава богу, хоть об этом договорились). Собственно, это исходная информация, это непосредственно результаты опроса, то есть то, что мы получили от людей, это есть сермяжная правда или, как говорил Остап Бендер, она же посконная, домотканая и кондовая. Это, можно сказать, технические данные, они нужны для сравнения данных разных исследований, чтобы можно было пересчитать данные двух компаний и свести к единому знаменателю, в общем, они всем хороши, но они не показывают, какие партии пройдут в парламент. Трактовать эти показатели как проценты, которые партии получат на выборах, некорректно, ибо среди них большой процент тех, кто не придет и тех, кто не определился, например, в данных КМИСа таких около 50% (см. табл. 1, первая колонка с процентами). А на выборах таких нет, там сумма голосов равна 100%, а не 50%, т.е. эти проценты в среднем в 2 раза меньше, чем на выборах, и если на них ориентироваться, то в парламент проходят лишь две партии — Тимошенко и Порошенко. В табл. 1 приведен этот рейтинг из нашего пресс-релиза.

Замечу, кстати, что партия Рабиновича, не к ночи будет сказано, и в данных КМИСа, и в данных Центра Разумкова получает 3,5%, отличие 0. Но прежде чем анализировать другие отличия, вернемся к расчету рейтингов. Очевидно, что в выборах участвуют далеко не все, например, явка на парламентских выборах 2014 года составила лишь 52%. Если с теоретической точки зрения нас может интересовать мнение всех, то с практической — лишь тех, кто будет голосовать.

РЕЙТИНГ 2 — процент по отношению к тем, кто сказал, что будет голосовать. Это стандарт представления данных Центра Разумкова или Фонда “Демократические инициативы”. Рейтинг 2 (это условное название) уже ближе к показателям, которые партии получили бы на выборах в ближайшее воскресенье, но в полученных данных может быть еще 20—30% тех, кто не определился (в данном случае у КМИСА 22%), то есть сумма процентов голосов за все партии составляет 70—85%, а не 100 (в данном случае 78%). Но на выборах рейтинги партий, по которым рассчитывают проходной балл, в сумме составляют 100%. То есть в среднем при таком способе расчета все проценты могут быть занижены на 15—30%, и если партия на выборах получила бы, скажем, 6%, то при таком опросе и расчете рейтинга 2, он получится меньше 5%, и мы сделаем ошибочный вывод, что она не проходит в парламент. Это может быть критично для некоторых партий. Центр Разумкова в своем пресс-релизе рассчитывает именно рейтинг 2, мы пересчитали таким же образом и данные КМИСа, хотя КМИС в своих пресс-релизах не использует этот рейтинг (см. колонку 2 в табл. 1.)

РЕЙТИНГ 3. процент по отношению к тем, кто сказал, что придет и определился с выбором.Это стандарт КМИС, который используется уже много лет. Преимущество — сумма процентов голосов, полученных партиями, равна 100, как и на выборах. Действительно, мы спрашиваем не о будущих регулярных или досрочных выборах, а о мнениях респондентов сейчас, в ближайшее воскресенье, это как бы имитация выборов (интервьюер пришел, и если вы не собираетесь голосовать или не определились — ваш голос не учитывается, как и на реальных выборах). Интервьюер даже приносил с собой урну для голосования, и респондент, кроме ответа на анкету, — голосовал (это есть в пресс-релизе, но мы эти рейтинги тут не рассматриваем, а рассматриваем только информацию, сопоставимую с информацией Центра Разумкова). Этот рейтинг ближе всего к результатам выборов, если бы выборы проходили в середине ноября.

Заметим, что если, скажем, партия “Громадянська позиція” Гриценко при расчете Рейтинга 2 не проходит в парламент, то при расчете рейтинга 3 — проходит, и это соответствует реальности на этот момент (понятно, что если начинаются выборы, результаты могут измениться и, как мне кажется, меняются в сторону тех, у кого больше медиаресурс).

Замечу также следующее (очень важно!). Все расчеты статистической погрешности выборки социологи дают лишь по отношению к Рейтингу 1, и только для этого типа рейтинга можно рассуждать, есть ли отличие между двумя партиями или кандидатами. Рейтинги 2 и 3 дают лучшее представление о возможных результатах выборов, но имеет большую стохастическую погрешность, поскольку рассчитаны по меньшей выборке. Например, выборка КМИСа 2000 респондентов, а собираются прийти и определились лишь 44%, тогда основа для расчета рейтинга — лишь 880 респондентов, поэтому максимальная ошибка для этих рейтингов будет не 3,3, а 5%.

Ну и, разумеется, все рейтинги — повторюсь — это некоторая ориентировочная оценка на момент опроса, а не прогноз результатов будущих выборов.

Так вот, нельзя сопоставлять рейтинги, рассчитанные по разным основаниям! Это бессмысленно. К сожалению, разные компании дают разные рейтинги: КМИС — рейтинг 1 и 3, ЦР — рейтинг 1 и 2. Ну не смогли мы договориться, не смогли! У каждого свои аргументы. Но, по крайней мере, договорились всегда давать рейтинг 1, поэтому именно для него корректно сопоставление и корректны приводимые ошибки. Поэтому данные разных компаний можно сравнивать по рейтингу 1. И если хотите — можно пересчитать другие рейтинги (но тогда пересчитать и ошибки). В любом случае сравнивать нужно одни и те же показатели, рейтинги одного и того же типа.

Насколько отличаются результаты КМИСа и ЦР

Теперь мы можем перейти к отличиям в рейтингах КМИСа и Центра Разумкова. Во-первых, по поводу партии Рабиновича, относительно которой меня терзают еще с сентября, когда по нашим данным (кстати, нашего собственного опроса, а не опроса заказчика) мы получили ее рейтинг 2% (по отношению ко всем), что при пересчете в рейтинг 3 означает, что она имеет шансы пройти в парламент. После этого были опубликованы данные компании “Рейтинг”, где эта партия имела 3%, и опубликованы нынешние данные (см.табл. 2, сравнивать можно лишь рейтинг 1) где и у КМИСа, и у ЦР партия получила 3,5%. У КМИСа и у Центра Разумкова нет отличий по вопросу о прохождении партии Рабиновича в парламент, данные полностью совпадают. Об этом же говорили наши сентябрьские данные и данные компании “Рейтинг”. Нравится это кому-либо или нет, но если бы выборы были в середине ноября, то партия Рабиновича с большой вероятностью очутилась бы в парламенте.

Вообще же говоря, для сопоставления результатов необходимо, чтобы списки партий в разных опросах совпадали. Сам список партий, пока не началась предвыборная кампания и не закончилась регистрация, является некоторой гипотезой. Социологи (или их заказчики) должны предположить, какие партии будут участвовать, а какие нет. И чем больше партий из одного электорального поля, тем меньше рейтинг каждой из них. Разные наборы партий дают разные рейтинги. Иногда политические силы вставляют в анкету по несколько наборов, включая несуществующие партии, дабы проверить, что будет, если какие-то партии объединятся в один блок или такой-то политик создаст свою партию. И пока не закончена регистрация партий, все такие наборы, все такие списки партий имеют право на существование.

Проблема социологов состоит в том, что политические силы используют эти данные не только для внутреннего употребления, для разработки своей стратегии или тактики, а хотят использовать социологические данные для пиара. По всем и международным и украинским законам Заказчик, оплативший опрос, является полным владельцем информации, он может выборочно публиковать ту информацию, которая ему нравится, результаты того списка, где его политическая сила лучше смотрится. Заказчикам КМИСа больше нравится один список, заказчикам ЦР — другой.

По данным КМИСа (см. табл. 1) “Батьківщина” получает 8,4% электоральной поддержки, а по данным Центра Разумкова — несколько больше: 9,1%, т.е. по партии Тимошенко различия незначимы. А вот по блоку Порошенко у КМИСа 5,8%, а у ЦР — 9,5%, т.е. больше на 3,7 процентных пункта, это значимое отличие. Почему? В списке КМИСа на 7 партий больше, и есть еще пункт “испорчу бюллетень”, эти партии могут “откусывать” что-то от рейтинга блока Порошенко (особенно УДАР и “партия Гройсмана”, вместе 2%, и если их добавить к рейтингу блока Порошенко, то отставание от “Батьківщини” будет лишь в 1,3 процентных пункта). Но главные отличия наших данных — у ЦР на 11% меньше неопределившихся, из этих процентов что-то добавилось к рейтингу Порошенко. У КМИСа вопросы о выборах стояли в начале анкеты, у ЦР — после вопросов о доверии к социальным институтам и политикам, что могло “разогреть” респондентов, дать время подумать над доверием к политикам и уменьшить число неопределившихся в результатах ЦР.

Резюме. В данных двух центров о парламентских выборах нет драматических различий, смешно говорить, что по данным ЦР побеждает блок Порошенко, когда он опережает “Батьківщину” на 0,4%, при ошибке в 2%. Если список партий, участвующих в выборах, будет ближе к списку КМИСа, то “Батьківщина” наберет несколько больше, чем блок Порошенко, а если ближе к списку ЦР — они наберут примерно поровну. И те и другие данные правильны, вопрос в том, какой список окажется ближе к реальности, когда пройдут выборы.

Хуже обстоят дела с президентским рейтингом, но здесь сопоставимость списков еще ниже, совпадают лишь 8 кандидатов из 14, при строгом профессиональном подходе обычно такое не сравнивают (см. табл. 3, приведен, разумеется, лишь рейтинг 1).

Тут в список КМИСа наш заказчик почему-то уже не вставил Гройсмана и Кличко, но зато они есть в списке Центра Разумкова. Зато в списке Центра Разумкова нет Рабиновича, но есть Тягнибок и Ярош (хотя на предыдущих выборах Рабинович получил больше, чем Тягнибок и Ярош вместе взятые). Прежде всего хочу отметить, что Рабинович вовсе не занял 3-е место, как писали СМИ, отличия с 3 по 6 места незначимы. Для чего мы всюду пишем ошибку выборки, почему никто не обращает на это внимания?! Рабинович разделил с 3 по 6 место с Гриценко, Ляшко и Бойко.

Максимальные различия в наших данных по пункту “другая партия” (13%!) и “не определились” (7,8%), на этом фоне отличия по Тимошенко (2,1%) и Порошенко (3,4%) не выглядят такими уж большими, однако проблема в том, что они направлены в разные стороны. Возможными причинами расхождений, кроме указанных выше, могут быть особенности выборки. У КМИСА Донбасс входит в выборку только пропорционально контролируемой части Донбасса, а ЦР берет Донбасс в той пропорции, в какой он был до войны (мотивация — это единственно достоверные данные, мне кажется, что это неправильно, хотя это вопрос дискуссионный). Разумеется, отличия доли Донбасса вдвое в наших двух опросах вносит отличия в рейтинги.

Однако в любом случае для президентских выборов главное — кто проходит во второй тур, здесь и те и другие данные полностью совпадают: во второй тур выходят Порошенко и Тимошенко. Почему-то пришел в голову мрачный анекдот о чукче, которого большой белый человек нанял в проводники: он приехал ловить рыбу. Сидят они с удочками у лунки и вдруг вдалеке заметили бегущего к ним белого медведя. Чукча вскочил и стал надевать лыжи. Большой белый человек ему говорит:

— Все бесполезно, неужели ты думаешь, что сможешь бежать быстрее медведя?

— А мне, однако, и не надо бежать быстрее медведя. Мне надо бежать быстрее тебя!

Так вот, нам, социологам, неважно, кто там у нас бежит третьим или четвертым, нам важно правильно определить первые два места, ясно, что Порошенко и Тимошенко выходят во второй тур со значительным отрывом от остальных. И если бы у ЦР были данные о результатах второго тура, то во втором туре у нас были бы полностью сравнимые одинаковые списки и можно было бы говорить, дают ли социологи разные результаты.

Завершая сказанное, скажу, что ситуация сильно драматизирована. Отчасти в этом виноваты сами социологи: не можем договориться о стандартах. Отчасти это проблемы выборочной публикации данных заказчиками, которые разрешены документами, регламентирующими социологическую деятельность (мы не принимаем от заказчиков “наталкивающие” вопросы или их последовательность, для этого есть специальные стандарты, но ничего не можем сделать с выборочной публикацией выгодных данных и умалчиванием невыгодных). Это разрешенные действия, но они снижают доверие к нам, отражаются на нашей репутации. Однако, во многом, это и проблема низкой социологической культуры не только населения в целом, но и журналистов, политиков, активных пользователей Фейсбука. Это двойственное отношение к социологии (точнее, к полстерам, составляющим лишь небольшую часть социологии) — с одной стороны, к социологам относятся с подозрением и недоверием, с другой — абсолютизируют данные выборочных опросов, игнорируя даже заявленные социологами стохастические погрешности (а они, как правило, больше заявленных, так как не учитывают дизайн-эффект и систематические ошибки). Ну и, конечно, это наличие мошенников и непрофессиональных организаций, претендующих на проведение социологических исследований. Поэтому любая новая тенденция, обнаруженная нами, вызывает, прежде всего, не мысль о возможных ошибках, а подозрения в коррупции (а когда эта тенденция становится уже очевидной, то никому не приходит в голову извиниться за высказанные подозрения).

Владимир ПАНИОТТО