Магическото число 1 000

В разгара на вирусната епидемия се появи и една друга, малко по-незабележима епидемия – епидемията от числа – свързана с верни, не толкова верни и откровено манипулативни прогнози и обяснения на вирусната епидемия. Нашият екип ще си позволи да разгледа тези числови „бури” в някоя от следващите публикации. Междувременно обаче ще обърнем внимание на други числа, които се „изсипват” в публичното пространство и които са в състояние да манипулират общественото мнение. Иде реч за изследванията на социалните настроения, каквито са отношението към политици и други публични личности. Повод за този коментар става конкретно изследване, публикувано в третата седмица на карантината от  една популярна социологическа агенция. По-долу е даден линк към една от публикациите, посветени на това изследване.



https://btvnovinite.bg/predavania/tazi-sutrin/trend-raste-rejtingat-na-premiera-v-uslovijata-na-izvanredno-polozhenie.html.

Въпросът за добросъвестността на методологията на този тип проучвания е често дискутиран, макар че тези дискусии заглъхват в „мирно време” и се възобновяват най-често след избори.  И досега обаче, най-смислените теми – за адекватността на методологията, използваните формати на въпросите и не на последно място грешките и откровените манипулации  при анализа на данните – остават някак в сянката на далеч по-несъществени  дискусии Ето защо ще използваме повода, за да обърнем внимание на някои разпространени заблуди относно методологията на подобни изследвания.

Проблемът за представителната извадка

Подобни изследвания обикновено се правят чрез извадки, т.е. допитвания до част от голямата съвкупност,  която ни интересува,  в случая пълнолетното българско население.  Представителните извадки са такива, които при спазване на методологията за осъществяването им, са в състояние да гарантират  рамките на (най-често) малки и поддаващи се на изчисление отклонения какъв би бил резултатът за всички почти 7 млн. души:  ако изобщо можехме да ги изследваме за толкова кратко време.  Тук идва първата и може би най-разпространена заблуда, свързана с тези изследвания : че достатъчно голямата извадка винаги е представителна, което  уви, е невярно. Въпреки това, тази заблуда продължава да се възпроизвежда дори сред професионални общности, които би трябвало да имат статистическа грамотност, каквито са например медиците.

Печален пример е твърдението Националния щаб, че изследваните 1000 полицейски служители са представителна извадка от населението. В действителност, най-често представителните извадки на населението се състоят именно от около 1000 души, но не всяка извадка от 1000 души е представителна. Дори и да не разбира от статистика, на принципа на здравия смисъл човек би се досетил, че е малко вероятно, онова което е валидно за определен вид служители  да е валидно и за останалите, т.е. тази извадка няма как да „представлява” основните групи на това население. 

Затова именно не обемът, а начинът на подбор на хората в извадката са от ключово значение дали тя ще бъде представителна, или не.

И тук възниква въпросът: правят ли се изследвания, базирани на непредставителни извадки? Разбира  се, че да. Има случаи, в които не е възможно да се постъпи другояче.

Разбира се, не бихме могли да сбием статистическата теория за извадките в една кратка публикация, тук по-скоро трябва да сложим акцент върху това, че представителността на извадката следва да бъде доказана чрез кратко описание на методологията за подбор на хората в нея. А съответно, ако не е представителна, добросъвестността на специалистите изисква първо, да упоменат този факт в изследването си и да го заявят и на публиката и второ, ако ползват непредставителни извадки  да не правят изводи, касаещи цялата съвкупност на населението, защото непредставителните извадки, уви не са в състояние да гарантират че подобни изводи са верни.

Примерът с изследването на рейтинга на политиците

В няколко публикации, които представят  горецитираното изследване: и в линка от „24 часа” , и този от „БТВ”,  се вижда че заключенията са направени за „всички българи”, т.е .подразбира се, че извадката е представитела, иначе не би следвало да има такива заключения.

Дали наистина това е така?

https://www.24chasa.bg/mnenia/article/8421657

https://www.24chasa.bg/mnenia/article/8421657

На последният слайд на презентацията в публикацията на 24 часа е представен т.нар. паспорт на изследването, който представлява много сбита характеристика на начина на провеждане и приложената методология. 

Тук отбелязваме поредната негативна  тенденция: у нас е честа практика в медийните публикации  тази кратка характеристика да се пропуска като несъществена информация за изследването, а именно тя пояснява дали извадката е представителна, или не е, и как са подбрани хората в нея. В публикацията на сайта на БТВ например това не е направено, извадката е представена изключително накратко в началото на видеоматериала.

От слайда в „24 часа” може да се види че извадката  в това проучване е съставена от вълшебното число 1 000 броя, но никъде не е упоменато че тази извадка е представителна. От друга страна обаче е упоменат методът на регистрация на информацията или по какъв канал за връзка са осъществени интервютата: 600 телефонни и 400 онлайн.

В този пункт възниква голямата въпросителна  за представителността, тъй като  дори и за незапознатите с тънкостите на представителния подбор е ясно, че сред ползващите интернет не са представени или са изключително слабо представени цели  групи от населението:  най-възрастните, тези с  ниско образование или изобщо с проблеми с редовния достъп до интернет и пр.

Кратка справка в сайта на Националния статистически институт показва че лицата използващи  интернет поне веднъж седмично са около 67% от населението: число, което убедително доказва, че няма как да открием останалата една трета в мрежата. 

Въпреки това, онлайн направените интервюта са  малко под половината от извадката. Оттук следва да се каже, че тази извадка не може да бъде представителна. Още един детайл: намирането на участници в допитванията е възможно да се направи на живо като за отправна точка служат физическите адреси на хората. Разбира се, и тук има множество особености, но акцентът е върху реални, регистрирани и откриваеми точки за достъп. С  известни условности, такава точка за достъп може да бъде съответният телефон, но интернет не предоставя подобни възможности за директна комуникация с  анонимен участник, поради което  възниква и проблемът как изобщо са открити реалните хора, участвали в изследването през интернет.

Този въпрос не е нерешим при условие, че целевата група е съсредоточена на определено място в интернет (група от сайтове, имейл сървър и пр.). В случая обаче интернет е заместващ канал на комуникация, понеже в момента е невъзможно да се осъществят директни интервюта  лице в лице  заради карантината, с други думи подобни решения са неприложими.

Тук следва да изтъкнем, че ако бяхме страна с развито е-правителство, при което всеки гражданин има електронна пощенска кутия за съобщения, за която се знае че се използва или не, използването на интернет  като канал за комуникация би дало възможност за осъществяване на представителна извадка  поне сред ползващите интернет. Случаят в България обаче изобщо не е такъв.

Може ли да се гарантира представителност на телефонната извадка: при използването на определени модели на представителни извадки (например т.нар. стратифицирани извадки) и съответната технология управляваща случайния подбор на телефонни номера? Да, може .  

От друга страна  в изследването е ползвана втора, с голяма вероятност непредставителна извадка като данните от двете са смесени и изводите са направени накуп, което е методологически недопустимо .

И не само това. Тук идва „изкривяването” в самия анализ на данните, който е направен с презумпцията че това изследване отразява наистина настроенията сред българското население или поне в публикациите е показано именно това. Дори да допуснем, че грешката тук е по-скоро в медийното отразяване и недостатъчната статистическа грамотност на журналистите, които не могат да преценят дали дадената извадка (вероятно) е непредставителна, или пък не, но отговорността не бива да се стоварва само върху тях. Специалистите носят отговорността да представят коректно и открито информацията си и да направят уточнението си при какви условия важат направените заключения.

Подобни фриволни изводи върху такива данни, уви, не са новост. Единственият коректив в случая би била професионалната общност, която би следвало да обръща внимание на подобни пропуски (които на практика могат да прераснат в откровени манипулации).

За  съжаление професионалната организация на социолозите у нас, Българската социологическа асоциация, в момента твърди, че тези изследвания не се покриват напълно с понятието социологически изследвания. В резултат на това публикациите на подобни анализи най-често остават без коректив и се приемат безусловно за истинни. Съответно в условията на епидемията „хвърлянето” на подобни резултати в публичното пространство повече от всякога би довело до манипулиране на общественото мнение.

  Публикации етикети: , , , ,   | постоянна връзка, Връзките към материала са забранени, но можете да коментирате.


Коментирай

С вашия email никога няма да бъде злоупотребено. * задължително поле

*
*

Можете да използвате следните HTML етикети и атрибути: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

Spam protection by WP Captcha-Free