zpět na výpis    domů » statistika » Umělé proměnné v regresním modelu

Umělé proměnné v regresním modelu

Publikováno: 28.11.2020

Umělé proměnné v regresním modelu

Při modelování regresních závislostí se běžně setkáte s potřebou zahrnout do modelu vysvětlující proměnnou (exogenní proměnnou), kterou nelze měřit jako například HDP, peněžní zásobu, míru inflace, spotový devizový kurz apod. Příkladem může být vliv dosaženého stupně vzdělání na výši hrubé mzdy. Takové proměnné mají kvalitativní (diskrétní) charakter a označují se jako umělé proměnné.

Umělé proměnné mají široké využití právě díky možnosti zachytit vliv kvalitativních charakteristik. Uplatňují se zejména v demografických a sociálních výzkumech, v odhadech cen realit či sezónních a konjunkturních výkyvů.

V příspěvku představím základní logiku konstrukce umělých proměnných a jednoduchý model oceňování realit na reálných datech z trhu nemovitostí.

Umělé proměnné

Umělé proměnné si uživatel vytváří sám, aby zvolenou specifikací modelu vyhověl dané hypotéze. Například výše úspor je funkcí disponibilního důchodu spotřebitelů, úrokové míry z bankovních depozit apod. Na výši úspor může mít vliv i diskrétní proměnná, kterou může být věk střadatele. Starší lidé jsou obecně považováni za spořivější než mladí. Věk může být rozdělen do několika intervalů, čímž můžeme sledovat významnost vlivu různých věkových skupin na výši úspor.

V angličtině se pro umělé proměnné používá výraz dummy variables, proto se můžete setkat i s označením dummy proměnná. Umělé proměnné mají uplatnění v průřezové analýze i v analýze časových řad. V ekonometrickém modelování se používají následující základní typy umělých proměnných:

  • dichotomické (dvouznakové) - mohou nabývat pouze 2 obměn (žena/muž, kuřák/nekuřák apod.)
  • kategoriální (víceznakové) - nabývají více než 2 obměny (základní/střední/vysokoškolské vzdělání) a rozdělují kvantitativní proměnné do kategorií (intervalů) například podle věku
  • sezónní - používájí se v analýze časových řad například pro kvantifikaci sezónních anomálií ve spotřebních výdajích domácností

Dichotomické a kategoriální proměnné jsou nejčastěji binární, tj. nabývají hodnot 0 a 1. Tyto proměnné se označují také jako nula-jednotkové proměnné. Výskyt dané vlastnosti u proměnné přestavuje hodnotu 1, jinak hodnotu 0.

Je-li jedinec kuřák, pak umělá proměnná má hodnotu 1. Jinak má hodnotu 0.

Odhad a specifikace modelů

Odhad a verifikace modelu s umělými proměnnými jsou založeny na stejných principech jako standardní lineární regresní model. Model se odhaduje pomocí metody nejmenších čtverců.

Máme-li v modelu kvalitativní proměnnou, která nabývá k obměn, pak do modelu s úrovňovou konstantou zahrneme k - 1 umělých proměnných, abychom se vyhnuli perfektní multikolinearitě.

V zásadě mohou být konstruovány 2 druhy regresních modelů s dummy proměnnými. Jednak to mohou být modely, které na straně vysvětlujících proměnných obsahují pouze kvalitativní proměnné. Elementární model s jednou dummy proměnnou

Model pouze s dummy proměnnou

yi ... závisle proměnná, Di ... kvalitativní proměnná, β0, γ ... parametry regresního modelu

Takové modely se označují také jako modely analýzy rozptylu (ANOVA).

Druhou skupinou jsou modely, které obsahují současně kvalitativní a kvantitativní vysvětlující proměnné

Model s kvalitativní a kvantitativní proměnnou

yi ... závisle proměnná, Xi ... kvantitativní proměnná, Di ... kvalitativní proměnná, βj, γ ... parametry regresního modelu

Princip nula-jednotkových proměnných

Princip fungování nula-jednotkových proměnných ilustruji na jednoduchém příkladu s cenami bytů. Následující rovnice modeluje závislost cen bytových prostor na výměře v m2 a umělé proměnné lokalita

Jednoduchý model pro oceňování bytů

Pi ... cena i-tého bytu, Ai ... výměra i-tého bytu v m2, Li ... umělá proměnná lokalita, βj, γ ... parametry modelu, εi ... i-tá hodnota náhodné složky

Pro jednoduchost budu předpokládat, že se jednotlivé byty v ničem neliší (například v důsledku (ne)existence výtahu, sklepu, nebo (ne)provedené rekonstrukce atd.) kromě proměnných v modelu.

Uvažuji pouze 2 lokality, proto umělá proměnná může nabývat 2 obměn, tj. byt v lokalitě A nebo lokalitě B. Za základní variantu bytu neboli bázi budu považovat lokalitu A. To znamená, že proměnné L přiřadím hodnotu 0 (lokalita A) nebo hodnotu 1 (lokalita B).

Parametry modelu odhadneme již zmíněnou metodou nejmenších čtverců. Průměrnou cenu bytu v lokalitě A pak zjistíme

Byt v lokalitě A

a průměrnou cenu bytu v lokalitě B

Byt v lokalitě B

Všimněte si parametru γ. Parametr říká, o kolik je v průměru cena bytu v lokalitě B vyšší/nižší než cena bytu v lokalitě A bez ohledu na výměru bytů. Jedná o izovalovanou změnu ceny bytu za podmínek ceteris paribus

Změna ceny v důsledku změny lokality

Z technického hlediska je sklon přímek pro obě regresní funkce stejný, tj. β1. Přímky se liší pouze úrovní, ve které protínají svislou osu.

Odhad modelu

Na webu Sreality.cz jsem vyhledal 34 bytů ve 2 lokalitách v České republice. Vybral jsem pouze byty s dispozicí 2 + kk, u kterých mne zajímá pouze výměra v m2 a lokalita. Od ostatních odlišností je abstrahováno. S umělou proměnnou lokalita je zacházeno způsobem uvedeným výše.

Reálná data z trhu nemovitostí

Úkolem je odhadnout jednoduchý model na reálných datech z trhu nemovitostí a statisticky verifikovat výsledky. Odhady parametrů modelu MNČ

Odhad regresního modelu oceňování realit

Výběrové odhady parametrů jsou statisticky průkazné na nižší než 5% hladině významnosti (p-value). To znamená, že zvolené proměnné mají vliv na cenu bytu.

Statistická verifikace parametru regresního modelu

Měřeno koeficientem determinace se modelem podařilo vysvětlit variabilitu vysvětlované endogenní proměnné z 69 %. Model jako celek je statisticky průkazný na nižší než 5% hladině významnosti (F-test).

Protože byl model odhadnut v milionech Kč jsou i parametry v milionech. Metr čtvereční stojí v průměru 0,047m Kč, tj. 47k Kč. Byt v lokalitě B je v průměru o 1,87m Kč dražší než v lokalitě A.

Na základě modelu můžeme říct, že například byt s výměrou 65 m2 se v lokalitě A prodává za průměrnou cenu 5,7m Kč a v lokalitě B za 7,6m Kč.

Regresní přímky lokalita A a B

Regresní přímky mají stejný sklon. Liší se od sebe pouze úrovňovou konstantou, která v případě lokality B větší o parametr γ.

Líbil se vám článek? A chcete se vědět o každém dalším?

Sledujte:

Použité zdroje a literatura
  • CIPRA, T.: Finanční ekonometrie. EKOPRESS 2008, Praha. První vydání, 538 stran. ISBN 978-80-86929-43-9
  • HUŠEK, R.: Ekonometrická analýza. EKOPRESS 1999, Praha. První vydání, 303 stran. ISBN 80-86119-19-X
  • LEJNAROVÁ, Š., RÁČKOVÁ, A., ZOUHAR, J.: Základy ekonometrie v příkladech. Vysoká škola ekonomická 2009, Praha. První vydání, 276 stran. ISBN 978-80-245-1564-9
Nahoru