Dear Stata fan.
I am working on my master's thesis on the topic 'the location factors of the pharmaceutical industry'.
Currently I have this as Do-File:
*** IMPORTEREN VAN DATA
import excel "C:\Users\wardb\OneDrive\Bureaublad\DATA STATA.xlsx", sheet("Sheet1") firstrow
*** PANELDATA
encode Land, gen(LandCode)
xtset LandCode Jaar
*** Testen voor STATIONARY
gen diff_AV_Aantal_Farmabedrijven = D.AV_Aantal_Farmabedrijven
xtunitroot llc diff_AV_Aantal_Farmabedrijven, lag(1)
*** Resultaat: Paneldata is stationair, geen verdere acties vereist
*** Hausman-test (FE of RE)
xtreg AV_Aantal_Farmabedrijven OV1_Hoogopgeleiden OV2_Academische_Instituten OV3_Marktpotentieel OV4_Chemiebedrijven OV5_Overheidssubsidies OV6_Uitgaven_Gezondheidszorg CV3_GDP_Groei CV5_Inflatie CV6_Bedrijfsbelasting , fe
estimates store fixed
xtreg AV_Aantal_Farmabedrijven OV1_Hoogopgeleiden OV2_Academische_Instituten OV3_Marktpotentieel OV4_Chemiebedrijven OV5_Overheidssubsidies OV6_Uitgaven_Gezondheidszorg CV3_GDP_Groei CV5_Inflatie CV6_Bedrijfsbelasting , re
estimates store random
hausman fixed random
*** Resultaat: Geen verschil tussen FE en RE (p-value 0,4411)
xttest0
*** Resultaat: RE-model geprefereerd boven OLS model (p-value 0,000)
*** Autocorrelatie of residual en heteroskedasticiteit
xtserial AV_Aantal_Farmabedrijven OV1_Hoogopgeleiden OV2_Academische_Instituten OV3_Marktpotentieel OV4_Chemiebedrijven OV5_Overheidssubsidies OV6_Uitgaven_Gezondheidszorg CV3_GDP_Groei CV5_Inflatie CV6_Bedrijfsbelasting
*** Resultaat: P-waard 0,0008. H0 van geen eerste orde-autocorrelatie moet verworpen worden (=autocorrelatie aanwezig) => vce(robust) gebruiken of vertraagde waarden of vce(cluster) (cluster geeft geen verschil met robust) of LSDV?
xtreg AV_Aantal_Farmabedrijven OV1_Hoogopgeleiden OV2_Academische_Instituten OV3_Marktpotentieel OV4_Chemiebedrijven OV5_Overheidssubsidies OV6_Uitgaven_Gezondheidszorg CV3_GDP_Groei CV5_Inflatie CV6_Bedrijfsbelasting , fe => Werkt enkel met fixed model
xttest3
Resultaat: P-value 0,000 dus heteroskedasticiteit => vce(robust)
*** Multicollineariteit en Correlatie
reg AV_Aantal_Farmabedrijven OV1_Hoogopgeleiden OV2_Academische_Instituten OV3_Marktpotentieel OV4_Chemiebedrijven OV5_Overheidssubsidies OV6_Uitgaven_Gezondheidszorg CV3_GDP_Groei CV5_Inflatie CV6_Bedrijfsbelasting vce(robust)
estat vif
*** Resultaat: Hoogste VIF is 3,41. Multicollineariteit is dus geen probleem
predict res, res
kdensity res, normal
swilk res
sktest res
*** Resultaat: Afwijking van normaliteit van residuen --> Kijken naar ln of outsiders, ook functionele vorm
ovtest
*** Resultaat: P-value 0,000 --> Mogelijk belangrijke variabele missen
correlate AV_Aantal_Farmabedrijven OV1_Hoogopgeleiden OV2_Academische_Instituten OV3_Marktpotentieel OV4_Chemiebedrijven OV5_Overheidssubsidies OV6_Uitgaven_Gezondheidszorg CV3_GDP_Groei CV5_Inflatie CV6_Bedrijfsbelasting *** OV4_Chemiebedrijven en OV1_Hoogopgeleiden (0,5663). OV6_Uitgaven_Gezondheidszorg en OV2_Academische_Instituten (0,6502).
*** Stond in literatuur maar is mij niet duidelijk
xtgls AV_Aantal_Farmabedrijven OV1_Hoogopgeleiden OV2_Academische_Instituten OV3_Marktpotentieel OV4_Chemiebedrijven OV5_Overheidssubsidies OV6_Uitgaven_Gezondheidszorg CV3_GDP_Groei CV5_Inflatie CV6_Bedrijfsbelasting, panels(heteroskedastic) corr(psar1)
*** Hetzelfde voor cross-sectionele afhankelijkheid
xtcd OV1_Hoogopgeleiden
xtcd OV2_Academische_Instituten .... .
Please advise if I have done something wrong and any comments or insights as to what steps I should take from here.
Kind Regards
Ward Bruurs
I am working on my master's thesis on the topic 'the location factors of the pharmaceutical industry'.
Currently I have this as Do-File:
*** IMPORTEREN VAN DATA
import excel "C:\Users\wardb\OneDrive\Bureaublad\DATA STATA.xlsx", sheet("Sheet1") firstrow
*** PANELDATA
encode Land, gen(LandCode)
xtset LandCode Jaar
*** Testen voor STATIONARY
gen diff_AV_Aantal_Farmabedrijven = D.AV_Aantal_Farmabedrijven
xtunitroot llc diff_AV_Aantal_Farmabedrijven, lag(1)
*** Resultaat: Paneldata is stationair, geen verdere acties vereist
*** Hausman-test (FE of RE)
xtreg AV_Aantal_Farmabedrijven OV1_Hoogopgeleiden OV2_Academische_Instituten OV3_Marktpotentieel OV4_Chemiebedrijven OV5_Overheidssubsidies OV6_Uitgaven_Gezondheidszorg CV3_GDP_Groei CV5_Inflatie CV6_Bedrijfsbelasting , fe
estimates store fixed
xtreg AV_Aantal_Farmabedrijven OV1_Hoogopgeleiden OV2_Academische_Instituten OV3_Marktpotentieel OV4_Chemiebedrijven OV5_Overheidssubsidies OV6_Uitgaven_Gezondheidszorg CV3_GDP_Groei CV5_Inflatie CV6_Bedrijfsbelasting , re
estimates store random
hausman fixed random
*** Resultaat: Geen verschil tussen FE en RE (p-value 0,4411)
xttest0
*** Resultaat: RE-model geprefereerd boven OLS model (p-value 0,000)
*** Autocorrelatie of residual en heteroskedasticiteit
xtserial AV_Aantal_Farmabedrijven OV1_Hoogopgeleiden OV2_Academische_Instituten OV3_Marktpotentieel OV4_Chemiebedrijven OV5_Overheidssubsidies OV6_Uitgaven_Gezondheidszorg CV3_GDP_Groei CV5_Inflatie CV6_Bedrijfsbelasting
*** Resultaat: P-waard 0,0008. H0 van geen eerste orde-autocorrelatie moet verworpen worden (=autocorrelatie aanwezig) => vce(robust) gebruiken of vertraagde waarden of vce(cluster) (cluster geeft geen verschil met robust) of LSDV?
xtreg AV_Aantal_Farmabedrijven OV1_Hoogopgeleiden OV2_Academische_Instituten OV3_Marktpotentieel OV4_Chemiebedrijven OV5_Overheidssubsidies OV6_Uitgaven_Gezondheidszorg CV3_GDP_Groei CV5_Inflatie CV6_Bedrijfsbelasting , fe => Werkt enkel met fixed model
xttest3
Resultaat: P-value 0,000 dus heteroskedasticiteit => vce(robust)
*** Multicollineariteit en Correlatie
reg AV_Aantal_Farmabedrijven OV1_Hoogopgeleiden OV2_Academische_Instituten OV3_Marktpotentieel OV4_Chemiebedrijven OV5_Overheidssubsidies OV6_Uitgaven_Gezondheidszorg CV3_GDP_Groei CV5_Inflatie CV6_Bedrijfsbelasting vce(robust)
estat vif
*** Resultaat: Hoogste VIF is 3,41. Multicollineariteit is dus geen probleem
predict res, res
kdensity res, normal
swilk res
sktest res
*** Resultaat: Afwijking van normaliteit van residuen --> Kijken naar ln of outsiders, ook functionele vorm
ovtest
*** Resultaat: P-value 0,000 --> Mogelijk belangrijke variabele missen
correlate AV_Aantal_Farmabedrijven OV1_Hoogopgeleiden OV2_Academische_Instituten OV3_Marktpotentieel OV4_Chemiebedrijven OV5_Overheidssubsidies OV6_Uitgaven_Gezondheidszorg CV3_GDP_Groei CV5_Inflatie CV6_Bedrijfsbelasting *** OV4_Chemiebedrijven en OV1_Hoogopgeleiden (0,5663). OV6_Uitgaven_Gezondheidszorg en OV2_Academische_Instituten (0,6502).
*** Stond in literatuur maar is mij niet duidelijk
xtgls AV_Aantal_Farmabedrijven OV1_Hoogopgeleiden OV2_Academische_Instituten OV3_Marktpotentieel OV4_Chemiebedrijven OV5_Overheidssubsidies OV6_Uitgaven_Gezondheidszorg CV3_GDP_Groei CV5_Inflatie CV6_Bedrijfsbelasting, panels(heteroskedastic) corr(psar1)
*** Hetzelfde voor cross-sectionele afhankelijkheid
xtcd OV1_Hoogopgeleiden
xtcd OV2_Academische_Instituten .... .
Please advise if I have done something wrong and any comments or insights as to what steps I should take from here.
Kind Regards
Ward Bruurs