Guies

Com executar una regressió multivariant a Excel

Abans aprenem a actuar regressió multivariant a Excel, és important tenir una actualització sobre la regressió en general i, en particular, la regressió multivariant.

Una de les característiques de la intel·ligència humana és la nostra capacitat per reconèixer els patrons que ens envolten. És el que ens fa reconèixer quan dues o més coses semblen connectades i quan una cosa és probablement la causa o l’efecte d’una altra.

Regressió multivariant a Excel

Suposem, per exemple, que decidiu recopilar dades sobre temperatures mitjanes i precipitacions mitjanes en un lloc concret durant tot un any, recopilant dades cada dia. A continuació, dibuixeu les dades de temperatura i precipitacions mitjanes en un tros de paper mil·limetrat. Podeu representar les xifres de temperatura mitjana a l’eix x i les xifres mitjanes de precipitacions a l’eix y. Cada punt d’aquest gràfic de dispersió tindrà coordenades: una coordenada x i una coordenada y. Aquestes coordenades el situaran en un lloc especial del gràfic.

En traçar els punts, és possible que comenceu a veure emergir un patró. Pot semblar que, amb temperatures mitjanes creixents, la pluja mitjana a la ubicació ha estat recopilant dades sobre els augments. Les dues dades que heu estat recopilant es coneixen tècnicament com a les variables. En aquest cas, la temperatura mitjana és la variable independent, mentre que la pluja mitjana és la variable dependent.

Quan observeu que les dues variables estan connectades, diem que sí correlacionat. La correlació pot adoptar moltes formes. Si una variable puja mentre l’altra baixa, aquesta és una correlació negativa. Si una variable puja en tàndem amb l’altra, és una correlació positiva. Si no sembla que hi hagi cap tendència clara a les variables, direm que no hi ha correlació.

Dades i correlacions

Es dóna un valor de correlació positiva perfecta +1 mentre que la correlació negativa perfecta té un valor de -1. 0, que es troba al mig d’aquests dos valors, no representa cap correlació. Per tant, les dades poden adoptar un valor de correlació en qualsevol lloc d’aquest interval. El valor exacte d’aquesta correlació es coneix com a coeficient de correlació, que es calcula, mitjançant una fórmula estadística especial que existeix a la llista de funcions d’Excel.

Tingueu en compte que als estadístics els agrada distingir entre correlació i causalitat. El fet que dues coses estiguin correlacionades no vol dir que tinguin una relació causal. En el nostre exemple anterior, el fet que un augment de la temperatura mitjana correspongui a un augment de les precipitacions mitjanes no vol dir que una provoqui l’altra. Podria ser que un tercer factor ocult causés les dues coses.

En aquest cas, és ben sabut entre els meteoròlegs que un augment de la humitat condueix a un augment tant de la temperatura percebuda com de les precipitacions. Per això és important entendre la distinció. La correlació de mapes mostra on existeixen patrons; dir que mostra el que fa que el que seria excedir el seu resum.

És possible que no us sentiu feliç de tenir una trama dispersa. Potser tenir una línia a través de les dades que mostri com es veu la relació seria més fàcil d’entendre. El que busqueu és la línia de regressió o la que millor s’adapti a les dades que teniu abans. Això implica emprar una fórmula de regressió que utilitzi el coeficient de correlació per trobar la millor línia de regressió.

Variables simples i múltiples

La diversió no acaba aquí. Les fórmules anteriors són per a una única variable independent i una única variable dependent. Tanmateix, com hem comentat anteriorment, de vegades hi pot haver més d’una variable independent a l’equació.

Per exemple, hem assenyalat que el simple traçat de la temperatura mitjana contra la pluja mitjana no dóna una imatge completa. La humitat mitjana és una altra variable independent que influeix tant en la temperatura mitjana com en la pluja mitjana. No seria excel·lent que hi hagués alguna manera de traçar la pluja mitjana com a variable dependent de les dues variables independents que són la pluja mitjana i la humitat mitjana?

Resulta que això és exactament el que tracta la regressió multivariant. Us permet relacionar una única variable dependent amb diverses variables independents que heu mesurat i recopilat dades.

Anàlisi de regressió multivariant

La regressió multivariant és una forma d’anàlisi de dades molt potent i resulta més precisa quan s’aplica al món real. En particular, en el món dels negocis, les situacions poques vegades estan influïdes per un sol factor. Normalment, hi ha molts factors que treballen de manera conjunta per crear resultats. Quan recopileu dades sobre determinats conjunts de condicions, aquest tipus d’anàlisi de dades us permetrà predir dades en condicions relacionades.

Amb el poder de la regressió multivariant, podreu entendre millor el vostre mercat i els clients que hi existeixen.

Anàlisi de regressió a Excel

Abans d’afanyar-vos a comprar el programari estadístic més avançat del mercat, estareu encantats de saber que podeu fer-ho anàlisi de regressió a Excel.

Inicieu Excel

Per començar el vostre anàlisi multivariant a Excel, inicieu el Microsoft Excel. Feu clic a a la pestanya etiquetada "Dossier" i llavors feu clic al botó etiquetat "Opcions". S'obrirà un quadre de diàleg.

Feu clic a les opcions

A la part esquerra del quadre de diàleg hi ha una llista amb opcions. Feu clic a a les opcions etiquetades Complements ". Podreu veure els complements d'aplicació. A la llista de complements inactius, hauríeu de veure un element etiquetat ToolPak d’anàlisi.Feu clic a sobre això, doncs feu clic al menú desplegable a "Complements d'Excel".Feu clic a al botó etiquetat "Vés" a la part inferior i amb un altre quadre de diàleg etiquetat "Complements"Apareixerà.

Marqueu la casella

Davant de l’opció etiquetada “ToolPak d’anàlisi és una casella de selecció. Feu clic a sobre ella i després feu clic al botó de la part dreta del quadre de diàleg etiquetat "D'ACORD." Això activarà l'opció que acabeu de marcar.

Realització de la regressió

Ara toca realitzar la regressió. Les columnes necessitaran encapçalaments, que podeu introduir a la fila 1. Les dades van a sota de l’encapçalament. Teniu una columna específica per a la vostra variable dependent. Ha de ser la primera o l'última columna. Les variables independents poden omplir les altres columnes i han d'estar en ordre consecutiu.

Pestanya Dades

A la cinta, feu clic a la pestanya etiquetada "Dades". Al grup etiquetat "Anàlisi" feu clic a l’element etiquetat "Anàlisi de dades." S'obrirà un quadre de diàleg.

Regressió

A la Eines d'anàlisi al quadre de diàleg, cerqueu Regressió i feu-hi clic feu clic encès "D'ACORD."

Variable dependent

Ara escriviu la ubicació de l'interval de cel·les que té la variable dependent al camp etiquetat "Rang d'entrada Y".

Variable independent

Ara escriviu la ubicació de l'interval de cel·les que té la vostra variable independent al camp etiquetat "Rang d'entrada X".

Marqueu la casella

Per assegurar-ho sobresortir sap que la primera fila no té res més que etiquetes_, feu clic a la casella de selecció etiquetada "Etiquetes".

Feu clic a Rang de sortida

A la secció etiquetada Opcions de sortida, hi ha un botó d’opció etiquetat "Rang de sortida".Feu clic a i introduïu un interval per a les vostres dades a la primera per tal de determinar on apareixerà la sortida de l’anàlisi de regressió. En cas que vulgueu que els vostres resultats apareguin en un full de treball separat, feu clic al botó d’opció etiquetat "Capa de full de treball". Si els voleu completament en un fitxer nou, feu clic al botó d’opció etiquetat "Nou llibre de treball".

Residus

Hi ha una secció del quadre de diàleg de regressió etiquetada "Residus". Aquests són resums dels resultats de l'anàlisi que consideren els resultats cas per cas. Comparen la predicció amb el resultat real. Els residus estandarditzats agafaran la desviació estàndard dels vostres residus i la corregiran a 1.

Feu clic a a la casella de selecció de l’opció etiquetada "Parcel · la," i es mostraran els resultats. Si escolliu "Trama de residus" llavors només es representaran els residus. Si escolliu "Trama d'ajust de línia, llavors la predicció es traçarà en funció dels resultats reals. Feu clic a encès "D'ACORD," i la vostra regressió començarà a processar-se. Podeu veure els resultats més endavant a la ubicació que havíeu especificat anteriorment.