Estatística

A estatística é unha colección de métodos que axudan a describir, resumir, interpretar e analizar datos. As conclusións tiradas dos datos son vitais en ámbitos tan diversos coma a investigación, a administración ou os negocios. Independentemente do campo onde se estea aplicando, é importante que a recollida de datos se faga dun xeito que permita a súa análise. A distribución destes datos nun conxunto ou nunha matriz de datos permite a aplicación dunha ampla variedade de métodos estatísticos^[2]. A estatística, como especialidade matemática que é, é unha ciencia, auxiliar en canto ás súas aplicacións noutras disciplinas.

Nun sentido máis restrinxido, o termo estatística úsase para denominar os propios datos ou os números derivados deses datos. Así, fálase de estatísticas de emprego, estatísticas de accidentes etc^[3].

Historia

O coñecemento da historia dunha disciplina é importante, polo menos en tres aspectos:

comprendermos o seu estado actual de desenvolvemento e a relación entre as súas partes.
comprendermos a súa terminoloxía, xa que o nome dunha técnica ou un método está sempre asociado ás súas orixes históricas.
prever o seu desenvolvemento futuro.

A estatística actual é o resultado da confluencia de dúas disciplinas: Cálculo de Probabilidades e Estatística, entendida esta última como a Aritmética. Etimoloxicamente estatística, deriva de Estado, do latín status.

Cálculo de probabilidades: a abondosa presenza do óso astrágalo de ovella e cervo nas escavacións arqueolóxicas máis antigas parece confirmar que os xogos de azar teñen unha antigüidade de máis de 40 000 anos, e a utilización do astrágalo en culturas máis recentes (Grecia, Exipto e Roma) foi amplamente documentada. Nas pirámides hai pinturas que mostran xogos de azar, xa na primeira dinastía (3500 a.C.) e Heródoto refírese á popularidade e difusión na súa época dos xogos de azar. Estes empregáronse por diversas culturas tamén en cerimonias relixiosas.

En civilizacións antigas, o azar explicábase mediante a vontade divina. Os oráculos, sacerdotes e pitonisas en Grecia e Roma usaban a configuración resultante de botar catro dados para agoirar o futuro e revelar a vontade favorable ou desfavorable dos deuses. Prácticas semellantes aparecen en culturas distantes como a xudía, tibetana ou india. Esta actitude máxica a respecto do azar maniféstase igualmente en (Piaget)

Gerolamo Cardano, un pioneiro do cálculo de probabilidades.

O Renacemento supón un novo enfoque global de considerarmos o mundo. Neste sentido, hai unha reconsideración dos experimentos aleatorios, e os matemáticos italianos de comezos de século XVI, empezan a interpretar os resultados de experimentos aleatorios simples. Cabe destacar, entre outros, Cardano, Galileo e Tartaglia.

O desenvolvemento da análise matemática dos xogos de azar prodúcese de vagar durante os séculos XVI e XVII con Pascal, Fermat e o Cabaleiro de Méré estudando dar resposta á aparición dos resultados en distintos xogos de azar, daquela moi populares. O cálculo de probabilidades consolídase como disciplina independente no período que vai desde a segunda metade do século XVII até comezos do XVIII.

Durante o século XVIII o cálculo de probabilidades espállase por problemas físicos e actuariais (en seguros marítimos). Neste período cabe destacar a aplicación a problemas físicos e astronómicos que aparecen ligados ao contraste empírico da Teoría de Newton. Newton estableceu unha teoría común para explicar fenómenos que tiñan sido obxecto de estudos fragmentarios e incompletos. Tamén durante este século e parte do XIX as investigacións físicas e astronómicas dan pulo ao desenvolvemento dos primeiros métodos estatísticos. O primeiro problema foi o Tratamento de Erros de medida, desenvólvese un método para estimar unha cantidade descoñecida a partir dun conxunto de medidas do seu valor que presentan un erro experimental (Bernouilli), tamén se desenvolve un test para determinar se pode aceptarse a hipótese de aleatoriedade no ordenamento das órbitas dos planetas. Por outra banda Pierre Simon máis coñecido como Marqués de Laplace, introduce a primeira definición explícita de probabilidade. E elabóranse modelos para predicir valores dunha variable a partir doutras posibelmente relacionadas con elas, a regresión.

A segunda contribución fundamental a este período é debida a Gauss quen resolve de modo xeral o problema de estimación de modelos estatísticos con aplicación en Astronomía.

Durante a primeira metade do século XIX os matemáticos-astrónomos continúan a ampliar a Teoría de erros. Caben destacar entre outros investigadores: Auguste Bravais, Pierce e Simon Newcomb. Máis os avances en Teoría de Erros teñen pouca influencia noutros campos fóra da Física ou Astronomía, en particular teñen pouca influencia nunha disciplina cuxo campo de estudo é a Análise Cuantitativa de datos demográficos, sociais e económicos e que se coñecía desde o século XVII co nome de Estatística.

A estatística até o século XIX

Desde a antigüidade, os Estados teñen recollido información sobre a poboación e riqueza que existía nos seus dominios. Os censos romanos, os Inventarios de Carlomagno etc., poden considerarse precedentes da institucionalización da recollida de datos demográficos e económicos polos Estados Modernos, principalmente por razóns fiscais. Esta aritmética política ou Estatística Descritiva evolúe durante os séculos XVII e XVIII tomando progresivamente un carácter máis cuantitativo.

O primeiro intento de aplicar un razoamento propiamente estatístico, no sentido actual do termo, a datos demográficos é debido a Graunt (1662). Graunt intenta estimar a poboación inglesa da súa época, e foi quen de, a partir dunha mostra, estimar por primeira vez taxas de mortalidade por idades e deducir a frecuencia de nacementos de homes e mulleres, entre outras análises demográficas relevantes.

As primeiras táboas completas de mortalidade foron publicadas por Edmund Halley en 1693, que estudou o problema dos seguros de vida. Durante o século XVIII hai un rápido crecemento dos seguros (sobre todo marítimos) na Inglaterra, e aplícanse as técnicas demográficas de Graunt e Petty para facer os primeiros censos oficiais. O primeiro censo que se coñece foi debido ao Vicerrei Pedro de la Fasca, no Perú. Na Europa o primeiro censo faise en Irlanda en 1703 e en España, o primeiro faise en 1787 ao abeiro do Conde de Floridablanca.

A comezos do século XIX pode afirmarse que a case totalidade dos estados europeos recollen información oficial mediante censos de datos demográficos, económicos, climáticos etc. Paralelamente xorden as Axencias Oficiais de Estatística. En 1834 creouse a Royal Statistical Society en Londres e máis tarde a American Statistical Association. En España a Lei da Función Estatística Pública regula o ordenamento Estatístico Oficial na Administración do Estado. Na Galiza é o Instituto Galego de Estatística (IGE) quen se encarga de elaborar os produtos estatísticos para fins da Comunidade Autónoma Galega. Xa nas Comunicades Europeas, de máis recente creación, o Eurostat encárgase da estatística para fins comunitarios

Durante o século XVIII e a maior parte do XIX , a Estatística evolúe como ciencia separada do Cálculo de Probabilidades e a Teoría de Erros aínda que aparecen os primeiros autores De Moivre e Deparcieux que aplican o cálculo de probabilidades a datos demográficos e Condorcet e Laplace a problemas de aritmética política. Unha contribución importante cara a dita síntese é debida a Adolphe Quetelet (1846),que sostén a importancia do cálculo de probabilidades para o estudo de datos humanos. Quetelet demostrou que a estatura dos recrutas dunha quinta seguía unha distribución normal, e introduce o concepto de “home medio”. Non obstante había aínda obstáculos de índole lingüística e de conceptos por eliminar. A unión entre ambas as correntes ven a producirse a comezos do século XIX, favorecida en gran parte, polos novos problemas teóricos e metodolóxicos que formulaba a contrastación empírica da Teoría de Darwin.

O nacemento da Estatística actual

Karl Pearson, un dos fundadores da estatística matemática.

Do mesmo xeito que Newton é importante na Estatística en canto aos seus estudos na Física e Astronomía, Darwin en Bioloxía introduce novidades como: a variabilidade, a selección mediante a loita pola existencia, o concepto de poboación composta por unidades elementais. Para resolver estes problemas Francis Galton (1822-1911), curmán de Darwin, utiliza os métodos estatísticos aplicados polos demógrafos os modelos probabilísticos existentes para explicar aspectos de evolución das especies. Galton tamén introduce o concepto de regresión comparando estaturas de pais e fillos.

A contribución de Galton inflúe grandemente en Weldon, Pearson, Fisher ou Edgeworth, investigadores todos na área de influencia da Bioloxía. Precisamente o primeiro departamento de Estatística no sentido actual é fundado por Galton quen tamén apoia a aparición da revista Biométrica.

Para Weldon a resolución dos problemas de evolución animal é esencialmente estatístico. Xa que logo "debemos coñecer, entre outros: a) A porcentaxe de animais que mostran un certo grao de anormalidade a respecto dun carácter. b) O grao de anormalidade doutros órganos que acompaña as anormalidades dun órgano dado. c) A diferenza entre a taxa de mortalidade en animais con diferentes graos de anormalidade a respecto dun órgano. d) A anormalidade dos descendentes en termos de anormalidade dos pais e viceversa"

Isto nos indica o enfoque metodolóxico que desde entón se adopta na investigación biolóxica utilizando o método estatístico. Por isto moitos dos métodos estatísticos actuais foron desenvolvidos a partir de problemas biolóxicos por biólogos. As técnicas foron posteriormente normalizadas e depuradas polos matemáticos para dar lugar ao que corresponde o corpo actual da ciencia Estatística

A expansión da Estatística no século XX

Os métodos estatísticos comezan a popularizarse a partir deste século, con etapas de maior ou menor avance. Aparecen o Control da Calidade na Enxeñaría, o Deseño de Experimentos en Agronomía, os Métodos Factoriais en Psicoloxía, os Métodos Multivariantes nas Ciencias Sociais etc. De xeito que hoxe en día a estatística regula a nosa vida: IPC, Fondos Europeos etc. Pero, en xeral, os métodos que aparecen para dar solución a problemas dunha disciplina concreta permiten ser utilizados noutros campos diferentes. Aparecen, así, disciplinas de Estatística Aplicada con nomes mixtos entre a disciplina de aplicación e a estatística, como Econometría, Dasometría, Sociometría, Bioestatística etc.

Durante a segunda guerra mundial, e aplicados a problemas militares, aparecen os problemas de Optimización e Xestión de recursos que dan lugar ás técnicas de Investigación Operacional. E máis recentemente, coa irrupción dos ordenadores persoais, a Estatística está a vivir un grao de desenvolvemento e aplicación extraordinaria, coa aparición de grandes Bases de Datos e potentes programas informáticos de Software Estatístico que permiten o seu tratamento e explotación.

Divisións da estatística

Segundo os métodos que se estean usando, a estatística divídese en dúas grandes áreas:

A estatística descritiva, que comprende os métodos de descrición, recollida, visualización e resumo dos datos.

A descrición dos datos establece de que tipo son mediante o uso das variables estatísticas, as cales poden ser cualitativas, cuxos datos non son numéricos no sentido de que non son susceptibles de seren tratados numéricamente, ou cuantitativas, nas que os datos son numéricos. A variable cuantitativa pode ser continua, cando os datos poden tomar calquera valor dentro dun conxunto determinado deles, ou discreta se non é así^[3].

A recollida dos datos introduce os conceptos de poboación e mostra, e utiliza as técnicas de mostraxe.

A visualización dos datos comprende a súa organización en táboas e gráficos estatísticos.

O resumo dos datos faise para facilitar o seu manexo mediante uns números ou estatísticos que compendien dalgunha maneira a totalidade dos datos. Estes poden ser de centralización, que sinalan os valores centrais arredor dos cales se distribúen os datos, ou de dispersión, que miden o maior ou menor espallamento dos datos respecto dos valores centrais. Entre os primeiros se encontran a media, a mediana e a moda. Os estatísticos de dispersión inclúen a varianza, a desviación típica e o coeficiente de variación, entre outros.

A estatística inferencial, que, mediante métodos de análise de datos e baixo un preespecificado nivel de incerteza, permite tirar conclusións para toda a poboación a estudo a partir dunha mostra dela e coñecer algunhas das características do proceso aleatorio que xera os datos^[4]. O cálculo de probabilidades é unha ferramenta básica na inferencia estatística. A continuación expóñense algúns campos importantes da inferencia estatística:
- Unha das principais tarefas da estatística inferencial é estimar o valor descoñecido dun certo parámetro da poboación (media, varianza, proporción...). O proceso mediante o cal se chega a dar valores "aproximados" dos parámetros de poboación, chámase estimación estatística^[5]. Unha estimación dise que é paramétrica cando asumimos que a poboación segue unha certa distribución estatística, en caso contrario a estimación é non paramétrica^[6]. A estimación tamén pode ser puntual ou por intervalos.

Na estimación puntual só se dá un valor que se vai tomar como aproximación do correspondente parámetro de poboación^[5]. O proceso para obter ese valor aproximado parte do cálculo dalgún estatístico da mostra que se tomará como a aproximación do parámetro; a dito estatístico se lle chama estimador do parámetro en cuestión, por exemplo, a media mostral é un estimador da media de poboación. Como encontrar estimadores bos e precisos é un dos retos da inferencia estatística^[6].

Na estimación por intervalos prognostícase que o parámetro de poboación está nun certo intervalo ( chamado de confianza) centrado no estimador elixido, dándose a probabilidade de que o parámetro pertenza ao intervalo^[5]. Esta probabilidade denótase coa letra grega α e recibe o nome de nivel de confianza; é habitual expresalo en porcentaxe

100\alpha \%

. O nivel de significación é a probabilidade

1-\alpha

de que o parámetro de poboación non estea no intervalo de confianza. Os niveis de confianza máis habituais son os do 99%, 95% e 90%, que corresponden respectivamente aos niveis de significación de 0,01 ; 0,05 e 0,10.

Outro problema de inferencia estatística, menos ambicioso cá estimación no sentido de que non estamos interesados no valor preciso do parámetro, é o de examinar se unha certa afirmación acerca do parámetro de interese ou a hipótese de investigación é certa ou non. Outra cuestión relacionada é a de inferir algo sobre o valor do parámetro na poboación, a partir da estimación feita baseada nunha mostra aleatoria. Os tests de hipóteses estatísticas facilitan a comparación dos valores estimados cos valores hipotéticos. Existe unha conexión entre os intervalos de confianza e os tests de hipóteses chamada dualidade^[7].
Diversos tipos de dependencia entre variables aleatorias preséntanse constantemente nas ciencias experimentais (Física, Química...) e de observación (Meteoroloxía, Socioloxía, Economía...). Un obxectivo de todas elas é obter leis que relacionen cantidades observables con outras inobservables ou de difícil observación. O estudo destas leis ou modelos de dependencia ou de predicción, que conteñen, en xeral, variables aleatorias, variables matemáticas e parámetros, comprende as teorías da regresión, do deseño de experimentos, da análise da varianza e da correlación, que son necesarias para o coñecemento científico de fenómenos naturais, económicos, sociais etc. aos que o concepto de función é inaplicable^[8].
O estudo das variables económicas, meteorolóxicas, de poboación e doutras moitas dá lugar a unha sucesión de observacións ao longo do tempo que se coñece coma serie temporal. Existen varios fins que xustifican o estudo das series temporais. Un deles é o intento de predicir o futuro baseándose no coñecemento do pasado, outro podería ser o control de proceso que produce a serie; noutras ocasións preténdese soamente ter unha descrición das características máis salientables da correspondente serie. O caso das magnitudes económicas é particularmente relevante, tanto a nivel familiar, de empresa ou de nación, por determinaren en certo sentido as nosas condicións de vida^[9].
Outros campos importantes son a teoría da información, a teoría da decisión, a teoría de xogos, os procesos estocásticos, a análise multivariante, a programación matemática e a investigación operativa.

Proceso da Estatística clásica

Proponse un problema en estudo.
Realízase unha mostraxe consistente na escolma de datos referentes ao fenómeno ou variable que desexamos estudar.
Proponse un modelo de probabilidade e estímanse os parámetros mediante estatísticas a partir dos datos de mostraxe.
Valídase o modelo comparándoo co que acontece na realidade. Utilízanse métodos estatísticos coñecidos como test de hipótese ou proba de significación.
Utilízase o modelo validado para tomar decisións ou predicir acontecementos futuros.

Disciplinas

En función da área na cal se enfoque, pódense considerar entre outras:

Estatística política: os políticos e técnicos das administracións públicas, usan a estatística na súa toma de decisións, esenciais para acadar o obxectivo de mellorar a calidade dos servizos públicos. A forma de determinar carencias, debilidades ou potencialidades é a través da análise estatística^[10].
Estatística oficial: son estatísticas publicadas por axencias do goberno ou outros organismos públicos coma as organizacións internacionais. Son un ben público que proporciona información cuantitativa e cualitativa sobre a maioría dos aspectos da vida dos cidadáns, tales como o desenvolvemento económico e social, as condicións de vida, a saúde, a educación, e o ambiente.
Estatística social: é o uso da estatística para estudar o comportamento nun ambiente social. Isto implica o uso de enquisas a un grupo de xente, avaliar un conxunto de datos obtidos dun colectivo, ou a observación e a análise estatística dun conxunto de datos relacionados coa xente e o seu comportamento.
Estatística económica: concirne coa recollida, procesamento, compilación, diseminación e análise de datos económicos.
Estatística industrial: busca implementar os procedementos probabilísticos e estatísticos de análise e interpretación de datos ou características dun conxunto de elementos ao ambiente industrial, para os efectos de axudar na toma de decisións e no control dos procesos industriais e de organización. A estatística úsase nas distintas fases da elaboración dun produto: nos deseños do produto e do proceso, na produción, e na mellora do produto^[11]. Os campos da estatística máis usados son as series de tempo, a análise multivariante, o control de calidade e a fiabilidade.
Bioestatística: é a aplicación da estatística á bioloxía, abranguendo o deseño experimental, a obtención e procesamento de datos e a inferencia estatística. Unha da súas principais ramas é a bioestatística médica^[12], que cobre os aspectos relacionados coa medicina e a saúde.
Física estatística: tamén chamada mecánica estatística é a parte da física que trata de determina-lo comportamento termodinámico de sistemas macroscópicos, a partir de consideracións microscópicas (é dicir, a escalas próximas ou inferiores ó átomo) de tipo estatístico.
Estatística cuántica: é a estatística física aplicada a sistemas cuánticos.

Persoeiros importantes na estatística

Peter Armitage.
M. S. Bartlett.
Thomas Bayes.
Allan Birnbaum.
David Blackwell.
Chester Bliss.
Ladislaus Bortkiewicz.
Pafnuty Chebyshev.
Alexey Chervonenkis.
Richard Threlkeld Cox.
Gertrude Cox.
Harald Cramér (Sweden, 1893 - 1985).
Sam Creery.
Philip Dawid.
Mike Dugas.
David B Duncan.
Bruno de Finetti.
W. Edwards Deming.
Persi Diaconis.
(Sir) Richard Doll.
Francis Ysidro Edgeworth.
A. K. Erlang.
Sir Ronald Fisher.
John Fox.
Carl Gauss.
Sir Francis Galton.
Seymour Geisser.
Corrado Gini.
I. J. Good.
William Sealey Gosset (coñecido como "Student").
Major Greenwood.
Emil Julius Gumbel.
Pierre Gy.
Austin Bradford Hill.
Harold Hotelling.
Edwin Thompson Jaynes.
Harold Jeffreys.
David Kendall.
(Sir) Maurice Kendall.
Andrey Nikolaevich Kolmogorov.
Dennis V. Lindley.
Alfred J. Lotka.
Aleksandr Lyapunov.
Prasanta Chandra Mahalanobis.
Claus Moser.
Florence Nightingale.
Blaise Pascal.
Egon Pearson.
Karl Pearson.
Adolphe Quetelet.
C.R. Rao.
Herbert Robbins.
Leonard Jimmie Savage.
Walter A. Shewhart.
Jeff Sagarin.
Henry Scheffé.
George W. Snedecor.
Charles Spearman.
Genichi Taguchi.
Pafnuty Tchebycheff, ver Pafnuty Chebyshev.
Thorvald Thiele.
John Tukey.
Vladimir Vapnik (Rusia, ~1935 - ).
Abraham Wald.
Chris Wallace (1933-2004).
Samuel Stanley Wilks.
Herman Wold.
Frank Yates.
G. Udny Yule.

Notas

↑ IGE. Portal educativo. "representacións gráfica".
↑ Heumann, Schomaker & Shalabh 2016, p. 3
↑ ^3,0 ^3,1 Spiegel & Stephens 2007, p. 1
↑ Heumann, Schomaker & Shalabh 2016, p. 181
↑ ^5,0 ^5,1 ^5,2 Rodríguez & García 1997, p. 101
↑ ^6,0 ^6,1 Heumann, Schomaker & Shalabh 2016, p. 182
↑ Heumann, Schomaker & Shalabh 2016, p. 209
↑ Ríos 1974, pp. 157-158
↑ Rodríguez & García 1997, pp. 136-137
↑ Ramos, Emma (14 de xullo de 2017). "Estadística y políticas públicas". El Economista (en castelán). Consultado o 4 de agosto de 2020.
↑ Naya Fernández, Salvador (2010). "Estadística en la industria" (PDF) (en castelán). Arquivado dende o orixinal (PDF) o 17 de maio de 2017. Consultado o 4 de agosto de 2020.
↑ Indrayan, Abhaya (2012). Medical Biostatistics (en inglés). CRC Press. ISBN 978-1-4398-8414-0.

Véxase tamén

Bibliografía

Heumann, C.; Schomaker, M.; Shalabh (2016). Introduction to Statistics and Data Analysis (en inglés). Springer. ISBN 978-3-319-46160-1.
Ríos, S. (1974). Métodos estadísticos (en castelán) (6ª ed.). Madrid: del Castillo. ISBN 84-219-0198-2.
Rodríguez Álvarez, Francisco; García Suárez, Xenaro (1997). Introdución aos métodos estatísticos e numéricos. Xerais. ISBN 84-8302-101-3.
Spiegel, M. R.; Stephens, L. J. (2007). Statistics. Schaum's Outlines (en inglés) (4ª ed.). MacGraw-Hill. ISBN 9780071594462. doi:10.1036/0071485848.

Outros artigos

Ligazóns externas

Organizacións internacionais

Software estatístico

[1] IGE. Portal educativo. "representacións gráfica".

[Heumann3-2] Heumann, Schomaker & Shalabh 2016, p. 3

[Spiegel1-3] 3,0 ^3,1 Spiegel & Stephens 2007, p. 1

[4] Heumann, Schomaker & Shalabh 2016, p. 181

[Rodríguez101-5] 5,0 ^5,1 ^5,2 Rodríguez & García 1997, p. 101

[Heumann182-6] 6,0 ^6,1 Heumann, Schomaker & Shalabh 2016, p. 182

[7] Heumann, Schomaker & Shalabh 2016, p. 209

[8] Ríos 1974, pp. 157-158

[9] Rodríguez & García 1997, pp. 136-137

[10] Ramos, Emma (14 de xullo de 2017). "Estadística y políticas públicas". El Economista (en castelán). Consultado o 4 de agosto de 2020.

[11] Naya Fernández, Salvador (2010). "Estadística en la industria" (PDF) (en castelán). Arquivado dende o orixinal (PDF) o 17 de maio de 2017. Consultado o 4 de agosto de 2020.

[12] Indrayan, Abhaya (2012). Medical Biostatistics (en inglés). CRC Press. ISBN 978-1-4398-8414-0.

[2]

[1]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]