Tuesday 18 February 2020

Generating correlations in stata forex


O pacote - egenmore - adiciona muitas coisas a - egen-, incluindo corr (), que calcula as correlações (e covariâncias) entre duas variáveis. Ssc install egenmore Então será egenmore corrtc corr (tfp, capital). Por (ano da indústria) Oliinik, Victoria escreveu: Queridos estatalistas, Alguém pode me ajudar com o seguinte Para cada uma das 39 indústrias e 5 anos, eu preciso gerar uma variável que representa a correlação entre TFP e capital e armazená-lo no meu dataset. Isso não parece funcionar com os comandos egen ou gen. Agradecemos antecipadamente Victoria Victoria Oliinik LICOS Centro de Instituições e Desempenho Econômico Katholieke Universiteit Leuven Deberiotstraat 34 - ônibus 3511, B-3000 Leuven, BélgicaVocês são os melhores postando isso no Statalist, por duas razões. Primeiro, você não mostra nenhum código aqui, então sua pergunta é marginal para este fórum. Em segundo lugar, existem todos os tipos de extras escritos pelo usuário que suportam MS Word saída, mas provavelmente mais experiência entre os usuários Statalist de que poderia caber seu problema. Eu não uso nenhum deles, portanto, não posso aconselhar especificamente. Você pode fazer isso com estout / esttab / estpost depois de instalá-lo: Isso é bastante básico, mas você pode torná-lo muito mais sofisticado depois de olhar para alguns exemplos aqui. Pearsons Correlação Usando Stata Introdução O coeficiente de correlação produto-momento de Pearson, freqüentemente encurtado à correlação de Pearson ou correlação de Pearson, é uma medida da força e direção da associação que existe entre duas variáveis ​​contínuas. A correlação de Pearson gera um coeficiente chamado coeficiente de correlação de Pearson, denotado como r. Uma correlação de Pearson tenta traçar uma linha de melhor ajuste através dos dados de duas variáveis, eo coeficiente de correlação de Pearson, r. Indica o quão longe todos esses pontos de dados estão para esta linha de melhor ajuste (isto é, quão bem os pontos de dados se encaixam neste novo modelo / linha de melhor ajuste). Seu valor pode variar de -1 para uma relação linear perfeita negativa para 1 para uma relação linear positiva perfeita. Um valor de 0 (zero) indica nenhuma relação entre duas variáveis. Por exemplo, você poderia usar uma correlação de Pearsons para entender se existe uma associação entre o desempenho do exame eo tempo gasto na revisão (ou seja, suas duas variáveis ​​seriam o desempenho do exame, medido de 0 a 100 pontos eo tempo de revisão, medido em horas). Se houvesse uma associação moderada e positiva, poderíamos dizer que mais tempo gasto na revisão foi associado com melhor desempenho do exame. Alternativamente, você poderia usar uma correlação de Pearsons para entender se há uma associação entre a duração do desemprego ea felicidade (ou seja, suas duas variáveis ​​seriam a duração do desemprego, medida em dias ea felicidade, medida usando uma escala contínua). Se houvesse uma associação forte e negativa, poderíamos dizer que quanto maior o tempo de desemprego, maior a infelicidade. Neste guia, mostraremos como realizar uma correlação de Pearsons usando Stata, bem como interpretar e relatar os resultados deste teste. No entanto, antes de apresentá-lo a este procedimento, você precisa entender as diferentes suposições que seus dados devem atender para que uma correlação Pearsons para lhe dar um resultado válido. Discutimos estas suposições a seguir. Suposições Stata Existem quatro suposições que sustentam uma correlação Pearsons. Se qualquer uma dessas quatro suposições não forem atendidas, analisar seus dados usando uma correlação de Pearsons pode não levar a um resultado válido. Uma vez que o pressuposto 1 se relaciona com a escolha das variáveis, não pode ser testado para o uso do Stata. No entanto, você deve decidir se seu estudo atende a essa suposição antes de seguir em frente. Suposição 1: Suas duas variáveis ​​devem ser medidas no nível contínuo. Exemplos de tais variáveis ​​contínuas incluem a altura (medida em pés e polegadas), a temperatura (medida em degC), o salário (medido em dólares), o tempo de revisão (medido em horas), a inteligência Em milissegundos), desempenho de teste (medido de 0 a 100), vendas (medido em número de transações por mês), e assim por diante. Se você não tiver certeza se suas duas variáveis ​​são contínuas (ou seja, medidas no intervalo ou nível de razão), consulte o nosso Guia de Tipos de Variáveis. Nota: Se uma de suas duas variáveis ​​foi medida em uma escala ordinal. Você precisa usar a correlação de Spearmans em vez da correlação de Pearson. Exemplos de variáveis ​​ordinais incluem escalas de Likert (por exemplo, uma escala de 7 pontos de fortemente de acordo com fortemente em desacordo), entre outras formas de classificar as categorias (por exemplo, uma escala de 5 pontos para medir a satisfação no trabalho, Que determina a facilidade de navegar em um novo site, variando de muito fácil a muito difícil ou uma escala de 3 pontos, explicando o quanto um cliente gostou de um produto, desde Não muito, até Ele é OK, para Sim, muito). Felizmente, você pode verificar suposições 2, 3 e 4 usando Stata. Ao passar para as suposições 2, 3 e 4, sugerimos testá-las nesta ordem porque representa uma ordem em que, se uma violação à suposição não for corrigível, você não poderá mais usar uma correlação de Pearson. Na verdade, não se surpreenda se seus dados falharem uma ou mais dessas suposições, uma vez que isso é bastante típico quando se trabalha com dados do mundo real, em vez de exemplos de livros didáticos, que muitas vezes só mostram como realizar uma correlação de Pearson quando tudo vai bem . No entanto, não se preocupe, porque mesmo quando seus dados falham certas suposições, muitas vezes há uma solução para superar isso (por exemplo, transformar seus dados ou usar outro teste estatístico em vez disso). Basta lembrar que, se você não verificar se os dados cumprem essas premissas ou não as testar corretamente, os resultados obtidos ao executar uma correlação de Pearson podem não ser válidos. Suposição 2: Precisa haver uma relação linear entre suas duas variáveis. Embora existam várias maneiras de verificar se existe uma correlação de Pearson, sugerimos criar um diagrama de dispersão usando Stata, onde você pode plotar suas duas variáveis ​​umas contra as outras. Você pode então inspecionar visualmente o scatterplot para verificar a linearidade. Seu scatterplot pode ser parecido com um dos seguintes: Se o relacionamento exibido em seu scatterplot não for linear, você terá que transformar seus dados ou talvez executar uma correlação Spearmans em vez disso, o que você pode fazer usando o Stata. Suposição 3: Não deve haver outliers significativos. Outliers são simplesmente pontos de dados únicos dentro de seus dados que não seguem o padrão usual (por exemplo, em um estudo de 100 escores de QI de estudantes, onde a pontuação média foi 108 com apenas uma pequena variação entre os alunos, um estudante teve uma pontuação de 156, que É muito incomum, e pode até colocá-la no top 1 do QI globalmente). Os seguintes diagramas de dispersão destacam o impacto potencial de outliers: Pearsons r é sensível a outliers, o que pode ter um efeito muito grande na linha de melhor ajuste eo coeficiente de correlação de Pearson, levando a conclusões muito difíceis sobre seus dados. Portanto, é melhor se não há outliers ou eles são mantidos a um mínimo. Felizmente, você pode usar Stata para detectar possíveis outliers usando scatterplots. Suposição 4: Suas variáveis ​​devem ser aproximadamente distribuídas normalmente. Para avaliar a significância estatística da correlação de Pearson, você precisa ter normalidade bivariada, mas essa suposição é difícil de avaliar, então um método mais simples é mais comumente usado. Isto é conhecido como o teste de normalidade de Shapiro-Wilk. Que você pode realizar usando Stata. Na prática, a verificação das hipóteses 2, 3 e 4 provavelmente ocupará a maior parte do seu tempo ao realizar uma correlação de Pearson. No entanto, não é uma tarefa difícil, e Stata fornece todas as ferramentas que você precisa para fazer isso. Na seção, Procedimento de teste no Stata. Ilustramos o procedimento de Stata requerido para executar uma correlação de Pearsons assumindo que nenhuma suposição foi violada. Primeiro, apresentamos o exemplo que usamos para explicar o procedimento de correlação de Pearsons em Stata. Stata Example Estudos mostram que o exercício pode ajudar a prevenir doenças cardíacas. Dentro de limites razoáveis, quanto mais você se exercita, menos risco você tem de sofrer de doença cardíaca. Uma maneira em que o exercício reduz o risco de sofrer de doença cardíaca é através da redução de uma gordura no sangue, chamado colesterol. Quanto mais você se exercita, menor a concentração de colesterol. Além disso, recentemente foi demonstrado que a quantidade de tempo que você passa assistindo TV ndash um indicador de um ndash estilo de vida sedentário pode ser um bom preditor de doença cardíaca (isto é, que é, quanto mais TV você assistir, maior o risco de doença cardíaca ). Portanto, um pesquisador decidiu determinar se a concentração de colesterol estava relacionada ao tempo gasto assistindo TV em homens saudáveis ​​de 45 a 65 anos de idade (uma categoria de risco). Por exemplo, como as pessoas passaram mais tempo assistindo TV, fez sua concentração de colesterol também aumentar (uma relação positiva) ou fez o contrário acontecer Para realizar a análise, o pesquisador recrutou 100 participantes masculinos saudáveis ​​entre as idades de 45 e 65 anos de idade. A quantidade de tempo gasto observando a TV (isto é, a variável, timetv) e a concentração de colesterol (isto é, a variável, colesterol) foram registadas para todos os 100 participantes. Expressa em termos variáveis, o pesquisador queria correlacionar colesterol e timetv. Nota: O exemplo e os dados utilizados para este guia são fictícios. Acabamos de criá-los para os propósitos deste guia. Stata Setup no Stata No Stata, criamos duas variáveis: (1) timetv. Que é o tempo médio diário gasto assistindo TV em minutos e (2) colesterol. Que é a concentração de colesterol em mmol / L. Nota: Não importa qual variável você cria primeiro. Depois de criar essas duas variáveis ​​ndash timetv e ndash de colesterol, inserimos as pontuações para cada uma nas duas colunas da planilha de edição de dados (Editar) (ou seja, o tempo em que os participantes assistiram TV na coluna da esquerda (ie timetv) E os participantes colesterol concentração em mmol / L na coluna da direita (ou seja, colesterol)), como mostrado abaixo: Publicado com permissão por escrito da StataCorp LP. Stata Test Procedure in Stata Nesta seção, mostramos como analisar seus dados usando uma correlação de Pearsons em Stata quando os quatro pressupostos na seção anterior, Pressupostos. Não foram violados. Você pode realizar uma correlação Pearsons usando o código ou Statas interface gráfica do usuário (GUI). Depois de ter realizado a análise, mostramos como interpretar os resultados. Primeiro, escolha se deseja usar o código ou a interface gráfica de usuário (GUI) do Statas. Código O código básico para executar uma correlação de Pearsons assume a forma: pwcorr VariableA VariableB No entanto, se você também quiser Stata para produzir ap - value (ou seja, o nível de significância estatística do seu resultado), você precisará adicionar sig ao final do código , Como mostrado abaixo: pwcorr VariableA VariableB, sig Se você também deseja Stata para saber se o resultado é estatisticamente significativo em um determinado nível (por exemplo, onde p lt .05), você pode definir este p-valor, adicionando-o para o (P. Ex., Sig star (0,05)), que coloca uma estrela ao lado da pontuação de correlação (p. Ex. Se o seu resultado é estatisticamente significativo neste nível. O código assumiria a forma: pwcorr VariableA VariableB, sig star (.05) Finalmente, se você deseja que o Stata exiba o número de observações (ou seja, o tamanho da amostra, N), você pode fazer isso adicionando obs ao final do Código, como mostrado abaixo: pwcorr VariableA VariableB, sig star (.05) obs Qualquer código que você escolher incluir deve ser inserido na caixa abaixo: Publicado com permissão por escrito da StataCorp LP. Usando o nosso exemplo onde uma variável é colesterol ea outra variável é timetv. O código requerido seria um dos seguintes: pwcorr colesterol timetv pwcorr colesterol timetv, sig pwcorr colesterol timetv, sig star (.05) pwcorr colesterol timetv, sig star (.05) obs Desde que queríamos incluir (a) o coeficiente de correlação , (B) o valor de p no nível de 0,05 e (c) o tamanho da amostra (ou seja, o número de observações), bem como (d) ser notificado se o nosso resultado foi estatisticamente significativo ao nível de 0,05, O código, pwcorr colesterol timetv, sig star (.05) obs. E pressionado o botão Return / Enter no nosso teclado, como mostrado abaixo: Publicado com permissão por escrito da StataCorp LP. Você pode ver a saída do Stata que será produzida aqui. Interface Gráfica do Usuário (GUI) As três etapas necessárias para realizar uma correlação de Pearson em Stata 12 e 13 são mostradas a seguir: Click S tatistics gt Sumários, tabelas e testes gt Estatísticas sumárias e descritivas gt Correlações emparelhadas no menu principal, conforme mostrado Abaixo: Publicado com permissão por escrito da StataCorp LP. Você será apresentado com o seguinte pwcorr - Pairwise correlações de variáveis ​​caixa de diálogo: Publicado com permissão por escrito da StataCorp LP. Selecione colesterol e timetv dentro da caixa Variáveis: (deixe vazio para todos), usando o botão. Em seguida, marque a opção Imprimir número de observações para cada entrada. Nível de significância de impressão para cada entrada e nível de significância para exibição com caixas de estrela. Você vai acabar com a seguinte tela: Publicado com permissão por escrito da StataCorp LP. Nota: Não importa em qual ordem você seleciona suas duas variáveis ​​dentro da caixa Variáveis: (deixe vazio para todos). Stata Saída de uma correlação de Pearsons em Stata Se seus dados passaram a suposição 2 (ou seja, houve uma relação linear entre as duas variáveis), a suposição 3 (ou seja, não houve outliers) ea suposição 4 (ou seja, suas duas variáveis ​​foram aproximadamente distribuídos normalmente) , Que explicamos anteriormente na seção Suposições, você só precisará interpretar a seguinte saída de correlação Pearsons no Stata: Publicado com permissão por escrito da StataCorp LP. O resultado contém três informações importantes: (1) o coeficiente de correlação de Pearson (2) o nível de significância estatística e (3) o tamanho da amostra. Estas três informações são explicadas em mais detalhes abaixo: (1) O coeficiente de correlação de Pearson, r. Que mostra a força ea direção da associação entre suas duas variáveis, colesterol e timetv: Isso é mostrado na primeira linha da caixa vermelha. No nosso exemplo, o coeficiente de correlação de Pearson, r. É .3709. Como o sinal do coeficiente de correlação de Pearson é positivo, você pode concluir que há uma correlação positiva entre a concentração de colesterol (colesterol) eo tempo diário gasto assistindo TV (timetv), ou seja, a concentração de colesterol aumenta à medida que o tempo gasto assistindo TV aumenta. Nota: Alguns objetam a descrição, a concentração de colesterol aumenta à medida que o tempo gasto assistindo TV aumenta. A razão para esta objeção está enraizada no significado de aumentos. O uso deste verbo pode sugerir que o efeito dessa variável é causal e / ou manipulável, de modo que você poderia aumentar o tempo gasto assistindo TV (timetv) em seus participantes e isso levaria a um aumento na sua concentração de colesterol (colesterol). Isso não quer dizer que isso não seja possível. No entanto, esse conhecimento não está contido na correlação, mas em teoria. Como tal, você pode preferir declarar o relacionamento como, valores mais elevados de concentração de colesterol estão associados / relacionados com maior tempo gasto assistindo TV. A magnitude do coeficiente de correlação de Pearson determina a força da correlação. Embora não existam regras rígidas para atribuir força de associação a valores particulares, algumas diretrizes gerais são fornecidas por Cohen (1988): Força de Associação onde r significa o valor absoluto ou r (por exemplo r gt .5 significa r gt .5 e r t-5). Portanto, o coeficiente de correlação de Pearson neste exemplo (r .371) sugere uma correlação de força média. Se em vez disso, r -.371, você também teria tido uma correlação de força média, embora negativa. O coeficiente de determinação é a proporção de variância em uma variável que é explicada pela outra variável e é calculada como o quadrado do coeficiente de correlação (r 2). Neste exemplo, você tem um coeficiente de determinação, r 2 igual a 0,371 2 0,14. Isto também pode ser expresso como uma percentagem (isto é, 14). Lembre-se que isso explicado se refere a ser explicado estatisticamente, não causalmente. (2) O nível de significância estatística (ou seja, o valor p), e se o teste é estatisticamente significativo, uma estrela () ao lado do coeficiente de correlação de Pearson: Isso é mostrado na segunda linha da caixa vermelha. Os resultados que você relatou até agora só usaram o coeficiente de correlação de Pearson para descrever a relação entre as duas variáveis ​​em sua amostra. Se você deseja testar hipóteses sobre a relação linear entre suas variáveis ​​na população da qual sua amostra é, você precisa testar o nível de significância estatística. O nível de significância estatística (p-valor) do coeficiente de correlação neste exemplo é de .0001, o que significa que existe uma relação estatisticamente significativa entre as duas variáveis: concentração de colesterol (colesterol) e tempo diário gasto assistindo TV (timetv). (3) O tamanho da amostra, n (ou seja, o número de observações): Isto é mostrado na terceira linha da caixa vermelha, indicando que temos 100 participantes em nosso estudo. Nota: Apresentamos a saída da correlação de Pearson acima. No entanto, uma vez que você deve ter testado seus dados para as suposições que explicamos anteriormente na seção Suposições, você também precisará interpretar a saída Stata que foi produzida quando você testou para essas suposições. Isto inclui: (a) os diagramas de dispersão que você usou para verificar se havia uma relação linear entre as duas variáveis ​​(isto é, Assunção 2) (b) os mesmos diagramas de dispersão que você usaria para verificar se não havia outliers significativos E (c) o teste de normalidade de Shapiro-Wilk para verificar se suas duas variáveis ​​foram aproximadamente distribuídas normalmente (isto é, Hipótese 4). Além disso, lembre-se de que, se os dados falharem em qualquer uma dessas premissas, a saída obtida do procedimento de correlação Pearsons (ou seja, a saída que discutimos acima) deixará de ser relevante e poderá ser necessário realizar um teste estatístico diferente para analisar seus dados. Stata Relatando a saída de uma correlação de Pearsons Quando você relata a saída de sua correlação de Pearsons, é uma boa prática incluir: A. Uma introdução à análise que você realizou. B. Informações sobre a sua amostra (incluindo quaisquer valores em falta). C. O coeficiente de correlação de Pearson, r. E graus de liberdade, que é o tamanho da amostra menos 2 (por exemplo, para um tamanho de amostra de 100, os graus de liberdade seriam 98, como no nosso exemplo). D. O nível de significância estatística (ou seja, p-valor) do seu resultado. E. O coeficiente de determinação, r 2 (ou seja, a proporção de variância em uma variável que é explicada pela outra variável). Com base nos resultados acima, podemos relatar os resultados deste estudo da seguinte forma: Foi realizada uma correlação produto-momento de Pearson para avaliar a relação entre a concentração de colesterol eo tempo diário gasto assistindo TV em 100 homens com idade entre 45 e 65 anos. Houve uma correlação positiva moderada entre o tempo diário gasto assistindo TV e a concentração de colesterol, r (98) .371, p lt. 0005, com o tempo gasto assistindo TV explicando 14 da variação na concentração de colesterol. Além de relatar os resultados como acima, um diagrama pode ser usado para apresentar visualmente seus resultados. Por exemplo, você poderia fazer isso usando um scatterplot. Isso pode tornar mais fácil para os outros entender seus resultados e é facilmente produzido no Stata.

No comments:

Post a Comment