Thursday 23 November 2017

Come Faccio A Unire I Dati In Forex Stata


AVVISO: Il gruppo di consulenza Idre statistica sarà la migrazione del sito web per il CMS WordPress nel mese di febbraio per facilitare la manutenzione e la creazione di nuovi contenuti. Alcune delle nostre pagine più vecchie verranno rimossi o archiviati in modo tale che essi non saranno più mantenuti. Cercheremo di mantenere i reindirizzamenti in modo che i vecchi URL continueranno a lavorare nel miglior modo possibile. Benvenuti al Istituto per la ricerca e l'istruzione digitale Aiuto Consulting Group Stat dando un regalo Stata modulo di apprendimento Combinando i dati Questo modulo illustrerà come è possibile combinare file di Stata. Esempi includeranno file apposto la, 1-1 partita fusione, e uno a molti partita fusione. Aggiunta di file di dati Quando si dispone di due file di dati, si consiglia di combinarli impilando uno sopra l'altro. Ad esempio, abbiamo un file contenente i papà e le mamme che contiene un file come illustrato di seguito. Se volessimo combinare questi file da impilare loro uno sopra l'altro, si può utilizzare il comando append come illustrato di seguito. Possiamo usare il comando list per vedere se questo ha funzionato correttamente. L'accodamento ha funzionato correttamente. i papà e le mamme sono accatastati insieme in un unico file. Ma, c'è un piccolo problema. Non possiamo dire i papà dalle mamme. Proviamo a fare questo nuovo, ma prima creeremo una variabile chiamata momdad nel file papà e mamme di dati che conterrà papà per il file di dati papà e la mamma per il file di dati mamme. Quando si combinano i due file insieme, la variabile momdad ci dirà che le mamme e papà sono. Qui facciamo variabile momdad per il file di dati papà. Salviamo il file chiamandolo dads1. Qui facciamo variabile momdad per il file di dati mamme. Salviamo il file chiamandolo moms1. Ora, consente di accodare dads1 e moms1 insieme. Ora, quando si elencano i dati della variabile momdad mostra che le mamme e papà sono. Partita la fusione Un altro modo di combinare file di dati è partita fusione. Diciamo che abbiamo voluto combinare i papà con il file di dati faminc, avere le informazioni papà e il lato informazioni famiglia a fianco. Possiamo farlo con una partita di unione. Diamo uno sguardo al file di papà e faminc. Vogliamo combinare i file di dati in modo da assomigliare a questo. Si noti che la variabile famid viene utilizzato per associare l'osservazione dal file delle papà con l'osservazione appropriata dal file faminc. La strategia per la fusione dei file va come questa. 1. ordinamento papà su famid e salvare il file (chiamandolo dads2). 2. sorta faminc su famid e salvare il file (chiamandolo faminc2). 3. utilizzare il file dads2. 4. unire il file dads2 con il file faminc2 utilizzando famid a corrispondere loro. Qui ci sono quei quattro passi. 1. Ordinare il file papà da famid e salvarlo come dads2 2. Ordina il file faminc da famid e salvarlo come faminc2. 3. Utilizzare il file di dads2 4. si fondono con il file faminc2 utilizzando famid come variabile chiave. Sembra che questo ha funzionato bene, ma che cosa è che variabile di fusione La variabile di fusione indica, per ogni osservazione, come l'unione è andato. Questo è utile per identificare i record non corrispondenti. merge può avere uno dei tre valori 1 -. Il record contiene le informazioni da solo file1 (ad esempio un DAD2 record con nessun record faminc2 corrispondente 2 - Il record contiene le informazioni da file2 solo (ad esempio, un record faminc2 senza corrispondente DAD2 record di 3 -. La record contiene informazioni provenienti da entrambi i file (ad esempio, i record DAD2 e faminc2 abbinati). Quando si hanno molti record, tabulazione merge è molto utile riassumere quanti non corrispondenti che avete. Nel nostro caso, tutti i record corrispondere in modo che il rapporto qualità-merge è stato sempre 3. uno-a-molti partita fusione un altro tipo di unione è chiamato a uno a molti unione. il nostro 12:59 merge abbinato papà e faminc e c'era un 1-1 corrispondenza dei file. Se noi fondiamo papà con bambini. non ci può essere più bambini per papà e, quindi, questo è un uno a molti unione. come potete vedere qui sotto, la strategia per l'uno a molti unione è davvero lo stesso di quello di una fusione. 1. papà di ordinamento su famid e salvare il file come dads3 2. bambini di ordinamento su famid e salvare il file come KIDS3 3. utilizzare il file dads3 4. unire il file dads3 con il file KIDS3 utilizzando famid a corrispondere loro. Di seguito sono riportati i 4 passi. 1. Ordinare il file di papà dati famid e salvare il file come dads3. 2. Ordina il file di bambini dati famid e salvare il file come KIDS3. 3. Utilizzare il file dads3. 4. Unire il file dads3 con il file KIDS3 utilizzando famid a corrispondere loro. Consente di elencare i risultati. I risultati sono un po 'più facile da leggere se si ordinare i dati sulla famid e la nascita. Come si vede, questo è fondamentalmente lo stesso di un 1-1 unione. Ci si potrebbe chiedere se l'ordine dei file sulla dichiarazione unione è rilevante. Qui, si passa l'ordine dei file ed i risultati sono gli stessi. L'unica differenza è l'ordine dei record dopo l'unione. Aggiungendo ad esempio i dati Partita unire esempio gradini (uno-a-uno e uno-a-molti) Partita unire esempio di programma Il contenuto di questo sito web non deve essere interpretata come un'approvazione di un particolare sito web, il libro, o di un prodotto software da parte del Università di California. NOTICE: il gruppo di consulenza statistica Idre sarà la migrazione del sito web per il CMS WordPress nel mese di febbraio per facilitare la manutenzione e la creazione di nuovi contenuti. Alcune delle nostre pagine più vecchie verranno rimossi o archiviati in modo tale che essi non saranno più mantenuti. Cercheremo di mantenere i reindirizzamenti in modo che i vecchi URL continueranno a lavorare nel miglior modo possibile. Benvenuti al Istituto per la ricerca e l'istruzione digitale Aiuto Consulting Group Stat dando un regalo Stata FAQ: Come posso unire più file in Stata Questa FAQ è stata basata su una pagina sviluppata dal Assistente corso di laurea di statistica al Boston College. Siamo grati per il loro permesso di riprodurre questa FAQ qui. Non è raro per i dati, soprattutto rilevamento dati, per venire in più set di dati (ci sono ragioni pratiche per la distribuzione di set di dati in questo modo). Quando i dati vengono distribuiti in più file, le variabili che si desidera utilizzare sarà spesso disperse in diversi set di dati. Per lavorare con le informazioni contenute in due o più file di dati, è necessario unire i segmenti in un nuovo file che contiene tutte le variabili che si intende lavorare. In primo luogo, avrete bisogno di capire quali variabili è necessario, e che li contengono insiemi di dati, è possibile farlo consultando il cifrario. Oltre a trovare le variabili che si desidera per l'analisi, è necessario conoscere il nome della variabile id. Una variabile id è una variabile che è unico per un caso (osservazione) nel dataset. Per un dato individuo, l'id dovrebbe essere la stessa in tutti i set di dati. Questo vi permetterà di abbinare i dati provenienti da diversi set di dati per la persona giusta. Per i dati della sezione trasversale, questo sarà tipicamente una singola variabile, in altri casi, sono necessari due o più variabili, questo è comunemente visto nei dati panel in cui soggetto id e la data o onda sono spesso necessari per identificare in modo univoco una osservazione. Al fine di Stata per unire i dataset, la variabile id, o variabili, dovranno avere lo stesso nome in tutti i file. Inoltre, se la variabile è una stringa in una serie di dati, deve essere anche una stringa in tutti gli altri insiemi di dati, e lo stesso vale per le variabili numeriche (il tipo di archiviazione specifico non è importante, purché siano numerico). Dopo aver identificato tutte le variabili che avete bisogno, e sapere che cosa la variabile id (s) sono, si può cominciare a unire i set di dati. Un semplice esempio Un buon primo passo è quello di descrivere i nostri dati. Siamo in grado di fare questo senza in realtà il file di apertura (questo può essere utile se i file sono molto grandi), tutto quello che dobbiamo fare è aprire Stata ed emettere il comando. Il comando descrivere ci dà un sacco di informazioni utili, per i nostri scopi le cose più importanti si dimostra che l'id variabile è numerica, e che i dati sono indifferenziati (i dati devono essere ordinati in base alla variabile id o variabili al fine di fondersi ). Notiamo anche che le variabili che vogliamo da questo set di dati sono infatti nel set di dati. Vorremmo fare questo per tutti e tre i nostri set di dati, ma per risparmiare spazio e mostrare solo l'uscita per uno dei set di dati. Lascia supporre che i set di dati sono tutti misti e che la variabile id ha lo stesso nome (id) in tutti e tre i set di dati. Dal momento che i set di dati arent ordinati, avremo bisogno di aprire ogni set di dati, ordinare, e quindi salvare il set di dati ordinati. Anche se siamo in grado di utilizzare i dati da un sito web facilmente all'interno Stata, non possiamo salvare lì. Quindi, si noti che tutti i comandi di uso tirare set di dati dal nostro sito, ma li salva nella directory D: i dati sul computer dell'utente. La sintassi di seguito si apre ogni set di dati, lo ordina da id e poi lo salva in una nuova posizione con un nuovo nome. Se il set di dati erano già sul nostro computer, abbiamo potuto salvarlo nella stessa posizione e, forse anche sotto lo stesso nome (che sostituisce il vecchio set di dati), questa è la scelta degli utenti. Successivamente, abbiamo effettivamente unire i set di dati. Il comando merge fonde osservazioni corrispondenti dal set di dati attualmente in memoria (chiamato il padrone di dati) con quelli di un Stata-formato diverso set di dati (chiamato utilizzando set di dati) in singole osservazioni. Partendo dal presupposto che abbiamo dati3 aperta l'esecuzione della sintassi di cui sopra, che sarà il nostro set di dati master. La prima riga della sintassi di sotto fonde i dati. Subito dopo il comando merge è il nome della variabile (o variabili) che servono le variabili id, in questo caso id. Avanti è l'argomento utilizzando questo dice Stata che abbiamo finito l'elenco delle variabili di identificazione, e che ciò che segue è il set di dati (s) da unire. I nomi sono elencati, con solo spazi (non virgole, etc.) tra di loro. (Nota, se i nomi o percorsi dei vostri set di dati includono gli spazi, assicurarsi di racchiuderli tra virgolette, cioè). La prossima linea di sintassi permette di risparmiare il nostro nuovo set di dati unito. Nota che si fondono non produce output. Ora possiamo avere uno sguardo al nostro set di dati risultante dalla concentrazione. In uscita sopra vediamo il numero di casi (200), che è corretto. Questo è importante in quanto i problemi con il processo di unione spesso sfociano in troppo pochi, o più spesso troppi, casi nell'insieme di dati unito. Vediamo anche un elenco delle variabili, che comprende tutte le variabili che vogliamo. Il set di dati unito contiene tre variabili aggiuntive. Queste nuove variabili sono unione. merge1 e merge2. La fusione di comando genererà sempre almeno una variabile aggiuntiva denominata unione. quando più file vengono specificati nell'uso. il comando produrrà variabili unione aggiuntivi, uno per ciascuna delle serie di dati nella lista usando (nel nostro caso merge1 e merge2). Queste variabili ci dicono dove ogni osservazione nel set di dati è venuto da, questo è utile come un controllo che i dati sono fuse in modo corretto. A volte una osservazione non sarà presente in un dato insieme di dati, questo non significa necessariamente che qualcosa è andato storto nel processo di unione, ma questo è un altro luogo dove si può spesso ottenere indizi su quello che potrebbe essere andato storto nel processo di unione. Perché in questo caso tutti i set di dati includono tutti i casi, sia perché l'unione è andato come dovrebbe, le variabili di unione arent molto interessante. Discuteremo queste variabili più dettagliatamente in seguito, quando abbiamo a che fare con i set di dati in cui non tutti i casi sono presenti in tutti i set di dati. Lasciando cadere le variabili indesiderate Non è raro trovare che un grande insieme di dati contiene molte variabili che non si intende utilizzare nella vostra analisi. Si può solo lasciare tali variabili nel vostro set di dati quando li si uniscono insieme, però, ci sono diversi motivi non si potrebbe desiderare di fare questo. In primo luogo, vi è un limite al numero di variabili Stata può gestire. In Piccola Stata il limite è 99, in StataIC il limite è 2.047 ed in StataSE e StataMP il limite è di 32.767. Questi limiti possono vedere in alto, ma se si uniscono più set di dati, ciascuno con un gran numero di variabili, si possono superare il limite per il tipo di Stata. La seconda ragione si potrebbe non voler lasciare le variabili non necessarie nel set di dati è che ogni variabile in memoria utilizza risorse di sistema aggiuntive. Alcuni variabili aggiuntive non sta andando male a nessuno, ma se si dispone di un gran numero di variabili indesiderati, si può essere uno spreco di risorse di sistema. Qui di seguito vi mostriamo diversi metodi di eliminazione variabili aggiuntive. Una possibilità è che quando si apre il set di dati per ordinare loro, è possibile anche eliminare le variabili non avete intenzione di usare. A seconda se è più facile elencare le variabili che si desidera si prevede di utilizzare nella vostra analisi, o per elencare le variabili non avete bisogno, è possibile utilizzare i comandi mantenere o far cadere. C'è almeno un opzione aggiuntiva, è possibile aprire la serie di dati che immettono solo quelle variabili necessari in memoria. Se ho un set di dati che contiene una serie di variabili, ma le uniche variabili di cui ho bisogno da esso sono id e leggere. Posso aggiungere i nomi delle variabili al mio comando uso come è mostrato nella prima riga della sintassi di seguito. Ciò è particolarmente utile con file molto grandi che richiedono molta memoria per aprire. Dopo aver aperto il sottoinsieme desiderato di variabili, tutto quello che dovete fare è salvare il sottoinsieme di dati con un nuovo nome. Nell'esempio precedente, Dataset2 conteneva le seguenti variabili: id, leggere, scrivere, la matematica, la scienza, e socst. Si supponga che la mia analisi richiede solo le variabili di lettura e scrittura. le uniche variabili da Dataset2 che sono necessari sono quelli di due e l'id variabile per unire i dati con un altro set di dati. Di seguito sono riportati esempi dello stesso tipo di preparazione dei dati fatto in precedenza, utilizzando ciascuna delle tecniche descritte. Queste tecniche sono equivalenti, nel senso che producono lo stesso risultato finale. L'efficienza di ogni tecnica varia a seconda della situazione. Utilizzando mantenere per selezionare le variabili: Utilizzando drop per rimuovere le variabili indesiderate: Apertura di un sottoinsieme dei dati: Le variabili di unione La variabile di fusione (s) creati dal comando merge sono facili da perdere, ma sono molto importanti. Come discusso in precedenza, ci dicono che dataset (s) ogni caso è venuto da. Questo è importante perché molti valori che proveniva dal solo insieme di dati può suggerire un problema nel processo di unione. Tuttavia, non è raro che alcuni casi di essere in un set di dati, ma non un altro. In dati panel questo può verificarsi quando un dato rispondente non ha partecipato a tutte le onde dello studio. Può anche verificarsi per una serie di altri motivi. Ad esempio, un intervistato femminile potrebbe apparire nel sottoinsieme dei dati con informazioni demografiche, ma essere completamente assente dal sottoinsieme di dati con informazioni per i rispondenti bambine, perché lei non ha figli. Perché i casi che non sono presenti in tutti i set di dati non sono necessariamente un problema, in modo che le informazioni nelle variabili di unione per essere utile è necessario sapere cosa aspettarsi se i dataset fuse in modo corretto. Nel precedente esempio, dove gli stessi 200 casi è apparso in tre set di dati che ci si aspetterebbe di vedere 200 casi, ognuno dei quali provenienti da tutti e tre i set di dati. Se ci sono alcuni casi mancanti da alcuni dei set di dati, quindi mi aspetto di vedere un certo numero di casi che non vengono da tutti i set di dati, ma ho ancora bisogno di assicurarsi che non vi arent troppi che provengono da solo alcuni dei set di dati. Avere troppi, o tutti, i casi nel set di dati fuse provenire da uno, oppure solo alcune delle serie di dati youve fusa è un segno che la variabile id non corrisponde correttamente attraverso insiemi di dati. Ciò è particolarmente comune quando la variabile id è una stringa. Qui di seguito esaminiamo un set di dati dopo la fusione per vedere se tutto è andato come previsto. L'output seguente mostra i file di descrivere per un data1m. dta set di dati, se guardiamo al numero di osservazioni (OBS) si vede che l'insieme di dati contiene solo 197 casi, ma sappiamo che lo studio incluso nel complesso 200 casi, quindi sappiamo che c'è sono tre casi mancanti interamente da data1m. Si tratta di informazioni importanti se vogliamo interpretare correttamente le variabili di unione in seguito. Infine abbiamo ordinare i dati e salvarlo con un nuovo nome. Per risparmiare spazio ci voleva mostrare l'uscita per gli altri due insiemi di dati (il codice viene visualizzato in basso nel caso in cui si desidera eseguire esso). Dal presupposto che quando si corre descrivere il data2m e data3m scopriamo che essi sono anche mancano casi. data2m Dataset contiene 196 osservazioni e dataset3m contiene 197. È possibile che alcuni di questi casi sono mancanti da tutti i tre gruppi di dati (cioè le osservazioni mancanti sovrappongono tutti i set di dati), ma è anche possibile che tutti i 200 osservazioni si verificano in almeno una delle set di dati. Lo scopriremo una volta che unire i dati. Una volta che abbiamo esaminato e ordinato i dataset possiamo unire. La sintassi sotto fa questo, si noti che il comando è la stessa come nel primo esempio. Per impostazione predefinita, Stata permetterà casi provengono da uno qualsiasi dei tre insiemi di dati. Ci sono opzioni che permetteranno di controllare quali Dataset casi provengono da, si può scoprire su di loro scrivendo help merge (senza le virgolette) in Stata. Come in precedenza, il comando merge ha creato tre nuove variabili si fondono. merge1. e merge2. La fusione variabile fornisce informazioni su quali casi erano presenti nel master set di dati, assume uno dei tre valori: L'osservazione è presente solo nel master set di dati

No comments:

Post a Comment