[Musik spiller] DUSTIN TRAN: Hej. Mit navn er Dustin. SÃ¥ jeg vil prÃ¦sentere Dataanalyse i R. Bare en lille smule om mig selv. Jeg er i Ã¸jeblikket en ph.d.-studerende i den tekniske og Applied Sciences. Jeg studerer et skÃ¦ringspunkt for machine learning og statistik sÃ¥ Dataanalyse i R er virkelig grundlÃ¦ggende for hvad Jeg gÃ¸r pÃ¥ daglig basis. 

Og R er isÃ¦r god til dataanalyse fordi det er meget godt for prototyper. Og som regel, nÃ¥r du laver en slags dataanalyse, en masse af problemerne vil kognitive. Og sÃ¥ du bare vil have nogle virkelig gode sprog, er bare god til at gÃ¸re indbyggede funktioner, i modsÃ¦tning at skulle beskÃ¦ftige sig med lavt niveau ting. SÃ¥ i starten, jeg bare at indfÃ¸re, hvad der er R, hvorfor skulle du Ã¸nsker at bruge det, og derefter gÃ¥ over i nogle demo, og bare gÃ¥ videre derfra. 

SÃ¥ hvad er R? R er blot et sprog udviklet til statistisk databehandling og visualisering. SÃ¥ hvad dette betyder, at det er en meget god sprog for nogen form for ting, der beskÃ¦ftiger sig med usikkerhed eller datavisualisering. SÃ¥ du har alle disse sandsynlighedsfordelinger. Der vil vÃ¦re indbyggede funktioner. Du har ogsÃ¥ fremragende plotte pakker. 

Python er en anden konkurrerende sprog for data. Og en ting, som jeg synes, at R er meget bedre til, er visualisering. SÃ¥ hvad vil du se i demoen som godt er bare en meget intuitiv sprog der bare virker sÃ¦rdeles godt. Det er ogsÃ¥ gratis og open source, som er et andet godt sprog, jeg gÃ¦tte. 

Og her, en flok bare sÃ¸geord kastet pÃ¥ dig. Det er dynamisk, hvilket betyder, hvis du har en specifik type tildelt et objekt end det vil bare Ã¦ndre det i farten. Det er doven, sÃ¥ det er smart om hvordan den gÃ¸r beregninger. Funktionel betyder at det kan virkelig fungere baseret ud af funktioner, sÃ¥ anything-- enhver form for manipulation, du er gÃ¸r, vil den blive baseret ud funktioner. 

SÃ¥ binÃ¦re operatorer, f.eks er blot sagens natur funktioner. Og alt det, du kommer til at gÃ¸re, er vil blive kÃ¸rt vÃ¦k funktioner selv. Og sÃ¥ objektorienteret sÃ¥ godt. 

SÃ¥ her er en XKCD plot. Ikke kun fordi jeg har lyst til XKCD er grundlÃ¦ggende for enhver slags for prÃ¦sentation, men fordi Jeg har lyst til dette virkelig hamrer det punkt, at en stor del af tid, nÃ¥r du laver en slags data analyse, er problemet ikke sÃ¥ meget, hvor hurtigt det kÃ¸rer, men hvor lang tid det kommer til at tage dig at programmere opgaven. SÃ¥ her er bare at analysere, om strategi pÃ¥ a eller b er mere effektiv. Dette vil vÃ¦re noget, som du er kommer til at beskÃ¦ftige sig meget med i slags lav-niveau sprog hvor du beskÃ¦ftiger sig med SEG fejl, hukommelse tildeling, startvÃ¦rdier, selv gÃ¸r de indbyggede funktioner. Og det her er alle hÃ¥ndteret meget, meget elegant i R. 

SÃ¥ bare at hamre dette punkt, den stÃ¸rste flaskehals vil vÃ¦re kognitive. SÃ¥ dataanalyse er en meget hÃ¥rd problem. Uanset om du gÃ¸r maskine lÃ¦ring eller du er gÃ¸r netop en slags grundlÃ¦ggende udforskning data, du ikke Ã¸nsker at have at tage et dokument og derefter kompilere noget, hver gang du Ã¸nsker at se, hvad en kolonne ser ud, hvilke sÃ¦rlige poster i en matrix ser ud. SÃ¥ du bare vil have nogle virkelig rart grÃ¦nseflade kan du kÃ¸re en simpel funktion at indekser til uanset du gerne vil og bare kÃ¸re den derfra. Og du har brug for domÃ¦ne specifikke sprog for dette. Og R vil virkelig hjÃ¦lpe dig med at definere den problem og lÃ¸se det pÃ¥ denne mÃ¥de. 

SÃ¥ her er et plot, der viser programmering popularitet af R som det er gÃ¥et over tid. SÃ¥ som du kan se, ligesom 2013 eller sÃ¥ det bare blÃ¦st op voldsomt. Og det har vÃ¦ret netop pÃ¥ grund af det kÃ¦mpe trend i teknologibranchen om store data. OgsÃ¥ ikke kun teknologien industri, men virkelig enhver industri at-- fordi en masse af industrier er slags grundlÃ¦ggende for forsÃ¸ger at lÃ¸se disse problemer. Og som regel, kan du have nogle gode mÃ¥de at mÃ¥le disse problemer eller endda definere dem eller lÃ¸se dem ved hjÃ¦lp af data. SÃ¥ jeg tror lige nu R er den 11. mest populÃ¦re sprog pÃ¥ TIOBE og det har vÃ¦ret stigende siden da. 

SÃ¥ her er nogle flere funktioner i R. Det har et enormt antal kolli og for alle disse forskellige ting. SÃ¥ hver gang du har en bestemt problem, de fleste tiden R vil have denne funktion for dig. SÃ¥ uanset om du Ã¸nsker at opbygge en slags maskine lÃ¦ring algoritme kaldet Random Forest eller Decision Trees, eller endog forsÃ¸ger at tage gennemsnittet af en funktion eller en hvilken som helst af det her, R vil have det. 

Og hvis du gÃ¸r, du holder af optimering, en ting, der er fÃ¦lles er, at nÃ¥r du er fÃ¦rdig prototyping en slags hÃ¸jniveausprog, du vil smide det in-- Du vil bare port, at over til nogle lavniveau-sprog. Hvad er godt ved R er, at nÃ¥r du er gjort prototyping det, kan du kÃ¸re C ++, eller Fortran, eller nogen af ââdisse lavere niveau dem direkte ind i R. SÃ¥ det er en rigtig cool funktion om R, hvis du virkelig bekymrer sig om optimering punkt. 

Og det er ogsÃ¥ rigtig god for web visualiseringer. SÃ¥ D3.js, for eksempel, er Jeg gÃ¦tter andet seminar at vi prÃ¦senterede i dag. Og det er virkelig fantastisk for laver interaktive visualiseringer. Og D3.js forudsÃ¦tter, at du har en slags data, der skal plottes og R er en fantastisk mÃ¥de at vÃ¦re i stand til at gÃ¸re dataanalyse, fÃ¸r du eksporterer den over til D3.js eller bare kÃ¸re D3.js kommandoer i R selv, samt alle disse andre biblioteker samt. 

SÃ¥ det var bare at indfÃ¸relsen af hvad er R, og hvorfor du mÃ¥ske bruge det. SÃ¥ forhÃ¥bentlig, jeg har overbevist dig noget om prÃ¸ver bare at se, hvad det er ligesom. SÃ¥ jeg har tÃ¦nkt mig at gÃ¥ videre og gÃ¥ igennem nogle grundlÃ¦ggende om R objekter og hvad du virkelig kan gÃ¸re. 

SÃ¥ her er blot en flok matematiske kommandoer. SÃ¥ siger you're-- du Ã¸nsker at opbygge sprog dig selv og du bare vil at have en masse forskellige vÃ¦rktÃ¸jer. Enhver form for operation, du tror, ââdu gerne Ã¸nsker, er temmelig meget vil vÃ¦re i R. 

SÃ¥ her er 2 plus 2. Her er 2 gange pi. R har en flok indbyggede konstanter at du ofte vil bruge som pi, e. 

Og sÃ¥, her er 7 plus runif, sÃ¥ runif 1. Dette er en funktion, der er genererer en tilfÃ¦ldig ensartet fra 0 til 1. Og sÃ¥ er der 3 til potensen af ââ4. Der er kvadratrÃ¸dder. 

Der er log. SÃ¥ log vil gÃ¸re basen eksponentiel af sig selv. Og sÃ¥, hvis du angiver en base, sÃ¥ du kan gÃ¸re hvad basen, du Ã¸nsker. Og sÃ¥ er her nogle andre kommandoer. SÃ¥ du har 23 mod 2. SÃ¥ har du resten. SÃ¥ har du videnskabelig notation, hvis du ogsÃ¥ Ã¸nsker at gÃ¸re bare mere og mere komplicerede ting. 

SÃ¥ her er opgaven. SÃ¥ typiske opgaver i R er udfÃ¸rt med en pil sÃ¥ det er mindre end og derefter bindestreg. SÃ¥ her er jeg bare tildele 3 til den variable val. 

Og sÃ¥ er jeg udskrivning ud val og sÃ¥ er det udskrives tre. Som standard i R tolk, det vil udskrive tingene ud for dig sÃ¥ du ikke behÃ¸ver at angive udskrive en val enhver tid, du Ã¸nsker at udskrive noget. Du kan bare gÃ¸re val og sÃ¥ det vil gÃ¸re det for dig. 

Du kan ogsÃ¥ bruge lig teknisk som en opgave operatÃ¸r. Der er smÃ¥ finesser mellem at bruge pilen operatÃ¸r og lighedstegnet operatÃ¸r for opgaver. Mest af konvention, alle vil bare bruge pilen operatÃ¸r. 

Og her, jeg tildele denne skrÃ¥ notation kaldes 1 colon 6. Dette genererer en vektor fra 1 til 6. Og det er virkelig rart, fordi sÃ¥ du lige tildele vektoren val og der virker af sig selv. 

SÃ¥ dette er allerede gÃ¥r fra en single-- en meget intuitiv data struktur blot en dobbelt af nogle type af typen i en vektor og som vil samle alle de skalare vÃ¦rdier for dig. SÃ¥ efter at gÃ¥ fra skalar, du har R objekter, og dette er en vektor. En vektor er en hvilken som helst slags indsamling af samme type. SÃ¥ her er en flok vektorer. 

SÃ¥ dette er numerisk. Numerisk er R mÃ¥de at sige dobbelt. Og sÃ¥ som standard, enhver nummer vil vÃ¦re en dobbelt. 

SÃ¥ hvis du har C pÃ¥ 1,1, 3, negativ 5,7, c er en funktion. Dette sammenkÃ¦der alle tre numre i en vektor. Og det vil vÃ¦re-- sÃ¥ hvis du bemÃ¦rker 3 af sig selv, normalt du ville pÃ¥tage sig at dette er ligesom et heltal, men fordi alle vektorer er af samme type, dette er en vektor af double eller numerisk i dette tilfÃ¦lde. 

rnorm er en funktion, der genererer standard normal variables-- eller standard normale vÃ¦rdier. Og jeg angive to af dem. SÃ¥ jeg gÃ¸r rnorm 2, tildele det til udviklere, og sÃ¥ er jeg udskrive udviklere. SÃ¥ disse er blot to tilfÃ¦ldige normale vÃ¦rdier. 

Og sÃ¥ int'er hvis du gÃ¸r du holder af heltal. SÃ¥ det er bare om hukommelse allokering og spare hukommelse. SÃ¥ du ville have til at tilfÃ¸je dine tal fra hovedstaden L. 

Generelt er det R historiske notation for noget, der hedder lang heltal. SÃ¥ det meste af tiden, vil du beskÃ¦ftige sig med double. Og hvis du nogensinde vil senere pÃ¥ at optimere din kode, du kan bare tilfÃ¸je disse L's bagefter eller under det hvis du ligesom precognitive hvad du kommer til at gÃ¸re disse variabler. 

SÃ¥ her er en vektor karakter. SÃ¥ igen, jeg sammenkÃ¦de tre strygere denne gang. BemÃ¦rk at dobbelt strygere og enkelt strenge er det samme i R. SÃ¥ jeg har Arthur og Marvin 's og sÃ¥ nÃ¥r jeg printe det ud, alle af dem vil vise dobbelte strenge. Og hvis du ogsÃ¥ Ã¸nsker at inkludere dobbelt eller enkelt streng i dine karakterer, sÃ¥ kan du enten veksle dine strenge. 

SÃ¥ Marvin for andet element, er det vil show-- dig bare har dobbelt strenge og derefter en enkelt streng sÃ¥ dette er alternerende. Ellers, hvis du Ã¸nsker at bruge en dobbelt string operatÃ¸r i en dobbelt snor nÃ¥r du erklÃ¦re det, sÃ¥ du bare bruge escape operatÃ¸r. SÃ¥ du gÃ¸r det backslash dobbelt snor. 

Og endelig har vi ogsÃ¥ har logiske vektorer. SÃ¥ logical-- sÃ¥ sandt og FALSK, og de er vil vÃ¦re store bogstaver. Og sÃ¥ igen, jeg sammenkÃ¦de dem og derefter tildele dem til bools. SÃ¥ bools vil vise du SAND, FALSK, og SAND. 

SÃ¥ her er vektoriseret indeksering. SÃ¥ i starten, jeg Jeg tager en function-- dette kaldes en sequence-- sekvens fra 2 til 12. Og jeg tager en sekvens med 2. SÃ¥ det kommer til at gÃ¸re 2, 4, 6, 8, 10 og 12. Og sÃ¥ er jeg indeksering at fÃ¥ det tredje element. 

SÃ¥ Ã©n ting at huske pÃ¥ er at R indekser ved at starte fra 1. SÃ¥ vals 3 vil give du det tredje element. Dette er slags forskellig fra andre sprog, hvor det starter fra nul. SÃ¥ i C eller C ++, for eksempel, er du kommer til at fÃ¥ det fjerde element. 

Og her er vals 3.-5. SÃ¥ en ting, der er virkelig cool er, at du kan generere midlertidige variabler inde og sÃ¥ bare bruge dem pÃ¥ flue. SÃ¥ her er pÃ¥ 3 til 5. SÃ¥ jeg genererer en vektor 3, 4 og 5 og derefter Jeg indeksere at fÃ¥ den tredje, fjerde, og femte elementer. 

SÃ¥ samme mÃ¥de kan du abstrakt dette til bare gÃ¸re nogen form for en vektor der giver dig indeksering. SÃ¥ her er vals og derefter fÃ¸rste, tredje og sjette elementer. Og sÃ¥, hvis du vil at gÃ¸re et supplement, sÃ¥ du bare gÃ¸re det minus bagefter og der vil giver dig alt det er ikke det fÃ¸rste, tredje eller sjette element. SÃ¥ dette vil vÃ¦re 4, 8 og 10. 

Og hvis du Ã¸nsker at fÃ¥ endnu mere avanceret, du kan sammenkÃ¦de booleske vektorer. SÃ¥ dette indeks vil give dig denne Boolean vektor af lÃ¦ngde 6. SÃ¥ rep TRUE komma 3. Dette vil gentage TRUE tre gange. SÃ¥ dette vil give dig en vektor SAND, SAND, SAND. 

rep FALSK 4-- dette vil give dig en vektor af falsk, falsk, falsk, falsk. Og sÃ¥ c kommer til at sammenkÃ¦de disse to Booleans sammen. SÃ¥ du kommer til at fÃ¥ tre TRUEs og derefter fire FALSEs. 

SÃ¥ nÃ¥r du indeks vals, er du kommer til at fÃ¥ den sande, SAND, SAND. SÃ¥ det kommer til at sige ja, Jeg vil have disse tre elementer. Og sÃ¥ falsk, falsk, Falsk, falsk gÃ¥r at sige nej, jeg vil ikke have de elementer sÃ¥ det kommer ikke til at returnere dem. 

Og jeg tror der er faktisk en tastefejl her fordi det siger gentag TRUE 3 og igen og igen, 4, og teknisk set, du kun har seks elementer sÃ¥ gentag FALSK, det bÃ¸r vÃ¦re igen og igen, 3. Jeg tror R er ogsÃ¥ smart nok sÃ¥dan at hvis du bare angive 4 her, og Det vil ikke engang fejl ud. Det vil bare give dig denne vÃ¦rdi. SÃ¥ det vil bare ignorere det fjerde FALSK. 

SÃ¥ her er vektoriseret opgave. SÃ¥ set.seed-- det bare sÃ¦tter frÃ¸ til pseudotilfÃ¦ldige numre. SÃ¥ jeg sÃ¦tte frÃ¸ til 42, hvilket betyder, at hvis jeg generere tre tilfÃ¦ldige normale vÃ¦rdier, og derefter, hvis du kÃ¸re set.seed pÃ¥ din egen computer ved hjÃ¦lp af samme vÃ¦rdi 42, sÃ¥ fÃ¥r du ogsÃ¥ den samme tre tilfÃ¦ldige normale. 

SÃ¥ dette er virkelig god for reproducerbarhed. Normalt, nÃ¥r du laver nogle slags videnskabelig analyse, du Ã¸nsker at sÃ¦tte frÃ¸. PÃ¥ den mÃ¥de andre forskere kan bare reproducere nÃ¸jagtig samme kode, du har gjort, fordi de vil have den nÃ¸jagtige samme stokastiske variable at-- eller tilfÃ¦ldig vÃ¦rdier, som du har taget ud samt. 

Og sÃ¥ vektoriseret opgave her viser de Vals 1 til 2. SÃ¥ det tager de fÃ¸rste to elementer for Vals og derefter tildeler dem til 0. Og sÃ¥ kan du ogsÃ¥ bare gÃ¸re det lignende ting med Booleans. 

SÃ¥ vals er ikke lig med 0-- denne vilje give dig en vektor FALSK, FALSK, SAND i dette tilfÃ¦lde. Og sÃ¥, det vil sige enhver af disse indekser, der var sandt, sÃ¥ det kommer til at tildele den pÃ¥gÃ¦ldende til 5. SÃ¥ det tager det tredje element her og derefter tildeler den til 5. 

Og det er virkelig rart i forhold til lav-niveau sprog hvor du skal bruge til slÃ¸jfer at gÃ¸re alt dette vektoriseret ting fordi det er bare meget intuitiv og det er en enkelt one-liner. Og hvad er stor om vektoriseret notation er, at i R, er disse slags indbygget, sÃ¥ de er nÃ¦sten lige sÃ¥ hurtigt som gÃ¸r i et lavt niveau sprog som modsÃ¦tning til at gÃ¸re en for-lÃ¸kke i R og derefter have det til at gÃ¸re den dynamiske indeksering selv. Og der vil vÃ¦re langsommere end at gÃ¸re denne slags vektoriseret ting hvor det kan gÃ¸re det i parallel, hvor det gÃ¸r det i gevindskÃ¦ring dybest set. 

SÃ¥ her er vektoriseret operationer. SÃ¥ jeg generere en vÃ¦rdi 1 til 3, tildele det til vec1, 3 og 5, vec2, at tilfÃ¸je dem sammen. Den tilfÃ¸jer dem komponent-wise, sÃ¥ det er 1 plus 3, 2 plus 4, og sÃ¥ videre. 

vec1 gange vec2. Dette multiplicerer to vÃ¦rdier komponent klogt. SÃ¥ det er 1 gange 3, 2 gange 4, og derefter 3 gange 5. 

Og sÃ¥, pÃ¥ samme mÃ¥de kan du ogsÃ¥ gÃ¸re comparisons-- logiske sammenligninger. SÃ¥ det er FALSK FALSK SAND i dette tilfÃ¦lde, fordi 1 ikke er stÃ¸rre end 3, 2 ikke er stÃ¸rre end 4. Det er, tror jeg, en anden tastefejl, 3 er absolut ikke stÃ¸rre end 5. Ja. Og sÃ¥ kan du bare gÃ¸re alt disse enkle operationer fordi deres arvet fra klasserne selv. 

SÃ¥ det var bare vektoren. Og det er slags af de mest grundlÃ¦ggende R objekt, fordi givet en vektor, du kan konstruere mere avancerede objekter. 

SÃ¥ her er en matrix. Dette er hovedsagelig indvinding af, hvad en matrix er selv. SÃ¥ i dette tilfÃ¦lde er det tre forskellige vektorer, hvor hver enkelt er en kolonne, eller du kan overveje det som hver enkelt er en rÃ¦kke. 

SÃ¥ jeg lagring af en matrix fra 1 til 9 og sÃ¥ er jeg angive 3 rÃ¦kker. SÃ¥ 1 til 9 vil give dig en vektor 1, 2, 3, 4, 5, 6, og hele vejen til 9. 

En ting at ogsÃ¥ huske pÃ¥ er, at R gemmer vÃ¦rdierne i kolonne-dur format. SÃ¥ med andre ord, nÃ¥r du ser 1 til 9, det vil gemme them-- det vil vÃ¦re 1, 2, 3 i den fÃ¸rste kolonne, og sÃ¥ det vil gÃ¸re 4, 5, 6 i anden kolonne og derefter 7, 8, 9 i tredje kolonne. 

Og her er nogle andre fÃ¦lles funktioner, du kan bruge. SÃ¥ dim mat, vil dette give dig dimensionerne af matricen. Det kommer til at returnere dig en vektor dimension. SÃ¥ i dette tilfÃ¦lde, fordi vores matrix er 3 med 3, det kommer til at give dig en numerisk vektor, der er 3 3. 

Og her er bare viser matrixmultiplikation. SÃ¥ normalt, hvis du bare gÃ¸re asterisk-- sÃ¥ mat stjerne mat-- dette vil vÃ¦re komponent-wise operation eller hvad hedder det Hadamard produkt. SÃ¥ det kommer til at gÃ¸re hver element komponent-wise. Men hvis du vil matrix multiplication-- sÃ¥ at gange den fÃ¸rste rÃ¦kke gange den anden matrix fÃ¸rste kolonne og sÃ¥ on-- du ville bruge denne procent operation. 

Og t mÃ¥tten er blot en operation for transponering. SÃ¥ jeg siger tage Transpose i matricen, ganges med matricen selv. Og sÃ¥ det kommer til at tilbage til dig en anden 3 med 3 matrix viser det produkt, du gerne vil. 

Og sÃ¥ var matrix. Her er hvad der kaldes en data frame. En data ramme, du kan tÃ¦nke pÃ¥ som en matrix, men hver kolonne selv vil vÃ¦re af en anden type. 

SÃ¥ hvad er virkelig cool om data rammer er, at i dataanalyse selv, du kommer til at have alt dette heterogene data og alle disse virkelig rodet ting hvor hver af kolonnerne selv kan vÃ¦re af forskellige typer. SÃ¥ her jeg siger skabe en dataramme, gÃ¸r int'er fra 1 til 3, og derefter ogsÃ¥ en vektor karakter. SÃ¥ jeg kan indeksere gennem hver af disse kolonner og sÃ¥ vil jeg fÃ¥ vÃ¦rdierne selv. Og du kan ogsÃ¥ gÃ¸re en slags af operationer pÃ¥ data frames. Og det meste af tiden, nÃ¥r du er gÃ¸r dataanalyse eller en slags af forbehandling, vil du vÃ¦re arbejde med disse datastrukturer hvor hver kolonne gÃ¥r at vÃ¦re af en anden type. 

Endelig sÃ¥ disse er i bund de fire vÃ¦sentlige objekter i R. List vil bare indsamle nogen andre objekter, du Ã¸nsker. SÃ¥ det vil lagre dette i en variabel, som du nemt kan fÃ¥ adgang til. 

SÃ¥ her, jeg tager en liste. Jeg siger ting lig med 3. SÃ¥ jeg har tÃ¦nkt mig at have et element i listen, og dette kaldes ting, og det kommer til at have vÃ¦rdien 3. 

Jeg kan ogsÃ¥ oprette en matrix. SÃ¥ det er 1 til 4 og slutrÃ¦kke er lig med 2, sÃ¥ en 2 af 2 matrix. OgsÃ¥ pÃ¥ listen, og det hedder mat. moreStuff, en tekststreng, og endda en anden liste i sig selv. 

SÃ¥ dette er en liste, der er 5 og bjÃ¸rn. SÃ¥ det har vÃ¦rdien 5, og det har tegnstreng bjÃ¸rn og det er en liste i en liste. SÃ¥ du kan fÃ¥ disse rekursive ting, hvor du har another-- a skrive af typen. SÃ¥ pÃ¥ samme mÃ¥de, kan du have en matrix inde i en anden matrix og sÃ¥ videre. Og en liste er bare en god mÃ¥de indsamle og aggregere alle disse forskellige objekter. 

Og endelig, her blot hjÃ¦lpe i tilfÃ¦lde Dette var blot gÃ¥et over meget hurtigt. SÃ¥ nÃ¥r du er forvirret om en slags funktion, kan du gÃ¸re ved hjÃ¦lp af denne funktion. SÃ¥ du kan gÃ¸re for hjÃ¦lp matrix eller et spÃ¸rgsmÃ¥lstegn matrix. Og hjÃ¦lp og spÃ¸rgsmÃ¥lstegnet er bare forkortelse for det samme sÃ¥ de er aliaser. 

LM er en funktion, bare gÃ¸r en lineÃ¦r model. Men hvis du bare har ingen idÃ© om, hvordan det vÃ¦rker, kan du bare gÃ¸re hjÃ¦lp af lm og der vil give dig nogle slags dokumentation, ser lidt ligesom en mand side i Unix, hvor du har en kort beskrivelse af, hvad det gÃ¸r, ogsÃ¥ hvad dens argumenter er, hvad den returnerer, og kun tips til, hvordan at bruge det, og nogle eksempler sÃ¥ godt. 

SÃ¥ lad mig gÃ¥ videre og show nogle demo af at bruge R. OK. SÃ¥ jeg gik over meget hurtigt bare data strukturer og nogle slags af op-- nogle af operationerne. Her er nogle funktioner. 

SÃ¥ her jeg bare at definere en funktion. SÃ¥ jeg ogsÃ¥ bruger tildelingsoperator her, og sÃ¥ siger jeg erklÃ¦re den som en funktion. Og det tager den x-vÃ¦rdi. SÃ¥ dette er en hvilken som helst vÃ¦rdi, du vil og jeg har tÃ¦nkt mig at vende tilbage x selv. SÃ¥ det er identiteten funktion. 

Og hvad er cool om dette i forhold til andre sprog og et andet lavt niveau sprog er, at X kan vÃ¦re af enhver type i sig selv og det vil vende tilbage denne type. SÃ¥ du kan imagine-- sÃ¥ lad mig bare kÃ¸re dette hurtigt. Undskyld. 

SÃ¥ Ã©n ting, jeg bÃ¸r ogsÃ¥ nÃ¦vne er, at denne editor jeg bruger kaldes rstudio. Dette er, hvad der kaldes en IDE. Og Ã©n ting, der er virkelig nice om dette er, at det indeholder en masse af ting, du Ã¸nsker at gÃ¸re i R af sig selv lige meget intuitivt. 

SÃ¥ her er en tolk konsol. SÃ¥ pÃ¥ samme mÃ¥de, kan du ogsÃ¥ fÃ¥ denne konsol rÃ¥ bare ved at gÃ¸re et stort R. Og det er prÃ¦cis den samme som konsollen. SÃ¥ jeg kan bare gÃ¸re id-funktion x, x, x. Og then-- og derefter at vil vÃ¦re fint i sig selv. 

SÃ¥ rstudio er stor fordi det har konsollen. Det har ogsÃ¥ de dokumenter du gerne vil kÃ¸re pÃ¥. Og sÃ¥ det har nogle variabler at du kan se i miljÃ¸er. Og sÃ¥, hvis du har at gÃ¸re plots, sÃ¥ er du kan kun se det her, i modsÃ¦tning til forvalte alle disse forskellige vinduer af sig selv. 

Jeg faktisk personligt bruge Vim, men jeg lyst rstudio er fremragende bare for at fÃ¥ en god idÃ© af, hvordan man bruger R. Normalt nÃ¥r du forsÃ¸ger at lÃ¦re nogle nye opgave, du ikke Ã¸nsker at hÃ¥ndtere alt for mange ting pÃ¥ Ã©n gang. SÃ¥ R er blot en very-- rstudio er en meget god mÃ¥de at lÃ¦re R uden at skulle beskÃ¦ftige sig med alle disse andre ting. 

SÃ¥ her jeg kÃ¸rer id hej. Dette returnerer hej. id 123. Her er en vektor af heltal. SÃ¥ pÃ¥ samme mÃ¥de, fordi du kan trÃ¦ffe en slags vÃ¦rdi, du kan gÃ¸re returnere id X, sÃ¥ det returnerer 1234 og 5. 

Og lad mig lige vise dig, at dette er faktisk et heltal. Og pÃ¥ samme mÃ¥de, hvis du gÃ¸r klasse id x, gÃ¥r det at vÃ¦re heltal. Og sÃ¥ kan du ogsÃ¥ sammenligne de to, og det er sandt. SÃ¥ jeg kontrollere, om id for x lig ligemÃ¦nd x og varsel at det giver dig to TRUEs. SÃ¥ dette er ikke at sige, er de to objekter er identiske, men hver af de angivelser inden for de vektorer identiske. 

Her er bounded.compare. SÃ¥ det er lidt mere kompliceret ved, at det har en hvis tilstand og andet og sÃ¥ tager det to argumenter ad gangen. SÃ¥ x er af enhver type. Og jeg siger dette andet argument er en. Dette kan vÃ¦re alt sÃ¥ godt. Men som standard, det vil tage 5 Hvis du ikke angiver noget. 

SÃ¥ her vil jeg sige hvis x er stÃ¸rre end en. SÃ¥ hvis jeg ikke angiver en, det siger, at hvis x er stÃ¸rre end 5, sÃ¥ jeg har tÃ¦nkt mig at vende tilbage SAND. andet, vil jeg vende tilbage FALSK. SÃ¥ lad mig gÃ¥ videre og definere dette. 

Og nu jeg har tÃ¦nkt mig at kÃ¸re bounded.compare 3. SÃ¥ det siger er 3 mindre than-- er 3 stÃ¸rre end 5. Nej, det er ikke sÃ¥ FALSK. 

Og bounded.compare 3 og jeg har tÃ¦nkt mig at sammenligne den med en lig med 2. SÃ¥ nu er jeg siger ja, nu har jeg Ã¸nsker en at vÃ¦re noget andet. SÃ¥ jeg har tÃ¦nkt mig at sige en, skal du vÃ¦re 2. 

Jeg kan enten gÃ¸re denne slags notation eller jeg sige en er lig med 2. Dette er en mere lÃ¦sbar i, at nÃ¥r du er ser pÃ¥ disse virkelig komplicerede funktioner, tage flere arguments-- og dette kan vÃ¦re snesevis oftentimes-- bare at sige et lig 2 er mere lÃ¦sbar for dig, sÃ¥ senere i fremtiden vil du vide, hvad du laver. 

SÃ¥ i dette tilfÃ¦lde, er jeg siger, er 3 stÃ¸rre end 2. Ja, det er. Og pÃ¥ samme mÃ¥de kan jeg bare fjerne dette og siger, er 3 stÃ¸rre end 2 hvor a er lig med 2. Og det er ogsÃ¥ sandt. Ja? 

PUBLIKUM: Er du fuldbyrdende linje for linje? 

DUSTIN TRAN: Ja jeg er. SÃ¥ hvad jeg gÃ¸r her er tager denne tekst document-- og hvad der er fantastisk ved rstudio er, at Jeg kan bare kÃ¸re en short-- en vigtig genvej. SÃ¥ jeg gÃ¸r Ctrl-Enter. 

Og sÃ¥, jeg tager den linje i teksten dokument og derefter sÃ¦tte i konsollen. SÃ¥ her jeg siger, bounded.compare og jeg gÃ¸r Ctrl-X. SÃ¥ jeg kan bare kÃ¸re her. Og sÃ¥ der vil tage line og derefter sÃ¦tte det her. Og sÃ¥ pÃ¥ samme mÃ¥de, jeg kan gÃ¸re kÃ¸re her. Og sÃ¥ vil det bare holde definere linjerne i konsollen som. 

Og hvis du ogsÃ¥ mÃ¦rke til krÃ¸llede seler er der ligesom i C syntaks. x-- hvis hvis betingelse er ogsÃ¥ vil bruge parenteser og derefter du kan bruge andet. En anden grund er ellers hvis. SÃ¥ dette vil vÃ¦re x lig er lig med en, for eksempel. Og sÃ¥ jeg har tÃ¦nkt mig at returnere noget her. 

BemÃ¦rk, at der er to forskellige ting her, som der foregÃ¥r. Den ene er, at her jeg angive returnere vÃ¦rdien SAND. Her Jeg siger bare x. SÃ¥ R vil sÃ¦dvanligvis ved standard tage det sidste arguments-- eller tage den sidste linje i koden, og det vil vÃ¦re, hvad det er returneret. SÃ¥ her er den samme ting som at gÃ¸re tilbagevenden x. 

Og bare for at vise dig. Og sÃ¥ vil det fungere ligesom det. SÃ¥ lad mig fortsÃ¦tte med dette. 

SÃ¥ ellers hvis. Og virkelig, jeg kan vende tilbage noget jeg gerne vil. SÃ¥ jeg behÃ¸ver ikke engang at retur Booleans hele tiden, Jeg kan bare returnere noget andet. SÃ¥ jeg kan gÃ¸re tilbagevenden bjÃ¸rn. 

SÃ¥ hvis X er lig er lig med en, det kommer til at vende tilbage bjÃ¸rn. Ellers gÃ¥r det til at returnere SAND. Jeg kan ogsÃ¥ gÃ¸re en vektor eller virkelig noget. 

Og normalt statisk maskinskrevne sprog, du er nÃ¸dt til at angive en type her. Og bemÃ¦rk, at det bare kan vÃ¦re alt. Og R er intelligent nok, at det vil bare gÃ¸re det, og det vil fungere fint. 

SÃ¥ lad mig definere dette. Unexpected-- oh undskyld. Det bÃ¸r vÃ¦re en krÃ¸llet klammeparentes her. OK. Cool. Ok. SÃ¥ lad os nu sammenligne 3 og en lig med 3. SÃ¥ det burde return-- yeah-- vÃ¦rdien bjÃ¸rn. 

SÃ¥ nu en mere generel ting er ligesom Hvad med andre datastrukturer. SÃ¥ du har denne funktion. Dette kommer til at arbejde pÃ¥ en slags vÃ¦rdi som 3 eller numerisk, med andre ord, dobbelt. 

Men hvad med noget som en vektor. SÃ¥ hvad sker der, hvis du do-- sÃ¥ jeg er vil tildele val til, sige, 4 til 6. SÃ¥ hvis jeg returnere dette, dette er en vektor fra 4, 5, 6. 

Lad os nu se hvad der sker hvis jeg gÃ¸r bounded.compare val. SÃ¥ dette vil give dig 15 1251. SÃ¥ med andre ord, det siger hvis man ser pÃ¥ denne betingelse sÃ¥ det siger x er mindre end en eller noget. SÃ¥ dette er en anelse forvirrende, fordi nu du bare ikke ved, hvad der foregÃ¥r. SÃ¥ jeg gÃ¦tte Ã©n ting, der er virkelig godt om blot forsÃ¸ger at debug er, at du bare kan gÃ¸re val er stÃ¸rre end en og se hvad der sker der. 

SÃ¥ val-- a er som standard 5 sÃ¥ lad os bare Val stÃ¸rre end 5. SÃ¥ dette er en vektor FALSK FALSK SAND. SÃ¥ nu nÃ¥r du kigger pÃ¥ dette, gÃ¥r det til at sige, om, og sÃ¥ det kommer til at give dig denne er en vektor af false false SAND. 

SÃ¥ nÃ¥r du passerer dette i R, R har ingen idÃ© om, hvad du laver. Fordi det forventer en enkelt vÃ¦rdi, som er en boolesk og nu du giver det en vektor af Booleans. SÃ¥ som standard, R er bare kommer til at sige, hvad dÃ¦len, Jeg har tÃ¦nkt mig at antage, at du er kommer til at tage det fÃ¸rste element her. SÃ¥ jeg har tÃ¦nkt mig at say-- jeg har tÃ¦nkt mig at antage, at dette er forkert. SÃ¥ det kommer til at sige nej, det er ikke rigtigt. 

Ligeledes gÃ¥r det til vÃ¦re val lig er lig med en. Nej, undskyld 5. Og det vil ogsÃ¥ vÃ¦re falsk sÃ¥ godt. SÃ¥ det kommer til at sige nej, Det er ikke sandt sÃ¥ godt, sÃ¥ det er vil returnere denne sidste. 

SÃ¥ dette er enten en god ting eller en dÃ¥rlig ting, afhÃ¦ngigt af hvordan du se den. Fordi nÃ¥r du er skaber disse funktioner, Du behÃ¸ver faktisk ikke ved, hvad der foregÃ¥r. SÃ¥ nogle gange du Ã¸nsker en fejl, eller mÃ¥ske du bare vil have en advarsel. I dette tilfÃ¦lde har R ikke. SÃ¥ det er virkelig op til du baseret ud af, hvad du synes sproget skal gÃ¸re i dette tilfÃ¦lde hvis du passerer i en vektor af Booleans nÃ¥r du laver en hvis tilstand. 

SÃ¥ lad os sige, at du havde det oprindelige en med hvis ellers returnerer SAND, og ââdu er vil returnere FALSK. SÃ¥ en mÃ¥de bort dette er at sige, at jeg behÃ¸ver ikke engang denne betingede ting. En anden ting, jeg kan gÃ¸re, er bare returnere vÃ¦rdier selv. SÃ¥ hvis du bemÃ¦rker, hvis du do val er stÃ¸rre end 5, dette vil returnere en vektor false false SAND. 

MÃ¥ske det er det, du Ã¸nsker for bounded.compare. Du Ã¸nsker at returnere en vektor af Booleans hvor den sammenligner hver af vÃ¦rdierne for sig selv. SÃ¥ kan du bare bounded.compare funktion X, A er lig med 5. Og sÃ¥ i stedet for at gÃ¸re dette, hvis andet tilstand, Jeg bare at vende tilbage x er stÃ¸rre end 5. SÃ¥ hvis det er sandt, sÃ¥ det kommer til at returnere sandt. Og sÃ¥ hvis det ikke er, det er vil returnere FALSK. 

Og det vil arbejde for nogen af ââdisse strukturer. SÃ¥ jeg kan bounded.compare c 1 6 eller 9 og sÃ¥ vil jeg sige et lig 6, f.eks. Og sÃ¥ det kommer til at give dig den rigtige Boolean vektor, du designer. 

SÃ¥ dem er blot funktioner og lad mig nu bare vise dig nogle interaktive visuals. Jeg tror ikke, jeg har faktisk Wi-Fi her sÃ¥ lad mig bare gÃ¥ videre og springe denne ene jeg gÃ¦tte. 

Men Ã©n ting, der er cool er dog, at hvis du bare Ã¸nsker at teste en flok forskellige data kommandoer, der er en masse forskellige datasÃ¦t , der allerede er indlÃ¦st i R. SÃ¥ en af ââdem er kaldet iris datasÃ¦t. Dette er en af ââde mest kendte dem i machine learning. Du vil som regel bare gÃ¸re en slags testcases for at se om din kode kÃ¸rer. SÃ¥ lad os bare kontrollere, hvad iris er. 

SÃ¥ denne ting gÃ¥r at vÃ¦re en dataramme. Og det er lidt lÃ¦nge, ââfordi Jeg udskrives iris. Det er at udskrive hele ting. SÃ¥ det har alle disse forskellige navne. SÃ¥ iris er en samling af forskellige blomster. I dette tilfÃ¦lde er det at fortÃ¦lle du arterne af det, alle disse forskellige bredder og lÃ¦ngder af bÃ¦gerblad og kronblad. 

Og sÃ¥ normalt, hvis du vil udskrive iris, for eksempel, behÃ¸ver du ikke Ã¸nsker at have det gÃ¸re alt dette, fordi der kan tage over hele din konsol. SÃ¥ en ting, der er virkelig nice er hoved-funktionen. SÃ¥ hvis du bare gÃ¸re hoved iris, vil dette give dig de fÃ¸rste fem rÃ¦kker, eller seks jeg gÃ¦tte. Og sÃ¥ godt, du kan bare angive her. SÃ¥ 20-- dette vil give du de fÃ¸rste 20 rÃ¦kker. Og jeg faktisk var venlig af overrasket over, at dette gav mig seks, sÃ¥ lad mig gÃ¥ videre og tjek iris-- eller hoved, undskyld. Og her vil det give du dokumentationen hvad vÃ¦rdien hovedet gÃ¸r. SÃ¥ det returnerer den fÃ¸rste eller sidste af et objekt. Og sÃ¥ jeg har tÃ¦nkt mig at se pÃ¥ standardindstillingerne. Og sÃ¥ siger standard metode hoved X og n er lig 6L. SÃ¥ dette returnerer de fÃ¸rste seks elementer. Og pÃ¥ samme mÃ¥de, hvis du bemÃ¦rker her, jeg behÃ¸vede ikke at angive n er lig 6. Som standard bruger seks, tror jeg. Og sÃ¥, hvis jeg Ã¸nsker at angive en vis vÃ¦rdi, sÃ¥ jeg kan se, at sÃ¥ godt. 

SÃ¥ det er nogle enkle kommandoer og her er en anden en, der er bare-- godt, Jeg can-- det er faktisk lidt mere kompleks, men det vil bare tage klassen af hver kolonne i iris datasÃ¦t. SÃ¥ dette vil vise dig, hvad hver af disse sÃ¸jler er i form af deres typer. SÃ¥ bÃ¦gerblad lÃ¦ngde er numerisk, bÃ¦gerblad bredde er numeriske. Alle disse vÃ¦rdier er lige numerisk fordi du kan fortÃ¦lle fra disse data strukturere disse er alle kommer til at numerisk. 

Og de arter kolonne vil vÃ¦re en faktor. SÃ¥ normalt, skulle man tro, at dette er ligesom en tegnstreng. Men hvis du bare gÃ¸re irisSpecies, og sÃ¥ vil jeg gÃ¸re hoved 5, og dette vil udskrive de fÃ¸rste fem vÃ¦rdier. 

Og sÃ¥ bemÃ¦rke dette niveau. SÃ¥ dette er saying-- dette er R mÃ¥de have kategoriske variable. SÃ¥ i stedet for bare have tegnstrenge, det har niveauer angivelse hvilke af disse ting er. 

SÃ¥ lad os sige irisSpecies 1. SÃ¥ hvad du Ã¸nsker at gÃ¸re her er jeg DelsÃ¦t for denne art kolonne. SÃ¥ dette tager Art-sÃ¸jle og derefter den indekserer at fÃ¥ det fÃ¸rste element. SÃ¥ dette bÃ¸r give dig setosa. Og det giver dig ogsÃ¥ niveauer her. 

SÃ¥ du kan ogsÃ¥ sammenligne dette til karakteren setosa og dette vil ikke til at vÃ¦re sandt, fordi en er af en anden type end den anden. Eller jeg tror det er sandt, fordi R er mere intelligent end. Og det ser pÃ¥ dette, og derefter siger, mÃ¥ske det er det, du Ã¸nsker. SÃ¥ det kommer til at sige det tegn streng setosa er den samme som denne. Og sÃ¥ samme mÃ¥de kan du ogsÃ¥ bare snuppe disse som sÃ¥ pÃ¥. 

SÃ¥ det er blot en slags hurtige kommandoer datasÃ¦ttet. SÃ¥ her er nogle udforskning af data. SÃ¥ det er lidt mere involveret i analysen af ââdata. Og dette er taget fra nogle Bootcamp i F i Berkeley. 

SÃ¥ bibliotek udenlandske. SÃ¥ jeg har tÃ¦nkt mig at lÃ¦gge i en bibliotek, der hedder udenlandske. SÃ¥ dette vil give mig read.dta sÃ¥ antage, at jeg har denne datasÃ¦t. Dette er gemt i den aktuelle arbejdsmappe af min konsol. SÃ¥ lad os bare se, hvad arbejdsmappen er. 

SÃ¥ her er min arbejdsmappe. Og lÃ¦se dot data, dette ting, siger denne fil ligger i data mappen denne aktuelle arbejdsmappe. Og read.dta dette ikke er en standard kommando. Jeg gÃ¦tte, jeg indlÃ¦st det i forvejen. IEI overtog jeg indlÃ¦st denne i forvejen. 

Men sÃ¥ read.dta ikke vil at vÃ¦re en standard kommando. Og det er derfor, du kommer til at have at indlÃ¦se i dette bibliotek package-- denne pakke kaldet udenlandske. Og hvis du ikke har pakken, tror jeg udenlandsk er en af ââde indbyggede dem. Ellers kan du ogsÃ¥ gÃ¸re install.packages og dette vil installere pakken. Og det vil give dig R. Ãh, nej. Og sÃ¥ er jeg bare kommer til at stoppe dette, fordi jeg allerede har det. 

Men hvad er virkelig rart om R er, at pakken ledelse Systemet er meget elegant. Fordi det vil gemme alt virkelig pÃ¦nt til dig. SÃ¥ i dette tilfÃ¦lde, det vil gemme det i, jeg tror, ââdette bibliotek her. 

SÃ¥ nÃ¥r du har lyst til installere nye pakker, det er lige sÃ¥ simpelt som gÃ¸r install.packages og R vil administrere alle pakkerne til dig. SÃ¥ du behÃ¸ver ikke at gÃ¸re noget i Python, hvor du har ekstern pakke ledere som papir Anaconda hvor du er doing-- du installerer pakker uden for Python og sÃ¥ er du forsÃ¸ger at kÃ¸re dem selv. SÃ¥ det er virkelig pÃ¦n mÃ¥de. 

Og install.packages krÃ¦ver internet. Det tager det fra en server og arkiv, samler alle pakkerne, hedder KRAN. Og du kan angive, hvilken slags spejl du vil hente pakkerne fra. 

SÃ¥ her jeg tager dette datasÃ¦t. Jeg lÃ¦ser det i at bruge denne funktion. SÃ¥ lad mig gÃ¥ videre og gÃ¸re det. 

SÃ¥ lad os antage, at du har denne datasÃ¦t og du har absolut ingen idÃ© om, hvad det er. Og det faktisk kommer op temmelig ofte i industrien hvor du bare har disse tons og tonsvis af rodet ting og de er utroligt umÃ¦rket. SÃ¥ her jeg har denne datasÃ¦t og jeg ved ikke, hvad det er, sÃ¥ jeg er bare viser at tjekke det ud. 

SÃ¥ jeg har tÃ¦nkt mig at gÃ¸re med hovedet fÃ¸rst. SÃ¥ jeg tjekke de fÃ¸rste seks kolonner af hvad dette datasÃ¦t er. SÃ¥ dette er state, pres04, og derefter Alle disse forskellige slags kolonner. Og hvad er interessant her, tror jeg, er, at du vil antage, at det ser som en slags valg. Og jeg gÃ¦tter bare fra ser pÃ¥ fil nÃ¦vne dette er en form for indsamling af data om ansÃ¸gere eller vÃ¦lgere der stemte for bestemte prÃ¦sidenter eller prÃ¦sident kandidater for valget i 2004. 

SÃ¥ her er vÃ¦rdier 1, 2 sÃ¥ en mÃ¥de til at lagre Formand kandidater er deres navne. I dette tilfÃ¦lde ser det ud de er bare heltalsvÃ¦rdier. SÃ¥ 2004 var det Bush versus Kerry tror jeg. Og nu, lad os sige, at du bare ikke kender om 1 svarer til Bush eller 2 svarer til Kerry eller og sÃ¥ videre og sÃ¥ videre, ikke? 

Og det er, bare for mig, et temmelig almindeligt problem. SÃ¥ hvad kan du gÃ¸re i dette tilfÃ¦lde? SÃ¥ lad os se alle disse andre ting. 

tilstand, jeg gÃ¥r ud fra dette kommer fra forskellige stater. partyid, indkomst. Lad os se pÃ¥ partyid. SÃ¥ mÃ¥ske en ting du kan gÃ¸re, er se pÃ¥ hver af observationerne at have en partyid af republikanske eller demokrat eller noget. SÃ¥ lad os bare se pÃ¥, hvad partyid er. 

SÃ¥ jeg har tÃ¦nkt mig at tage dat og sÃ¥ jeg har tÃ¦nkt mig at gÃ¸re dette dollartegn operatÃ¸r, at jeg gjorde tidligere og dette vil delmÃ¦ngde til den pÃ¥gÃ¦ldende kolonne. Og sÃ¥ jeg har tÃ¦nkt mig at lede dette i 20, bare for at se, hvad det ser ud. 

SÃ¥ dette er bare en masse nationale kontorer. SÃ¥ med andre ord har du manglende data om disse fyre. Men du ogsÃ¥ bemÃ¦rke dette dat partyid er en faktor sÃ¥ det giver dig forskellige kategorier. SÃ¥ med andre ord kan partyid tage Demokrat, republikaner, Independent, eller noget andet. 

SÃ¥ lad os gÃ¥ videre og lad os se, hvilke af disse is-- oh, OK. SÃ¥ jeg har tÃ¦nkt mig at delmÃ¦ngde at partyid og derefter se pÃ¥, hvilke der er S, f.eks. Dette vil give dig en boolesk, en enorm Boolean af TRUEs og FALSEs. 

Og nu, lad os sige, jeg vil at delmÃ¦ngde til disse fyre. SÃ¥ dette vil tage min dat og delmÃ¦ngde til uanset hvilken observationer har partyid ligemÃ¦nd lig demokrat. Og det er ganske lang, fordi der er sÃ¥ mange af dem. SÃ¥ nu, jeg skal til at lede dette i 20. 

Og som du bemÃ¦rker, er lig ligemÃ¦nd er interessant, fordi du er already-- du ogsÃ¥ herunder nationale kontorer. SÃ¥ i dette tilfÃ¦lde, du stadig ikke kan fÃ¥ alle oplysninger, fordi nu har du nationale kontorer og du blot Ã¸nsker at se, hvilke af de observation svarer til demokrat og ikke disse manglende vÃ¦rdier selv. SÃ¥ hvordan ville du slippe af med disse kontorer? 

SÃ¥ her er jeg bare ved hjÃ¦lp af op-tasten pÃ¥ min markÃ¸ren og derefter sige at bevÃ¦ge sig rundt. Og sÃ¥ her jeg bare sige is.na datpartyid. SÃ¥ dette og og vil tage to forskellige Boolske vektorer og siger, at det vil vÃ¦re SAND og FALSK f.eks. SÃ¥ det kommer til at gÃ¸re denne komponent-wise. SÃ¥ her jeg siger take datarammen, delmÃ¦ngde til dem, der svarer til demokrat, og fjerne nogen af ââdem, der ikke er NA. 

SÃ¥ denne will-- bÃ¸r give dig noget. Lad os se is.na. Lad os prÃ¸ve is.na datpartyid. Og dette bÃ¸r give du-- sorry-- blot en boolesk vektor. Og sÃ¥, fordi det er sÃ¥ lang, Jeg har tÃ¦nkt mig at delmÃ¦ngde til 20. OK. SÃ¥ dette bÃ¸r arbejde. 

Og det her vil ogsÃ¥ vÃ¦re TRUEs. Ah, sÃ¥ min fejl her er at I'm-- I bruge C ++ og R i flÃ¦ng, sÃ¥ jeg gÃ¸r denne fejl hele tiden. Den og operatÃ¸r er faktisk den, du Ã¸nsker. Du Ã¸nsker ikke at bruge to og-tegn, bare en enkelt. OK. 

SÃ¥ lad os se. SÃ¥ vi subsetted til partyid hvor de er demokrat og de er ikke manglende vÃ¦rdier. Og lad os nu se pÃ¥ hvilke de er for. SÃ¥ det ser ud som de fleste af dem stemte for 1. SÃ¥ jeg har tÃ¦nkt mig at gÃ¥ videre og sige, at er Kerry. 

Og pÃ¥ samme mÃ¥de, kan du ogsÃ¥ gÃ¥ til republikanske og forhÃ¥bentlig, bÃ¸r dette give dig 2. Det er bare en masse forskellige kolonner. Og ja, det er 2. SÃ¥ partyid alle republikanske, de fleste af dem stemmer pÃ¥ 2. 

SÃ¥ det ser ud som, bare ved at kigge pÃ¥ dette, Republikanske bliver en very-- eller partyid vil vÃ¦re en meget stor faktor i fastlÃ¦ggelsen hvilken kandidat de er vil stemme pÃ¥. Og dette er naturligvis sandt i almindelighed. Og det passer til din intuition, selvfÃ¸lgelig. SÃ¥ det ser ud som om jeg er lÃ¸be tÃ¸r for tid, sÃ¥ lad mig bare skal gÃ¥ videre og vis nogle hurtige billeder. SÃ¥ her er noget, der er lidt mere kompliceret med visualisering. SÃ¥ i dette tilfÃ¦lde, er dette en meget simpel analyse af blot at kontrollere, hvad formanden for '04 er. 

SÃ¥ i dette tilfÃ¦lde, lad os sige, at du Ã¸nskede at besvare dette spÃ¸rgsmÃ¥l. SÃ¥ formoder, at vi Ã¸nskede at vide afstemningen adfÃ¦rd i 2004 prÃ¦sidentvalget og hvordan det varierer fra lÃ¸b. SÃ¥ ikke nok med at du vil se stemmeadfÃ¦rd, men du Ã¸nsker at delmÃ¦ngde af hver race og slags opsummere det. Og du kan kun fortÃ¦lle af dette kompleks notation at dette er en slags fÃ¥ uklar. 

SÃ¥ en af ââde mere avancerede R pakker, der er ogsÃ¥ slags nyere kaldes dplyr. SÃ¥ det er denne ene lige her. Og ggg-- ggplot2 er bare en dejlig mÃ¥de at gÃ¸re bedre visualiseringer end den indbyggede i Ã©t. 

SÃ¥ jeg har tÃ¦nkt mig at indlÃ¦se disse to biblioteker. Og sÃ¥ jeg har tÃ¦nkt mig at gÃ¥ videre og kÃ¸re denne kommando. Du kan bare behandle det som en sort boks. 

Hvad sker er, at dette rÃ¸r operatÃ¸r passerer i dette argument ind pÃ¥ her. SÃ¥ jeg siger gruppe af dat race og davÃ¦rende prÃ¦sident 04. Og sÃ¥ alle disse andre kommandoer filtrerer og derefter sammenfatter hvor jeg gÃ¸r tÃ¦ller og sÃ¥ jeg plotte det her. OK cool. SÃ¥ lad os gÃ¥ videre og se, hvad det ser ud. 

SÃ¥ hvad der sker her, er, at jeg bare plottet hver af lÃ¸bene og derefter hvilke de er for. Og disse to forskellige vÃ¦rdier svarer til 2 og 1. Hvis du Ã¸nsker at vÃ¦re mere elegant, kan du ogsÃ¥ bare angive, at 2 er Kerry-- eller 2 er Bush, og derefter 1 er Kerry. Og du kan ogsÃ¥ have at De i Deres legende. 

Og du kan ogsÃ¥ opdele disse sÃ¸jlediagrammer. Fordi Ã©n ting er at, hvis du bemÃ¦rker, dette er ikke meget let at identificere hvilken af ââdisse to vÃ¦rdier er stÃ¸rre. SÃ¥ en ting du gerne vil gÃ¸re er at tage denne blÃ¥ omrÃ¥de og bare flytte det over her, sÃ¥ du kan sammenligne disse to ved siden af ââhinanden. Og jeg tror det er noget, jeg ikke har tid til at gÃ¸re lige nu, men det er ogsÃ¥ meget let at gÃ¸re. Du kan bare kigge ind man-siderne for ggplot. SÃ¥ du kan bare ggplot ligesom at og lÃ¦se i denne mand side. 

SÃ¥ lad mig lige hurtigt vise dig nogle seje ting. Lad os gÃ¥ videre og gÃ¥ at-- blot en anvendelse af machine learning. SÃ¥ lad os sige, at vi har disse tre pakker, sÃ¥ jeg har tÃ¦nkt mig at indlÃ¦se disse i. SÃ¥ dette blot udskriver nogle oplysninger efter jeg lagt i ting. SÃ¥ siger jeg read.csv, dette datasÃ¦t, og nu Jeg har tÃ¦nkt mig at gÃ¥ videre og se og se hvad der er inde i dette datasÃ¦t. 

SÃ¥ de fÃ¸rste 20 observationer. SÃ¥ jeg bare have X1, X2, og Y. SÃ¥ det virker som en flok af disse vÃ¦rdier spÃ¦nder fra mÃ¥ske 20 til 80 eller deromkring. Og sÃ¥ fremdeles for X2 og derefter denne Y synes at vÃ¦re etiketter 0 og 1. 

For at bekrÃ¦fte dette, kan jeg bare gÃ¸re sammenfatning af data X1. Og sÃ¥ fremdeles for alle disse andre kolonner. SÃ¥ resumÃ© er en hurtig mÃ¥de blot viser dig hurtige vÃ¦rdier. Ãh, undskyld. Dette bÃ¸r man vÃ¦re Y. 

SÃ¥ i dette tilfÃ¦lde giver fraktiler, medianer, maxes sÃ¥ godt. I dette tilfÃ¦lde dataY, kan du se at det bare kommer til at vÃ¦re 0 og 1. OgsÃ¥ middelvÃ¦rdien siger 0,6, betyder blot, at det ser ud til jeg har flere 1s end 0'erne. 

SÃ¥ lad mig gÃ¥ videre og show dig, hvad det ligner. SÃ¥ jeg bare at plotte dette. Lad os se, hvordan man kan klare dette. Oh OK. OK. 

SÃ¥ dette er, hvad det ser ud. SÃ¥ det ser ud som gule jeg specificeret som 0 og derefter rÃ¸d jeg angivet som 1'ere. SÃ¥ her ser det ud label punkter og det virker som om du bare ville nogle slags gruppering pÃ¥ dette. 

Og lad mig bare gÃ¥ videre og show du nogle af disse indbyggede funktioner. SÃ¥ her er lm. SÃ¥ dette er blot forsÃ¸ger at montere en linje til dette. SÃ¥ hvad er den bedste mÃ¥de at jeg kan passe en linje sÃ¥dan at det bedst vil adskille denne form for klyngedannelse. Og ideelt set, kan du bare se at jeg bare kÃ¸re alle disse kommandoer og sÃ¥, jeg har tÃ¦nkt mig videre og tilfÃ¸je linjen. 

SÃ¥ det virker som det bedste gÃ¦t. Det er at tage den bedste, der minimerer fejlen i forsÃ¸get pÃ¥ at passe denne linje. Det er klart, det ser slags godt, men det er ikke den bedste. Og lineÃ¦re modeller, i Generelt vil vÃ¦re virkelig stor for teori og bare slags af bygge- grundlÃ¦ggende elementer i maskinen lÃ¦ring. Men i praksis, er du nÃ¸dt til Ã¸nsker at gÃ¸re noget mere generelt. 

SÃ¥ du kan bare prÃ¸ve at kÃ¸re noget, der hedder et neuralt netvÃ¦rk. Disse ting er stadig mere almindelige. Og de arbejder bare fantastisk til store datasÃ¦t. SÃ¥ i dette tilfÃ¦lde, vi kun have-- lad os see-- vi har nrow. SÃ¥ nrow er bare at sige antal rÃ¦kker. SÃ¥ i dette tilfÃ¦lde, jeg har 100 observationer. 

SÃ¥ lad mig gÃ¥ videre og gÃ¸re et neuralt netvÃ¦rk. SÃ¥ dette er virkelig rart fordi jeg bare kan sige nnet og sÃ¥ er jeg regression Y. SÃ¥ Y er denne kolonne. Og sÃ¥ regression det pÃ¥ de to andre variabler. SÃ¥ det er kortere notation for X1 og X2. 

SÃ¥ lad os gÃ¥ videre og kÃ¸re dette. Ãh, undskyld. Jeg har brug for at kÃ¸re det hele. Og dette er blot udskriver notation for hvor hurtigt eller ikke hurtigt det konvergeret. SÃ¥ det ser ud som det gjorde konvergerer. SÃ¥ lad mig gÃ¥ videre og print ud af, hvad det ligner. 

Se her er billedet, og her er en kontur viser, hvor godt det passer. Og det er bare-- du kan se dette, at det er meget, meget rart. Det kunne endda vÃ¦re overfitting, men du kan ogsÃ¥ udgÃ¸r dette med andre teknikker som krydsvalidering. Og disse er ogsÃ¥ indbygget i R. 

Og lad mig lige vise dig Support vektormaskine. Dette er en anden virkelig almindelig teknik i machine learning. Det er meget lig lineÃ¦re modeller, men det bruger hvad der kaldes en kerne metode. Og lad os se, hvor godt det gÃ¸r. SÃ¥ dette er meget lig hvordan godt et neuralt netvÃ¦rk udfÃ¸rer, men det er meget mere smidig. Og det er baseret ud af hvad-- hvordan SVMs arbejde. 

SÃ¥ dette er blot en meget hurtigt overblik over nogle af de indbyggede funktioner, du kan gÃ¸re og ogsÃ¥ nogle af udforskningen af ââdata. SÃ¥ lad mig bare gÃ¥ videre og gÃ¥ tilbage til dias. 

SÃ¥ er naturligvis ikke meget omfattende. Og det er egentlig bare en teaser viser dig, hvad du virkelig kan gÃ¸re i R. SÃ¥ hvis du vil bare gerne at lÃ¦re mere, her er en masse forskellige ressourcer. 

SÃ¥ hvis du er glad for lÃ¦rebÃ¸ger eller du er bare glad for at lÃ¦se ting online, sÃ¥ er dette en fantastisk en af ââHadley Wickham, der ogsÃ¥ skabt alle disse virkelig cool pakker. Hvis du er glad for videoer, sÃ¥ Berkeley har en awesome bootcamp det er several-- der er slags lang. Og det vil lÃ¦re dig nÃ¦sten alt, hvad du gerne vil vide om R. 

Og pÃ¥ samme mÃ¥de er der Codeacademy og alle disse andre slags af interaktive hjemmesider. De er ogsÃ¥ at fÃ¥ common-- mere og mere almindelige. SÃ¥ dette er meget lig Codeacademy. Og endelig, hvis du bare vil FÃ¦llesskabet og hjÃ¦lpe, disse er en flok ting, du kan gÃ¥ til. Det er klart, vi stadig bruge postlister, bare Ligesom nÃ¦sten alle andre programmeringssprog samfund. Og #rstats, dette er vores samfund Twitter. Det er faktisk ret almindelige. Og sÃ¥ bruger! Er bare vores konference. 

Og sÃ¥, selvfÃ¸lgelig, kan du bruge alle disse andre Q & A ting, Ligesom Stack Overflow, Google, og derefter GitHub. Fordi de fleste af disse pakker og en masse af fÃ¦llesskabet vil vÃ¦re centreret omkring udvikling kode, fordi det er open source. Og det er bare virkelig rart pÃ¥ GitHub. Og endelig kan du kontakte mig, hvis du bare have nogen hurtige spÃ¸rgsmÃ¥l. SÃ¥ du kan finde mig pÃ¥ Twitter her, min hjemmeside, og lige min e-mail. SÃ¥ forhÃ¥bentlig, det var something-- kun en kort teaser hvad R er virkelig i stand til at gÃ¸re. Og forhÃ¥bentlig du bare tjek disse tre links og se, hvad du kan gÃ¸re mere. Og jeg tror det er bare om det. Tak. 

[Applaus]