[Tónlist spila] Dustin Tran: Hi. Dustin Ég heiti. Svo ég ætla að kynna Data Analysis í R. Bara svolítið um sjálfan mig. Ég er nú í framhaldsnámi í verkfræði- og Applied vísindi. Ég stunda nám í gatnamótum vél nám og tölfræði svo er Data Analysis í R virkilega grundvallaratriði að það Ég á hverjum einasta degi. Og R er sérstaklega gott fyrir greiningu gagna vegna þess að það er mjög gott fyrir prototyping. Og yfirleitt þegar þú ert að gera einhvers konar af greiningu gagna, a einhver fjöldi af vandamál eru að fara að hugrænni. Og svo þú vilt bara að hafa sumir mjög gott tungumál sem er bara gott fyrir að gera innbyggður-í aðgerðir, andstætt að þurfa að takast á við lágt hlutum. Svo í byrjun, ég ætla bara að fara að kynna hvað er R, hvers vegna vildi þú vilt nota það, og þá fara yfir í einhvern demo, og bara fara þaðan. Svo er það R? R er bara þróað tungumál tölfræðilega computing og visualization. Svo hvað þýðir þetta er að það er mjög gott mál fyrir hvers konar hlutur sem fæst við óvissa eða gögn visualization. Svo þú hefur allt þetta líkindadreifingar. Það eru að fara að vera innbyggður-í aðgerðir. Þú munt einnig hafa framúrskarandi samsærismaður pakka. Python er annar keppa tungumál fyrir gögn. Og eitt sem ég kemst að því að R er miklu betri í er visualization. Svo það sem þú munt sjá í kynningu sem vel er bara mjög leiðandi tungumál sem bara virkar mjög vel. Það er einnig frjáls og opinn uppspretta, sem er einhver annar góður tungumál ég giska á. Og hér, fullt af bara leitarorð kastað á þig. Það er dynamic, sem þýðir ef þú ert a ákveðin tegund úthlutað á hlut en það verður bara að breyta því á flugu. Það er latur þannig að það er klár um hvernig það virkar útreikninga. Functional þýðir að það geta raunverulega starfa byggt burt af störfum svo anything-- hvers konar meðferð þú ert gera, verður það að byggjast á aðgerðir. Svo tvöfaldur rekstraraðila, til dæmis, eru bara í eðli sínu virka. Og allt sem þú ert að fara að gera er að fara að hlaupa burt aðgerðir sjálft. Og þá mótmæla stilla eins og heilbrigður. Svo er hér að XKCD lóð. Ekki aðeins vegna þess að mér finnst eins og XKCD er grundvallaratriði í hvers konar framsetningu, heldur vegna þess að Mér finnst eins og þetta virkilega hamar lið sem mikið af þegar þú ert að gera einhvers konar gögn greiningu, vandamálið er ekki svo mikið hversu hratt það rennur, en hversu lengi það er að fara að taka þig að forrita verkefni. Svo hér er bara að greina hvort stefnu a eða b er skilvirkari. Þetta er að fara að vera eitthvað sem þú ert að fara að takast mikið með í Raða af lágmark-láréttur flötur tungumál þar sem þú ert að takast á við seg galla, minni úthlutun, initializations, jafnvel gera the innbyggður-í aðgerðir. Og þetta efni er öll meðhöndluð mjög glæsilegur í R. Svo bara að negla þetta lið, stærsta flöskuháls er að fara að vera vitsmunaleg. Svo er greiningu gagna mjög erfitt vandamál. Hvort sem þú ert að gera vél nám eða þú ert gera bara einhverskonar Grunngögn könnun, þú vilt ekki að hafa að taka skjal og þá þýða eitthvað í hvert skipti sem þú langar að sjá hvað dálk lítur út, hvað einkum færslur í stoðefni lítur út. Svo þú vilt bara að hafa sumir mjög gott viðmót þú getur keyrt einfaldri aðgerð að Vísitölur til hvað þú vilt og bara hlaupa það þaðan. Og þú þarft lén sérstakar tungumál fyrir þessu. Og R mun virkilega hjálpa þér að skilgreina vandamál og leysa það á þennan hátt. Svo er hér mynd sem sýnir forritun Vinsældir R þar sem það er farið með tímanum. Svo eins og þú geta sjá, eins og 2013 eða svo það blásið bara upp ógurlega. Og þetta hefur verið bara af því gríðarstór stefna í tækni iðnaði um stór gögn. Einnig, ekki bara tækni iðnaður, en í raun allir iðnaður that-- því a einhver fjöldi af iðnaði eru eins konar grundvöllur að reyna að leysa þessi vandamál. Og yfirleitt er hægt að hafa sumir góður leið til að mæla þessi vandamál eða jafnvel skilgreina þær eða leysa þau með gögnum. Þannig að ég held að núna er R 11. Vinsælasta tungumál á TIOBE og það hefur verið vaxandi síðan. Svo er hér meira aðgerðir R. Það hefur gífurleg fjöldi pakka og fyrir allar þessar mismunandi hluti. Svo hvenær þú hafa a viss vandamál, flest tíminn R verður sem virka fyrir þig. Svo hvort sem þú vilt byggja einhverskonar vél læra reiknirit sem kallast Random Forest eða ákvörðun Trees, eða jafnvel að reyna að taka meðaltal af fall eða eitthvað af þessu efni, R mun hafa það. Og ef þú gerir þér þykir vænt um hagræðingu, eitt sem er sameiginlegt er að eftir að þú ert búinn prototyping einhvers konar hár-láréttur flötur tungumál, þú munt henda að in-- þú verður bara tengi sem yfir að einhverju lágmark-láréttur flötur tungumál. Hvað er gott um R er að þegar þú ert gert prototyping það er hægt að keyra C ++, eða Fortran eða eitthvað af þessu lægri stigi sjálfur beint inn R. Svo er það eitt í raun kaldur lögun um R, ef þér þykir vænt raunverulega um hagræðingu lið. Og það er líka mjög gott fyrir vefur visualizations. Svo D3.js, til dæmis, er Ég giska annað námskeið sem við kynnt í dag. Og þetta er í raun ógnvekjandi fyrir gera gagnvirka sjónræn. Og D3.js ráð fyrir að þú ert einhvers konar gögn til að samsæri og R er frábær leið til að vera fær um að gera greining gagna áður en þú flytja hana yfir til D3.js eða jafnvel bara að keyra D3.js skipanir í R sig, sem og allar þessar bókasafna og. Svo það var bara kynning á hvað er R og hvers vegna þú gætir notað það. Svo vonandi, hef ég sannfærður þér eitthvað um bara að reyna að sjá hvað það er. Þannig að ég ætla að fara á undan og fara í gegnum sumir grundvallaratriði um R hlutum og hvað þú getur gert. Svo hér er bara fullt af stærðfræði skipunum. Svo segja you're-- þú vilt að byggja Tungumál sjálfur og þú vilt bara að hafa fullt af mismunandi verkfæri. Hvers konar starfsemi sem þú heldur að þú vilt vilja er ansi mikið að fara að vera í R. Svo hér er 2 plús 2. Hér er 2 sinnum pí. R hefur fullt af innbyggður-í fastar að þú munt oft notað eins pí, e. Og þá, hér er 7 plus runif, svo runif af 1. Þetta er fall sem er býr einn af handahófi samræmda frá 0 til 1. Og þá er það 3 á vald af 4. Það er kvaðratrót. Það er skráning. Svo skráðu þig mun gera stöð veldisvísis af sjálfu sér. Og þá, ef þú tilgreinir grunn, þá þú getur gert hvað sem stöð sem þú vilt. Og þá eru hér nokkrar aðrar skipanir. Svo þú ert 23 unga fólkið 2. Þá hefur þú afganginn. Síðan sem þú ert vísinda merki ef þig líka langar að gera bara meira og flóknari hlutir. Svo hér er verkefni. Svo dæmigerð verkefni í R er gert með ör svo það er minna en og þá bandstrik. Svo hér er ég bara að framselja 3 til breytu val. Og þá er ég að prenta út Val og þá prentar það út þrjú. Mælast í R túlkur, það prentar það út fyrir þig svo þú þarft ekki að tilgreina prenta Val hvenær sem þú vilt prenta eitthvað. Þú getur bara gert val og þá skal gera það fyrir þig. Einnig er hægt að nota jafngildir tæknilega sem framsal rekstraraðila. Það er dálítill næmi milli með örina rekstraraðila og jafngildir rekstraraðila fyrir verkefni. Aðallega af samningur, allir mun bara nota örina rekstraraðila. Og hér, ég framselja þetta hornrétt merki heitir 1 ristill 6. Þetta býr vigur frá 1 til 6. Og þetta virkilega gott því þá þú úthluta bara vigur Val og það virkar af sjálfu sér. Þannig að þetta er nú þegar að fara frá a single-- mjög leiðandi gögn Uppbygging bara tvöfalt af sumir tegund af tegund í ferju og sem mun safna öllum að scalar gildi fyrir þig. Svo eftir að fara frá scalar, þú hafa R hluti og þetta er vektor. Vektor er hvers konar safn af sömu gerð. Svo hér eru fullt af vektor. Svo er þetta tölustafir. Tölustafir er vegur R er að segja tvöfaldur. Og svo sjálfgefið, allir tala vilja vera tvöfaldur. Svo ef þú ert c 1,1 og 3, neikvæð 5.7, sem c er fall. Þetta concatenates öll þrjú tölur í ferju. Og þetta mun be-- svo ef vart 3 af sjálfu sér, venjulega þú myndi gera ráð fyrir að þetta er eins heiltala, en vegna þess að allar vigra eru þau sömu tegund, þetta er vektor af tvennur eða tölustafir í þessu tilfelli. rnorm er fall sem býr stöðluð normaldreifð variables-- eða stöðluð normaldreifð gildi. Og ég er að tilgreina tvö af þeim. Þannig að ég ætla að gera rnorm 2, framselja það til Devs, og þá er ég að prenta út höfunda kerfisins vita. Svo þetta eru bara tveir handahófi eðlileg gildi. Og þá ints ef þú gerir þér þykir vænt um heiltölur. Svo er þetta bara um minni úthlutun og sparnaður minni stærð. Svo þú þyrftir að bæta tölur þínar eftir höfuðborginni L. Almennt, þetta er Sögulega merki R er fyrir eitthvað sem kallast löng heiltala. Svo mest af þeim tíma, þú munt fengist við tvíliðaleik. Og ef þú verður alltaf seinna á bjartsýni númerið þitt, þú getur bara sett svona L's eftir eða á meðan það ef þú ert eins og precognitive um hvað þú ert að fara að gera þessar breytur. Svo er hér eðli vektor. Svo aftur, ég er concatenating þrjú strengir þessu sinni. Takið eftir að tvöfalda strengi og stakir strengir eru þau sömu í R. Þannig að ég hef Arthur og Marvin og svo þegar ég er að prenta það út, þá alla eru að fara að sýna tvöfalda strengi. Og ef þú vilt einnig að fela í sér tvöfaldur eða einn strengur í stafi, þá getur þú annaðhvort varamaður strengi þína. Svo Marvin er fyrir Annað þáttur, þetta er fara að show-- þig bara double strengi og þá einn strengur þannig að þetta er til skiptis. Annars, ef þú vilt nota tvöfalt string rekstraraðila í tvöföldum streng þegar þú ert að lýsa það, þá þú notar bara flýja rekstraraðila. Svo þú gera Sviga tvöfalda band. Og að lokum, við einnig hafa rökrétt vektor. Svo logical-- svo TRUE og FALSE, og þeir eru að fara að vera allt hástafi. Og þá, aftur, ég er concatenating þá og þá framselja þá til bools. Svo bools er að fara að sýna þú TRUE, FALSE, og satt. Svo hér er vectorized flokkun. Svo í byrjun, ég er að taka function-- þetta er kallað sequence-- röð frá 2 til 12. Og ég ætla að taka röð af 2. Svo það er að fara að gera 2, 4, 6, 8, 10 og 12. Og þá er ég flokkun til að fá þriðja frumefni. Svo er eitt sem þarf að hafa í huga að R Vísitölur með því að byrja frá 1. Svo Vals 3 er að fara að gefa þú þriðja þáttur. Þetta er tegund af frábrugðin öðrum tungumál þar sem það byrjar frá núlli. Svo í C eða C ++, til dæmis, þú ert fara að fá fjórða frumefni. Og hér er Vals frá 3 til 5. Svo það er eitt í raun er ótrúlegt að þér er hægt að búa tímabundnar breytur inni og þá bara nota þá á flugu. Svo hér er 3 til 5. Þannig að ég ætla að búa til vektor 3, 4, og 5 og síðan Ég er flokkun til að fá þriðjung, fjórða, og fimmta þætti. Svo álíka, þú getur Útdráttur bara að gera hvers konar vegvísir sem gefur þér flokkun. Svo er hér Vals og þá Fyrsta, þriðja og sjötta þætti. Og þá, ef þú vilt að gera viðbót, svo þú bara mínus eftirá og munt að gefa þér allt sem er ekki Fyrsta, þriðja eða sjötta þáttur. Þannig að þetta verður að vera 4, 8 og 10. Og ef þú vilt fá jafnvel lengra, þú getur concatenate Boolean vektor. Þannig að þetta Vísitalan er að fara að gefa þér þetta Boolean vektor lengd 6. Svo fulltrúi TRUE komma 3. Þetta mun endurtaka satt þrisvar sinnum. Þannig að þetta mun gefa þér vektor TRUE, SATT, TRUE. fulltrúi FALSE 4-- þetta er að fara að gefa þér vektor af FALSE, FALSE, FALSE, FALSE. Og þá c er að fara til concatenate þessir tveir Booleans saman. Svo þú ert að fara að fá þrjá TRUEs og þá fjórir FALSEs. Þannig að þegar þú vísitölu Vals, þú ert fara að fá sem TRUE, SATT, TRUE. Svo það er að fara að segja já, Ég vil þá þrjá þætti. Og þá FALSE, FALSE, FALSE, FALSE er að fara að segja nei, ég vil ekki þá þætti svo það er ekki að fara að skila þeim. Og ég held að það er í raun prentvilla hér vegna þess að þetta er að segja endurtaka TRUE 3 og endurtaka ósönn 4, og tæknilega, þú aðeins hafa sex þættir svo endurtaka FALSE, það ætti að vera endurtaka FALSE 3. Ég held R er líka klár nóg svo að ef þú tilgreinir bara 4 hér, þá það verður ekki einu sinni villa út. Það verður bara að gefa þér þetta gildi. Svo það verður bara að hunsa þessi fjórða FALSE. Svo hér er vectorized verkefni. Svo set.seed-- þetta bara setur sáðkorn handa pseudorandom númer. Þannig að ég ætla að setja fræ til 42, sem þýðir að ef ég mynda þrír af handahófi eðlilegt gildi, og þá ef þú hlaupa set.seed á eigin spýtur tölva með því að nota sama gildi 42, þá færðu líka Sömu þrjú random normals. Svo er þetta mjög gott fyrir samanburðarnákvæmni. Venjulega, þegar þú ert að gera sumir konar vísinda greiningu, þú vilt að setja fræ. Þannig öðrum vísindamönnum getur bara endurskapa nákvæmlega sama kóðann sem þú hefur gert vegna þess að þeir hafa nákvæmlega sömu hendingar that-- eða handahófi gildi sem þú hefur tekið út eins og heilbrigður. Og svo vectorized verkefni hér er að sýna Vals á 1 til 2. Þannig að það tekur tvo fyrstu þætti af Vals og þá gefur þá til 0. Og þá, þú getur líka bara gera líkur hlutur með Booleans. Svo Vals er ekki jafn 0-- þetta mun gefa þér vektor FALSE, FALSE, TRUE í þessu tilfelli. Og þá, það er að fara að segja eitthvað af þeim vísitölum sem væri satt, þá er það að fara að úthluta sem 5. Svo það tekur þriðja þáttur hér og þá gefur það til 5. Og þetta er mjög gott samanborið við lágmark-láréttur flötur tungumál þar sem þú þarft að nota fyrir lykkjur að gera alla þessa vectorized efni vegna þess að það er bara mjög leiðandi og það er a einn einn-Ferja. Og hvað er mikill um vectorized merki er að í R, eru þessir tegund af innbyggður-í svo að þeir eru næstum eins hratt sem gera í lágmark-láréttur flötur tungumál sem öfugt við gerð a for lykkju í R og þá hafa það að gera the dynamic flokkun sig. Og það verður að vera hægari en að gera þessi tegund af vectorized hlutur þar sem það getur gert það samhliða, þar það er að gera það í að þræða í grundvallaratriðum. Svo hér er vectorized starfsemi. Þannig að ég er að búa til gildið 1 til 3, úthlutun að til þess að vec1, 3 til 5, vec2, bæta þeim saman. Það bætir þeim hluti-vitur svo það er 1 plús 3, 2 plús 4, og svo framvegis. vec1 sinnum vec2. Þetta margfaldar tveir gildi hluti vitur. Svo er það 1 sinni 3, 2 sinnum 4 og síðan 3 sinnum 5. Og þá, á sama hátt og þú getur líka gert comparisons-- rökrétt samanburð. Svo er það ósatt ósatt satt í þessu tilfelli vegna þess að 1 er ekki meiri en 3, 2 er ekki meiri en 4. Þetta er, held ég, annað prentvilla, 3 er örugglega ekki meiri en 5. Já. Og svo þú getur bara gert allt þessar einföldu aðgerðir vegna erft þeirra úr flokkum sjálfum. Svo það var bara ferja. Og það er tegund af the grundvallaratriði R hlut þar sem gefið vigur, þú getur reisa fleiri háþróaður hlutum. Svo hér er fylki. Þetta er í raun abstrakt um hvað fylki sjálft. Svo í þessu tilfelli, er það þremur mismunandi ferjur, þar sem hver maður er dálkur, eða þú getur íhuga það sem hvert og eitt er röð. Þannig að ég ætla að geyma fylki frá 1 til 9 og þá er ég að tilgreina 3 raðir. Svo 1 til 9 mun gefa þér vektor 1, 2, 3, 4, 5, 6, og alla leið til 9. Eitt sem þarf að hafa í huga er að R verslanir gildi í dálki-meiriháttar sniði. Svo í öðrum orðum, þegar þú sérð 1 9, það er að fara að geyma them-- það er að fara að vera 1, 2, 3 í fyrsta dálki, og þá verður það að gera 4, 5, 6 í öðrum dálki, og síðan 7, 8, 9 í þriðja dálki. Og hér eru nokkrar aðrar algengar aðgerðir sem þú getur notað. Svo lítil motta, þetta mun gefa þér Stærðir grindarefnisins. Það er að fara að skila þér vektor af vídd. Þannig að í þessu tilfelli, vegna þess að fylki okkar er 3 af 3, það er að fara að gefa þér a tölustafir vektor sem er 3 3. Og hér er bara að sýna Matrix margföldun. Svo yfirleitt, ef þú gerir bara asterisk-- svo motta stjarna mat-- þetta er að fara að vera hluti-vitur aðgerð eða hvað er kallað Hadamard vöru. Svo það er að fara að gera á hverjum þáttur hluti-vitur. Hins vegar, ef þú vilt Matrix multiplication-- svo margfalda fyrstu röðinni sinnum Fyrsti dálkurinn sem annar Matrix er og svo on-- þú myndir nota þessi prósent aðgerð. Og t af motta er bara aðgerð fyrir lögleiða. Þannig að ég er að segja taka lögleiða í fylkið, margfalda það með fylkinu sjálft. Og þá er það að fara að aftur til þín annar 3 um 3 fylkið sýning varan sem þú vilt vilt. Og svo það var fylki. Hér er það sem er kallað gögn ramma. A gögn ramma þú getur hugsað sem a fylki, en hver dálkur sig er að fara að vera af annarri gerð. Svo er það mjög flott um gögn rammar er að í greiningu gagna sjálft, þú ert að fara að hafa allt þetta ólíkum gögn og allt þetta í raun sóðalegur hlutur þar sem hver dálka sjálfir geta verið af ýmsum gerðum. Svo hér er ég að segja að búa til gögn ramma, gera ints frá 1 til 3, og þá einnig staf vektor. Þannig að ég get vísitölu gegnum hver af þessum dálkum og þá fæ ég þau gildi sjálfir. Og þú getur líka gert einhverskonar starfsemi á gögn ramma. Og mest af þeim tíma þegar þú ert gera greiningu gagna eða einhvers konar af forvinnu, munt þú vera vinna með þessi gögn mannvirki þar sem hver dálkur er að fara til að vera af annarri tegund. Að lokum, svo þetta eru í raun bara fjórum nauðsynleg hlutir í R. List mun bara safna allir aðrir hlutir sem þú vilt. Svo það mun geyma þetta í eitt breytu sem þú getur auðveldlega nálgast. Svo hér, ég ætla að taka lista. Ég er að segja efni er 3. Þannig að ég ætla að hafa einn þáttur í lista, og þetta er kallað efni, og það er að fara að hafa gildið 3. Ég get líka búið til fylki. Svo er þetta 1 til 4 og endir röð er jafnt og 2, þannig að a 2 um 2 fylki. Einnig á listanum og það er kallað motta. moreStuff, eðli band, og jafnvel annan lista í sjálfu sér. Þannig að þetta er listi sem er 5 og björn. Svo það hefur gildið 5 og það hefur eðli band björn og það er a listi inni í listanum. Svo er hægt að hafa þetta endurkvæma hlutum sem þú þarft another-- a tegund innan tegund. Svo álíka, getur þú hafa a fylki inni annar grunnefninu og svo framvegis. Og listi er bara góð leið að safna og samtals Öll þessi mismunandi hlutir. Og að lokum, hér er bara að hjálpa ef þetta var bara farið yfir mjög fljótt. Svo hvenær þú ert að rugla um einhvers konar virka, þú getur gert hjálp að virka. Svo þú getur gert hjálp fylki eða spurningarmerki fylki. Og hjálp og spurningarmerki eru bara styttingin fyrir sama svo þeir eru samheiti. lm er fall sem bara er línulega líkan. En ef þú ert bara ekki hugmynd um hvernig það verk, þú getur bara gert hjálp LM og það mun gefa þér nokkra konar gögn sem lítur svolítið eins og maður síðu í Unix, þar þú ert með stutta lýsingu á því hvað það gerir, einnig hvaða rök þess eru, hvað það skilar, og bara ábendingar um hvernig að nota það, og nokkur dæmi eins og heilbrigður. Svo láta mig fara á undan og sýna sumir demo af notkun R. lagi. Svo ég fór yfir mjög fljótt bara gögnin mannvirki og einhvers konar af op-- sum starfsemi. Hér er sumar aðgerðir. Svo hér er ég bara að fara að skilgreina fall. Þannig að ég ætla líka að nota verkefni rekstraraðila hér, og þá er ég að segja lýsa því sem fall. Og það tekur gildið x. Svo er þetta einhver gildi sem þú vilt og ég ætla að fara aftur x sjálfu sér. Þannig að þetta er sjálfsmynd virka. Og hvað er kaldur um þetta samanborið við önnur tungumál og annar lágmark-láréttur flötur tungumálum er að x getur verið af hvaða gerð sjálfs og það mun skila þessi tegund. Svo er hægt að imagine-- þannig að við skulum mér að keyra bara þetta fljótt. Því miður. Svo eitt sem ég ætti líka að nefna er að þessi ritstjóri ég nota er kallað rstudio. Þetta er það sem er kallað IDE. Og eitt sem er mjög gott um þetta er að það felur í sér mikið af hlutir sem þú vilt gera í R af sjálfu bara mjög innsæi. Svo er hér túlk vélinni. Svo álíka, getur þú einnig fá þetta hugga hrár bara með því að gera höfuðborg R. Og þetta er nákvæmlega sama og vélinni. Svo ég get bara gert id virka x, x, x. Og then-- og þá að verður allt í lagi sig. Svo er mikill rstudio vegna þess að það hefur á vélinni. Það hefur einnig skjöl þú vilt keyra á. Og þá hefur það nokkrar breytur að þú getur séð í umhverfi. Og þá, ef þú ert að gera plots, þá þér getur bara séð það hér, öfugt við stjórna öllum þessum mismunandi gluggum við sig. Ég reyndar persónulega nota Vim, en ég finnst eins rstudio er frábært bara fyrir að fá góða hugmynd um hvernig á að nota R. Venjulega, þegar þú ert að reyna að læra nokkur ný verkefni, þú vilt ekki að höndla of margt í einu. Svo er R bara very-- rstudio er mjög góð leið til að læra R án þess að þurfa að takast á við allt þetta annað. Svo hér er ég að keyra id halló. Þetta skilar halló. Auðkenni 123. Hér er vektor af heiltölur. Svo álíka, vegna þess að þú getur taka allir einhverskonar gildi, þú getur gert aftur id x þannig skilar það 1234 og 5. Og láta mig bara að sýna þér að þetta er örugglega heiltala. Og sömuleiðis, ef þú gerir bekknum kt x, það er að fara að vera heiltala. Og þá getur þú líka bera saman tvö og það er satt. Þannig að ég ætla að athuga hvort id x jafngildir jafngildir x og tilkynningu að það gefur þér tvo TRUEs. Þannig að þetta er ekki að segja eru tveir hlutir eins, en eru Hvert færslur innan vigranna eins. Hér er bounded.compare. Þannig að þetta er örlítið flóknara í að það hefur Ef ástand og annað og þá tekur það tvo rök í einu. Svo er x af hvaða gerð. Og ég er að segja þetta Önnur rökin er. Þetta getur verið hvað sem er eins vel. En sjálfgefið, það er að fara að taka 5 ef þú tilgreinir ekki neitt. Svo hér er ég að fara að segja ef X er meiri en a. Svo ef ég tilgreina ekki, það segir ef x er stærra en 5, þá ætla ég að fara aftur TRUE. annars, ég ætla að fara aftur FALSE. Svo láta mig fara á undan og skilgreina þetta. Og nú ætla ég að hlaupa bounded.compare 3. Svo það segir er 3 minna than-- er 3 meira en 5. Nei, það er ekki svo FALSE. Og bounded.compare 3 og ég er að fara að bera saman það með a jafngildir 2. Svo nú er ég að segja já, nú er ég vilt vera eitthvað annað. Þannig að ég ætla að segja, ættir þú að vera 2. Ég get annaðhvort gera þessa tegund af merki eða ég segi a jafngildir 2. Þetta er læsilegri því að þegar þú ert horfa á þetta í raun flóknar aðgerðir sem taka margar arguments-- og þetta getur verið heilmikið oftentimes-- bara að segja a jafngildir 2 er læsilegri fyrir þú svo sem síðar á í framtíðinni þú verður að vita hvað þú ert að gera. Svo í þessu tilfelli, ég er orð er 3 meiri en 2. Já það er. Og sömuleiðis, ég get bara fjarlægja þetta og segja, er 3 meira en 2 þar sem jafngildir 2. Og það er líka satt. Já? Áhorfendur: Ertu framkvæmd línu fyrir línu? Dustin Tran: Já ég er. Svo það sem ég er að gera hér er taka þennan texta document-- og hvað er mikill um rstudio er að Ég get bara keyrt short-- lykill smákaka. Þannig að ég ætla að gera Control-inn. Og þá ætla ég að taka á lína í texta skjal og þá setja í vélinni. Svo hér er ég að segja, bounded.compare og ég er að gera Control-X. Svo ég get bara keyrt hér eins og heilbrigður. Og þá verður að taka á lína og þá setja það hér. Og þá á sama hátt, get ég keyri hér. Og þá mun það bara halda að skilgreina línurnar í vélinni svona. Og ef þú tekur einnig hrokkið axlabönd eru bara eins og í C setningafræði. x-- ef ef ástand er einnig fara að nota sviga og síðan þú getur notað annað. Annað er annað hvort. Þannig að þetta er að fara að vera x er jafnt jafngildir a, til dæmis. Og þá er ég að fara að aftur eitthvað hérna. Takið eftir að það eru tveir mismunandi hlutir hér sem er að gerast. Eitt er að hér er ég að tilgreina skila gildi TRUE. Hér er ég bara að segja x. Svo R verður yfirleitt sjálfgefið taka síðustu arguments-- eða taka síðustu línu af kóða, og það mun vera það sem það er aftur. Svo hér er þetta sama hlutur sem gera aftur x. Og bara til að sýna þér. Og þá mun það vinna bara svona. Svo láta mig halda áfram með þetta. Svo annað ef. Og í raun, ég get aftur eitthvað sem ég vil. Svo ég er ekki einu sinni að baka Booleans allan tímann, Ég get bara aftur eitthvað annað. Svo ég get gert aftur björn. Þannig að ef x er jafnt jafngildir a, það er að fara að fara aftur í, bera. Annars, það er að fara að fara aftur TRUE. Ég get líka gert vigur eða í raun hvað sem er. Og eins og venjulega í statically slegið tungumál, þú vilt að tilgreina tegund hér. Athugið að það getur bara verið neitt. Og R er greindur nógu að það verður bara að gera þetta og það mun virka vel. Svo láta mig skilgreina þetta. Unexpected-- ó miður. Það ætti að vera hrokkið Brace hér. OK. Cool. Allt í lagi. Svo nú skulum bera 3 og er 3. Svo það ætti að return-- yeah-- á gildi björn. Svo nú er meira almennt hlutur eins hvað um önnur gögn mannvirki. Svo þú hefur þessa aðgerð. Þetta er að fara að vinna á einhverju tagi af value eins 3 eða hvaða tölustafir, í öðrum orðum, tvöfaldur. En hvað um eitthvað eins og vektor. Svo gerist það ef þú do-- svo ég er fara að úthluta Val að segja, 4 til 6. Þannig að ef ég sný aftur þetta, þetta er vektor frá 4, 5, 6. Nú skulum sjá hvað gerist ef ég bounded.compare Val. Þannig að þetta er að fara að gefa þér 15 1251. Svo í öðrum orðum, það er að segja ef þú horfir á þetta ástand svo það segir x er minna en eða eitthvað. Svo er þetta örlítið ruglingslegt vegna þess að nú þú bara veist ekki hvað er að gerast. Svo ég giska eitt sem er virkilega gott um bara að reyna að kemba er að þú getur bara gert Val er meiri en a og sjá hvað gerist þar. Svo val-- a er sjálfgefið 5. svo skulum bara Val meiri en 5. Þannig að þetta er vektor FALSE FALSE TRUE. Svo nú þegar þú ert að horfa á þetta, það er að fara að segja ef, og þá er það að fara að gefa þér þetta er vektor af False False True. Svo þegar þú framhjá þessu í R, R hefur ekki hugmynd um hvað þú ert að gera. Vegna þess að það gerir ráð fyrir eitt stakt gildi, sem er Boole, og nú þú ert að gefa það a vektor af Booleans. Svo sjálfgefið, R er bara að fara að segja hvað Heck, Ég ætla að gera ráð fyrir að þú ert að fara að taka fyrsta frumefni hér. Þannig að ég ætla að say-- ég ætla að gera ráð fyrir að þetta er FALSE. Svo það er að fara að segja nei, þetta er ekki rétt. Á sama hátt, það er að fara að vera Val jafngildir jafngildir a. Nei, því miður 5. Og það er líka að fara að vera falskur eins og heilbrigður. Svo það er að fara að segja nei, það er ekki satt eins og heilbrigður svo það er fara að skila þessum síðasta einn. Svo er annað hvort gott eða slæmt hlutur, eftir því hvernig á það er litið. Vegna þess að þegar þú ert að búa til þessar aðgerðir, þú í raun ekki vita hvað er að gerast. Svo stundum þú vilt vilt villu, eða kannski þú vilt bara viðvörun. Í þessu tilfelli, R er ekki að gera það. Svo það er í raun allt að þú byggt burt af því þú heldur að tungumál ætti að gera í þessu tilfelli ef það líður í vigur Booleans þegar þú ert að gera er ef ástand. Svo skulum segja að þú hefðir upprunalega einn með ef annar aftur SATT og þú ert fara til baka FALSE. Svo ein leið öflun þetta er að segja að ég þarft ekki einu sinni þetta skilyrt hlutur. Annað sem ég get gert er bara aftur gildi sjálfir. Svo ef þú finnur, ef þú do Val er meiri en 5, þetta er að fara að skila a vektor FALSE FALSE TRUE. Kannski er þetta það sem þú vilja fyrir bounded.compare. Þú vilt að skila vektor af Booleans þar sem það ber saman hvert af þeim gildum til sín. Svo þú getur bara bounded.compare function x, a jafngildir 5. Og þá í stað þess að gera þetta ef annað ástand, Ég ætla bara að fara að fara aftur x er hærra en 5. Þannig að ef það er satt, þá það er að fara að fara aftur TRUE. Og þá ef það er ekki, það er fara til baka FALSE. Og þetta mun virka fyrir eitthvað af þessum stofnunum. Svo ég get bounded.compare c 1 6 eða 9 og þá ætla ég að segja jafngildir 6, til dæmis. Og þá er það að fara að gefa þér rétt Boolean vektorar sem þú ert að hanna. Svo þeir eru bara virka og nú láta mig bara sýna þér gagnvirka myndefni. Ég held ekki að ég hef í raun Wi-Fi hér svo látið mig fara bara á undan og sleppa þessu sem ég giska á. En eitt sem er kaldur þó að ef þú bara langar að prófa fullt af mismunandi gögn skipanir, það er fullt af mismunandi gagnasafna sem eru nú þegar preloaded inn R. Svo er einn af þeim kallað gagnasafni Iris. Þetta er einn af the heilbrigður-þekktur sjálfur í vél námi. Þú munt yfirleitt bara gera einhverskonar próf tilvikum að sjá hvort númerið þitt rennur. Svo skulum við athuga bara hvað Iris er. Svo þetta er að fara að vera gögn ramma. Og það er góður af lengi vegna Ég prenta bara út Iris. Það er að prenta út allt hlutur. Svo það hefur alla þessa mismunandi nöfn. Svo er Iris safn af mismunandi blóm. Í þessu tilfelli, það er að segja þú tegundir af henni, allar þessar mismunandi breiddum og Lengdir sepal og petal. Og svo venjulega, ef þú vilt prenta Iris, til dæmis, þú vilt ekki að hafa það gera allt þetta vegna þess að það getur tekið yfir allt stjórnborðið. Svo eitt sem er mjög gott er höfuð virka. Svo ef þú gerir bara höfðinu Iris, þetta mun gefa þér fyrstu fimm línur, eða sex ég giska á. Og þá vel, þér getur bara tilgreina hér. Svo 20-- þetta mun gefa þú fyrstu 20 raðir. Og ég var reyndar góður af hissa að þetta gaf mér sex svo látið mig fara á undan og athuga iris-- eða höfuð, því miður. Og hér er það mun gefa þú skjölin af hvaða gildi höfuð gerir. Svo það skilar fyrst eða síðast á hlut. Og þá er ég að fara að líta á vanskil. Og þá segir það sjálfgefið aðferð höfuð X og n er jafnt og 6l. Þannig að þetta skilar fyrstu sex þætti. Og álíka ef vart hér, ég þurfti ekki að tilgreina n jafngildir 6. Sjálfgefið notar sex, held ég. Og þá, ef ég vil tilgreina ákveðin gildi, þá get ég skoðað það eins og heilbrigður. Svo það er nokkur einföld skipanir og hér er annað sem er just-- vel, Ég can-- þetta er í raun flóknari, en þetta verður bara að taka í bekknum af hverjum dálki gagnasafni lithimnu. Þannig að þetta mun sýna þér hvað hvert þessara dálkar eru hvað varðar gerðir þeirra. Svo er sepal lengd tölustafir, sepal breidd er tölustafir. Öll þessi gildi eru bara tölustafir vegna þess að þú getur sagt frá þessum gögnum uppbygging þetta eru allir að fara að tölugildi. Og Tegund dálk er að fara að vera þáttur. Svo venjulega, myndir þú hugsa um að þetta er eins og eðli band. En ef þú gerir bara irisSpecies, og þá er ég að fara að gera höfuð 5, og þetta er að fara að prenta út fyrstu fimm gildum. Og þá taka þetta stigum. Þannig að þetta er saying-- þetta er leið R er af því að hafa flokkunartölur breytur. Þannig að í stað þess að bara hafa táknstrengja, það hefur stigum tilgreindar sem þessir hlutir eru. Svo skulum segja irisSpecies 1. Svo það sem þú vilt gera hér er ég subsetting við þessa Tegundir dálki. Svo tekur þetta Tegundir dálki og þá það Vísitölur á að fá fyrsta frumefni. Þannig að þetta ætti að gefa þér setosa. Og það gefur þér einnig stigum hér. Svo þú getur einnig bera saman þetta eðli setosa og þetta er ekki að fara til að vera satt vegna þess að eitt er af annarri tegund en hin. Eða ég giska á það er satt því R sé greindur en það. Og það lítur á þetta og þá segir, kannski er þetta það sem þú vilt. Svo það er að fara að segja staf string setosa er það sama og þessa. Og þá á sama hátt, þú getur líka bara grípa þetta eins og svo framvegis. Svo er það bara einhverskonar fljótur skipanir í gagnasafni. Svo er hér nokkur gögn könnun. Þannig að þetta er svolítið meira í tengslum við greiningu gagna. Og þetta er tekið úr sumum bootcamp í R um í Berkeley. Svo bókasafn erlend. Þannig að ég ætla að hlaða í bókasafn sem heitir erlendum. Þannig að þetta er að fara að gefa mér read.dta svo ráð fyrir að ég hef þetta dataset. Þetta er geymt í núverandi vinna möppu mínum vélinni. Svo skulum sjá bara hvað vinnumöppu er. Svo er hér vinnumöppu mín. Og lesa punktur gögn, þetta hlutur, er að segja þessa skrá er staðsett í gögnum möppunni þetta núverandi vinna möppu. Og read.dta þetta er ekki sjálfgefið stjórn. Ég held ég hlaðinn það þegar verið gert. IEI tók ég hlaðinn þetta í nú þegar. En svo read.dta er ekki að fara að vera sjálfgefið stjórn. Og það er hvers vegna þú ert að fara að hafa að hlaða í þessu bókasafni package-- þessi pakki sem kallast erlendum. Og ef þú ert ekki pakki, held ég erlendum er einn af the innbyggður-í sjálfur. Annars getur þú líka gera install.packages og þetta mun setja pakka. Og þetta mun gefa þér R. Uh, nei. Og þá er ég bara að fara að hætta þetta vegna þess að ég hef nú þegar það. En hvað er í raun gott um R er að pakka stjórnun Kerfið er mjög glæsilegur. Vegna þess að það mun geyma allt virkilega fallega fyrir þig. Svo í þessu tilfelli, það er að fara að geyma það inn, ég tel þetta bókasafn hérna. Svo hvenær þú vilt setja upp ný pakka, það er bara eins einfalt og gera install.packages og R mun stjórna öllu pakkarnir fyrir þig. Svo þú þarft ekki að gera eitthvað í Python, þar sem þú hefur ytri pakka stjórnendur eins pappír Anaconda þar sem þú ert doing-- þú setja í embætti the pakka utan Python og þá reyna að keyra þá sjálfur. Þannig að þetta er mjög ágætur vegur. Og install.packages krefst internetið. Það tekur það frá miðlara og geymsla sem safnar öllum pakka er kallað Cran. Og þú getur tilgreint hvaða tegund af spegil þú vilt sækja pakka frá. Svo hér er ég að taka þetta dataset. Ég er að lesa hana í því að nota þessa aðgerð. Svo láta mig fara á undan og gera það. Svo skulum gera ráð fyrir að þú hefur þetta dataset og þú ert algerlega ekki hugmynd hvað það er. Og þetta í raun kemur upp nokkuð oft í greininni þar sem þú ert bara þetta tonn og tonn af sóðalegur hlutur og þeir eru ótrúlega ómerkt. Svo hér er ég hef þetta Gagnasett og ég veit ekki hvað það er svo ég er bara sýna að stöðva það út. Þannig að ég ætla að gera höfuðið fyrst. Svo ég athuga fyrstu sex dálkum hvað þetta gagnasafni er. Svo er þetta ástand, pres04, og þá öllum þessum mismunandi tegund af dálkum. Og hvað er áhugavert hérna, ég held, er að þér myndi gera ráð fyrir að þetta lítur eins og einhvers konar kosningum. Og ég held bara frá horfa á skrá nefna þetta er einhvers konar safn gagna um frambjóðendur eða kjósendur sem kusu sérstökum forseta eða forseti frambjóðendur fyrir 2004 kosningum. Svo hér er gildi 1, 2 svo einn leið til að geyma forseti frambjóðendur eru nöfn þeirra. Í þessu tilfelli, það lítur út eins og þeir eru bara heiltölugildi. Svo 2004, var það Bush móti Kerry ég trúi. Og nú, við skulum segja að þú bara veist ekki hvort 1 samsvarar Bush eða 2 samsvarar Kerry eða og svo framvegis og svo framvegis, ekki satt? Og þetta er, bara að mér, nokkuð algengt vandamál. Svo hvað er hægt að gera í þessu tilfelli? Svo skulum við athuga alla þessa aðra hluti. ástand, ég er hrokafullur þetta kemur frá mismunandi ríkjum. partyid, tekjur. Við skulum líta á partyid. Svo kannski er einn hlutur sem þú getur gert líta á hvert af mælinga sem hafa partyid af Republican eða Democrat eða eitthvað. Svo skulum líta bara á það sem partyid er. Þannig að ég ætla að taka DAT og þá er ég að fara til að gera þetta dollaramerki rekstraraðili sem ég gerði áður og þetta er að fara að hlutmengi í þeim dálki. Og þá er ég að fara að fara þetta í 20, bara til að sjá hvað þetta lítur út. Svo er þetta bara fullt af NAS. Svo í öðrum orðum, þú þarft vantar upplýsingar um þessar krakkar. En þú tekur þetta líka DAT partyid er þáttur svo gefur þetta þér mismunandi flokka. Svo í öðrum orðum, partyid getur tekið Demókrati, Republican, Independent, eða eitthvað annað. Svo skulum fara á undan og við skulum sjá hver af þessum is-- ó, OK. Þannig að ég ætla að hlutmengi að partyid og þá líta á hver sjálfur ert Demókrati, til dæmis. Þetta er að fara að gefa þér Boolean, a gríðarstór Boolean af TRUEs og FALSEs. Og nú, við skulum segja að ég vil að hlutmengi í þessum krakkar. Þannig að þetta er að fara að taka dat minn og hlutmengi til hvort athuganir hafa partyid jafn jafngildir Democrat. Og þetta er alveg langur vegna þess að það er svo margir af þeim. Svo nú er ég að fara að fara þetta í 20. Og eins og þú tekur eftir, jafngildir jafn er áhugavert að þú ert already-- þú ert einnig meðal Nas. Svo í þessu tilfelli, þú getur enn ekki fengið allar upplýsingar því nú þú ert Nas og þú vilt bara til að sjá hver er athugun í samræmi við demókrati og ekki þessir vantar gildi sig. Svo hvernig væri að þú fá losa af þessir NAS? Svo hér er ég bara að því að nota upp takkann á minn bendilinn og þá segja að fara um. Og svo hér er ég bara að fara að segja is.na datpartyid. Þannig að þetta og mun taka tvö mismunandi Boolean vektorar og segja að það er að fara að vera Satt og ósatt til dæmis. Svo það er að fara að gera þessa hluti-vitur. Svo hér er ég að segja að taka gögnin ramma, hlutmengi við þær sem samsvara demókrati, og fjarlægja eitthvað af þeim sem eru ekki NA. Þannig að þetta will-- ætti gefa þér eitthvað. Við skulum sjá is.na. Við skulum reyna is.na datpartyid. Og þetta ætti að gefa you-- sorry-- bara Boolean vektor. Og þá, því það er svo lengi, Ég ætla að hlutmengi í 20. OK. Þannig að þetta ætti að virka. Og þetta mun einnig vera TRUEs. Ah, svo er villa mín hér að I'm-- I nota C ++ og R jöfnum höndum þannig að ég gera þessi mistök allra tíma. The og rekstraraðili er reyndar það sem þú vilt. Þú vilt ekki að nota tvo -merkið, bara einn einn. OK. Svo skulum sjá. Þannig að við subsetted til partyid þar sem þeir eru demókrati og þeir eru ekki vantar gildi. Og nú skulum líta á hver sjálfur þeir kusu. Svo virðist eins og flest þeirra kusu 1. Þannig að ég ætla að fara á undan og segja að það er Kerry. Og sömuleiðis, þú getur líka farið til Republican og vonandi ætti þetta að gefa þér 2. Það er bara fullt af mismunandi dálkum. Og reyndar, það er 2. Svo partyid allt repúblikana, flestir eru að greiða atkvæði um 2. Svo það virðist eins, bara með því að horfa á þetta, Republican er að fara að vera a very-- eða partyid er að fara til vera a mjög stór þáttur í að ákvarða sem frambjóðandi þeir eru að fara að kjósa. Og þetta er augljóslega satt almennt. Og þetta passar þinni innsæi, auðvitað. Svo það virðist eins og ég er keyra út af tíma svo láta mig bara að fara á undan og sýna sumir fljótur myndir. Svo er hér eitthvað sem er örlítið flóknari með visualization. Þannig að í þessu tilfelli, þetta er mjög einföld greining á bara að skoða hvað forseti '04 er. Þannig að í þessu tilfelli, við skulum segja þér langaði að svara þessari spurningu. Svo býst við vildum vita atkvæðagreiðslu hegðun í 2.004 forseti kosningar og hvernig sem er mismunandi eftir kynþætti. Svo ekki bara þú vilt sjá atkvæðagreiðslu hegðun, en þú vilt hlutmengi af hverju kapp og svoleiðis saman að. Og þú getur bara sagt með þessari flóknu tákn að þetta er eins konar fá hazy. Svo einn af the fleiri háþróaður R pakka sem er líka eins konar nýleg er kallað dplyr. Svo er það þetta hérna. Og ggg-- ggplot2 er bara gott leið til að gera betri sjónræn en the innbyggður-í einu. Þannig að ég ætla að hlaða þessir tveir bókasöfn. Og þá er ég að fara að fara undan og keyra þessa skipun. Þú getur bara meðhöndla þetta sem svartur kassi. Hvað er að gerast er að þetta pípa rekstraraðili er farið í þessa röksemdafærslu inn hér. Þannig að ég ætla að segja hóp með DAT kapp og þá forseti 04. Og þá, allar þessar aðrar skipanir eru sía og þá draga saman þar sem ég er að gera telja og þá er ég samsærismaður það hér. OK flott. Svo skulum fara á undan og sjá hvað þetta lítur út. Svo hvað er að gerast hér er að ég bara teiknuð hver af kynþáttum og þá hver sjálfur þeir kusu. Og þessir tveir mismunandi gildi samsvara 2 og 1. Ef þú vilt vera meira glæsilegur, getur þú einnig bara tilgreina að 2 er Kerry-- eða 2 er Bush, og þá er Kerry 1. Og þú getur líka haft að í goðsögninni þínum. Og þú getur líka skipt þessum bar myndrit. Vegna þess að einn hlutur er að ef þú tekur eftir, þetta er ekki mjög auðvelt að bera kennsl hver af þessum tveimur gildum eru stærri. Svo eitt sem þú vilt vilt gera er að taka þetta bláa svæði og bara færa það yfir hér svo þú getur bera þær saman hlið við hlið. Og ég held að er eitthvað sem ég hef ekki tíma til að gera núna, en það er líka mjög auðvelt að gera. Þú getur bara líta inn Maðurinn síðum ggplot. Svo þú getur bara ggplot eins sem og lesa inn í þetta maður síðu. Svo láta mig bara fljótt sýna þér sumir kaldur hlutur. Við skulum fara á undan og fara to-- bara beitingu vél nám. Svo skulum segja að við höfum þessar þrjár pakka þannig að ég ætla að hlaða þeim á. Þannig að þetta bara prentar út sumir Upplýsingar eftir að ég hlaðinn í málið. Svo ég er að segja þetta read.csv, þessu gagnasafni og nú Ég ætla að fara á undan og horfa og sjá hvað er inni þessu gagnasafni. Svo fyrstu 20 athuganir. Þannig að ég hef bara X1, X2, og Y. Þannig að það virðist eins og a búnt af þessum gildum eru allt frá kannski 20 til 80 eða svo. Og þá á sama hátt fyrir X2 og þá þetta Y virðist vera merki 0 og 1. Til að staðfesta þetta, ég get bara gera samantekt gögn X1. Og þá á sama hátt fyrir allar þessar aðrar dálkum. Svo er yfirlit fljótleg leið bara að sýna þér fljótur gildi. Oh, því miður. Þetta ætti að vera Y. Þannig að í þessu tilfelli, gefur það quantiles, miðgildi, maxes eins og heilbrigður. Í þessu tilfelli, dataY, getur þú séð að það er bara að fara að vera 0 og 1. Einnig meðal er að segja 0.6, þýðir bara að það virðist eins og ég hef fleiri 1s en 0s. Svo láta mig fara á undan og sýna þú hvað þetta lítur út. Þannig að ég ætla bara að fara að samsæri þetta. Við skulum sjá hvernig á að hreinsa þetta. Oh OK. OK. Svo er þetta það sem það lítur út. Svo virðist eins og yellows I sem tilgreind sem 0, og þá rautt ég greinist 1s. Svo hér það lítur út eins og merki stig og það virðist eins og þú vildir bara sumir konar Þyrping á þetta. Og láta mig fara bara á undan og sýna þú sumir af þessum innbyggður-í aðgerðir. Svo hér er lm. Þannig að þetta er bara að reyna að passa línu á þessu. Svo er það besta leiðin að ég get passa línu svo að það best að aðskilja þessi tegund af Þyrping. Og helst, þú getur bara séð að ég að keyra bara allar þessar skipanir og þá ætla ég að fara á undan og bæta línuna. Svo virðist þetta eins og best giska. Það tekur besta sem lágmarkar villa í að reyna að passa þessa línu. Vitanlega, þetta lítur svona gott, en það er ekki sú besta. Og línuleg líkön, í Almennt eru að fara að vera mjög mikill fyrir kenningar og bara raða að byggja grundvallaratriði vél læra. En í raun, þú ert að fara að langar að gera eitthvað meira almenna. Svo þú getur bara að reyna að keyra eitthvað sem kallast Tauganet. Þessir hlutir eru æ algengari. Og þeir vinna bara frábærlega fyrir stór gagnasafna. Þannig að í þessu tilfelli, have-- við aðeins skulum see-- við höfum nrow. Svo nrow er bara að segja fjölda lína. Svo í þessu tilfelli, ég hafa 100 athugasemdir. Svo láta mig fara á undan og gera Tauganet. Svo er þetta mjög gott því ég get bara sagt nnet og þá er ég regressing Y. Svo er Y sem dálki. Og þá regressing það á hinir tveir breytur. Svo er þetta styttri merki fyrir X1 og X2. Svo skulum fara á undan og keyra þetta. Oh, því miður. Ég þarf að keyra þetta allt hlutur. Og þetta er bara prentun tákn hversu fljótt eða ekki fljótt það stefna. Svo það lítur út eins og það gerði saman. Svo láta mig fara á undan og prenta hvað þetta lítur út. Sjá hér er mynd og hér er a dýpislínu sýnir hversu vel það passar. Og þetta er just-- þú getur séð þetta að þetta er mjög, mjög gott. Það gæti jafnvel verið overfitting, en þú getur líka reikningur fyrir þetta með öðrum tækni eins kross-löggilding. Og þetta eru einnig byggt inn R. Og láta mig bara að sýna þér styðja vektor vél. Þetta er annar mjög algeng tækni í vél nám. Það er mjög svipað línulegum líkönum, en það notar það sem er kallað kjarna aðferð. Og við skulum sjá hversu vel það virkar. Svo er þetta mjög svipað og hvernig vel a tauga net framkvæmir, en það er miklu meira mýkri. Og þetta er byggt á af what-- hvernig SVMs vinna. Svo er þetta bara mjög fljótur yfirlit yfir sumir af the innbyggður-í aðgerðir sem þú getur gert og einnig sumir af the gögn könnun. Svo láta mig fara bara á undan og fara aftur til skyggnur. Svo augljóslega, þetta er ekki mjög alhliða. Og þetta er í raun bara stríðnispúki sýna þér hvað þú getur raunverulega gert í R. Svo ef þú vilt bara eins að læra meira, hér eru fullt af mismunandi úrræði. Svo ef þú ert hrifinn af kennslubækur eða þú ert bara hrifinn af að lesa það á netinu, þá er þetta frábær einn af Hadley Wickham, sem einnig vann allt þetta virkilega flott pakka. Ef þú ert hrifinn af myndböndum, þá Berkeley hefur ógnvekjandi bootcamp það er several-- það er góður af lengi. Og það mun kenna þér nánast allt sem þú vilt vita um R. Og álíka, það er Codeacademy og öll þessi önnur tegund af gagnvirka vefsíður. Þeir eru líka að fá common-- fleiri og fleiri algeng. Svo er þetta mjög svipuð Codeacademy. Og að lokum, ef þú bara vilja bandalagsins og hjálpa, þetta eru fullt af hlutir sem þú getur farið til. Vitanlega, við enn nota póstlista, bara eins og næstum hvert annað forritunarmál samfélag. Og #rstats, þetta er samfélag okkar Twitter. Það er í raun mjög algengt. Og þá er user! Er bara ráðstefnu okkar. Og þá að sjálfsögðu, þú getur nota alla þessa aðra Q & A hluti, eins Stack Yfirfall, Google, og þá GitHub. Vegna þess að flest af þessum pakka og a einhver fjöldi af samfélaginu verður í kringum þróun númer því það er opinn uppspretta. Og það er bara mjög gott á GitHub. Og að lokum, getur þú haft samband við mig ef þú hefur bara einhverjar fljótur spurningum. Svo er hægt að finna mig á Twitter hér, website minn, og bara netfangið mitt. Svo vonandi, það var something-- bara stutt beitu hvat R er í raun fær um að gera. Og vonandi, þú bara skrá sig út þessir þrír tenglar og sjá hvað þú getur gert meira. Og ég held að það bara um það. Takk. [Applause]