[Muzikos grojimo] Dustin TRAN: Sveiki. Mano vardas Dustin. Taigi aš pristatys Duomenų analizė R. Tiesiog šiek tiek apie save. Aš šiuo metu studijuoja mechanikų ir Taikomieji mokslai. Aš studijuoti sankirtos mašina mokymo ir statistika taip duomenų analizė R yra tikrai esminis ką Darau kasdien. Ir R yra ypač geras duomenų analizė nes tai labai gera prototipų. Ir paprastai, kai jūs darote kai rūšiuoti duomenų analizę, kad problemų daug ketinate pažinimo. Ir todėl jūs tiesiog norite turėti kai tikrai gera kalba, yra tik gera daro built-in funkcijos, o ne , turintys spręsti žemo lygio dalykus. Taigi iš pradžių, aš tik ketina pristatyti, kas yra R, kodėl norite jį naudoti, ir tada eiti per į kai demo ir tiesiog eiti iš ten. Taigi, kas yra R? R yra tik kalbos sukūrė statistinei skaičiavimo ir vizualizacija. Taigi, ką tai reiškia, kad tai labai puikus kalba bet kokio dalykas rūšiuoti, kad kalbama neapibrėžtumas ar duomenų vizualizacija. Taigi jūs turite visus šiuos skirstinys. Yra bus įmontuotą funkcijų. Jūs taip pat turite puikus braižymo paketus. Python yra kita konkuruoja kalbos duomenų. Ir vienas dalykas, kad man atrodo, kad R yra daug geriau yra vizualizacija. Taigi, ką jūs pamatysite demo kaip gerai yra tik labai intuityvus kalba kad tik veikia labai gerai. Taip pat yra laisvas ir atviro kodo, kaip yra kitas geras kalba I guess. Ir čia, tiesiog krūva Raktiniai žodžiai išmesti į tave. Tai dinamiška, o tai reiškia, jei turite specifinis tipas, priskirtas prie objekto nei jis bus tiesiog pakeisti jį skristi. Tai tingus, kad tai protingas apie kaip tai daro skaičiavimus. Funkcinis reiškia, kad ji tikrai gali veikti pagrįsta ne funkcijų taip anything-- bet manipuliacijos rūšiuoti esate darydama ji bus pagrįsta ne funkcijas. Taigi, dvejetainiai operatoriai, pavyzdžiui, yra tik iš prigimties funkcijos. Ir viskas, jūs ketinate padaryti, tai bus nubėgti pati funkcijas. Ir tada Objektinis taip pat. Taigi čia yra XKCD sklypas. Ne tik todėl, kad aš jaučiuosi kaip XKCD yra esminis bet kokios rūšies pateikimo, bet todėl, Jaučiu, tai tikrai plaktukai mintį, kad iš daug laikas, kai jūs darote kai duomenų rūšiuoti analizė, problema yra ne tiek daug, kaip greitai ji veikia, bet kaip ilgai jis ketina jus programuoti užduotį. Taigi čia yra tik analizuojant, ar strategija arba b yra efektyvesnis. Tai bus kažkas, kad jūs esate susitvarkys daug su į Rūšiuoti žemo lygio kalbos kur jūs susiduriame su SEG gedimus, atminties paskirstymas, Initializations, net padaryti įmontuotą funkcijų. Ir ši medžiaga yra viskas tvarkoma labai, labai elegantiškai R. Taigi tik plaktukas tai taškas, didžiausia kliūtimi bus pažinimo. Taigi, duomenų analizė yra labai sunku problema. Nesvarbu, ar jūs darote mašina mokymosi ar esate daro tik kažkokia Pagrindiniai duomenys žvalgyba, jūs nenorite turėti imtis dokumentą ir tada kaupia kažkas kaskart norite pamatyti, ką stulpelis atrodo, kas ypač įrašai į matricą atrodo. Taigi jūs tiesiog norite turėti kai tikrai gražus sąsaja galite paleisti paprastą funkciją kad indeksus kokia norite ir tiesiog paleisti jį iš ten. Ir jūs turite domeną specialūs kalbos už tai. Ir R tikrai padės jums apibrėžti problema ir ją išspręsti tokiu būdu. Taigi čia yra sklypas, kuriame programavimas populiarumas R, kaip jis dingo per tam tikrą laiką. Taigi, kaip jūs galite pamatyti, kaip 2013 arba todėl tiesiog susprogdintas labai. Ir tai buvo tik dėl to, kad didžiulis tendencija technologijų pramonės apie dideli duomenų. Be to, ne tik technologijos pramonės, bet tikrai bet pramonė that-- nes iš pramonės aikštelė yra tarsi pagrindas bando spręsti šias problemas. Ir paprastai, jūs galite turėti kai geras matavimo būdas šių problemų ar net apibrėžti juos arba sprendžiant juos naudojant duomenis. Taigi, manau, dabar R 11 Populiariausias kalba apie TIOBE ir jis augo nuo tada. Taigi čia šiek tiek daugiau bruožai R. Jis turi milžiniškas pakuočių skaičius ir dėl visų šių skirtingų dalykų. Taigi bet kuriuo metu jūs turite tikra problema, dauguma laikas R turės kad funkcija jums. Taigi, ar norite sukurti tam tikrą mašiną rūšiuoti mokymosi algoritmas vadinamas Atsitiktinės miško arba Decision Trees, ar net bando imtis vidurkio funkcija ar šios medžiagos, R turės tai. Ir jei jūs rūpi optimizavimas, vienas dalykas, kad bendra yra tai, kad po to, kai baigsite prototipų kai aukšto lygio kalba rūšiuoti, jums mesti, kad in-- jums tiesiog uosto, kad per tam tikru žemo lygio kalba. Kas gero apie R yra tai, kad, kai jūs padaryti ją prototipų, galite paleisti C ++ arba Fortran, arba bet kuris iš šių žemesnio lygio tie tiesiai į R. Taigi, kad iš tikrųjų cool funkcija apie R, jei tikrai rūpi optimizavimas taškas. Ir jis taip pat tikrai gera žiniatinklio vizualizacijos. Taigi, D3.js, pavyzdžiui, yra Manau, kitą seminarą kad šiandien pristatėme. Ir tai tikrai awesome daro interaktyvių vizualizacijas. Ir D3.js daroma prielaida, kad jūs turite kai duomenų rūšiuoti būti brėžiamas ir R yra puikus būdas galėtų padaryti duomenų analizė prieš eksportuoti perkelti į D3.js ar net tiesiog paleisti D3.js komandas į mokslinius tyrimus pati, taip pat visa tai kiti bibliotekos, taip pat. Taigi, kad buvo tiesiog įvedimas kas R ir kodėl jums gali jį naudoti. Taigi tikiuosi, aš įsitikinęs, jums kažką apie tiesiog bando pamatyti, ką ji reiškia. Taigi, aš ruošiuosi eiti į priekį ir eiti per kai apie R objektų pagrindai ir tai, ką tikrai gali padaryti. Taigi čia yra tik krūva matematikos komandas. Taigi sako you're-- norite sukurti kalba sau, ir jūs tiesiog norite turėti įvairių įrankių krūva. Bet operacijos rūšiuoti manote jūs norima gana daug bus R. Taigi čia yra 2 plius 2. Čia yra 2 kartus Pi. R turi built-in konstantų krūva kad jūs dažnai naudoja kaip pi, e. Ir tada, čia 7 plius runif, todėl runif 1. Tai funkcija, kuri yra susidaro vienas atsitiktinis vienoda nuo 0 iki 1. Ir tada ten 3 iki 4 galia. Yra kvadratinių šaknų. Yra žurnalas. Taigi prisijunkite darys bazę eksponentinis savaime. Ir tada, jei nurodysite bazę, tada galite daryti ką norite bazė. Ir tada čia yra keletas kitų komandų. Taigi jūs turite 23 mod 2. Tada jūs turite likusią dalį. Tada jūs turite mokslinė žymėjimas, jei jums taip pat nori padaryti tiesiog daugiau ir daugiau sudėtingų dalykų. Taigi čia yra priskyrimas. Taigi tipiškas užduotys R yra daroma su rodykle todėl mažiau nei tada brūkšnelį. Taigi čia aš tiesiog priskirdami 3 kintamojo val. Ir tada aš spausdinti val ir tada jis spausdina trys. Pagal nutylėjimą R vertėjo, ją spausdinti dalykų už jus todėl jūs neturite nurodyti spausdinti val bet kuriuo metu norite spausdinti kažką. Jūs galite tiesiog padaryti val ir tada jis bus padaryti tai už jus. Be to, galite naudoti lygu techniškai kaip priskyrimo operatorius. Yra šiek tiek subtilybes tarp naudojant rodyklę operatorius ir lygiosios operatorius užduotis. Daugiausia pagal susitarimą visiems tiesiog naudokite rodyklių operatorių. Ir čia aš priskiriant tai įstrižai žymėjimas vadinamas 1 dvitaškis 6. Šis generuoja vektorių 1-6. Ir tai tikrai gražus, nes tada jūs tiesiog priskirti Val vektorių ir kad veikia savaime. Taigi tai jau vyksta nuo single-- labai intuityvi duomenis struktūra vos dvigubai kai kurie iš tipo tipo į vektorių ir kuri rinks visus Skaliarinė vertės jumis. Taigi, po vyksta nuo skaliaro, jūs turėti R objektus, ir tai yra vektorius. Vektorius yra bet kurį iš rūšiuoti kolekcija yra tokio paties tipo. Taigi čia yra vektorių krūva. Taigi tai yra skaitmeninis. Skaitinė yra R "būdas pasakyti dvigubai. Ir taip pagal nutylėjimą, bet skaičius bus dvigubai. Taigi, jei turite c 1,1, 3, neigiamas 5.7, c yra funkcijos. Tai concatenates visi trys numeriai į vektorių. Ir tai bus be-- todėl, jei Pastebėjus 3 savaime, paprastai jums būtų manyti, , kad tai yra, kaip sveikasis skaičius, bet todėl, kad visų vektorių yra tokio paties tipo, tai dviviečiai vektorius arba skaitmeninis šiuo atveju. rnorm yra funkcija, kuri generuoja standartinio normaliojo variables-- arba standartinių normaliųjų verčių. Ir aš nurodant du iš jų. Taigi darau rnorm 2, paskiriant, kad į Devs, tada aš spausdinti DEVS. Taigi tai yra tik du Atsitiktinės normaliosios vertės. Ir tada int, jei jūs jums rūpi sveikieji skaičiai. Taigi tai yra tik apie atminties paskirstymo ir taupymo atminties dydis. Taigi jums reikės pridėti savo numerius pagal kapitalo L. Apskritai, tai yra R istorinis žymėjimas kažko vadinamas ilgas sveikasis skaičius. Taigi didžiąją dalį laiko, jums būti susijusios su dvejetų. Ir jei jūs kada nors bus vėliau nuo optimizuoti savo kodą, galite tiesiog pridėti šie L'ai vėliau arba per jį jei jūs kaip ir precognitive apie tai, ką jūs ketinate daryti šiuos kintamuosius. Taigi čia yra simbolis vektorius. Taigi, dar kartą, aš concatenating trys stygos šiuo metu. Atkreipkite dėmesį, kad dviguba eilutes ir vieniši stygos R. pats Taigi turiu arthur ir Marvin ir taip kai aš spausdinti jį, visi iš jų ketiname parodyti dviviečiai eilutes. Ir jei taip pat norite įtraukti dvigubai ar vieno styginių Jūsų personažai, tada jūs galite arba pakaitomis savo eilutes. Taigi Marvin už antrasis elementas, tai yra ketina show-- jus tiesiog dvigubas stygas ir tada vieną eilutę todėl tai yra kintamos. Priešingu atveju, jei norite naudoti dvigubai styginių operatorius dviguba eilutę kai jūs skelbiantis, tada jūs tiesiog naudoti pabėgti operatorių. Taigi jūs padaryti backslash dvigubo eilutę. Ir, galiausiai, mes taip pat turi loginius vektorius. Taigi logical-- taip teisinga ir FALSE, ir jie bus didžiosiomis raidėmis. Ir tada vėl, aš concatenating juos ir tada priskirti juos bools. Taigi bools ketina parodyti Jūs true, false, ir tiesa. Taigi čia yra vektorizuoti indeksavimo. Taigi, iš pradžių, I esu atsižvelgiant function-- tai yra vadinama sequence-- seka 2-12. Ir aš atsižvelgiant seką 2. Taigi jis ketina daryti 2, 4, 6, 8, 10 ir 12. Ir tada, aš indeksavimo gauti trečią elementą. Taigi vienas dalykas, reikia nepamiršti, yra kad R indeksai pagal nuo 1 d. Taigi intervalais 3 ketina duoti Jūs Trečiasis elementas. Tai tarsi skiriasi nuo kitų kalbos, kur jis prasideda nuo nulio. Taigi C arba C ++, pavyzdžiui, esate ketinate gauti ketvirtą elementą. Ir čia yra Vals nuo 3 iki 5. Taigi vienas dalykas, kad tikrai cool, kad jūs gali generuoti laikinus kintamuosius viduje ir tada tiesiog naudokite juos skristi. Taigi čia yra 3-5. Taigi, aš generuoti vektorių 3, 4, ir 5, ir tada Aš indeksavimo gauti trečdalį, ketvirta, ir penkta elementai. Taigi panašiai, galite abstrakti tai tiesiog padaryti bet kurį iš vektoriumi, rūšiuoti kuri suteikia jums indeksavimo. Taigi čia yra Vals ir tada pirma, trečia ir šešta elementai. Ir tada, jei norite padaryti papildyti, todėl jūs tiesiog padaryti minuso vėliau, ir kad bus suteikia jums viską, tai nėra pirma, trečia, ar šeštasis elementas. Taigi, tai bus 4, 8, ir 10. Ir jei norite gauti net labiau pažengusios, galite Jungiant Bulio vektorius. Taigi šis rodiklis ketina suteikti jums tai Bulio vektorius ilgis 6 d. Taigi REP TIKROJI kablelis 3. Tai bus pakartoti TRUE tris kartus. Taigi, tai suteiks jums vektorius TRUE TRUE TRUE. REP FALSE 4-- tai norėčiau duoti jums suklastotų, FALSE, FALSE, FALSE vektorius. Ir tada c ketina Jungiant šie du loginę kartu. Taigi, jūs ketinate gauti trys TRUEs ir tada keturis FALSEs. Taigi, kad, kai jūs index Vals, jūs ketinate gauti TRUE TRUE TRUE. Taigi, kad ketina pasakyti "taip", Noriu šiuos tris elementus. Ir tada FALSE, FALSE, NETIESA FALSE vyksta pasakyti "ne, aš nenoriu tuos elementus, todėl jis nesiruošia grąžinti juos. Ir aš manau, ten tikrai klaidos čia nes tai yra suprantama, pakartokite TIKROJI 3 ir pakartokite FALSE 4, ir techniškai, jums tik šešios elementai taip pakartoti FALSE, ji turėtų būti pakartokite FALSE 3. Manau, R yra taip pat pakankamai protingas, pavyzdžiui kad jei jūs tiesiog nurodyti 4 čia, tada jis net ne klaida iš. Tai bus tiesiog suteikti jums šią vertę. Taigi jis bus tiesiog ignoruoti, kad ketvirtą FALSE. Taigi čia yra vektorizuoti užduotis. Taigi set.seed-- tai tik nustato sėkla pseudo numerius. Taigi, aš nustatyti sėklos 42, tai reiškia, kad jei aš generuoti trijų atsitiktinių normalu vertės, ir tada, jei jus paleisti set.seed dėl savo kompiuteris, naudojant tą patį vertę 42, tada jūs taip pat gausite tie patys trys atsitiktiniai asmenimis. Taigi tai tikrai geras už pasikartojimu. Paprastai, kai jūs darote kai Rūšiuoti mokslinės analizės, jūs norite nustatyti sėklos. Tokiu būdu kiti mokslininkai gali tik atkurti tą patį kodą, jūs padaryti, nes jie turi tiksliai patys atsitiktiniai kintamieji that-- ar atsitiktinai vertės, kad jūs atlikote, kaip gerai. Ir taip vektorizuoti perleidimas čia rodantis Vals nuo 1 iki 2. Todėl užtrunka pirmuosius du elementus, nuo intervalais ir tada priskiria juos 0. Ir tada, taip pat galite tiesiog padaryti panašus dalykas su loginę. Taigi Vals nėra lygus 0-- šį valią jums vektoriaus FALSE, FALSE, TRUE ir šiuo atveju. Ir tada, jis ketina pasakyti bet Šių indeksų kad būtų tiesa, tada jis ketina perleisti, kad iki 5. Todėl jis užima trečią elementą čia ir tada priskiria jį iki 5. Ir tai tikrai gražus lyginant su žemo lygio kalbomis kur jūs turite naudoti kilpomis padaryti visą šį vektorizuoti stuff nes tai tik labai intuityvus ir tai vieną kartą, linijinės. Ir kas daug apie vektorizuoti žymėjimas yra tai, kad R, tai yra rūšiuoti built-in, kad jie beveik taip pat greitai kaip daro žemo lygio kalba, kaip ne todėl už linijos R ir po to jis daryti dinamiška indeksavimo pati. Ir tai bus lėtesnis, nei tai daro šis vektorizuoti dalykai kur ji gali tai padaryti lygiagrečiai, kur ji tai daro sriegimo esmės. Taigi čia yra vektorizuoti operacijas. Taigi, aš generuoti vertę nuo 1 iki 3, priskyrimo, kad į vec1, 3-5, vec2, pridedant juos kartu. Ji priduria, jiems komponentas-protingas, kad tai 1 plius 3, 2 + 4, ir taip toliau. vec1 kartų vec2. Tai daugina du vertės komponentas išmintingas. Taigi, tai 1 kartus 3, 2 kartus 4, ir po to 3 kartus 5. Ir tada, panašiai taip pat galite padaryti comparisons-- loginius palyginimų. Taigi, tai false false true šiame atvejis, nes 1 yra ne didesnis nei 3, 2 yra ne didesnis nei 4. Tai, manau, dar typo 3 tikrai ne didesnis kaip 5. Taip. Ir todėl galite tiesiog padaryti viską Šie paprasti veiksmai nes jų paveldėjo iš pačių klasių. Taigi, tai buvo tik vektorius. Ir tai tarsi svarbiausias R objektas, nes atsižvelgiant į vektorių, galite statyti daugiau pažangių objektų. Taigi čia matrica. Tai iš esmės abstrakcija kas matrica pati. Taigi šiuo atveju, tai trys skirtingi vektoriai, kur kiekviena iš jų yra kolonėlė, arba galite apsvarstyti ją kaip kiekviena iš jų yra eilutė. Taigi, aš laikyti matrica nuo 1 iki 9 ir tada aš nurodant 3 eilutes. Taigi nuo 1 iki 9 duos jums vektorių 1, 2, 3, 4, 5, 6, ir visi būdas 9. Vienas dalykas, taip pat turėkite omenyje tai, kad R parduotuvės vertės stulpelyje-dur formatu. Taigi, kitaip tariant, kai jūs matote 1 9, jis ketina laikyti them-- tai bus 1, 2, 3 pirmoje skiltyje, ir tada jis bus padaryti 4, 5, 6 antrojoje skiltyje, ir tada 7, 8, 9 trečioje skiltyje. Ir čia yra keletas kitų bendros funkcijos, kurias galite naudoti. Taigi automatinės kilimėlis, tai suteiks jums matricos matmenys. Jis ketina grįžti jus matmens vektorius. Taigi, šiuo atveju, nes mūsų matrica 3 3, jis ketina duoti jums skaitmeninis vektorinis tai 3 3. Ir čia yra tiesiog rodo matrica daugyba. Taigi paprastai, jei jūs tiesiog padaryti asterisk-- tiek motina Žvaigždutė mat-- tai bus komponentas išmintingas veikimas ar tai, kas vadinama Hadamarda produktas. Taigi jis ketina padaryti kiekvienas elementas komponentas išmintingas. Tačiau, jei norite matrica multiplication-- taip dauginant pirmoje eilėje kartus antrosios matricos pirmasis stulpelis ir taip on-- norite naudoti ši operacija proc. Ir t motina yra tik operacija perkelti. Taigi aš sakau imtis perkelti į matrica, padauginkite jį iš matricos pati. Ir tada jis ketina grįžti į jums dar 3 3 matricos rodyti produktas, kurį norėtumėte. Ir taip buvo matrica. Čia yra tai, kas vadinama duomenų rėmas. Duomenų rėmas jūs galite galvoti, kaip matrica, tačiau pati kiekviename stulpelyje bus kitokio tipo. Taigi, kas yra tikrai cool apie duomenų rėmai yra tai, kad pačios duomenų analizę, jūs ketinate turėti visa tai nevienalyčių duomenų ir visa tai tikrai nepatogus dalykų, kur kiekvienas iš stulpelių patys gali būti įvairių tipų. Taigi čia aš sakau sukurti duomenų rėmo, padaryti ints 1-3, ir tada taip pat turi simbolių vektorių. Taigi aš galiu indeksą per kiekviena iš šių stulpelių ir tada aš gausiu patys vertybes. Ir jūs taip pat galite padaryti kai kuriuos rūšiuoti iš operacijų duomenų kadrų. Ir didžiąją dalį laiko, kai esate daro duomenų analizę arba tam tikros rūšies nuo pirminio apdorojimo, jūs būsite dirbti su šių duomenų struktūrų kur kiekvienas stulpelis vyksta būti skirtingo tipo. Galiausiai, tai yra iš esmės tik keturi pagrindiniai objektai R. sąrašas tiesiog rinkti bet kiti objektai norite. Taigi, jie bus saugomi į vieną tai kintamasis, kad jūs galite lengvai pasiekti. Taigi čia aš atsižvelgiant sąrašą. Aš sakau Daiktai lygus 3. Taigi, aš ruošiuosi turėti vieną elementą sąrašas ir tai vadinama medžiaga, ir jis ketina turėti vertę 3. Taip pat galiu sukurti matrica. Taigi, tai yra 1-4 ir galutinio eilės lygus 2, taip, 2 2 matricoje. Taip pat į sąrašą ir ji vadinama motina. moreStuff, simbolių, ir net dar savaime sąrašas. Taigi tai yra sąrašas, kurį 5 ir lokys. Taigi, ji turi vertę 5 ir jį turi simbolių lokys ir tai viduje sąrašą. Taigi jūs galite turėti juos Rekurentiniai dalykų, kur turite another-- A tipo per tipą. Taigi panašiai, jūs galite turėti matrica viduje kitą matricoje, ir taip toliau. Ir sąrašas yra tik geras būdas surinkimo ir kaupiant visi šie skirtingi objektai. Ir, pagaliau, čia tik padėti, jei tai buvo tiesiog dingo per labai greitai. Taigi bet kuriuo esate supainioti apie kai funkcija rūšiuoti, jūs galite padaryti padedant šią funkciją. Taigi jūs galite padaryti pagalbos matrica arba klaustukas matrica. Ir pagalba ir klaustukas yra tik sutrumpinta už tą patį todėl jie slapyvardžius. LM yra funkcija, kuri tiesiog daro linijinį modelį. Tačiau, jei jūs tiesiog neįsivaizduoju, kaip kad darbai, galite tiesiog padaryti pagalbos LM ir kad duosiu jums keletą rūšiuoti dokumentus, atrodo lyg vyras puslapis Unix, kur turite trumpą aprašymą, ką ji, ir tai, ką jos argumentai, ką jis grįžta, ir tik patarimų, kaip jį naudoti, ir kai kurie pavyzdžiai, taip pat. Taigi leiskite man eiti į priekį ir šou kai naudojant R. Gerai Demo. Taigi, nuėjau per labai greitai tik duomenys struktūros ir kai rūšiuoti op-- kai operacijas. Štai kai kurios funkcijos. Taigi čia aš tik ketina apibrėžti funkciją. Taigi, aš taip pat naudojant priskyrimo operatorius čia ir tada aš sakau deklaruoti kaip funkcija. Ir tai trunka x vertę. Taigi tai yra bet kokia vertė norite ir aš ruošiuosi grįžti x savaime. Taigi, tai yra tapatybės funkcija. Ir kas kietas apie tai palyginti su kitomis kalbomis ir dar žemo lygio kalbos yra tai, kad X gali būti bet kokios paties tipo ir jis bus grįžti tą tipą. Taigi galite imagine-- tad man tiesiog paleisti tai greitai. Atsiprašau. Taigi vienas dalykas, aš taip pat reikėtų paminėti yra tai, kad aš tai redaktorius naudoju vadinamas rstudio. Tai, kas vadinama IDE. Ir vienas dalykas, kad tikrai malonu apie tai yra tai, kad ji apima daug daug dalykų, kuriuos noriu padaryti R pats tik labai intuityviai. Taigi čia yra vertėjas konsolės. Taigi panašiai, taip pat galite gauti šią Konsolės žaliavos tiesiog daro kapitalo R. Ir tai yra tiksliai tas pats, kaip konsolėje. Taigi aš galiu tik daryti ID funkcija x, x, x. Ir then-- ir tada, kad bus gerai pati. Taigi rstudio yra puikus nes jis turi konsolės. Ji taip pat turi dokumentus norite paleisti. Ir tada ji turi keletą kintamųjų, kad jūs galite pamatyti aplinkoje. Ir tada, jei turite daryti sklypus, tada jums galite tiesiog pamatyti čia, o ne valdyti visus šiuos skirtingus langus patys. Aš iš tikrųjų asmeniškai naudoti Vim, bet aš jaustis kaip rstudio yra puikus tik gauti gerą idėją kaip naudoti R. Paprastai, kai bandote išmokti naują užduotį, Jūs nenorite dirbti per daug dalykų vienu metu. Taigi R yra tik very-- rstudio yra labai geras būdas mokytis R be susidoroti su visi šie kiti dalykai. Taigi čia Bėgu ID labas. Tai grąžina labas. ID 123. Čia yra sveikųjų skaičių vektorius. Taigi panašiai, nes galite imtis bet kokių nors vertės rūšiuoti, jūs galite padaryti grįžimas id x todėl grįžta 1234 ir 5. Ir leiskite man tiesiog parodyti jums, kad tai iš tiesų sveikasis skaičius. Ir panašiai, jei jūs klasė ID x, ji ketina būti sveikasis skaičius. Ir tada, taip pat galite palyginti du, ir tai tiesa. Taigi, aš patikrinti, jei id x lygus lygus x ir pranešimą kad ji suteikia jums du TRUEs. Taigi tai nesakau, yra du objektai identiški, tačiau yra kiekvienas iš įrašų, per vektoriai tapačios. Čia yra bounded.compare. Taigi, tai yra šiek tiek sudėtingesnis tuo, kad ji turi, jei būklę ir kitur ir tada ji užima du argumentai metu. Taigi, x yra bet kokio tipo. Ir aš tai sakau Antrasis argumentas yra. Tai gali būti bet kas, taip pat. Tačiau pagal nutylėjimą, jis ketina imtis 5, jei nenurodysite nieko. Taigi čia aš ruošiuosi pasakyti jei x yra didesnis nei. Taigi, jei aš nenurodysite, ją teigia, jei x yra didesnis nei 5, tada aš ruošiuosi grįžti tiesa. kitur, aš ruošiuosi grįžti FALSE. Taigi leiskite man eiti į priekį ir nustatyti tai. Ir dabar aš ruošiuosi paleisti bounded.compare 3. Taigi ji sako yra 3 mažiau than-- yra 3 didesnės nei 5. Ne, tai ne taip neteisinga. Ir bounded.compare 3 ir aš ruošiuosi palyginti ją naudojant lygus 2. Taigi, dabar aš sakau taip, dabar aš nori, kad būtų kažkas. Taigi, aš ruošiuosi pasakyti, jums turėtų būti 2. Galiu arba padaryti šį rūšiuoti notacijos arba sakau lygus 2. Tai yra daugiau nuskaitoma tuo, kad, kai esate Žvelgiant į šiuos tikrai sudėtingų funkcijų, imtis kelis arguments-- ir tai gali būti dešimtys oftentimes-- tiesiog pasakyti lygu 2 yra suprantamesnis žmogui už Jums taip, kad vėliau ateityje jūs žinote, ką darote. Taigi šiuo atveju, aš posakis yra 3 didesnis nei 2. Taip, tai yra. Ir panašiai, aš tiesiog galima pašalinti tai ir sako, yra 3 didesnis kaip 2 kur lygus 2. Ir tai taip pat tiesa. Taip? AUDITORIJA: Ar jums vykdyti pagal kiekvieną eilutę? Dustin TRAN: Taip, aš esu. Taigi, ką aš darau čia pradėdami vartoti šį tekstą document-- ir kas daug apie rstudio yra tai, kad Galiu tik paleisite short-- pagrindinį nuorodą. Taigi darau kontrolės Enter. Ir tada, aš atsižvelgiant linija teksto dokumente ir tada išleidimą į konsolę. Taigi čia aš sakau, bounded.compare ir darau Control-X. Taigi aš tiesiog gali padaryti paleisti čia taip pat. Ir tada, kad priimsime linija ir tada įdėti jį čia. Ir tada panašiai, galiu paleisti čia. Ir tada jis tiesiog laikyti apibrėžti linijos į panašaus konsolės. Ir jei jūs taip pat pastebėsite, kad garbanotas petnešos yra ten kaip ir C sintaksė. x-- jei jei sąlyga yra taip pat ketinate naudoti skliaustus ir tada galite naudoti kitur. Dar vienas yra kitas, jei. Taigi, tai bus x lygus lygus, pavyzdžiui. Ir tada aš ruošiuosi grįžti kažką čia. Atkreipkite dėmesį, kad yra du skirtingi viskas čia, kad vyksta. Vienas iš jų yra, kad čia aš nurodant grįžti vertės tiesa. Čia aš tiesiog pasakyti, x. Taigi R paprastai pagal nutylėjimą imtis paskutinį arguments-- arba imtis paskutinę eilutę kodą, ir kad bus ką jis grįžo. Taigi čia tai yra tas pats dalyko, kaip daro grąžinimo data. Ir tik parodyti jums. Ir tada ji veiks tik patinka. Taigi leiskite man toliau tai. Taigi kitas, jei. Ir tikrai, aš galiu grįžti ką aš norėčiau. Taigi, aš net ne turi grąžinimo loginę visą laiką, Galiu tik grąžinti ką nors kita. Taigi aš galiu padaryti grąžinimo lokys. Taigi, jei x yra lygus lygus, jis ketina grįžti lokys. Priešingu atveju, jis ketina grįžti tiesa. Taip pat galiu padaryti vektorių ar tikrai nieko. Ir paprastai statiškai įvedėte kalbos, jūs turite nurodyti rūšį čia. Ir pranešimas, kad ji gali būti tik ką. Ir R yra pakankamai protinga, kad ją tiesiog tai padaryti ir jis veiks gerai. Taigi leiskite man apibrėžti tai. Unexpected-- oh atsiprašau. Ji turėtų būti garbanotas petnešomis čia. Gerai. Nemokama. Gerai. Taigi, dabar tegul palyginti 3 ir lygus 3. Taigi jis turėtų return-- yeah-- vertės lokys. Taigi dabar bendresnis dalykas yra kaip ką apie kitų duomenų struktūras. Taigi, jūs turite šią funkciją. Tai vyksta dirbti bet kokio pobūdžio vertės kaip 3 ar skaitmeninis, Kitaip tariant, du kartus. Bet kas apie kažką panašaus į vektorių. Taigi, kas atsitiks, jei do-- todėl aš ketina priskirti val, tarkim, 4 ir 6. Taigi, jei aš grįžti tai šis yra nuo 4, 5, 6 vektorius. Dabar pažiūrėkime, kas atsitinka, jei aš bounded.compare val. Taigi, tai yra norėčiau duoti jums 15 1251. Taigi, kitaip tariant, tai sakydamas jei peržvelgsite šią sąlygą todėl sako x yra mažiau nei ar kažką. Taigi, tai yra šiek tiek paini, nes dabar jūs tiesiog nežinote, kas vyksta. Taigi, manau, vienas dalykas, kad tikrai gerai apie tiesiog bando derinti yra tai, kad jūs galite tiesiog padaryti val didesnis nei ir pamatyti, kas atsitiks ten. Taigi val-- pagal nutylėjimą yra 5 panašiai tegul tiesiog VAL didesnis nei 5. Taigi tai yra vektorius klaidingas klaidingas tiesa. Taigi dabar, kai jūs ieškote tai, ketina pasakyti, jei ir tada jis ketina duoti jums tai yra klaidingas klaidingas vektorius tiesa. Taigi, kai pereisite į R, R tai neturi jokios idėjos, ką jūs darote. Nes ji tikisi vieną vertė, kuri yra Būlio, ir dabar jūs suteikiant jai apie loginę vektorių. Taigi pagal nutylėjimą, R yra tik ketinate pasakyti ką gi, Aš ruošiuosi daryti prielaidą, kad jūs esate ketina imtis pirmąjį elementą čia. Taigi, aš ruošiuosi say-- aš ruošiuosi daryti prielaidą, kad tai yra neteisinga. Taigi jis ketina pasakyti ne, tai nėra teisinga. Be to, jis ketina būti Val lygus lygus. Ne, atsiprašau 5. Ir jis taip pat bus klaidinga, taip pat. Taigi jis ketina pasakyti "ne", tai ne tiesa, taip pat todėl ketina grįžti į šį paskutinį vieną. Taigi tai yra tiek geras dalykas ar blogas dalykas, priklausomai nuo to, kaip jūs jį peržiūrėti. Nes kai esate kurti šias funkcijas, jūs neturite iš tikrųjų žino, kas vyksta. Taigi kartais jūs norėtumėte klaidą, o gal tiesiog norite įspėjimą. Šiuo atveju, R nėra padaryti, kad. Taigi tai tikrai ne Jūs pagrįsta ne kas manote kalbą turėtų daryti šiuo atveju jei vežami iš loginę vektoriaus kai jūs darote, jei sąlyga. Taigi tarkime, kad jūs turėjote originalus viena, jei dar grąžina true, ir jūs ketina grįžti FALSE. Taigi vienas iš būdų atsiribotų tai yra pasakyti, I net nereikia šį sąlyginį dalyką. Kitas dalykas, aš galiu padaryti, tai tiesiog grąžinimo patys vertybes. Taigi, jei pastebėjote, jei jūs do val yra didesnis nei 5, tai vyksta grįžti vektorius klaidingas klaidingas tiesa. Gal tai, ką nori už bounded.compare. Jūs norite grįžti į loginę vektorių kur ji palygina kiekviena iš reikšmių sau. Taigi, galite tiesiog bounded.compare funkcija x, lygus 5. Ir tada užuot tai, jei dar sąlyga, Aš tik ketina grįžti x yra didesnis nei 5. Taigi, jei tai tiesa, tada jis ketina grįžti tiesa. Ir tada, jei tai ne, tai ketina grįžti FALSE. Ir tai bus dirbti bet kuris iš šių struktūrų. Taigi aš galiu bounded.compare C1 6 arba 9 ir tada aš ruošiuosi pasakyti lygus 6, Pavyzdžiui. Ir tada jis ketina Jums tinkamą Būlio vektorius, kad jūs kuriate. Taigi tie, kurie vos funkcijos o dabar leiskite man tiesiog parodyti jums keletą interaktyvių vizualizacijomis. Aš nemanau, kad aš iš tikrųjų turi "Wi-Fi" čia todėl leiskite man tiesiog eiti į priekį ir praleisti šį vieną I guess. Tačiau vienas dalykas, kad kietas nors tai, kad, jei jūs tiesiog norite išbandyti krūva skirtingų duomenų komandas, yra iš skirtingų duomenų rinkinių krūva kad jau pakrautų į R. Taigi, vienas iš jų yra vadinamas rainelės duomenų rinkinys. Tai yra viena iš labiausiai žinomų tie mašininio mokymosi. Jūs paprastai tik padaryti kažkokia bandymų atvejus, norėdami pamatyti, jei jūsų kodas veikia. Taigi tegul tiesiog patikrinti, kas rainelė. Taigi šis dalykas vyksta būti duomenų rėmo. Ir tai tipo ilgai, nes Aš tiesiog atspausdinti rainelę. Tai spausdinti visą dalykas. Taigi ji turi visas šias skirtingas pavardes. Taigi rainelė kolekcija Skirtingų gėlės. Šiuo atveju, tai sakau užtikrina jums jį rūšys, Visi šie skirtingų pločių ir ilgių Sepal ir vainiklapis. Ir taip paprastai, jei norite spausdinti rainelę, Pavyzdžiui, jūs nenorite, kad jis būtų visa tai, nes tai gali perimti Visa jūsų konsolės. Taigi vienas dalykas, kad tikrai gražus yra galva funkcija. Taigi, jei jūs tiesiog padaryti galvą Iris, tai suteiks jums Pirmieji penki eilutės, arba šešių I guess. Ir tada gerai, jums galite tiesiog nurodyti čia. Taigi 20-- tai duos Jūs pirmieji 20 eilutės. Ir aš iš tikrųjų buvo natūra nustebino, kad ši man šešių todėl leiskite man eiti į priekį ir patikrinkite iris-- arba galvą, atsiprašau. Ir čia jis duos Jūs dokumentacija kas vertė vadovas daro. Taigi jis grįžta pirmas arba paskutinis objektas. Ir tada aš ruošiuosi pažvelgti į pradinę padėtį. Ir tada ji sako nutylėjimą metodas vadovas X ir n yra lygus 6L. Taigi, tai grįžta pirmuosius šešis elementus. Ir panašiai, jei pastebėsite čia, aš neturėjo nurodyti, n yra lygus 6. Pagal nutylėjimą ji naudoja šešių, I guess. Ir tada, jei noriu patikslinti tam tikras vertė, tada aš gali peržiūrėti, kad taip pat. Taigi, kad yra keletas paprastų komandų ir čia dar vienas, kad just-- gerai, Aš can-- iš tikrųjų tai yra šiek tiek daugiau sudėtinga, bet tai tiesiog klasę Kiekvieno rainelės rinkinį kolonėlę. Taigi, tai jums parodysiu, ką kiekvienas iš jų stulpeliai yra požiūriu jų tipus. Taigi SEPAL ilgis yra skaitmeninis, SEPAL plotis yra skaitmeninis. Visos šios vertės yra tik skaitmeninis nes galite pasakyti iš šio duomenų struktūruoti tai yra visi ketina skaitmeninis. Ir Rūšis kolonėlės bus veiksnys. Taigi paprastai, jūs manote, kad tai yra, kaip simbolių eilutę. Tačiau, jei jūs tiesiog padaryti irisSpecies, ir tada aš ruošiuosi daryti galvą 5, ir tai vyksta spausdinti iš pirmųjų penkių verčių. Ir tada pastebėsite šiuos lygius. Taigi tai yra saying-- tai R "būdas turėti kategoriški kintamuosius. Taigi, o ne tik turintys simbolių eilutes, ji turi lygiai nurodant kuris iš šių dalykų yra. Taigi tarkime irisSpecies 1. Taigi, ką jūs norite daryti čia yra aš Skaidymo į šios rūšies skiltyje. Taigi tai užtrunka Rūšis kolonėlės ir tada IT indeksai gauti pirmąjį elementą. Taigi, tai turėtų suteikti jums setosa. Ir jis taip pat suteikia jums lygius čia. Taigi jūs galite palyginti tai simbolių setosa ir tai nebus kad būtų tiesa, nes vienas yra kitokio tipo nei kitos. Arba aš manau, kad jis yra tiesa, nes R yra daugiau pažangių nei tai. Ir atrodo ne tai, o tada sako, gal tai, ko norite. Taigi jis ketina pasakyti simbolį styginių setosa yra toks pat, kaip šis. Ir tada panašiai, galite taip pat tik patraukti juos kaip pan. Taigi tai tik kažkokia greitai komandas iš rinkinio. Taigi čia kai duomenys žvalgyba. Taigi, tai yra šiek tiek daugiau dalyvauja su duomenų analizę. Ir šis yra paimtas iš kai Bootcamp R už Berkeley. Taigi biblioteka užsienio. Taigi, aš ruošiuosi įkelti į biblioteka, vadinama užsienio. Taigi, tai ketina duoti man read.dta taip manyti, kad turiu šį rinkinį. Šis yra saugomi srovė darbo katalogą mano konsolėje. Taigi tegul tiesiog pamatyti, kas darbo katalogą. Taigi čia mano darbinis katalogas. Ir skaityti dot duomenys, dalykas, sako šį failą yra duomenų aplanką Ši srovė darbo katalogas. Ir read.dta tai ne komanda nutylėjimą. Spėju, kad pakrautas jį jau. IEI prielaida aš pakrauta tai jau. Bet taip read.dta nesiruošia būti pagal nutylėjimą komanda. Ir štai kodėl jūs ketinate turėti įkelti į šį bibliotekoje package-- šis paketas vadinamas užsienio. Ir jei jūs neturite paketas, manau, Užsienio yra vienas iš built-in aktuose. Priešingu atveju, jūs taip pat galite padaryti install.packages ir tai bus įdiegti paketą. Ir tai jums duos R. Uh, ne. Ir tada aš tik ketina nutraukti tai, nes aš jau turiu ją. Bet kas tikrai malonu apie R yra tai, kad pakuotės valdymo sistema yra labai elegantiška. Nes jis bus laikyti viską tikrai gražiai už jus. Taigi šiuo atveju, jis ketina laikyti jį, manau, ši biblioteka čia. Taigi bet kuriuo metu norite įdiegti naujus paketus, tai tiesiog taip paprasta, kaip daro install.packages ir R valdys visas už jus paketai. Taigi jūs neturite daryti kažką Python, kur jūs turite išorinį paketą vadovai, pavyzdžiui, popieriaus Anakonda, kur esate doing-- įdiegsite paketai ne Python ir tada bandote paleisti patys. Taigi tai tikrai gražus būdas. Ir install.packages reikalauja interneto. Tai trunka jį iš serverio ir saugykla kad surenka visi paketai yra vadinamas Cran. Ir jūs galite nurodyti kokios rūšies veidrodis norite atsisiųsti paketais. Taigi čia aš pradėdami vartoti šį rinkinį. Skaitau jį naudojant šią funkciją. Taigi leiskite man eiti į priekį ir daryti. Taigi tarkime, kad turite šią rinkinį ir jūs turite absoliučiai Neįsivaizduoju, kas tai yra. Ir tai iš tikrųjų ateina gana dažnai pramonėje kur jūs tiesiog turite tai tonų ir tonų nepatogus dalykų ir jie neįtikėtinai etiketė. Taigi čia aš turiu tai rinkinys, ir aš nežinau kas tai yra, kad aš tiesiog rodo, check it out. Taigi, aš ruošiuosi daryti galvos pirmasis. Taigi, aš patikrinti pirmuosius šešis kolonos, ką šis rinkinys yra. Taigi tai yra valstybė, pres04, tada Visų šių skirtingų rūšiuoti stulpelių. Ir kas įdomu Čia, manau, yra tai, kad jums būtų manyti, kad tai atrodo kaip kai kurie rinkimų rūšiuoti. Ir aš manau, tik iš žiūri į failą pavadinimas tai kai surinkimo rūšiuoti Duomenų apie kandidatų arba rinkėjų kurie balsavo už konkrečių prezidentai pirmininkas arba kandidatai 2004 rinkimus. Taigi čia yra vertės 1, 2 Taigi vienas iš būdų saugoti Pirmininkas kandidatai jų vardai. Šiuo atveju, atrodo, jie tiesiog sveikąsias reikšmes. Taigi 2004 metais, tai buvo Bušas prieš Kerry manau. Ir dabar, tarkime, jūs tiesiog nežinau ar 1 atitinka Bush arba 2 atitinka Kerry ar ir tt ir tt, tiesa? Ir tai, tik man, gana dažna problema. Taigi, ką jūs galite padaryti šiuo atveju? Taigi leiskite patikrinti visus šiuos kitus dalykus. valstybė, aš darant prielaidą, tai ateina iš skirtingų valstybių narių. partyid pajamos. Pažvelkime partyid. Tai gal vienas dalykas, kurį galite padaryti, tai pažvelgti kiekvienas pastabas kad turime respublikonų partyid ar demokratas ar kažką. Taigi tegul tiesiog pažvelgti, kas partyid yra. Taigi, aš ruošiuosi imtis Dat ir tada aš ruošiuosi tai padaryti dolerio ženklas operatorius, kad aš anksčiau ir tai vyksta subset to skiltyje. Ir tada aš ruošiuosi į galvą tai 20, tik pamatyti, ką tai atrodo. Taigi tai tik nano krūva. Taigi, kitaip tariant, jūs turite trūkstamų duomenų apie šių vaikinai. Bet jūs taip pat pastebėsite, tai Dat partyid yra veiksnys, todėl tai suteikia jums įvairių kategorijų. Taigi, kitaip tariant, partyid gali priimti Demokratas, Respublikinė, nepriklausoma, ar kažkas kitas. Taigi eikime į priekį ir tegul pamatyti, kuris iš jų is-- oh, gerai. Taigi, aš ruošiuosi subset į partyid ir tada pažvelgti, kurie iš jų yra Democrat, pavyzdžiui. Tai ketina duoti jums Būlio, didžiulis Būlio iš TRUEs ir FALSEs. Ir dabar, tarkim noriu į subset šių vaikinai. Taigi, tai ketina imtis savo dat ir poaibis, kad priklausomai nuo to, pastabos turi partyid kaip lygių lygi demokratų. Ir tai yra gana ilgas, nes ten tiek daug iš jų. Taigi, dabar aš ruošiuosi į galvą tai 20. Ir kaip jūs pastebėjote, kaip lygių lygi yra įdomus tuo, kad esate already-- jūs taip pat įskaitant NAS. Taigi šiuo atveju, jūs vis dar negali gauti bet kokia informacija, nes dabar jūs turite NAS ir jūs tiesiog norite pamatyti, kuris iš stebėjimas atitinka demokratų o ne tai trūkstamas reikšmes patys. Taigi, kaip jūs atsikratyti šių NA? Taigi čia aš tik naudojant iki rakto ant mano žymeklį ir tada sako juda. Ir tada čia aš tik ketina pasakyti is.na datpartyid. Taigi tai ir ir imsis du skirtingi Būlio vektoriai ir pasakyti, kad tai bus TRUE ir FALSE, pvz. Taigi jis ketina padaryti šį komponentą-protingas. Taigi čia aš sakau imk duomenų rėmas, subset į tuos, kurie atitinka demokratų, ir pašalinti bet kurį iš jų, kurie yra ne NP. Taigi tai will-- turėtų suteikti jums kažką. Pažiūrėkime is.na. Pabandykime is.na datpartyid. Ir tai turėtų suteikti you-- sorry-- tik Būlio vektorių. Ir tada, nes jis taip ilgai, Aš ruošiuosi subset 20. Gerai. Taigi tai turėtų veikti. Ir tai vienas bus TRUEs. Ak, taip, mano klaida, kad čia yra I'm-- aš naudoti C ++ ir R sinonimiškai, todėl aš padaryti ši klaida visą laiką. Ir operatorius iš tikrųjų vienas norite. Jūs nenorite naudoti du jungimo ženklus, tik vieną. Gerai. Taigi pažiūrėkime. Taigi, mes subsetted į partyid kur jie demokratas ir jie nėra trūkstamų verčių. O dabar pažvelkime į tuos, kurie balsavo už. Taigi atrodo, kad dauguma iš jų balsavo už 1 d. Taigi, aš ruošiuosi eiti į priekį ir pasakyti, kad yra Kerry. Ir panašiai, galite taip pat eiti į respublikonų ir tikiuosi, tai turėtų suteikti jums 2. Tai tiesiog iš skirtingų stulpelių krūva. Ir iš tiesų, tai 2. Taigi partyid visą respublikonų, dauguma jų balsuoja už 2. Taigi atrodo, kad tik žiūri tai, Respublikonų bus very-- arba partyid bus labai didelis veiksnys, lemiantis kuris kandidatas jie ketina balsuoti už. Ir tai, žinoma tiesa apskritai. Ir tai atitinka jūsų intuicija, žinoma. Taigi atrodo, kad aš bėga laikas, kad leiskite man tiesiog reikia eiti į priekį ir parodyti keletą greitų vaizdų. Taigi čia kažkas, kad yra šiek tiek daugiau sudėtinga su vizualizacija. Taigi, šiuo atveju, tai yra labai paprasta analizė tiesiog patikrinti, kas nuo '04 prezidentas. Taigi šiuo atveju, tarkim jus norėjau atsakyti į šį klausimą. Taigi manau, mes norėjome sužinoti balsavimo elgesys 2004 prezidento rinkimus ir kaip, kad priklauso nuo rasės. Taigi ne tik jūs norite matyti balsavimo elgesį, tačiau norite sutrumpinti kiekvieną rasės ir tarsi apibendrina, kad. Ir jūs galite tik pasakyti, šio sudėtingo žymėjimo kad tai yra natūra gauti miglotas. Taigi, viena iš daugiau pažangiosios R paketai, taip pat rūšies neseniai vadinamas dplyr. Taigi tai viena čia. Ir ggg-- ggplot2 yra tik gražus būdas tai geriau vizualizacijas nei pastatytas-viename. Taigi, aš ruošiuosi įkelti šios dvi bibliotekos. Ir tada aš ruošiuosi eiti į priekį ir paleisti šią komandą. Jūs galite tiesiog laikyti tai juodosios dėžės. Kas vyksta, kad tai vamzdžio operatorius artimųjų šiame argumente į čia. Taigi aš sakau grupę Dat rasės ir tada prezidentas 04. Ir tada, visi šie kitas komandas yra filtravimo ir tada apibendrinant kur aš darau skaičių ir tada aš pasuko jį čia. Gerai kietas. Taigi eikime į priekį ir pamatyti, kas tai atrodo. Taigi, kas vyksta čia, yra tai, kad aš tiesiog nubrėžta kiekviena iš lenktynėse ir po to tuos, kurie balsavo už. Ir tai du skirtingi reikšmės atitinka 2 ir 1. Jei norite būti daugiau Elegantiškas, taip pat galite tik nurodo, kad 2 yra Kerry-- arba 2 yra Bušas, o tada 1 yra Kerry. Ir jūs taip pat gali turėti kad savo legendą. Ir jūs taip pat galite padalinti šias baras grafikus. Nes vienas dalykas yra kad jei pastebėjote, tai nėra labai lengvai identifikuoti , kuri iš šių dviejų reikšmių, yra didesnis. Taigi vienas dalykas, kurį norėtumėte padaryti, tai priimti šį mėlyną plotą ir tiesiog perkelti jį per čia, kad jums galima lyginti šias dvi viena šalia kitos. Ir aš manau, kad tai, ką aš neturi laiko padaryti dabar, bet tai taip pat labai lengva padaryti. Jūs galite tiesiog pažvelgti į MAN puslapių ggplot. Taigi, galite tiesiog ggplot kaip kad ir skaityti į šį žinyno puslapyje. Taigi leiskite man tiesiog greitai parodyti jums keletą įdomių dalykų. Vykime į priekį ir eiti to-- tik taikymas mašina mokymo. Taigi tarkime, mes turime šiuos tris paketai, todėl aš ruošiuosi įkelti juos į. Taigi, tai tik spausdina kai informacija, kai aš įdėtas dalykas. Taigi aš sakau, tai read.csv, tai rinkinys, o dabar Aš ruošiuosi eiti į priekį ir atrodo ir pamatyti, kas viduje šis rinkinį. Taigi pirmuosius 20 stebėjimų. Taigi, aš tiesiog x1, x2, ir Y. Taigi atrodo šių vertybių krūva svyruoja nuo gal 20-80 ar panašiai. Ir tada panašiai X2 ir tada šis Y, atrodo, kad būtų etiketės 0 ir 1. Norėdami tai patikrinti, galiu just do santrauka duomenų X1. Ir tada panašiai visi šie kitų stulpelių. Taigi santrauka yra greitas būdas tik rodo jums greitai vertybes. Oi, atsiprašau. Tai vienas turėtų būti Y. Taigi, šiuo atveju, suteikia quantiles, vidurkiai, maxes taip pat. Šiuo atveju dataY, jūs galite pamatyti kad tai tik bus 0 ir 1. Taip pat vidurkis sako, 0,6, tiesiog reiškia, kad jį Atrodo, turiu daugiau nei 1s 0s. Taigi leiskite man eiti į priekį ir šou Jūs ką šis atrodo. Taigi, aš tik ketina sklypas tai. Pažiūrėkime, kaip išvalyti tai. O Gerai. Gerai. Taigi tai, kaip jis atrodo. Taigi atrodo, kad geltonos Aš nurodytų kaip 0, tada raudona Aš nurodytas kaip 1s. Taigi čia atrodo etikečių taškai ir jis Atrodo, ką tik norėjo kai rūšiuoti grupavimo apie tai. Ir leiskite man tiesiog eiti į priekį ir šou Jūs kai kurie iš šių built-in funkcijos. Taigi čia yra LM. Taigi tai yra tiesiog bando kad tilptų liniją tai. Taigi, kas yra geriausias būdas kad aš gali tilpti linija tokia kad ji bus geriausiai atskirti šis grupavimo rūšiuoti. Ir geriausia, ką tik galima pamatyti kad aš tiesiog paleisti visas šias komandas ir tada aš ruošiuosi į priekį ir pridėkite eilutę. Taigi, tai atrodo, kad geriausias spėjimas. Tai atsižvelgiant geriausią, kuris sumažina bando, kad tilptų šią eilutę klaida. Akivaizdu, kad tai atrodo rūšies gerai, bet tai ne geriausias. Ir tiesiniai modeliai, visų Apskritai, ketiname būti tikrai puikus teorijos ir tiesiog tarsi Statybinių pagrindų mašina mokymosi. Tačiau praktikoje, jūs ketinate nori padaryti kažką bendresnio pobūdžio. Taigi, galite tiesiog pabandyti kažkas vadinamas neuronų tinklą. Šie dalykai yra vis dažniau. Ir jie tiesiog dirba fantastiškai didelių duomenų rinkinių. Taigi, šiuo atveju, mes tik have-- tegul see-- turime nrow. Taigi nrow yra tiesiog pasakyti eilučių skaičių. Taigi šiuo atveju, aš turime 100 pastabų. Taigi leiskite man eiti į priekį ir padaryti neuronų tinklą. Taigi tai tikrai gražus nes aš galiu tik pasakyti, nnet ir tada aš regresiją Y. Taigi, Y yra tai, kad kolonėlė. Ir tada regresiją jį kiti du kintamieji. Taigi, šis yra trumpesnis žymėjimas X1 ir X2. Taigi eikime į priekį ir paleisti tai. Oi, atsiprašau. Man reikia paleisti visą šį dalyką. Ir tai tik spausdinant notacijos už tai, kaip greitai ar ne greitai ji susiliejęs. Taigi atrodo, kad ji susilieja. Taigi leiskite man eiti į priekį ir spausdinti , kas tai atrodo. Žiūrėti čia vaizdas ir čia yra kontūras rodo, kaip gerai ji tinka. Ir tai just-- matote tai, kad tai yra labai, labai gražus. Jis netgi gali būti overfitting, bet jūs taip pat gali sudaro tai su kita metodai, pavyzdžiui, kryžminio patvirtinimo. Ir jie taip pat pastatė į R. Ir leiskite man tiesiog parodyti jums, remti vektoriaus mašina. Tai dar tikrai bendra technika, mašina mokymo. Jis yra labai panašus į linijinių modelių, bet ji naudoja tai, kas vadinama branduolio metodas. Ir tegul pamatyti, kaip gerai, kad nėra. Taigi, šis vienas yra labai panašios į tai, kaip gerai neuroninių tinklų atlieka, bet tai daug sklandžiau. Ir tai yra pagrįsta ne nuo what--, kaip SVMs darbą. Taigi tai yra tik labai Greita apžvalga kai iš built-in funkcijos galite padaryti ir taip pat kai duomenų tirti. Taigi leiskite man tiesiog eiti į priekį ir grįžti į skaidres. Taigi, akivaizdu, kad tai yra nėra labai išsamus. Ir tai tikrai tik kibinimas parodyti jums, ką jūs tikrai galite padaryti R. Taigi, jei norite tiesiog kaip Norėdami sužinoti daugiau, čia Yra įvairių išteklių krūva. Taigi, jei esate mėgsta vadovėlių ar esate tiesiog mėgstu skaityti dalykų internete, tai yra fantastiška vienas po Hadley Wickham, kuris taip pat sukūrė visa tai tikrai cool paketai. Jei esate mėgsta video, tada Berklis turi awesome Bootcamp tai several-- tai rūšies ilgai. Ir tai bus išmokyti jus, beveik viskas, ko jums reikia sužinoti apie R. Ir panašiai, ten Codeacademy ir visa tai kitos rūšies interaktyvių svetainių. Jie taip pat gauti common-- daugiau ir dažniau. Taigi, šis yra labai panašus į Codeacademy. Ir pagaliau, jei jūs tiesiog nori bendrijos ir padėti, tai yra krūva dalykų, kuriuos galite vykti. Akivaizdu, kad mes vis dar naudoti sąrašus, tiesiog kaip beveik kas antrą programavimo kalba, bendruomenė. Ir #rstats, tai mūsų bendruomenės Twitter. Tai tikrai gana dažnos. Ir tada vartotoją! Ar tik mūsų konferencija. Ir tada, žinoma, galite naudoti visus šiuos kitus Q & A dalykų, kaip Stack overflow, "Google", tada GitHub. Kadangi dauguma šių paketų ir bendruomenės daug bus orientuota plėtoti kodas nes tai atviro kodo. Ir tai tik tikrai gražiai GitHub. Ir, pagaliau, galite susisiekti su manimi, jei jūs tiesiog turite trumpus klausimus. Taigi, galite rasti mane Twitter čia mano svetainės, ir tik mano el. Taigi tikiuosi, kad buvo something-- tik trumpas anonsas apie ką R yra tikrai pajėgi daryti. Ir tikiuosi, jūs tiesiog patikrinkite šiuos tris nuorodos ir pamatyti, ką jūs galite padaryti daugiau. Ir aš manau, kad tai tik apie tai. Ačiū. [Plojimai]