1 00:00:00,000 --> 00:00:00,750 2 00:00:00,750 --> 00:00:09,800 >> [Hudba hrať] 3 00:00:09,800 --> 00:00:13,014 4 00:00:13,014 --> 00:00:13,680 DUSTIN TRAN: Ahoj. 5 00:00:13,680 --> 00:00:14,980 Volám sa Dustin. 6 00:00:14,980 --> 00:00:18,419 Takže budem prezentovať Analýza dát v R. 7 00:00:18,419 --> 00:00:19,710 Len niečo málo o sebe. 8 00:00:19,710 --> 00:00:24,320 Ja som v súčasnej dobe študentom strojárstvo a aplikovaných vied. 9 00:00:24,320 --> 00:00:28,330 Študujem prienik strojové učenie a štatistiky 10 00:00:28,330 --> 00:00:31,375 tak Analýza dát v R je Naozaj zásadný pre to, čo 11 00:00:31,375 --> 00:00:33,790 Ja na dennej báze. 12 00:00:33,790 --> 00:00:35,710 >> A R je zvlášť dobré pre analýzu dát 13 00:00:35,710 --> 00:00:39,310 pretože je to veľmi dobré pre prototypovania. 14 00:00:39,310 --> 00:00:43,590 A zvyčajne, keď robíte nejaký analýzy dát, veľa problémov 15 00:00:43,590 --> 00:00:44,920 budú kognitívne. 16 00:00:44,920 --> 00:00:48,700 A tak si len chcete mať nejaký naozaj dobrý jazyk, ktorý 17 00:00:48,700 --> 00:00:53,770 je len dobre pre to vstavaných funkcií, na rozdiel 18 00:00:53,770 --> 00:00:57,430 sa museli vysporiadať s nízkymi vecami úrovne. 19 00:00:57,430 --> 00:01:01,040 Takže na začiatku, ja som jednoducho ísť predstaviť, čo je R, by preto 20 00:01:01,040 --> 00:01:04,540 Ak ho chcete použiť, a potom prejsť do nejakej demo, 21 00:01:04,540 --> 00:01:07,060 a len ďalej od toho. 22 00:01:07,060 --> 00:01:08,150 >> Takže to, čo je R? 23 00:01:08,150 --> 00:01:11,180 R je len jazyk sa vyvíjal pre štatistické výpočty 24 00:01:11,180 --> 00:01:12,450 a vizualizácie. 25 00:01:12,450 --> 00:01:16,000 Takže to, čo to znamená, že je to veľmi výborný jazyk 26 00:01:16,000 --> 00:01:22,400 pre nejaký druh vec, ktorá sa zaoberá neistota alebo vizualizácia dát. 27 00:01:22,400 --> 00:01:24,850 Takže budete mať všetky tieto rozdelenia pravdepodobnosti. 28 00:01:24,850 --> 00:01:27,140 Tam sa bude vstavaných funkcií. 29 00:01:27,140 --> 00:01:31,650 Budete mať tiež vynikajúce vykresľovanie balíčky. 30 00:01:31,650 --> 00:01:34,110 >> Python je ďalší konkurenčný jazyka pre dáta. 31 00:01:34,110 --> 00:01:40,020 A ešte jedna vec, ktorú som si, že R je oveľa lepšie je vizualizácia. 32 00:01:40,020 --> 00:01:45,200 Takže to, čo uvidíte v ukážke, ako dobre, je len veľmi intuitívne jazyk 33 00:01:45,200 --> 00:01:48,050 že proste funguje veľmi dobre. 34 00:01:48,050 --> 00:01:53,140 To je tiež zadarmo a open source, as Je nejaký iný dobrý jazyk, myslím. 35 00:01:53,140 --> 00:01:55,440 >> A tu, banda len kľúčové slová hodil na vás. 36 00:01:55,440 --> 00:02:00,450 Je to dynamický, čo znamená, ak máte Špecifický typ priradený k objektu 37 00:02:00,450 --> 00:02:02,025 než to bude len to zmeniť za behu. 38 00:02:02,025 --> 00:02:05,670 Je to lenivý, takže je to chytro Ako to robí výpočty. 39 00:02:05,670 --> 00:02:12,250 Funkčné čo znamená, že môže skutočne fungovať založený off funkcií tak anything-- 40 00:02:12,250 --> 00:02:16,910 nejaký druh manipulácie ste robí, bude založený vypnutie. 41 00:02:16,910 --> 00:02:20,162 >> Tak binárne operátory, napríklad, sú proste neodmysliteľne funkcie. 42 00:02:20,162 --> 00:02:21,870 A všetko, čo budete robiť, je 43 00:02:21,870 --> 00:02:24,690 bude utiecť funkcie sám. 44 00:02:24,690 --> 00:02:27,140 A potom objektovo orientované rovnako. 45 00:02:27,140 --> 00:02:30,930 >> Takže tu je XKCD sprisahania. 46 00:02:30,930 --> 00:02:34,350 Nielen preto, že mám pocit, ako XKCD je základom akéhokoľvek druhu 47 00:02:34,350 --> 00:02:37,770 prezentácie, ale preto, že Mám pocit, že to naozaj 48 00:02:37,770 --> 00:02:42,160 kladivá upozorňuje, že mnoho Doba, kedy robíte nejaký údajov 49 00:02:42,160 --> 00:02:46,570 analýza, nie je problém tak moc, ako rýchlo beží, 50 00:02:46,570 --> 00:02:49,850 ale ako dlho to bude vás programovať úloha. 51 00:02:49,850 --> 00:02:54,112 Tak tu je práve analyzuje, či Stratégia a alebo b je účinnejšia. 52 00:02:54,112 --> 00:02:55,820 To bude niečo, čo ste 53 00:02:55,820 --> 00:02:58,290 bude zaoberať veľa sa v Druh jazyky low-level 54 00:02:58,290 --> 00:03:03,440 kde máte čo do činenia s Seg porúch, alokácia pamäte, inicializácia, 55 00:03:03,440 --> 00:03:05,270 aj zhotovenie vstavaných funkcií. 56 00:03:05,270 --> 00:03:09,920 A toto všetko je nakladané veľmi, veľmi elegantne v R. 57 00:03:09,920 --> 00:03:12,839 >> Takže len ku kladive to bod, najväčšou prekážkou 58 00:03:12,839 --> 00:03:13,880 bude poznávacie. 59 00:03:13,880 --> 00:03:17,341 Takže analýza dát je veľmi ťažké problém. 60 00:03:17,341 --> 00:03:19,340 Či už robíte strojové učenie alebo ste 61 00:03:19,340 --> 00:03:22,550 robí len nejaký druh základný prieskum dát, 62 00:03:22,550 --> 00:03:25,290 nechcete mať aby dokument 63 00:03:25,290 --> 00:03:27,440 a potom kompilovať niečo, čo pri každom 64 00:03:27,440 --> 00:03:31,010 Chcete vidieť, čo stĺpec vyzerá, aké konkrétne položky v matrici 65 00:03:31,010 --> 00:03:32,195 vyzerá. 66 00:03:32,195 --> 00:03:34,320 Takže si len chcete mať niektoré naozaj pekné rozhranie 67 00:03:34,320 --> 00:03:37,740 môžete spustiť jednoduchú funkciu že indexy na čokoľvek 68 00:03:37,740 --> 00:03:41,870 chcete a len spustiť odtiaľ. 69 00:03:41,870 --> 00:03:44,190 A budete potrebovať doménu konkrétne jazyky pre to. 70 00:03:44,190 --> 00:03:51,750 A R bude naozaj pomôže definovať problém a vyriešiť týmto spôsobom. 71 00:03:51,750 --> 00:03:58,690 >> Takže tu je graf ukazujúci programovanie Obľuba R, ako je to preč v priebehu času. 72 00:03:58,690 --> 00:04:04,060 Takže ako vidíte, rovnako ako 2013, alebo tak to jednoducho vyhodiť do povetria ohromne. 73 00:04:04,060 --> 00:04:09,570 A to bolo len preto, že z toho obrovský trend v odvetví technológií 74 00:04:09,570 --> 00:04:10,590 o spracovanie veľkých objemov dát. 75 00:04:10,590 --> 00:04:13,010 Tiež, a to nielen technológie priemysel, ale v skutočnosti 76 00:04:13,010 --> 00:04:16,490 akýkoľvek priemysel that-- pretože Mnoho priemyselných odvetví 77 00:04:16,490 --> 00:04:20,589 sú trochu zásadné pre sa snažia tieto problémy riešiť. 78 00:04:20,589 --> 00:04:24,590 A zvyčajne, môžete mať nejaké dobré spôsob merania týchto problémov 79 00:04:24,590 --> 00:04:29,720 alebo je dokonca definovanie alebo riešenie je pomocou dát. 80 00:04:29,720 --> 00:04:35,430 Takže myslím, že teraz je R 11. najpopulárnejší jazyk na TIOBE 81 00:04:35,430 --> 00:04:38,200 a to bolo od tej doby rastie. 82 00:04:38,200 --> 00:04:40,740 83 00:04:40,740 --> 00:04:43,080 >> Tak tu je to trochu viac rysy R. má 84 00:04:43,080 --> 00:04:46,900 enormný počet balení a pre všetky tieto rôzne veci. 85 00:04:46,900 --> 00:04:52,470 Takže kedykoľvek budete mať Určitým problémom, väčšina 86 00:04:52,470 --> 00:04:55,060 čas R bude mať že funkcia pre vás. 87 00:04:55,060 --> 00:04:58,520 Takže ak chcete budovať akési stroje 88 00:04:58,520 --> 00:05:02,770 učenie algoritmus nazvaný Random Forest alebo rozhodovacie stromy, 89 00:05:02,770 --> 00:05:07,530 alebo dokonca sa snažia vziať priemer funkcií alebo niektorý z týchto vecí, 90 00:05:07,530 --> 00:05:10,000 R bude mať to. 91 00:05:10,000 --> 00:05:14,190 >> A ak si budete záleží optimalizácia, jedna vec, ktorá je spoločná 92 00:05:14,190 --> 00:05:17,430 sa, že potom, čo ste urobil prototypov nejaký druh jazyka na vysokej úrovni, 93 00:05:17,430 --> 00:05:19,810 vám bude hodiť, že in-- budete len port, cez 94 00:05:19,810 --> 00:05:21,550 do určitej jazyk nízkej úrovne. 95 00:05:21,550 --> 00:05:26,090 Čo je dobré o výskume je, že akonáhle ste urobil prototyping, môžete spustiť C ++, 96 00:05:26,090 --> 00:05:29,510 alebo Fortran, alebo niektorý z nich tie nižšie úrovne priamo do R. 97 00:05:29,510 --> 00:05:32,320 Tak to je jedna naozaj zaujímavé funkcie o R, 98 00:05:32,320 --> 00:05:35,930 ak vám naozaj záleží optimalizácia bod. 99 00:05:35,930 --> 00:05:39,490 >> A to je tiež veľmi dobrý pre webové vizualizácie. 100 00:05:39,490 --> 00:05:43,530 Tak D3.js, napríklad, je Myslím, že ďalšie seminár 101 00:05:43,530 --> 00:05:45,130 že sme predstavili dnes. 102 00:05:45,130 --> 00:05:48,510 A to je naozaj úžasné pre robí interaktívne vizualizácie. 103 00:05:48,510 --> 00:05:54,460 A D3.js predpokladá, že máte nejaký druh údajov, ktoré budú vynesené 104 00:05:54,460 --> 00:05:58,080 a R je skvelý spôsob, ako byť schopný robiť analýza dát, než ju exportovať 105 00:05:58,080 --> 00:06:04,220 sa k D3.js, alebo dokonca len spustiť D3.js príkazy do R sám, 106 00:06:04,220 --> 00:06:08,240 rovnako ako všetky tieto ďalšie knižnice tiež. 107 00:06:08,240 --> 00:06:13,041 >> Takže to bol práve zavedenie čo je R a prečo ho mohol použiť. 108 00:06:13,041 --> 00:06:14,790 Tak dúfajme, že som presvedčený o tom, niečo ti 109 00:06:14,790 --> 00:06:18,460 asi len sa snaží zistiť, čo to je. 110 00:06:18,460 --> 00:06:23,930 Takže budem pokračovať a prejsť Niektoré základy o R objektov 111 00:06:23,930 --> 00:06:26,150 a to, čo naozaj môžete urobiť. 112 00:06:26,150 --> 00:06:29,690 >> Takže tu je len banda príkazov matematických. 113 00:06:29,690 --> 00:06:35,000 Takže hovoriť you're-- chcete vytvoriť Jazyk sami a chcete len 114 00:06:35,000 --> 00:06:38,080 mať veľa rôznych nástrojov. 115 00:06:38,080 --> 00:06:42,520 Akýkoľvek druh prevádzky si myslíte, že by ste chcem, je do značnej miery bude v R. 116 00:06:42,520 --> 00:06:44,150 >> Takže tu je 2 plus 2. 117 00:06:44,150 --> 00:06:46,090 Tu je 2 krát pi. 118 00:06:46,090 --> 00:06:51,870 R má veľa vstavaných konštánt že budete často používať ako Pi, e. 119 00:06:51,870 --> 00:06:56,230 >> A potom, tu je 7 a runif, takže runif z 1. 120 00:06:56,230 --> 00:07:02,450 To je funkcia, ktorá je generuje jeden náhodný jednotný od 0 do 1. 121 00:07:02,450 --> 00:07:04,400 A potom je tu 3 k sile 4. 122 00:07:04,400 --> 00:07:06,430 Je tu druhé odmocniny. 123 00:07:06,430 --> 00:07:07,270 >> Tam je log. 124 00:07:07,270 --> 00:07:14,500 Takže log bude robiť základňu exponenciálny sama o sebe. 125 00:07:14,500 --> 00:07:18,337 A potom, ak zadáte základňu, potom si môžete robiť, čo chcete, základňa. 126 00:07:18,337 --> 00:07:19,920 A potom tu sú niektoré ďalšie príkazy. 127 00:07:19,920 --> 00:07:22,180 Takže máte 23 mod 2. 128 00:07:22,180 --> 00:07:24,910 Potom máte zvyšok. 129 00:07:24,910 --> 00:07:27,110 Potom máte vedecký notácie pokiaľ zároveň 130 00:07:27,110 --> 00:07:34,060 chcete urobiť len viac a zložitejšie veci. 131 00:07:34,060 --> 00:07:37,320 >> Takže tu je úloha. 132 00:07:37,320 --> 00:07:40,830 Takže typické úlohy v R sa vykonáva s šípkou 133 00:07:40,830 --> 00:07:43,440 tak je to menej ako, a potom pomlčka. 134 00:07:43,440 --> 00:07:47,250 Tak tu som len prideľovanie 3 k premennej val. 135 00:07:47,250 --> 00:07:50,160 >> A potom som tlač val a potom sa vytlačí tri. 136 00:07:50,160 --> 00:07:53,920 V predvolenom nastavení v R interpret, vytlačí, čo pre vás 137 00:07:53,920 --> 00:07:57,280 takže nemusíte zadať tlač val kedykoľvek budete chcieť niečo vytlačiť. 138 00:07:57,280 --> 00:08:00,200 Stačí si len urobiť val a potom to urobí za vás. 139 00:08:00,200 --> 00:08:04,380 >> Tiež môžete použiť rovná technicky ako operátor priradenia. 140 00:08:04,380 --> 00:08:07,190 K dispozícii sú malé nuansy Medzi pomocou šípky 141 00:08:07,190 --> 00:08:10,730 Prevádzkovateľ a rovná sa pohon pre úlohy. 142 00:08:10,730 --> 00:08:15,470 Väčšinou konvencií, každý bude len používať operátor šípky. 143 00:08:15,470 --> 00:08:21,850 >> A tu, ja to priraďovanie šikmý zápis hovorí 1 dvojbodka 6. 144 00:08:21,850 --> 00:08:26,010 To vytvára vektor 1-6. 145 00:08:26,010 --> 00:08:29,350 A to naozaj pekné, pretože potom stačí priradiť vektor Val 146 00:08:29,350 --> 00:08:34,270 a ktorý pracuje sám. 147 00:08:34,270 --> 00:08:37,799 >> Tak to už bude z single-- veľmi intuitívne údaje 148 00:08:37,799 --> 00:08:41,070 štruktúra len dvojnásobok nejaký druh druhu do vektora 149 00:08:41,070 --> 00:08:45,670 a ktorý sa bude zhromažďovať všetky skalárne hodnoty pre vás. 150 00:08:45,670 --> 00:08:50,770 Takže potom, čo šiel z skalárne, vy majú predmety R, a to je vektor. 151 00:08:50,770 --> 00:08:55,610 Vektor je nejaký druh kolekcia rovnakého typu. 152 00:08:55,610 --> 00:08:58,150 Tak tu je banda vektorov. 153 00:08:58,150 --> 00:08:59,800 >> Tak toto je číselný. 154 00:08:59,800 --> 00:09:02,440 Číselný je R spôsob, ako povedať double. 155 00:09:02,440 --> 00:09:07,390 A tak v predvolenom nastavení, akýkoľvek Číslo bude double. 156 00:09:07,390 --> 00:09:13,150 >> Takže ak máte c 1,1, 3, negatívne 5.7, c je funkcia. 157 00:09:13,150 --> 00:09:16,760 To zřetězuje všetky tri Čísla do vektora. 158 00:09:16,760 --> 00:09:19,619 A to bude be-- takže ak zistíte, 3 sama o sebe, 159 00:09:19,619 --> 00:09:21,910 Normálne by sa predpokladať, že to je ako celé číslo, 160 00:09:21,910 --> 00:09:25,050 ale preto, že všetkých vektorov sú rovnakého typu, 161 00:09:25,050 --> 00:09:28,660 to je vektor štvorhier alebo číselný v tomto prípade. 162 00:09:28,660 --> 00:09:34,920 >> RNorm je funkcia, ktorá generuje Štandardné normálne variables-- 163 00:09:34,920 --> 00:09:36,700 alebo štandardné normálne hodnoty. 164 00:09:36,700 --> 00:09:38,360 A ja s uvedením dvaja z nich. 165 00:09:38,360 --> 00:09:43,840 Takže robím RNorm 2, priraďovanie, že pre vývojári, a potom som tlač DEVS. 166 00:09:43,840 --> 00:09:47,350 Tak to sú len dve náhodné normálne hodnoty. 167 00:09:47,350 --> 00:09:50,060 >> A potom Ints, ak nemáte vám záleží na celé čísla. 168 00:09:50,060 --> 00:09:54,650 Takže je to len o pamäti alokácia a ukladanie veľkosť pamäte. 169 00:09:54,650 --> 00:10:01,460 Takže budete musieť pripojiť Vaše čísla od hlavného mesta L. 170 00:10:01,460 --> 00:10:04,170 >> Všeobecne platí, že sa jedná Historickej notácie R: 171 00:10:04,170 --> 00:10:06,940 za niečo, čo nazýva long integer. 172 00:10:06,940 --> 00:10:09,880 Takže väčšinu času, budete sa zaoberajú zdvojnásobí. 173 00:10:09,880 --> 00:10:15,180 A ak ste niekedy bude neskôr na optimalizáciu kódu, 174 00:10:15,180 --> 00:10:18,110 stačí pridať tieto L's neskôr alebo v jeho priebehu 175 00:10:18,110 --> 00:10:22,280 ak ste ako precognitive o tom, čo budete robiť tieto premenné. 176 00:10:22,280 --> 00:10:25,340 177 00:10:25,340 --> 00:10:26,890 >> Takže tu je znak vektor. 178 00:10:26,890 --> 00:10:31,440 Takže, ešte raz, ja som zreťazenie Tri reťazca tentoraz. 179 00:10:31,440 --> 00:10:36,230 Všimnite si, že dvojité reťazca a Jednotlivé reťazce sú rovnaké v R. 180 00:10:36,230 --> 00:10:41,000 Tak som sa Arthur a Marvin, a tak keď som tlače to, všetci z nich 181 00:10:41,000 --> 00:10:43,210 ukážeme dvojité reťazca. 182 00:10:43,210 --> 00:10:45,880 A ak chcete tiež zahrnúť jedno- alebo reťazec 183 00:10:45,880 --> 00:10:50,070 vo svojej postavy, potom môžete buď striedajú struny. 184 00:10:50,070 --> 00:10:53,540 >> Tak marvin je pre druhý prvok, to je 185 00:10:53,540 --> 00:10:56,380 ťa show-- Len majú dvojité reťazce 186 00:10:56,380 --> 00:10:59,050 a potom jeden reťazec Tak toto je striedavý. 187 00:10:59,050 --> 00:11:04,040 V opačnom prípade, ak chcete použiť double operátor reťazec v dvojlôžkovej reťazci 188 00:11:04,040 --> 00:11:07,090 keď ste ju vyhlási, potom stačí použiť operátor uniknúť. 189 00:11:07,090 --> 00:11:10,600 Takže si urobiť spätné lomítko dvojité reťazec. 190 00:11:10,600 --> 00:11:13,330 >> A konečne sme tiež majú logické vektorov. 191 00:11:13,330 --> 00:11:15,890 Tak logical-- tak TRUE a FALSE, a oni sú 192 00:11:15,890 --> 00:11:18,880 Bude všetky písmená. 193 00:11:18,880 --> 00:11:22,370 A potom ešte raz, ja som zreťazenie je a potom ich priradenie bools. 194 00:11:22,370 --> 00:11:24,590 Takže bools sa chystá ukázať tie TRUE, FALSE, a TRUE. 195 00:11:24,590 --> 00:11:28,280 196 00:11:28,280 --> 00:11:31,620 >> Takže tu je vectorized indexovanie. 197 00:11:31,620 --> 00:11:34,870 Takže na začiatku som beriem na function-- 198 00:11:34,870 --> 00:11:39,230 tomu sa hovorí sequence-- Sekvencie od 2 do 12. 199 00:11:39,230 --> 00:11:42,490 A ja beriem sekvenciu o 2. 200 00:11:42,490 --> 00:11:46,660 Takže to bude robiť 2, 4, 6, 8, 10 a 12. 201 00:11:46,660 --> 00:11:50,080 A potom, ja som indexovanie získať tretí prvok. 202 00:11:50,080 --> 00:11:55,770 >> Takže jedna vec je mať na pamäti, je že R indexy od 1. 203 00:11:55,770 --> 00:12:00,550 Takže odstupoch 3 sa chystá dať tie tretie element. 204 00:12:00,550 --> 00:12:04,580 To je trochu odlišný od iných jazykov, kde sa začína od nuly. 205 00:12:04,580 --> 00:12:09,780 Takže v C alebo C ++, napríklad, že ste dostane štvrtý prvok. 206 00:12:09,780 --> 00:12:13,280 >> A tu je vals 3-5. 207 00:12:13,280 --> 00:12:16,030 Takže jedna vec, ktorá je naozaj cool je, že vás 208 00:12:16,030 --> 00:12:20,410 môže vytvárať dočasné premenné vnútri a potom stačí použiť je na čase. 209 00:12:20,410 --> 00:12:21,960 Takže tu je 3 až 5. 210 00:12:21,960 --> 00:12:25,070 Takže som generovanie vektor 3, 4, a 5 a potom 211 00:12:25,070 --> 00:12:29,700 Som indexovanie dostať tretinu, Štvrtý a piaty prvky. 212 00:12:29,700 --> 00:12:32,280 >> Takže podobne, môžete abstract to proste robiť 213 00:12:32,280 --> 00:12:35,280 nejaký druh vektora že vám dáva indexovanie. 214 00:12:35,280 --> 00:12:40,050 Takže tu je Vals a potom Prvý, tretí a šiesty prvky. 215 00:12:40,050 --> 00:12:42,800 A potom, ak chcete robiť doplnok, 216 00:12:42,800 --> 00:12:45,210 takže stačí urobiť mínus potom a že bude 217 00:12:45,210 --> 00:12:48,600 vám všetko, čo nie je prvý, tretí, alebo šiesty prvok. 218 00:12:48,600 --> 00:12:51,590 Takže to bude 4, 8, a 10. 219 00:12:51,590 --> 00:12:54,380 >> A ak chcete získať ešte pokročilejšie, 220 00:12:54,380 --> 00:12:57,610 môžete zřetězit logických vektorov. 221 00:12:57,610 --> 00:13:05,210 Takže tento index sa chystá dať vám tento Boolean vektor dĺžky 6. 222 00:13:05,210 --> 00:13:07,280 Takže rep TRUE čiarka 3. 223 00:13:07,280 --> 00:13:09,680 To sa bude opakovať TRUE trikrát. 224 00:13:09,680 --> 00:13:12,900 Tak to vám dá vektor TRUE, TRUE, TRUE. 225 00:13:12,900 --> 00:13:17,470 >> rep FALSE 4-- to bude tak, aby vám vektor FALSE, FALSE, FALSE, FALSE. 226 00:13:17,470 --> 00:13:21,280 A potom c bude zřetězit tieto dve Booleans dohromady. 227 00:13:21,280 --> 00:13:24,090 Takže budete dostať tri Trues a potom štyri FALSEs. 228 00:13:24,090 --> 00:13:28,460 >> Takže, keď sa index Vals, že ste dostane TRUE, TRUE, TRUE. 229 00:13:28,460 --> 00:13:31,420 Takže to bude hovoriť áno, Chcem tie tri prvky. 230 00:13:31,420 --> 00:13:33,520 A potom FALSE, FALSE, FALSE, FALSE sa deje 231 00:13:33,520 --> 00:13:37,140 povedať nie, nechcem tieto prvky takže to nebude ich vrátiť. 232 00:13:37,140 --> 00:13:41,490 >> A myslím, že je to vlastne preklep tu pretože to hovorí repeat TRUE 3 233 00:13:41,490 --> 00:13:47,990 a opakovať FALSE 4, a technicky, vás mať iba šesť prvkov tak opakovať FALSE, 234 00:13:47,990 --> 00:13:50,470 to by malo byť opakovať FALSE 3. 235 00:13:50,470 --> 00:13:55,260 Myslím si, že R je tiež dosť, ako inteligentný že ak ste práve určiť 4 tu, a potom 236 00:13:55,260 --> 00:13:56,630 nebude ani chyba von. 237 00:13:56,630 --> 00:13:58,480 To bude len vám túto hodnotu. 238 00:13:58,480 --> 00:14:00,970 Tak to si jednoducho ignorovať skutočnosť, že Štvrtá FALSE. 239 00:14:00,970 --> 00:14:05,310 240 00:14:05,310 --> 00:14:09,270 >> Takže tu je vectorized úloha. 241 00:14:09,270 --> 00:14:15,480 Takže set.seed-- to len nastaví osivo pre pseudonáhodných čísel. 242 00:14:15,480 --> 00:14:20,110 Takže som nastaviť semeno do 42, čo znamená, že keď som vytvárať 243 00:14:20,110 --> 00:14:22,950 Tri náhodný normálne hodnoty, a potom, ak vás 244 00:14:22,950 --> 00:14:27,400 spustiť set.seed na vlastnú päsť počítač používa rovnakú hodnotu 42, 245 00:14:27,400 --> 00:14:30,990 potom môžete tiež získať Rovnaké tri náhodné normály. 246 00:14:30,990 --> 00:14:33,411 >> Tak toto je fakt dobrý reprodukovateľnosti. 247 00:14:33,411 --> 00:14:35,910 Zvyčajne, keď robíte nejaký druh vedeckej analýzy, 248 00:14:35,910 --> 00:14:37,230 budete chcieť nastaviť semeno. 249 00:14:37,230 --> 00:14:41,270 Tak iní vedci môžu len reprodukovať presne rovnaký kód, ktorý ste 250 00:14:41,270 --> 00:14:44,790 dané tým, že budú mať presný Rovnaké náhodnej veličiny that-- alebo náhodné 251 00:14:44,790 --> 00:14:47,270 hodnoty, ktoré ste si vzal von tiež. 252 00:14:47,270 --> 00:14:49,870 253 00:14:49,870 --> 00:14:53,910 >> A tak vectorized priradenie Tu sa ukazuje Vals 1-2. 254 00:14:53,910 --> 00:14:59,290 Tak to trvá prvé dva prvky Vals a potom priradí 0. 255 00:14:59,290 --> 00:15:03,940 A potom sa môžete tiež len robiť Podobná vec sa s Boolean. 256 00:15:03,940 --> 00:15:09,340 >> Takže vals nerovná 0-- to bude vám vektorový FALSE, FALSE, TRUE 257 00:15:09,340 --> 00:15:10,350 v tomto prípade. 258 00:15:10,350 --> 00:15:13,770 A potom, že to bude hovoriť akýkoľvek z tých indexov to bola pravda, 259 00:15:13,770 --> 00:15:15,270 potom to bude priradiť, že pre 5. 260 00:15:15,270 --> 00:15:18,790 Tak to trvá tretí element tu a potom ju priradí 5. 261 00:15:18,790 --> 00:15:22,300 >> A to je naozaj pekný v porovnaní s low-level jazyky 262 00:15:22,300 --> 00:15:25,560 kde budete musieť použiť na slučky robiť všetky tieto veci vectorized 263 00:15:25,560 --> 00:15:30,281 pretože je to len veľmi intuitívne a to je jeden one-liner. 264 00:15:30,281 --> 00:15:32,030 A čo je skvelé vectorized notácie 265 00:15:32,030 --> 00:15:37,020 je to, že v oblasti výskumu, to sú akési zabudovaný tak, že sú takmer rovnako rýchlo 266 00:15:37,020 --> 00:15:42,490 ako robí v jazyku nízkej úrovne as protichodný k tomu, že pre vedenie v R 267 00:15:42,490 --> 00:15:46,317 a potom musel to urobiť dynamický indexovanie sám. 268 00:15:46,317 --> 00:15:48,900 A že to bude pomalšie, než robiť tento druh vectorized veci 269 00:15:48,900 --> 00:15:55,950 kde to môže robiť to paralelne, kde to robí to v podstate závitov. 270 00:15:55,950 --> 00:15:58,650 >> Tak tu je vektorových operácií. 271 00:15:58,650 --> 00:16:04,920 Takže som generovanie hodnoty 1-3, priradenie, že pre vec1, 3 až 5, vec2, 272 00:16:04,920 --> 00:16:05,950 sčítať je. 273 00:16:05,950 --> 00:16:11,490 Dodáva im komponentov múdry tak to je 1 plus 3, 2 plus 4, a tak ďalej. 274 00:16:11,490 --> 00:16:13,330 >> vec1 časy vec2. 275 00:16:13,330 --> 00:16:16,110 To násobí dve hodnoty komponenty múdry. 276 00:16:16,110 --> 00:16:21,830 Takže je to 1 krát 3, 2 krát 4, a potom 3 krát 5. 277 00:16:21,830 --> 00:16:28,250 >> A potom, podobne môžete robiť comparisons-- logické porovnanie. 278 00:16:28,250 --> 00:16:33,640 Takže je to false false TRUE v tomto prípad, pretože 1 nie je vyššia ako 3, 279 00:16:33,640 --> 00:16:35,920 2 nie je väčší ako 4. 280 00:16:35,920 --> 00:16:41,160 To je, myslím, že ďalšie preklep, 3 rozhodne nie je väčší ako 5. 281 00:16:41,160 --> 00:16:41,660 Jo. 282 00:16:41,660 --> 00:16:45,770 A tak si môžete len urobiť všetko Tieto jednoduché operácie 283 00:16:45,770 --> 00:16:48,350 pretože ich zdedené od samotných tried. 284 00:16:48,350 --> 00:16:51,110 285 00:16:51,110 --> 00:16:52,580 >> Takže to bol len vektor. 286 00:16:52,580 --> 00:16:56,530 A to je tak nejako najzásadnejšie R objekt, pretože daný vektor, 287 00:16:56,530 --> 00:16:59,170 si môžete postaviť pokročilejšie objekty. 288 00:16:59,170 --> 00:17:00,560 >> Tak tu je matica. 289 00:17:00,560 --> 00:17:05,030 To je v podstate abstrakcie o tom, čo matice je sama o sebe. 290 00:17:05,030 --> 00:17:10,099 Takže v tomto prípade, je to tri rôzne vektory, kde každý z nich je stĺpec, 291 00:17:10,099 --> 00:17:12,710 alebo si môžete uvažovať pretože každý z nich je rad. 292 00:17:12,710 --> 00:17:18,250 >> Takže som uloženie matice od 1 do 9 a potom ja s uvedením 3 riadky. 293 00:17:18,250 --> 00:17:23,364 Takže 1-9 vám vektor 1, 2, 3, 4, 5, 6, a až do 9. 294 00:17:23,364 --> 00:17:29,250 >> Jedna vec je mať na pamäti, že R ukladá hodnoty vo formáte stĺpci-major. 295 00:17:29,250 --> 00:17:34,160 Takže inými slovami, keď vidíte 1 9, že to bude ukladať them-- 296 00:17:34,160 --> 00:17:36,370 to bude 1, 2, 3. miesto v prvom stĺpci, 297 00:17:36,370 --> 00:17:38,510 a potom to urobím 4, 5, 6 v druhom stĺpci, 298 00:17:38,510 --> 00:17:41,440 a potom 7, 8, 9 v treťom stĺpci. 299 00:17:41,440 --> 00:17:45,570 >> A tu sú niektoré ďalšie bežné funkcie, ktoré môžete použiť. 300 00:17:45,570 --> 00:17:49,650 Takže dim mat, to vám dá rozmery matrice. 301 00:17:49,650 --> 00:17:52,620 Bude to vrátite vektor dimenzie. 302 00:17:52,620 --> 00:17:55,580 Takže v tomto prípade, pretože Naša matica je 3 o 3, 303 00:17:55,580 --> 00:18:01,900 to bude vám numerický vektor, ktorý je 3 3. 304 00:18:01,900 --> 00:18:05,270 >> A tu sa práve ukazuje násobenie matíc. 305 00:18:05,270 --> 00:18:11,970 Takže väčšinou, ak ste práve robiť asterisk-- tak mat hviezdička mat-- 306 00:18:11,970 --> 00:18:15,380 to bude komponentov, múdry prevádzku 307 00:18:15,380 --> 00:18:17,300 alebo to, čo sa nazýva produkt Hadamard. 308 00:18:17,300 --> 00:18:21,310 Takže to bude robiť každý element komponentov-múdry. 309 00:18:21,310 --> 00:18:23,610 Avšak, ak chcete matice multiplication-- 310 00:18:23,610 --> 00:18:29,380 tak vynásobením prvý časy riadok Prvý stĺpec druhej tabuľky sa 311 00:18:29,380 --> 00:18:34,510 a tak on--, mali by ste použiť toto percento operácie. 312 00:18:34,510 --> 00:18:38,110 >> A t mat je len Prevádzka na premiestniť. 313 00:18:38,110 --> 00:18:42,590 Takže hovorím vziať premiestniť do matice, násobiť ju matricu 314 00:18:42,590 --> 00:18:43,090 sám. 315 00:18:43,090 --> 00:18:45,006 A potom, že to bude vrátiť sa k vám ďalšie 3 316 00:18:45,006 --> 00:18:50,700 o 3 Nasledujúca tabuľka znázorňuje produkt by ste chceli. 317 00:18:50,700 --> 00:18:53,750 >> A tak, aby bola matica. 318 00:18:53,750 --> 00:18:56,020 Tu je to, čo sa nazýva dátový rámec. 319 00:18:56,020 --> 00:19:00,780 Rám údaje si môžete myslieť as matice, ale každý stĺpec sám 320 00:19:00,780 --> 00:19:02,990 bude iného typu. 321 00:19:02,990 --> 00:19:07,320 >> Takže to, čo je naozaj v pohode o dátach Rámy je, že v analýze dát samotnej, 322 00:19:07,320 --> 00:19:11,260 budete mať všetko heterogénne dáta a všetky tieto skutočnosti 323 00:19:11,260 --> 00:19:15,640 chaotický vecí, kde každý zo stĺpcov samy o sebe môžu byť rôznych typov. 324 00:19:15,640 --> 00:19:21,460 Tak tu hovorím vytvoriť Údaje rám, robiť celých čísel od 1 do 3, 325 00:19:21,460 --> 00:19:24,750 a potom majú tiež charakter vektor. 326 00:19:24,750 --> 00:19:28,470 Takže môžem index cez Každý z týchto stĺpcov 327 00:19:28,470 --> 00:19:30,930 a potom budem si sami hodnoty. 328 00:19:30,930 --> 00:19:34,370 A môžete si tiež urobiť nejakú o prevádzke na dátových rámcov. 329 00:19:34,370 --> 00:19:38,040 A väčšina z doby, kedy ste robí analýzu dát, alebo nejakú 330 00:19:38,040 --> 00:19:42,042 predbežného spracovania, budete práca s týmito dátovými štruktúrami 331 00:19:42,042 --> 00:19:44,250 kde každý stĺpec sa deje byť iného typu. 332 00:19:44,250 --> 00:19:47,880 333 00:19:47,880 --> 00:19:52,970 >> A konečne, takže tieto sú v podstate len štyri základné objekty v R. Zoznam 334 00:19:52,970 --> 00:19:55,820 bude len zbierať akýkoľvek iné objekty, ktoré chcete. 335 00:19:55,820 --> 00:20:00,130 Tak to bude ukladať to do jedného premenné, ktoré možno ľahko otvoriť. 336 00:20:00,130 --> 00:20:02,370 >> Tak tu, beriem zoznam. 337 00:20:02,370 --> 00:20:04,460 Hovorím, že veci sa rovná 3. 338 00:20:04,460 --> 00:20:08,060 Takže budem mať jeden prvok zoznam, a to sa nazýva veci, 339 00:20:08,060 --> 00:20:10,570 a to bude mať hodnotu 3. 340 00:20:10,570 --> 00:20:13,140 >> Ja si tiež vytvoriť maticu. 341 00:20:13,140 --> 00:20:17,970 Tak toto je 1-4 a na konci riadku sa rovná 2, takže 2 o 2 matice. 342 00:20:17,970 --> 00:20:20,270 Tiež v zozname a je to len mat. 343 00:20:20,270 --> 00:20:24,690 moreStuff, reťazec znakov, a dokonca aj ďalší zoznam sám o sebe. 344 00:20:24,690 --> 00:20:27,710 >> Tak to je zoznam, ktorý je 5 a medveďa. 345 00:20:27,710 --> 00:20:30,990 Tak to má hodnotu 5 a to Má charakter reťazec medveďa 346 00:20:30,990 --> 00:20:32,710 a je to zoznam v zozname. 347 00:20:32,710 --> 00:20:35,965 Takže môžete mať tieto rekurzívne vecí, kde 348 00:20:35,965 --> 00:20:38,230 Máte another-- A typu v rámci typu. 349 00:20:38,230 --> 00:20:41,420 Takže podobne, môžete mať maticu vnútri inej matrice, a tak ďalej. 350 00:20:41,420 --> 00:20:44,264 A zoznam je len dobrý spôsob, ako zhromažďovanie a agregáciu 351 00:20:44,264 --> 00:20:45,430 Všetky tieto rôzne objekty. 352 00:20:45,430 --> 00:20:50,210 353 00:20:50,210 --> 00:20:57,150 >> A konečne, je tu len pomôcť v prípade to bolo len preč cez veľmi rýchlo. 354 00:20:57,150 --> 00:21:01,350 Takže kedykoľvek ste zmätený o akési funkcie, 355 00:21:01,350 --> 00:21:03,510 môžete robiť pomoc tejto funkcie. 356 00:21:03,510 --> 00:21:07,120 Takže si môžete urobiť help matice alebo otáznik matice. 357 00:21:07,120 --> 00:21:11,430 A pomoc a otáznik sú len skratka pre rovnakú vec 358 00:21:11,430 --> 00:21:13,040 takže sú aliasy. 359 00:21:13,040 --> 00:21:16,820 >> LM je funkcia, ktorá Len robí lineárny model. 360 00:21:16,820 --> 00:21:20,340 Ale ak ste práve nemáte tušenie, ako to práca, stačí urobiť pomoc lm 361 00:21:20,340 --> 00:21:24,610 a že ti dám trochu druh dokumentácie, ktorá 362 00:21:24,610 --> 00:21:27,960 Vyzerá trochu ako man stránky v Unixe, kde 363 00:21:27,960 --> 00:21:34,210 máte krátky popis toho, čo áno, aj to, čo je jej argumentácia, 364 00:21:34,210 --> 00:21:38,850 to, čo sa vráti, a len tipy na to, ako ich použitie, a niektoré príklady rovnako. 365 00:21:38,850 --> 00:21:41,680 366 00:21:41,680 --> 00:21:52,890 >> Tak nechaj ma ísť dopredu a prehliadka niektoré demo použitie R. OK. 367 00:21:52,890 --> 00:21:55,470 Tak som šiel na veľmi rýchlo len údaje 368 00:21:55,470 --> 00:21:59,440 štruktúry a nejaká op-- niektoré operácie. 369 00:21:59,440 --> 00:22:02,960 Tu je niektoré funkcie. 370 00:22:02,960 --> 00:22:06,750 >> Tak tu som jednoducho ísť k definovaniu funkcie. 371 00:22:06,750 --> 00:22:09,970 Takže som tiež používajú Operátor priradenia tu, 372 00:22:09,970 --> 00:22:12,610 a potom hovorím deklarovať ako funkcia. 373 00:22:12,610 --> 00:22:14,140 A to má hodnotu x. 374 00:22:14,140 --> 00:22:18,210 Tak to je nejaká hodnota, ktorú chcete a budem sa vrátiť x seba. 375 00:22:18,210 --> 00:22:20,840 Tak toto je funkcia identity. 376 00:22:20,840 --> 00:22:23,670 >> A čo je v pohode o tom v porovnaní s inými jazykmi 377 00:22:23,670 --> 00:22:26,330 a ďalšie nízkoúrovňové jazyky, je to, že x 378 00:22:26,330 --> 00:22:29,350 môže byť akéhokoľvek typu samotného a to vrátim tento typ. 379 00:22:29,350 --> 00:22:35,251 Takže si môžete imagine-- tak nechať ma stačí spustiť tak rýchlo. 380 00:22:35,251 --> 00:22:35,750 Prepáčte. 381 00:22:35,750 --> 00:22:40,300 >> Takže jedna vec, ktorú by som mal spomenúť je to, že tento editor som pomocou 382 00:22:40,300 --> 00:22:41,380 sa nazýva rstudio. 383 00:22:41,380 --> 00:22:44,389 To je to, čo sa nazýva IDE. 384 00:22:44,389 --> 00:22:46,180 A ešte jedna vec, ktorá je naozaj pekné o tom 385 00:22:46,180 --> 00:22:51,500 je to, že obsahuje veľké množstvo veci, ktoré chcete robiť do výskumu by samo o sebe 386 00:22:51,500 --> 00:22:53,180 Len veľmi intuitívne. 387 00:22:53,180 --> 00:22:55,550 >> Takže tu je interpret konzoly. 388 00:22:55,550 --> 00:23:02,160 Takže podobne, môžete si to konzola raw len tým, že robí kapitálu R. 389 00:23:02,160 --> 00:23:05,630 A to je presne to, to isté ako konzola. 390 00:23:05,630 --> 00:23:12,210 Tak som si len to id funkcie x, x, x. 391 00:23:12,210 --> 00:23:16,130 A then-- a potom to bude v poriadku sám. 392 00:23:16,130 --> 00:23:19,200 393 00:23:19,200 --> 00:23:21,740 >> Takže rstudio je skvelý preto, že má konzolu. 394 00:23:21,740 --> 00:23:25,360 Má tiež dokumenty chcete bežať ďalej. 395 00:23:25,360 --> 00:23:28,629 A potom to má nejaké premenné ktoré môžete vidieť v prostredí. 396 00:23:28,629 --> 00:23:30,420 A potom, ak máte k tomu pozemky, a potom vás 397 00:23:30,420 --> 00:23:33,730 stačí vidieť tu, na rozdiel od riadenie všetkých týchto rôznych okien 398 00:23:33,730 --> 00:23:35,940 samy od seba. 399 00:23:35,940 --> 00:23:40,530 >> Vlastne som osobne používam Vim, ale ja pocit, že rstudio je vynikajúci práve 400 00:23:40,530 --> 00:23:44,640 pre získanie dobrý nápad ako používať R. Zvyčajne 401 00:23:44,640 --> 00:23:47,040 keď sa snažíte naučiť sa nejaký nový úloha, 402 00:23:47,040 --> 00:23:49,590 nechcete riešiť príliš veľa vecí naraz. 403 00:23:49,590 --> 00:23:53,120 Takže R je len very-- rstudio je veľmi dobrý spôsob, ako učenie R 404 00:23:53,120 --> 00:23:56,760 bez toho aby museli vysporiadať s Všetky tieto ďalšie veci. 405 00:23:56,760 --> 00:23:58,600 >> Tak tu Bežím id ahoj. 406 00:23:58,600 --> 00:24:00,090 Vráti ahoj. 407 00:24:00,090 --> 00:24:01,740 id 123. 408 00:24:01,740 --> 00:24:04,610 Tu je vektor celých čísel. 409 00:24:04,610 --> 00:24:08,620 Tak podobne, pretože môžete prijať akékoľvek nejaké hodnoty, 410 00:24:08,620 --> 00:24:16,060 môžete urobiť vracia id x tak, že sa vracia 1234 a 5. 411 00:24:16,060 --> 00:24:22,210 >> A dovoľte mi, aby som len ukázať, že To je skutočne celé číslo. 412 00:24:22,210 --> 00:24:28,800 A podobne, ak nechcete triedy id x, to bude celé číslo. 413 00:24:28,800 --> 00:24:34,170 A potom, môžete tiež porovnať dva a je to pravda. 414 00:24:34,170 --> 00:24:38,350 Takže som kontrolovať, či id x rovná sa rovná x a oznámenia 415 00:24:38,350 --> 00:24:39,760 že to vám dáva dva trues. 416 00:24:39,760 --> 00:24:44,280 Takže to nehovorí, sú dva objekty identické, 417 00:24:44,280 --> 00:24:46,845 ale každý z údajov V rámci vektory identické. 418 00:24:46,845 --> 00:24:50,000 419 00:24:50,000 --> 00:24:52,090 >> Tu je bounded.compare. 420 00:24:52,090 --> 00:24:58,470 Tak to je o niečo zložitejšie v tom, že ak má to stav a inde 421 00:24:58,470 --> 00:25:00,960 a potom to trvá dva argumenty naraz. 422 00:25:00,960 --> 00:25:02,640 Takže x je z akéhokoľvek typu. 423 00:25:02,640 --> 00:25:06,280 A ja hovorím Druhý argument je. 424 00:25:06,280 --> 00:25:08,380 To môže byť čokoľvek rovnako. 425 00:25:08,380 --> 00:25:12,490 Ale v predvolenom nastavení, že to bude trvať 5 Ak nezadáte nič. 426 00:25:12,490 --> 00:25:16,730 >> Tak tu budem hovoriť ak x je väčšia ako. 427 00:25:16,730 --> 00:25:19,220 Takže keď som sa neuvádzajú, je hovorí, že ak x je väčšia ako 5, 428 00:25:19,220 --> 00:25:20,470 potom budem vracať TRUE. 429 00:25:20,470 --> 00:25:23,230 inak, budem sa vrátiť FALSE. 430 00:25:23,230 --> 00:25:24,870 Tak nechaj ma ísť napred a definovať to. 431 00:25:24,870 --> 00:25:30,600 432 00:25:30,600 --> 00:25:34,550 >> A teraz budem spustiť bounded.compare 3. 433 00:25:34,550 --> 00:25:39,150 Tak to hovorí, že je 3 menej than-- je 3 väčšie ako 5. 434 00:25:39,150 --> 00:25:41,830 Nie, to nie je tak FALSE. 435 00:25:41,830 --> 00:25:46,550 >> A bounded.compare 3 a idem porovnať ho pomocou rovná 2. 436 00:25:46,550 --> 00:25:50,700 Takže teraz hovorím áno, teraz už chcem byť niečo iné. 437 00:25:50,700 --> 00:25:52,750 Takže som chcel povedať, mali by ste byť 2. 438 00:25:52,750 --> 00:25:56,640 >> Môžem buď robiť tento druh notácie alebo Hovorím rovná 2. 439 00:25:56,640 --> 00:25:58,720 To je čitateľnejší v tom, že keď ste 440 00:25:58,720 --> 00:26:01,450 pri pohľade na tieto skutočnosti zložité funkcie, ktoré 441 00:26:01,450 --> 00:26:08,110 aby viac arguments-- a to môžu byť desiatky oftentimes-- len hovorím 442 00:26:08,110 --> 00:26:11,140 rovná 2, ktorá je zrozumiteľná pre vám tak, že neskôr v budúcnosti 443 00:26:11,140 --> 00:26:13,020 budete vedieť, čo robíte. 444 00:26:13,020 --> 00:26:17,120 >> Takže v tomto prípade, ja som Hovorí sa nachádza 3 väčšie ako 2. 445 00:26:17,120 --> 00:26:18,270 Áno, to je. 446 00:26:18,270 --> 00:26:22,350 A rovnako, ja si len odstrániť to a hovoria, je 3 väčšie ako 2 447 00:26:22,350 --> 00:26:23,440 kde sa rovná 2. 448 00:26:23,440 --> 00:26:26,230 A to je tiež pravda. 449 00:26:26,230 --> 00:26:26,730 Ano? 450 00:26:26,730 --> 00:26:29,670 >> Divákov: Ste vykonávanie riadok po riadku? 451 00:26:29,670 --> 00:26:30,670 >> DUSTIN TRAN: Áno, som. 452 00:26:30,670 --> 00:26:33,900 Takže to, čo robím tu je pričom tento text document-- 453 00:26:33,900 --> 00:26:39,825 a čo je skvelé o rstudio je to, že Môžem len spustiť short-- skratky pre. 454 00:26:39,825 --> 00:26:41,820 Takže robím Control-Enter. 455 00:26:41,820 --> 00:26:44,850 >> A potom, beriem riadok v textovom dokumente 456 00:26:44,850 --> 00:26:46,710 a potom uvedenie v konzole. 457 00:26:46,710 --> 00:26:50,800 Tak tu hovorím, bounded.compare a ja robím Control-X. 458 00:26:50,800 --> 00:26:52,540 Tak som si proste bežať aj tu. 459 00:26:52,540 --> 00:26:54,920 A potom, že bude trvať linka a potom ju sem. 460 00:26:54,920 --> 00:26:57,900 A potom podobne, môžem to spustiť tu. 461 00:26:57,900 --> 00:27:04,630 A potom to bude len držať vymedzenie linky do konzoly takhle. 462 00:27:04,630 --> 00:27:10,690 >> A ak ste si tiež povšimnúť kučeravé rovnátka sú tam rovnako ako v syntaxi C. 463 00:27:10,690 --> 00:27:13,910 x-- ak ak podmienka je tiež bude používať zátvorky a potom 464 00:27:13,910 --> 00:27:15,350 môžete použiť inde. 465 00:27:15,350 --> 00:27:17,496 Ďalší z nich je iný, ak. 466 00:27:17,496 --> 00:27:21,440 Takže to bude x rovná rovná, napríklad. 467 00:27:21,440 --> 00:27:24,190 468 00:27:24,190 --> 00:27:26,350 A potom budem vrátiť niečo tu. 469 00:27:26,350 --> 00:27:29,490 >> Všimnite si, že existujú dva rôzne veci, ktoré tu deje. 470 00:27:29,490 --> 00:27:34,360 Jedným z nich je, že tu som s uvedením vráti hodnotu TRUE. 471 00:27:34,360 --> 00:27:35,950 Tu Len hovorím x. 472 00:27:35,950 --> 00:27:39,970 Takže R bude zvyčajne v predvolenom nastavení užiť poslednú arguments-- 473 00:27:39,970 --> 00:27:43,510 alebo sa posledný riadok kódu, a to bude to, čo je to vrátil. 474 00:27:43,510 --> 00:27:46,920 Tak tu je to rovnaké vec, ako robí spiatočný x. 475 00:27:46,920 --> 00:27:49,450 476 00:27:49,450 --> 00:27:50,540 >> A len preto, aby vám ukázať. 477 00:27:50,540 --> 00:27:54,000 478 00:27:54,000 --> 00:27:57,052 A potom, bude to fungovať rovnako ako to. 479 00:27:57,052 --> 00:27:58,260 Dovoľte mi teda pokračovať s tým. 480 00:27:58,260 --> 00:28:00,630 >> Takže ak iný. 481 00:28:00,630 --> 00:28:04,060 A naozaj, môžem sa vrátiť niečo, čo by som chcel. 482 00:28:04,060 --> 00:28:06,680 Tak som to ani na návratovej Booleans po celú dobu, 483 00:28:06,680 --> 00:28:08,410 Môžem len vrátiť niečo iné. 484 00:28:08,410 --> 00:28:10,670 Tak som si urobiť spiatočnú medveďa. 485 00:28:10,670 --> 00:28:12,989 >> Takže ak x rovná rovná, to bude návrat medveďa. 486 00:28:12,989 --> 00:28:14,530 V opačnom prípade to bude vracať TRUE. 487 00:28:14,530 --> 00:28:19,310 Ja si tiež urobiť vektor alebo naozaj čokoľvek. 488 00:28:19,310 --> 00:28:22,210 >> A zvyčajne staticky zadávané jazyky, 489 00:28:22,210 --> 00:28:23,840 budete musieť zadať typ tu. 490 00:28:23,840 --> 00:28:25,750 A všimnite si, že to môže byť len niečo. 491 00:28:25,750 --> 00:28:32,400 A R je dosť inteligentný, aby to bude len to a to bude fungovať dobre. 492 00:28:32,400 --> 00:28:33,620 >> Takže ma to definovať. 493 00:28:33,620 --> 00:28:39,460 494 00:28:39,460 --> 00:28:41,230 Unexpected-- oh ľúto. 495 00:28:41,230 --> 00:28:44,336 Malo by to byť zložená zátvorka tu. 496 00:28:44,336 --> 00:28:44,836 OK. 497 00:28:44,836 --> 00:28:45,336 Super. 498 00:28:45,336 --> 00:28:52,580 499 00:28:52,580 --> 00:28:54,530 Dobrá. 500 00:28:54,530 --> 00:28:58,250 Takže teraz poďme porovnať 3 a rovná 3. 501 00:28:58,250 --> 00:29:01,860 Tak to by malo return-- yeah-- hodnotu medveďa. 502 00:29:01,860 --> 00:29:06,740 >> Takže teraz všeobecnejší vec je ako čo o ​​iných dátových štruktúr. 503 00:29:06,740 --> 00:29:09,110 Takže budete musieť túto funkciu. 504 00:29:09,110 --> 00:29:15,360 To bude fungovať na akomkoľvek druhu hodnoty, ako je 3 alebo akékoľvek číselné, 505 00:29:15,360 --> 00:29:17,500 Inými slovami, double. 506 00:29:17,500 --> 00:29:19,330 >> Ale čo o niečom takom vektora. 507 00:29:19,330 --> 00:29:27,750 Takže to, čo sa stane, keď do--, takže som bude priradiť Val za, povedzme, 4-6. 508 00:29:27,750 --> 00:29:31,640 Takže keď som sa vrátiť to, to je vektor z 4, 5, 6. 509 00:29:31,640 --> 00:29:34,935 >> Teraz sa pozrime, čo sa stane keď to urobím bounded.compare val. 510 00:29:34,935 --> 00:29:37,680 511 00:29:37,680 --> 00:29:42,450 Takže to bude dať 15 1251. 512 00:29:42,450 --> 00:29:46,440 Takže inými slovami, je to hovorí keď sa pozriete na túto podmienku 513 00:29:46,440 --> 00:29:50,040 tak to hovorí, že x je menšia než alebo tak niečo. 514 00:29:50,040 --> 00:29:51,880 Tak toto je trochu mätúce, pretože teraz 515 00:29:51,880 --> 00:29:53,379 proste neviem, čo sa deje. 516 00:29:53,379 --> 00:29:58,690 Takže si myslím, jednu vec, ktorá je naozaj dobrý len snaží ladiť 517 00:29:58,690 --> 00:30:04,600 je, že môžete jednoducho val, je väčšia ako, a uvidíme, čo sa deje tam. 518 00:30:04,600 --> 00:30:09,720 >> Takže val-- je štandardne 5 tak, nech to len do Val väčšie ako 5. 519 00:30:09,720 --> 00:30:14,280 Tak to je vektor FALSE FALSE TRUE. 520 00:30:14,280 --> 00:30:17,206 Takže teraz, keď sa pozeráte na to, bude to povedať, či, 521 00:30:17,206 --> 00:30:20,080 a potom, že to bude vám to je vektor false TRUE. 522 00:30:20,080 --> 00:30:23,450 >> Takže keď to prejsť do R, R nemá ani potuchy, čo robíte. 523 00:30:23,450 --> 00:30:26,650 Vzhľadom k tomu, že očakáva, že jeden jediný hodnota, ktorá je logická, a teraz 524 00:30:26,650 --> 00:30:29,420 dávate jej vektor Boolean. 525 00:30:29,420 --> 00:30:31,970 Takže v predvolenom nastavení, R je jednoducho hovoriť, čo to sakra, 526 00:30:31,970 --> 00:30:35,440 Budem predpokladať, že ste bude trvať prvý prvok tu. 527 00:30:35,440 --> 00:30:38,320 Takže budem say-- idem predpokladať, že to je FALSE. 528 00:30:38,320 --> 00:30:40,890 Takže to bude hovoriť nie, to nie je v poriadku. 529 00:30:40,890 --> 00:30:45,246 >> Rovnako tak, že to bude byť val rovná rovná. 530 00:30:45,246 --> 00:30:47,244 Nie, je mi ľúto 5. 531 00:30:47,244 --> 00:30:48,910 A je to tiež bude falošný rovnako. 532 00:30:48,910 --> 00:30:52,410 Takže to bude hovoriť nie, To nie je pravda, rovnako tak je to 533 00:30:52,410 --> 00:30:53,680 chystá sa vrátiť tento posledný. 534 00:30:53,680 --> 00:30:56,420 535 00:30:56,420 --> 00:31:01,360 >> Tak toto je buď dobrá vec, alebo zlá vec, v závislosti na tom, ako ho zobraziť. 536 00:31:01,360 --> 00:31:05,104 Vzhľadom k tomu, keď ste vytváranie týchto funkcií, 537 00:31:05,104 --> 00:31:06,770 nemáte skutočne vedieť, čo sa deje. 538 00:31:06,770 --> 00:31:10,210 Takže občas by ste chceli nejakú chybu, alebo možno len chcete varovanie. 539 00:31:10,210 --> 00:31:12,160 V tomto prípade, R nerobí. 540 00:31:12,160 --> 00:31:14,300 Takže je to naozaj len na vám na základe off o tom, čo 541 00:31:14,300 --> 00:31:17,310 si myslíte, že jazyk by mal robiť v tomto prípade 542 00:31:17,310 --> 00:31:22,920 Ak máte prejsť do vektora Boolean keď robíte v prípade stavu. 543 00:31:22,920 --> 00:31:31,733 >> Povedzme, že ste mali pôvodné jedna, ak iný vráti TRUE, a vy ste 544 00:31:31,733 --> 00:31:34,190 chystá sa vrátiť FALSE. 545 00:31:34,190 --> 00:31:39,300 Takže jeden spôsob abstrahovať je to, že som 546 00:31:39,300 --> 00:31:41,530 Dokonca ani nemusíte podmieneného vec. 547 00:31:41,530 --> 00:31:47,220 Ďalšia vec, ktorú môžem urobiť, je len vrátenie samotnej hodnoty. 548 00:31:47,220 --> 00:31:53,240 Takže ak si všimnete, ak máte do Val je vyšší ako 5, 549 00:31:53,240 --> 00:31:56,350 to bude návrat vector FALSE FALSE TRUE. 550 00:31:56,350 --> 00:31:58,850 >> Možno, že to je to, čo Chcete pre bounded.compare. 551 00:31:58,850 --> 00:32:02,940 Ak chcete vrátiť vektor Boolean kde sa porovnáva každú z hodnôt 552 00:32:02,940 --> 00:32:04,190 pre seba. 553 00:32:04,190 --> 00:32:11,165 Takže si môžete jednoducho bounded.compare funkcia x, sa rovná 5. 554 00:32:11,165 --> 00:32:13,322 555 00:32:13,322 --> 00:32:15,363 A potom miesto vykonávania , Ak iný stav, 556 00:32:15,363 --> 00:32:21,430 Ja som jednoducho ísť k návratu x je väčšie ako 5. 557 00:32:21,430 --> 00:32:23,620 Takže ak je to pravda, potom to bude vracať TRUE. 558 00:32:23,620 --> 00:32:26,830 A potom, ak to nie je, je to chystá sa vrátiť FALSE. 559 00:32:26,830 --> 00:32:30,880 >> A to bude pracovať pre niektoré z týchto štruktúr. 560 00:32:30,880 --> 00:32:41,450 Tak som si bounded.compare c 1 6 alebo 9 a potom budem hovoriť rovná 6, 561 00:32:41,450 --> 00:32:42,799 napríklad. 562 00:32:42,799 --> 00:32:44,840 A potom, že to bude vám ten správny Boolean 563 00:32:44,840 --> 00:32:48,240 vektor, ktorý ste navrhovaní. 564 00:32:48,240 --> 00:32:50,660 >> To sú len funkcie a to mi teraz sa proste 565 00:32:50,660 --> 00:32:54,980 ukázať vám niektoré interaktívne vizualizácie. 566 00:32:54,980 --> 00:32:59,700 Ja si nemyslím, že v skutočnosti sa Wi-Fi tu tak nech mi jednoducho ísť dopredu 567 00:32:59,700 --> 00:33:01,970 a preskočiť tohle myslím. 568 00:33:01,970 --> 00:33:05,260 >> Ale jedna vec, ktorá je v pohode však je, že ak ste práve 569 00:33:05,260 --> 00:33:09,600 chcete vyskúšať veľa rôzne príkazy dát, 570 00:33:09,600 --> 00:33:13,320 je tu veľa rôznych dátových sád ktoré sú už predinštalovaný na R. 571 00:33:13,320 --> 00:33:15,770 Takže jeden z nich je volal iris dátovej sady. 572 00:33:15,770 --> 00:33:18,910 To je jeden z najviac známy tie v strojového učenia. 573 00:33:18,910 --> 00:33:23,350 Budete zvyčajne len urobiť nejakú testovacie prípady, či je váš kód beží. 574 00:33:23,350 --> 00:33:27,520 Tak nech to len skontrolovať, čo dúhovka je. 575 00:33:27,520 --> 00:33:33,130 >> Takže to, čo sa deje byť dátový rámec. 576 00:33:33,130 --> 00:33:36,000 A je to celkom dlho, pretože Len som vytlačiť clonu. 577 00:33:36,000 --> 00:33:38,810 Je to tlač na celú vec. 578 00:33:38,810 --> 00:33:42,830 Tak to má všetky tieto rôzne názvy. 579 00:33:42,830 --> 00:33:45,505 Takže dúhovka je kolekcia rôznych kvetín. 580 00:33:45,505 --> 00:33:48,830 V tomto prípade je to hovorí tie druhy to, 581 00:33:48,830 --> 00:33:54,760 Všetky tieto rôzne šírky a Dĺžky listene lístok a plátku. 582 00:33:54,760 --> 00:33:58,880 >> A tak normálne, ak Ak chcete tlačiť clonu, 583 00:33:58,880 --> 00:34:03,680 Napríklad, nechcete ho mať to všetko, pretože to môže prevziať 584 00:34:03,680 --> 00:34:05,190 Celá konzoly. 585 00:34:05,190 --> 00:34:09,280 Takže jedna vec, ktorá je naozaj pekná je funkcia hlavy. 586 00:34:09,280 --> 00:34:12,929 Takže ak ste práve robiť hlavu iris, bude vám 587 00:34:12,929 --> 00:34:17,389 Prvých päť riadkov, alebo šesť myslím. 588 00:34:17,389 --> 00:34:19,909 A potom tiež tí, stačí zadať tu. 589 00:34:19,909 --> 00:34:22,914 Takže 20-- to bude dávať si prvých 20 riadkov. 590 00:34:22,914 --> 00:34:24,830 A ja som vlastne tak trochu prekvapený, že táto 591 00:34:24,830 --> 00:34:28,770 dal mi šesť, takže nechaj ma ísť napred a skontrolujte, či iris-- alebo hlavy, je mi ľúto. 592 00:34:28,770 --> 00:34:31,699 593 00:34:31,699 --> 00:34:34,960 A tu to bude dávať vy dokumentácia 594 00:34:34,960 --> 00:34:37,960 z toho, čo je hodnota hlava robí. 595 00:34:37,960 --> 00:34:40,839 Tak to vráti prvý alebo posledná objektu. 596 00:34:40,839 --> 00:34:42,630 A potom budem pozrite sa na predvolené hodnoty. 597 00:34:42,630 --> 00:34:47,340 A potom hovorí, že východiskové Metóda head x a n sa rovná 6L. 598 00:34:47,340 --> 00:34:50,620 Tak to vráti prvých šesť prvkov. 599 00:34:50,620 --> 00:34:55,050 A podobne, ak si všimnete, tu som Nemusel špecifikovať n = 6. 600 00:34:55,050 --> 00:34:56,840 V predvolenom nastavení sa používa šesť, povedal by som. 601 00:34:56,840 --> 00:35:00,130 A potom, keď chcem zadať určitý hodnoty, potom som si názor, že rovnako. 602 00:35:00,130 --> 00:35:02,970 603 00:35:02,970 --> 00:35:10,592 >> Takže to je asi jednoduché príkazy a tu je ešte jeden, ktorý je jen-- dobre, 604 00:35:10,592 --> 00:35:12,550 Aj can-- je to vlastne trochu zložitejšie, 605 00:35:12,550 --> 00:35:17,130 ale to bude len vziať triedu každého stĺpca dúhovky dátovej sady. 606 00:35:17,130 --> 00:35:20,910 Takže to bude to, čo každý z nich ukáže stĺpce sú, pokiaľ ide o ich type. 607 00:35:20,910 --> 00:35:23,665 Takže listene lístok dĺžka je číselné, listene lístok šírka je číselný. 608 00:35:23,665 --> 00:35:26,540 Všetky tieto hodnoty sú iba číselné pretože si môžete povedať, z týchto údajov 609 00:35:26,540 --> 00:35:29,440 štruktúry sa jedná o všetci budeme numerickej. 610 00:35:29,440 --> 00:35:34,310 >> A stĺpec druhov bude faktorom. 611 00:35:34,310 --> 00:35:37,270 Takže za normálnych okolností, by si myslíte, že to je ako reťazec znakov. 612 00:35:37,270 --> 00:35:48,830 Ale ak si proste irisSpecies, a potom budem robiť hlavu 5, 613 00:35:48,830 --> 00:35:51,820 a to bude pre tlač out prvých piatich hodnôt. 614 00:35:51,820 --> 00:35:54,150 >> A potom upozornenie Táto úroveň. 615 00:35:54,150 --> 00:35:58,870 Tak to je saying-- je to spôsob, ako R: mať kategorické premenné. 616 00:35:58,870 --> 00:36:03,765 Takže namiesto toho len majúci reťazca znakov, 617 00:36:03,765 --> 00:36:06,740 to má úrovne sa stanovia najmä ktorý tieto veci sú. 618 00:36:06,740 --> 00:36:12,450 >> Povedzme, že irisSpecies 1. 619 00:36:12,450 --> 00:36:17,690 Takže to, čo chcete robiť, tu je, že som podmnožín k tomuto druhu stĺpca. 620 00:36:17,690 --> 00:36:21,480 Tak to trvá Druh stĺpec a potom 621 00:36:21,480 --> 00:36:23,820 indexuje získať prvý prvok. 622 00:36:23,820 --> 00:36:27,140 Tak to by vám mal dať setosa. 623 00:36:27,140 --> 00:36:28,710 A to vám tu tiež dáva úrovne. 624 00:36:28,710 --> 00:36:32,812 >> Takže si môžete tiež porovnať to znak setosa 625 00:36:32,812 --> 00:36:34,645 a to nebude byť pravda, pretože jeden 626 00:36:34,645 --> 00:36:37,940 je iného typu, než druhý. 627 00:36:37,940 --> 00:36:40,590 Alebo Myslím, že je to pravda, pretože R je inteligentnejší než to. 628 00:36:40,590 --> 00:36:45,420 A to vyzerá na to, a potom sa hovorí, možno to je to, čo chcete. 629 00:36:45,420 --> 00:36:51,860 Takže to bude hovoriť charakter string setosa je rovnaký, ako je tento. 630 00:36:51,860 --> 00:37:01,290 A potom podobne, môžete tiež len chytiť tie ako tak ďalej. 631 00:37:01,290 --> 00:37:05,580 >> Takže to je len nejaký druh rýchle príkazy dátovej sady. 632 00:37:05,580 --> 00:37:08,030 Tak tu je to nejaký prieskum dát. 633 00:37:08,030 --> 00:37:11,360 Tak to je trochu viac podieľa sa na analýze dát. 634 00:37:11,360 --> 00:37:18,340 A to je prevzatý z niektorých bootcamp do výskumu v Berkeley. 635 00:37:18,340 --> 00:37:20,790 >> Tak knižnica cudzie. 636 00:37:20,790 --> 00:37:24,880 Takže idem sa načíta knižnica, ktorá sa nazýva cudzí. 637 00:37:24,880 --> 00:37:32,460 Tak to bude, aby mi read.dta tak predpokladať, že mám tento súbor dát. 638 00:37:32,460 --> 00:37:39,000 Tento je uložený v aktuálnej pracovný adresár môj konzoly. 639 00:37:39,000 --> 00:37:42,190 Takže poďme sa pozrieť, čo práve pracovný adresár. 640 00:37:42,190 --> 00:37:44,620 >> Tak tu je môj pracovný adresár. 641 00:37:44,620 --> 00:37:50,040 A čítanie dát DOT, tento vec, hovorí tento súbor 642 00:37:50,040 --> 00:37:54,650 je umiestnený v priečinku dát Tento aktuálny pracovný adresár. 643 00:37:54,650 --> 00:38:00,520 A read.dta to nie je predvolené príkaz. 644 00:38:00,520 --> 00:38:02,760 Myslím, že načítanie som to v už. 645 00:38:02,760 --> 00:38:04,750 IEI predpokladal som nahral to v už. 646 00:38:04,750 --> 00:38:08,115 >> Ale rovnako tak read.dta nebude byť predvolený príkaz. 647 00:38:08,115 --> 00:38:11,550 A to je dôvod, prečo budete mať načítať v tejto knižnici package-- 648 00:38:11,550 --> 00:38:14,500 Tento balík nazývaný cudzie. 649 00:38:14,500 --> 00:38:16,690 A v prípade, že nemáte balíček, myslím, že 650 00:38:16,690 --> 00:38:19,180 zahraničné je jedným z vstavaných ty. 651 00:38:19,180 --> 00:38:31,150 V opačnom prípade môžete tiež robiť install.packages 652 00:38:31,150 --> 00:38:33,180 a to nainštalovať balík. 653 00:38:33,180 --> 00:38:36,878 A to vám dá R. Uh, no. 654 00:38:36,878 --> 00:38:39,830 655 00:38:39,830 --> 00:38:43,140 A potom som len tak prestať to preto, že už si to. 656 00:38:43,140 --> 00:38:46,920 >> Ale to, čo je naozaj pekné o R je to, že správu balíkov 657 00:38:46,920 --> 00:38:48,510 Systém je veľmi elegantný. 658 00:38:48,510 --> 00:38:52,470 Vzhľadom k tomu, že sa bude ukladať všetko naozaj pekne pre vás. 659 00:38:52,470 --> 00:38:59,780 Takže v tomto prípade, že to bude ukladať sa v Verím, že táto knižnica tu. 660 00:38:59,780 --> 00:39:02,390 >> Takže kedykoľvek budete chcieť, aby inštalovať nové balíčky, 661 00:39:02,390 --> 00:39:04,980 je to rovnako jednoduché ako robí install.packages 662 00:39:04,980 --> 00:39:07,500 a R bude riadiť všetky balíčky pre vás. 663 00:39:07,500 --> 00:39:12,900 Takže si nemusíte robiť niečo Python, kde máte externý balíčka 664 00:39:12,900 --> 00:39:15,330 manažéri ako papier Anaconda, kde ste 665 00:39:15,330 --> 00:39:18,310 doing-- inštaláciu balíčky mimo Python 666 00:39:18,310 --> 00:39:20,940 a potom sa ich pokúsite spustiť sami. 667 00:39:20,940 --> 00:39:22,210 Tak toto je naozaj príjemný spôsob, ako. 668 00:39:22,210 --> 00:39:25,590 >> A install.packages vyžaduje pripojenie k internetu. 669 00:39:25,590 --> 00:39:31,950 Trvá to zo servera a úložisko, ktoré 670 00:39:31,950 --> 00:39:33,960 zbiera všetky balíky sa nazýva CRAN. 671 00:39:33,960 --> 00:39:40,690 A môžete určiť, aký typ zrkadla Ak chcete stiahnuť balíčky z. 672 00:39:40,690 --> 00:39:43,420 >> Tak tu beriem tento súbor dát. 673 00:39:43,420 --> 00:39:46,240 Ja som to čítal v túto funkciu používať. 674 00:39:46,240 --> 00:39:49,360 Tak nechaj ma ísť dopredu a urobiť to. 675 00:39:49,360 --> 00:39:52,900 >> Takže predpokladajme, že máte tento súbor dát 676 00:39:52,900 --> 00:39:55,550 a máte úplne potuchy, čo to je. 677 00:39:55,550 --> 00:39:58,560 A to vlastne príde pomerne často v priemysle 678 00:39:58,560 --> 00:40:00,910 kde stačí mať tieto tony a tony chaotický vecí 679 00:40:00,910 --> 00:40:02,890 a sú neuveriteľne unlabeled. 680 00:40:02,890 --> 00:40:06,380 Tak tu to mám dátový súbor, a ja neviem, 681 00:40:06,380 --> 00:40:08,400 čo to je tak, že som jednoducho ukazuje na to pozrieť. 682 00:40:08,400 --> 00:40:10,620 >> Takže budem robiť po hlave. 683 00:40:10,620 --> 00:40:14,190 Tak som skontrolovať prvých šesť stĺpy, čo to je dátová sada. 684 00:40:14,190 --> 00:40:21,730 Tak to je stav, pres04, a potom Všetky tieto rôzne druh stĺpcov. 685 00:40:21,730 --> 00:40:25,612 A čo je zaujímavé tu, myslím, že ste to vy 686 00:40:25,612 --> 00:40:27,945 by sa predpokladať, že to vyzerá ako nejaký druh volieb. 687 00:40:27,945 --> 00:40:30,482 688 00:40:30,482 --> 00:40:32,190 A myslím, že práve od pri pohľade na súbore 689 00:40:32,190 --> 00:40:41,070 meno to je nejaký druh kolekcia údajov o kandidátov alebo voličov 690 00:40:41,070 --> 00:40:44,920 Kto hlasoval pre konkrétne prezidentmi alebo kandidáti prezident 691 00:40:44,920 --> 00:40:46,550 pre voľby 2004. 692 00:40:46,550 --> 00:40:52,920 >> Takže tu je hodnoty 1, 2 tak jeden spôsob ukladania 693 00:40:52,920 --> 00:40:56,540 uchádzači prezident sú ich mená. 694 00:40:56,540 --> 00:40:59,780 V tomto prípade to vyzerá, že sú to len celočíselné hodnoty. 695 00:40:59,780 --> 00:41:04,030 Takže 2004, to bol Bush proti Kerry verím. 696 00:41:04,030 --> 00:41:09,010 A teraz, povedzme, že jednoducho neviem či 1 zodpovedá Bush alebo 2, 697 00:41:09,010 --> 00:41:11,703 zodpovedá Kerry alebo a tak ďalej a tak ďalej, že jo? 698 00:41:11,703 --> 00:41:15,860 >> A to je, len pre mňa, pomerne častým problémom. 699 00:41:15,860 --> 00:41:18,230 Takže to, čo môžete urobiť v tomto prípade? 700 00:41:18,230 --> 00:41:20,000 Takže poďme skontrolovať všetky tieto ďalšie veci. 701 00:41:20,000 --> 00:41:22,790 >> štát, ja som za predpokladu, že táto pochádza z rôznych štátov. 702 00:41:22,790 --> 00:41:25,100 partyid, príjem. 703 00:41:25,100 --> 00:41:27,710 Poďme sa pozrieť na partyid. 704 00:41:27,710 --> 00:41:32,800 Takže možno jedna vec, ktorú môžete urobiť, je pozrite sa na každej z pozorovania 705 00:41:32,800 --> 00:41:36,250 ktoré majú partyid republikánskych alebo demokrat, alebo tak niečo. 706 00:41:36,250 --> 00:41:38,170 Tak poďme sa len pozrieť na to, čo je partyid. 707 00:41:38,170 --> 00:41:41,946 >> Takže budem brať dát, a potom idem 708 00:41:41,946 --> 00:41:47,960 to urobiť znak dolára subjekt, ktorý som robil predtým 709 00:41:47,960 --> 00:41:50,770 a to bude podmnožiny do tohto stĺpca. 710 00:41:50,770 --> 00:41:57,760 A potom budem na hlavu to v 20, len aby videl, ako to vyzerá. 711 00:41:57,760 --> 00:42:00,170 >> Tak to je len banda agentúr. 712 00:42:00,170 --> 00:42:02,800 Takže inými slovami, máte Chýbajú údaje o týchto ľudí. 713 00:42:02,800 --> 00:42:08,100 Ale tiež všimnúť dát partyid je faktor 714 00:42:08,100 --> 00:42:10,030 tak to vám dáva rôzne kategórie. 715 00:42:10,030 --> 00:42:14,170 Takže inými slovami, partyid môže trvať Demokrat, republikán, Independent, 716 00:42:14,170 --> 00:42:16,640 alebo niečo iné. 717 00:42:16,640 --> 00:42:23,940 >> Tak poďme do toho a poďme zistiť, ktoré z nich je-- oh, OK. 718 00:42:23,940 --> 00:42:28,480 Takže idem do podmnožiny k partyid a potom 719 00:42:28,480 --> 00:42:32,780 pozrite sa na tie, ktoré sú Demokrat, napríklad. 720 00:42:32,780 --> 00:42:37,150 Tohle vám Boolean, obrovský Boolean o trues a FALSEs. 721 00:42:37,150 --> 00:42:41,630 >> A teraz, povedzme, že chcem na podmnožiny na týchto ľudí. 722 00:42:41,630 --> 00:42:47,260 Takže to bude trvať môj DAT a podmnožina sa podľa toho, čo pozorovania 723 00:42:47,260 --> 00:42:48,910 majú partyid rovný rovná demokrat. 724 00:42:48,910 --> 00:42:52,830 725 00:42:52,830 --> 00:42:55,180 A to je pomerne dlhá, pretože tam je tak veľa z nich. 726 00:42:55,180 --> 00:42:59,060 Takže teraz, budem na hlavu to v 20. 727 00:42:59,060 --> 00:43:05,690 728 00:43:05,690 --> 00:43:11,270 >> A ako zistíte, rovná sa rovná Je zaujímavé, že si 729 00:43:11,270 --> 00:43:13,250 already-- ste tiež, vrátane NAS. 730 00:43:13,250 --> 00:43:19,010 Takže v tomto prípade sa stále nemôže dostať akékoľvek informácie, pretože teraz máte NAS 731 00:43:19,010 --> 00:43:22,650 a vy len chcete zistiť, ktoré z pozorovanie zodpovedajú Democrat 732 00:43:22,650 --> 00:43:24,670 a nie tie chýbajúce hodnoty sami. 733 00:43:24,670 --> 00:43:27,680 Tak ako sa vám zbaviť sa týchto agentúr? 734 00:43:27,680 --> 00:43:36,410 >> Tak tu som len pomocou zvýąenie na mojej kurzora a potom hovorí pohybujúce sa okolo. 735 00:43:36,410 --> 00:43:39,778 A potom tu ja som jednoducho ísť hovoriť is.na datpartyid. 736 00:43:39,778 --> 00:43:48,970 737 00:43:48,970 --> 00:43:52,720 Tak to aj a bude trvať dve rôzne logické vektorov 738 00:43:52,720 --> 00:43:57,160 a hovoria, že to bude TRUE a FALSE napr. 739 00:43:57,160 --> 00:43:59,190 Takže to bude robiť túto komponent-múdry. 740 00:43:59,190 --> 00:44:02,910 Tak tu hovorím zavádzanie dátový rámec, podmnožiny 741 00:44:02,910 --> 00:44:10,170 na tie, ktoré zodpovedajú demokrat, a odstrániť niektoré z nich, ktoré nie sú NA. 742 00:44:10,170 --> 00:44:13,540 >> Tak toto by mala will-- dať niečo. 743 00:44:13,540 --> 00:44:16,540 744 00:44:16,540 --> 00:44:17,600 Pozrime sa is.na. 745 00:44:17,600 --> 00:44:24,670 746 00:44:24,670 --> 00:44:27,690 Skúsme is.na datpartyid. 747 00:44:27,690 --> 00:44:36,290 748 00:44:36,290 --> 00:44:45,290 A to by malo dať you-- sorry-- len logický vektor. 749 00:44:45,290 --> 00:44:49,260 A potom, pretože je to tak dlho, Chystám sa podmnožiny do 20 ° C. 750 00:44:49,260 --> 00:44:49,760 OK. 751 00:44:49,760 --> 00:44:51,570 Tak by to malo fungovať. 752 00:44:51,570 --> 00:44:54,700 >> A toto bude tiež trues. 753 00:44:54,700 --> 00:45:01,830 Aha, takže moja chyba je, že som sa nehnevajte použitie C ++ a R zamieňajú tak Robím 754 00:45:01,830 --> 00:45:03,590 táto chyba po celú dobu. 755 00:45:03,590 --> 00:45:05,807 A operátor v skutočnosti ten, ktorý chcete. 756 00:45:05,807 --> 00:45:08,140 Nechcete používať dva ampersand, len jeden človek. 757 00:45:08,140 --> 00:45:14,970 758 00:45:14,970 --> 00:45:17,010 OK. 759 00:45:17,010 --> 00:45:18,140 >> Tak poďme sa pozrieť. 760 00:45:18,140 --> 00:45:20,930 761 00:45:20,930 --> 00:45:23,920 Tak sme podmnožina sa partyid kde sú demokrat 762 00:45:23,920 --> 00:45:25,300 a nie sú to chýbajúce hodnoty. 763 00:45:25,300 --> 00:45:27,690 A teraz sa poďme pozrieť na tie, ktoré oni volili. 764 00:45:27,690 --> 00:45:31,530 Takže to vyzerá, že väčšina z nich hlasovalo pre 1. 765 00:45:31,530 --> 00:45:36,090 Takže budem pokračovať a hovoria, že je Kerry. 766 00:45:36,090 --> 00:45:39,507 >> A podobne, môžete tiež ísť do Republican 767 00:45:39,507 --> 00:45:41,090 a dúfajme, že to by vám mal dať 2. 768 00:45:41,090 --> 00:45:49,730 769 00:45:49,730 --> 00:45:51,770 Je to len banda rôznych stĺpcov. 770 00:45:51,770 --> 00:45:53,070 A skutočne, to je 2. 771 00:45:53,070 --> 00:45:55,750 Takže partyid všetky republikán, väčšina z nich hlasujú pre 2 osoby. 772 00:45:55,750 --> 00:45:58,390 >> Tak vyzerá to, že, len pri pohľade na to, 773 00:45:58,390 --> 00:46:00,600 Republikánska bude very-- alebo partyid 774 00:46:00,600 --> 00:46:02,790 bude veľmi významným faktorom pri určovaní 775 00:46:02,790 --> 00:46:05,420 ktorý kandidát sú bude hlasovať za. 776 00:46:05,420 --> 00:46:07,120 A je to samozrejme platí všeobecne. 777 00:46:07,120 --> 00:46:10,139 A to zodpovedá vašim intuícia, samozrejme. 778 00:46:10,139 --> 00:46:11,930 Takže to vyzerá, ako by som málo času, takže 779 00:46:11,930 --> 00:46:17,040 dovoľte mi, aby som mala pokračovať a ukázať niekoľko rýchlych záberov. 780 00:46:17,040 --> 00:46:21,120 Tak tu je niečo, čo je trochu viac komplikované s vizualizáciou. 781 00:46:21,120 --> 00:46:26,450 Takže v tomto prípade sa jedná o veľmi Jednoduchá analýza len kontrolovať, čo 782 00:46:26,450 --> 00:46:28,500 prezident '04 je. 783 00:46:28,500 --> 00:46:33,920 >> Takže v tomto prípade je, povedzme, že chcel na túto otázku odpovedať. 784 00:46:33,920 --> 00:46:38,540 Takže predpokladám, že sme chceli poznať hlasovania správanie v 2004 prezident volieb 785 00:46:38,540 --> 00:46:41,170 a ako sa to líši podľa rasy. 786 00:46:41,170 --> 00:46:44,380 Takže nielen že chcete zobraziť správanie hlasovania, 787 00:46:44,380 --> 00:46:47,860 ale chcete podmnožinu každého závod a trochu zhrnúť, že. 788 00:46:47,860 --> 00:46:50,770 A môžete len povedať o tejto zložitej značenia 789 00:46:50,770 --> 00:46:52,580 že je to druh stále hmlisté. 790 00:46:52,580 --> 00:46:56,390 >> Takže jeden z viacerých pokročilý výskum balíky, ktoré tiež druh nedávny 791 00:46:56,390 --> 00:47:00,070 sa nazýva dplyr. 792 00:47:00,070 --> 00:47:03,060 Tak to je to jediné správne tady. 793 00:47:03,060 --> 00:47:08,080 A ggg-- ggplot2 je len pekná spôsob, ako robiť lepšie vizualizácie 794 00:47:08,080 --> 00:47:09,400 ako vstavané v jednom. 795 00:47:09,400 --> 00:47:11,108 >> Takže idem nahrať tieto dve knižnice. 796 00:47:11,108 --> 00:47:13,200 797 00:47:13,200 --> 00:47:16,950 A potom, ja idem vpred a spustenie tohto príkazu. 798 00:47:16,950 --> 00:47:19,050 Stačí si len liečiť to ako čierna skrinka. 799 00:47:19,050 --> 00:47:23,460 >> Čo sa to deje, je, že táto potrubie Prevádzkovateľ je okolo v tomto argumente 800 00:47:23,460 --> 00:47:24,110 na tu. 801 00:47:24,110 --> 00:47:28,070 Takže hovorím Skupinu dát závod a potom prezidentom 04. 802 00:47:28,070 --> 00:47:31,530 A potom to všetko ostatné príkazy filtrovanie a potom sumarizuje 803 00:47:31,530 --> 00:47:34,081 kde robím počet a potom som ho vykresľovanie tu. 804 00:47:34,081 --> 00:47:39,980 805 00:47:39,980 --> 00:47:42,500 OK v pohode. 806 00:47:42,500 --> 00:47:44,620 Tak poďme do toho a vidieť, ako to vyzerá. 807 00:47:44,620 --> 00:47:52,280 808 00:47:52,280 --> 00:47:57,290 >> Takže to, čo sa tu deje, je, že som sa len vynesú každý zo závodov a potom 809 00:47:57,290 --> 00:47:59,670 tie, ktoré oni volili. 810 00:47:59,670 --> 00:48:03,492 A títo dva rôzne hodnoty zodpovedajú 2 a 1. 811 00:48:03,492 --> 00:48:05,325 Ak chcete, aby sa viac Elegantný, môžete tiež 812 00:48:05,325 --> 00:48:11,770 stačí zadať, že 2 je Kerry-- alebo 2 je Bush, a potom 1 Kerry. 813 00:48:11,770 --> 00:48:13,700 A tiež môžete mať že v legende. 814 00:48:13,700 --> 00:48:17,410 >> A tiež môžete rozdeliť tieto stĺpcové grafy. 815 00:48:17,410 --> 00:48:19,480 Vzhľadom k tomu, jedna vec je že, ak si všimnete, 816 00:48:19,480 --> 00:48:24,560 to nie je veľmi ľahko identifikovať ktorý z týchto dvoch hodnôt je väčšia. 817 00:48:24,560 --> 00:48:27,920 Takže jedna vec, ktorú by ste chceli urobiť, je tento modrá oblasť 818 00:48:27,920 --> 00:48:31,855 a len presunúť ju, takže tu Môžete porovnať tieto dva vedľa seba. 819 00:48:31,855 --> 00:48:34,480 A myslím, že je to niečo, čo som nemajú čas urobiť práve teraz, 820 00:48:34,480 --> 00:48:36,660 ale to je tiež veľmi jednoduché. 821 00:48:36,660 --> 00:48:40,310 Môžete sa len pozerať na manuálové stránky ggplot. 822 00:48:40,310 --> 00:48:47,170 Takže si môžete jednoducho ggplot ako to a prečítajte si do tejto manuálovej stránke. 823 00:48:47,170 --> 00:48:51,920 >> Tak mi dovoľte len rýchlo ukázať nejaké zaujímavé veci. 824 00:48:51,920 --> 00:48:57,610 Poďme ďalej a ísť to-- len aplikácie strojového učenia. 825 00:48:57,610 --> 00:49:02,450 Povedzme, že máme tieto tri balíčky takže budem nahrať ich do. 826 00:49:02,450 --> 00:49:05,500 827 00:49:05,500 --> 00:49:09,170 Tak to proste vytlačí sa na niektoré informácie potom, čo som vložený veci. 828 00:49:09,170 --> 00:49:15,220 Takže ja hovorím read.csv, Tento dátový súbor, a teraz 829 00:49:15,220 --> 00:49:18,940 Chystám sa ísť dopredu a pozrieť sa a vidieť, čo je vnútri tohto súboru údajov. 830 00:49:18,940 --> 00:49:22,080 >> Takže prvých 20 pozorovaní. 831 00:49:22,080 --> 00:49:27,190 Tak som proste x1, x2, a Y. Tak to Zdá sa, ako banda týchto hodnôt 832 00:49:27,190 --> 00:49:31,640 sú od asi 20 až 80 alebo tak. 833 00:49:31,640 --> 00:49:37,700 A potom podobne pre X2 a potom Tento Y sa zdá byť štítky 0 a 1. 834 00:49:37,700 --> 00:49:49,500 >> Ak chcete overiť, môžem proste zhrnutie dát X1. 835 00:49:49,500 --> 00:49:51,660 A potom podobne pre Všetky tieto ďalšie stĺpce. 836 00:49:51,660 --> 00:49:55,300 Takže zhrnutie je rýchly spôsob, ako len ukáže vám rýchle hodnoty. 837 00:49:55,300 --> 00:49:56,330 Oh, prepáč. 838 00:49:56,330 --> 00:49:58,440 Ten by mal byť Y. 839 00:49:58,440 --> 00:50:03,420 >> Takže v tomto prípade dáva kvantily, mediány, maxes rovnako. 840 00:50:03,420 --> 00:50:07,130 V tomto prípade, dáta, môžete vidieť že je to len bude 0 a 1. 841 00:50:07,130 --> 00:50:10,100 Tiež stredná hovorí 0.6, jednoducho znamená, že ju 842 00:50:10,100 --> 00:50:13,380 Zdá sa, ako by som mať viac ako 1s 0s. 843 00:50:13,380 --> 00:50:16,160 >> Tak nechaj ma ísť dopredu a prehliadka vám, ako to vyzerá. 844 00:50:16,160 --> 00:50:17,470 Takže som jednoducho ísť na plot to. 845 00:50:17,470 --> 00:50:22,852 846 00:50:22,852 --> 00:50:24,636 Pozrime sa, ako odstrániť to. 847 00:50:24,636 --> 00:50:30,492 848 00:50:30,492 --> 00:50:31,468 Oh OK. 849 00:50:31,468 --> 00:50:35,840 850 00:50:35,840 --> 00:50:36,340 OK. 851 00:50:36,340 --> 00:50:37,590 >> Tak toto je to, čo to vyzerá. 852 00:50:37,590 --> 00:50:46,310 Takže to vyzerá, že žlté I uvedenej as 0, a potom červenú som určený ako 1s. 853 00:50:46,310 --> 00:50:52,190 Tak tu to vyzerá štítok body a to 854 00:50:52,190 --> 00:50:56,410 Zdá sa, ako by si chcel nejaký druh klastrov na túto tému. 855 00:50:56,410 --> 00:51:01,020 >> A dovoľte mi, aby som jednoducho ísť dopredu a prehliadka ste niektoré z týchto vstavaných funkcií. 856 00:51:01,020 --> 00:51:03,580 Takže tu je lm. 857 00:51:03,580 --> 00:51:06,060 Tak to sa len snaží aby sa zmestili do linky to. 858 00:51:06,060 --> 00:51:08,640 Takže to, čo je najlepší spôsob, ako že som sa vojde línie, ako 859 00:51:08,640 --> 00:51:14,020 že bude najlepšie oddelí Tento druh klastrov. 860 00:51:14,020 --> 00:51:21,790 A v ideálnom prípade, stačí vidieť že som spustiť všetky tieto príkazy 861 00:51:21,790 --> 00:51:25,450 a potom, ja idem vpred a pridajte riadok. 862 00:51:25,450 --> 00:51:28,970 >> Takže sa to zdá ako najlepší odhad. 863 00:51:28,970 --> 00:51:34,150 Je to brať najlepšie ten, ktorý minimalizuje chyba v snahe, aby sa zmestili tento riadok. 864 00:51:34,150 --> 00:51:40,000 Je zrejmé, že tento druh vyzerá dobrý, ale nie je to najlepšie. 865 00:51:40,000 --> 00:51:43,130 A lineárne modely, v Všeobecne platí, že sa bude 866 00:51:43,130 --> 00:51:46,811 naozaj skvelé pre teóriu a tak nejako stavebných základov stroja 867 00:51:46,811 --> 00:51:47,310 učenie. 868 00:51:47,310 --> 00:51:50,330 Ale v praxi, budete Chcete urobiť niečo všeobecnejšieho. 869 00:51:50,330 --> 00:51:54,280 >> Takže si môžete len skúsiť spustiť niečo ako neurónové siete. 870 00:51:54,280 --> 00:51:57,110 Tieto veci sú čím ďalej častejšie. 871 00:51:57,110 --> 00:52:00,530 A jednoducho fungujú fantasticky pre veľké súbory dát. 872 00:52:00,530 --> 00:52:07,080 Takže v tomto prípade, my len have-- Poďme see-- máme nrow. 873 00:52:07,080 --> 00:52:09,010 Takže nrow je len hovorím, počet riadkov. 874 00:52:09,010 --> 00:52:11,790 Takže v tomto prípade, som majú 100 pozorovaní. 875 00:52:11,790 --> 00:52:15,010 >> Tak nechaj ma ísť dopredu a ako neurónové siete. 876 00:52:15,010 --> 00:52:18,620 Tak toto je naozaj pekný preto, že som si len povedať nnet 877 00:52:18,620 --> 00:52:21,767 a potom som regresiu Y. Takže Y je to, že stĺpec. 878 00:52:21,767 --> 00:52:23,850 A potom sa to regresiu na ďalšie dve premenné. 879 00:52:23,850 --> 00:52:27,360 Tak toto je kratšia notácie pre X1 a X2. 880 00:52:27,360 --> 00:52:29,741 >> Tak poďme do toho a spustiť to. 881 00:52:29,741 --> 00:52:30,240 Oh, prepáč. 882 00:52:30,240 --> 00:52:32,260 Musím bežať celú túto vec. 883 00:52:32,260 --> 00:52:37,500 A to je práve tlačí notácie na tom, ako rýchlo, alebo nie rýchlo sa 884 00:52:37,500 --> 00:52:38,460 zblížil. 885 00:52:38,460 --> 00:52:41,420 Takže to vyzerá, že sa zbiehajú. 886 00:52:41,420 --> 00:52:44,970 Tak nechaj ma ísť dopredu a tlač out, ako to vyzerá. 887 00:52:44,970 --> 00:52:51,260 >> Môžete tu je obrázok, a tu je obrys ukazuje, ako dobre zapadá. 888 00:52:51,260 --> 00:52:56,380 A to je jen-- môžete vidieť to, že je to veľmi, veľmi pekné. 889 00:52:56,380 --> 00:52:59,400 Mohlo by to byť aj overfitting, ale môžete si tiež 890 00:52:59,400 --> 00:53:03,390 za toto s ostatnými techniky, ako je cross-validácie. 891 00:53:03,390 --> 00:53:06,180 A títo sú tiež postavené v R. 892 00:53:06,180 --> 00:53:09,170 >> A dovoľte mi, aby som vám ukázať podporovať Vector Machine. 893 00:53:09,170 --> 00:53:12,470 To je ďalší naozaj obyčajný technika v strojového učenia. 894 00:53:12,470 --> 00:53:18,550 To je veľmi podobný lineárny modely, ale používa, čo sa nazýva metóda jadro. 895 00:53:18,550 --> 00:53:22,790 A pozrime sa, ako dobre, že robí. 896 00:53:22,790 --> 00:53:26,430 Takže toto je veľmi podobný tomu, ako dobre neurónová sieť vykonáva, 897 00:53:26,430 --> 00:53:27,900 ale je to oveľa hladšie. 898 00:53:27,900 --> 00:53:35,740 A je to založené mimo z what-- ako SVMs práce. 899 00:53:35,740 --> 00:53:40,250 >> Tak to je len veľmi rýchly prehľad niektorých 900 00:53:40,250 --> 00:53:43,822 z vstavaných funkcií, ktoré môžete urobiť a tiež niektoré z prieskumu dát. 901 00:53:43,822 --> 00:53:45,905 Takže ma proste ísť dopredu a vrátiť sa do záberov. 902 00:53:45,905 --> 00:53:50,290 903 00:53:50,290 --> 00:53:53,670 >> Tak zrejmé, že toto je nie veľmi komplexné. 904 00:53:53,670 --> 00:53:57,140 A to je naozaj len ukážka ukáže vám, čo môžete naozaj v R. 905 00:53:57,140 --> 00:53:59,100 Takže ak by ste rovnako ako sa dozvedieť viac, tu 906 00:53:59,100 --> 00:54:01,210 sú banda rôznych zdrojov. 907 00:54:01,210 --> 00:54:06,890 >> Takže ak ste radi učebnice alebo ste len rád čítanie veci on-line, 908 00:54:06,890 --> 00:54:09,670 potom je to fantastický jeden by Hadley Wickham, 909 00:54:09,670 --> 00:54:13,010 ktorý tiež vytvoril všetky tieto naozaj cool balíčky. 910 00:54:13,010 --> 00:54:17,420 Ak ste radi videá, potom Berkeley má úžasné bootcamp 911 00:54:17,420 --> 00:54:21,060 to je several-- je to trochu dlhé. 912 00:54:21,060 --> 00:54:24,210 A to vás naučí takmer všetko, čo ste chceli vedieť o R. 913 00:54:24,210 --> 00:54:27,770 >> A podobne je tu Codeacademy a všetky tieto iný druh 914 00:54:27,770 --> 00:54:29,414 na interaktívne webové stránky. 915 00:54:29,414 --> 00:54:31,580 Oni sú tiež stále common-- bežnejšie. 916 00:54:31,580 --> 00:54:33,749 Tak to je veľmi podobný Codeacademy. 917 00:54:33,749 --> 00:54:35,790 A napokon, ak ste práve Chcete spoločenstiev, a pomôcť, 918 00:54:35,790 --> 00:54:38,800 to sú banda veci, ktoré môžete ísť. 919 00:54:38,800 --> 00:54:40,880 Je zrejmé, že stále používať e-mailovej konferencie, práve 920 00:54:40,880 --> 00:54:44,860 ako takmer každý druhý programovací jazyk komunity. 921 00:54:44,860 --> 00:54:47,880 A #rstats, to je naša komunita Twitter. 922 00:54:47,880 --> 00:54:49,580 To je vlastne celkom bežné. 923 00:54:49,580 --> 00:54:50,850 A potom užívateľ! 924 00:54:50,850 --> 00:54:52,340 Je len naša konferencia. 925 00:54:52,340 --> 00:54:55,390 >> A potom, samozrejme, môžete použiť všetky tieto iné Q & A veci, 926 00:54:55,390 --> 00:54:57,680 ako pretečeniu zásobníka, Google, a potom GitHub. 927 00:54:57,680 --> 00:55:00,490 Pretože väčšina z týchto balíčkov a mnoho komunity 928 00:55:00,490 --> 00:55:03,420 bude sústredený okolo rozvojových kód, pretože je to open source. 929 00:55:03,420 --> 00:55:05,856 A to je len naozaj pekne na GitHub. 930 00:55:05,856 --> 00:55:08,730 A konečne, môžete sa ma, či kontaktovať stačí nejaké rýchle otázky. 931 00:55:08,730 --> 00:55:13,530 Takže si ma nájsť na Twitteri tu, moje webové stránky, a to len môj e-mail. 932 00:55:13,530 --> 00:55:17,840 Tak dúfajme, že to something-- len krátky teaser 933 00:55:17,840 --> 00:55:20,900 čoho R je naozaj schopný robiť. 934 00:55:20,900 --> 00:55:23,990 A dúfajme, že ste práve pozrite sa na tieto tri odkazy 935 00:55:23,990 --> 00:55:25,760 a uvidíte, čo môžete urobiť viac. 936 00:55:25,760 --> 00:55:28,130 A ja myslím, že je to len o tom. 937 00:55:28,130 --> 00:55:28,630 Vďaka. 938 00:55:28,630 --> 00:55:30,780 >> [APPLAUSE] 939 00:55:30,780 --> 00:55:31,968