1
00:00:00,000 --> 00:00:00,750

2
00:00:00,750 --> 00:00:09,800
>> [Hudba hrať]

3
00:00:09,800 --> 00:00:13,014

4
00:00:13,014 --> 00:00:13,680
DUSTIN TRAN: Ahoj.

5
00:00:13,680 --> 00:00:14,980
Volám sa Dustin.

6
00:00:14,980 --> 00:00:18,419
Takže budem prezentovať
Analýza dát v R.

7
00:00:18,419 --> 00:00:19,710
Len niečo málo o sebe.

8
00:00:19,710 --> 00:00:24,320
Ja som v súčasnej dobe študentom
strojárstvo a aplikovaných vied.

9
00:00:24,320 --> 00:00:28,330
Študujem prienik
strojové učenie a štatistiky

10
00:00:28,330 --> 00:00:31,375
tak Analýza dát v R je
Naozaj zásadný pre to, čo

11
00:00:31,375 --> 00:00:33,790
Ja na dennej báze.

12
00:00:33,790 --> 00:00:35,710
>> A R je zvlášť
dobré pre analýzu dát

13
00:00:35,710 --> 00:00:39,310
pretože je to veľmi dobré pre prototypovania.

14
00:00:39,310 --> 00:00:43,590
A zvyčajne, keď robíte nejaký
analýzy dát, veľa problémov

15
00:00:43,590 --> 00:00:44,920
budú kognitívne.

16
00:00:44,920 --> 00:00:48,700
A tak si len chcete mať
nejaký naozaj dobrý jazyk, ktorý

17
00:00:48,700 --> 00:00:53,770
je len dobre pre to
vstavaných funkcií, na rozdiel

18
00:00:53,770 --> 00:00:57,430
sa museli vysporiadať s nízkymi vecami úrovne.

19
00:00:57,430 --> 00:01:01,040
Takže na začiatku, ja som jednoducho ísť
predstaviť, čo je R, by preto

20
00:01:01,040 --> 00:01:04,540
Ak ho chcete použiť, a
potom prejsť do nejakej demo,

21
00:01:04,540 --> 00:01:07,060
a len ďalej od toho.

22
00:01:07,060 --> 00:01:08,150
>> Takže to, čo je R?

23
00:01:08,150 --> 00:01:11,180
R je len jazyk sa vyvíjal
pre štatistické výpočty

24
00:01:11,180 --> 00:01:12,450
a vizualizácie.

25
00:01:12,450 --> 00:01:16,000
Takže to, čo to znamená, že
je to veľmi výborný jazyk

26
00:01:16,000 --> 00:01:22,400
pre nejaký druh vec, ktorá sa zaoberá
neistota alebo vizualizácia dát.

27
00:01:22,400 --> 00:01:24,850
Takže budete mať všetky tieto
rozdelenia pravdepodobnosti.

28
00:01:24,850 --> 00:01:27,140
Tam sa bude
vstavaných funkcií.

29
00:01:27,140 --> 00:01:31,650
Budete mať tiež vynikajúce
vykresľovanie balíčky.

30
00:01:31,650 --> 00:01:34,110
>> Python je ďalší konkurenčný
jazyka pre dáta.

31
00:01:34,110 --> 00:01:40,020
A ešte jedna vec, ktorú som si, že R
je oveľa lepšie je vizualizácia.

32
00:01:40,020 --> 00:01:45,200
Takže to, čo uvidíte v ukážke, ako
dobre, je len veľmi intuitívne jazyk

33
00:01:45,200 --> 00:01:48,050
že proste funguje veľmi dobre.

34
00:01:48,050 --> 00:01:53,140
To je tiež zadarmo a open source, as
Je nejaký iný dobrý jazyk, myslím.

35
00:01:53,140 --> 00:01:55,440
>> A tu, banda len
kľúčové slová hodil na vás.

36
00:01:55,440 --> 00:02:00,450
Je to dynamický, čo znamená, ak máte
Špecifický typ priradený k objektu

37
00:02:00,450 --> 00:02:02,025
než to bude len to zmeniť za behu.

38
00:02:02,025 --> 00:02:05,670
Je to lenivý, takže je to chytro
Ako to robí výpočty.

39
00:02:05,670 --> 00:02:12,250
Funkčné čo znamená, že môže skutočne fungovať
založený off funkcií tak anything--

40
00:02:12,250 --> 00:02:16,910
nejaký druh manipulácie ste
robí, bude založený vypnutie.

41
00:02:16,910 --> 00:02:20,162
>> Tak binárne operátory, napríklad,
sú proste neodmysliteľne funkcie.

42
00:02:20,162 --> 00:02:21,870
A všetko, čo
budete robiť, je

43
00:02:21,870 --> 00:02:24,690
bude utiecť funkcie sám.

44
00:02:24,690 --> 00:02:27,140
A potom objektovo orientované rovnako.

45
00:02:27,140 --> 00:02:30,930
>> Takže tu je XKCD sprisahania.

46
00:02:30,930 --> 00:02:34,350
Nielen preto, že mám pocit, ako
XKCD je základom akéhokoľvek druhu

47
00:02:34,350 --> 00:02:37,770
prezentácie, ale preto, že
Mám pocit, že to naozaj

48
00:02:37,770 --> 00:02:42,160
kladivá upozorňuje, že mnoho
Doba, kedy robíte nejaký údajov

49
00:02:42,160 --> 00:02:46,570
analýza, nie je problém
tak moc, ako rýchlo beží,

50
00:02:46,570 --> 00:02:49,850
ale ako dlho to bude
vás programovať úloha.

51
00:02:49,850 --> 00:02:54,112
Tak tu je práve analyzuje, či
Stratégia a alebo b je účinnejšia.

52
00:02:54,112 --> 00:02:55,820
To bude
niečo, čo ste

53
00:02:55,820 --> 00:02:58,290
bude zaoberať veľa sa v
Druh jazyky low-level

54
00:02:58,290 --> 00:03:03,440
kde máte čo do činenia s Seg porúch,
alokácia pamäte, inicializácia,

55
00:03:03,440 --> 00:03:05,270
aj zhotovenie vstavaných funkcií.

56
00:03:05,270 --> 00:03:09,920
A toto všetko je nakladané
veľmi, veľmi elegantne v R.

57
00:03:09,920 --> 00:03:12,839
>> Takže len ku kladive to
bod, najväčšou prekážkou

58
00:03:12,839 --> 00:03:13,880
bude poznávacie.

59
00:03:13,880 --> 00:03:17,341
Takže analýza dát je veľmi ťažké problém.

60
00:03:17,341 --> 00:03:19,340
Či už robíte
strojové učenie alebo ste

61
00:03:19,340 --> 00:03:22,550
robí len nejaký druh
základný prieskum dát,

62
00:03:22,550 --> 00:03:25,290
nechcete mať
aby dokument

63
00:03:25,290 --> 00:03:27,440
a potom kompilovať
niečo, čo pri každom

64
00:03:27,440 --> 00:03:31,010
Chcete vidieť, čo stĺpec vyzerá,
aké konkrétne položky v matrici

65
00:03:31,010 --> 00:03:32,195
vyzerá.

66
00:03:32,195 --> 00:03:34,320
Takže si len chcete mať
niektoré naozaj pekné rozhranie

67
00:03:34,320 --> 00:03:37,740
môžete spustiť jednoduchú funkciu
že indexy na čokoľvek

68
00:03:37,740 --> 00:03:41,870
chcete a len spustiť odtiaľ.

69
00:03:41,870 --> 00:03:44,190
A budete potrebovať doménu
konkrétne jazyky pre to.

70
00:03:44,190 --> 00:03:51,750
A R bude naozaj pomôže definovať
problém a vyriešiť týmto spôsobom.

71
00:03:51,750 --> 00:03:58,690
>> Takže tu je graf ukazujúci programovanie
Obľuba R, ako je to preč v priebehu času.

72
00:03:58,690 --> 00:04:04,060
Takže ako vidíte, rovnako ako 2013, alebo
tak to jednoducho vyhodiť do povetria ohromne.

73
00:04:04,060 --> 00:04:09,570
A to bolo len preto, že z toho
obrovský trend v odvetví technológií

74
00:04:09,570 --> 00:04:10,590
o spracovanie veľkých objemov dát.

75
00:04:10,590 --> 00:04:13,010
Tiež, a to nielen technológie
priemysel, ale v skutočnosti

76
00:04:13,010 --> 00:04:16,490
akýkoľvek priemysel that-- pretože
Mnoho priemyselných odvetví

77
00:04:16,490 --> 00:04:20,589
sú trochu zásadné pre
sa snažia tieto problémy riešiť.

78
00:04:20,589 --> 00:04:24,590
A zvyčajne, môžete mať nejaké dobré
spôsob merania týchto problémov

79
00:04:24,590 --> 00:04:29,720
alebo je dokonca definovanie alebo
riešenie je pomocou dát.

80
00:04:29,720 --> 00:04:35,430
Takže myslím, že teraz je R 11.
najpopulárnejší jazyk na TIOBE

81
00:04:35,430 --> 00:04:38,200
a to bolo od tej doby rastie.

82
00:04:38,200 --> 00:04:40,740

83
00:04:40,740 --> 00:04:43,080
>> Tak tu je to trochu viac
rysy R. má

84
00:04:43,080 --> 00:04:46,900
enormný počet balení a
pre všetky tieto rôzne veci.

85
00:04:46,900 --> 00:04:52,470
Takže kedykoľvek budete mať
Určitým problémom, väčšina

86
00:04:52,470 --> 00:04:55,060
čas R bude mať
že funkcia pre vás.

87
00:04:55,060 --> 00:04:58,520
Takže ak chcete
budovať akési stroje

88
00:04:58,520 --> 00:05:02,770
učenie algoritmus nazvaný
Random Forest alebo rozhodovacie stromy,

89
00:05:02,770 --> 00:05:07,530
alebo dokonca sa snažia vziať priemer
funkcií alebo niektorý z týchto vecí,

90
00:05:07,530 --> 00:05:10,000
R bude mať to.

91
00:05:10,000 --> 00:05:14,190
>> A ak si budete záleží
optimalizácia, jedna vec, ktorá je spoločná

92
00:05:14,190 --> 00:05:17,430
sa, že potom, čo ste urobil prototypov
nejaký druh jazyka na vysokej úrovni,

93
00:05:17,430 --> 00:05:19,810
vám bude hodiť, že in--
budete len port, cez

94
00:05:19,810 --> 00:05:21,550
do určitej jazyk nízkej úrovne.

95
00:05:21,550 --> 00:05:26,090
Čo je dobré o výskume je, že akonáhle ste
urobil prototyping, môžete spustiť C ++,

96
00:05:26,090 --> 00:05:29,510
alebo Fortran, alebo niektorý z nich
tie nižšie úrovne priamo do R.

97
00:05:29,510 --> 00:05:32,320
Tak to je jedna naozaj
zaujímavé funkcie o R,

98
00:05:32,320 --> 00:05:35,930
ak vám naozaj záleží
optimalizácia bod.

99
00:05:35,930 --> 00:05:39,490
>> A to je tiež veľmi dobrý
pre webové vizualizácie.

100
00:05:39,490 --> 00:05:43,530
Tak D3.js, napríklad, je
Myslím, že ďalšie seminár

101
00:05:43,530 --> 00:05:45,130
že sme predstavili dnes.

102
00:05:45,130 --> 00:05:48,510
A to je naozaj úžasné pre
robí interaktívne vizualizácie.

103
00:05:48,510 --> 00:05:54,460
A D3.js predpokladá, že máte
nejaký druh údajov, ktoré budú vynesené

104
00:05:54,460 --> 00:05:58,080
a R je skvelý spôsob, ako byť schopný robiť
analýza dát, než ju exportovať

105
00:05:58,080 --> 00:06:04,220
sa k D3.js, alebo dokonca len spustiť
D3.js príkazy do R sám,

106
00:06:04,220 --> 00:06:08,240
rovnako ako všetky tieto
ďalšie knižnice tiež.

107
00:06:08,240 --> 00:06:13,041
>> Takže to bol práve zavedenie
čo je R a prečo ho mohol použiť.

108
00:06:13,041 --> 00:06:14,790
Tak dúfajme, že som
presvedčený o tom, niečo ti

109
00:06:14,790 --> 00:06:18,460
asi len sa snaží zistiť, čo to je.

110
00:06:18,460 --> 00:06:23,930
Takže budem pokračovať a prejsť
Niektoré základy o R objektov

111
00:06:23,930 --> 00:06:26,150
a to, čo naozaj môžete urobiť.

112
00:06:26,150 --> 00:06:29,690
>> Takže tu je len
banda príkazov matematických.

113
00:06:29,690 --> 00:06:35,000
Takže hovoriť you're-- chcete vytvoriť
Jazyk sami a chcete len

114
00:06:35,000 --> 00:06:38,080
mať veľa rôznych nástrojov.

115
00:06:38,080 --> 00:06:42,520
Akýkoľvek druh prevádzky si myslíte, že by ste
chcem, je do značnej miery bude v R.

116
00:06:42,520 --> 00:06:44,150
>> Takže tu je 2 plus 2.

117
00:06:44,150 --> 00:06:46,090
Tu je 2 krát pi.

118
00:06:46,090 --> 00:06:51,870
R má veľa vstavaných konštánt
že budete často používať ako Pi, e.

119
00:06:51,870 --> 00:06:56,230
>> A potom, tu je 7 a
runif, takže runif z 1.

120
00:06:56,230 --> 00:07:02,450
To je funkcia, ktorá je generuje
jeden náhodný jednotný od 0 do 1.

121
00:07:02,450 --> 00:07:04,400
A potom je tu 3 k sile 4.

122
00:07:04,400 --> 00:07:06,430
Je tu druhé odmocniny.

123
00:07:06,430 --> 00:07:07,270
>> Tam je log.

124
00:07:07,270 --> 00:07:14,500
Takže log bude robiť základňu
exponenciálny sama o sebe.

125
00:07:14,500 --> 00:07:18,337
A potom, ak zadáte základňu, potom
si môžete robiť, čo chcete, základňa.

126
00:07:18,337 --> 00:07:19,920
A potom tu sú niektoré ďalšie príkazy.

127
00:07:19,920 --> 00:07:22,180
Takže máte 23 mod 2.

128
00:07:22,180 --> 00:07:24,910
Potom máte zvyšok.

129
00:07:24,910 --> 00:07:27,110
Potom máte vedecký
notácie pokiaľ zároveň

130
00:07:27,110 --> 00:07:34,060
chcete urobiť len viac a
zložitejšie veci.

131
00:07:34,060 --> 00:07:37,320
>> Takže tu je úloha.

132
00:07:37,320 --> 00:07:40,830
Takže typické úlohy v
R sa vykonáva s šípkou

133
00:07:40,830 --> 00:07:43,440
tak je to menej ako, a potom pomlčka.

134
00:07:43,440 --> 00:07:47,250
Tak tu som len prideľovanie
3 k premennej val.

135
00:07:47,250 --> 00:07:50,160
>> A potom som tlač val
a potom sa vytlačí tri.

136
00:07:50,160 --> 00:07:53,920
V predvolenom nastavení v R interpret,
vytlačí, čo pre vás

137
00:07:53,920 --> 00:07:57,280
takže nemusíte zadať tlač val
kedykoľvek budete chcieť niečo vytlačiť.

138
00:07:57,280 --> 00:08:00,200
Stačí si len urobiť val a
potom to urobí za vás.

139
00:08:00,200 --> 00:08:04,380
>> Tiež môžete použiť rovná technicky
ako operátor priradenia.

140
00:08:04,380 --> 00:08:07,190
K dispozícii sú malé nuansy
Medzi pomocou šípky

141
00:08:07,190 --> 00:08:10,730
Prevádzkovateľ a rovná sa
pohon pre úlohy.

142
00:08:10,730 --> 00:08:15,470
Väčšinou konvencií, každý
bude len používať operátor šípky.

143
00:08:15,470 --> 00:08:21,850
>> A tu, ja to priraďovanie
šikmý zápis hovorí 1 dvojbodka 6.

144
00:08:21,850 --> 00:08:26,010
To vytvára vektor 1-6.

145
00:08:26,010 --> 00:08:29,350
A to naozaj pekné, pretože potom
stačí priradiť vektor Val

146
00:08:29,350 --> 00:08:34,270
a ktorý pracuje sám.

147
00:08:34,270 --> 00:08:37,799
>> Tak to už bude z
single-- veľmi intuitívne údaje

148
00:08:37,799 --> 00:08:41,070
štruktúra len dvojnásobok
nejaký druh druhu do vektora

149
00:08:41,070 --> 00:08:45,670
a ktorý sa bude zhromažďovať všetky
skalárne hodnoty pre vás.

150
00:08:45,670 --> 00:08:50,770
Takže potom, čo šiel z skalárne, vy
majú predmety R, a to je vektor.

151
00:08:50,770 --> 00:08:55,610
Vektor je nejaký druh
kolekcia rovnakého typu.

152
00:08:55,610 --> 00:08:58,150
Tak tu je banda vektorov.

153
00:08:58,150 --> 00:08:59,800
>> Tak toto je číselný.

154
00:08:59,800 --> 00:09:02,440
Číselný je R spôsob, ako povedať double.

155
00:09:02,440 --> 00:09:07,390
A tak v predvolenom nastavení, akýkoľvek
Číslo bude double.

156
00:09:07,390 --> 00:09:13,150
>> Takže ak máte c 1,1, 3,
negatívne 5.7, c je funkcia.

157
00:09:13,150 --> 00:09:16,760
To zřetězuje všetky tri
Čísla do vektora.

158
00:09:16,760 --> 00:09:19,619
A to bude be-- takže ak
zistíte, 3 sama o sebe,

159
00:09:19,619 --> 00:09:21,910
Normálne by sa predpokladať,
že to je ako celé číslo,

160
00:09:21,910 --> 00:09:25,050
ale preto, že všetkých vektorov
sú rovnakého typu,

161
00:09:25,050 --> 00:09:28,660
to je vektor štvorhier
alebo číselný v tomto prípade.

162
00:09:28,660 --> 00:09:34,920
>> RNorm je funkcia, ktorá generuje
Štandardné normálne variables--

163
00:09:34,920 --> 00:09:36,700
alebo štandardné normálne hodnoty.

164
00:09:36,700 --> 00:09:38,360
A ja s uvedením dvaja z nich.

165
00:09:38,360 --> 00:09:43,840
Takže robím RNorm 2, priraďovanie, že pre
vývojári, a potom som tlač DEVS.

166
00:09:43,840 --> 00:09:47,350
Tak to sú len dve
náhodné normálne hodnoty.

167
00:09:47,350 --> 00:09:50,060
>> A potom Ints, ak nemáte
vám záleží na celé čísla.

168
00:09:50,060 --> 00:09:54,650
Takže je to len o pamäti
alokácia a ukladanie veľkosť pamäte.

169
00:09:54,650 --> 00:10:01,460
Takže budete musieť pripojiť
Vaše čísla od hlavného mesta L.

170
00:10:01,460 --> 00:10:04,170
>> Všeobecne platí, že sa jedná
Historickej notácie R:

171
00:10:04,170 --> 00:10:06,940
za niečo, čo nazýva long integer.

172
00:10:06,940 --> 00:10:09,880
Takže väčšinu času, budete
sa zaoberajú zdvojnásobí.

173
00:10:09,880 --> 00:10:15,180
A ak ste niekedy bude neskôr
na optimalizáciu kódu,

174
00:10:15,180 --> 00:10:18,110
stačí pridať tieto L's
neskôr alebo v jeho priebehu

175
00:10:18,110 --> 00:10:22,280
ak ste ako precognitive o tom, čo
budete robiť tieto premenné.

176
00:10:22,280 --> 00:10:25,340

177
00:10:25,340 --> 00:10:26,890
>> Takže tu je znak vektor.

178
00:10:26,890 --> 00:10:31,440
Takže, ešte raz, ja som zreťazenie
Tri reťazca tentoraz.

179
00:10:31,440 --> 00:10:36,230
Všimnite si, že dvojité reťazca a
Jednotlivé reťazce sú rovnaké v R.

180
00:10:36,230 --> 00:10:41,000
Tak som sa Arthur a Marvin, a tak
keď som tlače to, všetci z nich

181
00:10:41,000 --> 00:10:43,210
ukážeme dvojité reťazca.

182
00:10:43,210 --> 00:10:45,880
A ak chcete tiež zahrnúť
jedno- alebo reťazec

183
00:10:45,880 --> 00:10:50,070
vo svojej postavy, potom môžete
buď striedajú struny.

184
00:10:50,070 --> 00:10:53,540
>> Tak marvin je pre
druhý prvok, to je

185
00:10:53,540 --> 00:10:56,380
ťa show--
Len majú dvojité reťazce

186
00:10:56,380 --> 00:10:59,050
a potom jeden reťazec
Tak toto je striedavý.

187
00:10:59,050 --> 00:11:04,040
V opačnom prípade, ak chcete použiť double
operátor reťazec v dvojlôžkovej reťazci

188
00:11:04,040 --> 00:11:07,090
keď ste ju vyhlási, potom
stačí použiť operátor uniknúť.

189
00:11:07,090 --> 00:11:10,600
Takže si urobiť spätné lomítko dvojité reťazec.

190
00:11:10,600 --> 00:11:13,330
>> A konečne sme tiež
majú logické vektorov.

191
00:11:13,330 --> 00:11:15,890
Tak logical-- tak TRUE
a FALSE, a oni sú

192
00:11:15,890 --> 00:11:18,880
Bude všetky písmená.

193
00:11:18,880 --> 00:11:22,370
A potom ešte raz, ja som zreťazenie
je a potom ich priradenie bools.

194
00:11:22,370 --> 00:11:24,590
Takže bools sa chystá ukázať
tie TRUE, FALSE, a TRUE.

195
00:11:24,590 --> 00:11:28,280

196
00:11:28,280 --> 00:11:31,620
>> Takže tu je vectorized indexovanie.

197
00:11:31,620 --> 00:11:34,870
Takže na začiatku som
beriem na function--

198
00:11:34,870 --> 00:11:39,230
tomu sa hovorí sequence--
Sekvencie od 2 do 12.

199
00:11:39,230 --> 00:11:42,490
A ja beriem sekvenciu o 2.

200
00:11:42,490 --> 00:11:46,660
Takže to bude robiť
2, 4, 6, 8, 10 a 12.

201
00:11:46,660 --> 00:11:50,080
A potom, ja som indexovanie
získať tretí prvok.

202
00:11:50,080 --> 00:11:55,770
>> Takže jedna vec je mať na pamäti, je
že R indexy od 1.

203
00:11:55,770 --> 00:12:00,550
Takže odstupoch 3 sa chystá dať
tie tretie element.

204
00:12:00,550 --> 00:12:04,580
To je trochu odlišný od iných
jazykov, kde sa začína od nuly.

205
00:12:04,580 --> 00:12:09,780
Takže v C alebo C ++, napríklad, že ste
dostane štvrtý prvok.

206
00:12:09,780 --> 00:12:13,280
>> A tu je vals 3-5.

207
00:12:13,280 --> 00:12:16,030
Takže jedna vec, ktorá je
naozaj cool je, že vás

208
00:12:16,030 --> 00:12:20,410
môže vytvárať dočasné premenné vnútri
a potom stačí použiť je na čase.

209
00:12:20,410 --> 00:12:21,960
Takže tu je 3 až 5.

210
00:12:21,960 --> 00:12:25,070
Takže som generovanie vektor
3, 4, a 5 a potom

211
00:12:25,070 --> 00:12:29,700
Som indexovanie dostať tretinu,
Štvrtý a piaty prvky.

212
00:12:29,700 --> 00:12:32,280
>> Takže podobne, môžete
abstract to proste robiť

213
00:12:32,280 --> 00:12:35,280
nejaký druh vektora
že vám dáva indexovanie.

214
00:12:35,280 --> 00:12:40,050
Takže tu je Vals a potom
Prvý, tretí a šiesty prvky.

215
00:12:40,050 --> 00:12:42,800
A potom, ak chcete
robiť doplnok,

216
00:12:42,800 --> 00:12:45,210
takže stačí urobiť mínus
potom a že bude

217
00:12:45,210 --> 00:12:48,600
vám všetko, čo nie je
prvý, tretí, alebo šiesty prvok.

218
00:12:48,600 --> 00:12:51,590
Takže to bude 4, 8, a 10.

219
00:12:51,590 --> 00:12:54,380
>> A ak chcete získať
ešte pokročilejšie,

220
00:12:54,380 --> 00:12:57,610
môžete zřetězit logických vektorov.

221
00:12:57,610 --> 00:13:05,210
Takže tento index sa chystá dať vám
tento Boolean vektor dĺžky 6.

222
00:13:05,210 --> 00:13:07,280
Takže rep TRUE čiarka 3.

223
00:13:07,280 --> 00:13:09,680
To sa bude opakovať TRUE trikrát.

224
00:13:09,680 --> 00:13:12,900
Tak to vám dá
vektor TRUE, TRUE, TRUE.

225
00:13:12,900 --> 00:13:17,470
>> rep FALSE 4-- to bude tak, aby vám
vektor FALSE, FALSE, FALSE, FALSE.

226
00:13:17,470 --> 00:13:21,280
A potom c bude zřetězit
tieto dve Booleans dohromady.

227
00:13:21,280 --> 00:13:24,090
Takže budete dostať tri
Trues a potom štyri FALSEs.

228
00:13:24,090 --> 00:13:28,460
>> Takže, keď sa index Vals, že ste
dostane TRUE, TRUE, TRUE.

229
00:13:28,460 --> 00:13:31,420
Takže to bude hovoriť áno,
Chcem tie tri prvky.

230
00:13:31,420 --> 00:13:33,520
A potom FALSE, FALSE,
FALSE, FALSE sa deje

231
00:13:33,520 --> 00:13:37,140
povedať nie, nechcem tieto prvky
takže to nebude ich vrátiť.

232
00:13:37,140 --> 00:13:41,490
>> A myslím, že je to vlastne preklep tu
pretože to hovorí repeat TRUE 3

233
00:13:41,490 --> 00:13:47,990
a opakovať FALSE 4, a technicky, vás
mať iba šesť prvkov tak opakovať FALSE,

234
00:13:47,990 --> 00:13:50,470
to by malo byť opakovať FALSE 3.

235
00:13:50,470 --> 00:13:55,260
Myslím si, že R je tiež dosť, ako inteligentný
že ak ste práve určiť 4 tu, a potom

236
00:13:55,260 --> 00:13:56,630
nebude ani chyba von.

237
00:13:56,630 --> 00:13:58,480
To bude len vám túto hodnotu.

238
00:13:58,480 --> 00:14:00,970
Tak to si jednoducho ignorovať skutočnosť, že Štvrtá FALSE.

239
00:14:00,970 --> 00:14:05,310

240
00:14:05,310 --> 00:14:09,270
>> Takže tu je vectorized úloha.

241
00:14:09,270 --> 00:14:15,480
Takže set.seed-- to len nastaví
osivo pre pseudonáhodných čísel.

242
00:14:15,480 --> 00:14:20,110
Takže som nastaviť semeno do
42, čo znamená, že keď som vytvárať

243
00:14:20,110 --> 00:14:22,950
Tri náhodný normálne
hodnoty, a potom, ak vás

244
00:14:22,950 --> 00:14:27,400
spustiť set.seed na vlastnú päsť
počítač používa rovnakú hodnotu 42,

245
00:14:27,400 --> 00:14:30,990
potom môžete tiež získať
Rovnaké tri náhodné normály.

246
00:14:30,990 --> 00:14:33,411
>> Tak toto je fakt dobrý
reprodukovateľnosti.

247
00:14:33,411 --> 00:14:35,910
Zvyčajne, keď robíte nejaký
druh vedeckej analýzy,

248
00:14:35,910 --> 00:14:37,230
budete chcieť nastaviť semeno.

249
00:14:37,230 --> 00:14:41,270
Tak iní vedci môžu len
reprodukovať presne rovnaký kód, ktorý ste

250
00:14:41,270 --> 00:14:44,790
dané tým, že budú mať presný
Rovnaké náhodnej veličiny that-- alebo náhodné

251
00:14:44,790 --> 00:14:47,270
hodnoty, ktoré ste si vzal von tiež.

252
00:14:47,270 --> 00:14:49,870

253
00:14:49,870 --> 00:14:53,910
>> A tak vectorized priradenie
Tu sa ukazuje Vals 1-2.

254
00:14:53,910 --> 00:14:59,290
Tak to trvá prvé dva prvky
Vals a potom priradí 0.

255
00:14:59,290 --> 00:15:03,940
A potom sa môžete tiež len robiť
Podobná vec sa s Boolean.

256
00:15:03,940 --> 00:15:09,340
>> Takže vals nerovná 0-- to bude
vám vektorový FALSE, FALSE, TRUE

257
00:15:09,340 --> 00:15:10,350
v tomto prípade.

258
00:15:10,350 --> 00:15:13,770
A potom, že to bude hovoriť akýkoľvek
z tých indexov to bola pravda,

259
00:15:13,770 --> 00:15:15,270
potom to bude priradiť, že pre 5.

260
00:15:15,270 --> 00:15:18,790
Tak to trvá tretí element
tu a potom ju priradí 5.

261
00:15:18,790 --> 00:15:22,300
>> A to je naozaj pekný
v porovnaní s low-level jazyky

262
00:15:22,300 --> 00:15:25,560
kde budete musieť použiť na slučky
robiť všetky tieto veci vectorized

263
00:15:25,560 --> 00:15:30,281
pretože je to len veľmi intuitívne
a to je jeden one-liner.

264
00:15:30,281 --> 00:15:32,030
A čo je skvelé
vectorized notácie

265
00:15:32,030 --> 00:15:37,020
je to, že v oblasti výskumu, to sú akési
zabudovaný tak, že sú takmer rovnako rýchlo

266
00:15:37,020 --> 00:15:42,490
ako robí v jazyku nízkej úrovne as
protichodný k tomu, že pre vedenie v R

267
00:15:42,490 --> 00:15:46,317
a potom musel to urobiť
dynamický indexovanie sám.

268
00:15:46,317 --> 00:15:48,900
A že to bude pomalšie, než robiť
tento druh vectorized veci

269
00:15:48,900 --> 00:15:55,950
kde to môže robiť to paralelne, kde
to robí to v podstate závitov.

270
00:15:55,950 --> 00:15:58,650
>> Tak tu je vektorových operácií.

271
00:15:58,650 --> 00:16:04,920
Takže som generovanie hodnoty 1-3,
priradenie, že pre vec1, 3 až 5, vec2,

272
00:16:04,920 --> 00:16:05,950
sčítať je.

273
00:16:05,950 --> 00:16:11,490
Dodáva im komponentov múdry tak
to je 1 plus 3, 2 plus 4, a tak ďalej.

274
00:16:11,490 --> 00:16:13,330
>> vec1 časy vec2.

275
00:16:13,330 --> 00:16:16,110
To násobí dve
hodnoty komponenty múdry.

276
00:16:16,110 --> 00:16:21,830
Takže je to 1 krát 3, 2 krát
4, a potom 3 krát 5.

277
00:16:21,830 --> 00:16:28,250
>> A potom, podobne môžete robiť
comparisons-- logické porovnanie.

278
00:16:28,250 --> 00:16:33,640
Takže je to false false TRUE v tomto
prípad, pretože 1 nie je vyššia ako 3,

279
00:16:33,640 --> 00:16:35,920
2 nie je väčší ako 4.

280
00:16:35,920 --> 00:16:41,160
To je, myslím, že ďalšie preklep, 3
rozhodne nie je väčší ako 5.

281
00:16:41,160 --> 00:16:41,660
Jo.

282
00:16:41,660 --> 00:16:45,770
A tak si môžete len urobiť všetko
Tieto jednoduché operácie

283
00:16:45,770 --> 00:16:48,350
pretože ich zdedené
od samotných tried.

284
00:16:48,350 --> 00:16:51,110

285
00:16:51,110 --> 00:16:52,580
>> Takže to bol len vektor.

286
00:16:52,580 --> 00:16:56,530
A to je tak nejako najzásadnejšie
R objekt, pretože daný vektor,

287
00:16:56,530 --> 00:16:59,170
si môžete postaviť pokročilejšie objekty.

288
00:16:59,170 --> 00:17:00,560
>> Tak tu je matica.

289
00:17:00,560 --> 00:17:05,030
To je v podstate abstrakcie
o tom, čo matice je sama o sebe.

290
00:17:05,030 --> 00:17:10,099
Takže v tomto prípade, je to tri rôzne
vektory, kde každý z nich je stĺpec,

291
00:17:10,099 --> 00:17:12,710
alebo si môžete uvažovať
pretože každý z nich je rad.

292
00:17:12,710 --> 00:17:18,250
>> Takže som uloženie matice od 1 do
9 a potom ja s uvedením 3 riadky.

293
00:17:18,250 --> 00:17:23,364
Takže 1-9 vám vektor 1,
2, 3, 4, 5, 6, a až do 9.

294
00:17:23,364 --> 00:17:29,250
>> Jedna vec je mať na pamäti, že
R ukladá hodnoty vo formáte stĺpci-major.

295
00:17:29,250 --> 00:17:34,160
Takže inými slovami, keď vidíte 1
9, že to bude ukladať them--

296
00:17:34,160 --> 00:17:36,370
to bude 1, 2,
3. miesto v prvom stĺpci,

297
00:17:36,370 --> 00:17:38,510
a potom to urobím 4, 5,
6 v druhom stĺpci,

298
00:17:38,510 --> 00:17:41,440
a potom 7, 8, 9 v treťom stĺpci.

299
00:17:41,440 --> 00:17:45,570
>> A tu sú niektoré ďalšie
bežné funkcie, ktoré môžete použiť.

300
00:17:45,570 --> 00:17:49,650
Takže dim mat, to vám dá
rozmery matrice.

301
00:17:49,650 --> 00:17:52,620
Bude to vrátite
vektor dimenzie.

302
00:17:52,620 --> 00:17:55,580
Takže v tomto prípade, pretože
Naša matica je 3 o 3,

303
00:17:55,580 --> 00:18:01,900
to bude vám
numerický vektor, ktorý je 3 3.

304
00:18:01,900 --> 00:18:05,270
>> A tu sa práve ukazuje
násobenie matíc.

305
00:18:05,270 --> 00:18:11,970
Takže väčšinou, ak ste práve robiť
asterisk-- tak mat hviezdička mat--

306
00:18:11,970 --> 00:18:15,380
to bude
komponentov, múdry prevádzku

307
00:18:15,380 --> 00:18:17,300
alebo to, čo sa nazýva produkt Hadamard.

308
00:18:17,300 --> 00:18:21,310
Takže to bude robiť každý
element komponentov-múdry.

309
00:18:21,310 --> 00:18:23,610
Avšak, ak chcete
matice multiplication--

310
00:18:23,610 --> 00:18:29,380
tak vynásobením prvý časy riadok
Prvý stĺpec druhej tabuľky sa

311
00:18:29,380 --> 00:18:34,510
a tak on--, mali by ste použiť
toto percento operácie.

312
00:18:34,510 --> 00:18:38,110
>> A t mat je len
Prevádzka na premiestniť.

313
00:18:38,110 --> 00:18:42,590
Takže hovorím vziať premiestniť do
matice, násobiť ju matricu

314
00:18:42,590 --> 00:18:43,090
sám.

315
00:18:43,090 --> 00:18:45,006
A potom, že to bude
vrátiť sa k vám ďalšie 3

316
00:18:45,006 --> 00:18:50,700
o 3 Nasledujúca tabuľka znázorňuje
produkt by ste chceli.

317
00:18:50,700 --> 00:18:53,750
>> A tak, aby bola matica.

318
00:18:53,750 --> 00:18:56,020
Tu je to, čo sa nazýva dátový rámec.

319
00:18:56,020 --> 00:19:00,780
Rám údaje si môžete myslieť as
matice, ale každý stĺpec sám

320
00:19:00,780 --> 00:19:02,990
bude iného typu.

321
00:19:02,990 --> 00:19:07,320
>> Takže to, čo je naozaj v pohode o dátach
Rámy je, že v analýze dát samotnej,

322
00:19:07,320 --> 00:19:11,260
budete mať všetko
heterogénne dáta a všetky tieto skutočnosti

323
00:19:11,260 --> 00:19:15,640
chaotický vecí, kde každý zo stĺpcov
samy o sebe môžu byť rôznych typov.

324
00:19:15,640 --> 00:19:21,460
Tak tu hovorím vytvoriť
Údaje rám, robiť celých čísel od 1 do 3,

325
00:19:21,460 --> 00:19:24,750
a potom majú tiež charakter vektor.

326
00:19:24,750 --> 00:19:28,470
Takže môžem index cez
Každý z týchto stĺpcov

327
00:19:28,470 --> 00:19:30,930
a potom budem si sami hodnoty.

328
00:19:30,930 --> 00:19:34,370
A môžete si tiež urobiť nejakú
o prevádzke na dátových rámcov.

329
00:19:34,370 --> 00:19:38,040
A väčšina z doby, kedy ste
robí analýzu dát, alebo nejakú

330
00:19:38,040 --> 00:19:42,042
predbežného spracovania, budete
práca s týmito dátovými štruktúrami

331
00:19:42,042 --> 00:19:44,250
kde každý stĺpec sa deje
byť iného typu.

332
00:19:44,250 --> 00:19:47,880

333
00:19:47,880 --> 00:19:52,970
>> A konečne, takže tieto sú v podstate len
štyri základné objekty v R. Zoznam

334
00:19:52,970 --> 00:19:55,820
bude len zbierať akýkoľvek
iné objekty, ktoré chcete.

335
00:19:55,820 --> 00:20:00,130
Tak to bude ukladať to do jedného
premenné, ktoré možno ľahko otvoriť.

336
00:20:00,130 --> 00:20:02,370
>> Tak tu, beriem zoznam.

337
00:20:02,370 --> 00:20:04,460
Hovorím, že veci sa rovná 3.

338
00:20:04,460 --> 00:20:08,060
Takže budem mať jeden prvok
zoznam, a to sa nazýva veci,

339
00:20:08,060 --> 00:20:10,570
a to bude mať hodnotu 3.

340
00:20:10,570 --> 00:20:13,140
>> Ja si tiež vytvoriť maticu.

341
00:20:13,140 --> 00:20:17,970
Tak toto je 1-4 a na konci riadku
sa rovná 2, takže 2 o 2 matice.

342
00:20:17,970 --> 00:20:20,270
Tiež v zozname a je to len mat.

343
00:20:20,270 --> 00:20:24,690
moreStuff, reťazec znakov,
a dokonca aj ďalší zoznam sám o sebe.

344
00:20:24,690 --> 00:20:27,710
>> Tak to je zoznam, ktorý je 5 a medveďa.

345
00:20:27,710 --> 00:20:30,990
Tak to má hodnotu 5 a to
Má charakter reťazec medveďa

346
00:20:30,990 --> 00:20:32,710
a je to zoznam v zozname.

347
00:20:32,710 --> 00:20:35,965
Takže môžete mať tieto
rekurzívne vecí, kde

348
00:20:35,965 --> 00:20:38,230
Máte another-- A
typu v rámci typu.

349
00:20:38,230 --> 00:20:41,420
Takže podobne, môžete mať maticu
vnútri inej matrice, a tak ďalej.

350
00:20:41,420 --> 00:20:44,264
A zoznam je len dobrý spôsob, ako
zhromažďovanie a agregáciu

351
00:20:44,264 --> 00:20:45,430
Všetky tieto rôzne objekty.

352
00:20:45,430 --> 00:20:50,210

353
00:20:50,210 --> 00:20:57,150
>> A konečne, je tu len pomôcť v prípade
to bolo len preč cez veľmi rýchlo.

354
00:20:57,150 --> 00:21:01,350
Takže kedykoľvek ste zmätený
o akési funkcie,

355
00:21:01,350 --> 00:21:03,510
môžete robiť pomoc tejto funkcie.

356
00:21:03,510 --> 00:21:07,120
Takže si môžete urobiť help matice
alebo otáznik matice.

357
00:21:07,120 --> 00:21:11,430
A pomoc a otáznik sú
len skratka pre rovnakú vec

358
00:21:11,430 --> 00:21:13,040
takže sú aliasy.

359
00:21:13,040 --> 00:21:16,820
>> LM je funkcia, ktorá
Len robí lineárny model.

360
00:21:16,820 --> 00:21:20,340
Ale ak ste práve nemáte tušenie, ako to
práca, stačí urobiť pomoc lm

361
00:21:20,340 --> 00:21:24,610
a že ti dám trochu
druh dokumentácie, ktorá

362
00:21:24,610 --> 00:21:27,960
Vyzerá trochu ako
man stránky v Unixe, kde

363
00:21:27,960 --> 00:21:34,210
máte krátky popis toho, čo
áno, aj to, čo je jej argumentácia,

364
00:21:34,210 --> 00:21:38,850
to, čo sa vráti, a len tipy na to, ako
ich použitie, a niektoré príklady rovnako.

365
00:21:38,850 --> 00:21:41,680

366
00:21:41,680 --> 00:21:52,890
>> Tak nechaj ma ísť dopredu a prehliadka
niektoré demo použitie R. OK.

367
00:21:52,890 --> 00:21:55,470
Tak som šiel na veľmi
rýchlo len údaje

368
00:21:55,470 --> 00:21:59,440
štruktúry a nejaká
op-- niektoré operácie.

369
00:21:59,440 --> 00:22:02,960
Tu je niektoré funkcie.

370
00:22:02,960 --> 00:22:06,750
>> Tak tu som jednoducho ísť
k definovaniu funkcie.

371
00:22:06,750 --> 00:22:09,970
Takže som tiež používajú
Operátor priradenia tu,

372
00:22:09,970 --> 00:22:12,610
a potom hovorím
deklarovať ako funkcia.

373
00:22:12,610 --> 00:22:14,140
A to má hodnotu x.

374
00:22:14,140 --> 00:22:18,210
Tak to je nejaká hodnota, ktorú chcete
a budem sa vrátiť x seba.

375
00:22:18,210 --> 00:22:20,840
Tak toto je funkcia identity.

376
00:22:20,840 --> 00:22:23,670
>> A čo je v pohode o tom
v porovnaní s inými jazykmi

377
00:22:23,670 --> 00:22:26,330
a ďalšie nízkoúrovňové
jazyky, je to, že x

378
00:22:26,330 --> 00:22:29,350
môže byť akéhokoľvek typu samotného
a to vrátim tento typ.

379
00:22:29,350 --> 00:22:35,251
Takže si môžete imagine-- tak nechať
ma stačí spustiť tak rýchlo.

380
00:22:35,251 --> 00:22:35,750
Prepáčte.

381
00:22:35,750 --> 00:22:40,300
>> Takže jedna vec, ktorú by som mal spomenúť
je to, že tento editor som pomocou

382
00:22:40,300 --> 00:22:41,380
sa nazýva rstudio.

383
00:22:41,380 --> 00:22:44,389
To je to, čo sa nazýva IDE.

384
00:22:44,389 --> 00:22:46,180
A ešte jedna vec, ktorá je
naozaj pekné o tom

385
00:22:46,180 --> 00:22:51,500
je to, že obsahuje veľké množstvo
veci, ktoré chcete robiť do výskumu by samo o sebe

386
00:22:51,500 --> 00:22:53,180
Len veľmi intuitívne.

387
00:22:53,180 --> 00:22:55,550
>> Takže tu je interpret konzoly.

388
00:22:55,550 --> 00:23:02,160
Takže podobne, môžete si to
konzola raw len tým, že robí kapitálu R.

389
00:23:02,160 --> 00:23:05,630
A to je presne to,
to isté ako konzola.

390
00:23:05,630 --> 00:23:12,210
Tak som si len to id funkcie x, x, x.

391
00:23:12,210 --> 00:23:16,130
A then-- a potom to
bude v poriadku sám.

392
00:23:16,130 --> 00:23:19,200

393
00:23:19,200 --> 00:23:21,740
>> Takže rstudio je skvelý
preto, že má konzolu.

394
00:23:21,740 --> 00:23:25,360
Má tiež dokumenty
chcete bežať ďalej.

395
00:23:25,360 --> 00:23:28,629
A potom to má nejaké premenné
ktoré môžete vidieť v prostredí.

396
00:23:28,629 --> 00:23:30,420
A potom, ak máte
k tomu pozemky, a potom vás

397
00:23:30,420 --> 00:23:33,730
stačí vidieť tu, na rozdiel od
riadenie všetkých týchto rôznych okien

398
00:23:33,730 --> 00:23:35,940
samy od seba.

399
00:23:35,940 --> 00:23:40,530
>> Vlastne som osobne používam Vim, ale ja
pocit, že rstudio je vynikajúci práve

400
00:23:40,530 --> 00:23:44,640
pre získanie dobrý nápad
ako používať R. Zvyčajne

401
00:23:44,640 --> 00:23:47,040
keď sa snažíte
naučiť sa nejaký nový úloha,

402
00:23:47,040 --> 00:23:49,590
nechcete riešiť
príliš veľa vecí naraz.

403
00:23:49,590 --> 00:23:53,120
Takže R je len very-- rstudio
je veľmi dobrý spôsob, ako učenie R

404
00:23:53,120 --> 00:23:56,760
bez toho aby museli vysporiadať s
Všetky tieto ďalšie veci.

405
00:23:56,760 --> 00:23:58,600
>> Tak tu Bežím id ahoj.

406
00:23:58,600 --> 00:24:00,090
Vráti ahoj.

407
00:24:00,090 --> 00:24:01,740
id 123.

408
00:24:01,740 --> 00:24:04,610
Tu je vektor celých čísel.

409
00:24:04,610 --> 00:24:08,620
Tak podobne, pretože môžete
prijať akékoľvek nejaké hodnoty,

410
00:24:08,620 --> 00:24:16,060
môžete urobiť vracia id
x tak, že sa vracia 1234 a 5.

411
00:24:16,060 --> 00:24:22,210
>> A dovoľte mi, aby som len ukázať, že
To je skutočne celé číslo.

412
00:24:22,210 --> 00:24:28,800
A podobne, ak nechcete triedy
id x, to bude celé číslo.

413
00:24:28,800 --> 00:24:34,170
A potom, môžete tiež
porovnať dva a je to pravda.

414
00:24:34,170 --> 00:24:38,350
Takže som kontrolovať, či id x
rovná sa rovná x a oznámenia

415
00:24:38,350 --> 00:24:39,760
že to vám dáva dva trues.

416
00:24:39,760 --> 00:24:44,280
Takže to nehovorí, sú
dva objekty identické,

417
00:24:44,280 --> 00:24:46,845
ale každý z údajov
V rámci vektory identické.

418
00:24:46,845 --> 00:24:50,000

419
00:24:50,000 --> 00:24:52,090
>> Tu je bounded.compare.

420
00:24:52,090 --> 00:24:58,470
Tak to je o niečo zložitejšie
v tom, že ak má to stav a inde

421
00:24:58,470 --> 00:25:00,960
a potom to trvá dva
argumenty naraz.

422
00:25:00,960 --> 00:25:02,640
Takže x je z akéhokoľvek typu.

423
00:25:02,640 --> 00:25:06,280
A ja hovorím
Druhý argument je.

424
00:25:06,280 --> 00:25:08,380
To môže byť čokoľvek rovnako.

425
00:25:08,380 --> 00:25:12,490
Ale v predvolenom nastavení, že to bude trvať
5 Ak nezadáte nič.

426
00:25:12,490 --> 00:25:16,730
>> Tak tu budem hovoriť
ak x je väčšia ako.

427
00:25:16,730 --> 00:25:19,220
Takže keď som sa neuvádzajú, je
hovorí, že ak x je väčšia ako 5,

428
00:25:19,220 --> 00:25:20,470
potom budem vracať TRUE.

429
00:25:20,470 --> 00:25:23,230
inak, budem sa vrátiť FALSE.

430
00:25:23,230 --> 00:25:24,870
Tak nechaj ma ísť napred a definovať to.

431
00:25:24,870 --> 00:25:30,600

432
00:25:30,600 --> 00:25:34,550
>> A teraz budem
spustiť bounded.compare 3.

433
00:25:34,550 --> 00:25:39,150
Tak to hovorí, že je 3 menej
than-- je 3 väčšie ako 5.

434
00:25:39,150 --> 00:25:41,830
Nie, to nie je tak FALSE.

435
00:25:41,830 --> 00:25:46,550
>> A bounded.compare 3 a idem
porovnať ho pomocou rovná 2.

436
00:25:46,550 --> 00:25:50,700
Takže teraz hovorím áno, teraz už
chcem byť niečo iné.

437
00:25:50,700 --> 00:25:52,750
Takže som chcel povedať, mali by ste byť 2.

438
00:25:52,750 --> 00:25:56,640
>> Môžem buď robiť tento druh
notácie alebo Hovorím rovná 2.

439
00:25:56,640 --> 00:25:58,720
To je čitateľnejší
v tom, že keď ste

440
00:25:58,720 --> 00:26:01,450
pri pohľade na tieto skutočnosti
zložité funkcie, ktoré

441
00:26:01,450 --> 00:26:08,110
aby viac arguments-- a to
môžu byť desiatky oftentimes-- len hovorím

442
00:26:08,110 --> 00:26:11,140
rovná 2, ktorá je zrozumiteľná pre
vám tak, že neskôr v budúcnosti

443
00:26:11,140 --> 00:26:13,020
budete vedieť, čo robíte.

444
00:26:13,020 --> 00:26:17,120
>> Takže v tomto prípade, ja som
Hovorí sa nachádza 3 väčšie ako 2.

445
00:26:17,120 --> 00:26:18,270
Áno, to je.

446
00:26:18,270 --> 00:26:22,350
A rovnako, ja si len odstrániť
to a hovoria, je 3 väčšie ako 2

447
00:26:22,350 --> 00:26:23,440
kde sa rovná 2.

448
00:26:23,440 --> 00:26:26,230
A to je tiež pravda.

449
00:26:26,230 --> 00:26:26,730
Ano?

450
00:26:26,730 --> 00:26:29,670
>> Divákov: Ste
vykonávanie riadok po riadku?

451
00:26:29,670 --> 00:26:30,670
>> DUSTIN TRAN: Áno, som.

452
00:26:30,670 --> 00:26:33,900
Takže to, čo robím tu je
pričom tento text document--

453
00:26:33,900 --> 00:26:39,825
a čo je skvelé o rstudio je to, že
Môžem len spustiť short-- skratky pre.

454
00:26:39,825 --> 00:26:41,820
Takže robím Control-Enter.

455
00:26:41,820 --> 00:26:44,850
>> A potom, beriem
riadok v textovom dokumente

456
00:26:44,850 --> 00:26:46,710
a potom uvedenie v konzole.

457
00:26:46,710 --> 00:26:50,800
Tak tu hovorím, bounded.compare
a ja robím Control-X.

458
00:26:50,800 --> 00:26:52,540
Tak som si proste bežať aj tu.

459
00:26:52,540 --> 00:26:54,920
A potom, že bude trvať
linka a potom ju sem.

460
00:26:54,920 --> 00:26:57,900
A potom podobne, môžem to spustiť tu.

461
00:26:57,900 --> 00:27:04,630
A potom to bude len držať vymedzenie
linky do konzoly takhle.

462
00:27:04,630 --> 00:27:10,690
>> A ak ste si tiež povšimnúť kučeravé
rovnátka sú tam rovnako ako v syntaxi C.

463
00:27:10,690 --> 00:27:13,910
x-- ak ak podmienka je tiež
bude používať zátvorky a potom

464
00:27:13,910 --> 00:27:15,350
môžete použiť inde.

465
00:27:15,350 --> 00:27:17,496
Ďalší z nich je iný, ak.

466
00:27:17,496 --> 00:27:21,440
Takže to bude x
rovná rovná, napríklad.

467
00:27:21,440 --> 00:27:24,190

468
00:27:24,190 --> 00:27:26,350
A potom budem
vrátiť niečo tu.

469
00:27:26,350 --> 00:27:29,490
>> Všimnite si, že existujú dva rôzne
veci, ktoré tu deje.

470
00:27:29,490 --> 00:27:34,360
Jedným z nich je, že tu som s uvedením
vráti hodnotu TRUE.

471
00:27:34,360 --> 00:27:35,950
Tu Len hovorím x.

472
00:27:35,950 --> 00:27:39,970
Takže R bude zvyčajne v predvolenom nastavení
užiť poslednú arguments--

473
00:27:39,970 --> 00:27:43,510
alebo sa posledný riadok kódu,
a to bude to, čo je to vrátil.

474
00:27:43,510 --> 00:27:46,920
Tak tu je to rovnaké
vec, ako robí spiatočný x.

475
00:27:46,920 --> 00:27:49,450

476
00:27:49,450 --> 00:27:50,540
>> A len preto, aby vám ukázať.

477
00:27:50,540 --> 00:27:54,000

478
00:27:54,000 --> 00:27:57,052
A potom, bude to fungovať rovnako ako to.

479
00:27:57,052 --> 00:27:58,260
Dovoľte mi teda pokračovať s tým.

480
00:27:58,260 --> 00:28:00,630
>> Takže ak iný.

481
00:28:00,630 --> 00:28:04,060
A naozaj, môžem sa vrátiť
niečo, čo by som chcel.

482
00:28:04,060 --> 00:28:06,680
Tak som to ani na
návratovej Booleans po celú dobu,

483
00:28:06,680 --> 00:28:08,410
Môžem len vrátiť niečo iné.

484
00:28:08,410 --> 00:28:10,670
Tak som si urobiť spiatočnú medveďa.

485
00:28:10,670 --> 00:28:12,989
>> Takže ak x rovná rovná,
to bude návrat medveďa.

486
00:28:12,989 --> 00:28:14,530
V opačnom prípade to bude vracať TRUE.

487
00:28:14,530 --> 00:28:19,310
Ja si tiež urobiť vektor
alebo naozaj čokoľvek.

488
00:28:19,310 --> 00:28:22,210
>> A zvyčajne staticky
zadávané jazyky,

489
00:28:22,210 --> 00:28:23,840
budete musieť zadať typ tu.

490
00:28:23,840 --> 00:28:25,750
A všimnite si, že to môže byť len niečo.

491
00:28:25,750 --> 00:28:32,400
A R je dosť inteligentný, aby to
bude len to a to bude fungovať dobre.

492
00:28:32,400 --> 00:28:33,620
>> Takže ma to definovať.

493
00:28:33,620 --> 00:28:39,460

494
00:28:39,460 --> 00:28:41,230
Unexpected-- oh ľúto.

495
00:28:41,230 --> 00:28:44,336
Malo by to byť zložená zátvorka tu.

496
00:28:44,336 --> 00:28:44,836
OK.

497
00:28:44,836 --> 00:28:45,336
Super.

498
00:28:45,336 --> 00:28:52,580

499
00:28:52,580 --> 00:28:54,530
Dobrá.

500
00:28:54,530 --> 00:28:58,250
Takže teraz poďme porovnať 3 a rovná 3.

501
00:28:58,250 --> 00:29:01,860
Tak to by malo return--
yeah-- hodnotu medveďa.

502
00:29:01,860 --> 00:29:06,740
>> Takže teraz všeobecnejší vec je ako
čo o ​​iných dátových štruktúr.

503
00:29:06,740 --> 00:29:09,110
Takže budete musieť túto funkciu.

504
00:29:09,110 --> 00:29:15,360
To bude fungovať na akomkoľvek druhu
hodnoty, ako je 3 alebo akékoľvek číselné,

505
00:29:15,360 --> 00:29:17,500
Inými slovami, double.

506
00:29:17,500 --> 00:29:19,330
>> Ale čo o niečom takom vektora.

507
00:29:19,330 --> 00:29:27,750
Takže to, čo sa stane, keď do--, takže som
bude priradiť Val za, povedzme, 4-6.

508
00:29:27,750 --> 00:29:31,640
Takže keď som sa vrátiť to, to
je vektor z 4, 5, 6.

509
00:29:31,640 --> 00:29:34,935
>> Teraz sa pozrime, čo sa stane
keď to urobím bounded.compare val.

510
00:29:34,935 --> 00:29:37,680

511
00:29:37,680 --> 00:29:42,450
Takže to bude dať 15 1251.

512
00:29:42,450 --> 00:29:46,440
Takže inými slovami, je to hovorí
keď sa pozriete na túto podmienku

513
00:29:46,440 --> 00:29:50,040
tak to hovorí, že x je menšia
než alebo tak niečo.

514
00:29:50,040 --> 00:29:51,880
Tak toto je trochu
mätúce, pretože teraz

515
00:29:51,880 --> 00:29:53,379
proste neviem, čo sa deje.

516
00:29:53,379 --> 00:29:58,690
Takže si myslím, jednu vec, ktorá je naozaj
dobrý len snaží ladiť

517
00:29:58,690 --> 00:30:04,600
je, že môžete jednoducho val, je väčšia
ako, a uvidíme, čo sa deje tam.

518
00:30:04,600 --> 00:30:09,720
>> Takže val-- je štandardne 5 tak,
nech to len do Val väčšie ako 5.

519
00:30:09,720 --> 00:30:14,280
Tak to je vektor FALSE FALSE TRUE.

520
00:30:14,280 --> 00:30:17,206
Takže teraz, keď sa pozeráte na
to, bude to povedať, či,

521
00:30:17,206 --> 00:30:20,080
a potom, že to bude vám to
je vektor false TRUE.

522
00:30:20,080 --> 00:30:23,450
>> Takže keď to prejsť do R, R
nemá ani potuchy, čo robíte.

523
00:30:23,450 --> 00:30:26,650
Vzhľadom k tomu, že očakáva, že jeden jediný
hodnota, ktorá je logická, a teraz

524
00:30:26,650 --> 00:30:29,420
dávate jej vektor Boolean.

525
00:30:29,420 --> 00:30:31,970
Takže v predvolenom nastavení, R je jednoducho
hovoriť, čo to sakra,

526
00:30:31,970 --> 00:30:35,440
Budem predpokladať, že ste
bude trvať prvý prvok tu.

527
00:30:35,440 --> 00:30:38,320
Takže budem say-- idem
predpokladať, že to je FALSE.

528
00:30:38,320 --> 00:30:40,890
Takže to bude hovoriť
nie, to nie je v poriadku.

529
00:30:40,890 --> 00:30:45,246
>> Rovnako tak, že to bude
byť val rovná rovná.

530
00:30:45,246 --> 00:30:47,244
Nie, je mi ľúto 5.

531
00:30:47,244 --> 00:30:48,910
A je to tiež bude falošný rovnako.

532
00:30:48,910 --> 00:30:52,410
Takže to bude hovoriť nie,
To nie je pravda, rovnako tak je to

533
00:30:52,410 --> 00:30:53,680
chystá sa vrátiť tento posledný.

534
00:30:53,680 --> 00:30:56,420

535
00:30:56,420 --> 00:31:01,360
>> Tak toto je buď dobrá vec, alebo zlá
vec, v závislosti na tom, ako ho zobraziť.

536
00:31:01,360 --> 00:31:05,104
Vzhľadom k tomu, keď ste
vytváranie týchto funkcií,

537
00:31:05,104 --> 00:31:06,770
nemáte skutočne vedieť, čo sa deje.

538
00:31:06,770 --> 00:31:10,210
Takže občas by ste chceli nejakú chybu,
alebo možno len chcete varovanie.

539
00:31:10,210 --> 00:31:12,160
V tomto prípade, R nerobí.

540
00:31:12,160 --> 00:31:14,300
Takže je to naozaj len na
vám na základe off o tom, čo

541
00:31:14,300 --> 00:31:17,310
si myslíte, že jazyk
by mal robiť v tomto prípade

542
00:31:17,310 --> 00:31:22,920
Ak máte prejsť do vektora Boolean
keď robíte v prípade stavu.

543
00:31:22,920 --> 00:31:31,733
>> Povedzme, že ste mali pôvodné
jedna, ak iný vráti TRUE, a vy ste

544
00:31:31,733 --> 00:31:34,190
chystá sa vrátiť FALSE.

545
00:31:34,190 --> 00:31:39,300
Takže jeden spôsob abstrahovať
je to, že som

546
00:31:39,300 --> 00:31:41,530
Dokonca ani nemusíte podmieneného vec.

547
00:31:41,530 --> 00:31:47,220
Ďalšia vec, ktorú môžem urobiť, je len
vrátenie samotnej hodnoty.

548
00:31:47,220 --> 00:31:53,240
Takže ak si všimnete, ak máte
do Val je vyšší ako 5,

549
00:31:53,240 --> 00:31:56,350
to bude návrat
vector FALSE FALSE TRUE.

550
00:31:56,350 --> 00:31:58,850
>> Možno, že to je to, čo
Chcete pre bounded.compare.

551
00:31:58,850 --> 00:32:02,940
Ak chcete vrátiť vektor Boolean
kde sa porovnáva každú z hodnôt

552
00:32:02,940 --> 00:32:04,190
pre seba.

553
00:32:04,190 --> 00:32:11,165
Takže si môžete jednoducho bounded.compare
funkcia x, sa rovná 5.

554
00:32:11,165 --> 00:32:13,322

555
00:32:13,322 --> 00:32:15,363
A potom miesto vykonávania
, Ak iný stav,

556
00:32:15,363 --> 00:32:21,430
Ja som jednoducho ísť k návratu
x je väčšie ako 5.

557
00:32:21,430 --> 00:32:23,620
Takže ak je to pravda, potom
to bude vracať TRUE.

558
00:32:23,620 --> 00:32:26,830
A potom, ak to nie je, je to
chystá sa vrátiť FALSE.

559
00:32:26,830 --> 00:32:30,880
>> A to bude pracovať pre
niektoré z týchto štruktúr.

560
00:32:30,880 --> 00:32:41,450
Tak som si bounded.compare c 1 6 alebo 9
a potom budem hovoriť rovná 6,

561
00:32:41,450 --> 00:32:42,799
napríklad.

562
00:32:42,799 --> 00:32:44,840
A potom, že to bude
vám ten správny Boolean

563
00:32:44,840 --> 00:32:48,240
vektor, ktorý ste navrhovaní.

564
00:32:48,240 --> 00:32:50,660
>> To sú len funkcie
a to mi teraz sa proste

565
00:32:50,660 --> 00:32:54,980
ukázať vám niektoré interaktívne vizualizácie.

566
00:32:54,980 --> 00:32:59,700
Ja si nemyslím, že v skutočnosti sa
Wi-Fi tu tak nech mi jednoducho ísť dopredu

567
00:32:59,700 --> 00:33:01,970
a preskočiť tohle myslím.

568
00:33:01,970 --> 00:33:05,260
>> Ale jedna vec, ktorá je v pohode
však je, že ak ste práve

569
00:33:05,260 --> 00:33:09,600
chcete vyskúšať veľa
rôzne príkazy dát,

570
00:33:09,600 --> 00:33:13,320
je tu veľa rôznych dátových sád
ktoré sú už predinštalovaný na R.

571
00:33:13,320 --> 00:33:15,770
Takže jeden z nich je
volal iris dátovej sady.

572
00:33:15,770 --> 00:33:18,910
To je jeden z najviac známy
tie v strojového učenia.

573
00:33:18,910 --> 00:33:23,350
Budete zvyčajne len urobiť nejakú
testovacie prípady, či je váš kód beží.

574
00:33:23,350 --> 00:33:27,520
Tak nech to len skontrolovať, čo dúhovka je.

575
00:33:27,520 --> 00:33:33,130
>> Takže to, čo sa deje
byť dátový rámec.

576
00:33:33,130 --> 00:33:36,000
A je to celkom dlho, pretože
Len som vytlačiť clonu.

577
00:33:36,000 --> 00:33:38,810
Je to tlač na celú vec.

578
00:33:38,810 --> 00:33:42,830
Tak to má všetky tieto rôzne názvy.

579
00:33:42,830 --> 00:33:45,505
Takže dúhovka je kolekcia
rôznych kvetín.

580
00:33:45,505 --> 00:33:48,830
V tomto prípade je to hovorí
tie druhy to,

581
00:33:48,830 --> 00:33:54,760
Všetky tieto rôzne šírky a
Dĺžky listene lístok a plátku.

582
00:33:54,760 --> 00:33:58,880
>> A tak normálne, ak
Ak chcete tlačiť clonu,

583
00:33:58,880 --> 00:34:03,680
Napríklad, nechcete ho mať
to všetko, pretože to môže prevziať

584
00:34:03,680 --> 00:34:05,190
Celá konzoly.

585
00:34:05,190 --> 00:34:09,280
Takže jedna vec, ktorá je naozaj
pekná je funkcia hlavy.

586
00:34:09,280 --> 00:34:12,929
Takže ak ste práve robiť hlavu
iris, bude vám

587
00:34:12,929 --> 00:34:17,389
Prvých päť riadkov, alebo šesť myslím.

588
00:34:17,389 --> 00:34:19,909
A potom tiež tí,
stačí zadať tu.

589
00:34:19,909 --> 00:34:22,914
Takže 20-- to bude dávať
si prvých 20 riadkov.

590
00:34:22,914 --> 00:34:24,830
A ja som vlastne tak trochu
prekvapený, že táto

591
00:34:24,830 --> 00:34:28,770
dal mi šesť, takže nechaj ma ísť napred
a skontrolujte, či iris-- alebo hlavy, je mi ľúto.

592
00:34:28,770 --> 00:34:31,699

593
00:34:31,699 --> 00:34:34,960
A tu to bude dávať
vy dokumentácia

594
00:34:34,960 --> 00:34:37,960
z toho, čo je hodnota hlava robí.

595
00:34:37,960 --> 00:34:40,839
Tak to vráti prvý
alebo posledná objektu.

596
00:34:40,839 --> 00:34:42,630
A potom budem
pozrite sa na predvolené hodnoty.

597
00:34:42,630 --> 00:34:47,340
A potom hovorí, že východiskové
Metóda head x a n sa rovná 6L.

598
00:34:47,340 --> 00:34:50,620
Tak to vráti prvých šesť prvkov.

599
00:34:50,620 --> 00:34:55,050
A podobne, ak si všimnete, tu som
Nemusel špecifikovať n = 6.

600
00:34:55,050 --> 00:34:56,840
V predvolenom nastavení sa používa šesť, povedal by som.

601
00:34:56,840 --> 00:35:00,130
A potom, keď chcem zadať určitý
hodnoty, potom som si názor, že rovnako.

602
00:35:00,130 --> 00:35:02,970

603
00:35:02,970 --> 00:35:10,592
>> Takže to je asi jednoduché príkazy a
tu je ešte jeden, ktorý je jen-- dobre,

604
00:35:10,592 --> 00:35:12,550
Aj can-- je to vlastne
trochu zložitejšie,

605
00:35:12,550 --> 00:35:17,130
ale to bude len vziať triedu
každého stĺpca dúhovky dátovej sady.

606
00:35:17,130 --> 00:35:20,910
Takže to bude to, čo každý z nich ukáže
stĺpce sú, pokiaľ ide o ich type.

607
00:35:20,910 --> 00:35:23,665
Takže listene lístok dĺžka je číselné,
listene lístok šírka je číselný.

608
00:35:23,665 --> 00:35:26,540
Všetky tieto hodnoty sú iba číselné
pretože si môžete povedať, z týchto údajov

609
00:35:26,540 --> 00:35:29,440
štruktúry sa jedná o
všetci budeme numerickej.

610
00:35:29,440 --> 00:35:34,310
>> A stĺpec druhov
bude faktorom.

611
00:35:34,310 --> 00:35:37,270
Takže za normálnych okolností, by si myslíte, že
to je ako reťazec znakov.

612
00:35:37,270 --> 00:35:48,830
Ale ak si proste irisSpecies,
a potom budem robiť hlavu 5,

613
00:35:48,830 --> 00:35:51,820
a to bude pre tlač
out prvých piatich hodnôt.

614
00:35:51,820 --> 00:35:54,150
>> A potom upozornenie Táto úroveň.

615
00:35:54,150 --> 00:35:58,870
Tak to je saying-- je to spôsob, ako R:
mať kategorické premenné.

616
00:35:58,870 --> 00:36:03,765
Takže namiesto toho len
majúci reťazca znakov,

617
00:36:03,765 --> 00:36:06,740
to má úrovne sa stanovia najmä
ktorý tieto veci sú.

618
00:36:06,740 --> 00:36:12,450
>> Povedzme, že irisSpecies 1.

619
00:36:12,450 --> 00:36:17,690
Takže to, čo chcete robiť, tu je, že som
podmnožín k tomuto druhu stĺpca.

620
00:36:17,690 --> 00:36:21,480
Tak to trvá
Druh stĺpec a potom

621
00:36:21,480 --> 00:36:23,820
indexuje získať prvý prvok.

622
00:36:23,820 --> 00:36:27,140
Tak to by vám mal dať setosa.

623
00:36:27,140 --> 00:36:28,710
A to vám tu tiež dáva úrovne.

624
00:36:28,710 --> 00:36:32,812
>> Takže si môžete tiež porovnať
to znak setosa

625
00:36:32,812 --> 00:36:34,645
a to nebude
byť pravda, pretože jeden

626
00:36:34,645 --> 00:36:37,940
je iného typu, než druhý.

627
00:36:37,940 --> 00:36:40,590
Alebo Myslím, že je to pravda, pretože R
je inteligentnejší než to.

628
00:36:40,590 --> 00:36:45,420
A to vyzerá na to, a potom sa
hovorí, možno to je to, čo chcete.

629
00:36:45,420 --> 00:36:51,860
Takže to bude hovoriť charakter
string setosa je rovnaký, ako je tento.

630
00:36:51,860 --> 00:37:01,290
A potom podobne, môžete
tiež len chytiť tie ako tak ďalej.

631
00:37:01,290 --> 00:37:05,580
>> Takže to je len nejaký druh
rýchle príkazy dátovej sady.

632
00:37:05,580 --> 00:37:08,030
Tak tu je to nejaký prieskum dát.

633
00:37:08,030 --> 00:37:11,360
Tak to je trochu viac
podieľa sa na analýze dát.

634
00:37:11,360 --> 00:37:18,340
A to je prevzatý z niektorých
bootcamp do výskumu v Berkeley.

635
00:37:18,340 --> 00:37:20,790
>> Tak knižnica cudzie.

636
00:37:20,790 --> 00:37:24,880
Takže idem sa načíta
knižnica, ktorá sa nazýva cudzí.

637
00:37:24,880 --> 00:37:32,460
Tak to bude, aby mi read.dta
tak predpokladať, že mám tento súbor dát.

638
00:37:32,460 --> 00:37:39,000
Tento je uložený v aktuálnej
pracovný adresár môj konzoly.

639
00:37:39,000 --> 00:37:42,190
Takže poďme sa pozrieť, čo práve
pracovný adresár.

640
00:37:42,190 --> 00:37:44,620
>> Tak tu je môj pracovný adresár.

641
00:37:44,620 --> 00:37:50,040
A čítanie dát DOT, tento
vec, hovorí tento súbor

642
00:37:50,040 --> 00:37:54,650
je umiestnený v priečinku dát
Tento aktuálny pracovný adresár.

643
00:37:54,650 --> 00:38:00,520
A read.dta to nie je
predvolené príkaz.

644
00:38:00,520 --> 00:38:02,760
Myslím, že načítanie som to v už.

645
00:38:02,760 --> 00:38:04,750
IEI predpokladal som nahral to v už.

646
00:38:04,750 --> 00:38:08,115
>> Ale rovnako tak read.dta nebude
byť predvolený príkaz.

647
00:38:08,115 --> 00:38:11,550
A to je dôvod, prečo budete mať
načítať v tejto knižnici package--

648
00:38:11,550 --> 00:38:14,500
Tento balík nazývaný cudzie.

649
00:38:14,500 --> 00:38:16,690
A v prípade, že nemáte
balíček, myslím, že

650
00:38:16,690 --> 00:38:19,180
zahraničné je jedným z vstavaných ty.

651
00:38:19,180 --> 00:38:31,150
V opačnom prípade môžete tiež
robiť install.packages

652
00:38:31,150 --> 00:38:33,180
a to nainštalovať balík.

653
00:38:33,180 --> 00:38:36,878
A to vám dá R. Uh, no.

654
00:38:36,878 --> 00:38:39,830

655
00:38:39,830 --> 00:38:43,140
A potom som len tak prestať
to preto, že už si to.

656
00:38:43,140 --> 00:38:46,920
>> Ale to, čo je naozaj pekné o R
je to, že správu balíkov

657
00:38:46,920 --> 00:38:48,510
Systém je veľmi elegantný.

658
00:38:48,510 --> 00:38:52,470
Vzhľadom k tomu, že sa bude ukladať všetko
naozaj pekne pre vás.

659
00:38:52,470 --> 00:38:59,780
Takže v tomto prípade, že to bude ukladať
sa v Verím, že táto knižnica tu.

660
00:38:59,780 --> 00:39:02,390
>> Takže kedykoľvek budete chcieť, aby
inštalovať nové balíčky,

661
00:39:02,390 --> 00:39:04,980
je to rovnako jednoduché ako
robí install.packages

662
00:39:04,980 --> 00:39:07,500
a R bude riadiť všetky
balíčky pre vás.

663
00:39:07,500 --> 00:39:12,900
Takže si nemusíte robiť niečo
Python, kde máte externý balíčka

664
00:39:12,900 --> 00:39:15,330
manažéri ako papier
Anaconda, kde ste

665
00:39:15,330 --> 00:39:18,310
doing-- inštaláciu
balíčky mimo Python

666
00:39:18,310 --> 00:39:20,940
a potom sa ich pokúsite spustiť sami.

667
00:39:20,940 --> 00:39:22,210
Tak toto je naozaj príjemný spôsob, ako.

668
00:39:22,210 --> 00:39:25,590
>> A install.packages vyžaduje pripojenie k internetu.

669
00:39:25,590 --> 00:39:31,950
Trvá to zo servera
a úložisko, ktoré

670
00:39:31,950 --> 00:39:33,960
zbiera všetky
balíky sa nazýva CRAN.

671
00:39:33,960 --> 00:39:40,690
A môžete určiť, aký typ zrkadla
Ak chcete stiahnuť balíčky z.

672
00:39:40,690 --> 00:39:43,420
>> Tak tu beriem tento súbor dát.

673
00:39:43,420 --> 00:39:46,240
Ja som to čítal v túto funkciu používať.

674
00:39:46,240 --> 00:39:49,360
Tak nechaj ma ísť dopredu a urobiť to.

675
00:39:49,360 --> 00:39:52,900
>> Takže predpokladajme, že
máte tento súbor dát

676
00:39:52,900 --> 00:39:55,550
a máte úplne
potuchy, čo to je.

677
00:39:55,550 --> 00:39:58,560
A to vlastne príde
pomerne často v priemysle

678
00:39:58,560 --> 00:40:00,910
kde stačí mať tieto
tony a tony chaotický vecí

679
00:40:00,910 --> 00:40:02,890
a sú neuveriteľne unlabeled.

680
00:40:02,890 --> 00:40:06,380
Tak tu to mám
dátový súbor, a ja neviem,

681
00:40:06,380 --> 00:40:08,400
čo to je tak, že som jednoducho
ukazuje na to pozrieť.

682
00:40:08,400 --> 00:40:10,620
>> Takže budem robiť po hlave.

683
00:40:10,620 --> 00:40:14,190
Tak som skontrolovať prvých šesť
stĺpy, čo to je dátová sada.

684
00:40:14,190 --> 00:40:21,730
Tak to je stav, pres04, a potom
Všetky tieto rôzne druh stĺpcov.

685
00:40:21,730 --> 00:40:25,612
A čo je zaujímavé
tu, myslím, že ste to vy

686
00:40:25,612 --> 00:40:27,945
by sa predpokladať, že to vyzerá
ako nejaký druh volieb.

687
00:40:27,945 --> 00:40:30,482

688
00:40:30,482 --> 00:40:32,190
A myslím, že práve od
pri pohľade na súbore

689
00:40:32,190 --> 00:40:41,070
meno to je nejaký druh kolekcia
údajov o kandidátov alebo voličov

690
00:40:41,070 --> 00:40:44,920
Kto hlasoval pre konkrétne prezidentmi
alebo kandidáti prezident

691
00:40:44,920 --> 00:40:46,550
pre voľby 2004.

692
00:40:46,550 --> 00:40:52,920
>> Takže tu je hodnoty 1, 2
tak jeden spôsob ukladania

693
00:40:52,920 --> 00:40:56,540
uchádzači prezident
sú ich mená.

694
00:40:56,540 --> 00:40:59,780
V tomto prípade to vyzerá, že
sú to len celočíselné hodnoty.

695
00:40:59,780 --> 00:41:04,030
Takže 2004, to bol Bush
proti Kerry verím.

696
00:41:04,030 --> 00:41:09,010
A teraz, povedzme, že jednoducho neviem
či 1 zodpovedá Bush alebo 2,

697
00:41:09,010 --> 00:41:11,703
zodpovedá Kerry alebo a
tak ďalej a tak ďalej, že jo?

698
00:41:11,703 --> 00:41:15,860
>> A to je, len pre mňa,
pomerne častým problémom.

699
00:41:15,860 --> 00:41:18,230
Takže to, čo môžete urobiť v tomto prípade?

700
00:41:18,230 --> 00:41:20,000
Takže poďme skontrolovať všetky tieto ďalšie veci.

701
00:41:20,000 --> 00:41:22,790
>> štát, ja som za predpokladu, že táto
pochádza z rôznych štátov.

702
00:41:22,790 --> 00:41:25,100
partyid, príjem.

703
00:41:25,100 --> 00:41:27,710
Poďme sa pozrieť na partyid.

704
00:41:27,710 --> 00:41:32,800
Takže možno jedna vec, ktorú môžete urobiť, je
pozrite sa na každej z pozorovania

705
00:41:32,800 --> 00:41:36,250
ktoré majú partyid republikánskych
alebo demokrat, alebo tak niečo.

706
00:41:36,250 --> 00:41:38,170
Tak poďme sa len pozrieť na to, čo je partyid.

707
00:41:38,170 --> 00:41:41,946
>> Takže budem brať
dát, a potom idem

708
00:41:41,946 --> 00:41:47,960
to urobiť znak dolára
subjekt, ktorý som robil predtým

709
00:41:47,960 --> 00:41:50,770
a to bude
podmnožiny do tohto stĺpca.

710
00:41:50,770 --> 00:41:57,760
A potom budem na hlavu to v
20, len aby videl, ako to vyzerá.

711
00:41:57,760 --> 00:42:00,170
>> Tak to je len banda agentúr.

712
00:42:00,170 --> 00:42:02,800
Takže inými slovami, máte
Chýbajú údaje o týchto ľudí.

713
00:42:02,800 --> 00:42:08,100
Ale tiež všimnúť
dát partyid je faktor

714
00:42:08,100 --> 00:42:10,030
tak to vám dáva rôzne kategórie.

715
00:42:10,030 --> 00:42:14,170
Takže inými slovami, partyid môže trvať
Demokrat, republikán, Independent,

716
00:42:14,170 --> 00:42:16,640
alebo niečo iné.

717
00:42:16,640 --> 00:42:23,940
>> Tak poďme do toho a poďme
zistiť, ktoré z nich je-- oh, OK.

718
00:42:23,940 --> 00:42:28,480
Takže idem do podmnožiny
k partyid a potom

719
00:42:28,480 --> 00:42:32,780
pozrite sa na tie, ktoré sú
Demokrat, napríklad.

720
00:42:32,780 --> 00:42:37,150
Tohle vám Boolean,
obrovský Boolean o trues a FALSEs.

721
00:42:37,150 --> 00:42:41,630
>> A teraz, povedzme, že chcem
na podmnožiny na týchto ľudí.

722
00:42:41,630 --> 00:42:47,260
Takže to bude trvať môj DAT a
podmnožina sa podľa toho, čo pozorovania

723
00:42:47,260 --> 00:42:48,910
majú partyid rovný rovná demokrat.

724
00:42:48,910 --> 00:42:52,830

725
00:42:52,830 --> 00:42:55,180
A to je pomerne dlhá, pretože
tam je tak veľa z nich.

726
00:42:55,180 --> 00:42:59,060
Takže teraz, budem na hlavu to v 20.

727
00:42:59,060 --> 00:43:05,690

728
00:43:05,690 --> 00:43:11,270
>> A ako zistíte, rovná sa rovná
Je zaujímavé, že si

729
00:43:11,270 --> 00:43:13,250
already-- ste tiež, vrátane NAS.

730
00:43:13,250 --> 00:43:19,010
Takže v tomto prípade sa stále nemôže dostať
akékoľvek informácie, pretože teraz máte NAS

731
00:43:19,010 --> 00:43:22,650
a vy len chcete zistiť, ktoré z
pozorovanie zodpovedajú Democrat

732
00:43:22,650 --> 00:43:24,670
a nie tie chýbajúce hodnoty sami.

733
00:43:24,670 --> 00:43:27,680
Tak ako sa vám zbaviť sa týchto agentúr?

734
00:43:27,680 --> 00:43:36,410
>> Tak tu som len pomocou zvýąenie na mojej
kurzora a potom hovorí pohybujúce sa okolo.

735
00:43:36,410 --> 00:43:39,778
A potom tu ja som jednoducho ísť
hovoriť is.na datpartyid.

736
00:43:39,778 --> 00:43:48,970

737
00:43:48,970 --> 00:43:52,720
Tak to aj a bude trvať
dve rôzne logické vektorov

738
00:43:52,720 --> 00:43:57,160
a hovoria, že to bude
TRUE a FALSE napr.

739
00:43:57,160 --> 00:43:59,190
Takže to bude robiť túto komponent-múdry.

740
00:43:59,190 --> 00:44:02,910
Tak tu hovorím zavádzanie
dátový rámec, podmnožiny

741
00:44:02,910 --> 00:44:10,170
na tie, ktoré zodpovedajú demokrat,
a odstrániť niektoré z nich, ktoré nie sú NA.

742
00:44:10,170 --> 00:44:13,540
>> Tak toto by mala will--
dať niečo.

743
00:44:13,540 --> 00:44:16,540

744
00:44:16,540 --> 00:44:17,600
Pozrime sa is.na.

745
00:44:17,600 --> 00:44:24,670

746
00:44:24,670 --> 00:44:27,690
Skúsme is.na datpartyid.

747
00:44:27,690 --> 00:44:36,290

748
00:44:36,290 --> 00:44:45,290
A to by malo dať you--
sorry-- len logický vektor.

749
00:44:45,290 --> 00:44:49,260
A potom, pretože je to tak dlho,
Chystám sa podmnožiny do 20 ° C.

750
00:44:49,260 --> 00:44:49,760
OK.

751
00:44:49,760 --> 00:44:51,570
Tak by to malo fungovať.

752
00:44:51,570 --> 00:44:54,700
>> A toto bude tiež trues.

753
00:44:54,700 --> 00:45:01,830
Aha, takže moja chyba je, že som sa nehnevajte
použitie C ++ a R zamieňajú tak Robím

754
00:45:01,830 --> 00:45:03,590
táto chyba po celú dobu.

755
00:45:03,590 --> 00:45:05,807
A operátor
v skutočnosti ten, ktorý chcete.

756
00:45:05,807 --> 00:45:08,140
Nechcete používať dva
ampersand, len jeden človek.

757
00:45:08,140 --> 00:45:14,970

758
00:45:14,970 --> 00:45:17,010
OK.

759
00:45:17,010 --> 00:45:18,140
>> Tak poďme sa pozrieť.

760
00:45:18,140 --> 00:45:20,930

761
00:45:20,930 --> 00:45:23,920
Tak sme podmnožina sa
partyid kde sú demokrat

762
00:45:23,920 --> 00:45:25,300
a nie sú to chýbajúce hodnoty.

763
00:45:25,300 --> 00:45:27,690
A teraz sa poďme pozrieť na
tie, ktoré oni volili.

764
00:45:27,690 --> 00:45:31,530
Takže to vyzerá, že väčšina
z nich hlasovalo pre 1.

765
00:45:31,530 --> 00:45:36,090
Takže budem pokračovať
a hovoria, že je Kerry.

766
00:45:36,090 --> 00:45:39,507
>> A podobne, môžete
tiež ísť do Republican

767
00:45:39,507 --> 00:45:41,090
a dúfajme, že to by vám mal dať 2.

768
00:45:41,090 --> 00:45:49,730

769
00:45:49,730 --> 00:45:51,770
Je to len banda rôznych stĺpcov.

770
00:45:51,770 --> 00:45:53,070
A skutočne, to je 2.

771
00:45:53,070 --> 00:45:55,750
Takže partyid všetky republikán,
väčšina z nich hlasujú pre 2 osoby.

772
00:45:55,750 --> 00:45:58,390
>> Tak vyzerá to, že, len
pri pohľade na to,

773
00:45:58,390 --> 00:46:00,600
Republikánska bude
very-- alebo partyid

774
00:46:00,600 --> 00:46:02,790
bude veľmi
významným faktorom pri určovaní

775
00:46:02,790 --> 00:46:05,420
ktorý kandidát sú
bude hlasovať za.

776
00:46:05,420 --> 00:46:07,120
A je to samozrejme platí všeobecne.

777
00:46:07,120 --> 00:46:10,139
A to zodpovedá vašim
intuícia, samozrejme.

778
00:46:10,139 --> 00:46:11,930
Takže to vyzerá, ako by som
málo času, takže

779
00:46:11,930 --> 00:46:17,040
dovoľte mi, aby som mala pokračovať
a ukázať niekoľko rýchlych záberov.

780
00:46:17,040 --> 00:46:21,120
Tak tu je niečo, čo je trochu
viac komplikované s vizualizáciou.

781
00:46:21,120 --> 00:46:26,450
Takže v tomto prípade sa jedná o veľmi
Jednoduchá analýza len kontrolovať, čo

782
00:46:26,450 --> 00:46:28,500
prezident '04 je.

783
00:46:28,500 --> 00:46:33,920
>> Takže v tomto prípade je, povedzme, že
chcel na túto otázku odpovedať.

784
00:46:33,920 --> 00:46:38,540
Takže predpokladám, že sme chceli poznať hlasovania
správanie v 2004 prezident volieb

785
00:46:38,540 --> 00:46:41,170
a ako sa to líši podľa rasy.

786
00:46:41,170 --> 00:46:44,380
Takže nielen že chcete
zobraziť správanie hlasovania,

787
00:46:44,380 --> 00:46:47,860
ale chcete podmnožinu každého
závod a trochu zhrnúť, že.

788
00:46:47,860 --> 00:46:50,770
A môžete len povedať
o tejto zložitej značenia

789
00:46:50,770 --> 00:46:52,580
že je to druh stále hmlisté.

790
00:46:52,580 --> 00:46:56,390
>> Takže jeden z viacerých pokročilý výskum
balíky, ktoré tiež druh nedávny

791
00:46:56,390 --> 00:47:00,070
sa nazýva dplyr.

792
00:47:00,070 --> 00:47:03,060
Tak to je to jediné správne tady.

793
00:47:03,060 --> 00:47:08,080
A ggg-- ggplot2 je len pekná
spôsob, ako robiť lepšie vizualizácie

794
00:47:08,080 --> 00:47:09,400
ako vstavané v jednom.

795
00:47:09,400 --> 00:47:11,108
>> Takže idem nahrať
tieto dve knižnice.

796
00:47:11,108 --> 00:47:13,200

797
00:47:13,200 --> 00:47:16,950
A potom, ja idem
vpred a spustenie tohto príkazu.

798
00:47:16,950 --> 00:47:19,050
Stačí si len liečiť to ako čierna skrinka.

799
00:47:19,050 --> 00:47:23,460
>> Čo sa to deje, je, že táto potrubie
Prevádzkovateľ je okolo v tomto argumente

800
00:47:23,460 --> 00:47:24,110
na tu.

801
00:47:24,110 --> 00:47:28,070
Takže hovorím Skupinu dát
závod a potom prezidentom 04.

802
00:47:28,070 --> 00:47:31,530
A potom to všetko ostatné príkazy
filtrovanie a potom sumarizuje

803
00:47:31,530 --> 00:47:34,081
kde robím počet a
potom som ho vykresľovanie tu.

804
00:47:34,081 --> 00:47:39,980

805
00:47:39,980 --> 00:47:42,500
OK v pohode.

806
00:47:42,500 --> 00:47:44,620
Tak poďme do toho a
vidieť, ako to vyzerá.

807
00:47:44,620 --> 00:47:52,280

808
00:47:52,280 --> 00:47:57,290
>> Takže to, čo sa tu deje, je, že som sa
len vynesú každý zo závodov a potom

809
00:47:57,290 --> 00:47:59,670
tie, ktoré oni volili.

810
00:47:59,670 --> 00:48:03,492
A títo dva rôzne
hodnoty zodpovedajú 2 a 1.

811
00:48:03,492 --> 00:48:05,325
Ak chcete, aby sa viac
Elegantný, môžete tiež

812
00:48:05,325 --> 00:48:11,770
stačí zadať, že 2 je Kerry-- alebo
2 je Bush, a potom 1 Kerry.

813
00:48:11,770 --> 00:48:13,700
A tiež môžete mať
že v legende.

814
00:48:13,700 --> 00:48:17,410
>> A tiež môžete rozdeliť tieto stĺpcové grafy.

815
00:48:17,410 --> 00:48:19,480
Vzhľadom k tomu, jedna vec je
že, ak si všimnete,

816
00:48:19,480 --> 00:48:24,560
to nie je veľmi ľahko identifikovať
ktorý z týchto dvoch hodnôt je väčšia.

817
00:48:24,560 --> 00:48:27,920
Takže jedna vec, ktorú by ste chceli
urobiť, je tento modrá oblasť

818
00:48:27,920 --> 00:48:31,855
a len presunúť ju, takže tu
Môžete porovnať tieto dva vedľa seba.

819
00:48:31,855 --> 00:48:34,480
A myslím, že je to niečo, čo som
nemajú čas urobiť práve teraz,

820
00:48:34,480 --> 00:48:36,660
ale to je tiež veľmi jednoduché.

821
00:48:36,660 --> 00:48:40,310
Môžete sa len pozerať na
manuálové stránky ggplot.

822
00:48:40,310 --> 00:48:47,170
Takže si môžete jednoducho ggplot ako
to a prečítajte si do tejto manuálovej stránke.

823
00:48:47,170 --> 00:48:51,920
>> Tak mi dovoľte len rýchlo
ukázať nejaké zaujímavé veci.

824
00:48:51,920 --> 00:48:57,610
Poďme ďalej a ísť to-- len
aplikácie strojového učenia.

825
00:48:57,610 --> 00:49:02,450
Povedzme, že máme tieto tri
balíčky takže budem nahrať ich do.

826
00:49:02,450 --> 00:49:05,500

827
00:49:05,500 --> 00:49:09,170
Tak to proste vytlačí sa na niektoré
informácie potom, čo som vložený veci.

828
00:49:09,170 --> 00:49:15,220
Takže ja hovorím read.csv,
Tento dátový súbor, a teraz

829
00:49:15,220 --> 00:49:18,940
Chystám sa ísť dopredu a pozrieť sa a
vidieť, čo je vnútri tohto súboru údajov.

830
00:49:18,940 --> 00:49:22,080
>> Takže prvých 20 pozorovaní.

831
00:49:22,080 --> 00:49:27,190
Tak som proste x1, x2, a Y. Tak to
Zdá sa, ako banda týchto hodnôt

832
00:49:27,190 --> 00:49:31,640
sú od asi 20 až 80 alebo tak.

833
00:49:31,640 --> 00:49:37,700
A potom podobne pre X2 a potom
Tento Y sa zdá byť štítky 0 a 1.

834
00:49:37,700 --> 00:49:49,500
>> Ak chcete overiť, môžem
proste zhrnutie dát X1.

835
00:49:49,500 --> 00:49:51,660
A potom podobne pre
Všetky tieto ďalšie stĺpce.

836
00:49:51,660 --> 00:49:55,300
Takže zhrnutie je rýchly spôsob, ako
len ukáže vám rýchle hodnoty.

837
00:49:55,300 --> 00:49:56,330
Oh, prepáč.

838
00:49:56,330 --> 00:49:58,440
Ten by mal byť Y.

839
00:49:58,440 --> 00:50:03,420
>> Takže v tomto prípade dáva
kvantily, mediány, maxes rovnako.

840
00:50:03,420 --> 00:50:07,130
V tomto prípade, dáta, môžete vidieť
že je to len bude 0 a 1.

841
00:50:07,130 --> 00:50:10,100
Tiež stredná hovorí
0.6, jednoducho znamená, že ju

842
00:50:10,100 --> 00:50:13,380
Zdá sa, ako by som mať viac ako 1s 0s.

843
00:50:13,380 --> 00:50:16,160
>> Tak nechaj ma ísť dopredu a prehliadka
vám, ako to vyzerá.

844
00:50:16,160 --> 00:50:17,470
Takže som jednoducho ísť na plot to.

845
00:50:17,470 --> 00:50:22,852

846
00:50:22,852 --> 00:50:24,636
Pozrime sa, ako odstrániť to.

847
00:50:24,636 --> 00:50:30,492

848
00:50:30,492 --> 00:50:31,468
Oh OK.

849
00:50:31,468 --> 00:50:35,840

850
00:50:35,840 --> 00:50:36,340
OK.

851
00:50:36,340 --> 00:50:37,590
>> Tak toto je to, čo to vyzerá.

852
00:50:37,590 --> 00:50:46,310
Takže to vyzerá, že žlté I uvedenej
as 0, a potom červenú som určený ako 1s.

853
00:50:46,310 --> 00:50:52,190
Tak tu to vyzerá
štítok body a to

854
00:50:52,190 --> 00:50:56,410
Zdá sa, ako by si chcel nejaký
druh klastrov na túto tému.

855
00:50:56,410 --> 00:51:01,020
>> A dovoľte mi, aby som jednoducho ísť dopredu a prehliadka
ste niektoré z týchto vstavaných funkcií.

856
00:51:01,020 --> 00:51:03,580
Takže tu je lm.

857
00:51:03,580 --> 00:51:06,060
Tak to sa len snaží
aby sa zmestili do linky to.

858
00:51:06,060 --> 00:51:08,640
Takže to, čo je najlepší spôsob, ako
že som sa vojde línie, ako

859
00:51:08,640 --> 00:51:14,020
že bude najlepšie oddelí
Tento druh klastrov.

860
00:51:14,020 --> 00:51:21,790
A v ideálnom prípade, stačí vidieť
že som spustiť všetky tieto príkazy

861
00:51:21,790 --> 00:51:25,450
a potom, ja idem
vpred a pridajte riadok.

862
00:51:25,450 --> 00:51:28,970
>> Takže sa to zdá ako najlepší odhad.

863
00:51:28,970 --> 00:51:34,150
Je to brať najlepšie ten, ktorý minimalizuje
chyba v snahe, aby sa zmestili tento riadok.

864
00:51:34,150 --> 00:51:40,000
Je zrejmé, že tento druh vyzerá
dobrý, ale nie je to najlepšie.

865
00:51:40,000 --> 00:51:43,130
A lineárne modely, v
Všeobecne platí, že sa bude

866
00:51:43,130 --> 00:51:46,811
naozaj skvelé pre teóriu a tak nejako
stavebných základov stroja

867
00:51:46,811 --> 00:51:47,310
učenie.

868
00:51:47,310 --> 00:51:50,330
Ale v praxi, budete
Chcete urobiť niečo všeobecnejšieho.

869
00:51:50,330 --> 00:51:54,280
>> Takže si môžete len skúsiť spustiť
niečo ako neurónové siete.

870
00:51:54,280 --> 00:51:57,110
Tieto veci sú
čím ďalej častejšie.

871
00:51:57,110 --> 00:52:00,530
A jednoducho fungujú fantasticky
pre veľké súbory dát.

872
00:52:00,530 --> 00:52:07,080
Takže v tomto prípade, my len have--
Poďme see-- máme nrow.

873
00:52:07,080 --> 00:52:09,010
Takže nrow je len hovorím, počet riadkov.

874
00:52:09,010 --> 00:52:11,790
Takže v tomto prípade, som
majú 100 pozorovaní.

875
00:52:11,790 --> 00:52:15,010
>> Tak nechaj ma ísť dopredu a
ako neurónové siete.

876
00:52:15,010 --> 00:52:18,620
Tak toto je naozaj pekný
preto, že som si len povedať nnet

877
00:52:18,620 --> 00:52:21,767
a potom som regresiu Y.
Takže Y je to, že stĺpec.

878
00:52:21,767 --> 00:52:23,850
A potom sa to regresiu na
ďalšie dve premenné.

879
00:52:23,850 --> 00:52:27,360
Tak toto je kratšia
notácie pre X1 a X2.

880
00:52:27,360 --> 00:52:29,741
>> Tak poďme do toho a spustiť to.

881
00:52:29,741 --> 00:52:30,240
Oh, prepáč.

882
00:52:30,240 --> 00:52:32,260
Musím bežať celú túto vec.

883
00:52:32,260 --> 00:52:37,500
A to je práve tlačí notácie
na tom, ako rýchlo, alebo nie rýchlo sa

884
00:52:37,500 --> 00:52:38,460
zblížil.

885
00:52:38,460 --> 00:52:41,420
Takže to vyzerá, že sa zbiehajú.

886
00:52:41,420 --> 00:52:44,970
Tak nechaj ma ísť dopredu a tlač
out, ako to vyzerá.

887
00:52:44,970 --> 00:52:51,260
>> Môžete tu je obrázok, a tu je
obrys ukazuje, ako dobre zapadá.

888
00:52:51,260 --> 00:52:56,380
A to je jen-- môžete vidieť
to, že je to veľmi, veľmi pekné.

889
00:52:56,380 --> 00:52:59,400
Mohlo by to byť aj
overfitting, ale môžete si tiež

890
00:52:59,400 --> 00:53:03,390
za toto s ostatnými
techniky, ako je cross-validácie.

891
00:53:03,390 --> 00:53:06,180
A títo sú tiež postavené v R.

892
00:53:06,180 --> 00:53:09,170
>> A dovoľte mi, aby som vám ukázať
podporovať Vector Machine.

893
00:53:09,170 --> 00:53:12,470
To je ďalší naozaj obyčajný
technika v strojového učenia.

894
00:53:12,470 --> 00:53:18,550
To je veľmi podobný lineárny modely, ale
používa, čo sa nazýva metóda jadro.

895
00:53:18,550 --> 00:53:22,790
A pozrime sa, ako dobre, že robí.

896
00:53:22,790 --> 00:53:26,430
Takže toto je veľmi podobný tomu, ako
dobre neurónová sieť vykonáva,

897
00:53:26,430 --> 00:53:27,900
ale je to oveľa hladšie.

898
00:53:27,900 --> 00:53:35,740
A je to založené mimo
z what-- ako SVMs práce.

899
00:53:35,740 --> 00:53:40,250
>> Tak to je len veľmi
rýchly prehľad niektorých

900
00:53:40,250 --> 00:53:43,822
z vstavaných funkcií, ktoré môžete urobiť
a tiež niektoré z prieskumu dát.

901
00:53:43,822 --> 00:53:45,905
Takže ma proste ísť dopredu
a vrátiť sa do záberov.

902
00:53:45,905 --> 00:53:50,290

903
00:53:50,290 --> 00:53:53,670
>> Tak zrejmé, že toto je
nie veľmi komplexné.

904
00:53:53,670 --> 00:53:57,140
A to je naozaj len ukážka
ukáže vám, čo môžete naozaj v R.

905
00:53:57,140 --> 00:53:59,100
Takže ak by ste rovnako ako
sa dozvedieť viac, tu

906
00:53:59,100 --> 00:54:01,210
sú banda rôznych zdrojov.

907
00:54:01,210 --> 00:54:06,890
>> Takže ak ste radi učebnice alebo ste
len rád čítanie veci on-line,

908
00:54:06,890 --> 00:54:09,670
potom je to fantastický
jeden by Hadley Wickham,

909
00:54:09,670 --> 00:54:13,010
ktorý tiež vytvoril všetky tieto
naozaj cool balíčky.

910
00:54:13,010 --> 00:54:17,420
Ak ste radi videá, potom
Berkeley má úžasné bootcamp

911
00:54:17,420 --> 00:54:21,060
to je several-- je to trochu dlhé.

912
00:54:21,060 --> 00:54:24,210
A to vás naučí takmer
všetko, čo ste chceli vedieť o R.

913
00:54:24,210 --> 00:54:27,770
>> A podobne je tu Codeacademy
a všetky tieto iný druh

914
00:54:27,770 --> 00:54:29,414
na interaktívne webové stránky.

915
00:54:29,414 --> 00:54:31,580
Oni sú tiež stále
common-- bežnejšie.

916
00:54:31,580 --> 00:54:33,749
Tak to je veľmi podobný Codeacademy.

917
00:54:33,749 --> 00:54:35,790
A napokon, ak ste práve
Chcete spoločenstiev, a pomôcť,

918
00:54:35,790 --> 00:54:38,800
to sú banda
veci, ktoré môžete ísť.

919
00:54:38,800 --> 00:54:40,880
Je zrejmé, že stále
používať e-mailovej konferencie, práve

920
00:54:40,880 --> 00:54:44,860
ako takmer každý druhý
programovací jazyk komunity.

921
00:54:44,860 --> 00:54:47,880
A #rstats, to je
naša komunita Twitter.

922
00:54:47,880 --> 00:54:49,580
To je vlastne celkom bežné.

923
00:54:49,580 --> 00:54:50,850
A potom užívateľ!

924
00:54:50,850 --> 00:54:52,340
Je len naša konferencia.

925
00:54:52,340 --> 00:54:55,390
>> A potom, samozrejme, môžete
použiť všetky tieto iné Q & A veci,

926
00:54:55,390 --> 00:54:57,680
ako pretečeniu zásobníka,
Google, a potom GitHub.

927
00:54:57,680 --> 00:55:00,490
Pretože väčšina z týchto balíčkov
a mnoho komunity

928
00:55:00,490 --> 00:55:03,420
bude sústredený okolo rozvojových
kód, pretože je to open source.

929
00:55:03,420 --> 00:55:05,856
A to je len naozaj pekne na GitHub.

930
00:55:05,856 --> 00:55:08,730
A konečne, môžete sa ma, či kontaktovať
stačí nejaké rýchle otázky.

931
00:55:08,730 --> 00:55:13,530
Takže si ma nájsť na Twitteri tu,
moje webové stránky, a to len môj e-mail.

932
00:55:13,530 --> 00:55:17,840
Tak dúfajme, že to
something-- len krátky teaser

933
00:55:17,840 --> 00:55:20,900
čoho R je naozaj schopný robiť.

934
00:55:20,900 --> 00:55:23,990
A dúfajme, že ste práve
pozrite sa na tieto tri odkazy

935
00:55:23,990 --> 00:55:25,760
a uvidíte, čo môžete urobiť viac.

936
00:55:25,760 --> 00:55:28,130
A ja myslím, že je to len o tom.

937
00:55:28,130 --> 00:55:28,630
Vďaka.

938
00:55:28,630 --> 00:55:30,780
>> [APPLAUSE]

939
00:55:30,780 --> 00:55:31,968