1 00:00:00,000 --> 00:00:00,750 2 00:00:00,750 --> 00:00:09,800 >> [Mūzikas atskaņošanai] 3 00:00:09,800 --> 00:00:13,014 4 00:00:13,014 --> 00:00:13,680 Dustin TRAN: Hi. 5 00:00:13,680 --> 00:00:14,980 Mans vārds ir Dustin. 6 00:00:14,980 --> 00:00:18,419 Tāpēc es būšu uzrādot Datu analīze R. 7 00:00:18,419 --> 00:00:19,710 Tikai mazliet par sevi. 8 00:00:19,710 --> 00:00:24,320 Es esmu šobrīd absolvents students inženiertehnisks un Applied Sciences. 9 00:00:24,320 --> 00:00:28,330 Es studēt krustošanās mašīnmācīšanās un statistika 10 00:00:28,330 --> 00:00:31,375 tāpēc Datu analīze R ir patiešām būtiski, lai tas, ko 11 00:00:31,375 --> 00:00:33,790 Man katru dienu. 12 00:00:33,790 --> 00:00:35,710 >> Un R ir sevišķi labs datu analīzi 13 00:00:35,710 --> 00:00:39,310 tāpēc, ka tas ir ļoti labs prototipu. 14 00:00:39,310 --> 00:00:43,590 Un parasti, ja jūs darāt kaut kāda datu analīzi, daudz problēmu 15 00:00:43,590 --> 00:00:44,920 gatavojas izziņas. 16 00:00:44,920 --> 00:00:48,700 Un lai jūs vienkārši vēlaties, lai būtu daži patiešām labi, valoda, 17 00:00:48,700 --> 00:00:53,770 ir tikai labs, lai dara iebūvētās funkcijas, nevis 18 00:00:53,770 --> 00:00:57,430 pie kam, lai risinātu ar zema līmeņa lietām. 19 00:00:57,430 --> 00:01:01,040 Tātad sākumā, es esmu tikai gatavojas ieviest to, kas ir R, kāpēc 20 00:01:01,040 --> 00:01:04,540 jūs vēlaties to izmantot, un tad iet pāri uz kādu demo, 21 00:01:04,540 --> 00:01:07,060 un tikai iet no turienes. 22 00:01:07,060 --> 00:01:08,150 >> Tātad, kas ir R? 23 00:01:08,150 --> 00:01:11,180 R ir tikai valoda, attīstīta statistikas skaitļošanas 24 00:01:11,180 --> 00:01:12,450 un vizualizācija. 25 00:01:12,450 --> 00:01:16,000 Tātad, ko tas nozīmē, ka tas ir ļoti lielisks valoda 26 00:01:16,000 --> 00:01:22,400 jebkāda veida lieta, kas nodarbojas ar neskaidrība vai datu vizualizācijas. 27 00:01:22,400 --> 00:01:24,850 Tātad jums ir visas šīs varbūtību sadalījums. 28 00:01:24,850 --> 00:01:27,140 Ir būs iebūvētās funkcijas. 29 00:01:27,140 --> 00:01:31,650 Jūs arī ir lielisks uzzīmējot paketes. 30 00:01:31,650 --> 00:01:34,110 >> Python ir cits konkurē valoda datiem. 31 00:01:34,110 --> 00:01:40,020 Un viena lieta, ko es uzskatu, ka R ir daudz labāk ir vizualizācija. 32 00:01:40,020 --> 00:01:45,200 Tātad, ko jūs redzēsiet šajā demo kā labi ir tikai ļoti intuitīvs valoda 33 00:01:45,200 --> 00:01:48,050 ka tikai strādā ļoti labi. 34 00:01:48,050 --> 00:01:53,140 Tas ir arī bezmaksas un atvērtā koda, kā ir kāda cita laba valoda I guess. 35 00:01:53,140 --> 00:01:55,440 >> Un šeit, ķekars tikko atslēgvārdi izmet pie jums. 36 00:01:55,440 --> 00:02:00,450 Tas ir dinamisks, kas nozīmē, ja jums ir Īpaša veida piešķirts objektu 37 00:02:00,450 --> 00:02:02,025 nekā tas būs vienkārši mainīt to uz lidot. 38 00:02:02,025 --> 00:02:05,670 Tas ir slinks, lai tas ir gudri par cik tas aprēķinus. 39 00:02:05,670 --> 00:02:12,250 Funkcionālā nozīmē, tā tiešām var darboties pamatojoties off funkciju tik anything-- 40 00:02:12,250 --> 00:02:16,910 jebkāda veida manipulācijas esat darot, tā būs balstīta off funkcijas. 41 00:02:16,910 --> 00:02:20,162 >> Tātad bināro operatori, piemēram, ir tikai raksturīguma funkcijas. 42 00:02:20,162 --> 00:02:21,870 Un viss, kas jūs gatavojas darīt, ir 43 00:02:21,870 --> 00:02:24,690 būs notecina pati funkcijas. 44 00:02:24,690 --> 00:02:27,140 Un tad objektorientētā kā labi. 45 00:02:27,140 --> 00:02:30,930 >> Tātad, šeit ir xkcd gabals. 46 00:02:30,930 --> 00:02:34,350 Ne tikai tāpēc, ka es jūtos kā Xkcd ir būtiska jebkura veida 47 00:02:34,350 --> 00:02:37,770 prezentācijas, bet gan tāpēc, ka Man šķiet, ka tas patiešām 48 00:02:37,770 --> 00:02:42,160 āmuri domu, ka daudz laiks, kad jūs darāt kaut kādas datu veida 49 00:02:42,160 --> 00:02:46,570 analīze, problēmu nav tik daudz, cik ātri tas darbojas, 50 00:02:46,570 --> 00:02:49,850 bet cik ilgi tas būs aizvedīs programmēt uzdevumu. 51 00:02:49,850 --> 00:02:54,112 Tātad, šeit ir tikai analizējot, vai stratēģija vai b ir efektīvāka. 52 00:02:54,112 --> 00:02:55,820 Tas būs kaut kas jūs esat 53 00:02:55,820 --> 00:02:58,290 gatavojas risināt daudz ar in Kārtot zema līmeņa valodas 54 00:02:58,290 --> 00:03:03,440 kur jūs nodarbojas ar SEG defektiem, atmiņas sadali, initializations, 55 00:03:03,440 --> 00:03:05,270 pat padarot iebūvētās funkcijas. 56 00:03:05,270 --> 00:03:09,920 Un šis stuff ir viss strādājot ļoti, ļoti eleganti R. 57 00:03:09,920 --> 00:03:12,839 >> Tik vienkārši āmurs šo punkts, lielākais sašaurinājums 58 00:03:12,839 --> 00:03:13,880 būs kognitīvo. 59 00:03:13,880 --> 00:03:17,341 Tāpēc datu analīze ir ļoti grūti problēmu. 60 00:03:17,341 --> 00:03:19,340 Vienalga, vai jūs darāt mašīnmācīšanās, vai jūs esat 61 00:03:19,340 --> 00:03:22,550 darot tikai daži no veida pamata datu izpēte, 62 00:03:22,550 --> 00:03:25,290 Jūs nevēlaties, lai būtu veikt dokumentu 63 00:03:25,290 --> 00:03:27,440 un tad sastādīt kaut kas katru reizi, kad 64 00:03:27,440 --> 00:03:31,010 vēlaties redzēt, ko kolonna izskatās, kas īpaši ieraksti matricā 65 00:03:31,010 --> 00:03:32,195 izskatās. 66 00:03:32,195 --> 00:03:34,320 Tātad jūs vienkārši vēlaties, lai būtu daži patiešām jauki interfeiss 67 00:03:34,320 --> 00:03:37,740 jūs varat palaist vienkāršu funkciju ka indeksi, lai neatkarīgi no 68 00:03:37,740 --> 00:03:41,870 vēlaties, un vienkārši palaist to no turienes. 69 00:03:41,870 --> 00:03:44,190 Un jums ir nepieciešams domēna īpašas valodas par to. 70 00:03:44,190 --> 00:03:51,750 Un R patiešām palīdzēs jums noteikt problēmu un atrisināt to šādā veidā. 71 00:03:51,750 --> 00:03:58,690 >> Tātad, šeit ir gabals rāda programmēšana popularitāte R, jo tā ir aizgājusi laika gaitā. 72 00:03:58,690 --> 00:04:04,060 Tātad, kā jūs varat redzēt, piemēram, 2013. vai tāpēc tas vienkārši uzspridzināts ārkārtīgi. 73 00:04:04,060 --> 00:04:09,570 Un tas ir tikai tāpēc, ka milzīgs tendenci tehnoloģiju nozarē 74 00:04:09,570 --> 00:04:10,590 par lielas dati. 75 00:04:10,590 --> 00:04:13,010 Arī ne tikai tehnoloģija rūpniecība, bet tiešām 76 00:04:13,010 --> 00:04:16,490 jebkurā nozarē that-- jo daudz nozarēm 77 00:04:16,490 --> 00:04:20,589 ir sava veida būtiskas mēģināt atrisināt šīs problēmas. 78 00:04:20,589 --> 00:04:24,590 Un parasti, jūs varat būt dažas labas veids, kā izmērīt šīs problēmas 79 00:04:24,590 --> 00:04:29,720 vai pat tos definējot, vai risināšanai izmantojot datus. 80 00:04:29,720 --> 00:04:35,430 Tāpēc es domāju, ka šobrīd R ir 11 populārākā valoda uz TIOBE 81 00:04:35,430 --> 00:04:38,200 un tas ir audzis kopš tā laika. 82 00:04:38,200 --> 00:04:40,740 83 00:04:40,740 --> 00:04:43,080 >> Tātad, šeit ir daži vairāk iezīmes R. Tā ir 84 00:04:43,080 --> 00:04:46,900 milzīgs iepakojumu skaits un par visiem šiem dažādas lietas. 85 00:04:46,900 --> 00:04:52,470 Tātad, jebkurā laikā jums ir noteiktu problēmu, lielākā daļa 86 00:04:52,470 --> 00:04:55,060 laiks R būs šī funkcija jums. 87 00:04:55,060 --> 00:04:58,520 Tātad, vai jūs vēlaties, lai veidot kaut kādas mašīnas veida 88 00:04:58,520 --> 00:05:02,770 mācīšanās algoritms sauc Random Forest vai lēmumu koki, 89 00:05:02,770 --> 00:05:07,530 vai pat mēģina veikt vidējo funkcija vai kādu no šo stuff, 90 00:05:07,530 --> 00:05:10,000 R būs kas. 91 00:05:10,000 --> 00:05:14,190 >> Un, ja jūs esat rūp optimizācija, viena lieta, kas ir kopīgs 92 00:05:14,190 --> 00:05:17,430 ir tas, ka pēc tam, kad esat pabeidzis prototipu daži augsta līmeņa valoda kārtot, 93 00:05:17,430 --> 00:05:19,810 jūs mest, ka in-- Jums būs tikai ostas, ka vairāk nekā 94 00:05:19,810 --> 00:05:21,550 zināmā zema līmeņa valoda. 95 00:05:21,550 --> 00:05:26,090 Kas ir labs par R ir tas, ka tad, kad jūs esat darīts prototipu, jūs varat palaist C ++, 96 00:05:26,090 --> 00:05:29,510 vai Fortran, vai kāda no šīm zemāka līmeņa, ko tiešā veidā uz R. 97 00:05:29,510 --> 00:05:32,320 Tātad tas ir viens patiešām atdzist iezīme par R, 98 00:05:32,320 --> 00:05:35,930 ja jūs patiešām rūp optimizācija punkts. 99 00:05:35,930 --> 00:05:39,490 >> Un tas ir arī ļoti labs tīmekļa vizualizācijas. 100 00:05:39,490 --> 00:05:43,530 Tātad D3.js, piemēram, ir Es domāju citu semināru 101 00:05:43,530 --> 00:05:45,130 ka mēs šodien prezentēja. 102 00:05:45,130 --> 00:05:48,510 Un tas ir patiešām awesome darot interaktīvas vizualizācijas. 103 00:05:48,510 --> 00:05:54,460 Un D3.js pieņemts, ka esat daži no datu veida, kas attēlo 104 00:05:54,460 --> 00:05:58,080 un R ir lielisks veids, kā to var darīt datu analīze, pirms jūs eksportēt 105 00:05:58,080 --> 00:06:04,220 pār D3.js vai pat vienkārši palaist D3.js komandas vērā R pati, 106 00:06:04,220 --> 00:06:08,240 kā arī visus šos citas bibliotēkas, kā arī. 107 00:06:08,240 --> 00:06:13,041 >> Tā, ka bija tikai ieviešana to, kas ir R, un kāpēc jūs varētu to izmantot. 108 00:06:13,041 --> 00:06:14,790 Tātad cerams, es esmu pārliecināts, jums kaut ko 109 00:06:14,790 --> 00:06:18,460 par to tikai mēģina lai redzētu, kas tas ir tāpat. 110 00:06:18,460 --> 00:06:23,930 Tāpēc es esmu gatavojas iet uz priekšu un iet cauri daži pamati par R objektiem 111 00:06:23,930 --> 00:06:26,150 un ko jūs tiešām var darīt. 112 00:06:26,150 --> 00:06:29,690 >> Tātad, šeit ir tikai ķekars math komandas. 113 00:06:29,690 --> 00:06:35,000 Tā teikt you're-- jūs vēlaties, lai izveidotu valoda sevi un jūs vienkārši vēlaties 114 00:06:35,000 --> 00:06:38,080 lai ir ķekars dažādu instrumentu. 115 00:06:38,080 --> 00:06:42,520 Jebkāda veida darbības jūs domājat, ka jūs vēlaties vēlas, ir diezgan daudz būs R. 116 00:06:42,520 --> 00:06:44,150 >> Tātad, šeit ir 2 plus 2. 117 00:06:44,150 --> 00:06:46,090 Te ir 2 reizes pi. 118 00:06:46,090 --> 00:06:51,870 R ir ķekars iebūvēto konstantēm ka jūs bieži izmantot, piemēram, pī, e. 119 00:06:51,870 --> 00:06:56,230 >> Un tad, lūk, 7 plus runif, tāpēc runif no 1. 120 00:06:56,230 --> 00:07:02,450 Šī ir funkcija, kas ir rada viens izlases vienota no 0 līdz 1. 121 00:07:02,450 --> 00:07:04,400 Un tad tur ir 3 ar jaudu 4. 122 00:07:04,400 --> 00:07:06,430 Tur ir kvadrātveida saknes. 123 00:07:06,430 --> 00:07:07,270 >> Tur ir žurnāls. 124 00:07:07,270 --> 00:07:14,500 Tātad log darīs bāzi eksponenciālā pati. 125 00:07:14,500 --> 00:07:18,337 Un tad, ja jūs norādāt bāzi, tad jūs varat darīt, ko vien bāze vēlaties. 126 00:07:18,337 --> 00:07:19,920 Un tad šeit ir dažas citas komandas. 127 00:07:19,920 --> 00:07:22,180 Tātad jums ir 23 mod 2. 128 00:07:22,180 --> 00:07:24,910 Tad jums ir atlikušo. 129 00:07:24,910 --> 00:07:27,110 Tad jums ir zinātniskais notācija ja jūs arī 130 00:07:27,110 --> 00:07:34,060 vēlas darīt tikai pēc vairāk un sarežģītāka lietas. 131 00:07:34,060 --> 00:07:37,320 >> Tātad, šeit ir uzdevums. 132 00:07:37,320 --> 00:07:40,830 Tik tipiski piešķīrumi R tiek darīts ar bultiņu 133 00:07:40,830 --> 00:07:43,440 tāpēc tas ir mazāk nekā, un tad defisi. 134 00:07:43,440 --> 00:07:47,250 Tātad, šeit es esmu tikai piešķirot 3 ar mainīgo Val. 135 00:07:47,250 --> 00:07:50,160 >> Un tad es esmu izdrukāšana val un tad izdrukā trīs. 136 00:07:50,160 --> 00:07:53,920 Pēc noklusējuma R tulks, to izdrukās lietas par Jums 137 00:07:53,920 --> 00:07:57,280 tāpēc jums nav norādīt izdrukātu val jebkurā laikā vēlaties drukāt kaut ko. 138 00:07:57,280 --> 00:08:00,200 Jūs varat vienkārši darīt val un tad tas būs darīt jums. 139 00:08:00,200 --> 00:08:04,380 >> Tāpat jūs varat izmantot ir vienāds tehniski kā uzdevuma operatoru. 140 00:08:04,380 --> 00:08:07,190 Ir nelielas nianses starp izmantojot bultiņu 141 00:08:07,190 --> 00:08:10,730 operators un vienādības operators uzdevumiem. 142 00:08:10,730 --> 00:08:15,470 Galvenokārt konvencija, ikvienam būs tikai izmantot bultiņas operatoru. 143 00:08:15,470 --> 00:08:21,850 >> Un šeit, es esmu piešķirot šo slīpa notācija sauc 1 kolu 6. 144 00:08:21,850 --> 00:08:26,010 Tas rada vektors no 1 līdz 6. 145 00:08:26,010 --> 00:08:29,350 Un tas tiešām jauki, jo tad jūs vienkārši piešķirt vektoru val 146 00:08:29,350 --> 00:08:34,270 un kas darbojas ar sevi. 147 00:08:34,270 --> 00:08:37,799 >> Tātad šis ir jau iet no single-- ļoti intuitīvu datu 148 00:08:37,799 --> 00:08:41,070 struktūra tikai divas reizes lielāks daži tipa veida stājas vektoru 149 00:08:41,070 --> 00:08:45,670 un kurā tiks apkopota visa skalāro vērtības jums. 150 00:08:45,670 --> 00:08:50,770 Tātad, pēc tam, kad iet no skalārs, jūs ir R objektus, un tas ir vektors. 151 00:08:50,770 --> 00:08:55,610 Vektors ir jebkāda veida savākšana no tā paša tipa. 152 00:08:55,610 --> 00:08:58,150 Tātad, šeit ir ķekars vektoriem. 153 00:08:58,150 --> 00:08:59,800 >> Tātad tas ir ciparu. 154 00:08:59,800 --> 00:09:02,440 Ciparu ir R veids, kā pateikt dubultā. 155 00:09:02,440 --> 00:09:07,390 Un tā pēc noklusējuma, jebkurš skaits būs dubultā. 156 00:09:07,390 --> 00:09:13,150 >> Tātad, ja jums ir c 1,1, 3, negatīvs 5.7, c ir funkcija. 157 00:09:13,150 --> 00:09:16,760 Tas concatenates visi trīs numurus uz vektoru. 158 00:09:16,760 --> 00:09:19,619 Un tas be-- tāpēc, ja pamanāt 3 pats par sevi, 159 00:09:19,619 --> 00:09:21,910 Parasti jūs varētu uzņemties ka tas ir kā veselam skaitlim, 160 00:09:21,910 --> 00:09:25,050 bet tāpēc, ka visiem vektoriem ir tāda paša tipa, 161 00:09:25,050 --> 00:09:28,660 tas ir vektors Dubletu vai ciparu šajā gadījumā. 162 00:09:28,660 --> 00:09:34,920 >> rnorm ir funkcija, kas rada standarts normāli variables-- 163 00:09:34,920 --> 00:09:36,700 vai standarta normālās vērtības. 164 00:09:36,700 --> 00:09:38,360 Un es esmu norādot divus no tiem. 165 00:09:38,360 --> 00:09:43,840 Tāpēc es esmu dara rnorm 2, piešķirot ka to DEVS, un tad es esmu izdrukāšana devs. 166 00:09:43,840 --> 00:09:47,350 Tātad šie ir tikai divi izlases normālās vērtības. 167 00:09:47,350 --> 00:09:50,060 >> Un tad ints ja jūs jums rūp veseli skaitļi. 168 00:09:50,060 --> 00:09:54,650 Tātad tas ir tikai par atmiņu sadali un glābšanas atmiņas lielums. 169 00:09:54,650 --> 00:10:01,460 Tātad jums būs pievienot Jūsu numuriem, ko nosaka kapitāla L. 170 00:10:01,460 --> 00:10:04,170 >> Kopumā ņemot, tas ir R vēsturiskā notācija 171 00:10:04,170 --> 00:10:06,940 kaut ko sauc par ilgi skaitlis. 172 00:10:06,940 --> 00:10:09,880 Tātad lielāko daļu laika, jūs nodarbosies ar dubultspēlēs. 173 00:10:09,880 --> 00:10:15,180 Un, ja jūs kādreiz būs vēlāk par optimizēt savu kodu, 174 00:10:15,180 --> 00:10:18,110 Jūs varat vienkārši pievienot šos L's pēc tam vai tās laikā 175 00:10:18,110 --> 00:10:22,280 Ja jūs, piemēram, precognitive par to, ko jūs gatavojas darīt šiem mainīgajiem. 176 00:10:22,280 --> 00:10:25,340 177 00:10:25,340 --> 00:10:26,890 >> Tātad, šeit ir raksturs vektors. 178 00:10:26,890 --> 00:10:31,440 Tātad, atkal, es esmu concatenating Trīs stīgas šoreiz. 179 00:10:31,440 --> 00:10:36,230 Ievērojiet, ka dubultā virknes un single stīgas ir vienādi R. 180 00:10:36,230 --> 00:10:41,000 Tāpēc man ir Artūrs un Marvin s un tā kad es esmu drukājot to ārā, visi no tiem 181 00:10:41,000 --> 00:10:43,210 gatavojas parādīt dubultā stīgas. 182 00:10:43,210 --> 00:10:45,880 Un, ja jūs arī vēlaties iekļaut dubultā vai neprecējies string 183 00:10:45,880 --> 00:10:50,070 jūsu rakstzīmes, tad varat nu pārmaiņus jūsu virknes. 184 00:10:50,070 --> 00:10:53,540 >> Tāpēc Marvin ir par Otrs elements, tas ir 185 00:10:53,540 --> 00:10:56,380 gatavojas show-- tevi vienkārši ir dubultā virknes 186 00:10:56,380 --> 00:10:59,050 un pēc tam viena rinda tāpēc tas ir pārmaiņus. 187 00:10:59,050 --> 00:11:04,040 Pretējā gadījumā, ja jūs vēlaties izmantot dubultā string operators dubultā virknē 188 00:11:04,040 --> 00:11:07,090 ja jūs nedeklarējot, tad jūs vienkārši izmantot evakuācijas operatoru. 189 00:11:07,090 --> 00:11:10,600 Tātad jūs slīpsvītru dubultu virkni. 190 00:11:10,600 --> 00:11:13,330 >> Un visbeidzot, mēs arī ir loģiski vektori. 191 00:11:13,330 --> 00:11:15,890 Tik logical-- tik TRUE un FALSE, un viņi 192 00:11:15,890 --> 00:11:18,880 būs visi lielie burti. 193 00:11:18,880 --> 00:11:22,370 Un tad, atkal, es esmu concatenating tos un pēc tam piešķirot tos bools. 194 00:11:22,370 --> 00:11:24,590 Tātad bools gatavojas parādīt Jūs TRUE, FALSE, un TRUE. 195 00:11:24,590 --> 00:11:28,280 196 00:11:28,280 --> 00:11:31,620 >> Tātad, šeit ir vektorizēta indeksācija. 197 00:11:31,620 --> 00:11:34,870 Tā sākumā, es esmu ņemot function-- 198 00:11:34,870 --> 00:11:39,230 to sauc sequence-- secība 2 līdz 12. 199 00:11:39,230 --> 00:11:42,490 Un es esmu ņemot secību ar 2. 200 00:11:42,490 --> 00:11:46,660 Tātad, tas ir gatavojas darīt 2, 4, 6, 8, 10 un 12. 201 00:11:46,660 --> 00:11:50,080 Un tad, es esmu indeksācija lai iegūtu trešo elementu. 202 00:11:50,080 --> 00:11:55,770 >> Tātad viena lieta, kas jāpatur prātā, ir ka R indeksi, sākot no 1. 203 00:11:55,770 --> 00:12:00,550 Tātad Vals 3 gatavojas sniegt Jums Trešais elements. 204 00:12:00,550 --> 00:12:04,580 Tas ir sava veida atšķiras no citiem valodas, kur tas sākas no nulles. 205 00:12:04,580 --> 00:12:09,780 Tātad C vai C ++, piemēram, jūs esat gatavojas iegūt ceturto elementu. 206 00:12:09,780 --> 00:12:13,280 >> Un šeit ir vals no 3 līdz 5. 207 00:12:13,280 --> 00:12:16,030 Tik viena lieta, kas ir tiešām foršs ir tas, ka jums 208 00:12:16,030 --> 00:12:20,410 var radīt pagaidu mainīgos iekšā un tad tikai izmantot tos par lidot. 209 00:12:20,410 --> 00:12:21,960 Tātad, šeit ir 3 līdz 5. 210 00:12:21,960 --> 00:12:25,070 Tāpēc es esmu radot vektoru 3, 4, 5 un un pēc tam 211 00:12:25,070 --> 00:12:29,700 Es esmu indeksējot iegūt trešdaļu, ceturto un piekto elementi. 212 00:12:29,700 --> 00:12:32,280 >> Tātad tāpat, varat abstrakts to tikai darīt 213 00:12:32,280 --> 00:12:35,280 jebkāda veida vektoru kas dod jums indeksācija. 214 00:12:35,280 --> 00:12:40,050 Tātad, šeit ir vals un tad pirmkārt, trešais, un sestais elementi. 215 00:12:40,050 --> 00:12:42,800 Un tad, ja vēlaties darīt papildinājums, 216 00:12:42,800 --> 00:12:45,210 lai jūs vienkārši darīt mīnus pēc tam, un ka ņemšu 217 00:12:45,210 --> 00:12:48,600 dos jums visu, kas ir ne pirmkārt, trešais vai sestais elements. 218 00:12:48,600 --> 00:12:51,590 Tāpēc šī būs 4, 8 un 10. 219 00:12:51,590 --> 00:12:54,380 >> Un, ja jūs vēlaties, lai saņemtu vēl vairāk uzlabotas, 220 00:12:54,380 --> 00:12:57,610 Jūs varat saķēdēt Būla vektori. 221 00:12:57,610 --> 00:13:05,210 Tātad šis indekss ir gatavojas sniegt jums šis Boolean vektors garums 6. 222 00:13:05,210 --> 00:13:07,280 Tātad rep TRUE komats 3. 223 00:13:07,280 --> 00:13:09,680 Tas atkārtot TRUE trīs reizes. 224 00:13:09,680 --> 00:13:12,900 Tātad tas dos jums vektors TRUE, TRUE, TRUE. 225 00:13:12,900 --> 00:13:17,470 >> rep FALSE 4-- tas gatavojas sniegt jums vektors FALSE, FALSE, FALSE, FALSE. 226 00:13:17,470 --> 00:13:21,280 Un tad c gatavojas saķēdēt šie divi Booleans kopā. 227 00:13:21,280 --> 00:13:24,090 Tātad jūs esat gatavojas saņemt trīs TRUEs un tad četras FALSEs. 228 00:13:24,090 --> 00:13:28,460 >> Tā, ka tad, kad jūs indeksu vals, tu esi gatavojas saņemt TRUE, TRUE, TRUE. 229 00:13:28,460 --> 00:13:31,420 Tāpēc, ka ir gatavojas teikt jā, Es gribu šos trīs elementus. 230 00:13:31,420 --> 00:13:33,520 Un tad FALSE, FALSE, FALSE, FALSE notiek 231 00:13:33,520 --> 00:13:37,140 pateikt nē, es negribu šos elementus tāpēc tas nav gatavojas atgriezties tos. 232 00:13:37,140 --> 00:13:41,490 >> Un es domāju, ka tiešām typo šeit jo tas ir saprotams, atkārtojiet TRUE 3 233 00:13:41,490 --> 00:13:47,990 un atkārtot FALSE 4, un tehniski, jums tikai seši elementi tik atkārtot FALSE, 234 00:13:47,990 --> 00:13:50,470 tas būtu atkārtot FALSE 3. 235 00:13:50,470 --> 00:13:55,260 Es domāju, ka R ir arī pietiekami gudrs, piemēram ka, ja jūs vienkārši norādīt 4 šeit, tad 236 00:13:55,260 --> 00:13:56,630 tas nav pat kļūda out. 237 00:13:56,630 --> 00:13:58,480 Tas būs tikai jums šo vērtību. 238 00:13:58,480 --> 00:14:00,970 Tā tas būs vienkārši ignorēt šo ceturto FALSE. 239 00:14:00,970 --> 00:14:05,310 240 00:14:05,310 --> 00:14:09,270 >> Tātad, šeit ir vektorizēta uzdevums. 241 00:14:09,270 --> 00:14:15,480 Tik set.seed-- tas tikai nosaka sēkla pseudorandom numuriem. 242 00:14:15,480 --> 00:14:20,110 Tāpēc es esmu nosakot sēklai 42, kas nozīmē, ka, ja es radīt 243 00:14:20,110 --> 00:14:22,950 trīs izlases normāli vērtībām, un tad, ja jūs 244 00:14:22,950 --> 00:14:27,400 palaist set.seed par savu datoru, izmantojot vienu un to pašu vērtību 42, 245 00:14:27,400 --> 00:14:30,990 tad jūs arī iegūt paši trīs izlases normals. 246 00:14:30,990 --> 00:14:33,411 >> Tātad šis ir patiešām labs par sakritību. 247 00:14:33,411 --> 00:14:35,910 Parasti, kad jūs darāt daži veida zinātnisko analīzi, 248 00:14:35,910 --> 00:14:37,230 Jūs vēlaties, lai uzstādītu sēklas. 249 00:14:37,230 --> 00:14:41,270 Tādā veidā citi zinātnieki var tikai reproducēt tieši tādu pašu kodu, jūs esat 250 00:14:41,270 --> 00:14:44,790 darīts tāpēc, ka viņi būs precīzs paši gadījuma lielumi that-- vai izlases 251 00:14:44,790 --> 00:14:47,270 vērtības, kas jūs esat, kas veikti, kā labi. 252 00:14:47,270 --> 00:14:49,870 253 00:14:49,870 --> 00:14:53,910 >> Un tā vektorizēta uzdevums šeit parādot Vals 1 līdz 2. 254 00:14:53,910 --> 00:14:59,290 Lai tā veic pirmos divus elementus no Vals un tam piešķir tos 0. 255 00:14:59,290 --> 00:15:03,940 Un tad, jūs varat arī vienkārši darīt Līdzīga lieta ar Booleans. 256 00:15:03,940 --> 00:15:09,340 >> Tātad Vals nav vienāds ar 0-- šo gribu jums vektora FALSE, FALSE, TRUE 257 00:15:09,340 --> 00:15:10,350 šajā gadījumā. 258 00:15:10,350 --> 00:15:13,770 Un tad, tas būs teikt jebkuru Šo indeksu, kas bija TRUE, 259 00:15:13,770 --> 00:15:15,270 tad tas notiek, lai piešķirtu, ka līdz 5. 260 00:15:15,270 --> 00:15:18,790 Tātad tas ieņem trešo elementu šeit un pēc tam piešķir to 5. 261 00:15:18,790 --> 00:15:22,300 >> Un tas ir patiešām jauki salīdzinot ar zema līmeņa valodām 262 00:15:22,300 --> 00:15:25,560 kur jums ir izmantot cilpas darīt visu šo vektorizēta sīkumi 263 00:15:25,560 --> 00:15:30,281 tāpēc, ka tas ir tikai ļoti intuitīvs un tas ir viens vienu līnijpārvadātāju. 264 00:15:30,281 --> 00:15:32,030 Un, kas ir liels par vektorizēta notācija 265 00:15:32,030 --> 00:15:37,020 ir tāds, ka R, tie ir sava veida iebūvēts tā, ka viņi gandrīz tikpat ātri 266 00:15:37,020 --> 00:15:42,490 kā dara mazkvalificētu valodas kā nevis padarīt cilpa P 267 00:15:42,490 --> 00:15:46,317 un tad ar to darīt dinamiskā indeksācija pati. 268 00:15:46,317 --> 00:15:48,900 Un tas būs lēnāks, nekā darot šāda veida vektorizēta lieta 269 00:15:48,900 --> 00:15:55,950 kur to var darīt paralēli, kur tas dara to vītņu būtībā. 270 00:15:55,950 --> 00:15:58,650 >> Tātad, šeit ir vektorizēta operācijas. 271 00:15:58,650 --> 00:16:04,920 Tāpēc es radot vērtību no 1 līdz 3, piešķirot ka uz vec1, 3. līdz 5., vec2, 272 00:16:04,920 --> 00:16:05,950 pievienojot tos kopā. 273 00:16:05,950 --> 00:16:11,490 Tā piebilst, viņiem komponents gudrs tik tas ir 1 plus 3, 2 plus 4, un tā tālāk. 274 00:16:11,490 --> 00:16:13,330 >> vec1 reizes vec2. 275 00:16:13,330 --> 00:16:16,110 Šī reizina divu vērtības komponentu gudrs. 276 00:16:16,110 --> 00:16:21,830 Tātad, tas ir 1 reizes 3, 2 reizes 4, un tad 3 reizes 5. 277 00:16:21,830 --> 00:16:28,250 >> Un tad, tāpat jūs varat arī darīt comparisons-- loģiskās salīdzinājumus. 278 00:16:28,250 --> 00:16:33,640 Tātad, tas ir viltus viltus TRUE šajā gadījums jo 1 ir ne lielāka par 3, 279 00:16:33,640 --> 00:16:35,920 2, ir ne lielāks par 4. 280 00:16:35,920 --> 00:16:41,160 Tas ir, es domāju, vēl drukas kļūdu, 3 noteikti nav lielāks par 5. 281 00:16:41,160 --> 00:16:41,660 Yeah. 282 00:16:41,660 --> 00:16:45,770 Un lai jūs varat vienkārši darīt visu šīs vienkāršas darbības 283 00:16:45,770 --> 00:16:48,350 jo to mantojis no pašiem klasēm. 284 00:16:48,350 --> 00:16:51,110 285 00:16:51,110 --> 00:16:52,580 >> Tā, ka bija tikai vektors. 286 00:16:52,580 --> 00:16:56,530 Un tas ir sava veida visbūtiskākā R objekts jo dota vektoru, 287 00:16:56,530 --> 00:16:59,170 Jūs varat būvēt spēcīgākās objektiem. 288 00:16:59,170 --> 00:17:00,560 >> Tātad, šeit ir matrica. 289 00:17:00,560 --> 00:17:05,030 Tas būtībā ir abstrakcija par to, kas matrica ir pati. 290 00:17:05,030 --> 00:17:10,099 Tātad šajā gadījumā, tas ir trīs dažādas vektori, kur katrs ir kolonna, 291 00:17:10,099 --> 00:17:12,710 vai arī jūs varat uzskatīt to kā katram ir rinda. 292 00:17:12,710 --> 00:17:18,250 >> Tāpēc es esmu glabājusi matricas no 1 līdz 9, un tad es esmu norādot 3 rindas. 293 00:17:18,250 --> 00:17:23,364 Tātad, no 1. līdz 9. dos jums vektoru 1, 2, 3, 4, 5, 6, un visu ceļu līdz 9. 294 00:17:23,364 --> 00:17:29,250 >> Viena lieta, kas arī jāpatur prātā, ir tas, ka R veikali vērtības ailē-major formātā. 295 00:17:29,250 --> 00:17:34,160 Tātad citiem vārdiem sakot, kad jūs redzat 1 9, tas notiek, lai saglabātu them-- 296 00:17:34,160 --> 00:17:36,370 tas būs 1, 2, 3 pirmajā ailē, 297 00:17:36,370 --> 00:17:38,510 un pēc tam tas būs do 4, 5, 6 otrajā kolonnā, 298 00:17:38,510 --> 00:17:41,440 un pēc tam, 7., 8., 9. trešajā kolonnā. 299 00:17:41,440 --> 00:17:45,570 >> Un šeit ir daži citi kopīgas funkcijas, jūs varat izmantot. 300 00:17:45,570 --> 00:17:49,650 Tātad dim mat, tas dos jums izmēri matricas. 301 00:17:49,650 --> 00:17:52,620 Tas notiek, lai atgrieztos tevi vektors dimensiju. 302 00:17:52,620 --> 00:17:55,580 Tātad, šajā gadījumā, jo Mūsu matrica ir 3 par 3, 303 00:17:55,580 --> 00:18:01,900 tas gatavojas sniegt jums ciparu vektors, kas ir 3 3. 304 00:18:01,900 --> 00:18:05,270 >> Un šeit ir tikai rāda matrica pavairošana. 305 00:18:05,270 --> 00:18:11,970 Tātad parasti, ja jūs vienkārši darīt asterisk-- tāpēc mat zvaigznīte mat-- 306 00:18:11,970 --> 00:18:15,380 tas būs komponents gudrs operācija 307 00:18:15,380 --> 00:18:17,300 vai ko sauc Hadamard produkts. 308 00:18:17,300 --> 00:18:21,310 Tātad, tas ir gatavojas darīt katru elements komponents gudrs. 309 00:18:21,310 --> 00:18:23,610 Tomēr, ja jūs vēlaties matrica multiplication-- 310 00:18:23,610 --> 00:18:29,380 tāpēc reizinot pirmajā rindā reizes otrās matrices pirmā sleja 311 00:18:29,380 --> 00:18:34,510 un tā on-- jūs varētu izmantot šis procenti operācija. 312 00:18:34,510 --> 00:18:38,110 >> Un t mat ir tikai ekspluatācija transponēt. 313 00:18:38,110 --> 00:18:42,590 Tāpēc es saku veikt transponēt matrica, reizinot to ar matricas 314 00:18:42,590 --> 00:18:43,090 pati. 315 00:18:43,090 --> 00:18:45,006 Un tad tas notiek, lai atgriezīsies pie jums vēl 3 316 00:18:45,006 --> 00:18:50,700 3. matricas norādot produkts jūs vēlaties. 317 00:18:50,700 --> 00:18:53,750 >> Un tā, ka bija matrica. 318 00:18:53,750 --> 00:18:56,020 Te ir tas, ko sauc datu rāmi. 319 00:18:56,020 --> 00:19:00,780 Datu rāmis jūs varat iedomāties, kā matrica, bet katrs pati kolonna 320 00:19:00,780 --> 00:19:02,990 būs no cita tipa. 321 00:19:02,990 --> 00:19:07,320 >> Tātad, kas ir patiešām atdzist par datiem rāmji ir, ka datu analīzē pati, 322 00:19:07,320 --> 00:19:11,260 Jums nāksies šo visu heterogēnas datus un visu šie tiešām 323 00:19:11,260 --> 00:19:15,640 netīrs lietas, kur katrs no kolonnām paši var būt dažāda veida. 324 00:19:15,640 --> 00:19:21,460 Tātad, šeit es saku izveidot dati rāmis, do Intam no 1 līdz 3, 325 00:19:21,460 --> 00:19:24,750 un tad ir arī rakstzīmju vektors. 326 00:19:24,750 --> 00:19:28,470 Tāpēc es varu indeksu cauri katrs no šiem kolonnām 327 00:19:28,470 --> 00:19:30,930 un tad es nopirkšu pašas vērtības. 328 00:19:30,930 --> 00:19:34,370 Un jūs varat arī darīt dažas veida Darbību par datu rāmji. 329 00:19:34,370 --> 00:19:38,040 Un lielāko daļu laika, kad tu esi darot datu analīzi vai kādu veida 330 00:19:38,040 --> 00:19:42,042 no preprocessing, jūs būsiet strādājot ar šīm datu struktūrām 331 00:19:42,042 --> 00:19:44,250 kur katra kolonna dodas būt no cita tipa. 332 00:19:44,250 --> 00:19:47,880 333 00:19:47,880 --> 00:19:52,970 >> Visbeidzot, tāpēc tie būtībā ir tikai četri būtiskie objekti R. sarakstā 334 00:19:52,970 --> 00:19:55,820 būs tikai savākt jebkura citus objektus vēlaties. 335 00:19:55,820 --> 00:20:00,130 Tātad, tā tiks saglabāta šī vienā mainīgais, ka jūs varat viegli piekļūt. 336 00:20:00,130 --> 00:20:02,370 >> Tātad šeit, es esmu ņemot sarakstu. 337 00:20:02,370 --> 00:20:04,460 Es saku sīkumi vienāds 3. 338 00:20:04,460 --> 00:20:08,060 Tāpēc es esmu nāksies viens elements saraksts, un to sauc sīkumi, 339 00:20:08,060 --> 00:20:10,570 un tas notiek, lai ir vērtība 3. 340 00:20:10,570 --> 00:20:13,140 >> Es varu arī izveidot matricu. 341 00:20:13,140 --> 00:20:17,970 Tāpēc tas ir no 1 līdz 4, un gala rindas vienāds 2, tāpēc 2. 2 matricas. 342 00:20:17,970 --> 00:20:20,270 Arī šajā sarakstā, un to sauc mat. 343 00:20:20,270 --> 00:20:24,690 moreStuff, rakstzīmju virkne, un pat citā sarakstā, pats par sevi. 344 00:20:24,690 --> 00:20:27,710 >> Tātad tas ir saraksts, kas ir 5. un lāci. 345 00:20:27,710 --> 00:20:30,990 Tātad, tas ir vērtība 5 un to ir rakstzīmju virkne lāci 346 00:20:30,990 --> 00:20:32,710 un tas ir saraksts iekšā sarakstā. 347 00:20:32,710 --> 00:20:35,965 Tātad jūs varat būt šīs rekursīvas lietām, kur 348 00:20:35,965 --> 00:20:38,230 Jums ir another-- A tipa ietvaros veidam. 349 00:20:38,230 --> 00:20:41,420 Tātad tāpat, varat būt matricu iekšpusē citā matricas un tā tālāk. 350 00:20:41,420 --> 00:20:44,264 Un saraksts ir tikai labs veids vākšanas un apkopojot 351 00:20:44,264 --> 00:20:45,430 visi šie dažādie priekšmeti. 352 00:20:45,430 --> 00:20:50,210 353 00:20:50,210 --> 00:20:57,150 >> Un, visbeidzot, šeit ir tikai palīdzēt gadījumā, ja tas bija tikai gājusi pāri ļoti ātri. 354 00:20:57,150 --> 00:21:01,350 Lai jebkurā laikā jūs sajaukt par kādu funkciju veida, 355 00:21:01,350 --> 00:21:03,510 jūs varat darīt palīdzību šo funkciju. 356 00:21:03,510 --> 00:21:07,120 Tātad jūs varat darīt palīdzības matricu vai jautājuma zīme matrica. 357 00:21:07,120 --> 00:21:11,430 Un palīdzība un jautājuma zīme ir tikai saīsinājums to pašu 358 00:21:11,430 --> 00:21:13,040 lai viņi pseidonīmi. 359 00:21:13,040 --> 00:21:16,820 >> lm ir funkcija, kas vienkārši nav lineāru modeli. 360 00:21:16,820 --> 00:21:20,340 Bet, ja jūs vienkārši nav ne jausmas, cik tas darbi, jūs varat vienkārši darīt palīdzību lm 361 00:21:20,340 --> 00:21:24,610 un ka došu jums dažas veida dokumentāciju, 362 00:21:24,610 --> 00:21:27,960 izskatās veida, piemēram, man lapa Unix, kur 363 00:21:27,960 --> 00:21:34,210 jums ir īss apraksts par to, kas tas, arī tas, ko tās argumenti ir, 364 00:21:34,210 --> 00:21:38,850 kas tas atgriežas, un tikai padomus par to, kā to izmantot, un daži piemēri, kā arī. 365 00:21:38,850 --> 00:21:41,680 366 00:21:41,680 --> 00:21:52,890 >> Tāpēc ļaujiet man iet uz priekšu un parādīt daži demo izmantojot R. OK. 367 00:21:52,890 --> 00:21:55,470 Tāpēc es devos pāri ļoti ātri tikai dati 368 00:21:55,470 --> 00:21:59,440 struktūras un daži no veida op-- dažas operācijas. 369 00:21:59,440 --> 00:22:02,960 Šeit ir dažas funkcijas. 370 00:22:02,960 --> 00:22:06,750 >> Tātad, šeit es esmu tikai gatavojas lai noteiktu funkciju. 371 00:22:06,750 --> 00:22:09,970 Tāpēc es esmu arī izmantojot uzdevums operators šeit, 372 00:22:09,970 --> 00:22:12,610 un tad es saku paziņo, ka tā kā funkciju. 373 00:22:12,610 --> 00:22:14,140 Un tas notiek vērtību x. 374 00:22:14,140 --> 00:22:18,210 Tātad tas ir jebkura vērtība vēlaties un es esmu gatavojas atgriezties x sevi. 375 00:22:18,210 --> 00:22:20,840 Tātad šis ir identitāte funkcija. 376 00:22:20,840 --> 00:22:23,670 >> Un, kas ir cool par šo salīdzinot ar citām valodām 377 00:22:23,670 --> 00:22:26,330 un citu zema līmeņa valodas ir tas, ka x 378 00:22:26,330 --> 00:22:29,350 var būt jebkura paša tipa un tas būs atpakaļ šo tipu. 379 00:22:29,350 --> 00:22:35,251 Tātad jūs varat imagine-- tāpēc ļaujiet man vienkārši palaist to ātri. 380 00:22:35,251 --> 00:22:35,750 Piedodiet. 381 00:22:35,750 --> 00:22:40,300 >> Tātad viena lieta, ko es būtu arī pieminēt ir tas, ka šis redaktors es esmu, izmantojot 382 00:22:40,300 --> 00:22:41,380 sauc rstudio. 383 00:22:41,380 --> 00:22:44,389 Tas ir tas, ko sauc par IDE. 384 00:22:44,389 --> 00:22:46,180 Un viena lieta, kas ir tiešām jauka par šo 385 00:22:46,180 --> 00:22:51,500 ir tā, ka tas ietver daudz lietas, ko vēlaties darīt, pētniecībā pati 386 00:22:51,500 --> 00:22:53,180 vienkārši ļoti intuitīvi. 387 00:22:53,180 --> 00:22:55,550 >> Tātad, šeit ir tulks konsole. 388 00:22:55,550 --> 00:23:02,160 Tātad tāpat, jūs varat arī saņemt šo konsole izejvielas vienkārši darot kapitāla R. 389 00:23:02,160 --> 00:23:05,630 Un tas ir tieši pats kā konsoli. 390 00:23:05,630 --> 00:23:12,210 Tāpēc es varu tikai darīt ID funkcija X, X, X. 391 00:23:12,210 --> 00:23:16,130 Un then-- un tad, ka būs labi pats. 392 00:23:16,130 --> 00:23:19,200 393 00:23:19,200 --> 00:23:21,740 >> Tātad rstudio ir liels jo tā ir konsole. 394 00:23:21,740 --> 00:23:25,360 Tas arī ir dokumenti vēlaties palaist. 395 00:23:25,360 --> 00:23:28,629 Un tad tas ir daži mainīgie ka jūs varat redzēt vidēs. 396 00:23:28,629 --> 00:23:30,420 Un tad, ja jums ir darīt zemes gabalu, tad jums 397 00:23:30,420 --> 00:23:33,730 varat redzēt šeit, nevis pārvaldīt visas šīs dažādās logus 398 00:23:33,730 --> 00:23:35,940 ar sevi. 399 00:23:35,940 --> 00:23:40,530 >> Es tiešām personīgi izmantot spars, bet es justies kā rstudio ir lielisks tikai 400 00:23:40,530 --> 00:23:44,640 lai iegūtu laba ideja par to, kā izmantot R. Parasti, 401 00:23:44,640 --> 00:23:47,040 kad jūs mēģināt iemācīties kādu jaunu uzdevumu, 402 00:23:47,040 --> 00:23:49,590 Jūs nevēlaties, lai apstrādātu pārāk daudz lietas uzreiz. 403 00:23:49,590 --> 00:23:53,120 Tik R ir tikai very-- rstudio ir ļoti labs veids, kā mācīšanās R 404 00:23:53,120 --> 00:23:56,760 bez nepieciešamības izskatīt ar visas šīs citas lietas. 405 00:23:56,760 --> 00:23:58,600 >> Tātad, šeit es skrienu id sveiki. 406 00:23:58,600 --> 00:24:00,090 Tas atgriež sveiki. 407 00:24:00,090 --> 00:24:01,740 id 123. 408 00:24:01,740 --> 00:24:04,610 Te ir vektors veseli skaitļi. 409 00:24:04,610 --> 00:24:08,620 Tātad tāpat, jo jūs varat veikt jebkādu kaut kādas vērtības veida, 410 00:24:08,620 --> 00:24:16,060 jūs varat darīt, atgriežoties id x, lai tā atgriežas 1234 un 5. 411 00:24:16,060 --> 00:24:22,210 >> Un ļaujiet man tikai parādīs, ka tas ir patiešām skaitlis. 412 00:24:22,210 --> 00:24:28,800 Un, tāpat, ja jūs klase id x, tas būs vesels skaitlis. 413 00:24:28,800 --> 00:24:34,170 Un tad, jūs varat arī salīdzināt divus, un tā ir taisnība. 414 00:24:34,170 --> 00:24:38,350 Tāpēc es esmu pārbaudīt, ja id x vienāds Vienāds x un paziņojumu 415 00:24:38,350 --> 00:24:39,760 ka tas dod jums divas TRUEs. 416 00:24:39,760 --> 00:24:44,280 Tātad tas nav saprotams, ir divi objekti identiski, 417 00:24:44,280 --> 00:24:46,845 bet katrs no tiem ierakstiem ietvaros vektori identiski. 418 00:24:46,845 --> 00:24:50,000 419 00:24:50,000 --> 00:24:52,090 >> Šeit ir bounded.compare. 420 00:24:52,090 --> 00:24:58,470 Tātad šis ir nedaudz sarežģītāka ar to, ka tas ir, ja stāvokli un cits 421 00:24:58,470 --> 00:25:00,960 un tad tas aizņem divas argumenti vienlaicīgi. 422 00:25:00,960 --> 00:25:02,640 Tātad x ir jebkura veida. 423 00:25:02,640 --> 00:25:06,280 Un es saku to Otrs arguments ir. 424 00:25:06,280 --> 00:25:08,380 Tas var būt jebkas, kā arī. 425 00:25:08,380 --> 00:25:12,490 Bet pēc noklusējuma, tas notiek, lai 5, ja jums nav jānorāda neko. 426 00:25:12,490 --> 00:25:16,730 >> Tātad, šeit es esmu gatavojas teikt ja x ir lielāks nekā. 427 00:25:16,730 --> 00:25:19,220 Tātad, ja man nav norādīts, to norāda, ja x ir lielāks par 5, 428 00:25:19,220 --> 00:25:20,470 tad es esmu gatavojas atgriezties TRUE. 429 00:25:20,470 --> 00:25:23,230 cits, es esmu gatavojas atgriezties FALSE. 430 00:25:23,230 --> 00:25:24,870 Tāpēc ļaujiet man iet uz priekšu un noteikt to. 431 00:25:24,870 --> 00:25:30,600 432 00:25:30,600 --> 00:25:34,550 >> Un tagad es esmu gatavojas palaist bounded.compare 3. 433 00:25:34,550 --> 00:25:39,150 Tātad tā saka ir 3 mazāk than-- ir 3 lielāks par 5. 434 00:25:39,150 --> 00:25:41,830 Nē, tas nav tik FALSE. 435 00:25:41,830 --> 00:25:46,550 >> Un bounded.compare 3 un es eju salīdzināt to, izmantojot vienāds 2. 436 00:25:46,550 --> 00:25:50,700 Tāpēc tagad es saku jā, tagad es vēlas būt kaut kas cits. 437 00:25:50,700 --> 00:25:52,750 Tāpēc es esmu gatavojas teikt, jums vajadzētu būt 2. 438 00:25:52,750 --> 00:25:56,640 >> Es varu vai nu darīt šāda veida notācija vai es saku atbilst 2. 439 00:25:56,640 --> 00:25:58,720 Tas ir vairāk lasāms jo tad, kad tu esi 440 00:25:58,720 --> 00:26:01,450 Aplūkojot šīs patiešām sarežģītas funkcijas, kas 441 00:26:01,450 --> 00:26:08,110 veikt vairākas arguments-- un šis var būt desmitiem oftentimes-- tikai saku 442 00:26:08,110 --> 00:26:11,140 ir vienāds 2 ir vairāk lasāms par jūs tā, ka vēlāk nākotnē 443 00:26:11,140 --> 00:26:13,020 jūs zināt, ko jūs darāt. 444 00:26:13,020 --> 00:26:17,120 >> Tātad šajā gadījumā, es esmu sakot, ir 3 lielāks par 2. 445 00:26:17,120 --> 00:26:18,270 Jā, tā ir. 446 00:26:18,270 --> 00:26:22,350 Un līdzīgi, es varu tikai noņemt šo un saka, ir 3 lielāks par 2 447 00:26:22,350 --> 00:26:23,440 kur vienāds 2. 448 00:26:23,440 --> 00:26:26,230 Un tas ir arī TRUE. 449 00:26:26,230 --> 00:26:26,730 Jā? 450 00:26:26,730 --> 00:26:29,670 >> AUDITORIJA: Vai tevi izpildot pozīcijai? 451 00:26:29,670 --> 00:26:30,670 >> Dustin TRAN: Jā, es esmu. 452 00:26:30,670 --> 00:26:33,900 Tātad, ko es daru šeit ir Pieņemot šo tekstu document-- 453 00:26:33,900 --> 00:26:39,825 un kas ir liels par rstudio ir tas, ka Es varu tikai palaist short-- galvenais īsceļu. 454 00:26:39,825 --> 00:26:41,820 Tāpēc es esmu dara Vadības Enter. 455 00:26:41,820 --> 00:26:44,850 >> Un tad, es esmu ņemot līnija teksta dokumentā 456 00:26:44,850 --> 00:26:46,710 un pēc tam liekot konsole. 457 00:26:46,710 --> 00:26:50,800 Tātad, šeit es saku, bounded.compare un es esmu dara Control-X. 458 00:26:50,800 --> 00:26:52,540 Lai es varētu vienkārši palaist arī šeit. 459 00:26:52,540 --> 00:26:54,920 Un tad, ka ņemšu līnija un tad ielieciet to šeit. 460 00:26:54,920 --> 00:26:57,900 Un tad līdzīgi, es varu darīt palaist šeit. 461 00:26:57,900 --> 00:27:04,630 Un tad tas būs tikai glabāt definējot līnijas fani, piemēram, ka konsole. 462 00:27:04,630 --> 00:27:10,690 >> Un, ja jūs arī paziņojums cirtaini bikšturi ir tur tāpat kā C sintaksi. 463 00:27:10,690 --> 00:27:13,910 X- ja, ja nosacījums ir arī gatavojas izmantot iekavas un tad 464 00:27:13,910 --> 00:27:15,350 Jūs varat izmantot cits. 465 00:27:15,350 --> 00:27:17,496 Vēl viens ir cits, ja. 466 00:27:17,496 --> 00:27:21,440 Tātad tas būs x vienāds vienāds, piemēram. 467 00:27:21,440 --> 00:27:24,190 468 00:27:24,190 --> 00:27:26,350 Un tad es esmu gatavojas atgriezties kaut ko šeit. 469 00:27:26,350 --> 00:27:29,490 >> Paziņojums, ka ir divas dažādas lietas šeit, kas notiek. 470 00:27:29,490 --> 00:27:34,360 Viens ir tas, ka šeit es esmu, norādot atgriešanās vērtību TRUE. 471 00:27:34,360 --> 00:27:35,950 Šeit es tikai saku x. 472 00:27:35,950 --> 00:27:39,970 Tātad R būs parasti pēc noklusējuma ņemt pēdējo arguments-- 473 00:27:39,970 --> 00:27:43,510 vai veikt pēdējo rindiņu kodu, un kas būs, ko tas atgriezās. 474 00:27:43,510 --> 00:27:46,920 Tātad, šeit tas ir tas pats lieta kā dara atgriešanās x. 475 00:27:46,920 --> 00:27:49,450 476 00:27:49,450 --> 00:27:50,540 >> Un tikai, lai parādītu jums. 477 00:27:50,540 --> 00:27:54,000 478 00:27:54,000 --> 00:27:57,052 Un tad, tas darbosies tieši tāpat. 479 00:27:57,052 --> 00:27:58,260 Tāpēc ļaujiet man turpināt ar šo. 480 00:27:58,260 --> 00:28:00,630 >> Tātad, kas cits, ja. 481 00:28:00,630 --> 00:28:04,060 Un tiešām, es varu atgriezties kaut ko es gribētu. 482 00:28:04,060 --> 00:28:06,680 Tāpēc man nav pat atgriešanās Booleans visu laiku, 483 00:28:06,680 --> 00:28:08,410 Es varu tikai atgriezties kaut ko citu. 484 00:28:08,410 --> 00:28:10,670 Tātad, es varu darīt atgriešanās lāci. 485 00:28:10,670 --> 00:28:12,989 >> Tātad, ja x ir vienāds vienāds, tas notiek, lai atgrieztos lāci. 486 00:28:12,989 --> 00:28:14,530 Pretējā gadījumā, tas notiek, lai atgrieztos TRUE. 487 00:28:14,530 --> 00:28:19,310 Es varu arī darīt vektoru vai tiešām kaut kas. 488 00:28:19,310 --> 00:28:22,210 >> Un parasti statiski drukāti valodas, 489 00:28:22,210 --> 00:28:23,840 jūs ir norādīt veidu šeit. 490 00:28:23,840 --> 00:28:25,750 Un paziņo, ka tā var vienkārši būt jebkas. 491 00:28:25,750 --> 00:28:32,400 Un R ir automatizēti pietiekami, ka tā vienkārši darīt, un tā strādās labi. 492 00:28:32,400 --> 00:28:33,620 >> Tāpēc ļaujiet man noteikt šo. 493 00:28:33,620 --> 00:28:39,460 494 00:28:39,460 --> 00:28:41,230 Unexpected-- oh sorry. 495 00:28:41,230 --> 00:28:44,336 Tas būtu cirtaini lencēm šeit. 496 00:28:44,336 --> 00:28:44,836 OK. 497 00:28:44,836 --> 00:28:45,336 Cool. 498 00:28:45,336 --> 00:28:52,580 499 00:28:52,580 --> 00:28:54,530 Labi. 500 00:28:54,530 --> 00:28:58,250 Tāpēc tagad pieņemsim salīdzināt 3 un vienāds 3. 501 00:28:58,250 --> 00:29:01,860 Lai tā būtu return-- yeah-- vērtības lāci. 502 00:29:01,860 --> 00:29:06,740 >> Tāpēc tagad vispārīgāks lieta ir kā ko par citiem datu struktūras. 503 00:29:06,740 --> 00:29:09,110 Tātad jums ir šo funkciju. 504 00:29:09,110 --> 00:29:15,360 Tas ir gatavojas strādāt uz jebkura veida vērtības, piemēram, 3 vai jebkuru ciparu, 505 00:29:15,360 --> 00:29:17,500 citiem vārdiem sakot, dubultā. 506 00:29:17,500 --> 00:29:19,330 >> Bet ko par kaut ko līdzīgu vektoru. 507 00:29:19,330 --> 00:29:27,750 Tātad, kas notiek, ja jūs do-- tāpēc es esmu gatavojas piešķirt val, teiksim, 4 līdz 6. 508 00:29:27,750 --> 00:29:31,640 Tātad, ja es atgrieztos, šim ir vektors no 4., 5., 6. 509 00:29:31,640 --> 00:29:34,935 >> Tagad pieņemsim redzēt, kas notiek ja man bounded.compare val. 510 00:29:34,935 --> 00:29:37,680 511 00:29:37,680 --> 00:29:42,450 Tātad tas ir gatavojas sniegt jums 15 1251. 512 00:29:42,450 --> 00:29:46,440 Tātad citiem vārdiem sakot, tas ir saprotams ja paskatās šī nosacījuma 513 00:29:46,440 --> 00:29:50,040 tāpēc tā saka x ir mazāks nekā vai kaut ko. 514 00:29:50,040 --> 00:29:51,880 Tātad šis ir nedaudz mulsinoši, jo tagad 515 00:29:51,880 --> 00:29:53,379 jūs vienkārši nezināt, kas notiek. 516 00:29:53,379 --> 00:29:58,690 Tāpēc es domāju, viena lieta, kas ir patiešām labi par tikai mēģina atkļūdošanas 517 00:29:58,690 --> 00:30:04,600 ir tas, ka jūs varat vienkārši darīt val ir lielāks nekā un redzēt, kas notiek tur. 518 00:30:04,600 --> 00:30:09,720 >> Tātad val-- ir pēc noklusējuma 5 so Darīsim val lielāks par 5. 519 00:30:09,720 --> 00:30:14,280 Tātad tas ir vektors FALSE FALSE TRUE. 520 00:30:14,280 --> 00:30:17,206 Tātad tagad, kad jūs meklējat pie to, tas notiek, lai teikt, ja, 521 00:30:17,206 --> 00:30:20,080 un tad tas notiek, lai dotu jums šo ir vektors viltus viltus TRUE. 522 00:30:20,080 --> 00:30:23,450 >> Tātad, kad jūs iet to vērā R, R nav ne jausmas, ko jūs darāt. 523 00:30:23,450 --> 00:30:26,650 Jo tas sagaida viens vienīgs vērtība, kas ir Būla, un tagad 524 00:30:26,650 --> 00:30:29,420 jūs dodot tai vektoru Booleans. 525 00:30:29,420 --> 00:30:31,970 Tātad pēc noklusējuma, R ir tikai teiksiet ko heck, 526 00:30:31,970 --> 00:30:35,440 Es esmu gatavojas pieņemt, ka jūs esat gatavojas veikt pirmo elementu šeit. 527 00:30:35,440 --> 00:30:38,320 Tāpēc es esmu gatavojas say-- es eju pieņemt, ka tas ir nepatiess. 528 00:30:38,320 --> 00:30:40,890 Tātad, tas ir gatavojas teikt nē, tas nav labi. 529 00:30:40,890 --> 00:30:45,246 >> Tāpat tas būs būt val vienāds vienāds. 530 00:30:45,246 --> 00:30:47,244 Nē, piedodiet 5. 531 00:30:47,244 --> 00:30:48,910 Un tas arī būs nepatiesa, kā arī. 532 00:30:48,910 --> 00:30:52,410 Tātad, tas ir gatavojas teikt nē, tas nav TRUE, kā arī, lai tas ir 533 00:30:52,410 --> 00:30:53,680 gatavojas atgriezties šo pēdējo vienu. 534 00:30:53,680 --> 00:30:56,420 535 00:30:56,420 --> 00:31:01,360 >> Tātad tas ir vai nu labi vai slikti lieta, atkarībā no tā, kā jūs to aplūkotu. 536 00:31:01,360 --> 00:31:05,104 Jo, kad tu esi radot šīs funkcijas, 537 00:31:05,104 --> 00:31:06,770 jūs tiešām zināt, kas notiek. 538 00:31:06,770 --> 00:31:10,210 Tāpēc dažreiz jūs vēlaties kļūda, vai varbūt jūs vienkārši vēlaties brīdinājumu. 539 00:31:10,210 --> 00:31:12,160 Šajā gadījumā, R nedara. 540 00:31:12,160 --> 00:31:14,300 Tātad, tas ir patiešām līdz jums, pamatojoties off no tā, ko 541 00:31:14,300 --> 00:31:17,310 Jūs domājat, ka valodu vajadzētu darīt šajā gadījumā 542 00:31:17,310 --> 00:31:22,920 ja jums iet ar vektoru Booleans kad jūs darāt, ja stāvoklī. 543 00:31:22,920 --> 00:31:31,733 >> So pieņemsim, ka jums bija oriģināls viens ar, ja cits atgriezties TRUE un jūs esat 544 00:31:31,733 --> 00:31:34,190 gatavojas atgriezties FALSE. 545 00:31:34,190 --> 00:31:39,300 Tātad viens no veidiem, abstrahējoties tas ir, I 546 00:31:39,300 --> 00:31:41,530 pat nav nepieciešams šo nosacījumu lieta. 547 00:31:41,530 --> 00:31:47,220 Vēl viena lieta, ko es varu darīt, ir tikai atgriežoties pašas vērtības. 548 00:31:47,220 --> 00:31:53,240 Tātad, ja jūs pamanāt, ja jums do Val ir lielāks par 5, 549 00:31:53,240 --> 00:31:56,350 tas gatavojas atgriezties vektors FALSE FALSE TRUE. 550 00:31:56,350 --> 00:31:58,850 >> Varbūt tas ir tas, ko jūs gribam bounded.compare. 551 00:31:58,850 --> 00:32:02,940 Jūs vēlaties atgriezties vektoru Booleans kur tas salīdzina katrs no vērtībām 552 00:32:02,940 --> 00:32:04,190 uz sevi. 553 00:32:04,190 --> 00:32:11,165 Tātad jūs varat vienkārši bounded.compare funkcija x, ir vienāds ar 5. 554 00:32:11,165 --> 00:32:13,322 555 00:32:13,322 --> 00:32:15,363 Un tad, nevis darīt šo, ja cits nosacījums, 556 00:32:15,363 --> 00:32:21,430 Es esmu tikai gatavojas atgriezties x ir lielāks par 5. 557 00:32:21,430 --> 00:32:23,620 Tātad, ja tā ir taisnība, tad tas gatavojas atgriezties TRUE. 558 00:32:23,620 --> 00:32:26,830 Un tad, ja tā nav, tas ir gatavojas atgriezties FALSE. 559 00:32:26,830 --> 00:32:30,880 >> Un tas darbosies jebkurš no šiem struktūru. 560 00:32:30,880 --> 00:32:41,450 Lai es varētu bounded.compare c 1 6 vai 9 un tad es esmu gatavojas teikt vienāds 6, 561 00:32:41,450 --> 00:32:42,799 for example. 562 00:32:42,799 --> 00:32:44,840 Un tad tas notiek, lai dod jums tiesības Būla 563 00:32:44,840 --> 00:32:48,240 vektors, ka jūs projektēšana. 564 00:32:48,240 --> 00:32:50,660 >> Tātad tie ir tikai funkcijas un tagad ļaujiet man tikko 565 00:32:50,660 --> 00:32:54,980 parādīs dažus interaktīvus attēlus. 566 00:32:54,980 --> 00:32:59,700 Es nedomāju, ka man tiešām ir Wi-Fi šeit tāpēc ļaujiet man vienkārši iet uz priekšu 567 00:32:59,700 --> 00:33:01,970 un izlaist šo vienu I guess. 568 00:33:01,970 --> 00:33:05,260 >> Bet viena lieta, kas ir cool gan ir, ka, ja jūs vienkārši 569 00:33:05,260 --> 00:33:09,600 vēlaties pārbaudīt ķekars dažādas datu komandas, 570 00:33:09,600 --> 00:33:13,320 ir ķekars dažādu datu kopu ka jau ielādētas R. 571 00:33:13,320 --> 00:33:15,770 Tātad viena no tām ir saukta varavīksnenes datu kopa. 572 00:33:15,770 --> 00:33:18,910 Šis ir viens no visvairāk labi zināms garāžu mašīnu apmācības. 573 00:33:18,910 --> 00:33:23,350 Jūs parasti vienkārši darīt kaut kādas veida pārbaudes gadījumos, lai redzētu, vai jūsu kods iet. 574 00:33:23,350 --> 00:33:27,520 Tāpēc pieņemsim tikai pārbaudīt, kāda varavīksnene ir. 575 00:33:27,520 --> 00:33:33,130 >> Tātad šī lieta notiek būt datu rāmis. 576 00:33:33,130 --> 00:33:36,000 Un tas ir sava veida ilgi, jo Es tikko izdrukāt varavīksnene. 577 00:33:36,000 --> 00:33:38,810 Tas izdrukāšana visa lieta. 578 00:33:38,810 --> 00:33:42,830 Tātad tas ir visas šīs dažādi nosaukumi. 579 00:33:42,830 --> 00:33:45,505 Tātad varavīksnenes ir kolekcija Dažādu ziedi. 580 00:33:45,505 --> 00:33:48,830 Šajā gadījumā, tas stāsta Jūs sugas tā, 581 00:33:48,830 --> 00:33:54,760 visas šīs dažādās platumi un garumiem kauslapas un ziedlapas. 582 00:33:54,760 --> 00:33:58,880 >> Un tā normāli, ja vēlaties drukāt varavīksneni, 583 00:33:58,880 --> 00:34:03,680 Piemēram, jūs nevēlaties, lai to darīt visu, jo tas var pārņemt 584 00:34:03,680 --> 00:34:05,190 visu jūsu konsole. 585 00:34:05,190 --> 00:34:09,280 Tik viena lieta, kas ir patiešām jauki ir galva funkcija. 586 00:34:09,280 --> 00:34:12,929 Tātad, ja jūs vienkārši darīt galvu varavīksnene, tas dos jums 587 00:34:12,929 --> 00:34:17,389 pirmās piecas rindas, vai seši I guess. 588 00:34:17,389 --> 00:34:19,909 Un tad labi, jums var vienkārši norādīt šeit. 589 00:34:19,909 --> 00:34:22,914 Tātad 20-- tas dos Jūs pirmie 20 rindas. 590 00:34:22,914 --> 00:34:24,830 Un es tiešām biju veida pārsteigts, ka šis 591 00:34:24,830 --> 00:34:28,770 man iedeva seši tāpēc ļaujiet man iet uz priekšu un pārbaudiet iris-- vai galvu, sorry. 592 00:34:28,770 --> 00:34:31,699 593 00:34:31,699 --> 00:34:34,960 Un šeit tas dos Jums dokumentācija 594 00:34:34,960 --> 00:34:37,960 par to vērtība galvu dara. 595 00:34:37,960 --> 00:34:40,839 Tātad, tas atgriež pirmais vai pēdējā no objekta. 596 00:34:40,839 --> 00:34:42,630 Un tad es esmu gatavojas apskatīt nepildīšanu. 597 00:34:42,630 --> 00:34:47,340 Un tad saka noklusējuma metode galva x un n ir vienāds 6L. 598 00:34:47,340 --> 00:34:50,620 Tātad šis atgriež pirmos sešus elementus. 599 00:34:50,620 --> 00:34:55,050 Un, tāpat, ja pamanāt šeit, es nebija norādīt n vienāds 6. 600 00:34:55,050 --> 00:34:56,840 Pēc noklusējuma tā izmanto sešus, I guess. 601 00:34:56,840 --> 00:35:00,130 Un tad, ja es gribu norādīt noteiktu vērtību, tad es var apskatīt, ka labi. 602 00:35:00,130 --> 00:35:02,970 603 00:35:02,970 --> 00:35:10,592 >> Tāpēc, ka ir dažas vienkāršas komandas un šeit ir vēl viens, kas ir just-- labi, 604 00:35:10,592 --> 00:35:12,550 Es can-- tas ir faktiski nedaudz sarežģītāka, 605 00:35:12,550 --> 00:35:17,130 bet tas būs tikai veikt klasi Katras slejas varavīksnenes datu kopas. 606 00:35:17,130 --> 00:35:20,910 Tātad tas parādīs, ko katrs no tiem kolonnas ziņā to veida. 607 00:35:20,910 --> 00:35:23,665 Tātad kauslapas garums ir ciparu, kauslapas platums ir ciparu. 608 00:35:23,665 --> 00:35:26,540 Visi šie lielumi ir tikai cipari tāpēc, ka jūs varat pateikt, no šiem datiem 609 00:35:26,540 --> 00:35:29,440 strukturēt tie ir visi dodas uz vai ciparu. 610 00:35:29,440 --> 00:35:34,310 >> Un Sugas kolonna būs faktors. 611 00:35:34,310 --> 00:35:37,270 Tātad normāli, jūs domājat, ka tas ir kā rakstzīmju virknē. 612 00:35:37,270 --> 00:35:48,830 Bet, ja jūs vienkārši darīt irisSpecies, un tad es esmu gatavojas darīt galvu 5, 613 00:35:48,830 --> 00:35:51,820 un tas notiek, lai drukātu out pirmajos piecos vērtībām. 614 00:35:51,820 --> 00:35:54,150 >> Un tad pamanīt šo līmeni. 615 00:35:54,150 --> 00:35:58,870 Tātad šis ir saying-- šis ir R ceļš no kam kategoriskas mainīgos. 616 00:35:58,870 --> 00:36:03,765 Tātad, nevis tikai kam rakstzīmju virknes, 617 00:36:03,765 --> 00:36:06,740 tas ir līmenis, tādējādi precizējot kura no šīm lietām ir. 618 00:36:06,740 --> 00:36:12,450 >> So teiksim irisSpecies 1. 619 00:36:12,450 --> 00:36:17,690 Tātad, ko jūs vēlaties darīt, šeit ir es esmu subsetting šai sugai slejā. 620 00:36:17,690 --> 00:36:21,480 Tātad tas prasa Sugas kolonna un pēc tam 621 00:36:21,480 --> 00:36:23,820 IT indeksi iegūt pirmo elementu. 622 00:36:23,820 --> 00:36:27,140 Tātad tas būtu jums setosa. 623 00:36:27,140 --> 00:36:28,710 Un tas arī dod jums līmeni šeit. 624 00:36:28,710 --> 00:36:32,812 >> Tātad jūs varat arī salīdzināt to rakstzīmju setosa 625 00:36:32,812 --> 00:36:34,645 un tas nav būs būt TRUE jo viens 626 00:36:34,645 --> 00:36:37,940 ir no cita tipa nekā citi. 627 00:36:37,940 --> 00:36:40,590 Vai es domāju, tas ir taisnība, jo R ir vairāk viedo nekā. 628 00:36:40,590 --> 00:36:45,420 Un tas izskatās pēc tā, un tad saka, varbūt tas ir tas, ko jūs vēlaties. 629 00:36:45,420 --> 00:36:51,860 Tātad, tas notiek, lai teikt raksturu stīgu setosa ir tāds pats kā šis. 630 00:36:51,860 --> 00:37:01,290 Un tad tāpat, varat arī vienkārši paķert šos tāpat kā tā tālāk. 631 00:37:01,290 --> 00:37:05,580 >> Tāpēc, ka ir tikai daži no veida ātri komandas no datu kopas. 632 00:37:05,580 --> 00:37:08,030 Tātad, šeit ir daži dati izpēti. 633 00:37:08,030 --> 00:37:11,360 Tātad tas ir nedaudz vairāk saistīts ar datu analīzi. 634 00:37:11,360 --> 00:37:18,340 Un tas ir ņemts no dažām Bootcamp R uz Berkeley. 635 00:37:18,340 --> 00:37:20,790 >> Tātad bibliotēka ārzemju. 636 00:37:20,790 --> 00:37:24,880 Tāpēc es esmu gatavojas slodze bibliotēka, kas sauc ārzemju. 637 00:37:24,880 --> 00:37:32,460 Tātad tas ir gatavojas sniegt man read.dta tāpēc pieņemu, ka man ir šī datu kopa. 638 00:37:32,460 --> 00:37:39,000 Tas tiek saglabāts pašreizējais darba direktoriju mana konsole. 639 00:37:39,000 --> 00:37:42,190 Tāpēc pieņemsim tikai redzēt, kas darba katalogs ir. 640 00:37:42,190 --> 00:37:44,620 >> Tātad, šeit ir mana darba direktoriju. 641 00:37:44,620 --> 00:37:50,040 Un lasīt DOT datiem, šo lieta, saka šo failu 642 00:37:50,040 --> 00:37:54,650 atrodas datu mape šī pašreizējā darba direktoriju. 643 00:37:54,650 --> 00:38:00,520 Un read.dta tas nav noklusējuma komandu. 644 00:38:00,520 --> 00:38:02,760 Es domāju, es ielādes to jau. 645 00:38:02,760 --> 00:38:04,750 IEI pieņemts Es ielādes to jau. 646 00:38:04,750 --> 00:38:08,115 >> Bet līdz read.dta nav dodas būt noklusējuma komandu. 647 00:38:08,115 --> 00:38:11,550 Un tas ir iemesls, kāpēc jūs esat nāksies ielādēt šajā bibliotēkā package-- 648 00:38:11,550 --> 00:38:14,500 šī pakete sauc ārzemju. 649 00:38:14,500 --> 00:38:16,690 Un, ja jums nav paketi, es domāju, ka 650 00:38:16,690 --> 00:38:19,180 Ārvalstu ir viens no iebūvēto ones. 651 00:38:19,180 --> 00:38:31,150 Pretējā gadījumā jūs varat arī do install.packages 652 00:38:31,150 --> 00:38:33,180 un tas būs instalēt paketi. 653 00:38:33,180 --> 00:38:36,878 Un tas dos jums R. Uh, nē. 654 00:38:36,878 --> 00:38:39,830 655 00:38:39,830 --> 00:38:43,140 Un tad es esmu tikai gatavojas pārtraukt tas tāpēc, ka man jau ir. 656 00:38:43,140 --> 00:38:46,920 >> Bet to, kas ir patiešām jauka par R ir tā, ka iepakojuma vadības 657 00:38:46,920 --> 00:38:48,510 Sistēma ir ļoti elegants. 658 00:38:48,510 --> 00:38:52,470 Jo tas būs saglabāt visu tiešām labi jums. 659 00:38:52,470 --> 00:38:59,780 Tātad šajā gadījumā, tas notiek, lai saglabātu tas ir, es uzskatu, ka, šī bibliotēka šeit. 660 00:38:59,780 --> 00:39:02,390 >> Tātad jebkurā laikā jūs vēlaties uzstādīt jaunas paketes, 661 00:39:02,390 --> 00:39:04,980 tas ir tikpat vienkārši, kā darot install.packages 662 00:39:04,980 --> 00:39:07,500 un R izdosies visu iepakojumiem jums. 663 00:39:07,500 --> 00:39:12,900 Tātad jums nav kaut ko darīt Python, kur jums ir ārējais pakete 664 00:39:12,900 --> 00:39:15,330 vadītāji, piemēram, papīra Anaconda kur tu esi 665 00:39:15,330 --> 00:39:18,310 doing-- Instalējot paketes ārpus Python 666 00:39:18,310 --> 00:39:20,940 un tad jūs mēģināt palaist tos pats. 667 00:39:20,940 --> 00:39:22,210 Tātad šis ir patiešām jauks veids. 668 00:39:22,210 --> 00:39:25,590 >> Un install.packages prasa internetu. 669 00:39:25,590 --> 00:39:31,950 Tas aizņem to no servera un krātuvi, ka 670 00:39:31,950 --> 00:39:33,960 apkopo visus paketes sauc CRAN. 671 00:39:33,960 --> 00:39:40,690 Un jūs varat norādīt, kāda veida spogulis Jūs vēlaties, lai lejupielādētu paketes no. 672 00:39:40,690 --> 00:39:43,420 >> Tātad, šeit es izmantoju šo datu kopa. 673 00:39:43,420 --> 00:39:46,240 Es lasu to, izmantojot šo funkciju. 674 00:39:46,240 --> 00:39:49,360 Tāpēc ļaujiet man iet uz priekšu un darīt. 675 00:39:49,360 --> 00:39:52,900 >> So pieņemsim, ka jums ir šī datu kopu 676 00:39:52,900 --> 00:39:55,550 un jums ir absolūti ne jausmas, kas tas ir. 677 00:39:55,550 --> 00:39:58,560 Un tas tiešām nāk uz augšu diezgan bieži šajā nozarē 678 00:39:58,560 --> 00:40:00,910 kur jūs vienkārši ir šie tonnas un tonnas netīrs lietas 679 00:40:00,910 --> 00:40:02,890 un viņi neticami bez etiķetes. 680 00:40:02,890 --> 00:40:06,380 Tātad, šeit man ir šis datu kopa, un es nezinu 681 00:40:06,380 --> 00:40:08,400 kas tas ir, tāpēc es esmu tikai parādot to pārbaudīt. 682 00:40:08,400 --> 00:40:10,620 >> Tāpēc es esmu gatavojas darīt galvu pirmā. 683 00:40:10,620 --> 00:40:14,190 Tāpēc es pārbaudīt pirmo sešu kolonnas, ko šis datu kopa ir. 684 00:40:14,190 --> 00:40:21,730 Tāpēc tas ir stāvoklis, pres04, un pēc tam visi šie citāda veida kolonnām. 685 00:40:21,730 --> 00:40:25,612 Un, kas ir interesanti šeit, es domāju, ir tas, ka jums 686 00:40:25,612 --> 00:40:27,945 varētu pieņemt, ka tas izskatās Tāpat kā daži ievēlēšanas veida. 687 00:40:27,945 --> 00:40:30,482 688 00:40:30,482 --> 00:40:32,190 Un es domāju, tikai no apskatot lietas materiāliem 689 00:40:32,190 --> 00:40:41,070 nosaukt tas ir daži no kolekcijas veida Datu par kandidātu vai vēlētāju 690 00:40:41,070 --> 00:40:44,920 kas balsoja par konkrētiem prezidentiem vai prezidenta kandidāti 691 00:40:44,920 --> 00:40:46,550 2004. vēlēšanās. 692 00:40:46,550 --> 00:40:52,920 >> Tātad, šeit ir vērtības 1, 2 tāpēc viens no veidiem, kā uzglabāt 693 00:40:52,920 --> 00:40:56,540 Priekšsēdētājs kandidāti ir viņu vārdi. 694 00:40:56,540 --> 00:40:59,780 Šajā gadījumā izskatās, ka viņi tikai veselus skaitļus. 695 00:40:59,780 --> 00:41:04,030 Tātad 2004. gadā tas bija Bush pret Kerry es ticu. 696 00:41:04,030 --> 00:41:09,010 Un tagad, pieņemsim, ka jūs vienkārši nezināt vai 1 atbilst Bušu vai 2 697 00:41:09,010 --> 00:41:11,703 atbilst Kerry vai un tā tālāk, un tā tālāk, vai ne? 698 00:41:11,703 --> 00:41:15,860 >> Un tas ir, tikai man, diezgan izplatīta problēma. 699 00:41:15,860 --> 00:41:18,230 Tātad, ko jūs varat darīt šajā gadījumā? 700 00:41:18,230 --> 00:41:20,000 Tātad, pieņemsim pārbaudīt visas šīs citas lietas. 701 00:41:20,000 --> 00:41:22,790 >> valsts, es esmu pieņemot, ka tas nāk no dažādām valstīm. 702 00:41:22,790 --> 00:41:25,100 partyid, ienākumi. 703 00:41:25,100 --> 00:41:27,710 Apskatīsim partyid. 704 00:41:27,710 --> 00:41:32,800 Tātad, varbūt viena lieta, ko jūs varat darīt, ir apskatīt katru no novērojumu 705 00:41:32,800 --> 00:41:36,250 kas ir partyid republikas vai Democrat vai kaut ko. 706 00:41:36,250 --> 00:41:38,170 Tāpēc pieņemsim tikai apskatīt to, kas partyid ir. 707 00:41:38,170 --> 00:41:41,946 >> Tāpēc es esmu gatavojas veikt dat un tad es eju 708 00:41:41,946 --> 00:41:47,960 darīt šo dolāra zīmi operators, kas man bija agrāk 709 00:41:47,960 --> 00:41:50,770 un tas notiek uz apakšgrupā ar šo kolonnu. 710 00:41:50,770 --> 00:41:57,760 Un tad es esmu gatavojas doties to 20, tikai, lai redzētu, kā tas izskatās. 711 00:41:57,760 --> 00:42:00,170 >> Tātad tas ir tikai ķekars aģentūrām. 712 00:42:00,170 --> 00:42:02,800 Tātad citiem vārdiem sakot, jums ir trūkst datu par šiem puišiem. 713 00:42:02,800 --> 00:42:08,100 Bet arī jūs pamanāt dat partyid ir faktors 714 00:42:08,100 --> 00:42:10,030 tāpēc tas dod jums dažādas kategorijas. 715 00:42:10,030 --> 00:42:14,170 Tātad citiem vārdiem sakot, partyid var veikt Demokrāts, republikāņu, Independent, 716 00:42:14,170 --> 00:42:16,640 vai kaut kas cits. 717 00:42:16,640 --> 00:42:23,940 >> So iesim uz priekšu un pieņemsim redzēt, kurš no šiem is-- oh, OK. 718 00:42:23,940 --> 00:42:28,480 Tāpēc es esmu gatavojas apakšgrupā lai partyid un pēc tam 719 00:42:28,480 --> 00:42:32,780 apskatīt kādi ir Demokrāts, piemēram. 720 00:42:32,780 --> 00:42:37,150 Tas ir gatavojas sniegt jums Būla, milzīgs Boolean par TRUEs un FALSEs. 721 00:42:37,150 --> 00:42:41,630 >> Un tagad, teiksim es gribu lai apakšgrupā ar šiem puišiem. 722 00:42:41,630 --> 00:42:47,260 Tātad tas ir gatavojas veikt savu DAT un apakšgrupa, lai atkarībā no novērojumi 723 00:42:47,260 --> 00:42:48,910 ir partyid Vienāds vienāds Democrat. 724 00:42:48,910 --> 00:42:52,830 725 00:42:52,830 --> 00:42:55,180 Un tas ir diezgan ilgi, jo tur ir tik daudz no tiem. 726 00:42:55,180 --> 00:42:59,060 Tāpēc tagad, es esmu gatavojas doties šo 20. 727 00:42:59,060 --> 00:43:05,690 728 00:43:05,690 --> 00:43:11,270 >> Un, kā jūs pamanāt, ir vienāds vienāds Interesanti, ka jūs esat 729 00:43:11,270 --> 00:43:13,250 already-- jūs arī ieskaitot NAS. 730 00:43:13,250 --> 00:43:19,010 Tātad šajā gadījumā, jūs joprojām nevar saņemt jebkuru informāciju, jo tagad jums ir NAS 731 00:43:19,010 --> 00:43:22,650 un jūs vienkārši vēlaties, lai redzētu, kura no novērojums atbilst demokrāts 732 00:43:22,650 --> 00:43:24,670 un nevis tie trūkstošo vērtību sevi. 733 00:43:24,670 --> 00:43:27,680 Tātad, kā jūs atbrīvoties no šīm aģentūrām? 734 00:43:27,680 --> 00:43:36,410 >> Tātad, šeit es esmu tikai izmantojot augšup taustiņu uz manu kursoru un tad saka, pārvietojas. 735 00:43:36,410 --> 00:43:39,778 Un tad šeit es esmu tikai gatavojas teikt is.na datpartyid. 736 00:43:39,778 --> 00:43:48,970 737 00:43:48,970 --> 00:43:52,720 Tik šo un un veiks divas dažādas Būla vektori 738 00:43:52,720 --> 00:43:57,160 un teikt, tas būs TRUE un FALSE, piemēram. 739 00:43:57,160 --> 00:43:59,190 Tātad, tas ir gatavojas darīt šo komponentu gudrs. 740 00:43:59,190 --> 00:44:02,910 Tātad, šeit es saku pārņemšanu datu rāmi, apakšgrupā 741 00:44:02,910 --> 00:44:10,170 tiem, kas atbilst demokrāts, un noņemt kāds no tiem, kas nav NA. 742 00:44:10,170 --> 00:44:13,540 >> Tātad šis will-- vajadzētu jums kaut ko. 743 00:44:13,540 --> 00:44:16,540 744 00:44:16,540 --> 00:44:17,600 Paskatīsimies is.na. 745 00:44:17,600 --> 00:44:24,670 746 00:44:24,670 --> 00:44:27,690 Mēģināsim is.na datpartyid. 747 00:44:27,690 --> 00:44:36,290 748 00:44:36,290 --> 00:44:45,290 Un tas jādod you-- sorry-- tikai Būla vektors. 749 00:44:45,290 --> 00:44:49,260 Un tad, jo tas ir tik garš, Es esmu gatavojas apakšgrupā līdz 20. 750 00:44:49,260 --> 00:44:49,760 OK. 751 00:44:49,760 --> 00:44:51,570 Tātad tam vajadzētu strādāt. 752 00:44:51,570 --> 00:44:54,700 >> Un tas viens būs arī TRUEs. 753 00:44:54,700 --> 00:45:01,830 Ah, tāpēc mana kļūda ir tā, ka I'm-- es lietot C ++ un R pamīšus tāpēc man darīt 754 00:45:01,830 --> 00:45:03,590 Šī kļūda visu laiku. 755 00:45:03,590 --> 00:45:05,807 Un operators ir faktiski vienu, kuru vēlaties. 756 00:45:05,807 --> 00:45:08,140 Jūs nevēlaties, lai izmantotu divas ampersands, tikai vienā. 757 00:45:08,140 --> 00:45:14,970 758 00:45:14,970 --> 00:45:17,010 OK. 759 00:45:17,010 --> 00:45:18,140 >> Tātad, pieņemsim redzēt. 760 00:45:18,140 --> 00:45:20,930 761 00:45:20,930 --> 00:45:23,920 Tātad mēs subsetted līdz partyid kur viņi demokrāts 762 00:45:23,920 --> 00:45:25,300 un viņi nav pazudis vērtības. 763 00:45:25,300 --> 00:45:27,690 Un tagad aplūkosim kādi viņi balsoja par. 764 00:45:27,690 --> 00:45:31,530 Tātad, šķiet, tāpat kā lielākā daļa no viņiem balsoja par 1. 765 00:45:31,530 --> 00:45:36,090 Tāpēc es esmu gatavojas iet uz priekšu un teikt, ka ir Kerry. 766 00:45:36,090 --> 00:45:39,507 >> Un tāpat, varat arī iet uz republikāņu 767 00:45:39,507 --> 00:45:41,090 un, cerams, tas būtu jums 2. 768 00:45:41,090 --> 00:45:49,730 769 00:45:49,730 --> 00:45:51,770 Tas ir tikai ķekars dažādu kolonnām. 770 00:45:51,770 --> 00:45:53,070 Un tiešām, tas ir 2. 771 00:45:53,070 --> 00:45:55,750 Tātad partyid visu Republikāņu, lielākā daļa no tām ir balsot par 2. 772 00:45:55,750 --> 00:45:58,390 >> Tātad, šķiet, piemēram, tikai skatoties uz to, 773 00:45:58,390 --> 00:46:00,600 Republikāņu būs very-- vai partyid 774 00:46:00,600 --> 00:46:02,790 būs ļoti liels faktors 775 00:46:02,790 --> 00:46:05,420 kurā kandidāts viņi gatavojas balsot par. 776 00:46:05,420 --> 00:46:07,120 Un tas ir acīmredzami taisnība kopumā. 777 00:46:07,120 --> 00:46:10,139 Un tas atbilst jūsu intuīcija, protams. 778 00:46:10,139 --> 00:46:11,930 Tātad, šķiet, tāpat kā es esmu pietrūkt laika, lai 779 00:46:11,930 --> 00:46:17,040 ļaujiet man tikai vajadzētu iet uz priekšu un parādīt dažas ātri attēlus. 780 00:46:17,040 --> 00:46:21,120 Tātad, šeit ir kaut kas ir nedaudz sarežģī ar vizualizāciju. 781 00:46:21,120 --> 00:46:26,450 Tātad šajā gadījumā, tas ir ļoti vienkārša analīze vienkārši pārbaudīt to, kas 782 00:46:26,450 --> 00:46:28,500 prezidents '04 ir. 783 00:46:28,500 --> 00:46:33,920 >> Tātad šajā gadījumā, teiksim jums gribēja atbildēt uz šo jautājumu. 784 00:46:33,920 --> 00:46:38,540 Tātad pieņemsim, ka mēs vēlējāmies uzzināt balsošanu uzvedība 2004. prezidenta vēlēšanām 785 00:46:38,540 --> 00:46:41,170 un kā tas ir atkarīgs no rases. 786 00:46:41,170 --> 00:46:44,380 Līdz ar to ne tikai jūs vēlaties skatīt balsošanas uzvedību, 787 00:46:44,380 --> 00:46:47,860 bet jūs vēlaties, lai apakšgrupā katra rases un veida apkopot to. 788 00:46:47,860 --> 00:46:50,770 Un jūs varat tikai pateikt Šajā sarežģītajā notācija 789 00:46:50,770 --> 00:46:52,580 ka šis ir veids, kā iegūt miglaini. 790 00:46:52,580 --> 00:46:56,390 >> Tātad viena no attīstītākajām R paketes, kas ir arī sava veida neseno 791 00:46:56,390 --> 00:47:00,070 sauc dplyr. 792 00:47:00,070 --> 00:47:03,060 Tātad tas ir tas viens tepat. 793 00:47:03,060 --> 00:47:08,080 Un ggg-- ggplot2 ir tikai jauka veids, kā darīt labāk vizualizācijas 794 00:47:08,080 --> 00:47:09,400 nekā iebūvēto vienā. 795 00:47:09,400 --> 00:47:11,108 >> Tāpēc es esmu gatavojas, lai slodze šīs divas bibliotēkas. 796 00:47:11,108 --> 00:47:13,200 797 00:47:13,200 --> 00:47:16,950 Un tad, es iešu priekšu un palaist šo komandu. 798 00:47:16,950 --> 00:47:19,050 Jūs varat uzskatīt to kā melnā kaste. 799 00:47:19,050 --> 00:47:23,460 >> Kas notiek, ir tas, ka šī caurule operators ir iet šo argumentu 800 00:47:23,460 --> 00:47:24,110 uz šeit. 801 00:47:24,110 --> 00:47:28,070 Tāpēc es saku grupu, dat rases un tad prezidents 04. 802 00:47:28,070 --> 00:47:31,530 Un tad, visi šie pārējie komandas ir filtrēšanas un tad apkopojot 803 00:47:31,530 --> 00:47:34,081 kur es esmu dara skaits un tad es esmu uzzīmējot to šeit. 804 00:47:34,081 --> 00:47:39,980 805 00:47:39,980 --> 00:47:42,500 OK cool. 806 00:47:42,500 --> 00:47:44,620 So iesim uz priekšu un redzēt, kā tas izskatās. 807 00:47:44,620 --> 00:47:52,280 808 00:47:52,280 --> 00:47:57,290 >> Tātad, kas notiek šeit ir tā, ka es tikai vilkta katrs no sacīkstēm un tad 809 00:47:57,290 --> 00:47:59,670 kādi viņi balsoja par. 810 00:47:59,670 --> 00:48:03,492 Un šie divi atšķirīgi vērtības atbilst 2 un 1. 811 00:48:03,492 --> 00:48:05,325 Ja jūs vēlaties būt vairāk elegants, jūs varat arī 812 00:48:05,325 --> 00:48:11,770 tikai norādīt, ka 2 ir Kerry-- vai 2 ir Bush, un pēc tam 1 ir Kerry. 813 00:48:11,770 --> 00:48:13,700 Un jūs varat būt arī ka jūsu leģendā. 814 00:48:13,700 --> 00:48:17,410 >> Un jūs varat arī sadalīt šos joslu diagrammas. 815 00:48:17,410 --> 00:48:19,480 Jo viena lieta ir ka, ja pamanāt, 816 00:48:19,480 --> 00:48:24,560 tas nav ļoti viegli noteikt kas no šīm divām vērtībām ir lielāka. 817 00:48:24,560 --> 00:48:27,920 Tātad viena lieta, ko jūs vēlaties, lai darīt, ir izmantot šo zilais laukums 818 00:48:27,920 --> 00:48:31,855 un vienkārši pārvietot to vairāk nekā šeit, lai jums var salīdzināt šīs divas blakus. 819 00:48:31,855 --> 00:48:34,480 Un es domāju, ka ir kaut kas es nav laika to darīt tieši tagad, 820 00:48:34,480 --> 00:48:36,660 bet tas ir arī ļoti viegli darīt. 821 00:48:36,660 --> 00:48:40,310 Jūs varat vienkārši ieskatīties Vīrs lapas ggplot. 822 00:48:40,310 --> 00:48:47,170 Tātad jūs varat vienkārši ggplot patīk kas un lasīt šajā man lapu. 823 00:48:47,170 --> 00:48:51,920 >> Tāpēc ļaujiet man tikai ātri parādīs dažus labas lietas. 824 00:48:51,920 --> 00:48:57,610 Iesim uz priekšu un iet kuri paredzēti, lai tikai piemērošana mašīnu apmācības. 825 00:48:57,610 --> 00:49:02,450 Tātad, pieņemsim, ka mums ir šīs trīs paketes tāpēc es esmu gatavojas ielādēt šos. 826 00:49:02,450 --> 00:49:05,500 827 00:49:05,500 --> 00:49:09,170 Tātad tas tikai izdrukā dažas Informācija pēc tam es ievietots lieta. 828 00:49:09,170 --> 00:49:15,220 Tāpēc es saku šo read.csv, Šī datu kopa, un tagad 829 00:49:15,220 --> 00:49:18,940 Es iešu uz priekšu un izskatās, un redzēt, kas ir iekšā šajā datu kopā. 830 00:49:18,940 --> 00:49:22,080 >> Tātad pirmo 20 novērojumiem. 831 00:49:22,080 --> 00:49:27,190 Tāpēc es vienkārši ir X1, X2, un Y. Tātad tas šķiet kā ķekars šo vērtību 832 00:49:27,190 --> 00:49:31,640 ir sākot no varbūt 20 līdz 80, vai arī tā. 833 00:49:31,640 --> 00:49:37,700 Un tad līdzīgi par X2 un tad tas Y šķiet etiķetes 0 un 1. 834 00:49:37,700 --> 00:49:49,500 >> Lai to pārbaudītu, es varu vienkārši darīt kopsavilkums datu X1. 835 00:49:49,500 --> 00:49:51,660 Un tad līdzīgi aprēķina visi šie citi kolonnas. 836 00:49:51,660 --> 00:49:55,300 Tātad kopsavilkums ir ātrs veids, kā tikai rāda jums ātri vērtības. 837 00:49:55,300 --> 00:49:56,330 Ak, piedodiet. 838 00:49:56,330 --> 00:49:58,440 Tas viens ir Y. 839 00:49:58,440 --> 00:50:03,420 >> Tātad, šajā gadījumā, dod quantiles, mediānas, maxes kā arī. 840 00:50:03,420 --> 00:50:07,130 Šajā gadījumā, dataY, jūs varat redzēt ka tas ir tikai būs 0 un 1. 841 00:50:07,130 --> 00:50:10,100 Arī vidējais saka 0.6, tikai nozīmē, ka tā 842 00:50:10,100 --> 00:50:13,380 Izskatās, ka es ir vairāk 1s nekā 0s. 843 00:50:13,380 --> 00:50:16,160 >> Tāpēc ļaujiet man iet uz priekšu un parādīt jums, kā tas izskatās. 844 00:50:16,160 --> 00:50:17,470 Tāpēc es esmu tikai gatavojas gabals šo. 845 00:50:17,470 --> 00:50:22,852 846 00:50:22,852 --> 00:50:24,636 Paskatīsimies, kā to skaidri šī. 847 00:50:24,636 --> 00:50:30,492 848 00:50:30,492 --> 00:50:31,468 Oh OK. 849 00:50:31,468 --> 00:50:35,840 850 00:50:35,840 --> 00:50:36,340 OK. 851 00:50:36,340 --> 00:50:37,590 >> Tātad, tas ir, kā tas izskatās. 852 00:50:37,590 --> 00:50:46,310 Tātad, šķiet, piemēram, dzeltenās I noteiktajām kā 0, un tad sarkano esmu norādījis kā 1s. 853 00:50:46,310 --> 00:50:52,190 Tātad šeit tas izskatās etiķete punkti un tā 854 00:50:52,190 --> 00:50:56,410 Šķiet, tāpat kā jūs vienkārši gribēja daži kārtot klasterizācijas par to. 855 00:50:56,410 --> 00:51:01,020 >> Un ļaujiet man tikai iet uz priekšu un parādīt Jums dažas no šīm iebūvētās funkcijas. 856 00:51:01,020 --> 00:51:03,580 Tātad, šeit ir lm. 857 00:51:03,580 --> 00:51:06,060 Tātad tas ir tikai mēģina uzstādīt līniju šo. 858 00:51:06,060 --> 00:51:08,640 Tātad, kas ir labākais veids, kā ka es varētu fit līnija piemēram 859 00:51:08,640 --> 00:51:14,020 ka tā būs vislabāk atdalīt šāda veida apvienības. 860 00:51:14,020 --> 00:51:21,790 Un ideāli, jūs varat vienkārši redzēt ka es vienkārši palaist visas šīs komandas 861 00:51:21,790 --> 00:51:25,450 un tad, es eju priekšu un pievienot līniju. 862 00:51:25,450 --> 00:51:28,970 >> Tātad tas šķiet labākais minējums. 863 00:51:28,970 --> 00:51:34,150 Tas ir ņemot labāko, kas samazina kļūda mēģinot fit šo līniju. 864 00:51:34,150 --> 00:51:40,000 Protams, tas izskatās veida labi, bet tas nav labākais. 865 00:51:40,000 --> 00:51:43,130 Un lineāri modeļi, kas Kopumā, gribam būt 866 00:51:43,130 --> 00:51:46,811 tiešām liels, lai teoriju un tikai sava Ēku pamatiem mašīnas 867 00:51:46,811 --> 00:51:47,310 mācīšanās. 868 00:51:47,310 --> 00:51:50,330 Bet praksē, jūs gatavojas vēlaties darīt kaut ko vairāk vispārēju. 869 00:51:50,330 --> 00:51:54,280 >> Tātad jūs varat mēģināt darboties kaut kas ko sauc par neironu tīklu. 870 00:51:54,280 --> 00:51:57,110 Šīs lietas ir arvien biežāk. 871 00:51:57,110 --> 00:52:00,530 Un viņi tikai strādā fantastiski lieliem datu kopām. 872 00:52:00,530 --> 00:52:07,080 Tātad šajā gadījumā, mēs tikai have-- pieņemsim see-- mums nrow. 873 00:52:07,080 --> 00:52:09,010 Tik nrow ir tikai saprotams, rindu skaitu. 874 00:52:09,010 --> 00:52:11,790 Tātad šajā gadījumā, es ir 100 apsvērumus. 875 00:52:11,790 --> 00:52:15,010 >> Tāpēc ļaujiet man iet uz priekšu un veikt neironu tīklu. 876 00:52:15,010 --> 00:52:18,620 Tātad šis ir patiešām jauks jo es varu tikai teikt nNeto 877 00:52:18,620 --> 00:52:21,767 un tad es esmu regresē Y. Tātad Y ir, ka kolonna. 878 00:52:21,767 --> 00:52:23,850 Un tad regresē to pārējie divi mainīgie. 879 00:52:23,850 --> 00:52:27,360 Tātad tas ir īsāks nošu X1 un X2. 880 00:52:27,360 --> 00:52:29,741 >> So iesim uz priekšu un palaist to. 881 00:52:29,741 --> 00:52:30,240 Ak, piedodiet. 882 00:52:30,240 --> 00:52:32,260 Man vajag, lai palaistu šo visa lieta. 883 00:52:32,260 --> 00:52:37,500 Un tas ir tikai drukā notācija cik ātri vai ne ātri tas 884 00:52:37,500 --> 00:52:38,460 izlīdzinājušās. 885 00:52:38,460 --> 00:52:41,420 Tā izskatās tā saplūst. 886 00:52:41,420 --> 00:52:44,970 Tāpēc ļaujiet man iet uz priekšu un drukas , ko tas izskatās. 887 00:52:44,970 --> 00:52:51,260 >> Skatīt šeit ir attēlu un šeit ir kontūra parādot, cik labi tas iederas. 888 00:52:51,260 --> 00:52:56,380 Un tas ir just-- jūs varat redzēt tas, ka tas ir ļoti, ļoti jauki. 889 00:52:56,380 --> 00:52:59,400 Tas pat varētu būt overfitting, bet jūs varat arī 890 00:52:59,400 --> 00:53:03,390 atskaitīties par to ar citu metodes, piemēram, savstarpējās apstiprināšanas. 891 00:53:03,390 --> 00:53:06,180 Un tie ir iebūvēti R. arī 892 00:53:06,180 --> 00:53:09,170 >> Un ļaujiet man tikai parādīt jums atbalstīt vektora mašīna. 893 00:53:09,170 --> 00:53:12,470 Tas ir vēl viens ļoti bieži tehnika, mašīnu apmācības. 894 00:53:12,470 --> 00:53:18,550 Tas ir ļoti līdzīgs lineāro modeļu, bet tā izmanto to, ko sauc kodola metodi. 895 00:53:18,550 --> 00:53:22,790 Un redzēsim, cik labi, ka nav. 896 00:53:22,790 --> 00:53:26,430 Tātad šī ir ļoti līdzīgs tam, kā arī neironu tīklu veic, 897 00:53:26,430 --> 00:53:27,900 bet tas ir daudz vairāk gludāka. 898 00:53:27,900 --> 00:53:35,740 Un tas ir balstīta off no what-- cik SVMs darbu. 899 00:53:35,740 --> 00:53:40,250 >> Tātad tas ir tikai ļoti īss pārskats par dažiem 900 00:53:40,250 --> 00:53:43,822 no iebūvētās funkcijas, jūs varat darīt un arī daži no datu izpēti. 901 00:53:43,822 --> 00:53:45,905 Tāpēc ļaujiet man tikai iet uz priekšu un doties atpakaļ uz slaidiem. 902 00:53:45,905 --> 00:53:50,290 903 00:53:50,290 --> 00:53:53,670 >> Tātad acīmredzot, tas ir nav ļoti pilnīgs. 904 00:53:53,670 --> 00:53:57,140 Un tas patiešām ir tikai teaser parāda jums to, ko jūs tiešām var darīt R. 905 00:53:57,140 --> 00:53:59,100 Tātad, ja jūs tikai gribētu Lai uzzinātu vairāk, šeit 906 00:53:59,100 --> 00:54:01,210 ir ķekars dažādu resursu. 907 00:54:01,210 --> 00:54:06,890 >> Tātad, ja jūs esat sajūsmā par mācību grāmatu, vai jūs esat vienkārši patīk lasīt lietas online, 908 00:54:06,890 --> 00:54:09,670 tad tas ir fantastisks pa Hadley Wickham, 909 00:54:09,670 --> 00:54:13,010 kas arī radīja visus šos patiešām atdzist paketes. 910 00:54:13,010 --> 00:54:17,420 Ja jūs esat sajūsmā par video, tad Berkeley ir awesome Bootcamp 911 00:54:17,420 --> 00:54:21,060 tas ir several-- tas ir sava veida garš. 912 00:54:21,060 --> 00:54:24,210 Un tas būs iemācīt jums gandrīz viss, kas jums gribētu uzzināt par R. 913 00:54:24,210 --> 00:54:27,770 >> Un tāpat, tur ir Codeacademy un visi šie citi veida 914 00:54:27,770 --> 00:54:29,414 Interaktīvo mājas lapas. 915 00:54:29,414 --> 00:54:31,580 Tās ir arī kļūst common-- vairāk un biežāk. 916 00:54:31,580 --> 00:54:33,749 Tātad tas ir ļoti līdzīgs Codeacademy. 917 00:54:33,749 --> 00:54:35,790 Un, visbeidzot, ja jūs vienkārši vēlas kopienas un palīdzēt, 918 00:54:35,790 --> 00:54:38,800 tie ir ķekars lietas, jūs varat doties. 919 00:54:38,800 --> 00:54:40,880 Acīmredzot, mēs joprojām izmantot adresātu sarakstu, vienkārši 920 00:54:40,880 --> 00:54:44,860 tāpat kā gandrīz visi citi programmēšanas valoda kopiena. 921 00:54:44,860 --> 00:54:47,880 Un #rstats, tas ir Mūsu kopiena Twitter. 922 00:54:47,880 --> 00:54:49,580 Tas ir tiešām diezgan bieži. 923 00:54:49,580 --> 00:54:50,850 Un tad lietotāji! 924 00:54:50,850 --> 00:54:52,340 Ir tikai mūsu konference. 925 00:54:52,340 --> 00:54:55,390 >> Un tad, protams, jūs varat izmantot visus šos pārējos Q ​​& A lietas, 926 00:54:55,390 --> 00:54:57,680 tāpat Steka pārpildīšanās, Google, un pēc tam GitHub. 927 00:54:57,680 --> 00:55:00,490 Jo lielākā daļa no šiem iepakojumiem un daudz sabiedrībā 928 00:55:00,490 --> 00:55:03,420 būs centrēta ap attīstot kodu, jo tas ir open source. 929 00:55:03,420 --> 00:55:05,856 Un tas ir tikai patiešām jauki uz GitHub. 930 00:55:05,856 --> 00:55:08,730 Un, visbeidzot, jūs varat sazināties ar mani, ja Jums vienkārši ir kādi ātri jautājumi. 931 00:55:08,730 --> 00:55:13,530 Tātad, jūs varat atrast mani uz čivināt šeit, mana mājas lapa, un tikai mans e-pastu. 932 00:55:13,530 --> 00:55:17,840 Tik cerams, tas bija something-- tikai īsu teaser 933 00:55:17,840 --> 00:55:20,900 Par to, kas R ir patiešām spēj darīt. 934 00:55:20,900 --> 00:55:23,990 Un, cerams, jūs vienkārši apskatiet šos trīs saites 935 00:55:23,990 --> 00:55:25,760 un redzēt, ko jūs varat darīt vairāk. 936 00:55:25,760 --> 00:55:28,130 Un es domāju, ka ir tikai par to. 937 00:55:28,130 --> 00:55:28,630 Paldies. 938 00:55:28,630 --> 00:55:30,780 >> [Aplausi] 939 00:55:30,780 --> 00:55:31,968