1 00:00:00,000 --> 00:00:03,234 >> [Musika jotzen] 2 00:00:03,234 --> 00:00:05,275 3 00:00:05,275 --> 00:00:06,400 ROBERT KRABEK: Kaixo, lagunok. 4 00:00:06,400 --> 00:00:09,980 Nire izena Robert Krabek, eta da Irakasteko izango dut you guys 5 00:00:09,980 --> 00:00:15,470 Web nola Labordeta batera Nokogiri, bertan Ruby liburutegi bat da, 6 00:00:15,470 --> 00:00:17,566 eta Kimono, horrek Chrome luzapena da. 7 00:00:17,566 --> 00:00:20,940 8 00:00:20,940 --> 00:00:25,010 >> Beraz, lehenengo, ez da bat pare gauza duzula 9 00:00:25,010 --> 00:00:28,790 egin ahal izango duzun izan da, agian, bada psets guztian, orain arte egiten 10 00:00:28,790 --> 00:00:31,170 eta zure laneko Apur bat beteta. 11 00:00:31,170 --> 00:00:37,060 Egia esan, ezin dugu besterik gabe, joan eta zuretzat laneko area berri bat sortu 12 00:00:37,060 --> 00:00:41,220 besterik ez marka, proiektu berri bat. 13 00:00:41,220 --> 00:00:46,160 Beraz, nahi ez baduzu jarraituko CS50 template ID lanean diharduten 14 00:00:46,160 --> 00:00:49,080 Une hori baduzu, aske, eta besterik dezakezu 15 00:00:49,080 --> 00:00:54,700 instalatu Nokogiri CFLAGS batera berdin altxor instalatu nokogiri. 16 00:00:54,700 --> 00:00:56,930 Baina bestela erakutsi dut eman du berria nola ezarri. 17 00:00:56,930 --> 00:01:01,210 Eta gero, hau da, funtsean, prestakuntza gurpilak gehiago askatuz. 18 00:01:01,210 --> 00:01:07,120 Eta bazina bezala kodeketa ari zarela Sublime edo zerbait kodifikazioa besterik ez. 19 00:01:07,120 --> 00:01:12,365 Beraz, filmea dugu baino gehiago bada. 20 00:01:12,365 --> 00:01:14,930 21 00:01:14,930 --> 00:01:18,690 >> Beraz, esan hau zure egungo CS 50 izena da. 22 00:01:18,690 --> 00:01:21,490 Cloud9 Bakarrik joan daiteke hemen. 23 00:01:21,490 --> 00:01:22,725 Zure Arbel joan zaitezke. 24 00:01:22,725 --> 00:01:26,720 25 00:01:26,720 --> 00:01:29,950 Ekarri behar ditu mahai fitxan. 26 00:01:29,950 --> 00:01:32,980 Eta gero, ahal sakatu besterik ez duzu Hemen, Sortu Laneko berri bat. 27 00:01:32,980 --> 00:01:37,600 Izena zure laneko area berria, agian, test, edo scraping. 28 00:01:37,600 --> 00:01:42,700 Eta orduan klik fitxa pertsonalizatua honetan hemen, ordez CS50 templates fitxa. 29 00:01:42,700 --> 00:01:45,155 Eta, ondoren, besterik joan dezakezu eta laneko area berri bat sortzeko. 30 00:01:45,155 --> 00:01:48,280 >> Nik dagoeneko sortutako laneko area bat hemen. 31 00:01:48,280 --> 00:01:50,640 Beraz, honetan egingo duzun lan. 32 00:01:50,640 --> 00:01:55,380 Eta berri bat sortu baduzu Laneko area pertsonalizatua fitxa beraz, 33 00:01:55,380 --> 00:02:04,560 idatzi ahal izango duzu altxor instalatu nokogiri, eta hori ez da hemen. 34 00:02:04,560 --> 00:02:06,230 Ados, apur bat izoztutako da. 35 00:02:06,230 --> 00:02:08,979 Baina idatzi dezakezu altxor instalatu nokogiri. 36 00:02:08,979 --> 00:02:15,970 Eta hori guztia izan behar dela ez instalazioan da. 37 00:02:15,970 --> 00:02:20,590 >> Esan dudan bezala, aurretik Oraindik bada Zure CS50 template ID ere lanean, 38 00:02:20,590 --> 00:02:30,270 besterik CFLAGS idatzi behar duzu berdinen altxor instalatu nokogiri. 39 00:02:30,270 --> 00:02:33,130 Eta nik dagoeneko instalatu da hemen, beraz, ez dut egin dela. 40 00:02:33,130 --> 00:02:38,500 Baina dutenentzat honako batera, free hacerlo sentitzen. 41 00:02:38,500 --> 00:02:46,000 >> Beraz, behin Hor dituzu Nokogiri laneko area edo liburutegian instalatuko, 42 00:02:46,000 --> 00:02:49,500 Pixka bat emateko noa crash Ruby sintaxia ikastaro baten 43 00:02:49,500 --> 00:02:53,380 Nokogiri Ruby liburutegi bat delako. 44 00:02:53,380 --> 00:03:03,710 Beraz, oinarrizko batzuk jakin behar duzu Ruby Nokogiri lantzeko sintaxia. 45 00:03:03,710 --> 00:03:08,750 Beraz, oinarrizko ezberdintasun batzuk zer erabiltzen zauden bertatik 46 00:03:08,750 --> 00:03:13,370 agian Zuk lan egiten baduzu orain arte, besterik gabe, C eta PHP, 47 00:03:13,370 --> 00:03:16,010 aldagai aldarrikatu duzu motaren gabe. 48 00:03:16,010 --> 00:03:19,720 Zuk ez duzu puntuz erabili, bertan erliebe baten antzeko zerbait da. 49 00:03:19,720 --> 00:03:25,480 Ez da parentesi artean dago gaur egun inguruan edo loops bitartean, adibidez. 50 00:03:25,480 --> 00:03:29,460 Nahikoa duzu kode-bloke bat, eta ondoren, bukaeran jarri diozun amaieran. 51 00:03:29,460 --> 00:03:32,380 Ez da, gainera, ez plus edo ken ken, besterik ez, beraz 52 00:03:32,380 --> 00:03:36,180 Ezagutzen denean, hori you begiztak egiten ari, 53 00:03:36,180 --> 00:03:38,620 besterik gehi berdin eta ken berdin. 54 00:03:38,620 --> 00:03:43,310 Eta hash ordez, besteak, erabili dituzu behar, eta gero 55 00:03:43,310 --> 00:03:47,755 edozein dela liburutegia nahian zure programa kargatu. 56 00:03:47,755 --> 00:03:51,610 57 00:03:51,610 --> 00:03:53,430 >> Ruby ez da konpilatu hizkuntza bat. 58 00:03:53,430 --> 00:03:55,550 Beraz, hori erliebe bat da. 59 00:03:55,550 --> 00:03:59,350 It gehiago PHP non antzekoa da Lengoaia interpretatu bat da. 60 00:03:59,350 --> 00:04:03,570 Edozein Ruby script exekutatu dezakezu hori Ruby jarraian idatzi duzun 61 00:04:03,570 --> 00:04:07,380 Zure gidoi edo programaren izenarekin. 62 00:04:07,380 --> 00:04:13,000 Adierazgarri da Ruby programa bat dela, amaitzeko, besterik ez duzu .rb c ordez. 63 00:04:13,000 --> 00:04:17,440 Eta badira aldakorra Ruby tamainako array, 64 00:04:17,440 --> 00:04:23,200 hau da, super erosoa zaudenean scraping eta agian erantsi nahi 65 00:04:23,200 --> 00:04:26,090 matrize sartu duzun scraped datuak. 66 00:04:26,090 --> 00:04:31,960 Ez daukazu array berri bat malloc eta kopiatu array zaharrak, berriak array sartu. 67 00:04:31,960 --> 00:04:36,150 Besterik dezakezu batera eransteko gezi bi seinale. 68 00:04:36,150 --> 00:04:39,820 Eta badira karakteretan ez dago besterik gutun single kateak. 69 00:04:39,820 --> 00:04:44,760 Beraz, hori apur bat errazagoa izan behar du. 70 00:04:44,760 --> 00:04:50,130 >> Beraz, besterik ez dugu eman dituzu batzuk Oinarrizko Ruby sintaxia adibide. 71 00:04:50,130 --> 00:04:57,100 Hortaz, hona ordez dela ikusi ahal izango duzu barra barra du, Ruby komentatzeko, 72 00:04:57,100 --> 00:04:58,740 libra ikurra erabili besterik ez duzu. 73 00:04:58,740 --> 00:05:04,990 Eta deklarazio aldakorra, zuk besterik mota aldagai berdinen 74 00:05:04,990 --> 00:05:07,971 aldagai izan nahi duzuna. 75 00:05:07,971 --> 00:05:09,220 Kateak izan daitezke. 76 00:05:09,220 --> 00:05:14,120 Array, izan ditzakezu bertan populatu balioekin duzu. 77 00:05:14,120 --> 00:05:17,240 jartzen eta grabatuak antzekoak dira. 78 00:05:17,240 --> 00:05:20,110 Gure helburuetarako, etorri Alde bakarra da benetan 79 00:05:20,110 --> 00:05:25,500 jartzen da, eta horretarako standak jartzen, besterik linea berri bat jarri du 80 00:05:25,500 --> 00:05:27,440 Pertsonaia edozein izanda at ari zaren inprimatzeko. 81 00:05:27,440 --> 00:05:30,980 >> Beraz txiki bat eman badugu manifestazio hemen, 82 00:05:30,980 --> 00:05:41,800 hau with-- exekutatu ahal izango dugu ireki terminal berria. 83 00:05:41,800 --> 00:05:46,020 Horiek guztiak ikusi ahal izango dituzu nire terminal daude fitxategiak. 84 00:05:46,020 --> 00:05:50,960 Eta exekutatu dut besterik ez bada Ruby, ruby ​​intro.rb, hura 85 00:05:50,960 --> 00:05:53,530 jartzen bost Kaixo Mather, Quincy, Carrier. 86 00:05:53,530 --> 00:05:54,410 Adams. 87 00:05:54,410 --> 00:05:59,295 Beraz, hori guztia ez da geratuko array. 88 00:05:59,295 --> 00:06:01,670 Ikusleak: Robert, dezake zure letra apur bat handiagoa da? 89 00:06:01,670 --> 00:06:02,461 ROBERT KRABEK: Bai. 90 00:06:02,461 --> 00:06:05,370 91 00:06:05,370 --> 00:06:12,280 Eta ezin dut zoom ezin delako Handiagotzeko terminal tipoak itxuraz. 92 00:06:12,280 --> 00:06:18,790 93 00:06:18,790 --> 00:06:24,630 >> Beraz, nola inprimatu behar dituzu zure terminal aldagai. 94 00:06:24,630 --> 00:06:28,820 Ere erabili dezakezu kate baten barruan aldagaiak. 95 00:06:28,820 --> 00:06:33,720 Beraz, duela gutxi PHP, baliteke ikasi dute 96 00:06:33,720 --> 00:06:37,340 han kate interpolazio da. 97 00:06:37,340 --> 00:06:43,830 Beraz, itxura bat hartu duzu bada, hemen, badut deklaratzeko hiru aldagai, izen, liburutegia, 98 00:06:43,830 --> 00:06:49,700 eta hizkuntza, eta I jartzen, I kate bat idatzi, kaixo nire izena da. 99 00:06:49,700 --> 00:06:54,190 Eta gero ordez PHP du kate interpolazio bertsio 100 00:06:54,190 --> 00:06:58,960 zein itxura hau atsegin apur bat gehiago, libra kartel bat behar duzu, eta, ondoren, 101 00:06:58,960 --> 00:07:01,220 kizkur giltza bat, eta, ondoren, aldakorreko izenean. 102 00:07:01,220 --> 00:07:07,350 Eta hori nola litzaidake inprimatu, esan, edozein izanda ere aldagai izena da. 103 00:07:07,350 --> 00:07:10,140 >> Eta gero ere egin ahal izango dituzu kateak kateatu. 104 00:07:10,140 --> 00:07:12,890 Ruby egiten super plus zeinua erraza. 105 00:07:12,890 --> 00:07:16,110 Kate bat besterik ez duzu ezkerreko plus aldakorra batean 106 00:07:16,110 --> 00:07:18,860 edo beste kate plus katea. 107 00:07:18,860 --> 00:07:23,500 Beraz, hau inprimatu badut, behar besterik esan Kaixo, nire izena Robert da. 108 00:07:23,500 --> 00:07:27,340 Irakasteko izango dut Ruby nokogiri duzu. 109 00:07:27,340 --> 00:07:35,370 >> Eta dezagun berretsi besterik ez dela da, hain zuzen Beraz Kasu ruby ​​intro. 110 00:07:35,370 --> 00:07:36,480 Kaixo, nire izena Robert da. 111 00:07:36,480 --> 00:07:40,160 Irakasteko izango dut Ruby nokogiri duzu. 112 00:07:40,160 --> 00:07:45,600 >> Mugitzea, bestela, adierazpenak, Apur bat ezberdina da 113 00:07:45,600 --> 00:07:49,800 zer duzu erabili liteke bertatik Zuk izan C. lanean ari bada 114 00:07:49,800 --> 00:07:53,200 Zuk ez duzu parentesi behar. 115 00:07:53,200 --> 00:07:55,220 Zuk ez duzu behar den kizkur giltza. 116 00:07:55,220 --> 00:08:00,170 Eta horren ordez, beste ezertan bada, kateatu elsif bat da. 117 00:08:00,170 --> 00:08:07,260 Beraz, hemen ere, I deklaratu bada x sortu Hemen, ikusten denez, x dago oraindik 5. 118 00:08:07,260 --> 00:08:11,100 Beraz, bada, x 3 baino txikiagoa da, txiki bat sartuko da. 119 00:08:11,100 --> 00:08:14,030 7, ertaina, beste handi baino gutxiago bada. 120 00:08:14,030 --> 00:08:17,340 Beraz, 5 zenbakia medium bat da. 121 00:08:17,340 --> 00:08:22,270 Eta, azkenean, kode-bloke honetan amaituko dut. 122 00:08:22,270 --> 00:08:24,920 >> Hemen da nire begizta. 123 00:08:24,920 --> 00:08:28,240 Eta sintaxia hau da, era berean, pixka bat eta beste. 124 00:08:28,240 --> 00:08:33,500 0 bost besterik funtsean 0 array bat deklaratzen 5era. 125 00:08:33,500 --> 00:08:36,120 Beraz, ez da array bost slot da. 126 00:08:36,120 --> 00:08:40,500 Eta gero, hori ere zirrikitua bakoitzerako array, i Incrementing izango dut. 127 00:08:40,500 --> 00:08:46,080 Beraz, hau 0 eta 5 edo 0 inprimatu behar 4ra. 128 00:08:46,080 --> 00:08:49,630 Eta hau ertain inprimatu behar. 129 00:08:49,630 --> 00:08:51,370 >> Eta besterik ez dut Blaze bidez. 130 00:08:51,370 --> 00:08:54,466 Zaudete sarbidea izango Kode hori geroago izateko. 131 00:08:54,466 --> 00:08:55,965 Beraz, you guys zuei hau martxan egon daitezke. 132 00:08:55,965 --> 00:09:02,090 133 00:09:02,090 --> 00:09:06,620 >> Beraz, hau da zure oinarrizko bitartean begizta da. 134 00:09:06,620 --> 00:09:12,230 Hau bakarrik izango inprimatzeko j, 1 eta Incrementing hit dugu arte 5. 135 00:09:12,230 --> 00:09:18,320 >> Super azkar Ruby kraskatzea ikastaro nola funtzio bat idazteko. 136 00:09:18,320 --> 00:09:24,460 Horren ordez, esan, int faktorial zenbakia, aski def dugu. 137 00:09:24,460 --> 00:09:28,450 Eta, funtsean Oraindik funtzioa definitu hemen. 138 00:09:28,450 --> 00:09:30,600 Hau da izango da funtzioaren izena, 139 00:09:30,600 --> 00:09:34,280 eta hau aldagai edozein dela duzu funtzioa sartu gainditu nahi. 140 00:09:34,280 --> 00:09:36,760 Barruan, adierazpenak izan ditzakezu. 141 00:09:36,760 --> 00:09:38,030 Itzul dezakezu. 142 00:09:38,030 --> 00:09:42,620 Kasu honetan, ez gara errekurtsiboki bat definitzeko 143 00:09:42,620 --> 00:09:45,000 abian jarritako faktore funtzioa. 144 00:09:45,000 --> 00:09:48,660 Beraz, deitu besterik ez dugu funtzio Ruby hau atsegin du. 145 00:09:48,660 --> 00:09:54,700 >> Beraz badut honetan, I definitu faktoriala deitu dezake, 3 gainditu, 146 00:09:54,700 --> 00:09:59,700 eta 3 orduz kopurua aldakorra izango da ahal izango duten I funtzioa barruan erabili. 147 00:09:59,700 --> 00:10:08,010 Eta to_s hau besterik ez da inflexio itzultzeko faktore balio-kate batean. 148 00:10:08,010 --> 00:10:10,760 Bestela honetan egingo bota Akats baten oh dioela, 149 00:10:10,760 --> 00:10:13,230 Ezin kate bat inprimatu gogoratzen duzun bezala delako, 150 00:10:13,230 --> 00:10:18,230 jartzen jarri da kate hori delako faktore zenbaki bat itzuli du. 151 00:10:18,230 --> 00:10:21,850 Beraz, hori bihur dezakegu besteak beste, atsegin kate bat. 152 00:10:21,850 --> 00:10:27,856 Eta alderantziz, halaber, bihur ditzakezu to_i dituzten zenbaki oso bat kate bat. 153 00:10:27,856 --> 00:10:32,650 >> Beraz, dena super simple egiteko, I komentatzeko bada besterik honek egindako, gorde 154 00:10:32,650 --> 00:10:36,250 eta faktore funtzioa exekutatu. 155 00:10:36,250 --> 00:10:39,850 Ikusi ahal izan behar dugu 3 faktore 6 dela. 156 00:10:39,850 --> 00:10:42,790 Eta hori da, hain zuzen ere, egia da. 157 00:10:42,790 --> 00:10:46,160 >> Beraz, zure kraskadura Ruby jakina da. 158 00:10:46,160 --> 00:10:53,550 Eta orain badakiela Ruby, joan ahal izango dugu dituen oinarrizko Nokogiri den scraping gora behera. 159 00:10:53,550 --> 00:10:58,190 Guztia egin behar duzu, funtsean, Ruby, liburutegietan eskatzen. 160 00:10:58,190 --> 00:11:04,390 Eta gure helburuetarako dugun erabiliz egingo liburutegia OpenURI baita Nokogiri. 161 00:11:04,390 --> 00:11:07,870 Eta gero, zer zuzen ere, egin behar duzu, eta bertan egingo Halako sintaxia eman duzu 162 00:11:07,870 --> 00:11:16,010 da URL askoz ireki duzu egiten duzun bezala cURL eskaera bat, eta bertan C URL dago. 163 00:11:16,010 --> 00:11:20,330 >> Beraz URL hartu duzu galdera webgunean. 164 00:11:20,330 --> 00:11:22,030 Gorde duzu aldagai batean. 165 00:11:22,030 --> 00:11:27,400 Eta gero, hori aurkitu ahal izango HTML etiketa berezia erabiliz aldakorra 166 00:11:27,400 --> 00:11:30,590 .css komandoa. 167 00:11:30,590 --> 00:11:34,360 Eta gero, irteera ahal duzun Nahi izanez lekuan eduki. 168 00:11:34,360 --> 00:11:35,720 You base batean has daiteke. 169 00:11:35,720 --> 00:11:42,040 Fitxategi batean dezakezu irteera, edo nahiz eta, besterik gabe, inprimatu pantailan. 170 00:11:42,040 --> 00:11:47,290 >> Beraz, oinarrizko arraspa bat erakutsiko dugu. 171 00:11:47,290 --> 00:11:52,570 Hauxe ikusiko duzu daukagun nokogiri eskatzen zuen, eskatzen open-uri. 172 00:11:52,570 --> 00:11:57,150 Zure oinarrizko multzo bat ireki, dezagun dokumentu edo doc deitu, 173 00:11:57,150 --> 00:12:07,780 berdinen Nokogiri :: HTML open, hau da, gurekin emandako OpenURI dituen komandoa 174 00:12:07,780 --> 00:12:08,920 liburutegia. 175 00:12:08,920 --> 00:12:14,000 Eta, bilatzen egingo dugu dutenentzat nor quad batean egon liteke bizi, 176 00:12:14,000 --> 00:12:21,270 Hori Boston daude zerrendatuta bizikleten Boston Craigslist bike atalean 177 00:12:21,270 --> 00:12:22,020 gune. 178 00:12:22,020 --> 00:12:26,460 >> Beraz zara Ohituta bada cURL batera, besterik ez dut 179 00:12:26,460 --> 00:12:28,930 erakusten duzun benetako azkar cURL zer egin beharko. 180 00:12:28,930 --> 00:12:38,350 URL guztiek hartu behar diren banu Craigslist gunean, curl badut, 181 00:12:38,350 --> 00:12:44,950 zabortegiak besterik ez da URL guztia the Craigslist bizikleta gunetik 182 00:12:44,950 --> 00:12:46,720 nire terminal kalera. 183 00:12:46,720 --> 00:12:49,130 Hori ez da bereziki erabilgarria ez dudalako 184 00:12:49,130 --> 00:12:53,330 eskuz pasatzen nahi eta gauzaren bila nabil aurkitu. 185 00:12:53,330 --> 00:13:01,590 Baina besterik ez, beraz ezin duzu Ikusten nago benetan duten I 186 00:13:01,590 --> 00:13:13,966 Eskuineko kodea erabiliz, erreparatuz gero Craigslist URL bikes-- at 187 00:13:13,966 --> 00:13:17,460 arrazoiren batengatik ez da aurkitu. 188 00:13:17,460 --> 00:13:20,340 Begiratuz gero orri honetan eta begiratu URL duzu, 189 00:13:20,340 --> 00:13:23,970 honen berdina izan behar du bidaltzea besterik ez dut cURL eskaera. 190 00:13:23,970 --> 00:13:27,700 Eta, hain zuzen, hori da zer izateaz doc aldakorra jasotzen dira. 191 00:13:27,700 --> 00:13:36,540 >> Beraz, noiz atzera egin duzu gure kodeari, dugu gero doc aldagai honen funtzionatzeko 192 00:13:36,540 --> 00:13:40,660 .css erabiliz. 193 00:13:40,660 --> 00:13:49,240 Beraz, esan guztiek lortu nahi nuen etiketa duten span.txt dira, 194 00:13:49,240 --> 00:13:51,740 eta bat etiketa etiketa duten guztia barruan. 195 00:13:51,740 --> 00:13:56,150 Eta zergatik nahi dugu Hau egiten baduzu, entzuten baduzu negar egin dut? 196 00:13:56,150 --> 00:14:02,920 >> Aztertu ditugun Element bada, zuk ematen dio URL nola egituratuta dago matxura. 197 00:14:02,920 --> 00:14:06,200 Joan I behera bitartez bada Hemen, ikusi ahal izango duzu 198 00:14:06,200 --> 00:14:08,770 zer desberdin horietako bakoitza elementu adierazten du. 199 00:14:08,770 --> 00:14:13,410 Beraz, agian sartu nahi dut bereziki, elementu hau. 200 00:14:13,410 --> 00:14:16,820 Beraz Chrome developer naiz erabiliz Tresna Element ikuskatzeko. 201 00:14:16,820 --> 00:14:22,970 Dut hemen ikusi ahal behera hori span baten barruan etiketa bat da 202 00:14:22,970 --> 00:14:26,230 txt klase bat etiketatu. 203 00:14:26,230 --> 00:14:29,610 >> Beraz, hau lortzen gure Lehenengo eragiketa bertan 204 00:14:29,610 --> 00:14:37,330 doc.css span, bertan etiketa da dela I URL horretan guztian bila nabil. 205 00:14:37,330 --> 00:14:43,650 Eta gero CSS bezala funtzionatzen .txt gertatzen denean besterik ez zaren CSS idazten 206 00:14:43,650 --> 00:14:49,630 Zure HTML fitxategiak arabera Klase bat zehaztuz. 207 00:14:49,630 --> 00:14:57,980 Beraz operadorea zehatz hori Zehaztu txt klase batera span etiketa bat. 208 00:14:57,980 --> 00:15:02,800 Eta gero, espazio bat uzten badut, hau izango etiketa horren barruan joan 209 00:15:02,800 --> 00:15:05,170 eta, ondoren, horren barruan etiketa bat aurkitzea. 210 00:15:05,170 --> 00:15:10,750 >> Beraz, I jarri bada besterik honetarako terminalean, behar dut 211 00:15:10,750 --> 00:15:21,630 izan funtsean dena ikusteko gai Klase txt span honen barruan dago. 212 00:15:21,630 --> 00:15:22,890 Beraz go bat egingo dugu eman. 213 00:15:22,890 --> 00:15:25,870 214 00:15:25,870 --> 00:15:27,756 ruby craigslist-arraspa. 215 00:15:27,756 --> 00:15:31,850 216 00:15:31,850 --> 00:15:37,250 Eta hain zuzen ere, ematen digu hauen guztien hainbat zerrendak etiketa duten 217 00:15:37,250 --> 00:15:40,400 Craigslist orrialdean daude. 218 00:15:40,400 --> 00:15:45,670 >> Beraz, atzera joan gara, hau piztu ahal izango dugu Zerbait apur bat gehiago erabilgarria sartu. 219 00:15:45,670 --> 00:15:51,050 Agian besterik estekak nahi dugu. 220 00:15:51,050 --> 00:15:58,790 Etiketa honen barruan, halaber naizelako bidearen Hiperesteka dute 221 00:15:58,790 --> 00:16:00,590 Orri hau duten doa. 222 00:16:00,590 --> 00:16:09,100 Beraz, bada, kode hau hemen, zer egingo dudan .css ordez, 223 00:16:09,100 --> 00:16:12,380 At_css joan ahal izango dut. 224 00:16:12,380 --> 00:16:16,820 Eta hori izango da, besterik gabe zaitez lehena Gauza horiek guztiak elementurik. 225 00:16:16,820 --> 00:16:20,890 Beraz, hori ez banintz, gehienez ere kode besterik aurrez frogatu dut, 226 00:16:20,890 --> 00:16:23,800 ordez guztia itzultzeko Hori, besterik ez litzateke 227 00:16:23,800 --> 00:16:26,850 horietako lehena itzultzeko. 228 00:16:26,850 --> 00:16:31,310 Beraz, hori da at_css operadorea nola funtzionatzen du. 229 00:16:31,310 --> 00:16:39,460 >> Beraz, gorde nahi dugu bidea lehen etiketa bat guztiak. 230 00:16:39,460 --> 00:16:47,430 Eta delako bat emango digu a-- beraz ari gara oraindik .css erabili behar. 231 00:16:47,430 --> 00:16:53,830 Baina hau ez delako ematen joan gaituena etiketa sorta oso bat, 232 00:16:53,830 --> 00:16:55,710 sarbide ditugu lehen elementua. 233 00:16:55,710 --> 00:17:01,700 Beraz, hau modu bat da hori egin ahal izango dituzu bereziki edozein elementu baduzu sartzeko 234 00:17:01,700 --> 00:17:04,810 elementu multzo bat dute itzuliko da, 235 00:17:04,810 --> 00:17:11,930 duzu ezer tratatu ezin delako hori .css multzo baten modura itzultzen, funtsean. 236 00:17:11,930 --> 00:17:16,880 Eta gero ari gara sartzeko joan hipertestu erreferentzia honen ezaugarri. 237 00:17:16,880 --> 00:17:24,810 >> Beraz, itxura bat hartu baduzu, bada Benetan itxi begiratu duzu hemen, 238 00:17:24,810 --> 00:17:28,270 besterik funtsean baduzu URL bar begiratzeko 239 00:17:28,270 --> 00:17:33,880 hau bidea dela zuk be scraping joan zaren. 240 00:17:33,880 --> 00:17:41,565 Beraz, ez dugu exekutatu bada besterik honetan berriro, eta ziurtatu Nik gordeta dugu. 241 00:17:41,565 --> 00:17:47,040 242 00:17:47,040 --> 00:17:48,300 Etxean begira daiteke. 243 00:17:48,300 --> 00:17:51,430 Hau benetan partidak ikustera link honekin. 244 00:17:51,430 --> 00:17:55,950 >> Beraz, zergatik hau erabili nahi dugu? 245 00:17:55,950 --> 00:17:57,870 To Labordeta nahi baduzu orrialdean eta egiten ditu 246 00:17:57,870 --> 00:18:00,270 bezalako estekak orrialde bat Craigslist duela, zuk 247 00:18:00,270 --> 00:18:03,210 ondoren, joan nahi izatea lotura horiek bakoitzaren sartu 248 00:18:03,210 --> 00:18:05,120 eta, ondoren, Labordeta horren edukia, eta horrek 249 00:18:05,120 --> 00:18:08,520 zehazki zer egin behar dugu aurrera. 250 00:18:08,520 --> 00:18:11,660 >> Beraz, behin bidea duzu gisa aldakorra, jada ez dut benetan 251 00:18:11,660 --> 00:18:13,200 , inprimatzeko zaintzeko. 252 00:18:13,200 --> 00:18:15,420 Besterik behar dut aldagai bat, esate baterako. 253 00:18:15,420 --> 00:18:20,980 Eta gero beste bat sartu ahal izango dut Orri modu berean I sartzeko 254 00:18:20,980 --> 00:18:22,260 lehenik eta behin dok. 255 00:18:22,260 --> 00:18:25,920 URL batera ezik, goazen kate interpolazio erabili 256 00:18:25,920 --> 00:18:29,180 atsegin dut nolakoa zen Ruby lehenago eransteko 257 00:18:29,180 --> 00:18:32,010 erro amaieran bidea. 258 00:18:32,010 --> 00:18:38,970 >> Beraz, zer da hori egin egingo da hau da bidean jarri joan 259 00:18:38,970 --> 00:18:42,360 Aurretik scraped dut eta orduan piztuko dituzten 260 00:18:42,360 --> 00:18:49,580 Elementu berri bat sartu, nahi duzuna deitu it, first_listing adibidez. 261 00:18:49,580 --> 00:18:52,900 Baina nik utziko dut elementua buruzko oraingoz, 262 00:18:52,900 --> 00:18:55,420 hori zer erabiltzen dut hemen dagoelako. 263 00:18:55,420 --> 00:19:02,900 >> Beraz, esan deskribapen lortu nahi nuen Craigslist lehen posting du. 264 00:19:02,900 --> 00:19:04,740 Beraz, hemen behera joan nahi nuke. 265 00:19:04,740 --> 00:19:10,660 Litzateke egin klik I Inspect Element berriro, hau deskribapena da delako. 266 00:19:10,660 --> 00:19:14,350 Behera nuke hemen joan eta ikusi I aurkitu ahal bada nola gerta daiteke 267 00:19:14,350 --> 00:19:16,530 Bilatu etiketa hau berezia egiteko gai. 268 00:19:16,530 --> 00:19:19,530 Eta, kasu honetan, egiten du ID bat, eta horrek eramango gaitu 269 00:19:19,530 --> 00:19:26,810 Gure hurrengo bilatzeko bide emateko etiketa, bertan hashtag batekin. 270 00:19:26,810 --> 00:19:30,670 >> Beraz, eskolak emateko, ahal duzun dot operadorea erabili. 271 00:19:30,670 --> 00:19:38,610 Beraz .txt dago txt klase bat zehaztuz, hasha berriz ID bat zehazten du. 272 00:19:38,610 --> 00:19:43,720 Beraz, kasu honetan, etiketa da atalean, eta identifikazioa eman postingbody da. 273 00:19:43,720 --> 00:19:47,780 >> Beraz, hau doa eta aurkitzen lehen aukera du garelako 274 00:19:47,780 --> 00:19:51,200 at_css-- hau desagertu den guztiaren arabera eta lehen elementua bilatzen duela 275 00:19:51,200 --> 00:19:57,180 ateratzen ataleko etiketarekin eta postingbody NAN. 276 00:19:57,180 --> 00:20:02,636 Eta gero, testu elementu sartu ahal izango duzu gauza horren .text itzuli baitzen. 277 00:20:02,636 --> 00:20:06,230 Eta gero, gordetzeko aukera ematen du deskribapena dagoela. 278 00:20:06,230 --> 00:20:09,370 >> Beraz, gaur egun bat dugula Deskripzio aldakorra, 279 00:20:09,370 --> 00:20:14,850 egin ahal izango dugu, agian, esan, artxibatzen I / O. Beraz, fitxategi I / O Ruby 280 00:20:14,850 --> 00:20:21,310 oso antzekoa da I artxibatzen / O C non fitxategi bat ireki dugu. 281 00:20:21,310 --> 00:20:23,260 Agian ez gara dezaten. 282 00:20:23,260 --> 00:20:25,060 Eta orduan fitxategi hori itxi egingo dugu. 283 00:20:25,060 --> 00:20:29,660 >> Beraz, hemen, zu besterik izendatzen dugun artxibatzen, aldagai batzuk arbitrarioak. 284 00:20:29,660 --> 00:20:33,120 Era berean, ezin dugu besterik ez dute jarri hau hemen. 285 00:20:33,120 --> 00:20:39,630 Hori ari gara gordetzeko aldagai bat behar dugu irekita File.open bezala. 286 00:20:39,630 --> 00:20:46,370 Eta fitxategi honetarako ari gara idazten, beraz, ireki dugu w operadorea batera. 287 00:20:46,370 --> 00:20:54,280 Eta orduan katea jarri dugu sartu .puts operadorea artxibatzen. 288 00:20:54,280 --> 00:20:58,310 Eta gero, aldagai jarri dugun to barruan fitxategian idatzi nahi. 289 00:20:58,310 --> 00:21:00,200 Eta gero, besterik fitxategia itxi egiten dugu. 290 00:21:00,200 --> 00:21:04,000 >> Beraz, aurrera joan ginen, eta hau exekutatu, hau dokumentu bat eginen 291 00:21:04,000 --> 00:21:10,840 bertan description.txt batekin egingo deskribapen hori hartzen dute egun horietan. 292 00:21:10,840 --> 00:21:14,015 Beraz, bada it exekutatu dut ez. 293 00:21:14,015 --> 00:21:17,520 294 00:21:17,520 --> 00:21:23,330 Honez duen testu fitxategi bat ekoiztu du, zorionez, gauza bera. 295 00:21:23,330 --> 00:21:25,850 296 00:21:25,850 --> 00:21:33,290 Beraz, ez da mezu berri bat izan liteke Hori etorri nintzen Hizketan aritu bitartean. 297 00:21:33,290 --> 00:21:36,580 Eta hain zuzen ere, badirudi izan bezala. 298 00:21:36,580 --> 00:21:43,380 Beraz bazoaz bike klasiko hau dugu, 1962 1966 to, hori dirudi etortzeko. 299 00:21:43,380 --> 00:21:45,620 Eta ez duzu joan. 300 00:21:45,620 --> 00:21:51,250 >> Beraz, oinarrizko scraping funtzionalitatea. 301 00:21:51,250 --> 00:21:57,510 Ezin ordez daukagu besterik fitxategi hau idazten, 302 00:21:57,510 --> 00:21:59,930 Gauzak gehitu ahal izango dugu array bat. 303 00:21:59,930 --> 00:22:03,770 Beraz, hiru multzo dute deklaratzen badut, izenburua, prezioa, eta deskribapena. 304 00:22:03,770 --> 00:22:06,310 305 00:22:06,310 --> 00:22:13,790 Eta ari gara dok elementuan orain dabilela. 306 00:22:13,790 --> 00:22:16,940 Bidez joan ahal izango dugu, eta span.txt guztiak aurkitu. 307 00:22:16,940 --> 00:22:21,710 Eta gogoratu, hau array bat itzultzen bertan topatzen diren elementu guztiak. 308 00:22:21,710 --> 00:22:27,300 Eta gero, Ruby, bakarrik erabili ahal izango duzu bakoitzak bere elementu bakoitza batetik bestera joateko 309 00:22:27,300 --> 00:22:28,410 array. 310 00:22:28,410 --> 00:22:31,330 Eta gero, elementu bakoitzerako, Besterik ez dut deitu joan 311 00:22:31,330 --> 00:22:34,620 lotura bat, hori delako funtsean zer den. 312 00:22:34,620 --> 00:22:46,830 >> Beraz link.css dot a.hdrlnk bakoitzak jarri badut, hau da, benetan link joan 313 00:22:46,830 --> 00:22:58,280 eta lotura duten beste barruan aurkitzeko HTML elementu eta dagokion klasea. 314 00:22:58,280 --> 00:23:04,990 Beraz, bada, gogoratzen dugu zer Hau izan zen, span.txt du, 315 00:23:04,990 --> 00:23:13,160 utzi besterik joan me back see- ditzakezu span.txt barruan benetako quick-- 316 00:23:13,160 --> 00:23:17,490 beste klaseak asko izan dugu. 317 00:23:17,490 --> 00:23:27,180 Beraz span.txt barruan, bila ari gara Klase hdrlnk etiketa bat lortu du. 318 00:23:27,180 --> 00:23:29,890 Hargatik aurkitu besterik ez dit hori you guys benetako azkar. 319 00:23:29,890 --> 00:23:37,390 320 00:23:37,390 --> 00:23:42,850 >> Beraz, hemen ikusi ahal izango duzu, hau da etiketa bat Klase txt span barruan dago 321 00:23:42,850 --> 00:23:44,920 Klase hdrlnk ditu. 322 00:23:44,920 --> 00:23:47,610 Eta hori da, hain zuzen ere, zer lortzen saiatzen ari gara. 323 00:23:47,610 --> 00:23:54,680 >> Beraz, gaur egun guztiak gordetzeko saiatzen ari gara izenburua barruan lotura horiek. 324 00:23:54,680 --> 00:23:59,545 Eta gero ari gara argitaratzeko lotura horiek bakoitzak egindako. 325 00:23:59,545 --> 00:24:00,360 Ez, barkatu. 326 00:24:00,360 --> 00:24:04,530 Inprimatu goaz horietako bakoitzaren prezioa. 327 00:24:04,530 --> 00:24:09,350 Hargatik exekutatu hau benetan azkar eta ikusi zer egiten. 328 00:24:09,350 --> 00:24:14,680 329 00:24:14,680 --> 00:24:17,720 >> Beraz, hori besterik ez da, funtsean joan loturen bitartez 330 00:24:17,720 --> 00:24:27,310 aldi berean, ikusia etiketa galdera, eta orduan atera prezioan. 331 00:24:27,310 --> 00:24:33,910 Eta hori egin duten ondoren delako izenburuan guztia duzu, 332 00:24:33,910 --> 00:24:37,260 Oraintxe gordeta titulua ez dugu. 333 00:24:37,260 --> 00:24:40,180 Oraintxe gordeta dugu lotura array izenburua barruan. 334 00:24:40,180 --> 00:24:47,720 Eta hau begizta operazio batean, non ordez a.hdrlnk joan beharrean, 335 00:24:47,720 --> 00:24:50,490 span.price bat bilatzen ari gara. 336 00:24:50,490 --> 00:24:56,500 Beraz, besterik ezin dut benetan azkar aurkitu bada prezioa, elementu ikuskatu baduzu, 337 00:24:56,500 --> 00:25:00,610 Ikusiko duzu span bat dela prezioa klase batera. 338 00:25:00,610 --> 00:25:04,670 Eta hori da, funtsean, nola Oraindik prezioa iritsi ginen. 339 00:25:04,670 --> 00:25:10,040 >> Beraz, hori da benetan scraping oinarrizko kasuan. 340 00:25:10,040 --> 00:25:13,550 Hori nola lortu duzu orri batean elementuen 341 00:25:13,550 --> 00:25:16,510 Hori, esan, dagoeneko ezagutzen duzun URLa. 342 00:25:16,510 --> 00:25:21,050 >> Beraz, lortu nahi badugu gutxi sakonera, 343 00:25:21,050 --> 00:25:23,950 orrietan barruko orriak Labordeta dezakegu. 344 00:25:23,950 --> 00:25:28,480 Eta adibide honetan, ez dut izan CSV fitxategi batera irteera. 345 00:25:28,480 --> 00:25:39,510 Beraz, eskatzen dut csv eman hemen Ruby ez delako, bertan, 346 00:25:39,510 --> 00:25:42,350 funtzionaltasuna dute irteera besterik CSV fitxategiak. 347 00:25:42,350 --> 00:25:45,030 Beraz, hori super erraza da. 348 00:25:45,030 --> 00:25:48,710 Goazen besterik hurrengo. 349 00:25:48,710 --> 00:25:51,640 350 00:25:51,640 --> 00:25:57,170 Fitxategia I / O estali dugu. Beraz, hau nola da C. ere antzekoa da 351 00:25:57,170 --> 00:26:00,870 Eta mugitu gara Kimono aurretik, Besterik ez dut erakutsi dut benetan azkar nola duzu 352 00:26:00,870 --> 00:26:02,790 toki barruan guneak Labordeta. 353 00:26:02,790 --> 00:26:10,040 >> Beraz ikasi dagoeneko zenbat dugu arrayak deklaratzeko Ruby. 354 00:26:10,040 --> 00:26:13,280 Beraz, ez dut besterik ez da geratuko arrayak arbitrarioa mordo 355 00:26:13,280 --> 00:26:16,310 hori gordetzeko egingo dut datuen barruan. 356 00:26:16,310 --> 00:26:20,680 doc modu berean jarduten da aurreko fitxategia urtean egin zuten bezala. 357 00:26:20,680 --> 00:26:23,580 Goaz, aurkitzeko span.txt en bakoitzari. 358 00:26:23,580 --> 00:26:25,040 Dagoeneko badakigu hori. 359 00:26:25,040 --> 00:26:32,130 Hori edukiontzi da bertan bakoitzaren barruan Lotura nahi dugun datu guztiak ditu. 360 00:26:32,130 --> 00:26:40,800 >> Hortaz, hona hemen zer egiten ari garen bakoitzeko span class txt esteka, goaz 361 00:26:40,800 --> 00:26:45,720 eta etiketa bat aurkitzeko ari gara, duten lehenengo elementua aurkitzeko. 362 00:26:45,720 --> 00:26:49,937 Gogoratu, .css array bat itzultzen, beraz, ezin duzu besterik ez da gisa sartzeko da. 363 00:26:49,937 --> 00:26:51,520 Lehen elementua aurkitu behar gara. 364 00:26:51,520 --> 00:26:56,430 Bat array bat bada ere elementua, sintaxia hau erabili ahal izango duzu, 365 00:26:56,430 --> 00:26:58,800 eta, ondoren, tira href atributu. 366 00:26:58,800 --> 00:27:01,800 >> Beraz, hau lehenago egin dugu. 367 00:27:01,800 --> 00:27:04,440 Beraz, hau ezaguna begiratu behar. 368 00:27:04,440 --> 00:27:14,330 Eta beraz, orain array bat dugu bideak izeneko gure loturak guztien 369 00:27:14,330 --> 00:27:16,590 guk erabili nahi du. 370 00:27:16,590 --> 00:27:21,350 Beraz, array hau izan badugu hori erabili nahi dugu bide, 371 00:27:21,350 --> 00:27:26,840 gero guk bakoitzeko elementu bat sor dezakezu orri horietako denean orria zabalduko dugu. 372 00:27:26,840 --> 00:27:31,150 Beraz gisa ere ikusi dugu sintaxia aurretik, non 373 00:27:31,150 --> 00:27:37,450 kate interpolazio egiten bidearekin Hemen, beraz, sintaxia besterik bidea da. 374 00:27:37,450 --> 00:27:41,450 Eta hau aipa nitzake aldakorreko edozein arbitrarioak izena. 375 00:27:41,450 --> 00:27:43,070 >> Hau garrantzitsua da. 376 00:27:43,070 --> 00:27:46,650 Hau array da egingo duzun izan elementu bakoitzean sartzeko. 377 00:27:46,650 --> 00:27:52,400 Baina orduan bidea esan bideak duzun, honen bideak elementu bakoitzarentzat esan, 378 00:27:52,400 --> 00:27:55,150 bidea deitu, eta erabiltzen duten. 379 00:27:55,150 --> 00:27:59,266 Hau da, funtsean, zuk bezala egiten loop eta i int erabiltzen dituzu. 380 00:27:59,266 --> 00:28:04,000 Beraz, bidea bezala tratatzeko dezakezu aldagai horren Incrementing. 381 00:28:04,000 --> 00:28:07,820 >> Eta gero, horietako bakoitzerako, lotura horiek bakoitzaren sartu. 382 00:28:07,820 --> 00:28:11,710 Egiten ari gara, gordetzeko elementua orri batean dagoelako, beraz orri berri bat aldi bakoitzean sortzen ari gara 383 00:28:11,710 --> 00:28:13,330 bertan sartzeko dugu. 384 00:28:13,330 --> 00:28:20,560 Eta gero, orri berri horren barruan, aurkitu span.postingtitletext, span.price, 385 00:28:20,560 --> 00:28:22,240 eta ondoren, atal # postingbody. 386 00:28:22,240 --> 00:28:28,430 Dagoeneko estalita dugu atal # postingbody Atzera begiratu deskribapen dugu. 387 00:28:28,430 --> 00:28:34,890 >> Beraz Craigslist post ikusten joan ahal izango dugu, besterik ez duzu izenburua begiratuz gero, 388 00:28:34,890 --> 00:28:38,810 Hemen ikusten duzun arte, span postingtitletext. 389 00:28:38,810 --> 00:28:41,390 Eta horregatik ez da. 390 00:28:41,390 --> 00:28:49,120 Eta gero, prezioa, ahal duzun Bera eskuratzeko span prezioa klase batera. 391 00:28:49,120 --> 00:28:54,480 >> Beraz, agian, halaber, guk URL gorde nahi. 392 00:28:54,480 --> 00:28:58,580 Beraz, besterik ez dugu exekutatu honetan Berriro, gorde array batean, 393 00:28:58,580 --> 00:29:01,150 bilatzen ari zaren bada delako Craigslist, zaren 394 00:29:01,150 --> 00:29:05,290 seguruenik modu bat nahi du, bada interesatzen zaizun zerbait ikusten duzu, 395 00:29:05,290 --> 00:29:06,620 go gune horretan itzuli. 396 00:29:06,620 --> 00:29:10,480 Beraz, nahi besterik ez duzu gorde erreferentziak mesedetan for URL. 397 00:29:10,480 --> 00:29:13,840 398 00:29:13,840 --> 00:29:19,630 >> Hau da, besterik gabe, funtsean begizta for sintaxia beste. 399 00:29:19,630 --> 00:29:26,360 Baina oraingoz ez dut paths.each ordez indizea bideak ere bidea da. 400 00:29:26,360 --> 00:29:31,280 Eta sintaxia hau Ruby da For bidea da up zer egin dugu hemen, 401 00:29:31,280 --> 00:29:33,920 Elementu bakoitzaren aldagai bat deklaratzen. 402 00:29:33,920 --> 00:29:38,540 Eta indize bezala jokatzen du C i etorri begiztak. 403 00:29:38,540 --> 00:29:41,280 Beraz, gogora ditzakezula indizean zer den. 404 00:29:41,280 --> 00:29:45,200 >> Beraz, hemen baino ez da komenigarria gauza txiki 405 00:29:45,200 --> 00:29:46,950 denean arraspa exekutatzen ari zara. 406 00:29:46,950 --> 00:29:50,580 Zuk ehunka orrialde scraping bazabiltza, Ziur ari dela ez da zintzilik egiteko, 407 00:29:50,580 --> 00:29:53,320 Irteerako izango da, Orri hau dut sartzean, 408 00:29:53,320 --> 00:29:55,960 eta ziur dagoela egiteko ez da oraindik ere jarraitzen du. 409 00:29:55,960 --> 00:29:59,250 Baina gure helburuetarako, zeren ez da ehun bat elementu, 410 00:29:59,250 --> 00:30:08,000 Horietako hiru sartzeko noa ez dugu, beraz, denbora agortua hemen. 411 00:30:08,000 --> 00:30:13,040 >> Baina iritsi aurretik hori dugu, besterik ez naiz Benetan azkarra erakusteko joan, 412 00:30:13,040 --> 00:30:16,940 Den izenburua irteera egingo dut, prezioa, azalpena eta URL 413 00:30:16,940 --> 00:30:19,600 Hori scraped Nik loturak bakoitzeko. 414 00:30:19,600 --> 00:30:23,720 Eta gero, hau da, besterik gabe, CSV liburutegian sintaxia. 415 00:30:23,720 --> 00:30:25,240 CSV bat irekitzean. 416 00:30:25,240 --> 00:30:27,070 Hau da, zer deitu dut joan. 417 00:30:27,070 --> 00:30:29,430 Ireki idazketa egin. 418 00:30:29,430 --> 00:30:33,830 Eta gero CSV fitxategia izango dela sartu guztia idatz zaren. 419 00:30:33,830 --> 00:30:37,800 Hau besterik behatu txeke bat da izan abian da jakin me. 420 00:30:37,800 --> 00:30:41,240 Eta hau da nire behatu check Hori bai burutu zen jakiteko. 421 00:30:41,240 --> 00:30:46,670 Beraz izenburua jarri dut ilara batean sartu CSV, prezioa, URL, deskribapena, 422 00:30:46,670 --> 00:30:49,420 guztiak CSV errenkaden sartu. 423 00:30:49,420 --> 00:30:53,410 >> Beraz, joan ginen eta bada run da gaur egun hau eta besterik ez dut 424 00:30:53,410 --> 00:31:04,710 ziurtatu dudala salbatu it Nik ordez ren besterik irteera terminalera, 425 00:31:04,710 --> 00:31:09,750 CSV bat eduki behar dugu Fitxategi horren ekoiztu. 426 00:31:09,750 --> 00:31:13,500 Hemen ikusi ahal CSV dugu Fitxategi horren sortuak direla. 427 00:31:13,500 --> 00:31:19,330 Hau da irteera da Scape duten ran dut. 428 00:31:19,330 --> 00:31:23,030 Hemen ikusten duzun bezala, accessing 0 orria, 1, 2, 3. 429 00:31:23,030 --> 00:31:27,400 Hauek izenburuak dira, prezioak, deskribapenak. 430 00:31:27,400 --> 00:31:31,710 Eta begiratzen dugu CSV honetan bada sortzen dugun fitxategia, 431 00:31:31,710 --> 00:31:35,700 ikusi ahal izango duzu hemen bere Outputted. 432 00:31:35,700 --> 00:31:40,350 Hau ez da, Excel, beraz, ez da lerro eta zutabe formatuan jaso. 433 00:31:40,350 --> 00:31:45,140 Baina imajinatu nola formateatuta liteke. 434 00:31:45,140 --> 00:31:47,740 >> CSV komaz bereizitako balioak nabarmentzen. 435 00:31:47,740 --> 00:31:50,090 Beraz, ezin duzu imajinatu honek ilara bat izan liteke. 436 00:31:50,090 --> 00:31:54,700 Eta koma bakoitzak litzateke Aparteko zutabe bat adierazten dute. 437 00:31:54,700 --> 00:32:00,010 Just caution-- hitz bakar bat Batzuetan Oraindik 438 00:32:00,010 --> 00:32:02,260 Gauzak scraping komak asko batekin. 439 00:32:02,260 --> 00:32:05,100 Beraz, zuk irteera bazabiltza CSV fitxategi bat da, 440 00:32:05,100 --> 00:32:10,340 Ez irteera zitekeen du modu uste duzu. 441 00:32:10,340 --> 00:32:16,770 >> Beraz, hori da, funtsean, guztiek Han oinarrizko HTML scraping behar da 442 00:32:16,770 --> 00:32:20,110 Nokogiri duten orriak. 443 00:32:20,110 --> 00:32:26,000 >> Beraz, internet izakia berritzailea da, etorri izan gisa sortu 444 00:32:26,000 --> 00:32:33,220 gehiago automatiko eta GUI batera Bertsio, nahiz eta ez da segurua 445 00:32:33,220 --> 00:32:35,540 hainbat webgune scraping bertsioa. 446 00:32:35,540 --> 00:32:39,060 Eta gure helburuetarako Erakutsiz igo behar dut 447 00:32:39,060 --> 00:32:42,920 Chrome luzapena Kimono deitzen. 448 00:32:42,920 --> 00:32:46,690 Eta hori guztia egin behar duzun da nabigatuz to Labordeta nahi duzun orrialdera. 449 00:32:46,690 --> 00:32:48,590 Ezkutatu interes-eremu batean duzu. 450 00:32:48,590 --> 00:32:51,510 Eremuak kalibratu, Automatikoki izango delako 451 00:32:51,510 --> 00:32:54,360 antzemateko zer pentsatzen egon scraping nahi duzu, 452 00:32:54,360 --> 00:32:56,280 eta, ondoren, API bat sortu besterik ez duzu. 453 00:32:56,280 --> 00:33:03,700 >> Beraz on frogatu bagenitu den Craigslist, egia esan, ez litzateke lan. 454 00:33:03,700 --> 00:33:08,290 Eta hau da, zer ari nintzen atzera egingo Ez da sendo gisa ari buruz esaten. 455 00:33:08,290 --> 00:33:10,320 Arazoak API sortzen ditu. 456 00:33:10,320 --> 00:33:13,400 Baina manifestazio gisa zer egingo lukeen hura, 457 00:33:13,400 --> 00:33:17,460 Chrome luzapena instalatu baduzu, egiten duzun guztia egin klik. 458 00:33:17,460 --> 00:33:21,750 Orrialde Kimonofies ditu, eta ondoren, Ezkutatu script nahi duzun gauza on. 459 00:33:21,750 --> 00:33:24,480 >> Beraz, gainean klik egin beharko banu hori, nabarmendu litzateke 460 00:33:24,480 --> 00:33:28,130 zer pentsatzen nahi dut horri duten off scraping. 461 00:33:28,130 --> 00:33:33,660 Beraz, agian deitu nion zerrendak honetan. 462 00:33:33,660 --> 00:33:36,430 Hau da, zenbat gauza aukeratu dut. 463 00:33:36,430 --> 00:33:43,810 Eta besterik ez dut, baieztatu daiteke edo batzuk ukatzeko Beste iradoki zerrendak 464 00:33:43,810 --> 00:33:49,600 eskuratu gehitzeko zer scraped egingo da. 465 00:33:49,600 --> 00:33:52,330 >> Beraz, orain ikusi ahal izango dugu, ez da Ehun elementu hautatu. 466 00:33:52,330 --> 00:33:58,060 Beste esparru izan nahi dut bada dudala halaber, hau da, honekin lotutako Labordeta, 467 00:33:58,060 --> 00:34:02,540 esan prezioa Labordeta nahi dut baita, ondoren, gauza bera egin ahal izango dut. 468 00:34:02,540 --> 00:34:06,190 469 00:34:06,190 --> 00:34:11,550 >> Beraz, hona hemen nola egin erakustaldia askoz gutxiago sendoa, orain delako 470 00:34:11,550 --> 00:34:15,050 Hirian gogoratuz ordez prezioaren besterik ez da egin nahi dut. 471 00:34:15,050 --> 00:34:16,989 Eta, orain, nik jaso zuen 200 gauzak. 472 00:34:16,989 --> 00:34:19,880 Atzera egin dezakezu eta ezabatu. 473 00:34:19,880 --> 00:34:21,449 Saiatu zaitezke. 474 00:34:21,449 --> 00:34:24,250 Baina bermerik. 475 00:34:24,250 --> 00:34:29,909 Hau da, nola honetan lan egiten du batzuetan. 476 00:34:29,909 --> 00:34:32,969 Hemen ikusten duzun bezala, orain 96 dio eman ezazu hemen. 477 00:34:32,969 --> 00:34:37,000 Honez bildu loturak gehiena , Labordeta nahi duzula, baina ez 478 00:34:37,000 --> 00:34:39,280 nahitaez guztiak. 479 00:34:39,280 --> 00:34:43,909 >> Beste Kimono of tresna erabilgarria izan arren da Ezaugarriak aurreratua dezakezu joan 480 00:34:43,909 --> 00:34:47,980 Hemen, joan aurreratua den, eta erakutsiko dizu 481 00:34:47,980 --> 00:34:53,139 berezia matxura Bide HTML sartzeko 482 00:34:53,139 --> 00:34:54,909 to Labordeta nahi duzun etiketa. 483 00:34:54,909 --> 00:35:01,450 Beraz, zerrendak, begiratuz gero hemen, sartzen zarenean div p span span bat izanez gero, 484 00:35:01,450 --> 00:35:06,030 Egia esan, ezin duzu erabili hau zure Nokogiri kodea ere, 485 00:35:06,030 --> 00:35:10,780 non span.txt genuen aurretik zerrendak bakoitzaren sartzeko. 486 00:35:10,780 --> 00:35:13,270 Besterik ez dut testua nahi baduzu Zerrendak barruan, 487 00:35:13,270 --> 00:35:18,950 Ahal nuen sarrerako div espazio p Espazio span espazioa span espazio bat, 488 00:35:18,950 --> 00:35:21,570 eta gauza bera lortzen litzateke. 489 00:35:21,570 --> 00:35:26,320 Eta horiek egiteko interesa duten adierazpen erregularrak erabiliz, 490 00:35:26,320 --> 00:35:31,670 halaber, eman duzu erregularra gertatzen da adierazpen sarrerari kate moduko 491 00:35:31,670 --> 00:35:34,900 gauzak aurkitzeko aurkitzeko saiatzen ari zaren. 492 00:35:34,900 --> 00:35:44,130 >> Beraz, ez dago beste cool Ezaugarri da Kimono non Paginate dezakezu, 493 00:35:44,130 --> 00:35:47,780 Hau ez da bakarrik ezin dut Labordeta Orri honen emaitzak, 494 00:35:47,780 --> 00:35:50,890 Ezin dut pixka honetan klik egin botoia, Orrikapen, 495 00:35:50,890 --> 00:35:55,580 botoia zehaztu lukeen hartu me hurrengo orria, 496 00:35:55,580 --> 00:35:59,500 eta, gero, aski izango da badakiela Hurrengo orrira da, batetik bestera joateko dezakegu, 497 00:35:59,500 --> 00:36:04,120 eta, ondoren, Labordeta the-- luze bezain guztia noski formatua bera izango duenez 498 00:36:04,120 --> 00:36:06,110 lotura horiek guztiak Scape baita. 499 00:36:06,110 --> 00:36:15,230 >> Beraz Kimono ez duelako nahi den Craigslist batera lan egin, zer egin dugu 500 00:36:15,230 --> 00:36:19,790 da Kimonofied Nik Harvard Crimson du. 501 00:36:19,790 --> 00:36:29,380 Bota dut out moduko batzuk goi Artikulu nabarmen, berretsi hemen. 502 00:36:29,380 --> 00:36:33,090 Esan horiek guztiak. 503 00:36:33,090 --> 00:36:35,830 API hau konpilatu dut you garaiari aurre egiteko. 504 00:36:35,830 --> 00:36:38,990 Baina bestela, zer egingo duzu zuk besterik ez litzateke Listo. 505 00:36:38,990 --> 00:36:40,940 Zure API Xehetasunak Sartu. 506 00:36:40,940 --> 00:36:45,260 Ezarri bai arakatzea automatikoki edo eskuzko. 507 00:36:45,260 --> 00:36:48,460 Beraz eguneratu ahal izango duzu zure Datu 15 minututik behin, 508 00:36:48,460 --> 00:36:50,330 astero, egunero, nahi duzuna. 509 00:36:50,330 --> 00:36:51,160 Izena zure API. 510 00:36:51,160 --> 00:36:52,790 Sortu API. 511 00:36:52,790 --> 00:36:58,460 Zure prestazioa, sortu dut Crimson Azalean API dagoeneko. 512 00:36:58,460 --> 00:37:02,480 >> Beraz, sortu besterik ez duzu bat Kimono buruzko kontua, eta hura 513 00:37:02,480 --> 00:37:06,240 Zure APIak guztiak gordeko dituzu. 514 00:37:06,240 --> 00:37:10,330 Beraz, funtsean, hori da dena zure larri ibiliko ezberdinak bereizi. 515 00:37:10,330 --> 00:37:18,250 >> Hortaz, hona begiratzen badugu, hau da, iritziak bildu dut loturak. 516 00:37:18,250 --> 00:37:21,290 Hauek nabarmendu hori bildu dut loturak. 517 00:37:21,290 --> 00:37:24,090 Eta horiek dira gehien irakurri du hori bildu dut loturak 518 00:37:24,090 --> 00:37:27,120 berrienak API scape honetatik. 519 00:37:27,120 --> 00:37:30,790 >> Beraz, zuk hemen ikusi ahal bada, hauek nabarmendu beharko litzateke, 520 00:37:30,790 --> 00:37:34,130 horien iritziak izango litzateke, Adibide honetan bertan, 521 00:37:34,130 --> 00:37:38,150 Guztiak ditudan konbinatuak horiek bilduma bat sartu. 522 00:37:38,150 --> 00:37:42,780 Baina zuk play inguruan besterik ez bada, harekin Pixka bat, banatu dezakezu eman 523 00:37:42,780 --> 00:37:45,090 eta zatitzea ordea luze jo nahi dituzu 524 00:37:45,090 --> 00:37:47,520 zertxobait desberdinak formatua bezala. 525 00:37:47,520 --> 00:37:51,320 >> Just inguruan play honekin, arakatzea eratu, downsides bat 526 00:37:51,320 --> 00:37:58,120 da zuk bakarrik arakatu ireki 25 orrialde aldi berean. 527 00:37:58,120 --> 00:38:00,430 Hori mugatuz faktore bat. 528 00:38:00,430 --> 00:38:03,060 Baina hemen, ezarri baduzu Eskuliburu arakatzea den, hau 529 00:38:03,060 --> 00:38:06,100 da, nola esan dezakezu Zure datuak eguneratu. 530 00:38:06,100 --> 00:38:11,010 Eta hemen zure arakatze-historia ikusi ahal izango duzu Denetik arakatzen duzunean. 531 00:38:11,010 --> 00:38:16,000 Eta zuk mutil atzera egin ahal izango du, lehenengo saioa hasi, play inguruan modu ezberdinak guztiekin 532 00:38:16,000 --> 00:38:20,340 Alda eta zure datuak erabili ahal izango duzu. 533 00:38:20,340 --> 00:38:24,580 >> Kimono ezar daiteke izateko loturetan loturak Labordeta. 534 00:38:24,580 --> 00:38:29,700 Eta horrela egin nahi duzun lehenbiziko arabera loturen zerrenda bat astintzen, 535 00:38:29,700 --> 00:38:35,390 eta, ondoren, API hori egiteko erabili ahal salto off puntu API beste bat 536 00:38:35,390 --> 00:38:36,710 scripta sortu beharko duzu. 537 00:38:36,710 --> 00:38:42,040 Baina hori baino konplexuagoa zer ari gara gaur sartuko. 538 00:38:42,040 --> 00:38:44,270 >> Beraz, hori Kimono da. 539 00:38:44,270 --> 00:38:46,980 Egingo pros buruz hitz egiten dugu eta Nokogiri eta Kimono txarrez. 540 00:38:46,980 --> 00:38:50,380 >> Nokogiri, benetan azkarra da. 541 00:38:50,380 --> 00:38:51,640 Oso erraza da probatu da. 542 00:38:51,640 --> 00:38:55,910 Besterik ezin duzu ezer jartzen den kontsola, konfiguratzeko erraza. 543 00:38:55,910 --> 00:39:00,400 Zehazki zer erabaki dezakezu Labordeta eta denda nahi duzun. 544 00:39:00,400 --> 00:39:02,060 Ez daude orrialde mugak. 545 00:39:02,060 --> 00:39:08,010 Benetan den bezalakoa Labordeta erabiltzen dut 1800 Hegoafrikako eskola webguneak 546 00:39:08,010 --> 00:39:10,870 praktika bat dagoela nuen postak. 547 00:39:10,870 --> 00:39:16,060 >> Beraz, hori da posible, praktika onenak arren zatitu gidoi izango litzateke. 548 00:39:16,060 --> 00:39:19,310 Huts egiten du, bada, ondoren, delako ez duzu ezer lortuko. 549 00:39:19,310 --> 00:39:22,790 Baina ez baduzu, ehun bat, agian, garai batean 200 orrialde, 550 00:39:22,790 --> 00:39:27,840 orduan aukera izan dezazun gutxienez dela zatika lortzean, batez ere, 551 00:39:27,840 --> 00:39:30,280 internet txarra badaukazu. 552 00:39:30,280 --> 00:39:32,720 >> Zoritxarrez da bakarrik Labordeta HTML. 553 00:39:32,720 --> 00:39:35,190 Beraz baldin baduzu automatikoki kargatzen pages-- 554 00:39:35,190 --> 00:39:39,480 eta erakutsi dut adibide bat Kayak segundo bat bezala 555 00:39:39,480 --> 00:39:42,270 Nokogiri zoritxarrez Ezin Labordeta hori. 556 00:39:42,270 --> 00:39:45,700 >> Baina Kimono ere erraza da erabiltzeko. 557 00:39:45,700 --> 00:39:48,330 Ikusi duzun bezala, funtsean da puntu bat eta klik. 558 00:39:48,330 --> 00:39:50,260 Javascript Labordeta daiteke. 559 00:39:50,260 --> 00:39:53,790 Tamalez, gehienez da zenbat orri Labordeta dezakezu. 560 00:39:53,790 --> 00:39:55,710 Batzuetan pixka bat da gogor konfiguratzeko. 561 00:39:55,710 --> 00:39:57,240 Nahastu egingo du. 562 00:39:57,240 --> 00:40:00,920 Baina zalantzarik gabe, Zerbait kontuan hartu beharreko 563 00:40:00,920 --> 00:40:05,930 Ez duzu bat izan nahi baduzu mantengarriak Labordeta super sendoa. 564 00:40:05,930 --> 00:40:09,010 Lortu besterik nahi ez baduzu Dena orri baten off azkar, 565 00:40:09,010 --> 00:40:10,970 Orduz Kimono da benetan Erabiliko tresna ona. 566 00:40:10,970 --> 00:40:16,490 Eta, aipatu dudan bezala, ez da Kimono ezaugarririk aurreratuena 567 00:40:16,490 --> 00:40:19,260 Hori erakusten du nola HTML berezia sartzeko 568 00:40:19,260 --> 00:40:24,210 elementu, hau da, super erabilgarria are ari zaren Nokogiri lan egiten bada. 569 00:40:24,210 --> 00:40:30,370 >> Beraz, bada, joan Kayak Gunean dugu topo, Adibidez, ikusi ahal izango duzu, ez is-- 570 00:40:30,370 --> 00:40:31,750 edo, agian, ezin duzu ikusi. 571 00:40:31,750 --> 00:40:38,910 Baina erakutsi dut URL bada Kayak egiteko, Hau ez litzateke, besterik gabe, URL iturriaren da. 572 00:40:38,910 --> 00:40:43,800 Hau da, URL izanik, aldez aurretik edozein dela Javascript gidoiak aldatutakoa 573 00:40:43,800 --> 00:40:45,350 du direla gertatzen. 574 00:40:45,350 --> 00:40:52,420 Eta nik beste itxura joan elementua ikuskatzeko. 575 00:40:52,420 --> 00:40:55,940 >> Beraz, bidez joan behar duzu, eta nahi izanez gero datoz bat sortu Inspect Element 576 00:40:55,940 --> 00:41:00,340 iturburu-kodea, kode, da benetan ezberdina izango da. 577 00:41:00,340 --> 00:41:05,640 Eta hori da, funtsean, zergatik Nokogiri Ezin Labordeta automatikoki kargatzen guneak. 578 00:41:05,640 --> 00:41:08,810 Nokogiri dagoelako URL iturriaren astintzen, 579 00:41:08,810 --> 00:41:16,310 Kimono da benetan, berriz, Zer Oraindik funtsean scraping 580 00:41:16,310 --> 00:41:18,260 Aukeratu Element ere ikusten. 581 00:41:18,260 --> 00:41:23,880 >> Beraz, joan I bidez eta badut saiatu eta Kimonofy Kayak, 582 00:41:23,880 --> 00:41:26,600 Benetan dut joan bidez eta hautatu prezioan. 583 00:41:26,600 --> 00:41:32,360 Eta pixka bat zailagoa da, eta kasu honetan, ez da 584 00:41:32,360 --> 00:41:36,600 Egia esan, prezio hori ikusita Horietaz ezberdinak bezala. 585 00:41:36,600 --> 00:41:41,110 Beraz, berriz configure-- dezakezu edo hau da, ez ziren automatikoki kargatzen bada, 586 00:41:41,110 --> 00:41:43,620 Nokogiri konfiguratzeko ahal duzu horiek guztiak lortzeko. 587 00:41:43,620 --> 00:41:48,230 >> Formatua apur bat delako zerrenda honetan ezberdinak 588 00:41:48,230 --> 00:41:51,280 Da aldean gainerako arauen Horietako bat, eta hemen ikusi ahal izango duzu 589 00:41:51,280 --> 00:41:54,830 egia esan, desagertu eta Hautatutako hegaldi prezioak du. 590 00:41:54,830 --> 00:42:01,200 Agian hautatu nahi dut hegaldiaren ordua baita. 591 00:42:01,200 --> 00:42:04,700 Eta bidez joan ahal izango dut eta Sort konfiguratzea. 592 00:42:04,700 --> 00:42:06,950 Ez dut nahi hori. 593 00:42:06,950 --> 00:42:10,200 Besterik hurrengo hegaldia ko denbora egin nahi dut. 594 00:42:10,200 --> 00:42:17,030 Eta gero, horietako pare baten ondoren igaro, irudi daukala. 595 00:42:17,030 --> 00:42:19,080 Beraz Kimono en nahiko azkarrak. 596 00:42:19,080 --> 00:42:21,900 Besterik ez da, ez da nahiko sendoa da. 597 00:42:21,900 --> 00:42:26,710 >> Badira beste batzuk alternatibak hori erabili ahal izango duzu. 598 00:42:26,710 --> 00:42:31,600 Eta hemen erakutsi dut haiekin. 599 00:42:31,600 --> 00:42:35,790 Zara gehiago eroso bada Python, Ruby ordez, agian, 600 00:42:35,790 --> 00:42:39,290 Han liburutegia bat da Beautiful zopa izeneko. 601 00:42:39,290 --> 00:42:40,430 Hori erabili ahal izango duzu. 602 00:42:40,430 --> 00:42:42,270 Oso Nokogiri antzekoa da. 603 00:42:42,270 --> 00:42:44,620 Ezaugarri batzuk gehiago ditu. 604 00:42:44,620 --> 00:42:52,160 HTML etiketa bat aurkitu ahal izango duzu, eta ondoren, mugitu gora edo mugitzeko aldeetara. 605 00:42:52,160 --> 00:42:54,690 >> Ez da, PyQt. 606 00:42:54,690 --> 00:42:57,820 Hau benetan Labordeta dinamikoa guneak, ordenatzeko delako 607 00:42:57,820 --> 00:43:02,540 izan nahi duten WebKit da ez benetan gabe nabigatzailean a 608 00:43:02,540 --> 00:43:03,670 nabigatzaileak izateaz. 609 00:43:03,670 --> 00:43:07,490 Beraz, dena itxarotea litzateke Javascript lehen kargatu, eta, ondoren, 610 00:43:07,490 --> 00:43:09,560 joan eta saiatu eta Labordeta gunean. 611 00:43:09,560 --> 00:43:13,560 >> Ruby jarraitu nahi baduzu, Maila Nokogiri tik gora joan daiteke. 612 00:43:13,560 --> 00:43:17,650 Capybara erabil ditzakezu Poltergeist wrapper bat. 613 00:43:17,650 --> 00:43:22,910 Eta hau, benetan funtsean gauza bera 614 00:43:22,910 --> 00:43:26,610 hau da PyQt, gisa WebKit bat da. 615 00:43:26,610 --> 00:43:29,610 Itxaroten jartzen du erabiltzaileen eskura Javascript lehen kargatu. 616 00:43:29,610 --> 00:43:33,340 Inguruan fiddle baduzu harekin nahikoa, daiteke, nahiz eta lortu nahi gauzak klikatu. 617 00:43:33,340 --> 00:43:42,780 >> Beraz, ez dago lotura bat egin behar izanez gero Ez da href klasiko bat non 618 00:43:42,780 --> 00:43:46,350 bidea erraz, eta JavaScript gauza batzuk detektatzen da 619 00:43:46,350 --> 00:43:49,490 Klik batean, benetan egin dezakezu. 620 00:43:49,490 --> 00:43:53,430 Gehiago popular liburutegian Erabiltzaile bat simulatu 621 00:43:53,430 --> 00:43:56,390 Ikusteko Javascript-a da, hau da PhantomJS da. 622 00:43:56,390 --> 00:44:01,010 Hau, jakina, Labordeta dinamikoa guneak hau da, funtsean, delako 623 00:44:01,010 --> 00:44:04,270 Chrome itxurak Erabiltzaile interfazea gabe. 624 00:44:04,270 --> 00:44:09,970 >> Eta gero, jakina da gehien sendoa, baina aukera geldoena, 625 00:44:09,970 --> 00:44:13,260 Selenium nabigatzailean automatizazio bat da. 626 00:44:13,260 --> 00:44:15,550 Eta zoritxarrez, Oraindik ez duzu behar izango da 627 00:44:15,550 --> 00:44:19,770 Horretarako zure CS50 IDE barruan gai. 628 00:44:19,770 --> 00:44:24,140 Funtsean zer delako du da bota ezazu zure Chrome, 629 00:44:24,140 --> 00:44:27,090 Firefox, edozein dela nabigatzailea Erabili nahi duzula, 630 00:44:27,090 --> 00:44:32,570 eta pistak da, agian, zure saguaren mugimendua, idazten duzuna, 631 00:44:32,570 --> 00:44:35,170 eta antzeko zerbait Prozesu hau automatizatzen. 632 00:44:35,170 --> 00:44:42,070 Beraz moduko bat garatu zen Webgune automatizazio azterketa tresna. 633 00:44:42,070 --> 00:44:45,910 Hala ere, jende asko erabili Selenium webguneak Labordeta 634 00:44:45,910 --> 00:44:49,990 Besterik duten dute bat Zailtasun asko scraping 635 00:44:49,990 --> 00:44:53,700 beste, tresnak azkarrago horietako batzuk. 636 00:44:53,700 --> 00:44:57,530 >> Beraz, ez dut lortu web scraping egiteko guztiak. 637 00:44:57,530 --> 00:44:58,090 Ondo pasa. 638 00:44:58,090 --> 00:45:01,762 639 00:45:01,762 --> 00:45:02,680 >> Ikusleak: Galdera. 640 00:45:02,680 --> 00:45:04,016 >> ROBERT KRABEK: Bai. 641 00:45:04,016 --> 00:45:12,840 >> Ikusleak: Ba al dago hash mekanismo bat Webgunean beraz, funtsean, ezin duzu 642 00:45:12,840 --> 00:45:14,207 pasa geroago. 643 00:45:14,207 --> 00:45:15,040 ROBERT KRABEK: Bai. 644 00:45:15,040 --> 00:45:21,530 Beraz jarri dugu, gure Adibidez, biak, 645 00:45:21,530 --> 00:45:24,980 Webgune osoa jarri dugu dok sartu. 646 00:45:24,980 --> 00:45:31,260 Eta, beraz, ezin duzu benetan bakarrik hartu du doc aldakorra eta idazteko fitxategia batera. 647 00:45:31,260 --> 00:45:35,490 Beraz, nahi dut, eta ahal nuen idatzi ezazu HTML formatuan, 648 00:45:35,490 --> 00:45:39,280 eta gero ordez erabiliz OpenURI eta cURL eskaera bat, 649 00:45:39,280 --> 00:45:43,520 ondoren, besterik gabe ezin ireki dut doc HTML eta gero bilatu horretarako. 650 00:45:43,520 --> 00:45:47,960 >> Ikusleak: Baina ezin duzu zaintzeko online esperientzia moduko 651 00:45:47,960 --> 00:45:48,930 offline egiten duzun bitartean. 652 00:45:48,930 --> 00:45:51,013 Adibidez. zaudenean hainbat orduz hegan, 653 00:45:51,013 --> 00:45:54,070 Funtsean artxiboa nahi dut Webgune osoan. [INAUDIBLE] 654 00:45:54,070 --> 00:45:58,780 >> ROBERT KRABEK: Bai, hori da exactly-- beraz, literalki zer da hori egiten 655 00:45:58,780 --> 00:46:03,010 da gertatzen dena hartzen da Hori URL honetan izango litzateke. 656 00:46:03,010 --> 00:46:11,280 Beraz cURL zuena dugu, bada, da HTML hori guztia hartu, 657 00:46:11,280 --> 00:46:14,590 eta nik gordetzeko da the Doc aldakorreko barruan. 658 00:46:14,590 --> 00:46:17,290 Beraz, ondoren egin ahal izango duzuna Doc egin nahi duzun. 659 00:46:17,290 --> 00:46:18,575 Irteera duen fitxategi bat ahal duzun. 660 00:46:18,575 --> 00:46:19,950 Ikusleak: Baina ez da lotuta sortu. 661 00:46:19,950 --> 00:46:20,780 Ez da dinamikoa. 662 00:46:20,780 --> 00:46:22,770 Ez da errekurtsiboak, ezta? 663 00:46:22,770 --> 00:46:24,016 Ba al dakizue zer esan nahi dut? 664 00:46:24,016 --> 00:46:28,359 Funtsean moduko egiaztapen bat saiatzen ari naiz nire disko gogorrean webgune osoan 665 00:46:28,359 --> 00:46:31,150 beraz, ezin izan dut, funtsean, gauza bera egin Hainbat ordu internet gabe. 666 00:46:31,150 --> 00:46:32,025 >> ROBERT KRABEK: Eskuin. 667 00:46:32,025 --> 00:46:37,140 I had-- Beraz, bada, beraz, non dago nire fitxategia I / O? 668 00:46:37,140 --> 00:46:47,766 Beraz, hau fitxategia I / O da. Beraz, esan beharrean Hori, craigslist.html hau deitu nion. 669 00:46:47,766 --> 00:46:52,620 670 00:46:52,620 --> 00:46:53,940 Hori zabalduko nuke. 671 00:46:53,940 --> 00:46:59,020 Nuke jartzen dok sartu. 672 00:46:59,020 --> 00:47:00,470 Fitxategia itxi dut. 673 00:47:00,470 --> 00:47:05,410 Eta gero, besterik ez delako CS50 IDE hodeia da, hori dena delakoa. 674 00:47:05,410 --> 00:47:07,710 I hemen joan daiteke. 675 00:47:07,710 --> 00:47:09,320 Fitxategia deskargatu ahal izango dut. 676 00:47:09,320 --> 00:47:11,830 Eta gero nire disko gogorrean izango litzateke. 677 00:47:11,830 --> 00:47:13,930 Beraz, egin dezakezu horrela. 678 00:47:13,930 --> 00:47:18,830 Edo Oraindik etxean bada, ez erabiliz CS50 IDE, Sublime edo antzeko zerbait, 679 00:47:18,830 --> 00:47:21,900 hau da, nahiz eta errazagoa da, zeren hau da guztien eskura lokalean, 680 00:47:21,900 --> 00:47:23,020 Ez Internetera lotuta. 681 00:47:23,020 --> 00:47:24,720 >> Ikusleak: ikusten dut. 682 00:47:24,720 --> 00:47:26,580 Hau bereziki arazo bat da. 683 00:47:26,580 --> 00:47:30,410 Ahal dezazun errekurtsiboki egiten da, beraz, geruzen joan gauza mota sakona? 684 00:47:30,410 --> 00:47:33,801 >> ROBERT KRABEK: karpetak deskargatu ahal izango dut baita, hori bada, zer galdetzen ari zaren. 685 00:47:33,801 --> 00:47:34,426 IKUSLEEN: Bai. 686 00:47:34,426 --> 00:47:39,890 687 00:47:39,890 --> 00:47:41,440 >> ROBERT KRABEK: Cool. 688 00:47:41,440 --> 00:47:43,182