1 00:00:00,000 --> 00:00:12,080 2 00:00:12,080 --> 00:00:13,799 >> JAMES Cuff: Hei, god ettermiddag, alle sammen. 3 00:00:13,799 --> 00:00:14,715 Mitt navn er James Cuff. 4 00:00:14,715 --> 00:00:18,970 Jeg er assisterende dekan for forskning Databehandling her ved Harvard University. 5 00:00:18,970 --> 00:00:24,540 Og i dag kommer jeg til å snakke med deg om hvorfor skala-out computing er avgjørende. 6 00:00:24,540 --> 00:00:26,810 >> Så jeg antar, først opp, hvem er denne fyren? 7 00:00:26,810 --> 00:00:27,750 Hvorfor er jeg her? 8 00:00:27,750 --> 00:00:29,200 Hvorfor får jeg snakke med deg? 9 00:00:29,200 --> 00:00:33,730 Jeg har en bakgrunn i vitenskapelig databehandling og forskning databehandling, 10 00:00:33,730 --> 00:00:38,530 strekker seg tilbake til United Kingdom-- The Wellcome Trust Sanger 11 00:00:38,530 --> 00:00:43,270 Institutt for menneske genome-- og deretter mer nylig i USA 12 00:00:43,270 --> 00:00:50,170 arbeider ved Bred og andre verd læresteder, for eksempel Harvard. 13 00:00:50,170 --> 00:00:53,930 >> Jeg antar det som virkelig betyr er at jeg er en utvinne molekylær bio 14 00:00:53,930 --> 00:00:55,740 fysiker. 15 00:00:55,740 --> 00:01:01,250 Så hvilken rett har jeg fått til å fortelle du om skala-out computing? 16 00:01:01,250 --> 00:01:03,570 Det er et men. 17 00:01:03,570 --> 00:01:09,530 18 år eller så har jeg bare sett den mest dramatiske økninger i skala kompleksitet 18 00:01:09,530 --> 00:01:13,570 og generell effektivitet av datasystemer. 19 00:01:13,570 --> 00:01:18,890 >> Da jeg gjorde min doktorgrad ved Oxford, jeg var ganske spent med en 200 megahertz 20 00:01:18,890 --> 00:01:23,830 Silicon Graphics maskin med 18 gigabyte med lagringsplass og en enkelt CPU. 21 00:01:23,830 --> 00:01:24,910 Tidene har forandret seg. 22 00:01:24,910 --> 00:01:29,860 Hvis du spoler fremover nå, vi spinne over 60.000 CPUer her ved Harvard. 23 00:01:29,860 --> 00:01:32,810 Mange andre organisasjoner spinner mange flere. 24 00:01:32,810 --> 00:01:37,740 >> Det viktige takeaway fra dette er denne skalaen er nå ikke bare uunngåelig, 25 00:01:37,740 --> 00:01:41,910 det har skjedd, og det er kommer til å fortsette å skje. 26 00:01:41,910 --> 00:01:44,760 Så la oss, for et øyeblikk, snill av spole tilbake og snakke veldig raskt 27 00:01:44,760 --> 00:01:50,530 om vitenskap, min favoritt emne, den vitenskapelige metode. 28 00:01:50,530 --> 00:01:53,180 >> Hvis du er å være en vitenskapsmann, du trenger å gjøre noen viktige ting. 29 00:01:53,180 --> 00:01:56,140 Hvis du ikke gjør disse tingene du kan ikke anser deg selv som en vitenskapsmann 30 00:01:56,140 --> 00:02:03,250 og du vil slite å kunne forstå ditt område av disiplin. 31 00:02:03,250 --> 00:02:07,290 >> Så først av alt, vil du formulere spørsmålet ditt, vil du generere hypoteser, 32 00:02:07,290 --> 00:02:09,289 men enda viktigere, du forutsi din results-- 33 00:02:09,289 --> 00:02:13,090 du har en gjetning på hva resultatet vil bli. 34 00:02:13,090 --> 00:02:19,560 Og så til slutt, du teste din hypotese og analysere resultatene. 35 00:02:19,560 --> 00:02:25,460 >> Så denne vitenskapelige metoden er ekstremt viktig i databehandling. 36 00:02:25,460 --> 00:02:28,450 Databehandling av både prediksjon og være i stand til å teste resultatene 37 00:02:28,450 --> 00:02:33,660 er en viktig del av det vi trenger å gjøre i den vitenskapelige metode. 38 00:02:33,660 --> 00:02:37,310 Disse spådommer og testings er de virke to hjørnesteiner 39 00:02:37,310 --> 00:02:42,350 av den vitenskapelige metode, og hver krever de mest betydelige fremskritt 40 00:02:42,350 --> 00:02:45,240 i moderne beregning. 41 00:02:45,240 --> 00:02:51,210 >> De to pilarene i vitenskapen er at av det teoretiske og det av eksperimentering. 42 00:02:51,210 --> 00:02:54,300 Og mer nylig, databehandling er ofte nevnt 43 00:02:54,300 --> 00:02:58,090 som den tredje pilaren i vitenskap. 44 00:02:58,090 --> 00:03:01,440 Så hvis dere studenter ser på dette, du har absolutt ikke noe press. 45 00:03:01,440 --> 00:03:03,960 46 00:03:03,960 --> 00:03:08,720 Tredje pilaren i science-- ingen stor deal-- databehandling, litt viktig. 47 00:03:08,720 --> 00:03:14,000 Så glad for dette er computing del i informatikk kurs 50. 48 00:03:14,000 --> 00:03:16,220 >> Så nok av bakgrunnen. 49 00:03:16,220 --> 00:03:20,226 Jeg ønsker å fortelle deg planen for hva vi kommer til å snakke om i dag. 50 00:03:20,226 --> 00:03:22,870 Jeg kommer til å gå over noen historie. 51 00:03:22,870 --> 00:03:25,250 Jeg kommer til å forklare hvorfor vi kom hit. 52 00:03:25,250 --> 00:03:27,750 Jeg kommer til å snakke om noen av historien til databehandling 53 00:03:27,750 --> 00:03:33,890 her ved Harvard, noen aktiviteter rundt sosiale medier, 54 00:03:33,890 --> 00:03:36,200 grønn things-- veldig lidenskapelig om alle ting 55 00:03:36,200 --> 00:03:43,640 green-- storage-- datamaskin storage-- hvordan kaoset påvirker skala-out ut systemer, 56 00:03:43,640 --> 00:03:45,640 og fordelingssystemer spesielt. 57 00:03:45,640 --> 00:03:48,473 >> Og så kommer jeg til å komme inn på noe av skalaen ut maskinvare som er 58 00:03:48,473 --> 00:03:51,370 nødvendig å kunne gjøre databehandling på skalaen. 59 00:03:51,370 --> 00:03:55,830 Og så til slutt, skal vi bryte opp med noen awesome vitenskap. 60 00:03:55,830 --> 00:04:00,894 >> Så, la oss ta et minutt til se på vår faktiske historie. 61 00:04:00,894 --> 00:04:01,810 Computing har utviklet seg. 62 00:04:01,810 --> 00:04:07,370 Så siden 60-tallet, alle den bort til i dag, 63 00:04:07,370 --> 00:04:11,260 vi har sett i utgangspunktet en endring av omfang fra sentralisert databehandling 64 00:04:11,260 --> 00:04:14,679 å desentralisere databehandling, til samarbeidende og deretter uavhengig 65 00:04:14,679 --> 00:04:15,970 databehandling og rett tilbake igjen. 66 00:04:15,970 --> 00:04:17,709 >> Og la meg kommentere at en liten bit. 67 00:04:17,709 --> 00:04:20,370 Når vi først begynte med datamaskiner, hadde vi stormaskiner. 68 00:04:20,370 --> 00:04:22,824 De var uforholdsmessig dyre enheter. 69 00:04:22,824 --> 00:04:23,990 Alt måtte deles. 70 00:04:23,990 --> 00:04:25,556 Databehandling var komplisert. 71 00:04:25,556 --> 00:04:29,060 Du kan se, det fylte rom og det var operatører og kassetter 72 00:04:29,060 --> 00:04:32,780 og alle slags whirry, clicky, Spinny enheter. 73 00:04:32,780 --> 00:04:39,930 >> Rundt 70- tidlig 80-tallet, begynte du å se en effekt av faksmaskiner. 74 00:04:39,930 --> 00:04:43,620 Så du begynner å se databehandling begynner å dukke tilbake i laboratorier 75 00:04:43,620 --> 00:04:45,880 og bli nærmere deg. 76 00:04:45,880 --> 00:04:49,800 Framveksten av den personlige datamaskin, sikkert 77 00:04:49,800 --> 00:04:57,460 på 80-tallet, begynnelsen av det tiåret, virkelig forandret databehandling. 78 00:04:57,460 --> 00:04:59,570 >> Og det er en ledetråd i tittel, fordi det 79 00:04:59,570 --> 00:05:04,080 ble kalt den personlige datamaskinen, som mente det tilhørte deg. 80 00:05:04,080 --> 00:05:07,630 Slik som utviklingen av databehandling fortsatte, 81 00:05:07,630 --> 00:05:10,530 folk innså at deres personlige Datamaskinen var ikke virkelig stort nok 82 00:05:10,530 --> 00:05:15,020 å være i stand til å gjøre noe av noen fortjeneste, eller betydelig fortrinn, i vitenskapen. 83 00:05:15,020 --> 00:05:17,790 >> Og så folk begynte å utvikle nettverksenhet 84 00:05:17,790 --> 00:05:21,920 drivere for å kunne koble PC-er sammen for å være i stand til å bygge klynger. 85 00:05:21,920 --> 00:05:26,430 Og så dette ble far æra av Beowulf klynge. 86 00:05:26,430 --> 00:05:32,470 Linux eksploderte som en respons til proprietært operativsystem, både kostnader 87 00:05:32,470 --> 00:05:33,650 og kompleksitet. 88 00:05:33,650 --> 00:05:36,530 >> Og så, her vi er i dag, der, enda en gang, vi er 89 00:05:36,530 --> 00:05:40,610 møtt med rom fullt av datamaskin utstyr og evnen 90 00:05:40,610 --> 00:05:44,570 å sveipe ett kredittkort og få tilgang til disse data anlegg, 91 00:05:44,570 --> 00:05:45,290 eksternt. 92 00:05:45,290 --> 00:05:49,680 >> Og så kan du deretter se, i form av historie utvirkende 93 00:05:49,680 --> 00:05:52,180 hvordan vi gjør databehandling i dag, er det definitivt 94 00:05:52,180 --> 00:05:56,090 utviklet seg fra maskin rom fullt av datamaskiner 95 00:05:56,090 --> 00:05:59,160 gjennom noen personlig databehandling hele veien rett tilbake igjen 96 00:05:59,160 --> 00:06:02,400 til maskin rom fullt av datamaskiner. 97 00:06:02,400 --> 00:06:06,620 >> Så dette er min første klynge. 98 00:06:06,620 --> 00:06:10,170 Så 2000, bygget vi en datasystem i Europa 99 00:06:10,170 --> 00:06:13,900 å effektivt kommentere det humane genom. 100 00:06:13,900 --> 00:06:16,521 Det er mye av teknologien oppført på høyre side 101 00:06:16,521 --> 00:06:18,520 det som, dessverre, er ikke lenger med oss. 102 00:06:18,520 --> 00:06:23,460 Det er gått av til stor teknologi på himmelen. 103 00:06:23,460 --> 00:06:26,610 >> Selve maskinen er sannsynligvis tilsvarer noen anstendig bærbare datamaskiner 104 00:06:26,610 --> 00:06:29,020 i dag, og at bare slags viser deg. 105 00:06:29,020 --> 00:06:36,260 Men vi nøye kommentere det menneskelige genom og begge beskyttet det 106 00:06:36,260 --> 00:06:43,190 med denne spesielle papir i Natur fra bekymringene i data 107 00:06:43,190 --> 00:06:45,380 være offentlig eller privat. 108 00:06:45,380 --> 00:06:48,610 >> Så dette er kjempebra, ikke sant? 109 00:06:48,610 --> 00:06:50,280 Så vi har en menneskelige genom. 110 00:06:50,280 --> 00:06:51,510 Vi har gjort databehandling. 111 00:06:51,510 --> 00:06:53,400 Jeg føler meg veldig fornøyd selv. 112 00:06:53,400 --> 00:06:59,090 Jeg rullet opp til Harvard i 2006, følelsen mye mindre fornøyd med meg selv. 113 00:06:59,090 --> 00:07:00,210 >> Dette er hva jeg arvet. 114 00:07:00,210 --> 00:07:03,575 Dette er en avdelings post og filserver. 115 00:07:03,575 --> 00:07:05,450 Du kan se her er det en liten bit av tape 116 00:07:05,450 --> 00:07:07,710 som brukes til å holde systemet sammen. 117 00:07:07,710 --> 00:07:09,890 Dette er vår lisens og print server. 118 00:07:09,890 --> 00:07:13,990 Jeg er ganske sikker på at det kanskje passord på noen av disse Post-it lapper. 119 00:07:13,990 --> 00:07:16,560 120 00:07:16,560 --> 00:07:17,360 >> Ikke fantastisk. 121 00:07:17,360 --> 00:07:18,530 Ganske langt fra fantastisk. 122 00:07:18,530 --> 00:07:22,060 Og så innser jeg denne lille diagrammet at jeg viste deg i begynnelsen 123 00:07:22,060 --> 00:07:25,350 fra å dele til eierskap tilbake til deling, 124 00:07:25,350 --> 00:07:27,930 at vi trengte å endre spillet. 125 00:07:27,930 --> 00:07:31,330 Og så vi endret spillet ved å gi insentiver. 126 00:07:31,330 --> 00:07:34,250 Og så mennesker, som denne lite Wikipedia-artikkel 127 00:07:34,250 --> 00:07:35,990 sier her, våre målrettet skapninger. 128 00:07:35,990 --> 00:07:39,250 Og studiet av insentiv strukturene er avgjørende for studiet 129 00:07:39,250 --> 00:07:41,100 av økonomisk aktivitet. 130 00:07:41,100 --> 00:07:44,580 >> Så begynte vi å stimulere våre lærere og våre forskere. 131 00:07:44,580 --> 00:07:47,720 Og så vi incentivised dem med en virkelig stor datasystem. 132 00:07:47,720 --> 00:07:52,720 Så i 2008, bygget vi en 4096 prosessor maskin-- 10 racks, 133 00:07:52,720 --> 00:07:54,470 par hundre kilowatt strøm. 134 00:07:54,470 --> 00:07:56,178 >> Hva jeg tror er interessant er det ikke 135 00:07:56,178 --> 00:07:58,300 Uansett hvor du er i syklusen. 136 00:07:58,300 --> 00:08:03,510 Det samme mengde strøm og beregne, er kraften konstant. 137 00:08:03,510 --> 00:08:06,270 Det var 200 kilowatt når vi var å bygge systemer i Europa. 138 00:08:06,270 --> 00:08:09,770 Det er to hundre kilowatt i 2008, og at 139 00:08:09,770 --> 00:08:15,820 synes å være [? quanter?] av små universitets-baserte datasystemer. 140 00:08:15,820 --> 00:08:20,540 >> Så Harvard today-- spole fremover, jeg er ingen lenger trist panda, ganske glad panda. 141 00:08:20,540 --> 00:08:25,860 Vi har 60-talls tusen belastning balansert CPUer, og deres klatring dramatisk. 142 00:08:25,860 --> 00:08:28,780 Vi har 15 petabyte med lagring, også klatring. 143 00:08:28,780 --> 00:08:30,720 Igjen, dette 200 kilowatt tilvekst, synes vi 144 00:08:30,720 --> 00:08:33,000 å være og legger til at hver sjette eller så måneder. 145 00:08:33,000 --> 00:08:35,480 Mange og massevis av virtuelle maskiner. 146 00:08:35,480 --> 00:08:37,620 Og enda viktigere, ca 1,8 megawatt 147 00:08:37,620 --> 00:08:39,669 forskning datautstyr. 148 00:08:39,669 --> 00:08:41,820 >> Og jeg kommer til å komme tilbake til dette senere, 149 00:08:41,820 --> 00:08:46,913 på hvorfor jeg nå ikke lenger nødvendigvis telle hvor mye CPU vi har, 150 00:08:46,913 --> 00:08:48,980 men hvor stor er strømregningen. 151 00:08:48,980 --> 00:08:52,690 20 andre så dedikert forskning databehandling ansatte. 152 00:08:52,690 --> 00:08:57,250 Og enda viktigere, vi er begynner å vokse vår GPGPUs. 153 00:08:57,250 --> 00:09:05,030 Jeg ble forskjøvet på hvor mye av dette blir lagt på en dag-til-dag basis. 154 00:09:05,030 --> 00:09:07,310 Så, historietime over, ikke sant? 155 00:09:07,310 --> 00:09:11,280 >> Så hvordan kommer vi oss dit fra her? 156 00:09:11,280 --> 00:09:14,560 La oss se på noen moderne skala-out beregningseksempler. 157 00:09:14,560 --> 00:09:18,290 158 00:09:18,290 --> 00:09:23,230 Jeg er litt besatt av Størrelsen og omfanget av sosiale medier. 159 00:09:23,230 --> 00:09:30,850 Det finnes et antall ekstremt vellykket storskala databehandling 160 00:09:30,850 --> 00:09:34,820 organisasjoner nå på planeten, gi støtte og tjenester 161 00:09:34,820 --> 00:09:36,810 for oss alle. 162 00:09:36,810 --> 00:09:39,340 Så det er ansvarsfraskrivelse. 163 00:09:39,340 --> 00:09:42,990 >> Og jeg ønsker å starte med en antall gram i en Instagram. 164 00:09:42,990 --> 00:09:48,336 Det er ikke egentlig en føre-in til en spøk, det er 165 00:09:48,336 --> 00:09:50,460 ikke engang det morsomt, faktisk, kommer til å tenke på det. 166 00:09:50,460 --> 00:09:52,751 Men uansett, skal vi se på unser i Instagram. 167 00:09:52,751 --> 00:09:55,260 Og vi kommer til å begynne med "My bie og en blomst." 168 00:09:55,260 --> 00:09:57,600 Jeg var på [uhørbart] Village og jeg tok et lite bilde 169 00:09:57,600 --> 00:10:00,460 av en bie sitter på en blomst. 170 00:10:00,460 --> 00:10:03,270 Og så begynte jeg å tenke på hva betyr dette egentlig betyr. 171 00:10:03,270 --> 00:10:07,013 Og jeg tok dette bildet av telefonen min og telte hvor mange byte er i den, 172 00:10:07,013 --> 00:10:09,070 og det er ca 256 kilobyte. 173 00:10:09,070 --> 00:10:13,550 Som da jeg begynte, ville i utgangspunktet fylle en 5 og 1/4 tommers diskettstasjon. 174 00:10:13,550 --> 00:10:15,340 Og begynte å tenke, vel, det er kult. 175 00:10:15,340 --> 00:10:18,630 >> Og jeg begynte å se og gjøre noen undersøkelser på nettverket. 176 00:10:18,630 --> 00:10:22,490 Og jeg fant ut at Instagram har 200 millioner Maus. 177 00:10:22,490 --> 00:10:25,105 Jeg var ikke egentlig at sikker på hva en MAU var. 178 00:10:25,105 --> 00:10:28,960 Og en MAU, her nede, er en månedlig aktiv bruker. 179 00:10:28,960 --> 00:10:34,270 >> Så, 200 millioner MAUs-- ganske kult. 180 00:10:34,270 --> 00:10:38,190 20 milliarder photographs-- så ganske mye av fotografier. 181 00:10:38,190 --> 00:10:42,300 60 millioner nye bilder hver dag 182 00:10:42,300 --> 00:10:46,990 kommer ut på ca 0,002 gig per bilde. 183 00:10:46,990 --> 00:10:51,290 Det er omtrent fem petabyte disk akkurat der. 184 00:10:51,290 --> 00:10:55,480 Og det er egentlig ikke den sentrale delen av hva vi skal snakke om. 185 00:10:55,480 --> 00:10:57,830 Det er små poteter. 186 00:10:57,830 --> 00:11:00,710 Eller som vi sier i England, små spuds. 187 00:11:00,710 --> 00:11:05,050 >> Så la oss se på den virkelige elefant i rommet-- unike ansikter. 188 00:11:05,050 --> 00:11:09,170 Igjen, la oss måle i denne nye kvanter kaller en MAU. 189 00:11:09,170 --> 00:11:13,260 Facebook selv har 1,3 milliarder Maus. 190 00:11:13,260 --> 00:11:17,510 WhatsApp, som jeg ikke hadde selv hørt om inntil nylig, er det 191 00:11:17,510 --> 00:11:23,260 en slags meldingstjeneste, er 500 millioner Maus. 192 00:11:23,260 --> 00:11:26,620 Instagram, som vi bare snakket om, 200 millioner Maus. 193 00:11:26,620 --> 00:11:29,370 Og Messenger, som er en annen meldingstjenesten 194 00:11:29,370 --> 00:11:31,120 er også 200 millioner Maus. 195 00:11:31,120 --> 00:11:35,920 >> Så totalt at opp, det handler om 2,2 milliarder totalt antall brukere. 196 00:11:35,920 --> 00:11:39,880 Klart det er noe overlapping, men det er tilsvarende en tredjedel av planeten. 197 00:11:39,880 --> 00:11:44,270 Og de sender noe i regionen på 12 milliarder meldinger i døgnet. 198 00:11:44,270 --> 00:11:46,680 Og igjen, det er bare 7 milliarder mennesker på planeten. 199 00:11:46,680 --> 00:11:48,550 Ikke alle har en smarttelefon. 200 00:11:48,550 --> 00:11:53,960 Så dette er vanvittig tall. 201 00:11:53,960 --> 00:12:02,050 >> Og jeg kommer til å hevde at det ikke er selv om lagring eller beregne. 202 00:12:02,050 --> 00:12:05,610 Og for å sitere sangen, det handler om at grafen. 203 00:12:05,610 --> 00:12:09,045 Her er vår herlige Meghan Trainor ned her, synger om all bass. 204 00:12:09,045 --> 00:12:12,570 Oppmerksom på, hun har også ganske bit av bass herself-- 207, 205 00:12:12,570 --> 00:12:16,460 vel 218 millioner mennesker har sett denne unge damen synger sin sang. 206 00:12:16,460 --> 00:12:19,910 >> Så mitt argument er det det handler om grafen. 207 00:12:19,910 --> 00:12:23,480 Så vi tok noen programvare med åpen kildekode og begynte å se på en graf. 208 00:12:23,480 --> 00:12:27,740 Og dette er Linkedin, så dette er en Facebook for gamle mennesker. 209 00:12:27,740 --> 00:12:29,910 Og så, dette er min Linkedin grafen. 210 00:12:29,910 --> 00:12:34,080 Jeg har 1200 eller så noder, såkalt "Friends". 211 00:12:34,080 --> 00:12:36,360 Og her er meg på toppen. 212 00:12:36,360 --> 00:12:38,140 Og her er alle de sammenhengene. 213 00:12:38,140 --> 00:12:40,570 >> Nå, tenker tilbake til Instagram historien. 214 00:12:40,570 --> 00:12:42,815 Hver og en av disse er ikke bare bildet, det 215 00:12:42,815 --> 00:12:46,860 har en hel mengde tilkoblinger mellom denne personen 216 00:12:46,860 --> 00:12:48,220 og mange andre. 217 00:12:48,220 --> 00:12:52,190 Dette er sentralt stykke er enten en bug i grafen tegning algoritmen, 218 00:12:52,190 --> 00:12:55,982 eller dette kanskje David Malan, jeg er ikke sikker ennå. 219 00:12:55,982 --> 00:12:57,690 Så du kan tegne grafer i alle slags 220 00:12:57,690 --> 00:13:02,510 av ways-- gephi.gihub.io er der du kan trekke den programvaren fra. 221 00:13:02,510 --> 00:13:05,410 Det er veldig kult for å være stand til å organisere lokalsamfunn. 222 00:13:05,410 --> 00:13:08,640 Du kan se her, dette er Harvard og diverse andre steder som jeg har jobbet, 223 00:13:08,640 --> 00:13:12,160 fordi dette er min arbeidsrelaterte data. 224 00:13:12,160 --> 00:13:15,080 >> Så bare tenke på kompleksiteten av grafen, og alle data 225 00:13:15,080 --> 00:13:17,070 at du trekker sammen med. 226 00:13:17,070 --> 00:13:20,870 Så i mellomtiden, tilbake på FriendFace, ikke sant? 227 00:13:20,870 --> 00:13:24,360 Vi så på Instagram data som var i størrelsesorden fem petabyte. 228 00:13:24,360 --> 00:13:25,300 Ingen big deal. 229 00:13:25,300 --> 00:13:28,830 Fortsatt ganske mye data, men ingen stor avtale i den større sammenhengen. 230 00:13:28,830 --> 00:13:33,850 >> Fra denne artikkelen på den gamle internett, "Skalering av Facebook datavarehus 231 00:13:33,850 --> 00:13:36,250 til 300 petabyte. " 232 00:13:36,250 --> 00:13:38,110 Det er en helt annen game changer nå, 233 00:13:38,110 --> 00:13:40,234 når du begynner å tenke på data og grafen 234 00:13:40,234 --> 00:13:41,690 og hva du tar sammen med. 235 00:13:41,690 --> 00:13:47,480 Og deres høye data vokser av i størrelsesorden 600 terrabytes en dag. 236 00:13:47,480 --> 00:13:52,980 >> Nå, vet du, vel, then-- Jeg mener, 600 terrabytes per dag, 237 00:13:52,980 --> 00:13:55,670 300 petabytes-- de er også nå begynner 238 00:13:55,670 --> 00:13:58,550 å bli veldig bekymret hvordan å holde denne ting 239 00:13:58,550 --> 00:14:01,160 og for å sørge for at disse dataene holder seg rundt. 240 00:14:01,160 --> 00:14:04,630 Og denne mannen her, Jay Parikh, er på jakt 241 00:14:04,630 --> 00:14:08,250 på hvordan du lagrer en exabyte av data. 242 00:14:08,250 --> 00:14:10,180 >> Bare for de av dere som ser på langs 243 00:14:10,180 --> 00:14:13,940 hjemme, en exabyte-- 10 til 18 år. 244 00:14:13,940 --> 00:14:18,210 Det har sin egen Wikipedia side, er det så stor av et nummer. 245 00:14:18,210 --> 00:14:23,120 Det er størrelsen og omfanget av hva vi er ser på, å være i stand til å lagre data. 246 00:14:23,120 --> 00:14:27,090 Og disse gutta ikke rote rundt, de er lagring som datamengden. 247 00:14:27,090 --> 00:14:29,550 Så en av de ledetråder som de ser på her 248 00:14:29,550 --> 00:14:32,185 er datasentre for såkalt kald lagring. 249 00:14:32,185 --> 00:14:35,020 250 00:14:35,020 --> 00:14:36,470 >> Hvilket bringer meg til å bli grønn. 251 00:14:36,470 --> 00:14:38,340 Og her er Kermit. 252 00:14:38,340 --> 00:14:43,050 Han og jeg er enig, det er ekstremt vanskelig å være grønn, 253 00:14:43,050 --> 00:14:44,920 men vi gir det våre beste forsøk. 254 00:14:44,920 --> 00:14:47,430 Kermit kan ikke hjelpe for det, han har være grønt hele tiden, 255 00:14:47,430 --> 00:14:49,945 kan ikke ta hans grønne-ness av i det hele tatt. 256 00:14:49,945 --> 00:14:55,410 >> Så, å være concepts-- en noen form for sentrale begreper 257 00:14:55,410 --> 00:14:59,510 av greenness, når det relatert til databehandling. 258 00:14:59,510 --> 00:15:05,510 Den ene som er den viktigste er den lange levetiden av produktet. 259 00:15:05,510 --> 00:15:09,405 Hvis produktet har en kort levetid, du kan ikke, per definisjon, være grønn. 260 00:15:09,405 --> 00:15:13,280 Energien som tas for å fremstille en disken, et hovedkort, en datamaskin 261 00:15:13,280 --> 00:15:17,890 system, en tablett, hva det kan være, lang levetid av dine systemer 262 00:15:17,890 --> 00:15:21,700 er en viktig del av hvordan grønt du kan være. 263 00:15:21,700 --> 00:15:27,960 >> Den viktigste delen, som alle dere bygger programvare algorithms-- 264 00:15:27,960 --> 00:15:30,455 algoritmen er en delvis ordet for programvare, ikke sant? 265 00:15:30,455 --> 00:15:34,000 Så, er din algoritme utforming helt avgjørende i forhold 266 00:15:34,000 --> 00:15:43,080 av hvordan du kommer til å være i stand til å gjøre raske og nøyaktige beregninger for å bruke 267 00:15:43,080 --> 00:15:44,710 minst mulig energi mulig. 268 00:15:44,710 --> 00:15:47,280 Og jeg får til dette i en liten bit. 269 00:15:47,280 --> 00:15:51,270 >> Datasenter design-- du har sett at vi allerede har tusenvis 270 00:15:51,270 --> 00:15:54,870 på tusener av maskiner, sitter stille i små, mørke hjørner 271 00:15:54,870 --> 00:15:57,760 av verden, databehandling. 272 00:15:57,760 --> 00:16:01,670 Ressurs allocation-- hvordan du får til beregnings-, til lagring, 273 00:16:01,670 --> 00:16:03,840 gjennom nettverket. 274 00:16:03,840 --> 00:16:08,530 Operativsystemer er en viktig del av dette, og mye av virtualisering 275 00:16:08,530 --> 00:16:12,080 å være i stand til å pakke mer mer beregne på liten plass. 276 00:16:12,080 --> 00:16:15,530 >> Jeg skal gi deg et lite eksempel fra forskning databehandling. 277 00:16:15,530 --> 00:16:18,220 Vi trengte mer ping, mer makt, og mer rør. 278 00:16:18,220 --> 00:16:21,030 Vi trengte mer større, bedre, raskere datamaskiner, 279 00:16:21,030 --> 00:16:23,390 og behov for å bruke mindre juice. 280 00:16:23,390 --> 00:16:26,856 Og vi kunne ikke finne ut hvordan du gjør dette. 281 00:16:26,856 --> 00:16:29,980 Jeg vet ikke om den hashtag gowest som trolig blitt brukt av Kardashian, 282 00:16:29,980 --> 00:16:32,560 men uansett, gowest. 283 00:16:32,560 --> 00:16:33,220 Og vi gjorde. 284 00:16:33,220 --> 00:16:36,610 >> Vi plukket opp vår drift og vi flyttet den ut 285 00:16:36,610 --> 00:16:39,660 til Western Massachusetts i en liten møllebyen 286 00:16:39,660 --> 00:16:45,000 kalt Holyoke, like nord av Chikopee og Springfield. 287 00:16:45,000 --> 00:16:49,280 Vi gjorde dette for et par grunner. 288 00:16:49,280 --> 00:16:55,150 Den viktigste var at vi hadde en veldig, veldig stor dam. 289 00:16:55,150 --> 00:17:00,080 Og dette svært store demningen er i stand til å sette ut 30 pluss megawatt energi, 290 00:17:00,080 --> 00:17:02,980 og det ble underutnyttet på tiden. 291 00:17:02,980 --> 00:17:06,170 >> Enda viktigere, vi hadde også en meget komplisert nettverk 292 00:17:06,170 --> 00:17:07,254 som allerede var på plass. 293 00:17:07,254 --> 00:17:09,711 Hvis du ser på hvor nettverket går i USA, 294 00:17:09,711 --> 00:17:11,230 det følger alle tog spor. 295 00:17:11,230 --> 00:17:14,290 Denne bestemt stykke nettverk var eid av våre kolleger og venner 296 00:17:14,290 --> 00:17:16,480 ved Massachusetts Institute of Technology, 297 00:17:16,480 --> 00:17:19,720 og det var i utgangspunktet bygget hele veien ut til Route 90. 298 00:17:19,720 --> 00:17:24,760 >> Så vi hadde en stor elv tick, Route 90 tick, vi hadde en kort bane på 100 miles, 299 00:17:24,760 --> 00:17:26,960 og en lang bane på ca 1000 miles. 300 00:17:26,960 --> 00:17:29,890 Vi har å gjøre en veldig stor nettverk spleise, som du kan se her, 301 00:17:29,890 --> 00:17:32,990 til utgangspunktet legge en link i, til være i stand til å koble til Holyoke, 302 00:17:32,990 --> 00:17:36,390 men vi hadde alle de nødvendige infrastructure-- ping, kraft, rør. 303 00:17:36,390 --> 00:17:37,280 Livet var bra. 304 00:17:37,280 --> 00:17:38,980 Og igjen, stor dam. 305 00:17:38,980 --> 00:17:42,120 >> Så vi bygde i utgangspunktet Massachusetts Grønn High Performance Computing 306 00:17:42,120 --> 00:17:42,850 Senter. 307 00:17:42,850 --> 00:17:46,580 Dette var et møysommelig arbeid gjennom fem universities-- MIT, Harvard, UMass, 308 00:17:46,580 --> 00:17:47,870 Northeastern, og BU. 309 00:17:47,870 --> 00:17:49,554 Fem megawatt dag én tilkoblede lasten. 310 00:17:49,554 --> 00:17:51,845 Vi gjorde alle slags kløkt med flyside economizers 311 00:17:51,845 --> 00:17:53,585 å holde ting grønt. 312 00:17:53,585 --> 00:18:03,330 Og vi bygget ut 640-talls racks, dedikert til forskning databehandling. 313 00:18:03,330 --> 00:18:08,770 >> Det var en gammel brownfield området, slik vi hadde noen gjenvinning og noen ryddig-up 314 00:18:08,770 --> 00:18:10,500 og noen opprydding av området. 315 00:18:10,500 --> 00:18:13,590 Og da vi startet å bygge anlegget 316 00:18:13,590 --> 00:18:19,710 og, boom-- flott anlegg med evnen til å kjøre sandkasse databehandling, 317 00:18:19,710 --> 00:18:24,430 å ha konferanser og seminarer, og også en massiv datasenter gulvet. 318 00:18:24,430 --> 00:18:26,007 >> Her er min gode selv. 319 00:18:26,007 --> 00:18:27,590 Jeg er selvsagt iført samme jakke. 320 00:18:27,590 --> 00:18:29,423 Jeg kanskje bare har ett jakke, men det er meg 321 00:18:29,423 --> 00:18:34,030 og John Goodhue-- han er administrerende direktør ved Center-- 322 00:18:34,030 --> 00:18:36,740 stående i maskinrommet etasje, som, som du kan se, 323 00:18:36,740 --> 00:18:40,560 er ganske dramatisk, og det går tilbake en lang, lang vei. 324 00:18:40,560 --> 00:18:44,830 >> Jeg spiller ofte spill kjøring fra Boston ut til Holyoke, 325 00:18:44,830 --> 00:18:47,260 late som om jeg er en TCP / IP-pakke. 326 00:18:47,260 --> 00:18:54,290 Og jeg bry deg om min ventetid kjører rundt i bilen min. 327 00:18:54,290 --> 00:18:56,690 Så det er den grønne stykke. 328 00:18:56,690 --> 00:19:00,070 Så la oss bare ta et minutt og tenke på stabler. 329 00:19:00,070 --> 00:19:04,060 Så vi prøver veldig nøye til bygge datasentre effektivt, 330 00:19:04,060 --> 00:19:08,770 databehandling effektivt, gjør god utvalg for datautstyr 331 00:19:08,770 --> 00:19:12,060 og levere, mer viktigst, vår søknad, 332 00:19:12,060 --> 00:19:17,860 det være seg en meldingstjeneste eller en vitenskapelig bruk. 333 00:19:17,860 --> 00:19:19,110 >> Så her er de stabler. 334 00:19:19,110 --> 00:19:22,762 Så fysisk lag, alt vei opp gjennom application-- 335 00:19:22,762 --> 00:19:25,220 håper at dette kommer til å være en god del av kurset. 336 00:19:25,220 --> 00:19:31,450 OSI syv lag modellen er i utgangspunktet, du vil leve, spise og puste 337 00:19:31,450 --> 00:19:35,270 dette gjennom dine databehandlings karrierer. 338 00:19:35,270 --> 00:19:37,800 Hele dette konseptet med fysisk infrastructure-- ledninger, 339 00:19:37,800 --> 00:19:40,080 kabler, datasentre, lenker. 340 00:19:40,080 --> 00:19:42,190 Og dette er bare beskriver nettverket. 341 00:19:42,190 --> 00:19:44,780 >> Opp her er, vel, selvsagt, dette er en gammel lysbilde, 342 00:19:44,780 --> 00:19:49,342 fordi dette bør si HTTP, fordi ingen bryr seg om enkel post 343 00:19:49,342 --> 00:19:50,550 transportprotokoller, lenger. 344 00:19:50,550 --> 00:19:53,960 Det er alt som skjer i HTTP plass. 345 00:19:53,960 --> 00:19:55,850 Så det er et nivå av stabelen. 346 00:19:55,850 --> 00:19:59,460 >> Her er et annet sett med stabler, hvor du har en server, en vert, en hypervisor, 347 00:19:59,460 --> 00:20:02,470 en gjest, binær bibliotek, og deretter søknaden din. 348 00:20:02,470 --> 00:20:06,070 Eller, i dette tilfellet, anordningen Sjåføren, en Linux-kjerne, native c, 349 00:20:06,070 --> 00:20:08,080 Java virtuell maskin, Java API, da Java 350 00:20:08,080 --> 00:20:11,220 applikasjoner, og så videre og så videre. 351 00:20:11,220 --> 00:20:14,090 Dette er en beskrivelse av en virtuell maskin. 352 00:20:14,090 --> 00:20:15,450 >> Hellige stabler, Batman! 353 00:20:15,450 --> 00:20:18,260 Tenk om dette i når det gjelder hvor mye beregne 354 00:20:18,260 --> 00:20:20,850 du trenger for å komme fra hva som skjer her, 355 00:20:20,850 --> 00:20:23,110 hele veien opp til toppen i denne stabelen, deretter 356 00:20:23,110 --> 00:20:26,840 være i stand til å gjøre den faktiske levering av søknaden. 357 00:20:26,840 --> 00:20:29,130 >> Og hvis du slags spole tilbake og begynne å tenke 358 00:20:29,130 --> 00:20:33,450 om det som trengs for å gi et flyttall drift, 359 00:20:33,450 --> 00:20:37,650 din flyttall drift er en sum av kontaktene, antall kjerner 360 00:20:37,650 --> 00:20:44,490 i stikkontakten, en klokke, som er Hvor fort kan klokken turnover-- 361 00:20:44,490 --> 00:20:47,490 fire gigahertz, to gigahertz-- og deretter nummeret 362 00:20:47,490 --> 00:20:50,890 operasjoner du kan gjøre i en gitt hertz. 363 00:20:50,890 --> 00:20:54,350 >> Så de mikroprosessorer i dag gjøre mellom fire og seks flopper 364 00:20:54,350 --> 00:20:55,400 per klokkesyklus. 365 00:20:55,400 --> 00:20:59,810 Og så en single-core 2,5 gig klokke har en teoretisk ytelse 366 00:20:59,810 --> 00:21:03,490 av om en mega FLOP, gi eller ta. 367 00:21:03,490 --> 00:21:05,940 >> Men, som med alt vi har valg. 368 00:21:05,940 --> 00:21:12,280 Så og Intel Core 2, Nehalem Sandy Bridge, Haswell, AMD, 369 00:21:12,280 --> 00:21:13,920 ta choices-- Intel Atom. 370 00:21:13,920 --> 00:21:17,670 Alle disse prosessorarkitekturer alle har en litt annen måte 371 00:21:17,670 --> 00:21:19,650 for å være i stand til å legge to tallene sammen, 372 00:21:19,650 --> 00:21:23,520 som er utgangspunktet sitt formål i livet. 373 00:21:23,520 --> 00:21:24,535 Må være tøff. 374 00:21:24,535 --> 00:21:27,100 Det finnes millioner av dem sitter i datasentre, nå skjønt. 375 00:21:27,100 --> 00:21:30,410 >> Sor, flopper per watt-- dette er den store tingen. 376 00:21:30,410 --> 00:21:37,780 Så hvis jeg ønsker å få mer av dette å komme gjennom denne bunken, raskere, 377 00:21:37,780 --> 00:21:41,800 Jeg er nødt til å jobbe på hvor mange flyttallsoperasjoner et sekund, 378 00:21:41,800 --> 00:21:43,770 Jeg kan gjøre, og deretter gi dem watt. 379 00:21:43,770 --> 00:21:46,160 Og heldigvis, folkens har tenkt på dette. 380 00:21:46,160 --> 00:21:49,140 >> Så det er en stor ride hvert år for å se 381 00:21:49,140 --> 00:21:52,310 som kan bygge den raskeste datamaskin I tillegg kan diagonalize en matrise. 382 00:21:52,310 --> 00:21:53,980 Den heter Top 500. 383 00:21:53,980 --> 00:21:56,420 De plukker toppen fra de beste 500-maskiner 384 00:21:56,420 --> 00:21:58,610 på planeten som kan diagonalize matriser. 385 00:21:58,610 --> 00:22:00,760 Og du får noen fantastiske resultater. 386 00:22:00,760 --> 00:22:04,660 >> Mange av disse maskiner er mellom 10 og 20 megawatt. 387 00:22:04,660 --> 00:22:09,380 De kan diagonalize matriser inordinately raskt. 388 00:22:09,380 --> 00:22:13,550 De trenger ikke nødvendigvis diagonaliseres dem så effektivt per watt, 389 00:22:13,550 --> 00:22:18,060 så det var dette stort trykk for å se på hva en grønn 500-listen ville se ut. 390 00:22:18,060 --> 00:22:20,360 Og her er listen fra juni. 391 00:22:20,360 --> 00:22:22,410 Det bør være en ny en svært kort tid. 392 00:22:22,410 --> 00:22:26,590 >> Og det kaller out-- jeg skal ta Toppen av denne listen. 393 00:22:26,590 --> 00:22:32,187 Det er to spesifikke machines-- ett fra Tokyo Institute of Technology 394 00:22:32,187 --> 00:22:34,520 og en fra Cambridge University i Storbritannia. 395 00:22:34,520 --> 00:22:37,700 Og disse har ganske svimlende mega flops per watt-forhold. 396 00:22:37,700 --> 00:22:42,620 Denne er 4389, og den neste ned er 3631. 397 00:22:42,620 --> 00:22:47,660 >> Jeg skal forklare forskjellen mellom disse to, i neste lysbilde. 398 00:22:47,660 --> 00:22:51,320 Men disse er disse er moderat størrelse test klynger. 399 00:22:51,320 --> 00:22:54,732 Dette er bare 34 kilowatt eller 52 kilowatt. 400 00:22:54,732 --> 00:22:56,940 Det er noen større funn her-- denne ene 401 00:22:56,940 --> 00:22:58,860 ved den sveitsiske nasjonal Supercomputing Centre. 402 00:22:58,860 --> 00:23:00,693 De ta med hjem meldingen for dette er at vi er 403 00:23:00,693 --> 00:23:04,270 prøver å finne datamaskiner som kan operere effektivt. 404 00:23:04,270 --> 00:23:09,860 >> Og så, la oss se på denne toppen ett, cutely kalt, KFC. 405 00:23:09,860 --> 00:23:12,960 Og litt reklame her. 406 00:23:12,960 --> 00:23:15,730 Dette bestemte næringsmiddelselskap har ingenting å gjøre med dette. 407 00:23:15,730 --> 00:23:18,240 Det er det faktum at dette systemet 408 00:23:18,240 --> 00:23:23,830 er fuktet i en meget smart olje-basert forbindelse. 409 00:23:23,830 --> 00:23:27,590 Og så de fikk sin kylling frityrkokeren moniker 410 00:23:27,590 --> 00:23:30,040 når de først begynte å bygge disse typer systemer. 411 00:23:30,040 --> 00:23:32,740 >> Men i utgangspunktet hva de har tatt her er et antall blader, 412 00:23:32,740 --> 00:23:37,560 sette dem i dette sofistikert mineralolje, 413 00:23:37,560 --> 00:23:40,979 og deretter jobbet ut hvordan du får alle nettverksbygging i og ut av det. 414 00:23:40,979 --> 00:23:42,895 Da, ikke bare det, de har satt den utenfor så 415 00:23:42,895 --> 00:23:46,095 at det kan utnytte utenfor luftkjøling. 416 00:23:46,095 --> 00:23:47,520 Det var ganske imponerende. 417 00:23:47,520 --> 00:23:49,630 Så du trenger å gjøre alt av denne shenanigans 418 00:23:49,630 --> 00:23:53,280 å være i stand til å få dette beløpet av Beregn levert for liten effekt. 419 00:23:53,280 --> 00:23:57,360 >> Og du kan se dette er formen hvor ting er på vei. 420 00:23:57,360 --> 00:24:01,240 Utfordringen er at vanlig luft kjøling er økonomien i skala 421 00:24:01,240 --> 00:24:08,459 og driver en masse utvikling av både vanlige databehandling, 422 00:24:08,459 --> 00:24:09,750 og databehandling med høy ytelse. 423 00:24:09,750 --> 00:24:11,080 Så, dette er ganske forstyrrende. 424 00:24:11,080 --> 00:24:13,280 Jeg tror dette er fascinerende. 425 00:24:13,280 --> 00:24:15,530 Det er litt rotete når du prøv å bytte harddisker, 426 00:24:15,530 --> 00:24:18,090 men det er en veldig kul idé. 427 00:24:18,090 --> 00:24:22,200 >> Så ikke bare det, det er en hel haug med arbeid 428 00:24:22,200 --> 00:24:25,450 blir bygget rundt hva vi er kalle Open Compute Project. 429 00:24:25,450 --> 00:24:29,400 Og så, mer om det litt senere. 430 00:24:29,400 --> 00:24:32,740 Men bransjens begynner å innse at de flopper per watt 431 00:24:32,740 --> 00:24:33,670 blir viktig. 432 00:24:33,670 --> 00:24:39,256 Og du, som folk her, som du designe dine algoritmer 433 00:24:39,256 --> 00:24:41,130 og du designe din kode, bør du være oppmerksom på 434 00:24:41,130 --> 00:24:43,620 at koden kan ha en smitteeffekt. 435 00:24:43,620 --> 00:24:48,380 >> Når Mark satt her i hans hybel skriver Facebook 1.0, 436 00:24:48,380 --> 00:24:51,050 Jeg er ganske sikker på at han hadde en visning at det skulle være enorme. 437 00:24:51,050 --> 00:24:54,945 Men hvor stort det ville være på miljø er en stor dealio. 438 00:24:54,945 --> 00:24:58,340 Og så alle ya kunne komme opp med algoritmer 439 00:24:58,340 --> 00:25:01,370 som kan bli den neste utfordrende tingen for folk som meg, 440 00:25:01,370 --> 00:25:02,700 prøver å kjøre systemer. 441 00:25:02,700 --> 00:25:07,360 >> Så la oss bare tenke på reelle effektgrenser. 442 00:25:07,360 --> 00:25:09,930 Dette papiret etter Landauer-- er ikke en ny ting. 443 00:25:09,930 --> 00:25:12,480 1961 dette ble offentliggjort i IBM Journal. 444 00:25:12,480 --> 00:25:15,590 Dette er den kanoniske "Irreversibilitet og Heat 445 00:25:15,590 --> 00:25:17,630 Generasjon i Computing Process. " 446 00:25:17,630 --> 00:25:22,050 Og så han hevdet at maskiner uunngåelig 447 00:25:22,050 --> 00:25:25,070 utføre logistikkfunksjoner som har en enkelt verdi inverse. 448 00:25:25,070 --> 00:25:29,130 >> Slik at hele delen av dette er det tilbake på 60-tallet, 449 00:25:29,130 --> 00:25:31,890 folk visste at dette var kommer til å være et problem. 450 00:25:31,890 --> 00:25:37,080 Og så loven om grensene sa 25 grader C, en slags kanonisk rom 451 00:25:37,080 --> 00:25:41,120 temperatur, grensen representerer 0,1 elektronvolt. 452 00:25:41,120 --> 00:25:44,920 Men teoretisk sett, er dette teorien, dataminne, 453 00:25:44,920 --> 00:25:51,410 opererer på denne grensen kan være endret på én milliard bits per sekund. 454 00:25:51,410 --> 00:25:54,620 >> Jeg vet ikke om deg, men ikke komme over mange én milliard bits 455 00:25:54,620 --> 00:25:57,190 en andre datahastighet børser. 456 00:25:57,190 --> 00:26:01,360 Argumentet var at bare 2,8 billioner av en watt strøm 457 00:26:01,360 --> 00:26:03,180 burde stadig utvides. 458 00:26:03,180 --> 00:26:08,160 >> All right, virkelige verden example-- dette er min strømregninga. 459 00:26:08,160 --> 00:26:10,347 Jeg er 65% prosent av den herlige datasenter 460 00:26:10,347 --> 00:26:11,930 Jeg viste deg, i denne spesielle tiden. 461 00:26:11,930 --> 00:26:15,520 Dette er tilbake i juni i fjor. 462 00:26:15,520 --> 00:26:21,300 Jeg har tatt en eldre versjon, slik at vi kan og liksom anonym litt. 463 00:26:21,300 --> 00:26:25,470 Jeg brukte $ 45,000 et måned for energi der. 464 00:26:25,470 --> 00:26:34,990 >> Så grunnen til å være der, er at vi har over 50.000 prosesser i rommet. 465 00:26:34,990 --> 00:26:38,110 Så kan du forestille deg din egen boligstrømregningen 466 00:26:38,110 --> 00:26:39,540 er at høy? 467 00:26:39,540 --> 00:26:46,180 Men det var for en 199 millioner watt timer over en måned. 468 00:26:46,180 --> 00:26:51,670 >> Så spørsmålet jeg stiller er, kan du forestille Mr. Zuckerberg strømregninga? 469 00:26:51,670 --> 00:26:54,730 Mine er ganske stor, og jeg sliter. 470 00:26:54,730 --> 00:26:56,600 Og jeg er ikke alene i dette er. 471 00:26:56,600 --> 00:26:59,450 Det er mange mennesker med store datasentre. 472 00:26:59,450 --> 00:27:04,800 Og så, antar jeg, full disclosure-- mine Facebook-venner litt rart. 473 00:27:04,800 --> 00:27:07,900 >> Så min Facebook-venn er den Prine datasenter, 474 00:27:07,900 --> 00:27:14,030 som er en av Facebooks største, nyeste, laveste energi datasenter. 475 00:27:14,030 --> 00:27:19,360 Og de legger til meg, ting som kraftutnyttelse effektivitet, 476 00:27:19,360 --> 00:27:24,020 som i hvor effektive er dataene sentrum versus hvor mye energi du er 477 00:27:24,020 --> 00:27:26,370 legger i det, hvor mye vann de bruker, hva er 478 00:27:26,370 --> 00:27:27,810 luftfuktighet og temperatur. 479 00:27:27,810 --> 00:27:29,980 >> Og de har disse vakre, nydelig plott. 480 00:27:29,980 --> 00:27:32,600 Jeg tror dette er en kjempebra Facebook-side, 481 00:27:32,600 --> 00:27:35,400 men jeg tror jeg er litt rart. 482 00:27:35,400 --> 00:27:39,930 >> Så en mer makt ting, forskning databehandling som jeg gjør 483 00:27:39,930 --> 00:27:44,060 er vesentlig annerledes hva Facebook og Yahoo og Google 484 00:27:44,060 --> 00:27:50,020 og andre on-demand, fullt, alltid tilgjengelige tjenester. 485 00:27:50,020 --> 00:27:53,530 Og så har jeg den fordelen at når ISO New England-- og ISO New England 486 00:27:53,530 --> 00:27:58,910 bidrar til å sette energi Satsene for regionen. 487 00:27:58,910 --> 00:28:01,110 >> Og det sier det strekker en forespørsel til forbrukerne 488 00:28:01,110 --> 00:28:05,870 til frivillig å bevare høy energi, på grunn av høy varme og fuktighet. 489 00:28:05,870 --> 00:28:08,680 Og dette var tilbake den 18. juli. 490 00:28:08,680 --> 00:28:12,600 Og så jeg lykkelig Tweet tilbake, Hey, ISO New England, Grønn Harvard. 491 00:28:12,600 --> 00:28:14,880 Vi gjør vår del i løpet av her i forskning databehandling. 492 00:28:14,880 --> 00:28:16,760 Og dette er fordi vi gjør vitenskap. 493 00:28:16,760 --> 00:28:20,380 >> Og så mye som folk sier vitenskap aldri sover, kan vitenskapen vente. 494 00:28:20,380 --> 00:28:25,030 Så vi er i stand til å stenge vår systemer, dra nytte av karakteren priser 495 00:28:25,030 --> 00:28:30,550 på vår strømregningen, og hjelp hele New England 496 00:28:30,550 --> 00:28:35,910 regionen med Shedding mange megawatt last. 497 00:28:35,910 --> 00:28:40,020 Så det er den unike ting som forskjellig om vitenskapelig databehandling data 498 00:28:40,020 --> 00:28:48,890 sentre og de som er i full produksjon 24/7. 499 00:28:48,890 --> 00:28:51,670 >> Så la oss bare ta et annet gir her. 500 00:28:51,670 --> 00:28:55,170 Så, jeg ønsker å diskutere kaos litt. 501 00:28:55,170 --> 00:28:59,900 Og jeg ønsker å sette den i regi av lagring. 502 00:28:59,900 --> 00:29:03,150 Så for de som slag av strevde 503 00:29:03,150 --> 00:29:08,680 få hodet rundt hva petabyte Lagrings se ut, dette er et eksempel. 504 00:29:08,680 --> 00:29:11,660 Og dette er den slags ting Jeg håndtere hele tiden. 505 00:29:11,660 --> 00:29:15,550 >> Hver og en av disse små gutter er en fire terabyte harddisk, 506 00:29:15,550 --> 00:29:17,420 slik at du kan slags telle dem opp. 507 00:29:17,420 --> 00:29:21,370 Vi får nå mellom en til en og halv petanivå 508 00:29:21,370 --> 00:29:22,970 i en standard industri rack. 509 00:29:22,970 --> 00:29:26,430 Og vi har rom og rom, som du så i det tidligere bilde med John 510 00:29:26,430 --> 00:29:31,230 og jeg, full av disse rack med utstyr. 511 00:29:31,230 --> 00:29:40,400 Så det blir veldig, veldig enkel å bygge massive lagringsarrayer 512 00:29:40,400 --> 00:29:44,140 >> Det er stort sett lett innsiden av Unix til slags telle opp hvordan ting går. 513 00:29:44,140 --> 00:29:48,270 Så dette er å telle hvor mange MAU punktene har jeg kom dit. 514 00:29:48,270 --> 00:29:50,880 Så det er 423 skjæringspunkter. 515 00:29:50,880 --> 00:29:55,660 Og så hvis jeg kjører noen sketchy awk, jeg kan legge opp, i dette systemet, 516 00:29:55,660 --> 00:29:59,080 Det var 7,3 petabyte av tilgjengelig lagringsplass. 517 00:29:59,080 --> 00:30:01,350 >> Så det er en masse ting. 518 00:30:01,350 --> 00:30:03,030 Og lagring er virkelig hardt. 519 00:30:03,030 --> 00:30:06,850 Og likevel, for noen grunn, dette er en bransje trend. 520 00:30:06,850 --> 00:30:11,500 Når jeg snakker med våre forskere og våre lærere og si, 521 00:30:11,500 --> 00:30:14,180 hei, jeg kan kjøre lagringsplass for deg. 522 00:30:14,180 --> 00:30:17,690 Dessverre, jeg må gjenopprette kostnadene for lagring. 523 00:30:17,690 --> 00:30:19,430 Jeg får denne virksomheten. 524 00:30:19,430 --> 00:30:23,300 Og folk referere Newegg eller de refererer til Staples 525 00:30:23,300 --> 00:30:27,040 eller hvor mye de kan kjøpe en enkelt terabyte harddisk for. 526 00:30:27,040 --> 00:30:29,390 >> Så dette, vil du merke her, at det er en anelse. 527 00:30:29,390 --> 00:30:31,310 Det er ett disken her. 528 00:30:31,310 --> 00:30:33,290 Og hvis vi går tilbake, har jeg mange. 529 00:30:33,290 --> 00:30:36,130 Ikke bare har jeg har mange, har jeg sofistikerte sammenkoblinger 530 00:30:36,130 --> 00:30:38,750 å være i stand til å sy disse tingene sammen. 531 00:30:38,750 --> 00:30:44,080 Slik at risikoen forbundet med disse store lagringsarrayer er ikke ubetydelig. 532 00:30:44,080 --> 00:30:46,370 >> Faktisk tok vi til Internett og vi skrev 533 00:30:46,370 --> 00:30:51,670 en liten historie om en velmenende, veloppdragent direktør for forskning 534 00:30:51,670 --> 00:30:54,640 computing-- tilfeldigvis har en merkelig engelsk accent-- prøver 535 00:30:54,640 --> 00:30:59,930 å forklare for en forsker hva ingen strek backup mappe faktisk 536 00:30:59,930 --> 00:31:01,070 betydde. 537 00:31:01,070 --> 00:31:05,690 Det var litt av en lang, litt historie, en god fire minutter av oppdagelse. 538 00:31:05,690 --> 00:31:09,380 >> Og merk, jeg har en forferdelig mye mindre plass enn damen 539 00:31:09,380 --> 00:31:11,800 som synger om alle bass. 540 00:31:11,800 --> 00:31:13,910 Vi er ganske mange kontoer lavere. 541 00:31:13,910 --> 00:31:16,160 Men uansett, dette er en viktig ting å tenke på, 542 00:31:16,160 --> 00:31:18,532 når det gjelder hva som kan gå galt. 543 00:31:18,532 --> 00:31:20,990 Så hvis jeg får en harddisk, og Jeg kaster det i en Unix-maskin, 544 00:31:20,990 --> 00:31:24,300 og jeg begynner å skrive ting for det, det er en magnet, det er en kjøretur hode, 545 00:31:24,300 --> 00:31:30,150 det er angivelig, en en eller en null blir skrevet ned på den enheten. 546 00:31:30,150 --> 00:31:32,180 >> Motors-- spinny, Twirly ting alltid bryte. 547 00:31:32,180 --> 00:31:33,490 Tenke på ting som bryter. 548 00:31:33,490 --> 00:31:35,170 Det har alltid vært spinny, Twirly ting. 549 00:31:35,170 --> 00:31:38,560 Skrivere, diskettstasjoner motorkjøretøy, etc. 550 00:31:38,560 --> 00:31:40,590 Alt som beveger seg er sannsynlig å bryte. 551 00:31:40,590 --> 00:31:42,575 >> Så du trenger motorer, du må kjøre firmware, 552 00:31:42,575 --> 00:31:47,110 du trenger SAS / SATA-kontrollere, ledninger, firmware på SAS / SATA-kontrollere, 553 00:31:47,110 --> 00:31:48,530 lavt nivå blokker. 554 00:31:48,530 --> 00:31:54,580 Plukk lagringskontroller fil systemkode, avhengig av hva en kan det være, 555 00:31:54,580 --> 00:31:56,780 hvordan du sy ting sammen. 556 00:31:56,780 --> 00:32:00,956 Og virtuelt minne sjef sider, DRAM hente og butikker. 557 00:32:00,956 --> 00:32:02,705 Deretter får du en annen stable, som er snill 558 00:32:02,705 --> 00:32:05,440 av nedover listen på denne en, algoritmer, brukere. 559 00:32:05,440 --> 00:32:09,050 >> Og hvis du multipliserer dette opp, jeg vet ikke hvor mange, 560 00:32:09,050 --> 00:32:11,640 det er en rekke steder hvor ting kan gå sidelengs. 561 00:32:11,640 --> 00:32:14,430 Jeg mener, det er et eksempel om matematikk. 562 00:32:14,430 --> 00:32:18,070 Men det er like gøy å tenke på hvor mange måter ting kan gå galt, 563 00:32:18,070 --> 00:32:21,650 bare for en harddisk. 564 00:32:21,650 --> 00:32:25,440 Vi er allerede på 300 petabyte, så forestille antall diskstasjoner 565 00:32:25,440 --> 00:32:27,741 du trenger på 300 petabyte som kan gå galt. 566 00:32:27,741 --> 00:32:28,240 567 00:32:28,240 --> 00:32:30,390 Ikke bare at-- så det er lagring. 568 00:32:30,390 --> 00:32:34,220 Og som henspiller på den person jeg vil gjerne se 569 00:32:34,220 --> 00:32:38,780 skriv scenen igjen, som er det kaos Monkey. 570 00:32:38,780 --> 00:32:43,140 Så på et visst punkt, blir det enda større enn bare disken 571 00:32:43,140 --> 00:32:43,920 problem. 572 00:32:43,920 --> 00:32:50,610 >> Og så, disse fine damer og gentleman som kjører en streaming video tjeneste 573 00:32:50,610 --> 00:32:55,430 innså at deres datamaskiner var også stor og også svært komplisert 574 00:32:55,430 --> 00:33:00,010 og også å yte service til en forferdelig mye folk. 575 00:33:00,010 --> 00:33:05,180 De har fått 37 millioner members-- og dette lysbildet er kanskje et år eller så old-- 576 00:33:05,180 --> 00:33:07,350 tusenvis av enheter. 577 00:33:07,350 --> 00:33:10,810 Det finnes milliarder av timer med video. 578 00:33:10,810 --> 00:33:13,600 De logger milliarder av hendelser en dag. 579 00:33:13,600 --> 00:33:17,330 >> Og du kan se, de fleste folk se fjernsynet senere i kveld, 580 00:33:17,330 --> 00:33:19,429 og det er langt viktigere enn alt. 581 00:33:19,429 --> 00:33:21,220 Og så ønsket de å være i stand til å sørge for at 582 00:33:21,220 --> 00:33:24,854 at tjenesten var oppe og pålitelig og jobber for dem. 583 00:33:24,854 --> 00:33:27,020 Så kom de opp med dette tingen kalt Chaos Monkey. 584 00:33:27,020 --> 00:33:29,000 Det er stykke programvare som, når du tror 585 00:33:29,000 --> 00:33:34,190 om å snakke om tittelen av hele denne presentasjonen, 586 00:33:34,190 --> 00:33:36,530 skala-out betyr at du bør teste denne ting. 587 00:33:36,530 --> 00:33:38,585 Det er ikke bra bare å ha en million maskiner. 588 00:33:38,585 --> 00:33:40,460 Så fine ting om dette er, Chaos Monkey 589 00:33:40,460 --> 00:33:43,090 er en tjeneste der identifiserer grupper av systemer 590 00:33:43,090 --> 00:33:47,220 og tilfeldig avslutter en av systemene i en gruppe. 591 00:33:47,220 --> 00:33:48,429 Awesome. 592 00:33:48,429 --> 00:33:50,220 Så jeg vet ikke om deg, men hvis jeg noen gang 593 00:33:50,220 --> 00:33:52,990 bygget et system som er avhengig av andre systemene snakker med hverandre, 594 00:33:52,990 --> 00:33:55,865 du ta en av dem ut, Sannsynligheten for hele tingen arbeids, 595 00:33:55,865 --> 00:33:57,130 avtar raskt. 596 00:33:57,130 --> 00:34:00,475 >> Og så denne stykke programvare kjører rundt Netflix infrastruktur. 597 00:34:00,475 --> 00:34:03,100 Heldigvis, sier det det går bare i arbeidstid med den hensikt 598 00:34:03,100 --> 00:34:05,810 at ingeniører vil være våken og i stand til å svare. 599 00:34:05,810 --> 00:34:08,020 Så er det disse typene av ting vi er nå 600 00:34:08,020 --> 00:34:13,360 å måtte gjøre for å forurolige vår databehandling miljøer, å innføre kaos 601 00:34:13,360 --> 00:34:15,739 og å innføre kompleksitet. 602 00:34:15,739 --> 00:34:19,139 >> Så hvem, i sitt rette sinn, ville gjerne velge 603 00:34:19,139 --> 00:34:22,540 å arbeide med en Chaos Monkey? 604 00:34:22,540 --> 00:34:24,150 Stå på, synes han å peke meg. 605 00:34:24,150 --> 00:34:28,719 Vel, jeg tror jeg should-- søt. 606 00:34:28,719 --> 00:34:32,909 Men problemet er at du får ikke valget. 607 00:34:32,909 --> 00:34:37,440 The Chaos Monkey, som du kan se, velger du. 608 00:34:37,440 --> 00:34:42,650 >> Og dette er problemet med databehandling på skalaen er at du ikke kan unngå dette. 609 00:34:42,650 --> 00:34:49,989 Det er en uunngåelig kompleksitet og av omfanget og av vår evolusjon, 610 00:34:49,989 --> 00:34:53,280 på noen måter, av databehandling ekspertise. 611 00:34:53,280 --> 00:34:55,510 Og husk, dette er en ting å huske, 612 00:34:55,510 --> 00:35:00,030 Chaos Monkeys kjærlighet snowflakes-- kjærlighet snøflak. 613 00:35:00,030 --> 00:35:03,470 En snowflake-- vi har forklart Chaos Monkey-- men et snøfnugg 614 00:35:03,470 --> 00:35:09,630 er en server som er unik og spesiell og delikat og individuell 615 00:35:09,630 --> 00:35:11,770 og vil aldri bli reprodusert. 616 00:35:11,770 --> 00:35:14,790 >> Vi finner ofte snøfnugg tjeneste i vårt miljø. 617 00:35:14,790 --> 00:35:16,700 Og vi prøver alltid og smelte snøfnugg tjeneste. 618 00:35:16,700 --> 00:35:18,880 Men hvis du finner en server i miljøet 619 00:35:18,880 --> 00:35:23,240 som er kritisk for lang levetid av organisasjonen og den smelter, 620 00:35:23,240 --> 00:35:25,300 du kan ikke sette den sammen igjen. 621 00:35:25,300 --> 00:35:28,071 Så Chaos Monkey jobb var å gå og avslutte tilfeller. 622 00:35:28,071 --> 00:35:30,820 Hvis Chaos Monkey smelter snøfnugg, du er over, så er du ferdig. 623 00:35:30,820 --> 00:35:34,390 624 00:35:34,390 --> 00:35:37,950 Jeg ønsker å snakke om noen maskinvare som vi er 625 00:35:37,950 --> 00:35:40,415 ser i form av liksom skalere-aktiviteter også. 626 00:35:40,415 --> 00:35:43,810 Og noen unike ting som er i og rundt science aktivitet. 627 00:35:43,810 --> 00:35:46,990 Vi begynner nå å se, huske denne enheten av problemet, dette stativet? 628 00:35:46,990 --> 00:35:51,780 Så dette er et rack av GPGPUs-- så generelle purpose grafikkbehandlingsenhetene. 629 00:35:51,780 --> 00:35:55,790 >> Vi har disse ligger i vår data sentrum, 100 eller så miles away. 630 00:35:55,790 --> 00:35:59,780 Denne spesielle stativ er ca 96 tera FLOPS 631 00:35:59,780 --> 00:36:04,090 av single-presisjon matematikk stand å levere ut baksiden av det. 632 00:36:04,090 --> 00:36:10,530 Og vi har for 130-odd kortene i en forekomst 633 00:36:10,530 --> 00:36:16,620 at we-- multippel stativer av denne forekomsten. 634 00:36:16,620 --> 00:36:22,730 >> Så dette er interessant i den forstand at de generelt grafikkprosesser 635 00:36:22,730 --> 00:36:27,880 er i stand til å gjøre matematikk utrolig raskt for svært lave mengder av energi. 636 00:36:27,880 --> 00:36:32,060 Så det er en stor uptick i de vitenskapelig databehandling områder, 637 00:36:32,060 --> 00:36:36,400 ser på grafikk prosesseringsenheter i en stor måte. 638 00:36:36,400 --> 00:36:41,990 >> Så jeg kjørte noen Mcollective gjennom vår marionett infrastruktur 639 00:36:41,990 --> 00:36:45,330 i går, veldig begeistret for dette. 640 00:36:45,330 --> 00:36:48,260 bare kort av en petaflop av enkel presisjon. 641 00:36:48,260 --> 00:36:52,440 Bare for å være klar her, dette liten multiplikator er 3.95. 642 00:36:52,440 --> 00:36:54,820 Dobbel presisjon matte ville være om lag 1,2, 643 00:36:54,820 --> 00:36:57,010 men min Twitter-feed så måte bedre hvis jeg 644 00:36:57,010 --> 00:37:02,670 sa vi hadde nesten en petaflop av single-presisjon GPGPUs. 645 00:37:02,670 --> 00:37:04,220 >> Men det blir det. 646 00:37:04,220 --> 00:37:06,280 Det begynner å bli veldig, veldig imponerende. 647 00:37:06,280 --> 00:37:08,550 Og hvorfor gjør vi dette? 648 00:37:08,550 --> 00:37:11,570 Fordi kvantekjemi, blant annet 649 00:37:11,570 --> 00:37:15,300 men vi begynner å designe noen nye solceller. 650 00:37:15,300 --> 00:37:20,210 >> Og så Alan Aspuru-Guzik, som er en professor i chemistry-- min partner 651 00:37:20,210 --> 00:37:22,390 i crime-- for de siste årene. 652 00:37:22,390 --> 00:37:25,660 Vi har vært å skyve konvolutt på databehandling. 653 00:37:25,660 --> 00:37:30,250 Og GPGPU er ideell teknologien for å være i stand til å gjøre 654 00:37:30,250 --> 00:37:34,760 en forferdelig mye komplisert matematikk, veldig, veldig raskt. 655 00:37:34,760 --> 00:37:36,750 >> Så med skala, kommer nye utfordringer. 656 00:37:36,750 --> 00:37:41,070 Så stor scale-- du må være forsiktig med hvordan du koble denne ting. 657 00:37:41,070 --> 00:37:45,300 Og vi har visse nivåer av obsessive compulsive disorder. 658 00:37:45,300 --> 00:37:49,530 Disse bildene trolig kjøre mye av folks nøtter. 659 00:37:49,530 --> 00:37:53,390 Og skap som ikke er kablet spesielt godt 660 00:37:53,390 --> 00:37:56,050 drive vårt nettverk og anlegg ingeniører nøtter. 661 00:37:56,050 --> 00:37:58,620 Pluss det er også luftstrømmen problemer som du må inneholde. 662 00:37:58,620 --> 00:38:01,430 >> Så dette er ting som jeg aldri ville ha tenkt på. 663 00:38:01,430 --> 00:38:03,480 Med skala, kommer mer kompleksitet. 664 00:38:03,480 --> 00:38:05,869 Dette er en ny type filsystem. 665 00:38:05,869 --> 00:38:06,410 Det er kjempebra. 666 00:38:06,410 --> 00:38:07,660 Det er en petabyte. 667 00:38:07,660 --> 00:38:09,905 Den kan lagre 1,1 milliarder filer. 668 00:38:09,905 --> 00:38:15,940 Den kan lese og skrive til 13 gigabyte og 20 gigabyte en second-- gigabyte 669 00:38:15,940 --> 00:38:17,150 et sekund. 670 00:38:17,150 --> 00:38:20,900 Så det kan losse terabyte på kort tid i det hele tatt. 671 00:38:20,900 --> 00:38:22,070 >> Og det er svært tilgjengelig. 672 00:38:22,070 --> 00:38:26,989 Og det har utrolig oppslag rates-- 220,000 oppslag et sekund. 673 00:38:26,989 --> 00:38:29,780 Og det er mange forskjellige mennesker bygge denne type systemer. 674 00:38:29,780 --> 00:38:32,830 Og du kan se det her grafisk. 675 00:38:32,830 --> 00:38:35,800 Dette er en av våre filsystemer som er under belastning, ganske 676 00:38:35,800 --> 00:38:41,250 lykkelig lesing på bare kort 22 gigabyte i sekundet. 677 00:38:41,250 --> 00:38:42,790 Så det er cool-- så kompleksitet. 678 00:38:42,790 --> 00:38:47,230 >> Så med kompleksitet og omfang, kommer mer kompleksitet, ikke sant? 679 00:38:47,230 --> 00:38:51,830 Dette er en av våre mange mange nettverksdiagrammer, 680 00:38:51,830 --> 00:38:54,970 der du har mange forskjellige chassis alle støtter opp 681 00:38:54,970 --> 00:38:57,730 i en hovedkjerne bryter, koblet til lagring, 682 00:38:57,730 --> 00:39:00,731 tilkobling til lav latency forbindelser. 683 00:39:00,731 --> 00:39:03,605 Og deretter gjennom dette siden huset, er bare alt av ledelsen 684 00:39:03,605 --> 00:39:09,740 at du må være i stand til å ta opp disse systemene fra en ekstern plassering. 685 00:39:09,740 --> 00:39:12,070 Så skala har mye kompleksiteten med den. 686 00:39:12,070 --> 00:39:14,910 687 00:39:14,910 --> 00:39:17,785 >> Gire igjen, la oss gå tilbake og har en liten flekk av vitenskap. 688 00:39:17,785 --> 00:39:21,450 Så husk, forskning databehandling og denne lille shim-- 689 00:39:21,450 --> 00:39:25,310 litt rosa mellomlegg mellom fakultetet og alle sine algoritmer 690 00:39:25,310 --> 00:39:30,650 og alle de kule vitenskap og alle dette strøm og kjøling og datasenter 691 00:39:30,650 --> 00:39:35,330 gulv og nettverksbygging og store datamaskiner og serviceavdelinger og helpdesk 692 00:39:35,330 --> 00:39:39,330 og så forth-- og så er vi bare denne lille mellomlegg mellom dem. 693 00:39:39,330 --> 00:39:42,820 >> Hva vi har begynt å se er at verdens 694 00:39:42,820 --> 00:39:45,730 vært i stand til å bygge disse store datasentre 695 00:39:45,730 --> 00:39:48,020 og være i stand til å bygge disse store datamaskiner. 696 00:39:48,020 --> 00:39:49,420 Vi har fått ganske god på det. 697 00:39:49,420 --> 00:39:53,600 Hva vi er ikke veldig god på dette lite mellomlegg mellom forskning 698 00:39:53,600 --> 00:39:56,670 og bart metall og teknologien. 699 00:39:56,670 --> 00:39:58,600 Og det er vanskelig. 700 00:39:58,600 --> 00:40:03,330 >> Og så har vi vært i stand til å ansette folk som lever i denne verden. 701 00:40:03,330 --> 00:40:07,590 Og mer nylig, snakket vi til National Science Foundation og sa: 702 00:40:07,590 --> 00:40:11,440 denne skalaen ut ting er stor, men vi kan ikke få våre forskere 703 00:40:11,440 --> 00:40:13,690 på disse store kompliserte maskiner. 704 00:40:13,690 --> 00:40:16,040 Og så har det vært en antall forskjellige programmer 705 00:40:16,040 --> 00:40:20,100 hvor vi virkelig var for det meste bekymret prøver 706 00:40:20,100 --> 00:40:22,800 for å se om vi kunne forvandle campus infrastruktur. 707 00:40:22,800 --> 00:40:25,850 >> Det finnes en rekke programmer rundt nasjonale sentre. 708 00:40:25,850 --> 00:40:28,300 Og så, oss selv, vår venner på Clemson, 709 00:40:28,300 --> 00:40:32,620 University of Wisconsin Madison, Southern California, Utah, og Hawaii 710 00:40:32,620 --> 00:40:35,780 slags kom sammen for å se på dette problemet. 711 00:40:35,780 --> 00:40:39,340 Og denne lille grafen her er den lange halen av vitenskap. 712 00:40:39,340 --> 00:40:41,602 >> Så dette er-- det gjør ikke Uansett hva som skjer på denne aksen, 713 00:40:41,602 --> 00:40:45,485 men denne aksen er faktisk nummer av jobbene går gjennom klyngen. 714 00:40:45,485 --> 00:40:48,940 Så det er 350 000 i løpet av uansett tidsperiode. 715 00:40:48,940 --> 00:40:51,730 Dette er våre vanlige mistenkte langs bunnen her. 716 00:40:51,730 --> 00:40:55,992 Faktisk er det Alan Aspuru-Guzik, som vi var bare snakker om-- tonn 717 00:40:55,992 --> 00:40:58,700 og tonnevis av beregnings-, egentlig effektive, vet hva han gjør. 718 00:40:58,700 --> 00:41:02,840 >> Her er en annen lab som jeg skal snakke om i en moment-- John Kovac laboratorium. 719 00:41:02,840 --> 00:41:03,610 De har fått det. 720 00:41:03,610 --> 00:41:04,210 De er bra. 721 00:41:04,210 --> 00:41:04,830 De er fornøyd. 722 00:41:04,830 --> 00:41:05,960 De er databehandling. 723 00:41:05,960 --> 00:41:07,664 Stor vitenskap blir gjort. 724 00:41:07,664 --> 00:41:09,580 Og så, som du snill av komme ned her, det 725 00:41:09,580 --> 00:41:12,110 er andre grupper kjører ikke mange arbeidsplasser. 726 00:41:12,110 --> 00:41:13,410 >> Og hvorfor er det? 727 00:41:13,410 --> 00:41:15,080 Er det fordi computing er for vanskelig? 728 00:41:15,080 --> 00:41:19,580 Er det fordi de ikke vet hvordan de skal? 729 00:41:19,580 --> 00:41:22,880 Vi vet ikke, fordi vi har gått og kikket. 730 00:41:22,880 --> 00:41:25,620 Og så det er hva dette Prosjektet handler om, 731 00:41:25,620 --> 00:41:27,830 er lokalt, innenfor hver av disse regionene 732 00:41:27,830 --> 00:41:32,660 å se til veier der vi kan engasjere med fakultetet og forskere 733 00:41:32,660 --> 00:41:36,400 faktisk i den nederste enden av halen og forstår hva de gjør. 734 00:41:36,400 --> 00:41:37,920 >> Så det er noe som vi er faktisk lidenskapelig om. 735 00:41:37,920 --> 00:41:39,920 Og det er noe som vitenskapen vil ikke fortsette 736 00:41:39,920 --> 00:41:44,260 for å gå videre til vi løse noen av disse kant tilfeller. 737 00:41:44,260 --> 00:41:46,590 Andre biter av vitenskap som kommer opp-- alle 738 00:41:46,590 --> 00:41:48,260 sett Large Hadron Collider. 739 00:41:48,260 --> 00:41:49,540 Awesome, ikke sant? 740 00:41:49,540 --> 00:41:52,960 Dette ting alle løp ut på Holyoke. 741 00:41:52,960 --> 00:41:56,510 Vi built-- den aller første vitenskap som skjedde i Holyoke 742 00:41:56,510 --> 00:41:59,130 var samarbeidet mellom oss selv og Boston University. 743 00:41:59,130 --> 00:42:01,510 Så det er virkelig, virkelig kult. 744 00:42:01,510 --> 00:42:04,410 >> Dette er et morsomt stykke av vitenskap for skala. 745 00:42:04,410 --> 00:42:07,650 Dette er en digital tilgang til en sky-tallet ved Harvard. 746 00:42:07,650 --> 00:42:09,170 I utgangspunktet er det en plate arkiv. 747 00:42:09,170 --> 00:42:13,350 Hvis du går ned Oxford-- Garden Street, beklager, 748 00:42:13,350 --> 00:42:16,560 du finner en av observatoriet Bygningene er i utgangspunktet fullt 749 00:42:16,560 --> 00:42:19,480 på om lag en halv million plater. 750 00:42:19,480 --> 00:42:24,410 >> Og dette er bilder av den himmelen om natten, over 100 år. 751 00:42:24,410 --> 00:42:28,760 Så det er en hel rigg satt opp her for å digitalisere disse platene, 752 00:42:28,760 --> 00:42:32,100 ta bilder av dem, registrer dem, sette dem på en datamaskin. 753 00:42:32,100 --> 00:42:36,410 Og det er en petabyte og et halvt år, akkurat det-- ett lite prosjekt. 754 00:42:36,410 --> 00:42:37,530 >> Dette er andre prosjekter. 755 00:42:37,530 --> 00:42:42,800 Dette Pan-STARRS-prosjektet gjør en full bredt panorama undersøkelsen, 756 00:42:42,800 --> 00:42:47,390 leter etter i nærheten Earth asteroider og forbigående himmelfenomener. 757 00:42:47,390 --> 00:42:52,100 Som en molekylær biofysiker, jeg elsker ordet forbigående himmelsk begivenhet. 758 00:42:52,100 --> 00:42:55,050 Jeg er ikke helt sikker på hva det er, men uansett, vi leter etter dem. 759 00:42:55,050 --> 00:43:00,372 >> Og vi genererer 30 terabyte en kveld ut av disse teleskoper. 760 00:43:00,372 --> 00:43:03,330 Og det er ikke egentlig en båndbredde problem, det er som en FedEx problem. 761 00:43:03,330 --> 00:43:08,420 Så du setter lagring på van og du sender det uansett hva det er. 762 00:43:08,420 --> 00:43:10,570 >> Bicep er virkelig interesting-- så bakgrunnen bildebehandling 763 00:43:10,570 --> 00:43:13,850 kosmisk ekstra galaktisk polarisering. 764 00:43:13,850 --> 00:43:16,880 Når jeg først begynte å jobbe ved Harvard syv eller så, 765 00:43:16,880 --> 00:43:21,440 åtte år siden, husker jeg jobber med dette prosjektet 766 00:43:21,440 --> 00:43:26,010 og det gjorde egentlig ikke synke hjem til hvorfor polarisert lys 767 00:43:26,010 --> 00:43:29,770 fra den kosmiske mikrobølge bakgrunn vil være viktig, 768 00:43:29,770 --> 00:43:30,800 før dette skjedde. 769 00:43:30,800 --> 00:43:34,580 >> Og dette var John Kovac, hvem jeg snakket med før, 770 00:43:34,580 --> 00:43:42,030 bruker millioner på millioner av CPU timer, i våre anlegg og andre, 771 00:43:42,030 --> 00:43:46,600 til utgangspunktet stirre inn på innsiden av universets første øyeblikk 772 00:43:46,600 --> 00:43:49,150 etter Big Bang, og prøver å forstå 773 00:43:49,150 --> 00:43:51,290 Einsteins generelle relativitetsteorien. 774 00:43:51,290 --> 00:43:56,040 Det er tankene blåser at våre datamaskiner hjelper oss å avdekke og stirre 775 00:43:56,040 --> 00:43:59,280 inn i selve opprinnelsen til hvorfor vi er her. 776 00:43:59,280 --> 00:44:03,450 >> Så når du snakker om skala, dette er noen alvorlige skala. 777 00:44:03,450 --> 00:44:09,260 Den andre tingen av skalaen er, at bestemt prosjekt treffe disse gutta. 778 00:44:09,260 --> 00:44:15,320 Og dette er responskurven for bicepsen [Uhørbart] Dette var vår lille spørreundersøkelse. 779 00:44:15,320 --> 00:44:19,220 >> Og du kan se her, livet var bra før om her, 780 00:44:19,220 --> 00:44:21,200 som var når Kunngjøringen kom ut. 781 00:44:21,200 --> 00:44:24,120 Og du har fått bokstavelig sekunder for å svare 782 00:44:24,120 --> 00:44:29,020 til skalerings hendelse som tilsvarer dette lille prikken her, 783 00:44:29,020 --> 00:44:32,200 som endte opp med skiftende fire eller så terabyte med data 784 00:44:32,200 --> 00:44:36,370 gjennom webserveren som day-- ganske hårete. 785 00:44:36,370 --> 00:44:38,210 >> Og så er det disse typer ting som 786 00:44:38,210 --> 00:44:43,040 kan skje med deg i infrastrukturen hvis du ikke designe for skala. 787 00:44:43,040 --> 00:44:45,630 Vi hadde litt av en rykke ut den dagen, for å være 788 00:44:45,630 --> 00:44:50,440 i stand til å spenne ut nok webtjeneste å holde nettstedet oppe og går. 789 00:44:50,440 --> 00:44:53,399 Og vi var vellykket. 790 00:44:53,399 --> 00:44:55,190 Dette er en liten e-post det er slags søt. 791 00:44:55,190 --> 00:45:00,245 Dette er en post til Mark Vogelsberger, og Lars Hernquist, er hvem 792 00:45:00,245 --> 00:45:02,650 et fakultet medlem her ved Harvard. 793 00:45:02,650 --> 00:45:03,570 Mer om Mark senere. 794 00:45:03,570 --> 00:45:05,990 Men jeg tror dette er en slags oppsummerer slag 795 00:45:05,990 --> 00:45:09,920 av hvor databehandling er i forskning databehandling. 796 00:45:09,920 --> 00:45:12,070 Hei, team, siden i fjor Tirsdag, plaget dere opp 797 00:45:12,070 --> 00:45:15,470 enn 28% av den nye klynge, som kombinert 798 00:45:15,470 --> 00:45:20,040 er over 78 år CPU på bare tre dager. 799 00:45:20,040 --> 00:45:22,502 Og jeg sa, det er fortsatt bare bare fredag ​​morgen. 800 00:45:22,502 --> 00:45:23,460 Dette er ganske fantastisk! 801 00:45:23,460 --> 00:45:24,740 Glad fredag! 802 00:45:24,740 --> 00:45:27,450 >> Så jeg gir dem datapunktene. 803 00:45:27,450 --> 00:45:30,260 Og så det var ganske interessant. 804 00:45:30,260 --> 00:45:34,840 Så husk om Mark, vil han komme tilbake inn i bildet i en liten bit. 805 00:45:34,840 --> 00:45:36,935 Så skala-out computing er overalt. 806 00:45:36,935 --> 00:45:41,080 >> Vi er selv hjelpe folk ser på hvordan NBA-funksjoner, 807 00:45:41,080 --> 00:45:43,140 og hvor folk er kaster baller fra. 808 00:45:43,140 --> 00:45:47,580 Jeg forstår ikke helt dette spillet også vel, men tilsynelatende, det er en stor avtale. 809 00:45:47,580 --> 00:45:50,610 Det er hoops og boller og penger. 810 00:45:50,610 --> 00:45:55,300 >> Og så, vår database, vi bygget en liten 500 [uhørbart] 811 00:45:55,300 --> 00:45:58,170 parallell prosessor klynge, et par terabyte med RAM, 812 00:45:58,170 --> 00:46:03,590 å være i stand til å bygge dette for Kirk og hans team. 813 00:46:03,590 --> 00:46:08,524 Og de gjør databehandling på en helt annen måte. 814 00:46:08,524 --> 00:46:10,440 Nå er dette prosjektet vi er involvert med det er 815 00:46:10,440 --> 00:46:14,880 absolutt fascinerende, rundt nevrale plastisitet connectomics og genomisk 816 00:46:14,880 --> 00:46:20,960 imprinting-- tre svært tung treffer forskningsområder 817 00:46:20,960 --> 00:46:24,650 at vi slåss med på en dag-til-dag basis. 818 00:46:24,650 --> 00:46:30,670 Ideen om at hjernen vår er under plast stress når vi er unge. 819 00:46:30,670 --> 00:46:34,980 Og mye av vår voksen atferd er formet av erfaring i barndommen. 820 00:46:34,980 --> 00:46:37,040 Så dette er en stor dealio. 821 00:46:37,040 --> 00:46:41,360 >> Og så dette er arbeid som er finansiert av National Institutes of Mental Health. 822 00:46:41,360 --> 00:46:46,860 Og vi prøver å i utgangspunktet, gjennom en masse av store data 823 00:46:46,860 --> 00:46:51,970 og store dataanalyse, snill av likemann i vår menneskelige hjerne 824 00:46:51,970 --> 00:46:54,870 gjennom en rekke forskjellige teknikker. 825 00:46:54,870 --> 00:47:00,360 >> Så jeg ønsket å stoppe og type bare ta en pause for en liten stund. 826 00:47:00,360 --> 00:47:04,160 Utfordringen med fjernkontroll datasentre er det er langt unna. 827 00:47:04,160 --> 00:47:05,520 Det kan umulig fungere. 828 00:47:05,520 --> 00:47:07,590 Jeg trenger mine data nærheten. 829 00:47:07,590 --> 00:47:10,730 Jeg trenger å gjøre min forskning i min lab. 830 00:47:10,730 --> 00:47:18,620 >> Og så jeg slags tok et eksempel på en funksjonell magnetresonanstomografi 831 00:47:18,620 --> 00:47:22,260 datasett fra våre data sentrum i Western Mass. 832 00:47:22,260 --> 00:47:24,660 og koblet den til min desktop i Cambridge. 833 00:47:24,660 --> 00:47:27,440 Og jeg skal spille denne lille videoen. 834 00:47:27,440 --> 00:47:29,750 Forhåpentligvis vil det slags arbeide. 835 00:47:29,750 --> 00:47:33,480 >> Så dette er meg å gå gjennom sjekke mine GPU jobber. 836 00:47:33,480 --> 00:47:35,430 Og jeg sjekker at VNC er opp. 837 00:47:35,430 --> 00:47:36,810 Og dette er en smart VNC. 838 00:47:36,810 --> 00:47:38,970 Dette er en VNC med 3D-stykker. 839 00:47:38,970 --> 00:47:41,975 Og så, som du kan se om kort tid, dette er meg spinne denne hjernen rundt. 840 00:47:41,975 --> 00:47:44,460 Jeg prøver å slags få det orientert. 841 00:47:44,460 --> 00:47:49,574 Og da kan jeg gå gjennom mange forskjellige skiver av MRI data. 842 00:47:49,574 --> 00:47:51,490 Og det eneste som er annerledes om dette 843 00:47:51,490 --> 00:47:55,160 er, det kommer over ledningen fra Western Mass. til skrivebordet mitt. 844 00:47:55,160 --> 00:47:57,300 Og sin gjengivelse raskere enn min stasjonære, 845 00:47:57,300 --> 00:48:02,840 fordi jeg ikke har en $ 4000 grafikkort i skrivebordet mitt, som 846 00:48:02,840 --> 00:48:04,262 vi har ut Western Mass. 847 00:48:04,262 --> 00:48:05,720 Selvfølgelig, jeg prøver å være flink. 848 00:48:05,720 --> 00:48:08,859 Jeg kjører GLX tannhjul i bakgrunn, mens du gjør alt dette, 849 00:48:08,859 --> 00:48:10,900 å sørge for at jeg kan reke grafikkortet, 850 00:48:10,900 --> 00:48:14,140 og at alle slags fungerer og resten av det. 851 00:48:14,140 --> 00:48:16,700 Men det viktigste er, er dette er 100 miles away. 852 00:48:16,700 --> 00:48:20,460 Og du kan se av dette at det er ingen åpenbare latency. 853 00:48:20,460 --> 00:48:24,600 Ting å holde sammen ganske godt. 854 00:48:24,600 --> 00:48:28,907 >> Og så, i seg selv, er et eksempel og noen innsikt 855 00:48:28,907 --> 00:48:31,490 i hvordan databehandling og skala-out databehandling kommer til å skje. 856 00:48:31,490 --> 00:48:35,330 Vi jobber alle på tynnere og tynnere enheter. 857 00:48:35,330 --> 00:48:36,870 Vår bruk av tabletter øker. 858 00:48:36,870 --> 00:48:39,160 >> Så derfor, min karbon fotavtrykk er i utgangspunktet 859 00:48:39,160 --> 00:48:42,060 flytte fra det som pleide å gjøre det ville har 860 00:48:42,060 --> 00:48:46,060 vært en stor maskin under pulten min, til hva 861 00:48:46,060 --> 00:48:49,550 er nå en facility-- kan være hvor som helst. 862 00:48:49,550 --> 00:48:50,800 Det kan være hvor som helst i det hele tatt. 863 00:48:50,800 --> 00:48:54,790 Og ennå, er det fortsatt i stand til å bringe rygg høy grafikkytelse 864 00:48:54,790 --> 00:48:56,630 til skrivebordet mitt. 865 00:48:56,630 --> 00:49:00,900 >> Så, komme i nærheten av end-- huske Mark? 866 00:49:00,900 --> 00:49:04,480 Vel, er smart gutt Mark. 867 00:49:04,480 --> 00:49:09,360 Han bestemte seg for at han skulle bygge en realistisk virtuell univers. 868 00:49:09,360 --> 00:49:12,820 Det er litt av et prosjekt, når du tror du har fått til å kaste dette. 869 00:49:12,820 --> 00:49:14,740 Jeg kommer til å bruke en datamaskin, og jeg kommer 870 00:49:14,740 --> 00:49:21,040 å modellere de 12 millioner år etter Big Bang til å representere en dag. 871 00:49:21,040 --> 00:49:27,080 Og så kommer jeg til å gjøre 13.8 milliarder år med kosmisk evolusjon. 872 00:49:27,080 --> 00:49:28,270 OK. 873 00:49:28,270 --> 00:49:30,970 >> Dette bruker faktisk en datamaskin den var større enn vår datamaskin, 874 00:49:30,970 --> 00:49:35,040 og det smittet over på den nasjonale ressurser til våre venner ned i Texas. 875 00:49:35,040 --> 00:49:38,820 Og til de nasjonale anlegg dette var mye computer. 876 00:49:38,820 --> 00:49:40,750 Men vi gjorde mye simuleringen lokalt 877 00:49:40,750 --> 00:49:44,820 å sørge for at programvaren arbeidet og systemene fungerte. 878 00:49:44,820 --> 00:49:47,790 >> Og det er dager som dette når du innser at du støtter vitenskap 879 00:49:47,790 --> 00:49:51,090 på dette nivået av omfanget, at folk kan nå si ting 880 00:49:51,090 --> 00:49:52,840 liker, jeg kommer til en modell et univers. 881 00:49:52,840 --> 00:49:54,145 Og dette er hans første modellen. 882 00:49:54,145 --> 00:49:56,422 Og dette er hans lagets første modellen. 883 00:49:56,422 --> 00:49:58,130 Det finnes mange andre folk som kommer 884 00:49:58,130 --> 00:50:01,520 å komme bak Mark, som kommer til å ønsker å modellere med høy oppløsning, 885 00:50:01,520 --> 00:50:04,652 med mer spesifisitet, med mer nøyaktighet. 886 00:50:04,652 --> 00:50:09,105 >> Og så, i de siste par minutter, Jeg bare ønsker å vise deg denne videoen 887 00:50:09,105 --> 00:50:15,270 av Mark og Lars er det til meg, igjen, som en livsvitenskapsmann, er slags søt. 888 00:50:15,270 --> 00:50:17,890 889 00:50:17,890 --> 00:50:20,970 Slik at dette, ved bunnen her, for å orientere deg, 890 00:50:20,970 --> 00:50:23,640 dette er å fortelle deg tid siden Big Bang. 891 00:50:23,640 --> 00:50:26,570 Så vi er på om lag 0,7 milliarder år. 892 00:50:26,570 --> 00:50:28,740 Og dette viser dagens oppdatering. 893 00:50:28,740 --> 00:50:33,450 Så du ser i øyeblikket, mørk materie og utviklingen 894 00:50:33,450 --> 00:50:39,910 av fin struktur og tidlig strukturer i vår kjente universet. 895 00:50:39,910 --> 00:50:45,690 >> Og punktet med dette er at denne er gjort inne i maskinen. 896 00:50:45,690 --> 00:50:48,530 Dette er et sett av parametere og et sett med fysikk 897 00:50:48,530 --> 00:50:52,840 og et sett med matematikk og et sett av modeller 898 00:50:52,840 --> 00:50:59,284 som er nøye utvalgt, og deretter nøye forbundet med hverandre 899 00:50:59,284 --> 00:51:00,825 å være i stand til å modellere interaksjonene. 900 00:51:00,825 --> 00:51:04,850 >> Så du kan se noen starter av noen gasseksplosjoner her. 901 00:51:04,850 --> 00:51:06,880 Og gass temperaturen endrer seg. 902 00:51:06,880 --> 00:51:13,720 Og du kan begynne å se strukturen av det synlige universet endring. 903 00:51:13,720 --> 00:51:18,130 Og den viktigste delen med dette er, hver lille bitte, bitteliten prikk 904 00:51:18,130 --> 00:51:21,070 er et stykke fysikk og har et sett av matematikk rundt, 905 00:51:21,070 --> 00:51:23,030 informere sin venn og nabo. 906 00:51:23,030 --> 00:51:27,245 >> Så fra en skalerings perspektiv, disse datamaskiner har til alt arbeid i konsert 907 00:51:27,245 --> 00:51:29,470 og snakke med hverandre effektivt. 908 00:51:29,470 --> 00:51:31,060 Slik at de ikke kan være for pratsom. 909 00:51:31,060 --> 00:51:33,520 De har til å lagre sine resultater. 910 00:51:33,520 --> 00:51:37,902 Og de må fortsette å informere alle sine venner. 911 00:51:37,902 --> 00:51:40,860 Faktisk, vil du se nå, denne modellen blir mer og mer komplisert. 912 00:51:40,860 --> 00:51:42,590 Det er mer og mer ting som skjer. 913 00:51:42,590 --> 00:51:45,210 Det er mer og mer Materialet flyr rundt. 914 00:51:45,210 --> 00:51:48,410 >> Og dette er hva den tidlige kosmos ville har sett ut. 915 00:51:48,410 --> 00:51:49,770 Det var en ganske hårete sted. 916 00:51:49,770 --> 00:51:55,140 Det er eksplosjoner over stedet, kraftige kollisjoner. 917 00:51:55,140 --> 00:51:58,620 Og dannelse av tung metaller og elementer. 918 00:51:58,620 --> 00:52:03,910 Og disse store skyer kræsje inn hverandre med ekstrem kraft. 919 00:52:03,910 --> 00:52:08,530 >> Og så nå er vi 9,6 milliarder år fra denne første eksplosjonen. 920 00:52:08,530 --> 00:52:12,310 Du begynner å se ting er slags roet ned litt, bare 921 00:52:12,310 --> 00:52:15,660 litt, fordi energi er nå begynner å slappe av. 922 00:52:15,660 --> 00:52:19,420 Og så den matematiske modeller har fått det på plass. 923 00:52:19,420 --> 00:52:22,510 Og du begynner å se koalesens av forskjellige elementer. 924 00:52:22,510 --> 00:52:26,220 Og begynner å se denne tingen slag av kommer sammen og sakte kult. 925 00:52:26,220 --> 00:52:32,260 >> Og det begynner å se litt mer som nattehimmelen, en liten bit. 926 00:52:32,260 --> 00:52:37,870 Og det er [? QSing. ?] Vi er nå 30.2 milliarder år og vi er slags gjort. 927 00:52:37,870 --> 00:52:41,130 Og så hva de gjorde var at de tok denne modellen 928 00:52:41,130 --> 00:52:44,580 og så på det synlige universet. 929 00:52:44,580 --> 00:52:48,560 Og i utgangspunktet da, var i stand til å ta det og klæ 930 00:52:48,560 --> 00:52:50,580 det med det du kan se. 931 00:52:50,580 --> 00:52:56,160 Og troskap er svimlende, som til hvor gode de datamodeller er. 932 00:52:56,160 --> 00:52:58,760 >> Selvfølgelig, astrofysikere og forskningsgruppene 933 00:52:58,760 --> 00:53:02,780 trenger enda bedre troskap og enda høyere oppløsning. 934 00:53:02,780 --> 00:53:06,230 Men hvis du tenker på hva Jeg har snakket til deg i dag 935 00:53:06,230 --> 00:53:11,850 gjennom denne lille reise gjennom både lagring og struktur og nettverk 936 00:53:11,850 --> 00:53:18,000 og stabler, er det viktigste, er skala-out computing viktig? 937 00:53:18,000 --> 00:53:22,050 Det var mitt opprinnelige hypothesis-- tilbake til vår vitenskapelige metode. 938 00:53:22,050 --> 00:53:24,810 >> Jeg håper at ved tidlig del av dette jeg ville 939 00:53:24,810 --> 00:53:29,400 forutse at jeg ville være i stand til å forklare til deg om skala-out databehandling. 940 00:53:29,400 --> 00:53:32,870 Og vi slags testet noen av disse hypoteser. 941 00:53:32,870 --> 00:53:34,585 Vi gikk gjennom denne samtalen. 942 00:53:34,585 --> 00:53:38,920 Og jeg skal bare si skala-out databehandling er essential-- oh, 943 00:53:38,920 --> 00:53:42,480 Ja, veldig mye ja. 944 00:53:42,480 --> 00:53:44,790 >> Så når du tenker om dine koder, når 945 00:53:44,790 --> 00:53:49,230 du gjør de CS50 endelige prosjektene, når du tenker om din arv 946 00:53:49,230 --> 00:53:52,990 til menneskeheten og de ressursene som vi må være i stand til å kjøre disse datamaskin 947 00:53:52,990 --> 00:53:56,650 systemer, tenke veldig nøye om FLOPS per watt, 948 00:53:56,650 --> 00:53:58,560 og tenke på Chaos Monkey. 949 00:53:58,560 --> 00:54:02,240 >> Tenk på dine snøflak, gjør ikke gjøre en-offs, gjenbruk biblioteker, 950 00:54:02,240 --> 00:54:06,453 bygge gjenbruk codes-- alle de tingene at lærerne har lært deg 951 00:54:06,453 --> 00:54:08,630 i denne klassen. 952 00:54:08,630 --> 00:54:11,942 Dette er grunnleggende aspekter. 953 00:54:11,942 --> 00:54:13,150 De er ikke bare tomme ord. 954 00:54:13,150 --> 00:54:15,660 Dette er virkelige ting. 955 00:54:15,660 --> 00:54:20,680 >> Og hvis noen av dere ønsker å følge meg, Jeg er obsessive med Twitter ting. 956 00:54:20,680 --> 00:54:22,770 Jeg må liksom gi det opp. 957 00:54:22,770 --> 00:54:24,960 Men mye av det bakgrunnsinformasjon er 958 00:54:24,960 --> 00:54:29,260 på vår forskning databehandling hjemmeside på rc.fas.harvard.edu. 959 00:54:29,260 --> 00:54:34,010 >> Jeg prøver og holde en blogg opp til date med moderne teknologi 960 00:54:34,010 --> 00:54:38,390 og hvordan vi gjør distributive databehandling og så videre. 961 00:54:38,390 --> 00:54:43,600 Og da våre ansatte er alltid tilgjengelig gjennom odybot.org. 962 00:54:43,600 --> 00:54:46,270 Og odybot er vår lille hjelper. 963 00:54:46,270 --> 00:54:49,280 Han har ofte lite konkurranser på sin nettside 964 00:54:49,280 --> 00:54:51,630 også, hvor du kan prøve og øye på ham rundt campus. 965 00:54:51,630 --> 00:54:55,200 Han er vennlig lite Ansiktet til forskning databehandling. 966 00:54:55,200 --> 00:54:59,730 >> Og jeg vil slags bryte opp det og takke dere alle for tiden. 967 00:54:59,730 --> 00:55:05,660 Og jeg håper du husker det skala-out computing er en real thing. 968 00:55:05,660 --> 00:55:08,162 Og det er mye folk som har fått mye av kjent teknikk 969 00:55:08,162 --> 00:55:09,370 som vil kunne hjelpe deg. 970 00:55:09,370 --> 00:55:14,330 Og alle lykke til med din fremtidige bestrebelser i å gjøre 971 00:55:14,330 --> 00:55:18,280 sikker på at vår databehandling både skalaer, er høytytende, 972 00:55:18,280 --> 00:55:20,370 og hjelper menneskeheten mer enn noe annet. 973 00:55:20,370 --> 00:55:22,850 Så, takk for din tid. 974 00:55:22,850 --> 00:55:23,947