JAMES Cuff: Hei, god ettermiddag, alle sammen. Mitt navn er James Cuff. Jeg er assisterende dekan for forskning Databehandling her ved Harvard University. Og i dag kommer jeg til å snakke med deg om hvorfor skala-out computing er avgjørende. 

Så jeg antar, først opp, hvem er denne fyren? Hvorfor er jeg her? Hvorfor får jeg snakke med deg? Jeg har en bakgrunn i vitenskapelig databehandling og forskning databehandling, strekker seg tilbake til United Kingdom-- The Wellcome Trust Sanger Institutt for menneske genome-- og deretter mer nylig i USA arbeider ved Bred og andre verd læresteder, for eksempel Harvard. 

Jeg antar det som virkelig betyr er at jeg er en utvinne molekylær bio fysiker. Så hvilken rett har jeg fått til å fortelle du om skala-out computing? Det er et men. 18 år eller så har jeg bare sett den mest dramatiske økninger i skala kompleksitet og generell effektivitet av datasystemer. 

Da jeg gjorde min doktorgrad ved Oxford, jeg var ganske spent med en 200 megahertz Silicon Graphics maskin med 18 gigabyte med lagringsplass og en enkelt CPU. Tidene har forandret seg. Hvis du spoler fremover nå, vi spinne over 60.000 CPUer her ved Harvard. Mange andre organisasjoner spinner mange flere. 

Det viktige takeaway fra dette er denne skalaen er nå ikke bare uunngåelig, det har skjedd, og det er kommer til å fortsette å skje. Så la oss, for et øyeblikk, snill av spole tilbake og snakke veldig raskt om vitenskap, min favoritt emne, den vitenskapelige metode. 

Hvis du er å være en vitenskapsmann, du trenger å gjøre noen viktige ting. Hvis du ikke gjør disse tingene du kan ikke anser deg selv som en vitenskapsmann og du vil slite å kunne forstå ditt område av disiplin. 

Så først av alt, vil du formulere spørsmålet ditt, vil du generere hypoteser, men enda viktigere, du forutsi din results-- du har en gjetning på hva resultatet vil bli. Og så til slutt, du teste din hypotese og analysere resultatene. 

Så denne vitenskapelige metoden er ekstremt viktig i databehandling. Databehandling av både prediksjon og være i stand til å teste resultatene er en viktig del av det vi trenger å gjøre i den vitenskapelige metode. Disse spådommer og testings er de virke to hjørnesteiner av den vitenskapelige metode, og hver krever de mest betydelige fremskritt i moderne beregning. 

De to pilarene i vitenskapen er at av det teoretiske og det av eksperimentering. Og mer nylig, databehandling er ofte nevnt som den tredje pilaren i vitenskap. Så hvis dere studenter ser på dette, du har absolutt ikke noe press. Tredje pilaren i science-- ingen stor deal-- databehandling, litt viktig. Så glad for dette er computing del i informatikk kurs 50. 

Så nok av bakgrunnen. Jeg ønsker å fortelle deg planen for hva vi kommer til å snakke om i dag. Jeg kommer til å gå over noen historie. Jeg kommer til å forklare hvorfor vi kom hit. Jeg kommer til å snakke om noen av historien til databehandling her ved Harvard, noen aktiviteter rundt sosiale medier, grønn things-- veldig lidenskapelig om alle ting green-- storage-- datamaskin storage-- hvordan kaoset påvirker skala-out ut systemer, og fordelingssystemer spesielt. 

Og så kommer jeg til å komme inn på noe av skalaen ut maskinvare som er nødvendig å kunne gjøre databehandling på skalaen. Og så til slutt, skal vi bryte opp med noen awesome vitenskap. 

Så, la oss ta et minutt til se på vår faktiske historie. Computing har utviklet seg. Så siden 60-tallet, alle den bort til i dag, vi har sett i utgangspunktet en endring av omfang fra sentralisert databehandling å desentralisere databehandling, til samarbeidende og deretter uavhengig databehandling og rett tilbake igjen. 

Og la meg kommentere at en liten bit. Når vi først begynte med datamaskiner, hadde vi stormaskiner. De var uforholdsmessig dyre enheter. Alt måtte deles. Databehandling var komplisert. Du kan se, det fylte rom og det var operatører og kassetter og alle slags whirry, clicky, Spinny enheter. 

Rundt 70- tidlig 80-tallet, begynte du å se en effekt av faksmaskiner. Så du begynner å se databehandling begynner å dukke tilbake i laboratorier og bli nærmere deg. Framveksten av den personlige datamaskin, sikkert på 80-tallet, begynnelsen av det tiåret, virkelig forandret databehandling. 

Og det er en ledetråd i tittel, fordi det ble kalt den personlige datamaskinen, som mente det tilhørte deg. Slik som utviklingen av databehandling fortsatte, folk innså at deres personlige Datamaskinen var ikke virkelig stort nok å være i stand til å gjøre noe av noen fortjeneste, eller betydelig fortrinn, i vitenskapen. 

Og så folk begynte å utvikle nettverksenhet drivere for å kunne koble PC-er sammen for å være i stand til å bygge klynger. Og så dette ble far æra av Beowulf klynge. Linux eksploderte som en respons til proprietært operativsystem, både kostnader og kompleksitet. 

Og så, her vi er i dag, der, enda en gang, vi er møtt med rom fullt av datamaskin utstyr og evnen å sveipe ett kredittkort og få tilgang til disse data anlegg, eksternt. 

Og så kan du deretter se, i form av historie utvirkende hvordan vi gjør databehandling i dag, er det definitivt utviklet seg fra maskin rom fullt av datamaskiner gjennom noen personlig databehandling hele veien rett tilbake igjen til maskin rom fullt av datamaskiner. 

Så dette er min første klynge. Så 2000, bygget vi en datasystem i Europa å effektivt kommentere det humane genom. Det er mye av teknologien oppført på høyre side det som, dessverre, er ikke lenger med oss. Det er gått av til stor teknologi på himmelen. 

Selve maskinen er sannsynligvis tilsvarer noen anstendig bærbare datamaskiner i dag, og at bare slags viser deg. Men vi nøye kommentere det menneskelige genom og begge beskyttet det med denne spesielle papir i Natur fra bekymringene i data være offentlig eller privat. 

Så dette er kjempebra, ikke sant? Så vi har en menneskelige genom. Vi har gjort databehandling. Jeg føler meg veldig fornøyd selv. Jeg rullet opp til Harvard i 2006, følelsen mye mindre fornøyd med meg selv. 

Dette er hva jeg arvet. Dette er en avdelings post og filserver. Du kan se her er det en liten bit av tape som brukes til å holde systemet sammen. Dette er vår lisens og print server. Jeg er ganske sikker på at det kanskje passord på noen av disse Post-it lapper. 

Ikke fantastisk. Ganske langt fra fantastisk. Og så innser jeg denne lille diagrammet at jeg viste deg i begynnelsen fra å dele til eierskap tilbake til deling, at vi trengte å endre spillet. Og så vi endret spillet ved å gi insentiver. Og så mennesker, som denne lite Wikipedia-artikkel sier her, våre målrettet skapninger. Og studiet av insentiv strukturene er avgjørende for studiet av økonomisk aktivitet. 

Så begynte vi å stimulere våre lærere og våre forskere. Og så vi incentivised dem med en virkelig stor datasystem. Så i 2008, bygget vi en 4096 prosessor maskin-- 10 racks, par hundre kilowatt strøm. 

Hva jeg tror er interessant er det ikke Uansett hvor du er i syklusen. Det samme mengde strøm og beregne, er kraften konstant. Det var 200 kilowatt når vi var å bygge systemer i Europa. Det er to hundre kilowatt i 2008, og at synes å være [? quanter?] av små universitets-baserte datasystemer. 

Så Harvard today-- spole fremover, jeg er ingen lenger trist panda, ganske glad panda. Vi har 60-talls tusen belastning balansert CPUer, og deres klatring dramatisk. Vi har 15 petabyte med lagring, også klatring. Igjen, dette 200 kilowatt tilvekst, synes vi å være og legger til at hver sjette eller så måneder. Mange og massevis av virtuelle maskiner. Og enda viktigere, ca 1,8 megawatt forskning datautstyr. 

Og jeg kommer til å komme tilbake til dette senere, på hvorfor jeg nå ikke lenger nødvendigvis telle hvor mye CPU vi har, men hvor stor er strømregningen. 20 andre så dedikert forskning databehandling ansatte. Og enda viktigere, vi er begynner å vokse vår GPGPUs. Jeg ble forskjøvet på hvor mye av dette blir lagt på en dag-til-dag basis. Så, historietime over, ikke sant? 

Så hvordan kommer vi oss dit fra her? La oss se på noen moderne skala-out beregningseksempler. Jeg er litt besatt av Størrelsen og omfanget av sosiale medier. Det finnes et antall ekstremt vellykket storskala databehandling organisasjoner nå på planeten, gi støtte og tjenester for oss alle. Så det er ansvarsfraskrivelse. 

Og jeg ønsker å starte med en antall gram i en Instagram. Det er ikke egentlig en føre-in til en spøk, det er ikke engang det morsomt, faktisk, kommer til å tenke på det. Men uansett, skal vi se på unser i Instagram. Og vi kommer til å begynne med "My bie og en blomst." Jeg var på [uhørbart] Village og jeg tok et lite bilde av en bie sitter på en blomst. Og så begynte jeg å tenke på hva betyr dette egentlig betyr. Og jeg tok dette bildet av telefonen min og telte hvor mange byte er i den, og det er ca 256 kilobyte. Som da jeg begynte, ville i utgangspunktet fylle en 5 og 1/4 tommers diskettstasjon. Og begynte å tenke, vel, det er kult. 

Og jeg begynte å se og gjøre noen undersøkelser på nettverket. Og jeg fant ut at Instagram har 200 millioner Maus. Jeg var ikke egentlig at sikker på hva en MAU var. Og en MAU, her nede, er en månedlig aktiv bruker. 

Så, 200 millioner MAUs-- ganske kult. 20 milliarder photographs-- så ganske mye av fotografier. 60 millioner nye bilder hver dag kommer ut på ca 0,002 gig per bilde. Det er omtrent fem petabyte disk akkurat der. Og det er egentlig ikke den sentrale delen av hva vi skal snakke om. Det er små poteter. Eller som vi sier i England, små spuds. 

Så la oss se på den virkelige elefant i rommet-- unike ansikter. Igjen, la oss måle i denne nye kvanter kaller en MAU. Facebook selv har 1,3 milliarder Maus. WhatsApp, som jeg ikke hadde selv hørt om inntil nylig, er det en slags meldingstjeneste, er 500 millioner Maus. Instagram, som vi bare snakket om, 200 millioner Maus. Og Messenger, som er en annen meldingstjenesten er også 200 millioner Maus. 

Så totalt at opp, det handler om 2,2 milliarder totalt antall brukere. Klart det er noe overlapping, men det er tilsvarende en tredjedel av planeten. Og de sender noe i regionen på 12 milliarder meldinger i døgnet. Og igjen, det er bare 7 milliarder mennesker på planeten. Ikke alle har en smarttelefon. Så dette er vanvittig tall. 

Og jeg kommer til å hevde at det ikke er selv om lagring eller beregne. Og for å sitere sangen, det handler om at grafen. Her er vår herlige Meghan Trainor ned her, synger om all bass. Oppmerksom på, hun har også ganske bit av bass herself-- 207, vel 218 millioner mennesker har sett denne unge damen synger sin sang. 

Så mitt argument er det det handler om grafen. Så vi tok noen programvare med åpen kildekode og begynte å se på en graf. Og dette er Linkedin, så dette er en Facebook for gamle mennesker. Og så, dette er min Linkedin grafen. Jeg har 1200 eller så noder, såkalt "Friends". Og her er meg på toppen. Og her er alle de sammenhengene. 

Nå, tenker tilbake til Instagram historien. Hver og en av disse er ikke bare bildet, det har en hel mengde tilkoblinger mellom denne personen og mange andre. Dette er sentralt stykke er enten en bug i grafen tegning algoritmen, eller dette kanskje David Malan, jeg er ikke sikker ennå. Så du kan tegne grafer i alle slags av ways-- gephi.gihub.io er der du kan trekke den programvaren fra. Det er veldig kult for å være stand til å organisere lokalsamfunn. Du kan se her, dette er Harvard og diverse andre steder som jeg har jobbet, fordi dette er min arbeidsrelaterte data. 

Så bare tenke på kompleksiteten av grafen, og alle data at du trekker sammen med. Så i mellomtiden, tilbake på FriendFace, ikke sant? Vi så på Instagram data som var i størrelsesorden fem petabyte. Ingen big deal. Fortsatt ganske mye data, men ingen stor avtale i den større sammenhengen. 

Fra denne artikkelen på den gamle internett, "Skalering av Facebook datavarehus til 300 petabyte. " Det er en helt annen game changer nå, når du begynner å tenke på data og grafen og hva du tar sammen med. Og deres høye data vokser av i størrelsesorden 600 terrabytes en dag. 

Nå, vet du, vel, then-- Jeg mener, 600 terrabytes per dag, 300 petabytes-- de er også nå begynner å bli veldig bekymret hvordan å holde denne ting og for å sørge for at disse dataene holder seg rundt. Og denne mannen her, Jay Parikh, er på jakt på hvordan du lagrer en exabyte av data. 

Bare for de av dere som ser på langs hjemme, en exabyte-- 10 til 18 år. Det har sin egen Wikipedia side, er det så stor av et nummer. Det er størrelsen og omfanget av hva vi er ser på, å være i stand til å lagre data. Og disse gutta ikke rote rundt, de er lagring som datamengden. Så en av de ledetråder som de ser på her er datasentre for såkalt kald lagring. 

Hvilket bringer meg til å bli grønn. Og her er Kermit. Han og jeg er enig, det er ekstremt vanskelig å være grønn, men vi gir det våre beste forsøk. Kermit kan ikke hjelpe for det, han har være grønt hele tiden, kan ikke ta hans grønne-ness av i det hele tatt. 

Så, å være concepts-- en noen form for sentrale begreper av greenness, når det relatert til databehandling. Den ene som er den viktigste er den lange levetiden av produktet. Hvis produktet har en kort levetid, du kan ikke, per definisjon, være grønn. Energien som tas for å fremstille en disken, et hovedkort, en datamaskin system, en tablett, hva det kan være, lang levetid av dine systemer er en viktig del av hvordan grønt du kan være. 

Den viktigste delen, som alle dere bygger programvare algorithms-- algoritmen er en delvis ordet for programvare, ikke sant? Så, er din algoritme utforming helt avgjørende i forhold av hvordan du kommer til å være i stand til å gjøre raske og nøyaktige beregninger for å bruke minst mulig energi mulig. Og jeg får til dette i en liten bit. 

Datasenter design-- du har sett at vi allerede har tusenvis på tusener av maskiner, sitter stille i små, mørke hjørner av verden, databehandling. Ressurs allocation-- hvordan du får til beregnings-, til lagring, gjennom nettverket. Operativsystemer er en viktig del av dette, og mye av virtualisering å være i stand til å pakke mer mer beregne på liten plass. 

Jeg skal gi deg et lite eksempel fra forskning databehandling. Vi trengte mer ping, mer makt, og mer rør. Vi trengte mer større, bedre, raskere datamaskiner, og behov for å bruke mindre juice. Og vi kunne ikke finne ut hvordan du gjør dette. Jeg vet ikke om den hashtag gowest som trolig blitt brukt av Kardashian, men uansett, gowest. Og vi gjorde. 

Vi plukket opp vår drift og vi flyttet den ut til Western Massachusetts i en liten møllebyen kalt Holyoke, like nord av Chikopee og Springfield. Vi gjorde dette for et par grunner. Den viktigste var at vi hadde en veldig, veldig stor dam. Og dette svært store demningen er i stand til å sette ut 30 pluss megawatt energi, og det ble underutnyttet på tiden. 

Enda viktigere, vi hadde også en meget komplisert nettverk som allerede var på plass. Hvis du ser på hvor nettverket går i USA, det følger alle tog spor. Denne bestemt stykke nettverk var eid av våre kolleger og venner ved Massachusetts Institute of Technology, og det var i utgangspunktet bygget hele veien ut til Route 90. 

Så vi hadde en stor elv tick, Route 90 tick, vi hadde en kort bane på 100 miles, og en lang bane på ca 1000 miles. Vi har å gjøre en veldig stor nettverk spleise, som du kan se her, til utgangspunktet legge en link i, til være i stand til å koble til Holyoke, men vi hadde alle de nødvendige infrastructure-- ping, kraft, rør. Livet var bra. Og igjen, stor dam. 

Så vi bygde i utgangspunktet Massachusetts Grønn High Performance Computing Senter. Dette var et møysommelig arbeid gjennom fem universities-- MIT, Harvard, UMass, Northeastern, og BU. Fem megawatt dag én tilkoblede lasten. Vi gjorde alle slags kløkt med flyside economizers å holde ting grønt. Og vi bygget ut 640-talls racks, dedikert til forskning databehandling. 

Det var en gammel brownfield området, slik vi hadde noen gjenvinning og noen ryddig-up og noen opprydding av området. Og da vi startet å bygge anlegget og, boom-- flott anlegg med evnen til å kjøre sandkasse databehandling, å ha konferanser og seminarer, og også en massiv datasenter gulvet. 

Her er min gode selv. Jeg er selvsagt iført samme jakke. Jeg kanskje bare har ett jakke, men det er meg og John Goodhue-- han er administrerende direktør ved Center-- stående i maskinrommet etasje, som, som du kan se, er ganske dramatisk, og det går tilbake en lang, lang vei. 

Jeg spiller ofte spill kjøring fra Boston ut til Holyoke, late som om jeg er en TCP / IP-pakke. Og jeg bry deg om min ventetid kjører rundt i bilen min. Så det er den grønne stykke. Så la oss bare ta et minutt og tenke på stabler. Så vi prøver veldig nøye til bygge datasentre effektivt, databehandling effektivt, gjør god utvalg for datautstyr og levere, mer viktigst, vår søknad, det være seg en meldingstjeneste eller en vitenskapelig bruk. 

Så her er de stabler. Så fysisk lag, alt vei opp gjennom application-- håper at dette kommer til å være en god del av kurset. OSI syv lag modellen er i utgangspunktet, du vil leve, spise og puste dette gjennom dine databehandlings karrierer. Hele dette konseptet med fysisk infrastructure-- ledninger, kabler, datasentre, lenker. Og dette er bare beskriver nettverket. 

Opp her er, vel, selvsagt, dette er en gammel lysbilde, fordi dette bør si HTTP, fordi ingen bryr seg om enkel post transportprotokoller, lenger. Det er alt som skjer i HTTP plass. Så det er et nivå av stabelen. 

Her er et annet sett med stabler, hvor du har en server, en vert, en hypervisor, en gjest, binær bibliotek, og deretter søknaden din. Eller, i dette tilfellet, anordningen Sjåføren, en Linux-kjerne, native c, Java virtuell maskin, Java API, da Java applikasjoner, og så videre og så videre. Dette er en beskrivelse av en virtuell maskin. 

Hellige stabler, Batman! Tenk om dette i når det gjelder hvor mye beregne du trenger for å komme fra hva som skjer her, hele veien opp til toppen i denne stabelen, deretter være i stand til å gjøre den faktiske levering av søknaden. 

Og hvis du slags spole tilbake og begynne å tenke om det som trengs for å gi et flyttall drift, din flyttall drift er en sum av kontaktene, antall kjerner i stikkontakten, en klokke, som er Hvor fort kan klokken turnover-- fire gigahertz, to gigahertz-- og deretter nummeret operasjoner du kan gjøre i en gitt hertz. 

Så de mikroprosessorer i dag gjøre mellom fire og seks flopper per klokkesyklus. Og så en single-core 2,5 gig klokke har en teoretisk ytelse av om en mega FLOP, gi eller ta. 

Men, som med alt vi har valg. Så og Intel Core 2, Nehalem Sandy Bridge, Haswell, AMD, ta choices-- Intel Atom. Alle disse prosessorarkitekturer alle har en litt annen måte for å være i stand til å legge to tallene sammen, som er utgangspunktet sitt formål i livet. Må være tøff. Det finnes millioner av dem sitter i datasentre, nå skjønt. 

Sor, flopper per watt-- dette er den store tingen. Så hvis jeg ønsker å få mer av dette å komme gjennom denne bunken, raskere, Jeg er nødt til å jobbe på hvor mange flyttallsoperasjoner et sekund, Jeg kan gjøre, og deretter gi dem watt. Og heldigvis, folkens har tenkt på dette. 

Så det er en stor ride hvert år for å se som kan bygge den raskeste datamaskin I tillegg kan diagonalize en matrise. Den heter Top 500. De plukker toppen fra de beste 500-maskiner på planeten som kan diagonalize matriser. Og du får noen fantastiske resultater. 

Mange av disse maskiner er mellom 10 og 20 megawatt. De kan diagonalize matriser inordinately raskt. De trenger ikke nødvendigvis diagonaliseres dem så effektivt per watt, så det var dette stort trykk for å se på hva en grønn 500-listen ville se ut. Og her er listen fra juni. Det bør være en ny en svært kort tid. 

Og det kaller out-- jeg skal ta Toppen av denne listen. Det er to spesifikke machines-- ett fra Tokyo Institute of Technology og en fra Cambridge University i Storbritannia. Og disse har ganske svimlende mega flops per watt-forhold. Denne er 4389, og den neste ned er 3631. 

Jeg skal forklare forskjellen mellom disse to, i neste lysbilde. Men disse er disse er moderat størrelse test klynger. Dette er bare 34 kilowatt eller 52 kilowatt. Det er noen større funn her-- denne ene ved den sveitsiske nasjonal Supercomputing Centre. De ta med hjem meldingen for dette er at vi er prøver å finne datamaskiner som kan operere effektivt. 

Og så, la oss se på denne toppen ett, cutely kalt, KFC. Og litt reklame her. Dette bestemte næringsmiddelselskap har ingenting å gjøre med dette. Det er det faktum at dette systemet er fuktet i en meget smart olje-basert forbindelse. Og så de fikk sin kylling frityrkokeren moniker når de først begynte å bygge disse typer systemer. 

Men i utgangspunktet hva de har tatt her er et antall blader, sette dem i dette sofistikert mineralolje, og deretter jobbet ut hvordan du får alle nettverksbygging i og ut av det. Da, ikke bare det, de har satt den utenfor så at det kan utnytte utenfor luftkjøling. Det var ganske imponerende. Så du trenger å gjøre alt av denne shenanigans å være i stand til å få dette beløpet av Beregn levert for liten effekt. 

Og du kan se dette er formen hvor ting er på vei. Utfordringen er at vanlig luft kjøling er økonomien i skala og driver en masse utvikling av både vanlige databehandling, og databehandling med høy ytelse. Så, dette er ganske forstyrrende. Jeg tror dette er fascinerende. Det er litt rotete når du prøv å bytte harddisker, men det er en veldig kul idé. 

Så ikke bare det, det er en hel haug med arbeid blir bygget rundt hva vi er kalle Open Compute Project. Og så, mer om det litt senere. Men bransjens begynner å innse at de flopper per watt blir viktig. Og du, som folk her, som du designe dine algoritmer og du designe din kode, bør du være oppmerksom på at koden kan ha en smitteeffekt. 

Når Mark satt her i hans hybel skriver Facebook 1.0, Jeg er ganske sikker på at han hadde en visning at det skulle være enorme. Men hvor stort det ville være på miljø er en stor dealio. Og så alle ya kunne komme opp med algoritmer som kan bli den neste utfordrende tingen for folk som meg, prøver å kjøre systemer. 

Så la oss bare tenke på reelle effektgrenser. Dette papiret etter Landauer-- er ikke en ny ting. 1961 dette ble offentliggjort i IBM Journal. Dette er den kanoniske "Irreversibilitet og Heat Generasjon i Computing Process. " Og så han hevdet at maskiner uunngåelig utføre logistikkfunksjoner som har en enkelt verdi inverse. 

Slik at hele delen av dette er det tilbake på 60-tallet, folk visste at dette var kommer til å være et problem. Og så loven om grensene sa 25 grader C, en slags kanonisk rom temperatur, grensen representerer 0,1 elektronvolt. Men teoretisk sett, er dette teorien, dataminne, opererer på denne grensen kan være endret på én milliard bits per sekund. 

Jeg vet ikke om deg, men ikke komme over mange én milliard bits en andre datahastighet børser. Argumentet var at bare 2,8 billioner av en watt strøm burde stadig utvides. 

All right, virkelige verden example-- dette er min strømregninga. Jeg er 65% prosent av den herlige datasenter Jeg viste deg, i denne spesielle tiden. Dette er tilbake i juni i fjor. Jeg har tatt en eldre versjon, slik at vi kan og liksom anonym litt. Jeg brukte $ 45,000 et måned for energi der. 

Så grunnen til å være der, er at vi har over 50.000 prosesser i rommet. Så kan du forestille deg din egen boligstrømregningen er at høy? Men det var for en 199 millioner watt timer over en måned. 

Så spørsmålet jeg stiller er, kan du forestille Mr. Zuckerberg strømregninga? Mine er ganske stor, og jeg sliter. Og jeg er ikke alene i dette er. Det er mange mennesker med store datasentre. Og så, antar jeg, full disclosure-- mine Facebook-venner litt rart. 

Så min Facebook-venn er den Prine datasenter, som er en av Facebooks største, nyeste, laveste energi datasenter. Og de legger til meg, ting som kraftutnyttelse effektivitet, som i hvor effektive er dataene sentrum versus hvor mye energi du er legger i det, hvor mye vann de bruker, hva er luftfuktighet og temperatur. 

Og de har disse vakre, nydelig plott. Jeg tror dette er en kjempebra Facebook-side, men jeg tror jeg er litt rart. 

Så en mer makt ting, forskning databehandling som jeg gjør er vesentlig annerledes hva Facebook og Yahoo og Google og andre on-demand, fullt, alltid tilgjengelige tjenester. Og så har jeg den fordelen at når ISO New England-- og ISO New England bidrar til å sette energi Satsene for regionen. 

Og det sier det strekker en forespørsel til forbrukerne til frivillig å bevare høy energi, på grunn av høy varme og fuktighet. Og dette var tilbake den 18. juli. Og så jeg lykkelig Tweet tilbake, Hey, ISO New England, Grønn Harvard. Vi gjør vår del i løpet av her i forskning databehandling. Og dette er fordi vi gjør vitenskap. 

Og så mye som folk sier vitenskap aldri sover, kan vitenskapen vente. Så vi er i stand til å stenge vår systemer, dra nytte av karakteren priser på vår strømregningen, og hjelp hele New England regionen med Shedding mange megawatt last. Så det er den unike ting som forskjellig om vitenskapelig databehandling data sentre og de som er i full produksjon 24/7. 

Så la oss bare ta et annet gir her. Så, jeg ønsker å diskutere kaos litt. Og jeg ønsker å sette den i regi av lagring. Så for de som slag av strevde få hodet rundt hva petabyte Lagrings se ut, dette er et eksempel. Og dette er den slags ting Jeg håndtere hele tiden. 

Hver og en av disse små gutter er en fire terabyte harddisk, slik at du kan slags telle dem opp. Vi får nå mellom en til en og halv petanivå i en standard industri rack. Og vi har rom og rom, som du så i det tidligere bilde med John og jeg, full av disse rack med utstyr. Så det blir veldig, veldig enkel å bygge massive lagringsarrayer 

Det er stort sett lett innsiden av Unix til slags telle opp hvordan ting går. Så dette er å telle hvor mange MAU punktene har jeg kom dit. Så det er 423 skjæringspunkter. Og så hvis jeg kjører noen sketchy awk, jeg kan legge opp, i dette systemet, Det var 7,3 petabyte av tilgjengelig lagringsplass. 

Så det er en masse ting. Og lagring er virkelig hardt. Og likevel, for noen grunn, dette er en bransje trend. Når jeg snakker med våre forskere og våre lærere og si, hei, jeg kan kjøre lagringsplass for deg. Dessverre, jeg må gjenopprette kostnadene for lagring. Jeg får denne virksomheten. Og folk referere Newegg eller de refererer til Staples eller hvor mye de kan kjøpe en enkelt terabyte harddisk for. 

Så dette, vil du merke her, at det er en anelse. Det er ett disken her. Og hvis vi går tilbake, har jeg mange. Ikke bare har jeg har mange, har jeg sofistikerte sammenkoblinger å være i stand til å sy disse tingene sammen. Slik at risikoen forbundet med disse store lagringsarrayer er ikke ubetydelig. 

Faktisk tok vi til Internett og vi skrev en liten historie om en velmenende, veloppdragent direktør for forskning computing-- tilfeldigvis har en merkelig engelsk accent-- prøver å forklare for en forsker hva ingen strek backup mappe faktisk betydde. Det var litt av en lang, litt historie, en god fire minutter av oppdagelse. 

Og merk, jeg har en forferdelig mye mindre plass enn damen som synger om alle bass. Vi er ganske mange kontoer lavere. Men uansett, dette er en viktig ting å tenke på, når det gjelder hva som kan gå galt. Så hvis jeg får en harddisk, og Jeg kaster det i en Unix-maskin, og jeg begynner å skrive ting for det, det er en magnet, det er en kjøretur hode, det er angivelig, en en eller en null blir skrevet ned på den enheten. 

Motors-- spinny, Twirly ting alltid bryte. Tenke på ting som bryter. Det har alltid vært spinny, Twirly ting. Skrivere, diskettstasjoner motorkjøretøy, etc. Alt som beveger seg er sannsynlig å bryte. 

Så du trenger motorer, du må kjøre firmware, du trenger SAS / SATA-kontrollere, ledninger, firmware på SAS / SATA-kontrollere, lavt nivå blokker. Plukk lagringskontroller fil systemkode, avhengig av hva en kan det være, hvordan du sy ting sammen. Og virtuelt minne sjef sider, DRAM hente og butikker. Deretter får du en annen stable, som er snill av nedover listen på denne en, algoritmer, brukere. 

Og hvis du multipliserer dette opp, jeg vet ikke hvor mange, det er en rekke steder hvor ting kan gå sidelengs. Jeg mener, det er et eksempel om matematikk. Men det er like gøy å tenke på hvor mange måter ting kan gå galt, bare for en harddisk. Vi er allerede på 300 petabyte, så forestille antall diskstasjoner du trenger på 300 petabyte som kan gå galt. Ikke bare at-- så det er lagring. Og som henspiller på den person jeg vil gjerne se skriv scenen igjen, som er det kaos Monkey. Så på et visst punkt, blir det enda større enn bare disken problem. 

Og så, disse fine damer og gentleman som kjører en streaming video tjeneste innså at deres datamaskiner var også stor og også svært komplisert og også å yte service til en forferdelig mye folk. De har fått 37 millioner members-- og dette lysbildet er kanskje et år eller så old-- tusenvis av enheter. Det finnes milliarder av timer med video. De logger milliarder av hendelser en dag. 

Og du kan se, de fleste folk se fjernsynet senere i kveld, og det er langt viktigere enn alt. Og så ønsket de å være i stand til å sørge for at at tjenesten var oppe og pålitelig og jobber for dem. Så kom de opp med dette tingen kalt Chaos Monkey. Det er stykke programvare som, når du tror om å snakke om tittelen av hele denne presentasjonen, skala-out betyr at du bør teste denne ting. Det er ikke bra bare å ha en million maskiner. Så fine ting om dette er, Chaos Monkey er en tjeneste der identifiserer grupper av systemer og tilfeldig avslutter en av systemene i en gruppe. Awesome. Så jeg vet ikke om deg, men hvis jeg noen gang bygget et system som er avhengig av andre systemene snakker med hverandre, du ta en av dem ut, Sannsynligheten for hele tingen arbeids, avtar raskt. 

Og så denne stykke programvare kjører rundt Netflix infrastruktur. Heldigvis, sier det det går bare i arbeidstid med den hensikt at ingeniører vil være våken og i stand til å svare. Så er det disse typene av ting vi er nå å måtte gjøre for å forurolige vår databehandling miljøer, å innføre kaos og å innføre kompleksitet. 

Så hvem, i sitt rette sinn, ville gjerne velge å arbeide med en Chaos Monkey? Stå på, synes han å peke meg. Vel, jeg tror jeg should-- søt. Men problemet er at du får ikke valget. The Chaos Monkey, som du kan se, velger du. 

Og dette er problemet med databehandling på skalaen er at du ikke kan unngå dette. Det er en uunngåelig kompleksitet og av omfanget og av vår evolusjon, på noen måter, av databehandling ekspertise. Og husk, dette er en ting å huske, Chaos Monkeys kjærlighet snowflakes-- kjærlighet snøflak. En snowflake-- vi har forklart Chaos Monkey-- men et snøfnugg er en server som er unik og spesiell og delikat og individuell og vil aldri bli reprodusert. 

Vi finner ofte snøfnugg tjeneste i vårt miljø. Og vi prøver alltid og smelte snøfnugg tjeneste. Men hvis du finner en server i miljøet som er kritisk for lang levetid av organisasjonen og den smelter, du kan ikke sette den sammen igjen. Så Chaos Monkey jobb var å gå og avslutte tilfeller. Hvis Chaos Monkey smelter snøfnugg, du er over, så er du ferdig. Jeg ønsker å snakke om noen maskinvare som vi er ser i form av liksom skalere-aktiviteter også. Og noen unike ting som er i og rundt science aktivitet. Vi begynner nå å se, huske denne enheten av problemet, dette stativet? Så dette er et rack av GPGPUs-- så generelle purpose grafikkbehandlingsenhetene. 

Vi har disse ligger i vår data sentrum, 100 eller så miles away. Denne spesielle stativ er ca 96 tera FLOPS av single-presisjon matematikk stand å levere ut baksiden av det. Og vi har for 130-odd kortene i en forekomst at we-- multippel stativer av denne forekomsten. 

Så dette er interessant i den forstand at de generelt grafikkprosesser er i stand til å gjøre matematikk utrolig raskt for svært lave mengder av energi. Så det er en stor uptick i de vitenskapelig databehandling områder, ser på grafikk prosesseringsenheter i en stor måte. 

Så jeg kjørte noen Mcollective gjennom vår marionett infrastruktur i går, veldig begeistret for dette. bare kort av en petaflop av enkel presisjon. Bare for å være klar her, dette liten multiplikator er 3.95. Dobbel presisjon matte ville være om lag 1,2, men min Twitter-feed så måte bedre hvis jeg sa vi hadde nesten en petaflop av single-presisjon GPGPUs. 

Men det blir det. Det begynner å bli veldig, veldig imponerende. Og hvorfor gjør vi dette? Fordi kvantekjemi, blant annet men vi begynner å designe noen nye solceller. 

Og så Alan Aspuru-Guzik, som er en professor i chemistry-- min partner i crime-- for de siste årene. Vi har vært å skyve konvolutt på databehandling. Og GPGPU er ideell teknologien for å være i stand til å gjøre en forferdelig mye komplisert matematikk, veldig, veldig raskt. 

Så med skala, kommer nye utfordringer. Så stor scale-- du må være forsiktig med hvordan du koble denne ting. Og vi har visse nivåer av obsessive compulsive disorder. Disse bildene trolig kjøre mye av folks nøtter. Og skap som ikke er kablet spesielt godt drive vårt nettverk og anlegg ingeniører nøtter. Pluss det er også luftstrømmen problemer som du må inneholde. 

Så dette er ting som jeg aldri ville ha tenkt på. Med skala, kommer mer kompleksitet. Dette er en ny type filsystem. Det er kjempebra. Det er en petabyte. Den kan lagre 1,1 milliarder filer. Den kan lese og skrive til 13 gigabyte og 20 gigabyte en second-- gigabyte et sekund. Så det kan losse terabyte på kort tid i det hele tatt. 

Og det er svært tilgjengelig. Og det har utrolig oppslag rates-- 220,000 oppslag et sekund. Og det er mange forskjellige mennesker bygge denne type systemer. Og du kan se det her grafisk. Dette er en av våre filsystemer som er under belastning, ganske lykkelig lesing på bare kort 22 gigabyte i sekundet. Så det er cool-- så kompleksitet. 

Så med kompleksitet og omfang, kommer mer kompleksitet, ikke sant? Dette er en av våre mange mange nettverksdiagrammer, der du har mange forskjellige chassis alle støtter opp i en hovedkjerne bryter, koblet til lagring, tilkobling til lav latency forbindelser. Og deretter gjennom dette siden huset, er bare alt av ledelsen at du må være i stand til å ta opp disse systemene fra en ekstern plassering. Så skala har mye kompleksiteten med den. 

Gire igjen, la oss gå tilbake og har en liten flekk av vitenskap. Så husk, forskning databehandling og denne lille shim-- litt rosa mellomlegg mellom fakultetet og alle sine algoritmer og alle de kule vitenskap og alle dette strøm og kjøling og datasenter gulv og nettverksbygging og store datamaskiner og serviceavdelinger og helpdesk og så forth-- og så er vi bare denne lille mellomlegg mellom dem. 

Hva vi har begynt å se er at verdens vært i stand til å bygge disse store datasentre og være i stand til å bygge disse store datamaskiner. Vi har fått ganske god på det. Hva vi er ikke veldig god på dette lite mellomlegg mellom forskning og bart metall og teknologien. Og det er vanskelig. 

Og så har vi vært i stand til å ansette folk som lever i denne verden. Og mer nylig, snakket vi til National Science Foundation og sa: denne skalaen ut ting er stor, men vi kan ikke få våre forskere på disse store kompliserte maskiner. Og så har det vært en antall forskjellige programmer hvor vi virkelig var for det meste bekymret prøver for å se om vi kunne forvandle campus infrastruktur. 

Det finnes en rekke programmer rundt nasjonale sentre. Og så, oss selv, vår venner på Clemson, University of Wisconsin Madison, Southern California, Utah, og Hawaii slags kom sammen for å se på dette problemet. Og denne lille grafen her er den lange halen av vitenskap. 

Så dette er-- det gjør ikke Uansett hva som skjer på denne aksen, men denne aksen er faktisk nummer av jobbene går gjennom klyngen. Så det er 350 000 i løpet av uansett tidsperiode. Dette er våre vanlige mistenkte langs bunnen her. Faktisk er det Alan Aspuru-Guzik, som vi var bare snakker om-- tonn og tonnevis av beregnings-, egentlig effektive, vet hva han gjør. 

Her er en annen lab som jeg skal snakke om i en moment-- John Kovac laboratorium. De har fått det. De er bra. De er fornøyd. De er databehandling. Stor vitenskap blir gjort. Og så, som du snill av komme ned her, det er andre grupper kjører ikke mange arbeidsplasser. 

Og hvorfor er det? Er det fordi computing er for vanskelig? Er det fordi de ikke vet hvordan de skal? Vi vet ikke, fordi vi har gått og kikket. Og så det er hva dette Prosjektet handler om, er lokalt, innenfor hver av disse regionene å se til veier der vi kan engasjere med fakultetet og forskere faktisk i den nederste enden av halen og forstår hva de gjør. 

Så det er noe som vi er faktisk lidenskapelig om. Og det er noe som vitenskapen vil ikke fortsette for å gå videre til vi løse noen av disse kant tilfeller. Andre biter av vitenskap som kommer opp-- alle sett Large Hadron Collider. Awesome, ikke sant? Dette ting alle løp ut på Holyoke. Vi built-- den aller første vitenskap som skjedde i Holyoke var samarbeidet mellom oss selv og Boston University. Så det er virkelig, virkelig kult. 

Dette er et morsomt stykke av vitenskap for skala. Dette er en digital tilgang til en sky-tallet ved Harvard. I utgangspunktet er det en plate arkiv. Hvis du går ned Oxford-- Garden Street, beklager, du finner en av observatoriet Bygningene er i utgangspunktet fullt på om lag en halv million plater. 

Og dette er bilder av den himmelen om natten, over 100 år. Så det er en hel rigg satt opp her for å digitalisere disse platene, ta bilder av dem, registrer dem, sette dem på en datamaskin. Og det er en petabyte og et halvt år, akkurat det-- ett lite prosjekt. 

Dette er andre prosjekter. Dette Pan-STARRS-prosjektet gjør en full bredt panorama undersøkelsen, leter etter i nærheten Earth asteroider og forbigående himmelfenomener. Som en molekylær biofysiker, jeg elsker ordet forbigående himmelsk begivenhet. Jeg er ikke helt sikker på hva det er, men uansett, vi leter etter dem. 

Og vi genererer 30 terabyte en kveld ut av disse teleskoper. Og det er ikke egentlig en båndbredde problem, det er som en FedEx problem. Så du setter lagring på van og du sender det uansett hva det er. 

Bicep er virkelig interesting-- så bakgrunnen bildebehandling kosmisk ekstra galaktisk polarisering. Når jeg først begynte å jobbe ved Harvard syv eller så, åtte år siden, husker jeg jobber med dette prosjektet og det gjorde egentlig ikke synke hjem til hvorfor polarisert lys fra den kosmiske mikrobølge bakgrunn vil være viktig, før dette skjedde. 

Og dette var John Kovac, hvem jeg snakket med før, bruker millioner på millioner av CPU timer, i våre anlegg og andre, til utgangspunktet stirre inn på innsiden av universets første øyeblikk etter Big Bang, og prøver å forstå Einsteins generelle relativitetsteorien. Det er tankene blåser at våre datamaskiner hjelper oss å avdekke og stirre inn i selve opprinnelsen til hvorfor vi er her. 

Så når du snakker om skala, dette er noen alvorlige skala. Den andre tingen av skalaen er, at bestemt prosjekt treffe disse gutta. Og dette er responskurven for bicepsen [Uhørbart] Dette var vår lille spørreundersøkelse. 

Og du kan se her, livet var bra før om her, som var når Kunngjøringen kom ut. Og du har fått bokstavelig sekunder for å svare til skalerings hendelse som tilsvarer dette lille prikken her, som endte opp med skiftende fire eller så terabyte med data gjennom webserveren som day-- ganske hårete. 

Og så er det disse typer ting som kan skje med deg i infrastrukturen hvis du ikke designe for skala. Vi hadde litt av en rykke ut den dagen, for å være i stand til å spenne ut nok webtjeneste å holde nettstedet oppe og går. Og vi var vellykket. Dette er en liten e-post det er slags søt. Dette er en post til Mark Vogelsberger, og Lars Hernquist, er hvem et fakultet medlem her ved Harvard. Mer om Mark senere. Men jeg tror dette er en slags oppsummerer slag av hvor databehandling er i forskning databehandling. Hei, team, siden i fjor Tirsdag, plaget dere opp enn 28% av den nye klynge, som kombinert er over 78 år CPU på bare tre dager. Og jeg sa, det er fortsatt bare bare fredag ​​morgen. Dette er ganske fantastisk! Glad fredag! 

Så jeg gir dem datapunktene. Og så det var ganske interessant. Så husk om Mark, vil han komme tilbake inn i bildet i en liten bit. Så skala-out computing er overalt. 

Vi er selv hjelpe folk ser på hvordan NBA-funksjoner, og hvor folk er kaster baller fra. Jeg forstår ikke helt dette spillet også vel, men tilsynelatende, det er en stor avtale. Det er hoops og boller og penger. 

Og så, vår database, vi bygget en liten 500 [uhørbart] parallell prosessor klynge, et par terabyte med RAM, å være i stand til å bygge dette for Kirk og hans team. Og de gjør databehandling på en helt annen måte. Nå er dette prosjektet vi er involvert med det er absolutt fascinerende, rundt nevrale plastisitet connectomics og genomisk imprinting-- tre svært tung treffer forskningsområder at vi slåss med på en dag-til-dag basis. Ideen om at hjernen vår er under plast stress når vi er unge. Og mye av vår voksen atferd er formet av erfaring i barndommen. Så dette er en stor dealio. 

Og så dette er arbeid som er finansiert av National Institutes of Mental Health. Og vi prøver å i utgangspunktet, gjennom en masse av store data og store dataanalyse, snill av likemann i vår menneskelige hjerne gjennom en rekke forskjellige teknikker. 

Så jeg ønsket å stoppe og type bare ta en pause for en liten stund. Utfordringen med fjernkontroll datasentre er det er langt unna. Det kan umulig fungere. Jeg trenger mine data nærheten. Jeg trenger å gjøre min forskning i min lab. 

Og så jeg slags tok et eksempel på en funksjonell magnetresonanstomografi datasett fra våre data sentrum i Western Mass. og koblet den til min desktop i Cambridge. Og jeg skal spille denne lille videoen. Forhåpentligvis vil det slags arbeide. 

Så dette er meg å gå gjennom sjekke mine GPU jobber. Og jeg sjekker at VNC er opp. Og dette er en smart VNC. Dette er en VNC med 3D-stykker. Og så, som du kan se om kort tid, dette er meg spinne denne hjernen rundt. Jeg prøver å slags få det orientert. Og da kan jeg gå gjennom mange forskjellige skiver av MRI data. Og det eneste som er annerledes om dette er, det kommer over ledningen fra Western Mass. til skrivebordet mitt. Og sin gjengivelse raskere enn min stasjonære, fordi jeg ikke har en $ 4000 grafikkort i skrivebordet mitt, som vi har ut Western Mass. Selvfølgelig, jeg prøver å være flink. Jeg kjører GLX tannhjul i bakgrunn, mens du gjør alt dette, å sørge for at jeg kan reke grafikkortet, og at alle slags fungerer og resten av det. Men det viktigste er, er dette er 100 miles away. Og du kan se av dette at det er ingen åpenbare latency. Ting å holde sammen ganske godt. 

Og så, i seg selv, er et eksempel og noen innsikt i hvordan databehandling og skala-out databehandling kommer til å skje. Vi jobber alle på tynnere og tynnere enheter. Vår bruk av tabletter øker. 

Så derfor, min karbon fotavtrykk er i utgangspunktet flytte fra det som pleide å gjøre det ville har vært en stor maskin under pulten min, til hva er nå en facility-- kan være hvor som helst. Det kan være hvor som helst i det hele tatt. Og ennå, er det fortsatt i stand til å bringe rygg høy grafikkytelse til skrivebordet mitt. 

Så, komme i nærheten av end-- huske Mark? Vel, er smart gutt Mark. Han bestemte seg for at han skulle bygge en realistisk virtuell univers. Det er litt av et prosjekt, når du tror du har fått til å kaste dette. Jeg kommer til å bruke en datamaskin, og jeg kommer å modellere de 12 millioner år etter Big Bang til å representere en dag. Og så kommer jeg til å gjøre 13.8 milliarder år med kosmisk evolusjon. OK. 

Dette bruker faktisk en datamaskin den var større enn vår datamaskin, og det smittet over på den nasjonale ressurser til våre venner ned i Texas. Og til de nasjonale anlegg dette var mye computer. Men vi gjorde mye simuleringen lokalt å sørge for at programvaren arbeidet og systemene fungerte. 

Og det er dager som dette når du innser at du støtter vitenskap på dette nivået av omfanget, at folk kan nå si ting liker, jeg kommer til en modell et univers. Og dette er hans første modellen. Og dette er hans lagets første modellen. Det finnes mange andre folk som kommer å komme bak Mark, som kommer til å ønsker å modellere med høy oppløsning, med mer spesifisitet, med mer nøyaktighet. 

Og så, i de siste par minutter, Jeg bare ønsker å vise deg denne videoen av Mark og Lars er det til meg, igjen, som en livsvitenskapsmann, er slags søt. Slik at dette, ved bunnen her, for å orientere deg, dette er å fortelle deg tid siden Big Bang. Så vi er på om lag 0,7 milliarder år. Og dette viser dagens oppdatering. Så du ser i øyeblikket, mørk materie og utviklingen av fin struktur og tidlig strukturer i vår kjente universet. 

Og punktet med dette er at denne er gjort inne i maskinen. Dette er et sett av parametere og et sett med fysikk og et sett med matematikk og et sett av modeller som er nøye utvalgt, og deretter nøye forbundet med hverandre å være i stand til å modellere interaksjonene. 

Så du kan se noen starter av noen gasseksplosjoner her. Og gass temperaturen endrer seg. Og du kan begynne å se strukturen av det synlige universet endring. Og den viktigste delen med dette er, hver lille bitte, bitteliten prikk er et stykke fysikk og har et sett av matematikk rundt, informere sin venn og nabo. 

Så fra en skalerings perspektiv, disse datamaskiner har til alt arbeid i konsert og snakke med hverandre effektivt. Slik at de ikke kan være for pratsom. De har til å lagre sine resultater. Og de må fortsette å informere alle sine venner. Faktisk, vil du se nå, denne modellen blir mer og mer komplisert. Det er mer og mer ting som skjer. Det er mer og mer Materialet flyr rundt. 

Og dette er hva den tidlige kosmos ville har sett ut. Det var en ganske hårete sted. Det er eksplosjoner over stedet, kraftige kollisjoner. Og dannelse av tung metaller og elementer. Og disse store skyer kræsje inn hverandre med ekstrem kraft. 

Og så nå er vi 9,6 milliarder år fra denne første eksplosjonen. Du begynner å se ting er slags roet ned litt, bare litt, fordi energi er nå begynner å slappe av. Og så den matematiske modeller har fått det på plass. Og du begynner å se koalesens av forskjellige elementer. Og begynner å se denne tingen slag av kommer sammen og sakte kult. 

Og det begynner å se litt mer som nattehimmelen, en liten bit. Og det er [? QSing. ?] Vi er nå 30.2 milliarder år og vi er slags gjort. Og så hva de gjorde var at de tok denne modellen og så på det synlige universet. Og i utgangspunktet da, var i stand til å ta det og klæ det med det du kan se. Og troskap er svimlende, som til hvor gode de datamodeller er. 

Selvfølgelig, astrofysikere og forskningsgruppene trenger enda bedre troskap og enda høyere oppløsning. Men hvis du tenker på hva Jeg har snakket til deg i dag gjennom denne lille reise gjennom både lagring og struktur og nettverk og stabler, er det viktigste, er skala-out computing viktig? Det var mitt opprinnelige hypothesis-- tilbake til vår vitenskapelige metode. 

Jeg håper at ved tidlig del av dette jeg ville forutse at jeg ville være i stand til å forklare til deg om skala-out databehandling. Og vi slags testet noen av disse hypoteser. Vi gikk gjennom denne samtalen. Og jeg skal bare si skala-out databehandling er essential-- oh, Ja, veldig mye ja. 

Så når du tenker om dine koder, når du gjør de CS50 endelige prosjektene, når du tenker om din arv til menneskeheten og de ressursene som vi må være i stand til å kjøre disse datamaskin systemer, tenke veldig nøye om FLOPS per watt, og tenke på Chaos Monkey. 

Tenk på dine snøflak, gjør ikke gjøre en-offs, gjenbruk biblioteker, bygge gjenbruk codes-- alle de tingene at lærerne har lært deg i denne klassen. Dette er grunnleggende aspekter. De er ikke bare tomme ord. Dette er virkelige ting. 

Og hvis noen av dere ønsker å følge meg, Jeg er obsessive med Twitter ting. Jeg må liksom gi det opp. Men mye av det bakgrunnsinformasjon er på vår forskning databehandling hjemmeside på rc.fas.harvard.edu. 

Jeg prøver og holde en blogg opp til date med moderne teknologi og hvordan vi gjør distributive databehandling og så videre. Og da våre ansatte er alltid tilgjengelig gjennom odybot.org. Og odybot er vår lille hjelper. Han har ofte lite konkurranser på sin nettside også, hvor du kan prøve og øye på ham rundt campus. Han er vennlig lite Ansiktet til forskning databehandling. 

Og jeg vil slags bryte opp det og takke dere alle for tiden. Og jeg håper du husker det skala-out computing er en real thing. Og det er mye folk som har fått mye av kjent teknikk som vil kunne hjelpe deg. Og alle lykke til med din fremtidige bestrebelser i å gjøre sikker på at vår databehandling både skalaer, er høytytende, og hjelper menneskeheten mer enn noe annet. Så, takk for din tid.