JAMES袖口:嗨,不錯 下午好。 我的名字是詹姆斯袖口。 我的助理院長研究 這裡計算哈佛大學。 今天我要和你談談 為什麼向外擴展的計算是至關重要的。 所以我想,先上去,這傢伙是誰? 我為什麼在這裡? 為什麼我跟你說話? 我有科學背景 計算和研究計算, 可以追溯到美國 Kingdom--威康信託基金會桑格 研究所人類genome--和 然後,最近在美國 在廣泛等受人尊敬的工作 學習的地方,比如哈佛大學。 我猜這是什麼真正的意思是 我是一個恢復的分子生物 物理學家。 所以,有什麼權利我必須告訴 你對橫向擴展計算? 有一個但是。 18歲的讓我剛剛見過的最 大幅增加的規模複雜 和整體效率 的計算系統。 當我在做我的博士在牛津,我 是相當興奮的一個200兆赫 Silicon Graphics公司機18 千兆字節的存儲和單個CPU。 時代已經變了。 如果你現在快進,我們紡 超過60,000這裡的CPU在哈佛。 許多其他組織 有紡等等。 從這個最重要的是外賣 這種規模是現在不僅不可避免, 它的發生,這是 將繼續發生。 因此,讓我們,一會兒,善良 對快退和說話非常快 關於科學,我最喜歡的 主題,科學的方法。 如果你要成為一名科學家, 你必須做一些關鍵的東西。 如果你不這樣做,這些事情你可以 不認為自己是一個科學家 你將很難能夠 了解你的學科領域。 所以,首先,你會制定 您的問題,產生的假設, 但更重要的是,你 預測你results-- 你有一個猜測, 什麼樣的結果會如何。 然後最後,您測試 假設和分析結果。 所以這個科學的方法是 在計算非常重要。 兩者的預測計算 並能夠測試結果 是我們所需要的一個重要組成部分 做科學的方法。 這些預測和化驗 是真正的兩大基石 科學的方法,並且每個 所需要的最顯著進展 在現代計算。 科學的兩大支柱是 理論和實驗。 而最近, 計算經常被提及 作為是科學的第三大支柱。 所以,如果你的學生看這個, 你絕對沒有壓力。 science--沒有什麼大的第三大支柱 deal--計算,種重要的。 很高興,這是在計算部 計算機科學課程50。 所以足夠的背景。 我想告訴大家的是什麼計劃 我們要談談今天。 我會去對一些歷史。 我要解釋為什麼我們來到這裡。 我要談一些 該計算的歷史 你們是哈佛,一些 圍繞社會媒體活動, 綠色things--很 熱愛一切事物 green-- storage--計算機storage-- 如何混亂影響向外擴展了系統, 和分配系統中尤其如此。 然後我會觸及一些 向外擴展的硬件應該是的 要能需要 做計算的規模。 然後最後,我們要 包裝了一些真棒科學。 那麼,讓我們一分鐘 看看我們的實際歷史。 計算已演變。 如此以來,上世紀60年代,所有的 客場到今天, 我們已經看到,基本上的改變 從集中式計算範圍 下放計算,以 協作然後獨立 計算和右後衛了。 讓我的註釋一點點。 當我們第一次開始了與 電腦,我們有大型機。 他們是不相稱 昂貴的設備。 一切都應該被共享。 計算很複雜。 你可以看到,它填補室和 有運營商和磁帶 和各種whirry的, clicky,spinny設備。 圍繞“70年代80年代初,你開始 看傳真機的影響。 所以,你開始看到的計算 開始出現回實驗室 並成為更接近你。 個人的興起 計算機,當然 在80年代,早期的一部分 十年來,真的改變了計算。 並有一個線索 標題,因為它 被稱為個人計算機, 這意味著它是屬於你的。 從而演變 計算繼續, 人們意識到,他們的個人 電腦是不是真的夠大 要能夠做任何好處的話, 或顯著優點,在科學。 所以人們開始 開發網絡設備 司機能夠連接電腦 在一起,以便能夠建立集群。 因此這個生時代 在Beowulf集群的。 Linux的分解,以響應 專有操作系統,兩者的成本 和複雜性。 然後,在這裡,我們有今天, 在那裡,再次,我們 面對滿房間的電腦 設備和能力 刷卡人的信用卡,並得到 獲得這些計算設備, 遠程。 所以你可以再看看,在 歷史衝擊方面 我們如何做計算 今天,它肯定 從機演變 房間全電腦 通過一些個人計算 一路右後衛再次 到機房全電腦。 所以這是我的第一個集群。 所以2000年,我們建立了一個 在歐洲的計算機系統 有效註釋 人類基因組。 有很多技術 在右手側列 還有,不幸的是, 不再和我們在一起。 它傳遞給了 偉大的技術在天空中。 機器本身可能是 幾個像樣的筆記本電腦相當於 今天,和那種只是說明你。 但是,我們也仔細標註 人類基因組與這兩個保護它 在這個特殊的紙 從關注數據的性質 是公共或私人。 因此,這是真棒,對不對? 所以,我們已經有了一個人類基因組。 我們已經做了計算。 我感覺很高興自己。 我捲起哈佛大學在2006年, 感覺少了很多高興的自己。 這是我繼承。 這是一個部門 電子郵件和文件服務器。 你可以在這裡看到有 磁帶一點點 這是用來裝系統在一起。 這是我們的許可證和打印服務器。 我敢肯定有可能的密碼 對一些中報事貼注。 不真棒。 漂亮遠離真棒。 所以,我意識到這一點圖 我向您展示在開始 從共享所有權 回到共享, 我們需要改變比賽。 因此,我們改變了比賽 通過提供獎勵。 等人,因為這 小百科文章 在這裡說,我們的目的的生物。 和激勵的研究 結構是必要的,以研究 經濟活動。 於是我們開始激勵 我們的教師和我們的研究人員。 因此,我們誘因他們 一個真正的大的計算機系統。 因此,在2008年,我們建立了一個4096 處理器機 - 10架, 幾百千瓦的功率。 我認為是 有趣的是,它不 無論您身在何處的惡性循環。 同樣的電量和 計算時,功率是恆定的。 這是200千瓦我們 正在建造的系統在歐洲。 這是200千瓦 在2008年,而 似乎是[? quanter小?] 大學為基礎的計算系統。 所以,哈佛today--快進,我不是 再傷心大熊貓,相當幸福的熊貓。 我們已經60多萬人的負載平衡 CPU和爬坡顯著。 我們有15個PB的 存儲,也節節攀升。 同樣,這200千瓦 增量,我們似乎 要補充說, 每6個月左右。 很多很多的虛擬機。 更重要的是, 約1.8兆瓦 研究計算設備。 而且我要來 回到這個以後, 為什麼我現在不再是必然 算上我們有多少CPU有, 但有多大的電費。 其他20個這樣的專用 研究人員計算。 更重要的是,我們 開始發展我們的GPGPUs。 我是錯開多少本 被添加在某一天到一天的基礎。 所以,歷史課結束了,對不對? 那麼,我們如何從這裡到達那裡? 讓我們來看看一些現代 橫向擴展計算的例子。 我有點痴迷 大小和社交媒體的比例。 有很多的非常 成功的大規模計算 企業現在在這個星球上, 提供支持和服務 我們大家。 所以這是免責條款。 我想開始一個 在一個Instagram的盎司數。 這實際上不是一個 鉛在一個笑話,這是 甚至不是搞笑, 其實,想起來了。 但無論如何,我們要 看看Instagram的盎司。 我們要開始 與“我的蜜蜂和花。” 我在[聽不清]村 我花了一點圖片 蜜蜂的坐在花。 然後我開始思考 什麼,這實際上意味著。 我拍下了這張照片把我的手機 並計算有多少字節在裡面, 它是關於256千字節。 這時候我開始,基本上會 填補了5和1/4英寸軟盤。 開始想,好吧,這很酷。 我開始看,做 一些研究在網絡上。 而且我發現,Instagram的 擁有2億莫斯。 我本來就不是那 知道什麼是MAU了。 和MAU,到這裡,是 每月活躍用戶。 因此,2億MAUs--很酷。 20十億photographs--等 相當多的照片。 6000萬新照片 每一天 現身在每張照片約0.002演出。 這是約5千兆字節 磁盤恰到好處那裡。 那真的不是中部 什麼我們要談論的話題。 這是小土豆。 或者就像我們說在英國,微小的土豆。 所以,讓我們來看看真正的大象 在room--獨特的面孔。 再次,讓我們衡量 這種新的量子叫MAU。 Facebook上有13十億毛斯。 WhatsApp的,我已經連 聽說直到最近,它的 某種短信服務, 是500萬莫斯。 Instagram的,這是我們剛 講了,2億毛斯。 和Messenger,這是 另一消息服務, 也是2億莫斯。 所以總認為,那是關於 2.2十億用戶總量。 顯然,有一些重疊,但是這 相當於行星的三分之一。 他們送東西的 一個每天12十億的消息的區域。 再次,有7只 十億人在這個星球上。 不是每個人都有的智能手機。 因此,這是瘋狂的數字。 而且我會認為這不是 即使有關存儲或計算。 並引用這首歌, 它是所有關於那個圖。 下面是我們可愛的梅根特雷納下來 在這裡,唱所有的低音。 注意,她也有相當 低音位herself-- 207, 還有2.18億人都看到了 這位小姐唱她的歌。 所以,我的觀點是 它的所有有關的圖形。 因此,我們採取了一些開源軟件 並開始看一個圖表。 這就是LinkedIn,所以這 是Facebook的老人。 所以,這是我的LinkedIn圖。 我有1200左右的節點, 所謂的“朋友”。 這裡就是我在上面。 而這裡的所有的互連。 現在,回想起了Instagram的故事。 其中每一個都是 不僅僅是照片,它 有連接的整個過多 這個特殊的個人之間 和其他許多人。 這是中央一塊或者是一個 在圖形繪製算法的錯誤, 或這也許大衛· 馬蘭,我不知道呢。 所以,你可以重繪 在各種圖表 的ways-- gephi.gihub.io就是 你可以拉從該軟件。 這真的很酷的是 能夠組織社區。 你可以在這裡看到,這是哈佛和 其他地方,我已經工作, 因為這是我的工作有關的數據。 所以只是想想複雜 圖形和所有數據的 你拉一起。 那麼同時,在FriendFace,對不對? 我們看了看Instagram的數據 是五個千兆兆字節的順序。 沒什麼大不了的。 還是相當大量的數據,但沒有大的 在處理事物的更大的計劃。 從這篇文章的老互聯網上, “縮放Facebook的數據倉庫 300 PB的。“ 這是一個完全不同的 現在改變遊戲規則, 你開始的時候 認為數據和圖形的 和你有攜帶。 而他們的高數據增長的 600的順序T字節一天。 現在,你知道的,好了,then-- 我的意思是,每天600 T字節, 300 petabytes--他們 現在也開始 讓很在意 如何保持這種東西 並確保這些數據保持周圍。 這位先生在這裡, 周杰倫帕瑞克,正在尋找 在如何存儲數據的艾字節。 只是對於那些你 誰是一起觀看 在家裡,一個exabyte-- 10到18。 它有自己的維基百科 頁面,這是一個數量那麼大。 這是一個什麼我們的規模和範圍 看,能夠存儲數據。 和這些傢伙不碴周圍, 他們正在存儲數據的量。 因此,線索一個 他們正在尋找在這裡 對於數據中心 所謂冷藏。 這使我是綠色。 這裡是克米特。 他和我同意 - 這是非常 很難做到綠色, 但我們給它我們最好的嘗試。 克米特不能幫助它,他有 是綠色的時候, 不能把他的綠色岬關閉的。 所以,作為一個concepts-- 一些種核心概念 綠色的,當它 涉及到的計算。 的一個是最重要的 是在產品的壽命。 如果你的產品具有短的壽命, 你不能,顧名思義,是綠色的。 能量帶到製造 磁盤驅動器,一個主板,計算機 系統,片劑,不管它可 是,你的系統壽命 是的,你可以如何綠色是一個重要組成部分。 最重要的部分,因為大家 正在建設的軟件algorithms-- 算法的部分 單詞軟件,對不對? 所以,你的算法設計 無論從絕對關鍵 如何你要能夠使 快速而準確的計算,以使用 量最少的能量成為可能。 我會得到這一點。 數據中心設計 - 你見過 我們已經有數千 在數千台機器,坐在 悄悄地在小的,黑暗的角落 世界上運算。 資源allocation--怎麼弄 向計算,到存儲, 通過網絡。 操作系統是一個關鍵部分 此,很多虛擬化 能夠將更多和 多個計算成一個小的空間。 我給你一個小例子 從研究的計算。 我們需要更多的平安,更 動力,和多個管道。 我們需要更多更大, 更好,更快的計算機, 並且需要使用更少的果汁。 我們不能工作了如何做到這一點。 我不知道是否包括hashtag gowest作為 可能使用過的卡戴珊, 但無論如何,gowest。 而我們做到了。 我們拿起我們的操作 我們再搬出來 西方馬薩諸塞 在一個小磨房鎮 所謂的霍利奧克,北部 的Chikopee和斯普林菲爾德。 我們這樣做了幾個原因。 最主要的是,我們 有一個非常,非常大的水壩。 這非常大的水壩能 把精力了30多萬千瓦, 並且它沒有得到充分利用的時間。 更重要的是,我們也有 一個非常複雜的網絡 這是已經到位。 如果你看一下去哪兒網 去美國, 它遵循所有的火車軌道。 這件特殊的網絡是 我們的同事和朋友資 在美國馬薩諸塞州 技術研究所, 它是基本建成 所有的出路路線90。 所以我們有一個大的河流打勾,90路 滴答,我們有100英里短路徑, 及約1000英里長的路徑。 我們也要做一個非常大的 網絡接頭,你可以在這裡看到, 基本上放在一個環節, 能夠連接到霍利奧克, 但我們有所有必要的 infrastructure--平,電力,管道。 生活是不錯的。 再次,大水壩。 因此,我們基本上建立了馬薩諸塞 綠色高性能計算 中心。 這是一個熱愛勞動通過五 universities--麻省理工學院,哈佛大學,麻省大學, 東北和BU。 5兆瓦一天一個連接的負載。 我們做了各種聰明 與禁區省煤器 讓事情變得綠色環保。 我們內置了640多架, 專門用於研究計算。 這是一個古老的棕地,所以我們 有一些回收和一些整潔行動 和一些清理的部位。 然後我們開始 建工廠 並且,boom--可愛的設施與 能夠運行沙盒計算, 有會議和研討會, 也是一個龐大的數據中心地板。 這是我良好的自我。 我明明穿著同樣的外套。 我也許只有一個 外套,但有我 和約翰Goodhue--他是 在Center--執行董事 站立在機器室 地板,正如你所看到的, 是非常戲劇性的,而且它 源遠流長,很長的路要走。 我經常玩遊戲駕駛 從波士頓出來霍利奧克, 假裝我是一個TCP / IP數據包。 我也擔心我的延時 在我的車開車過來。 所以這是一塊綠地。 所以讓我們只花一分鐘 想想棧。 所以,我們正在努力非常認真地 有效地建立數據中心, 計算效率,做好 選擇為計算設備 並提供更多 重要的是,我們的應用程序, 是它的消息服務 或科學應用。 因此,這裡的堆棧。 這樣的物理層中,所有的 一路經過application-- 希望這是要 是你的,當然很大一部分。 OSI七層模型基本上是, 你會生活,吃飯,呼吸 這在整個職業生涯計算。 這整個的物理概念 infrastructure--電線, 電纜,數據中心,鏈接。 而這僅僅是描述網絡。 在這裡,沒錯,是很明顯, 這是一個古老的幻燈片, 因為這應該說是HTTP,因為 無人問津簡單的郵件 傳輸協議了。 這一切都發生在HTTP的空間。 所以這是堆棧的一層。 這裡是另一套書庫,在這裡你的 有一個服務器,主機,虛擬機管理程序, 一個客人,二進制庫, 然後您的應用程序。 或者,在這種情況下,該裝置 驅動程序,Linux內核,本機C, Java虛擬機 Java的API,那麼Java 的應用程序,等等,等等。 這是一個描述 的一個虛擬機。 聖棧,蝙蝠俠! 想想這 多少計算方面 你需要從獲得 這裡發生了什麼, 一路到頂部 該堆棧,以再 可以做您的實際 交付的應用程序。 如果你種 倒帶並開始思考 關於如何才能提供 浮點運算, 您的浮點運算是總和 芯的插座,數 在插座,一個時鐘,這是 能多快的時鐘turnover-- 4千兆赫,2 gigahertz--然後數 操作即可 做在一個給定的赫茲。 所以今天的微處理器 四到6 FLOPS做 每個時鐘週期。 所以單核2.5演出時鐘 有一個理論性能 約一萬FLOP,給予或採取。 但是,正如一切, 我們有選擇。 所以和英特爾酷睿2,Nehalem處理器 Sandy Bridge的,Haswell的,AMD, 把你的choices--的英特爾Atom。 所有這些處理器架構 都具有略微不同的方式 是能夠加 兩個數字在一起, 這基本上是 他們的生活目的。 一定很辛苦。 還有數以百萬計人坐 在數據中心,現在雖然。 索爾,觸發器每watt-- 這是一件大事。 所以,如果我想獲得更多的這種 打通這個堆棧,更快, 我得對工作有多少 浮點運算的第二 我能做的,然後給他們瓦。 幸運的是,鄉親 已經想到這個問題。 所以這是一個大的 大賽每年都看 誰可以建立最快的計算機 可對角化的矩陣。 這就是所謂的500強。 他們選擇從頂部 最好的500台電腦 在這個星球上,能 矩陣對角化。 你會得到一些驚人的結果。 很多這些機器都是 在10和20兆瓦。 他們可以對角化矩陣 相稱快。 它們不一定角化 他們盡可能高效的每瓦, 所以有這個大推一下 什麼是綠色500強名單會是什麼樣子。 這裡是從6月的列表。 應該有一個新的很快。 並呼籲out--我帶你去 這個特定列表的頂部。 有兩個具體machines-- 1 從東京技術研究所 ,一名來自劍橋 大學在英國。 而這些有相當驚人 每瓦比大型無人問津。 這其中的4389,以及 下一個下來就是3631。 我將解釋之間的差異 這兩個,在接下來的幻燈片。 但這些都是這些 中等規模測試集群。 這些只是34 千瓦或52千瓦。 還有一些較大的 這裡 - 這個特殊的 在瑞士國家 超級計算機中心。 該帶回家的消息 這是我們 試圖找到電腦 可以有效地工作。 所以,讓我們來看看這上面 1,所謂討人喜歡地的肯德基。 和廣告在這裡一點點。 這種特殊的食品公司 沒有任何與此有關。 這是一個事實,即 這個特殊的系統 浸泡在一個非常 聰明油基化合物。 所以他們得到了他們的 雞油炸綽號 當他們第一次開始 建立這些類型的系統。 但基本上,他們已經採取了什麼 這裡是一個數量的葉片, 把他們在這 複雜的礦物油, 然後制定出如何讓所有 網絡進出的。 然後,不僅如此, 他們已經把它放在外面等 它可以利用外部空氣冷卻。 這是相當令人印象深刻。 所以,你所要做的一切 這種有心計 要能得到這個數額 計算交付的小功率。 而且你可以看到這是形狀 那裡的東西都往。 目前的挑戰是,經常風 冷卻經濟規模 並推動了很多 雙方定期計算的發展, 和高性能計算。 所以,這是非常具有破壞性。 我認為這是令人著迷的。 這是一個有點亂,當你 嘗試交換的磁盤驅動器, 但它是一個很酷的想法。 所以,不僅如此,還有 一大堆工作 正在圍繞我們是 調用Open計算項目。 因此,更多的是 一點點後。 不過,業內開始 認識到每瓦FLOPS 正在變得越來越重要。 而你,作為人在這裡,因為 您設計的算法 你設計你的 代碼中,你應該知道 你的代碼可以 有一個連鎖效應。 當馬克坐在這裡他 宿舍裡寫的Facebook 1.0, 我敢肯定他有一個觀點 這將是巨大的。 不過,這將是多麼巨大的是在 環境是一個大dealio。 所以你們大家都可以的 拿出算法 這可能是下一個挑戰性 鄉親像我這樣的事情, 嘗試運行系統。 因此,讓我們只是想想 真正的世界大國的限制。 本文由Landauer-- 是不是一個新事物。 1961年該出版 在IBM雜誌。 這是典型 “不可逆性與熱 新一代的計算過程。“ 因此,他認為, 機器難免 執行邏輯功能 不具有單值的倒數。 這樣的整體的一部分 這是早在上世紀60年代, 鄉親們知道,這是 會成為一個問題。 等限制的法律說25 ℃,一種典型的房間 溫度時,限制 代表0.1電子伏特。 但在理論上,這是 理論,計算機存儲器, 在這個極限操作可能 在同一十億位的第二個改變。 我不知道你,但不 遇到一對多十億位 第二數據速率交換。 這個論點有只 2.8萬億功率的瓦 應該永遠被擴大。 好吧,現實世界example-- 這是我的電費。 我百分之65% 那個可愛的數據中心 我發現你,在這個特定的時間。 這是早在去年六月。 我已經採取的是舊版本,讓我們 那種能和匿名一點。 我是耗資45,000 一個月能有。 所以在那裡的原因是,我們 有超過50,000流程的房間。 所以,你能想像你自己 住宅電費 是高? 但它是一個1.99億 瓦特小時不超過一個月。 所以,我提出的問題是,你能 想像扎克伯格的電費? 煤礦是相當大的,而且我奮鬥。 而且我不是一個人在這。 有很多人 與大型數據中心。 所以,我想,全disclosure-- 我的Facebook好友一點點奇怪。 所以,我的Facebook好友是 所述的Prineville數據中心, 這是Facebook的最大的之一, 最新的,能量最低的數據中心。 他們張貼到我,這樣的事情 用電效能, 在如何有效的數據 中心與你多少精力是 投入是多少 水是他們用,有什麼 的濕度和溫度。 他們有這些 可愛的,可愛的地塊。 我認為這是一個 真棒的Facebook頁面, 但我想我是有點怪異。 因此,人們更省電的事情, 研究計算,我做 是顯著不同 什麼Facebook和雅虎和谷歌 和其它點播,充分, 始終可用的服務。 所以,我的優勢在於,當 ISO新England--和ISO新英格蘭 有助於建立能源 率的區域。 它說,它的擴展 一個請求給消費者 自願節約能量高, 因為高的溫度和濕度。 這又回到了七月的第18位。 所以,我愉快地鳴叫回來,嘿, ISO新英格蘭,綠色哈佛大學。 我們正在做我們的一部分了 在這裡研究計算。 這是因為我們正在做的科學。 並不亞於人說科學 不夜城,科學可以等待。 所以我們能夠停頓我們 系統,利用分級費率 我們的能源法案,並 幫助整個新英格蘭 按地區脫落 負載很多兆瓦。 所以這是唯一的事情, 關於不同科學計算數據 中心和那些 全面投產24/7。 因此,讓我們只是把另一個齒輪在這裡。 所以,我想討論 亂象一點點。 我希望把它放在 存儲的贊助。 因此,對於那些那種 被掙扎 讓他們的周圍有什麼高數量的頭 存儲的模樣,這樣的一個例子。 這是東西排序 我處理所有的時間。 這些小傢伙的每一個 是四TB的硬盤驅動器, 這樣你就可以種數起來。 現在我們正在之間 1至1和1/2 PB的 在一個標準的行業機架。 我們有房和客房,為你 在早期的畫面,約翰看見 而我,充滿這些設備的機架。 因此,它變得非常,非常容易 建立海量存儲陣列 它主要是容易的Unix裡面 種計數事情是如何。 因此,這是計算有多少 MAU點都有我到了那裡。 所以這是423攔截點。 然後,如果我跑了一些粗略的awk,我 可以加起來,在這種特定的系統, 有7.3千兆字節 的可用存儲器。 所以這是一個很大的東西。 和存儲真的很難。 然而,由於某種原因, 這是一個行業的發展趨勢。 每當我跟我們的研究人員 而我們的教師說, 哎,我可以為你運行的存儲。 不幸的是,我要 恢復所述存儲的成本。 我得到這個業務。 人們引用新蛋 或者它們引用斯台普斯 或者他們可以買多少一 單TB的磁盤驅動器。 所以,你會注意到 在這裡,有一個線索。 有在這裡一個磁盤驅動器。 如果我們回去,我有很多。 不僅我有很多,我有 複雜的互連 要能夠縫合 這些東西放在一起。 因此,與這些大的風險 存儲陣列是不小的。 事實上,我們走上 互聯網和我們寫 約一個善意的一個小故事, 研究溫和的導演 computing--恰好有一個 奇怪的英語accent--嘗試 解釋給研究者什麼 實際上沒有下劃線備份文件夾 意思。 這是相當長的,小故事, 一個好的4分鐘發現。 而且請注意,我有一個可怕的 很多比小姐少空間 那唱所有的低音。 我們相當多的帳戶下。 但無論如何,這是一個 思考重要的事情, 在什麼可能出問題條款。 所以,如果我得到一個磁盤驅動器, 我把它扔在Unix機器, 我開始寫東西出來, 有一塊磁鐵,有一個驅動器磁頭, 有表面上,一個或一個零 被寫在給該設備。 Motors-- spinny,驚慌 事情總是打破。 想想事情打破。 這一直是spinny,驚慌的事情。 打印機,磁盤驅動器, 機動車輛等。 任何移動很可能會打破。 所以,你需要電機,你 需要驅動器固件, 需要的SAS / SATA控制器,電線, 固件上的SAS / SATA控制器, 低水平塊。 選擇你的存儲控制器的文件 系統的代碼,哪一個可能是, 你怎麼縫的東西放在一起。 和您的虛擬內存管理器 頁面,DRAM獲取並存儲。 然後,你再弄 堆棧,這是一種 倒在這個名單 1,算法用戶。 如果你乘這一點, 了,我不知道有多少, 有很多的地方 那裡的東西可以橫著走。 我的意思是,這是有關數學的一個例子。 但它是一種樂趣,想想 有多少種事情會出錯, 只是為一個磁盤驅動器。 我們已經在300千兆兆字節,所以 想像的磁盤驅動器的數量 你需要在300千兆字節 可能出錯。 不僅that--,這樣的存儲。 並且暗示了 人,我倒要看看 進入舞台左側,這 是混沌猴子。 因此,在某一點,它會變得 大於剛在磁盤驅動器 問題。 等等,這些優良的女士和紳士 運行流媒體視頻服務 意識到自己的電腦是 也巨大,也很複雜 並且也提供服務 一個可怕的人很多。 他們有3700萬members--和 這張幻燈片的,也許一年半載old-- 成千上萬的設備。 還有數十億小時的視頻。 他們每天記錄數十億的事件。 你可以看到,大多數人看 後來在電視上在晚上, 它遠遠超過了一切。 因此,他們希望 能夠確保 該服務是和 可靠並為他們工作。 於是,他們想出了這個 所謂混沌猴子的事。 這是一個軟件 其中,當你覺得 關於談論稱號 這整個介紹, 向外擴展意味著你 要測試這個東西。 這已經不是什麼好僅僅有 一萬台機器。 因此,對好的事 這是,混沌猴 是一種服務,它 標識系統組 並隨機終止1 該系統中的一組。 真棒。 所以我不知道 你,但是如果我有生以來 建,它依賴於其他的系統 系統互相交談, 你把其中一人出去, 整個事情的工作的可能性, 迅速減小。 所以這一塊的軟件運行 圍繞Netflix的基礎設施。 幸運的是,它說,它只能運行在 營業時間的意圖 工程師會 警惕並能夠作出回應。 所以這些都是類型 的事情,我們現在是 不必做擾亂我們的計算 環境,引進混亂 並引入了複雜性。 那麼,誰在自己的權利 心態,會心甘情願選擇 用混沌猴子的工作? 死守,他似乎指向了我。 嗯,我想我should--可愛。 但問題是,你 不要選擇。 混沌猴子,你 可以看到,選擇你。 這與計算問題 在規模,你不能避免這種情況。 這是複雜的必然性 我們的發展規模和, 在某些方面的專業知識計算。 請記住,這是 有一點要記住, 混沌猴子愛 snowflakes--愛雪花。 一個snowflake--我們已經解釋了 混沌Monkey--但雪花 是一個服務器,它是唯一的,並 特別細膩和個人 並且永遠不會被再現。 我們經常會發現雪花 服務於我們的環境。 我們總是嘗試 雪花融化的服務。 但是,如果你找到一個服務器 在您的環境 即長壽臨界 你的組織,它融化, 你不能把它重新結合在一起。 因此,混沌猴子的工作是 去終止實例。 如果混沌猴子融化 雪花,你過來,你就大功告成了。 我想談談 有些硬件我們 看到在排序方面 向外擴展的活動了。 和一些獨特的東西,是在 和周圍的科學活性。 我們現在開始看到,記住 這個單位的問題,這架? 所以這是GPGPUs--所以一般的機架 目的圖形處理單元。 我們這些位於我們的數據 中心,100個左右英里遠。 這種特殊的架 大約是96萬億FLOPS 單精度運算能力 提供出它的背面。 而我們為了130多元 在一個實例卡 這we--多 這種情況下的機架。 因此,這是在這個意義上有趣的是 通用圖形處理 能夠極其做數學 迅速對於非常低的能量。 所以這是一個大的上揚 在科學計算領域, 看著圖形 處理單元的一大途徑。 所以我跑了一些Mcollective 通過我們的基礎架構的傀儡 昨日,非常興奮。 只是短期千萬億次的 的單精度。 只是到了這裡,這是明確的 小乘數是3.95。 雙精度算術 將是約1.2, 但我的Twitter的飼料 看著這樣更好,如果我 說我們有近千萬億次 的單精度GPGPUs。 但它到達那裡。 它越來越成為 非常,非常令人印象深刻。 為什麼我們要這麼做? 由於量子化學, 除其他事項外, 但我們開始設計 一些新的光伏技術。 所以阿蘭Aspuru-Guzik,誰的 在chemistry--我的合作夥伴的教授 在crime--為過去幾年。 我們一直在力推 信封上的計算。 而GPGPU是理想 技術,以便能夠做到 一個可怕的很多複雜 數學,非常,非常快。 因此,與規模,帶來了新的挑戰。 如此巨大scale--你必須要 小心你如何連線這個東西。 和我們有一定的水平 強迫症。 這些照片可能 駕駛人很多堅果。 和櫥櫃都不是 有線特別好 推動我們的網絡和 設施工程師堅果。 再加上另外還有氣流 你必須包含的問題。 所以這些事情我 絕不會想到的。 有了規模,帶來複雜性。 這是一種新的類型的文件系統。 它的真棒。 這是一個PB級。 它可以存儲1.1十億文件。 它可以讀取和寫入到13千兆字節 和20千兆字節second--千兆字節 一秒鐘。 因此它可以卸載TB的 在任何時間都沒有。 和它的高可用性。 而且它有驚人的查找 rates-- 220000查找第二。 而且有很多不同的人 建設這些類型的系統。 你可以看到在這裡圖形。 這是我們的文件系統之一 這是在負載下,相當 愉快的閱讀只是短暫 的22千兆字節的第二。 所以這是cool--這麼複雜。 因此,與複雜性和規模, 談到更多的複雜性,對不對? 這是我們的其中之一, 許多網絡圖, 在這裡你有很多不同 機箱中的所有支持高達 進入主核心交換機, 連接到存儲, 連接到低延遲互連。 然後將所有的這一面 房子,只是所有的管理 您需要能夠解決 這些系統從遠程位置。 所以規模有很多 複雜性與它。 再換檔,讓我們回到 並有科學的小點。 所以,請記住,調研 計算和這個小shim-- 間粉紅色的小墊片 教師和他們所有的算法 和所有的涼爽科學和所有的 該電源和冷卻和數據中心 地板與網絡和大型計算機 和服務台和幫助台 所以forth--等等,我們只是 他們之間的這種小墊片。 我們已經開始 看到的是,世界上 能夠建立 這些大型數據中心 並且能夠建立 這些大型計算機。 我們已經得到了它相當不錯。 我們不是很擅長這 研究之間的小墊片 而裸機和技術。 而且很難。 因此,我們已經能夠聘請 人活在這個世界上。 而最近,我們採訪到了 美國國家科學基金會說, 這種橫向擴展的東西是偉大的, 但我們不能讓我們的科學家 在這些大的複雜的機器。 因此,出現了 不同的節目數量 我們真的大多 關心嘗試 看看我們是否可以改變 校園基礎設施。 有很多的程序 圍繞國家的中心。 所以,我們自己,我們的 朋友在克萊姆森, 威斯康星大學麥迪遜分校, 南加州,猶他州和夏威夷 種了一起 看待這個問題。 在這裡,這個小圖 是科學的長尾巴。 所以這個is--它不 不管是在該軸, 但該軸實際上是數 職位經歷集群。 因此,有35萬以上 任何時間段。 這些都是我們通常的嫌疑人 沿此底部。 事實上,還有阿蘭Aspuru-Guzik, 誰,我們只是談論about--噸 和噸計算,真 有效的,知道自己在做什麼。 這裡的另一個實驗室,我將討論 有關在moment--約翰·科瓦奇的實驗室。 他們已經得到了它。 他們是很好的。 他們很高興。 他們的計算。 重大科學成果是得到完成。 然後,你那種 對來這裡,有 是其它基團即 沒有運行大量的就業機會。 為什麼呢? 是不是因為計算是太辛苦? 是不是因為他們不知道怎麼樣? 我們不知道,因為 我們已經走了,看著。 所以這就是這個 項目是一回事, 是局部內 每個這些區域, 尋找到途徑,我們可以搞 與教師和研究人員 實際上在尾部的底端, 並了解他們在做什麼。 所以這件事情,我們 實際上熱愛。 而這件事情, 科學將無法繼續 向前走,直到我們解決 其中的一些邊緣情況。 科學的其它位 這是怎麼回事up--大家 看到了大型強子對撞機。 真棒,對不對? 這東西都跑了出來,在霍利奧克。 我們built--的第一 科學發生在霍利奧克 是之間的合作 我們和波士頓大學。 所以這是真的,真的很酷。 這是一個有趣的一塊 科學的規模。 這是一個數字的訪問 天空世紀的哈佛大學。 基本上,這是一盤存檔。 如果你去了Oxford-- 花園街,對不起, 你會發現天文台之一 建築基本上是滿 的大約50萬片。 和這些的圖片 夜空,超過100年。 所以這是一個全台成立 這裡的數字化板, 把他們的照片,註冊 他們,把他們的計算機上。 而這是一個PB級半, 正好那裡 - 一個小小的項目。 這些都是其他項目。 這種泛-STARRS項目正在做 全寬全景調查, 尋找近地小行星 和瞬態天體事件。 作為分子生物物理學家,我愛 這個詞瞬間天上的事件。 我不太知道它是什麼,但 反正,我們正在尋找他們。 我們正在產生30兆兆字節 一個晚上的望遠鏡。 而這還不是一個真正的帶寬 問題,那就像一個聯邦快遞的問題。 所以你把存儲在麵包車 你把它不管它是什麼。 BICEP真的interesting-- 這樣的背景影像 宇宙銀河系外兩極分化。 當我第一次開始工作 在哈佛7左右, 八年前,我記得 工作在這個項目上 它並沒有真正下沉 家,為什麼偏光 從宇宙微波 背景是很重要的, 直到這件事發生。 這是約翰·科瓦奇, 誰我跟前, 使用億萬CPU的 小時,在我們的設備和其他人, 基本直視內 宇宙的第一時刻 在大爆炸之後,和 試圖了解 愛因斯坦的廣義相對論。 這是令人興奮的,我們的電腦 幫助我們解開顧盼 到為什麼我們在這裡非常的起源。 所以,當你談論規模, 這是一些嚴重的規模。 天平的另一件事是, 具體項目打這些傢伙。 而這是BICEP響應曲線 [聽不清]這是我們的小調查。 你可以在這裡看到,生活 好,直到這裡, 這是當 公告一出。 和你有字面上 秒響應 在縮放的盛事, 對應於這個小圓點在這裡, 這結束了轉移 四,所以TB的數據 通過Web服務器 這day--晦澀。 等,這些都是 類型的東西, 可以發生在你的基礎設施 如果你不為設計規模。 我們有一個有點 搶的那一天,是 能夠跨越出足夠的web服務 保持網站啟動並運行。 我們取得了成功。 這是一個小的電子郵件 這是種可愛。 這是一個郵件馬克Vogelsberger, 和Lars Hernquist,誰的 一名教師在這裡哈佛。 更多關於馬後。 但我認為這是其一 排序總結了樣 的,其中所述計算 在研究計算。 嘿,團隊,自去年 週二,你們折磨了 在新的28% 集群相結合 是達78年 CPU在短短的三天。 我說,它仍然 才剛剛週五上午。 這是相當真棒! 週五快樂! 然後我給他們的數據點。 所以這是一種有趣的。 所以,記得馬克,他會來 背入畫面一點點。 因此,向外擴展的計算是無處不在。 我們甚至幫助人們尋找 在NBA如何運作, 人們都在那裡 從扔球。 我真的不明白這個遊戲太 好了,不過貌似,這是一個大問題。 還有籃球和碗和金錢。 因此,我們的數據庫裡 建一個小500聽不清] 並行處理器集群, 幾個TB的RAM中, 要能夠建立這個 柯克和他的團隊。 他們正在做的計算 在一個整體的其他方式。 現在,這是項目我們 參與這 絕對迷人,周圍神經 可塑性connectomics和基因組 imprinting--三個非常重 研究領域擊球 我們對拼 一天到一天的基礎。 我們的大腦正在想法 當我們年輕的塑性應力。 而我們很多成年人的行為是 在嬰兒時期的經驗雕刻。 所以這是一個很大的dealio。 所以這是的資助工作 國立精神衛生研究所。 我們正試圖從根本上, 通過大量的大數據 和大數據分析,善良 同行到我們人類的大腦 通過各種 不同的技術。 所以我想種停下來 只是暫停了一小片刻。 用遙控器挑戰 數據中心是它的遙遠。 它不可能工作。 我需要我的數據附近。 我需要做我的研究,我的實驗室。 所以,我種了一個例子 功能性磁共振成像 從我們的數據的數據集 中心的西部大。 並把它連接到我的 台式機在劍橋。 我會玩這個小視頻。 希望這將種工作。 因此,這是我的經歷 檢查我的GPU工作。 而且我檢查VNC的了。 這是一個聰明的VNC。 這是3D片一個VNC。 所以,你可以看到在短期內,這 就是我這個紡紗大腦周圍。 我試著種得到它導向。 然後我可以移動通過多種 不同的片MRI的數據。 而唯一的事情,就是 這個不同 是,它的未來在電線 從西方的質量。在我的桌面。 而其渲染 比我的台式機快, 因為我沒有4000美元 顯卡在我的桌面,這 我們擁有了西方大眾。 當然,我想聰明。 我跑了GLX齒輪 背景,而做這一切, 以確保我能 強調顯卡, 而且,這一切都種 工作和其他一切。 但重要的是, 這是100英里遠。 你可以從這個看出, 沒有明顯的延遲。 東西維繫得相當好。 因此,在其本身, 是一個例子,一些見解 到如何計算和橫向擴展 計算將要發生。 我們所有的努力 瘦設備。 我們使用平板電腦的越來越多。 所以因此,我的碳 佔用基本 從什麼用移動 要做到這一點就已經 是一個龐大的機器 在我的辦公桌,要什麼 現在是一個facility--可以在任何地方。 它可以在任何地方都沒有。 然而,它仍然能夠帶來 回到高性能顯卡 在我的桌面。 因此,越來越近了 end--記得馬克? 那麼,聰明的小伙子是馬克。 他決定,他要 建立一個逼真的虛擬世界。 這是相當一個項目,當你 想你已經有了這個球場。 我將使用 計算機,我要去 模擬後,1200萬年 宇宙大爆炸,代表了一天。 然後我會做的13.8 十億年宇宙演化。 行。 這實際上使用計算機 的是大於我們的電腦, 並蔓延到全國 資源,我們的朋友下來在得克薩斯州。 而到了國家設施, 這是一個很大的計算中。 但是,我們做了很多 模擬本地 以確保該軟件 工作和系統的工作。 它是這樣的日子,你 意識到你支持科學 在這個水平的規模,即 人們現在可以說的東西 就像,我去一個模型的宇宙。 這是他的第一款車型。 這是他的球隊的第一款車型。 還有許多其他 鄉親會 來到後面的馬克,誰是要 想與高分辨率模型, 更多的特異性, 以更高的精度。 因此,在最後兩分鐘, 我只是想告訴你這個視頻 馬克和Lars的對我,再次, 作為一個科學家的生活,是那種可愛。 這樣一來,在底部 在這裡,給你定位, 這是告訴你 時間以來的大爆炸。 所以我們是在約0.7十億年。 這是示出了當前的更新。 所以,你看到的那一刻, 暗物質和演變 精細結構和早期的 結構在我們已知的宇宙。 並與此問題是,這 在所有的電腦內部完成。 這是一組參數 和一組物理 和一組數學 和一組模型 這都是經過精心挑選,然後 仔細彼此連接 能夠建模的相互作用。 所以你可以看到一些開始 一些氣體爆炸在這裡。 和氣體的溫度變​​化。 你可以開始看到結構 可見宇宙的變化。 而與此的重要組成部分 是,每個小很小,很小,小點 是一塊物理的,並具有 一組數學左右, 通知其朋友和鄰居。 所以從比例的角度來看,這些 電腦要在演唱會的所有工作 並互相交談效率。 因此,他們不能太健談。 他們必須保存他們的結果。 他們要繼續 通知所有的朋友。 事實上,你現在看到的,這款機型的 越來越複雜。 還有越來越多的東西怎麼回事。 還有越來越多的 圍繞材料飛。 而這也正是早期 宇宙會一直樣子。 這是一個非常有毛的地方。 有爆炸各地 的地方,功能強大的碰撞。 和形成重 金屬和元素。 而這些大雲砸入 對方的極端力量。 所以現在我們是9.6十億 幾年從這個最初的爆炸。 你開始看到的東西是 那種平靜下來一點點,只是 一點點,因為 能源已開始放鬆。 所以數學 模型已經得到了到位。 而你開始看到 合併不同的元素。 並開始看到這個東西種 走到一起,慢慢地冷靜。 它的開始看起來有點 更像夜空,一點點。 和它的[? QSing。 ?]我們現在30.2 十億年,我們種完成。 然後他們做了什麼了 他們利用這種模式, 然後看著可見宇宙。 基本上然後,分別 能夠採取和覆蓋 它你可以看到什麼。 和保真度是驚人的,以 計算機模型如何準確的。 當然,天體物理學家 和研究小組 需要更好的保真度 甚至更高的分辨率。 但如果你認為是什麼 我一直在今天跟你說話 通過雙方通過這個小遠航 存儲和結構和網絡 和堆棧,最重要的是, 是向外擴展的計算必不可少的? 這是我原來的hypothesis-- 回到我們的科學方法。 我希望在早期 這部分我會 預測,我就可以解釋 給大家介紹橫向擴展計算。 種和我們測試 其中的一些假設。 我們通過這次談話去了。 而我只是想說向外擴展 計算是essential--哦, 是的,很不錯。 所以,當你想 關於你的代碼,當 你正在做的CS50最後的項目, 當你想你的遺產 人類和資源,我們 需要能夠運行這些計算機 系統,覺得很細心 大約每瓦FLOPS, 想想混沌猴子。 想想你的雪花,不 做一取捨,再利用圖書館, 構建可重用codes--所有的東​​西 該教師已教你 在這個類。 這些都是基本方面。 他們不只是信口開河。 這些都是實實在在的事情。 如果任何一個你想跟著我, 我迷戀與Twitter的東西。 我得莫名其妙地放棄了起來。 但很多的 背景資料 在我們的研究計算 網站rc.fas.harvard.edu。 我盡量保持一個博客達 日期與現代技術 以及我們如何做分配 計算等。 然後我們的工作人員總是 可通過odybot.org。 和odybot是我們的小幫手。 他經常有一點 在他的網站上爭奇鬥艷 同樣,在那裡你可以嘗試 發現他在校園裡。 他是友好的小 臉上的研究計算。 種,我會包有 並感謝大家的時間。 我希望你記住, 橫向擴展計算是一個真實的東西。 而且有很多人 誰已經得到了很多現有技術 誰就能幫助你。 和所有的好運與 你的未來作出努力 相信我們的計算均 秤,是高性能, 並幫助更多的人性化 比什麼都重要。 所以,感謝您的時間。