JEFFREY Licht: Здраво таму. Јас сум Џефри Licht. И јас сум тука да зборувам со вас за Харвард библиотека и градење на иднината библиотека денес, претпоставувам. Значи позадина тука, теренот за оваа сесија е во суштина дека не е многу библиографски податоци достапни на Харвард библиотеки. И постои можност, преку некои од алатки и еден проект кој се развива, за да го добиете пристап до информации и го однесе на места кои Харвард библиотека не се прави во моментов, направи нови нешта со тоа, експеримент и се позанимавам со неа. Значи влезна точка во ова е API повика на Харвард библиотека Облак, која е отворен метаподатоци сервер, која ќе зборуваме за тоа сега. Значи, позадината е дека постои многу нешта во библиотеката на Харвард. Имаме над 13 милиони библиографски евиденција, милиони слики, и илјадници наоѓање помагала, кои се суштински документи опишувајќи колекции, велејќи дека она што е во нив, кутии со документи и така натаму, кои претставуваат повеќе еден милион посебни документи. И таму е исто така многу информации дека библиотеката има за тоа како содржина се користи што може да биде од интерес за луѓе кои би сакале да работат со него. 

Значи сите информации Во библиотеката има метаподатоци. Значи метаподатоци е податоци за податоци. Значи, кога зборуваме за информации кои достапни преку библиотеката облак кој е на располагање, тоа не е нужно вистинските документи себе, не мора да значи целосна Текстот на книги или целосни слики, иако тоа всушност може да биде случај. Но, тоа е навистина информации за податоци. 

Значи може да се мисли на каталогизација информации, јавете се броеви, предмети, колку копии од книга има, што се изданија, кои се формати, авторите, и така натаму. Значи има многу информации во врска со информациите во колекцијата што, само по себе, е вид на инхерентно корисни. И покрај тоа, ако сте прави во-длабочината на истражување, Очигледно сакате да се дојде до вистински самата содржина и се погледне на податоци, метаподатоците е корисно во смисла на и анализа на корпус, како целина, како што работите се во колекцијата. Како да се однесуваат? Тоа ви помага да навистина се најдат други нешта, кој е всушност главната цел на неа. Поентата на метаподатоци и каталог е да ви помогнеме да ги најдете сите информации кои располагање во рамките на колекции. 

Значи ова е пример на метаподатоци за книга во Харвард библиотека. Така, тоа е таму. И можете да видите дека е всушност умерено комплекс. И дел од вредноста на метаподатоци во рамките на системот на Харвард библиотека е дека тоа е вид на изградена од страна catalogers и составени од луѓе примена многу стручност и вештина и смета дека тоа со текот на времето, која има многу од вредност. 

Значи, ако се погледне на овој рекорд На коментирани Алис, можете да дознаете имаш за титулата, кој го напиша, авторот и сите различни предмети што луѓето го каталогизирани во. И може да се види таму, исто така, во Покрај тоа, голем број на добри информации тука се, има некои дуплирање. Има многу на сложеност што е се одразува преку метаподатоци што го имате. 

Значи еден наслов на оваа книга е Авантурите на Alice во земјата на чудата. Значи ова е додатна верзија на таа книга. Но, тоа е исто така, повика на коментирани Алис, Авантурите на Alice во земјата на чудата, бидејќи тоа е нешто што Мартин Гарднер напишал и коментари книгата. И има многу голема информации за логиката загатки и работи Алиса во рамките на што ќе веројатно не го знаат. Значи треба да одат да го прочита. 

Но, можете да видите има многу детали тука, вклучувајќи идентификатори, кога тоа е создаден, од каде дошла, во однос на Харвард систем, и така натаму. Значи ова е примерок од видот на метаподатоци кои може да се види за книга во собирање Харвард библиотека. 

Ова е нешто сосема друго. Значи, постои систем наречен ПРЕКУ Харвард, кој во основа е каталогизација слики и објекти на уметноста и визуелни работи во текот на Харвард, и додавање на некои метаподатоци за нив, класифицирање нив, и, во некои случаи, обезбедување мали мали слики кои може да се земе се погледне, ако така сакаат. 

Значи ова е пример на Податоците кои имате за чинија од, веројатно, Алиса во земјата на чудата. И можете да видите има помалку метаподатоци тука. Тоа е само еден поинаков вид на објектот. И така има помалку информации. 

Можете најчесто имаат фактот дека, на повик број, во суштина, кој го создал, - 

Ние не знаеме кога беше создадена. 

--and наслов. 

Друг пример. Овој наод помош. Па таму е збир на Луис Документи Керол е на Харвард. Значи ова го опишува она што е во тоа колекција. Значи некој помина низ и Погледнав низ сите кутии и каталогизирани, со оглед на некои позадина, писмено резиме на она што е овде. И ако сте во ситуација да се погледне понатаму во оваа, ова продолжува за страници и страници и страници, но ќе ви кажам она букви и она што датира од она што кутии владеела во целиот колекција. Но, ова е нешто дека, ако сте во Харвард, можете да одите и всушност телесно се погледне и, веројатно, ги погледне. 

Значи ова е за сите големи. Ова е корисно метаподатоци. Тоа е во системот Харвард библиотека. Има алатки на интернет каде што може да оди и да погледнам во него, и ја гледам, и пребарување на неа. И може да и се сечат парче тоа во многу различни начини. 

Но, тоа е навистина достапна само ако вие сте човечко суштество седнува во вашиот веб прелистувач или нешто или Вашиот телефон и навигацијата низ него. Тоа не е навистина на располагање во било вид на употребливите мода за други системи или други компјутери за користење, не со системи во рамките на Харвард библиотека, но системи во надворешниот свет, само другите луѓе во целина. Значи, прашањето е, како може ние ја направи достапна за компјутери така што можеме да го направиме поинтересна работи со него отколку само прелистување тоа самите? 

Па зошто вие би сакале да го направите ова? Постојат голем број на можности. Едната е дека може да се изгради целосно поинаков начин на пребарување содржината која е на располагање преку Харвард библиотеки. Јас ќе ви покажам еден подоцна наречен Stacklife, која има сосема различен ја преземат бараат за содржина. 

Вие би можеле да се изгради препорака моторот. Значи Харвард библиотека не е во бизнис каже, ви се допаѓа оваа книга. Потоа оди да ги разгледаме во овие 17 други книги кои може да бидат заинтересирани во или на овие 18 други слики. Но, тоа секако може да да биде важна карактеристика. И со оглед на метаподатоци, тоа може да биде можно да се стави тоа заедно. Вие би можеле да имаат различни потреби во термини за пребарување на содржина, како и можеби покрај алатки кои со кои се располага библиотеката прави на располагање, можеби ќе сакате за да барате во еден поинаков начин или да се оптимизира за одредена употреба случај, кои можеби тоа е многу специјализирани. Можеби постојат само неколку луѓе во светот кои сакате да пребарувате на содржина на овој начин, но тоа ќе биде одлично ако ние би можеле да ги споделите со нив да го направи тоа. Има многу на анализа во колку луѓе користење на содржината што ќе биде навистина Интересно е да се знае за тоа, да дознаете книги што се користат, што не се, и така натаму. И тогаш има многу можност да се интегрираат со други информации тоа е таму на интернет. Значи ние have-- 

На пример, има НПР на книга сегмент, каде што се интервјуираат автори за книги. И така тоа ќе биде прекрасно, ако сте биле угледување на книгата во Харвард Библиотека, а ти каже, во ред, постои е интервју со авторот. Ајде да ги разгледаме во тоа. Или има страница на Википедија, како авторитетен, научни референца за оваа книга, која ќе можеби ќе сакате да ги погледне. 

Постојат овие видови на извори расфрлани во текот на веб. И да ги здружи може да биде голема употреба на некој гледа во содржина, во потрага по нешто. Но, тоа е исто така, не вид на нешто што би сакате библиотеката да бидат одговорни за да оди надолу и лов на одредување на сите овие различни извори и да ги приклучување заедно затоа што тие се менува постојано. И она што тие мислат дека е важно мај нема да биде она што е битно. 

И уште повеќе, во основа има многу нешта не можеме да си помисли на уште. Значи, ако може да се отвори овој горе, повеќе луѓе покрај половина дузина или така, кои се во потрага по оваа на редовно да мислам на идеи и масажа на податоци, и го направи она што сакате со него. 

Значи, сакаме да се направи ова податоци на располагање на светот. Па, постојат неколку компликации. Една од нив е дека ова метаподатоци е во различни системи. Тоа е во различни формати. Значи има некои нормализација што треба да се случи, кои се нормализирање на процесот на доведување работите од различни формати и да ги мапирање на еден формат така што на полиња ќе се совпаѓаат. 

Постојат некои ограничувања на авторските права. Чудно е доволно, за влез каталог за книга е одговорен за авторски права. Па дури и ако тоа е само информации добиени од книгата, тоа е copyrightable. И во зависност од тоа кој всушност создаде таков метаподатоци, може да постојат ограничувања за тоа кој можете да го дистрибуирате, слични to-- 

Не знам. Тоа може или не може да биде слична на состојбата на текстот на песната, на пример. Значи ние сите знаеме како тоа тави надвор. Значи ви треба за да се добие околу ова прашање. 

И тогаш еден дел е дека има многу податоци. Значи, ако јас сум некој кој сака да работи со податоци или има кул идеја, кои се занимаваат со 14 милиони евиденција на мојот лаптоп може да биде проблематично и тешко да се управуваат. Значи, сакаме да се намали бариерите за луѓето да биде во можност да работат со податоци. 

Така пристапот кој се надевам адреси сите од овие проблеми е на два дела. Една од нив е изградба на платформа која ги зема податоците од сите овие различни извори и го влошува, нормализира, збогатува, и прави тоа во една локација. И тоа го прави достапен преку јавна API кое луѓето можат да се јавам. 

Значи API е апликација Програмирање интерфејс. И тоа во основа се однесува на крајната точка дека системот или технологија може да се јавите и да добиете податоци назад во структуриран формат на начин кои може да се користи. Значи тоа не е зависна за да одат на веб-страница и стружење податоци исклучување за тоа, на пример. 

Значи ова е почетната страница на Библиотеката Облак Точка API-то, која е во суштина својата верзија два. Така, тоа е втората итерација на се обидуваат да направат сите овие податоци на располагање на светот. Така, тоа е http://api.lib.harvard.edu/v2/items. И само да се скрши оваа надолу малку, што значи ова е дека ова е верзија на две API. Има една верзија, која Јас не одам да се зборува. Но, постои една верзија. 

И ако сте повикувајќи ова API-то, ќе се добива предмети. И дел од идејата за API е на API е договор. Тоа е нешто што е нема да се промени. Така на пример, - 

А причината е во тоа што ако јас изгради некаков вид на систем кој се случува да се користи библиотеката облак API за да се прикаже книги или им помогне на луѓето да најдат информации со уникатни начини, она што ние не сакаме да се случи е за нас да одиме промените начинот на дека API работи, и одеднаш што се распаѓа на крајниот корисник страна. Значи дел од ако сте прави API на располагање на светот, тоа е Добра пракса е да се стави бројот на верзијата во неа, па луѓето знам која верзија тие се занимаваат со. 

Значи, ако ние одлучуваме ние се најде подобар начин за изработка на оваа информација на располагање, ние би можеле да го променат тоа да јавете се дека верзијата три. Значи секој кој се уште е користење верзија две, кои сè уште ќе работат. Но верзија тројца имате сите нови нешта. 

Значи ова е API, но ова навистина изгледа како URL-то. И така што ова е пример е она што е нарече остатокот API-то, кој е достапен во текот на само редовни интернет конекција. И всушност можете да одат на него во пребарувачот. 

Па еве јас сум само отвори Firefox и качил на api.lib.harvard.edu/v2/items. И така, она што можам да добијам тука е основа на првата страница на резултатите од целата поставени на ставки кои ги имаме. И токму тука во XML формат. И тоа е, исто така, е prettified од Mozilla Firefox. Тоа всушност не имаат сите овие малку ширејќи се и стеснувајќи doohickeys тука. Ова е вид на поубави Верзија начин да се погледне во него. 

Но, она што ова ни кажува е Јас сум побарал сите елементи. Па така постојат 13.289.475 предмети. И јас барам на првиот 10, со почеток во позиција нула затоа што во компјутерски науки ние секогаш ќе започне од нула. И она што го имаме тука, ако јас само да пропадне ова, ќе видите јас имам 10 предмети. 

И ако јас ги разгледаме во некој објект, можам види дека имам информации во врска со тоа. И тоа е во она што се нарекува MODS форма. И така јас ќе одам да се префрлат врати тука за момент. OK. 

Значи, да бараат нешто во специфична бидејќи првиот елемент кој се случува да излезе кога ќе се погледне низ целата колекција е, по дефиниција, по случаен избор. Значи, да се погледне за некои крофни. О. 

OK. Значи крофни. Така најдовме има 80 предмети во собирањето дека референтноста крофни. Ние сме во потрага на првите 10 од нив. Сега, можете да видите тука начинот на кој Реков јас барам за крофни, Јас само додаде нешто да на барањето од URL-то. Значи q е еднакво на крофни, кои можете да види малку повеќе тука. 

И ова во основа значи дека има на спец за API, што го дефинира она што сите овие параметри значи. А тоа значи дека ние се случува да се пребарување сè за крофни. 

Значи првата точка, тука имаме можете да го видите насловот е крофни, и таму е поднасловот нарекува Американскиот страст, која е, претпоставувам, соодветно. Постојат голем број на different-- Откако ќе се дојде до точка на добивање на податоци, постојат голем број на различни формати што ќе може да се влезе. И има различни предности и слабостите за сите нив. Значи овој, може да се види тука, оваа форма е многу богат. И тоа е стандардизиран. 

Значи има одреден наслов поле, превод област. Постои и алтернативен Наслов, американски страст. Постои име поврзано со неа. Тип на ресурсот е текст. Има многу информации тука во овој формат. 

Но, има еден куп на различни формати. Значи она што бевме само во потрага по е формат наречен mods, која се залага за Метаподатоци Предмет Опис на услугата, потенцијално. Јас сум, всушност, не е сосема сигурен за С. Но, тоа е прилично сложен формат. Тоа е стандардниот формат. 

Но, тоа е оној што ги држи богатството на сите податоци дека библиотеката има, бидејќи тоа е многу блиску до она што библиотеката користи интерно. Тоа е стандард кој е користи низ целата земја, во целиот свет во академските библиотеки. И тоа е многу интероперабилни. Значи, ако имаш документ што е во MODS формат, може да се даде дека на некој друг чии системи се разбере mods, и тие можат да го внесете. Така, тоа е стандард. Тоа е многу добро дефинирани, многу специфична. И тоа е она што го прави интероперабилни, бидејќи ако некој вели, ова е алтернативна насловот на рекорд, секој знае што значи тоа. Од друга страна, тоа е многу комплицирано. 

Значи, ако се погледне на овој запис тука, ако јас само сакаат да се добие Насловот на овој документ, на оваа книга, што е веројатно крофни, Еден американски страст, тоа парсирање надвор е малку вклучени. Каде што има уште еден формат наречен Dublin Core, што е многу, многу поедноставно формат. 

И така можете да ја видите тука, нема наслов, поднаслов, заменик титула. Има само насловот, Крофни, американска страст, и уште една титула, американски страст. Значи, кога сте во потрага по каква форма сакате да се добие податоци од тоа, многу зависи од тоа колку ви се случува да го користите. Дали сте за користење интероперабилност или не сакате нешто едноставно што може да биде полесно да се работи? 

Од друга страна, многу од детали добиете вид на squished надолу. Вие може да ја изгуби нијанси на што е особено поле средства ако си имаш работа со Dublin Core, кои нема да добиеш со mods. Значи тоа се две од формати може да се добијат на API. И во основа, ние сме чување тоа зад сцената во mods. Но, ние може да ви даде во MODS и Dublin Core и било што друго, како и. Другите предвид при сте во потрага на податоци е можете да го имате како било JSON, кои се залага за да го вклучите Javascript Објект нотација, или XML, која се залага за Механизми Markup Language. И овие податоци репрезентации двете имаат иста податоци, точно истите области. Но, тие се само синтаксички различни. 

Значи ова е a-- Па, ајде да се префрлат. Значи, ова е нашата барањето за крофни во XML формат. Ако јас само го вклучите ова за да биде JSON, Јас може да се види тоа изгледа различно. Па сега тоа е иста содржина, но една поинаква структура. Има помалку аглести загради. Има помалку опширниот. 

И ова е формат, кој, ако работат во веб животната средина, Ти си најверојатно ќе да сакате да го користите, бидејќи еден на убави работи за JSON е тоа е компатибилен со JavaScript. Значи, ако јас пишувам веб стан, можам да се повлече во JSON и да работиш со тоа директно. Со оглед на тоа со XML, тоа е малку повеќе комплицирано. Значи, повторно, овие се и корисни. Тие само се различни употреба случаи каде што луѓето можеби ќе сакате да ги користите. OK. Па назад кон API. Значи, може да се бара for-- 

Јас им даде пример на во потрага по крофни. Ние, исто така може да се бара само во одредена област во рамките тука. Така, наместо за пребарување целата рекорд, Јас само може да се бара полето за наслов. И така сега постојат 25 работи кои имаат крофни во насловот, од кои една е за враќање мочуриштата во менаџмент на дупка во крофна Програмата, што е веројатно не мора да значи она што го барате за кога сме во потрага за крофни. 

Можете исто така да, кога сте кои се занимаваат со API-- 

Дел од кои имаат API, се откажува на луѓето пристап до големи збирки на податоци. И постојат неколку различни алатки можете да го користите за да го направите тоа. Една од нив е, многу едноставно, може страница преку податоците. Па само како да го направите пребарување преку веб интерфејс, може да се погледне на една страница, страница два, три страница. Можете да го стори истото работа преку API. Вие само треба да биде експлицитни во тоа како го правиш. 

Така на пример, ако јас сум во потрага При мојата прва пребарување тука, каде јас го правам од пребарувањето за работите со крофни во насловот, можам да кажам, и за ограничување изнесува 20, што значи ми даде првите 20 записи, а не првите 10, која е стандардна, затоа што сакам да се погледне на 20 во исто време. Или можам да кажам, во собата на започне еднаков на 20 и ограничување еднакви 20, кој ќе даде ме снима 21 преку 40 години. 

Па претпоставувам дека нешто да ни ја одземе тука е дека ние сме со користење на пребарување стрингови за да поставите параметри за пребарување. И тоа ви овозможува контрола она што го добие назад. 

Друга алатка која можете да го користите, - 

И ова е навистина од голема помош во однос на истражување на податоци. 

--is нешто што се нарекува faceting. Значи терминот faceting е не мора да се честа појава. Но, сте сите го видел. Ако погледнете во Amazon, на пример, и ќе направите пребарување за крофни во книгите, тука тие го добивме серија на книги, и тие се групирани по категории, и ќе го добиете различни категории, и колку книги во секоја категорија појавиш. 

Значи ова е всушност аспект. Можете да ги преземе сите своите книги, 1800 книги кои се совпаѓаат крофни во Амазон. 12 од нив се во појадок категорија. 21 во оспорува и спецификации, и така натаму и така натаму. 

Значи ова е навистина корисна алатка за истражување на содржина во рамките на библиотеката, како и затоа што кога ќе се погледне во еден аспект, тоа ви дава една идеја за она што предмети постои, како што видови на предмети се најпопуларните во вашето пребарување собата. И тоа ви помага да се вози надвор и да се истражуваат. Значи, ние може да го направи истото. 

Ако сакаме да се користи API и погледнете аспекти, ние додадете уште еден параметар за нашиот пријател на барањето. Значи аспекти еднаква одделени со запирки листа на она што сакаме да го аспект на. Значи еден од аспекти може да биде предмет. Друг би можеле да бидат јазик. И така, ако трчаме дека барањето, ние get-- Тоа изгледа прилично многу исти тука. Но, ние додадена на крајот на листата во собата на аспекти. Значи имаме еден аспект нарекува тема. Па ова ни кажува дека ако јас се погледне во мојата 80 резултати од пребарување крофна, 13 од нив имаат подлежат на САД. Три имаат предмет крофни. Три имаат предмет на мочуришта, кои можат да бидат нашите дупка во крофна. Двајца од нив, Симпсонови, и така натаму и така натаму. 

Така што ова може да биде корисно ако сакате да го стесните пребарувањето. Тоа може да ви помогне да го направите тоа. Особено ако имате повеќе отколку, да речеме, 80 резултати. 

Слично на тоа, ние исто така, побара за аспекти на јазикот. Значи, ако ние се погледне во нашите резултати, можеме да видиме 76 од нив се на англиски јазик, четворица во Франција, две во шпански, два, мислам дека е недефинирани или непознати, холандски и латински. Па мислам дека латинскиот крофна резултат на тоа, повторно, нема никаква врска со печени производи. Но, таму да одите. 

Значи ова е вид на ви покажува како може да се повлече на содржина назад од API само преку веб прелистувач, што е одлично. Но, тоа не е навистина она што би вообичаено се користат во API за тоа. Значи еден пример за тоа како можете всушност би можеле да го направите ова е што сум напишано супер мала програма, кои, пак, не ми крофна пребарување и избор на неколку полиња и ги прикажува во табела. Значи ова е многу многу иста содржина дека ние едноставно видов со неколку полиња извади. Значи листа на наслови, локацијата на што книгата е за, јазикот, и така натаму и така натаму. 

Па, како тоа навистина се случило, бидејќи Претпоставувам дека ние треба да се погледне во некои код, is-- 

Она што го имаме тука е едноставна HTML страница, која го прикажува текстот, добредојде на библиотеката облак и потоа ги прикажува табела со резултати. И постојат очигледно нема резултати во маса, кога страната се вчитува. Но, она што го правиш е, пред сè, се вчитување на библиотека наречена jQuery, кој во основа е на JavaScript библиотека, што го прави многу лесно да се манипулира го вклучите Javascript- природно, HTML, и да се создаде веб-страници, клиент-страна логиката и веб страници. 

Значи она што го имаме тука е jQuery има метод наречен добие, што во суштина ќе оди URL-то, кој, во овој случај, е оваа позната во потрага URL-то. И тогаш ќе се добие од содржината од дека URL а потоа извршува функција на тоа. Па рековме да одат api.lib.harvard / edu. Пребарај за крофни. Дај ни 20 записи. И тогаш ја извршите оваа функција, која Јас сум избрана, поминува на податоците. И на податоци е JSON дека доби врати од API. 

И тогаш велиме, во рамките на кои податоци има областа наречена точка. И ако јас да си одат се погледне назад во еден од овие резултати што е тука, има нешто called-- 

Па, тоа се вика елемент. Така што може да биде тоа. И она што го прави е тоа поминува низ секоја ставка а потоа повикува друг функција на секој дел. И таа функција во основа е преземање на вредност на објектот, кој е суштина на поединецот рекорд и ни овозможува да се повлече од насловот, опфатот и јазикот. 

Така што ние го нарекуваме функција на секој ставка што се вративме од API. И ако само погледнете во овој дел, токму тука, она што го правиме е ние сме создавање на низа, што во суштина е некои HTML маркап на маса, со value.title, што е насловот на објект, value.coverage, што е покриеноста, - 

И ние сме прави проверка тука за да се види кој е недефиниран и се крие, ако тоа го вели недефиниран, бидејќи ние не сме навистина заинтересирани со тоа, што. 

--and тогаш јазик. И тогаш што сме прави е додавање која на масата што е идентификувани од страна на овој стринг тука. И како jQuery работи е она што ова е велејќи дека е да се погледне за на маса со идеја резултати и додадете го овој текст на него. И ова е на маса со идеја резултати. Значи она што ќе се заокружи со оваа страница е тука. И со цел да видите source-- Па, изворот не е, всушност, ажурираат кога тоа се случи. Така можете да ја видите вистинската Резултатите од табелата тука, секако. 

Значи тоа е само еден едноставен пример на прави многу основни пребарување во однос на API и прикажување на информации во некои други форма, а не прави ништо премногу фенси. Сега, уште еден пример е како апликација напишана од Дејвид Вејнергер како демо за ова, во суштина ви покажува како може да се спој на резултатите што ги добива од библиотеката облак API со, да речеме, Google Книги. 

И мислење овде е дека можам се кандидира за пребарување против Google Книги, се добие целосна пребарување на текст, се некои резултати назад, да дознаете кој од овие елементи всушност постојат во Холис, на библиотечен систем, а потоа ми даде линкови назад кон оние ставки. Значи, ако јас потрага по, тоа беше темна и бурна ноќ, јас да се вратам еден куп на резултати од Google, а потоа еден резултат кој е на брчки во времето. И овие се линкови до книги кои постојат во рамките на системот на Харвард библиотека. 

Па претпоставувам дека поентата не е толку многу што тоа може или не може да биде начинот на кој сакате да пребарувате во библиотеката, но тоа е сосема поинаква начин на кој не беше достапен за вас пред, како што немаше начин на вршење на Целосниот текст пребарувања на книги што дури беа дел од системот на Харвард библиотека. Па сега тоа е начин дека можете да го направите тоа. И можете да ги наведат во на кој било формат сакаш. Значи, поентата тука е, во основа, ние сме отворање на нови начини за луѓето за работа со податоци. 

Друг дел од библиотеката облак е дека тоа им помага изложуваат на некои од користење на податоци дека библиотеката има. Значи, ако се оди во библиотека, и сте во потрага за книги, Вие не мора нужно всушност, има идеја за тоа, за сите ставки во одреден предмет, што луѓе во заедница, без разлика дали тоа е дефинирани како Харвард или земјата или во својата класа, Што имаат тие заклучија дека повеќето корисни? И библиотеката всушност има тон на информации за тоа што е многу корисно, бидејќи ако многу луѓе се одјавувањето книга, кој ви кажува нешто. Мора да имало некоја причина тие сакаат да го провериш. Многу луѓе го стави на резерва. 

Ако е на листата на резерва за многу на часови, што ви кажува нешто. Ако членови на факултет го проверува од многу студенти и не се, кој ми кажува нешто. Обратно, што, исто така, ви кажува нешто. Значи тоа ќе биде навистина интересно да се стави дека информации таму и нека луѓе го користат за да им помогне да најдат работи во рамките на библиотечен систем. На друга страна на ова е постојат некои сериозни приватност загриженост, бидејќи еден од клучните постулати на библиотеката е не ќе треба да се кажува на луѓето она што другите луѓе се читањето. И дури и ако се вели ова Книгата ја проверуваат од четири пати во одреден месец, кои би можеле да се користат да водат назад до одредена лице од де-anonymizing податоци и дознаваат кој го проверуваат надвор. Значи начинот на кој можеме да avoid-- Начинот на кој можеме да се обидеме да ја извадиме некои сигнал од сите информации без да се нарушат загриженост за приватноста никого во суштина ги погледнеме 10 години на користење на податоци, - 

Така, тоа е во текот на долг временски период. 

--and велат, добро, ајде да видиме како многу пати ова дело беше искористена, и со кои во текот на овој период на времето, а потоа во основа му ја врати на број, кој ние го нарекуваме магацинот резултат, кој во основа претставува колку тоа ќе се користи. И тоа number-- Многу различни пресметки одат во овој број. --but тоа е многу груба параметар, кој ви дава некоја идеја за тоа како заедница може да го цениме таа работа. 

И така уште еден вид дури и повеќе fleshed надвор апликација што носи предност ова е нешто наречен Stacklife, што е, всушност, достапни преку главниот Харвард Библиотека порталот. А ти оди, да library.harvard.edu. Ќе видите голем број на различни начини на пребарување на библиотеката. И еден од нив е наречен Stacklife. 

И ова е апликација која browses содржината на библиотеката, но е целосно изградена на врвот на овие API-јата. Значи нема посебни нешта се случува зад сцената. Нема пристап до податоци кои не треба. Тоа е со користење на API-јата за да ви овозможи со една сосема поинаква пребарување искуство. 

Значи, ако јас пребарување за Алиса во земјата на чудата, во овој случај, Јас се резултат на што личи ова, што е прилично much-- 

Тоа е многу слична со било кој друг пребарување може да направи ништо, освен во овој случај ние сме пласман на предмети од stackscore, кој ви дава некоја идеја за тоа како популарна овие предмети спаѓаат во рамките на заедницата. И така јасно, Алиса во земјата на чудата од страна на Волт Дизни е мошне популарна. Но вие исто така може да се види најдобрите четири тука се и оние што не може да actually-- 

Работите кои се многу користени, но вие не може веднаш се поврзете со Алиса во земјата на чудата. Значи нашиот стар пријател на Коментирани Алис е тука. Значи можам да ги разгледаме во неа. И сега што јас го барате на е всушност збир of-- Јас може да имаат коментирани Алиса во право тука. Имам информации во врска со тоа. И јас исто така имаат stackscore на, во овој случај, 26. И ова ми кажува вид на приближно како стигнавме до оваа stackscore, како што го проверуваат надвор, на пример како Многу пати се проверуваат надвор, како факултет или undergrads, како многу копии библиотеката има, и така натаму и така натаму. 

И ти исто така да, интересно е доволно тука, да пребарува на Купишта буквално. Па податоците тука, ова ви ја покажува вид на виртуелна претстава на она што рокот на сила изгледа како да сте биле да се земе сите фонд на библиотеката и ги стави заедно на една бесконечна полица. И убаво е што ги can-- 

Прво на сите, Податоците за овие книги често ви кажува кога беше објавен. Тоа ви кажува колку страници има. Тоа би можело да ви кажам на димензии. Така можете да видите кој е се гледа тука во однос на големината на книги. 

И тогаш може да се користат магацинот резултат да се потенцира книги кои имаат повисоки магацинот резултати. Значи, ако тоа е потемна, тоа значи дека, се претпоставува дека таа се користи почесто. Значи во овој случај, јас сум ќе се погоди дека овој е верзија на Алиса во земјата на чудата што е многу често се користи и повеќето пристапи, библиотеката има најмногу копии. Значи, ако сте во потрага за Алиса во земјата на чудата, ова може да биде добро место за почеток. 

А потоа, тука исто така можете да се поврзе надвор со, да речеме, Амазон за купување на книга, и така натаму и така натаму. Поентата овде, повторно, не е толку многу што овој е најдобар начин да ја разгледате нашата библиотека или на правото алатка за секоја пригода. Но, тоа е уште еден начин да се направи тоа. И со изработка на податоци достапни преку API, што е направен од многу едноставна градежен материјал, кој ви дозволува да пребарувате на содржината, може да се изгради нешто како тоа може биде исклучително вредни за некои луѓе. 

Значи тоа е вид на, колку што сакам да се каже за тоа што навистина API е и она што го изложува, има цела куп на работи зад сцената, што Јас сум само ќе се смести на кратко само поради тоа што вид на збор во овој од сосема поинаков агол во смисла на тоа како го прави нешто како ова се стави во место? 

Значи API е стандард интерфејс за сите на оваа содржина. Но, за да го добие таму, Првото нешто што ние мораше да го направи се повлече заедно информации на книги и слики и наоѓање помагала, колекцијата документ од различни Харвард системи. Алеф, VIA, и OASIS се имињата на системи. И тие во суштина се оди во гасоводот, за обработка на гасоводот. 

Значи прво на сите, ние се извоз додадени фајлови од сите овие системи. Ние им беа поделени на одделни ставки. Значи имаме датотека, која е Gigabyte, кој има милиони плочи во неа. Значи ние се поделени на одделни ставки. Потоа, за секоја точка, можеме да го претворите во mods, бидејќи некои од овие се природно mods, некои од нив не се. Значи ние сите го натера да да биде во ист формат. Потоа, постојат различни збогатување чекори, во која ние додадете повеќе информации за податоците отколку што беше на располагање во библиотеката. Значи ние треба да додадете, прв од сите имаме она што библиотеки го држат. Ние одиме преку чекор на пресметување на stackscore. Ние одиме преку уште еден чекор на додавање на повеќе метаподатоци во смисла на она што колекционери луѓе може да се додаде this-- 

Луѓето се создава колекции на предмети. Што колекционери пак припаѓаат? Како луѓето се означени Оваа содржина во минатото? Потоа ќе се филтрира и да го ограничи евиденцијата, бидејќи, како што споменав, има некои записи, кои, поради авторски права причини, ние не може да се прикаже. И тогаш ги вчитате во нешто што се нарекува Solr, која не е спелувањето грешка, но е името на парче софтвер што го прави за пребарување индексирање, кои за дискови сите од пребарувањето зад API. И тогаш тоа ќе стане достапен за API-то, и луѓето можат да го користат. 

Значи ова е како прилично јасна процес. Еден од интересните работи во врска со тоа дека се работи за со 13 милиони плочи и ние ќе се обидеме да се занимаваат или повеќе. И ние сакаме да биде во можност да се справи со овие во релативно брзо модата. Тоа трае долго време да се обработка на 13 милиони плочи. 

Па, како овој нафтовод е воспоставен е дека can-- Претпоставувам дека во корист на гасоводот, проблемот што сме обидуваат да го решат тука, е дека сите трансформации, сите овие чекори во оваа Нафтоводот се делива. Нема зависност. Ако сте за обработка на рекорд на една книга, не постои зависност во дека меѓу друга книга. 

Значи она што можеме да направиме е во основа, во секој чекор на гасоводот, ние го стави во редот за чекање во облакот. Јас се случи да биде на Амазон Веб Услуги. Значи, тука е листа на, велат, 10.000 предмети кои треба да се нормализира и претвораат во MODS формат. И ние се вртат како многу сервери како што сакаме, можеби 10 сервери. И секој од овие сервери само Седи таму, изгледа дека во ред, гледа дека има една што треба да да се обработи, тоа повлекува исклучите редот, процеси, и стапови тоа на следната задача. 

И така она што ни овозможува да направите е да се примени, во суштина, колку хардвер како што сакаме ова проблем за многу краток временски период на време за обработка на податоците толку брзо како што е можно, што е нешто што само, сега во светот на cloud computing можеме обезбедување сервери во суштина моментално, е тоа корисно. Значи ние не треба да се имаат гигант сервер поседнати околу цело време да се направи преработка што може да се случи само еднаш неделно. 

Па тоа е најчесто тоа. Има документација за библиотеката Облак API Точка на оваа адреса, кој ќе бидат достапни подоцна. И ве молам да си одат се погледне тоа да се види дали има нешто, имате било какви идеи. Игра со неа. Измамат околу. И се надевам дека ќе може да дојде со нешто големо. Ви благодарам.