JEFFREY Licht: Hi yno. Rwy'n Jeffrey Licht. A dwi'n yma i siarad â chi am y Llyfrgell ac adeiladu Harvard yfory llyfrgell heddiw, yr wyf yn dyfalu. Felly y cefndir yma, y cae ar gyfer y sesiwn hon yn ei hanfod bod yna llawer o ddata llyfryddol ar gael yn y llyfrgelloedd Harvard. Ac mae cyfle, drwy rai o'r offer a phrosiect sydd wedi cael ei ddatblygu, i gael mynediad at y wybodaeth ac yn mynd ag ef i leoedd fod y Nid Llyfrgell Harvard yn ei wneud ar hyn o bryd, yn gwneud pethau newydd ag ef, arbrofi ac yn chwarae o gwmpas gyda hi. Felly, y pwynt mynediad i mewn i hyn yn API Gelwir y Llyfrgell Harvard Cloud, a oedd yn yn gweinydd metadata agored, y byddaf yn siarad am nawr. Felly y cefndir yw bod yna llawer o bethau yn y llyfrgell Harvard. Mae gennym dros 13 miliwn llyfryddol cofnodion, mae miliynau o ddelweddau, a miloedd o ddod o hyd cymhorthion, a oedd yn yn eu hanfod ddogfennau sy'n disgrifio casgliadau, gan ddweud yr hyn y yw ynddynt, bocsys o bapurau ac yn y blaen sy'n cynrychioli dros miliwn o ddogfennau unigol. Ac mae hefyd yn llawer o wybodaeth sydd gan y llyfrgell am y ffordd y cynnwys yn cael ei ddefnyddio fod Gallai fod o ddiddordeb i bobl Efallai sydd am weithio ag ef. Felly yr holl wybodaeth Mae gan y llyfrgell metadata. Felly metadata yn ddata am ddata. Felly, pan fyddwn yn sôn am y wybodaeth sy'n ar gael drwy'r llyfrgell cwmwl sydd ar gael, nid yw'n reidrwydd y dogfennau gwirioneddol eu hunain, nid o reidrwydd y llawn destun y llyfrau neu y lluniau llawn, Efallai bod hynny mewn gwirionedd yn wir. Ond mae'n wirioneddol gwybodaeth am y data. Felly, gallwch chi feddwl am catalogio gwybodaeth, rhifau galwadau, pynciau, faint o gopïau o'r llyfr ceir, beth yw'r argraffiadau, beth yw'r fformatau, mae'r awduron, ac yn y blaen. Felly mae llawer o wybodaeth am y wybodaeth yn y casgliad hwnnw, ynddo'i hun, yn fath o gynhenid ​​ddefnyddiol. Ac er os ydych yn gwneud ymchwil manwl, yr ydych yn amlwg yn awyddus i gyrraedd y gwir content ei hun ac yn edrych ar y data, y metadata yn ddefnyddiol o ran yn dadansoddi'r corpws yn ei gyfanrwydd, fel pa bethau sydd yn y casgliad. Sut maent yn berthnasol? Mae'n eich helpu chi wir yn dod o hyd i bethau eraill, sydd mewn gwirionedd prif bwrpas ohono. Y pwynt yr metadata a'r catalog yw eich helpu i ddod o hyd i gyd y wybodaeth sy'n ar gael yn y casgliadau. Felly, mae hyn yn enghraifft o metadata am lyfr yn y Llyfrgell Harvard. Felly mae'n yno. A gallwch weld ei fod yn mewn gwirionedd yn gymharol gymhleth. A rhan o werth metadata o fewn y system Harvard Llyfrgell yw y mae wedi bod yn didoli o cronni gan catalogers ac yn cydosod gan bobl sy'n gwneud cais llawer o arbenigedd a sgiliau ac yn meddwl iddo dros amser, sydd â llawer o werth. Felly, os ydych yn edrych ar y cofnod hwn er Mae'r anodedig Alice, gallwch gael gwybod eich bod wedi cael y teitl, a ysgrifennodd ef, y awdur, a holl wahanol bynciau mae pobl wedi catalogio i mewn. A gallwch weld mae hefyd, yn ogystal â llawer o wybodaeth dda yma, mae rhywfaint o ddyblygu. Mae llawer o gymhlethdod sy'n hadlewyrchu drwy'r metadata sydd gennych. Felly, un teitl y llyfr hwn Anturiaethau Alice in Wonderland. Felly mae hwn yn anodedig fersiwn o'r llyfr. Ond mae hefyd yn cael ei alw'n The Annotated Alice, Anturiaethau Alice in Wonderland oherwydd mae'n rhywbeth sy'n Martin Gardner Ysgrifennodd a'u hanodi y llyfr. Ac mae llawer o wybodaeth mawr am posau rhesymeg a phethau o fewn Alice bod chi Mae'n debyg nad oedd yn gwybod am. Felly, dylech fynd ddarllen. Ond gallwch weld does llawer o fanylion fan hyn, gan gynnwys dynodyddion, pan fydd yn ei greu, o ble y daeth, o ran y Harvard system, ac yn y blaen. Felly mae hwn yn sampl o y math o metadata y gallech eu gweld am lyfr mewn casgliad y Llyfrgell Harvard. Mae hyn yn rhywbeth hollol wahanol. Felly mae system o'r enw VIA Harvard, a oedd yn y bôn yn catalogio delweddau a gwrthrychau celf a phethau gweledol ledled Harvard, ac yn ychwanegu rhai metadata iddynt, eu dosbarthu, ac, mewn rhai achosion, gan ddarparu delweddau thumbnail bach y gallwch gymryd edrych ar os ydych yn dymuno gwneud hynny. Felly, mae hyn yn enghraifft o'r metadata sydd gennych am blât o, yn ôl pob tebyg, Alice in Wonderland. A gallwch weld does llai o metadata yma. 'I' jyst gwahanol fath o wrthrych. Ac felly mae llai o wybodaeth. Rydych yn bennaf yn cael y ffaith, galwad Rhif, yn y bôn a greodd ef, - Nid ydym yn gwybod pryd y cafodd ei greu. --and teitl. Enghraifft arall. Mae hwn yn gymorth dod o hyd. Felly mae 'na gasgliad o Lewis Papurau Carroll yn Harvard. Felly, mae hyn yn disgrifio'r hyn yn y casgliad. Felly rhywun wedi mynd trwy ac edrych drwy'r holl flychau ac yn catalogio hynny, rhoi rhywfaint o gefndir, ysgrifennu crynodeb o'r hyn sydd yma. Ac os ydych yn edrych ymhellach ar hyn, mae hyn yn yn mynd ymlaen ar gyfer tudalennau a thudalennau a thudalennau, ond bydd yn rhoi gwybod i chi pa llythyrau a pha yn dyddio o pa flychau yn bodoli drwy gydol y casgliad. Ond mae hyn yn rhywbeth hynny, os ydych yn Harvard, gallwch fynd ac mewn gwirionedd yn edrych yn gorfforol i fyny ac, yn ôl pob tebyg, yn edrych ar. Felly, mae hyn i gyd yn wych. Mae hyn yn metadata yn ddefnyddiol. Mae'n yn y system Harvard Llyfrgell. Mae offer ar-lein lle rydych yn Gall fynd ac edrych arno, ac yn ei weld, a chwilio amdano. A gallwch sleisio iddo a dis mewn llawer o wahanol ffyrdd. Ond mae'n wirioneddol ond ar gael os ydych yn bod dynol yn eistedd i lawr yn eich porwr gwe neu rywbeth neu eich ffôn ac yn llywio drwyddo. Dyw hi ddim yn wir yn ar gael unrhyw fath o ffasiwn y gellir ei ddefnyddio ar gyfer systemau eraill neu cyfrifiaduron eraill i'w defnyddio, nid gyda systemau o fewn Llyfrgell Harvard, ond mae systemau yn y byd y tu allan, dim ond pobl eraill yn gyffredinol. Felly, y cwestiwn yw, sut allwn ni yn ei gwneud yn ar gael i gyfrifiaduron fel y gallwn ni ei wneud yn fwy diddorol pethau ag ef na dim ond pori ein hunain? Felly byddai pam eich bod am wneud hyn? Mae llawer o bosibiliadau. Mae un yn y gallech adeiladu yn gyfan gwbl ffordd wahanol o bori y cynnwys sydd ar gael drwy'r Llyfrgelloedd Harvard. 'N annhymerus' yn dangos i chi un Gelwir ddiweddarach Stacklife, sydd â hollol wahanol cymryd ar chwilio am y cynnwys. Gallech adeiladu argymhelliad peiriant. Felly nid Llyfrgell Harvard yn y busnes o ddweud, chi'n hoffi y llyfr hwn. Yna ewch yn edrych ar y rhain 17 arall llyfrau y gallech fod â diddordeb mewn neu y rhain 18 o ddelweddau eraill. Ond mae hynny yn sicr gallai fod yn nodwedd werthfawr. Ac o ystyried y metadata, caiff yn bosibl rhoi hynny at ei gilydd. Efallai y byddwch wahanol anghenion mewn ran chwilio cynnwys, fel efallai er gwaethaf yr offer sy'n ar gael bod y llyfrgell yn gwneud sydd ar gael, efallai y byddwch am i chwilio mewn ffordd wahanol neu optimize ar gyfer achos ddefnydd penodol, sydd efallai ei bod yn arbenigol iawn. Efallai nid oes dim ond ychydig bobl yn y byd sydd eisiau chwilio cynnwys yn y ffordd hon, ond mae'n byddai'n wych os ydym Gallai gadael iddyn nhw wneud hynny. Mae llawer o analytics mewn dim ond sut mae pobl Defnyddiwch y cynnwys a fyddai'n wir yn ddiddorol gwybod am, cael gwybod pa lyfrau yn cael eu defnyddio, yr hyn nad yw, ac yn y blaen. Ac yna mae llawer o cyfle i integreiddio â gwybodaeth arall dyna allan yna ar y we. Felly rydym have-- Er enghraifft, mae gan NPR segment adolygu llyfr, lle maent yn cyfweld awduron am lyfrau. Ac felly byddai'n wych pe baech yn edrych i fyny lyfr yn y Harvard Llyfrgell, ac yr ydych yn dweud, OK, mae cyfweliad gyda'r awdur wedi bod. Gadewch i ni fynd yn edrych ar hynny. Neu mae 'na dudalen Wikipedia, fel awdurdodol cyfeirio, ysgolheigaidd am y llyfr hwn sy'n eich Efallai am gymryd golwg ar. Mae mathau hyn o ffynonellau gwasgaru ar draws y we. A dod â hwy at ei gilydd Gallai fod yn ddefnydd mawr i rywun edrych ar y cynnwys, chwilio am rywbeth. Ond nid hefyd yw'r math o beth byddech yn am i'r llyfrgell i fod yn gyfrifol ar gyfer mynd i lawr ac yn hela i lawr i gyd yn wahanol ffynonellau hyn ac yn eu plygio gyda'i gilydd oherwydd eu bod yn newid yn barhaus. A beth maen nhw'n meddwl sy'n caiff pwysig na fydd beth yw eich barn yn bwysig. A hyd yn oed yn fwy felly, yn y bôn mae 'na llawer o bethau nad ydym wedi meddwl amdanynt eto. Felly, os gallwn agor y fyny, mwy pobl ar wahân hanner dwsin neu fwy, sydd yn edrych ar hyn ar rheolaidd gallu meddwl am syniadau ac yn tylino y data, a gwneud yr hyn y maent ei eisiau ag ef. Felly rydym am wneud hyn data sydd ar gael i'r byd. Wel, mae yna gwpl o gymhlethdodau. Un yw bod metadata hwn mewn systemau gwahanol. Mae'n mewn fformatau gwahanol. Felly mae rhywfaint o normaleiddio y mae angen i hyn ddigwydd, sy'n normaleiddio sef y broses o gan ddod â phethau o fformatau gwahanol ac yn eu mapio i fformat sengl fel y bydd y meysydd cyd-fynd i fyny. Mae rhai cyfyngiadau hawlfraint. Yn rhyfedd ddigon, y cofnod catalog am lyfr yn atebol am hawlfraint. Felly, hyd yn oed er 'i' jyst wybodaeth a geir yn y llyfr, ei fod yn â hawlfraint. Ac yn dibynnu ar bwy mewn gwirionedd creu y metadata, gall fod cyfyngiadau ar bwy Gall ddosbarthu, i-- tebyg Nid wyf yn gwybod. Mae'n neu beidio fod yn debyg i'r y sefyllfa y geiriau caneuon, er enghraifft. Felly, rydym i gyd yn gwybod sut hwyl a gaiff arni. Felly, mae angen i chi fynd o gwmpas y mater hwnnw. Ac yna darn arall yw fod yna llawer o ddata. Felly, os wyf yn rhywun sydd am weithio â'r data neu ganddi syniad oer, delio â 14 miliwn cofnodion ar fy ngliniadur Gallai fod yn broblem ac yn anodd i'w rheoli. Felly rydym am leihau y rhwystrau i bobl i allu gweithio gyda'r data. Felly mae'r dull hwnnw, gobeithio, cyfeiriadau pob un o'r pryderon hyn yw dwy ran. Mae un yn adeiladu llwyfan sy'n cymryd data o holl ffynonellau gwahanol hyn ac yn gwaethygu hynny, normalizes, cyfoethogi ef, ac yn gwneud ei fod ar gael mewn un lleoliad. Ac mae'n ei gwneud yn ar gael drwy API cyhoeddus y gall pobl ffonio. Felly API yn Gais Rhyngwyneb Rhaglennu Rhaglen. Ac mae'n y bôn yn cyfeirio at endpoint bod system neu dechnoleg Gall alw a chael data yn ôl yn fformat strwythuredig mewn ffordd y gellir ei ddefnyddio. Felly nid yw'n ddibynnol ar fynd i'r wefan ac yn crafu data ffwrdd ohono, er enghraifft. Felly, mae hyn yw'r dudalen gartref Llyfrgell Cloud API eitem, sydd yn ei hanfod ei fersiwn dau. Felly mae'n ail ailadroddiad o ceisio gwneud yr holl ddata hwn sydd ar gael i'r byd. Felly mae'n http://api.lib.harvard.edu/v2/items. A dim ond i dorri i lawr ychydig bach, beth mae hyn yn ei olygu yw bod hyn yn fersiwn dau o'r API. Mae 'na fersiwn un, a oedd yn Dydw i ddim yn mynd i siarad am. Ond mae yna fersiwn un. Ac os ydych yn ffonio hon API, rydych yn cael eitemau. A rhan o'r syniad o API yn API yn gontract. Mae'n rhywbeth sy'n ddim yn mynd i newid. Felly, er enghraifft, - A'r rheswm yw bod os byddaf adeiladu rhyw fath o system sy'n yn mynd i ddefnyddio API cwmwl llyfrgell i arddangos llyfrau neu helpu pobl i ddod o hyd i gwybodaeth mewn ffyrdd unigryw, yr hyn nad ydym am ei weld yn digwydd yw i ni fynd newid y ffordd hynny API yn gweithio, ac yn sydyn popeth yn torri ar yr ochr defnyddiwr. Felly yn rhan o os ydych yn gwneud API sydd ar gael i'r byd, 'i' arfer da i roi rhif y fersiwn ynddo fel bod pobl yn gwybod pa fersiwn y maent yn delio â. Felly, os byddwn yn penderfynu ydym yn dod o hyd i ffordd well o sicrhau bod yr wybodaeth hon ar gael, efallai y byddwn yn newid hynny i ffoniwch y fersiwn tri. Felly pawb sy'n dal i ddefnyddio Fersiwn dau, bydd hynny yn dal i weithio. Ond mae fersiwn tri byddai yr holl stwff newydd. Felly mae hwn yn API, ond mae hyn 'n sylweddol yn edrych fel URL. Ac felly yr hyn y mae hyn yn Enghraifft o hyn yw a elwir yn API gorffwys, sydd ar gael dros dim cysylltiad gwe rheolaidd. Ac gallwch mewn gwirionedd mynd ato mewn porwr. Felly dyma Rwyf newydd agor i fyny Firefox a mynd i'r api.lib.harvard.edu/v2/items. Ac felly yr hyn yr wyf yn ei gael yma yw yn y bôn y dudalen gyntaf o ganlyniadau o'r cyfan set o eitemau sy'n gennym. Ac mae'n yma mewn fformat XML. Ac mae hefyd wedi bod prettified gan Firefox. Nid yw'n mewn gwirionedd yn cael pob un o'r rhain ychydig o ehangu a chontractio doohickeys yma. Mae hwn yn fath o brafiach Fersiwn ffordd i edrych arno. Ond beth mae hyn yn ei ddweud wrthym yw Rwyf wedi gofyn yr holl eitemau. Felly, mae yna 13,289,475 o eitemau. Ac yr wyf i'n edrych ar y cyntaf 10, yn dechrau am sefyllfa sero oherwydd mewn gwyddoniaeth gyfrifiadurol rydym bob amser yn dechrau ar sero. A hyn yr wyf wedi yma, os Fi jyst yn cwympo hyn, byddwch yn gweld gen i 10 o eitemau. Ac os wyf yn edrych ar eitem, gallaf gweld bod gen i wybodaeth am y peth. Ac mae hyn yn yn yr hyn a elwir ffurflen Mods. Ac felly dwi'n mynd i newid yn ôl yma am eiliad. OK. Felly, gadewch i ni chwilio am rywbeth mewn benodol oherwydd bod yr eitem gyntaf y yn digwydd i ddod i fyny pan fyddwch yn edrych drwy'r casgliad cyfan yw, drwy ddiffiniad, ar hap. Felly, gadewch i ni edrych ar gyfer rhai toesenni. Oh. OK. Felly toesenni. Felly, canfuom mae 80 o eitemau yn y casgliad sy'n cyfeirio toesenni. Rydym yn edrych ar y 10 cyntaf ohonynt. Nawr, gallwch weld yma y ffordd y Dywedais fy mod i'n chwilio am toesenni, Fi jyst ychwanegu rhywbeth at y llinyn ymholiad y URL. Felly q hafal toesenni, y gallwch gweld ychydig yn haws yma. Ac mae hyn yn y bôn yn golygu mae manyleb ar gyfer yr API, a oedd yn diffinio'r hyn i gyd paramedrau hyn yn ei olygu. Ac mae hyn yn golygu ein bod yn mynd i chwilio popeth ar gyfer toesenni. Felly, yr eitem gyntaf yma rydym wedi gallwch weld y teitl yw Donuts, ac mae is-deitl Gelwir Passion Americanaidd, sydd, mae'n debyg, briodol. Mae llawer o different-- Unwaith y byddwch yn cyrraedd y pwynt o gael y data, mae yna lawer o wahanol fformatau y gallwch ei gael i mewn. Ac mae gwahanol gryfderau a gwendidau ar gyfer pob un ohonynt. Felly, mae hyn yn un, gallwch weld yma, y ​​ffurflen hon yn gyfoethog iawn. Ac mae'n safoni. Felly mae 'na deitl penodol maes, cae isdeitlo. Mae 'na bob yn ail teitl, An Passion Americanaidd. Ceir yr enw sy'n gysylltiedig ag ef. Math o adnodd yw testun. Mae llawer o wybodaeth yma yn y fformat hwn. Ond mae yna griw fformatau gwahanol. Felly yr hyn yr ydym yn unig edrych arno yw fformat Gelwir mods, sy'n sefyll am Metadata Gwasanaeth Gwrthrych Disgrifiad, o bosibl. Rwy'n mewn gwirionedd yn ddim yn hollol siŵr am y S. Ond mae'n fformat eithaf cymhleth. Mae'n y fformat diofyn. Ond mae'n yr un sy'n cadw cyfoeth holl ddata bod y llyfrgell oherwydd bod mae'n agos iawn at yr hyn y y llyfrgell yn defnyddio fewnol. Mae'n safon sy'n defnyddio ar draws y wlad, ar draws y byd mewn llyfrgelloedd academaidd. Ac mae'n rhyngweithredol iawn. Felly, os oes gennych dogfen hynny yw mewn fformat Mods, gallwch ei roi y i rywun arall systemau y mae eu deall mods, a gallant ei fewnforio. Felly mae'n safon. Mae wedi diffinio'n dda iawn, yn benodol iawn. A dyna beth sy'n ei wneud rhyngweithredol oherwydd os bydd rhywun yn dweud, dyma'r teitl yn ail o cofnodi, pawb yn gwybod beth y mae hynny'n ei olygu. Ar y llaw arall, mae'n gymhleth iawn. Felly, os ydych yn edrych yn yn y cofnod hwn yma, os Fi jyst am gael y teitl y ddogfen hon, y llyfr hwn, sydd yn ôl pob tebyg Donuts, Mae Passion Americanaidd, dosrannu 'ii maes yn ychydig yn cymryd rhan. Tra mae un arall fformat a elwir yn Dublin Core, sydd yn llawer fformat, llawer symlach. Ac er mwyn i chi weld yma, does dim teitl, is-deitl, teitl yn ail. Mae yna dim ond y teitl, Toesenni, Mae Passion Americanaidd, a theitl arall, Passion Americanaidd. Felly, pan fyddwch yn edrych ar ba ffurf ydych am gael y data allan o, mae llawer yn dibynnu ar ba mor rydych yn mynd i'w ddefnyddio. Ydych chi'n defnyddio ar gyfer gallu i ryngweithredu neu ydych chi'n eisiau rhywbeth syml sy'n allai fod yn haws i weithio gyda? Ar y llaw arall, mae llawer o'r manylion yn cael fath o squished i lawr. Efallai y byddwch yn colli y naws pa arbennig modd cae os ydych yn delio â Dublin Core, lle na fyddech yn ei gael gyda Mods. Felly, y rhai yn ddau o'r fformatau y gallwch ei gael allan o'r API. Ac yn y bôn, rydym yn cadw y tu ôl i'r llenni yn y Mods. Ond gallwn roi i chi mewn Mods a Dublin Core ac unrhyw beth arall yn ogystal. Yr ystyriaeth arall pan ydych yn chwilio yn y data yn gallwch ei gael fel naill ai JSON, a oedd yn yn sefyll am JavaScript Nodiant Gwrthrych, neu XML, sy'n sefyll am Iaith Markup estynadwy. Ac mae'r rhain cynrychioliadau data ddau yn union yr un data, yn union yr un gaeau. Ond maen nhw jyst syntactically wahanol. Felly mae hwn yn a-- Wel, gadewch i ni dim ond newid. Felly mae hyn yn ein ymholiad am toesenni mewn fformat XML. Os Fi jyst newid hyn i fod yn JSON, Gallaf weld ei fod yn edrych yn wahanol. Felly, yn awr mae hyn yn yr un cynnwys, ond strwythur gwahanol. Mae llai cromfachau ongl. Mae llai amleiriog. Ac mae hyn yn fformat, os ydych yn gweithio yn yr amgylchedd ar y we, ydych yn mynd yn fwyaf tebygol i am ddefnyddio oherwydd bod un o'r pethau neis am JSON yn mae'n gydnaws â JavaScript. Felly, os ydw i'n ysgrifennu ar y we app, gallaf dynnu yn JSON a dim ond yn gweithio'n uniongyrchol ag ef. Tra gyda XML, mae'n ychydig bach yn fwy cymhleth. Felly eto, mae'r rhain yn ddefnyddiol. Maent yn unig yn achosion defnyddio gwahanol lle gallai pobl yn dymuno eu defnyddio. OK. Felly, yn ôl i'r API. Felly, gallwn chwilio for-- Rhoddaf enghraifft o chwilio am toesenni. Gallwn hefyd chwilio yn unig mewn maes arbennig o fewn yma. Felly, yn lle chwilio y cofnod cyfan, Gall Fi jyst chwilio drwy'r cae teitl. Ac felly erbyn hyn mae 25 o bethau y cael toesenni yn y teitl, un ohonynt yn ymwneud adfer gwlyptiroedd mewn rheoli o'r twll yn y toesen rhaglen, sydd yn ôl pob tebyg nid o reidrwydd yr hyn yr ydym yn chwilio gyfer yr adeg pan rydym yn chwilio am toesenni. Gallwch hefyd, pan fyddwch yn ymdrin ag API-- Rhan o gael API yn rhoi pobl gael mynediad i setiau data mawr. Ac mae yna gwpl wahanol offer y gallwch eu defnyddio i wneud hynny. Mae un yn, yn syml iawn, i chi gall dudalen trwy'r data. Felly yn union fel os ydych yn gwneud ymholiad drwy ryngwyneb gwe, gallwch edrych ar dudalen un, tudalen dau, tri dudalen. Gallwch chi wneud yr un peth beth trwy'r API. 'Ch jyst angen i chi fod yn eglur yn sut yr ydych yn ei wneud. Felly, er enghraifft, os wyf i'n edrych yn fy ymholiad cyntaf yma, lle rwy'n i'n gwneud chwiliad am bethau gyda toesenni yn y teitl, gallaf ddweud, a therfyn hafal 20, sy'n golygu rhoi'r 20 o gofnodion cyntaf i mi, nid y 10 cyntaf, sef 'r ball, oherwydd yr wyf am edrych yn 20 ar y tro. Neu gallaf ddweud, yn gosod y dechrau gyfartal i 20 a therfyn yn gyfartal 20, a fydd yn rhoi fi yn cofnodi 21 trwy 40. Felly, yr wyf yn dyfalu y peth i fynd i ffwrdd yma yw ein bod yn defnyddio'r llinynnau ymholiad i osod paramedrau ar yr ymholiad. Ac mae'n gadael i reolaeth i chi yr hyn yr ydych yn mynd yn ôl. Offeryn arall y gallwch ei ddefnyddio, - Ac mae hyn yn wir yn ddefnyddiol o ran ran archwilio'r data. --is rywbeth o'r enw faceting. Felly, mae'r term faceting yn Nid yw o reidrwydd yn gyffredin. Ond i chi i gyd wedi ei weld o'r blaen. Os byddwch yn edrych ar Amazon, er enghraifft, ac rydych yn gwneud chwiliad am toesenni yn y llyfrau, yma ganddyn nhw cyfres o lyfrau, ac maen nhw'n grwpio yn ôl categori, a byddwch yn cael y gwahanol gategorïau, a faint o lyfrau ym mhob categori arddangos i fyny. Felly, mae hyn yn y bôn yn agwedd. Byddwch yn cymryd eu holl lyfrau, mae'r 1,800 llyfrau sy'n cyfateb toesenni yn Amazon. 12 ohonynt yn y Categori brecwast. 21 mewn crwst a phobi, ac yn y blaen ac yn y blaen. Felly, mae hyn yn wir yn ddefnyddiol offeryn ar gyfer archwilio cynnwys o fewn y llyfrgell yn ogystal oherwydd pan edrychwch ar agwedd, mae'n rhoi syniad o pa bynciau yr ydych yn bodoli, fel pa fath o bynciau yn fwyaf poblogaidd yn eich set ymholiad. Ac mae'n helpu i chi yrru i ffwrdd ac archwilio. Felly, gallwn wneud yr un peth. Os ydym am ddefnyddio'r API ac edrych ar agweddau, rydym yn ychwanegu paramedr arall i mae ein cyfaill y llinyn ymholiad. Felly agweddau hafal coma gwahanu rhestr o'r hyn yr ydym am ei agwedd ar. Felly, efallai y bydd un o'r agweddau yn ddarostyngedig. Efallai arall fyddai iaith. Ac felly os ydym yn rhedeg y ymholiad, rydym yn get-- Mae'n edrych 'n bert lawer yr un peth yma. Ond rydym wedi ychwanegu at ddiwedd o'r rhestr set o agweddau. Felly, mae gennym agwedd o'r enw pwnc. Felly, mae hyn yn dweud wrthym fod os wyf yn edrych ar fy 80 o ganlyniadau o'r ymholiad toesen, 13 ohonynt yn cael y pwnc Unol Daleithiau. Mae tri yn cael y toesenni pwnc. Mae tri yn cael y pwnc o adfer gwlyptiroedd, a all fod yn ein twll yn y toesen. Mae dau ohonynt, y Simpsons, ac yn y blaen ac yn y blaen. Felly, gall hyn fod yn ddefnyddiol os ydych yn awyddus i gyfyngu ar eich chwiliad. Gall eich helpu chi wneud hynny. Yn enwedig os oes gennych yn fwy na, dyweder, 80 o ganlyniadau. Yn yr un modd, gofynnwyd i ni hefyd am agweddau ar iaith. Felly, os edrychwn ar ein canlyniadau, rydym yn gweld 76 ohonynt yn Saesneg, pedwar yn Ffrangeg, dau yn Sbaeneg, dau, rwy'n credu bod hynny'n amhenodol neu anhysbys, Iseldireg a Lladin. Felly, yr wyf yn meddwl bod y Lladin canlyniad toesen, unwaith eto, wedi ddim i'w wneud â nwyddau pobi. Ond dyna ni. Felly, mae hyn yn fath o ddangos i chi sut y gallwch dynnu y cynnwys yn ôl oddi wrth y API yn unig drwy porwr gwe, sy'n wych. Ond nid yw'n wir yn yr hyn y byddech fel arfer yn defnyddio yn API ar ei gyfer. Felly, un enghraifft o sut yr ydych yn Gallai ei wneud mewn gwirionedd mae hyn yn fy mod i wedi ysgrifennu rhaglen super fach, sydd, unwaith eto, a yw fy chwilio toesen ac yn dewis meysydd cwpl ac yn eu harddangos mewn tabl. Felly mae hyn yn fawr iawn y un cynnwys yr ydym newydd gwelodd gydag ychydig o gaeau tynnu allan. Felly rhestr o deitlau, mae'r Lleoliad o'r hyn y mae'r llyfr yn ymwneud, yr iaith, ac yn y blaen ac yn y blaen. Felly, sut mae hyn yn digwydd mewn gwirionedd, gan fod Amcana rhaid i ni edrych ar rai cod, yw-- Yr hyn sydd gennym yma yw HTML syml tudalen, sy'n dangos y testun, croeso i gwmwl llyfrgell a Yna yn dangos tabl o ganlyniadau. Ac mae yn amlwg dim canlyniadau mewn y tabl pan gyhoeddir dudalen yn cael ei lwytho. Ond yr hyn rydym yn ei wneud yw, yn gyntaf oll, rydym yn yn llwytho llyfrgell o'r enw jQuery, sydd yn y bôn llyfrgell JavaScript, sy'n ei gwneud yn hawdd iawn i'w drin JavaScript frodorol, HTML, a chreu tudalennau gwe, rhesymeg ar ochr cleientiaid a thudalennau gwe. Felly beth sydd gennym yma yw jQuery Mae dull o'r enw Get, sydd yn eu hanfod yn mynd i URL, sydd, yn yr achos hwn, mae hyn yn URL cyfarwydd yn edrych. Ac yna bydd yn cael y cynnwys gan hynny URL ac yna yn rhedeg swyddogaeth arno. Felly dywedasom ewch i api.lib.harvard / edu. Chwilio am toesenni. Rhowch 20 o gofnodion ni. Ac yna rhedeg y swyddogaeth hon, a oedd yn Rwyf wedi dewis, gan fynd heibio iddo y data. Ac y data yn y JSON y got ddychwelyd o'r API. Ac yna rydym yn dweud, o fewn hynny data mae cae o'r enw eitem. Ac os af yn edrych yn ôl ar un o'r canlyniadau hyn sy'n fan hyn, mae rhywbeth called-- Wel, fe'i gelwir eitem. Felly all fod yn hynny. A beth mae'n ei wneud yw ei yn mynd drwy bob eitem ac yna yn galw un arall swyddogaeth ar bob eitem. A bod y swyddogaeth yn y bôn yn cymryd y gwerth yr eitem, sef yn y bôn y cofnod unigol ac yn ein galluogi i dynnu allan y teitl, y sylw a'r iaith. Felly, rydym yn galw swyddogaeth ar bob eitem yr ydym yn mynd yn ôl oddi wrth y API. Ac os ydych yn unig yn edrych yn yn y darn hwn yn iawn yma, yr hyn yr ydym yn ei wneud yw rydym yn creu llinyn, sydd yn ei hanfod rhywfaint o markup HTML o amgylch bwrdd, gyda value.title, sef teitl y gwrthrych, value.coverage, sef y sylw, - Ac rydym yn gwneud gwiriad yma i weld pwy sy'n undefined ac yn cuddio ei os yw'n dweud undefined, am nad ydym yn wir ddiddordeb yn hynny. --and yna yr iaith. Ac yna beth rydym yn yn ei wneud yn atodi bod at y tabl sydd yn a nodwyd gan llinyn hwn yma. A sut jQuery yn gweithio yw beth mae hyn yn ei ddweud yn edrych am y bwrdd gyda syniad canlyniadau ac ychwanegu testun hwn ato. Ac mae hyn yn y tabl gyda chanlyniadau syniad. Felly, yr hyn yr ydych yn y pen draw gyda'r yw'r dudalen hon fan hyn. Ac er mwyn gweld source-- Wel, nid yw'r ffynhonnell mewn gwirionedd diweddaru pan ddigwyddodd. Felly, gallwch weld y gwir canlyniadau'r tabl yma er. Felly dyna dim ond yn enghraifft syml o gwneud ymholiad sylfaenol iawn yn erbyn y API ac arddangos gwybodaeth mewn rhyw arall ffurfio, ac nid gwneud unrhyw beth yn rhy ffansi. Yn awr, enghraifft arall yn debyg i cais ysgrifenedig gan David Weinberger fel demo o hyn, a oedd yn yn ei hanfod yn dangos i chi sut y gallwch stwnsio i fyny canlyniadau rydych yn gael gan y API cwmwl llyfrgell gyda, dyweder, Google Books. Ac mae'r meddwl yma yw bod gallaf rhedeg ymholiad yn erbyn Google Books, cael chwiliad testun llawn, yn cael rhai canlyniadau yn ôl, cael gwybod pa un o'r eitemau hynny bodoli mewn gwirionedd yn Hollis, y system llyfrgell, ac yna rhoi cysylltiadau i mi yn ôl at yr eitemau hynny. Felly, os wyf yn chwilio am, roedd yn noson dywyll a stormus, yr wyf yn fynd yn ôl criw o ganlyniadau o Google, ac yna un canlyniad sef A wrinkle mewn Amser. Ac mae'r rhain yn gysylltiadau i lyfrau sy'n bodoli o fewn y system Harvard Llyfrgell. Felly, yr wyf yn dyfalu na fydd y pwynt yma yw cymaint y gall hyn neu beidio fod y ffordd yr ydych ei eisiau i chwilio'r llyfrgell, ond mae'n hollol wahanol ffordd na oedd ar gael i chi o'r blaen, fel chi ganddo unrhyw ffordd o wneud chwilio testun llawn ar lyfrau, hyd yn oed Roedd rhan o'r system Harvard Llyfrgell. Felly nawr mae hyn yn ffordd y gallwch wneud hynny. A gallwch eu harddangos mewn beth bynnag fformat yr ydych am. Felly, y pwynt yma yw, yn y bôn, rydym yn agor ffyrdd newydd i bobl i weithio gyda'r data. Darn arall o gwmwl llyfrgell yw bod mae'n helpu amlygu rhywfaint o'r data defnydd bod y llyfrgell. Felly, os ydych yn mynd i'r llyfrgell, ac ydych yn chwilio am lyfrau, Nid ydych yn ei wneud o reidrwydd mewn gwirionedd yn cael syniad o'r, ar gyfer yr holl eitemau mewn pwnc penodol, yr hyn y yn bobl yn y cymuned, boed yn a ddiffinnir fel Harvard neu'r wlad neu eich dosbarth, yr hyn sydd daethant o hyd fwyaf defnyddiol? A'r llyfrgell mewn gwirionedd mae gan tunnell o wybodaeth am yr hyn yn fwyaf defnyddiol oherwydd os llawer o bobl yn edrych ar lyfr, sy'n dweud rhywbeth i chi. Rhaid bod wedi ryw reswm maent am ei edrych arni. Mae llawer o bobl yn ei roi ar gefn. Os yw'n ar y rhestr wrth gefn am lawer o ddosbarthiadau, mae hynny'n dweud rhywbeth i chi. Os yw aelodau gyfadran yn gwirio ei allan nad yw llawer ac israddedigion yn, sy'n dweud wrth rhywbeth wrthyf. I'r gwrthwyneb, sydd hefyd yn yn dweud rhywbeth i chi. Felly byddai'n wirioneddol ddiddorol rhoi'r wybodaeth honno ar gael a gadael pobl yn ei ddefnyddio i'w helpu i ddod o hyd i yn gweithio o fewn y system llyfrgell. Ochr arall y geiniog o hyn yw mae rhai o breifatrwydd difrifol pryderon oherwydd bod un o'r daliadau craidd y llyfrgell nid ydym yn mynd i fod yn dweud pobl yr hyn y mae pobl eraill yn ei ddarllen. A hyd yn oed os ydych yn dweud hyn llyfr gwirio allan bedair gwaith mewn mis arbennig, Gellid eu defnyddio i gysylltu yn ôl i manylyn person gan ddata dad-anonymizing a darganfod pwy gwirio allan. Felly, y ffordd y gallwn avoid-- Mae'r ffordd y gallwn geisio dynnu rhywfaint signal o holl wybodaeth heb dorri pryderon preifatrwydd unrhyw un yn yn ei hanfod rydym yn edrych ar 10 mlynedd o ddata defnydd, - Felly mae'n dros gyfnod hir o amser. --and dweud, OK, gadewch i ni weld sut sawl gwaith y gwaith hwn yn cael ei ddefnyddio, a chan pwy dros y cyfnod hwn o amser, ac yna yn y bôn rhoi rhif, yr ydym yn galw yn ôl sgôr stac, sydd yn y bôn yn cynrychioli faint y mae wedi bod yn ei ddefnyddio. A bod number-- Mae llawer o wahanol gyfrifiadau mynd i mewn y rhif hwnnw. --but mae'n arw iawn metrig sy'n rhoi i chi rhyw syniad o sut mae'r Efallai y gymuned yn gwerthfawrogi'r gwaith hwnnw. Ac felly fath arall o hyd yn oed mwy cnawd allan cais sy'n cymryd mantais o hyn yn rhywbeth Gelwir Stacklife, sydd mewn gwirionedd ar gael drwy'r prif Harvard Porth llyfrgell. Felly, byddwch yn mynd i library.harvard.edu. Byddwch yn gweld nifer o wahanol ffyrdd o chwilio y llyfrgell. Ac a alwodd un ohonynt yn Stacklife. Ac mae hyn yn gais sy'n bori cynnwys y llyfrgell, ond wedi ei adeiladu yn gyfan gwbl ar ben y APIs hyn. Felly does dim stwff arbennig mynd ymlaen tu ôl i'r llenni. Does dim mynediad i data nad oes rhaid i chi. Mae wedi defnyddio'r APIs i roi i chi gyda pori hollol wahanol profiad. Felly, os wyf yn chwilio am Alice in Wonderland yn yr achos hwn, Rwy'n cael canlyniad sy'n edrych fel hyn, sydd yn eithaf much-- Mae'n debyg iawn i unrhyw chwilio eraill efallai y byddwch yn ei wneud, ac eithrio yn yr achos hwn rydym yn trefnu'r eitemau gan stackscore, sy'n rhoi i chi rhyw syniad o ba mor boblogaidd yma eitemau o fewn y gymuned. Ac felly yn amlwg, Alice in Wonderland gan Walt Disney yn hynod boblogaidd. Ond gallwch hefyd weld y pedwar uchaf dyma rai efallai na fyddwch actually-- Pethau sy'n cael eu defnyddio'n iawn, ond efallai y byddwch chi nid ar unwaith cysylltu â Alice in Wonderland. Felly mae ein hen gyfaill Y Annotated Alice yma. Felly gallaf fwrw golwg arno. Ac yn awr yr hyn yr wyf i'n edrych yn cael ei bôn yn gosod o- Gallaf rhaid i'r Annotated Alice dde yma. Mae gen i wybodaeth am y peth. Ac yr wyf hefyd yn cael stackscore y, yn yr achos hwn, 26. Ac mae hyn yn dweud wrthyf fath o fras sut yr ydym yn mynd i stackscore hwn, fel oedd yn gwirio allan, fel sut sawl gwaith y cafodd ei gwirio allan, fel cyfadran neu israddedigion, sut mae llawer o gopïau gan y llyfrgell, ac yn y blaen ac yn y blaen. A gallwch hefyd, yn ddigon diddorol yma, bori y staciau bron. Felly mae'r data yma, mae hyn yn yn dangos i chi didoli o gynrychiolaeth rhithwir o'r hyn y mae'r grym silff edrych fel pe baech yn cymryd holl ddaliadau y llyfrgell ac yn rhoi at ei gilydd ar un silff anfeidrol. A'r peth braf yw ein bod yn can-- Yn gyntaf oll, mae'r metadata am y llyfrau hyn yn aml yn dweud wrthych pan gafodd ei gyhoeddi. Mae'n dweud wrthych faint o dudalennau sydd ganddo. Gallai fod yn dweud wrthych y dimensiynau. Felly gallwch weld bod wedi ei adlewyrchu yma o ran maint y llyfrau. Ac yna gallwn ddefnyddio'r stacio sgôr i dynnu sylw at y llyfrau sydd â sgoriau simnai uwch. Felly, os yw'n dywyllach, mae'n golygu bod, yn ôl pob tebyg, mae'n cael ei ddefnyddio yn fwy aml. Felly, yn yr achos hwn, rwy'n mynd i ddyfalu bod hyn yw'r fersiwn o Alice in Wonderland sy'n cael ei ddefnyddio yn gyffredin iawn ac mae'r rhan fwyaf mynediad, y llyfrgell Mae gan y rhan fwyaf o gopïau o. Felly os ydych chi'n chwilio ar gyfer Alice in Wonderland, gallai hyn fod yn lle da i ddechrau. Ac yna yma gallwch hefyd gysylltu allan i, dyweder, Amazon i brynu'r llyfr, ac yn y blaen ac yn y blaen. Y pwynt yma, unwaith eto, Nid yn gymaint bod hyn yw'r ffordd orau i bori llyfrgell neu yr offeryn cywir ar gyfer pob achlysur. Ond mae'n ffordd arall o wneud hynny. A thrwy wneud y data ar gael drwy API, a oedd yn cael ei wneud o flociau adeiladu syml iawn, sy'n caniatáu i chi chwilio y cynnwys, gallwch adeiladu rhywbeth fel hyn y gall fod yn hynod o werthfawr i rai pobl. Felly dyna fath o, gymaint ag y dymunaf i ddweud 'n sylweddol am yr hyn mae'r API yn a'r hyn y mae'n datgelu, mae ei gyfanrwydd criw o bethau y tu ôl i'r llenni, a oedd yn Im 'jyst yn mynd i gyffwrdd ar fyr dim ond oherwydd ei fod yn fath o yn dod ar hyn o ongl hollol wahanol mewn ran sut mae rhywbeth fel hyn cael eu rhoi ar waith? Felly API yn safon rhyngwynebu i bob un o'r cynnwys hwn. Ond i'w gael yno, mae'r peth cyntaf roedd rhaid i ni wneud Roedd tynnu ynghyd gwybodaeth o lyfrau a delweddau ac mae'r cymhorthion darganfod, mae'r casgliad dogfen o wahanol systemau Harvard. Aleph, VIA, ac OASIS yw enwau'r systemau. Ac maent yn ei hanfod yn mynd i mewn i biblinell, pibell prosesu. Felly, yn gyntaf oll, rydym yn cael allforio ffeiliau o bob un o'r systemau hyn. Rydym yn rhannu nhw i fyny i mewn eitemau unigol. Felly mae gennym ffeil, sydd yn gigabeit, sydd â miliwn o gofnodion ynddo. Felly, rydym yn rhannu i fyny i mewn eitemau unigol. Yna, ar gyfer pob eitem, rydym yn troi ei i mewn i Mods, gan fod rhai o'r rhain yn mods yn frodorol, nid yw rhai ohonynt yn cael eu. Felly rydym nhw i gyd gyrraedd fod yn yr un fformat. Yna mae amryw o camau cyfoethogi, lle rydym yn ychwanegu mwy o wybodaeth at y data nag oedd ar gael yn y llyfrgell. Felly mae angen i ychwanegu, yn gyntaf oll gennym yr hyn llyfrgelloedd ddal. Rydym yn mynd trwy cam o cyfrifo'r stackscore. Rydym yn mynd drwy gam arall o ychwanegu mwy metadata yn nhermau o'r hyn y mae pobl casgliadau Efallai wedi ychwanegu this-- Mae pobl yn creu casgliadau o eitemau. Pa gasgliadau y mae'n perthyn? Sut mae pobl yn tagio cynnwys hwn yn y gorffennol? Yna byddwch yn hidlo allan, ac yn eich cyfyngu cofnodion oherwydd, fel y soniais, mae rhai cofnodion, oherwydd rhesymau hawlfraint, ni allwn arddangos. Ac yna rydym yn eu llwytho i mewn i rywbeth o'r enw Solr, nad yw'n camsillafu, ond yw enw'r darn o feddalwedd sy'n gwneud mynegeio chwilio, a oedd yn gyrru yr holl chwiliad tu ôl i'r API. Ac yna bydd ar gael i Gall y API, a'r bobl yn ei ddefnyddio. Felly mae hyn yn debyg i eithaf broses syml. Un o'r ddiddorol pethau am ei fod yn ein bod yn delio gyda 13 miliwn o gofnodion ac rydym yn mynd i fod yn delio neu fwy. Ac rydym am fod yn gallu trin y rhain mewn modd cymharol gyflym. Mae'n cymryd amser hir i prosesu 13 miliwn o gofnodion. Felly, sut bibell hwn yw sefydlu yw eich bod yn can-- Amcana y manteisio ar y biblinell, mae'r broblem yr ydym ni'n ceisio datrys yma, yw bod yr holl trawsnewidiadau, pob camau hyn yn hyn biblinell yn gwahanadwy. Does dim dibyniaeth. Os ydych yn prosesu cofnod o un llyfr, does dim dibyniaeth mewn bod rhwng llyfr arall. Felly beth y gallwn ei wneud yn y bôn, ar bob cam ar y gweill, rydym yn ei roi mewn ciw yn y cwmwl. Yr wyf yn digwydd bod ar Wasanaethau Gwe Amazon. Felly mae 'na restr o, yn dweud, 10,000 o eitemau y angen bod yn normaleiddio ac trosi i fformat Mods. Ac rydym yn troelli i fyny fel llawer o weinyddion gan ein bod eisiau, efallai 10 o weinyddion. Ac mae pob un o'r gweinyddion rhai yn unig yn eistedd yno, yn edrych yn y ciw, gweld fod yna un y mae angen ei brosesu, tynnu oddi ar y ciw, prosesau hynny, a ffyn ar y ciw nesaf. Ac felly yr hyn sy'n ein galluogi ei wneud yw gwneud cais, yn y bôn, cymaint o galedwedd gan ein bod yn awyddus i hyn problem am gyfnod byr iawn o amser i brosesu'r data mor gyflym ag bosibl, sy'n rhywbeth y yn unig, awr yn y byd o cyfrifiadura cwmwl gallwn ddarparu gweinyddion yn y bôn ar unwaith, yw bod yn ddefnyddiol. Felly, nid oes gennym i gael gweinydd enfawr yn eistedd o gwmpas drwy'r amser i wneud y prosesu Gallai hynny ddigwydd dim ond unwaith yr wythnos. Felly dyna yw hi yn bennaf. Mae dogfennaeth ar gael ar gyfer y Llyfrgell Cloud API Eitem yn y URL hwn, a fydd yn ar gael yn ddiweddarach. Ac ewch edrychwch ar i weld os oes unrhyw beth, oes gennych unrhyw syniadau. Chwarae gyda hi. Ffwl o gwmpas. A gobeithio y gallwch ddod o hyd i rywbeth mawr. Diolch yn fawr.