1 00:00:00,000 --> 00:00:11,370 2 00:00:11,370 --> 00:00:12,370 JEFFREY LICHT: Bună acolo. 3 00:00:12,370 --> 00:00:13,550 Sunt Jeffrey Licht. 4 00:00:13,550 --> 00:00:17,890 Și eu sunt aici să vorbesc cu tine despre Harvard Biblioteca și construirea de mâine 5 00:00:17,890 --> 00:00:20,870 bibliotecă astăzi, cred. 6 00:00:20,870 --> 00:00:23,040 Deci, fundal de aici, teren pentru această sesiune 7 00:00:23,040 --> 00:00:26,930 este, în esență, că există o mulțime de date bibliografice 8 00:00:26,930 --> 00:00:28,400 disponibil în bibliotecile de la Harvard. 9 00:00:28,400 --> 00:00:33,434 Și există o oportunitate, prin unele dintre instrumentele 10 00:00:33,434 --> 00:00:36,350 și un proiect care este în curs de dezvoltare, pentru a avea acces la informațiile 11 00:00:36,350 --> 00:00:42,430 și duceți-l la locuri care Harvard Biblioteca nu este de a face chiar acum, 12 00:00:42,430 --> 00:00:45,460 face lucruri noi cu ea, experiment și să se joace în jurul cu ea. 13 00:00:45,460 --> 00:00:52,413 >> Deci, punctul de intrare în aceasta este un API numit Harvard Library Cloud, care 14 00:00:52,413 --> 00:00:57,650 este un server de metadate deschis, care voi vorbi despre acum. 15 00:00:57,650 --> 00:01:02,595 Deci fundalul este că există o mulțime de lucruri în bibliotecă Harvard. 16 00:01:02,595 --> 00:01:07,150 Avem peste 13 milioane de bibliografică înregistrări, milioane de imagini, 17 00:01:07,150 --> 00:01:11,090 și mii de ajutoare de constatare, care sunt în esență documente care descriu 18 00:01:11,090 --> 00:01:15,500 colecții, spunând ceea ce este în ele, cutii de documente 19 00:01:15,500 --> 00:01:21,080 și așa mai departe încât reprezintă peste un milion de documente individuale. 20 00:01:21,080 --> 00:01:24,290 Și există, de asemenea, o mulțime de informații că biblioteca are 21 00:01:24,290 --> 00:01:28,180 despre modul în care este folosit continutul care ar putea fi de interes pentru oameni 22 00:01:28,180 --> 00:01:32,400 care ar putea dori sa lucreze cu el. 23 00:01:32,400 --> 00:01:36,150 >> Deci toată informația biblioteca are metadate. 24 00:01:36,150 --> 00:01:39,500 Deci, metadate sunt date despre date. 25 00:01:39,500 --> 00:01:42,070 Așa că atunci când vorbim despre informațiile pe care este 26 00:01:42,070 --> 00:01:44,890 disponibil prin intermediul bibliotecii nor care este disponibil, 27 00:01:44,890 --> 00:01:47,760 nu este neapărat documentele reale 28 00:01:47,760 --> 00:01:53,060 ei înșiși, nu neapărat pe deplin Textul din carti sau imagini complete, 29 00:01:53,060 --> 00:01:54,890 dacă acest fapt ar putea fi cazul. 30 00:01:54,890 --> 00:01:57,550 Dar e adevărat informații despre datele. 31 00:01:57,550 --> 00:02:00,909 >> Deci, vă puteți gândi de catalogare informații, numere de apel, subiecte, 32 00:02:00,909 --> 00:02:02,700 cât de multe copii ale carte există, ceea ce 33 00:02:02,700 --> 00:02:06,380 sunt edițiile, care sunt formate, autorii, și așa mai departe. 34 00:02:06,380 --> 00:02:12,250 Deci, există o mulțime de informații despre informațiile din colecția că, 35 00:02:12,250 --> 00:02:14,400 în sine, este un fel de inerent util. 36 00:02:14,400 --> 00:02:19,230 Și, deși dacă sunteți a face cercetare în profunzime, 37 00:02:19,230 --> 00:02:25,160 evident doriți pentru a ajunge la reale se continut si uita-te la date, 38 00:02:25,160 --> 00:02:30,140 metadatele este util din punct de vedere atât analiza corpusului în ansamblu, 39 00:02:30,140 --> 00:02:33,870 ca ceea ce lucrurile sunt în colecția. 40 00:02:33,870 --> 00:02:35,520 Cum se referă? 41 00:02:35,520 --> 00:02:39,482 Aceasta vă ajută să găsiți într-adevăr alte lucruri, care este de fapt scopul principal al acesteia. 42 00:02:39,482 --> 00:02:41,190 Punctul de metadate și catalogul 43 00:02:41,190 --> 00:02:43,230 este de a vă ajuta să găsiți tot informațiile pe care este 44 00:02:43,230 --> 00:02:46,590 disponibil în colecțiile. 45 00:02:46,590 --> 00:02:53,690 >> Deci, acesta este un exemplu de metadate pentru o carte în Biblioteca Harvard. 46 00:02:53,690 --> 00:02:56,370 Deci e acolo. 47 00:02:56,370 --> 00:02:59,850 Și puteți vedea că este de fapt moderat complex. 48 00:02:59,850 --> 00:03:04,610 Și o parte din valoarea de metadate în cadrul sistemului Harvard Library 49 00:03:04,610 --> 00:03:09,320 se că a fost un fel de construit prin cataloage 50 00:03:09,320 --> 00:03:12,720 și asamblate prin persoane care solicită o mulțime de expertiză și calificare 51 00:03:12,720 --> 00:03:20,030 și gândit să-l în timp, care are o mulțime de valoare. 52 00:03:20,030 --> 00:03:25,450 >> Deci, dacă aruncăm o privire la acest record Adnotată Alice, puteți afla 53 00:03:25,450 --> 00:03:32,590 ai titlul care a scris, autor, și toate diferitele subiecte 54 00:03:32,590 --> 00:03:35,380 care oameni l-au catalogat in. 55 00:03:35,380 --> 00:03:40,110 Și puteți vedea există, de asemenea, în plus față de o mulțime de informații bune 56 00:03:40,110 --> 00:03:42,852 aici, există unele suprapuneri. 57 00:03:42,852 --> 00:03:45,560 Există o mulțime de complexitate care este reflectată prin metadatele 58 00:03:45,560 --> 00:03:46,300 care le au. 59 00:03:46,300 --> 00:03:50,320 >> Deci, un titlu al acestei cărți este Aventurile lui Alice în Țara Minunilor. 60 00:03:50,320 --> 00:03:53,880 Deci, aceasta este o adnotată Versiunea de acea carte. 61 00:03:53,880 --> 00:03:56,380 Dar se numește, de asemenea, adnotat Alice, Aventurile lui Alice 62 00:03:56,380 --> 00:03:58,570 in Tara Minunilor, deoarece e ceva care 63 00:03:58,570 --> 00:04:00,430 Martin Gardner a scris și adnotat cartea. 64 00:04:00,430 --> 00:04:03,369 Și există o mulțime de mare de informații despre puzzle-uri logice și lucruri 65 00:04:03,369 --> 00:04:05,410 în Alice pe care le Probabil că nu știa despre. 66 00:04:05,410 --> 00:04:07,000 Deci ar trebui să citească. 67 00:04:07,000 --> 00:04:11,940 >> Dar puteți vedea acolo e o mulțime de detalii aici, 68 00:04:11,940 --> 00:04:15,340 inclusiv de identificare, atunci când a fost creat, de unde a venit de la, 69 00:04:15,340 --> 00:04:17,420 în ceea ce privește Harvard sistem, și așa mai departe. 70 00:04:17,420 --> 00:04:20,350 Deci, aceasta este o mostră de tipul de metadate 71 00:04:20,350 --> 00:04:24,340 care s-ar putea vedea, de o carte în colecția Biblioteca Harvard. 72 00:04:24,340 --> 00:04:26,680 >> Acest lucru este ceva complet diferit. 73 00:04:26,680 --> 00:04:32,610 Deci, există un sistem numit VIA Harvard, care, practic, 74 00:04:32,610 --> 00:04:39,990 este catalogarea imagini și obiecte de artă și lucrurile vizuale în întreaga Harvard, 75 00:04:39,990 --> 00:04:44,010 și adăugarea unele metadate pentru ei, clasificându-le, 76 00:04:44,010 --> 00:04:49,200 și, în unele cazuri, oferind imagini în miniatură mici 77 00:04:49,200 --> 00:04:51,250 pe care le puteți lua o uita-te la cazul în care doresc acest lucru. 78 00:04:51,250 --> 00:04:54,240 >> Deci, acesta este un exemplu de metadate că aveți o placă 79 00:04:54,240 --> 00:04:57,840 din, probabil, Alice in Tara Minunilor. 80 00:04:57,840 --> 00:05:00,499 Și puteți vedea acolo e mai puțin metadate aici. 81 00:05:00,499 --> 00:05:02,040 E doar un alt fel de obiect. 82 00:05:02,040 --> 00:05:03,425 Și nu e puțin informații. 83 00:05:03,425 --> 00:05:07,790 >> Ai mai ales faptul că, un apel număr, în esență, care a creat-o, - 84 00:05:07,790 --> 00:05:10,410 >> Nu știm când a fost creat. 85 00:05:10,410 --> 00:05:13,320 >> --and un titlu. 86 00:05:13,320 --> 00:05:14,300 >> Un alt exemplu. 87 00:05:14,300 --> 00:05:16,380 Acesta este un ajutor constatare. 88 00:05:16,380 --> 00:05:19,030 Deci, există o colecție de Lewis Lucrări Carroll lui de la Harvard. 89 00:05:19,030 --> 00:05:23,601 Deci, aceasta descrie ceea ce este în colecție. 90 00:05:23,601 --> 00:05:26,100 Deci, cineva a trecut prin și privi prin toate casetele 91 00:05:26,100 --> 00:05:32,220 și catalogate, dat unele de fundal, scris un rezumat a ceea ce este aici. 92 00:05:32,220 --> 00:05:35,290 Și dacă ar fi să te uiți în continuare la acest lucru, acest 93 00:05:35,290 --> 00:05:39,620 continuă pentru pagini și pagini și pagini, dar vă va spune 94 00:05:39,620 --> 00:05:41,860 ceea ce scrisori și ce dateaza din ce cutii 95 00:05:41,860 --> 00:05:44,289 existat în colecția. 96 00:05:44,289 --> 00:05:46,330 Dar acest lucru este ceva că, dacă ești la Harvard, 97 00:05:46,330 --> 00:05:50,720 poti sa te duci si de fapt uite fizic și, probabil, să ia o privire la. 98 00:05:50,720 --> 00:05:53,440 >> Deci, aceasta este tot mare. 99 00:05:53,440 --> 00:05:54,450 Acest metadate lui util. 100 00:05:54,450 --> 00:05:56,327 E în sistemul Harvard Library. 101 00:05:56,327 --> 00:05:58,910 Există instrumente online, unde pot merge și să ia o privire la ea, 102 00:05:58,910 --> 00:05:59,993 și-l vezi, si cauta-l. 103 00:05:59,993 --> 00:06:02,810 Și tu poți și zaruri felie se într-o mulțime de moduri diferite. 104 00:06:02,810 --> 00:06:06,920 >> Dar e adevărat disponibilă numai dacă esti o fiinta umana sta jos 105 00:06:06,920 --> 00:06:12,600 la browser-ul de web sau ceva sau telefon și navigarea prin ea. 106 00:06:12,600 --> 00:06:16,730 Nu e adevărat disponibile în orice fel de moda utila 107 00:06:16,730 --> 00:06:19,520 pentru alte sisteme sau alte computere de a utiliza, 108 00:06:19,520 --> 00:06:21,500 nu cu sisteme din cadrul Harvard Biblioteca, 109 00:06:21,500 --> 00:06:24,890 dar sistemele din lumea exterioară, doar alte persoane, în general. 110 00:06:24,890 --> 00:06:30,210 Deci, întrebarea este, cum putem pune la dispoziția calculatoare 111 00:06:30,210 --> 00:06:33,560 astfel încât să putem face mai interesant chestii cu ea decât 112 00:06:33,560 --> 00:06:36,550 navigare ea noi înșine? 113 00:06:36,550 --> 00:06:39,766 >> Deci, de ce vrei să faci asta? 114 00:06:39,766 --> 00:06:41,140 Există o mulțime de posibilități. 115 00:06:41,140 --> 00:06:43,980 Unul este ai putea construi un complet alt mod de a navigare 116 00:06:43,980 --> 00:06:46,962 conținutul care este disponibil prin bibliotecile de la Harvard. 117 00:06:46,962 --> 00:06:48,670 O să-ți arăt o mai târziu numit Stacklife, 118 00:06:48,670 --> 00:06:52,440 care are o cu totul diferit ia pe căutarea pentru conținut. 119 00:06:52,440 --> 00:06:54,560 >> Ai putea construi un motor de recomandare. 120 00:06:54,560 --> 00:06:57,955 Deci Harvard Biblioteca nu este în afaceri de a spune, iti place aceasta carte. 121 00:06:57,955 --> 00:07:01,080 Apoi, du-te să ia o privire la aceste 17 alte cărților pe care le-ar putea fi interesat de 122 00:07:01,080 --> 00:07:03,200 sau aceste 18 alte imagini. 123 00:07:03,200 --> 00:07:06,040 Dar cu siguranță ar putea fi o caracteristică valoros. 124 00:07:06,040 --> 00:07:09,272 Și având în vedere metadatele, aceasta poate fi posibil pentru a pune asta împreună. 125 00:07:09,272 --> 00:07:11,980 S-ar putea avea nevoi diferite în termeni de căutare de conținut, 126 00:07:11,980 --> 00:07:16,200 ca poate ciuda instrumentele care sunt disponibile ca biblioteca face 127 00:07:16,200 --> 00:07:18,450 disponibil, ați putea dori pentru a căuta într-un mod diferit 128 00:07:18,450 --> 00:07:21,847 sau optimiza pentru un anumit caz de utilizare, care poate e foarte specializate. 129 00:07:21,847 --> 00:07:23,930 Poate că există doar câteva oameni din lume care 130 00:07:23,930 --> 00:07:25,846 doresc să căutați conținut în acest fel, dar ea 131 00:07:25,846 --> 00:07:28,985 Ar fi minunat dacă am ar putea să le facă asta. 132 00:07:28,985 --> 00:07:30,860 Există o mulțime de analiză în doar modul în care oamenii 133 00:07:30,860 --> 00:07:33,860 utiliza conținutul care ar fi cu adevărat interesant de stiut despre, afla 134 00:07:33,860 --> 00:07:37,280 ce cărți sunt folosite, ceea ce nu sunt, și așa mai departe. 135 00:07:37,280 --> 00:07:41,670 Și apoi există o mulțime de posibilitatea de a integra 136 00:07:41,670 --> 00:07:45,210 cu alte informații că e acolo pe web. 137 00:07:45,210 --> 00:07:46,880 Așa că am have-- 138 00:07:46,880 --> 00:07:50,260 >> De exemplu, NPR are un segment recenzie de carte, 139 00:07:50,260 --> 00:07:53,090 în cazul în care interviu autori despre cărți. 140 00:07:53,090 --> 00:07:56,837 Și așa ar fi minunat dacă ați fost Cautati o carte în Harvard 141 00:07:56,837 --> 00:07:59,670 Biblioteca, iar tu spui, OK, nu e a fost un interviu cu autorul. 142 00:07:59,670 --> 00:08:00,878 Să mergem să aruncăm o privire la asta. 143 00:08:00,878 --> 00:08:05,461 Sau există o pagină Wikipedia, ca un autoritate de referință, academice 144 00:08:05,461 --> 00:08:07,710 despre aceasta carte pe care le ar putea dori să aruncăm o privire la. 145 00:08:07,710 --> 00:08:12,600 >> Există aceste tipuri de surse împrăștiate în întreaga web. 146 00:08:12,600 --> 00:08:16,555 Și le aduce laolaltă ar putea fi un mare folos 147 00:08:16,555 --> 00:08:18,930 pentru cineva care cauta la conținut, în căutarea pentru ceva. 148 00:08:18,930 --> 00:08:20,180 Dar nu e, de asemenea, fel de lucru pe care îl ai 149 00:08:20,180 --> 00:08:23,205 doresc biblioteca să fie responsabil pentru a merge în jos și de vânătoare în jos 150 00:08:23,205 --> 00:08:25,455 toate aceste surse diferite și conectarea lor împreună 151 00:08:25,455 --> 00:08:28,920 pentru că acestea sunt în continuă schimbare. 152 00:08:28,920 --> 00:08:33,570 Și ceea ce ei cred ca este mai importantă să nu fie ceea ce crezi este important. 153 00:08:33,570 --> 00:08:36,929 >> Si chiar mai mult, practic există un mulțime de lucruri nu ne-am gândit încă. 154 00:08:36,929 --> 00:08:42,222 Deci, dacă putem deschide asta, mai mult oameni în afară de o jumătate de duzină sau așa, 155 00:08:42,222 --> 00:08:45,174 care se uita la acest lucru pe o în mod regulat pot gândi idei 156 00:08:45,174 --> 00:08:47,340 și masaj de date, și face ce vor cu ea. 157 00:08:47,340 --> 00:08:49,920 158 00:08:49,920 --> 00:08:54,045 >> Deci, vrem să facem acest datele disponibile la lume. 159 00:08:54,045 --> 00:08:55,670 Ei bine, există câteva complicații. 160 00:08:55,670 --> 00:08:58,540 Unul este acela că această metadate este în diferite sisteme. 161 00:08:58,540 --> 00:09:01,110 Este scris în diferite formate. 162 00:09:01,110 --> 00:09:04,719 Deci, există unele normalizare care trebuie să se întâmple, 163 00:09:04,719 --> 00:09:08,010 care normalizare fiind procesul de aducând lucrurile din diferite formate 164 00:09:08,010 --> 00:09:12,940 și le cartografiere la un singur format astfel încât câmpurile vor potrivi. 165 00:09:12,940 --> 00:09:15,160 >> Există unele restricții privind drepturile de autor. 166 00:09:15,160 --> 00:09:21,010 Destul de ciudat, la intrarea catalog despre o carte este răspunzător pentru drepturile de autor. 167 00:09:21,010 --> 00:09:24,060 Deci, chiar dacă e doar informații derivate din carte, 168 00:09:24,060 --> 00:09:25,330 e drept de autor. 169 00:09:25,330 --> 00:09:28,400 Și în funcție de cine de fapt a creat acea metadate, 170 00:09:28,400 --> 00:09:32,175 pot exista restricții privind cine poate distribui, sa-- similare 171 00:09:32,175 --> 00:09:33,402 >> Nu știu. 172 00:09:33,402 --> 00:09:36,110 Acesta poate sau nu poate fi similar situația song lyrics, 173 00:09:36,110 --> 00:09:36,610 de exemplu. 174 00:09:36,610 --> 00:09:38,560 Deci, știm cu toții cum că bucătărie afară. 175 00:09:38,560 --> 00:09:40,450 Deci, aveți nevoie pentru a obține în jurul valorii de această problemă. 176 00:09:40,450 --> 00:09:44,910 >> Și apoi o altă piesă este că există o mulțime de date. 177 00:09:44,910 --> 00:09:52,420 Deci, dacă eu sunt cineva care vrea să lucreze cu datele sau are o idee misto, 178 00:09:52,420 --> 00:09:55,350 se ocupă cu 14 milioane înregistrărilor privind laptop-ul meu 179 00:09:55,350 --> 00:09:57,487 ar putea fi problematică și dificil de gestionat. 180 00:09:57,487 --> 00:09:59,320 Așa că vrem să reducă barierele pentru oameni 181 00:09:59,320 --> 00:10:02,130 pentru a putea lucra cu datele. 182 00:10:02,130 --> 00:10:07,880 >> Deci, abordarea pe care sperăm adrese toate aceste preocupări este de două părți. 183 00:10:07,880 --> 00:10:11,770 Un construiește o platformă care să date de la toate aceste surse diferite 184 00:10:11,770 --> 00:10:14,350 și-l agravează, normalizeaza, îmbogățește ea, și face 185 00:10:14,350 --> 00:10:16,650 la dispoziție într-o singură locație. 186 00:10:16,650 --> 00:10:20,950 Și ea face disponibile prin intermediul un API public care oamenii pot apela. 187 00:10:20,950 --> 00:10:24,430 >> Deci, un API este o aplicație Interfață de programare. 188 00:10:24,430 --> 00:10:28,930 Și practic se referă la o endpoint că un sistem sau tehnologie 189 00:10:28,930 --> 00:10:31,720 puteți apela și obține date înapoi în un format structurat într-un mod 190 00:10:31,720 --> 00:10:32,900 care poate fi utilizat. 191 00:10:32,900 --> 00:10:36,060 Deci nu e dependent pe de gând la un site web 192 00:10:36,060 --> 00:10:37,970 și răzuire date de pe de aceasta, de exemplu. 193 00:10:37,970 --> 00:10:40,690 194 00:10:40,690 --> 00:10:45,010 >> Deci, aceasta este pagina de start a Articolul API Library Cloud, 195 00:10:45,010 --> 00:10:47,220 care este în esență versiune doi. 196 00:10:47,220 --> 00:10:50,130 Deci, este a doua repetare a încercarea de a face toate aceste date 197 00:10:50,130 --> 00:10:53,280 disponibil în lume. 198 00:10:53,280 --> 00:10:59,560 Deci e http://api.lib.harvard.edu/v2/items. 199 00:10:59,560 --> 00:11:03,830 Și doar pentru a rupe acest jos un pic, ce înseamnă acest lucru 200 00:11:03,830 --> 00:11:06,115 este că aceasta este versiunea doi a API. 201 00:11:06,115 --> 00:11:08,490 Există o versiune una, care N-am de gând să vorbesc despre. 202 00:11:08,490 --> 00:11:09,750 Dar există o versiune unul. 203 00:11:09,750 --> 00:11:14,740 >> Și dacă suni acest API, primiți elemente. 204 00:11:14,740 --> 00:11:20,640 Și o parte din ideea de API este un API este un contract. 205 00:11:20,640 --> 00:11:23,440 E ceva care este nu va schimba. 206 00:11:23,440 --> 00:11:24,850 Deci, de exemplu, - 207 00:11:24,850 --> 00:11:27,410 >> Iar motivul este că, dacă am construi un fel de sistem care 208 00:11:27,410 --> 00:11:33,210 se va folosi un API bibliotecă nor pentru a afișa cărți sau ajuta oamenii să găsească 209 00:11:33,210 --> 00:11:36,190 informații în moduri unice, ceea ce nu vrem să se întâmple 210 00:11:36,190 --> 00:11:38,940 este pentru noi să mergem schimba modul că API lucrări, și dintr-o dată 211 00:11:38,940 --> 00:11:41,340 tot sparge pe partea de utilizator final. 212 00:11:41,340 --> 00:11:46,710 Deci, o parte din, dacă faci API disponibil în lume, e 213 00:11:46,710 --> 00:11:49,396 bune practici pentru a pune o Numărul versiunii în ea atât de oameni 214 00:11:49,396 --> 00:11:51,020 Știi ce versiune se de-a face cu. 215 00:11:51,020 --> 00:11:54,300 >> Deci, dacă ne-am hotărî vom găsi o cale mai bună de a face aceste informații disponibile, 216 00:11:54,300 --> 00:11:57,295 am putea schimba asta apel această versiune trei. 217 00:11:57,295 --> 00:11:59,920 Deci, oricine este încă utilizează Versiunea doi, care va funcționa în continuare. 218 00:11:59,920 --> 00:12:03,490 Dar versiunea trei ar fi au toate lucruri noi. 219 00:12:03,490 --> 00:12:06,680 220 00:12:06,680 --> 00:12:09,210 >> Deci, aceasta este un API, dar aceasta într-adevăr arată ca o adresă URL. 221 00:12:09,210 --> 00:12:11,680 Și ce este o exemplu de este ceea ce este 222 00:12:11,680 --> 00:12:16,615 numit un API de odihnă, care este disponibil peste doar o conexiune web regulat. 223 00:12:16,615 --> 00:12:19,680 Și poți de fapt du-te să-l într-un browser. 224 00:12:19,680 --> 00:12:28,550 >> Deci, aici eu doar am deschis Firefox și plecat la api.lib.harvard.edu/v2/items. 225 00:12:28,550 --> 00:12:31,560 Și așa cum am ajuns aici este practic prima pagină 226 00:12:31,560 --> 00:12:34,740 rezultatelor din întreaga set de elemente pe care le-am luat. 227 00:12:34,740 --> 00:12:37,460 Și e aici, în format XML. 228 00:12:37,460 --> 00:12:40,130 229 00:12:40,130 --> 00:12:42,210 Și a fost, de asemenea prettified de Firefox. 230 00:12:42,210 --> 00:12:45,850 Ea nu are de fapt toate acestea puțin expansiune și contractare 231 00:12:45,850 --> 00:12:47,880 doohickeys aici. 232 00:12:47,880 --> 00:12:52,520 Aceasta este un fel de frumos Versiunea mod de a privi la ea. 233 00:12:52,520 --> 00:12:57,040 >> Dar ceea ce ne spune acest este Am cerut toate elementele. 234 00:12:57,040 --> 00:13:03,120 Deci, există 13289475 elemente. 235 00:13:03,120 --> 00:13:06,150 Și mă uit la primul 10, începând de la poziția zero 236 00:13:06,150 --> 00:13:09,760 pentru că în informatică am mereu încep de la zero. 237 00:13:09,760 --> 00:13:15,150 Și ce am aici, dacă am doar colaps aceasta, veți vedea că am 10 bucăți. 238 00:13:15,150 --> 00:13:20,410 239 00:13:20,410 --> 00:13:25,210 >> Și dacă aruncăm o privire la un articol, pot vezi că am informații despre el. 240 00:13:25,210 --> 00:13:27,400 Și acest lucru este în ceea ce se numește formă MODS. 241 00:13:27,400 --> 00:13:30,860 Și așa am de gând pentru a comuta înapoi aici pentru un moment. 242 00:13:30,860 --> 00:13:33,750 OK. 243 00:13:33,750 --> 00:13:37,447 >> Deci, haideți să caute ceva în specifică că primul element care 244 00:13:37,447 --> 00:13:40,030 se întâmplă să vină atunci când te uiți prin întreaga colecție 245 00:13:40,030 --> 00:13:41,750 este, prin definiție, aleatoare. 246 00:13:41,750 --> 00:13:44,550 Așa că haideți să ne uităm pentru câteva gogoși. 247 00:13:44,550 --> 00:13:46,830 Oh. 248 00:13:46,830 --> 00:13:49,190 >> OK. 249 00:13:49,190 --> 00:13:49,940 Deci gogoși. 250 00:13:49,940 --> 00:13:55,360 Așa că am găsit acolo sunt 80 de articole în colecția de referință care gogoși. 251 00:13:55,360 --> 00:13:57,150 Ne uităm la primele 10 de ele. 252 00:13:57,150 --> 00:14:01,890 Acum, puteți vedea aici modul în care I-am spus caut gogoși, 253 00:14:01,890 --> 00:14:04,400 Am adăugat doar ceva la șirul de interogare a URL-ul. 254 00:14:04,400 --> 00:14:09,680 Deci q este egal cu gogoși, pe care le puteți a se vedea un pic mai ușor aici. 255 00:14:09,680 --> 00:14:12,131 >> Și acest lucru înseamnă în esență există un spec pentru API, care 256 00:14:12,131 --> 00:14:13,880 definește ce toate acești parametri medie. 257 00:14:13,880 --> 00:14:17,150 Și asta înseamnă că vom caută tot pentru gogoși. 258 00:14:17,150 --> 00:14:24,910 >> Deci, primul element aici avem puteți vedea titlul este Donuts, 259 00:14:24,910 --> 00:14:29,310 și există un subtitlu numit O Pasiunea american, care este, cred, 260 00:14:29,310 --> 00:14:31,610 adecvat. 261 00:14:31,610 --> 00:14:36,134 Există o mulțime de different-- 262 00:14:36,134 --> 00:14:38,050 Odată ce ajunge la punctul de a obține date, 263 00:14:38,050 --> 00:14:41,020 există o mulțime de diferite formate pe care îl puteți obține în. 264 00:14:41,020 --> 00:14:44,050 Și există diferite concentrații și slabe pentru toți. 265 00:14:44,050 --> 00:14:49,000 Deci acesta, puteți vedea aici, această formă este foarte bogat. 266 00:14:49,000 --> 00:14:51,946 Și este standardizat. 267 00:14:51,946 --> 00:14:55,040 >> Deci, există un anumit titlu câmp, un câmp subtitrare. 268 00:14:55,040 --> 00:14:58,950 Există o alternativă titlu, o pasiune american. 269 00:14:58,950 --> 00:15:01,650 Nu este numele asociat cu el. 270 00:15:01,650 --> 00:15:03,120 Tipul de resursa este text. 271 00:15:03,120 --> 00:15:06,070 Există o mulțime de informații aici, în acest format. 272 00:15:06,070 --> 00:15:09,480 >> Dar există o grămadă de diferite formate. 273 00:15:09,480 --> 00:15:11,920 Deci, ceea ce am fost pur și simplu uita la este un format 274 00:15:11,920 --> 00:15:17,700 numite MODS, care vine de la Metadate obiect Descriere Service, 275 00:15:17,700 --> 00:15:18,250 potențial. 276 00:15:18,250 --> 00:15:23,030 Sunt de fapt, nu chiar sigur S. Dar este un format destul de complex. 277 00:15:23,030 --> 00:15:24,240 Este formatul implicit. 278 00:15:24,240 --> 00:15:30,260 >> Dar e cea care ține bogăția toate datele 279 00:15:30,260 --> 00:15:33,820 că biblioteca are, deoarece este foarte aproape de ceea ce 280 00:15:33,820 --> 00:15:35,110 biblioteca folosește intern. 281 00:15:35,110 --> 00:15:39,030 Este un standard care este folosit în întreaga țară, 282 00:15:39,030 --> 00:15:40,944 în întreaga lume în bibliotecile universitare. 283 00:15:40,944 --> 00:15:42,110 Și este foarte interoperabil. 284 00:15:42,110 --> 00:15:44,852 Deci, dacă ai un document care este în format MODS, 285 00:15:44,852 --> 00:15:47,560 puteți da ca la altcineva ale căror sisteme înțelege MODS, 286 00:15:47,560 --> 00:15:48,518 și ei pot importa. 287 00:15:48,518 --> 00:15:50,840 Deci, este un etalon. 288 00:15:50,840 --> 00:15:54,250 Este foarte bine definit, foarte specific. 289 00:15:54,250 --> 00:15:58,980 Și asta este ceea ce face interoperabile pentru că dacă cineva spune, 290 00:15:58,980 --> 00:16:04,930 aceasta este titlul alternativă a unui înregistrare, toată lumea știe ce înseamnă asta. 291 00:16:04,930 --> 00:16:07,740 Pe de alta parte, e foarte complicat. 292 00:16:07,740 --> 00:16:13,160 >> Deci, dacă vă veți uita la acest record aici, 293 00:16:13,160 --> 00:16:15,320 dacă vreau doar pentru a obține titlul acestui document, 294 00:16:15,320 --> 00:16:21,150 din această carte, care este, probabil, Donuts, O pasiune american, aceasta parsarea afară 295 00:16:21,150 --> 00:16:22,940 este un pic implicat. 296 00:16:22,940 --> 00:16:27,380 Întrucât există o altă format numit Dublin Core, 297 00:16:27,380 --> 00:16:29,730 care este un, format mult mai simplu mult. 298 00:16:29,730 --> 00:16:33,764 >> Și așa te văd aici, nu e nici o titlu, subtitlu, titlul alternativ. 299 00:16:33,764 --> 00:16:35,930 Nu e doar titlul, Donuts, o pasiune american, 300 00:16:35,930 --> 00:16:38,780 și un alt titlu, Passion american. 301 00:16:38,780 --> 00:16:42,907 Deci, atunci când te uiți la ce formă doriți să obțineți date din, 302 00:16:42,907 --> 00:16:44,740 o mulțime depinde de cât de ai de gând să-l folosească. 303 00:16:44,740 --> 00:16:46,573 Utilizați pentru interoperabilitate sau a face tu 304 00:16:46,573 --> 00:16:49,970 vrei ceva simplu că ar putea fi mai ușor de a lucra cu? 305 00:16:49,970 --> 00:16:56,002 >> Pe de alta parte, o mulțime de Detalii se un fel de squished jos. 306 00:16:56,002 --> 00:16:58,460 S-ar putea pierde nuanțele de ceea ce un anumit mijloc de câmp 307 00:16:58,460 --> 00:17:02,960 dacă ai de a face cu Dublin Core, care nu v-ar lua cu MODS. 308 00:17:02,960 --> 00:17:06,462 Deci, acestea sunt două din formatele puteți ieși din API. 309 00:17:06,462 --> 00:17:08,920 Și de fapt, suntem păstrarea aceasta spatele scenei din MODS. 310 00:17:08,920 --> 00:17:14,179 Dar vă putem da în MODS și Dublin Core și orice altceva, de asemenea. 311 00:17:14,179 --> 00:17:16,470 Alte considerare atunci când căutați în datele 312 00:17:16,470 --> 00:17:21,210 este puteți să-l fie ca JSON, care standuri pentru JavaScript Object Notation, 313 00:17:21,210 --> 00:17:24,720 sau XML, care vine de la Extensible Markup Language. 314 00:17:24,720 --> 00:17:30,080 Și aceste reprezentări de date, atât au exact aceleași date, exact 315 00:17:30,080 --> 00:17:31,080 aceleași domenii. 316 00:17:31,080 --> 00:17:33,644 Dar acestea sunt doar sintactic diferit. 317 00:17:33,644 --> 00:17:40,401 >> Deci, aceasta este un-- 318 00:17:40,401 --> 00:17:41,400 Ei bine, hai să comutați. 319 00:17:41,400 --> 00:17:47,490 Deci, aceasta este interogare noastră pentru gogoși în format XML. 320 00:17:47,490 --> 00:17:53,470 Dacă am trece acest lucru să fie JSON, Văd că arată altfel. 321 00:17:53,470 --> 00:17:58,580 Deci, acum acest lucru este același conținut, dar o structură diferită. 322 00:17:58,580 --> 00:18:00,080 Există puține paranteze unghiulare. 323 00:18:00,080 --> 00:18:02,530 Nu e mai puțin detaliată. 324 00:18:02,530 --> 00:18:06,440 >> Și aceasta este un format care, daca lucrează în mediul web, 325 00:18:06,440 --> 00:18:09,680 pe care cel mai probabil vor să doriți să utilizați pentru că o 326 00:18:09,680 --> 00:18:12,630 de lucrurile frumoase despre JSON este e compatibil cu JavaScript. 327 00:18:12,630 --> 00:18:17,680 Deci, dacă eu scriu aplicație web, pot trage în JSON și doar a lucra cu el direct. 328 00:18:17,680 --> 00:18:20,187 Întrucât cu XML, este o pic mai complicate. 329 00:18:20,187 --> 00:18:21,520 Deci, din nou, acestea sunt atât de utile. 330 00:18:21,520 --> 00:18:26,387 Ei doar sunt diferite cazuri de utilizare în cazul în care oamenii ar putea dori să le folosească. 331 00:18:26,387 --> 00:18:26,886 OK. 332 00:18:26,886 --> 00:18:29,810 333 00:18:29,810 --> 00:18:31,680 Deci, înapoi la API. 334 00:18:31,680 --> 00:18:32,900 Deci, putem căuta for-- 335 00:18:32,900 --> 00:18:36,220 >> Dau un exemplu de căutați gogoși. 336 00:18:36,220 --> 00:18:39,330 Putem, de asemenea, căuta doar într-o câmp special în cadrul aici. 337 00:18:39,330 --> 00:18:41,310 Deci, în loc de a căuta întreaga înregistrare, 338 00:18:41,310 --> 00:18:43,870 Pot căuta doar câmpul titlu. 339 00:18:43,870 --> 00:18:48,810 Și așa că acum sunt 25 de lucruri pe care au gogoși în titlu, dintre care unul 340 00:18:48,810 --> 00:18:52,430 este de aproximativ restabilirea zone umede în management 341 00:18:52,430 --> 00:18:54,990 de gaura din gogoasa Programul, care este, probabil, 342 00:18:54,990 --> 00:18:58,970 nu neapărat ceea ce căutăm pentru că atunci când suntem în căutare de gogoși. 343 00:18:58,970 --> 00:19:02,790 344 00:19:02,790 --> 00:19:05,490 >> Puteți, de asemenea, dacă sunteți a face cu un API-- 345 00:19:05,490 --> 00:19:08,827 >> Parte a avea un API este avertizat oameni accesul la seturi mari de date. 346 00:19:08,827 --> 00:19:11,410 Și există un cuplu diferit instrumente pe care le puteți folosi pentru a face asta. 347 00:19:11,410 --> 00:19:14,170 Una dintre ele este, foarte simplu, tu poate pagină prin datele. 348 00:19:14,170 --> 00:19:17,340 Deci, la fel ca și cum ai face o interogare printr-o interfață web, 349 00:19:17,340 --> 00:19:19,470 poti sa te uiti la pagina unu, pagină doi, trei pagină. 350 00:19:19,470 --> 00:19:22,040 Puteți face același lucru lucru prin intermediul API. 351 00:19:22,040 --> 00:19:24,150 Trebuie doar să fie explicit în modul în care o faci. 352 00:19:24,150 --> 00:19:29,511 >> Deci, de exemplu, dacă mă uit la prima mea interogare aici, 353 00:19:29,511 --> 00:19:32,510 în cazul în care fac o căutare pentru lucruri cu gogoși în titlu, pot spune, 354 00:19:32,510 --> 00:19:35,415 și limita atinge 20, ceea ce înseamnă da-mi primele 20 de înregistrările, nu 355 00:19:35,415 --> 00:19:38,540 primii 10, care este implicit, pentru că vreau să mă uit la 20, la un moment dat. 356 00:19:38,540 --> 00:19:43,435 Sau pot spune, setați începe egală cu 20 și limita 357 00:19:43,435 --> 00:19:47,150 egal 20, care va da mă înregistrează 21 prin 40. 358 00:19:47,150 --> 00:19:52,680 >> Deci cred că lucrul pentru a ține departe de aici este 359 00:19:52,680 --> 00:19:57,290 pe care îl utilizăm siruri de caractere de interogare pentru a seta parametrii pe interogare. 360 00:19:57,290 --> 00:20:02,760 Și vă permite să controlați ce te întorci. 361 00:20:02,760 --> 00:20:05,980 >> Un alt instrument pe care le puteți utiliza, - 362 00:20:05,980 --> 00:20:09,250 >> Și acest lucru este foarte util în ceea ce privește explorarea datelor. 363 00:20:09,250 --> 00:20:10,840 >> --is ceva numit fatetare. 364 00:20:10,840 --> 00:20:15,530 Deci, fațetarea termen este nu neapărat comun. 365 00:20:15,530 --> 00:20:16,880 Dar l-ați văzut totul înainte. 366 00:20:16,880 --> 00:20:18,630 Dacă aruncăm o privire la Amazon, de exemplu, 367 00:20:18,630 --> 00:20:20,870 și faci o căutare pentru gogoși în cărți, 368 00:20:20,870 --> 00:20:27,080 aici le-am luat o serie de cărți, și sunt grupate pe categorii, 369 00:20:27,080 --> 00:20:30,470 și veți obține diferite categorii, și cât de multe cărți în fiecare categorie 370 00:20:30,470 --> 00:20:31,330 apar. 371 00:20:31,330 --> 00:20:33,420 >> Deci, aceasta este de fapt o fațetă. 372 00:20:33,420 --> 00:20:37,570 Iei toate cărțile lor, 1800 Cărți care se potrivesc gogoși la Amazon. 373 00:20:37,570 --> 00:20:39,820 12 dintre ele sunt în categorie micul dejun. 374 00:20:39,820 --> 00:20:43,100 21 în patiserie și panificație, și așa mai departe și așa mai departe. 375 00:20:43,100 --> 00:20:47,670 >> Deci, aceasta este într-adevăr un util instrument pentru explorarea conținutului 376 00:20:47,670 --> 00:20:53,260 în cadrul bibliotecii, precum și pentru că atunci când te uiți la un aspect, 377 00:20:53,260 --> 00:20:56,520 vă oferă o idee despre ceea ce subiecte există, ca ceea ce tipuri de subiecte 378 00:20:56,520 --> 00:20:58,510 sunt cele mai populare în setul de interogare. 379 00:20:58,510 --> 00:21:00,950 Și vă ajută să conduci de pe și de a explora. 380 00:21:00,950 --> 00:21:02,770 Deci, putem face același lucru. 381 00:21:02,770 --> 00:21:05,940 >> Dacă doriți să utilizați API și uita-te la fațete, 382 00:21:05,940 --> 00:21:08,950 am adăuga un alt parametru de prietenul nostru șir de interogare. 383 00:21:08,950 --> 00:21:12,540 Deci, fatete este egal cu un separate prin virgulă Listă de ceea ce vrem să fațetelor pe. 384 00:21:12,540 --> 00:21:14,790 Astfel, una dintre fațetele ar putea fi supus. 385 00:21:14,790 --> 00:21:16,565 Un alt ar putea fi limba. 386 00:21:16,565 --> 00:21:19,665 Și așa, dacă am alerga că interogare, noi get-- 387 00:21:19,665 --> 00:21:23,372 388 00:21:23,372 --> 00:21:24,830 Se pare destul de mult la fel aici. 389 00:21:24,830 --> 00:21:29,010 Dar am adăugat la sfârșitul listei unui set de fațete. 390 00:21:29,010 --> 00:21:34,060 Deci, avem o fațetă numit subiect. 391 00:21:34,060 --> 00:21:40,250 Deci asta ne spune că dacă mă uit la mea 80 de rezultate de interogare gogoasa, 392 00:21:40,250 --> 00:21:42,100 13 dintre ei au supună Statele Unite ale Americii. 393 00:21:42,100 --> 00:21:43,684 Trei au gogoși subiect. 394 00:21:43,684 --> 00:21:45,600 Trei au subiectului de restaurare zonelor umede, 395 00:21:45,600 --> 00:21:47,720 care poate fi gaură noastră în gogoasa. 396 00:21:47,720 --> 00:21:51,780 Doi dintre ei, Simpsons, și așa mai departe și așa mai departe. 397 00:21:51,780 --> 00:21:59,211 >> Deci, acest lucru poate fi util dacă ați doresc să restrânge căutarea. 398 00:21:59,211 --> 00:22:00,210 Acesta vă poate ajuta să faci asta. 399 00:22:00,210 --> 00:22:03,580 Mai ales dacă aveți mai mult, spune, 80 de rezultate. 400 00:22:03,580 --> 00:22:05,980 >> În mod similar, am cerut, de asemenea pentru fatete pe limbă. 401 00:22:05,980 --> 00:22:14,790 Deci, dacă ne uităm la rezultatele noastre, vom vedea 76 dintre ele sunt în limba engleză, patru în franceză, 402 00:22:14,790 --> 00:22:19,620 două în limba spaniolă, două, cred că e nedefinit sau necunoscute, olandeză și latină. 403 00:22:19,620 --> 00:22:22,830 Deci, cred că latina Rezultatul gogoasa, din nou, 404 00:22:22,830 --> 00:22:24,922 nu are nimic de-a face cu produse de patiserie. 405 00:22:24,922 --> 00:22:25,630 Dar te duci. 406 00:22:25,630 --> 00:22:31,420 407 00:22:31,420 --> 00:22:38,630 >> Deci, acest lucru este un fel de care vă arată cum poti trage conținutul înapoi 408 00:22:38,630 --> 00:22:41,270 de la API doar prin browser web, care este mare. 409 00:22:41,270 --> 00:22:44,320 Dar nu e chiar ceea ce ar fi în mod normal, folosind în API pentru el. 410 00:22:44,320 --> 00:22:48,710 Deci, un exemplu de cum te ar putea face de fapt acest lucru este Am 411 00:22:48,710 --> 00:22:54,720 scris un program de super-mic, care, din nou, căutarea mea gogoasa 412 00:22:54,720 --> 00:22:59,010 și selectează câteva domenii și le afișează într-un tabel. 413 00:22:59,010 --> 00:23:01,610 Deci, acest lucru este foarte mult același conținut care tocmai am 414 00:23:01,610 --> 00:23:04,830 ferăstrău cu câteva domenii tras în afară. 415 00:23:04,830 --> 00:23:12,090 Deci listă a titlurilor, a Locul de amplasare a ceea ce carte 416 00:23:12,090 --> 00:23:15,120 este de aproximativ, limba, și așa mai departe și așa mai departe. 417 00:23:15,120 --> 00:23:20,480 >> Deci, cum sa întâmplat de fapt acest, întrucât Cred că trebuie să se uite la unele cod, 418 00:23:20,480 --> 00:23:22,420 este-- 419 00:23:22,420 --> 00:23:28,060 >> Ceea ce avem aici este un cod HTML simplu pagină, care afișează textul, 420 00:23:28,060 --> 00:23:32,900 Bine ati venit la nor bibliotecă și apoi afișează un tabel de rezultate. 421 00:23:32,900 --> 00:23:37,790 Și acolo sunt, evident, nici un rezultat in tabel atunci când pagina se încarcă. 422 00:23:37,790 --> 00:23:41,380 Dar ce facem este, în primul rând, 423 00:23:41,380 --> 00:23:46,290 încărcați o bibliotecă numită jQuery, care este de fapt 424 00:23:46,290 --> 00:23:52,030 o bibliotecă JavaScript, care o face foarte ușor de manipulat JavaScript 425 00:23:52,030 --> 00:23:58,780 nativ, HTML, și de a crea pagini web, logică client-side și pagini web. 426 00:23:58,780 --> 00:24:01,595 >> Deci, ce avem aici este jQuery are o metoda numita Get, 427 00:24:01,595 --> 00:24:05,270 care, în esență, va merge la un URL, care, în acest caz, 428 00:24:05,270 --> 00:24:09,070 este acest URL familiar cautati. 429 00:24:09,070 --> 00:24:14,440 Și va primi apoi continutul din că URL-ul și apoi executați o funcție pe ea. 430 00:24:14,440 --> 00:24:19,240 Deci, am spus merge la api.lib.harvard / edu. 431 00:24:19,240 --> 00:24:20,060 Căutați gogoși. 432 00:24:20,060 --> 00:24:21,300 Dă-ne 20 de înregistrări. 433 00:24:21,300 --> 00:24:28,590 Și apoi executați această funcție, care Am ales, care trece aceasta datele. 434 00:24:28,590 --> 00:24:34,430 Iar datele sunt JSON că am întors de la API. 435 00:24:34,430 --> 00:24:40,120 >> Și apoi vom spune, în acest date există un câmp numit element. 436 00:24:40,120 --> 00:24:48,117 Și dacă mă duc aruncăm o privire înapoi la unul dintre aceste rezultate e aici, 437 00:24:48,117 --> 00:24:49,200 e ceva called-- 438 00:24:49,200 --> 00:24:50,220 >> Ei bine, se numește element. 439 00:24:50,220 --> 00:24:53,520 Deci, care ar putea fi faptul că. 440 00:24:53,520 --> 00:25:01,840 Și ceea ce face este trece prin fiecare element 441 00:25:01,840 --> 00:25:05,300 și apoi solicită un alt Funcția pe fiecare element. 442 00:25:05,300 --> 00:25:08,440 Și această funcție, practic, este de a lua valoarea 443 00:25:08,440 --> 00:25:12,010 a elementului, care este în esență, înregistrarea individuală 444 00:25:12,010 --> 00:25:18,220 și ne permite să scoate titlu, acoperirea și limba. 445 00:25:18,220 --> 00:25:21,640 >> Deci, noi numim o funcție pe fiecare element care ne-am întors de la API. 446 00:25:21,640 --> 00:25:25,397 Și dacă luați doar o privire la această piesă aici, 447 00:25:25,397 --> 00:25:27,230 ceea ce facem este suntem crearea unui șir de caractere, 448 00:25:27,230 --> 00:25:31,810 care este în esență o anumită HTML markup în jurul unei mese, cu value.title, 449 00:25:31,810 --> 00:25:35,790 care este titlul obiect, value.coverage, 450 00:25:35,790 --> 00:25:36,790 care este acoperirea, - 451 00:25:36,790 --> 00:25:38,225 >> Și facem o verificare aici pentru a vedea cine este nedefinit 452 00:25:38,225 --> 00:25:40,570 și ascunde-l dacă se spune nedefinit, pentru că nu suntem cu adevărat interesați 453 00:25:40,570 --> 00:25:41,600 în acel. 454 00:25:41,600 --> 00:25:42,939 >> --and apoi limba. 455 00:25:42,939 --> 00:25:44,730 Și apoi ce suntem face este adăugarea că 456 00:25:44,730 --> 00:25:48,510 la masa care este identificate prin acest șir aici. 457 00:25:48,510 --> 00:25:50,790 Și cum functioneaza jQuery este ceea ce acest spune 458 00:25:50,790 --> 00:25:56,420 este sa te uiti pentru masa cu ideea Rezultatele și se adaugă acest text să-l. 459 00:25:56,420 --> 00:25:59,380 Și aceasta este tabelul cu rezultatele idee. 460 00:25:59,380 --> 00:26:04,998 Deci, ce va ajunge cu este aceasta pagina aici. 461 00:26:04,998 --> 00:26:06,206 Și în scopul de a vizualiza source-- 462 00:26:06,206 --> 00:26:11,310 463 00:26:11,310 --> 00:26:13,810 Ei bine, sursa nu este de fapt actualizat atunci când sa întâmplat. 464 00:26:13,810 --> 00:26:18,740 Deci, puteți vedea reale Rezultatele din tabelul de mai jos, totuși. 465 00:26:18,740 --> 00:26:24,770 >> Deci, asta e doar un simplu exemplu de a face o interogare foarte de bază împotriva API 466 00:26:24,770 --> 00:26:29,020 și afișarea informațiilor într-o altă formează, și a nu face nimic prea fantezist. 467 00:26:29,020 --> 00:26:36,370 Acum, un alt exemplu este ca o cerere scrisă de David Weinberger 468 00:26:36,370 --> 00:26:39,120 ca un demo de acest lucru, care în esență, vă arată 469 00:26:39,120 --> 00:26:44,620 cum poti mash-up rezultatele esti obtinerea de API bibliotecă nor 470 00:26:44,620 --> 00:26:46,250 cu, să zicem, Google Books. 471 00:26:46,250 --> 00:26:52,225 >> Iar gândirea aici este că eu pot executați o interogare împotriva Google Books, 472 00:26:52,225 --> 00:26:56,060 obține o căutare de text complet, pentru a primi niște rezultate înapoi, pentru a afla care dintre aceste elemente 473 00:26:56,060 --> 00:27:01,180 exista de fapt în Hollis, sistemul de biblioteci, 474 00:27:01,180 --> 00:27:03,200 și apoi da-mi link-uri înapoi la acele elemente. 475 00:27:03,200 --> 00:27:12,730 Deci, dacă am căuta, a fost o noapte întunecată și furtunoasă, eu 476 00:27:12,730 --> 00:27:16,210 primi înapoi o grămadă de rezultate de la Google, iar apoi un rezultat 477 00:27:16,210 --> 00:27:19,460 care este o ridurilor în timp. 478 00:27:19,460 --> 00:27:29,330 Și acestea sunt link-uri către cărți care există în cadrul sistemului Harvard Library. 479 00:27:29,330 --> 00:27:32,160 >> Deci cred că punctul de aici nu este atât de mult încât aceasta poate sau nu poate 480 00:27:32,160 --> 00:27:34,118 fie modul în care doriți pentru a căuta în bibliotecă, 481 00:27:34,118 --> 00:27:38,310 dar este un complet diferit mod care nu a fost disponibil pentru tine 482 00:27:38,310 --> 00:27:42,884 înainte, ca și cum ai avea nici un fel de a face Textul integral căutări pe cărțile pe care chiar 483 00:27:42,884 --> 00:27:44,550 au fost parte din sistemul Harvard Library. 484 00:27:44,550 --> 00:27:46,870 Deci, acum aceasta este o modalitate pe care le puteți face asta. 485 00:27:46,870 --> 00:27:51,930 Și tu poți să le afișați în indiferent de format vrei. 486 00:27:51,930 --> 00:27:55,990 Deci, punctul de aici este, de fapt, ne deschide noi căi pentru oameni 487 00:27:55,990 --> 00:27:59,080 pentru a lucra cu datele. 488 00:27:59,080 --> 00:28:07,925 >> O altă piesă de nor de bibliotecă este că ajută expune o parte din date utilizare 489 00:28:07,925 --> 00:28:08,800 că biblioteca are. 490 00:28:08,800 --> 00:28:12,630 Deci, dacă te duci la bibliotecă, și căutați pentru cărți, 491 00:28:12,630 --> 00:28:15,770 tu nu neapărat de fapt, au o idee de, 492 00:28:15,770 --> 00:28:19,080 pentru toate elementele dintr-un subiect special, ceea ce 493 00:28:19,080 --> 00:28:21,200 sunt oameni în comunitate, fie că este vorba 494 00:28:21,200 --> 00:28:24,890 definit auxiliar Harvard sau țara sau clasa ta, 495 00:28:24,890 --> 00:28:26,421 Ce au găsit cele mai utile? 496 00:28:26,421 --> 00:28:28,920 Iar biblioteca are de fapt o tona de informații cu privire la ceea ce 497 00:28:28,920 --> 00:28:32,999 este cel mai util pentru că dacă o mult de persoane sunt verificarea o carte, 498 00:28:32,999 --> 00:28:34,040 care vă spune ceva. 499 00:28:34,040 --> 00:28:36,498 Trebuie să fi fost un motiv oarecare ei doresc să-l verificați. 500 00:28:36,498 --> 00:28:38,270 O mulțime de oameni pune-l pe rezervă. 501 00:28:38,270 --> 00:28:42,520 >> Dacă e pe lista de rezervă pentru un lot de clase, care vă spune ceva. 502 00:28:42,520 --> 00:28:45,960 În cazul în care membri ai facultăților îl verificare o mulțime și studenți nu sunt, 503 00:28:45,960 --> 00:28:47,200 care îmi spune ceva. 504 00:28:47,200 --> 00:28:49,280 Vice versa, care, de asemenea vă spune ceva. 505 00:28:49,280 --> 00:28:54,680 Așa că ar fi foarte interesant să pune aceste informații acolo și lasă- 506 00:28:54,680 --> 00:28:59,969 oameni l utilizați pentru a le ajuta să găsească lucrează în sistemul de biblioteci. 507 00:28:59,969 --> 00:29:02,260 Reversul este există unele intimitate grave 508 00:29:02,260 --> 00:29:07,854 preocupările pentru că una dintre principii de bază ale bibliotecii 509 00:29:07,854 --> 00:29:10,770 este că nu o să spun oameni ce alte persoane sunt citind. 510 00:29:10,770 --> 00:29:17,360 Și chiar dacă vi se spune acest Cartea a fost verificat de patru ori 511 00:29:17,360 --> 00:29:20,070 într-o anumită lună, care ar putea fi utilizate 512 00:29:20,070 --> 00:29:25,252 pentru a lega înapoi la un anumit Persoana de date de-a anonimatului 513 00:29:25,252 --> 00:29:26,710 și de a afla cine a verificat. 514 00:29:26,710 --> 00:29:30,792 Deci, modul în care putem avoid-- 515 00:29:30,792 --> 00:29:33,750 Modul în care putem încerca să extrage un semnal de la toate informațiile 516 00:29:33,750 --> 00:29:36,740 fără a încălca probleme de confidențialitate nimănui 517 00:29:36,740 --> 00:29:42,150 este, în esență, ne uităm la 10 ani de date de utilizare, - 518 00:29:42,150 --> 00:29:43,930 >> Deci, este pe o perioadă lungă de timp. 519 00:29:43,930 --> 00:29:50,639 >> --and spune, OK, hai sa vedem cum de multe ori a fost folosit acest lucru, 520 00:29:50,639 --> 00:29:52,930 și de care în această perioadă de timp, și apoi practic 521 00:29:52,930 --> 00:29:56,300 da înapoi un număr, pe care o numim un scor stivă, care, practic, 522 00:29:56,300 --> 00:29:59,910 reprezintă cât de mult a fost folosit. 523 00:29:59,910 --> 00:30:01,084 Și number-- 524 00:30:01,084 --> 00:30:03,250 O mulțime de diferite calcule du-te în acest număr. 525 00:30:03,250 --> 00:30:05,150 --but este un foarte dur metric, care vă oferă 526 00:30:05,150 --> 00:30:11,300 o idee cât de comunitate poate apreciază că munca. 527 00:30:11,300 --> 00:30:16,772 >> Și astfel un alt fel de chiar mai mult completate cerere 528 00:30:16,772 --> 00:30:18,480 că profită de acest lucru este ceva 529 00:30:18,480 --> 00:30:24,000 numita Stacklife, care este de fapt disponibil prin intermediul principal Harvard 530 00:30:24,000 --> 00:30:24,880 Portal Biblioteca. 531 00:30:24,880 --> 00:30:26,700 Deci, te duci la library.harvard.edu. 532 00:30:26,700 --> 00:30:29,360 Veți vedea un număr de diferit modalități de căutare bibliotecii. 533 00:30:29,360 --> 00:30:32,300 Și unul dintre ei se numește Stacklife. 534 00:30:32,300 --> 00:30:38,980 >> Și aceasta este o aplicație care parcurge conținutul bibliotecii, 535 00:30:38,980 --> 00:30:43,490 dar este complet construit pe partea de sus a acestor API-uri. 536 00:30:43,490 --> 00:30:46,910 Deci nu e nici chestii de construcții întâmplă în spatele scenei. 537 00:30:46,910 --> 00:30:49,570 Nu e nici acces la datele care nu aveți. 538 00:30:49,570 --> 00:30:54,090 Se utilizează API-urile pentru a vă oferi cu o navigare complet diferit 539 00:30:54,090 --> 00:30:55,480 experiență. 540 00:30:55,480 --> 00:30:58,570 >> Deci, dacă am căuta Alice în Țara Minunilor, în acest caz, 541 00:30:58,570 --> 00:31:02,600 I a lua un rezultat care arata ca aceasta, care este destul de much-- 542 00:31:02,600 --> 00:31:05,430 543 00:31:05,430 --> 00:31:10,870 >> Este foarte similar cu orice alt căutare s-ar putea face, cu excepția, în acest caz 544 00:31:10,870 --> 00:31:15,730 suntem clasament elementele de stackscore, care vă oferă 545 00:31:15,730 --> 00:31:19,850 o idee cât de popular acestea articole au fost în cadrul comunității. 546 00:31:19,850 --> 00:31:25,610 Și atât de clar, Alice in Tara Minunilor de Walt Disney este foarte popular. 547 00:31:25,610 --> 00:31:36,570 Dar puteți vedea, de asemenea, primele patru aici sunt cele ar putea să nu actually-- 548 00:31:36,570 --> 00:31:39,220 >> Lucrurile care sunt foarte utilizate, dar tu nu pot imediat 549 00:31:39,220 --> 00:31:41,240 conecta cu Alice in Tara Minunilor. 550 00:31:41,240 --> 00:31:44,650 Deci, vechiul nostru prieten Adnotată Alice este aici. 551 00:31:44,650 --> 00:31:46,350 Deci, eu pot lua o privire la ea. 552 00:31:46,350 --> 00:31:52,010 Și acum, ce caut la este de fapt un set de de-- 553 00:31:52,010 --> 00:31:53,760 Pot avea adnotat Alice chiar aici. 554 00:31:53,760 --> 00:31:56,700 Am informații despre el. 555 00:31:56,700 --> 00:32:00,230 Și am, de asemenea, un stackscore a, în acest caz, 26. 556 00:32:00,230 --> 00:32:03,169 Și asta mi-a spus tip de aproximativ cum am ajuns la această stackscore, 557 00:32:03,169 --> 00:32:05,835 ca care a verificat, ca și cum de multe ori a fost împrumutat, 558 00:32:05,835 --> 00:32:08,440 ca facultate sau undergrads, cum multe exemplare biblioteca are, 559 00:32:08,440 --> 00:32:11,300 și așa mai departe și așa mai departe. 560 00:32:11,300 --> 00:32:16,460 >> Și puteți, de asemenea, destul de interesant aici, vezi stivele practic. 561 00:32:16,460 --> 00:32:19,550 Astfel, datele de aici, aceasta dă tu un fel 562 00:32:19,550 --> 00:32:23,547 de o reprezentare virtuală a ceea ce s-ar putea raft 563 00:32:23,547 --> 00:32:25,880 arata ca dacă ar fi să luați toate exploatațiile bibliotecii 564 00:32:25,880 --> 00:32:28,940 și le-a pus împreună pe o raft infinit. 565 00:32:28,940 --> 00:32:30,990 Și lucrul frumos este ca noi can-- 566 00:32:30,990 --> 00:32:33,380 >> Mai întâi de toate, metadate despre aceste cărți 567 00:32:33,380 --> 00:32:35,627 de multe ori vă spune când a fost publicată. 568 00:32:35,627 --> 00:32:37,085 Aceasta vă spune cât de multe pagini are. 569 00:32:37,085 --> 00:32:38,459 S-ar putea să vă spun dimensiunile. 570 00:32:38,459 --> 00:32:42,930 Deci, puteți vedea care este reflectat aici în ceea ce privește dimensiunea cărților. 571 00:32:42,930 --> 00:32:46,740 >> Și apoi putem folosi stiva scor pentru a evidenția 572 00:32:46,740 --> 00:32:49,170 cărțile care au scoruri mai mari stack. 573 00:32:49,170 --> 00:32:54,930 Deci, dacă este inchisa, aceasta înseamnă că, probabil, este folosit mai des. 574 00:32:54,930 --> 00:32:57,040 Deci, în acest caz, sunt O să cred că această 575 00:32:57,040 --> 00:33:03,226 este versiunea de Alice în Țara Minunilor care este foarte frecvent utilizat și cel mai 576 00:33:03,226 --> 00:33:05,100 accesat, biblioteca are cele mai multe exemplare ale. 577 00:33:05,100 --> 00:33:06,975 Deci, dacă sunteți în căutarea pentru Alice in Tara Minunilor, 578 00:33:06,975 --> 00:33:10,220 acest lucru ar putea fi un loc bun pentru a începe. 579 00:33:10,220 --> 00:33:13,500 >> Și apoi aici puteti, de asemenea, link-afară la, să zicem, Amazon să cumpere cartea, 580 00:33:13,500 --> 00:33:15,182 și așa mai departe și așa mai departe. 581 00:33:15,182 --> 00:33:17,140 Punctul de aici, din nou, nu este atât de mult încât această 582 00:33:17,140 --> 00:33:25,030 este cel mai bun mod de a naviga pe biblioteca sau instrumentul potrivit pentru orice ocazie. 583 00:33:25,030 --> 00:33:28,400 Dar e un alt mod de a face asta. 584 00:33:28,400 --> 00:33:31,359 Și prin datele disponibil printr-un API, care 585 00:33:31,359 --> 00:33:34,650 este construita din blocuri foarte simplu de constructii, care vă permite să căutați conținut, 586 00:33:34,650 --> 00:33:39,420 puteți construi ceva ca asta, care poate 587 00:33:39,420 --> 00:33:41,520 fi extrem de valoros pentru unii oameni. 588 00:33:41,520 --> 00:33:46,640 589 00:33:46,640 --> 00:33:51,860 >> Deci asta e un fel de, la fel de mult ca doresc să spun într-adevăr despre ceea ce API este 590 00:33:51,860 --> 00:33:56,070 și ceea ce expune, există un întreg grămadă de lucruri în spatele scenei, care 591 00:33:56,070 --> 00:33:59,480 Mă duc să atinge pe scurt doar pentru că un fel de vorba la acest 592 00:33:59,480 --> 00:34:03,720 dintr-un unghi complet diferit în ceea ce privește modul în care face ceva de genul asta 593 00:34:03,720 --> 00:34:04,580 se pune în aplicare? 594 00:34:04,580 --> 00:34:10,820 >> Deci, un API este un standard de interfata la toate acest conținut. 595 00:34:10,820 --> 00:34:13,820 Dar să-l acolo, primul lucru pe care a trebuit să facem 596 00:34:13,820 --> 00:34:17,260 a fost trage împreună informații de cărți și imagini 597 00:34:17,260 --> 00:34:21,580 și ajutoarele constatare, colectarea document din diferite sisteme Harvard. 598 00:34:21,580 --> 00:34:23,929 Aleph, VIA, și OASIS sunt numele sistemelor. 599 00:34:23,929 --> 00:34:28,820 Și se duc, în esență, într-o conducte, o conductă de prelucrare. 600 00:34:28,820 --> 00:34:33,230 >> Deci, în primul rând, vom obține export fișiere de toate aceste sisteme. 601 00:34:33,230 --> 00:34:35,130 Le-am împărțit în elemente individuale. 602 00:34:35,130 --> 00:34:39,360 Deci, avem un fișier, care este un gigabyte, care are un milion de înregistrări în ea. 603 00:34:39,360 --> 00:34:42,290 Așa l-am împărțit în elemente individuale. 604 00:34:42,290 --> 00:34:45,374 Apoi, pentru fiecare element, l-am transforma în MODS, deoarece unele dintre acestea 605 00:34:45,374 --> 00:34:47,040 sunt MODS nativ, unele dintre ele nu sunt. 606 00:34:47,040 --> 00:34:49,204 Așa că le ajunge pentru să fie în același format. 607 00:34:49,204 --> 00:34:51,120 Apoi, există diverse pași de îmbogățire, în cazul în care 608 00:34:51,120 --> 00:34:55,969 vom adăuga mai multe informații la datele decât a fost la biblioteca. 609 00:34:55,969 --> 00:34:59,750 Deci, avem nevoie pentru a adăuga, în primul rând avem ceea ce biblioteci țineți-l. 610 00:34:59,750 --> 00:35:02,250 Trecem printr-o etapă de calcularea stackscore. 611 00:35:02,250 --> 00:35:07,112 Trecem printr-o altă etapă a adăugarea de mai multe metadate din punct de vedere 612 00:35:07,112 --> 00:35:10,730 de ce oameni colecții ar fi adăugat astea-- 613 00:35:10,730 --> 00:35:12,532 >> Oamenii sunt crearea Colectiile de articole. 614 00:35:12,532 --> 00:35:13,990 Ce colecții nu-l aparține? 615 00:35:13,990 --> 00:35:17,220 Cum s-au persoane au etichetat acest conținut în trecut? 616 00:35:17,220 --> 00:35:20,750 Apoi filtra, și tu restrânge înregistrările pentru că, așa cum am menționat, 617 00:35:20,750 --> 00:35:24,120 există unele înregistrări că, din cauza motive de copyright, nu putem afișa. 618 00:35:24,120 --> 00:35:26,700 Și apoi le încărcați în ceva numit 619 00:35:26,700 --> 00:35:31,680 Solr, care nu este o greseala, un dar este numele de o bucată de software 620 00:35:31,680 --> 00:35:35,710 care face căutare de indexare, care conduce toate căutare din spatele API. 621 00:35:35,710 --> 00:35:40,110 Și atunci el devine disponibil pentru API, și oamenii pot folosi. 622 00:35:40,110 --> 00:35:44,640 >> Deci, aceasta este ca un destul de proces simplu. 623 00:35:44,640 --> 00:35:47,230 Unul dintre interesante lucruri despre ea este 624 00:35:47,230 --> 00:35:50,990 că avem de-a face 13 de milioane de discuri 625 00:35:50,990 --> 00:35:53,820 și vom fi a face sau mai mult. 626 00:35:53,820 --> 00:36:01,260 Și noi vrem să fie în măsură să se ocupe de acestea într-un mod relativ rapidă. 627 00:36:01,260 --> 00:36:03,630 Este nevoie de o lungă perioadă de timp pentru procesa 13 milioane de înregistrări. 628 00:36:03,630 --> 00:36:09,529 >> Deci, cum aceasta conducta este instituit este că can-- 629 00:36:09,529 --> 00:36:12,070 Cred că profită de această conducte, problema pe care suntem 630 00:36:12,070 --> 00:36:15,580 încearcă să rezolve aici, este că toate transformările, toate 631 00:36:15,580 --> 00:36:18,729 acești pași în această conducte sunt separabile. 632 00:36:18,729 --> 00:36:19,645 Nu e nici o dependență. 633 00:36:19,645 --> 00:36:22,146 Dacă sunteți de prelucrare un record de o carte, 634 00:36:22,146 --> 00:36:24,270 nu exista nici o dependență în că între o altă carte. 635 00:36:24,270 --> 00:36:27,760 >> Deci, ce putem face este, în principiu, la fiecare pas în conducta, 636 00:36:27,760 --> 00:36:30,470 am pus într-o coadă în nor. 637 00:36:30,470 --> 00:36:32,250 I sa întâmplat să fie pe Amazon Web Services. 638 00:36:32,250 --> 00:36:35,140 Deci, există o listă de, spune, 10.000 US care 639 00:36:35,140 --> 00:36:38,100 trebuie să fie normalizată și convertite în format MODS. 640 00:36:38,100 --> 00:36:41,620 Și ne-am învârti în sus cat mai multe servere așa cum ne-am dori, poate 10 servere. 641 00:36:41,620 --> 00:36:44,860 Și fiecare dintre aceste servere doar stă acolo, arată că în coadă, 642 00:36:44,860 --> 00:36:46,730 vede că există unul care are nevoie pentru a fi prelucrate, se trage de pe coadă, 643 00:36:46,730 --> 00:36:48,740 procesează, și bastoane se pe coada următor. 644 00:36:48,740 --> 00:36:54,200 >> Și ce ne permite ca sa faci este sa aplice, în esență, 645 00:36:54,200 --> 00:36:58,110 la fel de mult ca hardware-ul vrem să această problemă pentru o perioadă foarte scurtă de timp 646 00:36:58,110 --> 00:37:02,970 pentru a procesa datele cât mai repede posibil, ceea ce este ceva care numai, 647 00:37:02,970 --> 00:37:08,220 acum în lumea de cloud computing putem servere de furnizare esență 648 00:37:08,220 --> 00:37:09,890 instantaneu, este că util. 649 00:37:09,890 --> 00:37:12,260 Deci, nu trebuie să aibă un serverul gigant ședinței în jurul valorii de 650 00:37:12,260 --> 00:37:16,700 tot timpul pentru a face prelucrarea care s-ar putea întâmpla doar o dată pe săptămână. 651 00:37:16,700 --> 00:37:21,440 >> Așa că este mai mult o. 652 00:37:21,440 --> 00:37:27,590 Există documentație disponibil pentru postul API Biblioteca Cloud 653 00:37:27,590 --> 00:37:31,960 la acest URL, care va fi disponibil mai târziu. 654 00:37:31,960 --> 00:37:36,730 Și vă rugăm să mergeți gasiti l pentru a vedea dacă există ceva, 655 00:37:36,730 --> 00:37:37,579 aveți idei. 656 00:37:37,579 --> 00:37:38,120 Joaca cu ea. 657 00:37:38,120 --> 00:37:38,830 Fool în jurul. 658 00:37:38,830 --> 00:37:42,800 Și sperăm că vă puteți veni cu ceva mare. 659 00:37:42,800 --> 00:37:44,740 Mulțumesc. 660 00:37:44,740 --> 00:37:45,899