1 00:00:00,000 --> 00:00:11,370 2 00:00:11,370 --> 00:00:12,370 JEFFREY LICHT: Hi there. 3 00:00:12,370 --> 00:00:13,550 Ik ben Jeffrey Licht. 4 00:00:13,550 --> 00:00:17,890 En ik ben hier om u te praten over de Harvard Library en de bouw van morgen 5 00:00:17,890 --> 00:00:20,870 vandaag bibliotheek, denk ik. 6 00:00:20,870 --> 00:00:23,040 Dus de achtergrond hier, de standplaats voor deze sessie 7 00:00:23,040 --> 00:00:26,930 wezen dat er veel bibliografische gegevens 8 00:00:26,930 --> 00:00:28,400 in de Harvard bibliotheken. 9 00:00:28,400 --> 00:00:33,434 En er is een kans, door enkele van de instrumenten 10 00:00:33,434 --> 00:00:36,350 en een project dat wordt ontwikkeld, de toegang tot de informatie 11 00:00:36,350 --> 00:00:42,430 en neem het mee naar plaatsen die de Harvard Library is niet nu doet, 12 00:00:42,430 --> 00:00:45,460 doe nieuwe dingen mee, experiment en spelen rond met het. 13 00:00:45,460 --> 00:00:52,413 >> Dus de toegangspoort tot dit is een API riep de Harvard Library Cloud, die 14 00:00:52,413 --> 00:00:57,650 is een open metadata-server, die ik zal spreken over nu. 15 00:00:57,650 --> 00:01:02,595 Dus de achtergrond is dat er een veel dingen in de Harvard bibliotheek. 16 00:01:02,595 --> 00:01:07,150 We hebben meer dan 13 miljoen bibliografische records, miljoenen afbeeldingen, 17 00:01:07,150 --> 00:01:11,090 en duizenden van het vinden van hulpmiddelen, die hoofdzakelijk documenten beschrijven 18 00:01:11,090 --> 00:01:15,500 collecties, zeggen wat is in hen, dozen van papers 19 00:01:15,500 --> 00:01:21,080 enzovoort, dat meer dan vertegenwoordigen een miljoen afzonderlijke documenten. 20 00:01:21,080 --> 00:01:24,290 En er is ook een heleboel informatie die de bibliotheek 21 00:01:24,290 --> 00:01:28,180 over hoe de inhoud wordt gebruikt dat van belang mensen konden 22 00:01:28,180 --> 00:01:32,400 die zou willen werken. 23 00:01:32,400 --> 00:01:36,150 >> Dus alle informatie de bibliotheek metadata. 24 00:01:36,150 --> 00:01:39,500 Dus metadata is data over data. 25 00:01:39,500 --> 00:01:42,070 Dus als we praten over de informatie die 26 00:01:42,070 --> 00:01:44,890 beschikbaar via de bibliotheek wolk die beschikbaar is, 27 00:01:44,890 --> 00:01:47,760 het is niet per se de eigenlijke documenten 28 00:01:47,760 --> 00:01:53,060 zelf geen volledig tekst van boeken of de volledige afbeeldingen, 29 00:01:53,060 --> 00:01:54,890 hoewel die daadwerkelijk het geval kan zijn. 30 00:01:54,890 --> 00:01:57,550 Maar het is echt informatie over de gegevens. 31 00:01:57,550 --> 00:02:00,909 >> Zo kunt u denken aan het catalogiseren informatie, telefoonnummers, onderwerpen, 32 00:02:00,909 --> 00:02:02,700 hoeveel exemplaren van de boek zijn er, wat 33 00:02:02,700 --> 00:02:06,380 zijn de uitgaven, wat zijn de formaten, de auteurs, enzovoort. 34 00:02:06,380 --> 00:02:12,250 Dus er is een heleboel informatie over de gegevens in de collectie, 35 00:02:12,250 --> 00:02:14,400 op zich, is een soort van inherent nuttig. 36 00:02:14,400 --> 00:02:19,230 En hoewel als je het doen van diepgaand onderzoek, 37 00:02:19,230 --> 00:02:25,160 wilt u natuurlijk de werkelijke te krijgen inhoud zelf en kijken naar de gegevens, 38 00:02:25,160 --> 00:02:30,140 de metadata is nuttig in termen van zowel analyseren corpus als geheel, 39 00:02:30,140 --> 00:02:33,870 zoals wat dingen zijn in de collectie. 40 00:02:33,870 --> 00:02:35,520 Hoe verhouden ze zich? 41 00:02:35,520 --> 00:02:39,482 Het helpt je echt andere dingen te vinden, dat is echt het belangrijkste doel van het. 42 00:02:39,482 --> 00:02:41,190 Het punt van de metadata en de catalogus 43 00:02:41,190 --> 00:02:43,230 is om u te helpen alle de informatie die 44 00:02:43,230 --> 00:02:46,590 beschikbaar zijn binnen de collecties. 45 00:02:46,590 --> 00:02:53,690 >> Dit is dus een voorbeeld van metadata voor een boek in de Harvard Library. 46 00:02:53,690 --> 00:02:56,370 Dus het is er. 47 00:02:56,370 --> 00:02:59,850 En je kunt zien dat het eigenlijk matig complex. 48 00:02:59,850 --> 00:03:04,610 En een deel van de waarde van metadata binnen de Harvard Library systeem 49 00:03:04,610 --> 00:03:09,320 is dat het soort geweest van opgebouwd door postorderbedrijven 50 00:03:09,320 --> 00:03:12,720 en gemonteerd door mensen toe te passen veel expertise en vaardigheden 51 00:03:12,720 --> 00:03:20,030 en dacht om het na verloop van tijd, die heeft veel waarde. 52 00:03:20,030 --> 00:03:25,450 >> Dus als je een kijkje nemen op deze record voor nemen De Geannoteerde Alice, kun je erachter komen 53 00:03:25,450 --> 00:03:32,590 u de titel, die het geschreven, het hebt auteur, en al de verschillende onderwerpen 54 00:03:32,590 --> 00:03:35,380 die mensen hebben het gecatalogiseerd in. 55 00:03:35,380 --> 00:03:40,110 En je kunt zien is er ook, in Naast een heleboel goede informatie 56 00:03:40,110 --> 00:03:42,852 hier, is er een aantal doublures. 57 00:03:42,852 --> 00:03:45,560 Er is een hoop complexiteit dat is weerspiegeld door de metadata 58 00:03:45,560 --> 00:03:46,300 die je hebt. 59 00:03:46,300 --> 00:03:50,320 >> Dus een titel van dit boek is De avonturen van Alice in Wonderland. 60 00:03:50,320 --> 00:03:53,880 Dus dit is een geannoteerde versie van dat boek. 61 00:03:53,880 --> 00:03:56,380 Maar het is ook wel Geannoteerde Alice, Alice's Adventures 62 00:03:56,380 --> 00:03:58,570 in Wonderland omdat het is iets wat 63 00:03:58,570 --> 00:04:00,430 Martin Gardner schreef en geannoteerde het boek. 64 00:04:00,430 --> 00:04:03,369 En er is een groot aantal mooie informatie over logische puzzels en dingen 65 00:04:03,369 --> 00:04:05,410 binnen Alice dat u waarschijnlijk nog niet wist over. 66 00:04:05,410 --> 00:04:07,000 Dus je moet gaan lezen. 67 00:04:07,000 --> 00:04:11,940 >> Maar je kunt zien dat er veel detail hier, 68 00:04:11,940 --> 00:04:15,340 met inbegrip van identificatiemiddelen, als het werd opgericht, waar het vandaan kwam, 69 00:04:15,340 --> 00:04:17,420 in termen van de Harvard systeem, enzovoort. 70 00:04:17,420 --> 00:04:20,350 Dit is dus een voorbeeld van het type metadata 71 00:04:20,350 --> 00:04:24,340 dat je zou kunnen zien voor een boek in de collectie Harvard Library. 72 00:04:24,340 --> 00:04:26,680 >> Dat is iets heel anders. 73 00:04:26,680 --> 00:04:32,610 Dus er is een systeem genaamd VIA Harvard, die fundamenteel 74 00:04:32,610 --> 00:04:39,990 wordt catalogiseren beelden en voorwerpen van kunst en visuele dingen overal in Harvard, 75 00:04:39,990 --> 00:04:44,010 en het toevoegen van enkele metadata om hen classificeren, 76 00:04:44,010 --> 00:04:49,200 en, in sommige gevallen, het verstrekken kleine miniatuurafbeeldingen 77 00:04:49,200 --> 00:04:51,250 dat u een kunt nemen kijken als u dat wenst. 78 00:04:51,250 --> 00:04:54,240 >> Dit is dus een voorbeeld van de metadata die je hebt voor een bord 79 00:04:54,240 --> 00:04:57,840 uit, vermoedelijk, Alice in Wonderland. 80 00:04:57,840 --> 00:05:00,499 En je kunt zien dat er minder metadata hier. 81 00:05:00,499 --> 00:05:02,040 Het is gewoon een ander soort object. 82 00:05:02,040 --> 00:05:03,425 En dus is er minder informatie. 83 00:05:03,425 --> 00:05:07,790 >> Heb je meestal het feit dat een gesprek nummer, wezen wie het heeft gemaakt, - 84 00:05:07,790 --> 00:05:10,410 >> We weten niet wanneer het is gemaakt. 85 00:05:10,410 --> 00:05:13,320 >> --en een titel. 86 00:05:13,320 --> 00:05:14,300 >> Een ander voorbeeld. 87 00:05:14,300 --> 00:05:16,380 Dit is een bevinding hulp. 88 00:05:16,380 --> 00:05:19,030 Dus er is een verzameling van Lewis Papers Carroll op Harvard. 89 00:05:19,030 --> 00:05:23,601 Dus dit wordt beschreven wat is in die verzameling. 90 00:05:23,601 --> 00:05:26,100 Dus iemand heeft doorgemaakt en keek door alle vakken 91 00:05:26,100 --> 00:05:32,220 en gecatalogiseerd het, gegeven wat achtergrond, schriftelijk een samenvatting van wat er is. 92 00:05:32,220 --> 00:05:35,290 En als je zou kijken verder bij deze, deze 93 00:05:35,290 --> 00:05:39,620 gaat voor pagina's en pagina en pagina's, maar zal u vertellen 94 00:05:39,620 --> 00:05:41,860 wat brieven en wat dateert van wat dozen 95 00:05:41,860 --> 00:05:44,289 bestond de hele collectie. 96 00:05:44,289 --> 00:05:46,330 Maar dit is iets dat, als je op Harvard, 97 00:05:46,330 --> 00:05:50,720 je kunt gaan en daadwerkelijk fysiek kijken en, vermoedelijk, een kijkje nemen op. 98 00:05:50,720 --> 00:05:53,440 >> Dus dit is allemaal geweldig. 99 00:05:53,440 --> 00:05:54,450 Deze metadata is nuttig. 100 00:05:54,450 --> 00:05:56,327 Het is in de Harvard Library systeem. 101 00:05:56,327 --> 00:05:58,910 Er zijn gereedschappen waar je online kan gaan en een kijkje nemen op het, 102 00:05:58,910 --> 00:05:59,993 en zie het, en zoek het. 103 00:05:59,993 --> 00:06:02,810 En je kunt het en dobbelstenen snijden het op veel verschillende manieren. 104 00:06:02,810 --> 00:06:06,920 >> Maar het is echt alleen beschikbaar als je bent een mens zitten 105 00:06:06,920 --> 00:06:12,600 op uw web browser of iets of uw telefoon en het navigeren doorheen. 106 00:06:12,600 --> 00:06:16,730 Het is niet echt beschikbaar in elke vorm van bruikbare mode 107 00:06:16,730 --> 00:06:19,520 andere systemen of andere computers te gebruiken, 108 00:06:19,520 --> 00:06:21,500 niet met systemen binnen de Harvard Library, 109 00:06:21,500 --> 00:06:24,890 maar systemen de buitenwereld, gewoon andere mensen in het algemeen. 110 00:06:24,890 --> 00:06:30,210 Dus de vraag is, hoe kunnen we beschikbaar te maken voor computers 111 00:06:30,210 --> 00:06:33,560 zodat wij interessanter kunnen doen spullen mee dan alleen 112 00:06:33,560 --> 00:06:36,550 surfen op het zelf? 113 00:06:36,550 --> 00:06:39,766 >> Dus waarom zou je dit willen doen? 114 00:06:39,766 --> 00:06:41,140 Er zijn veel mogelijkheden. 115 00:06:41,140 --> 00:06:43,980 Een daarvan is kon je helemaal het bouwen van een andere manier van browsen 116 00:06:43,980 --> 00:06:46,962 de inhoud die beschikbaar is door de Harvard bibliotheken. 117 00:06:46,962 --> 00:06:48,670 Ik zal je één laten zien later belde Stacklife, 118 00:06:48,670 --> 00:06:52,440 die een heel ander heeft nemen op zoek naar content. 119 00:06:52,440 --> 00:06:54,560 >> Je kon een aanbeveling motor te bouwen. 120 00:06:54,560 --> 00:06:57,955 Dus Harvard Library is niet in de bedrijf van te zeggen, je wilt dit boek. 121 00:06:57,955 --> 00:07:01,080 Ga dan een kijkje nemen op deze 17 andere boeken die u misschien geïnteresseerd in 122 00:07:01,080 --> 00:07:03,200 of deze 18 andere afbeeldingen. 123 00:07:03,200 --> 00:07:06,040 Maar dat kon zeker zijn een waardevolle eigenschap. 124 00:07:06,040 --> 00:07:09,272 En gezien de metadata, het kan mogelijk zijn om samen te stellen dat. 125 00:07:09,272 --> 00:07:11,980 Je zou kunnen hebben verschillende behoeften in termen van het doorzoeken van de inhoud, 126 00:07:11,980 --> 00:07:16,200 zoals misschien ondanks de hulpmiddelen die beschikbaar die de bibliotheek maakt 127 00:07:16,200 --> 00:07:18,450 beschikbaar, wilt u misschien om te zoeken op een andere manier 128 00:07:18,450 --> 00:07:21,847 of optimaliseren voor bepaalde use case, die misschien is het zeer gespecialiseerd. 129 00:07:21,847 --> 00:07:23,930 Misschien zijn er slechts een paar mensen in de wereld die 130 00:07:23,930 --> 00:07:25,846 de inhoud wilt zoeken op deze manier, maar 131 00:07:25,846 --> 00:07:28,985 zou geweldig zijn als we kon laten dat ze dat doen. 132 00:07:28,985 --> 00:07:30,860 Er is veel van analytics in hoe mensen 133 00:07:30,860 --> 00:07:33,860 gebruik maken van de inhoud die echt zou zijn interessant om te weten, te weten 134 00:07:33,860 --> 00:07:37,280 welke boeken worden gebruikt, wat niet, enzovoort. 135 00:07:37,280 --> 00:07:41,670 En dan is er nog een heleboel gelegenheid te integreren 136 00:07:41,670 --> 00:07:45,210 met andere informatie dat is die er op het web. 137 00:07:45,210 --> 00:07:46,880 Dus we have-- 138 00:07:46,880 --> 00:07:50,260 >> Bijvoorbeeld, NPR heeft een boekbespreking segment, 139 00:07:50,260 --> 00:07:53,090 waar ze interviewen auteurs over boeken. 140 00:07:53,090 --> 00:07:56,837 En zo zou het geweldig zijn als je opzoeken van een boek in de Harvard 141 00:07:56,837 --> 00:07:59,670 Bibliotheek, en je zegt, OK, er is geweest een interview met de auteur. 142 00:07:59,670 --> 00:08:00,878 Laten we een kijkje nemen op die. 143 00:08:00,878 --> 00:08:05,461 Of er is een Wikipedia-pagina, zoals een gezaghebbende, wetenschappelijke verwijzing 144 00:08:05,461 --> 00:08:07,710 over dit boek dat u Misschien wil je een kijkje op te nemen. 145 00:08:07,710 --> 00:08:12,600 >> Er zijn deze types van bronnen verspreid over het web. 146 00:08:12,600 --> 00:08:16,555 En ze samenbrengen een groot nut zou kunnen zijn 147 00:08:16,555 --> 00:08:18,930 iemand kijken naar de inhoud, op zoek naar iets. 148 00:08:18,930 --> 00:08:20,180 Maar het is ook niet de soort dingen je zou 149 00:08:20,180 --> 00:08:23,205 wil de bibliotheek verantwoordelijk te zijn voor te gaan zitten en de jacht op 150 00:08:23,205 --> 00:08:25,455 al deze verschillende bronnen en aan elkaar steken ze 151 00:08:25,455 --> 00:08:28,920 omdat ze voortdurend veranderen. 152 00:08:28,920 --> 00:08:33,570 En wat zij belangrijk vinden mei niet wat je denkt dat belangrijk is. 153 00:08:33,570 --> 00:08:36,929 >> En meer nog, eigenlijk is er een veel dingen die we nog niet aan gedacht. 154 00:08:36,929 --> 00:08:42,222 Dus als we dit kunnen openstellen, meer mensen naast een half dozijn of zo, 155 00:08:42,222 --> 00:08:45,174 die op zoek zijn naar deze op een regelmatige basis kan bedenken ideeën 156 00:08:45,174 --> 00:08:47,340 en masseer de gegevens, en doen wat ze willen met het. 157 00:08:47,340 --> 00:08:49,920 158 00:08:49,920 --> 00:08:54,045 >> Dus we willen dit doen gegevens beschikbaar zijn voor de wereld. 159 00:08:54,045 --> 00:08:55,670 Nou, er zijn een paar complicaties. 160 00:08:55,670 --> 00:08:58,540 Een daarvan is dat deze metadata in verschillende systemen. 161 00:08:58,540 --> 00:09:01,110 Het is in verschillende formaten. 162 00:09:01,110 --> 00:09:04,719 Dus er is wat normalisering dat moet gebeuren, 163 00:09:04,719 --> 00:09:08,010 waarin normalisatie wordt de werkwijze dingen brengen van verschillende formaten 164 00:09:08,010 --> 00:09:12,940 en in kaart te brengen om één format zodat de velden zullen overeenkomen. 165 00:09:12,940 --> 00:09:15,160 >> Er zijn een aantal beperkingen van het auteursrecht. 166 00:09:15,160 --> 00:09:21,010 Vreemd genoeg, de titelbeschrijving over een boek is aansprakelijk voor het auteursrecht. 167 00:09:21,010 --> 00:09:24,060 Dus ook al is het gewoon informatie afkomstig uit het boek, 168 00:09:24,060 --> 00:09:25,330 het auteursrecht. 169 00:09:25,330 --> 00:09:28,400 En afhankelijk van wie daadwerkelijk geschapen dat metadata, 170 00:09:28,400 --> 00:09:32,175 Er kunnen beperkingen op die zijn mag het verspreiden, vergelijkbaar to-- 171 00:09:32,175 --> 00:09:33,402 >> Ik weet het niet. 172 00:09:33,402 --> 00:09:36,110 Het kan al dan niet vergelijkbaar zijn de situatie van de songteksten, 173 00:09:36,110 --> 00:09:36,610 bijvoorbeeld. 174 00:09:36,610 --> 00:09:38,560 Dus we weten allemaal hoe dat uitpakt. 175 00:09:38,560 --> 00:09:40,450 Dus je moet rond dat probleem te krijgen. 176 00:09:40,450 --> 00:09:44,910 >> En dan nog een stuk is dat er een grote hoeveelheid gegevens. 177 00:09:44,910 --> 00:09:52,420 Dus als ik ben iemand die wil werken met de gegevens of heeft een cool idee, 178 00:09:52,420 --> 00:09:55,350 omgaan met 14 miljoen platen op mijn laptop 179 00:09:55,350 --> 00:09:57,487 problematisch kan zijn en moeilijk te beheren. 180 00:09:57,487 --> 00:09:59,320 Dus we willen verminderen de barrières voor mensen 181 00:09:59,320 --> 00:10:02,130 om te kunnen werken met de data. 182 00:10:02,130 --> 00:10:07,880 >> Dus de aanpak die hopelijk adressen al deze zorgen twee delen. 183 00:10:07,880 --> 00:10:11,770 Een daarvan is het bouwen van een platform dat neemt van alle in verschillende bronnen 184 00:10:11,770 --> 00:10:14,350 en verergert het, normaliseert, verrijkt, en merken 185 00:10:14,350 --> 00:10:16,650 het beschikbaar stellen in een enkele locatie. 186 00:10:16,650 --> 00:10:20,950 En het is beschikbaar via maakt een publieke API dat mensen kunnen bellen. 187 00:10:20,950 --> 00:10:24,430 >> Dus een API is een Application Programming Interface. 188 00:10:24,430 --> 00:10:28,930 En principe verwijst naar een eindpunt dat een systeem of technologie 189 00:10:28,930 --> 00:10:31,720 kan bellen en data terug in een gestructureerd op een manier 190 00:10:31,720 --> 00:10:32,900 dat kan worden gebruikt. 191 00:10:32,900 --> 00:10:36,060 Dus het is niet afhankelijk bij het gaan naar een website 192 00:10:36,060 --> 00:10:37,970 en schrapen gegevens uit ervan, bijvoorbeeld. 193 00:10:37,970 --> 00:10:40,690 194 00:10:40,690 --> 00:10:45,010 >> Dus dit is de homepage van de Bibliotheek Cloud Item API, 195 00:10:45,010 --> 00:10:47,220 die in wezen is de versie twee. 196 00:10:47,220 --> 00:10:50,130 Dus het is de tweede iteratie van proberen om al deze gegevens te maken 197 00:10:50,130 --> 00:10:53,280 naar de wereld. 198 00:10:53,280 --> 00:10:59,560 Dus het is http://api.lib.harvard.edu/v2/items. 199 00:10:59,560 --> 00:11:03,830 En alleen maar om deze af te breken een beetje, wat dit betekent 200 00:11:03,830 --> 00:11:06,115 is dat dit tweede versie van de API. 201 00:11:06,115 --> 00:11:08,490 Er is een versie van één, die Ik ben niet van plan om over te praten. 202 00:11:08,490 --> 00:11:09,750 Er is een versie one. 203 00:11:09,750 --> 00:11:14,740 >> En als je deze belt API, krijg je punten. 204 00:11:14,740 --> 00:11:20,640 En deel van het idee van een API is een API is een contract. 205 00:11:20,640 --> 00:11:23,440 Het is iets dat is niet gaat veranderen. 206 00:11:23,440 --> 00:11:24,850 Dus bijvoorbeeld, - 207 00:11:24,850 --> 00:11:27,410 >> De reden is dat als ik bouwen van een soort systeem dat 208 00:11:27,410 --> 00:11:33,210 gaat om een ​​bibliotheek cloud-API gebruiken om boeken te geven of mensen te helpen vinden 209 00:11:33,210 --> 00:11:36,190 informatie op een unieke manier, wat we niet willen dat er gebeurt 210 00:11:36,190 --> 00:11:38,940 is voor ons om te gaan veranderen hoe dat API werkt, en plotseling 211 00:11:38,940 --> 00:11:41,340 alles breekt op de eindgebruiker kant. 212 00:11:41,340 --> 00:11:46,710 Dus een deel van als je het maken API ter beschikking van de wereld, het is 213 00:11:46,710 --> 00:11:49,396 goede gewoonte om een ​​zet versienummer in het dus mensen 214 00:11:49,396 --> 00:11:51,020 weten welke versie ze te maken hebben. 215 00:11:51,020 --> 00:11:54,300 >> Dus als we besluiten we een betere manier van het maken van deze informatie beschikbaar is, 216 00:11:54,300 --> 00:11:57,295 we kunnen veranderen dat aan noemen die versie drie. 217 00:11:57,295 --> 00:11:59,920 Dus iedereen die nog steeds met behulp van versie twee, dat zal nog steeds werken. 218 00:11:59,920 --> 00:12:03,490 Maar de derde versie zou hebben alle nieuwe dingen. 219 00:12:03,490 --> 00:12:06,680 220 00:12:06,680 --> 00:12:09,210 >> Dus dit is een API voor dit echt ziet eruit als een URL. 221 00:12:09,210 --> 00:12:11,680 En ja, wat is dit een voorbeeld van is wat is 222 00:12:11,680 --> 00:12:16,615 genoemd rust API beschikbare meer dan gewoon een normale web-verbinding. 223 00:12:16,615 --> 00:12:19,680 En je kan eigenlijk gaan in een browser. 224 00:12:19,680 --> 00:12:28,550 >> Dus hier heb ik net geopend Firefox en gegaan naar api.lib.harvard.edu/v2/items. 225 00:12:28,550 --> 00:12:31,560 En dus wat ik krijg hier is in feite de eerste pagina 226 00:12:31,560 --> 00:12:34,740 van de resultaten van de gehele set van items die we hebben. 227 00:12:34,740 --> 00:12:37,460 En het is hier in XML-formaat. 228 00:12:37,460 --> 00:12:40,130 229 00:12:40,130 --> 00:12:42,210 En het is ook geweest prettified door Firefox. 230 00:12:42,210 --> 00:12:45,850 Het is eigenlijk al deze hebben weinig uitzetten en samentrekken 231 00:12:45,850 --> 00:12:47,880 puntenslijpertjes hier. 232 00:12:47,880 --> 00:12:52,520 Dit is een soort van een mooiere versie manier om ernaar te kijken. 233 00:12:52,520 --> 00:12:57,040 >> Maar wat dit is ons te vertellen is Ik heb gevraagd alle items. 234 00:12:57,040 --> 00:13:03,120 Dus er zijn 13.289.475 items. 235 00:13:03,120 --> 00:13:06,150 En ik ben op zoek naar de eerste 10, beginnend op positie nul 236 00:13:06,150 --> 00:13:09,760 omdat in de informatica We beginnen altijd op nul. 237 00:13:09,760 --> 00:13:15,150 En wat ik hier heb, als ik gewoon instorten dit, zie je ik heb 10 items. 238 00:13:15,150 --> 00:13:20,410 239 00:13:20,410 --> 00:13:25,210 >> En als ik een kijkje nemen op een item, kan ik zien dat ik informatie over het hebt. 240 00:13:25,210 --> 00:13:27,400 En dit is in wat heet MODS vorm. 241 00:13:27,400 --> 00:13:30,860 En dus ik ga om te schakelen hier terug voor een moment. 242 00:13:30,860 --> 00:13:33,750 OK. 243 00:13:33,750 --> 00:13:37,447 >> Dus laten we zoeken naar iets in specifieke omdat het eerste item dat 244 00:13:37,447 --> 00:13:40,030 gebeurt op de proppen komen als je kijkt door de gehele collectie 245 00:13:40,030 --> 00:13:41,750 is, per definitie, willekeurig. 246 00:13:41,750 --> 00:13:44,550 Dus laten we eens kijken naar een aantal donuts. 247 00:13:44,550 --> 00:13:46,830 Oh. 248 00:13:46,830 --> 00:13:49,190 >> OK. 249 00:13:49,190 --> 00:13:49,940 Zo donuts. 250 00:13:49,940 --> 00:13:55,360 Dus vonden we zijn er 80 items in de collectie die donuts verwijzen. 251 00:13:55,360 --> 00:13:57,150 We kijken naar de eerste 10 van hen. 252 00:13:57,150 --> 00:14:01,890 Nu, kunt u hier zien de manier waarop Ik zei dat ik ben op zoek naar donuts, 253 00:14:01,890 --> 00:14:04,400 Ik gewoon iets om toegevoegd de query string van de URL. 254 00:14:04,400 --> 00:14:09,680 Dus q gelijk aan donuts, die u kunt zien een beetje meer hier. 255 00:14:09,680 --> 00:14:12,131 >> En dit betekent in feite dat er een specificatie voor de API, die 256 00:14:12,131 --> 00:14:13,880 bepaalt wat al deze parameters betekenen. 257 00:14:13,880 --> 00:14:17,150 En dit betekent dat we gaan zoeken alles voor donuts. 258 00:14:17,150 --> 00:14:24,910 >> Dus het eerste item hier hebben we je kunt zien dat de titel is Donuts, 259 00:14:24,910 --> 00:14:29,310 Er is een ondertitel genoemd Amerikaanse passie, dat is, denk ik, 260 00:14:29,310 --> 00:14:31,610 geschikt. 261 00:14:31,610 --> 00:14:36,134 Er zijn een heleboel different-- 262 00:14:36,134 --> 00:14:38,050 Als je eenmaal op het punt het krijgen van de gegevens, 263 00:14:38,050 --> 00:14:41,020 er zijn een heleboel verschillende formats dat je het kunt krijgen in. 264 00:14:41,020 --> 00:14:44,050 En er zijn verschillende sterktes en zwakke punten voor hen allen. 265 00:14:44,050 --> 00:14:49,000 Dus dit kunt u zien Hier, deze vorm is zeer rijk. 266 00:14:49,000 --> 00:14:51,946 En het is gestandaardiseerd. 267 00:14:51,946 --> 00:14:55,040 >> Dus er is een specifieke titel veld, een veld ondertitel. 268 00:14:55,040 --> 00:14:58,950 Er is een alternatieve titel, Een Amerikaanse Passion. 269 00:14:58,950 --> 00:15:01,650 Er is de naam die ermee verbonden zijn. 270 00:15:01,650 --> 00:15:03,120 Het type van de bron is tekst. 271 00:15:03,120 --> 00:15:06,070 Er is een heleboel informatie hier in dit formaat. 272 00:15:06,070 --> 00:15:09,480 >> Maar er zijn een heleboel van verschillende formaten. 273 00:15:09,480 --> 00:15:11,920 Dus wat we waren gewoon kijken naar een format 274 00:15:11,920 --> 00:15:17,700 genaamd MODS, wat staat voor Metadata Object Beschrijving Dienst, 275 00:15:17,700 --> 00:15:18,250 potentieel. 276 00:15:18,250 --> 00:15:23,030 Ik ben eigenlijk niet helemaal zeker over de S. Maar het is een vrij complexe opmaak. 277 00:15:23,030 --> 00:15:24,240 Het is het standaard formaat. 278 00:15:24,240 --> 00:15:30,260 >> Maar het is degene die houdt de rijkdom van alle gegevens 279 00:15:30,260 --> 00:15:33,820 dat de bibliotheek heeft, omdat het is heel dicht bij wat 280 00:15:33,820 --> 00:15:35,110 de bibliotheek intern gebruikt. 281 00:15:35,110 --> 00:15:39,030 Het is een standaard die is gebruikt in het hele land, 282 00:15:39,030 --> 00:15:40,944 over de hele wereld in wetenschappelijke bibliotheken. 283 00:15:40,944 --> 00:15:42,110 En het is heel interoperabel. 284 00:15:42,110 --> 00:15:44,852 Dus als je een document hebt die in MODS formaat, 285 00:15:44,852 --> 00:15:47,560 je kunt geven dat aan iemand anders waarvan de systemen te begrijpen MODS, 286 00:15:47,560 --> 00:15:48,518 en ze kunnen importeren. 287 00:15:48,518 --> 00:15:50,840 Dus het is een standaard. 288 00:15:50,840 --> 00:15:54,250 Het is zeer goed gedefinieerd, zeer specifiek. 289 00:15:54,250 --> 00:15:58,980 En dat is wat maakt het interoperabele want als iemand zegt, 290 00:15:58,980 --> 00:16:04,930 Dit is de alternatieve titel van een record, iedereen weet wat dat betekent. 291 00:16:04,930 --> 00:16:07,740 Aan de andere kant, het is erg ingewikkeld. 292 00:16:07,740 --> 00:16:13,160 >> Dus als je een kijkje nemen op hier dit record, 293 00:16:13,160 --> 00:16:15,320 als ik wil gewoon het krijgen titel van dit document, 294 00:16:15,320 --> 00:16:21,150 van dit boek, dat is waarschijnlijk Donuts, Een Amerikaanse Passion, het ontleden van het uit 295 00:16:21,150 --> 00:16:22,940 is een beetje betrokken. 296 00:16:22,940 --> 00:16:27,380 Overwegende dat er een andere formaat genaamd Dublin Core, 297 00:16:27,380 --> 00:16:29,730 wat een veel, veel eenvoudiger formaat. 298 00:16:29,730 --> 00:16:33,764 >> En zo zie je hier, er is geen titel, ondertitel, alternatieve titel. 299 00:16:33,764 --> 00:16:35,930 Er is gewoon de titel, Donuts, An American Passion, 300 00:16:35,930 --> 00:16:38,780 en een andere titel, American Passion. 301 00:16:38,780 --> 00:16:42,907 Dus als u op zoek bent naar wat vorm u wilt de gegevens uit, 302 00:16:42,907 --> 00:16:44,740 veel hangt af van hoe je gaat om het te gebruiken. 303 00:16:44,740 --> 00:16:46,573 Gebruikt u voor interoperabiliteit of heb je 304 00:16:46,573 --> 00:16:49,970 willen iets eenvoudig dat misschien makkelijker om mee te werken? 305 00:16:49,970 --> 00:16:56,002 >> Aan de andere kant, een groot deel van de details te krijgen soort gepropt zitten. 306 00:16:56,002 --> 00:16:58,460 Je zou de nuances van verliezen wat een bepaald gebied middel 307 00:16:58,460 --> 00:17:02,960 als je te maken hebt met Dublin Core, die je niet zou krijgen met MODS. 308 00:17:02,960 --> 00:17:06,462 Dus dat zijn twee van de formaten je kunt krijgen van de API. 309 00:17:06,462 --> 00:17:08,920 En eigenlijk, we houden het achter de schermen in MODS. 310 00:17:08,920 --> 00:17:14,179 Maar we kunnen je het in MODS en Dublin Core en iets anders ook. 311 00:17:14,179 --> 00:17:16,470 De andere overweging bij u op zoek bent in de data 312 00:17:16,470 --> 00:17:21,210 is dat je kunt krijgen als ofwel JSON, die staat voor JavaScript Object Notation, 313 00:17:21,210 --> 00:17:24,720 of XML, wat staat voor Extensible Markup Language. 314 00:17:24,720 --> 00:17:30,080 En deze data representaties zowel precies dezelfde gegevens precies 315 00:17:30,080 --> 00:17:31,080 dezelfde velden. 316 00:17:31,080 --> 00:17:33,644 Maar ze zijn gewoon syntactisch verschillend. 317 00:17:33,644 --> 00:17:40,401 >> Dus dit is a-- 318 00:17:40,401 --> 00:17:41,400 Nou, laten we gewoon schakelen. 319 00:17:41,400 --> 00:17:47,490 Dus dit is onze vraag voor donuts in XML-formaat. 320 00:17:47,490 --> 00:17:53,470 Als ik gewoon overschakelen dit om JSON te zijn, Ik kan zien ziet het er anders uit. 321 00:17:53,470 --> 00:17:58,580 Nu is dezelfde inhoud, maar een andere structuur. 322 00:17:58,580 --> 00:18:00,080 Er zijn minder punthaken. 323 00:18:00,080 --> 00:18:02,530 Er is minder breedsprakig. 324 00:18:02,530 --> 00:18:06,440 >> En dit is een formaat dat, als je werkzaam zijn in de web-omgeving, 325 00:18:06,440 --> 00:18:09,680 je bent het meest waarschijnlijk zal willen gebruiken omdat een 326 00:18:09,680 --> 00:18:12,630 van de leuke dingen over JSON is het is compatibel met JavaScript. 327 00:18:12,630 --> 00:18:17,680 Dus als ik aan het schrijven ben web app, kan ik trek in JSON en gewoon werken met het direct. 328 00:18:17,680 --> 00:18:20,187 Overwegende dat met XML, het is een beetje meer ingewikkeld. 329 00:18:20,187 --> 00:18:21,520 Dus nogmaals, deze zijn beide nuttig. 330 00:18:21,520 --> 00:18:26,387 Ze zijn gewoon verschillende use cases waar mensen zou willen om ze te gebruiken. 331 00:18:26,387 --> 00:18:26,886 OK. 332 00:18:26,886 --> 00:18:29,810 333 00:18:29,810 --> 00:18:31,680 Dus terug naar de API. 334 00:18:31,680 --> 00:18:32,900 Dus we kunnen zoeken voor-- 335 00:18:32,900 --> 00:18:36,220 >> Ik geef een voorbeeld van op zoek naar donuts. 336 00:18:36,220 --> 00:18:39,330 We kunnen ook zoeken alleen in een specifieke gebied binnen hier. 337 00:18:39,330 --> 00:18:41,310 Dus in plaats van het zoeken het hele record, 338 00:18:41,310 --> 00:18:43,870 Ik kan gewoon zoeken op het veld titel. 339 00:18:43,870 --> 00:18:48,810 En nu zijn er 25 dingen die hebben donuts in de titel, waarvan één 340 00:18:48,810 --> 00:18:52,430 is over het herstellen wetlands in het management 341 00:18:52,430 --> 00:18:54,990 van het gat in de donut programma, dat is waarschijnlijk 342 00:18:54,990 --> 00:18:58,970 niet per se wat we zoeken voor als we op zoek naar donuts. 343 00:18:58,970 --> 00:19:02,790 344 00:19:02,790 --> 00:19:05,490 >> U kunt ook, als je te maken met een API-- 345 00:19:05,490 --> 00:19:08,827 >> Een deel van het hebben een API geeft mensen toegang tot grote datasets. 346 00:19:08,827 --> 00:19:11,410 En er zijn een paar verschillende tools die u kunt gebruiken om dat te doen. 347 00:19:11,410 --> 00:19:14,170 Een daarvan is, heel eenvoudig, u kunt door de gegevens. 348 00:19:14,170 --> 00:19:17,340 Dus net alsof je een query doen via een webinterface, 349 00:19:17,340 --> 00:19:19,470 U kunt kijken naar de eerste pagina, pagina twee, pagina drie. 350 00:19:19,470 --> 00:19:22,040 U kunt hetzelfde doen ding via de API. 351 00:19:22,040 --> 00:19:24,150 Je hoeft alleen maar te zijn expliciet in hoe je het doet. 352 00:19:24,150 --> 00:19:29,511 >> Dus bijvoorbeeld, als ik ben op zoek op hier mijn eerste vraag, 353 00:19:29,511 --> 00:19:32,510 waar ik ben bezig met een zoektocht naar de dingen met donuts in de titel, kan ik zeggen, 354 00:19:32,510 --> 00:19:35,415 en beperken gelijk 20, waardoor geef mij de eerste 20 records, niet 355 00:19:35,415 --> 00:19:38,540 de eerste 10, de standaard, omdat ik wil kijken naar 20 per keer. 356 00:19:38,540 --> 00:19:43,435 Of ik kan zeggen, zet de beginnen gelijk aan 20 en beperken 357 00:19:43,435 --> 00:19:47,150 gelijk 20, die geeft mij registreert 21 tot en met 40. 358 00:19:47,150 --> 00:19:52,680 >> Dus ik denk dat het ding om hier weg te nemen is 359 00:19:52,680 --> 00:19:57,290 dat we met behulp van de query strings parameters op de vraag stellen. 360 00:19:57,290 --> 00:20:02,760 En het laat je de controle wat je krijgt terug. 361 00:20:02,760 --> 00:20:05,980 >> Een andere tool die je kunt gebruiken, - 362 00:20:05,980 --> 00:20:09,250 >> En dit is echt nuttig in termen van het verkennen van de gegevens. 363 00:20:09,250 --> 00:20:10,840 >> --is iets genaamd facetten. 364 00:20:10,840 --> 00:20:15,530 Dus de term faceting is niet noodzakelijkerwijs algemeen. 365 00:20:15,530 --> 00:20:16,880 Maar je hebt al eerder gezien. 366 00:20:16,880 --> 00:20:18,630 Als u een kijkje nemen op Amazon bijvoorbeeld 367 00:20:18,630 --> 00:20:20,870 en je een zoektocht naar doen donuts in de boeken, 368 00:20:20,870 --> 00:20:27,080 hier ze hebben een reeks van boeken, en ze zijn gegroepeerd per categorie, 369 00:20:27,080 --> 00:20:30,470 en krijg je de verschillende categorieën, en hoeveel boeken in elke categorie 370 00:20:30,470 --> 00:20:31,330 opdagen. 371 00:20:31,330 --> 00:20:33,420 >> Dus dit is eigenlijk een facet. 372 00:20:33,420 --> 00:20:37,570 Je neemt al hun boeken, de 1800 boeken die overeenkomen donuts bij Amazon. 373 00:20:37,570 --> 00:20:39,820 12 van hen zijn in de ontbijt categorie. 374 00:20:39,820 --> 00:20:43,100 21 in gebak en bakken, en zo verder en zo voort. 375 00:20:43,100 --> 00:20:47,670 >> Dus dit is echt een nuttig hulpmiddel voor het verkennen van de inhoud 376 00:20:47,670 --> 00:20:53,260 binnen de bibliotheek ook want als je kijkt naar een facet, 377 00:20:53,260 --> 00:20:56,520 het geeft je een idee van welke onderwerpen bestaat, zoals wat typen onderwerpen 378 00:20:56,520 --> 00:20:58,510 zijn het meest populair binnen uw vraag te stellen. 379 00:20:58,510 --> 00:21:00,950 En het helpt je wegrijden en te verkennen. 380 00:21:00,950 --> 00:21:02,770 Dus we kunnen hetzelfde doen. 381 00:21:02,770 --> 00:21:05,940 >> Als we willen het gebruiken API en kijk naar facetten, 382 00:21:05,940 --> 00:21:08,950 voegen we een andere parameter aan onze vriend de query string. 383 00:21:08,950 --> 00:21:12,540 Dus facetten komt overeen met een door komma's gescheiden lijst van wat we willen facet op. 384 00:21:12,540 --> 00:21:14,790 Dus een van de facetten kunnen worden onderworpen. 385 00:21:14,790 --> 00:21:16,565 Een ander zou kunnen zijn taal. 386 00:21:16,565 --> 00:21:19,665 En dus als we lopen dat query, we get-- 387 00:21:19,665 --> 00:21:23,372 388 00:21:23,372 --> 00:21:24,830 Het ziet er vrijwel hetzelfde hier. 389 00:21:24,830 --> 00:21:29,010 Maar we hebben toegevoegd aan het einde van de lijst een reeks facetten. 390 00:21:29,010 --> 00:21:34,060 Dus we hebben een facet genoemd onderwerp. 391 00:21:34,060 --> 00:21:40,250 Dus dit is ons te vertellen dat als ik kijk bij mijn 80 resultaten van de donut query, 392 00:21:40,250 --> 00:21:42,100 13 van hen hebben de onderwerpen Verenigde Staten. 393 00:21:42,100 --> 00:21:43,684 Drie hebben het onderwerp donuts. 394 00:21:43,684 --> 00:21:45,600 Drie hebben het onderwerp van herstel van wetlands, 395 00:21:45,600 --> 00:21:47,720 die onze gat in de donut kunnen zijn. 396 00:21:47,720 --> 00:21:51,780 Twee van hen, de Simpsons, en zo verder en zo voort. 397 00:21:51,780 --> 00:21:59,211 >> Dus dit kan handig zijn als u zijn wilt uw zoekopdracht. 398 00:21:59,211 --> 00:22:00,210 Het kan u helpen dat te doen. 399 00:22:00,210 --> 00:22:03,580 Vooral als je meer dan, zeg, 80 resultaten. 400 00:22:03,580 --> 00:22:05,980 >> Op dezelfde wij ook gevraagd voor facetten van de taal. 401 00:22:05,980 --> 00:22:14,790 Dus als we kijken naar onze resultaten zien we 76 van hen zijn in het Engels, vier in het Frans, 402 00:22:14,790 --> 00:22:19,620 twee in het Spaans, twee, ik denk dat dat undefined of onbekende, het Nederlands en het Latijn. 403 00:22:19,620 --> 00:22:22,830 Dus ik denk dat de Latijnse donut resultaat weer, 404 00:22:22,830 --> 00:22:24,922 heeft niets te maken met gebakken goederen. 405 00:22:24,922 --> 00:22:25,630 Maar daar ga je. 406 00:22:25,630 --> 00:22:31,420 407 00:22:31,420 --> 00:22:38,630 >> Dus dit is een soort van het tonen van je hoe je kunt de inhoud terug te trekken 408 00:22:38,630 --> 00:22:41,270 van de API alleen via webbrowser, wat geweldig is. 409 00:22:41,270 --> 00:22:44,320 Maar het is niet echt wat je zou doen normaal gebruik API voor. 410 00:22:44,320 --> 00:22:48,710 Dus een voorbeeld van hoe u kon eigenlijk doen is ik heb 411 00:22:48,710 --> 00:22:54,720 schriftelijk een super klein programma, die, nogmaals, doet mijn donut zoekopdracht 412 00:22:54,720 --> 00:22:59,010 en selecteert een paar velden en geeft deze weer in een tabel. 413 00:22:59,010 --> 00:23:01,610 Dus dit is zeer de dezelfde inhoud dat we net 414 00:23:01,610 --> 00:23:04,830 zaag met een paar velden uitgetrokken. 415 00:23:04,830 --> 00:23:12,090 Dus lijst met titels, de plaats van wat het boek 416 00:23:12,090 --> 00:23:15,120 is over, de taal, en zo verder en zo voort. 417 00:23:15,120 --> 00:23:20,480 >> Dus hoe dit ook daadwerkelijk gebeurd is, omdat Ik denk dat we moeten kijken naar wat code, 418 00:23:20,480 --> 00:23:22,420 is-- 419 00:23:22,420 --> 00:23:28,060 >> Wat we hier hebben is een eenvoudige HTML pagina, die de tekst weergeeft, 420 00:23:28,060 --> 00:23:32,900 van harte welkom in de bibliotheek cloud en toont dan een tabel van de resultaten. 421 00:23:32,900 --> 00:23:37,790 Er zijn natuurlijk geen resultaten de tafel wanneer de pagina wordt geladen. 422 00:23:37,790 --> 00:23:41,380 Maar wat we doen is allereerst, we 423 00:23:41,380 --> 00:23:46,290 het laden van een bibliotheek genaamd jQuery, die in feite 424 00:23:46,290 --> 00:23:52,030 een JavaScript-bibliotheek, die het maakt zeer gemakkelijk te manipuleren JavaScript 425 00:23:52,030 --> 00:23:58,780 native, HTML, en het creëren van webpagina's, client-side logica en webpagina's. 426 00:23:58,780 --> 00:24:01,595 >> Dus wat we hier hebben is jQuery heeft een methode genaamd Get, 427 00:24:01,595 --> 00:24:05,270 die in wezen gaat naar een URL, die in dit geval, 428 00:24:05,270 --> 00:24:09,070 is dit bekend op zoek URL. 429 00:24:09,070 --> 00:24:14,440 En krijgt dan de inhoud van dat URL en voer vervolgens een functie op. 430 00:24:14,440 --> 00:24:19,240 Dus zeiden we gaan naar api.lib.harvard / edu. 431 00:24:19,240 --> 00:24:20,060 Zoeken naar donuts. 432 00:24:20,060 --> 00:24:21,300 Geef ons 20 platen. 433 00:24:21,300 --> 00:24:28,590 En dan is deze functie, lopen die Ik heb gekozen, het doorgeven van de gegevens. 434 00:24:28,590 --> 00:24:34,430 En de gegevens is de JSON dat kreeg terug van de API. 435 00:24:34,430 --> 00:24:40,120 >> En dan zijn we zeggen, binnen die data is er een veld genaamd punt. 436 00:24:40,120 --> 00:24:48,117 En als ik ga een kijkje nemen terug op één van deze resultaten die hier, 437 00:24:48,117 --> 00:24:49,200 er is iets called-- 438 00:24:49,200 --> 00:24:50,220 >> Nou ja, het heet voorwerp. 439 00:24:50,220 --> 00:24:53,520 Opdat kan zijn dat. 440 00:24:53,520 --> 00:25:01,840 En wat het doet is het gaat door elk item 441 00:25:01,840 --> 00:25:05,300 en roept dan nog functie op elk item. 442 00:25:05,300 --> 00:25:08,440 En die functie in principe neemt de waarde 443 00:25:08,440 --> 00:25:12,010 van het item, dat is wezen in het persoonlijk dossier 444 00:25:12,010 --> 00:25:18,220 en laat ons toe te trekken uit de titel, de dekking en de taal. 445 00:25:18,220 --> 00:25:21,640 >> Dus een functie op elke noemen we item dat wij terug van de API kreeg. 446 00:25:21,640 --> 00:25:25,397 En als je gewoon een kijkje nemen op dit stuk hier, 447 00:25:25,397 --> 00:25:27,230 wat we doen is we zijn het creëren van een string, 448 00:25:27,230 --> 00:25:31,810 die in wezen is wat HTML-opmaak rond een tafel, met value.title, 449 00:25:31,810 --> 00:25:35,790 dat is de titel van het voorwerp, value.coverage, 450 00:25:35,790 --> 00:25:36,790 dat de dekking, - 451 00:25:36,790 --> 00:25:38,225 >> En we doen een cheque hier om te zien wie undefined 452 00:25:38,225 --> 00:25:40,570 en het verbergen van het als het undefined zegt, omdat we niet echt geïnteresseerd 453 00:25:40,570 --> 00:25:41,600 in dat. 454 00:25:41,600 --> 00:25:42,939 >> --en dan is de taal. 455 00:25:42,939 --> 00:25:44,730 En wat zijn we doen is het toevoegen van dat 456 00:25:44,730 --> 00:25:48,510 om de tafel, die die door deze string in. 457 00:25:48,510 --> 00:25:50,790 En hoe jQuery werkt is wat dit zegt 458 00:25:50,790 --> 00:25:56,420 is op zoek naar de tafel met idee resultaten en voeg deze tekst aan het. 459 00:25:56,420 --> 00:25:59,380 En dit is de tafel met idee resultaten. 460 00:25:59,380 --> 00:26:04,998 Dus wat je uiteindelijk met is deze pagina hier. 461 00:26:04,998 --> 00:26:06,206 En om source-- bekijken 462 00:26:06,206 --> 00:26:11,310 463 00:26:11,310 --> 00:26:13,810 Nou, de bron is niet echt bijgewerkt wanneer dat gebeurde. 464 00:26:13,810 --> 00:26:18,740 Zodat u kunt zien de werkelijke resultaten van de tabel hier wel. 465 00:26:18,740 --> 00:26:24,770 >> Dus dat is gewoon een simpel voorbeeld van het doen van een zeer fundamentele vraag tegen de API 466 00:26:24,770 --> 00:26:29,020 en weergeven van informatie op een andere vormen, en niets te fancy doen. 467 00:26:29,020 --> 00:26:36,370 Nu, een ander voorbeeld is als een applicatie geschreven door David Weinberger 468 00:26:36,370 --> 00:26:39,120 als een demo van deze, die laat je in wezen 469 00:26:39,120 --> 00:26:44,620 hoe je kunt mash up van de resultaten die je bent krijgen uit de bibliotheek cloud API 470 00:26:44,620 --> 00:26:46,250 met, zeg, Google Books. 471 00:26:46,250 --> 00:26:52,225 >> En het denken hier is dat ik kan een query tegen Google Books, 472 00:26:52,225 --> 00:26:56,060 krijgt een full text search, nog wat resultaten terug, erachter te komen welke van deze items 473 00:26:56,060 --> 00:27:01,180 werkelijk bestaan ​​in Hollis, het bibliotheeksysteem, 474 00:27:01,180 --> 00:27:03,200 en dan geef me koppelingen terug naar die artikelen. 475 00:27:03,200 --> 00:27:12,730 Dus als ik zoek naar, het was een donkere en stormachtige nacht, ik 476 00:27:12,730 --> 00:27:16,210 terug te krijgen een heleboel resultaten van Google, en dan is een resultaat 477 00:27:16,210 --> 00:27:19,460 dat is een rimpel in de tijd. 478 00:27:19,460 --> 00:27:29,330 En dit zijn links naar boeken die er bestaan binnen de Harvard Library systeem. 479 00:27:29,330 --> 00:27:32,160 >> Dus ik denk dat het punt is hier niet zo veel dat dit kan wel of niet 480 00:27:32,160 --> 00:27:34,118 zijn de manier waarop u wilt naar de bibliotheek te zoeken, 481 00:27:34,118 --> 00:27:38,310 maar het is een geheel andere manier die niet beschikbaar was voor u 482 00:27:38,310 --> 00:27:42,884 voor, zoals je had geen manier van doen volledige tekst zoekt op boeken die zelfs 483 00:27:42,884 --> 00:27:44,550 maakten deel uit van de Harvard Library systeem. 484 00:27:44,550 --> 00:27:46,870 Dus nu is dit een manier dat je dat kunt doen. 485 00:27:46,870 --> 00:27:51,930 En je kunt ze weer te geven in welk formaat je wilt. 486 00:27:51,930 --> 00:27:55,990 Dus het punt hier is, in principe, we nieuwe mogelijkheden te creëren voor mensen 487 00:27:55,990 --> 00:27:59,080 om te werken met de gegevens. 488 00:27:59,080 --> 00:28:07,925 >> Een ander stuk van de bibliotheek cloud is dat helpt bloot sommige gebruiksgegevens 489 00:28:07,925 --> 00:28:08,800 dat de bibliotheek heeft. 490 00:28:08,800 --> 00:28:12,630 Dus als je naar de bibliotheek, en je bent op zoek naar boeken, 491 00:28:12,630 --> 00:28:15,770 je per se niet eigenlijk een idee van, 492 00:28:15,770 --> 00:28:19,080 voor alle items in een specifiek, wat 493 00:28:19,080 --> 00:28:21,200 zijn mensen in de gemeenschap, of het nu 494 00:28:21,200 --> 00:28:24,890 gedefinieerd als Harvard of land of je klas, 495 00:28:24,890 --> 00:28:26,421 wat hebben ze gevonden meest nuttig? 496 00:28:26,421 --> 00:28:28,920 En de bibliotheek heeft eigenlijk een ton van informatie over wat 497 00:28:28,920 --> 00:28:32,999 is vooral handig omdat als veel mensen zijn het controleren van een boek, 498 00:28:32,999 --> 00:28:34,040 dat je iets vertelt. 499 00:28:34,040 --> 00:28:36,498 Er moet een reden zijn geweest ze willen om het te controleren. 500 00:28:36,498 --> 00:28:38,270 Veel mensen zetten het op reserve. 501 00:28:38,270 --> 00:28:42,520 >> Als het op de reservelijst voor een heleboel van de klassen, die je iets vertelt. 502 00:28:42,520 --> 00:28:45,960 Als docenten zijn het controleren van het veel en studenten zijn het niet, 503 00:28:45,960 --> 00:28:47,200 dat zegt me iets. 504 00:28:47,200 --> 00:28:49,280 Vice versa, dat ook vertelt u iets. 505 00:28:49,280 --> 00:28:54,680 Dus het zou echt interessant te zijn zet dat informatie die er zijn en laat 506 00:28:54,680 --> 00:28:59,969 mensen gebruiken het om hen te helpen vinden werkt binnen het bibliotheeksysteem. 507 00:28:59,969 --> 00:29:02,260 De keerzijde hiervan is er zijn een aantal ernstige privacy 508 00:29:02,260 --> 00:29:07,854 zorgen omdat een van de basisprincipes van de bibliotheek 509 00:29:07,854 --> 00:29:10,770 is dat we niet van plan om te vertellen mensen wat andere mensen aan het lezen bent. 510 00:29:10,770 --> 00:29:17,360 En zelfs als je dit zegt boek werd vier keer uitgecheckt 511 00:29:17,360 --> 00:29:20,070 in een bepaalde maand, dat kan worden gebruikt 512 00:29:20,070 --> 00:29:25,252 om terug te koppelen aan een bepaalde persoon door de-anonimiseren gegevens 513 00:29:25,252 --> 00:29:26,710 en uit te vinden wie uitgecheckt. 514 00:29:26,710 --> 00:29:30,792 Dus de manier waarop we kunnen avoid-- 515 00:29:30,792 --> 00:29:33,750 De manier waarop we kunnen proberen te halen sommige signaal van alle informatie 516 00:29:33,750 --> 00:29:36,740 zonder inbreuk te maken persoonlijke levenssfeer ieders 517 00:29:36,740 --> 00:29:42,150 is in wezen we kijken naar 10 jaar van datagebruik, - 518 00:29:42,150 --> 00:29:43,930 >> Dus het is over een lange tijdsperiode. 519 00:29:43,930 --> 00:29:50,639 >> --en zeggen, OK, laten we eens kijken hoe vele malen dit werk werd gebruikt, 520 00:29:50,639 --> 00:29:52,930 en door die over deze periode van de tijd, en dan in principe 521 00:29:52,930 --> 00:29:56,300 terug te geven een aantal, dat noemen we een stapel score, die in feite 522 00:29:56,300 --> 00:29:59,910 vertegenwoordigt hoeveel het is al gebruikt. 523 00:29:59,910 --> 00:30:01,084 En dat number-- 524 00:30:01,084 --> 00:30:03,250 Een heleboel verschillende berekeningen ga in dat nummer. 525 00:30:03,250 --> 00:30:05,150 --maar het is een zeer ruwe metric die u 526 00:30:05,150 --> 00:30:11,300 een idee van hoe de gemeenschap kan dat werk waarderen. 527 00:30:11,300 --> 00:30:16,772 >> En dus een ander soort zelfs meer uitgewerkt applicatie 528 00:30:16,772 --> 00:30:18,480 dat gebruik maakt dit is iets 529 00:30:18,480 --> 00:30:24,000 genaamd Stacklife, dat is eigenlijk beschikbaar via de belangrijkste Harvard 530 00:30:24,000 --> 00:30:24,880 Bibliotheek portal. 531 00:30:24,880 --> 00:30:26,700 Dus ga je naar library.harvard.edu. 532 00:30:26,700 --> 00:30:29,360 Je zult een aantal verschillende zien zoekmethoden de bibliotheek. 533 00:30:29,360 --> 00:30:32,300 En een van hen wordt genoemd Stacklife. 534 00:30:32,300 --> 00:30:38,980 >> En dit is een applicatie die doorzoekt de inhoud van de bibliotheek, 535 00:30:38,980 --> 00:30:43,490 maar is volledig gebouwd bovenop deze API. 536 00:30:43,490 --> 00:30:46,910 Dus er is geen speciale spullen er achter de schermen. 537 00:30:46,910 --> 00:30:49,570 Er is geen toegang tot gegevens die u niet hebt. 538 00:30:49,570 --> 00:30:54,090 Het is met behulp van de API's om u te voorzien met een compleet andere browsen 539 00:30:54,090 --> 00:30:55,480 ervaring. 540 00:30:55,480 --> 00:30:58,570 >> Dus als ik zoek naar Alice in Wonderland in dit geval, 541 00:30:58,570 --> 00:31:02,600 Ik krijg een resultaat dat lijkt op dit, dat is vrij much-- 542 00:31:02,600 --> 00:31:05,430 543 00:31:05,430 --> 00:31:10,870 >> Het is zeer vergelijkbaar met een andere zoekopdracht je zou kunnen doen, behalve in dit geval 544 00:31:10,870 --> 00:31:15,730 we de rangschikking van de items door stackscore, die u geeft 545 00:31:15,730 --> 00:31:19,850 een idee van hoe populair deze items waren binnen de gemeenschap. 546 00:31:19,850 --> 00:31:25,610 En zo duidelijk, Alice in Wonderland door Walt Disney is zeer populair. 547 00:31:25,610 --> 00:31:36,570 Maar je kunt ook de top vier hier zijn degenen die je misschien niet actually-- 548 00:31:36,570 --> 00:31:39,220 >> Dingen die in hoge mate worden gebruikt, maar je mag niet onmiddellijk 549 00:31:39,220 --> 00:31:41,240 verbinden met Alice in Wonderland. 550 00:31:41,240 --> 00:31:44,650 Dus onze oude vriend The Geannoteerde Alice is hier. 551 00:31:44,650 --> 00:31:46,350 Dus ik kan een kijkje nemen op het. 552 00:31:46,350 --> 00:31:52,010 En nu wat ik zoek in feite een ingesteld van-- 553 00:31:52,010 --> 00:31:53,760 Ik kan Geannoteerde hebben Alice hier. 554 00:31:53,760 --> 00:31:56,700 Ik heb informatie over. 555 00:31:56,700 --> 00:32:00,230 En ik heb ook een stackscore van, in dit geval, 26. 556 00:32:00,230 --> 00:32:03,169 En dit zegt me soort van ruwweg hoe we dit stackscore, 557 00:32:03,169 --> 00:32:05,835 zoals wie uitgecheckt, zoals hoe vele malen werd uitgecheckt, 558 00:32:05,835 --> 00:32:08,440 zoals faculteit of undergrads, hoe veel exemplaren van de bibliotheek, 559 00:32:08,440 --> 00:32:11,300 en zo verder en zo voort. 560 00:32:11,300 --> 00:32:16,460 >> En je kunt ook, interessant genoeg hier, browse door de stapels virtueel. 561 00:32:16,460 --> 00:32:19,550 Zodat de gegevens hier, dit toont u sorteren 562 00:32:19,550 --> 00:32:23,547 van een virtuele representatie van wat de plank macht 563 00:32:23,547 --> 00:32:25,880 uitzien als je te nemen alle bedrijven van de bibliotheek 564 00:32:25,880 --> 00:32:28,940 en zet ze samen één oneindige plank. 565 00:32:28,940 --> 00:32:30,990 En het leuke is dat we can-- 566 00:32:30,990 --> 00:32:33,380 >> Allereerst, de metadata over deze boeken 567 00:32:33,380 --> 00:32:35,627 vaak vertelt u wanneer het werd gepubliceerd. 568 00:32:35,627 --> 00:32:37,085 Het vertelt je hoeveel pagina's het heeft. 569 00:32:37,085 --> 00:32:38,459 Het zou u vertellen de afmetingen. 570 00:32:38,459 --> 00:32:42,930 Zodat u kunt zien dat is hier terug te vinden in termen van de omvang van de boeken. 571 00:32:42,930 --> 00:32:46,740 >> En dan kunnen we gebruik maken van de stapelen score te markeren 572 00:32:46,740 --> 00:32:49,170 de boeken die hogere stapel scores hebben. 573 00:32:49,170 --> 00:32:54,930 Dus als het donkerder, betekent dat, Vermoedelijk wordt vaker gebruikt. 574 00:32:54,930 --> 00:32:57,040 Dus in dit geval, ik ben gaan om te raden dat deze 575 00:32:57,040 --> 00:33:03,226 is de versie van Alice in Wonderland die zeer vaak gebruikte en 576 00:33:03,226 --> 00:33:05,100 geopend, de bibliotheek heeft de meeste exemplaren van. 577 00:33:05,100 --> 00:33:06,975 Dus als u op zoek bent voor Alice in Wonderland, 578 00:33:06,975 --> 00:33:10,220 dit is misschien een goede plek om te beginnen. 579 00:33:10,220 --> 00:33:13,500 >> En dan hier kunt u ook een koppeling uit naar, zeg, Amazon om het boek te kopen, 580 00:33:13,500 --> 00:33:15,182 en zo verder en zo voort. 581 00:33:15,182 --> 00:33:17,140 Het punt hier, nogmaals, is niet zozeer dat deze 582 00:33:17,140 --> 00:33:25,030 is de beste manier om de bibliotheek te bladeren of het juiste gereedschap voor elke gelegenheid. 583 00:33:25,030 --> 00:33:28,400 Maar het is een andere manier van doen. 584 00:33:28,400 --> 00:33:31,359 En door de gegevens verkrijgbaar via een API, die 585 00:33:31,359 --> 00:33:34,650 is gemaakt van zeer eenvoudige bouwstenen, waarmee u de inhoud doorzoeken, 586 00:33:34,650 --> 00:33:39,420 kun je iets op te bouwen als dit, dat kan 587 00:33:39,420 --> 00:33:41,520 zijn buitengewoon waardevol voor sommige mensen. 588 00:33:41,520 --> 00:33:46,640 589 00:33:46,640 --> 00:33:51,860 >> Dus dat is een soort van, zoveel als ik wil om echt te zeggen over wat de API is 590 00:33:51,860 --> 00:33:56,070 en wat het bloot, er is een hele heleboel dingen achter de schermen, die 591 00:33:56,070 --> 00:33:59,480 Ik ga gewoon aan te raken op het kort gewoon omdat het soort komt op deze 592 00:33:59,480 --> 00:34:03,720 vanuit een andere hoek termen van hoe werkt zoiets als dit 593 00:34:03,720 --> 00:34:04,580 krijgen op zijn plaats te zetten? 594 00:34:04,580 --> 00:34:10,820 >> Dus een API is een standaard interface naar alle van deze inhoud. 595 00:34:10,820 --> 00:34:13,820 Maar om het daar, het krijgen eerste wat we moesten doen 596 00:34:13,820 --> 00:34:17,260 werd samen te trekken informatie van boeken en beelden 597 00:34:17,260 --> 00:34:21,580 en het vinden van hulpmiddelen, de collectie document uit verschillende Harvard systemen. 598 00:34:21,580 --> 00:34:23,929 Aleph, VIA, en OASIS zijn de namen van de systemen. 599 00:34:23,929 --> 00:34:28,820 En ze wezen gaan in een pijpleiding, een verwerking pijplijn. 600 00:34:28,820 --> 00:34:33,230 >> Dus in de eerste plaats, krijgen we export bestanden van al deze systemen. 601 00:34:33,230 --> 00:34:35,130 We splitsen in afzonderlijke artikelen. 602 00:34:35,130 --> 00:34:39,360 Dus we hebben een bestand, dat is een gigabyte, die een miljoen records in het. 603 00:34:39,360 --> 00:34:42,290 Dus we splitsen in afzonderlijke artikelen. 604 00:34:42,290 --> 00:34:45,374 Dan, voor elk item, zetten we het in MODS, omdat sommige van deze 605 00:34:45,374 --> 00:34:47,040 zijn native MODS, sommige van hen zijn niet. 606 00:34:47,040 --> 00:34:49,204 Dus krijgen we ze allemaal in hetzelfde formaat. 607 00:34:49,204 --> 00:34:51,120 Dan zijn er verschillende verrijking stappen, waarbij 608 00:34:51,120 --> 00:34:55,969 we meer informatie toevoegen aan de gegevens dan is in de bibliotheek. 609 00:34:55,969 --> 00:34:59,750 Dus we moeten eerst toevoegen, van alle wij hebben wat bibliotheken vasthouden. 610 00:34:59,750 --> 00:35:02,250 We gaan door een stap van berekenen van de stackscore. 611 00:35:02,250 --> 00:35:07,112 We gaan door een andere stap van toevoegen van meer metadata in termen 612 00:35:07,112 --> 00:35:10,730 van wat collecties mensen zou hebben toegevoegd dit-- 613 00:35:10,730 --> 00:35:12,532 >> Mensen zijn het creëren van verzamelingen van artikelen. 614 00:35:12,532 --> 00:35:13,990 Wat collecties behoort het tot? 615 00:35:13,990 --> 00:35:17,220 Hoe hebben de mensen getagd deze inhoud in het verleden? 616 00:35:17,220 --> 00:35:20,750 Dan filteren je uit, en je beperken de administratie, omdat, zoals ik al zei, 617 00:35:20,750 --> 00:35:24,120 er is een aantal records dat, als gevolg van auteursrechtelijke redenen, kunnen we niet geven. 618 00:35:24,120 --> 00:35:26,700 En ze vervolgens te laden we in iets riep 619 00:35:26,700 --> 00:35:31,680 SOLR, die geen verkeerde spelling, maar is de naam van een stuk software 620 00:35:31,680 --> 00:35:35,710 dat doet zoeken indexeren, hetgeen rijdt al het zoeken achter de API. 621 00:35:35,710 --> 00:35:40,110 En dan is het beschikbaar voor wordt de API, en mensen kunnen het gebruiken. 622 00:35:40,110 --> 00:35:44,640 >> Dus dit is als een vrij eenvoudig proces. 623 00:35:44,640 --> 00:35:47,230 Eén van de interessante dingen over het is 624 00:35:47,230 --> 00:35:50,990 dat we te maken hebben met 13 miljoen platen 625 00:35:50,990 --> 00:35:53,820 en we gaan te maken te hebben of meer. 626 00:35:53,820 --> 00:36:01,260 En we willen kunnen verwerken deze in een relatief snelle manier. 627 00:36:01,260 --> 00:36:03,630 Het duurt een lange tijd om verwerken 13 miljoen platen. 628 00:36:03,630 --> 00:36:09,529 >> Dus hoe deze pijpleiding is set-up is dat je can-- 629 00:36:09,529 --> 00:36:12,070 Ik denk dat het voordeel van de pijpleiding, het probleem is dat we 630 00:36:12,070 --> 00:36:15,580 probeer te lossen, is dat alle transformaties, alle 631 00:36:15,580 --> 00:36:18,729 deze stappen in deze pijplijn te scheiden zijn. 632 00:36:18,729 --> 00:36:19,645 Er is geen afhankelijkheid. 633 00:36:19,645 --> 00:36:22,146 Als je het verwerken een record van een boek, 634 00:36:22,146 --> 00:36:24,270 er is geen afhankelijkheid in dat tussen een ander boek. 635 00:36:24,270 --> 00:36:27,760 >> Dus wat we kunnen doen is in principe, bij elke stap in de pijplijn, 636 00:36:27,760 --> 00:36:30,470 we zetten het in een wachtrij in de cloud. 637 00:36:30,470 --> 00:36:32,250 Ik was toevallig op Amazon Web Services. 638 00:36:32,250 --> 00:36:35,140 Dus er is een lijst van, zeggen, 10.000 items die 639 00:36:35,140 --> 00:36:38,100 moeten genormaliseerd worden en geconverteerd naar MODS formaat. 640 00:36:38,100 --> 00:36:41,620 En we draaien als veel servers als we willen, misschien 10 servers. 641 00:36:41,620 --> 00:36:44,860 En elk van deze servers alleen zit daar, kijkt in die wachtrij, 642 00:36:44,860 --> 00:36:46,730 ziet dat er een die moet worden verwerkt, trekt het uit de wachtrij, 643 00:36:46,730 --> 00:36:48,740 verwerkt deze en stokken het op de volgende rij. 644 00:36:48,740 --> 00:36:54,200 >> En dus wat dat ons in staat stelt te doen is toe te passen, in wezen, 645 00:36:54,200 --> 00:36:58,110 zoveel hardware als we dit willen probleem voor een zeer korte periode 646 00:36:58,110 --> 00:37:02,970 zo snel als de gegevens verwerken mogelijk, dat is iets dat alleen, 647 00:37:02,970 --> 00:37:08,220 nu in de wereld van cloud computing kunnen we bepaling servers wezen 648 00:37:08,220 --> 00:37:09,890 ogenblikkelijk, dat nuttig. 649 00:37:09,890 --> 00:37:12,260 Dus we hoeven niet een hebben gigantische server zitten rond 650 00:37:12,260 --> 00:37:16,700 de hele tijd om de verwerking te doen dat zou kunnen maar een keer per week gebeuren. 651 00:37:16,700 --> 00:37:21,440 >> Dus dat is meestal het. 652 00:37:21,440 --> 00:37:27,590 Er is documentatie beschikbaar voor de Bibliotheek Cloud Item API 653 00:37:27,590 --> 00:37:31,960 op deze URL, die zal zijn later beschikbaar. 654 00:37:31,960 --> 00:37:36,730 En ga dan een kijkje nemen op om te zien of er iets is, 655 00:37:36,730 --> 00:37:37,579 u ideeën. 656 00:37:37,579 --> 00:37:38,120 Ermee spelen. 657 00:37:38,120 --> 00:37:38,830 Gek rond. 658 00:37:38,830 --> 00:37:42,800 En hopelijk u kunt komen omhoog met iets groots. 659 00:37:42,800 --> 00:37:44,740 Dankjewel. 660 00:37:44,740 --> 00:37:45,899