Jeffrey LICHT: Cześć. Jestem Jeffrey Licht. A ja jestem tutaj, aby porozmawiać o Biblioteka i budynek Harvard jutro dziś biblioteka, myślę. Więc tła tutaj Boisko w tej sesji w istocie, że nie jest Wiele danych bibliograficznych dostępne w bibliotekach Uniwersytetu Harvarda. I jest szansa, za pomocą niektórych narzędzi i projekt, który jest rozwijany, aby uzyskać dostęp do informacji i zgłosić się do miejsc, które Harvard Biblioteka nie robi w tej chwili, robić nowe rzeczy z nim, eksperyment i bawić się z nim. Tak więc punkt wyjścia do tego jest API nazywa Harvard Biblioteka Chmura, które jest otwarty serwer metadanych, które będę mówić o teraz. Tle tak, że nie ma Wiele rzeczy w bibliotece Harvard. Mamy ponad 13 mln bibliograficzne Zapisy, miliony obrazów, i tysiące pomocy odkrycie, które są zasadniczo dokumenty opisujące kolekcje, mówiąc to, co jest w nich, pudła z papierami i tak dalej, które stanowią ponad milion poszczególne dokumenty. I tam też dużo informacje, że biblioteka ma o tym, jak zawartość jest używana, że może być interesujące dla ludzi którzy chcą z nim pracować. 

Tak więc wszystkie informacje Biblioteka posiada metadane. Więc metadane dane o danych. Więc, gdy mówimy o informacje, że to dostępne w bibliotece Chmura to jest dostępne, to nie koniecznie aktualne dokumenty same niekoniecznie pełne Tekst książki lub pełnych obrazów, jednak, że w rzeczywistości może być inaczej. Ale to naprawdę informacje o danych. 

Więc można myśleć katalogowania informacje, numery alarmowe, przedmioty, ile kopii Książka jest, co są wersje, jakie są Formaty, autorzy, i tak dalej. Więc nie ma wiele informacji na temat informacje w kolekcji, które, sama w sobie, jest rodzaj natury przydatne. A jednak, jeśli jesteś prowadzenia badań szczegółowych, Ci oczywiście chcą dostać się do faktycznej zadowolić się i spojrzeć na dane, metadane są użyteczne w kontekście zarówno analizuje korpus jako całość jak to, co rzeczy są w kolekcji. Jaki mają związek? To pomaga naprawdę znaleźć inne rzeczy, co jest naprawdę głównym celem tego. Punkt Katalog metadanych oraz ma pomóc znaleźć wszystko informacje, że to dostępne w ramach kolekcji. 

Jest to więc przykład metadanych na książki w Bibliotece Harvarda. Więc to nie. I widać, że to faktycznie umiarkowanie złożone. I część wartości metadanych w ramach systemu Harvard Library jest, że to był porządek budowy przez catalogers w wykonaniu ludzi stosujących dużo wiedzy i umiejętności i myśli do niego w czasie, która posiada wiele wartości. 

Więc jeśli spojrzeć na tym rekordzie Alice przypisami, można się dowiedzieć, masz tytuł, który to napisał, autorem i wszystkie inne tematy które ludzie skatalogowane go do. I można zobaczyć tam również, w dodatek do wielu dobrych informacji tu jest jakaś powielania. Jest wiele złożoności to odzwierciedlone poprzez metadanych że masz. 

Więc jeden tytuł tej książki jest Alicja w Krainie Czarów. Więc to jest adnotacjami wersja tej książki. Ale jest również nazywany Opatrzony uwagami Alicja, Przygody Alicji w Krainie Czarów, ponieważ to jest coś, co Martin Gardner napisał i opatrzone książkę. I jest wiele wspaniałych informacji o zagadek logicznych i rzeczy Alicja, która Ciebie terminie prawdopodobnie nie wiedzieć. Należy więc zrób to. 

Ale widać nie ma wiele szczegółów tutaj w tym identyfikatorów, kiedy go został stworzony, skąd pochodzi, w odniesieniu do Harvard System i tak dalej. Więc to jest próbka rodzaj metadanych które można zobaczyć na książki w Kolekcja Harvard Library. 

To jest coś zupełnie innego. Więc nie jest to system o nazwie VIA Harvard, które w zasadzie jest katalogowanie zdjęć i przedmioty sztuki i rzeczy wizualne całej Harvardzie, i dodając trochę metadanych do nich, ich klasyfikacji, i, w pewnych przypadkach, zapewniając ochronną małe miniatury które można podjąć patrzeć jeśli sobie tego życzą. 

Więc jest przykładem metadane, że masz na talerzu z, prawdopodobnie, Alicja w Krainie Czarów. I widać tam mniej metadane tutaj. To jest po prostu inny rodzaj obiektu. A więc jest mniej informacji. 

Trzeba przede wszystkim fakt, że połączenia Numer, który go stworzył w zasadzie - 

Nie wiemy, kiedy to został stworzony. 

--and tytuł. 

Innym przykładem. Jest to pomoc stwierdzenie. Więc nie zbiór Lewis Dokumenty Carrolla na Harvardzie. Tak to opisuje co jest w tej kolekcji. Więc ktoś przeszedł i spojrzał na wszystkich polach i skatalogowane go, ponieważ niektóre tła, pisemne podsumowanie tego, co tu jest. A jeśli było patrzeć ponadto na tym, ten idzie do stron i stron i stron, ale powie jakie litery i jakie pochodzi z jakich polach istniały w całej kolekcji. Ale to jest coś że jeśli jesteś na Harvardzie, możesz iść i faktycznie fizycznie wyglądać i, przypuszczalnie, przyjrzeć. 

Więc to wszystko jest świetnie. Te metadane na użyteczne. To w systemie Harvard Library. Istnieją narzędzia online, gdzie cię może pójść i spojrzeć na to, i zobaczyć, i poszukać go. I można go pokroić i kości to w wielu różnych sposobów. 

Ale to naprawdę dostępne tylko wtedy, gdy jesteś człowiek siadając w przeglądarce internetowej lub coś lub telefon i nawigacja po nim. To naprawdę nie jest dostępny w wszelkiego rodzaju mody użytkowej dla innych systemów lub inne komputery w użyciu, nie z systemów w Biblioteka Harvard, ale systemy w świecie zewnętrznym, tylko innych ludzi w ogóle. Więc pytanie brzmi, jak możemy udostępnić ją do komputerów tak, że możemy zrobić bardziej interesujące rzeczy z nim nie tylko przeglądanie to sami? 

Więc dlaczego chcesz to zrobić? Istnieje wiele możliwości. Jeden to można zbudować zupełnie inny sposób przeglądania treści, które jest dostępne przez Bibliotek Harvard. Pokażę ci jeden później zwany Stacklife, który ma zupełnie inny podjąć szuka treści. 

Można zbudować silnik rekomendacji. Więc Harvard biblioteka nie jest w Działalność mówiąc, chcesz tę książkę. Następnie przejdź spojrzeć na te 17 innych książki, które mogą być zainteresowane czy te 18 innych obrazów. Ale to na pewno mógł być cennym elementem. A biorąc pod metadane, może można umieścić, że razem. Można mieć różne potrzeby w warunki przeszukiwania zawartości, jak być może mimo narzędzi są dostępne, które sprawia, że ​​biblioteki dostępna, możesz wyszukiwanie w inny sposób lub optymalizacji dla konkretnego przypadku użycia, który być może jest to bardzo wyspecjalizowane. Może to tylko niektóre ludzi na świecie, którzy Aby przeszukać zawartość W ten sposób, ale Byłoby wspaniale, gdybyśmy może pozwolić im zrobić. Jest wiele analiz w zaledwie, jak ludzi korzystać z zawartości, która byłaby naprawdę Ciekawe informacje, dowiedzieć się, co książki są stosowane co nie, i tak dalej. I jest jeszcze wiele okazją do integracji z innymi informacjami że gdzieś tam w internecie. Więc have-- 

Na przykład, ma NPR Segment recenzja książki, gdzie wywiad Autorzy o książkach. I tak byłoby wspaniale, gdybyś patrząc na książkę w Harvardzie Biblioteka, a ty mówisz, OK, nie ma był wywiad z autorem. Chodźmy spojrzeć na to. Albo istnieje strona Wikipedii, jak wiarygodne, naukowe odniesienia o tej książce, że cię może chcesz przyjrzeć. 

Są te typy źródeł rozproszone w całej sieci. I łącząc je może być bardzo przydatne do kogoś, patrząc na Zawartość, szukając czegoś. Ale to nie jest również Takie rzeczy TY chcą być odpowiedzialne biblioteki na zejście i polowaniem na wszystkie te różne źródła i podłączyć je razem ponieważ są one zmianie w sposób ciągły. A co jest dla nich ważne, może, Nie jest to, co uważasz za ważne. 

A nawet więcej, w zasadzie nie ma Wiele rzeczy nie pomyślał jeszcze. Tak więc, jeśli możemy to otworzyć się bardziej osób oprócz pół kilkunastu, którzy patrzą na to w regularny można myśleć o idei i masażu danych, a robić, co chcą z nim. 

Dlatego chcemy, aby ten Dane dostępne dla świata. Cóż, jest kilka komplikacji. Jednym z nich jest, że tym metadanych w różnych systemach. To w różnych formatach. Więc jest jakaś normalizacja które musi się zdarzyć, której normalizacja jest procesem przynosząc rzeczy z różnych formatach i określania na ich do jednego formatu tak, że pola będą się zgadzać. 

Istnieją pewne ograniczenia dotyczące praw autorskich. Co dziwne, wpis do katalogu o książki ponosi odpowiedzialności za prawa autorskie. Więc nawet jeśli jest to tylko Informacje pochodzą z książki, to ochronie prawnoautorskiej. I w zależności od osoby, która je stworzony, że metadane, nie może podlegać ograniczeniom kto Można go rozpowszechniać, podobnie to-- 

Nie wiem. Może lub nie może być podobna do Sytuacja tekstów piosenek z, na przykład. Wszyscy wiemy, jak to przesuwa się. Więc trzeba się poruszać tej kwestii. 

A potem jeszcze kawałek jest że istnieje wiele danych. Więc jeśli jestem kimś, kto chce pracować z danymi lub ma fajny pomysł, do czynienia z 14 mln Zapisy na moim laptopie może być problematyczne i trudne do zarządzania. Dlatego chcemy, aby zmniejszyć bariery dla ludzi aby móc pracować z danymi. 

Tak więc podejście, które miejmy nadzieję, adresy wszystkie z tych problemów jest z dwóch części. Jednym z nich jest budowa platformy, która trwa Dane ze wszystkich tych różnorodnych źródeł i pogłębia ją, normalizuje, wzbogaca go i sprawia, jest dostępne w jednym miejscu. I to sprawia, że ​​jest dostępny przez API publicznej, że ludzie mogą dzwonić. 

Więc API aplikacji Programming Interface. I to w zasadzie odnosi się do Punkt końcowy, że system lub technologii Można zadzwonić i uzyskać dane z powrotem w Format zorganizowany w taki sposób, które mogą zostać użyte. Więc to nie jest zależne się dzieje na stronie i skrobanie danych off z tym, na przykład. 

Więc to jest strona główna Biblioteka Chmura Pozycja API, która jest w zasadzie jego wersję dwa. Więc to druga odsłona starając się wszystkich tych danych dostępna na świecie. Więc to jest http://api.lib.harvard.edu/v2/items. I po prostu podzielenie go trochę, co to oznacza jest to, że jest to wersja dwóch API. Jest to wersja jednego, które Nie będę mówić. Ale nie jest to wersja jednego. 

A jeśli dzwonisz to API, dostajesz rzeczy. I część idei API API jest umowa. To coś, co jest nie zamierza zmieniać. Tak na przykład, - 

A powodem jest to, że jeśli zbudować jakiś system, który będzie korzystać z chmury biblioteki API do wyświetlania książek lub pomóc ludziom znaleźć Informacje w unikalny sposób, to, czego nie chcą się zdarzyć jest dla nas, aby go zmienić sposób że API działa i nagle wszystko łamie się na stronie użytkownika końcowego. Więc część jeśli robisz API dostępne dla świata, to dobra praktyka, aby umieścić Numer wersji, w tym tak ludzi znać wersję mają do czynienia. 

Jeśli więc zdecydujesz się znaleźć lepszy sposób udostępnienia tych informacji, może to zmienić, aby nazywają tę wersję trzy. Więc każdy, kto jest wciąż przy Wersja dwa, że ​​będzie nadal działać. Ale wersja trzech będzie mieć wszystkie nowe rzeczy. 

Więc to jest API, ale to naprawdę wygląda URL. I tak, co to jest Przykładem jest to, co jest nazywa API odpoczynek, który jest dostępny w ciągu zaledwie regularnego połączenia internetowego. I można naprawdę przejdź do niej w przeglądarce. 

Więc ja właśnie otworzył Firefox i poszedł do api.lib.harvard.edu/v2/items. A więc to, co mam tutaj jest w zasadzie pierwsza strona wyników z całego zestaw elementów, które mamy. I to jest tutaj w formacie XML. I to również prettified przez Firefoksa. To w rzeczywistości nie mają wszystkie te Trochę rozszerzanie i kurczenie doohickeys tutaj. Jest to rodzaj ładniejszy Wersja sposób na to patrzeć. 

Ale co to mówi nam jest Ja o wszystkie elementy. Tak więc istnieją 13.289.475 szt. I czekam na pierwsze 10, począwszy od pozycji zerowej ponieważ w informatyce zawsze zaczynają się od zera. I co mam tutaj, jeśli po prostu zwinąć to zobaczysz Mam 10 pozycji. 

A jeśli spojrzeć na pozycji, mogę zobaczyć, że mam informacji na ten temat. I to jest to, co się nazywa forma MODS. I tak mam zamiar przełączyć z powrotem tutaj na chwilę. OK. 

Warto więc szukać czegoś w specyficzne, ponieważ pierwszy element, który dzieje się wymyślić, jeśli spojrzeć przez całą kolekcję Jest z definicji losowy. Więc spójrzmy na kilka pączków. Och. 

OK. Więc pączki. Więc znaleźliśmy znajduje się 80 pozycje zbiór wzorcowych pączki. Patrzymy na pierwsze 10 z nich. Teraz można zobaczyć tutaj sposób, że Powiedziałem Szukam pączki, Właśnie dodałem coś do łańcuch zapytania z adresu URL. Więc q jest równa pączki, które można zobaczyć trochę łatwiej tutaj. 

I to w zasadzie oznacza, że ​​jest spec dla API, które definiuje wszystkie parametry te myśli. A to oznacza, że ​​będziemy szukaj wszystko na pączki. 

Więc pierwszej pozycji mamy tutaj widać tytuł jest Donuts, i nie ma napisów nazwie Amerykańska Pasja, która jest, jak sądzę, właściwe. Istnieje wiele different-- Gdy dojdziesz do punktu, uzyskiwania danych, istnieje wiele różnych Formaty, które można dostać go w. I istnieją różne atuty i słabości na wszystkie z nich. Więc ten jeden, można zobaczyć tutaj, ta forma jest bardzo bogata. I to jest znormalizowana. 

Więc nie ma specyficzny tytuł pole, pole napisów. Istnieje alternatywna Tytuł, amerykański Passion. Nie jest to nazwa związana z nim. Typ zasobu jest tekst. Istnieje wiele informacji tu w tym formacie. 

Ale istnieje kilka z różnych formatów. Więc co my właśnie patrząc na to format zwane MODS, co oznacza Metadane obiektu Opis usługi, potencjalnie. Jestem naprawdę nie do końca pewny S. Ale to dość skomplikowany format. Jest to domyślny format. 

Ale jest jeden, który utrzymuje Bogactwo wszystkich danych że biblioteka ma powodu to jest bardzo blisko tego, co Biblioteka korzysta wewnętrznie. To standard, który jest używane w całym kraju, na całym świecie w bibliotekach akademickich. I to jest bardzo interoperacyjne. Więc jeśli masz dokument że jest w formacie MODS, można podać, że do kogoś innego których systemy zrozumieć, MODS, i można je importować. Więc jest to standardem. Jest bardzo dobrze zdefiniowany, bardzo specyficzne. I to jest to, co sprawia, że interoperacyjne, bo jeśli ktoś mówi, jest to alternatywny tytuł Rekord, każdy wie, co to oznacza. Z drugiej strony, jest to bardzo skomplikowane. 

Więc jeśli spojrzeć na tej płycie tutaj jeśli po prostu chcesz otrzymać Tytuł tego dokumentu, tej książki, która jest prawdopodobnie Donuts, Amerykańska Pasja, analizowania go jest trochę zaangażować. Zważywszy, że nie ma innego Format nazywa Dublin Core, co jest o wiele, wiele prostsze Format. 

I tak tu widzisz, nie ma tytuł, podtytuł, zastępca tytuł. Jest tylko tytuł, Pączki, amerykański Pasja, i kolejny tytuł, amerykański Passion. Więc kiedy szukasz w jakiej formie Aby uzyskać dane z, Wiele zależy od tego, jak masz zamiar go używać. Czy używasz do interoperacyjności czy też chcesz coś prostego, że Może być łatwiej pracować? 

Z drugiej strony, wiele szczegóły dostają jakby spłaszczony w dół. Możesz stracić niuanse co za szczególne środki polowe jeśli masz do czynienia z Dublin Core, których nie dałoby się z MODS. To są dwa formaty można dostać się z API. A w zasadzie, trzymamy że za kulisami w MODS. Ale możemy dać ci to w modach i Dublin Core i coś jeszcze. Inne korzyści, gdy szukasz w danych to można je dostać zarówno jako JSON, który oznacza JavaScript Object Notation, lub XML, co oznacza Extensible Markup Language. I oba te reprezentacje danych mają dokładnie te same dane, dokładnie te same pola. Ale to po prostu składniowo inaczej. 

Więc to jest A-- No cóż, po prostu przełączyć. Więc to jest nasze zapytanie do pączki w formacie XML. Jeśli po prostu przełączyć to za JSON, Widzę, że wygląda inaczej. Więc teraz jest to ta sama treść, ale inna konstrukcja. Jest mniej nawiasy. Jest mniej gadatliwe. 

I jest to format, który, jeśli Ciebie pracy w środowisku sieciowym, jesteś najprawdopodobniej będzie aby użyć, ponieważ jednym z miłych rzeczy o JSON jest jest to zgodne z JavaScript. Więc jeśli piszę aplikację internetową, mogę wyciągnąć JSON i po prostu pracować z nim bezpośrednio. Podczas gdy z XML, to trochę bardziej skomplikowane. Ponownie więc, obie są użyteczne. Oni po prostu są różne przypadki użycia gdzie ludzie mogą chcieć z nich skorzystać. OK. Wracając do API. Więc możemy szukać for-- 

I dać przykład szukając pączków. Możemy również szukać tylko w szczególności pola w tutaj. Więc zamiast szukać Cała płyta, Mogę tylko szukaj w polu nazwy. A więc teraz jest 25 rzeczy, które mają pączki w tytule, z których jeden jest o przywrócenie mokradeł w zarządzaniu odwiertu w pączka Program, który jest zapewne niekoniecznie to, czego szukamy na kiedy szukasz pączki. 

Można także, gdy jesteś czynienia z API-- 

Części posiadające API daje ludziom dostęp do dużych zbiorów danych. I istnieje kilka różne Narzędzia można użyć, aby to zrobić. Jednym z nich jest, w bardzo prosty sposób, można można przewijać danych. Więc tak jakby zrobić kwerendę przez interfejs WWW, można spojrzeć na pierwszej stronie, Strona dwa, strona trzy. Możesz zrobić to samo rzeczą poprzez API. Wystarczy być wyraźnie, w jaki sposób to zrobić. 

Tak na przykład, jeśli szukam co tu mojego pierwszego zapytania, gdzie robię poszukiwania rzeczy z pączków w tytule, mogę powiedzieć, a graniczny wynosi 20, co oznacza, daj mi pierwsze 20 rekordów, nie Pierwszy 10, który jest domyślny, bo chcę patrzeć na 20 na raz. Albo można powiedzieć, ustawić rozpocznie równa 20 i limitu równe 20, co da mi 21 do 40 rejestruje. 

Sądzę więc, że rzeczy zabrać tutaj jest że używamy ciągów zapytania ustawić parametry na zapytanie. I to pozwala na kontrolę czego wrócić. 

Innym narzędziem, które można wykorzystać, - 

I to jest bardzo pomocne w Warunki odkrywania danych. 

--is coś o nazwie faceting. Więc faceting termin jest niekoniecznie wspólnego. Ale już wszystko widziałem go wcześniej. Jeśli spojrzeć na Amazon np i nie szukaj pączki w księgach, tutaj, że mam serię książek, i są one pogrupowane według kategorii, i dostać się na różne kategorie, i jak wiele książek w każdej kategorii pokazać. 

Tak to jest w zasadzie facet. Weź wszystkie swoje książki, 1800 książki pasujących pączki w Amazon. 12 z nich znajduje się w Kategoria śniadanie. 21 w cieście i pieczenia, i tak dalej, i tak dalej. 

Więc to jest naprawdę przydatne Narzędzie do odkrywania treści w bibliotece, a także bo jeśli spojrzeć na aspekt, to daje wyobrażenie o tym, co poddaje istnieje, jak to, co rodzajów przedmiotów są najbardziej popularne w swoim zestawie zapytania. A to pomaga odpędzić i zbadać. Tak więc możemy zrobić to samo. 

Jeśli chcemy użyć API i spojrzeć na aspekty, możemy dodać kolejny parametr do nasz przyjaciel znaków zapytania. Więc aspektów równa oddzielone przecinkami lista tego, co chcemy Facet na. Tak więc jednym z aspektów, może podlegać. Innym może być język. I tak, jeśli prowadzimy tę kwerendę, że get-- Wygląda prawie tak samo tutaj. Ale dodaliśmy do końca listy zestaw aspektów. Mamy więc aspekt nazwie tematu. Więc to mówi nam, że kiedy patrzę na moje 80 wyników z zapytania pączka, 13 z nich narażać Stany Zjednoczone. Trzy mają podlegające pączki. Trzy ma tematu rekultywacji terenów podmokłych, które mogą być naszym dziura w pączek. Dwa z nich, The Simpsons, i tak dalej, i tak dalej. 

Więc może to być przydatne, jeśli Ciebie Aby zawęzić wyszukiwanie. To może pomóc zrobić. Zwłaszcza jeśli masz więcej niż, powiedzmy, 80 wyników. 

Podobnie, również poprosił na aspektach na języku. Więc jeśli spojrzymy na nasze wyniki, widzimy 76 z nich są w języku angielskim, cztery w języku francuskim, dwa w języku hiszpańskim, dwa, myślę, że to nieokreślone lub nieznane, holenderski i łacina. Więc myślę, że z łaciny Wynik pączki, znowu, nie ma nic wspólnego z pieczywa. Ale tam. 

Więc to jest jakby pokazując, jak można wyciągnąć zawartość z powrotem z API tylko poprzez przeglądarka internetowa, która jest świetna. Ale to naprawdę nie jest to, co będzie zwykle przy użyciu API dla niego. Więc jeden z przykładów, w jaki sposób może faktycznie to mam napisane bardzo mały program, które znów moje wyszukiwanie pączka i wybiera pola kilka i wyświetla je w tabeli. Więc to jest bardzo sama treść, że po prostu Piła z kilkoma polami wyciągnął. Więc listy tytułów, na lokalizacja jakiej książce jest o, język, i tak dalej, i tak dalej. 

Więc jak to się właściwie stało, gdyż Myślę, że musimy patrzeć na niektóre kodu, is-- 

Mamy tu jest prosty HTML strona, która wyświetla tekst, Zapraszamy do biblioteki i chmury następnie wyświetla tabelę wyników. I są oczywiście nie ma żadnych wyników w Stół, gdy strona jest ładowany. Ale co robimy Jest to przede wszystkim, ładowania biblioteki o nazwie jQuery, która jest w zasadzie biblioteka JavaScript, która sprawia, że bardzo łatwe do manipulowania JavaScript natywnie, HTML i tworzenie stron internetowych, logiki po stronie klienta i stron internetowych. 

Więc co tu mamy to jQuery ma metodę o nazwie Wirtualny, które zasadniczo trafi do URL, który w tym przypadku jest to znajomy szuka URL. A następnie uzyskać zawartość z że adres URL, a następnie uruchom funkcję na nim. Więc powiedział przejść do api.lib.harvard / edu. Szukaj na pączki. Daj nam 20 rekordów. A następnie uruchomić tę funkcję, która Wybrałem, przekazując jej dane. I danych JSON, że ale wrócił z API. 

I wtedy mówimy, że w ciągu Dane istnieje pole o nazwie poz. A jeśli pójdę spojrzeć wstecz na jeden z tych wyników, że jest tutaj, jest coś called-- 

Cóż, to się nazywa poz. Tak, że może być to. A co robi jest to przechodzi każdej pozycji a następnie wywołuje kolejny Funkcja na każdej pozycji. I to w zasadzie funkcję bierze wartość elementu, który jest zasadniczo indywidualny zapis i pozwala nam wyciągnąć tytuł, zakres i język. 

Tak nazywamy funkcję dla każdego poz, że wróciliśmy z API. I jeśli tylko spojrzeć w tym kawałku tutaj, to, co robimy jest tworzymy ciąg, która jest w zasadzie niektóre znaczniki HTML przy stole, z value.title, który to tytuł Obiekt, value.coverage, co jest zasięg, - 

I robimy test tutaj, aby zobaczyć, kto jest niezdefiniowane i ukrywanie go, jeśli mówi undefined dlatego, że nie jesteśmy zainteresowani w tym. 

--and to język. I co wtedy jesteśmy robi jest dodanie, że w tabeli, który jest zidentyfikowane przez ten ciąg tutaj. A jak działa jQuery to co to mówi jest spojrzeć na tabelę z pomysłem Wyniki i dodać ten tekst do niego. I to jest tabela z wynikami pomysł. Więc co w końcu z tej strony jest tutaj. I aby zobaczyć source-- Cóż, nie jest w rzeczywistości źródłem aktualizowany, gdy to się stało. Więc widać, rzeczywista Wyniki tabeli tutaj mimo. 

Więc to tylko prosty przykład robi bardzo podstawowe zapytanie do API oraz wyświetlanie innych informacji, w niektórych tworzyć i nic nie robić zbyt fantazyjne. Teraz, kolejnym przykładem jest jak Aplikacja napisana przez David Weinberger jako demo tego, co zasadniczo pokazuje, jak można rozgnieść się wyniki, które Cię się z biblioteki API cloud z, powiedzmy, Google Books. 

A myślenie o to, że mogę uruchomić kwerendę przeciwko Google Books dostać wyszukiwanie pełnotekstowe, trochę wyników powrotem, dowiedzieć się, które z tych elementów faktycznie istnieją w Hollis, system biblioteczny, a następnie dać mi linki z powrotem do tych pozycji. Więc jeśli mogę szukać, to było ciemna i burzliwa noc, ja wrócić kilka wyników od Google, a następnie jeden wynik co jest w Czasie zmarszczek. I to są linki do książek, które istnieją w ramach systemu Harvard Library. 

Sądzę więc, że chodzi tu nie jest tak bardzo, że to może być lub nie może za sposób, w jaki chcesz do przeszukiwania biblioteki, ale to jest zupełnie inna sposób, który nie był dostępny dla Ciebie przed, jak ty nie miał sposobu pracy Pełny tekst wyszukiwania na książki, że nawet były częścią systemu Harvard Library. Więc teraz jest to sposób że można to zrobić. I można je wyświetlić w dowolnym formacie chcesz. Więc chodzi o to, w zasadzie, otwieramy nowe drogi dla ludzi do pracy z danymi. 

Kolejna chmura jest to, że biblioteki pomaga narazić niektóre dane użytkowania że biblioteka ma. Więc jeśli masz iść do biblioteki, i szukasz książki, Nie koniecznie faktycznie ma pomysł, dla wszystkich elementów szczególności przedmiotem, co Są ludzie w społeczność, czy to zdefiniowane jako Harvard lub kraj lub klasa, jakie mają znaleźć najbardziej przydatne? I rzeczywiście ma biblioteki mnóstwo informacji o tym, co jest najbardziej przydatna, ponieważ jeżeli partia od osób sprawdzanie książkę, że mówi coś. Musiał być jakiś powód chcą, aby to sprawdzić. Wielu ludzi umieścić go na rezerwie. 

Jeśli jest na liście rezerwowej dla wielu zajęć, które mówi coś. Jeśli członkowie wydziału sprawdzamy go się dużo i Studenci nie są, że mówi mi coś. Odwrotnie, że również mówi coś. Więc byłoby naprawdę ciekawe umieścić te informacje tam i niech osób używa go, aby pomóc im znaleźć pracuje w systemie bibliotek. Druga strona tego jest istnieją pewne poważne prywatności obawy, ponieważ jeden z podstawowe założenia biblioteki to nie będziemy się mówić osób, co inni ludzie czytają. I nawet jeśli mówią to Książka została sprawdzona cztery razy w danym miesiącu które mogą być stosowane odnośniki do szczególności Osoba dane de anonimizerów i dowiedzieć się, kto sprawdził to. Tak więc sposób możemy avoid-- Sposób, że możemy spróbować wyodrębnić jakiś sygnał od wszystkich informacji bez naruszania Obawy niczyjej prywatności jest zasadniczo patrzymy na 10 lat użytkowania danych, - 

Tak, że w dłuższym okresie czasu. 

--and powiedzieć, OK, zobaczmy jak wiele razy ta praca została stosowane, i kto w tym okresie czasu, a następnie w zasadzie oddać numer, który nazywamy Wynik stosu, który w zasadzie pokazuje, jak bardzo to było używane. I że number-- Wiele różnych obliczeń przejść do tego numeru. --but to bardzo szorstki metryki, które daje niektóre pomysł, jak wspólnota może wartość tej pracy. 

I tak jeszcze inny rodzaj więcej uregulowana aplikacji , który wykorzystuje to jest coś, nazywany Stacklife, która jest faktycznie dostępne przez główny Harvardzie Portal biblioteka. Więc idziesz do library.harvard.edu. Zobaczysz wiele różni sposoby przeszukiwania biblioteki. I jeden z nich nazywa Stacklife. 

I jest to aplikacja, która przeszukuje zawartość biblioteki ale jest całkowicie zbudowany bazujące na tych interfejsów. Więc nie ma specjalnego rzeczy dzieje się za kulisami. Nie ma dostępu do Dane, które nie posiadają. To użyciu interfejsów API, aby zapewnić z zupełnie innej przeglądanie doświadczenie. 

Więc jeśli mogę szukać Alice w Krainie Czarów, w tym przypadku, Uzyskać wynik, który wygląda jak tego, co jest dość much-- 

Jest bardzo podobny do innego wyszukiwania Może to zrobić, z wyjątkiem w tym przypadku jesteśmy rankingu pozycji przez stackscore, które daje jakiś pomysł, jak popularne są pozycje były w społeczności. I tak wyraźnie, Alicja w Krainie Czarów przez Walt Disney jest bardzo popularne. Ale można również zobaczyć cztery najlepsze Oto te, które nie mogą actually-- 

Rzeczy, które są bardzo wykorzystywane, ale nie może bezpośrednio połączyć z Alicji w Krainie Czarów. Tak więc nasz stary przyjaciel Annotated Alice jest tutaj. Więc mogę spojrzeć na niego. A teraz to, czego szukam co jest w zasadzie ustawić of-- Mogę mieć Opatrzony uwagami Alice właśnie tutaj. Mam informacje o nim. I ja też mam stackscore z, w tym przypadku, 26. I to mówi mi, jakby grubsza jak doszliśmy do tego stackscore, jak kto sprawdził to, jak, jak wiele razy został wyrejestrowany, jak wydziału lub undergrads, jak wiele kopii biblioteki ma, i tak dalej, i tak dalej. 

I można również, na tyle ciekawe, tutaj, przeglądać stosy praktycznie. Więc tutaj dane, w tym pokazuje ci sortowania wirtualnego reprezentacji z jakiej potędze półki wyglądać, jeśli chcesz robić wszystkie zasoby biblioteki i umieścić je razem na jednej nieskończonej półce. I miłą rzeczą jest to, że can-- 

Przede wszystkim metadane na temat tych książek Często mówi, kiedy został on opublikowany. Dowiesz się, ile stron ma. To może powiedzieć wymiary. Tak więc widać, że to odzwierciedlenie tutaj w odniesieniu do rozmiaru książki. 

A potem możemy użyć stosu wynik, aby podświetlić książki, które mają wyższe wyniki stosu. Więc jeśli jest ciemniejszy, oznacza to, że, Można przypuszczać, że stosuje się go częściej. Więc w tym przypadku, jestem Chyba, że ​​będzie to jest wersja Alicji w Krainie Czarów który jest bardzo często stosowany, a najbardziej dostępne, biblioteka ma najwięcej egzemplarzy. Więc jeśli szukasz dla Alicji w Krainie Czarów, może to być dobre miejsce, aby rozpocząć. 

I to tutaj można także łączyć się do, powiedzmy, Amazon zakupić książkę, i tak dalej, i tak dalej. Chodzi o, znowu, Nie jest tak, że jest najlepszym sposobem, aby przeglądać bibliotekę lub odpowiednim narzędziem dla każdej okazji. Ale jest inny sposób to zrobić. I udostępnienie informacji dostępne poprzez API, które jest wykonana z bardzo prostych bloków budowlanych która pozwala na wyszukiwanie treści, można zbudować coś tak, że można nadzwyczajnie cenne dla niektórych ludzi. 

Więc to jest coś w rodzaju, jak chcę powiedzieć o tym, co naprawdę jest API i co naraża, istnieje cały kilka rzeczy za kulisami, które Idę tylko na krótko dotknąć tylko dlatego, że jakby co to jest z zupełnie innej perspektywy, w Warunki w jaki sposób coś takiego się umieścić w miejscu? 

Więc to standard interfejsu API interfejs do wszystkich tych treści. Ale aby go tam, Pierwszą rzeczą, jaką musiałem zrobić został współdziałać informacji książek i obrazów i pomocy archiwalnych, kolekcja Dokument z różnych systemów Harvard. Aleph, VIA i OASIS są nazwy systemów. I w zasadzie przejść do Rurociąg, rurociąg przetwarzania. 

Więc przede wszystkim, mamy eksport pliki z wszystkich tych systemów. Podzieliliśmy je na poszczególne pozycje. Więc mamy plik, który jest gigabajt która ma milion rekordów w nim. Więc podzielić go na poszczególne pozycje. Następnie, dla każdego elementu, możemy przekształcić go w MODS, ponieważ niektóre z nich są natywnie MODS, niektóre z nich nie są. Tak więc mamy je wszystkie być w tym samym formacie. Potem są różne wzbogacania etapy, w których możemy dodać więcej informacji do danych nie było dostępne w bibliotece. Tak więc musimy dodać, przede wszystkim mamy to, co biblioteki trzymać. Idziemy przez etap obliczaniu stackscore. Idziemy przez innego kroku dodając więcej metadanych w zakresie co zbiory ludzi Może dodali this-- 

Ludzie tworzą zbiory przedmiotów. Co kolekcje to należy? W jaki sposób ludzie określili zawartość ta w przeszłości? Potem odfiltrować i ograniczyć zapisy, ponieważ, jak już wspomniałem, istnieje pewne zapisy, które, ze względu na względu na prawa autorskie nie możemy wyświetlić. A następnie je załadować w coś o nazwie SOLR, co nie jest misspelling, ale to nazwa części oprogramowania że robi indeksowania wyszukiwania, które napędza cały wyszukiwanie za API. I wtedy staje się ona dostępna dla API, i ludzie mogą go używać. 

Tak to jest jak dość Proces proste. Jeden z ciekawe rzeczy jest to, że mamy do czynienia z 13 milionów rekordów i będziemy mieć do czynienia lub więcej. I chcemy, aby być w stanie obsłużyć je w stosunkowo szybki sposób. To zajmuje dużo czasu do przetwarzać 13 milionów rekordów. 

Więc jak to jest gazociąg skonfigurowana jest to, że can-- Chyba przewagę Rurociąg, problem, że jesteśmy próbuje rozwiązać, to aby wszystkie przemiany, wszystkie te kroki w tym Rurociąg są rozłączne. Nie ma zależności. Jeśli jesteś przetwarzania zapis jednej książce, nie ma zależności w że między innymi książki. 

Więc co możemy zrobić, to w zasadzie, na każdym kroku w rurociągu, umieścić go w kolejce w chmurze. Zdarzyło mi się być na Amazon Web Services. Więc jest lista, powiedzieć, 10000 elementów, które muszą być normalizowane i przekonwertowane na format MODS. A my rozpędzają tyle serwerów jak chcesz, może 10 serwerów. I każdy z tych serwerów tylko siedzi, patrzy w tej kolejki, widzi, że jedna z nich musi przetwarzane, wyciąga je z kolejki, przetwarza je i kije że w następnej kolejce. 

I co z tego, że pozwala nam zrobić, to stosuje się, w zasadzie, tyle sprzętu, jak chcemy to Problem w bardzo krótkim okresie czasu tak szybko, jak przetwarzać dane możliwe, co jest czymś, tylko teraz w świecie cloud computing Możemy serwery Przepis ten zasadniczo natychmiast, że użyteczne. Tak więc nie trzeba mieć gigant serwer siedzieć cały czas zrobić przetwarzania że może się zdarzyć tylko raz w tygodniu. 

Tak to jest w większości to. Jest dokumentacja, Biblioteka dla Item API Chmura pod tym adresem URL, który będzie być dostępne później. I przejdź spojrzeć na to, aby zobaczyć, czy jest coś, macie jakieś pomysły. Zagraj z nim. Wygłupiać. I mam nadzieję, że można przyjść z czymś wielkim. Dziękuję.