1 00:00:00,000 --> 00:00:11,370 2 00:00:11,370 --> 00:00:12,370 Jeffrey LICHT: Cześć. 3 00:00:12,370 --> 00:00:13,550 Jestem Jeffrey Licht. 4 00:00:13,550 --> 00:00:17,890 A ja jestem tutaj, aby porozmawiać o Biblioteka i budynek Harvard jutro 5 00:00:17,890 --> 00:00:20,870 dziś biblioteka, myślę. 6 00:00:20,870 --> 00:00:23,040 Więc tła tutaj Boisko w tej sesji 7 00:00:23,040 --> 00:00:26,930 w istocie, że nie jest Wiele danych bibliograficznych 8 00:00:26,930 --> 00:00:28,400 dostępne w bibliotekach Uniwersytetu Harvarda. 9 00:00:28,400 --> 00:00:33,434 I jest szansa, za pomocą niektórych narzędzi 10 00:00:33,434 --> 00:00:36,350 i projekt, który jest rozwijany, aby uzyskać dostęp do informacji 11 00:00:36,350 --> 00:00:42,430 i zgłosić się do miejsc, które Harvard Biblioteka nie robi w tej chwili, 12 00:00:42,430 --> 00:00:45,460 robić nowe rzeczy z nim, eksperyment i bawić się z nim. 13 00:00:45,460 --> 00:00:52,413 >> Tak więc punkt wyjścia do tego jest API nazywa Harvard Biblioteka Chmura, które 14 00:00:52,413 --> 00:00:57,650 jest otwarty serwer metadanych, które będę mówić o teraz. 15 00:00:57,650 --> 00:01:02,595 Tle tak, że nie ma Wiele rzeczy w bibliotece Harvard. 16 00:01:02,595 --> 00:01:07,150 Mamy ponad 13 mln bibliograficzne Zapisy, miliony obrazów, 17 00:01:07,150 --> 00:01:11,090 i tysiące pomocy odkrycie, które są zasadniczo dokumenty opisujące 18 00:01:11,090 --> 00:01:15,500 kolekcje, mówiąc to, co jest w nich, pudła z papierami 19 00:01:15,500 --> 00:01:21,080 i tak dalej, które stanowią ponad milion poszczególne dokumenty. 20 00:01:21,080 --> 00:01:24,290 I tam też dużo informacje, że biblioteka ma 21 00:01:24,290 --> 00:01:28,180 o tym, jak zawartość jest używana, że może być interesujące dla ludzi 22 00:01:28,180 --> 00:01:32,400 którzy chcą z nim pracować. 23 00:01:32,400 --> 00:01:36,150 >> Tak więc wszystkie informacje Biblioteka posiada metadane. 24 00:01:36,150 --> 00:01:39,500 Więc metadane dane o danych. 25 00:01:39,500 --> 00:01:42,070 Więc, gdy mówimy o informacje, że to 26 00:01:42,070 --> 00:01:44,890 dostępne w bibliotece Chmura to jest dostępne, 27 00:01:44,890 --> 00:01:47,760 to nie koniecznie aktualne dokumenty 28 00:01:47,760 --> 00:01:53,060 same niekoniecznie pełne Tekst książki lub pełnych obrazów, 29 00:01:53,060 --> 00:01:54,890 jednak, że w rzeczywistości może być inaczej. 30 00:01:54,890 --> 00:01:57,550 Ale to naprawdę informacje o danych. 31 00:01:57,550 --> 00:02:00,909 >> Więc można myśleć katalogowania informacje, numery alarmowe, przedmioty, 32 00:02:00,909 --> 00:02:02,700 ile kopii Książka jest, co 33 00:02:02,700 --> 00:02:06,380 są wersje, jakie są Formaty, autorzy, i tak dalej. 34 00:02:06,380 --> 00:02:12,250 Więc nie ma wiele informacji na temat informacje w kolekcji, które, 35 00:02:12,250 --> 00:02:14,400 sama w sobie, jest rodzaj natury przydatne. 36 00:02:14,400 --> 00:02:19,230 A jednak, jeśli jesteś prowadzenia badań szczegółowych, 37 00:02:19,230 --> 00:02:25,160 Ci oczywiście chcą dostać się do faktycznej zadowolić się i spojrzeć na dane, 38 00:02:25,160 --> 00:02:30,140 metadane są użyteczne w kontekście zarówno analizuje korpus jako całość 39 00:02:30,140 --> 00:02:33,870 jak to, co rzeczy są w kolekcji. 40 00:02:33,870 --> 00:02:35,520 Jaki mają związek? 41 00:02:35,520 --> 00:02:39,482 To pomaga naprawdę znaleźć inne rzeczy, co jest naprawdę głównym celem tego. 42 00:02:39,482 --> 00:02:41,190 Punkt Katalog metadanych oraz 43 00:02:41,190 --> 00:02:43,230 ma pomóc znaleźć wszystko informacje, że to 44 00:02:43,230 --> 00:02:46,590 dostępne w ramach kolekcji. 45 00:02:46,590 --> 00:02:53,690 >> Jest to więc przykład metadanych na książki w Bibliotece Harvarda. 46 00:02:53,690 --> 00:02:56,370 Więc to nie. 47 00:02:56,370 --> 00:02:59,850 I widać, że to faktycznie umiarkowanie złożone. 48 00:02:59,850 --> 00:03:04,610 I część wartości metadanych w ramach systemu Harvard Library 49 00:03:04,610 --> 00:03:09,320 jest, że to był porządek budowy przez catalogers 50 00:03:09,320 --> 00:03:12,720 w wykonaniu ludzi stosujących dużo wiedzy i umiejętności 51 00:03:12,720 --> 00:03:20,030 i myśli do niego w czasie, która posiada wiele wartości. 52 00:03:20,030 --> 00:03:25,450 >> Więc jeśli spojrzeć na tym rekordzie Alice przypisami, można się dowiedzieć, 53 00:03:25,450 --> 00:03:32,590 masz tytuł, który to napisał, autorem i wszystkie inne tematy 54 00:03:32,590 --> 00:03:35,380 które ludzie skatalogowane go do. 55 00:03:35,380 --> 00:03:40,110 I można zobaczyć tam również, w dodatek do wielu dobrych informacji 56 00:03:40,110 --> 00:03:42,852 tu jest jakaś powielania. 57 00:03:42,852 --> 00:03:45,560 Jest wiele złożoności to odzwierciedlone poprzez metadanych 58 00:03:45,560 --> 00:03:46,300 że masz. 59 00:03:46,300 --> 00:03:50,320 >> Więc jeden tytuł tej książki jest Alicja w Krainie Czarów. 60 00:03:50,320 --> 00:03:53,880 Więc to jest adnotacjami wersja tej książki. 61 00:03:53,880 --> 00:03:56,380 Ale jest również nazywany Opatrzony uwagami Alicja, Przygody Alicji 62 00:03:56,380 --> 00:03:58,570 w Krainie Czarów, ponieważ to jest coś, co 63 00:03:58,570 --> 00:04:00,430 Martin Gardner napisał i opatrzone książkę. 64 00:04:00,430 --> 00:04:03,369 I jest wiele wspaniałych informacji o zagadek logicznych i rzeczy 65 00:04:03,369 --> 00:04:05,410 Alicja, która Ciebie terminie prawdopodobnie nie wiedzieć. 66 00:04:05,410 --> 00:04:07,000 Należy więc zrób to. 67 00:04:07,000 --> 00:04:11,940 >> Ale widać nie ma wiele szczegółów tutaj 68 00:04:11,940 --> 00:04:15,340 w tym identyfikatorów, kiedy go został stworzony, skąd pochodzi, 69 00:04:15,340 --> 00:04:17,420 w odniesieniu do Harvard System i tak dalej. 70 00:04:17,420 --> 00:04:20,350 Więc to jest próbka rodzaj metadanych 71 00:04:20,350 --> 00:04:24,340 które można zobaczyć na książki w Kolekcja Harvard Library. 72 00:04:24,340 --> 00:04:26,680 >> To jest coś zupełnie innego. 73 00:04:26,680 --> 00:04:32,610 Więc nie jest to system o nazwie VIA Harvard, które w zasadzie 74 00:04:32,610 --> 00:04:39,990 jest katalogowanie zdjęć i przedmioty sztuki i rzeczy wizualne całej Harvardzie, 75 00:04:39,990 --> 00:04:44,010 i dodając trochę metadanych do nich, ich klasyfikacji, 76 00:04:44,010 --> 00:04:49,200 i, w pewnych przypadkach, zapewniając ochronną małe miniatury 77 00:04:49,200 --> 00:04:51,250 które można podjąć patrzeć jeśli sobie tego życzą. 78 00:04:51,250 --> 00:04:54,240 >> Więc jest przykładem metadane, że masz na talerzu 79 00:04:54,240 --> 00:04:57,840 z, prawdopodobnie, Alicja w Krainie Czarów. 80 00:04:57,840 --> 00:05:00,499 I widać tam mniej metadane tutaj. 81 00:05:00,499 --> 00:05:02,040 To jest po prostu inny rodzaj obiektu. 82 00:05:02,040 --> 00:05:03,425 A więc jest mniej informacji. 83 00:05:03,425 --> 00:05:07,790 >> Trzeba przede wszystkim fakt, że połączenia Numer, który go stworzył w zasadzie - 84 00:05:07,790 --> 00:05:10,410 >> Nie wiemy, kiedy to został stworzony. 85 00:05:10,410 --> 00:05:13,320 >> --and tytuł. 86 00:05:13,320 --> 00:05:14,300 >> Innym przykładem. 87 00:05:14,300 --> 00:05:16,380 Jest to pomoc stwierdzenie. 88 00:05:16,380 --> 00:05:19,030 Więc nie zbiór Lewis Dokumenty Carrolla na Harvardzie. 89 00:05:19,030 --> 00:05:23,601 Tak to opisuje co jest w tej kolekcji. 90 00:05:23,601 --> 00:05:26,100 Więc ktoś przeszedł i spojrzał na wszystkich polach 91 00:05:26,100 --> 00:05:32,220 i skatalogowane go, ponieważ niektóre tła, pisemne podsumowanie tego, co tu jest. 92 00:05:32,220 --> 00:05:35,290 A jeśli było patrzeć ponadto na tym, ten 93 00:05:35,290 --> 00:05:39,620 idzie do stron i stron i stron, ale powie 94 00:05:39,620 --> 00:05:41,860 jakie litery i jakie pochodzi z jakich polach 95 00:05:41,860 --> 00:05:44,289 istniały w całej kolekcji. 96 00:05:44,289 --> 00:05:46,330 Ale to jest coś że jeśli jesteś na Harvardzie, 97 00:05:46,330 --> 00:05:50,720 możesz iść i faktycznie fizycznie wyglądać i, przypuszczalnie, przyjrzeć. 98 00:05:50,720 --> 00:05:53,440 >> Więc to wszystko jest świetnie. 99 00:05:53,440 --> 00:05:54,450 Te metadane na użyteczne. 100 00:05:54,450 --> 00:05:56,327 To w systemie Harvard Library. 101 00:05:56,327 --> 00:05:58,910 Istnieją narzędzia online, gdzie cię może pójść i spojrzeć na to, 102 00:05:58,910 --> 00:05:59,993 i zobaczyć, i poszukać go. 103 00:05:59,993 --> 00:06:02,810 I można go pokroić i kości to w wielu różnych sposobów. 104 00:06:02,810 --> 00:06:06,920 >> Ale to naprawdę dostępne tylko wtedy, gdy jesteś człowiek siadając 105 00:06:06,920 --> 00:06:12,600 w przeglądarce internetowej lub coś lub telefon i nawigacja po nim. 106 00:06:12,600 --> 00:06:16,730 To naprawdę nie jest dostępny w wszelkiego rodzaju mody użytkowej 107 00:06:16,730 --> 00:06:19,520 dla innych systemów lub inne komputery w użyciu, 108 00:06:19,520 --> 00:06:21,500 nie z systemów w Biblioteka Harvard, 109 00:06:21,500 --> 00:06:24,890 ale systemy w świecie zewnętrznym, tylko innych ludzi w ogóle. 110 00:06:24,890 --> 00:06:30,210 Więc pytanie brzmi, jak możemy udostępnić ją do komputerów 111 00:06:30,210 --> 00:06:33,560 tak, że możemy zrobić bardziej interesujące rzeczy z nim nie tylko 112 00:06:33,560 --> 00:06:36,550 przeglądanie to sami? 113 00:06:36,550 --> 00:06:39,766 >> Więc dlaczego chcesz to zrobić? 114 00:06:39,766 --> 00:06:41,140 Istnieje wiele możliwości. 115 00:06:41,140 --> 00:06:43,980 Jeden to można zbudować zupełnie inny sposób przeglądania 116 00:06:43,980 --> 00:06:46,962 treści, które jest dostępne przez Bibliotek Harvard. 117 00:06:46,962 --> 00:06:48,670 Pokażę ci jeden później zwany Stacklife, 118 00:06:48,670 --> 00:06:52,440 który ma zupełnie inny podjąć szuka treści. 119 00:06:52,440 --> 00:06:54,560 >> Można zbudować silnik rekomendacji. 120 00:06:54,560 --> 00:06:57,955 Więc Harvard biblioteka nie jest w Działalność mówiąc, chcesz tę książkę. 121 00:06:57,955 --> 00:07:01,080 Następnie przejdź spojrzeć na te 17 innych książki, które mogą być zainteresowane 122 00:07:01,080 --> 00:07:03,200 czy te 18 innych obrazów. 123 00:07:03,200 --> 00:07:06,040 Ale to na pewno mógł być cennym elementem. 124 00:07:06,040 --> 00:07:09,272 A biorąc pod metadane, może można umieścić, że razem. 125 00:07:09,272 --> 00:07:11,980 Można mieć różne potrzeby w warunki przeszukiwania zawartości, 126 00:07:11,980 --> 00:07:16,200 jak być może mimo narzędzi są dostępne, które sprawia, że ​​biblioteki 127 00:07:16,200 --> 00:07:18,450 dostępna, możesz wyszukiwanie w inny sposób 128 00:07:18,450 --> 00:07:21,847 lub optymalizacji dla konkretnego przypadku użycia, który być może jest to bardzo wyspecjalizowane. 129 00:07:21,847 --> 00:07:23,930 Może to tylko niektóre ludzi na świecie, którzy 130 00:07:23,930 --> 00:07:25,846 Aby przeszukać zawartość W ten sposób, ale 131 00:07:25,846 --> 00:07:28,985 Byłoby wspaniale, gdybyśmy może pozwolić im zrobić. 132 00:07:28,985 --> 00:07:30,860 Jest wiele analiz w zaledwie, jak ludzi 133 00:07:30,860 --> 00:07:33,860 korzystać z zawartości, która byłaby naprawdę Ciekawe informacje, dowiedzieć się, 134 00:07:33,860 --> 00:07:37,280 co książki są stosowane co nie, i tak dalej. 135 00:07:37,280 --> 00:07:41,670 I jest jeszcze wiele okazją do integracji 136 00:07:41,670 --> 00:07:45,210 z innymi informacjami że gdzieś tam w internecie. 137 00:07:45,210 --> 00:07:46,880 Więc have-- 138 00:07:46,880 --> 00:07:50,260 >> Na przykład, ma NPR Segment recenzja książki, 139 00:07:50,260 --> 00:07:53,090 gdzie wywiad Autorzy o książkach. 140 00:07:53,090 --> 00:07:56,837 I tak byłoby wspaniale, gdybyś patrząc na książkę w Harvardzie 141 00:07:56,837 --> 00:07:59,670 Biblioteka, a ty mówisz, OK, nie ma był wywiad z autorem. 142 00:07:59,670 --> 00:08:00,878 Chodźmy spojrzeć na to. 143 00:08:00,878 --> 00:08:05,461 Albo istnieje strona Wikipedii, jak wiarygodne, naukowe odniesienia 144 00:08:05,461 --> 00:08:07,710 o tej książce, że cię może chcesz przyjrzeć. 145 00:08:07,710 --> 00:08:12,600 >> Są te typy źródeł rozproszone w całej sieci. 146 00:08:12,600 --> 00:08:16,555 I łącząc je może być bardzo przydatne 147 00:08:16,555 --> 00:08:18,930 do kogoś, patrząc na Zawartość, szukając czegoś. 148 00:08:18,930 --> 00:08:20,180 Ale to nie jest również Takie rzeczy TY 149 00:08:20,180 --> 00:08:23,205 chcą być odpowiedzialne biblioteki na zejście i polowaniem na 150 00:08:23,205 --> 00:08:25,455 wszystkie te różne źródła i podłączyć je razem 151 00:08:25,455 --> 00:08:28,920 ponieważ są one zmianie w sposób ciągły. 152 00:08:28,920 --> 00:08:33,570 A co jest dla nich ważne, może, Nie jest to, co uważasz za ważne. 153 00:08:33,570 --> 00:08:36,929 >> A nawet więcej, w zasadzie nie ma Wiele rzeczy nie pomyślał jeszcze. 154 00:08:36,929 --> 00:08:42,222 Tak więc, jeśli możemy to otworzyć się bardziej osób oprócz pół kilkunastu, 155 00:08:42,222 --> 00:08:45,174 którzy patrzą na to w regularny można myśleć o idei 156 00:08:45,174 --> 00:08:47,340 i masażu danych, a robić, co chcą z nim. 157 00:08:47,340 --> 00:08:49,920 158 00:08:49,920 --> 00:08:54,045 >> Dlatego chcemy, aby ten Dane dostępne dla świata. 159 00:08:54,045 --> 00:08:55,670 Cóż, jest kilka komplikacji. 160 00:08:55,670 --> 00:08:58,540 Jednym z nich jest, że tym metadanych w różnych systemach. 161 00:08:58,540 --> 00:09:01,110 To w różnych formatach. 162 00:09:01,110 --> 00:09:04,719 Więc jest jakaś normalizacja które musi się zdarzyć, 163 00:09:04,719 --> 00:09:08,010 której normalizacja jest procesem przynosząc rzeczy z różnych formatach 164 00:09:08,010 --> 00:09:12,940 i określania na ich do jednego formatu tak, że pola będą się zgadzać. 165 00:09:12,940 --> 00:09:15,160 >> Istnieją pewne ograniczenia dotyczące praw autorskich. 166 00:09:15,160 --> 00:09:21,010 Co dziwne, wpis do katalogu o książki ponosi odpowiedzialności za prawa autorskie. 167 00:09:21,010 --> 00:09:24,060 Więc nawet jeśli jest to tylko Informacje pochodzą z książki, 168 00:09:24,060 --> 00:09:25,330 to ochronie prawnoautorskiej. 169 00:09:25,330 --> 00:09:28,400 I w zależności od osoby, która je stworzony, że metadane, 170 00:09:28,400 --> 00:09:32,175 nie może podlegać ograniczeniom kto Można go rozpowszechniać, podobnie to-- 171 00:09:32,175 --> 00:09:33,402 >> Nie wiem. 172 00:09:33,402 --> 00:09:36,110 Może lub nie może być podobna do Sytuacja tekstów piosenek z, 173 00:09:36,110 --> 00:09:36,610 na przykład. 174 00:09:36,610 --> 00:09:38,560 Wszyscy wiemy, jak to przesuwa się. 175 00:09:38,560 --> 00:09:40,450 Więc trzeba się poruszać tej kwestii. 176 00:09:40,450 --> 00:09:44,910 >> A potem jeszcze kawałek jest że istnieje wiele danych. 177 00:09:44,910 --> 00:09:52,420 Więc jeśli jestem kimś, kto chce pracować z danymi lub ma fajny pomysł, 178 00:09:52,420 --> 00:09:55,350 do czynienia z 14 mln Zapisy na moim laptopie 179 00:09:55,350 --> 00:09:57,487 może być problematyczne i trudne do zarządzania. 180 00:09:57,487 --> 00:09:59,320 Dlatego chcemy, aby zmniejszyć bariery dla ludzi 181 00:09:59,320 --> 00:10:02,130 aby móc pracować z danymi. 182 00:10:02,130 --> 00:10:07,880 >> Tak więc podejście, które miejmy nadzieję, adresy wszystkie z tych problemów jest z dwóch części. 183 00:10:07,880 --> 00:10:11,770 Jednym z nich jest budowa platformy, która trwa Dane ze wszystkich tych różnorodnych źródeł 184 00:10:11,770 --> 00:10:14,350 i pogłębia ją, normalizuje, wzbogaca go i sprawia, 185 00:10:14,350 --> 00:10:16,650 jest dostępne w jednym miejscu. 186 00:10:16,650 --> 00:10:20,950 I to sprawia, że ​​jest dostępny przez API publicznej, że ludzie mogą dzwonić. 187 00:10:20,950 --> 00:10:24,430 >> Więc API aplikacji Programming Interface. 188 00:10:24,430 --> 00:10:28,930 I to w zasadzie odnosi się do Punkt końcowy, że system lub technologii 189 00:10:28,930 --> 00:10:31,720 Można zadzwonić i uzyskać dane z powrotem w Format zorganizowany w taki sposób, 190 00:10:31,720 --> 00:10:32,900 które mogą zostać użyte. 191 00:10:32,900 --> 00:10:36,060 Więc to nie jest zależne się dzieje na stronie 192 00:10:36,060 --> 00:10:37,970 i skrobanie danych off z tym, na przykład. 193 00:10:37,970 --> 00:10:40,690 194 00:10:40,690 --> 00:10:45,010 >> Więc to jest strona główna Biblioteka Chmura Pozycja API, 195 00:10:45,010 --> 00:10:47,220 która jest w zasadzie jego wersję dwa. 196 00:10:47,220 --> 00:10:50,130 Więc to druga odsłona starając się wszystkich tych danych 197 00:10:50,130 --> 00:10:53,280 dostępna na świecie. 198 00:10:53,280 --> 00:10:59,560 Więc to jest http://api.lib.harvard.edu/v2/items. 199 00:10:59,560 --> 00:11:03,830 I po prostu podzielenie go trochę, co to oznacza 200 00:11:03,830 --> 00:11:06,115 jest to, że jest to wersja dwóch API. 201 00:11:06,115 --> 00:11:08,490 Jest to wersja jednego, które Nie będę mówić. 202 00:11:08,490 --> 00:11:09,750 Ale nie jest to wersja jednego. 203 00:11:09,750 --> 00:11:14,740 >> A jeśli dzwonisz to API, dostajesz rzeczy. 204 00:11:14,740 --> 00:11:20,640 I część idei API API jest umowa. 205 00:11:20,640 --> 00:11:23,440 To coś, co jest nie zamierza zmieniać. 206 00:11:23,440 --> 00:11:24,850 Tak na przykład, - 207 00:11:24,850 --> 00:11:27,410 >> A powodem jest to, że jeśli zbudować jakiś system, który 208 00:11:27,410 --> 00:11:33,210 będzie korzystać z chmury biblioteki API do wyświetlania książek lub pomóc ludziom znaleźć 209 00:11:33,210 --> 00:11:36,190 Informacje w unikalny sposób, to, czego nie chcą się zdarzyć 210 00:11:36,190 --> 00:11:38,940 jest dla nas, aby go zmienić sposób że API działa i nagle 211 00:11:38,940 --> 00:11:41,340 wszystko łamie się na stronie użytkownika końcowego. 212 00:11:41,340 --> 00:11:46,710 Więc część jeśli robisz API dostępne dla świata, to 213 00:11:46,710 --> 00:11:49,396 dobra praktyka, aby umieścić Numer wersji, w tym tak ludzi 214 00:11:49,396 --> 00:11:51,020 znać wersję mają do czynienia. 215 00:11:51,020 --> 00:11:54,300 >> Jeśli więc zdecydujesz się znaleźć lepszy sposób udostępnienia tych informacji, 216 00:11:54,300 --> 00:11:57,295 może to zmienić, aby nazywają tę wersję trzy. 217 00:11:57,295 --> 00:11:59,920 Więc każdy, kto jest wciąż przy Wersja dwa, że ​​będzie nadal działać. 218 00:11:59,920 --> 00:12:03,490 Ale wersja trzech będzie mieć wszystkie nowe rzeczy. 219 00:12:03,490 --> 00:12:06,680 220 00:12:06,680 --> 00:12:09,210 >> Więc to jest API, ale to naprawdę wygląda URL. 221 00:12:09,210 --> 00:12:11,680 I tak, co to jest Przykładem jest to, co jest 222 00:12:11,680 --> 00:12:16,615 nazywa API odpoczynek, który jest dostępny w ciągu zaledwie regularnego połączenia internetowego. 223 00:12:16,615 --> 00:12:19,680 I można naprawdę przejdź do niej w przeglądarce. 224 00:12:19,680 --> 00:12:28,550 >> Więc ja właśnie otworzył Firefox i poszedł do api.lib.harvard.edu/v2/items. 225 00:12:28,550 --> 00:12:31,560 A więc to, co mam tutaj jest w zasadzie pierwsza strona 226 00:12:31,560 --> 00:12:34,740 wyników z całego zestaw elementów, które mamy. 227 00:12:34,740 --> 00:12:37,460 I to jest tutaj w formacie XML. 228 00:12:37,460 --> 00:12:40,130 229 00:12:40,130 --> 00:12:42,210 I to również prettified przez Firefoksa. 230 00:12:42,210 --> 00:12:45,850 To w rzeczywistości nie mają wszystkie te Trochę rozszerzanie i kurczenie 231 00:12:45,850 --> 00:12:47,880 doohickeys tutaj. 232 00:12:47,880 --> 00:12:52,520 Jest to rodzaj ładniejszy Wersja sposób na to patrzeć. 233 00:12:52,520 --> 00:12:57,040 >> Ale co to mówi nam jest Ja o wszystkie elementy. 234 00:12:57,040 --> 00:13:03,120 Tak więc istnieją 13.289.475 szt. 235 00:13:03,120 --> 00:13:06,150 I czekam na pierwsze 10, począwszy od pozycji zerowej 236 00:13:06,150 --> 00:13:09,760 ponieważ w informatyce zawsze zaczynają się od zera. 237 00:13:09,760 --> 00:13:15,150 I co mam tutaj, jeśli po prostu zwinąć to zobaczysz Mam 10 pozycji. 238 00:13:15,150 --> 00:13:20,410 239 00:13:20,410 --> 00:13:25,210 >> A jeśli spojrzeć na pozycji, mogę zobaczyć, że mam informacji na ten temat. 240 00:13:25,210 --> 00:13:27,400 I to jest to, co się nazywa forma MODS. 241 00:13:27,400 --> 00:13:30,860 I tak mam zamiar przełączyć z powrotem tutaj na chwilę. 242 00:13:30,860 --> 00:13:33,750 OK. 243 00:13:33,750 --> 00:13:37,447 >> Warto więc szukać czegoś w specyficzne, ponieważ pierwszy element, który 244 00:13:37,447 --> 00:13:40,030 dzieje się wymyślić, jeśli spojrzeć przez całą kolekcję 245 00:13:40,030 --> 00:13:41,750 Jest z definicji losowy. 246 00:13:41,750 --> 00:13:44,550 Więc spójrzmy na kilka pączków. 247 00:13:44,550 --> 00:13:46,830 Och. 248 00:13:46,830 --> 00:13:49,190 >> OK. 249 00:13:49,190 --> 00:13:49,940 Więc pączki. 250 00:13:49,940 --> 00:13:55,360 Więc znaleźliśmy znajduje się 80 pozycje zbiór wzorcowych pączki. 251 00:13:55,360 --> 00:13:57,150 Patrzymy na pierwsze 10 z nich. 252 00:13:57,150 --> 00:14:01,890 Teraz można zobaczyć tutaj sposób, że Powiedziałem Szukam pączki, 253 00:14:01,890 --> 00:14:04,400 Właśnie dodałem coś do łańcuch zapytania z adresu URL. 254 00:14:04,400 --> 00:14:09,680 Więc q jest równa pączki, które można zobaczyć trochę łatwiej tutaj. 255 00:14:09,680 --> 00:14:12,131 >> I to w zasadzie oznacza, że ​​jest spec dla API, które 256 00:14:12,131 --> 00:14:13,880 definiuje wszystkie parametry te myśli. 257 00:14:13,880 --> 00:14:17,150 A to oznacza, że ​​będziemy szukaj wszystko na pączki. 258 00:14:17,150 --> 00:14:24,910 >> Więc pierwszej pozycji mamy tutaj widać tytuł jest Donuts, 259 00:14:24,910 --> 00:14:29,310 i nie ma napisów nazwie Amerykańska Pasja, która jest, jak sądzę, 260 00:14:29,310 --> 00:14:31,610 właściwe. 261 00:14:31,610 --> 00:14:36,134 Istnieje wiele different-- 262 00:14:36,134 --> 00:14:38,050 Gdy dojdziesz do punktu, uzyskiwania danych, 263 00:14:38,050 --> 00:14:41,020 istnieje wiele różnych Formaty, które można dostać go w. 264 00:14:41,020 --> 00:14:44,050 I istnieją różne atuty i słabości na wszystkie z nich. 265 00:14:44,050 --> 00:14:49,000 Więc ten jeden, można zobaczyć tutaj, ta forma jest bardzo bogata. 266 00:14:49,000 --> 00:14:51,946 I to jest znormalizowana. 267 00:14:51,946 --> 00:14:55,040 >> Więc nie ma specyficzny tytuł pole, pole napisów. 268 00:14:55,040 --> 00:14:58,950 Istnieje alternatywna Tytuł, amerykański Passion. 269 00:14:58,950 --> 00:15:01,650 Nie jest to nazwa związana z nim. 270 00:15:01,650 --> 00:15:03,120 Typ zasobu jest tekst. 271 00:15:03,120 --> 00:15:06,070 Istnieje wiele informacji tu w tym formacie. 272 00:15:06,070 --> 00:15:09,480 >> Ale istnieje kilka z różnych formatów. 273 00:15:09,480 --> 00:15:11,920 Więc co my właśnie patrząc na to format 274 00:15:11,920 --> 00:15:17,700 zwane MODS, co oznacza Metadane obiektu Opis usługi, 275 00:15:17,700 --> 00:15:18,250 potencjalnie. 276 00:15:18,250 --> 00:15:23,030 Jestem naprawdę nie do końca pewny S. Ale to dość skomplikowany format. 277 00:15:23,030 --> 00:15:24,240 Jest to domyślny format. 278 00:15:24,240 --> 00:15:30,260 >> Ale jest jeden, który utrzymuje Bogactwo wszystkich danych 279 00:15:30,260 --> 00:15:33,820 że biblioteka ma powodu to jest bardzo blisko tego, co 280 00:15:33,820 --> 00:15:35,110 Biblioteka korzysta wewnętrznie. 281 00:15:35,110 --> 00:15:39,030 To standard, który jest używane w całym kraju, 282 00:15:39,030 --> 00:15:40,944 na całym świecie w bibliotekach akademickich. 283 00:15:40,944 --> 00:15:42,110 I to jest bardzo interoperacyjne. 284 00:15:42,110 --> 00:15:44,852 Więc jeśli masz dokument że jest w formacie MODS, 285 00:15:44,852 --> 00:15:47,560 można podać, że do kogoś innego których systemy zrozumieć, MODS, 286 00:15:47,560 --> 00:15:48,518 i można je importować. 287 00:15:48,518 --> 00:15:50,840 Więc jest to standardem. 288 00:15:50,840 --> 00:15:54,250 Jest bardzo dobrze zdefiniowany, bardzo specyficzne. 289 00:15:54,250 --> 00:15:58,980 I to jest to, co sprawia, że interoperacyjne, bo jeśli ktoś mówi, 290 00:15:58,980 --> 00:16:04,930 jest to alternatywny tytuł Rekord, każdy wie, co to oznacza. 291 00:16:04,930 --> 00:16:07,740 Z drugiej strony, jest to bardzo skomplikowane. 292 00:16:07,740 --> 00:16:13,160 >> Więc jeśli spojrzeć na tej płycie tutaj 293 00:16:13,160 --> 00:16:15,320 jeśli po prostu chcesz otrzymać Tytuł tego dokumentu, 294 00:16:15,320 --> 00:16:21,150 tej książki, która jest prawdopodobnie Donuts, Amerykańska Pasja, analizowania go 295 00:16:21,150 --> 00:16:22,940 jest trochę zaangażować. 296 00:16:22,940 --> 00:16:27,380 Zważywszy, że nie ma innego Format nazywa Dublin Core, 297 00:16:27,380 --> 00:16:29,730 co jest o wiele, wiele prostsze Format. 298 00:16:29,730 --> 00:16:33,764 >> I tak tu widzisz, nie ma tytuł, podtytuł, zastępca tytuł. 299 00:16:33,764 --> 00:16:35,930 Jest tylko tytuł, Pączki, amerykański Pasja, 300 00:16:35,930 --> 00:16:38,780 i kolejny tytuł, amerykański Passion. 301 00:16:38,780 --> 00:16:42,907 Więc kiedy szukasz w jakiej formie Aby uzyskać dane z, 302 00:16:42,907 --> 00:16:44,740 Wiele zależy od tego, jak masz zamiar go używać. 303 00:16:44,740 --> 00:16:46,573 Czy używasz do interoperacyjności czy też 304 00:16:46,573 --> 00:16:49,970 chcesz coś prostego, że Może być łatwiej pracować? 305 00:16:49,970 --> 00:16:56,002 >> Z drugiej strony, wiele szczegóły dostają jakby spłaszczony w dół. 306 00:16:56,002 --> 00:16:58,460 Możesz stracić niuanse co za szczególne środki polowe 307 00:16:58,460 --> 00:17:02,960 jeśli masz do czynienia z Dublin Core, których nie dałoby się z MODS. 308 00:17:02,960 --> 00:17:06,462 To są dwa formaty można dostać się z API. 309 00:17:06,462 --> 00:17:08,920 A w zasadzie, trzymamy że za kulisami w MODS. 310 00:17:08,920 --> 00:17:14,179 Ale możemy dać ci to w modach i Dublin Core i coś jeszcze. 311 00:17:14,179 --> 00:17:16,470 Inne korzyści, gdy szukasz w danych 312 00:17:16,470 --> 00:17:21,210 to można je dostać zarówno jako JSON, który oznacza JavaScript Object Notation, 313 00:17:21,210 --> 00:17:24,720 lub XML, co oznacza Extensible Markup Language. 314 00:17:24,720 --> 00:17:30,080 I oba te reprezentacje danych mają dokładnie te same dane, dokładnie 315 00:17:30,080 --> 00:17:31,080 te same pola. 316 00:17:31,080 --> 00:17:33,644 Ale to po prostu składniowo inaczej. 317 00:17:33,644 --> 00:17:40,401 >> Więc to jest A-- 318 00:17:40,401 --> 00:17:41,400 No cóż, po prostu przełączyć. 319 00:17:41,400 --> 00:17:47,490 Więc to jest nasze zapytanie do pączki w formacie XML. 320 00:17:47,490 --> 00:17:53,470 Jeśli po prostu przełączyć to za JSON, Widzę, że wygląda inaczej. 321 00:17:53,470 --> 00:17:58,580 Więc teraz jest to ta sama treść, ale inna konstrukcja. 322 00:17:58,580 --> 00:18:00,080 Jest mniej nawiasy. 323 00:18:00,080 --> 00:18:02,530 Jest mniej gadatliwe. 324 00:18:02,530 --> 00:18:06,440 >> I jest to format, który, jeśli Ciebie pracy w środowisku sieciowym, 325 00:18:06,440 --> 00:18:09,680 jesteś najprawdopodobniej będzie aby użyć, ponieważ jednym 326 00:18:09,680 --> 00:18:12,630 z miłych rzeczy o JSON jest jest to zgodne z JavaScript. 327 00:18:12,630 --> 00:18:17,680 Więc jeśli piszę aplikację internetową, mogę wyciągnąć JSON i po prostu pracować z nim bezpośrednio. 328 00:18:17,680 --> 00:18:20,187 Podczas gdy z XML, to trochę bardziej skomplikowane. 329 00:18:20,187 --> 00:18:21,520 Ponownie więc, obie są użyteczne. 330 00:18:21,520 --> 00:18:26,387 Oni po prostu są różne przypadki użycia gdzie ludzie mogą chcieć z nich skorzystać. 331 00:18:26,387 --> 00:18:26,886 OK. 332 00:18:26,886 --> 00:18:29,810 333 00:18:29,810 --> 00:18:31,680 Wracając do API. 334 00:18:31,680 --> 00:18:32,900 Więc możemy szukać for-- 335 00:18:32,900 --> 00:18:36,220 >> I dać przykład szukając pączków. 336 00:18:36,220 --> 00:18:39,330 Możemy również szukać tylko w szczególności pola w tutaj. 337 00:18:39,330 --> 00:18:41,310 Więc zamiast szukać Cała płyta, 338 00:18:41,310 --> 00:18:43,870 Mogę tylko szukaj w polu nazwy. 339 00:18:43,870 --> 00:18:48,810 A więc teraz jest 25 rzeczy, które mają pączki w tytule, z których jeden 340 00:18:48,810 --> 00:18:52,430 jest o przywrócenie mokradeł w zarządzaniu 341 00:18:52,430 --> 00:18:54,990 odwiertu w pączka Program, który jest zapewne 342 00:18:54,990 --> 00:18:58,970 niekoniecznie to, czego szukamy na kiedy szukasz pączki. 343 00:18:58,970 --> 00:19:02,790 344 00:19:02,790 --> 00:19:05,490 >> Można także, gdy jesteś czynienia z API-- 345 00:19:05,490 --> 00:19:08,827 >> Części posiadające API daje ludziom dostęp do dużych zbiorów danych. 346 00:19:08,827 --> 00:19:11,410 I istnieje kilka różne Narzędzia można użyć, aby to zrobić. 347 00:19:11,410 --> 00:19:14,170 Jednym z nich jest, w bardzo prosty sposób, można można przewijać danych. 348 00:19:14,170 --> 00:19:17,340 Więc tak jakby zrobić kwerendę przez interfejs WWW, 349 00:19:17,340 --> 00:19:19,470 można spojrzeć na pierwszej stronie, Strona dwa, strona trzy. 350 00:19:19,470 --> 00:19:22,040 Możesz zrobić to samo rzeczą poprzez API. 351 00:19:22,040 --> 00:19:24,150 Wystarczy być wyraźnie, w jaki sposób to zrobić. 352 00:19:24,150 --> 00:19:29,511 >> Tak na przykład, jeśli szukam co tu mojego pierwszego zapytania, 353 00:19:29,511 --> 00:19:32,510 gdzie robię poszukiwania rzeczy z pączków w tytule, mogę powiedzieć, 354 00:19:32,510 --> 00:19:35,415 a graniczny wynosi 20, co oznacza, daj mi pierwsze 20 rekordów, nie 355 00:19:35,415 --> 00:19:38,540 Pierwszy 10, który jest domyślny, bo chcę patrzeć na 20 na raz. 356 00:19:38,540 --> 00:19:43,435 Albo można powiedzieć, ustawić rozpocznie równa 20 i limitu 357 00:19:43,435 --> 00:19:47,150 równe 20, co da mi 21 do 40 rejestruje. 358 00:19:47,150 --> 00:19:52,680 >> Sądzę więc, że rzeczy zabrać tutaj jest 359 00:19:52,680 --> 00:19:57,290 że używamy ciągów zapytania ustawić parametry na zapytanie. 360 00:19:57,290 --> 00:20:02,760 I to pozwala na kontrolę czego wrócić. 361 00:20:02,760 --> 00:20:05,980 >> Innym narzędziem, które można wykorzystać, - 362 00:20:05,980 --> 00:20:09,250 >> I to jest bardzo pomocne w Warunki odkrywania danych. 363 00:20:09,250 --> 00:20:10,840 >> --is coś o nazwie faceting. 364 00:20:10,840 --> 00:20:15,530 Więc faceting termin jest niekoniecznie wspólnego. 365 00:20:15,530 --> 00:20:16,880 Ale już wszystko widziałem go wcześniej. 366 00:20:16,880 --> 00:20:18,630 Jeśli spojrzeć na Amazon np 367 00:20:18,630 --> 00:20:20,870 i nie szukaj pączki w księgach, 368 00:20:20,870 --> 00:20:27,080 tutaj, że mam serię książek, i są one pogrupowane według kategorii, 369 00:20:27,080 --> 00:20:30,470 i dostać się na różne kategorie, i jak wiele książek w każdej kategorii 370 00:20:30,470 --> 00:20:31,330 pokazać. 371 00:20:31,330 --> 00:20:33,420 >> Tak to jest w zasadzie facet. 372 00:20:33,420 --> 00:20:37,570 Weź wszystkie swoje książki, 1800 książki pasujących pączki w Amazon. 373 00:20:37,570 --> 00:20:39,820 12 z nich znajduje się w Kategoria śniadanie. 374 00:20:39,820 --> 00:20:43,100 21 w cieście i pieczenia, i tak dalej, i tak dalej. 375 00:20:43,100 --> 00:20:47,670 >> Więc to jest naprawdę przydatne Narzędzie do odkrywania treści 376 00:20:47,670 --> 00:20:53,260 w bibliotece, a także bo jeśli spojrzeć na aspekt, 377 00:20:53,260 --> 00:20:56,520 to daje wyobrażenie o tym, co poddaje istnieje, jak to, co rodzajów przedmiotów 378 00:20:56,520 --> 00:20:58,510 są najbardziej popularne w swoim zestawie zapytania. 379 00:20:58,510 --> 00:21:00,950 A to pomaga odpędzić i zbadać. 380 00:21:00,950 --> 00:21:02,770 Tak więc możemy zrobić to samo. 381 00:21:02,770 --> 00:21:05,940 >> Jeśli chcemy użyć API i spojrzeć na aspekty, 382 00:21:05,940 --> 00:21:08,950 możemy dodać kolejny parametr do nasz przyjaciel znaków zapytania. 383 00:21:08,950 --> 00:21:12,540 Więc aspektów równa oddzielone przecinkami lista tego, co chcemy Facet na. 384 00:21:12,540 --> 00:21:14,790 Tak więc jednym z aspektów, może podlegać. 385 00:21:14,790 --> 00:21:16,565 Innym może być język. 386 00:21:16,565 --> 00:21:19,665 I tak, jeśli prowadzimy tę kwerendę, że get-- 387 00:21:19,665 --> 00:21:23,372 388 00:21:23,372 --> 00:21:24,830 Wygląda prawie tak samo tutaj. 389 00:21:24,830 --> 00:21:29,010 Ale dodaliśmy do końca listy zestaw aspektów. 390 00:21:29,010 --> 00:21:34,060 Mamy więc aspekt nazwie tematu. 391 00:21:34,060 --> 00:21:40,250 Więc to mówi nam, że kiedy patrzę na moje 80 wyników z zapytania pączka, 392 00:21:40,250 --> 00:21:42,100 13 z nich narażać Stany Zjednoczone. 393 00:21:42,100 --> 00:21:43,684 Trzy mają podlegające pączki. 394 00:21:43,684 --> 00:21:45,600 Trzy ma tematu rekultywacji terenów podmokłych, 395 00:21:45,600 --> 00:21:47,720 które mogą być naszym dziura w pączek. 396 00:21:47,720 --> 00:21:51,780 Dwa z nich, The Simpsons, i tak dalej, i tak dalej. 397 00:21:51,780 --> 00:21:59,211 >> Więc może to być przydatne, jeśli Ciebie Aby zawęzić wyszukiwanie. 398 00:21:59,211 --> 00:22:00,210 To może pomóc zrobić. 399 00:22:00,210 --> 00:22:03,580 Zwłaszcza jeśli masz więcej niż, powiedzmy, 80 wyników. 400 00:22:03,580 --> 00:22:05,980 >> Podobnie, również poprosił na aspektach na języku. 401 00:22:05,980 --> 00:22:14,790 Więc jeśli spojrzymy na nasze wyniki, widzimy 76 z nich są w języku angielskim, cztery w języku francuskim, 402 00:22:14,790 --> 00:22:19,620 dwa w języku hiszpańskim, dwa, myślę, że to nieokreślone lub nieznane, holenderski i łacina. 403 00:22:19,620 --> 00:22:22,830 Więc myślę, że z łaciny Wynik pączki, znowu, 404 00:22:22,830 --> 00:22:24,922 nie ma nic wspólnego z pieczywa. 405 00:22:24,922 --> 00:22:25,630 Ale tam. 406 00:22:25,630 --> 00:22:31,420 407 00:22:31,420 --> 00:22:38,630 >> Więc to jest jakby pokazując, jak można wyciągnąć zawartość z powrotem 408 00:22:38,630 --> 00:22:41,270 z API tylko poprzez przeglądarka internetowa, która jest świetna. 409 00:22:41,270 --> 00:22:44,320 Ale to naprawdę nie jest to, co będzie zwykle przy użyciu API dla niego. 410 00:22:44,320 --> 00:22:48,710 Więc jeden z przykładów, w jaki sposób może faktycznie to mam 411 00:22:48,710 --> 00:22:54,720 napisane bardzo mały program, które znów moje wyszukiwanie pączka 412 00:22:54,720 --> 00:22:59,010 i wybiera pola kilka i wyświetla je w tabeli. 413 00:22:59,010 --> 00:23:01,610 Więc to jest bardzo sama treść, że po prostu 414 00:23:01,610 --> 00:23:04,830 Piła z kilkoma polami wyciągnął. 415 00:23:04,830 --> 00:23:12,090 Więc listy tytułów, na lokalizacja jakiej książce 416 00:23:12,090 --> 00:23:15,120 jest o, język, i tak dalej, i tak dalej. 417 00:23:15,120 --> 00:23:20,480 >> Więc jak to się właściwie stało, gdyż Myślę, że musimy patrzeć na niektóre kodu, 418 00:23:20,480 --> 00:23:22,420 is-- 419 00:23:22,420 --> 00:23:28,060 >> Mamy tu jest prosty HTML strona, która wyświetla tekst, 420 00:23:28,060 --> 00:23:32,900 Zapraszamy do biblioteki i chmury następnie wyświetla tabelę wyników. 421 00:23:32,900 --> 00:23:37,790 I są oczywiście nie ma żadnych wyników w Stół, gdy strona jest ładowany. 422 00:23:37,790 --> 00:23:41,380 Ale co robimy Jest to przede wszystkim, 423 00:23:41,380 --> 00:23:46,290 ładowania biblioteki o nazwie jQuery, która jest w zasadzie 424 00:23:46,290 --> 00:23:52,030 biblioteka JavaScript, która sprawia, że bardzo łatwe do manipulowania JavaScript 425 00:23:52,030 --> 00:23:58,780 natywnie, HTML i tworzenie stron internetowych, logiki po stronie klienta i stron internetowych. 426 00:23:58,780 --> 00:24:01,595 >> Więc co tu mamy to jQuery ma metodę o nazwie Wirtualny, 427 00:24:01,595 --> 00:24:05,270 które zasadniczo trafi do URL, który w tym przypadku 428 00:24:05,270 --> 00:24:09,070 jest to znajomy szuka URL. 429 00:24:09,070 --> 00:24:14,440 A następnie uzyskać zawartość z że adres URL, a następnie uruchom funkcję na nim. 430 00:24:14,440 --> 00:24:19,240 Więc powiedział przejść do api.lib.harvard / edu. 431 00:24:19,240 --> 00:24:20,060 Szukaj na pączki. 432 00:24:20,060 --> 00:24:21,300 Daj nam 20 rekordów. 433 00:24:21,300 --> 00:24:28,590 A następnie uruchomić tę funkcję, która Wybrałem, przekazując jej dane. 434 00:24:28,590 --> 00:24:34,430 I danych JSON, że ale wrócił z API. 435 00:24:34,430 --> 00:24:40,120 >> I wtedy mówimy, że w ciągu Dane istnieje pole o nazwie poz. 436 00:24:40,120 --> 00:24:48,117 A jeśli pójdę spojrzeć wstecz na jeden z tych wyników, że jest tutaj, 437 00:24:48,117 --> 00:24:49,200 jest coś called-- 438 00:24:49,200 --> 00:24:50,220 >> Cóż, to się nazywa poz. 439 00:24:50,220 --> 00:24:53,520 Tak, że może być to. 440 00:24:53,520 --> 00:25:01,840 A co robi jest to przechodzi każdej pozycji 441 00:25:01,840 --> 00:25:05,300 a następnie wywołuje kolejny Funkcja na każdej pozycji. 442 00:25:05,300 --> 00:25:08,440 I to w zasadzie funkcję bierze wartość 443 00:25:08,440 --> 00:25:12,010 elementu, który jest zasadniczo indywidualny zapis 444 00:25:12,010 --> 00:25:18,220 i pozwala nam wyciągnąć tytuł, zakres i język. 445 00:25:18,220 --> 00:25:21,640 >> Tak nazywamy funkcję dla każdego poz, że wróciliśmy z API. 446 00:25:21,640 --> 00:25:25,397 I jeśli tylko spojrzeć w tym kawałku tutaj, 447 00:25:25,397 --> 00:25:27,230 to, co robimy jest tworzymy ciąg, 448 00:25:27,230 --> 00:25:31,810 która jest w zasadzie niektóre znaczniki HTML przy stole, z value.title, 449 00:25:31,810 --> 00:25:35,790 który to tytuł Obiekt, value.coverage, 450 00:25:35,790 --> 00:25:36,790 co jest zasięg, - 451 00:25:36,790 --> 00:25:38,225 >> I robimy test tutaj, aby zobaczyć, kto jest niezdefiniowane 452 00:25:38,225 --> 00:25:40,570 i ukrywanie go, jeśli mówi undefined dlatego, że nie jesteśmy zainteresowani 453 00:25:40,570 --> 00:25:41,600 w tym. 454 00:25:41,600 --> 00:25:42,939 >> --and to język. 455 00:25:42,939 --> 00:25:44,730 I co wtedy jesteśmy robi jest dodanie, że 456 00:25:44,730 --> 00:25:48,510 w tabeli, który jest zidentyfikowane przez ten ciąg tutaj. 457 00:25:48,510 --> 00:25:50,790 A jak działa jQuery to co to mówi 458 00:25:50,790 --> 00:25:56,420 jest spojrzeć na tabelę z pomysłem Wyniki i dodać ten tekst do niego. 459 00:25:56,420 --> 00:25:59,380 I to jest tabela z wynikami pomysł. 460 00:25:59,380 --> 00:26:04,998 Więc co w końcu z tej strony jest tutaj. 461 00:26:04,998 --> 00:26:06,206 I aby zobaczyć source-- 462 00:26:06,206 --> 00:26:11,310 463 00:26:11,310 --> 00:26:13,810 Cóż, nie jest w rzeczywistości źródłem aktualizowany, gdy to się stało. 464 00:26:13,810 --> 00:26:18,740 Więc widać, rzeczywista Wyniki tabeli tutaj mimo. 465 00:26:18,740 --> 00:26:24,770 >> Więc to tylko prosty przykład robi bardzo podstawowe zapytanie do API 466 00:26:24,770 --> 00:26:29,020 oraz wyświetlanie innych informacji, w niektórych tworzyć i nic nie robić zbyt fantazyjne. 467 00:26:29,020 --> 00:26:36,370 Teraz, kolejnym przykładem jest jak Aplikacja napisana przez David Weinberger 468 00:26:36,370 --> 00:26:39,120 jako demo tego, co zasadniczo pokazuje, 469 00:26:39,120 --> 00:26:44,620 jak można rozgnieść się wyniki, które Cię się z biblioteki API cloud 470 00:26:44,620 --> 00:26:46,250 z, powiedzmy, Google Books. 471 00:26:46,250 --> 00:26:52,225 >> A myślenie o to, że mogę uruchomić kwerendę przeciwko Google Books 472 00:26:52,225 --> 00:26:56,060 dostać wyszukiwanie pełnotekstowe, trochę wyników powrotem, dowiedzieć się, które z tych elementów 473 00:26:56,060 --> 00:27:01,180 faktycznie istnieją w Hollis, system biblioteczny, 474 00:27:01,180 --> 00:27:03,200 a następnie dać mi linki z powrotem do tych pozycji. 475 00:27:03,200 --> 00:27:12,730 Więc jeśli mogę szukać, to było ciemna i burzliwa noc, ja 476 00:27:12,730 --> 00:27:16,210 wrócić kilka wyników od Google, a następnie jeden wynik 477 00:27:16,210 --> 00:27:19,460 co jest w Czasie zmarszczek. 478 00:27:19,460 --> 00:27:29,330 I to są linki do książek, które istnieją w ramach systemu Harvard Library. 479 00:27:29,330 --> 00:27:32,160 >> Sądzę więc, że chodzi tu nie jest tak bardzo, że to może być lub nie może 480 00:27:32,160 --> 00:27:34,118 za sposób, w jaki chcesz do przeszukiwania biblioteki, 481 00:27:34,118 --> 00:27:38,310 ale to jest zupełnie inna sposób, który nie był dostępny dla Ciebie 482 00:27:38,310 --> 00:27:42,884 przed, jak ty nie miał sposobu pracy Pełny tekst wyszukiwania na książki, że nawet 483 00:27:42,884 --> 00:27:44,550 były częścią systemu Harvard Library. 484 00:27:44,550 --> 00:27:46,870 Więc teraz jest to sposób że można to zrobić. 485 00:27:46,870 --> 00:27:51,930 I można je wyświetlić w dowolnym formacie chcesz. 486 00:27:51,930 --> 00:27:55,990 Więc chodzi o to, w zasadzie, otwieramy nowe drogi dla ludzi 487 00:27:55,990 --> 00:27:59,080 do pracy z danymi. 488 00:27:59,080 --> 00:28:07,925 >> Kolejna chmura jest to, że biblioteki pomaga narazić niektóre dane użytkowania 489 00:28:07,925 --> 00:28:08,800 że biblioteka ma. 490 00:28:08,800 --> 00:28:12,630 Więc jeśli masz iść do biblioteki, i szukasz książki, 491 00:28:12,630 --> 00:28:15,770 Nie koniecznie faktycznie ma pomysł, 492 00:28:15,770 --> 00:28:19,080 dla wszystkich elementów szczególności przedmiotem, co 493 00:28:19,080 --> 00:28:21,200 Są ludzie w społeczność, czy to 494 00:28:21,200 --> 00:28:24,890 zdefiniowane jako Harvard lub kraj lub klasa, 495 00:28:24,890 --> 00:28:26,421 jakie mają znaleźć najbardziej przydatne? 496 00:28:26,421 --> 00:28:28,920 I rzeczywiście ma biblioteki mnóstwo informacji o tym, co 497 00:28:28,920 --> 00:28:32,999 jest najbardziej przydatna, ponieważ jeżeli partia od osób sprawdzanie książkę, 498 00:28:32,999 --> 00:28:34,040 że mówi coś. 499 00:28:34,040 --> 00:28:36,498 Musiał być jakiś powód chcą, aby to sprawdzić. 500 00:28:36,498 --> 00:28:38,270 Wielu ludzi umieścić go na rezerwie. 501 00:28:38,270 --> 00:28:42,520 >> Jeśli jest na liście rezerwowej dla wielu zajęć, które mówi coś. 502 00:28:42,520 --> 00:28:45,960 Jeśli członkowie wydziału sprawdzamy go się dużo i Studenci nie są, 503 00:28:45,960 --> 00:28:47,200 że mówi mi coś. 504 00:28:47,200 --> 00:28:49,280 Odwrotnie, że również mówi coś. 505 00:28:49,280 --> 00:28:54,680 Więc byłoby naprawdę ciekawe umieścić te informacje tam i niech 506 00:28:54,680 --> 00:28:59,969 osób używa go, aby pomóc im znaleźć pracuje w systemie bibliotek. 507 00:28:59,969 --> 00:29:02,260 Druga strona tego jest istnieją pewne poważne prywatności 508 00:29:02,260 --> 00:29:07,854 obawy, ponieważ jeden z podstawowe założenia biblioteki 509 00:29:07,854 --> 00:29:10,770 to nie będziemy się mówić osób, co inni ludzie czytają. 510 00:29:10,770 --> 00:29:17,360 I nawet jeśli mówią to Książka została sprawdzona cztery razy 511 00:29:17,360 --> 00:29:20,070 w danym miesiącu które mogą być stosowane 512 00:29:20,070 --> 00:29:25,252 odnośniki do szczególności Osoba dane de anonimizerów 513 00:29:25,252 --> 00:29:26,710 i dowiedzieć się, kto sprawdził to. 514 00:29:26,710 --> 00:29:30,792 Tak więc sposób możemy avoid-- 515 00:29:30,792 --> 00:29:33,750 Sposób, że możemy spróbować wyodrębnić jakiś sygnał od wszystkich informacji 516 00:29:33,750 --> 00:29:36,740 bez naruszania Obawy niczyjej prywatności 517 00:29:36,740 --> 00:29:42,150 jest zasadniczo patrzymy na 10 lat użytkowania danych, - 518 00:29:42,150 --> 00:29:43,930 >> Tak, że w dłuższym okresie czasu. 519 00:29:43,930 --> 00:29:50,639 >> --and powiedzieć, OK, zobaczmy jak wiele razy ta praca została stosowane, 520 00:29:50,639 --> 00:29:52,930 i kto w tym okresie czasu, a następnie w zasadzie 521 00:29:52,930 --> 00:29:56,300 oddać numer, który nazywamy Wynik stosu, który w zasadzie 522 00:29:56,300 --> 00:29:59,910 pokazuje, jak bardzo to było używane. 523 00:29:59,910 --> 00:30:01,084 I że number-- 524 00:30:01,084 --> 00:30:03,250 Wiele różnych obliczeń przejść do tego numeru. 525 00:30:03,250 --> 00:30:05,150 --but to bardzo szorstki metryki, które daje 526 00:30:05,150 --> 00:30:11,300 niektóre pomysł, jak wspólnota może wartość tej pracy. 527 00:30:11,300 --> 00:30:16,772 >> I tak jeszcze inny rodzaj więcej uregulowana aplikacji 528 00:30:16,772 --> 00:30:18,480 , który wykorzystuje to jest coś, 529 00:30:18,480 --> 00:30:24,000 nazywany Stacklife, która jest faktycznie dostępne przez główny Harvardzie 530 00:30:24,000 --> 00:30:24,880 Portal biblioteka. 531 00:30:24,880 --> 00:30:26,700 Więc idziesz do library.harvard.edu. 532 00:30:26,700 --> 00:30:29,360 Zobaczysz wiele różni sposoby przeszukiwania biblioteki. 533 00:30:29,360 --> 00:30:32,300 I jeden z nich nazywa Stacklife. 534 00:30:32,300 --> 00:30:38,980 >> I jest to aplikacja, która przeszukuje zawartość biblioteki 535 00:30:38,980 --> 00:30:43,490 ale jest całkowicie zbudowany bazujące na tych interfejsów. 536 00:30:43,490 --> 00:30:46,910 Więc nie ma specjalnego rzeczy dzieje się za kulisami. 537 00:30:46,910 --> 00:30:49,570 Nie ma dostępu do Dane, które nie posiadają. 538 00:30:49,570 --> 00:30:54,090 To użyciu interfejsów API, aby zapewnić z zupełnie innej przeglądanie 539 00:30:54,090 --> 00:30:55,480 doświadczenie. 540 00:30:55,480 --> 00:30:58,570 >> Więc jeśli mogę szukać Alice w Krainie Czarów, w tym przypadku, 541 00:30:58,570 --> 00:31:02,600 Uzyskać wynik, który wygląda jak tego, co jest dość much-- 542 00:31:02,600 --> 00:31:05,430 543 00:31:05,430 --> 00:31:10,870 >> Jest bardzo podobny do innego wyszukiwania Może to zrobić, z wyjątkiem w tym przypadku 544 00:31:10,870 --> 00:31:15,730 jesteśmy rankingu pozycji przez stackscore, które daje 545 00:31:15,730 --> 00:31:19,850 jakiś pomysł, jak popularne są pozycje były w społeczności. 546 00:31:19,850 --> 00:31:25,610 I tak wyraźnie, Alicja w Krainie Czarów przez Walt Disney jest bardzo popularne. 547 00:31:25,610 --> 00:31:36,570 Ale można również zobaczyć cztery najlepsze Oto te, które nie mogą actually-- 548 00:31:36,570 --> 00:31:39,220 >> Rzeczy, które są bardzo wykorzystywane, ale nie może bezpośrednio 549 00:31:39,220 --> 00:31:41,240 połączyć z Alicji w Krainie Czarów. 550 00:31:41,240 --> 00:31:44,650 Tak więc nasz stary przyjaciel Annotated Alice jest tutaj. 551 00:31:44,650 --> 00:31:46,350 Więc mogę spojrzeć na niego. 552 00:31:46,350 --> 00:31:52,010 A teraz to, czego szukam co jest w zasadzie ustawić of-- 553 00:31:52,010 --> 00:31:53,760 Mogę mieć Opatrzony uwagami Alice właśnie tutaj. 554 00:31:53,760 --> 00:31:56,700 Mam informacje o nim. 555 00:31:56,700 --> 00:32:00,230 I ja też mam stackscore z, w tym przypadku, 26. 556 00:32:00,230 --> 00:32:03,169 I to mówi mi, jakby grubsza jak doszliśmy do tego stackscore, 557 00:32:03,169 --> 00:32:05,835 jak kto sprawdził to, jak, jak wiele razy został wyrejestrowany, 558 00:32:05,835 --> 00:32:08,440 jak wydziału lub undergrads, jak wiele kopii biblioteki ma, 559 00:32:08,440 --> 00:32:11,300 i tak dalej, i tak dalej. 560 00:32:11,300 --> 00:32:16,460 >> I można również, na tyle ciekawe, tutaj, przeglądać stosy praktycznie. 561 00:32:16,460 --> 00:32:19,550 Więc tutaj dane, w tym pokazuje ci sortowania 562 00:32:19,550 --> 00:32:23,547 wirtualnego reprezentacji z jakiej potędze półki 563 00:32:23,547 --> 00:32:25,880 wyglądać, jeśli chcesz robić wszystkie zasoby biblioteki 564 00:32:25,880 --> 00:32:28,940 i umieścić je razem na jednej nieskończonej półce. 565 00:32:28,940 --> 00:32:30,990 I miłą rzeczą jest to, że can-- 566 00:32:30,990 --> 00:32:33,380 >> Przede wszystkim metadane na temat tych książek 567 00:32:33,380 --> 00:32:35,627 Często mówi, kiedy został on opublikowany. 568 00:32:35,627 --> 00:32:37,085 Dowiesz się, ile stron ma. 569 00:32:37,085 --> 00:32:38,459 To może powiedzieć wymiary. 570 00:32:38,459 --> 00:32:42,930 Tak więc widać, że to odzwierciedlenie tutaj w odniesieniu do rozmiaru książki. 571 00:32:42,930 --> 00:32:46,740 >> A potem możemy użyć stosu wynik, aby podświetlić 572 00:32:46,740 --> 00:32:49,170 książki, które mają wyższe wyniki stosu. 573 00:32:49,170 --> 00:32:54,930 Więc jeśli jest ciemniejszy, oznacza to, że, Można przypuszczać, że stosuje się go częściej. 574 00:32:54,930 --> 00:32:57,040 Więc w tym przypadku, jestem Chyba, że ​​będzie to 575 00:32:57,040 --> 00:33:03,226 jest wersja Alicji w Krainie Czarów który jest bardzo często stosowany, a najbardziej 576 00:33:03,226 --> 00:33:05,100 dostępne, biblioteka ma najwięcej egzemplarzy. 577 00:33:05,100 --> 00:33:06,975 Więc jeśli szukasz dla Alicji w Krainie Czarów, 578 00:33:06,975 --> 00:33:10,220 może to być dobre miejsce, aby rozpocząć. 579 00:33:10,220 --> 00:33:13,500 >> I to tutaj można także łączyć się do, powiedzmy, Amazon zakupić książkę, 580 00:33:13,500 --> 00:33:15,182 i tak dalej, i tak dalej. 581 00:33:15,182 --> 00:33:17,140 Chodzi o, znowu, Nie jest tak, że 582 00:33:17,140 --> 00:33:25,030 jest najlepszym sposobem, aby przeglądać bibliotekę lub odpowiednim narzędziem dla każdej okazji. 583 00:33:25,030 --> 00:33:28,400 Ale jest inny sposób to zrobić. 584 00:33:28,400 --> 00:33:31,359 I udostępnienie informacji dostępne poprzez API, które 585 00:33:31,359 --> 00:33:34,650 jest wykonana z bardzo prostych bloków budowlanych która pozwala na wyszukiwanie treści, 586 00:33:34,650 --> 00:33:39,420 można zbudować coś tak, że można 587 00:33:39,420 --> 00:33:41,520 nadzwyczajnie cenne dla niektórych ludzi. 588 00:33:41,520 --> 00:33:46,640 589 00:33:46,640 --> 00:33:51,860 >> Więc to jest coś w rodzaju, jak chcę powiedzieć o tym, co naprawdę jest API 590 00:33:51,860 --> 00:33:56,070 i co naraża, istnieje cały kilka rzeczy za kulisami, które 591 00:33:56,070 --> 00:33:59,480 Idę tylko na krótko dotknąć tylko dlatego, że jakby co to jest 592 00:33:59,480 --> 00:34:03,720 z zupełnie innej perspektywy, w Warunki w jaki sposób coś takiego 593 00:34:03,720 --> 00:34:04,580 się umieścić w miejscu? 594 00:34:04,580 --> 00:34:10,820 >> Więc to standard interfejsu API interfejs do wszystkich tych treści. 595 00:34:10,820 --> 00:34:13,820 Ale aby go tam, Pierwszą rzeczą, jaką musiałem zrobić 596 00:34:13,820 --> 00:34:17,260 został współdziałać informacji książek i obrazów 597 00:34:17,260 --> 00:34:21,580 i pomocy archiwalnych, kolekcja Dokument z różnych systemów Harvard. 598 00:34:21,580 --> 00:34:23,929 Aleph, VIA i OASIS są nazwy systemów. 599 00:34:23,929 --> 00:34:28,820 I w zasadzie przejść do Rurociąg, rurociąg przetwarzania. 600 00:34:28,820 --> 00:34:33,230 >> Więc przede wszystkim, mamy eksport pliki z wszystkich tych systemów. 601 00:34:33,230 --> 00:34:35,130 Podzieliliśmy je na poszczególne pozycje. 602 00:34:35,130 --> 00:34:39,360 Więc mamy plik, który jest gigabajt która ma milion rekordów w nim. 603 00:34:39,360 --> 00:34:42,290 Więc podzielić go na poszczególne pozycje. 604 00:34:42,290 --> 00:34:45,374 Następnie, dla każdego elementu, możemy przekształcić go w MODS, ponieważ niektóre z nich 605 00:34:45,374 --> 00:34:47,040 są natywnie MODS, niektóre z nich nie są. 606 00:34:47,040 --> 00:34:49,204 Tak więc mamy je wszystkie być w tym samym formacie. 607 00:34:49,204 --> 00:34:51,120 Potem są różne wzbogacania etapy, w których 608 00:34:51,120 --> 00:34:55,969 możemy dodać więcej informacji do danych nie było dostępne w bibliotece. 609 00:34:55,969 --> 00:34:59,750 Tak więc musimy dodać, przede wszystkim mamy to, co biblioteki trzymać. 610 00:34:59,750 --> 00:35:02,250 Idziemy przez etap obliczaniu stackscore. 611 00:35:02,250 --> 00:35:07,112 Idziemy przez innego kroku dodając więcej metadanych w zakresie 612 00:35:07,112 --> 00:35:10,730 co zbiory ludzi Może dodali this-- 613 00:35:10,730 --> 00:35:12,532 >> Ludzie tworzą zbiory przedmiotów. 614 00:35:12,532 --> 00:35:13,990 Co kolekcje to należy? 615 00:35:13,990 --> 00:35:17,220 W jaki sposób ludzie określili zawartość ta w przeszłości? 616 00:35:17,220 --> 00:35:20,750 Potem odfiltrować i ograniczyć zapisy, ponieważ, jak już wspomniałem, 617 00:35:20,750 --> 00:35:24,120 istnieje pewne zapisy, które, ze względu na względu na prawa autorskie nie możemy wyświetlić. 618 00:35:24,120 --> 00:35:26,700 A następnie je załadować w coś o nazwie 619 00:35:26,700 --> 00:35:31,680 SOLR, co nie jest misspelling, ale to nazwa części oprogramowania 620 00:35:31,680 --> 00:35:35,710 że robi indeksowania wyszukiwania, które napędza cały wyszukiwanie za API. 621 00:35:35,710 --> 00:35:40,110 I wtedy staje się ona dostępna dla API, i ludzie mogą go używać. 622 00:35:40,110 --> 00:35:44,640 >> Tak to jest jak dość Proces proste. 623 00:35:44,640 --> 00:35:47,230 Jeden z ciekawe rzeczy jest to, 624 00:35:47,230 --> 00:35:50,990 że mamy do czynienia z 13 milionów rekordów 625 00:35:50,990 --> 00:35:53,820 i będziemy mieć do czynienia lub więcej. 626 00:35:53,820 --> 00:36:01,260 I chcemy, aby być w stanie obsłużyć je w stosunkowo szybki sposób. 627 00:36:01,260 --> 00:36:03,630 To zajmuje dużo czasu do przetwarzać 13 milionów rekordów. 628 00:36:03,630 --> 00:36:09,529 >> Więc jak to jest gazociąg skonfigurowana jest to, że can-- 629 00:36:09,529 --> 00:36:12,070 Chyba przewagę Rurociąg, problem, że jesteśmy 630 00:36:12,070 --> 00:36:15,580 próbuje rozwiązać, to aby wszystkie przemiany, wszystkie 631 00:36:15,580 --> 00:36:18,729 te kroki w tym Rurociąg są rozłączne. 632 00:36:18,729 --> 00:36:19,645 Nie ma zależności. 633 00:36:19,645 --> 00:36:22,146 Jeśli jesteś przetwarzania zapis jednej książce, 634 00:36:22,146 --> 00:36:24,270 nie ma zależności w że między innymi książki. 635 00:36:24,270 --> 00:36:27,760 >> Więc co możemy zrobić, to w zasadzie, na każdym kroku w rurociągu, 636 00:36:27,760 --> 00:36:30,470 umieścić go w kolejce w chmurze. 637 00:36:30,470 --> 00:36:32,250 Zdarzyło mi się być na Amazon Web Services. 638 00:36:32,250 --> 00:36:35,140 Więc jest lista, powiedzieć, 10000 elementów, które 639 00:36:35,140 --> 00:36:38,100 muszą być normalizowane i przekonwertowane na format MODS. 640 00:36:38,100 --> 00:36:41,620 A my rozpędzają tyle serwerów jak chcesz, może 10 serwerów. 641 00:36:41,620 --> 00:36:44,860 I każdy z tych serwerów tylko siedzi, patrzy w tej kolejki, 642 00:36:44,860 --> 00:36:46,730 widzi, że jedna z nich musi przetwarzane, wyciąga je z kolejki, 643 00:36:46,730 --> 00:36:48,740 przetwarza je i kije że w następnej kolejce. 644 00:36:48,740 --> 00:36:54,200 >> I co z tego, że pozwala nam zrobić, to stosuje się, w zasadzie, 645 00:36:54,200 --> 00:36:58,110 tyle sprzętu, jak chcemy to Problem w bardzo krótkim okresie czasu 646 00:36:58,110 --> 00:37:02,970 tak szybko, jak przetwarzać dane możliwe, co jest czymś, tylko 647 00:37:02,970 --> 00:37:08,220 teraz w świecie cloud computing Możemy serwery Przepis ten zasadniczo 648 00:37:08,220 --> 00:37:09,890 natychmiast, że użyteczne. 649 00:37:09,890 --> 00:37:12,260 Tak więc nie trzeba mieć gigant serwer siedzieć 650 00:37:12,260 --> 00:37:16,700 cały czas zrobić przetwarzania że może się zdarzyć tylko raz w tygodniu. 651 00:37:16,700 --> 00:37:21,440 >> Tak to jest w większości to. 652 00:37:21,440 --> 00:37:27,590 Jest dokumentacja, Biblioteka dla Item API Chmura 653 00:37:27,590 --> 00:37:31,960 pod tym adresem URL, który będzie być dostępne później. 654 00:37:31,960 --> 00:37:36,730 I przejdź spojrzeć na to, aby zobaczyć, czy jest coś, 655 00:37:36,730 --> 00:37:37,579 macie jakieś pomysły. 656 00:37:37,579 --> 00:37:38,120 Zagraj z nim. 657 00:37:38,120 --> 00:37:38,830 Wygłupiać. 658 00:37:38,830 --> 00:37:42,800 I mam nadzieję, że można przyjść z czymś wielkim. 659 00:37:42,800 --> 00:37:44,740 Dziękuję. 660 00:37:44,740 --> 00:37:45,899