1 00:00:00,000 --> 00:00:11,370 2 00:00:11,370 --> 00:00:12,370 Джеффри LICHT: Привет. 3 00:00:12,370 --> 00:00:13,550 Я Джеффри Licht. 4 00:00:13,550 --> 00:00:17,890 И я здесь, чтобы поговорить с вами о Библиотека Гарвардского университета и здание завтра 5 00:00:17,890 --> 00:00:20,870 Библиотека сегодня, я думаю. 6 00:00:20,870 --> 00:00:23,040 Так фон здесь, шаг к этой сессии 7 00:00:23,040 --> 00:00:26,930 по существу, что существует много библиографических данных 8 00:00:26,930 --> 00:00:28,400 доступны в библиотеках Гарварда. 9 00:00:28,400 --> 00:00:33,434 И есть возможность, через некоторые из инструментов, 10 00:00:33,434 --> 00:00:36,350 и проект, который разрабатывается, чтобы получить доступ к информации, 11 00:00:36,350 --> 00:00:42,430 и принять его на местах, Библиотека Гарвардского университета не делать прямо сейчас, 12 00:00:42,430 --> 00:00:45,460 сделать новый материал с ней, эксперимент и поиграть с ним. 13 00:00:45,460 --> 00:00:52,413 >> Таким образом, точка входа в это API называется Библиотека Гарвардского университета облако, которое 14 00:00:52,413 --> 00:00:57,650 является открытым сервер метаданных, которые я буду говорить теперь. 15 00:00:57,650 --> 00:01:02,595 Таким образом, фон, который существует Много материала в библиотеке Гарвардского университета. 16 00:01:02,595 --> 00:01:07,150 У нас есть более 13 миллионов книговедческое записи, миллионы изображений, 17 00:01:07,150 --> 00:01:11,090 и тысячи нахождения средств, которые по существу, документы, описывающие 18 00:01:11,090 --> 00:01:15,500 Коллекции, говоря, что в них, ящики бумаг 19 00:01:15,500 --> 00:01:21,080 и так далее, которые составляют более миллион отдельные документы. 20 00:01:21,080 --> 00:01:24,290 И есть также много информация, библиотека имеет 21 00:01:24,290 --> 00:01:28,180 о том, как содержание, что используется может представлять интерес для людей, 22 00:01:28,180 --> 00:01:32,400 кто хотел бы работать с ним. 23 00:01:32,400 --> 00:01:36,150 >> Так всю информацию Библиотека имеет метаданные. 24 00:01:36,150 --> 00:01:39,500 Так метаданные это данные о данных. 25 00:01:39,500 --> 00:01:42,070 Поэтому, когда мы говорим о информацию, которая 26 00:01:42,070 --> 00:01:44,890 доступны через библиотеку Облако, которое доступно, 27 00:01:44,890 --> 00:01:47,760 это не обязательно фактические документы 28 00:01:47,760 --> 00:01:53,060 Сами, не обязательно полная Текст книги или полных образов, 29 00:01:53,060 --> 00:01:54,890 однако, что на самом деле может иметь место. 30 00:01:54,890 --> 00:01:57,550 Но это на самом деле Информация о данных. 31 00:01:57,550 --> 00:02:00,909 >> Таким образом, вы можете думать о каталогизации Информация, абонентские номера, субъекты, 32 00:02:00,909 --> 00:02:02,700 сколько копий Книга есть, то, что 33 00:02:02,700 --> 00:02:06,380 являются издания, каковы форматы, авторы, и так далее. 34 00:02:06,380 --> 00:02:12,250 Так что много информации о Информация, содержащаяся в сборе, что, 35 00:02:12,250 --> 00:02:14,400 само по себе, это своего рода изначально полезными. 36 00:02:14,400 --> 00:02:19,230 И, хотя, если вы делать глубокие исследования, 37 00:02:19,230 --> 00:02:25,160 Вы, очевидно, хотят, чтобы добраться до фактической довольствоваться и посмотрите на данные, 38 00:02:25,160 --> 00:02:30,140 Метаданные полезно с точки зрения и анализ корпус в целом, 39 00:02:30,140 --> 00:02:33,870 как то, что вещи находятся в коллекции. 40 00:02:33,870 --> 00:02:35,520 Как они соотносятся между собой? 41 00:02:35,520 --> 00:02:39,482 Это поможет вам найти действительно другие вещи, который является действительно главной целью ней. 42 00:02:39,482 --> 00:02:41,190 Точка Каталог метаданных и 43 00:02:41,190 --> 00:02:43,230 чтобы помочь вам найти все информацию, которая 44 00:02:43,230 --> 00:02:46,590 доступны в коллекциях. 45 00:02:46,590 --> 00:02:53,690 >> Таким образом, это является примером метаданных для книги в Гарвардском библиотеки. 46 00:02:53,690 --> 00:02:56,370 Так что это там. 47 00:02:56,370 --> 00:02:59,850 И вы можете видеть, что это на самом деле очень сложный. 48 00:02:59,850 --> 00:03:04,610 И часть стоимости метаданных в рамках системы Библиотека Гарвардского университета 49 00:03:04,610 --> 00:03:09,320 является то, что это было своего рода из застроена каталогизаторам 50 00:03:09,320 --> 00:03:12,720 и собрал людей, претендующих много опыта и мастерства 51 00:03:12,720 --> 00:03:20,030 и мысли к нему в течение долгого времени, который имеет большую ценность. 52 00:03:20,030 --> 00:03:25,450 >> Так что, если вы посмотрите на этой записи для Аннотированный Алиса, вы можете узнать 53 00:03:25,450 --> 00:03:32,590 у вас есть титул, который написал его, Автор, а все разные предметы 54 00:03:32,590 --> 00:03:35,380 которые люди каталог его в. 55 00:03:35,380 --> 00:03:40,110 И вы можете видеть, есть также в дополнение к много хорошей информации 56 00:03:40,110 --> 00:03:42,852 здесь, есть некоторое дублирование. 57 00:03:42,852 --> 00:03:45,560 Там это много сложности это отражение в метаданных 58 00:03:45,560 --> 00:03:46,300 что у вас есть. 59 00:03:46,300 --> 00:03:50,320 >> Так что название этой книги Приключения Алисы в стране чудес. 60 00:03:50,320 --> 00:03:53,880 Так что это аннотированных версия этой книги. 61 00:03:53,880 --> 00:03:56,380 Но это также называется аннотированных Алиса, Алиса 62 00:03:56,380 --> 00:03:58,570 в стране чудес, потому что это то, что 63 00:03:58,570 --> 00:04:00,430 Мартин Гарднер написал и аннотированный книгу. 64 00:04:00,430 --> 00:04:03,369 И есть много полезной информации о логических головоломок и вещей 65 00:04:03,369 --> 00:04:05,410 в Элис, что вы вероятно, не знают. 66 00:04:05,410 --> 00:04:07,000 Таким образом, вы должны идти читать это. 67 00:04:07,000 --> 00:04:11,940 >> Но вы можете видеть, что это Много здесь подробно, 68 00:04:11,940 --> 00:04:15,340 в том числе идентификаторы, когда его была создана, когда он пришел, 69 00:04:15,340 --> 00:04:17,420 с точки зрения Гарварде Система и так далее. 70 00:04:17,420 --> 00:04:20,350 Так что это образец тип метаданных 71 00:04:20,350 --> 00:04:24,340 что для книги в вы можете увидеть Коллекция Библиотека Гарвардского университета. 72 00:04:24,340 --> 00:04:26,680 >> Это нечто совсем другое. 73 00:04:26,680 --> 00:04:32,610 Так что есть система, называемая VIA Гарвард, который в основном 74 00:04:32,610 --> 00:04:39,990 является каталогизация изображений и предметов искусства и визуальные вещи по всей Гарварде, 75 00:04:39,990 --> 00:04:44,010 и добавление некоторых метаданных к ним, их классификации, 76 00:04:44,010 --> 00:04:49,200 и, в некоторых случаях, обеспечивая миниатюр изображений 77 00:04:49,200 --> 00:04:51,250 что вы можете взять посмотреть, если вы так хотите. 78 00:04:51,250 --> 00:04:54,240 >> Таким образом, это является примером метаданные, которые у вас есть для пластины 79 00:04:54,240 --> 00:04:57,840 от, предположительно, Алиса в стране чудес. 80 00:04:57,840 --> 00:05:00,499 И вы можете видеть, что это меньше метаданные здесь. 81 00:05:00,499 --> 00:05:02,040 Это просто другой вид объекта. 82 00:05:02,040 --> 00:05:03,425 И таким образом, есть меньше информации. 83 00:05:03,425 --> 00:05:07,790 >> У вас скорее всего тот факт, что вызов Количество, по существу, кто его создал, - 84 00:05:07,790 --> 00:05:10,410 >> Мы не знаем, когда она была создана. 85 00:05:10,410 --> 00:05:13,320 >> --и название. 86 00:05:13,320 --> 00:05:14,300 >> Другой пример. 87 00:05:14,300 --> 00:05:16,380 Это помощь находкой. 88 00:05:16,380 --> 00:05:19,030 Так что коллекция Льюис Газеты Кэрролла в Гарварде. 89 00:05:19,030 --> 00:05:23,601 Так это описывает, что в этой коллекции. 90 00:05:23,601 --> 00:05:26,100 Так кто-то пошел до конца и просмотрел все поля 91 00:05:26,100 --> 00:05:32,220 и каталогизированы его, учитывая некоторые фон, написал обзор того, что здесь. 92 00:05:32,220 --> 00:05:35,290 И если вы посмотрите В дальнейшем, при этом, это 93 00:05:35,290 --> 00:05:39,620 продолжается в течение страницы и страницы и страницы, но скажу вам, 94 00:05:39,620 --> 00:05:41,860 какие буквы и что даты от того, что коробки 95 00:05:41,860 --> 00:05:44,289 существовала на протяжении всей коллекции. 96 00:05:44,289 --> 00:05:46,330 Но это что-то что, если вы в Гарварде, 97 00:05:46,330 --> 00:05:50,720 Вы можете пойти и на самом деле физически смотреть и, по-видимому, взглянуть на. 98 00:05:50,720 --> 00:05:53,440 >> Так что это все здорово. 99 00:05:53,440 --> 00:05:54,450 Эти метаданные Полезные. 100 00:05:54,450 --> 00:05:56,327 Это в системе Библиотека Гарвардского университета. 101 00:05:56,327 --> 00:05:58,910 Есть инструменты онлайн, где вас может пойти и взглянуть на него, 102 00:05:58,910 --> 00:05:59,993 и увидеть его, и искать его. 103 00:05:59,993 --> 00:06:02,810 И вы можете нарезать его и кости это в большом количестве различных способов. 104 00:06:02,810 --> 00:06:06,920 >> Но это действительно доступна, только если Вы человек существо сидит вниз 105 00:06:06,920 --> 00:06:12,600 в вашем веб-браузере или что- Ваш телефон и навигации по ним. 106 00:06:12,600 --> 00:06:16,730 Это на самом деле не доступен в любой вид полезной моды 107 00:06:16,730 --> 00:06:19,520 для других систем или другие компьютеры в использовании, 108 00:06:19,520 --> 00:06:21,500 не с системами в рамках Библиотека Гарвардского университета, 109 00:06:21,500 --> 00:06:24,890 но системы в окружающем мире, всего другие люди в целом. 110 00:06:24,890 --> 00:06:30,210 Так вопрос в том, как мы можем сделать его доступным для компьютеров 111 00:06:30,210 --> 00:06:33,560 так что мы можем сделать более интересным Материал с ней, чем просто 112 00:06:33,560 --> 00:06:36,550 просмотр это сами? 113 00:06:36,550 --> 00:06:39,766 >> Так почему же вы хотите это сделать? 114 00:06:39,766 --> 00:06:41,140 Есть много возможностей. 115 00:06:41,140 --> 00:06:43,980 Одним из них является, вы можете построить полностью другой способ просмотра 116 00:06:43,980 --> 00:06:46,962 содержание, которое доступно через Гарварда библиотек. 117 00:06:46,962 --> 00:06:48,670 Я покажу вам один позже названный Stacklife, 118 00:06:48,670 --> 00:06:52,440 который имеет совершенно другой взять на доступ к содержимому. 119 00:06:52,440 --> 00:06:54,560 >> Вы могли бы построить рекомендации двигателя. 120 00:06:54,560 --> 00:06:57,955 Так Библиотека Гарвардского университета не находится в бизнес говоря, вам нравится эта книга. 121 00:06:57,955 --> 00:07:01,080 Затем перейдите взглянуть на них еще 17 книги, которые вы могли бы быть заинтересованы в 122 00:07:01,080 --> 00:07:03,200 или эти 18 другие изображения. 123 00:07:03,200 --> 00:07:06,040 Но это, конечно, могли быть ценным свойством. 124 00:07:06,040 --> 00:07:09,272 А если учесть, метаданные, он может можно положить, что вместе. 125 00:07:09,272 --> 00:07:11,980 Вы можете иметь различные потребности в Условия поиска содержание, 126 00:07:11,980 --> 00:07:16,200 как, может быть, несмотря на инструменты, которые доступны, что библиотека делает 127 00:07:16,200 --> 00:07:18,450 в наличии, вы можете искать по-другому 128 00:07:18,450 --> 00:07:21,847 или оптимизировать для конкретного использования, которые, может быть, это очень специализированы. 129 00:07:21,847 --> 00:07:23,930 Может быть, есть только несколько люди в мире, которые 130 00:07:23,930 --> 00:07:25,846 хотите искать содержание В этом случае, однако 131 00:07:25,846 --> 00:07:28,985 было бы здорово, если мы мог позволить им сделать это. 132 00:07:28,985 --> 00:07:30,860 Там очень много аналитики всего, как люди 133 00:07:30,860 --> 00:07:33,860 используем содержимое, которое будет действительно Интересно знать о, узнать, 134 00:07:33,860 --> 00:07:37,280 какие книги используются, что нет, и так далее. 135 00:07:37,280 --> 00:07:41,670 А тут еще много возможность интеграции 136 00:07:41,670 --> 00:07:45,210 с другой информацией что-то там в Интернете. 137 00:07:45,210 --> 00:07:46,880 Таким образом, мы have-- 138 00:07:46,880 --> 00:07:50,260 >> Например, NPR имеет сегмент Рецензия на книгу, 139 00:07:50,260 --> 00:07:53,090 где они берут интервью Авторы о книгах. 140 00:07:53,090 --> 00:07:56,837 И поэтому было бы здорово, если бы вы были глядя книгу в Гарварде 141 00:07:56,837 --> 00:07:59,670 Библиотека, а вы говорите, хорошо, что есть был Интервью с автором. 142 00:07:59,670 --> 00:08:00,878 Давайте взглянем на это. 143 00:08:00,878 --> 00:08:05,461 Или есть страница Википедии, а авторитетный, научная справка 144 00:08:05,461 --> 00:08:07,710 об этой книге, что вы возможно, захотите взглянуть на. 145 00:08:07,710 --> 00:08:12,600 >> Есть эти типы источников разбросаны по всей сети. 146 00:08:12,600 --> 00:08:16,555 И чего их вместе может быть большое использование 147 00:08:16,555 --> 00:08:18,930 для кого-то, глядя на Содержание, глядя на что-то. 148 00:08:18,930 --> 00:08:20,180 Но это также не вид, что вы бы 149 00:08:20,180 --> 00:08:23,205 хочу библиотека нести ответственность для перехода вниз и охоту 150 00:08:23,205 --> 00:08:25,455 все эти различные источники и подключить их вместе 151 00:08:25,455 --> 00:08:28,920 потому что они постоянно менялись. 152 00:08:28,920 --> 00:08:33,570 И то, что они думают, что очень важно мая не может быть то, что вы считаете важным. 153 00:08:33,570 --> 00:08:36,929 >> И уж тем более, в основном там много вещей мы не думали до сих пор. 154 00:08:36,929 --> 00:08:42,222 Так что, если мы можем открыть это, более люди, кроме полутора десятков или около того, 155 00:08:42,222 --> 00:08:45,174 кто смотрит на это на регулярной основе может думать идей 156 00:08:45,174 --> 00:08:47,340 и массаж данные, и делать то, что они хотят с ним. 157 00:08:47,340 --> 00:08:49,920 158 00:08:49,920 --> 00:08:54,045 >> Поэтому мы хотим, чтобы сделать это Данные из имеющихся в мире. 159 00:08:54,045 --> 00:08:55,670 Ну, есть пара осложнения. 160 00:08:55,670 --> 00:08:58,540 Во-первых, этот метаданных в различных системах. 161 00:08:58,540 --> 00:09:01,110 Это в различных форматах. 162 00:09:01,110 --> 00:09:04,719 Так что некоторые нормализация который должен произойти, 163 00:09:04,719 --> 00:09:08,010 которые нормализации быть процесс доводя дело из различных форматов 164 00:09:08,010 --> 00:09:12,940 и отображение их в единый формат так, что поля будет совпадать. 165 00:09:12,940 --> 00:09:15,160 >> Есть некоторые ограничения авторского права. 166 00:09:15,160 --> 00:09:21,010 Как ни странно, размещение информации в каталоге о книге ответственности за авторские права. 167 00:09:21,010 --> 00:09:24,060 Поэтому, даже если это просто сведения, полученные из книги, 168 00:09:24,060 --> 00:09:25,330 это защищаема. 169 00:09:25,330 --> 00:09:28,400 И в зависимости от того, кто на самом деле создано эти метаданные, 170 00:09:28,400 --> 00:09:32,175 могут быть ограничения относительно того, кто может распространять его, подобно to-- 171 00:09:32,175 --> 00:09:33,402 >> Я не знаю. 172 00:09:33,402 --> 00:09:36,110 Это может или не может быть аналогичен Положение текста песни, 173 00:09:36,110 --> 00:09:36,610 например. 174 00:09:36,610 --> 00:09:38,560 Так что мы все знаем, как это кастрюли. 175 00:09:38,560 --> 00:09:40,450 Таким образом, вы должны обойти эту проблему. 176 00:09:40,450 --> 00:09:44,910 >> А потом еще кусок что есть много данных. 177 00:09:44,910 --> 00:09:52,420 Так что, если я кого-то, кто хочет работать с данными или имеет классная идея, 178 00:09:52,420 --> 00:09:55,350 дело с 14000000 записи на моем ноутбуке 179 00:09:55,350 --> 00:09:57,487 может быть проблематичным и трудно управлять. 180 00:09:57,487 --> 00:09:59,320 Поэтому мы хотим, чтобы уменьшить барьеры для людей 181 00:09:59,320 --> 00:10:02,130 чтобы иметь возможность работать с данными. 182 00:10:02,130 --> 00:10:07,880 >> Так подхода, который, мы надеемся, адреса все эти проблемы является две части. 183 00:10:07,880 --> 00:10:11,770 Один строит платформу, которая принимает Данные от всех этих разнородных источников 184 00:10:11,770 --> 00:10:14,350 и усугубляет ее, нормализует, обогащает его, и делает 185 00:10:14,350 --> 00:10:16,650 это доступно в одном месте. 186 00:10:16,650 --> 00:10:20,950 И это делает его доступным через общественного API, что люди могут позвонить. 187 00:10:20,950 --> 00:10:24,430 >> Так API является применение Интерфейс программирования. 188 00:10:24,430 --> 00:10:28,930 И это в основном относится к Конечная точка, система или технология 189 00:10:28,930 --> 00:10:31,720 может позвонить и получить данные обратно в структурированный формат таким образом, 190 00:10:31,720 --> 00:10:32,900 что он может быть использован. 191 00:10:32,900 --> 00:10:36,060 Так что это не зависит при переходе на сайт 192 00:10:36,060 --> 00:10:37,970 и выскабливание данные с это, например. 193 00:10:37,970 --> 00:10:40,690 194 00:10:40,690 --> 00:10:45,010 >> Так что это домашняя страница Библиотека Cloud товара API, 195 00:10:45,010 --> 00:10:47,220 который является по существу ее вариант два. 196 00:10:47,220 --> 00:10:50,130 Так что это второй итерации пытается сделать все эти данные 197 00:10:50,130 --> 00:10:53,280 распространение по всему миру. 198 00:10:53,280 --> 00:10:59,560 Так что это http://api.lib.harvard.edu/v2/items. 199 00:10:59,560 --> 00:11:03,830 И только разорвать этот вниз чуть-чуть, что это значит 200 00:11:03,830 --> 00:11:06,115 то, что это вариант два из API. 201 00:11:06,115 --> 00:11:08,490 Там это версия одного, который Я не собираюсь говорить об этом. 202 00:11:08,490 --> 00:11:09,750 Но есть версия одна. 203 00:11:09,750 --> 00:11:14,740 >> И если вы звоните в этом API, вы получаете элементы. 204 00:11:14,740 --> 00:11:20,640 И часть идеи API является API является контракт. 205 00:11:20,640 --> 00:11:23,440 Это то, что является не собирается менять. 206 00:11:23,440 --> 00:11:24,850 Так, например, - 207 00:11:24,850 --> 00:11:27,410 >> И причина в том, что если я построить какую-то систему, 208 00:11:27,410 --> 00:11:33,210 собирается использовать библиотеку облачных API для отображения книги или помочь людям найти 209 00:11:33,210 --> 00:11:36,190 Информация, содержащаяся в уникальных способов, что мы не хотим чтобы это произошло 210 00:11:36,190 --> 00:11:38,940 для нас, чтобы пойти изменить, как что API работает, и вдруг 211 00:11:38,940 --> 00:11:41,340 все ломает на стороне конечного пользователя. 212 00:11:41,340 --> 00:11:46,710 Так что часть, если вы делаете API распространение по всему миру, это 213 00:11:46,710 --> 00:11:49,396 хорошая практика, чтобы положить номер версии в нем, чтобы люди 214 00:11:49,396 --> 00:11:51,020 узнать, какая версия они имеют дело с. 215 00:11:51,020 --> 00:11:54,300 >> Так что, если мы решим, что найти лучший способ сделать эту информацию доступной, 216 00:11:54,300 --> 00:11:57,295 мы могли бы изменить, что назвать это третьей версии. 217 00:11:57,295 --> 00:11:59,920 Поэтому каждый, кто по-прежнему использует Версия вторая, что еще будем работать. 218 00:11:59,920 --> 00:12:03,490 Но версия три будет есть весь новый материал. 219 00:12:03,490 --> 00:12:06,680 220 00:12:06,680 --> 00:12:09,210 >> Таким образом, это API, но это действительно похоже на URL. 221 00:12:09,210 --> 00:12:11,680 И так, что это Примером является то, что 222 00:12:11,680 --> 00:12:16,615 называется API отдых, который доступен Только за обычный веб соединения. 223 00:12:16,615 --> 00:12:19,680 И вы можете на самом деле идти к ней в браузере. 224 00:12:19,680 --> 00:12:28,550 >> Так вот, я просто открыл Firefox и отправились в api.lib.harvard.edu/v2/items. 225 00:12:28,550 --> 00:12:31,560 И так, что я получаю здесь в основном первая страница 226 00:12:31,560 --> 00:12:34,740 результатов от всего набор элементов, которые мы получили. 227 00:12:34,740 --> 00:12:37,460 И именно здесь в формате XML. 228 00:12:37,460 --> 00:12:40,130 229 00:12:40,130 --> 00:12:42,210 И это также prettified по Firefox. 230 00:12:42,210 --> 00:12:45,850 Это на самом деле не все из них немного расширяться и сжиматься 231 00:12:45,850 --> 00:12:47,880 doohickeys здесь. 232 00:12:47,880 --> 00:12:52,520 Это своего рода приятнее Версия способ смотреть на него. 233 00:12:52,520 --> 00:12:57,040 >> Но то, что это говорит нам о том, Я просил все детали. 234 00:12:57,040 --> 00:13:03,120 Таким образом, есть 13289475 пункты. 235 00:13:03,120 --> 00:13:06,150 И я смотрю на первый 10, начиная с позиции нулевого 236 00:13:06,150 --> 00:13:09,760 потому что в информатике мы всегда начинаем с нуля. 237 00:13:09,760 --> 00:13:15,150 И то, что я здесь, если я просто рухнет это, вы увидите, что я получил 10 пунктов. 238 00:13:15,150 --> 00:13:20,410 239 00:13:20,410 --> 00:13:25,210 >> И если я взгляну на пункт, я могу видеть, что у меня есть информацию о нем. 240 00:13:25,210 --> 00:13:27,400 И это в то, что называется MODS форма. 241 00:13:27,400 --> 00:13:30,860 И поэтому я буду переключаться сюда на минуту. 242 00:13:30,860 --> 00:13:33,750 ОК. 243 00:13:33,750 --> 00:13:37,447 >> Итак, давайте искать что-то в определенными, потому что первый элемент, который 244 00:13:37,447 --> 00:13:40,030 происходит, чтобы придумать, когда вы смотрите всю коллекцию 245 00:13:40,030 --> 00:13:41,750 это, по определению, случайным образом. 246 00:13:41,750 --> 00:13:44,550 Итак, давайте посмотрим на некоторые пончики. 247 00:13:44,550 --> 00:13:46,830 Ох. 248 00:13:46,830 --> 00:13:49,190 >> ОК. 249 00:13:49,190 --> 00:13:49,940 Так пончики. 250 00:13:49,940 --> 00:13:55,360 Таким образом, мы нашли там 80 пунктов в Коллекция, которые ссылаются на пончики. 251 00:13:55,360 --> 00:13:57,150 Мы смотрим на первые 10 из них. 252 00:13:57,150 --> 00:14:01,890 Теперь вы можете посмотреть здесь так, что Я сказал, что я ищу для пончиков, 253 00:14:01,890 --> 00:14:04,400 Я просто добавил что-то Строка запроса в URL. 254 00:14:04,400 --> 00:14:09,680 Так Q равен пончики, которые вы можете см немного легче здесь. 255 00:14:09,680 --> 00:14:12,131 >> И это в основном означает, что есть Спецификация для API, который 256 00:14:12,131 --> 00:14:13,880 определяет, что все Эти параметры означают. 257 00:14:13,880 --> 00:14:17,150 А это значит, что мы собираемся поиск все для пончиков. 258 00:14:17,150 --> 00:14:24,910 >> Так вот первый пункт у нас есть Вы можете видеть название Donuts, 259 00:14:24,910 --> 00:14:29,310 и существует субтитров называется Американский страсть, которая, я думаю,, 260 00:14:29,310 --> 00:14:31,610 соответственно. 261 00:14:31,610 --> 00:14:36,134 Есть много different-- 262 00:14:36,134 --> 00:14:38,050 После того как вы дойдете до точки, получения данных, 263 00:14:38,050 --> 00:14:41,020 Есть много разных Форматы, которые вы можете получить его в. 264 00:14:41,020 --> 00:14:44,050 И существуют различные сильные и слабые для всех из них. 265 00:14:44,050 --> 00:14:49,000 Так что это один, вы можете увидеть здесь, эта форма очень богат. 266 00:14:49,000 --> 00:14:51,946 И это стандартизированы. 267 00:14:51,946 --> 00:14:55,040 >> Так что конкретное название поле, поле субтитры. 268 00:14:55,040 --> 00:14:58,950 Там это альтернативный название, американский страсти. 269 00:14:58,950 --> 00:15:01,650 Существует имя, связанное с ним. 270 00:15:01,650 --> 00:15:03,120 Тип ресурса текстов. 271 00:15:03,120 --> 00:15:06,070 Там очень много информации Здесь, в этом формате. 272 00:15:06,070 --> 00:15:09,480 >> Но есть куча разных форматов. 273 00:15:09,480 --> 00:15:11,920 Итак, что мы были просто глядя на это формат 274 00:15:11,920 --> 00:15:17,700 называемые моды, которая стоит за Объект метаданных Описание Service, 275 00:15:17,700 --> 00:15:18,250 потенциально. 276 00:15:18,250 --> 00:15:23,030 На самом деле я не совсем уверен, о С. Но это довольно сложный формат. 277 00:15:23,030 --> 00:15:24,240 Это формат по умолчанию. 278 00:15:24,240 --> 00:15:30,260 >> Но это тот, который держит Богатство всех данных, 279 00:15:30,260 --> 00:15:33,820 что библиотека имеет, потому что это очень близко к тому, что 280 00:15:33,820 --> 00:15:35,110 Библиотека использует внутренне. 281 00:15:35,110 --> 00:15:39,030 Это стандарт, который является используется по всей стране, 282 00:15:39,030 --> 00:15:40,944 по всему миру в академических библиотеках. 283 00:15:40,944 --> 00:15:42,110 И это очень совместимы. 284 00:15:42,110 --> 00:15:44,852 Так что, если у вас есть документ что в формате моды, 285 00:15:44,852 --> 00:15:47,560 Вы можете дать, что кого-то другого чьи системы понимают моды, 286 00:15:47,560 --> 00:15:48,518 и они могут импортировать его. 287 00:15:48,518 --> 00:15:50,840 Так что это стандарт. 288 00:15:50,840 --> 00:15:54,250 Это очень хорошо определены, очень специфичен. 289 00:15:54,250 --> 00:15:58,980 И это то, что делает его взаимодействовать, потому что если кто-то говорит, 290 00:15:58,980 --> 00:16:04,930 это альтернативный название запись, все знают, что это значит. 291 00:16:04,930 --> 00:16:07,740 С другой стороны, это очень сложно. 292 00:16:07,740 --> 00:16:13,160 >> Так что, если вы посмотрите в этой записи здесь, 293 00:16:13,160 --> 00:16:15,320 если я просто хочу, чтобы получить название этого документа, 294 00:16:15,320 --> 00:16:21,150 из этой книги, которая, вероятно, Donuts, Американский Страсть, анализ его 295 00:16:21,150 --> 00:16:22,940 это немного участие. 296 00:16:22,940 --> 00:16:27,380 В то время как есть другой формат, называемый Dublin Core, 297 00:16:27,380 --> 00:16:29,730 который является гораздо, гораздо проще формат. 298 00:16:29,730 --> 00:16:33,764 >> И поэтому вы не увидите здесь, нет никакой заголовок, подзаголовок, альтернативный название. 299 00:16:33,764 --> 00:16:35,930 Там просто название, Donuts, американский Страсть, 300 00:16:35,930 --> 00:16:38,780 и еще один титул, американский страсти. 301 00:16:38,780 --> 00:16:42,907 Поэтому, когда вы смотрите на то, что форма Вы хотите, чтобы получить данные из, 302 00:16:42,907 --> 00:16:44,740 Многое зависит от того, как Вы собираетесь его использовать. 303 00:16:44,740 --> 00:16:46,573 Используете ли вы для совместимость или вы 304 00:16:46,573 --> 00:16:49,970 хотите что-то простое, что может быть легче работать? 305 00:16:49,970 --> 00:16:56,002 >> С другой стороны, много какие детали вроде сплющенные вниз. 306 00:16:56,002 --> 00:16:58,460 Вы можете потерять все нюансы что конкретные средства на местах 307 00:16:58,460 --> 00:17:02,960 если вы имеете дело с Dublin Core, которые вы не получите с модами. 308 00:17:02,960 --> 00:17:06,462 Так что те два из форматов Вы можете выйти из API. 309 00:17:06,462 --> 00:17:08,920 И в основном, мы держим это за кулисами в модов. 310 00:17:08,920 --> 00:17:14,179 Но мы можем дать вам его в Моды и Dublin Core и все остальное также. 311 00:17:14,179 --> 00:17:16,470 Другое соображение, когда Вы ищете в данных 312 00:17:16,470 --> 00:17:21,210 что вы можете получить его либо как JSON, который выступает за нотации объектов JavaScript, 313 00:17:21,210 --> 00:17:24,720 или XML, которая выступает за Extensible Markup Language. 314 00:17:24,720 --> 00:17:30,080 И эти представления данных и имеют одни и те же данные, точно 315 00:17:30,080 --> 00:17:31,080 одни и те же поля. 316 00:17:31,080 --> 00:17:33,644 Но они просто синтаксически различны. 317 00:17:33,644 --> 00:17:40,401 >> Так что это a-- 318 00:17:40,401 --> 00:17:41,400 Ну, давайте просто переключиться. 319 00:17:41,400 --> 00:17:47,490 Так что это наш запрос на пончики в формате XML. 320 00:17:47,490 --> 00:17:53,470 Если бы я просто переключиться, чтобы это было JSON, Я вижу, что выглядит по-другому. 321 00:17:53,470 --> 00:17:58,580 Так что теперь это же самое содержание, а другая структура. 322 00:17:58,580 --> 00:18:00,080 Есть меньше угловые скобки. 323 00:18:00,080 --> 00:18:02,530 Там это менее многословным. 324 00:18:02,530 --> 00:18:06,440 >> И это формат, который, если вы работают в веб-среде, 325 00:18:06,440 --> 00:18:09,680 вы, скорее всего, будет хотите использовать, потому что один 326 00:18:09,680 --> 00:18:12,630 из хороших вещей о JSON является он совместим с JavaScript. 327 00:18:12,630 --> 00:18:17,680 Так что, если я пишу веб-приложение, я могу тянуть в JSON и просто работать с ним напрямую. 328 00:18:17,680 --> 00:18:20,187 В то время как с XML, это немного сложнее. 329 00:18:20,187 --> 00:18:21,520 Итак, еще раз, это как полезно. 330 00:18:21,520 --> 00:18:26,387 Они просто разные случаи использования где люди могли бы хотеть использовать их. 331 00:18:26,387 --> 00:18:26,886 ОК. 332 00:18:26,886 --> 00:18:29,810 333 00:18:29,810 --> 00:18:31,680 Итак, вернемся к API. 334 00:18:31,680 --> 00:18:32,900 Так мы можем искать for-- 335 00:18:32,900 --> 00:18:36,220 >> Я приведу пример поиск пончики. 336 00:18:36,220 --> 00:18:39,330 Мы также можем искать только в конкретное поле в здесь. 337 00:18:39,330 --> 00:18:41,310 Таким образом, вместо того, чтобы искать Вся запись, 338 00:18:41,310 --> 00:18:43,870 Я могу просто искать в поле заголовка. 339 00:18:43,870 --> 00:18:48,810 И вот теперь есть 25 вещей, которые есть пончики в заголовке, один из которых 340 00:18:48,810 --> 00:18:52,430 о восстановлении водно-болотных угодий в управлении 341 00:18:52,430 --> 00:18:54,990 отверстия в пончик Программа, которая, вероятно, 342 00:18:54,990 --> 00:18:58,970 не обязательно, что мы ищем когда мы ищем для пончиков. 343 00:18:58,970 --> 00:19:02,790 344 00:19:02,790 --> 00:19:05,490 >> Вы можете также, когда вы дело с API-- 345 00:19:05,490 --> 00:19:08,827 >> Часть имеющий API дает людям доступ к большим наборам данных. 346 00:19:08,827 --> 00:19:11,410 И есть несколько различных инструменты, которые можно использовать, чтобы сделать это. 347 00:19:11,410 --> 00:19:14,170 Одним из них является, очень просто, вы может пролистать данных. 348 00:19:14,170 --> 00:19:17,340 Так как если бы вы сделать запрос через веб-интерфейс, 349 00:19:17,340 --> 00:19:19,470 Вы можете посмотреть на первой странице, вторая страница, страница три. 350 00:19:19,470 --> 00:19:22,040 Вы можете сделать то же самое что через API. 351 00:19:22,040 --> 00:19:24,150 Вы просто должны быть Явный в том, как вы это делаете. 352 00:19:24,150 --> 00:19:29,511 >> Так, например, если я ищу в моем первом запросе здесь, 353 00:19:29,511 --> 00:19:32,510 где я делаю поиск для вещей с пончиками в названии, я могу говорить, 354 00:19:32,510 --> 00:19:35,415 и предел равен 20, что означает, дать мне первые 20 записей, а не 355 00:19:35,415 --> 00:19:38,540 первый 10, который является по умолчанию, потому что я хочу посмотреть на 20 одновременно. 356 00:19:38,540 --> 00:19:43,435 Или я могу сказать, установить начать равно 20 и предел 357 00:19:43,435 --> 00:19:47,150 равняться 20, что даст мне записывает с 21 по 40. 358 00:19:47,150 --> 00:19:52,680 >> Так что я думаю вещь забрать здесь 359 00:19:52,680 --> 00:19:57,290 что мы, используя строки запроса чтобы установить параметры на запрос. 360 00:19:57,290 --> 00:20:02,760 И это позволяет контролировать то, что вы вернетесь. 361 00:20:02,760 --> 00:20:05,980 >> Еще один инструмент, который можно использовать, - 362 00:20:05,980 --> 00:20:09,250 >> И это действительно полезно в Условия изучает данные. 363 00:20:09,250 --> 00:20:10,840 >> --is то, что называется огранка. 364 00:20:10,840 --> 00:20:15,530 Так термин огранка является не должны быть общими. 365 00:20:15,530 --> 00:20:16,880 Но вы все видели его раньше. 366 00:20:16,880 --> 00:20:18,630 Если вы посмотрите на Amazon, например, 367 00:20:18,630 --> 00:20:20,870 и вы делаете поиск пончики в книгах, 368 00:20:20,870 --> 00:20:27,080 здесь они получили серию книг, и они сгруппированы по категориям, 369 00:20:27,080 --> 00:20:30,470 и вы получите различные категории, и сколько книг в каждой категории 370 00:20:30,470 --> 00:20:31,330 показать вверх. 371 00:20:31,330 --> 00:20:33,420 >> Так что это в основном аспект. 372 00:20:33,420 --> 00:20:37,570 Вы берете все свои книги, 1800 книги, которые соответствуют пончики на Amazon. 373 00:20:37,570 --> 00:20:39,820 12 из них находятся в категория завтрак. 374 00:20:39,820 --> 00:20:43,100 21 в тесте и выпечка, и так далее, и так далее. 375 00:20:43,100 --> 00:20:47,670 >> Так что это действительно полезно инструмент для исследования содержания 376 00:20:47,670 --> 00:20:53,260 в библиотеке, а потому что, когда вы смотрите на грани, 377 00:20:53,260 --> 00:20:56,520 это дает вам представление о том, какие предметы существует, как, какие виды субъектов 378 00:20:56,520 --> 00:20:58,510 Наиболее популярны в ваш набор запроса. 379 00:20:58,510 --> 00:21:00,950 И это поможет вам отогнать и исследовать. 380 00:21:00,950 --> 00:21:02,770 Таким образом, мы можем сделать то же самое. 381 00:21:02,770 --> 00:21:05,940 >> Если мы хотим использовать API и посмотреть на грани, 382 00:21:05,940 --> 00:21:08,950 мы добавить еще один параметр наш друг строка запроса. 383 00:21:08,950 --> 00:21:12,540 Так граней равняется запятую Список того, что мы хотим, чтобы фаской по. 384 00:21:12,540 --> 00:21:14,790 Таким образом, одна из граней может быть предметом. 385 00:21:14,790 --> 00:21:16,565 Еще может быть язык. 386 00:21:16,565 --> 00:21:19,665 И поэтому, если мы запустим этот запрос, мы get-- 387 00:21:19,665 --> 00:21:23,372 388 00:21:23,372 --> 00:21:24,830 Это выглядит довольно много же самое. 389 00:21:24,830 --> 00:21:29,010 Но мы добавили к концу из списка набор граней. 390 00:21:29,010 --> 00:21:34,060 Итак, мы имеем аспект, называемый объектом. 391 00:21:34,060 --> 00:21:40,250 Так что это говорит нам, что если я смотрю на мои 80 результатов пончик запроса, 392 00:21:40,250 --> 00:21:42,100 13 из них имеют территории Соединенных Штатов. 393 00:21:42,100 --> 00:21:43,684 Три есть пончики по теме. 394 00:21:43,684 --> 00:21:45,600 Три иметь тему восстановления водно-болотных угодий, 395 00:21:45,600 --> 00:21:47,720 который может быть наш отверстие в пончик. 396 00:21:47,720 --> 00:21:51,780 Двое из них, Симпсоны, и так далее, и так далее. 397 00:21:51,780 --> 00:21:59,211 >> Так что это может быть полезно, если вы хотите, чтобы сузить свой поиск. 398 00:21:59,211 --> 00:22:00,210 Это может помочь вам сделать это. 399 00:22:00,210 --> 00:22:03,580 Особенно, если у вас есть более чем, скажем, 80 результатов. 400 00:22:03,580 --> 00:22:05,980 >> Кроме того, мы также попросили для гранями языке. 401 00:22:05,980 --> 00:22:14,790 Так что, если мы посмотрим на наши результаты, мы видим, 76 из них на английском языке, четыре на французском языке, 402 00:22:14,790 --> 00:22:19,620 два на испанском языке, два, я думаю, что это не определено или неизвестно, голландский и латынь. 403 00:22:19,620 --> 00:22:22,830 Так что я думаю, что по-латыни пончик результат, опять же, 404 00:22:22,830 --> 00:22:24,922 не имеет ничего общего с хлебобулочных изделий. 405 00:22:24,922 --> 00:22:25,630 Но там вы идете. 406 00:22:25,630 --> 00:22:31,420 407 00:22:31,420 --> 00:22:38,630 >> Так что это своего рода показывая вам, как вы можете вытащить данные обратно 408 00:22:38,630 --> 00:22:41,270 от API только через веб-браузер, который отлично подходит. 409 00:22:41,270 --> 00:22:44,320 Но это не совсем то, что вы бы как правило, с использованием в API для этого. 410 00:22:44,320 --> 00:22:48,710 Так один пример того, как надо может на самом деле сделать это я имею 411 00:22:48,710 --> 00:22:54,720 написано супер небольшая программа, которые, опять же, не мой поиск пончика 412 00:22:54,720 --> 00:22:59,010 и выбирает пару поля и отображает их в виде таблицы. 413 00:22:59,010 --> 00:23:01,610 Так что это очень то же содержание, что мы просто 414 00:23:01,610 --> 00:23:04,830 пила с несколькими полями вытащил. 415 00:23:04,830 --> 00:23:12,090 Так список названий, в расположение, что книга 416 00:23:12,090 --> 00:23:15,120 о, язык, и так далее, и так далее. 417 00:23:15,120 --> 00:23:20,480 >> Так, как это произошло на самом деле, так как Я думаю, мы должны смотреть на код, 418 00:23:20,480 --> 00:23:22,420 is-- 419 00:23:22,420 --> 00:23:28,060 >> То, что мы имеем здесь дело с простой HTML страница, которая отображает текст, 420 00:23:28,060 --> 00:23:32,900 Добро пожаловать в библиотеку облака и то на экран выводится таблица результатов. 421 00:23:32,900 --> 00:23:37,790 И нет, очевидно, не приводит к Таблица когда страница загружается. 422 00:23:37,790 --> 00:23:41,380 Но то, что мы делаем это, в первую очередь, мы 423 00:23:41,380 --> 00:23:46,290 загружаются библиотеку под названием JQuery, который является в основном 424 00:23:46,290 --> 00:23:52,030 Библиотека наличие которого делает его очень легко манипулировать наличие 425 00:23:52,030 --> 00:23:58,780 изначально, HTML, а также создавать веб-страницы, на стороне клиента логика и веб-страниц. 426 00:23:58,780 --> 00:24:01,595 >> Итак, что мы имеем здесь дело с JQuery имеет метод Get, 427 00:24:01,595 --> 00:24:05,270 что существенно пойдет на Ссылка, которая, в данном случае, 428 00:24:05,270 --> 00:24:09,070 это знакомо глядя URL. 429 00:24:09,070 --> 00:24:14,440 И тогда получите содержание от что URL, а затем запустить функцию на ней. 430 00:24:14,440 --> 00:24:19,240 Поэтому мы сказали пойти в api.lib.harvard / Edu. 431 00:24:19,240 --> 00:24:20,060 Поиск пончики. 432 00:24:20,060 --> 00:24:21,300 Дайте нам 20 записей. 433 00:24:21,300 --> 00:24:28,590 И затем запустить эту функцию, которая Я выбрал, передавая ему данные. 434 00:24:28,590 --> 00:24:34,430 И данные JSON, что получил вернулся из API. 435 00:24:34,430 --> 00:24:40,120 >> И тогда мы говорим, в том, что Данные есть поле, называемое пункт. 436 00:24:40,120 --> 00:24:48,117 И если я пойду взглянуть назад на один из этих результатов, что здесь, 437 00:24:48,117 --> 00:24:49,200 есть что-то called-- 438 00:24:49,200 --> 00:24:50,220 >> Ну, это называется пункт. 439 00:24:50,220 --> 00:24:53,520 Так, что может быть, что. 440 00:24:53,520 --> 00:25:01,840 И то, что она делает, это его проходит через каждого элемента 441 00:25:01,840 --> 00:25:05,300 а затем вызывает другое Функция по каждому пункту. 442 00:25:05,300 --> 00:25:08,440 И, что функция в основном принимает значение 443 00:25:08,440 --> 00:25:12,010 пункта, что является по сути отдельная запись 444 00:25:12,010 --> 00:25:18,220 и позволяет вытащить название, охват и язык. 445 00:25:18,220 --> 00:25:21,640 >> Так мы называем функцию на каждый элемент, который мы вернулись из API. 446 00:25:21,640 --> 00:25:25,397 И если вы просто посмотрите на этот кусок прямо здесь, 447 00:25:25,397 --> 00:25:27,230 то, что мы делаем, мы создаем строку, 448 00:25:27,230 --> 00:25:31,810 который является по существу некоторые HTML разметка вокруг стола, с value.title, 449 00:25:31,810 --> 00:25:35,790 что название Объект, value.coverage, 450 00:25:35,790 --> 00:25:36,790 который является освещение, - 451 00:25:36,790 --> 00:25:38,225 >> И мы делаем проверку здесь, чтобы увидеть, кто не определено 452 00:25:38,225 --> 00:25:40,570 и скрывая его, если он говорит, что не определено, потому что мы на самом деле не заинтересованы 453 00:25:40,570 --> 00:25:41,600 в этом. 454 00:25:41,600 --> 00:25:42,939 >> --и тогда язык. 455 00:25:42,939 --> 00:25:44,730 И тогда то, что мы делаете добавления, что 456 00:25:44,730 --> 00:25:48,510 к таблице, которая определены этой строкой здесь. 457 00:25:48,510 --> 00:25:50,790 И как JQuery работает это то, что это говорит 458 00:25:50,790 --> 00:25:56,420 это посмотреть на таблицу с идеей Результаты и добавьте в него текст. 459 00:25:56,420 --> 00:25:59,380 И это таблица с результатами идея. 460 00:25:59,380 --> 00:26:04,998 Так что вы в конечном итоге с это страницы здесь. 461 00:26:04,998 --> 00:26:06,206 А для того, чтобы просмотреть source-- 462 00:26:06,206 --> 00:26:11,310 463 00:26:11,310 --> 00:26:13,810 Ну, источником на самом деле не обновляются, когда это произошло. 464 00:26:13,810 --> 00:26:18,740 Таким образом, вы можете увидеть фактическое Результаты таблицы, хотя здесь. 465 00:26:18,740 --> 00:26:24,770 >> Так что это просто простой пример делает очень простой запрос к API 466 00:26:24,770 --> 00:26:29,020 и отображения информации, в какой-то другой форме, и ничего не делает слишком фантазии. 467 00:26:29,020 --> 00:26:36,370 Теперь еще один пример, как программа, написанная Дэвидом Вайнбергером 468 00:26:36,370 --> 00:26:39,120 как демо это, что по существу показывает вам, 469 00:26:39,120 --> 00:26:44,620 как вы можете пюре итоги вы получение из библиотеки облачных API 470 00:26:44,620 --> 00:26:46,250 с, скажем, Google Books. 471 00:26:46,250 --> 00:26:52,225 >> И мышление здесь является то, что я могу выполним запрос Google Books, 472 00:26:52,225 --> 00:26:56,060 получить полнотекстовый поиск, получить некоторые результаты назад, выяснить, какие из этих элементов 473 00:26:56,060 --> 00:27:01,180 на самом деле существует в Холлис, библиотечная система, 474 00:27:01,180 --> 00:27:03,200 а затем дать мне ссылки Вернуться к этих элементов. 475 00:27:03,200 --> 00:27:12,730 Так что, если я ищу, это было темная и бурная ночь, я 476 00:27:12,730 --> 00:27:16,210 вернуться кучу результатов от Google, а затем один результат 477 00:27:16,210 --> 00:27:19,460 что морщин во времени. 478 00:27:19,460 --> 00:27:29,330 И это ссылки на книги, которые существуют в рамках системы Библиотека Гарвардского университета. 479 00:27:29,330 --> 00:27:32,160 >> Так что я думаю, дело здесь не в так что это может или не может 480 00:27:32,160 --> 00:27:34,118 быть так, что вы хотите искать библиотеку, 481 00:27:34,118 --> 00:27:38,310 но это совершенно разные так, что не было доступно для вас 482 00:27:38,310 --> 00:27:42,884 прежде, как вас не было никакой возможности делать Полный текст поиск по книгам, что даже 483 00:27:42,884 --> 00:27:44,550 были частью системы Библиотека Гарвардского университета. 484 00:27:44,550 --> 00:27:46,870 Так что теперь это способ что вы можете сделать это. 485 00:27:46,870 --> 00:27:51,930 И их можно отобразить в любой формат, вы хотите. 486 00:27:51,930 --> 00:27:55,990 Так моментом здесь является, в основном, мы открываем новые пути для людей 487 00:27:55,990 --> 00:27:59,080 работать с данными. 488 00:27:59,080 --> 00:28:07,925 >> Другая часть библиотеки облака, что это помогает раскрыть некоторые из данных использования 489 00:28:07,925 --> 00:28:08,800 что библиотека имеет. 490 00:28:08,800 --> 00:28:12,630 Так что, если вы идете в библиотеку, и вы ищете для книг, 491 00:28:12,630 --> 00:28:15,770 Вам не обязательно на самом деле имеют представление о том,, 492 00:28:15,770 --> 00:28:19,080 для всех элементов в конкретный субъект, то, что 493 00:28:19,080 --> 00:28:21,200 люди в сообщество, будь то 494 00:28:21,200 --> 00:28:24,890 определяется как Гарвард или страна или ваш класс, 495 00:28:24,890 --> 00:28:26,421 Что они оказались наиболее полезными? 496 00:28:26,421 --> 00:28:28,920 И библиотека на самом деле имеет Огромное количество информации о том, что 497 00:28:28,920 --> 00:28:32,999 наиболее полезен, поскольку если много людей проверить книгу, 498 00:28:32,999 --> 00:28:34,040 что говорит вам что-то. 499 00:28:34,040 --> 00:28:36,498 Там был какой-то причине они хотят, чтобы проверить его. 500 00:28:36,498 --> 00:28:38,270 Много людей положить его в запасе. 501 00:28:38,270 --> 00:28:42,520 >> Если это резервный список для многих классов, который говорит вам что-то. 502 00:28:42,520 --> 00:28:45,960 Если преподаватели проверяют его из много и студенты не являются, 503 00:28:45,960 --> 00:28:47,200 что говорит мне что-то. 504 00:28:47,200 --> 00:28:49,280 И наоборот, что также говорит вам что-то. 505 00:28:49,280 --> 00:28:54,680 Поэтому было бы очень интересно положить эту информацию там, и пусть 506 00:28:54,680 --> 00:28:59,969 люди используют его, чтобы помочь им найти работает внутри библиотечной системы. 507 00:28:59,969 --> 00:29:02,260 Оборотной стороной этого является есть некоторые серьезные конфиденциальности 508 00:29:02,260 --> 00:29:07,854 проблемы, потому что один из Основные принципы библиотеки 509 00:29:07,854 --> 00:29:10,770 что мы не собираемся рассказывать люди, что другие люди читают. 510 00:29:10,770 --> 00:29:17,360 И даже если вы говорите, это Книга была проверена четыре раза 511 00:29:17,360 --> 00:29:20,070 в конкретном месяце, , которые могут быть использованы 512 00:29:20,070 --> 00:29:25,252 ссылаются на особенности человек по данным де-анонимизирующая 513 00:29:25,252 --> 00:29:26,710 и выяснить, кто проверил это. 514 00:29:26,710 --> 00:29:30,792 Так так, что мы можем avoid-- 515 00:29:30,792 --> 00:29:33,750 Так, что мы можем попытаться извлечь некоторые сигнал от всей информации, 516 00:29:33,750 --> 00:29:36,740 без нарушения неприкосновенности частной жизни ничьих 517 00:29:36,740 --> 00:29:42,150 по существу мы смотрим на 10 лет данные об использовании, - 518 00:29:42,150 --> 00:29:43,930 >> Таким образом, это в течение длительного периода времени. 519 00:29:43,930 --> 00:29:50,639 >> --и говорят, хорошо, давайте посмотрим, как много раз был использован эту работу, 520 00:29:50,639 --> 00:29:52,930 и которые в течение этого периода времени, и то в основном 521 00:29:52,930 --> 00:29:56,300 вернуть номер, который мы называем оценка стек, который в основном 522 00:29:56,300 --> 00:29:59,910 показывает, насколько она была использована. 523 00:29:59,910 --> 00:30:01,084 И что number-- 524 00:30:01,084 --> 00:30:03,250 Много различных расчетов перейти в это число. 525 00:30:03,250 --> 00:30:05,150 --but это очень грубая показатель, который дает вам 526 00:30:05,150 --> 00:30:11,300 Некоторое представление о том, как сообщество могут оценивать эту работу. 527 00:30:11,300 --> 00:30:16,772 >> И так другого рода, даже более конкретизированы приложения 528 00:30:16,772 --> 00:30:18,480 которая воспользуется преимуществами этого является то, 529 00:30:18,480 --> 00:30:24,000 называется Stacklife, которая на самом деле доступны через главное Гарварде 530 00:30:24,000 --> 00:30:24,880 Библиотека портала. 531 00:30:24,880 --> 00:30:26,700 Так вы идете в library.harvard.edu. 532 00:30:26,700 --> 00:30:29,360 Вы увидите ряд различных пути поиска библиотеки. 533 00:30:29,360 --> 00:30:32,300 И один из них называется Stacklife. 534 00:30:32,300 --> 00:30:38,980 >> И это приложение, которое просматривает содержание библиотеки, 535 00:30:38,980 --> 00:30:43,490 но полностью построен поверх этих интерфейсов. 536 00:30:43,490 --> 00:30:46,910 Таким образом, нет никаких специальных материал происходит за кулисами. 537 00:30:46,910 --> 00:30:49,570 Там нет доступа к данные, которые вы не имеете. 538 00:30:49,570 --> 00:30:54,090 Она использует API-интерфейсы, чтобы предоставить вам с совершенно иной просмотра 539 00:30:54,090 --> 00:30:55,480 опыт. 540 00:30:55,480 --> 00:30:58,570 >> Так что, если я ищу для Алисы в стране чудес в этом случае, 541 00:30:58,570 --> 00:31:02,600 Я получаю результат, который выглядит как это, который является довольно much-- 542 00:31:02,600 --> 00:31:05,430 543 00:31:05,430 --> 00:31:10,870 >> Это очень похож на любой другой категории Вы могли бы сделать, кроме как в этом случае 544 00:31:10,870 --> 00:31:15,730 мы ранжирования детали stackscore, что дает вам 545 00:31:15,730 --> 00:31:19,850 Некоторое представление о том, как популярны в эти предметы были в обществе. 546 00:31:19,850 --> 00:31:25,610 И так ясно, Алиса в стране чудес Уолт Дисней очень популярны. 547 00:31:25,610 --> 00:31:36,570 Но вы также можете увидеть первую четверку вот те, что вы, возможно, не actually-- 548 00:31:36,570 --> 00:31:39,220 >> Вещи, которые высоко используются, но вы не можете сразу 549 00:31:39,220 --> 00:31:41,240 связаться с Алиса в стране чудес. 550 00:31:41,240 --> 00:31:44,650 Таким образом, наш старый друг Аннотированный Алиса здесь. 551 00:31:44,650 --> 00:31:46,350 Так что я могу взглянуть на него. 552 00:31:46,350 --> 00:31:52,010 А теперь то, что я ищу в основном устанавливается of-- 553 00:31:52,010 --> 00:31:53,760 Я могу иметь с примечаниями Алиса здесь. 554 00:31:53,760 --> 00:31:56,700 У меня есть информация о нем. 555 00:31:56,700 --> 00:32:00,230 И у меня также есть stackscore от того, в этом случае, 26. 556 00:32:00,230 --> 00:32:03,169 И это говорит мне вроде примерно как мы попали в этот stackscore, 557 00:32:03,169 --> 00:32:05,835 как кто проверял его, например, как много раз был проверили, 558 00:32:05,835 --> 00:32:08,440 как факультет или старшекурсники, как много копий библиотека имеет, 559 00:32:08,440 --> 00:32:11,300 и так далее, и так далее. 560 00:32:11,300 --> 00:32:16,460 >> И вы можете также, достаточно интересно здесь, просматривать стеки виртуально. 561 00:32:16,460 --> 00:32:19,550 Таким образом, данные здесь, это показывает вам разобраться 562 00:32:19,550 --> 00:32:23,547 виртуального представления от того, какой шельфа мощи 563 00:32:23,547 --> 00:32:25,880 выглядеть, если вы должны были принять все фондов библиотеки 564 00:32:25,880 --> 00:32:28,940 и положить их вместе на одной бесконечной полке. 565 00:32:28,940 --> 00:32:30,990 И приятно то, что мы can-- 566 00:32:30,990 --> 00:32:33,380 >> Прежде всего, метаданные об этих книгах 567 00:32:33,380 --> 00:32:35,627 часто говорит вам, когда она была опубликована. 568 00:32:35,627 --> 00:32:37,085 Она говорит вам, сколько страниц он имеет. 569 00:32:37,085 --> 00:32:38,459 Это может сказать вам размеры. 570 00:32:38,459 --> 00:32:42,930 Таким образом, вы можете видеть, что отражено здесь по размеру книг. 571 00:32:42,930 --> 00:32:46,740 >> И тогда мы можем использовать стек счет, чтобы выделить 572 00:32:46,740 --> 00:32:49,170 книги, которые имеют более высокие показатели складываются. 573 00:32:49,170 --> 00:32:54,930 Так что, если он темнее, это означает, что, Предположительно, она используется чаще. 574 00:32:54,930 --> 00:32:57,040 Таким образом, в этом случае, я буду гадать, что это 575 00:32:57,040 --> 00:33:03,226 это версия Алисе в стране чудес который очень широко используется и наиболее 576 00:33:03,226 --> 00:33:05,100 Доступ, библиотека имеет больше копий. 577 00:33:05,100 --> 00:33:06,975 Так что, если вы ищете Алиса в стране чудес, 578 00:33:06,975 --> 00:33:10,220 это может быть хорошим местом для начала. 579 00:33:10,220 --> 00:33:13,500 >> И тогда здесь Вы можете также связать из , скажем, Amazon, чтобы купить книгу, 580 00:33:13,500 --> 00:33:15,182 и так далее, и так далее. 581 00:33:15,182 --> 00:33:17,140 Дело здесь, опять же, не так много, что это 582 00:33:17,140 --> 00:33:25,030 это лучший способ, чтобы просмотреть библиотеку или правильный инструмент для каждого случая. 583 00:33:25,030 --> 00:33:28,400 Но это еще один способ сделать это. 584 00:33:28,400 --> 00:33:31,359 И, сделав данные доступны через API, который 585 00:33:31,359 --> 00:33:34,650 изготовлена ​​из очень простых блоков, который позволяет искать контент, 586 00:33:34,650 --> 00:33:39,420 Вы можете построить что-то как это, что можно 587 00:33:39,420 --> 00:33:41,520 быть чрезвычайно ценным для некоторых людей. 588 00:33:41,520 --> 00:33:46,640 589 00:33:46,640 --> 00:33:51,860 >> Так вот вроде, как я хочу сказать на самом деле о том, что API является 590 00:33:51,860 --> 00:33:56,070 и то, что он предоставляет, есть вся куча вещей за кулисами, которые 591 00:33:56,070 --> 00:33:59,480 Я просто хочу, чтобы коснуться кратко только потому, что он вроде идет на это 592 00:33:59,480 --> 00:34:03,720 с совершенно иной точки зрения в Условия, как делает что-то вроде этого 593 00:34:03,720 --> 00:34:04,580 получить положить на место? 594 00:34:04,580 --> 00:34:10,820 >> Так API является стандартным интерфейс для всего этого контента. 595 00:34:10,820 --> 00:34:13,820 Но чтобы получить его там, Первое, что мы должны были сделать 596 00:34:13,820 --> 00:34:17,260 был сблизить информации книг и изображений 597 00:34:17,260 --> 00:34:21,580 и системах поиска, сбора Документ из различных систем Гарварда. 598 00:34:21,580 --> 00:34:23,929 Алеф, VIA и оазиса имена систем. 599 00:34:23,929 --> 00:34:28,820 И они по существу идти в Трубопровод, конвейер обработки. 600 00:34:28,820 --> 00:34:33,230 >> Итак, прежде всего, мы получаем экспорт файлы из всех этих систем. 601 00:34:33,230 --> 00:34:35,130 Мы разделили их на отдельные элементы. 602 00:34:35,130 --> 00:34:39,360 Поэтому у нас есть файл, который гигабайт, который имеет миллионов записей в нем. 603 00:34:39,360 --> 00:34:42,290 Таким образом, мы разделили его на отдельные элементы. 604 00:34:42,290 --> 00:34:45,374 Затем, для каждого элемента, мы превращаем его в моды, потому что некоторые из них 605 00:34:45,374 --> 00:34:47,040 исходно моды, некоторые из них не являются. 606 00:34:47,040 --> 00:34:49,204 Итак, мы получаем их все, чтобы находиться в том же формате. 607 00:34:49,204 --> 00:34:51,120 Тогда существуют различные обогащению шагов, где 608 00:34:51,120 --> 00:34:55,969 добавить дополнительную информацию к данным чем была доступна в библиотеке. 609 00:34:55,969 --> 00:34:59,750 Таким образом, мы должны добавить, в первую очередь мы имеем то, что библиотеки удержать его. 610 00:34:59,750 --> 00:35:02,250 Мы проходим через стадию расчета stackscore. 611 00:35:02,250 --> 00:35:07,112 Мы проходим через другой стадии добавив больше метаданных в плане 612 00:35:07,112 --> 00:35:10,730 из каких наборов людей мог бы добавить this-- 613 00:35:10,730 --> 00:35:12,532 >> Люди создают наборы элементов. 614 00:35:12,532 --> 00:35:13,990 Что коллекции он принадлежит? 615 00:35:13,990 --> 00:35:17,220 Как бы люди с тегами это содержание в прошлом? 616 00:35:17,220 --> 00:35:20,750 Тогда вы отфильтровать, и вы ограничиваете записи, потому что, как я уже говорил, 617 00:35:20,750 --> 00:35:24,120 есть некоторые записи, которые, из-за Причины авторских прав, мы не можем отобразить. 618 00:35:24,120 --> 00:35:26,700 А потом мы загружаем их в то, что называется 619 00:35:26,700 --> 00:35:31,680 Solr, которая не опечатка, но Это имя части программного обеспечения 620 00:35:31,680 --> 00:35:35,710 что делает индексированием поиска, которые Приводы Все поиском позади API. 621 00:35:35,710 --> 00:35:40,110 И тогда он становится доступным для API-интерфейс, и люди могут его использовать. 622 00:35:40,110 --> 00:35:44,640 >> Так что это, как справедливо простой процесс. 623 00:35:44,640 --> 00:35:47,230 Одним из интересных все о нем 624 00:35:47,230 --> 00:35:50,990 что мы имеем дело 13 миллионов записей 625 00:35:50,990 --> 00:35:53,820 и мы будем иметь дело или более. 626 00:35:53,820 --> 00:36:01,260 И мы хотим, чтобы быть в состоянии справиться это в относительно скорейшего моды. 627 00:36:01,260 --> 00:36:03,630 Это занимает много времени, чтобы обрабатывать 13 миллионов записей. 628 00:36:03,630 --> 00:36:09,529 >> Так как этот трубопровод настроить, что вы can-- 629 00:36:09,529 --> 00:36:12,070 Я думаю, преимущество Трубопровод, проблема, что мы 630 00:36:12,070 --> 00:36:15,580 пытается решить здесь, является то, что все преобразования, все 631 00:36:15,580 --> 00:36:18,729 Эти шаги в этом Трубопровод отделимы. 632 00:36:18,729 --> 00:36:19,645 Там нет зависимости. 633 00:36:19,645 --> 00:36:22,146 Если вы обрабатываете запись одной книги, 634 00:36:22,146 --> 00:36:24,270 нет иждивенцев в что между другой книге. 635 00:36:24,270 --> 00:36:27,760 >> Итак, что мы можем сделать, это в основном, на каждом шаге в трубопроводе, 636 00:36:27,760 --> 00:36:30,470 мы ставим его в очередь в облаке. 637 00:36:30,470 --> 00:36:32,250 Мне довелось быть на Amazon Web Services. 638 00:36:32,250 --> 00:36:35,140 Так что список, говорят, 10000 предметов, которые 639 00:36:35,140 --> 00:36:38,100 должны быть нормализованы и преобразуется в формат модов. 640 00:36:38,100 --> 00:36:41,620 И мы раскручивается столько серверов Так как мы хотим, может быть, 10 серверов. 641 00:36:41,620 --> 00:36:44,860 И каждый из этих серверов только сидит там, смотрит в этой очереди, 642 00:36:44,860 --> 00:36:46,730 видит, что есть один, который должен обрабатываться, тянет его из очереди, 643 00:36:46,730 --> 00:36:48,740 обрабатывает его и палочки На следующем очереди. 644 00:36:48,740 --> 00:36:54,200 >> И так, что это позволяет нам сделать, это применить, по сути, 645 00:36:54,200 --> 00:36:58,110 как много аппаратных средств, а мы хотим, чтобы это Проблема в течение очень короткого периода времени 646 00:36:58,110 --> 00:37:02,970 для обработки данных так быстро, как возможно, что-то, что только, 647 00:37:02,970 --> 00:37:08,220 сейчас в мире облачных вычислений Мы можем предоставление серверы по существу 648 00:37:08,220 --> 00:37:09,890 мгновенно, в том, что полезно. 649 00:37:09,890 --> 00:37:12,260 Таким образом, мы не должны иметь гигант сервер сидеть 650 00:37:12,260 --> 00:37:16,700 все время, чтобы сделать обработку что может случиться только один раз в неделю. 651 00:37:16,700 --> 00:37:21,440 >> Так что это в основном это. 652 00:37:21,440 --> 00:37:27,590 Там же документация Для библиотеки Cloud Пункт API 653 00:37:27,590 --> 00:37:31,960 по этому адресу, который будет будет доступна позже. 654 00:37:31,960 --> 00:37:36,730 И, пожалуйста, пойти взглянуть на его, чтобы увидеть, если есть что-нибудь, 655 00:37:36,730 --> 00:37:37,579 у вас есть какие-то идеи. 656 00:37:37,579 --> 00:37:38,120 Играть с ним. 657 00:37:38,120 --> 00:37:38,830 Дурак вокруг. 658 00:37:38,830 --> 00:37:42,800 И, надеюсь, вы можете прийти с чего-то великого. 659 00:37:42,800 --> 00:37:44,740 Спасибо. 660 00:37:44,740 --> 00:37:45,899