제프리 LICHT : 안녕하세요. 나는 제프리 LICHT 해요. 그리고 나는에 대해서 말하려고 왔어 하버드 도서관 건물 미래의 라이브러리 오늘, 나는 생각한다. 그래서 여기에 배경, 이 세션에 대한 피치 기본적으로 있다는 것입니다 서지 데이터를 많이 하버드 도서관에서 사용할 수 있습니다. 그리고 기회가있다, 몇 가지 도구를 통해 및 개발되고있어 프로젝트, 정보에 대한 액세스를 얻을 수 있습니다 장소로 가져가 하버드 도서관은 지금 일을하지 않습니다 그것으로 새로운 물건을, 실험 그것으로 놀러. 따라서이 진입 점은 API이다 하버드 도서관 클라우드,라고하는 오픈 메타 데이터 서버는, 이는 지금에 대해 이야기합니다. 그래서 배경이 있다는 것이다 하버드 도서관에서 물건을 많이합니다. 우리는 1300 만 서지 이상이 기록, 이미지의 수백만, 검색 도구의 수천, 어떤 설명 기본적으로 문서이다 컬렉션은, 말을 무슨 논문의 상자, 그들에 등을 통해 표현하는 만 개별 문서. 또한 많이있다 라이브러리가 가지고있는 정보 콘텐츠가 있는지에 대한 방법을 사용 사람들이 관심을 가질 수 누가 작업 할 수 있습니다. 

그래서 모든 정보 라이브러리는 메타 데이터를 가지고있다. 따라서 메타 데이터는 데이터에 관한 데이터이다. 그래서 우리는에 대해 이야기 할 때 의 정보 라이브러리를 통해 사용할 수 사용 가능한 클라우드, 반드시이 아니다 실제 문서 자신, 반드시 전체되지 책이나 전체 이미지의 텍스트, 그 불구하고 실제로는 경우가있다. 그러나 그것은 정말로 데이터에 대한 정보를 제공합니다. 

그래서 당신은 카탈로그 생각할 수 정보, 전화 번호, 과목, 얼마나 많은 사본 책이있다, 어떤 판은, 무엇인가 등 형식, 저자합니다. 그래서 많은 정보에 대한이있다 컬렉션의 정보가, 그 자체로 가지 본질적으로 유용하다. 그리고 당신이 있다면 비록 심층 연구를하고, 당신은 분명히 실제에 싶어 자체 컨텐츠와 데이터를 보면, 메타 데이터는 측면에서 유용하다 모두 전체 코퍼스를 분석, 같은 컬렉션에 어떤 것들입니다. 그들은 어떻게 관련이 있는가? 그것은 당신이 정말 다른 물건을 찾을 수 있습니다 하는 그것이 정말 주요 목적이다. 의 점 메타 데이터 및 카탈로그 모든 찾을 수 있도록하는 것입니다 의 정보 컬렉션에서 사용할 수있는. 

그래서 이것은 메타 데이터의 예입니다 하버드 도서관에있는 책. 그래서이있다. 그리고 당신은 그것의 볼 수 있습니다 실제로 적당히 복잡한. 메타 데이터의 값의 일부 하버드 도서관 시스템 내에서 그것은 일종의 경우에 대해 의 catalogers에 의해 구축 및 적용 사람들에 의해 조립 전문 지식과 기술을 많이 그리고, 시간이 지남에 따라 그에게 생각 어떤 값을 많이하고있다. 

그래서 당신은이 기록을 살펴 경우 주석 앨리스, 당신은 찾을 수 있습니다 당신은 제목을, 누가 그것을 쓴있어 저자, 모든 다른 과목 어떤 사람들로 카탈로그 화했다. 그리고 당신은 볼에, 또한 거기에있다 좋은 정보를 많이뿐만 아니라 여기에 일부 중복이있다. 많은 복잡한이있다 메타 데이터를 통해 반영 당신은있다. 

그래서이 책의​​ 하나의 타이틀입니다 이상한 나라의 앨리스의 모험. 그래서이 주석이 그 책의 버전. 그러나 그것은 또한 주석을 불렀다 앨리스, 앨리스의 모험 이상한 나라의 때문에 그것은 뭔가하는 마틴 가드너가 썼다 그리고 책을 주석. 그리고 좋은 많은 정보가있다 논리 퍼즐과 일에 대한 앨리스 내에서 그 아마에 대해 알고하지 않았다. 그래서 당신은 그것을 읽을 가야한다. 

하지만 당신은 거기에 볼 수 있습니다 여기에 많은 세부, , 때를 식별자를 포함 생성 된, 그것은 어디에서 왔고, 하버드의 관점에서 시스템, 등. 그래서이의 샘플입니다 메타 데이터의 형식 당신은 책에 대한 볼 수 있음 하버드 도서관의 컬렉션입니다. 

이것은 완전히 다른 무언가이다. 그래서라는 제도가 있습니다 VIA 하버드, 기본적으로하는 이미지와 예술의 객체를 목록 화된다 하버드를 통해 시각적 인 것, 일부 메타 데이터를 추가 그들에게, 그들을 분류, 그리고, 경우에 제공 작은 썸네일 이미지 당신을 걸릴 수 있습니다 당신이 그렇게 원한다면 봐. 

그래서 이것의 예는 당신이 접시에 대해이 메타 데이터 아마도,에서, 이상한 나라의 앨리스. 그리고 당신은 거기에 볼 수 있습니다 여기에 많은 데이터를. 그것은 단지 객체의 다른 종류입니다. 그리고 적은 정보가있다. 

당신은 대부분 사실이, 호출 그 번호, 본질적으로, 그것을 만든 사람 - 

그것을 만들 때 우리는 모른다. 

제목을 - 그리고. 

또 다른 예. 이 발견에 도움이됩니다. 그래서 루이스의 컬렉션이있다 하버드 캐롤의 논문. 그래서이 무엇을 설명 그 컬렉션입니다. 그래서 누군가를 통과하고 모든 상자를 보았다 그리고, 몇 가지 배경 주어, 그것을 카탈로그 여기에 무엇의 요약을 작성합니다. 그리고 당신은 있었다 경우에 볼 것이다 또한이에,이 페이지와 페이지에 계속 및 페이지,하지만 당신을 말할 것이다 어떤 문자와 무엇을 어떤 상자에서 날짜 컬렉션 전반에 걸쳐 존재했다. 그러나 이것은 뭔가 즉, 당신이 하버드에 있다면, 당신은 가서 실제로 물리적으로 볼 수 위, 아마도 좀 봐. 

그래서이 모든 중대하다. 이 메타 데이터의 유용합니다. 그것은 하버드 도서관 시스템이다. 도구는 온라인으로 어디를가 있습니다 가서 그것을 좀 걸릴 수 있습니다, 그것을 참조하고 검색 할 수 있습니다. 그리고 당신은 주사위를 슬라이스 할 수 있습니다 그것은 다른 많은 방법. 

하지만 만약 정말에만 사용할 수 있어요 당신은 앉아 인간이다 웹 브라우저 또는 무언가 또는 휴대 전화와 그것을 통해 탐색. 그것은 정말 사용할 수없는 사용 가능한 패션의 모든 종류의 다른 시스템 또는 다른 컴퓨터가 사용하는 하지 내 시스템과 하버드 도서관, 하지만 외부에서 시스템, 일반적으로 그냥 다른 사람. 질문은 그래서, 어떻게 우리가 할 수있는 컴퓨터에서 사용할 수 있도록 우리가 더 많은 흥미를 할 수 있도록 단지보다 그것으로 물건 검색은 자신을 그것? 

그럼 왜 이렇게할까요? 많은 가능성이있다. 하나는 완전히를 만들 수있다 검색의 다른 방법 사용할 수있어 내용 하버드 도서관을 통해. 나는 당신에게 하나를 보여 드리겠습니다 나중에, Stacklife라고 완전히 다른이있는 콘텐츠를 찾고에 걸릴. 

당신은 추천 엔진을 구축 할 수 있습니다. 그래서 하버드 도서관에없는 말의 사업, 당신은이 책을 좋아한다. 그런 다음이 17 개를 살펴 이동 당신이에 관심이있을 수있는 책 이들 18 다른 이미지. 하지만 확실히 할 수 유용한 기능이 될. 메타 데이터 제공, 그것은 할 수있다 함께 그 넣어 가능. 당신은 다른 요구 사항이있을 수 있습니다 콘텐츠의 검색 조건, 같은 아마 도구에도 불구하고 그 도서관이 만들어내는 사용할 수 있습니다 사용할 수, 당신은 할 수 있습니다 다른 방식으로 검색 할 수 또는 특정 유스 케이스에 대한 최적화, 이는 어쩌면 매우 전문입니다. 아마도 몇 존재 세계에서 사람들이 사람 콘텐츠를 검색 할 이러한 방식으로, 그러나 좋은 것 우리의 경우 그들이 그렇게 할 수 있습니다. 분석이 많이있다 얼마나 사람들 정말로 될 콘텐트를 사용할 알아, 알고 재미 어떤 책 이용되고있다, 무엇없는, 등. 그리고 많이있다 통합 할 수있는 기회 다른 정보 즉, 웹에 나가있다. 그래서 우리는 드 니스, 니가 

예를 들어, NPR에는 서평 세그먼트, 그들은 인터뷰 곳 책에 대한 저자. 당신이 있다면 그리고 그것은 좋은 것입니다 하버드에서 책을 찾고 도서관, 당신은 OK, 거기에 말 저자와의 인터뷰이었다. 의 그 살펴 가자. 아니면 위키 백과 페이지로, 거기에 권위있는 학술 참조 이 책에 대한 당신을 에서 확인 할수있다. 

소스의 이러한 종류가 있습니다 웹에 흩어져. 그리고 그들을 함께 데리고 잘 사용 될 수 있습니다 사람에게보고 콘텐츠, 뭔가를 찾고. 그러나 그것은 또한 아니다 일 가지 단축형 라이브러리가 책임을 져야 할 추락 사냥을위한 모든 다른 소스 그들을 함께 연결 그들은 지속적으로 변화하고 있기 때문이다. 그리고 그들이 생각하는 것이 중요 월입니다 당신이 생각하는 것이 중요하지. 

그리고 더욱 더, 기본적으로 거기에 우리가 아직 생각하지 않은 물건을 많이합니다. 그래서 우리는이를 열 수 있다면, 더 많은 반 다스 정도의 게다가 사람들, 사람에이보고있다 아이디어를 생각할 수있는 정기적 및 데이터를 마사지하고, 그들은 그것으로하고 싶은 일을. 

그래서 우리는이를 만들고 싶어 세계에 사용할 수있는 데이터. 글쎄, 몇 가지 합병증이있다. 하나는이 메타 데이터 것입니다 서로 다른 시스템에 있습니다. 그것은 다른 형식입니다. 그래서 일부 정상화가있다 일어날 필요가있는, 이는 정상화의 과정 인 다른 형식에서 물건을 가져 단일 형식으로 매핑 그래서 필드가 일치됩니다. 

일부 저작권 제한이 있습니다. 이상하게도, 카탈로그 항목 에 대한 책은 저작권에 대해 책임을지지합니다. 그래서 심지어 그냥 비록 이 책에서 파생 된 정보, 그것은 저작권입니다. 그리고 실제로 사람에 따라 메타 데이터를 생성, 에 제한이있을 수 있습니다 배포 할 수 유사하고 .. 

모르겠어요. 그것은 수도 있고 유사하지 않을 수 있습니다 노래 가사의 상황, 예를 들어. 우리 모두는 냄비로 토사를 씻는 방법을 알고있다. 그래서 당신은 그 문제를 해결 얻을 필요가있다. 

그리고 또 다른 조각이다 것을 많은 양의 데이터가있다. 나는이 일을 원하는 사람입니다 경우에 따라서 데이터 또는 멋진 생각을 갖고, 1,400 만 취급 내 노트북​​에 기​​록 문제가 될 수있다 어려운 관리 할 수​​ 있습니다. 그래서 우리는 줄일 수 사람들을위한 장벽 데이터에 대한 작업을 수행 할 수 있습니다. 

그래서 방법은 잘하면 주소 이러한 모든 문제는 두 부분이다. 하나는 소요 플랫폼을 구축 이 모든 서로 다른 소스에서 데이터 그리고, 정규화, 그것을 악화 을 풍부하게하고, 브랜드 그것은 하나의 위치에서 사용할 수 있습니다. 그리고 그것은을 통해 사용할 수 있도록 사람들이 호출 할 수있는 공개 API. 

그래서 API는 응용 프로그램입니다 프로그래밍 인터페이스. 그리고 그것은 기본적를 의미 엔드 시스템 또는 해당 기술 전화에서 데이터를 다시 얻을 수 있습니다 방식으로 구조화 된 형식 여기에 사용 할 수있다. 그래서 의존 아니다 웹 사이트로 이동에 오프 데이터를 긁어 그것을, 예를 들면. 

그래서 이것의 홈 페이지는 라이브러리 클라우​​드 항목 API, 이는 본질적 버전 두 가지입니다. 그래서의 두 번째 반복이다 이 모든 데이터를 만들려고 세계로 사용할 수 있습니다. 그래서입니다 http://api.lib.harvard.edu/v2/items. 그리고 바로이 분해 조금, 무슨 일이 의미 이 API 버전 2 개인 점이다. 버전 하나, 거기에있는 나는에 대해 이야기하지 않을 것. 그러나 버전 하나가있다. 

그리고 당신은이를 호출하는 경우 API, 당신은 항목을 얻고있다. 그리고 아이디어의 일부 API는 API가 계약입니다. 그것은이다 뭔가 변경하지 않을. 그래서 예를 들면, - 

그리고 그 이유는 경우 I 시스템의 어떤 종류를 구축하는 라이브러리 클라우​​드 API를 사용하는 것입니다 책을 표시하거나 사람들이 찾을 수 있도록하는 독특한 방법으로 정보, 우리는 일이 원치 않는 것을 방법을 변경 우리가 갈입니다 이 API는 작동하고, 갑자기 모든 최종 사용자 측에 휴식. 당신은 API을하는 경우의 그래서 일부 세계에서 사용할 수, 그건 좋은 습관을 넣어 거기에 버전 번호 사람들 때문에 그들이 다루고있는 버전을 알고있다. 

우리가 결정하는 경우에 우리는 더 나은 방법을 찾아 이러한 정보의 이용 가능하게, 우리는에 그 변경 될 수 있습니다 해당 버전의 세 가지를 호출합니다. 사용하여 여전히 그래서 모두 버전 두 가지, 즉 여전히 작동합니다. 그러나 버전은 세 것 모든 새로운 물건이있다. 

그래서 이것은 API이지만 정말 URL처럼 보인다. 그래서 어떤이는 의 예는 무엇입니다 사용할 수있는 나머지 API 호출 그냥 일반 웹 연결을 통해. 그리고 당신은 실제로 수 브라우저에서 이동합니다. 

그래서 여기 난 그냥 파이어 폭스 최대 연과 api.lib.harvard.edu/v2/items에 갔다. 그래서 내가 여기에 도착 것은 기본적으로 제 페이지 전체 결과의 우리가 가진 항목으로 설정합니다. 그리고 XML 형식으로 여기에 있습니다. 그리고 그것은 또한되었습니다 파이어 폭스 prettified. 사실은이 모든이 없습니다 작은 신축 동작 여기 doohickeys. 이 좋네요의 일종이다 버전 방법은 볼 수 있습니다. 

하지만이 우리에게 말하고있는 것은 나는 모든 항목을 요청했습니다. 그래서 13,289,475 항​​목이 있습니다. 저는 우리가 처음보고있어 위치 0부터 시작하여 10, 컴퓨터 과학 때문에 우리는 항상 0에서 시작합니다. 그리고 내가 여기서 무엇을, 난 그냥 축소하는 경우 이, 내가 10 항목을 가지고 볼 수 있습니다. 

내가 항목에서 살펴 경우에, 난 할 수있어 나는 그것에 대해 정보를 가지고 것을 알 수있다. 그리고 이것은 MODS 양식이라고 무슨이다. 그래서 나는 전환 할거야 다시 여기에 잠시. 확인을 클릭합니다. 

그럼 뭔가를 검색하자 특정의 첫 번째 항목이 있기 때문에 사용자가 확인하는 시간에 올 일이 전체 컬렉션을 랜덤 정의상이다. 그럼 도너츠에 대해 살펴 보자. 오. 

확인을 클릭합니다. 그래서 도넛. 그래서 우리는 80 항목에이 발견 도넛을 참조 컬렉션. 우리는 그 중 처음 10에서 찾고 있습니다. 지금, 당신은 길을 여기에서 볼 수 나는 도넛을 찾고 있어요 말했다, 난 단지에 뭔가를 추가 URL의 쿼리 문자열. 그래서 질문은 당신이 할 수있는, 도넛과 동일 좀 더 쉽게 여기를 참조하십시오. 

그리고 이것은 기본적으로 있다는 뜻 API에 대한 사양하는 무엇보다도 정의 이러한 매개 변수는 것을 의미한다. 그리고 이것은 우리가가는거야 의미 도넛에 필요한 모든 것을 검색 할 수 있습니다. 

우리가 여기에서 첫 번째 항목 그래서 당신은, 제목이 도너츠입니다 볼 수 있습니다 와라는 자막이 미국 열정 인 것 같아요, 해당. different--이 많이 있습니다 당신은 지점에 도착하면 데이터를 가져 오는, 다른 많은이 있습니다 당신이에 그것을 얻을 수 포맷을 지원합니다. 그리고 다른 강점이있다 그들 모두에 대한 약점. 그래서 하나는, 당신은 볼 수 있습니다 여기에,이 양식은 매우 풍부하다. 그리고 표준화입니다. 

그래서 특정 제목이있다 필드, 자막 필드. 대체이있다 제목, 미국 열정. 연관된 이름이있다. 자원의 유형은 텍스트입니다. 많은 정보가있다 여기에이 형식. 

그러나 무리가있다 다양한 포맷을 지원합니다. 그래서 우리는 무엇인지 보고하는 형식입니다 약자라는 MODS, 메타 데이터 개체 설명 서비스, 잠재적으로. 난 사실에 대해 매우 확실하지 않다 S.는하지만 매우 복잡한 형식입니다. 그것은 기본 형식입니다. 

그러나 유지 하나입니다 모든 데이터의 풍부함 라이브러리가 있기 때문에이 있는지 그것은 매우 가까운 무엇 라이브러리가 내부적으로 사용합니다. 그것은하는 표준이다 전국에 걸쳐 사용, 대학 도서관에서 전 세계에 걸쳐. 그리고 그것은 매우 상호 운용합니다. 이 문서있어 경우에 따라서 즉, MODS 형식이며 당신은 다른 사람에게 그것을 제공 할 수 있습니다 그 시스템은, MODS을 이해 그들은 가져올 수 있습니다. 그래서 표준입니다. 그것은 아주 잘 매우 구체적인 정의입니다. 그리고 그것을 만드는 것입니다 상호 운용, 누군가가 말한다면 때문에 이의 대체 제목입니다 기록은 모든 사람들이 그게 무슨 뜻인지 알고있다. 플립 측면에서 매우 복잡합니다. 

그래서 살펴 경우 여기에이 기록에서, 난 그냥를 얻으려면 이 문서의 제목, 아마 도너츠이다이 책의, 미국 열정, 그것을 분석 조금 복잡합니다. 다른있다 반면 더블린 코어라는 형식으로, 이는 훨씬, 훨씬 더 간단한 형식입니다. 

그리고 당신은 거기에, 여기에 볼 제목, 자막, 제목에. 단지 제목이있다, 도너츠, 미국 열정, 다른 제목, 미국 열정. 당신은 어떤 형태로보고있다 그래서 때 당신은 밖으로 데이터를 얻으려면 많은 방법에 따라 달라집니다 당신은 그것을 사용하는 것입니다. 회원님이 사용하고 상호 운용성 또는 당신이 간단한 무언가를 원하는 보다 쉽게​​ 작업 할 수 있는가? 

다른 측면에서 많은 자세한 내용은 일종의 아래로 걸리죠. 당신의 뉘앙스가 손실 될 수 있습니다 어떤 특정 분야 수단 당신이 더블린 코어를 처리하는 경우, 하는 당신은 MODS에 얻을 수 없겠죠. 그래서 사람들은 형식​​입니다 당신은 API에서 얻을 수 있습니다. 그리고 기본적으로, 우리는 유지된다 그 MODS의 장면 뒤에. 그러나 우리는 MODS 당신에게 그것을 줄 수 있으며, 더블린 코어뿐만 아니라 다른 것. 다른 고려 때 당신은 데이터를 찾고 당신이 중 하나를 JSON으로 그것을 얻을 수있는 자바 스크립트 객체 표기법을 의미합니다 약자 또는 XML, 확장 마크 업 언어. 그리고이 데이터 표현을 모두 정확하게, 똑같은 데이터를 가지고 같은 필드. 그러나 그들은 그저 구문 다른. 

그래서 말이지입니다 음, 그냥 가서 할 일입니다. 그래서 이것은 우리의 쿼리입니다 XML 형식으로 도넛. 난 그냥이 JSON으로 전환하는 경우, 나는 다른 보이는 볼 수 있습니다. 이제이 같은 내용은, 하지만 다른 구조. 적은 꺾쇠 괄호가 있습니다. 덜 장황있다. 

그리고 이것은 형식입니다, 당신 경우 웹 환경에서 작업하는, 당신은 가장 가능성이 가고있다 하나 때문에 사용하고자하는 좋은 일들 JSON은 약 그것은 자바 스크립트와 호환. 내가 웹 응용 프로그램을 쓰고 있어요 그래서 만약 내가 해낼 수 JSON 단지 직접 작동합니다. XML과 반면에, 그것은이다 조금 더 복잡합니다. 그래서 다시, 이들은 모두 유용하다. 그들은 단지 다른 사용 사례입니다 여기서 사람들은 그들을 사용 할 수 있습니다. 확인을 클릭합니다. 그래서 다시 API에. 그래서 우리는 염려 마세요 검색 할 수 있습니다 

나는의 예를 들어 줄 도넛을 찾고. 우리는 또한 단지를 검색 할 수 있습니다 여기에 내 특정 필드. 그래서 그 대신 검색의 전체 기록, 난 그냥 제목 필드를 검색 할 수 있습니다. 그리고 지금은 25 가지가있다 그 제목에 도넛을 가지고 하나의 복원에 관한 것입니다 관리 습지 도넛에 구멍 아마 프로그램, 반드시 우리가 찾고있는 우리는 도넛을 검색 할 때합니다. 

당신은 당신이있을 때, 또한 수 API-- 처리 

API를 갖는 부분은주고있다 사람들은 큰 데이터 세트에 대한 액세스를 제공합니다. 그리고 다른 몇 가지가있다 도구는 그 일을 할 수 있습니다. 하나는 매우 간단하다 데이터를 통해 할 수있는 페이지. 그래서 당신은 쿼리를 할 것처럼 웹 인터페이스를 통해, 당신은, 페이지 하나를 볼 수 있습니다 두 페이지, 3 페이지. 동일한 작업을 수행 할 수 있습니다 API를 통해 것. 당신은 할 필요가 당신이 그것을 할 방법에 명시. 

그래서 예를 들어, 내가 찾고 있어요 경우 여기 내 첫 번째 쿼리에서, 나는 것들에 대한 검색을하고있어 어디에 제목 도넛, 나는 말할 수 및 제한을 의미하는 20 같음 나에게 처음 20 기록을하지 제공 기본값은 처음 10, 나는 한 번에 20보고 싶지 때문이다. 아니면 내가 설정, 말할 수 20 한계 동일한 시작 어떤을 줄 것이다, (20)과 동일 나 (40)를 통해 21 기록합니다. 

그래서 일을 생각한다 여기 빼앗아 것은 우리는 쿼리 문자열을 사용하고 있는지 쿼리에 매개 변수를 설정합니다. 그리고 그것은 당신이 제어 할 수 있습니다 당신은 다시 것을 얻을. 

당신이 사용할 수있는 또 다른 도구 - 

그리고 이것은 정말 도움이됩니다 데이터를 탐구하는 용어. 

패 시팅라는 것을 --is. 따라서 용어 패 시팅은 반드시 일반적이지. 하지만 당신은 모든 전에 그것을 보았다. 당신은 살펴 경우 아마존, 예를 들면, 당신은 검색을 책에서 도넛, 여기에 그들은 일련의 책을 가지고, 그들은 범주별로 그룹화하고, 당신은 다른 카테고리를 얻을 얼마나 많은 각 범주의 책 표시됩니다. 

그래서 이것은 기본적으로면이다. 당신은, 1800 모든 책을 아마존에서 도넛과 일치하는 책. 그 중 12에 아침 식사 범주입니다. 과자 및 제빵 (21), 및 기타 등등. 

그래서 정말 유용 내용 탐험을위한 도구 라이브러리 내에서뿐만 아니라 당신이면에서 볼 때 때문에, 그것은 당신에게 무슨 주제의 아이디어를 제공합니다 과목의 종류와 같은 존재 쿼리 세트 내에서 가장 인기 있습니다. 그리고 그것은 당신이 차로 탐구하는 데 도움이됩니다. 그래서 우리는 같은 일을 할 수 있습니다. 

우리는을 사용하려면 API 및 측면에서 보면, 우리는 또 다른 매개 변수를 추가 우리의 친구 쿼리 문자열. 측면 그래서 쉼표로 구분 된 동일 우리가 패싯 할 작업의 목록입니다. 그래서 측면 중 하나가 될 수 있습니다. 또 다른 언어 일 수 있습니다. 우리가 쿼리를 실행하는 경우 그래서, 우리는 나와 ... 그것은 거의 여기에 같은 보인다. 그러나 우리는 마지막에 추가 한 측면의리스트의 집합. 그래서 우리는 주체라는면이있다. 그래서 내가 보면 우리에게 말하고있다 도넛 쿼리 내 80 결과에서, 그들 중 13이 미국을 가하지. 세 가지 주제 도넛이있다. 세 피사체가 습지 복원, 이는 도넛 우리의 구멍 수 있습니다. 그 중 두, 심슨 가족, 및 기타 등등. 

그래서이는 경우에 유용 할 수 있습니다 검색 범위를 좁힐 싶습니다. 그것은 당신이 할 수 있습니다. 특히 당신이 가지고있는 경우 더 이상은 (80) 결과를 말한다. 

마찬가지로, 우리는 또한 요청 언어에면합니다. 우리가 우리의 결과를 보면 그래서, 우리는 (76)를 참조 그들에게 프랑스어, 영어, 사에, 스페인어, 두 두, 난 그 생각 정의되지 않았거나 알 수없는, 네덜란드어와 라틴. 그래서 라틴어를 생각한다 도넛 결과, 다시, 구운 제품과는 아무 상관이 없습니다. 그러나 거기 당신은 간다. 

그래서이 종류의 당신을 보이고있다 어떻게 콘텐츠를 당길 수 API를 통해 단지에서 대단한 웹 브라우저. 하지만 정말 아니다 당신은 무엇을 것 정상적으로위한 API에 사용합니다. 당신이 방법에 따라서 하나의 예 실제로 내가했습니다있다 할 수 슈퍼 작은 프로그램을 작성, 이는 다시, 내 도넛 검색을 수행 그리고 몇 가지 필드를 선택 그리고 테이블에 표시합니다. 그래서이 매우이다 같은 내용이 우리 단지 몇 가지 필드 톱 꺼냈다. 제목, 목록 그래서 어떤 책의 위치 약, 언어, 및 기타 등등. 

그래서이 사실 때문에, 어떻게 일어 났는지 나는 우리가 몇 가지 코드를보고있다 같아요 는 ... 

우리가 여기에있는 것은 간단한 HTML입니다 텍스트를 표시 페이지, 도서관 구름에 오신 것을 환영합니다 및 다음 결과 테이블을 표시합니다. 그리고 분명히 어떤 결과가 없습니다 페이지가로드되는 테이블. 그러나 우리는 무엇을하고있는 우리는 모든 우선 인 라는 라이브러리를로드 기본적으로 jQuery를, 그것을 만드는 자바 스크립트 라이브러리, 자바 스크립트를 조작하는 것은 매우 쉽습니다 기본적으로, HTML, 웹 페이지를 작성, 클라이언트 측 로직 및 웹 페이지. 

그래서 우리가 여기있는 것은 jQuery를이다 , 가져 오기라는 방법이있다 이는 본질적로 이동합니다 URL이있는 경우에는, 이 익숙한 찾고 URL입니다. 그리고 다음의 내용을 얻을 것이다 그 URL과 그것에 함수를 실행합니다. 그래서 우리는 api.lib.harvard / 에듀로 이동했다. 도넛을 검색합니다. 우리에게 (20) 기록을 제공합니다. 그리고이 기능을 실행하는 나는 그것을 데이터를 전달, 선택한. 그리고 데이터는 JSON은 그 API에서 반환있어. 

그리고 우리는 내 말을하는지 데이터 항목라는 필드가있다. 그리고 나는 다시 살펴 가면 여기에 이​​러한 결과 중 하나, 거기에 뭔가 그 이름은 

음,이 항목라고. 그래서 그렇게 할 수있다. 그리고 그것이 무엇을하는 것은입니다 각 항목을 통과 다음 다른 호출 각 항목에 기능. 그리고 그 기능을 기본적으로 값을 복용 인 항목의 기본적으로 개인 기록 우리가 제목을 당겨 할 수 있습니다, 범위와 언어. 

그래서 우리는 모든에 함수를 호출 우리가 API에서 얻었다 항목. 그리고 당신은 단지를 살펴 경우 여기이 작품에서, 우리가하고있는 것은 우리는 문자열을 만드는, 이는 기본적으로 일부 HTML 마크 업입니다 테이블 주위, value.title와, 이는의 제목입니다 개체, value.coverage, 하는 범위는,이다 - 

그리고 우리는 수표를하고있는 여기에 누가 정의되지 않은 볼 수 그것은 정의되지 않은 말한다면 그것을 숨기고, 우리가 정말 관심이 없다 때문에 점에서. 

- 그리고 다음 언어. 그리고 우리는 왜 왔는지 것을 추가되는 일 입니다 테이블에 여기에이 문자열로 식별. 그리고 jQuery를 작동하는 방법 이 무슨 말을하다 아이디어와 테이블을 찾아됩니다 결과는이 텍스트를 추가합니다. 그리고이 아이디어의 결과와 함께 테이블입니다. 그래서 당신은 결국 무엇 와 여기이 페이지입니다. 그리고 순서 source-- 볼 수 있습니다 음, 소스는 실제로 아니다 그 일이 일어 났을 때 업데이트되었습니다. 그래서 당신은 실제를 볼 수 있습니다 그러나 여기에서 테이블의 결과. 

그래서 그냥 간단한 예제 API에 대한 매우 기본적인 쿼리를 수행 및 다른 정보를 디스플레이 형성하고, 너무 멋진 아무것도 안하고. 이제 또 다른 예는 같다 데이비드 와인 버거가 작성한 응용 프로그램 이 데모,로하는 본질적을 보여줍니다 당신은 당신이있어 결과를 매시업 할 수있는 방법 라이브러리 클라우​​드 API에서 점점 와, Google 도서 말한다. 

그리고 여기에 생각이 내가 할 수있는 것입니다 Google 도서에 대해 쿼리를 실행, 어떤 결과를 얻을 수, 전체 텍스트 검색을 얻을 다시 알아 보려면 해당 항목의 어느 실제로 홀리스에 존재 라이브러리 시스템, 다음 나에게 링크를 제공합니다 다시 그 항목. 내가 검색한다면, 그것은이었다 어둡고 폭풍우 치는 밤, 나는 결과의 무리를 돌아 구글, 다음, 하나의 결과에서 이는 시간의 주름입니다. 그리고이 존재 책에 대한 링크가 있습니다 하버드 도서관 시스템 내에서. 

그래서 여기에 포인트가 아닌 것 같아요 너무 많은 것을이 수도 있고하지 않을 수 있습니다 당신이 원하는 방법이 될 라이브러리를 검색하려면, 그러나 그것은 완전히 다른 방법 당신에게 사용할 수 없었던 전에, 당신처럼 일을 방법이 없었습니다 전체 내용은 책을 검색 심지어 하버드 도서관 시스템의 일부분이었다. 그래서 지금이 방법은 당신은 그렇게 할 수있다. 그리고 당신은 그들을 표시 할 수 있습니다 어떤 형식으로 당신이 원하는. 그래서 여기에 요점은, 기본적이다 우리는 사람들을위한 새로운 방법을 개방하고 데이터로 작업합니다. 

라이브러리 클라우​​드의 또 다른 조각이 있다는 것입니다 또한 이용 데이터의 일부를 노출하는 데 도움 도서관은이 있는지 확인합니다. 그래서 당신은 도서관에 가면, 당신은 책을 찾고, 당신은 필요하지 않습니다 실제로 아이디어를 가지고, 모든 항목에 대한 특정 주제, 어떤 사람에 지역 사회, 그것의 여부 하버드 또는 정의 국가 또는 클래스, 그들이 가장 유용하다고 무슨이? 그리고 라이브러리가 실제로있다 에 대한 정보의 톤 무엇 가장 유용 많은 경우 때문에 사람들이 책을 체크 아웃 아르의, 그것은 당신에게 뭔가를 알려줍니다. 몇 가지 이유가되어 있어야합니다 그들은 그것을 체크 아웃 할. 많은 사람들이 예약에 넣어. 

그것은 많은에 대한 예비 목록에 있다면 클래스로, 그것은 당신에게 뭔가를 알려줍니다. 교수진을 확인하는 경우 많은 대학생이 없습니다에서, 그는 나에게 뭔가를 알려줍니다. 그 반대의 경우도 마찬가지, 그 또한 당신이 뭔가를 알려줍니다. 그래서 정말 흥미로운 일이 될 것이다 거기에 정보를 넣어 보자 사람들은 그들을 찾을 수 있도록 사용 라이브러리 시스템 내에서 작동한다. 이것의 다른 측면이다 심각한 개인 정보가 있습니다 문제 하나 때문에 라이브러리의 핵심 원칙 우리는 이야기하지 않을 것입니다 다른 사람이 읽고 어떤 사람들. 그리고 당신은이 말을하는 경우에도 책은 네 번을 조사 하였다 특정 월에, 즉, 사용할 수 특정 링크를 위로 드 익명 데이터에 의해 사람 그것을 체크 아웃 누가 발견. 그래서 방법 우리는 avoid-- 수 우리가 추출을 시도 할 수 있습니다 방법 모든 정보에서 일부 신호 저작권을 침해하지 않고 누구의 개인 정보 보호 문제 우리가 보면 본질적으로 사용 데이터를 10 년 - 

따라서 장기간에 걸쳐있다. 

- 그리고 확인의 방법 보자, 말 이 작품이 사용 된 여러 번, 이 기간 동안 사람들에 의해 시간 후 기본적 우리가 전화 번호를 다시 부여 스택 점수, 이는 기본적으로 이 사용되어 얼마나 많은 나타냅니다. 그리고 그 번호도 다른 계산의 많은 그 번호로 이동합니다. - 그러나 그것은 매우 거친입니다 당신을 제공 메트릭 방법의 몇 가지 아이디어 사회는 그 일의 가치를 할 수 있습니다. 

심지어의 그리고 다른 종류의 더 많은 응용 프로그램을 구체화 그 활용 이런 뭔가 실제로라는 Stacklife, 주 하버드를 통해 사용할 수 도서관 포털. 그래서 당신은 library.harvard.edu로 이동합니다. 당신은 다른의 수를 볼 수 있습니다 라이브러리를 검색하는 방법. 그리고 그들 중 하나는 Stacklife라고합니다. 

그리고 이것은 응용 프로그램입니다 라이브러리의 콘텐츠를 브라우징 하지만 완전히 구축 이러한 API의 상단에. 그래서 특별한 재료가 없다 뒤에서 것. 에 대한 액세스가 없습니다 당신이하지 않는 데이터. 그것은 당신을 제공하기 위해 API를 사용하고 완전히 다른 브라우징 경험. 

앨리스 검색이 경우 이 경우 이상한 나라의, 나는처럼 보​​이는 결과를 얻을 수 꽤 much-- 인이, 

그것은 어떤 다른 검색과 매우 유사 이 경우를 제외 할 수도 우리가 항목을 순위있어 당신을 제공 stackscore, 얼마나 인기 이들 중 몇 가지 아이디어 항목은 지역 사회 내에서 있었다. 그리고 명확하게, 앨리스의 원더 랜드 월트 디즈니에 의해 매우 인기가있다. 하지만 당신은 또한 상위 4 개를 볼 수 있습니다 여기에 당신이 ... 사실상하지 않을 수 있습니다 것입니다 

매우 사용하는 것, 하지만 당신은 즉시되지 않을 수 있습니다 이상한 나라의 앨리스로 연결합니다. 그래서 우리의 오랜 친구 주석 앨리스는 여기에있다. 그래서이 좀 걸릴 수 있습니다. 그리고 지금 나는 무엇을 찾고 있어요 기본적으로 어디의 설정에서 나는 주석을 가질 수있다 여기 앨리스. 난에 대한 정보를 가지고있다. 그리고 또한 stackscore이 때문에,이 경우, (26). 그리고 이것은 대략 종류 나에게 말한다 우리가이 stackscore에 도착하는 방법, 같은 사람은 어떻게처럼, 그것을 체크 아웃 체크 아웃 된 여러 번, 교수 또는 학부생, 방법 등 라이브러리가 많은 사본, 및 기타 등등. 

그리고 당신도 할 수있는 충분한 재미 여기에, 사실상 스택을 찾습니다. 그래서 여기에 데이터,이 종류를 보여주고있다 가상 표현 무엇 선반 세력의 당신이 먹는 것 인 경우처럼 모든 도서관의 보유 함께 넣어 한 무한 선반에. 그리고 좋은 점은 우리가하고 있는데 ... 것입니다 

우선, 이 책에 대한 메타 데이터 가 게시 될 때 종종 알려줍니다. 그것은 얼마나 많은 페이지를 알려줍니다. 그것은 당신에게 크기를 알 수 있습니다. 그래서 당신은 여기에 반사되는 볼 수 있습니다 서의 크기면에서. 

그리고 우리가 사용할 수 있습니다 강조 점수를 쌓아 높은 스택 점수를 가지고있는 책. 어둡게 있다면 그래서, 그것은 것을 의미한다 아마도, 더 자주 사용된다. 그래서이 경우에, 난 이 추측하는 것 이상한 나라의 앨리스의 버전입니다 그것은 매우 일반적으로 사용되는 대부분의 액세스 라이브러리 가장 복사본을 가지고있다. 당신이 찾고있는 경우에 따라서 이상한 나라의 앨리스에 대한, 이 시작하기 좋은 장소가 될 수 있습니다. 

그리고 여기에 다음도 링크 할 수 있습니다 말에, 아마존, 책을 구입 및 기타 등등. 여기에 점, 다시, 하지이되도록 많이 라이브러리를 탐색하는 가장 좋은 방법입니다 또는 모든 경우에 적합한 도구입니다. 그러나 그 일을하는 또 다른 방법이다. 데이터함으로써 API를 통해 사용할 수있는 매우 간단한 구성 블록 이루어지는, 이는 사용자가 콘텐츠를 검색 할 수 있습니다, 당신이 뭔가를 구축 할 수 있습니다 이와 같이 그 수 매우 수 어떤 사람들에게 가치. 

그래서, 일종의 내가 원하는만큼의 API가 무엇인지에 대해 정말 대답 이 노출 무엇을, 전체있다 장면 뒤에 물건의 무리하는 난 그냥 간단히에 터치거야 그것은 일종의이 온다해서 완전히 다른 각도에서 같이 무언가를하는 방법의 관점 제자리에 넣어 얻을? 

그래서 API는 표준이다 이 모든 내용에 인터페이스. 그러나 거기에, 그것을 얻기 위해 먼저 우리가해야 할 일을했을 정보를 함께 끌어되었다 책과 영상 및 검색 도구 컬렉션 다양한 하버드 시스템에서 문서. 알레프, VIA, 그리고 OASIS는 시스템의 이름. 그리고 그들은 본질적으로 이동 파이프 라인 처리 파이프 라인. 

그래서 우선, 우리는 수출을 얻을 이러한 모든 시스템에서 파일. 우리는 개별 항목으로 그들을 분할. 그래서 우리는, 기가 바이트 인 파일을 가지고 이는 그것에 만 기록을 가지고있다. 그래서 우리는 개별 항목으로 그것을 분할. 그런 다음, 각 항목에 대해, 우리는 그것을 변환 MODS으로, 이들 중 일부 때문에 기본적으로 MODS는, 그들 중 일부는 아니다. 그래서 우리는 그들 모두를 얻을 수 동일한 형식이어야. 그런 다음 다양한있다 농축 단계, 우리는 데이터에 더 많은 정보를 추가 보다 라이브러리에서 사용할 수있었습니다. 그래서 우리는 먼저, 추가 할 필요가 라이브러리를 잡고 무엇을 우리는 가지고있다. 우리는의 단계를 통해 이동 stackscore를 계산. 우리는 또 다른 단계를 통해 이동 측면에서 더 많은 메타 데이터를 추가 무엇 컬렉션 사람들 이런것 추가 한 수 

사람들이 만드는 항목의 컬렉션. 무엇 컬렉션은에 속해 있습니까? 사람들은 어떻게 태그했습니다 과거에이 내용? 그럼 당신은 필터링, 당신은 제한 기록, 내가 언급 한 바와 같이, 때문에 일부 기록이있다 그 중 때문에 저작권 이유는, 우리는 표시 할 수 없습니다. 그리고 우리는 그들을로드 라는 뭔가에 맞춤법이 잘못되지 않습니다 SOLR,하지만 소프트웨어 조각의 이름이고 즉, 검색 인덱싱을 수행하는 API 뒤에 모든 검색을 구동한다. 그리고, 그것은 사용할 수있게됩니다 API, 사람들은 그것을 사용할 수 있습니다. 

그래서이 상당히처럼 간단한 프로세스. 흥미로운 중 하나 이 약 일 우리가 다루고있는 것을 1300 만 기록과 우리가 다루는 이상 될 것입니다. 그리고 우리는 처리 할 수​​ 있도록하려면 상대적으로 빠른 방식으로이. 그것은 긴 시간을 소요 1300 만 기록을 처리합니다. 

따라서이 파이프 라인이 얼마나 설정이 있는데 ... 것입니다 I는 이점을 추측 파이프 라인, 우리가있어 문제 여기에 해결하기 위해 노력하고 있다는 것입니다 모든 변환, 모든 이이 단계 파이프 라인은 분리 할 수​​ 있습니다. 종속가 없습니다. 당신이 처리하는 경우 한 권의 책의 기록, 종속성에가 없습니다 다른 책 사이. 

그래서 우리는 무엇을 할 수는 기본적으로 파이프 라인의 각 단계에서, 우리는 클라우드에서 큐에 넣어. 나는 아마존 웹 서비스에있을 일어났다. 그래서의리스트가있어, 10,000 항목, 그런 말 정규화 될 필요 MODS 포맷으로 변환. 그리고 우리는 많은 서버를 회전 우리가 원하는, 아마 10 서버. 그리고 그 서버의 각 단지 , 거기에 앉아 그 큐에 보이는 필요 하나가 있음을 본다 처리,의 큐를 끌어, 를 처리하고, 스틱 그 다음 큐에. 

그리고 우리를 할 수 있습니다 그래서 뭐 적용 할 일은, 본질적으로, 많은 하드웨어로 우리는이 원하는대로 매우 짧은 시간 문제 빨리 같은 데이터를 처리 할 가능하면 어떤 일이 있습니다 만, 이제 클라우드 컴퓨팅의 세계 기본적으로 우리가 할 수있는 조항 서버 순간적으로, 그 유용합니다. 그래서 우리는을 할 필요는 없습니다 주위에 앉아 거대한 서버 모든 시간 처리를 할 즉, 일주일에 한 번만 발생할 수 있습니다. 

그래서이 대부분이다. 사용 가능한 문서가있다 라이브러리 클라우​​드 항목 API에 대한 다음 URL에서, 이는 것 나중에 사용할 수 있습니다. 그리고 살펴 가십시오 어떤이 있다면 그것은 볼 수 당신은 어떤 아이디어를 가지고있다. 그것으로 재생합니다. 주위 바보. 그리고 잘하면 당신이 올 수 있습니다 뭔가 좋은 것을 최대. 감사합니다.