[음악 연주] 더스틴 TRAN : 안녕하세요. 내 이름은 더스틴. 그래서 나는 제시 할 것 R.에서 데이터 분석 자신에 대해 조금. 나는 현재 대학원 학생입니다 엔지니어링 및 응용 과학. 나는의 교차 연구 기계 학습 및 통계 그래서 R에서 데이터 분석입니다 정말 기본적인 무엇 나는 매일 않습니다. 그리고 R이다 특히 데이터 분석을위한 좋은 이 프로토 타입을 위해 아주 좋은 때문이다. 그리고 일반적으로, 당신은 어떤 종류의 일을 할 때 데이터 분석, 많은 문제 중 인지에 갈 수 있습니다. 그래서 그냥 갖고 싶어 정말 좋은 언어 그 일을 단지 좋은 내장 함수, 반대 낮은 수준의 일을 처리하는 데에. 처음에 그래서, 난 그냥 갈거야 소개 R은 무엇을, 왜이 것입니다 당신은 그것을 사용하고자하고, 다음 몇 가지 데모에 가서, 그냥 거기에서 이동합니다. 그래서 R은 무엇인가? R은 언어 개발 통계 컴퓨팅을위한 및 시각화. 그래서 이것이 의미하는 것입니다 그것은 매우 훌륭한 언어이다 다루는 것은 모든 종류의에 대한 불확실성 또는 데이터 시각화. 그래서 당신은 모든이 확률 분포. 있을거야 내장 함수. 또한 우수해야합니다 패키지를 플로팅. 파이썬은 다른 경쟁이다 데이터의 언어. 그리고 한 가지 그 R을 찾아 그 시각화에서 훨씬 낫다. 그래서 당신은 데모로 볼 수 있습니다 잘 단지 매우 직관적 인 언어입니다 그건 그냥 매우 잘 작동합니다. 그것은으로, 또한 무료 오픈 소스 제 생각 엔 다른 좋은 언어입니다. 단지의 그리고 여기, 무리 키워드는 당신을 던져. 당신이있는 경우에 그것은 의미, 동적이다 객체에 할당 된 특정 유형 보다 그냥 즉석에서 변경합니다. 그것은 게으른 그래서 약 똑똑 어떻게 계산을 수행합니다. 정말 작동 할 수 있음을 의미 기능 기능의 떨어져 증거를 없애도록 기반 당신이있어 조작의 모든 종류의 일, 그것은 기능을 기반으로합니다. 그래서 이항 연산자, 예를 들어, 다만 본질적 기능은 다음과 같습니다. 그리고 모든 것을 당신은 어떻게되는거야 가는 함수 자체를 실행합니다. 그리고뿐만 아니라 객체 지향. 그래서 여기 XKCD 플롯이다. 뿐만 아니라 내가 같은 느낌 때문에 XKCD는 어떤 종류의 기초입니다 프리젠 테이션,하지만 때문에 난 정말이 같은 느낌 점을 망치 그 많은 당신은 데이터의 일종을하고있는 시간 분석, 문제가되지 않습니다 가 실행 얼마나 빨리 너무 많이, 하지만가는 얼마나 오래 작업을 프로그래밍하는 당신을 데려 갈. 그래서 여기에 단지 여부를 분석한다 전략 또는 b를 더 효율적이다. 이 될 것입니다 당신이있어 뭔가 에와 많은 거래를하려고 정렬의 로우 레벨 언어 당신이 독방 감금 오류 다루고 경우, 메모리 할당, 초기화, 심지어 내장 함수 만들기. 그리고이 물건은 모든 처리 아주, 아주 우아 R.에서 그래서 그냥이를 망치로 포인트, 가장 큰 병목 인지 될 것입니다. 따라서 데이터 분석은 매우 어려운 문제이다. 당신이하고있는 여부 기계 학습 또는 당신이있어 단지 어떤 종류의 일을 기본 데이터 탐색, 당신은하고 싶지 않아요 문서를 취할 다음 컴파일 때마다 뭔가 당신 열이 어떻게 생겼는지보고 싶어, 행렬의 어떤 특정 항목 처럼 보인다. 그래서 그냥 갖고 싶어 정말 멋진 인터페이스 당신은 간단한 기능을 실행할 수 있습니다 인덱스에 그 무엇 당신은 좋아하고 거기에서 실행할 것입니다. 그리고 당신은 도메인이 필요 이 특정 언어. 그리고 R은 정말 당신을 정의하는 데 도움이 될 것 문제는 이러한 방식으로이를 해결한다. 그래서 여기 플롯 보여주는 프로그램입니다 R의 인기는 시간이 지남에 사라 졌어요있다. 같은 그래서 당신은 2013처럼 볼 수 있습니다 그래서 그냥 엄청난 폭파. 그리고 이것은 단지 그 때문에되었습니다 기술 업계에 큰 추세 에 대한 빅 데이터. 또한, 단지 기술 산업,하지만 정말 어떤 산업 거저 때문에 산업의 많은 에 종류의 기본적인 이러한 문제를 해결하기 위해 노력. 그리고 일반적으로, 당신은 좋은있을 수 있습니다 이러한 문제를 측정하는 방법 심지어 그들을 정의하거나 데이터를 사용하여 해결. 그래서 지금은 R이 11이 생각 TIOBE에 가장 인기있는 언어 그리고 그 이후로 성장하고있다. 그래서 여기에 몇 가지 더있어 R.의 기능이있다 패키지의 엄청난 수와 모든 다른 것들에 대한. 그래서 언제든지 당신은이 특정 문제 대부분을 시간 R는 것 당신을 위해 그 기능. 당신이 원하는 그래서 여부 기계의 일종을 구축 라는 학습 알고리즘 임의 숲 또는 의사 결정 트리, 심지어의 평균을하려고 함수 또는이 물건의, R은있을 것이다. 당신이 경우에 그리고 당신은 걱정 흔한 최적화, 한 가지 당신은 프로토 타입을 수행하고 있는지 후 고급 언어의 일종, 당신은을 받 발생합니다 당신은 것입니다 단지 포트 그 이상 일부 낮은 수준의 언어. 무엇 R에 대해 좋은 점은 일단 당신 것입니다 프로토 타입을 완료, 당신은 C ++를 실행할 수 있습니다, 또는 포트란, 또는 이들의 임의 직접 R.으로 낮은 수준의 것들 그래서 하나는 정말로 R에 대한 멋진 기능, 당신이 정말로 걱정하는 경우 최적화 점. 그리고 그것은 또한 정말 좋은 웹 시각화합니다. 그래서 D3.js는, 예를 들면, 나는 또 다른 세미나를 추측 우리는 오늘 발표 것을. 그리고 이것은 정말 굉장 인터랙티브 비주얼을. 그리고 D3.js는 있다고 가정 데이터의 어떤 종류는 플롯 할 R은 할 수있는의 좋은 방법입니다 데이터 분석 당신이 그것을 내보내기 전에 이상 D3.js 또는 심지어 그냥 실행 D3.js는 R 자체에 명령, 뿐만 아니라 모든 이들과 같은 다른 라이브러리뿐만 아니라. 그래서 단지 소개했다 R 그리고 왜 당신이 그것을 사용할 수있는 것입니다. 그래서 희망, 나는했습니다 당신이 뭔가를 확신 대한 그냥 어떤 건지 확인하려고합니다. 그래서 내가 가서 통해 갈거야 R 객체에 대한 몇 가지 기본 사항 그리고 당신이 정말로 무엇을 할 수 있는지. 그래서 여기에 단지입니다 수학 명령의 무리. 그래서 당신이 구축하려는 혹시 교수님 말 언어 자신과 당신은 원하는 다른 도구의 무리가 있습니다. 작업의 모든 종류의 당신은 당신이 거라고 생각 거의 R. 될 것입니다 원하는 그래서 여기에 2 플러스 2입니다. 여기에 2 회 파이입니다. R은 내장 상수의 무리가 자주 파이, 전자처럼 사용하고 있다고. 그리고, 여기에 7 플러스의 runif, 1 runif 그래서. 이것은의 함수가 생성됩니다 0-1 하나의 랜덤 유니폼. 그리고 4의 힘 (3)이있다. 제곱근이있다. 로그가있다. 그래서베이스를 할 것입니다 로그 그 자체로 지수. 그리고, 당신은베이스를 지정하는 경우, 다음 당신은 당신이 원하는대로 기본 할 수 있습니다. 그리고 여기에 몇 가지 다른 명령입니다. 그래서 당신은 23 모드 2있다. 그런 다음 나머지를 가지고있다. 그럼 당신은 과학이 표기법 또한 경우 단지 더 많은 일을하고 싶은 더 복잡한 것. 그래서 여기에 할당합니다. 의 전형적인 지정 R은 화살표와 함께 이루어집니다 그래서 미만보다 하이픈입니다. 그래서 여기 난 그냥 할당 해요 변수 발 3. 그리고 나는 발을 인쇄하고 있습니다 다음은 세 가지 출력합니다. R 인터프리터 기본적으로, 그것을 당신을 위해 물건을 인쇄합니다 그래서 당신은 발을 인쇄 지정할 필요가 없습니다 언제든지 당신이 뭔가를 인쇄 할. 당신은 그냥 발을 할 수 있으며, 그것은 당신을 위해 그렇게 할 것입니다. 또한, 기술적으로 일치 한 사용할 수 있습니다 할당 연산자로. 약간의 미묘한 차이가 있습니다 화살표를 사용하여 사이 연산자와 같음 할당에 대한 연산자. 대부분 컨벤션, 모든 사람 그냥 화살표 연산자를 사용합니다. 그리고 여기,이 할당 해요 경사 표기는 1 콜론 (6)을했다. 이것은 1~6 벡터를 생성한다. 그리고이 정말 좋은 다음 때문에 당신은 단지 발에 벡터를 할당 그 자체로 작동합니다. 그래서이 이미로부터 것입니다 매우 직관적 인 데이터를 single-- 단지 두 배의 구조 벡터 형식으로 어떤 유형의 그리고 모두를 수집합니다 당신을위한 스칼라 값. 그래서 스칼라에서 진행 후, 당신 R 오브젝트를 가지며이 벡터이다. 벡터는 모든 종류입니다 동일한 유형의 컬렉션입니다. 그래서 여기 벡터의 무리입니다. 그래서이 숫자입니다. 숫자는 두 말의 R의 방법입니다. 그래서 기본적으로, 어떤 숫자는 더블 될 것입니다. 그래서 당신은 1.1, 3의 c를 가지고 있다면, 네거티브 5.7, C는 함수이다. 이 세 가지 연결합니다 벡터에 숫자. 그리고 이것은 만약 그렇다면 나중에 ...합니다 당신은 그 자체로 3 알, 일반적으로 당신은 생각할 겁니다 이 정수 같다고, 하지만 모든 벡터 때문에 동일한 유형, 이 두 배의 벡터이다 또는이 경우 숫자. rnorm이 생성하는 기능입니다 표준 정규 variables-- 또는 표준 정규 값. 그리고 나는 그들 중 두 가지를 지정하고 있습니다. 그래서 해당 할당, rnorm 2 일을 해요 DEVS는 다음 나는 DEVS을 인쇄하고 있습니다. 그래서 이건 그냥 두 가지 임의 정상 값. 그리고 당신이 경우에 INTS 당신은 정수에 대한 관심. 그래서 이것은 단지 메모리에 관한 것입니다 할당 및 저장 메모리 크기. 그래서 당신은 추가해야 할 것입니다 자본 L.하여 번호 일반적으로,은 R의 역사적인 표기 뭔가 긴 정수했다. 대부분의 시간, 당신은거야 그래서 복식 처리합니다. 그리고 만약 당신은 윌 코드를 최적화에, 당신은이 L의 추가 할 수 있습니다 이후 또는시 당신에 대한 예지 같은 경우 어떤 이러한 변수를 할 것입니다. 그래서 여기 문자 벡터이다. 그래서, 다시, 나는 연결하는거야 세 개의 문자열이 시간. 그 두 문자열을 주목하라 하나의 문자열은 R.에서 동일 그래서 나는 그렇게 아서와 마빈의과가 때 나는 그들 모두를 밖으로 인쇄 해요 두 문자열을 표시하는 것입니다. 그리고 당신은 또한 포함 할 경우 이중 또는 단일 문자열 당신의 문자에, 당신은 할 수 있습니다 도 당신의 문자열을 대체. 마빈의에 대한 그래서 두 번째 요소는, 여긴 당신을 방송 ... 것 단지 두 문자열이 다음 하나의 문자열 그래서 이것은 교류한다. 당신이 원하는 경우 그렇지 않은 경우, 두 번 사용 이중 문자열에서 문자열 연산자 이를를 선언 할 때, 그때 당신은 이스케이프 연산자를 사용합니다. 그래서 당신은 백 슬래시 두 문자열을한다. 그리고 마지막으로, 우리는 또한 논리 벡터를 가지고있다. 그래서 logical-- 그래서 TRUE FALSE를, 그리고 그들이있어 모두 대문자로 될 것이다. 그리고, 다시, 나는 연결하는거야 그 다음은 bools에 할당 할 수있을 것입니다. 그래서 bools 보여줄 것입니다 당신은, TRUE FALSE 및 TRUE. 그래서 여기 벡터화 색인이다. 나는 처음에 그래서 function--을 먹고 있어요 이것은 sequence--라고 2-12 순서. 그리고 2 시퀀스를 데려 갈거야. 그래서 할 것 2, 4, 6, 8, 10, 12. 그리고, 나는 색인 해요 세 번째 요소를 얻을 수 있습니다. 그래서 한 가지 유념해야 할 점은있다 1에서 시작하여 그 R 인덱스. 발스 그래서 3 줄 수 있겠나 당신이 세 번째 요소입니다. 이 종류의 서로 다른입니다 제로에서 시작 언어. 그래서 C 혹은 C ++에서, 예를 들어, 야 네 번째 요소를 얻을 것. 그리고 여기에 3-5 놈들이다. 그래서 한 가지 그 정말 멋진 당신 것입니다 내부의 임시 변수를 생성 할 수 있습니다 다음 바로 즉석에서이를 사용합니다. 그래서 여기에 3-5이다. 그래서 벡터를 생성하는거야 3, 4, 5 및 다음 나는 세 번째를 얻기 위해 색인 해요 네 번째, 다섯 번째 요소. 그래서 유사하게, 당신은 할 수 이 추상 바로 수행에 벡터의 모든 종류 즉, 색인을 제공합니다. 그래서 여기에 그 놈들이고 첫 번째, 세 번째 및 여섯 번째 요소. 그리고, 당신이 원하는 경우 보완해야 할 일, 그래서 당신은 마이너스을 나중에 그는거야 당신이 아니라 모든 것을 제공 첫 번째, 세 번째, 또는 6 요소. 그래서이 4, 8, 10이 될 것입니다. 그리고 당신은 얻으려면 더 고급, 당신은 부울 벡터를 연결할 수 있습니다. 따라서이 지수는 당신에게 줄 수 있겠나? 길이 6의이 부울 벡터. 그래서 담당자 TRUE 쉼표 3. 이 TRUE 세 번 반복됩니다. 그래서 이것은 당신에게 줄 것이다 벡터 TRUE, TRUE, TRUE. 담당자는 FALSE 4--이 당신에게 줄 수 있겠나? FALSE, FALSE, FALSE FALSE의 벡터. 그리고 C를 연결하는 것입니다 함께 두 부울. 그래서 당신은 세 가지를받을거야 TRUEs 다음 네 FALSEs. 당신 인덱스 놈들 아, 당신이있을 때 그 그래서 , TRUE, TRUE TRUE를 얻을 것. 그래서이 네 말 것, 나는 그 세 가지 요소를 원한다. 그리고 FALSE, FALSE, FALSE, FALSE는 것입니다 아니, 그 요소를 원하지 않는 대답 그래서 그들을 돌려 않을거야. 그리고 여기에 오타가 실제로 존재 같아요 이 때문에 3 반복 TRUE 말하고있다 그리고 기술적으로 당신을 FALSE 4를 반복하고, 만 여섯 요소가 너무 FALSE 반복이, 그것은 3 FALSE를 반복해야합니다. 나는 R은 또한 똑똑 생각 것을 당신은 다음, 여기에 4를 지정하는 경우 심지어 에러 출력되지 않습니다. 그것은 단지 당신이 값을 줄 것이다. 그래서 그냥 네 번째 FALSE를 무시합니다. 그래서 여기 벡터화 할당입니다. 이 단지를 설정 set.seed-- 그래서 의사 난수를위한 씨앗. 그래서 난에 씨앗을하고 있어요 의미 (42), 내가 생성하는 경우 그 세 정상 임의 값, 다음 경우 자신에 set.seed 실행할 같은 값 (42)을 사용하여 컴퓨터, 당신은 또한 얻을 같은 세 가지 임의의 법선. 그래서 이것은 정말 좋은 재현성. 일반적으로, 당신은 일을 할 때 몇 가지 과학적 분석의 종류, 당신은 씨앗을 설정할 것입니다. 그런 식으로 다른 과학자는 할 수 만약 여러분의 동일한 코드를 재현 그들은 정확한있을 것이다 때문에 수행 같은 확률 변수 거저 또는 임의 당신은뿐만 아니라 냈어요 값. 그리고 벡터화 할당 여기에 2 발스 1을 보여주는 것입니다. 그래서 처음 두 요소 소요 놈들의 한 다음 0으로 할당합니다. 그리고, 당신은 또한 그냥 작업을 수행 할 수 있습니다 부울와 비슷한 일. 그래서 놈들이 뜻을 0-- 같지 당신에게 벡터 FALSE를주고, FALSE, TRUE 이 경우에는. 그리고, 어떤 말 것 사실 그 인덱스, 다음은 5 저를 할당하는 것입니다. 그래서 세번째 요소를 가져 여기에 다음 5에 할당합니다. 그리고 이것은 정말 좋은 낮은 수준의 언어에 비해 어디 루프를 사용해야합니다 이 벡터화 된 물건을 모두 수행하는 그냥 매우 직관적이기 때문에 그것은 단일 한 줄입니다. 그리고 좋은 약 무엇 벡터화 표기 R에, 이러한 일종의 있다는 것입니다 내장 그들은 거의 빠르다 있도록 낮은 수준의 언어로 수행으로 R에서 루프를 만들기 위해 반대 다음은 할 필요 동적 색인 자체. 그리고 그 것보다 속도가 느려질 수 있습니다 벡터화 이런 종류의 이 병렬에서 할 수있는 그것은 기본적으로 스레드에서 뭐하는거야. 그래서 여기에 작업을 벡터화. 그래서 3에 값 1을 생성하고있어, 할당이 vec1에, 3-5, VEC2, 그들을 함께 추가. 너무 그들에게 성분이 많다는 추가 그렇게 1 플러스 3, 2 플러스 4,을합니다. vec1 배 VEC2. 이는 두 개의 곱 지혜로운 구성 요소 값. 그래서 1 ~ 3 배, 2 배의 4 일 후, 3 ~ 5 배이다. 그리고 마찬가지로 당신도 할 수있다 논리 비교를 comparisons--. 그래서이에 TRUE FALSE FALSE입니다 케이스 (1)이므로, 3보다 크지 이 4 이하이다. 이것은 내가, 또 다른 오타를 추측이다, 3 확실히 크지 5 이상이다. 그래. 그래서 당신은 모든 할 수있는 이 간단한 작업 자신의 상속 때문에 클래스 자체에서. 그래서 그냥 벡터이었다. 그리고 그 가장 기본적인의 일종 R 객체 때문에, 주어진 벡터 당신은 더 진보 된 개체를 구성 할 수 있습니다. 그래서 여기 행렬이다. 이것은 본질적으로 추상화 매트릭스 자체가 무엇을의. 따라서이 경우에는, 다른 세 야 하나 하나가 열입니다 벡터,, 또는 당신은 그것을 고려할 수 있습니다 각각 같은 행입니다. 그래서 1 매트릭스를 저장 해요 9는 내가 3 행을 지정하고 있습니다. 그래서 1 ~ 9는, 당신에게 벡터 1을 줄 것이다 2, 3, 4, 5, 6 및 9의 모든 방법. 또한 한 가지 유념해야 할 점은 것입니다 R 매장 열 주요 형식으로 값. 그래서 다른 말로하면, 당신은 일을 할 때 참조 9, 그것은 데모 테잎 저장 것 그것은, 2, 1이 될 것 첫 번째 열에서 3, 다음 그것을 할 거 4, 5, 두 번째 열에서 6, 다음 7 번째 열에 8,9. 그리고 여기에 몇 가지 다른입니다 당신이 사용할 수있는 일반적인 기능. 그래서 어두운 매트, 이것은 당신에게 줄 것이다 행렬의 크기. 그것은 당신을 반환 할 것 차원의 벡터. 이 경우, 그렇게 때문에 우리의 행렬은, (3)에 의한 3 그것은 당신에게 줄 것 숫자 벡터 3 3이야,. 그리고 여기에 바로 표시되어 행렬 곱셈. 그래서 일반적으로, 당신은 할 경우 asterisk-- 그래서 매트 별표 mat-- 이 될 것입니다 구성 요소 단위 계산 또는 마드 제품 무엇을 불렀다. 그래서 각을 할 것 요소 요소 현명한. 그러나, 당신이 원하는 경우 매트릭스 multiplication-- 상기 제 1 행 배를 승산 두 번째 행렬의 첫 번째 열 그래서 박사님의 당신은 사용합니다 이 %의 작업. 그리고 매트의 t 단지이다 전치에 대한 작업. 그래서에서 전치을 말하는거야 행렬은 행렬 곱 그 자체. 그리고, 그것은에 무슨 다른 3로 돌아 3 매트릭스 보여 당신이 원하는 것입니다 제품. 그리고 그 행렬이었다. 다음은 데이터 프레임라고하는 것입니다. 당신은뿐만 생각할 수있는 데이터 프레임 매트릭스 있지만, 각 컬럼 자체 다른 유형의가 될 것입니다. 그렇다면 데이터에 대한 정말 멋진 프레임은 데이터 분석 자체가, 당신은이 모든 것을 할 겁니다 이기종 데이터 및 모든 정말로 지저분한 일 경우 각 열 자체는 다른 타입 일 수있다. 그래서 나는 여기를 만들 말하는거야 데이터 프레임, 1-3 INT를 수행 다음 또한 문자 벡터를 가지고있다. 그래서 통해 인덱스를 할 수 이 컬럼의 각 다음 나는 값 자체를 얻을 수 있습니다. 그리고 당신은 또한 어떤 종류의 작업을 수행 할 수 있습니다 데이터 프레임에 작업. 그리고 대부분의 시간을 당신이있을 때 데이터 분석 또는 어떤 종류의 일을 전처리, 당신은있을거야 이러한 데이터 구조와 협력 여기서 각 열은 것입니다 다른 유형이어야합니다. 마지막으로, 그래서이 본질적으로 단지입니다 R. 목록에서 4 개의 필수 객체 그냥를 수집합니다 다른 개체는 당신이 원하는. 그래서 하나에이 저장됩니다 쉽게 액세스 할 수있는 변수입니다. 그래서 여기에, 나는 목록을 데려 갈거야. 나는 물건 3에 해당 말하는거야. 그래서 하나의 요소를 가지고 갈거야 목록이이 물건이라고, 그리고 값 3을 가질 것입니다. 또한 매트릭스를 생성 할 수 있습니다. 그래서이 4과 끝 행 1 2에 해당하므로이 두 행렬. 또한 목록에서 그것은 매트라고합니다. moreStuff, 문자열, 자체 심지어 다른 목록입니다. 그래서이 5 곰의 목록입니다. 그 값 5를 갖도록 문자열 곰이 그리고 목록 내부의 목록입니다. 그래서 당신이있을 수 있습니다 재귀 일 경우 당신은 another--이 유형 내에서 입력합니다. 그래서 유사하게, 당신은 매트릭스를 가질 수있다 또 다른 매트릭스 내부 등등. 그리고 목록은 그냥 좋은 방법입니다 수집 및 집계의 모든 다른 개체. 그리고 마지막으로, 여기에 단지의 경우에 도움이된다 이것은 단지 매우 빠르게 이상 사라졌다. 그래서 언제 당신은 혼란스러워 기능 어떤 종류의 약, 해당 기능의 도움을 수행 할 수 있습니다. 그래서 당신은 도움이 행렬을 할 수있는 또는 물음표 행렬. 도움말 및 물음표입니다 그냥 같은 일을 나타내는 표현 그래서 그들은 별명이야. LM는 기능입니다 단지 선형 모델을 수행합니다. 하지만 당신은 어떻게 할 수 있는지 아무 생각이없는 경우 작품은, 당신은 단지 작품의 도움을 수행 할 수 있습니다 그것은 당신에게 줄거야 문서의 종류 그 가지처럼 보이는 유닉스, 남자 페이지 당신의 짧은 설명을 가지고있는 그것의 인수는 또한 무엇을합니까, 그것은 반환하고, 방법에 대한 그냥 팁 무엇 그것을 사용하고, 일부 실시 예뿐만 아니라한다. 그래서 내가 미리와 쇼 가자 R. 확인을 사용하는 몇 가지 데모. 그래서 나는 매우 갔다 신속하게 데이터 만 구조와 어떤 종류의 작업의 일부를 op--. 여기에 몇 가지 기능입니다. 그래서 여기 난 그냥 갈거야 함수를 정의 할 수 있습니다. 그래서 나는 또한 사용하고 있습니다 여기에 대입 연산자, 다음 말인지 함수로 선언. 그리고 x 값을합니다. 그래서이 원하는 값이다 나는 그 자체 x를 반환하는거야. 그래서이 식별 기능입니다. 그리고 이것에 대해 멋진거야 다른 언어에 비해 다른 낮은 수준 언어는 그 x는 모든 유형 자체가 될 수 있습니다 그리고 그 형식을 반환합니다. 그래서 당신은 그렇게 할 수 imagine-- 수 있습니다 내게는 신속하게이 프로그램을 실행합니다. 미안 해요. 그래서 한 가지 나는 또한 언급해야한다 이 편집기 내가 사용하고 있다는 것입니다 rstudio라고합니다. 이 IDE라고하는 것입니다. 그리고 한 가지입니다 그 이 정말 좋은 이 많이 포함한다는 것이다 사물은 그 자체로 R에서 수행 할 단지 매우 직관적. 그래서 여기 통역 콘솔입니다. 그래서 유사하게, 당신은 또한이를 얻을 수 있습니다 다만 자본 R.을 수행하여 콘솔 원시 그리고 이것은 정확히입니다 콘솔과 같은 일. 그래서 난 그냥 ID 기능 X, X, X를 할 수 있습니다. 그러고 나서 ... 그리고 그와 자체가 잘 될 것입니다. 그래서 rstudio 중대하다 이 콘솔을 가지고 있기 때문에. 또한 문서를 갖는다 당신은에 실행하고 싶습니다. 그리고, 그것은 몇 가지 변수가 당신은 환경에서 볼 수있다. 그리고, 당신은 할 경우 당신에게 다음, 플롯을 할 수 반대로 그냥 여기를 볼 수 있습니다 모든 다른 창을 관리 그 자체로. 사실 개인적으로 빔을 사용하지만 rstudio 같은 느낌 그냥 우수 좋은 아이디어를 얻기위한 보통 R.를 사용하는 방법, 때 당신이 노력하고 새로운 작업을 배우고, 당신은 처리하지 않으려는 한 번에 너무 많은 것. 그래서 R은 아주 - rstudio입니다 학습 R의 아주 좋은 방법입니다 다루는 않고도 이 모든 다른 것들. 그래서 나는 여기 안녕하세요 ID를 실행 해요. 이 인사 반환합니다. ID (123). 여기서 정수 벡터이다. 그래서 유사하게, 당신이 할 수 있기 때문에 가치의 일부를 취해야 당신의 ID를 반환 할 수 X 그래서 1234 5 반환합니다. 그리고 바로 당신을 보여하겠습니다 이 참 정수입니다. 그리고 유사하게, 당신은 클래스를 할 경우 아이디 x는,이 정수가 될 것. 그리고, 당신은 또한 수 이 두 가지를 비교하고 그것은 사실입니다. 그래서는 x의 경우 ID를 알아보고 있어요 등호 x 및 통지와 동일 그것이 당신에게 두 TRUEs을 제공합니다. 그래서이는 말을하지 않습니다 동일한 두 개체, 하지만 각 항목입니다 벡터 동일 내. 여기 bounded.compare입니다. 그래서이 약간 더 복잡하다 점에서이 경우 조건을 가지고 있으며, 다른 다음 삼각 관계 한 번에 인수. 따라서 x는 임의의 타입이다. 내가 이런 말을 해요 두 번째 인수는 것입니다. 이것은 또한 무엇이든 될 수있다. 그러나 기본적으로이 걸릴 거예요 5 당신은 아무것도 지정하지 않은 경우. 그래서 여기에 무슨 말을해야 겠어 X는보다 큰 경우. 나는를 지정하지 않은 경우 그래서, 그것을 X가 5보다 큰 경우, 말한다 나는 TRUE를 반환거야. 다른, 나는 FALSE를 반환거야. 그래서 내가 가서이 문제를 정의 할 수 있습니다. 지금은 갈거야 bounded.compare 3를 실행합니다. 그래서 3 이하 말합니다 than-- 5 3보다 크다. 아니, 그렇게 FALSE 아니다. 그리고 3 bounded.compare 나는거야 2와 동일한 사용하여 비교. 그래서 지금은 지금, 그래 말하는거야 뭔가 다른 싶어요. 내가 말할거야 그래서, 당신은 2이어야합니다. 나는 이런 종류의 작업을 수행 할 수 있습니다 표기법 아니면 2에 해당 말한다. 이것은 더 읽을 수 그 당신이있을 때 이러한 정말보고 복잡한 기능이 여러 arguments--이 걸릴 수십 그냥 말 oftentimes--이 될 수 있습니다 2는 더 읽을 일치 한 향후 그래서 나중에 당신 당신은 당신이 무슨 일을하는지 알 수 있습니다. 그래서이 경우에, 난 속담이 3보다 크다. 예 그렇습니다. 그리고 유사하게, 그냥 제거 할 수 있습니다 이 말과 2, 3보다 크다 여기서 2와 동일합니다. 그리고 그것은 또한 사실입니다. 네? 청중 : 당신은 누구 라인으로 라인을 실행? 더스틴 TRAN : 그래, 난입니다. 그래서 내가 여기서 뭘하고있어입니다 이 텍스트를 복용 document-- 및 rstudio가 있다는 것입니다에 대한 좋은거야 난 그냥 short--에게 키 바로 가기를 실행할 수 있습니다. 그래서 컨트롤 - 입력하고 있어요. 그리고, 내가 데려 갈거야 텍스트 문서의 라인 다음 콘솔에 넣어. 그래서 여기에 내가 말하고, bounded.compare 내가 제어-X를하고 있어요. 그래서 난 그냥 여기에서도 실행 할 수 있습니다. 그리고 그 할게요 다음 라인과 여기에 넣어. 그리고 유사하게, 여기 실행 할 수 있습니다. 그리고 그것은 단지 정의 계속됩니다 같은 콘솔에 라인. 그리고 당신은 또한 곱슬가 나는 경우 중괄호는 C 구문처럼이 있습니다. x-- 경우 조건이 또한 경우 괄호를 사용하려고하고 당신은 다른 사용할 수 있습니다. 또 다른 하나는 다른 경우입니다. 그래서이 X이 될 것입니다 예를 들어, 동일 같습니다. 그리고 나는 갈거야 여기서 뭔가를 반환합니다. 두 개의 서로 다른 있다는 것을 주목 무슨 일 여기 가지. 하나는 내가 지정하고있어 여기에 있다는 것입니다 값이 TRUE를 반환. 여기에 그냥 X를 말하는거야. 그래서 R 기본적으로 보통 것 마지막 arguments--을 또는, 코드의 마지막 줄을 그리고 그것이 반환 무슨 될 것입니다. 그래서 여기이 동일 반환 X 작업을 할 것. 그리고 당신을 표시합니다. 그리고, 그냥 그런 식으로 작동합니다. 그래서 날이 계속하자. 그래서 다른 경우. 그리고 정말로, 나는 반환 할 수 있습니다 내가 좋아하는 것 아무것도. 그래서 난 필요 없어 반환 부울​​ 모든 시간을, 난 그냥 다른 뭔가를 반환 할 수 있습니다. 그래서 반환 곰을 할 수 있습니다. x가 동일한 경우는 그래서, 동일 이 곰을 반환하는 것입니다. 그렇지 않으면 TRUE를 반환 할 것입니다. 또한 벡터를 할 수 나 정말 아무것도. 그리고 일반적으로 정적에 입력 된 언어, 여기 유형을 지정해야 할 것이다. 그리고 그냥 아무것도 할 수 있다는 것을 알 수 있습니다. 그리고 R은 충분히 지능 다만이 작업을 수행하고 그것을 잘 작동합니다. 그래서 내가이를 정의 할 수 있습니다. 죄송 오 Unexpected--. 여기 중괄호해야합니다. 확인을 클릭합니다. 쿨. 좋아. 그래서 지금의 3을 비교하자 3 같습니다. 그래서 return--한다 값 곰 생각났어. 그래서 지금보다 일반적인 것은 같다 어떤 다른 데이터 구조에 대한. 그래서 당신은이 기능을 가지고있다. 이것은 모든 종류의 작업을 할 것입니다 3 또는 숫자와 같은 값, 즉, 두 번. 벡터 같은 약하지만. 그렇다면 당신이 그렇게 싫어합니다 경우 난 발생 6 말에 발, 4를 할당하는 것. 그래서이이를 반환하는 경우 4, 5, 6 행 벡터이다. 이제 어떻게되는지 보자 내가 할 경우 발을 bounded.compare. 그래서 이것은 당신에게 1251 (15)을 줄 것입니다. 즉 그래서, 그것은 말 것 이 상태를 보면 그래서 X 덜 말한다 또는 무엇인가보다. 그래서이 약간 혼란 때문에 지금 당신은 무슨 일이 일어나고 있는지 모른다. 그래서 나는 정말로 한 가지를 추측 단지 디버그하려고에 대한 좋은 당신이 발은 크다 할 수 있다는 것입니다 그리고보다 것은이 어떻게되는지. 그래서 val--은 기본 5 그렇게하는 것입니다 그냥 5보다 큰 발 할 수 있습니다. 그래서이 벡터 FALSE FALSE TRUE입니다. 그래서 지금 당신이보고 할 때 이,이 경우 말하는 것, 그리고, 그것은 당신이 줄거야 FALSE FALSE의 벡터가 TRUE입니다. 당신은 R, R로이 전달 그래서 때 당신이 무슨 일을하는지 모르고있다. 그것은 하나의 기대 때문에 부울 값, 그리고 지금 당신은 그것을 부울의 벡터를 제공하고 있습니다. 그래서 기본적으로, R은 그냥 도대체 무엇을 말을하려고, 난 당신이있어 것 같은데요 여기에 첫 번째 요소를 걸릴 것. 그래서 내가 갈거야 말하길거야 이 거짓이라고 가정합니다. 그래서 말 것 아니, 이것은 옳지 않다. 마찬가지로,가는거야 발은 동일 동일합니다. 아니, 5 죄송합니다. 그리고 그것은 또한뿐만 아니라 거짓이 될 것. 그래서, '아니오'라고하는거야 그것은뿐만 아니라 그것은 그래서 사실이 아니다 이 마지막 하나를 반환하는 것. 그래서 이것은 좋은 일이나 나쁜 중 하나입니다 일, 당신이 그것을 보는 방법에 따라 달라집니다. 당신이있을 때 때문에 이러한 기능을 작성, 당신은 실제로 무슨 일이 일어나고 있는지 모른다. 그래서 때로는 오류를 할 것, 또는 어쩌면 당신은 경고를 할 수 있습니다. 이 경우, R은 그렇게하지 ​​않습니다. 그래서 정말에게 달려 당신의 기반으로 무엇 당신은 언어를 생각 이 경우 어떻게해야 당신은 부울의 벡터에 전달하는 경우 당신은 실행 조건 일 때. 그럼 원래 있다고 가정 해 봅시다 하나 다른 경우로하면 TRUE를 반환하고 당신이있어 FALSE를 반환 것. 추상화의 그래서 하나의 방법 이것은 내가 말을하는 것입니다 심지어이 조건부 것은 필요하지 않습니다. 내가 할 수있는 또 다른 것은 그냥 값 자체를 반환. 그래서 당신은주의 경우 경우 발 5보다 큰 수행 이를 반환하는 것입니다 벡터 FALSE FALSE TRUE. 어쩌면 이것은 당신이 무슨이다 bounded.compare 원하는. 당신은 부울의 벡터를 반환 할 여기서, 그것은 각각의 값을 비교하여 자신에. 그래서 그냥 bounded.compare 할 수 함수 X는 5 같습니다. 그리고 대신이 일을 이 경우 다른 조건, 난 그냥 돌아 갈거야 x는 5보다 크다. 그래서 그 다음에, 사실이라면 TRUE를 반환 할 것입니다. 그렇지 않은 경우 그리고, 그것은이다 FALSE를 반환 것. 그리고 이것은 작동합니다 이러한 임의의 구조. 그래서 1 6 9 c를 bounded.compare 수 있습니다 그리고, 나는, 6에 해당 말할거야 예를 들어. 그리고, 그것은에 무슨 당신에게 오른쪽 부울을 제공 당신이 설계하고 벡터. 그래서 사람들은 단지 기능은 지금 나에게 그냥하자 당신에게 약간의 인터랙티브 영상을 보여줍니다. 나는 실제로 생각하지 않습니다 와이파이 여기 그래서 내가 그냥 진행하자 내가 추측이 하나를 건너 뜁니다. 멋진 그러나 한 가지 하지만은 당신의 경우 단지 한 무리를 테스트 할 상이한 데이터 명령, 다른 데이터 세트의 무리가있다 즉, 이미 R.에 미리로드 그래서 그들 중 하나는 홍채 데이터 세트라고합니다. 이것은 가장 잘 알려진 중 하나입니다 기계 학습에 사람. 당신은 대개의 일종을 다하겠습니다 코드가 실행되는 경우 테스트 케이스를 확인합니다. 그래서 그냥 조리개가 무엇인지 확인해 보도록하자. 그래서이 일은 것입니다 데이터 프레임 수입니다. 그리고 오랜 때문에 종류의 난 그냥 조리개를 인쇄. 그것은 전체 일을 인쇄합니다. 그래서이 모든 다른 이름을 가지고있다. 그래서 조리개 모음입니다 다른 꽃. 이 경우에는 말하고 당신이 그것의 종, 모든 다른 폭과 꽃받침 잎과 꽃잎의 길이. 그래서 일반적으로, 경우 당신은, 조리개를 인쇄 할 예를 들어, 당신이 그것을하고 싶지 않아 그 이상 걸릴 수 있기 때문에 모든 이렇게 전체 콘솔. 정말로 그래서 한 가지 좋은 머리 기능입니다. 그래서 그냥 머리를 할 경우 아이리스, 이것은 당신에게 줄 것이다 처음 다섯 행, 6는 것 같아요. 그리고 물론, 당신에게 여기 지정할 수 있습니다. 그래서 20--이 줄 것이다 당신 처음 20 행. 그리고 사실은 친절했다 이 그 놀라 나 여섯 그래서 내가 앞서 가자 준 그리고 죄송합니다, iris-- 또는 머리를 확인합니다. 그리고 여기가 줄 것이다 당신 문서 값 헤드는 수행의 무엇. 그래서 제를 반환 또는 객체의 마지막. 그리고 나는 갈거야 기본값을 확인합니다. 그리고, 그것은 기본 말한다 방법 헤드 x와 n은 6L 같습니다. 그래서이 처음 여섯 요소를 반환합니다. 그리고 당신은 여기에 주목 유사 경우, I N를 지정하지 않은 것은 6 같습니다. 기본적으로 여섯 사용하는 것 같아요. 내가 원하는 경우 그리고, 일정을 지정합니다 값은, 그때 그뿐만 아니라 볼 수 있습니다. 그 몇 가지 간단한 명령되도록하고 여기 아니라 그냥 ... 다른 하나의, 나는이 실제로하고 있는데 ... 좀 더 복잡한, 그러나 이것은 단지 클래스를 취할 것 홍채 데이터 세트의 각 열의. 그래서이 어떤 각을 보여줍니다 열은 해당 유형의 점에있다. 그래서 꽃받침 잎 길이는 숫자입니다 꽃받침 잎 폭은 숫자입니다. 모든 이러한 값은 단지 숫자 아르 이 데이터에서 알 수 있기 때문에 이러한이 구조 모든 숫자에 가고. 그리고 종 열 요인이 될 것입니다. 그래서 일반적으로, 당신은 생각 것 이 문자열과 같다. 그러나 당신이 irisSpecies을 할 경우, 그리고, 나는, 머리 5 할거야 이 인쇄 할 것입니다 처음 다섯 값 아웃. 그리고이 수준을 알 수 있습니다. 그래서이이 말했듯이되어 R의 방법입니다 의 범주 변수를 가진. 그래서 그 대신 단지 문자열을 갖는 이 수준의 지정이 있습니다 이런 것들 중 어느 것이 있습니다. 그럼 irisSpecies 1을 가정 해 봅시다. 그래서 당신이 무엇을 원하는 난입니다 이 종 열을 부분 집합. 그래서이 걸리는 종 열 다음 그 인덱스는 첫 번째 요소를 얻을 수 있습니다. 그래서 이것은 당신에게 setosa를 제공해야합니다. 그리고 그것은 또한 당신이 여기 레벨을 제공합니다. 그래서 당신은 또한 비교할 수 있습니다 문자 setosa이 이것은하지 않을 사실이 하나 때문에 다른 상이한 타입이다. 아니면 내가이 R 때문에 사실 추측 보다 더 지능이다. 그리고 그 다음이과에 보인다 어쩌면 이것은 당신이 원하는 것입니다 말했다. 그래서 문자를 말하는 것 문자열 setosa이 하나와 동일합니다. 그리고 유사하게, 당신은 할 수 또한 단지 등처럼이를 잡아. 그래서 그냥 일종 데이터 세트의 빠른 명령. 그래서 여기에 일부 데이터 탐색이다. 그래서이 조금 더 데이터 분석에 관여. 그리고 이것은 일부에서 가져온 것입니다 버클리에 대한 R에서 부트 캠프. 외국 그래서 도서관. 그래서 난에로드 할거야 외국라고 라이브러리. 그래서이 날 줄 수 있겠나 read.dta 그래서이 데이터 집합을 가지는 것을 전제로하고 있습니다. 이 전류에 저장된 내 콘솔의 작업 디렉토리. 그래서 그냥 보자 무엇 작업 디렉토리입니다. 그래서 여기 내 작업 디렉토리입니다. 그리고 도트 데이터,이 읽기 일,이 파일을 말하고있다 의 데이터 폴더에 있습니다 이 현재 작업 디렉토리. 그리고이 아니다 read.dta 기본 명령. 나는 이미 그것을에서로드 같아요. IEI는 이미이의로드 가정. 그러나 그렇게 read.dta는 않을 것입니다 기본 명령합니다. 그리고 당신이 할 겁니다 이유 이 라이브러리에서로드 package-- 이 패키지는 외국했다. 그리고 당신이없는 경우 패키지, 나는 생각한다 외국인이 내장 된 것들 중 하나입니다. 그렇지 않으면, 당신은 또한 수 install.packages을 이 패키지를 설치합니다. 그리고 이것은 아니, 당신은 R. 어를 줄 것이다. 그리고 나는 그만거야 이 이미 그것을 가지고 있기 때문이다. 그러나 R 정말 좋은거야 패키지 관리한다는 것입니다 시스템은 매우 우아하다. 그것은 모든 것을 저장하는 것이기 때문에 정말 친절하게 당신을 위해. 그래서이 경우, 저장할 것 거기에, 저는 믿습니다, 여기에이 라이브러리. 그래서 언제든지 당신이 원하는 새로운 패키지를 설치, 그것만큼 간단합니다 install.packages 일 R은 모든 관리합니다 당신을위한 패키지. 그래서 당신은 무언가를 할 필요가 없습니다 외부 패키지가 파이썬, 종이 같은 관리자 아나콘다 어디있어 당신은 설치 하는거죠 파이썬의 외부 패키지 그리고 당신은 그들에게 자신을 실행 해보십시오. 그래서 정말 좋은 방법입니다. 그리고 install.packages 인터넷이 필요합니다. 이 서버에서 소​​요 및 저장소 그 수집 된 모든 패키지는 크랑이라고합니다. 그리고 당신은 거울의 어떤 종류를 지정할 수 있습니다 당신은 패키지를 다운로드 할 수 있습니다. 그래서 나는 여기있는이 데이터 집합을 복용하고 있습니다. 나는이 기능을 사용하여 그것을 읽고 있어요. 그래서 내가 가서 그렇게 할 수 있습니다. 그럼 그 가정하자 이 데이터 집합을 가지고 당신은 절대적으로이 그것이 무엇인지 전혀 생각하지 않습니다. 그리고이 실제로 등장 상당히 자주 업계 당신은이이 곳 톤 지저분한 것들을 톤 그들은 믿을 수 없을만큼 레이블이없는거야. 그래서 나는 여기이있다 데이터 세트 및 모르겠어요 무엇을 그렇게하다 난 그냥 해요 그것을 확인하기 위해 게재합니다. 그래서 내가 먼저 머리를 할거야. 그래서 처음 여섯을 확인 이 데이터 집합이 무엇인지의 열. 그래서이는 상태, pres04하고, 열이 모든 다른 종류. 그리고 무슨 일이 재미있다 여기에, 내 생각, 당신 것입니다 이 보이는 가정 것 선거의 일종있다. 그리고 난 그냥에서 추측 파일을보고 이름이 컬렉션의 일종입니다 후보자 나 유권자에 대한 데이터의 누가 특정 대통령 투표 또는 대통령 후보 2004 년 선거를위한. 그래서 여기에 값 1, 2 그래서 저장 편도 대통령 후보 자신의 이름입니다. 이 경우, 보이는 그들은 단지 정수 값이야. 2004 그래서, 부시했다 케리 대 저는 믿습니다. 그리고 지금, 당신이 모르는 가정 해 봅시다 부시 또는 1 내지 2 대응 하는지를 케리 또는과에 해당 등등 등등, 오른쪽? 그리고, 그냥 나에게있다 매우 일반적인 문제. 따라서이 경우에는 무엇을 할 수 있는가? 그래서이 모든 다른 일을 확인 할 수 있습니다. 상태,이 있으리라 믿고있어 다른 상태에서 온다. partyid, 소득. 의는 partyid 살펴 보자. 아마 당신이 할 수있는 한 가지입니다 관찰의 각보고 즉, 공화당의 partyid이 민주당 또는 무언가 또는. 그래서 그냥 무엇 partyid 살펴 보자. 그래서 걸릴거야 DAT 후 나는거야 이 달러 기호를 할 수 나는 이전과 연산자 이것은을 것입니다 해당 열 부분 세트. 그리고 나는이 머리거야 20, 그냥이의 모습을 볼 수 있습니다. 그래서이 NAS에 단지 무리입니다. 그래서 다른 말로하면, 당신은 이 사람에 대한 데이터를 누락. 하지만 당신은이 통지 DAT는 partyid 요인 그래서 이것은 당신에게 다른 종류를 제공합니다. 그래서 다른 말로하면, partyid이 걸릴 수 있습니다 독립 민주당, 공화당, 다른 또는 뭔가. 그럼 가서하자하자 볼이는 ... 오, OK의있다. 그래서 나는 부분 집합거야 다음 partyid하고 사람이있는 볼 민주당, 예를 들면. 이것은 당신에게 부울을 줄 것입니다 TRUEs 및 FALSEs의 거대한 부울. 그리고 지금의 내가하고 싶은 말은하자 이 사람에 세트에. 그래서 내 날엔 걸릴 것입니다 및 일부 중 관측 partyid 등호가 민주당 같습니다. 그리고이 때문에 상당히 긴 그들 중 많은이있다. 그래서 지금은 20 년이 머리거야. 당신이 알 수 있듯이, 등호와 동일 당신이있어 점에서 흥미 롭다 already-- 당신은 또한 NAS를 포함하고 있습니다. 이 경우, 당신은 여전히​​ 얻을 수 없다 정보 이제 NAS에 있기 때문에 당신은 단지보고 싶은 어떤 관찰은 민주당에 해당 이러한 누락되지 값 자체. 그렇다면 이들의 NA 제거 것인가? 그래서 나는 여기 단지에 최대 키를 사용하고 내 커서 다음 주위를 움직이고 말. 그리고 여기에 난 그냥 갈거야 is.na datpartyid 대답. 그래서 이것과 및 소요됩니다 두 개의 서로 다른 부울 벡터 그것이 될 것 말 TRUE 예를 들면 FALSE. 그래서이 구성 요소 현명 할 것입니다. 그래서 나는 여기 테이크를 말하는거야 데이터 프레임은, 서브 세트 민주당에 해당하는 것들, 및 NA되지 않은 그들 중 하나를 제거합니다. 그래서 그들은 ...이해야 당신이 뭔가를 제공합니다. 의는 is.na. 보자 의는 is.na datpartyid 해보자. 그리고이 드릴께요 제공해야 다만 부울 벡터를 sorry--. 그리고, 너무 오래이기 때문에, 나는 20의 서브 세트를거야. 확인을 클릭합니다. 그래서이 작동합니다. 그리고 하나는 TRUEs 될 것입니다. 아, 그래서 여기 내 오류는 그 난 ... I C ++ 및 R 상호 교환 내가 만들어 사용 이 실수 모든 시간. 및 운영자입니다 실제로 당신이 원하는 하나. 두 가지를 사용하지 않으려는 앰퍼샌드, 단지 하나의 하나. 확인을 클릭합니다. 그래서 보자. 그래서 우리는에 서브 세트 partyid 그들은 민주당이야 어디 그리고 그들은 값이 누락 아닙니다. 그리고 이제 살펴 보자 이들이 투표 것. 그래서 가장 좋아하는 것 이들의 1 투표했다. 그래서 앞서 갈거야 그리고 케리 말한다. 그리고 유사하게, 당신은 할 수 또한 공화당로 이동 희망이 당신에게 2를 제공해야합니다. 그것은 다른 열 그냥 무리입니다. 그리고 실제로, 그것은 2입니다. 그래서, 모든 공화당 partyid 그들 대부분은 2를 위해 투표한다. 그래서 그냥 같은 것 이보고에 의해, 공화당이 될 것입니다 아주 - 또는 partyid 매우 될 것입니다 결정하는 큰 요인 어느 후보가있어 투표 할 것. 그리고 이것은 일반적으로 분명 사실이다. 그리고 이것은 당신의 일치 직관, 물론. 그래서 난 것 같아 그래서 시간의 부족 나 그냥 가서해야 할 일부 빠른 이미지를 보여줍니다. 그래서 여기에 약간 뭔가입니다 더 시각화 복잡. 이 경우, 이것은 매우 인 다만 검사의 간단한 분석 무엇 '04의 대통령이다. 이 경우 그래서, 당신을 가정 해 봅시다 이 질문에 대답하고 싶​​었다. 그래서 우리는 투표를 알고 싶어한다고 가정 2004 년 대통령 선거에서 동작 그 인종에 따라 다릅니다 방법. 그래서뿐만 아니라 당신은하고 싶지 않음 , 투표 동작을 볼 수 하지만 당신은 각각의 부분 집합 할 레이스와 종류의 요약. 그리고 당신은 말할 수 이 복잡​​한 표기법으로 이 것을 가지 헷갈리는지고 있습니다. 그래서 더 많은 고급 R 중 하나 최근 가지도의 패키지 dplyr라고합니다. 그래서 여기이 하나입니다. 그리고 ggg-- ggplot2 그냥 좋은 더 나은 시각화를 수행하는 방법 내장보다. 그래서로드거야 이 두 라이브러리. 그리고, 내가 갈거야 앞서이 명령을 실행합니다. 당신은 블랙 박스로이 처리 할 수​​ 있습니다. 무엇 일어나는 것은이 파이프 것입니다 운영자는이 인수를 전달한다 여기에. 그래서 나는 날엔에 의해 그룹을 말하는거야 인종과 다​​음 대통령 04. 그리고 나서, 모든 다른 명령 필터링 한 후 요약된다 어디 카운트를하고 있어요 및 그때 난 여기가 음모를 꾸미고있어. 멋진 OK. 그럼 가서하자 이 모습을 참조하십시오. 그래서 여기에 무슨 일이 일어나고 것은 제가이다 다만 다음 인종과 각을 그려 이들이 투표 것. 이 두 가지를 값이 1에 해당합니다. 당신은 더 많은 수 있도록하려면 우아한, 당신은 또한 수 단지 2 Kerry-- 이상인지 지정 이 부시는, 그 후 1 케리이다. 그리고 당신도 할 수 있습니다 당신의 전설에서 그. 그리고 이러한 막대 그래프를 분할 할 수 있습니다. 한 가지이기 때문에 즉, 당신이 나는 경우, 이 식별하는 것은 매우 쉬운 일이 아닙니다 이들 두 값을 이용할지는 크다. 그래서 한 가지 당신이 원하는 것 할이 파란색 영역을하다 그리고 당신 때문에 여기를 통해 이동 측면에서이 두 가지 측면을 비교할 수 있습니다. 그리고 그 뭔가 내가 추측 지금 할 시간이 없어, 그러나 그것은 또한 아주 쉽게 할 수 있습니다. 당신은에 볼 수 있습니다 ggplot의 매뉴얼 페이지를 참조하십시오. 그래서 그냥 같이 ggplot 할 수 그와이 매뉴얼 페이지에 참조하십시오. 그러니 빨리하겠습니다 당신에게 멋진 일을 보여줍니다. 이제 가서 단지를 아 - 가자 기계 학습의 응용 프로그램입니다. 그래서 우리는이 세 가지가 있다고 가정 해 보자 패키지는 그래서 이러한로드거야. 그래서 이것은 단지 일부를 출력 정보 나는 일에로드 된 후. 그래서 나는이 read.csv을 말하고, 이 데이터 집합, 그리고 지금 내가 가서보고거야 이 데이터 집합의 내부에 무엇이 있는지. 처음 20 관찰 그래서. 그래서 난 그냥 그래서 X1, X2,와 Y가 이 값의 무리처럼 보인다 아마 20-80 정도에 이르기까지한다. 그리고, 마찬가지로 X2 용 후 이 Y 라벨 0 및 1이 될 것으로 보인다. 이를 확인하려면, 난 할 수있어 그냥 요약 데이터 X1을한다. 그리고 유사에 대한 모든 다른 열. 그래서 요약 빠른 방법입니다 당신에게 빠른 값을 표시합니다. 아, 죄송합니다. 이 사람은 Y.해야 이 경우 그래서, 제공 분위수, 중앙값은 물론 maxes. 이 경우, dataY, 당신은 볼 수 있습니다 그것은 단지 0과 1이 될 것있다. 또한 평균 말하고있다 0.6은 그냥 것을 의미한다 I가 0보다 1 초를 가지고있는 것처럼 보인다. 그래서 내가 미리와 쇼 가자 이는 모습. 그래서 난 그냥이 음모거야. 자,이 제거하는 방법을 살펴 보자. OK 오. 확인을 클릭합니다. 그래서이는 모습이다. 그래서 내가 지정된 노랑처럼 보인다 0을 입력 한 다음 빨간색으로 나는 1 초로 지정. 그래서 여기처럼 보인다 라벨 점과 당신은 단지 몇 가지를 원처럼 보인다 이에 클러스터링의 종류. 그리고 내가 바로 앞에와 쇼 가자 이러한 내장 함수의 당신 일부. 그래서 여기에 작품입니다. 그래서 이것은 단지 시도 이에 라인에 맞게. 그래서 가장 좋은 방법은 나는 선은 들어가는 지 그것은 최고의 분리됩니다 클러스터링 이런 종류의. 그리고 이상적으로, 당신은 볼 수 있습니다 난 그냥이 모든 명령을 실행하는 것이 다음, 내가 갈거야 앞서와 라인을 추가합니다. 그래서이 추측처럼 보인다. 그것은 최소화하는 가장 좋은 하나를 복용 이 줄을 맞추려고에서 오류가 발생했습니다. 분명히, 이것은 가지 보인다 좋은하지만 최선이 아니다. 그리고 선형 모델에서 일반적으로는 될거야 이론과 그저 정말 좋은 기계의 건물 기초의 학습. 그러나 실제로, 당신은 갈거야 더 일반적으로 뭔가를 할 수 있습니다. 그래서 그냥 실행 시도 할 수 있습니다 뭔가 신경 네트워크를했다. 이런 일들은 점점 더 일반적인. 그리고 그들은 단지 환상적 일 큰 데이터 세트. 이 경우, 우리는 니스, 니 의 우리가 nrow을 알아요 ... 수 있습니다. 그래서 nrow은 행의 수를 말하고있다. I는,이 경우에 따라서 100 관찰을 가지고있다. 그래서 내가 가서하자 신경망을합니다. 그래서 정말 좋은 난 그냥 nnet 말을 할 수 있기 때문에 다음 나는 Y.의 기능에 영향을 미치지 해요 그래서 Y는 열입니다. 그리고 그것을 역행 다른 두 변수. 그래서이 짧은 X1과 X2에 대한 표기. 그럼 가서이를 실행하자. 아, 죄송합니다. 나는이 모든 일을 실행해야합니다. 그리고 이것은 단지 표기를 인쇄 얼마나 빨리 여부를 신속하게하기에 통합. 그래서이 수렴 않은 것 같습니다. 그러니 앞서 및 인쇄 가자 이 어떻게 생겼는지 알아. 여기에 그림이 그리고 여기를 참조하십시오 이 얼마나 잘 맞는지를 보여주는 윤곽. 그리고 이것은 당신이 볼 수있는 단지 ... 이이 아주, 아주 좋은입니다. 심지어 수 당신은 또한 수 있습니다 과다 적합하지만, 다른이를 차지 교차 유효성 검사와 같은 기술. 그리고이 또한 R. 내장되어 있습니다 그리고 제가 보여 드리죠 벡터 머신을 지원합니다. 이것은 또 다른 정말 일반적입니다 기계 학습 기술. 그것은 선형 모델과 매우 유사하지만, 그것은 커널 방법이라고 무엇을 사용합니다. 그리고 이제 그 얼마나 잘하는지 보자. 그래서 하나의 방법과 매우 유사 웰 신경망이 수행 그러나 훨씬 부드러워 야. 그리고 이것은 기반으로한다 의 방법 SVM을 작업 뭐냐 .... 그래서이 그냥 아주 몇 가지의 간단한 개요 내장 함수의 작업을 수행 할 수 있습니다 또한 데이터 탐색의 일부. 그러니 그냥 진행하자 그리고 슬라이드로 돌아갑니다. 그러므로 분명히, 이것은 인 매우 포괄적 없습니다. 그리고 이것은 정말 그냥 맛보기입니다 당신이 정말로 R.에서 무엇을 할 수 있는지를 보여주는 그래서 당신이 원하신다면 여기에, 자세히 알아 봅니다 다른 자원의 무리입니다. 당신은 교과서의 좋아하는 것 또는 당신은 그래서 만약 그냥 온라인으로 물건을 읽고 좋아, 다음이 환상적입니다 해들리 위컴 하나, 또한 생성 된 모든 사람이 정말 멋진 패키지. 당신이 비디오를 좋아해요 경우, 버클리는 멋진 부트 캠프가 그 가지 길어 several-- 때문입니다. 그리고 그것은 거의 당신을 가르 칠 것입니다 모든 것을 당신은 R.에 대해 알고 싶습니다 그리고 유사하게, Codeacademy을 거기에 이 모든 다른 종류의 의 대화 형 웹 사이트. 그들은 또한 점점 더 일반적인 공통점. 그래서이 Codeacademy 매우 유사하다. 그리고 마지막으로, 당신의 경우 단지 커뮤니티를 원하고 도움, 이들의 무리이다 당신이 갈 수있는 것. 물론, 우리는 여전히 다만, 메일 링리스트를 사용 거의 모든 다른 같은 프로그래밍 언어 커뮤니티. 그리고 #rstats, 여긴 커뮤니티 트위터. 즉, 실제로는 매우 일반적이다. 다음 사용자! 우리의 회의입니다. 그리고, 물론, 당신은 할 수 모든 다른 Q & A 물건을 사용, 스택 오버플로 등, 구글 다음 GitHub에. 이 패키지의 대부분 때문에 지역 사회의 많은 개발을 중심으로한다 코드는 오픈 소스 때문이다. 그리고 GitHub의에 정말 좋은 데요. 그리고 마지막으로, 당신은 경우에 저에게 연락 할 수 있습니다 당신은 그냥 빠른 질문이 있습니다. 그래서 당신은 여기에 트위터에 나를 찾을 수 있습니다, 내 웹 사이트, 단지 내 이메일. 그래서 희망, 그했다 그 어떤 것도 짧은 맛보기 무엇 R은 일을 정말 할 수있다. 그리고 바라건대, 당신 단지 이 세 가지 링크를 체크 아웃 당신은 더 많은 일을 할 수 있는지. 그리고 그건 그냥 그것에 대해 같아요. 감사합니다. [박수]