1 00:00:00,000 --> 00:00:08,364 2 00:00:08,364 --> 00:00:08,870 >> LUCAS 프레이 타스 : 안녕하세요. 3 00:00:08,870 --> 00:00:09,980 모든 사람을 환영합니다. 4 00:00:09,980 --> 00:00:11,216 내 이름은 루카스 프레이 타스입니다. 5 00:00:11,216 --> 00:00:15,220 나는 공부 [들림]에서 주니어 해요 에 초점을 맞춘 컴퓨터 과학 6 00:00:15,220 --> 00:00:16,410 전산 언어학. 7 00:00:16,410 --> 00:00:19,310 그래서 내 차 언어에 언어 적 이론. 8 00:00:19,310 --> 00:00:21,870 나는 정말 너희들을 가르 칠 흥분 필드에 대해 조금. 9 00:00:21,870 --> 00:00:24,300 이 연구에 매우 흥미로운 지역이다. 10 00:00:24,300 --> 00:00:27,260 또한 많은 잠재력을 가진 미래를위한. 11 00:00:27,260 --> 00:00:30,160 그래서, 난 정말 흥분하는 너희들 프로젝트를 고려하고 12 00:00:30,160 --> 00:00:31,160 전산 언어학. 13 00:00:31,160 --> 00:00:35,460 그리고 조언보다 더 행복 할 것 당신의 당신이하기로 결정하는 경우 14 00:00:35,460 --> 00:00:37,090 그 중 하나를 추구한다. 15 00:00:37,090 --> 00:00:40,010 >> 계산이 무엇인지 모든 그래서 일단 언어학? 16 00:00:40,010 --> 00:00:44,630 그래서 전산 언어학입니다 언어학과 사이의 교차 17 00:00:44,630 --> 00:00:46,390 컴퓨터 과학. 18 00:00:46,390 --> 00:00:47,415 그래서, 언어학은 무엇입니까? 19 00:00:47,415 --> 00:00:48,490 컴퓨터 과학은 무엇인가? 20 00:00:48,490 --> 00:00:51,580 잘 언어학에서, 무엇을 우리는 언어입니다 걸릴. 21 00:00:51,580 --> 00:00:54,960 그래서 언어학 실제로 연구이다 일반적으로 자연 언어의. 22 00:00:54,960 --> 00:00:58,330 그래서 자연 언어 - 우리가 이야기 우리가 실제로에 사용하는 언어 23 00:00:58,330 --> 00:00:59,770 서로 통신. 24 00:00:59,770 --> 00:01:02,200 그래서 우리는 정확히 얘기가 아니에요 C 또는 Java에 대한. 25 00:01:02,200 --> 00:01:05,900 우리는 영어에 대해 더 많은 얘기를하고있어 중국과 다른 언어로 우리 26 00:01:05,900 --> 00:01:07,780 서로 통신하기 위해 사용한다. 27 00:01:07,780 --> 00:01:12,470 >> 그것에 대해 도전적인 것은입니다 지금 우리가 가지고있는 거의 7,000 28 00:01:12,470 --> 00:01:14,260 세계의 언어. 29 00:01:14,260 --> 00:01:19,520 그래서 꽤 높은 다양한있다 우리가 공부할 수있는 언어. 30 00:01:19,520 --> 00:01:22,600 그리고 당신은 아마 생각 하기 매우 어렵고, 예를 들면, 31 00:01:22,600 --> 00:01:26,960 한 언어에서 번역 다른, 당신이 가지고있는 것을 고려 32 00:01:26,960 --> 00:01:28,240 거의 7,000 그들. 33 00:01:28,240 --> 00:01:31,450 그래서, 당신은 번역 일을 생각하면 하나의 언어에서 다른 당신 34 00:01:31,450 --> 00:01:35,840 이 거의 만 명 이상 다른 조합 당신이 할 수 35 00:01:35,840 --> 00:01:37,330 언어에서 언어가 있습니다. 36 00:01:37,330 --> 00:01:40,820 그래서 정말 어떤 작업을 수행하기 위해 도전적 예를 들어 번역 시스템의 종류 37 00:01:40,820 --> 00:01:43,540 모든 단일 언어. 38 00:01:43,540 --> 00:01:47,120 >> 그래서, 구문 언어학 취급, 의미론, 화용론. 39 00:01:47,120 --> 00:01:49,550 너희들은 정확하게 필요로하지 않는다 그들이 무엇을하다 알고 있습니다. 40 00:01:49,550 --> 00:01:55,090 그러나 매우 흥미있는 일이 있다는 것입니다 당신이 배울 수있는 원어민과 같은 41 00:01:55,090 --> 00:01:59,010 자식으로 언어, 당신은 실제로 학습 그 모든 것들 - 구문 의미 42 00:01:59,010 --> 00:02:00,500 화용론 - 43 00:02:00,500 --> 00:02:01,430 혼자서. 44 00:02:01,430 --> 00:02:04,820 그리고 아무도에 대한 문법을​​ 가르 칠 수 없다 당신은 문장이 얼마나 이해하기 45 00:02:04,820 --> 00:02:05,290 구조. 46 00:02:05,290 --> 00:02:07,980 그래서, 정말 흥미로운 때문에 매우 온다 뭔가 47 00:02:07,980 --> 00:02:10,389 직관적으로. 48 00:02:10,389 --> 00:02:13,190 >> 그리고 당신은 무엇을 복용하고 컴퓨터 과학? 49 00:02:13,190 --> 00:02:16,700 음, 가장 중요한 것은 우리 컴퓨터 과학이 먼저 중입니다 50 00:02:16,700 --> 00:02:19,340 모든, 인공 지능 기계 학습. 51 00:02:19,340 --> 00:02:22,610 그래서, 우리는 일을하려고하는지 전산 언어학 가르쳐입니다 52 00:02:22,610 --> 00:02:26,990 작업을 수행하는 방법을 컴퓨터 언어와. 53 00:02:26,990 --> 00:02:28,630 >> 그래서, 예를 들면, 기계 번역. 54 00:02:28,630 --> 00:02:32,490 내 컴퓨터의 방법을 가르쳐하기 위해 노력하고있어 하나에서 전환하는 방법을 알고 55 00:02:32,490 --> 00:02:33,310 다른 언어. 56 00:02:33,310 --> 00:02:35,790 그래서, 기본적으로 가르침을 좋아 컴퓨터가 두 가지 언어. 57 00:02:35,790 --> 00:02:38,870 나는 자연 언어 처리를 할 경우, 의 예를 들어 어떤 경우인지 58 00:02:38,870 --> 00:02:41,810 페이스 북의 그래프 검색, 당신이 가르쳐 이해하는 방법 컴퓨터 59 00:02:41,810 --> 00:02:42,730 쿼리도. 60 00:02:42,730 --> 00:02:48,130 >> 그래서, 당신은 "의 사진을 말한다면 내 친구. "페이스 북은 취급하지 않습니다 61 00:02:48,130 --> 00:02:51,130 이 전체 문자열 단어의 단지 무리입니다. 62 00:02:51,130 --> 00:02:56,020 실제로 관계를 이해 "사진"과 "내 친구"사이 63 00:02:56,020 --> 00:02:59,620 "사진"는 것을 이해 의 속성 "내 친구." 64 00:02:59,620 --> 00:03:02,350 >> 그래서, 예를 들어, 일부의 정보 자연 언어 처리. 65 00:03:02,350 --> 00:03:04,790 그것은 이해하려고 노력 무슨 관계이다 66 00:03:04,790 --> 00:03:07,520 문장에있는 단어. 67 00:03:07,520 --> 00:03:11,170 그리고 큰 문제는, 당신이 할 수 있습니다 말하는 방법을 컴퓨터를 가르쳐 68 00:03:11,170 --> 00:03:12,650 일반적으로 언어? 69 00:03:12,650 --> 00:03:17,810 매우 흥미로운 질문입니다 , 경우 어쩌면 미래에, 생각 70 00:03:17,810 --> 00:03:19,930 당신은 할 수있을거야 휴대 전화에 이야기. 71 00:03:19,930 --> 00:03:23,290 종류의 우리가 시리와 무엇을 같이하지만, 뭔가 더 같은, 당신이 실제로 수 72 00:03:23,290 --> 00:03:25,690 당신이 원하는대로 말을하고 전화 모든 것을 이해하는 것입니다. 73 00:03:25,690 --> 00:03:28,350 그리고 질문을 수행 할 수 있습니다 과 계속 얘기. 74 00:03:28,350 --> 00:03:30,880 즉, 정말 흥분 뭔가 제 생각에. 75 00:03:30,880 --> 00:03:33,070 >> 그래서, 자연 언어에 대해 뭔가. 76 00:03:33,070 --> 00:03:36,220 정말 흥미로운 자연 언어는,이입니다 77 00:03:36,220 --> 00:03:38,470 내 언어학 교수로 신용, 마리아 Polinsky. 78 00:03:38,470 --> 00:03:40,830 그녀는 예를 제공하고 나는 생각한다 정말 흥미 롭군요. 79 00:03:40,830 --> 00:03:47,060 우리는시에서 언어를 배울 수 있기 때문에 우리는 우리의 고유 한 후 태어난거야 80 00:03:47,060 --> 00:03:49,170 언어 종류의 우리를 성장. 81 00:03:49,170 --> 00:03:52,570 >> 그리고 기본적으로는 언어를 배울 최소한의 입력에서 마우스 오른쪽? 82 00:03:52,570 --> 00:03:56,700 당신은 입력을 받고있어 당신의 언어가 어떤 소리의 부모 83 00:03:56,700 --> 00:03:58,770 좋아하고 당신은 그것을 배울. 84 00:03:58,770 --> 00:04:02,240 당신이 보는 경우 때문에 그래서, 흥미로운 그 문장에서, 예를 들어. 85 00:04:02,240 --> 00:04:06,980 당신은보고, "마리아는 모든 코트에 그림을 그리 듯 시간이 그녀가 집을 떠난다. " 86 00:04:06,980 --> 00:04:10,650 >> 이 경우에는 가질 가능성 단어 "는 그녀는"오른쪽 메리를 참조하십시오? 87 00:04:10,650 --> 00:04:13,500 당신은 "마리아가 코트에두고 말할 수있다 메리 잎마다 88 00:04:13,500 --> 00:04:14,960 집. "그래서 괜찮아요. 89 00:04:14,960 --> 00:04:19,370 그러나 다음 문장을 보면 "그녀는 메리 코트에있는 모든 시간을 둔다 90 00:04:19,370 --> 00:04:22,850 집을 떠난다. "당신이 알고 "그녀가"라고하는 것이 불가능 91 00:04:22,850 --> 00:04:24,260 메리 참조. 92 00:04:24,260 --> 00:04:27,070 >> "마리아는두고 있음을 말하는 방법은 없습니다 코트에 메리 잎마다 93 00:04:27,070 --> 00:04:30,790 집이. "그래서 흥미 때문에 이 직관의 종류입니다 94 00:04:30,790 --> 00:04:32,890 모든 네이티브 스피커가있다. 95 00:04:32,890 --> 00:04:36,370 그리고 아무도는이 것을 가르쳐되지 않았다 구문이 작동하는 방식. 96 00:04:36,370 --> 00:04:41,930 그리고 당신 만이 "그녀"를 가질 수 이 첫 번째 경우에 메리 참조 97 00:04:41,930 --> 00:04:44,260 실제로이 기타 도 있지만이 하나. 98 00:04:44,260 --> 00:04:46,500 그러나 모든 사람이 종류의 가져 같은 대답. 99 00:04:46,500 --> 00:04:48,580 모두가 그것에 동의한다. 100 00:04:48,580 --> 00:04:53,280 그래서 방법을하지만 정말 흥미로운 당신은 모든 규칙을 모르는 101 00:04:53,280 --> 00:04:55,575 당신의 언어로 당신은 종류의 이해 언어가 작동하는 방법. 102 00:04:55,575 --> 00:04:59,020 103 00:04:59,020 --> 00:05:01,530 >> 그래서 자연에 대한 흥미로운 것은 언어에 당신이 할 것입니다 104 00:05:01,530 --> 00:05:06,970 알고있는 문법을 알고있는 경우 문장 에 대한 문법 또는 문법에 맞지 않는 것입니다 105 00:05:06,970 --> 00:05:08,810 대부분의 경우. 106 00:05:08,810 --> 00:05:13,220 당신이 생각하게하는 어쩌면 무엇 일어나는 당신이 당신의 인생을 통해서이다 107 00:05:13,220 --> 00:05:17,410 다만 점점 점점 계속 문장은 당신에게 말했다. 108 00:05:17,410 --> 00:05:19,800 그리고 당신은 암기를 유지 문장의 모든. 109 00:05:19,800 --> 00:05:24,230 그리고 누군가가 당신을 말할 때 뭔가, 그 문장을 듣고 110 00:05:24,230 --> 00:05:27,040 당신은 당신의 어휘를 봐 문장하고 있는지 111 00:05:27,040 --> 00:05:28,270 그 문장이있다. 112 00:05:28,270 --> 00:05:29,830 그리고 거기에있는 경우 이 문법의 말. 113 00:05:29,830 --> 00:05:31,740 그렇지 않은 경우는 말할 문법에 맞지 않는. 114 00:05:31,740 --> 00:05:35,150 >> 따라서,이 경우에, 당신이, 오, 말할 것입니다 그래서 당신은 모두의 거대한 목록을 가지고 115 00:05:35,150 --> 00:05:36,140 가능한 문장. 116 00:05:36,140 --> 00:05:38,240 그리고 다음 문장을들을 때, 이 문법의 경우 또는 당신은 알고 117 00:05:38,240 --> 00:05:39,450 그 기반으로하지. 118 00:05:39,450 --> 00:05:42,360 것입니다 당신이 보면 문장, 예를 들면, " 119 00:05:42,360 --> 00:05:47,540 다섯 향하고 CS50 TF가 맹인 요리 방위 사업 청 잔을 사용하여 소. "그건 120 00:05:47,540 --> 00:05:49,630 확실히하지 않는 문장 당신이 전에 들어있다. 121 00:05:49,630 --> 00:05:52,380 그러나 동시에 당신은 알고있다 바로, 문법 꽤 많이? 122 00:05:52,380 --> 00:05:55,570 어떤 문법적인 실수가 없습니다 당신은 말할 수 123 00:05:55,570 --> 00:05:57,020 그것은 가능한 문장이다. 124 00:05:57,020 --> 00:06:01,300 >> 그래서 우리가 생각하게 실제로 우리가 언어를 배우는 방법뿐만 아니라 125 00:06:01,300 --> 00:06:07,090 수의 거대한 데이터베이스를함으로써 단어 나 문장 만 더 126 00:06:07,090 --> 00:06:11,490 의 관계를 이해 그 문장에있는 단어입니다. 127 00:06:11,490 --> 00:06:14,570 그 의미가 있습니까? 128 00:06:14,570 --> 00:06:19,370 그래서 다음 질문은, 할 수있다 컴퓨터 언어를 배우는? 129 00:06:19,370 --> 00:06:21,490 우리가 컴퓨터로 언어를 가르 칠 수 있습니까? 130 00:06:21,490 --> 00:06:24,230 >> 자, 차이를 생각하자 언어의 네이티브 스피커의 131 00:06:24,230 --> 00:06:25,460 와 컴퓨터. 132 00:06:25,460 --> 00:06:27,340 그래서, 스피커는 어떻게됩니까? 133 00:06:27,340 --> 00:06:30,430 음, 네이티브 스피커를 배운다 그것은 노출에서 언어. 134 00:06:30,430 --> 00:06:34,200 보통의 유년기. 135 00:06:34,200 --> 00:06:38,570 그래서, 기본적으로, 당신은, 아기가 그리고 당신은 그것을 계속 말을하고, 136 00:06:38,570 --> 00:06:40,540 단지 말하는 방법을 배운다 언어, 오른쪽? 137 00:06:40,540 --> 00:06:42,660 그래서, 당신은 기본적으로주는거야 아기에 입력. 138 00:06:42,660 --> 00:06:45,200 그래서, 당신이 주장 할 수있는 컴퓨터 바로, 같은 일을 할 수 있습니까? 139 00:06:45,200 --> 00:06:49,510 당신은 언어에게 제공 할 수 있습니다 컴퓨터에 입력으로. 140 00:06:49,510 --> 00:06:53,410 >> 예를 들어 같은 파일들을 영어 책을 가지고있다. 141 00:06:53,410 --> 00:06:56,190 어쩌면 하나의 방법 당신에게 그 아마도 가르 칠 수 142 00:06:56,190 --> 00:06:57,850 컴퓨터, 영어, 맞죠? 143 00:06:57,850 --> 00:07:01,000 그리고 사실, 당신이 그것에 대해 생각하면, 어쩌면 몇 걸립니다 144 00:07:01,000 --> 00:07:02,680 책을 읽는 일. 145 00:07:02,680 --> 00:07:05,760 컴퓨터는 두 번째를 걸립니다 책에있는 모든 단어를 봐주세요. 146 00:07:05,760 --> 00:07:10,810 그래서 당신은있을 수 있습니다 생각할 수있는 그냥이 주위로부터의 입력 인수 147 00:07:10,810 --> 00:07:15,440 즉, 그건 말을 충분하지 않습니다 인간 만이 할 수있는 일. 148 00:07:15,440 --> 00:07:17,680 당신은 컴퓨터를 생각할 수 또한 입력을받을 수 있습니다. 149 00:07:17,680 --> 00:07:21,170 >> 두 번째 문제는 그 네이티브 스피커 또한이 뇌를 가지고 150 00:07:21,170 --> 00:07:23,870 언어 학습 기능을 제공합니다. 151 00:07:23,870 --> 00:07:27,020 하지만 당신은 그것에 대해 생각하면, 뇌는 단단한 것입니다. 152 00:07:27,020 --> 00:07:30,450 당신이 태어난 때, 이미 설정되어 - 153 00:07:30,450 --> 00:07:31,320 이것은 당신의 두뇌입니다. 154 00:07:31,320 --> 00:07:34,660 당신이 성장하고, 당신은 더 많은 것을 얻을 언어의 입력과 어쩌면 영양소 155 00:07:34,660 --> 00:07:35,960 및 기타 물건. 156 00:07:35,960 --> 00:07:38,170 그러나 꽤 많은 당신의 두뇌 고체 것입니다. 157 00:07:38,170 --> 00:07:41,290 >> 그래서 당신은 그럼, 당신이 할 수있는, 말할 수 한 무리의가있는 컴퓨터를 구축 158 00:07:41,290 --> 00:07:45,890 기능 및 단지 모방 방법 언어 학습 기능을 제공합니다. 159 00:07:45,890 --> 00:07:49,630 그래서 그런 의미에서, 당신은 내가 잘 말할 수 모두가 컴퓨터를 가질 수있다 160 00:07:49,630 --> 00:07:52,270 나는 언어를 배울 필요가 가지. 161 00:07:52,270 --> 00:07:56,200 그리고 마지막으로는 그 기본 스피커는 시행 착오에서 배운다. 162 00:07:56,200 --> 00:08:01,090 그래서 기본적으로 또 다른 중요한 일에 언어 학습은 당신의 종류 163 00:08:01,090 --> 00:08:05,340 의함으로써 것들을 배울 당신이 듣고 무엇을 일반화. 164 00:08:05,340 --> 00:08:10,280 >> 당신이 성장하는만큼 당신은 배울 일부 단어는 더 명사처럼, 165 00:08:10,280 --> 00:08:11,820 다른 사람은 형용사입니다. 166 00:08:11,820 --> 00:08:14,250 그리고 당신은 어떤을 할 필요는 없습니다 언어학에 대한 지식 167 00:08:14,250 --> 00:08:15,040 그것을 이해합니다. 168 00:08:15,040 --> 00:08:18,560 그러나 당신은 어떤 단어가 알고 의 일부에 위치된다 169 00:08:18,560 --> 00:08:22,570 문장 및 기타 일부 다른 문장의 부분. 170 00:08:22,570 --> 00:08:26,110 >> 그리고 만약 당신이 뭔가를 할 때 정확하지 않은 문장 등 - 171 00:08:26,110 --> 00:08:28,770 어쩌면 때문에 오버 일반화 예를 들어. 172 00:08:28,770 --> 00:08:32,210 당신이 성장하고있을 때 아마, 당신은 통지 복수는 보통입니다 173 00:08:32,210 --> 00:08:35,809 에서 S를 넣어 형성 단어의 끝. 174 00:08:35,809 --> 00:08:40,042 그리고 당신의 복수를 수행하려고 "deers에"또는 "이빨"한 "사슴" 175 00:08:40,042 --> 00:08:44,780 "이빨에 덮개." 그럼 부모님이나 누군가가 당신을 수정하고, 말한다 아니, 176 00:08:44,780 --> 00:08:49,020 "사슴"복수 "는 사슴"이며 "이빨"복수는 "이빨"입니다. 그리고 177 00:08:49,020 --> 00:08:50,060 당신은 그 일을 배운다. 178 00:08:50,060 --> 00:08:51,520 그래서 당신은 시행 착오에서 배울. 179 00:08:51,520 --> 00:08:53,100 >> 하지만 당신은 할 수 컴퓨터. 180 00:08:53,100 --> 00:08:55,310 당신이라고 뭔가를 할 수 있습니다 강화 학습. 181 00:08:55,310 --> 00:08:58,560 에게주는처럼 기본적으로 어떤 그것은 수행 할 때마다 컴퓨터 보상 182 00:08:58,560 --> 00:08:59,410 제대로 뭔가. 183 00:08:59,410 --> 00:09:04,710 그리고 그것을 보상의 반대를주는 그것은 잘못된 무언가를 할 때. 184 00:09:04,710 --> 00:09:07,410 당신은 실제로 볼 수있는 당신이 가면 구글 번역 당신은 시도에 185 00:09:07,410 --> 00:09:10,220 문장을 번역, 그것은 의견을 묻습니다. 186 00:09:10,220 --> 00:09:13,240 당신이 말한다면, 오, 더 나은가있다 이 문장에 대한 번역. 187 00:09:13,240 --> 00:09:18,140 그런 다음 그것을 입력 할 수있는 경우를 많이 사람들은 더 나은 말하는 유지 188 00:09:18,140 --> 00:09:21,560 번역, 그냥 배운다 그것이 대신의 번역을 사용한다 189 00:09:21,560 --> 00:09:22,960 가 제공 한 한. 190 00:09:22,960 --> 00:09:28,830 >> 그래서, 그것은 매우 철학적 질문 컴퓨터가 될 수 있습니다 여부를 확인하려면 191 00:09:28,830 --> 00:09:30,340 미래에 이야기하거나하지 수. 192 00:09:30,340 --> 00:09:34,440 하지만 높은 기대가 그들이 할 수있는 그 단지 그 인수에 따라. 193 00:09:34,440 --> 00:09:38,570 그러나 철학적 단지 더 많은 질문입니다. 194 00:09:38,570 --> 00:09:43,460 >> 컴퓨터는 아직 말할 수있는 동안 그래서, 우리가 할 수있는 일이 무엇입니까? 195 00:09:43,460 --> 00:09:47,070 정말 괜찮은 것들입니다 데이터 분류. 196 00:09:47,070 --> 00:09:53,210 따라서, 예를 들어, 너희들은 알고 해당 이메일 서비스에 대해 수행 197 00:09:53,210 --> 00:09:55,580 예를 들어, 스팸 필터링. 198 00:09:55,580 --> 00:09:59,070 당신은 스팸 메일을받을 그래서 할 때마다, 또 다른 상자에 필터링을 시도합니다. 199 00:09:59,070 --> 00:10:00,270 그래서 어떻게 그 일을합니까? 200 00:10:00,270 --> 00:10:06,080 그것은 컴퓨터가 그냥 알고있는 게 아니에요 어떤 이메일 주소는 스팸 메일을 보낼 수 있습니다. 201 00:10:06,080 --> 00:10:09,130 그래서 더의 내용을 기반으로 메시지, 또는 어쩌면 제목, 또는 202 00:10:09,130 --> 00:10:11,310 어쩌면 당신이 어떤 패턴입니다. 203 00:10:11,310 --> 00:10:15,690 >> 그래서, 기본적으로, 당신이 할 수있는 것은 얻을 수있는 스팸 이메일의 데이터의 많은, 204 00:10:15,690 --> 00:10:19,980 스팸하지 않습니다, 그리고 배우 이메일 것을 만약에이 패턴 종류 205 00:10:19,980 --> 00:10:21,000 스팸 것. 206 00:10:21,000 --> 00:10:23,260 그리고 이것은 계산의 일부입니다 언어학. 207 00:10:23,260 --> 00:10:24,720 그것은 데이터 분류라고. 208 00:10:24,720 --> 00:10:28,100 그리고 우리가 실제로 볼거야 다음 슬라이드에서 그 예. 209 00:10:28,100 --> 00:10:32,910 >> 두 번째는 자연 언어입니다 일이 처리하는 210 00:10:32,910 --> 00:10:36,580 그래프 검색 댄다하고있다 당신은 문장을 작성합니다. 211 00:10:36,580 --> 00:10:38,690 그리고 그것은 당신이 이해 신뢰 무슨 의미 및 제공 212 00:10:38,690 --> 00:10:39,940 당신이 더 나은 결과. 213 00:10:39,940 --> 00:10:43,880 실제로, 당신은 구글이나 빙에 가면 당신은 여자처럼 뭔가를 검색 214 00:10:43,880 --> 00:10:47,060 가가의 높이가 실제로거야 대신 정보 5 '1 "을 얻을 수 215 00:10:47,060 --> 00:10:50,170 실제로 이해하고 있기 때문에 그녀의 당신이 무슨 말을하는지. 216 00:10:50,170 --> 00:10:52,140 그래서 자연의 일부 언어 처리. 217 00:10:52,140 --> 00:10:57,000 >> 나 또한 먼저, 시리를 사용할 때 당신은에 시도 알고리즘이 218 00:10:57,000 --> 00:11:01,130 당신이 무슨 말을하는지 번역 단어로, 텍스트. 219 00:11:01,130 --> 00:11:03,690 그리고 그 번역을하려고합니다 그 의미로. 220 00:11:03,690 --> 00:11:06,570 그래서 모든 자연의 일부 언어 처리. 221 00:11:06,570 --> 00:11:08,320 >> 그럼 당신은 기계 번역을 - 222 00:11:08,320 --> 00:11:10,300 실제로 하나입니다 내 즐겨 찾기 - 223 00:11:10,300 --> 00:11:14,060 단지에서 번역되는 다른 언어. 224 00:11:14,060 --> 00:11:17,950 그래서 당신은 당신이 일을 할 때 생각 할 수 있습니다 기계 번역, 당신은이 225 00:11:17,950 --> 00:11:19,750 문장의 무한한 가능성. 226 00:11:19,750 --> 00:11:22,960 그래서 그냥 저장하는 방법이 없습니다 하나 하나 번역. 227 00:11:22,960 --> 00:11:27,440 그래서 당신은 재미와 함께 올 필요 알고리즘은 수 228 00:11:27,440 --> 00:11:30,110 매일 번역 어떤 방법으로 문장. 229 00:11:30,110 --> 00:11:32,483 >> 너희들은 지금까지 질문이? 230 00:11:32,483 --> 00:11:34,450 아니? 231 00:11:34,450 --> 00:11:34,830 OK. 232 00:11:34,830 --> 00:11:36,900 >> 그래서 오늘 우리가 볼거야? 233 00:11:36,900 --> 00:11:39,300 우선, 내가 이야기하는거야 분류 문제. 234 00:11:39,300 --> 00:11:41,440 그래서 한 하나 스팸 메일에 대한 말. 235 00:11:41,440 --> 00:11:46,820 내가 할거야 것은 주어진 가사에게 있습니다 노래에, 당신은 알아 내기 위해 시도 할 수 있습니다 236 00:11:46,820 --> 00:11:49,810 높은 확률로 가수는 누구입니까? 237 00:11:49,810 --> 00:11:53,590 이 전 여성에서 노래를한다고 가정 해 봅시다 가가와 케이티 페리 (Katy Perry), 나는 당신에게를 제공하는 경우 238 00:11:53,590 --> 00:11:58,130 새 노래, 당신은 알아낼 수 있다면 그것은 케이티 페리 나 레이디 가가입니까? 239 00:11:58,130 --> 00:12:01,490 >> 두 번째, 얘기 좀하려고 해요 분할 문제에 대한. 240 00:12:01,490 --> 00:12:05,780 그래서 너희들이 알고 있다면 모르겠지만, 중국어, 일본어, 동아시아 241 00:12:05,780 --> 00:12:08,090 언어 및 다른 언어 일반적으로,이 없습니다 242 00:12:08,090 --> 00:12:09,830 단어 사이에 공백. 243 00:12:09,830 --> 00:12:13,540 그리고 당신은 그 방법에 대해 생각하는 경우 시도의 컴퓨터 종류에 244 00:12:13,540 --> 00:12:18,600 자연 언어 처리를 이해하고, 그것은 단어에 보이는 245 00:12:18,600 --> 00:12:21,500 관계를 이해하려고 그들 사이에, 오른쪽? 246 00:12:21,500 --> 00:12:25,440 하지만 당신은 당신이 중국어를 가지고 있고, 제로 공백이, 그것은 어려운 정말로 247 00:12:25,440 --> 00:12:28,360 사이의 관계 무엇인지 알아 말은, 때문에 그들은 어떤이 없습니다 248 00:12:28,360 --> 00:12:29,530 처음에는 단어. 249 00:12:29,530 --> 00:12:32,600 그래서 당신이라고 뭔가를해야 그냥 퍼팅을 의미 분할 250 00:12:32,600 --> 00:12:36,490 우리가이라고 부르는 사이에 공백 그 언어의 단어. 251 00:12:36,490 --> 00:12:37,740 이해가가? 252 00:12:37,740 --> 00:12:39,680 253 00:12:39,680 --> 00:12:41,540 >> 그리고 우리가 갈거야 구문에 대해 이야기. 254 00:12:41,540 --> 00:12:44,050 자연에 대한 그래서 조금 언어 처리. 255 00:12:44,050 --> 00:12:45,420 그것은 단지 개요가 될 것. 256 00:12:45,420 --> 00:12:50,700 그래서 오늘은, 기본적으로 내가하고 싶은 일 사람들에게 당신에게 약간을 제공합니다 257 00:12:50,700 --> 00:12:53,930 가능성이 무엇인지 내부 당신은 전산으로 할 수있는 258 00:12:53,930 --> 00:12:54,960 언어학. 259 00:12:54,960 --> 00:13:00,410 그리고 당신은 당신이 생각하는 것을 볼 수 있습니다 그 무엇보다도 멋지다. 260 00:13:00,410 --> 00:13:02,270 그리고 어쩌면 당신은 프로젝트 생각할 수 나에게 이야기 온다. 261 00:13:02,270 --> 00:13:05,260 그리고 나는 당신에게 조언을 줄 수 그것을 구현하는 방법에 대한. 262 00:13:05,260 --> 00:13:09,060 >> 그래서 문법은 약간 될 것입니다 그래프 검색 시스템에 대한 263 00:13:09,060 --> 00:13:09,670 번역. 264 00:13:09,670 --> 00:13:13,650 난 그냥 방법의 예를 들어 줄거야 만약, 예를 들어, 번역 있었다 265 00:13:13,650 --> 00:13:16,020 영어 포르투갈어 뭔가. 266 00:13:16,020 --> 00:13:17,830 좋은 소리? 267 00:13:17,830 --> 00:13:19,293 >> 그래서 일단, 분류 문제. 268 00:13:19,293 --> 00:13:23,590 나는 말할 것 그 세미나의이 부분 가장 도전이 될 것입니다 269 00:13:23,590 --> 00:13:27,560 하나가려고해서 약간의 코딩이 될 수 있습니다. 270 00:13:27,560 --> 00:13:29,470 그러나 파이썬이 될 것. 271 00:13:29,470 --> 00:13:34,380 나는 너희들이 파이썬을 알고, 그렇게 알고 있지 난 그냥 높이에 설명 할게 272 00:13:34,380 --> 00:13:35,750 내가 뭘 수준. 273 00:13:35,750 --> 00:13:40,900 그리고 당신은 정말 너무 걱정하지 않아도됩니다 그 때문에 구문에 대한 많은 274 00:13:40,900 --> 00:13:42,140 너희들이 배울 수있는 무언가. 275 00:13:42,140 --> 00:13:42,540 OK? 276 00:13:42,540 --> 00:13:43,580 좋은 소리. 277 00:13:43,580 --> 00:13:46,020 >> 따라서 분류의 문제는 무엇인가? 278 00:13:46,020 --> 00:13:49,140 그래서 당신은 몇 가지 가사를 부여하고 노래, 당신은 추측 할 279 00:13:49,140 --> 00:13:50,620 누가 노래입니다. 280 00:13:50,620 --> 00:13:54,045 그리고 이것은 모든 종류의 할 수있다 다른 문제. 281 00:13:54,045 --> 00:13:59,980 그래서, 예를 들어,이 수 대통령 선거 운동 당신은이 282 00:13:59,980 --> 00:14:02,610 음성, 당신은 찾을 그것은 한 걸 경우, 예를 들어, 283 00:14:02,610 --> 00:14:04,470 오바마 나 미트 롬니. 284 00:14:04,470 --> 00:14:07,700 또는 당신은 이메일의 무리를 가질 수 당신은 그들이 경우 알아 내야 285 00:14:07,700 --> 00:14:08,890 스팸 없습니다. 286 00:14:08,890 --> 00:14:11,440 그래서 그냥 몇 가지를 분류하는 것 단어에 따라 데이터 287 00:14:11,440 --> 00:14:13,790 당신은 거기있다. 288 00:14:13,790 --> 00:14:16,295 >> 그래서 할 경우에이 몇 가지 가정을합니다. 289 00:14:16,295 --> 00:14:20,570 따라서 전산 언어학에 대해 많은 가정을하고있다, 290 00:14:20,570 --> 00:14:24,100 보통 스마트 가정, 그 때문에 당신은 좋은 결과를 얻을 수 있습니다. 291 00:14:24,100 --> 00:14:26,670 그것에 대한 모델을 만들려고. 292 00:14:26,670 --> 00:14:31,290 그리고, 그것을 밖으로 시도하고 작동하는지 확인 그것은 당신에게 좋은 정밀도를 제공합니다. 293 00:14:31,290 --> 00:14:33,940 그리고 그것은 않는 경우, 그것을 개선하려고합니다. 294 00:14:33,940 --> 00:14:37,640 그것은, 당신은 OK, 같은 거하지 않으면 아마 다른 가정을해야한다. 295 00:14:37,640 --> 00:14:44,030 >> 그래서 우리가 가고있는 가정 만드는 예술가는 보통 노래입니다 296 00:14:44,030 --> 00:14:49,220 어쩌면에 대한 주제를 여러 번하고, 말에게 여러 번 사용하는 것만 297 00:14:49,220 --> 00:14:50,270 그들은 그것을 사용하고 있기 때문이다. 298 00:14:50,270 --> 00:14:51,890 당신은 당신의 친구 생각할 수 있습니다. 299 00:14:51,890 --> 00:14:57,350 난 너희들 모두가 친구가 확신 자신의 서명 문구를 말하는 그 300 00:14:57,350 --> 00:14:59,260 말 그대로 하나 하나 문장 - 301 00:14:59,260 --> 00:15:02,660 일부 특정 단어 나 어떤 특정한 등 그들이 말하는 구 302 00:15:02,660 --> 00:15:04,020 매 문장. 303 00:15:04,020 --> 00:15:07,920 >> 그리고 당신이 말할 수있는 것은 당신이 보는 경우에 서명이 문장 304 00:15:07,920 --> 00:15:11,450 어구, 당신은 추측 할 수있는 아마 당신의 친구입니다 305 00:15:11,450 --> 00:15:13,310 하나는, 바로 그 말을? 306 00:15:13,310 --> 00:15:18,410 그래서 당신은 그 가정을하고 즉, 모델을 만드는 방법은 다음과 같습니다. 307 00:15:18,410 --> 00:15:24,440 >> I 줄거야 예에있다 방법 레이디 가가 (Lady Gaga), 예를 들어, 사람들이 308 00:15:24,440 --> 00:15:27,430 그녀가 "아기"를 사용한다고 그녀의 번호를 하나의 노래. 309 00:15:27,430 --> 00:15:32,270 실제로이 비디오 것을 보여줍니다 그녀는 단어 "아기"에 대한 말 310 00:15:32,270 --> 00:15:33,410 다른 곡. 311 00:15:33,410 --> 00:15:33,860 >> [동영상 재생] 312 00:15:33,860 --> 00:15:34,310 >> - (SINGING) 아기. 313 00:15:34,310 --> 00:15:36,220 아기. 314 00:15:36,220 --> 00:15:37,086 아기. 315 00:15:37,086 --> 00:15:37,520 아기. 316 00:15:37,520 --> 00:15:37,770 아기. 317 00:15:37,770 --> 00:15:38,822 아가씨. 318 00:15:38,822 --> 00:15:39,243 아기. 319 00:15:39,243 --> 00:15:40,085 아기. 320 00:15:40,085 --> 00:15:40,510 아기. 321 00:15:40,510 --> 00:15:40,850 아기. 322 00:15:40,850 --> 00:15:41,090 >> [END 비디오 재생 - 323 00:15:41,090 --> 00:15:44,020 >> LUCAS 프레이 타스 : 그래서, 나는 생각한다,가 그녀는 말한다하는 여기에 40 곡 324 00:15:44,020 --> 00:15:48,690 단어 "아기." 그래서 당신은 기본적으로 추측 할 수있다 당신은이 노래를 참조하는 경우 325 00:15:48,690 --> 00:15:52,180 단어 "아기"고등학교가있다 그것은 레이디 가가 (Lady Gaga)의 것을 확률. 326 00:15:52,180 --> 00:15:56,450 그러나 이제이 개발 해보자 더 형식적으로. 327 00:15:56,450 --> 00:16:00,470 >> 그래서 이들에 의해 노래 가사입니다 레이디 가가와 케이티 페리 (Katy Perry). 328 00:16:00,470 --> 00:16:04,120 그래서 당신은 레이디 가가 보면, 당신은 그들이 볼 의 사건의 많은 부분이 "아기" 329 00:16:04,120 --> 00:16:07,710 의 발생의 많은 "방법입니다." 그리고 케이티 페리는 사건의 많은 부분이 330 00:16:07,710 --> 00:16:10,360 ","의 사건의 많은 부분 "화재의 위험이 있습니다." 331 00:16:10,360 --> 00:16:14,560 >> 그러니까 기본적으로 우리가 원하는 것을 할 당신이 가사를 얻을 수있다. 332 00:16:14,560 --> 00:16:20,480 의 당신은의 가사를 얻을 수 있다고 가정 해 봅시다 "아기"그냥 "아기"입니다. 노래 면 333 00:16:20,480 --> 00:16:24,750 당신은 단어 "아기"이 얻을 어디에서이 모든 데이터입니다 334 00:16:24,750 --> 00:16:27,880 레이디 가가와 케이티 페리 (Katy Perry), 것 당신이 생각하는 사람 335 00:16:27,880 --> 00:16:29,370 누가 노래를 노래? 336 00:16:29,370 --> 00:16:32,360 레이디 가가 나 케이티 페리? 337 00:16:32,360 --> 00:16:33,150 레이디 가가 (Lady Gaga), 오른쪽? 338 00:16:33,150 --> 00:16:37,400 그녀는 말한다 하나 때문에 "아기." 이것은 바로, 바보 소리? 339 00:16:37,400 --> 00:16:38,760 OK, 이건 정말 간단합니다. 340 00:16:38,760 --> 00:16:41,860 난 그냥 두 노래에 그리고 찾고 있어요 물론, 그녀가 가지고있는 단 하나의 341 00:16:41,860 --> 00:16:42,660 "아기." 342 00:16:42,660 --> 00:16:44,740 >> 하지만 당신은 단어의 무리를 무엇을 가지고 있다면? 343 00:16:44,740 --> 00:16:50,900 당신은 실제 가사, 뭔가가있는 경우 같은, "아기, 그냥 344 00:16:50,900 --> 00:16:51,610 [를 보러 갔다? CFT?] 345 00:16:51,610 --> 00:16:54,020 강의 ", 또는 그런 식으로 뭔가하고 당신은 실제로 파악해야 - 346 00:16:54,020 --> 00:16:55,780 그 모든 단어를 기준으로 - 347 00:16:55,780 --> 00:16:58,350 누가 작가는 누구 아마 이 노래를 노래? 348 00:16:58,350 --> 00:17:01,860 그래서 개발 해보자 조금 더이. 349 00:17:01,860 --> 00:17:05,630 >> 좋아요, 그럼 데이터를 기반으로 우리 가지고, 그것은 가가 아마 것 같다 350 00:17:05,630 --> 00:17:06,260 가수. 351 00:17:06,260 --> 00:17:07,904 그러나 우리는 어떻게 쓸 수 있습니다 이 형식적으로? 352 00:17:07,904 --> 00:17:10,579 353 00:17:10,579 --> 00:17:13,140 그리고 좀있을거야 통계의 비트. 354 00:17:13,140 --> 00:17:15,880 그래서 당신이 길을 잃는다면, 그냥 해 개념을 이해합니다. 355 00:17:15,880 --> 00:17:18,700 당신이 이해한다면 그것은 중요하지 않습니다 방정식 완벽하게. 356 00:17:18,700 --> 00:17:22,150 이 모든 온라인이 될 것입니다. 357 00:17:22,150 --> 00:17:25,490 >> 그래서 기본적으로 제가 계산 해요 것은입니다 이 노래가 있음을 확률 358 00:17:25,490 --> 00:17:28,040 레이디 가가는 주어 - 359 00:17:28,040 --> 00:17:30,660 그래서이 줄은 그 주어진 의미 - 360 00:17:30,660 --> 00:17:33,680 나는 단어를보고 "아기를." 그 의미가 있습니까? 361 00:17:33,680 --> 00:17:35,540 그래서 내가 계산하려고 해요 그 확률. 362 00:17:35,540 --> 00:17:38,540 >> 그래서이라는 이론이있다 있다고 베이 즈 정리 363 00:17:38,540 --> 00:17:43,330 주어진 B의 확률은있다 A, B 번 주어진 확률 364 00:17:43,330 --> 00:17:47,660 확률에의 가능성, B.의이 긴 식이다. 365 00:17:47,660 --> 00:17:51,970 하지만 당신은에서 이해해야 즉,이 내가하고 싶은 것입니다 366 00:17:51,970 --> 00:17:52,830 바로 계산? 367 00:17:52,830 --> 00:17:56,570 그 노래가되도록 확률 레이디 가가라는 단어를보고 주어진 368 00:17:56,570 --> 00:17:58,230 "아기." 369 00:17:58,230 --> 00:18:02,960 >> 그리고 지금 내가 받고 있어요 것은 주어진 단어 "아기"의 가능성 370 00:18:02,960 --> 00:18:04,390 나는 레이디 가가 (Lady Gaga)가있다. 371 00:18:04,390 --> 00:18:07,220 그리고 기본적으로 무엇입니까? 372 00:18:07,220 --> 00:18:10,500 그 의미가 무엇인지, 무엇 단어 "아기"를 보는 확률 373 00:18:10,500 --> 00:18:12,130 가가의 가사? 374 00:18:12,130 --> 00:18:16,240 나는 아주에 그 계산하려면 간단한 방법으로, 그것은 단지 수의 375 00:18:16,240 --> 00:18:23,640 시간 나는 총에 "아기"를 참조하십시오 가가 가사의 단어, 오른쪽? 376 00:18:23,640 --> 00:18:27,600 내가 볼 주파수는 무엇입니까 가가의 작품에서 그 단어? 377 00:18:27,600 --> 00:18:30,530 이해가가? 378 00:18:30,530 --> 00:18:33,420 >> 두 번째 항은 가가의 확률. 379 00:18:33,420 --> 00:18:34,360 이것은 무엇을 의미할까요? 380 00:18:34,360 --> 00:18:38,550 즉, 기본적 의미는 무엇인가 분류의 확률 381 00:18:38,550 --> 00:18:40,690 가가와 같은 일부 가사? 382 00:18:40,690 --> 00:18:45,320 그리고 그게 좀 이상하지만, 한 가지 예를 들어 생각해 보자. 383 00:18:45,320 --> 00:18:49,230 그래서 말을하자 그 확률 노래에서 "아기"를 갖는 동일합니다 384 00:18:49,230 --> 00:18:51,760 가가와 브리트니 스피어스. 385 00:18:51,760 --> 00:18:54,950 하지만 브리트니 스피어스가 두 번이 레이디 가가 (Lady Gaga)보다 더 많은 노래. 386 00:18:54,950 --> 00:19:00,570 그래서 사람은 무작위로 당신에게 제공하는 경우 첫 번째 것은 "아기"의 가사 당신 387 00:19:00,570 --> 00:19:04,710 에있다 보면, 확률 무엇인가 가가의 노래에 "아기"를 갖는 "아기" 388 00:19:04,710 --> 00:19:05,410 브리트니의 노래? 389 00:19:05,410 --> 00:19:06,460 그리고 그것은 같은 것입니다. 390 00:19:06,460 --> 00:19:10,040 >> 그래서 당신이 볼 수 있습니다 두 번째는,이다 물론, 확률 무엇인가 391 00:19:10,040 --> 00:19:13,770 그 자체로이 가사는, 가가 가사 인 그리고 확률은 무엇입니까 392 00:19:13,770 --> 00:19:15,380 브리트니 가사 인? 393 00:19:15,380 --> 00:19:18,950 그래서 브리트니가 더 많은 가사를 가지고 있기 때문에 가가보다 당신은 아마 것 394 00:19:18,950 --> 00:19:21,470 말하자면, 잘, 이것은 아마 브리트니 가사. 395 00:19:21,470 --> 00:19:23,340 우리가 이것을 왜 그래서의 여기 용어입니다. 396 00:19:23,340 --> 00:19:24,670 가가의 확률. 397 00:19:24,670 --> 00:19:26,950 의미가? 398 00:19:26,950 --> 00:19:28,660 그것은합니까? 399 00:19:28,660 --> 00:19:29,370 OK. 400 00:19:29,370 --> 00:19:33,500 >> 그리고 마지막 하나는 단지 확률 "아기"의 어느하지 않습니다 401 00:19:33,500 --> 00:19:34,810 정말 문제가 많은. 402 00:19:34,810 --> 00:19:39,940 하지만 확률의 영어로 "아기"를보고. 403 00:19:39,940 --> 00:19:42,725 우리는 일반적으로 상관하지 않는 이 용어에 대해 많은. 404 00:19:42,725 --> 00:19:44,490 그 의미가 있습니까? 405 00:19:44,490 --> 00:19:48,110 그래서 가가의 확률이다 이전의 확률이라고 406 00:19:48,110 --> 00:19:49,530 클래스 가가. 407 00:19:49,530 --> 00:19:53,840 그냥 그 의미하기 때문에, 무엇인가 해당 클래스를 갖는 확률 - 408 00:19:53,840 --> 00:19:55,520 가가하는 것입니다 - 409 00:19:55,520 --> 00:19:59,350 다만 일반적으로, 단지 아무 조건. 410 00:19:59,350 --> 00:20:02,560 >> 그리고 나는 확률이있을 때 "아기,"우리가 그것을 호출 플러스 주어진 가가 411 00:20:02,560 --> 00:20:06,160 이 때문에 확률이 눈물이 글썽 발생의 확률 412 00:20:06,160 --> 00:20:08,300 가가는 몇 가지 증거를가 없습니다. 413 00:20:08,300 --> 00:20:11,050 그래서 나는 당신에게 증거를주는거야 나는 아기 단어를보고 있음 414 00:20:11,050 --> 00:20:12,690 노래는 의미가? 415 00:20:12,690 --> 00:20:15,960 416 00:20:15,960 --> 00:20:16,410 OK. 417 00:20:16,410 --> 00:20:22,400 >> 나는 계산이 경우 그 각각에 대해 레이디 가가의 노래, 418 00:20:22,400 --> 00:20:25,916 그게 어떻게 될지 - 419 00:20:25,916 --> 00:20:27,730 분명히,이 이동할 수 없습니다. 420 00:20:27,730 --> 00:20:31,850 421 00:20:31,850 --> 00:20:36,920 가가의 가능성이있을 것입니다 뭔가처럼,이 24 이상, 배 1 / 2, 422 00:20:36,920 --> 00:20:38,260 53 이상 2 이상. 423 00:20:38,260 --> 00:20:40,640 당신이 알고있는 경우에 그것은 중요하지 않습니다 무슨 이 숫자에서오고있다. 424 00:20:40,640 --> 00:20:44,750 하지만 것입니다 단지 수의 바로, 0 이상이 될 수 있습니다? 425 00:20:44,750 --> 00:20:48,610 >> 그리고 나는 케이티 페리 (Katy Perry)를 수행 할 때 케이티 주어진 "아기"의 확률은 426 00:20:48,610 --> 00:20:49,830 이미 0, 오른쪽? 427 00:20:49,830 --> 00:20:52,820 더 "아기"가 없기 때문에 케이티 페리. 428 00:20:52,820 --> 00:20:56,360 따라서 다음이 0이되고, 가가 승리, 이는 가가가 있음을 의미 429 00:20:56,360 --> 00:20:57,310 아마 가수. 430 00:20:57,310 --> 00:20:58,560 그 의미가 있습니까? 431 00:20:58,560 --> 00:21:00,700 432 00:21:00,700 --> 00:21:01,950 OK. 433 00:21:01,950 --> 00:21:04,160 434 00:21:04,160 --> 00:21:11,750 >> 그래서 난이 더 많은 공식을 만들고 싶은 경우에, 실제로 모델을 할 수있는 435 00:21:11,750 --> 00:21:12,700 여러 단어. 436 00:21:12,700 --> 00:21:14,610 그래서 내가 뭔가를 가정 해 봅시다 같은, "아기, 나는 437 00:21:14,610 --> 00:21:16,030 불 "또는 뭔가. 438 00:21:16,030 --> 00:21:17,760 그래서 여러 단어가 있습니다. 439 00:21:17,760 --> 00:21:20,880 그리고이 경우에, 당신은 볼 수 있습니다 이 "아기", 가가에 440 00:21:20,880 --> 00:21:21,710 하지만 케이티 아니다. 441 00:21:21,710 --> 00:21:24,940 그리고 "불이"케이티이지만, 그것은 바로, 가가에없는? 442 00:21:24,940 --> 00:21:27,200 그래서 그것은 바로, 난이도가 점점? 443 00:21:27,200 --> 00:21:31,440 그 것 때문에 당신 거의 둘 사이에 넥타이를해야합니다. 444 00:21:31,440 --> 00:21:36,980 >> 그래서 당신이해야 할 것은 가정입니다 단어 사이의 독​​립성. 445 00:21:36,980 --> 00:21:41,210 그래서 기본적으로 그게 무슨 뜻인지 즉 난 그냥 어떤 계산 해요 446 00:21:41,210 --> 00:21:44,330 보는 확률 "아기는,"무엇인가 보는 확률 "나는"과 447 00:21:44,330 --> 00:21:46,670 "불" "AM"및 "에,"와 모든 별도. 448 00:21:46,670 --> 00:21:48,670 다음 나는 그들 모두를 곱 해요. 449 00:21:48,670 --> 00:21:52,420 그리고 확률 무엇을보고 있어요 전체 문장을보고. 450 00:21:52,420 --> 00:21:55,210 이해가가? 451 00:21:55,210 --> 00:22:00,270 >> 그러니까 기본적으로, 난 그냥 하나의 단어가있는 경우, 내가 찾으려는 인수의 최대입니다, 452 00:22:00,270 --> 00:22:05,385 즉, 한 클래스는 무엇인가 나에게 확률이 가장 높은주는? 453 00:22:05,385 --> 00:22:10,010 그래서주고있다 클래스는 무엇인가 나에게 확률이 가장 높은 454 00:22:10,010 --> 00:22:11,940 클래스의 확률은 단어가 없습니다. 455 00:22:11,940 --> 00:22:17,610 따라서이 경우, 가가는 "아기를."주어진 아니면 케이티는 "아기를."주어진 이해가가? 456 00:22:17,610 --> 00:22:21,040 >> 그냥 베이 즈에서, 그 내가 보여 방정식, 457 00:22:21,040 --> 00:22:24,780 우리는이 부분을 만들 수 있습니다. 458 00:22:24,780 --> 00:22:28,750 유일한 방법은 당신이 보는 것입니다 주어진 단어의 확률 459 00:22:28,750 --> 00:22:31,370 따라서 클래스 변경 클래스, 오른쪽? 460 00:22:31,370 --> 00:22:34,260 내가 가지고있는 "아기"의 수 가가의 케이티 다릅니다. 461 00:22:34,260 --> 00:22:37,640 클래스의 확률도 그것은 단지 숫자의 변화 때문에 462 00:22:37,640 --> 00:22:39,740 그들의 노래를 각각 보유하고 있습니다. 463 00:22:39,740 --> 00:22:43,980 >> 그러나 단어 자체의 확률 모두에 대해 동일한 될 것입니다 464 00:22:43,980 --> 00:22:44,740 예술가, 오른쪽? 465 00:22:44,740 --> 00:22:47,150 따라서 단어의 확률이다 다만, 확률 무엇인가 466 00:22:47,150 --> 00:22:49,820 에서 그 단어를보고 영어? 467 00:22:49,820 --> 00:22:51,420 그래서 그들 모두에 대해 동일합니다. 468 00:22:51,420 --> 00:22:55,790 이 일정 그래서 때문에, 우리는 할 수있다 다만 이 드롭 그것에 대해 걱정하지. 469 00:22:55,790 --> 00:23:00,230 그래서이 사실이 될 것입니다 우리가 찾고있는 식. 470 00:23:00,230 --> 00:23:03,360 >> 내가 여러 단어가있는 경우 그리고, 난 여전히 이전을해야 할 것 471 00:23:03,360 --> 00:23:04,610 여기에 확률. 472 00:23:04,610 --> 00:23:06,980 유일한 것은 내가 곱한다는 거죠 확률 473 00:23:06,980 --> 00:23:08,490 모든 즉. 474 00:23:08,490 --> 00:23:10,110 그래서 나는 그들 모두를 곱 해요. 475 00:23:10,110 --> 00:23:12,610 이해가가? 476 00:23:12,610 --> 00:23:18,440 그것은 이상한 보이지만, 기본적으로 의미 클래스의 사전, 및를 계산 477 00:23:18,440 --> 00:23:22,100 각의 확률을 곱 해당 클래스에되는 단어. 478 00:23:22,100 --> 00:23:24,620 479 00:23:24,620 --> 00:23:29,150 >> 그리고 당신은 알고 확률 클래스 주어진 단어가 될 것입니다 480 00:23:29,150 --> 00:23:34,520 만약에 그 단어를 참조 횟수 수로 나눈 그 클래스, 481 00:23:34,520 --> 00:23:37,020 단어는 점에서이 일반적으로 클래스입니다. 482 00:23:37,020 --> 00:23:37,990 이해가가? 483 00:23:37,990 --> 00:23:41,680 그것은 이상 2 얼마나 "아기"이었다 있어요 단어의 개수가 484 00:23:41,680 --> 00:23:43,020 나는 가사에 있었다. 485 00:23:43,020 --> 00:23:45,130 그래서 그냥 주파수. 486 00:23:45,130 --> 00:23:46,260 >> 그러나 한 가지가있다. 487 00:23:46,260 --> 00:23:51,250 내가 보여주는 방식을 기억하십시오 "아기"인 가사의 확률 488 00:23:51,250 --> 00:23:56,350 케이티 페리 (Katy Perry)에서 0이라서 케이티 페리는 모두에서 "아기"를하지 않았다? 489 00:23:56,350 --> 00:24:04,900 그러나 그것은 단지에 사운드가 ​​거친 단순히 가사에서 할 수없는 말 490 00:24:04,900 --> 00:24:10,040 는 자신이 갖고 있지 않은해서 예술가 언제든지 특히 그 단어. 491 00:24:10,040 --> 00:24:13,330 >> 당신이 있다면 당신은, 잘 말할 수 이 말을하지 않아도, 그럴려고 492 00:24:13,330 --> 00:24:15,640 당신에게 낮은 확률을주고, 하지만 난 그냥 아니 겠지 493 00:24:15,640 --> 00:24:17,420 바로 당신에게 0을 제공합니다. 494 00:24:17,420 --> 00:24:21,040 아마 뭔가처럼 때문에 입니다 "불, 불, 불, 불," 495 00:24:21,040 --> 00:24:21,990 완전히 케이티 페리 (Katy Perry). 496 00:24:21,990 --> 00:24:26,060 그리고 "아기"하고 그냥 간다 0은 바로 하나가 있었기 때문에 497 00:24:26,060 --> 00:24:27,250 "아기." 498 00:24:27,250 --> 00:24:31,440 >> 그러니까 기본적으로 우리가 할 것은 무엇인가이다 라플라스 다듬기했다. 499 00:24:31,440 --> 00:24:36,260 그리고 이것은 그냥주는거야 것을 의미한다 심지어 단어에 약간의 확률 500 00:24:36,260 --> 00:24:37,850 그것은 존재하지 않습니다. 501 00:24:37,850 --> 00:24:43,170 그래서 내가 할 것은이 난 경우 이 계산, 항상 1을 추가 502 00:24:43,170 --> 00:24:44,180 분자. 503 00:24:44,180 --> 00:24:48,060 단어에 존재하지 않는 그래서 경우에도 이 값이 0 인 경우이 경우는 여전히 해요 504 00:24:48,060 --> 00:24:51,250 을 통해 1 등이 계산 단어의 총 수. 505 00:24:51,250 --> 00:24:55,060 그렇지 않으면, 나는 얼마나 많은 단어 내가하고 난 1을 추가합니다. 506 00:24:55,060 --> 00:24:58,300 그래서 두 경우 모두에 믿고있어. 507 00:24:58,300 --> 00:25:00,430 이해가가? 508 00:25:00,430 --> 00:25:03,060 >> 그래서 지금의 약간의 코딩을 할 수 있습니다. 509 00:25:03,060 --> 00:25:06,440 나는 꽤 빨리 그것을해야하는거야 하지만 그것은 단지 중요한 당신에게 그 510 00:25:06,440 --> 00:25:08,600 사람은 개념을 이해합니다. 511 00:25:08,600 --> 00:25:13,450 그래서 우리가하려고하는 정확히 구현한다 512 00:25:13,450 --> 00:25:14,330 내가 방금 말한 것은 - 513 00:25:14,330 --> 00:25:19,110 난 당신이에서 가사를 넣을 레이디 가가와 케이티 페리 (Katy Perry). 514 00:25:19,110 --> 00:25:22,980 그리고이 프로그램은 할 수있을 것입니다 이 새로운 가사 가가의 경우 말 515 00:25:22,980 --> 00:25:24,170 또는 케이티 페리 (Katy Perry). 516 00:25:24,170 --> 00:25:25,800 이해가가? 517 00:25:25,800 --> 00:25:27,530 OK. 518 00:25:27,530 --> 00:25:30,710 >> 그래서 내가 갈거야이 프로그램이 classify.py를 호출합니다. 519 00:25:30,710 --> 00:25:31,970 그래서 이것은 파이썬입니다. 520 00:25:31,970 --> 00:25:34,210 그것은 새로운 프로그래밍 언어이다. 521 00:25:34,210 --> 00:25:38,020 그것은 몇 가지 매우 유사하다 C와 PHP하는 방법. 522 00:25:38,020 --> 00:25:43,180 당신이 원하기 때문에 경우는 비슷 C를 아는 한 후 파이썬을 배우고, 그것의 523 00:25:43,180 --> 00:25:46,270 도전 정말 많이하지 파이썬은 훨씬 더 쉽게해서 524 00:25:46,270 --> 00:25:47,520 보다 C, 우선. 525 00:25:47,520 --> 00:25:49,370 그리고 많은 것들이 이미 당신을 위해 구현. 526 00:25:49,370 --> 00:25:56,820 그래서 얼마나 PHP와 같은 기능을 가지고 그 목록을 정렬, 또는 무언가를 추가 527 00:25:56,820 --> 00:25:58,780 배열 또는 어쩌구 저쩌구합니다. 528 00:25:58,780 --> 00:26:00,690 파이썬은 물론 그 모두를 가지고 있습니다. 529 00:26:00,690 --> 00:26:05,960 >> 그래서 난 그냥 빨리 설명 할게 우리는 분류를 할 수있는 방법 530 00:26:05,960 --> 00:26:07,860 여기에 대한 문제. 531 00:26:07,860 --> 00:26:13,230 그래서이 경우, 내가 가진 가정 해 봅시다 가가와 케이티 페리 (Katy Perry)의 가사. 532 00:26:13,230 --> 00:26:21,880 난 그 가사가 방법입니다 가사의 첫 번째 단어입니다 533 00:26:21,880 --> 00:26:25,250 아티스트의 이름, 나머지 가사이다. 534 00:26:25,250 --> 00:26:29,470 그래서 나는이 목록을 가지고 있다고 가정 해 봅시다 이는 첫 번째는 가가 가사입니다. 535 00:26:29,470 --> 00:26:31,930 그래서 나는 여기 바른 길에 있습니다. 536 00:26:31,930 --> 00:26:35,270 그리고 그 다음은 케이티이며, 또한 가사가 있습니다. 537 00:26:35,270 --> 00:26:38,040 >> 그래서 이것은 당신이 선언하는 방법입니다 파이썬에서 변수. 538 00:26:38,040 --> 00:26:40,200 당신은 데이터 형식을 제공 할 필요가 없습니다. 539 00:26:40,200 --> 00:26:43,150 당신은 "가사"를 쓰기 종류의 PHP에서 좋아합니다. 540 00:26:43,150 --> 00:26:44,890 이해가가? 541 00:26:44,890 --> 00:26:47,770 >> 그래서 내가 가지고있는 것들에 무엇입니까 계산할 수있는 계산 542 00:26:47,770 --> 00:26:49,360 확률? 543 00:26:49,360 --> 00:26:55,110 나는 "전과"를 계산해야 다른 각각의 544 00:26:55,110 --> 00:26:56,710 내가 가지고있는 클래스. 545 00:26:56,710 --> 00:27:06,680 나는 "포스 테리어를,"계산해야 또는 거의 확률의 546 00:27:06,680 --> 00:27:12,150 다른 단어의 각이 나는 각 아티스트 수 있습니다. 547 00:27:12,150 --> 00:27:17,210 그래서 가가 내에서, 예를 들어, 내가 갈거야 내가 보는 횟수의 목록을 가지고 548 00:27:17,210 --> 00:27:19,250 각각의 단어. 549 00:27:19,250 --> 00:27:20,760 이해가가? 550 00:27:20,760 --> 00:27:25,370 >> 그리고 마지막으로, 난 그냥있을거야 단지 것입니다 "단어"라는 목록 551 00:27:25,370 --> 00:27:29,780 이 얼마나 많은 단어를 I 각 아티스트가 있습니다. 552 00:27:29,780 --> 00:27:33,760 그래서 가가, 예를 들어, 내가 봐 가사에, 나는, 나는 생각했다, 24 553 00:27:33,760 --> 00:27:34,750 총 단어. 554 00:27:34,750 --> 00:27:38,970 그래서이 목록은해야 할 것입니다 가가 (24)와 케이티 다른 번호. 555 00:27:38,970 --> 00:27:40,130 이해가가? 556 00:27:40,130 --> 00:27:40,560 OK. 557 00:27:40,560 --> 00:27:42,530 >> 그래서 지금, 실제로하자 코딩로 이동합니다. 558 00:27:42,530 --> 00:27:45,270 그래서 파이썬에서, 당신은 실제로 수 다른 한 무리의 반환 559 00:27:45,270 --> 00:27:46,630 함수에서 일. 560 00:27:46,630 --> 00:27:50,810 그래서이 함수를 만들거야 예정되어있는 "조건부"라고 561 00:27:50,810 --> 00:27:53,890 그 모든 일을 반환 "전과" "확률"과 562 00:27:53,890 --> 00:28:05,690 "단어입니다." 그래서 "조건부"그것은의 로 호출 될 것 "가사." 563 00:28:05,690 --> 00:28:11,510 >> 그래서 지금 당신이 실제로 원하는 이 기능을 쓰기. 564 00:28:11,510 --> 00:28:17,750 나는이 쓰기 할 수 있도록하는 방법 기능 난 그냥이 정의된다 565 00:28:17,750 --> 00:28:20,620 함께 작동 "DEF." 그래서 데프 "한 조건부 "그것을 복용 566 00:28:20,620 --> 00:28:28,700 "가사." 어떤이는 할 것입니다 , 우선, 나는 전과가있다 567 00:28:28,700 --> 00:28:31,030 내가 계산 할 것인지. 568 00:28:31,030 --> 00:28:34,330 >> 그래서 내가 할 수있는 방법은 만드는 것입니다 파이썬에서 사전에 어떤 569 00:28:34,330 --> 00:28:37,320 해시으로 거의 같은 것입니다 테이블 또는 그것은 반복처럼 570 00:28:37,320 --> 00:28:40,480 PHP의 배열입니다. 571 00:28:40,480 --> 00:28:44,150 이것은 내가 사전을 선언하는 방법입니다. 572 00:28:44,150 --> 00:28:53,580 그리고 기본적으로 이것이 의미하는 것으로는 가가의 전과가있는 경우, 예를 들어, 0.5 573 00:28:53,580 --> 00:28:57,200 가사의 50 %에서 있습니다 가가, 50 %는 케이티에서이다. 574 00:28:57,200 --> 00:28:58,450 이해가가? 575 00:28:58,450 --> 00:29:00,680 576 00:29:00,680 --> 00:29:03,680 그래서 나는 알아 내기 위해 얼마나 전과를 계산합니다. 577 00:29:03,680 --> 00:29:07,120 >> 나는이해야 할 다음 사람도, 확률과 단어입니다. 578 00:29:07,120 --> 00:29:17,100 그래서 가가의 확률 목록입니다 모든 확률의 I 579 00:29:17,100 --> 00:29:19,160 가가에 대한 각각의 단어에있다. 580 00:29:19,160 --> 00:29:23,880 나는 가가의 확률로 이동이 경우 "아기,"예를 들어, 나에게주지 581 00:29:23,880 --> 00:29:28,750 2이 경우에 24 일 이상 같은. 582 00:29:28,750 --> 00:29:30,070 이해가가? 583 00:29:30,070 --> 00:29:36,120 그래서 나는 "확률"로 이동로 이동 모두의 목록이 "가가"버킷 584 00:29:36,120 --> 00:29:40,550 가가의 말은, 그때 나는 "아기"로 이동 나는 가능성을 참조하십시오. 585 00:29:40,550 --> 00:29:45,940 >> 그리고 마지막으로 나는이가 "단어"사전. 586 00:29:45,940 --> 00:29:53,620 그래서 여기에, "확률." 그리고 "단어입니다." 그래서 나는 "말", "가가"를 할 경우 587 00:29:53,620 --> 00:29:58,330 무엇이 일어날 것은 점이다 나에게 24을 줄 것 말하는 것을 I 588 00:29:58,330 --> 00:30:01,990 가가의 가사에서 24 단어가있다. 589 00:30:01,990 --> 00:30:04,110 의미가? 590 00:30:04,110 --> 00:30:07,070 그래서 여기에 "단어"DAH-DAH-DAH 같습니다. 591 00:30:07,070 --> 00:30:07,620 OK 592 00:30:07,620 --> 00:30:12,210 >> 그래서 내가 할거야 것은 내가 갈거야입니다 그래서, 가사 각각의 반복 593 00:30:12,210 --> 00:30:14,490 각 문자열이 나는이 목록에있다. 594 00:30:14,490 --> 00:30:18,040 그리고 그 일을 계산하는거야 후보자 각각에 대해. 595 00:30:18,040 --> 00:30:19,950 의미가? 596 00:30:19,950 --> 00:30:21,700 그래서 루프를 수행해야합니다. 597 00:30:21,700 --> 00:30:26,300 >> 그래서 파이썬에서 내가 할 수있는 것은 라인 "입니다 가사. "같은 일 598 00:30:26,300 --> 00:30:28,000 PHP의 문 "각". 599 00:30:28,000 --> 00:30:33,420 그것은 PHP 있다면 어떻게 내가 할 수있는 기억 각 가사 "라고 600 00:30:33,420 --> 00:30:35,220 줄은. "감각을 만든다? 601 00:30:35,220 --> 00:30:38,900 그래서 이것으로, 각 줄을 데려 갈거야 경우,이 문자열과 다음 602 00:30:38,900 --> 00:30:44,540 문자열 그래서 난 어떤 라인의 각 어떻게가는 I가에 갈거야, 첫 번째입니다 603 00:30:44,540 --> 00:30:49,150 목록에이 줄을 분할 공백으로 구분 된 단어. 604 00:30:49,150 --> 00:30:53,730 >> 그래서 파이썬에 대한 좋은 점은 것입니다 당신은 구글과 같은 "어떻게 수 I 605 00:30:53,730 --> 00:30:58,220 단어로 문자열을 분할? "등의 정보가 어떻게하는지 방법을 알려주는 것. 606 00:30:58,220 --> 00:31:04,890 그리고 그것을 할 수있는 방법은, 그냥 "라인의 = line.split () "그리고 그것은 기본적으로의 607 00:31:04,890 --> 00:31:08,640 당신과 목록을 제공하는 것 여기에 각각의 단어. 608 00:31:08,640 --> 00:31:09,620 의미가? 609 00:31:09,620 --> 00:31:15,870 그래서 지금 내가 알고 싶은 것을했다는 것을 그 노래의 가수는 누구인가. 610 00:31:15,870 --> 00:31:20,130 그리고 난 그냥 얻을 것을해야 할 일 배열의 첫 번째 요소, 오른쪽? 611 00:31:20,130 --> 00:31:26,390 그래서 난 그냥 말할 수있는 I "가수 = 선 (0) "감각을 만든다? 612 00:31:26,390 --> 00:31:32,010 >> 그리고 내가해야 할 것은 첫 번째의,이다 모두, 내가 업데이트 할거야 얼마나 많은 613 00:31:32,010 --> 00:31:36,130 말은 내가 아래에있다 "가가." 그래서 난 그냥 계산하려고 얼마나 많은 단어를 I 614 00:31:36,130 --> 00:31:38,690 바로,이 목록에 있습니까? 615 00:31:38,690 --> 00:31:41,910 이것은 내가 얼마나 많은 단어 때문에 가사와 나는 단지에 갈거야 616 00:31:41,910 --> 00:31:44,120 "가가"배열에 추가합니다. 617 00:31:44,120 --> 00:31:47,090 그 의미가 있습니까? 618 00:31:47,090 --> 00:31:49,010 구문에 너무 많은 초점을하지 마십시오. 619 00:31:49,010 --> 00:31:50,430 개념에 대한 자세한 생각합니다. 620 00:31:50,430 --> 00:31:52,400 즉, 가장 중요한 부분입니다. 621 00:31:52,400 --> 00:31:52,720 OK. 622 00:31:52,720 --> 00:32:00,260 >> "가가가"경우 그래서 내가 할 수있는 것은 이미 목록에있는, 그래서 "가수의 경우 623 00:32:00,260 --> 00:32:03,190 단어 "하는 것을 의미 나는 이미 가가하여 단​​어가있다. 624 00:32:03,190 --> 00:32:06,640 난 그냥 추가를 추가 할 그 단어에. 625 00:32:06,640 --> 00:32:15,810 그래서 내가 할 것은 '단어 (가수)입니다 + = LEN (선) - 1 ". 626 00:32:15,810 --> 00:32:18,250 그리고 난 그냥 할 수있는 줄의 길이. 627 00:32:18,250 --> 00:32:21,860 그래서 얼마나 많은 요소 I 배열에있다. 628 00:32:21,860 --> 00:32:27,060 그리고 내가해야 할 일을 뺀 때문 만 배열의 최초의 요소는 단지입니다 629 00:32:27,060 --> 00:32:29,180 가수들은 가사 없습니다. 630 00:32:29,180 --> 00:32:31,420 의미가? 631 00:32:31,420 --> 00:32:32,780 OK. 632 00:32:32,780 --> 00:32:35,820 >> "그렇지,"내가 원하는 것을 의미 실제로 목록에 가가를 삽입합니다. 633 00:32:35,820 --> 00:32:45,990 그래서 난 그냥 단어 (가수) "할 = LEN (선) - 1, "죄송합니다. 634 00:32:45,990 --> 00:32:49,200 그래서 둘 사이의 유일한 차이점 라인이 하나, 그렇지 않을 것입니다 635 00:32:49,200 --> 00:32:51,080 아직 존재, 그래서 난 그냥 를 초기화. 636 00:32:51,080 --> 00:32:53,820 이 하나의 사실은 추가 해요. 637 00:32:53,820 --> 00:32:55,570 OK. 638 00:32:55,570 --> 00:32:59,480 그래서이 단어를 추가했다. 639 00:32:59,480 --> 00:33:03,040 >> 지금은 전과에 추가 할. 640 00:33:03,040 --> 00:33:05,480 그래서 어떻게 전과을 계산합니까? 641 00:33:05,480 --> 00:33:11,580 전과가 계산 될 수있다 얼마나 많은 배. 642 00:33:11,580 --> 00:33:15,340 당신은 그 가수를 참조 그래서 몇 번 당신이 가수의 모든 중 643 00:33:15,340 --> 00:33:16,380 오른쪽이? 644 00:33:16,380 --> 00:33:18,810 가가와 케이티 페리에 대한 그래서 이 경우는 가가 참조 645 00:33:18,810 --> 00:33:20,570 한 번, 케이티 페리 번. 646 00:33:20,570 --> 00:33:23,320 >> 가가에 대한 그래서 기본적으로 전과 와 케이티 페리 (Katy Perry)에 대한 것 647 00:33:23,320 --> 00:33:24,390 바로, 하나? 648 00:33:24,390 --> 00:33:26,500 당신은 얼마나 많은 시간 나는 예술가를 참조하십시오. 649 00:33:26,500 --> 00:33:28,740 그래서이 계산하는 것은 매우 쉽습니다. 650 00:33:28,740 --> 00:33:34,100 나는 유사 뭔가처럼 "마치 전과의 가수는, "난 그냥 갈거야 651 00:33:34,100 --> 00:33:38,970 자신의 전과 상자에 1을 추가합니다. 652 00:33:38,970 --> 00:33:51,000 "그래서,"다음과 ""전과 (노래) "+ = 1 다른 나는 "전과 (가수) 할거야 653 00:33:51,000 --> 00:33:55,000 = 1. "감각을 만든다? 654 00:33:55,000 --> 00:34:00,080 >> 그래서이 존재하지 않을 경우, 난 그냥 넣어 1로, 그렇지 않으면 그냥 1을 추가합니다. 655 00:34:00,080 --> 00:34:11,280 좋아, 그럼 이제 어떻게해야 남아있는 그 도에 각각의 단어를 추가한다 656 00:34:11,280 --> 00:34:12,290 확률. 657 00:34:12,290 --> 00:34:14,889 그래서 내가 계산해야하는 횟수를 나는 각각의 단어를 참조하십시오. 658 00:34:14,889 --> 00:34:18,780 그래서 또 다른 작업을 수행해야 라인 루프. 659 00:34:18,780 --> 00:34:25,190 >> 내가 할거야 그래서 일단은 가수가 이미있는 경우 확인 660 00:34:25,190 --> 00:34:26,969 확률의 배열입니다. 661 00:34:26,969 --> 00:34:31,739 가수가없는 경우 그래서 알아보고 있어요 확률의 배열을 가지고, 난 그냥 662 00:34:31,739 --> 00:34:34,480 그 하나를 초기화하는 것. 663 00:34:34,480 --> 00:34:36,400 그것은 심지어 배열이 아니다, 죄송합니다, 그것은 사전입니다. 664 00:34:36,400 --> 00:34:43,080 그래서 가수의 가능성은 것입니다 오픈 사전으로, 그래서 난 665 00:34:43,080 --> 00:34:45,830 단지에 대한 사전을 초기화. 666 00:34:45,830 --> 00:34:46,820 OK? 667 00:34:46,820 --> 00:34:58,330 >> 지금은 실제로 루프를 수행 할 수 있습니다 각각의 단어 '를 계산하는 668 00:34:58,330 --> 00:35:00,604 확률. 669 00:35:00,604 --> 00:35:01,540 OK. 670 00:35:01,540 --> 00:35:04,160 그래서 내가 할 수있는 것은 루프입니다. 671 00:35:04,160 --> 00:35:06,590 그래서 난 그냥 반복하는거야 배열에 대해. 672 00:35:06,590 --> 00:35:15,320 내가 파이썬에서 그렇게 할 수 있도록하는 방법 "범위의 난에 대해"입니다. 1 673 00:35:15,320 --> 00:35:19,200 나는 초에 시작할 때문에 첫 번째 요소 인 때문 674 00:35:19,200 --> 00:35:20,260 가수 이름입니다. 675 00:35:20,260 --> 00:35:24,990 그래서 하나에서까지 줄의 길이. 676 00:35:24,990 --> 00:35:29,760 그리고이 범위 않을 때 실제로에서 이동 여기에 같은 1의 렌에 677 00:35:29,760 --> 00:35:30,740 라인 - 1. 678 00:35:30,740 --> 00:35:33,810 그래서 이미 일의 일을 매우입니다 배열에 대한 N - 1 679 00:35:33,810 --> 00:35:35,500 편리합니다. 680 00:35:35,500 --> 00:35:37,850 의미가? 681 00:35:37,850 --> 00:35:42,770 >> 그래서 이들 각각에 대해, 나는 무엇에 갈거야 할, 그냥 다른 하나처럼입니다 682 00:35:42,770 --> 00:35:50,320 내가 확인하는거야 경우이 단어 라인의 위치는 이미 683 00:35:50,320 --> 00:35:51,570 확률. 684 00:35:51,570 --> 00:35:53,400 685 00:35:53,400 --> 00:35:57,260 그리고 나는 확률은, 여기에 말했듯이 단어처럼 나는 넣어 686 00:35:57,260 --> 00:35:58,400 "확률 (가수)". 687 00:35:58,400 --> 00:35:59,390 그래서 가수의 이름. 688 00:35:59,390 --> 00:36:03,450 그래서 이미 있다면 "probabilit (가수)", 그것은 즉, I 689 00:36:03,450 --> 00:36:11,960 그것은 1을 추가 할, 그래서 난에 갈거야 "확률 (가수)"등을 수행 690 00:36:11,960 --> 00:36:14,100 단어는 "라인 (I)"라고합니다. 691 00:36:14,100 --> 00:36:22,630 나는 1을 추가하는거야하고 ​​"또"난 그냥 1로 초기화하는 것. 692 00:36:22,630 --> 00:36:23,880 "선 (I)". 693 00:36:23,880 --> 00:36:26,920 694 00:36:26,920 --> 00:36:28,420 의미가? 695 00:36:28,420 --> 00:36:30,180 >> 그래서, 배열을 모두 계산. 696 00:36:30,180 --> 00:36:36,580 그래서, 이제 난에해야 할 것을 이 하나는 그냥 ", 전과를 반환한다 697 00:36:36,580 --> 00:36:43,230 확률과 단어. "하자 OK, 어떤이 있는지 확인합니다. 698 00:36:43,230 --> 00:36:45,690 그것은 모든 것을 지금까지 일 것 같다. 699 00:36:45,690 --> 00:36:46,900 그래서, 그 의미가 무엇입니까? 700 00:36:46,900 --> 00:36:47,750 어떤 방법으로? 701 00:36:47,750 --> 00:36:49,280 OK. 702 00:36:49,280 --> 00:36:51,980 그래서 지금은 모든 가능성이 있습니다. 703 00:36:51,980 --> 00:36:55,100 그래서 지금 남아있는 유일한 단지 그 일을하는 것입니다 704 00:36:55,100 --> 00:36:58,650 모두의 제품을 계산 내가 가사를받을 때 확률. 705 00:36:58,650 --> 00:37:06,270 >> 그럼 지금 통화 할 가정 해 봅시다 이 함수 ") (분류"및 706 00:37:06,270 --> 00:37:08,880 것은 그 기능을합니다 다만 인수입니다. 707 00:37:08,880 --> 00:37:13,170 의는 "아기, 나는 불입니다"라고하자 그의 무엇인지 파악하는 것 708 00:37:13,170 --> 00:37:14,490 이것은 가가 것을 확률? 709 00:37:14,490 --> 00:37:16,405 확률은 무엇입니까 이 케이티이라고? 710 00:37:16,405 --> 00:37:19,690 좋은 소리? 711 00:37:19,690 --> 00:37:25,750 그래서 난 그냥 만들어야 할거야 라는 새로운 기능 ") (분류"와 712 00:37:25,750 --> 00:37:29,180 그것은 몇 가지를 취할 것 가사뿐만 아니라. 713 00:37:29,180 --> 00:37:31,790 714 00:37:31,790 --> 00:37:36,160 그리고 가사 외에 I도 전과를 보낼 수있다, 715 00:37:36,160 --> 00:37:37,700 확률과 단어. 716 00:37:37,700 --> 00:37:44,000 그래서 가사, 전과를 보낼거야, 확률, 즉. 717 00:37:44,000 --> 00:37:51,840 >> 그래서이 가사, 전과를하고있다, 확률, 즉. 718 00:37:51,840 --> 00:37:53,530 그래서, 그것은 무엇을 하는가? 719 00:37:53,530 --> 00:37:57,180 그것은 기본적으로 모두를 통해 갈 것입니다 가능한 후보 당신 720 00:37:57,180 --> 00:37:58,510 가수가 있습니다. 721 00:37:58,510 --> 00:37:59,425 어디 그 후보는? 722 00:37:59,425 --> 00:38:01,020 그들은 전과에 맞죠? 723 00:38:01,020 --> 00:38:02,710 그래서이 사람들의 모든있다. 724 00:38:02,710 --> 00:38:07,870 그래서 나는 사전을 가지고 갈거야 가능한 모든 후보. 725 00:38:07,870 --> 00:38:14,220 그리고 각 후보 전과, 그것이 것을 의미하므로 726 00:38:14,220 --> 00:38:17,740 내가 가진 경우 가가, 케이티 수 더는 더 될 것입니다. 727 00:38:17,740 --> 00:38:20,410 내가 계산을 시작하겠습니다 이 확률. 728 00:38:20,410 --> 00:38:28,310 우리가에서 본 바와 같이 확률 파워 포인트는 이전 배 729 00:38:28,310 --> 00:38:30,800 각각의 상품 다른 확률. 730 00:38:30,800 --> 00:38:32,520 >> 그래서 여기에 같은 작업을 수행 할 수 있습니다. 731 00:38:32,520 --> 00:38:36,330 그냥 확률이 할 수있는 당초 사전. 732 00:38:36,330 --> 00:38:40,340 후보 그래서 전과. 733 00:38:40,340 --> 00:38:40,870 오른쪽? 734 00:38:40,870 --> 00:38:45,360 그리고 지금은 모든 반복해야 내가되고 가사에이 단어 735 00:38:45,360 --> 00:38:48,820 확률을 추가 할 OK, 그들 각각에 대해? 736 00:38:48,820 --> 00:38:57,900 그래서, "가사의 단어를"내가 갈거야 단어가있는 경우 수행하는 것은입니다 737 00:38:57,900 --> 00:39:01,640 "확률 (후보)"하는 이 단어의 것을 의미 738 00:39:01,640 --> 00:39:03,640 후보는 가사에있다 - 739 00:39:03,640 --> 00:39:05,940 가가에 대한 예를 들어, "아기"- 740 00:39:05,940 --> 00:39:11,710 내가 할거야 것은 그 확률을 곱한 것입니다 741 00:39:11,710 --> 00:39:22,420 플러스 확률의 1로 그 단어에 대한 후보. 742 00:39:22,420 --> 00:39:25,710 그리고는 "단어"라고. 743 00:39:25,710 --> 00:39:32,440 이것은 단어 수로 나눈 그 후보가있다. 744 00:39:32,440 --> 00:39:37,450 내가 가진 단어의 총 수 나가보고 가수에 대한. 745 00:39:37,450 --> 00:39:40,290 >> "그렇지." 그것이 새로운 단어의 의미 그래서 예를 들어 같은 것 746 00:39:40,290 --> 00:39:41,860 레이디 가가에 대해 "화재". 747 00:39:41,860 --> 00:39:45,760 그래서 난에 1을하고 싶은 "단어 (후보)". 748 00:39:45,760 --> 00:39:47,710 따라서 저는이 용어를 넣어하지 않습니다. 749 00:39:47,710 --> 00:39:50,010 >> 그래서 기본적으로 될 것 복사 및 붙여 넣기이. 750 00:39:50,010 --> 00:39:54,380 751 00:39:54,380 --> 00:39:56,000 그러나 나는이 부분을 삭제하겠습니다. 752 00:39:56,000 --> 00:39:57,610 그래서 그냥 이상 1이 될 것. 753 00:39:57,610 --> 00:40:00,900 754 00:40:00,900 --> 00:40:02,150 좋은 소리? 755 00:40:02,150 --> 00:40:03,980 756 00:40:03,980 --> 00:40:09,700 그리고 지금 끝에, 그냥에 갈거야 후보의 이름을 인쇄 757 00:40:09,700 --> 00:40:15,750 당신이 가지는 가능성 그들의 가사에 S 데. 758 00:40:15,750 --> 00:40:16,200 의미가? 759 00:40:16,200 --> 00:40:18,390 그리고 사실조차 할 이 사전이 필요합니다. 760 00:40:18,390 --> 00:40:19,510 의미가? 761 00:40:19,510 --> 00:40:21,810 >> 그래서,이 실제로 작동하는지 보자. 762 00:40:21,810 --> 00:40:24,880 나는 이것을 실행한다면, 그것은 작동하지 않았다. 763 00:40:24,880 --> 00:40:26,130 1 초 기다립니다. 764 00:40:26,130 --> 00:40:28,870 765 00:40:28,870 --> 00:40:31,720 "워드 (후보자)", "워드 (후보자)" 그건 766 00:40:31,720 --> 00:40:33,750 배열의 이름입니다. 767 00:40:33,750 --> 00:40:41,435 OK 그래서, 몇 가지 버그가 있습니다 말한다 전과있는 후보. 768 00:40:41,435 --> 00:40:46,300 769 00:40:46,300 --> 00:40:48,760 내가 그냥 조금 진정하자. 770 00:40:48,760 --> 00:40:50,360 OK. 771 00:40:50,360 --> 00:40:51,305 의 시도하자. 772 00:40:51,305 --> 00:40:51,720 OK. 773 00:40:51,720 --> 00:40:58,710 >> 그래서 케이티 페리 (Katy Perry)이있다 제공 이 배 10의 확률 774 00:40:58,710 --> 00:41:02,200 마이너스 7 및 가가이있다 시간 마이너스 6 10. 775 00:41:02,200 --> 00:41:05,610 그래서 당신이 그것을 보여줍니다 보시려면 가가 높은 확률을 가지고 있습니다. 776 00:41:05,610 --> 00:41:09,260 그래서된다 "자기야, 내가 타고있어" 아마 가가의 노래. 777 00:41:09,260 --> 00:41:10,580 의미가? 778 00:41:10,580 --> 00:41:12,030 그래서 이것은 우리가했던 것입니다. 779 00:41:12,030 --> 00:41:16,010 >> 이 코드는 온라인에 게시 될 것입니다, 그래서 너희들은 그것을 확인할 수 있습니다. 780 00:41:16,010 --> 00:41:20,720 당신이 원한다면 아마도 그것을 중 일부를 사용 프로젝트 또는 유사한 작업을 수행합니다. 781 00:41:20,720 --> 00:41:22,150 OK. 782 00:41:22,150 --> 00:41:25,930 이것은 단지 표시했다 어떤 계산 783 00:41:25,930 --> 00:41:27,230 언어학 코드는 같습니다. 784 00:41:27,230 --> 00:41:33,040 하지만 지금은 좀 더 가자 높은 수준의 물건. 785 00:41:33,040 --> 00:41:33,340 OK. 786 00:41:33,340 --> 00:41:35,150 >> 그래서 다른 문제 I 에 대해 얘기했다 - 787 00:41:35,150 --> 00:41:37,550 분할 문제 그 중 첫 번째입니다. 788 00:41:37,550 --> 00:41:40,820 그래서 현재 일본어를한다. 789 00:41:40,820 --> 00:41:43,420 그리고 당신은 볼 공백이 없습니다. 790 00:41:43,420 --> 00:41:49,110 그래서 이것은 기본적으로는 것을 의미한다 의자의 위쪽, 오른쪽? 791 00:41:49,110 --> 00:41:50,550 당신은 일본어를? 792 00:41:50,550 --> 00:41:52,840 그것은 바로, 의자의 정상입니까? 793 00:41:52,840 --> 00:41:54,480 >> 학생 : 나도 몰라 무엇을 한자에있다. 794 00:41:54,480 --> 00:41:57,010 >> LUCAS 프레이 타스 : 그것은 [일본어를 말한다]이야 795 00:41:57,010 --> 00:41:57,950 OK. 796 00:41:57,950 --> 00:42:00,960 그래서 기본적으로 상단의 의자을 의미한다. 797 00:42:00,960 --> 00:42:03,620 당신은 공간을 넣어했다 그렇다면 그것은 여기에있을 것입니다. 798 00:42:03,620 --> 00:42:05,970 그리고 당신은 [이? 우에다 씨. ?] 799 00:42:05,970 --> 00:42:09,040 어느 기본적 씨 우에다는 것을 의미한다. 800 00:42:09,040 --> 00:42:13,180 그리고 당신은 "우에다"를 참조하십시오 당신은이 공간과 다음 "산." 그래서 당신은 볼 801 00:42:13,180 --> 00:42:15,470 여기에 "UE는"자체 같습니다. 802 00:42:15,470 --> 00:42:17,750 그리고 여기에는 문자가 그 옆에. 803 00:42:17,750 --> 00:42:21,720 >> 그래서 그 언어처럼되지 않습니다 단어 그것은 그래서 당신을 의미하는 문자 804 00:42:21,720 --> 00:42:23,980 단지 공간을 많이 넣어. 805 00:42:23,980 --> 00:42:25,500 문자는 서로 관련이있다. 806 00:42:25,500 --> 00:42:28,680 그리고 그들은 함께 할 수있다 같은 둘, 셋, 하나. 807 00:42:28,680 --> 00:42:34,520 그래서 당신은 실제로 어떤 종류를 만들 수있다 의 방법으로 그 공백을 넣어. 808 00:42:34,520 --> 00:42:38,850 >> 그리고이 물건은 당신이 얻을 때마다 아시아권 언어의 데이터, 809 00:42:38,850 --> 00:42:40,580 모든 비분 온다. 810 00:42:40,580 --> 00:42:45,940 때문에 일본어를 쓰는 아무도 없습니다 중국어 공백으로 씁니다. 811 00:42:45,940 --> 00:42:48,200 당신은 중국어를 작성할 때마다, 일본 당신은 모든 것을 쓰기 812 00:42:48,200 --> 00:42:48,710 공백없이. 813 00:42:48,710 --> 00:42:52,060 그것도 이해가되지 않습니다 공백을 넣어. 814 00:42:52,060 --> 00:42:57,960 그럼 당신은 어떤에서 데이터를 얻을 때 동아시아 언어, 당신이 원하는 경우 815 00:42:57,960 --> 00:43:00,760 실제로 뭔가를 당신은 첫 번째 세그먼트에있다. 816 00:43:00,760 --> 00:43:05,130 >> 예제의 일을 생각 공백없이 가사. 817 00:43:05,130 --> 00:43:07,950 그래서 당신이 가진 유일한 가사 바로, 문장이 될 것인가? 818 00:43:07,950 --> 00:43:09,470 마침표로 구분. 819 00:43:09,470 --> 00:43:13,930 하지만 그냥 문장을 갖는 것 정말 정보를 제공에 도움이되지 820 00:43:13,930 --> 00:43:17,760 의 그 가사로 누구. 821 00:43:17,760 --> 00:43:18,120 오른쪽? 822 00:43:18,120 --> 00:43:20,010 그래서 당신이해야 첫 번째 공백을 넣습니다. 823 00:43:20,010 --> 00:43:21,990 당신이이 어떻게 할 수 있습니까? 824 00:43:21,990 --> 00:43:24,920 >> 그럼 언어의 아이디어가 온다 정말 뭔가 모델 825 00:43:24,920 --> 00:43:26,870 계산을 위해 중요 언어학. 826 00:43:26,870 --> 00:43:32,790 그래서 언어 모델은 기본적 확률의 테이블을 보여줍니다 827 00:43:32,790 --> 00:43:36,260 확률 무엇보다도 먼저 의 언어로 말을하지? 828 00:43:36,260 --> 00:43:39,590 그래서 단어가 얼마나 자주 게재합니다. 829 00:43:39,590 --> 00:43:43,130 그리고 또한 관계를 나타낸 문장에서 단어 사이. 830 00:43:43,130 --> 00:43:51,500 >> 낯선 사람이 온 경우 그래서 주요 개념이며, 당신과 문장에 말에 831 00:43:51,500 --> 00:43:55,600 당신, 확률은, 무엇이다 예는, "이것은 나의 자매입니다 [? GTF"?] 832 00:43:55,600 --> 00:43:57,480 그 사람이 말한 문장이었다? 833 00:43:57,480 --> 00:44:00,380 그래서 분명히 몇 가지 문장은 다른 사람보다 더 많이. 834 00:44:00,380 --> 00:44:04,450 예를 들어, "안녕하세요"또는 "좋음 밤, "또는"이 봐, "훨씬 더 835 00:44:04,450 --> 00:44:08,260 대부분의 문장보다 일반적인 우리는 영어를 가지고있다. 836 00:44:08,260 --> 00:44:11,060 그럼 왜 그 문장은 더 자주? 837 00:44:11,060 --> 00:44:14,060 >> 당신이 있기 때문에 우선, 그것은의 더 자주 단어. 838 00:44:14,060 --> 00:44:20,180 당신이 말하는 경우에 따라서, 예를 들어, 개는 큰, 그리고 개는 당신은 거대한입니다 839 00:44:20,180 --> 00:44:23,880 보통 아마 강아지가 큰 소리 "큰"는 더 자주하기 때문에 840 00:44:23,880 --> 00:44:27,260 "거대한."보다 영어 자주 그렇게 하나 841 00:44:27,260 --> 00:44:30,100 가지 단어 주파수이다. 842 00:44:30,100 --> 00:44:34,490 >> 정말 두 번째 것은 중요한 것은 단지 843 00:44:34,490 --> 00:44:35,490 단어의 순서. 844 00:44:35,490 --> 00:44:39,500 그래서, "고양이가 말을하는 것이 일반적이다 . 상자 안에 "하지만하지 보통 845 00:44:39,500 --> 00:44:44,250 에서 참조하십시오 "상자는 내부의 고양이입니다." 그래서 당신은 어떤 중요성이 있는지 확인 846 00:44:44,250 --> 00:44:46,030 단어의 순서. 847 00:44:46,030 --> 00:44:50,160 당신은 말할 수없는 두 문장은 동일한 확률을 가지고 848 00:44:50,160 --> 00:44:53,010 그들은 같은 말을해서. 849 00:44:53,010 --> 00:44:55,550 당신은 실제로 걱정해야 주문에 대한뿐만 아니라. 850 00:44:55,550 --> 00:44:57,650 이해가가? 851 00:44:57,650 --> 00:44:59,490 >> 그래서 우리는 무엇을해야합니까? 852 00:44:59,490 --> 00:45:01,550 그래서 난 당신을 얻기 위해 시도 할 수 있습니다? 853 00:45:01,550 --> 00:45:04,400 나는 당신이 우리 얻으려고 N-그램 모델을 호출합니다. 854 00:45:04,400 --> 00:45:09,095 따라서, N-그램 모델은 기본적으로 가정 각 단어에 대한 그 855 00:45:09,095 --> 00:45:10,960 당신은 문장이 있습니다. 856 00:45:10,960 --> 00:45:15,020 그것은 발생의 확률의 그 단어뿐만 아니라 거기에 따라 달라집니다 857 00:45:15,020 --> 00:45:18,395 언어로 그 단어의 빈도, 뿐만 아니라 단어를 그 858 00:45:18,395 --> 00:45:19,860 그것을 둘러싸고있다. 859 00:45:19,860 --> 00:45:25,810 >> 그래서 예를 들면, 일반적으로 볼 때 또는 당신이있어에서 같은 860 00:45:25,810 --> 00:45:28,040 아마 볼 것 그 뒤에 명사, 오른쪽? 861 00:45:28,040 --> 00:45:31,750 때문에 당신은 전치사가있는 경우 보통은 그 뒤에 명사를 사용합니다. 862 00:45:31,750 --> 00:45:35,540 아니면 이적하는 동사가있는 경우 당신은 일반적으로 가고있다 863 00:45:35,540 --> 00:45:36,630 명사구가있다. 864 00:45:36,630 --> 00:45:38,780 그래서 명사를 것 주위 어딘가에. 865 00:45:38,780 --> 00:45:44,950 >> 그래서, 기본적으로, 이것이하는 것은 그것이 가질 확률을 고려 866 00:45:44,950 --> 00:45:47,960 즉 서로 옆에, 언제 당신이 계산하고있는 867 00:45:47,960 --> 00:45:49,050 문장의 확률. 868 00:45:49,050 --> 00:45:50,960 그리고 그 어떤 언어 인데요, 모델은 기본적으로. 869 00:45:50,960 --> 00:45:54,620 그냥 확률 무슨 말을 특정 데 870 00:45:54,620 --> 00:45:57,120 언어의 문장? 871 00:45:57,120 --> 00:45:59,110 그래서 그 이유는 기본적으로 유용 했습니까? 872 00:45:59,110 --> 00:46:02,390 그리고 모두의 첫 번째 것입니다 N-그램 모델 후? 873 00:46:02,390 --> 00:46:08,850 >> 따라서, N-그램 모델은 의미 각 단어에 따라 달라집니다 874 00:46:08,850 --> 00:46:12,700 다음 N 1을 뺀 단어. 875 00:46:12,700 --> 00:46:18,150 그래서, 기본적으로, 그것은, 내가 보면 있음을 의미 예를 들어 CS50의 TF에서 때에 876 00:46:18,150 --> 00:46:21,500 나는 확률을 계산 해요 문장은, 당신처럼 될 것 " 877 00:46:21,500 --> 00:46:25,280 단어 ""를 갖는 확률 데 시간 확률 " 878 00:46:25,280 --> 00:46:31,720 데 CS50 "배 확률 "CS50의 TF." 그래서, 기본적으로, 내가 계산 879 00:46:31,720 --> 00:46:35,720 그것을 스트레칭의 가능한 모든 방법. 880 00:46:35,720 --> 00:46:41,870 >> 그리고 일반적으로 당신은이 작업을 수행 할 때 프로젝트에서, 당신은 수 N을 넣어 881 00:46:41,870 --> 00:46:42,600 낮은 값. 882 00:46:42,600 --> 00:46:45,930 따라서, 보통 bigrams 또는 괘가있다. 883 00:46:45,930 --> 00:46:51,090 당신은 단지 두 단어를 계산하도록 두 단어 또는 세 단어의 그룹, 884 00:46:51,090 --> 00:46:52,620 단지 성능 문제에 대한. 885 00:46:52,620 --> 00:46:56,395 또한 있기 때문에 어쩌면 당신이 가지고있는 경우 같은 "CS50의 TF." 때 886 00:46:56,395 --> 00:47:00,510 이 "TF를,"매우 중요하다고 "CS50은"바로 그 옆에? 887 00:47:00,510 --> 00:47:04,050 그 두 가지가 일반적이다 서로 옆에. 888 00:47:04,050 --> 00:47:06,410 >> 당신이 생각한다면 "TF"그것은 아마 가지고가는 것을 889 00:47:06,410 --> 00:47:07,890 그것을 위해 TF'ing의 클래스. 890 00:47:07,890 --> 00:47:11,330 또한 "는"정말 중요한 것입니다 CS50의 TF를위한. 891 00:47:11,330 --> 00:47:14,570 하지만 당신은 "CS50 같은 것이있는 경우 TF는 클래스에 가서 준 자신의 892 00:47:14,570 --> 00:47:20,060 학생들이 어떤 사탕입니다. ""캔디 "와" " 바로, 정말 아무 관계가없는? 893 00:47:20,060 --> 00:47:23,670 그들은 서로 너무 멀리 떨어져있어 그 정말 무엇을 중요하지 않습니다 894 00:47:23,670 --> 00:47:25,050 단어가있다. 895 00:47:25,050 --> 00:47:31,210 >> 그래서 bigram 또는 트라이 그램을 수행하여, 그 당신이 제한하는 것을 의미한다 896 00:47:31,210 --> 00:47:33,430 자신을 어떤 단어로 주위에있다. 897 00:47:33,430 --> 00:47:35,810 이해가가? 898 00:47:35,810 --> 00:47:40,630 그래서 당신은 분할을 수행 할 때, 기본적으로, 당신이 원하는 것은 볼 수 있습니다 899 00:47:40,630 --> 00:47:44,850 모든 방법은 무엇입니까 그 당신은 세그먼트 문장을 할 수 있습니다. 900 00:47:44,850 --> 00:47:49,090 >> 당신은 무엇을 볼 수 있도록 그 문장의 각각의 확률 901 00:47:49,090 --> 00:47:50,880 언어에 존재? 902 00:47:50,880 --> 00:47:53,410 그래서 당신이 할 일은 같은, 잘 할 수 있습니다 나 여기에 공간을 넣어보십시오. 903 00:47:53,410 --> 00:47:55,570 그래서 당신은이 공간을 넣어 당신은 무엇을보고 904 00:47:55,570 --> 00:47:57,590 그 문장의 확률? 905 00:47:57,590 --> 00:48:00,240 그런 다음 OK처럼, 어쩌면 있습니다 그는 좋지 않았다. 906 00:48:00,240 --> 00:48:03,420 그래서 공간이 거기에 공백을 넣어 거기, 당신은 계산 907 00:48:03,420 --> 00:48:06,240 확률 지금, 당신은 볼 그것은 높은 확률이다. 908 00:48:06,240 --> 00:48:12,160 >> 그래서이 탱고라는 알고리즘이다 분할 알고리즘, 어느입니다 909 00:48:12,160 --> 00:48:14,990 실제로 정말 수있는 작품 프로젝트에 대한 차가운하는 910 00:48:14,990 --> 00:48:20,860 기본적으로 비분 텍스트를 취하는 일본어 또는 중국어 또는 어쩌면이 될 수 있습니다 911 00:48:20,860 --> 00:48:26,080 영어 공백없이 배치하려고 시도 말과 용도 사이에 공백 912 00:48:26,080 --> 00:48:29,120 해당 언어 모델을 사용하여 바이 가장 높은 것을 볼려고 913 00:48:29,120 --> 00:48:31,270 당신이 얻을 수있는 확률. 914 00:48:31,270 --> 00:48:32,230 OK. 915 00:48:32,230 --> 00:48:33,800 그래서이 분할이다. 916 00:48:33,800 --> 00:48:35,450 >> 이제 구문. 917 00:48:35,450 --> 00:48:40,940 그래서, 구문에 사용되는 지금은 너무 많은 것들을. 918 00:48:40,940 --> 00:48:44,880 그래프 검색, 시리에 대한 위해 이렇게 자연의 거의 모든 종류의 919 00:48:44,880 --> 00:48:46,490 언어 처리가 있습니다. 920 00:48:46,490 --> 00:48:49,140 그래서 중요한 무엇인가 구문에 대한 것들? 921 00:48:49,140 --> 00:48:52,390 따라서, 일반적으로 문장이 우리는 성분을 부르는. 922 00:48:52,390 --> 00:48:57,080 어떤 종류의 단어의 그룹처럼 문장의 기능을 가지고있다. 923 00:48:57,080 --> 00:49:02,220 그리고 그들은 정말 할 수 없습니다 서로 이격. 924 00:49:02,220 --> 00:49:07,380 >> 내가 말한다면, 예를 들어, "로렌 사랑 밀로. 로렌이 ""나는 알고 " 925 00:49:07,380 --> 00:49:10,180 구성 후 "사랑 마일로는 "또 다른 하나입니다. 926 00:49:10,180 --> 00:49:16,860 당신은 "로렌 마일로 같은 말을 할 수 없기 때문에 같은 의미를 가지고 "사랑합니다. 927 00:49:16,860 --> 00:49:18,020 그것은이 없을거야 동일한 의미. 928 00:49:18,020 --> 00:49:22,500 아니면 "마일로 로렌과 같이 말할 수 없다 사랑합니다. "모든 것이 동일한가 929 00:49:22,500 --> 00:49:25,890 그 일을 의미한다. 930 00:49:25,890 --> 00:49:31,940 >> 에 대한 그래서 두 가지 더 중요한 일 문법은 어휘 유형입니다 931 00:49:31,940 --> 00:49:35,390 기본적으로 기능 당신 스스로 단어가 있습니다. 932 00:49:35,390 --> 00:49:39,180 그래서 당신은 알고 있어야하는 "로렌" 그리고 "마일로는"명사입니다. 933 00:49:39,180 --> 00:49:41,040 "사랑"은 동사입니다. 934 00:49:41,040 --> 00:49:45,660 그리고 두 번째로 중요한 것입니다 그들은 phrasal 유형 걸. 935 00:49:45,660 --> 00:49:48,990 그래서 당신은 "밀로 사랑"알고 실제로 언어 적 표현이다. 936 00:49:48,990 --> 00:49:52,390 내가 말할 때 그래서 "로렌은,"나는 알고 로렌은 뭔가를하고있다. 937 00:49:52,390 --> 00:49:53,620 그녀는 무엇을하고 있습니까? 938 00:49:53,620 --> 00:49:54,570 그녀는 마일로을 사랑하는거야. 939 00:49:54,570 --> 00:49:56,440 그래서 모든 일입니다. 940 00:49:56,440 --> 00:50:01,640 그러나 그 구성 요소는 명사와 동사. 941 00:50:01,640 --> 00:50:04,210 그러나 함께, 그들은 동사 구문을 확인합니다. 942 00:50:04,210 --> 00:50:08,680 >> 그래서, 우리는 실제로 무엇을 할 수 전산 언어학? 943 00:50:08,680 --> 00:50:13,810 그래서, 예를 들어 무언가가있는 경우 "앨리슨의 친구." 내가 볼 경우 그냥 944 00:50:13,810 --> 00:50:17,440 구문 트리 나는 알 것 않았다 "친구"입니다 명사구입니다 945 00:50:17,440 --> 00:50:21,480 "앨리슨의"다음 명사와는입니다 "의"의 전치사구입니다 946 00:50:21,480 --> 00:50:24,810 명제와 "앨리슨"명사입니다. 947 00:50:24,810 --> 00:50:30,910 내가 할 수있는 것은 컴퓨터를 가르치고있다 그 나는 명사구 한이 때 948 00:50:30,910 --> 00:50:33,080 다음 전치사구. 949 00:50:33,080 --> 00:50:39,020 의 "다음이 경우,"친구 "지금과 마일로는 "나는 이것이 의미하는 것을 알고 950 00:50:39,020 --> 00:50:43,110 NP2, 두 번째는, NP1을 소유한다. 951 00:50:43,110 --> 00:50:47,680 >> 그래서 관계의 어떤 종류를 만들 수 있습니다, 그것을위한 기능의 일종. 952 00:50:47,680 --> 00:50:52,370 그래서이 구조를 볼 때마다, 어떤 의 친구 "와 정확히 일치 953 00:50:52,370 --> 00:50:56,030 앨리슨은 "내가 알고있는 앨리슨 친구를 보유하고있다. 954 00:50:56,030 --> 00:50:58,830 그래서 친구는 무언가 앨리슨이 있는지 확인합니다. 955 00:50:58,830 --> 00:50:59,610 의미가? 956 00:50:59,610 --> 00:51:01,770 그래서 이것은 기본적으로 무엇인가 그래프 검색을 수행합니다. 957 00:51:01,770 --> 00:51:04,360 그냥 규칙을 만듭니다 많은 것들에 대한. 958 00:51:04,360 --> 00:51:08,190 그래서 "앨리슨의 친구", "내 친구 ""케임브리지, 내 친구를 사는 사람들 959 00:51:08,190 --> 00:51:12,970 하버드에 갈 사람. "그것은 규칙을 생성 그 모든 것들에 대한. 960 00:51:12,970 --> 00:51:14,930 >> 이제 기계 번역. 961 00:51:14,930 --> 00:51:18,850 따라서 기계 번역도 있습니다 통계 뭔가. 962 00:51:18,850 --> 00:51:21,340 그리고 실제로 당신은에 참여하는 경우 전산 언어학, 많은 963 00:51:21,340 --> 00:51:23,580 당신의 재료는 통계가 될 것입니다. 964 00:51:23,580 --> 00:51:26,670 내가 가진 예를하고 그래서 같이 I이었다 확률​​이 많이 965 00:51:26,670 --> 00:51:30,540 계산 한 다음이 얻을 최종의 매우 적은 수의 966 00:51:30,540 --> 00:51:33,180 확률, 그리고 그 무엇 당신에게 해답을 제공합니다. 967 00:51:33,180 --> 00:51:37,540 기계 번역 또한 사용 통계 모델. 968 00:51:37,540 --> 00:51:44,790 그리고 당신은 기계를 생각하려면 가장 간단한에서 번역 969 00:51:44,790 --> 00:51:48,970 방법은, 당신이 생각할 수있는 것은 단지입니다 오른쪽 단어 단어를 번역? 970 00:51:48,970 --> 00:51:52,150 >> 당신의 언어를 학습 할 때 처음, 즉 일반적으로 무엇을 971 00:51:52,150 --> 00:51:52,910 당신이 바로, 무엇입니까? 972 00:51:52,910 --> 00:51:57,050 당신이 원하는 경우에 당신은 문장을 번역 언어 언어로 973 00:51:57,050 --> 00:52:00,060 당신은 일반적으로 먼저 배우고 각각의 단어를 번역 974 00:52:00,060 --> 00:52:03,180 개별적으로, 그리고 당신은 시도 제자리에 단어를 넣어. 975 00:52:03,180 --> 00:52:07,100 >> 나는이 번역을하고 싶어 그렇다면 [SPEAKING 포르투갈어] 976 00:52:07,100 --> 00:52:10,430 "흰 고양이가 도망 갔다."의미 나는에서 번역을하고 싶었다면 977 00:52:10,430 --> 00:52:13,650 영어, 포르투갈어, 내가 할 수있는 난 그냥 처음이다 978 00:52:13,650 --> 00:52:14,800 단어 단어를 번역. 979 00:52:14,800 --> 00:52:20,570 그래서 "O" "," "가토", "고양이"입니다 "브랑코", "화이트"를 선택한 다음 "fugio는" 980 00:52:20,570 --> 00:52:21,650 "도망." 981 00:52:21,650 --> 00:52:26,130 >> 그럼 내가 여기에 모든 단어가 하지만 그들은 위해 아니에요. 982 00:52:26,130 --> 00:52:29,590 "고양이 흰색 도망"같아 이는 비문 법적이다. 983 00:52:29,590 --> 00:52:34,490 그래서, 나는 두 번째 단계를 가질 수있는 이상을 발견 할 것입니다 984 00:52:34,490 --> 00:52:36,610 각각의 단어에 대한 위치. 985 00:52:36,610 --> 00:52:40,240 그래서 내가 실제로 가지고 싶은 것을 알고 대신 "흰 고양이" "고양이 흰색." 그래서 986 00:52:40,240 --> 00:52:46,050 내가 할 수있는 것은 가장 치졸한 방법에게 있습니다 생성 할 수있는 모든 987 00:52:46,050 --> 00:52:49,720 의 가능한 순열 위치의 단어. 988 00:52:49,720 --> 00:52:53,300 그리고 그 사람이 가지고있는 참조 가장 높은 확률에 따라 989 00:52:53,300 --> 00:52:54,970 내 언어 모델. 990 00:52:54,970 --> 00:52:58,390 그리고 나는이 하나를 찾을 때 가장 높은 확률 그것, 991 00:52:58,390 --> 00:53:01,910 아마 "흰 고양이는 도망" 그건 내 번역입니다. 992 00:53:01,910 --> 00:53:06,710 >> 그리고이 설명하는 간단한 방법입니다 어떻게 기계 번역 많은 993 00:53:06,710 --> 00:53:07,910 알고리즘이 작동합니다. 994 00:53:07,910 --> 00:53:08,920 그 의미가 있습니까? 995 00:53:08,920 --> 00:53:12,735 이것은 또한 정말 흥미로운 일이다 너희들은 어쩌면 탐사 할 수있는 996 00:53:12,735 --> 00:53:13,901 최종 프로젝트, 그래? 997 00:53:13,901 --> 00:53:15,549 >> 학생 : 음, 당신은 그것을했다 순진 방법은, 그래서 무엇을 998 00:53:15,549 --> 00:53:17,200 비 순진 방법은? 999 00:53:17,200 --> 00:53:18,400 >> LUCAS 프레이 타스 : 비 순진 방법은? 1000 00:53:18,400 --> 00:53:19,050 OK. 1001 00:53:19,050 --> 00:53:22,860 에 대한 나쁜 그래서 우선 이 방법은 그냥 번역입니다 1002 00:53:22,860 --> 00:53:24,330 단어, 단어 단위. 1003 00:53:24,330 --> 00:53:30,570 그러나 때때로 당신은 단어가 그 여러 번역을 할 수 있습니다. 1004 00:53:30,570 --> 00:53:32,210 내가 생각하려고거야 뭔가. 1005 00:53:32,210 --> 00:53:37,270 포르투갈어 수에서 예를 들어, "만화" 수 "난도질"또는 "소매."하나 그래서 1006 00:53:37,270 --> 00:53:40,450 당신이 단어를 번역하려고 할 때 단어, 그것은 당신에게 제공 될 수 있습니다 1007 00:53:40,450 --> 00:53:42,050 아무 의미도없는 것이. 1008 00:53:42,050 --> 00:53:45,770 >> 전혀보고 그래서 당신은 실제로 원하는 의 가능한 번역 1009 00:53:45,770 --> 00:53:49,840 단어와 볼, 우선, 순서는 것입니다. 1010 00:53:49,840 --> 00:53:52,000 우리는 permutating에 대해 얘기했다 일? 1011 00:53:52,000 --> 00:53:54,150 가능한 모든 순서를보고합니다 최고와 하나를 선택 1012 00:53:54,150 --> 00:53:54,990 확률? 1013 00:53:54,990 --> 00:53:57,860 또한 가능한 모든 선택할 수 있습니다 각 번역 1014 00:53:57,860 --> 00:54:00,510 다음 단어는 참조 - 1015 00:54:00,510 --> 00:54:01,950 순열과 조합 - 1016 00:54:01,950 --> 00:54:03,710 어느 하나가 가장 높은 확률을 가지고 있습니다. 1017 00:54:03,710 --> 00:54:08,590 >> 게다가, 당신은 또한 없습니다 볼 수 있습니다 단어 만하지만 구. 1018 00:54:08,590 --> 00:54:11,700 그래서 당신은 사이의 관계를 분석 할 수 있습니다 단어와 다음 얻을 1019 00:54:11,700 --> 00:54:13,210 더 나은 번역. 1020 00:54:13,210 --> 00:54:16,690 또한 다른 것을, 그래서 이번 학기 실제로 연구를하고 있어요 1021 00:54:16,690 --> 00:54:19,430 중국어 - 영어 기계 번역, 그래서에서 번역 1022 00:54:19,430 --> 00:54:20,940 영어로 중국어. 1023 00:54:20,940 --> 00:54:26,760 >> 그리고 우리가 할 일이 사용하는 외에,이다 그냥하는 통계 모델, 1024 00:54:26,760 --> 00:54:30,570 보고의 가능성을보고 문장에서 어떤 위치, 난 1025 00:54:30,570 --> 00:54:35,360 또한 실제로 일부 구문을 추가하는 내 나는이 종류를 보면 모델, 오, 말 1026 00:54:35,360 --> 00:54:39,420 건축, 내가 원하는 무엇 내가 번역을 할 때 그것을 변경할 수 있습니다. 1027 00:54:39,420 --> 00:54:43,880 그래서 당신은 어떤 종류를 추가 할 수 있습니다 만드는 구문 요소 1028 00:54:43,880 --> 00:54:47,970 번역 더 효율적 더 정확한. 1029 00:54:47,970 --> 00:54:48,550 OK. 1030 00:54:48,550 --> 00:54:51,010 >> 당신이 원한다면 당신은 어떻게 시작할 수 계산에 뭔가를 할 수 있습니다 1031 00:54:51,010 --> 00:54:51,980 언어학? 1032 00:54:51,980 --> 00:54:54,560 >> 먼저 프로젝트를 선택 그 언어를 포함한다. 1033 00:54:54,560 --> 00:54:56,310 그래서, 거기에 많은있다. 1034 00:54:56,310 --> 00:54:58,420 당신이 할 수있는 많은 일들이있다. 1035 00:54:58,420 --> 00:55:00,510 그리고 그 모델을 생각할 수 당신이 사용할 수있다. 1036 00:55:00,510 --> 00:55:04,710 보통 그 생각을 의미 가정, 나는이 때, 오, 같은 1037 00:55:04,710 --> 00:55:05,770 가사의 생각 등을들 수있다. 1038 00:55:05,770 --> 00:55:09,510 내가 파악하려면 내가 잘 같았다 쓴 사람 중, 나는 아마 할 1039 00:55:09,510 --> 00:55:15,400 단어를보고 그 사람이 사용하고 자주 그 단어를 사용하는 사람을 참조하십시오. 1040 00:55:15,400 --> 00:55:18,470 그래서 가정을 만들기 위해 노력하고 모델을 생각하려고합니다. 1041 00:55:18,470 --> 00:55:21,395 그리고 당신은 또한 온라인으로 검색 할 수 있습니다 당신이 가지고있는 문제의 종류, 1042 00:55:21,395 --> 00:55:24,260 그것은 제안 것 당신이 모델이 아마도 1043 00:55:24,260 --> 00:55:26,560 물론 그 일을 모델링. 1044 00:55:26,560 --> 00:55:29,080 >> 그리고 또한 당신은 항상 저를 이메일을 보낼 수있다. 1045 00:55:29,080 --> 00:55:31,140 me@lfreitas.com. 1046 00:55:31,140 --> 00:55:34,940 그리고 나는 당신의 질문에 대답 할 수 있습니다. 1047 00:55:34,940 --> 00:55:38,600 우리는 심지어 내가 수를 만날 수 있습니다 의 방법에 대한 제안을 1048 00:55:38,600 --> 00:55:41,490 프로젝트를 구현. 1049 00:55:41,490 --> 00:55:45,610 당신이 함께 참여한다면 내 말은 전산 언어학, 돼가 1050 00:55:45,610 --> 00:55:46,790 위대한 사람이 될. 1051 00:55:46,790 --> 00:55:48,370 당신이 보게 될 너무 많은 가능성이있다. 1052 00:55:48,370 --> 00:55:52,060 그리고 산업은 고용하고 싶어 그 때문에 당신이 그렇게 나쁘지. 1053 00:55:52,060 --> 00:55:54,720 그래서 너희들이 즐길 바랍니다. 1054 00:55:54,720 --> 00:55:57,030 너희들은 질문이있는 경우에는, 이 후 저를 요청할 수 있습니다. 1055 00:55:57,030 --> 00:55:58,280 하지만 감사합니다. 1056 00:55:58,280 --> 00:56:00,150