1 00:00:00,000 --> 00:00:08,364 2 00:00:08,364 --> 00:00:08,870 >> Lucas Freitas: Hey. 3 00:00:08,870 --> 00:00:09,980 Chào mừng tất cả mọi người. 4 00:00:09,980 --> 00:00:11,216 Tên tôi là Lucas Freitas. 5 00:00:11,216 --> 00:00:15,220 Tôi là một sinh viên năm [nghe được] học khoa học máy tính với một tập trung trong 6 00:00:15,220 --> 00:00:16,410 ngôn ngữ học tính toán. 7 00:00:16,410 --> 00:00:19,310 Vì vậy, trung học của tôi là trong ngôn ngữ và lý thuyết ngôn ngữ học. 8 00:00:19,310 --> 00:00:21,870 Tôi thực sự vui mừng để dạy các bạn một chút về lĩnh vực này. 9 00:00:21,870 --> 00:00:24,300 Đó là một khu vực rất thú vị để nghiên cứu. 10 00:00:24,300 --> 00:00:27,260 Còn với rất nhiều tiềm năng cho tương lai. 11 00:00:27,260 --> 00:00:30,160 Vì vậy, tôi thực sự vui mừng rằng các bạn đang xem xét các dự án trong 12 00:00:30,160 --> 00:00:31,160 ngôn ngữ học tính toán. 13 00:00:31,160 --> 00:00:35,460 Và tôi sẽ được hạnh phúc hơn để tư vấn cho hơn bất kỳ của bạn nếu bạn quyết định 14 00:00:35,460 --> 00:00:37,090 theo đuổi một trong những. 15 00:00:37,090 --> 00:00:40,010 >> Vì vậy, trước tất cả những gì là tính toán ngôn ngữ học? 16 00:00:40,010 --> 00:00:44,630 Ngôn ngữ học để tính toán là giao nhau giữa ngôn ngữ học và 17 00:00:44,630 --> 00:00:46,390 khoa học máy tính. 18 00:00:46,390 --> 00:00:47,415 Vì vậy, ngôn ngữ học là gì? 19 00:00:47,415 --> 00:00:48,490 Khoa học máy tính là gì? 20 00:00:48,490 --> 00:00:51,580 Cũng từ ngôn ngữ học, những gì chúng ta là ngôn ngữ. 21 00:00:51,580 --> 00:00:54,960 Vì vậy, ngôn ngữ học thực sự là nghiên cứu của ngôn ngữ tự nhiên nói chung. 22 00:00:54,960 --> 00:00:58,330 Ngôn ngữ rất tự nhiên - chúng ta nói về ngôn ngữ mà chúng ta thực sự sử dụng để 23 00:00:58,330 --> 00:00:59,770 giao tiếp với nhau. 24 00:00:59,770 --> 00:01:02,200 Vì vậy, chúng tôi không chính xác nói về C hoặc Java. 25 00:01:02,200 --> 00:01:05,900 Chúng ta đang nói nhiều hơn về tiếng Anh và Trung Quốc và các ngôn ngữ khác mà chúng tôi 26 00:01:05,900 --> 00:01:07,780 sử dụng để giao tiếp với nhau. 27 00:01:07,780 --> 00:01:12,470 >> Điều khó khăn về điều đó là ngay bây giờ chúng tôi có gần 7.000 28 00:01:12,470 --> 00:01:14,260 thứ tiếng trên thế giới. 29 00:01:14,260 --> 00:01:19,520 Vì vậy, có khá nhiều loại cao ngôn ngữ mà chúng ta có thể nghiên cứu. 30 00:01:19,520 --> 00:01:22,600 Và sau đó bạn nghĩ rằng nó có thể là rất khó để làm, ví dụ, 31 00:01:22,600 --> 00:01:26,960 dịch từ một ngôn ngữ đến khác, xem xét rằng bạn có 32 00:01:26,960 --> 00:01:28,240 gần 7.000 trong số họ. 33 00:01:28,240 --> 00:01:31,450 Vì vậy, nếu bạn nghĩ rằng làm dịch từ một ngôn ngữ khác, bạn 34 00:01:31,450 --> 00:01:35,840 có gần như hơn một triệu kết hợp khác nhau mà bạn có thể 35 00:01:35,840 --> 00:01:37,330 có từ ngôn ngữ đến ngôn ngữ. 36 00:01:37,330 --> 00:01:40,820 Vì vậy, nó thực sự thách thức để làm một số loại hệ thống ví dụ dịch thuật 37 00:01:40,820 --> 00:01:43,540 mọi ngôn ngữ duy nhất. 38 00:01:43,540 --> 00:01:47,120 >> Vì vậy, ngôn ngữ học đối xử với cú pháp, ngữ nghĩa, ngữ dụng. 39 00:01:47,120 --> 00:01:49,550 Các bạn không cần phải chính xác để biết được những gì họ đang có. 40 00:01:49,550 --> 00:01:55,090 Nhưng điều rất thú vị là như một người bản xứ, khi bạn học 41 00:01:55,090 --> 00:01:59,010 ngôn ngữ như đứa trẻ, bạn thực sự học tất cả những điều - ngữ nghĩa cú pháp 42 00:01:59,010 --> 00:02:00,500 và ngữ dụng - 43 00:02:00,500 --> 00:02:01,430 của chính mình. 44 00:02:01,430 --> 00:02:04,820 Và không ai có để dạy cho bạn cú pháp cho bạn hiểu như thế nào câu được 45 00:02:04,820 --> 00:02:05,290 cấu trúc. 46 00:02:05,290 --> 00:02:07,980 Vì vậy, nó thực sự thú vị bởi vì nó là cái gì mà đi kèm rất 47 00:02:07,980 --> 00:02:10,389 trực giác. 48 00:02:10,389 --> 00:02:13,190 >> Và những gì được bạn lấy từ khoa học máy tính? 49 00:02:13,190 --> 00:02:16,700 Vâng, điều quan trọng nhất mà chúng tôi có trong khoa học máy tính là đầu tiên của 50 00:02:16,700 --> 00:02:19,340 tất cả, trí tuệ nhân tạo và học máy. 51 00:02:19,340 --> 00:02:22,610 Vì vậy, những gì chúng tôi đang cố gắng để làm ngôn ngữ học tính toán là dạy 52 00:02:22,610 --> 00:02:26,990 máy tính của bạn làm thế nào để làm điều gì đó với ngôn ngữ. 53 00:02:26,990 --> 00:02:28,630 >> Vì vậy, ví dụ, trong máy dịch. 54 00:02:28,630 --> 00:02:32,490 Tôi đang cố gắng để dạy làm thế nào máy tính của tôi biết làm thế nào để chuyển từ một 55 00:02:32,490 --> 00:02:33,310 ngôn ngữ khác. 56 00:02:33,310 --> 00:02:35,790 Vì vậy, về cơ bản giống như giảng dạy một máy tính hai ngôn ngữ. 57 00:02:35,790 --> 00:02:38,870 Nếu tôi làm xử lý ngôn ngữ tự nhiên, đó là trường hợp ví dụ của 58 00:02:38,870 --> 00:02:41,810 Facebook Biểu đồ tìm kiếm, bạn dạy máy tính của bạn làm thế nào để hiểu 59 00:02:41,810 --> 00:02:42,730 truy vấn tốt. 60 00:02:42,730 --> 00:02:48,130 >> Vì vậy, nếu bạn nói "các bức ảnh của tôi bạn bè. "Facebook không điều trị mà 61 00:02:48,130 --> 00:02:51,130 như là một chuỗi toàn có chỉ là một nhóm các từ. 62 00:02:51,130 --> 00:02:56,020 Nó thực sự hiểu được mối quan hệ giữa "hình ảnh" và "bạn bè của tôi" và 63 00:02:56,020 --> 00:02:59,620 hiểu rằng "hình ảnh" là tài sản của "bạn bè của tôi." 64 00:02:59,620 --> 00:03:02,350 >> Vì vậy, đó là một phần của, ví dụ, xử lý ngôn ngữ tự nhiên. 65 00:03:02,350 --> 00:03:04,790 Nó đang cố gắng để hiểu những gì là mối quan hệ giữa 66 00:03:04,790 --> 00:03:07,520 các từ trong một câu. 67 00:03:07,520 --> 00:03:11,170 Và câu hỏi lớn là, có thể bạn dạy cho một máy tính làm thế nào để nói chuyện 68 00:03:11,170 --> 00:03:12,650 một ngôn ngữ nói chung? 69 00:03:12,650 --> 00:03:17,810 Đó là một câu hỏi rất thú vị nghĩ rằng, nếu có thể trong tương lai, 70 00:03:17,810 --> 00:03:19,930 bạn sẽ có thể nói chuyện với điện thoại di động của bạn. 71 00:03:19,930 --> 00:03:23,290 Giống như những gì chúng tôi làm với Siri nhưng một cái gì đó giống như, bạn có thể thực sự 72 00:03:23,290 --> 00:03:25,690 nói bất cứ điều gì bạn muốn và điện thoại sẽ hiểu tất cả mọi thứ. 73 00:03:25,690 --> 00:03:28,350 Và nó có thể có theo dõi câu hỏi và tiếp tục nói chuyện. 74 00:03:28,350 --> 00:03:30,880 Đó là một cái gì đó thực sự thú vị, theo ý kiến ​​của tôi. 75 00:03:30,880 --> 00:03:33,070 >> Vì vậy, một cái gì đó về ngôn ngữ tự nhiên. 76 00:03:33,070 --> 00:03:36,220 Một cái gì đó thực sự thú vị về ngôn ngữ tự nhiên là, và đây là 77 00:03:36,220 --> 00:03:38,470 tín dụng đối với giáo sư ngôn ngữ học của tôi, Maria Polinsky. 78 00:03:38,470 --> 00:03:40,830 Cô cho một ví dụ và tôi nghĩ nó thực sự thú vị. 79 00:03:40,830 --> 00:03:47,060 Bởi vì chúng ta học ngôn ngữ từ khi chúng ta sinh ra và sau đó bản địa của chúng tôi 80 00:03:47,060 --> 00:03:49,170 ngôn ngữ loại mọc trên chúng ta. 81 00:03:49,170 --> 00:03:52,570 >> Và về cơ bản bạn học ngôn ngữ từ đầu vào tối thiểu, phải không? 82 00:03:52,570 --> 00:03:56,700 Bạn chỉ nhận được đầu vào từ của bạn cha mẹ về những gì ngôn ngữ của bạn âm thanh 83 00:03:56,700 --> 00:03:58,770 thích và bạn chỉ cần tìm hiểu nó. 84 00:03:58,770 --> 00:04:02,240 Vì vậy, nó là thú vị bởi vì nếu bạn nhìn vào những câu, ví dụ. 85 00:04:02,240 --> 00:04:06,980 Bạn nhìn ", Mary đặt trên một chiếc áo khoác hàng thời gian cô rời khỏi nhà. " 86 00:04:06,980 --> 00:04:10,650 >> Trong trường hợp này, nó có thể có từ "cô" tham khảo Mary, phải không? 87 00:04:10,650 --> 00:04:13,500 Bạn có thể nói "Đức Maria đặt trên một chiếc áo khoác mỗi khi Mary rời 88 00:04:13,500 --> 00:04:14,960 nhà. "vì vậy đó là tốt. 89 00:04:14,960 --> 00:04:19,370 Nhưng sau đó nếu bạn nhìn vào câu "Cô ấy đặt trên một chiếc áo khoác mỗi khi Mary 90 00:04:19,370 --> 00:04:22,850 bỏ nhà đi. "bạn biết đó là không thể nói rằng "cô ấy" là 91 00:04:22,850 --> 00:04:24,260 đề cập đến Đức Maria. 92 00:04:24,260 --> 00:04:27,070 >> Không có cách nào nói rằng "Mary đặt trên một chiếc áo khoác mỗi khi Mary lá 93 00:04:27,070 --> 00:04:30,790 nhà. "Vì vậy, nó là thú vị bởi vì đây là loại trực giác 94 00:04:30,790 --> 00:04:32,890 rằng mỗi người bản xứ có. 95 00:04:32,890 --> 00:04:36,370 Và không ai được dạy rằng đây là cách mà các cú pháp làm việc. 96 00:04:36,370 --> 00:04:41,930 Và rằng bạn chỉ có thể có điều này "cô" đề cập đến Đức Maria trong trường hợp đầu tiên này, 97 00:04:41,930 --> 00:04:44,260 và thực sự trong khác này quá, nhưng không phải trong một này. 98 00:04:44,260 --> 00:04:46,500 Nhưng tất cả mọi người loại được câu trả lời tương tự. 99 00:04:46,500 --> 00:04:48,580 Tất cả mọi người đồng ý về điều đó. 100 00:04:48,580 --> 00:04:53,280 Vì vậy, nó thực sự thú vị như thế nào mặc dù bạn không biết tất cả các quy tắc 101 00:04:53,280 --> 00:04:55,575 trong ngôn ngữ của bạn, bạn hiểu loại như thế nào là ngôn ngữ làm việc. 102 00:04:55,575 --> 00:04:59,020 103 00:04:59,020 --> 00:05:01,530 >> Vì vậy, điều thú vị về thiên nhiên ngôn ngữ là bạn không cần phải 104 00:05:01,530 --> 00:05:06,970 biết bất kỳ cú pháp để biết nếu một câu là ngữ pháp hoặc sai ngữ pháp và cho 105 00:05:06,970 --> 00:05:08,810 hầu hết các trường hợp. 106 00:05:08,810 --> 00:05:13,220 Mà làm cho bạn nghĩ rằng có lẽ những gì xảy ra là thông qua cuộc sống của bạn, bạn 107 00:05:13,220 --> 00:05:17,410 chỉ cần giữ nhận được nhiều hơn và nhiều hơn nữa câu nói cho bạn. 108 00:05:17,410 --> 00:05:19,800 Và sau đó bạn tiếp tục ghi nhớ tất cả các câu. 109 00:05:19,800 --> 00:05:24,230 Và sau đó khi ai đó nói với bạn một cái gì đó, bạn nghe câu đó và 110 00:05:24,230 --> 00:05:27,040 bạn nhìn vào từ vựng của bạn câu và xem 111 00:05:27,040 --> 00:05:28,270 câu đó là có. 112 00:05:28,270 --> 00:05:29,830 Và nếu nó có bạn nói đó là ngữ pháp. 113 00:05:29,830 --> 00:05:31,740 Nếu nó không phải là bạn nói đó là sai ngữ pháp. 114 00:05:31,740 --> 00:05:35,150 >> Vì vậy, trong trường hợp đó, bạn sẽ nói, oh, để bạn có một danh sách rất lớn của tất cả các 115 00:05:35,150 --> 00:05:36,140 câu có thể. 116 00:05:36,140 --> 00:05:38,240 Và sau đó khi bạn nghe một câu, bạn biết nếu nó ngữ pháp hay 117 00:05:38,240 --> 00:05:39,450 không dựa trên đó. 118 00:05:39,450 --> 00:05:42,360 Điều là nếu bạn nhìn vào một câu, ví dụ, "Các 119 00:05:42,360 --> 00:05:47,540 năm đầu CS50 TF nấu chín người mù bạch tuộc sử dụng một cốc DAPA. "Đó là 120 00:05:47,540 --> 00:05:49,630 chắc chắn không phải là một câu mà bạn nghe trước đây. 121 00:05:49,630 --> 00:05:52,380 Nhưng đồng thời bạn biết đó là khá nhiều ngữ pháp, phải không? 122 00:05:52,380 --> 00:05:55,570 Không có lỗi ngữ pháp và bạn có thể nói rằng 123 00:05:55,570 --> 00:05:57,020 đó là một câu có thể. 124 00:05:57,020 --> 00:06:01,300 >> Vì vậy, nó làm cho chúng ta nghĩ rằng thực sự cách mà chúng ta học ngôn ngữ không chỉ là 125 00:06:01,300 --> 00:06:07,090 bởi có một cơ sở dữ liệu khổng lồ có thể từ hoặc câu, nhưng nhiều hơn 126 00:06:07,090 --> 00:06:11,490 sự hiểu biết về mối quan hệ giữa từ trong những câu. 127 00:06:11,490 --> 00:06:14,570 Điều đó có ý nghĩa? 128 00:06:14,570 --> 00:06:19,370 Vì vậy, sau đó câu hỏi là, có thể máy tính học ngôn ngữ? 129 00:06:19,370 --> 00:06:21,490 Chúng ta có thể dạy ngôn ngữ cho máy tính? 130 00:06:21,490 --> 00:06:24,230 >> Vì vậy, chúng ta hãy nghĩ đến sự khác biệt giữa một người bản xứ của một ngôn ngữ 131 00:06:24,230 --> 00:06:25,460 và một máy tính. 132 00:06:25,460 --> 00:06:27,340 Vì vậy, những gì xảy ra cho người nói? 133 00:06:27,340 --> 00:06:30,430 Vâng, người bản xứ học một ngôn ngữ tiếp xúc với nó. 134 00:06:30,430 --> 00:06:34,200 Thường năm thời thơ ấu của mình. 135 00:06:34,200 --> 00:06:38,570 Vì vậy, về cơ bản, bạn chỉ cần có một em bé, và bạn tiếp tục nói chuyện với nó, và nó 136 00:06:38,570 --> 00:06:40,540 chỉ biết làm thế nào để nói chuyện ngôn ngữ, phải không? 137 00:06:40,540 --> 00:06:42,660 Vì vậy, bạn về cơ bản cho đầu vào cho em bé. 138 00:06:42,660 --> 00:06:45,200 Vì vậy, sau đó bạn có thể tranh luận rằng một máy tính có thể làm điều tương tự, phải không? 139 00:06:45,200 --> 00:06:49,510 Bạn chỉ có thể cung cấp cho ngôn ngữ làm đầu vào cho máy tính. 140 00:06:49,510 --> 00:06:53,410 >> Ví dụ như một bó của tập tin có sách bằng tiếng Anh. 141 00:06:53,410 --> 00:06:56,190 Có lẽ đó là một trong những cách mà bạn có thể có thể dạy một 142 00:06:56,190 --> 00:06:57,850 máy tính tiếng Anh, phải không? 143 00:06:57,850 --> 00:07:01,000 Và trong thực tế, nếu bạn nghĩ về nó, nó sẽ đưa bạn có thể một vài 144 00:07:01,000 --> 00:07:02,680 ngày để đọc một cuốn sách. 145 00:07:02,680 --> 00:07:05,760 Cho một máy tính phải mất một giây để nhìn vào tất cả các từ trong một cuốn sách. 146 00:07:05,760 --> 00:07:10,810 Vì vậy, bạn có thể nghĩ rằng có thể chỉ này tham số đầu vào từ xung quanh bạn, 147 00:07:10,810 --> 00:07:15,440 đó là không đủ để nói rằng đó là cái gì mà chỉ có con người có thể làm. 148 00:07:15,440 --> 00:07:17,680 Bạn có thể nghĩ rằng máy tính cũng có thể có được đầu vào. 149 00:07:17,680 --> 00:07:21,170 >> Điều thứ hai là người bản ngữ cũng có một bộ não có 150 00:07:21,170 --> 00:07:23,870 khả năng học ngôn ngữ. 151 00:07:23,870 --> 00:07:27,020 Nhưng nếu bạn nghĩ về nó, một bộ não là một điều chắc chắn. 152 00:07:27,020 --> 00:07:30,450 Khi bạn được sinh ra, nó đã được thiết lập - 153 00:07:30,450 --> 00:07:31,320 đây là bộ não của bạn. 154 00:07:31,320 --> 00:07:34,660 Và khi bạn lớn lên, bạn chỉ cần nhận được nhiều hơn đầu vào của ngôn ngữ và có thể các chất dinh dưỡng 155 00:07:34,660 --> 00:07:35,960 và các công cụ khác. 156 00:07:35,960 --> 00:07:38,170 Nhưng khá nhiều bộ não của bạn là một điều chắc chắn. 157 00:07:38,170 --> 00:07:41,290 >> Vì vậy, bạn có thể nói, tốt, có thể bạn có thể xây dựng một máy tính có một loạt các 158 00:07:41,290 --> 00:07:45,890 chức năng và phương pháp mà chỉ bắt chước khả năng học ngôn ngữ. 159 00:07:45,890 --> 00:07:49,630 Vì vậy, trong ý nghĩa đó, bạn có thể nói, tốt, tôi có thể có một máy tính có tất cả các 160 00:07:49,630 --> 00:07:52,270 điều tôi cần phải học ngôn ngữ. 161 00:07:52,270 --> 00:07:56,200 Và điều cuối cùng là một người gốc loa học từ thử và sai. 162 00:07:56,200 --> 00:08:01,090 Vì vậy, về cơ bản một điều quan trọng trong học ngôn ngữ là bạn loại 163 00:08:01,090 --> 00:08:05,340 của học những điều bằng cách khái quát về những gì bạn nghe thấy. 164 00:08:05,340 --> 00:08:10,280 >> Vì vậy, bạn đang lớn lên bạn biết rằng một số từ đều giống như danh từ, 165 00:08:10,280 --> 00:08:11,820 một số những người khác là tính từ. 166 00:08:11,820 --> 00:08:14,250 Và bạn không cần phải có bất kỳ kiến thức về ngôn ngữ học 167 00:08:14,250 --> 00:08:15,040 để hiểu điều đó. 168 00:08:15,040 --> 00:08:18,560 Nhưng bạn chỉ cần biết có một số từ được định vị trong một số phần của 169 00:08:18,560 --> 00:08:22,570 câu và một số người khác trong khác các bộ phận của câu. 170 00:08:22,570 --> 00:08:26,110 >> Và rằng khi bạn làm điều gì đó có nghĩa là như một câu mà không phải là chính xác - 171 00:08:26,110 --> 00:08:28,770 có lẽ vì một sự tổng quát hơn ví dụ. 172 00:08:28,770 --> 00:08:32,210 Có lẽ khi bạn lớn lên, bạn nhận thấy mà số nhiều thường là 173 00:08:32,210 --> 00:08:35,809 hình thành bằng cách đặt một S tại cuối của từ đó. 174 00:08:35,809 --> 00:08:40,042 Và sau đó bạn cố gắng làm việc nhiều của "Nai" là "nai" hay "răng" như 175 00:08:40,042 --> 00:08:44,780 "Tooths." Vì vậy, sau đó cha mẹ của bạn hoặc một người nào đó sửa chữa và bạn nói, không, 176 00:08:44,780 --> 00:08:49,020 số nhiều của "con nai" là "nai", và số nhiều của "răng" là "răng". Và sau đó 177 00:08:49,020 --> 00:08:50,060 bạn tìm hiểu những điều đó. 178 00:08:50,060 --> 00:08:51,520 Vì vậy, bạn học hỏi từ thử và sai. 179 00:08:51,520 --> 00:08:53,100 >> Nhưng bạn cũng có thể làm điều đó với một máy tính. 180 00:08:53,100 --> 00:08:55,310 Bạn có thể có một cái gì đó gọi là học tập tăng cường. 181 00:08:55,310 --> 00:08:58,560 Đó là cơ bản giống như cho một máy tính một phần thưởng bất cứ khi nào nó 182 00:08:58,560 --> 00:08:59,410 một cái gì đó một cách chính xác. 183 00:08:59,410 --> 00:09:04,710 Và đem lại cho nó trái ngược với một phần thưởng và khi nó làm điều gì đó sai. 184 00:09:04,710 --> 00:09:07,410 Bạn thực sự có thể thấy rằng nếu bạn đi Google Translate và bạn cố gắng 185 00:09:07,410 --> 00:09:10,220 dịch một câu, nó yêu cầu bạn cho ý kiến ​​phản hồi. 186 00:09:10,220 --> 00:09:13,240 Vì vậy, nếu bạn nói, oh, có một tốt hơn dịch cho câu này. 187 00:09:13,240 --> 00:09:18,140 Bạn có thể gõ nó lên và sau đó nếu nhiều người tiếp tục nói rằng đó là một tốt hơn 188 00:09:18,140 --> 00:09:21,560 dịch, nó chỉ biết rằng nó nên sử dụng dịch thay vì 189 00:09:21,560 --> 00:09:22,960 một trong nó đã được đưa ra. 190 00:09:22,960 --> 00:09:28,830 >> Vì vậy, nó là một câu hỏi rất triết học để xem nếu máy tính đang có được 191 00:09:28,830 --> 00:09:30,340 có thể nói chuyện hay không trong tương lai. 192 00:09:30,340 --> 00:09:34,440 Nhưng tôi có hy vọng rằng họ có thể chỉ dựa trên những lập luận. 193 00:09:34,440 --> 00:09:38,570 Nhưng nó chỉ là chi tiết của một triết học câu hỏi. 194 00:09:38,570 --> 00:09:43,460 >> Vì vậy, trong khi máy tính vẫn không thể nói chuyện, những điều mà chúng ta có thể làm là gì? 195 00:09:43,460 --> 00:09:47,070 Một số điều thực sự mát mẻ là phân loại dữ liệu. 196 00:09:47,070 --> 00:09:53,210 Vì vậy, ví dụ, bạn biết các dịch vụ email làm, 197 00:09:53,210 --> 00:09:55,580 Ví dụ, lọc thư rác. 198 00:09:55,580 --> 00:09:59,070 Vì vậy, bất cứ khi nào quý vị nhận được thư rác, nó cố gắng để lọc hộp khác. 199 00:09:59,070 --> 00:10:00,270 Vì vậy, làm thế nào để nó làm điều đó? 200 00:10:00,270 --> 00:10:06,080 Nó không giống như các máy tính chỉ biết địa chỉ email những gì đang gửi thư rác. 201 00:10:06,080 --> 00:10:09,130 Vì vậy, nó hơn dựa trên nội dung của tin nhắn, hoặc có thể là tiêu đề, hoặc 202 00:10:09,130 --> 00:10:11,310 có thể một số mẫu mà bạn có. 203 00:10:11,310 --> 00:10:15,690 >> Vì vậy, về cơ bản, những gì bạn có thể làm là có được một rất nhiều dữ liệu của email là thư rác, 204 00:10:15,690 --> 00:10:19,980 email mà không phải là thư rác, và tìm hiểu những gì loại mô hình bạn có trong 205 00:10:19,980 --> 00:10:21,000 những người mà là thư rác. 206 00:10:21,000 --> 00:10:23,260 Và điều này là một phần của tính toán ngôn ngữ học. 207 00:10:23,260 --> 00:10:24,720 Nó được gọi là phân loại dữ liệu. 208 00:10:24,720 --> 00:10:28,100 Và chúng tôi đang thực sự sẽ thấy một ví dụ đó trong các slide tiếp theo. 209 00:10:28,100 --> 00:10:32,910 >> Điều thứ hai là ngôn ngữ tự nhiên xử lý là điều mà các 210 00:10:32,910 --> 00:10:36,580 Tìm kiếm đồ thị đang làm để cho bạn viết một câu. 211 00:10:36,580 --> 00:10:38,690 Và nó tin tưởng bạn hiểu những gì là ý nghĩa và mang lại cho 212 00:10:38,690 --> 00:10:39,940 bạn một kết quả tốt hơn. 213 00:10:39,940 --> 00:10:43,880 Trên thực tế, nếu bạn đi đến Google hay Bing và bạn tìm kiếm một cái gì đó như Lady 214 00:10:43,880 --> 00:10:47,060 Chiều cao của Gaga, bạn đang thực sự đi để có được 5 '1 "thay vì thông tin 215 00:10:47,060 --> 00:10:50,170 từ cô ấy bởi vì nó thực sự hiểu những gì bạn đang nói về. 216 00:10:50,170 --> 00:10:52,140 Vì vậy, đó là một phần của tự nhiên xử lý ngôn ngữ. 217 00:10:52,140 --> 00:10:57,000 >> Hoặc cũng có khi bạn đang sử dụng Siri, đầu tiên bạn có một thuật toán mà cố gắng để 218 00:10:57,000 --> 00:11:01,130 dịch những gì bạn đang nói thành các từ, trong văn bản. 219 00:11:01,130 --> 00:11:03,690 Và sau đó nó sẽ cố gắng để dịch đó vào ý nghĩa. 220 00:11:03,690 --> 00:11:06,570 Vì vậy, đó là tất cả một phần của tự nhiên xử lý ngôn ngữ. 221 00:11:06,570 --> 00:11:08,320 >> Sau đó, bạn có dịch máy - 222 00:11:08,320 --> 00:11:10,300 mà thực sự là một yêu thích của tôi - 223 00:11:10,300 --> 00:11:14,060 mà chỉ là dịch từ một ngôn ngữ khác. 224 00:11:14,060 --> 00:11:17,950 Vì vậy, bạn có thể nghĩ rằng khi bạn đang làm dịch máy, bạn có 225 00:11:17,950 --> 00:11:19,750 khả năng vô hạn của câu. 226 00:11:19,750 --> 00:11:22,960 Vì vậy, không có cách nào chỉ lưu trữ mỗi bản dịch duy nhất. 227 00:11:22,960 --> 00:11:27,440 Vì vậy, bạn có để đến với thú vị các thuật toán để có thể 228 00:11:27,440 --> 00:11:30,110 dịch mỗi đơn câu một cách nào đó. 229 00:11:30,110 --> 00:11:32,483 >> Bạn có bất kỳ câu hỏi cho đến nay? 230 00:11:32,483 --> 00:11:34,450 Không? 231 00:11:34,450 --> 00:11:34,830 OK. 232 00:11:34,830 --> 00:11:36,900 >> Vì vậy, những gì chúng ta sẽ thấy ngày nay? 233 00:11:36,900 --> 00:11:39,300 Trước hết, tôi sẽ nói về vấn đề phân loại. 234 00:11:39,300 --> 00:11:41,440 Vì vậy, một trong đó là tôi nói về thư rác. 235 00:11:41,440 --> 00:11:46,820 Những gì tôi sẽ làm là, lời bài hát được một bài hát, bạn có thể thử để tìm ra 236 00:11:46,820 --> 00:11:49,810 với xác suất cao ai là ca sĩ? 237 00:11:49,810 --> 00:11:53,590 Hãy nói rằng tôi có những bài hát của Lady Gaga và Katy Perry, nếu tôi cung cấp cho bạn một 238 00:11:53,590 --> 00:11:58,130 bài hát mới, bạn có thể tìm ra nếu đó là Katy Perry hay Lady Gaga? 239 00:11:58,130 --> 00:12:01,490 >> Thứ hai, tôi chỉ cần đi để nói chuyện về vấn đề phân khúc. 240 00:12:01,490 --> 00:12:05,780 Vì vậy, tôi không biết nếu các bạn biết, nhưng Trung Quốc, Nhật Bản, Đông Nam Á khác 241 00:12:05,780 --> 00:12:08,090 ngôn ngữ, và các ngôn ngữ khác nói chung, không có 242 00:12:08,090 --> 00:12:09,830 không gian giữa các từ. 243 00:12:09,830 --> 00:12:13,540 Và sau đó nếu bạn suy nghĩ về cách mà loại máy tính của bạn cố gắng để 244 00:12:13,540 --> 00:12:18,600 hiểu xử lý ngôn ngữ tự nhiên, nó nhìn vào những lời nói và 245 00:12:18,600 --> 00:12:21,500 cố gắng để hiểu các mối quan hệ giữa chúng, phải không? 246 00:12:21,500 --> 00:12:25,440 Nhưng sau đó nếu bạn có Trung Quốc, và bạn có không gian, nó thực sự khó 247 00:12:25,440 --> 00:12:28,360 tìm hiểu mối quan hệ giữa những gì là từ, bởi vì họ không có bất kỳ 248 00:12:28,360 --> 00:12:29,530 từ lần đầu tiên. 249 00:12:29,530 --> 00:12:32,600 Vì vậy, bạn phải làm một cái gì đó gọi là Phân khúc mà chỉ có nghĩa là đặt 250 00:12:32,600 --> 00:12:36,490 khoảng trống giữa những gì chúng tôi muốn gọi từ trong những ngôn ngữ. 251 00:12:36,490 --> 00:12:37,740 Có ý nghĩa? 252 00:12:37,740 --> 00:12:39,680 253 00:12:39,680 --> 00:12:41,540 >> Và sau đó chúng ta sẽ nói về cú pháp. 254 00:12:41,540 --> 00:12:44,050 Vì vậy chỉ cần một chút về tự nhiên xử lý ngôn ngữ. 255 00:12:44,050 --> 00:12:45,420 Nó sẽ được chỉ là một cái nhìn tổng quan. 256 00:12:45,420 --> 00:12:50,700 Vì vậy, ngày hôm nay, về cơ bản những gì tôi muốn làm được cung cấp cho các bạn một chút của một 257 00:12:50,700 --> 00:12:53,930 bên trong của các khả năng là gì mà bạn có thể làm với tính toán 258 00:12:53,930 --> 00:12:54,960 ngôn ngữ học. 259 00:12:54,960 --> 00:13:00,410 Và sau đó bạn có thể xem những gì bạn nghĩ là mát mẻ trong những điều đó. 260 00:13:00,410 --> 00:13:02,270 Và có thể bạn có thể nghĩ đến một dự án và đến nói chuyện với tôi. 261 00:13:02,270 --> 00:13:05,260 Và tôi có thể cung cấp cho bạn lời khuyên làm thế nào để thực hiện nó. 262 00:13:05,260 --> 00:13:09,060 >> Vì vậy, cú pháp là có được một chút Biểu đồ về tìm kiếm và máy 263 00:13:09,060 --> 00:13:09,670 dịch. 264 00:13:09,670 --> 00:13:13,650 Tôi chỉ sẽ cung cấp cho một ví dụ về cách bạn có thể, ví dụ, dịch 265 00:13:13,650 --> 00:13:16,020 một cái gì đó từ Bồ Đào Nha sang tiếng Anh. 266 00:13:16,020 --> 00:13:17,830 Âm thanh tốt? 267 00:13:17,830 --> 00:13:19,293 >> Vì vậy, đầu tiên, vấn đề phân loại. 268 00:13:19,293 --> 00:13:23,590 Tôi sẽ nói rằng một phần của hội thảo sẽ là những thách thức 269 00:13:23,590 --> 00:13:27,560 một chỉ vì có đi là một số mã hóa. 270 00:13:27,560 --> 00:13:29,470 Nhưng nó sẽ là Python. 271 00:13:29,470 --> 00:13:34,380 Tôi biết các bạn không biết Python, vì vậy Tôi chỉ sẽ giải thích trên cao 272 00:13:34,380 --> 00:13:35,750 cấp những gì tôi đang làm. 273 00:13:35,750 --> 00:13:40,900 Và bạn không cần phải thực sự quan tâm quá nhiều về cú pháp vì đó là 274 00:13:40,900 --> 00:13:42,140 một cái gì đó các bạn có thể học hỏi. 275 00:13:42,140 --> 00:13:42,540 OK? 276 00:13:42,540 --> 00:13:43,580 Âm thanh tốt. 277 00:13:43,580 --> 00:13:46,020 >> Vì vậy vấn đề phân loại là gì? 278 00:13:46,020 --> 00:13:49,140 Vì vậy, bạn đang đưa ra một số lời bài hát một bài hát, và bạn muốn đoán 279 00:13:49,140 --> 00:13:50,620 người hát nó. 280 00:13:50,620 --> 00:13:54,045 Và điều này có thể cho bất cứ loại nào các vấn đề khác. 281 00:13:54,045 --> 00:13:59,980 Vì vậy, nó có thể được, ví dụ, bạn có một chiến dịch tranh cử và bạn có một 282 00:13:59,980 --> 00:14:02,610 bài phát biểu, và bạn muốn tìm ra nếu nó là, ví dụ, 283 00:14:02,610 --> 00:14:04,470 Obama hay Mitt Romney. 284 00:14:04,470 --> 00:14:07,700 Hoặc bạn có thể có một loạt các email và bạn muốn tìm hiểu xem họ có 285 00:14:07,700 --> 00:14:08,890 thư rác hay không. 286 00:14:08,890 --> 00:14:11,440 Vì vậy, nó chỉ phân loại một số dữ liệu dựa trên các từ 287 00:14:11,440 --> 00:14:13,790 mà bạn đã có. 288 00:14:13,790 --> 00:14:16,295 >> Vì vậy, để làm điều đó, bạn phải làm cho một số giả định. 289 00:14:16,295 --> 00:14:20,570 Vì vậy, rất nhiều về ngôn ngữ học tính toán đang làm giả định, 290 00:14:20,570 --> 00:14:24,100 giả định thường thông minh, do đó bạn có thể nhận được kết quả tốt. 291 00:14:24,100 --> 00:14:26,670 Cố gắng để tạo ra một mô hình cho nó. 292 00:14:26,670 --> 00:14:31,290 Và sau đó thử nó ra và xem nếu nó hoạt động, nếu nó mang lại cho bạn độ chính xác tốt. 293 00:14:31,290 --> 00:14:33,940 Và nếu có, sau đó bạn cố gắng để cải thiện nó. 294 00:14:33,940 --> 00:14:37,640 Nếu không, bạn giống như, OK, có lẽ tôi nên làm cho một giả định khác nhau. 295 00:14:37,640 --> 00:14:44,030 >> Vì vậy, giả định rằng chúng ta sẽ làm là một nghệ sĩ thường hát 296 00:14:44,030 --> 00:14:49,220 về một chủ đề nhiều lần, và có thể sử dụng từ nhiều lần chỉ 297 00:14:49,220 --> 00:14:50,270 bởi vì họ đang sử dụng để nó. 298 00:14:50,270 --> 00:14:51,890 Bạn chỉ có thể nghĩ về bạn của bạn. 299 00:14:51,890 --> 00:14:57,350 Tôi chắc rằng các bạn đều có bạn bè mà nói cụm từ chữ ký của họ, 300 00:14:57,350 --> 00:14:59,260 nghĩa là cho mỗi câu duy nhất - 301 00:14:59,260 --> 00:15:02,660 như một số từ cụ thể hoặc một số cụ thể cụm từ mà họ nói cho 302 00:15:02,660 --> 00:15:04,020 mỗi câu duy nhất. 303 00:15:04,020 --> 00:15:07,920 >> Và những gì bạn có thể nói là nếu bạn nhìn thấy một câu mà có một chữ ký 304 00:15:07,920 --> 00:15:11,450 cụm từ, bạn có thể đoán rằng có thể bạn của bạn là 305 00:15:11,450 --> 00:15:13,310 một câu nói, đúng không? 306 00:15:13,310 --> 00:15:18,410 Vì vậy, bạn làm cho giả định đó và sau đó đó là cách bạn tạo ra một mô hình. 307 00:15:18,410 --> 00:15:24,440 >> Ví dụ mà tôi sẽ đưa ra là trên cách Lady Gaga, ví dụ, người 308 00:15:24,440 --> 00:15:27,430 nói rằng cô sử dụng "em bé" cho tất cả các số một của cô bài hát. 309 00:15:27,430 --> 00:15:32,270 Và thực sự đây là một đoạn video mà chương trình cô nói những từ "em bé" cho 310 00:15:32,270 --> 00:15:33,410 bài hát khác nhau. 311 00:15:33,410 --> 00:15:33,860 >> [VIDEO XEM LẠI] 312 00:15:33,860 --> 00:15:34,310 >> - (Hát) Baby. 313 00:15:34,310 --> 00:15:36,220 Em bé. 314 00:15:36,220 --> 00:15:37,086 Em bé. 315 00:15:37,086 --> 00:15:37,520 Em bé. 316 00:15:37,520 --> 00:15:37,770 Em bé. 317 00:15:37,770 --> 00:15:38,822 Babe. 318 00:15:38,822 --> 00:15:39,243 Em bé. 319 00:15:39,243 --> 00:15:40,085 Em bé. 320 00:15:40,085 --> 00:15:40,510 Em bé. 321 00:15:40,510 --> 00:15:40,850 Em bé. 322 00:15:40,850 --> 00:15:41,090 >> [END Video Playback- 323 00:15:41,090 --> 00:15:44,020 >> Lucas Freitas: Vì vậy, có, tôi nghĩ rằng, 40 bài hát ở đây, trong đó bà cho biết 324 00:15:44,020 --> 00:15:48,690 từ "em bé." Vì vậy, về cơ bản bạn có thể đoán rằng nếu bạn thấy một bài hát mà có 325 00:15:48,690 --> 00:15:52,180 từ "em bé," có một số cao xác suất mà nó Lady Gaga. 326 00:15:52,180 --> 00:15:56,450 Nhưng chúng ta hãy cố gắng phát triển này hơn nữa chính thức hơn. 327 00:15:56,450 --> 00:16:00,470 >> Vì vậy, đây là những lời bài hát các bài hát bằng cách Lady Gaga và Katy Perry. 328 00:16:00,470 --> 00:16:04,120 Vì vậy, bạn nhìn vào Lady Gaga, bạn sẽ thấy họ có rất nhiều sự cố của "em bé", một 329 00:16:04,120 --> 00:16:07,710 rất nhiều lần xuất hiện của "con đường." Và sau đó Katy Perry đã có rất nhiều lần xuất hiện của 330 00:16:07,710 --> 00:16:10,360 "Các", rất nhiều lần xuất hiện của "lửa". 331 00:16:10,360 --> 00:16:14,560 >> Vì vậy, về cơ bản những gì chúng ta muốn làm là, bạn nhận được một lời. 332 00:16:14,560 --> 00:16:20,480 Hãy nói rằng bạn nhận được một lời cho một bài hát đó là "em bé", chỉ là "em bé." Nếu 333 00:16:20,480 --> 00:16:24,750 bạn chỉ cần có được chữ "em bé", và điều này là tất cả các dữ liệu mà bạn có từ 334 00:16:24,750 --> 00:16:27,880 Lady Gaga và Katy Perry, những người sẽ bạn đoán là người 335 00:16:27,880 --> 00:16:29,370 ca sĩ đang hát bài hát này? 336 00:16:29,370 --> 00:16:32,360 Lady Gaga hay Katy Perry? 337 00:16:32,360 --> 00:16:33,150 Lady Gaga, phải không? 338 00:16:33,150 --> 00:16:37,400 Bởi vì cô ấy là người duy nhất nói "Em bé." Điều này nghe ngu ngốc, phải không? 339 00:16:37,400 --> 00:16:38,760 OK, điều này là rất dễ dàng. 340 00:16:38,760 --> 00:16:41,860 Tôi chỉ nhìn vào hai bài hát và của Tất nhiên, cô ấy là người duy nhất có 341 00:16:41,860 --> 00:16:42,660 "Em bé." 342 00:16:42,660 --> 00:16:44,740 >> Nhưng nếu bạn có một loạt các từ ngữ? 343 00:16:44,740 --> 00:16:50,900 Nếu bạn có một lời thực tế, một cái gì đó như, "em bé, tôi chỉ 344 00:16:50,900 --> 00:16:51,610 đi xem một [? CFT?] 345 00:16:51,610 --> 00:16:54,020 bài giảng, "hoặc một cái gì đó như thế, và sau đó bạn thực sự phải tìm ra - 346 00:16:54,020 --> 00:16:55,780 dựa trên tất cả những lời đó - 347 00:16:55,780 --> 00:16:58,350 là người nghệ sĩ có thể hát bài hát này? 348 00:16:58,350 --> 00:17:01,860 Vì vậy, hãy cố gắng phát triển này một chút nữa. 349 00:17:01,860 --> 00:17:05,630 >> OK, vì vậy chỉ dựa vào dữ liệu mà chúng tôi có, có vẻ như Gaga có lẽ là 350 00:17:05,630 --> 00:17:06,260 các ca sĩ. 351 00:17:06,260 --> 00:17:07,904 Nhưng làm thế nào chúng ta có thể viết này chính thức hơn? 352 00:17:07,904 --> 00:17:10,579 353 00:17:10,579 --> 00:17:13,140 Và có sẽ là một chút bit số liệu thống kê. 354 00:17:13,140 --> 00:17:15,880 Vì vậy, nếu bạn bị lạc, chỉ cần cố gắng để hiểu được khái niệm. 355 00:17:15,880 --> 00:17:18,700 Nó không quan trọng nếu bạn hiểu các phương trình hoàn toàn tốt. 356 00:17:18,700 --> 00:17:22,150 Đây là tất cả sẽ được trực tuyến. 357 00:17:22,150 --> 00:17:25,490 >> Vì vậy, về cơ bản những gì tôi đang tính toán là xác suất mà bài hát này là do 358 00:17:25,490 --> 00:17:28,040 Lady Gaga cho rằng - 359 00:17:28,040 --> 00:17:30,660 để thanh này có nghĩa là cho rằng - 360 00:17:30,660 --> 00:17:33,680 Tôi thấy từ "em bé." Điều đó có ý nghĩa? 361 00:17:33,680 --> 00:17:35,540 Vì vậy, tôi đang cố gắng để tính toán rằng xác suất. 362 00:17:35,540 --> 00:17:38,540 >> Vì vậy, có lý này được gọi là Định lý Bayes mà nói rằng 363 00:17:38,540 --> 00:17:43,330 xác suất của A B đưa ra, là xác suất của B cho A, lần 364 00:17:43,330 --> 00:17:47,660 xác suất của A, hơn xác suất B. Đây là một phương trình dài. 365 00:17:47,660 --> 00:17:51,970 Nhưng những gì bạn phải hiểu từ đó là điều này là những gì tôi muốn 366 00:17:51,970 --> 00:17:52,830 tính toán, phải không? 367 00:17:52,830 --> 00:17:56,570 Vì vậy, xác suất mà bài hát đó là bằng cách Lady Gaga cho rằng tôi đã nhìn thấy từ 368 00:17:56,570 --> 00:17:58,230 "Em bé." 369 00:17:58,230 --> 00:18:02,960 >> Và bây giờ những gì tôi nhận được là xác suất của các từ "bé" cho 370 00:18:02,960 --> 00:18:04,390 mà tôi có Lady Gaga. 371 00:18:04,390 --> 00:18:07,220 Và đó là những gì cơ bản? 372 00:18:07,220 --> 00:18:10,500 Điều này có nghĩa là, là những gì khả năng nhìn thấy từ "em bé" 373 00:18:10,500 --> 00:18:12,130 trong lời bài hát Gaga? 374 00:18:12,130 --> 00:18:16,240 Nếu tôi muốn tính toán rằng trong một rất cách đơn giản, nó chỉ là số lượng 375 00:18:16,240 --> 00:18:23,640 lần tôi nhìn thấy "em bé" trên tổng số từ trong lời bài hát Gaga, phải không? 376 00:18:23,640 --> 00:18:27,600 Tần số mà tôi nhìn thấy là những gì từ đó trong công việc của Gaga? 377 00:18:27,600 --> 00:18:30,530 Có ý nghĩa? 378 00:18:30,530 --> 00:18:33,420 >> Thuật ngữ thứ hai là Xác suất của Gaga. 379 00:18:33,420 --> 00:18:34,360 Điều đó có nghĩa gì? 380 00:18:34,360 --> 00:18:38,550 Về cơ bản có nghĩa là, là những gì khả năng phân loại 381 00:18:38,550 --> 00:18:40,690 một số lời bài hát như Gaga? 382 00:18:40,690 --> 00:18:45,320 Và đó là loại kỳ lạ, nhưng chúng ta hãy nghĩ về một ví dụ. 383 00:18:45,320 --> 00:18:49,230 Vì vậy, chúng ta hãy nói rằng xác suất của có "em bé" trong một bài hát tương tự 384 00:18:49,230 --> 00:18:51,760 cho Gaga và Britney Spears. 385 00:18:51,760 --> 00:18:54,950 Nhưng Britney Spears đã hai lần bài hát hơn Lady Gaga. 386 00:18:54,950 --> 00:19:00,570 Vì vậy, nếu một người nào đó cung cấp cho bạn chỉ ngẫu nhiên lời bài hát của "em bé", điều đầu tiên bạn 387 00:19:00,570 --> 00:19:04,710 xem xét là, xác suất là gì có "em bé" trong một bài hát Gaga, "em bé" 388 00:19:04,710 --> 00:19:05,410 trong một bài hát của Britney? 389 00:19:05,410 --> 00:19:06,460 Và đó là điều tương tự. 390 00:19:06,460 --> 00:19:10,040 >> Vì vậy, điều thứ hai mà bạn sẽ thấy là, tốt, khả năng là những gì 391 00:19:10,040 --> 00:19:13,770 lyric này tự nó là một lời Gaga, và xác suất là gì 392 00:19:13,770 --> 00:19:15,380 là một Britney lyric? 393 00:19:15,380 --> 00:19:18,950 Vì vậy, kể từ khi Britney có rất nhiều lời bài hát hơn Gaga, bạn sẽ có thể 394 00:19:18,950 --> 00:19:21,470 nói, tốt, điều này có lẽ là một lời Britney. 395 00:19:21,470 --> 00:19:23,340 Vì vậy, đó là lý do tại sao chúng tôi có điều này hạn ngay tại đây. 396 00:19:23,340 --> 00:19:24,670 Xác suất của Gaga. 397 00:19:24,670 --> 00:19:26,950 Làm cho tinh thần? 398 00:19:26,950 --> 00:19:28,660 Đúng không? 399 00:19:28,660 --> 00:19:29,370 OK. 400 00:19:29,370 --> 00:19:33,500 >> Và cuối cùng chỉ là xác suất của "em bé" mà không 401 00:19:33,500 --> 00:19:34,810 thực sự quan trọng mà nhiều. 402 00:19:34,810 --> 00:19:39,940 Nhưng đó là xác suất nhìn thấy "em bé" trong tiếng Anh. 403 00:19:39,940 --> 00:19:42,725 Chúng ta thường không quan tâm rằng nhiều về thuật ngữ đó. 404 00:19:42,725 --> 00:19:44,490 Điều đó có ý nghĩa? 405 00:19:44,490 --> 00:19:48,110 Vì vậy, xác suất của Gaga là được gọi là xác suất trước 406 00:19:48,110 --> 00:19:49,530 của Gaga lớp. 407 00:19:49,530 --> 00:19:53,840 Bởi vì nó chỉ có nghĩa là, là những gì xác suất có lớp - 408 00:19:53,840 --> 00:19:55,520 đó là Gaga - 409 00:19:55,520 --> 00:19:59,350 chỉ nói chung, chỉ không có điều kiện. 410 00:19:59,350 --> 00:20:02,560 >> Và sau đó khi tôi có khả năng Gaga cho "em bé", chúng tôi gọi nó là cộng 411 00:20:02,560 --> 00:20:06,160 khóc một xác suất bởi vì nó là khả năng có 412 00:20:06,160 --> 00:20:08,300 Gaga đưa ra một số bằng chứng. 413 00:20:08,300 --> 00:20:11,050 Vì vậy, tôi cho bạn bằng chứng mà tôi thấy em bé từ và 414 00:20:11,050 --> 00:20:12,690 bài hát có ý nghĩa? 415 00:20:12,690 --> 00:20:15,960 416 00:20:15,960 --> 00:20:16,410 OK. 417 00:20:16,410 --> 00:20:22,400 >> Vì vậy, nếu tôi tính rằng đối với mỗi các bài hát cho Lady Gaga, 418 00:20:22,400 --> 00:20:25,916 những gì mà có thể - 419 00:20:25,916 --> 00:20:27,730 rõ ràng, tôi không thể di chuyển này. 420 00:20:27,730 --> 00:20:31,850 421 00:20:31,850 --> 00:20:36,920 Xác suất của Gaga sẽ một cái gì đó như thế, 2 trên 24, lần 1/2, 422 00:20:36,920 --> 00:20:38,260 hơn 2 hơn 53. 423 00:20:38,260 --> 00:20:40,640 Nó không quan trọng nếu bạn biết những gì những con số này đang đến từ. 424 00:20:40,640 --> 00:20:44,750 Nhưng nó chỉ là một con số đó sẽ được nhiều hơn 0, phải không? 425 00:20:44,750 --> 00:20:48,610 >> Và sau đó khi tôi làm Katy Perry, xác suất của "bé" cho Katy là 426 00:20:48,610 --> 00:20:49,830 đã 0, phải không? 427 00:20:49,830 --> 00:20:52,820 Bởi vì không có "em bé" trong Katy Perry. 428 00:20:52,820 --> 00:20:56,360 Vì vậy, sau đó điều này trở thành 0, và Gaga chiến thắng, có nghĩa là Gaga 429 00:20:56,360 --> 00:20:57,310 có lẽ là ca sĩ. 430 00:20:57,310 --> 00:20:58,560 Điều đó có ý nghĩa? 431 00:20:58,560 --> 00:21:00,700 432 00:21:00,700 --> 00:21:01,950 OK. 433 00:21:01,950 --> 00:21:04,160 434 00:21:04,160 --> 00:21:11,750 >> Vì vậy, nếu tôi muốn làm chính thức này nhiều hơn, Tôi thực sự có thể làm một mô hình 435 00:21:11,750 --> 00:21:12,700 cho nhiều từ. 436 00:21:12,700 --> 00:21:14,610 Vì vậy, hãy nói rằng tôi có một cái gì đó như, "em bé, tôi 437 00:21:14,610 --> 00:21:16,030 trên lửa ", hoặc một cái gì đó. 438 00:21:16,030 --> 00:21:17,760 Vì vậy, nó có nhiều từ. 439 00:21:17,760 --> 00:21:20,880 Và trong trường hợp này, bạn có thể nhìn thấy rằng "bé bự" này trong Gaga, 440 00:21:20,880 --> 00:21:21,710 nhưng nó không phải ở Katy. 441 00:21:21,710 --> 00:21:24,940 Và "lửa" là ở Katy, nhưng nó không có trong Gaga, phải không? 442 00:21:24,940 --> 00:21:27,200 Vì vậy, nó nhận được phức tạp hơn, phải không? 443 00:21:27,200 --> 00:21:31,440 Bởi vì có vẻ như là bạn gần như có một tie giữa hai người. 444 00:21:31,440 --> 00:21:36,980 >> Vì vậy, những gì bạn phải làm là giả định không lệ thuộc giữa các từ. 445 00:21:36,980 --> 00:21:41,210 Vì vậy, về cơ bản điều đó có nghĩa là Tôi chỉ tính toán những gì là 446 00:21:41,210 --> 00:21:44,330 khả năng nhìn thấy "em bé", là những gì khả năng nhìn thấy "tôi", và 447 00:21:44,330 --> 00:21:46,670 "Là", và "trên" và "lửa" tất cả các cách riêng biệt. 448 00:21:46,670 --> 00:21:48,670 Sau đó, tôi nhân tất cả trong số họ. 449 00:21:48,670 --> 00:21:52,420 Và tôi nhìn thấy xác suất là gì nhìn thấy toàn bộ câu. 450 00:21:52,420 --> 00:21:55,210 Có ý nghĩa? 451 00:21:55,210 --> 00:22:00,270 >> Vì vậy, về cơ bản, nếu tôi chỉ có một từ, những gì tôi muốn tìm max arg là, 452 00:22:00,270 --> 00:22:05,385 có nghĩa là, các lớp học đó là là những gì đem lại cho tôi xác suất cao nhất? 453 00:22:05,385 --> 00:22:10,010 Vì vậy, các lớp học được cho là những gì tôi xác suất cao nhất cho 454 00:22:10,010 --> 00:22:11,940 xác suất của lớp cho chữ. 455 00:22:11,940 --> 00:22:17,610 Vì vậy, trong trường hợp này, Gaga cho "em bé". Hoặc Katy cho "em bé". Có ý nghĩa? 456 00:22:17,610 --> 00:22:21,040 >> Và chỉ từ Bayes, mà phương trình mà tôi cho thấy, 457 00:22:21,040 --> 00:22:24,780 chúng tôi tạo ra phần này. 458 00:22:24,780 --> 00:22:28,750 Điều duy nhất là bạn thấy rằng xác suất của từ cho các 459 00:22:28,750 --> 00:22:31,370 thay đổi class phụ thuộc trên lớp, phải không? 460 00:22:31,370 --> 00:22:34,260 Số lượng các "em bé" của tôi có trong Gaga khác với Katy. 461 00:22:34,260 --> 00:22:37,640 Xác suất của lớp cũng thay đổi bởi vì nó chỉ số 462 00:22:37,640 --> 00:22:39,740 các bài hát mỗi trong số họ có. 463 00:22:39,740 --> 00:22:43,980 >> Nhưng xác suất của các từ chính nó sẽ là như nhau cho tất cả các 464 00:22:43,980 --> 00:22:44,740 nghệ sĩ, phải không? 465 00:22:44,740 --> 00:22:47,150 Vì vậy, xác suất của từ này là chỉ, xác suất là gì 466 00:22:47,150 --> 00:22:49,820 nhìn thấy từ đó trong Ngôn ngữ tiếng Anh? 467 00:22:49,820 --> 00:22:51,420 Vì vậy, nó là như nhau cho tất cả chúng. 468 00:22:51,420 --> 00:22:55,790 Vì vậy, vì đây là không đổi, chúng ta có thể chỉ thả và không quan tâm đến nó. 469 00:22:55,790 --> 00:23:00,230 Vì vậy, đây sẽ thực sự là phương trình chúng tôi đang tìm kiếm. 470 00:23:00,230 --> 00:23:03,360 >> Và nếu tôi có nhiều từ, tôi vẫn sẽ có trước 471 00:23:03,360 --> 00:23:04,610 xác suất đây. 472 00:23:04,610 --> 00:23:06,980 Điều duy nhất là tôi đang nhân xác suất 473 00:23:06,980 --> 00:23:08,490 tất cả các từ khác. 474 00:23:08,490 --> 00:23:10,110 Vì vậy, tôi nhân tất cả trong số họ. 475 00:23:10,110 --> 00:23:12,610 Có ý nghĩa? 476 00:23:12,610 --> 00:23:18,440 Có vẻ lạ, nhưng về cơ bản có nghĩa là, tính toán trước của lớp, và 477 00:23:18,440 --> 00:23:22,100 sau đó nhân với xác suất của mỗi các từ được trong lớp đó. 478 00:23:22,100 --> 00:23:24,620 479 00:23:24,620 --> 00:23:29,150 >> Và bạn biết rằng xác suất của một từ cho một lớp là có được các 480 00:23:29,150 --> 00:23:34,520 số lần bạn thấy từ đó trong mà lớp, chia cho số 481 00:23:34,520 --> 00:23:37,020 Nói cách bạn có trong đó lớp nói chung. 482 00:23:37,020 --> 00:23:37,990 Có ý nghĩa? 483 00:23:37,990 --> 00:23:41,680 Nó chỉ là cách "em bé" là 2 hơn số lượng từ mà 484 00:23:41,680 --> 00:23:43,020 Tôi đã có trong lời bài hát. 485 00:23:43,020 --> 00:23:45,130 Vì vậy, chỉ là tần số. 486 00:23:45,130 --> 00:23:46,260 >> Nhưng có một điều. 487 00:23:46,260 --> 00:23:51,250 Nhớ làm thế nào tôi đã cho thấy rằng xác suất của "em bé" là lời bài hát 488 00:23:51,250 --> 00:23:56,350 từ Katy Perry là 0 chỉ vì Katy Perry không có "em bé" ở tất cả? 489 00:23:56,350 --> 00:24:04,900 Nhưng nó âm thanh một chút khắc nghiệt chỉ chỉ đơn giản nói rằng lời bài hát không thể từ 490 00:24:04,900 --> 00:24:10,040 một nghệ sĩ chỉ vì họ không có từ đó đặc biệt là bất cứ lúc nào. 491 00:24:10,040 --> 00:24:13,330 >> Vì vậy bạn chỉ có thể nói, tốt, nếu bạn không có từ này, tôi sẽ 492 00:24:13,330 --> 00:24:15,640 cung cấp cho bạn một xác suất thấp hơn, nhưng tôi chỉ không sẽ 493 00:24:15,640 --> 00:24:17,420 cung cấp cho bạn 0 ngay lập tức. 494 00:24:17,420 --> 00:24:21,040 Bởi vì có thể đó là một cái gì đó như, "Cháy, chữa cháy, cháy, chữa cháy", mà là 495 00:24:21,040 --> 00:24:21,990 hoàn toàn Katy Perry. 496 00:24:21,990 --> 00:24:26,060 Và sau đó "em bé", và nó chỉ đi đến 0 ngay lập tức bởi vì có một 497 00:24:26,060 --> 00:24:27,250 "Em bé." 498 00:24:27,250 --> 00:24:31,440 >> Vì vậy, về cơ bản những gì chúng tôi làm là một cái gì đó gọi là Laplace mịn. 499 00:24:31,440 --> 00:24:36,260 Và điều này chỉ có nghĩa là tôi đang cho một số xác suất thậm chí đến từ 500 00:24:36,260 --> 00:24:37,850 không tồn tại. 501 00:24:37,850 --> 00:24:43,170 Vì vậy, những gì tôi làm là khi tôi tính toán này, tôi luôn luôn thêm 1 vào 502 00:24:43,170 --> 00:24:44,180 tử số. 503 00:24:44,180 --> 00:24:48,060 Vì vậy, ngay cả khi từ không tồn tại, trong trường hợp này, nếu điều này là 0, tôi vẫn còn 504 00:24:48,060 --> 00:24:51,250 tính toán này là 1 trong tổng số từ. 505 00:24:51,250 --> 00:24:55,060 Nếu không, tôi nhận được bao nhiêu từ Tôi có và tôi thêm 1. 506 00:24:55,060 --> 00:24:58,300 Vì vậy, tôi đếm cho cả hai trường hợp. 507 00:24:58,300 --> 00:25:00,430 Có ý nghĩa? 508 00:25:00,430 --> 00:25:03,060 >> Vì vậy, bây giờ chúng ta hãy làm một số mã hóa. 509 00:25:03,060 --> 00:25:06,440 Tôi sẽ phải làm điều đó khá nhanh, nhưng nó chỉ quan trọng là bạn 510 00:25:06,440 --> 00:25:08,600 kẻ hiểu các khái niệm. 511 00:25:08,600 --> 00:25:13,450 Vì vậy, những gì chúng tôi đang cố gắng làm được chính xác thực hiện điều này 512 00:25:13,450 --> 00:25:14,330 điều mà tôi vừa nói - 513 00:25:14,330 --> 00:25:19,110 Tôi muốn bạn đưa lời bài hát từ Lady Gaga và Katy Perry. 514 00:25:19,110 --> 00:25:22,980 Và chương trình sẽ có thể nói rằng nếu những lời bài hát mới từ Gaga 515 00:25:22,980 --> 00:25:24,170 hay Katy Perry. 516 00:25:24,170 --> 00:25:25,800 Có ý nghĩa? 517 00:25:25,800 --> 00:25:27,530 OK. 518 00:25:27,530 --> 00:25:30,710 >> Vì vậy, tôi có chương trình này tôi sẽ gọi classify.py. 519 00:25:30,710 --> 00:25:31,970 Vì vậy, đây là Python. 520 00:25:31,970 --> 00:25:34,210 Đó là một ngôn ngữ lập trình mới. 521 00:25:34,210 --> 00:25:38,020 Nó rất giống trong một số cách để C và PHP. 522 00:25:38,020 --> 00:25:43,180 Nó tương tự như bởi vì nếu bạn muốn tìm hiểu Python sau khi biết C, đó là 523 00:25:43,180 --> 00:25:46,270 thực sự không phải là nhiều thách thức chỉ vì Python là dễ dàng hơn nhiều 524 00:25:46,270 --> 00:25:47,520 hơn so với C, đầu tiên của tất cả. 525 00:25:47,520 --> 00:25:49,370 Và rất nhiều thứ đã thực hiện cho bạn. 526 00:25:49,370 --> 00:25:56,820 Vì vậy, như thế nào như PHP có chức năng sắp xếp một danh sách, hoặc nối thêm một cái gì đó 527 00:25:56,820 --> 00:25:58,780 để một mảng, hoặc blah, blah, blah. 528 00:25:58,780 --> 00:26:00,690 Python có tất cả những người là tốt. 529 00:26:00,690 --> 00:26:05,960 >> Vì vậy, tôi chỉ cần đi để giải thích một cách nhanh chóng làm sao chúng ta có thể làm việc phân loại 530 00:26:05,960 --> 00:26:07,860 vấn đề cho ở đây. 531 00:26:07,860 --> 00:26:13,230 Vì vậy, hãy nói rằng trong trường hợp này, tôi có lời bài hát từ Gaga và Katy Perry. 532 00:26:13,230 --> 00:26:21,880 Cách mà tôi có những lời bài hát là từ đầu tiên của lời bài hát là 533 00:26:21,880 --> 00:26:25,250 tên của các nghệ sĩ, và phần còn lại là lời bài hát. 534 00:26:25,250 --> 00:26:29,470 Vì vậy, hãy nói rằng tôi có danh sách này trong mà đầu tiên là lời bài hát của Gaga. 535 00:26:29,470 --> 00:26:31,930 Vì vậy, ở đây tôi đi đúng hướng. 536 00:26:31,930 --> 00:26:35,270 Và tiếp theo là Katy, và nó cũng có lời bài hát. 537 00:26:35,270 --> 00:26:38,040 >> Vì vậy, đây là cách bạn khai báo một biến trong Python. 538 00:26:38,040 --> 00:26:40,200 Bạn không có để cung cấp cho các kiểu dữ liệu. 539 00:26:40,200 --> 00:26:43,150 Bạn chỉ cần viết "lời bài hát," loại thích trong PHP. 540 00:26:43,150 --> 00:26:44,890 Có ý nghĩa? 541 00:26:44,890 --> 00:26:47,770 >> Vì vậy, những điều mà tôi có là gì tính toán để có thể tính toán 542 00:26:47,770 --> 00:26:49,360 xác suất? 543 00:26:49,360 --> 00:26:55,110 Tôi phải tính toán "tiền án" của mỗi khác nhau 544 00:26:55,110 --> 00:26:56,710 các lớp học mà tôi có. 545 00:26:56,710 --> 00:27:06,680 Tôi phải tính toán "posteriors" hoặc khá nhiều xác suất của 546 00:27:06,680 --> 00:27:12,150 mỗi từ khác nhau mà Tôi có thể có cho mỗi nghệ sĩ. 547 00:27:12,150 --> 00:27:17,210 Vì vậy, trong Gaga, ví dụ, tôi sẽ để có một danh sách bao nhiêu lần tôi nhìn thấy 548 00:27:17,210 --> 00:27:19,250 mỗi từ. 549 00:27:19,250 --> 00:27:20,760 Có ý nghĩa? 550 00:27:20,760 --> 00:27:25,370 >> Và cuối cùng, tôi chỉ cần đi để có một danh sách được gọi là "chữ" mà là chỉ cần đi 551 00:27:25,370 --> 00:27:29,780 có bao nhiêu lời tôi có cho mỗi nghệ sĩ. 552 00:27:29,780 --> 00:27:33,760 Vì vậy, cho Gaga, ví dụ, khi tôi nhìn lời bài hát, tôi đã, tôi nghĩ rằng, 24 553 00:27:33,760 --> 00:27:34,750 từ trong tổng số. 554 00:27:34,750 --> 00:27:38,970 Vì vậy, danh sách này chỉ là sẽ có Gaga 24, và Katy số khác. 555 00:27:38,970 --> 00:27:40,130 Có ý nghĩa? 556 00:27:40,130 --> 00:27:40,560 OK. 557 00:27:40,560 --> 00:27:42,530 >> Vì vậy, bây giờ, thực sự, chúng ta hãy đi đến mã hóa. 558 00:27:42,530 --> 00:27:45,270 Vì vậy, trong Python, bạn có thể thực sự trả về một loạt các khác nhau 559 00:27:45,270 --> 00:27:46,630 điều từ một hàm. 560 00:27:46,630 --> 00:27:50,810 Vì vậy, tôi sẽ tạo ra chức năng này được gọi là "có điều kiện", mà là có 561 00:27:50,810 --> 00:27:53,890 trả lại tất cả những điều đó, các "Tiền án", là "xác suất", và 562 00:27:53,890 --> 00:28:05,690 "Lời nói". Vì vậy, "có điều kiện", và đó là sẽ được gọi vào "lời bài hát." 563 00:28:05,690 --> 00:28:11,510 >> Vì vậy, bây giờ tôi muốn bạn thực sự viết chức năng này. 564 00:28:11,510 --> 00:28:17,750 Vì vậy, cách mà tôi có thể viết này chức năng là tôi chỉ định nghĩa này 565 00:28:17,750 --> 00:28:20,620 hoạt động với "nét". Vì vậy, tôi đã làm "def có điều kiện ", và nó dùng 566 00:28:20,620 --> 00:28:28,700 "Lời bài hát." Và điều này sẽ làm là, trước hết, tôi có tiền án của tôi 567 00:28:28,700 --> 00:28:31,030 mà tôi muốn để tính toán. 568 00:28:31,030 --> 00:28:34,330 >> Vì vậy, cách mà tôi có thể làm điều này là tạo ra một từ điển trong Python, mà 569 00:28:34,330 --> 00:28:37,320 là khá nhiều điều tương tự như một băm bảng, hoặc nó giống như một lặp đi lặp lại 570 00:28:37,320 --> 00:28:40,480 mảng trong PHP. 571 00:28:40,480 --> 00:28:44,150 Đây là cách tôi tuyên bố một từ điển. 572 00:28:44,150 --> 00:28:53,580 Và về cơ bản điều này có nghĩa là tiền án của Gaga là 0,5, ví dụ, nếu 573 00:28:53,580 --> 00:28:57,200 50% lời bài hát từ Gaga, 50% là từ Katy. 574 00:28:57,200 --> 00:28:58,450 Có ý nghĩa? 575 00:28:58,450 --> 00:29:00,680 576 00:29:00,680 --> 00:29:03,680 Vì vậy, tôi phải tìm ra cách để tính toán tiền án. 577 00:29:03,680 --> 00:29:07,120 >> Những người tiếp theo mà tôi phải làm, cũng, là xác suất và các từ. 578 00:29:07,120 --> 00:29:17,100 Vì vậy, xác suất của Gaga là danh sách của tất cả các xác suất mà tôi 579 00:29:17,100 --> 00:29:19,160 có cho mỗi từ cho Gaga. 580 00:29:19,160 --> 00:29:23,880 Vì vậy, nếu tôi đi đến xác suất của Gaga "Em bé", ví dụ, nó sẽ cung cấp cho tôi 581 00:29:23,880 --> 00:29:28,750 một cái gì đó giống như 2 trên 24 trong trường hợp đó. 582 00:29:28,750 --> 00:29:30,070 Có ý nghĩa? 583 00:29:30,070 --> 00:29:36,120 Vì vậy, tôi đi đến "xác suất", đi đến "Gaga" thùng đó có một danh sách của tất cả các 584 00:29:36,120 --> 00:29:40,550 từ Gaga, sau đó tôi đi đến "em bé" và tôi thấy xác suất. 585 00:29:40,550 --> 00:29:45,940 >> Và cuối cùng tôi có điều này "Chữ" từ điển. 586 00:29:45,940 --> 00:29:53,620 Vì vậy, ở đây, "xác suất". Và sau đó "Lời nói". Vì vậy, nếu tôi làm "từ", "Gaga," 587 00:29:53,620 --> 00:29:58,330 những gì sẽ xảy ra là nó sẽ cung cấp cho tôi 24, nói rằng tôi 588 00:29:58,330 --> 00:30:01,990 có 24 chữ trong lời bài hát từ Gaga. 589 00:30:01,990 --> 00:30:04,110 Làm cho tinh thần? 590 00:30:04,110 --> 00:30:07,070 Vì vậy, ở đây, "lời" bằng dah-dah-dah. 591 00:30:07,070 --> 00:30:07,620 OK 592 00:30:07,620 --> 00:30:12,210 >> Vì vậy, những gì tôi sẽ làm là tôi sẽ iterate qua từng lời bài hát, vì vậy 593 00:30:12,210 --> 00:30:14,490 mỗi chuỗi Tôi có trong danh sách. 594 00:30:14,490 --> 00:30:18,040 Và tôi sẽ tính toán những điều cho mỗi ứng cử viên. 595 00:30:18,040 --> 00:30:19,950 Làm cho tinh thần? 596 00:30:19,950 --> 00:30:21,700 Vì vậy, tôi phải làm một vòng lặp. 597 00:30:21,700 --> 00:30:26,300 >> Vì vậy, trong Python những gì tôi có thể làm là "cho dòng trong lời bài hát. "Điều tương tự cũng như một 598 00:30:26,300 --> 00:30:28,000 "Cho từng" tuyên bố trong PHP. 599 00:30:28,000 --> 00:30:33,420 Nhớ làm thế nào nếu nó là PHP tôi có thể nói "cho từng lời bài hát như 600 00:30:33,420 --> 00:30:35,220 dòng. "Làm cho tinh thần? 601 00:30:35,220 --> 00:30:38,900 Vì vậy, tôi đang tham gia mỗi dòng, trong này trường hợp, chuỗi này và tiếp theo 602 00:30:38,900 --> 00:30:44,540 chuỗi để cho mỗi dòng những gì tôi sẽ làm là đầu tiên, tôi sẽ 603 00:30:44,540 --> 00:30:49,150 chia dòng này vào một danh sách các Nói cách bằng dấu cách. 604 00:30:49,150 --> 00:30:53,730 >> Vì vậy, điều thú vị về Python là bạn chỉ có thể Google như "làm thế nào tôi có thể 605 00:30:53,730 --> 00:30:58,220 tách một chuỗi thành lời? "Và nó sẽ cho bạn biết làm thế nào để làm điều đó. 606 00:30:58,220 --> 00:31:04,890 Và cách để làm điều đó, nó chỉ là "dòng = Line.split () "và đó là cơ bản 607 00:31:04,890 --> 00:31:08,640 sẽ cung cấp cho bạn một danh sách với mỗi từ đây. 608 00:31:08,640 --> 00:31:09,620 Làm cho tinh thần? 609 00:31:09,620 --> 00:31:15,870 Vì vậy, bây giờ mà tôi đã làm điều đó, tôi muốn biết ai là ca sĩ của bài hát đó. 610 00:31:15,870 --> 00:31:20,130 Và để làm điều đó tôi chỉ cần có để có được Yếu tố đầu tiên của mảng, phải không? 611 00:31:20,130 --> 00:31:26,390 Vì vậy, tôi chỉ có thể nói rằng tôi ", ca sĩ = Dòng (0) "Làm cho tinh thần? 612 00:31:26,390 --> 00:31:32,010 >> Và sau đó là những gì tôi cần làm là, trước tất cả, tôi sẽ cập nhật bao nhiêu 613 00:31:32,010 --> 00:31:36,130 Nói cách tôi có theo "Gaga." vì vậy tôi chỉ sẽ tính toán bao nhiêu lời tôi 614 00:31:36,130 --> 00:31:38,690 có trong danh sách này, phải không? 615 00:31:38,690 --> 00:31:41,910 Bởi vì đây là bao nhiêu lời tôi có trong lời bài hát và tôi chỉ cần đi đến 616 00:31:41,910 --> 00:31:44,120 thêm nó vào mảng "Gaga". 617 00:31:44,120 --> 00:31:47,090 Điều đó có ý nghĩa? 618 00:31:47,090 --> 00:31:49,010 Không tập trung quá nhiều vào các cú pháp. 619 00:31:49,010 --> 00:31:50,430 Suy nghĩ nhiều hơn về các khái niệm. 620 00:31:50,430 --> 00:31:52,400 Đó là phần quan trọng nhất. 621 00:31:52,400 --> 00:31:52,720 OK. 622 00:31:52,720 --> 00:32:00,260 >> Vì vậy, những gì tôi có thể làm điều đó là nếu "Gaga" là đã có trong danh sách đó, vì vậy "nếu ca sĩ trong 623 00:32:00,260 --> 00:32:03,190 từ "có nghĩa là tôi đã có từ bằng cách Gaga. 624 00:32:03,190 --> 00:32:06,640 Tôi chỉ muốn thêm thêm từ đó. 625 00:32:06,640 --> 00:32:15,810 Vì vậy, những gì tôi làm "từ (ca sĩ) là + = Len (đường) - 1 ". 626 00:32:15,810 --> 00:32:18,250 Và sau đó tôi chỉ có thể làm chiều dài của đường. 627 00:32:18,250 --> 00:32:21,860 Vậy làm thế nào nhiều yếu tố tôi có trong mảng. 628 00:32:21,860 --> 00:32:27,060 Và tôi phải làm trừ đi 1 chỉ vì các yếu tố đầu tiên của mảng chỉ là 629 00:32:27,060 --> 00:32:29,180 một ca sĩ và những người không phải lời bài hát. 630 00:32:29,180 --> 00:32:31,420 Làm cho tinh thần? 631 00:32:31,420 --> 00:32:32,780 OK. 632 00:32:32,780 --> 00:32:35,820 >> "Khác", nó có nghĩa là tôi muốn thực sự chèn Gaga vào danh sách. 633 00:32:35,820 --> 00:32:45,990 Vì vậy, tôi chỉ cần làm "từ (ca sĩ) = Len (đường) - 1 ", xin lỗi. 634 00:32:45,990 --> 00:32:49,200 Vì vậy, sự khác biệt duy nhất giữa hai đường là một trong những điều này, nó không 635 00:32:49,200 --> 00:32:51,080 tồn tại, vì vậy tôi chỉ khởi tạo nó. 636 00:32:51,080 --> 00:32:53,820 Điều này tôi thực sự thêm. 637 00:32:53,820 --> 00:32:55,570 OK. 638 00:32:55,570 --> 00:32:59,480 Vì vậy, điều này đã được thêm vào từ. 639 00:32:59,480 --> 00:33:03,040 >> Bây giờ tôi muốn thêm vào tiền án. 640 00:33:03,040 --> 00:33:05,480 Vì vậy, làm thế nào để tính toán tiền án? 641 00:33:05,480 --> 00:33:11,580 Các tiền án có thể được tính bao nhiêu lần. 642 00:33:11,580 --> 00:33:15,340 Vì vậy, bao nhiêu lần bạn nhìn thấy ca sĩ trong số tất cả các ca sĩ mà bạn 643 00:33:15,340 --> 00:33:16,380 có, phải không? 644 00:33:16,380 --> 00:33:18,810 Vì vậy, cho Gaga và Katy Perry, trong trường hợp này, tôi thấy Gaga 645 00:33:18,810 --> 00:33:20,570 một lần, Katy Perry một lần. 646 00:33:20,570 --> 00:33:23,320 >> Vì vậy, về cơ bản các tiền án cho Gaga và Katy Perry sẽ 647 00:33:23,320 --> 00:33:24,390 chỉ là một, phải không? 648 00:33:24,390 --> 00:33:26,500 Bạn chỉ cần bao nhiêu lần Tôi thấy các nghệ sĩ. 649 00:33:26,500 --> 00:33:28,740 Vì vậy, đây là rất dễ dàng để tính toán. 650 00:33:28,740 --> 00:33:34,100 Tôi có thể chỉ cần một cái gì đó tương tự như như "nếu ca sĩ trong tiền án, "tôi chỉ cần đi 651 00:33:34,100 --> 00:33:38,970 thêm 1 hộp tiền án của họ. 652 00:33:38,970 --> 00:33:51,000 Vì vậy, "tiền án (hát)" + = 1 "và sau đó" khác " Tôi sẽ làm "tiền án (ca sĩ) 653 00:33:51,000 --> 00:33:55,000 = 1. "Làm cho tinh thần? 654 00:33:55,000 --> 00:34:00,080 >> Vì vậy, nếu nó không tồn tại Tôi chỉ cần đặt như 1, nếu không tôi chỉ cần thêm 1. 655 00:34:00,080 --> 00:34:11,280 OK, vì vậy bây giờ tất cả những gì tôi đã phải làm cũng được thêm mỗi từ đến 656 00:34:11,280 --> 00:34:12,290 xác suất. 657 00:34:12,290 --> 00:34:14,889 Vì vậy tôi phải đếm bao nhiêu lần Tôi thấy mỗi từ. 658 00:34:14,889 --> 00:34:18,780 Vì vậy, tôi chỉ phải làm khác cho vòng lặp trong dòng. 659 00:34:18,780 --> 00:34:25,190 >> Vì vậy, trước điều mà tôi sẽ làm là kiểm tra xem các ca sĩ đã có một 660 00:34:25,190 --> 00:34:26,969 xác suất mảng. 661 00:34:26,969 --> 00:34:31,739 Vì vậy, tôi kiểm tra nếu ca sĩ không có một mảng xác suất, tôi chỉ 662 00:34:31,739 --> 00:34:34,480 sẽ khởi tạo một cho họ. 663 00:34:34,480 --> 00:34:36,400 Nó thậm chí không một mảng, xin lỗi, đó là một từ điển. 664 00:34:36,400 --> 00:34:43,080 Vì vậy, xác suất của các ca sĩ sẽ là một từ điển mở, vì vậy tôi 665 00:34:43,080 --> 00:34:45,830 chỉ khởi tạo một từ điển cho nó. 666 00:34:45,830 --> 00:34:46,820 OK? 667 00:34:46,820 --> 00:34:58,330 >> Và bây giờ tôi thực sự có thể làm cho vòng lặp để tính toán mỗi từ ' 668 00:34:58,330 --> 00:35:00,604 xác suất. 669 00:35:00,604 --> 00:35:01,540 OK. 670 00:35:01,540 --> 00:35:04,160 Vì vậy, những gì tôi có thể làm là cho vòng lặp. 671 00:35:04,160 --> 00:35:06,590 Vì vậy, tôi chỉ cần đi để lặp trên mảng. 672 00:35:06,590 --> 00:35:15,320 Vì vậy, cách mà tôi có thể làm điều đó trong Python là "cho tôi trong phạm vi." Từ 1 673 00:35:15,320 --> 00:35:19,200 bởi vì tôi muốn bắt đầu trong lần thứ hai yếu tố bởi vì đầu tiên là một trong những 674 00:35:19,200 --> 00:35:20,260 tên ca sĩ. 675 00:35:20,260 --> 00:35:24,990 Vì vậy, từ một đến chiều dài của đường. 676 00:35:24,990 --> 00:35:29,760 Và khi tôi khoảng nó thực sự đi từ như ở đây từ 1 đến len của 677 00:35:29,760 --> 00:35:30,740 dòng trừ đi 1. 678 00:35:30,740 --> 00:35:33,810 Vì vậy, nó đã làm điều đó làm n trừ đi 1 cho mảng rất 679 00:35:33,810 --> 00:35:35,500 thuận tiện. 680 00:35:35,500 --> 00:35:37,850 Làm cho tinh thần? 681 00:35:37,850 --> 00:35:42,770 >> Vì vậy, cho mỗi trong số này, những gì tôi sẽ làm là, giống như trong một trong những khác, 682 00:35:42,770 --> 00:35:50,320 Tôi sẽ kiểm tra xem các từ trong này vị trí trong dòng đã có trong 683 00:35:50,320 --> 00:35:51,570 xác suất. 684 00:35:51,570 --> 00:35:53,400 685 00:35:53,400 --> 00:35:57,260 Và sau đó như tôi đã nói ở đây, xác suất từ, như trong tôi đặt 686 00:35:57,260 --> 00:35:58,400 "Xác suất (ca sĩ)". 687 00:35:58,400 --> 00:35:59,390 Vì vậy, tên của ca sĩ. 688 00:35:59,390 --> 00:36:03,450 Vì vậy, nếu nó đã có trong "Probabilit (ca sĩ)", có nghĩa là tôi 689 00:36:03,450 --> 00:36:11,960 muốn thêm 1 vào nó, vì vậy tôi sẽ làm "xác suất (ca sĩ)", và 690 00:36:11,960 --> 00:36:14,100 từ được gọi là "dòng (i)". 691 00:36:14,100 --> 00:36:22,630 Tôi sẽ thêm 1 và "khác" Tôi chỉ sẽ khởi tạo nó để 1. 692 00:36:22,630 --> 00:36:23,880 "Line (i)". 693 00:36:23,880 --> 00:36:26,920 694 00:36:26,920 --> 00:36:28,420 Làm cho tinh thần? 695 00:36:28,420 --> 00:36:30,180 >> Vì vậy, tôi tính tất cả các mảng. 696 00:36:30,180 --> 00:36:36,580 Vì vậy, bây giờ tất cả những gì tôi phải làm cho này chỉ là "trả lại tiền án, 697 00:36:36,580 --> 00:36:43,230 xác suất và lời nói. "Hãy xem nếu có bất kỳ, OK. 698 00:36:43,230 --> 00:36:45,690 Có vẻ như tất cả mọi thứ đang làm việc cho đến nay. 699 00:36:45,690 --> 00:36:46,900 Vì vậy, có ý nghĩa? 700 00:36:46,900 --> 00:36:47,750 Một cách nào đó? 701 00:36:47,750 --> 00:36:49,280 OK. 702 00:36:49,280 --> 00:36:51,980 Vì vậy, bây giờ tôi có tất cả các xác suất. 703 00:36:51,980 --> 00:36:55,100 Vì vậy, bây giờ điều duy nhất tôi đã để lại chỉ có điều đó 704 00:36:55,100 --> 00:36:58,650 tính toán các sản phẩm của tất cả các xác suất khi tôi nhận được lời bài hát. 705 00:36:58,650 --> 00:37:06,270 >> Vì vậy, hãy nói rằng tôi muốn bây giờ gọi chức năng này "phân loại ()" và 706 00:37:06,270 --> 00:37:08,880 điều chức năng mà mất chỉ là một cuộc tranh cãi. 707 00:37:08,880 --> 00:37:13,170 Hãy nói rằng "Em yêu, tôi đang trên lửa" và nó sẽ tìm ra những gì là 708 00:37:13,170 --> 00:37:14,490 xác suất này là Gaga? 709 00:37:14,490 --> 00:37:16,405 Xác suất là gì rằng đây là Katie? 710 00:37:16,405 --> 00:37:19,690 Âm thanh tốt? 711 00:37:19,690 --> 00:37:25,750 Vì vậy tôi chỉ sẽ phải tạo ra một chức năng mới được gọi là "phân loại ()" và 712 00:37:25,750 --> 00:37:29,180 nó sẽ mất một số lời bài hát là tốt. 713 00:37:29,180 --> 00:37:31,790 714 00:37:31,790 --> 00:37:36,160 Và bên cạnh đó lời bài hát tôi cũng phải gửi tiền án, các 715 00:37:36,160 --> 00:37:37,700 xác suất và các từ. 716 00:37:37,700 --> 00:37:44,000 Vì vậy, tôi sẽ gửi lời bài hát, tiền án, xác suất, từ. 717 00:37:44,000 --> 00:37:51,840 >> Vì vậy, đây là lấy lời bài hát, tiền án, xác suất, từ. 718 00:37:51,840 --> 00:37:53,530 Vì vậy, những gì nó làm gì? 719 00:37:53,530 --> 00:37:57,180 Nó về cơ bản là sẽ đi qua tất cả các ứng cử viên có thể là bạn 720 00:37:57,180 --> 00:37:58,510 có như là một ca sĩ. 721 00:37:58,510 --> 00:37:59,425 Và ở đâu là những ứng cử viên? 722 00:37:59,425 --> 00:38:01,020 Họ Trong tiền án, phải không? 723 00:38:01,020 --> 00:38:02,710 Vì vậy, tôi có tất cả những có. 724 00:38:02,710 --> 00:38:07,870 Vì vậy, tôi sẽ có một từ điển của tất cả các ứng cử viên có thể. 725 00:38:07,870 --> 00:38:14,220 Và sau đó cho mỗi ứng cử viên trong tiền án, vì vậy nó có nghĩa là nó sẽ 726 00:38:14,220 --> 00:38:17,740 được Gaga, Katie nếu tôi đã có hơn nó sẽ được nhiều hơn. 727 00:38:17,740 --> 00:38:20,410 Tôi sẽ bắt đầu tính toán xác suất này. 728 00:38:20,410 --> 00:38:28,310 Xác suất như chúng ta đã thấy trong các PowerPoint là lần trước khi các 729 00:38:28,310 --> 00:38:30,800 sản phẩm của mỗi xác suất khác. 730 00:38:30,800 --> 00:38:32,520 >> Vì vậy, tôi có thể làm như vậy ở đây. 731 00:38:32,520 --> 00:38:36,330 Tôi chỉ có thể làm xác suất là Ban đầu chỉ là trước. 732 00:38:36,330 --> 00:38:40,340 Vì vậy, tiền án của ứng viên. 733 00:38:40,340 --> 00:38:40,870 Phải không? 734 00:38:40,870 --> 00:38:45,360 Và bây giờ tôi phải lặp qua tất cả các Nói cách mà tôi có trong lời bài hát được 735 00:38:45,360 --> 00:38:48,820 có thể thêm xác suất cho mỗi người, OK? 736 00:38:48,820 --> 00:38:57,900 Vì vậy, "cho chữ trong lời bài hát" những gì tôi sẽ làm là, nếu từ trong 737 00:38:57,900 --> 00:39:01,640 "Xác suất (ứng cử viên)", mà có nghĩa là nó là một từ mà các 738 00:39:01,640 --> 00:39:03,640 ứng cử viên có trong lời bài hát của họ - 739 00:39:03,640 --> 00:39:05,940 ví dụ, "em bé" cho Gaga - 740 00:39:05,940 --> 00:39:11,710 những gì tôi sẽ làm là khả năng sẽ được nhân 741 00:39:11,710 --> 00:39:22,420 1 cộng với xác suất của các ứng cử viên cho từ đó. 742 00:39:22,420 --> 00:39:25,710 Và nó được gọi là "từ". 743 00:39:25,710 --> 00:39:32,440 Này chia cho số lượng từ mà tôi đã cho ứng cử viên đó. 744 00:39:32,440 --> 00:39:37,450 Tổng số lượng từ mà tôi có cho ca sĩ mà tôi đang nhìn vào. 745 00:39:37,450 --> 00:39:40,290 >> "Khac." có nghĩa là nó là một từ mới do đó, nó muốn được như ví dụ 746 00:39:40,290 --> 00:39:41,860 "Lửa" cho Lady Gaga. 747 00:39:41,860 --> 00:39:45,760 Vì vậy, tôi chỉ muốn làm 1 hơn "Từ (ứng cử viên)". 748 00:39:45,760 --> 00:39:47,710 Vì vậy, tôi không muốn đưa thuật ngữ này ở đây. 749 00:39:47,710 --> 00:39:50,010 >> Vì vậy, nó sẽ là cơ bản sao chép và dán này. 750 00:39:50,010 --> 00:39:54,380 751 00:39:54,380 --> 00:39:56,000 Nhưng tôi sẽ xóa phần này. 752 00:39:56,000 --> 00:39:57,610 Vì vậy, nó chỉ có được 1 trên đó. 753 00:39:57,610 --> 00:40:00,900 754 00:40:00,900 --> 00:40:02,150 Âm thanh tốt? 755 00:40:02,150 --> 00:40:03,980 756 00:40:03,980 --> 00:40:09,700 Và bây giờ cuối cùng, tôi chỉ cần đi đến in tên của thí sinh và 757 00:40:09,700 --> 00:40:15,750 xác suất mà bạn có của có S trên lời bài hát của họ. 758 00:40:15,750 --> 00:40:16,200 Làm cho tinh thần? 759 00:40:16,200 --> 00:40:18,390 Và tôi thực sự thậm chí không cần từ điển này. 760 00:40:18,390 --> 00:40:19,510 Làm cho tinh thần? 761 00:40:19,510 --> 00:40:21,810 >> Vì vậy, chúng ta hãy xem nếu điều này thực sự hoạt động. 762 00:40:21,810 --> 00:40:24,880 Vì vậy, nếu tôi chạy, nó không làm việc. 763 00:40:24,880 --> 00:40:26,130 Chờ đợi một giây. 764 00:40:26,130 --> 00:40:28,870 765 00:40:28,870 --> 00:40:31,720 "Từ ngữ (ứng cử viên)", "từ (ứng cử viên)", đó là 766 00:40:31,720 --> 00:40:33,750 tên của mảng. 767 00:40:33,750 --> 00:40:41,435 OK Vì vậy, nó nói có một số lỗi cho ứng cử viên trong tiền án. 768 00:40:41,435 --> 00:40:46,300 769 00:40:46,300 --> 00:40:48,760 Hãy để tôi thư giãn một chút. 770 00:40:48,760 --> 00:40:50,360 OK. 771 00:40:50,360 --> 00:40:51,305 Chúng ta hãy cố gắng. 772 00:40:51,305 --> 00:40:51,720 OK. 773 00:40:51,720 --> 00:40:58,710 >> Vì vậy, nó mang lại cho Katy Perry có này xác suất lần này 10 đến 774 00:40:58,710 --> 00:41:02,200 trừ đi 7, và Gaga có này Thời gian từ 10 đến trừ 6. 775 00:41:02,200 --> 00:41:05,610 Vì vậy, bạn thấy nó cho thấy rằng Gaga có một xác suất cao hơn. 776 00:41:05,610 --> 00:41:09,260 Vì vậy, "Baby, tôi on Fire" được có thể là một bài hát Gaga. 777 00:41:09,260 --> 00:41:10,580 Làm cho tinh thần? 778 00:41:10,580 --> 00:41:12,030 Vì vậy, đây là những gì chúng tôi đã làm. 779 00:41:12,030 --> 00:41:16,010 >> Mã này sẽ được đăng trực tuyến, vì vậy các bạn có thể kiểm tra xem nó ra. 780 00:41:16,010 --> 00:41:20,720 Có thể sử dụng một số của nó vì nếu bạn muốn làm một dự án hoặc một cái gì đó tương tự. 781 00:41:20,720 --> 00:41:22,150 OK. 782 00:41:22,150 --> 00:41:25,930 Đây là chỉ để hiển thị những gì tính toán 783 00:41:25,930 --> 00:41:27,230 đang ngôn ngữ học như thế nào. 784 00:41:27,230 --> 00:41:33,040 Nhưng bây giờ chúng ta hãy đi đến hơn mức cao thứ. 785 00:41:33,040 --> 00:41:33,340 OK. 786 00:41:33,340 --> 00:41:35,150 >> Vì vậy, các vấn đề khác tôi đang nói về - 787 00:41:35,150 --> 00:41:37,550 vấn đề phân chia là lần đầu tiên của họ. 788 00:41:37,550 --> 00:41:40,820 Vì vậy, bạn có ở đây Nhật Bản. 789 00:41:40,820 --> 00:41:43,420 Và sau đó bạn thấy rằng không có không gian. 790 00:41:43,420 --> 00:41:49,110 Vì vậy, đây là cơ bản có nghĩa là nó đầu ghế, phải không? 791 00:41:49,110 --> 00:41:50,550 Bạn nói tiếng Nhật? 792 00:41:50,550 --> 00:41:52,840 Đó là lên mặt ghế, phải không? 793 00:41:52,840 --> 00:41:54,480 >> HỌC SINH: Tôi không biết những gì các chữ Hán trên có. 794 00:41:54,480 --> 00:41:57,010 >> Lucas Freitas: Nó [NÓI TIẾNG NHẬT] 795 00:41:57,010 --> 00:41:57,950 OK. 796 00:41:57,950 --> 00:42:00,960 Vì vậy, về cơ bản có nghĩa là chủ tịch đầu. 797 00:42:00,960 --> 00:42:03,620 Vì vậy, nếu bạn đã phải đặt một không gian nó sẽ có mặt ở đây. 798 00:42:03,620 --> 00:42:05,970 Và sau đó bạn có [? Ueda-san. ?] 799 00:42:05,970 --> 00:42:09,040 Mà về cơ bản có nghĩa là ông Ueda. 800 00:42:09,040 --> 00:42:13,180 Và bạn thấy rằng "Ueda" và bạn có một không gian và sau đó "san." Vì vậy, bạn thấy rằng 801 00:42:13,180 --> 00:42:15,470 ở đây bạn "Ue" giống như của chính nó. 802 00:42:15,470 --> 00:42:17,750 Và ở đây nó có một nhân vật bên cạnh nó. 803 00:42:17,750 --> 00:42:21,720 >> Vì vậy, nó không giống như trong các ngôn ngữ ký tự có nghĩa là một từ nó, do đó bạn 804 00:42:21,720 --> 00:42:23,980 chỉ cần đặt rất nhiều không gian. 805 00:42:23,980 --> 00:42:25,500 Các nhân vật liên quan đến nhau. 806 00:42:25,500 --> 00:42:28,680 Và họ có thể cùng nhau như hai, ba, một. 807 00:42:28,680 --> 00:42:34,520 Vì vậy, bạn thực sự có để tạo ra một số loại cách đưa những không gian. 808 00:42:34,520 --> 00:42:38,850 >> Và điều này là bất cứ khi nào bạn nhận được dữ liệu từ những ngôn ngữ châu Á, 809 00:42:38,850 --> 00:42:40,580 tất cả mọi thứ đến không phân đốt. 810 00:42:40,580 --> 00:42:45,940 Bởi vì không có một người viết Nhật Bản hoặc Trung Quốc viết với không gian. 811 00:42:45,940 --> 00:42:48,200 Bất cứ khi nào bạn đang viết Trung Quốc, Nhật Bản bạn chỉ cần viết tất cả mọi thứ 812 00:42:48,200 --> 00:42:48,710 không có khoảng trống. 813 00:42:48,710 --> 00:42:52,060 Nó thậm chí không có ý nghĩa đặt không gian. 814 00:42:52,060 --> 00:42:57,960 Vì vậy, sau đó khi bạn nhận được dữ liệu từ, một số Ngôn ngữ Đông Á, nếu bạn muốn 815 00:42:57,960 --> 00:43:00,760 thực sự làm điều gì đó với bạn phải phân đoạn đầu tiên. 816 00:43:00,760 --> 00:43:05,130 >> Hãy suy nghĩ về làm ví dụ về lời bài hát không có dấu cách. 817 00:43:05,130 --> 00:43:07,950 Vì vậy, lời bài hát duy nhất mà bạn có sẽ có câu, phải không? 818 00:43:07,950 --> 00:43:09,470 Nhau bằng dấu chấm. 819 00:43:09,470 --> 00:43:13,930 Nhưng sau đó phải chỉ là câu sẽ không thực sự giúp đỡ về cung cấp thông tin 820 00:43:13,930 --> 00:43:17,760 của người những lời bài hát là do. 821 00:43:17,760 --> 00:43:18,120 Phải không? 822 00:43:18,120 --> 00:43:20,010 Vì vậy, bạn nên đặt các không gian đầu tiên. 823 00:43:20,010 --> 00:43:21,990 Vậy làm thế nào bạn có thể làm điều đó? 824 00:43:21,990 --> 00:43:24,920 >> Vì vậy, sau đó đến các ý tưởng của một ngôn ngữ mô hình đó là một cái gì đó thực sự 825 00:43:24,920 --> 00:43:26,870 quan trọng đối với tính toán ngôn ngữ học. 826 00:43:26,870 --> 00:43:32,790 Vì vậy, một mô hình ngôn ngữ cơ bản là một bảng xác suất mà các chương trình 827 00:43:32,790 --> 00:43:36,260 đầu tiên của tất cả các xác suất là gì của việc có các từ trong một ngôn ngữ? 828 00:43:36,260 --> 00:43:39,590 Vì vậy, cho thấy cách thường xuyên là một từ. 829 00:43:39,590 --> 00:43:43,130 Và sau đó cũng cho thấy mối quan hệ giữa các từ trong một câu. 830 00:43:43,130 --> 00:43:51,500 >> Vì vậy, ý tưởng chính là, nếu một người lạ đến cho bạn và nói một câu để 831 00:43:51,500 --> 00:43:55,600 bạn, xác suất là những gì đó, cho Ví dụ, "này là em gái của tôi [GTF?"?] 832 00:43:55,600 --> 00:43:57,480 là câu mà người nói? 833 00:43:57,480 --> 00:44:00,380 Vì vậy, rõ ràng là một số câu là phổ biến hơn những người khác. 834 00:44:00,380 --> 00:44:04,450 Ví dụ, "Chào buổi sáng", hoặc "tốt đêm ", hay" hey there "là nhiều hơn nữa 835 00:44:04,450 --> 00:44:08,260 phổ biến hơn so với hầu hết các câu chúng ta có một tiếng Anh. 836 00:44:08,260 --> 00:44:11,060 Vậy tại sao là những câu thường xuyên hơn? 837 00:44:11,060 --> 00:44:14,060 >> Trước hết, đó là vì bạn có từ đó thường xuyên hơn. 838 00:44:14,060 --> 00:44:20,180 Vì vậy, ví dụ, nếu bạn nói, con chó lớn, và con chó khổng lồ, bạn 839 00:44:20,180 --> 00:44:23,880 thường có thể nghe thấy con chó lớn thường xuyên hơn bởi vì "lớn" hơn 840 00:44:23,880 --> 00:44:27,260 thường xuyên bằng tiếng Anh hơn "khổng lồ". Vì vậy, một trong những 841 00:44:27,260 --> 00:44:30,100 điều là tần số từ. 842 00:44:30,100 --> 00:44:34,490 >> Điều thứ hai mà thực sự là quan trọng là chỉ 843 00:44:34,490 --> 00:44:35,490 thứ tự của các từ. 844 00:44:35,490 --> 00:44:39,500 Vì vậy, nó thường nói "con mèo là bên trong hộp. "nhưng bạn không thường 845 00:44:39,500 --> 00:44:44,250 nhìn thấy trong "Hộp bên trong là con mèo." để bạn thấy rằng có một số tầm quan trọng 846 00:44:44,250 --> 00:44:46,030 theo thứ tự của các từ. 847 00:44:46,030 --> 00:44:50,160 Bạn không thể chỉ nói rằng hai câu có cùng một xác suất 848 00:44:50,160 --> 00:44:53,010 chỉ vì họ có cùng một từ. 849 00:44:53,010 --> 00:44:55,550 Bạn thực sự phải quan tâm về trật tự là tốt. 850 00:44:55,550 --> 00:44:57,650 Có ý nghĩa? 851 00:44:57,650 --> 00:44:59,490 >> Vì vậy, chúng ta làm gì? 852 00:44:59,490 --> 00:45:01,550 Vì vậy, những gì tôi có thể cố gắng để có được bạn? 853 00:45:01,550 --> 00:45:04,400 Tôi đang cố gắng để có được bạn những gì chúng ta gọi các mô hình n-gram. 854 00:45:04,400 --> 00:45:09,095 Vì vậy, mô hình n-gram về cơ bản giả định rằng đối với mỗi từ đó 855 00:45:09,095 --> 00:45:10,960 bạn có trong một câu. 856 00:45:10,960 --> 00:45:15,020 Đó là khả năng có mà từ đó không chỉ phụ thuộc vào 857 00:45:15,020 --> 00:45:18,395 tần số của từ đó trong ngôn ngữ, mà còn về những từ mà 858 00:45:18,395 --> 00:45:19,860 được xung quanh nó. 859 00:45:19,860 --> 00:45:25,810 >> Vì vậy, ví dụ, thường khi bạn nhìn thấy một cái gì đó như trên hoặc bạn 860 00:45:25,810 --> 00:45:28,040 có thể sẽ thấy một danh từ sau nó, phải không? 861 00:45:28,040 --> 00:45:31,750 Bởi vì khi bạn có một giới từ thường phải mất một danh từ sau nó. 862 00:45:31,750 --> 00:45:35,540 Hoặc nếu bạn có một động từ có nghĩa là transitive bạn thường sẽ 863 00:45:35,540 --> 00:45:36,630 có một cụm danh từ. 864 00:45:36,630 --> 00:45:38,780 Vì vậy, nó sẽ có một danh từ ở đâu đó xung quanh nó. 865 00:45:38,780 --> 00:45:44,950 >> Vì vậy, về cơ bản, những gì nó làm là nó xem xét khả năng có 866 00:45:44,950 --> 00:45:47,960 từ bên cạnh nhau, khi bạn đang tính toán 867 00:45:47,960 --> 00:45:49,050 xác suất của một câu. 868 00:45:49,050 --> 00:45:50,960 Và đó là những gì một ngôn ngữ mô hình về cơ bản. 869 00:45:50,960 --> 00:45:54,620 Chỉ nói xác suất là những gì có một cụ thể 870 00:45:54,620 --> 00:45:57,120 câu trong một ngôn ngữ? 871 00:45:57,120 --> 00:45:59,110 Vậy tại sao là hữu ích, về cơ bản? 872 00:45:59,110 --> 00:46:02,390 Và lần đầu tiên của tất cả những gì là một mô hình n-gram, sau đó? 873 00:46:02,390 --> 00:46:08,850 >> Vì vậy, một mô hình n-gram có nghĩa là mỗi từ phụ thuộc vào 874 00:46:08,850 --> 00:46:12,700 N tiếp theo trừ đi 1 từ. 875 00:46:12,700 --> 00:46:18,150 Vì vậy, về cơ bản, nó có nghĩa là nếu tôi nhìn, Ví dụ, tại CS50 TF khi 876 00:46:18,150 --> 00:46:21,500 Tôi đang tính toán xác suất câu, bạn sẽ có như " 877 00:46:21,500 --> 00:46:25,280 xác suất có từ "là" Thời gian xác suất có " 878 00:46:25,280 --> 00:46:31,720 CS50 "lần xác suất có "Các TF CS50." Vì vậy, về cơ bản, tôi đếm 879 00:46:31,720 --> 00:46:35,720 tất cả các cách có thể kéo dài nó. 880 00:46:35,720 --> 00:46:41,870 >> Và sau đó thường là khi bạn đang làm điều này, như trong một dự án, bạn đặt N là 881 00:46:41,870 --> 00:46:42,600 một giá trị thấp. 882 00:46:42,600 --> 00:46:45,930 Vì vậy, thường có bigrams hoặc bát quái. 883 00:46:45,930 --> 00:46:51,090 Vì vậy, bạn chỉ cần đếm hai từ, một nhóm hai từ, hoặc ba từ, 884 00:46:51,090 --> 00:46:52,620 chỉ cho vấn đề hiệu suất. 885 00:46:52,620 --> 00:46:56,395 Và cũng bởi vì có thể nếu bạn có một cái gì đó như "The CS50 TF." Khi bạn 886 00:46:56,395 --> 00:47:00,510 có "TF", nó rất quan trọng là "CS50" là bên cạnh nó, phải không? 887 00:47:00,510 --> 00:47:04,050 Hai điều này thường bên cạnh nhau. 888 00:47:04,050 --> 00:47:06,410 >> Nếu bạn nghĩ rằng "TF," nó có thể là sẽ có những gì 889 00:47:06,410 --> 00:47:07,890 lớp nó TF'ing cho. 890 00:47:07,890 --> 00:47:11,330 Cũng "the" là thực sự quan trọng cho CS50 TF. 891 00:47:11,330 --> 00:47:14,570 Nhưng nếu bạn có một cái gì đó như "The CS50 TF đến lớp và đưa cho họ 892 00:47:14,570 --> 00:47:20,060 sinh viên một số bánh kẹo. "" Candy "và" các " không có mối quan hệ thực sự, phải không? 893 00:47:20,060 --> 00:47:23,670 Họ rất xa nhau mà nó không thực sự có vấn đề gì 894 00:47:23,670 --> 00:47:25,050 Nói cách mà bạn có. 895 00:47:25,050 --> 00:47:31,210 >> Vì vậy, bằng cách làm một Bigram hoặc một trigram, nó chỉ có nghĩa là bạn đang hạn chế 896 00:47:31,210 --> 00:47:33,430 mình để một số từ được xung quanh. 897 00:47:33,430 --> 00:47:35,810 Có ý nghĩa? 898 00:47:35,810 --> 00:47:40,630 Vì vậy, khi bạn muốn làm phân khúc, về cơ bản, những gì bạn muốn làm là nhìn thấy 899 00:47:40,630 --> 00:47:44,850 tất cả những cách có thể là những gì mà bạn có thể phân khúc câu. 900 00:47:44,850 --> 00:47:49,090 >> Như vậy mà bạn thấy là những gì xác suất của mỗi của những câu 901 00:47:49,090 --> 00:47:50,880 tồn tại trong ngôn ngữ? 902 00:47:50,880 --> 00:47:53,410 Vì vậy, những gì bạn làm là như thế, tốt, cho tôi cố gắng đặt một không gian ở đây. 903 00:47:53,410 --> 00:47:55,570 Vì vậy, bạn đặt một không gian có và bạn thấy là những gì 904 00:47:55,570 --> 00:47:57,590 Xác suất của câu đó? 905 00:47:57,590 --> 00:48:00,240 Sau đó, bạn là như thế, OK, có thể đó không phải là tốt. 906 00:48:00,240 --> 00:48:03,420 Vì vậy, tôi đặt một không gian ở đó và một không gian ở đó, và bạn tính toán 907 00:48:03,420 --> 00:48:06,240 xác suất bây giờ, và bạn thấy rằng đó là một xác suất cao hơn. 908 00:48:06,240 --> 00:48:12,160 >> Vì vậy, đây là một thuật toán gọi là TANGO thuật toán phân khúc, đó là 909 00:48:12,160 --> 00:48:14,990 thực sự một cái gì đó mà có thể thực sự mát mẻ cho một dự án, trong đó 910 00:48:14,990 --> 00:48:20,860 về cơ bản có văn bản không phân đốt mà có thể Nhật Bản hoặc Trung Quốc hoặc có thể 911 00:48:20,860 --> 00:48:26,080 Tiếng Anh không có dấu cách và cố gắng để đưa không gian giữa các từ và nó 912 00:48:26,080 --> 00:48:29,120 rằng bằng cách sử dụng một mô hình ngôn ngữ và cố gắng để xem những gì là cao nhất 913 00:48:29,120 --> 00:48:31,270 khả năng bạn có thể nhận được. 914 00:48:31,270 --> 00:48:32,230 OK. 915 00:48:32,230 --> 00:48:33,800 Vì vậy, đây là phân khúc. 916 00:48:33,800 --> 00:48:35,450 >> Bây giờ cú pháp. 917 00:48:35,450 --> 00:48:40,940 Vì vậy, cú pháp đang được sử dụng cho rất nhiều điều ngay bây giờ. 918 00:48:40,940 --> 00:48:44,880 Vì vậy, cho đồ thị tìm kiếm, cho Siri cho khá nhiều bất kỳ loại tự nhiên 919 00:48:44,880 --> 00:48:46,490 xử lý ngôn ngữ mà bạn có. 920 00:48:46,490 --> 00:48:49,140 Vì vậy, những gì là quan trọng điều về cú pháp? 921 00:48:49,140 --> 00:48:52,390 Vì vậy, câu nói chung có những gì chúng ta gọi là các thành phần. 922 00:48:52,390 --> 00:48:57,080 Đó là loại giống như một nhóm từ có một chức năng trong câu. 923 00:48:57,080 --> 00:49:02,220 Và họ có thể không thực sự được xa nhau. 924 00:49:02,220 --> 00:49:07,380 >> Vì vậy, nếu tôi nói, ví dụ, "Lauren yêu Milo. "Tôi biết rằng" Lauren "là một 925 00:49:07,380 --> 00:49:10,180 thành phần và sau đó "tình yêu Milo "cũng là một trong những khác. 926 00:49:10,180 --> 00:49:16,860 Bởi vì bạn không thể nói như "Lauren Milo yêu "có cùng ý nghĩa. 927 00:49:16,860 --> 00:49:18,020 Nó sẽ không có cùng ý nghĩa. 928 00:49:18,020 --> 00:49:22,500 Hoặc tôi không thể nói như "Milo Lauren yêu. "Không phải mọi thứ có cùng 929 00:49:22,500 --> 00:49:25,890 có nghĩa là làm điều đó. 930 00:49:25,890 --> 00:49:31,940 >> Vì vậy, hai điều quan trọng hơn về cú pháp là các loại từ vựng đó là 931 00:49:31,940 --> 00:49:35,390 về cơ bản là chức năng mà bạn có các từ của mình. 932 00:49:35,390 --> 00:49:39,180 Vì vậy, bạn phải biết rằng "Lauren" và "Milo" là danh từ. 933 00:49:39,180 --> 00:49:41,040 "Tình yêu" là một động từ. 934 00:49:41,040 --> 00:49:45,660 Và điều quan trọng thứ hai là rằng họ đang loại mệnh đề. 935 00:49:45,660 --> 00:49:48,990 Vì vậy, bạn biết rằng "yêu Milo" thật là một cụm từ bằng lời nói. 936 00:49:48,990 --> 00:49:52,390 Vì vậy, khi tôi nói "Lauren," Tôi biết rằng Lauren đang làm một cái gì đó. 937 00:49:52,390 --> 00:49:53,620 Cô ấy làm gì? 938 00:49:53,620 --> 00:49:54,570 Cô ấy yêu Milo. 939 00:49:54,570 --> 00:49:56,440 Vì vậy, đó là một điều hoàn toàn. 940 00:49:56,440 --> 00:50:01,640 Nhưng thành phần của nó là một danh từ và động từ. 941 00:50:01,640 --> 00:50:04,210 Nhưng cùng nhau, họ thực hiện một cụm động từ. 942 00:50:04,210 --> 00:50:08,680 >> Vì vậy, những gì chúng ta có thể thực sự làm gì với ngôn ngữ học tính toán? 943 00:50:08,680 --> 00:50:13,810 Vì vậy, nếu tôi có một cái gì đó ví dụ "Những người bạn của Allison." Tôi thấy nếu tôi chỉ 944 00:50:13,810 --> 00:50:17,440 đã làm một cây cú pháp tôi sẽ biết rằng "Bạn bè" là một cụm danh từ đó là một 945 00:50:17,440 --> 00:50:21,480 danh từ và sau đó "của Allison" là một cụm giới từ trong đó "của" là 946 00:50:21,480 --> 00:50:24,810 một đề xuất và "Allison" là một danh từ. 947 00:50:24,810 --> 00:50:30,910 Những gì tôi có thể làm là dạy cho máy tính của tôi rằng khi tôi có một cụm danh từ một đến 948 00:50:30,910 --> 00:50:33,080 sau đó một cụm giới từ. 949 00:50:33,080 --> 00:50:39,020 Vì vậy, trong trường hợp này, "bạn bè" và sau đó "của Milo "Tôi biết rằng điều này có nghĩa là 950 00:50:39,020 --> 00:50:43,110 NP2, điều thứ hai, sở hữu NP1. 951 00:50:43,110 --> 00:50:47,680 >> Vì vậy, tôi có thể tạo ra một số loại mối quan hệ, một số loại chức năng cho nó. 952 00:50:47,680 --> 00:50:52,370 Vì vậy, bất cứ khi nào tôi nhìn thấy cấu trúc này, phù hợp chính xác với "bạn bè của 953 00:50:52,370 --> 00:50:56,030 Allison, "Tôi biết rằng Allison sở hữu bạn bè. 954 00:50:56,030 --> 00:50:58,830 Vì vậy, bạn bè là một cái gì đó rằng Allison có. 955 00:50:58,830 --> 00:50:59,610 Làm cho tinh thần? 956 00:50:59,610 --> 00:51:01,770 Vì vậy, đây là những gì cơ bản Tìm kiếm đồ thị không. 957 00:51:01,770 --> 00:51:04,360 Nó chỉ tạo ra quy tắc cho rất nhiều thứ. 958 00:51:04,360 --> 00:51:08,190 Vì vậy, "những người bạn của Allison", "bạn bè của tôi người sống ở Cambridge "," bạn bè của tôi 959 00:51:08,190 --> 00:51:12,970 người đi đến Harvard. "Nó tạo ra quy tắc cho tất cả những điều đó. 960 00:51:12,970 --> 00:51:14,930 >> Bây giờ dịch máy. 961 00:51:14,930 --> 00:51:18,850 Vì vậy, dịch máy cũng là một cái gì đó thống kê. 962 00:51:18,850 --> 00:51:21,340 Và thực sự nếu bạn tham gia vào ngữ học máy tính, rất nhiều 963 00:51:21,340 --> 00:51:23,580 công cụ của bạn là có được số liệu thống kê. 964 00:51:23,580 --> 00:51:26,670 Vì vậy, như tôi đã làm ví dụ với rất nhiều suất mà tôi đã được 965 00:51:26,670 --> 00:51:30,540 tính toán, và sau đó bạn có thể điều này số lượng rất nhỏ đó là trận chung kết 966 00:51:30,540 --> 00:51:33,180 xác suất, và đó là những gì mang đến cho bạn câu trả lời. 967 00:51:33,180 --> 00:51:37,540 Máy dịch thuật cũng sử dụng một mô hình thống kê. 968 00:51:37,540 --> 00:51:44,790 Và nếu bạn muốn nghĩ về máy dịch đơn giản nhất có thể 969 00:51:44,790 --> 00:51:48,970 cách, những gì bạn có thể nghĩ rằng chỉ là dịch từng chữ, phải không? 970 00:51:48,970 --> 00:51:52,150 >> Khi bạn đang học một ngôn ngữ cho lần đầu tiên, đó là những gì thường 971 00:51:52,150 --> 00:51:52,910 bạn làm gì, phải không? 972 00:51:52,910 --> 00:51:57,050 Nếu bạn muốn, bạn dịch một câu trong ngôn ngữ của bạn với ngôn ngữ 973 00:51:57,050 --> 00:52:00,060 bạn đang học tập, thường là đầu tiên, bạn dịch mỗi từ 974 00:52:00,060 --> 00:52:03,180 cá nhân, và sau đó bạn cố gắng để đặt các từ vào vị trí. 975 00:52:03,180 --> 00:52:07,100 >> Vì vậy, nếu tôi muốn dịch này, [NÓI PORTUGUESE] 976 00:52:07,100 --> 00:52:10,430 có nghĩa "con mèo trắng chạy đi." Nếu tôi muốn dịch nó từ 977 00:52:10,430 --> 00:52:13,650 Bồ Đào sang tiếng Anh, những gì tôi có thể làm là, đầu tiên, tôi chỉ 978 00:52:13,650 --> 00:52:14,800 dịch từng chữ. 979 00:52:14,800 --> 00:52:20,570 Vì vậy, "o" là "," "gato", "con mèo" "Branco", "trắng", và sau đó "fugio" là 980 00:52:20,570 --> 00:52:21,650 "Bỏ chạy." 981 00:52:21,650 --> 00:52:26,130 >> Vì vậy, sau đó tôi có tất cả các từ đây, nhưng chúng không theo thứ tự. 982 00:52:26,130 --> 00:52:29,590 Nó giống như "mèo trắng chạy đi" đó là sai ngữ pháp. 983 00:52:29,590 --> 00:52:34,490 Vì vậy, sau đó tôi có thể có một bước thứ hai, sẽ được tìm kiếm lý tưởng 984 00:52:34,490 --> 00:52:36,610 vị trí cho mỗi từ. 985 00:52:36,610 --> 00:52:40,240 Vì vậy, tôi biết rằng tôi thực sự muốn có "Mèo trắng" thay vì "con mèo trắng." Vì vậy, 986 00:52:40,240 --> 00:52:46,050 những gì tôi có thể làm là, phương pháp ngây thơ nhất sẽ tạo ra tất cả các 987 00:52:46,050 --> 00:52:49,720 hoán vị có thể có của từ, các vị trí. 988 00:52:49,720 --> 00:52:53,300 Và sau đó xem cái nào có xác suất cao nhất theo 989 00:52:53,300 --> 00:52:54,970 mô hình ngôn ngữ của tôi. 990 00:52:54,970 --> 00:52:58,390 Và sau đó khi tôi tìm thấy một trong đó có xác suất cao nhất nó, đó là 991 00:52:58,390 --> 00:53:01,910 có thể "mèo trắng chạy đi," đó là bản dịch của tôi. 992 00:53:01,910 --> 00:53:06,710 >> Và đây là một cách đơn giản để giải thích như thế nào rất nhiều dịch máy 993 00:53:06,710 --> 00:53:07,910 thuật toán làm việc. 994 00:53:07,910 --> 00:53:08,920 Điều đó có ý nghĩa? 995 00:53:08,920 --> 00:53:12,735 Đây cũng là một cái gì đó thực sự thú vị mà các bạn có thể có thể khám phá một 996 00:53:12,735 --> 00:53:13,901 dự án cuối cùng, yeah? 997 00:53:13,901 --> 00:53:15,549 >> HỌC SINH: Vâng, bạn nói rằng đó là cách ngây thơ, vì vậy những gì 998 00:53:15,549 --> 00:53:17,200 cách không ngây thơ? 999 00:53:17,200 --> 00:53:18,400 >> Lucas Freitas: Cách không ngây thơ? 1000 00:53:18,400 --> 00:53:19,050 OK. 1001 00:53:19,050 --> 00:53:22,860 Vì vậy, điều đầu tiên mà là xấu về phương pháp này là tôi chỉ dịch 1002 00:53:22,860 --> 00:53:24,330 lời nói, từng từ. 1003 00:53:24,330 --> 00:53:30,570 Nhưng đôi khi bạn có những từ mà có thể có nhiều bản dịch. 1004 00:53:30,570 --> 00:53:32,210 Tôi sẽ cố gắng để suy nghĩ một cái gì đó. 1005 00:53:32,210 --> 00:53:37,270 Ví dụ, "manga" trong có thể Bồ Đào Nha hoặc là "mangle" hoặc "tay áo". Vì vậy, 1006 00:53:37,270 --> 00:53:40,450 khi bạn đang cố gắng để dịch thuật ngữ bằng lời nói, nó có thể được cho bạn 1007 00:53:40,450 --> 00:53:42,050 một cái gì đó mà làm cho không có ý nghĩa. 1008 00:53:42,050 --> 00:53:45,770 >> Vì vậy, bạn thực sự muốn bạn nhìn vào tất cả bản dịch có thể có của 1009 00:53:45,770 --> 00:53:49,840 lời nói và thấy, đầu tiên của tất cả, thứ tự là gì. 1010 00:53:49,840 --> 00:53:52,000 Chúng tôi đã nói về permutating những điều? 1011 00:53:52,000 --> 00:53:54,150 Để xem tất cả các đơn đặt hàng có thể và chọn một với mức cao nhất 1012 00:53:54,150 --> 00:53:54,990 xác suất? 1013 00:53:54,990 --> 00:53:57,860 Bạn cũng có thể chọn tất cả các thể bản dịch cho mỗi 1014 00:53:57,860 --> 00:54:00,510 từ và sau đó nhìn thấy - 1015 00:54:00,510 --> 00:54:01,950 kết hợp với các hoán vị - 1016 00:54:01,950 --> 00:54:03,710 cái nào có xác suất cao nhất. 1017 00:54:03,710 --> 00:54:08,590 >> Thêm vào đó, bạn cũng có thể nhìn vào không chỉ lời nói, nhưng cụm từ. 1018 00:54:08,590 --> 00:54:11,700 vì vậy bạn có thể phân tích mối quan hệ giữa các từ và sau đó nhận được một 1019 00:54:11,700 --> 00:54:13,210 dịch tốt hơn. 1020 00:54:13,210 --> 00:54:16,690 Ngoài ra một cái gì đó khác, vì vậy học kỳ này Tôi đang thực sự làm nghiên cứu trong 1021 00:54:16,690 --> 00:54:19,430 Trung Quốc-Anh dịch máy, để dịch từ 1022 00:54:19,430 --> 00:54:20,940 Trung Quốc sang tiếng Anh. 1023 00:54:20,940 --> 00:54:26,760 >> Và một cái gì đó chúng tôi làm là, bên cạnh việc sử dụng một mô hình thống kê, mà chỉ là 1024 00:54:26,760 --> 00:54:30,570 nhìn thấy các xác suất nhìn thấy một số vị trí trong một câu, tôi 1025 00:54:30,570 --> 00:54:35,360 thực sự cũng bổ sung thêm một số cú pháp để tôi mô hình, nói rằng, oh, nếu tôi thấy loại này 1026 00:54:35,360 --> 00:54:39,420 xây dựng, đây là những gì tôi muốn để thay đổi nó khi tôi dịch. 1027 00:54:39,420 --> 00:54:43,880 Vì vậy, bạn cũng có thể thêm một số loại yếu tố cú pháp để làm cho 1028 00:54:43,880 --> 00:54:47,970 dịch hiệu quả hơn và chính xác hơn. 1029 00:54:47,970 --> 00:54:48,550 OK. 1030 00:54:48,550 --> 00:54:51,010 >> Vậy làm thế nào bạn có thể bắt đầu, nếu bạn muốn để làm một cái gì đó trong tính toán 1031 00:54:51,010 --> 00:54:51,980 ngôn ngữ học? 1032 00:54:51,980 --> 00:54:54,560 >> Đầu tiên, bạn chọn một dự án có liên quan đến ngôn ngữ. 1033 00:54:54,560 --> 00:54:56,310 Vì vậy, có rất nhiều ra khỏi đó. 1034 00:54:56,310 --> 00:54:58,420 Có rất nhiều điều bạn có thể làm. 1035 00:54:58,420 --> 00:55:00,510 Và sau đó có thể nghĩ đến một mô hình mà bạn có thể sử dụng. 1036 00:55:00,510 --> 00:55:04,710 Thường có nghĩa là suy nghĩ của giả định, như như, oh, khi tôi 1037 00:55:04,710 --> 00:55:05,770 như suy nghĩ của bài hát. 1038 00:55:05,770 --> 00:55:09,510 Tôi giống như, tốt, nếu tôi muốn tìm ra một người đã viết này, tôi có thể muốn 1039 00:55:09,510 --> 00:55:15,400 nhìn vào những lời người sử dụng và thấy những người sử dụng từ đó rất thường xuyên. 1040 00:55:15,400 --> 00:55:18,470 Vì vậy, cố gắng làm cho các giả định và cố gắng nghĩ về mô hình. 1041 00:55:18,470 --> 00:55:21,395 Và sau đó bạn cũng có thể tìm kiếm trực tuyến cho các loại vấn đề mà bạn có, 1042 00:55:21,395 --> 00:55:24,260 và nó sẽ đề nghị để bạn có thể mô hình 1043 00:55:24,260 --> 00:55:26,560 mô hình điều tốt. 1044 00:55:26,560 --> 00:55:29,080 >> Và cũng có thể bạn luôn có thể gửi email cho tôi. 1045 00:55:29,080 --> 00:55:31,140 me@lfreitas.com. 1046 00:55:31,140 --> 00:55:34,940 Và tôi chỉ có thể trả lời câu hỏi của bạn. 1047 00:55:34,940 --> 00:55:38,600 Chúng tôi thậm chí có thể có thể đáp ứng vì vậy tôi có thể cho ý kiến ​​về cách 1048 00:55:38,600 --> 00:55:41,490 triển khai thực hiện dự án của bạn. 1049 00:55:41,490 --> 00:55:45,610 Và tôi có nghĩa là nếu bạn tham gia với ngôn ngữ học tính toán, nó sẽ 1050 00:55:45,610 --> 00:55:46,790 là tuyệt vời. 1051 00:55:46,790 --> 00:55:48,370 Bạn sẽ thấy có quá nhiều tiềm năng. 1052 00:55:48,370 --> 00:55:52,060 Và ngành công nghiệp muốn thuê bạn xấu như vậy vì điều đó. 1053 00:55:52,060 --> 00:55:54,720 Vì vậy, tôi hy vọng các bạn thích này. 1054 00:55:54,720 --> 00:55:57,030 Nếu bạn có bất kỳ câu hỏi, bạn có thể hỏi tôi sau này. 1055 00:55:57,030 --> 00:55:58,280 Nhưng cảm ơn bạn. 1056 00:55:58,280 --> 00:56:00,150