LUCAS FREITAS: Hey ทุกคนยินดีต้อนรับ ชื่อของฉันคือลูคัสตาส ผมจูเนียร์ที่ [ไม่ได้ยิน] การศึกษา วิทยาศาสตร์คอมพิวเตอร์ที่มีความสำคัญใน ภาษาศาสตร์ ดังนั้นรองของฉันอยู่ในภาษา และทฤษฎีภาษาศาสตร์ ผมตื่นเต้นจริงๆที่จะสอนพวกคุณ นิด ๆ หน่อย ๆ เกี่ยวกับข้อมูล มันเป็นพื้นที่ที่น่าตื่นเต้นมากที่จะศึกษา นอกจากนี้ยังมีจำนวนมากที่มีศักยภาพ สำหรับอนาคต ดังนั้นผมตื่นเต้นจริงๆที่พวกคุณ กำลังพิจารณาโครงการใน ภาษาศาสตร์ และฉันจะมากกว่ายินดีที่จะให้คำแนะนำ ใด ๆ ของคุณถ้าคุณตัดสินใจที่จะ ติดตามหนึ่งในบรรดา ดังนั้นครั้งแรกของทุกสิ่งที่มีการคำนวณ ภาษาศาสตร์? ภาษาศาสตร์ดังนั้นการคำนวณคือ สี่แยกระหว่างภาษาศาสตร์และ สาขาวิชาวิทยาการคอมพิวเตอร์ ดังนั้นสิ่งที่เป็นภาษาศาสตร์? วิทยาการคอมพิวเตอร์คืออะไร ดีจากภาษาศาสตร์สิ่งที่ เราจะใช้ภาษา ดังนั้นภาษาศาสตร์เป็นจริงการศึกษา ของภาษาธรรมชาติทั่วไป ดังนั้นภาษาธรรมชาติ - เราพูดคุยเกี่ยวกับ ภาษาที่เราใช้จริงกับ สื่อสารกับแต่ละอื่น ดังนั้นเราจะไม่พูดว่า เกี่ยวกับ C หรือ Java เรากำลังพูดถึงเกี่ยวกับภาษาอังกฤษและ ภาษาจีนและอื่น ๆ ที่เรา ใช้ในการสื่อสารกับแต่ละอื่น สิ่งที่ท้าทายเกี่ยวกับการที่ว่า ตอนนี้เรามีเกือบ 7,000 ภาษาในโลก ดังนั้นจึงมีความหลากหลายค่อนข้างสูง ภาษาที่เราสามารถเรียนได้ แล้วคุณคิดว่ามันอาจจะเป็น ยากมากที่จะทำเช่น การแปลจากภาษาหนึ่งไปยัง อื่น ๆ ที่พิจารณาว่าคุณมี เกือบ 7,000 ของพวกเขา ดังนั้นถ้าคุณคิดว่าการทำแปล จากภาษาหนึ่งไปยังอีกที่คุณ มีเกือบมากกว่าหนึ่งล้าน ชุดที่แตกต่างกันที่คุณสามารถ มีจากภาษาภาษา ดังนั้นมันจริงๆความท้าทายที่จะทำบางอย่าง ชนิดของระบบการแปลตัวอย่างสำหรับ ทุกภาษาเดียว ดังนั้นถือว่าภาษาศาสตร์ด้วยไวยากรณ์ ความหมายเน้น พวกคุณไม่ได้ว่าต้อง ที่จะรู้ว่าสิ่งที่พวกเขามี แต่สิ่งที่น่าสนใจมากคือ ในฐานะที่เป็นเจ้าของภาษาเมื่อคุณเรียนรู้ ภาษาเป็นเด็กคุณได้เรียนรู้จริง ทุกสิ่งที่ - ความหมายไวยากรณ์ และเน้น - ด้วยตัวเอง และไม่มีใครมีที่จะสอนไวยากรณ์สำหรับ คุณจะเข้าใจว่าประโยคนี้ โครงสร้าง ดังนั้นจึงเป็นที่น่าสนใจมากเพราะ มันเป็นสิ่งที่มามาก อย่างสังหรณ์ใจ และสิ่งที่คุณจะได้รับจาก วิทยาการคอมพิวเตอร์หรือไม่ ดีสิ่งที่สำคัญที่สุดที่เรา มีวิทยาการคอมพิวเตอร์เป็นครั้งแรกของ ทุกปัญญาประดิษฐ์ และการเรียนรู้เครื่อง ดังนั้นสิ่งที่เรากำลังพยายามที่จะทำ ภาษาศาสตร์คือสอน คอมพิวเตอร์ของคุณวิธีที่จะทำบางสิ่งบางอย่าง กับภาษา ดังนั้นสำหรับตัวอย่างเช่นในเครื่อง การแปล ฉันพยายามที่จะสอนวิธีการใช้คอมพิวเตอร์ของฉัน รู้วิธีที่จะเปลี่ยนจากหนึ่ง ภาษาอื่น ๆ ดังนั้นโดยทั่วไปชอบการเรียนการสอน คอมพิวเตอร์ทั้งสองภาษา ถ้าผมทำการประมวลผลภาษาธรรมชาติ ซึ่งเป็นกรณีตัวอย่างของ Facebook ของกราฟ Search คุณสอน คอมพิวเตอร์ของคุณวิธีการที่จะเข้าใจ การค้นหาที่ดี ดังนั้นถ้าคุณบอกว่า "ภาพของฉัน เพื่อน. "Facebook ไม่ได้รักษาที่ เป็นสตริงที่มีทั้ง เพียงพวงของคำ มันจริงเข้าใจความสัมพันธ์ ระหว่าง "ภาพ" และ "เพื่อนของฉัน" และ เข้าใจว่า "ภาพถ่าย" เป็น สถานที่ให้บริการของ "เพื่อนของฉัน." ดังนั้นที่เป็นส่วนหนึ่งของตัวอย่างเช่น การประมวลผลภาษาธรรมชาติ มันพยายามที่จะเข้าใจในสิ่งที่ เป็นความสัมพันธ์ระหว่าง คำในประโยค และคำถามใหญ่คือคุณสามารถ สอนคอมพิวเตอร์วิธีการพูด ภาษาโดยทั่วไป ซึ่งเป็นคำถามที่น่าสนใจมากที่จะ คิดว่าอาจจะเป็นในอนาคต คุณจะสามารถ พูดคุยกับโทรศัพท์มือถือของคุณ ชนิดเช่นสิ่งที่เราทำกับศิริ แต่ บางสิ่งบางอย่างมากขึ้นเช่นคุณสามารถจริง บอกว่าสิ่งที่คุณต้องการและโทรศัพท์ จะเข้าใจทุกอย่าง และมันก็จะมีคำถามตามมา และให้พูดคุย นั่นเป็นสิ่งที่น่าตื่นเต้นจริงๆ ในความคิดของฉัน ดังนั้นสิ่งที่เกี่ยวกับภาษาธรรมชาติ สิ่งที่น่าสนใจมากเกี่ยวกับ ภาษาธรรมชาติที่และนี่คือ เครดิตกับภาษาศาสตร์อาจารย์ของฉัน มาเรีย Polinsky เธอแสดงให้เห็นตัวอย่างและฉันคิดว่า มันเป็นเรื่องที่น่าสนใจจริงๆ เพราะเราเรียนรู้ภาษาจากเมื่อ เราเกิดมาแล้วพื้นเมืองของเรา ชนิดของภาษาที่เราเติบโตขึ้น และโดยทั่วไปคุณเรียนรู้ภาษา จากการป้อนข้อมูลน้อยที่สุดใช่ไหม คุณเพียงแค่ได้รับการป้อนข้อมูลจากคุณ พ่อแม่ของสิ่งที่ภาษาของคุณเสียง ชอบและคุณเพียงแค่เรียนรู้มัน ดังนั้นจึงเป็นที่น่าสนใจเพราะถ้าคุณดู ที่ประโยคเหล่านั้นตัวอย่างเช่น คุณดู "แมรี่สวมเสื้อเกราะทุก เวลาที่เธอออกจากบ้าน. " ในกรณีนี้ก็เป็นไปได้ที่จะมี คำว่า "เธอ" หมายถึงแมรี่ใช่ไหม คุณสามารถพูดได้ "แมรี่สวมเสื้อเกราะ เวลาแมรี่ออกทุก บ้าน. "เพื่อให้เป็นดี แต่แล้วถ้าคุณมองไปที่ประโยค "เธอสวมเสื้อเกราะทุกครั้งที่แมรี่ ออกจากบ้าน. "คุณรู้ว่ามัน เป็นไปไม่ได้ที่จะบอกว่า "เธอ" เป็น หมายถึงแมรี่ มีวิธีการบอกว่า "แมรี่ทำให้ไม่ได้ เสื้อแมรี่เวลาออกทุก บ้าน. "ดังนั้นจึงเป็นที่น่าสนใจเพราะ นี้เป็นชนิดของสัญชาตญาณ ว่าทุกเจ้าของภาษามี และไม่มีใครได้รับการสอนว่านี้เป็น วิธีการที่ผลงานของไวยากรณ์ และการที่คุณสามารถมีเพียงแค่นี้ "เธอ" หมายถึงแมรี่ในกรณีแรกนี้ และจริงในอื่น ๆ เกินไป แต่ไม่ได้อยู่ในนี้ แต่ทุกคนจะได้รับชนิดของ ให้คำตอบเดียวกัน ทุกคนเห็นพ้องว่า ดังนั้นจึงเป็นที่น่าสนใจจริงๆว่าแม้ว่า คุณไม่ทราบว่ากฎทั้งหมด ในภาษาของคุณชนิดของคุณเข้าใจ วิธีการทำงานของภาษา ดังนั้นสิ่งที่น่าสนใจเกี่ยวกับธรรมชาติ ภาษาคือการที่คุณจะได้ไม่ต้อง รู้ไวยากรณ์ใดที่จะทราบว่าประโยค เป็นไวยากรณ์หรือผิดไวยากรณ์เพื่อ กรณีส่วนใหญ่ ซึ่งทำให้คุณคิดว่าอาจจะเป็นสิ่งที่ ที่เกิดขึ้นคือผ่านชีวิตของคุณคุณ เพียงแค่ให้ได้รับมากขึ้นและมากขึ้น ประโยคที่บอกให้คุณ แล้วคุณจะให้จำ ทุกประโยค และจากนั้นเมื่อมีคนบอกคุณ บางสิ่งบางอย่างที่คุณได้ยินประโยคที่และ คุณดูที่คำศัพท์ของคุณ ของประโยคและดูว่า ประโยคที่มี และถ้ามันเป็นสิ่งที่มีคุณ บอกว่ามันเป็นไวยากรณ์ ถ้ามันไม่ได้บอกว่ามันเป็น ผิดไวยากรณ์ ดังนั้นในกรณีที่คุณจะพูดว่าโอ้ เพื่อให้คุณมีรายการใหญ่ของทั้งหมด ประโยคที่เป็นไปได้ และจากนั้นเมื่อคุณได้ยินประโยค คุณรู้ว่ามันเป็นไวยากรณ์หรือ ไม่ขึ้นอยู่กับว่า เป็นสิ่งที่ถ้าคุณดูที่ ประโยคตัวอย่างเช่น " ห้าหัว CS50 TFs สุกตาบอด ปลาหมึกใช้แก้ว DAPA. "มันเป็น แน่นอนไม่ประโยค ที่คุณได้ยินมาก่อน แต่ในขณะเดียวกันคุณรู้ว่ามัน สวยมากไวยากรณ์ใช่ไหม ไม่มีความผิดพลาดทางไวยากรณ์เป็น และคุณสามารถพูดได้ว่า มันเป็นเรื่องที่เป็นไปได้ประโยค จึงทำให้เราคิดว่าจริง วิธีการที่เราได้เรียนรู้ภาษาที่ไม่เพียง โดยมีฐานข้อมูลขนาดใหญ่ที่เป็นไปได้ คำหรือประโยค แต่มากขึ้นของ การทำความเข้าใจความสัมพันธ์ระหว่าง คำในประโยคเหล่านั้น ไม่ที่ทำให้รู้สึก? ดังนั้นแล้วคำถามคือสามารถ คอมพิวเตอร์เรียนรู้ภาษา? เราสามารถสอนภาษาให้กับคอมพิวเตอร์? ดังนั้นขอคิดของความแตกต่าง ระหว่างเจ้าของภาษาของภาษา และเครื่องคอมพิวเตอร์ ดังนั้นสิ่งที่เกิดขึ้นกับลำโพงหรือไม่ ดีเจ้าของภาษาเรียนรู้ ภาษาจากการสัมผัสกับมัน ปกติปีในวัยเด็กของต้น ดังนั้นโดยทั่วไปคุณก็มีลูก และคุณให้พูดคุยกับมันและมัน เพียงแค่เรียนรู้วิธีการพูด ภาษาใช่ไหม ดังนั้นคุณพื้นให้ ใส่ไปยังทารก ดังนั้นแล้วคุณสามารถยืนยันว่าคอมพิวเตอร์ สามารถทำสิ่งเดียวกันใช่ไหม คุณก็สามารถให้ภาษา เป็นข้อมูลไปยังคอมพิวเตอร์ เป็นเช่นพวงของไฟล์ ที่มีหนังสือภาษาอังกฤษ บางทีนั่นอาจเป็นวิธีหนึ่งที่คุณ อาจจะสอน คอมพิวเตอร์ภาษาอังกฤษใช่ไหม และในความเป็นจริงถ้าคุณคิดเกี่ยวกับมัน ก็จะใช้เวลาที่คุณอาจจะไม่กี่ วันในการอ่านหนังสือ สำหรับเครื่องคอมพิวเตอร์ที่จะใช้เวลาสองถึง ดูคำทั้งหมดที่อยู่ในหนังสือ เพื่อให้คุณสามารถคิดว่าอาจจะมีเพียงแค่นี้ ข้อโต้แย้งของการป้อนข้อมูลจากรอบ ๆ ตัวคุณ ที่ไม่เพียงพอที่จะบอกว่าที่ สิ่งที่มนุษย์สามารถทำได้ คุณสามารถคิดคอมพิวเตอร์ นอกจากนี้ยังสามารถได้รับข้อมูล สิ่งที่สองคือว่าเจ้าของภาษา ยังมีสมองที่มี ความสามารถในการเรียนรู้ภาษา แต่ถ้าคุณคิดเกี่ยวกับมัน สมองเป็นสิ่งที่มั่นคง เมื่อคุณจะเกิดมาก็ตั้งแล้ว - นี้เป็นสมองของคุณ และในขณะที่คุณโตขึ้นคุณก็จะได้รับเพิ่มเติม ใส่ของภาษาและสารอาหารที่อาจจะ และสิ่งอื่น ๆ สวยมาก แต่สมองของคุณ เป็นสิ่งที่มั่นคง เพื่อให้คุณสามารถพูดได้ว่าดีบางทีคุณอาจจะสามารถ สร้างคอมพิวเตอร์ที่มีพวงของ ฟังก์ชั่นและวิธีการที่เพียงแค่เลียนแบบ ความสามารถในการเรียนรู้ภาษา ดังนั้นในแง่ที่ว่าคุณอาจจะบอกว่าดีฉัน สามารถมีเครื่องคอมพิวเตอร์ที่มีทั้งหมด สิ่งที่ฉันจำเป็นต้องเรียนรู้ภาษา และสิ่งสุดท้ายคือการที่ชาวพื้นเมือง ลำโพงเรียนรู้จากการทดลองและข้อผิดพลาด ดังนั้นโดยทั่วไปอีกหนึ่งสิ่งที่สำคัญในการ การเรียนรู้ภาษาที่คุณชนิด ของเรียนรู้สิ่งโดยการ ภาพรวมของสิ่งที่คุณได้ยิน เพื่อที่คุณจะเติบโตขึ้นมาคุณได้เรียนรู้ว่า คำบางคำมีมากขึ้นเช่นคำนาม บางคนอื่น ๆ ที่มีคำคุณศัพท์ และคุณไม่จำเป็นต้องมี ความรู้เกี่ยวกับภาษาศาสตร์ ต้องเข้าใจว่า แต่คุณก็รู้ว่ามีคำบางคำ ถูกวางตำแหน่งในส่วนของบางอย่าง ประโยคและบางคนอื่น ๆ ในที่อื่น ชิ้นส่วนของประโยค และที่ว่าเมื่อคุณทำสิ่งที่เป็น เช่นประโยคที่ไม่ถูกต้อง - อาจจะเป็นเพราะลักษณะทั่วไปกว่า เช่น บางทีเมื่อคุณเติบโตขึ้นคุณสังเกตเห็น ที่เป็นพหูพจน์โดยปกติจะเป็น ที่เกิดขึ้นโดยการใส่ S ที่ ในตอนท้ายของคำว่า และจากนั้นคุณพยายามที่จะทำพหูพจน์ของ "กวาง" ขณะที่ "กวาง" หรือ "ฟัน" เป็น "ฟัน." ดังนั้นแล้วพ่อแม่ของคุณหรือ ใครบางคนที่คุณแก้ไขและบอกว่าไม่มี พหูพจน์ของ "กวาง" เป็น "กวาง" และ พหูพจน์ของ "ฟัน" เป็น "ฟัน." แล้วจึง คุณเรียนรู้สิ่งเหล่านั้น เพื่อให้คุณได้เรียนรู้จากการทดลองและความผิดพลาด แต่คุณยังสามารถทำเช่นนั้นได้ กับคอมพิวเตอร์ คุณสามารถมีสิ่งที่เรียกว่า การเรียนรู้เสริม ซึ่งเป็นพื้นเช่นให้ คอมพิวเตอร์รางวัลเมื่อใดก็ตามที่มันไม่ บางสิ่งบางอย่างได้อย่างถูกต้อง และให้มันตรงข้ามของรางวัล และเมื่อมันไม่สิ่งที่ไม่ถูกต้อง จริงๆคุณสามารถเห็นได้ว่าถ้าคุณไป ไปที่ Google แปลและคุณพยายามที่จะ แปลประโยคมัน ขอให้คุณสำหรับข้อมูล ดังนั้นถ้าคุณจะพูดว่าโอ้มีดีกว่าที่ แปลประโยคนี้ คุณสามารถพิมพ์มันขึ้นมาและจากนั้นถ้าเป็นจำนวนมาก คนให้บอกว่าจะดีกว่า แปลก็แค่รู้ว่ามัน ควรใช้การแปลที่แทน หนึ่งก็คือการให้ ดังนั้นจึงเป็นคำถามปรัชญามาก เพื่อดูว่าคอมพิวเตอร์ที่เป็นไปได้ สามารถที่จะพูดคุยหรือไม่ในอนาคต แต่ฉันมีความหวังสูงที่พวกเขาสามารถ เพียงแค่ขึ้นอยู่กับข้อโต้แย้งเหล่านั้น แต่มันเป็นเพียงมากขึ้นของปรัชญา คำถาม ดังนั้นในขณะที่คอมพิวเตอร์ยังไม่สามารถพูดคุย สิ่งที่เราสามารถทำได้หรือไม่ บางสิ่งที่เย็นจริงๆ การจัดหมวดหมู่ข้อมูล ดังนั้นสำหรับตัวอย่างเช่นที่พวกคุณรู้ บริการอีเมลที่ทำสำหรับ ตัวอย่างเช่นการกรองสแปม ดังนั้นเมื่อใดก็ตามที่คุณได้รับสแปม พยายามที่จะกรองกล่องอื่น ดังนั้นวิธีที่จะทำเช่นนั้น มันไม่เหมือนคอมพิวเตอร์เพียงแค่รู้ สิ่งที่อยู่อีเมลที่มีการส่งสแปม ดังนั้นจึงขึ้นอยู่กับเนื้อหาของ ข้อความหรืออาจจะชื่อเรื่องหรือ อาจจะรูปแบบบางอย่างที่คุณมี ดังนั้นโดยทั่วไปสิ่งที่คุณสามารถทำได้คือการได้รับ ข้อมูลจำนวนมากของอีเมลที่เป็นสแปม อีเมลที่ไม่ได้สแปมและเรียนรู้สิ่งที่ ชนิดของรูปแบบที่คุณมีใน คนที่มีสแปม และนี่คือส่วนหนึ่งของการคำนวณ ภาษาศาสตร์ มันเรียกว่าการจัดหมวดหมู่ข้อมูล และเรากำลังจริงจะไปดู ตัวอย่างที่อยู่ในสไลด์ถัดไป สิ่งที่สองคือภาษาธรรมชาติ การประมวลผลซึ่งเป็นสิ่งที่ ค้นหากราฟจะทำของให้ คุณเขียนประโยค และมันก็ไว้ใจคุณเข้าใจสิ่งที่ คือความหมายและให้ คุณผลที่ดีกว่า ที่จริงถ้าคุณไปที่ Google หรือ Bing และคุณสามารถค้นหาสิ่งที่ชอบเลดี้ ความสูงของกาก้า, คุณกำลังจะเป็นจริง ที่จะได้รับ 5 '1 "แทนข้อมูล จากเธอจริงเพราะมันเข้าใจ สิ่งที่คุณกำลังพูดถึง เพื่อให้เป็นส่วนหนึ่งของธรรมชาติ การประมวลผลภาษา หรือเมื่อคุณกำลังใช้สิริแรก คุณมีขั้นตอนวิธีการที่พยายามที่จะ แปลสิ่งที่คุณพูด เป็นคำในข้อความ แล้วก็พยายามที่จะแปล ที่เป็นความหมาย ดังนั้นนั่นคือทั้งหมดที่เป็นส่วนหนึ่งของธรรมชาติ การประมวลผลภาษา แล้วคุณมีเครื่องแปลภาษา - ซึ่งเป็นจริงอย่างใดอย่างหนึ่ง รายการโปรดของฉัน - ซึ่งเป็นเพียงการแปลจาก ภาษาอื่น เพื่อให้คุณสามารถคิดว่าเมื่อคุณกำลังทำ เครื่องแปลภาษาที่คุณต้อง เป็นไปได้ไม่มีที่สิ้นสุดของประโยค จึงมีวิธีการจัดเก็บเพียงไม่ ทุกแปลเดียว ดังนั้นคุณต้องมากับที่น่าสนใจ ขั้นตอนวิธีการที่จะสามารถ แปลทุกเดียว ประโยคในบางวิธี พวกคุณมีคำถามใด ๆ เพื่อให้ห่างไกล ไม่ได้หรือไม่ ตกลง ดังนั้นสิ่งที่เราจะได้เห็นในวันนี้ แรกของทั้งหมดที่ฉันจะพูดคุยเกี่ยวกับ ปัญหาการจัดหมวดหมู่ ดังนั้นสิ่งหนึ่งที่ฉันเป็น พูดเกี่ยวกับสแปม สิ่งที่ฉันจะทำคือเนื้อเพลงที่กำหนด เพลงที่คุณสามารถพยายามที่จะคิดออก มีโอกาสสูง ที่เป็นนักร้องหรือไม่ สมมติว่าผมมีเพลงจากเลดี้ กาก้าและ Katy Perry, ถ้าฉันให้คุณ เพลงใหม่ที่คุณสามารถคิดออกว่า มัน Katy Perry หรือ Lady Gaga? คนที่สองฉันแค่จะไปพูดคุย เกี่ยวกับปัญหาการแบ่งส่วน ดังนั้นผมจึงไม่ทราบว่าพวกคุณรู้ แต่ จีน, ญี่ปุ่น, อื่น ๆ ในเอเชียตะวันออก ภาษาและภาษาอื่น ๆ โดยทั่วไปไม่ได้ ช่องว่างระหว่างคำ แล้วถ้าคุณคิดเกี่ยวกับวิธีการที่ ชนิดเครื่องคอมพิวเตอร์ของคุณพยายามที่จะ เข้าใจการประมวลผลภาษาธรรมชาติ มันมีลักษณะที่เป็นคำพูดและ พยายามที่จะเข้าใจความสัมพันธ์ ระหว่างพวกเขาใช่มั้ย แต่แล้วถ้าคุณมีจีนและคุณ มีศูนย์การเว้นวรรคเป็นจริงยากที่จะ หาสิ่งที่เป็นความสัมพันธ์ระหว่าง คำเพราะพวกเขาไม่ได้มี คำในตอนแรก ดังนั้นคุณต้องทำสิ่งที่เรียกว่า การแบ่งส่วนซึ่งก็หมายถึงการวาง ช่องว่างระหว่างสิ่งที่เราต้องการโทร คำในภาษาเหล่านั้น ทำให้รู้สึก แล้วเรากำลังจะ พูดคุยเกี่ยวกับไวยากรณ์ ดังนั้นเพียงแค่นิด ๆ หน่อย ๆ เกี่ยวกับธรรมชาติ การประมวลผลภาษา มันจะเป็นเพียงแค่ภาพรวม ดังนั้นวันนี้เป็นสิ่งที่ฉันต้องการจะทำ ที่ให้คุณผู้ชายเล็กน้อย ด้านในของสิ่งที่เป็นไปได้ ที่คุณสามารถทำอะไรกับคอมพิวเตอร์ ภาษาศาสตร์ และแล้วคุณจะเห็นสิ่งที่คุณคิด เป็นเย็นในสิ่งเหล่านั้น และบางทีคุณอาจจะคิดว่าโครงการ และมาพูดคุยกับผม และผมสามารถให้คำแนะนำ เกี่ยวกับวิธีการที่จะใช้มัน ดังนั้นรูปแบบที่เป็นไปได้นิด ๆ หน่อย ๆ เกี่ยวกับการค้นหากราฟและเครื่อง การแปล ฉันแค่จะให้ตัวอย่างของวิธีการ คุณสามารถยกตัวอย่างเช่นการแปล อะไรบางอย่างจากภาษาโปรตุเกสเป็นภาษาอังกฤษ เสียงดี? ดังนั้นครั้งแรกที่ปัญหาการจัดหมวดหมู่ ฉันจะบอกว่าเป็นส่วนหนึ่งของการสัมมนานี้ เป็นไปได้ที่ท้าทายที่สุด อย่างใดอย่างหนึ่งเพียงเพราะมีจะ จะมีบางรหัส แต่มันจะเป็นงูหลาม ฉันรู้ว่าพวกคุณไม่ทราบว่างูหลามดังนั้น ฉันแค่จะอธิบายไว้ในที่สูง ระดับสิ่งที่ฉันทำ และคุณไม่ต้องดูแลมากเกินไป มากเกี่ยวกับไวยากรณ์เพราะนั่นคือ สิ่งที่พวกคุณสามารถเรียนรู้ OK? เสียงดี ดังนั้นสิ่งที่เป็นปัญหาการจัดหมวดหมู่หรือไม่ ดังนั้นคุณจะได้รับเนื้อเพลงบาง เพลงและคุณต้องการที่จะคาดเดา ที่มีการร้องเพลง และนี้สามารถเป็นชนิดใด ของปัญหาอื่น ๆ เพื่อที่จะสามารถยกตัวอย่างเช่นคุณมี ประธานาธิบดีและคุณมี การพูดและคุณต้องการที่จะหา ออกมาถ้ามันเป็นเช่น โอบามาหรือนวมรอมนีย์ หรือคุณสามารถมีพวงของอีเมลและ คุณต้องการที่จะคิดออกว่าพวกเขาเป็น สแปมหรือไม่ ดังนั้นมันจึงเป็นเพียงการแบ่งบาง ข้อมูลตามคำ ที่คุณต้องมี ดังนั้นจะทำอย่างไรที่คุณจะต้อง ทำให้สมมติฐานบางอย่าง ดังนั้นจำนวนมากเกี่ยวกับภาษาศาสตร์ คือการทำให้สมมติฐาน สมมติฐานมักจะสมาร์ทเพื่อให้ คุณจะได้รับผลลัพธ์ที่ดี พยายามที่จะสร้างแบบจำลองสำหรับมัน แล้วลองมันออกมาและดูว่าการทำงาน ถ้ามันจะช่วยให้คุณมีความแม่นยำที่ดี และถ้าไม่แล้วคุณ พยายามที่จะปรับปรุงมัน ถ้าไม่ได้คุณก็เหมือนตกลงบางทีฉัน ควรจะทำให้สมมติฐานที่แตกต่างกัน ดังนั้นสมมติฐานที่เรากำลังจะ ให้เป็นศิลปินที่มักจะร้องเพลง เกี่ยวกับหัวข้อที่หลายครั้งและอาจจะ ใช้คำพูดหลายครั้งเพียงแค่ เพราะพวกเขากำลังใช้มัน คุณก็สามารถคิดของเพื่อนของคุณ ฉันแน่ใจว่าพวกคุณทุกคนมีเพื่อน วลีที่บอกว่าลายเซ็นของพวกเขา แท้จริงสำหรับทุกประโยคเดียว - เช่นบางคำที่เฉพาะเจาะจงหรือเฉพาะบางส่วน วลีที่ว่าพวกเขากล่าวว่าสำหรับ ทุกประโยคเดียว และสิ่งที่คุณสามารถพูดได้ก็คือว่าถ้าคุณเห็น ประโยคที่มีลายเซ็น วลีที่คุณสามารถเดาว่าน่าจะเป็น เพื่อนของคุณเป็น หนึ่งบอกว่ามันใช่มั้ย ดังนั้นคุณจึงทำให้สันนิษฐานว่าแล้ว ว่าเป็นวิธีที่คุณสร้างแบบจำลอง ตัวอย่างที่ผมจะให้อยู่ใน วิธีของเลดี้กาก้ายกตัวอย่างเช่นคน บอกว่าเธอใช้ "ทารก" สำหรับการ ของเธอจำนวนหนึ่งเพลงทั้งหมด และที่จริงนี้เป็นวิดีโอที่แสดงให้เห็นว่า เธอบอกว่าคำว่า "เด็ก" สำหรับการ เพลงที่แตกต่างกัน [วิดีโอเล่นภาพ] - (ร้องเพลง) เด็ก ทารก ทารก ทารก ทารก ทารก ทารก ทารก ทารก ทารก [จบเล่นวิดีโอ- LUCAS FREITAS: จึงมีผมคิดว่า 40 เพลงที่นี่ในการที่เธอบอกว่า คำว่า "ลูก". เพื่อให้คุณโดยทั่วไปสามารถคาดเดาได้ ว่าถ้าคุณเห็นเพลงที่มี คำว่า "ลูก" มีบางสูง ความน่าจะเป็นว่ามันเป็นของเลดี้กาก้า แต่ให้พยายามที่จะพัฒนานี้ ต่อไปอีกอย่างเป็นทางการ ดังนั้นเหล่านี้เป็นเนื้อเพลงเพลง ของเลดี้กาก้าและ Katy Perry เพื่อให้คุณดู Lady Gaga คุณจะเห็นพวกเขา มีจำนวนมากเกิดขึ้นของ "เด็ก" จำนวนมากเกิดขึ้นของ "วิธีการ". แล้วจึง Katy Perry มีจำนวนมากเกิดขึ้นของ "," จำนวนมากเกิดขึ้นของ "ไฟ." ดังนั้นโดยทั่วไปสิ่งที่เราต้องการ ไม่เป็นที่คุณจะได้รับบทกวี สมมติว่าคุณจะได้รับบทเป็น เพลงที่เป็น "ลูก" แค่ "ลูก." ถ้า คุณเพิ่งได้รับคำว่า "ลูก" และนี้ คือข้อมูลทั้งหมดที่คุณได้จาก ของเลดี้กาก้าและเคทีเพอร์รี่ที่จะ คุณคิดว่าเป็นบุคคลที่ ที่ร้องเพลงได้หรือไม่ Lady Gaga หรือ Katy Perry? Lady Gaga ใช่ไหม เพราะเธอเป็นคนเดียวที่บอกว่า "ทารก". นี้เสียงโง่ใช่มั้ย? ตกลงนี้เป็นเรื่องง่ายจริงๆ ฉันแค่มองหาที่สองเพลงและ แน่นอนเธอเป็นคนเดียวที่มี "ทารก". แต่สิ่งที่ถ้าคุณมีพวงของคำหรือไม่ หากคุณมีบางสิ่งบางอย่างที่เกิดขึ้นจริงบทกวี, เช่น "ลูกฉัน ไปดู [? CFT?] บรรยาย "หรือสิ่งที่ต้องการและ จริงๆแล้วคุณต้องคิดออก - ขึ้นอยู่กับคำทุกคน - ที่เป็นศิลปินที่น่าจะเป็น ร้องเพลงนี้ ดังนั้นเรามาพยายามที่จะพัฒนา นี้ต่อไปเพียงเล็กน้อย ตกลงตามเพื่อเพียงบนพื้นฐานของข้อมูลที่เรา ได้มันก็ดูเหมือนว่าน่าจะเป็นประสาท นักร้อง แต่วิธีการที่เราสามารถเขียน นี้มากขึ้นอย่างเป็นทางการ? และมีเป็นไปได้น้อย บิตของสถ​​ิติ ดังนั้นถ้าคุณได้หายไปเพียงแค่ลอง ที่จะเข้าใจแนวคิด มันไม่สำคัญว่าถ้าคุณเข้าใจ สมสมบูรณ์ดี นี่คือทั้งหมดที่จะเป็นออนไลน์ ดังนั้นโดยทั่วไปสิ่งที่ฉันคำนวณเป็น ความน่าจะเป็นว่าเพลงนี้คือ Lady Gaga ที่กำหนดว่า - ดังนั้นแถบนี้หมายถึงการกำหนดว่า - ผมเห็นคำว่า "ลูก". ไม่ที่ทำให้รู้สึก? ดังนั้นฉันพยายามที่จะคำนวณ น่าจะเป็นที่ จึงมีความเชื่อที่เรียกว่านี้ Bayes ทฤษฎีบทที่บอกว่า น่าจะเป็นของที่ได้รับ B เป็น น่าจะเป็นของ B ที่กำหนดเวลา น่าจะเป็นของกว่าความน่าจะเป็น ของบีนี่คือสมการยาว แต่สิ่งที่คุณต้องเข้าใจจาก ที่ว่านี้คือสิ่งที่ฉันต้องการ คำนวณใช่ไหม ดังนั้นความน่าจะเป็นว่าเพลงที่เป็นโดย Lady Gaga ให้ที่ฉันได้เห็นคำว่า "ทารก". และตอนนี้สิ่งที่ฉันได้รับเป็น น่าจะเป็นของคำว่า "ลูก" ที่ได้รับ ที่ฉันมีของเลดี้กาก้า และว่าสิ่งที่พื้น? สิ่งที่หมายถึงว่าเป็นสิ่งที่เป็น ความน่าจะเป็นของการได้เห็นคำว่า "ลูก" ในเนื้อเพลงทึ่ม? ถ้าผมต้องการที่จะคำนวณว่าในมาก วิธีง่ายๆก็เพียงจำนวน ครั้งที่ผมเห็น "ทารก" เหนือจำนวน ของคำในเนื้อเพลงทึ่มใช่ไหม เป็นความถี่ที่ฉันเห็นสิ่งที่ คำว่าในการทำงานของกาก้า? ทำให้รู้สึก ระยะที่สองคือ น่าจะเป็นของประสาท สิ่งที่หมายความว่าอย่างไร ที่โดยทั่วไปหมายถึงสิ่งที่เป็น น่าจะเป็นของการจัด เนื้อเพลงบางอย่างที่โง่? และที่เป็นชนิดของแปลก แต่ ให้คิดเช่น ดังนั้นขอบอกว่าน่าจะเป็นของ มี "ลูก" ในเพลงเดียวกัน เพื่อทึ่มและ Britney Spears แต่ Britney Spears มีสองครั้ง เพลงมากกว่าของเลดี้กาก้า ดังนั้นถ้ามีคนเพียงแค่การสุ่มจะช่วยให้คุณ เนื้อเพลงของ "ทารก" สิ่งแรกที่คุณ ดูเป็นสิ่งที่น่าจะเป็นของ มี "ลูก" ในเพลงทึ่ม "ทารก" ในเพลงบริทนี? และมันก็เป็นสิ่งเดียวกัน ดังนั้นสิ่งที่สองที่คุณจะเห็นคือ ดีสิ่งที่เป็นความน่าจะเป็นของ บทกวีนี้ด้วยตัวเองเป็นบทกวีกาก้า, และเป็นสิ่งที่น่าจะเป็นของ เป็นบทกวี Britney? ดังนั้นตั้งแต่บริทนีเพื่อให้มีเพลงอื่น ๆ อีกมากมาย กว่ากาก้าที่คุณจะอาจ พูดดีนี้อาจจะเป็น บทกวีบริทนี ดังนั้นที่ว่าทำไมเรามีนี้ ระยะที่นี่ น่าจะเป็นของประสาท ทำให้รู้สึก? ไม่ได้หรือไม่ ตกลง และคนสุดท้ายเป็นเพียงความน่าจะเป็น ของ "เด็ก" ซึ่งไม่ได้ จริงๆเรื่องที่มาก แต่มันก็น่าจะเป็นของ เห็น "เด็ก" ในภาษาอังกฤษ เรามักจะไม่สนใจว่า มากเกี่ยวกับคำว่า ไม่ที่ทำให้รู้สึก? ดังนั้นน่าจะเป็นของกาก้าเป็น เรียกว่าน่าจะเป็นก่อน ของทึ่มชั้น เพราะมันก็หมายความว่าสิ่งที่เป็น ความน่าจะเป็นของการมีชั้นเรียนที่ - ซึ่งเป็นทึ่ม - เพียงในทั่วไปเพียง โดยไม่มีเงื่อนไข และจากนั้นเมื่อฉันมีความน่าจะเป็นของ กาก้าได้รับ "ทารก" เราเรียกมันว่าบวก teary น่าจะเป็นเพราะมันเป็น ความน่าจะเป็นของการมี กาก้าได้รับหลักฐานบางอย่าง ดังนั้นฉันให้คุณหลักฐาน ที่ผมเห็นลูกคำและ เพลงที่ทำให้รู้สึก ตกลง ดังนั้นถ้าผมคำนวณว่าสำหรับแต่ละ ของเพลงเลดี้กาก้า, สิ่งที่จะเป็น - เห็นได้ชัดว่าฉันไม่สามารถย้ายนี้ น่าจะเป็นของกาก้าจะเป็น สิ่งที่ต้องการ 2 กว่า 24 ครั้งที่ 1/2, 2 กว่า 53 มันไม่สำคัญว่าถ้าคุณรู้ว่าสิ่งที่ ตัวเลขเหล่านี้จะมาจาก แต่มันเป็นเพียงตัวเลขที่เป็นไป จะมากกว่า 0 ใช่ไหม และจากนั้นเมื่อฉันทำ Katy Perry, ความน่าจะเป็นของ "ลูก" ให้เคทีเป็น 0 อยู่แล้วใช่มั้ย เพราะไม่มี "ทารก" ใน Katy Perry ดังนั้นแล้วนี้จะกลายเป็น 0 และประสาท ชนะซึ่งหมายความว่าทึ่ม อาจจะเป็นนักร้อง ไม่ที่ทำให้รู้สึก? ตกลง ดังนั้นถ้าผมต้องการที่จะทำให้เรื่องนี้อย่างเป็นทางการมากขึ้น ที่จริงผมสามารถทำแบบจำลอง คำหลาย ดังนั้นขอบอกว่าฉันมีบางสิ่งบางอย่าง เช่น "ลูกผม ไฟไหม้ "หรือบางสิ่งบางอย่าง ดังนั้นจึงมีหลายคำ และในกรณีนี้คุณจะเห็น ว่า "ลูก" ที่อยู่ในประสาท แต่มันก็ไม่ได้อยู่ในเคที และ "ไฟ" ที่อยู่ในเคที แต่ มันไม่ได้อยู่ในประสาทใช่ไหม ดังนั้นจึงได้รับ trickier ใช่ไหม เพราะมันดูเหมือนว่าคุณเกือบ มีการผูกระหว่างคนทั้งสอง ดังนั้นสิ่งที่คุณต้องทำคือการคิด ความเป็นอิสระระหว่างคำ ดังนั้นโดยทั่วไปสิ่งที่หมายถึงคือ ฉันแค่การคำนวณสิ่งที่เป็น ความน่าจะเป็นของการเห็น "ทารก" สิ่งที่เป็น ความน่าจะเป็นของการเห็น "ฉัน" และ "am" และ "ใน" และ "ไฟ" ทั้งหมดแยกกัน แล้วฉันคูณทั้งหมดของพวกเขา และฉันเห็นสิ่งที่เป็นความน่าจะเป็น เห็นทั้งประโยค ทำให้รู้สึก ดังนั้นโดยทั่วไปถ้ามีเพียงหนึ่งคำ สิ่งที่ฉันต้องการที่จะพบคือสูงสุดหาเรื่อง, ซึ่งหมายถึงสิ่งที่เป็นชั้นที่ ให้ฉันความน่าจะเป็นสูงสุด ดังนั้นสิ่งที่เป็นชั้นที่จะให้ ผมน่าจะเป็นสูงสุด ความน่าจะเป็นของชั้นเรียนให้คำ ดังนั้นในกรณีนี้กาก้าได้รับ "ลูก." หรือเคทีได้รับ "ลูก." ทำให้รู้สึก และเพียงแค่จาก Bayes ที่ สมการที่ผมแสดงให้เห็น เราจะสร้างส่วนนี้ สิ่งเดียวคือคุณจะเห็นว่า น่าจะเป็นของคำที่กำหนด การเปลี่ยนแปลงระดับขึ้น ในชั้นเรียนใช่มั้ย จำนวนของ "ลูก" ของที่ฉันมี ในประสาทจะแตกต่างจากเคที ความน่าจะเป็นของการเรียนยัง การเปลี่ยนแปลงเพราะมันเป็นเพียงตัวเลข ของเพลงที่แต่ละคนมี แต่ความน่าจะเป็นของคำที่ตัวเอง เป็นไปได้เหมือนกันสำหรับทุก ศิลปินใช่มั้ย? ดังนั้นความน่าจะเป็นของคำว่าเป็น เพียงแค่สิ่งที่เป็นความน่าจะเป็นของ เห็นคำว่า ภาษาภาษาอังกฤษได้ไหม ดังนั้นจึงเป็นเหมือนกันสำหรับทั้งหมดของพวกเขา ดังนั้นตั้งแต่นี้เป็นค่าคงที่ที่เราสามารถทำได้เพียงแค่ ลดลงนี้และไม่สนใจเกี่ยวกับเรื่องนี้ ดังนั้นนี้จะเป็นจริง สมการที่เรากำลังมองหา และถ้าผมมีคำหลายคำที่ฉัน ยังคงไปได้ก่อน ความน่าจะเป็นที่นี่ สิ่งเดียวคือฉันคูณ น่าจะเป็นของ ทุกคำอื่น ๆ ดังนั้นฉันคูณทั้งหมดของพวกเขา ทำให้รู้สึก มันดูแปลก ๆ แต่โดยทั่วไปหมายถึง คำนวณก่อนของชั้นเรียนและ แล้วคูณด้วยความน่าจะเป็นของแต่ละ คำที่อยู่ในชั้นเรียนที่ และคุณรู้ว่าน่าจะเป็นของ คำที่กำหนดชั้นเรียนเป็นไปได้ จำนวนครั้งที่คุณเห็นคำว่า ชั้นเรียนที่หารด้วยจำนวนของ คำที่คุณมีในที่ ชั้นในทั่วไป ทำให้รู้สึก มันเป็นเพียงวิธีการที่ "เด็ก" เป็น 2 กว่า จำนวนคำที่ ฉันได้ในเนื้อเพลง ดังนั้นเพียงแค่ความถี่ แต่มีสิ่งหนึ่งที่ จำได้ว่าผมได้แสดงให้เห็นว่า ความน่าจะเป็นของ "ทารก" เนื้อเพลงเป็น จาก Katy Perry เป็น 0 เพียงเพราะเคที เพอร์รี่ไม่ได้มี "ลูก" ที่ทั้งหมดหรือไม่ แต่เสียงเล็ก ๆ น้อย ๆ ที่รุนแรงที่จะเพียงแค่ เพียงแค่พูดว่าเนื้อเพลงไม่อาจได้มาจาก ศิลปินเพียงเพราะพวกเขาไม่ได้ คำว่าโดยเฉพาะอย่างยิ่งในเวลาใดก็ได้ ดังนั้นคุณก็สามารถพูดได้ดีถ้าคุณ ไม่ได้มีคำนี้ผมกำลังจะไป ทำให้คุณมีความน่าจะเป็นที่ต่ำกว่า แต่ฉันก็ไม่ไป 0 ให้ทันที เพราะบางทีมันอาจจะเป็นสิ่งที่ชอบ "ไฟไหม้ไฟไหม้ไฟไหม้ไฟ" ซึ่งเป็น ทั้งหมด Katy Perry และ "เด็ก" และมันเพียงแค่ไปที่ 0 ทันทีเพราะมีหนึ่ง "ทารก". ดังนั้นโดยทั่วไปสิ่งที่เราทำบางสิ่งบางอย่าง ที่เรียกว่าเลซเรียบ และนี้ก็หมายความว่าฉันให้ ความน่าจะเป็นบางคนถึงกับคำว่า ที่ไม่อยู่ ดังนั้นสิ่งที่ฉันทำคือการที่เมื่อฉัน การคำนวณนี้ฉันมักจะเพิ่ม 1 ถึง เศษ ดังนั้นแม้ว่าคำว่าไม่อยู่ใน กรณีนี้ถ้าเป็น 0, ฉันยังคง การคำนวณนี้เป็น 1 ในช่วง จำนวนรวมของคำ มิฉะนั้นผมได้รับกี่คำ ฉันมีและฉันเพิ่ม 1 ดังนั้นฉันนับการทั้งสองกรณี ทำให้รู้สึก ดังนั้นตอนนี้ขอทำบางรหัส ฉันจะต้องทำมันสวยอย่างรวดเร็ว แต่มันเป็นสิ่งสำคัญเพียงว่าคุณ ผู้ชายเข้าใจแนวคิด ดังนั้นสิ่งที่เรากำลังพยายามทำ มีการดำเนินการนี​​้ว่า สิ่งที่ฉันกล่าวว่า - ฉันต้องการให้คุณใส่เนื้อเพลงจาก ของเลดี้กาก้าและ Katy Perry และโปรแกรมที่เป็นไปเพื่อให้สามารถ บอกว่าเนื้อเพลงใหม่เหล่านี้จะมาจากประสาท หรือ Katy Perry ทำให้รู้สึก ตกลง ดังนั้นผมจึงมีโปรแกรมที่ฉันจะนี้ ที่จะเรียก classify.py ดังนั้นนี่คืองูหลาม มันเป็นภาษาการเขียนโปรแกรมใหม่ มันเป็นความคล้ายกันในบางส่วน วิธีการที่จะ C และ PHP มันคล้ายกันเพราะถ้าคุณต้องการที่จะ เรียนรู้หลามหลังจากที่รู้ C ก็ จริงๆไม่ว่ามากของความท้าทาย เพียงเพราะงูใหญ่เป็นเรื่องง่ายที่ กว่า C แรกของทุกคน และจำนวนมากของสิ่งที่มีอยู่แล้ว ดำเนินการสำหรับคุณ ดังนั้นเพียงแค่วิธีการเช่น PHP มีฟังก์ชั่นที่ เรียงลำดับรายการหรือผนวกบางสิ่งบางอย่าง อาร์เรย์หรือ blah, blah, blah งูใหญ่มีทั้งหมดของเหล่านั้นเช่นกัน ดังนั้นฉันแค่จะอธิบายได้อย่างรวดเร็ว วิธีการที่เราสามารถดำเนินการจัดหมวดหมู่ ปัญหาสำหรับที่นี่ จึงขอบอกว่าในกรณีนี้ผมมี เนื้อเพลงจากประสาทและ Katy Perry วิธีการที่ฉันมีเนื้อเพลงเหล่านั้นก็คือว่า คำแรกของเนื้อเพลงคือ ชื่อของศิลปินและ ส่วนที่เหลือเป็นเนื้อเพลง ดังนั้นขอบอกว่าฉันมีรายชื่อใน ซึ่งคนแรกคือเนื้อเพลงทึ่ม ดังนั้นที่นี่ฉันในการติดตามขวา และคนต่อไปคือเคทีและ มันยังมีเนื้อเพลง ดังนั้นนี่คือวิธีการที่คุณประกาศ ตัวแปรในหลาม คุณไม่จำเป็นที่จะให้ชนิดข้อมูล คุณเพียงแค่เขียน "เนื้อเพลง" ชนิดเช่นใน PHP ทำให้รู้สึก ดังนั้นสิ่งที่เป็นสิ่งที่ฉันต้อง คำนวณเพื่อให้สามารถคำนวณ ความน่าจะเป็น? ฉันมีการคำนวณ "ไพรเออร์" ของแต่ละที่แตกต่างกัน ชั้นเรียนที่ฉันมี ฉันมีการคำนวณ "posteriors" หรือสวยมากน่าจะเป็นของ แต่ละคำที่แตกต่างกันที่ ฉันสามารถมีสำหรับศิลปินแต่ละคน ดังนั้นภายในประสาทเช่นฉันจะ ที่จะมีรายชื่อของวิธีการที่หลายต่อหลายครั้งที่ฉันเห็น แต่ละคำ ทำให้รู้สึก และในที่สุดผมก็จะมี รายการที่เรียกว่า "คำ" ที่เพิ่งจะ จะมีกี่คำที่ฉัน มีสำหรับศิลปินแต่ละคน ดังนั้นสำหรับทึ่มตัวอย่างเช่นเมื่อฉันมอง เนื้อเพลงผมผมคิดว่า 24 คำทั้งหมด ดังนั้นรายการนี​​้เป็นเพียงการไปได้ 24 กาก้าและเคทีหมายเลขอื่น ทำให้รู้สึก ตกลง ดังนั้นตอนนี้จริงให้ ไปที่การเขียนโปรแกรม ดังนั้นในหลามคุณสามารถจริง กลับพวงของการที่แตกต่างกัน สิ่งจากฟังก์ชั่น ดังนั้นฉันจะสร้างฟังก์ชั่นนี้ เรียกว่า "เงื่อนไข" ที่เป็นไป ที่จะกลับมาทั้งหมดของสิ่งเหล่านั้น "ไพรเออร์" "น่าจะ" และ "คำพูด". ดังนั้น "เงื่อนไข" และมันเป็น จะได้รับการโทรเข้ามา "เนื้อเพลง." ดังนั้นตอนนี้ฉันต้องการให้คุณจริง เขียนฟังก์ชั่นนี้ ดังนั้นวิธีที่ฉันสามารถเขียนนี้ ฟังก์ชั่นที่ผมกำหนดไว้นี้ ทำงานด้วย "def." ดังนั้นฉันได้ "def เงื่อนไข "และมันสละ "เนื้อเพลง." และสิ่งนี้จะไปทำ เป็นครั้งแรกของทุกฉันมีไพรเออร์ของฉัน ที่ฉันต้องการในการคำนวณ ดังนั้นวิธีที่ฉันสามารถทำเช่นนี้คือการสร้าง ในพจนานุกรมหลามที่ สวยมากสิ่งเดียวกับกัญชา ตารางหรือมันก็เหมือนการย้ำ อาร์เรย์ใน PHP นี่คือวิธีที่ผมประกาศพจนานุกรม และโดยทั่วไปสิ่งที่หมายถึงนี้คือ ไพรเออร์ของประสาทคือ 0.5 ตัวอย่างเช่นถ้า 50% ของเพลงที่มาจาก ทึ่ม 50% จะมาจากเคที ทำให้รู้สึก ดังนั้นผมจึงมีการคิดออกว่า ไพรเออร์ในการคำนวณ คนต่อไปที่ฉันต้องทำยัง มีความน่าจะเป็นและคำพูด ดังนั้นความน่าจะเป็นของประสาทคือรายการ ของความน่าจะเป็นทั้งหมดที่ฉัน มีสำหรับแต่ละคำสำหรับทึ่ม ดังนั้นถ้าผมไปที่ความน่าจะเป็นของประสาท "ทารก" ตัวอย่างเช่นมันจะให้ฉัน สิ่งที่ต้องการ 2 กว่า 24 ในกรณีที่ ทำให้รู้สึก ดังนั้นผมจึงไปที่ "น่าจะ" ไปที่ "ทึ่ม" ถังที่มีรายชื่อของ คำประสาทแล้วฉันไปที่ "เด็ก" และผมเห็นความน่าจะเป็น และในที่สุดฉันมีนี้ "คำพูด" พจนานุกรม ดังนั้นที่นี่ "น่าจะ". แล้วจึง "คำพูด". ดังนั้นถ้าผมทำ "คำ", "กาก้า" สิ่งที่จะเกิดขึ้นคือว่ามัน จะให้ฉัน 24 บอกว่าฉัน มี 2​​4 คำภายในเนื้อเพลงจากทึ่ม ทำให้รู้สึก? ดังนั้นที่นี่ "คำพูด" เท่ากับ DAH-DAH-DAH ตกลง ดังนั้นสิ่งที่ผมจะทำคือผมกำลังจะไป ย้ำกว่าแต่ละเนื้อเพลงดังนั้น แต่ละสายที่ ฉันมีในรายการ และฉันจะคำนวณสิ่งเหล่านั้น สำหรับแต่ละของผู้สมัคร ทำให้รู้สึก? ดังนั้นผมจึงต้องทำสำหรับวง ดังนั้นในหลามสิ่งที่ฉันสามารถทำได้คือ "สำหรับสาย ในเนื้อเพลง. "สิ่งที่เหมือนกันกับ "สำหรับแต่ละ" คำสั่งใน PHP โปรดจำไว้ว่าถ้ามันเป็น PHP ที่จะทำได้ กล่าวว่า "สำหรับการเป็นเพลงที่แต่ละ สาย. "ทำให้รู้สึก? ดังนั้นฉันเอาแต่ละเส้นในการนี​​้ กรณีที่สายนี้และต่อไป สตริงดังนั้นสำหรับแต่ละเส้นสิ่งที่ฉัน จะทำคือครั้งแรกที่ฉันจะไป แยกสายนี้ลงในรายการของ คำคั่นด้วยช่องว่าง ดังนั้นสิ่งดีๆเกี่ยวกับงูหลามที่ คุณอาจจะเพียงแค่ Google เช่น "วิธีการที่ฉันสามารถ แบ่งสายเป็นคำ? "และมันเป็น จะบอกให้คุณทราบวิธีที่จะทำมัน และวิธีการที่จะทำมันก็แค่ "สาย = line.split () "และมันเป็นพื้น จะให้รายการที่มี แต่ละคำที่นี่ ทำให้รู้สึก? ดังนั้นขณะนี้ที่ผมว่าผมต้องการที่จะรู้ว่า ที่เป็นนักร้องของเพลงที่ และจะทำอย่างไรที่ฉันจะต้องได้รับ องค์ประกอบแรกของอาร์เรย์ใช่ไหม ดังนั้นผมก็สามารถพูดได้ว่าผม "นักร้อง = บรรทัด (0) "ทำให้รู้สึก? และแล้วสิ่งที่ฉันต้องทำคือการเป็นครั้งแรกของ ทั้งหมดที่ฉันจะปรับปรุงวิธีการที่หลาย คำที่ฉันมีภายใต้ "โง่." ดังนั้นฉันเพียงแค่ จะคำนวณจำนวนคำที่ฉัน มีในรายการนี​​้ใช่มั้ย เพราะนี่เป็นวิธีการที่หลายคำที่ฉันมี ในเนื้อเพลงและฉันแค่จะไป เพิ่ม "ทึ่ม" อาเรย์ ไม่ที่ทำให้รู้สึก? ไม่เน้นมากเกินไปในไวยากรณ์ คิดเพิ่มเติมเกี่ยวกับแนวคิด นั่นเป็นส่วนที่สำคัญที่สุด ตกลง ดังนั้นสิ่งที่ฉันจะทำมันก็คือถ้า "ทึ่ม" เป็น แล้วในรายการที่ว่า "ถ้านักร้องใน คำว่า "ซึ่งหมายความว่าฉันแล้ว มีคำโดยทึ่ม ผมแค่อยากจะเพิ่มอีก คำว่า ดังนั้นสิ่งที่ฉันทำคือ "คำ (นักร้อง) + = len (สาย) - 1 " และจากนั้นฉันก็สามารถทำ ความยาวของเส้น ดังนั้นวิธีที่หลายองค์ประกอบฉัน มีในอาร์เรย์ และผมต้องทำลบ 1 เพียงเพราะ องค์ประกอบแรกของอาร์เรย์เป็นเพียง นักร้องและผู้ที่มีเนื้อเพลงไม่ได้ ทำให้รู้สึก? ตกลง "อื่น ๆ " มันหมายความว่าฉันต้องการจริง ใส่ประสาทในรายการ ดังนั้นผมก็ทำ "คำ (นักร้อง) = len (สาย) - 1, "ขอโทษ ดังนั้นความแตกต่างเพียงอย่างเดียวระหว่างสอง สายเป็นที่หนึ่งนี้ก็ไม่ได้ ที่มีอยู่ยังดังนั้นฉันแค่ การเริ่มต้นมัน หนึ่งฉันจริงเพิ่มนี้ ตกลง ดังนั้นนี่คือการเพิ่มคำ ตอนนี้ผมต้องการที่จะเพิ่มไพรเออร์ ดังนั้นฉันจะคำนวณไพรเออร์หรือไม่ ไพรเออร์สามารถคำนวณได้ โดยวิธีการหลายครั้ง ดังนั้นวิธีที่หลายต่อหลายครั้งที่คุณเห็นนักร้องที่ ในหมู่ของนักร้องที่คุณ มีใช่มั้ย? ดังนั้นสำหรับทึ่มและ Katy Perry, ในกรณีนี้ผมเห็นทึ่ม ครั้ง Katy Perry ครั้ง ดังนั้นโดยทั่วไปไพรเออร์กับกาก้า และ Katy Perry จะ เพียงแค่เป็นหนึ่งใช่ไหม คุณเพียงแค่วิธีการที่หลายต่อหลายครั้ง ผมเห็นศิลปิน ดังนั้นนี้เป็นเรื่องง่ายมากในการคำนวณ ฉันสามารถเพียงแค่บางสิ่งบางอย่างที่คล้ายกันเช่น "ถ้า นักร้องในไพรเออร์ "ฉันแค่จะ เพื่อเพิ่ม 1 ถึงไพรเออร์ของพวกเขากล่อง ดังนั้น "ไพรเออร์ (ร้องเพลง)" + = 1 "แล้ว" อื่น " ฉันจะทำ "ไพรเออร์ (นักร้อง) = 1. "ทำให้รู้สึก? ดังนั้นถ้ามันไม่ได้อยู่ที่ผมเพียงแค่ใส่ 1 เป็นอย่างอื่นผมเพียงแค่เพิ่ม 1 ตกลงดังนั้นตอนนี้สิ่งที่ผมได้ออกไปทำ นอกจากนี้ยังเพิ่มแต่ละคำเพื่อ ความน่าจะเป็น ดังนั้นผมจึงมีการนับจำนวนครั้งที่ ผมเห็นแต่ละคำ ดังนั้นผมก็ต้องทำอีก สำหรับวงในสาย ดังนั้นสิ่งแรกที่ผมจะทำคือ ตรวจสอบว่านักร้องที่มีอยู่แล้ว น่าจะเป็นแถว ดังนั้นฉันตรวจสอบว่านักร้องไม่ได้ มีความน่าจะเป็นอาเรย์, ฉันแค่ จะเริ่มต้นอย่างใดอย่างหนึ่งสำหรับพวกเขา ก็ไม่ได้มากมายขอโทษ เป็นพจนานุกรม ดังนั้นความน่าจะเป็นของนักร้องที่เป็นไป จะเปิดพจนานุกรมเพื่อให้ฉัน เพียงแค่การเริ่มต้นพจนานุกรมสำหรับมัน OK? และตอนนี้ฉันสามารถทำได้จริงสำหรับวง ในการคำนวณของแต่ละคำพูดของ ความน่าจะเป็น ตกลง ดังนั้นสิ่งที่ฉันสามารถทำได้คือห่วงสำหรับ ดังนั้นฉันแค่จะย้ำ กว่าอาร์เรย์ ดังนั้นวิธีการที่ฉันสามารถทำในหลาม คือ "การที่ผมอยู่ในช่วง." ตั้งแต่วันที่ 1 เพราะฉันต้องการที่จะเริ่มต้นในครั้งที่สอง เพราะองค์ประกอบแรกคือ ชื่อนักร้อง ดังนั้นจากหนึ่งถึง ความยาวของเส้น และเมื่อฉันมีช่วงที่มันเป็นจริงไปจาก เช่นที่นี่จาก 1 ถึง len ของ ลบ 1 บรรทัด ดังนั้นจึงไม่อยู่แล้วสิ่งที่ทำว่า n ลบ 1 สำหรับอาร์เรย์ซึ่งเป็นมาก สะดวกสบาย ทำให้รู้สึก? ดังนั้นสำหรับแต่ละเหล่านี้สิ่งที่ฉันกำลังจะไป ทำคือการเช่นเดียวกับในอีกหนึ่ง ฉันจะตรวจสอบว่าคำในนี้ ตำแหน่งในสายที่มีอยู่แล้วใน ความน่าจะเป็น แล้วที่ผมกล่าวว่าที่นี่น่าจะเป็น คำในขณะที่ฉันใส่ "ความน่าจะเป็น (นักร้อง)" ดังนั้นชื่อของนักร้อง ดังนั้นถ้ามันมีอยู่แล้วใน "probabilit (นักร้อง)" มันหมายความว่าฉัน ต้องการเพิ่ม 1 ถึงมันดังนั้นฉันจะ ทำ "ความน่าจะเป็น (นักร้อง)" และ คำที่เรียกว่า "สาย (i)" ฉันจะเพิ่ม 1 และ "อื่น ๆ " ฉันเพียงแค่ จะเริ่มต้นมันถึง 1 "เส้น (i)" ทำให้รู้สึก? ดังนั้นฉันจึงมีการคำนวณทั้งหมดของอาร์เรย์ ดังนั้นตอนนี้สิ่งที่ฉันต้องทำเพื่อ อันนี้เป็นเพียงการ "กลับไพรเออร์, ความน่าจะเป็นและคำพูด. "ขอ ดูว่ามีใด ๆ ที่ตกลง ดูเหมือนว่าทุกอย่างคือการทำงานเพื่อให้ห่างไกล เพื่อที่จะทำให้ความรู้สึก? ในบางวิธี? ตกลง ดังนั้นตอนนี้ฉันมีความน่าจะเป็นทั้งหมด ดังนั้นตอนนี้สิ่งเดียวที่ฉันมีซ้าย เป็นเพียงการมีสิ่งที่ว่า คำนวณผลิตภัณฑ์ทั้งหมด น่าจะเป็นตอนที่ผมได้รับเนื้อเพลง จึงขอบอกว่าผมต้องการที่จะเรียก ฟังก์ชั่นนี้ "จัด ()" และ สิ่งที่ฟังก์ชั่นที่ใช้เวลา เป็นเพียงการโต้แย้ง สมมติว่า "เด็กผมลงบนกองไฟ" และมันเป็น จะคิดออกว่า ความน่าจะเป็นว่านี่คือโง่? ความน่าจะเป็นสิ่งที่ ว่านี่คือเคธี่? เสียงดี? ดังนั้นฉันแค่ไปที่จะมีการสร้าง ฟังก์ชั่นใหม่ที่เรียกว่า "จัด ()" และ มันจะใช้เวลาบางส่วน เนื้อเพลงเป็นอย่างดี และนอกจากเพลงที่ฉันยัง ต้องส่งไพรเออร์, ความน่าจะเป็นและคำพูด ดังนั้นฉันจะส่งเนื้อเพลงไพรเออร์, น่าจะเป็นคำพูด ดังนั้นนี่คือการเนื้อเพลงไพรเออร์, น่าจะเป็นคำพูด ดังนั้นสิ่งที่ไม่ได้ทำอย่างไร มันเป็นพื้นจะไปผ่านทุก ผู้สมัครที่เป็นไปได้ที่คุณ ได้เป็นนักร้อง และสถานที่ที่ผู้สมัครเหล่านั้นมีอะไรบ้าง พวกเขากำลังในไพรเออร์ใช่มั้ย? ดังนั้นผมจึงมีทุกคนมี ดังนั้นฉันจะมีพจนานุกรม ของผู้สมัครที่เป็นไปได้ทั้งหมด และจากนั้นให้ผู้สมัครในแต่ละ ไพรเออร์ดังนั้นก็หมายความว่ามันจะ เป็นกาก้าเคธี่ถ้าผมมี มากขึ้นก็จะมีมากขึ้น ฉันจะเริ่มต้นการคำนวณ ความน่าจะเป็นนี้ น่าจะเป็นอย่างที่เราเห็นใน PowerPoint เป็นครั้งก่อน ผลิตภัณฑ์ของแต่ละ ความน่าจะเป็นอื่น ๆ ดังนั้นผมจึงสามารถทำเช่นเดียวกันที่นี่ ฉันสามารถทำน่าจะเป็น ในขั้นต้นก่อน ดังนั้นไพรเออร์ของผู้สมัคร ใช่มั้ย? และตอนนี้ฉันต้องย้ำกว่าทุก คำที่ฉันมีในเนื้อเพลงจะเป็น สามารถที่จะเพิ่มความน่าจะเป็น สำหรับแต่ละคน OK? ดังนั้น "สำหรับคำในเนื้อเพลง" สิ่งที่ฉันจะ ที่จะทำคือถ้าคำที่อยู่ใน "ความน่าจะเป็น (ผู้สมัคร)" ซึ่ง หมายความว่ามันเป็นคำที่ ผู้สมัครที่มีอยู่ในเนื้อเพลงของพวกเขา - ตัวอย่างเช่น "ลูกน้อย" สำหรับการประสาท - สิ่งที่ผมจะทำก็คือ ความน่าจะเป็นไปได้คูณ โดย 1 บวกความน่าจะเป็นของ ผู้สมัครสำหรับคำว่า และก็เรียกว่า "คำ" นี้หารด้วยจำนวนของคำ ที่ฉันมีให้ผู้สมัครที่ จำนวนรวมของคำที่ฉันมี นักร้องที่ฉันกำลังมองหาที่ "อื่น ๆ ". มันหมายความว่ามันเป็นคำใหม่ ดังนั้นมันจะเป็นอย่างเช่น "ไฟ" สำหรับการของเลดี้กาก้า ดังนั้นผมเพียงแค่ต้องการที่จะทำในช่วงที่ 1 "คำ (ผู้สมัคร)" ดังนั้นผมจึงไม่ต้องการที่จะใส่ในระยะนี้ที่นี่ ดังนั้นจึงเป็นไปได้โดยทั่วไป คัดลอกและวางนี้ แต่ฉันจะลบส่วนนี้ ดังนั้นมันก็จะเป็น 1 ในช่วงที่ เสียงดี? และตอนนี้ที่สิ้นสุดฉันแค่จะไป พิมพ์ชื่อของผู้สมัครและ ความน่าจะเป็นว่าคุณมีของ มี S ในเนื้อเพลงของพวกเขา ทำให้รู้สึก? และที่จริงผมทำไม่ได้ ต้องพจนานุกรมนี้ ทำให้รู้สึก? ดังนั้นขอดูว่านี้ใช้งานได้จริง ดังนั้นถ้าผมทำงานนี้ก็ไม่ได้ทำงาน รอคนที่สอง "คำพูด (ผู้สมัคร)", "คำ (ผู้สมัคร)" นั่นคือ ชื่อของอาร์เรย์ ตกลงดังนั้นจึงกล่าวว่ามีข้อผิดพลาดบางอย่าง ให้ผู้สมัครในไพรเออร์ ผมขอเพียงแค่เย็นนิด ๆ หน่อย ๆ ตกลง ลอง ตกลง ดังนั้นจึงให้ Katy Perry มีนี้ น่าจะเป็นครั้งที่ 10 ที่จะ ลบ 7 และมีประสาทนี้ ครั้งที่ 10 ถึง 6 ลบ ดังนั้นคุณจะเห็นว่ามันแสดงให้เห็นว่าทึ่ม มีความน่าจะเป็นสูงกว่า ดังนั้น "เด็กฉันไฟ" เป็นที่ อาจเป็นเพลงที่โง่ ทำให้รู้สึก? ดังนั้นนี่คือสิ่งที่เราทำ รหัสนี้จะถูกโพสต์ออนไลน์ ดังนั้นพวกคุณสามารถตรวจสอบออก อาจจะใช้บางส่วนของมันถ้าคุณต้องการที่จะ ทำโครงการหรือสิ่งที่คล้ายกัน ตกลง นี่เป็นเพียงการแสดง สิ่งที่การคำนวณ รหัสภาษาศาสตร์ดูเหมือนว่า แต่ตอนนี้ขอไปให้มากขึ้น สิ่งที่อยู่ในระดับสูง ตกลง ดังนั้นปัญหาอื่น ๆ ที่ฉัน พูดคุยเกี่ยวกับ - ปัญหาการแบ่งส่วน เป็นครั้งแรกของพวกเขา เพื่อให้คุณมีที่นี่ญี่ปุ่น แล้วคุณจะเห็นว่า ไม่มีช่องว่าง ดังนั้นนี้โดยทั่วไปหมายถึงว่ามันเป็น ด้านบนของเก้าอี้ใช่ไหม คุณพูดภาษาญี่ปุ่น มันเป็นด้านบนของเก้าอี้ใช่ไหม นักเรียน: ผมไม่ทราบว่า ตัวอักษรคันจิที่นั่นเป็น LUCAS FREITAS: มัน [พูดญี่ปุ่น] ตกลง ดังนั้นโดยทั่วไปหมายถึงเก้าอี้ของด้านบน ดังนั้นถ้าคุณมีการใส่ช่องว่าง มันจะเป็นที่นี่ แล้วคุณมี [? อุเอดะซัง ?] ซึ่งโดยทั่วไปหมายถึงนายอุเอดะ และคุณจะเห็นว่า "อุเอดะ" และคุณมี พื้นที่และแล้ว "san." ดังนั้นคุณจะเห็นว่า ที่นี่คุณ "Ue" เป็นเหมือนการด้วยตัวเอง และที่นี่ก็มีตัวละคร ถัดไป ดังนั้นจึงไม่เหมือนในภาษาเหล่านั้น ตัวอักษรที่มีความหมายคำมันเพื่อให้คุณ เพียงแค่ใส่จำนวนมากของช่องว่าง ตัวละครที่เกี่ยวข้องกับแต่ละอื่น และพวกเขาสามารถจะอยู่ด้วยกัน เช่นสองสามอย่างใดอย่างหนึ่ง ดังนั้นคุณจะมีการสร้างบางชนิด ของวิธีการใส่ช่องว่างเหล่านั้น และสิ่งนี้ก็คือว่าเมื่อใดก็ตามที่คุณได้รับ ข้อมูลจากภาษาเอเชียเหล่านั้น ทุกอย่างมา unsegmented เพราะคนที่เขียนญี่ปุ่นไม่มี หรือภาษาจีนเขียนที่มีช่องว่าง เมื่อใดก็ตามที่คุณกำลังเขียนจีน ภาษาญี่ปุ่นที่คุณเพียงแค่เขียนทุกอย่าง ไม่มีช่องว่าง มันไม่ได้ทำให้ความรู้สึก การใส่ช่องว่าง ดังนั้นแล้วเมื่อคุณได้รับข้อมูลจากบางคน ภาษาเอเชียตะวันออกถ้าคุณต้องการที่จะ จริงทำอะไรกับที่ คุณต้องส่วนแรก คิดทำตัวอย่างของ เนื้อเพลงที่ไม่มีช่องว่าง ดังนั้นเนื้อเพลงที่เดียวที่คุณมี จะเป็นประโยคใช่ไหม คั่นด้วยระยะเวลา แต่แล้วมีเพียงประโยคที่จะ ได้จริงๆช่วยในการให้ข้อมูล ของผู้ที่เนื้อเพลงที่มีโดย ใช่มั้ย? ดังนั้นคุณควรทำให้ช่องว่างแรก ดังนั้นวิธีที่คุณสามารถทำได้ ดังนั้นแล้วก็มาถึงความคิดของภาษา รูปแบบซึ่งเป็นสิ่งที่จริงๆ สิ่งที่สำคัญสำหรับการคำนวณ ภาษาศาสตร์ ดังนั้นรูปแบบของภาษาที่เป็นพื้น ตารางของความน่าจะแสดงให้เห็นว่า แรกของทุกสิ่งที่เป็นความน่าจะเป็น ของการมีคำในภาษาหรือไม่ เพื่อแสดงให้เห็นว่าบ่อยคำเป็น แล้วยังแสดงให้เห็นความสัมพันธ์ ระหว่างคำในประโยค ดังนั้นความคิดหลักคือถ้ามีคนแปลกหน้ามา ให้คุณและประโยคที่กล่าวว่า คุณเป็นสิ่งที่น่าจะเป็นที่สำหรับ เช่น "นี้เป็นน้องสาวของฉัน [? GTF"?] เป็นประโยคที่ว่าบุคคลดังกล่าวหรือไม่ ดังนั้นเห็นได้ชัดว่าบางประโยคเป็น พบได้บ่อยกว่าคนอื่น ๆ ตัวอย่างเช่น "วันดี" หรือ "ดี คืน "หรือ" เฮ้มี "มากขึ้น ที่พบมากที่สุดกว่าประโยค ว่าเรามีภาษาอังกฤษ เหตุใดจึงต้องมีประโยคที่ บ่อยมาก แรกของทั้งหมดมันเป็นเพราะคุณมี คำที่มีบ่อยมากขึ้น ดังนั้นสำหรับตัวอย่างเช่นถ้าคุณบอกว่าสุนัขเป็น ขนาดใหญ่และสุนัขที่มีขนาดใหญ่คุณ มักจะได้ยินเสียงสุนัขอาจจะมีขนาดใหญ่ มักจะมากขึ้นเพราะ "บิ๊ก" เป็นอีก บ่อยในภาษาอังกฤษกว่า "มโหฬาร". ดังนั้นหนึ่งของ สิ่งที่เป็นความถี่ของคำ สิ่งที่สองที่เป็นจริง ที่สำคัญเป็นเพียง คำสั่งของ ดังนั้นจึงเป็นเรื่องธรรมดาที่จะพูดว่า "แมว ภายในกล่อง. "แต่คุณจะไม่ปกติ เห็นในกล่อง "ภายในเป็นแมว." ดังนั้น คุณจะเห็นว่ามีความสำคัญบางอย่าง ในคำสั่งของคำ คุณไม่สามารถเพียงแค่บอกว่าทั้งสอง ประโยคที่มีความน่าจะเป็นเหมือนกัน เพียงเพราะพวกเขามีคำเดียวกัน คุณจะมีการดูแล เกี่ยวกับคำสั่งเป็นอย่างดี ทำให้รู้สึก ดังนั้นเราจะทำอย่างไร ดังนั้นสิ่งที่ฉันอาจพยายามที่จะได้รับคุณ ฉันพยายามที่จะให้คุณได้รับสิ่งที่เรา เรียกรุ่น n-กรัม ดังนั้นรูปแบบ n-กรัมโดยทั่วไปถือว่า ว่าสำหรับแต่ละคำว่า ที่คุณมีในประโยค มันเป็นความน่าจะเป็นของการมีที่ คำมีขึ้นไม่เพียง แต่ใน ความถี่ของคำในภาษาที่ แต่ยังอยู่ในคำว่า จะถูกล้อมรอบมัน ดังนั้นตัวอย่างเช่นโดยปกติเมื่อคุณเห็น สิ่งที่ชอบหรือที่คุณ อาจจะไปดู นามหลังจากที่มันใช่มั้ย เพราะเมื่อคุณมีคำบุพบท มักจะใช้เวลาเป็นรูปธรรมหลังจากที่มัน หรือหากคุณมีคำกริยาที่เป็นสกรรมกริยา คุณมักจะไป มีนามวลี ดังนั้นจึงจะมีคำนาม ที่ไหนสักแห่งที่อยู่รอบ ๆ ดังนั้นโดยทั่วไปสิ่งที่มันไม่สามารถที่จะ คิดว่าน่าจะเป็นของการมี คำติดกันเมื่อ คุณกำลังคำนวณ ความน่าจะเป็นของประโยค และนั่นคือสิ่งที่ภาษา รูปแบบที่เป็นพื้น เพียงแค่พูดในสิ่งที่เป็นความน่าจะเป็น ของการมีที่เฉพาะเจาะจง ประโยคในภาษาหรือไม่ ดังนั้นทำไมที่เป็นประโยชน์โดยทั่วไป? และครั้งแรกของทุกสิ่งที่เป็น รุ่น n-กรัม, แล้ว ดังนั้นรูปแบบ n-กรัมหมายความว่า แต่ละคำจะขึ้นอยู่กับ ต่อไปไม่มีลบ 1 คำ ดังนั้นโดยทั่วไปจะหมายถึงว่าถ้าเรามอง ตัวอย่างเช่นที่ TF CS50 เมื่อ ฉันคำนวณความน่าจะเป็นของ ประโยคที่ว่าคุณจะเป็นเช่น " ความน่าจะเป็นของการมีคำว่า "" ครั้งความน่าจะเป็นของการมี " CS50 "ครั้งความน่าจะเป็นของการมี "TF CS50." ดังนั้นโดยทั่วไปฉันนับ วิธีที่เป็นไปได้ทั้งหมดของการยืดมัน แล้วมักจะเมื่อคุณทำเช่นนี้ ในขณะที่โครงการที่คุณใส่ N เพื่อเป็น มูลค่าต่ำ ดังนั้นมักจะมีหรือ bigrams trigrams เพื่อให้คุณเพียงแค่นับสองคำ กลุ่มของสองคำหรือสามคำ เพียง แต่สำหรับปัญหาเรื่องประสิทธิภาพ และยังเพราะบางทีถ้าคุณมี บางอย่างเช่น "TF CS50." เมื่อคุณ มี "TF" มันเป็นสิ่งสำคัญมากที่ "CS50" เป็นถัดไปใช่ไหม ทั้งสองสิ่งนี้มักจะ ถัดจากแต่ละอื่น ถ้าคุณคิดว่าของ "ลุย" มันอาจจะเป็น จะมีสิ่งที่ ชั้นก็ TF'ing เพื่อ นอกจากนี้ "" เป็นสิ่งที่สำคัญจริงๆ เพื่อ CS50 TF แต่ถ้าคุณมีบางสิ่งบางอย่างเช่น "CS50 TF ไปเรียนและให้พวกเขา นักเรียนขนมบาง. "" แคนดี้ "และ" " ไม่มีความสัมพันธ์จริงๆใช่มั้ย พวกเขากำลังเพื่อให้ห่างไกลจากแต่ละอื่น ๆ ที่ มันไม่ได้เรื่องจริงๆสิ่งที่ คำที่คุณมี ดังนั้นด้วยการทำ bigram หรือ Trigram มัน ก็หมายความว่าคุณกำลัง จำกัด ตัวเองกับคำบางคำ ที่อยู่รอบ ทำให้รู้สึก ดังนั้นเมื่อคุณต้องการที่จะทำแบ่งส่วน โดยทั่วไปสิ่งที่คุณต้องการจะทำคือการมองเห็น สิ่งที่เป็นทุกวิธีที่เป็นไปได้ว่า คุณสามารถส่วนประโยคที่ว่า เช่นที่คุณเห็นสิ่งที่เป็น ความน่าจะเป็นของแต่ละประโยคที่ ที่มีอยู่ในภาษาหรือไม่ ดังนั้นสิ่งที่คุณทำก็เหมือนกันให้ ฉันพยายามที่จะนำพื้นที่ที่นี่ เพื่อให้คุณใส่ช่องว่างที่มี และคุณจะเห็นสิ่งที่เป็น ความน่าจะเป็นของประโยคที่ แล้วคุณจะเหมือนตกลงอาจจะ นั่นคือไม่ว่าดี ดังนั้นผมจึงใส่ช่องว่างและมีพื้นที่ มีและคุณคำนวณ ความน่าจะเป็นในขณะนี้และคุณจะเห็นว่า ก็น่าจะสูงกว่า ดังนั้นนี่คือวิธีการที่เรียกว่า TANGO ขั้นตอนวิธีการแบ่งส่วนซึ่งเป็น จริงสิ่งที่จะเป็นจริง เย็นสำหรับโครงการที่ โดยทั่วไปจะใช้เวลาข้อความ unsegmented ที่ สามารถภาษาญี่ปุ่นหรือจีนหรืออาจจะ อังกฤษไม่มีช่องว่างและพยายามที่จะใส่ ช่องว่างระหว่างคำและมันจะ ว่าด้วยการใช้รูปแบบของภาษาและ พยายามที่จะมองเห็นสิ่งที่อยู่สูงที่สุด น่าจะเป็นที่คุณจะได้รับ ตกลง ดังนั้นนี่คือการแบ่งส่วน ตอนนี้ไวยากรณ์ ดังนั้นรูปแบบที่จะถูกใช้สำหรับการ จำนวนมากดังนั้นสิ่งที่ถูกต้องในขณะนี้ ดังนั้นสำหรับการค้นหากราฟสำหรับสิริ สวยมากชนิดของธรรมชาติใด ๆ การประมวลผลภาษาที่คุณมี ดังนั้นสิ่งที่มีความสำคัญ สิ่งที่เกี่ยวกับไวยากรณ์? ดังนั้นประโยคโดยทั่วไปมี สิ่งที่เราเรียกองค์ประกอบ ซึ่งเป็นชนิดเช่นกลุ่มของคำ ที่มีฟังก์ชั่นในประโยค และพวกเขาไม่สามารถจริงๆ ห่างจากกัน ดังนั้นถ้าผมพูดเช่น "ลอเรนรัก ไมโล. "ฉันรู้ว่า" ลอเรน "เป็น ส่วนประกอบและแล้ว "ความรัก ไมโล "ยังเป็นอีกหนึ่ง เพราะคุณไม่สามารถพูดได้เช่น "ลอเรนไมโล รัก "จะมีความหมายเหมือนกัน มันไม่ได้เป็นไปได้ ความหมายเหมือนกัน หรือฉันไม่สามารถพูดเช่น "ไมโลลอเรน รัก. "ทุกอย่างไม่ได้เหมือนกัน หมายถึงการทำที่ ดังนั้นสองสิ่งที่สำคัญเพิ่มเติมเกี่ยวกับ ไวยากรณ์เป็นประเภทซึ่งเป็นคำศัพท์ โดยทั่วไปฟังก์ชั่นที่คุณ มีคำด้วยตัวเอง ดังนั้นคุณต้องรู้ว่า "ลอเรน" และ "ไมโล" เป็นคำนาม "ความรัก" เป็นคำกริยา และสิ่งที่สำคัญที่สองคือ ว่าพวกเขากำลังชนิดวลี เพื่อให้คุณรู้ว่า "รักไมโล" เป็นจริงเป็นวลีที่พูด ดังนั้นเมื่อผมพูดว่า "ลอเรน" ฉันรู้ว่า ลอเรนจะทำบางสิ่งบางอย่าง เธอกำลังทำอะไร เธอรักไมโล ดังนั้นจึงเป็นสิ่งที่ทั้ง แต่ชิ้นส่วนที่มี คำนามและคำกริยา แต่ร่วมกันพวกเขาให้คำกริยาวลี ดังนั้นสิ่งที่เราสามารถทำได้จริงด้วย ภาษาศาสตร์? ดังนั้นถ้าฉันมีบางอย่างเช่น "เพื่อนของแอลลิสัน." ผมเห็นถ้าฉันเพียงแค่ ไม่ต้นไม้วากยสัมพันธ์ฉันอยากจะรู้ว่า "เพื่อน" เป็นวลีคำนามเป็น คำนามและแล้ว "ของแอลลิสัน" เป็น บุพบทวลีที่ "ของ" เป็น เรื่องและ "อัลลิสัน" เป็นคำนาม สิ่งที่ฉันสามารถทำคือการสอนคอมพิวเตอร์ของฉัน ที่เมื่อฉันมีนามวลีหนึ่งและ แล้วบุพบทวลี ดังนั้นในกรณีนี้ "เพื่อน" แล้ว "ของ ไมโล "ฉันรู้ว่านี้หมายความว่า NP2, คนที่สองเป็นเจ้าของ NP1 ดังนั้นผมจึงสามารถสร้างชนิดของความสัมพันธ์บางอย่าง บางชนิดของฟังก์ชั่นสำหรับมัน ดังนั้นเมื่อใดก็ตามที่ฉันเห็นโครงสร้างนี้ซึ่ง ตรงที่ว่าด้วย "เพื่อนของ แอลลิสัน "ฉันรู้ว่าแอลลิสัน เพื่อนที่เป็นเจ้าของ เพื่อให้เพื่อนเป็นสิ่งที่ แอลลิสันที่มี ทำให้รู้สึก? ดังนั้นนี่คือสิ่งที่โดยทั่วไป ค้นหากราฟไม่ มันก็จะสร้างกฎ สำหรับจำนวนมากของสิ่งที่ ดังนั้น "เพื่อนของแอลลิสัน", "เพื่อนของฉัน ที่อาศัยอยู่ในเคมบริดจ์ "," เพื่อนของฉัน ที่ไปที่ฮาร์วาร์. "มันสร้างกฎระเบียบ สำหรับทุกสิ่งเหล่านั้น ตอนนี้เครื่องแปลภาษา ดังนั้นเครื่องแปลภาษายังเป็น บางสิ่งบางอย่างทางสถิติ และที่จริงถ้าคุณได้รับที่เกี่ยวข้องใน ภาษาศาสตร์จำนวนมาก ข้อมูลของคุณเป็นไปได้สถิติ ดังนั้นขณะที่ผมกำลังทำตัวอย่างกับ จำนวนมากที่มีความน่าจะเป็นว่าผมเป็น การคำนวณและจากนั้นคุณจะได้รับนี้ จำนวนน้อยมากที่สุดท้าย น่าจะเป็นและนั่นคือสิ่งที่ ช่วยให้คุณมีคำตอบ เครื่องแปลภาษานอกจากนี้ยังใช้ แบบจำลองทางสถิติ และถ้าคุณต้องการที่จะคิดของเครื่อง แปลในที่ง่ายที่สุด วิธีที่สิ่งที่คุณสามารถคิดเป็นเพียง แปลคำโดยคำใช่ไหม เมื่อคุณเรียนรู้ภาษาสำหรับ ครั้งแรกที่มักจะสิ่งที่ ที่คุณทำใช่ไหม ถ้าคุณต้องการคุณแปลประโยค ในภาษาของคุณในการใช้ภาษา คุณกำลังเรียนรู้มักจะเป็นครั้งแรกที่คุณ แปลแต่ละคำ เป็นรายบุคคลและจากนั้นคุณพยายาม จะนำคำให้เข้าที่ ดังนั้นถ้าผมต้องการที่จะแปลนี้ [พูดภาษาโปรตุเกส] ซึ่งหมายความว่า "แมวสีขาววิ่งหนีไป." ถ้าผมต้องการที่จะแปลจาก โปรตุเกสเป็นภาษาอังกฤษสิ่งที่ฉัน สามารถทำอะไรได้เป็นครั้งแรกที่ฉันเพียงแค่ แปลตามพยัญชนะ ดังนั้น "o" เป็น "", "แมว", "แมว" "กู", "สีขาว" แล้ว "fugio" เป็น "วิ่งหนีไป". ดังนั้นแล้วฉันมีคำทั้งหมดที่นี่ แต่พวกเขาไม่ได้อยู่ในลำดับที่ มันก็เหมือน "สีขาวแมววิ่งหนีไป" ซึ่งเป็นผิดไวยากรณ์ ดังนั้นแล้วฉันจะมีขั้นตอนที่สองซึ่ง เป็นไปได้ในการหาที่เหมาะ ตำแหน่งของแต่ละคำ ดังนั้นผมจึงรู้ว่าที่จริงผมต้องการที่จะมี "แมวสีขาว" แทน "แมวสีขาว." ดังนั้น สิ่งที่ฉันสามารถทำได้คือวิธีไร้เดียงสามากที่สุด จะสร้างทั้งหมด พีชคณิตเป็นไปได้ของ คำของตำแหน่ง แล้วดูที่หนึ่งมี น่าจะเป็นสูงสุดตาม กับรูปแบบภาษาของฉัน และจากนั้นเมื่อฉันพบหนึ่งที่มี น่าจะเป็นสูงสุดมันซึ่งเป็น อาจจะ "แมวสีขาววิ่งออกไป" ที่แปลของฉัน และนี่เป็นวิธีที่ง่ายในการอธิบาย วิธีการจำนวนมากของเครื่องแปลภาษา ขั้นตอนวิธีการทำงาน ไม่ที่ทำให้รู้สึก? และนี่ก็เป็นสิ่งที่น่าตื่นเต้นจริงๆ ที่พวกคุณอาจจะสามารถสำรวจ โครงการสุดท้ายใช่? นักเรียน: ดีคุณบอกว่ามันเป็น วิธีที่ไร้เดียงสาดังนั้นสิ่งที่เป็น วิธีคิดที่ไม่ไร้เดียงสา? LUCAS FREITAS: วิธีคิดที่ไม่ไร้เดียงสา? ตกลง ดังนั้นสิ่งแรกที่ไม่ดีเกี่ยวกับ วิธีการนี​​้เป็นที่ฉันเพียงแค่การแปล คำคำโดยคำ แต่บางครั้งคุณจะมีคำว่า สามารถมีการแปลหลาย ฉันจะพยายามที่จะคิด บางสิ่งบางอย่าง ตัวอย่างเช่น "มังงะ" ในภาษาโปรตุเกสสามารถ อย่างใดอย่างหนึ่งเป็น "ฉีก" หรือ "แขน". ดังนั้น เมื่อคุณกำลังพยายามที่จะแปลคำ ด้วยคำพูดมันอาจจะให้คุณ อะไรบางอย่างที่ทำให้รู้สึกไม่ เพื่อให้คุณจริงต้องการคุณดูที่ทั้งหมด เป็นไปได้ของการแปล คำพูดและการเห็นแรกของทั้งหมด สิ่งที่เป็นคำสั่ง เราได้พูดคุยเกี่ยวกับ Permutating สิ่งที่? เพื่อดูคำสั่งที่เป็นไปได้และ เลือกหนึ่งที่มีมากที่สุด ความน่าจะเป็น? นอกจากนี้คุณยังสามารถเลือกที่เป็นไปได้ทั้งหมด แปลสำหรับแต่ละ คำแล้วดู - รวมกับพีชคณิต - ที่หนึ่งที่มีความน่าจะเป็นสูงสุด นอกจากนี้คุณยังสามารถดูได้ คำเพียง แต่วลี เพื่อให้คุณสามารถวิเคราะห์ความสัมพันธ์ระหว่าง คำและจากนั้นได้รับ การแปลที่ดีกว่า นอกจากนี้ยังมีสิ่งอื่นเพื่อให้ภาคการศึกษานี้ ฉันจริงการทำวิจัยใน ภาษาจีนภาษาอังกฤษแปลเครื่อง เพื่อแปลจาก ภาษาจีนเป็นภาษาอังกฤษ และสิ่งที่เราทำคือนอกเหนือจากการใช้ แบบจำลองทางสถิติซึ่งเป็นเพียง เห็นความเป็นไปได้ของการมองเห็น ตำแหน่งในประโยคบางอย่างฉัน จริงยังเพิ่มรูปแบบบางอย่างของฉัน แบบว่าโอ้ถ้าผมเห็นแบบนี้ ของการก่อสร้างนี้เป็นสิ่งที่ฉันต้องการ ที่จะเปลี่ยนไปเมื่อฉันแปล เพื่อให้คุณยังสามารถเพิ่มชนิดของ องค์ประกอบของไวยากรณ์ที่จะทำให้ แปลมีประสิทธิภาพมากขึ้น และแม่นยำมากขึ้น ตกลง ดังนั้นวิธีที่สามารถให้คุณเริ่มต้นถ้าคุณต้องการ ที่จะทำอะไรบางอย่างในการคำนวณ ภาษาศาสตร์? ขั้นแรกให้คุณเลือกโครงการ ที่เกี่ยวข้องกับภาษา ดังนั้นมีจำนวนมากออกมี มีหลายสิ่งที่คุณสามารถทำได้ แล้วสามารถคิดรูปแบบ ที่คุณสามารถใช้ มักจะหมายถึงการที่ความคิดของ สมมติฐานที่เป็นเช่นโอ้เมื่อฉันถูก เช่นความคิดของเนื้อเพลง ฉันก็เหมือนกันถ้าผมต้องการที่จะคิด ออกที่เขียนนี้ผมอาจต้องการ การมองไปที่คำว่าคนที่ใช้และ ดูว่าใครใช้คำว่าบ่อยมาก จึงพยายามที่จะทำให้สมมติฐานและ พยายามที่จะคิดในรูปแบบ แล้วคุณยังสามารถค้นหาออนไลน์สำหรับ ชนิดของปัญหาที่คุณมี และก็จะให้คำแนะนำ กับรุ่นที่คุณว่าอาจจะ การสร้างแบบจำลองสิ่งที่ดี และยังให้คุณสามารถส่งอีเมลฉัน me@lfreitas.com และผมก็สามารถตอบคำถามของคุณ เราสามารถตอบสนองความต้องการก็อาจจะขึ้นเพื่อที่ฉันสามารถ ให้คำแนะนำเกี่ยวกับวิธีการของ การดำเนินการโครงการของคุณ และฉันหมายความว่าถ้าคุณได้รับเกี่ยวข้องกับ ภาษาศาสตร์ก็จะ จะดี คุณจะเห็นมี มีศักยภาพมาก และอุตสาหกรรมต้องการที่จะจ้าง คุณเลวร้ายเพราะการที่ ดังนั้นผมหวังว่าพวกคุณจะสนุกกับนี้ ถ้าพวกคุณมีคำถามใด ๆ คุณสามารถถามฉันหลังจากนี้ แต่ขอขอบคุณ