LUCAS فریتاس: سلام. هر کس خوش آمدید. نام من لوکاس فریتاس است. من یک تازه وارد در [نامفهوم] مطالعه هستم علوم کامپیوتر با تمرکز در زبان شناسی محاسباتی. بنابراین ثانویه من است در زبان و نظریه زبانی. من واقعا هیجان زده به شما یاد می دهد بچه ها کمی در مورد زمین میشه. این یک منطقه بسیار هیجان انگیز را به مطالعه است. همچنین با بسیاری از پتانسیل برای آینده است. بنابراین، من واقعا هیجان زده است که شما بچه ها با توجه به پروژه های در زبان شناسی محاسباتی. و من بیش از شاد برای توصیه می شود هر کدام از شما اگر شما تصمیم می گیرید به دنبال یکی از آن. پس اول از همه چه چیزی محاسباتی است زبان شناسی؟ زبان شناسی پس محاسباتی است تقاطع بین زبان شناسی و علوم کامپیوتر. بنابراین، آنچه زبان شناسی است؟ علوم کامپیوتر چیست؟ خب از زبان شناسی، چه ما را به زبان می باشد. پس زبان شناسی در واقع مطالعه از زبان طبیعی به طور کلی. زبان بنابراین طبیعی - ما در مورد صحبت زبانی که ما در واقع به استفاده از ارتباط با یکدیگر. بنابراین ما دقیقا صحبت نمی کنم در مورد C و یا جاوا. ما در حال صحبت کردن بیشتر در مورد زبان انگلیسی و چینی و دیگر زبان های است که ما استفاده برای برقراری ارتباط با یکدیگر. نکته چالش برانگیز در مورد آن این است که در حال حاضر ما تقریبا 7000 زبان در جهان است. بنابراین کاملا انواع بالا وجود دارد از زبان که ما می توانیم مطالعه. و سپس شما فکر می کنم که آن را احتمالا بسیار سخت به انجام، به عنوان مثال، ترجمه از یک زبان به زبان دیگر، با توجه به اینکه شما تقریبا 7000 از آنها. بنابراین، اگر شما از انجام ترجمه فکر می کنم از یک زبان به زبان دیگر شما تقریبا بیش از یک میلیون ترکیبات مختلف که شما می توانید باید از زبانی به زبان. بنابراین آن را واقعا به چالش کشیدن برای انجام برخی از نوع سیستم به عنوان مثال برای ترجمه هر زبان واحد. بنابراین، زبان شناسی رفتار با نحو، معناشناسی، واقع بین. شما بچه ها دقیقا لازم نیست به دانستن آنچه که آنها می باشد. اما چیزی که بسیار جالب است این است که به عنوان یک زبان مادری، که یاد می گیرید زبان به عنوان فرزند، شما در واقع یادگیری همه کسانی که همه چیز - معناشناسی نحو و واقع بین - توسط خودتان. و هیچ کس به شما یاد می نحو برای شما را به درک چگونگی احکام ساختار. بنابراین، این واقعا جالب است زیرا آن چیزی که بسیار می آید به طور مستقیم. و آنچه از شما از مصرف علوم کامپیوتر؟ خوب، مهم ترین چیز این است که ما در علم کامپیوتر است اول همه، هوش مصنوعی و یادگیری ماشین. بنابراین، آنچه که ما در حال تلاش برای انجام زبان شناسی محاسباتی آموزش است کامپیوتر شما چگونه به انجام کاری با زبان. بنابراین، برای مثال، در دستگاه ترجمه. من در تلاش برای میآموزد که چگونه کامپیوتر من بدانید که چگونه برای انتقال از یک زبان به زبان دیگر. بنابراین، اساسا مانند آموزش یک کامپیوتر به دو زبان. اگر من انجام پردازش زبان طبیعی، است که در مورد به عنوان مثال از فیس بوک در گراف جستجو، شما یاد می دهد کامپیوتر شما چگونه به درک نمایش داده شد است. بنابراین، اگر شما می گویند "عکس های من دوستان. "فیس بوک را معالجه نمی کند که به عنوان یک رشته تمام است که فقط یک دسته از کلمات. این در واقع ارتباط را درک بین "عکس" و "دوستان من" و درک می کند که "عکس" می باشد اموال "دوستان من." بنابراین، آن بخش از است، به عنوان مثال، پردازش زبان طبیعی است. این تلاش برای درک آنچه رابطه بین است واژگان در یک جمله. و سوال بزرگ است، می تواند شما را آموزش کامپیوتر چگونه به صحبت می کنند یک زبان به طور کلی؟ که یک سوال بسیار جالب است فکر می کنم، تا اگر شاید در آینده، شما به قادر به صحبت کردن با تلفن همراه شما. نوع مانند آنچه که ما با سیری انجام دهید، اما چیزی شبیه به، شما در واقع می تواند می گویند هر آنچه می خواهید و تلفن رفتن به درک همه چیز. و آن را می توانید پیگیری سوال و صحبت. این چیزی است که واقعا هیجان انگیز است، به نظر من. بنابراین، چیزی در مورد زبان طبیعی است. چیزی واقعا در مورد جالب زبان طبیعی است که، و این است اعتبار به استاد زبان شناسی من، ماریا Polinsky. او به عنوان مثال می دهد و من فکر می کنم این واقعا جالب است. از آنجا که ما یادگیری زبان از زمانی که ما به دنیا آمد و پس از آن مادری ما زبان نوع در ما رشد می کند. و در واقع شما در یادگیری زبان از حداقل ورودی، درست است؟ شما فقط گرفتن ورودی از شما پدر و مادر از چه زبانی خود را برای تلفن های موبایل دوست دارم و شما فقط آن را یاد بگیرند. بنابراین، این جالب است زیرا اگر شما نگاه کنید در آن احکام، به عنوان مثال. شما نگاه کنید، "مری قرار می دهد بر روی کت هر زمان او به ترک خانه. " در این مورد، این امکان وجود دارد که کلمه "او" اشاره به مری، درست است؟ شما می توانید می گویند "مری قرار می دهد بر روی کت هر زمان مری برگ خانه. "به طوری که خوب است. اما پس از آن اگر شما در حکم نگاه "او در کت قرار می دهد در هر زمان مری ترک خانه. "شما می دانید آن را غیر ممکن است می گویند که "او" است با اشاره به مری. هیچ راهی برای گفتن این که "مری قرار می دهد وجود دارد در کت هر زمان مری برگ خانه. "پس از آن جالب است زیرا این نوع از شهود است که هر زبان مادری است. و هیچ کس آموزش داده شد که این راه است که به نحو کار می کند. و که فقط می توان این "او" دارند با اشاره به مری در این مورد اول، است و در واقع در این دیگر بیش از حد، اما در این یکی. اما همه نوع می شود به همان جواب. هر کس موافق است بر روی آن. پس از آن واقعا جالب است که چگونه هر چند شما همه قوانین را نمی دانم در زبان شما نوع درک چگونه زبان کار می کند. بنابراین نکته جالب در مورد طبیعی زبان این است که شما لازم نیست که می دانم هر نحو می دانم که اگر یک جمله برای دستور زبان و یا ungrammatical است اکثر موارد. که باعث می شود شما فکر می کنم که شاید آنچه اتفاق می افتد این است که از طریق زندگی خود را، شما فقط حفظ شدن بیشتر و بیشتر جملات به شما گفته. و سپس شما را حفظ نگه دارید همه از جملات. و سپس وقتی که کسی به شما می گوید چیزی، شما که حکم گوش و شما در فرهنگ لغت خود نگاه جملات و اگر ببینید که حکم وجود دارد. و اگر وجود دارد و شما می گویند آن را دستوری. اگر آن را به شما می گویند آن را ungrammatical. بنابراین، در آن صورت، شما می گویند، آه، بنابراین شما باید یک لیست بزرگ از همه احکام امکان پذیر است. و پس از آن زمانی که شما یک جمله را بشنود، شما می دانید که اگر آن را دستوری و یا در که نه بر اساس. نکته این است که اگر شما در نگاه یک جمله، به عنوان مثال، " پنج سر CS50 TFS پخته شده کور هشت پا با استفاده از یک لیوان DAPA. "این قطعا نه یک جمله که شما قبل از شنیده می شود. اما در عین حال شما می دانید آن را تقریبا دستور زبان، درست است؟ هیچ اشتباهات دستوری وجود دارد و شما می توانید می گویند که آن یک جمله ممکن است. پس از آن باعث می شود ما فکر می کنم که در واقع راه است که ما زبان یاد بگیرید نه تنها با داشتن یک بانک اطلاعاتی عظیمی از امکان کلمات یا جملات، بلکه بیشتر از فهم رابطه کلمات در آن احکام. آیا این را حس؟ بنابراین، پس از آن سوال این است، می تواند کامپیوتر زبان یاد بگیرند؟ آیا ما می توانیم زبان تدریس به کامپیوتر؟ بنابراین، بیایید از تفاوت فکر می کنم بین زبان مادری زبان و کامپیوتر است. بنابراین، آنچه به سخنران اتفاقی می افتد؟ خوب، زبان مادری می آموزد زبان از قرار گرفتن در معرض آن است. معمولا سال دوران کودکی اولیه آن است. بنابراین، اساسا، شما فقط باید یک کودک، و شما در حفظ و صحبت کردن به آن، و آن را فقط می آموزد که چگونه به صحبت می کنند زبان، درست است؟ بنابراین، شما در واقع به ورودی به کودک. بنابراین، پس از آن شما می توانید استدلال می کنند که یک کامپیوتر می تواند همین کار را بکند، درست است؟ شما فقط می توانید زبان را به عنوان ورودی به کامپیوتر است. همانطور که برای مثال یک دسته از فایل ها که کتاب به زبان انگلیسی. شاید که یک راه این است که شما احتمالا می تواند آموزش کامپیوتر انگلیسی، درست است؟ و در واقع، اگر شما در مورد آن فکر می کنم، آن را به شما طول می کشد، شاید یک زن و شوهر روز تا خواندن یک کتاب. برای یک کامپیوتر طول می کشد دوم به در تمامی واژگان در کتاب نگاه کنید. بنابراین شما می توانید فکر می کنم که ممکن است فقط به این آرگومان ورودی از اطراف شما، که به اندازه کافی نیست که بگوییم که چیزی است که فقط انسان می تواند انجام دهد. شما می توانید کامپیوتر فکر می کنم همچنین می توانید ورودی دریافت کنید. نکته دوم این است که زبان مادری یک مغز است که همچنین قابلیت یادگیری زبان. اما اگر شما در مورد آن فکر می کنم، مغز یک چیز جامد است. هنگامی که شما به دنیا آمده، آن را در حال حاضر مجموعه - این مغز شما است. و همانطور که شما رشد می کنند، شما فقط شکلک های بیشتر از زبان و شاید مواد مغذی و چیزهای دیگر. اما تقریبا مغز شما یک چیز جامد است. بنابراین شما می توانید می گویند، خوب، شاید شما می توانید ساخت یک کامپیوتر که دارای یک دسته از توابع و روش ها است که فقط تقلید قابلیت یادگیری زبان. بنابراین در این معنا، می توان گفت، خوب، من می تواند یک کامپیوتر است که همه دارند چیزهایی که من نیاز به یادگیری زبان. و آخرین چیزی است که بومی سخنران از آزمون و خطا یاد می گیرد. بنابراین اساسا چیز دیگری که مهم در یادگیری زبان این است که شما نوع از چیزهایی یاد بگیرند با ساخت کلی از آنچه شما می شنوید. همانگونه که شما در حال رشد است تا به شما یاد بگیرند که برخی از کلمات مانند اسم هستند، برخی از آنهایی که دیگر صفت ها هستند. و شما لازم نیست که به هر گونه دانش زبان شناسی به درک که. اما تو فقط می دانم که برخی از واژه ها وجود دارد در بخشی از قرار حکم و برخی دیگر در سایر بخش هایی از جمله. و این زمانی که شما در انجام کاری است که مانند یک جمله است که درست نیست - شاید به دلیل تعمیم بیش از به عنوان مثال. شاید زمانی که شما رشد می کند، شما متوجه که جمع است که معمولا شکل با قرار دادن S در در پایان کلمه است. و پس از آن شما سعی می کنید برای انجام این کار جمع "گوزن" را به عنوان "ملت mellat" و یا "دندان" را به عنوان "tooths." بنابراین پس از آن پدر و مادر خود و یا کسی که شما را تصحیح می کند و می گوید: نه، جمع از "آهو" است "گوزن"، و جمع "دندان" "دندان" است. و پس از آن شما آن چیزهایی یاد بگیرند. بنابراین شما از آزمون و خطا یاد بگیرند. اما شما نیز می توانید انجام دهید که با کامپیوتر است. شما می توانید چیزی به نام یادگیری تقویتی. که در واقع مانند دادن کامپیوتر پاداش هر زمان که آن را ندارد چیزی به درستی. و دادن آن در مقابل پاداش و در آن هنگام که چیزی اشتباه است. شما می توانید در واقع ببینید که اگر شما به به ترجمه Google و شما را امتحان کنید ترجمه یک جمله، آن شما می پرسد برای بازخورد. بنابراین اگر شما می گویند، آه، یک بهتر وجود دارد برای ترجمه این جمله. شما می توانید آن را تایپ کنید و پس از آن اگر بسیاری از مردم در حفظ و گفت که بهتر است ترجمه، آن را فقط یاد می گیرد که آن را به باید که ترجمه به جای استفاده از یکی از آن ارائه شده است. بنابراین، این یک سوال بسیار فلسفی است برای دیدن اگر کامپیوتر در حال رفتن به قادر به صحبت یا نه در آینده. اما من امید زیادی که آنها می توانند فقط در آن دسته از استدلال است. اما این تنها بیشتر از یک فلسفی سوال. بنابراین در حالی که کامپیوتر هنوز نمی تواند صحبت می کنید، چیزهایی که ما می توانیم انجام چه هستند؟ بعضی چیزها واقعا سرد است طبقه بندی داده ها. بنابراین، برای مثال، شما بچه ها می دانید است که خدمات پست الکترونیک انجام دهید، برای به عنوان مثال، فیلتر هرزنامه. بنابراین هر زمان که شما اسپم دریافت، آن را به تلاش برای فیلتر کردن به جعبه دیگر. پس چگونه آن را انجام دهید؟ این مانند کامپیوتر فقط می داند آدرس ایمیل هایی را که در حال ارسال اسپم. بنابراین آن را بیشتر بر روی محتوای مبتنی بر پیام، یا شاید عنوان و یا شاید برخی از الگوی است که شما داشته باشد. بنابراین، اساسا، آنچه که شما می توانید انجام دهید این است که بسیاری از داده ها از ایمیل های اسپم، ایمیل که اسپم نیست، و یاد بگیرند چه نوع الگوهای شما در داشته باشد آنهایی که می اسپم. و این بخشی از محاسباتی است زبان شناسی. این طبقه بندی داده ها نامیده می شود. و ما در واقع رفتن به به عنوان مثال آن را در اسلاید بعدی. دومین چیزی که به زبان طبیعی است پردازش است که در آن چیزی است که نمودار جستجو در حال انجام است از اجازه دادن به شما ارسال در یک جمله. و این اعتماد شما را در درک آنچه معنی می دهد و شما در نتیجه بهتر است. در واقع، اگر شما به گوگل و یا بینگ به و شما چیزی شبیه به بانوی جستجو ارتفاع دل شکسته، شما در واقع رفتن برای به دست آوردن 5 '1 "به جای اطلاعات از او دلیل آن را در واقع می فهمد آنچه که شما در حال صحبت کردن در مورد. به طوری که بخشی از طبیعی است پردازش زبان. و یا همچنین هنگامی که شما با استفاده از سیری، برای اولین بار شما یک الگوریتم است که تلاش می کند به ترجمه آنچه شما می گویید به کلمه، در متن. و پس از آن تلاش می کند برای ترجمه که به معنای. به طوری که همه بخشی از طبیعی است پردازش زبان. سپس شما باید ترجمه ماشینی - است که در واقع یک از مورد علاقه های من - است که فقط ترجمه از زبان به زبان دیگر. بنابراین شما می توانید فکر می کنم که هنگامی که شما در حال انجام ترجمه ماشینی، شما باید امکانات بی نهایت جملات. بنابراین هیچ راهی تنها ذخیره سازی وجود دارد هر ترجمه تنها. بنابراین شما باید آمد تا با جالب الگوریتم قادر به ترجمه هر جمله در برخی از راه. شما هر گونه سوال تا کنون؟ هیچ؟ OK. پس چه می خواهیم برای دیدن امروز؟ اول از همه، من قصد دارم به بحث در مورد مشکل طبقه بندی. بنابراین یکی که من بود گفت: در مورد اسپم. چه من قصد دارم برای انجام این کار است، شعر داده شده به یک آهنگ می تواند شما سعی می کنید به کشف کردن با احتمال بالا که خواننده است؟ اجازه دهید بگویم که من آهنگ از بانو گاگا و کتی پری، اگر من شما را آهنگ جدید، می تواند شما را شکل اگر این کتی پری و یا لیدی گاگا؟ دوم، من فقط رفتن به صحبت در مورد مشکل تقسیم بندی می شود. بنابراین من نمی دانم اگر شما بچه ها می دانم، اما چینی، ژاپنی، دیگر شرق آسیا زبان، و زبان های دیگر به طور کلی، لازم نیست فاصله بین کلمات. و پس از آن اگر شما در مورد راه که فکر می کنم نوع کامپیوتر شما را از تلاش می کند تا درک پردازش زبان طبیعی، آن را در واژه ها به نظر می رسد و تلاش می کند تا درک روابط بین آنها، درست است؟ اما پس از آن اگر شما چینی، و شما صفر فاصله، آن را واقعا سخت است پیدا کردن آنچه که رابطه بین است کلمات، چرا که آنها هیچ ندارد کلمات در ابتدا. بنابراین شما باید برای انجام کاری به نام تقسیم بندی که فقط به معنی قرار دادن فاصله ای که بین آنچه ما می خواهم تماس بگیرید کلمات در این زبان. را حس؟ و پس از آن ما قصد داریم به در مورد نحو صحبت کنید. پس فقط کمی در مورد طبیعی پردازش زبان. این خواهد بود فقط یک مرور کلی. بنابراین، امروز، اساسا چیزی است که من می خواهم به انجام است شما بچه ها کمی از را در داخل از فرصت چه می باشد که شما می توانید با محاسباتی انجام زبان شناسی. و سپس شما می توانید ببینید چه چیزی شما فکر می کنم در میان کسانی که همه چیز سرد است. و شاید شما می توانید از یک پروژه فکر می کنم و آمد با من صحبت کنی. و من می تواند به شما مشاوره بدهند در مورد چگونگی پیاده سازی آن. بنابراین ترکیب نحوی است برای رفتن به یک کمی در مورد جستجو در نمودار و ماشین ترجمه. من فقط رفتن به یک مثال از چگونگی شما می توانید، برای مثال، ترجمه چیزی از پرتغالی به انگلیسی. به نظر می رسد خوب است؟ پس اول، مشکل طبقه بندی. من می گویم که این بخش از سمینار در حال رفتن به چالش برانگیزترین یکی فقط به خاطر رفتن وجود دارد به برخی از برنامه نویسی. اما برای رفتن به پایتون. من می دانم که شما بچه ها نمی پایتون دانم، پس من فقط رفتن به در بالا توضیح سطح کار من. و شما لازم نیست که واقعا اهمیت بیش از حد زیاد در مورد نحو چرا که چیزی است که شما بچه ها می توانند یاد بگیرند. OK؟ به نظر می رسد خوب است. پس چه مشکل طبقه بندی است؟ بنابراین شما برخی از اشعار داده شده در حال یک آهنگ، و شما می خواهید به حدس زدن که به آواز خواندن آن. و این می تواند برای هر نوع است از مشکلات دیگر. بنابراین می توان آن را، به عنوان مثال، شما یک انتخابات ریاست جمهوری و شما باید یک بیان، و شما می خواهید برای پیدا کردن اگر آن بود، به عنوان مثال، اوباما و میت رامنی. یا شما می توانید یک دسته از ایمیل ها و شما می خواهید برای کشف کردن در صورتی که اسپم یا نه. پس این فقط طبقه بندی برخی از داده ها بر اساس کلمات که شما وجود دارد. بنابراین برای انجام این کار، شما را به برخی از مفروضات. پس زیادی در مورد زبان شناسی. در حال مفروضات، مفروضات معمولا هوشمند، به طوری که شما می توانید نتایج خوبی دریافت کنید. تلاش برای ایجاد یک مدل برای آن. و سپس آن را امتحان کنید و ببینید که اگر آن کار می کند، اگر آن را به شما می دهد دقت خوب است. و اگر آن را ندارد، پس از آن شما سعی در بهبود آن. اگر آن را ندارد، شما مانند، OK، هستید شاید من باید فرض متفاوت. بنابراین این فرض که ما قصد داریم به این است که یک هنرمند معمولا آواز می خواند در مورد یک موضوع چندین بار، و شاید با استفاده از کلمات چند بار فقط چرا که آنها به آن استفاده می شود. شما فقط می توانید از دوستان خود فکر می کنم. من مطمئن هستم که شما بچه ها همه دوستان هستم که می گویند عبارت امضای خود، به معنای واقعی کلمه برای هر جمله تنها - مانند برخی از کلمه خاص یا خاص عبارت که آنها را برای می گویند هر جمله تنها. و چه می توان گفت این است که اگر شما می بینید یک جمله است که یک امضا عبارت، شما می توانید حدس می زنم که احتمالا دوست شما است یکی از آن گفت، درست است؟ بنابراین شما را به این فرض و پس از آن این که چگونه یک مدل را ایجاد می کنید. به عنوان مثال که من قصد دارم به در است چگونه بانوی دل شکسته، به عنوان مثال، مردم می گویند که او استفاده می کند "کودک" برای همه او را شماره یک آهنگ می باشد. و در واقع این یک ویدیو است که نشان می دهد او گفت کلمه "کودک" برای آهنگ های مختلف. [پخش ویدئو] - (آواز خواندن) کودک. کودک. کودک. کودک. کودک. شخص ساده و معصوم. کودک. کودک. کودک. کودک. [VIDEO END پخش، LUCAS فریتاس: پس وجود دارد، من فکر می کنم، 40 آهنگ در اینجا که در آن او می گوید: کلمه "عزیزم." بنابراین شما اساسا می توانید حدس بزنید که اگر شما یک آهنگ است که ببینید کلمه "عزیزم،" برخی از بالا وجود دارد احتمال که این بانوی دل شکسته. اما اجازه دهید سعی کنید برای توسعه این بیشتر به طور رسمی تر. پس این شعر به آهنگ های می باشد لیدی گاگا و کتی پری. بنابراین شما در لیدی گاگا نگاه کنید، شما آنها را مشاهده کنید تعداد زیادی از تکرار "کودک" بسیاری از تکرار "راه." و پس از آن کتی پری تا به بسیاری از وقوع "،" بسیاری از تکرار "آتش است." بنابراین اساسا آنچه که ما به خواهید انجام شده است، شما شعر را دریافت کنید. اجازه دهید بگویم که شما یک شعر برای دریافت آهنگ این است که "عزیزم،" فقط "عزیزم." اگر شما فقط کلمه "کودک"، و این تمام داده هایی را که شما را از داشته است لیدی گاگا و کتی پری، که می خواهند شما حدس می زنم شخص که آهنگ آواز می خواند؟ لیدی گاگا و کتی پری؟ بانوی دل شکسته، درست است؟ از آنجا که او تنها کسی بود که می گوید است "عزیزم." این برای تلفن های موبایل و نرم افزار، درست است؟ OK، این واقعا آسان است. من فقط به دنبال در دو آهنگ و البته، او تنها کسی است که به این "عزیزم." اما اگر شما یک دسته از کلمات؟ اگر شما از یک شعر واقعی، چیزی مثل، "عزیزم، من فقط رفتم برای دیدن [؟ CFT؟] سخنرانی، "و یا چیزی شبیه به آن، و پس از آن شما در واقع باید به شکل از - بر اساس همه این واژه ها - که هنرمندی که احتمالا است این آهنگ خواند؟ بنابراین اجازه دهید سعی کنید برای توسعه این کمی بیشتر. OK، بنابراین فقط بر روی داده ها بر اساس است که ما رو، به نظر می رسد که دل شکسته است که احتمالا خواننده. اما چگونه می توان از ارسال این به طور رسمی تر؟ و وجود دارد برای رفتن به یک کمی کمی از آمار. بنابراین اگر شما از دست داده، فقط سعی کنید برای درک مفهوم. مهم نیست که اگر شما را در درک معادلات به خوبی. این همه رفتن به صورت آنلاین. بنابراین اساسا آنچه که من محاسبه است احتمال این که این آهنگ توسط بانوی دل شکسته با توجه به اینکه - پس این بار با توجه به معنی که - من کلمه را دیدم "عزیزم." آیا این را حس؟ بنابراین من در تلاش برای محاسبه که احتمال. پس این قضیه به نام وجود دارد قضیه بیز است که می گوید که احتمال B داده شده است، احتمال B داده شده A، برابر احتمال A، بیش از احتمال از B. این یک معادله طولانی است. اما آنچه شما باید از درک که این است که این چیزی است که من می خواهم محاسبه، درست است؟ بنابراین احتمال این که این آهنگ است بانوی دل شکسته با توجه به اینکه من کلمه دیدم "عزیزم." و در حال حاضر آنچه که من گرفتن است احتمال از کلمه "کودک" داده شده که من آن را بانوی دل شکسته. و چه چیزی است که اساسا؟ این بدان معناست، آنچه که احتمال دیدن کلمه "کودک" در شعر دل شکسته؟ اگر من می خواهم برای محاسبه است که در بسیار راه ساده، آن را فقط به تعداد است بار من "کودک" را ببینید بیش از تعداد کل از کلمات در شعر دل شکسته، درست است؟ فرکانس که من می بینم چیست که کلمه در کار دل شکسته؟ را حس؟ دوره دوم است احتمال دل شکسته. به چه معنا است؟ که اساسا بدان معنی است، آنچه که احتمال طبقه بندی برخی از اشعار به عنوان دل شکسته؟ و این نوع از عجیب و غریب، اما اجازه دهید یک مثال فکر می کنم. بنابراین اجازه دهید بگویم که احتمال داشتن "کودک" در یک آهنگ یکسان است برای دل شکسته و بریتنی اسپیرز. اما بریتنی اسپیرز دو برابر است آهنگ بیشتر از بانوی دل شکسته. بنابراین اگر کسی فقط به طور تصادفی به شما می دهد شعر از: "عزیزم،" اولین چیزی که شما نگاه است، چه احتمال است داشتن "کودک" در یک آهنگ دل شکسته، "کودک" در یک آهنگ بریتنی؟ و این همان چیزی است. بنابراین دومین چیزی که شما خواهید دید است، خب، چه احتمال است این شعر توسط خود را به عنوان یک شعر دل شکسته، و چه احتمال است بودن شعر بریتنی؟ پس از بریتنی تا به بسیاری از اشعار از دل شکسته، شما را احتمالا می گویند، خوب، این است که احتمالا شعر بریتنی. به همین دلیل ما باید این اصطلاح حق در اینجا. احتمال دل شکسته. را حس می کند؟ آیا آن؟ OK. و یکی از آخرین تنها احتمال است از "کودک" که نمی کند واقعا مهم نیست که بسیار. اما این احتمال است دیدن "کودک" به زبان انگلیسی. ما معمولا اهمیتی نمی دهند که بسیار در مورد آن مدت است. آیا این را حس؟ بنابراین احتمال دل شکسته به نام احتمال قبل دل شکسته کلاس. از آنجا که این فقط بدان معناست که، آنچه که احتمال داشتن آن کلاس - که دل شکسته - فقط به طور کلی، فقط با شرایط. و پس از آن زمانی که من احتمال داشته باشد دل شکسته داده شده "عزیزم،" ما آن را به اضافه پر از اشک احتمال به خاطر آن احتمال داشتن دل شکسته برخی از شواهد داده شده است. بنابراین من به شما دادن شواهد که من کلمه کودک را دیدم و این آهنگ را حس؟ OK. بنابراین اگر من محاسبه شده است که برای هر یک از از آهنگ را برای بانوی دل شکسته، آنچه که خواهد بود - ظاهرا، من می توانم این حرکت نمی کند. احتمال گاگا خواهد بود چیزی شبیه به، 2 بیش از 24 بار 1/2، بیش از 2 بیش از 53. مهم نیست که اگر شما بدانید چه این اعداد می آیید. اما این فقط یک شماره است که رفتن است به بیش از 0، درست است؟ و پس از آن زمانی که من کتی پری، احتمال "کودک" داده شده کتی است در حال حاضر 0، درست است؟ از آنجا که هیچ "کودک" وجود دارد در کتی پری. بنابراین پس از این می شود 0 و دل شکسته برنده، به این معنی که دل شکسته احتمالا خواننده. آیا این را حس؟ OK. پس اگر من می خواهم این رسمی تر، من در واقع می توانید انجام دهید یک مدل چند کلمه. بنابراین اجازه دهید بگویم که من چیزی مثل، "عزیزم، من هستم در آتش، "و یا چیزی. پس از آن تا چند کلمه. و در این مورد، شما می توانید ببینید که "کودک" است در دل شکسته، اما در کتی نیست. و "آتش" است در کتی، اما آن را در دل شکسته، درست است؟ بنابراین آن را گرفتن سختتر، درست است؟ از آنجا که به نظر می رسد که شما تقریبا یک رابطه بین این دو. بنابراین آنچه شما باید انجام دهید این است فرض استقلال در میان کلمات. بنابراین اساسا آنچه که بدان معنی است که من فقط محاسبه چه است احتمال دیدن "عزیزم،" چه چیزی است احتمال دیدن "I"، و "هستم"، و "در" و "آتش" همه به طور جداگانه. سپس من ضرب همه آنها. و من از دیدن آنچه احتمال است دیدن تمام جمله. را حس؟ بنابراین اساسا، اگر من فقط یک کلمه داشته باشد، چه من می خواهم برای پیدا کردن حداکثر ارگ است، که بدان معنی است، چه طبقه است که به من بالاترین احتمال؟ پس چه طبقه است که دادن است من بیشترین احتمال برای احتمال کلاس داده شده کلمه است. بنابراین در این مورد، دل شکسته داده شده "عزیزم." یا کتی داده شده "عزیزم." را حس؟ و فقط از بیز، که معادله I نشان داد، ما ایجاد این بخش. تنها چیزی است که شما می بینید که احتمال کلمه داده شده تغییرات کلاس بسته در کلاس، درست است؟ تعداد "کودک" است که من در گاگا متفاوت از کتی است. احتمال از کلاس نیز تغییرات زیرا تنها تعداد است از آهنگ های هر یک از آنها است. اما احتمال از خود کلمه می در حال رفتن به همان برای همه هنرمندان، درست است؟ بنابراین احتمال از کلمه است فقط، آنچه را که احتمال است دیدن آن کلمه در زبان انگلیسی؟ پس از آن همین کار را برای همه آنها. پس از این ثابت است، ما فقط می تواند رها از این و در مورد آن اهمیتی نمی دهند. بنابراین این در واقع خواهد شد معادله ما به دنبال. و اگر من چند کلمه، من هستم هنوز هم به قبل احتمال در اینجا. تنها چیزی است که من ضرب احتمال همه عبارت دیگر. پس من ضرب همه آنها. را حس؟ به نظر می رسد عجیب و غریب اما اساسا بدان معنی است، محاسبه قبل از کلاس، و پس از آن احتمال هر ضرب از کلمات که در آن کلاس. و شما می دانید که احتمال کلمه داده شده یک کلاس است برای رفتن به چند بار آن کلمه را در آن کلاس، تقسیم بر تعداد کلمات شما در آن داشته کلاس به طور کلی. را حس؟ این فقط چگونگی "کودک" 2 تمام شد تعداد کلماتی را که من در شعر بود. پس فقط از فرکانس. اما یک چیز وجود دارد. به یاد داشته باشید که چگونه من بود که نشان می دهد احتمال "کودک" که اشعار از کتی پری 0 بود فقط به خاطر کتی پری به "کودک" در تمام نیست؟ اما این مساله یک کمی سخت به تنها به سادگی می گویند که شعر نمی تواند از است یک هنرمند فقط به خاطر اینکه آنها لازم نیست این کلمه به طور خاص در هر زمان. بنابراین شما فقط می گفت: خوب، اگر شما این کلمه را نداشته باشند، من قصد دارم شما با احتمال کمتر را، اما من فقط رفتن به نمی شما 0 به سمت راست دور می دهد. از آنجا که شاید چیزی شبیه به، بود "آتش، آتش، آتش، آتش" است که کاملا کتی پری. و پس از آن "کودک"، و آن را فقط به می رود 0 از حق دور به دلیل وجود می داشت "عزیزم." بنابراین اساسا آنچه که ما انجام کاری است به نام صاف لاپلاس صدق میکند. و این فقط بدان معناست که من به برخی از احتمال حتی به کلمات که وجود ندارد. پس آنچه که من انجام دهید این است که زمانی که من هستم محاسبه این، من همیشه 1 اضافه به صورت کسر. بنابراین حتی اگر کلمه وجود ندارد، در در این صورت، اگر این 0 است، من هنوز هستم محاسبه این به عنوان 1 در طول تعداد کل کلمات. در غیر این صورت، من چگونه بسیاری از واژه ها من و من اضافه کردن 1. پس من شمارش برای هر دو مورد. را حس؟ پس به انجام برخی از برنامه نویسی. من قصد دارم به آن را انجام دهد بسیار سریع، اما این فقط مهم است که شما بچه ها درک مفاهیم. بنابراین آنچه ما در حال تلاش برای انجام دقیقا این اجرا چیزی که من فقط می گفت - من می خواهم شما را برای قرار دادن اشعار لیدی گاگا و کتی پری. و برنامه است که قادر به می گویند اگر این شعر جدید از دل شکسته است یا کتی پری. را حس؟ OK. بنابراین من این برنامه من قصد داشته به classify.py تماس بگیرید. بنابراین این پایتون است. این یک زبان برنامه نویسی جدید است. این در برخی بسیار مشابه است راه هایی برای C و PHP. این شبیه به این دلیل اگر شما می خواهید پایتون یاد می گیرند پس از دانستن C، آن را واقعا که خیلی از چالش نیست فقط به خاطر اینکه پایتون بسیار ساده تر است از C، اول از همه. و بسیاری از مسائل در حال حاضر اجرا برای شما. پس فقط چگونه مانند PHP توابع که مرتب سازی یک لیست، و یا چیزی اضافه به یک آرایه، و یا، اه، اه، اه. پایتون است همه از آن نیز هست. بنابراین من فقط رفتن برای توضیح به سرعت چگونه ما می تواند طبقه بندی انجام مشکل در اینجا. بنابراین اجازه دهید بگویم که در این مورد، من شعر از گاگا و کتی پری. راه است که من آن اشعار این است که اولین کلمه شعر است نام هنرمند، و بقیه اشعار است. بنابراین اجازه دهید بگویم که من این لیست در که یکی از اولین اشعار دل شکسته. بنابراین در اینجا من در مسیر صحیح است. و یک بعدی کتی است، و آن را نیز اشعار. پس این است که چگونه شما اعلام یک متغیر در پایتون. شما لازم نیست به نوع داده. شما فقط ارسال "شعر" نوع در PHP می خواهم. را حس؟ پس چه چیز است که من باید می محاسبه می شود قادر به محاسبه احتمال؟ من برای محاسبه "priors" هر یک از مختلف کلاس های که من دارم. من برای محاسبه "posteriors،" یا خیلی احتمالات هر یک از کلمات مختلف که من می توانم برای هر هنرمند داشته باشد. پس در دل شکسته، به عنوان مثال، من قصد دارم به یک لیست از چند بار من را ببینید هر یک از کلمات. را حس؟ و در نهایت، من فقط رفتن به یک فهرست نام "کلمات" است که فقط رفتن به چه تعداد کلمه I برای هر هنرمند داشته باشد. بنابراین برای دل شکسته، به عنوان مثال، وقتی که من نگاه به شعر، من تا به حال، من فکر می کنم، 24 کلمات در کل. بنابراین این لیست فقط رفتن به دل شکسته 24، و کتی شماره دیگر. را حس؟ OK. بنابراین در حال حاضر، در واقع، اجازه دهید رفتن به برنامه نویسی. بنابراین در پایتون، شما در واقع می تواند بازگشت یک دسته از مختلف همه چیز از یک تابع. من می خواهم برای ایجاد این تابع به نام "مشروط" است که رفتن برای بازگشت به تمام کسانی که همه چیز، "priors،" "احتمال" و "کلمه است." بنابراین "مشروط" و آن را رفتن به تماس توان به "شعر." بنابراین در حال حاضر من می خواهم شما را به واقع ارسال این تابع. بنابراین راهی که من می توانم این ارسال تابع من فقط این تعریف کار با "دف." بنابراین من "دف مشروط، "و آن را گرفتن "اشعار." و آنچه در این است که به انجام است، اول از همه، من priors من که من می خواهم برای محاسبه. پس راه که من می توانم این کار، ایجاد یک دیکشنری در پایتون، که تقریبا همان چیزی که به عنوان یک مخلوط است جدول، یا آن را مانند یک تکرار است آرایه در PHP. این است که چگونه من یک فرهنگ لغت اعلام کنند. و اساسا این بدان معنی است که priors دل شکسته 0.5 است، به عنوان مثال، اگر 50٪ از اشعار می باشد دل شکسته، 50٪ از کتی می باشد. را حس؟ بنابراین من باید به شکل از چگونه برای محاسبه priors. آنهایی بعدی که من باید انجام دهید، همچنین، احتمالات و کلمات می باشد. بنابراین احتمال گاگا در لیست است از همه احتمال است که من برای هر یک از کلمات برای دل شکسته داشته باشد. بنابراین اگر من به احتمال گاگا بروید "کودک"، به عنوان مثال، آن را به من بدهد چیزی شبیه به 2 بیش از 24 در آن صورت. را حس؟ بنابراین من به "احتمال" به "دل شکسته" سطل است که یک لیست از تمام کلمات دل شکسته، پس از آن من به "کودک" و من احتمال را ببینید. و در نهایت من این را "کلمات" فرهنگ لغت. بنابراین در اینجا، "احتمال" و پس از آن "کلمه است." بنابراین اگر من "کلمات"، "دل شکسته،" آنچه قرار است رخ دهد این است که آن به من 24 را، و گفت که من دارای 24 عبارت در شعر از دل شکسته. را حس می کند؟ بنابراین در اینجا، "عبارت" برابر با ده ده ده. خوب پس چه من قصد دارم برای انجام این کار است من قصد دارم تکرار بیش از هر یک از ترانه ها، تا هر یک از رشته ها که من در لیست است. و من قصد دارم برای محاسبه آن چیزهایی است برای هر یک از نامزدها. را حس می کند؟ بنابراین من مجبور به انجام برای حلقه. بنابراین در پایتون آنچه که من می تواند انجام دهد این است که "برای خط در شعر. "همان چیزی را به عنوان یک "برای هر یک از" بیانیه ای در PHP. به یاد داشته باشید که چگونه اگر آن را PHP بود من می توانم می گویند: "برای هر شعر به عنوان خط "را حس می کند؟ بنابراین من می گیرم هر یک از خطوط، در این مورد، این رشته و بعدی رشته بنابراین برای هر یک از خطوط آنچه که من هستم رفتن به انجام آن برای اولین بار، من قصد دارم تقسیم این خط را به یک لیست از کلمات هم جدا شده توسط فاصله است. بنابراین نکته جالب در مورد پایتون است که شما می توانید فقط گوگل مانند "چگونه می توانم تقسیم یک رشته به کلمات؟ "و آن را رفتن به شما بگویم که چگونه آن را انجام دهد. و راه را برای انجام این کار، آن را فقط "خط است = line.split () "و آن را اساسا قصد دارم به شما یک لیست با را هر یک از کلمات در اینجا. را حس می کند؟ بنابراین در حال حاضر که من که من می خواهم بدانم که خواننده از این آهنگ است. و برای این کار من فقط باید برای دریافت اولین عنصر از آرایه، درست است؟ بنابراین من فقط می توانم بگویم که من "خواننده = خط (0) "را حس می کند؟ و پس از آن چیزی است که من باید انجام دهید، اول از همه، من قصد دارم برای به روز رسانی چگونه بسیاری از کلمات I تحت دارند "دل شکسته." بنابراین من فقط رفتن به محاسبه بسیاری از واژه ها I باید در این لیست، درست است؟ از آنجا که این است که چگونه بسیاری از کلمات من در اشعار و من فقط رفتن به آن را به "دل شکسته" آرایه اضافه کنید. آیا این را حس؟ آیا در نحو تمرکز بیش از حد. فکر می کنم بیشتر در مورد مفاهیم. که مهم ترین بخش است. OK. پس آنچه که من می تواند آن را انجام دهد این است که اگر "دل شکسته" است در حال حاضر در این لیست، پس "اگر خواننده در عبارت "به این معنی که من در حال حاضر کلمات توسط دل شکسته. من فقط می خواهم برای اضافه کردن اضافی کلمات به آن. پس "کلمه (خواننده) آنچه که من انجام شده است + = لن (خط) - 1 ". و پس از آن من فقط می توانید انجام دهید طول خط. پس چگونه بسیاری از عناصر I در آرایه داشته باشد. و من را مجبور به انجام منهای 1 فقط به خاطر اولین عنصر از آرایه است فقط یک خواننده و کسانی که شعر نیست. را حس می کند؟ OK. "دیگری"، به این معنی است که من می خواهم به واقع درج گاگا به لیست. بنابراین من فقط "کلمات (خواننده) = لن (خط) - 1، "متاسفم. بنابراین تنها تفاوت بین این دو خطوط این است که این یکی، آن را نمی کند وجود داشته باشد در عین حال، پس من فقط مقدار دهی اولیه آن. این یکی که من در واقع با اضافه کردن. OK. بنابراین این اضافه کردن به کلمات بود. حالا من می خواهم برای اضافه کردن به priors. پس چگونه priors را حساب کنم؟ priors را می توان محاسبه با چند بار. بنابراین چند بار که خواننده را مشاهده می کنید در میان همه خوانندگان که شما داشته باشد، درست است؟ بنابراین برای گاگا و کتی پری، در این مورد، من دل شکسته را ببینید یک بار، کتی پری یک بار. بنابراین اساسا priors برای دل شکسته و کتی پری را فقط یکی، درست است؟ شما فقط چند بار من هنرمند را ببینید. بنابراین این بسیار آسان است برای محاسبه. من فقط می تواند چیزی شبیه به مانند "اگر خواننده در priors، "من فقط رفتن برای اضافه کردن 1 به جعبه priors خود. بنابراین، "priors (آواز خواندن)" + = 1 "و سپس" دیگری " من قصد دارم به انجام "priors (خواننده) = 1 "را حس می کند؟ بنابراین اگر آن وجود ندارد من فقط با قرار دادن به عنوان 1، در غیر این صورت من فقط اضافه کردن 1. OK، بنابراین در حال حاضر همه که من را ترک کرده اند به انجام همچنین هر یک از کلمات به اضافه احتمال. بنابراین من باید به تعداد چند بار I هر یک از کلمات را ببینید. پس من فقط باید به دیگری انجام حلقه for در خط. بنابراین اولین چیزی که من قصد دارم برای انجام شده است چک کنید اگر خواننده در حال حاضر دارای آرایه احتمالات. پس من دارم اگر خواننده نمی کند یک آرایه احتمالات، من فقط هستم رفتن به مقداردهی اولیه یک برای آنها. این حتی یک آرایه نیست، با عرض پوزش، آن است که یک فرهنگ لغت است. بنابراین احتمال از خواننده است که به عنوان یک فرهنگ لغت باز است، بنابراین من فقط مقدار دهی اولیه یک فرهنگ لغت برای آن. OK؟ و در حال حاضر من در واقع می توانید انجام دهید برای حلقه برای محاسبه هر یک از کلمات ' احتمال. OK. پس چه می توانم انجام دهم یک حلقه for. بنابراین من فقط رفتن به تکرار بیش از آرایه. بنابراین در راهی که می توانید انجام دهید که در پایتون "برای من در محدوده." از 1 چون من می خواهم برای شروع در دوم عنصر چرا که یکی از اولین است نام خواننده. پس از یک تا طول خط. و هنگامی که من در محدوده آن را در واقع از به مثل اینجا از 1 به لن از خط منهای 1. پس از آن در حال حاضر می کند که چیزی از انجام N منهای 1 برای آرایه است که بسیار راحت است. را حس می کند؟ بنابراین برای هر یک از این، چیزی است که من قصد دارم به انجام شده است، درست مثل در یک دیگر، من قصد دارم به بررسی در صورتی که کلمه در این موقعیت در خط در حال حاضر در احتمال. و بعد همانطور که گفتم در اینجا، احتمال واژه ها، به عنوان در من قرار داده "احتمال (خواننده)". پس به نام خواننده. بنابراین اگر آن را در حال حاضر در "probabilit (خواننده)"، به این معنی است که من می خواهید برای اضافه کردن 1 به آن، بنابراین من قصد دارم انجام "احتمال (خواننده)"، و کلمه است به نام "خط (من)". من قصد دارم به اضافه 1 و "دیگری" من فقط رفتن به مقداردهی اولیه آن به 1. "خط (من)". را حس می کند؟ بنابراین، من به محاسبه تمام آرایه ها. بنابراین، در حال حاضر همه که من باید برای انجام این یکی فقط "بازگشت priors، احتمالات و کلمات. "در اجازه ببینید که آیا هیچ وجود دارد، OK. به نظر می رسد همه چیز در حال کار تا کنون. بنابراین، آن را حس می کند؟ در برخی از راه؟ OK. بنابراین در حال حاضر من همه احتمالات. بنابراین در حال حاضر تنها چیزی که من را ترک کرده اند است فقط به آن چیزی است که محاسبه محصول از تمام احتمالات وقتی که من شعر. بنابراین اجازه دهید بگویم که من می خواهم به حال تماس بگیرید این تابع "طبقه بندی ()" و چیزی که تابع طول می کشد فقط یک آرگومان است. بیایید می گویند "عزیزم، من در آتش هستم" و آن را رفتن به کشف کردن آنچه است احتمال این که این دل شکسته؟ احتمال چیست که این کتی است؟ به نظر می رسد خوب است؟ پس من فقط باید به ایجاد یک عملکرد جدید به نام "طبقه بندی ()" و آن را به برخی از شعر نیز هست. و علاوه بر این شعر من هم برای ارسال priors، احتمالات و کلمات. من می خواهم به ارسال شعر، priors، احتمالات، کلمات. پس این است که شعر، priors، احتمالات، کلمات. بنابراین، چه آن را انجام دهد؟ این اساسا در حال رفتن به از طریق تمام بروید نامزدها ممکن است که شما به عنوان یک خواننده داشته باشد. و که در آن کسانی که نامزد هستند؟ آنها در priors هستید، درست است؟ بنابراین من همه از آن وجود دارد. من می خواهم به یک فرهنگ لغت از همه نامزدها امکان پذیر است. و پس از آن برای هر نامزد در priors، پس از آن بدان معنی است که آن را به است دل شکسته، کتی اگر من تا به حال تر از آن خواهد بود بیشتر است. من قصد دارم برای شروع محاسبه این احتمال. احتمال که ما در دیدم پاورپوینت زمان قبل است محصول هر یک از دیگر احتمالات. بنابراین من در اینجا می توانید همین کار را. من فقط می توانید انجام دهید احتمال است در ابتدا فقط قبل. بنابراین priors از نامزد. درست است؟ و در حال حاضر من به تکرار بیش از همه کلماتی را که من در شعر باید قادر به اضافه کردن احتمال برای هر یک از آنها، OK؟ بنابراین، "به کلمه در شعر" آنچه که من قصد دارم برای انجام این کار است، در صورتی که کلمه در است "احتمال (نامزد)"، که بدان معنی است که آن یک کلمه است که کاندیدا در اشعار خود - به عنوان مثال، "کودک" برای دل شکسته - آنچه من قصد دارم برای انجام این کار این است که احتمال رفتن به ضرب شود 1 به علاوه احتمال نامزد برای آن کلمه. و آن را به نام "کلمه". این تقسیم شده توسط تعدادی از کلمات که من در آن نامزد داشته باشد. تعداد کل کلمات که من آن را برای خواننده است که من به دنبال. "دیگری است." به این معنی یک کلمه جدید پس از آن می مانند به عنوان مثال می شود "آتش" را برای بانوی دل شکسته. بنابراین من فقط می خواهم به انجام بیش از 1 "کلمه (نامزد)". بنابراین من نمی خواهم برای قرار دادن این واژه در اینجا. بنابراین آن را به اساسا شود کپی کردن و چسباندن این. اما من قصد دارم این بخش را حذف کنید. پس این فقط برای رفتن به 1 بیش از آن. به نظر می رسد خوب است؟ و در حال حاضر در پایان، من فقط رفتن به چاپ نام نامزد و احتمال این که شما از داشتن S در شعر خود. را حس می کند؟ و من در واقع حتی نمی نیاز به این فرهنگ لغت. را حس می کند؟ بنابراین، بیایید ببینید در صورتی که این در واقع کار می کند. بنابراین اگر من در این اجرا، آن کار نمی کند. صبر کن دوم. "واژه (نامزد)"، "کلمات (نامزد)"، که نام آرایه می شود. OK بنابراین، آن را می گوید در برخی از اشکال وجود دارد برای نامزد در priors. اجازه بدهید من فقط لرز کمی. OK. بیایید امتحان کنید. OK. بنابراین آن را می دهد کتی پری دارد این احتمال این بار 10 به منهای 7 و دل شکسته تا به این بار 10 منهای 6 به. پس می بینید نشان می دهد که دل شکسته یک احتمال بالاتر است. بنابراین "عزیزم، من در آتش هستم" است احتمالا یک آهنگ دل شکسته. را حس می کند؟ پس این چیزی است که ما انجام داد. این کد در حال رفتن به آنلاین ارسال شود، بنابراین شما بچه ها می توانید آن را از تیک بزنید. شاید استفاده از برخی از آن را برای اگر شما می خواهید انجام یک پروژه و یا چیزی مشابه آن. OK. این بود فقط برای نشان دادن چه محاسباتی کد زبان شناسی به نظر می رسد. اما اکنون اجازه دهید به بیشتر بروید مسائل سطح بالا است. OK. بنابراین مشکلات دیگر من صحبت کردن در مورد - مشکل تقسیم بندی اولین از آنها است. بنابراین شما باید در اینجا ژاپنی است. و پس از آن شما می بینید که هیچ فاصله وجود دارد. پس این است که اساسا بدان معنی است که آن را بالای صندلی، درست است؟ شما ژاپنی صحبت می کنند؟ این بالای صندلی است، درست است؟ STUDENT: من نمی دانم چه کانجی بیش از وجود دارد. LUCAS فریتاس: این [صحبت ژاپن] OK. پس از آن اساسا به معنای صندلی از بالا. بنابراین اگر شما تا به حال برای قرار دادن یک فضای آن را در اینجا خواهد بود. و سپس شما را [؟ Ueda از سان. ؟] که اساسا به معنی آقای Ueda از. و شما می بینید که "اوئدا" و شما یک فضا و پس از آن "سان". پس می بینید که در اینجا شما "UE" مانند خود به خود است. و در اینجا آن را به یک شخصیت در کنار آن. بنابراین آن را در آن زبان ها را دوست ندارد حرف به این معنی یک کلمه آن، بنابراین شما فقط با قرار دادن بسیاری از فضاهای. شخصیت های مربوط به هر یک از دیگر. و آنها با هم می تواند باشد مانند دو، سه، یک. بنابراین شما در واقع به ایجاد نوعی از راه قرار دادن آن فاصله است. و این چیزی است که هر زمان که شما داده ها از آن زبان های آسیایی، همه چیز می آید unsegmented. از آنجا که هیچ کسی است که ژاپن می نویسد: و یا چینی را با فاصله می نویسد. هر زمان که شما در حال نوشتن چینی، ژاپنی شما فقط همه چیز را ارسال بدون فاصله. این کار نه حتی معنی برای قرار دادن فاصله است. پس هنگامی که شما داده ها را از، برخی از زبان های شرق آسیا، اگر شما می خواهید در واقع انجام کاری با آن شما را به بخش اول را داشته باشد. فکر می کنم از انجام این کار از یک مثال از اشعار بدون فاصله. بنابراین تنها شعر است که شما را خواهد بود احکام، درست است؟ جدا شده اند. اما پس از آن که در آن جمله خواهد شد واقعا در دادن اطلاعات کمک از کسانی که اشعار می باشد. درست است؟ بنابراین شما باید فضاهای اولین قرار می دهد. پس چگونه می تواند به شما انجام این کار؟ پس این ایده از یک زبان می آید مدل چیزی است که واقعا برای محاسباتی مهم زبان شناسی. بنابراین یک مدل زبان اساسا یک جدول از احتمال است که نشان می دهد اول از همه چه احتمال است داشتن کلمه در یک زبان؟ بنابراین نشان دادن مکرر یک کلمه است. و پس از آن نیز نشان دادن رابطه بین کلمات در یک جمله. بنابراین ایده اصلی این است، اگر یک غریبه آمد به شما و گفت: یک جمله به شما، چه احتمال این است که، برای به عنوان مثال، "این خواهر من است [؟ GTF"؟] این حکم که شخص گفت؟ بنابراین بدیهی است که برخی از احکام شایع تر از دیگران است. به عنوان مثال، "صبح به خیر" یا "خوب است شب، "و یا" با سلام وجود دارد، "خیلی بیشتر شایع تر از بسیاری از احکام که ما باید زبان انگلیسی. پس چرا آن جمله می بیشتر؟ اول از همه، آن را دلیل این که شما کلماتی را که بیشتر می باشد. بنابراین، برای مثال، اگر شما می گویند، سگ است بزرگ و سگ غول پیکر است، شما معمولا احتمالا شنیدن سگ بزرگ است اغلب به دلیل "بزرگ" است مکرر در انگلیسی از "غول پیکر." بنابراین، یکی از چیزهای فراوانی کلمه است. نکته دوم این است که واقعا مهم است فقط منظور از کلمه است. بنابراین، این مشترک است که می گویند "گربه است در داخل جعبه. "اما شما معمولا نمی در نگاه کنید به "جعبه در داخل گربه است." پس شما می بینید که برخی از اهمیت وجود دارد در ترتیب کلمات. شما نه تنها می توان گفت که این دو جملات به احتمال قوی همان فقط به خاطر اینکه آنها کلمات مشابه. در واقع شما باید به مراقبت در مورد منظور نیز هست. را حس؟ پس چه کنیم؟ پس آنچه که من ممکن است سعی کنید برای شما؟ من دارم تلاش می کنم شما چیزی است که ما مدل های n-گرم تماس بگیرید. بنابراین مدل N-گرم اساسا فرض که برای هر کلمه ای که شما در یک جمله داشته باشد. این احتمال داشتن است که کلمه بستگی دارد نه تنها در وجود دارد فراوانی آن کلمه در زبان، بلکه در کلمات است که از آن اطراف. بنابراین برای مثال، معمولا زمانی که می بینید چیزی شبیه به در و یا در تو احتمالا رفتن به دیدن یک اسم بعد از آن، درست است؟ از آنجا که زمانی که شما یک حرف اضافه معمولا طول می کشد اسم بعد از آن. و یا اگر شما یک فعل است که متعدی شما معمولا در حال رفتن به یک عبارت اسم. بنابراین آن را به اسم در جایی در اطراف آن. بنابراین، اساسا، آنچه در آن می کند این است که آن احتمال داشتن در نظر کلمات در کنار یکدیگر، زمانی که شما در حال محاسبه احتمال یک جمله. و این چیزی است که یک زبان است مدل اساسا. تنها گفتن چه احتمال است داشتن یک خاص جمله در زبان؟ پس چرا آنچه سودمند، اساسا؟ و اول از همه چه چیزی است یک مدل N-گرم، پس از آن؟ بنابراین یک مدل N-گرم بدان معنی است که هر کلمه بستگی به N بعدی منهای 1 کلمه است. بنابراین، اساسا، به این معنی که اگر من نگاه کنید، به عنوان مثال، در TF CS50 زمانی من محاسبه احتمال این حکم را، به شما خواهم " احتمال داشتن کلمه "" زمان محلی شما با احتمال داشتن " CS50 "برابر احتمال داشتن "TF CS50." بنابراین، اساسا، من تعداد تمام راه های ممکن از کشش آن است. و پس از آن معمولا زمانی که شما انجام این کار، همانطور که در یک پروژه، شما را N می شود یک مقدار کم است. بنابراین، معمولا bigrams یا trigrams داشته باشد. به طوری که شما فقط به تعداد دو واژه، گروه از دو کلمه و یا سه کلمه، فقط برای مسائل مربوط به عملکرد. و همچنین به این دلیل شاید اگر شما چیزی شبیه به "TF CS50." هنگامی که شما باید "TF،" این بسیار مهم است که "CS50" در کنار آن است، درست است؟ این دو چیز معمولا در کنار یکدیگر. اگر شما فکر می کنم "TF"، آن را احتمالا رفتن به آنچه کلاس آن را برای TF'ing. همچنین "" واقعا مهم است برای TF CS50. اما اگر شما چیزی مانند "CS50 TF به کلاس رفت و به آنها دانش آموزان برخی از آب نبات. "" آب نبات "و" " هیچ رابطه واقعا، درست است؟ آنها خیلی از هم دور هستیم که آن واقعا مهم نیست که چه کلمات شما. بنابراین با انجام یک bigram یا مدلهای پنهان مارکوف آن فقط بدان معناست که شما محدود خودتان را به برخی از واژه ها که در اطراف می باشد. را حس؟ بنابراین، هنگامی که شما می خواهید به انجام تقسیم بندی، اساسا، آنچه شما می خواهید برای انجام شده است را ببینید تمام راههای ممکن چه که شما می توانید بخشی از حکم. چنین است که شما ببینید چه چیزی است احتمال هر یک از این احکام موجود در زبان؟ بنابراین آنچه انجام می دهید مانند، خوب، اجازه دهید من سعی کنید برای قرار دادن یک فضای اینجا. بنابراین شما یک فضای قرار داده وجود دارد و شما ببینید چه چیزی است احتمال حکم؟ سپس شما مانند، OK، شاید می که بود که خوب نیست. بنابراین من یک فضای شود وجود دارد و یک فضای وجود دارد، و شما را محاسبه احتمال در حال حاضر، و شما می بینید که این یک احتمال است. بنابراین این الگوریتم به نام TANGO است الگوریتم تقسیم بندی، که است در واقع چیزی است که واقعا خواهد بود خنک برای یک پروژه، که در واقع طول می کشد متن unsegmented که می تواند ژاپنی یا چینی و یا شاید انگلیسی بدون فاصله و تلاش می کند برای قرار دادن فاصله بین کلمات و آن را که با استفاده از یک مدل زبان و تلاش برای دیدن آنچه که بالاترین است احتمال شما می توانید دریافت کنید. OK. بنابراین این تقسیم بندی است. حالا نحو. بنابراین، نحو است که برای استفاده چیزهای بسیاری در حال حاضر. بنابراین برای نمودار های جست و جو، برای سیری برای تقریبا از هر نوع طبیعی پردازش زبان شما داشته باشد. پس چه مهم است همه چیز در مورد نحو؟ بنابراین، حکم به طور کلی آنچه که ما در ترکیبات تماس بگیرید. که نوع مانند گروه از کلمات که تابع در جمله. و آنها واقعا نمی تواند باشد جدا از یکدیگر. بنابراین، اگر من می گویم، به عنوان مثال، "لورن را دوست دارد میلو. "من می دانم که" لورن "است تشکیل و پس از آن "را دوست دارد میلو "نیز یکی دیگر. از آنجا که شما نمی تواند مانند "لورن میلو می گویند دوست دارد "به همان معنی. این نخواهیم داشت. همان معنی. و یا من نمی توانم مثل "میلو لورن می گویند را دوست دارد. "همه چیز است، همان به این معنی که انجام آن. بنابراین دو چیز مهم تر در مورد نحو هستند که انواع واژگانی است که اساسا تابع شما که برای کلمات به خودی خود. بنابراین شما باید بدانید که "لورن" و "میلو" اسم هستند. "عشق" یک فعل است. و نکته مهم دیگر این است که آنها انواع چند قسمتی است. بنابراین شما می دانید که "دوست دارد میلو" است که در واقع یک عبارت کلامی. بنابراین، هنگامی که من می گویم "لورن،" من می دانم که لورن در حال انجام چیزی. آنچه که او انجام می دهد؟ او دوست میلو. پس از آن تمام چیزی است. اما اجزاء آن است یک اسم و یک فعل. اما با هم، آنها را که عبارت است از فعل. بنابراین، آنچه می تواند ما در واقع با انجام زبان شناسی محاسباتی؟ بنابراین، اگر من چیزی به عنوان مثال "دوستان آلیسون." من را ببینید اگر من فقط یک درخت نحوی من می دانم که "دوستان" که عبارت است اسم آن است اسم و پس از آن "از آلیسون" است حرف اضافه است که در آن "از" است پیشنهاد و "آلیسون" یک اسم است. چیزی که من می تواند انجام دهد این است که آموزش کامپیوتر من که زمانی که من یک عبارت اسمی یک و پس از آن یک عبارت گزاره. بنابراین در این مورد، "دوستان" و سپس "از میلو "من می دانم که این بدان معنی است که NP2، دوم، صاحب NP1. بنابراین من می توانید از برخی از انواع رابطه ایجاد، نوعی از تابع برای آن. بنابراین هر زمان که من این ساختار را مشاهده کنید، که دقیقا با "دوستان آلیسون، "من می دانم که آلیسون صاحب دوستان. پس دوستان چیزی که آلیسون است. را حس می کند؟ پس این است که اساسا چه نمودار جستجو می کند. این فقط ایجاد قوانین برای بسیاری از مسائل. بنابراین "دوستان آلیسون"، "دوستان من که در کمبریج "زندگی می کنند،" دوستان من که به دانشگاه هاروارد رفت. "آن را ایجاد قوانین برای همه کسانی که همه چیز. در حال حاضر ترجمه ماشینی. بنابراین، ترجمه ماشینی است چیزی آماری. و در واقع اگر شما درگیر در زبان شناسی محاسباتی، بسیاری از مسائل خود را در حال رفتن به آمار. پس که من انجام شده بود به عنوان مثال با بسیاری از احتمالات بود که من محاسبه، و سپس شما را به این را دریافت کنید تعداد بسیار کمی که به فینال به احتمال قوی، و این چیزی است که به شما پاسخ دهد. ترجمه ماشینی نیز استفاده می کند یک مدل آماری. و اگر می خواهید از دستگاه فکر می کنم ترجمه در ساده ترین ممکن راه، چیزی که شما می توانید از فکر می کنم فقط ترجمه کلمه به کلمه، درست است؟ هنگامی که شما در حال یادگیری زبان برای اولین بار، که معمولا چه شما انجام دهید، درست است؟ اگر شما می خواهم به شما یک جمله ترجمه در زبان خود را به زبان شما در حال یادگیری، معمولا برای اولین بار، شما ترجمه هر یک از کلمات به صورت جداگانه، و پس از آن شما سعی می کنید برای قرار دادن کلمات را به محل. پس اگر من می خواستم برای ترجمه این، [صحبت پرتغالی] که به معنی "گربه سفید فرار کرد." اگر من می خواستم به آن را ترجمه از پرتغالی به انگلیسی، چیزی که من می تواند انجام دهید، برای اولین بار، من فقط ترجمه واژه به واژه. بنابراین "ای" "،" "گاتو"، "گربه" است "برانکو"، "سفید،" و سپس "fugio" است "فرار کرد." پس من تمام کلمات را در اینجا، اما آنها به منظور نیست. این مانند "سفید گربه فرار" ungrammatical است. بنابراین، پس از آن من می تواند یک گام دوم، باید که برای رفتن به پیدا کردن ایده آل موقعیت را برای هر یک از کلمات. بنابراین من می دانم که من در واقع می خواهم به "گربه سفید" به جای "گربه سفید." پس آنچه که من می تواند انجام دهد، روش ساده و بی تکلف ترین خواهد بود برای ایجاد تمام جایگشت های ممکن است از کلمات، از مواضع. و بعد ببینید که کدام یک است بیشترین احتمال بر اساس مدل زبان من. و سپس هنگامی که یکی است که پیدا کردن من بالاترین احتمال آن است که احتمالا "گربه سفید فرار کرد،" که ترجمه من است. و این یک روش ساده توضیح است چگونه بسیاری از ترجمه ماشینی الگوریتم های کار می کنند. آیا این را حس؟ این هم چیزی است که واقعا هیجان انگیز که شما بچه ها شاید می تواند برای کشف پروژه نهایی، آره؟ STUDENT: خوب، می گفت که راه ساده و بی تکلف، پس چه راه های غیر ساده و بی تکلف؟ LUCAS فریتاس: راه های غیر ساده و بی تکلف؟ OK. بنابراین اولین چیزی است که در مورد بد این روش این است که من فقط ترجمه کلمات، کلمه به کلمه. اما گاهی اوقات شما باید کلماتی را که می توانید ترجمه های متعدد داشته باشد. من قصد دارم به تلاش برای فکر می کنم از چیزی. به عنوان مثال، "مانگا" می تواند در پرتغالی یا می شود "شکستن" و یا "آستین." پس هنگامی که شما تلاش برای ترجمه کلمه کلمه، آن را ممکن است به شما چیزی که باعث می شود هیچ حس. بنابراین شما در واقع می خواهم به شما نگاه کنید در تمام ترجمه ها ممکن است از کلمات و ببینید، اول از همه، چه منظور است. ما در مورد permutating صحبت می کردند چیزهایی؟ برای دیدن تمام دستورات ممکن است و یکی با بالاترین را انتخاب کنید احتمال؟ شما همچنین می توانید همه ممکن را انتخاب کنید ترجمه برای هر کلمه و سپس ببینید - همراه با جایگشت - که یکی دارای بالاترین احتمال. به علاوه، شما همچنین می توانید نه در نگاه فقط کلمات اما عبارات. بنابراین شما می توانید روابط بین تجزیه و تحلیل کلمات و سپس یک ترجمه بهتر است. همچنین چیز دیگری است، بنابراین این ترم من در واقع انجام پژوهش در چینی به انگلیسی ترجمه ماشینی، بنابراین ترجمه از چینی به انگلیسی. و چیزی است که ما انجام شده است، علاوه بر این با استفاده از یک مدل آماری است که فقط دیدن احتمال دیدن برخی از موقعیت در یک جمله، من هستم در واقع همچنین اضافه کردن برخی از نحو به من مدل و گفت: آه، اگر من این نوع را ببینید ساخت و ساز، این چیزی است که من می خواهم آن را تغییر دهید تا وقتی که من ترجمه کنید. بنابراین شما همچنین می توانید نوعی از اضافه عنصر نحو به ترجمه کارآمد تر و دقیق تر. OK. پس چگونه می تواند به شما برای شروع، اگر شما می خواهید برای انجام کاری در محاسبات زبان شناسی؟ اول، شما یک پروژه را انتخاب کنید که شامل زبان. بنابراین، بسیاری از خارج وجود دارد وجود دارد. در بسیاری از چیزهایی که شما می توانید انجام دهید وجود دارد. و پس از آن می توانید از یک مدل فکر می کنم که شما می توانید استفاده کنید. معمولا این بدان معناست که تفکر مفروضات، به عنوان مثل، آه، وقتی که من بود مانند فکر کردن متن. من دوست دارم، خوب، بود اگر من می خواهم به شکل از کسانی که از این نوشت، من احتمالا می خواهید به کلمات نگاه شخص استفاده می شود و ببینید که با استفاده از آن کلمه اغلب. بنابراین سعی کنید به مفروضات و سعی کنید از مدل های فکر می کنم. و سپس شما همچنین می توانید آنلاین جستجوی نوع مشکل است که شما را، و آن را نشان می دهد به شما مدل که شاید مدل سازی است که چیزی که هست. و همچنین شما همیشه می توانید به من ایمیل. me@lfreitas.com. و من فقط می توانید سوالات خود را پاسخ دهد. ما حتی می توانیم به ملاقات، بنابراین من می تواند نظر خواهی و پیشنهادات در مورد راه از اجرای پروژه شما. و من اگر شما درگیر با زبان شناسی محاسباتی، این رفتن به بزرگ است. شما به وجود دارد پتانسیل بسیار زیادی است. و صنعت می خواهد به استخدام شما بد چون از آن. بنابراین من امیدوارم که شما بچه ها این لذت می برد. اگر شما هر گونه سوال، شما می توانید به من بعد از این سوال. اما شما تشکر می کنم.