愛丁堡大學自然語言處理基礎課程涵蓋了自然語言處理(NLP)的一些語言學和算法基礎。這門課具有很強的經(jīng)驗性,使用語料庫數(shù)據(jù)來說明核心語言學概念和算法,涉及語言建模、詞性標注、句法處理、句法-語義接口以及語義和語用處理的各個方面。語言概念的理論研究和算法在這些概念的實證分析中對語料庫的應用將貫穿整個課程。課程重點梳理如下。
一、課程重點
1、詞匯和詞匯處理
形態(tài)學;語言建模;隱馬爾可夫模型和相關算法;詞性標注(例如,針對英語以外的語言);平滑;文本分類。
2、句法和句法處理
喬姆斯基等級制度;句法概念:選區(qū)(及其測試)、子范疇化、有界和無界依賴、特征表示;上下文無關語法;詞匯化語法形式(例如,依存語法);圖表解析和依賴關系解析(例如,shift-reduce解析);樹庫:詞匯化語法和語料庫注釋;統(tǒng)計分析。
3、語義和語義處理
詞義:規(guī)則多義和結(jié)構(gòu)詞匯、分布模型、單詞嵌入(包括發(fā)現(xiàn)的偏差);語意合成性,從(消除歧義的)句子句法分析中構(gòu)建正式的語義表示;謂詞論元結(jié)構(gòu);詞義消歧;語義角色標簽;話語和對話中的語用現(xiàn)象(回指、預設、含義和連貫關系);處理詞義(例如,Brown)、語義角色(例如,Propbank、SemCor)、話語信息(例如,PDTB、STAC、RST樹庫)的標記語料庫。
4、數(shù)據(jù)和評估(穿插在其他主題中)
跨語言的異同;常用數(shù)據(jù)集;注釋方法和問題(例如,眾包、注釋者間協(xié)議);評估方法和問題(例如,標準指標、基線);數(shù)據(jù)偏差的影響。
二、學習目標
1、識別和分析自然語言中的歧義實例:詞類、詞義、句法、語義和語用中的歧義。解釋模糊性是如何給計算分析和NLP應用帶來問題的,以及解決這些問題的方法。
2、描述并應用標準序列模型(如HMMs)、分類模型(如樸素貝葉斯、max ent);用于在不同級別(例如,詞法、句法和語義)處理語言的解析算法(例如,統(tǒng)計圖解析和依存關系解析),并且用筆和紙在“玩具語言示例”上逐步模擬每個算法。
3、解釋并舉例說明在NLP中稀疏數(shù)據(jù)如何成為機器學習的一個問題;描述并應用解決稀疏數(shù)據(jù)問題的方法。
4、給定一個適當?shù)腘LP問題,學生還應該能夠確定合適的評估方法來測試問題的解決方案,解釋注釋語料庫在開發(fā)這些解決方案中的作用,并基于對算法的理解,評估和證明哪個算法序列最適合解決問題。
5、在適當?shù)闹С执a和/或工具的幫助下,實現(xiàn)部分NLP管道。評估和解釋在自然語言數(shù)據(jù)集上所實現(xiàn)方法的結(jié)果。
同學在學習愛丁堡大學自然語言處理基礎課程的時候,可以將本文梳理的重點作為課程的整體知識框架,這樣無論是預習還是復習,都會更有條理。
圖片歸版權(quán)方所有,頁面圖片僅供展示。如有侵權(quán),請聯(lián)系我們刪除。凡來源標注“考而思”均為考而思原創(chuàng)文章,版權(quán)均屬考而思教育所以,任何媒體、網(wǎng)站或個人不得轉(zhuǎn)載,否則追究法律責任。
kaoersi03