機器人真的是一個非常有趣的東西,他們模仿我們進行語言或任何可能進行的活動,同學們在研究機器人的同時,會發(fā)現(xiàn)其內(nèi)部的計算機操控著一切,計算機是有自己獨特的語言的,我們在了解計算機語言后了解了計算機本身的內(nèi)涵,我們可以隨意的編譯他們,讓他們幫助我們完成一些復雜的項目。
與計算機語言類似的,機器人也有著他們獨特的編譯語言,結(jié)合了計算機科學與人工智能科學雙重領(lǐng)域的全新研究領(lǐng)域的科學出現(xiàn)了,叫做自然語言處理,同時衍生了相對應的專業(yè)學科。
自然語言雖說是機器語言,但是從某種程度上來講,研究也涉及了自然語言,也就是我們?nèi)怂S玫恼Z言,這么想來,這門專業(yè)學科還需要和語言學相互有著密切的聯(lián)系,有聯(lián)系是必然的,但是兩者間有著重要的區(qū)別。
專業(yè)主要涉及計算機科學的分支,自然語言處理致力于制造能夠理解和響應文本或語音數(shù)據(jù)的機器,并以自己的文本或語音做出響應,就像人類一樣理解文本和口語。這是一種非常新穎的技術(shù),涉及未來的很多領(lǐng)域。
幾個自然語言處理任務分解人類文本和語音數(shù)據(jù),幫助計算機理解它攝取的東西。
1、語音識別
將語音數(shù)據(jù)可靠地轉(zhuǎn)換為文本數(shù)據(jù)的任務,遵循語音命令或回答口頭問題的應用程序都需要語音識別。讓語音識別變得特別有挑戰(zhàn)性的是人們說話的方式——快速、含糊不清的單詞,不同的重音和語調(diào),不同的口音,經(jīng)常使用不正確的語法。
2、詞性標注
也稱為語法標記,是根據(jù)特定單詞或文本的用法和上下文來確定其詞性的過程。詞性在“我能做紙飛機”中將“制造”作為動詞,在“你擁有什么樣的汽車”中將“制造”作為名詞
3、詞義消歧
通過語義分析過程來選擇具有多重含義的單詞的含義,從而確定在給定上下文中最有意義的單詞。例如,詞義消歧有助于區(qū)分動詞“make”在“make the grade”(成績)和“make a bet”(地點)中的含義。
4、命名實體識別
或者NEM,認為單詞或短語是有用的實體。NEM將“肯塔基”作為一個地點,將“弗雷德”作為一個人的名字。
5、共同參考分辨率
識別兩個詞是否和何時指代同一個實體的任務。最常見的例子是確定某個代詞所指的人或物體(例如“她”=“瑪麗”),但也可能涉及識別文本中的隱喻或習語(例如,“熊”不是動物,而是一個多毛的大人物)。
6、情感分析
試圖從文本中提取主觀品質(zhì)——態(tài)度、情緒、諷刺、困惑、懷疑。
7、自然語言生成
有時被描述為語音識別或語音轉(zhuǎn)文本的對立面;這是將結(jié)構(gòu)化信息轉(zhuǎn)化為人類語言的任務。
自然語言處理將計算語言學,與統(tǒng)計、機器學習和深度學習模型相結(jié)合。這些技術(shù)共同使計算機能夠以文本或語音數(shù)據(jù)的形式處理人類語言,并“理解”其全部含義,包括說話者或作者的意圖和情感。
自然語言無疑是一門高新技術(shù)領(lǐng)域中個的主要科研目標,未來會不會由機器人來代替人們進行一些工作,或者我們將眼光再放遠一些,或者說讓我們的想法更加大膽一些。
機器與人相互交流,就像人工智能領(lǐng)域中的機器人,誰不想擁有一位屬于自己的多啦A夢呢?在交互的過程中,語言交流必不可少,有了語言的支持,人工智能才能真正的得到質(zhì)的飛躍。
如果要在研究領(lǐng)域得到一定的成果,同學們需要掌握語言學,同時精通計算機科學中的語言知識,了解人工智能的運作方式。
進入統(tǒng)計NLP,它將計算機算法與機器學習和深度學習自動提取、分類和標記文本和語音數(shù)據(jù)元素的模型,然后為這些元素的每個可能含義分配統(tǒng)計似然性。如今,基于卷積神經(jīng)網(wǎng)絡(luò)(CNNs)和遞歸神經(jīng)網(wǎng)絡(luò)(RNNs)的深度學習模型和學習技術(shù)使自然語言處理系統(tǒng)能夠在工作時“學習”,并從大量原始、非結(jié)構(gòu)化和未標記的文本和語音數(shù)據(jù)集中提取更準確的含義。
關(guān)于NLP用例
垃圾郵件檢測
可能不認為垃圾郵件檢測是一種NLP解決方案,但是最好的垃圾郵件檢測技術(shù)使用NLP的文本分類功能來掃描電子郵件中經(jīng)常指示垃圾郵件或網(wǎng)絡(luò)釣魚的語言。這些指標可能包括金融術(shù)語的過度使用、典型的不良語法、威脅性語言、不恰當?shù)木o迫性、拼錯的公司名稱等等。垃圾郵件檢測是少數(shù)幾個專家認為“大部分已經(jīng)解決”的自然語言處理問題之一(盡管你可能會說這與你的電子郵件體驗不匹配)。
機器翻譯
有效的翻譯必須準確捕捉輸入語言的意義和語氣,并將其翻譯成與輸出語言具有相同意義和預期影響的文本。機器翻譯工具在準確性方面正在取得良好進展。測試任何機器翻譯工具的一個很好的方法是將文本翻譯成一種語言,然后回到原文。一個經(jīng)常被引用的經(jīng)典例子:不久前,翻譯”精神是愿意的,但肉體是軟弱的”從英語到俄語,又回到了“屈服”伏特加不錯,但是肉爛了。“今天,結(jié)果是”精神渴望,但肉體是軟弱的,“這并不完美,但激發(fā)了人們對英俄翻譯的信心。
虛擬助理和聊天機器人
蘋果的Siri和亞馬遜的Alexa等虛擬助手使用語音識別來識別語音命令中的模式,并生成自然語言,以適當?shù)膭幼骰蛴杏玫脑u論來回應。聊天機器人對鍵入的文本條目執(zhí)行同樣的魔法。其中最好的人還學會識別關(guān)于人類請求的上下文線索,并隨著時間的推移使用它們來提供更好的響應或選項。這些應用程序的下一個增強功能是問題回答,用他們自己的話回答我們的問題(無論是預期的還是不預期的)的能力。
社交媒體情緒分析
NLP已經(jīng)成為從社交媒體渠道發(fā)現(xiàn)隱藏數(shù)據(jù)見解的必不可少的商業(yè)工具。情緒分析可以分析社交媒體帖子、回復、評論等中使用的語言,以提取對產(chǎn)品、促銷和事件的態(tài)度和情緒——信息公司可以在產(chǎn)品設(shè)計、廣告活動等中使用。
未來社會的發(fā)展離不開語言的研究,如果同學們在學習自然語言處理專業(yè)中遇到困難,有可能是某一個學科領(lǐng)域沒有領(lǐng)悟或者學習透徹,其實也很正常,畢竟多學科之間緊密相連,需要同學們進行課件的整理與研究,完成專業(yè)課程的學習。
圖片歸版權(quán)方所有,頁面圖片僅供展示。如有侵權(quán),請聯(lián)系我們刪除。凡來源標注“考而思”均為考而思原創(chuàng)文章,版權(quán)均屬考而思教育所以,任何媒體、網(wǎng)站或個人不得轉(zhuǎn)載,否則追究法律責任。
kaoersi03