作為由人類自身創(chuàng)造的符號,自然語言理解一直是機(jī)器學(xué)習(xí)界不斷研究的方向。自然語言理解使用了大量編譯原理相關(guān)的技術(shù),例如詞法分析、語法分析等。然而,迄今為止的語法都限于分析一個孤立的句子,上下文關(guān)系和談話環(huán)境對句子的約束和影響導(dǎo)致的理解不準(zhǔn)確乃至錯誤問題經(jīng)常發(fā)生。
如何利用機(jī)器學(xué)習(xí)技術(shù)進(jìn)行自然語言的的深度理解,分析歧義、詞語省略、代詞所指、同一句話在不同場合或由不同的人說出來所具有的具體含義等一直是科研院所和各大企業(yè)持續(xù)發(fā)力的方向。
2020年6月,在訓(xùn)練約2000億個單詞、燒掉幾千萬美元后,馬斯克OpenAI推出的強大AI模型——GPT-3一炮而紅。全球數(shù)以萬計的開發(fā)人員正在基于該平臺開展工作,并廣泛應(yīng)用于電子郵件助理、語言翻譯、文檔檢索、游戲等領(lǐng)域。
與此同時,云創(chuàng)大數(shù)據(jù)也在自然語言理解領(lǐng)域進(jìn)行創(chuàng)新,基于高性能人工智能數(shù)據(jù)處理一體機(jī)(云創(chuàng)研發(fā)的高維向量計算機(jī))提供的強大算力,開發(fā)了語義搜索技術(shù)。高維向量計算機(jī)擁有60個處理單元,比對快捷,一秒鐘可做7億次比對,成本降低10倍以上。本機(jī)作為主流的人工智能識別算法后段的比對專用機(jī),與各家算法兼容。憑借以上優(yōu)勢,該產(chǎn)品自推出以來便獲得了不俗評價。
高維向量計算機(jī)
語義搜索技術(shù)應(yīng)用語義理解而非關(guān)鍵詞匹配的方法快速查找出需要搜索的內(nèi)容,在0.1秒內(nèi)即可返回結(jié)果,可廣泛應(yīng)用于專利搜索、電子病歷檢索、論文檢索、論文查重、資料搜索、法律文獻(xiàn)檢索等多種場景中。
語義球
● 專利搜索場景。利用語義搜索技術(shù),可以準(zhǔn)確查找到其他企事業(yè)單位已經(jīng)成功申請專利的描述、編號等信息,方便在專利申請時避免重復(fù)申請等相關(guān)問題。
● 電子病歷檢索場景。針對醫(yī)學(xué)知識圖譜中關(guān)鍵技術(shù)進(jìn)行研究,形成了面向特定醫(yī)療領(lǐng)域的知識服務(wù)平臺,可應(yīng)用于電子病例檢索、處方開具、醫(yī)療知識問答等醫(yī)療服務(wù)中。
醫(yī)療知識圖譜
醫(yī)療知識問答系統(tǒng)
● 論文檢索場景。查閱論文時,檢索的結(jié)果往往雖多,但不符合個人所需。借助語義搜索技術(shù),只需簡單描述一句話,即可準(zhǔn)確檢索到用戶需要且有參考價值的論文。
● 論文查重場景。針對論文寫作時將抄襲的中文論文先翻譯成英語,再翻譯成中文,或者是采用替換詞語、改變表達(dá)的方式等規(guī)避查重等問題。借助語義搜索技術(shù),可以對其進(jìn)行準(zhǔn)確檢測,發(fā)現(xiàn)論文寫作時的抄襲、剽竊亂象。
● 資料搜索場景。與論文搜索場景類似,通過語義搜索技術(shù),只需簡短的一句話,即可實現(xiàn)對資料的搜索,且命中率和準(zhǔn)確率很高。
● 法律文獻(xiàn)檢索場景。語義搜索技術(shù)通過對歷史上相似案件詳細(xì)信息的查詢和梳理,可便于律師開展有效辯護(hù),司法人員開展高效工作等。
歡迎不同場景的用戶單位與我們聯(lián)系!如有合作意向,請聯(lián)系:
15722710158(李先生,微信同號)