- 資訊首頁(yè) > 互聯(lián)網(wǎng) >
- 美團云GPU云主機在圖像識別領(lǐng)域的應用實(shí)踐
前言
近幾年人工智能迎來(lái)發(fā)展高峰,越來(lái)越多的人開(kāi)始意識到,機器可以通過(guò)學(xué)習擁有智能,進(jìn)而取代一部分人類(lèi)工作,這促成了人工智能的技術(shù)研究達到空前的熱度。深度學(xué)習便是目前主流的研究領(lǐng)域,并被認為是最具研究前景和發(fā)展潛力的方向。
深度學(xué)習的研究動(dòng)機是建立可模仿人腦進(jìn)行學(xué)習的神經(jīng)網(wǎng)絡(luò ),分為有監督學(xué)習和無(wú)監督學(xué)習兩種,目前主流的深度學(xué)習框架包括:TensorFlow、Caffe、Theano、MXNet、Marvin、Torch等等。下面選擇其中4種框架進(jìn)行對比,分別為T(mén)ensorFlow、Caffe、Theano和MXNet,并介紹基于深度學(xué)習的圖像識別在美團酒旅業(yè)務(wù)中的應用實(shí)踐以及美團云GPU云主機在其中發(fā)揮的作用。
不同深度學(xué)習框架的對比
TensorFlow是谷歌開(kāi)源的一款深度學(xué)習框架,目前應用最為廣泛,支持圖像、文字、語(yǔ)音的識別,自然語(yǔ)言處理等功能,可以說(shuō)是一種通用型學(xué)習框架;Theano支持手寫(xiě)字識別、圖像分類(lèi)、自然語(yǔ)言處理等功能,但是比TensorFlow速度要快;Caffe在計算機視覺(jué)領(lǐng)域表現突出;MXNet是上述幾種框架中擴展性最好的,支持CNN(卷積神經(jīng)網(wǎng)絡(luò ))、RNN(遞歸神經(jīng)網(wǎng)絡(luò ))、LSTM(長(cháng)短期記憶網(wǎng)絡(luò )),并且也能夠支持多種功能,亞馬遜就選擇了MXNet作為其深度學(xué)習框架。
下面通過(guò)語(yǔ)言、速度、靈活性、適用模型、上手難度等方面對比四種框架。
(表1)
(圖1)
從表1中的綜合對比來(lái)看,這四種框架各有優(yōu)劣,MXNet綜合能力更全面。從圖1中可以看出單卡GPU處理下,MXNet的loss是這四種框架中最低的,所用時(shí)間也最短。
TensorFlow在性能上和其他框架相比劣勢比較明顯,但靈活性很高,支持各種復雜的網(wǎng)絡(luò )模型,方便配置新的算法和環(huán)境并且支持可視化;
Caffe在圖片處理上的速度很快,用K40 GPU處理圖片可以達到2ms/張的速度,并且在學(xué)術(shù)及工業(yè)領(lǐng)域有很多可以借鑒的項目;
Theano支持語(yǔ)言較少,其他方面表現都還不錯,是一種適合學(xué)術(shù)研究的學(xué)習框架。
在美團酒旅業(yè)務(wù)場(chǎng)景中,美團云提供預裝了TensorFlow框架的GPU云主機來(lái)進(jìn)行圖像識別訓練。
基于深度學(xué)習的圖像識別在酒旅業(yè)務(wù)中的應用
深度學(xué)習需要大規模數據的運算來(lái)訓練模型,其性能主要受GPU浮點(diǎn)運算能力的影響,所以選擇合適的GPU是提升訓練效率的重中之重。
選擇GPU主要考慮三方面因素:浮點(diǎn)運算能力、功耗和成本。一般情況下,GPU的浮點(diǎn)計算能力與其功耗成正比,另外現在GPU的更新?lián)Q代速度比較快,所以大規模堆置高性能機器可能會(huì )造成一定程度的資源浪費。
美團云提供的GPU云主機搭載了NVIDIA Tesla M60 GPU,預裝了TensorFlow 1.1-GPU框架和Keras 2.0.4框架。M60可提供最高4096個(gè)并行處理核心,16GB的GDDR5顯存及9.7TFlops 的單精度峰值性能。選擇M60也是綜合考量了性能、功耗以及成本三個(gè)方面的結果,美團酒旅圖像識別的算法訓練所選用的就是預裝了TensorFlow 1.1-GPU框架的M60 GPU云主機。
在酒旅的業(yè)務(wù)場(chǎng)景中,身份信息驗證、機票驗證、在線(xiàn)值機、驗證碼驗證等都可以利用圖像識別尤其是OCR識別技術(shù)來(lái)支持系統自動(dòng)識別用戶(hù)信息,簡(jiǎn)化用戶(hù)操作流程,并提高信息錄入的速度和準確度。
驗證識別中的主要流程包括:去噪點(diǎn)、去色、切片、模板對比、輸出5個(gè)環(huán)節,因此在基于深度學(xué)習的OCR識別中,美團酒旅團隊選擇了CNN(Convolutional Neural Network) LSTM(Long Short-Term Memory) CTC(Connectionist temporal classification)的組合算法方案:
——CNN即卷積神經(jīng)網(wǎng)絡(luò ),包括卷積層和池層,是一種前饋神經(jīng)網(wǎng)絡(luò ),CNN在大規模圖像處理中表現出色,因此用CNN來(lái)進(jìn)行圖像特征的提取;
——LSTM是遞歸神經(jīng)網(wǎng)絡(luò )(RNN)的一種,即時(shí)間遞歸神經(jīng)網(wǎng)絡(luò ),適合處理和預測時(shí)間序列中間隔和延遲相對較長(cháng)的重要事件,因此采用LSTM來(lái)提取時(shí)序關(guān)系最為合適;
——CTC是一種基于神經(jīng)網(wǎng)絡(luò )的時(shí)序分類(lèi),可以實(shí)現一個(gè)輸入序列一個(gè)輸出序列就可以完成訓練。因為在輸出長(cháng)度固定的情況下,選擇引入CTC來(lái)預測輸出。
(圖2:算法模型)
基于此混合算法的模型訓練,識別精度目前可以達到單次識別準確率90%以上,5次識別準確率99%以上,對于宋體、楷書(shū)等文字識別的準確率可以達到80%以上。隨著(zhù)模型和算法的優(yōu)化,準確率還將不斷提升。
結語(yǔ)
除了在酒旅業(yè)務(wù)場(chǎng)景中應用圖像識別之外,美團點(diǎn)評在自然語(yǔ)言處理、人臉識別等多個(gè)領(lǐng)域都有所探索,美團云GPU云主機為上述領(lǐng)域的研究提供了訓練支撐,幫助加速訓練過(guò)程,完善算法。
目前,美團云主要提供單機單卡的GPU云主機,未來(lái)還將研究單機單卡、單機多卡與多機多卡等方式之間的性能及成本差異,提供更符合用戶(hù)需求的GPU計算服務(wù)。
此外,美團云于近日上線(xiàn)了深度學(xué)習平臺,并開(kāi)放了人臉識別、OCR識別等AI應用,提供一站式AI服務(wù)。
免責聲明:本站發(fā)布的內容(圖片、視頻和文字)以原創(chuàng )、來(lái)自本網(wǎng)站內容采集于網(wǎng)絡(luò )互聯(lián)網(wǎng)轉載等其它媒體和分享為主,內容觀(guān)點(diǎn)不代表本網(wǎng)站立場(chǎng),如侵犯了原作者的版權,請告知一經(jīng)查實(shí),將立刻刪除涉嫌侵權內容,聯(lián)系我們QQ:712375056,同時(shí)歡迎投稿傳遞力量。
Copyright ? 2009-2022 56dr.com. All Rights Reserved. 特網(wǎng)科技 特網(wǎng)云 版權所有 特網(wǎng)科技 粵ICP備16109289號
域名注冊服務(wù)機構:阿里云計算有限公司(萬(wàn)網(wǎng)) 域名服務(wù)機構:煙臺帝思普網(wǎng)絡(luò )科技有限公司(DNSPod) CDN服務(wù):阿里云計算有限公司 百度云 中國互聯(lián)網(wǎng)舉報中心 增值電信業(yè)務(wù)經(jīng)營(yíng)許可證B2
建議您使用Chrome、Firefox、Edge、IE10及以上版本和360等主流瀏覽器瀏覽本網(wǎng)站