- 資訊首頁(yè) > 開(kāi)發(fā)技術(shù) > 編程語(yǔ)言 >
- Python中怎么實(shí)現文本分析
這期內容當中小編將會(huì )給大家帶來(lái)有關(guān)Python中怎么實(shí)現文本分析,文章內容豐富且以專(zhuān)業(yè)的角度為大家分析和敘述,閱讀完這篇文章希望大家可以有所收獲。
任務(wù)(Task)
人為判斷同義詞很簡(jiǎn)單,但用程序來(lái)判斷就不簡(jiǎn)單了。小愛(ài)想到了兩種方式:制作一個(gè)同義詞庫;計算所有詞語(yǔ)的相似度,將相似度高于閾值的詞語(yǔ)作為同義詞。
同義詞庫。在網(wǎng)上百度一番,只發(fā)現了一個(gè)哈工大的同義詞庫,滿(mǎn)心歡喜地點(diǎn)進(jìn)去一看,發(fā)現頁(yè)面已經(jīng)不存在了,真是欲哭無(wú)淚!小愛(ài)心想,要不自己制作一個(gè)同義詞庫?再仔細一思考其中工作量,算了,還是打消念頭吧,這種方式行不通。
相似度計算。小愛(ài)查詢(xún)到Python中的synonyms庫提供了計算兩個(gè)詞語(yǔ)相似度的方法,結果還較為靠譜,于是就準備采用此種方式了。
行動(dòng)(Action)
在找了一篇幾百字的文章進(jìn)行測試之后,小愛(ài)發(fā)現這種方式行得通。于是就正式開(kāi)始運用于公司的文本數據了。這時(shí),新的問(wèn)題又出現了。
公司的客戶(hù)反饋數據有數十上百萬(wàn)條,分詞后的詞語(yǔ)集合在去除停用詞之后也有幾萬(wàn)個(gè),小愛(ài)的代碼在計算相似度的時(shí)候卡住了。這個(gè)時(shí)候小愛(ài)才醒悟過(guò)來(lái):樣本數據分詞的詞語(yǔ)量少,計算量自然少,但隨著(zhù)詞語(yǔ)數量的增加,計算量也是呈指數增長(cháng)的。
免責聲明:本站發(fā)布的內容(圖片、視頻和文字)以原創(chuàng )、來(lái)自本網(wǎng)站內容采集于網(wǎng)絡(luò )互聯(lián)網(wǎng)轉載等其它媒體和分享為主,內容觀(guān)點(diǎn)不代表本網(wǎng)站立場(chǎng),如侵犯了原作者的版權,請告知一經(jīng)查實(shí),將立刻刪除涉嫌侵權內容,聯(lián)系我們QQ:712375056,同時(shí)歡迎投稿傳遞力量。
Copyright ? 2009-2022 56dr.com. All Rights Reserved. 特網(wǎng)科技 特網(wǎng)云 版權所有 特網(wǎng)科技 粵ICP備16109289號
域名注冊服務(wù)機構:阿里云計算有限公司(萬(wàn)網(wǎng)) 域名服務(wù)機構:煙臺帝思普網(wǎng)絡(luò )科技有限公司(DNSPod) CDN服務(wù):阿里云計算有限公司 百度云 中國互聯(lián)網(wǎng)舉報中心 增值電信業(yè)務(wù)經(jīng)營(yíng)許可證B2
建議您使用Chrome、Firefox、Edge、IE10及以上版本和360等主流瀏覽器瀏覽本網(wǎng)站