国产成人精品18p,天天干成人网,无码专区狠狠躁天天躁,美女脱精光隐私扒开免费观看

Python中怎么實(shí)現文本分析

發(fā)布時(shí)間:2021-07-10 17:40 來(lái)源:億速云 閱讀:0 作者:Leah 欄目: 編程語(yǔ)言 歡迎投稿:712375056

這期內容當中小編將會(huì )給大家帶來(lái)有關(guān)Python中怎么實(shí)現文本分析,文章內容豐富且以專(zhuān)業(yè)的角度為大家分析和敘述,閱讀完這篇文章希望大家可以有所收獲。

任務(wù)(Task)

人為判斷同義詞很簡(jiǎn)單,但用程序來(lái)判斷就不簡(jiǎn)單了。小愛(ài)想到了兩種方式:制作一個(gè)同義詞庫;計算所有詞語(yǔ)的相似度,將相似度高于閾值的詞語(yǔ)作為同義詞。

  • 同義詞庫。在網(wǎng)上百度一番,只發(fā)現了一個(gè)哈工大的同義詞庫,滿(mǎn)心歡喜地點(diǎn)進(jìn)去一看,發(fā)現頁(yè)面已經(jīng)不存在了,真是欲哭無(wú)淚!小愛(ài)心想,要不自己制作一個(gè)同義詞庫?再仔細一思考其中工作量,算了,還是打消念頭吧,這種方式行不通。

  • 相似度計算。小愛(ài)查詢(xún)到Python中的synonyms庫提供了計算兩個(gè)詞語(yǔ)相似度的方法,結果還較為靠譜,于是就準備采用此種方式了。

行動(dòng)(Action)

在找了一篇幾百字的文章進(jìn)行測試之后,小愛(ài)發(fā)現這種方式行得通。于是就正式開(kāi)始運用于公司的文本數據了。這時(shí),新的問(wèn)題又出現了。

公司的客戶(hù)反饋數據有數十上百萬(wàn)條,分詞后的詞語(yǔ)集合在去除停用詞之后也有幾萬(wàn)個(gè),小愛(ài)的代碼在計算相似度的時(shí)候卡住了。這個(gè)時(shí)候小愛(ài)才醒悟過(guò)來(lái):樣本數據分詞的詞語(yǔ)量少,計算量自然少,但隨著(zhù)詞語(yǔ)數量的增加,計算量也是呈指數增長(cháng)的。

免責聲明:本站發(fā)布的內容(圖片、視頻和文字)以原創(chuàng )、來(lái)自本網(wǎng)站內容采集于網(wǎng)絡(luò )互聯(lián)網(wǎng)轉載等其它媒體和分享為主,內容觀(guān)點(diǎn)不代表本網(wǎng)站立場(chǎng),如侵犯了原作者的版權,請告知一經(jīng)查實(shí),將立刻刪除涉嫌侵權內容,聯(lián)系我們QQ:712375056,同時(shí)歡迎投稿傳遞力量。

女人被狂C躁到高潮视频| 国产免费午夜福利757| 精品综合久久久久久97超人| 亚洲精品国精品久久99热| 国产精品 视频一区 二区三区| 久久99精品久久久久久久不卡|