考核目的
1.了解詞云的制作過程和方法。
2.熟悉過程中用到的 pandas 操作方法。
考核內(nèi)容
本實驗需要對電影評論數(shù)據(jù)進行分析,這是一類文本型數(shù)據(jù),與之前見到的數(shù)值型數(shù)據(jù) 有很大區(qū)別。中文分詞是中文文本處理的一個基礎(chǔ)步驟,也是中文人機自然語言交互的基礎(chǔ) 模塊,在進行中文自然語言處理時,通常需要先進行分詞。本文選擇使用 Python 中的 jieba 模塊進行分詞,然后導入停用詞表,去除停用詞(停用詞及語句中無意義的詞,如”的”,”了” 等)。本實驗在接下來的步驟中進行了詞頻統(tǒng)計,然后利用詞云這一直接的方式進行了展現(xiàn)。
考核要求
1.準備格式化數(shù)據(jù)。
2.通過案例掌握 Pandas 進行文本數(shù)據(jù)處理以及詞云的可視化展現(xiàn)方法。
實驗報告要求
1.實驗報告由實驗?zāi)繕?、實驗環(huán)境、實驗內(nèi)容、實驗結(jié)果、實驗體會五個方面構(gòu)成。實驗結(jié)果為實現(xiàn)代碼和生成的頁面截圖。
2.實驗報告以平臺允許的格式上傳。
3.實驗報告由輔導教師評閱。
奧鵬,國開,廣開,電大在線,各省平臺,新疆一體化等平臺學習
詳情請咨詢QQ : 3230981406或微信:aopopenfd777

