Hello,大家好,我是程式汪小成~
今天,我來教大家如何用python來吃瓜~
這幾天被王力宏的瓜給刷屏了,有不少的女性朋友都表示非常的震驚與憤怒
我對王力宏的大致印象也僅僅是停留在其高學歷、流利的英語和滿腹的經綸,其創作出來的很多篇好聽的歌曲至今還流行在大街小巷,沒想到也會有這樣的行徑。
今天我用Python來抓取這兩位當事人底下評論區的內容,並繪製詞雲圖,主要的程式碼如下
@retry(stop=stop_after_attempt(7))
def do_requests(uid, pageNum):
headers = {
"cookie": "SCF=Anhuv5v0Lu8oFE06-PmKm-uqVmUQgSwrLYauTMNCvEmRH0iOd-jT0poB-pgkpX_aJsOYqZjgw_F8TAZ0SL_aE9Q.; _T_WM=32be9637e54d4f58408755d6f8100d5c; SUB=_2A25MueV4DeRhGeRN7lQY8ynEwziIHXVsRYswrDV6PUJbkdAKLRPSkW1NU7D9XCuoP6vJEUUVjb0HcSPigsLzxFaW; SSOLoginState=1639814440",
"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36"
}
url = "https://weibo.cn/repost/L6w2sfDXb?&uid={}&&page={}".format(uid, pageNum)
response = requests.get(url, headers = headers)
return response.text
def get_comment(html_data):
html_text = BeautifulSoup(html_data, 'lxml')
comment_list = html_text.select("span.ctt")
return comment_list
def jieba_():
stop_words = set([line.strip() for line in open("chineseStopWords.txt", encoding="GBK").readlines()])
for word in ["回覆", "有沒有"]:
stop_words.add(word)
comment_list = []
with open("comment_data.txt", "r", encoding="utf-8") as comment_data_list:
for comment in comment_data_list:
comment_list.append(comment)
text = ", ".join(comment_list)
word_num = jieba.lcut(text, cut_all=False)
rule = re.compile(r"^[\u4e00-\u9fa5]+$")
word_num_selected = [word for word in word_num if word not in stop_words and
re.search(rule, word) and len(word) >= 2]
return word_num_selected
def plot_word_cloud(text):
# 開啟詞雲背景圖
cloud_mask = np.array(Image.open('gua_1.jpg'))
# 定義詞雲的一些屬性
wc = WordCloud(
# 背景圖分割顏色為白色
background_color='white',
# 背景圖樣
mask=cloud_mask,
# 顯示最大詞數
max_words=200,
# 顯示中文
font_path='KAITI.ttf',
# 最大尺寸
max_font_size=100
)
text_ = ", ".join(text)
# 詞雲函式
x = wc.generate(text_)
# 生成詞雲圖片
image = x.to_image()
# 展示詞雲圖片
image.show()
# 儲存詞雲圖片
wc.to_file('melon_1.png')
針對男主的評論區生成的詞雲圖如下,看得出來都是對男主的謾罵與怨恨,有不少人都要求封殺男主。
而他前妻發文底下的評論區,生成的詞雲圖如下,大家都是在鼓勵他前妻要堅強、加油麵對生活,走出生活的低谷。
是不是就用python一下就提取出很多的關鍵詞,瞭解人們對這件事情的看法
感興趣的小夥伴也可以動手去嘗試一下
我的分享到這裡就結束,喜歡的小夥伴就點個贊和關注哦~