博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
一个完整的大作业
阅读量:6250 次
发布时间:2019-06-22

本文共 980 字,大约阅读时间需要 3 分钟。

1.选一个自己感兴趣的主题。

2.网络上爬取相关的数据。

3.进行文本分析,生成词云。

4.对文本分析结果解释说明。

5.写一篇完整的博客,附上源代码、数据爬取及分析结果,形成一个可展示的成果。

 

1我对车感兴趣

 

2进行数据爬取

url = "http://guangzhou.bitauto.com/"res = requests.get(url)res.encoding = "utf-8"soup = BeautifulSoup(res.text, "html.parser")output = open("rrr.txt", "a+", encoding="utf-8")for p in soup.find_all("p"):    output.write(p.get_text() + "\n")output.close()txt = open("rrr.txt", "r", encoding="utf-8").read()

 

words = jieba.lcut(txt)ls = []counts = {}for word in words:    ls.append(word)    if len(word) == 1:        continue    else:        counts[word] = counts.get(word,0)+1items = list(counts.items())items.sort(key = lambda x:x[1], reverse = True)for i in range(10):    word , count = items[i]    print ("{:<5}{:>2}".format(word,count))

 

3生成词云

wordlist = jieba.cut(txt, cut_all=True)wl_split = "/".join(wordlist)hzt = WordCloud(font_path='msyh.ttc').generate(wl_split)plt.imshow(hzt)plt.axis("off")plt.show()

4结果分析

 

 

 

 

 

转载于:https://www.cnblogs.com/toronad/p/7771233.html

你可能感兴趣的文章
Working in Singapore
查看>>
php发送get、post请求的几种方法
查看>>
Linux多线程同步方式
查看>>
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群(第五步)(2)...
查看>>
2015第9周二
查看>>
Android监听外部存储设备的状态(SD卡、U盘等等)
查看>>
Execute Javascript in iOS Applications
查看>>
linux 内核驱动--Platform Device和Platform_driver注册过程
查看>>
ArcGis 计算线段长度
查看>>
Red Hat Enterprise Linux 各个版本以及发布日期
查看>>
linux2.6中的工作队列接口 workqueue_struct
查看>>
Java 中队列的使用
查看>>
Android执行shell命令
查看>>
Hadoop与HBase中遇到的问题(续)java.io.IOException: Non-increasing Bloom keys异常
查看>>
STM32 IAP 在线升级详解(转)
查看>>
LeetCode - Palindrome Number
查看>>
NavMesh名字、层索引、层值之间的转换
查看>>
Painter 12安装教程
查看>>
Android-WizardPager
查看>>
ossim
查看>>