数据挖掘知识

免费体验
当前位置: 首页 > 知识库 > 数据挖掘知识 >

用 Python 做有趣的数据分析项目

分享到:
时间:2016-06-19 12:53来源:谷歌推广seo网络知识 作者:谷歌优化怎么做
中国统计网(www.itongji.cn),是由大数据资深从业人员创办的大数据门户网站


QQ截图20160617183344.png

QQ截图20160617183356.png


对《还珠格格》进行词频统计


QQ截图20160617183408.png


对《还珠格格》的词频统计生成词云标签


QQ截图20160617183417.png


将《2016年中国政府工作报告》变成词云是这样的


QQ截图20160617183439.png


然后是《小时代》


QQ截图20160617183447.png

QQ截图20160617183455.png


以小燕子照片为词云背景


QQ截图20160617183501.png


对《射雕英雄传》进行词频统计并以郭靖剧照作为词云背景


QQ截图20160617183515.png


有没有满满的即视感?



QQ截图20160617183530.png


一个Web端的电影数据库交互


QQ截图20160617183540.png

QQ截图20160617183547.png

QQ截图20160617183547.png

QQ截图20160617183555.png


可以了解整个香港电影史,从早期合拍上海片,到胡金栓的武侠片,到李小龙时代,然后是成龙,接着周星驰

QQ截图20160617183607.png

QQ截图20160617183616.png


对职责要求的词频分析,提炼出必需技能


QQ截图20160617183646.png


用爬虫爬下上万知乎女神照片


QQ截图20160617183657.png

QQ截图20160617183708.png


对于关注我的童鞋,英文软文写作,谢谢你,代码拿去

词频统计和词云的代码

from wordcloud import WordCloudimport jiebaimport PILimport matplotlib.pyplot as pltimport numpy as npdef wordcloudplot(txt):
   path='d:/jieba/msyh.ttf'
   path=unicode(path, 'utf8').encode('gb18030')
   alice_mask = np.array(PIL.Image.open('d:/jieba/she.jpg'))
   wordcloud = WordCloud(font_path=path,
                         background_color="white",  
                         margin=5, width=1800, height=800,mask=alice_mask,max_words=2000,max_font_size=60,random_state=42)
   wordcloud = wordcloud.generate(txt)
   wordcloud.to_file('d:/jieba/she2.jpg')
   plt.imshow(wordcloud)
   plt.axis("off")
   plt.show()
   def main():
   a=[]
   f=open(r'd:\jieba\book\she.txt','r').read()
   words=list(jieba.cut(f))
   for word in words:
       if len(word)>1:
           a.append(word)
   txt=r' '.join(a)
   wordcloudplot(txt)
   if __name__=='__main__':
   main()


爬知乎女神的代码


import requestsimport urllibimport reimport randomfrom time import sleepdef main():
   url='xxx'
   headers={xxx}
   i=925
   for x in xrange(1020,2000,20):
       data={'start':'1000',
   'offset':str(x),
   '_xsrf':'a128464ef225a69348cef94c38f4e428'}
       content=requests.post(url,headers=headers,data=data,timeout=10).text
       imgs=re.findall('<img src=\\\\\"(.*?)_m.jpg',content)    
       for img in imgs:
           try:
               img=img.replace('\\','')
               pic=img+'.jpg'
               path='d:\\bs4\\zhihu\\jpg4\\'+str(i)+'.jpg'
               urllib.urlretrieve(pic,path)
               print ('下载了第'+str(i)+u'张图片')
               i+=1
               sleep(random.uniform(0.5,1))
           except:
               print ('抓漏1张')
               pass
       sleep(random.uniform(0.5,1))
       if __name__=='__main__':
   main()    


作者:挖数
链接: zhihu.com/question/28975391/answer/100796070
来源:知乎

(整理:英文推广TuiGuang123.com)
分享到:
------分隔线----------------------------
购买咨询 | 联系我们 | 产品报价 | 付款方式
网站地图 Copyright·深圳市亿推信息技术有限公司 版权所有 粤ICP备13042246号