数据挖掘知识

免费体验
当前位置: 首页 > 知识库 > 数据挖掘知识 >

在阿里云上测试Gerapy教程

分享到:
时间:2018-02-09 19:18来源: 作者:
中国统计网(www.itongji.cn),是由大数据资深从业人员创办的大数据门户网站

前几天,大才发了一个自己写的框架。


今天在阿里云上试用了一下,在这里做一个简单的说明。


     1、配置环境


阿里云的版本是2.7.5,所以用pyenv新安装了一个3.6.4的环境,安装后使用pyenv global 3.6.4即可使用3.6.4的环境,我个人比较喜欢这样,切换自如,互不影响。


如下图:



接下来按照大才的文章,pip install gerapy即可,这一步没有遇到什么问题。有问题的同学可以向大才提issue。


   2. 开启服务


首先去阿里云的后台设置安全组   ,英文新闻稿,我的是这样:



然后到命令窗口对8000和6800端口放行即可。


接着执行


    gerapy init

cd gerapy

gerapy migrate

    # 注意下一步 

    

gerapy runserver  0.0.0.0:8000 【如果你是在本地,执行 gerapy runserver即可,如果你是在阿里云上,你就要改成前面这样来执行】


现在在浏览器里访问:ip:8000应该就可以看到主界面了



里面的各个的含义见大才的文章。


3.创建项目


在gerapy下的projects里面新建一个scrapy爬虫,在这里我搞的是最简单的:


scrapy startproject gerapy_test

cd gerapy_test

scrapy genspider baidu baidu.com


这样就是一个最简单的爬虫了,修改一个settings.py中的ROBOTSTXT_OBEY=False, 然后修改一个spiders下面的baidu.py, 这里随意,我这里设置的是输出返回的 response.url


4.安装scrapyd


 pip install scrapyd


安装好以后,命令行执行


scrapyd


然后浏览器中打开 ip:6800,如果你没有修改配置,应该这里会打不开,clients那里配置的时候,也应该会显示为error,就像这样:


 


后来找了一下原因发现scrapyd默认打开的也是127.0.0.1


 

所以这个时候就要改一下配置,具体可以参考这里, 我是这么修改:


vim ~/.scrapyd.conf

[scrapyd]
bind_address = 0.0.0.0


在刷新一下,就会看到前面error变成了normal


 

5. 打包,部署,调度


这几步大才的文章里都有详细说明,打包完,部署,在进入clients的调度界面,点击run按钮即可跑爬虫了


在阿里云上测试Gerapy教程


 


可以看到输出的结果了。


6.结语


建议大家可以试着用一下,很方便,我这里只是很简单的使用了一下。


End.


(整理:英文推广TuiGuang123.com)
分享到:
------分隔线----------------------------

联系信息

 

 地址:深圳南山保利广场B区二层51#

 手机:18123763721,400-879-3881

 微信:18123763721

 联络:费先生、雁狸

 办公:9:00~22:00

 网址:http://www.tuiguang123.com

银行账户

 

银行:招商银行深圳水榭花都支行

户名:深圳市亿推信息技术有限公司

帐号:7559 2777 4410 601

重点方案

 

国外媒体发稿

社交媒体KOL

区块链海外推

英文外链推广

跨境电商特惠

微信咨询

 

COPYRIGHT·深圳市亿推信息技术有限公司 版权所有 粤ICP备17150804号-2