• 欢迎关注我的微信公众号,每周更新最新内容,一起学习数据分析!点击

客户信息Python爬虫流程

Python 大坚果 4年前 (2018-05-22) 3811次浏览 0个评论 扫描二维码

由于海关行业及进一步销售线索分析的需要,近期需要不定期查询部分潜在客户的工商信息,包括地址、联系人及经营范围等。但由于公司内部 IT 对网络的限制,很多网站无法访问(爬虫直接被禁),连阿里云服务器都连不上,因此需要连接外网,将爬虫结果再回传到内网。如下是主要的爬虫流程:客户信息Python爬虫流程

主要涉及到公司内网、外网计算机、外网服务器三者之间的连接,其中外网计算机与外网服务器之间的连接可直接 WinCP 互相传输,而外网计算机与公司内网计算之间,目前需要通过 QQ 等第三方工具;若文件不大,可通过服务器直接发送邮件到公司内网邮件。

其中涉及到的数据库主要有 MongoDB(爬虫使用)、SQL Server(公司内网数据库)、JSON 数据,三者间的连接主要通过 mongoDB 的导入导出功能及 Python 作为粘结剂

 

 

 

 

 

 


墨痕|畅所欲言的小笔记 , 版权所有丨如未注明 , 均为原创丨本网站采用BY-NC-SA协议进行授权
转载请注明原文链接:客户信息Python爬虫流程
喜欢 (5)

您必须 登录 才能发表评论!