由于海关行业及进一步销售线索分析的需要,近期需要不定期查询部分潜在客户的工商信息,包括地址、联系人及经营范围等。但由于公司内部 IT 对网络的限制,很多网站无法访问(爬虫直接被禁),连阿里云服务器都连不上,因此需要连接外网,将爬虫结果再回传到内网。如下是主要的爬虫流程:
主要涉及到公司内网、外网计算机、外网服务器三者之间的连接,其中外网计算机与外网服务器之间的连接可直接 WinCP 互相传输,而外网计算机与公司内网计算之间,目前需要通过 QQ 等第三方工具;若文件不大,可通过服务器直接发送邮件到公司内网邮件。
其中涉及到的数据库主要有 MongoDB(爬虫使用)、SQL Server(公司内网数据库)、JSON 数据,三者间的连接主要通过 mongoDB 的导入导出功能及 Python 作为粘结剂
1 2 3 4 5 6 7 8 |
#MongoDB mongoexport -d <database> -c <collection> -o a.json mongoimport -d <database> -c <collection> -f a.json #MongoDB 与 Python连接 import pymongo client = pymongo.MongoClient(MONGO_URL) db=client[MONGO_DB] mongo_list=db[MONGO_TABLE].find() |