文档名:基于Scrapy框架的招投标信息爬虫的设计与实现
如何将分散在互联网上的招投标信息数据进行信息聚合,方便企业及时获取有用信息,已经成为招投标领域一个急需解决的问题.针对以上问题,设计开发一个基于Scrapy框架的招投标网络爬虫系统.采用Scrapy开源框架中的Spider模块开发多个针对特定招投标网站的网络爬虫程序;使用ItemPipeline模块将爬虫爬取到的信息进行处理,存入MYSQL数据库;通过设置User-Agent池、下载延时等措施来应对网站的反爬虫机制,采用Scrapy自带的方法解决URL去重和多线程并发的问题.
作者:王子茵 李陶深 葛志辉
作者单位:广西大学计算机与电子信息学院,南宁,530004广西高校并行与分布式计算技术重点实验室,南宁,530004
母体文献:第28届全国计算机新科技与教育学术会议论文集
会议名称:第28届全国计算机新科技与教育学术会议
会议时间:2018年9月26日
会议地点:北京
主办单位:全国高等学校计算机教育研究会
语种:chi
分类号:TP3TN9
关键词:招投标网络爬虫系统 软件开发 功能模块
在线出版日期:2022年3月9日
基金项目:
相似文献
相关博文
- 文件大小:
- 1.93 MB
- 下载次数:
- 60
-
高速下载
|
|