基于爬虫技术的僵尸网站检测

admin · 发表于 2024-12-10 15:00

文档名：基于爬虫技术的僵尸网站检测
本文提出一种僵尸网站检测算法,实现对网络中的僵尸网站进行检测.算法运用Python语言的网络爬虫技术,实现对Web网页的爬取;然后对网页爬取的结果,运用MD5签名技术和difflib库进行文件差异分析,记录差异分析得出的结果;最后运用Jieba库中的分词工具,对网页爬取内容进行分词处理,并根据敏感词汇库进行敏感词比对检测.实验测试结果表明,本文算法可以实现对指定网站的全站网页爬取,可以导出网站内更新的网页,检测出敏感词库定义的敏感词.
作者：杨时禹李陶深葛志辉
作者单位：广西大学计算机与电子信息学院南宁,530004广西高校并行与分布式计算技术重点实验室南宁,530004
母体文献：第29届全国计算机新科技与教育学术会议论文集
会议名称：第29届全国计算机新科技与教育学术会议
会议时间：2019年10月1日
会议地点：河南开封
主办单位：全国高等学校计算机教育研究会
语种：chi
分类号：TP3G3
关键词：僵尸网站检测网络爬虫数字签名数据库
在线出版日期：2022年3月9日
基金项目：
相似文献
相关博文

2024-12-10 15:00 上传

基于爬虫技术的僵尸网站检测.pdf

文件大小:: 5.22 MB

下载次数:: 60

高速下载

基于爬虫技术的僵尸网站检测

相关帖子

能源电力

化工

建筑工程

机械

电子信息

医药

科学