基于.NET技术的并行网络爬虫的实现
来源:56doc.com 资料编号:5D25063 资料等级:★★★★★ %E8%B5%84%E6%96%99%E7%BC%96%E5%8F%B7%EF%BC%9A5D25063
资料以网页介绍的为准,下载后不会有水印.资料仅供学习参考之用. 密 保 惠 帮助
资料介绍
基于.NET技术的并行网络爬虫的实现(中文4000字,英文PDF)
摘要:万维网的增长速度非常快,网络上的数据或信息经常发生变化。由于网络是动态的,因此很难获得相关的、新鲜的信息。本文设计并开发了一个基于多个HTTP的网络爬虫程序。这里我们使用多个线程来实现多个HTTP连接。通过多线程的帮助,可以减少整个下载过程。本文介绍了一种基于.NET技术的网络爬虫系统。该方法在VB.NET中实现,多线程并行对网页进行爬行,爬行数据存储在中央数据库(SQL Server)中。记录的重复性是通过预先编译的存储过程来检查的,并且可以很快地检查结果。该结构速度非常快,允许许多爬虫同时对数据进行爬行。
关键词:万维网;网络爬虫;多HTTP连接;多线程;URL;数据库
|