{$cfg_webname}
主页 > 计算机 > Javaweb >

网络搜索引擎的研究与开发(Eclipse+Tomcat+MySQL)(精品)☆

来源:56doc.com  资料编号:5D4190 资料等级:★★★★★ %E8%B5%84%E6%96%99%E7%BC%96%E5%8F%B7%EF%BC%9A5D4190
资料以网页介绍的为准,下载后不会有水印.资料仅供学习参考之用. 帮助
资料介绍

摘  要:随着Internet的迅速发展,Internet上的信息成指数增长。由于网络信息资源的飞速增加,给人们在网上寻找所需信息带来了很大的困难。搜索引擎的出现增强了人们收集和定位所需信息的能力,能够帮助人们迅速找到所需要的信息。以后的几年里搜索引擎技术开始不断的发展,Internet上的搜索引擎数量也是急剧的增加,基于Internet的搜索引擎技术成为了研究的热点。 随着搜索引擎应用的广泛化,人们对于搜索引擎的要求也越来越高,查准率和查全率成为衡量搜索引擎的新标准,无用信息的过滤成为人们开始关注的问题。
如今搜索引擎不仅仅考虑能够搜索信息,还要考虑最快速的获取用户所需要的信息。本文针对搜索的特点研究了搜索引擎的构建技术,包括从网页文档抓取、解析、再到建立索引、发布搜索、用户界面搭建的全过程,并基于开源的Lucene软件包实现了一个原型系统,取得了较好的搜索效果.
本设计说明书主要介绍了本课题的开发意义、完成的功能和开发过程,并着重说明了开发设计的思想、技术难点和解决方案。

关键词:Lucene, 搜索引擎, Internet, 爬虫
 
毕业设计(论文)外文摘要

The research and development of  Web Search Engine

Abstract: With the fast development of Internet, the information of it growing very rapidly. Because of it, it is very difficult for people to search the information they need. Search engine improves the people’s ability to collect and locate the useful information and help them to find the information the need rapidly. In the following several years the technology of search engine begins developing continually, the amount of search engine system grows very rapidly, the technology of search engine system basing on the internet has become a hot research. Along with search engine application widespread, people are also getting higher and higher regarding search engine's request, the accuracy ratio and the recall become new standard weigh search engine, and people began to become concerned about filtering the information that is useless.
Now the search engine have  to consider not only it can searches information, but also the fastest access to the information that users need . This paper studies the characteristics of search engines to build the search technology, including crawling documents from the web site, parsing, and then indexing, publishing search, building  the user interface to the entire process, and  basing on  the Lucene open-source software package to realize the  prototype system in order to obtain a better search results.
This design instruction mainly introduce the significance of develop this subject , the function and the development process and highlighted the development of design ideas, technical problems and solutions.

Keywords: Lucene;Search Engine;Internet;Crawl

各章内容简介
本文共分为六章。
第1章引言部分,这部分主要讲述课题的研究背景及意义、课题内容简介、问题的定义与调研、可行性分析和论文各章介绍。
第2章主要内容是:系统需求分析包括,系统的综合需求分析、业务需求分析、数据需求分析。
第3章主要内容是:系统设计包括,系统总体功能结构、系统开发环境与运行环境设计。
第4章主要内容是:模块详细设计包括,爬虫程序模块设计及、预处理模块设计、信息查询服务模块设计(部分代码设计)。
第5章主要内容是:用户使用手册包括,系统功能简介、系统功能与运行环境、系统运行与操作指南。
第6章主要内容是:系统评价包括,系统特色/优点介绍、系统存在的不足与改进方案、毕业设计心得与体会。
最后还有结论、致谢、参考资料等内容的介绍。

系统功能简介
网络搜索引擎主要完成的功能有爬虫程序爬取网页;对爬取下来的网页进行预处理,建立倒排索引;用户输入关键字进行搜索能返回搜索结果。
(1) 爬虫程序抓取网页:网页搜集的过程是从URL库(初始时包含用户指定的起始种子URL集合,可以是1个或多个,本程序使用1个)获得输入,解析URL中标明的Web服务器地址、建立连接、发送请求和接收数据,将获得的网页数据存储在原始网页库,并从其中提取出链接信息放入网页结构库,同时将待抓取的URL放入URL库,循环这个过程,直到URL库为空。接着把url对应的网页爬取下来。这个功能是本搜索引擎的基础,只有完成了这个功能,后面的功能模块才能顺利完成。使用这个程序时需先输入一个URL并单击“Begin”按钮,程序开始之后,“Begin”按钮会变成“Cancel”按钮。在程序扫描网站期间,会在“Cancel”按钮之下显示进度,且在检查当前网页时,也会显示相关正常链接与死链接的数目,死链接将显示在程序底部的滚动文本框中。单击“Cancel”按钮会停止扫描过程,之后可以输入一个新的URL;如果期间没有单击“Cancel”,程序将会一直运行直到查找完所有网页,此后,“Cancel”按钮会再次变回“Begin”,表示程序已停止。
(2) 预处理:预处理模块主要有两个功能,其一是提取出文本信息,其二是建立倒排索引,这个模块功能实现的好坏直接关系到搜索引擎的性能,这个模块功能的实现主要使用了LUCENE全文索引包和HTMLParser的JAR包。LUCENE全文索引效率高而且实用性强。使用这个程序需正确的输入html页面保存的路径、TXT文件保存的路径和INDEX保存的路径。
(3) 信息查询服务:这个模块采用JSP和MYSQL搭建了一个搜索平台,用户输入搜索关键字可以返回搜索结果,同时,用户还可以注册登陆留言板,对本系统提出意见或建议。使用这个程序只要正确输入索引的路径,即可正确实现本模块的功能。

系统特色
系统特色如下:
(1) 很强的实用性:伴随着web2.0的普及,网络信息的膨胀速度呈指数急速增长,各种各样的网站都需要加入检索功能,以满足用户的需要。另外,在企业级应用的市场上,全文信息检索的需求也一直在增加,各种文档处理,各种文档处理,内容管理软件都需要加入全文检索的功能,因此,在这样的背景下,开发一个网络搜索引擎具有很强的实用性。
(2) 操作性好。本系统操作起来方便,只要看用户的操作指南就可以对该搜索引擎的用法有很好的了解,无需学习其他的知识。
(3) 与用户有较好的交互性:本网络搜索引擎带有留言板,用户可以对本搜索引擎提出自己的建议和意见
(4) 较短的信息检索的响应时间:该系统使用LUCENE的API建立倒排索引,使得检索具有较高的效率,能在用户所能接受的时间内返回搜索结果
(5) 功能性强:本系统是根据网络搜索引擎的需要进行设计和开发的。从爬虫到用户界面的整个过程功能完整,整个功能强大,综合性强、扩展性好。

本系统通过IE就可以运行。所有用户都可以搜索信息,注册用户可以不仅可以搜索信息还可以留言
用户操作步骤为:
(1)运行程序,进入主页面,可以进行搜索信息
(2)点击用户注册,填写信息提交到数据库
(3)用户登录,系统会检测用户名和密码是否正确,正确则能完成登陆。
(5)登录后可以搜索信息,输入关键字点击搜索,也可以点击留言板进行留言。
(6)EMAIL TO站长:用户可以点击EMAIL TO站长给站长发邮件

统运行环境
硬件环境需求:
服务器端:推荐配置为内存512M,CPU为Intel Pentium Ⅳ 2.0GHz以上,硬盘容量为80G的微机。
客户端:普通PC机即可。
通信网络:Internet 
软件环境需求:
服务器端:
操作系统:Windows 2000/2003 Server/ XP
开发平台:eclipse、MYSQL
WEB服务器:tomcat
客户端:
操作系统:Windows2000/XP/2003等
浏览器:Internet Explorer6.0以上或Maxthon或FireFox等















1 引言 6
1.1 课题的研究背景与意义 6
1.1.1 课题的研究背景 6
1.1.2 课题的研究意义 7
1.2 问题的定义及内容简介 8
1.2.1 问题的定义 8
1.2.2 问题的内容简介 8
1.3 问题的调研 10
1.4 系统可行性分析 10
1.4.1 技术可行性 10
1.4.2 操作可行性 11
1.4.3 经济可行性 11
1.4.4 法律可行性 11
1.5 各章内容简介 11
(优秀毕业设计:www.2bysj.cn)
2 需求分析 13
2.1 系统的综合需求分析 13
2.1.1 用户需求 13
2.1.2 功能需求 13
2.1.3 其他需求 14
2.2 业务需求分析 14
2.3 数据需求分析 15
2.3.1 数据流分析 15
2.3.2 数据字典 17
3 系统设计 21
3.1 系统总体功能结构 21
3.2 系统开发环境与运行环境设计 22
3.2.1 系统开发环境 22
3.2.2 系统运行环境 24
4 系统主要模块设计 24
4.1 爬虫程序模块 24
4.1.1 设计爬虫界面 25
4.1.2 爬虫算法 27
4.1.3 遇到的主要问题和解决的办法 38
4.2 预处理模块 38
4.2.1 提取文本信息 38
4.2.2 Lucene索引的建立 41
4.2.3 遇到的主要问题和解决的办法 47
4.3 信息查询服务模块 47
4.3.1 什么是基于Tomcat的Web服务器 47
4.3.2 客户端设计 48
4.3.3 服务端设计 50
4.3.4 遇到的主要问题和解决的办法 52
5 用户使用手册 53
5.1 系统功能与运行环境 53
5.1.1 系统功能简介 53
5.1.2 运行环境简介 54
5.2 系统运行和操作指南 54
6 系统评价 55
6.1 系统特色 55
6.2 系统存在的不足 55
6.3 心得和体会 56
结  论 57
致  谢 58
参 考 文 献 59

附表清单:
表 1信息查询服务模块数据字典 19
表 2  爬虫程序模块数据字典 20
表 3  预处理模块数据字典 20

推荐资料