网络爬虫有哪些功能

2024-12-05 17:42:10

推荐回答（3个）

回答1：

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
----这样看来，网络蜘蛛就是一个爬行程序，一个抓取网页的程序。
功能是从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站，那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。

回答2：

将指定网站上的网页及其相关链接的网页抓取下来，进而可以建立索引，自己做个搜索的功能。Java方面的开源网络爬虫有Heritrix＋Lucene

回答3：

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁，自动索引，模拟程序或者蠕虫。
具体请看http://baike.baidu.com/view/284853.htm