t**********g 发帖数: 3388 | 1 【 以下文字转载自 SanFrancisco 讨论区 】
发信人: thanksgiving (~灯红酒绿的上海~), 信区: SanFrancisco
标 题: 想搭一个搜索引擎,哪种open source的crawler最好?
发信站: BBS 未名空间站 (Thu Jul 30 02:04:33 2009, 美东)
找到一些,没有idea哪一种crawler最好?
http://www.cnblogs.com/leshem/archive/2008/10/26/1319784.html | w*****e 发帖数: 748 | 2 Heritrix 和nutch 比较好,可以抓大量的东西. 设置和使用比较简单. 很多小公司都用
这两个.
有个web-harvest 支持比较复杂的query, 比如抓论坛blog等等,比较方便. 但是设置本
身跟一个小语言差不多, 有点编程基础的,还不如自己用Jspider 或者nutch啥的改改.
【在 t**********g 的大作中提到】 : 【 以下文字转载自 SanFrancisco 讨论区 】 : 发信人: thanksgiving (~灯红酒绿的上海~), 信区: SanFrancisco : 标 题: 想搭一个搜索引擎,哪种open source的crawler最好? : 发信站: BBS 未名空间站 (Thu Jul 30 02:04:33 2009, 美东) : 找到一些,没有idea哪一种crawler最好? : http://www.cnblogs.com/leshem/archive/2008/10/26/1319784.html
| I******T 发帖数: 671 | 3 有没有基于微软技术的open source搜索引擎?
【在 w*****e 的大作中提到】 : Heritrix 和nutch 比较好,可以抓大量的东西. 设置和使用比较简单. 很多小公司都用 : 这两个. : 有个web-harvest 支持比较复杂的query, 比如抓论坛blog等等,比较方便. 但是设置本 : 身跟一个小语言差不多, 有点编程基础的,还不如自己用Jspider 或者nutch啥的改改.
| t**********g 发帖数: 3388 | 4 请问您知道lucence么?好像很多人都在lucence + heritrix。这个是干什么的?
【在 w*****e 的大作中提到】 : Heritrix 和nutch 比较好,可以抓大量的东西. 设置和使用比较简单. 很多小公司都用 : 这两个. : 有个web-harvest 支持比较复杂的query, 比如抓论坛blog等等,比较方便. 但是设置本 : 身跟一个小语言差不多, 有点编程基础的,还不如自己用Jspider 或者nutch啥的改改.
| t**********g 发帖数: 3388 | 5 请问您知道lucence么?好像很多人都在lucence + heritrix。这个是干什么的?
【在 w*****e 的大作中提到】 : Heritrix 和nutch 比较好,可以抓大量的东西. 设置和使用比较简单. 很多小公司都用 : 这两个. : 有个web-harvest 支持比较复杂的query, 比如抓论坛blog等等,比较方便. 但是设置本 : 身跟一个小语言差不多, 有点编程基础的,还不如自己用Jspider 或者nutch啥的改改.
| g********g 发帖数: 2172 | 6 lucene is an index engine, not a crawler. Heritrix is crawler.
【在 t**********g 的大作中提到】 : 请问您知道lucence么?好像很多人都在lucence + heritrix。这个是干什么的?
| j*****g 发帖数: 194 | 7 昨天我的Logwatch告诉我:“A total of 1 possible successful probes were
detected”,吓我一大跳,马上去服务器亲自查了一下web的log,结果原来是某个网站
用的PHPCrawl爬行过我的服务器而已,虚惊一场。不过说明了一个问题,某些crawler
的行为会被一些服务器的监测软件视为是恶意行为。 | w*****e 发帖数: 748 | 8 有啊,但是好像没有大规模使用和支持的,我知道有人用c# 写了个搜索引擎,但功能
比起lucene之流,差了太多。再说了,微软技术还开源?
【在 I******T 的大作中提到】 : 有没有基于微软技术的open source搜索引擎?
|
|