由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
StartUp版 - 想搭一个搜索引擎,哪种open source的crawler最好? (转载)
相关主题
问一个专业领域的搜索引擎构建问题eBay和Amazon的类pinterest可视化搜索引擎 (转载)
http://blekko.com/百度工程师鬼节捉鬼 360浏览器抓取隐私现形
问个特种搜索引擎的问题Building H1B visa job 搜索引擎?
利用搜索引擎找国外的客户的方法mitEbiz是本版哪位高人做的?
SEO 就那么有用吗?Nutch vs Lucene
百度为何能打败中国其他的搜索引擎公司?做了个job search网站
我做的网站大家给参谋一下,怎样推广网站
请推荐一个搜索引擎排名的监控工具/网站诚问: 本地机器上的java based文件搜索如何卖钱?
相关话题的讨论汇总
话题: crawler话题: 搜索引擎话题: heritrix话题: lucence话题: source
进入StartUp版参与讨论
1 (共1页)
t**********g
发帖数: 3388
1
【 以下文字转载自 SanFrancisco 讨论区 】
发信人: thanksgiving (~灯红酒绿的上海~), 信区: SanFrancisco
标 题: 想搭一个搜索引擎,哪种open source的crawler最好?
发信站: BBS 未名空间站 (Thu Jul 30 02:04:33 2009, 美东)
找到一些,没有idea哪一种crawler最好?
http://www.cnblogs.com/leshem/archive/2008/10/26/1319784.html
w*****e
发帖数: 748
2
Heritrix 和nutch 比较好,可以抓大量的东西. 设置和使用比较简单. 很多小公司都用
这两个.
有个web-harvest 支持比较复杂的query, 比如抓论坛blog等等,比较方便. 但是设置本
身跟一个小语言差不多, 有点编程基础的,还不如自己用Jspider 或者nutch啥的改改.

【在 t**********g 的大作中提到】
: 【 以下文字转载自 SanFrancisco 讨论区 】
: 发信人: thanksgiving (~灯红酒绿的上海~), 信区: SanFrancisco
: 标 题: 想搭一个搜索引擎,哪种open source的crawler最好?
: 发信站: BBS 未名空间站 (Thu Jul 30 02:04:33 2009, 美东)
: 找到一些,没有idea哪一种crawler最好?
: http://www.cnblogs.com/leshem/archive/2008/10/26/1319784.html

I******T
发帖数: 671
3
有没有基于微软技术的open source搜索引擎?

【在 w*****e 的大作中提到】
: Heritrix 和nutch 比较好,可以抓大量的东西. 设置和使用比较简单. 很多小公司都用
: 这两个.
: 有个web-harvest 支持比较复杂的query, 比如抓论坛blog等等,比较方便. 但是设置本
: 身跟一个小语言差不多, 有点编程基础的,还不如自己用Jspider 或者nutch啥的改改.

t**********g
发帖数: 3388
4
请问您知道lucence么?好像很多人都在lucence + heritrix。这个是干什么的?

【在 w*****e 的大作中提到】
: Heritrix 和nutch 比较好,可以抓大量的东西. 设置和使用比较简单. 很多小公司都用
: 这两个.
: 有个web-harvest 支持比较复杂的query, 比如抓论坛blog等等,比较方便. 但是设置本
: 身跟一个小语言差不多, 有点编程基础的,还不如自己用Jspider 或者nutch啥的改改.

t**********g
发帖数: 3388
5
请问您知道lucence么?好像很多人都在lucence + heritrix。这个是干什么的?

【在 w*****e 的大作中提到】
: Heritrix 和nutch 比较好,可以抓大量的东西. 设置和使用比较简单. 很多小公司都用
: 这两个.
: 有个web-harvest 支持比较复杂的query, 比如抓论坛blog等等,比较方便. 但是设置本
: 身跟一个小语言差不多, 有点编程基础的,还不如自己用Jspider 或者nutch啥的改改.

g********g
发帖数: 2172
6
lucene is an index engine, not a crawler. Heritrix is crawler.

【在 t**********g 的大作中提到】
: 请问您知道lucence么?好像很多人都在lucence + heritrix。这个是干什么的?
j*****g
发帖数: 194
7
昨天我的Logwatch告诉我:“A total of 1 possible successful probes were
detected”,吓我一大跳,马上去服务器亲自查了一下web的log,结果原来是某个网站
用的PHPCrawl爬行过我的服务器而已,虚惊一场。不过说明了一个问题,某些crawler
的行为会被一些服务器的监测软件视为是恶意行为。
w*****e
发帖数: 748
8
有啊,但是好像没有大规模使用和支持的,我知道有人用c# 写了个搜索引擎,但功能
比起lucene之流,差了太多。再说了,微软技术还开源?

【在 I******T 的大作中提到】
: 有没有基于微软技术的open source搜索引擎?
1 (共1页)
进入StartUp版参与讨论
相关主题
诚问: 本地机器上的java based文件搜索如何卖钱?SEO 就那么有用吗?
white hat Vs. black hat百度为何能打败中国其他的搜索引擎公司?
有无办法让网站内容无法被copy, 但搜索引擎又能搜到其文字?我做的网站
飞达设计推出搜索引擎排名实时监控服务请推荐一个搜索引擎排名的监控工具/网站
问一个专业领域的搜索引擎构建问题eBay和Amazon的类pinterest可视化搜索引擎 (转载)
http://blekko.com/百度工程师鬼节捉鬼 360浏览器抓取隐私现形
问个特种搜索引擎的问题Building H1B visa job 搜索引擎?
利用搜索引擎找国外的客户的方法mitEbiz是本版哪位高人做的?
相关话题的讨论汇总
话题: crawler话题: 搜索引擎话题: heritrix话题: lucence话题: source