Category Archives: 搜索引擎

分布式搜索引擎技术的实现-开篇

最近觉得想看书又没耐心,想炼字却不够专注,想玩乐器怕被邻居骂,金刚经背了一篇,法会因由分… 有机会再读;慧禅法师的讲经看了一会就睡着。还是写写blog最实际。 前段时间将nutch搜索部分改写成能对普通Lucene索引库进行检索的分布式搜索系统,暂时命名为billy。还不知道用来作什么用,搁置一段时间后,决定将我对nutch搜索部分的架构和实现的分析,以及如何将nutch改写成billy的过程写出来,这也能为开源出一点力。接下来的日子里,将慢慢的、随意的写下我对Hadoop 、Lucene4j 、nutch-plugin系统 、rpc 的实现等模块的理解。

Posted in 搜索引擎 | Leave a comment

nutch里面的三角关系

这个模型比较适用于层次式的集群系统

Posted in 搜索引擎 | Leave a comment

用Hadoop搭建分布式存储和分布式运算集群

1.硬件和软件环境 普通PC,要求: cpu: 750M-1G mem: >128M disk: >10G 不需要太昂贵的机器。 机器名: finewine01 finewine02 finewine03 将finewine01设为主节点,其它的机器为从节点。 linux java 1.6.0 ssh , sshd 运行,用于Hadoop脚本来管理远程守护 rsync 软件同步 ntp 时间同步 2. 下载和生成 从这里checkout,我选择trunk http://svn.apache.org/repos/asf/lucene/hadoop/ 使用ant进行生成 3. 部署前的准备工作 在主节点的start-all.sh脚本执行后,主节点和从节点的所有服务运行。即这个脚本将启动主节点的服务,并ssh到从所有的节点,继而启动从节点的服务。 start-all.sh这个脚本假定hadoop被安装在所有机器的同一个位置,每一台机器都用同一个路径存放hadoop的数据。 我们需要在每台机器上创建同样的目录结构。 /hadoop /hadoop-install/hadoop-0.10.0 hadoop的0.10.0版的安装位置 /filesystem hadoop文件系统的根 … Continue reading

Posted in 分布式系统与并行运算, 应用平台和系统管理, 开发工具, 搜索引擎 | Leave a comment