-
Recent Posts
Recent Comments
- travl on 分布式搜索引擎技术的实现-开篇
- 钟 子昌 on 开始Hadoop
- libkorea on 开始Hadoop
- NKZ on 用Hadoop搭建分布式存储和分布式运算集群
- Cherife on 又庆祝六一儿童节le
Archives
Categories
Meta
Category Archives: 分布式系统与并行运算
Map 和 Reduce 操作是如何完成的
简介 这篇文章是描述Hadoop中的 Map和Reduce操作是如何完成的。如果你不了解map/reduce,可以先阅读Google的MapReduce编程模型文档。 Map 出于Map操作是并行性,输入的文件集将被分割成多块,这里叫 Filesplit 。如果某个文件过大而影响查找速度,那么它也会被分割成多块。分割操作是不会关心文件的内部逻辑结构的,例如面向文本的的分割是以任意字节数作为分割边界。对应每一个文件分割块,生成一个map任务。 当一个独立的map任务启动,它将对每个已配置的reduce任务打开一个相应的 output writer 。然后,从指定的 InputFormat 中获得 RecordReader 来读取它所有的 FileSplit 。InputFormat 分析输入,生成键值对(key-value pairs)。有些记录在FileSplit的边界处分割,InputFormat 必须能处理这些特殊的记录。例如,使用 TextInputFormat 读取到 FileSplit 的最后一行时会越过 FileSplit边界,同时,如果不是第一个FileSplit ,TextInputFormat 会忽略到新的第一行的内容。 没有必要一定让 InputFormat 同时生成有意义的 keys 和 valus 。例如 TextInputFormat 缺省的输出是由 文本行 为值 ,行开始的文件偏移量为键-大多数的应用仅使用文本行,而忽略掉偏移值。 键值对从 … Continue reading
ibm发布支持mapreduce开发框架的eclipse插件
IBM MapReduce Tools for Eclipse 是一个插件,支持在Eclipse内创建MapReduce应用。 它使用 Hadoop 开源 MapReduce框架, 可以在普通机器组成的大型集群上,运行数据密集型应用程序。 这个Eclipse插件支持一下的特征: • 以 Jar 文件的方式打包和部署Java项目到一个Hadoop服务器(本地或者远程); • 辅助开发过程的cheat sheets; • 独立的视角,观看 Hadoop服务器,Hadoop分布式文件系统和当前job状态; • 提供向导,促进基于MapReduce框架的类的开发。 他如何工作? 插件自动创建包含支持开发和测试Hadoop库的项目。同时提供MapReduce驱动的模板。项目完成后,插件使用SCP(安全拷贝)来发布代码到一个Hadoop服务器,然后通过SSH(安全Shell)远程执行。执行期间,插件通过HTTP协议与Hadoop任务跟踪器通信来显示job状态。 IBM MapReduce Tools for Eclipse 是一个插件,支持在Eclipse内创建MapReduce应用。 它使用 Hadoop 开源 MapReduce框架, 可以在普通机器组成的大型集群上,运行数据密集型应用程序。 这个Eclipse插件支持一下的特征: • 以 … Continue reading
Posted in 分布式系统与并行运算, 开发工具
Leave a comment
用Hadoop搭建分布式存储和分布式运算集群
1.硬件和软件环境 普通PC,要求: cpu: 750M-1G mem: >128M disk: >10G 不需要太昂贵的机器。 机器名: finewine01 finewine02 finewine03 将finewine01设为主节点,其它的机器为从节点。 linux java 1.6.0 ssh , sshd 运行,用于Hadoop脚本来管理远程守护 rsync 软件同步 ntp 时间同步 2. 下载和生成 从这里checkout,我选择trunk http://svn.apache.org/repos/asf/lucene/hadoop/ 使用ant进行生成 3. 部署前的准备工作 在主节点的start-all.sh脚本执行后,主节点和从节点的所有服务运行。即这个脚本将启动主节点的服务,并ssh到从所有的节点,继而启动从节点的服务。 start-all.sh这个脚本假定hadoop被安装在所有机器的同一个位置,每一台机器都用同一个路径存放hadoop的数据。 我们需要在每台机器上创建同样的目录结构。 /hadoop /hadoop-install/hadoop-0.10.0 hadoop的0.10.0版的安装位置 /filesystem hadoop文件系统的根 … Continue reading
Posted in 分布式系统与并行运算, 应用平台和系统管理, 开发工具, 搜索引擎
1 Comment
开始Hadoop
+ 下载和安装 设置环境变量 $HADOOP_INSTALL 作为Hadoop的安装目录。 各个版本的hadoop都是安装在$HADOOP_INSTALL这个目录下。 然后在$HADOOP_INSTALL创建一个软连接hadoop连接到指定版本的hadoop。这样运行hadoop的所有工具都是在$HADOOP_INSTALL/hadoop/bin下,所有的配置文件都是放置在$HADOOP_INSTALL/hadoop/conf下。 + 启动脚本 $HADOOP_INSTALL/hadoop/bin目录下包含运行Hadoop DFS 和 Map/Reduce守护的脚本: * start-all.sh 启动所有的Hadoop守护。包括namenode, datanode, jobtracker, tasktrack * stop-all.sh 停止所有的Hadoop。 * start-mapred.sh 启动Map/Reduce守护。包括Jobtracker和Tasktrack。 * stop-mapred.sh 停止Map/Reduce守护 * start-dfs.sh 启动Hadoop DFS守护.Namenode和Datanode * stop-dfs.sh 停止DFS守护 + 配置文件 $HADOOP_INSTALL/hadoop/conf 目录下包含Hadoop的配置文件. * … Continue reading
Posted in 分布式系统与并行运算
4 Comments