LinuxSir.cn,穿越时空的Linuxsir!

 找回密码
 注册
搜索
热搜: shell linux mysql
查看: 6283|回复: 15

[原创] 用Gentoo+VMWare+OpenPBS/Torque+MPICH构建虚拟集群HPC环境

[复制链接]
发表于 2007-12-25 00:56:11 | 显示全部楼层 |阅读模式
[color="Red"]by soloforce@linuxsir.cn 2007.12.25
欢迎转载,但请务必保留作者署名及版权信息

本文介绍了在一台装有Gentoo Linux的PC上构建虚拟集群HPC环境的方法。没有物理集群条件的同学可以在此虚拟环境下进行有限的仿真练习,如MPI编程。注意,除非你的PC拥有4CPU甚至更多,虚拟集群下的并行程序的效率可能比单机下的串行程序效率还低,原因是显而易见的。

[color="Red"]一、准备工作
[color="Blue"]1、硬件配置
虽然是PC,但配置不能太差。推荐07年主流CPU、1G以上内存,或者更好的硬件如笔者的机器(AMD Athlon x2 3600+ OC 2.5G, 4G DDR2 667)可以让一个拥有5节点虚拟环境运行得很流畅。 另外,至少准备20G的硬盘空间用来安装vmware虚拟机。
[color="Blue"]
2、软件配置
在 gentoo linux 下,需要的软件包括vmware-workstation,torque,mpich,openssh,这些都可以在portage中直接emerge,非常方便。我们称物理主机为host(对应集群中的head-node),虚拟机为guest(对应集群中的execution-node)。为了快速构建集群,host和guest都统一用gentoo linux,这不是必须的,因为集群结点完全可以异构。

torque是基于OpenPBS的资源管理、作业分派调度的套件。像OpenPBS一样,包含四个组件:PBS命令解析、pbs_server、pbs_sched、pbs_mom,作用分别是解析PBS作业脚本、创建维护作业、调度作业、创建和维护执行进程。

mpich则是遵循MPI规范的一套最重要的MPI库实现,应用非常广泛,在诸多平台下均得到良好支持。gentoo linux的portage中有mpich version 1和mpich version 2,对应MPI规范的不同版本,本文采用前者。

[color="Red"]二、安装软件
[color="Blue"]1、先介绍host下的软件安装:
a、安装 vmware-workstation

  1. # emerge -av vmware-workstation
复制代码


b、安装torque

  1. # echo "sys-cluster/torque server" >> /etc/portage/package.use
  2. # emerge -av torque
复制代码


c、安装mpich version 1

  1. # emerge -av mpi
复制代码


d、安装openssh并启用ssh服务

  1. # emerge -av openssh
  2. # /etc/init.d/sshd start
复制代码

[color="Blue"]2、然后是guest下的软件安装:
如何在vmware-workstation中安装gentoo linux不在本文赘述,唯一建议是用gentoo-minimal.iso进行最小化安装,然后升级(虚拟机也要与时俱进,尽管过程是痛苦的),最后来个clone**──vmware对这个很在行,于是就有了3个或者更多的虚拟gentoo(或称为虚拟结点),欢畅地运行着──注意,虚拟机超过PC处理器节点数越多就越会降低集群的效率!在你的忍受极限与集群结点个数间做个权衡折中吧。

a、安装torque

  1. # emerge -av torque
复制代码


b、安装mpich version 1

  1. # emerge -av mpi
复制代码


c、安装openssh并启用ssh服务

  1. # emerge -av openssh
  2. # /etc/init.d/sshd start
复制代码



[color="Red"]三、集群外围环境配置
[color="Blue"]1、机器名字的设置
torque的各节点通信时,采用各节点的域名(完整的或者简化的)作为节点代号,而mpich则采用FQDN(Fully Qualified Domain Name)对节点进行标识。我们要注意的torque对节点代号的使用,如 "headnode.mycluster.org" 与 "headnode" 尽管是标识同一个节点,但在通信方面则会有不同结果,这主要是因为ssh的密钥验证机制。

笔者构建了5个虚拟gentoo(虚拟节点),分别命名为 gentoo1.mycluster.org ... gentoo5.mycluster.org; 物理主机host则命名为 server.mycluster.org。为描述方便,各节点分别为简称server、gentoox。若因构建一个虚拟集群而架设一台DNS显得不太明智,最好的办法是把各节点的域名写入 /etc/hosts 文件,如:

在server上有:
# cat /etc/hosts
...
127.0.0.1        server.mycluster.org server
10.0.1.11        gentoo1.mycluster.org gentoo1
10.0.1.12        gentoo2.mycluster.org gentoo2
10.0.1.13        gentoo3.mycluster.org gentoo3
10.0.1.14        gentoo4.mycluster.org gentoo4
10.0.1.15        gentoo5.mycluster.org gentoo5
...


在gentoo1上有:
# cat /etc/hosts
...
127.0.0.1        gentoo1.mycluster.org gentoo1
10.0.1.1        server.mycluster.org server
10.0.1.12        gentoo2.mycluster.org gentoo2
10.0.1.13        gentoo3.mycluster.org gentoo3
10.0.1.14        gentoo4.mycluster.org gentoo4
10.0.1.15        gentoo5.mycluster.org gentoo5
...

其他虚拟节点与gentoo1类似。最后,可以用ping来测试全部节点的互联情况,确保全部节点均彼此连同。
[color="Blue"]
2、ssh 无密码验证配置
torque的采用无须密码验证的ssh会话来传送文件、返回结果等。因此可以采用RSA、DSA密钥简化ssh验证。另外,要注意的是,对不同的用户账号,都要重新设定ssh密钥。

以普通用户cluster-user身份在server和全部gentoox节点下执行:

  1. cluster-user@server$ ssh-key
  2. Generating public/private rsa key pair.
  3. Enter file in which to save the key (/home/cluster-user/.ssh/id_rsa): <直接按回车>
  4. Enter passphrase (empty for no passphrase): <直接按回车>
  5. Enter same passphrase again: <直接按回车>
  6. Your identification has been saved in /home/cluster-user/.ssh/id_rsa.
  7. Your public key has been saved in /home/cluster-user/.ssh/id_rsa.pub.
  8. The key fingerprint is:
  9. 34:82:91:78:c1:cd:ef:a2:49:da:3a:f3:92:d9:21:c7 cluster-user@server
复制代码


然后把生成的RSA公钥拷贝到所有其他节点上,包括server和gentoox,这很重要。下面是把server的RSA公钥通过scp传送到gentoox节点的过程。

  1. cluster-user@server$ scp .ssh/id_rsa.pub gentoo1:<注意此处用的是简称>
  2. <要输入密码>
  3. cluster-user@server$ scp .ssh/id_rsa.pub gentoo2:<注意此处用的是简称>
  4. ...
  5. cluster-user@server$ scp .ssh/id_rsa.pub gentoo5:<注意此处用的是简称>
  6. <要输入密码>
复制代码

然后在gentoox下执行:

  1. cluster-users@gentoo1$ cat id_rsa.pub >> .ssh/authorized_keys
复制代码

这样,server就能够无密码ssh登录到gentoox上了,但gentoox则还不能如此登录到server,故还要反向再做一次类似动作。这是一个简单而枯燥的过程,任意两个节点包括server,都必须彼此实现无密码ssh登录。

[color="Red"]四、集群核心配置
emerge好torque后,就可以配置torque了,所有的配置文件默认在 /var/spool/torque/ 下面。
[color="Blue"]1、gentoox上的torque配置
很简单,只有一个文件需要修改:

  1. gentoo1# cat /var/spool/torque/mom_priv/config
  2. arch        x86
  3. opsys        Gentoo Linux 2007.0
  4. $pbsserver        server.mycluster.org <pbs_server的名字,很重要>
  5. $logevent        255
复制代码

然后就可以启动 pbs_mom了:

  1. gentoo1# /etc/init.d/pbs_mom start
复制代码

[color="Blue"]
2、server上的torque配置
我们先查看pbs_server的名字:

  1. server# cat /var/spool/torque/server_name
  2. server.mycluster.org
复制代码

首次执行pbs_server,并创建第一个作业队列:

  1. server# pbs_server -t create <首次执行时才需要 -t create>
  2. server# qmgr
  3. Max open servers: 4
  4. Qmgr:set server operators = root@server.mycluster.org <添加管理员>
  5. Qmgr:set server operators += cluster-user@server.mycluster.org
  6. Qmgr:create queue batch <创建第一个作业队列>
  7. Qmgr:set queue batch queue_type = Execution <设置作业队列类型>
  8. Qmgr:set queue batch started = True <启用作业队列>
  9. Qmgr:set queue batch enabled = True
  10. Qmgr:set server default_queue = batch
  11. Qmgr:set server resources_default.nodes = 1
  12. Qmgr:set server scheduling = True
复制代码

把execution nodes全部加入到pbs_server的节点列表中:

  1. server# cat /var/spool/torque/server_priv/nodes
  2. gentoo1  <注意此处用的是简称,与上面创建ssh RSA密钥时一致>
  3. gentoo2
  4. gentoo3
  5. gentoo4
  6. gentoo5
复制代码

接着可以重启 pbs_server 和 pbs_sched 了:

  1. server# qterm -t quick
  2. server# /etc/init.d/pbs_server start
  3. server# /etc/init.d/pbs_sched start
复制代码

然后可以查看全部节点的运行状态:

  1. $ pbsnodes
  2. gentoo1
  3.      state = free
  4.      np = 1
  5.      ntype = cluster
  6.      status = arch=x86,opsys=Gentoo Linux 2007.0,uname=Linux gentoo1 2.6.23-gentoo-r4 #7 SMP Sat Dec 22 06:36:46 CST 2007 i686,sessions=5986 6702,nsessions=2,nusers=1,idletime=18439,totmem=1012952kb,availmem=999868kb,physmem=125136kb,ncpus=1,loadave=0.00,netload=51290737,state=free,jobs=,varattr=,rectime=1198513228

  7. gentoo2
  8.      state = free
  9.      np = 1
  10.      ntype = cluster
  11.      status = arch=x86,opsys=Gentoo Linux 2007.0,uname=Linux gentoo2 2.6.23-gentoo-r4 #7 SMP Sat Dec 22 06:36:46 CST 2007 i686,sessions=3987 9062 9394,nsessions=3,nusers=1,idletime=28617,totmem=1012952kb,availmem=998484kb,physmem=125136kb,ncpus=1,loadave=0.00,netload=50520768,state=free,jobs=,varattr=,rectime=1198513270
  12. ...
复制代码

查看队列则可以用qstat命令,还可以执行qmgr后再执行交互式命令对torque进行设置,具体命令参数请查看相关文档,此处不再赘述。至此,虚拟集群已经构建完毕。
[color="Red"]
五、虚拟环境中的HPC
因为是单台PC上的虚拟集群,那么所谓HPC就名不副实了。不要太贪心,事情总要一步一步地做,先在虚拟集群上练练手,等熟悉后就可以在物理集群上大展身手搞HPC了。因为篇幅和版面讨论内容限制,本文仅仅简单介绍集群下的PBS+MPI并行编程的一个示例,其他事项请自行查阅相关资料,也欢迎与笔者共同探讨。

[color="Blue"]1、编写MPI程序
我们假定需要编写一个程序,求下面的积分:
f(x)=\int_0^1{\frac{4}{1+x^2}dx} <tex脚本>


编写mpich程序如下:

  1. /*
  2. description: integral sample in mpich
  3. file name: integral.c
  4. */
  5. #include "mpi.h"
  6. #include <stdio.h>
  7. #include <string.h>

  8. double integral(int id, double stride)
  9. {
  10.     double dx=0.0000000001;
  11.     double result=0;
  12.     double x;
  13.     for(x=id*stride;x<(id+1)*stride;x+=dx)
  14.     {
  15.         result+=dx/(1+x*x);
  16.     }
  17.     return result;
  18. }



  19. int main(int argc, char* argv[])
  20. {
  21.     double sum0,sum1,sum2,sum3,sum4;
  22.     MPI_Status status;
  23.     int myid,numprocs;
  24.     double stride=1.0/5;
  25.     char processor_name[MPI_MAX_PROCESSOR_NAME];
  26.     int namelen;

  27.     MPI_Init(&argc, &argv);
  28.     MPI_Comm_rank(MPI_COMM_WORLD,&myid);
  29.    
  30.     MPI_Comm_size(MPI_COMM_WORLD,&numprocs);
  31.     if(myid==0)
  32.     {   
  33.         sum0=integral(myid,stride);
  34.         MPI_Send(&sum0,1,MPI_DOUBLE,1,99,MPI_COMM_WORLD);        
  35.         MPI_Get_processor_name(processor_name,&namelen);
  36.         printf("Process %d of %d on %s finished\n",myid,numprocs,processor_name);
  37.     }
  38.     else if(myid==1)
  39.     {
  40.         sum1=integral(myid,stride);
  41.         MPI_Recv(&sum0,1,MPI_DOUBLE,0,99,MPI_COMM_WORLD,&status);
  42.         sum1+=sum0;
  43.         MPI_Send(&sum1,1,MPI_DOUBLE,2,99,MPI_COMM_WORLD);
  44.         MPI_Get_processor_name(processor_name,&namelen);
  45.         printf("Process %d of %d on %s finished\n",myid,numprocs,processor_name);
  46.     }
  47.     else if(myid==2)
  48.     {
  49.         sum2=integral(myid,stride);
  50.         MPI_Recv(&sum1,1,MPI_DOUBLE,1,99,MPI_COMM_WORLD,&status);
  51.         sum2+=sum1;
  52.         MPI_Send(&sum2,1,MPI_DOUBLE,3,99,MPI_COMM_WORLD);
  53.         MPI_Get_processor_name(processor_name,&namelen);
  54.         printf("Process %d of %d on %s finished\n",myid,numprocs,processor_name);
  55.     }
  56.     else if(myid==3)
  57.     {
  58.         sum3=integral(myid,stride);
  59.         MPI_Recv(&sum2,1,MPI_DOUBLE,2,99,MPI_COMM_WORLD,&status);
  60.         sum3+=sum2;
  61.         MPI_Send(&sum3,1,MPI_DOUBLE,4,99,MPI_COMM_WORLD);
  62.         MPI_Get_processor_name(processor_name,&namelen);
  63.         printf("Process %d of %d on %s finished\n",myid,numprocs,processor_name);
  64.         
  65.     }
  66.     else if(myid==4)
  67.     {
  68.         sum4=integral(myid,stride);
  69.         MPI_Recv(&sum3,1,MPI_DOUBLE,3,99,MPI_COMM_WORLD,&status);
  70.         sum4+=sum3;
  71.         sum4=sum4*4;
  72.         MPI_Get_processor_name(processor_name,&namelen);
  73.         printf("Process %d of %d on %s finished\n",myid,numprocs,processor_name);
  74.         printf("result is %.6lf\n",sum4);
  75.     }

  76.     MPI_Finalize();
  77. }
复制代码

编译、链接,生成可执行文件a.out:

  1. cluster-user@server ~/jobs$ gcc integral.c -lmpich
复制代码

[color="Blue"]2、编写PBS脚本
上述MPI程序使用了5个节点,故编写PBS脚本myjob如下:

  1. #PBS -N myjob
  2. #PBS -l nodes=5,walltime=10:00
  3. #PBS -S /bin/bash
  4. #PBS -q batch

  5. nodes=$(cat $PBS_NODEFILE)

  6. echo "Nodes allocated in job $PBS_JOBID"
  7. echo "------------------------------------------"
  8. echo "$nodes"
  9. echo

  10. ## copy a.out to every nodes
  11. for node in $nodes ;do
  12. scp server.mycluster.org:~/jobs/a.out $node:~/jobs/a.out
  13. done

  14. echo "Starting job $PBS_JOBID on $(hostname)"
  15. echo "---------------------------------------------"

  16. cd ~/jobs/
  17. mpirun -machinefile $PBS_NODEFILE -np 5 a.out
复制代码

[color="Blue"]3、提交作业
cluster-user@server$ qsub myjob

[color="Blue"]4、查看结果

  1. ~/jobs $ cat myjob.o31
  2. Nodes allocated in job 31.server.mycluster.org
  3. ------------------------------------------
  4. gentoo5
  5. gentoo4
  6. gentoo3
  7. gentoo2
  8. gentoo1

  9. Starting job 31.server.mycluster.org on gentoo5
  10. ---------------------------------------------
  11. Process 1 of 5 on gentoo4.mycluster.org finished
  12. Process 2 of 5 on gentoo3.mycluster.org finished
  13. Process 4 of 5 on gentoo1.mycluster.org finished
  14. result is 3.141592
  15. Process 3 of 5 on gentoo2.mycluster.org finished
  16. Process 0 of 5 on gentoo5.mycluster.org finished
复制代码


结果是f(x)=3.141592,即为所求积分答案。


[color="Red"]六、结语
本文简要介绍了在gentoo linux下实现虚拟集群的外围环境、配置方法和步骤,并简要给出PBS+MPI的编程实例,希望对爱好集群和HPC的初学者有所帮助。本文也是目前在集群构建方面的初级读物中较为详细和全面的一篇文章。

参考链接:
http://www.clusterresources.com/ ... =torque:torque_wiki

[color="Red"]by soloforce@linuxsir.cn 2007.12.25 临晨
发表于 2007-12-25 01:32:35 | 显示全部楼层
精品啊!
加精
回复 支持 反对

使用道具 举报

发表于 2007-12-25 02:12:26 | 显示全部楼层
我是罗莉控:-)
回复 支持 反对

使用道具 举报

发表于 2007-12-25 11:17:45 | 显示全部楼层
骨灰级精品文章,先收藏先
gentoo的版的其他版主好像很少现身
回复 支持 反对

使用道具 举报

发表于 2007-12-25 19:34:42 | 显示全部楼层
版主就是比俺们识货,俺都不知道hpc是啥玩意
回复 支持 反对

使用道具 举报

发表于 2007-12-25 21:31:23 | 显示全部楼层
看来我的配置也不够呀。
回复 支持 反对

使用道具 举报

 楼主| 发表于 2007-12-25 22:08:41 | 显示全部楼层
7dehao兄的配置足够好啦。
虚拟minimal gentoo linux内存占用64~128就足够了,cpu占用也不会太夸张;1G内存跑5个以下节点没什么问题。不过10个节点的话,即使4G mem够用,cpu也会比较累。节点个数主要看应用需要而定了。
回复 支持 反对

使用道具 举报

发表于 2007-12-26 12:17:33 | 显示全部楼层
好文章~~~
回复 支持 反对

使用道具 举报

发表于 2008-5-31 05:52:31 | 显示全部楼层
太好了,我按照楼主的方面在我的机群上面用起了torque2.1.8。

不过有个问题,我每个节点都有4个cpu(核心),我基本上是照你的做法做的。每个节点只能用上一个cpu,我不知道节点的cpu数是在什么地方控制?在qmgr里面还是在那个/var/spool/torque/server_priv/nodes文件下动手脚?

谢谢了!
回复 支持 反对

使用道具 举报

发表于 2008-5-31 07:00:19 | 显示全部楼层
Post by yangjio4849;1857120
太好了,我按照楼主的方面在我的机群上面用起了torque2.1.8。

不过有个问题,我每个节点都有4个cpu(核心),我基本上是照你的做法做的。每个节点只能用上一个cpu,我不知道节点的cpu数是在什么地方控制?在qmgr里面还是在那个/var/spool/torque/server_priv/nodes文件下动手脚?

谢谢了!


自己搞定了,就在nodes里面,每个节点名后加上np=4就行了。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

快速回复 返回顶部 返回列表