[問題] hp-mpi 平行化運算
目前我們的機房配置是1+5的形式
1台控制節點,其他5台為計算節點
控制節點叫做nodes 254 ; ip 為 192.168.0.254
(也就是命令由控制節點下達,其餘5台只作計算)
其他5台依序命名為:
node1 ; ip 192.168.0.1 ; 2 core *8 =16 cpu
node2 ; ip 192.168.0.2 ; 2 core *4 =8 cpu
node3 ; ip 192.168.0.3 ; 2 core *4 =8 cpu
node4 ; ip 192.168.0.4 ; 4 core *4 =16cpu
node5 ; ip 192.168.0.5 ; 4 core *4 =16 cpu
使用的平行程式為hp-mpi
節點之間我也已經設定ssh免認證訪問了
不過現在執行計算軟體時遇到了一個問題
我可以使用node1執行平行化運算
但是如果選擇將計算執行到除node1外的機器時,
就會出現下列錯誤訊息:
------------------------------------------------------------------------------
Job started on host node2
at Sun Oct 24 03:08:42 2010
expr: syntax error
expr: syntax error
/home/msi/Accelrys/MaterialsStudio50/etc/Gateway/root_default/dsd/../../../../share/bin/create_appfile.sh:
line 74: [: =: unary operator expected
expr: syntax error
expr: syntax error
mpirun: hostname: localhost, ip returned: 127.0.0.1
mpirun: hostname: node1, ip returned: 192.168.0.1
mpirun: Can't talk to a remote host with IP 127.0.0.1
mpirun: Change hostname or check IP configuration
------------------------------------------------------------------------------
看這個錯誤訊息似乎是告訴我,似乎不能以127.0.0.1登入各個節點
可是我的控制節點是192.168.0.254
照理說localhost 應該也是 192.168.0.254的ip
為何會使用127.0.0.1登入?
還是說這事其他問題所造成的?
--
永遠不要以為自己考上研究所後有多了不起,
碩一生,充其量也只是去年剛畢業的大學生。
而大學生,也只是會打B的小學生,可以考上高中的國中生,
指考有報名的高中生而已..........
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 220.135.46.10
推
10/24 19:08, , 1F
10/24 19:08, 1F
→
10/24 19:20, , 2F
10/24 19:20, 2F
這是我控制節點底下 /etc/hosts 的內容
#
# hosts This file describes a number of hostname-to-address
# mappings for the TCP/IP subsystem. It is mostly
# used at boot time, when no name servers are running.
# On small systems, this file can be used instead of a
# "named" name server.
# Syntax:
#
# IP-Address Full-Qualified-Hostname Short-Hostname
#
127.0.0.1 localhost
(我剛剛嘗試將這個改成192.168.0.254,可是所有的計算都quen住了)
192.168.0.1 node1
192.168.0.2 node2
192.168.0.3 node3
192.168.0.4 node4
192.168.0.5 node5
192.168.0.6 node6
192.168.0.7 node7
192.168.0.8 node8
192.168.0.254 node254
--------------------------------------------------------------------------
不好意思,我已經自行解決了。
原來是除節點1以外其他的節點間免認證訪問出了問題
重新設定後就解決了。
※ 編輯: sexyrickysky 來自: 220.135.46.10 (10/24 20:44)
Linux 近期熱門文章
PTT數位生活區 即時熱門文章