[問題] hp-mpi 平行化運算

看板Linux作者 (花心只是掩飾內心的空虛)時間15年前 (2010/10/24 16:31), 編輯推噓1(101)
留言2則, 2人參與, 最新討論串1/1
目前我們的機房配置是1+5的形式 1台控制節點,其他5台為計算節點 控制節點叫做nodes 254 ; ip 為 192.168.0.254 (也就是命令由控制節點下達,其餘5台只作計算) 其他5台依序命名為: node1 ; ip 192.168.0.1 ; 2 core *8 =16 cpu node2 ; ip 192.168.0.2 ; 2 core *4 =8 cpu node3 ; ip 192.168.0.3 ; 2 core *4 =8 cpu node4 ; ip 192.168.0.4 ; 4 core *4 =16cpu node5 ; ip 192.168.0.5 ; 4 core *4 =16 cpu 使用的平行程式為hp-mpi 節點之間我也已經設定ssh免認證訪問了 不過現在執行計算軟體時遇到了一個問題 我可以使用node1執行平行化運算 但是如果選擇將計算執行到除node1外的機器時, 就會出現下列錯誤訊息: ------------------------------------------------------------------------------ Job started on host node2 at Sun Oct 24 03:08:42 2010 expr: syntax error expr: syntax error /home/msi/Accelrys/MaterialsStudio50/etc/Gateway/root_default/dsd/../../../../share/bin/create_appfile.sh: line 74: [: =: unary operator expected expr: syntax error expr: syntax error mpirun: hostname: localhost, ip returned: 127.0.0.1 mpirun: hostname: node1, ip returned: 192.168.0.1 mpirun: Can't talk to a remote host with IP 127.0.0.1 mpirun: Change hostname or check IP configuration ------------------------------------------------------------------------------ 看這個錯誤訊息似乎是告訴我,似乎不能以127.0.0.1登入各個節點 可是我的控制節點是192.168.0.254 照理說localhost 應該也是 192.168.0.254的ip 為何會使用127.0.0.1登入? 還是說這事其他問題所造成的? -- 永遠不要以為自己考上研究所後有多了不起, 碩一生,充其量也只是去年剛畢業的大學生。 而大學生,也只是會打B的小學生,可以考上高中的國中生, 指考有報名的高中生而已.......... -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 220.135.46.10

10/24 19:08, , 1F
要看你 mpi 的 hostfile 怎麼寫的?
10/24 19:08, 1F

10/24 19:20, , 2F
你是指/etc/hosts 這個檔案嗎??
10/24 19:20, 2F
這是我控制節點底下 /etc/hosts 的內容 # # hosts This file describes a number of hostname-to-address # mappings for the TCP/IP subsystem. It is mostly # used at boot time, when no name servers are running. # On small systems, this file can be used instead of a # "named" name server. # Syntax: # # IP-Address Full-Qualified-Hostname Short-Hostname # 127.0.0.1 localhost (我剛剛嘗試將這個改成192.168.0.254,可是所有的計算都quen住了) 192.168.0.1 node1 192.168.0.2 node2 192.168.0.3 node3 192.168.0.4 node4 192.168.0.5 node5 192.168.0.6 node6 192.168.0.7 node7 192.168.0.8 node8 192.168.0.254 node254 -------------------------------------------------------------------------- 不好意思,我已經自行解決了。 原來是除節點1以外其他的節點間免認證訪問出了問題 重新設定後就解決了。 ※ 編輯: sexyrickysky 來自: 220.135.46.10 (10/24 20:44)
文章代碼(AID): #1Cm-xbDu (Linux)
文章代碼(AID): #1Cm-xbDu (Linux)