Kết quả đo hiệu năng tớnh toỏn

Một phần của tài liệu Đánh giá hiệu năng hệ thống song song phân cụm (Trang 57)

Trong xử lý tuần tự, chương trỡnh chạy trờn một mỏy tớnh đơn lẻ, tốc độ tớnh toỏn phụ thuộc vào tốc độ CPU và dung lượng bộ nhớ. Trong hệ thống song song cluster, một bài toỏn được chia thành nhiều tiến trỡnh và chạy trờn cỏc mỏy tớnh nối mạng. Cỏc tiến trỡnh thực hiện xử lý và giao tiếp với nhau qua mạng. Do giao tiếp qua mạng, ngoài tốc độ của CPU và dung lượng bộ nhớ, tốc độ mạng cũng là một yếu tố quyết định đến tốc độ thực hiện bài toỏn. Với hệ thống song song cluster, cỏc thành phần quyết định trực tiếp tới hiệu năng hệ thống là khụng đồng nhất.

Kết quảđo hiệu năng tớnh toỏn thu được sau quỏ trỡnh thực chương trỡnh Linpack đo hiệu năng tớnh toỏn của CPU đơn và cỏc hạt nhõn, mụ phỏng ứng dụng đo hiệu năng tớnh toỏn của toàn bộ hệ thống.

Được thực hiện tại Trung tõm mỏy tớnh Trường Đại học Bỏch khoa Hà Nội

5.1.1 Kết quảđo hiệu năng tớnh toỏn của CPU đơn

Tiến hành đo hiệu năng tớnh toỏn CPU đơn với cỏc mỏy trạm, ta thu được kết quả như sau :

Kiểu số thực Thời gian (giõy) Hiệu năng (MFLOPS)

Độ chớnh xỏc đơn 2.000E-02 3.433E+01

Độ chớnh xỏc kộp 1.600E-02 4.292E+01

Bảng 5.1 Kết quảđo hiệu năng tớnh toỏn CPU đơn

Đỏnh giỏ: CPU cú tốc độ khỏc nhau. Điều này làm cho năng lực xử lý tại mỗi nỳt là khỏc nhau, nhiệm vụ tớnh toỏn của một chương trỡnh song song thường

được chia đều cho cỏc tiến trỡnh. Cỏc tiến trỡnh này được phõn bố trờn cỏc nỳt cú tốc độ CPU khỏc nhau. Một điều nhận thấy là tốc độ thực hiện trờn nỳt cú CPU yếu nhất sẽ quyết định tốc độ thực hiện toàn bộ chương trỡnh. Như vậy hệ số tăng tốc thực hiện chương trỡnh trờn hệ thống cluster sẽđạt cao nhất khi so sỏnh với nỳt yếu nhất.

5.1.2 Kết quảđo hiệu năng tớnh toỏn của toàn bộ hệ thống

Phần mềm NPB được sử dụng phổ biến đểđỏnh giỏ hiệu năng của toàn bộ hệ

thống tớnh toỏn song song phõn cụm. Tuy nhiờn, để thực hiện được cỏc chương trỡnh trong gúi phần mềm này cũng đũi hỏi phải thiết lập một hệ

thống ổn định.

Thứ nguyờn của cỏc kết quả trả vềđều cú dạng là Mops (biểu thị số triệu lần phộp toỏn được thực hiện trong 1 giõy). Giữa cỏc hạt nhõn và mụ phỏng chương trỡnh, ý nghĩa của opertion cú thể khỏc nhau :

- Đối với hạt nhõn EP, operation là phộp toỏn “sinh ngẫu nhiờn số phức”. Theo tài liệu hướng dẫn của NASA cụng bố cú thể tớnh được 1 operation tương ứng với khoảng 49.7 flop, từđú ta cú thể quy đổi giữa hai giỏ trị.

- Đối với hạt nhõn IS, operation là phộp toỏn “sắp xếp song song”.

- Đối với hạt nhõn CG, MG, FT và cỏc mụ phỏng ứng dụng LU, BT, SP, operation chớnh là phộp toỏn trờn miền số thực, do đú Mops trựng với MFLOPS.

Thực hiện cỏc hạt nhõn EP, IS, CG, MG trờn cỏc mỏy trạm của hệ thống, ta thu được kết quả như sau :

Kết quả đo hiệu năng bằng hạt nhõn EP : hạt nhõn này sẽ thực hiện bài toỏn song song sinh ngẫu nhiờn cỏc cặp số thực. Kết quả hạt nhõn EP sẽ cho thấy hiệu năng tớnh toỏn của hệ thống đối với cỏc bài toỏn thực hiện ớt thao tỏc truyền thụng. EP lần lượt được biờn dịch và chạy trờn số mỏy trạm lần lượt là 1, 2, 4, 6, 8 với lớp dữ liệu là A, kết quả thu được như sau :

Số mỏy trạm Kết quả (Mops) Kết quả (MFLOPS)

1 1.08 53.68 2 2.14 106.29 4 4.30 213.58 6 6.02 299.01 8 7.99 396.86 Bảng 5.2 Kết quảđo hiệu năng tớnh toỏn bằng hạt nhõn EP Kết quảđo hiệu năng bằng hạt nhõn IS :

Hạt nhõn IS thực hiện bài toỏn song song sắp xếp dóy số nguyờn. Kết quả của hạt nhõn IS phản ỏnh hiệu năng tớnh toỏn đối với bài toỏn song song cần nhiều thao tỏc truyền thụng và truy cập vào bộ nhớ trong trờn mỏy trạm khi thực hiện cỏc phộp toỏn số nguyờn.

IS lần lượt được biờn dịch và thực hiện trờn số mỏy trạm là 1, 2, 4, 8 với lớp dữ liệu là A, kết quả thu được như sau :

Số mỏy trạm

Mops/s total Mops/s/process

1 5.33 5.33 2 0.41 0.20 4 0.30 0.08 8 0.21 0.03 Bảng 5.3 Kết quảđo hiệu năng tớnh toỏn bằng hạt nhõn IS Kết quảđo hiệu năng bằng hạt nhõn CG Hạt nhõn CG thực hiện cỏc phộp toỏn trờn ma trận thưa. Kết quả của hạt nhõn CG phản ỏnh hiệu năng tớnh toỏn đối với bài toỏn song song cần nhiều thao tỏc truyền thụng và truy cập vào bộ nhớ trong trờn mỏy trạm khi thực hiện cỏc phộp toỏn số thực.

CG lần lượt được biờn dịch và thực hiện với số tiến trỡnh là 1, 2, 4, 8 với lớp dữ liệu là A, kết quả thu được như sau :

Số mỏy trạm Mops/s total Mops/s/process 1 17.36 17.36 2 7.83 3.91 4 1.96 0.49 8 6.35 0.79 Bảng 5.4 Kết quảđo hiệu năng tớnh toỏn bằng hạt nhõn CG Kết quảđo hiệu năng bằng hạt nhõn MG :

Hạt nhõn MG phản ỏnh hiệu năng tớnh toỏn đối với bài toỏn song song cần nhiều thao tỏc truy cập vào bộ nhớ trong trờn mỏy trạm khi thực hiện cỏc phộp toỏn số thực.

MG lần lượt được biờn dịch với số tiến trỡnh là 1, 2, 4, 8 với lớp dữ liệu là A, kết quả thu được như sau :

Số mỏy trạm Mops/s total Mops/s/process

1 - -

2 31.76 15.88

4 37.83 9.46

8 31.85 3.98

Một điều đỏng lưu ý trong bảng trờn đú là thời gian chạy của chương trỡnh MG đối với dữ liệu kiểu A. Cỏc số liệu thực tế cho thấy thời gian chạy là lớn hơn 6 tiếng đối với cấu hỡnh mỏy CPU 500MHz và 256 MB RAM. Lỳc này dung lượng swap phải sử dụng là 70.084 MB.

Tiến hành chạy bài toỏn MG với cỏc lớp dữ liệu nhỏ hơn lớp A là cỏc lớp S và W, thời gian giảm xuống cũn 0.16 và 10.49 giõy và hiệu năng thu được lần lượt là 47.09 và 57.97 Mops. Cỏc kết quả trờn chứng tỏ vai trũ quan trọng của bộ nhớ trong đối với tốc độ tớnh toỏn.

Kết quảđo hiệu năng bằng mụ phỏng chương trỡnh LU

Chương trỡnh LU phản ỏnh hiệu năng tớnh toỏn đối với bài toỏn song song cần nhiều thao tỏc truy cập bộ nhớ cache và truyền thụng.

LU lần lượt được biờn dịch với số tiến trỡnh là 1, 2, 4, 8 với lớp dữ liệu là A, kết quả thu được như sau :

Số mỏy trạm Mops/s total Mops/s/process

1 37.0 37.0 2 52.37 26.19 4 78.91 19.73 8 40.09 5.12 Bảng 5.6 Kết quảđo tớnh toỏn bằng mụ phỏng chương trỡnh LU Kết quảđo hiệu năng bằng mụ phỏng chương trỡnh SP

Kết quả của chương trỡnh SP phản ỏnh hiệu năng tớnh toỏn đối với bài toỏn song song cần nhiều thao tỏc truy cập vào bộ nhớ trong.

SP lần lượt được biờn dịch với số tiến trỡnh là 1 và 4, lớp dữ liệu là A, kết quả

thu được như sau :

Số mỏy trạm Mops/s total Mops/s/process

1 39.57 39.57

4 43.87 10.97

Bảng 5.7 Kết quảđo tớnh toỏn bằng mụ phỏng chương trỡnh SP Kết quảđo hiệu năng bằng mụ phỏng chương trỡnh BT

Kết quả của chương trỡnh BT phản ỏnh hiệu năng tớnh toỏn đối với bài toỏn song song cần nhiều thao tỏc truyền thụng và truy cập vào bộ nhớ cache. BT lần lượt được biờn dịch với lớp số tiến trỡnh là 4, lớp dữ liệu là W, kết quả

thu được như sau :

Số mỏy trạm Mops/s total Mops/s/process

1 66.11 66.11

4 67.13 16.78

Bảng 5.8 Kết quảđo tớnh toỏn bằng mụ phỏng chương trỡnh BT

Dựa vào những kết quả trờn, ta biểu diễn sự phụ thuộc giữa hiệu năng tớnh toỏn vào số mỏy trạm tham gia tớnh toỏn :

Hỡnh 5.1 Biểu đồ tương quan giữa hiệu năng và số mỏy trạm

Đỏnh giỏ: Qua cỏc giỏ trị thu được khi đỏnh giỏ hiệu năng tớnh toỏn của hệ

thống, ta rỳt ra kết luận sơ bộ sau : khi số mỏy trạm tham gia tớnh toỏn tăng lờn, tốc độ tớnh toỏn tổng cộng sẽ tăng lờn với những bài toỏn thực hiện ớt thao tỏc truyền thụng. Tuy nhiờn, khi thực hiện những bài toỏn yờu cầu thực hiện nhiều thao tỏc truyền thụng, hiệu năng của hệ thống sẽ giảm khi số mỏy trạm tham gia tớnh toỏn tăng lờn. Những điều trờn cho thấy tốc độ truyền thụng trong mạng ảnh hưởng bởi nhiều yếu tố như tốc độ của card mạng, đường truyền, khoảng cỏch, thiết bị chuyển mạch, thiết bị đầu cuối. Ảnh hưởng trực tiếp đến khả năng tớnh toỏn của toàn bộ hệ thống.

Cũng tương tự như CPU khụng đồng nhất, nỳt cú tốc độ truyền thụng thấp nhất sẽ chi phối tốc độ truyền thụng của hệ thống và làm tốc độ thực hiện chương trỡnh giảm mạnh nhất. 0 10 20 30 40 50 60 70 80 90 1 2 4 8 S mỏy trm MOP S EP IS CG MG LU SP BT

5.2 Kết quảđo hiệu năng truy cập bộ nhớ trong

Thực hiện đo hiệu năng truy cập bộ nhớ trong bằng phần mềm Stream trờn mỏy trạm cú dung lượng RAM là 256 MB, ta thu được kết quả sau :

- Trước khi xảy ra hiện tượng truy cập vào bộ nhớ swap, tốc độ truy cập bộ

nhớ trong luụn ổn định và bằng 236 – 238 MB/s

- Khi xảy ra hiện tượng truy cập swap, tốc độ truy cập bộ nhớ trong sẽ giảm xuống đột ngột và sẽ giảm rất nhanh nếu kớch thước của bài toỏn tiếp tục tăng lờn

Kết quả này được biểu diễn trờn biểu đồ sau :

Hỡnh 5.2 Biểu đồ tương quan kớch thước bài toỏn - tốc độ truy cập bộ

nhớ trong

Kết quả trờn cho thấy khả năng tớnh toỏn của mỏy trạm là ổn định với những bài toỏn cú tổng giỏ trị cỏc biến cần cấp phỏt nhỏ hơn 240 MB.

5.3 Đo hiệu năng truyền thụng

Thực hiện đo hiệu năng truyền thụng của giao thức TCP giữa mỏy trạm và mỏy chủ, ta thu được kết quả như sau : tốc độ truyền thụng rất nhỏ với cỏc gúi

tin cú kớch thước nhỏ hơn 10byte, sau đú thỡ tăng nhanh khi kớch thước gúi tin nằm trong khoảng từ 16 đến 64 byte và sẽ khụng tăng giảm nhiều khi kớch thước gúi tin lớn hơn 64 byte (kớch thước gúi tin lớn nhất chương trỡnh đó dựng là 64Kbyte). Tốc độ truyền thụng cao nhất là 29 Mbps ứng với gúi tin cú kớch thước 32KB.

Hỡnh 5.3 Biểu đồ tương quan giữa dung lượng gúi tin và tốc độ truyền thụng mạng

5.4 Đo hiệu năng của thư viện truyền thụng điệp MPICH

Thực hiện quỏ trỡnh đo hiệu năng truyền thụng điệp MPICH giữa hai mỏy trạm đúng vai trũ nỳt tớnh toỏn bằng phần mềm NetPIPE, ta thu được kết quả

byte. Điều này cho ta thấy cỏc hàm truyền thụng của thư viện MPICH sẽ hoạt

động tốt nhất với cỏc thụng điệp cú độ lớn trong khoảng lõn cận 8192 byte Sự phụ thuộc của tốc độ truyền thụng vào kớch thước gúi tin được biểu diễn qua biểu đồ sau :

Hỡnh 5.4 Biểu đồ tương quan giữa dung lượng gúi tin và tốc độ truyền thụng điệp

Dựa vào biểu đồ ta thấy tốc độ truyền thụng tăng dần theo kớch thước gúi tin đến khoảng lõn cận giỏ trị 8192 byte thỡ tốc độ cao nhất là khoảng 7.8

Mbps. Khi kớch thước gúi tin tiếp tục tăng thờm thỡ tốc độ truyền thụng lại giảm đi nhưng vẫn lớn hơn 6 Mbps.

Ngoài biểu đồ trờn, cỏc đặc tớnh của thư viện MPICH cũn được thể hiện khỏch quan qua hai biểu đồ sau :

Hỡnh 5.5 Biểu đồ tương quan giữa tốc độ và thời gian truyền thụng

Biểu đồ trờn được gọi là Ethernet Signature Graph, cỏc giỏ trị thời gian và tốc độ truyền đó được lấy loga cơ số 10 (log). Vỡ thời gian truyền tin tỉ lệ với

tổng dung lượng tin truyền đi nờn cú thể coi biểu đồ trờn là một dạng khỏc của biểu đồ tương quan giữa dung lượng gúi tin và tốc độ truyền thụng.

Hỡnh 5.6 Biểu đồ tương quan giữa dung lượng gúi tin và thời gian truyền thụng

Biểu đồ trờn được gọi là Ethernet Saturation Graph, nú cho thấy tốc độ truyền thụng của cỏc hàm MPICH sẽ tăng lờn rất nhanh khi kớch thước gúi tin tăng lờn ứng với khoảng trước điểm Saturation Point, sau đú dự kớch thước gúi tin cú tăng lờn rất nhanh (ứng với sự tăng thời gian truyền thụng theo hàm mũ cơ

số 10) thỡ tốc độ truyền thụng trong mạng cũng chỉ tăng lờn một cỏch tuyến tớnh

Qua cỏc kết quả đo hiệu năng ở trờn ta thấy được những kết quả cụ thể hiệu năng của hệ thống về cỏc mặt tớnh toỏn, truyền thụng, truy cập bộ nhớ trong. Do mục đớch của hệ thống BKCluster là thực hiện cỏc bài toỏn khoa học nờn hiệu năng tớnh toỏn của toàn bộ hệ thống là quan trọng nhất. Kết quả của việc thực hiện gúi phần mềm NPB trờn 8 mỏy trạm đúng vai trũ nỳt tớnh toỏn cho thấy hiệu năng lớn nhất đạt được là 396.86 MFLOPS.

Việc tớnh toỏn song song cú lợi hơn việc tớnh toỏn riờng trờn 1 mỏy tớnh ở chỗ

cú thể tận dụng được đồng thời năng lực tớnh toỏn của CPU và dung lượng bộ

nhớ trong của từng mỏy trạm. Kết quả này được thể hiện rừ qua kết quả của cỏc bài toỏn EP và MG. Đõy là hai bài toỏn hạn chế sự truyền thụng và cần nhiều thao tỏc tớnh toỏn độc lập (EP) và truy cập vào bộ nhớ trong (MG). Hiệu năng tớnh toỏn tổng hợp sẽ tăng lờn gần như tuyến tớnh đối với số tiến trỡnh thực hiện bài toỏn EP (mỗi mỏy trạm sẽ thực hiện 1 tiến trỡnh). Đối với bài toỏn MG dữ liệu lớp A, việc thực hiện trờn 1 mỏy trạm sẽ rất lõu (lớn hơn 6 tiếng) nhưng chỉ với hai mỏy trạm đó giảm thời gian xuống cũn khoảng 122 giõy.

Tuy nhiờn, kết quả trờn cũng phản ỏnh tốc độ truyền thụng trong mạng LAN là chưa được cao. Với card mạng và switch cho phộp tốc độ truyền lờn tới 100Mbps nhưng cỏc kết quảđo chỉ cho giỏ trị lớn nhất là 29 Mbps đối với giao thức TCP và là 7.88 Mbps đối với cỏc hàm truyền thụng của thư viện MPICH. Nhược điểm này xuất phỏt từ nguyờn nhõn chủ yếu là chưa thiết lập cỏc thụng số cấu hỡnh tối ưu (như kớch thước Buffer của Socket) khi cài đặt thư viện MPICH, việc này đũi hỏi phải thu thập thờm một số kết quả thực nghiệm và dịch lại mó nguồn của MPICH.

Do tốc độ truyền thụng cao nhất của cỏc hàm trong thư viện MPICH là 7.88 Mbps nờn dẫn đến hiệu năng tớnh toỏn đối với những bài toỏn đũi hỏi nhiều thao tỏc truyền thụng là chưa được cao, thậm chớ cũn xảy ra hiện tượng hiệu

năng tớnh toỏn tổng cộng sẽ giảm đi khi số mỏy trạm tham gia tớnh toỏn tăng lờn (điều này thể hiện rừ qua kết quả của cỏc bài toỏn CG, IS). Điều này sẽ cú thể được khắc phục thụng qua việc cải tiến cỏc cấu hỡnh của thư viện MPICH làm tăng tốc độ truyền thụng.

Tuy nhiờn, dựa vào kết quả của cỏc bài toỏn EP, MG, LU ta thấy rằng việc tăng hiệu năng của toàn bộ hệ thống là hoàn toàn cú thểđạt được khi tăng số

mỏy trạm đúng vai trũ nỳt tớnh toỏn, điều này cho thấy hệ thống đó đạt được một số yờu cầu cơ bản của những hệ thống xõy dựng theo mụ hỡnh song song phõn cụm.

CHƯƠNG 6 KẾT LUẬN

Trung tõm tớnh toỏn hiệu năng cao Trường đại học Bỏch Khoa Hà Nội, đang triển khai nghiờn cứu đề tài: Xõy dựng hệ thống tớnh toỏn song song.

Mục đớnh của hệ thống là cung cấp một giải phỏp tớnh toỏn hiệu năng cao, giỏ

Một phần của tài liệu Đánh giá hiệu năng hệ thống song song phân cụm (Trang 57)