Phân tích ảnh hưởng của trễ truyền thông đến hiệu năng của hệ thống tính toán song song

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI NGUYỄN MINH QUÝ PHÂN TÍCH ẢNH HƢỞNG CỦA TRỄ TRUYỀN THÔNG ĐẾN HIỆU NĂNG CỦA HỆ THỐNG TÍNH TỐN SONG SONG LUẬN ÁN TIẾN SĨ KỸ THUẬT PHẦN MỀM Hà Nội -2015 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI NGUYỄN MINH Q PHÂN TÍCH ẢNH HƢỞNG CỦA TRỄ TRUYỀN THƠNG ĐẾN HIỆU NĂNG CỦA HỆ THỐNG TÍNH TỐN SONG SONG Chuyên ngành: Kỹ thuật phần mềm Mã số: 62480103 LUẬN ÁN TIẾN SĨ KỸ THUẬT PHẦN MỀM NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS HUỲNH QUYẾT THẮNG TS HỒ KHÁNH LÂM Hà Nội -2015 LỜI CAM ĐOAN Tôi xin cam đoan luận án cơng trình nghiên cứu khoa học hướng dẫn PGS.TS Huỳnh Quyết Thắng TS Hồ Khánh Lâm không trùng lặp với cơng trình khoa học khác Các số liệu trình bày luận án kiểm tra kỹ phản ánh hoàn toàn trung thực Các kết nghiên cứu tác giả đề xuất chưa công bố tạp chí đến thời điểm ngồi cơng trình tác giả Hà Nội, ngày tháng năm 2015 XÁC NHẬN CỦA TẬP THỂ HƯỚNG DẪN GV HƯỚNG DẪN GV HƯỚNG DẪN PGS.TS Huỳnh Quyết Thắng TS Hồ Khánh Lâm i TÁC GIẢ LUẬN ÁN Nguyễn Minh Quý LỜI CẢM ƠN Với tất kính trọng biết ơn sâu sắc nhất, tác giả xin chân thành cảm ơn PGS.TS Huỳnh Quyết Thắng TS Hồ Khánh Lâm tận tình hướng dẫn, bảo động viên suốt trình nghiên cứu viết luận án Những góp ý, quan tâm bảo vô quý báu hai thầy giúp tơi nhiều việc hình thành phương pháp tư nghiên cứu khoa học, giúp trưởng thành mặt Xin chân thành cảm ơn tập thể thầy cô giáo Bộ môn Công nghệ phần mềm thầy cô Viện Công nghệ thông tin Truyền thông, Trường ĐHBKHN tạo điều kiện đóng góp nhiều ý kiến quý báu cho nội dung luận án Xin bày tỏ lòng biết ơn chân thành giúp đỡ quý báu Ban giám hiệu Trường ĐHSPKT Hưng Yên tạo điều kiện cho nghiên cứu sinh nói chung cho cá nhân tơi nói riêng có điều kiện vừa học tập vừa công tác Cảm ơn đồng nghiệp Khoa Công nghệ thông tin - Trường Đại học Sư phạm Kỹ thuật Hưng Yên gánh vác phần công việc giảng dạy công việc quản lý Khoa suốt thời gian làm luận án Cuối xin bày tỏ lòng biết ơn sâu sắc tới gia đình ln chăm lo, động viên giúp đỡ tơi vượt qua khó khăn suốt thời gian qua Tác giả: Nguyễn Minh Quý ii MỤC LỤC Mở đầu 1 Lý chọn đề tài Mục tiêu nghiên cứu Đối tƣợng phạm vi nghiên cứu 3.1 Đối tượng nghiên cứu 3.2 Phạm vi nghiên cứu Ý nghĩa khoa học thực tiễn đề tài 4.1 Ý nghĩa khoa học 4.2 Ý nghĩa thực tiễn Kết đạt đƣợc Bố cục luận án Chƣơng Tổng quan 1.1 Kiến trúc tính tốn song song 1.1.1 Khái niệm 1.1.2 Các loại xử lý song song 1.1.3 Mơ hình tính tốn song song 1.2 Hiệu hệ thống tính tốn song song 12 1.2.1 Khái niệm hiệu 12 1.2.2 Thời gian thực thi 12 1.2.3 Tổng chi phí song song 13 1.2.4 Mức tăng tốc 13 1.2.5 Tính hiệu 14 1.2.6 Tính mở rộng 14 1.3 Các kỹ thuật phân tích, đánh giá hiệu 15 1.3.1 Mơ hình phân tích 15 1.3.2 Mơ hình mô 16 1.3.3 Đo hiệu 17 1.4 Trễ truyền thơng hệ thống tính tốn song song 18 1.4.1 Các nguồn gây trễ tính tốn song song 18 1.4.2 Trễ truyền thông hệ thống tính tốn song song 19 1.4.3 Mạng liên kết hệ thống tính tốn song song 20 1.5 Tổng quan nghiên cứu liên quan 21 1.6 Các nhiệm vụ luận án 25 1.7 Kết chƣơng 25 Chƣơng Cơ sở lý thuyết cho phân tích hiệu 26 2.1 Hàng đợi mạng hàng đợi 26 2.1.1 Hàng đợi 26 2.1.2 Mạng hàng đợi 28 iii 2.1.3 Mạng hàng đợi lớp nhiều lớp công việc 30 2.1.4 Các số đo hiệu mạng hàng đợi lớp công việc 32 2.1.5 Các số đo hiệu mạng hàng đợi nhiều lớp công việc 33 2.1.6 Các mạng hàng đợi có nghiệm dạng tích xác suất (Closed Product Form Queueing Network) 34 2.2 Mạng Petri 38 2.2.1 Giới thiệu mạng Petri 38 2.2.2 Các đặc tính mạng Petri 39 2.2.3 Một số mạng Petri phổ biến 42 2.2.4 Phân tích mơ hình mạng Petri 49 2.3 Luật Amdahl 51 2.3.1 Mức tăng tốc hiệu 51 2.3.2 Mức tăng tốc theo luật Amdahl 52 2.3.3 Luật Amdahl mở rộng 56 2.4 Một số nhận xét việc áp dụng mạng hàng đợi mạng Petri phân tích hiệu sử dụng luật Amdahl 56 2.5 Kết chƣơng 57 Chƣơng Phân tích ảnh hƣởng trễ truyền thông đến hiệu hệ thống tính tốn song song sử dụng chip đa lõi 58 3.1 Hiệu kiến trúc chip đa lõi 58 3.1.1 Chip đa lõi SMC, AMC DMC 58 3.1.2 Phân tích, đánh giá hiệu thơng qua mức tăng tốc 59 3.2 Phân tích ảnh hƣởng mạng liên kết đến hiệu hệ thống tính tốn song song có sử dụng chip đa lõi mạng hàng đợi đóng có nghiệm dạng tích xác suất 66 3.2.1 Mơ hình nghiên cứu 66 3.2.2 Phân tích ảnh hưởng trễ truyền thơng đến hiệu 68 3.3 Phân tích ảnh hƣởng mạng liên kết đến hiệu hệ thống tính tốn song song có sử dụng chip đa lõi mạng Petri thời gian tổng quát GSPN 77 3.3.1 Mơ hình hóa hệ thống GSPN 78 3.3.2 Mô hệ thống 80 3.3.3 Kết luận 81 3.4 Kết chƣơng 81 Chƣơng Phân tích ảnh hƣởng trễ truyền thơng đến hiệu hệ thống tính tốn song song ghép cụm 82 4.1 Trễ truyền thơng hệ thống tính tốn song song ghép cụm 82 4.1.1 Hiệu hệ thống tính tốn soang song ghép cụm 82 4.1.2 Ảnh hưởng trễ truyền thông đến hiệu 85 iv 4.2 Sử dụng mạng hàng đợi đóng có nghiệm dạng tích xác suất để phân tích ảnh hƣởng trễ truyền thơng đến hiệu hệ thống tính tốn song song ghép cụm 88 4.2.1 Đánh giá ảnh hưởng trễ truyền thơng mơ hình mạng hàng đợi đóng có nghiệm dạng tích 88 4.2.2 Thực nghiệm mô công cụ JMT 90 4.2.3 Đánh giá nhận xét 92 4.3 Sử dụng mạng Petri màu ngẫu nhiên để phân tích ảnh hƣởng trễ truyền thông đến hiệu hệ thống tính tốn song song ghép cụm 93 4.3.1 Mơ hình hệ thống 93 4.3.2 Mô phần mềm 98 4.3.3 Đánh giá nhận xét 100 4.4 Phân tích hiệu hệ thống tính tốn song song ghép cụm thực thám mã mật MS Office 101 4.4.1 Bài toán thám mã mật 102 4.4.2 Thám mã MS Office 103 4.4.3 Xây dựng thuật toán 105 4.4.4 Thử nghiệm 108 4.4.5 Phân tích kết bàn luận 111 4.4.6 Kết luận 112 4.5 Kết chƣơng 112 Kết luận kiến nghị 113 Kết luận 113 Kiến nghị 114 Tài liệu tham khảo 115 Danh mục cơng trình cơng bố luận án 122 v Danh mục ký hiệu chữ viết tắt Ký hiệu, STT chữ viết tắt Ý nghĩa đầy đủ tiếng Anh Ý nghĩa tiếng Việt 2DMesh Dimension Mesh Lưới hai chiều 2DTorus Dimension Torus Lưới vòng hai chiều 3DTorus Dimension Toros Lưới vòng ba chiều AMC Asymmetric Multicore Chip Chip đa lõi bất đối xứng APN Algebra Petri Net Mạng Petri toán học CDF Cumulative Density Functions Hàm mật độ tích lũy CPFQN CPN Colored Petri Net Mạng Petri có màu CPU Central Processing Unit Bộ xử lý trung tâm 10 CU Control Unit Đơn vị điều khiển 11 CUDA Compute Unified Architecture 12 DMC Dynamic Multicore Chip Chip đa lõi linh hoạt 13 GPGPU General Purpose GPU GPU đa 14 GPN Graph Petri Net Mạng Petri đồ thị 15 GPU Graphic Processing Unit Bộ xử lý đồ họa 16 GSPN Generalized Stochastic Petri Net Mạng Petri ngẫu nhiên tổng qt 17 HPC High Performance Computing Tính tốn hiệu cao 18 MIMD 19 MISD 20 MPI 21 MVA Closed Product Form Queuing Mạng hàng đợi đóng dạng Network tích Device Kiến trúc thiết bị tính tốn hợp stream Đa dòng lệnh đa dòng liệu stream Đa dòng lệnh đơn dòng liệu Giao diện truyền thông Message Passing Interface điệp Multiple Instruction Multiple Data stream Multiple Instruction Single Data stream Mean Value Algorithm vi Giải thuật giá trị trung bình Ký hiệu, Ý nghĩa đầy đủ tiếng Anh Ý nghĩa tiếng Việt STT chữ viết tắt 22 OCIN 23 PDF 24 PE Processing Element Phần tử xử lý 25 PN Petri Net Mạng Petri 26 SCPN Stochastic Color Petri Net Mạng Petri màu ngẫu nhiên 27 SIMD Single Instruction Multiple Data Đơn lệnh đa liệu 28 SISD Single Instruction Single Data Đơn lệnh đơn liệu 29 SMC Symmetric Multicore Chip Chip đa lõi đối xứng 30 SPN Stochastic Petri Net Mạng Petri ngẫu nhiên 31 TPN Timed Petri Net Mạng Petri có thời gian OnChip INterconnect Mạng liên kết chip Probability Distribution Function Hàm phân bố xác suất vii Danh mục bảng Bảng 3.1 Các đánh dấu 80 Bảng 3.2 Vị trí số thẻ trung bình 80 Bảng 3.3 Mật độ xác suất thẻ 80 Bảng 3.4 Các thời gian lưu lại đánh dấu 80 Bảng 3.5 Thơng lượng chuyển tiếp có trễ thời gian 81 Bảng 4.1 Tlink = tsw + tstartup + wtdata với Infiniband DDR 12x 86 Bảng 4.2 Một số cấu hình mạng kết nối máy tính song song 86 Bảng 4.3 Tnet= H(tsw + tstartup + wtdata) với Infiniband DDR 12x, n=64 nút 86 Bảng 4.4 Tnet= H(tsw + tstartup + wtdata) với Infiniband DDR 12x, n=9 nút 86 Bảng 4.5 Danh sách vị trí processor 94 Bảng 4.6 Các chuyển tiếp có trễ kích hoạt processor 94 Bảng 4.7 Các chuyển tức thời (trễ thời gian = 0) processor 94 Bảng 4.8 Danh sách vị trí processor 95 Bảng 4.9 Các chuyển tiếp có trễ kích hoạt 95 Bảng 4.10 Các chuyển tức thời (trễ thời gian = 0) Interconnect 95 Bảng 4.11 Các thông số hiệu 97 Bảng 4.12 Số lượng khóa theo độ dài xâu 105 viii SubSegment = (idx2-idx1+1) / NumCores; for (i = 0; i < NumCores; i++) { Thread = CreatThread(); Thread.Idx1 = (i - 1) * SubSegment +idx1; Thread.Idx2 = i * SubSegment +idx1-1; Thread.Start(); } } 4.4.4 Thử nghiệm x Hình 4.22 Chạy nút sử dụng lõi 108 x Hình 4.23 Chạy nút sử dụng lõi x MASTER SLAVE x Hình 4.24 Chạy nút, nút sử dụng lõi 109 a) Cấu hình hệ thống thử nghiệm: Trong tốn tìm mật đề cập trên, Slave thường xuyên phải gửi gói tin cho Master tuyến xử lý phải tạm dừng cần cập nhật liệu tồn cục chắn phải chịu chi phí truyền thơng (tc) khơng nhỏ Chi phí phụ thuộc vào tần suất mà Slave giao tiếp với Master Để thử nghiệm thấy mức tăng tốc tính tốn song song gồm nhiều nút ảnh hưởng trễ truyền thơng (tc) hiệu tồn hệ thống, sử dụng nút tính toán (Slave) máy chủ Khoa CNTT nút Master máy tính xách tay HP, với cấu sau: - Cấu hình Slave: CPU Intel Quad Core 4x3.3GHz, 2GB RAM Các nút tính tốn nối với qua đường truyền mạng LAN 100Mps - Cấu hình Master: CPU Intel M380, Core i3 2x2.53GHz, 8GB RAM Độ dài gói tin truyền từ slave đến Master để báo cáo số mật thử qua mạng cục sử dụng giao thức UDP thay đổi kích thước để đánh giá trễ truyền thơng theo kích thước gói tin Ngồi ra, tần suất truyền gói tin để tăng/giảm lưu lượng truyền thông điều chỉnh tăng/giảm thông qua đồng hồ (timer) b) Các kịch thử nghiệm Trong thử nghiệm đây, thực quét mật có độ dài ký tự  Thử nghiệm - Số nút tính tốn: 01 nút - Số lõi sử dụng: từ 1-4 lõi  Thử nghiệm - Số nút tính toán: 02 nút, số lõi sử dụng nút: từ 1-4 lõi - Độ dài gói tin báo cáo từ Slave đến Master có kích thước ~10 byte - Chu kỳ gửi gói tin từ Slave đến Master 100ms  Thử nghiệm 3: tăng kích thước gói tin gấp 100 lần so với thử nghiệm - Độ dài gói tin báo cáo từ Slave đến Master có kích thước tăng lên đến 1000 byte - Chu kỳ gửi gói tin từ Slave đến Master 100ms - Số nút tính tốn: 02 nút, số lõi sử dụng nút: từ 1-4 lõi  Thử nghiệm 4: tăng tần suất gửi gói tin gấp 20 lần so với thử nghiệm - Độ dài gói tin báo cáo từ Slave đến Master có kích thước 10 byte - Chu kỳ gửi gói tin từ Slave đến Master 50ms - Số nút tính tốn: 02 nút, số lõi sử dụng nút: từ 1-4 lõi 110 Hình 4.25 Kết thử nghiệm 4.4.5 Phân tích kết bàn luận Thử nghiệm cho thấy rằng, tốc độ tính tốn tăng lên tăng số lõi tham gia xử lý Tuy nhiên, mức tăng tốc có xu hướng chậm dần Điều lý giải số lõi tăng lên trễ truyền thông (tc) lõi nội CPU tăng lên cần phải có xử lý phụ kèm theo việc đồng hóa, cấp phát tài nguyên, xử lý hệ điều hành v.v… Ở thử nghiệm 2, tính tốn song song cụm máy tính tốc độ tăng theo số nút (Slave) tham gia tính tốn Tuy nhiên, tính theo tổng số lõi hiệu trường hợp so với Thử nghiệm độ trễ truyền thơng qua mạng lớn nhiều so với trễ truyền thông lõi CPU Ở Thử nghiệm 3, tăng kích thước gói tin lên gấp 100 lần so với thử nghiệm hiệu hệ thống giảm Điều chứng tỏ kích thước gói tin làm tăng trễ truyền thông hệ làm giảm hiệu Kết phù hợp với công thức (5) Ở thử nghiệm 4, giữ ngun kích thước gói tin Thử nghiệm tăng tần suất gửi báo cáo từ Slave đến Master (để tăng lưu lượng truyền thơng) hiệu bị giảm Điều chứng tỏ thêm trễ truyền thơng có ảnh hưởng lớn đến hiệu hệ thống đặc biệt việc trao đổi liệu qua đường truyền tốc độ thấp Một nhận xét chung kết ba thử nghiệm (xem Hình 4.20) là, số lõi tham gia xử lý tăng lên hiệu tồn hệ thống tăng tuyến tính sử dụng hết số lõi CPU hiệu lại giảm xuống 111 4.4.6 Kết luận Việc tìm lại mật MS Word số hệ thống khác với độ dài mật khơng q dài phức tạp hồn tồn thực cơng vét cạn sử dụng hệ thống tính tốn song song nhiều nút nhiều lõi kết hợp Thực tế, điều chỉnh trình vét cạn số chế thông minh khác sử dụng Heuristic, từ điển, v.v… để giảm thiểu thời gian tìm kiếm Các thực nghiệm cho thấy hiệu hệ thống tính tốn song song phụ thuộc nhiều vào yếu tố, phải kể đến trễ truyền thông, đặc biệt lưu lượng truyền thông tăng lên Để tăng hiệu hệ thống cách giảm thiểu trễ truyền thơng tiến hành giảm lưu lượng truyền thơng tiến trình nút tính tốn, như: Giảm tối thiểu kích thước gói tin tần suất gửi gói tin Khi lựa chọn số lõi CPU tham gia vào q trình tính tốn song song, cần ý nên chọn số lượng lõi phù hợp để có hiệu đạt mức cao Không phải chọn hết số lõi để tham gia tính tốn có mức tăng tốc tốt 4.5 Kết chương Nội dung Chương luận án trình bày kết phân tích, đánh giá hiệu hệ thống tính tốn song song sử dụng hai cơng cụ mạng hàng đợi đóng mạng Petri Phần sau chương tiến hành thực nghiệm đánh giá hệ thống thực với kiến trúc cụm máy tính kết hợp với đa lõi để thực thám mã mật MS Office Các kết phương pháp ảnh hưởng lớn trễ truyền thơng đến hiệu tồn hệ thống, hệ thống đa xử lý Các kết đưa khuyến nghị việc giảm thiểu trễ truyền thông 112 Kết luận kiến nghị Kết luận Nghiên cứu hệ thống tính tốn song song tính tốn hiệu cao chủ đề nhận nhiều quan tâm Đặc biệt, công nghệ giá thành cho hệ thống ghép cụm có sử dụng vi xử lý đa lõi GPU ngày giảm cho phép người dùng ghép nối gần khơng hạn chế số nút tham gia tính tốn Đi với khả mở rộng nút tham gia tính tốn để nâng cao hiệu tốn nan giải cần phải nghiên cứu giải vấn đề giảm thiểu trễ truyền thơng Vấn đề nhiều nhóm nghiên cứu ngồi nước quan tâm có số kết cơng bố Tuy nhiên, có nhiều yếu tố ảnh hưởng đến hiệu nên chưa thể có nghiên cứu bao quát đưa giải pháp trọn vẹn Ngoài ra, việc sử dụng phương pháp cơng cụ phân tích khác cách tiếp cận cần khuyến khích Luận án tiến hành phân tích hiệu số kiến trúc hệ thống tính tốn song song, sử dụng hai cơng cụ phân tích mạng hàng đợi mạng Petri Các kết nghiên cứu luận án ứng dụng việc phân tích hệ thống tính toán song song hệ thống thực tế mà không thiết phải vi xử lý cho máy tính, cụm máy tính Ví dụ, áp dụng để phân tích hệ thống điều khiển song song, hệ thống cảm biến, hệ thống chip giám sát, hệ thống thu thập thông tin, v.v Luận án nghiên cứu ảnh hưởng mạng liên kết đến hiệu hệ thống tính tốn song song vi xử lý đa lõi hệ thống có sử dụng nhiều máy tính theo mơ hình nối cụm đề xuất cơng thức tính trễ ứng với số cấu trúc mạng liên kết cụ thể Từ kết này, áp dụng để phân tích cấu trúc mạng liên kết tương tự khác Phần phân tích ảnh hưởng trễ truyền thơng tốn thám mã mật MS Office Word giúp khẳng định làm sáng tỏ thêm kết nghiên cứu đề cập trước Các kết thực nghiệm thuật toán đề xuất luận án làm sở để xây dựng phát triển hệ thống tính tốn song song hiệu cao sử dụng vi xử lý đa lõi, GPU cụm máy tính để thám mã hệ thống khác phương pháp vét cạn Kết thực nghiệm thuật toán đề xuất tốn thám mã mật MS Office Word sử dụng áp dụng toán vét cạn cách tương tự chạy hệ thống tính tốn song song ghép cụm sử dụng vi xử lý đa lõi, kết hợp với xử lý đồ họa đa GPU Kết nghiên cứu phát triển thành sản phẩm có tính thương mại cao, tương tự phần mềm thám mã có thị trường như: LM Software Như vậy, bản, kết luận án đáp ứng yêu cầu đặt ban đầu cơng trình thể kết đócũng cơng bố tạp chí hội thảo chuyên ngành nước, đảm bảo độ tin cậy có ý nghĩa nội dung nghiên cứu 113 Kiến nghị Trong khuôn khổ luận án nghiên cứu số yếu tố ảnh hưởng đến hiệu hệ thống tính tốn song song trễ truyền thơng, mà chủ yếu tập trung vào mạng kết nối hay nói cách khác cấu trúc topo mạng kết nối Các topo mơ hình xử lý lựa chọn để phân tích luận án nhìn chung cịn hạn chế số lượng độ phức tạp Vì vậy, cần tiếp tục nghiên cứu cấu trúc mạng kết nối khác cần đưa vào nghiên cứu mơ hình phức tạp sát với thực tế Các công cụ phần mềm khác sử dụng để kiểm chứng lại kết từ mơ hình xây dựng nhằm đảm bảo tính đắn phương pháp đề xuất 114 Tài liệu tham khảo [1] Allam Mousa and Ahmad Hamad “Evaluation of the RC4 Algorithm for Data Encryption” International Journal of Computer Science and Applications, Vol 3, No 2, June 2006 [2] Amdahl, Gene M "Validity of the Single Processor Approach to Achieving Large Scale Computing Capabilities” Reprinted from the AFIPS Conference Proceedings, Vol 30 (Atlantic City, NJ, Apr 18–20), AFIPS Press, Reston, Va., pp 483–485, 1967 [3] Apostal, D “Password recovery using MPI and CUDA” 19th International Conference on High Performance Computing, ISBN 978-1-4673-2370-3, 2012 [4] Apostal, D., Foerster, K., Chatterjee, A., & Desell, T (2012, December) "Password recovery using MPI and CUDA In High Performance Computing (HiPC)" 2012 19th International Conference on (pp 1-9) IEEE [5] Armin Zimmermann, Michael Knoke “TimeNET 4.0A Software Tool for the Performability evaluation with Stochastic and Colored Petri Nets User Guide Technische Universit at Berlin Real-Time Systems and Robotics Group, Faculty of EE&CS Technical Report 2007-13, ISSN: 1436-9915, August 2007 [6] Barney, Blaise "Introduction to Parallel Computing” Lawrence Livermore National Laboratory” 2012 [7] Baskett, Forest, et al "Open, closed, and mixed networks of queues with different classes of customers" Journal of the ACM (JACM) 22.2, Pp 248260, 1975 [8] Bause, Falko, and Pieter S Kritzinger "Stochastic Petri Nets" Stochastic Petri Nets” Vieweg+ Teubner Verlag, Pp133-140, 2002 [9] Bischof, Christian, ed “Parallel Computing: Architectures, Algorithms, and Applications” Vol 15 IOS Press, 2008 [10] Blaise Barney ”Introduction to Parallel computing” Lawrence Livermore National Laboratory, 2014 [11] Bolch, S Greiner, H de Meer, K S Trivedi “Queueing Networks and Markov Chains: Modelling and Performance Evaluation with Computer Science Applications” Second Edition, A Jonn Wley&Sons,Inc., Publication, 2006 [12] Boris Grot and Stephen W Keckler ”Scalable On-Chip Interconnect Topologies” Appears in CMP-MSI 2008: 2nd Workshop on Chip Multiprocessor Memory Systems and Interconnects [13] Borisenko, Alexey "Performance Evaluation in Parallel Systems" School of Information Technology, Ottawa University, Canada, 2010 [14] Borkar, Shekhar "Thousand core chips: a technology perspective" Proceedings of the 44th annual Design Automation Conference ACM, 2007 115 [15] Brett Stanley Feero “Networks-on-Chip in a Three-Dimensional Environment: A Performance Evaluation” IEEE transactions on computers, Vol 58, No 1, January 2009 [16] C R Tripathy and N Adhikari “On a new Multicomputer interconnection topology for massively parallel systems” International Journal of Distributed and Parallel Systems (IJDPS) Vol.2, No.4, July 2011 [17] Chai, Lei, Qi Gao, and Dhabaleswar K Panda "Understanding the impact of multi-core architecture in cluster computing: A case study with intel dual-core system" Cluster Computing and the Grid, 2007 CCGRID 2007 Seventh IEEE International Symposium on IEEE, 2007 [18] Chris Groer, Bruce Golden, Edward Wasil “A Paralel Algorithm for the Vehicle Routing Problema” May 2010 [19] Chugh, Abhimanyu, and Jeremy Bradley "Algorithms for System Performance Analysis” MEng thesis, Imperial College London (2012) [20] Ciardo, Gianfranco, et al "Modeling a scalable high-speed interconnect with stochastic Petri nets” Petri Nets and Performance Models, IEEE International Workshop on IEEE Computer Society, 1995 [21] Cristobal A.Navarro, et al “A Survey on Parallel Computing and its Applications in Data-Parallel Problems Using GPU architectures” Commun Comput Phys doi: 10.4208/cicp.110113.010813a Vol 15, No 2, pp 285329, February, 2014 [22] Culler,et al “Parallel computer architecture: a hardware/software approach” Gulf Professional Publishing, 1999 [23] Daduna, Hans "Passage times for overtake-free paths in Gordon-Newell networks” Advances in Applied Probability, Pp 672-686, 1982 [24] Daniel Sanchez, George Michelogiannakis and Christos Kozyrakis “An Analysis of On-Chip Interconnection Networks for Large-Scale Chip Multiprocessors” ACM Transactions on Architecture and Code Optimization, Vol 7, No 1, Article 4, Publication date: April 2010 [25] Dattatreya, Galigekere R “Performance analysis of queuing and computer networks” Crc Press, 2008 [26] David, René, and Hassane Alla "Petri nets for modeling of dynamic systems: A survey” Automatica 30.2: Pp 175-202, 1994 [27] Dongarra, Jack, et al "High performance computing: Clusters, constellations, MPPs, and future directions” Lawrence Berkeley National Laboratory, 2003 [28] Edward D Lazowska, John Zahorjan, G Scott Graham, Kenneth C Sevcik “Quantitative System Performance Computer System Analysis Using Queueing Network Models” homes.cs.washington.edu/~lazowska/qsp [29] El-Helw, Ismail, Rutger Hofman, and Henri E Bal "Glasswing: accelerating mapreduce on multi-core and many-core clusters” Proceedings of the 23rd 116 international symposium on High-performance parallel and distributed computing ACM, 2014 [30] El-Rewini, Hesham, and Mostafa Abd-El-Barr “Advanced computer architecture and parallel processing” Vol 42 John Wiley & Sons, 2005 [31] Fashanu, et al “Performance Analysis of a Parallel Computing Algorithm Developed for Space Weather Simulation” International Journal of Advancements in Research & Technology Volume 1, Issue 7, 2012 ISSN 2278-7763, 2012 [32] Giovanni Giambene “Queuing Theory and Telecommunications: Networks and Applications” ISBN-13: 978-0387240657 ISBN-10: 0387240659 Edition: 2005 [33] Glenn K Lockwood,”Dual-Rail QDR as an Alternative to FDR Infiniband” http://glennklockwood.blogspot.com/2013/05/fdr-infiniband-vs-dual-railqdr.html 2013 [34] Gong, Qiguo, K K Lai, and Shouyang Wang "Supply chain networks: Closed Jackson network models and properties” International Journal of Production Economics 113.2, Pp567-574, 2008 [35] Gottlieb, Allan; Almasi, George S “Highly parallel computing” Redwood City, Calif.: Benjamin/Cummings ISBN 0-8053-0177-1 1989 [36] Gropp, W et al "The Sourcebook of Parallel Computing The Morgan Kaufmann Series in Computer Architecture and Design", 2002, ISBN-13: 9781558608719 842 pages [37] Gu, Rentao, Yaojun Qiao, and Yuefeng Ji "Optical or Electrical Interconnects: Quantitative Comparison from Parallel Computing Performance View” Global Telecommunications Conference, 2008 IEEE GLOBECOM 2008 IEEE IEEE, 2008 [38] Gustafson J.L Reevaluating Amdahl’s Law Communications of the ACM, Volume 31 Issue 5, 1988, Pages 532-553 [39] Haoqiang Jin, et al “High performance computing using MPI and OpenMP on multi-core parallel systems” Parallel Computing, Volume 37, Issue 9, September 2011, Pages 562–575 Elserver [40] Harchol-Balter, Mor “Performance Modeling and Design of Computer Systems: Queueing Theory in Action” Cambridge University Press, 2013 [41] Hayashida, Ulisses Kendi, et al "Generating parallel algorithms for cluster and grid computing” Computational Science–ICCS 2005 Springer Berlin Heidelberg, Pp509-516, 2005 [42] He, Bingsheng, et al "Mars: a MapReduce framework on graphics processors” Proceedings of the 17th international conference on Parallel architectures and compilation techniques ACM, 2008 [43] Hill, Mark D., and Michael R Marty "Amdahl's Law in the Multicore Era” IEEE Computer 41.7: Pp 33-38, 2008 117 [44] Hoefler, T Schneider, A Lumsdaine "Accurately measuring overhead, communication time and progression of blocking and non-blocking collective operations at massive scale" International Journal of Parallel, Emergent and Distributed Systems- Performance evaluation of ubiquitous computing and networked systems archive, Volume 25 Issue 4, August 2010, Pages 241-258 [45] Homayun Motameni, et al “Modeling and Simulation of Parallelism by Colored Petri Nets” World Applied Sciences Journal 19 (5): 710-713, ISSN 1818-4952, 2012 [46] Hu, G., Ma, J., & Huang, B "Password recovery for RAR files using CUDA In Dependable, Autonomic and Secure Computing" DASC'09 Eighth IEEE International Conference on (pp 486-490) , 2009 [47] Hu, Lei, and Ian Gorton "Performance evaluation for parallel systems: a survey" University of New South Wales, School of Computer Science and Engineering, 1997 [48] Hwang K and Xu Z "Scalable Parallel Computing: Technology, Architecture, Programming" McGraw-Hill, NY, 1998, ISBN-10: 0070317984 [49] Hwang,et al “Advanced computer architecture: parallelism, scalability, programmability” Vol 199 New York: McGraw-Hill, 1993 [50] Jadhav, S “Advanced Computer Architecture and Computing” Technical Publications, 2009 [51] Jayasimha, D N., Bilal Zafar, and Yatin Hoskote "On-chip interconnection networks: why they are different and how to compare them” Platform Architecture Research, Intel Corporation, 2006 [52] Jensen, Kurt "Coloured Petri Nets (2 ed.)" Berlin: Heidelberg p 234 ISBN 3-540-60943-1 1996 [53] John Mellor-Crummey “Caching for Chip Multiprocessor" Department of Computer Science Rice University, 8/2009 [54] John Mellor-Crummey,”On Tiled Multicore Microprocessors” Department of Computer Science Rice University COMP 522, Lecture 4, September 2009 [55] Katayama, Yasunao, and Atsuya Okazaki "Optical interconnect opportunities for future server memory systems” High Performance Computer Architecture, 2007 HPCA 2007 IEEE 13th International Symposium on IEEE, 2007 [56] Kirk, David "NVIDIA CUDA software and GPU parallel computing architecture” ISMM Vol 2007 [57] Kotsis, Gabriele "Interconnection topologies and routing for parallel processing systems" ACPC-Austrian Center for Parallel Computation, 1992 [58] Kumar, Rakesh, Victor Zyuban, and Dean M Tullsen "Interconnections in multi-core architectures: Understanding mechanisms, overheads and scaling” Computer Architecture, 2005 ISCA'05 Proceedings 32nd International Symposium on IEEE, 2005 118 [59] Laforenza, Domenico "Parallel computer architectures: state of the art and trends” Theoretica chimica acta 79.3-4 (1991): 155-167 [60] Lam, Chuck “Hadoop in action” Manning Publications Co., 2010 [61] Lewis and H El-Rewini "Introduction to Parallel Computing" Prentice-Hall, Englewood Cliffs, NJ, 1992 [62] Lim, Jay WY, et al "Performance analysis of parallel computing in a distributed overlay network” TENCON 2011-2011 IEEE Region 10 Conference IEEE, 2011 [63] Liu, T S., and S B Chiou "The application of Petri nets to failure analysis” Reliability Engineering & System Safety 57.2: Pp 129-142, 1997 [64] Mahsa Moazez, Farshad Safaei, Majid Rezazadeh “Design and Implementation of Multistage Interconnection Networks for SoC Networks” International Journal of Computer Science, Engineering and Information Technology (IJCSEIT), Vol.2, No.5, October 2012 [65] Marks, Michał, et al Heterogenous GPU/GPU cluster for high performance computing in cryptography” Computer Science 13.2: 63-79, 2012 [66] Marsan, M Ajmone, et al "Modelling with generalized stochastic petri nets" ACM SIGMETRICS Performance Evaluation Review 26.2 (1998): [67] Martin, Richard P., et al “Effects of communication latency, overhead, and bandwidth in a cluster architecture” Vol 25 No ACM, 1997 [68] Michael J Quinn "Parallel programming in C with MPI and OpenMP" McGraw - Hill, 2004, ISBN-10: 0072822562 544 pages [69] Miguel-Alonso, José, Cruz Izu, and J A Gregorio "Improving the performance of large interconnection networks using congestion-control mechanisms” Performance Evaluation 65.3, Pp203-211, 2008 [70] Nikita Nikitin, Jordi Cortadella “A performance analytical model for Networkon-Chip with constant service time routers” ICCAD’09, November 2–5, 2009, San Jose, California, USA, 2009 [71] O’Malley, Owen, and Arun C Murthy Winning a 60 second dash with a yellow elephant” , Proceedings of sort benchmark (2009) [72] Oancea,et al "Integrating R and Hadoop for Big Data Analysis” arXiv preprint arXiv:1407.4908 (2014) [73] Pacheco, Peter S “Parallel programming with MPI” Morgan Kaufmann, 1997 [74] Patil, V., and P Soni "Hadoop skeleton & fault tolerance in Hadoop clusters” International Journal of Application or Innovation in Engineering & Management 2.2: Pp 247-250, 2013 [75] Paul Beekhuizen “Performance Analysis of Networks on Chips" Eindhoven University, ISBN 978-90-386-2144-9, 2009 [76] Peterson, James Lyle "Petri Net Theory and the Modeling of Systems" Prentice Hall ISBN 0-13-661983-5, 1981 119 [77] Petracca, Michele, et al "Design exploration of optical interconnection networks for chip multiprocessors” High Performance Interconnects, 2008 16th IEEE Symposium on IEEE, 2008 [78] Petre Anghelescu “Parallel Algrithms for Matrix Multiplication” 2nd International Conference on Future Computers in Education Lecture Notes in Information Technology, Vols.23-24, 2012 [79] Petri, Carl A Kommunikation mit Automaten Ph D Thesis University of Bonn 1962 [80] Puigjaner, Ramon "Performance modelling of computer networks” Proceedings of the 2003 IFIP/ACM Latin America conference on Towards a Latin American agenda for network research ACM, 2003 [81] Rabenseifner "Hybrid Parallel Programming: Performance Problems and Chances" In Proceedings of the 45th Cray User Group Conference, pages 12– 16, 2003 [82] Rajan, A and Joshi, B.K “Performance comparison of 20 Gbps and 40 Gbps InfiniBand interconnect Computing for Sustainable Global Development” 2014 International Conference on 5-7 March 2014 Page(s): 253 – 258 Print ISBN: 978-93-80544-10-6 [83] Rajesh, et al “Performance Analysis of Parallel Processing Systems” International Journal of Emerging Technology and Advanced Engineering, ISSN 2250-2459, Volume 2, Issue 3, March 2012 [84] Rewini, Hesham, and Mostafa Abd-El-Barr "Advanced computer architecture and parallel processing" Vol 42 John Wiley & Sons, 2005 [85] Rinard, Martin C "Communication optimizations for parallel computing using data access information” Proceedings of the 1995 ACM/IEEE conference on Supercomputing ACM, 1995 [86] Rinku Gupta, Vishvesh Sahasrabudhe, Toby Sebastian, Rizwan Ali ”An Introduction to DDR InfiniBand” Reprinted from Dell Power Solutions” August 2007 Copyright © 2007 Dell Inc [87] Sandip K.Bhagat, et al “Parallel Algorithms for Matrix Multiplication” International Journal of Networking & Parallel Computing Volume 1, Issue 2, November, 2012 [88] Sanjay K Bose “Queueing Network Classification and Basic Concepts" 2002 www.iitg.ac.in/skbose/qbook/ [89] Savage, John E., and Mohammad Zubair "A unified model for multicore architectures” Proceedings of the 1st international forum on Next-generation multicore/manycore technologies ACM, 2008 [90] Schlechter, Kira "Hershey Medical Center to open redesigned emergency room" The Patriot-News, March 2, 2009 [91] Stephen W Keckler, Kunle Olukotun,H Peter Hofstee “Multicore Processors and Systems” Spinger publishing, ISBN 978-1-4419-0262-7, 2009 120 [92] Sun, Xian-He, and Yong Chen Reevaluating Amdahl’s law in the multicore era” Journal of Parallel and Distributed Computing 70.2, Pp 183-188, 2010 [93] Sundarapandian, "Probability, Statistics and Queueing Theory" PHI Learning ISBN 8120338448, 2009 [94] Tadao Murata “Petri Nets: Properties, Analysis and Applications" Proceeding of the IEEE, vol 77, No.4, april 1989 [95] Thomas Rauber and Gudula Rünger "Parallel Programming: for Multicore and Cluster Systems" Springer, 2013, ISBN 978-3-642-37801-0 516 pages [96] Van der Aalst, Wil MP "The application of Petri nets to workflow management” Journal of circuits, systems, and computers 8.01: Pp 21-66, 1998 [97] Vipin Kuma, Ananth Grama, Anshul Gupta, George Karypis “Introduction to parallel computing” Addison Wesley, 2003, ISBN: 0-201-64865-2 [98] Walrand, Jean, and P Varaiya "Sojourn times and the overtaking condition in Jacksonian networks” Advances in Applied Probability: pp 1000-1018, 1980 [99] Wang, Zhanghu, Pin Lv, and Changwen Zheng "CUDA on Hadoop: A Mixed Computing Framework for Massive Data Processing Foundations and Practical Applications of Cognitive Systems and Information Processing” Springer Berlin Heidelberg Pp 253-260, 2014 [100] William Stallings “Computer organization and architecture designing for performance” 8th Edition, Prentice Hall, ISBN-13: 978-0-13-607373-4, 2010 [101] Yeo, Chee Shin, et al "Cluster computing: high-performance, highavailability, and high-throughput processing on a network of computers” Handbook of nature-inspired and innovative computing Springer US, 2006 521-551 [102] Zhu, Yi, et al "Advancing supercomputer performance through interconnection topology synthesis” Proceedings of the 2008 IEEE/ACM International Conference on Computer-Aided Design IEEE Press, 2008 121 Danh mục cơng trình cơng bố luận án Hồ Khánh Lâm, Huỳnh Quyết Thắng, Nguyễn Minh Quý “Phân tích hiệu vi xử lý đa lõi CPFQN GSPN", Tạp chí Nghiên cứu khoa học công nghệ quân sự, Số 16 năm 2011 (tháng 12), ISSN 1859-1043, trang 179-186 Nguyễn Minh Quý, Hồ Khánh Lâm, Huỳnh Quyết Thắng “Phân tích ảnh hưởng mạng liên kết đến hiệu vi xử lý đa lõi” Tạp chí Nghiên cứu khoa học cơng nghệ quân sự, số 16 năm 2011 (tháng 12), ISSN 18591043, trang 187-198 Nguyễn Minh Quý, Hồ Khánh Lâm “Phân tích hiệu kiến trúc chip đa lõi”, Kỷ yếu Hội nghị Quốc gia lần thứ VI Nghiên cứu ứng dụng Công nghệ thông tin (FAIR) - Huế, ngày 20 – 21/6/2013, ISBN: 978-604-913-165-3, trang 230-236 Nguyen Minh Quy, Ho Khanh Lam, Huynh Quyet Thang “Analysis of Effectiveness of Communication Overheads in the Parallel Computing System Using the Closed Product Form Queuing Network” RIVF-2013: The 10th IEEE RIVF International Conference on Computing and Communication Technologies, Hanoi, Vietnam, 10-13 November 2013, pp 131-134, ISBN 978-1-4799-1350-3, 2014 Nguyen Minh Quy, Huynh Quyet Thang, Ho Khanh Lam “Analysis of Effectiveness of Communication Overhead in the Parallel Computing System Using Stochastic Colored Petri Nets”, American Journal of Networks and Communications, ISSN 2326-8964, Vol 2, pp 29-38, 2014 Nguyễn Minh Quý, Huỳnh Quyết Thắng, Hồ Khánh Lâm “Phân tích ảnh hưởng trễ truyền thơng đến hiệu hệ thống tính tốn song song tốn khơi phục mật Microsoft Word” Tạp chí Khoa học Cơng nghệ Trường đại học kỹ thuật số 104, ISSN 0868-3980, trang 4145, 2015 122 ... phân tích hiệu hệ thống tính tốn song song có phạm vi rộng phức tạp Vì vậy, phạm vi nghiên cứu luận án phân tích ảnh hưởng trễ truyền thông đến hiệu hệ thống tính tốn song song Các hệ thống tính. .. tiến hành phân tích đánh giá ảnh hưởng mạng liên kết đến hiệu hệ thống - Chương 4: Mở rộng phân tích ảnh hưởng trễ truyền thơng đến hiệu hệ thống tính tốn song song mơi trường cụm máy tính Luận... chạy hệ thống tính tốn song song thấy rõ ảnh hưởng trễ truyền thông đến hiệu hệ thống Phương pháp lý thuyết sử dụng để phân tích trễ truyền thơng luận án mạng hàng đợi mạng Petri Các hệ thống tính

Định dạng
Số trang	135
Dung lượng	3,72 MB