Bài viết Ảnh hưởng của tổ chức cache đa cấp và mạng liên kết đến hiệu năng của chip đa lõi trình bày một trong những vấn đề được quan tâm trong công nghệ chip đa lõi là tổ chức cache, mạng liên kết các lõi xử lý trên chip, và đưa ra các tính toán đánh giá hiệu năng của tổ chức cache đa cấp thông qua xác định mức tăng tốc đạt được, và đề xuất giải pháp xác định trễ truyền thông của mạng liên kết các lõi xử lý – một nhân tố ảnh hưởng đến tốc độ thực hiện tính toán song song của chip đa lõi.
TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 5(78).2014 73 ẢNH HƯỞNG CỦA TỔ CHỨC CACHE ĐA CẤP VÀ MẠNG LIÊN KẾT ĐẾN HIỆU NĂNG CỦA CHIP ĐA LÕI EFFECTS OF MULTI-LEVEL CACHE ORGANIZATION AND INTERCONNECT NETWORK ON PERFORMANCE OF MULTI-CORE CHIP Hồ Văn Phi1), Hồ Khánh Lâm2) 1) Trường Đại học Quy Nhơn; Email: hvphi@ftt.edu.vn 2) Trường Đại học sư phạm kỹ thuật Hưng n; Email: lamhokhanh@gmail.com Tóm tắt: Ngày nay, cơng nghệ chip ASIC, PLD, FPGA tạo hội cho nhà nghiên cứu để thiết kế chế tạo chip xử lý đa lõi Trong đó, cơng nghệ chip đa lõi với tổ chức cache đa cấp lựa chọn cấu hình mạng liên kết lõi đảm bảo hiệu cao cho ứng dụng chip đa lõi hệ thống tính tốn song song tốc độ cao xu hướng nghiên cứu chế tạo Bài báo trình bày vấn đề được quan tâm công nghệ chip đa lõi tổ chức cache, mạng liên kết lõi xử lý chip, đưa tính tốn đánh giá hiệu tổ chức cache đa cấp thông qua xác định mức tăng tốc đạt được, đề xuất giải pháp xác định trễ truyền thông mạng liên kết lõi xử lý – nhân tố ảnh hưởng đến tốc độ thực tính tốn song song chip đa lõi Abstract: Today, chip ASIC, PLD and FPGA technology has created opportunities for researchers to design and manufacture processor chips Meanwhile, the multi-core chip technology with a multi-level cache organization and a choice of network configuration connecting cores to ensure high performance for multi-core chip applications in the speed parallel computing systems is a trend of researching and manufacturing today The article stated that one of the concerns in the multi-core chip technology is cache organization, core interconnect networks on chip, and offering calculations for performance evaluation of multilevel cache organization through determining acceleration rate achieving, and proposes solutions to determine communication overhead of a core processor interconnect network - a factor that affects the execution speed of parallel computing of multi-core chip Từ khóa: Chip đa lõi; cache đa cấp; mạng liên kết chip; hiệu năng; trễ truyền thông Key words: Chip multi-core; multi-level cache; interconnect networks on chip; performance; communication overhead Đặt vấn đề Với xu hướng phát triển công nghệ vi xử lý đa lõi tiếp tục tăng số lượng lõi chip, làm gia tăng tính phức tạp thành phần chip đa xử lý đa lõi Hiệu hệ thống vi xử lý đa lõi phụ thuộc nhiều vào số lượng lõi, số luồng lõi, tổ chức cache, số cấp cache cấu trúc mạng liên kết cấp cache chip [1] Hiện nay, nhà sản xuất đã sản xuất thương mại chip đa xử lý đa lõi với số lõi 2, 4, 6, lõi Các kiến trúc đa lõi thường sử dụng cấp cache với L1 cache riêng cho lõi L2 cache chia sẻ cho tất cả lõi như: xử lý UltraSPARCT2 8-lõi, UltraSPARC T3 16-lõi, Rock 16-lõi Sun; Core duo 2-lõi, Core quad 4-lõi Intel Cũng có số chip đa xử lý đa lõi có cấp cache với L1 cache riêng cho lõi, L2 cache riêng cho lõi hoặc chia sẻ cho hay lõi L3 cache chia sẻ cho tất cả lõi như: xử lý Dunnington 6-lõi, Nehalem core i5 4-lõi, core i7 6-lõi Xeon E7 10lõi Intel, Opteron 8-lõi AMD… Tuy nhiên, có số chip chỉ sử dụng cấp cache với L2 cache riêng cho lõi như: xử lý Niagara 5-lõi Sun, Tile64 64-lõi Tilera [3] Hầu hết kiến trúc xử lý đa lõi sử dụng mạng liên kết chip theo cấu hình: bus chia sẻ, crossbar-switched 2Dmesh [1, 3, 4] Các cấu hình liên kết chỉ phù hợp cho chip đa lõi có quy mô nhỏ, có độ trễ truyền thông cao khả mở rộng thấp Do đó, số lượng lõi chip tăng sẽ gây trễ truyền thông lớn, mức tăng tốc giảm gây nghẽn nút cổ chai làm suy giảm hiệu khả mở rộng xử lý Đây thách thức lớn cho nhà nghiên cứu sản xuất chip đa lõi [2] Trong báo chúng tơi tiến hành tính tốn, so sánh hệ thống phân cấp cache cấu trúc mạng liên kết khác chip để đánh giá ảnh hưởng tổ chức cache đa cấp mạng liên kết chip đa lõi đến hiệu xử lý, từ đó đề xuất tổ chức cache cấu hình mạng liên kết phù hợp cho kiến trúc đa lõi nhằm nâng cao hiệu chip xử lý đa lõi Giải vấn đề 2.1 Hiệu của tổ chức cache đa cấp 2.1.1 Cache riêng cache chia sẻ Hầu hết chip vi xử lý đa lõi thiết kế cấp cache cấp cache cuối cùng cache thống nhất, chia sẻ thông minh Kỹ thuật cache chia sẻ thông minh đảm bảo tốc độ truyền liệu lõi nhanh, tỷ số hiệu năng/chi phí cao so với cache riêng, tăng hiệu quả sử dụng cache chia sẻ, giảm dư thừa liệu lưu trữ giảm lưu lượng bus nhớ Ngoài ra, tổ chức còn có ưu điểm đảm bảo tính quán cache, tiết kiệm băng thông nhớ, đồng thời dung lượng cache chia sẻ lớn làm tỷ số trượt cache (cache miss rate) giảm nhiều so với cache riêng băng thông bus tăng làm tăng tốc độ truyền thông cache nhớ Tuy nhiên, cache chia sẻ có nhược điểm thời gian trúng cache (cache hit time) lớn so với cache riêng [1, 3] Khi số cấp cache chip cấp (L1, L2, L3 cache), để đánh giá hiệu tổ chức cache riêng chia sẻ ở cấp cache cuối, giả sử: xử lý làm việc ở 2GHz - Kích thước L1 cache (L1 cache size) = 32KB, L1 hit Hồ Văn Phi, Hồ Khánh Lâm 74 time = 1ns, L1 miss rate = 15% - Kích thước L2 cache (L2 cache size) = 256 KB, L2 hit time = 3ns, L2 miss rate = 30%, - Đối với xử lý có L3 cache riêng: Kích thước L3 cache (L3 cache size) = 1MB, L3 hit time = 5ns, L3 miss rate = 40%, kích thước khối nhớ L3 cache (L3 cache block size) = 64B - Đối với xử lý có L3 cache chia sẻ: Kích thước L3 cache (L3 cache size) = 4MB, L3 hit time = 10ns, L3 miss rate = 20%, kích thước khối nhớ L3 cache (L3 cache block size) = 64B - Bộ nhớ chính: Độ rộng bus nhớ (memory bus wide) = 64bits, trễ truy cập nhớ (memory access latency) = 40ns, tốc độ bus (bus speed) = 1000MHz hay chu kỳ bus (bus cycle) = 1ns Sử dụng công thức [3], tính tốn thời gian truy cập nhớ trung bình AMAT (Average memory access time): Transfer rate of memory bus = memory bus wide / bus cycle (1) = 64bits /1 ns = 8B / ns Time to transfer one L3cache block = L3 cache block size / transfer rate of memory bus = 64B / (8B / ns) = 8ns (2) L3 miss penalty = memory access latency + time to transfer one L3cache block = 40ns + 8ns = 48ns (3) a Đối với bộ xử lý có L3 cache riêng: AMAT1 = L1 hit time + L1 miss rate× (L2 hit time + L2 miss rate (L3 hit time + L3 miss rate × L3 miss penalty)) = 1+ 0,15× (3 + 0,3× (5 + 0, 4× 48)) = 2,54 ns b Đới với bợ xử lý có L3 cache chia sẻ: AMAT = L1 hit time + L1 miss rate× (L2 hit time + L2 miss rate× (L3 hit time + L3 miss rate × L3 miss penalty)) = 1+ 0,15× (3 + 0,3× (10 + 0, 2× 48)) = 2,33ns thực CPIexecution , xác định bằng số chu kỳ đồng hồ/lệnh (clock cycles per instruction) Trung bình với lệnh số chu kỳ đồng hồ trì hoãn nhớ MSPI xác định bằng số chu kỳ đồng hồ trì hoãn nhớ/lệnh (memory stalls clock cycle per instruction): Thời gian chu kỳ đồng hồ C = 1/ tốc độ đồng hồ (1/clock rate), xác định bằng giây/chu kỳ (seconds/cycle) Để xác định thời gian thực chương trình CPU, xét hai trường hợp: CPU có cấp cache CPU có cấp cache với cấp cache cuối cache chia sẻ: Mặc định rằng chương trình có thông số sau: tổng số lệnh I = 10000000 lệnh, CPIexecution = 2,5 chu kỳ/lệnh, tốc độ đồng hồ CPU (CPU clock rate) = 2GHz Giả sử 1000 lệnh tham chiếu nhớ CPU có 150 lệnh trượt L1 cache hay L1 miss rate = 0,15, thời gian trúng L1 cache (L1 hit time) = chu kỳ đồng hồ; có 45 lệnh trượt L2 cache hay L2 miss rate = 0,3, L2 hit time = chu kỳ đồng hồ; có lệnh trượt L3 cache tham chiếu vào nhớ hay L3 miss rate = 0,2; L3 hit time = 20 chu kỳ đồng hồ; L3 miss penalty = 96 chu kỳ đồng hồ; lệnh thời gian truy cập nhớ (memory accesses per instruction) = 1,5 chu kỳ đồng hồ Sử dụng công thức [3], xác định được: a Đối với CPU có cấp cache MSPI1 = memory accesses per instruction × L1 miss rate × (L2 hit time + L2 miss rate(L3 hit time + L3 miss rate × L3 miss penalty)) = 1,5× 0,15 × (6 + 0,3 × (20 + 0, ×96)) = chu kỳ đồng hồ (4) CPU1execution time = Iì(CPIexecution + MPSI1)×C = (107 )×(2,5 + 4)×(0,5×10-9 ) = 0, 033s (6) (7) b Đối với CPU có cấp cache MSPI2 = memory accesses per instruction × L1 miss rate ×(L2 hit time + L2 miss rate × L2 miss penalty)) (8) = 1,5× 0,15 × (6 0,3 ×96) = 7,83 chu kú ®ång hå (5) Kết quả tính toán cho thấy rằng với chip xử lý đa lõi có cấp cache, thời gian truy cập nhớ trung bình (AMAT) chip có cache cấp cuối cache chia sẻ nhỏ so với cache cấp cuối cache riêng 2.1.2 Tốc độ thực chương trình Một chương trình ứng dụng biên dịch để chạy máy tính với thơng số cung cấp bao gồm [3]: Tổng số lệnh chương trình I, xác định bằng số lệnh/chương trình (instructions per program) Một lệnh trung bình cần số chu kỳ đồng hồ để CPU2execution time = I×(CPIexecution + MPSI2)×C = (107 )×(2,5 + 7,83)×(0,5×10-9 ) 0,052s (9) Mức tăng tốc thực chương trình CPU có cấp cache so với cấp cache là: Speedup = CPU2execution time CPU1execution time = 0, 052 0, 033 = 1,58 (10) Từ kết quả trên, chứng tỏ rằng số cấp cache tăng dẫn đến tốc độ thực chương trình CPU tăng tức hiệu xử lý nâng cao đáng kể 2.2 Ảnh hưởng của mạng liên kết đến hiệu của chip vi xử lý đa lõi TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 5(78).2014 Hiệu chip vi xử lý đa lõi với đa cấp cache chỉ nâng cao đáng kể chúng sử dụng cho ứng dụng song song Các ứng dụng song song thường chia hai phần: phần thực tuần tự vốn có phần thực song song Khi đó, theo luật Amdahl [5, 6] Mức tăng tốc tối đa bỏ qua trễ truyền thông xác định: TO (p, n) phụ thuộc vào cấu hình mạng liên kết lõi chip Trong mục 2.1.2 đã lựa chọn tổ chức cache cấp với L3 cache chia sẻ, đó lõi liên kết với thông qua thành phần chuyển mạch kết nối với L3 cache hình Core L1I L1D … S= … (1- f) + f Tseq (p) + Tpar (p) Tseq (p) + Tpar (p) n (12) + TO (p, n) Tseq (p) + Tpar (p) (13) Tseq (p) + TO (p, n) Nếu phần thực song song gồm luồng chạy song song lõi xử lý thì mức tăng tốc phụ thuộc vào Tseq(p) trễ truyền thông TO(p,n) luồng chạy lõi Lập trình song song phải đảm bảo cho Tseq(p) TO(p,n) tối thiểu Tổng thời gian thực chương trình chip đa lõi với tổ chức cache nhiều cấp thời gian thực CPU (CPUexecution time) = Tseq(p) + Tpar(p) Để xác định thời gian xét xử lý đa lõi cấp cache với L3 cache chia sẻ ở mục 2.1.2 theo kết quả (7) ta có: CPUexecution time = Tseq(p) + Tpar(p) = 0,033 Để xác định ảnh hưởng TO(p,n), cho rằng thời gian thực tuần tự bằng 10% tổng CPUexecution time, đó Tseq(p) = 0,003 Khi đó: S(p, n) = L1D … L1D … L1I … L2 L2 L2 sw sw sw n 0,033 0,003+T (p,n) O Interconnect L3 Memory Bus MM Trong đó: p: số lượng gói liệu - n: số lõi xử lý - Tseq(p): thời gian thực phần tuần tự - Tpar(p): thời gian thực phần song song - TO(p,n): trễ truyền thông lõi xử lý Ở đây, sử dụng công thức (12) để phân tích xác định trễ truyền thơng cho cấu hình mạng liên kết chip Khi n (số lõi chip) lớn, thì: S(p, n) = Core n Core L1I n (11) Trong đó: - f: tỷ lệ phần thực song song - 1-f : tỷ lệ phần thực tuần tự Mức tăng tốc S(p,n) tính đến trễ truyền thơng xác định: S(p, n) = 75 (14) Hình Chip đa lõi với tổ chức cache cấp: L1I, L1D, L2 riêng lẻ cho mỗi lõi và L3 cache chia sẻ cho tất cả các lõi Để phân tích, chúng tơi chọn số cấu hình mạng liên kết chip xử lý đa lõi phổ biến với tham số đặc trưng bảng Bảng Các thông số số cấu hình mạng liên kết chip đa xử lý [1,3,4 ] Degree (d) Aver Hop count (H) Bisection width (B) Star N 1 Ring (N+1)/3 2DMesh (2/3)N 1/2 2DTorus (1/2)N1/2 2N1/2 3DMesh N1/3 N2/3 3DTorus (3/4)N1/3 2N2/3 Mạng N1/2 Trong đó: - N = n: tổng số nút chuyển mạch mạng liên kết (tổng số lõi chip) - Degree (d): cấp độ nút số liên kết với nút chuyển mạch - Aver Hop count (H): khoảng cách định tuyến trung bình cặp nút chuyển mạch - Bisection width (B): độ rộng chia đôi số lượng liên kết lát cắt nhỏ mà nó tách mạng thành hai nửa bằng Chúng tơi đề xuất cơng thức tính trễ truyền thơng trung bình chip vi xử lý đa lõi sau: TO (p, n) = Hpw (t syn + t sw + t Inter-switch )π sw (15) Trong đó: - tInter-switch: trễ nút chuyển mạch - tsw: trễ nút chuyển mạch - tsyn: trễ cho đồng truyền thông nút gửi nhận gói liệu Hồ Văn Phi, Hồ Khánh Lâm 76 Cho rằng trễ tsw + tsyn = chu kỳ đồng hồ, trễ tInter-switch = chu kỳ đồng hồ - w: kích thước gói liệu (bits) - p : số lượng gói liệu Trễ truyền thông (ns); n = 32 Ring 16 32 64 128 256 1024 264.00 528.00 1056.002112.004224.008448.0033792.00 - π sw : xác suất định tuyến chuyển liệu qua chuyển 2DMesh 96.39 192.79 385.57 771.14 1542.283084.5712338.28 mạch mạng liên kết đến lõi khác Trễ truyền thơng nút chuyển mạch phải tính 3DMesh 81.27 162.55 325.10 650.20 1300.402600.8010403.19 đến xác suất định tuyến lưu lượng lõi π core xác suất định tuyến đến cấp cache chia sẻ π cache Các 2DTorus 72.41 144.82 289.63 579.26 1158.522317.059268.19 3DTorus 80.01 160.01 320.02 640.04 1280.082560.1610240.64 Trễ truyền thông (ns); n = 64 xác suất thỏa mãn điều kiện: π core + π cache + πsw = Ring (16) Để phân tích, chúng tơi chọn πsw = 0, w = bits Khi đó: 16 32 64 128 256 1024 520.00 1040.002080.004160.008320.0016640.00 66560.00 2DMesh 136.32 272.64 545.28 1090.562181.124362.2417448.96 2DTorus 102.40 204.80 409.60 819.20 1638.403276.8013107.20 3DMesh 102.40 204.80 409.60 819.20 1638.403276.8013107.20 3DTorus 100.80 201.60 403.20 806.40 1612.803225.6012902.40 TO = Hp(8)(2)(0, 2) = 3, 2Hp (17) Để xác định cơng thức tính độ trễ cho cấu hình mạng liên kết, kết hợp công thức (17) với kết quả H đã cho ở bảng Ở không xét đến cấu hình mạng Star vì mạng Star không phải mạng phân cấp nên không phù hợp với liên kết lõi chip Khi đó, công thức trễ truyền thông trung bình cho cấu hình mạng liên kết: TORing = 3, 2(n +1) TO2DMesh = TO2DTorus = 6, 3, 2 p (n +1)p; p n 2,13p n ; (18) p n = 1, 6p n ; Trễ truyền thông (ns); n = 16 16 32 64 128 256 16 32 64 128 256 1024 1032.002064.004128.008256.0016512.00 33024.00 132096.0 2DMesh 192.79 385.57 771.14 1542.283084.576169.1424676.56 2DTorus 144.82 289.63 579.26 1158.522317.054634.1018536.38 3DMesh 129.02 258.03 516.06 1032.132064.254128.5116514.04 3DTorus 127.00 254.00 508.00 1016.002032.004064.0016256.01 Chúng kết hợp công thức (14) (18) để tiến hành xác định mức tăng tốc cho cấu hình mạng liên kết chip đa lõi Các kết quả thu trình bày hình Mức tăng tốc; n = 16 Kết nghiên cứu bình luận 3.1 Kết nghiên cứu Từ cơng thức (18) chúng tơi tiến hành tính tốn, mơ phỏng cho trường hợp n = 16, 32, 64, 128 với p = 8, 16, 32, 64, 128, 256, 1024 Chúng thu kết quả trễ truyền thông cấu hình mạng liên kết hình 8 Ring Hình Trễ trùn thơng trung bình các mạng liên kết Ring, 2DMesh, 2DTorus, 3DMesh, 3DTorus, với số lõi chip: n = 16; 32; 64; 128 TO3DMesh = 3, 2p n ; 12, TO3DTorus = p n = 3,15p n Ring Trễ truyền thông (ns); n = 128 Ring 16 32 64 128 256 1024 10.999510.999010.998010.996010.992010.984110.9365 2DMesh 10.999810.999510.999010.998010.996010.992010.9681 2DTorus 10.999810.999610.999210.998510.997010.994010.9760 3DMesh 10.999810.999510.999110.998110.996210.992410.9698 3DTorus 10.999810.999510.999110.998110.996310.992610.9703 Mức tăng tốc; n = 32 1024 136.00 272.00 544.001088.002176.004352.0017408.00 2DMesh 68.16 136.32 272.64 545.28 1090.562181.128724.48 16 32 64 128 256 1024 2DTorus 51.20 102.40 204.80 409.60 819.20 1638.406553.60 Ring 3DMesh 64.51 129.02 258.03 516.06 1032.132064.258257.02 2DMesh 10.999610.999310.998610.997210.994310.988710.9549 3DTorus 63.50 127.00 254.00 508.00 1016.002032.008128.00 2DTorus 10.999710.999510.998910.997910.995810.991510.9661 10.999010.998110.996110.992310.984510.969110.8775 3DMesh 10.999710.999410.998810.997610.995210.990510.9620 3DTorus 10.999710.999410.998810.997710.995310.990610.9626 TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 5(78).2014 liên kết 3DTorus sẽ cho trễ truyền thông trung bình nhỏ mức tăng tốc xử lý lớn Mức tăng tốc; n = 64 Ring 16 32 64 128 256 1024 10.998110.996210.992410.984810.969610.939310.7612 2DMesh 10.999510.999010.998010.996010.992010.984010.9364 2DTorus 10.999610.999210.998510.997010.994010.988010.9521 3DMesh 10.999610.999210.998510.997010.994010.988010.9521 3DTorus 10.999610.999310.998510.997010.994110.988210.9529 Mức tăng tốc; n = 128 Ring 16 32 64 128 256 77 1024 10.996210.992410.984910.969810.939810.880210.5361 2DMesh 10.999310.998610.997210.994310.988710.977410.9103 2DTorus 10.999510.998910.997910.995810.991510.983010.9325 3DMesh 10.999510.999110.998110.996210.992410.984910.9398 3DTorus 10.999510.999110.998110.996310.992610.985110.9407 Hình Mức tăng tốc cho các mạng liên kết Ring, 2DMesh, 2DTorus, 3DMesh, 3DTorus, các trường hợp số lõi chip n = 16, 32, 64, 128 3.2 Bình luận Từ kết quả trên, với số lõi n số lượng gói liêu p giống nhau, so sánh trễ truyền thông trung bình mức tăng tốc xử lý cấu hình mạng liên kết chip, thấy rằng: Khi số lõi chip n < 64 thì mạng liên kết 2DTorus cho trễ truyền thông trung bình nhỏ mức tăng tốc xử lý lớn Tuy nhiên, số lõi chip tăng n 64 thì mạng Kết luận Các kết quả cho thấy rằng với chip vi xử lý đa lõi nên lựa chọn tổ chức cache cấp với L3 cache chia sẻ cho lõi mạng liên kết lõi chip 2DTorus ( n 64 ), mạng 3DTorus ( n 64 ) sẽ cho hiệu xử lý tốt Đóng góp nghiên cứu thông qua việc nghiên cứu ảnh hưởng tổ chức cache đa cấp mạng liên kết đến hiệu chip đa lõi, đã đề xuất mô hình tổ chức cache cấp với cấp cuối cache chia sẻ cấu hình mạng liên kết chip phù hợp với kiến trúc vi xử lý đa lõi nhằm cải thiện hiệu chip vi xử lý đa lõi Tài liệu tham khảo [1] S Keckler, K Olukotun, & H P Hofstee, “Multicore Processors and Systems”, New York, NY: Springer, 2009 [2] John D Owens, William J Dally, Ron Ho, D.N (Jay) Jayasimha, Stephen W Keckler, Li-Shiuan Peh, “Research Challenges For onChip Interconnection Networks”, IEEE Micro micr-27-05-owen.3d, 12/10/07, pp (96-108) [3] J.L Hennessy and D.A Patterson, “Computer Architecture: A Quantitative Approach”, 5th edition, Elsevier Inc, 2011 [4] [Daniel Sanchez, George Michelogiannakis, And Christos Kozyrakis, “An Analysis of On-Chip Interconnection Networks for Large-Scale Chip Multiprocessors”, ACM Transactions on Architecture and Code Optimization, Vol 7, No 1, Article 4, 2010 [5] Bashayer M Al-Babtain, Fajer J Al-Kanderi, Maha F Al-Fahad, and Imtiaz Ahmad, “A Survey on Amdahl's Law Extension in Multicore Architectures”, International Journal of New Computer Architectures and their Applications (IJNCAA) 3(3), 2013, pp (30-46) [6] Dong Hyuk Woo and Hsien-Hsin S Lee, “Extending Amdahl’s Law for Energy-Efficient Computing in the Many-Core Era”, IEEE Computer Society, 2008, pp (24-31) (BBT nhận bài: 03/01/2014, phản biện xong: 20/03/2014) ... hưởng tổ chức cache đa cấp mạng liên kết đến hiệu chip đa lõi, đa? ? đề xuất mô hình tổ chức cache cấp với cấp cuối cache chia sẻ cấu hình mạng liên kết chip phù hợp với kiến trúc vi xử lý đa lõi. .. Các kết quả cho thấy rằng với chip vi xử lý đa lõi nên lựa chọn tổ chức cache cấp với L3 cache chia sẻ cho lõi mạng liên kết lõi chip 2DTorus ( n 64 ), mạng 3DTorus ( n 64 ) sẽ cho hiệu. .. tốc tối đa bỏ qua trễ truyền thông xác định: TO (p, n) phụ thuộc vào cấu hình mạng liên kết lõi chip Trong mục 2.1.2 đa? ? lựa chọn tổ chức cache cấp với L3 cache chia sẻ, đó lõi liên kết với