2.3.1. Sự cần thiết của bảo vệ và khôi phục đƣờng
Nguyên nhân xảy ra sự cố trong mạng có thể đến từ nhiều nguyên nhân khác nhau: đƣờng truyền dẫn bị đứt, hiệu năng của các nút mạng bị quá tải, tài nguyên mạng không đủ dẫn đến tác nghẽn,… Những nguyên nhân này dẫn đến chất lƣợng mạng giảm sút do tình trạng mất gói và các hậu quả khác đi kèm có thể gây ảnh hƣởng tới một vùng hoặc toàn bộ mạng. Sự cố mạng có thể gom nhóm thành 2 loại:
Sự cố liên kết đƣờng truyền Sự cố thiết bị.
Với mạng thông thƣờng, để khắc phục các sự cố này đều sử dụng các định tuyến IGP để thích nghi và khắc phục sự cố mạng sau khi gặp sự cố. Khoảng thời gian từ lúc bắt đầu phát hiện sự cố đến khi sự cố đƣợc khắc phục hoàn toàn gọi là đƣợc gọi là quá trình hội tụ. Thời gian hội tụ này càng thấp thì số lƣợng gói tin mất đi trong khi gặp sự cố là càng ít. Do đó, tỷ lệ mất gói là một tham số quan trọng trong việc đánh giá chất lƣợng, năng lực mạng. Trên thực tế, các giao thức định tuyến IDP đã bộc lộ một số nhƣợc điểm sau:
Khi một liên kết bị đứt dẫn đến tắc nghẽn nội bộ tại một số khu vực. Tuy nhiên các khu vực khác trong mạng lại không đƣợc sử dụng, do đó dẫn đến tình trạng lãng phí tài nguyên mạng.
35
Thời gian hội tụ khá lớn đối với Topo mạng phức tạp, trong thời gian hội tụ mất gói xảy ra.
Nếu cấu hình giảm thời gian hội tụ xuống thấp thì có thể làm cho mạng quá nhạy cảm với các sự cố nhỏ nhƣ tình trạng liên kết bị “flapping” (tình trạng liên kết bị up/down liên tục). Khi hiện tƣợng này xảy ra, các thuật toán định tuyến dạng Link-State nhƣ OSPF/IS-IS, thuật toán SPF sẽ đƣợc tiến hành. Do đó nếu hiện tƣợng flapping kéo dài thì sẽ rất ảnh hƣởng đến hiệu năng của các nút, từ đó dẫn đến tình trạng mất ổn định mạng
Trong mạng MPLS, giao thức định tuyến nội miền là cần thiết. Do đó sẽ rất tồi tệ nếu để hiện tƣợng này xảy ra. Khi gặp một sự cố, nếu không có các cơ chế bảo vệ khôi phục đƣờng thì toàn mạng sẽ thực thi những thao tác sau để tiến hành khôi phục:
1. Khi một kết nối trên đƣờng truyền gặp sự cố, các LSP thông thƣờng tƣơng ứng với liên kết có sự cố sẽ bị hủy, thuật toán SPF sẽ phải thi hành lại để tính toán lại các bảng định tuyến, giao thức LDP thực hiện gắn nhãn lại cho các LSP mới.
2. Các LSP ràng buộc với liên kết gặp sự cố cũng sẽ bị hủy, các router biên ngõ vào (Headend-LSR) có các LSP ràng buộc bị hủy phải thi hành lại thuật toán CSPF để tính toán đƣờng LSP ràng buộc mới.
3. CR-LDP/RSVP-TE phải thực hiện thiết lập và báo hiệu LSP ràng buộc mới
4. Headend-LSR phải thực thi phƣơng thức ghép lƣu lƣợng của trung kế lƣu lƣợng lên LSP ràng buộc mới (thi hành SPF nếu sử dụng Autoroute Announce)
Các thao tác làm việc nhƣ trên sẽ dẫn đến thời gian hội tụ trong miền MPLS lớn hơn thời gian hội tụ trong mạng IP truyền thống. Do đó các cơ chế bảo vệ, khôi phục trong MPLS là rất cần thiết để đảm bảo chất lƣợng cũng nhƣ độ tin cậy của mạng mà trong đó tham số tỷ lệ mất gói ở mức tối thiểu đƣợc ƣu tiên cao nhất.
Các cơ chế bảo vệ và khôi phục xuất hiện nhằm khắc phục hoặc giảm thiểu sự ảnh hƣởng xấu của các sự cố lên toàn mạng MPLS. Cũng nhờ các cơ chế này mà chất lƣợng mạng cũng nhƣ độ tin cậy của MPLS đƣợc nâng cao hơn. Nhƣ ta đã biết, các gói tin khi đi vào miền MPLS sẽ đƣợc gãn nhãn và chuyển đi trong các đƣờng dẫn LSP, khi có sự cố xảy ra tại các nút và liêt kết của một LSP thì LSP đó sẽ không thể tiếp tục
36
chuyển tiếp gói tin đến đích bình thƣơng. Do đó, nguyên tắc đặt ra cơ bản cho các cơ chế bảo vệ, khôi phục là phải tức thì thay đổi/chuyển hƣớng lƣu lƣợng sang một LSP có ràng buộc khác để đảm bảo chất lƣợng dịch vụ của mạng cũng nhƣ độ chính xác của thông tin truyền đi. Một số khái niệm đƣợc nhắc đến trong phần này nhƣ sau:
- Đƣờng làm việc: Là đƣờng LSP truyền các gói tin (đã gán nhãn) trƣớc khi xảy ra sự cố mạng. Các cơ chế bảo vệ sinh ra để bảo vệ cho đƣờng này.
- Đƣờng khôi phục: Là đƣờng LSP đƣợc tái định tuyến sau khi xảy ra sự cố mạng, đƣợc thiết lập để bảo vệ cho đƣờng làm việc.
- PSL (Path Switch LSR): Là LSR đứng trƣớc vị trí lỗi trên đƣờng làm việc chịu trách nhiệm chuyển mạch hoặc tái tạo lƣu lƣợng sang đƣờng khôi phục.
- PML (Path merge LSR): Là LSR chịu trách nhiệm nhận lƣu lƣợng trên đƣờng khôi phục và sẽ: tái hợp nhất lƣu lƣợng trở về đƣờng làm việc, hoặc chuyển lƣu lƣợng ra khỏi miền MPLS nếu bản thân nó là đích.
- POR (Point of Repair): POR là một LSR chịu trách nhiệm sửa chữa một LSR, nó có thể là một PSL hoặc PML tùy ý theo cơ chế khôi phục nào đƣợc dùng. - FIS (Fault Indication Signal): Là bản tin chỉ thị có một lỗi xảy ra trên đƣờng
làm việc đã sửa chữa xong. FRS đƣợc chuyển tiếp cho tới khi nó đến đƣợc một LSR đảm nhận việc trả lại đƣờng nguyên thủy.
2.3.2. Phân loại các cơ chế bảo vệ khôi phục
2.3.2.1. Sửa chữa toàn mạng và sửa chữa cục bộ
Sửa chữa toàn mạng là cơ chế bảo vệ hoạt động khi sự cố xảy ra ở bất kì vị trí nào trên đƣờng làm việc. Trong cơ chế sửa chữa toàn mạng, router ngõ vào đƣợc thiết lập là điểm sửa chữa (POR). Ở các mạng lớn, điểm xảy ra lỗi thƣờng cách xa với router biên ngõ vào. Khi sự cố xảy ra, nút mạng xảy ra sự cố sẽ thông báo lại cho router ngõ vào bằng một tin hiệu báo hiệu FIS. Router ngõ vào nhận đƣợc tín hiệu này, sẽ tiến hành chuyển đƣờng làm việc sang đƣờng bảo vệ. Việc khôi phục đƣờng là end-to-end, trong đó đƣờng làm việc và đƣờng bảo vệ tách rời nhau (disjoint) hoàn toàn.
Việc xử lý sự cố bằng sửa chữa toàn mạng thƣờng mất khá nhiều thời gian, do tín hiệu FIS phải truyền ngƣợc lại router ngõ vào, do đó cơ chế sửa chữa cục bộ đƣợc nghĩ ra.
37
Sửa chữa cục bộ là cơ chế bảo vệ mà việc xử lý sự cố đƣợc thực hiện ngay tại nút phát hiện sự cố. Thƣờng thì nút này sẽ nằm ngay cạnh phía trƣớc nút xảy ra sự cố. Nút này sẽ đóng vai trò PSL thực hiện thao tác khôi phục. Sửa chữa cục bộ có thể đƣợc thực hiện theo các cách sau:
- Khôi phục liên kết: Để bảo vệ khôi phục liên kết trên đƣờng làm việc. Nếu một lỗi xảy ra trên liên kết này đƣợc khôi phục sẽ nối liền PSL và PML ở hai đầu liên kết lỗi. Đƣờng khôi phục và đƣờng làm việc tách rời nhau đối với liên kết đƣợc bảo vệ.
- Khôi phục nút: Để bảo vệ nút trên đƣờng làm việc. Đƣờng khôi phục và đƣờng làm việc phải tách rời với nút đƣợc bảo vệ, hoặc PLM là egress-LSP.
2.3.2.2. Tái định tuyến và chuyển mạch bảo vệ
Đối với khôi phục bằng tái định tuyến (re-router), đƣờng khôi phục đƣợc thiết lập theo yêu cầu sau khi đã xảy ra sự cố. Khi phát hiện sự cố trên đƣờng làm việc, một LSR đứng trƣớc vị trí lỗi có vai trò là POR mới bắt đầu báo hiệu một đƣờng khôi phục đi vòng qua điểm lỗi và mối (merge) vào một nút nào đó nằm sau điểm lỗi trên đƣờng làm việc. Đƣờng khôi phục này có thể đƣợc tính toán sẵn trƣớc hoặc tính toán sau khi phát hiện sự cố. Khi đƣờng khôi phục đƣợc thiết lập xong, PSL bắt đầu chuyển lƣu lƣợng trên đƣờng này.
Trong chuyển mạch bảo vệ thì đƣờng khôi phục đƣợc tính toán và thiết lập trƣớc khi xảy ra sự cố trên đƣờng làm việc. PLS đƣợc cấu hình để chuyển mạch lƣu lƣợng sang đƣờng khôi phục ngay khi nó biết có lỗi trên đƣờng làm việc (trực tiếp phát hiện lỗi hoặc nhờ nhận đƣợc FIS). Vì đƣờng khôi phục đã thiết lập trƣớc nên chuyển mạch bảo vệ nhanh hơn so với khôi phục bằng tái định tuyến.
2.3.3. Cơ chế bảo vệ và khôi phục đƣờng trong điều khiển lƣu lƣợng MPLS
2.3.3.1. Cơ chế Makam
Đây là cơ chế bảo vệ và khôi phục đơn giản nhất theo phƣờng thức bảo vệ toàn cục. Đƣờng khôi phục cho LSP đƣợc thiết lập sẵn từ ngõ vào đến ngõ ra. Đƣờng làm việc và khôi phục đƣợc thiết lập tách rời nhau cả về liên kết và nút. Khi một nút bất kì phát hiện lỗi ở trên đƣờng làm việc, tín hiệu FIS đƣợc dùng để chuyển thông báo lỗi
38
ngƣợc về router ngõ vào ingress-LSR (PSL). Router biên này sẽ thực hiện chuyển mạch lƣu lƣợng sang đƣờng khôi phục. Mô hình này hỗ trợ cả các đƣờng khôi phục thiết lập sẵn (chuyển mạch bảo vệ) và đƣờng khôi phục thiết lập động (tái định tuyến).
MIỀN MPLS R0 R9 LSR8 LSR7 Egress-LER Tailend-LSR (PML) LSR6 LSR5 LSR4 LSR3 LSR2 LSR1 Ingress-LER Headend-LSR(PSL) Đường khôi phục Đường làm việc FIS Hình 18: Mô hình Makam
Với cách hoạt động này, chỉ cần một đƣờng dự phòng cho mọi sự cố trên đƣờng làm việc và chỉ cần một LSR có chức năng làm PSL. Tuy nhiên mô hình này có khoảng thời gian trễ do tín hiệu FIS truyền ngƣợc về tới PSL, trong thời gian này lƣu lƣợng trên đƣờng làm việc bị mất.
2.3.3.2. Cơ chế Haskin
Mô hình Haskin (Reverse Backup) khắc phục đƣợc nhƣợc điểm mất gói ở mô hình Makam. Ngay khi một LSR phát hiện sự cố trên đƣờng làm việc, nó chuyển hƣớng lƣu lƣợng đến trên đƣờng làm việc sang một đƣờng dự phòng đảo đi ngƣợc về PSL. Khi quay trở về đến PSL, lƣu lƣợng đƣợc chuyển sang đƣờng khôi phục toàn cục. Đƣờng dự phòng đảo và đƣờng khôi phục phải thiết lập sẵn nên cách này tốn kém tài nguyên.
Một cải tiến khác cho phép PSL chuyển trực tiếp lƣu lƣợng sang đƣờng khôi phục toàn cục ngay khi nó thấy đƣờng dự phòng đảo đƣợc dùng. Các gói đầu tiên trong phần lƣu lƣợng đƣợc đảo chiều có tác dụng nhƣ tín hiệu FIS. Cách này tối ƣu hơn vì đƣờng đi của lƣu lƣợng đƣợc bảo vệ ngắn hơn. Tuy nhiên trong thời gian đầu, lƣu lƣợng mới chuyển đi trên đƣờng khôi phục sẽ trộn lẫn với phần lƣu lƣợng đƣợc đảo chiều làm thay đổi thứ tự gói ban đầu.
39 MIỀN MPLS R0 R9 LSR8 LSR7 Egress-LER Tailend-LSR (PML) LSR6 LSR5 LSR4 LSR3 LSR2 LSR1 Ingress-LER
Headend-LSR(PSL) Đường khôi phục
Đường làm việc
Đường dự phòng đảo
Hình 19: Mô hình Haskin
2.3.3.3. Cơ chế Shortest-Dynamic
Đây là cơ chế bảo vệ khôi phục theo kiểu sửa chữa cục bộ, tái định tuyến khôi phục dạng. Trong mô hình này chỉ có đƣờng làm việc đƣợc thiết lập. Khi một nút phát hiện sự cố liên kết thì nó phải tính toán rồi báo hiệu thiết lập đƣờng hầm.
MIỀN MPLS R0 R9 LSR8 LSR7 Egress-LER Tailend-LSR LSR6 PML LSR4 PSL LSR2 LSR1 Ingress-LER Headend-LSR Đường khôi phục Đường làm việc Hình 20: Mô hình Shortest-Dynamic
LSP ngắn nhất đi từ nó đến nút ở phía bên kia liên kết sự cố và sau đó chuyển mạch lƣu lƣợng (bằng cách xếp chồng nhãn để “luồn” đƣờng làm việc chui qua đƣờng hầm tránh lỗi này).
2.3.3.4. Cơ chế Simple-Dynamic
Cơ chế Shortest-Dynamic cũng là một cơ chế cục bộ, tái định tuyến. Nút phát hiện sự cố liên kết sẽ đóng vai trò tái định tuyến và chuyển hƣớng các gói tin. Sự khác
40
nhau giữa cơ chế này với Shortest-Dynamic là nút cuối cùng của đƣờng làm việc phải là PML. Sau đó, đƣờng khôi phục sẽ là từ nút phát hiện sự cố đến nút PML. Trong trƣờng hợp này không tính toán trƣớc đƣờng LSP khôi phục.
MIỀN MPLS R0 R9 LSR8 PML Egress-LER Tailend-LSR LSR6 LSR5 LSR4 PSL LSR2 LSR1 Ingress-LER Headend-LSR Đường khôi phục Đường làm việc Hình 21: Mô hình Simple-Dynamic
2.4. Giải thuật cân bằng tải của Riikka Suisitaival
Trong luận văn này, tác giả cũng xin trình bày thêm về thuật toán cân bằng tải của Riikka Susitaival. Thuật toán đƣợc kiểm nghiệm tính hiệu quả từ thực tế sử dụng [2]. Giải thuật của Riikka Susitaival là phân bố và thích ứng vì việc đo đạc tải lƣu lƣợng y1(t) trên các liên kết đƣợc thực hiện phân bố tại mọi nút mạng biên và mỗi nút biên xác định một cách độc lập tỷ lệ phân chia lƣu lƣợng p(t) cho tất cả các đƣờng dẫn p tại các nút ngõ vào. Tỷ lệ phân chia lƣu lƣợng p(t) đƣợc thay đổi liên tục dựa trên các tải liên kết y1(t) đo đạc đƣợc.[2,9]
Trong thuật này, Riikka thực hiện trên mô hình mạng có n nút với n N và số liên kết l L. Mạng hoạt động với các nhu cầu lƣu lƣợng giữa các cặp nút ngõ vào và ngõ ra (Ingress – Egress) IE thứ k K, nhƣng các nhu cầu này là không biết trƣớc. Giả thiết đƣa ra rằng các tải liên kết y1(t) đƣợc tiến hành đo đạc thƣờng xuyên bằng cách sử dụng hệ thống giám sát tại mỗi thời điểm t. Giá trị nhận đƣợc là trung bình của các giá trị đo đƣợc trong khoảng thời gian đo, ký hiệu là y (t)ˆl . Cũng giả thiết rằng thông tin về các tải đo đƣợc sẽ đƣợc phân bố đến tất cả các nút mạng trong vùng MPLS. Mỗi cặp IE thứ k có một tập các đƣờng Pk đƣợc xác định trƣớc của LSP. Riikka quy định hàm
41
p(t) biểu thị cho tỷ lệ lƣu lƣợng đƣợc phân phối đến đƣờng p tại thời điểm t. Các tỷ lệ này sẽ phải thỏa mãn điều kiện: [2,9]
k p p P Φ (t)=1
Mỗi router biên tiến hành xác định tỷ lệ phân chia p(t) cho tất cả các đƣờng dẫn p tại các nút ngõ vào một cách độc lập. Các tỷ số phân chia lƣu lƣợng p(t) sẽ đƣợc điều chỉnh nhiều lần dựa vào các tải liên kết y (t)ˆl đo đạc đƣợc trên các liên kết l.
Riikka đƣa ra một hàm chi phí Dp(ŷ(t)) với ŷ(t) = (ŷ1(t); l L). Tổng chi phí trên đƣờng p đƣợc tính theo công thức: p l l l p ˆ ˆ D ( y( t )) C ( y ( t ))
Tối thiểu hóa tổng chi phí cực đại trên đƣờng p là mục tiêu đặt ra. Hàm tính toán nhƣ sau: Tối giản: p l p l l ˆ ˆ D ( y( t )) max C ( y ( t ))
Với cách tính trên, mạng sẽ xác định đƣợc đƣờng có chi phí lớn nhất. Điều cần làm là giảm tỷ số phân chia lƣu lƣợng trên đƣờng này đồng thời tăng tỷ số phân chia của một vài đƣờng khác trong cùng một tập Pk để giảm tắc nghẽn. Cách thức thực hiện tăng/giảm nhƣ sau:
Giảm tỉ số phân chia lƣu lƣợng của đƣờng q Pk có chi phí là lớn nhất:
q(t)= (t-1)-(1/g) (t-1)q q
Tăng tỷ số phân chia lƣu lƣợng của đƣờng r Pk có chi phí là nhỏ nhất:
r(t)= (t-1)+(1/g) (t-1)r r
Tất cả các đƣờng dẫn khác giữ nguyên giá trị tỷ số phân chia nhƣ cũ. Trong các công thức trên, g là tham số điều khiển đƣợc xác định bằng thực nghiệm.
Nhận xét: Với cách thức thực hiện nhƣ trên, mỗi mạng sẽ thực hiện cân bằng tải thích ứng bằng cách tìm ra đƣờng có chi phí lớn nhất và tìm cách giảm tải của nó xuống thông qua việc giảm tỷ số phân chia xuống. Tỷ lệ phân chia lƣu lƣợng của đƣờng có
42
giá trị lớn nhất sẽ đƣợc chia sẻ với đƣờng có chí phí thấp nhất. Nhờ điều này mà mạng luôn đƣợc đảm bảo tình trạng không có các liên kết quá tải trong khi các liêt kết khác hoạt động ở dƣới mức tải và toàn mạng hoạt động ở chế độ cân bằng tải.
2.5. Tổng kết chƣơng 2
Chƣơng 2 tập trung đi sâu nghiên cứu về nguyên tắc hoạt động của kỹ thuật lƣu lƣợng trong MPLS và các cơ chế bảo vệ, khôi phục.
Kỹ thuật MPLS khắc phục một số các nhƣợc điểm của kỹ thuật định tuyến/chuyển mạch IP truyền thống; kỹ thuật lƣu lƣợng thực thi trong MPLS cũng