Mục tiêu của môn học giúp sinh viên nắmđược phương pháp lên quy trình bảo trì cho một hệ thống mạng doanh nghiệp phứctạp như: • Nắm được phương pháp chung trong việc xử lý sự cố xảy ra t
Trang 1MỤC LỤC
LỜI NÓI ĐẦU 4
CHƯƠNG I: TỔNG QUAN VỀ BẢO TRÌ HỆ THỐNG MẠNG 5
1.1 Giới thiệu về Troubleshoot hệ thống mạng 5
1.2 Các kỹ thuật Troubleshoot 11
1.3 Lên kế hoạch và phương pháp triển khai các kỹ thuật Troubleshoot 19
1.4 Tích hợp Troubleshoot vào quy trình bảo trì hệ thống mạng 22
1.5 Ứng dụng tính năng của Cisco IOS trong việc phát hiện sự cố hệ thống mạng .24
1.5.1 Các công cụ và ứng dụng trong quá trình bảo trì và troubleshoot 24
1.5.2 Chẩn đoán phần cứng cơ bản 29
1.5.3 Công cụ đặc biệt trong việc bảo trì và troubleshoot 32
CHƯƠNG II: PHƯƠNG PHÁP TROUBLESHOOT CISCO CATALYST SWITCH .36
2.1 Kỹ thuật Troubleshoot VLAN 36
2.2 Kỹ thuật Troubleshoot Spanning-Tree-Protocol 40
2.2.1 Nội dung thực hiện Trouble STP 40
2.2.2 Trouble Ticket: STP 44
2.3 Kỹ thuật Troubleshoot Intervlan Routing 49
2.4 Kỹ thuật Troubleshoot hiệu năng thiết bị chuyển mạch Switch 52
CHƯƠNG III: PHƯƠNG PHÁP TROUBLESHOOT GIAO THỨC ĐỊNH TUYẾN .55
3.1 Kỹ thuật Troubleshoot RIPng 55
3.1.1 Nội dung thực hiện 55
3.1.2 Trouble Ticket: IPv6 and RIPng 56
3.2 Kỹ thuật Troubleshoot EIGRP 67
3.2.1 Cấu trúc dữ liệu 68
Trang 23.2.2 Tiến trình cập nhật thông tin định tuyến 69
3.2.3 Câu lệnh trong EIGRP 69
3.2.4 Troubleshoot EIGRP 70
3.2.5 Trouble Ticket: EIGRP 72
3.3 Kỹ thuật Troubleshoot OSPF 77
3.3.1 Cấu trúc dữ liệu 77
3.3.2 Bảng cơ sở dữ liệu trạng thái đường link (LSDB) 78
3.3.3 Điều kiện yêu cầu để trở thành một láng giềng 0SPF 78
3.3.4 Các bước để thiết lập quan hệ 79
3.3.5 Định tuyến liên vùng OSPF 79
3.3.6 Câu lệnh trong OSPF 80
3.3.7 Troubleshoot OSPF 81
3.3.8 Trouble Ticket: OSPF 84
3.4 Kỹ thuật Troubleshoot Redistribute 99
3.4.1 Redistribute và bảng định tuyến 100
3.4.2 Seed metric 101
3.4.3 Troubleshoot redistribute 101
3.4.4 Các câu lệnh để kiểm tra 102
3.4.5 Trouble Ticket: Route Redistribution with EIGRP and OSPF 104
3.5 Kỹ thuật Troubleshoot hiệu suất thiết bị định tuyến Router 114
3.5.1 Router hoạt động chậm 114
3.5.2 Lỗi phổ biến trong việc quá tải CPU 114
3.5.3 Tìm hiểu về tính năng chuyển mạch trong router 116
3.5.4 Troubleshoot lỗi bộ nhớ trong router 118
3.5.5 Vấn đề về bộ nhớ router 119
Trang 3CHƯƠNG IV: PHƯƠNG PHÁP TROUBLESHOOT CÁC DỊCH VỤ MẠNG IP
121
4.1 Kỹ thuật Troubleshoot NAT 121
4.1.1 Một số vấn đề khi gỡ lỗi NAT 123
4.1.2 Kỹ thuật gỡ lỗi NAT 124
4.1.3 Trouble Ticket: NAT 126
4.2 Kỹ thuật Troubleshoot DHCP 129
4.3 Kỹ thuật troubleshoot IP Access List 133
CHƯƠNG V: PHƯƠNG PHÁP TROUBLESHOOT MẠNG CÓ KÍCH THƯỚC LỚN 139
5.1 Kỹ thuật troubleshoot các chi nhánh ở xa 139
5.1.1 Kỹ thuật troubleshoot các vấn đề mạng VPN 141
5.1.2 Các lỗi thường gặp và kỹ thuật troubleshoot mạng VPN 142
5.2 Kỹ thuật troubleshoot các mạng phức tạp 147
TÀI LIỆU THAM KHẢO 149
Trang 4LỜI NÓI ĐẦU
Môn học này ra đời nhằm cung cấp các kiến thức và kỹ năng cần thiết đểngười học có thể lên kế hoạch và thực hiện được các quy trình bảo trì cho một mạngđịnh tuyến và chuyển mạch phức tạp Mục tiêu của môn học giúp sinh viên nắmđược phương pháp lên quy trình bảo trì cho một hệ thống mạng doanh nghiệp phứctạp như:
• Nắm được phương pháp chung trong việc xử lý sự cố xảy ra trên một mạngdoanh nghiệp
• Sử dụng được các tính năng trên Cisco IOS để thực hiện các tác vụ bảo trì và
xử lý sự cố
Nội dung môn học bao gồm các tiêu chí sau:
Phương pháp xây dựng quy trình bảo trì hệ thống mạng
Sử dụng các tính năng của Cisco IOS để phục vụ mục đích bảo trì
Phương pháp chung trong việc xử lý sự cố
Sử dụng các tính năng của Cisco IOS để phục vụ cho xử lý sự cố
Xử lý sự cố thường gặp với các kỹ thuật định tuyến: EIGRP, OSPF, BGP,…
Xử lý sự cố thường gặp với các kỹ thuật chuyển mạch: VLAN, Trunking,VTP, STP,…
Xử lý sự cố thường gặp với các kỹ thuật phòng thủ bảo mật trên Router vàSwitch
!
Trang 5CHƯƠNG I: TỔNG QUAN VỀ BẢO TRÌ HỆ THỐNG MẠNG
1.1 Giới thiệu về Troubleshoot hệ thống mạng
Ngày nay, mạng Internet không thể thiếu trong hoạt động hàng ngày của cáccông ty Trong một công ty, đặc biệt là các công ty lớn thì vai trò của hệ thống mạngmáy tính và hạ tầng công nghệ thông tin là quan trọng thì người ta có một yêu cầurất rõ ràng với hệ thống mạng, hệ thống hạ tầng mạng là: mạng của công ty phảiluôn luôn được vận hành, chạy 24/24 với chất lượng và sự ổn định đảm bảo Khảnăng khắc phục lỗi cao và nếu xảy ra sự cố thì vẫn có thể khắc phục một cách nhanhchóng, tính chất liên tục và sẵn sàng như vậy người ta gọi là High Availability (HA– độ sẵn sàng cao) Thời gian rớt mạng càng ngắn thì càng tốt, vì nếu thời gian rớtmạng quá nhiều sẽ ảnh hưởng nghiêm trọng đến hoạt động sản xuất và kinh doanhcủa một doanh nghiệp hay công ty
Hình 1.1 Biểu đồ mẫu cho việc kiểm thử hệ thống mạng có cấu trúc
Do đó, làm sao để cho tính sẵn sàng cao và thời gian rớt mạng của hệ thống
đó thấp thì lúc này vai trò của công việc bảo trì, bảo dưỡng hệ thống là vô cùngquan trọng Công việc bảo trì, bảo dưỡng hệ thống là sử dụng hàng loạt các côngviệc, các kỹ thuật có thể được tiến hành theo lịch biểu hoặc tiến hành một cách độtxuất mà làm sao đó để cho hệ thống mạng của chúng ta hoạt động một cách trơn tru
và suôn sẻ, giảm tối thiểu thời gian rớt mạng của cả hệ thống
Trang 6Bảo trì như thế nào? Chúng ta (những người - troubleshooter) phải bắt đầu
xây dựng một quy trình ra sao và những phương pháp bảo trì hệ thống mạng, thì đó
là một câu hỏi khó trả lời
Để xây dựng một hệ thống quy trình bảo trì thì chúng ta phải làm rất nhiềuviệc, từ việc đưa ra các quy trình thủ tục, chuẩn bị các bộ công cụ, các phần mềm,phần cứng, đội ngũ nhân lực để bảo trì Vậy chúng ta bắt đầu từ đâu? Khi chúng taxây dựng quy trình và thủ tục phải thật cẩn thận và kỹ lưỡng nhằm để đảm bảo tínhHigh Availability, và kiểm soát được chi phí
Một cách đơn giản, ta có thể hiểu: kiểm thử (kiểm tra) hệ thống mạng là quá trình mà người giám sát, quản trị hoặc kỹ sư hệ thống sử dụng các phương pháp luận, các công cụ hỗ trợ, các quy trình xử lý để tìm ra lỗi hệ thống mạng, hoặc ít nhất là có thể đánh giá được hiệu suất của mạng hiện thời.
Khi làm công việc bảo trì cho mạng doanh nghiệp thì phải xác định được bảotrì gồm những công việc gì, cái gì sẽ được đưa vào trong hệ thống bảo trì và nó gồmcác tác vụ như sau:
• Cài đặt và bảo trì hệ thống
• Lắp đặt thêm phần mềm, các thiết bị sao lưu
• Sao lưu hệ thống
• Kiểm tra hệ thống có bị lỗ hổng bảo mật nào hay không?
• Thường xuyên cập nhật bản vá lỗi
• Hỗ trợ người dùng khắc phục lỗi
• Phục hồi sau thảm họa như: cháy phòng máy, chập mạch điện
• Những công việc liên quan đến hiệu suất mạng cũng như liên quan đến côngviệc bảo trì:
- Lên kế hoạch cho hệ thống
- Giám sát hiệu suất mạng như: các công cụ, phần mềm để xem hệthống mạng chạy hết công suất hay không, có đường truyền nàokhông được sử dụng hay không …
- Điều chỉnh hiệu suất như: đề xuất cấp thêm đường truyền, mua thêmthiết bị
•
Trang 7• Quản lý mức độ dịch vụ mà nhà cung cấp dịch vụ (ISP) cam kết đảm bảo chochúng ta.
Có 2 phương pháp bảo trì mạng:
• Interrupt-driven: là khắc phục sự cố ngay khi mà nó xảy ra, nói cách khác là
ta không làm gì hết, chỉ khi cố sự cố nào thi ta khắc phục sự cố đó, mà khôngcần phải lên quy trình
• Structured: lên kế hoạch các tác vụ và định nghĩa các thủ tục, có nghĩa là
mọi vấn đề bảo trì, bảo dưỡng; chúng ta đều phải tuân theo các quy trình, thủtục tức là ta phải tiến hành theo ngày nào, giờ nào và các bước như thế nào
Do phương pháp Interrupt-driven là chỉ khắc phục khi có vấn đề nên côngviệc duy trì sự ổn định lâu dài sẽ không được quan tâm, không có việc đo đạc xemmạng có vấn đề hay không Ta cũng không biết được là với hiệu suất như thế thì cótốt hay không và có phải sửa chữa gì không Như vậy, để giảm thiểu tính đột xuất,thì ta sẽ triển khai theo phương pháp Structured
Đặc điểm, lợi ích của phương pháp Structured:
Khoảng thời gian rớt mạng hệ thống sẽ ít hơn rất nhiều vì ta đã lên kếhoạch, dự trù mọi tình huống, thực hiện kiểm tra hệ thống thườngxuyên, dự kiến được đến mức độ nào đó sẽ xảy ra lỗi để mà ta sửachữa ngay từ đầu
Tiết kiệm chi phí hơn
Hoạch định được tiến trình thì bảo trì sẽ tốt hơn
Nâng cao mức độ bảo mật của hệ thống
Có rất nhiều các phương pháp luận trong việc bảo trì một hệ thống mạng docác tổ chức quốc tế xây dựng như:
• IT Infrastructure Library (ITIL): là một framework tốt nhất cho hoạt động
quản lý các dịch vụ IT, giúp cung cấp các dịch vụ IT chất lượng cao đượchoạch định cho các yêu câu, các tiến trình về kinh doanh Do tổ chức OGC(Office Government Commerce) đưa ra OGC viết ra dựa trên những nguyêntắc, kinh nghiệm về quản lý hệ thống thông tin do các chuyên gia hàng đầu
Trang 8Hình 1.2 Mô hình bảo trì hệ thống mạng ITIL
• FCAPS: được phát triển bởi ISO (Intemationạl Organization for
Standardzation), chia các công việc thành 5 nhóm:
- Fault Management: khắc phục các sự cố mạng, tức là đưa ra hàng loạt các
phương pháp luận, cách thức cần phải tiến hành từ đâu; khi phát hiện sự cốmạng thì ta bắt đầu làm gì trước, phải báo cáo thế nào, phải xây dựng quytrình và thủ tục ra làm sao Đưa ra những quy tắc, những vấn đề cần chú ýkhi quản lý về việc khắc phục sự cố mạng
- Configuration Management: quản lý công việc cấu hình bao gồm nhữnghướng dẫn, thủ tục, khuyến nghị về:
+ Cài đặt
+ Định danh
+ Kiểm kê
+ Tháo gỡ cấu hình phần cứng, phần mềm, firmware
- Accouting Management: giúp ta phân phối, tối ưu tài nguyên giữa các thuê
bao, các người dùng của doanh nghiệp, túc là phân bổ tài nguyên cho ngườidùng, phân bổ tài nguyên cho các thuê bao thì ta phải tiến hành, phương
Trang 9pháp tổ chức thế nào, bộ phận nào yêu cầu quan trọng để được phân bổ nhiềutài nguyên.
- Performance Management: quản lý hiệu suất, tức là quản lý hiệu suất tổng
thể của một mạng doanh nghiệp, hướng dẫn các quy trình thủ tục để có thểphát hiện việc nghẽn cổ chai, các hiệu suất tốt nhất và xác định được các lỗitiềm tàng
- Security Management: đưa ra hàng loạt các phương pháp luận, cách thức để
xây dựng các phương pháp về authentication, authorization, accounting
-Hình 1.3 Mô hình bảo trì hệ thống mạng FCAPS
• Telecommunications Management Network (TMN): do tổ chức ITU-T thựchiện việc tích hợp, sửa chữa lại bộ chuẩn FCAPS để đưa ra mô hình mới làTMN Định nghĩa ra một framework quản lý chuyên dùng cho các mạng viễnthông
Hình 1.4 Mô hình bảo trì hệ thống mạng TMN
Trang 10• Cisco Lifecycle Service (PPDIOO): Cisco định nghĩa vòng đời của một
mạng trải qua 6 bước:
Hình 1.1 Vòng đời phát triển của hệ thống mạng
- Prepare: xây dựng, tập hợp các yêu cầu của tổ chức, phát triển một
chiến lược về mạng, đảm bảo được về mặt tài chính và chiến lược đã
đề ra
- Plan: nhận diện các ỵêu cầu ban đầu của mạng dựa trên mục tiêu cơ
sở vật chất, hạ tầng và nhu cầu của người dùng Để làm được nhữngỵểụ cầu này thì ta phải đánh giá, khảo sát các mạng đang tồn tại, phântích các lỗ hỏng bảo mật để xác định xem hệ thống các site, môitrường hoạt động có hỗ trợ cho hệ thống như đã đề xuất hay không.Tóm lại, ở bước này là chúng ta khảo sát hiện trạng và khảo sát chitiết, đánh giá lại toàn bộ hệ thống mạng,
- Design: các yêu cầu ban đầu được thu thập từ Plan sẽ được sử dụng
cho công việc thiết kế chi tiết, đầy đủ, thỏa mãn cho những yêu cầu cả
về công việc và kỹ thuật của hệ thống Các đặc tính thiết kế về sảnphẩm, dịch vụ và các yêu cầu về hỗ trợ Kết quả của bước này là ta cóđược một bản thiết kế tỉ mỉ để đáp ứng được mọi yêụ cầu đề ra trongcác bước trước
Trang 11- Implement: triển khai những gì đã đưa ra ở bước Design, kết thúc
bước này là ta đã xây dựng xong hệ thống mạng theo yêu cầu đã đặtra
- Operate: bước này sẽ thực hiện việc kiểm tra cuối cùng hệ thống, bảo
trì, vận hành liên tục hệ thống như: quản lý, giải quyết, sửa chữa vàthay thế trong hệ thống khi vừa mới thực hiện triển khai xong
- Optimize: tối ưu hóa hệ thống Lúc này, ta thực hiện các thao tác quản
lý, nhận diện và giải quyết lỗi trước khi lỗi này ảnh hưởng đến toànmạng; có thể dẫn đến việc thiết kế lại mạng nếu có quá nhiều lỗi, lỗhổng xảy ra trong hệ thống mạng
Mỗi công ty, doanh nghiệp rất khác nhau và có những yêu cầu khác nhau Vìvậy, khi tiến hành tham khảo các hệ thống, các mô hình trên thì phải chọn lựa cácthành phần từ các mô hình trên để phù hợp với yêu cầu hệ thống công ty
Sau khi ta chọn lựa phương pháp và mô hình thì ta sẽ thực hiện thao tác hiệuchỉnh phù hợp với sự cần thiết của tổ chức Tiếp theo nữa là ta phải lựa chọn cáccông cụ để hỗ trợ các phương pháp này
1.2 Các kỹ thuật Troubleshoot
Troubleshooting là một tác vụ phải làm trong công việc bảo trì hệ thống, thìbảo trì hệ thống giúp cho chúng ta duy trì được môi trường có độ sẵn sàng cao, cóthòi gian làm việc liên tục và có độ rớt mạng (mất mạng) rất thấp
Có một vấn đề quan trọng đó là khi có một sự cố xảy ra thì chúng ta phải xử
lý nó nhanh và gọn Trong một môi trường phức tạp, troubleshooting dễ gây nảnlòng người quản trị và cách duy nhất để giải quyết vấn đề nhạnh chóng và hiệu quả
Trang 12Phương pháp có cấu trúc bao gồm các thủ tục, quy trình và việc lập tài liệuđược vạch ra và định nghĩa tốt, được áp vào mô hình bảo trì một cách thích hợp.
Troubleshooting thiên về một quy trình, một phương pháp luận và tác vụtruyền thông lẫn nhau hơn là một công nghệ Chính vì vậy nến không có mộtphương thức cụ thể cho troubleshooting, có rất nhiều phựơng pháp xử lý cho mộtvấn đề, chỉ có phương pháp này hoạt động tốt hơn phương pháp khác mà thôi Do
đó, người kỹ sư mạng cần phải có trong tay nhiều phương pháp để có thể chọn raphương pháp nào nhanh nhất, tốt nhất để giải quyết vấn đề
Ví dụ ta có một chiếc xe hơi, vấn đề đặt ra là chiêc xe hơi của chúng takhông chạy được nữa, vậy ta sẽ làm gì Công việc của chúng ta là sẽ chẩn đoán xem
vì sao chiếc xe không chạy được, qua quá trình quan sát hàng loạt các thông số kỹthuật trên xe thì ta thấy đồng hồ xăng kim đồng hồ đã chi về E (hết xăng), vậy cáchgiải quyết vấn đề này là ta sẽ đến trạm xăng để đổ xăng
Như vậy, một ví dụ rất đơn giản nhưng nó cũng cho ta thấy được là để giảiquyết vấn đề thì phải trải qua hàng loạt thủ tục cần phải thực hiện khi tiến hành mộtthao tác xử lý sự cố Đó là định nghĩa ra lỗi, sau đó là tiến hành chẩn đoán lỗi vàcuối cùng là giải pháp khắc phục lỗi
Vậy xử lý là một tiến trình phát hiện ra lỗi trên các triệu chứng được khaibáo từ người đùng để chẩn đoán nguyên nhân gây ra lỗi bằng việc thu thập hàngloạt các thông tin kỹ thuật để từ đó ta có thể đưa ra một giải pháp thích hợp cho vấn
đề lỗi đó
Chẩn đoán là một tiến trình nhận diện bản chất và nguyên nhân của một lỗi.Thành phần cơ bản của tiến trình chẩn đoán này sẽ bao gồm:
- Thu thập thông tin;
- Phân tích thông tin;
- Loại trừ những lỗi không liên quan đến vấn đề;
- Đề xuất giải pháp;
- Kiểm tra giải pháp
Phương pháp troubleshoot là hướng dẫn cách bạn di chuyển giữa các pha
Trang 13Các bước để tiến hành troubleshoot:
Hình 1.1 Biểu đồ mẫu cho việc kiểm thử hệ thống mạng có cấu trúc
• Bước 1: Định nghĩa rõ ràng lỗi
• Bước 2: Thu thập thông tin
• Bước 3: Phân tích thông tin
• Bước 4: Thao tác loại trừ
• Bước 5: Đề xuất ra các giả thuyết về lỗi
• Bước 6: Thực hiện quá trình kiểm tra
• Bước 7: Giải quyết được sự cố
Lưu ý: ở bước 6 nếu chúng ta kiểm tra không thành công thì ta phải tiến hành
lại bước 2 hoặc có thể quay lại bước 4… Hoặc nếu bước 2 là thu thập thông tin vàchúng ta đã có kinh nghiệm thì ta có thể qua đến bước 5
Các bước này có thể khác nhau giữa người này hay người khác, tổ chức nàyhay tổ chức khác tùy vào khả năng của người quản trị hoặc tùy vào mô hình hệthống mạng
Trong cấu trúc của phương pháp này thì nhân tố chính là loại trừ SherlockHolmes có nói một câu nói: “Một khi bạn đã loại trừ những điều bất khả thi, bất kểnhững gì còn lại dù phi lý hay hoang tưởng đều là sự thật”
Phương pháp “Shoot from the Hip” (Bắn từ bên hông)
Trang 14Là phương pháp mà ta nhanh chóng thực hiện bước đề xuất ra giả thuyết trêncác nguyên nhân phổ biến với các giải pháp tương ứng để có thể giảm thiểu tối đathời gian thực hiện troubleshoot.
Phương pháp này được người có kinh nghiệm và cả người không có kinhnghiệm sử dụng
Phương pháp “Top-Down”
Phương pháp này đi theo các lớp, các tầng trong mô hình OSI theo chiều từcao xuống thấp Phương pháp này sẽ đi từ tầng ứng dụng (Application) xuống đếntầng cuổi cùng là tầng Vật lý (Physical)
Phương pháp Top-Down dựa vào nguyên lý chính trong mô hình OSI là lớptrên hoạt động được thì phải dựa trên nền lớp dưới Do đó, lớp trên hoạt động bìnhthường thì ta biết lớp dưới không bị lỗi, ngược lại nếu lớp dưới bị lỗi thì lớp trênkhông hoạt động được
Trang 15Nhược điểm của phương pháp này là phải truy nhập vào ứng dụng của ngườidùng và không giải quyết được trọn vẹn nguyên nhân gây ra lỗi
Ví dụ: PC duyệt web đến một máy chủ, PC vẫn truy cập được bình thường
tuy nhiên ở tầng Network thì đường đi trên router không tối ưu mặc dù vẫn không
có bất kỳ lỗi nào
Phương pháp “Bottom-Up”
Phương pháp này đi theo các lớp, các tầng trong mô hình OSI theo chiều từdưới lên trên Phương pháp này sẽ đi từ tầng Vật lý (Physical) lên đến tâng ứngdụng (Application).Đặc điểm của phương pháp Bottom-Up là triệt để nhât nhưngrất tốn thời gian
Người ta khuyến cáo rằng nên sử dụng các phương pháp khác, sau đó thuhẹp phạm vi rồi mới triển khai phương pháp này
Phương pháp “Divide and Conquer” (Chia để trị)
Phương pháp này sẽ bắt đầu từ giữa của mô hình OSI, rồi di chuyển lên trênhoặc xuống dưới tùy thuộc vào kết quả ở giữá như thế nào
Trang 16Thông thường người ta sẽ xuất phát từ tầng Network
Ví dụ: chúng ta không thể truy cập được đến web server thì thao tác đầu tiên
của chúng ta là ping đến web server đó Nếu ping thành công thì lỗi sẽ là từ tầngVận chuyển (Transport) trở lên, còn nếu ping không thành công thì chúng ta sẽkiểm tra từ tầng Network trở xuống
Phương pháp “Follow the Path”
Phương pháp này là ta sẽ lần theo từng gói tin đi qua mạng để loại trừ ranhững liên kết (link) không liên quan và những thiết bị không liên quan trong quátrình troubleshoot
Trang 17Ví dụ: PC A không ping được PC B, vậỵ ta xem quá trình gói tin di chuyển
theo sơ đồ sẽ là PC A -> SW1 -> SW2 -> SW3 -> PC B Ta kiểm tra trên các kết nốinày mà không cần kiểm tra các kết nối khác
Phương pháp Top-Down và Bottom-Up thường đi kèm với phương phápFollow the Path
Phương pháp “Spot the Differences” (Chỉ ra điểm khác biệt)
Chúng ta so sánh những điểm khác biệt về cấu hình, thiết bị; thông thườngthì chúng ta so sánh về các bảng thông tin, các cấu hình phần mềm giữa thiết bị cólỗi và thiết bị bình thường, chỉ ra những điểm khác biệt giữa hai cấu hình này rồi từ
đó chúng ta khắc phục
So sánh hai thiết bị bình thường và bị lỗi về các trình xử lý và chỉ xa nhữngđiểm khác biệt có thể giúp chọ bạn triển khai, đưa ra các giải pháp toàn vẹn hoặcgiải pháp tạm thời (woikaround) lỗi này mà không cần hiểu gì về cơ chế hoạt độngbên trong thiết bị
Ví dụ: ta có 2 bảng định tuyến của 2 thiết bị Branch1 và Branch2 với câu lệnh “show ip route” Trường hợp xảy & là các người dùng của Branchl đi ra được
Internet còn Branch2 thì không đi ra Internet được, vậy lỗi nằm ở đâu? Nếu mộtnhân viên không biết về khắc phục sự cố mà chỉ troubleshoot tạm thời thì họ sẽ
dùng lệnh “show ip route” và so sánh bên hoạt động với bên không hoạt động thì
thấy rằng Branch1 có dòng “S*” và bên Branch2 không có, vậy là chỉ báo chongười quản trị mạng là ko có “S*” và thế là người quản trị biết là Branch2 thiếu cấu
hình default route.
Trang 18Ưu điểm của phương pháp này là không cần có kiến thức nền tảng về hệthống đang được troubleshoot mà vẫn giải quyết được vấn đề.
Nhược điểm của phương pháp này là chỉ troubleshoot được mà không hiểubản chất của vấn đề và giải pháp đưa ra chỉ là tạm thời (workaround) chứ khôngphải là giải pháp tối ưu (solution)
Phương pháp “Move the Problem”
Phương pháp này là hoán đổi các thành phần, các thiết bị để xem thử lỗi cònnguyên hay có biến mất
Hình Laptop B có một số vấn đề truy cập mạng Internet
Ví dụ: ta cài đặt vài PC và Laptop vào Switch, tình trạng xảy ra là Laptop Bkhông thể thiết lập đường liên kết, tức là card mạng không up Vậy thì lỗi nằm trênthiết bị nào: Switch, cáp hay Laptop? Đầu tiên, ta thay đổi dây cáp xem có kết nốiđược hay không, cổng up lên thì có nghĩa là do cáp, nếu đấu cáp vào mà vẫn không
up được thì lỗi sẽ là Switch hoặc Laptop, tiếp theo, ta cắm Laptop qua một cổngkhác của Switch, nếu up thì lỗi nằm ở cổng trên Switch, nêu đem Laptop cắm vàobất kỳ cổng nào trên Switch thì ta thấy lỗi sẽ nằm trên Laptop
Phương pháp này thường được rất nhiều người sử dụng để giải quyết vấn đềtroubleshoot
Ưu điểm của phương pháp này là giải quỵết vấn đề nhanh, xử lý trực quan,đơn giản Nhược điểm là chỉ xử lý với các thiết bị đơn lẻ Phương pháp này cũng hỗtrợ rất tốt cho các phương pháp khác
Trang 191.3 Lên kế hoạch và phương pháp triển khai các kỹ thuật Troubleshoot
Một tiến trình troubleshoot nào cũng sẽ bao gồm các thành phần chính trongcác quy trình:
- Định nghĩa ra lỗi
- Thu thập thông tin
- Phân tích thông tin thu thập
- Loại trừ khả năng
- Đề xuất ra các giả thuyết
- Kiểm tra các giả thuyết
- Giải quyết vấn đề
Một phương pháp troubleshoot sẽ giúp ta định nghĩa cách di chuyển từ tiếntrình này sang tiến trình khác Các thủ tục troubleshoot sẽ mô tả ta phải làm gì trongtừng phần của tiến trình
Trang 20- Nếu vấn đề là của ta thì tiếp theo sẽ tiến hành thu thập thông tin.Thu thập thông tin (Gathering Information)
• Bước l: Thiết lập kế hoạch về các vấn đề lỗi
• Bước 2: Xác định mục tiêu thu thập thông tin
• Bước 3: Tập hợp các bộ công cụ dùng để thu thập thông tin
Hình 1
• Bước 4: Quyền truy nhập Mở rộng phạm vi thu thập thông
tin
• Bưóc 5: Thu thập thông tin Phân tích thông tin
Phân tích các sự kiện (Analyzing the facts)
• Bước 1: Đưa các thông tin đã thu thập vào công việc diễn
giải và phân tích thông tin
• Bước 2: Cần những tài liệu trước đó để tiến hành phân
tích, đối chiếu với thông tin thu thập được
• Bước 3: Cần những phương hướng để phân tích thông tin
• Bước 4: Nghiên cứu các vấn đề liên quan đến lỗi đó
Trang 21Hình Một số nhân tố hữu ích và hỗ trợ quá trình phân tích sự kiện
• Bước 5: Tìm hiểu kinh nghiệm từ những chuyên gia hay
những đồng nghiệp người đi trước
• Bước 6: Sau khi diễn giải toàn bộ thì ta sẽ chuyển qua loại
trừ các thông tin, các nguyên nhân bất khả
Đề xuất ra giả thuyết (Formulating a Hypothesis)
• Bước 1: Chọn ra nguyên nhân có thể xảy ra lỗi
• Bước 2: Xác định trách nhiệm lỗi thuộc về ai
Kiểm tra giả thuyết (Test the Hypothesis)
Trang 22• Bước 1: Giải quyết lỗi do chúng ta đưa ra.
• Bước 2: Đánh giá sự ảnh hưởng và tìm ra tính chất khẩn
cấp của lỗi
• Bước 3: Tạọ ra các kế hoạch sao lưu để khi xử lý sự cố mà
lỗi trầm trọng hơn thì ta có thể phục hồi lại
• Bước 4: Tiến hành thực hiện giải pháp
Giải quyết vấn đề (Solving the Problem)
Hình
• Bước 1: Giải pháp kết hợp
• Bước 2: Ghi chép lại các vấn đề
1.4 Tích hợp Troubleshoot vào quy trình bảo trì hệ thống mạng
Bảo trì mạng bao gồm nhiều tác vụ khác nhau như là:
- Đặt, gỡ bỏ hay thay đổi thiết bị?
- Giám sát hiệu suất
- Dự phòng
- Lên kế hoạch cho dung lượng
Trang 23- Phục hồi sau thảm họa
- Thay thế, cài đặt thiết bị
- Cập nhật bản vá
Vì vậy, troubleshooting không nên được xem như là một tiến trình đơn lẻ mànên xem đó là một kỹ năng thiết yếu, đóng một vai trò quan trọng trong nhiều kiểutác vụ bảo trì mạng
Hình Troubleshooting đóng vai trò quan trọng trong qua trình xử lý sự cố mạng
Trang 24Luôn luôn cập nhật tài liệu ngay khi có sự thay đổi
Định nghĩa profile cho hỉệu suất mạng
- Tải trên cổng
- Tải trên CPU
- Tải trên bộ nhớ RAM
Troubleshoot và truyền thông
Truyền thông là thành phần không thể thiếu trong quy trình troubleshoot
- Định nghĩa lỗi: cần kiểm tm (verification) và làm sáng tỏ lỗi (clarification)
- Thu thập thông tin: yêu cầu thông tin, truỹền thông phải thật rõ ràng cácthông tin
Các bước trong quy trình cần có truyền thông để trao đôi thường xuyên
Troubleshoot và sự thay đổi
- Troubleshoot và quá trình thay đổi các quan hệ mật thiết với nhau
+ Sự thay đổi trong quá trình tra kiểm tia các giả thuyết hoặc giải quyết vấnđề
+ Chỉ ra lỗi nào thường gây ra sự thay đổi
1.5 Ứng dụng tính năng của Cisco IOS trong việc phát hiện sự cố hệ thống mạng
1.5.1 Các công cụ và ứng dụng trong quá trình bảo trì và troubleshoot
Khi ta muốn tìm kiếm hoặc tra cứu thông tin chi tiết trong kết quả xuất ra
Trang 25Đối với một doanh nghiệp lớn thì khi ta dùng câu lệnh “show ip route”, bảng
định tuyến sẽ có thể hiện ra rất nhiều thông tin, do đó ta không thể tìm được nhữngroute mà ta đang cần Vì vậy, Cisco IOS cung cấp các tùy chọn, giới hạn lại cácoutput được thực hiện và chỉ hiên thị thông tin mà chúng ta quan tâm
Ví dụ: lọc thông tin trong câu lệnh “show ip route 10.1.193.3”
Câu lệnh trên dùng để lọc và tìm kiếm các entry thích hợp cho địa chỉ IP đích
cụ thể:
Hình trên cho ta tìm cụ thể địa chỉ 10.1.193.3 thì router sẽ không hiển thịtoàn bộ bảng định tuyến mà chỉ hiển thị mạng nào đó thỏa mãn cho yêu cầu đíchđến là 10.1.193.3, cụ thể ở đây là 10.1.193.0/30 và route này kết nối trực tiếp thôngqua cổng serial 0/0/l
Giả sử như không có route nào thỏa mãn địa chỉ 10.1.193.3 thì nó cũng sẽhiển thị thông báo cho ta biết là không có route nào trong bảng định tuyến
Hình trên cho ta thấy được không có mạng nào thỏa mãn IP đích là10.1.193.10
Lưu ý, câu lệnh này không xem xét đến các default route, tức là default route
không được tính là một roụte thỏa mãn địa chỉ đích cho dù thực chất default route
đó có thỏa mãn hay không
Bằng cách khác, ta co thể giới hạn thông tin câu lệnh “show ip route” đến
một tập hợp các prefix nằm trong một khối cụ thể nào đó
Trang 26Như hình trên ta thấy từ khóa “longer-prefixes” có nghĩa là ta muốn liệt kê ra
toàn bộ bảng định tuyến là mạng con của mạng 10.1.193.0/24
Nếu mạng cho quy hoạch địa chỉ IP tốt thì câu lệnh “show ip route” với tùy chọn “longer-prefixes” sẽ rất hữu ích.
Ví dụ như muốn xem tiến trình của CPU trên router ta sẽ dùng câu lệnh
“show process cpu” thì câu lệnh này sẽ hiển thị ra hàng trăm, hàng ngàn tiến trình
mà CPU đang xử lý Và khi ta thêm các từ khóa như “include IP input” thì router sẽ
hiển thị ra và giới hạn lại
Một ví dụ khác là ta dùng câu lệnh “show ip interface brief | exclude unassigned”, router sẽ hiển thị ra tất cả các thông số trên một cổng interface đã
được cấu hình
Hoặc là ta dùng câu lệnh “show running-config | begin line vty”, router sẽ
hiển thị ra những dòng nào trên toàn bộ cấu hình của router mà bắt đầu bằng từ
khóa là “line vty”.
Trang 27Như vậy, Cisco IOS cho ta những từ khóa “include, exclude, begin” để cho
- Section: cho tất cả cấc loại cấu hình về giao thức định tuyến mà có từ
mở đầu là “router eigip”
Hình trên cho ta biết các kết quả như sau:
- Redirect: sau khi ta đánh lệnh “show tech-support” thì kết quả sẽ trả
về TFTP và lưu với tên là show- tech.txt.
- Tee: sau khi ta đánh lệnh “show ip brief” thì kết quả sẽ được lưu vào
flash với tên là show-int-brief txt.
Hai tính năng Redirect và Tee hoàn toàn giống nhau, tuy nhiên, Redirect là
kết quả không hiển thị còn Tee thì hiển thị trên màn hình Và kết quả lệnh show sau
đó sẽ bị chép đè lên kết quả của lệnh show trước
Trang 28Nếu ta không muốn lệnh show sau chép đè lên lệnh show trước, từ khóa
“Redirect” và “Tee” không thể làm được, vì vậy ta sẽ sử đụng từ khóa “append” để
giải quyết vấn đề này
Ngoài ra, ta có một câu lệnh rất hữu ích trong vấn đề troubleshoot, đó là ping
mở rộng
- Size: cho biết các gói tin ping có kích thước là 1500 byte.
- Repeat: sử dụng 500 gói tin cho công việc ping.
Ta cũng có thể sử dụng df-bit để xác định MTU trên đường truyền Một góitin IP khi đi qua đường truyền Ethernet LAN sẽ chỉ được quyền có kích thước tối đa
là 1500 bỵte, còn gọi là MTU (Maximum Tmnsmission Unit) Chúng ta gửi một góitin lớp 3 lớn hơn 1500 byte, được bọc 1 vào trong MTU chỉ định trước, nó cần phảiphân mảnh ra thành những gói nhỏ hơn để truyền được gói tin trên các liên kết dữliệu
Khi ta bật df-bit trong IP header thì gói tin sẽ không bị phân mảnh khi đi quacổng và nếu gói tin nào không được phân mảnh ra khi đi qua cổng đó thì sẽ bị loại
bỏ khi kích thước lớn 1500 byte
Trang 29Trên hình, ta thực hiện lệnh ping đến địa chỉ 10.1.221.1 với kích thước là
1476 và từ khóa df-bit, khi ta dùng df-bit thì kích thước gói tin sẽ là 1476 và không
bị phân mảnh ra, ping được thành công Nhưng khi ta ping với kích thước là 1477thì ta thấy ping không thành công do gói tin vượt quá kích thước MTU của gói tin
Các câu lệnh để kiểm tra thì có các câu lệnh thường hay gặp trên router và
switch là: “show process cpu”, “show memory”, “show interface”.
Show process cpu
Trang 30Router và switch đều sử dụng CPU chính để chạy các tiến trình của hệ điềuhành Trên hầu hết các router thì các CPU của router đều sử dụng cho việc chuyểnmạch các gói tin.
Do đó tiến trình chuyển mạch gói tin giữa các cổng sẽ làm hao tốn tàinguyên CPU của router
Trên hình ta dùng lệnh “show processes cpu sorted 1min” nghĩa là ta sẽ xem
tiến trình CPU được xếp từ nhỏ trong khoảng thời gian 1 phút trước
- PID: process-id
- Run-time: khoảng thời gian đã chạy tính bằng mili giây
- Invoked: tiến trình được gọi ra bao nhiêu lần
- µSecs, 5sec, 1Min: độ tận dụng CPU
- Process: tên của process cụ thể
Show memory
- Router và switch đều có một số lượng hữu hạn RAM cho các tiếntrình
Trang 31- Free: dung lượng còn trống
- Largest: tổng dung lượng sử dụng.
Không phải tất cả các bộ nhớ còn trống có thể gây ra vấn đề cấp phát bộ nhớ.Thiết lập đường ranh có thể giúp ta tìm xem các lỗi trước khi tìm ra các vấn đề
trong cách “show memory”.
Show interfaces
Thống kê của cổng bao gồm lỗi nhập xụất có thể dẫn đến lỗi CRC, đụng độ(collision) và loại bỏ gói tin
Việc thống kê lỗi trên cổng sẽ ảnh hưởng đến tổng số gói tin được thống kê
Ta có thể dùng câu lệnh “clear counters” để thiết lập lại bộ đếm trên interface và
đảm bảo cập nhật dữ liệu gần nhất
Trang 32Một vài câu lệnh khác để ta có thể kiểm tra phần cứng như: show controllers, show flatform, show show diag
1.5.3 Công cụ đặc biệt trong việc bảo trì và troubleshoot
Hỗ trợ tiến trình troubleshoot
Pha nào trong tiến trình troubleshoot nhận được lợi ích từ các công cụ:
• Định nghĩa lỗi (Define Problem): giám sát mạng và báo cáo sự cố
+ Các thông điệp log sẽ đưa vào syslog server
+ Thông báo các sự kiện với SNMP hoặc dùng tính năng EEM(Embedded Event Manager)
+ Thu thập thông tin (Gather Information): dùng các công cụ thu thậpthông tin xảy ra tức thời, theo mục đích
+ Sử dụng SPAN hoặc RSPAN để bắt thông tin các lưu lượng
• Phân tích (Analyze): tạo ra các đường ranh (baseline) của các lỗi và các kiểm
kê về mặt lưu lượng
+ Thu thập, thống kê với SNMP
+ Đo đạc lưu lượng với NetFlow
+ Kiểm tra giả thuyết lỗi (Test Hypothesis); phục hồi cấu hình khi takiểm tra sự thay đổi bị lỗi
Trang 33Tính năng của SPAN: cho phép lưu lượng được sao chép từ một hoặc nhiềuport nguồn hoặc nhiều VLAN nguồn đến một hay nhiều đích đến khác trên cùngswitch để ta có thể bắt gói và phân tích.
Hình trên ta sẽ cấu hình để PC Sniffer có thể bắt lưu lượng trên cổng f0/7 củaSW1
Tính năng của RSPAN: cho phép lưu lượng sao chép từ một hoặc nhiều portnguồn hoặc VLAN nguồn đến một hay hay nhiều đích đến trên một switch khácbằng cách sử dụng tính năng là RSPANVLAN
RSPAN VLAN cần được mang đi giữa các switch nguồn hoặc đích và phảiđược nối với nhau bằng các đường trunk SPAN không thể đi qua các thiết bị lớp 3
Trang 34Hình trên ta cấu hình để PC Sniffer có thể bắt lưu lượng trên cổng f0/7 thôngqua hai thiết bị SW1 và SW2.
Tạo đường ranh (baseline) với SNMP và công nghệ Netflow
Hai công nghệ chính để tạo các đường ranh của mạng là việc sử dụng, tậndụng tài nguyên mạng và hiệu suất mạng
• SNMP
Trang 35- Tập hợp các thống kê thiết bị như là số lượng byte và tổng số gói tin,tổng số lỗi, CPU và bộ nhớ RAM.
- Yêu cầu các thiết bị được theo dõi trong một thông tin cụ thể và đượccấu hình tính năng này trên NMS (Network Management System)
- Được sử dụng trên rất nhiều các thiết bị mạng
• Cisco IOS Netflow
- Tạo ra một bộ sưu tập về các lưu lượng chạy trên một cổng nào đó
- Thiết bị được bật tính năng Netflow sẽ đẩỳ thông tin được thu thậpvào server chuyên để chứa thông tin lưu lượng, khi mà dữ liệu chạyngang qua thiết bị
- Đây là tính năng dựa trên nền router, thường được bật trên các dòngswitch cao cấp
Thông báo sự kiện (Event Notification)
Router và switch có thể thông báo cho các trạm quản lý về các sự kiệnnghiêm trọng đang diễn ra
• Syslog
- Sử dụng các thông tin log của hệ thống
- Dữ liệu được gửi đi với thông điệp định dạng clear-text
• SNMP
- Thông báo sự kiện
- Các sự kiện sẽ được mã hóa trong các MIB
Tính năng EEM trên Cisco IOS có thể được dùng để tạo ra các sự kiện vàđịnh nghĩa các hành động cần phải thực hiện khi có sự kiện xảy ra
Trang 36CHƯƠNG II: PHƯƠNG PHÁP TROUBLESHOOT CISCO CATALYST
SWITCH 2.1 Kỹ thuật Troubleshoot VLAN
Đối với vấn đề troubleshoot trên các thiết bị chuyển mạch thì yêu cầu ta phải
có sự hiểu biết chi tiết về các quy trình đang diễn ra
Ví dụ: quy trình nào sẽ diễn ra khi frame được gửi và chuyển mạch từ Host A
đến HostB và ngược lại
Host A gửi 1 gói tin ARP Request
Khi frame đi qua các đường trunk thì frame sẽ được gắn thêm thông tin vlantrên đường trunk
Trang 37Đối với switch khi nhận 1 gói tin broadcast thì switch
Khi Host B nhận được thì sê trả lời bằng gói tin ARP Reply
Tương tự khi frame đi qua các switch cũng sẽ được thêm thông tin vlan trênđường trunk
Trang 38Sau khi Host A nhận được gói tin ARP Reply thì bắt đầu từ các gói tin sauHost A sẽ gửi gói tin ICMP Echo Request.
Host B khi nhận được gói tin ICMP Echo Request thì sẽ gửi gói tin trả lời là
ICMP Echo Reply
Trang 39Đó là quá trình ta Ping thành công.
Switch sẽ sử dụng các thông tin sau đây trong việc quyết định chuyển mạch các frame lớp 2
- Bảng địa chỉ MAC:
SW# show mac-address-table
- Cơ sở dữ liệu của VLAN:
SW# show vlan
- Gán port vào các VLAN:
SW# show interface switchport
- Cấu hình các đường trunk:
Trang 40SW# show interface trunk
- Kiểm tra tiến trình chuyển mạch gói tin trực tiếp:
SW# show platform forward SW# traceroute mac
2.2 Kỹ thuật Troubleshoot Spanning-Tree-Protocol
2.2.1 Nội dung thực hiện Trouble STP
Khi ta đấu vòng các đường vật lý của hệ thống chuyển mạch lớp 2 thì sẽ gây
ra tình trạng vòng lặp (loop) trên hệ thống Lúc này hệ thống sẽ gây ra một số hiệntượng như:
- Bão broadcast (Broadcast Storm)
- Bảng địa chỉ MAC không ổn định (instability MAC Address Table)
- Các frame được sao chép liên tục (Multiple Frame Copies)
Khi bị tình trạng như vậy thì ta phải dùng đến kỹ thuật Spanning-tree đề khắc phục
Ta có mô hình sau được đấu nối vòng với các thông số như trên hình
Vấn đề đặt ra là cổng nào sẽ bị khóa sau spanning-tree được chạy
• Bước 1: Bầu chọn Root Switch
- Việc bầu chọn Root Switch dựa trên Bridge-ID nhỏ nhất
- Bridge-ID dựa trên thông số là: Priority và MAC
+ Priority nhỏ nhất sẽ được chọn làm Root Switch
+ Priority bằng nhau thì sẽ chọn Switch có MAC nhỏ nhất làm Root Switch