Vấn đề khắc phục sự cố hiệu suất trên Switches

Một phần của tài liệu CÁC kỹ THUẬT KHẮC PHỤC sự cố MẠNG TIÊN TIẾN (Trang 115 - 159)

Phần này bao gồm những lệnh để thực hiện các nhiệm vụ sau đây:

Chẩn đoán sự cố layer physical và data link trên các cổng switch.

Xác định nguyên nhân gốc rễ của việc sử dụng CPU cao trên switch.

Vấn đề hiệu suất được quy định trong các điều khoản của expectations và requirements của các tổ chức khác nhau:

User expectations and requirements Business expectations and requirements

Technical expectations and requirements

Nhìn chung, vấn đề khắc phục sự cố hiệu suất mạng goomg 3 quá trình:

Đánh giá sự cố kỹ thuật trong tự nhiên.

Cô lập các sự cố hiệu suất đến thiết bị, liên kết, hoặc thành phần.

Chẩn đoán và giải quyết sự xuống cấp của hiệu suất mạng ở mức độ

các thành phần: chuẩn đoán các nguyên nhân cơ bản, nếu có thể giải quyết vấn đề.

Mặc dù có sự khác biệt giữa cấu trúc phần cứng nhưng tất cả các Switch bao gồm các thành phần sau:

SVTH: Phan Thái Vương Trang 105

Interface: Được sử dụng để nhận và chuyển frame.

Forwarding hardware:

• Quyết định logic được sử dụng để ghi đè một frame và chuyển tiếp nó vào interface chính xác.

• Backplane mang frame từ interface vào đến interface ra.

Control plane hardware: Thực hiện quá trình này là một phần của hệđiều hành

Trên switch, hai tùy chọn lệnh bổ sung được hỗ trợ mà không có sẵn trên switch:

show interfaces interface-id counters: Lệnh này sẽ hiển thị tổng số đầu vào và đầu ra của gói tin multicast, unicast và broadcast và tổng sốđầu vào và đầu ra của số byte.

show interfaces interface-id counters errors: Lệnh này sẽ hiển thị

các số liệu thống kê lỗi trên mỗi interface.

Ví dụ khắc phục sự cố AutoQoS: Kiểm tra số lượng gói tin nhận được so với các lỗi interface

Ví d 9-11 Kết quả của lệnh show interface 9.2.2 S c trên port/interface ca switch

Không có cáp kết nối (No cable connected).

Sai cổng (Wrong port).

Thiết bị không có điện (Device has no power).

Sai loại cáp (Wrong cable type).

Cáp không tốt (Bad cable).

Lỏng kết nối (Loose connections).

SVTH: Phan Thái Vương Trang 106

Media converters (eliminate if possible)

Wrong or bad gigabit interface converter (GBIC

Ví dụ khắc phục sự cố: Duplex

Người dùng trên PC1 phàn nàn chuyển gói tin lớn đến SRV1 mất nhiều thời gian.

Băng thông tối đa mà người dùng có thể mong đợi là 100 Mbps giữa client và server.

Chuyển 1 GB dữ liệu ở tốc độ 100 Mbps nên mất khoảng 80 giây (không bao thanh toán chi phí).

Potential explanations: tắc nghẽn trên mạng hay phần cứng hoặc phần mềm hoạt động kém hiệu trên client, network, hoặc server.

Hình 9-7 Topology khắc phục sự cố Duplex trên interface

Ví d 9-12 Kết quả của lệnh show interface | include duplex

Fa0/1 của ASW1 kết nối với CSW1, lỗi FCS có tỷ lệ cao. Lỗi FCS có thể có các nguyên nhân khác nhau, như:

• bad cabling

• bad interface hardware

SVTH: Phan Thái Vương Trang 107

Kiểm tra Fa0/1 của CSW1 thấy một số lượng lớn xung đột, đặc biệt là xung đột trễ (late), nên chỉ xảy ra trên các liên kết mà chạy trong chế độ half-duplex.

Thực tế chỉ thấy một số lượng lớn xung đột bên này và không có xung

đột ở phía bên kia vì bên này đang chạy trong chế độ half-duplexvà bên kia đang chạy trông chếđộ full-duplex.

Ví dụ khắc phục sự cố: Auto-MDIX

Auto-MDIX là một tính năng hỗ trợ trên nhiều thiết bị chuyển mạch và NIC.

Tính năng này tựđộng phát hiện loại cáp kết nối cần thiết (thẳng hay chéo) để kết nối.

Nếu một trong hai bên kết nối hỗ trợ auto-MDIX, cáp chéo hay cáp thẳng Ethernet sẽ làm việc.

Tính năng này phụ thuộc vào tốc độ và tính năng tự động đàm phán duplex được kích hoạt.

Thiết lập mặc định cho auto-MDIX được thay đổi từ disabled to enabled với IOS Release 12.2 (20) SE.

Có thể kích hoạt tính năng này bằng tay bằng cách sử dụng các lệnh

Auto-MDIX.

Ví d 9-13 Lệnh cấu hình Auto-MDIX trên interface

Để kiểm tra trạng thái của auto-MDIX, tốc độ và duplex cho interface sử dụng lệnh show interface transceiver properties

SVTH: Phan Thái Vương Trang 108

9.2.3 Chuyn tiếp phn cng trên Switch

Những thành phần phần cứng tham gia vào chuyển frame từ interface vào sang interface ra có tác động hữu hạn đến hiệu suất trên switch.

Forwarding hardware luôn luôn chứa 2 thành phần chính:

Backplane:

• Backplane mang lưu lượng giữa 2 interface.

• Có rất nhiều loại mô hình backplane khác nhau.

• Được thiết kế cho năng suất chuyển đổi cao.

• Trong hầu hết trường hợp năng suất của các liên kết giữa 2 thiết bị, không phải là năng suất của backplanes của thiết bị chuyển mạch.

Decision-making logic:

• Đối với mỗi frame vào, decision-making logic đưa ra quyết định hoặc là: Chuyển tiếp frame hoặc là loại bỏ frame. Điều này được gọi là hoạt động chuyển đổi lưu lượng layer 2 và layer.

• Cung cấp các thông tin cần thiết để ghi đè và chuyển tiếp frame và có thể có những hành động khác như việc xử lý danh sách truy cập hoặc chất lượng dịch vụ (QoS).

9.2.4 Vn đề khc phc s c TCAM

Decision-making logic của switch tác động đáng kểđến hiệu suất của nó.

Logic chứa hiệu suất mạng chuyên dùng để tìm kiếm memory, ternary content-addressable memory (TCAM).

Các thông tin control plane cần thiết đểđưa ra quyết định chuyển tiếp, chẳng hạn như

Bảng MAC address.

Thông tin định tuyến.

Thông tin access list.

SVTH: Phan Thái Vương Trang 109

Danh sách điều khiển truy cập router (RACLs).

Danh sách điều khiển truy cập VLAN (VACLs).

TCAM chuyển tiếp frame ở tốc độ cao và sử dụng hết công suất backplane của switch.

Nếu frame không thể chuyển tiếp bằng TCAM, nó sẽ tắc để CPU xử lý. Vì CPU cũng được sử dụng để thực hiện các quy trình control plane, nó chỉ có thể chuyển tiếp lưu lượng ở mức nhất định.

Nếu một lượng lớn lưu lượng truy cập thì CPU sẽ tắc, thông qua đó lưu lượng liên quan sẽ giảm.

Lưu lượng được tắc hay được xử lý bởi CPU vì nhiều lý do:

Gói tin đi đến bất kỳ địa chỉ IP nào của switch (gói tin bao gồm Telnet, SSH, SNMP).

Multicasts và broadcasts từ giao thức control plane như STP hay giao thức định tuyến.

Gói tin mà không thể chuyển tiếp bằng TCAM vì một tính năng không được hỗ trợ trong phần cứng. (Ví dụ, gói tin GRE tunnel).

Gói tin không thể chuyển tiếp trong phần cứng là vì TCAM không thể

giữ các thông tin cần thiết.

TCAM được chia thành các vùng riêng biệt, mỗi vùng có một giới hạn.

Trên switch dòng 3560 và 3750 , việc phân bổ không gian TCAM được dựa trên mẫu switch database manager (SDM). Các mẫu khác hơn so với mặc

định có thể được chọn để thay thế cấp phát tài nguyên TCAM phù hợp hơn với vai trò của switch trong mạng.

Ví dụ cho thấy số lượng tối đa của masks và những giá trị có thể được gán cho IP Version 4 không phải là tuyến đường kết nối trực tiếp là 272 và 2176.

SVTH: Phan Thái Vương Trang 110

Khi những giá trị trong các Column được sử dụng tiến gần tới với các giá trị

trong Max Column, có thể bổ sung tải trọng vào CPU vì phân bổ nguồn tài nguyên TCAM bị lỗi.

Nhìn chung, lỗi TCAM-allocation là rất hiếm vì switch có nhiều công suất TCAM cho những vai trò mà chúng được thiết kế và bố trí.

Tấn công MAC có thể lắp đầy các CAM / TCAM, dẫn đến sự xuống cấp hiệu suất.

Một cách khác để phát hiện khả năng lỗi TCAM-allocation là quan sát lưu lượng đang punted cho CPU để chuyển tiếp.

Lệnh show controllers cpu-interface hiển thị số lượng gói tin cho những gói tin được chuyển tiếp đến CPU.

Nếu các gói tin truy cập trong hàng sw forwarding tăng lên nhanh chóng khi thực thi lệnh này nhiều lần trong một hàng, lưu lượng được chuyển đổi trong phần mềm của CPU hơn là trong phần cứng của TCAM.

Ví d 9-16 Kết quả của lệnh show controllers cpu-interface

Một biện pháp khắc phục sự cố TCAM utilization và exhaustion bằng cách giảm số lượng thông tin được cung cấp bởi control plane trong TCAM. Ví dụ, có thể sử dụng các kỹ thuật như route summarization, route filtering và tối ưu hóa danh sách truy cập.

Nói chung, TCAM không thể nâng cấp, nên hoặc là giảm bớt các thông tin mà cần phải được lập trình trong TCAM hoặc nâng cấp lên higher-level switch, mà có thể xử lý nhiều mục TCAM.

Trên một số thiết bị chuyển mạch, chẳng hạn như dòng Catalyst 3560 và 3750, việc phân bổ không gian TCAM giữa các tính năng khác nhau có thể

SVTH: Phan Thái Vương Trang 111

được thay đổi. Ví dụ, nếu đang triển khai một switch mà nó là hầu như chỉ

tham gia vào chuyển đổi layer 3 và rất ít chuyển đổi layer 2, có thể chọn một teamplate khác mà hy sinh không gian địa chỉ MAC có lợi cho mục IP route.

Việc phân bổ TCAM trên hàng loạt 3560 và 3750 các thiết bị chuyển mạch

được quản lý bởi switch database manager (SDM).

9.2.5 Khc phc s c ti trng CPU cao trên Switch

Trên switch, tải trọng CPU không trực tiếp liên quan đến việc tải trong lưu lượng.

Phần lớn lưu lượng được chuyển đổi trong phần cứng của TCAM và tải trọng CPU thường là thấp ngay cả khi switch được chuyển tiếp một số lượng lớn lưu lượng.

Router Low- to mid-range sử dụng cùng một CPU để chuyển tiếp gói tin cũng được sử dụng cho chức năng control plane.

Sự gia tăng số lượng lưu lượng xử lý bởi các bộ định tuyến có thể dẫn đến tăng tỉ lệ tải lượng CPU.

Lệnh hiển thị tải trọng CPU của switch là show processes cpu.

Do sự khác biệt trong việc thực hiện quá trình packet-switching trong router và switch, các kết luận được rút ra từ kết quả của lệnh này thường khác nhau.

Kết quả ví dụ cho thấy switch dùng 23 % chu kỳ CPU trong vòng 5 giây.

Ví d 9-17 Kết quả của lệnh show processes cpu sorted

Trong sốđó, 18 % chu kỳ CPU được dùng cho việc xử lý interrupt, trong khi chỉ có 5 % dùng cho việc xử lý quy trình control plane.

Tỷ lệ phần trăm giữa 0 % và 10 % là chấp nhận được.

SVTH: Phan Thái Vương Trang 112

Nhìn chung, tải trọng trung bình của CPU là 50 %.

Những sự kiện sau đây gây ra những đột biến về việc sử dụng CPU:

Lệnh xử lý tập trung

show tech-support

debug

show running-configuration

copy running-config startup-config

write memory

Xử lý giao thức định tuyến cập nhật: switch layer 3 tham gia vào một giao thức định tuyến có kinh nghiệm đỉnh cao trong việc sử dụng CPU khi nhiều thông tin cập nhật định tuyến được nhận.

Bầu chọn SNMP: Trong SNMP discovery hoặc transfer hàng loạt thông tin của SNMP bằng hệ thống quản lý mạng.

Trong ví dụ, IP Input process chịu trách nhiệm cho hầu hết các tải trọng CPU.

Ví d 9-18 Kết quả của lệnh show processes cpu sorted 5min

IP Input processhịu trách nhiệm cho tất cả lưu lượng IP mà không xử lý bởi TCAM hoặc chuyển tiếp ở chếđộ interrupt (ICMP messages)

Các quá trình khác có thể chịu trách nhiệm về tải CPU cao:

IP ARP: quá trình này xử lý ARP request.

SNMP Engine: Quá trình này có trách nhiệm trả lời SNMP request.

IGMPSN: quá trình này chịu trách nhiệm cho Internet Group Management Protocol (IGMP) snooping và xử lý IGMP packets

Tải trọng CPU cao do giao thức control plane gây ra bởi cuộc tấn công broadcast trong mạng nằm bên dưới layer 2.

SVTH: Phan Thái Vương Trang 113

Nếu switch đang chạy 100 % CPU, vì những giao thức (như HSRP, OSPF, ARP, và STP) như là kết quả của một cuộc tấn công broadcast, cân nhắc việc thực hiện broadcast và kiểm soát sự tấn công multicast.

Đây chỉ là một giải pháp tạm thời giúp thực hiện chuyển đổi dễ quản lý hơn. Nó không giải quyết được những vấn đề cơ bản. Vấn đề có thể là do topological loop, liên kết một chiều, hoặc cấu hình sai spanning-tree. Sau khi thực hiện các giải pháp tạm thời, phải chẩn đoán và giải quyết vấn đề cơ bản gây ra cuộc tấn công broadcast.

9.2.6 Vn đề DHCP

GigabitEthernet0/1 trên switch sẽ chuyển tiếp broadcast DHCP discover của client đến 192.168.2.2.

Lệnh limit rate trên interface G0/1 hạn chế số lượng thông điệp DHCP mà một interface có thể nhận được trong mỗi giây và có thểảnh hưởng đến hiệu suất trên switch nếu thiết lập không đúng.

Vấn đề này có liên quan đến sai cấu hình

Hình 9-8 Topology DHCP

Những nguồn tin khác của vấn đề DHCP có thể tác động đến hiệu suất và có thể sẽ bị lạm dụng bởi user nonmalicious và malicious.

Trong trường hợp tấn công malicious, cần khai thác những tool có sẵn và rất dễ sử dụng.

Một ví dụ về những tool Gobbler, public domain hacking tool thực hiện cuộc tấn công DHCP starvation. DHCP starvation có thể đơn thuần là cơ chế

denial-of-service (DoS) hoặc có thể sử dụng kết hợp với cuộc tấn công giả

mạo server malicious để chuyển lưu lượng truy cập đến một máy tính malicious đẻ ngăn chạn lưu lượng.

SVTH: Phan Thái Vương Trang 114

Phương pháp này thực hiện cuộc tấn công DoS một cách hiệu quả bằng cách sử dụng DHCP leases. Gobbler xem xét toàn bộ DHCP pool và cố gắng để

lease tất cả các địa chỉ DHCP có trong DHCP scope.

Một số kiểm soát bảo mật như port security, DHCP snooping, và DHCP rate limits có sẵn để làm giảm kiểu tấn công này.

Phải xem xét lỗ hổng bảo mật và các mối đe dọa khi cô lập các vấn đề từ góc

độ khắc phục sự cố.

9.2.7 Vn đề Spanning-Tree

Hình 9-9 Topology Spanning-Tree

STP thường là nguyên nhân làm giảm hiệu suất mạng trên switch.

Trường hợp ill-behaving của STP làm chậm mạng và switch.

Vấn đề STP có thể gây ra:

Topology loops

Switch ports không ở trạng thái chuyển tiếp.

Trường hợp khác của STP bao gồm các vấn đề liên quan đến capacity planning

Per-VLAN Spanning Tree Plus (PVST+).

Quyết định phương pháp tiếp cận để lựa chọn root bridges.

Thời gian sử dụng CPU của STP thay đổi phụ thuộc vào số lượng spanning- tree instances và số lượng interface hoạt động.

SVTH: Phan Thái Vương Trang 115

9.2.8 Vn đề HSRP

Hình 9-10 Topology HSRP

Hot Standby Router Protocol (HSRP) là một chức năng phổ biến được thực hiện trong thiết bị chuyển mạch.

Do tính chất của HSRP, những sự cố mạng cụ thể có thể dẫn đến HSRP mất

ổn định và làm giảm hiệu suất.

Một số những vấn đề HSRP phổ biến là:

Duplicate HSRP standby IP addresses: Vấn đề này thường xảy ra khi cả hai thiết bị chuyển mạch trong nhóm HSRP đang ở trạng thái active. Một loạt các vấn đề có thể gây ra hành vi này, bao gồm: momentary STP loops, vấn đề cấu hình EtherChannel hoặc trùng lắp frame.

Constant HSRP state changes: Những thay đổi gây ra sự cố hiệu suất mạng: thời gian tạm ngưng ứng dụng và sự gián đoạn kết nối. Poor lựa chọn HSRP timer như hello và hold time.

Missing HSRP peers: Vấn đề kết nối mạng.

Switch error messages relating to HSRP: trùng lặp địa chỉ HSRP.

9.2.9 Ví d khc phc s c hiu sut trên switch 9.2.9.1Thiết lp Speed và Duplex. 9.2.9.1Thiết lp Speed và Duplex.

Người dùng than phiền về vấn đề tốc độ khi download file lớn từ file server.

Sự cố xảy ra sau khi bảo dưỡng window.

SVTH: Phan Thái Vương Trang 116

Mặc dù user có thể truy cập vào file server, tốc độ, khi download file lớn là không thể chấp nhận.

Xác định nguyên nhân làm giảm hiệu suất mạng và khôi phục lại kết nối như

Một phần của tài liệu CÁC kỹ THUẬT KHẮC PHỤC sự cố MẠNG TIÊN TIẾN (Trang 115 - 159)