5. Phƣơng pháp nghiên cứu:
2.4.2.2 Một số vấn đề khác
- “Quá vừa” (Overfitting): Khi một giải thuật tìm kiếm các tham số tốt nhất cho nĩ sử dụng một tập dữ liệu hữu hạn, nĩ cĩ thể sẽ bị tình trạng “quá vừa” dữ liệu (nghĩa là tìm kiếm quá mức cần thiết gây ra hiện tƣợng chỉ phù hợp với các dữ liệu đĩ mà khơng cĩ khả năng đáp ứng cho các dữ liệu lạ), làm cho mơ hình hoạt động rất kém đối với các dữ liệu thử. Các giải pháp khắc phục bao gồm đánh giá chéo (cross-validation), thực hiện theo nguyên tắc nào đĩ hoặc sử dụng các biện pháp thống kê khác.
- Đánh giá tầm quan trọng thống kê: Vấn đề (liên quan đến overfitting) xảy ra khi một hệ thống tìm kiếm qua nhiều mơ hình. Ví dụ nhƣ nếu một hệ thống kiểm tra N mơ hình ở mức độ quan trọng 0,001 thì với dữ liệu ngẫu nhiên trung bình sẽ cĩ N/1000 mơ hình đƣợc chấp nhận là quan trọng. Để xử lý vấn đề này, ta cĩ thể sử dụng phƣơng pháp điều chỉnh thống kê trong kiểm tra nhƣ một hàm tìm kiếm, ví dụ nhƣ điều chỉnh Bonferroni đối với các kiểm tra độc lập.
- Khả năng biểu đạt của mẫu: Trong rất nhiều ứng dụng, điều quan trọng là những điều khai thác đƣợc phải càng dễ hiểu với con ngƣời càng tốt. Vì vậy, các giải pháp thƣờng bao gồm việc diễn tả dƣới dạng đồ họa, xây dựng cấu trúc luật với các đồ thị cĩ hƣớng (Gaines), biểu diễn bằng ngơn ngữ tự nhiên và các kỹ thuật khác nhằm biểu diễn tri thức và dữ liệu.
- Sự tương tác với người sử dụng và các tri thức sẵn cĩ: Rất nhiều cơng cụ và phƣơng pháp khai phá dữ liệu khơng thực sự tƣơng tác với ngƣời dùng và khơng dễ dàng kết hợp cùng với các tri thức đã biết trƣớc đĩ. Việc sử dụng tri thức miền là rất quan trọng trong khai phá dữ liệu. Đã cĩ nhiều biện pháp nhằm khắc phục vấn đề này nhƣ sử dụng cơ sở dữ liệu suy diễn để phát hiện tri thức, những tri thức này sau
đĩ đƣợc sử dụng để hƣớng dẫn cho việc tìm kiếm khai phá dữ liệu hoặc sử dụng sự phân bố và xác suất dữ liệu trƣớc đĩ nhƣ một dạng mã hĩa tri thức cĩ sẵn.
Kết chƣơng: Chƣơng II, em đã tập trung nghiên cứu và trình bày những kiến
thức cơ bản nhất trong khai phá dữ liệu. Đƣa ra các bài tốn chính nhƣ: Phân lớp, phân cụm, hồi quy và dự báo ...; Những ứng dụng và phân loại trong khai phá dữ liệu; Thách thức và khĩ khăn trong khai phá dữ liệu làm cơ sở cho nghiên cứu chƣơng tiếp theo.
CHƢƠNG III: MƠ HÌNH HỆ THỐNG PHÁT HIỆN XÂM NHẬP DỰA TRÊN KHAI PHÁ DỮ LIỆU SỬ DỤNG KỸ THUẬT PHÂN LỚP
Chƣơng này, em tập trung nghiên cứu, đánh giá các kỹ thuật phân lớp từ đĩ làm cơ sở xây dựng mơ hình phát hiện xâm nhập trái phép sử dụng kỹ thuật phân lớp; Đồng thời tiến hành các thực nghiệm để so sánh đánh giá hiệu năng của các thuật tốn phân lớp: Nạve Bayes, Decision Tree trong phát hiện xâm nhập trái phép dựa trên tập dữ liệu mơ phỏng tấn cơng KDD Cup 1999 [11] sử dụng bộ cơng cụ WEKA.