Những khĩ khăn trong khai phá dữ liệu

5. Phƣơng pháp nghiên cứu:

2.4.2. Những khĩ khăn trong khai phá dữ liệu

2.4.2.1 Các vấn đề về cơ sở dữ liệu

Đầu vào chủ yếu của một hệ thống khai thác tri thức là các dữ liệu thơ trong cơ sở phát sinh trong khai phá dữ liệu chính là từ đây. Do các dữ liệu trong thực tế thƣờng động, khơng đầy đủ, lớn và bị nhiễu. Trong những trƣờng hợp khác, ngƣời ta khơng biết cơ sở dữ liệu cĩ chứa các thơng tin cần thiết cho việc khai thác hay khơng và làm thế nào để giải quyết với sự dƣ thừa những thơng tin khơng thích hợp này.

* Dữ liệu lớn: Cho đến nay, các cơ sở dữ liệu với hàng trăm trƣờng và bảng, hàng triệu bản ghi và với kích thƣớc đến gigabytes đã là chuyện bình thƣờng. Hiện nay đã bắt đầu xuất hiện các cơ sở dữ liệu cĩ kích thƣớc tới terabytes. Các phƣơng pháp giải quyết hiện nay là đƣa ra một ngƣỡng cho cơ sở dữ liệu, lấu mẫu, các phƣơng pháp xấp xỉ, xử lý song song.

* Kích thước lớn: khơng chỉ cĩ số lƣợng bản ghi lớn mà số các trƣờng trong cơ sở dữ liệu cũng nhiều. Vì vậy mà kích thƣớc của bài tốn trở nên lớn hơn. Một tập dữ liệu cĩ kích thƣớc lớn sinh ra vấn đề làm tăng khơng gian tìm kiếm mơ hình suy diễn. Hơn nữa, nĩ cũng làm tăng khả năng một giải thuật khai phá dữ liệu cĩ thể tìm thấy các mẫu giả. Biện pháp khắc phục là làm giảm kích thƣớc tác động của bài tốn và sử dụng các tri thức biết trƣớc để xác định các biến khơng phù hợp.

* Dữ liệu động: Đặc điểm cơ bản của hầu hết các cơ sở dữ liệu là nội dung của chúng thay đổi liên tục. Dữ liệu cĩ thể thay đổi theo thời gian và việc khai phá dữ liệu cũng bị ảnh hƣởng bởi thời điểm quan sát dữ liệu. Ví dụ trong cơ sở dữ liệu về tình trạng bệnh nhân, một số giá trị dữ liệu là hằng số, một số khác lại thay đổi liên tục theo thời gian (ví dụ cân nặng và chiều cao), một số khác lại thay đổi tùy thuộc vào tình huống và chỉ cĩ giá trị đƣợc quan sát mới nhất là đủ (ví dụ nhịp đập của mạch). Vậy thay đổi dữ liệu nhanh chĩng cĩ thể làm cho các mẫu khai thác đƣợc trƣớc đĩ mất giá trị. Hơn nữa, các biến trong cơ sở dữ liệu của ứng dụng đã cho cũng cĩ thể bị thay đổi, bị xĩa hoặc là tăng lên theo thời gian. Vấn đề này đƣợc giải quyết bằng các giải pháp tăng trƣởng để nâng cấp các mẫu và coi những thay đổi nhƣ là cơ hội để khai thác bằng cách sử dụng nĩ để tìm kiếm các mẫu bị thay đổi.

* Các trường khơng phù hợp: Một đặc điểm quan trọng khác là tính khơng thích hợp của dữ liệu, nghĩa là mục dữ liệu trở thành khơng thích hợp với trọng tâm hiện tại của việc khai thác. Một khía cạnh khác đơi khi cũng liên quan đến độ phù hợp là tính ứng dụng của một thuộc tính đối với một tập con của cơ sở dữ liệu. Ví dụ trƣờng số tài khoản Nostro khơng áp dụng cho các tác nhân.

* Các giá trị bị thiếu: Sự cĩ mặt hay vắng mặt của giá trị các thuộc tính dữ liệu phù hợp cĩ thể ảnh hƣởng đến việc khai phá dữ liệu. Trong hệ thống tƣơng tác, sự thiếu vắng dữ liệu quan trọng cĩ thể dẫn đến việc yêu cầu cho giá trị của nĩ hoặc kiểm tra để xác định giá trị của nĩ. Hoặc cũng cĩ thể sự vắng mặt của dữ liệu đƣợc coi nhƣ một điều kiện, thuộc tính bị mất cĩ thể đƣợc coi nhƣ một giá trị trung gian và là giá trị khơng biết.

* Các trường bị thiếu: Một quan sát khơng đầy đủ cơ sở dữ liệu cĩ thể làm cho các dữ liệu cĩ giá trị bị xem nhƣ cĩ lỗi. Việc quan sát cơ sở dữ liệu phải phát hiện đƣợc tồn bộ các thuộc tính cĩ thể dùng để giải thuật khai phá dữ liệu cĩ thể áp dụng nhằm giải quyết bài tốn. Giả sử ta cĩ các thuộc tính để phân biệt các tình huống đáng quan tâm. Nếu chúng khơng làm đƣợc điều đĩ thì cĩ nghĩa là đã cĩ lỗi trong dữ liệu. Đối với một hệ thống học để chuẩn đốn bệnh sốt rét từ một cơ sở dữ liệu bệnh nhân thì trƣờng hợp các bản ghi của bệnh nhân cĩ triệu chứng giống nhau nhƣng lại cĩ các chẩn đốn khác nhau là do trong dữ liệu đã bị lỗi. Đây cũng là vấn đề thƣờng xảy ra trong cơ sở dữ liệu kinh doanh. Các thuộc tính quan trọng cĩ thể sẽ bị thiếu nếu dữ liệu khơng đƣợc chuẩn bị cho việc khai phá dữ liệu.

* Độ nhiễu và khơng chắc chắn: Đối với các thuộc tính đã thích hợp, độ nghiêm trọng của lỗi phụ thuộc vào kiểu dữ liệu của các giá trị cho phép. Các giá trị của các thuộc tính khác nhau cĩ thể là các số thực, số nguyên, chuỗi và cĩ thể thuộc vào tập các giá trị định danh. Các giá trị định danh này cĩ thể sắp xếp theo thứ tự từng phần hoặc đầy đủ, thậm chí cĩ thể cĩ cấu trúc ngữ nghĩa.

Một yếu tố khác của độ khơng chắc chắn chính là tính kế thừa hoặc độ chính xác mà dữ liệu cần cĩ, nĩi cách khác là độ nhiễu trên các phép đo và phân tích cĩ ƣu tiên, mơ hình thống kê mơ tả tính ngẫu nhiên đƣợc tạo ra và đƣợc sử dụng để định nghĩa độ mong muốn và độ dung sai của dữ liệu. Thƣờng thì các mơ hình thống kê đƣợc áp dụng theo cách đặc biệt để xác định một cách chủ quan các thuộc tính để đạt đƣợc các thống kê và đánh giá khả năng chấp nhận của các (hay tổ hợp các) giá trị thuộc tính. Đặc biệt là với dữ liệu kiểu số, sự đúng đắn của dữ liệu cĩ thể là một yếu tố trong việc khai phá. Ví dụ nhƣ trong việc đo nhiệt độ cơ thể, ta thƣờng cho phép chênh lệch 0.1 độ.

Nhƣng việc phân tích theo xu hƣớng nhạy cảm nhiệt độ của cơ thể lại yêu cầu độ chính xác cao hơn. Để một hệ thống khai thác cĩ thể liên hệ đến xu hƣớng này để chuẩn đốn thì lại cần cĩ một độ nhiễu trong dữ liệu đầu vào.

* Mối quan hệ phức tạp giữa các trường: Các thuộc tính hoặc các giá trị cĩ cấu trúc phân cấp, các mối quan hệ giữa các thuộc tính và các phƣơng tiện phức tạp

để diễn tả tri thức về nội dung của cơ sở dữ liệu yêu cầu các giải thuật phải cĩ khả năng sử dụng một cách hiệu quả các thơng tin này. Ban đầu, kỹ thuật khai phá dữ liệu chỉ đƣợc phát triển cho các bản ghi cĩ giá trị thuộc tính đơn giản. Tuy nhiên, ngày nay ngƣời ta đang tìm cách phát triển các kỹ thuật nhằm rút ra mối quan hệ giữa các biến này.

2.4.2.2 Một số vấn đề khác

- “Quá vừa” (Overfitting): Khi một giải thuật tìm kiếm các tham số tốt nhất cho nĩ sử dụng một tập dữ liệu hữu hạn, nĩ cĩ thể sẽ bị tình trạng “quá vừa” dữ liệu (nghĩa là tìm kiếm quá mức cần thiết gây ra hiện tƣợng chỉ phù hợp với các dữ liệu đĩ mà khơng cĩ khả năng đáp ứng cho các dữ liệu lạ), làm cho mơ hình hoạt động rất kém đối với các dữ liệu thử. Các giải pháp khắc phục bao gồm đánh giá chéo (cross-validation), thực hiện theo nguyên tắc nào đĩ hoặc sử dụng các biện pháp thống kê khác.

- Đánh giá tầm quan trọng thống kê: Vấn đề (liên quan đến overfitting) xảy ra khi một hệ thống tìm kiếm qua nhiều mơ hình. Ví dụ nhƣ nếu một hệ thống kiểm tra N mơ hình ở mức độ quan trọng 0,001 thì với dữ liệu ngẫu nhiên trung bình sẽ cĩ N/1000 mơ hình đƣợc chấp nhận là quan trọng. Để xử lý vấn đề này, ta cĩ thể sử dụng phƣơng pháp điều chỉnh thống kê trong kiểm tra nhƣ một hàm tìm kiếm, ví dụ nhƣ điều chỉnh Bonferroni đối với các kiểm tra độc lập.

- Khả năng biểu đạt của mẫu: Trong rất nhiều ứng dụng, điều quan trọng là những điều khai thác đƣợc phải càng dễ hiểu với con ngƣời càng tốt. Vì vậy, các giải pháp thƣờng bao gồm việc diễn tả dƣới dạng đồ họa, xây dựng cấu trúc luật với các đồ thị cĩ hƣớng (Gaines), biểu diễn bằng ngơn ngữ tự nhiên và các kỹ thuật khác nhằm biểu diễn tri thức và dữ liệu.

- Sự tương tác với người sử dụng và các tri thức sẵn cĩ: Rất nhiều cơng cụ và phƣơng pháp khai phá dữ liệu khơng thực sự tƣơng tác với ngƣời dùng và khơng dễ dàng kết hợp cùng với các tri thức đã biết trƣớc đĩ. Việc sử dụng tri thức miền là rất quan trọng trong khai phá dữ liệu. Đã cĩ nhiều biện pháp nhằm khắc phục vấn đề này nhƣ sử dụng cơ sở dữ liệu suy diễn để phát hiện tri thức, những tri thức này sau

đĩ đƣợc sử dụng để hƣớng dẫn cho việc tìm kiếm khai phá dữ liệu hoặc sử dụng sự phân bố và xác suất dữ liệu trƣớc đĩ nhƣ một dạng mã hĩa tri thức cĩ sẵn.

Kết chƣơng: Chƣơng II, em đã tập trung nghiên cứu và trình bày những kiến

thức cơ bản nhất trong khai phá dữ liệu. Đƣa ra các bài tốn chính nhƣ: Phân lớp, phân cụm, hồi quy và dự báo ...; Những ứng dụng và phân loại trong khai phá dữ liệu; Thách thức và khĩ khăn trong khai phá dữ liệu làm cơ sở cho nghiên cứu chƣơng tiếp theo.

CHƢƠNG III: MƠ HÌNH HỆ THỐNG PHÁT HIỆN XÂM NHẬP DỰA TRÊN KHAI PHÁ DỮ LIỆU SỬ DỤNG KỸ THUẬT PHÂN LỚP

Chƣơng này, em tập trung nghiên cứu, đánh giá các kỹ thuật phân lớp từ đĩ làm cơ sở xây dựng mơ hình phát hiện xâm nhập trái phép sử dụng kỹ thuật phân lớp; Đồng thời tiến hành các thực nghiệm để so sánh đánh giá hiệu năng của các thuật tốn phân lớp: Nạve Bayes, Decision Tree trong phát hiện xâm nhập trái phép dựa trên tập dữ liệu mơ phỏng tấn cơng KDD Cup 1999 [11] sử dụng bộ cơng cụ WEKA.

3.1. Đánh giá các kỹ thuật phân lớp

3.1.1. Khái niệm phân lớp 3.1.1.1. Khái niệm 3.1.1.1. Khái niệm

Phân lớp dữ liệu là kỹ thuật dựa trên tập huấn luyện và những giá trị hay là nhãn của lớp trong một thuộc tính phân lớp và sử dụng nĩ trong việc phân lớp dữ liệu mới. Phân lớp cũng là tiên đốn loại lớp của nhãn. Bên cạnh kỹ thuật phân lớp cĩ một hình thức tƣơng tự là kỹ thuật tiên đốn, kỹ thuật tiên đốn khác với phân lớp ở chỗ phân lớp chỉ liên quan đến tiên đốn loại lớp của nhãn cịn kỹ thuật tiên đốn mơ hình những hàm đánh giá liên tục. Kỹ thuật phân lớp đƣợc tiến hành bao gồm 2 bƣớc: Xây dựng mơ hình và sử dụng mơ hình.

Xây dựng mơ hình: là mơ tả một tập những lớp đƣợc định nghĩa trƣớc trong đĩ: mỗi bộ hoặc mẫu đƣợc gán thuộc về một lớp đƣợc định nghĩa trƣớc nhƣ là đƣợc xác định bởi thuộc tính nhãn lớp, tập hợp của những bộ đƣợc sử dụng trong việc sử dụng mơ hình đƣợc gọi là tập huấn luyện. Mơ hình đƣợc biểu diễn là những luật phân lớp, cây quyết định và những cơng thức tốn học.

Sử dụng mơ hình: Việc sử dụng mơ hình phục vụ cho mục đích phân lớp dữ liệu trong tƣơng lai hoặc phân lớp cho những đối tƣợng chƣa biết đến. Trƣớc khi sử dụng mơ hình ngƣời ta thƣờng phải đánh giá tính chính xác của mơ hình trong đĩ nhãn đƣợc biết của mẫu kiểm tra đƣợc so sánh với kết quả phân lớp của mơ hình, độ chính xác là phần trăm của tập hợp mẫu kiểm tra mà phân loại đúng bởi mơ hình, tập kiểm tra là độc lập với tập huấn luyện.

Thực tế đặt ra nhu cầu là từ một cơ sở dữ liệu với nhiều thơng tin ẩn, con ngƣời cĩ thể trích rút ra các quyết định nghiệp vụ thơng minh. Phân lớp và dự đốn là hai dạng của phân tích dữ liệu nhằm trích rút ra một mơ hình mơ tả các lớp dữ liệu quan trọng hay dự đốn xu hƣớng dữ liệu tƣơng lai. Phân lớp dự đốn giá trị của những nhãn xác định (categorical label) hay những giá trị rời rạc (discrete value), cĩ nghĩa là phân lớp thao tác với những đối tƣợng dữ liệu mà cĩ bộ giá trị là biết trƣớc. Trong khi đĩ, dự đốn thì xây dựng lại mơ hình với các hàm nhận giá trị liên tục.

Ví dụ: Mơ hình phân lớp dự báo thời tiết cĩ thể cho biết thời tiết ngày mai là mƣa hay nắng dựa vào những thơng số độ ẩm, sức giĩ, nhiệt độ,… của ngày hơm nay và ngày trƣớc đĩ. Hay nhờ vào các luật về xu hƣớng mua hàng của khách hàng trong siêu thị, các nhân viên kinh doanh cĩ thể ra những quyết sách đúng đắn về lƣợng mặt hàng cũng nhƣ chủng loại bày bán. Một mơ hình dự đốn cĩ thể dự đốn đƣợc lƣợng tiền tiêu dùng của khách hàng tiềm năng dựa trên những thơng tin về thu nhập và nghề nghiệp của khách hàng.

Trong những năm qua phân lớp dữ liệu đã thu hút sự quan tâm của các nhà nghiên cứu trong nhiều lĩnh vực khác nhau nhƣ học máy (machine learning), hệ chuyên gia (expertsystem), thống kê (statistics)… Cơng nghệ này cũng đã ứng dụng trong nhiều lĩnh vực khác nhau nhƣ: thƣơng mại, nhà băng, kinh doanh, nghiên cứu thị trƣờng, bảo hiểm, y tế, giáo dục …. Phần lớn các thuật tốn ra đời trƣớc đều sử dụng cơ chế dữ liệu cƣ trú trong bộ nhớ (memory resident), thƣờng thao tác với lƣợng dữ liệu nhỏ. Một số thuật tốn ra đời sau này đã sử dụng kỹ thuật cƣ trú trên đĩa cải thiện đáng kể khả năng mở rộng của thuật tốn với tập dữ liệu lớn lên tới hàng tỉ bản ghi.

3.1.1.2. Mục đích của phân lớp

Cĩ nhiều lý do mà tại sao chúng ta xây dựng mơ hình học phân lớp, ở đây chúng ta giới thiệu tĩm tắt một số ví dụ:

- Nhanh hơn: Chẳng hạn trong việc đọc mã bƣu điện bằng máy để cĩ thể sắp xếp và phân loại thƣ từ, tránh khĩ khăn cho nhân viên.

- Xác định độ rủi ro trong các đơn xin vay tiền: dựa vào thơng tin khách hàng vay tiền, chúng ta cĩ thể xếp khách hàng xin vay tiền vào nhĩm khách hàng cĩ độ rủi ro cao, thấp hay bình thƣờng để cĩ thể đƣa ra quyết định đúng đắn.

- Xác định đƣợc mức độ, tỉ lệ phần trăm lƣợng thơng tin rác khi hệ thống tiếp nhận thƣ.

- Trong lĩnh vực y khoa, chúng ta hy vọng là tránh đƣợc các phẫu thuật do chẩn đốn sai lầm, do vậy một hệ thống chẩn đốn độc lập, đáng tin cậy dựa vào các triệu chứng bên ngồi là rất cần thiết.

- Dự đốn trƣớc để đƣa ra các quyết định đầu tƣ tín dụng hay mua bán chứng khốn.

3.1.1.3. Các tiêu chí để đánh giá thuật tốn phân lớp

Trong từng ứng dụng cụ thể cần lựa chọn mơ hình phân lớp phù hợp. Việc lựa chọn phải dựa trên căn cứ so sánh các mơ hình phân lớp với nhau theo các tiêu chuẩn sau:

- Độ chính xác dự đốn (predictive accuracy): Độ chính xác là khả năng của mơ hình để dự đốn chính xác nhãn lớp của dữ liệu mới hay dữ liệu chƣa biết.

- Tốc độ (speed): Tốc độ là những chi phí tính tốn liên quan đến quá trình tạo ra và sử dụng mơ hình.

- Sức mạnh (robustness): Sức mạnh là khả năng mơ hình tạo ra những dự đốn đúng từ những dữ liệu nhiễu hay dữ liệu với những giá trị đặc biệt.

- Khả năng mở rộng (scalability): Khả năng mở rộng là khả năng thực thi hiệu quả trên lƣợng lớn dữ liệu của mơ hình đã học.

- Tính hiểu đƣợc (interrpretability): Tính hiểu đƣợc là mức độ hiểu và hiểu rõ những kết quả sinh ra bởi mơ hình đã học.

- Tính đơn giản (simplicity): Tính đơn giản liên quan đến kích thƣớc của cây quyết định hay độ đo cơ đọng của các luật.

Trong các tiêu chuẩn trên, khả năng mở rộng của mơ hình phân lớp đƣợc nhấn mạnh và chú trọng phát triển, đặc biệt với cây quyết định.

Những khĩ khăn trong khai phá dữ liệu

Phát hiện dựa vào dấu hiệu ( Signature-base detection)

Khái niệm về khai phá dữ liệu