Sơ đồ quá trình khai phá dữ liệu bằng mạng neuron

Một phần của tài liệu Khai phá dữ liệu và thuật toán khai phá luật kết hợp (Trang 33)

Mẫu chiết xuất bằng mạng neuron được thể hiện ở nút đầu ra của mạng. Mạng neuron sử dụng các hàm số chứ không sử dụng các hàm biểu tượng để tính mức tích cực của các nút đầu ra và cập nhật các trọng số của nó.

1.5.5.10.Thuật toán di truyền

Thuật toán di truyền, nói theo nghĩa rộng là mô mỏng lại hệ thống tiến hóa trong tự nhiên, chính xác hơn đó là thuật toán chỉ ra tập các cá thể được

hình thành, được ước lượng và biến đổi như thế nào. Ví dụ như xác định xem làm thế nào để lựa chọn các cá thể tạo giống và lựa chọn cá thể nào sẽ bị loại bỏ. Thuật toán cũng mô phỏng lại yếu tố gen trong nhiễm sắc thể sinh học trên máy tính để có thể giải quyết nhiều bài toán thực tế khác nhau.

Thuật toán di truyền là một thuật toán tối ưu hóa. Nó được sử dụng rất rộng rãi trong việc tối ưu hóa các kỹ thuật khai phá dữ liệu trong đó có kỹ thuật mạng neuron. Sự liên hệ của nó với các thuật toán khai phá dữ liệu là ở chỗ việc tối ưu hóa cần thiết cho các quá trình khai phá dữ liệu. Ví dụ như trong kỹ thuật cây quyết định, tạo luật.

1.6. NHỮNG ỨNG DỤNG CỦA KHAI PHÁ DỮ LIỆU

Các kỹ thuật khai phá dữ liệu có thể ứng dụng vào nhiều tình huống thực hiện ra quyết định đa dạng và trong nhiều phạm vi rộng của các hoạt động nghiệp vụ.

Marketing: phân tích các nhu cầu của khách hàng dựa trên các mẫu dữ liệu mua bán hàng, phân loại khách hàng, phân loại các mặt hàng trong thời gian dài để từ đó xác định chiến lược kinh doanh, quảng cáo, xác định các kế hoạch sản xuất và kinh doanh theo các thời kỳ khác nhau. Tài chính, ngân hàng, thị trường chứng khoán: phân tích các khả năng

vay, trả nợ của khác hàng, đánh giá tính hiệu quả của các hoạt động kinh doanh tiền tệ của ngân hàng, phân tích thị trường đầu tư chứng khoán, các hợp đồng (khế ước), công trái, phát hiện sự gian lận trong các hoạt động kinh tế, tài chính, v.v.

Sản xuất, chế tạo, công nghệ: thực hiện phân tích dữ liệu về các sản xuất, chế tạo để đề xuất tối ưu hoá về tài nguyên, vật liệu, nhân lực trong các qui trình sản xuất và chế tạo mới, v.v.

Chăm sóc sức khoẻ cộng đồng: phân tích các kết quả phòng chống và điều trị các loại bệnh, công tác chăm sóc và bảo vệ sức khoẻ của cộng đồng, phân tích sự tác hại của ma tuý, những tệ nạn xã hội khác, v.v. Giáo dục, Sinh tin học, khai thác Web, v.v.

1.7. MỘT SỐ THÁCH THỨC TRONG ỨNG DỤNG VÀ NGHIÊN CỨU KỸ THUẬT KHAI PHÁ DỮ LIỆU

Việc nghiên cứu và ứng dụng kỹ thuật khai phá dữ liệu gặp nhiều khó khăn, nhưng không phải là không giải quyết được mà chúng cần được tìm hiểu để có thể phát triển tốt hơn.

1.7.1. Các vấn đề về cơ sở dữ liệu

Đầu vào chủ yếu của hệ thống phát hiện tri thức là các dữ liệu thô trong cơ sở dữ liệu. Những vấn đề khó khăn phát sinh trong khai phá dữ liệu chính từ nguyên nhân là dữ liệu trong thực tế thường động, không đầy đủ, lớn và bị nhiễu. Trong những trường hợp khác, người ta không biết cơ sở dữ liệu có chứa thông tin cần thiết cho việc khai thác hay không và làm thế nào để giải quyết sự dư thừa thông tin không thích hợp này.

Dữ liệu lớn: cho đến nay, các cơ sở dữ liệu với hàng trăm trường và bảng, hàng triệu bản ghi và với kích thước lên đến Gigabyte đã là chuyện bình thường. Hiện nay đã bắt đầu xuất hiện các cơ sở dữ liệu có kích thước tới Tetrabyte. Các phương pháp giải quyết hiện nay là đưa ra một ngưỡng cho cơ sở dữ liệu, lấy mẫu, các phương pháp xấp xỉ, xử lý song song.

Kích thước lớn: không chỉ có số lượng bản ghi mà số các trường trong cơ sở dữ liệu cũng nhiều, vì vậy mà kích thước của bài toán trở nên lớn sẽ làm tăng không gian tìm kiếm. Hơn nữa, nó cũng làm tăng khả năng một thuật toán khai phá dữ liệu có thể tìm thấy các mẫu giả. Biện pháp khắc phục là làm giảm kích thước tác động của bài toán và sử dụng các tri thức biết trước để xác định các biến không phù hợp.  Dữ liệu động: đặc điểm cơ bản của hầu hết các cơ sở dữ liệu là

nội dung của chúng thay đổi liên tục. Dữ liệu có thể thay đổi theo thời gian và việc khai phá dữ liệu bị ảnh hưởng bởi thời điểm quan sát dữ liệu. Việc thay đổi dữ liệu nhanh chóng có thể làm cho mẫu khai thác được trước đó mất giá trị. Hơn nữa, các biến trong cơ sở dữ liệu của ứng dụng đã cho chúng có thể bị thay đổi, bị xóa hoặc là tăng lên theo thời gian. Vấn đề này được giải quyết bằng giải pháp tăng trưởng để nâng cấp các mẫu và coi những thay đổi như là cơ hội để khai thác bằng cách sử dụng nó để tìm kiếm các mẫu bị thay đổi.

Các trường không phù hợp: một đặc điểm quan trọng khác là tính không thích hợp của dữ liệu, nghĩa là mục dữ liệu trở thành không thích hợp với trọng tâm hiện tại của việc khai thác. Một khía cạnh khác đôi khi cũng liên quan đến độ phù hợp là tính ứng dụng của một thuộc tính đối với một tập con của cơ sở dữ liệu.

Các giá trị bị thiếu: sự có mặt hay vắng mặt của giá trị các thuộc tính dữ liệu phù hợp có thể ảnh hưởng đến việc khai phá dữ liệu. Trong hệ thống tương tác, sự thiếu vắng dữ liệu quan trọng có thể dẫn tới yêu cầu cho giá trị của nó hoặc kiểm tra để xác định giá trị của nó. Hoặc cũng có thể sự vắng mặt của dữ liệu được coi như một điều kiện, thuộc tính bị mất có thể được xem như một giá trị trung gian và giá trị không biết.

Các trường bị thiếu: một quan sát không đầy đủ cơ sở dữ liệu có thể làm cho dữ liệu có giá trị bị xem như có lỗi. Việc quan sát cơ sở dữ liệu phải phát hiện được toàn bộ các thuộc tính có thể dùng để thuật toán khai phá dữ liệu có thể áp dụng để giải quyết bài toán. Giả sử ta có các thuộc tính để phân biệt các tình huống đáng quan tâm. Nếu chúng không làm được điều đó thì có nghĩa là đã có lỗi trong dữ liệu. Đây cũng là vấn đề thường xảy trong cơ sở dữ liệu kinh doanh. Các thuộc tính quan trọng có thể sẽ bị thiếu dữ liệu không được chuẩn bị cho việc khai phá dữ liệu.

Độ nhiễu và không chắc chắn: đối với các thuộc tính thích hợp, độ nghiêm trọng của lỗi phụ thuộc vào kiểu dữ liệu của các giá trị được phép. Các giá trị của các thuộc tính khác có thể là các số thực, số nguyên, chuỗi và có thể thuộc vào tập giá trị định danh. Các giá trị định danh này có thể sắp xếp theo thứ tự bộ phận hoặc đầy đủ, thậm chí có thể có cấu trúc ngữ nghĩa.

Một yếu tố khác của độ không chắc chắn là tính kế thừa hoặc độ chính xác mà dữ liệu cần có, nói cách khác là độ nhiễu của dữ liệu. Dựa trên việc tính toán trên các phép đo và phân tích có ưu tiên, mô hình thống kê mô tả tính ngẫu nhiên được tạo ra và được sử dụng để định nghĩa độ mong muốn và độ dung sai của dữ liệu. Thường thì các mô hình thống kê được áp dụng theo cách đặc biệt để xác định một cách chủ quan các thuộc tính để đạt được các thống kê và đánh giá khả năng chấp nhận của các giá trị thuộc tính. Đặc biệt là đối với kiểu dữ liệu số, sự đúng đắn của dữ liệu có thể là một yếu tố trong việc khai phá.

1.7.2. Một số vấn đề khác

Quá phù hợp: khi một thuật toán tìm kiếm các tham số tốt nhất cho một mô hình nào đó sử dụng một tập dữ liệu hữu hạn, nó có thể sẽ bị tình trạng “quá độ” dữ liệu (nghĩa là tìm kiếm quá mức cần thiết gây ra hiện tượng chỉ phù hợp với dữ liệu đó mà không có khả năng đáp ứng cho các dữ liệu lạ), làm cho mô hình hoạt động rất kém đối với các dữ liệu thử. Các giải pháp khắc phục bao gồm đánh giá chéo, thực hiện theo nguyên tắc nào đó hoặc sử dụng các biện pháp thống kê khác. Khả năng biểu đạt mẫu: trong rất nhiều ứng dụng, điều quan trọng là

những điều khai thác được phải càng dễ hiểu với con người càng tốt. Vì vậy, các giải pháp thường bao gồm việc diễn tả dưới dạng đồ họa, xây dựng cấu trúc luật với các đồ thị có hướng, biểu diễn bằng ngôn ngữ tự nhiên và kỹ thuật khác nhằm biểu diễn các tri thức và dữ liệu. Sự tương tác với người sử dụng và các tri thức sẵn có: rất nhiều công

cụ và phương pháp khai phá dữ liệu không thực sự tương tác với người dùng và không dễ dàng kết hợp cùng với các tri thức đã biết trước đó. Việc sử dụng tri thức miền là rất quan trọng trong khai phá dữ liệu. Đã có nhiều biện pháp nhằm khắc phục vấn đề này như sử dụng cơ sở dữ liệu suy diễn để phát hiện tri thức, những tri thức này sau đó được sử dụng để hướng dẫn cho việc tìm kiếm khai phá dữ liệu hoặc sử dụng sự phân bố xác suất dữ liệu trước đó như một dạng mã hóa tri thức có sẵn.

Kết luận chương 1

Nội dung chương này tìm hiểu quá trình phát triển về tổ chức và phân phát dữ liệu. Quá trình khai phá dữ liệu và các vấn đề khai phá dữ liệu. Quá

trình phát hiện tri thức là quá trình rút ra những tri thức có ích từ dữ liệu mà trong đó khai phá dữ liệu là giai đoạn chủ yếu. Khai phá dữ liệu là nhiệm vụ khám phá các mẫu có ích từ nguồn dữ liệu lớn, trong đó dữ liệu có thể được lưu trữ trong các cơ sở dữ liệu, kho dữ liệu. Phát hiện tri thức bao gồm nhiều giai đoạn trong đó khai phá dữ liệu là giai đoạn quan trọng nhất. Chương này cũng trình bày các ứng dụng của khai phá dữ liệu, các phương pháp khai phá dữ liệu và những thách thức trong khai phá dữ liệu. Trong các phương pháp khai phá dữ liệu, phát hiện luật kết hợp là một lĩnh vực đang được quan tâm nghiên cứu mạnh mẽ. Chương sau sẽ trình bày chi tiết về phương pháp khai phá luật kết hợp.

KHAI PHÁ LUẬT KẾT HỢP

2.1. CÁC KHÁI NIỆM CƠ SỞ

Kí hiệu I = {i1, i2, …, im} là một tập các thuộc tính nhị phân được gọi là các mục dữ liệu. D là cơ sở dữ liệu của tập những giao tác, mỗi giao tác T là một tập những mục con của I, T I. Mỗi giao tác có một định danh duy nhất gọi là TID. X={i1, i2, …, ik} I được gọi là một tập mục hay một tập k-mục nếu nó chứa k mục. Một giao tác T được gọi là chứa tập mục X chỉ khi X T. Mỗi giao tác là một bộ <TID, I>, I là một tập mục.

Luật kết hợp: một luật kết hợp là một biểu thức có dạng X Y với X, Y

là các tập mục, XY=, X I, Y I. X được gọi là tiền đề, Y gọi là kết luận của luật.

Độ hỗ trợ và độ tin cậy

Định nghĩa 2.1 Độ hỗ trợ của một tập mục X trong cơ sở dữ liệu D là tỉ số giữa số các giao tác T D có chứa tập X và tổng số giao tác trong D (hay là phần trăm của các giao tác trong D có chứa tập mục X), kí hiệu là Supp(X).

Ta có 0 supp(X) 1 với mọi tập mục X.

Định nghĩa 2.2 Độ hỗ trợ của luật X Y là tỉ số của số giao tác có chứa X Y và số giao tác trong cơ sở dữ liệu D, kí hiệu: Supp(X Y )

  . ) ( |D| X D : T T X Supp   

Như vậy độ hỗ trợ của một luật bằng 50% nghĩa là có 50% số giao tác có chứa tập mục

XY. Độ hỗ trợ có ý nghĩa thống kê của luật kết hợp.

Định nghĩa 2.3 Độ tin cậy của một luật r =X Y là tỉ số (phần trăm) của số giao tác trong D chứa XY với số giao tác trong D có chứa tập mục X. Kí hiệu độ tin cậy của một luật là conf(r). Ta có 0 conf (r) 1.

Nhận xét: độ hỗ trợ và độ tin cậy chính là xác suất sau:

Supp(X Y) = P(XY).

Conf(X Y) = P(Y/X) = Supp(XY)/Supp(X).

Ta có thể nói rằng với luật có độ tin cậy 85% thì có nghĩa là 85% các giao tác có chứa X thì cũng chứa Y. Độ tin cậy của một luật là thể hiện mức độ tương quan trong dữ liệu giữa 2 tập XY. Độ tin cậy là độ đo mức độ tin cậy của một luật.

Định nghĩa 2.4 Tập mục X được gọi là tập mục thường xuyên nếu có Supp(X) MinSup, với MinSup là ngưỡng độ hỗ trợ cho trước.

Một số tính chất của tập mục và luật kết hợp:

Tính chất 2.1 Giả sử A, B I là 2 tập mục với A B thì Supp(A)

Supp(B).

Như vậy, giao tác nào chứa tập mục B thì cũng chứa tập mục A.

  . ) ( |D| Y X D : T T Y X Supp     

Tính chất 2.2 Giả sử A, B là hai tập mục, A, B I, Nếu B là tập mục thường xuyên và A B thì A cũng là tập mục thường xuyên.

Thật vậy nếu B là tập mục thường xuyên thì Supp(B) MinSup, mọi tập mục A là tập con của tập mục B đều là tập mục thường xuyên trong cơ sở dữ liệu D vì Supp(A) supp(B) (Tính chất 2.1).

Tính chất 2.3 A, B là 2 tập mục, A B và A là tập mục không thường xuyên thì B cũng là tập mục không thường xuyên.

Chứng minh:

Thật vậy A là tập không thường xuyên nên Supp(A)< minSupA B

nên Supp(A) Supp(B).

Suy ra Supp(B) < MinSup vậy B là tập mục không thường xuyên.

Tính chất 2.4 Nếu luật X (L-X) không thỏa độ tin cậy cực tiểu thì luật Y (L-Y) cũng không thỏa mãn, với các tập mục Y X L.

Vì theo tính chất 2.1 ta có Supp(B)  Supp(A) và theo định nghĩa độ tin

cậy ta có: min . ) ( ) ( ) ( ) ( ) ( ( conf A Supp L Supp B Supp L Supp B L B conf      Lưu ý

1. Nếu có hai luật kết hợp X Z và Y Z trong D thì không nhất thiết XYZ là đúng.

Chẳng hạn xét trường hợp XY =  và các giao tác trong D có hỗ trợ Z

nếu và chỉ nếu chúng chỉ chứa mỗi X hoặc Y, khi đó luật X Y Z có độ tin cậy 0%.

2. Nếu XY Z thì X Z và Y Z chưa chắc xảy ra.

Chẳng hạn xét trường hợp Z có mặt trong giao tác chỉ khi cả hai tập X

Y cũng có mặt, tức là Supp(XY) = Supp(Z). Nếu độ hỗ trợ của XY đủ lớn hơn Supp(XY) tức là Supp(X) Supp(XY)Supp(Y) Supp(XY) thì 2 luật riêng biệt sẽ không đủ độ hỗ trợ.

Tuy nhiên trường hợp ngược lại XYZ thì suy ra được XYXZ.

3. Các luật kết hợp không có tính bắt cầu.

Nếu X Y và Y Z thì không thể suy ra được X Z.

Ví dụ sau cho thấy tính không bắc cầu: giữa XZ không có liên hệ gì .

X Y Z 1 1 0 0 0 0 1 1 0 0 1 1 0 1 1 1 0 0

Ví dụ: cho cơ sở dữ liệu gồm 6 giao tác, với I={A, B, C, D, E}

TID Tập mục T1 A, B, D, E T2 B, C, E T3 A, B, D, E T4 A, B, C, E T5 A, B, C, D, E T6 B, C, D Bảng 2.1 Cơ sở dữ iệu D

Với ngưỡng độ hỗ trợ cho trước minSup = 50% = 0.5 ta có bảng độ hỗ trợ của một số mục và tập mục như sau:

Mục A trong 4 giao tác {T1, T3, T4, T5} của cơ sở dữ liệu D nên có độ hỗ trợ là Supp(A) = 4/6 = 67%

Một phần của tài liệu Khai phá dữ liệu và thuật toán khai phá luật kết hợp (Trang 33)

Tải bản đầy đủ (PDF)

(124 trang)