tƣợng tập thô.
2.1.1. Rời rạc hoá các thuộc tính dạng số
2.1.1.1. Giới thiệu
Trong lĩnh vực phát hiện tri thức, một vấn đề đặt ra là làm sao chúng ta có thể xử lý được những dữ liệu hỗn tạp với những giá trị liên tục hay giá trị ký hiệu. Khi phân tích những thuộc tính với những giá trị thực, chúng phải trải qua một quá trình gọi là phép rời rạc hoá, nó chia cắt giá trị của thuộc tính thành những khoảng. Việc phân chia các giá trị thực thành các khoảng hợp lý là rất phức tạp.
Trong rời rạc hoá một bảng quyết định T = (U, A {d}), trong đó Va = [1a, ra) IR là một khoảng giá trị thực (IR là tập các số thực), chúng ta tìm kiếm một phân hoạch Pa của Va với bất kỳ a A.
Một phân hoạch bất kỳ Pa nào của Va được định nghĩa bởi một dãy được gọi là những nhát cắt 1a<cl < c2 <....< ck < ra từ Va, k là một số nguyên nào đó
Pa = {[1a, c1) [cl, c2) ... [ck, ra}. Bất kỳ họ các phân hoạch {Pa} a A nào đều có thể được xác định với một tập những nhát cắt. Trong quá trình rời rạc hoá, chúng ta tìm kiếm một tập những nhát cắt thoả mãn vài điều kiện tự nhiên.
Trước khi dữ liệu có thể được đưa vào mô hình tập thô truyền thống, đầu tiên chúng phải được rời rạc hoá. Bởi vì kết quả của sự rời rạc hoá sẽ làm tính chính xác của dữ liệu ban đầu bị giảm bớt nhưng tính tổng quát của nó sẽ được gia tăng. Khi các khoảng khác nhau nhỏ của việc rời rạc hoá được chỉ ra bởi một chuyên gia miền theo sự phán đoán của ông ta hay sử dụng các tiêu chuẩn đã thiết lập trong miền vấn đề, chúng được gọi là rời rạc hoá chuyên gia. Mặt khác khi chúng được định nghĩa một cách tự động, chúng được gọi là rời rạc hoá tự động. Trong miền rời rạc hoá tự động, có 3 trục khác nhau bởi những phương pháp rời rạc hoá có thể được phân lớp, cụ thể là toàn cục ngược với cục bộ, giám sát ngược với không giám sát (supervised vs unsupervised), và tĩnh ngược với động (static vs dynamic). Một phương pháp rời rạc hoá cục bộ trong một miền cục bộ hoá của không gian thể hiện (có nghĩa một tập con của các thể hiện) trong khi đó phương pháp rời rạc hoá toàn cục sử dụng toàn bộ không gian thể hiện (instance space) để rời rạc hoá. Nhiều phương pháp rời rạc hoá như phương pháp khoảng rộng đều (equal-width-intervals) và phương pháp khoảng tần suất đều (equal-frequency-interval) không sử dụng thông tin lớp trong quá trình rời rạc hoá, những phương pháp này được gọi là những phương pháp không giám sát. Tương tự như vậy, những phương pháp rời rạc hoá sử dụng thông tin phân lớp được gọi là phương pháp có giám sát (supervised). Nhiều phương pháp yêu cầu một tham số k, tham số này cho biết số tối đa các khoảng phân hoạch trong một đặc trưng (thuộc tính). Những phương pháp tĩnh thực hiện rời rạc hoá trên mỗi đặc trưng và xác định giá trị của k với mỗi đặc trưng độc lập với các đặc trưng khác.
Trái lại, các phương pháp động tìm kiếm thông qua không gian những giá trị k có thể với tất cả các đặc trưng một cách đồng thời, do đó nắm được tính độc lập trong rời rạc hoá đặc trưng.
Có nhiều phương pháp rời rạc hoá tự động giám sát và không giám sát (Quinlan 1986; Fayyad and Irari, 1993; Dougherty, 1995) được nghiên
cứu bởi cộng đồng máy học. Tuy nhiên, những phương pháp này hiếm khi được áp dụng vào các ứng dụng tiền xử lý cho lý thuyết tập thô. Phần đông các nhà nghiên cứu xác định bảng quyết định mã hoá (sau khi rời rạc hoá) dựa trên tri thức của các chuyên gia lĩnh vực. Những chuyên gia có thể đưa ra rõ ràng những điểm cắt hợp lý hơn các phương pháp rời rạc hoá tự động. Tuy vậy, ở những thời điểm, thiếu sự xem xét của các chuyên gia, những phương pháp rời rạc hoá tự động phải được sử dụng.
2.1.1.2. Lựa chọn thuộc tính và rời rạc hoá các thuộc tính dạng số dựa trên thống kê 2
[15]
Rời rạc hoá có thể chuyển các thuộc tính dạng số vào giá trị rời rạc trước khi áp dụng vào mô hình tập thô đối với các thuộc tính có giá trị liên tục. Ở đây thuật toán rời rạc hoá Chi2 được xem xét. Thuật toán Chi2 sử dụng thống kê 2
để rời rạc hoá những thuộc tính dạng số. Thuật toán Chi2 xuất phát từ thuật toán Chimerge của Kerber [1992] .
a. Thuật toán Chi2 [15]
Thuật toán Chi2 được dựa trên thống kê 2
. 2
là độ đo thống kê được sử dụng để kiểm tra giả thuyết giữa hai thuộc tính rời rạc là độc lập theo thống kê, được áp dụng vào vấn đề rời rạc hoá, nó kiểm định giả thuyết liệu thuộc tính quyết định là không phụ thuộc vào hai khoảng liền kề trong một thuộc tính điều kiện. Nếu kết luận của kiểm định 2
là thuộc tính quyết định độc lập theo các khoảng thì các khoảng được hợp nhất, mặt khác nếu kiểm định 2
kết luận chúng không độc lập, điều đó cho thấy rằng khác biệt trong tần suất các lớp lân cận có ý nghĩa theo thống kê vì thế các khoảng được để riêng biệt.
Thuật toán có hai pha:
Trong pha 1, thuật toán bắt đầu với một mức ý nghĩa cao (siglevel - mức ý nghĩa), ví dụ, 0,5 cho tất cả những thuộc tính dạng số để rời rạc hoá. Mỗi thuộc tính được sắp xếp tuỳ theo các giá trị của nó. Sau đó thực hiện:
1. Tính toán giá trị 2
theo phương trình (3.1) cho các cặp khoảng kề nhau (lúc ban đầu mỗi mẫu được đưa vào khoảng riêng của nó chỉ chứa duy nhất một giá trị của một thuộc tính);
2. Hợp nhất các cặp khoảng kề nhau với giá trị 2
thấp nhất, việc hợp nhất tiếp tục cho đến khi tất các cặp khoảng có giá trị 2
vượt quá tham số xác định bởi siglevel (khởi đầu là 0,5, giá trị 2
tương ứng của nó là 0,445 nếu như bậc tự do là I) Tiến trình trên được lặp lại với một mức ý nghĩa (siglevel) giảm xuống cho tới khi một tỷ lệ không nhất quán được vượt qua trong dữ liệu đã rời rạc ( được gán thủ công).
Việc kiểm tra tính nhất quán được được đưa ra như là một tiêu chuẩn dừng để đảm bảo rằng tập dữ liệu rời rạc hoá mô tả một cách chính xác dữ liệu ban đầu.
Thuật toán Chi2 tự động xác định một ngưỡng 2
thích hợp để đảm bảo tính chính xác của dữ liệu nguồn. Tính nhất quán ở đây được hiểu là hai mẫu giống nhau phải được phân vào cùng một lớp như nhau.
Pha 2: là một tiến trình tinh lọc của pha 1, bắt đầu với mức siglevel0 đã xác định trong pha 1, mỗi thuộc tính i được kết hợp với một siglevel[i] và theo thứ tự lần lượt hợp nhất. Việc kiểm tra tính nhất quán được kiểm soát sau khi hợp nhất mỗi thuộc tính. Nếu tỷ lệ không nhất quán không được vượt qua, siglevel[i] được giảm xuống cho vòng hợp nhất tiếp theo của thuộc tính i; ngược lại thuộc tính i sẽ không liên quan đến trong quá trình hợp nhất nữa. Tiến trình này tiếp tục cho tới khi không còn các giá trị của thuộc tính có thể được hợp nhất nữa. Ở cuối Pha 2, nếu một thuộc tính được hợp nhất đến một giá trị duy nhất, điều đó có nghĩa là thuộc tính này không liên quan đến việc mô tả tập dữ liệu ban đầu, kết quả là khi rời rạc hoá kết thúc thi việc lựa chọn đặc trưng đồng thời được hoàn thành.
Thuật toán Chi2:
Pha 1:
do while (Inconsistency(data) < ){ for mỗi thuộc tính số {
Sort(attribute, data);
Khởi tạo-chi2(attribute, data) ; do { Tính_Chi2(attribute~data); } while (Merge(data) } Sigleve10 = siglevel siglevel = Decresiglevel(siglevel); } Pha 2:
Set all siglvl[i]: sigleve10 cho mỗi thuộc tính i
do until không còn thuộc tính có thể hợp nhất { for với mỗi thuộc tính i có thể hợp nhất {
Sort (attribute, data) ;
Khởi tạo_Chi2(attribute, data); do { Tính_Chi2(attribute, data) } while(merge(data)) if (Inconsistency(data) < ) siglvl[i] = decresiglevel(siglvl[i]) ; elsse Thuộc tính i không thể hợp nhất ; } } Công thức để tính giá trị 2 là: 2 = k j ij ij i E A 1 2 2 1 ) ( (phương trình 3.1)
Với:
k = Số các lớp
Aij = Số các mẫu trong khoảng thứ i, lớp thứ j Ri = Số các mẫu trong khoảng thứ i =
2 1 i j i A Cj = Số các mẫu trong lớp thứ j = 2 1 i j i A N = Tổng số các mẫu = j = 2 1 ij j R
Eij: Tần suất mong muốn của Aij = Ri * Cj/N
Nếu một trong Ri hay Cj là 0, thì Eij được đặt = 0.1. Bậc tự do của thống kê 2 nhỏ hơn số các lớp là 1 .
- Inconsistency( ): Hàm này tính toán tỷ lệ không nhất quán trong tập dữ liệu, và
- Decresiglevel( ) - giảm mức ý nghĩa một mức, có nghĩa bắt đầu từ 0,5 và giảm 0,1
Merge( ) - trả về giá trị true hay là false tuỳ thuộc vào liệu thuộc tính quan tâm có được hợp nhất hay không.
- Khởi tạo chi2: tính toán Aij, Ri, Cj, N, Eij và k để tính toán giá trị 2
.
- Tính chi2 : Tính giá trị 2
theo phương trình (3.1)
b. Một số nhận xét:
- Tiêu chuẩn dừng trong thuật toán Chi2 phụ thuộc vào đặc trưng của tập dữ liệu và các mục tiêu của người sử dụng. Tiêu chuẩn dừng trong thuật toán Chi2 được định nghĩa là điểm mà tỷ lệ không nhất quán vượt quá tỷ lệ đã định nghĩa trước.
Các tác giả của thuật toán Chi2 đã gán các giá trị ~ khác nhan đối với các tập dữ liệu khác nhau. Người ta có thể thấy rằng những kết quả này có được bằng cách giảm độ chính xác của tập dữ liệu ban dầu. Ngoài ra, giá trị đạt được chỉ sau một số kiểm thử được thực hiện trên tập dữ liệu huấn luyện, điều này không hợp lý đối với tập dữ liệu chưa biết. Đây là một hạn chế của thuật toán [22, chương 4]
- Tiêu chuẩn hợp nhất của thuật toán Chi2 lựa chọn hai khoảng với giá trị 2 thấp nhất để thực hiện hợp nhất. Tiêu chuẩn hợp nhất này không xem xét đến bậc tự do, nó phải được chỉ ra trước để tính toán giá trị 2
. Sau khi tất Cả các giá trị 2
của các khoảng kề nhau được tính, hai khoảng có giá trị nhỏ nhất được hợp nhất mặc dù rằng bậc tự do không giống nhau với các khoảng liền kề khác nhau. Từ quan điểm thống kê, điều này không chính xác (Montgomery and Runger, 1999). Thuật toán Chi2 chỉ xem xét bậc tự do cực đại, thủ tục hợp nhất sẽ tiếp tục cho tới khi giá trị 2 vượt quá ngưỡng. Điều này sẽ dẫn đến một số thuộc tính bị hợp nhất quá đi, trong khi một số khác được rời rạc hoá từng phần, kết quả là nó đưa đến không nhất quán nhiều hơn sau khi rời rạc hoá [22, chương 4].
- Thuật toán Chi2 phù hợp với việc rời rạc hoá trong dự báo kinh tế tài chính vì trong các ứng dụng này thì dữ liệu dạng số là phổ biến. Thuật toán Chi2 chỉ có thể được sử dụng để rời rạc hoá và lựa chọn đặc trưng với những nhiệm vụ tự học có giám sát, vì thông tin lớp là quan trọng trong việc sử dụng thống kê 2
c. Thuật toán Chi2 sửa đổi trên cơ sở áp dụng cho lý thuyết tập thô [22, chƣơng 4].
Từ những phân tích ở trên một thuật toán Chi2 sửa đổi được đề xuất bởi Lixiang Shen (2001). Tác giả đã xem xét đến bậc tự do trong việc xác định các cặp khoảng kề nhau để hợp nhất và tiêu chuẩn nhất quán trong tập dữ liệu dựa trên cơ sở lý thuyết tập thô.
Sử dụng chất lượng của xấp xỉ làm tiêu chuẩn dừng thay .
Cho T là một hệ thống thống tin T = (U, A), B A và Y = {Y1, .., Yn} là một phân lớp hay một phân hoạch của U, có nghĩa là Yi YJ = ; Yi = U, Yi (i = 1,....n) là các lớp của phân lớp Y. Một độ đo để mô tả tính không chính xác của phân lớp xấp xỉ được gọi là chất lượng xấp xỉ A bởi B. B = ) ( ) ( U Card y B Card i
B mô tả phân trăm các thể hiện có thể được phân lớp vào Y; đối với
B = 1 thì tập dữ liệu là nhất quán. Bằng cách sử dụng chất lượng xấp xỉ như là tiêu chuẩn dừng, nó sẽ đảm bảo độ chính xác của dữ liệu huấn luyện được duy trì trong quá trình rời rạc hoá. Ngoài ra, nó làm cho quá trình rời rạc hoá tự động hoàn toàn.
Thuật toán Chi2 sửa đổi, xem xét đến hiệu số giữa giá trị 2
và ngưỡng tương ứng với những bậc tự do khác nhau. Thuật toán Ch2 sửa đổi lựa chọn hai khoảng liền kề có hiệu số cực đại giữa 2
và ngưỡng để tiến hành quá trình hợp nhất . Hiệu số giữa 2
và ngưỡng càng lớn, có nghĩa là tính độc lập của hai khoảng liền kề này là càng cao [22, chương 4].
Các tham số trong thuật toán Chi2 sửa đổi
k = số lớp của thuộc tính quyết định nằm trong hai khoảng liền kề Aij = số đối tượng trong khoảng thứ i, lớp thứ j
Ri = số đối tượng trong khoảng thứ i =
2 1 ij j A
Cj số đối tượng trong lớp thứ j = 2j1Aij
N = tổng số các đối tượng
Eij : tần suất mong muốn của Aij = Ri * Cj/N