Kết quả thời gian chạy trong thực nghiệm

CHƢƠNG 4 THỰC NGHIỆM VÀ KẾT QUẢ

4.6 Kết quả thời gian chạy trong thực nghiệm

Một kết quả thực nghiệm của hệ thống nFOIL_m1 trên tập dữ liệu lib3_nfoil.pl trong bảng 4.5 cho thấy: giả thuyết H học được giải thích chính xác

hay đúng với 92 mẫu huấn luyện trên tổng số 95 mẫu huấn luyện, theo đĩ độ chính xác được đánh giá là 96.84%. Kết quả thực nghiệm của hệ thống bFOIL trên tập dữ liệu lib2_nfoil.pl khơng được chúng tơi ghi nhận vì thời gian chạy thử nghiệm là quá lâu.

Ví dụ 4.2. Minh họa các giả thuyết được học

Một giả thuyết H được học trên bộ dữ liệu Mutagenesis bởi hệ thống nFOIL:

H = attyp(A,B,21) , attyp(A,B,10) , attyp(A,B,29) , atel(A,B,cl) , attyp(A,B,1) atch(A,B,0.328) , attyp(A,B,34)

Một giả thuyết H được học trên bộ dữ liệu GeoLib bởi hệ thống nFOIL_m3 :

H = bookkey(A,3807) (22) bookkey(A,3826) (5) bookau(A,8255) (19) bookau(A,8234) (9) bookau(A,9313) (6) bookau(A,10403) (2) bookkey(A,1001) (4) bookkey(A,1431) (2) bookkey(A,1009) (4) bookkey(A,68) (2) bookkey(A,2182) (1) bookkey(A,5132) (1) bookau(A,8256) (19)

Hình 4.7. Minh họa một giả thuyết được học trên tập dữ liệu GeoLib

Một giả thuyết H được học bởi hệ thống bFOIL

H = bookkey(A,3807)

pa1: pa2: bookkey(A,1009)

pa1: bookkey(A,3807) pa2: bookkey(A,3807) bookkey(A,3818)

pa1: bookkey(A,3807) pa2: bookkey(A,1009) bookkey(A,4569)

pa1: bookkey(A,3807) pa2: bookkey(A,1009) bookkey(A,5023)

pa1: bookkey(A,3807) pa2: bookkey(A,1009) bookkey(A,344)

pa1: bookkey(A,3807) pa2: bookkey(A,5023) bookkey(A,68)

pa1: bookkey(A,5023) pa2: bookkey(A,3807) bookkey(A,6334)

pa1: bookkey(A,4569) pa2: bookkey(A,5023) bookkey(A,2190)

pa1: bookkey(A,3807) pa2: bookkey(A,5023) bookkey(A,2626)

pa1: bookkey(A,5023) pa2: bookkey(A,2190) bookkey(A,1102)

pa1: bookkey(A,3807) pa2: bookkey(A,2190) bookkey(A,2011)

pa1: bookkey(A,3807) pa2: bookkey(A,2190) bookkey(A,6639)

pa1: bookkey(A,3807) pa2: bookkey(A,2011) bookau(A,8255)

bookkey(A,2240)

pa1: bookkey(A,2190) pa2: bookkey(A,3807) bookkey(A,1958)

pa1: bookkey(A,5023) pa2: bookkey(A,2240) bookkey(A,2790)

pa1: bookkey(A,5023) pa2: bookkey(A,2240) bookkey(A,6704)

pa1: bookkey(A,2190) pa2: bookkey(A,2240) bookau(A,6226)

pa1: bookkey(A,2190) pa2: bookkey(A,2240) bookkey(A,1046)

pa1: bookkey(A,3807) pa2: bookkey(A,2240) bookkey(A,5163)

pa1: bookkey(A,3807) pa2: bookkey(A,5023) bookkey(A,6000)

pa1: bookkey(A,2011) pa2: bookau(A,8255) bookau(A,8204)

pa1: bookkey(A,6639) pa2: bookkey(A,2011) bookau(A,8256)

pa1: bookkey(A,6000) pa2: bookau(A,8255) bookau(A,8205)

pa1: bookau(A,8204) pa2: bookkey(A,6639)

Một điều đáng chú ý ở đây là với hệ thống bFOIL, độ phức tạp tính tốn tăng lên so với độ phức tạp tính tốn của hệ thống nFOIL là O(n). Trên thực tế, thời gian tính tốn khi thực nghiệm với hệ thống bFOIL tăng lên rất nhiều lấn so với thời gian tính tốn của các hệ thống nFOIL hay nFOIL_m. Với một tập dữ liệu đơn giản, thời gian chạy của hệ thống nFOIL là 2-3 phút thì bFOIL (tương tự là tFOIL) sẽ mất đến khoảng 30-60 phút thời gian thực hiện. Trong khi đĩ, độ chính xác của bFOIL trong thực nghiệm khơng cao. Mặc dù độ chính xác của giả thuyết học được trên tập mẫu huấn luyện cĩ thể là cao từ 80% đến 100% nhưng trên thực tế giả thuyết H được sinh ra bao gồm nhiều các mệnh đề khơng chính xác (cĩ thể khơng phủ một mẫu nào trên tập mẫu huấn luyện). Điều này cĩ thể lý giải bởi các bộ dữ liệu được thử nghiệm ở đây, khơng cĩ được sự phụ thuộc giữa các đặc trưng hay thuộc tính (ở đây là giữa các mệnh đề được xây dựng). Đối với cơ sở dữ liệu GeoLib, mặc dù trên thực tế là cĩ các phụ thuộc giữa các từ khĩa, tuy nhiên trong cơ sở dữ liệu GeoLib, khi người quản trị cơ sở dữ liệu nhập liệu, khơng phải luơn luơn cĩ được các phụ thuộc này. Ví dụ, nếu một tài liệu cĩ từ khĩa “khống vật phĩng xạ”, thì dựa trên sự phụ thuộc của từ khĩa này với các từ khĩa “khống vật”, “nguyên tố phĩng xạ”, tài

liệu đĩ cũng phải cĩ hai từ khĩa này. Tuy nhiên trên thực tế hầu hết các tài liệu đều khơng thực hiện được đúng như vậy. Khi đĩ, một đánh giá phụ thuộc (hàm score trong giải thuật) giữa từ khĩa “khống vật phĩng xạ” vào các từ khĩa “khống vật”, “nguyên tố phĩng xạ” thường sẽ trả lại giá trị 0. Và kết quả thu được đã khơng được chính xác như mong đợi.

4.3.2. Kết quả thực nghiệm với bài tốn phân lớp dữ liệu trong cơ sở dữ liệu GeoLib liệu GeoLib

Việc áp dụng các giải thuật nFOIL hay nFOIL_m, bFOIL để giải quyết bài tốn phân lớp tài liệu theo chủ đề đã đạt được những thành cơng nhất định. Ngồi hệ thống bFOIL, các hệ thống cịn lại đều đưa ra được các giả thuyết với độ chính xác trên tập mẫu huấn luyện tương đối cao (xấp xỉ 90%). Với mục tiêu thực hiện phân lớp dữ liệu, ở đây chúng tơi chỉ sử dụng các kết quả thu được trên tập dữ liệu lib3_nfoil.pl là tập dữ liệu huấn luyện đầy đủ nhất trong bộ dữ liệu GeoLib. Với tập dữ liệu lib3_nfoil.pl, bên cạnh việc chạy hệ thống nFOIL, nFOIL_m với các tham số mặc định, chúng tơi cịn thực hiện thử nghiệm với một số các tham số ngưỡng (threshold) tùy chọn khác để so sánh sự thay đổi trong độ chính xác và thời gian chạy của các hệ thống. Hệ thống bFOIL khơng được thử nghiệm vì yếu điểm thời gian chạy của hệ thống là quá lâu trong khi các kết quả chưa mang lại độ chính xác như mong đợi.

Tập dữ liệu nFOIL nFOIL_m1 (p = 0.5, m = 5) nFOIL_m2 (p = 0.5, m = 10) nFOIL_m3 (p = 0.5, m = 2) Lib3_nfoil.pl (threshold = 0.001) 95.78% (91/95) 96.84% (92/95) 95.78% (91/95) 96.84% (92/95) Lib3_nfoil.pl (threshold = 0.005 94.73% (90/95) 96.84% (92/95) 94.73% (90/95) 96.84% (92/95) Lib3_nfoil.pl (threshold = 0.01) 95.78% (91/95) 96.84% (92/95) 94.73% (90/95) 96.84% (92/95)

Bảng 4.7. Kết quả độ chính xác thực nghiệm trên tập dữ liệu lib3_nfoil.pl với một số các giá trị ngưỡng khác nhau.

Tập dữ liệu nFOIL nFOIL_m1 (p = 0.5, m = 4) nFOIL_m2 (p = 0.5, m = 8) nFOIL_m3 (p = 0.5, m = 2) Lib3_nfoil.pl (threshold = 0.001) 2p 5g 1p 31g 1p 24g 2p 12g Lib3_nfoil.pl (threshold = 0.005 1p 50g 1p 30g 1p 22g 2p 9g Lib3_nfoil.pl (threshold = 0.01) 1p 27s 1p 14g 1p 9g 1p 42g

Bảng 4.8. Kết quả thời gian chạy thực nghiệm trên tập dữ liệu lib3_nfoil.pl với một số các giá trị ngưỡng khác nhau.

Kết quả thử nghiệm cho thấy, với tập dữ liệu lib3_nfoil.pl ở đây, việc thay đổi các giá trị của ngưỡng với các giá trị 0.005, 0.01 nhìn chung cũng khơng làm giảm độ chính xác của hệ thống trong khi thời gian thực hiện cĩ thể tăng lên khoảng 15-20%.

Xét một giả thuyết được học với hệ thống nFOIL như sau:

H = bookkey(A,3807) (22) bookkey(A,3826) (5) bookau(A,10403) (2) bookau(A,9313) (6) bookkey(A,1001) (4) bookkey(A,1009) (4) bookkey(A,1431) (2) bookkey(A,68) (2) bookau(A,8234) (9) bookau(A,926) bookau(A,6247) (1)

Các mệnh đề trong giả thuyết này cĩ thể được diễn tả như sau:

 với mệnh đề bookkey(A,3807): một tài liệu được coi là thuộc chủ đề “Khống vật học” nếu nĩ cĩ liên kết với từ khĩa cĩ TK_ID = 3807 tương ứng là từ khĩa “khống vật”.

 với mệnh đề bookau(A,3826): một tài liệu được coi là thuộc chủ đề “Khống vật học” nếu nĩ cĩ liên kết với từ khĩa cĩ TK_ID = 3826 tương ứng là từ khĩa “khống vật sét”.

 với mệnh đề bookau(A,926) bookau(A,6247): một tài liệu được coi là thuộc chủ đề “Khống vật học” nếu nĩ được viết bởi các tác giả Stadtlander R. và Marakushev A..

Một giả thuyết khác được học bởi hệ thống nFOIL_m3 như sau:

Chúng tơi nhận thấy rằng các giả thuyết được học cĩ độ tương đồng cao, và chỉ cĩ khác biệt trên các mệnh đề cĩ vùng phủ trên tập mẫu huấn luyện là nhỏ (nĩi cách khác đây là các mệnh đề - luật khơng đặc trưng).

Với các giả thuyết học được, bên cạnh việc sử dụng hệ thống để thực hiện việc phân lớp các mẫu mới, chúng tơi cĩ thể chuyển chúng thành các câu truy vấn cập nhật để cập nhật trường chủ đề cho các bản ghi chưa được phân loại. (Thực chất ở đây, việc phân lớp mẫu mới cần dựa trên giải thuật phân lớp của hệ thống nhưng khi áp dụng phân lớp với số lượng lớn các mẫu, cần địi hỏi xây dựng được tồn bộ tri thức nền cho các mẫu này. Cơng việc này là khơng khả thi. Vì vậy chúng tơi sử dụng các mệnh đề riêng lẻ trong giả thuyết cho việc phân lớp mẫu mới ) Ví dụ với mệnh đề bookkey(A,3807) ta cĩ câu truy vấn “UPDATE tbSach INNER JOIN

tbSach_Tukhoa ON tbSach.SA_ID = tbSach_Tukhoa.FK_SA_ID SET tbSach.SA_FK_CD = 1 WHERE (((tbSach_Tukhoa.FK_TK_ID)=3807));”. Tuy

nhiên, trong nhiều trường hợp, các mệnh đề được học vẫn cĩ thể dẫn đến trường hợp phân lớp sai khi mệnh đề đĩ chỉ đúng trên tập dữ liệu huấn luyện cĩ kích thước nhỏ hoặc trong trường hợp chỉ cĩ số ít tài liệu tương ứng thỏa mãn mệnh đề đĩ.

Trong các trường hợp này, cần cĩ thêm sự xác nhận và quyết định của người thực hiện hay người quản lý.

4.4. Đánh giá kết quả thực nghiệm 4.4.1. Về kết hợp FOIL và mơ hình BAN 4.4.1. Về kết hợp FOIL và mơ hình BAN

Trong quá trình thực nghiệm, chúng tơi nhận thấy cài đặt kết hợp giữa FOIL và mơ hình mở rộng của Nạve Bayes là các mơ hình TAN hay BAN địi hỏi thời gian chạy lâu hơn rất nhiều so với hệ thống nFOIL ban đầu. Trong các trường hợp thử nghiệm, độ chính xác trong hệ thống bFOIL cũng khơng cao, với các giả thuyết được sinh ra cĩ số lượng mệnh đề lớn và cĩ các mệnh đề lỗi. Điều này đã được chúng tơi lý giải là do các bộ dữ liệu được thử nghiệm khơng cĩ được các phụ thuộc giữa các đặc trưng hay quan hệ. Như vậy, trong việc kết hợp FOIL và các mở rộng của mơ hình Nạve Bayes như BAN cần được tiếp tục nghiên cứu và thử nghiệm trên nhiều nguồn dữ liệu khác. Đặc biệt là với cơ sở dữ liệu GeoLib, trong thời gian tới chúng tơi sẽ tiếp tục xây dựng trước hết là một tập dữ liệu huấn luyện thỏa mãn cĩ đầy đủ các phụ thuộc giữa các từ khĩa trong các tài liệu, tiến tới mở rộng tập dữ liệu huấn luyện và cả cơ sở dữ liệu GeoLib. Đồng thời vấn đề cải tiến thuật tốn để giảm thời gian chạy của hệ thống cũng là một hướng nghiên cứu cần được quan tâm trong thời gian tới.

4.4.2. Về đề xuất sử dụng ƣớc lƣợng m

Với các thử nghiệm sử dụng ước lượng m trong hệ thống nFOIL, ta thấy hệ thống nFOIL_m1, nFOIL_m3 nhìn chung đạt được kết quả tốt hơn so với hệ thống nFOIL. Trong khi đĩ kết quả của hệ thống nFOIL_m2 lại khơng thực sự tốt bằng hệ thống nFOIL. Điều này cĩ thể lý giải là do tập dữ liệu được thử nghiệm ở đây là các tập dữ liệu khơng cĩ chứa nhiễu, với kích thước mẫu lớn m=10, giá trị của hàm score() sẽ tăng lên tương đối nhiều và mang lại kết quả đánh giá khơng tin cậy. Kết quả thử nghiệm này cũng tương tự với kết quả thử nghiệm ước lượng m trong hệ thống mFOIL khi so sánh với hệ thống FOIL được ghi nhận trong [17; 21]: độ

chính xác của hệ thống sẽ giảm trong các trường hợp giá trị m tăng lên vượt quá một giá trị nào đĩ.

Trong thời gian tới, chúng tơi dự định mở rộng thực nghiệm với thêm nhiều nguồn dữ liệu khác, cĩ thể cĩ chứa nhiễu. Bên cạnh đĩ là việc thử nghiệm thêm với một số các giá trị m đã được thực hiện trong [17, 21] như 0.01, 0.5, 1, 2, 3, 4, 8, 16,….

4.4.3. Về áp dụng kỹ thuật kết hợp FOIL và học thống kê cho bài tốn phân lớp dữ liệu trong cơ sở dữ liệu GeoLib phân lớp dữ liệu trong cơ sở dữ liệu GeoLib

Việc áp dụng cách tiếp cận kết hợp nFOIL và mơ hình Nạve Bayes vào giải quyết bài tốn phân lớp dữ liệu trong cơ sở dữ liệu thư viện tại Trung tâm Thơng tin Lưu trữ Địa chất, Cục Địa chất và Khống sản Việt Nam đã đạt được những thành cơng nhất định. Với việc sinh được các giả thuyết cĩ độ chính xác tương đối cao trên tập dữ liệu huấn luyện, việc phân lớp dữ liệu dựa trên các giả thuyết này đã cĩ thể được thực hiện. Tuy nhiên, trong các giả thuyết được sinh, khơng tránh khỏi cĩ những mệnh đề khơng chắc đã mang lại kết quả phân lớp chính xác. Điều này là khơng thể tránh khỏi vì bên cạnh việc kích thước của tập dữ liệu huấn luyện cịn là nhỏ thì việc số lượng từ khĩa và tác giả là lớn, mật độ các từ khĩa được sử dụng là khơng đều cũng đều ảnh hưởng đến giả thuyết được học.

Để hồn thành việc phân lớp dữ liệu trong cơ sở dữ liệu GeoLib, chúng tơi dự định thực hiện một số mở rộng trong thời gian tới:

 Tăng kích thước của bộ dữ liệu huấn luyện: hiện tại các bộ dữ liệu huấn luyện vẫn là tương đối nhỏ. Việc tăng kích thước bộ dữ liệu huấn luyện sẽ giúp tăng độ chính xác trong việc xây dựng các giả thuyết phân lớp, tuy nhiên đổi lại thời gian chạy của hệ thống sẽ tăng lên do kích thước khơng gian giả thuyết cần tìm kiếm tăng lên. Việc chọn lựa kích thước phù hợp sẽ được lựa chọn dựa trên kết quả thử nghiệm. Bên cạnh đĩ là nhiệm vụ cần xây dựng được bộ dữ liệu huấn luyện với đầy đủ phụ thuộc giữa các từ khĩa,

để cĩ thể kiểm nghiệm kết quả của việc áp dụng hệ thống BAN trên cơ sở dữ liệu GeoLib.

 Tiếp tục thử nghiệm với một số tham số m nhằm so sánh kết quả

 Nghiên cứu các cách tiếp cận nhằm giảm thời gian thực hiện của các hệ thống.

 Tiếp tục theo dõi các hướng tiếp cận mới

 Viết modul chương trình tự động đọc các giả thuyết được học và sinh các câu truy vấn cập nhật cho cơ sở dữ liệu Thư viện Địa chất.

KẾT LUẬN

Luận văn “Kết hợp học quan hệ và học thống kê cho phân lớp dữ liệu đa quan hệ” đã đạt được những kết quả sau:

 Xem xét bài tốn phân lớp dữ liệu đa quan hệ và việc phân lớp dữ liệu đa quan hệ đặt ra tại Trung tâm Thơng tin Lưu trữ Địa chất, Cục Địa chất và Khống sản Việt Nam. Trình bày cách tiếp cận giải quyết bài tốn phân lớp dữ liệu đa quan hệ dựa trên ILP, cách tiếp cận kết hợp FOIL và mơ hình xác suất NB.

 Đề xuất kết hợp FOIL và mơ hình BAN – một mơ hình mở rộng của mơ hình xác suất NB và việc sử dụng ước lượng m trong kết hợp FOIL và NB, FOIL và BAN và các kết quả thực nghiệm thu được trên các đề xuất này.

 Đối với bài tốn phân lớp dữ liệu trong cơ sở dữ liệu Thư viện Địa chất tại Trung tâm Thơng tin Lưu trữ Địa chất, Cục Địa chất và Khống sản Việt Nam, luận văn đã trình bày các kết quả thực nghiệm đạt được khi áp dụng cách tiếp cận kết hợp FOIL và mơ hình NB, FOIL và mơ hình BAN và các đề xuất tiếp tục phát triển. Các kết quả đạt được ở đây là khả quan và là cơ sở để thực hiện việc phân lớp tự động.

Những hạn chế và hƣớng phát triển tiếp theo

 Trong cài đặt thử nghiệm đề xuất sử dụng kết hợp FOIL và mơ hình BAN, một vấn đề cần được tiếp tục nghiên cứu giải quyết. Đĩ là vấn đề thời gian chạy của hệ thống cũng như việc cần tiếp tục thử nghiệm hiệu quả của kết hợp này trên các nguồn dữ liệu khác. Với đề xuất sử dụng ước lượng m, chúng tơi sẽ tiếp tục thử nghiệm với một số giá trị m khác.

 Đối với bài tốn phân lớp dữ liệu trong cơ sở dữ liệu Thư viện Địa chất, Trung tâm Thơng tin Lưu trữ Địa chất đã đạt được những kết quả nhất định. Trong thời gian tới, chúng tơi sẽ cố gắng nâng cao hơn nữa độ chính xác của giả thuyết phân lớp với việc mở rộng kích thước của bộ dữ liệu huấn luyện đồng thời tiếp tục nghiên cứu áp dụng các kỹ thuật khác.

BẢNG THUẬT NGỮ ANH VIỆT

Trong luận văn, chúng tơi sử dụng một số các thuật ngữ tiếng việt tương ứng với các thuật ngữ tiếng Anh. Sau đây là danh sách các thuật ngữ tiếng việt được sử dụng cùng với các thuật ngữ gốc tiếng Anh tương ứng.

Tiếng Việt Tiếng Anh

mẫu (đa) quan hệ (Multi) relational pattern

tăng cường augmented

tri thức nền background knowledge

mệnh đề clause

tồn vẹn completeness

nhất quán consistency

phủ cover

phủ (d.t) coverage

giả thuyết hypothesis

giới hạn ngơn ngữ language bias

dàn lattice

literal literal

khả năng xảy ra lớn nhất maximum likelihood

vị từ predicate

đồ thị tinh lọc refinement graph

phép tốn tinh lọc refinement operator

bao hàm-θ subsume-θ

hạng tử term

TÀI LIỆU THAM KHẢO

[1] C.F. Aliferis, D. Hardin, P. P. Massion (2002) “Machine Learning Models For Lung Cancer Classification Using Array Comparative Genomic Hybridization”. In: Proceedings of the 2002 American Medical Informatics Association (AMIA) Annual Symposium, 2002, page 7-11.

[2] A. Atramentov (2003) “Multi-relational decision tree algorithm -

implementation and experiments”. MS. Thesis. Iowa State University, Ames,

Iowa.

[3] A. Berson, S. Smith, K. Thearling “An Overview of Data Mining Techniques”: http://www.thearling.com/index.htm.

Kết quả thời gian chạy trong thực nghiệm

Các cách tiếp cận phát triển FOIL

Đánh giá kết quả thực nghiệm