Kết hợp học quan hệ và học thống kê cho phân lớp dữ liệu đa quan hệ

LỜI CẢM ƠN Tôi xin gửi lời cảm ơn chân thành tới PGS TS Trần Đình Quế, người thầy tận tình hướng dẫn tơi suốt thời gian hoàn thành luận văn, đồng thời người cho định hướng ý kiến quý báu lĩnh vực nghiên cứu Tôi xin bày tỏ lòng cảm ơn sâu sắc tới thầy cơ, bạn bè khóa, lớp giúp đỡ tơi suốt năm học qua Xin cảm ơn gia đình, bạn bè, người ln khuyến khích, động viên giúp đỡ tơi hồn cảnh khó khăn Tơi xin cảm ơn thầy cô Khoa Công nghệ thông tin, Trường Đại học Công nghệ, ĐHQGHN, Viện Công nghệ thông tin - Viện khoa học công nghệ Việt Nam tạo điều kiện cho trình học làm luận văn Luận văn hồn thành thời gian hạn hẹp nên khơng thể tránh thiếu sót Tơi xin cảm ơn thầy cơ, bạn bè, đồng nghiệp có ý kiến đóng góp chân thành cho nội dung luận văn, để tơi tiếp tục sâu tìm hiểu áp dụng nghiên cứu vào toán thực tế tương lai Hà nội, 11/2007 Đặng Đức Thảo LỜI CAM ĐOAN Tôi xin cam đoan kết đạt luận văn sản phẩm riêng cá nhân tôi, không chép lại người khác Trong toàn nội dung luận văn, điều trình bày cá nhân, tổng hợp từ nhiều nguồn tài liệu Tất tài liệu tham khảo có xuất xứ rõ ràng trích dẫn hợp pháp Tơi xin hồn tồn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, 2007 Đặng Đức Thảo MỤC LỤC MỤC LỤC DANH SÁCH HÌNH VẼ DANH SÁCH CÁC BẢNG .6 KÝ HIỆU VIẾT TẮT MỞ ĐẦU CHƢƠNG PHÂN LỚP DỮ LIỆU ĐA QUAN HỆ 11 1.1 Bài toán phân lớp 11 1.2 Các phương pháp phân lớp .12 1.3 Dữ liệu đa quan hệ (multi-relational data) .13 1.3.1 Mẫu quan hệ 13 1.3.2 Mẫu liệu quan hệ mẫu liệu phẳng 14 1.4 Các cách tiếp cận phân lớp liệu đa quan hệ 15 1.5 Kết luận 16 CHƢƠNG II LẬP TRÌNH LOGIC QUY NẠP 17 2.1 Lập trình logic quy nạp 17 2.1.1 Lập trình logic 17 2.1.2 Lập trình logic quy nạp 19 2.2 Tìm kiếm không gian giả thuyết 21 2.2.1 Xây dựng không gian giả thuyết 21 2.2.2 Tìm kiếm không gian giả thuyết 24 2.2.3 Khung giải thuật ILP tìm kiếm từ xuống 26 2.3 Hệ thống FOIL .31 2.3.1 Giải thuật FOIL 31 2.3.2 Các cách tiếp cận phát triển FOIL 39 2.4 Kết luận 39 CHƢƠNG KẾT HỢP FOIL VÀ HỌC THỐNG KÊ .40 3.1 Mô hình Nạve Bayes mở rộng 41 3.1.1 Mơ hình Nạve Bayes (NB) .41 3.1.2 Một số mở rộng mơ hình Nạve Bayes 44 3.2 Kết hợp FOIL mơ hình xác suất 45 3.2.1 Kết hợp FOIL mô hình Nạve Bayes 45 3.2.2 Kết hợp FOIL BN Augmented Naïve Bayes .52 3.2.3 Sử dụng ước lượng m (m-estimate) 56 3.3 Kết luận 58 CHƢƠNG THỰC NGHIỆM VÀ KẾT QUẢ 59 4.1 Nguồn liệu 59 4.2 Sinh liệu huấn luyện 66 4.3 Thực nghiệm kết 68 4.3.1 Kết so sánh hệ thống nFOIL, nFOIL_m bFOIL 68 4.3.2 Kết thực nghiệm với toán phân lớp liệu sở liệu GeoLib 74 4.4 Đánh giá kết thực nghiệm 77 4.4.1 Về kết hợp FOIL mơ hình BAN 77 4.4.2 Về đề xuất sử dụng ước lượng m 77 4.4.3 Về áp dụng kỹ thuật kết hợp FOIL học thống kê cho toán phân lớp liệu sở liệu GeoLib 78 KẾT LUẬN 80 BẢNG THUẬT NGỮ ANH VIỆT 82 TÀI LIỆU THAM KHẢO 83 DANH SÁCH HÌNH VẼ 1.1 Ví dụ sở liệu có hai quan hệ 13 2.1 Mô tả tri thức ví dụ gia đình 20 2.2 Cây tìm kiếm ví dụ gia đình 26 2.3 Minh họa trình thực hàm SpecializationAlgorithm 35 2.4 Minh họa literal thêm có chứa biến 35 3.1 Mơ hình Nạve Bayes 44 3.2 Mô hình Tree Augmented NB 45 3.3 Mơ hình BAN 45 4.1 Một tài liệu sở liệu GeoLib 61 4.2 Bảng từ khóa khoa học địa chất 61 4.3 Mơ hình thực thể liên kết sở liệu GeoLib 64 4.4 Dữ liệu sở liệu GeoLib 64 4.5 Danh sách chủ đề có sở liệu thư viện địa chất 65 4.6 Minh họa tập mẫu lib3_nfoil.pl 67 4.7 Minh họa giả thuyết học tập liệu GeoLib 72 DANH SÁCH CÁC BẢNG 2.1 Các thuật ngữ sở liệu lập trình logic tương đương 18 3.1 Nguồn liệu PlaySport cho phân lớp Naive Bayes 42 4.1 Cấu trúc bảng sở liệu GeoLib 63 4.2 Danh sách liên kết từ khóa tài liệu 66 4.3 Danh sách liên kết tác giả tài liệu 67 4.4 Các liệu thử nghiệm 68 4.5 Kết độ xác thực nghiệm 70 4.6 Kết thời gian chạy thực nghiệm 70 4.7 Kết độ xác thực nghiệm tập liệu lib3_nfoil.pl với số giá trị ngưỡng khác 74 4.8 Kết thời gian chạy thực nghiệm tập liệu lib3_nfoil.pl với số giá trị ngưỡng khác 75 KÝ HIỆU VIẾT TẮT ILP Inductive Logic Programming NB Naïve Bayes BN Bayesian Network TAN Tree Augmented Naïve Bayes BAN BN Augmented Naïve Bayes SVM Support vector machines MỞ ĐẦU Đặt vấn đề Ngày nay, thông tin chủ yếu lưu trữ sở liệu Phân lớp liệu sở liệu toán quan trọng áp dụng để giải nhiều toán thực tế phát dự đoán lỗi, đánh giá thị trường Để giải toán phân lớp, nhiều giải thuật phát triển giải thuật SVM ([26], [27]), định ([2], [3], [46]), mơ hình Nạve Bayes ([6], [22], [23], [25], [28]) Tuy nhiên phần lớn giải thuật nhằm xử lý liệu dạng phẳng hay dạng bảng đơn mơ hình sở liệu Trong đó, hầu hết liệu ngày lưu trữ sở liệu đa quan hệ Để áp dụng kỹ thuật phân lớp liệu đòi hỏi cần phải thực chuyển đổi từ liệu đa quan hệ dạng liệu phẳng Việc chuyển đổi có nguy dẫn đến việc sinh không gian liệu lớn có khả làm mát thơng tin [20] Nhiều cách tiếp cận phát triển cho toán phân lớp liệu đa quan hệ định quan hệ [30], luật quan hệ kết hợp [31]…Trong đó, cách tiếp cận dựa lập trình logic quy nạp (Inductive Logic Programming - ILP) cách tiếp cận bật sử dụng rộng rãi hệ thống FOIL Quinlan [51] Tuy bản, FOIL hệ thống dựa ILP thường khơng thích nghi áp dụng tập liệu lớn hay tập liệu có nhiễu ([30], [31]) Điều dẫn đến phát triển phương pháp nhằm nâng cao hiệu hệ thống dựa ILP nói chung hệ thống FOIL nói riêng Trong số cách tiếp cận để phát triển FOIL cách tiếp cận kết hợp FOIL với kỹ thuật học thống kê cách tiếp cận quan trọng phát triển năm gần ( [13], [14], [15], [16], [24], [32], [33], [44], [48], [49], [50]) Mặt khác, Trung tâm Thông tin Lưu trữ Địa chất, Cục Địa chất Khống sản Việt Nam, chúng tơi có sở liệu quan hệ thông tin tài liệu Thư viện Địa chất Trải qua thời gian dài phát triển từ năm 1997 đến nay, số lượng ghi sở liệu vào khoảng 24000 ghi Đây sở liệu quan trọng Thư viện Địa chất nói riêng cho lĩnh vực khoa học địa chất nói chung Mỗi ghi sở liệu tương ứng với thông tin tài liệu thư viện tên tài liệu, tên dịch, nguồn trích, ký hiệu kho, ISBN, chủ đề, tác giả, từ khóa…Trong đó, trường thơng tin chủ đề trường thơng tin quan trọng Nó giúp người quản lý phân loại tài liệu tìm kiếm hay tạo báo cáo theo chủ đề khác Tuy nhiên, đến năm 2005 trường thông tin chủ đề bổ sung vào cấu trúc sở liệu Do đó, số 24000 ghi có sở liệu, có khoảng 2000 ghi cập nhật chủ đề Vấn đề đặt liệu ứng dụng phương pháp phân lớp liệu quan hệ, đặc biệt cách tiếp cận dựa nghiên cứu kết hợp FOIL học thống kê, để giải toán phân loại chủ đề cho ghi lại mơ hình sở liệu thư viện địa chất Mục tiêu luận văn Luận văn nhằm đến hai mục tiêu chính:  Nghiên cứu kỹ thuật phân lớp liệu đa quan hệ dựa lập trình logic quy nạp, hệ thống FOIL đặc biệt cách tiếp cận kết hợp học thống kê vào hệ thống FOIL nhằm nâng cao hiệu việc giải toán phân lớp  Áp dụng kỹ thuật phân lớp liệu quan hệ dựa kết hợp học thống kê hệ thống FOIL vào toán phân lớp tài liệu sở liệu Thư viện Địa chất dựa theo chủ đề Tóm tắt nội dung luận văn Chƣơng 1: Phân lớp liệu đa quan hệ Trong chương này, luận văn trình bày vấn đề phân lớp liệu đa quan hệ, khác biệt 10 liệu đa quan hệ liệu phẳng Đồng thời, nêu số cách tiếp cận giải toán phân lớp liệu đa quan hệ Chƣơng 2: Lập trình logic quy nạp Trong chương này, luận văn trình bày lập trình logic quy nạp tập trung trình bày hệ thống FOIL – hệ thống lập trình quy nạp tiêu biểu sử dụng rộng rãi Chƣơng 3: Kết hợp FOIL với học thống kê Trong chương này, luận văn trình bày cách tiếp cận kết hợp hệ thống FOIL với mô hình thống kê, tiêu biểu mơ hình Nạve Bayes mở rộng Đồng thời trình bày số đề xuất cho việc mở rộng cách tiếp cận kết hợp FOIL mơ hình Nạve Bayes Chƣơng 4: Thực nghiệm kết Trong chương này, luận văn trình bày trình thực nghiệm kết đạt Từ đó, đưa kết luận dựa thực nghiệm hai mục tiêu luận văn Thứ kết so sánh cách tiếp cận kết hợp FOIL với mơ hình NB; đề xuất kết hợp FOIL BAN sử dụng ước lượng m kết hợp FOIL với mơ hình NB Thứ hai áp dụng kỹ thuật kết hợp toán phân lớp tài liệu sở liệu thư viện địa chất theo chủ đề Kết luận nêu lên tổng kết luận văn, ý nghĩa mục tiêu đạt hướng nghiên cứu tới 75 Tập liệu nFOIL nFOIL_m1 nFOIL_m2 nFOIL_m3 (p = 0.5, (p = 0.5, (p = 0.5, m m = 4) m = 8) = 2) Lib3_nfoil.pl 2p 5g 1p 31g 1p 24g 2p 12g (threshold = 0.001) Lib3_nfoil.pl 1p 50g 1p 30g 1p 22g 2p 9g (threshold = 0.005 Lib3_nfoil.pl 1p 27s 1p 14g 1p 9g 1p 42g (threshold = 0.01) Bảng 4.8 Kết thời gian chạy thực nghiệm tập liệu lib3_nfoil.pl với số giá trị ngưỡng khác Kết thử nghiệm cho thấy, với tập liệu lib3_nfoil.pl đây, việc thay đổi giá trị ngưỡng với giá trị 0.005, 0.01 nhìn chung khơng làm giảm độ xác hệ thống thời gian thực tăng lên khoảng 15-20% Xét giả thuyết học với hệ thống nFOIL sau: H = bookkey(A,3807) (22) bookkey(A,3826) (5) bookau(A,10403) (2) bookau(A,9313) (6) bookkey(A,1001) (4) bookkey(A,1009) (4) bookkey(A,1431) (2) bookkey(A,68) (2) bookau(A,8234) (9) bookau(A,926) bookau(A,6247) (1) Các mệnh đề giả thuyết diễn tả sau:  với mệnh đề bookkey(A,3807): tài liệu coi thuộc chủ đề “Khoáng vật học” có liên kết với từ khóa có TK_ID = 3807 tương ứng từ khóa “khống vật”  với mệnh đề bookau(A,3826): tài liệu coi thuộc chủ đề “Khống vật học” có liên kết với từ khóa có TK_ID = 3826 tương ứng từ khóa “khống vật sét” 76  với mệnh đề bookau(A,926) bookau(A,6247): tài liệu coi thuộc chủ đề “Khống vật học” viết tác giả Stadtlander R Marakushev A Một giả thuyết khác học hệ thống nFOIL_m3 sau: H = bookkey(A,3807) (22) bookkey(A,3826) (5) bookau(A,8255) (19) bookau(A,8234) (9) bookau(A,9313) (6) bookau(A,10403) (2) bookkey(A,1001) (4) bookkey(A,1431) (2) bookkey(A,1009) (4) bookkey(A,68) (2) bookkey(A,2182) (1) bookkey(A,5132) (1) bookau(A,8256) (19) Chúng nhận thấy giả thuyết học có độ tương đồng cao, có khác biệt mệnh đề có vùng phủ tập mẫu huấn luyện nhỏ (nói cách khác mệnh đề - luật không đặc trưng) Với giả thuyết học được, bên cạnh việc sử dụng hệ thống để thực việc phân lớp mẫu mới, chúng tơi chuyển chúng thành câu truy vấn cập nhật để cập nhật trường chủ đề cho ghi chưa phân loại (Thực chất đây, việc phân lớp mẫu cần dựa giải thuật phân lớp hệ thống áp dụng phân lớp với số lượng lớn mẫu, cần đòi hỏi xây dựng toàn tri thức cho mẫu Công việc không khả thi Vì chúng tơi sử dụng mệnh đề riêng lẻ giả thuyết cho việc phân lớp mẫu ) Ví dụ với mệnh đề bookkey(A,3807) ta có câu truy vấn “UPDATE tbSach INNER JOIN tbSach_Tukhoa ON tbSach.SA_ID = tbSach_Tukhoa.FK_SA_ID SET tbSach.SA_FK_CD = WHERE (((tbSach_Tukhoa.FK_TK_ID)=3807));” Tuy nhiên, nhiều trường hợp, mệnh đề học dẫn đến trường hợp phân lớp sai mệnh đề tập liệu huấn luyện có kích thước nhỏ trường hợp có số tài liệu tương ứng thỏa mãn mệnh đề 77 Trong trường hợp này, cần có thêm xác nhận định người thực hay người quản lý 4.4 Đánh giá kết thực nghiệm 4.4.1 Về kết hợp FOIL mơ hình BAN Trong q trình thực nghiệm, chúng tơi nhận thấy cài đặt kết hợp FOIL mơ hình mở rộng Nạve Bayes mơ hình TAN hay BAN đòi hỏi thời gian chạy lâu nhiều so với hệ thống nFOIL ban đầu Trong trường hợp thử nghiệm, độ xác hệ thống bFOIL không cao, với giả thuyết sinh có số lượng mệnh đề lớn có mệnh đề lỗi Điều lý giải liệu thử nghiệm phụ thuộc đặc trưng hay quan hệ Như vậy, việc kết hợp FOIL mở rộng mơ hình Nạve Bayes BAN cần tiếp tục nghiên cứu thử nghiệm nhiều nguồn liệu khác Đặc biệt với sở liệu GeoLib, thời gian tới tiếp tục xây dựng trước hết tập liệu huấn luyện thỏa mãn có đầy đủ phụ thuộc từ khóa tài liệu, tiến tới mở rộng tập liệu huấn luyện sở liệu GeoLib Đồng thời vấn đề cải tiến thuật toán để giảm thời gian chạy hệ thống hướng nghiên cứu cần quan tâm thời gian tới 4.4.2 Về đề xuất sử dụng ƣớc lƣợng m Với thử nghiệm sử dụng ước lượng m hệ thống nFOIL, ta thấy hệ thống nFOIL_m1, nFOIL_m3 nhìn chung đạt kết tốt so với hệ thống nFOIL Trong kết hệ thống nFOIL_m2 lại không thực tốt hệ thống nFOIL Điều lý giải tập liệu thử nghiệm tập liệu khơng có chứa nhiễu, với kích thước mẫu lớn m=10, giá trị hàm score() tăng lên tương đối nhiều mang lại kết đánh giá không tin cậy Kết thử nghiệm tương tự với kết thử nghiệm ước lượng m hệ thống mFOIL so sánh với hệ thống FOIL ghi nhận [17; 21]: độ 78 xác hệ thống giảm trường hợp giá trị m tăng lên vượt giá trị Trong thời gian tới, dự định mở rộng thực nghiệm với thêm nhiều nguồn liệu khác, có chứa nhiễu Bên cạnh việc thử nghiệm thêm với số giá trị m thực [17, 21] 0.01, 0.5, 1, 2, 3, 4, 8, 16,… 4.4.3 Về áp dụng kỹ thuật kết hợp FOIL học thống kê cho toán phân lớp liệu sở liệu GeoLib Việc áp dụng cách tiếp cận kết hợp nFOIL mơ hình Nạve Bayes vào giải toán phân lớp liệu sở liệu thư viện Trung tâm Thông tin Lưu trữ Địa chất, Cục Địa chất Khoáng sản Việt Nam đạt thành công định Với việc sinh giả thuyết có độ xác tương đối cao tập liệu huấn luyện, việc phân lớp liệu dựa giả thuyết thực Tuy nhiên, giả thuyết sinh, khơng tránh khỏi có mệnh đề không mang lại kết phân lớp xác Điều khơng thể tránh khỏi bên cạnh việc kích thước tập liệu huấn luyện nhỏ việc số lượng từ khóa tác giả lớn, mật độ từ khóa sử dụng khơng đều ảnh hưởng đến giả thuyết học Để hoàn thành việc phân lớp liệu sở liệu GeoLib, dự định thực số mở rộng thời gian tới:  Tăng kích thước liệu huấn luyện: liệu huấn luyện tương đối nhỏ Việc tăng kích thước liệu huấn luyện giúp tăng độ xác việc xây dựng giả thuyết phân lớp, nhiên đổi lại thời gian chạy hệ thống tăng lên kích thước khơng gian giả thuyết cần tìm kiếm tăng lên Việc chọn lựa kích thước phù hợp lựa chọn dựa kết thử nghiệm Bên cạnh nhiệm vụ cần xây dựng liệu huấn luyện với đầy đủ phụ thuộc từ khóa, 79 để kiểm nghiệm kết việc áp dụng hệ thống BAN sở liệu GeoLib  Tiếp tục thử nghiệm với số tham số m nhằm so sánh kết  Nghiên cứu cách tiếp cận nhằm giảm thời gian thực hệ thống  Tiếp tục theo dõi hướng tiếp cận  Viết modul chương trình tự động đọc giả thuyết học sinh câu truy vấn cập nhật cho sở liệu Thư viện Địa chất  Tiếp tục thực việc phân lớp với chủ đề lại 80 KẾT LUẬN Luận văn “Kết hợp học quan hệ học thống kê cho phân lớp liệu đa quan hệ” đạt kết sau:  Xem xét toán phân lớp liệu đa quan hệ việc phân lớp liệu đa quan hệ đặt Trung tâm Thông tin Lưu trữ Địa chất, Cục Địa chất Khống sản Việt Nam Trình bày cách tiếp cận giải toán phân lớp liệu đa quan hệ dựa ILP, cách tiếp cận kết hợp FOIL mơ hình xác suất NB  Đề xuất kết hợp FOIL mơ hình BAN – mơ hình mở rộng mơ hình xác suất NB việc sử dụng ước lượng m kết hợp FOIL NB, FOIL BAN kết thực nghiệm thu đề xuất  Đối với toán phân lớp liệu sở liệu Thư viện Địa chất Trung tâm Thông tin Lưu trữ Địa chất, Cục Địa chất Khoáng sản Việt Nam, luận văn trình bày kết thực nghiệm đạt áp dụng cách tiếp cận kết hợp FOIL mơ hình NB, FOIL mơ hình BAN đề xuất tiếp tục phát triển Các kết đạt khả quan sở để thực việc phân lớp tự động Những hạn chế hƣớng phát triển  Trong cài đặt thử nghiệm đề xuất sử dụng kết hợp FOIL mơ hình BAN, vấn đề cần tiếp tục nghiên cứu giải Đó vấn đề thời gian chạy hệ thống việc cần tiếp tục thử nghiệm hiệu kết hợp nguồn liệu khác Với đề xuất sử dụng ước lượng m, tiếp tục thử nghiệm với số giá trị m khác 81  Đối với toán phân lớp liệu sở liệu Thư viện Địa chất, Trung tâm Thông tin Lưu trữ Địa chất đạt kết định Trong thời gian tới, cố gắng nâng cao độ xác giả thuyết phân lớp với việc mở rộng kích thước liệu huấn luyện đồng thời tiếp tục nghiên cứu áp dụng kỹ thuật khác 82 BẢNG THUẬT NGỮ ANH VIỆT Trong luận văn, sử dụng số thuật ngữ tiếng việt tương ứng với thuật ngữ tiếng Anh Sau danh sách thuật ngữ tiếng việt sử dụng với thuật ngữ gốc tiếng Anh tương ứng Tiếng Việt Tiếng Anh mẫu (đa) quan hệ (Multi) relational pattern tăng cường augmented tri thức background knowledge mệnh đề clause toàn vẹn completeness quán consistency phủ cover phủ (d.t) coverage giả thuyết hypothesis giới hạn ngôn ngữ language bias dàn lattice literal literal khả xảy lớn maximum likelihood vị từ predicate đồ thị tinh lọc refinement graph phép toán tinh lọc refinement operator bao hàm-θ subsume-θ hạng tử term trọng số thông tin thu weight information gain 83 TÀI LIỆU THAM KHẢO [1] C.F Aliferis, D Hardin, P P Massion (2002) “Machine Learning Models For Lung Cancer Classification Using Array Comparative Genomic Hybridization” In: Proceedings of the 2002 American Medical Informatics Association (AMIA) Annual Symposium, 2002, page 7-11 [2] A Atramentov (2003) “Multi-relational decision tree algorithm implementation and experiments” MS Thesis Iowa State University, Ames, Iowa [3] A Berson, S Smith, K Thearling “An Overview of Data Mining Techniques”: http://www.thearling.com/index.htm [4] J.Bockhorst, I Ong (2004) “FOIL-D: Efficiently Scaling FOIL for Multirelational Data Mining of Large Dataset”, [5] D Caragea (2004) “Learning classifiers from distributed, semantically heterogeneous, autonomous data sources” Ph.D Thesis Iowa State University [6] D Caragea, J Pathak, J Bao, A Silvescu, C Andorf, D Dobbs, V Honavar (2004) “Information Integration and Knowledge Acquisition from Semantically Heterogeneous Biological Data Sources” In: Proceedings of the 2nd International Workshop on Data Integration in Life Sciences (DILS'05), San Diego, CA [7] B Cestnik, I Bratko (1991) “On estimating probabilities in tree pruning” In Proc Fifth European Working Session on Learning, page 151-163 Y.Kodratoff, Springer, Berlin [8] B Cestnik (1990) “Estimating probabilities: A crucial task in machine learning” In Proc Ninth European Conference on Artificial Intelligence, page 147-149 Pitman, London 84 [9] B Cestnik (1990) “Estimating probabilities in machine learning” Ph D thesis, Faculty of Electrical Engineering and Computer Science, University of Ljubljana, Ljubljana, Slovenia [10] P K Chan, Wei Fan, A L Prodromidis, S J Stolfo (1999) “Distributed Data Mining in Credit Card Fraud Detection” IEEE Intelligent Systems, Bd 14, Nr 6, S 67 74, 1999 [11] J Cheng, R Greiner (1999) “Comparing Bayesian Network Classifiers” In Proceedings of the 15th Conference on Uncertainty in Artificial Intelligence (UAI'99), pages 101 107 Morgan Kaufmann Publishers, 1999 [12] P Clark, T Niblett (1989) “The CN2 induction algorithm” Machine Learning, 3(4): page 261-283 [13] M.Craven & S.Slattery (1998) “Combining Statiscal and Relational Methods for learning in Hypertext Domains” In Proc Eighth International Conference on Inductive Logic Programming, Springer-Verlag [14] M.Craven & S.Slattery (2001) “Relational learning with statiscal predicate invention: Better models for hypertext” Machine Learning, 43(1-2) page 97119, 2001 [15] J Davis, I Ong, D Page, I Dutra (2004) “Using Bayesian classifiers to combine rules” In Third workshop on Multi-relational Data Mining (MRDM-2004) in conjunction with the Tenth ACM SIGKDD International Conference of Knowledge Discovery and Data Mining (KDD-2004), Seatle, Washington, USA [16] J Davis, E Burnside, D Page, I Dutra (2005) “An intergrated approach to learning Bayesian networks of rules” In Proc Sixteenth European Conference on Machine Learning (ECML-2005), volume 3720 of Lecture Notes in Computer Science, page 84-95, Springer 85 [17] S.Dzeroski (1991) “Handling noise in inductive logic programming” Master’s thesis, Faculty of Electrical Engineering and Computer Science, University of Ljubljana, Ljubljana, Slovenia [18] N.Lavrac & S.Dzeoski (1994) “Inductive Logic Programming: Techniques and Applications” Ellis Horwood, Chichester [19] S.Dzeoski & N.Lavrac, editor (2001) “Relational Data Mining” Springer, Berlin [20] S.Dzeroski (2003) “Multi-relational data mining: An introduction”, SIGKDD Explorations 5(1) page 1-16 (2003) [21] S Dzeoski & I Bratko (1992) “Using m-estimate in inductive logic programming” In Proc Workshop on Logical Approaches to Machine Learning, Tenth European Conference on Artificial Intelligence, Viena, Austria [22] Charles Elkan (1997) “Naïve Bayesian Learning” Department of Computer Science - Harvard University [23] L De Ferrari (2005) “Mining housekeeping genes with a Naive Bayes classifier” Master of Science Thesis, School of Informatics University of Edinburgh [24] P Flach, N.Lachile (2004) “Naïve Bayesian classification of structure data” Machine Learning, 57(3), page 233-269 [25] N Friedman, D Geiger, M Goldszmidt (1997) “Bayesian Network Classifiers” Journal of Machine Learning, volume 29, number (2-3), page 131-163 [26] I Guyon, J Weston, S Barnhill, V Vapnik (2000) “Gene Selection for Cancer Classification using Support Vector Machines” Journey of Machine Learning Volume 46 , Issue 1-3 Pages: 389 – 422 ISSN:0885-6125 ( 2002) 86 [27] Thorsten Joachims (2001) “A Statistical Learning Model of Text Classification for Support Vector Machines” In: Proceedings of {SIGIR}-01, 24th {ACM} International Conference on Research and Development in Information Retrieval [28] Eamonn J Keogh, Michael J Pazzani (1999) “Learning Augmented Bayesian Classifiers: Classification-based A Comparison Approaches” In: of Distribution-based Proceedings of the and Seventh International Workshop on Artificial Intelligence and Statistics (Ft Lauderdale, FL, 1999) page 225-230 [29] M.Kirsten, S.Wrobel, T.Horvath (2001) “Distance based approaches to Relational Learning and Clustering” In [19] page 213-232 [30] S Kramer & G.Widmer (2001) “Inducing Classification and Regression Tree in First Order Logic” In [19] pages 140-159 [31] L.Dehaspe & H.Toivonen (2001) “Discover of Relational Association Rules” In [19] page 189-212 [32] N Landwehr, K Kersting, L.Raedt (2005) “Integrating Naive Bayes and FOIL” In Proc Twentieth National Conference on Artificial Intelligence (AAAI-2005), page 795-800, Pittsburgh, Pennsylvania, USA [33] N Landwehr, K Kersting, L.Raedt (2007) “Integrating Naive Bayes and FOIL” In Journal of Machine Learning Research 8, page 481-507 [34] N Lavrac (1990) “Principles of knowledge acquisition in expert systems” Ph D thesis, Faculty of Technical Science, University of Maribor, Maribor, Slovenia [35] N.Lavrac, S.Dzeroski, M.Grobenik (1991) “Learning nonrecursive definitions of relation with LINUS” In Proc Fifth European Working Session on Learning, page 265-281 Kodratoff, Y., Springer, Berlin 87 [36] Xiaoli Li, Bing Liu (2002) “Learning to Classify Texts Using Positive and Unlabeled Data” In: Proceedings of Eighteenth International Joint Conference on Artificial Intelligence (IJCAI-03) [37] J Lloyd (1987) “Foundations of Logic Programming” Springer, Berlin, 2nd editon [38] J.Lloyd (1990) editor, “Computational Logic” Springer, Berlin [39] R.Michalski (1983) “A theory and methodology of inductive learning” In Machine Learning: An artificial inteligence approach, volume I, page 83134, Tioga, Palo Alto, CA [40] R Michalski, I Mozetic, J Hong, N Lavrac (1986) “The multipurpose incremental learning system AQ15 and its testing application on three medical domains” In Proc Fifth National Conference on Artificial Intelligence, page 1041-1045 Morgan Kaufmann, San Mateo, CA [41] D Michie, D.J.Spiegelhalter, C.C Taylor (1994) “Machine Learning, Neural and Statistical Classification” [42] S.Muggleton (1991) “Inductive logic programming” New Generation Computing, 8(4): page 295-318 [43] S.Muggleton, editor (1992) “Inductive Logic Programming” Academic Press, London [44] J Neville, D Jensen, B Gallagher (2003) “Simple estimators for relational Bayesian classifier” In Proc Third IEEE International Conference on Data mining (ICDM 2003), page 609-612, Melbourne, Florida, USA IEEE Computer Society [45] K Nigam, A.K Mccallum, S Thrun, T Mitchell (2000) “Text Classification from Labeled and Unlabeled Documents using EM” Journal of Machine Learning, volume 39, number 2/3, page 103-134 88 [46] C Phua, D Alahakoon, V Lee (2004) “Minority Report in Fraud Detection: Classification of Skewed Data” ACM SIGKDD Explorations Newsletter Volume 6, Issue (June 2004) Special issue on learning from imbalanced datasets page 50–59 [47] G Plotkin (1969) “A note on inductive generalization” In D Michie, editor, Machine Intelligence 5, page 153-163, Edinburgh University Press, Edinburgh [48] U Pompe, I.Kononenko (1995) “Naïve Bayesian classifier within ILP-R” In Proc of Fifth International Workshop on Inductive Logic Programming (ILP-1995), page 417-436, Tokyo, Japan, 1995 [49] A Popescul, H Ungar, S Lawrence, M Pennock (2002) “Towards Structural Logistic Regression: combining relational and Statistical Learning” Multi-Relational Data Mining Workshop at KDD-2002 [50] A Popescul, H Ungar, S Lawrence, M Pennock (2003) “Statiscal Relational Learning for Document Mining” In Proceedings of IEEE Intermational Conference on Data Mining, ICDM 2003 [51] J Quinlan (1990) “Learning logical definitions from relations” Machine Learning, 5(3): page 239-266 [52] A Srinivasan, S Muggleton, D.King, Sternberg (1996) “Theories for mutagenicity: A study of first-order and feature based induction” Artificial Intelligence, 85: page 277-299 [53] R Tailby, R Dean, B Milner, D Smith (2006) “Email classification for automated service handling” In: Proceedings of the 2006 ACM symposium on Applied computing, Dijon, France SESSION: Information access and retrieval (IAR) Page 1073 – 1077 [54] Van Laer & De Raedt (2001) “How to Ugrade Propositional Learners to First Order Logic: A Case Study” In [19] page 235-261 89 [55] X.Yin, J Han, J Yang, S Yu (2006) “Crossmine: Efficient Classification Across Multiple Database Relations” IEEE Transactions on Knowledge and Data Engineering, vol 18, no 6, pp 770-783, Jun., 2006 ... cận kết hợp học thống kê vào hệ thống FOIL nhằm nâng cao hiệu việc giải toán phân lớp  Áp dụng kỹ thuật phân lớp liệu quan hệ dựa kết hợp học thống kê hệ thống FOIL vào toán phân lớp tài liệu. .. xét quan hệ purchase1() hay customer1() 1.4 Các cách tiếp cận phân lớp liệu đa quan hệ Một giải thuật phân lớp liệu đa quan hệ tìm kiếm khơng gian mẫu quan hệ để tìm mẫu/luật phù hợp với liệu cho. .. CHƢƠNG PHÂN LỚP DỮ LIỆU ĐA QUAN HỆ 11 1.1 Bài toán phân lớp 11 1.2 Các phương pháp phân lớp .12 1.3 Dữ liệu đa quan hệ (multi-relational data) .13 1.3.1 Mẫu quan hệ

Định dạng
Số trang	89
Dung lượng	2,08 MB