Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 26 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
26
Dung lượng
545,2 KB
Nội dung
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Nguyễn Việt Tân ĐỀ TÀI:Kỹ thuật phân lớp áp dụng cho dạng liệu có liên kết Chuyênngành: Truyền liệu mạng máy tính Mãsố: 60.48.15 TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI – 2012 Luậnvănđượchồnthànhtại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Ngườihướngdẫnkhoahọc.: PGS TS Từ Minh Phương Phảnbiện 1: ……………………………………………………………… ……………………………………………………………… ……………………………………………………………… Phảnbiện 2: ……………………………………………………………… ……………………………………………………………… ……………………………………………………………… LuậnvănsẽđượcbảovệtrướcHộiđồngchấmluậnvănthạcsĩtạiHọc việnCơngnghệBưuchínhViễnthơng Vàolúc: .giờ ngày tháng năm Cóthểtìmhiểuluậnvăntại: - ThưviệncủaHọcviệnCơngnghệBưuchínhViễnthơng -1- MỞ ĐẦU Phân loại hay phân lớp kỹ thuật khai phá liệu nghiên cứu sử dụng rộng rãi Đây phần quan trọng dạng ứng dụng phân loại văn bản, nhận dạng chữ viết, giọng nói, phân loại protein v.v Việc phân lớp nhằm dự đoán nhãn phân lớp cho mẫu chưa biết cho liệu Đầu vào cho việc phân lớp tập mẫu liệu huấn luyện, đối tượng có nhãn phân lớp Đầu mơ hình phân lớp dựa mẫu huấn luyện cho Trên thực tế tồn số tốn đối tượng cần phân lớp có liên kết với Chẳng hạn, phân loại trang web, nội dung trang, trang lại có siêu liên kết Hay phân loại protein, protein thường có liên kết tương ứng với quan hệ tương tác chúng Các quan hệ liên kết dạng liệu tiêu biểu với ứng dụng cho mạng máy tính Từ thực tế này, vấn đề đặt tận dụng thông tin liên kết liệu để tăng hiệu độ xác cho thuật toán phân lớp Nguyên tắc chung việc phân lớp liệu có liên kết tạo ràng buộc, theo đối tượng liên kết với cần có nhãn phân lớp tương tự Dựa nguyên tắc chung này, nhiều thuật toán kỹ thuật cụ thể phát triển ứng dụng Một tiếp cận sớm ý tới mối liên kết đối tượng liệu có liên kết Chakrabarti cộng -2sự [3] Họ đề xuất mơ hình xác suất cho phân loại trang web cách sử dụng kết hợp nội dung trang phân lớp, nhãn phân lớp trang liên kết nội dung trang liên kết Gần đây, Macskassy Provost [9] thử nghiệm phân lớp tập hợp cho liệu liên kết cách kết hợp phân lớp liên kết (relation classifier) với phương thức suy luận tập hợp (collective inferencing) Sen cộng [10] so sánh bốn phương pháp phân loại tập hợp cho liệu có liên kết Bên cạnh phương pháp phân loại sử dụng phân lớp liên kết, hướng tiếp cận khác phương pháp học bán giám sát (semi-supervised learning) dựa đồ thị, tiêu biểu phải kể đến phương pháp trường ngẫu nhiên Gauss (Gaussian random field) [12], phương pháp quán địa phương toàn cục [11] Luận văn tập trung vào việc nghiên cứu, phân tích đánh giá thực nghiệm kỹ thuật phân lớp cho liệu có liên kết Một nội dung quan trọng luận văn nghiên cứu việc kết hợp phương pháp có để tận dụng thơng tin liên kết lẫn thông tin cục liệu; cụ thể phương pháp phân lớp tập hợp kết hợp phân lớp liên kết, phân lớp cục phương thức suy luận tập hợp Kết phân lớp theo cách đánh giá so sánh với kết phương pháp phân lớp sử dụng phân lớp riêng lẻ so sánh với phương pháp phân lớp liên kết không sử dụng suy luận tập hợp Liên quan tới nội dung luận văn, đề xuất phương pháp khác để phân lớp cho liệu có liên kết Phương -3pháp kết hợp phân lớp liên kết với phân lớp cục kỹ thuật Co-training Nội dung kết phương pháp báo cáo Hội thảo Quốc gia lần thứ XIV "Một số vấn đề chọn lọc Công nghệ Thông tin Truyền thông" Cần Thơ vào tháng 10 năm 2011 Luận văn chia thành chương sau: Chương - Tổng quan phân lớp liệu: Chương trình bày khái niệm phân lớp, bước đề giải một toán phân lớp số vấn đề cần quan tâm việc phân lớp liệu Bốn thuật toán phân lớp phổ biến dành cho liệu dạng truyền thống định, mạng Bayes, mạng Nơ-ron SVM trình chương Chương - Phân lớp cho liệu có liên kết: Giới thiệu dạng liệu có liên kết phương pháp phân lớp cho liệu có liên kết Ngồi ra, chương cịn trình bày bốn thuật tốn phân lớp dành cho liệu liên kết wvRN, CDRN, NBC, NLB với ba phương thức suy luận tập hợp áp dụng để phân lớp tập hợp GS, RL, IC Chương - Thực nghiệm kết quả: Chương mô tả chi tiết cơng cụ, liệu, phương pháp thực nghiệm tồn trình tiến hành thực nghiệm Kết thực nghiệm theo phương pháp khác phân tích, so sánh đánh giá -4- Chương I - TỔNG QUAN VỀ PHÂN LỚP DỮ LIỆU 1.1 Giới thiệu phân lớp liệu Phân lớp kỹ thuật phổ biến học máy khai phá liệu Đây tiến trình xử lý nhằm xếp mẫu liệu hay đối tượng vào lớp định nghĩa trước Cách xếp dựa vào giá trị thuộc tính mẫu liệu hay đối tượng Sau xếp tất đối tượng biết trước vào lớp tương ứng, lúc lớp đặc trưng tập thuộc tính đối tượng chứa lớp Thơng thường, phân lớp học dựa mẫu liệu huấn luyện Dữ liệu dùng để huấn luyện bao gồm thông tin x y cho điểm liệu (data-point), x vector chứa đặc trưng mẫu liệu y biểu thị nhóm nhãn phân lớp Những nhãn phân lớp nhận số hữu hạn giá trị Bài toán phân lớp phát biểu sau: Cho tập mẫu huấn luyện (xi1, xi2, …., xik, yi), i=1,….,N Nhiệm vụ phải ước lượng phân lớp hay mơ hình xấp xỉ dạng hàm y = f(x) chưa biết mà phân lớp xác cho mẫu thuộc tập mẫu huấn luyện Có nhiều cách để biểu diễn mơ hình phân lớp có nhiều thuật tốn giải vấn đề Các thuật toán phân lớp tiêu biểu bao gồm: mạng nơ-ron, định, mạng Bayes, kNN, SVM v.v -5Tất mơ hình phân lớp dựa thuật toán kể có khả phân lớp cho mẫu liệu dựa vào mẫu tương tự học Quá trình phân lớp liệu gồm hai bước: Bước - Học (training): Mục đích bước xây dựng mơ hình xác định tập lớp liệu Mơ hình xây dựng cách phân tích liệu sở liệu, liệu xác định giá trị thuộc tính Giả sử liệu thuộc lớp đựơc định nghĩa trước, điều xác định thuộc tính, gọi thuộc tính phân lớp Trong ngữ cảnh toán phân lớp, liệu xem mẫu, ví dụ, hay đối tượng Những liệu phân tích để xây dựng mơ hình phân lớp lấy từ tập liệu học hay liệu huấn luyện Những liệu riêng lẻ tạo thành tập liệu huấn luyện gọi mẫu huấn luyện (training samples) chọn ngẫu nhiên từ kho mẫu Bước xem học có giám sát, ngược lại với học có giám sát học khơng có giám sát (unsupervised learing), tiêu biểu tốn gom cụm (clustering) lớp mà mẫu huấn luyện thuộc trước số lớp liệu trước .Mơ hình phân lớp đưa sau phân tích xong tập liệu huấn luyện thường có dạng quy tắc phân lớp, định hay cơng thức tốn học -6Bước - Phân lớp (classification): Bước sử dụng mơ hình phân lớp xây dựng bước để kiểm tra, đánh giá thực phân lớp Trong mơ hình phân lớp, thuật tốn phân lớp giữ vai trò trung tâm, định tới thành cơng mơ hình phân lớp Do chìa khóa vấn đề phân lớp liệu tìm thuật tốn phân lớp nhanh, hiệu quả, có độ xác cao có khả mở rộng Bước đánh giá độ xác mơ hình phân lớp cách sử dụng tập mẫu phân lớp để kiểm tra gọi thử (test set) Những mẫu chọn ngẫu nhiên độc lập với mẫu học bước gọi mẫu thử (test sample) Nếu độ xác mơ hình chấp nhận được, mơ hình sử dụng để phân lớp liệu mẫu liệu mà giá trị nhãn phân lớp chưa biết 1.2 Các phương pháp đánh giá độ xác mơ hình phân lớp Ước lượng độ xác phân lớp quan trọng chỗ cho phép dự đốn độ xác kết phân lớp liệu tương lai Độ xác cịn giúp so sánh mơ hình phân lớp khác Hai kỹ thuật đánh giá độ xác phổ biến holdout k-fold cross-validation Cả hai kỹ thuật dựa phân hoạch ngẫu nhiên tập liệu ban đầu -7Trong phương pháp holdout, liệu dưa phân chia ngẫu nhiên thành phần: tập liệu huấn luyện tập liệu kiểm tra Thông thường 2/3 liệu cấp cho tập liệu huấn luyện, phần lại cho tập liệu kiểm tra Tập huấn luyện dùng để xây dựng phân lớp, sau độ xác phân lớp ước lượng dựa tập kiểm tra Trong phương pháp k-fold cross validation, tập liệu ban đầu chia ngẫu nhiên thành k tập (fold) có kích thước xấp xỉ S1, S2, …, Sk Quá trình học kiểm tra thực k lần Tại lần lặp thứ i, Si tập liệu kiểm tra, tập lại hợp thành tập liệu đào tạo Độ xác tồn số phân lớp chia cho tổng số mẫu tập liệu ban đầu 1.3 Một số vấn đề tốn phân lớp Trong năm gần đây, có nhiều thuật toán cải tiến cho toán phân lớp chưa có thuật tốn hay hệ thống phân lớp có khả phân lớp xác tuyệt đối cho mẫu hay đối tượng mẫu chưa học Độ xác thuật toán phân lớp đạt mức độ định tập mẫu thử Độ xác gần tuyệt đối hay thấp phụ thuộc vào trùng hợp tập mẫu thử với tập mẫu học Gốc vấn đề tính khớp (overfitting) khái quát (overgeneralization) thuật toán phân lớp Một số thuật tốn đưa mơ hình phân lớp phức tạp để phân lớp -8chính xác cho mẫu học không mô hình phân lớp xác cho mẫu mới, khớp Rõ hơn, thuật tốn mang tính q khớp liệu nghĩa mơ hình thuật tốn đưa phân lớp tốt cho mẫu liệu biết khơng thể phân lớp xác cho mẫu liệu chưa biết trước Sự khái quát xuất hệ thống sử dụng liệu sẵn có cố gắng phân tích cho số lượng lớn liệu với luật khái quát Cả hai vấn đề nguyên nhân độ xác phân lớp khơng tốt Đây lĩnh vực nghiên cứu thuật toán thống kê, mạng Neural định, Support Vector Machine 1.4 Một số thuật toán phân lớp truyền thống Bốn thuật toán phân lớp truyền thống trình bày phần tương ứng với mục sau: 1.4.1 Cây định (Decision Trees) 1.4.2 Mạng Bayes (Bayesian network) 1.4.3 Mạng Nơ-ron (Neural Network) 1.4.4 Support Vector Machine (SVM) -10các nút mà liên kết tới, ngược lại Hơn nữa, nút khơng có liên kết trực tiếp lại liên kết gián tiếp thông qua chuỗi liên kết Chính vậy, kỹ thuật công nhận rộng rãi là: nút nên ước tính suy lúc thay nút Kỹ thuật gọi phân lớp tập hợp (collective classification) Bài toán phân lớp tập hợp cho liệu có liên kết phát biểu sau: Cho đồ thị G = (V, E, X) đó: V tập nút (đỉnh) gồm n nút tương ứng với n đối tượng; E tập cạnh – ei, j E biểu thị cạnh nối nút vi vj ; Xi thuộc tính phân lớp nút vi nhận giá trị c K V X Cho trước giá trị xi thuộc Xi cho tập V Khi đó, phân lớp tập hợp tiến trình kết hợp thuật toán phân lớp liên kết với phép suy luận tập hợp để suy U K luận đồng thời giá trị xi thuộc Xi cho đỉnh lại, V =V- V Như vậy, phân lớp tập hợp cho liệu liên kết thực nhờ hai thủ tục: Thủ tục thứ phân lớp liên kết (relational classification), theo nhãn phân lớp xác định dựa hàng xóm thơng qua thuật toán phân lớp liên kết; Thủ tục thứ hai suy luận tập hợp (collective inference) Bản chất bước xác định nhãn phân lớp đồng thời cho nút mạng 2.2 Các thuật toán phân lớp liên kết -11Bốn thuật toán phân lớp liên kết trình bày phần tương ứng với mục sau: 2.2.1 Thuật toán phân lớp liên kết Weighted-Vote Relational Neighbor (wvRN) 2.2.2 Thuật toán phân lớp liên kết Class-Distribution Relational Neighbor (CDRN) 2.2.3 Thuật toán phân lớp liên kết Network-Only Bayes Classifier (NBC) 2.2.4 Thuật toán phân lớp liên kết Network-Only LinkBased Classifier (NLB) 2.3 Phân lớp tập hợp phương thức suy luận tập hợp Để phân lớp liệu dạng liên kết người ta cần sử dụng thuật tốn phân lớp liên kết Tuy nhiên trình bày trên, phương pháp phân lớp tập hợp kết hợp thuật toán phân lớp liên kết với phương thức suy luận tập hợp ngày quan tâm áp dụng Phương thức suy luận tập hợp giúp suy luận ước tính đồng thời nhãn phân lớp cho tất nút cần phân lớp Phương pháp cơng nhận có khả nâng cao độ xác so với phương pháp ước tính nhãn phân lớp cho nút Tùy thuộc vào ứng dụng, mục tiêu suy nhãn với xác suất kết hợp hay xác suất biên tối đa nút Ngoài ra, cần ước tính xác suất nhãn phân lớp, phương thức suy luận tập -12K hợp ước tính phân phối xác suất biên P( X i c G ,) cho Xi U x c X với giá trị khởi tạo trước dựa kết phân lớp phân lớp truyền thống (local classifier) sử dụng đặc trưng dạng liên kết Ba phương thức suy luận tập hợp trình bày phần tương ứng với mục sau: 2.3.1 Phương thức suy luận tập hợp Gibbs Sampling (GS) 2.3.2 Phương thức suy luận tập hợp Relaxation Labeling (RL) 2.3.3 Phương thức suy luận tập hợp Iteractive Classification (IC) 2.4 Phân lớp tập hợp kết hợp phân lớp liên kết phân lớp truyền thống Các phân lớp liên kết quan tâm tới cấu trúc liên kết nút Nếu tất nút tập kiểm tra kết nối tới nút tập huấn luyện khơng có vấn đề gì, thực tế có nhiều liệu khơng thỏa mãn điều kiện Khi đó, phân lớp liên kết khơng thể phân lớp cho nút khơng có nút hàng xóm tập huấn luyện Để bù đắp thiếu hụt trên, phân lớp tập hợp kết hợp phân lớp liên kết với phân lớp truyền thống nhằm -13cố gắng tăng độ xác phân lớp Với cách sử dụng phân lớp truyền thống bước lặp (t=1) trình suy luận tập hợp, phân lớp tập hợp bảo đảm tất nút có xác suất phân lớp ban đầu Bộ suy luận tập hợp sau sử dụng phân lớp liên kết dựa vào xác suất ban đầu để tiếp tục phân lớp 2.5 Một số phương pháp phân lớp cho liệu dạng liên kết khác Bên cạnh phương pháp phân loại quan hệ cho liệu liên kết nêu trên, hướng tiếp cận sử dụng rộng rãi khác phương pháp học bán giám sát (semi-supervised learning) dựa đồ thị Trong số phương pháp kiểu phải kể tới: phương pháp Mincut Blum and Chawla (2001); phương pháp định danh nút (Node Identifiers) Perlich Provost (2006); phương pháp trường ngẫu nhiên Gauss (Gaussian Random Fields) Zhu cộng (2003) phương pháp quán cục địa phương (Local and Global Consistency) Zhu cộng (2004) -14- Chương - THỰC NGHIỆM VÀ KẾT QUẢ 3.1 Dữ liệu Dữ liệu thực nghiệm liệu sử dụng rộng rãi WebKB (http://www.cs.cmu.edu/~WebKB/) Bộ bao gồm 8000 trang web lấy từ website mơn Khoa học máy tính trường đại học: Cornell, Texas, Washington Wisconsin Mỗi trang web lưu vào tệp tin dạng html với tên URL thực trang web Người ta thực việc phân lớp thủ công cho trang web vào lớp: course, department, faculty, project, staff, student, other cách chia vào thư mục có tên tương ứng Để tương thích tiện so sánh với kết nghiên cứu trước đây, loại bỏ trang web lớp other thực việc phân chia liệu vào lớp cịn lại 3.2 Cơng cụ Trong q trình thực nghiệm học phân lớp, chúng tơi sử dụng công cụ mã nguồn mở: Network Learning Toolkit: Netkit-SRL (http://sourceforge.net/projects/netkit-srl/) Đây số cơng cụ mã nguồn mở có khả thực thuật toán phân lớp cho liệu liên kết như: wvRN, cdRN, NBC, nLB Mỗi thuật toán phân lớp lại kết hợp với phương thức suy luận tập hợp như: GS, RL, IC để tạo thành phân lớp tập hợp Ngoài ra, Netkit-SRL cịn có khả liên kết với với cơng cụ khai phá liệu WEKA -15Trong trường hợp thực phân lớp tập hợp kết hợp phân lớp liên kết lẫn phân lớp cục bộ, Netkit-SRL nhận kết phân lớp cục từ WEKA để khởi tạo xác suất phân lớp ban đầu cho trình phân lớp tập hợp Waikato Environment for Knowledge Analysis: WEKA (http://sourceforge.net/projects/weka/) Đây công cụ tiện dụng xây dựng mơ hình khai phá liệu WEKA triển khai hầu hết kỹ thuật khai phá liệu Classification, Clustering, Association Rule, Trong kỹ thuật, WEKA triển khai nhiều thuật toán cho phép lựa chọn thuật toán phù hợp với yêu cầu liệu việc khai phá liệu Ngoài ra, q trình tiền xử lý liệu chúng tơi xây dựng tập hợp công cụ liệt kê bảng Bảng 3.1 Các thư viện công cụ hỗ trợ STT Tên công cụ Mơ tả GetLink.java Tìm liên kết trang web liệu, tính trọng số đưa dạng file rn GetCocite.java Tìm liên kết dạng Cocite trang web liệu, tính trọng số -16và đưa dạng rn WordToVector.java Chuyển liệu Content trang web dạng vector phù hợp với định dạng arff WEKA Stopwords.java Loại bỏ từ dừng LovinsStemmerWrapper.java Rút gọn từ dạng PorterStemmerWrapper.java nguyên gốc pruneByFrequency.java Lược bỏ từ xuất nhiều BinaryOccurrences.java Tính tần suất xuất TFIDF.java từ TermFrequency.java TermOccurrences.java 3.3 Phương pháp thực nghiệm Chúng chia liệu gốc thành tập đặc trưng gọi Content Link-Cocite Tập Content chứa thông tin từ xuất trang web Tập Link-Cocite chứa thông tin liên kết trang web website -17Chúng sử dụng công cụ WEKA với phân lớp Naïve Bayes để tiến hành học phân lớp liệu Content Bộ công cụ Netkit-SRL với phân lớp wvRN dùng để học phân lớp liệu Link Phương thức suy luận tập hợp RL sử dụng để kết hợp tạo thành phân lớp tập hợp Trên thực tế, thử nghiệm thuật toán phân lớp liên kết phương thức suy luận tập hợp trình bày chương Tuy nhiên, kết hợp phân lớp cục bộ, phân lớp liên kết suy luận tập hợp thu nhiều khả kết Sau lựa chọn kỹ lưỡng, định sử dụng phân lớp cục Naïve Bayes, phân lớp liên kết wvRN phương thức suy luận tập hợp RL nói Đây phân lớp phương thức suy luận tập hợp đánh giá phù hợp với toán phân loại trang web Kết áp dụng lựa chọn phù hợp với kết thử nghiệm khác mà kiểm chứng Sau tiến hành thử nghiệm, đánh giá so sánh kết phân lớp phân lớp sau: phân lớp cục Naïve Bayes; phân lớp liên kết wvRN; phân lớp tập hợp kết hợp wvRN RL; phân lớp tập hợp kết hợp Naïve Bayes – wvRN RL 3.4 Quá trình kết thực nghiệm 3.4.1 Xây dựng trích chọn đặc trưng -18Đầu tiên, chúng tơi tiến hành trích chọn đặc trưng trang web chia thành tập chứa đặc trưng riêng biệt Đặc trưng thứ trang web từ xuất trang web Mỗi trang web biểu diễn dạng vector theo mơ hình không gian vector (Vector Space Model) Mỗi thành phần vector từ khóa riêng biệt xuất website gán giá trị gọi hàm f mật độ xuất từ khóa Chúng gọi tập Content tập chứa vector Một đặc trưng trang web siêu liên kết có trang Chúng tơi xây dựng tập tên Link chứa thông tin bao gồm: “x”, “y” “Trọng số liên kết x y”; x, y trang web có liên kết với nằm website Thông tin siêu liên kết lại chia làm loại Direct Link Cocite Direct Link kiểu liên kết trực tiếp trang web (x có chứa siêu liên kết tới y) Khi đó, trọng số liên kết dạng Direct Link trang x y tổng số lần xuất hiệu siêu liên kết từ trang x tới trang y Cocite kiểu liên kết khác Hai trang x y gọi liên kết dạng Cocite (theo z) x liên kết trực tiếp với z y liên kết trực tiếp tới z Để tính trọng số liên kết kiểu Cocite x y, ta lấy tổng số lần xuất siêu liên kết từ trang x tới trang z nhân với tổng số lần xuất siêu liên kết từ trang y tới trang z 3.4.2 Tiền xử lý liệu -19Trước tiến hành phân lớp, liệu cần xử lý đưa định dạng mà cơng cụ phân lớp chấp nhận Trong tốn này, chúng tơi phải xử lý dạng liệu hoàn toàn khác Content Link-CoCite Để thực việc tiền xử lý liệu, xây dựng sử dụng nhiều công cụ liệt kê bảng 3.1 Với liệu dạng Content, biểu diễn trang web thành dạng vector đưa thông tin toàn website vào tệp tin arff theo chuẩn WEKA Các bước tiến hành sau : o Chuyển trang web từ dạng Hyper text Plain text ; o Tìm tất từ xuất website ; o Loại bỏ từ dừng ; o Loại bỏ tiền tố hậu tố, rút gọn từ từ nguyên gốc (chúng thử nghiệm thuật toán Lovings stemming, Porter stemming Dictionary stemming nhận thấy toán Lovings stemming cho kết tốt nhất) ; o Loại bỏ tất từ xuất lần nhiều 25 lần Những từ lại đưa vào danh sách gọi WordList (Kết thu được: WordList trường Cornell có 2133 từ, trường Texas có 1756 từ, Trường Washington có 2076 từ trường Wisconsin có 2488 từ) ; o Biểu diễn trang web thành vector với thành phần tương ứng từ khóa WordList gán giá -20trị tương ứng với xuất hay không từ khóa trang web (đây mơ hình Boolean – chúng tơi thử nghiệm mơ hình Tần suất TF, TF-IDF cho kết không tốt bằng) ; o Đưa liệu vector tất trang web website thơng tin cần thiết khác vào tệp có dạng arff Tệp tuân thủ theo định dạng tiêu chuẩn WEKA Sau xử lý ta có tệp tin chứa thông tin trường Đại TexasContent.arff, học là: CornellContent.arff, WashingtonContent.arff WisconsinContent.arff Với liệu dạng Link, ta cần tìm liên kết trang web, tính trọng số cho chúng lưu vào tệp tin rn có định dạng với quy định Netkit-SRL.Các bước tiến hành sau : o Tìm siêu liên kết xuất trang web kiểm tra xem có tới trang web khác liệu gốc khơng ; o Nếu tìm thấy hai trang web có liên kết (dạng Direct link) với nhau, tính trọng số cách đếm số lần xuất liên kết ; o Đưa tất liên kết trọng số tìm thấy website vào tệp tin rn, ta tập tin CornellLink.rn, TexasLink.rn, WashingtonLink.rn Wisconsin.rn ; -21o Dựa liên kết trọng số dạng Direct link vừa tìm thấy, ta tính liên kết trọng số dạng Cocite đưa vào tệp tin CornellCocite.rn, TexasCocite.rn, WashingtonCocite.rn, WisconsinCocite.rn 3.4.3 Tiến hành phân lớp Đầu tiên, sử dụng phần mềm WEKA để tiến hành học phân lớp tập Content trường đại học Bộ phân lớp sử dụng Naïve Bayes với tùy chọn thử nghiệm folds – cross validation Tiếp theo, sử dụng phần mềm Netkit-SRL để học phân lớp tập Link-Cocite Trong q trình tiền xử lý liệu chúng tơi phát việc dùng liệu dạng Direct link toán phân loại trang web cho kết xác nhiều so với việc sử dụng liệu dạng Cocite Chính phần sử dụng liệu liên kết dạng Cocite Tiếp chúng tơi dùng phần mềm Netkit-SRL để phân lớp tập hợp, kết hợp phân lớp liên kết wvRN với phương thức suy luận tập hợp RL Cuối cùng, thử nghiệm học phân lớp tập hợp kết hợp phân lớp truyền thống Naïve Bayes, phân lớp liên kết wvRN phương thức suy luận tập hợp RL -220.75 Naïve Bayes (Content) 0.7 wvRN (Cocite) 0.65 wvRN.RL (Cocite) 0.6 Naïve Bayes + wvRN.RL 0.55 (Content+Cocite) 0.5 Cornell Texas Washington Wisconsin Trung bình Hình 3.1 Biểu đồ so sánh độ xác phân lớp Kết hình 3.1 cho thấy, tổng thể, phương pháp phân lớp độ xác phương pháp phân lớp tập hợp kết hợp Naïve Bayes – wvRN –RL cao Trong phần lớn trường hợp, độ xác phương pháp cao Khơng có trường hợp phương pháp cho kết Ngồi ra, biểu đồ cịn cho ta thấy phương pháp phân lớp tập hợp giúp nâng độ xác so với phương pháp phân lớp liên kết không sử dụng suy luận tập hợp Độ xác trung bình liệu trường đại học thể điều 0.7 0.65 0.6 Dùng riêng lẻ 0.55 Kết hợp với RL 0.5 0.45 Kết hợp với RL Naïve Bayes 0.4 0.35 0.3 wvRN cdRN nLB nBC Hình 3.2 Độ xác áp dụng thuật tốn wvRN, cdRN nLB -23Hình 3.2 kết so sánh độ xác thuật toán phân lớp liên kết trình bày chương Mỗi thuật tốn với phương pháp thực là: thực đơn lẻ; kết hợp với phương thức suy luận tập hợp RL; kết hợp với thuật toán phân lợp cục Naïve Bayes phương thức suy luận tập hợp RL Độ xác hình độ xác trung bình liệu trường đại học Kết cho thấy, với WebKB thuật tốn phân lớp wvRN có độ xác cao Hiệu phân lớp thuật toán phân lớp liên kết nâng cao gắn với phương thức suy luận tập hợp (RL) nâng cao lần tiếp tục kết hợp với phân lớp cục (Naïve Bayes) -24- KẾT LUẬN, CÁC KẾT QUẢ ĐÃ ĐẠT ĐƯỢC VÀ HƯỚNG NGHIÊN CỨU TIẾP THEO Thông qua việc nghiên cứu, tìm hiểu thử nghiệm phương pháp phân lớp cho liệu có liên kết, chúng tơi kiểm chứng hai vấn đề sau: Thứ nhất, việc phân lớp tập hợp giúp nâng cao độ xác thuật toán phân lớp liên kết Thứ hai, việc tận dụng, kết hợp hai loại thông tin dạng cục dạng quan hệ liệu liên kết giúp nâng cao hiệu suất phân lớp Các kết thực nghiệm phần khẳng định tính đắn nhận định Trong thời gian nghiên cứu luận văn, thử nghiệm đề xuất phương pháp phân lớp cho liệu liên kết cách kết hợp phân lớp liên kết với phân lớp truyền thống thông qua kỹ thuật Co-training Phương pháp trình bày Hội thảo Quốc gia lần thứ XIV "Một số vấn đề chọn lọc Công nghệ Thông tin Truyền thông" Cần Thơ vào tháng 10 năm 2011 Trong tương lai, tiếp tục nghiên cứu, so sánh cải tiến phương pháp phân lớp khác dành cho liệu liên kết ... Chương - Phân lớp cho liệu có liên kết: Giới thiệu dạng liệu có liên kết phương pháp phân lớp cho liệu có liên kết Ngồi ra, chương cịn trình bày bốn thuật tốn phân lớp dành cho liệu liên kết wvRN,... luận tập hợp Để phân lớp liệu dạng liên kết người ta cần sử dụng thuật toán phân lớp liên kết Tuy nhiên trình bày trên, phương pháp phân lớp tập hợp kết hợp thuật toán phân lớp liên kết với phương... phân lớp liên kết, phân lớp cục phương thức suy luận tập hợp Kết phân lớp theo cách đánh giá so sánh với kết phương pháp phân lớp sử dụng phân lớp riêng lẻ so sánh với phương pháp phân lớp liên kết