Tạp chí Khoa học ĐHQGHN: Khoa học Tự nhiên Công nghệ, Tập 30, Số (2014) 48-57 Phân loại liệu có liên kết sử dụng phương pháp đồng huấn luyện Nguyễn Việt Tân1, Hoàng Vũ2,*, Đặng Vũ Tùng3, Từ Minh Phương4 Đại học Công nghệ, ĐHQGHN, 144 Xuân Thủy, Cầu Giấy, Hà Nội, Việt Nam Viện Công nghệ thông tin, ĐHQGHN, 144 Xuân Thủy, Hà Nội, Việt Nam Học viện Thanh thiếu niên Việt Nam, Chùa Láng, Đống Đa, Hà Nội, Việt Nam Học viện Cơng nghệ Bưu Viễn thơng, 122 Hồng Quốc Việt, Cầu Giấy, Hà Nội, Việt Nam Nhận ngày 10 tháng 10 năm 2014 Chỉnh sửa ngày 18 tháng 11 năm 2014; Chấp nhận đăng ngày 22 tháng 12 năm 2014 Tóm tắt: Trong số ứng dụng phân loại tự động, bên cạnh liệu dạng vector cịn có liệu liên kết thể quan hệ đối tượng như: trang web nối siêu liên kết, báo khoa học liên kết tài liệu tham khảo, nút mạng kết nối vật lý v.v Yêu cầu đặt với thuật toán phân loại tận dụng kết hợp liệu liên kết với thông tin khác kết dự đốn xác Nhiều nghiên cứu trước giải vấn đề cách sử dụng thuật toán dựa đồ thị mà tiêu biểu phân lớp Gaussian-field, mạng Hopfield phân lớp quan hệ láng giềng.v.v Trong báo này, đề xuất giải vấn đề kết hợp thông tin liên kết với liệu khác cách sử dụng kỹ thuật đồng huấn luyện, liên kết coi góc nhìn (view) khác liệu Phương pháp thử nghiệm liệu WebKB Kết thử nghiệm so sánh cho thấy phương pháp đề xuất cho kết phân loại xác phương pháp kết hợp liệu liên kết dựa đồ thị Từ khóa: Đồng huấn luyện,dữ liệu liên kết Giới thiệu* với Chẳng hạn, phân loại trang web, ngồi nội dung trang sử dụng đặc trưng dùng để phân loại, trang lại có siêu liên kết Hay phân loại protein, protein thường có liên kết tương ứng với quan hệ tương tác chúng Các quan hệ liên kết dạng liệu tiêu biểu với ứng dụng cho mạng máy tính Từ thực tế này, vấn đề đặt tận dụng liệu có liên kết để tăng hiệu độ xác cho thuật tốn phân lớp Phân loại hay phân lớp kỹ thuật khai phá liệu nghiên cứu sử dụng rộng rãi Đây phần quan trọng dạng ứng dụng phân loại văn bản, nhận dạng chữ viết, giọng nói, phân loại protein v.v Trên thực tế tồn số tốn đối tượng cần phân lớp có liên kết _ Tác giả liên hệ ĐT.: 84-903429148 Email: tannv@vnu.edu.vn 48 N.V Tân nnk / Tạp chí Khoa học ĐHQGHN: Khoa học Tự nhiên Công nghệ, Tập 30, Số (2014) 48-57 Nguyên tắc chung việc phân lớp liệu có liên kết tạo ràng buộc, theo đối tượng liên kết với cần có nhãn phân lớp tương tự Dựa nguyên tắc chung này, nhiều thuật toán kỹ thuật cụ thể phát triển ứng dụng Một tiếp cận sớm ý tới mối quan hệ đối tượng đề xuất Chakrabarti cộng [1] Họ đề xuất mơ hình xác suất cho phân loại trang web cách sử dụng kết hợp nội dung trang phân lớp, nhãn phân lớp trang liên kết nội dung trang liên kết Cũng thời gian này, Blum Mitchell [2] đưa kỹ thuật Co-training với thử nghiệm phân lớp cho liệu WebKB Tuy nhiên tập đặc trưng dạng text phân lớp sử dụng loại truyền thống - Naïve Bayes Gần đây, Macskassy Provost [3] thử nghiệm phân lớp tập hợp cho liệu liên kết cách kết hợp phân lớp liên kết với phương thức suy luận tập hợp (collective inferencing) Sen cộng [4] so sánh bốn phương pháp phân loại tập hợp cho liệu có liên kết Bên cạnh phương pháp phân loại tập hợp, hướng tiếp cận sử dụng rộng rãi khác phương pháp học bán giám sát (semi-supervised learning) dựa đồ thị, tiêu biểu phải kể đến phương pháp Gaussian random field [5], phương pháp quán địa phương toàn cục (Local and global consistency) [6] Trong báo này, đề xuất giải vấn đề phân lớp cho liệu có liên kết cách kết hợp phân lớp liên kết (relation classifier) với phân lớp truyền thống (non-relation hay local classifier) Hai phân lớp học đồng thời hai tập đặc trưng trích chọn từ tập liệu gốc Phương pháp đồng huấn luyện (co-training) 49 sử dụng để gắn kết phân lớp nói Hiệu thuật toán thử nghiệm so sánh với số phương pháp khác liệu WebKB Đây liệu thường sử dụng để đánh giá thuật toán phân loại cho liệu có liên kết Kết thử nghiệm cho thấy hiệu phương pháp đề xuất Bài toán phân lớp cho liệu có liên kết Dữ liệu có liên kết, gọi Networked data hay Linked data, trường hợp đặc biệt liệu quan hệ mà phần tử có kết nối với Ví dụ, trang web kết nối với siêu liên kết, tài liệu kết nối trích dẫn, tham khảo v.v Các phương pháp phân lớp cho liệu liên kết dựa giả thiết Homophily (nguyên lý đồng đẳng): “các đối tượng liên quan với có xu hướng thuộc lớp” Đây nguyên lý dựa nghiên cứu phân tích mạng xã hội cho rằng: giao tiếp đối tượng giống xảy với tỉ lệ cao so với giao tiếp đối tượng khơng giống Các đối tượng thường tìm kiếm, lựa chọn kết bạn với người giống với họ, giới tính, tuổi tác, địa vị xã hội, tầng lớp, đặc điểm hành vi cá nhân, niềm tin, lý tưởng.v.v So với phân lớp truyền thống, vấn đề cần lưu ý phân lớp liệu có liên kết xuất phát từ chất quan hệ tự nhiên của liệu Vì vậy, việc phân lớp nút có ảnh hưởng đến nút liên quan, ngược lại Để khắc phục vấn đề này, kỹ thuật công nhận rộng rãi là: nút cần ước tính suy lúc 50 N.V Tân nnk / Tạp chí Khoa học ĐHQGHN: Khoa học Tự nhiên Cơng nghệ, Tập 30, Số (2014) 48-57 thay nút Kỹ thuật gọi phân lớp tập hợp (collective classification) Bài toán phân lớp cho liệu có liên kết phát biểu sau: Cho đồ thị G = (V, E, X) đó: V tập nút (đỉnh) gồm n nút tương ứng với n đối tượng; E tập cạnh: ei , j ∈ E biểu thị cạnh nối nút vi vj ; Xi thuộc tính phân lớp nút vi nhận giá trị c ∈ X Cho trước giá trị xi thuộc Xi cho tập VK ∈ V Khi đó, phân lớp tập hợp tiến trình kết hợp thuật toán phân lớp liên kết với phép suy luận tập hợp để suy luận đồng thời giá trị xi thuộc Xi cho đỉnh lại, VU=V- VK Như vậy, toán phân lớp tập hợp cho liệu liên kết thực nhờ hai thủ tục Thủ tục thứ phân lớp liên kết (relational classification), theo nhãn phân lớp xác định dựa hàng xóm Một số thuật tốn tiêu biểu cho bước bao gồm: Weighted-Vote Relational Neighbor Classifier (wvRN), ClassDistribution Relational Neighbor Classifier (cdRN), Network-Only Bayes Classifier (nBC) hay Network-Only Link-Base Classifier ( nLB) [7][4] Thủ tục thứ hai suy luận tập hợp (collective inference) Bản chất bước xác định nhãn phân lớp đồng thời cho nút mạng Một số thuật toán suy luận tập hợp bao gồm: Iterative Classification (IC), Gibbs Sampling (GS) hay Relaxation Labeling (RL) [7] Trong này, lựa chọn sử dụng phân lớp liên kết wvRN phương pháp suy luận tập hợp RL tính đơn giản hiệu phân lớp đánh giá tốt dạng tốn phân loại trang web Chúng tơi xin trình bày tóm tắt hai thuật tốn Bộ phân lớp liên kết wvRN ước tính xác suất đối tượng thuộc lớp dựa giả định: (i) nhãn nút phụ thuộc vào hàng xóm trực tiếp (ii) tồn Homophily Thuật tốn wvRN: Cho nút i tập nút hàng xóm N Bộ phân lớp wvRN tính xác suất nút i thuộc lớp c trung bình trọng số xác suất tất nút hàng xóm P ( xi = c N i ) = Z ∑w i , j P ( x j = c N j ) (1) j∈N Trong wi , j trọng số i j, thường tính số lượng liên kết xuất nút; Z hệ số chuẩn hóa để đảm bào giá trị nằm khoảng [0,1], tính số lượng liên kết xuất i với nút dán nhãn Vì định nghĩa đệ quy (cho đồ thị vô hướng, v j ∈ N i ⇔ vi ∈ N j ) nên phân lớp sử dụng ước tính “hiện tại” cho xác suất P( x j = c N j ) Phương pháp suy luận tập hợp RL dùng để lưu giữ nhãn tạm thời , theo dõi ước tính xác suất “hiện tại” cho x U Hơn nữa, thay ước tính lần nút ghi giá trị vào đồ thị, RL “đóng băng” ước tính “hiện tại” cho bước t+1, tất đỉnh cập nhật dựa ước tính từ bước t Tuy nhiên, làm dẫn tới dao động trạng thái Có thể sử dụng phương pháp tiếp cận giải thuật luyện kim (Simulated Annealing – SA) để giải vấn đề Sau bước lặp, trọng số cho nút tăng lên ảnh hưởng nút láng giềng bị giảm xuống Suy luận tập hợp RL định nghĩa sau: cˆi( t +1) = β (t +1) wvRN (vi(t ) ) + (1 − β ( t +1) ).cˆi( t ) (2) Trong cˆit vector xác suất (phân bố xác suất) biểu diễn ước tính P ( xi N i ) bước t wvRN (vi(t ) ) biểu thị áp dụng wvRN N.V Tân nnk / Tạp chí Khoa học ĐHQGHN: Khoa học Tự nhiên Công nghệ, Tập 30, Số (2014) 48-57 với ước tính từ thời điểm bước t Người ta xác định tham số giải thuật luyện kim sau: β0 = k β ( t +1) = β (t ) α , Với k số thường chọn 1; α hệ số suy giảm thường chọn 0.9 0.99 Các phân lớp liên kết quan tâm tới cấu trúc liên kết nút Nếu tất nút tập kiểm tra kết nối tới nút tập huấn luyện khơng có vấn đề gì, thực tế có nhiều liệu khơng thỏa mãn điều kiện Khi đó, phân lớp liên kết khơng thể phân lớp cho nút khơng có nút hàng xóm tập huấn luyện Để bù đắp thiếu hụt này, phân lớp tập hợp kết hợp phân lớp liên kết với phân lớp truyền thống nhằm cố gắng tăng độ xác phân lớp Với cách sử dụng phân lớp truyền thống bước lặp (t=1), phân lớp tập hợp bảo đảm tất nút có xác suất phân lớp ban đầu Bộ suy luận tập hợp sau sử dụng phân lớp liên kết dựa vào xác suất ban đầu để tiếp tục phân lớp Phân lớp liệu liên kết dựa kỹ thuật đồng huấn luyện Trong phần này, chúng tơi trình bày phương pháp đề xuất, vấn đề phân lớp cho liệu liên kết thực theo nguyên lý đồng huấn luyện Để tiện cho việc trình bày, trước hết chúng tơi tóm tắt ngun lý đồng huấn luyện, sau mơ tả chi tiết cách sử dụng kỹ thuật cho phân loại tập hợp liệu liên kết 51 3.1 Đồng huấn luyện Đồng huấn luyện kỹ thuật học bán giám sát giới thiệu lần đầu Blum Mitchell vào năm 1998 [2] Mục đích đồng huấn luyện cung cấp khả phân loại cách xác hiệu tập lớn liệu không gán nhãn dựa vào tập nhỏ ban đầu liệu gán nhãn Trong kỹ thuật đồng huấn luyện, giả sử (i) đặc trưng phân chia thành hai tập riêng biệt; (ii) tập đặc trưng đủ để huấn luyện phân lớp tốt; (iii) hai tập phải thỏa mãn tính chất độc lập có điều kiện cho trước lớp Ban đầu, hai phân lớp học với liệu gán nhãn hai tập đặc trưng tương ứng Mỗi phân lớp sau lại phân lớp liệu chưa gán nhãn chọn nhãn dự đốn mà cảm thấy có độ tin cậy cao để đưa thêm vào tập huấn luyện Tiếp theo, phân lớp học lại tập huấn luyện vừa bổ sung phân lớp lại Quá trình lặp lại hết liệu không gán nhãn sau số bước thiết lập trước 3.2 Phân lớp cho liệu liên kết theo phương pháp đồng huấn luyện Chúng chia liệu gốc thành tập đặc trưng gọi Content Link Tập Content chứa thông tin đặc trưng nội dung đối tượng Ví dụ, trường hợp đối tượng cần phân lớp trang web, thông tin nội dung từ xuất trang Đối với đối tượng protein, thông tin nội dung mức độ biểu gen tương ứng với protein Tập Link chứa thơng tin liên kết đối tượng Ví dụ, thông tin liên kết tạo thành từ siêu liên kết trang liệu web hay thông tin tương tác protein trường hợp phân lớp protein 52 N.V Tân nnk / Tạp chí Khoa học ĐHQGHN: Khoa học Tự nhiên Công nghệ, Tập 30, Số (2014) 48-57 Một phân lớp truyền thống sử dụng vector đặc trưng huấn luyện đặc trưng nội dung phần Content Trong thực nghiệm đây, sử dụng phân lớp Naïve Bayes [8] để phân lớp liệu nội dung Đây phương pháp phân loại sử dụng rộng rãi cho liệu văn Một phân lớp liên kết sử dụng để dự đoán liệu liên kết phần Link Trong nghiên cứu này, sử dụng phân lớp liên kết wvRN phương thức suy luận tập hợp RL để học phân lớp tập Link Hai phân lớp nói sử dụng theo kiểu đồng huấn luyện Tại bước, phân loại huấn luyện liệu có nhãn có, sau dự đốn nhãn cho nút cịn lại Các dự đốn có độ tin cậy cao phương pháp thêm vào tập nhãn huấn luyện phương pháp Thuật toán lặp lại toàn nút gán nhãn Thuật tốn đề xuất thể Hình Input: L: Tập mẫu gán nhãn, U: Tập mẫu chưa gán nhãn; F1 tập Content, F2 tập Link; C1 phân lớp Naïve Bayes, C2 phân lớp wvRNRL n số nhãn phân loại sau bước Output: Tập nhãn cho tồn mẫu Thuật tốn: Lặp U= Ø: Học phân lớp C1 liệu L tập F1 Học phân lớp C2 liệu L tập F2 Với phân lớp Ci (i = 1,2): thực hiện: Ci dự đoán nhãn cho mẫu tập U Ci chọn n mẫu có độ tin cậy cao U Ci thêm n mẫu chọn vào L Ci loại bỏ n mẫu chọn khỏi U Hình Thuật tốn đồng huấn luyện áp dụng cho toán phân lớp liệu liên kết Trong thuật tốn Hình 1, bước, thuật toán lựa chọn thêm n nhãn dự đoán vào tập L Các nhãn chọn nhãn có độ tin cậy phân lớp cao Trong hai trường hợp phân loại Naïve Bayes wvRN, độ tin cậy xác định xác suất hậu nghiệm, ví dụ, xác suất P (xj = c| Ni) trường hợp wvRN Cụ thể, thuật toán xếp nhãn dự đoán theo thứ tự giảm dần xác suất hậu nghiệm, sau lựa chọn n nhãn N.V Tân nnk / Tạp chí Khoa học ĐHQGHN: Khoa học Tự nhiên Công nghệ, Tập 30, Số (2014) 48-57 đứng đầu danh sách Số lượng n lựa chọn cố định tham số thuật toán 53 Thực nghiệm kết liệu Classification, Clustering, Association Rule, Trong kỹ thuật, WEKA triển khai nhiều thuật toán cho phép lựa chọn thuật toán phù hợp với yêu cầu liệu việc khai phá liệu 4.1 Dữ liệu 4.3 Phương pháp thực nghiệm Dữ liệu thực nghiệm liệu sử dụng rộng rãi WebKB (http://www.cs.cmu.edu/~WebKB/) Bộ bao gồm 8000 trang web lấy từ website môn Khoa học máy tính trường đại học: Cornell, Texas, Washington Wisconsin Mỗi trang web lưu vào tệp tin dạng html với tên URL thực trang web Người ta thực việc phân lớp thủ công cho trang web vào lớp: course, department, faculty, project, staff, student, other cách chia vào thư mục có tên tương ứng Để tương thích tiện so sánh với kết nghiên cứu trước đây, loại bỏ trang web lớp other thực việc phân chia liệu vào lớp cịn lại Chúng tơi sử dụng cơng cụ WEKA với phân lớp Nạve Bayes để tiến hành học phân lớp liệu Content Bộ công cụ NetkitSRL với phân lớp wvRN kết hợp với phương thức suy luận tập hợp RL dùng để học phân lớp liệu Link Phương pháp đồng huấn luyện mô tả Hình sử dụng để kết hợp hai phân lớp Khi có kết phân lớp áp dụng phương pháp Đồng huấn luyện, đánh giá so sánh với hai phương pháp phân lớp ban đầu so sánh với phương pháp phân lớp tập hợp kết hợp phân lớp liên kết với phân lớp truyền thống 4.4 Quá trình kết thực nghiệm 4.4.1 Xây dựng trích chọn đặc trưng 4.2 Cơng cụ Trong q trình thực nghiệm học phân lớp, chúng tơi sử dụng công cụ mã nguồn mở: - Network Learning Toolkit (Netkit-SRL http://sourceforge.net/projects/netkit-srl/) Đây số cơng cụ mã nguồn mở có khả thực thuật toán phân lớp cho liệu liên kết như: WVRN, CDRN, NBC, NLB Mỗi thuật toán phân lớp lại kết hợp với phương thức suy luận tập hợp như: GS, RL, IC - Waikato Environment for Knowledge Analysis: WEKA Đây công cụ tiện dụng xây dựng mơ hình khai phá liệu WEKA triển khai hầu hết kỹ thuật khai phá Đầu tiên, chúng tơi tiến hành trích chọn đặc trưng trang web chia thành tập chứa đặc trưng riêng biệt Đặc trưng thứ trang web từ xuất trang web Mỗi trang web biểu diễn dạng vector theo mơ hình khơng gian vector (Vector Space Model) Mỗi thành phần vector từ khóa riêng biệt xuất website gán giá trị gọi hàm f mật độ xuất từ khóa Chúng tơi gọi tập Content tập chứa vector Một đặc trưng trang web siêu liên kết có trang Chúng tơi xây dựng tập tên Link chứa thông tin bao gồm: 54 N.V Tân nnk / Tạp chí Khoa học ĐHQGHN: Khoa học Tự nhiên Công nghệ, Tập 30, Số (2014) 48-57 “x”, “y” “Trọng số liên kết x y”; x, y trang web có liên kết với nằm website kết từ trang x tới trang z nhân với tổng số lần xuất siêu liên kết từ trang y tới trang z Thông tin siêu liên kết lại chia làm loại Direct Link Cocite Direct Link kiểu liên kết trực tiếp trang web (x có chứa siêu liên kết tới y) Khi đó, trọng số liên kết dạng Direct Link trang x y tổng số lần xuất hiệu siêu liên kết từ trang x tới trang y Cocite kiểu liên kết khác Hai trang x y gọi liên kết dạng Cocite (theo z) x liên kết trực tiếp với z y liên kết trực tiếp tới z Để tính trọng số liên kết kiểu Cocite x y, ta lấy tổng số lần xuất siêu liên Trước tiến hành phân lớp phương pháp đồng huấn luyện, thực phân lớp liệu phân lớp riêng lẻ để kiểm tra việc tiền xử lý liệu đánh giá độ xác phân lớp 4.4.2 Tiến hành phân lớp Đầu tiên, sử dụng phần mềm WEKA để tiến hành học phân lớp tập Content Bảng biểu diễn kết phân lớp dựa Content với phân lớp Naive Bayes, tùy chọn thử nghiệm fold cross validation Bảng Tỷ lệ xác phân lớp dựa tập Content phân lớp Naive Bayes Course Department Faculty Project Staff Student Trung bình Cornell 0.649 0.444 0.12 0.417 0.757 0.612 Texas 0.795 0.615 0.2 0.057 0.811 0.714 Dựa vào kết Bảng ta thấy độ xác phân lớp Naive Bayes mức tin cậy với độ xác trung bình cao lên tới 71.4% thấp 61.2% Tiếp theo, sử dụng phần mềm Netkit-SRL để học phân lớp tập LinkCocite Trong trình tiền xử lý liệu phát việc dùng liệu dạng Direct Washington 0.781 0.406 0.125 0.04 0.664 0.599 Wisconsin 0.792 0.54 0.421 0.061 0.78 0.694 link toán phân loại trang web cho kết xác nhiều so với việc sử dụng liệu dạng Cocite Chính phần sử dụng liệu liên kết dạng Cocite Bảng chứa kết phân lớp dựa Link-Cocite với thuật toán phân lớp quan hệ wvRN phương thức suy luận tập hợp RL Bảng Tỷ lệ xác phân lớp dựa tập Link-Cocite phân lớp wvRNRL Course Department Faculty Project Staff Student Trung bình Cornell 0.37621 0.15254 0.34564 0.37786 0.87263 0.56057 Texas 0.53169 0.35204 0.48413 0.0979 0.17647 0.96415 0.65976 Washington 0.7538 0.09302 0.24038 0.06742 0.87762 0.61379 Wisconsin 0.83226 0.61446 0.09412 0.2459 0.08 0.99003 0.70845 N.V Tân nnk / Tạp chí Khoa học ĐHQGHN: Khoa học Tự nhiên Công nghệ, Tập 30, Số (2014) 48-57 Kết phân lớp Bảng cho ta thấy độ phân lớp wvRN với dạng liệu Cocite mức chấp nhận với độ xác trung bình khoảng 56.057% đến 70.845% 55 Tiếp dùng phần mềm NetkitSRL để phân lớp tập hợp kết hợp phân lớp liên kết wvRNRL với phân lớp truyền thống Naive Bayes Bảng Tỷ lệ xác phân lớp tập hợp wvRNRL+Naive Bayes Course Department Faculty Project Staff Student Trung bình Cornell 0.48438 0.23913 0.26562 0.51786 0.86232 0.57571 Texas 0.56881 0.42697 0.55682 0.22642 0.33333 0.96319 0.70588 Washington 0.73143 0.03704 0.26872 0.06349 0.88446 0.62673 Wisconsin 0.77652 0.72222 0.03175 0.18487 0.03922 0.99619 0.72825 L: chứa 20% số trang chọn ngẫu nhiên website ; n=10% số mẫu ban đầu U Cuối cùng, thử nghiệm học phân lớp phương pháp đồng huấn luyện Các bước thực phân lớp theo phương pháp mô tả Hình với tham số cho mơ hình thiết lập sau : Bảng Tỷ lệ xác phân lớp phương pháp đồng huấn luyện Course Department Faculty Project Staff Student Trung bình Cornell 0.53846 0.30189 0.41129 0.43011 0.87584 0.61571 Texas 0.5641 0.58571 0.53 0.12727 0.26667 0.95046 0.70294 Washington 0.77709 0.11905 0.36538 0.08642 0.88312 0.65862 Wisconsin 0.79755 0.66667 0.02817 0.20455 0.73662 0.75 0.7 Naïve Bayes (Content) 0.65 wvRN.RL (Cocite) Naïve Bayes + wvRN.RL 0.6 Co-Training 0.55 0.5 Cornell Texas Washington Wisconsin Trung bình Hình Biểu đồ so sánh độ xác phân lớp 56 N.V Tân nnk / Tạp chí Khoa học ĐHQGHN: Khoa học Tự nhiên Công nghệ, Tập 30, Số (2014) 48-57 Kết Bảng Hình cho thấy, tổng thể, phương pháp phân lớp độ xác phương pháp đồng huấn luyện cao Trong phần lớn trường hợp, độ xác phương pháp đồng huấn luyện cao Khơng có trường hợp phương pháp đồng huấn luyện cho kết Kết luận Thông qua việc đề xuất thử nghiệm phương pháp đồng huấn luyện để phân lớp cho liệu có liên kết, muốn kiểm chứng đồng thời hai vấn đề Thứ nhất, việc tận dụng thông tin đối tượng liên quan liệu liên kết giúp nâng cao hiệu suất phân lớp Thứ hai, chúng tơi muốn kiểm tra củng cố tính đắn phương pháp đồng huấn luyện áp dụng cho kiểu liệu Kết thử nghiệm cho thấy tính đắn ưu việt phương pháp áp dụng cho dạng liệu có liên kết Tài liệu tham khảo [1] S Chakrabarti, B Dom, and P Indyk (1998) Enhanced hypertext categorization using hyperlinks In Proceedings of the 1998 ACM SIGMOD International Conference on Management of Data, pp: 307–319, 1998 [2] Blum A., Mitchell T (1998): Combining labeled and unlabeled data with co- training In Proceedings of the 11th Annual Conference on Computational Learning Theory (COLT-98) [3] Macskassy, S.A., Provost, F (2005): Suspicion scoring based on guilt-by-association, collective inference, and focused data access In: International Conference on Intelligence Analysis [4] Sen, P., Namata, G., Bilgic, M., Getoor, L., Gallagher, B., Eliassi-Rad, T (2008): Collective Classification in Network Data AI Magazine 93-106 [5] Zhu, X.: Semi-supervised learning literature survey (2008): Technical Report 1530, Department of Computer Science, University of Wisconsin at Madison [6] Zhou, D., Bousquet, O., Lal, T., Weston, J., & Scholkopf, B (2004): Learning with local and global consistency Advances in Neural Information Processing Systems 16 MIT Press, Cambridge, MA [7] Macskassy, S.A., Provost, F (2007): Classification in Networked Data: A toolkit and a univariate case study Journal of machine learning research Vol pp: 935-983 [8] Bilgic, M., Getoor, L (2010): Active inference for collective classification Proceedings of 24-th AAAI conference on Artificial Intelligence A Co-training Method for Linked Data Classification Nguyễn Việt Tân1, Hoàng Vũ2, Đặng Vũ Tùng3, Từ Minh Phương4 VNU University of Engineering and Technology, E3 Building, 144 Xuân Thủy, Cầu Giấy, Hanoi, Vietnam VNU The Information Technology Institute, E3 Building, 144 Xuân Thủy, Cầu Giấy, Hanoi, Vietnam Vietnam Youth Academy, Chua Lang Street, Dong Da District, Hanoi, Vietnam Posts and Telecommunications Institute of Technology, 122 Hoàng Quốc Việt, Cầu Giấy, Hanoi, Vietnam Abstract: In some automatic classification applications, data points can be represented not only by vectors but also by linked structures or linked data describing the relationship among objects such as: Hyperlinks-linked websites, references-cited scientific papers, physical networks and so on A critical requirement for classification methods is to employ and combine linked data with other information to achieve more accurate prediction results To solve this problem, graph-based methods have been N.V Tân nnk / Tạp chí Khoa học ĐHQGHN: Khoa học Tự nhiên Công nghệ, Tập 30, Số (2014) 48-57 57 proposed such as the Gaussian-field classifier, Hopfield networks, neighbor-based classifiers and so on In the paper, we propose a co-training method to solve the problem of combining linked data with other information In the proposed method, links are considered as another view of data The proposed method was tested on the WebKB dataset Experimental results and the comparative evaluation shown that the proposed method achieves the better results and higher accuracy than graphbased methods when tested on linked datasets Keywords: Networked data, linked data, co-training ... xác phương pháp đồng huấn luyện cao Khơng có trường hợp phương pháp đồng huấn luyện cho kết Kết luận Thông qua việc đề xuất thử nghiệm phương pháp đồng huấn luyện để phân lớp cho liệu có liên kết, ... wvRN kết hợp với phương thức suy luận tập hợp RL dùng để học phân lớp liệu Link Phương pháp đồng huấn luyện mơ tả Hình sử dụng để kết hợp hai phân lớp Khi có kết phân lớp áp dụng phương pháp Đồng. .. dụng để đánh giá thuật toán phân loại cho liệu có liên kết Kết thử nghiệm cho thấy hiệu phương pháp đề xuất Bài tốn phân lớp cho liệu có liên kết Dữ liệu có liên kết, gọi Networked data hay Linked