Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 30 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
30
Dung lượng
1,59 MB
Nội dung
1 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CƠNG NGHỆ NGUYỄN THỊ CHĂM MỘT LỚP THUẬT TỐN BAYES PHÂN LỚP ĐA NHÃN VÀ ÁP DỤNG VÀO PHÂN LỚP VĂN BẢN ĐA NHÃN LĨNH VỰC ĐIỆN TỬ LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HÀ NỘI - 2012 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CƠNG NGHỆ NGUYỄN THỊ CHĂM MỘT LỚP THUẬT TỐN BAYES PHÂN LỚP ĐA NHÃN VÀ ÁP DỤNG VÀO PHÂN LỚP VĂN BẢN ĐA NHÃN LĨNH VỰC ĐIỆN TỬ Ngành: Công nghệ Thông tin Chuyên ngành: Hệ thống Thông tin Mã số: 60 48 05 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS TS Hà Quang Thụy Hà Nội - 2012 Mục lục Lời cam đoan Lời cảm ơn Tóm tắt nội dung Mục lục Bảng ký hiệu chữ viết tắt Danh sách bảng biể u Danh sách hình ảnh Mở đầu CHƢƠNG GIỚI THIỆU CHUNG VỀ PHÂN LỚP ĐA NHÃN VĂN BẢN 11 1.1 Giới thiệu chung 11 1.1.1 Phân lớp văn 11 1.1.2 Phân lớp đa nhãn (Multiple Label Class - MLC) 12 1.1.3 Ý nghĩa ứng dụng 13 1.2 Cách thức phân lớp đa nhãn 14 1.2.1 Phân lớp dựa vào xếp hạng 14 1.2.2 Phân lớp theo cấu trúc phân cấp (Hierarchical structure) 14 1.3 Phương pháp phân lớp đa nhãn 15 1.3.1 Phương pháp chuyển đổi toán 15 1.3.2 Phương pháp thích nghi thuật tốn 20 Tóm tắt chương 22 CHƢƠNG THUẬT TOÁN PHÂN LỚP ĐA NHÃN BAYES 23 2.1 Phân lớp Bayes 23 2.2 Giới thiệu chung phân lớp đa nhãn Bayes 25 2.3 Phân lớp đa nhãn Bayes dựa chuỗi phân lớp 27 2.4 Phân lớp đa nhãn Bayes dựa chuỗi phân lớp cải tiến 29 2.5Phân lớp đa nhãn Bayes trực tuyến 33 Tóm tắt chương2 37 CHƢƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ 38 3.1 Môi trường công cụ sử dụng thực nghiệm 38 3.2 Dữ liệu thực nghiệm 39 3.2.1 Đặc trưng tài liệu thực nghiệm 39 3.2.2 Thu thập liệu 41 3.3 Thực nghiệm 44 3.3.1 Phát biểu toán 44 3.3.2 Mơ hình đề xuất 45 3.3.3 Mô tả cài đặt chương trình 50 3.3.4 Giới thiệu hệ thống 51 3.3.5 Thực nghiệm hệ thống 55 3.3.6 Đánh giá kết thực nghiệm 57 Tóm tắt chương 59 Kết luận định hƣớng phát triển 60 TÀI LIỆU THAM KHẢO 61 PHỤ LỤC 62 Phụ lục I: Kết phân lớp chi tiết với thuật toán CC 62 Phụ lục II: Kết phân lớp chi tiết với thuật toán ECC 64 Tóm tắt nội dung Phân lớp văn nói chung phân lớp đa nhãn văn nói riêng lĩnh vực khơng mang tính cấp thiết tất lĩnh vực: kinh tế, trị, văn hóa, xã hội, giáo dục – đào tạo, … Phân lớp đa nhãn văn không cách thức gán cho văn bản, giáo trình hay tài liệu nhãn lớp mà thực hướng tới việc phân tích ngữ nghĩa, từ ngữ văn giúp máy tính hiểu tài liệu nói thuộc lớp tài liệu Việc trở lên quan trọng Nhà trường lượng tài liệu, giáo trình ngày lớn ngành nghề mở rộng, số lược học sinh, sinh viên theo học ngày nhiều; chưa kể đến kho giáo trình điện tử trường, đặc biệt kho giáo trình điện tử mang lại từ hệ thống Internet Từ giúp người quản lý trực tiếp kiểm sốt số lượng giáo trình có chi tiết hơn: có giáo trình? phục vụ cho ngành học nào? Giáo trình cần tìm tìm thấy lớp tài liệu nào? … Luận văn tập trung nghiên cứu số thuật toán phân lớp đa nhãn văn Bayes tiến hành thử nghiệm áp dụng mơ hình đề xuất miền liệu file liệu tổng hợp từ giáo trình/tài liệu Điện tử trung tâm thư viên kho liệu mở Trường Cao đẳng Công nghệ Viettronics cho sản phẩm hệ thống phân lớp đa nhãn tài liệu NVClassification (Nạve Bayes Classification) Hệ thống có ba phần: Phần Client, phần Server phần giao tiếp Client Server sử dụng Thrift 81 http://thrift apache org/ Mở đầu Những thành tựu năm gần lĩnh vực máy tính, thơng tin công nghệ lưu trữ làm cho liệu thu thập lưu trữ với lượng lớn Các kho liệu lớn thông tin lại nghèo nàn tượng “ngập liệu thiếu thơng tin” Do đó, vấn đề đặt làm để tổ chức, cá nhân thu tri thức phân lớp liệu từ kho liệu khổng lồ đó, tức gán cho nhãn đặt vào lớp cụ thể Từ yêu cầu đó, tốn phân lớp đa nhãn văn bản, tài liệu nhiều cơng trình nghiên cứu đề cập đến Phân lớp đa nhãn toán phân lớp cho phép đối tượng có nhiều nhãn Chẳng hạn như, toán phân lớp văn bản, nhãn lớp tương ứng với chủ đề văn thuộc vào nhiều chủ đề, tương ứng văn gán nhiều nhãn lớp Nhiều cơng trình nghiên cứu thuật tốn phân lớp cơng bố, chẳng hạn [DCH10, GM05, GS04, PC10, RD10, TK07, ZGH10, ZPH09], cơng trình [TK07] cho khái qt giải pháp phân lớp đa nhãn tới năm 2007 Từ năm 2007 tới nay, nhiều giải pháp phân lớp đa nhãn tiếp tục đề xuất, chẳng hạn [DCH10, PC10, RD10, ZGH10, ZPH09] Một lớp thuật toán phân lớp đa nhãn điển hình thuật tốn phân lớp đa nhãn Bayes Một số giải pháp phân lớp Bayes đa nhãn đề xuất, chẳng hạn [DCH10, ZGH10, ZPH09] Luận văn tập trung nghiên cứu số thuật toán phân lớp đa nhãn Bayes ứng dụng vào phân lớp nhãn tài liệu thuộc lĩnh vực điện tử lĩnh vực đào tạo Trường Cao đẳng Công nghệ Viettronics Nội dung luận văn gồm có chương: Chương 1: Giới thiệu chung phân lớp đa nhãn văn Chương 2: Giới thiệu số thuật toán phân lớp đa nhãn văn Bayes Đây sở để tác giả đưa mơ hình thực nghiệm với cải tiến chương Chương 3: Thực nghiệm đánh giá Trình bày bước cài đặt chương trình thi thành thực nghiệm hệ thống cài đặt theo mô hình đề xuất Đồng thời tiến hành đánh giá kết thử nghiệm hệ thống Kết thực nghiệm cho thấy tính đắn khả áp dụng mơ hình vào thực tế khả quan Phần kết luận và định hướng phát triển luận văn: Tóm lược nội dung đạt luận văn Nghiên cứu, triển khai giải pháp nâng cao hiệu hệ thống phần mềm xây dựng Chương Giới thiêụ chung phân lớp đa nhãn văn 1.1 Giới thiệu chung 1.1.1 Phân lớp văn Phân lớp mối quan tâm lớn người trình làm việc với tập hợp đối tượng Điều giúp họ tiến hành việc xếp, tìm kiếm đối tượng cách thuận lợi Khi biểu diễn đối tượng vào hệ thống thơng tin, tính chất lớp vốn có đối tượng thực tế thường biểu diễn tương ứng thuộc tính “lớp” riêng biệt [TK07] Bài toán phân lớp văn phân biệt cách chi tiết hơn, phân lớp nhị phân miền áp dụng có lớp (|C| = 2), phân lớp đa nhãn miền áp dụng có nhiều hai lớp (|C| >2) [TK07] Phân lớp văn nhiệm vụ quản lý tài liệu dựa nội dung Đây vấn đề quan trọng việc gán tài liệu vào nhiều lớp cho trước[TK07, XL05] 1.1.2 Phân lớp đa nhãn (Multiple Label Class - MLC) a Khái quát Phân lớp đơn nhãn, tài liệu gán xác vào lớp; Phân lớp đa nhãn (MLC) cho phép gán đối tượng (văn bản, giáo trình, tài liệu,…) vào nhiều lớp đồng thời [HPDN09, DCH10, GM05, TK07] Phân lớp đa nhãn nhà nghiên cứu định nghĩa thống việc gán tên chủ đề (tên lớp/nhãn lớp) xác định trước vào văn dựa nội dung [TK07] b Bài tốn phân lớp đa nhãn Trong [DCH10], toán phân lớp đa nhãn Dembczyński cộng mô tả chi tiết sau: Cho χ biểu thị khơng gian tính năng/đặc trưng, L = {λ1,λ2,…,λm} tập hợp hữu hạn nhãn lớp Giả định phiên x χ (không tất định) liên kết với tập hợp nhãn L 2L, tập hợp thường gọi thiết lập nhãn có liên quan, phần bù L\L coi khơng thích hợp x Từ đó, xác định tập hợp L nhãn có liên quan với vector nhị phân y=(y1, y2,…, ym), yi=1λiL Y = {0, 1}m xác định tập nhãn có khả Giả định quan sát tạo cách độc lập ngẫu nhiên theo phân bố xác suất P(X, Y) χ × Y, nghĩa quan sát y = (y1, ,ym) phép thể tương ứng vector Y=(Y1,Y2, … ,Ym) Tác giả biểu thị Px(Y)=P(Y|x) phân phối có điều kiện Y cho X = x, Px(i) (Yi ) P(i) (Yi | x) phân phối biên tương ứng Yi: x(i ) b ( y) x yY : y1 b (1) Một phân lớp đa nhãn h X → Y định tập hợp nhãn (dự đốn) trường hợp x χ Vì vậy, số lượng phân lớp h vector: h(x) = (h1(x), h2(x), … , hm(x)) Thông thường, MLC coi tốn xếp hạng, nhãn xếp theo mức độ phù hợp Sau đó, dự báo nhận mẫu xếp hạng chức chấm điểm: f(x) = (f1(x), f2(x), , fm(x)) (2) Các nhãn λi đơn giản xếp thứ tự giảm dần theo điểm số fi(x) chúng 1.1.3 Ý nghĩa ứng dụng Phân loại hợp chất hữu cơ, phân nhóm âm nhạc, phân lớp ngữ nghĩa; Lọc nội dung: loại bỏ thư rác, lọc thông tin trang web Phân lớp tập hợp văn vào chủ đề cho trước, quản lý tri thức tìm kiếm thơng tin Internet 1.2 Cách thức phân lớp đa nhãn 1.2.1 Phân lớp dựa vào xếp hạng Một cách thức phân lớp thuộc nhóm học có giám sát liên quan chặt chẽ đến phân lớp đa nhãn xếp hạng (Ranking) Nhiệm vụ xếp hạng xếp theo thứ tự tập hợp nhãn L [TK07, GM05] 1.2.2 Phân lớp theo cấu trúc phân cấp (Hierarchical structure) Năm 2001, Clare & King rằng, số toán phân lớp cụ thể, nhãn thuộc cấu trúc phân cấp Hệ thống phân cấp lên đến cấp [TK07] Khi nhãn tập hợp liệu thuộc cấu trúc phân cấp gọi phân lớp theo cấu trúc phân cấp Nếu mẫu cấp nhãn với nhiều nút cấu trúc phân cấp, cách thức phân lớp gọi phân lớp đa nhãn phân cấp [TK07] 1.3 Phương pháp phân lớp đa nhãn 1.3.1 Phương pháp chuyển đổi toán Để minh họa phương pháp này, sử dụng liệu Bảng 1.1 Nó bao gồm bốn mẫu (tài liệu trường hợp này) thuộc nhiều lớp: Sports, Religion, Science, Politics [TK07] Bảng 1.1: Mẫu liệu đa nhãn a Phương pháp (được đặt tên PT1) Phương pháp lựa chọn cách chủ quan ngẫu nhiên nhiều nhãn phiên đa nhãn loại bỏ nhãn lại b Phương pháp (được đặt tên PT2) Phương pháp đơn giản loại bỏ tất phiên đa nhãn khỏi tập hợp liệu Bảng 1.2 Bảng 1.3 cho thấy liệu chuyển đổi cách sử dụng phương pháp PT1 PT2 Hai phương pháp chuyển đổi toán loại bỏ nhiều thông tin liệu gốc đa nhãn [TK07] Bảng 1.2: Dữ liệu chuyển đổi phương pháp PT1 Bảng 1.3: Dữ liệu chuyển đổi phương pháp PT2 c Phương pháp (được đặt tên PT3) Phương pháp xem xét nhãn khác tồn liệu đa nhãn đơn nhãn Nên nhận biết phân lớp đơn nhãn H: X→P(L), P(L) tập hiệu suất L Bảng 1.4 cho thấy kết việc chuyển đổi liệu Bảng 1.1 cách sử dụng phương pháp Một mặt hạn chế PT3 dẫn đến tập hợp liệu với số lượng lớn lớp mẫu lớp [TK07] 10 Bảng 1.4: Dữ liệu chuyển đổi phương pháp PT3 d Phương pháp (được đặt tên PT4) Phương pháp chuyển đổi toán phổ biến (gọi PT4) nhận biết |L| phân lớp nhị phân Hl: X → {l, ¬l}, cho nhãn khác l L Nó biến đổi liệu đầu vào |L| tập liệu Dl chứa tất mẫu tập liệu gốc, gắn nhãn l nhãn mẫu gốc l gắn nhãn ¬l mẫu gốc l Đối với việc phân lớp mẫu x, phương pháp đưa kết tập nhãn hợp nhất, sản phẩm |L| phân lớp [TK07]: H PT x {l} : H ( x) l (3) lL Hình 1.1 cho thấy bốn tập hợp liệu PT4 tạo áp dụng cho liệu Bảng 1.1 Hình 1.1: Bốn tập hợp liệu PT4 tạo e Phương pháp (được đặt tên PT5) Trước tiên, tách mẫu (x,Y) |Y| thành (x, l) với lY Sau đó, nhận biết phân lớp đơn nhãn dựa vùng phủ từ liệu chuyển đổi Phân lớp hàm suy rộng phân lớp tạo hàm suy rộng có bậc xác (hoặc xác suất) cho tất nhãn L Cuối 16 Cho phiên x, xác suất (có điều kiện) nhãn kết hợp y=(y1,ym)Y tính cách sử dụng quy tắc tính sản phẩm m xác suất: P ( y) P ( y ) p ( y | y , y ) (12) x x x i i 1 i 2 Vì vậy, để đánh giá phân bố nhãn, phải coi m hàm fi(.) không gian đầu vào tăng cường X {0,1}i-1, ta nói y1,…, yi-1 thuộc tính bổ sung: fi : X {0,1}i 1 [0,1] ( x, y1 , , yi 1 ) P( yi | x, y1 , yi 1 ) (13) Giả thiết rằng, hàm fi(.) coi xác suất phân lớp có xác suất dự đoán y1=1 tối thiểu phải xấp xỉ Do đó, cơng thức (12) trở thành: m Px ( y ) f1 ( x). f i ( x, y1 , yi1 ) (14) i 2 Với Px (và chức L(.) giảm thiểu), dự đốn tối ưu (15) sau xuất phát cách rõ ràng Cách tiếp cận gọi chuỗi phân lớp xác suất (PCC) h * ( x) arg Y | X L(Y , y) (15) y * Nguồn gốc PCC PCC bắt xuất phát từ chuỗi phân loại (CC) [DCH10] Điều đáng nói chuỗi ban đầu xem xấp xỉ xác định qua công thức (14) trên, ý nghĩa việc sử dụng {0, 1} – xác suất giá trị Trong thực tế, CC thu từ công thức (14) trường hợp đặc biệt đầu fi(.) hoặc Kết dẫn tới dự đốn: Px(y) = [y=yCC] (16) Trong đó, yCC tập hợp nhãn dự đốn chuỗi phân lớp [DCH10] Để giảm ảnh hưởng thứ tự nhãn, năm 2009 Read et al đề xuất tính trung bình dự đốn đa nhãn CC hốn vị (được chọn ngẫu nhiên) Vì vậy, nhãn λ1,…,λm lần xếp lại phép hoán vị {1, … ,m}, di chuyển λi nhãn từ vị trí i đến vị trí π(i), sau CC áp dụng thường lệ Phần mở rộng gọi tập hợp chuỗi phân lớp (Ensemble Classifier Chain - ECC) [DCH10, ZPH09] ECC làm tăng độ xác tổng thể khắc phục không phù hợp cho phép thực song song Tập hợp chuỗi phân lớp sử dụng thành công nhiều tốn đa nhãn [ZPH09] 17 Tác động tích cực ECC biết đến: ECC tạo m phân lớp CC: C1, C2,…, Cm Mỗi Ck tạo ra: Một thứ tự chuỗi ngẫu nhiên (của L); Một tập hợp ngẫu nhiên D Mỗi mơ hình riêng kth (của m mơ hình) dự đốn vector yk=(l1,…, l|L|) {0,1}|L| Tổng số dự đoán lưu trữ vector W=(λ1,…, λ|L|)R |L| λj k 1l j yk Do λjW đại diện cho tổng số m xác nhận nhãn ljL Sau tiêu chuẩn hóa W thành Wnorm, đại diện cho phân phối điểm nhãn [0,1] Sử dụng ngưỡng để chọn đa nhãn Y cuối cùng, lj Y λj ≥ t ngưỡng t Do đó, nhãn có liên quan Y đại diện cho dự đoán đa nhãn cuối [ZPH09] ECC tác giả chọn làm thuật toán cải tiến phần thực nghiệm Chương luận văn 2.5 Phân lớp đa nhãn Bayes trực tuyến Bayesian online Learning for Multi – label classification framework – BOMC với mô hình phân lớp tuyến tính [ZPH10] Mơ hình chi tiết hóa sau: Giả sử có n tài liệu huấn luyện có vectơ tính {xiRD}ni=1 Giả sử có C lớp {1, …, C} =: [C], vector nhãn yi{0,1}C mã hóa tập hợp đa nhãn mà yic= mẫu xi có lớp c, ngược lại [ZGH10] Mơ hình sử dụng biệt số tuyến tính xác suất wc cho lớp c, đường chéo Gaussians độc lập có trung bình phương sai ước tính từ liệu xử lý Mơ hình tập trung chủ yếu vào khả p(y|{wc}c,x), xác suất nhãn y xác định trọng số {wc}c Thông qua quy tắc Bayes, hậu nghiệm {wc}c tính cơng thức [ZGH10]: p(wc | y, x) p( y | wc c , x) p(wc c | x) (17) Xét trường hợp sau: a) Trường hợp đa lớp: Sử dụng đồ thị mơ tả hình 2.3 (bên đường kẻ đứt), giả định lớp lớp đúng, ac = wc,x biến số tuyến tính, mã hóa cơng thức: Fwa(wc,ac) := (ac- wc,x) (18) đó, hàm thúc đẩy/Dirac 18 Hình 2.3: Một đồ thị phân lớp đa nhãn, tương ứng với ví dụ x có nhãn Để mơ hình hóa nhiễu (noise) cho với mục đích thực tế, nhiễu Gaussians N(0,2) thêm vào để ac cho suất fc, đại diện bởi: Faf(ac,fc):= N(fc- ac,2) (19) Giả định quan trọng mơ hình chế ghi nhãn khả không f2 lớn tất fc khác qua ngưỡng Quy tắc thực lần đưa nút khác dc= f2–fc thông qua kiện Ffd(fc,f2,dc):=(dc–(fc-f2)) Sau kiểm tra xem, dc>: Fd(dc) := I(dc>), mà I(x):= x trường hợp khác Theo định nghĩa, sản phẩm yếu tố phần nét đứt hình 2.3 tỷ lệ thuận với αp(y, a, f, d|w, x), α độc lập với w Vì vậy, hậu nghiệm p({w}c|y,x) thu cách lọc đơn giản a, f d đồ thị [ZGH10] b Trường hợp đa nhãn: Mơ hình có khả mở rộng cách sử dụng nguyên tắc so sánh cặp [ZGH10] Hình 2.4 mơ tả ý tưởng mà giá trị hệ số ồn fc lớp liên quan thi hành vượt q lớp khơng thích hợp Hạn chế phương pháp độ phức tạp tính tốn O(C2) – hệ số lớn không phù hợp Hình 2.4: Phân lớp đa nhãn thơng qua việc so sánh cặp 19 Dẫn tới việc giả định nhóm tác giả đưa xây dựng thứ tự nhãn phù hợp để đưa ngưỡng biệt số lớp đến giá trị chênh lệch hình 2.5 [ZGH10] Hình 2.5: Phân lớp đa nhãn thông qua thứ tự tổng xu hướng chung 20 Chương Thư ̣c nghiêm ̣ và đánh giá 3.1 Môi trường và các công cụ sử dụng thực nghiệm Cấu hình phần cứng Bảng 3.1: Cấu hình hệ thống thử nghiệm Thành phần CPU RAM OS Bộ nhớ Chỉ số 2.0 GHz Dual Core Intel 1GB Windows Pro 250GB Các phần mềm sử dụng Bảng 3.2: Công cụ phần mềm sử dụng TT Tên phần mềm Eclipse-SDK-3.5win32 JvnTextPro 2.0 Tác giả N.C.TúP.X.HiếuN.T.Trang Nguồn http://www.eclipse org/downloads Chức Mơi trường lập trình java http://jvntextpro sourceforge net/ Tách câu, tách từ, gán nhãn 3.2 Dữ liệu thực nghiệm 3.2.1 Đặc trưng tài liệu thực nghiệm Trong nội dung luận văn, tác giả thực nghiệm liệu thu thập thơng tin từ giáo trình, tài liệu ngành Điện, giáo trình lưu có cấu trúc sử dụng chuẩn định dạng XML (Extensible Markup Language) ngôn ngữ mức thấp nhất, dùng để định nghĩa miêu tả cấu trúc liệu [HPDN09] Giới thiệu tài liệu huấn luyện Mỗi giáo trình tổng hợp nội dung sau: tên, tóm tắt nội dung, mục lục, thông tin tác giả, nhà xuất bản, năm xuất Sử dụng font chữ Times New Roman, kích thước font 11.5 pt Ví dụ tài liệu Tu_Dong_Hoa_San_Xuat (Tự động hóa sản xuất) biểu diễn sau: Hình 3.1: Một giáo trình sau biểu diễn theo cấu trúc XML 21 3.2.2 Thu thập liệu Dữ liệu thử nghiệm văn tập hợp từ giáo trình ngành Điện tử biểu diễn dạng file XML, có tag mở tag đóng, tag người dùng tự định nghĩa Công việc thực hiện: Xây dựng lớp Xây dựng cấu trúc file xml Cấu trúc file xml: Hình 3.2: Cấu trúc tài liệu huấn luyện XML Bảng cho thấy việc tổ chức thành phần tài liệu huấn luyện có cấu trúc dễ dàng cho việc trích chọn thơng tin: Bảng 3.3: Tổ chức thành phần tài liệu XML Thành phần Định dạng XML Tóm tắt nội dung tài liệu Nội dung tóm Mục lục tài liệu Mục lục giáo trình/tài liệu Tên giáo trình/tài liệu Tên giáo trình/tài liệu Tên tác giả Tên tác giả Tên Nhà xuất Tên nhà xuất Năm xuất Năm xuất Tên lớp Tên nhãn lớp Sử dụng công cụ Notepad++2 xây dựng cấu trúc file xml soạn nội dung giáo trình/tài liệu gồm thông tin cấu trúc file xml mô tả http://www filehippo com/ 22 Lưu trữ file liệu vào lớp - Đặt tên file - Chọn nơi lưu tài liệu Hình 3.3: Minh họa cách đặt tên, lưu trữ tài liệu vào lớp Kiểm tra liệu: Để kiểm tra thể giáo trình/tài liệu web: liệu chuẩn theo định dạng xml trên, tác giả tiến hành cài đặt công cụ nhỏ để kiểm tra sử dụng Junit 4.03 Hình 3.4: Cơng cụ kiểm tra liệu học http://junit org 23 3.3 Thực nghiệm 3.3.1 Phát biểu toán Tác giả tiến hành xây dựng hệ thống phân lớp giáo trình/tài liệu ngành Điện tử Với liệu huấn luyện 120 giáo trình/tài liệu chuẩn bị theo bước thu thập liệu Từ liệu học, hệ thống đưa mơ hình phân lớp cho lớp có liệu huấn luyện Với đầu vào giáo trình/tài liệu ngành Điện tử, hệ thống cho nhãn lớp mà giáo trình/tài liệu cho liên quan tới giáo trình/tài liệu Như vậy: Đầu vào: Gồm liệu huấn luyện tài liệu cần phân lớp + Dữ liệu huấn luyện: lớp, giáo trình/tài liệu thuộc lớp + Văn cần phân lớp: văn thuộc lĩnh vực điện tử Đầu ra: Nhãn lớp có liên quan đến văn đầu vào Các pha chính: + Huấn luyện mơ hình + Phân lớp đa nhãn sử dụng mơ hình huấn luyện 3.3.2 Mơ hình đề xuất 1/ Mơ hình: Hình 3.5: Mơ hình hệ thống 2/ Pha 1: Huấn luyện mơ hình Các bước cần thực gồm bước: Bước 1: Tiền xử lý liệu Tách câu, tách từ, gán nhãn cho tài liệu để chọn lọc đặc trưng cho bước sau Ví dụ: 24 - Dữ liệu rước tiền xử lý: Hình 3.6: Một tài liệu trước tiền xử lý - Dữ liệu sau tiền xử lý: Hình 3.7: Một tài liệu sau tiền xử lý Bước 2: Lựa chọn đặc trưng lớp Tính trọng số cho đặc trưng tiềm lớp phương pháp Chi – square để lựa chọn đặc trưng tiềm tốt lớp Bước 3: Xây dựng vector đặc trưng, có bước nhỏ: Bước 3.1: Biểu diễn văn thành danh sách từ Bước 3.2 Xây dựng vector đặc trưng cho tài liệu Bước 4: Đưa liệu học vào hệ thống, đưa mơ hình phân lớp Kết sau bước mơ hình huấn luyện 3/ Pha 2: Phân lớp đa nhãn sử dụng mô hình huấn luyện Dữ liệu thực nghiệm liệu giáo trình/tài liệu thuộc lĩnh vực điện tử Kết sau pha danh sách nhãn mà tài liệu đầu vào thuộc 3.3.3 Mơ tả cài đặt chương trình Chương trình tổ chức theo kiến trúc Client – Server Theo đó, Server nhận yêu cầu phân lớp tài liệu từ Client trả cho Client nhãn mà tài liệu cho thuộc 25 Bảng 3.4: Các gói cài đặt phía Server nv.classify: thực huấn luyện, phân lớp đưa độ xác mơ hình nv feature: thực vector hóa liệu đầu vào nv.io: chứa đối tượng sử dụng hệ thống: NVDocument, NVFeatureVector … nv.io.json: thực lưu đọc từ điển đặc trưng nv.server: thực mở Server để nhận yêu cầu phân lớp từ Client nv.services: định nghĩa dịch vụ mà Server hỗ trợ cho Client như: Classify Service nv.util: chứa thư viện cho hỗ trợ cho bước xử lý như: đọc ghi file… Bảng 3.5: Các gói cài đặt phía Client nv.multicc.gui: chứa lớp đồ hoạ cho người dùng thao tác nv object: chứa đối tượng truyền thông tin Client – Server: NVClassificationResult… nv services: chứa dịch vụ hỗ trợ Server 3.3.4 Giới thiệu hệ thống Với thuật toán phương pháp phân lớp tài liệu mô tả luận văn tác giả tiến hành cài đặt hệ thống cho sản phẩm hệ thống phân lớp tài liệu NVClassification (Nạve Bayes Classification) Hệ thống có ba phần: Phần Client, phần Server phần giao tiếp Client Server sử dụng Thrift 0.84 http://thrift apache org/ 26 Client: tiến hành phát triển dựa ứng dụng RCP5 Ứng dụng chạy phía client, nhận đầu vào đoạn văn cần phân lớp Đầu danh sách nhãn phù hợp với văn đầu vào Hình 3.8: Giao diện ứng dụng Client Server: phát triển dựa ngôn ngữ Java, sử dụng môi trường phát triển Eclipse6 Server nhận yêu cầu từ Client để tiến hành phân lớp văn trả tập nhãn phù hợp với văn yêu cầu Hình 3.9: Khởi động Server để nhận yêu cầu phân lớp từ Client Ví dụ: Với liệu đầu vào giáo trình thuộc lớp điện tử viễn thơng Có mục lục sau: Bảng 3.6: Ví dụ tài liệu đầu vào Lời nói đầu Phần Giới thiệu khái quát máy vi tính thiết bị ngoại vi 1.1 Cấu trúc chung máy vi tính 1.2 Cấu trúc nên máy vi tính 1.2.1 Hoạt động PC 1.2.2 Bản mạch 1.2.3 Bản mạch ghép nối hình 1.2.4 Bản mạch điều khiển ổ đĩa ổ đĩa 1.2.5 Ghép nối song song nối tiếp 1.2.6 RAM CMOS đồng hồ đo thời gian thực 1.2.7 Bàn phím Phần Bản mạch (Main board) 2.1 Hộ 80x86 vi xử lý 8086 2.1.1 Cấu trúc chung 2.1.2 Các ghi 2.1.4 Truy nhập vật lý nhớ thiết bị ngoại vi 2.1.5 Các chíp bổ trợ 2.1.6 Cấu trúc máy PC/XT 2.2 Vi xử lý 80286 2.2.1 Cấu trúc chung http://www eclipse org/rcp/ http://www eclipse org/ 27 2.2.2 Chân tín hiệu Vector hố tài liệu đầu vào ta thu kết sau: Bảng 3.7: Vector tài liệu đầu vào (6,0 5340824859302579) 059188871390330654) (102, 5199979695992702) (127, 163323025660538) (206, 6326947745983675) (245, 5199979695992702) (321, 9810014688665833) (500, 367295829986474) (645, 5199979695992702) (786, 465908118654584) (38, 9105600571651701) (39, 9395475940384223) (113, 659245628884264) (156, 615760516944525) (213, 9395475940384223) (260, 367295829986474) (343, 386466576974748) (596, 5199979695992702) (647, 856470206220483) (1453, 2 28 Kết phân lớp: Hình 3.10: Kết phân lớp 3.3.5 Thực nghiệm hệ thống Thực nghiệm thu thập liệu huấn luyện: Bảng 3.8: Thống kê liệu huấn luyện lớp TT Lớp Điện tử viễn thông Tự động hoá Kỹ thuật điện tử Điện tự động Điện tử dân dụng Điện tử công nghiệp Tổng số tài liệu 20 20 20 20 20 20 Thực nghiệm bước tiền xử lý liệu: Bước 1: Xây dựng lớp (trong luận văn có lớp trình bày trên), xác định số giáo trình/tài liệu mà lớp chứa (trong luận văn này, tác giả chọn 20 giáo trình/tài liệu ngành Điện tử cho lớp) Bước 2: Mơ hình hóa giáo trình/tài liệu theo cấu trúc file XML Bước 3: Lưu file XML vào lớp xây Thực nghiệm bước phân lớp liệu: Với tổng số tài liệu học tài liệu kiểm tra theo tỷ lệ 50:50; tài liệu học có 60 tài liệu, tài liệu kiểm tra có 60 tài liệu Hệ thống tiến hành phân lớp đưa kết quả: kết phân lớp với tài liệu thể bảng sau: 29 Bảng 3.9: Kết phân lớp hệ thống với tài liệu TT Nhãn ban đầu Tên tài liệu Cau_Truc_May_Vi_Tinh xml Vo_Tuyen_Dien_Tu xml Ky_Thuat_Do xml Dan_Duong_Ve_Tinh xml Ky_Thuat_Nhiet_Dien xml Nhãn gán hệ thống [DTCN, DTD, DTVT, TDH] [DTCN, DTD, TDH, DTVT] [TDH, DTVT] [DTCN, KTDT, TDH] [DTD, KTDT, DTCN, DTDD] [DTCN, TDH, DTVT] [DTVT, KTDT, DTD] [DTCN, KTDT, DTVT] [KTDT, DTCN, DTD] [DTCN, DTD] 3.3.6 Đánh giá kết thực nghiệm Luận văn tiến hành đánh giá hệ thống với tỷ lệ liệu đào tạo/kiểm tra 50:50 Luận văn sử dụng độ đo khác để đánh giá, là: Accuracy, Precision, Recall, F1: Pr TPi (26) TPi TNi i Độ hồi tưởng Rei lớp Ci tỷ lệ số ví dụ dương thuật tốn phân lớp cho giá trị tổng số ví dụ dương thực thuộc lớp Ci : Re i TPi (27) TPi FPi Tác giả sử dụng độ đo độ xác hệ thống với D số nhãn lớp là: Accuracy: Độ xác tổng thể [ZPH09]: TPi FPi i FPi FN i D D Ac ( D) TP TN i 1 i (28) Precision: Độ xác cho biết kết phân tích có độ lặp lại cao hay không: TP Pr(D) TP TN (29) D D i i 1 Recall: Re( D) i D i D TPi i 1 i TP FP (30) i F1: Được tính trung bình nhãn sau tính trung bình tất nhãn [ZPH09]: |L| p j r j | F1 (31) | L | j 1 p r j j Kết đánh giá hệ thống: Sử dụng tỷ lệ 50:50 trên, hệ thống cho kết phân lớp sau: Bảng 3.10: Kết phân loại hệ thống với CC Class KTDT TDH DTCN DTD DTDD DTVT Precision 0.64706 0.63333 0.88372 0.84375 0.66667 0.66667 Recall 0.73333 0.65517 0.90476 0.72973 0.66667 0.64 F1 0.6875 0.64407 0.89412 0.78261 0.66667 0.65306 Accuracy 0.53097 Bảng 3.11: Kết phân loại hệ thống với ECC Class Accuracy KTDT TDH DTCN 0.75247 DTDD DTVT 30 Kết luận định hướng phát triển Kết đạt luận văn: Luận văn trình bày khái quát hệ thống phân lớp đa nhãn, đặc trưng tiếp cận phân lớp đa nhãn Khảo sát nhóm thuật tốn phân lớp đa nhãn Bayes bao gồm thuật toán chuỗi phân lớp đa nhãn (Classifier Chains – CC) gồm hai thành phần Training Classify; thuật toán chuỗi phân lớp đa nhãn cải tiến (Ensemble Classifier Chain – ECC) thuật toán phân lớp đa nhãn trực tuyến (Bayesian online Learning for Multi – label classification framework – BOMC) Luận văn xây dựng phần mềm thi hành thử nghiệm thuật toán chuỗi phân lớp đa nhãn cải tiến ECC cho miền lĩnh vực tài liệu điện tử Thực nghiệm đánh giá kết thực nghiệm cho sản phẩm hệ thống phân lớp đa nhãn tài liệu NVClassification (Naïve Bayes Classification) Định hướng phát triển: Nghiên cứu, triển khai giải pháp nâng cao hiệu hệ thống phần mềm xây dựng: đưa thêm số pha xử lý để hệ thống nhập liệu đầu vào dạng ngôn ngữ tự nhiên cấu trúc văn khác nhau, kể liệu vào đường link Internet, tăng số lượng lớp tài liệu huấn luyện ... THỊ CHĂM MỘT LỚP THUẬT TỐN BAYES PHÂN LỚP ĐA NHÃN VÀ ÁP DỤNG VÀO PHÂN LỚP VĂN BẢN ĐA NHÃN LĨNH VỰC ĐIỆN TỬ Ngành: Công nghệ Thông tin Chuyên ngành: Hệ thống Thông tin Mã số: 60 48 05 LUẬN VĂN THẠC... pháp phân lớp đa nhãn tiếp tục đề xuất, chẳng hạn [DCH10, PC10, RD10, ZGH10, ZPH09] Một lớp thuật toán phân lớp đa nhãn điển hình thuật tốn phân lớp đa nhãn Bayes Một số giải pháp phân lớp Bayes. .. CHƢƠNG THUẬT TOÁN PHÂN LỚP ĐA NHÃN BAYES 23 2.1 Phân lớp Bayes 23 2.2 Giới thiệu chung phân lớp đa nhãn Bayes 25 2.3 Phân lớp đa nhãn Bayes dựa chuỗi phân lớp 27 2.4 Phân