Phân loại thông tin là một trong những giải pháp hợp lý cho yêu cầu trên. Nhưng một thực tế là khối lượng thông tin quá lớn, việc phân loại dữ liệu thủ công là điều không tưởng. Hướng giải quyết là một chương trình máy tính tự động phân loại các thông tin trên.
NGHIÊN CỨU LÝ THUYẾT NAIVE BAYES VÀ ỨNG DỤNG PHÂN LOẠI TÀI LIỆU TIẾNG VIỆT TRONG THƯ VIỆN SỐ Hoàng Anh Cơng* Tóm tắt: Hiện nay, khoa học cơng nghệ ngày phát triển Các hệ thống thư viện điện tử, thư viện trực tuyến ngày sử dụng rộng rãi, kèm theo vấn đề liên quan đến phân loại, tìm kiếm chia theo danh mục gợi ý nội dung đọc Ebook cho người dùng Với lượng thông tin đồ sộ, yêu cầu lớn đặt tổ chức tìm kiếm thơng tin có hiệu Phân loại thơng tin giải pháp hợp lý cho yêu cầu Nhưng thực tế khối lượng thông tin lớn, việc phân loại liệu thủ công điều không tưởng Hướng giải chương trình máy tính tự động phân loại thơng tin Từ khóa: Thư viện số; Phân loại tài liệu tiếng Việt; Thuật tốn Nạve Bayes; Lý thuyết Nạve Bayes ĐẶT VẤN ĐỀ Nghiên cứu lý thuyết Naive Bayes ứng dụng phân loại tài liệu tiếng Việt thư viện điện tử nhằm tìm hiểu thử nghiệm phương pháp phân loại tài liệu áp dụng tiếng Việt Phân loại văn (Text classification) công cụ khai phá liệu dạng văn cách hữu hiệu, làm nhiệm vụ đưa tài liệu có nội dung chủ đề giống lớp có sẵn Phân loại tài liệu giúp người dùng dễ dàng việc tìm kiếm thơng tin cần thiết đồng thời lưu trữ thông tin theo chủ đề (topic) hay lớp (class) dựa thuật toán phân loại * Thạc sĩ, Trường Đại học Văn hóa, Thể thao Du lịch Thanh Hóa 458 PHÁT TRIỂN MƠ HÌNH TRUNG TÂM TRI THỨC SỐ CHO CÁC THƯ VIỆN VIỆT NAM Trong viết nhằm giải số vấn đề nâng cao hiệu hệ thống phân loại tài liệu tiếng Việt tự động: - Phương pháp phân loại tài liệu tiếng Việt tự động có kết hợp với giảm chiều nhằm giảm độ phức tạp tính tốn, đồng thời tăng độ xác phương pháp đề xuất - Có ý nghĩa thực tiễn cao sống, hệ thống thực nghiệm xây dựng dựa phương pháp đề xuất mang lại tính ứng dụng hỗ trợ ngày tốt cho người dùng Internet PHÂN LOẠI TÀI LIỆU TIẾNG VIỆT DỰA TRÊN PHƯƠNG PHÁP NAIVE BAYES 2.1 Lý thuyết Naive Bayes Trong học máy, phân loại Naive Bayes thành viên nhóm phân loại có xác suất dựa việc áp dụng định lý Bayes khai thác mạnh giả định độc lập hàm, hay đặc trưng Mơ hình Naive Bayes biết đến với nhiều tên khác ví dụ: Simple Bayes hay independence Bayes hay phân loại Bayes Phân loại Naive Bayes đánh giá cao khả mở rộng, địi hỏi số thơng số tuyến tính số lượng biến (các tính năng/ tố dự báo) nhiều lĩnh vực khác Khái niệm Một phân loại Naive Bayes dựa ý tưởng lớp dự đoán giá trị đặc trưng cho thành viên lớp Các đối tượng nhóm (group) lớp chúng có đặc trưng chung Có thể có nhiều lớp rời rạc lớp nhị phân Các luật Bayes dựa xác suất để dự đoán chúng lớp có sẵn dựa đặc trưng trích rút Trong phân loại Bayes, việc học coi xây dựng mơ hình xác suất đặc trưng sử dụng mơ hình để dự đốn phân loại cho ví dụ Biến chưa biết hay gọi biến ẩn biến xác suất chưa quan sát trước Phân loại Bayes sử dụng mơ hình xác suất phân loại biến ẩn có liên quan tới biến NGHIÊN CỨU LÝ THUYẾT NAIVE BAYES VÀ ỨNG DỤNG PHÂN LOẠI TÀI LIỆU TIẾNG VIỆT TRONG THƯ VIỆN SỐ quan sát Quá trình phân loại lúc trở thành suy diễn mơ hình xác suất Trường hợp đơn giản phân loại Naive Bayes tạo giả thiết độc lập đặc trưng đầu vào độc lập có điều kiện với lớp cho Sự độc lập phân loại Naive Bayes thể mơ hình mạng tin cậy (belief network) trường hợp đặc biệt, phân loại dựa nút cha đặc trưng đầu vào Mạng tin cậy đề cập tới xác suất phân tán P(Y) đặc trưng đích Y P(Xi|Y) đặc trưng đầu vào Xi Với đối tượng, dự đốn cách tính tốn dựa xác suất điều kiện đặc trưng quan sát cho đặc trưng đầu vào Định lý Bayes: Giả sử A B hai kiện xảy Xác suất có điều kiện A biết trước điều kiện B cho bởi: P(A|B) = P(B|A).P(A)/P(B) - P(A): Xác suất kiện A xảy - P(B): Xác suất kiện B xảy - P(B|A): Xác suất (có điều kiện) kiện B xảy ra, biết kiện A xảy - P(A|B): Xác suất (có điều kiện) kiện A xảy ra, biết kiện B xảy Mơ hình xác suất Một cách trừu tượng, mơ hình xác suất cho phân loại mơ hình điều kiện ρ(C|F1, , Fn) Trên lớp biến C với số lượng nhỏ đầu lớp Điều kiện vài biến đặc trưng F1 đến F2 Vấn đề toán số đặc trưng n lớp đặc trưng có số lượng lớn giá trị, mơ hình tạo dựa bảng xác suất phù hợp điều kiện Lý thuyết Bayes viết thành: t (C F1, , Fn = t (C) t ( F1, , Fn C) t (F1, , Fn C) 459 460 PHÁT TRIỂN MƠ HÌNH TRUNG TÂM TRI THỨC SỐ CHO CÁC THƯ VIỆN VIỆT NAM Một cách mô tả đơn giản cho công thức sau: nghiệm trước × khả Hậu nghiệm = Bằng chứng Trên thực tế, cần quan tâm tới số phân mảnh (fraction), có số đặc trưng khơng phụ thuộc vào C giá trị Fi cho, mơ hình ρ(C|F1, , Fn) viết lại sau, sử dụng luật xích để lặp lại định nghĩa xác suất điều kiện: ρ(C,F1, , Fn) = ρ(C) ρ(F1, , Fn|C) = ρ(C) ρ(F1|C) ρ(F2, , Fn|C, F1) = ρ(C) ρ(F1|C) ρ(F2|C, F1) ρ(F3, , Fn|C, F1,F2) = ρ(C) ρ(F1|C) ρ(F2|C, F1) …ρ(Fn|C, F1,F2, F3, … Fn-1) Giả thiết xác suất điều kiện: giả thiết đặc trưng Fi độc lập có điều kiện với đặc trưng khắc Fj với j ≠ i, lớp cho C Điều có nghĩa rằng: ρ(Fi|C, Fj) = ρ(Fi|C), ρ(Fi|C, Fj, Fk) = ρ(Fi|C), ρ(Fi|C, Fj, Fk, Fl) = ρ(Fi|C), Với trường hợp i≠ j, k, l Từ đó, mơ hình kết hợp biểu diễn ρ(C| F1, , Fn) α ρ(C, F1, , Fn) α ρ(C) ρ(F1|C) ρ(F2|C) ρ(F3|C)… at (C) % i = t ( F2 C) n Có nghĩa giả thiết độc lập trên, phân tán có điều kiện lớp biến C là: ρ(C|F1, , Fn) = t (C) % i = t ( Fi C) n Với Z = ρ(F1, , Fn) gọi nhân tố độc lập F1, , Fn giá trị biến đặc trưng biết Xây dựng phân lớp từ mơ hình xác suất NGHIÊN CỨU LÝ THUYẾT NAIVE BAYES VÀ ỨNG DỤNG PHÂN LOẠI TÀI LIỆU TIẾNG VIỆT TRONG THƯ VIỆN SỐ Phân lớp Bayes kết hợp với luật định tạo phân loại Naive Bayes Một luật thông thường đưa giả thuyết khả hay cịn xem cực đại hóa xác suất hậu nghiệm (maximum a posteriori) Bộ phân loại Bayes hàm phân loại định nghĩa: classify (f1, , fn) = argmax p (C = c) & i = p (Fi = fi (C = c) n 2.2 Bộ phân loại Naive Bayes Naive Bayes phương pháp phân loại dựa vào xác suất sử dụng rộng rãi lĩnh vực máy học nhiều lĩnh vực khác cơng cụ tìm kiếm, lọc mail Mục đích tính xác suất Pr(Cj, d’), xác suất để tài liệu d’nằm lớp Cj Theo luật Bayes, tài liệu d’ gán vào lớp Cj có xác suất Pr(Cj, d’) cao Cơng thức để tính Pr(Cj, d’) sau: V RS d' SS Pr (C j) # & Pr (wi C j) WWW S WW i=1 HBAYES(d ) = argmax SS WW d' SS # w / & Pr ( i C' WWW SS Pr (c') c' ! c i=1 c dC - TF(w , d’) số lầnTxuất từ w trongX tài liệu d’ ' j i i - |d’| số lượng từ tài liệu d’ - wi từ không gian đặc trưng F với số chiều |F| - Pr(Cj) tính dựa tỷ lệ phần trăm số tài liệu lớp tương ứng CJ CJ = Pr (C j) = C / C' C' d C tập liệu huấn luyện Pr (wi C j) = + TF (wi, c j) F + / TF (w', c j) W' d F Ngoài cịn có phương pháp NB khác kể ML Naive Bayes, MAP Naive Bayes, Expected Naive Bayes Nói chung, Nạve Bayes cơng cụ hiệu số trường hợp 461 462 PHÁT TRIỂN MƠ HÌNH TRUNG TÂM TRI THỨC SỐ CHO CÁC THƯ VIỆN VIỆT NAM Thuật toán Naive Bayes dựa nguyên lý Bayes phát biểu sau: P (Y/X) = P (XY) P (X/Y) P (Y) = P (X ) P (X ) Áp dụng toán phân loại, kiện gồm có: - D: tập liệu huấn luyện vector dạng x = (x1, x2, , xn) - Ci: phân lớp im với i = {1, 2, , m} - Các thuộc tính độc lập điều kiện đôi với Theo định lý Bayes: P (Ci X) = P ( X Ci) P (Ci) P (X ) Theo tính chất độc lập điều kiện: P ( X Ci) = % k = P (xk Ci n Trong đó: - P(Ci|X): xác suất thuộc phân lớp i biết trước mẫu X - P(Ci): Xác suất phân lớp i - P(xk|Ci): Xác suất thuộc tính thứ k mang giá trị xk biết X thuộc phân lớp i Các bước thực thuật toán Naive Bayes Bước 1: Huấn luyện Naive Bayes (dựa vào tập liệu), tính P(Ci) P(xk|Ci) Bước 2: Phân lớp X new = (x1, x2, , xn) , ta cần tính xác suất thuộc phân lớp biết trước Xnew.Xnewđược gán vào lớp có xác suất lớn theo công thức max (P (Ci) % k = P (xk Ci)) n Ci d C Mơ hình tổng qt việc phân loại: NGHIÊN CỨU LÝ THUYẾT NAIVE BAYES VÀ ỨNG DỤNG PHÂN LOẠI TÀI LIỆU TIẾNG VIỆT TRONG THƯ VIỆN SỐ Huấn luyện Nhãn Tập văn Trích chọn đặc trưng Văn Trích chọn đặc trưng Thuật toán học Bộ phân loại Nhãn Phân loại Hình Mơ tả bước xây dựng phân lớp 2.3 Phân loại tài liệu tiếng Việt 2.3.1 Ứng dụng Naive Bayes phân loại tài liệu tiếng Việt Đặc điểm Trong tất ngôn ngữ, người ta thường phân chia dòng ngữ lưu thành âm tiết Âm tiết đơn vị phát âm tối thiểu lời nói Nghiên cứu âm tiết tức nghiên cứu tổ hợp âm vị (phômen) dịng lưu ngữ, ví dụ thực từ Một điểm âm tiết tiếng Việt ranh giới âm tiết tiếng Việt trùng với ranh giới hình vị (moocphem), tức âm tiết đóng vai trị dấu hiệu hình vị (moocphem), đơn vị có nghĩa dùng làm thành tố cấu tạo từ Lời nói của người là một chuỗi âm được phát kế tiếp không gian và thời gian Việc phân tích chuỗi âm ấy người ta nhận được các đơn vị của ngữ âm Đặc điểm thứ hai âm tiết tiếng Việt âm tiết tiếng Việt gắn liền với sáu điệu (không, huyền, ngã, hỏi, sắc, nặng) tiếng Việt loại ngơn ngữ có điệu khác với ngơn ngữ khác Thanh điệu tham gia vào việc cấu tạo từ, làm chức phân biệt ý nghĩa từ làm dấu hiệu phân biệt từ Thanh điệu có chức âm vị, gắn liền với âm tiết biểu toàn âm tiết [2] 463 464 PHÁT TRIỂN MƠ HÌNH TRUNG TÂM TRI THỨC SỐ CHO CÁC THƯ VIỆN VIỆT NAM Do đặc điểm mà âm tiết có vị trí quan trọng việc nghiên cứu âm tiếng Việt Muốn xác định thành phần âm vị ngôn ngữ, người ta thường xuất phát từ việc xác định hình vị từ moocphem mà phân tích âm vị, hình vị tiếng Việt trùng hợp với âm tiết; xuất phát từ việc phân tích âm tiết để xác định âm vị Nếu ngôn ngữ Ấn – Âu, âm tiết vấn đề thuộc hàng thứ yếu so với âm vị hình vị tiếng Việt, âm tiết vấn đề hàng đầu âm vị học Cấu trúc âm tiết Mỗi âm tiết tiếng Việt là một khối hoàn chỉnh phát âm Trong ngữ cảm của người Việt, âm tiết được phát âm liền một hơi, không phải là một khối bất biến mà có cấu tạo lắp ghép Khối lắp ghép ấy có thể tháo rời từng bộ phận của âm tiết này để hoán vị với bộ phận tương ứng ở âm tiết khác Mỗi âm tiết tiếng Việt có phận: phụ âm đầu, vần điệu 2.3.2 Rút trích đặc trưng Giảm chiều đặc trưng Dữ liệu giới thực (real world data), chẳng hạn tín hiệu tiếng nói, ảnh kỹ thuật số, ảnh scan MRI, thường có số chiều đặc trưng lớn Để xử lý liệu cách đầy đủ, phức tạp tốn thời gian Do vậy, thực tế, ta giảm chiều đặc trưng xuống mức có thể, sau tính tốn số chiều đặc trưng giảm Lý tưởng nhất, cần biểu diễn chiều tương ứng với chiều nội liệu Chiều nội liệu số lượng đặc trưng tối thiểu để mơ tả thuộc tính liệu Giảm chiều trở thành toán ứng dụng nhiều lĩnh vực, toán phức tạp trở nên đơn giản dễ ứng dụng sống Trong máy học thống kê, giảm chiều giảm chiều trình làm giảm số lượng biến ngẫu nhiên xem xét, chia thành hai phần chính: lựa chọn đặc trưng (Feature selection) trích rút đặc trưng (Feature extraction) NGHIÊN CỨU LÝ THUYẾT NAIVE BAYES VÀ ỨNG DỤNG PHÂN LOẠI TÀI LIỆU TIẾNG VIỆT TRONG THƯ VIỆN SỐ - Lựa chọn đặc trưng: Là cách tìm tập hợp biến ban đầu (cịn gọi tính thuộc tính) Trong số trường hợp, phân tích liệu hồi quy phân loại thực khơng gian giảm chiều xác khơng gian ban đầu - Trích rút đặc trưng: Trích rút đặc trưng biến đổi liệu khơng gian có số chiều lớn (high dimensional space) tới khơng gian có số chiều Việc chuyển đổi liệu sử dụng phương pháp tuyến tính, phân tích thành phần (PCA), sử dụng kỹ thuật giảm chiều phi tuyến tính Đối với liệu đa chiều, biểu diễn tensor sử dụng thơng qua phương pháp học không gian đa tuyến (multilinear subspace) Đối với dạng liệu văn bản, số lượng đặc trưng trở nên hàng nghìn, hàng trăm nghìn đặc trưng Để xử lý đặc trưng này, thường nhiều thời gian việc trích rút đặc trưng, tính tốn đặc trưng Do khó khăn xây dựng thành hệ thống xử lý tài liệu ứng dụng thực tế Các phương pháp giảm chiều tài liệu nay: - Loại bỏ từ dừng (stop words) - Chỉ số ngữ nghĩa ẩn (Latent Semantic Indexing) - Sử dụng từ loại danh từ Giảm chiều đặc trưng mơ hình chủ đề Các tri thức số hóa lưu trữ trang tin tức, blog báo khoa học, trang Web mạng xã hội, q nhiều thơng tin lưu trữ, khó khăn để tìm kiếm tổ chức liệu, định nghĩa (define) liệu cụ thể Do vậy, cần cơng cụ tính tốn giúp tổ chức, tìm kiếm hiểu (understand) lượng lớn thông tin Giả sử gõ vào ô tìm kiếm từ khóa, kết trả tập hợp tài liệu liên quan thông tin tới từ khóa Trong học máy xử lý ngơn ngữ tự nhiên, mơ hình chủ đề loại mơ hình thống kê để phát “chủ đề” trừu tượng xảy sưu tập tài liệu Một số phương pháp xây dựng mơ hình 465 466 PHÁT TRIỂN MƠ HÌNH TRUNG TÂM TRI THỨC SỐ CHO CÁC THƯ VIỆN VIỆT NAM chủ đề như: Xây dựng mơ hình chủ đề dựa phân phối ẩn Dirichlet; Mơ hình dựa mạng Bayesian; Mơ hình chủ đề xây dựng dựa mơ hình Markov ẩn Xây dựng mơ hình chủ đề cho tiếng Việt Mơ hình chủ đề cho tiếng Việt chưa xây dựng, nghiên cứu cho tiếng Việt chủ yếu tập trung vào vấn đề tách từ (word segmentation), nhận dạng từ loại (Pos tagging), phân tích cú pháp (syntax analysic), Một số phương pháp xử lý văn có thường sử dụng công cụ tách từ để tách từ văn tính tốn trọng số từ Đối với tốn xử lý phân loại đối tượng, việc quan trọng xác định đặc trưng hầu hết toán này, số chiều đặc trưng lớn Bởi vậy, nghiên cứu trước gặp phải khó khăn sau: • Thời gian tính tốn lớn (do số chiều đặc trưng nhiều) • Độ xác hiệu hệ thống bị hạn chế Một khó khăn khác cách xử lý phân loại tự động văn tiếng Việt, độ khó xử lý ngôn ngữ, ngôn ngữ tiếng Việt thuộc lớp ngôn ngữ đơn lập (single syllable language), từ tiếng Việt từ đơn từ ghép, khó khăn việc tách từ Bởi thế, luận văn tiếp cận toán theo hai bước: xử lý giảm đặc trưng áp dụng lý thuyết Naive Bayes phân loại Xử lý giảm số chiều đặc trưng cách sử dụng mơ hình chủ đề, số lượng thuật ngữ văn giảm nhiều so với số từ văn bản, mặt khác giải tốn tách từ tiếng Việt nhờ làm tăng độ xác hệ thống, áp dụng lý thuyết Naive Bayes để phân loại văn theo chủ đề chọn [11] 2.3.3 Phân loại văn tiếng Việt dựa Naive Bayes Sau xây dựng tập từ chủ đề lớp chủ đề Tiếp theo sử dụng phân loại Naive Bayes để xây dựng mơ hình phân loại tự động NGHIÊN CỨU LÝ THUYẾT NAIVE BAYES VÀ ỨNG DỤNG PHÂN LOẠI TÀI LIỆU TIẾNG VIỆT TRONG THƯ VIỆN SỐ Sử dụng luật cực đại hóa hậu nghiệm (Maximum a posterioriMAP) có cơng thức sau: P (tk c) k cmap = arg max (P (c d)) = argmax a P (c) #% k#n cdC Trong đó: (1) d cdC - Tk: từ tài liệu; - C: chủ đề; - P(c|d): xác suất điều kiện lớp c với tài liệu cho d; - P(c): xác suất tiền nghiệm lớp c; - P(tk|c): xác suất điều kiện từ Tk với lớp c cho Sử dụng luật biến đổi Laplace cho công thức (1) chuyển thành P ( t c) = Tct + = ct' + 1) / (T t' d V Tct + / (T ) + B' (2) ct' t' d V Trong B’ tổng số tất từ chủ đề, Tct số lần xuất thuật ngữ t tài liệu huấn luyện thuộc lớp c KẾT LUẬN Với yêu cầu đặt việc nắm bắt thuật toán Naive Bayes để hiểu cách thức phân loại tài liệu tiếng Việt từ áp dụng vào phân loại tài liệu, báo thư viện điện tử hay lĩnh vực công nghệ thông tin theo chuyên ngành khác Phương pháp phân loại tài liệu thuật toán Naive Bayes thường dùng phân loại tài liệu tiếng Anh, áp dụng tiếng Việt Nhờ tính đơn giản, thơng số không cần lớn phương pháp khác, khả linh hoạt thay đổi thông tin huấn luyện, thời gian phân loại phù hợp yêu cầu, Naive Bayes tỏ phù hợp với yêu cầu đặt Bài viết trình bày kết nghiên cứu lý thuyết Naive Bayes quy trình phân loại tài liệu tiếng Việt, áp dụng thuật tốn Naive Bayes xử lí phân loại tài liệu tiếng Việt 467 468 PHÁT TRIỂN MƠ HÌNH TRUNG TÂM TRI THỨC SỐ CHO CÁC THƯ VIỆN VIỆT NAM TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt Nguyễn Linh Giang, Nguyễn Mạnh Hiển, Phân loại văn tiếng Việt với phân loại vectơ hỗ trợ SVM, 2002 Nguyễn Hữu Quỳnh, Ngữ pháp Tiếng Việt, NXB Từ điển Bách Khoa, 2001 Tài liệu tiếng Anh C Apte, F Damerau, S Weiss, Automated Learning of Decision Rules for Text Categorization,ACM Transactions on Information Systems, 12(3), pp 233–251, 1994 Novovicova J., Malik A., and Pudil P., “Feature Selection Using Improved Mutual Information for Text Classification”, SSPR&SPR 2004, LNCS 3138, pp 1010–1017, 2004 Aigars Mahinovs and Ashutosh Tiwari, Text Classification Method Review, Cranfield University, April 2007 http://vlsp.vietlp.org:8080/ ... suất NGHIÊN CỨU LÝ THUYẾT NAIVE BAYES VÀ ỨNG DỤNG PHÂN LOẠI TÀI LIỆU TIẾNG VIỆT TRONG THƯ VIỆN SỐ Phân lớp Bayes kết hợp với luật định tạo phân loại Naive Bayes Một luật thông thư? ??ng đưa giả thuyết. .. đề Tiếp theo sử dụng phân loại Naive Bayes để xây dựng mơ hình phân loại tự động NGHIÊN CỨU LÝ THUYẾT NAIVE BAYES VÀ ỨNG DỤNG PHÂN LOẠI TÀI LIỆU TIẾNG VIỆT TRONG THƯ VIỆN SỐ Sử dụng luật cực đại... loại Bayes sử dụng mơ hình xác suất phân loại biến ẩn có liên quan tới biến NGHIÊN CỨU LÝ THUYẾT NAIVE BAYES VÀ ỨNG DỤNG PHÂN LOẠI TÀI LIỆU TIẾNG VIỆT TRONG THƯ VIỆN SỐ quan sát Quá trình phân loại