Phân loại tin tức Tiếng Việt dựa trên mô hình tập thô dung sai

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	5
Dung lượng	138,06 KB

Nội dung

Trong báo cáo này, chúng tôi đề xuất một phương pháp phân loại văn bản một cách tự động hoạt động tốt trên các văn bản tiếng Việt có thể áp dụng vào xây dựng các hệ thống tồng hợp tin tức tiếng Việt. Phương pháp của chúng tôi sử dụng các thuật toán tách từ tiếng Việt để biểu diễn văn bản và áp dụng mô hình tập thô dung sai vào thuật toán phân loại văn bản Centroid – based để nâng cao chất lượng phân loại.

PHÂN LOẠI TIN TỨC TIẾNG VIỆT DỰA TRÊN MƠ HÌNH TẬP THÔ DUNG SAI Trần Ngọc Hà Trường ðại học Sư phạm – ðH Thái Nguyên TÓM TẮT Những năm gần ñây ñã thấy gia tăng nhanh chóng số lượng văn Internet Phân loại văn tự ñộng nhiệm vụ quan trọng giúp cho việc tổ chức tìm kiếm thơng tin nguồn tài ngun thơng tin khổng lồ Các phương pháp phân loại văn gặp phải thách thức số lượng tài liệu huấn luyện liệu cần gán nhãn lớn Tiếng Việt có đặc thù riêng, nên việc phân loại văn tiếng Việt cịn gặp khó khăn khác phải tách từ xác biểu diễn tài liệu Trong báo cáo này, chúng tơi đề xuất phương pháp phân loại văn cách tự ñộng hoạt ñộng tốt văn tiếng Việt áp dụng vào xây dựng hệ thống tồng hợp tin tức tiếng Việt Phương pháp chúng tơi sử dụng thuật tốn tách từ tiếng Việt để biểu diễn văn áp dụng mơ hình tập thơ dung sai vào thuật tốn phân loại văn Centroid – based ñể nâng cao chất lượng phân loại Từ khóa: phân loại văn bản, tập thơ dung sai, trọng tâm, ñồng xuất hiện, thu thập tin tức GIỚI THIỆU Báo ñiện tử tổng hợp dạng website tin tức mà nguồn tin ñược tổng hợp tự ñộng từ báo ñiện tử khác Báo ñiện tử tổng hợp giúp cho người đọc theo dõi thơng tin cách đầy đủ mà khơng cần phải ghé thăm trang báo điện tử khác, giúp người ñọc tiết kiệm ñược thời gian khơng phải đọc tin trùng lặp ñăng tải báo ñiện tử khác Mỗi trang báo điện tử tổng hợp có chức năng, cách thể khác ñối với người ñọc Tuy nhiên ứng dụng ñọc báo tổng hợp có thành phần sau: - Trình thu thập tin tức: thành phần có nhiệm vụ thu thập tin từ trang báo ñiện tử khác cách tự ñộng - Lưu trữ tài liệu: Các ứng dụng tổng hợp tin tức thường lưu trữ tiêu ñề, URL, ảnh ñại diện phần tóm tắt viết gốc Một số trang báo điện tử tổng hợp cịn lưu nội dung viết - Bộ phân loại tin tức: ðây phận quan trọng, có chức tự động phân loại tin theo chủ ñề hệ thống - Giao diện sử dụng: thành phần tương tác trực tiếp hệ thống với người sử dụng Khi xây dựng hệ thống, khó khăn lớn xây dựng chức phân loại tin tức tự ñộng, ñặc biệt ñối với tin tức tiếng Việt Phân loại tin tức tiếng Việt gặp phải số khó khăn sau: - Chủ ñề tin tức báo ñiện tử không ñồng - Ngôn ngữ tiếng Việt có đặc thù riêng địi hỏi phải có phương pháp xử lý riêng ñể ñảm bảo việc phân loại tin tức xác mềm dẻo - Tin tức tổng hợp phải ln mới, việc thu thập phân loại tin tức phải thực nhanh để đảm bảo tin tức ln ñối với người ñọc ðể giải ñược khó khăn trên, báo cáo áp dụng mơ hình tập thơ dung sai làm tăng chất lượng biểu diễn tài liệu, từ giúp phát mối quan hệ mặt ngữ nghĩa tiềm ẩn tài liệu giúp phân loại xác Các thuật tốn tách từ tiếng Việt áp dụng để ñảm bảo việc tách từ xác BÀI TỐN PHÂN LOẠI TIN TỨC VÀ MƠ HÌNH TẬP THƠ DUNG SAI Phân loại văn tự ñộng việc gán nhãn phân loại lên văn dựa mức độ tương tự văn so với văn ñã ñược gán nhãn tập huấn luyện Một số phương pháp phân loại văn thông dụng là: Support Vector Machine, KNN, Linear Least Squares Fit, Neural Network, Naïve Bayes, Centroidbased, [7] Các phương pháp áp dụng phân loại văn tự ñộng tiếng Anh ñã ñạt ñược kết đáng khích lệ Tuy nhiên áp dụng vào văn tiếng Việt gặp phải hạn chế ñặc thù tiếng Việt ðơn vị nhỏ tiếng Việt “tiếng” mà từ tiếng Anh nên việc tách văn thành từ địi hỏi thuật tốn hoạt động hiệu Ngồi phương pháp ñánh giá phụ thuộc văn vào chủ đề thơng qua cách biểu diễn văn dạng vector túy không thấy ñược mối quan hệ mặt ngữ nghĩa tài liệu với tài liệu với chủ đề 2.1 Thuật tốn phân loại Centroid – based [4] Có nhiều thuật tốn phân loại văn khác nhau, nhiên phương pháp phân loại tin tức mà chúng tơi đề xuất dựa phương pháp phân loại Centroid – based Centroid – based phương pháp phân loại đơn giản, dễ cài đặt có ñộ phức tạp tuyến tính O(n) Ý tưởng phương pháp phân loại là: Mỗi lớp liệu huấn luyện ñược biểu diễn vector trọng tâm Việc xác ñịnh lớp tài liệu thử thơng qua việc tìm vector trọng tâm gần với vector biểu diễn tài liệu thử Lớp văn thử lớp mà vector trọng tâm ñại diện ðộ tương tự tài liệu tài liệu với trọng tâm lớp tính theo độ đo cosin Cơng thức tính vector trọng tâm lớp thứ i là: Ci = {i} ∑d i (1) d j ∈{i} Công thức tính độ tương tự vector tài liệu với vector trọng tâm Ci là: cos( x, Ci ) = x.Ci x Ci (2) 2.2 Mơ hình tập thô dung sai (Tolerance Rough Set Model - TRSM) Lý thuyết tập thơ lần đề xuất Z Pawlak vào đầu năm 1980 nhanh chóng ñược xem công cụ xử lý thông tin mơ hồ không chắn việc phân tích phân lớp liệu [6] Mơ hình tập thơ dựa quan hệ tương đương ln giả sử tập T từ mục chia thành lớp tương ñương tách rời dựa quan hệ tương ñương Tuy nhiên vấn ñề xử lý ngơn ngữ tự nhiên tìm kiếm thơng tin, người ta nhận thấy ba tính chất quan hệ tương đương quan hệ bắc cầu khơng thực phù hợp với từ có lớp từ có nghĩa tương tự Các lớp khơng rời rạc (lớp tương đương) mà chúng phủ nhau, nghĩa từ khơng có tính chất bắc cầu Vì mơ hình tập thơ dung sai ñược giới thiệu ñể khắc phục hạn chế nêu Quan hệ dung sai (tolerance relations) quan hệ thỏa mãn hai tính chất tính chất phản xạ tính chất đối xứng Các lớp phủ sinh quan hệ dung sai Mơ hình xấp xỉ chung sử dụng quan hệ dung sai giới thiệu khơng gian chung gọi khơng gian dung sai (tolerance spaces) có chứa lớp phủ ñối tượng vũ trụ (các lớp dung sai) Không gian dung sai ñược ñịnh nghĩa gồm thành phần ℜ= (U,I,v,p) ñó U tập vũ trụ ñối tượng, I:U→2U hàm không chắn, v: 2U x 2U → [0,1] hàm tính độ mập mờ, P: I(U) → {0;1} hàm cấu trúc (chi tiết xem [2]) THUẬT TOÁN PHÂN LOẠI TIN TỨC DỰA TRÊN TRSM Trước trình bày thuật tốn, chúng tơi giới thiệu tóm tắt khơng gian dung sai (chi tiết xem [2],[5]) 3.1 Không gian dung sai Giả sử D = {d1, d2, …, dn} tập tài liệu T={t1, t2,…,tm} tập từ mục tập tài liệu D Trong TRSM, không gian dung sai ñược ký hiệu qua vũ trụ tất từ mục U = T = {t1 , t2 , , tM } (3) ðể xác ñịnh ñược mối quan hệ từ mục lớp, quan hệ dung sai R ñược xác ñịnh xuất ñồng thời từ tất tài liệu từ tập D Quan hệ ñồng xuất từ mục giúp xác ñịnh mối quan hệ ngữ nghĩa làm sáng tỏ ý nghĩa thực từ ngữ cảnh tài liệu việc tính tốn trở lên ñơn giản hiệu Giả sử fD(ti, tj) số lượng tài liệu D xuất hai từ ti tj Hàm không chắn I phụ thuộc vào ngưỡng θ ñược ñịnh nghĩa là: Iθ (ti ) = {tj | fD (ti, tj ) ≥ θ} ∪ {ti } (4) Rõ ràng hàm thỏa mãn tính chất đối xứng bắc cầu với ti tj ∈ T Vì quan hệ dung sai I ⊆TxT định nghĩa qua hàm I: ti I tj ⇔ tj ∈ Iθ(ti ) (5) Trong Iθ (ti ) lớp dung sai từ mục tj ðể ñánh giá mức ñộ bao hàm tập tập khác, hàm bao phủ khơng chắn định nghĩa là: v( X , Y ) = X ∩Y X (6) Hàm tính độ phụ thuộc từ khố ti∈T, X ⊆ T: µ (ti , X ) = ν ( Iθ (ti ), X ) = I θ ( ti ) ∩ X Iθ (ti ) (7) Từ giả sử ta coi tất lớp dung sai ti tập có cấu trúc, nghĩa P(Iθ(ti)) =1 với ∀ ti ∈ T Các xấp xỉ tập X ⊆ T khơng gian ℜ vừa xác định được: LR (X) = {ti ∈ T : v(Iθ(ti),X) = 1} (8) UR (X) = {ti ∈ T: v(Iθ(ti),X) > 0} (9) Trong mơ hình khơng gian vector chuẩn, tài liệu xem nhóm từ, từ xuất tài liệu ñược gán giá trị trọng số khác vector biểu diễn tài liệu Với TRSM, ñể tăng chất lượng biểu diễn tài liệu, ta không sử dụng từ xuất trực tiếp tài liệu mà cịn từ có liên quan mặt ý nghĩa với từ Một cách biểu diễn tài liệu chất lượng coi biểu diễn tài liệu tập lớp dung sai từ mà chứa Ta đơn giản hóa việc biểu diễn tài liệu với xấp xỉ Giả sử di = {ti1, ti2,…,tik } tài liệu D ti1, ti2,…,tik từ mục di: U R (di ) = {ti ∈ T | v ( Iθ (ti ), di ) > 0} (10) Lược ñồ TF*IDF ñược sử dụng ñể gán trọng số cho vector tài liệu ðể khai thác xấp xỉ tài liệu, lược ñồ ñược mở rộng ñể giải trường hợp từ có xấp xỉ tài liệu khơng xuất tài liệu (hoặc từ xuất tài liệu lại không nằm xấp xỉ tài liệu)[5] 3.2 Thuật toán phân loại tin tức dựa TRSM Thuật tốn phân loại mà chúng tơi đề xuất dựa thuật tốn phân loại Centroid based Như giới thiệu, thuật tốn Centroid – based có độ phức tạp tuyến tính, phù hợp với việc phân loại tin tức cách trực tuyến Việc sử dụng khơng gian dung sai xấp xỉ để tăng mối quan hệ tài liệu tài liệu với nhóm chủ đề cho phép thuật tốn phát tương tự khó phát mà thuật tốn khác khơng làm Thuật tốn mà giới thiệu gồm bước bước ñây: Tiền xử lý Tiền xử lý liệu văn trước đưa vào thuật tốn phân cụm cần thiết làm tăng hiệu xuất thuật toán ðầu tiên ta loại bỏ khỏi kết tìm kiếm ký tự khơng phải chữ (ví dụ: $,@,…), thẻ HTML mã ký tự ñặc biệt &, ",…Sau bước ta sử dụng thuật toán tách từ tiếng Việt ñể tách tài liệu thu ñược thành từ có nghĩa Bước loại bỏ từ dừng Xây dựng ma trận từ - tài liệu Thuật tốn TRSM sử dụng mơ hình khơng gian vector để xây dựng ma trận từ tài liệu biểu diễn tài liệu Bảng ñồng xuất ñược xây dựng sau tập tài liệu qua pha tiền xử lí trích chọn theo quy luật sau: - Bỏ qua số, từ có hai kí tự - Sử dụng lọc ñể loại bỏ từ có tần xuất thấp (nhỏ ngưỡng cho trước) từ làm tăng số đặc tính tài liệu Sau trích chọn ta xây dựng ma trận từ - tài liệu theo lược ñồ trọng số TF*IDF [5] Tạo lớp dung sai [3] Mục đích việc tạo lớp dung sai để xác định tập từ có liên quan ñến từ với quan hệ dung sai quan hệ đồng xuất hiện; tập hợp từ gọi lớp dung sai Ta ñịnh nghĩa ma trận ñồng xuất từ sau: TC = [tc x , y ]MxM Trong tcx,y tần số đồng xuất hai từ x,y-nghĩa số tài liệu có chứa đồng thời hai từ x y Quan hệ dung sai R từ ñược ñịnh nghĩa là: xRy⇔tcx,y > θ Trong θ gọi ngưỡng đồng xuất Chi tiết thuật tốn xem [7] Thuật tốn phân loại dựa TRSM Thuật tốn mà chúng tơi đề xuất cải tiến thuật toán Centroid – based dựa TRSM Thuật tốn mơ tả sau: Input: Tập liệu huấn luyện D, tập n chủ ñề, văn cần phân loại x Output: Lớp văn x Thuật toán: Foreach Ci (i=1,…, n) { Tính tốn độ tương tự xấp xỉ tài liệu với trọng tâm lớp liệu S(Ur(x), Ci) If (S(Ur(x), Ci) =max ({S(Ur(x), Ci)}) then{ Gán chủ ñề cho tài liệu x i; } } ðể giúp thuật toán thực nhanh áp dụng thực tế kết tính trọng tâm lớp tài liệu biểu diễn tài liệu ñược lưu trữ lại phục vụ cho lần tính tốn sau Sau tin tức ñược bổ sung vào chủ ñề trọng tâm lớp tin xác định lại Xấp xỉ tài liệu tính tốn quan hệ ñồng xuất từ biểu diễn tài liệu với từ nằm tập K tài liệu ñược lấy từ tập liệu huấn luyện chia ñều theo chủ ñề Việc áp dụng TRSM vào thuật tốn phân loại có ưu điểm là: Làm giảm hệ số có giá trị ta biểu diễn tài liệu từ liên quan đến lớp dung sai Có khả phát mối quan hệ tài liệu mà có từ chung (hoặc chí khơng có) với tập từ phổ biến với chủ ñề THỬ NGHIỆM ðể ñánh giá phương pháp phân loại văn ñã ñề xuất, chúng tơi cài đặt thử nghiệm hệ thống tổng hợp tin tức tiếng Việt ðể tạo tập liệu huấn luyện, sử dụng kỹ thuật Crawler theo chủ ñề ñể thu thập ñược 3000 báo tiếng Việt thuộc 26 chủ ñề mà trang tin tức tiếng Việt ñược nhiều người ñọc http://dantri.com.vn, http://vnexpress.net Khi biểu diễn văn dạng vector, sử dụng phương pháp Maximum Matching với từ ñiển tiếng Việt gồm 70591 từ, từ ñiển tên riêng gồm 26070 tên ñể tách từ, việc loại bỏ từ dừng sử dụng từ ñiển từ dừng tiếng Việt gồm 807 từ Vì mà phương pháp tách từ chúng tơi đạt ñộ xác cao Khi tiến hành thu thập tin tức từ nguồn tin mới, thuật toán phân loại mà chúng tơi đề xuất phân loại tốt tin tức vào chủ đề có sẵn hệ thống kể trường hợp tên chủ đề website khơng tương ñồng Việc bổ sung thêm nguồn tin việc gia tăng số lượng tin tổng hợp không làm ảnh hưởng đến tốc độ tổng hợp thơng tin Phương pháp phân loại mà chúng tơi đề xuất ñược áp dụng cho việc tổng hợp thông tin cho website: http://vhv.vn http://doctinnhanh.net KẾT LUẬN Với việc áp dụng TRSM vào thuật toán phân loại Centroid – based, báo cáo ñề xuất phương pháp phân loại tin tức tiếng Việt hiệu Việc áp dụng mơ hình tập thơ dung sai với quan hệ dung sai quan hệ ñồng xuất từ tài liệu ñã giúp phát mối quan hệ từ tập báo, từ làm tăng chất lượng việc phân loại Ngoài việc sử dụng phương pháp tách từ dành cho tiếng Việt giúp cho chất lượng phân loại ñược nâng cao so với phương pháp khác Việc lựa chọn phương pháp phân loại Centroid – based giúp cho việc cài ñặt ñơn giản, tốc ñộ xử lý nhanh phù hợp với việc phân loại tin tức điện tử có số lượng lớn địi hỏi tốc ñộ xử lý nhanh Tài liệu tham khảo S.Chakrabarti (2003), Mining the Web Morgan Kaufmann T B Ho and N B Nguyen (2002) Nonhierarchical document clustering based on a tolerance rough set model International Journal of Intelligent Systems, VOL 17, 199–212 (2002) Hu Guan, Jingyu Zhou, Minyi GuoA, Class-Feature-Centroid Classifier for Text Categorization, Madrid 2009 E.H Han and G Karypis Centroidbased document classification algorithms: Analy-sis & experimental results Technical Report TR-00-017, Department of Computer Science, University of Minnesota, Minneapolis, 2000 Trần Ngọc Hà (2010), Áp dụng lý thuyết tập thơ vào tìm kiếm web Master's thesis Z Pawlak (1991), Rough sets: Theoretical aspects of reasoning about data Kluwer Dordrecht Y Yang and X Liu A re-examination of text categorization methods In SIGIR-99, 1999 SUMARY VIETNAMESE NEWS CATEGORIZATION BASED ON TOLERANCE ROUGH SET MODEL Tran Ngoc Ha College of Education -TNU ABSTRACT In recent years we have seen a tremendous growth in the volume of text documents available on the Internet Automatic texts categorization is an important task that can help both in organizing as well as in finding information on these huge resources Present text categorization methods challenges due to the large number of data set and training samples Vietnamese has its own characteristics, so Vietnamese text classification facing other difficult that is have to have exactly words segmentation when we represent the document In this article we propose an automatically texts categorization method perform well on the Vietnamese text can be applied in building a Vietnamese newses colecting system Our method uses Vietnamese words segmentation algorithms in order to represent document and apply the tolerance rough set model to Centroid – based text categorization algorithm to improve the quality of categorization Keywords: Text categorization, tolerance rough set, centroid, co-occurrence, news crawler Liên hệ: Trần Ngọc Hà – Mobile: 0983.168400 - Email: hatn84@gmail.com ... TRSM vào thuật toán phân loại Centroid – based, báo cáo ñề xuất phương pháp phân loại tin tức tiếng Việt hiệu Việc áp dụng mơ hình tập thơ dung sai với quan hệ dung sai quan hệ ñồng xuất từ tài... chủ đề 2.1 Thuật tốn phân loại Centroid – based [4] Có nhiều thuật tốn phân loại văn khác nhau, nhiên phương pháp phân loại tin tức mà chúng tơi đề xuất dựa phương pháp phân loại Centroid – based... TOÁN PHÂN LOẠI TIN TỨC DỰA TRÊN TRSM Trước trình bày thuật tốn, chúng tơi giới thiệu tóm tắt khơng gian dung sai (chi tiết xem [2],[5]) 3.1 Không gian dung sai Giả sử D = {d1, d2, …, dn} tập tài

Ngày đăng: 12/05/2021, 23:34