TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG SỐ 7(80) 2014 129 PHƯƠNG PHÁP PHÂN CỤM TỪ TIẾNG VIỆT DỰA TRÊN PHƯƠNG PHÁP DENDROGRAMVÀ WIKIPEDIA VIETNAMESE WORDS CLUSTERING METHOD BASED ON DENDROGRAM AN[.]
TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ ĐẠI HỌC ĐÀ NẴNG - SỐ 7(80).2014 129 PHƯƠNG PHÁP PHÂN CỤM TỪ TIẾNG VIỆT DỰA TRÊN PHƯƠNG PHÁP DENDROGRAMVÀ WIKIPEDIA VIETNAMESE WORDS CLUSTERING METHOD BASED ON DENDROGRAM AND WIKIPEDIA Nguyễn Thị Lệ Quyên, Phạm Minh Tuấn Trường Đại học Bách khoa, Đại học Đà Nẵng; Email: quyen09t1@gmail.com, pmtuan@dut.udn.vn Tóm tắt - Ngày nay, với phát triển thông tin cách nhanh chóng, việc phân loại văn tự động vấn đề cấp thiết Nhiều phương pháp học máy định, mạng nơron nhân tạo hay máy vector hỗ trợ áp dụng cho tiếng Anh mang lại hiệu cao.Tuy nhiên phương pháp lại gặp khó khăn áp dụng cho phân loại tiếng Việt tiếng Việt có nhiều từ đồng nghĩa cách biễu diễn khác Báo cáo đề xuất phương pháp phân cụm từ tiếng Việt dựa vào tần số xuất trang Wikipedia tiếng Việt nhằm rút gọn vector thuộc tính văn Báo cáo đồng thời đề xuất sử dụng phương pháp phân tích nhóm (Cluster Analysis) sử dụng đồ thị dendrogram việc phân cụm từ Tiếng Việt Kết thực nghiệm cho thấy phương pháp đề xuất phân cụm từ đồng nghĩa từ có chung chủ đề Abstract - Nowadays, within the development of quick information technology, the automatic document classification is an urgent issue Many machine learning methods such as decision trees, artificial neural networks and support vector machines are applied to classify English documents and bring high efficiency However, these methods are difficult to apply to classify Vietnamese documents because Vietnamese has many synonyms but performing different ways This paper proposed a Vietnamese word clustering methods based on frequency appearing together on a Vietnamese Wikipedia page to shortened the length of feature vector of the document This paper also proposed methods using cluster analysis based on graph clustering dendrogram The experimental results show that the proposed method has the correct clustering of the synonyms and the words with a common theme Từ khóa - Văn tiếng Việt, Phân cụm từ, Phân tích nhóm, dendrogram, wikipedia Key words - Vietnamese documents; words clustering; cluster analysis; dendrogram; wikipedia Đặt vấn đề Ngày nay, việc trao đổi thông tin hầu hết dạng văn như: thời sự, tư liệu, tài liệu, kết nghiên cứu khoa học… Cùng với việc phát triển tri thức tồn cầu hóa internet, số lượng văn ngày gia tăng lan truyền rộng rãi cách nhanh chóng Tuy nhiên, q trình lan truyền cập nhật thơng tin cách nhanh chóng này, thông tin lưu trữ (dưới dạng tài liệu số) ngày tăng khó khăn việc xếp hay truy vấn tài liệu không phân loại cách hợp lý Phân loại văn vấn đề quan trọng lĩnh vực xử lý ngơn ngữ Nhiệm vụ tốn phân loại tài liệu vào nhóm chủ đề cho trước Đây toán thường gặp thực tế phân loại tài liệu theo chủ đề (pháp luật, trính trị, giáo dục, thể thao,…) khác Việc tìm kiếm thơng tin dễ dàng nhanh chóng văn phân loại Tuy nhiên trình phân loại tiêu tốn thiều thời gian chi phí làm cách thủ cơng Vì vậy, thực việc phân loại tự động văn số vấn đề cấp thiết Để giải vấn đề trên, có nhiều phương pháp học máy định [1], mạng nơron nhân tạo hay máy vector hỗ trợ áp dụng vào toán phân loại văn tự động [1][2][3][4][5] cách hiệu Các phương pháp phân loại thơng thường sử dụng mơ hình khơng gian vector (Vector space model - VSM) [2][6][7][8] nhằm trích chọn đặc tính cho văn huấn luyện văn cần phân loại Đặc trưng phương pháp tìm mối tương quan hai văn hay văn câu truy vấn dựa vector thuộc tính Ví dụ, thuộc tính vector tính tần số suất từ văn Phương pháp sử dụng hàm Cosine hay TF-IDF (term frequency – inverse document frequency) [1] số phương pháp VSM thông dụng kể tới Từ kết phương pháp VSM này, mơ hình xác suất xây dựng thơng qua học máy (Machine Learning) nhằm mục đích phân loại văn cách tự động Trong nghiên cứu này, tác giả trọng vào vấn đề trích chọn đặc tính phân loại văn tiếng Việt [2][3][9] Vấn đề đặt tiếng Việt có nhiều từ đồng nghĩa cách viết ký tự lại khác văn số Ví dụ như, nghĩa từ “khủng khiếp”, “kinh khủng” “kinh hoàng” tương đồng so sánh mặt ký tự khơng giống nhau, dẫn tới văn nghĩa khác cách viết có hệ số hàm tương quan thấp Ngồi ra, tiếng Việt có nhiều nhóm từ thường xuất kèm văn Ví dụ từ “nhồi máu” thường với từ “cơ tim” văn Đối với văn có nhóm từ dễ có hệ số tương quan cao loại, dẫn tới việc học phân loại văn không hiệu Để tránh tường hợp đa dạng cách biểu diễn từ đồng nghĩa hay tồn nhóm từ thường kèm văn bản, tác giả đề xuất phương pháp phân cụm từ tiếng Việt dựa vào tần số xuất cặp từ trang Wikipedia [10] tiếng Việt (số trang Wikipedia có chứa đồng thời hai từ) Các từ nằm cụm coi thuộc tính văn Nhờ có rút gọn vector thuộc tính văn so với cách thức sử dụng từ cho thuộc tính Báo cáo đồng thời đề xuất sử dụng phương pháp phân tích nhóm (Cluster Analysis) sử dụng đồ thị dendrogram [11][12] việc phân cụm từ tiếng Việt Các phương pháp phân cụm Có nhiều phương pháp phân cụm kể tới k-means hay Fuzzy c-means [13][14] Tuy nhiên, đầu Nguyễn Thị Lệ Quyên, Phạm Minh Tuấn 130 thuật toán phụ thuộc vào vector đầu vào đối tượng cần phân cụm Đối với toán phân cụm từ tiếng Việt, việc định nghĩa từ thành vector chưa nghiên cứu phổ biến, dẫn tới việc sử dụng k-means hay fuzzy c-means không hợp lý Bài báo sử dụng phương pháp phân tích nhóm (Cluster Analysis) [11][12]nhằm phân cụm đối tượng liệu giống có hệ số tương quan cao Có nhiều phương pháp phân tích nhóm, nhiên báo giới hạn sử dụng phương pháp đồ thị phân tầng dendrogram nhằm phân cụm từ tiếng Việt Phương pháp dendrogram phương pháp xây dựng sơ đồ dạng sử dụng để minh họa cho xếp cụm phân cụm theo tầng Thuật toán xây dựng đồ thị dendrogram tổng quát trình bày sau: Bước Đặt tất liệu thành nhóm riêng lẻ Gọi liệu nhóm Bước Từ ma trận khoảng cách nhóm, gom hai nhóm có khoảng cách gần thành nhóm Bước Nếu số lượng nhóm kết thúc Ngược lại thực Bước Bước Tính khoảng cách nhóm vừa tạo Bước với nhóm cịn lại cập nhật ma trận khoảng cách Bước Quay lại Bước Có nhiều phương pháp tính khoảng cách hai nhóm Dựa theo tính chất liệu, ta có phương pháp tính khoảng cách sau: Nearest neighbor method: Khoảng cách hai nhóm tính khoảng cách nhỏ tất cặp liệu thuộc hai nhóm khác Furthest neighbor method: Khoảng cách hai nhóm tính khoảng cách lớn tất cặp liệu thuộc hai nhóm khác Group average method: Khoảng cách hai nhóm tính khoảng cách trung bình tất cặp liệu thuộc hai nhóm khác Centroid method: Khoảng cách hai nhóm tính khoảng cách trọng tâm hai nhóm Wards method: Khoảng cách hai nhóm tính tổng bình phương khoảng cách tất cặp liệu thuộc hai nhóm khác Khoảng cách tính nhiều cách khác Nếu liệu thể vector hay điểm không gian Euclide ta sử dụng khoảng cách Euclide hay khoảng cách Minkowski để tính Tuy nhiên tùy theo tính chất tốn hay liệu mà định nghĩa khoảng cách phương pháp khác sử dụng khoảng cách Manhattan, khoảng cách Mahalanobis, xác suất, hệ số tương quan, v.v… Đối với văn ta cịn tính khoảng cách dựa theo hệ số tương quan từ, cấu trúc câu, ngữ nghĩa hai văn Bài báo sử dụng xác suất xuất văn để tính khoảng cách hai từ tiếng Việt Hình ví dụ cách xây dựng đồ thị dendrogram dựa phương pháp Nearest neighbor method với khoảng cách Euclide Hình 1, bên trái vector “A”, ”B”, “C”, ”F”, “E”, ”F”, trong không gian chiều Ta thấy “E” “F” có khoảng cách nhỏ nên gom thành nhóm gồm hai phần tử Tương tự ta có “B” “C” gom thành nhóm Từ nhóm nhỏ, ta lại có nhóm lớn nhờ việc gom nhóm nhỏ lại với Ta nhóm “A,B,C” nhóm “D,E,F” Kết cuối tất đối tượng gom lại thành nhóm Hình Ví dụ đồ thị dendrogram Phương pháp đề xuất Trong báo cáo này, nhóm tác giả đề xuất kết hợp Wikipedia phương pháp phân tích nhóm dựa đồ thị dendrogram nhằm phân cụm tự động cho từ tiếng Việt Wikipedia bách khoa toàn thư mở với nhiều ngôn ngữ thể website internet [10] Bài báo sử dụng 1.184.476 trang Wikipedia tiếng Việt, Wikipedia lưu trữ cập nhật thời điểm ngày 01 tháng 01 năm 2014 Tất liệu lưu theo định dạng file xml có kích thước 91.8GByte Phương pháp đề xuất sử dụng từ điển tiếng Việt tiến hành phân cụm từ có tần số xuất chung trang Wikipedia Phương pháp đề xuất trình bày sau: • Đầu tiên, phương pháp đề xuất loại bỏ từ loại liên kết câu gây nghiễu q trình tính tốn như: “và”, “thì”, “là”, “những”, “cho nên”, “do đó”, “bởi vì”… • Tiếp theo, loại bỏ từ có tần số xuất thấp xuất cao Việc loại bỏ từ có tần số xuất thấp từ khó mang lại kết thống kê xác Việc loại bỏ từ có tần số xuất q cao từ chủ yếu từ khóa trang Wikipedia, chẳng hạn bách khoa, toàn thư, mục lục, phân loại, tham khảo, thích, phân bố, liên kết ngồi • Sau đó, phương pháp đề xuất tính toán ma trận 𝑃tần số xuất chungtrên trang Wikipedia cặp từ từ điển • Cuối cùng, xây dựng đồ thị dendrogram dựa ma trận tính tốn Thuật tốn xây dựng đồ thị dendrogram trình bày sau: TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG - SỐ 7(80).2014 Bước : Xây dựng đồ thị dendrogram cách lặp lặp lại việc đến tất từ đánh dấu: + Tìm phần tử lớn w thể tần số xuất cao cặp từ x y + Cập nhật lại ma trận w với i 𝑤[𝑥, 𝑖] = min(𝑤[𝑥, 𝑖], 𝑤[𝑦, 𝑖]) 𝑤[𝑖, 𝑦] = min(𝑤[𝑖, 𝑥], 𝑤[𝑖, 𝑦]) Với tần số xuất chung𝑃𝑖𝑗 tổng số trang Wikipedia xuất cảhai từ thứ 𝑖 𝑗trong từ điển Ta có, 𝑃𝑖𝑖 +𝑃𝑗𝑗 − 𝑃𝑖𝑗 tổng số trang có hai từ thứ 𝑖 𝑗 Suy 𝑤[𝑖, 𝑗] xác suất xuất tập chứa tất trang có hai từ thứ 𝑖 𝑗 Việc phân cụm thực cách cắt đồ thị theo chiều dài định ta cụm từ hay với Nhưng qua thực nghiệm nhận thấy việc cắt theo chiều cao dẫn tới kết không mong muốn ghép nhiều từ vào cụm Bài báo đề xuất việc cắt theo số bậc (tầng) đồ thị kết hợp với chiều cao Như vậy, nhóm cụm có số từ theo số bậc cho trước theo chiều cao mong muốn ban đầu Kết nghiên cứu Bài báo tiến hành thực nghiệm với từ điển gồm từ tiếng Việt khoảng 39000 từ Bộ từ điển tạo từ từ điển Việt-Pháp [15] cách lấy danh sách tất từ tiếng Việt có từ điển Việt-Pháp Sau lược bỏ từ liên kết từ “là”, “và”, “hoặc”,…từ điển lại 34520 từ Thơng qua việc phân tích tần số xuất Wikipedia, từ có tần số thấp loại bỏ khả gom thành từ thấp Qua trình này, từ điển tiếp tục rút gọn cịn 14015 từ Hình biểu diễn số lượng cặp từ theo tần số xuất chung Dễ dàng thấy số cặp từ không xuất chung trang có số lượng lớn (1.1×109cặp từ) Số lượng cặp từ tỉ lệ nghịch với tần số xuất chung Hình biểu diễn kết việc phân cụm sử dụng phương pháp phân tích nhóm dựa đồ thị dendrogram Tại vị trí cắt 40% so với độ dài tối đa, nghiên cứu tìm nhóm từ có liên quan gần nghĩa thể hình 4, hình Theo hình ta có khoảng cách từ “nhồi máu” “cơ tim” thấp, thấy từ thường xuyên chung với theo cụm từ “nhồi máu tim” Từ “suy tim” có quan hệ gần với “nhồi máu | tim” “tắc nghẽn | nghẽn mạch” có quan hệ xa so với “nhồi máu | tim | suy tim” Tuy nhiên từ gom thành nhóm chứng tỏ phương pháp đề xuất phân cụm thành cơng cụm từ có liên quan chặt chẽ với Tần số xuât Bước :Khởi tạo ma trận w thể xác suất xuất cặp từ thứ 𝑖 𝑗 trang Wikipedia 𝑃𝑖𝑗 𝑤[𝑖, 𝑗] = 𝑃𝑖𝑖 +𝑃𝑗𝑗 − 𝑃𝑖𝑗 131 >10000 8000-9000 6000-7000 4000-5000 2000-3000 900-1000 700-800 500-600 300-400 100-200 80-90 60-70 40-50 20-30 05-10 4.0 6.0 8.0 10.0 Số cặp từ (Log10) Hình Số lượng cặp từ theo tần số xuất chung Hình Số lượng nhóm phụ thuộc vào vị trí phân cụm đồ thị dendrogram Hình Kết phân cụm với dendrogram Hình số kết phân cụm sử dụng phương pháp đề xuất Ta dễ dàng nhận thấy nhóm từ phân cụm thành chủ đề Trong kết thực nghiệm, tác giả tiến hành chọn ngẫu nhiên 1000 nhóm từ tiến hành đếm thủ cơng số lượng nhóm đồng nghĩa Kết thu có 56% nhóm bao gồm hai từ đồng nghĩa Ngồi cịn phát số cụm từ bao gồm danh từ, động từ tính từ cho chủ đề.Ví dụ hình Nguyễn Thị Lệ Quyên, Phạm Minh Tuấn 132 Kết luận Bài báo đề xuất phương pháp kết hợp Wikipedia phương pháp phân tích nhóm dựa đồ thị dendrogram nhằm phân cụm cho từ tiếng Việt.Kết thực nghiệm cho thấy, phương pháp đề xuất phân cụm cụm từ đồng nghĩa từ có chủ đề.Tuy nhiên báo cáo dừng lại việc đánh giá tính hợp lí việc áp dụng đồ thị dendrogram việc đánh giá mối quan hệ từtrong từ điển Tiếng Việt.Trong nghiên cứu tới, tác giả tiến hành sử dụng kết phân cụm trình bày vào việc trích chọn đặc tính phân loại văn tự động TÀI LIỆU THAM KHẢO Hình Một vài kết khác Hình Ví dụ đồ thị dendrogram cho từ (chiến thắng, thắng lợi, đánh bại, thất bại, công, chiến dịch, chiến tranh, quân sự, quân đội, lực lượng, tiêu diệt) Tuy nhiên, cịn có số từ khơng mang ý nghĩa có chung nhóm từ như, “lịng tham” “vui lịng tham khảo” Những từ thông thường từ chuỗi từ kia, dẫn tới việc hay xuất nên kết phân cụm chưa xác.Ngồi ra, tiếng Việt cịn có nhiều từ, cụm từ khơng có từ điển mà tác giả sử dụng “cà chớn”, “cà cháo” Hơn báo cáo giới hạn trang Wikipedia nên chưa thể phát hết tất từ, cụm từ liên quan với tiếng Việt [1] Trần Cao Đệ Phạm Nguyên Khang, Phân loại với máy học vector hỗ trợ định, Tạp chí khoa học Trường Đại học Cần Thơ, p 52-63, 21a, 2012 [2] Vo Duy Thanh, Vo Trung Hung, Pham Minh Tuan, Doan Van Ban, “Text classification based on semi-supervised learning”, Proceeding of the SoCPaR 2013, IEEE catalog number CFP1395H-ART, ISBN 978-1-4799-3400-3, 2013 [3] H Q Thắng and Đ T T Phương, "Tiếp cận phương pháp học không giám sát học có giám sát với tốn phân lớp văn tiếng Việt đề xuất cải tiến công thức tính độ liên quan hai văn mơ hình vectơ," Kỷ yếu Hội thảo ICT.rda’04, pp 251-261, 2005 [4] Nguyễn Ngọc Bình, Dùng lý thuyết tập thơ kỹ thuật khác để phân loại, phân cụm văn tiếng Việt, Kỷ yếu hội thảo ICT.rda’04 Hà nội 2004 [5] Chih-Hao Tsai, MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm http://technology.chtsai.org/MMSEG/, 2000 [6] Vu Cong Duy Hoang, Dien Dinh, Nguyen Le Nguyen and Hung Quoc Ngo, A Comparative Study on Vietnamese Text Classification Methods, Research, Innovation and Vision for the Future, 2007 IEEE International Conference on, p 267-273, 1-4244-0694-3, 2007 [7] Hung Nguyen, Ha Nguyen, Thuc Vu, Nghia Tran, and Kiem Hoang 2005 Internet and Genetics Algorithm-based Text Categorization for Documents in Vietnamese Proceedings of 4th IEEE International Conference on Computer Science - Research, Innovation and Vision of the Future 2006 (RIVF'06) Ho Chi Minh City, Vietnam, Feb 12-16, 2006 [8] Giang Son Nguyen, Xiaoying Gao and Peter Andreae, Vietnamese Document Representation and Classification, AI 2009: Advances in Artificial Intelligence Lecture Notes in Computer Science, Springer, Volume 5866, p 577-586, 2009 [9] Thorsten Joachims Text Categorization with Support Vector Machines: Learning with Many Relevant Features In European Conference on Machine Learning (ECML), 1998 [10] Trang Wikipedia – bách khoa toàn thư mở: http://vi.wikipedia.org/ [11] Jin Chen, Alan M Mac Eachren, and Donna J Peuquet Constructing Overview + Detail Dendrogram – Matrix Views IEEE Trans Vis Comput Graph 2009 Nov-Dec; 15(6): 889-89 [12] Greenacre, M J Correspondence Analysis inPractice London: Academic Press, 1993 [13] J B MacQueen, "Some Methods for classification and Analysis of Multivariate Observations," Proceedings of 5th Berkeley Symposium on Mathematical Statistics and Probability, vol 1, p 281–297, 1967 [14] J Bezdek, R Ehrlich and W Full, "FCM: the fuzzyc-means clustering algorithm," Computers and Geosciences, vol 10, p 191–203, 1984 [15] Ho Ngoc Duc, The Free Vietnamese Dictionary Project, http://www.informatik.uni-leipzig.de/~duc/Dict/install.html (BBT nhận bài: 31/03/2014, phản biện xong: 05/05/2014) ... thị phân tầng dendrogram nhằm phân cụm từ tiếng Việt Phương pháp dendrogram phương pháp xây dựng sơ đồ dạng sử dụng để minh họa cho xếp cụm phân cụm theo tầng Thuật toán xây dựng đồ thị dendrogram. .. hợp Wikipedia phương pháp phân tích nhóm dựa đồ thị dendrogram nhằm phân cụm cho từ tiếng Việt. Kết thực nghiệm cho thấy, phương pháp đề xuất phân cụm cụm từ đồng nghĩa từ có chủ đề.Tuy nhiên báo... lấy danh sách tất từ tiếng Việt có từ điển Việt -Pháp Sau lược bỏ từ liên kết từ “là”, ? ?và? ??, “hoặc”,? ?từ điển cịn lại 34520 từ Thơng qua việc phân tích tần số xuất Wikipedia, từ có tần số thấp