NGHIÊNCỨUXÂYDỰNGTIẾNTRÌNHPHÂNLOẠITÌNHCẢMTRÊNTIẾNGVIỆT Đậu Mạnh Hoàn Trường Đại học Quảng Bình Tóm tắt Phânloại văn q trìnhphân tích nội dung văn sau đưa định văn thuộc nhóm, nhiều nhóm khơng thuộc vào nhóm tài liệu văn định nghĩa trước Phânloạitìnhcảm dạng đặc biệt phânloại văn bản, tài liệu phânloại để dự đốn tìnhcảm tự động phân cực (tích cực hay tiêu cực) Trên giới có nhiều nghiêncứu có hiệu vấn đề này, đặc biệt tài liệu văn tiếng Anh Tuy nhiên, nghiêncứu tài liệu văn tiếngViệt Hơn nữa, kết nghiêncứu ứng dụng hạn chế phần đặc điểm đặc trưng ngôn ngữ tiếngViệt cấu trúc từ, câu có nhiều từ đa nghĩa nhiều bối cảnh khác Trong viết này, tác giả tiến hành xâydựng mô hình tiếntrình nhằm phục vụ trìnhphânloạitìnhcảmtiếngViệt đề xuất kỹ thuật lựa chọn đặc trưng cho tiếntrình Từ khóa: khai phá văn bản, phânloạitình cảm, lựa chọn đặc trưng TỔNG QUAN Phân tích tâm lý, khai phá ý kiến lĩnh vực nghiêncứu chuyên sâu lĩnh vực nghiêncứu khai phá văn Phân tích tâm lý nghiêncứutính tốn ý kiến người, thái độ, cảm xúc tìnhcảm người thực thể Các thực thể đại diện cho cá nhân, tổ chức, kiện chủ đề Các vấn đề đưa xem xét bao phủ ý kiến nhiều Trong thực tế, khai phá ý kiến trích xuất thơng tin người thực thể sau xử lý ý kiến người thực thể đó, phân tích tâm lý lại xác định xu hướng ý kiến thể văn bản, sau phân tích Do đó, mục tiêu phân tích tâm lý tìm xu hướng ý kiến, xác định tìnhcảm mà họ thể theo khuynh hướng nào, từ phânloại ý kiến phân cực họ thực thể Vì vậy, phân tích tâm lý xem q trìnhphânloại đặc biệt phânloại văn thường gọi phânloạitìnhcảmPhânloại văn toán sử dụng nhiều khai phá văn Để thực phân loại, người ta ánh xạ văn vào chủ đề biết tập hữu hạn chủ đề dựa ngữ nghĩa văn [1] Ý nghĩa phânloại văn giúp cho việc xếp, lưu trữ, tìm kiếm truy xuất tài liệu dễ dàng hơn, hiệu Một điều đáng ý giải toán phânloại văn đa dạng chủ đề văn tính đa chủ đề văn Ảnh hưởng đa chủ đề văn làm cho phânloại mang tính tương đối không rõ ràng thực phânloại tự động Trên phương diện cấu trúc tổ chức văn văn bao gồm tập hợp từ ngữ có liên quan với tạo nên nội dung ngữ nghĩa cho văn Từ ngữ văn đa dạng phong phú đặc điểm từ đa nghĩa đa dạng ngôn ngữ Trong thực tế, văn có số lượng từ không nhiều, số lượng từ cần xét nhiều, phải bao hàm tất từ ngơn ngữ xét Do đó, xem việc giải tốn đọc nội dungphân tích nội dung đọc được, sau chọn thuật tốn để phânloại văn Phânloại văn tự động [2] thường thực theo nhiều cách tiếp cận dựa vào từ khóa, dựa vào thống kê tần số xuất từ văn Với cách tiếp cận thế, trình quy nạp tổng quát tự động xâydựng trật tự phân lớp cho phân lớp di cách ghi nhận đặc trưng có tài liệu thuộc lớp di tài liệu không thuộc phân lớp di Từ đặc trưng này, q trình thu thập có tính chất quy nạp dự đốn đặc trưng phải có tài liệu thuộc phân lớp di Hầu hết phương pháp máy học áp dụng cho toán phânloại văn sử dụng cách biểu diễn văn dạng vectơ đặc trưng Lựa chọn đặc trưng có tầm quan trọng lớn thực tế cho vấn đề phânloại văn Phânloạitìnhcảm người sử dụng lĩnh vực nghiêncứu khai phá văn bản, xử lý ngôn ngữ tự nhiên ngôn ngữ học Phânloạitìnhcảm người sử dụng trường hợp đặc biệt phânloại văn bản, mục đích phân tích tìnhcảm người sử dụng xác định phân cực văn xử lý ngôn ngữ tự nhiên Các nhà nghiêncứu giới tập trung nghiêncứu nhiều lĩnh vực liên quan đến kỹ thuật phân loại, kỹ thuật lựa chọn đặc trưng cho văn phân loại, xử lý vấn đề ngôn ngữ tự nhiên thông qua học máy Các nhà nghiêncứu khám phá việc sử dụng kỹ thuật học máy để liên kết loại tài liệu tự động cách sử dụng tập huấn luyện ban đầu để thích ứng với phânloại theo tính thiết lập tài liệu cụ thể Quá trình học máy bắt đầu việc kiểm tra văn mẫu để xác định tính thiết lập tối thiểu từ sản xuất kết phânloại dự kiến Hầu hết kỹ thuật liên quan tìm thấy hai ngơn ngữ tự nhiên chủ yếu tiếng Anh tiếng Trung Quốc Đối với tiếngViệt toán TiếngViệt xếp vào loại hình đơn lập, tức tiếng (âm tiết) phát âm tách rời nhau, khơng biến hình, đơn tiết thể chữ viết Sự khác tiếng Anh tiếngViệtloại hình (biến cách đơn lập) nên từ tiếngViệt từ tiếng Anh khác mặt từ vựng hóa hình thái học Đặc biệt ranh giới từ khơng xác định khoảng trắng, tách từ nhiệm vụ quan trọng trước vào xử lý Xử lý ngôn ngữ tự nhiên tiếngViệt toán phức tạp, qua nhiều giai đoạn Trong nghiêncứu tập trung xâydựng mơ hình cho tiếntrìnhphânloạitìnhcảmtiếngViệt đề xuất phương pháp lựa chọn đặc trưng cho tiếntrìnhphânloại BÀI TỐN PHÂNLOẠITÌNHCẢM Theo định nghĩa Jiliang Tang, Salem Alelyani Huan Liu (2014) [3] phânloạitrình mà chia đối tượng nhận ra, phân biệt hiểu Q trìnhphânloại đối tượng nhóm thành phân loại, phânloại mô tả mối quan hệ chủ thể đối tượng tri thức Có hai cách để tiếp cận phânloạiphânloại huấn luyện trước phânloại không huấn luyện trước Như phân tích phần 1, tốn phânloạitìnhcảm trường hợp đặc biệt toán phânloại văn mà giá trị phânloại nhận theo tínhphân cực, sử dụng lĩnh vực khác kinh doanh, trị tâm lý học So với toán phânloạitìnhcảmtiếng Anh, tốn phânloạitìnhcảmtiếngViệt có nhiều đặc điểm riêng, đặc điểm ngôn ngữ tiếngViệt Một bước quan trọng xử lý văn tiếngViệt thực tách từ sau trìnhtiền xử lý văn bản, từ có nghĩa tiếngViệt không phân biệt khoảng trống mà phải dựa vào yếu tố khác Các giai đoạn lại xử lý tiếngViệt thực ngôn ngữ tiếng Anh Đầu tiên văn thu thập, tiến hành tiền xử lý, tiến hành tách từ, khởi tạo số điểm cho từ ban đầu, tiến hành xử lý tiền tố, hậu tố, sau sử dụng từ điển để kiểm tra từ có từ điển hay khơng, tương ứng với q trình kiểm tra cập nhật số điểm, lặp lại kết thúc có tổng số điểm cuối cùng, dựa vào số điểm để xác định từ tiêu cực hay tích cực Việc gán số điểm phân cực cho danh sách từ để tiến hành phânloại ý kiến dựa chủ đề liệu văn liên quan Ví dụ nhập vào câu ―Điện thoại iphone thiết kế bắt mắt, ưa nhìn, có đầy đủ tính năng‖ Đầu tiên thực tách từ ta từ sau: #Điện thoại#iphone 6#thiết kế#bắt mắt#ưa nhìn#có#đầy đủ#tính năng# Sau tiến hành xác định từ đánh giá tìnhcảm cụm từ, chẳng hạn từ ―kiểu dáng” ―bắt mắt, ưa nhìn‖; từ ―tính năng” ―đầy đủ” Bước cuối đánh giá sản phẩm thông qua từ ý kiến, chẳng hạn ―kiểu dáng‖ gán điểm tích cực 1, điểm tiêu cực 0; ―tính năng‖ gán điểm tích cực 1, điểm tiêu cực Kết thúc đánh giá ta có giá trị trọng số ―kiểu dáng‖ ―tính năng‖ 1, tổng điểm, trọng số ý kiến tìnhcảm người dùng tích cực sản phẩm Iphone Thông thường giả sử phânloại nhãn ký hiệu Các thuộc tính tài liệu liên quan đến phânloại nhận dựa nội dung tài liệu Phụ thuộc vào ứng dụng cụ thể mà phânloại văn chia thành loại khác nhau, dựa vào Fabrizio Sebastiani (2002) [4] ĐẶC TRƢNG VÀ QUÁ TRÌNH LỰA CHỌN ĐẶC TRƢNG 3.1 Khái niệm đặc trƣng Đặc trưng văn hạng văn [5] Người ta sử dụng thuật tốn để biểu diễn khơng gian đặc trưng trìnhphânloại Lựa chọn đặc trưng nhằm mục đích chọn lựa tập đặc trưng tiêu biểu biểu diễn từ không gian đặc trưng gốc 3.2 Q trình lựa chọn đặc trƣng Văn xem tập hợp đặc trưng Việc phânloại văn dựa đặc trưng Do số đặc trưng văn lớn không gian đặc trưng tất văn xem xét lớn, nguyên tắc, bao gồm tất từ ngơn ngữ Do đó, cần phải lựa chọn đặc trưng nhằm rút ngắn số chiều không gian đặc trưng Thực chất trình lựa chọn đặc trưng làm giảm số chiều vector đặc trưng cách bỏ thành phần đặc trưng không quan trọng đảm bảo tính xác nội dung văn Lựa chọn đặc trưng tìm tập nhỏ đặc trưng có giá trị Xét với vector đặc trưng đầu vào ngẫu nhiên F =(F1, F2, , Fd) X giá trị đầu dự đốn từ vector đặc trưng F Nhiệm vụ lựa chọn đặc trưng việc tìm đặc trưng Fi có liên quan đến dự đoán giá trị X Trên thực tế, người ta xem xét tất từ ngôn ngữ mà dùng tập hợp từ rút từ tập đủ lớn văn xét thường gọi tập ngữ liệu PHƢƠNG PHÁP LỰA CHỌN ĐẶC TRƢNG Có nhiều phương pháp lựa chọn đặc trưng khác nhau, phương pháp có ưu điểm riêng biệt Ở đây, chúng tơi giới thiệu phương pháp phân tích giá trị riêng, phương pháp đánh giá tốt phương pháp cổ điển nhờ có ưu điểm vượt trội để rút gọn khơng gian đặc trưng q trình lựa chọn đặc trưng Hiệu từ việc rút gọn không gian đặc trưng làm tăng hiệu phânloại giảm bớt tính tốn minh chứng cơng trìnhnghiêncứu tác giả [6] phương pháp Optimal Orthogonal Centroid Feature Selection nhóm Microsoft Asia đề xuất năm 2004 [7] 4.1 Phƣơng pháp phân tích giá trị riêng Phương pháp phân tích giá trị riêng [8] (Singular value decomposition: SVD) dạng khai triển ma trận, phương pháp dựa tảng kỹ thuật mục ngữ nghĩa tiềm ẩn (LSI: Latent Semantic Indexing) có nhiều ứng dụng nghịch đảo, số hóa liệu, tìm kiếm, truy hồi thơng tin dạng văn bản, xử lý tín hiệu số, tính giá trị xấp xỉ kĩ thuật ứng dụng nhiều cơng cụ tìm kiếm website Ý tưởng phương pháp [6, 9] sau: Với ma trận phân tích thành A = U (4.1) đó: - U ma trận trực giao m m có cột vectơ riêng bên trái A - ∑ ma trận m n có đường chéo chứa giá trị riêng, khơng âm có thứ tự giảm dần: δ1 ≥ δ2 ≥ … ≥ δmin(m,n) ≥ Ma trận ∑ xây dựng: =[ ] với D = [ ] - VT ma trận trực giao n n có cột vectơ riêng bên phải A Hạng ma trận A số số khác đường chéo ma trận ∑ Thơng thường A ma trận thưa có kích thước lớn Để giảm số chiều ma trận người ta thường tìm cách xấp xỉ ma trận A có hạng r ma trận Ak có hạng k nhỏ r nhiều Ma trận xấp xỉ A theo kỹ thuật là: Ak = Uk∑kVkT (4.2) đó: - Uk ma trận trực giao m k có cột k cột đầu ma trận U - ∑k ma trận đường chéo k k chứa k phần tử 1 , , , k đường chéo - Vk ma trận trực giao n k có cột k cột đầu ma trận V Mục đích q trình thực để chuyển không gian xét r chiều không gian k chiều, với k nhỏ nhiều so với r Quá trình thực chuyển đổi sau: văn mơ hình hóa thành vectơ cột không gian xác định ma trận ; sau chuyển đổi ma trận Ak, tất vectơ xét chiếu lên không gian Ak để có số chiều k theo cơng thức: Proj(x) = xT.Uk.∑k-1 (4.3) 4.2 Phƣơng pháp Optimal Orthogonal Centroid Feature Selection (OCFS) Phương pháp OCFS phương pháp tác giả Trung tâm nghiêncứu Microsoft Asia đề xuất năm 2004, phương pháp đánh giá tốt phương pháp tìm trước [7] Phương pháp OCFS dựa tảng thuật toán Orthogonal Centroid (OC) Thuật toán Orthogonal Centroid sử dụng để rút trích đặc trưng có giám sát cách tận dụng phép biến đổi trực giao trọng tâm [10, 11] Thuật toán chứng minh hiệu với vấn đề phân lớp liệu dạng văn dựa phép tính tốn khơng gian véctơ đại số tuyến tính Tư tưởng phương pháp OCFS để tìm kỹ thuật lựa chọn đặc trưng tối ưu cách tối ưu J(W) không gian Hdxp dựa tiêu chuẩn J(W) thuật toán Orthogonal Centroid Độ phức tạp thuật toán OCFS O(cd), thuật toán OCFS dễ cài đặt có thời gian tính tốn nhanh phương pháp khác [7] Phương pháp lựa chọn số đặc trưng k: giả sử tất đặc trưng tính điểm xếp theo thứ tự giảm dần s(k1)> = s(k2)> =…> = s(kd), ta tính hàm p E( p) s(k j 1 ) j (4.4) s(i) i 1 p đặc trưng chọn phải thỏa mãn p = arg E(p) cho E(p)> = T, với T > = 80% Thuật tốn OCFS ~ Thay tìm ma trận W ta tìm ma trận W với tiêu chuẩn tối ưu ~ sau: arg max J (W) arg max trace(WT S W) , W H dxp (4.5) Trong thành phần cơng thức định nghĩa phần OC, ~ W khác ma trận ma trận nhị phân mà cột có phần tử khác Định nghĩa K = {ki, ki d, i= 1, 2, p} tập mục đặc trưng, ta có: trace(WT S W) b p i1 wT S w i b i1 j 1 p i nj c n (mki mki ) j (4.6) Quá trình thực thuật tốn OCFS tìm tập K để làm cực đại: nj (m ki m ki ) p c i1 j 1 n j (4.7) Từ thuật tốn OCFS xâydựng sau: + Đầu vào: Tập liệu huấn luyện (ngữ liệu) + Phương pháp: - Bước 1: Tính centroid mi i=1, 2, …, c lớp cho liệu huấn luyện - Bước 2: Tính centroid m tất mẫu huấn luyện - Bước 3: Tính điểm cho đặc trưng i theo công thức nj c s(i) (mi mi )2 j j 1 n - Bước 4: Chọn k đặc trưng có điểm cao tập S={s(i)| 1≤i ≤ d} + Đầu ra: giá trị xác F1 tập liệu TIẾNTRÌNHPHÂNLOẠITÌNHCẢM Mơ hình tiếntrìnhphânloạitìnhcảm thực sau: Đọc văn Học máy Tiền xử lý văn Lựa chọn đặc trưng Tách từ Loại bỏ từ Stopwords Vector hóa văn Hình Mơ hình tiếntrìnhphânloạitìnhcảmtiếngViệt 5.1 Tiền xử lý văn Do đặc điểm tiếngViệt phong phú đa dạng nên không xét trường hợp không chuẩn văn tiếngViệt mà giải vấn đề quy Dữ liệu văn tiến hành tách đoạn, tách câu, chuẩn hóa tả, chuẩn hóa dấu chấm câu 5.2 Tách từ Để tiến hành phânloại văn bản, tài liệu văn biến đổi thành dạng vectơ đặc trưng, đặc trưng từ Không giống tiếng Anh ngơn ngữ thuộc loại hình hòa kết, tiếngViệt ngơn ngữ thuộc loại hình đơn lập, khơng biến hình, ký tự dựa hệ chữ Latin Trong tiếngViệt ranh giới từ khoảng trắng Một từ tạo nhiều hình vị hình vị phân tách khoảng trắng Từ đơn vị để phân tích cấu trúc ngơn ngữ, việc xác định ranh giới từ quan trọng có nhiều xử lý phức tạp Tách từ vấn đề quan trọng, định q trìnhphânloại hay sai, hiệu cao hay thấp Tất tài liệu qua bước xử lý thành từ đầu vào cho bước xử lý 5.3 Loại bỏ từ Stopwords Từ Stopwords từ chức hay phụ từ, hư từ chẳng hạn ―là‖, ―của‖, ―nhất là‖, …vv, từ từ nối, từ số lượng ―và‖, ―các‖, ―những, ―mỗi‖,… chúng khơng mang tínhphân biệt phânloại Ngồi ra, có nhiều từ khác khơng có giá trị phân loại, ví dụ từ xuất hầu hết khắp văn hay dùng không phổ biến văn bản, từ gọi stopword lược bỏ để tăng hiệu giảm bớt số lượng đặc trưng vốn lớn mơ hình phânloại văn 5.4 Trọng số hóa đặc trƣng Trọng số (Weight) giá trị đặc trưng cho hạng, giá trị thường số thực Cơng thức tính tốn giá trị TF_IDF (Terms Frequency Inverse Document Frequency) dạng mở rộng logTF_IDF TF_IWF (Terms Frequency Inverse Word Frequency) [10] 5.5 Chọn lựa đặc trƣng Đặc trưng văn hạng văn Phương pháp lựa chọn đặc trưng giới thiệu mục 5.6 Học máy Các giải thuật học máy chứng minh giải thuật phân lớp tốt cho vấn đề phânloại văn Các giải thuật học máy phù hợp với toán phânloại văn chúng có khả đáp ứng khơng gian đầu vào có số chiều lớn, đặc trưng rời rạc, liên hệ lẫn nhau, vectơ tài liệu thưa vấn đề phân lớp văn chia cắt Học máy lĩnh vực có liên quan đến việc nghiêncứu thuật toán kỹ thuật cho phép máy tính để ―học hỏi‖ tự động từ kinh nghiệm Máy học tập dựa khái niệm kỹ thuật từ nhiều lĩnh vực, bao gồm số liệu thống kê, lý thuyết thơng tin, trí tuệ nhân tạo, sinh học, triết học xử lý tri thức thơng minh KẾT LUẬN Bài tốn phânloại văn tốn có số lượng đặc trưng nhiều, nâng cao hiệu phânloại văn mục đích mà nhiều nhà nghiêncứu hướng đến Phânloạitìnhcảm hướng nghiêncứu mới, đặc biệt tiếngViệtTiếngViệt có đặc điểm riêng biệt đa dạng Chúng đề xuất mơ hình để sử dụng cho việc thực phânloạitìnhcảmtiếngViệt đề xuất sử dụng phương pháp rút gọn số chiều không gian đặc trưng văn phương pháp phân tích giá trị riêng phương pháp OCFS áp dụng cho tiếngViệt Các phương pháp áp dụng thành cơng cho tốn phânloại văn tiếng Việt, chúng khả quan để áp dụng cho tiếntrìnhphânloạitìnhcảmtiếngViệt Trong tương lai tiếp tục nghiêncứu thực nghiệm cho trìnhphânloại TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ ĐẠI HỌC QUẢNG BÌNH, SỐ11 TÀI LIỆU THAM KHẢO [1] [2] [3] [4] [5] Feldman, R., Sanger, J (2007), The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data (Cambridge University Press, Cambridge, UK Maron, M E, (1961), ―Automatic Indexing: An Experimental Inquiry‖, Journal of the Association for Computing Machinery, 8(3): 404–417 Jiliang Tang, Salem Alelyani and Huan Liu (2014) Feature selection for classification: A review In: Data Classification: Algorithms and Applications CRC Press, p 37 Fabrizio Sebastiani (2002), Machine Learning in Automated Text Categorization, ACM Computing Surveys, Vol 34, No 1, pp 1–47 Girish Chandrashekar, Ferat Sahin A survey on feature selection methods Electrical and Microelectronic Engineering, Rochester Institute of Technology, Rochester, NY 14623, USA Available online December 2013 [6] Hoan Manh Dau, Ning Xu (2014), Text Document Classification Using Support Vector Machine with Feature Selection Using Singular value Decomposition, AMEE, Vol 905, pp 528-532 [7] Jun Yan-Ning Liu-Benyu Zhang-Shuicheng Yan (2005), OCFS: Optimal Orthogonal Centroid Feature Selection for Text Categorization, Microsoft Research Asia, China [8] Golub, G.H., Loan, C.F.V.(1996), Matrix Computations, third ed Johns Hopkins University Press, pp 48–80 [9] T Letsche, M Berry (2001), ―Large-scale Information Retrieval with Laten Semantic Analysis‖, SIGIR , pp 19-25 [10] Yang, Y and Pedersen , J,O (1997), A comparative Study On Feature Selection in Text Categorization, In Proceedings of the 14th International Conference on Machine Learning(ICML), 412-420 [11] Tao Liu, Zheng Chen, Benyu Zhang, Wei-ying Ma, Gongti Wu (2004), Improving Text Classificaion using Local Latent Semantic Indexing, Data Mining, ICDM 2004 Proceedings, Fourth IEEE International Conference RESEARCH OF CONSTRUCTING THE SENTIMENT CLASSIFICATION PROCESS ON VIETNAMESE TEXTS Abstract Text classification is the process of analyzing text content and then giving decision whether this text could belong to one group, many groups or it does not belong to the text group which is defined before Sentiment classification is a special kind of text classification in which a document is classified to predict automatically sentiment polarity (positive or negative) In all over the world, there have been many effective researches on this problem, especially on texts in English However, there have been few researches on Vietnamese texts Moreover, these researching results and applications are still limited partly due to the typical characteristics of Vietnamese language in term of words and sentences and there are many words with many meanings in many different contexts In this research, the author constructs a model to serve the process of sentiment classification on Vietnamese texts and suggests techniques feature selection for that process Key words: text mining, sentiment classification, features selection ... nhiên tiếng Việt toán phức tạp, qua nhiều giai đoạn Trong nghiên cứu tập trung xây dựng mơ hình cho tiến trình phân loại tình cảm tiếng Việt đề xuất phương pháp lựa chọn đặc trưng cho tiến trình phân. .. thành cơng cho tốn phân loại văn tiếng Việt, chúng khả quan để áp dụng cho tiến trình phân loại tình cảm tiếng Việt Trong tương lai tiếp tục nghiên cứu thực nghiệm cho trình phân loại TẠP CHÍ KHOA... tốn phân loại văn tốn có số lượng đặc trưng nhiều, nâng cao hiệu phân loại văn mục đích mà nhiều nhà nghiên cứu hướng đến Phân loại tình cảm hướng nghiên cứu mới, đặc biệt tiếng Việt Tiếng Việt