1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khai phá quản điểm trên câu so sánh tiếng việt (tt)

27 14 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 27
Dung lượng 545,49 KB

Nội dung

1 HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG NGUYỄN CHÍ NGHIỆP KHAI PHÁ QUAN ĐIỂM TRÊN CÂU SO SÁNH TIẾNG VIỆT Chun ngành: Khoa học máy tính Mã số: 60.48.01.01 TĨM TẮT LUẬN VĂN THẠC SĨ MỞ ĐẦU HUẬ Lu n văn VIỆN Ng ih ng N N ho n th nh t i Ệ U n kho h Ts Ng Ph n iện Ts Trần Đăng ng Ph n iện Ts Ngu ễn Du Ph ơng N V NT u n h Lu n văn Công Nghệ o vệ tr h i ng h m lu n văn t i u hính Viễn thơng V oh i gi ng th t m hi u lu n n t i th viện th ng N c viện năm c viện Công nghệ BCVT MỞ ĐẦU V i phát tri n m nh mẽ củ internet v th ơng m i iện tử, l ng thông tin sinh vơ l n Do v y việc trích ch n thông tin cần thiết l v nh gi m t cách khách quan, Việc có m t hệ thống r qu n i m số ng ng i ùng giúp ng tiêu dùng có lựa ch n tốt nh t, nhà s n xu t biết ùng kh khăn i ng th i ũng giúp c s n phẩm củ m nh ng u M t v n ề thú vị có nhiều ứng dụng lĩnh vực xử lý ngôn ngữ tự nhiên toán khai phá qu n i m câu so sánh Bài toán nh n th ng tin ầu vào m t câu so sánh h i ối t ng, có chứa thu c tính so sánh, mối quan hệ so sánh Nhiệm vụ dự o n xem ng t ng n o i viết thích hoặ o h i ối t nh gi ối ng thu c tính ng xem xét V i ngơn ngữ tiếng Anh ã h kh i ph qu n i m v nhiều nghiên cứu ã ứng dụng ch y thực tế cho kết qu kh quan Mặ nghiên cứu m i v Anh, nh ng h ã hứng tỏ ù l h ng c hiệu qu v i tiếng nghiên ứu khai phá quan i m câu so sánh cho tiếng Việt v y lu n văn mụ c cơng bố Vì í h “Khai phá quan điểm câu so sánh tiếng Việt” N i dung lu n văn g m phần nh s u  Chƣơng 1: Kh i ph qu n i m khai phá quan i m câu so sánh tiếng Việt  Chƣơng 2: Mơ hình phân l p gi i toán kh i ph qu n i m câu so sánh  Chƣơng 3:Thực nghiêm CHƢƠNG 1: KHAI PHÁ QUAN ĐIỂM VÀ KHAI PHÁ QUAN ĐIỂM TRÊN CÂU SO SÁNH TIẾNG VIỆT Giới thiệu chung khai phá quan điểm 1.1 1.1.1 Định nghĩa khai phá quan điểm 1.1.2 Các mức độ khai phá quan điểm - Mức tài liệu - Mức câu - Mức thực th Các toán nhận diện quan điểm 1.2 - Bài toán nh n diện qu n i m - Bài toán phân l p qu n i m.Khai phá tổng h p qu n i m dự ặ tr ng - Kh i ph qu n i m câu so sánh a Bài toán nhận diện quan điểm b Bài toán phân lớp quan điểm c Bài toán khai phá quan điểm tổng hợp quan điểm dựa đăc trƣng d Bài toán khai phá quan điểm so sánh i to n n - n c chia thành toán nhỏ : “Phát câu so sánh phân tích quan điểm tiếng Việt” - Xác định thực thể, thuộc tính phân tích quan điểm dựa câu so sánh tiếng Việt” - Xác định quan điểm câu so sánh tiếng Việt” Lu n văn t p trung nghiên cứu tốn thứ Hình 1.1: Sơ đồ tổng quan toán Khai phá quan điểm câu so sánh tiếng Việt 1.3 Ý nghĩa ứng dụng toán khai phá quan điểm - Giới hạn chủ đề: chủ ề nghiên cứu s n phẩm công nghệ nh iện tho i, công nghệ… - Giới hạn số lượng câu so sánh: làm thực nghiệm 1500 câu tiếng Việt ã ối t - x ịnh ng, thu c tính từ khóa so sánh Dữ liệu lưu dạng tập tin văn (txt) sử dụng mã Unicode 1.4 Kết luận chƣơng h ơng n lu n văn gi i thiệu tổng qu n sở lý lu n toán khai ph qu n i m câu so s nh, sở lu n văn x ịnh v n ề cần gi i củ i to n kh i ph qu n i m câu so sánh tiếng việt Trên sở ầu v o l u so s nh ã c xác ịnh thực th , thu tính v ầu l r qu n i m câu so sánh yêu thích thực th n o Trong h ơng ũng r gi i h n ph m vi số l ng câu làm thực nghiệm v lĩnh vực nghiên cứu thiết bị công nghệ CHƢƠNG : MƠ HÌNH PHÂN LỚP GIẢI QUYẾT BÀI TOÁN KHAI PHÁ QUAN ĐIỂM TRÊN CÂU SO SÁNH 2.1 Mơ hình tốn khai phá quan điểm câu so sánh nhƣ toán phân lớp 2.1.1 Phát biểu toán phân lớp quan điểm 2.1.2 Các bước thực toán phân lớp quan điểm Các toán phân l p qu n i m ều thực theo c c lần l t Hình 2.1: Sơ đồ pha phân lớp 2.2 Một số thuật toán phân lớp 2.2.1 SVM a Định nghĩa b Ý tƣởng phƣơng pháp Mụ ích củ ph ơng ph p SVM l t m c kho ng cách biên l n nh t c minh h nh hình 2.2: Hình 2.2 Siêu phẳng phân chia liệu học thành lớp + – với khoảng cách biên lớn Các điểm gần (được khoanh tròn) Support Vector (7) c Nội dung của phƣơng pháp Cơ sở lý thuyết: Bài toán phân lớp với SVM Hình 2-3 Minh họa tốn phân lớp phương pháp SVM i m mà nằm hai siêu phẳng ph n t h g il Support Ve tor c i m ịnh ến hàm phân tách liệu Bài toán nhiều phân lớp với SVM Các bƣớc phƣơng pháp SVM  diễn nh Ph ơng ph p SVM cầu liệu c bi u ác vector số thực  Tiền xử lý liệu  Ch n hàm h t nhân  Thực việc ki m tra chéo tham số cho ứng ụng x ịnh 11 CHƢƠNG 3: THỰC NGHIỆM VÀ KẾT QUẢ Thực nghiệm kết 3.1.1 Thu thập gán liệu thực nghiệm Việc thu th p liệu ph i m b o m t câu ph i bao g m ối t ng, từ khóa so sánh thu c tính so sánh có th có ngầm hi u Sau tiến hành toàn b 1500 câu ta có danh sách liệu thực nghiệm: 3.1.2 Đánh giá quan điểm đối tượng V i t p liệu ã x ựng, ta xây dựng ct p nh s h nh gi qu n i m v i câu ta xác ịnh ối t ng thí h l ối t ng hay ối t ng Nếu ối t ng c yêu thích ta nh số 1, ối t ng thí h t nh số t ơng úng v i dòng 3.1.3 Thống kê số lượng V i b liệu 1500 câu ta có b ng 3.1 thống kê số l ng object 1, object 2, feature, relatework số l ng o je t , o je t thí h 12 3.2 Thiết lập thực nghiệm Từ b liệu g m 1500 câu, phân chia thành phần m t cách ng u nhiên, phần g m 300 câu S u lần thự nghiệm, kết qu uối ùng l trung nh ủ lần thự thự nghiệm héo 3.3 Công cụ thực 3.3.1 LibSVM Sau chuẩn bị liệu, trình sử dụng LibSVM [6] bao g m c: Bƣớc 1: Huấn luyện (training) Bƣớc 2: Thử nghiệm mơ hình (testing) - Bƣớc ịnh qu n i m củ ng i dùng, v i câu so sánh g m ối t ng c nh gi l ối t ng tốt h ối t ng tốt Nếu ối t ng l c nh gi qu n i m tốt t ghi 1, ối t ng nh gi qu n i m tốt c ghi - Bƣớc Xây dựng b th viện ã dựng phần thiết l p liệu c xây 13 Bƣớc Xây dựng liệu khuôn d ng SVM Bƣớc Hu n luyện (training): Trong lu n văn t tiến hành train lần l t p liệu ã c chia sử dụng c u lệnh: svm-train.exe train.1 svm-train.exe train.2 svm-train.exe train.3 svm-train.exe train.4 svm-train.exe train.5 Bƣớc Thử nghiệm mơ hình (testing): Kết qu c t p h p b ng 3.1: tv i5 14 B ng 3.1 Thống kê kết qu sử dụng công cụ LibSVM v i tham số c g Tập train C G 2.0 0.125 32.0 0.0078125 8.0 0.125 8.0 00048828125 32.0 0.125 Thực thi l i t p train v i tham số c,g v i lệnh sau svm-train.exe -c 2.0 -g 0.125 train.1 svm-train.exe -c 32.0 -g 0.0078125 train.2 svm-train.exe -c 8.0 -g 0.125 train.3 svm-train.exe -c 2048.0 -g 0.00048828125 train.4 svm-train.exe -c 32.0 -g 0.125 train.5 Tiến hành ch y l i lệnh test t c kết qu : 15 Hình 3.1 Test cơng cụ LibSVM với công cụ c g 3.3.2 Weka Weka bao g m m i tr M i tr tính ng chính: ng Explorer: 3.4 Kết thực nghiệm 3.4.1 SVM Kết qu thực nghiệm công cụ LIBSVM v i thu t tốn SVM khơng có tham số cho kết qu nh b ng 3.4 B ng 3.2 Thống kê kết qu sử dụng công cụ LibSVM Tập train tập test Accuracy (%) 16 84.6667 75.3333 75 76 59.6215 Trung bình 74.1243 Kết qu thực nghiệm cơng cụ LIBSVM v i thu t tốn SVM có tham số c g cho kết qu nh ng 3.5 B ng 3.3 Thống kê kết qu sử dụng công cụ LibSVM v i tham số c g Tập train Accuracy (%) tập test 88.6667 87.3333 96.3333 97.6667 93.3754 Trung bình 92.67508 17 3.4.2 NẠVE BAYES Kết qu thực nghiệm cơng cụ Weka v i thu t tốn Nạve Bayes cho kết qu nh ng 3.6 B ng 3.4 Thống kê kết qu sử dụng công cụ Weka v i thu t tốn Nạve Bayes Tập train tập test Accuracy (%) 82.1 78.2 88.6 87.5 90.1 Trung bình 85.3 3.4.3 MAXIMUM ENTROPY Kết qu thực nghiệm cơng cụ Weka v i thu t tốn Maximum Entropy cho kết qu nh ng 3.7 18 B ng 3.5 Thống kê kết qu sử dụng công cụ Weka v i thu t toán Maximum Entropy Tập train tập Accuracy (%) test 88.25 87.5 92.8 80.3 78.5425 Trung bình 85.4785 3.4.4 So sánh kết luận V i thu t to n ã b ng 3.8 c thực nghiệm ta có kết qu nh 19 B ng 3.6 Thống kê kết qu sử dụng thu t tốn Thuật tốn Cơng cụ Kết (%) SVM (khơng LibSVM 74.1243 LibSVM 92.67508 Nạve Bayes Weka 85.3 Maximum Weka 85.4785 có tham số) SVM (có tham số) Entropy 20 Hình 3.2 So sánh độ xác thuật tốn Từ b ng kết qu 3.8 hình 3.14 ta có th nh n th y rằng, thu t tốn SVM xác (actually) cao nh t 92.67508 % thu t toán cịn l i x t ơng ơng nh u (x p xỉ 85%) Do t th kết lu n kh i ph qu n i m câu so sánh tiếng việt ch n ph ơng ph p SVM 3.5 Phân tích lơi 21 Kết qu thực nghiệm cho th y r t kh quan nhiên v n nhiều tr ng h p v n có th dự o n sai 3.6 Kết luận chƣơng h ơng n ã tr nh qu tr nh thực nghiệm liệu v i thu t toán SVM, Nạve Bayes, Maximum Entropy v i cơng cụ hỗ tr LibSVM Weka V i ph ơng ph p t t th nh gi kết qu khác nhau, từ c thu t toán tốt nh t, xác cao nh t Trong q trình thực nghiệm ã hỉ r l thu t toán SVM Tuy nhiên tùy tr ng h p cụ th ta có th ch n thu t to n ề phù h p v i mụ í h ầu 22 KẾT LUẬN Các kết đạt đƣợc Các kết qu  t c lu n văn o g m: Nghiên cứu v n ề toán khai phá qu n i m câu so sánh tiếng việt  Thực nghiệm so sánh ch t l ng củ ph ơng pháp phân l p sử dụng thu t tốn SVM, Nạve Bayes Maximum Entropy Phƣơng hƣớng nghiên cứu - T m ph ơng ph p kh i ph qu n i m câu so sánh tiếng việt có ch t l - Ứng dụng ng o i to n kh i ph qu n i m câu so sánh tiếng Việt cho toán xử lý ngôn ngữ tiếng Việt khác 23 TÀI LIỆU THAM KHẢO [1] Bing Liu (2012), Sentiment Analysis and Opinion Mining, Synthesis lectures on human languages technologies Morgan and Claypool publishers [2] Bennett, P N 2000 Assessing the calibration of N ive es’ posterior estim tes n Te hni l Report No CMUCS00-155 [3] A El-Halees, "Opinion Mining from Arabic Comparative Sentences", Proceedings of ACIT, pp 265271 [4] M Ganapathibhotla and B Liu, "Mining Opinions in Comparative Sentences", Proceedings of COLING, pp 241-248 [5] N Jindal and B Liu, "Identifying comparative sentences in text documents", Proceedings of SIGIR, pp 244-251 [6] N Jindal and B Liu, "Mining comparative sentences and relations", Proceedings of AAAI, pp 13311336 [7] Hsu, Chih-Wei; Chang, Chih-Chung; and Lin, ChihJen (2003) A Practical Guide to Support Vector Classification (Technical report) Department of 24 Computer Science and Information Engineering, National Taiwan University [8] K Nigam, J Lafferty, and A McCallum, "Using maximunm Entropy for text classification", Proceeding of the 16th International Joint Conference Workshop on Machine Learning for Information Filtering: 61-67 Stockholm, Sweden, 1999 [9] Zhang, Harry The Optimality of Naive Bayes, FLAIRS2004 conference, http://www.cs.unb.ca/~hzhang/publications/FLAIRS04Z hangH.pdf [10] Ngo Xuan Bach, Tu Minh Phuong (2015), “Lever ging User R tings for Resour e-Poor Sentiment l ssifi tion”, Proceedings of the 19th International Conference on Knowledge-Based and Intelligent Information & Engineering Systems (KES), Singapore [11] Ngo Xuan Bach, Pham Duc Van, Nguyen Dinh T i, Tu Minh Phuong ( 5), “Mining Vietn mese Comparative Sentences for Sentiment An l sis”, Proceedings of the 7th International Conference on Knowledge and Systems Engineering (KSE), Ho Chi Minh City, Vietnam [12] Wikipedia, https://en.wikipedia.org/wiki/Sentiment_analysis 25 [13] C.-C Chang and C.-J Lin LIBSVM: a library for support vector machines, 2001 Software available at http://www.csie.ntu.edu.tw/~cjlin/libsvm [14] Tool Weka ,http://www.cs.waikato.ac.nz/~ml/weka/ [15] Tinh tế, https://tinhte.vn/ [16] Thế gi i i ng, https://www.thegioididong.com/ [17] FPT shop, http://fptshop.com.vn/ ... so sánh tiếng Việt  Chƣơng 2: Mơ hình phân l p gi i toán kh i ph qu n i m câu so sánh  Chƣơng 3:Thực nghiêm 3 CHƢƠNG 1: KHAI PHÁ QUAN ĐIỂM VÀ KHAI PHÁ QUAN ĐIỂM TRÊN CÂU SO SÁNH TIẾNG VIỆT... toán khai phá quan điểm so sánh i to n n - n c chia thành toán nhỏ : “Phát câu so sánh phân tích quan điểm tiếng Việt? ?? - Xác định thực thể, thuộc tính phân tích quan điểm dựa câu so sánh tiếng Việt? ??... m câu so sánh cho tiếng Việt v y lu n văn mụ c cơng bố Vì í h ? ?Khai phá quan điểm câu so sánh tiếng Việt? ?? N i dung lu n văn g m phần nh s u  Chƣơng 1: Kh i ph qu n i m khai phá quan i m câu so

Ngày đăng: 19/03/2021, 17:55

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN