Xác định câu so sánh trong tài liệu văn bản tiếng Anh : Luận văn ThS. Công nghệ thông tin: 60 48 01 04

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ LÊ QUANG HÙNG XÁC ĐỊNH CÂU SO SÁNH TRONG TÀI LIỆU VĂN BẢN TIẾNG ANH LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội – 2014 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ LÊ QUANG HÙNG XÁC ĐỊNH CÂU SO SÁNH TRONG TÀI LIỆU VĂN BẢN TIẾNG ANH Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã Số: 60480104 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS NGUYỄN VĂN VINH TS NGUYỄN PHÚ BÌNH Hà Nội – 2014 LỜI CẢM ƠN Tôi xin gửi lời cảm ơn chân thành tới T.S Nguyễn Văn Vinh T.S Nguyễn Phú Bình – người tận tình bảo, góp ý giúp đỡ tơi hồn thành luận văn Tôi xin chân thành cảm ơn thầy cô giáo Khoa Công Nghệ Thông Tin, Trường Đại Học Công Nghệ, Đại Học Quốc Gia Hà Nội truyền đạt lại cho kiến thức vô bổ ích suốt q trình tơi tham gia học tập nghiên cứu trường Tôi xin chân thành cảm ơn gia đình, bạn bè, đồng nghiệp ln động viên giúp đỡ tơi gặp khó khăn tạo điều kiện thuận lợi để tơi hồn thành nhiệm vụ học tập nghiên cứu suốt thời gian qua LỜI CAM ĐOAN Tôi xin cam đoan kết luận văn nghiên cứu, tổng hợp thực Toàn nội dung luận văn kết cá nhân tơi tổng hợp từ nguồn tài liệu khác Tất nguồn tài liệu có nguồn gốc rõ ràng trích dẫn đầy đủ Tơi xin hồn tồn chịu trách nhiệm với lời cam đoan Nếu có sai trái, tơi xin chịu hình thức kỷ luật theo quy định Hà Nội, tháng 11 năm 2014 Học viên Lê Quang Hùng MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN MỤC LỤC DANH MỤC CÁC KÝ HIỆU, TỪ VIẾT TẮT DANH MỤC HÌNH VẼ DANH MỤC BẢNG MỞ ĐẦU CHƯƠNG – TỔNG QUAN VỀ PHÂN TÍCH QUAN ĐIỂM 10 1.1 Phân lớp quan điểm 11 1.1.1 Phân lớp dựa cụm từ thể quan điểm 12 1.1.2 Phân lớp dựa phương pháp phân lớp văn 15 1.1.3 Phân lớp sử dụng hàm hệ số 16 1.2 Khai phá quan điểm dựa đặc trưng tóm tắt 17 1.2.1 Định nghĩa toán 17 1.2.2 Trích rút đặc trưng đối tượng 24 1.2.3 Phân lớp định hướng quan điểm 31 1.3 Khai phá câu so sánh quan hệ so sánh 32 CHƯƠNG – KHAI PHÁ CÂU SO SÁNH 34 2.1 Định nghĩa toán 34 2.2 Phương pháp tiếp cận 36 2.3 Luật phân lớp 37 2.3.1 Định nghĩa 37 2.3.2 Xây dựng sở liệu luật 38 2.4 Học phân lớp 41 CHƯƠNG – THỰC NGHIỆM 43 3.1 Quá trình thực nghiệm 43 3.2 Chuẩn bị liệu xây dựng phân lớp 44 3.3 Kết thực nghiệm 48 KẾT LUẬN 51 TÀI LIỆU THAM KHẢO 52 DANH MỤC CÁC KÝ HIỆU, TỪ VIẾT TẮT STT Từ viết tắt Tiếng Anh Tiếng Việt CSR Class Sequential Rules Luật phân lớp CRF Conditional Random Fields LSR Label Sequential Rules Luật gán nhãn NPL Natural Language Processing Xử lý ngôn ngữ tự nhiên POS Part Of Speech Từ loại PMI Pointwise Mutual Information Thông tin tương hỗ theo điểm SO Semantic/opinion Orientation Hướng quan điểm DANH MỤC HÌNH VẼ Hình 1.1: Ví dụ bảng tóm tắt quan điểm dựa đặc trưng 21 Hình 1.2: Bảng tóm tắt so sánh trực quan dựa đặc trưng 22 Hình 1.3: Ví dụ đánh giá dạng 25 Hình 1.4: Ví dụ đánh giá dạng 25 Hình 1.5: Ví dụ đánh giá dạng 25 Hình 2.1: Phương pháp tiếp cận Nitin Jindal Bing Liu 36 Hình 2.2: Giải thuật CSR-Apriori 41 Hình 3.1: Các bước trình thực nghiệm 43 Hình 3.2: Tỷ lệ phân bổ liệu 44 Hình 3.3: Dữ liệu đầu vào 45 Hình 3.4: Gán thẻ từ loại xây dựng sở liệu luật 47 Hình 3.5: Thực giải thuật CSR-Apriori 47 Hình 3.6: Huấn luyện phân lớp 48 Hình 3.7: So sánh phương pháp 49 Hình 3.8: Biến thiên độ đo Precision thay đổi kích thước tập huấn luyện 50 DANH MỤC BẢNG Bảng 1.1: Thẻ từ loại theo chuẩn Penn Treebank 12 Bảng 1.2: Các mẫu tags để trích xuất cụm từ từ đánh giá 14 Bảng 2.1: Ví dụ sở liệu luật cho khai phá CSR 38 Bảng 3.1: Số lượng liệu 44 Bảng 3.2: Tham số cho giải thuật CSR-Apriori 45 Bảng 3.3: Từ khóa 46 Bảng 3.4: Kết thực nghiệm 49 MỞ ĐẦU Những năm gần đây, nghiên cứu miền ứng dụng xử lý ngôn ngữ tự nhiên (NPL – Natural Language Processing) ngày phát triển hỗ trợ đắc lực cho người việc xác định trích xuất liệu cần thiết từ kho liệu trang Web hàng ngàn, hàng vạn báo, đánh giá… mà trực tiếp thực Việc trích xuất liệu cách xác tạo tạo tiền đề phát triển cho nhiều ứng dụng phân tích quan điểm Trong mơi trường kinh doanh, sản phẩm đưa thị trường, nhà sản xuất muốn biết quan điểm người tiêu dùng sản phẩm họ, so sánh sản phẩm với sản phẩm đối thủ cạnh tranh Trong thời đại bùng nổ thông tin nay, hầu hết thơng tin sẵn có trang Web dạng tin tức, đánh giá khách hàng, thảo luận diễn đàn, mạng xã hội, …Việc trích xuất thơng tin quan trọng cho nhà kinh doanh việc đưa kế hoạch tiếp thị đánh giá tính hiệu sản phẩm thị trường Bên cạnh đó, việc so sánh hữu ích cho khách hàng tiềm họ, giúp khách hàng đưa định mua hàng sáng suốt Qua ta thấy việc so sánh cách đánh giá thuyết phục mặt hàng nói riêng đối tượng nói chung Câu so sánh có liên quan đến thể quan điểm trực tiếp có nhiều điểm khác biệt Đó là, câu so sánh thường diễn tả quan điểm hai hay nhiều thực thể dựa đặc trưng hay thuộc tính giống chúng Câu thể quan điểm trực tiếp thông dụng câu so sánh sử dụng rộng rãi, chiếm tỷ lệ 10% văn thể quan điểm người dùng tạo Web [10] Việc xác định câu so sánh bước tiền xử lý quan trọng, tạo tiền đề cho việc phát triển lĩnh vực phân tích quan điểm khác mảng khai phá so sánh Hiện giới có nhiều cơng trình nhà nghiên cứu tiến hành để giải tốn khai phá so sánh ngơn ngữ khác Trong luận văn này, sử dụng phương pháp học máy kết hợp với luật phân lớp để giải toán “Xác định câu so sánh tài liệu văn tiếng Anh” Qua đưa đánh giá phương pháp nghiên cứu định hướng mở rộng nghiên cứu dựa kết luận văn Bố cục luận văn gồm chương sau: Chương 1: Tổng quan phân tích quan điểm, tập trung giới thiệu tầm quan trọng ứng dụng phân tích quan điểm, nhiệm vụ chính, tốn áp dụng phương pháp giải quyết, có toán khai phá so sánh Chương 2: Khai phá câu so sánh, phân tích chi tiết tốn khai phá câu so sánh văn tiếng Anh phương pháp tiếp cận để giải toán Chương 3: Thực nghiệm, tóm lược kết cài đặt thực nghiệm cách tiếp cận trình bày chương để giải toán xác định câu so sánh văn tiếng Anh 38 Ta biểu diễn luật phân lớp phép kéo theo dạng: X → y, với X dãy, y ∈ Y Một liệu (si, yi) D cho bao phủ (cover) CSR X dãy si Một liệu (si, yi) cho thỏa mãn (satisfy) CSR X dãy si yi = y Độ hỗ trợ (support) luật tỷ lệ tổng ví dụ D thỏa mãn X với tổng ví dụ D Độ tin cậy (confident) luật tỷ lệ ví dụ D thoản mãn X với ví dụ D bao X Cho tập liệu dãy gán nhãn D, ngưỡng cho độ hỗ trợ tối thiểu (minsup) độ tin cậy tối thiểu (minconf), giải thuật khai phá CSR tìm tất CSR D để xây dựng tập liệu huấn luyện cho phân lớp Bảng 2.1 đưa ví dụ sở liệu dãy với dãy thuộc lớp khác c1 c2 Sử dụng ngưỡi minsup=20%, minconf=40%, CSR khai phá là: 〈{1}{3}{7, 8}〉 → c1 [support = 2/5 and confidence = 2/3] Dãy thỏa mãn luật, dãy 1, 2, bao phủ luật Bảng 2.1: Ví dụ sở liệu luật cho khai phá CSR STT Dãy Lớp 〈{1}{3}{5}{7, 8, 9}〉 c1 〈{1}{3}{6}{7, 8}〉 c1 〈{1, 6}{9}〉 c2 〈{3}{5, 6}〉 c2 〈{1}{3}{4}{7, 8}〉 c2 2.3.2 Xây dựng sở liệu luật Trong mục trình bày cách thức xây dựng sở liệu luật từ liệu văn Phương pháp thực cấp độ câu, câu coi dãy Ta sử dụng trực tiếp từ câu nhiều câu có nội dung khác lại có mẫu ngơn ngữ 39 Ví dụ 12: Cho câu so sánh “Intel is better than Amd”, and “Laptops are smaller than desktop PCs” Hai câu hai câu so sánh hai cặp đối tượng khác Bằng cách so sánh từ câu hệ thống khơng thể nhận biết chúng có mẫu ngơn ngữ Nếu thay từ thẻ từ loại chúng, việc trở nên rõ ràng Trong phần thực nghiệm chương sau, sử dụng công cụ gán thẻ từ loại Stanford POS Tagger để thực gán thẻ từ loại cho liệu văn Sử dụng từ khóa Việc sử dụng từ khóa đem lại độ hồi tưởng cao độ xác lại thấp Chúng xem xét câu có chứa từ khóa, sau tạo luật phân lớp để lọc câu câu so sánh Trong q trình sinh liệu, câu khơng chứa từ khoá loại bỏ Tập từ khóa bao gồm: Tính từ so sánh hơn: (với thẻ từ loại JJR) đại từ so sánh (với thẻ từ loại RBR), ví dụ, more, less, better, longer từ kết thúc hậu tố –er Tính từ so sánh nhất: (với thẻ từ loại JJS) đại từ so sánh (với thẻ từ loại RBS), ví dụ, most, least, best, smallest từ kết thúc hậu tốt –est Các từ khóa như: same, similar, differ, as same as, as well as, vv Các từ khóa khác như: favor, beat, win, exceed, outperform, prefer, ahead, than, superior, inferior, number one, up against, vv Ở đây, từ với thẻ từ loại JJR, RBR, JJS RBS khơng coi từ khóa Thay vào đó, thẻ từ loại chúng JJR, RBR, JJS RBS, coi từ khố Có bốn trường hợp ngoại lệ: more, less, most, least coi từ khố riêng lẻ cách sử dụng chúng đa dạng, ta sử dụng chúng từ khoá riêng lẻ giúp hệ thống nắm bắt kiểu sử dụng riêng biệt để phân loại Xây dựng tập liệu luật  Bước 1: Với câu chứa từ khóa, ta sử dụng từ bán kính từ từ khóa Lý mẫu ngơn ngữ xác định câu so sánh thường xuất bán kính từ từ khóa so sánh Nếu sử dụng bán kính lớn nhỏ cho kết không thực tốt [9], chứng minh thực nghiệm 40  Bước 2: Mỗi từ thay thẻ từ loại chúng thay sử dụng trực tiếp từ Riêng với từ khóa, ta thực ghép từ khóa với thẻ từ loại chúng để tạo thành phần tử Lý từ khóa lại có thẻ từ loại khác tùy theo ngữ cảnh chúng sử dụng Ví dụ từ khóa “more” tính từ so sánh (more/JJR) trạng từ so sánh (more/RBR)  Bước 3: Một nhãn lớp gán cho câu tùy theo câu câu so sánh hay khơng phải Ví dụ 14: Cho câu so sánh thẻ từ loại Its_PRP$ fast-forward_JJ and_CC rewind_JJ work_NN much_RB more_RBR smoothly_RB and_CC consistently_RB than_IN those_DT of_IN other_JJ models_NNS i_FW 've_VBP had_VBN Luật sinh đưa vào sở liệu có dạng sau: 〈{JJ}, {NN}, {RB}, {moreRBR}, {RB}, {CC}, {RB}〉  Nếu câu có chứa nhiều từ khóa, từ khóa sinh luật vào sở liệu Giải thuật khai phá Từ tập liệu CSR ban đầu, thực khai phá CSR Các bước giải thuật khai phá tương tự khai phá luật kết hợp có gán nhãn lớp (Class Association Rules CAR) [1], dựa tư tưởng giải thuật Apriori khai phá luật kết hợp Ta gọi giải thuật CSR-Apriori (hình 2.1) Giống giải thuật Apriori, CSR-Apriori sinh tất luật phổ biến, việc duyệt qua tồn liệu Trước tiên, giải thuật tính độ hỗ trợ cho tất luật đơn (luật chứa mục) Tập luật đơn sinh việc kết hợp mục I với nhãn lớp (dòng 1): C1 = {(i  y) | i  I, y  Y} Ở đây, I phần tử dãy nằm vế trái luật sinh bước trước đó, I= {JJ, NN, RB, moreRBR, CC, …}, Y tập nhãn lớp, Y = {comparative, non-comparative} 41 C1 = {(i  y) | i  I, y  Y}; F1  {f | f  C1, f.ruleSatisfyCount/n ≥ minsup}; CSR1  {f | f  F1, f.ruleSatisfyCount/f.ruleCoverCount ≥ minconf}; for (k = 2; Fk-1 ≠ Ø; k++) Ck  CSRcandidate-gen(Fk-1); for each transaction t  T 10 11 12 13 for each candidate c  Ck if t cover c then // c is a subset of t c.ruleCoverCount ++; if t.class = c.class then c.ruleSatisfyCount ++ endfor endfor 14 Fk  {c  Ck | c.ruleSatisfyCount/n ≥ minsup}; 15 CSRk  {f | f  Fk, f.ruleSatisfyCount/f.ruleCoverCount ≥ minconf}; 16 endfor 17 return CSR  k CSRk; Hình 2.2: Giải thuật CSR-Apriori Dòng xác định xem luật đơn phổ biến (thỏa mãn minsup) Từ luật đơn phổ biến, thực sinh tập CSR1 sử dụng ngưỡng minconf Trong bước duyệt k tiếp theo, từ tập hạt giống luật phổ biến có k-1 phần tử sinh bước k-1, giải thuật sinh tập luật phổ biến Ck gồm k phần tử (dòng 5) Giải thuật sinh ứng viên CSRcandidate-gen gồm bước Nối: Các dãy ứng viên sinh ghép nối Fk-1 với Fk-1 Dãy s1 ghép nối với s2 dãy sinh việc bỏ phần tử s1 giống với dãy sinh việc bỏ phần tử cuối s2 Các dãy có nhãn lớp ghép nối với Dãy ứng viên phải thỏa mãn độ hỗ trợ tối thiểu (minsup) Cắt tỉa: Dãy ứng viên bị cắt tỉa dãy k-1 chúng không thỏa mãn độ tin cậy tối thiểu (minconf) 2.4 Học phân lớp Các CSR cho thấy câu có khả câu so sánh có chứa mẫu ngơn ngữ so sánh Mơ hình phân lớp Nạve Bayesian (NB) cung cấp giải pháp tốt để giải vấn đề Mô hình thực tính tốn xác xuất có điều kiện dựa việc thống kê mẫu ngôn ngữ để định phân lớp Đây mơ hình đơn giản, dễ xây dựng, 42 không sử dụng nhiều tham số ước lượng phức tạp sử dụng rộng rãi học máy Vì chúng tơi sử dụng Naïve Bayesian để thực nghiệm phân lớp câu so sánh hai lớp: câu so sánh câu so sánh Các đặc trưng cho phân lớp vế trái CSR, bao gồm thẻ từ loại từ khóa Trong phạm vi luận văn này, không đề cập đến vấn đề lý thuyết xác suất Bayes cách thức xây dựng mơ hình phân lớp văn Chi tiết xin đọc [14], [15] [16] Kết thực nghiệm trình bày chương luận văn 43 CHƯƠNG – THỰC NGHIỆM Trong chương này, chúng tơi trình bày q trình thực nghiệm giải toán “Xác định câu so sánh tài liệu văn tiếng Anh” phương pháp tiếp cận trình bày chương  Đầu vào: Cho câu tiếng Anh  Đầu ra: Chương trình thực nghiệm tiến hành phân loại câu cho hai lớp: câu so sánh câu so sánh Để thực trình thực nghiệm này, phân lớp Nạve Bayesian chúng tơi xây dựng với tập liệu huấn luyện gồm luật phân lớp sinh từ văn theo bước trình bày chương Các bước xử lý liệu ước lượng tham số trình bày tiếp sau 3.1 Quá trình thực nghiệm Xây dựng • Thu thập liệu • POS tagging • CSR-Apriori Chuẩn bị liệu phân lớp • Xây dựng mơ hình phân lớp NB • Huấn luyện • Phân lớp • Thống kê kết phân lớp • Đánh giá Phân lớp đánh giá Hình 3.1: Các bước trình thực nghiệm Chúng tơi thực cài đặt bước q trình thực nghiệm ngôn ngữ Java công cụ lập trình Eclipse Kepler  Quá trình thực nghiệm chạy máy tính có vi xử lý Intel Core i5-4274U 2.6Ghz, Ram 8GB  Thời gian chạy xử lý liệu 240 đến 320 giây  Thời gian phân lớp 30 giây 44 3.2 Chuẩn bị liệu xây dựng phân lớp Dữ liệu sử dụng chương trình thực nghiệm thu thập từ nhiều nguồn khác nhau:  Các đánh giá khách hàng sản phẩm: máy ảnh kỹ thuật số, đầu DVD, máy chơi nhạc MP3, điện thoại di động Những đánh tổng hợp từ trang http://www.amazon.com/  Các thảo luận diễn đàn từ nhiều trang khác chủ đề so sánh Intel với AMD, Coca với Pepsi, Microsoft với Google, Apple Microsoft  Một số viết ngẫu nhiên ô tô, máy nghe nhạc iPod bóng đá Chúng tơi kế thừa liệu thực nghiệm sử dụng [9] [10] đồng thời tiến hành thu thập bổ sung thêm đánh giá sản phẩm điện thoại, thảo luận đánh giá từ các website: http://www.cnet.com/, http://www.macworld.co.uk/ Dữ liệu gán nhãn thủ công thành loại với phân bổ số lượng câu bảng 3.1 hình 3.2 Bảng 3.1: Số lượng liệu Số lượng Nhãn Câu so sánh 1548 Câu so sánh 2677 Tổng 4225 Loại câu 37% 63% Câu so sánh Câu khơng phải so sánh Hình 3.2: Tỷ lệ phân bổ liệu 45 Đầu vào cho chương trình lưu dạng tệp văn Hình 3.3: Dữ liệu đầu vào Các tham số cho chương trình Bảng 3.2: Tham số cho giải thuật CSR-Apriori Tham số Giá trị RADIUS_OF_KEYWORD Mô tả Số lượng từ hai phía từ khóa, sử dụng để sinh CSR CSR_MIN_SUP 0.08 Độ hỗ trợ tối thiểu – Minisup CSR_MIN_CONF 0.45 Độ tin cậy tối thiểu – Minconf Thực gán thẻ từ loại công cụ Standford POS Tagger sinh luật giải thuật CSR-Apriori Tại bước này, danh sách từ khóa sử dụng (bảng 3.3) Lý cách thức sử dụng chúng tơi trình bày mục 2.3.2 Các tham số RADIUS_OF_KEYWORD, CSR_MIN_SUP, CSR_MIN_CONF thiết lập cho bước này, trình sinh luật ghi lại hình 3.4 3.5 46 Bảng 3.3: Từ khóa Thẻ JJR Thẻ RBR Thẻ JJS Thẻ RBS beat inferior outstrip both on par with choice choose prefer recommend outperform superior all up against less favor defeat twice thrice half same either compete number one one of few more like behind similar identical versus first outdistance before double outsell nobody vs last after thrice improve equal equivalent together altogether alternate only outmatch ahead fraction outdo match unmatched peerless differ one of few outwit rival alternate compare top exceed lead win outstrip none near unrivaled dominate second nonpareil advantage unlike least outclass outfox outdistance most 47 Hình 3.4: Gán thẻ từ loại xây dựng sở liệu luật Hình 3.5: Thực giải thuật CSR-Apriori Sau xây dựng xong sở liệu gồm luật, tiến hành huấn luyện cho mơ hình phân lớp Nạve Bayesian chúng tơi xây dựng Hình 3.6 ghi lại trình huấn luyện phân lớp 48 Hình 3.6: Huấn luyện phân lớp 3.3 Kết thực nghiệm Với số lượng câu đưa vào thử nghiệm trình bày mục 3.1, hệ thống tiến hành tiến hành phân lớp: câu so sánh câu so sánh Sử dụng kỹ thuật cross validation, tiến hành chia tập liệu ban đầu thành tập nhau, tập gồm 1050 câu với phân bổ 37% câu so sánh 63% câu so sánh Chạy lần thử nghiệm, sử dụng tập làm liệu huấn luện tập lại làm liệu kiểm tra Kết ghi lại bảng 3.4 với độ đo trung bình là:  Precision – tỷ lệ câu so sánh phân lớp tổng số câu phân vào lớp câu so sánh: 62%  Recall – tỷ lệ câu so sánh phân lớp tổng số câu thuộc lớp câu so sánh: 91%  F-score – giá trị trung bình điều hịa cùa Precision Recall: 73.7% Như chúng tơi trình bày phần trước, toán xác định câu so sánh bước tiền xử lý, làm đầu vào cho tốn phân tích quan điểm khác nên ta quan tâm 49 trực tiếp vào kết phân lớp cho câu so sánh Kết phân lớp xác đầu vào tốt, giúp ứng dụng phân tích quan điểm khác đạt hiệu cao Ở đây, độ đo Precision 62%, cải thiện nhiều so với kết 32% phương pháp sử dụng từ khóa [9] nhiên có lượng khơng nhỏ câu so sánh bị phân lớp nhầm vào lớp câu so sánh Đồng thời độ đo Recall trung bình đạt 91%, xấp xỉ phương pháp sử dụng từ khóa Điều cho thấy hiệu phương pháp tiếp cận thực nghiệm: trì độ đo Recall cải thiện độ đo Precision (hình 3.7) Bảng 3.4: Kết thực nghiệm Độ đo (%) Lần thử Precision Recall F-score 62.9 90.4 74.2 59.3 89.1 71.2 64.8 97.2 77.8 60.8 87.1 71.6 Trung bình 62.0 91.0 73.7 94% 100% 91% 90% 80% 60% 50% 40% 30% 20% 10% 0% 74% 62% 64% 70% 54% 46% 48% 32% Từ loại JJR, JJS, RBR, RBS Precision Từ khóa Recall CSR & NB Fscore Hình 3.7: So sánh phương pháp 50 Tiếp theo, để kiểm tra ảnh hưởng số lượng liệu huấn luyện với kết phân lớp, thực thử nghiệm với tập kiểm tra cố định kích thước 1000 câu tập huấn luyện có kích thước 2000 câu, 2500 câu, 3000 câu 3225 câu (phân bổ 37:63) Dữ liệu biến thiên độ đo Precision có xu hướng tăng nhỏ, bước nhảy kích thước tập huấn luyện chưa đủ lớn (hình 3.8) 63.3 63.2 2000 63.2 63.2 2500 3000 3225 Kích thước tập huấn luyện (câu) Precision (%) Hình 3.8: Biến thiên độ đo Precision thay đổi kích thước tập huấn luyện 51 KẾT LUẬN Trong trình làm luận văn, chúng tơi đạt kết sau: - - - Tập trung nghiên cứu tốn miền ứng dụng phân tích quan điểm Qua tìm hiểu nhiệm vụ quan trọng phân tích quan điểm, thấy tầm quan trọng nhiệm vụ khai phá so sánh cụ thể toán xác định câu so sánh miền ứng dụng Tìm hiểu đặc điểm ngơn ngữ cách tiếp cận để giải toán xác định câu so sánh tiếng Anh phương pháp học máy có giám sát kết hợp với luật phân lớp Thực nghiệm xây dựng mơ hình xác định câu so sánh với liệu thực nghiệm sử dụng trực tiếp đánh giá, thảo luận diễn đàn phản hồi sản phẩm khách hàng từ trang mua bán hàng trực tuyến Dữ liệu thực tế đem lại kết thực nghiệm với độ đo Precision=62% Recall=91% Trong thời gian tới, chúng tơi có định hướng phát triển sau: - Tiếp tục cải tiến mơ hình, thực nghiệm với liệu câu so sánh lĩnh vực khác; thử nghiệm độ ổn định mơ hình với tập liệu lớn Thực nghiệm phân loại câu so sánh tiếng Anh lớp câu so sánh khác trình bày mục 2.1 Sử dụng kết làm đầu vào cho tốn trích rút quan hệ so sánh 52 TÀI LIỆU THAM KHẢO Tiếng Anh [1] Bing Liu (2006), Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data, 1st Edition, Springer, Chapter 11 [2] Peter D Turney (2002), Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews, ACL’02 [3] Beatrice Santorini (1990) Part-of-Speech Tagging Guidelines for the Penn Treebank Project, Department of Computer and Information Science, University of Pennsylvania [4] B Pang, L Lee, and S Vaithyanathan (2002), Thumbs up? Sentiment Classification Using Machine Learning Techniques EMNLP’02 [5] K Dave, S Lawrence, and D Pennock (2003), Mining the Peanut Gallery: Opinion Extraction and Semantic Classification of Product Reviews WWW’03 [6] Minqing Hu, Bing Liu (2006), Opinion Feature Extraction Using Class Sequential Rules, AAAI’06 [7] A.-M Popescu, and O Etzioni (2005) Extracting Product Features and Opinions from Reviews EMNLP’05 [8] Nitin Jindal and Bing Liu (2006), Mining Comparative Sentences and Relations, AAAI’06 [9] Nitin Jindal and Bing Liu (2006), Identifying Comparative Sentences in Text Documents, SIGIR’06 [10] Murthy Ganapathibhotla, Bing Liu (2008), Mining Opinions in Comparative Sentences, COLING 2008 [11] F.Hou and G Li (2008), Mining Chinese comparative sentences by semantic role labeling, Machine Learning and Cybernetics 2008 [12] S.Yang and Y.Ko (2008), Extracting Comparative Sentences from Korean Text Documents Using Comparative Lexical Patterns and Machine Learning Techniques, ACL-IJCNLP2009 [13] Alaa El-Halees (2012), Opinion mining from Arabic Comparative, ACIT’2012 [14] Ben Coppin (2004), Artificial Intelligence Illuminated, Jones and Bartlett, Chapter 12 [15] Tom M Mitchell (1997), Machine Learning, McGraw Hill, Chapter [16] Dan Jurafsky, Text Classification and Naïve Bayes, Standford University Lecture Slide, https://web.stanford.edu/class/cs124/lec/naivebayes.pdf

Định dạng
Số trang	53
Dung lượng	1,65 MB