(Luận văn thạc sĩ) nghiên cứu phương pháp trích chọn đặc trưng trong bài toán khai phá quan điểm và ứng dụng

4 MỤC LỤC Trang phụ bìa Lời cam đoan MỤC LỤC Danh mục bảng Danh mục hình vẽ, đồ thị MỞ ĐẦU Chƣơng GIỚI THIỆU 1.1 Khai phá quan điểm 1.2 Trích chọn đặc trƣng khai phá quan điểm dựa đặc trƣng 10 1.2.1 Một số khái niệm 11 1.2.2 Trích chọn đặc trƣng khai phá quan điểm dựa đặc trƣng 13 Tóm tắt chƣơng 15 Chƣơng MỘT SỐ PHƢƠNG PHÁP TIẾP CẬN GIẢI QUYẾT BÀI TỐN TRÍCH CHỌN ĐẶC TRƢNG TRONG KHAI PHÁ QUAN ĐIỂM 16 2.1 Một số nghiên cứu trích chọn đặc trƣng khai phá quan điểm 16 2.2 Phƣơng pháp trích chọn đặc trƣng dựa tập phổ biến 17 2.3 Phƣơng pháp trích chọn đặc trƣng dựa lan truyền kép 20 2.4 Vấn đề gộp nhóm đặc trƣng 25 2.5 Nhận xét 26 Tóm tắt chƣơng 27 Chƣơng BÀI TỐN TRÍCH CHỌN ĐẶC TRƢNG MÁY ẢNH SỐ TRONG KHAI PHÁ QUAN ĐIỂM 28 3.1 Mô tả toán ý tƣởng giải 28 3.2 Xây dựng mơ hình hệ thống 28 3.2.1 Pha - Xây dựng sở liệu đặc tả sản phẩm 29 3.2.2 Pha - Sinh tập ứng viên đặc trƣng 31 3.2.3 Pha - Xếp hạng, nhóm gộp 35 3.2.3.1 Xếp hạng đặc trƣng 36 3.2.3.2 Nhóm gộp đặc trƣng 36 Tóm tắt chƣơng 39 Chƣơng THỰC NGHIỆM VÀ ĐÁNH GIÁ 40 4.1 Môi trƣờng công cụ sử dụng thực nghiệm 40 4.2 Xây dựng tập liệu 41 4.2.1 Xây dựng tập liệu đánh giá 42 4.2.2 Xây dựng tập liệu đặc tả 42 4.3 Thực nghiệm đánh giá 42 4.3.1 Trích chọn đặc trƣng 42 4.3.2 Xếp hạng đặc trƣng 46 4.3.3 Nhóm gộp đặc trƣng 47 4.3.3.1 Đánh giá độ xác 48 4.3.3.1 Đánh giá độ giảm dƣ thừa 48 Tóm tắt chƣơng 49 KẾT LUẬN 50 Kết đạt đƣợc luận văn 50 Định hƣớng tƣơng lai 50 Tài liệu tham khảo 51 Danh mục bảng Bảng 4.1 Cấu hình hệ thống thử nghiệm 40 Bảng 4.2 Công cụ phần mềm sử dụng 40 Bảng 4.3: Dữ liệu loại máy ảnh thực nghiệm 43 Bảng 4.4: Kết thực nghiệm độ xác phương pháp Hu, DP, nDP 44 Bảng 4.5: Kết thực nghiệm độ hồi tưởng phương pháp Hu, DP, nDP 44 Bảng 4.6: Kết thực nghiệm độ đo F1 phương pháp Hu, DP, nDP 45 Bảng 4.7: Kết thực nghiệm độ xác xếp hạng 50% ứng viên đặc trưng (so với không xếp hạng) 46 Bảng 4.8: Kết thực nghiệm độ hồi tưởng độ đo F1 xếp hạng 50% ứng viên đặc trưng (so với không xếp hạng) 46 Bảng 4.9: Kết độ xác, độ giảm dư thừa nhóm gộp đặc trưng 49 Danh mục hình vẽ, đồ thị Hình 1.1: Một ứng dụng khai phá tổng hợp quan điểm dựa đặc trưng Hình 1.2: Các bước tổng hợp quan điểm dựa đặc trưng 10 Hình 1.3: Ví dụ biểu diễn đối tượng 11 Hình 1.4: Ví dụ minh họa số khái niệm khai phá quan điểm từ đánh giá trang web http://epinions.com 13 Hình 1.5: Ví dụ tổng hợp quan điểm dựa đặc trưng 14 Hình 2.1: Mơ hình trích chọn đặc trưng Hu Liu 17 Hình 2.3: Cây phân tích cú pháp câu “The camera has good screen” 21 Hình 2.2: Các loại mối quan hệ phụ thuộc ngữ pháp A B 21 Hình 3.1: Mơ hình hệ thống trích chọn đặc trưng 29 Hinh 3.2: Pha Xây dựng sở liệu đặc tả sản phẩm 29 Hình 3.3 : Mô tả cấu trúc đặc trưng loại máy ảnh 31 Hinh 3.4 : Pha Sinh tập ứng viên đặc trưng 32 Hình 3.5: Mơ tả file xml xử lý ngôn ngữ tự nhiên cho file văn đánh giá 33 Hình 3.6: Pha Xếp hạng, đối sánh 35 Hình 4.1: Cấu trúc cài đặt chương trình 41 Hình 4.2: Mô tả phần phân cấp đặc trưng máy ảnh 47 MỞ ĐẦU Với phát triển Internet hệ thống bán hàng trực tuyến, thông tin đặc tả đánh giá nhận xét ngƣời dùng sản phẩm ngày phong phú Tuy nhiên số lƣợng thông tin Internet vơ lớn, gây khó khăn cho ngƣời mua hàng việc phân tích tổng hợp ý kiến ngƣời dùng trƣớc để đƣa định mua hay không mua sản phẩm Do vậy, toán đặt cần tổng hợp nguồn đánh giá sản phẩm phong phú này, với tốn trích chọn đặc trƣng biểu diễn đối tƣợng đƣợc ngƣời dùng đề cập đến đánh giá Đây tốn mà luận văn tập trung giải Luận văn định hƣớng tìm hiểu phƣơng pháp trích chọn đặc trƣng biểu diễn đối tƣợng ta quan tâm, sở đề xuất phƣơng pháp phù hợp thử nghiệm hệ thống tốn trích chọn đặc trƣng sản phẩm máy ảnh Cấu trúc luận văn gồm chƣơng Chương 1: Đặt vấn đề giới thiệu tổng quan tốn khai phá quan điểm nói chung nhƣ số khái niệm liên quan khai phá quan điểm dựa đặc trƣng, từ phát biểu tốn trích chọn đặc trƣng ngữ cảnh khai phá quan điểm đặc trƣng sản phẩm Chương 2: Trình bày số giải pháp mơ hình hệ thống trích chọn đặc trƣng biểu diễn đối tƣợng làm sở cho việc khai phá tóm tắt quan điểm đƣợc thể văn Trên sở tìm hiểu, luận văn đề xuất phƣơng pháp tiếp cận để giải tốn trích chọn đặc trƣng khai phá quan điểm Chương 3: Ứng dụng phƣơng pháp đề xuất vào hệ thống trích chọn đặc trƣng biểu diễn đối tƣợng máy ảnh Chương 4: Kết thực nghiệm trích chọn đặc trƣng mơ hình hệ thống đề xuất Phần kết luận: Tóm lƣợc nội dung đạt đƣợc luận văn đồng thời điểm cần khắc phục đƣa định hƣớng nghiên cứu tƣơng lai Chƣơng GIỚI THIỆU 1.1 Khai phá quan điểm Hình 1.1: Một ứng dụng khai phá tổng hợp quan điểm dựa đặc trưng Trên giới nói chung Việt Nam nói riêng, thƣơng mại điện tử trở nên phổ biến ngày phát triển Một phần quan trọng thƣơng mại điện tử bán hàng trực tuyến Số lƣợng ngƣời mua hàng trực tuyến gia tăng, số lƣợng đánh giá, nhận xét ngƣời dùng sản phẩm ngày nhiều Một sản phẩm thơng dụng có hàng trăm, hàng nghìn đánh giá Cùng với trang web bán hàng trực tuyến trang web đánh giá sản phẩm nhƣ epinions.com, dpreview.com, Các trang web nơi ngƣời tiêu dùng viết đánh giá sản phẩm Các đánh giá đƣợc đăng trang web loại cần tuân theo số quy định trang web đƣa đƣợc chấm điểm đông đảo ngƣời dùng trang web vào độ tin cậy, hợp lý hữu dụng mà đánh giá mang lại Chính vậy, đánh giá từ trang web loại đƣợc coi nguồn tổng hợp lớn đánh giá sản phẩm “tin cậy” từ khách hàng Đây nguồn thông tin quan trọng, cung cấp cho ngƣời mua hàng nhìn tồn diện sản phẩm mà họ định mua Còn nhà sản xuất, đánh giá khách hàng sở để tiến hành cải tiến, hoàn thiện sản phẩm Tuy nhiên, vấn đề đặt số lƣợng ý kiến đánh giá lớn Điều gây khó khăn cho ngƣời mua hàng nhà sản xuất Ngƣời mua hàng gặp khó khăn việc tổng hợp ý kiến ngƣời tiêu dùng trƣớc để đƣa định mua hay không mua sản phẩm Cịn nhà sản xuất khó theo dõi, nắm bắt đƣợc tất phản hồi ngƣời tiêu dùng sản phẩm Thực tế làm nảy sinh yêu cầu tổng hợp tất nhận xét khách hàng đặc trƣng sản phẩm trang web đánh giá sản phẩm Giải yêu cầu thực tế nhƣ 10 nhiệm vụ toán khai phá quan điểm, cụ thể toán khai phá tổng hợp quan điểm dựa đặc trƣng Khai phá quan điểm thuộc vào lĩnh vực khai phá văn bản, liên quan đến việc áp dụng giải pháp xử lý ngôn ngữ tự nhiên học máy để trích xuất xác định quan điểm đƣợc thể văn Khai phá quan điểm dựa đặc trƣng ba toán khai phá quan điểm, bao gồm: toán phân lớp quan điểm, toán khai phá tổng hợp quan điểm dựa đặc trƣng toán khai phá quan hệ so sánh Bài toán khai phá tổng hợp quan điểm dựa đặc trƣng nhằm mục tiêu tạo tổng hợp quan điểm dựa đặc trƣng sản phẩm đƣợc ngƣời dùng đề cập văn từ xác định ý kiến đánh giá đƣợc đƣa Về bản, việc tổng hợp quan điểm dựa đặc trƣng đƣợc thực nhƣ sau: Xác định đặc trƣng đối tƣợng Xác định phân loại ý kiến đặc trƣng đối tƣợng Tạo tổng hợp ý kiến theo đặc trƣng đối tƣợng Hình 1.2: Các bước tổng hợp quan điểm dựa đặc trưng Nhƣ vậy, nhiệm vụ quan trọng để giải toán loại xác định đặc trƣng đối tƣợng mà ngƣời dùng nhận xét, đánh giá Đây nội dung trọng tâm mà luận văn tìm hiểu giải 1.2 Trích chọn đặc trƣng khai phá quan điểm dựa đặc trƣng Trong toán khai phá tổng hợp quan điểm dựa đặc trƣng, vấn đề quan trọng cần giải trích chọn đặc trƣng biểu diễn đối tƣợng đƣợc đề cập đến đánh giá Trong phần luận văn trình bày số khái niệm liên quan đến đặc trƣng toán khai phá quan điểm dựa đặc trƣng mơ hình hóa tốn 11 1.2.1 Một số khái niệm Đối tượng (Object) đặc trưng đối tượng Nhìn chung, quan điểm biểu đạt đánh giá điều gì, chẳng hạn, sản phẩm, cá nhân, tổ chức, kiện, chủ đề…Chúng ta sử dụng thuật ngữ tổng quát đối tƣợng để thực thể đƣợc đánh giá Đối tƣợng có tập thành phần (components) tập thuộc tính (attributes) Một đối tƣợng đƣợc phân rã vào mối quan hệ thành phần “part-of”, thành phần có thành phần con….Chẳng hạn, sản phẩm (ô tô, máy ảnh kĩ thuật số…) có thành phần khác nhau, kiện có kiện con, chủ đề có chủ đề con,… Một đối tƣợng O thực thể (một sản phẩm, ngƣời, kiện…), có liên hệ tới cặp, O: (T, A), với T cấu trúc phân cấp thành phần A tập thuộc tính đối tƣợng O Mỗi thành phần thuộc đối tƣợng O lại có tập thành phần tập thuộc tính Một đối tƣợng O đƣợc biểu diễn nhƣ Gốc đối tƣợng O Mỗi nốt không gốc thành phần thành phần O Mỗi nhánh liên kết thể mối quan hệ “part-of” Mỗi nốt liên hệ với tập thuộc tính Ví dụ Canon PowerShot S100 battery battery life lens view finder battery size Hình 1.3: Ví dụ biểu diễn đối tượng Một sản phẩm máy ảnh có tập thành phần nhƣ ống kính (lens), pin (battery), ống ngắm (view-finder)…và tập thuộc tính nhƣ chất lƣợng ảnh (picture quality), kích thƣớc (size), trọng lƣợng (weight),… Thành phần pin có tập thuộc tính nhƣ tuổi thọ pin (battery life), kích cỡ pin (battery size), trọng lƣợng pin (battery weigh),… 12 Quan điểm đƣợc thể đối tƣợng (nốt gốc), chẳng hạn nhƣ: “Tơi khơng thích máy ảnh này” (“I not like this camera”), thuộc tính đối tƣợng, nhƣ “Chất lƣợng ảnh máy ảnh kém” (“The picture quality of this camera is poor”), thành phần đối tƣợng nhƣ “Ống kính máy ảnh kém” (“The lens of this camera is bad”) thuộc tính thành phần, chẳng hạn nhƣ “Tuổi thọ pin máy ảnh ngắn” (“The battery life of this camera is too short”) Nhƣ thành phần thuộc tính đặc trƣng quan điểm (hay đặc trƣng) đối tƣợng Để đơn giản từ “đặc trƣng” đƣợc sử dụng để thể thành phần thuộc tính đối tƣợng Đặc trƣng có hai loại đặc trƣng ẩn đặc trƣng Nếu đặc trƣng f xuất tƣờng minh tài liệu biểu đạt quan điểm đánh giá r f đƣợc gọi đặc trƣng r Nếu f không xuất tƣờng minh r nhƣng đƣợc ngầm nói đến f đƣợc gọi đặc trƣng ẩn r Ví dụ Đặc trƣng “tuổi thọ pin” (battery life) câu “Tuổi thọ pin máy ảnh ngắn.” (“The battery life of this camera is too short”) đặc trƣng Đặc trƣng “kích thƣớc” (size) câu “Máy ảnh nhỏ.” (“This camera is too small”) đặc trƣng ẩn Quan điểm - Từ quan điểm: Từ thể đƣợc quan điểm ngƣời đánh giá đƣợc gọi từ quan điểm - Quan điểm quan điểm ẩn: Một quan điểm đặc trƣng f câu chủ quan mà trực tiếp biểu đạt quan điểm tích cực tiêu cực Một quan điểm ẩn đặc trƣng f câu khách quan mà ám quan điểm tích cực hay tiêu cực - Đoạn đánh giá đặc trƣng: Đoạn văn đánh giá đặc trƣng f đối tƣợng O s tập câu liên tiếp s diễn tả quan điểm tích cực, tiêu cực hay trung lập đặc trƣng f - Ngƣời đánh giá: Là ngƣời hay tổ chức cụ thể đƣa lời đánh giá Với đánh giá sản phẩm diễn đàn hay blog, ngƣời đánh giá tác giả đánh giá hay viết 13 Hình 1.4: Ví dụ minh họa số khái niệm khai phá quan điểm từ đánh giá trang web http://epinions.com 1.2.2 Trích chọn đặc trưng khai phá quan điểm dựa đặc trưng Một tài liệu biểu đạt quan điểm đánh giá tích cực đối tƣợng khơng có nghĩa tác giả có quan điểm tích cực khía cạnh sản phẩm Cũng nhƣ vậy, tài liệu biểu đạt quan điểm tiêu cực khơng có nghĩa tác giả có quan điểm tiêu cực khía cạnh đối tƣợng Để nắm đƣợc khía cạnh chi tiết nhƣ vậy, cần tiến đến mức đặc trƣng Nhƣ vậy, toán khai phá quan điểm dựa đặc trƣng có hai nhiệm vụ nhƣ sau: - Phát lấy đặc trƣng sản phẩm đƣợc đề cập Chẳng hạn câu “Tuổi thọ pin máy ảnh ngắn” (“The battery life of this camera is too short”), bình luận đặc trƣng “tuổi thọ pin” (battery life) sản phẩm “máy ảnh này” (this camera) - Xác định quan điểm đặc trƣng tích cực, tiêu cực hay trung lập Trong câu trên, quan điểm đặc trƣng “tuổi thọ pin” tiêu cực Nhƣ vậy, toán khai phá quan điểm dựa đặc trƣng thực mức đặc trƣng Chẳng hạn, đánh giá sản phẩm, toán nhằm phát đặc trƣng sản phẩm mà đƣợc bình luận ngƣời tiêu dùng xác định bình luận đặc trƣng tích cực hay tiêu cực Một tổng hợp có cấu trúc đƣợc tạo từ kết khai phá Một đối tƣợng đƣợc biểu diễn với tập hữu hạn đặc trƣng, F = {f1, f2, fn} Mỗi đặc trƣng fi F đƣợc biểu diễn tập hữu hạn từ cụm từ đồng nghĩa Wi Tức là, có tập từ đồng nghĩa tƣơng ứng W = {W1, W2, …, Wn} cho n đặc trƣng Vì đặc trƣng fi F có tên (kí hiệu fi), nên fi ∈ Wi Mỗi tác giả ngƣời đánh giá j bình luận tập đặc trƣng Sj ⊆ F Với đặc trƣng fk ∈ Sj mà ngƣời đánh giá j bình 40 Chƣơng THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.1 Môi trƣờng cơng cụ sử dụng thực nghiệm Cấu hình phần cứng Bảng 4.1 Cấu hình hệ thống thử nghiệm Thành phần Chỉ số CPU 2.2 GHz Core Duo Intel RAM 2GB OS Windows XP Bộ nhớ ngồi 160GB Các cơng cụ phần mềm sử dụng Bảng 4.2 Công cụ phần mềm sử dụng STT Tên phần mềm Chức Visual Studio 2008 Môi trƣờng phát triển phần mềm Html Agility Pack Xử lý trích xuất phần tử file html http://htmlagilitypack.codepl ex.com/ Stanford CoreNLP Bộ công cụ xử lý ngôn ngữ tự nhiên http://nlp.stanford.edu/softwa re/corenlp.shtml SPMF -Sequential Pattern Mining Framework Khai phá tập mục phổ biến Java WordNetSimilarity Tính độ đo tƣơng tự từ Nguồn http://www.microsoft.com/vi vn/download/details.aspx?id =7873 http://www.philippefournier-viger.com/spmf/ http://www.sussex.ac.uk/Use rs/drh21/ Ngoài công cụ trên, luận văn tiến hành cài đặt module xử lý dựa ngôn ngữ C# nhƣ Hình 4.1 41 Project: CameraFeatureDatabase Preprocessing: Thực thao tác với tài liệu HTML, chuyển tài liệu thành đối tƣợng, thao tác với đối tƣợng FeatureDatabaseCreating: Thực tạo file nhị phân lƣu đối tƣợng đặc trƣng đối tƣợng Project: CameraFeatureExtractor Preprocessing: Thực thao tác với tài liệu HTML, chuyển tài liệu thành đối tƣợng, thao tác với đối tƣợng ReviewParsing: Thực thao tác xử lý ngôn ngữ tự nhiên (tách câu, tách từ, gán nhãn từ vựng, phân tích cú pháp) với đoạn review đƣợc trích rút FeatureCandidateExtracting: Hiện thực thuật tốn lan truyền kép sinh tập ứng viên đặc trƣng CandidateRanking: Hiện thực thuật toán xếp hạng ứng viên đặc trƣng FeatureMapping: Đối chiếu đặc trƣng tìm đƣợc với đặc trƣng sở liệu Hình 4.1: Cấu trúc cài đặt chương trình - Project “CameraFeatureExtractor” thực cơng việc liên quan đến trích chọn đặc trƣng đối tƣợng đƣợc nêu đoạn văn đánh giá, bao gồm gói: + Preprocessing: Tiền xử lý file html, trích rút đoạn đánh giá sản phẩm, thực thao tác xử lý ngôn ngữ với đoạn đánh giá sản phẩm + ReviewParsing: Xử lý file xml chứa thông tin tách câu, tách từ, gán nhãn từ vựng, phân tích cú pháp + FeatureCandidateExtracting: Hiện thực thuật toán lan truyền kép sinh tập ứng viên đặc trƣng + CandidateRanking: Xếp hạng ứng viên đặc trƣng + FeatureMapping: Đối sánh ứng viên đặc trƣng tìm đƣợc với đặc trƣng sở liệu 42 - Project “CameraFeatureDatabase” thực công việc liên quan đến xây dựng sở liệu đặc trƣng cho đối tƣợng máy ảnh đặc tả loại sản phẩm máy ảnh, bao gồm: + Preprocessing: Tiền xử lý file html, trích rút đặc tả sản phẩm + FeatureDatabaseCreating: Xây dựng sở liệu đặc trƣng 4.2 Xây dựng tập liệu Luận văn thực nghiệm miền liệu đánh giá khách hàng miền sản phẩm máy ảnh Dữ liệu thực nghiệm đƣợc xây dựng gồm hai tập: tập liệu đánh giá tập liệu đặc tả 4.2.1 Xây dựng tập liệu đánh giá Tập đánh giá đƣợc thu thập từ trang web http://epinions.com Để thu thập tập đánh giá này, tác giả sử dụng phần mềm IDM Grabber để lấy liệu với link đầu vào trang chủ http://epinions.com Dữ liệu sau lấy loại bỏ liệu nhiễu có tổng số 1.493 đánh giá cho 182 sản phẩm máy ảnh Các đánh giá cho sản phẩm máy ảnh đƣợc lƣu thƣ mục 4.2.2 Xây dựng tập liệu đặc tả Tập đặc tả máy ảnh đƣợc thu thập từ website http://dpreviews.com Các đặc tả máy ảnh đƣợc lƣu dƣới dạng bảng file html Để thu thập trang đặc tả thực tƣơng tự nhƣ việc thu thập trang đánh giá bƣớc trên, tức sử dụng phần mềm IDM Grabber để lấy liệu với link đầu vào trang chủ http://dpreviews.com Dữ liệu sau lấy loại bỏ liệu nhiễu có tổng số 1.827 file đặc tả cho sản phẩm máy ảnh 4.3 Thực nghiệm đánh giá Phần thực trích chọn đặc trƣng sản phẩm máy ảnh tập đánh giá khách hàng 4.3.1 Trích chọn đặc trưng Hệ thống trích chọn đặc trƣng sản phẩm máy ảnh đƣợc đánh giá chất lƣợng qua ba độ đo: Precision, Recall F1 43 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 𝑅𝑒𝑐𝑎𝑙𝑙 = #𝐶𝑜𝑟𝑟𝑒𝑐𝑡_𝐸𝑥𝑡𝑟𝑎𝑐𝑡𝑒𝑑_𝐹𝑒𝑎𝑡𝑢𝑟𝑒𝑠 #𝐸𝑥𝑡𝑟𝑎𝑐𝑡𝑒𝑑_𝐹𝑒𝑎𝑡𝑢𝑟𝑒𝑠 #𝐶𝑜𝑟𝑟𝑒𝑐𝑡_𝐸𝑥𝑡𝑟𝑎𝑐𝑡𝑒𝑑_𝐹𝑒𝑎𝑡𝑢𝑟𝑒𝑠 #𝑇𝑜𝑡𝑎𝑙_𝐶𝑜𝑟𝑟𝑒𝑐𝑡_𝐹𝑒𝑎𝑡𝑢𝑟𝑒𝑠 𝐹1 = × 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 × 𝑅𝑒𝑐𝑎𝑙𝑙 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑅𝑒𝑐𝑎𝑙𝑙 Luận văn tạo file đánh dấu chứa tất đặc trƣng có đánh giá loại máy ảnh thực nghiệm Dựa file đánh dấu lấy đặc trƣng đƣợc trích chọn tay so sánh với đặc trƣng hệ thống trích chọn tự động, từ tính tốn đƣợc giá trị Precision, Recall F1 Tuy nhiên, so sánh đặc trƣng hệ thống trích rút đặc trƣng đƣợc đánh dấu tay file đánh dấu, cần lƣu ý điều sau: chẳng hạn với cụm “3x optical zoom”, “zoom” “optical zoom” đƣợc xem đặc trƣng xác Vì vậy, đây, luận văn sử dụng cách đối sánh đƣợc nêu tài liệu [10], bao gốm đối sánh đầy đủ (full match) đối sánh phận (partial match) Một đối sánh đƣợc xem xác hồn tồn (fully correct) cụm đối sánh hoàn toàn giống Một đối sánh đƣợc xem xác phận (partially correct) đặc trƣng đƣợc trích rút tự động chứa hồn tồn đặc trƣng đƣợc trích rút tay Bất kỳ đặc trƣng trích rút tự động mà thỏa mãn yêu cầu đối sánh đầy đủ phận đƣợc tính đến giá trị Recall Với độ đo Precision, xét loại: Full Precision Partially Precision nhƣ trình bày Luận văn trình bày kết thực nghiệm trích chọn đặc trƣng với loại máy ảnh Bảng 4.3 Bảng 4.3: Dữ liệu loại máy ảnh thực nghiệm Tên máy ảnh Số Số câu C1 Canon EOS 400D 65 953 C2 Canon PowerShot A510 44 714 C3 Canon PowerShot G3 45 593 C4 Canon PowerShot S100 50 286 C5 Nikon Coolpix 4300 34 358 C6 Nikon Coolpix L6 75 1591 44 C7 Panasonic Lumix DMC-FX7 20 684 C8 Sony Cyber-shot DSC-H1 14 307 Dƣới bảng kết thực nghiệm phƣơng pháp lan truyền kép cải tiến luận văn đề xuất (kí hiệu nDP) so sánh với phƣơng pháp lan truyền kép Zai (kí hiệu DP) phƣơng pháp dựa tập phổ biến Hu (kí hiệu Hu) Bảng 4.4: Kết thực nghiệm độ xác phương pháp Hu, DP, nDP Full Precision Máy ảnh Partial Precision Hu DP nDP Hu DP nDP C1 52.38 24.75 30.6 54.76 40.51 63.93 C2 48.64 29.72 42.3 51.35 41.44 65.86 C3 50 33.64 48.83 50 44.54 70.23 C4 40.9 38 53.38 43.18 50 76.27 C5 46.66 31.11 34.42 48.88 45.92 63.11 C6 64.86 29.97 36.12 67.56 49.47 68.25 C7 65 31.27 46.27 65 42.79 66.66 C8 60.37 33.87 55 69.81 48.38 71.66 Avg 53.6 31.54 43.37 56.32 45.38 68.25 Bảng 4.5: Kết thực nghiệm độ hồi tưởng phương pháp Hu, DP, nDP Recall Máy ảnh Hu DP nDP C1 12.84 51.39 72.06 C2 15.38 54.61 71.53 C3 15.17 51.72 77.24 C4 23.59 50.56 77.52 C5 31.57 64.47 67.1 C6 7.88 50.47 68.13 45 C7 18.63 53.41 80.74 C8 37.11 52.57 77.31 Avg 20.27 53.65 73.95 Bảng 4.6: Kết thực nghiệm độ đo F1 phương pháp Hu, DP, nDP F1 Máy ảnh Hu DP nDP C1 20.81 45.31 67.75 C2 23.67 47.12 68.58 C3 23.28 47.86 73.57 C4 30.51 50.27 76.89 C5 38.37 53.64 65.04 C6 14.12 49.96 68.19 C7 28.96 47.52 73.03 C8 48.46 50.39 74.38 Avg 28.52 49.01 70.93 Từ bảng 4.4 - 4.5 - 4.6, thấy phƣơng pháp trích chọn dựa tập phổ biến Hu cho kết có độ xác toàn phần cao ba phƣơng pháp, nhƣng độ hồi tƣởng độ đo F1 lại thấp nhất, nghĩa phƣơng pháp dựa tập phổ biến Hu có ƣu điểm trích chọn đƣợc đặc trƣng với độ xác cao, nhiên nhƣợc điểm trích chọn đƣợc số đặc trƣng tổng số đặc trƣng thực có Trong đó, hai phƣơng pháp lan truyền kép (DP nDP) có độ xác thấp phƣơng pháp Hu nhƣng độ hồi tƣởng độ đo F1 cao hẳn, chứng tỏ tính hiệu phƣơng pháp lan truyền kép tập liệu thực nghiệm So sánh phƣơng pháp lan truyền kép dựa tập hạt giống từ đặc trƣng (nDP) phƣơng pháp lan truyền kép dựa tập hạt giống từ quan điểm (DP), thấy phƣơng pháp lan truyền kép dựa tập hạt giống từ đặc trƣng cho kết cao hẳn 46 ba độ đo, chứng tỏ tính hiệu cải tiến phƣơng pháp lan truyền kép luận văn đề xuất 4.3.2 Xếp hạng đặc trưng Bảng 4.7: Kết thực nghiệm độ xác xếp hạng 50% ứng viên đặc trưng (so với không xếp hạng) Full Precision Máy ảnh Không Xếp hạng xếp hạng Partial Precision Không Xếp hạng xếp hạng C1 33.44 35.19 72.82 75.6 C2 46.29 50 74.07 77.16 C3 52.29 55.74 77 79.88 C4 56 61 82 86 C5 35.41 37.5 70.83 71.87 C6 40.54 43.28 75.62 76.61 C7 50.99 53.46 73.76 75.74 C8 61.85 62.88 82.47 82.47 Avg 47.1 49.88 76.07 78.17 Bảng 4.8: Kết thực nghiệm độ hồi tưởng độ đo F1 xếp hạng 50% ứng viên đặc trưng (so với không xếp hạng) Recall Máy ảnh Không F1 Xếp hạng xếp hạng Không Xếp hạng xếp hạng C1 66.48 65.92 69.5 70.43 C2 63.84 66.15 68.58 71.23 C3 70.34 71.72 73.52 75.58 C4 71.91 75.28 76.62 80.28 C5 60.52 59.21 65.27 64.93 47 C6 62.14 61.82 68.22 68.43 C7 72.04 73.29 72.89 74.49 C8 73.19 73.19 77.55 77.55 Avg 67.55 68.32 71.51 72.87 4.3.3 Nhóm gộp đặc trưng Trong thực nghiệm nhóm gộp đặc trƣng, tác giả sử dụng phân cấp đặc trƣng có đƣợc từ pha xây dựng sở liệu đặc trƣng Mỗi máy ảnh có phân cấp đặc trƣng riêng Hình 4.2 mơ tả phần phân cấp đặc trƣng máy ảnh Camera Sensor Resolution Sensor type Sensor size Image ISO Image stabilization JPEG levels Lens Optical zoom Digital zoom Zoom range Editing/Viewfinding Screen size Viewfinder type … Hình 4.2: Mơ tả phần phân cấp đặc trưng máy ảnh Luận văn thực nghiệm việc nhóm gộp đặc trƣng với độ đo từ vựng sim_score độ đo cụm avg (nhƣ trình bày phần 3.2.3.2) Với 48 sim_score, tác giả sử dụng độ đo Jcn với ngƣỡng 𝜃 = 0.5 đƣợc chọn qua thực nghiệm Để đánh giá kết nhóm gộp, tác giả sử dụng file đối sánh tay tƣơng ứng với loại camera thực nghiệm làm file đối sánh chuẩn GS (gold standard mapping file) Việc đánh giá kết nhóm gộp dựa hai tiêu chí: độ xác thuật tốn đối sánh độ giảm dƣ thừa tập ứng viên đặc trƣng 4.3.3.1 Đánh giá độ xác Vì luận văn tiến hành đối sánh đặc trƣng cfi thu đƣợc vào nút đặc trƣng dfi taxonomy nên độ xác thuật tốn đối sánh đƣợc đánh giá khoảng cách nút mà cfi đƣợc đặt vào thuật toán nút mà cfi đƣợc đặt vào file đối sánh chuẩn GS Khoảng cách nhỏ độ xác thuật tốn cao 𝑝𝑙𝑎𝑐𝑒𝑚𝑒𝑛𝑡_𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑒(𝑐𝑓𝑖) = 𝑎𝑣𝑔(𝑒𝑑𝑔𝑒𝐶𝑜𝑢𝑛𝑡(𝑐𝑓𝑖)) edgeCount số cạnh đƣờng ngắn nút vị trí xác định thuật tốn nút vị trí xác định tay Trong trƣờng hợp đặc trƣng cfi đƣợc ánh xạ sang nhiều nút dfi, luận văn sử dụng giá trị trung bình số cạnh Độ xác thuật toán đối sánh tập đặc trƣng CF hệ thống trích chọn đƣợc với tập đặc trƣng DF sở liệu đƣợc tính giá trị trung bình độ đo placement_distance(cfi) 𝑝𝑙𝑎𝑐𝑒𝑚𝑒𝑛𝑡_𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑒(𝐶𝐹) = 𝑎𝑣𝑔(𝑝𝑙𝑎𝑐𝑒𝑚𝑒𝑛𝑡_𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑒(𝑐𝑓𝑖)) 𝑐𝑓𝑖 ∈ 𝐶𝐹 4.3.3.2 Đánh giá độ giảm dư thừa Chẳng hạn, có hai đặc trƣng đƣợc trích chọn “picture quality” “quality photo” Hai đặc trƣng đƣợc nhóm gộp vào nút đặc trƣng “image” phân cấp đặc trƣng Khi ta nói, hai đặc trƣng đƣợc trích chọn dƣ thừa Độ giảm dƣ thừa đƣợc tính theo cơng thức sau: 𝑟𝑒𝑑𝑢𝑛_𝑟𝑒𝑑𝑢𝑐 = |𝑝𝑙𝑎𝑐𝑒𝑑𝐶𝐹| – |𝑛𝑜𝑛𝐸𝑚𝑝𝑡𝑦𝐷𝐹| |𝐶𝐹| Trong đó, |placedCF| số đặc trƣng CF đƣợc ánh xạ sang taxonomy, |nonEmptyDF| số nút taxonomy khơng có đặc trƣng đƣợc ánh xạ vào Độ giảm dƣ thừa lớn tốt 49 Bảng 4.9: Kết độ xác, độ giảm dư thừa nhóm gộp đặc trưng Máy ảnh Độ xác (placement_distance) Độ giảm dƣ thừa (redun_reduc) C1 0.42 0.46 C2 0.34 0.41 C3 0.45 0.47 C4 0.18 0.45 C5 0.32 0.32 C6 0.5 0.47 C7 0.17 0.36 C8 0.44 0.31 Avg 0.35 0.4 Tóm tắt chƣơng Trong chƣơng này, tác giả tiến hành thực nghiệm, xem xét đánh giá kết mơ hình trích chọn đặc trƣng sản phẩm máy ảnh đƣợc xây dựng chƣơng ba Kết thực nghiệm cho thấy tính khả thi mơ hình giải tốn trích chọn đặc trƣng khai phá quan điểm dựa đặc trƣng 50 KẾT LUẬN Kết đạt đƣợc luận văn Trong luận văn này, tác giả tìm hiểu phƣơng pháp trích chọn đặc trƣng khai phá quan điểm, tập trung vào hai phƣơng pháp trích chọn đặc trƣng dựa tập mục phổ biến trích chọn đặc trƣng dựa lan truyền kép Trên sở đó, tác giả xây dựng mơ hình trích chọn đặc trƣng sản phẩm dựa hƣớng tiếp cận lan truyền kép nhƣng có bổ sung số cải tiến để nâng cao chất lƣợng trích chọn mơ hình Cải tiến luận văn đề xuất dựa việc bổ sung sở liệu đặc trƣng sản phẩm vào mơ hình, từ tự động sinh tập hạt giống đặc trƣng cho thuật tốn lan truyền kép Ngồi ra, luận văn giải vấn đề xếp hạng nhóm gộp đặc trƣng sau đƣợc trích chọn Kết thực nghiệm miền sản phẩm máy ảnh cho kết trích chọn với độ đo F1 đạt 72.87% chứng tỏ tính khả thi mơ hình Định hƣớng tƣơng lai Định hƣớng nghiên cứu thời gian tới luận văn tiếp tục hoàn thiện phát triển mơ hình trích chọn đặc trƣng, tập trung vào phƣơng pháp xếp hạng gộp nhóm đặc trƣng hiệu hơn, giải vấn đề trích chọn đặc trƣng ẩn vấn đề độ chi tiết đặc trƣng, tiến tới hoàn thiện ứng dụng tổng hợp quan điểm cho đặc trƣng sản phẩm trích chọn đƣợc Do hạn chế thời gian kiến thức khó khăn trình thu thập tiền xử lý liệu tiếng Việt nên luận văn chƣa thực nghiệm đƣợc phƣơng pháp đề xuất với liệu tiếng Việt Vì vậy, nghiên cứu tập trung vào việc phát triển ứng dụng trích chọn đặc trƣng tổng hợp quan điểm dựa đặc trƣng với tập liệu tiếng Việt 51 Tài liệu tham khảo Tài liệu tiếng Việt: [1] Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2009) Giáo trình khai phá liệu Web, Nhà xuất giáo dục Việt Nam Tài liệu tiếng Anh: [2] Agirre E, Alfonseca E, Hall K, Kravalova J, Pasca M, and Soroa A (2009), “A study on similarity and relatedness using distributional and WordNet-based approaches”, NAACL '09 Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics, pp 19-27 [3] Bo Pang, Lillian Lee (2008), “Opinion Mining and Sentiment Analysis”, Journal Foundations and Trends in Information Retrieval, Volume Issue 1-2 [4] Budanitsky A and Hirst G (2001), “Semantic distance in wordnet: An experimental, application-oriented evaluation of five measures”, Workshop on WordNet and Other Lexical Resources [5] Carenini G, Ng R, and Zwart E (2005), “Extracting knowledge from evaluative text”, K-CAP '05 Proceedings of the 3rd international conference on Knowledge capture, pp 11-18 [6] Etzioni O, Cafarella M, Downey D, Kok S, Popescu A, Shaked T, Soderland S, Weld D, and Yates A (2004), “Web-Scale information extraction in Knowitall” WWW '04 Proceedings of the 13th international conference on World Wide Web, pp 100-110 [7] Fellbaum C (1998), WordNet: An On-Line Lexical Database, MIT Press [8] Freitag D, McCallum A (2000), “Information extraction with HMM structures learned by stochastic optimization”, Proceedings of the Seventeenth National Conference on Artificial Intelligence and Twelfth Conference on Innovative Applications of Artificial Intelligence, pp 584-589 [9] Girju R, Badulescu A and Moldovan D (2006), “Automatic Discovery of Part-Whole Relations”, Journal Computational Linguistics, Volume 32 Issue 1, pp 83-135 [10] Ghani R, Probst K, Liu Y, Krema M, Fano A (2006), “Text mining for product attribute extraction”, ACM SIGKDD Explorations Newsletter, Volume Issue 1, pp 41-48 [11] Guo H, Zhu H, Guo Z, Zhang X, and Su Z (2009), “Product feature categorization with multilevel latent semantic association”, CIKM '09 52 Proceedings of the 18th ACM conference on Information and knowledge management, pp 1087-1096 [12] Hu M and Liu B (2004), “Mining opinion features in customer reviews”, AAAI'04 Proceedings of the 19th national conference on Artifical intelligence, pp 755-760 [13] Jiang J and Conrath D (2007) “Semantic similarity based on corpus statistics and lexical taxonomy”, Proceedings of Research in Computational Linguistics [14] Kobayashi N, Inui K, and Matsumoto Y (2007), “Extracting aspectevaluation and aspect-of relations in opinion mining “, Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL) [15] Lafferty J, McCallum A, and Pereira F (2001), “Conditional random fields: Probabilistic models for segmenting and labeling sequence data”, ICML '01 Proceedings of the Eighteenth International Conference on Machine Learning, pp 282-289 [16] Liu B (2011), Web data mining: Exploring hyperlinks, Contents, and Usage Data, Second Edition, Springer, pp 459-517 [17] Mei Q, Ling X, Wondra M, Su H, and Zhai C (2007), “Topic sentiment mixture: Modeling facetsand opinions in weblogs”, WWW '07 Proceedings of the 16th international conference on World Wide Web, pp 71 – 180 [18] Pedersen T (2010), “Information Content Measures of Semantic Similarity Perform Better Without Sense-Tagged Text”, HLT '10 Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics, pp 329-332 [19] Popescu A-M, and Etzioni O (2005), “Extracting product features and opinions from reviews”, HLT '05 Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing, pp 339-346 [20] Qiu G, Liu B, Bu J and Chen Ch (2009) “Expanding domain sentiment lexicon through double propagation”, IJCAI'09 Proceedings of the 21st international jont conference on Artifical intelligence, pp 1199-1204 [21] Raju S, Shishtla P, VarmaA V (2009), “Graph Clustering Approach to Product Attribute Extraction”, 4th Indian International Conference on Artificial Intelligence 53 [22] Scafﬁdi C, Bierhoff K, Chang E, Felker M, Ng H, and Jin C (2007), “Red opal: product-feature scoring from reviews”, EC '07 Proceedings of the 8th ACM conference on Electronic commerce, pp 182-191 [23] Somprasertsri G, Lalitrojwong P (2008), “A Maximum Entropy Model for Product Feature Extraction in Online Customer Reviews”, Proceedings of The IEEE International Conference on Cybernetics and Intelligent Systems (CIS 2008) [24] Taylor A, Marcus M, Santorini B (1994), “The Penn Tree Bank: An overview”, ARPA Human Language Technology Workshop [25] Tien-Thanh Vu, Huyen-Trang Pham, Cong-To Luu, Quang-Thuy Ha (2011) A Feature-based Opinion Mining Model on Product Reviews in Vietnamese, ICCCI’11 (submitted) [26] Yang D and Powers D (2005), “Measuring semantic similarity in the taxonomy of WordNet”, ACSC '05 Proceedings of the Twenty-eighth Australasian conference on Computer Science - Volume 38, pp 315-322 [27] Zhang L and Liu B (2010), “Extracting and ranking product features in opinion Documents”, COLING '10 Proceedings of the 23rd International Conference on Computational Linguistics: Posters, pp 1462-1470 [28] Zhai Z, Liu B, Xu H and Jia P (2010), “Grouping Product Features Using Semi-Supervised Learning with Soft-Constraints”, Proceedings of the 23rd International Conference on Computational Linguistics (COLING-2010) [29] Zhai Z, Liu B, Xu H and Jia P (2011), “Clustering product features for opinion mining”, Proceedings of the fourth ACM international conference on Web search and data mining Thank you for evaluating AnyBizSoft PDF Splitter A watermark is added at the end of each output PDF file To remove the watermark, you need to purchase the software from http://www.anypdftools.com/buy/buy-pdf-splitter.html ... việc khai phá tóm tắt quan điểm đƣợc thể văn 16 Chƣơng MỘT SỐ PHƢƠNG PHÁP GIẢI QUYẾT BÀI TỐN TRÍCH CHỌN ĐẶC TRƢNG TRONG KHAI PHÁ QUAN ĐIỂM 2.1 Một số nghiên cứu trích chọn đặc trƣng khai phá quan. .. gồm: toán phân lớp quan điểm, toán khai phá tổng hợp quan điểm dựa đặc trƣng toán khai phá quan hệ so sánh Bài toán khai phá tổng hợp quan điểm dựa đặc trƣng nhằm mục tiêu tạo tổng hợp quan điểm. .. vực khai phá văn bản, liên quan đến việc áp dụng giải pháp xử lý ngôn ngữ tự nhiên học máy để trích xuất xác định quan điểm đƣợc thể văn Khai phá quan điểm dựa đặc trƣng ba toán khai phá quan điểm,

(Luận văn thạc sĩ) nghiên cứu phương pháp trích chọn đặc trưng trong bài toán khai phá quan điểm và ứng dụng

Thông tin tài liệu

Từ khóa liên quan

Mục lục

MỤC LỤC

Danh mục các bảng

Danh mục các hình vẽ, đồ thị

MỞ ĐẦU

Chương 1. GIỚI THIỆU

1.1. Khai phá quan điểm

1.2. Trích chọn đặc trưng và khai phá quan điểm dựa trên đặc trưng

1.2.1. Một số khái niệm cơ bản

1.2.2. Trích chọn đặc trưng và khai phá quan điểm dựa trên đặc trưng

Tóm tắt chương 1

2.1. Một số nghiên cứu về trích chọn đặc trưng trong khai phá quan điểm

2.2. Phương pháp trích chọn đặc trưưng dựa trên tập phổ biến

2.3. Phương pháp trích chọn đặc trưng dựa trên lan truyền kép

2.4. Vấn đề gộp nhóm đặc trưng

2.5. Nhận xét

Tóm tắt chương 2

3.1. Mô tả bài toán và ý tưởng giải quyết

3.2. Xây dựng mô hình hệ thống

3.2.1. Pha 1 - Xây dựng cơ sở dữ liệu đặc tả sản phẩm

3.2.2. Pha 2 - Sinh tập ứng viên đặc trưng

Tài liệu cùng người dùng

Tài liệu liên quan