Nghiên cứu phương pháp trích chọn đặc trưng trong bài toán khai phá quan điểm và ứng dụng

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN HỒNG YẾN NGHIÊN CỨU PHƢƠNG PHÁP TRÍCH CHỌN ĐẶC TRƢNG TRONG BÀI TOÁN KHAI PHÁ QUAN ĐIỂM VÀ ỨNG DỤNG LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội - 2012 Trang phụ bìa ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN HỒNG YẾN NGHIÊN CỨU PHƢƠNG PHÁP TRÍCH CHỌN ĐẶC TRƢNG TRONG BÀI TOÁN KHAI PHÁ QUAN ĐIỂM VÀ ỨNG DỤNG Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60 48 05 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: TS Nguyễn Trí Thành Hà Nội - 2012 MỤC LỤC Trang phụ bìa Lời cam đoan MỤC LỤC Danh mục bảng Danh mục hình vẽ, đồ thị MỞ ĐẦU Chƣơng GIỚI THIỆU 1.1 Khai phá quan điểm 1.2 Trích chọn đặc trƣng khai phá quan điểm dựa đặc trƣng 10 1.2.1 Một số khái niệm 11 1.2.2 Trích chọn đặc trƣng khai phá quan điểm dựa đặc trƣng 13 Tóm tắt chƣơng 15 Chƣơng MỘT SỐ PHƢƠNG PHÁP TIẾP CẬN GIẢI QUYẾT BÀI TOÁN TRÍCH CHỌN ĐẶC TRƢNG TRONG KHAI PHÁ QUAN ĐIỂM 16 2.1 Một số nghiên cứu trích chọn đặc trƣng khai phá quan điểm 16 2.2 Phƣơng pháp trích chọn đặc trƣng dựa tập phổ biến 17 2.3 Phƣơng pháp trích chọn đặc trƣng dựa lan truyền kép 20 2.4 Vấn đề gộp nhóm đặc trƣng 25 2.5 Nhận xét 26 Tóm tắt chƣơng 27 Chƣơng BÀI TỐN TRÍCH CHỌN ĐẶC TRƢNG MÁY ẢNH SỐ TRONG KHAI PHÁ QUAN ĐIỂM 28 3.1 Mơ tả tốn ý tƣởng giải 28 3.2 Xây dựng mơ hình hệ thống 28 3.2.1 Pha - Xây dựng sở liệu đặc tả sản phẩm 29 3.2.2 Pha - Sinh tập ứng viên đặc trƣng 31 3.2.3 Pha - Xếp hạng, nhóm gộp 35 3.2.3.1 Xếp hạng đặc trƣng 36 3.2.3.2 Nhóm gộp đặc trƣng 36 Tóm tắt chƣơng 39 Chƣơng THỰC NGHIỆM VÀ ĐÁNH GIÁ 40 4.1 Môi trƣờng công cụ sử dụng thực nghiệm 40 4.2 Xây dựng tập liệu 41 4.2.1 Xây dựng tập liệu đánh giá 42 4.2.2 Xây dựng tập liệu đặc tả 42 4.3 Thực nghiệm đánh giá 42 4.3.1 Trích chọn đặc trƣng 42 4.3.2 Xếp hạng đặc trƣng 46 4.3.3 Nhóm gộp đặc trƣng 47 4.3.3.1 Đánh giá độ xác 48 4.3.3.1 Đánh giá độ giảm dƣ thừa 48 Tóm tắt chƣơng 49 KẾT LUẬN 50 Kết đạt đƣợc luận văn 50 Định hƣớng tƣơng lai 50 Tài liệu tham khảo 51 MỞ ĐẦU Với phát triển Internet hệ thống bán hàng trực tuyến, thông tin đặc tả đánh giá nhận xét người dùng sản phẩm ngày phong phú Tuy nhiên số lượng thông tin Internet vơ lớn, gây khó khăn cho người mua hàng việc phân tích tổng hợp ý kiến người dùng trước để đưa định mua hay không mua sản phẩm Do vậy, toán đặt cần tổng hợp nguồn đánh giá sản phẩm phong phú Cùng với tốn trích chọn đặc trưng biểu diễn đối tượng người dùng đề cập đến đánh giá Đây tốn mà luận văn tập trung giải Luận văn định hướng tìm hiểu phương pháp trích chọn đặc trưng biểu diễn đối tượng ta quan tâm, sở đề xuất phương pháp phù hợp thử nghiệm hệ thống toán trích chọn đặc trưng sản phẩm máy ảnh số Cấu trúc luận văn gồm chương Chương 1: Đặt vấn đề giới thiệu tổng quan toán khai phá quan điểm nói chung số khái niệm liên quan khai phá quan điểm dựa đặc trưng, từ phát biểu tốn trích chọn đặc trưng ngữ cảnh khai phá quan điểm đặc trưng sản phẩm Chương 2: Trình bày số giải pháp mơ hình hệ thống trích chọn đặc trưng biểu diễn đối tượng làm sở cho việc khai phá tóm tắt quan điểm thể văn Trên sở tìm hiểu, luận văn đề xuất phương pháp tiếp cận để giải tốn trích chọn đặc trưng khai phá quan điểm Chương 3: Ứng dụng phương pháp đề xuất vào hệ thống trích chọn đặc trưng biểu diễn đối tượng máy ảnh số Chương 4: Kết thực nghiệm trích chọn đặc trưng mơ hình hệ thống đề xuất Phần kết luận: Tóm lược nội dung đạt luận văn đồng thời điểm cần khắc phục đưa định hướng nghiên cứu tương lai Chƣơng GIỚI THIỆU 1.1 Khai phá quan điểm Trong thương mại điện tử, yêu cầu thực tế quan trọng tổng hợp quan điểm khách hàng sản phẩm nói chung đặc trưng sản phẩm nói riêng từ tập phong phú đánh giá Giải yêu cầu thực tế nhiệm vụ toán khai phá quan điểm, cụ thể toán khai phá tổng hợp quan điểm dựa đặc trưng Hình 1.1: Ứng dụng khai phá tổng hợp quan điểm dựa đặc trưng Khai phá quan điểm thuộc vào lĩnh vực khai phá văn bản, liên quan đến việc áp dụng giải pháp xử lý ngôn ngữ tự nhiên học máy để trích xuất xác định quan điểm thể văn Khai phá quan điểm dựa đặc trưng ba toán khai phá quan điểm, bao gồm: toán phân lớp quan điểm, toán khai phá tổng hợp quan điểm dựa đặc trưng toán khai phá quan hệ so sánh Bài toán khai phá tổng hợp quan điểm dựa đặc trưng nhằm mục tiêu tạo tổng hợp quan điểm dựa đặc trưng sản phẩm người dùng đề cập văn từ xác định ý kiến đánh giá đưa Về bản, việc tổng hợp quan điểm dựa đặc trưng thực sau: Xác định đặc trưng đối tượng Xác định phân loại ý kiến đặc trưng đối tượng Tạo tổng hợp ý kiến theo đặc trưng đối tượng Hình 1.2: Các bước tổng hợp quan điểm dựa đặc trưng Như vậy, nhiệm vụ quan trọng để giải toán loại xác định đặc trưng đối tượng mà người dùng nhận xét, đánh giá Đây nội dung trọng tâm mà luận văn tìm hiểu giải 1.2 Trích chọn đặc trƣng khai phá quan điểm dựa đặc trƣng 1.2.1 Một số khái niệm Đối tượng (Object) đặc trưng đối tượng Một đối tượng O thực thể (một sản phẩm, người, kiện…), có liên hệ tới cặp, O: (T, A), với T cấu trúc phân cấp thành phần A tập thuộc tính đối tượng O Mỗi thành phần thuộc đối tượng O lại có tập thành phần thuộc tính Một đối tượng O biểu diễn Gốc đối tượng O Mỗi nốt khơng gốc thành phần thành phần O Mỗi nhánh thể mối quan hệ thành phần Mỗi nốt liên hệ với tập thuộc tính Ví dụ Canon PowerShot S100 battery lens view finder battery size battery life Hình 1.3 Ví dụ biểu diễn đối tượng Hình 1.4 Ví dụ minh họa khái niệm Đặc trưng, Từ quan điểm, Đoạn đánh giá Người đánh giá đánh giá trang web http://epinions.com Quan điểm - Từ quan điểm (opinion word): Từ thể quan điểm người đánh giá gọi từ quan điểm - Quan điểm quan điểm ẩn: Một quan điểm đặc trưng f câu chủ quan mà trực tiếp biểu đạt quan điểm tích cực tiêu cực Một quan điểm ẩn đặc trưng f câu khách quan mà ám quan điểm tích cực hay tiêu cực - Đoạn đánh giá đặc trưng: Đoạn văn đánh giá đặc trưng f đối tượng O s tập câu liên tiếp s diễn tả quan điểm tích cực, tiêu cực hay trung lập đặc trưng f - Người đánh giá (opinion holder): Là người hay tổ chức cụ thể đưa lời đánh giá Với đánh giá sản phẩm diễn đàn, blogs: người đánh giá tác giả đánh giá hay viết 1.2.2 Trích chọn đặc trưng khai phá quan điểm dựa đặc trưng Như vậy, toán khai phá quan điểm dựa đặc trưng thực mức đặc trưng Một đối tượng biểu diễn với tập hữu hạn đặc trưng, F = {f1, f2, fn} Mỗi đặc trưng fi F biểu diễn tập hữu hạn từ cụm từ đồng nghĩa Wi Đầu vào: Tập D tài liệu d có quan điểm đánh giá Đầu ra: Đầu cuối cho tài liệu d có biểu đạt quan điểm đánh giá tập cặp Mỗi cặp kí hiệu (f, SO), với f đặc trưng SO hướng quan điểm (tích cực hay tiêu cực) biểu đạt d đặc trưng f Có nhiều cách để sử dụng kết từ mơ hình Cách đơn giản tạo tổng hợp dựa đặc trưng quan điểm đối tượng Canon PowerShot S100 Feature: picture quality Positive: 123 Negative: Feature: size Positive: 82 Negative: 10 … Hình 1.5 Ví dụ tổng hợp quan điểm dựa đặc trưng Luận văn tập trung giải xác định trích chọn đặc trưng đối tượng bình luận tài liệu d ∈ D Đó nội dung tốn trích chọn đặc trưng Chƣơng MỘT SỐ PHƢƠNG PHÁP GIẢI QUYẾT BÀI TỐN TRÍCH CHỌN ĐẶC TRƢNG TRONG KHAI PHÁ QUAN ĐIỂM 2.1 Một số nghiên cứu trích chọn đặc trƣng khai phá quan điểm Hu Liu [12] đề xuất kỹ thuật học không giám sát dựa khai phá tập mục phổ biến để trích chọn đặc trưng sản phẩm Ý tưởng kỹ thuật người dùng thường sử dụng từ giống cho đặc trưng bình luận sản phẩm Từ đó, tập mục phổ biến danh từ cụm danh từ đánh giá có nhiều khả đặc trưng sản phẩm Popescu Etzinoni [19] dựa ý tưởng tương tự Hu Liu [12], nhiên có đưa giải pháp cải thiện phương pháp, loại cụm từ phổ biến nhiều khả không đặc trưng Tuy nhiên, phương pháp cần truy vấn Web tìm mẫu phận - tồn thể để tính độ đo PMI nến chi phí thời gian đáng kể, phải dựa hệ thống trích chọn thơng tin độc lập miền Web KnowItAll Guang Qiu cộng [20] đề xuất phương pháp lan truyền kép dựa phát số mẫu quan hệ cú pháp từ quan điểm đặc trưng, kết hợp lặp lan truyền để mở rộng tập từ quan điểm đặc trưng tìm Phương pháp sử dụng phân tích cú pháp phụ thuộc để mô tả mẫu quan hệ làm sở cho việc trích chọn Ngồi ra, để giải tốn trích chọn đặc trưng khai phá quan điểm cịn có số nghiên cứu khác dựa phương pháp thống kê phương pháp dựa mơ hình mạng Markov ẩn [8], phương pháp dựa mơ hình cực đại hóa Entropy [23], phương pháp dựa trường ngẫu nhiên có điều kiện [15], phương pháp dựa phân tích chủ đề [17] 12 Chƣơng BÀI TỐN TRÍCH CHỌN ĐẶC TRƢNG MÁY ẢNH TRONG KHAI PHÁ QUAN ĐIỂM 3.1 Mơ tả tốn ý tƣởng giải Đầu vào: - Tên đối tượng máy ảnh kỹ thuật số - Tập đánh giá đối tượng máy ảnh số tương ứng Đầu ra: Một danh sách đặc trưng sản phẩm người dùng đề cập tập đánh giá Mô hình giải tốn sau: - Dựa ý tưởng lan truyền kép [20] sinh ứng viên đặc trưng - Chọn lọc ứng viên tiềm từ tập ứng viên đặc trưng dựa xếp hạng đặc trưng - Đối sánh nhóm gộp ứng viên đặc trưng tiềm đặc trưng sở liệu đặc trưng [5] 3.2 Xây dựng mơ hình hệ thống Xuất phát từ mơ hình giải tốn trên, tác giả đề xuất xây dựng mơ hình trích chọn đặc trưng toán khai phá quan điểm dựa gồm có ba pha chính: - Pha 1: Xây dựng sở liệu đặc tả sản phẩm - Pha 2: Sinh tập ứng viên đặc trưng - Pha 3: Xếp hạng, nhóm gộp đặc trưng Dưới minh họa mơ hình hệ thống trích chọn xây dựng 13 Hình 3.1: Mơ hình hệ thống trích chọn đặc trưng 3.2.1 Pha - Xây dựng sở liệu đặc tả sản phẩm Hinh 3.2: Pha Xây dựng sở liệu đặc tả sản phẩm Sau trích rút thơng tin đặc tả sản phẩm vào văn dạng text, hệ thống lưu thông tin dạng file nhị phân danh sách đối tượng máy ảnh 14 Hình 3.3 : Mơ tả cấu trúc đặc trưng loại máy ảnh 3.2.2 Pha - Sinh tập ứng viên đặc trưng Hinh 3.4 : Pha Sinh tập ứng viên đặc trưng Tiền xử lý Nhiệm vụ bước tiền xử lý trích rút nội dung đánh giá thực số xử lý để tạo đầu vào cho bước xử lý ngôn ngữ sau Ta sử dụng thư viện Html Agility Pack Xử lý ngôn ngữ Hệ thống sử dụng thư viện Stanford CoreNLP để thực bước xử lý ngôn ngữ tự nhiên Stanford CoreNLP phân tích file text đưa kết phân tích dạng file xml 15 Hình 3.5: File xml xử lý ngơn ngữ tự nhiên cho file văn đánh giá Lan truyền kép Sinh tập hạt giống đặc trưng Lan truyền kép Input: Feature Seeds {featureSeeds}, Review Data R for camera A Output: All Expanded Features {featureEx} All possible Opinion Lexicon {opinionEx} Function: doublePropagation {featureEx} = {featureSeeds}; {opinionStepi} = ∅; {featureStepi} = ∅; {opinion} = ∅; {feature} = ∅; for each parsed sentence s in R extract_O_based_F(s, opinionStepi, featureEx); extract_F_based_F(s, featureStepi, featureEx); endfor set {opinionEx} = {opinionEx} + {opinionStepi}; set {featureEx} = {featureEx} + {featureStepi}; for each parsed sentence s in R 10 extract_O_based_O(s, opinion, opinionStepi); 11 extract_F_based_O(s, feature, opinionStepi); 12 endfor 16 13 set {featureStepi} = {featureStepi} + {feature}; 14 set {opinionStepi} = {opinionStepi} + {opinion} 15 set {featureEx} = {featureEx} + {feature}; 16 set {opinionEx} = {opinionEx} + {opinion} 17 repeat until (size{featureStepi} = 0) and (size{opinionStepi} = 0); 3.2.3 Pha - Xếp hạng, nhóm gộp Hình 3.6: Pha Xếp hạng, đối sánh 3.2.3.1 Xếp hạng đặc trưng Ta xếp hạng đặc trưng f theo độ giảm dần độ đo freq(f) với freq(f) số lần xuất đặc trưng f tài liệu đánh giá 3.2.3.2 Nhóm gộp đặc trưng Ở bước nhóm gộp này, luận văn dựa ý tưởng Carenini cộng [5] a Độ đo tƣơng tự từ (word similarity metrics) - Đối sánh chuỗi đơn giản 17 𝑛ế𝑢 𝑐𝑖 𝑚𝑎𝑡𝑐𝑕 𝑑𝑗 𝑠𝑡𝑟_𝑚𝑎𝑡𝑐𝑕(𝑐𝑖 , 𝑑𝑗 ) = 𝑛ế𝑢 𝑐𝑖 𝑘𝑕ô𝑛𝑔 𝑚𝑎𝑡𝑐𝑕 𝑑𝑗 - Sử dụng WordNet thông tin từ loại từ (part of speech) 𝑠𝑦𝑛_𝑠𝑐𝑜𝑟𝑒(𝑐𝑖 , 𝑑𝑗 ) = 𝑛ế𝑢 𝑠𝑦𝑛𝑠(𝑐𝑖 ) ∩ 𝑠𝑦𝑛𝑠(𝑑𝑗 ) ≠ ∅ 𝑛ế𝑢 𝑠𝑦𝑛𝑠(𝑐𝑖 ) ∩ 𝑠𝑦𝑛𝑠(𝑑𝑗 ) = ∅ - Sử dụng số độ đo tương tự sm giới thiệu [4] 𝑠𝑚(𝑐𝑖 , 𝑑𝑗 ) = 𝑅𝑒𝑠(𝑐𝑖 , 𝑑𝑗 ) = 𝐼𝐶(𝐿𝐶𝑆(𝑐𝑖 , 𝑑𝑗 ) 𝐼𝐶(𝑐𝑖 ) = −𝑙𝑜𝑔𝑃𝑟(𝑐𝑖 ) 𝑠𝑚(𝑐𝑖 , 𝑑𝑗 ) = 𝐿𝑖𝑛(𝑐𝑖 , 𝑑𝑗 ) = 𝑠𝑚(𝑐𝑖 , 𝑑𝑗 ) = 𝐽𝑐𝑛(𝑐𝑖 , 𝑑𝑗 ) = × 𝑅𝑒𝑠(𝑐𝑖 , 𝑑𝑗 ) 𝐼𝐶(𝑐𝑖 ) + 𝐼𝐶(𝑑𝑗 ) 𝐼𝐶(𝑐𝑖 ) + 𝐼𝐶(𝑑𝑗 ) − × 𝑅𝑒𝑠(𝑐𝑖 , 𝑑𝑗 ) 𝑠𝑦𝑚_𝑠𝑐𝑜𝑟𝑒𝑠𝑚 (𝑐𝑖 , 𝑑𝑗 ) = 𝑠𝑚(𝑐𝑖 , 𝑑𝑗 ) 𝑚𝑎𝑥(𝑠𝑚) b Độ đo tƣơng tự cụm (phrase similarity metrics) cfi = {c1, …, cn} dfj = {d1, …, dm} 𝑚𝑎𝑥(𝑐𝑓𝑖 , 𝑑𝑓𝑗 ) = 𝑚𝑎𝑥𝑖,𝑗 {𝑤𝑚(𝑐𝑖 , 𝑑𝑗 )} 𝑛 𝑖 = 𝑚𝑎𝑥 𝑗 {𝑤𝑚 (𝑐 𝑖 ,𝑑 𝑗 )} 𝑎𝑣𝑔(𝑐𝑓𝑖 , 𝑑𝑓𝑗 ) = 𝑛 + 𝑚 𝑗 = 𝑚𝑎𝑥 𝑖 {𝑤𝑚 (𝑐 𝑖 ,𝑑 𝑗 )} 𝑚 c Thuật toán mapping Một cf map với df cf có độ đo tương tự lớn với df lớn ngưỡng 𝜃 Với str_match syn_score, ngưỡng 𝜃 = Với sim_score, ngưỡng 𝜃 đặt thực nghiệm Một cf map với nhiều df 18 Chƣơng THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.1 Môi trƣờng công cụ sử dụng thực nghiệm Cấu hình phần cứng Bảng 4.1 Cấu hình hệ thống thử nghiệm Thành phần CPU RAM OS Bộ nhớ Chỉ số 2.2 GHz Core Duo Intel 1GB Windows XP 160GB Các công cụ phần mềm sử dụng Bảng 4.2 Công cụ phần mềm sử dụng Tên phần mềm Visual Studio 2008 Chức Môi trường phát triển phần mềm Nguồn http://www.microsoft.com /vivn/download/details.as px?id=7873 Html Agility Pack http://htmlagilitypack.cod eplex.com/ Stanford CoreNLP Xử lý trích xuất phần tử file html Bộ công cụ xử lý ngôn ngữ tự nhiên SPMF -Sequential Pattern Mining Framework Stanford Tregex Khai phá luật kết hợp http://www.philippefournier-viger.com/spmf/ Tìm kiếm mẫu ngơn ngữ phân tích cú pháp đầy đủ http://nlp.stanford.edu/sof tware/tregex.shtml STT http://nlp.stanford.edu/sof tware/corenlp.shtml Ngoài công cụ trên, tiến hành cài đặt module xử lý dựa ngơn ngữ C# 19 Hình 4.1: Cấu trúc cài đặt chương trình 4.2 Xây dựng tập liệu 4.2.1 Xây dựng tập liệu đánh giá Tập đánh giá thu thập từ website http://epinions.com Dữ liệu sau down loại bỏ liệu nhiễu có tổng số 1.493 review cho 182 sản phẩm máy ảnh số Các review cho sản phẩm máy ảnh lưu thư mục 4.2.2 Xây dựng tập liệu đặc tả Tập đặc tả máy ảnh thu thập từ website http://dpreviews.com Dữ liệu sau down loại bỏ liệu nhiễu có tổng số 1.827 file đặc tả cho sản phẩm máy ảnh số 20 4.3 Thực nghiệm đánh giá 4.3.1 Trích chọn đặc trưng Hệ thống đánh giá chất lượng qua độ đo: Precision (độ xác) Recall (độ phục hồi) Pr ecision  Re call  # Correct _ Extracted _ Features # Extracted _ Features # Correct _ Extracted _ Features # Total _ Correct _ Features Bảng 4.3: Dữ liệu loại máy ảnh thực nghiệm Bảng 4.4: Kết thực nghiệm độ xác phương pháp Hu, DP, nDP Bảng 4.5: Kết thực nghiệm độ hồi tưởng phương pháp Hu, DP, nDP 4.3.2 Xếp hạng đặc trưng Bảng 4.6: Kết thực nghiệm xếp hạng 50% đặc trưng (so với không xếp hạng) 21 4.3.3 Nhóm gộp đặc trưng 4.3.3.1 Đánh giá độ xác 𝑝𝑙𝑎𝑐𝑒𝑚𝑒𝑛𝑡_𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑒(𝑐𝑓𝑖) = 𝑎𝑣𝑔(𝑒𝑑𝑔𝑒𝐶𝑜𝑢𝑛𝑡(𝑐𝑓𝑖)) edgeCount số cạnh đường ngắn nút vị trí xác định thuật tốn nút vị trí xác định tay 𝑝𝑙𝑎𝑐𝑒𝑚𝑒𝑛𝑡_𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑒(𝐶𝐹) = 𝑎𝑣𝑔(𝑝𝑙𝑎𝑐𝑒𝑚𝑒𝑛𝑡_𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑒(𝑐𝑓𝑖)) 𝑐𝑓𝑖 ∈ 𝐶𝐹 4.3.3.1 Đánh giá độ giảm dư thừa 𝑟𝑒𝑑𝑢𝑛_𝑟𝑒𝑑𝑢𝑐 = |𝑝𝑙𝑎𝑐𝑒𝑑𝐶𝐹| – |𝑛𝑜𝑛𝐸𝑚𝑝𝑡𝑦𝐷𝐹| |𝐶𝐹| Trong đó, |placedCF| số đặc trưng CF ánh xạ sang taxonomy, |nonEmptyDF| số nút taxonomy đặc trưng ánh xạ vào Độ giảm dư thừa lớn tốt 22 KẾT LUẬN Kết đạt đƣợc luận văn Trong luận văn này, tác giả tìm hiểu phương pháp trích chọn đặc trưng khai phá quan điểm, tập trung vào hai phương pháp trích chọn đặc trưng dựa tập mục phổ biến trích chọn đặc trưng dựa lan truyền kép Trên sở đó, tác giả xây dựng mơ hình trích chọn đặc trưng sản phầm dựa hướng tiếp cận lan truyền kép có bổ sung số cải tiến để nâng cao chất lượng trích chọn mơ hình Cải tiến luận văn đề xuất dựa việc bổ sung sở liệu đặc trưng sản phẩm vào mơ hình, từ tự động sinh tập hạt giống đặc trưng cho thuật tốn lan truyền kép Ngồi ra, luận văn giải vấn đề xếp hạng nhóm gộp đặc trưng sau trích chọn Kết thực nghiệm miền sản phẩm máy ảnh cho kết tốt chứng tỏ tính khả thi mơ hình Định hƣớng tƣơng lai Do hạn chế thời gian kiến thức khó khăn trình thu thập tiền xử lý liệu tiếng Việt nên luận văn chưa thử nghiệm phương pháp đề xuất với liệu tiếng Việt Vì vậy, định hướng nghiên cứu thời gian tới luận văn tiếp tục hoàn thiện phát triển mơ hình trích chọn đặc trưng, tập trung vào phương pháp gộp nhóm đặc trưng, trích chọn đặc trưng ẩn giải vấn đề độ chi tiết đặc trưng, tiến tới hoàn thiện ứng dụng tổng hợp quan điểm cho đặc trưng sản phẩm trích chọn Nghiên cứu tập trung vào việc thử nghiệm tập liệu tiếng Việt 23 Tài liệu tham khảo Tài liệu tiếng Việt: [1] Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2009) Giáo trình khai phá liệu Web, Nhà xuất giáo dục Việt Nam Tài liệu tiếng Anh: [2] Agirre E, Alfonseca E, Hall K, Kravalova J, Pasca M, and Soroa A (2009), “A study on similarity and relatedness using distributional and WordNet-based approaches”, NAACL '09 Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics, pp 19-27 [3] Bo Pang, Lillian Lee (2008), “Opinion Mining and Sentiment Analysis”, Journal Foundations and Trends in Information Retrieval, Volume Issue 1-2 [4] Budanitsky A and Hirst G (2001), “Semantic distance in wordnet: An experimental, application-oriented evaluation of five measures”, Workshop on WordNet and Other Lexical Resources [5] Carenini G, Ng R, and Zwart E (2005), “Extracting knowledge from evaluative text”, K-CAP '05 Proceedings of the 3rd international conference on Knowledge capture, pp 11-18 [6] Etzioni O, Cafarella M, Downey D, Kok S, Popescu A, Shaked T, Soderland S, Weld D, and Yates A (2004), “Web-Scale information extraction in Knowitall” WWW '04 Proceedings of the 13th international conference on World Wide Web, pp 100-110 [7] Fellbaum C (1998), WordNet: An On-Line Lexical Database, MIT Press [8] Freitag D, McCallum A (2000), “Information extraction with HMM structures learned by stochastic optimization”, Proceedings of the Seventeenth National Conference on Artificial Intelligence and Twelfth 24 Conference on Innovative Applications of Artificial Intelligence, pp 584589 [9] Girju R, Badulescu A and Moldovan D (2006), “Automatic Discovery of Part-Whole Relations”, Journal Computational Linguistics, Volume 32 Issue 1, pp 83-135 [10] Ghani R, Probst K, Liu Y, Krema M, Fano A (2006), “Text mining for product attribute extraction”, ACM SIGKDD Explorations Newsletter, Volume Issue 1, pp 41-48 [11] Guo H, Zhu H, Guo Z, Zhang X, and Su Z (2009), “Product feature categorization with multilevel latent semantic association”, CIKM '09 Proceedings of the 18th ACM conference on Information and knowledge management, pp 1087-1096 [12] Hu M and Liu B (2004), “Mining opinion features in customer reviews”, AAAI'04 Proceedings of the 19th national conference on Artifical intelligence, pp 755-760 [13] Jiang J and Conrath D (2007) “Semantic similarity based on corpus statistics and lexical taxonomy”, Proceedings of Research in Computational Linguistics [14] Kobayashi N, Inui K, and Matsumoto Y (2007), “Extracting aspectevaluation and aspect-of relations in opinion mining “, Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLPCoNLL) [15] Lafferty J, McCallum A, and Pereira F (2001), “Conditional random fields: Probabilistic models for segmenting and labeling sequence data”, ICML '01 Proceedings of the Eighteenth International Conference on Machine Learning, pp 282-289 [16] Liu B (2011), Web data mining: Exploring hyperlinks, Contents, and Usage Data, Second Edition, Springer, pp 459-517 [17] Mei Q, Ling X, Wondra M, Su H, and Zhai C (2007), “Topic sentiment mixture: Modeling facetsand opinions in weblogs”, WWW '07 Proceedings of the 16th international conference on World Wide Web, pp 71 – 180 25 [18] Pedersen T (2010), “Information Content Measures of Semantic Similarity Perform Better Without Sense-Tagged Text”, HLT '10 Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics, pp 329-332 [19] Popescu A-M, and Etzioni O (2005), “Extracting product features and opinions from reviews”, HLT '05 Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing, pp 339-346 [20] Qiu G, Liu B, Bu J and Chen Ch (2009) “Expanding domain sentiment lexicon through double propagation”, IJCAI'09 Proceedings of the 21st international jont conference on Artifical intelligence, pp 11991204 [21] Raju S, Shishtla P, VarmaA V (2009), “Graph Clustering Approach to Product Attribute Extraction”, 4th Indian International Conference on Artificial Intelligence [22] Scafﬁdi C, Bierhoff K, Chang E, Felker M, Ng H, and Jin C (2007), “Red opal: product-feature scoring from reviews”, EC '07 Proceedings of the 8th ACM conference on Electronic commerce, pp 182-191 [23] Somprasertsri G, Lalitrojwong P (2008), “A Maximum Entropy Model for Product Feature Extraction in Online Customer Reviews”, Proceedings of The IEEE International Conference on Cybernetics and Intelligent Systems (CIS 2008) [24] Taylor A, Marcus M, Santorini B (1994), “The Penn Tree Bank: An overview”, ARPA Human Language Technology Workshop [25] Tien-Thanh Vu, Huyen-Trang Pham, Cong-To Luu, Quang-Thuy Ha (2011) A Feature-based Opinion Mining Model on Product Reviews in Vietnamese, ICCCI’11 (submitted) [26] Yang D and Powers D (2005), “Measuring semantic similarity in the taxonomy of WordNet”, ACSC '05 Proceedings of the Twenty-eighth Australasian conference on Computer Science - Volume 38, pp 315-322 Thank you for evaluating AnyBizSoft PDF Splitter A watermark is added at the end of each output PDF file To remove the watermark, you need to purchase the software from http://www.anypdftools.com/buy/buy-pdf-splitter.html ... Khai phá quan điểm dựa đặc trưng ba toán khai phá quan điểm, bao gồm: toán phân lớp quan điểm, toán khai phá tổng hợp quan điểm dựa đặc trưng toán khai phá quan hệ so sánh Bài toán khai phá tổng... PHƢƠNG PHÁP TIẾP CẬN GIẢI QUYẾT BÀI TỐN TRÍCH CHỌN ĐẶC TRƢNG TRONG KHAI PHÁ QUAN ĐIỂM 16 2.1 Một số nghiên cứu trích chọn đặc trƣng khai phá quan điểm 16 2.2 Phƣơng pháp trích chọn đặc trƣng... OF-Rel, (2) trích chọn đặc trưng sử dụng đặc trưng mối quan hệ FF-Rel, (3) trích chọn từ quan điểm sử dụng đặc trưng mối quan hệ OF-Rel, (4) trích chọn từ quan điểm sử dụng từ quan điểm mối quan hệ

Định dạng
Số trang	29
Dung lượng	0,95 MB