Nghiên cứu phương pháp trích chọn đặc trưng trong bài toán khai phá quan điểm và ứng dụng

56 19 0
Nghiên cứu phương pháp trích chọn đặc trưng trong bài toán khai phá quan điểm và ứng dụng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

4 MỤC LỤC Trang phụ bìa Lời cam đoan MỤC LỤC Danh mục bảng Danh mục hình vẽ, đồ thị MỞ ĐẦU Chƣơng GIỚI THIỆU 1.1 Khai phá quan điểm 1.2 Trích chọn đặc trƣng khai phá quan điể 1.2.1 Một số khái niệm 1.2.2 Trích chọn đặc trƣng khai phá quan điểm dựa đặc trƣng Tóm tắt chƣơng Chƣơng MỘT SỐ PHƢƠNG PHÁP TIẾP CẬN GIẢI QUYẾT BÀI TỐN TRÍCH CHỌN ĐẶC TRƢNG TRONG KHAI PHÁ QUAN ĐIỂM 2.1 Một số nghiên cứu trích chọn đặc trƣng 2.2 Phƣơng pháp trích chọn đặc trƣng dựa trê 2.3 Phƣơng pháp trích chọn đặc trƣng dựa trê 2.4 Vấn đề gộp nhóm đặc trƣng 2.5 Nhận xét Tóm tắt chƣơng Chƣơng BÀI TỐN TRÍCH CHỌN ĐẶC TRƢNG MÁY ẢNH SỐ TRONG KHAI PHÁ QUAN ĐIỂM 3.1 Mơ tả tốn ý tƣởng giải 3.2 Xây dựng mơ hình hệ thống 3.2.1 Pha - Xây dựng sở liệu đặc tả sản phẩm 3.2.2 Pha - Sinh tập ứng viên đặc trƣng 3.2.3 Pha - Xếp hạng, nhóm gộp 3.2.3.1 Xếp hạng đặc trƣng 3.2.3.2 Nhóm gộp đặc trƣng Tóm tắt chƣơng Chƣơng THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.1 Môi trƣờng công cụ sử dụng thực nghiệm 4.2 Xây dựng tập liệu 4.2.1 Xây dựng tập liệu đánh giá 4.2.2 Xây dựng tập liệu đặc tả 4.3 Thực nghiệm đánh giá 4.3.1 Trích chọn đặc trƣng 4.3.2 Xếp hạng đặc trƣng 4.3.3 Nhóm gộp đặc trƣng 4.3.3.1 Đánh giá độ xác 4.3.3.1 Đánh giá độ giảm dƣ thừa Tóm tắt chƣơng KẾT LUẬN Kết đạt đƣợc luận văn Định hƣớng tƣơng lai Tài liệu tham khảo Danh mục bảng Bảng 4.1 Cấu hình hệ thống thử nghiệm Bảng 4.2 Công cụ phần mềm sử dụng Bảng 4.3: Dữ liệu loại máy ảnh thực nghiệm Bảng 4.4: Kết thực nghiệm độ xác phương pháp Hu, DP, nDP 44 Bảng 4.5: Kết thực nghiệm độ hồi tưởng phương pháp Hu, DP, nDP 44 Bảng 4.6: Kết thực nghiệm độ đo F1 phương pháp Hu, DP, nDP Bảng 4.7: Kết thực nghiệm độ xác xếp hạng 50% ứng viên đặc trưng (so với không xếp hạng) Bảng 4.8: Kết thực nghiệm độ hồi tưởng độ đo F1 xếp hạng 50% ứng viên đặc trưng (so với không xếp hạng) Bảng 4.9: Kết độ xác, độ giảm dư thừa nhóm gộp đặc trưng Danh mục hình vẽ, đồ thị Hình 1.1: Một ứng dụng khai phá tổng hợp quan điểm dựa đặc trưng Hình 1.2: Các bước tr Hình 1.3: Ví dụ biểu diễn Hình 1.4: Ví dụ minh họa số khái niệm khai phá quan điểm từ đánh giá trang web http://epinions.com Hình 1.5: Ví dụ tổng hợp quan điểm dựa đặc trưng Hình 2.1: Mơ hình trích chọn đặc trưng Hu Liu Hình 2.3: Cây phân tích cú pháp câu “The camera has good screen” Hình 2.2: Các loại mối quan hệ phụ thuộc ngữ pháp A B Hình 3.1: Mơ hình hệ thống trích chọn đặc trưng Hinh 3.2: Pha Xây dựng sở liệu đặc tả sản phẩm Hình 3.3 : Mơ tả cấu trúc đặc trưng loại máy ảnh Hinh 3.4 : Pha Sinh tập ứng viên đặc trưng Hình 3.5: Mơ tả file xml xử lý ngơn ngữ tự nhiên cho file văn đánh giá Hình 3.6: Pha Xếp hạng, đối sánh Hình 4.1: Cấu trúc cài đặt chương trình Hình 4.2: Mơ tả phần phân cấp đặc trưng máy ảnh MỞ ĐẦU Với phát triển Internet hệ thống bán hàng trực tuyến, thông tin đặc tả đánh giá nhận xét ngƣời dùng sản phẩm ngày phong phú Tuy nhiên số lƣợng thông tin Internet vô lớn, gây khó khăn cho ngƣời mua hàng việc phân tích tổng hợp ý kiến ngƣời dùng trƣớc để đƣa định mua hay không mua sản phẩm Do vậy, toán đặt cần tổng hợp nguồn đánh giá sản phẩm phong phú này, với tốn trích chọn đặc trƣng biểu diễn đối tƣợng đƣợc ngƣời dùng đề cập đến đánh giá Đây toán mà luận văn tập trung giải Luận văn định hƣớng tìm hiểu phƣơng pháp trích chọn đặc trƣng biểu diễn đối tƣợng ta quan tâm, sở đề xuất phƣơng pháp phù hợp thử nghiệm hệ thống tốn trích chọn đặc trƣng sản phẩm máy ảnh Cấu trúc luận văn gồm chƣơng Chương 1: Đặt vấn đề giới thiệu tổng quan tốn khai phá quan điểm nói chung nhƣ số khái niệm liên quan khai phá quan điểm dựa đặc trƣng, từ phát biểu tốn trích chọn đặc trƣng ngữ cảnh khai phá quan điểm đặc trƣng sản phẩm Chương 2: Trình bày số giải pháp mơ hình hệ thống trích chọn đặc trƣng biểu diễn đối tƣợng làm sở cho việc khai phá tóm tắt quan điểm đƣợc thể văn Trên sở tìm hiểu, luận văn đề xuất phƣơng pháp tiếp cận để giải tốn trích chọn đặc trƣng khai phá quan điểm Chương 3: Ứng dụng phƣơng pháp đề xuất vào hệ thống trích chọn đặc trƣng biểu diễn đối tƣợng máy ảnh Chương 4: Kết thực nghiệm trích chọn đặc trƣng mơ hình hệ thống đề xuất Phần kết luận: Tóm lƣợc nội dung đạt đƣợc luận văn đồng thời điểm cần khắc phục đƣa định hƣớng nghiên cứu tƣơng lai Chƣơng GIỚI THIỆU 1.1 Khai phá quan điểm Hình 1.1: Một ứng dụng khai phá tổng hợp quan điểm dựa đặc trưng Trên giới nói chung Việt Nam nói riêng, thƣơng mại điện tử trở nên phổ biến ngày phát triển Một phần quan trọng thƣơng mại điện tử bán hàng trực tuyến Số lƣợng ngƣời mua hàng trực tuyến gia tăng, số lƣợng đánh giá, nhận xét ngƣời dùng sản phẩm ngày nhiều Một sản phẩm thơng dụng có hàng trăm, hàng nghìn đánh giá Cùng với trang web bán hàng trực tuyến trang web đánh giá sản phẩm nhƣ epinions.com, dpreview.com, Các trang web nơi ngƣời tiêu dùng viết đánh giá sản phẩm Các đánh giá đƣợc đăng trang web loại cần tuân theo số quy định trang web đƣa đƣợc chấm điểm đông đảo ngƣời dùng trang web vào độ tin cậy, hợp lý hữu dụng mà đánh giá mang lại Chính vậy, đánh giá từ trang web loại đƣợc coi nguồn tổng hợp lớn đánh giá sản phẩm “tin cậy” từ khách hàng Đây nguồn thông tin quan trọng, cung cấp cho ngƣời mua hàng nhìn tồn diện sản phẩm mà họ định mua Còn nhà sản xuất, đánh giá khách hàng sở để tiến hành cải tiến, hoàn thiện sản phẩm Tuy nhiên, vấn đề đặt số lƣợng ý kiến đánh giá lớn Điều gây khó khăn cho ngƣời mua hàng nhà sản xuất Ngƣời mua hàng gặp khó khăn việc tổng hợp ý kiến ngƣời tiêu dùng trƣớc để đƣa định mua hay khơng mua sản phẩm Cịn nhà sản xuất khó theo dõi, nắm bắt đƣợc tất phản hồi ngƣời tiêu dùng sản phẩm Thực tế làm nảy sinh yêu cầu tổng hợp tất nhận xét khách hàng đặc trƣng sản phẩm trang web đánh giá sản phẩm Giải yêu cầu thực tế nhƣ 10 nhiệm vụ tốn khai phá quan điểm, cụ thể toán khai phá tổng hợp quan điểm dựa đặc trƣng Khai phá quan điểm thuộc vào lĩnh vực khai phá văn bản, liên quan đến việc áp dụng giải pháp xử lý ngôn ngữ tự nhiên học máy để trích xuất xác định quan điểm đƣợc thể văn Khai phá quan điểm dựa đặc trƣng ba toán khai phá quan điểm, bao gồm: toán phân lớp quan điểm, toán khai phá tổng hợp quan điểm dựa đặc trƣng toán khai phá quan hệ so sánh Bài toán khai phá tổng hợp quan điểm dựa đặc trƣng nhằm mục tiêu tạo tổng hợp quan điểm dựa đặc trƣng sản phẩm đƣợc ngƣời dùng đề cập văn từ xác định ý kiến đánh giá đƣợc đƣa Về bản, việc tổng hợp quan điểm dựa đặc trƣng đƣợc thực nhƣ sau: Xác định đặc trƣng đối tƣợng Xác định phân loại ý kiến đặc trƣng đối tƣợng Tạo tổng hợp ý kiến theo đặc trƣng đối tƣợng Hình 1.2: Các bước tổng hợp quan điểm dựa đặc trưng Nhƣ vậy, nhiệm vụ quan trọng để giải toán loại xác định đặc trƣng đối tƣợng mà ngƣời dùng nhận xét, đánh giá Đây nội dung trọng tâm mà luận văn tìm hiểu giải 1.2 Trích chọn đặc trƣng khai phá quan điểm dựa đặc trƣng Trong toán khai phá tổng hợp quan điểm dựa đặc trƣng, vấn đề quan trọng cần giải trích chọn đặc trƣng biểu diễn đối tƣợng đƣợc đề cập đến đánh giá Trong phần luận văn trình bày số khái niệm liên quan đến đặc trƣng toán khai phá quan điểm dựa đặc trƣng mơ hình hóa toán 11 1.2.1 Một số khái niệm Đối tượng (Object) đặc trưng đối tượng Nhìn chung, quan điểm biểu đạt đánh giá điều gì, chẳng hạn, sản phẩm, cá nhân, tổ chức, kiện, chủ đề… Chúng ta sử dụng thuật ngữ tổng quát đối tƣợng để thực thể đƣợc đánh giá Đối tƣợng có tập thành phần (components) tập thuộc tính (attributes) Một đối tƣợng đƣợc phân rã vào mối quan hệ thành phần “part-of”, thành phần có thành phần con….Chẳng hạn, sản phẩm (ô tô, máy ảnh kĩ thuật số…) có thành phần khác nhau, kiện có kiện con, chủ đề có chủ đề con,… Một đối tƣợng O thực thể (một sản phẩm, ngƣời, kiện…), có liên hệ tới cặp, O: (T, A), với T cấu trúc phân cấp thành phần A tập thuộc tính đối tƣợng O Mỗi thành phần thuộc đối tƣợng O lại có tập thành phần tập thuộc tính Một đối tƣợng O đƣợc biểu diễn nhƣ Gốc đối tƣợng O Mỗi nốt khơng gốc thành phần thành phần O Mỗi nhánh liên kết thể mối quan hệ “part-of” Mỗi nốt liên hệ với tập thuộc tính Ví dụ Canon PowerShot S100 battery battery life Hình 1.3: Ví dụ biểu diễn đối tượng Một sản phẩm máy ảnh có tập thành phần nhƣ ống kính (lens), pin (battery), ống ngắm (view-finder)…và tập thuộc tính nhƣ chất lƣợng ảnh (picture quality), kích thƣớc (size), trọng lƣợng (weight),… Thành phần pin có tập thuộc tính nhƣ tuổi thọ pin (battery life), kích cỡ pin (battery size), trọng lƣợng pin (battery weigh),… 12 Quan điểm đƣợc thể đối tƣợng (nốt gốc), chẳng hạn nhƣ: “Tơi khơng thích máy ảnh này” (“I not like this camera”), thuộc tính đối tƣợng, nhƣ “Chất lƣợng ảnh máy ảnh kém” (“The picture quality of this camera is poor”), thành phần đối tƣợng nhƣ “Ống kính máy ảnh kém” (“The lens of this camera is bad”) thuộc tính thành phần, chẳng hạn nhƣ “Tuổi thọ pin máy ảnh ngắn” (“The battery life of this camera is too short”) Nhƣ thành phần thuộc tính đặc trƣng quan điểm (hay đặc trƣng) đối tƣợng Để đơn giản từ “đặc trƣng” đƣợc sử dụng để thể thành phần thuộc tính đối tƣợng Đặc trƣng có hai loại đặc trƣng ẩn đặc trƣng Nếu đặc trƣng f xuất tƣờng minh tài liệu biểu đạt quan điểm đánh giá r f đƣợc gọi đặc trƣng r Nếu f không xuất tƣờng minh r nhƣng đƣợc ngầm nói đến f đƣợc gọi đặc trƣng ẩn r Ví dụ Đặc trƣng “tuổi thọ pin” (battery life) câu “Tuổi thọ pin máy ảnh ngắn.” (“The battery life of this camera is too short”) đặc trƣng Đặc trƣng “kích thƣớc” (size) câu “Máy ảnh nhỏ.” (“This camera is too small”) đặc trƣng ẩn Quan điểm Từ quan điểm: Từ thể đƣợc quan điểm ngƣời đánh giá đƣợc gọi từ quan điểm - Quan điểm quan điểm ẩn: Một quan điểm đặc trƣng f câu chủ quan mà trực tiếp biểu đạt quan điểm tích cực tiêu cực Một quan điểm ẩn đặc trƣng f câu khách quan mà ám quan điểm tích cực hay tiêu cực - Đoạn đánh giá đặc trƣng: Đoạn văn đánh giá đặc trƣng f đối tƣợng O s tập câu liên tiếp s diễn tả quan điểm tích cực, tiêu cực hay trung lập đặc trƣng f - Ngƣời đánh giá: Là ngƣời hay tổ chức cụ thể đƣa lời đánh giá Với đánh giá sản phẩm diễn đàn hay blog, ngƣời đánh giá tác giả đánh giá hay viết - 13 Hình 1.4: Ví dụ minh họa số khái niệm khai phá quan điểm từ đánh giá trang web http://epinions.com 1.2.2 Trích chọn đặc trưng khai phá quan điểm dựa đặc trưng Một tài liệu biểu đạt quan điểm đánh giá tích cực đối tƣợng khơng có nghĩa tác giả có quan điểm tích cực khía cạnh sản phẩm Cũng nhƣ vậy, tài liệu biểu đạt quan điểm tiêu cực khơng có nghĩa tác giả có quan điểm tiêu cực khía cạnh đối tƣợng Để nắm đƣợc khía cạnh chi tiết nhƣ vậy, cần tiến đến mức đặc trƣng Nhƣ vậy, toán khai phá quan điểm dựa đặc trƣng có hai nhiệm vụ nhƣ sau: Phát lấy đặc trƣng sản phẩm đƣợc đề cập Chẳng hạn câu “Tuổi thọ pin máy ảnh ngắn” (“The battery life of this camera is too short”), bình luận đặc trƣng “tuổi thọ pin” (battery life) sản phẩm “máy ảnh này” (this camera) - Xác định quan điểm đặc trƣng tích cực, tiêu cực hay trung lập Trong câu trên, quan điểm đặc trƣng “tuổi thọ pin” tiêu cực - Nhƣ vậy, toán khai phá quan điểm dựa đặc trƣng thực mức đặc trƣng Chẳng hạn, đánh giá sản phẩm, toán nhằm phát đặc trƣng sản phẩm mà đƣợc bình luận ngƣời tiêu dùng xác định bình luận đặc trƣng tích cực hay tiêu cực Một tổng hợp có cấu trúc đƣợc tạo từ kết khai phá Một đối tƣợng đƣợc biểu diễn với tập hữu hạn đặc trƣng, F = {f1, f2, fn} Mỗi đặc trƣng fi F đƣợc biểu diễn tập hữu hạn từ cụm từ đồng nghĩa Wi Tức là, có tập từ đồng nghĩa tƣơng ứng W = {W1, W2, …, Wn} cho n đặc trƣng Vì đặc trƣng fi F có tên (kí hiệu fi), nên fi ∈ Wi Mỗi tác giả ngƣời đánh giá j bình luận tập đặc trƣng Sj ⊆ F Với đặc trƣng fk ∈ Sj mà ngƣời đánh giá j bình 43 _ =# _ # =# # 1=2× _ _ _ _ + _ × Luận văn tạo file đánh dấu chứa tất đặc trƣng có đánh giá loại máy ảnh thực nghiệm Dựa file đánh dấu lấy đặc trƣng đƣợc trích chọn tay so sánh với đặc trƣng hệ thống trích chọn tự động, từ tính toán đƣợc giá trị Precision, Recall F1 Tuy nhiên, so sánh đặc trƣng hệ thống trích rút đặc trƣng đƣợc đánh dấu tay file đánh dấu, cần lƣu ý điều sau: chẳng hạn với cụm “3x optical zoom”, “zoom” “optical zoom” đƣợc xem đặc trƣng xác Vì vậy, đây, luận văn sử dụng cách đối sánh đƣợc nêu tài liệu [10], bao gốm đối sánh đầy đủ (full match) đối sánh phận (partial match) Một đối sánh đƣợc xem xác hoàn toàn (fully correct) cụm đối sánh hoàn toàn giống Một đối sánh đƣợc xem xác phận (partially correct) đặc trƣng đƣợc trích rút tự động chứa hồn tồn đặc trƣng đƣợc trích rút tay Bất kỳ đặc trƣng trích rút tự động mà thỏa mãn yêu cầu đối sánh đầy đủ phận đƣợc tính đến giá trị Recall Với độ đo Precision, xét loại: Full Precision Partially Precision nhƣ trình bày Luận văn trình bày kết thực nghiệm trích chọn đặc trƣng với loại máy ảnh Bảng 4.3 Bảng 4.3: Dữ liệu loại máy ảnh thực nghiệm C1 C2 C3 C4 C5 C6 44 C7 C8 Dƣới bảng kết thực nghiệm phƣơng pháp lan truyền kép cải tiến luận văn đề xuất (kí hiệu nDP) so sánh với phƣơng pháp lan truyền kép Zai (kí hiệu DP) phƣơng pháp dựa tập phổ biến Hu (kí hiệu Hu) Bảng 4.4: Kết thực nghiệm độ xác phương pháp Hu, DP, nDP Máy ảnh Hu C1 C2 C3 C4 C5 C6 C7 C8 Avg Bảng 4.5: Kết thực nghiệm độ hồi tưởng phương pháp Hu, DP, nDP Máy ả C1 C2 C3 C4 C5 C6 45 C7 C8 Avg Bảng 4.6: Kết thực nghiệm độ đo F1 phương pháp Hu, DP, nDP Máy ả C1 C2 C3 C4 C5 C6 C7 C8 Avg Từ bảng 4.4 - 4.5 - 4.6, thấy phƣơng pháp trích chọn dựa tập phổ biến Hu cho kết có độ xác tồn phần cao ba phƣơng pháp, nhƣng độ hồi tƣởng độ đo F1 lại thấp nhất, nghĩa phƣơng pháp dựa tập phổ biến Hu có ƣu điểm trích chọn đƣợc đặc trƣng với độ xác cao, nhiên nhƣợc điểm trích chọn đƣợc số đặc trƣng tổng số đặc trƣng thực có Trong đó, hai phƣơng pháp lan truyền kép (DP nDP) có độ xác thấp phƣơng pháp Hu nhƣng độ hồi tƣởng độ đo F1 cao hẳn, chứng tỏ tính hiệu phƣơng pháp lan truyền kép tập liệu thực nghiệm So sánh phƣơng pháp lan truyền kép dựa tập hạt giống từ đặc trƣng (nDP) phƣơng pháp lan truyền kép dựa tập hạt giống từ quan điểm (DP), thấy phƣơng pháp lan truyền kép dựa tập hạt giống từ đặc trƣng cho kết cao hẳn 46 ba độ đo, chứng tỏ tính hiệu cải tiến phƣơng pháp lan truyền kép luận văn đề xuất 4.3.2 Xếp hạng đặc trưng Bảng 4.7: Kết thực nghiệm độ xác xếp hạng 50% ứng viên đặc trưng (so với không xếp hạng) Máy ảnh C1 C2 C3 C4 C5 C6 C7 C8 Avg Bảng 4.8: Kết thực nghiệm độ hồi tưởng độ đo F1 xếp hạng 50% ứng viên đặc trưng (so với không xếp hạng) Máy ảnh C1 C2 C3 C4 C5 47 C6 C7 C8 Avg 4.3.3 Nhóm gộp đặc trưng Trong thực nghiệm nhóm gộp đặc trƣng, tác giả sử dụng phân cấp đặc trƣng có đƣợc từ pha xây dựng sở liệu đặc trƣng Mỗi máy ảnh có phân cấp đặc trƣng riêng Hình 4.2 mơ tả phần phân cấp đặc trƣng máy ảnh Camera Sensor Image Lens … Resolution Sensor type Sensor size ISO Image stabilization JPEG levels Optical zoom Digital zoom Zoom range Editing/Viewfinding Screen size Viewfinder type Hình 4.2: Mơ tả phần phân cấp đặc trưng máy ảnh Với Luận văn thực nghiệm việc nhóm gộp đặc trƣng với độ đo từ vựng sim_score độ đo cụm avg (nhƣ trình bày phần 3.2.3.2) 48 sim_score, tác giả sử dụng độ đo Jcn với ngƣỡng = 0.5 đƣợc chọn qua thực nghiệm Để đánh giá kết nhóm gộp, tác giả sử dụng file đối sánh tay tƣơng ứng với loại camera thực nghiệm làm file đối sánh chuẩn GS (gold standard mapping file) Việc đánh giá kết nhóm gộp dựa hai tiêu chí: độ xác thuật tốn đối sánh độ giảm dƣ thừa tập ứng viên đặc trƣng 4.3.3.1 Đánh giá độ xác Vì luận văn tiến hành đối sánh đặc trƣng cfi thu đƣợc vào nút đặc trƣng dfi taxonomy nên độ xác thuật toán đối sánh đƣợc đánh giá khoảng cách nút mà cfi đƣợc đặt vào thuật toán nút mà cfi đƣợc đặt vào file đối sánh chuẩn GS Khoảng cách nhỏ độ xác thuật tốn cao _ ( )= ( ( )) edgeCount số cạnh đƣờng ngắn nút vị trí xác định thuật tốn nút vị trí xác định tay Trong trƣờng hợp đặc trƣng cfi đƣợc ánh xạ sang nhiều nút dfi, luận văn sử dụng giá trị trung bình số cạnh Độ xác thuật toán đối sánh tập đặc trƣng CF hệ thống trích chọn đƣợc với tập đặc trƣng DF sở liệu đƣợc tính giá trị trung bình độ đo placement_distance(cfi) _ ( )= ( ∈ _ ( )) 4.3.3.2 Đánh giá độ giảm dư thừa Chẳng hạn, có hai đặc trƣng đƣợc trích chọn “picture quality” “quality photo” Hai đặc trƣng đƣợc nhóm gộp vào nút đặc trƣng “image” phân cấp đặc trƣng Khi ta nói, hai đặc trƣng đƣợc trích chọn dƣ thừa Độ giảm dƣ thừa đƣợc tính theo cơng thức sau: _ ||–| | = || Trong đó, |placedCF| số đặc trƣng CF đƣợc ánh xạ sang taxonomy, |nonEmptyDF| số nút taxonomy khơng có đặc trƣng đƣợc ánh xạ vào Độ giảm dƣ thừa lớn tốt 49 Bảng 4.9: Kết độ xác, độ giảm dư thừa nhóm gộp đặc trưng Máy ảnh C1 C2 C3 C4 C5 C6 C7 C8 Avg Tóm tắt chƣơng Trong chƣơng này, tác giả tiến hành thực nghiệm, xem xét đánh giá kết mơ hình trích chọn đặc trƣng sản phẩm máy ảnh đƣợc xây dựng chƣơng ba Kết thực nghiệm cho thấy tính khả thi mơ hình giải tốn trích chọn đặc trƣng khai phá quan điểm dựa đặc trƣng 50 KẾT LUẬN Kết đạt đƣợc luận văn Trong luận văn này, tác giả tìm hiểu phƣơng pháp trích chọn đặc trƣng khai phá quan điểm, tập trung vào hai phƣơng pháp trích chọn đặc trƣng dựa tập mục phổ biến trích chọn đặc trƣng dựa lan truyền kép Trên sở đó, tác giả xây dựng mơ hình trích chọn đặc trƣng sản phẩm dựa hƣớng tiếp cận lan truyền kép nhƣng có bổ sung số cải tiến để nâng cao chất lƣợng trích chọn mơ hình Cải tiến luận văn đề xuất dựa việc bổ sung sở liệu đặc trƣng sản phẩm vào mơ hình, từ tự động sinh tập hạt giống đặc trƣng cho thuật toán lan truyền kép Ngoài ra, luận văn giải vấn đề xếp hạng nhóm gộp đặc trƣng sau đƣợc trích chọn Kết thực nghiệm miền sản phẩm máy ảnh cho kết trích chọn với độ đo F1 đạt 72.87% chứng tỏ tính khả thi mơ hình Định hƣớng tƣơng lai Định hƣớng nghiên cứu thời gian tới luận văn tiếp tục hồn thiện phát triển mơ hình trích chọn đặc trƣng, tập trung vào phƣơng pháp xếp hạng gộp nhóm đặc trƣng hiệu hơn, ngồi giải vấn đề trích chọn đặc trƣng ẩn vấn đề độ chi tiết đặc trƣng, tiến tới hoàn thiện ứng dụng tổng hợp quan điểm cho đặc trƣng sản phẩm trích chọn đƣợc Do hạn chế thời gian kiến thức khó khăn trình thu thập tiền xử lý liệu tiếng Việt nên luận văn chƣa thực nghiệm đƣợc phƣơng pháp đề xuất với liệu tiếng Việt Vì vậy, nghiên cứu tập trung vào việc phát triển ứng dụng trích chọn đặc trƣng tổng hợp quan điểm dựa đặc trƣng với tập liệu tiếng Việt 51 Tài liệu tham khảo Tài liệu tiếng Việt: Hà Quang Thụy, Phan Xuân Hiếu, Đồn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2009) Giáo trình khai phá liệu Web, Nhà xuất giáo dục Việt Nam [1] Tài liệu tiếng Anh: Agirre E, Alfonseca E, Hall K, Kravalova J, Pasca M, and Soroa A (2009), “A study on similarity and relatedness using distributional and WordNet-based approaches”, NAACL '09 Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics, pp 19-27 [3] Bo Pang, Lillian Lee (2008), “Opinion Mining and Sentiment Analysis”, Journal Foundations and Trends in Information Retrieval, Volume Issue 1-2 [4] Budanitsky A and Hirst G (2001), “Semantic distance in wordnet: An experimental, application-oriented evaluation of five measures”, Workshop on WordNet and Other Lexical Resources [5] Carenini G, Ng R, and Zwart E (2005), “Extracting knowledge from evaluative text”, K-CAP '05 Proceedings of the 3rd international conference on Knowledge capture, pp 11-18 [6] Etzioni O, Cafarella M, Downey D, Kok S, Popescu A, Shaked T, Soderland S, Weld D, and Yates A (2004), “Web-Scale information extraction in Knowitall” WWW '04 Proceedings of the 13th international conference on World Wide Web, pp 100-110 [7] Fellbaum C (1998), WordNet: An On-Line Lexical Database, MIT Press [8] Freitag D, McCallum A (2000), “Information extraction with HMM structures learned by stochastic optimization”, Proceedings of the Seventeenth National Conference on Artificial Intelligence and Twelfth Conference on Innovative Applications of Artificial Intelligence, pp 584-589 [9] Girju R, Badulescu A and Moldovan D (2006), “Automatic Discovery of Part-Whole Relations”, Journal Computational Linguistics, Volume 32 Issue 1, pp 83-135 [10] Ghani R, Probst K, Liu Y, Krema M, Fano A (2006), “Text mining for product attribute extraction”, ACM SIGKDD Explorations Newsletter, Volume Issue 1, pp 41-48 [11] Guo H, Zhu H, Guo Z, Zhang X, and Su Z (2009), “Product feature categorization with multilevel latent semantic association”, CIKM '09 [2] 52 Proceedings of the 18th ACM conference on Information and knowledge management, pp 1087-1096 [12] Hu M and Liu B (2004), “Mining opinion features in customer reviews”, AAAI'04 Proceedings of the 19th national conference on Artifical intelligence, pp 755-760 [13] Jiang J and Conrath D (2007) “Semantic similarity based on corpus statistics and lexical taxonomy”, Proceedings of Research in Computational Linguistics [14] Kobayashi N, Inui K, and Matsumoto Y (2007), “Extracting aspectevaluation and aspect-of relations in opinion mining “, Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL) [15] Lafferty J, McCallum A, and Pereira F (2001), “Conditional random fields: Probabilistic models for segmenting and labeling sequence data”, ICML '01 Proceedings of the Eighteenth International Conference on Machine Learning, pp 282-289 [16] Liu B (2011), Web data mining: Exploring hyperlinks, Contents, and Usage Data, Second Edition, Springer, pp 459-517 [17] Mei Q, Ling X, Wondra M, Su H, and Zhai C (2007), “Topic sentiment mixture: Modeling facetsand opinions in weblogs”, WWW '07 Proceedings of the 16th international conference on World Wide Web, pp 71 – 180 [18] Pedersen T (2010), “Information Content Measures of Semantic Similarity Perform Better Without Sense-Tagged Text”, HLT '10 Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics, pp 329-332 [19] Popescu A-M, and Etzioni O (2005), “Extracting product features and opinions from reviews”, HLT '05 Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing, pp 339-346 [20] Qiu G, Liu B, Bu J and Chen Ch (2009) “Expanding domain sentiment lexicon through double propagation”, IJCAI'09 Proceedings of the 21st international jont conference on Artifical intelligence, pp 1199-1204 [21] Raju S, Shishtla P, VarmaA V (2009), “Graph Clustering Approach to Product Attribute Extraction”, 4th Indian International Conference on Artificial Intelligence 53 Scaffidi C, Bierhoff K, Chang E, Felker M, Ng H, and Jin C (2007), “Red opal: product-feature scoring from reviews”, EC '07 Proceedings of the 8th ACM conference on Electronic commerce, pp 182-191 [23] Somprasertsri G, Lalitrojwong P (2008), “A Maximum Entropy Model for Product Feature Extraction in Online Customer Reviews”, Proceedings of The IEEE International Conference on Cybernetics and Intelligent Systems (CIS 2008) [24] Taylor A, Marcus M, Santorini B (1994), “The Penn Tree Bank: An overview”, ARPA Human Language Technology Workshop [25] Tien-Thanh Vu, Huyen-Trang Pham, Cong-To Luu, Quang-Thuy Ha (2011) A Feature-based Opinion Mining Model on Product Reviews in Vietnamese, ICCCI’11 (submitted) [26] Yang D and Powers D (2005), “Measuring semantic similarity in the taxonomy of WordNet”, ACSC '05 Proceedings of the Twenty-eighth Australasian conference on Computer Science - Volume 38, pp 315-322 [27] Zhang L and Liu B (2010), “Extracting and ranking product features in opinion Documents”, COLING '10 Proceedings of the 23rd International Conference on Computational Linguistics: Posters, pp 1462-1470 [28] Zhai Z, Liu B, Xu H and Jia P (2010), “Grouping Product Features Using Semi-Supervised Learning with Soft-Constraints”, Proceedings of the 23rd International Conference on Computational Linguistics (COLING-2010) [29] Zhai Z, Liu B, Xu H and Jia P (2011), “Clustering product features for opinion mining”, Proceedings of the fourth ACM international conference on Web search and data mining [22] Thank you for evaluating AnyBizSoft PDF Splitter A watermark is added at the end of each output PDF file To remove the watermark, you need to purchase the software from http://www.anypdftools.com/buy/buy-pdf-splitter.html ... việc khai phá tóm tắt quan điểm đƣợc thể văn 16 Chƣơng MỘT SỐ PHƢƠNG PHÁP GIẢI QUYẾT BÀI TỐN TRÍCH CHỌN ĐẶC TRƢNG TRONG KHAI PHÁ QUAN ĐIỂM 2.1 Một số nghiên cứu trích chọn đặc trƣng khai phá quan. .. gồm: toán phân lớp quan điểm, toán khai phá tổng hợp quan điểm dựa đặc trƣng toán khai phá quan hệ so sánh Bài toán khai phá tổng hợp quan điểm dựa đặc trƣng nhằm mục tiêu tạo tổng hợp quan điểm. .. giới thiệu tổng quan tốn khai phá quan điểm nói chung nhƣ số khái niệm liên quan khai phá quan điểm dựa đặc trƣng, từ phát biểu tốn trích chọn đặc trƣng ngữ cảnh khai phá quan điểm đặc trƣng sản

Ngày đăng: 11/11/2020, 22:00

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan