Tìm kiếm thực thể dựa trên đánh giá của người dùng và ứng dụng mapreduce trong bài toán tìm kiếm đối tượng

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI HUỲNH TUẤN ANH Huỳnh Tuấn Anh CÔNG NGHỆ THÔNG TIN TÌM KIẾM THỰC THỂ DỰA TRÊN ĐÁNH GIÁ CỦA NGƯỜI DÙNG VÀ ỨNG DỤNG MAPREDUCE TRONG BÀI TOÁN TÌM KIẾM ĐỐI TƯỢNG LUẬN VĂN THẠC SĨ KỸ THUẬT CÔNG NGHỆ THÔNG TIN KHOÁ 2010 Hà Nội – Năm 2012 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI Huỳnh Tuấn Anh TÌM KIẾM THỰC THỂ DỰA TRÊN ĐÁNH GIÁ CỦA NGƯỜI DÙNG VÀ ỨNG DỤNG MAPREDUCE TRONG BÀI TOÁN TÌM KIẾM ĐỐI TƯỢNG Chuyên ngành : Công Nghệ Thông Tin LUẬN VĂN THẠC SĨ KỸ THUẬT CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC : PGS.TS Huỳnh Quyết Thắng Hà Nội – Năm 2012 LỜI CAM ĐOAN Tôi xin cam đoan mà viết luận văn tìm hiểu nghiên cứu thân Mọi kết nghiên cứu nhƣ ý tƣởng tác giả khác có đƣợc trích dẫn đầy đủ Luận văn chƣa đƣợc bảo vệ hội đồng bảo vệ luận văn thạc sĩ toàn quốc nhƣ nƣớc chƣa đƣợc công bố phƣơng tiện thông tin Tôi xin hoàn toàn chịu trách nhiệm mà cam đoan Hà Nội, ngày 30 tháng năm 2012 Tác giả Huỳnh Tuấn Anh i LỜI CẢM ƠN Trƣớc tiên, xin phép bày tỏ biết ơn chân thành đến PGS.TS Huỳnh Quyết Thắng tận tình giúp đỡ hoàn thành luận văn Tôi xin chân thành cảm ơn thầy cô viện Công nghệ Thông tin Truyền thông Đại học Bách khoa Hà Nội tận tình giảng dạy, truyền đạt cho kiến thức quí báu suốt thời gian khóa Thạc sĩ 2010 Xin cảm ơn đồng nghiệp Đại học Nha Trang tạo điều kiện, động viên thời gian thực luận văn Hà Nội, ngày 30 tháng năm 2012 Huỳnh Tuấn Anh ii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii DANH MỤC CÁC THUẬT NGỮ VÀ TỪ VIẾT TẮT v DANH MỤC CÁC HÌNH VẼ vi DANH MỤC CÁC BẢNG BIỂU vii MỞ ĐẦU 0.1 Giới thiệu tìm kiếm thực thể 0.2 Tìm kiếm thực thể dựa vào đánh giá ngƣời dùng 0.2.1 Đánh giá sản phẩm cộng đồng ngƣời dùng 0.2.2 Tìm kiếm sản phẩm dựa vào đánh giá ngƣời dùng 0.3 Nhiệm vụ luận văn 0.4 Các nghiên cứu liên quan 0.5 Cấu trúc luận văn CHƢƠNG BÀI TOÁN TÌM KIẾM THÔNG TIN 1.1 Đánh mục văn (indexing) 1.2 Tìm kiếm văn 10 1.2.1 Mô hình không gian vector (Vector Space Model - VSM) 11 1.2.2 Mô hình thống kê 14 1.3 Kiến trúc hệ thống IR 16 Kết chƣơng 17 CHƢƠNG TÌM KIẾM THỰC THỂ DỰA TRÊN CÁC ĐÁNH GIÁ 18 2.1 Xếp hạng thực thể dựa đánh giá 19 2.2 Tính điểm đánh giá có xét chiều hƣớng đánh giá ngƣời sử dụng đánh giá 21 2.2.1 Tính mức độ tích cực (positive) hay tiêu cực (negative) đánh giá 23 2.2.1.1 Phân lớp Sentiment (Sentiment Classification) 23 2.2.1.2 Tính điểm đánh giá đánh giá với câu truy vấn có xét đến SO đánh giá 24 2.2.1.3 Tính số SO 24 2.2.1.4 Chỉ số SO khía cạnh thực thể 25 2.2.2 Tính trọng số từ đánh giá hai vector pos neg 27 2.2.3 Tóm tắt mô hình tính số SO khía cạnh thực thể 31 iii Kết chƣơng 32 CHƢƠNG THUẬT TOÁN TÌM KIẾM THỰC THỂ DỰA TRÊN CÁC ĐÁNH GIÁ VỚI MAPREDUCE 33 3.1 MapReduce Framework 33 3.1.1 Cấu trúc liệu MapReduce 33 3.1.2 Map Reduce hai hàm MapReduce 33 3.1.3 Partitioner Combiner: thành phần phụ MapReduce 35 3.1.4 Ví dụ minh họa MapReduce 37 3.2 Giới thiệu Apache Hadoop 38 3.3 Thuật toán MapReduce Entity Search cho toán tìm kiếm thực thể dựa đánh giá 41 3.3.1 Thành phần Mapper 43 3.3.2 Thành phần Reducer 44 3.3.3 Thành phần Combiner 44 Kết chƣơng 46 CHƢƠNG CÀI ĐẶT THỬ NGHIỆM VÀ ĐÁNH GIÁ 47 4.1 Dữ liệu cho cài đặt thử nghiệm 47 4.2 Các công cụ sử dụng 48 4.2.1 Lucene 48 4.2.2 Từ điển đồng nghĩa WordNet 52 4.2.3 MIT Java Wordnet Interface (JWI) 52 4.2.4 SentiWordNet 53 4.2.5 Mô hình thống kê BM25 Lucene 53 4.3 Xác định hai vector pos neg 53 4.4 Đánh giá 57 4.4.1 Tiêu chuẩn đánh giá 57 4.4.3 Kết thử nghiệm 58 4.4.4 Một số ví dụ kết tìm kiếm 62 Kết chƣơng: 65 KẾT LUẬN 66 Đánh giá chung luận văn 66 Các đóng góp khoa học luận văn 67 Hƣớng phát triển luận văn 67 TÀI LIỆU THAM KHẢO 68 iv DANH MỤC CÁC THUẬT NGỮ VÀ TỪ VIẾT TẮT Số thứ tự Từ viết tắt Từ đầy đủ Giải nghĩa tiếng Việt ESE Entity Search Engine Máy tìm kiếm thực thể OSE Object Search Engine Máy tìm kiếm đối tƣợng IR Information Retrieval Truy hồi thông tin VSM Vector Space Model TF Term Frequency IDF Inverted Document Frequency Mô hình không gian vector Tần số xuất từ văn Tần số văn ngƣợc từ BM Best Match So khớp tối ƣu PMI Pointwise Mutual Information Thông tin tƣơng hỗ hai kiện SO Sentiment Orientation Định hƣớng thiện cảm 10 HDFS Hadoop Distributed File System 11 AAR Average Aspect Rating 12 MAAR Multi-Average Aspect Rating Hệ thống file phân tán Hadoop Điểm số đánh giá trung bình cho khía cạnh Điểm số đánh giá trung bình cho nhiều khía cạnh Điểm số (điểm số đánh giá liên quan) Đánh giá (Đánh giá ngƣời dùng thực thể) 13 score 14 review v DANH MỤC CÁC HÌNH VẼ Hình 0.1: Tóm tắt đặc tính cellular phone dựa đánh giá [1] Hình 1.1 Ví dụ postings list cho term “windows” inverted index 10 Hình 1.2 Ví dụ inverted index với vị trí xuất term windows văn 10 Hình 1.3 độ tƣơng tự hai văn d1, d2 câu truy vấn q 12 Hình 1.4 Kiến trúc hệ thống IR [17] 16 Hình 2.1 Mô hình tìm kiếm thực thể dựa đánh giá 19 Hình 2.1 Đồ thị hàm relate(x) với k=5; β=2 27 Hình 3.1 Hai pha map reduce MapReduce job [8] 34 Hình 3.2 MapReduce với đầy đủ thành phần [8] 36 Hình 3.3 Sơ đồ ứng dụng MapReduce mức cao [20] 37 Hình 3.4 Sơ đồ theo dõi ứng dụng MapReduce [6] 39 Hình 3.5 Sơ đồ thực thi chi tiết ứng dụng MapReduce [20] 40 Hình 3.6 Sơ đồ thuật toán MapReduce Entity Search cho toán tìm kiếm thực thể dựa đánh giá 42 Hình 4.1 Điểm số chi tiết cho đánh giá tập posReviwew, negReview 48 Hình 4.2 Một khối document biểu diễn đánh giá mẫu xe 50 Hình 4.3 nDCG trung bình top 10 kết trả trƣờng hợp thử nghiệm 61 Hình 4.4 So sánh nDCG hai trƣờng hợp tốt f=2 f=0 61 Hình 4.5 top 10 kết tìm kiếm với câu truy vấn: good + fuel economy, với f=0, sum score, BM25 nDCGaspect=0.933 nDCGoverall=0.965 63 Hình 4.6 top 10 kết tìm kiếm với câu truy vấn: q= fuel với f=2, α=0.4, BM25, nDCGaspect=0.967, nDCGoverall=0.977 63 vi DANH MỤC CÁC BẢNG BIỂU Bảng 2.1 Các phƣơng pháp tổng hợp điểm đánh giá 20 Bảng 4.1 Lucene Document đánh giá 49 Bảng 4.2 Lucene Document thực thể 49 Bảng 4.3 Danh sách từ vector pos 55 Bảng 4.4 Danh sách từ vector neg 56 Bảng 4.5 Các câu truy vấn khía cạnh thực thể có xét đến ảnh hƣởng từ đánh giá 58 Bảng 4.6 Các câu truy vấn khía cạnh thực thể không xét đến ảnh hƣởng từ đánh giá 59 Bảng 4.7 nDCG top 10 kết trả câu truy vấn bảng 4.6 với f=0 60 Bảng 4.8 nDCG top 10 kết trả câu truy vấn bảng 4.5 với f=2 60 vii MỞ ĐẦU Sự phát triển nhanh chóng ứng dụng công nghệ thông tin Internet vào lĩnh vực đời sống xã hội tạo nhiều nguồn liệu khổng lồ Trong số phải kể đến lƣợng lớn nhận xét, đánh giá (sau gọi đánh giá-review) sản phẩm trang thƣơng mại điện tử diễn đàn, hồ sơ liên quan đến cá nhân… Các ý kiến đánh giá chuyên gia hay cộng đồng ngƣời dùng Internet có ích việc trợ giúp khách hàng lựa chọn sản phẩm muốn mua Ví dụ, khách hàng thƣờng đọc qua đánh giá sản phẩm trƣớc định mua Nhƣng với số lƣợng lớn đánh giá, khách hàng đọc hết tất đánh giá sản phẩm Thông thƣờng với trợ giúp công cụ tìm kiếm nhƣ Google, Yahoo, Bing, khách hàng thƣờng tìm đọc đánh giá sản phẩm sau cung cấp cho máy tìm kiếm tên sản phẩm Việc lựa chọn sản phẩm nhƣ chủ yếu dựa vào chủ quan khách hàng không dựa đánh giá sẵn có Với phát triển kỹ thuật máy tính khai phá liệu, có số nghiên cứu liệu đánh giá nhằm trợ giúp khách hàng đƣa định dựa đánh giá nhƣ: Tóm tắt đánh giá [1] [10], [11]: Tóm tắt đặc tính sản phẩm từ đánh giá ngƣời dùng Kết tóm tắt đƣợc trình bày cách trực quan Khách hàng xem cách tổng quan đánh giá ngƣời dùng sản phẩm Khi cần thiết, khách hàng “khoan sâu” thuộc tính cụ thể để xem xét đánh giá cho thuộc tính 15 loved 0.43539435 16 impressed 0.45885193 17 outstanding 0.5182235 18 fantastic 0.58949095 19 glad beautiful 0.5138382 21 wonderful 23 super 25 0.47108263 20 0.508361 22 0.49204278 24 surprised 0.31297997 26 powerful 0.46345255 favorite 0.4333569 luxurious 0.4333569 27 superb 0.6139272 28 satisfied 0.45141342 29 terrific 0.36715245 30 incredible 0.49836046 31 unbelievable 0.5633639 32 comfy 33 0.5687809 34 amazed 0.54169613 35 exceptional 0.37918732 36 efficient 0.27084807 37 gorgeous 0.66207874 confident remarkable 0.46946993 38 0.6067012 39 pleasant 0.5778092 40 dependable 0.704205 41 classy 0.36113074 42 impressive 0.65005237 43 stunning 0.39724383 Bảng 4.4 Danh sách từ vector neg Số TT word Số weight TT word weight bad -1.3827002 worst -1.2526044 poor -1.2893871 horrible -1.4883012 uncomfortable -1.2569232 terrible -1.2595366 hate -1.4642482 broken -1.5883665 wrong -1.111433 worse -1.3289847 10 11 failed -1.2855189 12 disappointed -1.2167631 13 poorly -0.9606183 14 15 unsafe -1.3043164 16 unreliable -1.5355763 17 defective -1.3046516 18 useless -1.2316495 19 faulty -1.7084905 20 annoying -1.4099194 56 awful -1.1768867 21 lousy -1.1974536 22 stupid -0.9754291 23 ridiculous -1.4534088 24 afraid -0.7576168 25 sad -1.178515 26 failing -0.97858 27 foul -2.1886704 28 scary -0.5050778 29 horrid 31 substandard -0.90282494 30 unacceptable -0.9638535 -0.6734371 32 pathetic -1.3152984 Trong ứng dụng, trọng số xuất từ đánh giá hai vector pos neg thay đổi tùy theo hai tập đánh giá phân cực posRevew negReview 4.4 Đánh giá 4.4.1 Tiêu chuẩn đánh giá Để đánh giá kết tìm kiếm thực thể, luận văn sử dụng phƣơng pháp đánh giá hai tác giả Kavita Ganesan Cheng Xiang Zhai [12] Điểm số đánh giá cho khía cạnh thực thể ngƣời dùng đƣợc tính trung bình, gọi Average Aspect Rating (AAR), đƣợc dùng làm tiêu chí đánh giá cho kết tìm kiếm câu truy vấn khía cạnh thực thể Đối với câu truy vấn nhiều khía cạnh thực thể, số MAAR (Multi-Average Aspect Rating), đƣợc tính trung bình cộng số AAR, đƣợc dùng để đánh giá Gọi ri(e) số AAR khía cạnh i thực thể e Ta có: MAAR(e, q) k ri (e) ki1 (4.2) Một thuật toán xếp hạng lý tƣởng xếp hạng thực thể kết tìm kiếm giảm dần theo score(ei,q) theo trật tự giảm dần số MAAR(ei,q) Các tiêu chuấn đánh giá: Sử dụng tiêu chuẩn đánh giá nDCG (Discounted Cumulative Gain) [9] để đánh giá phƣơng pháp xếp hạng thực thể đề nghị chƣơng Trong máy tìm kiếm, ngƣời dùng quan tâm n kết (top n) Do đó, sử dụng nDCG để đánh giá 10 thực thể kết tìm kiếm Tƣơng tự nhƣ [12], gọi DCG[p] Discounted Cumulative Gain vị trí thứ p danh sách kết tìm kiếm, DCG[p] đƣợc tính theo công thức: 57 DCG[ p] MAAR(e, q)1 p i MAAR(e, q)i log i (4.3) Để DCG so sánh đƣợc kết câu truy vấn khác nhau, DCG đƣợc chuẩn hóa DCG phƣơng pháp xếp hạng lý tƣởng, kí hiệu IDCG nDCG đƣợc tính công thức: nDCG DCG[ p] IDCG[ p] (4.4) 4.4.3 Kết thử nghiệm Trong thử nghiệm, giá trị tham số đƣợc sử dụng nhƣ sau: - Cửa sổ xác định mức độ phụ thuộc có bề rộng s=2 từ đánh giá nằm trƣớc từ khía cạnh s=3 từ đánh giá nằm sau từ khía cạnh Để cải thiện thêm kết quả, trọng số từ đánh giá nằm sau từ “not”, vd not good, không tham gia vào biểu thức tính score(r,q) (k 1)e - Hàm phụ thuộc: relate( x) k x : k=8; β=2 Thực thể xe trang www.edmunds.com có khía cạnh đƣợc đánh giá điểm số cụ thể Để đánh giá phƣơng pháp xếp hạng đƣợc đề nghị chƣơng 2, sử dụng câu truy vấn ứng với khía cạnh thực thể đƣợc cho bảng 4.5 Trong câu truy vấn có chứa từ khóa khía cạnh tƣơng ứng thực thể Dấu cộng từ sau bắt buộc phải đƣợc xuất đánh giá đƣợc tìm thấy Mỗi câu truy vấn đơn giản liên quan trực tiếp đến khía cạnh thực thể xe đƣợc ngƣời dùng đánh giá điểm số Do từ đánh giá xét đến hai vector pos neg, nên từ đánh giá không cần thiết có mặt câu truy vấn Bảng 4.5 Các câu truy vấn khía cạnh thực thể có xét đến ảnh hƣởng từ đánh giá STT Khía cạnh thực thể Fuel economy Câu truy vấn Từ khóa (main keys) fuel fuel 58 Interior design +interior design interior Exterior design +exterior design exterior Build quality +build quality build Perfomance performance performance Comfort comfort comfort Reliability reliability reliability Fun-to-drive fun to + drive drive Các câu truy vấn trƣờng hợp không xét đến ảnh hƣởng từ đánh giá đƣợc cho bảng 4.6 Do không xét đến ảnh hƣởng từ đánh giá nên câu truy vấn có chứa từ đánh giá Để so sánh đƣợc kết với trƣờng hợp thử nghiệm có xét đến ảnh hƣởng từ đánh giá, câu truy vấn gồm từ khóa khía cạnh đƣợc đánh giá điểm số từ đánh giá tích cực thƣờng đƣợc sử dụng cho khía cạnh Bảng 4.6 Các câu truy vấn khía cạnh thực thể không xét đến ảnh hƣởng từ đánh giá STT Khía cạnh thực thể Câu truy vấn Từ bắt buộc xuất Fuel economy good +fuel economy fuel Interior design good +interior design interior Exterior design good +exterior design exterior Build quality good +build quality build Perfomance high +performance performance Comfort comfort comfort Reliability high +reliability reliability Fun-to-drive fun to + drive drive Hai mô hình tìm kiếm VSM BM25 đƣợc sử dụng đánh giá thử nghiệm Bảng 4.7 kết đánh giá trƣờng hợp không xét đến ảnh hƣởng từ đánh giá, hay f=0 Bảng 4.8 kết đánh giá xét đến ảnh hƣởng từ đánh giá công thức tính score(r,q) Cả hai trƣờng hợp thử nghiệm dùng phƣơng pháp tổng hợp score(r,q) Sum Sum-Average (ứng với α=0.4 59 α=0.5) Hình 4.3 biểu đồ so sánh kết trung bình hai bảng 4.7 4.8 Biểu đồ cho thấy tất trƣờng hợp thử nghiệm, kết xét đến ảnh hƣởng từ đánh giá tốt Đồng thời, dùng phƣơng pháp SumAverage để tổng hợp điểm đánh giá, kết tốt so với phƣơng pháp Sum phƣơng pháp Sum-Average ý đồng thời đến số lƣợng đánh giá khớp với câu truy vấn giá trị score(r,q) trung bình thực thể Bảng 4.7 nDCG top 10 kết trả câu truy vấn bảng 4.6 với f=0 f=0 STT Aspest sum sum-avg, α=0.4 sum avg, α=0.5 VSM BM25 VSM BM25 VSM BM25 fuel economy 0.915 0.933 0.861 0.906 0.895 0.912 interior design 0.909 0.909 0.891 0.908 0.909 0.907 exterior design 0.931 0.933 0.94 0.931 0.937 0.929 build quality 0.922 0.924 0.923 0.918 0.908 0.918 performance 0.913 0.910 0.911 0.921 0.91 0.922 comfort 0.904 0.896 0.913 0.914 0.909 0.911 reliability 0.945 0.939 0.922 0.937 0.934 0.94 fun to drive 0.931 0.925 0.934 0.929 0.931 0.931 Trung bình 0.921 0.921 0.912 0.921 0.917 0.921 Bảng 4.8 nDCG top 10 kết trả câu truy vấn bảng 4.5 với f=2 f=2 STT Aspest sum sum-avg, α=0.4 sum-avg, α=0.5 VSM BM25 VSM BM25 VSM BM25 fuel economy 0.953 0.945 0.967 0.967 0.961 0.962 interior design 0.932 0.932 0.948 0.944 0.942 0.942 exterior design 0.932 0.931 0.93 0.934 0.929 0.931 build quality 0.941 0.944 0.934 0.962 0.955 0.96 60 performance 0.919 0.918 0.932 0.933 0.93 0.934 comfort 0.921 0.923 0.939 0.934 0.935 0.937 reliability 0.932 0.936 0.942 0.944 0.938 0.934 fun to drive 0.929 0.929 0.944 0.94 0.935 0.94 Trung bình 0.932 0.932 0.942 0.945 0.941 0.943 0.95 0.945 0.94 0.935 0.93 0.925 0.92 0.915 0.91 0.905 0.9 0.895 f=2 f=0 Hình 4.3 nDCG trung bình top 10 kết trả trường hợp thử nghiệm 0.98 0.97 0.96 0.95 0.94 0.93 0.92 "f=2, ∝=0.4, BM25" 0.91 "f=0, ∝=0.5, BM25" 0.9 0.89 0.88 0.87 Hình 4.4 So sánh nDCG hai trường hợp tốt f=2 f=0 61 Hình 4.4 biểu đồ so sánh tiêu chuẩn đánh giá nDCG top 10 kết hai trƣờng hợp tốt ứng với (f=2 , α=0.4, BM25) (f=0, α =0.5, BM25) Trong tất trƣờng hợp truy vấn, việc xét đến ảnh hƣởng từ đánh giá, trƣờng hợp f=2, cho kết tốt đơn tìm kiếm theo từ khóa 4.4.4 Một số ví dụ kết tìm kiếm Hình 4.5 kết tìm kiếm tốt ứng với câu truy vấn q = good + fuel economy với f=0 (phƣơng pháp tổng hợp điểm đánh giá: Sum, mô hình tìm kiếm BM25) Hình 4.6 kết tìm kiếm với câu truy vấn q=fuel, f=2, sử dụng phƣơng pháp Sum-Averege để tổng hợp điểm đánh giá với α=0.4 Câu truy vấn đơn giản chứa từ khía cạnh thực thể không chứa từ đánh giá từ đánh giá có mặt hai vector pos neg Cột Aspect rating kết AAR (theo thang điểm 10) khía cạnh Fuel economy Có thể trực quan thấy kết hình 4.6 tốt kết hình 4.5 hầu hết AAR có giá trị cao, đặc biệt kết với tất điểm số đánh giá khía cạnh tìm kiếm lớn Kết hình 4.6 cho thấy cải thiện đáng kể với nDCGaspect=0.967 so với nDCGaspect=0.933 Một điều đáng ý, điểm số tổng thể mẫu xe kết trả có giá trị cao việc đánh giá khía cạnh khác có liên quan gián tiếp đến việc tính score(r,q) trƣờng hợp từ đánh giá từ khía cạnh câu truy vấn không thuộc cửa sổ, nDCGoverall=0.965 hình 4.4 nDCGoverall=0.977 hình 4.5 62 Hình 4.5 top 10 kết tìm kiếm với câu truy vấn: good + fuel economy, với f=0, sum score, BM25 nDCGaspect=0.933 nDCGoverall=0.965 Hình 4.6 top 10 kết tìm kiếm với câu truy vấn: q= fuel với f=2, α=0.4, BM25, nDCGaspect=0.967, nDCGoverall=0.977 So với phƣơng pháp tìm kiếm theo từ khóa đơn thuần, chủ yếu dựa so khớp câu truy vấn với đánh giá, việc xét đến số SO xem tƣơng đƣơng với việc bổ sung số từ đánh giá vào câu truy vấn nhằm tìm kiếm thực thể đƣợc cộng đồng ngƣời dùng đánh giá tốt (ví dụ: fuel economy  good|great|excellent fuel economy) Tuy nhiên việc bổ sung thêm từ đánh giá 63 xét đến chiều hƣớng gia tăng (tốt hay xấu) đánh giá Phƣơng pháp đề nghị luận văn không làm phức tạp câu truy vấn xét đến hai chiều hƣớng gia tăng cho đánh giá Ví dụ để tìm kiếm xe tiết kiệm xăng, ngƣời dùng cần cung cấp câu truy vấn: + fuel economy, đơn giản hơn: fuel Một thực thể, có số đánh giá không tốt khía cạnh bị giảm score(e,q) câu truy vấn ứng với khía cạnh Trong hình 4.5, f=0, mẫu xe 2007_nissan_versa đƣợc trả vị trí thứ đƣợc đánh giá với điểm số 7.9 cho khía cạnh Fuel economy Tuy nhiên xét đến ảnh hƣởng số SO, mẫu xe 2007_nissan_versa không xuất top 10 (hình 4.6) có số đánh giá có score(r,q) có giá trị âm, tức không đƣợc đánh giá tốt nhƣ: …The biggest problem I have with this car is the horrible fuel mileage I'm getting I bought this car to save gas mileage, not get the same as my '96 Nissan Maxima or my '05 Toyota Sienna …We were a little disappointed with the fuel mileage in the beginning We did not get the 30/36 mpg It was closer to 22 mpg … Khi f=2, score(r,q) cho hai đánh giá 1, lần lƣợt là: -3.7126932 -0.89418215 score(r,q) âm từ đánh giá tiêu cực horrible disapointed đƣợc dùng để đánh giá khía cạnh fuel Mẫu 2007_Toyota_Yaris đƣợc trả hình có số đánh giá đƣợc gia tăng score nhƣ: After buying old cars that I can fix my own, (old VW,and fords) until major jobs (transmission, etc.), I have gotten tired and bought this car The first thing I looked for was fuel consumption I wanted a hybrid, but at my federal wages it was out of my sight Then I found 07 yaris dr, 5sp M It has the feel of my old bug, but more room for storage, great fuel consumtion and great price range The car does good on fuel until you take it out on the highway, anything above 60 and the fuel mileage drops like a rock I get about 37 for mixed driving but when I take it out on the open road 25 to 28 64 Đối với đánh giá 3, không xét đến số SO: score(r,q)= 1.0799165 Khi xét đến số SO: score(r,q)= 2.0451372 đƣợc gia tăng nhờ vào từ đánh giá great (great fuel consumtion) Đối với đánh giá 4, việc gia tăng score(r, q) chủ yếu nhờ vào từ đánh giá good (good on fuel) score(r,q) trƣớc sau xét ảnh hƣởng số SO lần lƣợt là: 1.3847312 1.7199508 Kết chƣơng: Chƣơng giải số vấn đề sau: - Sử dụng công cụ mã nguồn mở, Lucene, MIT Java Wordnet Interface, để cài đặt thử nghiệm mô hình đề xuất chƣơng - Đánh giá kết quả: Kết thử nghiệm cho thấy kết tìm kiếm đƣợc cải thiện đáng kể công thức xếp hạng thực thể có xét đến số SO Kết thử nghiệm thực hai tập mẫu posReview negReview với 882 đánh giá để xác định hai vector pos neg Do đó, triển khai thực với hai tập mẫu lớn kết khách quan xác Hai tập ứng viên positive_words negative_words, hai vector pos neg luận văn đƣợc xác định việc loại bỏ từ trung tính hai tập tính từ thu đƣợc từ hai tập mẫu với min_support conf cho trƣớc Hai tập tính từ đƣợc thu gọn cách tự động sử dụng thƣ viện SentiWordNet Trong cài đặt thử nghiệm việc thu gọn hai tập tính từ đƣợc thực thủ công chƣa có đƣợc thƣ viện SentiWordNet Tuy nhiên số lƣợng từ thu đƣợc rút trích tính từ từ hai tập posReview negReview xét đến min_support conf không nhiều (ít 100 từ cho tập) Do đó, việc thu gọn hai tập tính từ cách thủ công hoàn toàn có khả thực đƣợc 65 KẾT LUẬN Luận văn đề nghị phƣơng pháp tìm kiếm thực thể dựa đánh giá ngƣời dùng Chƣơng đƣợc dành riêng cho việc đánh giá vấn đề luận văn nghiên cứu đƣa hƣớng phát triển luận văn Đánh giá chung luận văn Luận văn hoàn thành nhiệm vụ đề Trong chƣơng 2, luận văn đề nghị phƣơng pháp xếp hạng thực thể toán tìm kiếm thực thể dựa vào đánh giá ngƣời dùng Mô hình tìm kiếm thực thể chủ yếu dựa mô hình chuẩn tìm kiếm văn theo từ khóa Đối với câu truy vấn q, máy tìm kiếm tìm tính điểm số liên quan, score(r,q), đánh giá thực thể khớp với q Sau score(r,q) đƣợc tổng hợp theo thực thể để đƣa điểm số liên quan score(e,q) cho thực thể Việc so khớp câu truy vấn với đánh giá có ƣu điểm: - score(rij ,q) đánh giá câu truy vấn đƣợc xem xét kết tổng hợp score(ei,q) đƣợc tổng hợp từ score(rij ,q) theo cách khác nhƣ liệt kê bảng 2.1 công thức (2.2) Do đó, ảnh hƣởng đánh giá score(ei, q) khác - Có thể cải thiện kết truy vấn việc phân tích đánh giá ngƣời dùng Tùy vào chiều hƣớng đánh giá khía cạnh thực thể, score(rij,,q) đƣợc điều chỉnh để tăng hay giảm công thức tổng hợp score(ei,q) (2.3): score(ei , q) k score(rij , q) (c f SO(rij )) {rij match q} Trong đó, số SO thể yêu thích ngƣời đánh giá đặc tính sản phẩm mà ngƣời tìm kiếm mong muốn Mô hình tính toán số SO, đơn giản, việc thu thập tập đánh giá tích cực tiêu cực trang đánh giá điều dễ thực crawler máy tìm kiếm 66 Kết thử nghiệm chƣơng 4, cho thấy cải thiện đáng kể score(ei,q) có xét đến số SO đánh giá Chƣơng trình bày thuật toán MapReduce Entity Search tìm kiếm thực thể tập đánh giá đƣợc đánh mục đƣợc lƣu trữ hệ thống file phân tán Qua cho thấy việc triển khai phƣơng pháp tìm kiếm thực thể chƣơng hệ thống lớn thực đƣợc Các đóng góp khoa học luận văn Đề xuất phƣơng pháp tìm kiếm thực thể dựa đánh giá ngƣời dùng Đề nghị công thức tính điểm đánh giá, Sum-Average, thực thể câu truy vấn dựa điểm đánh giá thực thể khớp với câu truy vấn Cải thiện kết tìm kiếm thực thể cách xét đến chiều hƣớng đánh giá (tích cực hay tiêu cực) ngƣời dùng đánh giá thực thể Đề xuất phƣơng pháp tính điểm đánh giá câu truy vấn Đề xuất giải thuật tìm kiếm thực thể dựa đánh giá ngƣời dùng MapReduce Framework Hƣớng phát triển luận văn Việc tính đến số SO score(e, q) cần thiết Vì lý sau: - Trong sống hàng ngày, khách hàng thƣờng tƣ vấn cho sản phẩm mà họ hài lòng, máy tìm kiếm thƣờng so khớp văn với từ khóa - Nhƣ đề cập đến chƣơng (kết thực nghiệm), xét đến số SO, kết tìm kiếm thực thể cải thiện cách đáng kể Tuy nhiên kết ban đầu luận văn hƣớng đề nghị cho hệ thống tìm kiếm hƣớng đánh giá cải thiện kết tìm kiếm, đáp ứng nhu cầu ngƣời dùng Luận văn nghiên cứu mức độ đơn giản ngữ nghĩa ngôn ngữ Để hƣớng nghiên cứu luận văn áp dụng đƣợc thực tế, cần phải ý số vấn đề sau: - Tiếp tục nghiên cứu cải thiện độ xác số SO Trong số 67 trƣờng hợp, đánh giá thể thái độ không hài lòng khách hàng nhƣng có chứa từ đánh giá tích cực - Xây dựng tập từ đánh giá để triển khai kết nghiên cứu hệ thống tìm kiếm sản phẩm hƣớng đánh giá khác - Mở rộng hệ thống tìm kiếm sản phẩm hƣớng đánh giá với câu truy vấn chứa nhiều khía cạnh thực thể Trong số trƣờng hợp với câu truy vấn nhiều khía cạnh thực thể, hệ thống tìm kiếm dựa từ khóa đƣa kết khớp với số khía cạnh sản phẩm lên vị trí đầu danh sách kết Khi tính score để xếp hạng cho thực thể dựa câu truy vấn nhiều khía cạnh, máy tìm kiếm thực thể phải xét đến tất khía cạnh chứa câu truy vấn TÀI LIỆU THAM KHẢO [1] Bing Liu, “Web data mining; Exploring hyperlinks, contents, and usage data,” Opinion Mining Springer, 2011 [2] Bo Pang, Lillian Lee, “Opinion Mining and Sentiment Analysis”, in Foundations and Trends in Information Retrieval, vol 2, pages 1-135, 2008 [3] Bo Pang, Lillian Lee, and Shivakumar Vaithyanathan Thumbs up? Sentiment classication using machine learning techniques In Proceedings of the 2002 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 79-86, 2002 [4] Bo Pang and Lillian Lee A sentimental education: Sentiment analysis using subjectivity summarization based on minimum cuts In Proceedings of the ACL, pages 271-278, 2004 [5] Bo Pang and Lillian Lee Seeing stars: Exploiting class relationships for sentiment categorization with respect to rating scales In Proceedings of the ACL, pages 115,124, 2005 [6] Chucklam, Hadoop In Action, Manning Publisher 2011, pages 21-25 [7] Javie Hand and Micheline Kamber, Data mining Concept and Techniques second edition, Morgan Kaufmann Publishers 2006, pages 616 68 [8] Jimmy Lin and Chris Dyer, Data-Intensive Text Processing with MapReduce, Morgan & Claypool Publishers 2010, pages 17-35, 37-64 [9] Kalervo Järvelin and Jaana Kekäläinen Cumulated gain-based evaluation of ir techniques ACM Transactions on Information Systems Volume 20 Issue 4, October 2002, pages 422 – 446 [10] Kavita A Ganesan, Neelakantan Sundaresan, Harshal Deo, Mining tag clouds and emoticons behind community feedback In Proceeding of the 17th international conference on World Wide Web (2008), pages 1181-1182 [11] Kavita Ganesan, Cheng Xiang Zhai, Jiawei Han Opinosis: a graph-based approach to abstractive summarization of highly redundant opinions In Proceedings of the 23rd International Conference on Computational Linguistics (2010), pages 340-348 [12] Kavita Ganesan, Cheng Xiang Zhai, "Opinion-Based Entity Ranking", Information Retrieval, 2011 [13] Kushal Dave, Steve Lawrence, David M Pennock, “Mining the Peanut Gallery: Opinion Extraction and Semantic Classification of Product Reviews”, WWW2003 [14] Peter D Turney, Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL), Philadelphia, July 2002, pages 417-424 [15] Rodrygo L.T Santos, Craig Macdonald, Iadh Ounis, Voting for Related Entities Proceeding RIAO '10 Adaptivity, Personalization and Fusion of Heterogeneous Information, pages 1-8 [16] Stefano Baccianella, Andrea Esuli, and Fabrizio Sebastiani, SENTIWORDNET 3.0: An Enhanced Lexical Resource for Sentiment Analysis and Opinion Mining In Proceedings of the Seventh conference on International Language Resources and Evaluation (LREC'10) pages 22002204, may 2010 69 [17] Stefan Biittcher , Charles L.A Clarke, and Gordon V Cormack, Information retrieval: implementing and evaluating search engines, 2010 Massachusetts Institute of Technology, pages 54-73, 264-273 [18] Tao Cheng, Xifeng Yan, Kevin Chen-Chuan Chang, EntityRank: Searching Entities Directly and Holistically Proceeding VLDB '07 Proceedings of the 33rd international conference on Very large data bases, pages 387-398 [19] www.apache.lucene [20] http://developer.yahoo.com/hadoop/tutorial/module4.html 70 ...BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI Huỳnh Tuấn Anh TÌM KIẾM THỰC THỂ DỰA TRÊN ĐÁNH GIÁ CỦA NGƯỜI DÙNG VÀ ỨNG DỤNG MAPREDUCE TRONG BÀI TOÁN TÌM KIẾM ĐỐI... thiệu tìm kiếm thực thể 0.2 Tìm kiếm thực thể dựa vào đánh giá ngƣời dùng 0.2.1 Đánh giá sản phẩm cộng đồng ngƣời dùng 0.2.2 Tìm kiếm sản phẩm dựa vào đánh giá ngƣời dùng ... 17 CHƢƠNG TÌM KIẾM THỰC THỂ DỰA TRÊN CÁC ĐÁNH GIÁ 18 2.1 Xếp hạng thực thể dựa đánh giá 19 2.2 Tính điểm đánh giá có xét chiều hƣớng đánh giá ngƣời sử dụng đánh giá

Định dạng
Số trang	79
Dung lượng	2,14 MB