Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 84 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
84
Dung lượng
9,38 MB
Nội dung
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA KHOA HỌC MÁY TÍNH LUẬN VĂN THẠC SĨ ĐỀ TÀI LỌC NHẬN XÉT RÁC SẢN PHẨM CÔNG NGHỆ BẲNG TIẾNG ANH TRONG THƯƠNG MẠI ĐIỆN TỬ NGÀNH KHOA HỌC MÁY TÍNH Mã số: 60.48.01 GVHD: PGS.TS ĐỖ VĂN NHƠN -o0o SVTH : TRẦN NGỌC HUY TP Hồ Chí Minh, 10/2016 LỜI CẢM ƠN Trong suốt trình thực luận văn, nhận nhiều giúp đỡ tận tình q thầy hướng dẫn động viên từ gia đình, người thân bạn bè Nhân dịp hồn thành luận văn, tơi xin gửi lời cám ơn sâu sắc chân thành tới: PGS.TS Đỗ Văn Nhơn – Trưởng Khoa Khoa Học Máy Tính Trường Đại Học Công Nghệ Thông Tin, bận rộn với cơng việc nghiên cứu giảng dạy riêng mình, thầy quan tâm hướng dẫn tuần để đảm bảo tiến độ luận văn Đặc biệt, với chuyên môn kiến thức lĩnh vực nghiên cứu mình, thầy dẫn hướng tơi theo sát đề tài phạm vi luận văn Qua đó, tơi học hỏi nhiều, khơng kiến thức chun mơn mà thái độ nghiên cứu cách khoa học, nghiêm túc, chuẩn mực, giúp tơi hồn thành luận văn cách tốt Các thầy cô, anh chị trợ giảng Khoa Khoa Học Máy Tính Đại Học Cơng Nghệ Thơng Tin TP Hồ Chí Minh, chúng tơi học từ thầy cô anh chị kiến thức chuyên môn quý báu khoảng thời gian năm cao học Có thể kiến thức khơng trực tiếp sử dụng luận văn này, phần giúp tơi có tảng chun mơn vững để tự tin thực luận văn Và đặc biệt, lời cảm ơn cuối xin dành cho gia đình người thân tôi, người sát cánh động viên tơi lúc khó khăn nhất, nguồn động lực tinh thần q giá giúp tơi hồn thành luận văn ngày hôm Một lần cảm ơn ghi nhận tất giúp đỡ kể Với tất nỗ lực cố gắng thân tháng thực hiện, tơi hồn thành luận văn, tất nhiên khơng tránh khỏi thiếu sót cần phải hồn thiện, mong nhận góp ý q thầy bạn TP Hồ Chí Minh, tháng 10/2016 Trần Ngọc Huy LỜI CAM ĐOAN Tôi xin cam đoan báo cáo luận văn tốt nghiệp cơng trình nghiên cứu thực cá nhân tôi, thực sở nghiên cứu lý thuyết, nghiên cứu cơng trình liên quan nghiên cứu khảo sát thực tế hướng dẫn PGS.TS Đỗ Văn Nhơn Các số liệu, kết mà chúng tơi đưa luận văn hồn tồn chưa cơng bố hình thức trước luận văn trình bày với hội đồng đánh giá Khoa Khoa Học Máy Tính Đại Học Cơng Nghệ Thơng Tin TP Hồ Chí Minh Trong q trình hồn thành nội dung luận văn, tơi có tham khảo qua số tài liệu liên quan nêu rõ danh mục Tài Liệu Tham Khảo luận văn Một lần nữa, tơi xin khẳng định tính trung thực lời cam kết TP Hồ Chí Minh, tháng 10/2016 Trần Ngọc Huy MỤC LỤC DANH SÁCH HÌNH VẼ DANH SÁCH BẢNG CHƯƠNG GIỚI THIỆU TỔNG QUAN 1.1 Giới thiệu 1.2 Mục tiêu 1.3 Phạm vi 10 1.4 Đóng góp luận văn 10 CHƯƠNG CƠ SỞ LÝ THUYẾT 12 2.1 Nhận diện nhận xét rác dựa nội dung 12 2.2 Nhận diện nhận xét rác dựa hành vi 16 2.3 Các nghiên cứu khác spam 17 2.4 Các nghiên cứu Ontology 20 2.5 Khái niệm Ontology 22 2.6 Ngôn ngữ OWL 23 2.7 Gán nhãn từ loại 24 2.8 Phân tích cú pháp 25 2.9 Công cụ hỗ trợ 26 CHƯƠNG MƠ HÌNH VÀ THUẬT GIẢI 29 3.1 Nhận xét rác vấn đề 29 3.2 Thuật giải 34 3.3 Mơ hình cấu trúc Ontology 40 3.4 Mô đun tiền xử lý 43 3.5 Mô đun nhận diện phi nhận xét 47 3.6 Mô đun nhận diện nhận xét hãng 49 3.7 Mô đun nhận diện nhận xét lạc đề 50 3.8 Mô đun nhận diện nhận xét không thực 51 CHƯƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ 54 4.1 Xây dựng tập kiểm thử 54 4.2 Các độ đo 54 4.3 Kết thực nghiệm tập kiểm thử 56 4.4 Kết thực nghiệm tập kiểm thử 59 4.5 Lưu đồ hoạt động ứng dụng 62 4.6 Mô tả mã nguồn 62 4.7 Tái sử dụng chương trình 72 4.8 Giao diện chương trình 73 CHƯƠNG KẾT LUẬN 77 5.1 Kết đạt 77 5.2 Hạn chế hướng phát triển 78 TÀI LIỆU THAM KHẢO 79 PHỤ LỤC A BẢNG KÍ HIỆU LOẠI TỪ 81 PHỤ LỤC B BẢNG KÍ HIỆU CÚ PHÁP 82 PHỤ LỤC C TỪ ĐIỂN CÁC MẪU BẤT THƯỜNG 83 PHỤ LỤC D TỪ ĐIỂN CÁC MẪU TỪ KHÔNG NÓI QUÁ 84 DANH SÁCH HÌNH VẼ Hình 2.1 Các chức Protégé 27 Hình 2.2 Giao diện trực quan hướng người dùng Protégé 27 Hình 3.1 Sơ đồ tổng quan hệ thống nhận diện nhận xét rác 40 Hình 3.2 Mơ hình Ontology 42 Hình 3.3 Sơ đồ hoạt động mô đun tiền xử lý 43 Hình 3.4 Sơ đồ hoạt động mơ đun nhận diện nhận xét rác 47 Hình 4.1 Kết đánh giá tồn hệ thống tập kiểm thử 61 Hình 4.2 Biểu đồ so sánh hiệu suất mô đun nhận diện 61 Hình 4.1 Lưu đồ hoạt động ứng dụng demo 62 Hình 4.2 Sơ đồ mơ tả pakage view ứng dụng 63 Hình 4.3 Sơ đồ mơ tả pakage controller ứng dụng 64 Hình 4.4 Sơ đồ mơ tả pakage business.processing ứng dụng 65 Hình 4.5 Sơ đồ mơ tả pakage business.algorithm ứng dụng 67 Hình 4.6 Sơ đồ mơ tả pakage model.data ứng dụng 68 Hình 4.7 Sơ đồ mơ tả pakage controller ứng dụng 71 Hình 4.8 Giao diện ứng dụng 73 Hình 4.9 Giao diện kiểm tra câu nhận xét 74 Hình 4.10 Giao diện hiển thị kết kiểm tra câu nhận xét 75 Hình 4.11 Giao diện kiểm tra tập câu nhận xét 75 Hình 4.12 Giao diện hiển thị kết kiểm tra tự động nhiều câu nhận xét 76 DANH SÁCH BẢNG Bảng 3.1 Bảng thống kê số lượng thực thể Ontology 43 Bảng 3.2 Kết trả mơ hình gán nhãn từ loại 45 Bảng 3.3 Kết trả mô hình phân tích cú pháp 46 Bảng 4.1 Ma trận thống kê kết dự đoán kỳ vọng 55 Bảng 4.2 Ví dụ ma trận thống kê kết dự đoán kỳ vọng 56 Bảng 4.3 Kết thực nghiệm tập kiểm thử 56 Bảng 4.4 Bảng phân chia tập kiểm thử 57 Bảng 4.5 Kết đánh giá hiệu suất mô đun nhận diện phi nhận xét tập 58 Bảng 4.6 Kết đánh giá hiệu suất mô đun nhận diện nhận xét hãng tập 58 Bảng 4.7 Kết đánh giá hiệu suất mô đun nhận diện nhận xét lạc đề tập 58 Bảng 4.8 Kết đánh giá hiệu suất mô đun nhận diện nhận xét không thực tập 58 Bảng 4.9 Kết thực nghiệm tập kiểm thử 59 Bảng 4.10 Kết đánh giá hiệu suất mô đun nhận diện phi nhận xét tập 59 Bảng 4.11 Kết đánh giá hiệu suất mô đun nhận diện nhận xét hãng tập 60 Bảng 4.12 Kết đánh giá hiệu suất mô đun nhận diện nhận xét lạc đề tập 60 Bảng 4.13 Kết đánh giá hiệu suất mô đun nhận diện nhận xét không thực tập 60 CHƯƠNG GIỚI THIỆU TỔNG QUAN 1.1 Giới thiệu Trong giới công nghệ thông tin, thuật ngữ SPAM (Stupid Pointless Annoying Message) ban đầu đời để thư điện tử viết cách vơ nghĩa, vơ mục đích, hồn tồn khơng có giá trị, gửi mà người nhận không mong muốn Cùng với phát triển giới Internet, thuật ngữ SPAM ngày mở rộng ý nghĩa Ngày thuật ngữ khơng sử dụng để email vô nghĩa, dùng để ám thơng tin vơ nghĩa có nghĩa truyền thơng qua Internet mà đại đa số người đọc không mong muốn nhận Phạm vi sử dụng SPAM rộng, viết diễn đàn, câu bình luận blog cá nhân, dịch vụ tán gẫu (chat), gần mạng xã hội Ở đề cập tới phạm vi cụ thể hơn, câu nhận xét trang web thương mại điện tử đề cập rõ sau Mua bán trực tuyến hình thức phổ biến thương mại điện tử Với mua bán trực tuyến, hoạt động mua bán diễn thơng qua Internet Người mua dễ dàng có sản phẩm mong muốn mà khơng phải tới tận nơi để giao dịch Nắm xu hướng đó, nhiều website mua bán trực tuyến đời hoạt động hiệu Một số trang web thành cơng có tầm ảnh hưởng lớn như: amazon.com, ebay.com Theo khảo sát số liệu năm 2010 Mỹ - [Jasen, 2010], 78% số người dùng Internet thường tìm hiểu sản phẩm dịch vụ thơng qua thơng tin trực tuyến Internet, khoảng 32% thường để lại lời nhận xét cho sản phẩm trang thương mại điện tử, số người sử dụng độ tuổi trẻ từ 18 đến 29 tuổi chiếm đến 77%, nên số lượng người dùng tăng lên theo hàng năm Khảo sát tỉ lệ người dùng internet theo giới tính độ tuổi Mỹ có tìm kiếm sản phẩm trực tuyến [Jasen, 2010] Giới tính Nam 77% Nữ 79% Độ tuổi 18 – 29 77% 30 – 49 80% 50 – 64 81% 65+ 68% Tỉ lệ người dùng lun cao 60%, chứng tỏ sức hút ngày lớn thương mại điện tử khơng thể chối cãi Cũng hoạt động diễn trực tuyến, người dùng khơng có hội để tận mắt chứng kiến hàng mà quan tâm, liệu hàng có thực tốt lời quảng cáo hay khơng, liệu website giao dịch có thực uy tín hay khơng Lúc này, lời nhận xét mạng thực hữu ích Đó đánh giá từ chuyên gia, từ người sử dụng sản phẩm người thực giao dịch website mua bán trực tuyến Người mua hàng tham khảo nhận xét để rút định đắn cho Sẽ khơng có đáng quan tâm nhận xét viết với mục đích chia sẻ mang tính xây dựng giúp đỡ người đọc khác cách khách quan Tuy nhiên, bên cạnh nhận xét bình thường ấy, có nhiều nhận xét khơng đáng tin tổ chức cá nhân viết với nhiều mục đích khác Chúng nhận xét phá hoại, quảng cáo Hoặc nói quá, hay nói sai thật nhằm nâng cao uy tín cho sản phẩm, nhằm hạ thấp sản phẩm số mục đích lợi nhuận phi lợi nhuận khác Những nhận xét dạng thường gây phiền hà thời gian cho người đọc, khơng mang tính khách quan, người đọc mà nhận nhận xét khơng đáng tin cậy, dẫn tới định sai lầm lựa chọn sản phẩm Chúng gọi chung nhận xét rác (opinion spam) Nhận xét sản phẩm có ý nghĩa quan trọng hai bên mua bán trực tuyến Khách hàng, người sử dụng dịch vụ từ trang web thương mại điện tử tham khảo nguồn ý kiến từ khách hàng khác thơng qua nhận xét này, từ đưa định tốt họ muốn lựa chọn mua sản phẩm Nhà cung cấp sản phẩm dịch vụ dựa nguồn nhận xét để tìm hiểu ý kiến, nhu cầu khách hàng, từ đưa phân tích chiến lược kinh doanh cần thiết để đáp ứng khách hàng Ví dụ, câu nhận xét sau có thành phần sau: 1) Loại sản phẩm: MobilePhone 2) Tên sản phẩm: Apple Iphone 3) Nội dung: Are you kidding? Even if the changes in the iphone wasn't as big as expected They are still way bigger then the changes made between the samsung galaxy phones.Samsung has made different phones that's almost an exact copy of eachother Samsung havn't come with something new since the touchscreen.If you are complaining about the Iphones beeing to simmilar to eachother and that's the reason you're changing to Samsung I'd recommend you to think again 1.2 Mục tiêu Những nhận xét rác cần loại bỏ để người đọc có thơng tin xác sản phẩm Mục tiêu đề tài nghiên cứu giải pháp để phân loại nhận xét rác thương mại điện tử, tập trung vào ba nhóm sản phẩm laptop, smart phone camera Đầu vào toán nội dung văn dùng để nhận xét sản phẩm thuộc ba nhóm sản phẩm bên trên, sau q trình phân tích tính tốn, kết nhận loại nhận xét văn đầu vào, chi tiết bao gồm mục tiêu cụ thể sau: - Tìm hiểu xác định loại nhận xét rác có trang thương mại điện tử, bao gồm loại nhận xét rác nghiên cứu nhận xét rác phát sinh - Nghiên cứu toán lọc nhận xét rác số phương pháp trước, từ vận dụng đề xuất giải pháp dựa hướng tiếp cận Ontology - Nghiên cứu tốn phân tích câu nhận xét chủ đề câu nhận xét để có liệu cần thiết phân loại nhận xét rác sau này, hướng tiếp cận mã nguồn mở sử dụng phương pháp gán nhãn từ loại (dựa luật dựa xác xuất) phân tích cú pháp (n-gram) - Thực ứng dụng để thực nghiệm đánh giá 1.3 Phạm vi Nhận xét rác sử dụng nhiều Internet Những loại website phổ biến kể đến website bán hàng thương mại điện tử, diễn đàn, blog cá nhân gần mạng xã hội Tuy nhiên, phạm vị luận văn, tập trung vào nhận xét rác website bán hàng thương mại điện tử Có nhiều phương pháp hướng tiếp cận khác tác giả nghiên cứu đề xuất để phân loại nhận xét rác Trong phạm vi luận văn, toán nhận diện nhận xét rác giải theo hướng tiếp cận sử dụng Ontology Vấn đề thảo luận rõ Chương Như đề cập trên, phương pháp giải tốn mà tơi đề xuất có sử dụng Ontology việc xây dựng Ontology cần đảm bảo tính hồn thiện xác để phục vụ cho giải thuật phát Do đó, phạm vi luận văn, giới hạn việc xây dựng Ontology với hai loại sản phẩm là: hotel, e-Products (phone, camera, laptop) 1.4 Đóng góp luận văn Trong phương pháp tiếp cận toán nhận diện nhận xét rác mà tơi tìm hiểu, hầu hết tác giả sử dụng phương pháp học máy xây dựng tập đặc trưng để huấn luyện cho mơ hình phân loại Trong luận văn này, đề xuất phương pháp xây dựng sử dụng Ontology để nhận diện nhận xét rác Cụ thể trình bày chương sau Trong trình tìm hiểu phân tích kho liệu câu nhận xét trang web thương mại điện tử, phát loại nhận xét rác tạm gọi nhận xét lạc đề Một loại nhận xét thường đánh giá vào chủ đề khác với chủ đề mà thực cần hướng tới Các tác giả trước thường bỏ qua loại nhận xét nhìn nhận theo phương diện khác Tôi định nghĩa cụ thể đề hướng giải cho loại nhận xét rác Chương Một đóng góp quan trọng đề tài tơi mơ hình Ontology mà xây dựng để phục vụ cho hệ thống nhận diện nhận xét rác Với sở tri thức bao gồm hai loại sản 10 o Lớp Dictionary: lớp định nghĩa liệu tĩnh có từ kho từ điển để sử dụng toàn chương trình, bao gồm biến phương thức chính: Biến: mobilePhoneProduct: lưu dòng sản phẩm thuộc loại sản phẩm diện thoại laptopTabletProduct: lưu dòng sản phẩm thuộc loại sản phẩm máy tính xác tay máy tính bảng cameraProduct: lưu dòng sản phẩm thuộc loại máy ảnh hotelProduct: lưu dòng sản phẩm thuộc loại khách sạn nonExtremeWord: lưu danh sách từ khơng nói q unusualPattern: lưu dánh sách mẫu bất thường sentimentWord: từ biểu lộ quan điểm người nhận xét Phương thức: getMobilePhoneProduct(): truy xuất danh sách dòng sản phẩm thuộc loại sản phẩm điện thoại lưu từ điển getLaptopTabletProduct(): truy xuất danh sách dòng sản phẩm thuộc loại sản phẩm máy tính xách tay máy tính bảng lưu từ điển getCameraProduct(): truy xuất danh sách dòng sản phẩm thuộc loại sản phẩm máy ảnh lưu từ điển getHotelProduct(): truy xuất danh sách khách sạn lưu từ điển getNonExtremeWord(): truy xuất từ điển NonExtremeWord (từ khơng nói q) getUnusualPattern(): truy xuất từ điển mẫu bất thường getSentimentWord(): truy xuất từ điển mẫu từ biểu lộ quan điểm initMobileProduct(): khởi tạo từ điển dòng sản phẩm thuộc loại sản phẩm điện thoại initLaptopTabletProduct():khởi tạo từ điển dòng sản phẩm thuộc loại sản phẩm máy tính xách tay máy tính bảng initCameraProduct(): khởi tạo từ điển dòng sản phẩm thuộc loại sản phẩm máy ảnh initHotelProduct():khởi tạo từ điển khách sạn initNonExtremeWord(): khởi tạo từ điển NonExtremeWord (từ khơng nói q) initProductName(): khởi tạo từ điển tất dòng sản phẩm initUnusualPattern(): khởi tạo từ điển mẫu bất thường initSentimentWord(): khởi tạo từ điển từ biểu lộ quan điểm b Package model.Ontology: 70 model.ontology package OntologyNode -parent -children -name -nChildren +appendChild () +getChildren () +getName () +getNumberOfChildren () +getParent () +setName () +setParent () OntologyTree -onto_entityList -onto_classList -nEntities -nClasses +getClassList () +getEntityList () +getEntityParents () +getNumberOfClass () +getNumberOfEntity () +initEntityList () +initTree () +newNode () Hình 4.7 Sơ đồ mô tả pakage controller ứng dụng Package model.Ontology định nghĩa tất các liệu tĩnh sử dụng chương trình, bao gồm lớp chính: o Lớp OntologyNode: lớp định nghĩa đối tượng Node Ontology Một Node Node (thực thể) không Node (lớp), bao gồm biến phương thức chính: Biến: Parent: Node cha Node xét Children: danh sách Node Node xét Name: tên Node nChildren: số lượng Node Node xét Phương thức: appendChild(): thêm Node vào danh sách Node Node xét getChildren(): trả danh sách Node Node xét getName(): trả tên Node xét getNumberOfChildren(): trả số lượng Node Node xét getParent(): trả Node cha Node xét setName(): gán giá trị Name cho Node xét setParent(): gán Node cha cho Node xét o Lớp OntologyTree: lớp định nghĩa đối tượng Ontology, bao gồm biến phương thức chính: Biến: onto_entityList: danh sách tất thực thể có Ontology 71 onto_classList: danh sách tất lớp có Ontology nEntities: số lượng thực thể có Ontology nClasses: số lượng lớp có Ontology Phương thức: getClassList(): trả danh sách lớp có Ontology getEntityList(): trả danh sách thực thể có Ontology getEntityParents(): tìm Node cha thực thể Dò tìm danh sách thực thể onto_entityList trả danh Node cha thực thể tương ứng Nếu thực thể không tồn tại, danh sách Node cha trả rỗng getNumberOfClass(): trả số lượng lớp có Ontology getNumberOfEntity(): trả số lượng thực thể có Ontology initEntityList(): khởi tạo danh sách thực thể initTree(): duyệt file OWL tiến hành tạo Ontology Các Node chèn vào Ontology theo thứ tự định sẵn file OWL Mỗi lần chèn thêm Node kèm với việc gán Node cha tương ứng chèn thêm Node newNode(): chèn Node vào Ontology 4.7 Tái sử dụng chương trình Về mặt mã nguồn, chương trình tơi thiết kế thực theo mơ hình hướng đối tượng để người phát triển sau dễ dàng thừa kế nhằm phát triển hệ thống mà xây dựng phát triển nên ứng dụng riêng cho thân Tất biến phương thức hệ thống mô tả chi tiết phần mô tả mã nguồn Để sử dụng, người phát triển cần nhúng file jar mà xây dựng vào thư viện chương trình Cần sử dụng phương thức hay biến nào, người dùng cần gọi phương thức hay biến tương ứng Về mặt sở tri thức, người phát triển tái sử dụng lại Ontology từ điển mà xây dựng: - Ontology: tại, hệ thống hỗ trợ loại sản phẩm khách sạn sản phẩm số (máy ảnh, máy tính xách tay, máy tính bảng, máy ảnh) Tất nguồn tri thức loại sản phẩm thực file “Ontology.owl” Người dùng tái sử dụng file “Ontology.owl” để làm giàu thêm nguồn tri thức cho loại sản phẩm mà xây dựng (bổ sung thêm dòng sản phẩm đặc điểm, tính chất dòng sản phẩm đó) bổ sung thêm loại sản phẩm - Các từ điển: bao gồm từ điển dòng sản phẩm, mẫu bất thường, từ khơng nói q từ biểu lộ cảm xúc người nhận xét Trong từ điển trên, từ điển từ biểu lộ cảm xúc xây dựng hoàn chỉnh, bao quát phần 72 lớn từ tiếng Anh Những từ điển lại tơi rút trình tiến hành kiểm tra tập kiểm thử Tất lưu file “.txt” nội dung xếp theo trình tự bảng chữ để người đọc tiện theo dõi bổ sung thêm vào muốn Để sử dụng tính kiểm tra tự động nhiều câu nhận xét tôi, tập kiểm thử cần xây dựng theo định dạng mà tơi quy định trước Do đó, tập kiểm thử mà cung cấp vừa nguồn liệu mẫu loại nhận xét để người dùng tham khảo, đồng thời sở cho người phát triển dựa vào để tự xây dựng nên tập kiểm thử khác cho riêng 4.8 Giao diện chương trình a Giao diện Hình 4.8 Giao diện ứng dụng Hình giao diện chương trình khởi động Ở giao diện chính, người dùng cung cấp nút để lựa chọn Nếu người dùng nhấn vào nút Test A Review, người dùng chuyển hướng đến giao diện để kiểm tra câu nhận xét Ngược lại, người dùng nhấn vào nút Auto Test, người dùng chuyển hướng đến giao diện kiểm tra tự động nhiều câu nhận xét b Giao diện kiểm tra câu nhận xét 73 Hình 4.9 Giao diện kiểm tra câu nhận xét Hình giao diện kiểm tra câu nhận xét ứng dụng Để sử dụng, người dùng chọn loại sản phẩm mong muốn để kiểm tra câu nhận xét khung Product Type Một số loại sản phẩm mà hệ thống hỗ trợ như: Hotel, e-Product (Camera, Mobile Phone, Laptop&Tablet) Khi người dùng chọn loại sản phẩm phần Product Type phần Product Name hiển thị dòng sản phẩm tương ứng thuộc loại sản phẩm Ví dụ người dùng chọn loại sản phẩm Mobile Phone phần Product Type phần Product Name hiển thị dòng sản phẩm thuộc Mobile Phone như: Iphone, Samsung, … Sau lựa chọn đầy đủ thông tin sản phẩm, người dùng nhập nội dung câu nhận xét vào khung bên Một lưu ý hệ thống kiểm tra câu nhận xét trường hợp người dùng nhập đầy đủ thơng tin: loại sản phẩm, dòng sản phẩm nội dung câu nhận xét Nếu người dùng bỏ sót ba thơng tin trên, hệ thống không tiến hành kiểm tra Sau nhập đủ thông tin trên, người dùng nhấn nút Check để hệ thống tiến hành kiểm tra xem câu nhận xét nhận xét rác nhận xét tin cậy Kết trả hệ thống hiển thị khung kết bên Trong trình hệ thống kiểm tra, trạng thái giao diện kiểm tra câu nhận xét hiển thị cho người dùng biết hệ thống hoàn tất phần trăm trình xử lý Khi khơng muốn kiểm tra thêm, người dùng nhấn nút Exit để đóng cửa sổ kiểm tra câu nhận xét quay giao diện ứng dụng Với câu nhận xét đưa vào, kết trả giao diện hiển thị sau: 74 Hình 4.10 Giao diện hiển thị kết kiểm tra câu nhận xét c Giao diện kiểm tra tự động tập câu nhận xét Hình 4.11 Giao diện kiểm tra tập câu nhận xét Hình giao diện kiểm tra tự động nhiều câu nhận xét Để sử dụng, người dùng nhấn nút Browse phần Select Input để chọn tập kiểm thử cần kiểm tra Ở đây, tập kiểm thử định nghĩa định dạng theo dạng file excel với giá trị giống tập kiểm thử mẫu Sau người dùng chọn tập kiểm thử, mặc định hệ thống lưu kết kiểm thử file “result.txt” đường dẫn với tập kiểm thử Nếu muốn, người dùng chọn đường dẫn khác để lưu file kết cách nhấn nút Browse phần 75 Select Output chọn đường dẫn riêng cho Tiếp đó, người dùng cung cấp lựa chọn, kiểm tra theo loại nhận xét (tập nhận xét rác tập nhận xét tin cậy), kiểm tra theo loại nhận xét rác (phi nhận xét, nhận xét hãng, nhận xét lạc đề nhận xét không thực) cách nhấn chọn vào ô tương ứng Khi chọn loại nhận xét muốn kiểm thử, người dùng nhấn nút Test để hệ thống tiến hành kiểm thử tự động nhiều câu nhận xét Kết sau hệ thống thực thi hiển thị khung kết bên dưới, bao gồm thông tin kiểm tra cho câu nhận xét thơng tin thống kê tồn tập kiểm thử Trong trình hệ thống kiểm tra, trạng thái giao diện kiểm tra tự động nhiều câu nhận xét hiển thị cho người dùng biết hệ thống hoàn tất phần trăm q trình xử lý Nếu người dùng khơng muốn tiếp tục sử dụng giao diện kiểm thử, nhấn nút Exit để tắt cửa sổ quay giao diện chương trình Sau việc kiểm tra hoàn tất, giảo diện hiển thị kết trả sau: Hình 4.12 Giao diện hiển thị kết kiểm tra tự động nhiều câu nhận xét 76 CHƯƠNG KẾT LUẬN 5.1 Kết đạt Thông qua luận văn, nêu bật lên tầm ảnh hưởng nghiêm trọng nhận xét rác người dùng trang thương mại điện tử Bài toán phát nhận xét rác nhận quan tâm lớn nhà nghiên cứu Trước đó, tác giả thường sử dụng hướng tiếp cận dựa phân tích nội dung phân tích hành vi, kết hợp hai để giải tốn Với nghiên cứu này, tơi tập trung phân tích nhận xét rác theo hướng nội dung, kết hợp với mơ hình Ontology làm mơ hình chủ đạo việc thiết kế giải thuật nhận diện nhận xét rác Ontology sở tri thức chuẩn Web ngữ nghĩa, hệ thống Web phát triển, liệu Ontology trở nên đồng chia sẻ hệ thống khác Trong phạm vi luận văn, xây dựng mô hình Ontology cơng cụ protégé với hai loại sản phẩm sau: hotel e-Product (camera, laptop, phone) Với nhận xét rác, chia nhận xét rác làm bốn loại: phi nhận xét, nhận xét hãng, nhận xét lạc đề, nhận xét không thực Trong tơi sử dụng lại ba loại phân loại từ cơng trình trước đó, đồng thời bổ sung thêm loại nhận xét rác lạc đề Hai tập kiểm thử, tập gồm 800 câu nhận xét được xây dựng để kiểm tra lại hiệu suất hệ thống mà xây dựng Hai tập kiểm thử phân loại gán nhãn tương ứng với bốn loại nhận xét rác nhận xét tin cậy Với hai tập kiểm thử này, hệ thống cho kết phân loại tương đối tốt, cụ thể kết đánh giá hiệu suất toàn hệ thống đạt 75% (độ P) Ứng với mô đun nhận diện, mô đun nhận diện phi nhận xét cho kết phân loại đạt 90%, ba mô đun lại có hiệu suất thấp Trong phương pháp tiếp cận toán nhận diện nhận xét rác mà tơi tìm hiểu, hầu hết tác giả sử dụng phương pháp học máy xây dựng tập đặc trưng để huấn luyện cho mơ hình phân loại Trong luận văn này, đề xuất phương pháp xây dựng sử dụng Ontology để nhận diện nhận xét rác Trong trình tìm hiểu phân tích kho liệu câu nhận xét trang web thương mại điện tử, phát loại nhận xét rác tạm gọi nhận xét lạc đề Một loại nhận xét thường đánh giá vào chủ đề khác với chủ đề mà thực cần hướng tới Các tác giả trước thường bỏ qua loại nhận xét nhìn nhận theo phương diện khác Tôi định nghĩa cụ thể đề hướng giải cho loại nhận xét rác Một đóng góp quan trọng đề tài tơi mơ hình Ontology mà xây dựng để phục vụ cho hệ thống nhận diện nhận xét rác Với sở tri thức bao gồm hai loại sản phẩm là: hotel, e-Product (camera, mobilephone, laptop), tơi hy vọng nguồn liệu hữu ích cho nghiên cứu sau Bên cạnh đó, để phục vụ cho giải thuật phát nhận xét rác, xây dựng hai từ điển nhỏ: từ điển mẫu bất thường, hai từ điển từ khơng nói (phụ lục C phụ lục D) 77 Cuối cùng, thực ứng dụng demo để minh họa cho mơ hình giải tốn nhận diện nhận xét rác Ontology mà đề xuất Với chức kiểm tra phân loại cậu nhận xét có phải nhận xét rác hay khơng, đồng thời chương trình hỗ trợ việc kiểm tra tự động tập câu nhận xét nhập vào từ file excel với cấu trúc định sẵn 5.2 Hạn chế hướng phát triển Trong phạm vi thời gian thực luận văn, thực toàn ý tưởng đề vận dụng nhiều phương pháp khác Vì thế, để tối ưu hiệu suất mơ hình, tương lại tiếp tục phát triển luận văn theo hướng sau: - Như trình bày chương trước, lợi Ontology việc tái sử dụng chia sẻ sở tri thức với hệ thống khác thông qua Internet Trong tương lai, phát triển ứng dụng demo thời thành ứng dụng web tương ứng Đồng thời nghiên cứu quy trình xuất mơ hình Ontology với ứng dụng cho web ngữ nghĩa - Mơ hình Ontology tơi xây dựng bị giới hạn phạm vi sản phẩm, hướng phát triển bổ sung thêm vào Ontology tri thức sản phẩm phổ biến khác như: sách, quần áo, văn phòng phẩm, … - Giải thuật nhận diện nhiều thành phần chưa tối ưu mơ hình Ontology thiếu sót mặt ngữ nghĩa, tương lai trọng vào việc phân tích ngữ nghĩa, khía cạnh tâm lý khác để tối ưu giải thuật, đồng thời bổ sung thêm quan hệ ngữ nghĩa ràng buộc khác cho Ontology - Mở rộng toán nhận diện nhận xét rác sang phạm vi khác: nhận xét rác diễn đàn, mạng xã hội… 78 TÀI LIỆU THAM KHẢO [Cade et al., 2010] Cade, W.L.; Lehman, B.A and Olney, A (2010) An ex-ploration of off topic conversation The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics (NAACL), pp 669–672 [Duong, Dai and Ngo, 2012] Duong, T H H., Dai, T V., Ngo, V M (2012) Detecting Vietnamese Opinion Spam In Proceedings of Scientific Researches on the Information and Communication Technology in 2012 (ICTFIT'12), pp 53-59 [Hatzivassiloglou and Wiebe, 2000] Hatzivassiloglou, V and Wiebe, J (2000) Effects of adjective orientation and gradability on sentence subjectivity In Proceedings of the 18th conference on Computational linguistics (ACL), pp 299–305 [Hu and Liu, 2004] Hu, M and Liu, B (2004) Mining and summarizing customer reviews In Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (KDD), pp 168-177 [Jasen, 2010] Jansen, J (2010) Online product research Pew Internet & American Life Project Report [Jindal and Liu, 2008] Jindal, N.; Liu, B (2008) Opinion spam and analysis In Proceedings of the international conference on Web search and web data mining (ACM), pp 219–230 [Jindal et al., 2010] Jindal, N.; Liu, B and Lim, E P (2010) Finding Unusual Review Patterns Using Unexpected Rules In Proceedings of the 19th ACM Conference on Information and Knowledge Management (CIKM), pp 1549-1552 [Junwu et al., 2010] Junwu, Z.; Bin, L.; Fei, W and Sicheng, W (2010 ) Mobile Ontology In Proceedings of International Journal of Digital Content Technology and its Applications (JDCTA), (5), pp 46-54 [Li et al., 2011] Huang, M.; Yang, Y and Zhu, X (2011) Learning to Identify Review Spam In Proceedings of International Joint Conferences on Artificial Intelligence (IJCAI), pp 24882493 [Lim et al., 2010] Lim, E.P.; Nguyen, V.A.; Jindal, N.; Liu, B and Lauw, H.W (2010) Detecting product review spammers using rating behaviors In Proceedings of the 19th ACM international conference on Information and knowledge management (CIKM), pp 939–948 [Mukherjee et al., 2011] Mukherjee, A.; Liu, B.; Wang, J.; Glance, N.; Jindal, N (2011) Detecting Group Review Spam In Proceedings of the 20th international conference companion on World wide web (WWW’11), pp 93-94 [Mukherjee et al., 2012] Mukherjee, A.; Liu, B and Glance, N (2012) Spotting Fake Reviewer Groups in Consumer Reviews In Proceedings of the 21st international conference on World Wide Web (WWW’12), pp 191-200 79 [Nagypál, 2005] Nagypál, G (2005) Improving information retrieval effectiveness by using domain knowledge stored in ontologies In Proceedings of the 2005 OTM Confederated international conference on On the Move to Meaningful Internet Systems (OTM’05), pp 780789 [Ngo and Cao, 2011] Ngo, V M., Cao, T.H 2011 Discovering Latent Concepts and Exploiting Ontological Features for Semantic Text Search In Proceedings of the 5th International Joint Conference on Natural Language Processing (IJCNLP-2011), pp 571-579 [Ntoulas et al., 2006] Ntoulas, A., Najork, M., Manasse M., Fetterly, D (2006) Detecting Spam Web Pages through Content Analysis In Proceedings of the 15th international conference on World Wide Web (WWW’06), pp 83-92 [Ott et al., 2011] Ott, M.; Choi, Y.; Cardie, C and Hancock, J T (2011) Finding Deceptive Opinion Spam by any Stretch of the Imagination In Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies (HTL’11), pp 309-319 [Riloff et al., 2003] Riloff, E.; Wiebe, J and Wilson, T (2003) Learning subjective nouns using extraction pattern bootstrapping In W Daelemans and M Osborne, editors, Proceedings of CoNLL-2003 (CoNLL’03), pp 25–32 [Thelen and Riloff, 2002] Thelen, M and Riloff, E (2002) A bootstrapping method for learning semantic lexicons using extraction pattern contexts In Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), pp 214–221 [Wang et al., 2011] Wang, G.; Xie, S.; Liu, B and Yu, P (2011) Review Graph based Online Store Review Spammer Detection In proceeding of: 11th IEEE International Conference on Data Mining, (ICDM 2011), pp 1242-1247 [Wiebe, 2000] Wiebe, J (2000) Learning subjective adjectives from corpora In Proceedings of the Seventeenth National Conference on Artificial Intelligence and Twelfth Conference on Innovative Applications of Artificial Intelligence (AAAI/IAAI), pp 735–740 [Zhang and Varadarajan, 2006] Zhang, Z and Varadarajan, B (2006) Utility scoring of product reviews In Proceedings of the 15th ACM international conference on Information and knowledge management (CIKM’06), pp 51-57 80 PHỤ LỤC A BẢNG KÍ HIỆU LOẠI TỪ Ký hiệu CC CD DT EX FW IN JJ JJR JJS LS MD NN NNP NNPS NNS PDT POS PRP PRP$ RB RBR RBS RP SYM TO UH VB VBD VBG VBN VBP VBZ WDT WP WP$ WRB Mô tả Coordinating Conjunctions (and, but, or, ) Cardinal Number Determiner Existential there Foreign Word Preposision or subordinating conjunction Adjective Adjective, comparative Adjective, superlative List Item Marker Modal (can, could, may, might, ) Noun, singular or mass Proper Noun, singular Proper Noun, plural Noun, plural Predeterminer (all, both, when they precede an article) Possessive Ending (Nouns ending in 's) Personal Pronoun (I, me, you, he, ) Possessive Pronoun (my, your, mine, yours, ) Adverb (Most words that end in -ly as well as degree words like quite, too and very) Adverb, comparative (Adverbs with the comparative ending -er, with a strictly comparative meaning) Adverb, superlative Particle Symbol (Should be used for mathematical, scientific or technical symbols) to Interjection (uh, well, yes, my, ) Verb, base form (subsumes imperatives, infinitives and subjunctives) Verb, past tense (includes the conditional form of the verb to be) Verb, gerund or persent participle Verb, past participle Verb, non-3rd person singular present Verb, 3rd person singular present Wh-determiner (which, and that when it is used as a relative pronoun) Wh-pronoun (what, who, whom, ) Possessive wh-pronoun Wh-adverb (how, where, why) 81 PHỤ LỤC B BẢNG KÍ HIỆU CÚ PHÁP Cấp S E N T E N C E P H R A S E Kí hiệu Mơ tả Simple declarative clause, i.e one that is not introduced by a (possible S empty) subordinating conjunction or a wh-word and that does not exhibit subject-verb inversion SBAR Clause introduced by a (possibly empty) subordinating conjunction Direct question introduced by a wh-word or a wh-phrase Indirect questions SBARQ and relative clauses should be bracketed as SBAR, not SBARQ Inverted declarative sentence, i.e one in which the subject follows the SINV tensed verb or modal Inverted yes/no question, or main clause of a wh-question, following SQ the wh-phrase in SBARQ ADJP Adjective Phrase ADVP Adverb Phrase CONJP Conjunction Phrase FRAG Fragment INTJ Interjection Corresponds approximately to the part-of-speech tag UH LST List marker Includes surrounding punctuation Not a Constituent; used to show the scope of certain prenominal modifiers NAC within an NP NP Noun Phrase Used within certain complex NPs to mark the head of the NP Corresponds NX very roughly to N-bar level but used quite differently PP Prepositional Phrase PRN Parenthetical PRT Particle Category for words that should be tagged RP QP Quantifier Phrase (i.e complex measure/amount phrase); used within NP RRC Reduced Relative Clause UCP Unlike Coordinated Phrase VP Vereb Phrase WHADJP Wh-adjective Phrase Adjectival phrase containing a wh-adverb, as how hot Wh-adverb Phrase Introduces a clause with an NP gap May be null WHAVP (containing the complementizer) or lexical, containing a wh-adverb such as how or why Wh-noun Phrase Introduces a clause with an NP gap May be null (containing the complementizer) or lexical, containing some wh-word, WHNP e.g who, which book, whose daughter, none of which, or how many leopards Wh-prepositional Phrase Prepositional phrase containing a wh-noun WHPP phrase (such as of which or by whose authority) that either introduces a PP gap or is contained by a WHNP Unknown, uncertain, or unbracketable X is often used for bracketing typos X and in bracketing the the-constructions 82 PHỤ LỤC C TỪ ĐIỂN CÁC MẪU BẤT THƯỜNG Các ký hiệu sau viết dạng biểu thức quy \?+ \.com \.c_o_m http h_t_t_p www w_w_w @+ \$[0-9]* [0-9]+.*dollar Contact \+{10}+ \.{10}+ \!{10}+ \*{10}+ [s|a|x|w|e]{10}+ [