Xác định bài viết chứa ý định người dùng trên diễn đàn (tt)

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - ĐỖ THỊ THU HÀ XÁC ĐỊNH BÀI VIẾT CHỨA Ý ĐỊNH NGƯỜI DÙNG TRÊN DIỄN ĐÀN Chuyên ngành: Khoa học máy tính Mã số: 60.48.01.01 TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2016 Luận văn hoàn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: Tiến sĩ Ngô Xuân Bách Phản biện 1: …………………………………………………………………………… Phản biện 2: ………………………………………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thơng Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thông MỞ ĐẦU Trong thời gian gần đây, mạng internet ngày phát triển mạnh mẽ rộng rãi, diễn đàn mua bán hay thảo luận, ta bắt gặp những viết như “Tơi tìm mua một TV plasma 40 inch” hay “Có biết chỡ bán sách không?” Như vậy trường hợp đó, ta thấy rằng người dùng hiện có ý định muốn mua một TV hay một sách Từ ý định này, dễ dàng đưa quảng cáo dựa ý định người dùng về sản phẩm mà họ quan tâm Đã có số đề tài trước nghiên cứu về chủ đề phân tích ý định người dùng “Online commercial intention identification” việc xác định ý định người dùng dựa lịch sử người dùng tìm kiếm mạng xã hội hay những website tìm kiếm Hoặc đề tài phân tích quan điểm người dùng “Natural Language Processing” dựa ý định người dùng mong muốn, nhận xét về sản phẩm Như những đề tài trước, việc phân tích quan điểm hay ý định người dùng chủ yếu dựa vào hành vi người dùng Trong luận văn trình bày hướng xác định khác tốn việc phát phân tích ý định người dùng cần dựa vào những nội dung, dữ liệu mà người dùng đưa Ví dụ tình h́ng người dùng nhập “Tơi thấy iPhone nên có hình lớn hơn” có ý nghĩa khác so với câu “Tôi muốn mua iPhone 5S” Luận văn làm rõ cách giải vấn đề đây: - Xác định viết có chứa ý định giữa nhiều viết khơng có ý định - Trong văn chứa nhiều dữ liệu không liên quan tới chủ đề, nhiên việc xử lý tập dữ liệu cần tìm đâu dữ liệu nhiễu không liên quan tới ý định người dùng để trích xuất kết phân lớp xác - Khi thực xác định ý định người dùng chủ đề mà chưa có dữ liệu thực để làm dữ liệu học máy Việc áp dụng toán xác định ý định người dùng chéo miền quan trọng Như luận văn làm rõ phương pháp xác định ý định người dùng trường hợp: dữ liệu miền dữ liệu chéo miền Để xây dựng chương trình xác định ý định người dùng, luận văn đưa phương pháp xác định ý định người dùng có trước thuật tốn EM, thuật toán FS-EM đề xuất thuật toán Co-Class áp dụng trường hợp xác định ý định với dữ liệu trái miền giúp cải thiện kết thu Luận văn chia làm phần: Chương 1: Luận văn giới thiệu chung về lĩnh vực xử lý ngơn ngữ tự nhiên, tốn ứng dụng lĩnh vực xử lý ngôn ngữ tự nhiên phân loại văn bản, phân loại quan điểm v.v Giới thiệu về toán phát ý định người dùng diễn đàn Chương 2: Luận văn trình bày về phương pháp phát ý định sử dụng phương pháp học máy: phương pháp phân lớp dữ liệu, phương pháp biểu diễn đặc trưng cho văn bản, thuật toán học máy sử dụng đề tài Phát biểu toán mở rộng đề tài áp dụng cho trường hợp dữ liệu miền chéo miền, đưa giải pháp so sánh về độ phức tạp giữa thuật tốn Chương 3: Luận văn trình bày về kết thực nghiệm thuật tốn để ći đưa kết so sánh trình cài đặt thực tế, phân tích, đánh giá kết thu đưa kết luận CHƯƠNG 1: TỔNG QUAN BÀI TOÁN PHÁT HIỆN Ý ĐỊNH NGƯỜI DÙNG Trong chương này, luận văn trình bày chung về lĩnh vực xử lý ngôn ngữ tự nhiên, tốn ứng dụng lĩnh vực xử lý ngơn ngữ tự nhiên phân loại văn bản, phân loại quan điểm v.v Hướng tiếp cận, lý chọn đề tài giới thiệu toán phát ý định người dùng diễn đàn 1.1 Xử lý ngôn ngữ tự nhiên Xử lý ngôn ngữ tự nhiên (natural language processing – NLP) nhánh trí tuệ nhân tạo, tập trung vào ứng dụng xử lý ngôn ngữ người Trong trí tuệ nhân tạo xử lý ngôn ngữ tự nhiên những phần khó xử lý ngơn ngữ tự nhiên liên quan đến việc xây dựng hệ thống máy tính hiểu tư ý nghĩa ngơn ngữ người, từ tiến hành xử lý chúng Xử lý ngôn ngữ tự nhiên lĩnh vực nghiên cứu từ nhiều năm đạt nhiều bước tiến quan trọng những năm gần đây, đặc biệt việc xây dựng ứng dụng dịch máy, tìm kiếm thơng tin, trích chọn thơng tin, tóm tắt văn bản, trả lời tự động khai phá quan điểm [1] [2] v.v 1.2 Khái niệm phân loại văn Phân loại văn xử lý nhóm tài liệu thành lớp khác Việc phân lớp tài liệu liên quan đến xử lý định Với mỗi xử lý phân loại, đầu vào văn bản, cần phải có định đưa xem văn có thuộc lớp hay không Nếu tài liệu thuộc lớp sau cần lớp mà tài liệu thuộc vào Ví dụ đưa văn “Apple vừa cho mắt sản phẩm Iphone 7”, cần văn thuộc lớp công nghệ di động, thuộc lớp thể thao, giải trí, xã hội… Hình 1.1: Bài toán phân lớp văn 1.2.1 Bài tốn phân loại văn Phân loại văn có nhiều toán biến thể như: - Phân cụm văn bản: Đưa văn có nội dung giớng vào nhóm [8] - Tóm tắt văn bản: Tóm tắt nội dung văn cho trước - Xác định quan điểm văn Tuy nhiên, nội dung luận văn tập trung vào dạng biến thể toán phân loại văn là: - Bài toán phân lớp dữ liệu - Bài toán định, xác định quan điểm văn 1.3 Bài toán phát ý định người dùng diễn đàn Ý tưởng luận văn sâu vào giải toán xác định ý định người dùng, giả sử tình h́ng ta thu thập tập văn diễn đàn về chủ đề bất kỳ, dựa vào nội dung văn đó, ta cần xác định đưa kết luận rằng người dùng có thực sự quan tâm, hay có nhu cầu ḿn mua sản phẩm hay khơng Tuy nhiên, tất viết người dùng đều thể ý định rõ ràng cần mua, bán sản phẩm “Đã có đọc sách chưa”, viết muốn hỏi về nội dung sách mà khơng có nhu cầu mua Hay viết chứa lượng dữ liệu lớn, có phần nhỏ thể ý định người dùng, phần cịn lại dữ liệu nhiễu gây khó khăn trình phát ý định người dùng “Năm tơi mua máy tính để bàn với giá 10 triệu đồng, máy sử dụng năm chạy tốt Tôi muốn nhượng lại máy tính để đổi máy tính xách tay Nhân tiện, tơi ḿn mua máy tính xách tay với giá 15 triệu trở x́ng Có bán khơng?” Như việc xác định ý định văn người dùng không dừng lại việc phân biệt viết rõ ràng ý định người dùng hay khơng, mà ta cịn cần phải xác định ý định người dùng tập dữ liệu nhiễu khơng liên quan, để trích xuất kết xác Trên thực tế, ta khơng thể thu thập dữ liệu đầy đủ cho tất miền, việc áp dụng dữ liệu miền để xác định ý định cho dữ liệu miền dữ liệu khác mà đạt kết xác cao quan trọng [3] Luận văn gặp sớ khó khăn xây dựng phương pháp giải toán xác định ý định người dùng sau: - Xác định những viết có chứa ý định rõ ràng - Giữa những thông tin gây nhiễu, xác định xác ý định viết thể - Nghiên cứu áp dụng toán xác định ý định người dùng trường hợp: dữ liệu miền dữ liệu chéo miền 1.4 Các nghiên cứu liên quan Trong đề tài “Online commercial intention (OCI) identification [4]” việc xác định ý định người dùng dựa lịch sử người dùng tìm kiếm mạng xã hội hay những website tìm kiếm Hoặc đề tài “Natural Language Processing” [7] việc xử lý ngôn ngữ tự nhiên dựa quan điểm người dùng cần muốn Như điểm khác biệt luận văn việc phát phân tích ý định người dùng dựa vào những nội dung, dữ liệu mà người dùng đưa Như chương trình bày, phần đề tài trình bày rõ về phương pháp xác định ý định người dùng diễn đàn Phương pháp áp dụng xác định ý định người dùng làm rõ những vấn đề sau: - Xác định những viết có chứa ý định viết khơng có ý định - Việc xử lý tập dữ liệu để trích xuất đâu dữ liệu nhiễu khơng liên quan tới ý định người dùng để trích xuất kết xác - Nghiên cứu áp dụng toán xác định ý định người dùng trường hợp: dữ liệu miền dữ liệu chéo miền 1.5 Kết chương Chương trình bày khái quát về lĩnh vực xử lý ngôn ngữ tự nhiên, giới thiệu về toán phân loại văn Sau đề xuất tốn xác định ý định người dùng nghiên cứu liên quan tới đề tài xác định ý định người dùng, từ đưa những vấn đề cần làm rõ giải luận văn Trong Chương 2, luận văn trình bày về hướng giải cho tốn xác định ý định người dùng, sâu trình bày về phương pháp áp dụng để giải toán CHƯƠNG 2: CÁC PHƯƠNG PHÁP PHÁT HIỆN Ý ĐỊNH NGƯỜI DÙNG DỰA TRÊN HỌC MÁY Trong chương này, luận văn trình bày chi tiết về phương pháp áp dụng toán phát ý định người dùng Chương gồm phần: - Trình bày về phương pháp giải tốn phát ý định người dùng có, đưa hướng phát triển thuật toán để cải thiện kết xử lý trường hợp dữ liệu miền chéo miền - Trình bày về phương pháp biểu diễu đặc trưng cho văn áp dụng toán phát ý định người dùng: N-Gram, TF-IDF - Trình bày về phương pháp học máy, xây dựng mơ hình phân lớp dữ liệu cho tốn phát ý định người dùng: Nạve Bayes, Support Vector Machine (SVM) 2.1 Phương pháp giải toán Các bước thực để xây dựng phương pháp giải cho toán xác định ý định người dùng mơ tả hình vẽ đây: Hình 2.1: Phương pháp xây dựng chương trình cho tốn Để giải toán xác định ý định người dùng diễn đàn, ta thực xác định qua giai đoạn sau:  Giai đoạn Huấn luyện: thu thập dữ liệu mẫu, thực tiền xử lý (loại bỏ ký tự đặc biệt, ký tự thừa, từ stopwords không ảnh hưởng tới ý nghĩa văn bản) Xây dựng dữ liệu học gán nhãn dữ liệu thực nghiệm chưa gán nhãn Trong đề tài giai đoạn huấn luyện sử dụng thuật toán TF-IDF, N-Gram với n=1,2,3…  Giai đoạn Phân loại: sử dụng kết giai đoạn Tiền xử lý làm dữ liệu đầu vào cho thuật tốn trích chọn đặc trưng phân lớp, từ đưa kết luận về nhãn dữ liệu chưa gán nhãn Giai đoạn phân loại đề tài sử dụng thuật tốn SVM thuật tốn Nạve Bayes để tiến hành phân lớp cho dữ liệu Các phần chương trình bày chi tiết về thuật toán lựa chọn áp dụng vào việc xác định ý định văn 2.2 Các phương pháp biểu diễn đặc trưng văn 2.2.1 Phương pháp TF-IDF a Giới thiệu phương pháp Trong phương pháp tiếp cận truyền thống những phương pháp sử dụng nhiều phương pháp tần suất thuật ngữ “term frequency” (TF) hay tần suất thuật ngữ - nghịch đảo tần suất văn “term frequency-inverse document frequency” (viết tắt TF-IDF) sử dụng việc phân loại văn Phương pháp tầm quan trọng từ với văn hàng loạt văn Trong TF-IDF, tầm quan trọng từ với văn lớn sử dụng văn bản, thấp từ xuất nhiều nhiều văn 2.2.2 Phương pháp N-Gram a Giới thiệu phương pháp Mơ hình ngơn ngữ thớng kê cho phép gán (ước lượng) xác suất cho chuỗi m phần tử (thường từ) P(w1w2…wm) tức cho phép dự đoán khả chuỗi từ xuất ngôn ngữ Theo cơng thức Bayes: P(AB) = P(B|A) * P(A) (2.1) Thì ta dễ dàng suy được: P(w1w2…wm) = P(w1) * P(w2|w1) * P(w3|w1w2) *…* P(wm|w1w2…wm-1) (2.2) Theo công thức tốn tính xác suất mỡi ch̃i từ quy về tốn tính xác suất từ với điều kiện biết từ trước (có thể hiểu P(w1)=P(w1|start) xác suất để w1 đứng đầu ch̃i hay nói cách khác người ta đưa thêm ký hiệu đầu dịng start vào mỡi ch̃i) Theo cơng thức Bayes, mơ hình ngơn ngữ cần phải có lượng nhớ vơ lớn để lưu hết xác suất tất chuỗi độ dài nhỏ m Rõ ràng, điều m độ dài văn ngơn ngữ tự nhiên (m tiến tới vơ cùng) Để tính xác suất văn với lượng nhớ chấp nhận được, ta sử dụng xấp xỉ Markov bậc n: P (wm|w1, w2,…, wm-1) = P(wm|wm-n,wn-m+1, …,wm-1) (2.3) 2.3 Các phương pháp học máy xây dựng mơ hình phân lớp liệu 2.3.1 Phương pháp Naïve Bayes a Định lý Bayes Định lý Bayes cho phép tính xác suất xảy sự kiện ngẫu nhiên A biết sự kiện liên quan B Xác suất kí hiệu P(A|B), đọc “xác suất A có B” Theo định lý Bayes, xác suất xảy A biết B phụ thuộc vào yếu tố: - Xác suất xảy A riêng nó, khơng quan tâm đến B Kí hiệu P(A) - Xác suất xảy B riêng nó, khơng quan tâm đến A Kí hiệu P(B) - Xác suất xảy B biết A xảy Kí hiệu P(B|A) Cơng thức Nạve Bayes tính sau 𝑃(𝐴𝑖 |𝐵) = 𝑃(𝐵 |𝐴𝑖 )𝑃(𝐴𝑖 ) ∑𝑛𝑖=1 𝑃(𝐵|𝐴𝑖 )(𝑃(𝐴𝑖 ) (2.4) b Mạng Bayes (Bayesian Network) Mạng Bayes đồ thị biểu diễn phân phới xác suất tập biến Nó thường dùng để mã hóa tri thức chuyên gia ý niệm họ về lĩnh vực Do mạng Bayes cịn gọi mạng ý niệm (Belief Network) mạng nhân (Causal Network) c Phân lớp Naive Bayes Naive Bayes Classifier (NBC) [9] thuật ngữ xử lý số liệu thống kê Bayes với phân lớp xác suất dựa ứng dụng định lý Bayes với giả định độc lập bền vững Một thuật ngữ mô tả chi tiết cho những mơ hình xác suất “mơ hình đặc trưng khơng phụ thuộc” 10 Để giải vấn đề thuật tốn EM q trình xử lý cần tìm cách trích chọn đặc trưng tập dữ liệu chưa gán nhãn Luận văn đề xuất phương pháp thay phương pháp EM: FS-EM (Feature Selection EM) Co-Class (Co-classifiation) 2.4.2 Thuật tốn FS-EM Ở thuật tốn EM, việc trích chọn đặc trưng trích từ tập dữ liệu gán nhãn không thay đổi Tuy nhiên, những đặc trưng phù hợp với tập dữ liệu gán nhãn không hẳn phù hợp với dữ liệu chưa gán nhãn Vì vậy, ta đề xuất thêm bước chọn đặc trưng trình lặp để đánh giá nhãn cần gán, ví dụ sau mỡi vịng lặp, ta chọn lại đặc trưng cho tập dữ liệu Như vậy, sau mỡi vịng lặp ta có tập đặc trưng ứng với dữ liệu chưa gán nhãn Thuật tốn FS-EM trình bày chi tiết sau: Input: Tập dữ liệu gán nhãn DL chưa gán nhãn DU Chọn tập đặc trưng  tập dữ liệu gán nhãn DL Dựng phân lớp h từ DL dựa đặc trưng  Lặp: for: Với mỗi văn d tập dữ liệu DU c = h(di) // gán nhãn cho d sử dụng phân lớp h end Đặt DP tập dữ liệu gán nhãn DU Chọn tập đặc trưng  dựa DP Dựng phân lớp h từ DP dựa tập đặc trưng  10 Dừng vòng lặp nhãn tập dữ liệu DP không thay đổi 11 Trả về phân lớp h lần lặp cuối Điểm yếu thuật toán FS-EM việc xây dựng phân lớp dữ liệu h vòng lặp sử dụng dựa dữ liệu chưa gán nhãn, mà không sử dụng đến dữ liệu gán nhãn ban đầu Trong dữ liệu gán nhãn lại chứa hơng tin có ích xác cho việc phân lớp Vì vậy, ta đề xuất thêm thuật toán Co-Class để giải vấn đề 11 2.4.3 Thuật toán Co-Class Thuật toán Co-Class thuật toán kết hợp giữa dữ liệu gán nhãn dữ liệu chưa gán nhãn chạy qua phân lớp h (DP) Co-Class giúp giải điểm yếu thuật toán FS-EM tận dụng phân lớp xây dựng từ dữ liệu gán nhãn điểm mạnh Co-Training sử dụng lúc phân lớp từ với dữ liệu khác Nhưng thay việc xây dựng phân lớp dựa đặc trưng thuật toán CoTraining thực tập dữ liệu khác nhau, để tạo phân lớp khác Thì Co-Class sử dụng đặc trưng để xây dựng phân lớp Chi tiết thuật tốn Co-Class trình bày sau: Input: Tập dữ liệu gán nhãn DL chưa gán nhãn DU Chọn tập đặc trưng  tập dữ liệu gán nhãn DL Dựng phân lớp h từ DL dựa đặc trưng  for: Với mỗi văn d tập dữ liệu DU c = h(di) // gán nhãn cho d sử dụng phân lớp h end Đặt DP tập dữ liệu gán nhãn DU Lặp: Chọn đặc trưng  từ tập dữ liệu DP Dựng phân lớp hL sử dụng đặc trưng  tập dữ liệu DL 10 Dựng phân lớp hP sử dụng đặc trưng  tập dữ liệu DP 11 for: Với mỗi văn d tập dữ liệu DU 12 c = (hL(di), hP(di)); // kết hợp phân lớp hL, hP 13 end 14 Đặt DP tập dữ liệu gán nhãn DU 15 Dừng vòng lặp nhãn tập dữ liệu DP không thay đổi 16 Trả về phân lớp h lần lặp cuối Ở bước 11-13, kết phân lớp dữ liệu chưa gán nhãn thay bằng kết kết hợp giữa phân lớp Việc kết hợp theo quy tắc sau:  (hL (di), hP (di)) = { + − ℎ𝐿 ( 𝑑 𝑖 ) = ℎ𝑃 ( 𝑑 𝑖 ) = + 𝑇𝑟ườ𝑛𝑔 ℎợ𝑝 𝑐ị𝑛 𝑙ạ𝑖 12 2.5 Kết chương Chương trình bày về trình tìm hiểu áp dụng thuật tốn TF-IDF, N-Grams để trích xuất đặc trưng thuật tốn Nạve Bayes, SVM để phân lớp dữ liệu Để phân tích quan điểm người dùng, luận văn đề xuất áp dụng thuật toán FSEM, Co-Class để cải thiện kết xây dựng thực nghiệm Chương tiến hành thử nghiệm ứng dụng xây dựng kịch khác nhau, sau đánh giá độ xác ứng dụng dựa kết thu 13 CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ Sau trình bày chi tiết thuật toán áp dụng cho toán xác định ý định chương 2, chương luận văn xây dựng thực nghiệm ứng với kịch thực nghiệm khác nhau, sau tiến hành đánh giá độ xác dựa kết thu đưa kết luận 3.1 Dữ liệu thực nghiệm Dữ liệu thực nghiệm thu thập từ forums khác tương ứng với miền dữ liệu khác nhau: Bảng 3.1: Danh sách trang web thu thập liệu Forums Chủ đề http://www.howardforums.com/ Điện thoại http://www.avsforum.com/avs-vb Điện tử http://forum.digitalcamerareview.com/ Camera http://www.avforum.com/forums/tvs TV Với mỗi forums ta thu thập gán nhãn bằng tay gần 1000 viết với độ dài mỗi viết giới hạn không nhỏ 50 từ Ta quy định viết có chiều hướng có hứng thú ḿn mua sản phẩm viết có chứa ý định gán nhãn 1, lại gán nhãn Dữ liệu sau thu thập thống kê lại bảng đây: Bảng 3.2: Danh sách tập liệu thu nhãn liệu Tập liệu Khơng có ý định Có ý định Tổng số đăng Điện thoại 811 184 995 Điện tử 711 278 989 TV 717 280 997 Camera 811 184 995 14 3.2 Thiết lập thực nghiệm Ở mục này, luận văn trình bày kịch thực nghiệm cho trường hợp xác định ý định người dùng Mỗi kịch bao gồm dữ liệu đầu vào dữ liệu gán nhãn dữ liệu cần phân lớp tập dữ liệu chưa gán nhãn Ta cần thực nghiệm thuật toán EM, FS-EM so sánh với kết thuật toán Co-Class để so sánh hiệu từng thuật toán áp dụng để xác định ý định người dùng Quá trình thực nghiệm thuật tốn gồm phần chính: - Trích chọn đặc trưng: Sử dụng thuật tốn TF-IDF, N-Grams với n lần lượt chọn giá trị 1,2,3 - Xây dựng phân lớp dữ liệu: Sử dụng thuật tốn Nạve Bayes SVM (trong thuật tốn SVM sử dụng hàm Kernel tuyến tính (Joachims, 1998; Yang and Liu, 1999)) 3.3 Công cụ thực nghiệm Môi trường thực nghiệm: - Phần cứng (Thiết bị thực nghiệm): Macbook Air 2013, CPU Intel Core i5 1.3Ghz, 4GB RAM - Phần mềm: Weka 3.8 Cơng cụ tích hợp hỡ trợ thuật toán học máy Khi xây dựng thực nghiệm, ta sử dụng kết hợp thuật tốn trích chọn đặc trưng TFIDF, N-Grams (n=1,2,3) với thuật toán phân lớp dữ liệu Naïve Bayes, SVM lấy tham số Precision, Recall F-Measure Từ kết thu sau thực nghiệm, ta kết luận mơ hình gán nhãn cho dữ liệu phù hợp cho đề tài xác định ý định văn 3.3.1 Thực nghiệm miền liệu Ta đưa kịch thực nghiệm miền dữ liệu, dữ liệu gán nhãn dữ liệu chưa gán nhãn lấy forum thảo luận về chủ đề Với lần lượt từng chủ đề, gần 1000 mẫu dữ liệu, ta chia dữ liệu thành 10 phần ngẫu nhiên, với tỉ lệ nhãn tương đương nhau, ta lấy ngẫu nhiên phần dữ liệu để làm dữ liệu chưa gán nhãn để kiểm tra, phần lại để làm dữ liệu học 15 Như ta cần thực thực nghiệm 10 lần với từng chủ đề chủ đề ta có 40 dữ liệu cần thực nghiệm Việc thực nghiệm thực lần lượt với thuật tốn trích chọn đặc trưng phân lớp nêu trước đó, sau chạy thực nghiệm xong tính giá trị trung bình tham sớ Precission, Recall, Fscore để đưa nhận xét thuật toán phù hợp với toán xác định ý định người dùng cho dữ liệu miền 3.3.2 Thực nghiệm miền liệu Ta đưa kịch thực nghiệm miền dữ liệu, dữ liệu gán nhãn dữ liệu chưa gán nhãn lấy forum khác thảo luận về chủ đề khác a Kịch Áp dụng theo phương pháp 3TR-1TE: sử dụng dữ liệu lấy forum gán nhãn tương ứng với miền dữ liệu làm dữ liệu học dữ liệu miền lại làm dữ liệu kiểm tra Việc thực nghiệm thực lần lượt với thuật tốn trích chọn đặc trưng phân lớp nêu phần trên, sau chạy thực nghiệm xong tính giá trị trung bình tham sớ Precission, Recall, Fscore đưa đánh giá kết thực nghiệm b Kịch Sử dụng dữ liệu gán nhãn miền dữ liệu lấy forum thảo luận về chủ đề làm dữ liệu học dữ liệu forum khác thảo luận về chủ đề khác làm dữ liệu kiểm tra Việc thực nghiệm thực lần lượt với thuật tốn trích chọn đặc trưng phân lớp nêu phần trên, sau chạy thực nghiệm xong tính giá trị trung bình tham số Precission, Recall, Fscore đưa đánh giá kết thực nghiệm 3.4 Kết thực nghiệm 3.4.1 Thực nghiệm miền liệu Sau thực thực nghiệm miền dữ liệu ta thu kết gán nhãn xác thớng kê lại bảng đây: 16 Bảng 3.3: Độ xác trung bình thực nghiệm liệu miền NAÏVE BAYES SVM Chủ đề Điện thoại Điện tử TV Camera TFIDF N1Gram N2Gram N3Gram TFIDF N1Gram N2Gram N3Gram 67.8 68.7 72.1 69.9 70.1 63.7 65.5 66.4 64.3 66.5 68.1 68.5 68.8 66.5 63.5 66.6 69.1 66.7 68.3 66.4 67.3 67.8 65.6 69.6 67.8 68.5 70.3 70.2 69.6 65.9 69.9 65.4 Khi thực nghiệm với miền dữ liệu, với kết thu bảng, ta nhận thấy: - Độ xác áp dụng thuật tốn gán nhãn dữ liệu rơi vào khoảng 6372%, mức tương đới xác đới với miền dữ liệu - Trong với chủ đề “Điện tử” thuật tốn có độ xác trung bình thấp nhất, chủ đề “TV” có độ xác cao - Dựa vào bảng dữ liệu thu được, ta nhận thấy sử dụng thuật toán SVM để phân lớp dữ liệu đưa kết xác so với thuật toán phân lớp đó, thuật tốn trích chọn đặc trưng N2-Gram kết hợp với thuật tốn Nạve Bayes đưa lại kết xác cao 3.4.2 Thực nghiệm miền liệu a Kịch Sau thực thực nghiệm miền dữ liệu với kịch 1, lấy dữ liệu miền làm dữ liệu học dữ liệu miền lại làm dữ liệu chưa gán nhãn ta thu kết thống kê lại bảng đây: Bảng 3.4: Độ xác thực nghiệm liệu khác miền kịch NAÏVE BAYES Chủ đề SVM TFIDF N1Gram N2Gram N3Gram TFIDF N1Gram N2Gram N3Gram Điện thoại 64.32 69.95 71.94 68.33 65.36 72.24 71.51 72.54 Điện tử 64.23 65.24 64.68 65.82 67.17 66.32 66.52 69.02 TV 66.04 68.83 70.75 70.75 65.98 67.74 65.23 74.73 Camera 68.66 69.48 67.52 67.74 70.49 70.59 68.90 75.73 17 Khi thực nghiệm với miền dữ liệu với kịch nêu phần trước, với kết thu bảng, ta nhận thấy: - Độ xác áp dụng thuật toán gán nhãn dữ liệu rơi vào khoảng 6176%, mức tương đới xác - Trong đó, thực nghiệm dữ liệu học từ chủ đề “Điện thoại”, “TV”, “Camera” để áp dụng cho dữ liệu kiểm tra chủ đề “Điện tử” đem lại kết xác thấp Kết thực nghiệm với thuật tốn phân lớp SVM đưa độ xác trung - bình cao so với thuật tốn Nạve Bayes, áp dụng thuật tốn trích chọn đặc trưng N3-Gram kết hợp với thuật toán phân lớp SVM có kết xác cao b Kịch Sau thực thực nghiệm miền dữ liệu với kịch 2, lấy dữ liệu miền làm dữ liệu học dữ liệu miền lại làm dữ liệu chưa gán nhãn ta thu kết thống kê lại bảng đây: Bảng 3.5: Độ xác thực nghiệm chủ đề “Điện thoại”, “Điện tử” Dữ liệu kiểm thử Dữ liệu học NAÏVE BAYES SVM ĐIỆN THOẠI ĐIỆN TỬ Điện tử Camera TV Điện thoại Camera TV TFIDF 67.36 71.63 70.06 63.84 64.36 61.65 N1Gram 65.27 70.54 65.86 62.64 64.07 62.67 N2Gram 70.43 69.14 67.59 63.86 62.98 64.38 N3Gram 66.94 69.22 68.83 62.57 63.70 64.19 TFIDF 71.41 71.26 66.15 62.48 63.76 61.72 N1Gram 70.73 66.18 69.48 64.74 62.43 64.99 N2Gram 69.68 66.99 65.69 64.52 64.95 62.40 N3Gram 72.39 73.02 68.30 64.19 64.27 65.20 18 Bảng 3.6: Độ xác thực nghiệm chủ đề “Camera”, “TV” Dữ liệu kiểm thử CAMERA TV Dữ liệu học Điện tử Điện thoại TV Điện thoại Camera Điện tử TFIDF 71.65 69.34 67.02 69.54 68.03 70.35 N1Gram 71.95 66.96 70.15 70.05 70.24 66.28 N2Gram 71.58 71.74 65.87 71.96 70.45 69.32 N3Gram 70.61 67.03 71.88 65.47 68.16 66.03 TFIDF 68.83 69.18 71.99 65.31 68.97 67.27 N1Gram 66.19 68.21 69.02 65.66 70.28 65.44 N2Gram 66.82 71.98 66.04 69.08 66.42 68.86 N3Gram 70.14 67.24 71.35 70.99 69.83 72.43 NAÏVE BAYES SVM Khi thực nghiệm với miền dữ liệu với kịch nêu phần trước, với kết thu bảng, ta nhận thấy: - Độ xác áp dụng thuật toán gán nhãn dữ liệu rơi vào khoảng 5971%, mức xác - Trong áp dụng lần lượt từng chủ đề chủ đề “Điện thoại”, “TV”, “Camera” làm dữ liệu học, sử dụng dữ liệu chủ đề “Điện tử” làm dữ liệu kiểm thử, độ xác áp dụng với chủ đề “Điện tử” đem lại kết xác thấp - Thuật tốn phân lớp dữ liệu SVM đem lại độ xác gán nhãn cao so với thuật tốn Nạve Bayes áp dụng với kịch dữ liệu chéo miền - Khi áp dụng thực nghiệm miền dữ liệu khác nhau, với thuật tốn trích chọn đặc trưng thuật toán N3-Gram kết hợp với thuật toán phân lớp văn SVM đưa lại kết gán nhãn cao 3.4.3 So sánh kết thực nghiệm Co-Class với thuật toán khác Thực nghiệm liệu miền Khi thực nghiệm so sánh kịch phân loại với lần lượt thuật toán EM, FS-EM Co-Class ta thu đồ thị phân loại đây: 19 So sánh thuật toán trường hợp liệu miền 71.0 70.0 69.7 69.0 68.9 68.0 67.8 67.0 67.3 66.5 66.0 67.6 66.9 68.7 68.9 66.4 67.4 66.6 67.9 65.0 64.0 64.2 64.3 69.3 67.1 67.0 66.0 65.5 66.1 65.8 64.5 64.8 63.0 EM FS-EM Co-Class 62.0 61.0 Hình 3.1: So sánh độ xác thực nghiệm miền thuật toán Ta nhận thấy, thực nghiệm miền dữ liệu, kết xác định ý định văn không chênh lệch nhiều áp dụng thuật toán EM, FS-EM, Co-Class, thuật tốn Co-Class chưa hẳn vượt trội về độ xác so với thuật tốn trước Ngay sớ trường hợp thực nghiệm áp dụng thuật tốn FS-EM đưa kết xác so với Co-Class Thực nghiệm liệu chéo miền Tiếp theo, ta thực nghiệm với dữ liệu trái miền, lần lượt với kịch bản, ta thu kết dồ thị 20 So sánh thuật toán trường hợp liệu chéo miền kịch 80.0 70.0 66.1 60.0 62.8 50.0 46.5 40.0 30.0 20.0 10.0 0.0 66.1 64.9 48.2 70.7 62.2 66.4 65.2 67.4 64.8 66.8 65.1 68.5 63.6 72.6 66.0 42.4 44.4 42.5 44.4 44.6 44.0 EM FS-EM Co-Class Hình 3.2: So sánh độ xác thực nghiệm chéo miền thuật tốn So sánh thuật toán trường hợp liệu chéo miền kịch 80.0 70.0 67.9 59.4 60.0 50.0 41.6 67.2 68.2 56.3 49.2 57.1 45.1 67.0 63.0 67.3 64.1 48.2 48.2 66.9 65.4 66.9 69.6 67.7 55.6 45.7 45.7 44.9 40.0 30.0 EM 20.0 FS-EM 10.0 0.0 Co-Class Hình 3.3: So sánh độ xác thực nghiệm chéo miền thuật toán Nhận thấy, thực nghiệm miền dữ liệu khác nhau, kết xác định ý định văn cho thấy sự chênh lệch rõ ràng áp dụng thuật toán EM, FS-EM, Co-Class Thuật toán Co-Class thể điểm mạnh áp dụng trường hợp dữ liệu chéo miền Trong - Thuật tốn EM thể khả phân loại yếu thuật tốn Độ xác thuật tốn thấp, khoảng 39-54% 21 - Thuật tốn FS-EM có độ xác mức tương đới xác 53-66% - Và Thuật toán Co-Class đưa lại kết gán nhãn hiệu thực nghiệm xác định ý định văn bản, trường hợp áp dụng kết hợp thuật toán trích chọn đặc trưng N3-Gram thuật tốn phân lớp SVM, thuật toán CoClass đưa kết phân loại xác đến 71% 3.5 Nhận xét thực nghiệm kết luận Khi áp dụng thuật toán Co-Class vào toán xác định ý định người dùng, ta nhận thấy: - Khi áp dụng gán nhãn chủ đề định, thuật tốn phân lớp Nạve Bayes đem lại kết cao so với thuật toán SVM Có thể nói, thuật tốn Nạve Bayes phù hợp với toán phân loại dữ liệu miền so với thuật toán SVM Và ngược lại, thuật toán SVM đem lại kết cao áp dụng thử nghiệm với trường hợp dữ liệu chéo miền - Thuật tốn SVM đưa kết xác với văn ngắn 50-70 từ, xác định với văn dài lớn 150 từ bị ảnh hưởng dữ liệu nhiễu dẫn đến thuật toán SVM xác định thiếu xác - Khi thực nghiệm xác định tập dữ liệu, với thuật toán EM, cho kết xác định ý định xác so với thuật tốn cịn lại thuật toán FS-EM thuật toán Co-Class - Khi thực nghiệm miền dữ liệu khác nhau, thuật toán EM đưa kết xác thấp, thuật tốn FS-EM đưa kết xác so với Co-Class Việc để xác định ý định người dùng ta chưa thể thu thập dữ liệu tập học riêng chủ đề vấn đề hay xảy ra, thuật toán Co-Class thể ưu điểm tình h́ng dữ liệu để học máy không thuộc chủ đề định hay áp dụng dữ liệu học máy chủ đề khác, không liên quan với chủ đề kiểm tra - Kết thực nghiệm Co-Class với dữ liệu trái miền đem lại kết cao xấp xỉ bằng với kết xác định ý định văn dữ liệu miền Như vậy, từ kết thực nghiệm thu cho thấy Co-Class giúp cho việc xác định ý định văn đạt độ xác cao khơng gặp khó khăn lớn áp dụng chủ đề việc chưa có dữ liệu học máy chủ đề khơng cịn trở ngại lớn xác định ý định người dùng 22 KẾT LUẬN VÀ KIẾN NGHỊ Luận văn tập trung nghiên cứu phát xác ý định người viết diễn đàn thảo luận Trong luận văn tập trung nghiên cứu sâu phương pháp biểu diễn đặc trưng văn (N-grams, TF-IDF), phương pháp học máy để xây dựng mơ hình phân lớp dữ liệu (Nạve Bayes, SVM) đưa tốn phát ý định người dùng áp dụng miền dữ liệu miền chéo miền Cụ thể, luận văn đạt số kết sau: - Nghiên cứu mơ hình biểu diễn đặc trưng văn bản, mơ hình phân lớp dữ liệu áp dụng toán xác định ý định người viết - Đề xuất số cải tiến nhằm nâng cao độ xác việc phát ý định người dùng thơng qua viết - Áp dụng thuật tốn nâng cao độ xác, thực nghiệm đánh giá kết Trong tương lai, Luận văn phát triển theo hướng: - Nghiên cứu phương pháp nâng cao độ xác cải thiện tớc độ xử lý đối với việc phát văn chứa ý định người dùng - Nghiên cứu phương pháp thu thập dữ liệu tự động, từ kết hợp với hệ thống tư vấn, quảng cáo để đưa quảng cáo phù hợp, với lượng người quan tâm cao 23 PHỤ LỤC Xây dựng ứng dụng Ứng dụng hỗ trợ người dùng xây dựng bằng ngơn ngữ Java sử dụng mơi trường máy tính, u cầu cấu hình máy tính cài đặt mơi trường: Java JDK Chức ứng dụng bao gồm: - Dựa vào văn người dùng đưa ra, ứng dụng xử lý đưa ý định văn có ḿn mua sản phẩm hay khơng - Ứng dụng xử lý dữ liệu đưa chủ đề sản phẩm mà người dùng muốn mua ḿn tìm hiểu thêm Từ tích hợp với hệ thống quảng cáo để đưa quảng cáo phù hợp với văn Giao diện ứng dụng sau: Hình 2: Mơ tả ứng dụng 24 TÀI LIỆU THAM KHẢO [1] Ngo Xuan Bach, Tu Minh Phuong, “Leveraging User Ratings for Resource-Poor Sentiment Classification”, In Proceedings of the 19th International Conference on Knowledge-Based and Intelligent Information & Engineering Systems (KES), Procedia Computer Science, pp 322–331, 2015 [2] Nguyen Thi Duyen, Ngo Xuan Bach, Tu Minh Phuong, “An Empirical Study on Sentiment Analysis for Vietnamese” In Proceedings of the International Conference on Advanced Technologies for Communications (ATC), Special session on Computational Science and Computational Intelligence (CSCI), pp 309-314, 2014 [3] Zhiyuan Chen, Bing Liu, Meichun Hsu, Malu Castellanos, and Riddhiman Ghosh, “Identifying Intention Posts in Discussion Forums”, 2013 [4] Honghua (Kathy) Dai, Lingzhi Zhao, Zaiqing Nie, Ji-Rong Wen, Lee Wang, Ying Li, “Detecting online commercial intention (OCI)”, 2006 [5] Steve R Gunn, “Support Vector Machines for Classification and Regression”, 1998 [6] R A S C Jayasanka, M D T Madhushani, E R Marcus, I A A U Aberathne, S C Premaratne “Sentiment Analysis for Social Media”, 2014 [7] Hiroshi Kanayama, Tetsuya Nasukawa , “Textual demand analysis: detection of users' wants and needs from opinions”, 2008 [8] Fariba Sadri, Weikun Wang, Afroditi Xafi, “Intention Recognition with Clustering”, 2012 [9] P Hiroshi Shimodaira, “Text Classification using Naive Bayes”, 2015 ... toán xác định ý định người dùng sau: - Xác định những viết có chứa ý định rõ ràng - Giữa những thơng tin gây nhiễu, xác định xác ý định viết thể - Nghiên cứu áp dụng toán xác định ý định... quan điểm văn 1.3 Bài toán phát ý định người dùng diễn đàn Ý tưởng luận văn sâu vào giải toán xác định ý định người dùng, giả sử tình h́ng ta thu thập tập văn diễn đàn về chủ đề bất kỳ, dựa... Có bán khơng?” Như việc xác định ý định văn người dùng không dừng lại việc phân biệt viết rõ ràng ý định người dùng hay không, mà ta cần phải xác định ý định người dùng tập dữ liệu nhiễu

Định dạng
Số trang	26
Dung lượng	1,05 MB