Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 26 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
26
Dung lượng
1,05 MB
Nội dung
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - ĐỖ THỊ THU HÀ XÁC ĐỊNH BÀI VIẾT CHỨA Ý ĐỊNH NGƯỜI DÙNG TRÊN DIỄN ĐÀN Chuyên ngành: Khoa học máy tính Mã số: 60.48.01.01 TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2016 Luận văn hoàn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: Tiến sĩ Ngô Xuân Bách Phản biện 1: …………………………………………………………………………… Phản biện 2: ………………………………………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thơng Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thông MỞ ĐẦU Trong thời gian gần đây, mạng internet ngày phát triển mạnh mẽ rộng rãi, diễn đàn mua bán hay thảo luận, ta bắt gặp những viết như “Tơi tìm mua một TV plasma 40 inch” hay “Có biết chỡ bán sách không?” Như vậy trường hợp đó, ta thấy rằng người dùng hiện có ý định muốn mua một TV hay một sách Từ ý định này, dễ dàng đưa quảng cáo dựa ý định người dùng về sản phẩm mà họ quan tâm Đã có số đề tài trước nghiên cứu về chủ đề phân tích ý định người dùng “Online commercial intention identification” việc xác định ý định người dùng dựa lịch sử người dùng tìm kiếm mạng xã hội hay những website tìm kiếm Hoặc đề tài phân tích quan điểm người dùng “Natural Language Processing” dựa ý định người dùng mong muốn, nhận xét về sản phẩm Như những đề tài trước, việc phân tích quan điểm hay ý định người dùng chủ yếu dựa vào hành vi người dùng Trong luận văn trình bày hướng xác định khác tốn việc phát phân tích ý định người dùng cần dựa vào những nội dung, dữ liệu mà người dùng đưa Ví dụ tình h́ng người dùng nhập “Tơi thấy iPhone nên có hình lớn hơn” có ý nghĩa khác so với câu “Tôi muốn mua iPhone 5S” Luận văn làm rõ cách giải vấn đề đây: - Xác định viết có chứa ý định giữa nhiều viết khơng có ý định - Trong văn chứa nhiều dữ liệu không liên quan tới chủ đề, nhiên việc xử lý tập dữ liệu cần tìm đâu dữ liệu nhiễu không liên quan tới ý định người dùng để trích xuất kết phân lớp xác - Khi thực xác định ý định người dùng chủ đề mà chưa có dữ liệu thực để làm dữ liệu học máy Việc áp dụng toán xác định ý định người dùng chéo miền quan trọng Như luận văn làm rõ phương pháp xác định ý định người dùng trường hợp: dữ liệu miền dữ liệu chéo miền Để xây dựng chương trình xác định ý định người dùng, luận văn đưa phương pháp xác định ý định người dùng có trước thuật tốn EM, thuật toán FS-EM đề xuất thuật toán Co-Class áp dụng trường hợp xác định ý định với dữ liệu trái miền giúp cải thiện kết thu Luận văn chia làm phần: Chương 1: Luận văn giới thiệu chung về lĩnh vực xử lý ngơn ngữ tự nhiên, tốn ứng dụng lĩnh vực xử lý ngôn ngữ tự nhiên phân loại văn bản, phân loại quan điểm v.v Giới thiệu về toán phát ý định người dùng diễn đàn Chương 2: Luận văn trình bày về phương pháp phát ý định sử dụng phương pháp học máy: phương pháp phân lớp dữ liệu, phương pháp biểu diễn đặc trưng cho văn bản, thuật toán học máy sử dụng đề tài Phát biểu toán mở rộng đề tài áp dụng cho trường hợp dữ liệu miền chéo miền, đưa giải pháp so sánh về độ phức tạp giữa thuật tốn Chương 3: Luận văn trình bày về kết thực nghiệm thuật tốn để ći đưa kết so sánh trình cài đặt thực tế, phân tích, đánh giá kết thu đưa kết luận CHƯƠNG 1: TỔNG QUAN BÀI TOÁN PHÁT HIỆN Ý ĐỊNH NGƯỜI DÙNG Trong chương này, luận văn trình bày chung về lĩnh vực xử lý ngôn ngữ tự nhiên, tốn ứng dụng lĩnh vực xử lý ngơn ngữ tự nhiên phân loại văn bản, phân loại quan điểm v.v Hướng tiếp cận, lý chọn đề tài giới thiệu toán phát ý định người dùng diễn đàn 1.1 Xử lý ngôn ngữ tự nhiên Xử lý ngôn ngữ tự nhiên (natural language processing – NLP) nhánh trí tuệ nhân tạo, tập trung vào ứng dụng xử lý ngôn ngữ người Trong trí tuệ nhân tạo xử lý ngôn ngữ tự nhiên những phần khó xử lý ngơn ngữ tự nhiên liên quan đến việc xây dựng hệ thống máy tính hiểu tư ý nghĩa ngơn ngữ người, từ tiến hành xử lý chúng Xử lý ngôn ngữ tự nhiên lĩnh vực nghiên cứu từ nhiều năm đạt nhiều bước tiến quan trọng những năm gần đây, đặc biệt việc xây dựng ứng dụng dịch máy, tìm kiếm thơng tin, trích chọn thơng tin, tóm tắt văn bản, trả lời tự động khai phá quan điểm [1] [2] v.v 1.2 Khái niệm phân loại văn Phân loại văn xử lý nhóm tài liệu thành lớp khác Việc phân lớp tài liệu liên quan đến xử lý định Với mỗi xử lý phân loại, đầu vào văn bản, cần phải có định đưa xem văn có thuộc lớp hay không Nếu tài liệu thuộc lớp sau cần lớp mà tài liệu thuộc vào Ví dụ đưa văn “Apple vừa cho mắt sản phẩm Iphone 7”, cần văn thuộc lớp công nghệ di động, thuộc lớp thể thao, giải trí, xã hội… Hình 1.1: Bài toán phân lớp văn 1.2.1 Bài tốn phân loại văn Phân loại văn có nhiều toán biến thể như: - Phân cụm văn bản: Đưa văn có nội dung giớng vào nhóm [8] - Tóm tắt văn bản: Tóm tắt nội dung văn cho trước - Xác định quan điểm văn Tuy nhiên, nội dung luận văn tập trung vào dạng biến thể toán phân loại văn là: - Bài toán phân lớp dữ liệu - Bài toán định, xác định quan điểm văn 1.3 Bài toán phát ý định người dùng diễn đàn Ý tưởng luận văn sâu vào giải toán xác định ý định người dùng, giả sử tình h́ng ta thu thập tập văn diễn đàn về chủ đề bất kỳ, dựa vào nội dung văn đó, ta cần xác định đưa kết luận rằng người dùng có thực sự quan tâm, hay có nhu cầu ḿn mua sản phẩm hay khơng Tuy nhiên, tất viết người dùng đều thể ý định rõ ràng cần mua, bán sản phẩm “Đã có đọc sách chưa”, viết muốn hỏi về nội dung sách mà khơng có nhu cầu mua Hay viết chứa lượng dữ liệu lớn, có phần nhỏ thể ý định người dùng, phần cịn lại dữ liệu nhiễu gây khó khăn trình phát ý định người dùng “Năm tơi mua máy tính để bàn với giá 10 triệu đồng, máy sử dụng năm chạy tốt Tôi muốn nhượng lại máy tính để đổi máy tính xách tay Nhân tiện, tơi ḿn mua máy tính xách tay với giá 15 triệu trở x́ng Có bán khơng?” Như việc xác định ý định văn người dùng không dừng lại việc phân biệt viết rõ ràng ý định người dùng hay khơng, mà ta cịn cần phải xác định ý định người dùng tập dữ liệu nhiễu khơng liên quan, để trích xuất kết xác Trên thực tế, ta khơng thể thu thập dữ liệu đầy đủ cho tất miền, việc áp dụng dữ liệu miền để xác định ý định cho dữ liệu miền dữ liệu khác mà đạt kết xác cao quan trọng [3] Luận văn gặp sớ khó khăn xây dựng phương pháp giải toán xác định ý định người dùng sau: - Xác định những viết có chứa ý định rõ ràng - Giữa những thông tin gây nhiễu, xác định xác ý định viết thể - Nghiên cứu áp dụng toán xác định ý định người dùng trường hợp: dữ liệu miền dữ liệu chéo miền 1.4 Các nghiên cứu liên quan Trong đề tài “Online commercial intention (OCI) identification [4]” việc xác định ý định người dùng dựa lịch sử người dùng tìm kiếm mạng xã hội hay những website tìm kiếm Hoặc đề tài “Natural Language Processing” [7] việc xử lý ngôn ngữ tự nhiên dựa quan điểm người dùng cần muốn Như điểm khác biệt luận văn việc phát phân tích ý định người dùng dựa vào những nội dung, dữ liệu mà người dùng đưa Như chương trình bày, phần đề tài trình bày rõ về phương pháp xác định ý định người dùng diễn đàn Phương pháp áp dụng xác định ý định người dùng làm rõ những vấn đề sau: - Xác định những viết có chứa ý định viết khơng có ý định - Việc xử lý tập dữ liệu để trích xuất đâu dữ liệu nhiễu khơng liên quan tới ý định người dùng để trích xuất kết xác - Nghiên cứu áp dụng toán xác định ý định người dùng trường hợp: dữ liệu miền dữ liệu chéo miền 1.5 Kết chương Chương trình bày khái quát về lĩnh vực xử lý ngôn ngữ tự nhiên, giới thiệu về toán phân loại văn Sau đề xuất tốn xác định ý định người dùng nghiên cứu liên quan tới đề tài xác định ý định người dùng, từ đưa những vấn đề cần làm rõ giải luận văn Trong Chương 2, luận văn trình bày về hướng giải cho tốn xác định ý định người dùng, sâu trình bày về phương pháp áp dụng để giải toán CHƯƠNG 2: CÁC PHƯƠNG PHÁP PHÁT HIỆN Ý ĐỊNH NGƯỜI DÙNG DỰA TRÊN HỌC MÁY Trong chương này, luận văn trình bày chi tiết về phương pháp áp dụng toán phát ý định người dùng Chương gồm phần: - Trình bày về phương pháp giải tốn phát ý định người dùng có, đưa hướng phát triển thuật toán để cải thiện kết xử lý trường hợp dữ liệu miền chéo miền - Trình bày về phương pháp biểu diễu đặc trưng cho văn áp dụng toán phát ý định người dùng: N-Gram, TF-IDF - Trình bày về phương pháp học máy, xây dựng mơ hình phân lớp dữ liệu cho tốn phát ý định người dùng: Nạve Bayes, Support Vector Machine (SVM) 2.1 Phương pháp giải toán Các bước thực để xây dựng phương pháp giải cho toán xác định ý định người dùng mơ tả hình vẽ đây: Hình 2.1: Phương pháp xây dựng chương trình cho tốn Để giải toán xác định ý định người dùng diễn đàn, ta thực xác định qua giai đoạn sau: Giai đoạn Huấn luyện: thu thập dữ liệu mẫu, thực tiền xử lý (loại bỏ ký tự đặc biệt, ký tự thừa, từ stopwords không ảnh hưởng tới ý nghĩa văn bản) Xây dựng dữ liệu học gán nhãn dữ liệu thực nghiệm chưa gán nhãn Trong đề tài giai đoạn huấn luyện sử dụng thuật toán TF-IDF, N-Gram với n=1,2,3… Giai đoạn Phân loại: sử dụng kết giai đoạn Tiền xử lý làm dữ liệu đầu vào cho thuật tốn trích chọn đặc trưng phân lớp, từ đưa kết luận về nhãn dữ liệu chưa gán nhãn Giai đoạn phân loại đề tài sử dụng thuật tốn SVM thuật tốn Nạve Bayes để tiến hành phân lớp cho dữ liệu Các phần chương trình bày chi tiết về thuật toán lựa chọn áp dụng vào việc xác định ý định văn 2.2 Các phương pháp biểu diễn đặc trưng văn 2.2.1 Phương pháp TF-IDF a Giới thiệu phương pháp Trong phương pháp tiếp cận truyền thống những phương pháp sử dụng nhiều phương pháp tần suất thuật ngữ “term frequency” (TF) hay tần suất thuật ngữ - nghịch đảo tần suất văn “term frequency-inverse document frequency” (viết tắt TF-IDF) sử dụng việc phân loại văn Phương pháp tầm quan trọng từ với văn hàng loạt văn Trong TF-IDF, tầm quan trọng từ với văn lớn sử dụng văn bản, thấp từ xuất nhiều nhiều văn 2.2.2 Phương pháp N-Gram a Giới thiệu phương pháp Mơ hình ngơn ngữ thớng kê cho phép gán (ước lượng) xác suất cho chuỗi m phần tử (thường từ) P(w1w2…wm) tức cho phép dự đoán khả chuỗi từ xuất ngôn ngữ Theo cơng thức Bayes: P(AB) = P(B|A) * P(A) (2.1) Thì ta dễ dàng suy được: P(w1w2…wm) = P(w1) * P(w2|w1) * P(w3|w1w2) *…* P(wm|w1w2…wm-1) (2.2) Theo công thức tốn tính xác suất mỡi ch̃i từ quy về tốn tính xác suất từ với điều kiện biết từ trước (có thể hiểu P(w1)=P(w1|start) xác suất để w1 đứng đầu ch̃i hay nói cách khác người ta đưa thêm ký hiệu đầu dịng start vào mỡi ch̃i) Theo cơng thức Bayes, mơ hình ngơn ngữ cần phải có lượng nhớ vơ lớn để lưu hết xác suất tất chuỗi độ dài nhỏ m Rõ ràng, điều m độ dài văn ngơn ngữ tự nhiên (m tiến tới vơ cùng) Để tính xác suất văn với lượng nhớ chấp nhận được, ta sử dụng xấp xỉ Markov bậc n: P (wm|w1, w2,…, wm-1) = P(wm|wm-n,wn-m+1, …,wm-1) (2.3) 2.3 Các phương pháp học máy xây dựng mơ hình phân lớp liệu 2.3.1 Phương pháp Naïve Bayes a Định lý Bayes Định lý Bayes cho phép tính xác suất xảy sự kiện ngẫu nhiên A biết sự kiện liên quan B Xác suất kí hiệu P(A|B), đọc “xác suất A có B” Theo định lý Bayes, xác suất xảy A biết B phụ thuộc vào yếu tố: - Xác suất xảy A riêng nó, khơng quan tâm đến B Kí hiệu P(A) - Xác suất xảy B riêng nó, khơng quan tâm đến A Kí hiệu P(B) - Xác suất xảy B biết A xảy Kí hiệu P(B|A) Cơng thức Nạve Bayes tính sau 𝑃(𝐴𝑖 |𝐵) = 𝑃(𝐵 |𝐴𝑖 )𝑃(𝐴𝑖 ) ∑𝑛𝑖=1 𝑃(𝐵|𝐴𝑖 )(𝑃(𝐴𝑖 ) (2.4) b Mạng Bayes (Bayesian Network) Mạng Bayes đồ thị biểu diễn phân phới xác suất tập biến Nó thường dùng để mã hóa tri thức chuyên gia ý niệm họ về lĩnh vực Do mạng Bayes cịn gọi mạng ý niệm (Belief Network) mạng nhân (Causal Network) c Phân lớp Naive Bayes Naive Bayes Classifier (NBC) [9] thuật ngữ xử lý số liệu thống kê Bayes với phân lớp xác suất dựa ứng dụng định lý Bayes với giả định độc lập bền vững Một thuật ngữ mô tả chi tiết cho những mơ hình xác suất “mơ hình đặc trưng khơng phụ thuộc” 10 Để giải vấn đề thuật tốn EM q trình xử lý cần tìm cách trích chọn đặc trưng tập dữ liệu chưa gán nhãn Luận văn đề xuất phương pháp thay phương pháp EM: FS-EM (Feature Selection EM) Co-Class (Co-classifiation) 2.4.2 Thuật tốn FS-EM Ở thuật tốn EM, việc trích chọn đặc trưng trích từ tập dữ liệu gán nhãn không thay đổi Tuy nhiên, những đặc trưng phù hợp với tập dữ liệu gán nhãn không hẳn phù hợp với dữ liệu chưa gán nhãn Vì vậy, ta đề xuất thêm bước chọn đặc trưng trình lặp để đánh giá nhãn cần gán, ví dụ sau mỡi vịng lặp, ta chọn lại đặc trưng cho tập dữ liệu Như vậy, sau mỡi vịng lặp ta có tập đặc trưng ứng với dữ liệu chưa gán nhãn Thuật tốn FS-EM trình bày chi tiết sau: Input: Tập dữ liệu gán nhãn DL chưa gán nhãn DU Chọn tập đặc trưng tập dữ liệu gán nhãn DL Dựng phân lớp h từ DL dựa đặc trưng Lặp: for: Với mỗi văn d tập dữ liệu DU c = h(di) // gán nhãn cho d sử dụng phân lớp h end Đặt DP tập dữ liệu gán nhãn DU Chọn tập đặc trưng dựa DP Dựng phân lớp h từ DP dựa tập đặc trưng 10 Dừng vòng lặp nhãn tập dữ liệu DP không thay đổi 11 Trả về phân lớp h lần lặp cuối Điểm yếu thuật toán FS-EM việc xây dựng phân lớp dữ liệu h vòng lặp sử dụng dựa dữ liệu chưa gán nhãn, mà không sử dụng đến dữ liệu gán nhãn ban đầu Trong dữ liệu gán nhãn lại chứa hơng tin có ích xác cho việc phân lớp Vì vậy, ta đề xuất thêm thuật toán Co-Class để giải vấn đề 11 2.4.3 Thuật toán Co-Class Thuật toán Co-Class thuật toán kết hợp giữa dữ liệu gán nhãn dữ liệu chưa gán nhãn chạy qua phân lớp h (DP) Co-Class giúp giải điểm yếu thuật toán FS-EM tận dụng phân lớp xây dựng từ dữ liệu gán nhãn điểm mạnh Co-Training sử dụng lúc phân lớp từ với dữ liệu khác Nhưng thay việc xây dựng phân lớp dựa đặc trưng thuật toán CoTraining thực tập dữ liệu khác nhau, để tạo phân lớp khác Thì Co-Class sử dụng đặc trưng để xây dựng phân lớp Chi tiết thuật tốn Co-Class trình bày sau: Input: Tập dữ liệu gán nhãn DL chưa gán nhãn DU Chọn tập đặc trưng tập dữ liệu gán nhãn DL Dựng phân lớp h từ DL dựa đặc trưng for: Với mỗi văn d tập dữ liệu DU c = h(di) // gán nhãn cho d sử dụng phân lớp h end Đặt DP tập dữ liệu gán nhãn DU Lặp: Chọn đặc trưng từ tập dữ liệu DP Dựng phân lớp hL sử dụng đặc trưng tập dữ liệu DL 10 Dựng phân lớp hP sử dụng đặc trưng tập dữ liệu DP 11 for: Với mỗi văn d tập dữ liệu DU 12 c = (hL(di), hP(di)); // kết hợp phân lớp hL, hP 13 end 14 Đặt DP tập dữ liệu gán nhãn DU 15 Dừng vòng lặp nhãn tập dữ liệu DP không thay đổi 16 Trả về phân lớp h lần lặp cuối Ở bước 11-13, kết phân lớp dữ liệu chưa gán nhãn thay bằng kết kết hợp giữa phân lớp Việc kết hợp theo quy tắc sau: (hL (di), hP (di)) = { + − ℎ𝐿 ( 𝑑 𝑖 ) = ℎ𝑃 ( 𝑑 𝑖 ) = + 𝑇𝑟ườ𝑛𝑔 ℎợ𝑝 𝑐ị𝑛 𝑙ạ𝑖 12 2.5 Kết chương Chương trình bày về trình tìm hiểu áp dụng thuật tốn TF-IDF, N-Grams để trích xuất đặc trưng thuật tốn Nạve Bayes, SVM để phân lớp dữ liệu Để phân tích quan điểm người dùng, luận văn đề xuất áp dụng thuật toán FSEM, Co-Class để cải thiện kết xây dựng thực nghiệm Chương tiến hành thử nghiệm ứng dụng xây dựng kịch khác nhau, sau đánh giá độ xác ứng dụng dựa kết thu 13 CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ Sau trình bày chi tiết thuật toán áp dụng cho toán xác định ý định chương 2, chương luận văn xây dựng thực nghiệm ứng với kịch thực nghiệm khác nhau, sau tiến hành đánh giá độ xác dựa kết thu đưa kết luận 3.1 Dữ liệu thực nghiệm Dữ liệu thực nghiệm thu thập từ forums khác tương ứng với miền dữ liệu khác nhau: Bảng 3.1: Danh sách trang web thu thập liệu Forums Chủ đề http://www.howardforums.com/ Điện thoại http://www.avsforum.com/avs-vb Điện tử http://forum.digitalcamerareview.com/ Camera http://www.avforum.com/forums/tvs TV Với mỗi forums ta thu thập gán nhãn bằng tay gần 1000 viết với độ dài mỗi viết giới hạn không nhỏ 50 từ Ta quy định viết có chiều hướng có hứng thú ḿn mua sản phẩm viết có chứa ý định gán nhãn 1, lại gán nhãn Dữ liệu sau thu thập thống kê lại bảng đây: Bảng 3.2: Danh sách tập liệu thu nhãn liệu Tập liệu Khơng có ý định Có ý định Tổng số đăng Điện thoại 811 184 995 Điện tử 711 278 989 TV 717 280 997 Camera 811 184 995 14 3.2 Thiết lập thực nghiệm Ở mục này, luận văn trình bày kịch thực nghiệm cho trường hợp xác định ý định người dùng Mỗi kịch bao gồm dữ liệu đầu vào dữ liệu gán nhãn dữ liệu cần phân lớp tập dữ liệu chưa gán nhãn Ta cần thực nghiệm thuật toán EM, FS-EM so sánh với kết thuật toán Co-Class để so sánh hiệu từng thuật toán áp dụng để xác định ý định người dùng Quá trình thực nghiệm thuật tốn gồm phần chính: - Trích chọn đặc trưng: Sử dụng thuật tốn TF-IDF, N-Grams với n lần lượt chọn giá trị 1,2,3 - Xây dựng phân lớp dữ liệu: Sử dụng thuật tốn Nạve Bayes SVM (trong thuật tốn SVM sử dụng hàm Kernel tuyến tính (Joachims, 1998; Yang and Liu, 1999)) 3.3 Công cụ thực nghiệm Môi trường thực nghiệm: - Phần cứng (Thiết bị thực nghiệm): Macbook Air 2013, CPU Intel Core i5 1.3Ghz, 4GB RAM - Phần mềm: Weka 3.8 Cơng cụ tích hợp hỡ trợ thuật toán học máy Khi xây dựng thực nghiệm, ta sử dụng kết hợp thuật tốn trích chọn đặc trưng TFIDF, N-Grams (n=1,2,3) với thuật toán phân lớp dữ liệu Naïve Bayes, SVM lấy tham số Precision, Recall F-Measure Từ kết thu sau thực nghiệm, ta kết luận mơ hình gán nhãn cho dữ liệu phù hợp cho đề tài xác định ý định văn 3.3.1 Thực nghiệm miền liệu Ta đưa kịch thực nghiệm miền dữ liệu, dữ liệu gán nhãn dữ liệu chưa gán nhãn lấy forum thảo luận về chủ đề Với lần lượt từng chủ đề, gần 1000 mẫu dữ liệu, ta chia dữ liệu thành 10 phần ngẫu nhiên, với tỉ lệ nhãn tương đương nhau, ta lấy ngẫu nhiên phần dữ liệu để làm dữ liệu chưa gán nhãn để kiểm tra, phần lại để làm dữ liệu học 15 Như ta cần thực thực nghiệm 10 lần với từng chủ đề chủ đề ta có 40 dữ liệu cần thực nghiệm Việc thực nghiệm thực lần lượt với thuật tốn trích chọn đặc trưng phân lớp nêu trước đó, sau chạy thực nghiệm xong tính giá trị trung bình tham sớ Precission, Recall, Fscore để đưa nhận xét thuật toán phù hợp với toán xác định ý định người dùng cho dữ liệu miền 3.3.2 Thực nghiệm miền liệu Ta đưa kịch thực nghiệm miền dữ liệu, dữ liệu gán nhãn dữ liệu chưa gán nhãn lấy forum khác thảo luận về chủ đề khác a Kịch Áp dụng theo phương pháp 3TR-1TE: sử dụng dữ liệu lấy forum gán nhãn tương ứng với miền dữ liệu làm dữ liệu học dữ liệu miền lại làm dữ liệu kiểm tra Việc thực nghiệm thực lần lượt với thuật tốn trích chọn đặc trưng phân lớp nêu phần trên, sau chạy thực nghiệm xong tính giá trị trung bình tham sớ Precission, Recall, Fscore đưa đánh giá kết thực nghiệm b Kịch Sử dụng dữ liệu gán nhãn miền dữ liệu lấy forum thảo luận về chủ đề làm dữ liệu học dữ liệu forum khác thảo luận về chủ đề khác làm dữ liệu kiểm tra Việc thực nghiệm thực lần lượt với thuật tốn trích chọn đặc trưng phân lớp nêu phần trên, sau chạy thực nghiệm xong tính giá trị trung bình tham số Precission, Recall, Fscore đưa đánh giá kết thực nghiệm 3.4 Kết thực nghiệm 3.4.1 Thực nghiệm miền liệu Sau thực thực nghiệm miền dữ liệu ta thu kết gán nhãn xác thớng kê lại bảng đây: 16 Bảng 3.3: Độ xác trung bình thực nghiệm liệu miền NAÏVE BAYES SVM Chủ đề Điện thoại Điện tử TV Camera TFIDF N1Gram N2Gram N3Gram TFIDF N1Gram N2Gram N3Gram 67.8 68.7 72.1 69.9 70.1 63.7 65.5 66.4 64.3 66.5 68.1 68.5 68.8 66.5 63.5 66.6 69.1 66.7 68.3 66.4 67.3 67.8 65.6 69.6 67.8 68.5 70.3 70.2 69.6 65.9 69.9 65.4 Khi thực nghiệm với miền dữ liệu, với kết thu bảng, ta nhận thấy: - Độ xác áp dụng thuật tốn gán nhãn dữ liệu rơi vào khoảng 6372%, mức tương đới xác đới với miền dữ liệu - Trong với chủ đề “Điện tử” thuật tốn có độ xác trung bình thấp nhất, chủ đề “TV” có độ xác cao - Dựa vào bảng dữ liệu thu được, ta nhận thấy sử dụng thuật toán SVM để phân lớp dữ liệu đưa kết xác so với thuật toán phân lớp đó, thuật tốn trích chọn đặc trưng N2-Gram kết hợp với thuật tốn Nạve Bayes đưa lại kết xác cao 3.4.2 Thực nghiệm miền liệu a Kịch Sau thực thực nghiệm miền dữ liệu với kịch 1, lấy dữ liệu miền làm dữ liệu học dữ liệu miền lại làm dữ liệu chưa gán nhãn ta thu kết thống kê lại bảng đây: Bảng 3.4: Độ xác thực nghiệm liệu khác miền kịch NAÏVE BAYES Chủ đề SVM TFIDF N1Gram N2Gram N3Gram TFIDF N1Gram N2Gram N3Gram Điện thoại 64.32 69.95 71.94 68.33 65.36 72.24 71.51 72.54 Điện tử 64.23 65.24 64.68 65.82 67.17 66.32 66.52 69.02 TV 66.04 68.83 70.75 70.75 65.98 67.74 65.23 74.73 Camera 68.66 69.48 67.52 67.74 70.49 70.59 68.90 75.73 17 Khi thực nghiệm với miền dữ liệu với kịch nêu phần trước, với kết thu bảng, ta nhận thấy: - Độ xác áp dụng thuật toán gán nhãn dữ liệu rơi vào khoảng 6176%, mức tương đới xác - Trong đó, thực nghiệm dữ liệu học từ chủ đề “Điện thoại”, “TV”, “Camera” để áp dụng cho dữ liệu kiểm tra chủ đề “Điện tử” đem lại kết xác thấp Kết thực nghiệm với thuật tốn phân lớp SVM đưa độ xác trung - bình cao so với thuật tốn Nạve Bayes, áp dụng thuật tốn trích chọn đặc trưng N3-Gram kết hợp với thuật toán phân lớp SVM có kết xác cao b Kịch Sau thực thực nghiệm miền dữ liệu với kịch 2, lấy dữ liệu miền làm dữ liệu học dữ liệu miền lại làm dữ liệu chưa gán nhãn ta thu kết thống kê lại bảng đây: Bảng 3.5: Độ xác thực nghiệm chủ đề “Điện thoại”, “Điện tử” Dữ liệu kiểm thử Dữ liệu học NAÏVE BAYES SVM ĐIỆN THOẠI ĐIỆN TỬ Điện tử Camera TV Điện thoại Camera TV TFIDF 67.36 71.63 70.06 63.84 64.36 61.65 N1Gram 65.27 70.54 65.86 62.64 64.07 62.67 N2Gram 70.43 69.14 67.59 63.86 62.98 64.38 N3Gram 66.94 69.22 68.83 62.57 63.70 64.19 TFIDF 71.41 71.26 66.15 62.48 63.76 61.72 N1Gram 70.73 66.18 69.48 64.74 62.43 64.99 N2Gram 69.68 66.99 65.69 64.52 64.95 62.40 N3Gram 72.39 73.02 68.30 64.19 64.27 65.20 18 Bảng 3.6: Độ xác thực nghiệm chủ đề “Camera”, “TV” Dữ liệu kiểm thử CAMERA TV Dữ liệu học Điện tử Điện thoại TV Điện thoại Camera Điện tử TFIDF 71.65 69.34 67.02 69.54 68.03 70.35 N1Gram 71.95 66.96 70.15 70.05 70.24 66.28 N2Gram 71.58 71.74 65.87 71.96 70.45 69.32 N3Gram 70.61 67.03 71.88 65.47 68.16 66.03 TFIDF 68.83 69.18 71.99 65.31 68.97 67.27 N1Gram 66.19 68.21 69.02 65.66 70.28 65.44 N2Gram 66.82 71.98 66.04 69.08 66.42 68.86 N3Gram 70.14 67.24 71.35 70.99 69.83 72.43 NAÏVE BAYES SVM Khi thực nghiệm với miền dữ liệu với kịch nêu phần trước, với kết thu bảng, ta nhận thấy: - Độ xác áp dụng thuật toán gán nhãn dữ liệu rơi vào khoảng 5971%, mức xác - Trong áp dụng lần lượt từng chủ đề chủ đề “Điện thoại”, “TV”, “Camera” làm dữ liệu học, sử dụng dữ liệu chủ đề “Điện tử” làm dữ liệu kiểm thử, độ xác áp dụng với chủ đề “Điện tử” đem lại kết xác thấp - Thuật tốn phân lớp dữ liệu SVM đem lại độ xác gán nhãn cao so với thuật tốn Nạve Bayes áp dụng với kịch dữ liệu chéo miền - Khi áp dụng thực nghiệm miền dữ liệu khác nhau, với thuật tốn trích chọn đặc trưng thuật toán N3-Gram kết hợp với thuật toán phân lớp văn SVM đưa lại kết gán nhãn cao 3.4.3 So sánh kết thực nghiệm Co-Class với thuật toán khác Thực nghiệm liệu miền Khi thực nghiệm so sánh kịch phân loại với lần lượt thuật toán EM, FS-EM Co-Class ta thu đồ thị phân loại đây: 19 So sánh thuật toán trường hợp liệu miền 71.0 70.0 69.7 69.0 68.9 68.0 67.8 67.0 67.3 66.5 66.0 67.6 66.9 68.7 68.9 66.4 67.4 66.6 67.9 65.0 64.0 64.2 64.3 69.3 67.1 67.0 66.0 65.5 66.1 65.8 64.5 64.8 63.0 EM FS-EM Co-Class 62.0 61.0 Hình 3.1: So sánh độ xác thực nghiệm miền thuật toán Ta nhận thấy, thực nghiệm miền dữ liệu, kết xác định ý định văn không chênh lệch nhiều áp dụng thuật toán EM, FS-EM, Co-Class, thuật tốn Co-Class chưa hẳn vượt trội về độ xác so với thuật tốn trước Ngay sớ trường hợp thực nghiệm áp dụng thuật tốn FS-EM đưa kết xác so với Co-Class Thực nghiệm liệu chéo miền Tiếp theo, ta thực nghiệm với dữ liệu trái miền, lần lượt với kịch bản, ta thu kết dồ thị 20 So sánh thuật toán trường hợp liệu chéo miền kịch 80.0 70.0 66.1 60.0 62.8 50.0 46.5 40.0 30.0 20.0 10.0 0.0 66.1 64.9 48.2 70.7 62.2 66.4 65.2 67.4 64.8 66.8 65.1 68.5 63.6 72.6 66.0 42.4 44.4 42.5 44.4 44.6 44.0 EM FS-EM Co-Class Hình 3.2: So sánh độ xác thực nghiệm chéo miền thuật tốn So sánh thuật toán trường hợp liệu chéo miền kịch 80.0 70.0 67.9 59.4 60.0 50.0 41.6 67.2 68.2 56.3 49.2 57.1 45.1 67.0 63.0 67.3 64.1 48.2 48.2 66.9 65.4 66.9 69.6 67.7 55.6 45.7 45.7 44.9 40.0 30.0 EM 20.0 FS-EM 10.0 0.0 Co-Class Hình 3.3: So sánh độ xác thực nghiệm chéo miền thuật toán Nhận thấy, thực nghiệm miền dữ liệu khác nhau, kết xác định ý định văn cho thấy sự chênh lệch rõ ràng áp dụng thuật toán EM, FS-EM, Co-Class Thuật toán Co-Class thể điểm mạnh áp dụng trường hợp dữ liệu chéo miền Trong - Thuật tốn EM thể khả phân loại yếu thuật tốn Độ xác thuật tốn thấp, khoảng 39-54% 21 - Thuật tốn FS-EM có độ xác mức tương đới xác 53-66% - Và Thuật toán Co-Class đưa lại kết gán nhãn hiệu thực nghiệm xác định ý định văn bản, trường hợp áp dụng kết hợp thuật toán trích chọn đặc trưng N3-Gram thuật tốn phân lớp SVM, thuật toán CoClass đưa kết phân loại xác đến 71% 3.5 Nhận xét thực nghiệm kết luận Khi áp dụng thuật toán Co-Class vào toán xác định ý định người dùng, ta nhận thấy: - Khi áp dụng gán nhãn chủ đề định, thuật tốn phân lớp Nạve Bayes đem lại kết cao so với thuật toán SVM Có thể nói, thuật tốn Nạve Bayes phù hợp với toán phân loại dữ liệu miền so với thuật toán SVM Và ngược lại, thuật toán SVM đem lại kết cao áp dụng thử nghiệm với trường hợp dữ liệu chéo miền - Thuật tốn SVM đưa kết xác với văn ngắn 50-70 từ, xác định với văn dài lớn 150 từ bị ảnh hưởng dữ liệu nhiễu dẫn đến thuật toán SVM xác định thiếu xác - Khi thực nghiệm xác định tập dữ liệu, với thuật toán EM, cho kết xác định ý định xác so với thuật tốn cịn lại thuật toán FS-EM thuật toán Co-Class - Khi thực nghiệm miền dữ liệu khác nhau, thuật toán EM đưa kết xác thấp, thuật tốn FS-EM đưa kết xác so với Co-Class Việc để xác định ý định người dùng ta chưa thể thu thập dữ liệu tập học riêng chủ đề vấn đề hay xảy ra, thuật toán Co-Class thể ưu điểm tình h́ng dữ liệu để học máy không thuộc chủ đề định hay áp dụng dữ liệu học máy chủ đề khác, không liên quan với chủ đề kiểm tra - Kết thực nghiệm Co-Class với dữ liệu trái miền đem lại kết cao xấp xỉ bằng với kết xác định ý định văn dữ liệu miền Như vậy, từ kết thực nghiệm thu cho thấy Co-Class giúp cho việc xác định ý định văn đạt độ xác cao khơng gặp khó khăn lớn áp dụng chủ đề việc chưa có dữ liệu học máy chủ đề khơng cịn trở ngại lớn xác định ý định người dùng 22 KẾT LUẬN VÀ KIẾN NGHỊ Luận văn tập trung nghiên cứu phát xác ý định người viết diễn đàn thảo luận Trong luận văn tập trung nghiên cứu sâu phương pháp biểu diễn đặc trưng văn (N-grams, TF-IDF), phương pháp học máy để xây dựng mơ hình phân lớp dữ liệu (Nạve Bayes, SVM) đưa tốn phát ý định người dùng áp dụng miền dữ liệu miền chéo miền Cụ thể, luận văn đạt số kết sau: - Nghiên cứu mơ hình biểu diễn đặc trưng văn bản, mơ hình phân lớp dữ liệu áp dụng toán xác định ý định người viết - Đề xuất số cải tiến nhằm nâng cao độ xác việc phát ý định người dùng thơng qua viết - Áp dụng thuật tốn nâng cao độ xác, thực nghiệm đánh giá kết Trong tương lai, Luận văn phát triển theo hướng: - Nghiên cứu phương pháp nâng cao độ xác cải thiện tớc độ xử lý đối với việc phát văn chứa ý định người dùng - Nghiên cứu phương pháp thu thập dữ liệu tự động, từ kết hợp với hệ thống tư vấn, quảng cáo để đưa quảng cáo phù hợp, với lượng người quan tâm cao 23 PHỤ LỤC Xây dựng ứng dụng Ứng dụng hỗ trợ người dùng xây dựng bằng ngơn ngữ Java sử dụng mơi trường máy tính, u cầu cấu hình máy tính cài đặt mơi trường: Java JDK Chức ứng dụng bao gồm: - Dựa vào văn người dùng đưa ra, ứng dụng xử lý đưa ý định văn có ḿn mua sản phẩm hay khơng - Ứng dụng xử lý dữ liệu đưa chủ đề sản phẩm mà người dùng muốn mua ḿn tìm hiểu thêm Từ tích hợp với hệ thống quảng cáo để đưa quảng cáo phù hợp với văn Giao diện ứng dụng sau: Hình 2: Mơ tả ứng dụng 24 TÀI LIỆU THAM KHẢO [1] Ngo Xuan Bach, Tu Minh Phuong, “Leveraging User Ratings for Resource-Poor Sentiment Classification”, In Proceedings of the 19th International Conference on Knowledge-Based and Intelligent Information & Engineering Systems (KES), Procedia Computer Science, pp 322–331, 2015 [2] Nguyen Thi Duyen, Ngo Xuan Bach, Tu Minh Phuong, “An Empirical Study on Sentiment Analysis for Vietnamese” In Proceedings of the International Conference on Advanced Technologies for Communications (ATC), Special session on Computational Science and Computational Intelligence (CSCI), pp 309-314, 2014 [3] Zhiyuan Chen, Bing Liu, Meichun Hsu, Malu Castellanos, and Riddhiman Ghosh, “Identifying Intention Posts in Discussion Forums”, 2013 [4] Honghua (Kathy) Dai, Lingzhi Zhao, Zaiqing Nie, Ji-Rong Wen, Lee Wang, Ying Li, “Detecting online commercial intention (OCI)”, 2006 [5] Steve R Gunn, “Support Vector Machines for Classification and Regression”, 1998 [6] R A S C Jayasanka, M D T Madhushani, E R Marcus, I A A U Aberathne, S C Premaratne “Sentiment Analysis for Social Media”, 2014 [7] Hiroshi Kanayama, Tetsuya Nasukawa , “Textual demand analysis: detection of users' wants and needs from opinions”, 2008 [8] Fariba Sadri, Weikun Wang, Afroditi Xafi, “Intention Recognition with Clustering”, 2012 [9] P Hiroshi Shimodaira, “Text Classification using Naive Bayes”, 2015 ... văn là: - Bài toán phân lớp dữ liệu - Bài toán định, xác định quan điểm văn 1.3 Bài toán phát ý định người dùng diễn đàn Ý tưởng luận văn sâu vào giải toán xác định ý định người dùng, giả... pháp xác định ý định người dùng diễn đàn Phương pháp áp dụng xác định ý định người dùng làm rõ những vấn đề sau: - Xác định những viết có chứa ý định viết khơng có ý định - Việc xử lý... NGHỊ Luận văn tập trung nghiên cứu phát xác ý định người viết diễn đàn thảo luận Trong luận văn tập trung nghiên cứu sâu phương pháp biểu diễn đặc trưng văn (N-grams, TF-IDF), phương pháp học máy