Tóm tắt Luận văn Thạc sĩ: Phát hiện ý định người dùng trong hệ thống hỏi đáp sử dụng mạng nơron

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	22
Dung lượng	1,41 MB

Nội dung

Mục đích nghiên cứu của Luận văn này nhằm nghiên cứu và đưa ra một giải pháp sử dụng học máy để phát hiện ý định người dùng trong hệ thống hỏi đáp. Từ đó các hệ thống hỏi đáp sẽ tiết kiệm được thời gian, giải quyết được các câu hỏi nhanh chóng và đúng vấn đề mà các học sinh THPT hay Đại học đang có nhu cầu muốn hỏi. Mời các bạn cùng tham khảo!

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - Nguyễn Tiến Đạt PHÁT HIỆN Ý ĐỊNH NGƯỜI DÙNG TRONG HỆ THỐNG HỎI ĐÁP SỬ DỤNG MẠNG NƠRON Chuyên ngành: Hệ thống thơng tin Mã số: 8.48.01.04 TĨM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - NĂM 2019 Luận văn hoàn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: TS Ngô Xuân Bách Phản biện 1: ……………………………………………………………………… Phản biện 2: ……………………………………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thơng Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Công nghệ Bưu Viễn thơng MỞ ĐẦU Nghiên cứu hệ thống hỏi đáp tự động (Q&A) quan tâm từ lâu giới Ngay từ năm 1960, hệ thống hỏi đáp sử dụng sở liệu đời Với mục đích hệ thống xây dựng để thực việc tìm kiếm tự động câu trả lời từ tập lớn tài liệu cho câu hỏi đầu vào cách xác Hiện nay, số lượng hệ thống hỏi đáp ngày tăng, số lượng câu hỏi gửi hệ thống nhiều việc phát ý định câu hỏi người dùng bước để lựa chọn câu trả lời với mong muốn người dùng quan tâm Ở trường Đại học, hệ thống hỏi đáp áp dụng phổ biến bước phát triển, điều giúp học sinh THPT muốn tiếp cận, tìm hiểu thơng tin thân sinh viên trường muốn biết rõ khóa học, lợi ích mà trường Đại học có cách thuận tiện, nhanh chóng Tuy nhiên, để giải số lượng câu hỏi lớn thời gian việc xây dựng đề xuất giải pháp phát thông tin người dùng muốn hỏi hệ thống hỏi đáp tiền đề để xác định tìm kiếm câu trả lời phù hợp với ý định người dùng Vì lý nên tơi định lựa chọn đề tài “Phát ý định người dùng hệ thống hỏi đáp sử dụng mạng nơron” để nghiên cứu đưa giải pháp sử dụng học máy để phát ý định người dùng hệ thống hỏi đáp Từ hệ thống hỏi đáp tiết kiệm thời gian, giải câu hỏi nhanh chóng vấn đề mà học sinh THPT hay Đại học có nhu cầu muốn hỏi Cùng với đó, nghiên cứu khóa luận coi tiền đề cho nghiên cứu để đưa câu trả lời phân loại câu hỏi theo ý định người dùng cho hệ thống hỏi đáp ngày hoàn thiện Luận văn tổ chức gồm ba chương gồm: Chương 1: Giới thiệu tổng quan toán xử lý ngơn ngữ tự nhiên Tìm hiểu tốn phân loại văn giới thiệu toán phát ý định người dùng hệ thống hỏi đáp Chương 2: Trình bày phương pháp giải tốn phương pháp biểu diễn đặc trưng cho văn phương pháp học máy mà đề tài lựa chọn: sử dụng mạng nơron so sánh với Support Vector Machine (SVM) Chương 3: Trình bày kịch thực nghiệm cho trường hợp xác định ý định người dùng liệu thực nghiệm thu thập từ: Kênh thông tin trực tuyến, Khoa Quốc tế, Đại học quốc gia Hà Nội CHƯƠNG 1: TỔNG QUAN BÀI TOÁN PHÁT HIỆN Ý ĐỊNH NGƯỜI DÙNG 1.1 Xử lý ngôn ngữ tự nhiên Xử lý ngôn ngữ tự nhiên (natural language processing - NLP) nhánh trí tuệ nhân tạo tập trung vào ứng dụng ngơn ngữ người Trong trí tuệ nhân tạo xử lý ngơn ngữ tự nhiên phần khó liên quan đến việc phải hiểu ý nghĩa ngôn ngữ - công cụ hoàn hảo tư giao tiếp Xử lý ngôn ngữ tự nhiên lĩnh vực nghiên cứu từ nhiều năm đạt nhiều bước tiến quan trọng năm gần với ứng dụng toán thực tế như:  Nhận dạng chữ viết (bao gồm chữ in chữ viết tay),  Nhận dạng tiếng nói,  Dịch tự động,  Tìm kiếm thơng tin,  Tóm tắt văn bản,  Khai phá liệu,  Phát tri thức, v.v 1.2 Bài toán phát ý định người dùng hệ thống hỏi đáp 1.2.1 Phân loại văn Phân loại văn trình phân lớp đối tượng liệu vào hay nhiều lớp cho trước nhờ mơ hình phân lớp mà mơ hình xây dựng dựa tập hợp đối tượng liệu gán nhãn từ trước gọi tập liệu học (tập huấn luyện) Q trình phân lớp cịn gọi trình gán nhãn cho đối tượng liệu Các toán phân loại văn thường thấy là:  Phân cụm văn bản,  Tóm tắt văn bản,  Xác định quan điểm,  Phát ý định,  Phân tích cảm xúc, hành vi người dùng, v.v Trong nội dung luận văn tập trung vào toán phát ý định người dùng hệ thống hỏi đáp trường Đại học 3 1.2.2 Phát biểu toán Bài toán xây dựng hệ thống hỏi đáp tốn khó thuộc lĩnh vực xử lý ngôn ngữ tự nhiên Ngôn ngữ tự nhiên vốn nhập nhằng, đa nghĩa, việc xác định ngữ nghĩa câu hỏi phát câu trả lời thách thức không nhỏ Không vậy, câu hỏi mang theo thói quen, phong cách gõ chữ cá nhân người hỏi “em muốn hỏi mã dăng ký cảu htttt ạ” (Em muốn hỏi mã đăng ký HTTT ạ?), “Mã ngahf kh quản lí ak” (Mã ngành quản lí ạ?) Ngồi ra, “Ý định người dùng cịn trạng thái rõ ràng – explicitly tiềm ẩn/không rõ ràng – implicitly, trực tiếp gián tiếp Ý định rõ ràng tuyên bố rõ ràng trực tiếp người dùng người có kế hoạch làm” [9] Ý tưởng luận văn sâu vào giải toán xác định ý định người dùng (học sinh, sinh viên) với: - Đầu vào: Một câu hỏi người dùng(học sinh, sinh viên) - Đầu ra: Ý định người dùng(thông tin mà học sinh, sinh viên muốn hỏi) Hình 1.1 Bài tốn phát ý định người dùng Chẳng hạn ví dụ hình 1.1, với đầu vào câu hỏi hệ thống hỏi đáp “Chương trình học bổng ạ?” hệ thống đưa ý định người dùng muốn hỏi học bổng, hay với câu hỏi “Khoa tuyển sinh theo hình thức ạ?” hệ thống phát ý định người dùng muốn hỏi vấn đề tuyển sinh 1.2.3 Ý nghĩa toán Ý định khái niệm quan trọng, coi chìa khóa để xây dựng hệ thống hỏi đáp Luận văn mong muốn đưa ý định người dùng dựa ý định cho trước làm tiền đề cho hệ thống gợi ý, giới thiệu,… vấn đề mà người dùng quan tâm Ví dụ: người dùng đặt câu hỏi “Ngành quản lí hội nghề nghiệp ntn ạ?”; hệ thống đưa ý định người dùng là: hội nghề nghiệp; từ làm tiền đề cho hệ thống gợi ý, giới thiệu, đưa lời mời hội việc làm liên quan đến thông tin nghề nghiệp người dùng muốn hỏi 1.3 Các nghiên cứu liên quan Trong năm gần đây, có nhiều đề tài phát ý định người dùng với phương pháp khác áp dụng ví dụ đề tài “Identifying Intention Posts in Discussion Forums”[18] xác định ý định người dùng dựa viết đăng diễn đàn thảo luận Zhiyuan Chen, Bing Liu cộng nghiên cứu vấn đề khơng lạ mà cịn có giá trị lớn, cụ thể xác định viết thảo luận bày tỏ ý định người dùng diễn đàn thảo luận trực tuyến Cơng trình tập trung vào việc xác định đăng (post) người dùng với ý định rõ ràng “Rõ ràng” nghĩa ý định nêu rõ ràng văn bản, không cần phải suy luận Tác giả thực giải vấn đề đặt giải toán phân loại lớp lớp tích cực (bài viết chứa ý định) lớp tiêu cực (bài viết khơng có ý định) Ngoài ra, tác giả Ahmed Husseini Orabi cộng thực đề tài thiết thực có ý nghĩa việc sử dụng học sâu để phát trầm cảm người dùng Twitter: “Deep Learning for Depression Detection of Twitter Users” [6] Công trình trình bày việc xử lý ngơn ngữ tự nhiên mạng xã hội twitter, thực đánh giá so sánh số mơ hình học sâu, cụ thể mơ hình CNN mơ hình RNN đưa kết vấn đề rối loạn tâm thần làm tiền đề cho hệ thống phát hành vi, cảm xúc tiêu cực người dùng cá nhân mạng xã hội Không có vậy, đề tài “Supervised Clustering of Questions into Intents for Dialog System Applications” [12], Iryna Haponchyk cộng đề cập đến việc phân cụm câu hỏi hệ thống hỏi đáp thành ý định khác Cụ thể, cơng trình tập trung vào ý định người dùng hệ thống hỏi đáp thông dụng phân cụm như: thời tiết, giảm cân, địa điểm,… Cơng trình phần chứng minh “ý định” chìa khóa quan trọng để xây dựng hệ thống hỏi đáp thông minh, xác định nhanh mục đích ngữ cảnh Trong cơng trình này, nhóm tác giả đề xuất mơ hình để tự động phân cụm câu hỏi thành mục đích người dùng với độ xác phân cụm cao (khoảng 80%), giúp thiết kế hệ thống hỏi đáp sau Bên cạnh đó, với sức hút phát triển nhanh chóng lĩnh vực xử lý ngơn ngữ tự nhiên năm gần đây, có nhiều cơng trình nghiên cứu tác giả [7], [8], [13], [14], [15] liên quan đến việc khai phá quan điểm, phân tích ý định từ nhiều nguồn liệu với phương pháp khác sử dụng phương pháp SVM, sử dụng mơ hình mạng nơron hồi quy, mơ hình mạng nơron tích chập,… với kết khả quan hứa hẹn phát triển bùng nổ năm tới Qua việc nghiên cứu, khảo sát đề tài liên quan đến vấn đề phát ý định người dùng hệ thống hỏi đáp trường Đại học cịn hạn chế chưa có nhiều Bên cạnh đó, luận văn nhận thấy nhu cầu xử lý phát ý định người dùng hệ thống hỏi đáp dành cho học sinh, sinh viên kỳ tuyển dụng trường Đại học ngày lớn nên việc học hỏi, tiếp thu đề tài phát ý định người dùng để áp dụng với hệ thống hỏi đáp trường Đại học cần thiết Luận văn tham khảo, tìm hiểu giới thiệu phương pháp phổ biến, sau áp dụng đưa kết đánh đề xuất giải pháp để xây dựng phát triển hệ thống hỏi đáp cho trường Đại học Những đóng góp ban đầu luận văn như: xử lý tiền liệu, phân lớp liệu phương pháp khác làm sở ban đầu việc đánh giá lựa chọn phương pháp, mô hình học máy cho phù hợp với hệ thống hỏi đáp trường Đại học, làm tiền đề cho ứng dụng tự động, phân tích sử dụng liệu từ hệ thống hỏi đáp sau 1.4 Kết luận chương Chương giới thiệu tổng quan tốn xử lý ngơn ngữ tự nhiên Tìm hiểu toán phân loại văn giới thiệu toán phát ý định người dùng hệ thống hỏi đáp dành cho học sinh, sinh viên trường Đại học, từ đưa vấn đề cần làm rõ giải luận văn Trong chương 2, luận văn trình bày hướng giải cho toán phát ý định người dùng, sâu trình bày phương pháp áp dụng để giải toán 6 CHƯƠNG 2: PHƯƠNG PHÁP PHÁT HIỆN Ý ĐỊNH NGƯỜI DÙNG SỬ DỤNG HỌC MÁY 2.1 Phương pháp giải toán Để giải toán phát ý định người dùng hệ thống hỏi đáp trường Đại học, từ câu hỏi tổng hợp từ hệ thống hỏi đáp ví dụ như: “các chủ đề NCKH năm ạ?”, “thủ tục đăng kí NCKH ?”; ta phân lớp đưa nhóm “Nghiên cứu khoa học” Luận văn tham khảo tìm hiểu sau đưa bước thực để xây dựng phương pháp giải cho toán xác định ý định người dùng chia làm giai đoạn: huấn luyện kiểm thử Hai giai đoạn mơ tả hình 2.1 2.2 đây: Hình 2.1 Giai đoạn huấn luyện mơ hình Hình 2.2 Giai đoạn kiểm thử mơ hình Áp dụng phương pháp chia làm giai đoạn trình bày trên, toán phát ý định người dùng hệ thống hỏi đáp, luận văn thực bước sau: Chia liệu thành phần: liệu học liệu kiểm thử Tiền xử lý liệu đầu vào: Loại bỏ ký tự đặc biệt, tiền tố dư thừa, từ stopwords Vector hóa từ cho tập liệu Áp dụng mơ hình học máy để giải tốn, bao gồm mơ hình mạng nơron so sánh với phương pháp SVM Đưa mô hình huấn luyện kết kiểm thử Tại bước 1, luận văn áp dụng phương pháp K-fold cross validation chia liệu thành phần Cụ thể phương pháp K-fold cross validation luận văn trình bày mục 3.2 thiết lập thực nghiệm Trong bước 2, tiền xử lý liệu, chẳng hạn với liệu đầu vào mẫu trên, ta phải loại bỏ tiền tố dư thừa việc đánh số thứ tự “1767.”, “1768.” khoảng trắng với stopwords: “ạ”, “gì”, “thì”, … Các phần chương trình bày chi tiết phương pháp, mơ hình đưa đề xuất lựa chọn áp dụng vào việc phát ý định người dùng hệ thống hỏi đáp 2.2 Các phương pháp biểu diễn đặc trưng văn 2.2.1 Phương pháp N-Gram 2.2.2 Phương pháp TF-IDF 2.2.3 Phương pháp Word Vectors 2.3 Các phương pháp học máy xây dựng mơ hình phân lớp 2.3.1 Phương pháp SVM 2.3.2 Kiến trúc mạng nơron tích chập (CNN) Mạng nơron tích chập [19] mạng truyền thẳng đặc biệt Mạng nơron tích chập mơ hình học sâu phổ biến tiên tiến Hầu hết hệ thống nhận diện xử lý ảnh sử dụng mạng nơron tích chập tốc độ xử lý nhanh độ xác cao Trong mạng nơron truyền thống, tầng coi chiều, mạng nơron tích chập, tầng coi chiều, gồm: chiều cao, chiều rộng chiều sâu Mạng nơron tích chập có hai khái niệm quan trọng: kết nối cục chia sẻ tham số Những khái niệm góp phần giảm số lượng trọng số cần huấn luyện, tăng nhanh tốc độ tính tốn Có ba tầng để xây dựng kiến trúc cho mạng nơron tích chập: Tầng tích chập Tầng gộp (pooling layer) Tầng kết nối đầy đủ (fully-connected) Tầng kết nối đầy đủ giống mạng nơron thơng thường, tầng chập thực tích chập nhiều lần tầng trước Tầng gộp làm giảm kích thước mẫu khối 2x2 tầng trước Ở mạng nơron tích chập, kiến trúc mạng thường chồng ba tầng để xây dựng kiến trúc đầy đủ Ví dụ minh họa kiến trúc mạng nơron tích chập đầy đủ: Hình 2.3 Kiến trúc mạng LeNet [19] Sau trình tìm hiểu tham khảo, với điều kiện thiết bị thực nghiệm hạn chế, với kiến trúc CNN, luận văn định áp dụng convolutional layers với thông số sau:  Convolutional layer 1: o 20 Feature maps o Patch size 5x5 o Pool size 2x2  Convolutional layer 2: o 100 Feature maps o Patch size 5x5 o Pool size 2x2 Hình 2.4 Mơ hình CNN luận văn sử dụng 2.3.3 Kiến trúc mạng nơron hồi quy (RNN) a Giới thiệu mạng nơron hồi quy RNN Mạng nơron hồi quy RNN mơ hình để giải vấn đề mô mặt thời gian liệu chuỗi Do đó, mạng RNN phù hợp cho việc mơ hình hóa xử lý ngơn ngữ 9 Trong đó, từ chuỗi đầu vào liên kết với bước thời gian cụ thể Trong thực tế, số bước thời gian với độ dài tối đa chuỗi Hình 2.5 Mơ hình mạng RNN [18] Hình 2.4 mơ tả mạng RNN Hàm A nhận đầu vào xt thời điểm t đầu giá trị vector ẩn ht Nhận thấy, hàm A cho phép thông tin lặp lại truyền từ bước mạng tới bước Sử dụng mạng RNN có nhiều ứng dụng nhận dạng giọng nói, mơ hình hóa ngơn ngữ, dịch, nhận dạng ảnh Tuy nhiên, mạng RNN có vấn đề lưu trữ thông tin ngữ cảnh phụ thuộc lâu dài Xét trường hợp ví dụ sau đây: Trên đường nhiều xe cộ Tôi lớn lên Hà Nội, tơi nhớ hết danh lam thắng cảnh Hà Nội Với ví dụ 1, ta khơng cần thông tin ngữ cảnh, trường hợp 2, thơng tin phía trước gợi ý từ liên quan đến tên thành phố Trong trường hợp 2, khoảng cách phụ thuộc lớn Để đưa dự đốn này, bắt buộc mạng RNN phải lưu trữ tồn từ vào nhớ Trong phạm vi khoảng cách phụ thuộc thấp khả thi, với khoảng cách cực lớn, đoạn văn dài việc lưu trữ RNN trở nên nặng nề khơng hợp lý Đây vấn đề lưu trữ thông tin phụ thuộc lâu dài Trên lý thuyết, mạng RNN phát sinh nhớ đủ để xử lý vấn đề lưu trữ phụ thuộc dài Tuy nhiên, thực tế khơng phải Vấn đề Hochreiter (1991) đưa thách thức mạng RNN Và mạng Long short-term memory (LSTM) phát biểu năm 1997 giải vấn đề b Mạng Long short-term memory (LSTM) 10 Long short term memory cải tiến mạng RNN nhằm giải vấn đề học, lưu trữ thông tin ngữ cảnh phụ thuộc dài xem xét cách LSTM [11] cải tiến so với mạng RNN Trong mô hình RNN, thời điểm t giá trị vector ẩn ht tính hàm Hình 2.6 Module xử lý ht RNN [18] LSTM có cấu trúc mắt xích tương tự, module lặp có cấu trúc khác hẳn Thay có layer neural network, LSTM có tới bốn layer, tương tác với theo cấu trúc cụ thể Với ưu điểm lưu trữ phụ thuộc dài, model sử dụng để huấn luyện luận văn model LSTM Mơ hình luận văn sử dụng mơ tả hình 2.17 gồm lớp LSTM sau lớp tổng hợp trung bình (full-connection) lớp hồi quy logistic Các từ vector hóa sử dụng mơ hình Word2vec Hình 2.7 Mơ hình LSTM luận văn sử dụng 11 2.4 Kết luận chương Chương trình bày trình tìm hiểu áp dụng thuật tốn TF-IDF, N-Gram để trích xuất đặc trưng Bên cạnh đó, chương trình bày giới thiệu thuật tốn SVM, mạng nơron tích chập, mạng nơron hồi quy để phân lớp liệu Với kiến thức tìm hiểu trình bày chương, luận văn áp dụng kiến trúc mạng nơron hồi quy – LSTM, kiến trúc mạng CNN so sánh với SVM Chương tiến hành thiết lập thực nghiệm liệu với phương pháp đề xuất kịch khác nhau, sau đánh giá độ xác đưa đề xuất định hướng 12 CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ 3.1 Dữ liệu thực nghiệm Luận văn sử dụng liệu thực nghiệm thu thập từ: Kênh thông tin trực tuyến, Khoa Quốc tế, Đại học quốc gia Hà Nội với tổng số lượng 3069 câu hỏi Quá trình gán nhãn cho tệp liệu gồm bạn tham gia, bạn gán nhãn bạn kiểm tra lại việc gán nhãn Sau thực gán nhãn, câu hỏi đưa lớp ý định sau: Thông tin trường, thông tin liên lạc, thông tin khoa, hội nghề nghiệp, điều kiện tiếng Anh, học phí, điểm chuẩn, nhập học, thủ tục, học bổng, nghiên cứu khoa học, tài liệu, từ chối/ không đồng ý, đồng ý, khác Số lượng cụ thể thu sau trình gán nhãn ý định mô tả bảng 3.1 Nội dung ý định Số lượng Thông tin trường 150 Thông tin liên lạc 91 Thông tin khoa 569 Cơ hội nghề nghiệp 73 Điều kiện tiếng Anh 84 Học phí 192 Điểm chuẩn 83 Nhập học 275 Thủ tục 502 Học bổng 379 Nghiên cứu khoa học 300 Tài liệu 86 Từ chối, không đồng ý 100 Đồng ý 100 Khác 85 Bảng 3.1 Bảng mô tả liệu thực nghiệm 13 Làm khảo sát với tập liệu này, luận văn có biểu đồ phân bố số lượng từ câu biểu đồ 3.1 Phân bổ số câu độ dài câu 400 350 300 Số câu 250 200 150 100 50 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 33 34 Độ dài câu Hình 3.1 Biểu đồ phân bố số câu độ dài câu Dựa vào biểu đồ ta thấy:  Số lượng câu tập trung phần lớn khoảng đến 12 từ  Số lượng câu 100 từ nhiều, toàn câu có số lượng từ từ đến 14 100  Số lượng câu có độ dài từ nhiều nhất: 367 câu  Khơng có câu có độ dài 32 từ  Số lượng câu có độ dài 27, 30, 33, 34 thấp nhất: câu 3.2 Thiết lập thực nghiệm Quá trình thực nghiệm thuật tốn gồm giai đoạn chính:  Tiền xử lý liệu: Loại bỏ dư thừa, từ vơ nghĩa câu  Vector hóa trích chọn đặc trưng: Sử dụng thuật toán TF-IDF, N-Grams với n chọn giá trị 1, 2,  Xây dựng phân lớp liệu: Sử dụng LSTM, CNN SVM Tiền xử lý liệu: Luận văn sử dụng ngôn ngữ python để xử lý liệu dư thừa, loại bỏ stopwords Vector hóa: Luận văn sử dụng filter StringToVector có sẵn Weka để thiết lập trích chọn đặc trưng liệu 14 Mơ hình phân lớp: Mơ hình mà luận văn sử dụng mô tả phần 2.3.2 mơ hình CNN phần 2.3.3 mơ hình LSTM Thiết lập tham số với Weka: Sau trình nghiên cứu tìm hiểu phương pháp đánh giá thực nghiệm, luận văn đề xuất sử dụng phương pháp K-fold Cross Validation K-fold cross validation có đặc điểm sau: - Tập tồn ví dụ D chia ngẫu nhiên thành k tập không giao (gọi “fold”) có kích thước xấp xỉ - Mỗi lần (trong số k lần) lặp, tập sử dụng làm tập kiểm thử, (k-1) tập lại dùng làm tập huấn luyện - k giá trị lỗi (mỗi giá trị tương ứng với fold) tính trung bình cộng để thu giá trị lỗi tổng thể Để đánh giá xác chất lượng mơ hình ta sử dụng thêm độ đo Precision Recall  Precision định nghĩa tỉ lệ số điểm true positive số điểm phân loại positive (TP + FP) 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 𝑇𝑃 𝑇𝑃 + 𝐹𝑃 Công thức (3 1) Tính Precision  Recall định nghĩa tỉ lệ số điểm true positive số điểm thực positive (TP + FN) 𝑅𝑒𝑐𝑎𝑙𝑙 = 𝑇𝑃 𝑇𝑃 + 𝐹𝑁 Cơng thức (3 2) Tính Recall Thực tế hai độ đo lúc tăng giảm tương ứng với nhau, có trường hợp Recall cao Precision thấp ngược lại, đánh giá tổng quát ta dùng độ đo F-measure trung bình điều hịa độ đo với hệ số 0.5 (tầm quan trọng hệ số ngang nhau): 𝐹1 = 1 + 𝑝𝑟𝑖𝑐𝑖𝑠𝑖𝑜𝑛 𝑟𝑒𝑐𝑎𝑙𝑙 =2 𝑝𝑟𝑖𝑐𝑖𝑠𝑖𝑜𝑛 𝑟𝑒𝑐𝑎𝑙𝑙 𝑝𝑟𝑖𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑟𝑒𝑐𝑎𝑙𝑙 Công thức (3 3) Tính F1 15 3.3 Cơng cụ thực nghiệm 3.3.1 Mơi trường thực nghiệm Thành phần Thông số CPU CPU Intel Core i5 3.3GHz RAM RAM 8GB Hệ điều hành (OS) Windows 10 Professional 64bit Bảng 3.2 Môi trường thực nghiệm 3.3.2 Công cụ phần mềm Tên Mô tả IDE sử dụng Python để tiền xử lý liệu PyCharm https://www.jetbrains.com/pycharm/ Cơng cụ tích hợp hỗ trợ thuật tốn học máy Weka 3.8 https://www.cs.waikato.ac.nz/ml/weka/ Package Gói thư viện deep learning dành cho Weka WekaDeeplearnin https://deeplearning.cms.waikato.ac.nz/user-guide/getting-started/ g4j Package LibSVM Gói thư viện thuật tốn SVM cho Weka http://weka.sourceforge.net/doc.stable/weka/classifiers/functions/Lib SVM.html Packge Gói thư viện hỗ trợ Neural Network cho Weka NeuralNetwork https://github.com/amten/NeuralNetwork Bảng 3.3 Công cụ phần mềm 3.4 Kết thực nghiệm 3.4.1 Kết LSTM Acc (%) Độ đo Ý định Thông tin trường Thông tin liên lạc Thông tin khoa Unigrams 85.14 Pre Rec Bigrams 72.47 F1 Pre Rec Trigrams 54.58 F1 Pre Rec TF-IDF 85.04 F1 Pre Rec F1 84.1 74.0 78.7 84.1 64.0 67.1 70.6 24.0 35.8 82.8 74.0 78.2 83.7 79.1 81.4 83.7 46.2 56.8 73.3 12.1 20.8 83.7 79.1 81.4 85.0 85.8 85.4 85.0 87.0 68.9 39.0 81.5 52.8 84.9 85.8 85.3 16 Cơ hội nghề nghiệp Điều kiện tiếng Anh Học phí Điểm chuẩn Nhập học Thủ tục Học bổng Nghiên cứu khoa học Tài liệu Từ chối, không đồng ý Đồng ý Khác 71.8 76.7 74.2 71.8 34.2 43.9 50.0 9.6 16.1 71.4 75.3 73.3 88.4 90.5 89.4 88.4 61.9 69.8 91.7 26.2 40.7 88.4 90.5 89.4 83.4 70.4 81.1 89.8 94.3 89.1 60.2 87.3 93.4 91.0 86.1 64.9 84.1 91.6 92.6 83.4 70.4 81.1 89.8 94.3 68.2 33.7 77.1 85.3 82.3 70.8 44.4 71.5 84.9 83.1 61.0 55.0 66.5 48.8 81.9 43.2 13.3 68.7 69.7 57.3 50.6 21.4 67.6 57.4 67.4 83.4 70.4 81.1 89.8 94.3 89.1 60.2 87.3 93.4 91.0 86.1 64.9 84.1 91.6 92.6 96.6 94.3 95.4 96.6 87.3 88.7 87.1 74.0 80.0 96.6 94.3 95.4 82.2 86.0 84.1 82.2 54.7 63.1 91.4 37.2 52.9 82.0 84.9 83.4 80.8 59.0 68.2 80.8 46.0 56.1 63.0 17.0 26.8 79.7 59.0 67.8 79.4 81.0 80.2 79.4 43.0 56.6 48.0 12.0 19.2 78.6 81.0 79.8 40.0 44.7 42.2 40.0 5.9 9.9 16.7 2.4 4.1 40.2 43.5 41.8 Bảng 3.4 Kết mơ hình LSTM CNN Acc (%) Độ đo Ý định Thông tin trường Thông tin liên lạc Thông tin khoa Cơ hội nghề nghiệp Điều kiện tiếng Anh Học phí Điểm chuẩn Nhập học Thủ tục Học bổng Nghiên cứu khoa học Tài liệu Từ chối, không đồng ý Đồng ý Khác Unigrams 85.76 Pre Rec Bigrams 82.37 F1 Pre Rec Trigrams 72.79 F1 Pre Rec TF-IDF 81.23 F1 Pre Rec F1 68.9 81.3 74.6 73.5 76.0 74.8 88.5 92.7 90.6 67.6 78.0 72.4 87.2 90.1 88.6 96.7 95.6 96.1 98.9 98.9 98.9 76.1 76.9 76.5 82.5 83.8 83.2 67.1 83.0 74.2 81.8 59.9 69.2 80.5 77.9 79.2 88.9 76.7 82.4 90.3 89.0 89.7 93.2 93.2 93.2 74.6 72.6 73.6 93.1 96.4 94.7 98.8 96.4 97.6 100 100 100 91.6 90.5 91.0 91.0 85.1 85.5 92.1 94.0 90.3 80.3 87.8 91.5 94.9 79.7 80.7 72.0 84.1 81.5 79.1 84.8 74.6 85.4 86.6 56.3 92.8 69.1 80.7 66.2 66.7 87.5 74.8 62.3 59.1 86.5 75.9 85.5 89.0 92.1 85.8 69.6 85.0 89.8 91.5 89.6 75.9 90.2 90.8 95.8 78.5 89.3 77.3 86.8 92.2 81.8 82.8 81.5 50.7 53.4 85.1 64.3 84.5 90.7 90.9 96.9 95.3 96.1 93 88.0 90.4 93.4 70.7 80.5 87.1 97.0 91.8 92.9 90.7 91.8 95.3 94.2 94.7 98.8 95.3 97.0 71.0 76.7 73.7 61.6 69.0 65.1 81.2 69.0 74.6 90.3 56.0 69.1 52.7 58.0 55.2 61.4 62.0 38.6 20.0 61.7 88.4 76.0 74.6 87.5 82.4 81.7 83.6 61.0 84.8 93.3 82.4 70.5 59.0 46.0 87.5 35.1 15.3 51.7 21.3 Bảng 3.5 Kết mơ hình CNN 17 SVM Acc (%) Độ đo Ý định Thông tin trường Thông tin liên lạc Thông tin khoa Cơ hội nghề nghiệp Điều kiện tiếng Anh Học phí Điểm chuẩn Nhập học Thủ tục Học bổng Nghiên cứu khoa học Tài liệu Từ chối, không đồng ý Đồng ý Khác Unigrams 88.89 Pre Rec Bigrams 70.22 F1 Pre Rec Trigrams 51.48 F1 Pre Rec TF-IDF 87.59 F1 Pre Rec F1 84.7 81.3 83.0 69.5 60.7 64.8 90.6 19.3 31.9 78.4 80.0 79.2 96.3 86.8 91.3 94.1 35.2 51.2 100 8.8 16.2 97.3 80.2 88.0 86.2 91.2 88.6 46.6 88.8 61.1 29.9 91.9 45.1 87.9 89.5 88.7 88.7 75.3 81.5 95.2 27.4 42.6 80.0 5.5 10.3 90.0 74.0 81.2 97.5 91.7 94.5 97.0 76.2 85.3 97.9 56.0 71.2 97.4 90.5 93.8 92.3 92.9 87.1 94.5 98.4 93.2 78.3 88.7 95.0 94.7 92.7 85.0 87.9 94.7 96.5 82.8 83.3 74.8 84.2 78.8 57.8 24.1 71.3 82.7 84.4 68.1 37.4 73.0 83.4 81.5 71.1 83.3 80.5 71.0 79.1 33.3 6.0 55.6 57.6 52.0 45.4 11.2 65.8 63.6 62.7 91.3 92.5 85.2 94.7 95.2 92.7 74.7 90.2 92.0 93.9 92.0 82.7 87.6 93.3 94.6 97.3 96.7 97.0 96.5 82.7 89.0 92.9 70.0 79.8 98.0 96.3 97.1 97.3 82.6 89.3 92.7 59.3 72.3 100 26.7 42.2 98.8 93.0 95.8 54.6 89.0 67.7 76.3 45.0 56.6 78.9 15.0 25.2 47.2 91.0 62.1 84.0 79.0 81.4 90.0 36.0 51.4 81.3 13.0 22.4 78.7 70.0 74.1 39.7 27.1 32.2 25.0 1.2 2.2 00.0 00.0 00.0 39.2 23.5 29.4 Bảng 3.6 Kết phương pháp SVM 3.4.2 Đánh giá kết a So sánh độ xác phương pháp trích chọn đặc trưng b So sánh đặc trưng unigrams bigrams LSTM SVM 3.5 Kết luận chương Nội dung chương trình trình thực nghiệm luận văn phát ý định người dùng hệ thống hỏi đáp liệu thu tập từ “Kênh thông tin trực tuyến, Khoa Quốc tế, Đại học quốc gia Hà Nội” Dựa số liệu kết thực nghiệm chương luận văn đưa phân tích đánh giá phương pháp thực Các kết cho thấy việc sử dụng đặc trưng khác mang lại độ xác khác Sau quan sát liệu, có nhiều từ viết theo văn phong riêng sai tả (Ví dụ: “add” – ý hỏi admin, ad) hay viết tắt (Ví dụ: k thay cho khơng) dù loại bỏ stopwords Đây thực thách thức việc xây dựng hệ thống phát ý định với ngôn ngữ tự nhiên, đặc biệt tiếng Việt 18 KẾT LUẬN Nghiên cứu xử lý ngôn ngữ tự nhiên nói chung, tốn phát ý định người dùng nói riêng với tơi cơng nghệ mới, thời gian nghiên cứu ngắn nên nhiều vấn đề chưa thực nắm bắt tốt Tuy nhiên qua trình nghiên cứu, luận văn tìm hiểu sâu giai đoạn từ tiền xử lý liệu đến việc chọn phương pháp biểu diễn đặc trưng văn (N-grams, TF-IDF), phương pháp học máy để xây dựng mơ hình phân lớp liệu mạng nơron (kiến trúc LSTM CNN luận văn đề xuất) so sánh với phương pháp SVM Sử dụng mạng nơron nói chung hay mơ hình LSTM CNN nói riêng Deep Learning hướng có kỹ thuật hiệu tốn xử lý chuỗi nhà nghiên cứu sử dụng nhiều Tuy nhiên, LSTM CNN kỹ thuật vạn mà tốn NLP lại áp dụng Nó vào nhiều yếu tố tập ngữ liệu, đặc tính tập ngữ liệu Vì đơi sử dụng thuật toán SVM lại cho kết tốt Trong tương lai, luận văn phát triển nghiên cứu mơ hình khác, thay đổi cấu trúc mạng norơn nhiều lớp kết hợp loại mạng nơron với để nâng cao độ xác cải thiện tốc độ xử lý việc phát ý định người dùng xác Luận văn tiền đề xây dựng hệ thống tư vấn, quảng cáo hệ thống hỏi đáp trường Đại học phù hợp, với lượng người quan tâm cao hỗ trợ nhanh chóng giải đáp vấn đề hệ thống hỏi đáp 19 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Ngo Xuan Bach, Tu Minh Phuong, “Leveraging User Ratings for Resource- Poor Sentiment Classification”, In Proceedings of the 19th International Conference on Knowledge-Based and Intelligent Information & Engineering Systems (KES), Procedia Computer Science, pp 322–331, 2015 [2] Nguyen Thi Duyen, Ngo Xuan Bach, Tu Minh Phuong, “An Empirical Study on Sentiment Analysis for Vietnamese” In Proceedings of the International Conference on Advanced Technologies for Communications (ATC), Special session on Computational Science and Computational Intelligence (CSCI), pp 309-314, 2014 [3] Vũ Hữu Tiệp, Blog Machine Learning Cơ địa https://machinelearningcoban.com [4] Kim Đình Sơn, Đặng Ngọc Thun, Phùng Văn Chiến, Ngơ Thành Đạt, Các mơ hình ngơn ngữ N-gram Ứng dụng, 2013 [5] https://vi.wikipedia.org/wiki/Ng%C3%B4n_ng%E1%BB%AF, truy nhập ngày 18/10/2019 Tiếng Anh [6] Ahmed Husseini Orabi, Prasadith Buddhitha, Mahmoud Husseini Orabi, Diana Inkpen, “Deep Learning for Depression Detection of Twitter Users”, 2018 [7] Awais Athar, Simone Teufel, “Detection of Implicit Citations for Sentiment Detection”, 2012 [8] B Liu (2009), Handbook Chapter: Sentiment Analysis and Subjectivity Handbook of Natural Language Processing, Handbook of Natural Language Processing Marcel Dekker, Inc New York, NY, USA [9] Bratman, Michael, "Intention, plans, and practical reason.", 1987 [10] Google (2013), Word2vec model https://code.google.com/archive/p/word2vec/ [11] Hochreiter and Schmidhuber (1997), Long short-term memory [12] Iryna Haponchyk, Antonio Uva1, Seunghak Yu, Olga Uryupina, Alessandro Moschitti, “Supervised Clustering of Questions into Intents for Dialog System Applications”, 2018 20 [13] Maria Karanasou, Christos Doulkeridis, Maria Halkidi, “DsUniPi: An SVM- based Approach for Sentiment Analysis of Figurative Language on Twitter”, 2015 [14] Peng Chen, Zhongqian Sun Lidong Bing, Wei Yang, “Recurrent Attention Network on Memory for Aspect Sentiment Analysis”, 2017 [15] Peng Zhou, Zhenyu Qi, Suncong Zheng, Jiaming Xu, Hongyun Bao, Bo Xu, “Text Classification Improved by Integrating Bidirectional LSTM with Twodimensional Max Pooling”, 2016 [16] Zheng Chen, Fan Lin, Huan Liu, Yin Liu, Wei-Ying Ma and Liu Wenyin, "User Intention Modeling in Web Applications Using Data Mining", 2002 [17] Zhiyuan Chen, Bing Liu, Meichun Hsu, Malu Castellanos, and Riddhiman Ghosh, “Identifying Intention Posts in Discussion Forums”, 2013 [18] http://colah.github.io/posts/2015-08-Understanding-LSTMs/, truy nhập ngày 18/10/2019 [19] https://d2l.ai/chapter_convolutional-neural-networks/lenet.html, truy nhập nhập 18/10/2019 [20] http://karpathy.github.io/2015/05/21/rnn-effectiveness/, 18/10/2019 truy ... lựa chọn đề tài ? ?Phát ý định người dùng hệ thống hỏi đáp sử dụng mạng nơron? ?? để nghiên cứu đưa giải pháp sử dụng học máy để phát ý định người dùng hệ thống hỏi đáp Từ hệ thống hỏi đáp tiết kiệm... quan đến vấn đề phát ý định người dùng hệ thống hỏi đáp trường Đại học hạn chế chưa có nhiều Bên cạnh đó, luận văn nhận thấy nhu cầu xử lý phát ý định người dùng hệ thống hỏi đáp dành cho học... dựng hệ thống hỏi đáp Luận văn mong muốn đưa ý định người dùng dựa ý định cho trước làm tiền đề cho hệ thống gợi ý, giới thiệu,… vấn đề mà người dùng quan tâm Ví dụ: người dùng đặt câu hỏi “Ngành

Ngày đăng: 18/06/2021, 11:16