Xuất cải tiến

Một phần của tài liệu Nghiên cứu phương pháp làm tăng chất lượng phân lớp câu hỏi trong hệ thống hỏi đáp (Trang 25 - 26)

Luận văn tập trung vào nghiên cứu cách cải thiện chất lượng phân lớp câu hỏi sử dụng học bán giám sát trên cơ sở cải tiến giải pháp Tri-Train mà Nguyễn Trí Thành đã đưa ra ở [10] theo hướng: thay vì sử dụng hai khung nhìn và hai giải thuật khác nhau ta sử dụng ba khung nhìn khác nhau làm các tập dữ liệu đầu vào. Ngồi ra một điều kiện để đảm bảo chất lượng phân lớp của Tri-Train được phát huy hiệu quả, cần cĩ các bộ đặc trưng với chất lượng phân lớp tốt và độc lập nhau (khác nhau càng nhiều càng tốt). Ở đây, ngồi các bộ đặc trưng đã được nghiên cứu và sử dụng trước đĩ: WordRoot, Pos,… tác giả đưa ra ba đề xuất đặc trưng khác, mục đích cuối cùng là chuẩn bị các bộ dữ liệu (các khung nhìn) phong phú và độc lập nhau.

Cải tiến của luận văn so với đề xuất của [10] là sử dụng ba khung nhìn cho giải thuật Tri-Train. Trong phần thực nghiệm tác giả đã xây dựng chín khung nhìn tổ hợp thành các bộ dữ liệu đầu vào cho Tri-Train để thực hiện các thử nghiệm của mình.

Nhược điểm của giải pháp cải tiến mà Nguyễn Trí Thành đưa ra là:

- Với hai giải thuật và hai khung nhìn nhìn khác nhau vẫn chưa đảm bảo được điều kiện độc lập của các bộ dữ liệu mẫu.

- Chất lượng các đặc trưng chưa cao.

- Sử dụng ba khung nhìn nhìn khác nhau để tăng tính độc lập của các bộ dữ liệu mẫu.

- Tập trung nghiên cứu cải thiện chất lượng các đặc trưng với ba cách đề xuất: Valuefit (giá trị phù hợp, đây là cách do tác giả đề xuất), N-grams áp dụng ưu điểm của lý thuyết về N-grams đã cĩ từ trước vào việc phân lớp câu hỏi, Related áp dụng ưu điểm của các từ liên quan và tận dụng sức mạnh của nguồn từ điển Wordnet cung cấp sẵn vào bài tốn hỗ trợ phân lớp câu hỏi.

Trong quá trình làm các thực nghiệm đánh giá kết quả nghiên cứu của mình, tác giả đã thực hiện chuẩn bị nhiều loại khung nhìn khác nhau. Để đánh giá hiệu quả phân lớp của từng khung nhìn, tác giả chọn SVM để đo kết quả. Sau khi chuẩn bị kỹ lưỡng các bộ khung nhìn dữ liệu tác giả thực hiện tổ hợp chúng lại với nhau làm các bộ tập hợp dữ liệu đầu vào cho giải thuật Tri-Train. Sau đĩ thực hiện đánh giá kết quả thực nghiệm của các bộ dữ liệu để chứng minh hiệu quả phương pháp cải tiến của mình đối với giải thuật Tri-Train. Đồng thời, tác giả cũng làm các phép phân tích, thống kê để đánh giá hiệu quả đĩng gĩp của các khung nhìn nhìn vào chất lượng phân lớp câu hỏi nĩi chung và chứng minh định hướng của mình là đúng đắn.

Phần ngay sau dưới đây tác giả sẽ trình bày cụ thể về ý tưởng, lý thuyết và cách áp dụng các đặc trưng vào bài tốn phân lớp câu hỏi.

Một phần của tài liệu Nghiên cứu phương pháp làm tăng chất lượng phân lớp câu hỏi trong hệ thống hỏi đáp (Trang 25 - 26)