tƣởng của phƣơng pháp làm giàu

Ý tƣởng cơ bản trong việc làm giàu đặc trƣng cho câu hỏi xuất phát từ nghiên cứu của Xin Li và Dan Roth về các đặc trƣng ngữ nghĩa (semantic features) của câu hỏi. Theo kết quả thử nghiệm của Xin Li và Dan Roth thì các đặc trƣng ngữ nghĩa làm tăng độ chính xác phân lớp lên một cách đáng kể [15]. Tuy nhiên, trong thử nghiệm của mình, Xin Li và Dan Roth mới chỉ dừng ở giai đoạn thử nghiệm thủ công [1] trong việc mở rộng các đặc trƣng ngữ nghĩa của câu hỏi. Trong luận văn này, tác giả sẽ đề xuất các phƣơng pháp mở rộng đặc trƣng ngữ nghĩa cho câu hỏi một cách hoàn toàn tự động bằng cách sử dụng các nguồn tài nguyên phong phú từ Internet kết hợp với mô hình chủ đề ẩn LDA (Latent Dirichlet allocation).

Nhƣ đã trình bày ở chƣơng trƣớc, mỗi chủ đề ẩn là một phân phối xác suất trên các từ, và các từ có xác suất cao sẽ đại diện nội dung của chủ đề. Nếu các chủ đề ẩn này “gần” với câu hỏi, ta có thể sử dụng các từ có xác suất cao trong các chủ đề để thêm vào câu hỏi nhằm tăng đặc trƣng cho câu hỏi. Vấn đề còn lại cần quan tâm là tìm đầu vào cho mô hình LDA để sinh ra các chủ đề và tìm độ “tƣơng tự” của chủ đề với các câu hỏi và các lớp.

Dữ liệu chúng ta có là danh sách các câu hỏi trong các lớp và câu hỏi của ngƣời dùng, vì vậy, để tăng thêm tri thức bên ngoài, ta có thể sử dụng kho tri thức rất rộng là Internet thông qua máy tìm kiếm Google. Ý tƣởng của phƣơng pháp là sử dụng Google để tìm thông tin liên quan đến toàn bộ câu hỏi này. Các kết quả tìm kiếm trên máy tìm kiếm Google sau khi tiền xử lý sẽ đƣợc tổng hợp lại để làm đầu vào cho mô hình sinh chủ đề ẩn LDA. Các chủ đề ẩn tìm đƣợc sẽ đƣợc lựa chọn dựa vào độ “tƣơng tự” của nó với câu hỏi.

Để tìm độ “tƣơng tự” giữa chủ đề ẩn và câu hỏi, ta nhận thấy rằng nội dung của chủ đề ẩn phụ thuộc rất lớn vào các từ có xác suất cao. Độ “tƣơng tự” của một từ với một chủ đề phụ thuộc vào xác suất của từ đó trong chủ đề, độ “tƣơng tự” của một câu hỏi với một chủ đề phụ thuộc vào xác suất của các từ trong câu hỏi đó trong chủ đề, và độ “tƣơng tự” của một lớp với một chủ đề cũng phụ thuộc vào xác suất của các từ trong các câu hỏi của lớp đó trong chủ đề. Nói một cách khác:

o sim(w,z)p(w|z) o    q T w z w p z q sim( , ) ( | ) o       C q C wTq q z w p z q sim z C sim( , ) ( , ) ( | )

với w là từ, z là chủ đề ẩn, q là câu hỏi, C là lớp câu hỏi chứa q, Tq là tập hợp các từ trong câu hỏi q, là một ngƣỡng cho trƣớc.

sim(x, y) là độ “tƣơng tự” của hai tài liệu x và y (có thể là văn bản, câu hỏi, xâu ký tự…). Gọi hai véc-tơ vx(x1, x2, …., xn) và vy(y1, y2, …, yn) là hai véc-tơ biểu diễn x và y trong mô hình không gian véc-tơ. Khi đó, sim(x, y) đƣợc tính bằng độ đo Cosin giữa hai véc-tơ vx, vy nhƣ sau:

( ) ( ) ( ) ‖ ‖ ‖ ‖

∑ √∑ √∑

Chi tiết các bƣớc thực hiện phƣơng pháp này sẽ đƣợc trình bày chi tiết trong phần tiếp theo.

Mô hình phân lớp câu hỏi

Môi trƣờng thực nghiệm