Câu hỏi đơn giản (factual-base)

Một phần của tài liệu phân tích câu hỏi trong hệ thống hỏi đáp tiếng việt (Trang 27)

Câu hỏi factual-base là những câu hỏi về các sự vật, sự kiện đơn lẻ,.. cĩ câu trả lời là những đoạn văn bản ngắn nằm sẵn trong tài liệu. Kiến trúc thơng thường để xử lý loại câu hỏi này như sau (Hình 3): Câu hỏi đầu vào được phân lớp theo loại ngữ nghĩa của câu trả

lời và biến đổi sang dạng truy vấn. Câu truy vấn được sử dụng để tìm kiếm các tài liệu cĩ liên quan đến câu hỏi, loại câu hỏi được sử dụng trong phần trích xuất câu trả lời nhằm thu hẹp khơng gian tìm kiếm và kiểm tra câu trả lời cĩ chính xác hay khơng [35].

Hình 3. Kiến trúc cho xử lý các câu hỏi factual-base

Như vậy, hai cơng việc chính của pha xử lý câu hỏi với loại câu hỏi này là xác định loại câu hỏi và tạo truy vấn cho hệ IR (information retrieval) trích chọn tài liệu liên quan.

Xác định loại câu hỏi NER NER Kho tài liệu Phân tích câu hỏi Trích chọn tài liệu liên quan Trích xuất câu trả lời WordNet Parser WordNet Parser Truy vấn Tài liệu Loại câu hỏi Câu trả lời Câu hỏi

trình bày). Cĩ nhiều cách để xác định loại câu hỏi như: xây dựng bộ phân lớp câu hỏi sử

dụng học máy thống kê, xác định câu hỏi sử dụng các kỹ thuật của xử lý ngơn ngữ tự

nhiên, xác định loại câu hỏi dựa vào so khớp với các mẫu quan hệ cĩ sẵn. Nội dung chi tiết của các phương pháp này được trình bày ở chương 3.

Tạo truy vấn từ câu hỏi

Vấn đề của tạo truy vấn là lựa chọn các từ khĩa trong câu hỏi và kết hợp chúng để

tạo ra câu truy vấn khơng quá chung chung, cũng khơng quá chi tiết. Chiến lược được sử

dụng để trích ra các từ khĩa quan trọng là sử dụng độưu tiên: Độ ưu tiên cao nhất được gán cho các từ trong dấu nháy kép hoặc nháy đơn, tiếp đến là các cụm danh từ, danh từ,

động từ, tính từ, trạng từ. Các từ dừng, giới từ, trợđộng từđược bỏ qua.

Nhiều hệ thống Q&A cĩ độ hồi tưởng (tỉ lệ câu trả lời đưa ra trên câu hỏi đầu vào) rất thấp. Một số nguyên nhân chính bao gồm: module phân tích câu hỏi khơng nhận diện

được câu hỏi thuộc loại nào hoặc khơng tìm được các mẫu khớp với câu hỏi, module trích chọn thơng tin (IR) khơng tìm ra được các tài liệu cĩ chứa câu trả lời, module trích xuất câu trả lời khơng thể tìm ra câu trả lời thỏa đáng cho câu hỏi. Vì vậy với module trích chọn thơng tin trong hệ thống Q&A, độ hồi tưởng là quan trọng hơn so với độ chính xác bởi các module sau cĩ thể lọc ra các tài liệu khơng liên quan, nhưng khơng thể tìm ra

được câu trả lời nếu các tài liệu chứa câu trả lời khơng được trả về từ IR [34] .

Các nghiên cứu trước đây nhằm làm tăng độ hồi tưởng của IR đều tập trung vào việc thu nhỏ sự khác biệt về mặt hình thái, từ vựng và ngữ nghĩa giữa các từ xuất hiện trong truy vấn và trong tài liệu chứa câu trả lời.

Về mặt hình thái, cĩ hai cách được sử dụng [9,34]:

- Áp dụng kĩ thuật stemming cho tập dữ liệu được đánh chỉ mục và các từ trong truy vấn (stemming là chuyển tất cả các dạng biến thể của một từ thành từ gốc, ví dụ “expand”, “expanded”, “expansion”, “expandable”… đều được chuyển thành “expand”).

- Đánh chỉ mục cho các từ trong tài liệu mà khơng sử dụng stemming. Sử dụng kĩ

thuật mở rộng hình thái (morphological expansion – ví dụ từ “expands” được mở rộng thành {“expands”,“expand”, “expanded”, “expansion”, “expandable”

Về mặt từ vựng và ngữ nghĩa, phương pháp hay được sử dụng đĩ là: các từ trong truy vấn được mở rộng bởi tập các từ đồng nghĩa, các khái niệm cĩ nghĩa khái quát hơn hoặc chuyên mơn hơn, chi tiết hơn hoặc bởi các từ liên quan. Phương pháp này địi hỏi phải cĩ các nguồn tri thức về ngơn ngữ, từ vựng như Wordnet hoặc Ontology.

Moldovan trong [29] đã chỉ ra rằng từ trọng tâm của câu hỏi (question focus – xem trong phần 3.2) thường khơng xuất hiện trong tài liệu chứa câu hỏi. Với các câu hỏi cĩ từ

trọng tâm là “tỉnh thành”, “thành phố”, “đất nước”, “ngày tháng”… thì câu trả lời sẽ chứa các thể hiện cụ thể của các từ này (ví dụ với “đất nước” thì sẽ là “Việt Nam”, “Trung Quốc”… chứ khơng nhất thiết phải là “đất nước Việt Nam”). Vì vậy các từ trọng tâm của câu hỏi thường khơng được sử dụng để làm từ khĩa tạo truy vấn.

2.5.2. Câu hỏi định nghĩa (definition question)

Câu hỏi định nghĩa hỏi vềđịnh nghĩa hoặc mơ tả về một điều, một khái niệm gì đĩ. Các câu hỏi thường gặp cĩ dạng như “Máy tìm kiếm là gì”, “Định nghĩa khai phá dữ

liệu”, “Bush là ai ?”…

Câu trả lời cho loại câu hỏi này rất đa dạng, rất nhiều đoạn văn bản ngắn cĩ thể coi là câu trả lời chấp nhận được. Ví dụ với câu hỏi “Who is George W. Bush ?” thì các câu trả lời cĩ thể là:

“… George W. Bush, the 43rd President of the United States…”

“George W. Bush defeated Democratic incumbent Ann Richards to become the 46th Governor of the State of Texas…

…… (adsbygoogle = window.adsbygoogle || []).push({});

Với loại câu hỏi định nghĩa, phương pháp thường hay được sử dụng là so khớp mẫu (pattern matching) [17].

Ví dụ về các mẫu câu hỏi và mẫu câu trả lời

Mẫu câu hỏi What <be> a <Q> ? Who <be> <Q> ?

<Q> là gì? <Q> là ai?....

Ưu điểm: Cĩ độ chính xác khá cao.

Nhược điểm: Các mẫu khĩ cĩ thể bao quát được hết các trường hợp đa dạng của câu hỏi và câu trả lời.

2.5.3. Câu hỏi phức tạp, cĩ ràng buộc về thời gian

Phương pháp trình bày trong phần 2.5.1 cĩ thể trả lời được các câu hỏi đơn giản factual base cĩ từ ngữ diễn đạt thời gian đơn giản như: “Hồ Chí Minh sinh năm nào” hoặc “Ai là thủ tướng Việt Nam năm 2009 ?”. Tuy nhiên nhiều câu hỏi phức tạp địi hỏi phải phát hiện ra các thuộc tính về thời gian hoặc thứ tự diễn ra của sự kiện. Ví dụ “Ai là tổng bí thưĐảng Cộng Sản Việt Nam trong chiến thắng lịch sửĐiện Biên Phủ”.

Câu hỏi liên quan đến thời gian được chia làm 4 loại [33]:

Loại 1: Câu hỏi về một sự kiện đơn lẻ, khơng cĩ biểu đạt về thời gian (temporal expressions)

“Đại học Cơng Nghệ thành lập khi nào ?”.

Loại 2: Câu hỏi về một sự kiện đơn lẻ, cĩ biểu đạt về thời gian

“Đội tuyển nào của Đại học cơng nghệ tham dự cuộc thi ACM quốc tếnăm 2009” Ràng buộc thời gian: năm2009.

Loại 3: Câu hỏi cĩ nhiều sự kiện, cĩ biểu đạt về thời gian

“Việt Nam đạt được những thành tựu gì sau khi chính sách mở cửa năm 1987 được thơng qua ? ”

Tín hiệu thời gian: sau khi

Ràng buộc thời gian: năm 1987

Loại 4: Câu hỏi cĩ nhiều sự kiện, khơng cĩ biểu đạt về thời gian “Dân số thế giới là bao nhiêu trước chiến tranh thế giới thứ 2” Tín hiệu thời gian: trước

Phương pháp xử lý: Gồm 4 bước sau:

- Phân tích câu hỏi thành các các câu hỏi factual-base đơn giản hơn. “Dân số thế giới là bao nhiêu trước chiến tranh thế giới thứ 2 ?”

1) “Dân số thế giới là bao nhiêu ?”

2) “Chiến tranh thế giới thứ 2 xảy ra khi nào ?” - Tìm câu trả lời cho câu hỏi thứ nhất

- Tìm câu trả lời cho câu hỏi thứ hai

- Đưa ra câu trả lời mà vừa trả lời câu hỏi thứ nhất, vừa cĩ giá trị thời gian thích hợp với câu trả lời cho câu hỏi thứ hai.

Chương 3. Các phương pháp xác định loi câu hi 3.1. Phương pháp phân lớp sử dụng học máy thống kê

Theo [4] cĩ hai hướng tiếp cận được sử dụng rộng rãi trong việc phân lớp câu hỏi đĩ là hướng tiếp cận dựa trên luật (rule-base approach) và hướng tiếp cận dựa trên xác suất thống kê.

Hướng tiếp cn da trên lut:

Hướng tiếp cận này yêu cầu phải cĩ các chuyên gia ngơn ngữ cung cấp các luật, các biểu thức chính quy (regural expression), các từ khĩa cho từng lớp câu hỏi … để hệ thống hoạt động.

Các hạn chế của hướng tiếp cận này được chỉ ra trong [38]:

o Xây dựng mơ hình cho phương pháp này rất tốn thời gian và cơng sức, cần cĩ sự (adsbygoogle = window.adsbygoogle || []).push({});

cộng tác của những chuyên gia trong lĩnh vực ngơn ngữ học khi xây dựng các mẫu câu hỏi và văn phạm cho từng loại câu hỏi đĩ.

o Các luật ngữ pháp viết tay và văn phạm của từng loại câu hỏi rất cứng nhắc, khơng linh động. Khi một dạng câu hỏi mới xuất hiện, mơ hình theo hướng này khơng thể xử lý. Muốn xử lý được mơ hình cần phải được cung cấp những luật mới.

o Vấn đề nhập nhằng của các văn phạm ngữ pháp rất khĩ xử lý, kiểm sốt và phụ

thuộc vào đặc điểm của từng ngơn ngữ.

o Khi tập câu trả lời được mở rộng hoặc thay đổi kéo theo việc phải viết lại hồn tồn các luật trước đĩ nên hệ thống rất khĩ mở rộng.

Một số hệ thống hỏi đáp sử dụng luật để phân lớp câu hỏi như Webclopedia [18] và [39].

Hướng tiếp cn da trên xác sut thng kê: Được Jonathan Brown tổng hợp lại bao gồm hai cách tiếp cận chính đĩ là

Phương pháp học máy: Sử dụng một tập đủ lớn các câu hỏi đã được gán nhãn lớp

lớp cho câu hỏi dựa trên những đặc trưng hay những mối quan hệ của các từ trong câu hỏi

đưa vào. Các thuật tốn thường được sử dụng là Support Vector Machines (SVM), láng giềng gần nhất (Near Neighbors – kNN), Nạve Bayes (NB), Entropy cực đại, …Ngồi ra, các phương pháp học máy bán giám sát [36] cũng được đưa ra để sử dụng các câu hỏi chưa được gán nhãn làm tăng cường thêm độ chính xác cho phân lớp câu hỏi.

Phương pháp sử dụng mơ hình ngơn ngữ: Xây dựng một mơ hình ngơn ngữ thống kê để ước lượng được phân phối của ngơn ngữ tự nhiên chính xác nhất cĩ thể. Cụ thể với bài tốn phân lớp câu hỏi là việc ước lượng xác suất cĩ điều kiện p(a|b) của “loại câu hỏi”

a xuất hiện trong “ngữ cảnh” câu hỏi tự nhiên b. Bài tốn đặt ra là chúng ta phải tìm một phương pháp ước lượng (cĩ thể tin tưởng được) mơ hình xác suất cĩ điều kiện p(a|b) [4].

Hướng tiếp cận dựa trên học máy thống kê hiện đang được rất nhiều nhà nghiên cứu quan tâm vì nĩ khơng chỉ tốn ít cơng sức của con người hơn (so với phương pháp dựa trên luật) mà cịn cĩ tính khả chuyển cao, dễ dàng áp dụng cho nhiều miền ứng dụng khác nhau. Tuy nhiên hướng tiếp cận này cũng gặp khĩ khăn khi số lượng lớp câu hỏi lớn. Trong phân lớp câu hỏi, người ta muốn phân câu hỏi vào các lớp càng nhỏ càng tốt nhằm thu hẹp khơng gian tìm kiếm câu trả lời. Các hệ thống hỏi đáp hiện nay thường cĩ số

lượng lớp câu hỏi lớn (hệ thống của Li và Roth [25] cĩ 50 lớp, hệ thống trong [39] cĩ 54 lớp, trong [15] cĩ 68 lớp, Webclopedia [18] cĩ 122 lớp,…), trong khi các thuật tốn học máy sẽ giảm hiệu quả nếu số lớp tăng. Vì vập cần cải tiến mơ hình và thuật tốn để phù hợp với số lượng lớp lớn trong phân lớp câu hỏi. Phần 3.1 này sẽ trình bày các nội dung về học máy thống kê và mơ hình áp dụng cho phân lớp câu hỏi.

3.1.1. Bài tốn phân lớp trong khai phá dữ liệu

Phân lớp là bài tốn điển hình trong khai phá dữ liệu. Mục đích của phân lớp là để

dựđốn những nhãn lớp cho các bộ dữ liệu mới.

• Đầu vào: một tập các mẫu dữ liệu huấn luyện, với một nhãn phân lớp cho mỗi mẫu dữ liệu.

• Đầu ra: mơ hình (bộ phân lớp) dựa trên tập huấn luyện và những nhãn phân lớp.

dữ liệu huấn luyện (training data set). Các nhãn lớp của tập dữ liệu huấn luyện được xác

định bởi con người trước khi xây dựng mơ hình, vì vậy phương pháp này cịn được gọi là học cĩ giám sát (supervised learning). Trong bước này, chúng ta cịn phải tính độ chính xác của mơ hình, mà cần phải sử dụng một tập dữ liệu kiểm tra (test data set). Nếu độ

chính xác là chấp nhận được (tức là cao), mơ hình sẽđược sử dụng để xác định nhãn lớp cho các dữ liệu khác mới trong tương lai.

Bước 2 (sử dụng mơ hình): sử dụng mơ hình đã được xây dựng ở bước 1 để phân lớp dữ liệu mới.

Đánh giá thuật tốn phân lớp [3]

Độ hồi tưởng ρ và độ chính xác πđược dùng để đánh giá chất lượng của thuật tốn phân lớp. Giả sử các tài liệu thuộc vào hai lớp và thuật tốn cần học một lớp trong hai lớp

đĩ, khi đĩ các giá trị TP (true positives), TN (true negatives), FP (false positives), FN

(false negatives)được xem xét:

- TP: số lượng ví dụ dương (tài liệu thực sự thuộc lớp cần đốn nhận) được thuật tốn phân lớp cho giá trị đúng.

- TN: số lượng ví dụ âm (tài liệu thực sự khơng thuộc lớp cần đốn nhận) những được thuật tốn phân lớp cho giá trịđúng.

- FP: số lượng ví dụ dương được thuật tốn phân lớp cho giá trị sai. - FN: số lượng ví dụ âm được thuật tốn phân lớp cho giá trị sai. (adsbygoogle = window.adsbygoogle || []).push({});

Đánh giá phân lp đa lp (thơng qua d liu test Dtest)

Bài tốn ban đầu: C gồm cĩ k lớp

Đối với mỗi lớp Ci , cho thực hiện thuật tốn với các dữ liệu thuộc Dtest nhận được các

Bảng 2. Biểu diễn của TP, TN, FP, FN trong đánh giá phân lớp

Giá trị thực Lớp Ci

Thuộc lớp Ci Khơng thuộc lớp Ci Thuộc lớp Ci TPi TNi

Giá trị qua bộ

phân lớp đa lớp

Khơng thuộc lớp Ci FPi FNi

Khi đĩ, FP TP TP + = ρ và TP FN TP + = π

Trong trường hợp phân lớp K lớp, các độ đo cực tiểu trung bình (microaveraging)

và cực đại trung bình (macroaveraging)được sử dụng:

) ( 1 1 ∑ =∑ = + = K c c c K c c FP TP TP μ ρ (microaveraging recall) ) ( ) ( 1 1 ∑∑= = + + = K c c c K c c c FN TP FP TP μ π (microaveraging precision) và ∑ = = K c c M K 1 1 π π (macroaveraging recall) ∑ = = K c c M K 1 1 ρ ρ (macroaveraging precision)

3.1.2. Các thuật tốn học máy thống kê cho việc phân lớp

Cĩ nhiều thuật tốn khác nhau cho phân lớp như Nạve Bayes, K láng giềng gần nhất, cây quyết định (Decision Tree), Máy Vector hỗ trợ (Support Vector Machine), Mạng lọc thưa (Sparse Network of Winnows -SNoW), Mơ hình Entropy cực đại … Tuy nhiên phần tiếp theo của khĩa luận chỉ trình bày về máy Vector hỗ trợ và mơ hình Entropy cực đại - hai thuật tốn được sử dụng nhiều trong phân lớp câu hỏi và cũng sẽ được sử dụng trong phần thực nghiệm ở chương 4.

3.1.2.1. Máy Vector h tr - SVM

a. Thuật tốn

Theo [2], thuật tốn Support Vector Machines (máy vector hỗ trợ) được Corters và Vapnik giới thiệu vào năm 1995. SVM rất hiệu quảđể giải quyết các bài tốn với dữ liệu cĩ số chiều lớn như các vector biểu diễn văn bản. Thuật tốn SVM ban đầu được thiết kế để giải quyết bài tốn phân lớp nhị phân (hai lớp).

Cho tập dữ liệu học D ={(xi, yi), i = 1,…, n} với xi Rmyi{-1,+1} là một số

nguyên xác định xi là dữ liệu dương (+1) hay âm (-1). Một tài liệu xiđược gọi là dữ liệu dương nếu nĩ thuộc lớp ci ; xiđược gọi là dữ liệu âm nếu nĩ khơng thuộc lớp ci . Bộ phân lớp tuyến tính được xác định bằng siêu phẳng:

{x : f(x) = wTx+ w0 =0 }

Trong đĩ w∈ Rmw0R là các hệ số cĩ thể điều chỉnh đĩng vai trị là tham số của mơ hình. Hàm phân lớp nhị phân h: Rm → {0,1}, cĩ thể thu được bằng cách xác định dấu của

f(x): {1 (x) 0 0 (x) 0 > ≤ = f f h Như vậy việc học mơ hình phân lớp chính là việc xác định w w0 từ dữ liệu. Với thuật tốn này, mỗi dữ liệu được xem là một điểm trong mặt phẳng. Dữ liệu học là tách rời tuyến tính (linearly separable) nếu tồn tại một siêu phẳng sao cho hàm phân lớp phù

Một phần của tài liệu phân tích câu hỏi trong hệ thống hỏi đáp tiếng việt (Trang 27)