Mô hình đề xuất

Một phần của tài liệu (LUẬN án TIẾN sĩ) nghiên cứu nhận dạng thực thể có tên và thực thể biểu hiện trong văn bản và ứng dụng (Trang 57 - 63)

10 http://www.spokeo.com/

2.5.3. Mô hình đề xuất

Mơ hình hỏi đáp thực thể tên ngƣời cho tiếng Việt đƣợc đề xuất và đặt tên là VPQA. Mơ hình sử dụng phƣơng pháp phân tích câu hỏi bằng kỹ thuật học máy CRF cùng với chiến lƣợc trả lời tự động dựa trên thơng tin đƣợc truy vấn từ máy tìm kiếm. Mơ hình tổng qt của hệ thống đƣợc nêu ra trong hình 2.4.

Mơ hình hỏi đáp bao gồm 3 thành phần chính: thành phần phân tích câu hỏi, thành phần xử lý dữ liệu trả lời và thành phần trả lời câu hỏi.

56

(1)

(2)

(4)(3) (3)

Câu hỏi tự nhiên

Tiền xử lý câu hỏi

Phân tích câu hỏi

Tìm kiếm Lucene C SD L m ẫu Gợi ý trả lời Mở rộng câu truy vấn Bộ tương tác Tìm kiếm Lucence C SD L câ u Đánh chỉ mục Lucene Tiền xử lý dữ liệu Dữ liệu thô ViWiki Vietgle … Tách từ Nhận diện thực thể Xếp hạng thực thể Trích chọn câu trả lời Tách từ Nhận diện thực thể Xếp hạng thực thể Trích chọn câu trả lời Câu trả lời Máy tìm kiếm Câu trả lời Tập câu truy vấn mở rộng Danh sách ứng viên Thành phần câu hỏi đã gán nhãn Danh sách đường dẫn và snippet

Hình 2.4. Mơ hình hệ thống hỏi đáp thực thể tên người tiếng Việt

a. Thành phần phân tích câu hỏi

Hệ thống sẽ tiến hành phân tích câu hỏi dựa trên kỹ thuật gãn nhãn các thành phần câu hỏi nhƣ thành các từ/cụm từ/ngữ tƣơng ứng với các thành phần đặc trƣng (ví dụ đặc trƣng về loại câu hỏi, đặc trƣng về nghề nghiệp, chức vụ, thời gian, cụm động từ/danh từ/tính từ, v.v..). Bảng 2.7 đƣa ra một ví dụ về các thành phần câu hỏi.

Bảng 2.7. Ví dụ về một số thành phần câu hỏi

Câu hỏi:Chiếc máy ảnh đầu tiên do ai phát minh ra?

Chiếc máy ảnh Tân ngữ trực tiếp

đầu tiên Cụm từ bổ nghĩa thời gian cho tân ngữ

57

do ai Loại câu hỏi

phát minh ra Cụm động từ tác động lên đối tƣợng

Dựa trên các nghiên cứu đặc trƣng câu hỏi trong tiếng Anh và tiếng Việt đã đƣợc nêu ra trong phần 2.5.2, nghiên cứu sinh đã xây dựng một tập nhãn các thành phần câu hỏi thực thể tên ngƣời tổng quát nhƣ trình bày ở Bảng 2.8.

Bảng 2.8. Các thành phần xuất hiện trong câu hỏi về thực thể tên người

Ký hiệu Ý nghĩa

WH Nhãn đặc trƣng về loại câu hỏi D_Attr Nhãn đặc trƣng về nghề nghiệp, chức vụ D_Time Nhãn đặc trƣng về thời gian

D_Loc Nhãn đặc trƣng về địa điểm, nơi chốn

D_Other Các đặc trƣng khác

A_W Nhãn đặc trƣng về cụm tính từ tác động lên tân ngữ V_W Nhãn đặc trƣng về cụm động từ tác động lên tân ngữ N_W Nhãn đặc trƣng về cụm danh từ tác động lên tân ngữ

Obj Nhãn tân ngữ trực tiếp của câu hỏi

O Nhãn khác

Ở đây các tân ngữ gián tiếp đã đƣợc phân tích thành các cụm từ bổ nghĩa cho tân ngữ trực tiếp nhƣ bổ nghĩa về chức vụ, thời gian, địa điểm. Câu ví dụ tại bảng 2.7 sẽ đƣợc gán lại với các nhãn tổng quát nhƣ thể hiện tại Bảng 2.9.

Các câu hỏi đƣợc đƣa vào thành phần phân tích câu hỏi sẽ đƣợc gán nhãn tự động dựa trên mơ hình gán nhãn đƣợc sinh ra bằng phƣơng pháp học máy CRF (phƣơng pháp trƣờng ngẫu nhiên có điều kiện đã đƣợc trình bày tại phần 2.3.2). Mơ hình gán nhãn này đƣợc huấn luyện trên tập dữ liệu các câu hỏi tiếng Việt đã đƣợc gán các nhãn tổng quát. Trƣớc khi đƣợc gán nhãn, các câu hỏi sẽ đƣợc đƣa qua công cụ vTools [CTLA3] để tiến hành các bƣớc tiền xử lý nhƣ tách từ và gán nhãn từ loại.

58

Bảng 2.9. Ví dụ gán nhãn tổng quát cho câu hỏi về thực thể tên người tiếng Việt

Cụm từ Nhãn

Chiếc máy ảnh Obj

đầu tiên D_Time

do ai WH

phát minh ra V_W

Tập đặc trưng đƣợc sử dụng trong mơ hình huấn luyện gán nhãn thành phần

câu hỏi cũng đƣợc sử dụng nhƣ tập đặc trƣng đƣợc nêu ra trong phần 2.3.4 gồm các đặc trƣng về từ vựng, đặc trƣng về nhãn từ vựng, đặc trƣng từ điển, đặc trƣng tiền tố từ. Đối với đặc trƣng về từ điển, các danh sách từ chỉ nghề nghiệp, chức vụ cũng nhƣ địa danh sẽ đƣợc sử dụng để tăng cƣờng thơng tin cho mơ hình học.

Sau khi các câu hỏi đã gán nhãn, một số thành phần của câu hỏi sẽ đƣợc đƣa qua bƣớc mở rộng để tìm các từ đồng nghĩa liên quan nhằm đƣa thêm các thông tin hữu ích về câu hỏi phục vụ cho q trình trả lời. Ví dụ, thành phần cụm động từ tác động lên tân ngữ của câu hỏi trong bảng 2.9 (―phát minh ra‖) sẽ đƣợc mở rộng thêm các từ đồng nghĩa nhƣ ―tìm ra‖ hay ―nghiên cứu ra‖.Để phục vụ cho bƣớc mở rộng câu hỏi, một từ điển đồng nghĩa tiếng Việt đã đƣợc sử dụng nhằm hỗ trợ cho việc tìm thêm các thành phần bổ sung.

b. Thành phần xử lý dữ liệu trả lời

Để phục vụ cho q trình trả lời câu hỏi, các thơng tin liên quan đến miền dữ liệu về thực thể tên ngƣời đã đƣợc thu thập và xử lý. Dữ liệu này đòi hỏi phải đủ lớn để bao quát đƣợc miền dữ liệu hỏi cũng nhƣ đủ tin cậy để đảm bảo tính đúng đắn của kết quả trả lời. Trong các nhiệm vụ về hệ thống hỏi đáp tự động nhƣ TREC 2004, TREC 2006, TREC 2007 hay các nghiên cứu của Yangvà cộng sự[YYW15] cũng nhƣ nghiên cứu của Kaiser [Kai08]đã chỉ ra rằng dữ liệu từ Wikipedia đƣợc xem là nguồn dữ liệu tốt khi đảm bảo đƣợc số lƣợng dữ liệu lớn và mở cũng nhƣ đảm bảo đƣợc chất lƣợng thông tin về miền tri thức.

59

Dữ liệu tiếng Việt từ Wikipedia đƣợc cập nhập thƣờng xuyên và cung cấp tại trang web Wikipedia Downloads11, dữ liệu gồm khoảng 500.000 bài viết tiếng Việt (thống kê tại thời điểm tháng 09/2012) . Dữ liệu Wikipedia sau khi đƣợc tải về đƣợc đƣa qua công cụ vTools để tiến hành tách câu, tách từ và gán nhãn từ loại, dữ liệu cũng đƣợc gán nhãn thực thể sử dụng mơ hình nhận dạng thực thể và thuộc tính thực thể đã đƣợc trình bày tại mục 2.3.3. Sau khi tiền xử lý dữ liệu, một lƣợng lớn các câu không chứa thực thể tên ngƣời sẽ đƣợc loại bỏ, những câu có chứa thực thể tên ngƣời sẽ đƣợc đƣa vào lƣu trữ. Để dễ dàng tìm kiếm và thu thập kết quả trả lời, các câu trên sẽ đƣợc đánh chỉ mục và lƣu trữ bằng công cụ Apache Lucene12. Hơn 40 triệu câu tiếng Việt có chứa thực thể tên ngƣời đã đƣợc hệ thống lƣu trữ và đánh chỉ mục.

c. Thành phần trả lời câu hỏi

Đối với phƣơng pháp trả lời dựa vào nguồn tri thức tự thu thập, khả năng trả lời phụ thuộc vào độ rộng của kho tri thức. Số lƣợng dữ liệu của kho tri thức càng nhiều thì khả năng trả lời càng cao và ngƣợc lại. Phƣơng pháp đƣợc áp dụng trong thành phần trả lời câu hỏi đƣợc cải tiến từ phƣơng pháp AskMSR [BBD02], tuy nhiên thay vì chỉ sử dụng thống kê n-gram của từ/cụm từ trong các phần tóm tắt trả về từ máy tìm kiếm, hệ thống tiến hành thống kê theo các thực thể thu đƣợc từ quá trình NER các văn bản tóm tắt này. Việc sử dụng nhận dạng thực thể hứa hẹn sẽ đem lại kết quả tốt hơn. Các bƣớc đƣợc thực hiện để tìm kiếm câu trả lời cho câu hỏi về ngƣời nhƣ sau:

 Bƣớc 1: Từ các thành phần của câu hỏi đã đƣợc gán nhãn tổng quát lựa chọn một số thành phần chính để xây dựng câu truy vấn cho hệ thống lƣu trữ. Các nhãn đặc trƣng về thuộc tính (D_Attr, D_Time, D_Loc, D_Other), nhãn đặc

trƣng cụm từ (A_W, V_W, N_W) và nhãn tân ngữ (Obj) sẽ đƣợc sử dụng để

11https://dumps.wikimedia.org/ 12https://lucene.apache.org 12https://lucene.apache.org

60

xây dựng câu truy vấn. Ví dụ: câu hỏi ―Chiếc máy ảnh đầu tiên do ai phát minh

ra?‖ chuyển thành câu truy vấn đã đƣợc mở rộng nhƣ sau: ―chiếc máy ảnh‖ +

―đầu tiên‖ + ―phát minh ra‖ OR ―nghiên cứu ra‖. Một số tốn từ hỗ trợ cho việc tìm kiếm trong cộng cụ Lucene đƣợc sử dụng để xây dựng câu truy vấn dữ liệu hữu hiệu.

 Bƣớc 2: Câu truy vấn sẽ đƣợc đƣa vào hệ thống lƣu trữ và đánh chỉ mục để tìm kiếm các câu có chứa thực thể tên ngƣời có liên quan. Hệ thống sử dụng độ đo cosine để tính sự tƣơng quan giữa câu truy vấn và các câu có trong hệ thống lƣu trữ. Công thức cosine đƣợc diễn đạt nhƣ sau:

𝑐𝑜𝑠𝑖𝑛𝑒 𝑞, 𝑠 = 𝑉 (𝑞) ∙ 𝑉 (𝑠) 𝑉 (𝑞) 𝑉 (𝑠)

Với q là câu truy vấn, s là câu chứa thực thể có trong hệ thống lƣu trữ, 𝑉 (𝑞) là vector biểu diễn câu truy vấn q, 𝑉 (𝑠) là vector biểu diễn câu trong hệ thống lƣu trữ. Ở đây danh sách k câu có trọng số cao nhất sẽ đƣợc trả về từ hệ thống lƣu trữ, bên cạnh đấy các câu có giá trị đƣợc tính bằng cosine nhỏ hơn ngƣỡng t cho trƣớc sẽ đƣợc loại bỏ. Một số câu hỏi khơng có kết quả trả về nào đƣợc xem nhƣ là khơng trả lời đƣợc. Sau q trình nghiên cứu thử nghiệm, nghiên cứu sinh chọn k = 20 và t

= 0,3.

Tìm kiếm dựa trên máy tìm kiếm: Bên cạnh việc sử dụng các dữ liệu

Wikipedia tiếng Việt đã đƣợc đánh chỉ mục hệ thống cũng sử dụng thêm nguồn dữ liệu từ các máy tìm kiếm lớn nhƣ Google. Cách thức áp dụng dữ liệu từ máy tìm kiếm cũng tƣơng tự nhƣ trên hệ thống tự lƣu trữ và đánh chỉ mục. Câu truy vấn từ bƣớc 1 sẽ đƣợc đƣa vào máy tìm kiếm Google và lấy ra k tài liệu liên quan, các tài liệu sẽ đƣợc tách câu, nhận dạng thực thể để trích xuất các câu có chứa thực thể tên ngƣời liên quan đến câu hỏi, các câu này sau đấy cũng đƣợc tính trọng số cosine nhƣ cách thức đã đƣợc mô tả ở trên.

 Bƣớc 3: Thực thể tên ngƣời có trong các câu đƣợc trả về từ hệ thống lƣu trữ hay máy tìm kiếm sẽ đƣợc thống kê theo tần số xuất hiện. Thực thể có tần số xuất hiện lớn nhất đƣợc xem là câu trả lời cho câu hỏi đầu vào của hệ thống

61

hỏi đáp tự động. Nếu có nhiều thực thể có cùng tần số xuất hiện, hệ thống sẽ tự động chọn thực thể xuất hiện trong các câu có trọng số cosine lớn nhất.

Một phần của tài liệu (LUẬN án TIẾN sĩ) nghiên cứu nhận dạng thực thể có tên và thực thể biểu hiện trong văn bản và ứng dụng (Trang 57 - 63)

Tải bản đầy đủ (PDF)

(137 trang)