Phân loại câu hỏi

Một phần của tài liệu Một tiếp cận xây dựng hệ thống tổng hợp tin tức thể thao dựa trên web ngữ nghĩa767 (Trang 85)

Trước khi nh n biậ ết được câu truy v n và chuyấ ển đổi chúng sang d ng ng ạ ữ nghĩa, ta cần phân lo i chúng. Có nhi u y u t quyạ ề ế ố ết định vi c phân lo i. D a vào c u trúc ng pháp, ệ ạ ự ấ ữ luận án phân chia câu truy v n thành hai lo i: câu h i có t h i và câu h i nghi vấ ạ ỏ ừ ỏ ỏ ấn (yes/no). Đối v i d ng câu h i có t h i, d a vào nh ng thông tin th ớ ạ ỏ ừ ỏ ự ữ ể thao mà người dùng quan tâm, n án luậ t p trung x lý các d ng câu h i có t hậ ử ạ ỏ ừ ỏi như who, which, what, where và how many.

Ngoài ra, câu truy v n còn có th ấ ể được phân lo i d a trên lo i c a câu tr l i k v ng và ạ ự ạ ủ ả ờ ỳ ọ được mô t trong hình 3.1. T ả ừ ý tưởng này, lu n án phân lo i các câu truy v n thành các lo i ậ ạ ấ ạ như sau:

Câu hỏi vị ngữ (Predicative question), ví dụ:

• Which team defeated Chelsea this season?

• Who transferred to Barcelona this year?

• Which news is about Lionel Messi? • Whom did Wayne Rooney dispute with?

Câu hỏi nghi vấn (Yes/No question), ví dụ:

• Did Real Madrid win Bayern Munich yesterday? • Was Barcelona defeated by Chelsea yesterday?

Câu hỏi về định nghĩa (Definition question), ví dụ:

• Who is Lionel Messi? • What is FIFA?

Câu hỏi kết hợp (Association question), ví dụ:

• What is result of the match between Real Madrid and Barcelona? • What happen between Real Madrid and Barcelona?

Câu hỏi số lượng (Quantity question), ví dụ:

• How many goals were scored by Lionel Messi yesterday?

Câu hỏi nhiều chủ ngữ, nhiều tân ngữ (Multi-subject, multi-object question), ví dụ:

• Which team defeated Chelsea and Barcelona?

• Did Chelsea and Real Madrid defeat Barcelona in this season?

Câu hỏi về ý kiến (Opinion question), ví dụ:

75

Câu hỏi so sánh hơn, so sánh hơn nhất (Comparative, superlative question), ví dụ:

• Which team won 3 games this year?

• Which news contains at least 2 teams?

Thêm vào đó, hệ thống cũng chấp nhận câu mệnh lệnh như:

Câu mệnh lệnh (Imperative sentence), ví dụ:

• Show me news about Lionel Messi.

• Give me result of the match between Chelsea and Barcelona. Đầu vào

Câu m nh lệ ệnh Câu h iỏ

Cụm danh từ nhúng Câu hỏi nhúng Câu h i có t h i Câu h i nghi v n Câu rút g n (c m danh t ) Câu h i đ nh ch c (predicate) Câu h i đ nh nghĩa (definition) Câu h i liên k t (association) Câu h i s l ng (quantity) Câu h i có nhi u ch ng , tân ng Câu h i ý ki n, quan đi m (opinion) C t t m nh l nh Cắt từ mệnh lệnh

Hình 3.1Phân lo i các câu truy v nạ ấ

H ệ thống mà luận án xây dựng không đơn thuần là m t h ộ ệ thống hỏi đáp ngữ nghĩa (semantic-based QA). Nó còn được xây d ng theo tiêu chí tr giúp tự ợ ối đa người dùng đọc tin t c, giúp cho h không ch tìm ki m tin t c m t cách chính xác và nhanh chóng, mà còn tr v ứ ọ ỉ ế ứ ộ ả ề nh ng thông tin tri thữ ức có liên quan. Do đó, đố ớ ấ ỳi v i b t k loại câu truy v n nào nêu trên, h ấ ệ thống đều s chuyẽ ển đổi v câu truy v n dề ấ ạng SPARQL, và đảm b o r ng t câu truy v n ả ằ ừ ấ SPARQL được sinh ra đó các tin tức và các thông tin khác liên quan s ẽ được tr v n u chúng ả ề ế t n tồ ại trong cơ sở tri thức.

3.3.2 Chú thích và truy vn ng ữ nghĩa về tin t c th thao

Các truy v n ng ấ ữ nghĩa là đầu ra của phương pháp đề xu t trong nghiên c u này, vì vấ ứ ậy trước tiên ta cần xác định chúng s ẽ được bi u diể ễn như thế nào. Để có th tìm ki m thông tin ể ế t kho dừ ữ u ng liệ ữ nghĩa, các câu truy vấn c n có c u trúc phù h p v i c u trúc diầ ấ ợ ớ ấ ễn đạ ủt c a d ữ liệu trong kho dữ liệu ng ữ nghĩa. Tiểu m c này trình bày v ụ ề phương pháp biểu di n tin tễ ức dưới d ng các chú thích ng ạ ữ nghĩa và các mẫu truy v n ng ngấ ữ hĩa tương ứng.

Luận án xác định nh ng n i dung xoay quanh m t tin t c cữ ộ ộ ứ ần được chú thích ng ữ nghĩa bao g m hai ki u: ồ ể

(1) Các thu c tính c a tin t c (ví d ộ ủ ứ ụ như: URL, createtime, chủ đề …), các thự c th ể được nhắc đến trong tin t c (ví d ứ ụ như: cầu thủ, đội bóng, giải đấu …), và các thuộc tính c a các th c th ủ ự ể này (ví d ụ như: vị trí chơi của c u thầ ủ, đội bóng mà c u th ầ ủ đang chơi, giải đấu mà đội bóng tham gia ...). Đố ới v i nh ng n i dung này, lu n án bi u di n chú thích ng ữ ộ ậ ể ễ ữ nghĩa dưới d ng ạ RDF.

76 <owl:NamedIndividual rdf:about="http://bk.sport.owl#jonathan-viera"> <bksport:playFor rdf:resource="http://bk.sport.owl#ud-las-palmas"/> <protons:generatedBy rdf:resource="http://bk.sport.owl"/> <protons:hasAlias>Jonathan Viera</protons:hasAlias> <rdfs:label>Jonathan Viera</rdfs:label> <protons:mainLabel>Jonathan Viera</protons:mainLabel> <rdf:type rdf:resource="http://bk.sport.owl#Midfield"/> </owl:NamedIndividual>

(2) Các hoạt động mà tin tức đề ập đế c n (ví d : c u th ghi bàn, chuyụ ầ ủ ển nhượng c u th , trầ ủ ận đấu giữa hai đội bóng …). Đố ới v i nh ng n i dung này, lu n án xu t b bữ ộ ậ đề ấ ộ ốn (quadruple) để chú thích ng ữ nghĩa, vì đây là các sự ệ ki n di n ra trong ng c nh c a tin tễ ữ ả ủ ức.

Ví d : ụ

PREFIX bksport: <http://bk.sport.owl#>

<bksport#Romelu_Lukaku> <bksport#playFor> <bksport#manchester_united_fc> <bksport#namedgraph> .

Để truy vấn các thông tin trong cơ sở tri th c, lu n án s d ng cú pháp truy v n SPARQL. ứ ậ ử ụ ấ Ngôn ng SPARQL là m t ngôn ng truy v n ng ữ ộ ữ ấ ữ nghĩa cho cơ sở ữ d u, có kh liệ ả năng truy h i và thao tác trên các d ồ ữliệu được lưu trữ ở đị nh d ng RDF. ạ

Tương ứng v i hai d ng bi u di n chú thích ng ớ ạ ể ễ ữ nghĩa trên, ậlu n án cũng định nghĩa hai d ng khác nhau c a câu truy v n ng ạ ủ ấ ữ nghĩa SPARQL như sau:

• Đố ới v i nh ng bi u di n b ba, câu truy v n SPARQL s ữ ể ễ ộ ấ ẽ có khung như sau: SELECT/ASK

WHERE

{

// Query triple patterns }

• Đố ới v i nh ng bi u di n b b n, câu truy v n SPARQL s có ữ ể ễ ộ ố ấ ẽ khung như sau: SELECT/ASK

WHERE

{

?namedgraph {

// Query triple patterns }

}

3.4 Phương pháp chuyển đổi câu h i ngôn ng t nhiên sang truy v ữ ự n

SPARQL

T m c tiêu nghiên c u và k t qu kh o sát các nghiên c u liên quan, tác gi xu t mừ ụ ứ ế ả ả ứ ả đề ấ ột phương pháp cho phép chuyển đổi các câu hỏi dướ ại d ng ngôn ng t nhiên v tin t c th thao ữ ự ề ứ ể sang các câu truy v n bi u di n b ng ngôn ng SPARQL. ấ ể ễ ằ ữ Phương pháp luận án xuđề ất được mô t trong hình 3.2 gả ồm 5 giai đoạn chính. Quy trình x lý di n ra c ử ễ ụthể như sau. Câu hỏi đầu vào dạng ngôn ng t ữ ự nhiên trước tiên s ẽ được mô đun tiền x lý chuử ẩn hóa để các mô đun sau hoạt động hi u qu và chính xác. Câu hệ ả ỏi sau khi được ti n x lý s ề ử ẽ đi qua bộ phân tích cú pháp để phân tích các thành ph n ng pháp và m i quan h gi a các thành ph n ng ầ ữ ố ệ ữ ầ ữ pháp đó,

77

t ừ đó biểu di n câu hễ ỏi dưới d ng mô hình ng ạ ữ nghĩa. Từ mô hình ng ữ nghĩa, câu truy vấn SPARQL trung gian được sinh ra. Mô đun phát hiện th c th có tên, khái ni m và v t s chú ự ể ệ ị ừ ẽ thích các bi n trong câu truy v n SPARQL trung gian bế ấ ằng các URI trong ontology và cơ sở tri thức c a h ủ ệthống. Cu i cùng, câu truy v n SPARQL hoàn chố ấ ỉnh được sinh ra.

Hình 3.2Quy trình chuyển đổi câu h i t ngôn ng t nhiên sang SPARQLỏ ừ ữ ự

3.4.1 Tin x lý câu h i

Mô đun tiền x lý có nhi m v chu n hóa câu hử ệ ụ ẩ ỏi đầu vào d ng ngôn ng t ở ạ ữ ự nhiên để nâng cao hi u qu x ệ ả ử lý cho các mô đun sau. Những công vi c ti n x lý bao gệ ề ử ồm:

• Chu n hóa nh ng token không chu n: khi viẩ ữ ẩ ết người dùng thường có thói quen s d ng ử ụ nhi u ký hi u vi t t t. ề ệ ế ắ Luận án thống kê nh ng ký hi u vi t tữ ệ ế ắt thông thường và xây d ng nên b ng chu n hóa gự ả ẩ ồm hai trường. Trường th nh t là nh ng ký hi u vi t tứ ấ ữ ệ ế ắt thường dùng và trường th hai là nh ng t ng ứ ữ ừ ữ có ý nghĩa tương đương. Sau đó, ậlu n án n hành duy t t ng token trong câu truy v n, nh ng ký hi u vi t t t s tiế ệ ừ ấ ữ ệ ế ắ ẽ được thay thế ằ b ng nhóm t ừ tương ứng.

• Xác định thu c tính th i gian c a câu truy v n: lu n án th ng kê và phân lo i các nhãn ộ ờ ủ ấ ậ ố ạ thời gian thành các loại như sau:

+ Kho ng th i gian m t ngày: ví d ả ờ ộ ụ “today”, “yesterday”, …

+ Kho ng th i gian m t tu n: ví d ả ờ ộ ầ ụ “next week”, “last week”, …

+ Kho ng th i gian m t tháng: ví d ả ờ ộ ụ “next month”, “last month”, …

+ Kho ng th i gian mả ờ ột năm: ví dụ “next year”, “last year”, …

D a vào thự ời điểm người dùng truy v n, h ấ ệthống tính ra m t giá tr ộ ịthời gian c ụthể tương ứng v i t ng lo i nhãn thớ ừ ạ ời gian, sau đó thay thế các nhãn th i gian trong câu truy v n b ng ờ ấ ằ các giá tr c ị ụthể này.

Chuyn đổi tương đương giữa các truy vn: h ệthống ch p nh n c nhấ ậ ả ững đầu vào là câu m nh l nh ho c câu rút gệ ệ ặ ọn. Để ộ b phân tích cú pháp hoạt động đúng cũng như để đơn giản hóa vi c x lý ệ ử ở các bước sau, h ệthống chuyển đổi những câu như vậy v m t trong hai d ng ề ộ ạ câu h i chuỏ ẩn có ý nghĩa tương đương: dạng câu h i có t h i ho c d ng câu h i nghi vỏ ừ ỏ ặ ạ ỏ ấn (yes/no). Ví d , i v i câu hụ đố ớ ỏi: “news about Lionel Messi” sẽ được chuyển đổi thành câu hỏi chu n ng ẩ ữ pháp hơn là “Which news is about Lionel Messi?”.

78

3.4.2 Phân tích cú pháp

Đây là một giai đoạn quan tr ng, ọ ảnh hưởng nhi u t i k t qu cu i cùng. Vi c c n làm là ề ớ ế ả ố ệ ầ phải phân tích được các thành ph n ng pháp c a câu truy v n t ầ ữ ủ ấ ự nhiên, để t ừ đó có thể chuyển đổi chúng sang các thành ph n c u trúc c a truy vầ ấ ủ ấn SPARQL. Mô đun phân tích cú pháp xác định d ng th c câu truy v n, các thành ph n ng pháp trong câu truy v n và m i quan h gi a ạ ứ ấ ầ ữ ấ ố ệ ữ chúng. Để làm đượ ấ ảc t t c những điều này, tác gi ti n hành phân tích g n nhãn t lo i (Part-ả ế ắ ừ ạ Of-Speech Tagging), cây c u trúc c m t (Phrase Structure Tree) và các ph thu c theo loấ ụ ừ ụ ộ ại (Typed Dependencies). K t qu cế ả ủa các bước phân tích trên s ẽ được s d ng trong các tác v ử ụ ụ ở giai đoạn sau như xác định d ng câu truy v n, xây d ng các quan h b ba, chú thích th c ạ ấ ự ệ ộ ự thể ớ, l p và thu c tính. ộ

Cây c u trúc c m t là m t cách trấ ụ ừ ộ ực quan để ể bi u diễn đầu ra c a quá trình phân tích cú ủ pháp c a câu. Nó ch ra ba khía c nh c a củ ỉ ạ ủ ấu trúc câu như sau:

• Thứ ự t tuy n tính c a các t trong câu. ế ủ ừ

• Các nhóm t ừ đi với nhau t o thành c m t . ạ ụ ừ

• C u trúc phân c p c a các c m t . ấ ấ ủ ụ ừ

Ví d , v i câu truy vụ ớ ấn “Which news is about Lionel Messi?”, ta thu được m t cây c u trúc ộ ấ c m t ụ ừ được minh h a trong hình 3.3 ọ dưới đây:

Hình 3.3Ví d v cây c u trúc c m t trong câuụ ề ấ ụ ừ

Trong đó, nút gốc c a ủ cây xác định d ng c a câu truy v n. ạ ủ ấ

Phụ thu c theo lo i là các bi u di n c a các quan h ng pháp gi a các t trong m t câu. ộ ạ ể ễ ủ ệ ữ ữ ừ ộ Chúng d hi u và h u ích cho nh ng ai mu n trích rút các quan h ễ ể ữ ữ ố ệ trong văn bản. M i ph ỗ ụ thu c theo lo i là m t b ba c a: tên quan h , thành phộ ạ ộ ộ ủ ệ ần điều khi n, và thành ph n ph thu c. ể ầ ụ ộ Ví dụ, đố ới v i câu truy vấn “Which news is about Lionel Messi?”, hệthống phân tích ra các ph thu c theo loụ ộ ại như sau:

det(news-2, Which-1) attr(is-3, news-2) root(ROOT-0, is-3) nn(Messi-6, Lionel-5) prep_about(is-3, Messi-6)

Ở đây các t vi t từ ế ắt được định nghĩa trong bài báo [136] như sau:

Det (vi t t t c a determiner) là quan h gi a phế ắ ủ ệ ữ ần đầu c a m t c m danh t và t hủ ộ ụ ừ ừ ạn định (determiner) c a nó. M t s ví d v t hủ ộ ố ụ ề ừ ạn định là: a, an, the, some, which, your ...

Attr (vi t t t c a attributive) là quan h dành cho b ng c a mế ắ ủ ệ ổ ữ ủ ột động t n i (copular verb) ừ ố như “to be (is, am, are, was, were)”, “to seem”, “to appear”, “to look”, “to sound”, “to smell”, “to taste” …

79

Nn: là quan h gi a m t tính t ghép v i m t danh t . ệ ữ ộ ừ ớ ộ ừ

Prep: t b ừ ổ nghĩa giớ ừ ủi t c a một động t , tính t ho c danh t là m t c m gi i t ừ ừ ặ ừ ộ ụ ớ ừ đảm nhiệm thay đổi ý nghĩa của động t , tính t , danh t ho c th m chí m t gi i t khác. ừ ừ ừ ặ ậ ộ ớ ừ Trong phân tích cú pháp, có nhi u nhóm ph thu c theo loề ụ ộ ại, nhưng trong nghiên cứu này luận án ch ỉ quan tâm đến m t s nhóm ph thu c theo lo i nhộ ố ụ ộ ạ ất định. Chúng th hi n m t s ể ệ ộ ố d ng ph thu c (ràng bu c) gi a các thành ph n cạ ụ ộ ộ ữ ầ ủa câu truy vấn, ví d ụ như: chủ thể - động t , ừ động t - ừ đối tượng, động t b ừ ị động - tác nhân, t - gi i t ừ ớ ừ đi kèm, danh t - tính t b ừ ừ ổ nghĩa… Các ph thu c theo loụ ộ ại này xác định các t quan tr ng trong câu và m i quan h gi a chúng. ừ ọ ố ệ ữ Trên cơ sởđó, luận án xây d ng nên các ràng bu c quan h b ba (constraint by triple patterns) ự ộ ệ ộ trong câu truy v n SPARQL. ấ

Luận án cài đặt tác v phân tích g n nhãn t ụ ắ ừloại, cây c u trúc c m t và ph thu c theo loấ ụ ừ ụ ộ ại trong đó có tái sử ụng thư việ d n Stanford Parser.

3.4.3 Biu din ng ữ nghĩa cho câu hỏi

3.4.3.1 Mô hình bi u diể ễn ngữ nghĩa cho câu hỏi

Luận án xu t m t mô hình bi u di n ng đề ấ ộ ể ễ ữ nghĩa bao phủ hai d ng câu h i ạ ỏ cơ bản: d ng ạ câu h i có t h i và d ng câu h i nghi v n (yes/no). Mô hình bi u di n ng ỏ ừ ỏ ạ ỏ ấ ể ễ ữ nghĩa câu hỏi được trình bày chi ti t trong b ng 3ế ả .1 dưới đây.

B ng 3.1.ả Mô hình biểu di n ng ễ ữ nghĩa câu hỏi Danh sách các bi n: ế

+ Bi n truy v n (truy vế ấ ấn s ốlượng, truy vấn đối tượng). + Biến thông thường.

Các ràng bu c cho các biộ ến: + Ràng bu c nhãn cộ ủa bi ến.

+ Ràng bu c quan h ộ ệphụ thu c gi a các bi ộ ữ ến. + Ràng bu c v s ộ ề ố lượng

Ràng bu c cho các quan h ph thu ộ ệ ụ ộc: + Ràng bu c AND/OR. ộ

+ Ràng bu c th i gian. ộ ờ

Ý nghĩa của từng thành phần trong mô hình ngữ nghĩa trên như sau:

a) Danh sách các bi nế

Mỗi biến trong danh sách biến đại diện cho một từ (token) trong câu hỏi. Tên biến được đặt theo quy tắc: “chuỗi kí tự” + ID (ví dụ: ?x1, ?x2, …). Nhãn của biến chính là từ mà nó đại diện. Các biến được chia thành hai loại:

• Biến truy v n: là nh ng bi n n ch a thông tin c n tr v c a câu truy v n. ấ ữ ế ẩ ứ ầ ả ề ủ ấ • Biế hườn t ng: là nh ng bi n còn l i. ữ ế ạ

Đối với dạng câu hỏi có từ hỏi, yêu cầu tồn tại ít nhất một biến truy vấn trong danh sách các biến, còn đối với dạng câu hỏi nghi vấn (yes/no) thì không tồn tại biến truy vấn. Tên của biến truy vấn được thêm dấu “?” phía trước để phân biệt với biến thường. Tác giả biểu diễn biến truy vấn dưới hai dạng: biến truy vấn số lượng đối với câu hỏi có từ hỏi là “how many” (biểu diễn trong danh sách biến là COUNT(?tên_biến)) và biến truy vấn đối tượng đối với những câu hỏi có từ hỏi là “who/what/which/where” (biểu diễn trong danh sách biến là ?tên_biến).

80 b) Các ràng bu c cho các bi n ế

• Ràng bu c nhãn c a bi n: m i bi n s có nhãn là t ộ ủ ế ỗ ế ẽ ừ mà nó đại di n. ệ

Một phần của tài liệu Một tiếp cận xây dựng hệ thống tổng hợp tin tức thể thao dựa trên web ngữ nghĩa767 (Trang 85)

Tải bản đầy đủ (PDF)

(130 trang)