Phân tích cú pháp

Một phần của tài liệu Một tiếp cận xây dựng hệ thống tổng hợp tin tức thể thao dựa trên web ngữ nghĩa767 (Trang 89 - 90)

Đây là một giai đoạn quan tr ng, ọ ảnh hưởng nhi u t i k t qu cu i cùng. Vi c c n làm là ề ớ ế ả ố ệ ầ phải phân tích được các thành ph n ng pháp c a câu truy v n t ầ ữ ủ ấ ự nhiên, để t ừ đó có thể chuyển đổi chúng sang các thành ph n c u trúc c a truy vầ ấ ủ ấn SPARQL. Mô đun phân tích cú pháp xác định d ng th c câu truy v n, các thành ph n ng pháp trong câu truy v n và m i quan h gi a ạ ứ ấ ầ ữ ấ ố ệ ữ chúng. Để làm đượ ấ ảc t t c những điều này, tác gi ti n hành phân tích g n nhãn t lo i (Part-ả ế ắ ừ ạ Of-Speech Tagging), cây c u trúc c m t (Phrase Structure Tree) và các ph thu c theo loấ ụ ừ ụ ộ ại (Typed Dependencies). K t qu cế ả ủa các bước phân tích trên s ẽ được s d ng trong các tác v ử ụ ụ ở giai đoạn sau như xác định d ng câu truy v n, xây d ng các quan h b ba, chú thích th c ạ ấ ự ệ ộ ự thể ớ, l p và thu c tính. ộ

Cây c u trúc c m t là m t cách trấ ụ ừ ộ ực quan để ể bi u diễn đầu ra c a quá trình phân tích cú ủ pháp c a câu. Nó ch ra ba khía c nh c a củ ỉ ạ ủ ấu trúc câu như sau:

• Thứ ự t tuy n tính c a các t trong câu. ế ủ ừ

• Các nhóm t ừ đi với nhau t o thành c m t . ạ ụ ừ

• C u trúc phân c p c a các c m t . ấ ấ ủ ụ ừ

Ví d , v i câu truy vụ ớ ấn “Which news is about Lionel Messi?”, ta thu được m t cây c u trúc ộ ấ c m t ụ ừ được minh h a trong hình 3.3 ọ dưới đây:

Hình 3.3Ví d v cây c u trúc c m t trong câuụ ề ấ ụ ừ

Trong đó, nút gốc c a ủ cây xác định d ng c a câu truy v n. ạ ủ ấ

Phụ thu c theo lo i là các bi u di n c a các quan h ng pháp gi a các t trong m t câu. ộ ạ ể ễ ủ ệ ữ ữ ừ ộ Chúng d hi u và h u ích cho nh ng ai mu n trích rút các quan h ễ ể ữ ữ ố ệ trong văn bản. M i ph ỗ ụ thu c theo lo i là m t b ba c a: tên quan h , thành phộ ạ ộ ộ ủ ệ ần điều khi n, và thành ph n ph thu c. ể ầ ụ ộ Ví dụ, đố ới v i câu truy vấn “Which news is about Lionel Messi?”, hệthống phân tích ra các ph thu c theo loụ ộ ại như sau:

det(news-2, Which-1) attr(is-3, news-2) root(ROOT-0, is-3) nn(Messi-6, Lionel-5) prep_about(is-3, Messi-6)

Ở đây các t vi t từ ế ắt được định nghĩa trong bài báo [136] như sau:

Det (vi t t t c a determiner) là quan h gi a phế ắ ủ ệ ữ ần đầu c a m t c m danh t và t hủ ộ ụ ừ ừ ạn định (determiner) c a nó. M t s ví d v t hủ ộ ố ụ ề ừ ạn định là: a, an, the, some, which, your ...

Attr (vi t t t c a attributive) là quan h dành cho b ng c a mế ắ ủ ệ ổ ữ ủ ột động t n i (copular verb) ừ ố như “to be (is, am, are, was, were)”, “to seem”, “to appear”, “to look”, “to sound”, “to smell”, “to taste” …

79

Nn: là quan h gi a m t tính t ghép v i m t danh t . ệ ữ ộ ừ ớ ộ ừ

Prep: t b ừ ổ nghĩa giớ ừ ủi t c a một động t , tính t ho c danh t là m t c m gi i t ừ ừ ặ ừ ộ ụ ớ ừ đảm nhiệm thay đổi ý nghĩa của động t , tính t , danh t ho c th m chí m t gi i t khác. ừ ừ ừ ặ ậ ộ ớ ừ Trong phân tích cú pháp, có nhi u nhóm ph thu c theo loề ụ ộ ại, nhưng trong nghiên cứu này luận án ch ỉ quan tâm đến m t s nhóm ph thu c theo lo i nhộ ố ụ ộ ạ ất định. Chúng th hi n m t s ể ệ ộ ố d ng ph thu c (ràng bu c) gi a các thành ph n cạ ụ ộ ộ ữ ầ ủa câu truy vấn, ví d ụ như: chủ thể - động t , ừ động t - ừ đối tượng, động t b ừ ị động - tác nhân, t - gi i t ừ ớ ừ đi kèm, danh t - tính t b ừ ừ ổ nghĩa… Các ph thu c theo loụ ộ ại này xác định các t quan tr ng trong câu và m i quan h gi a chúng. ừ ọ ố ệ ữ Trên cơ sởđó, luận án xây d ng nên các ràng bu c quan h b ba (constraint by triple patterns) ự ộ ệ ộ trong câu truy v n SPARQL. ấ

Luận án cài đặt tác v phân tích g n nhãn t ụ ắ ừloại, cây c u trúc c m t và ph thu c theo loấ ụ ừ ụ ộ ại trong đó có tái sử ụng thư việ d n Stanford Parser.

Một phần của tài liệu Một tiếp cận xây dựng hệ thống tổng hợp tin tức thể thao dựa trên web ngữ nghĩa767 (Trang 89 - 90)

Tải bản đầy đủ (PDF)

(130 trang)