Các ngữ nghĩa bộ ba đơn giản

Một phần của tài liệu Một tiếp cận xây dựng hệ thống tổng hợp tin tức thể thao dựa trên web ngữ nghĩa767 (Trang 63)

Trong tin t c th thao, có m t s ng ứ ể ộ ố ữ nghĩa ổ ế ở ạph bi n d ng b ba <subject> <predicate> ộ

<object> di n t các s kiễ ả ự ện, hành động, k t qu ế ả … Ví d , tin t c th thao có th ụ ứ ể ể chứa “Barcelona won Arsenal”, “Alex Ferguson defends Wayne Rooney”, “Cristiano Ronaldo’s transfer to Juventus” … Người dùng khi tìm đọc tin t c có th mu n tìm ki m các thông tin ứ ể ố ế trên. Vì v y, m t trong nh ng thuậ ộ ữ ật toán đầu tiên được đề xuất là để phát hi n các ng ệ ữ nghĩa này.

Có ba m u trẫ ừu tượng chính mô t ng ả ữ nghĩa như sau:

53

b) <Organization> <relation> <Organization>. Ví d , <Manchester City> <defeat> <Arsenal> ụ ho c <Barcelona> <1:3> <Real Madrid>. ặ

c) <Person> <relation> <Organization>. Ví d , <Romelu Lukaku> <transferTo> <Manchester ụ United>.

V i mớ ẫu đầu tiên, Person có th là th c th ể ự ể có tên như Marcus Rashford, Lionel Messi, hoặc khái niệm như Striker, Coach, hoặc đại t ừ như he, they. Quan hệ giữa các Person được xác định b ng ontology, ví d <Person> <support> <Person>, <Person> <remind> <Person>. M t quan ằ ụ ộ

h có th ệ ể được mô t b i nhiả ở ều nhãn khác nhau tương ứng v i các t ớ ừ đồng nghĩa, ví dụ “surprise” và “stun” cùng mô tả quan h <surprise>. ệ

V i m u th hai (<Organization> <relation> <Organization>), lu n án t p trung vào k t qu ớ ẫ ứ ậ ậ ế ả c a m t trủ ộ ận đấu ho c thông tin v mặ ề ột CLB đối đầu v i m t CLB khác. ớ ộ

Luận án s d ng m u cuử ụ ẫ ối cùng để trích rút thông tin v ề thái độ ủ c a c u th /hu n luy n ầ ủ ấ ệ viên/trọng tài đố ới v i một CLB/liên đoàn/giải đấu.

2.3.6.2 Ngữ nghĩa về thực thể quan tr ng trong tin t c ọ ứ

Bên c nh vi c phát hi n các c p b ba ng ạ ệ ệ ặ ộ ữ nghĩa đơn giản, luận án còn xu t thu t toán đề ấ ậ sinh chú thích ng ữ nghĩa cho các th c th có tên xu t hi n trong tin t c. Quan trự ể ấ ệ ứ ọng hơn là nh ng chú thích cho các th c th ữ ự ể liên quan đến nh ng thông tin quan tr ng trong tin t c. Nhiữ ọ ứ ệm v ụ này liên quan đến việc xác định các th c th chính mà tin tự ể ức đề ập đế c n, bên c nh vi c t o ạ ệ ạ siêu d ữliệu cơ bản như các tiêu đề. Thu t toán ậ định nghĩa một tr ng s cho m i ọ ố ỗ thể ện để hi xác định xem nó có quan tr ng trong m c tin hay không. Vi c tính toán tr ng s này d a trên t n ọ ụ ệ ọ ố ự ầ suất xu t hi n c a m i th hi n, v trí xu t hi n c a chúng ấ ệ ủ ỗ ể ệ ị ấ ệ ủ trong văn bản, mvà ối quan h gi a ệ ữ thể ệ hi n v i các khái ni m khác có trong ontology. Ngoài ra, khi áp d ng lu t trích ớ ệ ụ ậ chọn, tr ng ọ s ph thu c gi a l p c a th hi n ố ụ ộ ữ ớ ủ ể ệ cũng được so kh p v i chính luớ ớ ật đó. Thu t toán trích rút ậ các s ki n ự ệ đơn giản và các th c th quan tr ng trong tin t c ự ể ọ ứ được trình bày như sau:

Thuật toán 1: Sinh các chú thích ngữ nghĩa về thực thể quan trọng trong tin tức

Input: wcc – trọng số của khái niệm (lớp) c đối với nội dung tin tức wtc – trọng số của khái niệm c đối với tiêu đề của tin tức

wdc – trọng số khoảng cách giữa khái niệm c đối với các khái niệm khác wrc – trọng số của khái niệm c đối với luật trích chọn r

R – tập các luật trích chọn, Wtotal = 0

Output:tập các bộ ba (triple) diễn đạt thông tin tin tức có tiêu đề là gì, liên quan đến các thực thể quan trọng nào.

Trích chọn bộ ba: <webpage.uri bk:hasTitle webpage.title>

for eachthực thể có tên được xác định là một thể hiện của khái niệm i c m = số lần xuất hiện của i trong tiêu đề.

Wtitle-i = m* wtc

k = số lần xuất hiện của i trong nội dung tin. Wcontent-i = k* (wcc + wdc), Wsemantic-i = 0

foreachsenϵ {tập các câu trong tin tức} do foreachluật R do rϵ

so sánh rvớiannotations ϵsen if rkhớp với thể hiện i{

Trích chọn bộ ba tương ứng vớir Wsemantic-i = Wsemantic-i + wrc

endfor endfor

Wi = Wtitle i - + Wcontent-i W+ semantic-i Wtotal = Wtotal + Wi

54

meanW = Wtotal / number of entities

for eachthực thể có tên được xác định trong tin tức i if Wi > meanW

Trích chọn bộ ba <webpage.uri bk:about element.uri.> else Trích chọn bộ ba

<webpage.uri bk:contain element.uri.> endfor

Ý tưởng chính c a thu t toán ủ ậ đề xu t là: các luấ ật được so kh p vớ ới nhãn chú thích được phát hi n bệ ởi mô đun trích rút thực th có tên (NEE) trong tể ừng câu để tìm ra thông tin ng ữ nghĩa. Vấn đề là trong s r t nhi u th c th ố ấ ề ự ể có tên được phát hi n, th c th ệ ự ể nào được quyết định là quan tr ng v i tin t c. Tr ng s ọ ớ ứ ọ ốcuối cùng c a m t th hiủ ộ ể ện tương ứng v i mớ ột chú thích được đánh giá dựa trên s l n xu t hi n c a nó trong tin t c và tr ng s c a lu t so kh p. M i th ố ầ ấ ệ ủ ứ ọ ố ủ ậ ớ ỗ ể hiện được l a ch n là quan trự ọ ọng đố ới v i tin t c n u tr ng s c a nó lứ ế ọ ố ủ ớn hơn trọng s trung bình ố c a t t c các th hi n. ủ ấ ả ể ệ

D u thông tin quan tr ng c a tin tữliệ ọ ủ ức và tiêu đềchứa ý chính c a tin t c. Trong r t nhiủ ứ ấ ều trường h p, ngợ ữnghĩa được trích rút t ừ tiêu đề là thông tin chính c a tin tủ ức. Do đó, luận án tập trung phân tích tiêu đề c a tin t c. M i th hiủ ứ ỗ ể ện được xác định trong tiêu đề có tr ng s lọ ố ớn hơn các th hi n khác. ể ệ

2.3.6.3 Chú thích ng ữ nghĩa về tuyên bố gián ti p ế

Bên c nh các m i quan h ạ ố ệ thông thường, các tuyên b gián tiố ếp cũng rất thường xuyên được đưa ra trong tin tức th ể thao. Cũng tương tự như các quan hệ khác, quan h ệ này cũng được xác định dựa trên các mô hình được xây d ng t t p t khóa mô t các quan h . B ng 2ự ừ ậ ừ ả ệ ả .1 dưới đây mô t các t khóa và mô hình ả ừ xác định quan h này. ệ

B ng 2.1.ả T khóa cho các câu tuyên b gián ti pừ ố ế

T khóa Mô hình

“say that”, “said that”, “announce”, “speech” {SportPerson} [t khóa] {Statement} ừ “statement”, “added” {Statement}, {SportPerson} [t khóa] ừ

T các quan h ừ ệ được mô t ả trong BKSport Ontology và các mô hình tương ứng v i các quan ớ h ệ đó, tác giả đã sử ụng JAPE để d xây d ng các luự ật xác định quan h . M i quan h s có mệ ỗ ệ ẽ ột luật tương ứng xác định. Tuy nhiên, t t c u hoấ ả đề ạt động theo m t nguyên t c chung: n u mộ ắ ế ột mô hình được tìm th y, thì s sinh quan h ấ ẽ ệ tương ứng.

Riêng đối với trường h p nh n d ng câu tuyên b gián ti p, n án ợ ậ ạ ố ế luậ đi sâu vào phân tích các mệnh đề gián ti p theo sau "said that ", "announce". Viế ệc xác định và sinh các chú thích ng ữ nghĩa trong trường hợp này được trình bày như sau:

Thu t toán 2: Sinh các chú thích ng ữ nghĩa về tuyên b gián ti p ế

Input:P = {A “said that”/”announce B”};

//P là m t m u tuyên bộ ẫ ố gián ti p (ví dế ụ, A “said that” B, A “announce” B…) Output: Các b ba (triple) diộ ễn đạt tuyên b gián ti p ố ế

foreach (Chú_thích p trong P) do { statement = p.get(“B”); //chú thích các tuyên b ố

annotationSet = BKSport.annotate(statement); (Annotation annotation annotationSet){

55 if(annotation.contains(“semantic”)) { o tuyên b gi ng v i chú thích //Tạ ố ố ớ subject=annotation.get(“subject”); predicate=annotation.get(“predicate”); object=annotation.get(“object”); //Sinh các b ba ộ

<A> <bksport:said that> <statement>; <statement> <rdf:subject> subject; <statement> <rdf:predicate> predicate; <statement> <rdf:object> object; endif

endfor endfor

2.3.6.4 Chú thích ngữ nghĩa ề tin tứv c chuyển nhượng

Trong th thao, chuyể ển nhượng là m t phân khúc tin t c h p d n vộ ứ ấ ẫ ới các độc gi Các tin ả. t c v m t c u th chuy n t câu l c b này sang câu l c b khác ho c ký k t hứ ề ộ ầ ủ ể ừ ạ ộ ạ ộ ặ ế ợp đồng giữa hai câu l c b ạ ộ đều được đăng tải trên nhi u ngu n tin t c khác nhau. Các chú thích ng ề ồ ứ ữ nghĩa v tin t c trong ch ề ứ ủ đềđặc thù này, n u có th ế ể được t o ra s làm phong phú thêm t p chú thích ạ ẽ ậ ng ữ nghĩa của h ệthống BKSport và s ẽ được khai thác b i các chở ức năng của c ng tin t c ví dổ ứ ụ như giao diện t ng h p tin t c chuyổ ợ ứ ển nhượng, tìm ki m ng ế ữ nghĩa, liệt kê các tin t c liên quan. ứ Tuy nhiên, chưa có nhiều nghiên cứu quan tâm đến vấn đề này. Không giống như thông tin về k t qu các trế ả ận đấu ho c thông tin th thao khác, thông tin chuyặ ể ển nhượng bóng đá hàm chứa nhi u ng ề ữ nghĩa đặc thù do đó việc trích rút chúng s d ng mô hình b ử ụ ộ ba đơn giản khó đạt hi u qu cao. Lu n ệ ả ậ án đề xu t mấ ột phương pháp thích hợp để trích rút nh ng ng ữ ữ nghĩa này, bổ sung vào k t qu chung c a lu n án v bài toán sinh chú thích ng ế ả ủ ậ ề ữ nghĩa cho tin tức th thao. ể Các k t qu nghiên cế ả ứu liên quan được tác gi trình bày trong ả bài báo “A novel approach for automatic extraction of semantic data about football transfer in sport news ” tại tạp chí

International Journal of Pervasive Computing and Communications (2015). a) M t s mộ ố ẫu xác định quan h chuy ển nhượng trong tin t c

Tin tức được diễn đạ ằt b ng ngôn ng t nhiên v i các cữ ự ớ ấu trúc văn phạm và ng ữ nghĩa đa d ng và ph c t p. Luạ ứ ạ ận án không đặt m c tiêu tìm ra m t tụ ộ ập các mô hình đại di n cho t t c ệ ấ ả các ng ữ nghĩa có thể v chuyề ển nhượng mà hướng t i viớ ệc xác định được các thành ph n ngôn ầ ng c u thành nên nh ng ng ữ ấ ữ ữ nghĩa quan trọng. T nh ng kh o sát và nghiên c u trên nhiừ ữ ả ứ ều tin t c chuyứ ển nhượng bóng đá để ố ắ c g ng tìm ra m t s ộ ố điểm chung v c u trúc và các thành ề ấ phần văn phạm c a các ng ủ ữ nghĩa này, tác giả đi sâu phân tích mô hình bộ ba đơn giản để đề xu t ba m u ấ ẫ xác định ng ữ nghĩa về chuyển nhượng như hình 2.14 sau:

56

Hình 2.14Các thành ph n ngôn ng t nhiên trong m u ầ ữ ự ẫ xác định các quan h chuyệ ển nhượng Các thành phần cơ bản c u thành các m u ấ ẫ xác định trên bao g m các th c th có tên (named ồ ự ể entity), cụm động t (phrasal verb). ừ Vì lĩnh vực đang được xem xét là lĩnh vực chuyển nhượng bóng đá, cho nên “thực th ể có tên” thường ch ỉ là con người th thao hoể ặc đội bóng. “Phrasal Verb” ởđây là cụm t ừchứa “verb” + “adverb” hoặc “verb” + “preposition”. Các động t mô t ừ ả thu c tính cộ ủa các quan h chuyệ ển nhượng, và “thời” của động t s ừ ẽ xác định quan h thu c v ệ ộ ề một trong ba trường hợp sau đây:

• Chuyển nhượng đã ảx y ra

• Chuyển nhượng có th xể ảy ra trong tương lai gần, và

• Chuyển nhượng đã không thành công

“Thời” của động t ph thu c vào d ng cừ ụ ộ ạ ủa động t ho c ph thu c vào nh ng t mang ý ừ ặ ụ ộ ữ ừ nghĩa và đứng trước động t . Trong ví dừ ụ: “Former Rangers goalkeeper Scott Gallacher has signed a two-year deal at Hearts”, động t ừ “signed” cho thấy r ng chuyằ ển nhượng đã xảy ra. M t ví d ộ ụ khác: “Barcelona forward Messi will make a new contract”. Từ “will” đứng trước động t ừ “make” cho thấ ằng trườy r ng h p này chuyợ ển nhượng chưa xảy ra nhưng có thể ả x y ra trong tương lai gần.

C ụthể hơn, trong hình 2.15 bên dưới, lu n án trình bày mô hình ậ xác định cụm động t ừ như sau:

<Extra Verb> <Main Verb> <Adverb/Preposition> Trong đó:

• “Extra Verb” (trợ độ ng t ) là các t ừ ừ đứng ngay trước động t chính, cho biừ ết hành động ho c s ki n chuyặ ự ệ ển nhượng rơi vào một trong ba trường h p sau: (1) s kiợ ự ện chưa xảy ra nhưng có thể ảy ra trong tương lai gầ x n, (2) s kiự ện đã xảy ra, và (3) s ki n không ự ệ x y ra. ả

• “Main Verb” là động t chính cừ ủa “phrasal verb”.

57

Hình 2.15Các m u bi u di n cẫ ể ễ ụm động từ

Nếu không có “extra verb” trước “main verb”, tác giả cho r ng s kiằ ự ện đã xảy ra (ng ữ nghĩa tích c c). ự

Nếu có “extra verb” trước “main verb”, có hai trường h p x y ra: ng ợ ả ữ nghĩa phủ đị nh và ng ữ nghĩa đại di n cho các kh ệ ả năng:

• “extra verb” mang ý nghĩa tương lai gần, cho biết hành động ho c s ki n có th x y ra ặ ự ệ ể ả trong tương lai, ví dụ “could”, “prepare”, “will”, “consider”.

• “extra verb” mang ý nghĩa phủ đị nh, cho biết hành động ho c s kiặ ự ện đã không và sẽ không x y ra, ví d ả ụ “not”, “no”, “don’t”, “fail”, “reject”.

b) Quy trình xác định ngữ nghĩa quan hệ chuyển nhượng

Để ự th c hi n ệ xác định ng ữ nghĩa quan hệ chuyển nhượng, các lu t ậ xác định trích rút và để nh n bi t các quan h ng ậ ế ệ ữ nghĩa chuyển nhượng đã được thi t k . JAPE [116] ế ế đượ ực l a chọn là ngôn ng bi u di n lu t b i vì nó có nhiữ ể ễ ậ ở ều ưu điểm. JAPE là m t thành ph n c a GATE, ộ ầ ủ dùng để xác định các th c th ự ể được xác định b ng các lu t, nó là ngôn ng ằ ậ ữ được s dử ụng để vi nên các bi u th c chính quy thông qua các chú thích. ết ể ứ

Đầu tiên, văn bản được chia thành các câu, m i câu mang m t nỗ ộ ội dung nào đó. Các câu thường bắt đầu và k t thúc b i dế ở ấu câu như dấu chấm “.”, dấu ch m phấ ảy “;” hoặ ừc t cho bi t ế s bự ắt đầu c a n i dung mủ ộ ới như “while”, “however”, “but”, vì thế ta có th dùng các luể ật để d dàng th c hiễ ự ện điều này. Sau đó, mỗi câu s ẽ được đem so khớp v i m t danh sách các lu t. ớ ộ ậ

Luận án ch xem xét các th c th có tên và các cỉ ự ể ụm động t , vì v y các t không liên quan ừ ậ ừ s b b ẽ ị ỏ qua. Đố ới v i các cụm động t , b i vì mừ ở ột động t có thừ ể trong nhi u d ng khác nhau ở ề ạ và nhi u t khác nhau có th di n t cùng m t lo i quan h ng ề ừ ể ễ ả ộ ạ ệ ữ nghĩa (ví dụ, “move to”, “big moves”, “transferred to” tấ ả đềt c u di n t quan h ễ ả ệ “bksport:transferTo”), cho nên trong khi định nghĩa các luật, các động t ừ có liên quan cũng đượ ậc t p h p vào trong các t p t v ng. Ví ợ ậ ừ ự d , m t t p t v ng bi u di n vi ký kụ ộ ậ ừ ự ể ễ ệc ết được định nghĩa như sau:

Macro: SIGN (

{Token.string=="sign"}|{Token.string=="signs"}|{Token.string=="signed"}|{Token.string=="signing"}|{ Token.string=="signature"}

)

Dưới đây là 2 phần c a hai lu t ủ ậ xác định, Sign01 và Transfer01:

Rule:Sign01 Priority:80 (

({SportPerson}):p1

58

(SIGN)

({Token.string!=”.”, Token.string!=”;”, Token.string!=”,”})*

):sign Rule: Transfer01 Priority: 70 ( ({SportPerson})p ({Token.string!=”.”, !SportPerson})* (TRANSFER) ({Token.string!=”.”, !SportPerson})* ({SportTeam}:t ):transfer

Để xác định trong hai trường h p này: s ki n chuyợ ự ệ ển nhượng s xẽ ảy ra trong tương lai gần và s ki n chuyự ệ ển nhượng không x y ra, lu n án d a vào nhả ậ ự ững mô hình đã được xây d ng. ự Theo đó, ngoài xác định ng t chính trong tin tđộ ừ ức như đã trình bày, luận án cũng phải xác định “extra verb”. Tương ứng với hai trường h p trên, lu n án t o ra hai t p t vợ ậ ạ ậ ừ ựng “extra verb”. Tập th nh t ch a các t /c m t bi u di n s ki n s xứ ấ ứ ừ ụ ừ ể ễ ự ệ ẽ ảy ra trong tương lai gần:

Macro: COULD

({Token.string==”could”} | {Token.string==”will”} | {Token.string==”prepare”} | {Token.string==”consider”} | […])

T p th hai ch a tậ ứ ứ ừ/cụm t mà bi u di n s ki n không x y ra: ừ ể ễ ự ệ ả

Macro: NOT

({Token.string==”not”} | {Token.string==”deny”} | {Token.string==”reject”} | {Token.string==”fail”} | […])

Sau đây là hai luật đơn giản Sign02 và Sign03 để xác định các ng ữ nghĩa mà thuộc v hai ề

Một phần của tài liệu Một tiếp cận xây dựng hệ thống tổng hợp tin tức thể thao dựa trên web ngữ nghĩa767 (Trang 63)

Tải bản đầy đủ (PDF)

(130 trang)