Xây dựng cơ sở tri thức thể thao

Một phần của tài liệu Một tiếp cận xây dựng hệ thống tổng hợp tin tức thể thao dựa trên web ngữ nghĩa767 (Trang 60)

Để trích rút thông tin ng ữ nghĩa, chúng ta cần ph i có mả ột cơ sở tri thức đủ ớ l n. Thành ph n ầ Web Scrapper thu thập cơ sở d ữliệu liên quan đến th ể thao như cầu th (tên, tu i, môn th thaoủ ổ ể , …), câu lạc b (tên, sân nhà, ...), trộ ận thi đấu, giải thưởng, sân vận động ... và gửi chúng đến thành phần làm giàu cơ sở tri th c (Knowledge Base Enrichment). Mứ ột mô đun con của nó – mô đun chuyển đổi d ữliệu t ự động và sinh RDF – ẽ s chuyển đổi t ự động d ữliệu sang định d ng ạ RDF.

Một mô đun khác của KBE ch u trách nhi m nh p th công các bí danh c a th c th hoị ệ ậ ủ ủ ự ể ặc các t ừ đồng nghĩa mà không thể thu th p và chuyậ ển đổ ựi t động. D liữ ệu RDF được chuyển đổi sau đó được nhập vào cơ sở tri th c th thao c a h th ng. ứ ể ủ ệ ố

Cho đến nay, luận án đã bổ sung cơ sở tri th c v các c u th , các hu n luy n viên, các sân ứ ề ầ ủ ấ ệ vận động bóng đá v.v. của giải đấu Premier League, La Liga, Champions League, các tay vợt tennis t ATP rankings. ừ

Hình 2.11 dưới đây mô tả ộ m t ph n quá trình ầ làm giàu cơ sở tri th c KIM v i d u th ứ ớ ữ liệ ể thao. Ph n trên bên trái c a hình 2.11 là m t ph n c a trang Web H™L hi n th d u v ầ ủ ộ ầ ủ ể ị ữliệ ề Wayne Rooney, ph n trên bên ph i c a hình 2.11 là m t ph n c a ontology th thao BKSport ầ ả ủ ộ ầ ủ ể đang biểu diễn lĩnh vực bóng đá và phần dưới hình 2.11 là cơ sở tri th c v Wayne Rooney sau ứ ề khi được x lý. ử

50

Trong th c t thông tin v các nhân v t hay t ự ế ề ậ ổchức th thao có ể thể thay đổi theo th i gian, ờ trong đó thông tin về con người (vận động viên, c u thầ ủ, …) thay đổ thười ng xuyên hơn thông tin v t ề ổchức (câu l c b ) hay các th c th ạ ộ ự ể khác như sân vận động. Ví d trong quá kh cụ, ứ ầu thủ Cristiano Ronaldo thi đấ cho độu i bóng Real Madrid, hi n t i ệ ạ thi đấu cho đội Juventus. Các thông tin này được lưu trữ dưới d ng ng ạ ữ nghĩa trong cơ sở tri th c th ứ ể thao và đóng vai trò quan trọng trong các phương pháp mà lu n án xu t cho các bài toán nghiên c u chính. Do ậ đề ấ ứ đó, ệ vi c c p nh t các ng ậ ậ ữ nghĩa này có ý nghĩa quan trọng.

Để các thông tin ng ữ nghĩa nói trên luôn được c p nh t, troậ ậ ng bước thi t k ontology lu n ế ế ậ án đã thiế ết k các thu c tính c a các th c th ộ ủ ự ể cho phép lưu trữ và bi u diể ễn được s ự thay đổi c a các thông tin quan tr ng. Ví d , v m t c u th ủ ọ ụ ới ộ ầ ủ bóng đá ngoài thuộc tính đang chơi cho câu l c b nào (bksport:playFor) thì lu n án còn thi t k thu c tính cạ ộ ậ ế ế ộ ựu câu l c b ạ ộ (bksport:exClub). Các thành phần Web Scrapper đượ ập trình đểc l chạ ự động địy t nh k theo ỳ thời gian (m t tu n m t l n) thu thộ ầ ộ ầ để ập các d u m i. ữliệ ớ Khi xác định s có ự thay đổi liên quan t i m t th c thớ ộ ự ể, cơ sở tri th c s ứ ẽ được c p nh t m t cách phù hậ ậ ộ ợp đảm b o di n t ả ễ ảđược thông tin mới nhưng không làm mất đi thông tin trong quá khứ. V i ví d v Cristiano Ronaldo giá ớ ụ ề trị ủ c a thu c tính bksport:playFor t Real Madrid s ộ ừ ẽ được c p nh t thành Juventus, còn giá tr ậ ậ ị Real Madrid được thêm vào cơ sở tri th c là c u câu l c b (bksport:exClub) c a Ronaldo. Vứ ự ạ ộ ủ ới phương pháp trên tác vụ xác định th c th có tên ự ể và xác định m i quan h v i các th c th khác ố ệ ớ ự ể trong tin tức s hi u qu ẽ ệ ả hơn, do ng ữ nghĩa của các th c th trong các tin tự ể ức cũ và mới đều được b o t n. ả ồ

2.3.5 Xác định, trích rút và xác định lp ngữ nghĩa cho thực th có tên

2.3.5.1 Xác định thực th có tên trong tin tể ức như là một th ể hiện thuộc cơ sở tri th cứ

Để ểu đượ hi c ng ữ nghĩa của văn bản, đầu tiên h th ng c n hiệ ố ầ ểu được ng ữ nghĩa của các thực th có tên mà tên c a chúng xu t hiể ủ ấ ện trong văn bản. Các th c th ự ể có tên trong lĩnh vực thể thao bao g m tên c a các c u th , các hu n luy n viên, các câu l c b , các sân vồ ủ ầ ủ ấ ệ ạ ộ ận động,

các s ki n th thao v.v. Ví dự ệ ể ụ, đối với câu “Cordoba has completed the loan signing of Brazillian Winger Ryder Matos”, hệ th ng c n hi u r ng Cordoba là tên c a m t câu l c b ố ầ ể ằ ủ ộ ạ ộ bóng đá và Ryder Matos là tên của m t Wộ inger. Để làm điều này, phải có bướ xác địc nh các thực th có tên. ể

Sau khi đã được ti n x ề ử lý, thông tin được chuyển đến thành ph n ầ xác định th c th có tên ự ể để phát hi n s xu t hi n c a c u th , hu n luy n viên, câu l c b , các tác nhân v.v trong các ệ ự ấ ệ ủ ầ ủ ấ ệ ạ ộ tin tức. Mô đun trích rút thực th có tên l y ra t t c các th hiể ấ ấ ả ể ện và các khái ni m cệ ủa cơ sở tri thức mà xu t hiấ ện trong các trang Web. Đóng vai trò này là tác vụ NER c a h th ng BKSport ủ ệ ố trong đó có tái sử ụ d ng Ontology Proton c a KIM. ủ

KIM [36] là m t n n t ng mà lu n án tái s dộ ề ả ậ ử ụng để xác định các th c th ự ể có tên. KIM đã được xây dựng để xác định các th c th ự ể trong lĩnh vự ổng quát chung, nó không đặc t c thù cho một lĩnh vực c ụthể nào c . Vì vả ậy để xác định các th c th mự ể ở ức sâu hơn và chi tiết hơn trong lĩnh vực th thao, tác gi ể ả đã thêm mộ ật t p các khái ni m và các thu c tính m i vào trong ệ ộ ớ ontology c a KIM, và b sung các th c th mủ ổ ự ể ới vào cơ sở tri th c c a KIM. Trong ontology ứ ủ mặc định c a KIM (ontology PROTON), các th c th ủ ự ể có tên được bi u di n m c khái quát ể ễ ở ứ (ví dụ, Person (người), Location (địa điểm)), không chi ti t (ví d , Winger, Fế ụ orward). Do đó, tác gi ả đã tích hợp ontology BKSport v i PROTON theo cách th c là các khái ni m c ớ ứ ệ ụthểhơn c a BKSport s thay th các khái ni m trủ ẽ ế ệ ừu tượng c a PROTON trong quá trình ủ xác định. Nh ờ tính m c a n n t ng KIM, vi c tích h p có th ở ủ ề ả ệ ợ ể được th c hi n b ng cách ánh x các khái niự ệ ằ ạ ệm gi a chúng. Ví d , các l p cữ ụ ớ ủa ontology BKSport như Coach, Winger, Forward và Defender được hiểu như là các lớp con c a l p Person c a PROTON. Hình 2.12 miêu t m t s lủ ớ ủ ả ộ ố ớp được ánh x t ontology BKSport t i ontology PROTON. ạ ừ ớ

51

Hình 2.12M t s ánh x t ộ ố ạ ừ BKSport đến PROTON

Ánh x ạ ontology không đảm b o ch c ch n s thành công c a tác v NER khi không có s ả ắ ắ ự ủ ụ ự b ổ sung cơ sở tri th c v tin t c chuyứ ề ứ ển nhượng bóng đá. Để xây dựng cơ sở tri th c này, các ứ cơ sở d u trên Web có ch a thông tin v các c u th , các hu n luy n viên, các câu l c b và ữliệ ứ ề ầ ủ ấ ệ ạ ộ các tác nhân bóng đá trong các giải đấu bóng đá hàng đầu của châu Âu được thu th p và chuy n ậ ể đổi thành chú thích ng ữ nghĩa sử ụ d ng ontology BKSport. V i vi c m r ng PROTON b ng ớ ệ ở ộ ằ ontology BKSport và s dử ụng thư viện c a n n t ng KIM, các th c th có tên trong tin t c th ủ ề ả ự ể ứ ể thao đã đượ xác địc nh đúng vớ ới l p khái niệm định nghĩa trong ontology. Trong hình 2.13, Steven Caulker không ch ỉ được hiểu là Person mà còn được hi u là m t SportPerson, c ể ộ ụthể hơn là một Defender.

52

2.3.5.2 Phát hiện bí danh c a thủ ực thể

Một đặc thù của lĩnh vực th thao là các nhân v t, t ể ậ ổchức n i ti ng ngoài tên g i chính thổ ế ọ ức thường hay có nh ng biữ ệt danh được biết đế ộn r ng rãi b i công chúng. Ví d hu n luy n viên ở ụ ấ ệ Alex Ferguson có bi t hi u Fergie, Lionel Messi g n vệ ệ ắ ới “La Pulga”, hay đội bóng đá FC Barcelona có bi t danh Barca hoệ ặc Blaugrana. Do đó, việc phát hiện được các bi t danh này t ệ ừ văn bản và ánh x chúng v i các th c th ạ ớ ự ể có tên đại di n chính thệ ức tương ứng s ẽlàm tăng hiệu qu c a tác v ả ủ ụ xác định thực th có tên. Lu n án th c hi n tác v này b ng cách t o ra thông ể ậ ự ệ ụ ằ ạ tin v các bí danh này khi xây dề ựng cơ sở tri th c thứ ể thao một cách t ự động (đã trình bày ở tiểu m c 2.3.4) s d ng thu c tính proton:hasAlias. ụ ử ụ ộ

Khi các thông tin v các tên g i khác cề ọ ủa th c th ự ể được b ổ sung vào cơ sở tri th c BKSport ứ dướ ại d ng bí danh (Alias) thì các th c th ự ể này cũng đượ xác địc nh như thực th chính. ể

2.3.5.3 Xác định các thực th m c khái ni m chi ti t ể ở ứ ệ ế

M c tiêu c a tác v này là phát hiụ ủ ụ ện được các th c th c a các l p chi ti t trong ontology ự ể ủ ớ ế BKSport như là “Defender” hay “Forward” thay vì các khái niệ ở ức cao như “Person” hay m m “Player”. Qua phân tích nhận th y, h u h t các th c th ấ ầ ế ự ể đều được bi u diễ ễn dướ ạng “chứi d c nghiệp” + “tên riêng” Ví dụ, “Striker Romelu Lukaku double leads Man United to easy win over CSKA Moscow”. Ở đây công việc c a nhân v t th ủ ậ ể thao đượ xác địc nh là Striker. Các chức nghiệp thường chính là các nhãn c a khái ni m, nên thu t toán s d ng nhãn (label) c a ủ ệ ậ ử ụ ủ khái ni m làm mệ ẫu (pattern) để xây d ng lu xác nh cho th c th c a t ng khái niự ật đị ự ể ủ ừ ệm.

2.3.5.4 C ải tiến xác định thực th có tên d ng rút g n ể ở ạ ọ

Trong các văn bản, thường sau khi s dử ụng tên đầy đủ c a th c th , th c th ủ ự ể ự ể đó sẽđược nhắc l i v i tên rút gạ ớ ọn để khi n bài vi t tr nên ng n g n và d ế ế ở ắ ọ ễ đọc (Ví d ụ “Lionel Messi” được vi t ế thành “Messi”). Bở ậi v y, vi c c i tiệ ả ến để cung c p kh ấ ả năng nhận bi t th c th ế ự ể khi được bi u ể di n v i tên rút g n r t quan tr ng. Tên rút gễ ớ ọ ấ ọ ọn thường s là m t ph n cẽ ộ ầ ủa tên đầy đủ. Do đó, m t th c thộ ự ểkhi được bi u di n v i tên rút g n có th ể ễ ớ ọ ể được nh n biậ ết khi nó đã được phát hi n ệ với tên đầy đủ trước đó qua việ ử ục s d ng phép toán so kh p m t ph n. ớ ộ ầ

2.3.5.5 Xác định thực thể cùng tên khác ki u ể

Đây là trường hợp thường gặp trong chú thích văn bản khi th c th có tên xu t hi n trong ự ể ấ ệ văn bản có th thu c v các ki u khác nhau. Ví d , Santiago Bernabéu là tên m t c u thể ộ ề ể ụ ộ ầ ủ, nhưng cũng là tên một sân vận động. Ở trường h p này, chúng ta s ti n hành ki m tra m u th c th , ợ ẽ ế ể ẫ ự ể tùy vào h u t ậ ố theo sau để xác định ki u c a th c th . ví d trên n u Santiago Beể ủ ự ể Ở ụ ế rnabéu đi theo sau là khái ni m stadium thì th c th bệ ự ể ắt đượ ẽ được s c xác định là sân vận động.

2.3.6 Trích rút “ngữ nghĩa” từ tin t c

Phát hi n và trích rút các ng ệ ữ nghĩa của thông tin là n i dung nghiên c u quan tr ng nhộ ứ ọ ất để t o ra chú thích ng ạ ữ nghĩa. Tác vụ này s d ng k t qu t ử ụ ế ả ừ giai đoạn xác định thực th có tên. ể Có nhi u khía c nh ng ề ạ ữ nghĩa khác nhau được lu n án quan tâm. ậ

2.3.6.1 Các ng ữ nghĩa bộ ba đơn giản

Trong tin t c th thao, có m t s ng ứ ể ộ ố ữ nghĩa ổ ế ở ạph bi n d ng b ba <subject> <predicate> ộ

<object> di n t các s kiễ ả ự ện, hành động, k t qu ế ả … Ví d , tin t c th thao có th ụ ứ ể ể chứa “Barcelona won Arsenal”, “Alex Ferguson defends Wayne Rooney”, “Cristiano Ronaldo’s transfer to Juventus” … Người dùng khi tìm đọc tin t c có th mu n tìm ki m các thông tin ứ ể ố ế trên. Vì v y, m t trong nh ng thuậ ộ ữ ật toán đầu tiên được đề xuất là để phát hi n các ng ệ ữ nghĩa này.

Có ba m u trẫ ừu tượng chính mô t ng ả ữ nghĩa như sau:

53

b) <Organization> <relation> <Organization>. Ví d , <Manchester City> <defeat> <Arsenal> ụ ho c <Barcelona> <1:3> <Real Madrid>. ặ

c) <Person> <relation> <Organization>. Ví d , <Romelu Lukaku> <transferTo> <Manchester ụ United>.

V i mớ ẫu đầu tiên, Person có th là th c th ể ự ể có tên như Marcus Rashford, Lionel Messi, hoặc khái niệm như Striker, Coach, hoặc đại t ừ như he, they. Quan hệ giữa các Person được xác định b ng ontology, ví d <Person> <support> <Person>, <Person> <remind> <Person>. M t quan ằ ụ ộ

h có th ệ ể được mô t b i nhiả ở ều nhãn khác nhau tương ứng v i các t ớ ừ đồng nghĩa, ví dụ “surprise” và “stun” cùng mô tả quan h <surprise>. ệ

V i m u th hai (<Organization> <relation> <Organization>), lu n án t p trung vào k t qu ớ ẫ ứ ậ ậ ế ả c a m t trủ ộ ận đấu ho c thông tin v mặ ề ột CLB đối đầu v i m t CLB khác. ớ ộ

Luận án s d ng m u cuử ụ ẫ ối cùng để trích rút thông tin v ề thái độ ủ c a c u th /hu n luy n ầ ủ ấ ệ viên/trọng tài đố ới v i một CLB/liên đoàn/giải đấu.

2.3.6.2 Ngữ nghĩa về thực thể quan tr ng trong tin t c ọ ứ

Bên c nh vi c phát hi n các c p b ba ng ạ ệ ệ ặ ộ ữ nghĩa đơn giản, luận án còn xu t thu t toán đề ấ ậ sinh chú thích ng ữ nghĩa cho các th c th có tên xu t hi n trong tin t c. Quan trự ể ấ ệ ứ ọng hơn là nh ng chú thích cho các th c th ữ ự ể liên quan đến nh ng thông tin quan tr ng trong tin t c. Nhiữ ọ ứ ệm v ụ này liên quan đến việc xác định các th c th chính mà tin tự ể ức đề ập đế c n, bên c nh vi c t o ạ ệ ạ siêu d ữliệu cơ bản như các tiêu đề. Thu t toán ậ định nghĩa một tr ng s cho m i ọ ố ỗ thể ện để hi xác định xem nó có quan tr ng trong m c tin hay không. Vi c tính toán tr ng s này d a trên t n ọ ụ ệ ọ ố ự ầ suất xu t hi n c a m i th hi n, v trí xu t hi n c a chúng ấ ệ ủ ỗ ể ệ ị ấ ệ ủ trong văn bản, mvà ối quan h gi a ệ ữ thể ệ hi n v i các khái ni m khác có trong ontology. Ngoài ra, khi áp d ng lu t trích ớ ệ ụ ậ chọn, tr ng ọ s ph thu c gi a l p c a th hi n ố ụ ộ ữ ớ ủ ể ệ cũng được so kh p v i chính luớ ớ ật đó. Thu t toán trích rút ậ các s ki n ự ệ đơn giản và các th c th quan tr ng trong tin t c ự ể ọ ứ được trình bày như sau:

Thuật toán 1: Sinh các chú thích ngữ nghĩa về thực thể quan trọng trong tin tức

Input: wcc – trọng số của khái niệm (lớp) c đối với nội dung tin tức wtc – trọng số của khái niệm c đối với tiêu đề của tin tức

wdc – trọng số khoảng cách giữa khái niệm c đối với các khái niệm khác wrc – trọng số của khái niệm c đối với luật trích chọn r

R – tập các luật trích chọn, Wtotal = 0

Output:tập các bộ ba (triple) diễn đạt thông tin tin tức có tiêu đề là gì, liên quan đến các thực thể quan trọng nào.

Trích chọn bộ ba: <webpage.uri bk:hasTitle webpage.title>

for eachthực thể có tên được xác định là một thể hiện của khái niệm i c m = số lần xuất hiện của i trong tiêu đề.

Wtitle-i = m* wtc

k = số lần xuất hiện của i trong nội dung tin. Wcontent-i = k* (wcc + wdc), Wsemantic-i = 0

Một phần của tài liệu Một tiếp cận xây dựng hệ thống tổng hợp tin tức thể thao dựa trên web ngữ nghĩa767 (Trang 60)

Tải bản đầy đủ (PDF)

(130 trang)