Luận văn thạc sĩ Khoa học máy tính: Phân giải nhập nhằng thực thể trong mạng xã hội Twitter

Mục tiêu của luận văn này là thực hiện việc phân giải nhập nhăng thực thểtrong các mau tin tweet tải trên mang xã hội Twitter, nham mục dich xác địnhđúng các thực thé được đề cập đến tro

Ngày nay, mang xã hội ngày càng trở nên phố biến và dang ảnh hưởng đến mọi mặt của đời sống xã hội Sự phát trién mạnh mẽ của mạng xã hội cùng với một lượng lớn các thông tin truyén tải trên đó dẫn đến một số van dé được quan tâm như: phát hiện những tin tức đồn nhảm nhăm ngăn chặn kịp thời; kiếm duyệt thông tin; phân tích hành vi, thói quen, sở thích, quan điểm của người dùng nhằm tăng hiệu quả quảng cáo trực tuyên, và nhiêu van đê khác.

Một trong những mạng xã hội phố biến hiện nay là Twitter Twitter là dịch vụ mạng xã hội miễn phí cho phép người sử dụng đọc, nhăn và cập nhật các mẫu tin nhỏ gọi la tweet Gidi hạn về độ dài của tweet là 140 ký tự, có tính tương thích với tin SMS (Short Message Service), mang đến cho cộng đồng mạng một hình thức tốc ký đáng chú ý, đã được sử dụng rộng rãi đối với SMS’ Với hơn hàng triệu người dùng và hàng trăm triệu tweet mỗi ngày [1] thì việc khai thác những thông tin hữu ích trên đó có thê giúp con người sử dụng vào nhiêu mục đích khác nhau.

Có rất nhiều công trình nghiên cứu liên quan đến khai thác thông tin trên Twitter như: phân tích thông tin, ý kiến người dùng, sản phẩm ưa chuộng hay thông tin của nhà sản xuất được người tiêu dùng ưa chuộng: rút trích thông tin, tìm hiểu và khám phá chủ dé dé phát hiện sở thích của người dùng [2]; tìm những sự kiện mà người dùng quan tâm; hay theo dõi tình trang sức khỏe của người dùng dé phát hiện và thong kê tình hình sức khỏe xã hội [3]; phát hiện thông tin đồn nhảm

' http://vi.wikipedia.org/wiki/Twitter

Ví dụ 1: Một người dung A chia sẽ trên Twitter và các bạn bè của A cũng chia sẽ ngược trở lại, nội dung như sau:

A: “Nào là Clear, Head and Shoulder, Pantene cái nào cũng ko hết gau ® hichic ” B: “Dove xài tot lam! @A ơi ` ° “X-Men number 1, tui thứ rùi nè ;-) ”

“Ở, X-Men cũng ok” mm 9 “ok, to sẽ mua X-Men xài Hi vọng hit gàu và lep trai ^^”

B: “n.mai tui di mua X-Men xài luôn! ”

Phân tích ví dụ trên, ta thấy: người ding A dang có xu hướng chuyền sang sử dụng dầu gội đầu X-Men và không thích dầu gội Clear, Head and Shoulder và Pantene Hai người bạn B và C cũng sử dụng dau gội X-Men Với ví dụ 1, chúng ta có thé khai thác thông tin trên phục vụ cho nhu cau phát hiện và phân tích hành vi, sở thích dùng cho việc quảng cáo, thu thập thông tin ý kiến người dùng Nhưng vẫn dé đặt ra là làm sao cho máy tính có thé hiểu được “X-Men” là một nhãn hiệu dầu sội đầu “X-Men” hay là tên của bộ phim “X-Men” Tương tự, “Head and Shoulder” cũng là tên của một nhãn hiệu dầu gội hay là hai đối tượng là “Head” và

“Shoulder”. Đối với một tweet thì văn phong hoàn toàn không theo một chuẩn hay quy luật nào cả Nó chỉ phụ thuộc vào sở thích hay theo văn phong của người viết Cho nên, việc phân tích ngữ nghĩa, cú pháp, nhận diện được thực thể trở nên khó khăn.

Ví dụ 2: Một tweet có nội dung như sau:

A: “Ronaldo, than tượng cua tui ^—^, huyền thoại cua Brazil, anh hung cua Real-Madrid !’

“Ronaldo” là một nhãn tham chiếu có thé nói đến “Ronaldo Luis Nazario de” và “Cristiano Ronaldo” Nhưng với ví dụ 2, thì “Ronaldo” đang đề cập trong tweet là “Ronaldo Luis Nazário de Lima” của đội tuyên Brazil, đã từng thi dau ở câu lạc bộ Real Madrid Không phải dé cập đến “Cristiano Ronaldo” của đội tuyên Bồ Đào Nha, cũng là một cau thủ dang thi đấu tại Real Madrid.

Vấn đề đặt ra là làm sao để máy có thể tự động nhận diện được các thực thể được dé cập trong các tweet góp phan cho máy hiểu ngữ nghĩa của tweet Mục tiêu đặt ra là để máy tính hay các hệ thống tự động có thể phân tích và hiểu được nội dung của tweet Chăng hạn như ở ví dụ trên, việc hiểu đúng nội dung của các tweet giúp cho hệ thống phân tích đúng rang người dùng A đang nói về “Ronaldo Luis Nazário đe Lima” và xu thé là người này rất quan tâm về những tin tức có liên quan đến “Ronaldo Luis Nazário de Lima” (Hình 1.1 minh họa cho ví dụ 2).

Cristiano Ronaldo Ronaldo Luis Nazario de Lima

Hình 1.1 Ví dụ phân giải nhập nhăng thực thé

Ví dụ 3: Một tweet có nội dung sau:

A: “Đường lythuongkiet và 3-2 dang kẹt xe” (Lúc 16h40, tại TP Hỗ Chi

Với ví dụ 3 này, nội dung của tweet đang dé cập đến 3 cụm từ chính là

“Iythuongkief°, “3-2” và “TP Hỗ Chi Minh” Như vậy, “lythuongkiet” đang nói về hai đối tượng là “Lý Thường Kiệt” và một con đường có tên là “Ly Thuong Kiet’. Đối với “3-2” thì đang nói về 2 đối tượng là con đường “3 thdng 2” và ngày “3 tháng 2” Việc hiểu rõ được 2 đối tượng “lythuongkiet” và “3-2” được căn cứ vào ngữ nghĩa xung quanh 2 đối tượng này là “ket xe” và “TP Hồ Chí Minh” Dựa trên các yếu tố này, ta hiểu được là “/ythuongkier” là đang nói về con đường “Lý Thirong

Kiệt” và “3-2” thì đang nói vé con đường “3 thang 2” (Hình].2 minh họa cho ví dụ 3) Nhưng trong ví du này, dé máy tính có thé hiểu được 2 đối tượng “lythuongkiet” và “3-2” là một van dé gây ra không ít khó khăn Nguyên nhân là do cụm từ

“lythuongkiet” hay “3-2” bị ảnh hưởng bởi văn phong của người viết và ngữ cảnh của tweet đó Chính vì vậy, văn phong của người viết có ảnh hưởng rất lớn đến việc nhận diện và hiệu đúng của máy tinh.

1.2 Bài toán và phạm vi

Chúng tôi tập trung và thực hiện việc phân giải nhập nhang thực thé trong các tweet tải trên mang xã hội Twitter, bao gdm cả tweet tiếng Anh và tweet tiếng Việt.

Tuy nhiên, giữa tiếng Anh và tiếng Việt lại có những đặc trưng khác nhau, vì vậy tùy vào ngôn ngữ mà chúng tôi thực hiện việc chọn lựa các đặc trưng, phương pháp và thuật toán phù hợp để đạt được kết quả tốt nhất Chúng tôi chỉ quan tâm đến các thực thể tôn tại trong Wikipedia.

1.3 Các công trình liên quan

Bài toán phân giải nhập nhang thực thé chú trọng đến việc phân giải các thực thé và đa số được áp dụng cho các văn bản chính quy (có nội dung dai và tương đối day đủ về mặt ngữ nghĩa) Đối với các văn bản tiếng Anh thường được viết tuân theo các luật như tên riêng phải viết hoa, tên phải được đặt trước họ, đầu câu phải viết hoa, không có các ký hiệu đặc biệt (như: ^^, ;-), ) Còn đối với tiếng Việt thì phải viết đúng chính tả, bỏ dau đúng quy định, tên riêng phải viết hoa, Cho nên, việc phân giải nhập nhang thực thé cho một văn bản chính quy thì khác với việc phải phân giải nhập nhăng thực thể cho mạng xã hội Vẫn đề khác biệt mà chúng tôi dé cap ở day đó là quá trình nhận diện các thực thể xuất hiện trong nội dung tweet và quá trình phân giải nhập nhằng cho các thực thể đó.

Các công trình nghiên cứu liên kết thực thể hay phân giải nhập nhăng thực thể cho tweet thực hiện theo nhiều hướng và phương pháp khác nhau Một số công trình nghiên cứu gan đây và nỗi bật như công trình của Meij, Cassidy, Liu,

“eZ ye ằ San Van ong

32] Duong Ly Thuong Kiét va Duong 3 thang 2

Tại Thanh phô Hồ Chí Minh

| “Tp Hỗ Chí Minh” Kết quả cần đạt được

Hình 1.2 Ví dụ về phân giải nhập nhang thực thé

Công trình nghiên cứu của Meij

Công trình của Meij [4] chủ yếu là tìm các khái niệm có liên quan đến nội dung của tweet tiếng Anh (Hình 1.3 mô tả về hệ thống của Meij) Các khái niệm được tác giả đề cập ở đây là các trang thực thể trong Wikipedia.

| 1 High Recall 2 High Precision N-gram -— sl :

Lesicd Danh sách KN ứng viên Danh sách KN ứng viên

Danh sach | “ching, ”: Mae 1 ik? | - RF My-> Ty tise tye ô+ ty)

Nhãn tham chiếu ren my Taitays tạ oo tỷ mmmin> T;ftyy ays vs tý

Mey =i sf na NA S m ~> Ta{t v Pent 2 1ì -> li t f n nz?

Hình 1.3 Mô ta tong quan hệ thống của Meij

Wikipedia là một bách khoa toàn thư mở, là kết quả của sự cộng tác của chính những người đọc từ khắp nơi trên thế giới Hiện đã có hơn 386,169 thành viên đăng ký, trong đó 29 bảo quản viên, 3 hành chính viên, 211 robot”.

Wikipedia chính thức bat đầu vào ngày 15 tháng 1 năm 2001 nhờ hai người sáng lập Jimmy Wales và Larry Sanger cùng với vài người cộng tác tận tâm và chỉ có phiên bản tiếng Anh Chỉ hơn ba năm sau, vào tháng 3 năm 2004, đã có 6,000 người đóng góp tích cực cho 600.000 bài viết với 50 thứ tiếng Cho đến hôm nay đã có hơn 4,300,000 bài viết ở riêng phiên bản tiếng Anh, hơn 30,000,000 bài viết ở tat cả phiên bản ngôn ngữ Mỗi ngày hàng trăm nghìn người ghé thăm từ khắp nơi để thực hiện hàng chục nghìn sửa đôi cũng như bat dau nhiêu bai viet mới.

Riêng với Wikipedia tiếng Việt được thành lập vào tháng 10 năm 2003 Hiện nay đã có 929,212 bài viết bằng tiếng Việt, với 2,369,340 trang tất cả' Wikipedia tiếng Anh (tiếng Anh: English Wikipedia) là phiên bản tiếng Anh của dự án Wikipedia Được thành lập vào ngày 15 tháng 1 năm 2001 va đạt 3,791,560 bài viết vào dau tháng 11 năm 2011, Wikipedia tiếng Anh đã trở thành phiên ban Wikipedia đầu tiên và lớn nhất, gấp 3 lần số lượng bài viết so với phiên bản lớn thứ hai - Wikipedia tiếng Đức Đến năm 2009, khoảng 22.3% số lượng bài viết trên tat cả các Wikipedia thuộc về Wikipedia tiếng Anh, nhưng ưu thế này cũng dan giảm bớt kế từ giữa năm 2003, khi các dự án Wikipedia khác phát triển.

Có nhiều nghiên cứu đánh giá về Wikipedia, như nghiên cứu đánh giá về độ tin cậy; họ đã chỉ ra răng độ chính xác của Wikipedia có thể sánh ngang với các nguồn tri thức đóng khác như trong nhiên cứu cua Giles [7], trong đó tác giả so sánh

* http://vi.wikipedia.org/wiki/Wikipedia:Giới thiệu

Wikipedia và từ điển bách khoa toàn thu Britannica Tác giả thu thập ngẫu nhiên 41 bài viết về các chủ dé liên quan đến khoa học trên cả hai từ điển bách khoa, kết quả có 162 lỗi trên các bài viết của Wikipedia so với 123 lỗi của các bài viết lấy từ Britannica Ngoài ra, còn có một số nghiên cứu khác của Weaver va CS [8] đánh giá mức độ chính xác của liên kết giữa các bài viết trong Wikipedia đạt 97% Điều này có thé phan nào khang định rang Wikipedia có mức độ tin cậy cao và là nguồn tri thức đáng giá [6] Trong phạm vi luận văn này, chúng tôi sử dung Wikipedia làm cơ sở tri thức cụ thê như sau:

Wikipedia tiếng Anh: được xử lý vào ngày 04 tháng 3 năm 2014, gồm:

Trang thực thé: 3,843,699 Trang phân giải nhập nhang: 152,806 Trang thể loại: 942,912

Trang chuyền hướng: 5,480,370 Wikipedia tiếng Việt: được xử lý vào ngày 10 tháng 3 năm 2014, gồm :

Trang thực thé: 582,878 Trang phân giải nhập nhang: 1,377 Trang thé loại: 67,167

Trang thực thể là thành phần quan trọng nhất của Wikipedia Mỗi trang thực thể là một bài viết biểu diễn cho một thực thé duy nhất tổn tại trong Wikipedia và được xác định băng một tiêu dé Đối với những trang thực thé bị nhập nhăng thì tiêu dé của chúng sẽ có phần làm rõ nghĩa theo sau Ví dụ như "Tree" có thể là "Tree (graph theory)" (là cây trong lý thuyết đồ thị) hoặc cũng có thé là "Tree (data structure)" (là một dang cầu trúc dữ liệu được dùng trong ngành khoa học máy tính).

Trang chuyển hướng Đối với một trang thực thể thì ngoài tiêu đề dùng để xác định trang thực thể đó thì trang thực thể này cũng có thể có tên gọi khác hay bí danh khác Cho nên Wikipedia biểu diễn các tên gọi khác hay bí danh của trang thực thé đó bang các

12 danh và trang chuyển hướng đó sẽ tham chiếu đến trang thực thé. trang chuyển hướng Mỗi trang chuyển hướng đại diện cho một tên gọi khác hay bí

Trang Chính Nội dung chon lọc Tin tức Bài viết ngẫu nhiên Thay đỗi gần đây Quyên gdp

Tương tác Hưởng dẫn Giới thiệu Wikipedia Công đồng Thảo luân chung Giúp sử dụng Gỗ tiếng Việt

Bách khoa toàn thư mở Wikipedia

< Đố 4ói các định nghĩa khác, xem Ha Long Vịnh Hạ Long (vinh nơi rồng đáp xuống) là một vịnh nhỏ thuộc phan bờ Tây vịnh Bắc Bộ tại khu vực biễn Đông Bắc Việt Nam bao gỗm vùng bién đảo thuộc thành phố Hạ Long, Thành phố Cam Phả và một phan của huyện đảo Van Đồn của tỉnh Quảng Ninh

Là trung tâm của một khu vực rộng lớn có những yếu tổ ít nhiều tương đồng về địa chất, địa mạo, cảnh quan, khí hậu và văn hóa với vịnh Bai Tử Long phía Đông Bắc và quan đảo Cát Bà phía Tây Nam, vinh Hạ Long giới hạn trong diện tích khoảng 1.553 km? bao gồm 1.969 hòn đảo lớn nhỏ, phan lớn là đảo đá vôi, trong đó vùng lối của Vịnh có diện tích 335 km? quan tu day đặc 775 hòn daol'l Lịch sử kiến tao địa chat đả vôi của Vinh đã trải qua khoảng 500 triệu năm với những hoàn cảnh cỗ địa lý rất khác nhau và qua trình tiền hóa carxtơ day đủ trải qua trên 20 triêu năm với sự kết hợp các yếu tô như tầng đá vôi dày, khí hậu nóng am và tiến trình nâng kiến tạo cham chap trên tong thé!@! Sự kết hợp của môi trường khí hậu, địa chat, địa mao, đã khiến vịnh Hạ Long trở thành quan tụ của đa dạng sinh học bao gồm hệ sinh thải rừng kin thưởng xanh mưa am nhiệt đới và hé sinh thái bién và ven bờ với nhiều tiộu hệ sinh thỏi 14 loài thực vật đặc hữuẽ#ẽ và khoảng 60 loài đụng vật đặc hitul! đó được phỏt hiện trong số

Mở tài khoản ẹ Đăng nhập q a 9Ó a :' ; s0 ụ Bài viết Thao luan Đọc Sửa đổi Sửa mã nguồn Xem lịch sử Q x P z ‘i Š

Bách khoa toàn thư mở oa đô ei apes đô: @ 2 14'Ð

Trợ giúp - ® Tự động 91 hàng ngàn động thực vật quân cư tại Vịnh Telex (2) Những kết quả nghiên cứu, thám sát khảo cỗ học và văn hóa hoc cho thay sự hiện dién của những cư dân tiền sử trên vùng vinh Biêu tượng của Vịnh Hạ Long: Hòn Gà Choi MT) Hạ Long tử khá sớm, đã tao lập những hình thái văn hóa cỗ đai tiếp nỗi nhau bao gồm van hóa Soi Nhu trong khoảng 18.000- tước gia Eg vietnam VIQR (2 7.000 năm trước Công Nguyên, văn hóa Cái Bèo trong 7.000-5.000 năm trước Công Nguyén® và văn hóa Hạ Long cách ngày Toa đồ đa nay khoảng từ 3 500-5.000 nam" Tiến trình dựng nước và truyền thống giữ nước của dân tộc Việt Nam, trong suốt hành trình To neil ee van lịch sử, cũng khẳng định vị trí tiền tiêu và vị thế văn hóa của vinh Hạ Long qua những địa danh mà tên goi gắn với dién tích còn Kiêu Thien nhiên TM lưu truyền đền nay, như núi Bai Thơ, hang Đầu Gỗ Bãi Chay!” v v Hiện nay, vịnh Hạ Long là một khu vực phát triển năng động | Hang mục full a ae nhở những điều kiện và lợi thé sẵn có như có một tiêm năng lớn về du lich, nghiên cứu khoa học nuôi trồng, danh bắt thủy san Tham khảo 672

— giao thông thủv đồi với khu vier vùng hiễn Đông Bắt Viet Nam nói riêng và miền Bắc Viêt Nam nói chunniE) Công nhận 1994, 2000 gì thở 18, 24)

Hình 2.1 Trang thực thé “Vinh Hạ Long” trong Wikipedia tiéng Việt

Trong Hình 2.2, chúng ta thấy trang thực thể có tiêu dé là “Manchester United F.C.” có tên gọi khác là “ManU” và “Manchester United FC” đều nói về

“Manchester United F.C.” Do đó, hai trang chuyển hướng của “Manchester United

F.C.” là “ManU” và “Manchester United FC”.

Trang phân giải nhập nhằng

Trang chuyển hướng là tên gọi khác hay bí danh của một trang thực thể thì Wikipedia còn xây dựng trang phân giải nhập nhăng Trang phân giải nhập nhang nay được dùng khi các trang thực thé có tên gọi gần giống nhau hay tương tự nhau.

Nghĩa là cùng một tên gọi nhưng lại biểu diễn cho các trang thực thé khác Với lý do đó, Wikipedia xây dựng trang phân giải nhập nhang giúp cho người đọc có thể tìm được các trang thực thé mà họ can.

Hình 2.3 cho thay, Ocean (disambiguation) là trang phân giải nhập nhang.

Trang này chứa các trang thực thé khác có tên gọi giống hoặc tương đương với nó.

Ví dụ này cho thấy có rất nhiễu trang có cùng tên gọi gần giống với nhau Nên Wikipedia sử dung trang phân giải nhập nhang này hỗ trợ giúp người dùng tìm kiếm trang thực thé nhanh va dễ hiéu hơn.

Main page Contents Featured content Current events Random article Donate to Wikipedia Wikimedia Shop interaction Help

From Wikipedia, the free encyclopedia Redir ct page anchester United F.C.

This page was tàst modified on 26 February 2008 at 05:31

Text is available ¥nder the Creative Commons Attribution-ShareAlike License; additional terms may apply By using t Foundation, Inc.

Privacy policy non-profit organization.

Allbut Wikipedia Disclaimers Contact Wikipedia Developers Mobile view

[ Manchester United FC | from a modification of t

About Wikipedia Community portal p si ® toe Ww ` eS - 5) Article mY WA Read

Main page Contents Featured content Current events Random article Donate to Wikipedia Wikimedia Shop interaction Help About Wikipedia Community portal Recent changes Contact page Fools

What links here Related changes Upload file Special pages Permanent link Page information Data item Cite this page Prinvexp ort

From Wikipedia, the free encyclopedia

"MUFC" redirects here For other uses, see MUFC (disambiguation).

TT SCC OU ab LOD TT

For the video game, see Manchester United (video game series) For similarly named clubs, see F.C United of Manchester and Manchester United F.C (Gibraltar) Manchester United Football Club is an English professional football club, based in Old Trafford, Greater Manchester that plays in the Premier League Founded as Newton Heath LYR Football Club in 1878, the club changed its name to Manchester United in 1902 and moved to Old Trafford in 1910 and is one of the most successful clubs in English football

Manchester United have won the most League titles (20) of any English club, 8Ì a joint record 11 FA Cups, four League

Cups, and a record twenty FA Community Shields The club has also won three European Cups, one UEFA Cup Winners' Cup, one UEFA Super Cup, one Intercontinental Cup, and one FIFA Club World Cup In 1998-99, the club won a continental treble of the Premier League, the FA Cup and the UEFA Champions League.

Chúng tôi xây dựng hệ thống phân giải nhập nhăng thực thể trong mẫu tin (tweet) tải trên mang xã hội Twitter bao gom tiéng Anh va tiéng Việt có tên là ED-

Tweet (Entity Disambiguation for English and Vietnamese Tweet) Dựa trên các công trình nghiên cứu [1] [2] [4] chủ yếu là thực hiện việc liên kết thực thé cho các thực thé ton tại trong Wikipedia nên chúng tôi chỉ tập trung vào việc phân giải nhập nhang cho các thực thé tôn tại trong cơ sở tri thức Wikipedia.

Chúng tôi tiễn hành nghiên cứu, triển khai và sử dụng một số các đặc trưng, áp dụng các giải thuật học máy của các công trình nghiên cứu trước vào hệ thống cho các tweet tiếng Anh Bên cạnh đó, chúng tôi thực hiện việc đề xuất một số đặc trưng, phương pháp mới để tăng hiệu suất của hệ thống Dựa trên các đặc trưng và phương pháp nay, chúng tôi áp dụng cho các tweet tiếng Việt Các đặc trưng va phương pháp cải tiễn sẽ được chúng tôi giới thiệu va phân tích cu thé hon ở phan

Ngoài ra, chúng tôi còn thực hiện xây dựng tập dữ liệu huấn luyện cho các tweet tiếng Việt Phần này sẽ được chúng tôi giới thiệu cụ thé hơn ở phan 4.1.

3.1 Nhận diện nhãn tham chiếu

Việc nhận diện nhãn tham chiếu được xem là một giai đoạn rất quan trọng và có ảnh hưởng rất lớn đến hiệu suất của quá trình truy hồi ứng viên, phân giải nhập nhang và hiệu suất của toàn hệ thống Với công trình nghiên cứu trước của [1] hay [2] thì việc nhận diện nhãn tham chiếu là dựa trên một hệ thống chuyên nhận diện thực thể cho tiếng Anh Còn với Meij thì ông áp dụng phương pháp n-gram và

22 heuristic với nhấn tham chiêu có độ dài giảm dân dé tiên hành việc nhận diện nhãn tham chiếu.

Tiền xử lý nội dung tweet

Trong giai đoạn nhận diện nhãn tham chiếu, với đặc trưng cua tweet là bi giới hạn bởi số lượng ký tự 140, nội dung thì thường xuất hiện các ký tự đặc biệt ($$, !!, ), ký tự viết tat (who, lol, ), ký hiệu biểu hiện cảm xúc (^_^, ;-), ), hashtag (@, #) và có thé bị sai chính tả (Dé let, ) thì việc nhận diện nhãn tham chiếu lại là một vấn đề khá nan giải.

Ví dụ: với một câu tiếng Việt thông thường như: “Chi Cẩm Ly hát hay quá!” thì việc nhận diện “Cẩm Ly” là một nhãn tham chiếu cho độ chính xác cao là vì được viết đúng theo quy tắc (tên riêng phải viết hoa ở các chữ cái đầu tiên của từ) Nhưng với tweet thì hoàn toàn khác Chang hạn như các trường hợp sau: “chị Cẩmly hát

32 66 hay quá ^^”, “chị cém_ly hát quá tuyệt” “cẩm ly là số một!!!!P°, thì việc nhận diện nhãn tham chiếu trong các ví dụ này là “Cẩmly”, “cẩm_ly” và “cẩm ly” là một van đề khó khăn Bởi vì văn phong của người viết tweet thường không theo quy tac và không chính quy.

Ngoài ra, một van dé khác ảnh hưởng lớn đến hiệu suất của quá trình nhận diện thực thé đó là bảng mã và quy tac bỏ dấu của tiếng Việt Ví dụ với quy tac bỏ dau của tiếng Việt như: “Hòa bình” và “Hoà bình” thì 2 từ này đều có chung một ý nghĩa nhưng về cấu trúc thì lại khác nhau Hay với trường hợp “Lý” viết băng Unicode tổ hop thì là một cau trúc gồm 3 ký tự với | ký tự là chứa ký hiệu dấu; trong khi đó với Unicode dựng sẵn thì “Lý” chỉ gồm 2 ký tự, bởi vì ký hiệu dấu được lưu trữ chung với ký tự mang dau đó Cho nên việc so sánh giữa 2 chuỗi là

&€ 499 499ý” và “Lý” sẽ cho kết quả không bang nhau nếu viết bang 2 bang mã khác nhau.

Chính vì vậy, ở giai đoạn nhận diện nhãn tham chiêu, chúng tôi thực hiện việc tiên xử lý cho các n-gram trước khi đưa vào so sánh và xác định nhãn liên kết trong Wikipedia.

Phương pháp nhận diện nhãn tham chiếu

Chúng tôi thực hiện việc nhận diện nhãn tham chiếu dùng phương pháp n-gram cho cả tiếng Anh và tiếng Việt Mặt khác đặc trưng của tiếng Việt là một thực thể có ngữ nghĩa có thé được cau tạo bởi nhiều từ Ví dụ: với tiếng Anh thì “Spain” là

23 một thực thé nhưng với tiếng Việt thì “Tây Ban Nha” mới hợp thành một thực thé mặc dù cả hai đều nói về một thực thê là tên của một quôc gia.

Thế nhưng, hiện tại vẫn chưa có một công cụ nào đủ mạnh để nhận diện các thực thể tiếng Việt Đa số các công cụ hay hệ thống nhận diện thực thể tiếng Việt chủ yếu là dựa trên các luật co bản về quy tắc viết tên riêng! hay sử dụng hoc máy [9] để nhận diện thực thé Ví dụ: với một câu tiếng Việt như: “Sai Gon đẹp lam!” thì các hệ thống này có thé nhận diện được “Sài Gon” là một thực thé Nhưng với một ví dụ khác như: “76i dang ở Đà nang” thì có thé các hệ thông này không thé nhận diện được thực thé “Da nang” dù rằng “Da nang” này chính là “Đà Nẵng” Van đề đặt ra là các công cụ này có thể triển khai được cho các văn bản chính quy, trong khi đó, vẫn đề của chúng ta lại là nhận diện thực thé cho tweet.

Cho nên, với phương pháp dé xuất trong công trình nghiên cứu của [10] thì việc nhận diện thực thể trong tiếng Việt là sử dụng phương pháp n-gram nhưng với SỐ lượng từ bat dau là 7 Nếu chuỗi đầu vào có số lượng từ lớn hơn 7 thì bắt dau với n- gram là 7, ngược lại thì sử dụng n-gram chính là sỐ lượng các từ trong chuỗi đó.

Nếu n-gram đang xét không so khớp với danh sách các nhãn liên kết trong Wikipedia thì sẽ tiễn hành giảm số lượng từ xuống | đơn vị Thuật toán n-gram được mô tả băng mã giả ở Hình 3.1.

Xác suất là nhãn liên kết

Tập dữ liệu huấn luyện của chúng tôi được xây dựng dựa trên hai tập dữ liệu tiếng Anh và tiếng Việt.

- Tập dữ liệu tiếng Anh: được cung cấp bởi tác giả Meij Trong đó bao gồm 562 tweet Tuy nhiên, với tập dữ liệu này, Meij không cung cấp các nhãn tham chiếu mà chỉ cung cấp danh sách các thực thể được ánh xạ vào tweet Cho nên chúng tôi thực hiện việc tìm các nhãn tham chiều tương ứng với các thực thé mà Meij cung cấp và giai đoạn chú thích này được làm băng tay Chúng tôi tìm và chú thích được 760 nhãn tham chiều.

- Tập dữ liệu tiếng Việt: được chúng tôi lẫy tự động ngẫu nhiên từ các người dùng Twitter ngẫu nhiên Dữ liệu bao gồm 1,120 tweet với nội dung đa dạng và thuộc nhiều lĩnh vực, thé loại khác nhau Dữ liệu được chú thích bởi 6 người độc lập với nhau Tuy nhiên, theo báo cáo của những người chú thích thì với 1,120 tweet thì chỉ tìm được 524 tweet có ngữ nghĩa và có chứa nhãn tham chiếu Số lượng nhãn tham chiếu tìm được và được chú thích là 1,061 Trung bình là 2.02 nhãn tham chiếu trên một tweet.

Dựa trên các cong trình nghiên cứu trước của [2] [4], chúng tôi thực hiện việc đánh giá dựa trên phương pháp đánh giá chéo k-nhóm (k-fold cross-validation) va chọn k = 5 Dữ liệu của tap huấn luyện sẽ được sử dụng làm dữ liệu cho việc đánh giá Chúng tôi chia tập dữ liệu thành 5 nhóm, 4 nhóm dùng huấn luyện và nhóm còn

3l lại dùng dé kiêm tra, thực hiện luân phiên năm lân sao cho mỗi nhóm đêu được dùng làm tập kiểm tra một lần.

4.3 Đánh giá hiệu suất và kết quả thí nghiệm

Chúng tôi thực hiện việc đánh giá hiệu suất cho 3 giai đoạn: đánh giá hiệu suất của giai đoạn nhận diện nhãn tham chiếu, đánh giá hiệu suất giai đoạn phân giải nhập nhang và đánh giá hiệu suất của toàn hệ thống. Đánh giá hiệu suất nhận diện nhãn tham chiếu (Mention Recognition) Đối với giai đoạn này, việc chọn lựa phương pháp và xử lý dữ liệu đầu vào có ảnh hưởng rat lớn đến hiệu suất của toàn hệ thống Nhu đã dé cập ở phan 3.1, hệ thống của chúng tôi chủ yếu tập trung cho việc phân giải nhập nhăng cho các thực thé ton tại trong Wikipedia nên chúng tôi chỉ nhận diện những nhãn tham chiếu là nhãn liên kết trong Wikipedia Với dữ liệu tiếng Anh và tiếng Việt, chúng tôi thực hiện đánh giá cho quá trình này bao gồm: không có tiền xử lý và có tiền xử lý.

Bảng 4.1 là kết quả đánh giá hiệu suất của giai đoạn nhận diện nhãn tham chiếu Trong đó, SỐ lượng nhấn tham chiếu mà hệ thống phải nhận diện (nhãn tham chiếu của tập dữ liệu đánh giá) là: 760 nhãn đối với tập dữ liệu tiếng Anh va 1,061 nhãn đối với tập dữ liệu tiếng Việt.

Bảng 4.1 Hiệu suât của giai đoạn nhận diện nhãn tham chiêu

Ngôn ngữ sa 1 Đúng | Precision | Recall Fl xử lý diện

Với số liệu của Bảng 4.1 thì chúng ta thấy rằng việc không áp dụng tiền xử lý và có áp dụng tiền xử lý dữ liệu có ảnh hưởng rất lớn đến hiệu suất của quá trình nhận diện nhãn tham chiếu kế cả tiếng Anh và tiếng Việt Với tiếng Anh, khi áp dụng tiền xử lý thì số lượng nhãn tham chiếu nhận diện đúng tăng lên thêm 35% (từ 301 nhãn nhận diện đúng cho dữ liệu không tiền xử lý lên 407 nhấn nhận diện đúng

32 cho dit liệu có tiền xử lý) Trong khi đó, với tiếng Việt thì hiệu suất của việc áp dụng tiền xử lý tăng lên rất cao, gần 2.2 lần (từ 246 nhãn nhận diện đúng không kết hợp tiên xử lý lên 668 nhãn nhận diện đúng cho dữ liệu có kết hợp tiền xử lý). Đánh giá hiệu suất phân giai nhập nhang (Disambiguation Evaluation)

Mục tiêu của phần này là thực hiện việc đánh giá cho giai đoạn phân giải nhập nhang của hệ thong Đầu tiên, hệ thống sẽ coi như không phụ thuộc vào giai đoạn nhận diện nhãn tham chiếu, nghĩa là độ chính xác, độ đầy đủ và độ hài hòa của việc nhận diện nhãn tham chiếu là 100% Như vậy, dữ liệu đầu vào chính là tập các nhãn tham chiếu trong tập dữ liệu kiểm tra Hệ thống thực hiện việc phân giải và ánh xạ các nhãn tham chiếu vào các thực thể tương ứng Kết quả thu được sau khi thực hiện quá trình phân giải nhập nhăng thực thé sẽ được so sánh với tập dữ liệu đánh ° 4 gia.

Bang 4.2 Hiệu suất phân giải nhập nhang không kết hop lặp cải thiện dan cho C45,

Ngôn ngữ Đặc trưng Precision Recall F1

7 CM+SR+CQ 0.821 0.663 0.734 Tiéng Anh

C4.5 CM + SR + CQ + EQ + ECM 0.836 0646 0/729

CM + SR + CQ 0942 0.787 0858 Tiêng Việt

CM + SR + CQ + EQ 0940 0788 0857 CM + SR + CQ + ECM 0947 0783 0857 CM+SR+CQ+EQ+ECM 0.942 0.780 0.853 Ngôn ngữ Đặc trưng Precision Recall F1

Random CM +SR 0.807 0647 0.718 Forest Tiéng Anh CM+SR+CQ 0.819 0.660 0.731

CM + SR + CQ + EQ 0.813 0669 0.734 CM + SR + CQ + ECM 0.814 0.661 0.730

CM + SR + CỌ + EQ + ECM 0.824 0.665 0.736 CM 0.916 0.795 0.851 CM + SR 0.939 0.799 0.863

, CM+SR+CQ 0.933 0.799 0.861 Tiéng Viét

CM + SR+CQ+ EQ 0.928 0.797 0.856 CM + SR + CQ + ECM 0.930 0.801 0.861 CM + SR + CQ + EQ + ECM 0.935 0.804 0.865 Ngôn ngữ Đặc trưng Precision Recall F1

CM 0.786 0.672 0.724 CM+SR 0.803 0.673 0.732 và CM + SR+CQ 0.797 0675 0.741 Tiêng Anh

CM + SR + CỌ + EQ 0.800 0.671 0.730 Bagging CM + SR + CQ + ECM 0.798 0.669 0.728 C45 CM + SR + CQ + EQ + ECM 0.798 0.671 0.729

CM 0.916 0.795 0.851 CM + SR 0.929 0.799 0.859 và CM + SR+CQ 0.928 0.798 0.858 Tiéng Việt

CM +SR+CQ+EQ 0.930 0.799 0.860 CM + SR + CQ + ECM 0.926 0.798 0.857 CM + SR + CQ + EQ + ECM 0.927 0.798 0.858

Bang 4.2 cho thay việc kết hợp 5 đặc trưng gồm: CM (Commonness), SR

(Semantic Relatedness), CQ (Context Quality), EQ (Entity Quantity) va ECM

(Entity Contain Mention) cho hiệu suất của giai đoạn phân giải nhập nhang cao hon so với các đặc trưng khác Đặc biệt với giải thuật học máy Random Forest thì cho kết quả thu được cao nhất cho cả tiếng Anh (độ chính xác P = 0.865, độ đầy đủ R = 0.665 và độ hài hòa F/ = 0.736) và tiếng Việt (độ chính xác P = 0.935, độ day đủ R = 0.804 và độ hài hòa F/ = 0.865).

Bang 4.3 Hiệu suất phân giải nhập nhang có lặp cải thiện dan cho C4.5, Random

, CM+SR+CỌ 0.821 0.6063 0.734 Tiêng Anh

C4.5 CM + SR + CQ + EQ + ECM 0.836 0646 0.729

, CMx+SR+CỌ 0.942 0.787 0.858 Tiéng Viét

CM +SR+CQ+ EQ 0.940 0.788 0857 CM + SR+CQ+ ECM 0.947 0.783 0.857 CM + SR + CỌ + EQ + ECM 0.942 0.780 0.853 Ngôn ngữ Đặc trưng Precision Recall F1

7 CM+SR+CQ 0.819 0.660 0.731 Tiéng Anh

CM + SR+CQ+ EQ 0.813 0.669 0.734 Random CM + SR + CỌ + ECM 0.814 0.661 0.730 Forest CM + SR + CỌ + EQ + ECM 0.824 0.665 0.736

, CM+SR+CQ 0.933 0.799 0.861 Tiéng Việt

CM + SR+CQ+ EQ 0.928 0.797 0.856 CM + SR + CỌ + ECM 0.930 0.801 0.861 CM +SR+CQ+EQ + ECM 0.935 0.804 0.865 Ngôn ngữ Đặc trưng Precision Recall F1 Bagging CM 0.786 0.672 0.724

CM+SR+CQ 0.797 0.673 0/730 CM + SR+CQ + EQ 0.800 0.671 0.730

CM+SR+CQ+ECM 0.798 0.669 0/7/28 CM+SR+CỌ+EQ+ECM 0.798 0.671 0.729 CM 0.916 0.795 0.851 CM + SR 0.928 0.799 0.859

X CM+SR+CQỌ 0.927 0.798 08558 Tiêng Việt

CM + SR + CỌ + EQ 0.930 0.799 0.860 CM+SR+CQO+ECM 0.926 0.798 0857 CM+SR+CỌ+EQ+ECM 0.927 0.798 08558

Với Bảng 4.3, hiệu suất của giai đoạn phân giải nhập nhang này có thay đổi rất nhỏ khi áp dụng phương pháp lặp cải thiện dần cho các đặc trưng và các thuật toán học máy Hiệu suất có thay đối rất nhỏ hay không thay đổi nguyên nhân là do các thực thé trong một tweet rất ít, cho nên việc bố sung ngữ cảnh theo phương pháp lặp cải thiện dần cũng không ảnh hưởng nhiều đến hiệu suất của giai đoạn phân giải nhập nhăng này.

Bang 4.4 Hiệu suất làm giàu ngữ cảnh, không lặp cải thiện dan cho C4.5, Random

CM +SR + CỌ + EQ 0.934 0.796 0.859 CM +SR + CỌ + ECM 0.943 0.788 0.859 CM + SR + CQ + EQ + ECM 0.925 0.786 0.850 Ngôn ngữ Đặc trưng Precision Recall F1

CM 0.917 0.795 0.852 Random CM + SR 0.927 0.796 0.857 Forest Tiếng Việt CM + SR+CQ 0.928 0.798 0.858

CM + SR+CQ+ EQ 0.931 0.801 0.861 CM + SR + CQ + ECM 0.928 0.798 0.858 CM +SR + CỌ + EQ +ECM 0.934 0.807 0.866

CM + SR + CQ + ECM 0.928 0.798 0.858 CM +SR+CQ+ EQ + ECM 0.926 0.796 0.856

Ngoài việc áp dụng lặp cải thiện dan, chúng tôi cũng thực hiện việc làm giàu ngữ cảnh cho tweet thông qua các liên kết xuất hiện trong tweet như phần 3.3.3 đã giới thiệu Tuy nhiên, chúng tdi chỉ có thể thực hiện việc đánh giá giai đoạn phân giải nhập nhằng cho các tweet tiếng Việt Riêng đối với các tweet tiếng Anh, do dữ liệu được cung cấp bởi Meij, tập dữ liệu này chứa các liên kết quá cũ nên các bài viết mà các liên kết này liên kết đến đã bị xóa Ở Hình 4.4, chúng tôi thực hiện việc đánh giá cho phương pháp mở rộng ngữ cảnh cho các tweet tiếng Việt Từ kết quả thí nghiệm của Bảng 4.4, chúng tôi nhận thấy: việc sử dụng phương pháp làm giàu ngữ cảnh cho tweet cũng không làm thay đổi nhiều hiệu suất của hệ thống Bên cạnh đó, việc áp dụng phương pháp này làm cho hệ thống thực thi chậm hơn do phải lẫy và xử lý nội dung của bài báo của liên kết xuất hiện trong tweet. Đánh giá hiệu suất toàn hệ thống (End-to-end System Evaluation)

Phương pháp đánh giá này thực hiện nhăm đánh giá hiệu suất cho toàn bộ hệ thong từ giai đoạn nhận diện nhãn tham chiếu cho đến giai đoạn cuối cùng là phân giải nhập nhang dé thu được kết quả ánh xa Dữ liệu dau vào là nội dung các tweet của tập dữ liệu đánh giá Hệ thống sẽ tiễn hành thực hiện tuần tự từng giai đoạn, từ giai đoạn đầu tiên (tiền xử lý) cho đến cuối (khi đã tìm được các thực thé ánh xạ vào các nhãn tham chiếu) Việc đánh giá dựa trên tap dữ liệu đánh giá của các tweet đầu vào và tập các thực thé ánh xạ vào nhãn tham chiếu mà hệ thống tìm thấy.

Qua kết quả của phần đánh giá giai đoạn nhận diện nhấn tham chiếu và phân giải nhập nhang, chúng tôi chọn các đặc trưng và thuật toán cho kết quả hiệu suất cao nhất để thực hiện cho phần đánh giá hiệu suất của giai đoạn đánh giá hiệu suất của toàn hệ thông.

Bảng 4.5 Hiệu suất hệ thống dùng Random Forest, không lặp cải thiện dan

Ngôn ngữ Đặc trưng Precision _ Recall F1

| CM +SR+CQ 0.845 0.402 0.545 Tiêng Anh

CM + SR + CQ + EQ + ECM 0.856 0.398 0.543

, CM +SR+CQ 0.929 0.551 0.692 Tiêng Việt

CM + SR + CQ + EQ + ECM 0.932 0.554 0.695 Ở Bảng 4.5, chúng ta chọn hai cụm đặc trưng cho hiệu suất cao nhất là: cụm 3 đặc trưng (CM + SR + CQ) và cụm 5 đặc trưng (CM + SR + COQ + EQ + ECM).

Giải thuật được chọn là Random Forest và có xử lý tiền xử lý nhãn tham chiều Kết quả ở Bảng 4.5, với tiếng Anh thì khi áp dụng cụm 3 đặc trưng là (CM + SR + CQ) thì cho hiệu suất cao hơn so với cụm 5 đặc trưng xấp xi 0.2% Nhưng với tiếng Việt thì cum 5 đặc trưng (CM + SR + CQ + EQ + ECM) lại cho két qua cao hon cum 3 đặc trưng xấp xi 0.3%.

Bảng 4.6 Hiệu suất hệ thong dùng Random Forest, có lặp cải thiện dan

Ngôn ngữ Đặc trưng Precision _ Recall F1

, CM+SR+CQ 0.841 0.417 0.558 Tiéng Anh

CM + SR + CQ + EQ + ECM 0.641 0.419 0.559

, CM +SR+CQ 0.931 0.558 0.698 Tiêng Việt

CM + SR + CQ + EQ + ECM 0.932 0.560 0.700

Trong luận văn này, chúng tôi thực hiện xây dựng hệ thống phân giải nhập nhang thực thé trong các mẫu tin tweet tải trên mạng xã hội Twitter Mục tiêu đặt ra là nhận diện các nhãn tham chiếu và ánh xạ chúng vào đúng các thực thể tương ứng trong cơ sở tri thức Tuy nhiên, không giống như các trang tin tức hay các trang web có nội dung dài và tương đối đầy đủ về mặt ngữ nghĩa, các tweet thường có nội dung nhiễu, bất quy tắc và ngăn, cho nên việc nhận diện và phân giải nhập nhăng trong các tweet trở thành thách thức và thu hút rất nhiều quan tâm nghiên cứu.

Chính vì các đặc thù này của tweet, chúng tôi nghiên cứu, chon lựa các phương pháp, đặc trưng và giải thuật phù hợp để xây dựng hệ thống Bên cạnh đó, chúng tôi cũng xây dựng một tập dữ liệu tweet tiếng Việt cho bài toán phân giải nhập nhăng thực thể trong tweet.

Hệ thống của chúng tôi thực hiện việc phân giải nhập nhang cho các tweet tiếng Anh và các tweet tiếng Việt Đối với tập dữ liệu các tweet tiếng Việt thì hệ thông của chúng tôi đạt được kết quả cao về độ chính xác (Precision) và độ hài hòa (F1). Đối với tập dữ liệu các tweet tiếng Anh, hệ thống của chúng tôi thu được hiệu suất phân giải cao hơn so với các hệ thống phân giải nhập nhăng khác khi đánh giá trên cùng tập dữ liệu được công bố bởi Meij [4] Tuy nhiên do bị ảnh hưởng bởi giai đoạn nhận diện nhãn tham chiếu nên hiệu suất của việc đánh giá toàn hệ thống bị giảm Ngoài ra, chúng tôi còn áp dụng thêm lặp cải thiện dần cho hệ thống.

Một trong những vấn đề quan trọng của hệ thống chúng tôi đó là việc nhận diện các thực thể xuất hiện trong tweet Với đặc trưng của tiếng Việt thì việc nhận diện nhãn tham chiều tương đối khó Cho nên, chúng tôi sẽ phát triển thêm một hệ thống chuyên nhận diện nhãn tham chiếu (thực thể) cho các tweet tiếng Việt để áp dụng vào hệ thống của hiện tại.

Ngoài ra, bên trong nội dung tweet ngoài tiếng Việt thì còn xuất hiện tiếng Anh, cho nên chúng tôi sẽ xây dựng một hệ thống tự động nhận diện nhãn tham chiếu thuộc ngôn ngữ tiếng Anh hay tiếng Việt Sau đó, hệ thong tự động phân giải và anh xạ vào Wikipedia tương ứng.

Tiêu đề	Phân giải nhập nhằng thực thể trong mạng xã hội Twitter
Tác giả	Văn Khánh Duy
Người hướng dẫn	TS. Nguyễn Thanh Hiên
Trường học	Trường Đại Học Bách Khoa - ĐHQG-HCM
Chuyên ngành	Khoa Học Máy Tính
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2014
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	59
Dung lượng	23,27 MB