cứu liên quan
Bắt nhịp với tình hình phát triển chung trên tồn thế giới, các văn bản tiếng Việt cũng ngày càng xuất hiện nhiều dƣới dạng văn bản điện tử, và cùng với đó chính là ngun nhân phát sinh nhu cầu khai thác thơng tin có giá trị từ các văn bản này. Nhận dạng thực thể đóng một vai trị chủ chốt trong khai phá văn bản, chính vì thế nó cũng nhanh chóng trở thành một lĩnh vực nghiên cứu đƣợc nhiều nhà khoa học trong nƣớc quan tâm.
Áp dụng đƣợc NER cho dữ liệu tiếng Việt đồng nghĩa với việc đặt một nền tảng quan trọng trong việc xây dựng đƣợc các hệ thống ứng dụng cho nhiều lĩnh vực khác nhƣ tài chính, kinh tế, xã hội, y sinh, v.v.. phù hợp với tình hình trong nƣớc.
Trong mục này, luận án tóm tắt về một số thách thức cần giải quyết khi xử lý văn bản tiếng Việt,động cơnghiên cứu và tầm quan trọng của bài toánbài toán nhận dạng thực thể tiếng Việt, điểm qua một số tài ngun hữu ích cũng nhƣ tình hình nghiên cứu hiện tại.
1.3.1. Những thách thức đối với xử lý dữ liệu tiếng Việt
Có thể nêu ra một số đặc điểm của tiếng Việt khiến cho nó trở nên khác biệt và khó xử lý nhƣ sau, một số các đặc điểm dƣới đây đƣợc tham khảo từ tài liệu [DH96] và một số khác dựa trên quan điểm của nghiên cứu sinh về tiếng Việt:
Khác với tiếng Anh, Tiếng Viê ̣t thuô ̣c ngôn ngƣ̃ đơn lâ ̣p, tƣ́c là mỗi mô ̣t tiếng (âm tiết) đƣơ ̣c phát âm tách rời nhau và đƣợc thể hiê ̣n b ằng mô ̣t chƣ̃ viết .Tƣ̀ tiếng, ngƣời ta ta ̣o ra các đơn vi ̣ tƣ̀ vƣ̣ng khác để đi ̣nh danh sƣ̣ vâ ̣t , hiê ̣n tƣơ ̣ng v.v.., chủ yếu nhờ phƣơng thức ghép và phƣơng th ức láy, ví dụ: “con
người”, “khoa học”, “công nghệ thông tin”, “đu đủ”, “thừa thãi”,v.v.. Các
25
từ nàyđƣợc viết rời theo từng âm tiết chứ khơng theo từng từ. Chính điều này khiến cho việc xác định biên của một từ trong tiếng Việt trở nên khó khăn hơn.
Sƣ̣ linh hoa ̣t trong sƣ̉ du ̣ng , viê ̣c ta ̣o ra các tƣ̀ ngƣ̃ mới mô ̣t cách dễ dàng đã tạo điều kiện thuận lợi cho sự phát triển vốn từ nhƣng đ ồng thời cũng gây khó khăn trong việc bao quát các thể hiện của ngơn ngữ. Ví dụ, bên cạnh các ́u tớ cấu ta ̣o tƣ̀ thuần Viê ̣t, tiếng Việt có vay mƣợn tƣ̀ các ngơn ngƣ̃ khác để tạo ra các t ừ mới, nhƣ “ghi đông”, “karaoke”, “siêu liên kết” , v.v.. Các từ
địa phƣơng xuất hiện trong văn bản cũng là một yếu tố khiến tiếng Việt trở nên phức tạp hơn.
Hiện tƣợng đồng âm khác nghĩa trong tiếng Việt là khá phổ biến, Ví dụ: ―lợi” (có ích lợi –tƣơng ứng với ―benefit” trong tiếng Anh) và ―lợi” (―lợi” thuộc về răng hàm mặt–“alveolar‖).
Ngƣợc lại, cùng một sự vật, hiê ̣n tƣợng, mô ̣t hoa ̣t đô ̣ng hay mô ̣t đ ặc trƣng lại có thể có nhiều từ ngữ khác nhau biểu thị . Hiện tƣợng các từ gần nghĩa, đồng nghĩa nhƣng cách dùng khác nhau và không thể thay cho nhau trong mọi ngữ cảnh cũng khá phổ biến, ví dụ: “hội đàm”, “hội nghị”, “hội thảo”, “toạ đàm”hay “tìm” và “kiếm”.
Ngữ pháp Việt Nam là ngữ pháp cực kỳ phức tạp. Đối với hầu hết ngƣời Việt Nam, câu nói ―phong ba bão táp khơng bằng ngữ pháp Việt Nam‖ chắc chắn không phải là xa lạ. Ngữ pháp Việt Nam phức tạp khơng phải bởi vì nó có bộ luật cồng kềnh và chặt chẽ nhƣ nhiều ngôn ngữ khác, mà ngƣợc lại, vì nó q linh động với vô số biến thể và trƣờng hợp ngoại lệ. Sự phức tạp của ngữ pháp Việt Nam đƣợc thể hiện ở nhiều khía cạnh, nó có thể bởi cách tƣ duy khác nhau của ngƣời Việt (ví dụ ―áo ấm” và ―áo lạnh” là hai từ đồng nghĩa trong khi ―lạnh” và ―ấm” là hai từ trái nghĩa), do thói quen sử dụng từ (ví dụ, về mặt lý thuyết thì ―con” đƣợc dùng trƣớc danh từ chỉ động vật, nhƣng trong thực tế ―con” lại kết hợp đƣợc với một số từ chỉ bất động vật nhƣ ―con
mắt”, “con đường”, “con dao”, v.v..), hay do bản thân các cấu trúc trật tự từ
26
(ví dụ,Trong câu hỏi về tƣơng lai, các từ bao giờ, khi nào, bao nhiêu thƣờng đƣợc đặt ở đầucâu, trong khi đó nếu để hỏi về quá khứ thì chúng thƣờng đƣợc đặt ở cuối câu).
Một vấn đề khác mang tính kỹ thuật hơn. Đó là vì sự phát triển cịn non trẻ của lĩnh vực xử lý ngôn ngữ tự nhiên cũng nhƣ khai phá văn bản trong nƣớc, các tài nguyên ngôn ngữ và công cụ hỗ trợ đƣợc xây dựng cho tiếng Việt cịn rất ít và có nhiều hạn chế. Cộng đồng nghiên cứu tiếng Việt cũng chƣa có sự liên kết chặt chẽ, dẫn tới mỗi nghiên cứu lại có tính cá nhân mà chƣa tận dụng đƣợc hết những kết quả của các nghiên cứu trƣớc đó.
1.3.2. Động cơ nghiên cứu
Nhƣ đã đƣợc trình bày, tiếng Việt có những đặc điểm khác biệt so với các ngơn ngữ khác (ví dụ nhƣ tiếng Anh), vì vậy, nhiều phƣơng pháp nhận dạng thực thể đã đƣợc áp dụng thành công cho tiếng Anh song không đảm bảo đem lại kết quả tƣơng ứng khi sử dụng cho dữ liệu tiếng Việt.Vì vậy việc đề xuất một phƣơng pháp hiệu quả đối với dữ liệu tiếng Việt là nhiệm vụ bức thiết của chính những nhà nghiên cứu trong nƣớc, trong đó có nghiên cứu sinh.
Nắm bắt đƣợc nhu cầu thực tế và với mong muốn đƣợc cống hiến công sức của mình để nghiên cứu tiếng mẹ đẻ từ đó góp phần đem lại thêm những tri thức có giá trị đến với cộng đồng khoa học trong nƣớc, nghiên cứu sinh coi việc tập trung nghiên cứubài toánnhận dạng thực thể trong văn bản tiếng Việt là một trong hai mục tiêu nghiên cứu chính của luận án.
1.3.3. Các nghiên cứu liên quan
Nhận dạng thực thể trong tiếng Việt đang nhận đƣợc nhiều sự quan tâm của cộng đồng nghiên cứu trong nƣớc cũng nhƣ các nhà nghiên cứu đang sống và làm việc tại nƣớc ngồi. Nhiều cơng trình nghiên cứu về trích xuất thơng tin tiếng Việt đã đƣợc đăng và xuất bản tại các hội nghị uy tín nhƣ: EACL, IJNLP, PAKDD,… hay các tạp chí có chỉ số cao nhƣ TALIP, TKDE,… bên cạnh đấy một số hội nghị
27
cũng đã có những phiên làm việc tập trung về lĩnh vực này cho tiếng Việt nhƣ KSE, RIVF, SoICT,…
Phần lớn các nghiên cứu về nhận dạng thực thể tiếng Việt cũng đi theo xu hƣớng của các nghiên cứu trên thế giới là dựa vào các phƣơng pháp học máy, bên cạnh đấy, một số nghiên cứu áp dụng một số luật để nhận dạng nhƣ luật ripple- down-rule [NP12, NHP10] hay luật ngữ pháp [LN10, LDN13] cũng đƣợc sử dụng. Các phƣơng pháp nói trên cho hiệu quả khá tốt với độ đo F nằm trong khoảng 80- 90% đối với một số loại thực thể phổ biến nhƣ ngƣời, địa danh, tổ chức, thời gian.
Các phƣơng pháp học máy đƣợc sử dụng để giải quyết bài toán nhận dạng thực thể tiếng Việt chủ yếu là giám sát và bán giám sát. Đối với học máy giám sát, Nguyen Cam Tuvà cộng sự [TOH05] áp dụng phƣơng pháp trƣờng ngẫu nhiên có điều kiện (CRF) trên tập dữ liệu huấn luyện tự xây dựng gồm 8 loại thực thể(tên ngƣời, địa danh, tổ chức, tiền tệ, thời gian, số, phần trăm, một số loại khác) kết quả đạt 85,51% với độ đo F. Cũng sử dụng phƣơng pháp CRF, tuy nhiên, Le và cộng sự [LV13] và Nguyen và cộng sự [NC12] đã đƣa thêm một số đặc trƣng liên quan đến ontology và kỹ thuật lựa chọn đặc trƣng dựa trên giải thuật di truyền nhằm nâng cao chất lƣợng nhận dạng. Tran và cộng sự [TTQ07] huấn luyện mơ hình nhận dạng thực thể tiếng Việt dựa trên phƣơng pháp máy vector hỗ trợ (SVM) bằng cơng cụ Yamcha4, mơ hình cho kết quả tƣơng đối khả quan khi so sánh với phƣơng pháp CRF trên độ đo F, đạt 87,75% so với 86,48%. Thao và cộng sự [TTD07] đã cải tiến kết quả của Tran và cộng sự bằng việc tổ hợp kết quả đã có với nhiều kết quả của các phƣơng pháp học khác nhau (ensemble learning) thơng qua kỹ thuật bình chọn (voting), phƣơng pháp này làm tăng hiệu quả của mơ hình nhận dạng từ 87,75% lên 88,02%.
Bên cạnh các phƣơng pháp học giám sát, các phƣơng pháp học bán giám sát (semi-supervised learning) cũng đƣợc áp dụng trong nhiều nghiên cứu. Trong
4http://chasen.org/~taku/software/yamcha/
28
[SLT11a], Sam và cộng sự sử dụng phƣơng pháp học bán giám sát lan truyền nhãn dựa trên đồ thị tƣơng tự. Với ƣu điểm của các phƣơng pháp học máy bán giám sát là tận dụng các nguồn dữ liệu lớn chƣa đƣợc gán nhãn để hỗ trợ thơng tin cho mơ hình học, phƣơng pháp này đã đạt đƣợc những kết quả khả quan trong nhận diện ba thực thể phổ biến là ngƣời, địa danh, tổ chức.Một hƣớng tiếp cận khác của học bán giám sát là học dựa trên các mẫu (pattern-based), Le Trung và cộng sự [LLL14] đã áp dụng phƣơng pháp mồi dữ liệu (bootstrapping) để tự động sinh ra các mẫu nhận dạng thực thể từ một số lƣợng nhỏ các thực thể hạt giống (seed), phƣơng pháp này cho hiệu quả tốt nếu tập dữ liệu huấn luyện nhỏ, tuy nhiên việc quản lý nhập nhằng giữa các mẫu ngữ pháp của các thực thể khác nhau là một thách thức khơng nhỏ khi vịng lặp sinh mẫu lớn hay số loại thực thể nhiều.
Bên cạnh các nghiên cứu về nhận dạng thực thể, một số các nghiên cứu ứng dụng nhận dạng thực thể cũng đƣợc các nhà nghiên cứu trong nƣớc nêu ra nhƣ trích xuất quan hệ và sự kiện tiếng Việt. Sam và cộng sự (2011) [SLT11b] đã áp dụng phƣơng pháp học bán giám sát mồi dữ liệu (bootstrapping) để sinh ra các mẫu ngơn ngữ nhận biết các cặp thực thể có quan hệ với nhau, bên cạnh đấy nghiên cứu cũng áp dụng phƣơng pháp SVM để xác định loại quan hệ cũng nhƣ làm tốt hơn kết quả trích xuất các mẫu ngôn ngữ. Trong nghiên cứu về trích xuất sự kiện của mình, Nguyen và cộng sự [NN13] đã thực hiện việc trích xuất các sự kiện liên quan đến dịch bệnh trong miền dữ liệu văn bản tiếng Việt, các sự kiện dịch bệnh sẽ là một tổ hợp các thực thể liên quan đến dịch bệnh xuất hiện trong văn bản đƣợc xét và đƣợc nhận dạng dựa trên mơ hình nhận dạng thực thể. Việc xem xét các mối quan hệ giữa sự kiện và thực thể hay giữa các thực thể và thực thể đƣợc thực hiện dựa vào một số luật đơn giản, chính vì thế hiệu quả của mơ hình trích xuất sự kiện chƣa đạt kết quả cao nhƣ các phƣơng pháp sử dụng các kỹ thuật phân tích ngữ nghĩa sâu trong xử lý ngơn ngữ tiếng Anh.
29