Giới thiệu
Gán nhãn vai trò ngữ nghĩa là quá trình xác định cấu trúc của câu bằng cách trả lời các câu hỏi cơ bản như Ai? đã làm gì? với ai? khi nào? ở đâu? tại sao? và như thế nào?.
(i) Mary hit Jack with a ball yesterday
(ii) Jack was hit by Mary yesterday with a ball
Ta có thể thấy rằng “Mary, Jack, a ball, yesterday” đóng các vai trò ngữ nghĩa sau: “Người đánh, vật bị đánh, dụng cụ, thời gian” trong cả hai câu
Nhiệm vụ gán nhãn vai trò ngữ nghĩa là xác định các nhãn ngữ nghĩa cho cụm từ mà không phụ thuộc vào cú pháp Thông tin này rất quan trọng để hiểu đầy đủ ý nghĩa câu Nghiên cứu của Levin (1993) minh họa hiện tượng thay thế lớp động từ, ảnh hưởng đến hầu hết động từ trong tiếng Anh và các thành phần biểu thị bởi chúng Mặc dù những tiến bộ trong kỹ thuật phân tích cú pháp đã hỗ trợ xử lý ngôn ngữ tự nhiên, việc chuyển từ phân tích cú pháp sang hiểu nghĩa câu vẫn còn nhiều thách thức Điều này đã thúc đẩy các nhà nghiên cứu phát triển kỹ thuật tự động và chính xác cho phân tích cú pháp lớp ngữ nghĩa, tiến gần hơn đến việc hiểu ngôn ngữ.
Gán nhãn vai trò ngữ nghĩa là một bài toán quan trọng trong nhiều framework, thu hút sự quan tâm của các nhà nghiên cứu Nhiệm vụ này nhằm xác định và gán nhãn tất cả các argument cho mỗi vị tố trong câu, bao gồm việc nhận diện các thành phần biểu diễn argument và gán nhãn vai trò ngữ nghĩa cho chúng Một số ví dụ về các nhãn vai trò ngữ nghĩa sẽ được trình bày sau đây.
(i) [ Agent Mary]hit [Theme Jack][ Instrument with a ball][ Temporal yesterday]
(ii) [ Theme Jack] was hit by [ Agent Mary][ Temporal yesterday][ Instrument with a ball] (iii) [ A0 John] broke [ A1 the window]
(iv) [ A1 The window] was broken by [ A0 John]
Trong các ví dụ này, thông tin mô tả các nhãn vai trò ngữ nghĩa được gán cho các đối tượng của vị tố (in nghiêng) Hai ví dụ đầu tiên được phân tích theo chú thích FrameNet, trong khi hai ví dụ còn lại sử dụng kho ngữ liệu PropBank.
Các phương pháp tiếp cận bài toán gán nhãn vai trò ngữ nghĩa
Tiếp cận theo luật
Cách tiếp cận truyền thống trong trí tuệ nhân tạo (AI) dựa trên việc phát triển các hệ luật do các chuyên gia xử lý ngôn ngữ tự nhiên xây dựng thủ công Những hệ luật này thường được tạo ra để giải quyết các vấn đề cụ thể trong lĩnh vực AI.
Nhiều nghiên cứu trước đây, như của Hirst (1987) và Fillmore (1976), đã áp dụng phân tích cú pháp dựa trên luật và biểu diễn tri thức theo khung (frame), với Hirst sử dụng phương pháp ánh xạ để kết nối các thành phần cú pháp với các vị trí frame tương ứng, từ đó xây dựng ngữ nghĩa câu Các tác giả Pustejovsky (1995) cùng Copestake và Flickinger (2000) cũng đã tiến hành nghiên cứu tương tự về các lớp từ vựng và ngữ pháp được xây dựng thủ công.
Các nghiên cứu trước đây đã chú trọng vào việc xác định cấu trúc argument danh nghĩa bằng những phương pháp tương tự Chẳng hạn, Dahl và các cộng sự (1987) đã áp dụng bộ quy tắc kết hợp các thành phần cú pháp với vai trò ngữ nghĩa cho các vị tố danh nghĩa.
Investigation revealed [ Instrument metal] [ Predicate contamination] in [ Theme the filter]
Hệ thống tạo bởi Dahl và cộng sự sử dụng các luật sau để xác định các chất gây ô nhiễm (metal) và thực thể bị ô nhiễm (the filter):
1 Instrument là danh từ đứng trước vị tố contamination
2 Theme là đối tượng của cụm giới từ theo sau contamination
Các quy tắc được định nghĩa cho phép hệ thống xác định chính xác các lớp vai trò ngữ nghĩa Mặc dù hệ thống này chưa được đánh giá chính thức, nhưng có lý do để tin rằng các quy tắc này có thể được áp dụng một cách hiệu quả.
Nghiên cứu của Dahl và cộng sự đã chỉ ra những ưu điểm và hạn chế của các hệ thống gán nhãn ngữ nghĩa dựa trên hệ luật Một điểm mạnh là khi một luật đưa ra dự đoán chính xác, thì dự đoán đó hầu như luôn đúng, như trong trường hợp xác định các nhãn Instrument và Theme.
Các hệ luật ngữ nghĩa và cú pháp được xây dựng đầy đủ, cho phép mọi phép suy diễn được giải thích theo các quy tắc đã định Tuy nhiên, những hệ thống này dễ bị phá vỡ khi áp dụng vào các văn bản không lường trước, do bản chất “all or nothing” trong việc giải thích Tính linh hoạt và đa dạng của ngôn ngữ cho thấy rằng một tập quy tắc hạn chế thường không đủ để xử lý các câu trong ngôn ngữ tự nhiên.
Vấn đề nảy sinh khi các nghiên cứu cần mở rộng quy mô để bao quát hiện tượng ngôn ngữ, vì việc thêm nhiều luật vào hệ khử nhập nhằng ngữ nghĩa dẫn đến khó khăn trong việc kiểm soát tính hợp lý và tương thích giữa các luật Sự gia tăng số lượng luật có thể tạo ra mâu thuẫn, và việc xây dựng hệ thống luật phức tạp yêu cầu công sức lớn mà vẫn không thể bao quát hết mọi trường hợp Mặc dù một số miền hẹp có thể hiệu quả, nhưng các hệ thống gán nhãn ngữ nghĩa dựa trên luật có nguy cơ sụp đổ do sự phức tạp và nặng nề của chúng.
Tiếp cận theo phương pháp thống kê
Sự phát triển của các kho ngữ liệu lớn như FrameNet và PropBank đã chuyển đổi cách xử lý ngữ nghĩa từ phương pháp dựa trên quy tắc sang phương pháp hướng ngữ liệu Nghiên cứu của Gildea và Jurafsky (2002) đã tiếp cận bài toán gán nhãn vai trò ngữ nghĩa (SRL) như một bài toán học máy có giám sát, sử dụng FrameNet làm dữ liệu huấn luyện Họ áp dụng phương pháp thống kê cực đại hóa likelihood để phân tích các đặc trưng cú pháp và từ vựng, nhằm xác định các biên của phần tử frame trong văn bản và gán nhãn vai trò ngữ nghĩa cho chúng Mỗi ví dụ huấn luyện được phân tích thành cây cú pháp và trích xuất các đặc trưng như loại cụm từ và vị trí của thành phần Những đặc trưng này được kết hợp với tri thức về vị tố và thông tin xác suất ưu tiên cho các cách kết hợp vai trò ngữ nghĩa khác nhau, tạo nền tảng cho các hệ thống gán nhãn vai trò ngữ nghĩa tự động hiện nay.
Gán nhãn ngữ nghĩa là một nhiệm vụ phức tạp, thường được chia thành các bài toán nhỏ hơn với các chiến lược gán nhãn đa dạng để áp dụng các phương pháp học máy hiệu quả Một trong những thách thức chính là việc chú thích cho các mệnh đề trong câu, điều này đã thu hút sự quan tâm từ nhiều nhóm nghiên cứu tham dự CoNLL.
Vào năm 2004, việc chú thích vai trò ngữ nghĩa cho mỗi động từ vị ngữ trong câu được xác định là một nhiệm vụ độc lập Hệ thống của Carreras và các cộng sự đã đóng góp vào lĩnh vực này.
Năm 2004, nghiên cứu đã thực hiện chú thích đồng thời cho tất cả các mệnh đề, dẫn đến hai nhóm quan điểm khác nhau về bài toán nhận dạng vai trò sự kiện (SRL) Nhóm đầu tiên coi SRL tương tự như bài toán chunking, trong khi nhóm còn lại nhấn mạnh cấu trúc phân cấp hình thành từ các argument của mệnh đề Các nghiên cứu cũng chỉ ra ba chiến lược gán nhãn chính: chiến lược đầu tiên xác định vai trò trực tiếp thông qua việc gán nhãn chuỗi theo định dạng BIO; chiến lược thứ hai chia bài toán thành hai giai đoạn độc lập: nhận dạng argument và gán nhãn; và chiến lược thứ ba bao gồm quá trình lọc để quyết định tập argument và quá trình gán nhãn.
(labeling), trong đó, tập các argument tối ưu được rút ra từ tập ban đầu
Sự phát triển nhanh chóng của kỹ thuật học máy đã đóng góp đáng kể vào việc giải quyết bài toán gán nhãn vai trò ngữ nghĩa Tại hội nghị CoNLL 2004, Hacioglu và cộng sự đã chọn SVMs để phân lớp vai trò ngữ nghĩa, nhờ vào khả năng xử lý lượng lớn đặc trưng tương tác và chồng chéo với tính khái quát hóa cao Đồng thời, Lim và cộng sự cũng đã đề xuất phương pháp gán nhãn sử dụng mô hình entropy cực đại (Maximum Entropy) để giải quyết vấn đề này.
Để xây dựng mô hình, các tác giả đã sử dụng thông tin về cú pháp để biểu diễn vai trò ngữ nghĩa trong mệnh đề, với các argument của vị tố được đặt trong mệnh đề hoặc các mệnh đề bên trên Họ đã xem xét và lựa chọn mối quan hệ giữa các thuộc tính cú pháp và ngữ nghĩa của ngữ cảnh cho trước Thuật toán học máy Entropy cực đại được lựa chọn không chỉ để khai thác tập các đặc trưng phong phú mà còn giảm thiểu vấn đề dữ liệu thưa Ngoài ra, một số thuật toán học máy khác như Memory-based learning, Voted perceptron và Transformation-based errors driven learning cũng được áp dụng hiệu quả.
Tổng quan về hệ thống gán nhãn vai trò ngữ nghĩa
Định nghĩa gán nhãn vai trò ngữ nghĩa nông
Semantic Role Labeling (SRL) with shallow parsing involves assigning semantic roles to phrases within a sentence in relation to a target word This process helps in understanding the underlying meaning and relationships between different components of the sentence By identifying these roles, SRL enhances the analysis of sentence structure and meaning.
Shaw Publishing offered Mr Smith a reimbursement last March Được gán nhãn là:
• [ AGENT Shaw Publishing] offered [ RECEPIENT Mr Smith] [ THEME a reimbursement] [ TIME last March]
Kho ngữ liệu PropBank
Kho ngữ liệu PropBank tập trung vào cấu trúc argument của động từ, cung cấp dữ liệu được chú thích với các nhãn ngữ nghĩa, bao gồm các vai trò ngữ nghĩa truyền thống như argument và trạng từ PropBank giúp xác định tần số của các biến thể cú pháp trong thực tế, mở ra nhiều bài toán và chiến lược mới cho việc hiểu ngôn ngữ tự nhiên Các nhãn vai trò ngữ nghĩa trong PropBank rất đa dạng và phong phú.
[ A0 He] [ AM-MOD would] [ AM-NEG n’t] [ V accept] [ A1 anything of value] from [ A2 those he was writing about]
Trong ngữ pháp, V đại diện cho động từ, A0 là người đồng ý, A1 là vật được đồng ý, A2 là nguồn gốc của sự đồng ý, A3 thể hiện thuộc tính, AM-MOD chỉ động từ khuyết thiếu, và AM-NEG biểu thị tính phủ định.
PropBank nhằm hoàn thiện kho ngữ liệu chú thích vai trò ngữ nghĩa của Penn Treebank Ban đầu, từ vựng của PropBank được thêm vào các chú thích và sau đó phát triển thành một tài nguyên độc lập Mỗi trạng thái động từ chỉ có một frameset duy nhất, bao gồm các vai trò ngữ nghĩa tại các nhận dạng cú pháp hoàn chỉnh.
Phương pháp chú thích trong FrameNet và PropBank có sự khác biệt rõ rệt, với PropBank tập trung vào việc chú thích các verb frame để giải thích câu trong Penn Treebank PropBank định nghĩa vai trò ngữ nghĩa dựa trên động từ, kiểm tra và nhóm các câu chứa động từ thành các trạng thái chính, mỗi trạng thái chuyển thành một frameset Các trạng thái động từ được phân tích riêng biệt nếu có đặc trưng cú pháp khác nhau liên quan đến các dạng argument Vai trò ngữ nghĩa của động từ được đánh số từ Arg0 đến Arg5, trong đó Arg0 thường đại diện cho Agent và Arg1 là Patient hoặc Theme Ngoài ra, một danh mục các vai trò ngữ nghĩa về thời gian được định nghĩa với tag ArgM và các tag chức năng như ArgM-LOC và ArgM-TMP Chú thích PropBank kế thừa từ Penn Treebank, không chỉ được biểu diễn trên cây cú pháp mà còn gán nhãn ngữ nghĩa cho các phần của câu tương ứng với các nút trong cây.
Các phiên bản gần đây của PropBank bao gồm English PropBank I, được phát hành vào năm 2004, với 3323 động từ vị ngữ và 4659 frameset Trong số đó, có 787 động từ thường xuyên xuất hiện, 521 động từ chỉ có 1 frameset, 169 động từ có 2 frameset và 97 động từ có hơn 3 frameset Ngoài ra, Chinese PropBank cho tiếng Trung và Korean PropBank cho tiếng Hàn đã được phát hành vào năm 2005.
Vào năm 2006, Chou và các đồng nghiệp đã khai thác chú thích PropBank trong lĩnh vực sinh học bằng cách tích hợp chúng vào kho ngữ liệu GENIA Treebank, như đã được đề cập bởi Tateisi và các cộng sự vào năm 2005.
Kiến trúc tổng quát của hệ thống gán nhãn vai trò ngữ nghĩa
Các nghiên cứu gần đây về hệ thống nhận dạng vai trò ngữ nghĩa (SRL) tập trung vào việc phát triển một hệ thống học máy có khả năng thống kê và phân loại các vai trò ngữ nghĩa cho nhiều loại vị tố trong văn bản không giới hạn Gildea và Jurafsky đã đóng góp quan trọng vào lĩnh vực này.
Năm 2002, hệ thống thống kê SRL đầu tiên trên FrameNet được giới thiệu, dựa trên một bộ phân lớp thống kê được huấn luyện từ 50.000 câu trong kho ngữ liệu FrameNet Mỗi ví dụ huấn luyện được phân tích thành cây cú pháp bằng bộ phân tích cú pháp Collin và trích xuất các đặc trưng cú pháp, từ vựng như loại cụm từ và vị trí Những đặc trưng này kết hợp với tri thức về vị tố và thông tin xác suất ưu tiên của các vai trò ngữ nghĩa Nghiên cứu này đã đặt nền tảng cho các hệ thống gán nhãn vai trò ngữ nghĩa tự động hiện nay, xây dựng kiến trúc hệ thống SRL tổng quát và cung cấp các đặc trưng cốt lõi được sử dụng rộng rãi trong hầu hết các hệ thống SRL hiện tại.
Hệ thống SRL (Semantic Role Labeling) cần xác định tất cả các thành phần ngữ nghĩa trong câu cho mỗi vị tố mục tiêu Bộ chú giải (Annotator) làm giàu thông tin thông qua các bộ phân tích cú pháp hoặc các bản thể luận ngữ nghĩa như WordNet/VerbNet Tiếp theo, thành phần trích rút đặc trưng (Feature Extractor) sẽ lấy các đặc trưng như từ loại và thể thức của vị tố từ đầu ra của bộ chú giải.
Các đặc trưng được trích rút sẽ được đưa vào thành phần học để huấn luyện, bao gồm hai bộ phận chính: nhận dạng vai trò ngữ nghĩa và phân lớp vai trò ngữ nghĩa Quá trình nhận dạng vai trò ngữ nghĩa nhằm xác định các thành phần trong câu, đại diện cho các argument ngữ nghĩa của một vị tố Trong khi đó, phân lớp vai trò ngữ nghĩa gán các nhãn argument cho các thành phần đã được xác định Nếu bộ chú giải cung cấp một cây cú pháp, mỗi nút trên cây sẽ được phân lớp thành argument ngữ nghĩa (nút không rỗng) hoặc không đại diện cho argument ngữ nghĩa (nút rỗng) Mục tiêu chính là phân biệt các nút rỗng và không rỗng, để từ đó các nút không rỗng được phân lớp bởi tập nhãn argument.
Các đặc trưng khác nhau có vai trò quan trọng trong các nhiệm vụ xử lý ngôn ngữ tự nhiên Chẳng hạn, đặc trưng cấu trúc thường hiệu quả hơn trong việc nhận diện và xác định các argument, trong khi đặc trưng từ vựng lại hữu ích cho việc phân loại chúng (Pradhan, Ward và Martin, 2008) Mô hình học sử dụng một phương pháp địa phương, nơi mà xác suất vai trò ngữ nghĩa của mỗi thành phần được ước lượng độc lập Tuy nhiên, giả thiết độc lập mạnh này có thể dẫn đến hiệu suất thấp Để cải thiện, các hệ thống thường áp dụng các ràng buộc cứng, như không cho phép chồng chéo giữa các thành phần được gán nhãn và đảm bảo tính hợp lệ của chuỗi nhãn vai trò ngữ nghĩa, như một bước hậu xử lý Một số hệ thống còn chú trọng vào sự phụ thuộc bên trong giữa các nhãn thành phần trong một khung kết hợp, từ đó đạt được hiệu suất cao hơn với chi phí và chiến lược học phức tạp hơn.
Một số thiết lập điển hình cho SRL
Cây phân tích cú pháp của một câu được coi là đầu vào cho hệ thống Gán nhãn Vai trò Ngữ nghĩa (SRL), với mỗi xâu con có nhãn ngữ nghĩa tương ứng với các thành phần cú pháp Việc xác định các thành phần này rất quan trọng đối với PropBank, vì nó bao gồm việc bổ sung thông tin ngữ nghĩa vào các thành phần trong Penn Treebank Hiện tại, cây phân tích cú pháp đầy đủ dựa trên chú thích tham tố-vị từ PropBank là chú thích phổ biến nhất cho bài toán SRL Tuy nhiên, một số nghiên cứu gần đây cho thấy không cần thiết phải sử dụng các cây phân tích đầy đủ này, mà có thể áp dụng các cấu trúc phụ thuộc hoặc thông tin cú pháp nông ở mức độ phân đoạn cụm từ Dựa trên các chú thích cú pháp, các đặc trưng được trích rút từ cây phân tích và một tập cụ thể các đặc trưng này được sử dụng rộng rãi trong hệ thống gán nhãn vai trò ngữ nghĩa.
Trong lĩnh vực học máy, đã có nhiều chiến lược khác nhau được áp dụng, bao gồm các mô hình sinh Bayes (Gildea và Jurafsky, 2002), cây quyết định (Chen và Rambow, 2003) và phương pháp Maximum Entropy (Xue và Palmer).
Trong nghiên cứu của Pradhan và cộng sự (2004) và Cohn và Blunsom (2005), các hệ thống gán nhãn vai trò ngữ nghĩa được đánh giá dựa trên các chỉ số tiêu chuẩn như Precision, Recall và F-score Đối với mỗi vai trò ngữ nghĩa, chẳng hạn như A0, các chỉ số này được tính toán dựa trên số lượng các argument được gán nhãn đúng, số lượng argument được gán nhãn và số lượng gold argument Để có cái nhìn tổng quát về hiệu suất của hệ thống, việc đánh giá các bài toán con liên quan đến định nghĩa và phân loại nhãn argument cũng được thực hiện, giúp nâng cao khả năng phân tích và so sánh Các chỉ số này được tính toán một cách cụ thể để đánh giá hiệu quả của hệ thống.
Ứng dụng của gán nhãn vai trò ngữ nghĩa trong xử lý ngôn ngữ tự nhiên 20
Trích rút thông tin
Mục tiêu chính của trích rút thông tin (IE) là cung cấp những thông tin quan trọng cho người dùng Các loại thông tin được trích rút rất đa dạng, bao gồm nhận dạng thực thể (NER), xác định thuộc tính và sự kiện, cùng với việc chỉ mục mức sự kiện Hệ thống trích rút thông tin kinh điển do Surdeanu và cộng sự đề xuất vào năm 2003 đã tận dụng cấu trúc tham tố-vị từ để xây dựng hệ thống gán nhãn vai trò ngữ nghĩa, mở rộng template cho việc trích rút thông tin Gần đây, việc trích rút mối quan hệ giữa các thực thể từ văn bản ngôn ngữ tự nhiên phi cấu trúc đã thu hút sự chú ý lớn từ các nhà khoa học.
Các cấu trúc tham tố- vị từ (Predicate- Argument structures, PAS) cũng được áp dụng cho bài toán trích rút thông tin trong lĩnh vực y sinh học
Yakushiji (2005) và cộng sự đã phát triển một phương pháp để trích xuất mối quan hệ tương tác giữa các protein bằng cách sử dụng cấu trúc PAS Họ đã áp dụng một bộ phân tích ngữ pháp đầy đủ để xử lý các câu ban đầu, từ đó rút ra một cấu trúc PAS có khả năng tiếp nhận các dạng đảo ngược của câu bề mặt Mức trừu tượng này không chỉ hỗ trợ việc tự động trích xuất các quy tắc mà còn phục vụ cho việc biểu diễn tương tác của các protein Kết quả đạt được cho thấy hiệu suất đáng kể, có thể so sánh với các quy tắc trích xuất thủ công.
Hệ thống hỏi đáp
Hệ thống hỏi đáp hiện tại (QA) trích rút các câu trả lời từ một tập các văn bản lớn theo các bước sau:
(1) Phân loại dạng câu trả lời mong muốn
(2) Sử dụng các từ khóa hoặc các mẫu hỏi kết hợp với các câu hỏi để xác định các đoạn có chứa câu trả lời
(3) Xếp hạng các câu trả lời có thể để quyết định đoạn nào chứa câu trả lời chính xác
Kết quả nghiên cứu của Narayanan và Harabagiu (2004) cho thấy thông tin vai trò ngữ nghĩa được tích hợp trong cả câu hỏi và văn bản Thông tin này không chỉ giúp xác định mô hình chủ đề mà còn hỗ trợ quá trình giải thích câu hỏi Sau đó, nó được sử dụng để xây dựng mô hình mở rộng về các hành vi và sự kiện, cho phép hệ thống QA thực hiện các lập luận phức tạp trong một ngữ cảnh đa dạng.
Tóm tắt văn bản
Hội nghị DUC - 2005 (Document Understanding Conference 2005) có nhiệm vụ tạo ra một đoạn tóm tắt 250 từ dựa trên các câu hỏi và văn bản liên quan Melli và các cộng sự (2005) đã tích hợp thành phần gán nhãn vai trò ngữ nghĩa vào hệ thống SQUASH, với ROUGE-2 là cải tiến quan trọng trong việc xem xét ảnh hưởng của các đặc trưng khác ROUGE (Recall Oriented Understudy for Gisting Evaluation) là phương pháp tự động đánh giá chất lượng tóm tắt bằng cách so sánh với các đoạn văn bản lý tưởng do con người tạo ra Các phương pháp này tính toán số lượng đơn vị chồng chéo như N-gram, chuỗi từ, và cặp từ giữa tóm tắt do máy tạo ra và tóm tắt lý tưởng ROUGE-2 đo lường sự tương đồng giữa các gram trong đoạn tóm tắt.
Trong hệ thống SQUASH, thông tin vai trò ngữ nghĩa được sử dụng để lựa chọn và nén câu Những thông tin này giúp ước lượng độ cần thiết của từng câu trong nhóm vai trò ngữ nghĩa, bao gồm các thực thể liên quan Ngoài ra, chúng cũng hỗ trợ trong việc đo độ tương tự giữa các câu và loại bỏ thông tin thừa, đảm bảo đoạn tóm tắt đạt đủ 250 từ Ví dụ, các thành phần có thể được thể hiện vai trò ngữ nghĩa qua các nhãn ARG-TMP (temporal markers).
ARG- DIS (discourse markers) được loại bỏ phục vụ mục đích nén câu
1.5 Một số phương pháp phân loại nổi tiếng
Cây quyết định là một cấu trúc cây, trong đó mỗi node đại diện cho một thuộc tính, các nhánh thể hiện kết quả của phép thử, và các node lá biểu thị cho lớp hoặc phân bố lớp Node gốc nằm ở đỉnh cây, và để phân lớp một mẫu chưa biết, các giá trị thuộc tính của mẫu đó được thử nghiệm trên cây Đường dẫn từ gốc đến node lá giúp dự đoán lớp của mẫu Cây quyết định có thể dễ dàng chuyển đổi thành các luật phân lớp Thuật toán tham lam là cơ sở toán học cho cây quyết định, xây dựng cây theo phương pháp chia để trị từ trên xuống dưới.
Phương pháp phân lớp Bayesian sử dụng thống kê để dự đoán xác suất của các lớp trong tập dữ liệu, từ đó phân loại các mẫu vào các lớp riêng biệt Thuật toán này giả định rằng giá trị các thuộc tính của một lớp là độc lập với giá trị của các thuộc tính khác, được gọi là độc lập có điều kiện, giúp đơn giản hóa các tính toán Ngoài ra, mạng Bayesian là một đồ thị biểu diễn mối quan hệ giữa các thuộc tính.
Support Vector Machine (SVM) là một phương pháp hiệu quả để phân lớp dữ liệu, dễ sử dụng hơn so với mạng neural Tuy nhiên, việc sử dụng SVM không chính xác có thể dẫn đến việc bỏ qua những bước quan trọng, ảnh hưởng đến kết quả Mục tiêu của SVM là tạo ra một mô hình từ tập mẫu học, cho phép dự đoán lớp cho các mẫu thử SVM xác định một hàm quyết định phi tuyến bằng cách ánh xạ các mẫu học vào không gian đặc trưng lớn, nơi có khả năng phân lớp tuyến tính, và tối ưu hóa khoảng cách lề để phân lớp dữ liệu trong không gian này.
(geometric margin) và cực tiểu lỗi học cùng một lúc
Chương này giới thiệu về bài toán gán nhãn vai trò ngữ nghĩa thông qua các phương pháp tiếp cận đa dạng Nó cũng trình bày mô hình tổng quát cho hệ thống gán nhãn vai trò ngữ nghĩa và nêu rõ ứng dụng của hệ thống này trong lĩnh vực xử lý ngôn ngữ tự nhiên.
CHƯƠNG 2: PHƯƠNG PHÁP HỌC MÁY
Chương này cung cấp cái nhìn tổng quan về bài toán phân loại, đặc biệt là trong việc áp dụng mô hình học máy AdaBoost Nó trình bày các vấn đề cơ bản liên quan đến mô hình phân loại sử dụng AdaBoost, với ứng dụng nổi bật trong việc gán nhãn dữ liệu dạng chuỗi.
2.1.1 T ổ ng quan v ề bài toán phân lo ạ i
Phân loại là quá trình xử lý dữ liệu nhằm phân nhóm các mẫu hoặc đối tượng vào các lớp đã được xác định trước Các đối tượng này được phân loại dựa trên giá trị của các thuộc tính của chúng.
Phân loại dữ liệu là quá trình xếp các đối tượng vào các lớp tương ứng dựa trên các thuộc tính của chúng Mỗi lớp được đặc trưng bởi tập hợp các thuộc tính của các đối tượng trong lớp Các thuật toán phân loại phổ biến bao gồm mạng Neural, cây quyết định, suy luận quy nạp, mạng Bayesian và Support Vector Machine Những phương pháp này xây dựng mô hình để phân loại các mẫu mới dựa trên các mẫu đã được học Bài toán phân loại có thể xử lý thông tin từ nhiều lĩnh vực khác nhau, được biểu diễn dưới dạng bảng, trong đó các phần tử là giá trị xác định thuộc tính của các đối tượng Số cột trong bảng tương ứng với số thuộc tính, trong khi số dòng là số đối tượng trong dữ liệu Dữ liệu ở các dạng khác cũng có thể chuyển đổi thành bảng để thực hiện phân loại.
Một bài toán phân loại bao gồm 2 bước sau:
Mục đích của bước này là xây dựng một mô hình phân loại dựa trên việc phân tích các bộ dữ liệu từ một cơ sở dữ liệu, với mỗi bộ dữ liệu được xác định bởi giá trị của các thuộc tính Giả sử mỗi bộ dữ liệu đã được phân loại vào một trong các lớp đã định nghĩa trước, điều này được xác định bởi thuộc tính phân loại Trong bài toán phân loại, mỗi bộ dữ liệu được coi là một mẫu hoặc đối tượng Các bộ dữ liệu này được sử dụng để xây dựng mô hình phân loại và được lấy từ tập dữ liệu huấn luyện, trong đó các mẫu huấn luyện được chọn ngẫu nhiên từ một kho mẫu.
Bước 2: Kiểm tra và đánh giá, bước này sử dụng mô hình
Trong bước 1, một mô hình phân lớp đã được xây dựng và để đánh giá độ chính xác của mô hình này, chúng ta sử dụng bộ thử (test set) gồm các mẫu đã được phân lớp Các mẫu trong bộ thử được chọn ngẫu nhiên và độc lập với các mẫu đã học ở bước 1 Độ chính xác của mô hình phân lớp được xác định bằng tỷ lệ các mẫu thử được phân lớp đúng, tức là so sánh lớp đúng của mỗi mẫu thử với lớp mà mô hình dự đoán.
2.2 Phương pháp mô hình AdaBoost
2.2.1 Ph ươ ng pháp Boosting 2.2.1.1 Ý tưởng hoạt động của mô hình phương pháp Boosting
Khác với các phương pháp phân loại truyền thống sử dụng trọng số bằng nhau cho các ví dụ huấn luyện, Boosting áp dụng trọng số khác nhau cho từng ví dụ Sau mỗi vòng lặp, các ví dụ bị dự đoán sai sẽ được tăng trọng số, trong khi các ví dụ dự đoán đúng sẽ giảm trọng số Cách tiếp cận này giúp Boosting tập trung vào việc cải thiện độ chính xác cho những ví dụ khó khăn, từ đó nâng cao hiệu suất của bộ phân loại.
Thuật toán boosting được định nghĩa là phương pháp chuyển đổi một thuật toán học máy yếu thành một thuật toán mạnh mẽ hơn, giúp cải thiện khả năng phân loại hai lớp so với phương pháp chọn ngẫu nhiên Thuật toán boosting đầu tiên do Schapire phát triển mang tính chất đệ quy, trong đó ở bước cuối cùng, nó kết hợp các giả thuyết từ thuật toán học máy yếu Kết quả là xác suất lỗi của bộ kết hợp này thấp hơn so với xác suất lỗi của các giả thuyết yếu, tạo ra hiệu quả vượt trội trong việc giải quyết bài toán phân loại.
Adaboost là thuật toán kết hợp nhiều bộ phân loại khác nhau, được xây dựng bằng cách áp dụng thuật toán học máy trên các phân bố khác nhau của tập huấn luyện.
2.2.2 Ph ươ ng pháp Adaboost
AdaBoost (Adaptive Boost) là một thuật toán học mạnh mẽ, giúp tạo ra một bộ phân loại mạnh bằng cách lựa chọn các đặc trưng tốt từ một tập hợp các bộ phân loại yếu Thuật toán này kết hợp các bộ phân loại yếu theo cách tuyến tính với trọng số, từ đó cải thiện độ chính xác một cách dần dần Việc áp dụng hiệu quả chuỗi bộ phân loại yếu là chìa khóa để nâng cao hiệu suất của mô hình.
Hình 2:1 Lược đồ cơ bản của AdaBoost
Giới thiệu
Tổng quan về bài toán phân loại
Phân loại là quá trình xử lý dữ liệu, trong đó các mẫu hay đối tượng được phân chia vào các lớp đã được xác định trước Việc phân loại diễn ra dựa trên giá trị của các thuộc tính của các mẫu hoặc đối tượng đó.
Phân loại là quá trình xếp các đối tượng vào các lớp dựa trên các thuộc tính của chúng Mỗi lớp được đặc trưng bởi tập hợp các thuộc tính của các đối tượng trong lớp đó Các thuật toán phân loại phổ biến bao gồm mạng Neural, cây quyết định, suy luận quy nạp, mạng Bayesian và Support Vector Machine Những phương pháp này xây dựng các mô hình có khả năng phân loại các mẫu mới dựa trên những mẫu đã học Bài toán phân loại có thể xử lý thông tin từ nhiều lĩnh vực khác nhau, được biểu diễn dưới dạng bảng chứa các đối tượng và thuộc tính Trong bảng, mỗi cột đại diện cho một thuộc tính, trong khi số dòng tương ứng với số đối tượng Dữ liệu ở các dạng khác cũng có thể được chuyển đổi thành dạng bảng để thực hiện quá trình phân loại.
Bài toán phân loại
Một bài toán phân loại bao gồm 2 bước sau:
Mục đích của bước này là xây dựng một mô hình phân loại cho một tập hợp các lớp dữ liệu Mô hình này được phát triển thông qua việc phân tích các bộ dữ liệu trong cơ sở dữ liệu, với mỗi bộ dữ liệu được xác định bởi giá trị của các thuộc tính Giả định rằng mỗi bộ dữ liệu thuộc về một trong các lớp đã được định nghĩa trước, được xác định bởi thuộc tính phân loại Trong bối cảnh phân loại, mỗi bộ dữ liệu được coi là một mẫu hay đối tượng Các bộ dữ liệu này được sử dụng để xây dựng mô hình phân loại và được lấy từ tập dữ liệu huấn luyện (training data set), với các bộ dữ liệu riêng lẻ được gọi là mẫu huấn luyện (training samples) và được chọn ngẫu nhiên từ kho mẫu.
Bước 2: Kiểm tra và đánh giá, bước này sử dụng mô hình
Để đánh giá độ chính xác của mô hình phân lớp được xây dựng ở bước 1, ta sử dụng bộ thử (test set) gồm các mẫu đã được phân lớp, được chọn ngẫu nhiên và độc lập với mẫu đã học Độ chính xác của mô hình được xác định bằng tỷ lệ mẫu thử được phân lớp đúng, tức là so sánh lớp đúng của mỗi mẫu với lớp mà mô hình dự đoán.
Một số phương pháp phân loại nổi tiếng
2.2.1 Ph ươ ng pháp Boosting 2.2.1.1 Ý tưởng hoạt động của mô hình phương pháp Boosting
Khác với các phương pháp phân loại truyền thống sử dụng trọng số bằng nhau cho các ví dụ huấn luyện, phương pháp Boosting áp dụng trọng số khác nhau cho từng ví dụ Sau mỗi vòng lặp, các ví dụ được dự đoán sai sẽ có trọng số tăng lên, trong khi các ví dụ dự đoán đúng sẽ có trọng số giảm Cách tiếp cận này giúp Boosting tập trung vào việc cải thiện độ chính xác cho những ví dụ khó khăn, nâng cao hiệu quả của bộ phân loại qua từng bước lặp.
Thuật toán boosting là một phương pháp chuyển đổi thuật toán học máy yếu thành một thuật toán học máy mạnh, giúp cải thiện khả năng phân loại hai lớp vượt trội hơn so với cách giải chọn ngẫu nhiên Thuật toán boosting ban đầu do Schapire phát triển là một thuật toán đệ quy, trong đó ở bước cuối cùng, nó kết hợp các giả thuyết từ thuật toán học máy yếu Kết quả cho thấy xác suất lỗi của bộ kết hợp này thấp hơn xác suất lỗi của các giả thuyết yếu, từ đó nâng cao hiệu quả của quá trình phân loại.
Adaboost là một thuật toán kết hợp nhiều bộ phân loại khác nhau bằng cách áp dụng các thuật toán học máy với các phân bố khác nhau trên tập huấn luyện.
2.2.2 Ph ươ ng pháp Adaboost
AdaBoost (Adaptive Boost) là một thuật toán học máy hiệu quả, giúp cải thiện việc phát triển một bộ phân loại mạnh bằng cách lựa chọn các đặc trưng tốt từ một tập hợp các bộ phân loại yếu.
Phương pháp mô hình AdaBoost
Phương pháp Boosting
Khác với các phương pháp phân loại truyền thống sử dụng trọng số bằng nhau cho các ví dụ huấn luyện, phương pháp Boosting điều chỉnh trọng số của các ví dụ này khác nhau Sau mỗi vòng lặp, những ví dụ bị dự đoán sai sẽ có trọng số tăng lên, trong khi những ví dụ dự đoán đúng sẽ có trọng số giảm xuống Cách tiếp cận này giúp Boosting tập trung vào việc cải thiện độ chính xác cho các ví dụ mà mô hình dự đoán sai, từ đó nâng cao hiệu suất tổng thể của bộ phân loại.
Thuật toán boosting được định nghĩa là phương pháp chuyển đổi một thuật toán học máy yếu thành một thuật toán mạnh mẽ hơn, giúp cải thiện khả năng phân loại hai lớp so với giải pháp ngẫu nhiên Thuật toán boosting ban đầu của Schapire sử dụng phương pháp đệ quy, trong đó ở bước cuối, các giả thuyết từ thuật toán học máy yếu được kết hợp lại Kết quả là xác suất lỗi của bộ kết hợp này thấp hơn so với xác suất lỗi của các giả thuyết yếu.
Adaboost là một thuật toán mạnh mẽ trong học máy, kết hợp nhiều bộ phân loại khác nhau để cải thiện độ chính xác Thuật toán này hoạt động bằng cách áp dụng các phân bố khác nhau trên tập huấn luyện, giúp đa dạng hóa các bộ phân loại Qua đó, Adaboost tối ưu hóa khả năng phân loại bằng cách tập trung vào các mẫu khó phân loại, nâng cao hiệu suất tổng thể của mô hình.
Phương pháp Adaboost
AdaBoost (Adaptive Boost) là một thuật toán học mạnh mẽ, giúp tạo ra bộ phân loại mạnh bằng cách lựa chọn các đặc trưng tốt từ các bộ phân loại yếu Thuật toán này kết hợp các bộ phân loại yếu theo cách tuyến tính với trọng số, từ đó cải thiện độ chính xác một cách hiệu quả thông qua chuỗi các bộ phân loại yếu.
Hình 2:1 Lược đồ cơ bản của AdaBoost
Thuật toán học này bắt đầu với việc phân bố trọng số đồng đều cho mỗi mẫu huấn luyện Trong vòng lặp đầu tiên, nó huấn luyện một bộ phân loại yếu bằng cách sử dụng đặc trưng nhãn tốt nhất để phát hiện các mẫu thử Ở vòng lặp thứ hai, các mẫu thử bị phân loại sai bởi bộ phân loại yếu đầu tiên sẽ nhận trọng số cao hơn, nhằm tập trung vào việc cải thiện khả năng phân loại cho những mẫu này.
Sự lặp lại trong thuật toán AdaBoost tạo ra một chuỗi kết hợp tuyến tính từ các bộ phân loại yếu, dẫn đến việc hình thành một bộ phân loại mạnh mẽ với độ chính xác cao Hình 2.2 minh họa quá trình này sau ba lần lặp, cho thấy cách mà AdaBoost cải thiện hiệu suất phân loại.
Hình 2:2 Thuật toán học AdaBoost
AdaBoost là một cải tiến của phương pháp Boosting, sử dụng khái niệm trọng số để đánh dấu các mẫu nhận dạng Trong quá trình huấn luyện, sau mỗi bộ phân loại yếu được xây dựng, thuật toán cập nhật trọng số, tăng trọng số cho các mẫu bị nhận dạng sai và giảm cho các mẫu nhận dạng đúng Nhờ đó, các bộ phân loại yếu tiếp theo có thể tập trung vào các mẫu mà các bộ phân loại trước chưa nhận diện tốt Cuối cùng, các bộ phân loại yếu sẽ được kết hợp dựa trên hiệu suất của chúng để tạo ra một bộ phân loại mạnh mẽ hơn.
Để xác định một từ có phải là Danh từ riêng chỉ địa điểm (AM-LOC) hay không, ta có thể hình dung quy trình như sau: Hỏi T người để thu thập đánh giá, với yêu cầu mỗi người chỉ cần có độ chính xác tốt hơn ngẫu nhiên (tỉ lệ sai dưới 50%) Sau đó, trọng số đánh giá của từng người sẽ được điều chỉnh (thể hiện qua hệ số α), trong đó những người có khả năng đánh giá tốt các từ khó sẽ có trọng số cao hơn Việc cập nhật trọng số này sau mỗi vòng tăng cường giúp xác định độ khó của các mẫu, với những mẫu có nhiều đánh giá sai sẽ được coi là khó hơn.
1 Cho một tập gồm n mẫu có đánh dấu (x 1 ,y 1 ), (x 2 ,y 2 ),… (x n ,y n ) với x k ∈ (x k1 , x k2 , … , x km ) là vector đặc trưng và y k ∈ (-1, 1) là nhãn của mẫu
(1 ứng với từ loại, -1 ứng với từ loại khác)
2 Khởi tạo trọng số ban đầu cho tất cả các mẫu: với m là số mẫu đúng (ứng với từ loại và y = 1) và l là số mẫu sai (ứng với từ loại khác và y
• Với mỗi đặc trưng trong vector đặc trưng, xây dựng một weak classifier h j với ngưỡng θ j và lỗi ε j : ε j = ' 𝑤 0,@ |ℎ C (𝑥 @ ) − 𝑦 @ |
• Chọn ra h j với ε j nhỏ nhất, ta được h t : h t = X à {1, -1}
• Cập nhật lại trọng số: w 0;=,@ = 𝑤 0,@
𝑍 𝑡 : Hệ số dùng để đưa w 𝑡 +1 về đoạn [0,1] (normalization factor)
4 Strong classifier được xây dựng :
Quá trình huấn luyện bộ phân loại diễn ra qua một vòng lặp, trong đó thuật toán lựa chọn bộ phân loại yếu ht với lỗi ε t nhỏ nhất, để bổ sung vào bộ phân loại mạnh Mỗi khi một bộ phân loại ht được chọn, AdaBoost sẽ tính toán giá trị ε t theo công thức đã đề cập, với nguyên tắc là giảm thiểu giá trị lỗi ε t.
Hệ số α t nói lên mức độ quan trọng của h t :
- Trong công thức phân loại H(x):
Tất cả các bộ phân loại ht đều đóng góp vào kết quả phân loại H(x), và mức độ đóng góp này phụ thuộc vào giá trị α t tương ứng; những bộ phân loại h t với α t lớn hơn sẽ có vai trò quan trọng hơn trong việc xác định H(x).
Giá trị α t tỉ lệ nghịch với ε j, vì vậy khi ht được chọn với tiêu chí đạt ε i nhỏ nhất, giá trị α t sẽ đạt mức lớn nhất Công thức này được giới thiệu bởi Ruend và Schapire.
Sau khi xác định giá trị α t, Adaboost cập nhật trọng số của các mẫu bằng cách tăng trọng số cho những mẫu mà h t phân loại sai và giảm trọng số cho những mẫu mà h t phân loại đúng Phương pháp này giúp trọng số của mẫu phản ánh mức độ khó khăn trong việc nhận dạng, đồng thời h t+1 sẽ tập trung vào việc học cách phân loại những mẫu khó này.
Vòng lặp xây dựng bộ phân loại mạnh sẽ dừng lại sau T lần lặp, nhưng giá trị T thường không được sử dụng do không có công thức xác định tối ưu cho quá trình huấn luyện Thay vào đó, người ta tập trung vào giá trị max False Positive và max False Alarm, tức là tỉ lệ nhận dạng sai tối đa cho các mẫu positive và negative Tỉ lệ nhận dạng sai của bộ phân loại không được phép vượt quá các giá trị này Qua từng lần lặp, tỉ lệ nhận dạng sai các mẫu âm tính sẽ giảm dần, và vòng lặp sẽ kết thúc khi tỉ lệ này thấp hơn max False Alarm.
2.3 Một số ứng dụng của phương pháp AdaBoost:
Phương pháp học máy AdaBoost được áp dụng phổ biến trong xử lý ảnh số, đặc biệt trong nhận dạng ảnh AdaBoost phân loại dữ liệu ảnh dựa trên các đặc trưng như Haar-like, đồng thời nâng cao độ chính xác nhờ vào việc sử dụng một lượng lớn dữ liệu huấn luyện.
3000 ảnh) để thực hiện phân loại ảnh
Chương này giới thiệu phương pháp phân loại học máy AdaBoost, nêu rõ các nguyên lý cơ bản của mô hình Boost và cách ứng dụng AdaBoost trong việc gán nhãn dữ liệu dạng chuỗi Ở chương tiếp theo, tôi sẽ trình bày bài toán gán nhãn vai trò ngữ nghĩa với sự áp dụng của mô hình AdaBoost và công cụ Swirl.
CHƯƠNG 3: ỨNG DỤNG ADABOOST CHO BÀI
TOÁN GÁN NHÃN NGỮ NGHĨA NÔNG
Chương này tập trung vào việc mô tả bài toán gán nhãn vai trò ngữ nghĩa bằng cách sử dụng mô hình phân loại AdaBoost và công cụ Swirl cho việc gán nhãn chuỗi dữ liệu Ngoài ra, chương cũng trình bày các kết quả thực nghiệm đã đạt được và định hướng nghiên cứu tiếp theo của đề tài.
3.1 Mô tả bài toán gán nhãn vai trò ngữ nghĩa nông
Bài toán gán nhãn vai trò ngữ nghĩa cho các thành phần trong câu có thể được quy về vấn đề chunking thông qua mô hình AdaBoost Nhờ vào các nhãn đã được tiền xử lý, chúng ta có thể xác định ranh giới của từng cụm vai trò ngữ nghĩa liên quan đến một động từ cụ thể trong câu Các nhãn này được định dạng theo chuẩn IOB2 để đảm bảo tính chính xác trong việc phân tích ngữ nghĩa.
- B-X : nhãn đánh dấu bắt đầu một cụm ngữ nghĩa
- I- X : nhãn đánh dấu các thành phần bên trong cụm ngữ nghĩa
- O : nhãn đánh dấu các thành phần bên ngoài tất cả các cụm ngữ nghĩa (dấu chấm)
Mô tả bài toán gán nhãn vai trò ngữ nghĩa nông
Bài toán gán nhãn vai trò ngữ nghĩa nông cho các thành phần trong câu có thể được quy về bài toán chunking thông qua mô hình AdaBoost Nhờ vào các nhãn đã được tiền xử lý, chúng ta có thể xác định ranh giới của từng cụm vai trò ngữ nghĩa liên quan đến một động từ cụ thể trong câu Các nhãn này được định dạng theo chuẩn IOB2 để đảm bảo tính chính xác trong quá trình phân tích ngữ nghĩa.
- B-X : nhãn đánh dấu bắt đầu một cụm ngữ nghĩa
- I- X : nhãn đánh dấu các thành phần bên trong cụm ngữ nghĩa
- O : nhãn đánh dấu các thành phần bên ngoài tất cả các cụm ngữ nghĩa (dấu chấm)
X là tập hợp các nhãn ngữ nghĩa theo quy cách ký hiệu của kho ngữ liệu PropBank, bao gồm 5 nhãn chính A0-A5, 1 nhãn O cho các từ không thuộc cụm ngữ nghĩa nào, và 13 nhãn chức năng biểu thị thời gian, địa điểm, cách thức (TMP, LOC, MNR, ) Bài toán gán nhãn vai trò ngữ nghĩa có thể được diễn đạt như sau: "Áp dụng mô hình AdaBoost để gán nhãn {B-X, I-X, O} cho các thành phần trong câu tiếng Anh."
Việc áp dụng mô hình cần trải qua các bước thu thập, chuẩn bị dữ liệu và xác định đầu vào đầu ra của mô hình.
Thu thập và chuẩn bị dữ liệu
Để sử dụng công cụ Swirl, người dùng cần chuẩn bị hai thư mục chứa tệp dữ liệu: một cho dữ liệu huấn luyện và một cho dữ liệu kiểm tra Cả hai thư mục này phải có định dạng tương thích với môi trường làm việc của Swirl.
Các file d ữ li ệ u hu ấ n luy ệ n:
Tệp chứa từ là một tài liệu Word bao gồm danh sách các câu đã được tách từ, với mỗi từ nằm trên một dòng riêng biệt và các câu được phân cách bởi một dòng trống Hình 3.1 minh họa một ví dụ về tệp chứa từ dành cho huấn luyện.
Hình 3:1 Tệp chứa từ huấn luyện
Tệp chứa nhãn cú pháp ngữ nghĩa (synt-file) là tài liệu bao gồm danh sách các nhãn ngữ nghĩa tương ứng với các từ đã được tách ra từ tệp chứa từ Thông thường, tệp này sẽ có ba cột: nhãn ngữ nghĩa từ, nhãn cụm ngữ nghĩa từ và nhãn ngữ pháp Hình 3.2 minh họa một ví dụ về tệp chứa nhãn cú pháp ngữ nghĩa dùng để huấn luyện.
Hình 3:2 Tệp chứa cú pháp huấn luyện
Tệp chứa nhãn mệnh đề (props-file) là tệp liệt kê các nhãn mệnh đề tương ứng với từ được tách trong tệp từ, với cột đầu tiên là danh sách động từ và các cột tiếp theo phân định các thành phần con trong câu Hình 3.3 minh họa ví dụ về tệp chứa nhãn thuộc tính.
Hình 3:3 Tệp chứa nhãn mệnh đề
Tệp nhãn danh từ riêng (ne-file) bao gồm danh sách các nhãn tương ứng với các từ đã được tách trong tệp chứa từ Cột đầu tiên của tệp này chứa danh sách nhãn từ dành cho các danh từ riêng Ví dụ về tệp nhãn danh từ riêng được minh họa trong Hình 3.4.
Hình 3:4 Tệp chứa nhãn danh từ riêng
Dữ liệu dùng cho mô hình được khai thác từ nhiệm vụ gán nhãn vai trò ngữ nghĩa tại hội nghị CoNLL- 2004 (Conference on Computational Natural
Language Learning, [14]), với dữ liệu huấn luyện gồm 8042 câu, dữ liệu test gồm 1000 câu
Dữ liệu huấn luyện chứa các thông tin như: Từ, PoS tag, chunks và nhãn vai trò ngữ nghĩa
Dữ liệu đầu vào bao gồm các câu tiếng Anh hoàn chỉnh, mỗi câu chỉ tập trung vào một động từ cụ thể (target verb) Các câu được sắp xếp theo dạng cột và được phân tách bằng một dòng trống Mỗi từ trong câu được trình bày trên một dòng riêng biệt, và mỗi câu kết thúc bằng dấu chấm.
PoS tag (Part of Speech Tag) là nhãn thể hiện từ loại của các từ trong câu, giúp xác định chức năng ngữ pháp của từng từ Các phương pháp phổ biến để gán nhãn từ loại trong tiếng Anh bao gồm mô hình Markov ẩn (HMMs), mô hình CRF và mô hình entropy cực đại.
The dollar posted gains in quiet trading as concerns about
DT NN VBD NNS IN JJ NN IN NNS IN
Trong ví dụ trên, từ "dollar" được phân loại là danh từ số ít (NN), từ "posted" là động từ ở dạng quá khứ (VBD), "in" là giới từ (IN), và "quiet" là tính từ (JJ) Hiện tại, có khoảng 36 nhãn từ loại khác nhau được đề cập trong tài liệu.
Chunks (cụm từ) là kết quả của quá trình text chunking, nhằm phân chia văn bản thành những nhóm từ có quan hệ cú pháp Quá trình này tạo ra các cụm từ biểu diễn chức năng cú pháp cụ thể, với đặc điểm không chồng lấn (non-overlapping), nghĩa là mỗi từ chỉ thuộc về một chunk duy nhất.
[He] [reckons] [the current account deficit] [will narrow] [to] [$1.8 billion]
NP VP NP VP PP NP
Trong ví dụ trên, các thành phần của câu được phân chia thành các cụm từ với chức năng cú pháp riêng biệt Cụm danh từ (NP) bao gồm "He," "the current account deficit," và "$1.8 billion," trong khi cụm động từ (VP) bao gồm "reckons" và "will narrow."
Nhãn vai trò ngữ nghĩa được định nghĩa dựa trên từng động từ do khó khăn trong việc xác định các vai trò có ý nghĩa phổ quát cho mọi loại vị tố Cụ thể, ARG0 thường đại diện cho tác nhân (Agent), trong khi ARG1 thường biểu thị đối tượng bị tác động (Patient) hoặc bối cảnh (Theme) Tuy nhiên, đối với các argument từ ARG2 đến ARG5, vẫn chưa có quy tắc tổng quát nào được thiết lập, mặc dù đã có nhiều nỗ lực từ giới nghiên cứu nhằm thống nhất vai trò ngữ nghĩa qua các lớp VerbNet.
Ví dụ: Frameset accept.01: "take willingly" (sẵn lòng) A0: Acceptor (người chấp nhận)
A1: Thing accepted (vật được chấp nhận) A2: Accepted from (chấp nhận từ)
[ A0 He] [ AM-MOD would] [ AM-NEG n’t] [ V accept] [ A1 anything of value] from [ A2 those he was writing about]
Một tập các vai trò tương ứng với mỗi cách sử dụng động từ được gọi là tập các vai trò, kết hợp với các khung cú pháp để thể hiện sự thay đổi cú pháp trong các tập đó Sự kết hợp này hình thành nên một Frameset Đối với một động từ đa nghĩa, có thể tồn tại nhiều Frameset, với sự khác biệt giữa các nghĩa đủ rõ ràng để yêu cầu các tập vai trò khác nhau, mỗi tập vai trò tương ứng với một Frameset riêng biệt.
Ví dụ: decline.01: "go down incrementally" (giảm từng bước) A1: entity going down (thực thể giảm)
A2: amount gone down by (số lượng giảm), EXT (extent) A3: start point (điểm bắt đầu)
A4: end point (điểm kết thúc)
…[ A1 1its net income] declining [ A2-EXT 42%] [ A4 to $120 million] [ AM-TMP in the first 9 months of 2000]
Ví dụ: decline.02: "reject" (từ chối) A0: agent (tác nhân)
A1: rejected thing (vật bị từ chối) [ A0 A spokesman] decline [ A1 to elaborate]
Ngoài các vai trò ngữ nghĩa đã được xác định, động từ trong câu còn đảm nhận những vai trò ngữ nghĩa khác, cụ thể là vai trò như trạng ngữ, được ký hiệu bằng các nhãn chức năng AM- Dữ liệu huấn luyện sử dụng các nhãn argument thức năng để phân tích các vai trò này.
AM-LOC location (vị trí) AM-CAU cause (nguyên nhân) AM-EXT extent (mở rộng) AM-TMP temporal (thời gian)
AM-PNC purpose (mục đích)
AM-MNR manner (cách thức)
AM-PRD predication (dự đoán)
AM-REC reciprocal (tương phản)
Dữ liệu huấn luyện ban đầu được tổ chức thành các cột, bao gồm: cột 1 là từ, cột 2 chứa nhãn PoS, cột 3 cho các chunks, cột 4 liệt kê các mệnh đề ở định dạng Start-End, cột 5 là động từ mục tiêu, và từ cột 6 trở đi là các nhãn vai trò ngữ nghĩa cũng theo định dạng Start-End Ví dụ, một cụm nhãn vai trò ngữ nghĩa sẽ bắt đầu bằng ký hiệu.
"(A1", các từ cùng nằm trong cụm đó ký hiệu là "*", kết thúc cụm nhãn được ký hiệu là "A1)"
Hình 3:5 Mẫu dữ liệu ban đầu
Dữ liệu đã trải qua quy trình tiền xử lý theo định dạng BIO, nhằm phục vụ cho mục tiêu nghiên cứu về gán nhãn vai trò ngữ nghĩa Bài toán này được xem như một nhiệm vụ gán nhãn cho chuỗi dữ liệu tuần tự, trong đó mỗi chuỗi bắt đầu bằng một ký hiệu xác định.
"B-X", các từ nằm trong chuỗi có cùng vai trò ngữ nghĩa và kết thúc chuỗi được ký hiệu bởi "I-X", X là các nhãn vai trò ngữ nghĩa.
Công cụ Swirl
Giới thiệu
Công cụ Swirl là phần mềm mã nguồn mở được thiết kế để cài đặt mô hình AdaBoost cho việc gán nhãn ngữ nghĩa, hỗ trợ phân đoạn và gán nhãn dữ liệu tuần tự một cách hiệu quả.
Swirl được phát triển nhằm phục vụ cho các bài toán trong lĩnh vực xử lý ngôn ngữ tự nhiên, bao gồm nhận dạng thực thể (Named Entity Recognition), trích xuất thông tin (Information Extraction) và phân đoạn dữ liệu (Text Chunking).
- Người dùng có thể định nghĩa lại các tập đặc trưng
- Tiêu tốn ít bộ nhớ cả trong huấn luyện và kiểm thử
- Là phần mềm mã nguồn mở
Hệ thống hoạt động theo phương pháp học nửa giám sát, được thực hiện gồm các bước sau:
(i) Tạo bộ dữ liệu huấn luyện
(ii) Sử dụng mô hình AdaBoost để huấn luyện trên tập dữ liệu này
(iii) Tạo tập Test và sử dụng AdaBoost để gán nhãn dữ liệu
(iv) Đánh giá kết quả
Quá trình học bài toán gán nhãn vai trò ngữ nghĩa sử dụng công cụ Swirl, được chia làm 2 modulo chính được mô tả như hình 3.6:
1 http://ww.surdeanu.info/mihai/swirl/index.php
Hình 3:6 Mô hình hoạt động Swirl
3.3.2 Các đặ c tr ư ng s ử d ụ ng cho bài toán gán nhãn ng ữ ngh ĩ a nông:
Bài toán gán nhãn ngữ nghĩa nông sử dụng nhiều đặc trưng khác nhau, có thể được phân loại thành năm nhóm chính Một trong số đó là đặc trưng cấu trúc nội bộ của các đối số ứng viên, đóng vai trò quan trọng trong việc xác định ý nghĩa và mối quan hệ giữa các thành phần trong câu.
- Các mục từ hợp thành, hậu tố có chiều dài 2, 3, và 4, Bổ đề, và thẻ POS.2, 3 và 4, Bổ đề, và PoS tag
- Từ thành phần nội dung, hậu tố theo sau có chiều dài 2, 3 và 4, là Bổ đề, PoS tag, và nhãn NE
- Thành phần đầu tiên cuối cùng và các thẻ POS của đối số ứng viên
- Nhãn NE bao gồm trong cụm từ ứng viên
Các đặc trưng nhị phân giúp nhận diện sự xuất hiện của các gợi ý về thời gian, với nghĩa từ thường xuyên xuất hiện trong các cụm từ AM-TMP trong quá trình huấn luyện Bên cạnh đó, các đặc trưng được trích xuất từ các tham số ngữ cảnh cũng đóng vai trò quan trọng trong việc phân tích này.
Các cụm từ nhãn, từ đầu và thẻ POS của thành phần cha cùng với các thành phần anh em đóng vai trò quan trọng trong việc xác định cấu trúc ngữ pháp Đặc trưng mô tả các thuộc tính của cấu trúc vị ngữ giúp phân tích và hiểu rõ hơn về cách thức hoạt động của ngôn ngữ.
- Từ vị ngữ và bổ đề
Ngữ điệu vị ngữ (Predicate Voice) hiện đang phân biệt năm loại giọng nói: tích cực, thụ động, kết hợp, bất định, và tiếp diễn Một tính năng nhị phân được sử dụng để xác định xem các vị ngữ có xuất hiện thường xuyên trong các phân tập dữ liệu huấn luyện hay không, tức là xuất hiện nhiều hơn hai lần Ngoài ra, các đặc trưng cũng được tạo ra từ ngữ cảnh vị ngữ.
Quy tắc phân loại là các quy tắc cấu trúc cụm từ có khả năng mở rộng thành các vị ngữ cha Các đặc trưng mô hình được xác định bởi khoảng cách giữa các vị ngữ và các tham số liên quan.
Các đường dẫn trong cây cú pháp giữa các cụm từ đối số và vị ngữ được thể hiện như một chuỗi các nhãn cú pháp, kèm theo sự chỉ đạo theo hướng lên hoặc xuống.
- Chiều dài của đường dẫn cú pháp trên
- Số lượng các các mệnh đề (S * cụm từ) trong đường dẫn
- Các số cụm động từ (VP) trong đường dẫn
Số đếm subsumption là sự khác biệt giữa các độ sâu trong cây cú pháp của các đối số và thành phần vị ngữ Giá trị của subsumption sẽ là 0 khi hai cụm từ chia sẻ cùng một nút cha.
Các thể loại quản lý chỉ ra rằng nếu một đối số NP (danh từ) bị chi phối bởi một câu hoặc một cụm động từ, điều này sẽ ảnh hưởng đến cách mà các đối tượng được xác định và hiểu trong ngữ cảnh.
Khoảng cách bề mặt giữa các vị ngữ và cụm từ tham số mã hóa, bao gồm số thẻ, động từ đầu cuối từ (VB *), dấu phẩy và phối hợp (CC), ảnh hưởng đến mối quan hệ giữa các cụm từ đối số và vị ngữ Ngoài ra, tính năng nhị phân cho biết sự liền kề giữa hai thành phần cũng đóng vai trò quan trọng trong việc xác định cấu trúc câu.
Tính năng nhị phân này xác định xem đối số có bắt đầu bằng một hạt vị ngữ hay không, được nhận diện qua thẻ POS RP*, và nó được liên kết trực tiếp với vị ngữ trong quá trình huấn luyện.
3.3.3 Hu ấ n luy ệ n và Ki ể m tra
Sau khi chuẩn bị các tệp cần thiết, bao gồm tệp chứa từ (word-file), tệp chứa cú pháp nhãn ngữ nghĩa (synt-file), tệp chứa nhãn mệnh đề (props-file) và tệp chứa nhãn danh từ riêng (ne-file), chúng ta tiến hành quy trình huấn luyện và kiểm tra.
Huấn luyện Để tiến hành huấn luyện, ta dùng cú pháp như sau: make train \
MODEL_DIR=
[WORD_FILE=< tệp chứa từ CoNLL > \]
[NE_FILE=< tệp chứa nhãn danh từ riêng CoNLL > \]
[CHARNIAK_FILE=< tệp chứa cú pháp nhãn ngữ nghĩa>\]
[PROP_FILE=]
Trong đó: các tham số WORD_FILE, NE_FILE, CHARNIAK_FILE, PROP_FILE là những tham số tùy chọn,
Hình 3:7 Quá trình huấn luyện
Quá trình huấn luyện trải qua 3 giai đoạn: huấn luyện mẫu (training sample), huấn luyện nhị phân (training binary) và dọn dữ liệu huấn luyện (training clean)
Sau khi trải qua quá trình huấn luyện, chương trình sinh ra các file model trong thư mục training như hình 3.8
Hình 3:8 Các file model sinh ra sau khi huấn luyện Kiểm tra Để tiến hành kiểm tra, ta dùng cú pháp như sau: swirl_parse_classify \
Trong bài viết này, chúng tôi đề cập đến hai thư mục quan trọng: đầu tiên là thư mục mô hình SRL, nơi chứa đường dẫn tới mô hình đã được huấn luyện; thứ hai là thư mục mô hình phân tích cú pháp của Charniak, nơi lưu trữ tệp mô hình cú pháp đã được huấn luyện.
Quá trình kiểm tra tiến hành như hình 3.9:
Hình 3:9 Quá trình kiểm tra
Ta có thể kiểm tra đồng thời tạo ra file kết quả theo cú pháp sau: make test PREFIX=
Trong đó: test_set_name là tên bộ test – có thể đặt tùy ý
Chương trình sẽ tự động đọc các tệp .words,
.ne, .props trong thư mục copus (tại đường dẫn hiện hành) và tạo ra các tệp .input,
Trong thư mục testing (tại đường dẫn hiện hành), có các tệp sau: .output và .score Tệp .words chứa từ kiểm tra, tệp .ne chứa nhãn danh từ riêng kiểm tra, tệp .props chứa nhãn mệnh đề kiểm tra, và tệp .input là tệp tự động tạo chứa dữ liệu kiểm tra.
Huấn luyện và Kiểm tra
Tệp .score là tệp tự động tạo ra, chứa dữ liệu kết quả tổng hợp Để đánh giá hiệu suất của mô hình, chúng tôi sử dụng độ chính xác trung bình (accuracy) cùng với ba tiêu chí: Precision, Recall và F-score, được tính toán theo các công thức cụ thể.