1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Luận văn thạc sĩ VNU UET ứng dụng adaboost cho bài toán gán nhãn ngữ nghĩa nông 04

66 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Ứng dụng Adaboost cho bài toán gán nhãn ngữ nghĩa nông
Tác giả Nguyễn Quang Hiệp
Người hướng dẫn TS. Nguyễn Văn Vinh
Trường học Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội
Chuyên ngành Công nghệ thông tin
Thể loại Luận văn thạc sĩ
Năm xuất bản 2015
Thành phố Hà Nội
Định dạng
Số trang 66
Dung lượng 4,19 MB

Cấu trúc

  • 1.1 Giới thiệu (11)
  • 1.2 Các phương pháp tiếp cận bài toán gán nhãn vai trò ngữ nghĩa (12)
    • 1.2.1 Tiếp cận theo luật (12)
    • 1.2.2 Tiếp cận theo phương pháp thống kê (14)
  • 1.3 Tổng quan về hệ thống gán nhãn vai trò ngữ nghĩa (16)
    • 1.3.1 Định nghĩa gán nhãn vai trò ngữ nghĩa nông (17)
    • 1.3.2 Kho ngữ liệu PropBank (17)
    • 1.3.3 Kiến trúc tổng quát của hệ thống gán nhãn vai trò ngữ nghĩa (19)
  • 1.4 Ứng dụng của gán nhãn vai trò ngữ nghĩa trong xử lý ngôn ngữ tự nhiên . 20 (22)
    • 1.4.1 Trích rút thông tin (22)
    • 1.4.2 Hệ thống hỏi đáp (23)
    • 1.4.3 Tóm tắt văn bản (23)
  • 1.5 Kết luận chương 1 (0)
  • 2.1 Giới thiệu (26)
    • 2.1.1 Tổng quan về bài toán phân loại (26)
    • 2.1.2 Bài toán phân loại (27)
    • 2.1.3 Một số phương pháp phân loại nổi tiếng (0)
  • 2.2 Phương pháp mô hình AdaBoost (28)
    • 2.2.1 Phương pháp Boosting (28)
    • 2.2.2 Phương pháp Adaboost (28)
  • 2.3 Kết luận chương 2 (0)
  • 3.1 Mô tả bài toán gán nhãn vai trò ngữ nghĩa nông (35)
  • 3.2 Thu thập và chuẩn bị dữ liệu (36)
  • 3.3 Công cụ Swirl (43)
    • 3.3.1 Giới thiệu (43)
    • 3.3.2 Huấn luyện và Kiểm tra (0)
  • 3.4 Kết quả và thảo luận (49)
  • 3.5 Kết luận chương 3 (53)
  • 5.1 Danh sách các nhãn sử dụng trong bài toán gán ngữ nghĩa tiếng Việt (dựa theo mô tả của VietTreebank) (0)
  • 5.2 Nhãn từ loại (0)
  • 5.3 Nhãn cú pháp (0)

Nội dung

Giới thiệu

Thông thường, gán nhãn vai trò ngữ nghĩa là quá trình gán một cấu trúc đơn giản: WHO did WHAT to WHOM, WHEN, WHERE, WHY, HOW, cho một câu trong văn bản (Ai? đã làm gì? với ai? khi nào? ở đâu? tại sao? như thếnào? )

(i) Mary hit Jack with a ball yesterday

(ii) Jack was hit by Mary yesterday with a ball

Ta có thể thấy rằng “Mary, Jack, a ball, yesterday” đóng các vai trò ngữ nghĩa sau: “Người đánh, vật bị đánh, dụng cụ, thời gian” trong cả hai câu

Nhiệm vụ của gán nhãn vai trò ngữ nghĩa là gán các nhãn ngữ nghĩa đã được xác định trước cho những cụm từ này mà không quan tâm tới sự xuất hiện của chúng trong các nhận dạng cú pháp khác nhau Lớp thông tin này rất cần thiết để hiểu một cách đầy đủ ý nghĩa của cả hai câu Tổng quát hơn, ví dụ trong nghiên cứu của (Levin 1993 [2]) đã minh họa hiện tượng thay thế một lớp động từ

Phép thay thế này trong nhận dạng cú pháp của argument ngữ nghĩa có phạm vi trải rộng, ảnh hưởng tới hầu hết các động từ trong tiếng Anh, và các thành phần được biểu thị bởi các động từ cụ thể, khá đa dạng Trong những năm gần đây, những tiến bộ vượt bậc của các kỹ thuật phân tích cú pháp đã có ảnh hưởng không nhỏ đến các ứng dụng trong xử lý ngôn ngữ tự nhiên, tuy vậy, việc đi từ phân tích cú pháp tới hiểu đầy đủ ý nghĩa của một câu vẫn còn là một chặng đường dài để nghiên cứu Điều này đã thôi thúc các nhà nghiên cứu phát triển một kỹ thuật tự động và chính xác cho vấn đề phân tích cú pháp lớp ngữ nghĩa, và đặt một bước tiến quan trọng hướng tới mục đích hiểu ngôn ngữ

Gán nhãn vai trò ngữ nghĩa là một bài toán đã được định nghĩa tốt trong nhiều framework khác nhau, thu hút sự quan tâm của nhiều nhà nghiên cứu Gán nhãn vai trò ngữ nghĩa hướng tới việc xác định và gán nhãn tất cả argument (hoặc vai trò ngữ nghĩa) cho mỗi vị tố xuất hiện trong câu Cụ thể hơn, nhiệm vụ này bao gồm việc xác định các thành phần biểu diễn các argument của vị tố và gán nhãn các vai trò ngữ nghĩa cho các thành phần đó Sau đây là một số ví dụ về các nhãn vai trò ngữ nghĩa:

(i) [ Agent Mary]hit [Theme Jack][ Instrument with a ball][ Temporal yesterday]

(ii) [ Theme Jack] was hit by [ Agent Mary][ Temporal yesterday][ Instrument with a ball]

(iii) [ A0 John] broke [ A1 the window]

(iv) [ A1 The window] was broken by [ A0 John]

Trong các ví dụ này, thông tin được mô tả biễu diễn các nhãn vai trò ngữ nghĩa mà được gán cho các argument của vị tố (in nghiêng) Hai ví dụ đầu được phân tích sử dụng chú thích FrameNet, hai ví dụ còn lại được phân tích sử dụng kho ngữ liệu PropBank.

Các phương pháp tiếp cận bài toán gán nhãn vai trò ngữ nghĩa

Tiếp cận theo luật

Đây là cách tiếp cận truyền thống xuất phát từ cách làm của các hệ luật phát sinh trong hệ chuyên gia trong lĩnh vực trí tuệ nhân tạo (AI = Artificial Intelligence) Thông thường các hệ luật này được xây dựng bằng tay bởi các chuyên gia xử lý ngôn ngữ tự nhiên

Nhiều nghiên cứu trước đó được thực hiện bởi Hirst (1987) [17] sử dụng một phép phân tích cú pháp dựa trên luật và biểu diễn tri thức dựa trên frame, tương tự như nghiên cứu của Fillmore (1976) [14], Hirst đã sử dụng phương pháp ánh xạ để kết nối các thành phần cú pháp tới các vị trí frame tương ứng của chúng và biểu diễn ngữ nghĩa của câu được xây dựng lần lượt từng thành phần

Các nhóm tác giả Pustejovsky (1995) [30], Copestake và Flickinger (2000) [10] cũng đã có những nghiên cứu tương tự về các lớp từ vựng và ngữ pháp được xây dựng thủ công

Những nghiên cứu trước đây tập trung vào việc xác định các cấu trúc argument danh nghĩa sử dụng các cách tiếp cận tương tự như trên Ví dụ, Dahl và cộng sự (1987) [3] đã sử dụng tập các quy tắc kết hợp các thành phần cú pháp với các vai trò ngữ nghĩa cho các vị tố danh nghĩa Xét ví dụ sau của Dahl và cộng sự:

Investigation revealed [ Instrument metal] [ Predicate contamination] in [ Theme the filter]

Hệ thống tạo bởi Dahl và cộng sự sử dụng các luật sau để xác định các chất gây ô nhiễm (metal) và thực thể bị ô nhiễm (the filter):

1 Instrument là danh từ đứng trước vị tố contamination

2 Theme là đối tượng của cụm giới từ theo sau contamination

Các luật được định nghĩa trên cho phép hệ thống xác định đúng các lớp vai trò ngữ nghĩa trong ví dụ trên Hệ thống này không được đánh giá một cách chính thức nhưng hoàn toàn có cơ sở tin rằng các quy tắc trên có thể đúng khi được áp dụng

Các quy tắc trong nghiên cứu của Dahl và cộng sự đã cho thấy những ưu điểm và hạn chế thường gặp đối với các hệ thống gán nhãn ngữ nghĩa dựa trên hệ luật Một mặt, nếu một luật chính xác cho ra một dự đoán, thì dự đoán đó gần như là đúng (ví dụ như việc xác định các nhãn Instrument và Theme bên trên)

Hơn nữa, các hệ luật được xây dựng đầy đủ vì bất cứ một phép suy diễn nào cũng đều có thể được giải thích theo các luật đã tạo ra nó Tuy nhiên, các hệ thống được mô tả như trên có xu hướng dễ dàng bị phá vỡ đặc biệt khi được áp dụng trong các loại văn bản mà chưa được dự đoán trước Đây là kết quả của bản chất “all or nothing” của việc giải thích ngữ nghĩa và cú pháp dựa trên hệ luật Với tính linh hoạt, đa dạng của ngôn ngữ, chúng ta không ngạc nhiên, trong nhiều trường hợp, một tập giới hạn các quy tắc (luật) gặp thất bại khi áp dụng vào một câu trong ngôn ngữ tự nhiên

Vấn đề thực sự nảy sinh khi các nghiên cứu đòi hỏi cần mở rộng quy mô để bao quát hết các hiện tượng của ngôn ngữ Ban đầu, người ta cho rằng để mở rộng quy mô của hệ khử nhập nhằng ngữ nghĩa thì ta cứ việc thêm nhiều luật vào, nhưng thực tế đã cho thấy khi số luật tăng lên thì bản thân người thiết kế sẽ khó mà kiểm soát được tính hợp lý và tương thích của các bộ luật do mình đưa vào vì thế, sẽ xuất hiện nhiều luật mâu thuẫn nhau Việc xây dựng một hệ luật như thế đòi hỏi công sức rất lớn và thường không bao quát hết mọi trường hợp, mặc dù, trong một số miền hẹp thì chúng tỏ ra hiệu quả Kết quả là những hệ thống gán nhãn ngữ nghĩa được xây dựng trên luật sẽ có nguy cơ bị sụp đổ bởi chính sức nặng của chúng.

Tiếp cận theo phương pháp thống kê

Sự ra đời của các kho ngữ liệu lớn như FrameNet và PropBank đã cải tiến việc xử lý ngữ nghĩa dựa trên hệ luật sang phương pháp hướng ngữ liệu Nghiên cứu của Gildea và Jurafsky (2002) [15] đã giải quyết bài toán SRL như một bài toán học máy có giám sát và sử dụng kho ngữ liệu FrameNet làm dữ liệu huấn luyện Gildea và Jurafsky đã sử dụng phương pháp thống kê cực đại hóa likelihood cho các đặc trưng cú pháp và từ vựng khác nhau để vừa phân biệt được các biên của phần tử frame bên trong văn bản vừa gán các nhãn vai trò ngữ nghĩa cho các phần tử được xác định Mỗi ví dụ huấn luyện được phân tích thành một cây cú pháp sử dụng bộ phân tích cú pháp Collin (Collin, 1997 [9]) và một tập các đặc trưng cú pháp và từ vựng, như loại cụm từ của mỗi thành phần, vị trí của nó, được trích rút Những đặc trưng này được kết hợp với các tri thức về vị tố, cũng như các thông tin về xác suất ưu tiên của các cách kết hợp khác nhau của vai trò ngữ nghĩa Nghiên cứu này đã đặt nền móng cho các hệ thống gán nhãn vai trò ngữ nghĩa tự động hiện nay

Gán nhãn ngữ nghĩa là một nhiệm vụ khá phức tạp, được phân tách thành các bài toán nhỏ hơn với các chiến lược gán nhãn khác nhau để có thể áp dụng được các phương pháp học máy Vấn đề đầu tiên phải kể đến đó là việc chú thích cho các mệnh đề trong câu Hầu hết các nhóm nghiên cứu tham dự CoNLL

2004 đều xác định việc chú thích vai trò ngữ nghĩa cho mỗi động từ vị ngữ trong câu là một nhiệm vụ độc lập Tuy nhiên hệ thống của Carreras và cộng sự

(2004) [4] thực hiện chú thích đồng thời cho tất cả các mệnh đề Do vậy, nhóm đầu tiên coi bài toán SRL tương tự với việc nhận dạng các cấu trúc dạng chuỗi (ví dụ bài toán chunking), trong khi đó, nhóm còn lại chỉ ra một cấu trúc phân cấp được hình thành bởi các argument của tất cả các mệnh đề Các nghiên cứu này cũng đã chỉ ra ba chiến lược gán nhãn chủ yếu được sử dụng Chiến lược đầu tiên xác định các ai trò một cách trực tiếp dựa vào việc gán nhãn chuỗi có định dạng BIO Chiến lược thứ hai bao gồm việc chia bài toán thành hai giai đoạn độc lập: giai đoạn nhận dạng (identification) các argument và giai đoạn gán nhãn (labelling) Chiến lược thứ ba cũng tiến hành dựa trên hai quá trình: quá trình lọc (filtering) quyết định tập argument và quá trình gán nhãn

(labeling), trong đó, tập các argument tối ưu được rút ra từ tập ban đầu

Tốc độ phát triển nhanh chóng của các kỹ thuật học máy đã có nhiều đóng góp trong việc giải quyết bài toán gán nhãn vai trò ngữ nghĩa Hacioglu và cộng sự tại hội nghị CoNLL 2004 [16] đã lựa chọn SVMs để thực hiện phân lớp vai trò ngữ nghĩa Động cơ khi chọn bộ phân lớp này là khả năng xử lý một số lượng cực lớn các đặc trưng tương tác hoặc đặc trưng chồng chéo với tính khái quát hóa cao Cùng giải quyết bài toán này, Lim và cộng sự [21] đã đề xuất phương pháp gán nhãn sử dụng mô hình entropy cực đại (Maximum Entropy)

Ban đầu, để xây dựng mô hình, các tác giả này đã sử dụng các thông tin về cú pháp của việc biểu diễn vai trò ngữ nghĩa trong một mệnh đề: các argument của một vị tố được đặt trong mệnh đề hoặc các mệnh đề bên trên Sau đó, đối với tập các đặc trưng, mối quan hệ giữa các thuộc tính cú pháp và ngữ nghĩa của một ngữ cảnh cho trước được xem xét và lựa chọn Việc lựa chọn thuật toán học máy Entropy cực đại cho phép không những khai thác được tập các đặc trưng phong phú mà còn giúp giảm bớt vấn đề dữ liệu thưa Ngoài ra còn một số thuật toán học máy được sử dụng hiệu quả như Memory - based learning, Voted perceptron, Transformation -based errors driven learning

Tổng quan về hệ thống gán nhãn vai trò ngữ nghĩa

Định nghĩa gán nhãn vai trò ngữ nghĩa nông

Định nghĩa: gán nhãn vai trò ngữ nghĩa nông (Semantic Role Labeling with shallow parsing) là việc gán nhãn cụm từ của một câu với các vai trò ngữ nghĩa đối với một từ mục tiêu

Shaw Publishing offered Mr Smith a reimbursement last March Được gán nhãn là:

• [ AGENT Shaw Publishing] offered [ RECEPIENT Mr Smith] [ THEME a reimbursement] [ TIME last March]

Kho ngữ liệu PropBank

Kho ngữ liệu PropBank tập trung vào các cấu trúc argument của động từ, cung cấp một kho ngữ liệu hoàn chỉnh được chú thích bởi các nhãn ngữ nghĩa, bao gồm cả các vai trò ngữ nghĩa được xem xét một cách truyền thống như các argument và các trạng từ PropBank cho phép chúng ta bước đầu quyết định được tần số của các biến thể cú pháp trong thực tế, đặt ra nhiều bài toán và chiến lược mới đối với vấn đề hiểu ngôn ngữ tự nhiên Ví dụ về nhãn vai trò ngữ nghĩa theo ngữ liệu PropBank như sau:

[ A0 He] [ AM-MOD would] [ AM-NEG n’t] [ V accept] [ A1 anything of value] from [ A2 those he was writing about]

Trong đó, V: động từ (verb), A0: người đồng ý (acceptor), A1: vật được đồng ý (thing accepted), A2: đồng ý từ (accepted -from), A3: thuộc tính (attribute), AM-MOD: động từ khuyết thiếu (modal), AM-NEG: tính phủ định

Mục tiêu: PropBank hướng tới mục tiêu hoàn thiện đầy đủ kho ngữ liệu chú thích vai trò ngữ nghĩa Penn Treebank Từ vựng của PropBank ban đầu được thêm vào các chú thích, sau đó được phát triển thành một tài nguyên trên chính nó Với mỗi trạng thái động từ, chỉ có duy nhất một frameset được hình thành, chứa đựng tập các vai trò ngữ nghĩa tại các nhận dạng cú pháp hoàn chỉnh của nó

Phương pháp chú thích: Một trong những khác biệt lớn nhất trong phương pháp luận của hai kho ngữ liệu FrameNet và PropBank đó là, PropBank quan tâm chính vào chú thích của mỗi verb frame vì chúng giải thích tất cả các câu trong Penn Treebank PropBank định nghĩa các vai trò ngữ nghĩa trên cơ sở verb to verb Đặc biệt, đối với mỗi vị tố cụ thể, một mẫu các câu từ kho ngữ liệu chứa động từ này được kiểm tra và nhóm lại thành một hoặc nhiều trạng thái chính, mỗi trạng thái chính chuyển thành một frameset đơn Các trạng thái động từ sẽ được xét riêng biệt nếu chúng có đặc trưng cú pháp riêng biệt mà liên hệ với các dạng argument khác Các vai trò ngữ nghĩa của mỗi động từ được đánh số lần lượt từ Arg0 đến Arg5 Arg0 thông thường là argument biểu diễn các đặc trưng của một Agent nguyên thủy, Arg1 là Patient hoặc Theme nguyên thủy Bổ sung vào các vai trò được đánh số của các động từ cụ thể, một danh mục các vai trò ngữ nghĩa về mặt thời gian cũng được định nghĩa với tag ArgM và một tập các tag chức năng (13 tag chức năng) ký hiệu vai trò của các thành phần bên trong vị tố, như là ArgM- LOC (Locatives marker) và ArgM- TMP (Temporal marker) Những nhãn chức năng này cũng xuất hiện trên các argument được đánh số Chú thích PropBank ra đời có sự kế thừa từ Penn Treebank: không chỉ bộ chú thích được biểu diễn trên cây cú pháp khi phân tích một câu, chúng còn được ràng buộc với việc gán các nhãn ngữ nghĩa cho các phần của câu tương ứng với các nút trong cây

Các phiên bản gần đây: English PropBank I dành cho tiếng Anh được phát hành vào năm 2004, gồm 3323 động từ vị ngữ và 4659 frameset Ngoài 787 động từ thường xuyên xuất hiện, 521 động từ chỉ có 1 frameset và 169 động từ có 2 frameset và 97 động từ có nhiều hơn 3 frameset Chinese PropBank cho tiếng Trung và Korean PropBank cho tiếng Hàn được phát hành năm 2005 và

2006 Chú thích PropBank đã được khai thác trong lĩnh vực sinh học bởi Chou và các đồng nghiệp 2006 [7] bằng cách thêm chú thích PropBank vào đầu kho ngữ liệu GENIA Treebank (Tateisi và cộng sự 2005 [32]).

Kiến trúc tổng quát của hệ thống gán nhãn vai trò ngữ nghĩa

Hầu hết các nghiên cứu phát triển hệ thống SRL gần đây hướng tới xây dựng một hệ thống học máy thống kê và phân loại tất cả các vai trò ngữ nghĩa cho đa dạng các loại vị tố trong một văn bản không giới hạn Gildea và Jurafsky

(2002) [15] đã giới thiệu hệ thống thống kê SRL đầu tiên trên FrameNet Hệ thống này dựa vào một bộ phân lớp thống kê được huấn luyện trên 50 000 câu, được trích rút từ kho ngữ liệu FrameNet Mỗi ví dụ huấn luyện được phân tích thành một cây cú pháp sử dụng bộ phân tích cú pháp Collin (Collin, 1997) [9] và một tập các đặc trưng cú pháp và từ vựng, như loại cụm từ của mỗi thành phần, vị trí, được trích rút Những đặc trưng này được kết hợp với các tri thức về vị tố, cũng như các thông tin về xác suất ưu tiên của các kết hợp khác nhau của vai trò ngữ nghĩa Nghiên cứu này đặt nền móng cho các hệ thống gán nhãn vai trò ngữ nghĩa tự động hiện nay Nó xây dựng nên một kiến trúc hệ thống SRL tổng quát và cung cấp một tập đặc trưng quan trọng, cốt lõi đã được sử dụng rộng rãi bởi hầu hết các hệ thống SRL hiện tại

Hình 1:1 Kiến trúc tổng quát hệ thống SRL Đối với mỗi câu cho trước và các vị tố mục tiêu, một hệ thống SRL phải xác định được tất cả các thành phần trong câu đóng vai trò ngữ nghĩa đối với mỗi vị tố Thành phần Bộ chú giải (Annotator) làm giàu thông tin bằng cách sử dụng các bộ phân tích cú pháp (cây phân tích cú pháp) hoặc bộ phân tích nông (thông tin phân cụm) hoặc các bản thể luận ngữ nghĩa như WordNet/ VerbNet hoặc Name Entity Identifier - bộ nhận dạng thực thể Sau đó, thành phần trích rút đặc trưng (Feature Extractor), sẽ trích rút các đặc trưng được định nghĩa trước như là từ loại, thể thức của vị tố (bị động/chủ động), … từ đầu ra của bộ chú giải

Các đặc trưng đã trích rút sau đó được đưa vào thành phần học (Learning) để huấn luyện Thành phần học này thường được chia thành hai bộ phận: một là nhận dạng, xác định vai trò ngữ nghĩa (the semantic role identification component), hai là phân lớp vai trò ngữ nghĩa (the semantic role classification component) Quá trình xác định vai trò ngữ nghĩa là quá trình nhận dạng các thành phần được phân tích trong câu, đại diện cho các argument ngữ nghĩa của một vị tố cho trước Quá trình phân lớp vai trò ngữ nghĩa là một quá trình gán các nhãn argument tương ứng với một thành phần đã được xác định ở trên Giả sử bộ chú giải cung cấp một cây cú pháp của câu, khi đó, mỗi nút trên cây phân tích có thể được phân lớp như là một argument ngữ nghĩa (a non- null node) hoặc không đại diện cho argument ngữ nghĩa (a null node) Mục đích của việc xác định vai trò ngữ nghĩa là phân biệt các nút rỗng (null nodes) từ các nút không rỗng (non- null nodes) Các nút không rỗng sau đó được phân lớp bởi tập các nhãn argument bằng thành phần phân lớp vai trò ngữ nghĩa

Các đặc trưng khác nhau có thể giúp ích cho các nhiệm vụ riêng biệt Ví dụ, các đặc trưng cấu trúc thì thường có ích hơn với việc nhận dạng, xác định argument trong khi đó, các đặc trưng từ vựng thì có ích hơn đối với việc phân loại argument (Pradhan, Ward và Martin, 2008 [28]) Thành phần học sử dụng một mô hình địa phương, trong đó ước lượng xác suất vai trò ngữ nghĩa đối với mỗi thành phần là độc lập Với giả thiết độc lập mạnh này, các hệ thống có thể đạt được hiệu suất thấp nhận được Một vài ràng buộc cứng, như: không có sự chồng chéo giữa các thành phần được gán nhãn với các vai trò ngữ nghĩa hoặc chuỗi nhãn vai trò ngữ nghĩa phải hợp lệ, được đặt ra, đóng vai trò như một bước hậu xử lý (post- processing) Một vài hệ thống quan tâm tới việc phụ thuộc bên trong giữa các nhãn của các thành phần trong một framework kết hợp và đạt được hiệu suất cao hơn về chi phí và chiến lược học phức tạp hơn

Một số thiết lập điển hình cho SRL

Chú thích: đối với một câu cho trước, cây phân tích cú pháp của câu nói chung được coi là đầu vào của hệ thống SRL và mỗi xâu con của câu có một nhãn ngữ nghĩa tương ứng với một thành phần cú pháp trong câu Việc xác định các thành phần là đặc biệt quan trọng đối với PropBank vì quá trình chú thích bao gồm cả việc bổ sung thông tin ngữ nghĩa vào các thành phần trong Penn Treebank Cho đến nay, các chú thích được sử dụng nhiều nhất cho bài toán SRL là cây phân tích cú pháp đầy đủ dựa trên các chú thích tham tố- vị từ PropBank Một số nghiên cứu gần đây đã cho thấy sự không cần thiết sử dụng các cây phân tích đầy đủ này đối với việc sử dụng các cấu trúc phụ thuộc hoặc thông tin cú pháp nông ở mức độ phân đoạn các cụm từ trong câu Dựa trên các chú thích cú pháp của câu đầu vào, các đặc trưng được trích rút từ những cây phân tích cú pháp Một tập cụ thể các đặc trưng như vậy được sử dụng rộng rãi trong hệ thống gán nhãn vai trò ngữ nghĩa

Thành phần Learning: Khá nhiều chiến lược học máy khác nhau đã được áp dụng như: các mô hình sinh Bayes (Gildea và Jurafsky, 2002 [15]), cây quyết định (Chen và Rambow, 2003 [25]), Maximum Entropy (Xue và Palmer,

2004 [33]), Support vector machine- SVMs (Pradhan và cộng sự, 2004 [29]), Tree Conditional Random Fields (Cohn và Blunsom, 2005 [8]) Đánh giá: Nói chung, các độ đo tiêu chuẩn cho hiệu suất của hệ thống gán nhãn vai trò ngữ nghĩa là: Precision, Recall và F-score Đối với mỗi vai trò ngữ nghĩa, ví dụ A0, các tiêu chuẩn trên được tính toán và hiệu suất của toàn hệ thống được đánh giá theo số lượng các argument được gán nhãn đúng, số lượng các argument được gán nhãn và số lượng các gold argument Về phía đánh giá tổng thể hệ thống, việc đánh giá các bài toán con của các định và phân loại nhãn argument cũng được cung cấp để thu được các phân tích và so sánh tốt hơn Ba chỉ số này được tính toán như sau:

Ứng dụng của gán nhãn vai trò ngữ nghĩa trong xử lý ngôn ngữ tự nhiên 20

Trích rút thông tin

Mục tiêu chính của bài toán trích rút thông tin (IE) là cung cấp những mẩu thông tin nổi bật quan trọng đối với nhu cầu của người dùng Các loại thông tin được trích rút, rất đa dạng về chi tiết và độ tin cậy Ví dụ: nhận dạng thực thể (NER), các thực thể có liên quan tới việc xác định các thuộc tính và sự kiện, và việc xác định chỉ mục mức sự kiện là toàn bộ những bài toán con của bài toán trích rút thông tin Một hệ thống trích rút thông tin kinh điển được đề xuất bởi Surdeanu (2003) và cộng sự [31] đã khai thác được những ưu điểm của cấu trúc tham tố- vị từ Nghiên cứu này đã xây dựng một hệ thống gán nhãn vai trò ngữ nghĩa và sử dụng các thông tin ngữ nghĩa trích rút được, để mở rộng các template sử dụng lại cho mục đích trích rút thông tin Gần đây, việc trích rút các mối quan hệ có ý nghĩa giữa các thực thể từ một văn bản ngôn ngữ tự nhiên phi cấu trúc đã thu hút được nhiều sự quan tâm của các nhà khoa học

Các cấu trúc tham tố- vị từ (Predicate- Argument structures, PAS) cũng được áp dụng cho bài toán trích rút thông tin trong lĩnh vực y sinh học

Yakushiji (2005) [34] và cộng sự đã trích rút mối quan hệ tương tác giữa các protein bằng cách tận dụng các lợi điểm của cấu trúc PAS Đặc biệt, các câu ban đầu được đưa qua một bộ phân tích ngữ pháp đầy đủ và một cấu trúc PAS được trích rút từ các phân tích cú pháp mà có thể hấp thụ những dạng đảo ngược của câu bề mặt Mức trừu tượng này sau đó hỗ trợ việc trích rút tự động các quy tắc, sử dụng cho biểu diễn tương tác của các protein Kết quả này cũng thu được hiệu suất đáng kể và có thể mang so sánh với các quy tắc trích rút được tạo ra thủ công.

Hệ thống hỏi đáp

Hệ thống hỏi đáp hiện tại (QA) trích rút các câu trả lời từ một tập các văn bản lớn theo các bước sau:

(1) Phân loại dạng câu trả lời mong muốn

(2) Sử dụng các từ khóa hoặc các mẫu hỏi kết hợp với các câu hỏi để xác định các đoạn có chứa câu trả lời

(3) Xếp hạng các câu trả lời có thể để quyết định đoạn nào chứa câu trả lời chính xác

Trong kết quả của Narayanan và Harabagiu (2004) [26], thông tin vai trò ngữ nghĩa được kết hợp cả trong các câu hỏi và văn bản Ban đầu, thông tin này giúp xác định mô hình chủ đề, hỗ trợ cho quá trình giải thích câu hỏi, sau đó, sử dụng để xây dựng một mô hình mở rộng của các hành vi và sự kiện, mà cho phép lập luận phức tạp được đề xuất bởi hệ thống QA bên trong một ngữ cảnh phức tạp.

Tóm tắt văn bản

Nhiệm vụ của hội nghị DUC - 2005 (Document Understanding Conference 2005) là tạo ra một đoạn tóm tắt 250 từ dựa trên các câu hỏi cho sẵn và nhiều văn bản liên quan Melli và công sự (2005) [25] đã tích hợp thành phần gán nhãn vai trò ngữ nghĩa vào trong hệ thống SQUASH Trong hệ thống này, thành phần lõi ROUGE-2 là một bước cải tiến lớn trong việc xem xét ảnh hưởng của các đặc trưng khác ROUGE - Recall Oriented Understudy for Gisting Evaluation, gồm các phương pháp tự động quyết định chất lượng của một đoạn tóm tắt bằng cách so sánh nó với các đoạn văn bản tóm tắt lý tưởng do người dùng tạo ra Các phương pháp này tính toán số lượng đơn vị chồng chéo như là N- gram, chuỗi từ, và các cặp từ giữa đoạn tóm tắt sinh bởi máy để đánh giá và các đoạn tóm tắt lý tưởng Lõi ROUGE-2 là phương pháp để đo những gram giống nhau trong đoạn tóm tắt

Trong hệ thống SQUASH, thông tin vai trò ngữ nghĩa được dùng để lựa chọn câu và nén câu Đối với lựa chọn câu, các thông tin ngữ nghĩa này đóng góp cho việc ước lượng độ cần thiết được gán cho mỗi câu trong nhóm các vai trò ngữ nghĩa mà bao gồm các thực thể đóng vai trò trong câu Thêm vào đó, nó cũng giúp đo độ tương tự của các câu và loại bỏ các thông tin thừa trong câu để đoạn tóm tắt vừa đủ 250 từ Ví dụ: những thành phần sau có thể được nắm bắt vai trò ngữ nghĩa bằng các nhãn ngữ nghĩa ARG- TMP (temporal markers) và ARG- DIS (discourse markers) được loại bỏ phục vụ mục đích nén câu

1.5 Một số phương pháp phân loại nổi tiếng

Một cây quyết định là một cấu trúc cây, trong đó mỗi node trong biểu thị cho một phép phân nhánh tương ứng cho một thuộc tính, mỗi nhánh biểu thị cho một kết quả của một phép thử, các node lá biểu thị cho lớp hoặc các phân bố lớp Node trên cùng trong một cây được gọi là gốc Để phân lớp một mẫu chưa biết, những giá trị thuộc tính của mẫu đó được thử ngược lại trên cây quyết định Một đường dẫn từ gốc đến một node lá là cơ sở cho việc dự đoán lớp của một mẫu Cây quyết định có thể dễ dàng chuyển đổi sang một tập các luật phân lớp Cơ sở toán học của cây quyết định là thuật toán tham lam, thuật toán này đã xây dựng cây quyết định đệ quy từ trên xuống dưới, theo phương pháp chia để trị

Bayesian là phương pháp phân lớp dựa vào thống kê Ta có thể dự đoán xác suất của các lớp trong tập dữ liệu, dựa vào xác suất này có thể xếp các mẫu vào các lớp riêng biệt Thuật toán phân lớp Bayesian giả thiết rằng giá trị các thuộc tính của một lớp độc lập với giá trị của các thuộc tính khác, giả thiết này còn được gọi là lớp độc lập có điều kiện, nó làm đơn giản các tính toán sau này

Mạng Bayesian là một đồ thị, trên đồ thị cho phép biểu diễn mối quan hệ giữa các thuộc tính

Support Vector Machine (SVM) là một phương pháp mới để phân lớp dữ liệu Nó dễ sử dụng hơn mạng neural, tuy nhiên nếu không sử dụng nó chính xác thì dễ bị bỏ qua một số bước đơn giản nhưng cần thiết, dẫn đến kết quả không được thỏa mãn Mục đích của phương pháp SVM là phát sinh ra một mô hình từ tập mẫu học, mô hình này có khả năng dự đoán lớp cho các mẫu thử SVM tìm ra một hàm quyết định phi tưyến trong tập mẫu học bằng cách ánh xạ hoàn toàn các mẫu học vào một không gian đặc trưng kích thước lớn có thể phân lớp tuyến tính và phân lớp dữ liệu trong không gian này bằng cách cực đại khoảng cách lề

(geometric margin) và cực tiểu lỗi học cùng một lúc

Nội dung chính của chương là giới thiệu bài toán gán nhãn vai trò ngữ nghĩa theo các hướng tiếp cận khác nhau, đưa ra mô hình tổng quát của hệ thống gãn nhãn vai trò ngữ nghĩa, ứng dụng của hệ thống trong xử lý ngôn ngữ tự nhiên

CHƯƠNG 2: PHƯƠNG PHÁP HỌC MÁY

Nội dung chính của chương là giới thiệu tổng quan về bài toán phân loại và phân loại với mô hình học máy AdaBoost, trình bày những vấn đề cơ bản nhất về mô hình phân loại sử dụng AdaBoost ứng dụng trong gán nhãn dữ liệu dạng chuỗi

2.1.1 T ổ ng quan v ề bài toán phân lo ạ i

Phân loại (hay phân lớp) là một tiến trình xử lý nhằm xếp các mẫu dữ liệu hay các đối tượng vào một trong các lớp đã được định nghĩa trước Các mẫu dữ liệu hay các đối tượng được xếp về các lớp dựa vào giá trị của các thuộc tính

(attributes) cho một mẫu dữ liệu hay đối tượng Sau khi đã xếp tất cả các đối tượng đã biết trước vào các lớp tương ứng, lúc này mỗi lớp được đặc trưng bởi tập các thuộc tính của các đối tượng chứa trong lớp đó Các thuật toán phân loại tiêu biểu bao gồm như mạng Neural, cây quyết định, suy luận quy nạp, mạng Beyesian, Support Vector Machine… Tất cả các cách tiếp cập này xây dựng những mô hình đều có khả năng phân loại cho một mẫu mới chưa biết dựa vào những mẫu tương tự đã được học Bài toán phân loại có thể xử lý thông tin được thu thập từ mọi lĩnh vực hoạt động của con người và thế tới tự nhiên được biểu diễn dưới dạng các bảng Bảng này bao gồm các đối tượng và các thuộc tính

Các phần tử trong bảng là các giá trị xác định các thuộc tính (attributes hay features) của các đối tượng Trong đó số cột chính là số thuộc tính của các đối tượng, mỗi cột là một thuộc tính và số dòng chính là số đối tượng chứa trong dữ liệu này Mọi dữ liệu được biểu diễn dưới các dạng khác có thể được chuyển thành dạng bảng như trên để thực hiện quá trình phân loại

Một bài toán phân loại bao gồm 2 bước sau:

Mục đích của bước này là xây dựng một mô hình xác định một tập các lớp dữ liệu Mô hình này được xây dựng bằng cách phân tích các bộ dữ liệu của một cơ sở dữ liệu, mỗi bộ dữ liệu được xác định bởi giá trị của các thuộc tính Giả sử mỗi bộ dữ liệu đã thuộc về một trong các lớp đã đựơc định nghĩa trước, điều này được xác định bởi một trong các thuộc tính, gọi là thuộc tính phân loại Trong ngữ cảnh của bài toán phân loại, mỗi bộ dữ liệu được xem như là một mẫu, một ví dụ, hay một đối tượng Những bộ dữ liệu được phân tích để xây dựng mô hình phân loại được lấy từ trong tập dữ liệu học hay dữ liệu huấn luyện (training data set) Những bộ dữ liệu riêng lẻ tạo thành tập dữ liệu huấn luyện còn gọi là những mẫu huấn luyện (training samples) và được chọn ngẫu nhiên từ một kho các mẫu

Bước 2: Kiểm tra và đánh giá, bước này sử dụng mô hình

Phân lớp đã được xây dựng ở bước 1 vào việc phân lớp Đầu tiên, đánh giá độ chính xác của mô hình hay bộ phân lớp này, bằng cách sử dụng một tập các mẫu đã được phân lớp để thử (test) gọi là bộ thử (test set) Những mẫu này được chọn ngẫu nhiên và độc lập với các m ẫu đã được học ở bước 1 gọi là mẫu thử (test sample) Độ chính xác của một mô hình phân lớp dựa trên bộ thử là tỷ lệ những mẫu thử được phân lớp đúng bằng mô hình phân lớp đó Nghĩa là với mỗi m ẫu thử, so sánh lớp đúng mà mẫu thử đó thuộc về với lớp mà mô hình phân lớp này dự đoán cho mẫu thử đó

2.2 Phương pháp mô hình AdaBoost

2.2.1 Ph ươ ng pháp Boosting 2.2.1.1 Ý tưởng hoạt động của mô hình phương pháp Boosting

Khác với các phương pháp kể trên, thường xây dựng bộ phân loại kết hợp với các ví dụ huấn luyện có trọng số bằng nhau, phương pháp Boosting xây dựng bộ phân loại kết hợp với các ví dụ huấn luyện có trọng số khác nhau Sau mỗi bước lặp, các ví dụ huấn luyện được dự đoán sai sẽ được đánh trọng số tăng lên, các ví dụ huấn luyện được dự đoán đúng sẽ được đánh trọng số nhỏ hơn Điều này giúp cho Boosting tập trung vào cải thiện độ chính xác cho các ví dụ được dự đoán sai sau mỗi bước lặp

Một thuật toán boosting ban đầu được định nghĩa là một thuật toán dùng để chuyển một thuật toán học máy yếu thành một thuật toán học máy mạnh Có nghĩa là nó chuyển một thuật toán học máy giải quyết một bài toán phân loại 2 lớp tốt hơn cách giải chọn ngẫu nhiên thành một thuật toán giải quyết rất tốt bài toán đó Thuật toán boosting ban đầu của Schapire là một thuật toán đệ quy Tại bước cuối của đệ quy, nó kết hợp các giả thuyết được tạo bởi thuật toán học máy yếu Xác suất lỗi của bộ kết hợp này được chứng minh là nhỏ hơn xác suất lỗi của các giả thuyết yếu

Adaboost là một thuật toán kết hợp một tập các bộ phân loại được làm đa dạng bằng việc chạy thuật toán học máy với phân bố khác nhau trên tập huấn luyện

2.2.2 Ph ươ ng pháp Adaboost

Giới thiệu

Tổng quan về bài toán phân loại

Phân loại (hay phân lớp) là một tiến trình xử lý nhằm xếp các mẫu dữ liệu hay các đối tượng vào một trong các lớp đã được định nghĩa trước Các mẫu dữ liệu hay các đối tượng được xếp về các lớp dựa vào giá trị của các thuộc tính

(attributes) cho một mẫu dữ liệu hay đối tượng Sau khi đã xếp tất cả các đối tượng đã biết trước vào các lớp tương ứng, lúc này mỗi lớp được đặc trưng bởi tập các thuộc tính của các đối tượng chứa trong lớp đó Các thuật toán phân loại tiêu biểu bao gồm như mạng Neural, cây quyết định, suy luận quy nạp, mạng Beyesian, Support Vector Machine… Tất cả các cách tiếp cập này xây dựng những mô hình đều có khả năng phân loại cho một mẫu mới chưa biết dựa vào những mẫu tương tự đã được học Bài toán phân loại có thể xử lý thông tin được thu thập từ mọi lĩnh vực hoạt động của con người và thế tới tự nhiên được biểu diễn dưới dạng các bảng Bảng này bao gồm các đối tượng và các thuộc tính

Các phần tử trong bảng là các giá trị xác định các thuộc tính (attributes hay features) của các đối tượng Trong đó số cột chính là số thuộc tính của các đối tượng, mỗi cột là một thuộc tính và số dòng chính là số đối tượng chứa trong dữ liệu này Mọi dữ liệu được biểu diễn dưới các dạng khác có thể được chuyển thành dạng bảng như trên để thực hiện quá trình phân loại.

Bài toán phân loại

Một bài toán phân loại bao gồm 2 bước sau:

Mục đích của bước này là xây dựng một mô hình xác định một tập các lớp dữ liệu Mô hình này được xây dựng bằng cách phân tích các bộ dữ liệu của một cơ sở dữ liệu, mỗi bộ dữ liệu được xác định bởi giá trị của các thuộc tính Giả sử mỗi bộ dữ liệu đã thuộc về một trong các lớp đã đựơc định nghĩa trước, điều này được xác định bởi một trong các thuộc tính, gọi là thuộc tính phân loại Trong ngữ cảnh của bài toán phân loại, mỗi bộ dữ liệu được xem như là một mẫu, một ví dụ, hay một đối tượng Những bộ dữ liệu được phân tích để xây dựng mô hình phân loại được lấy từ trong tập dữ liệu học hay dữ liệu huấn luyện (training data set) Những bộ dữ liệu riêng lẻ tạo thành tập dữ liệu huấn luyện còn gọi là những mẫu huấn luyện (training samples) và được chọn ngẫu nhiên từ một kho các mẫu

Bước 2: Kiểm tra và đánh giá, bước này sử dụng mô hình

Phân lớp đã được xây dựng ở bước 1 vào việc phân lớp Đầu tiên, đánh giá độ chính xác của mô hình hay bộ phân lớp này, bằng cách sử dụng một tập các mẫu đã được phân lớp để thử (test) gọi là bộ thử (test set) Những mẫu này được chọn ngẫu nhiên và độc lập với các m ẫu đã được học ở bước 1 gọi là mẫu thử (test sample) Độ chính xác của một mô hình phân lớp dựa trên bộ thử là tỷ lệ những mẫu thử được phân lớp đúng bằng mô hình phân lớp đó Nghĩa là với mỗi m ẫu thử, so sánh lớp đúng mà mẫu thử đó thuộc về với lớp mà mô hình phân lớp này dự đoán cho mẫu thử đó.

Một số phương pháp phân loại nổi tiếng

2.2.1 Ph ươ ng pháp Boosting 2.2.1.1 Ý tưởng hoạt động của mô hình phương pháp Boosting

Khác với các phương pháp kể trên, thường xây dựng bộ phân loại kết hợp với các ví dụ huấn luyện có trọng số bằng nhau, phương pháp Boosting xây dựng bộ phân loại kết hợp với các ví dụ huấn luyện có trọng số khác nhau Sau mỗi bước lặp, các ví dụ huấn luyện được dự đoán sai sẽ được đánh trọng số tăng lên, các ví dụ huấn luyện được dự đoán đúng sẽ được đánh trọng số nhỏ hơn Điều này giúp cho Boosting tập trung vào cải thiện độ chính xác cho các ví dụ được dự đoán sai sau mỗi bước lặp

Một thuật toán boosting ban đầu được định nghĩa là một thuật toán dùng để chuyển một thuật toán học máy yếu thành một thuật toán học máy mạnh Có nghĩa là nó chuyển một thuật toán học máy giải quyết một bài toán phân loại 2 lớp tốt hơn cách giải chọn ngẫu nhiên thành một thuật toán giải quyết rất tốt bài toán đó Thuật toán boosting ban đầu của Schapire là một thuật toán đệ quy Tại bước cuối của đệ quy, nó kết hợp các giả thuyết được tạo bởi thuật toán học máy yếu Xác suất lỗi của bộ kết hợp này được chứng minh là nhỏ hơn xác suất lỗi của các giả thuyết yếu

Adaboost là một thuật toán kết hợp một tập các bộ phân loại được làm đa dạng bằng việc chạy thuật toán học máy với phân bố khác nhau trên tập huấn luyện

2.2.2 Ph ươ ng pháp Adaboost

AdaBoost (Adaptive Boost) là một thuật toán học mạnh, giúp đẩy nhanh việc tạo ra một bộ phân loại mạnh (strong classifier) bằng cách chọn các đặc trưng tốt trong một họ các bộ phân loại yếu (weak classifier - bộ phân loại yếu)

Phương pháp mô hình AdaBoost

Phương pháp Boosting

Khác với các phương pháp kể trên, thường xây dựng bộ phân loại kết hợp với các ví dụ huấn luyện có trọng số bằng nhau, phương pháp Boosting xây dựng bộ phân loại kết hợp với các ví dụ huấn luyện có trọng số khác nhau Sau mỗi bước lặp, các ví dụ huấn luyện được dự đoán sai sẽ được đánh trọng số tăng lên, các ví dụ huấn luyện được dự đoán đúng sẽ được đánh trọng số nhỏ hơn Điều này giúp cho Boosting tập trung vào cải thiện độ chính xác cho các ví dụ được dự đoán sai sau mỗi bước lặp

Một thuật toán boosting ban đầu được định nghĩa là một thuật toán dùng để chuyển một thuật toán học máy yếu thành một thuật toán học máy mạnh Có nghĩa là nó chuyển một thuật toán học máy giải quyết một bài toán phân loại 2 lớp tốt hơn cách giải chọn ngẫu nhiên thành một thuật toán giải quyết rất tốt bài toán đó Thuật toán boosting ban đầu của Schapire là một thuật toán đệ quy Tại bước cuối của đệ quy, nó kết hợp các giả thuyết được tạo bởi thuật toán học máy yếu Xác suất lỗi của bộ kết hợp này được chứng minh là nhỏ hơn xác suất lỗi của các giả thuyết yếu

Adaboost là một thuật toán kết hợp một tập các bộ phân loại được làm đa dạng bằng việc chạy thuật toán học máy với phân bố khác nhau trên tập huấn luyện.

Phương pháp Adaboost

AdaBoost (Adaptive Boost) là một thuật toán học mạnh, giúp đẩy nhanh việc tạo ra một bộ phân loại mạnh (strong classifier) bằng cách chọn các đặc trưng tốt trong một họ các bộ phân loại yếu (weak classifier - bộ phân loại yếu) và kết hợp chúng lại tuyến tính bằng cách sử dụng các trọng số Điều này thật sự cải thiện dần độ chính xác nhờ áp dụng hiệu quả một chuỗi các bộ phân loại yếu

Hình 2:1 Lược đồ cơ bản của AdaBoost

Thuật toán học này ban đầu duy trì một phân bố chuẩn (tương đồng nhau) các trọng số lên mỗi một mẫu huấn luyện Trong bước lặp đầu tiên, thuật toán huấn luyện một bộ phân loại yếu bằng cách dùng một đặc trưng nhãn đã gán tốt nhất trong việc phát hiện các mẫu thử huấn luyện Trong lần lặp thứ hai, các mẫu thử dùng cho huấn luyện nhưng bị phân loại nhầm bởi bộ phân loại yếu đầu tiên được nhận trọng số cao hơn sao cho đặc trưng nhãn đã gán được chọn lần này phải tập trung khả năng tính toán cho các mẫu thử bị phân loại nhầm này

Sự lặp lại tiếp tục thực hiện và các kết quả cuối cùng sẽlà một chuỗi cascade các kết hợp tuyến tính của các bộ phân loại yếu, tạo ra một bộ phân loại mạnh, giúp tạo được độ chính xác mong muốn Thuật toán học AdaBoost sau 3 lần lặp được minh họa trong Hình 2.2 là một ví dụ thuật toán AdaBoost sau ba lần lặp

Hình 2:2 Thuật toán học AdaBoost

Là một cải tiến của tiếp cận Boosting, AdaBoost sử dụng thêm khái niệm trọng số (weight) để đánh dấu các mẫu nhận dạng Trong quá trình huấn luyện, cứ mỗi bộ phân loại yếu được xây dựng, thuật toán sẽ tiến hành cập nhật lại trọng số để chuẩn bị cho việc xây dựng bộ phân loại yếu kế tiếp thông qua việc tăng trọng số của các mẫu bị nhận dạng sai và giảm trọng số của các mẫu được nhận dạng đúng bởi bộ phân loại yếu vừa xây dựng Bằng cách này, các bộ phân loại yếu sau có thể tập trung vào các mẫu mà các bộ phân loại yếu trước nó chưa làm tốt Sau cùng, các bộ phân loại yếu sẽ được kết hợp tuỳ theo mức độ “tốt” của chúng để tạo dựng nên bộ phân loại mạnh

Có thể hình dung một cách trực quan như sau: để biết một từ có phải là Danh từ riêng chỉ địa điểm (AM-LOC) hay không, ta hỏi T người (tương đương với T bộ phân loại yếu xây dựng từ T vòng lặp của tăng cường), đánh giá của mỗi người (tương đương với một bộ phân loại yếu) chỉ cần tốt hơn ngẫu nhiên một chút (tỉ lệ sai dưới 50%) Sau đó, ta sẽ đánh trọng số cho đánh giá của từng người (thể hiện qua hệ số α), người nào có khả năng đánh giá tốt các từ khó thì mức độ quan trọng của người đó trong kết luận cuối cùng sẽ cao hơn những người chỉ đánh giá tốt các mẫu dễ Việc cập nhật lại trọng số của các mẫu sau mỗi vòng tăng cường chính là để đánh giá độ khó của các mẫu (mẫu càng có nhiều người đánh giá sai là mẫu càng khó)

1 Cho một tập gồm n mẫu có đánh dấu (x 1 ,y 1 ), (x 2 ,y 2 ),… (x n ,y n ) với x k ∈ (x k1 , x k2 , … , x km ) là vector đặc trưng và y k ∈ (-1, 1) là nhãn của mẫu

(1 ứng với từ loại, -1 ứng với từ loại khác)

2 Khởi tạo trọng số ban đầu cho tất cả các mẫu: với m là số mẫu đúng (ứng với từ loại và y = 1) và l là số mẫu sai (ứng với từ loại khác và y

• Với mỗi đặc trưng trong vector đặc trưng, xây dựng một weak classifier h j với ngưỡng θ j và lỗi ε j : ε j = ' 𝑤 0,@ |ℎ C (𝑥 @ ) − 𝑦 @ |

• Chọn ra h j với ε j nhỏ nhất, ta được h t : h t = X à {1, -1}

• Cập nhật lại trọng số: w 0;=,@ = 𝑤 0,@

𝑍𝑡: Hệ số dùng để đưa w𝑡 +1 về đoạn [0,1] (normalization factor)

4 Strong classifier được xây dựng :

Quá trình huấn luyện bộ phân loại được thực hiện bằng một vòng lặp mà ở mỗi bước lặp, thuật toán sẽ chọn ra bộ phân loại yếu ht thực hiện việc phân loại với lỗi ε t nhỏ nhất (do đó sẽ là bộ phân loại tốt nhất) để bổ sung vào bộ phân loại mạnh Mỗi khi chọn được 1 bộ phân loại ht, AdaBoost sẽ tính giá trị ε t theo công thức ở trên, ε t cũng được chọn trên nguyên tắc làm giảm giá trị lỗi ε t

Hệ số αt nói lên mức độ quan trọng của ht :

- Trong công thức phân loại H(x):

0NTa thấy tất cả các bộ phân loại ht đều có đóng góp vào kết quả phân loại của H(x), và mức độ đóng góp của chúng phụ thuộc vào giá trị α t tương ứng: h t với α t càng lớn thì nó càng có vai trò quan trọng H(x)

Ta thấy giá trị αt tỉ lệ nghịch với εj Bởi ht được chọn với tiêu chí đạt εi nhỏ nhất, do đó nó sẽ đảm bảo giá trị α t lớn nhất Công thức này do Ruend và Schapire đưa ra

Sau khi tính được giá trị αt, Adaboost tiến hành cập nhật lại trọng số của các mẫu thông qua việc tăng trọng số các mẫu mà h t phân loại sai, giảm trọng số mà các h t phân loại đúng Bằng cách này, trọng số của mẫu phản ảnh được mức độ khó nhận dạng của mẫu đó và h t+1 sẽ ưu tiên học cách phân loại những mẫu này

Vòng lặp xây dựng bộ phân loại mạnh (strong classifer) sẽ dừng lại sau T lần lặp Trong thực tế, người ta ít sử dụng giá trị T vì không có công thức nào đảm bảo tính được giá trị T tối ưu cho quá trình huấn luyện Thay vào đó, người ta sử dụng giá trị max False Positive (tỉ lệ nhận dạng sai tối đa các mẫu positive) hay max False Alarm (tỉ lệ nhận dạng sai tối đa các mẫu negative) Tỉ lệ này của bộ phân loại cần xây dựng không được phép vượt quá giá trị này Khi đó, qua các lần lặp, tỉ lệ nhận dạng sai các mẫu âm tính (false alarm) của bộ phân loại mạnh H t (x) xây dựng được (tại lần lặp thứ t) sẽ giảm dần, và vòng lặp kết thúc khi tỉ lệ này thấp hơn tỉ lệ nhận dạng sai tối đa các mẫu âm tính (max false alarm)

2.3 Một số ứng dụng của phương pháp AdaBoost:

Phương pháp học máy AdaBoost được ứng dụng rộng rãi trong lĩnh vực xử lý ảnh số AdaBoost được sử dụng trong việc nhận dạng ảnh, dữ liệu ảnh sẽ được phân loại dựa trên các đặc trưng ảnh (vd: các đặc trưng Haar-like) kết hợp với việc nâng cao độ chính xác nhờ một lượng dữ liệu huấn luyện lớn (khoảng

3000 ảnh) để thực hiện phân loại ảnh

Nội dung chính của chương là giới thiệu phương pháp phân loại học máy AdaBoost, trình bày những nguyên lý bản nhất về mô hình Boost và AdaBoost ứng dụng trong gán nhãn dữ liệu dạng chuỗi Trong chương tiếp theo, tôi xin giới thiệu về bài toán gán nhãn vai trò ngữ nghĩa theo hướng áp dụng mô hình AdaBoost và công cụ Swirl

CHƯƠNG 3: ỨNG DỤNG ADABOOST CHO BÀI

TOÁN GÁN NHÃN NGỮ NGHĨA NÔNG

Nội dung chính của chương này là mô tả bài toán gán nhãn vai trò ngữ nghĩa theo hướng áp dụng mô hình phân loại AdaBoost và công cụ Swirl trong gán nhãn chuỗi dữ liệu Đồng thời, chương này cũng trình bày các kết quả thực nghiệm thu được và hướng nghiên cứu tiếp theo của đề tài

3.1 Mô tả bài toán gán nhãn vai trò ngữ nghĩa nông

Ta có thể quy bài toán gán nhãn vai trò ngữ nghĩa nông cho các thành phần trong câu về bài toán chunking áp dụng mô hình AdaBoost Dựa vào các nhãn đã qua tiền xử lý, ta có thể xác định được ranh giới của từng cụm vai trò ngữ nghĩa đối với một động từ cụ thể trong câu Các nhãn được tiền xử lý để có định dạng IOB2

- B-X : nhãn đánh dấu bắt đầu một cụm ngữ nghĩa

- I- X : nhãn đánh dấu các thành phần bên trong cụm ngữ nghĩa

- O : nhãn đánh dấu các thành phần bên ngoài tất cả các cụm ngữ nghĩa (dấu chấm)

Mô tả bài toán gán nhãn vai trò ngữ nghĩa nông

Ta có thể quy bài toán gán nhãn vai trò ngữ nghĩa nông cho các thành phần trong câu về bài toán chunking áp dụng mô hình AdaBoost Dựa vào các nhãn đã qua tiền xử lý, ta có thể xác định được ranh giới của từng cụm vai trò ngữ nghĩa đối với một động từ cụ thể trong câu Các nhãn được tiền xử lý để có định dạng IOB2

- B-X : nhãn đánh dấu bắt đầu một cụm ngữ nghĩa

- I- X : nhãn đánh dấu các thành phần bên trong cụm ngữ nghĩa

- O : nhãn đánh dấu các thành phần bên ngoài tất cả các cụm ngữ nghĩa (dấu chấm)

Trong đó: X là tập các nhãn ngữ nghĩa được quy định theo quy cách ký hiệu của kho ngữ liệu PropBank, gồm 5 nhãn chính A0- A5, 1 nhãn O chứa các từ không nằm trong cụm ngữ nghĩa nào và 13 nhãn chức năng biểu thị thời gian địa điểm, cách thức, (TMP, LOC, MNR, ) Như vậy bài toán gán nhãn vai trò ngữ nghĩa có thể được phát biểu như sau: "Hãy áp dụng mô hình AdaBoost để gán nhãn {B-X, I-X, O} cho các thành phần của một câu trong văn bản tiếng Anh."

Việc áp dụng mô hình cần trải qua các bước thu thập, chuẩn bị dữ liệu và xác định đầu vào đầu ra của mô hình.

Thu thập và chuẩn bị dữ liệu

Để sử dụng được công cụ Swirl người dùng cần chuẩn bị hai thư mục tệp chứa các tệp tin tin dữ liệu: dữ liệu huấn luyện và dữ liệu test Cả hai thư mục đều cần phải có định dạng tương thích với môi trường làm việc của Swirl

Các file d ữ li ệ u hu ấ n luy ệ n:

Tệp chứa từ (word file): Tệp chứa danh sách các câu đã tách từ, mỗi từ sẽ trên 1 dòng và mỗi câu được ngăn cách bởi 1 dòng trông Hình 3.1 mô tả ví dụ về một tệp chứa từ huấn luyện:

Hình 3:1 Tệp chứa từ huấn luyện

Tệp chứa nhãn cú pháp ngữ nghĩa (synt-file): Là tệp chứa danh sách các nhãn ngữ nghĩa tương ứng với các từ đã được tách trong tệp chứa từ, thông thường nhãn ngữ nghĩa sẽ có 3 cột: nhãn ngữ nghĩa từ, nhãn cụm ngữ nghĩa từ, nhãn ngữ pháp Hình 3.2 mô tả ví dụ về một tệp chứa nhãn cú pháp ngữ nghĩa huấn luyện:

Hình 3:2 Tệp chứa cú pháp huấn luyện

Tệp chứa nhãn mệnh đề (props-file): Tệp chứa danh sách các nhãn mệnh đề câu tương ứng với các từ được tách trong tệp chứa từ, tệp có cột đầu tiên chứa danh sách các động từ, các cột tiếp theo là phân định các thành phân con trong câu Hình 3.3 mô tả ví dụ về một tệp chứa nhãn thuộc tính:

Hình 3:3 Tệp chứa nhãn mệnh đề

Tệp chứa nhãn danh từ riêng (ne-file): Tệp chứa danh sách các nhãn danh từ riêng tương ứng với các từ được tách trong tệp chứa từ, tệp có cột đầu tiên chứa danh sách nhãn từ của danh từ riêng Hình 3.4 mô tả ví dụ về một tệp chứa nhãn danh từ riêng:

Hình 3:4 Tệp chứa nhãn danh từ riêng

Dữ liệu dùng cho mô hình được khai thác từ nhiệm vụ gán nhãn vai trò ngữ nghĩa tại hội nghị CoNLL- 2004 (Conference on Computational Natural

Language Learning, [14]), với dữ liệu huấn luyện gồm 8042 câu, dữ liệu test gồm 1000 câu

Dữ liệu huấn luyện chứa các thông tin như: Từ, PoS tag, chunks và nhãn vai trò ngữ nghĩa

T ừ : Dữ liệu đầu vào là các câu tiếng Anh hoàn chỉnh, quy ước mỗi câu chỉ xét một động từ (target verb) Các câu được trình bày dưới dạng cột, phân tách với nhau bởi 1 dòng trống Mỗi từ trong câu được trình bày trên 1 dòng

Kết thúc câu là dấu chấm

PoS tag: PoS tag (Part of Speech Tag) là các nhãn biểu diễn từ loại của các từ trong câu Gán nhãn từ loại là xác định chức năng ngữ pháp của các từ trong câu Một số phương pháp gán nhãn từ loại cho tiếng Anh sử dụng bao gồm: mô hình Markov ẩn (HMMs), mô hình CRF, mô hình entropy cực đại

The dollar posted gains in quiet trading as concerns about

DT NN VBD NNS IN JJ NN IN NNS IN

Trong ví dụ trên, từ dollar được gán nhãn từ loại là NN (Noun, singular) nghĩa là danh từ số ít, từ posted có nhãn từ loại là VBD (Verb, past tense): động từ ở dạng quá khứ, từ in có nhãn từ loại là IN (Preposition): giới từ, từ quiet có nhãn từ loại là JJ (Adjectives): tính từ Hiện nay có khoảng 36 nhãn từ loại khác nhau được tham khảo trong tài liệu [3]

Chunks: Chunk (cụm từ) là kết quả của quá trình text chunking Nhiệm vụ chính của quá trình chunking là phân chia văn bản thành những nhóm từ có quan hệ về mặt cú pháp, những từ này được gộp lại thành một cụm từ biểu diễn một chức năng cú pháp nào đó Những cụm từ này không chồng lên nhau (non- overlapping), nghĩa là một từ chỉ có thể nằm trong duy nhất một chunk Ví dụ:

[He] [reckons] [the current account deficit] [will narrow] [to] [$1.8 billion]

NP VP NP VP PP NP

Trong ví dụ trên, các thành phần của câu được tách ra thành các cụm từ, mỗi cụm mang một chức năng cú pháp riêng biệt như He, the current account deficit, $1.8 billion đóng vai trò là các cụm danh từ (NP- Noun phrase) trong câu Tương tự, reckons, will narrow đóng vai trò là cụm động từ (VP- Verb phrase)

Nhãn vai trò ng ữ ngh ĩ a: Do gặp nhiều khó khăn trong việc xác định một tập các vai trò ngữ nghĩa có ý nghĩa phổ quát hết mọi loại vị tố, Treebank đã định nghĩa các vai trò trò ngữ nghĩa dựa trên cơ sở theo từng động từ Đối với mỗi động từ cụ thể, ARG0 thường biểu diễn đặc trưng Agent (tác nhân), ARG1 thường biểu diễn Patient (đối tượng bị tác động) hoặc Theme (bối cảnh) Đối với những argument ARG2 đến ARG5, vẫn chưa có một quy tắc tổng quát nào xác định chúng thông qua các động từ mặc dù tiêu tốn rất nhiều nỗ lực của giới nghiên cứu trong việc thống nhất vai trò ngữ nghĩa thông qua các lớp VerbNet

Ví dụ: Frameset accept.01: "take willingly" (sẵn lòng) A0: Acceptor (người chấp nhận)

A1: Thing accepted (vật được chấp nhận) A2: Accepted from (chấp nhận từ)

[ A0 He] [ AM-MOD would] [ AM-NEG n’t] [ V accept] [ A1 anything of value] from [ A2 those he was writing about]

Một tập các vai trò tương ứng với mỗi cách sử dụng một động từ được gọi tập các vai trò, tập các vai trò này kết hợp với tập các khung cú pháp chỉ sự thay đổi về mặt cú pháp trong biểu diễn của các tập đó Sự kết hợp này tạo thành một Frameset Môt động từ đa nghĩa có thể có nhiều hơn một Frameset, khi đó, sự khác nhau giữa các nghĩa được hiểu là đủ phân biệt để đòi hỏi các tập vai trò khác nhau, mỗi tập vai trò tương ứng với một Frameset

Ví dụ: decline.01: "go down incrementally" (giảm từng bước) A1: entity going down (thực thể giảm)

A2: amount gone down by (số lượng giảm), EXT (extent) A3: start point (điểm bắt đầu)

A4: end point (điểm kết thúc)

…[ A1 1its net income] declining [ A2-EXT 42%] [ A4 to $120 million] [ AM-TMP in the first 9 months of 2000]

Ví dụ: decline.02: "reject" (từ chối) A0: agent (tác nhân)

A1: rejected thing (vật bị từ chối) [ A0 A spokesman] decline [ A1 to elaborate]

Ngoài các vai trò ngữ nghĩa được xác định như trên, một động từ trong câu còn có những vai trò ngữ nghĩa khác làm nhiệm vụ như trạng ngữ, được ký hiệu là các nhãn chức năng AM- Dữ liệu huấn luyện sử dụng các nhãn argument thức năng như sau:

AM-LOC location (vị trí) AM-CAU cause (nguyên nhân) AM-EXT extent (mở rộng) AM-TMP temporal (thời gian)

AM-PNC purpose (mục đích)

AM-MNR manner (cách thức)

AM-PRD predication (dự đoán)

AM-REC reciprocal (tương phản)

Ban đầu, dữ liệu huấn luyện có dạng như hình 3.5 Cột 1: Từ, cột 2: PoS tag, cột 3: chunks, cột 4: các mệnh đề (clauses) ở định dạng Start- End, cột 5: động từ mục tiêu (target verb), cột 6 trở đi: nhãn vai trò ngữ nghĩa dưới định dạng Start- End Ví dụ: bắt đầu một cụm nhãn vai trò ngữ nghĩa là ký hiệu

"(A1", các từ cùng nằm trong cụm đó ký hiệu là "*", kết thúc cụm nhãn được ký hiệu là "A1)"

Hình 3:5 Mẫu dữ liệu ban đầu

Dữ liệu được trải qua các bước tiền xử lý về định dạng BIO, phù hợp với mục tiêu nghiên cứu bài toán gán nhãn vai trò ngữ nghĩa, tức là coi bài toán như nhiệm vụ gán nhãn chuỗi dữ liệu tuần tự Trong đó một chuỗi được bắt đầu bởi

"B-X", các từ nằm trong chuỗi có cùng vai trò ngữ nghĩa và kết thúc chuỗi được ký hiệu bởi "I-X", X là các nhãn vai trò ngữ nghĩa.

Công cụ Swirl

Giới thiệu

Công cụ Swirl là một công cụ dùng cài đặt mô hình AdaBoost cho gán nhãn ngữ nghĩa, được phân phối dưới dạng mã nguồn mở, dùng để phân đoạn và gán nhãn dữ liệu tuần tự

Swirl được thiết kế để ứng dụng trong các bài toán xử lý ngôn ngữ tự nhiên như nhận dạng thực thể (Name Entity Recognition), trích chọn thông tin (Information Extraction), phân đoạn dữ liệu (Text chunking)

- Người dùng có thể định nghĩa lại các tập đặc trưng

- Tiêu tốn ít bộ nhớ cả trong huấn luyện và kiểm thử

- Là phần mềm mã nguồn mở

Hệ thống hoạt động theo phương pháp học nửa giám sát, được thực hiện gồm các bước sau:

(i) Tạo bộ dữ liệu huấn luyện

(ii) Sử dụng mô hình AdaBoost để huấn luyện trên tập dữ liệu này

(iii) Tạo tập Test và sử dụng AdaBoost để gán nhãn dữ liệu

(iv) Đánh giá kết quả

Quá trình học bài toán gán nhãn vai trò ngữ nghĩa sử dụng công cụ Swirl, được chia làm 2 modulo chính được mô tả như hình 3.6:

1 http://ww.surdeanu.info/mihai/swirl/index.php

Hình 3:6 Mô hình hoạt động Swirl

3.3.2 Các đặ c tr ư ng s ử d ụ ng cho bài toán gán nhãn ng ữ ngh ĩ a nông:

Có nhiều đặc trưng được sử dụng trong bài toàn gán nhãn ngữ nghĩa nông Có thể phân loại các đặc trưng vào 5 nhóm như sau: a Đặc trưng cấu trúc nội bộ của các đối số ứng viên:

- Các mục từ hợp thành, hậu tố có chiều dài 2, 3, và 4, Bổ đề, và thẻ POS.2, 3 và 4, Bổ đề, và PoS tag

- Từ thành phần nội dung, hậu tố theo sau có chiều dài 2, 3 và 4, là Bổ đề, PoS tag, và nhãn NE

- Thành phần đầu tiên cuối cùng và các thẻ POS của đối số ứng viên

- Nhãn NE bao gồm trong cụm từ ứng viên

- Các đặc trưng nhị phân để chỉ ra sự hiện diện của những lời gợi ý về thời gian, có nghĩa từ đó xuất hiện thường xuyên trong các cụm từ AM-TMP trong quá trình huấn luyện b Các đặc trưng trích xuất từ các tham số ngữ cảnh:

- Các cụm từ nhãn, từ đầu và POS tag của thành phần cha, các thành phần anh em c Đặc trưng mà mô tả các thuộc tính của cấu trúc vị ngữ:

- Từ vị ngữ và bổ đề

- Ngữ điệu vị ngữ (Predicate Voice): hiện đang phân biệt 5 loại giọng nói: tích cực, thụ động, kết hợp, bất định, và tiếp diễn Một tính năng nhị phân để cho biết nếu các vị ngữ là thường xuyên - xuất hiện nhiều hơn hai lần trong các phân tập dữ liệu huấn luyện - hay không d Các đặc trưng được tạo ra từ ngữ cảnh vị ngữ:

- Quy tắc phân loại, tức là các quy tắc cấu trúc cụm từ có thể mở rộng thành các vị ngữ cha e Các đặc trưng mô hình mà khoảng cách giữa các vị ngữ và các tham số:

- Các đường dẫn trong cây cú pháp giữa các cụm từ đối số và các vị ngữ như là một chuỗi các nhãn cú pháp cùng với sự chỉ đạo theo cây (lên hoặc xuống)

- Chiều dài của đường dẫn cú pháp trên

- Số lượng các các mệnh đề (S * cụm từ) trong đường dẫn

- Các số cụm động từ (VP) trong đường dẫn

- Số đếm subsumption, tức là sự khác biệt giữa các độ sâu trong cây cú pháp của các đối số và thành phần vị ngữ Giá trị này là 0 nếu hai cụm từ chia sẻ cùng nút cha

- Các thể loại quản lý, mà chỉ ra nếu đối số NP được thống trị bởi một câu (điển hình cho các đối tượng) hoặc một cụm động từ (điển hình cho các đối tượng)

- Khoảng cách bề mặt giữa các vị ngữ và các cụm từ tham số mã hóa như: số thẻ, động từ đầu cuối từ (VB *), dấu phẩy, và phối hợp (CC) giữa các cụm từ đối số và vị ngữ, và một tính năng nhị phân để cho biết nếu hai thành phần là liền kề

- Một tính năng nhị phân để chỉ ra nếu đối số bắt đầu bằng một hạt vị ngữ, tức là một dấu hiệu nhìn thấy được bằng thẻ POS RP * và trực tiếp gắn liền với vị ngữ trong huấn luyện

3.3.3 Hu ấ n luy ệ n và Ki ể m tra

Sau khi chuẩn bị các tệp chứa từ (word-file), tệp chứa cú pháp nhãn ngữ nghĩa (synt-file), tệp chứa nhãn mệnh đề (props-file), tệp chứa nhãn danh từ riêng (ne-file), ta tiến hành huấn luyện và kiểm tra như sau:

Huấn luyện Để tiến hành huấn luyện, ta dùng cú pháp như sau: make train \

MODEL_DIR=

[WORD_FILE=< tệp chứa từ CoNLL > \]

[NE_FILE=< tệp chứa nhãn danh từ riêng CoNLL > \]

[CHARNIAK_FILE=< tệp chứa cú pháp nhãn ngữ nghĩa>\]

[PROP_FILE=]

Trong đó: các tham số WORD_FILE, NE_FILE, CHARNIAK_FILE, PROP_FILE là những tham số tùy chọn,

Hình 3:7 Quá trình huấn luyện

Quá trình huấn luyện trải qua 3 giai đoạn: huấn luyện mẫu (training sample), huấn luyện nhị phân (training binary) và dọn dữ liệu huấn luyện (training clean)

Sau khi trải qua quá trình huấn luyện, chương trình sinh ra các file model trong thư mục training như hình 3.8

Hình 3:8 Các file model sinh ra sau khi huấn luyện Kiểm tra Để tiến hành kiểm tra, ta dùng cú pháp như sau: swirl_parse_classify \

Trong đó: f SRL model directory: đường dẫn tới thư mục model vừa huấn luyện g Charniak’s parser model directory: đường dẫn tới thư mục chứa tệp model huấn luyện cú pháp

Quá trình kiểm tra tiến hành như hình 3.9:

Hình 3:9 Quá trình kiểm tra

Ta có thể kiểm tra đồng thời tạo ra file kết quả theo cú pháp sau: make test PREFIX=

Trong đó: test_set_name là tên bộ test – có thể đặt tùy ý

Chương trình sẽ tự động đọc các tệp .words,

.ne, .props trong thư mục copus (tại đường dẫn hiện hành) và tạo ra các tệp .input,

.output và .score trong thư mục testing (tại đường dẫn hiện hành), trong đó: h Tệp .words: là tệp chứa từ kiểm tra i Tệp .ne: là tệp chứa nhãn danh từ riêng kiểm tra j Tệp .props: là tệp chứa nhãn mệnh đề kiểm tra k Tệp .input: là tệp được tự động tạo chứa dữ liệu kiểm tra.

Huấn luyện và Kiểm tra

m Tệp .score: là tệp được tự động tạo chứa dữ liệu kết quả tổng hợp Đánh giá Để đánh giá hiệu suất mô hình, chúng tôi sử dụng độ chính xác trung bình accuracy và 3 tiêu chuẩn: Precision, Recall và F-score, được tính toán như sau:

Ngày đăng: 05/12/2022, 18:03

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[13] Richard Durbin, Sean R. Eddy, Anders Krogh, Graeme Mitchison, 1998, "Biological sequence analysis. Probabilistic models of proteins and nucleic acids", Cambridge University Press, p356 Sách, tạp chí
Tiêu đề: Biological sequence analysis. Probabilistic models of proteins and nucleic acids
[15] Daniel Gildea, Daniel Jurafsky, September 2002, "Automatic Labeling of Semantic Roles", Journal Computational Linguistics, 28(3), p245-288 Sách, tạp chí
Tiêu đề: Automatic Labeling of Semantic Roles
[20] Beth Levin, 1993, "English Verb Classes and Alternations: A Preliminar Investigation", The University of Chicago Press,Pp. xviii, 348 Sách, tạp chí
Tiêu đề: English Verb Classes and Alternations: A Preliminar Investigation
[27] Martha Palmer, Daniel Gildea, Paul Kingsbury, March 2005, “The Proposition Bank: An Annotated Corpus of Semantic Roles”, Journal of Computational Linguistics, Volume 31 Issue 1, pages 71- 206 Sách, tạp chí
Tiêu đề: The Proposition Bank: An Annotated Corpus of Semantic Roles
[28] Sameer Pradhan, Wayne Ward, James H. Martin, June 2008, "Towards robust semantic role labeling", Journal Computational Linguistics, Volume 34 Issue 2, p289-310, MIT Press Cambridge, MA, USA Sách, tạp chí
Tiêu đề: Towards robust semantic role labeling
[2] Nhữ Văn Kiên, 2013, Luận văn Thạc sỹ Nghiên cứu phương pháp tự động phát hiện lỗi trong kho ngữ liệu tiếng Việt được chú giải từ loại, Học viện công nghệ bưu chính viễn thông, Hà Nội.Tiếng Anh Khác
[3] Collin F Baker, Charles J Fillmore, John B Lowe, 1998, The berkeley framenet project, In Proceedings of the 36th Annual Meeting of the Association for Computational Linguistics and 17th International Conference on Computational Linguistics (COLING/ACL-1998) Khác
[4] Xavier Carreras and Lluís Màrquez, May 2004, Introduction to the CoNLL- 2004 Shared Task: Semantic Role Labeling, In Proceedings of the CoNLL-2004 Shared Task, Boston, MA USA Khác
[5] Xavier Carreras, Lluís Màrquez, and Grzegorz Chrupała, May 2004, Hierarchical Recognition of Propositional Arguments with Perceptrons, In Proceedings of the CoNLL-2004 Shared Task, Boston, MA USA Khác
[6] John Chen, Owen Rambow, 2003, Use of deep linguistic features for the recognition and labeling of semantic arguments, In Proceedings of the 2003 Conference on Empirical Methods in Natural Language Processing (EMNLP- 2003) Khác
[7] Wen-Chi Chou, Richard Tzong-Han Tsai, Ying-Shan Su, Wei Ku, TingYi Sung, Wen-Lian Hsu, 2006, A semi-automatic method for annotating a biomedical proposition bank, p5-12, In Proceedings of the Workshop on Frontiers in Linguistically Annotated Corpus Khác
[8] Trevor Cohn and Philip Blunsom, June 2005, Semantic Role Labelling with Tree Conditional Random Fields, In Proceedings of the Ninth Conference on Computational Natural Language Learning (CoNLL-2005), pages 169- 172, Ann Arbor, MI, USA Khác
[9] Michael Collins, 1997, Three generative, lexicalized models for statistical parsing, In Philip R. Cohen and Wolfgang Wahlster, editors, Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics (ACL- 1997), pages 16–23, Somerset, New Jersey Khác
[10] Ann Copestake, Dan Flickinger, 2000, An open-source grammar development environment and broad-coverage english grammar using HPSG, In Proc of LREC, Athens, Greece, pp. 591-598 Khác
[11] D.A. Dahl, Palmer, M. S., and Passonneau, R. J., 1987, Nominalizations inpundit, In Proceedings of the 25th annual meeting on Association for Computational Linguistics, pages 131–139, Morristown, NJ, USA. Association for Computational Linguistics Khác
[12] Hoa Trang Dang, Martha Palmer, June- 2005, The role of semantic roles in disambiguating verb senses, In Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics, Ann Arbor, MI, USA Khác
[14] Charles. J. Fillmore, 1968, The case for case, In Bach, E. and Harms, R., editors, Universals in Linguistic Theory. Holt, Rinehart, and Winston Khác
[16] Kadri Hacioglu, Sameer Pradhan, Wayne Ward, James H. Martin, Daniel Jurafsky, 2004, Semantic role labeling by tagging syntactic chunks, In Proceedings of CoNLL 2004 Shared Task, p110-113, MA, USA Khác
[17] Graeme Hirst, 1987, Semantic interpretation and the resolution of ambiguity, Cambridge University Press Khác
[18] Yudong Liu, Fall 2009, The Doctor of Philosophy thesis, Semantic role labeling using lexicalized tree adjoining grammars, Simon Fraser university Khác

HÌNH ẢNH LIÊN QUAN

HMMs Hidden Markov Models Mơ hình Markov ẩn IE Information Extraction Trích rút thơng tin  - Luận văn thạc sĩ VNU UET ứng dụng adaboost cho bài toán gán nhãn ngữ nghĩa nông   04
s Hidden Markov Models Mơ hình Markov ẩn IE Information Extraction Trích rút thơng tin (Trang 7)
Hình 1:1 Kiến trúc tổng quát hệ thống SRL - Luận văn thạc sĩ VNU UET ứng dụng adaboost cho bài toán gán nhãn ngữ nghĩa nông   04
Hình 1 1 Kiến trúc tổng quát hệ thống SRL (Trang 19)
Hình 2:1 Lược đồ cơ bản của AdaBoost - Luận văn thạc sĩ VNU UET ứng dụng adaboost cho bài toán gán nhãn ngữ nghĩa nông   04
Hình 2 1 Lược đồ cơ bản của AdaBoost (Trang 29)
Hình 2:2 Thuật toán học AdaBoost - Luận văn thạc sĩ VNU UET ứng dụng adaboost cho bài toán gán nhãn ngữ nghĩa nông   04
Hình 2 2 Thuật toán học AdaBoost (Trang 30)
Hình 3:1 Tệp chứa từ huấn luyện - Luận văn thạc sĩ VNU UET ứng dụng adaboost cho bài toán gán nhãn ngữ nghĩa nông   04
Hình 3 1 Tệp chứa từ huấn luyện (Trang 36)
Hình 3:2 Tệp chứa cú pháp huấn luyện - Luận văn thạc sĩ VNU UET ứng dụng adaboost cho bài toán gán nhãn ngữ nghĩa nông   04
Hình 3 2 Tệp chứa cú pháp huấn luyện (Trang 37)
Hình 3:3 Tệp chứa nhãn mệnh đề - Luận văn thạc sĩ VNU UET ứng dụng adaboost cho bài toán gán nhãn ngữ nghĩa nông   04
Hình 3 3 Tệp chứa nhãn mệnh đề (Trang 38)
Ban đầu, dữ liệu huấn luyện có dạng như hình 3.5. Cột 1: Từ, cột 2: PoS tag, cột 3: chunks, cột 4: các mệnh đề (clauses) ở  định dạng Start- End, cột 5:  động  từ  mục  tiêu  (target  verb),  cột  6  trở đi:  nhãn  vai  trò  ngữ  nghĩa  dưới định  dạng  S - Luận văn thạc sĩ VNU UET ứng dụng adaboost cho bài toán gán nhãn ngữ nghĩa nông   04
an đầu, dữ liệu huấn luyện có dạng như hình 3.5. Cột 1: Từ, cột 2: PoS tag, cột 3: chunks, cột 4: các mệnh đề (clauses) ở định dạng Start- End, cột 5: động từ mục tiêu (target verb), cột 6 trở đi: nhãn vai trò ngữ nghĩa dưới định dạng S (Trang 42)
Hình 3:6 Mơ hình hoạt động Swirl - Luận văn thạc sĩ VNU UET ứng dụng adaboost cho bài toán gán nhãn ngữ nghĩa nông   04
Hình 3 6 Mơ hình hoạt động Swirl (Trang 44)
Hình 3:8 Các file model sinh ra sau khi huấn luyện Kiểm tra  - Luận văn thạc sĩ VNU UET ứng dụng adaboost cho bài toán gán nhãn ngữ nghĩa nông   04
Hình 3 8 Các file model sinh ra sau khi huấn luyện Kiểm tra (Trang 47)
Hình 3:9 Quá trình kiểm tra - Luận văn thạc sĩ VNU UET ứng dụng adaboost cho bài toán gán nhãn ngữ nghĩa nông   04
Hình 3 9 Quá trình kiểm tra (Trang 48)
Hình 3:10 Kết quả đánh giá các nhãn A0, A1, A2 - Luận văn thạc sĩ VNU UET ứng dụng adaboost cho bài toán gán nhãn ngữ nghĩa nông   04
Hình 3 10 Kết quả đánh giá các nhãn A0, A1, A2 (Trang 50)
Bảng kết quả dưới đây mô tả kết quả gán nhãn với đầy đủ các nhãn: - Luận văn thạc sĩ VNU UET ứng dụng adaboost cho bài toán gán nhãn ngữ nghĩa nông   04
Bảng k ết quả dưới đây mô tả kết quả gán nhãn với đầy đủ các nhãn: (Trang 50)
14 T Trợ từ, tiểu từ, từ chỉ hình thái - Luận văn thạc sĩ VNU UET ứng dụng adaboost cho bài toán gán nhãn ngữ nghĩa nông   04
14 T Trợ từ, tiểu từ, từ chỉ hình thái (Trang 55)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN