Hƣớng tiếp cận dựa trên các phƣơng pháp học máy (M- 123docz.net

learning)

Các phƣơng pháp học máy nhƣ: máy vector hỗ trợ (SVM), cây quyết định, mơ hình markov ẩn HMM, CRF, … thƣờng xuyên đƣợc áp dụng và thu đƣợc kết quả khá cao trong các bài tốn về xử lý ngơn ngữ tự nhiên. Với hệ thống nhận dạng thực thể trong văn bản sử dụng các phƣơng pháp học máy, vấn đề nhận dạng thực thể (NER – Named Entity Recognition) đƣợc chuyển đối thành bài tốn phân loại. Đầu tiên vào năm 2005, Krishnan cùng các cộng sự sử dụng mơ hình IO để gán nhãn cho các từ theo định nghĩa [1][2]:

- I: Nếu từ nằm trong cụm thực thể đang xét - O: Nếu từ nằm ngồi cụm thực thể đang xét

- B: Nếu từ là vị trí bắt đầu cụm thực thể đang xét.

Sau đĩ dựa trên những thơng tin về nhãn của từ thu đƣợc qua mơ hình IOB, cùng với từ loại và loại thực thể (named entity) … để nhận dạng đặc trƣng làm đầu vào cho các mơ hình phân loại sử dụng các phƣơng pháp học máy. Thơng thƣờng cĩ ba kiểu hệ thống sử dụng các phƣơng pháp học máy là hệ thống học cĩ giám sát (Supervised), học khơng giám sát (Unsupervised) và học bán giám sát (Semi- supervised). Tuy nhiên, hệ thống sử dụng phƣơng pháp học khơng giám sát và học bán giám sát ít đƣợc áp dụng cho bài tốn nhận dạng thực thể, và khơng đƣợc vận dụng trong các nghiên cứu. Ngƣợc lại hồn tồn, hệ thống sử dụng phƣơng pháp học cĩ giám sát đƣợc sử dụng khá phổ biến trong bài tốn nhận dạng thực thể, một vài cơng trình tiêu biểu nhƣ: Năm 1998, Borthwick giới thiệu một hệ thống sử dụng Maximum Entropy [7], và năm 2006, Wu đƣa ra hệ thống sử dụng phƣơng pháp SVM cho bài tốn nhận thực thể. Mansouri cùng các cộng sự cĩ đƣa ra một mơ hình hệ thống khá mới: kết hợp giữa hệ mờ (Fuzzy) và máy vector hỗ trợ (SVM) [16].

Tuy bài tốn nhận dạng thực thể là một bài tốn khá cơ bản trong nhận dạng thơng tin và xử lý ngơn ngữ tự nhiên nhƣng chƣa cĩ nhiều nghiên cứu về bài tốn này đối với tiếng Việt. Cụ thể, Nguyen cùng các cộng sự đã xây dựng một hệ thống nhận dạng thực thể trong văn bản dựa trên mơ hình học máy Conditional Random Fields (CRF) để xác định 8 loại thực thể [20]: ngƣời (Person), địa danh (Location), tổ chức (Organization), phần trăm, thời gian (Time), số (Number), tiền (Money). Tác giả tiến hành thực nghiệm sử dụng cơng cụ FlexCRFs thu đƣợc độ đo F-measure trung bình khoảng 80 ~ 81%. Trong khi đĩ, năm 2007 cũng giải quyết bài tốn nhận dạng thực thể trong văn bản tiếng Việt, Pham cùng cộng sự đã giới thiệu một hệ thống bán tự động sử dụng phƣơng pháp máy vector hỗ trợ -SVM [21]. Trong nghiên cứu này, nhĩm tác giả xây dựng hệ thống giải quyết bài tốn song song với quá trình xây dựng tập dữ liệu bởi ở Việt Nam hiện nay vẫn chƣa cĩ một tập dữ liệu chuẩn cho bài tốn nhận dạng thực thể. Tập dữ liệu chuẩn đƣợc dùng làm dữ liệu huấn luyện cho thuật tốn SVM đƣợc xây dựng chứa một trăm văn bản tạo nên một hệ thống nhận dạng thực thể. Dùng hệ thống này để gán nhãn tự động cho thực thể trong một trăm văn bản tiếp theo, sau đĩ hiệu chỉnh lại bằng tay và tiếp tục huấn luyện lại để tạo ra một hệ thống tốt hơn. Quá trình này đƣợc lặp đi lặp lại nhiều lần cho đến khi thu đƣợc một tập dữ liệu đƣợc gán nhãn đủ lớn. Kết quả, hệ thống thu đƣợc độ đo F-measure khoảng 83.56%. Trong đĩ tác giả cũng nhấn mạnh đến tầm quan trọng của một bộ tách từ tốt trong hệ thống nhận dạng thực thể với văn bản tiếng Việt.

Ƣu điểm của cách tiếp cận học máy là cĩ hiệu năng tốt hơn cách tiếp cận dựa vào luật và dễ thích ứng với các miền mới. Vấn đề là nĩ yêu cầu tập huấn luyện tin cậy. Một thách thức chính khác là việc lựa chọn đặc trƣng phân biệt. Số đặc trƣng cho các hệ thống học máy cĩ thể gây ra một số vấn đề cho phƣơng pháp học máy, làm giảm khả năng chung. Hệ thống sử dụng các phƣơng pháp học máy luơn cĩ tính tự động hĩa cao, tuy nhiên một yêu cầu khơng thể thiếu để mơ hình hoạt động hiệu quả là một tập dữ liệu lớn đã đƣợc gán nhãn chuẩn. Điều này địi hỏi một quá trình chuẩn bị dữ liệu khá cơng phu và mất thời gian khi bắt đầu làm trên một ngơn ngữ mới hoặc một lĩnh vực mới.

Nhìn chung, việc nghiên cứu thơng qua cách tiếp cận thống kê và học máy cĩ đặc điểm: (1) thực hiện các giải thuật học máy mới đã đƣợc sử dụng thành cơng trong các bài tốn về xử lý ngơn ngữ tự nhiên - NLP, (2) kết hợp thơng tin ngơn ngữ học nhiều nhất cĩ thể vào các đặc trƣng. Về tổng quan, hiệu năng của các phƣơng pháp học máy tốt hơn nhiều so với phƣơng pháp truyền thống là dựa từ điển và dựa theo luật.

Hƣớng tiếp cận dựa trên các phƣơng pháp học máy (Machine-learning)

Mơ hình Markov ẩn (Hidden MarkovModel HMM)

Thành phần nhận dạng bằng học máy