.Học bán giám sát cho phân lớp đa nhãn

Một phần của tài liệu (LUẬN án TIẾN sĩ) nghiên cứu cải tiến phân lớp đa nhãn văn bản và ứng dụng luận án TS máy tính 624801 (Trang 56)

Trong nhiều bài tốn ứng dụng thực tế, các dữ liệu cĩ nhãn thu được cần tốn nhiều thời gian và cơng sức trong khi đĩ dữ liệu chưa cĩ nhãn thì rất phong phú và dễ dàng thu được. Tiếp cận học giám sát địi hỏi cần cĩ lượng lớn dữ liệu cĩ nhãn để thực thi cĩ hiệu quả, trong khi đĩ, tiếp cận học khơng giám sát chỉ tập trung khai thác dữ liệu khơng nhãn. Để khai thác được các thơng tin hữu ích từ dữ liệu cĩ nhãn và khơng nhãn, tiếp cận học bán giám sát ra đời và thu hút được nhiều sự quan tâm của cộng đồng nghiên cứu. Trong ngữ cảnh này, dữ liệu huấn luyện được cho là bao gồm lượng lớn dữ liệu khơng nhãn so với một lượng nhỏ dữ liệu cĩ nhãn. Mục tiêu của tiếp cận này là huấn luyện một bộ phân lớp trên cả dữ liệu cĩ nhãn và khơng nhãn cho hiệu quả tốt hơn bộ phân lớp giám sát được huấn luyện trên tập dữ liệu cĩ nhãn.

Theo X. Zhu và A. B. Goldberg [122], cĩ hai tiếp cận học bán giám sát là học bán giám sát quy nạp và học bán giám sát diễn dịch, trong đĩ phương pháp học bán giám sát quy nạp xây dựng mơ hình dự đốn nhãn cho tập dữ liệu kiểm thử trong tương lai; cịn phương pháp học bán giám sát diễn dịch xây dựng mơ hình dự đốn nhãn cho tập dữ liệu khơng nhãn trong tập huấn luyện.

Bài tốn phân lớp truyền thống vốn là bài tốn giám sát trong đĩ dữ liệu cĩ nhãn được sử dụng để huấn luyện mơ hình. Xuất phát từ tiếp cận về học bán giám sát và các đặc điểm của dữ liệu đa nhãn, nhiều nhà nghiên cứu đã đề xuất các tiếp cận liên quan đến phân lớp bán giám sát trong phân lớp đa nhãn như phương pháp tìm thừa số ma trận ràng buộc [126], phương pháp dựa trên đồ thị [32], phương pháp giảm chiều [8], tiếp cận học trên khơng gian con đồng thời với biên lớn [125]...

Luận án cũng đề xuất một tiếp cận học bán giám sát cho phân lớp đa nhãn trong đĩ kỹ thuật phân cụm bán giám sát được sử dụng để khai thác các thơng tin từ dữ liệu cĩ nhãn và khơng nhãn xây dựng phân hoạch trên miền dữ liệu ứng dụng phục vụ quá trình phân lớp. Tiếp cận này được trình bày tại Chương 4 của luận án.

1.5. Kết luận chương 1

Chương 1 đã trình bày về bài tốn phân lớp với bước phát triển từ phân lớp đơn nhãn truyền thống, phân lớp đơn nhãn đa thể hiện, phân lớp đa nhãn đơn thể hiện

đến phân lớp đa nhãn đa thể hiện. Chương này tập trung vào trình bày tổng quan về phân lớp đa nhãn bao gồm dữ liệu đa nhãn và các độ đo dữ liệu đa nhãn; kỹ thuật phân lớp đa nhãn và phương pháp đánh giá phân lớp đa nhãn. Đây sẽ là nội dung nền tảng cho phương pháp luận giải quyết bài tốn phân lớp đa nhãn ở các chương sau xây dựng mơ hình gồm các bước phân tích, đánh giá các đặc điểm, đặc trưng về dữ liệu đa nhãn, phân tích ảnh hưởng, tác động của các đặc trưng đến mơ hình phân lớp, bước lựa chọn đặc trưng để loại bỏ các đặc trưng dư thừa, giữ lại đặc trưng quan trọng và bước sử dụng thuật tốn phân lớp. Để kiểm chứng tính hiệu quả của mơ hình đề xuất, luận án xây dựng các kịch bản thực nghiệm với cấu hình các tham số khác nhau và so sánh với các mơ hình cơ sở. Kịch bản thực nghiệm được thực hiện trên miền dữ liệu văn bản tiếng Việt. Một số tiếp cận trong luận án sau đĩ được một số tác giả khác triển khai trên miền dữ liệu văn bản tiếng Anh cũng cho hiệu quả tốt hơn các mơ hình cơ sở cho thấy tính ứng dụng thực tiễn của mơ hình đề xuất.

Chương 2. HAI MƠ HÌNH PHÂN LỚP ĐƠN NHÃN VĂN BẢN TIẾNG VIỆT

Như trình bày tại Chương 1, bài tốn phân lớp đã tiến hĩa từ phân lớp đơn nhãn truyền thống, phân lớp đơn nhãn đa thể hiện, phân lớp đa nhãn đơn thể hiện và phân lớp đa nhãn đa thể hiện. Trong nhiều ứng dụng thực tế, một số bài tốn trích chọn thơng tin như gán nhãn thực thể cĩ tên, gán nhãn từ loại… cĩ thể được coi là bài tốn phân lớp đơn nhãn và áp dụng các tiếp cận phân lớp đơn nhãn trên cơ sở các đặc trưng riêng của từng lớp bài tốn. Chương này trình bày hai mơ hình phân lớp đơn nhãn được xây dựng trong bài tốn nhận diện thực thể cĩ tên gán cho dữ liệu một kiểu thực thể trong tập các thực thể định nghĩa trước và mơ hình hệ tư vấn xã hội đề xuất danh sách sản phẩm trong tập sản phẩm xem xét. Kết quả các nghiên cứu trong chương này được cơng bố trong [PTNgan1, PTNgan2]. Ý tưởng sử dụng phân phối chủ đề ẩn, cung cấp thêm các thơng tin ngữ nghĩa ẩn từ kho dữ liệu, làm giàu tập đặc trưng cho mơ hình phân lớp đa nhãn trong Chương 3 được hình thành từ giải pháp sử dụng kỹ thuật xây dựng tiêu chuẩn kỳ vọng tổng quát trong mơ hình nhận diện thực thể.

2.1. Mơ hình nhận diện thực thể cĩ tên dựa trên trường ngẫu nhiên cĩ điều kiện và tiêu chuẩn kỳ vọng tổng quát kiện và tiêu chuẩn kỳ vọng tổng quát

2.1.1. Nhận diện thực thể cĩ tên

Nhận diện thực thể cĩ tên (Named Entity Recognition - NER) là một bài tốn cơ bản trong trích chọn thơng tin. Nĩ được ứng dụng nhiều trong dịch tự động, tĩm tắt văn bản, hiểu ngơn ngữ tự nhiên, nhận biết tên thực thể trong sinh/y học và đặc biệt được ứng dụng trong việc tích hợp tự động các đối tượng, thực thể từ mơi trường Web vào các ontology ngữ nghĩa và các cơ sở tri thức. Bài tốn cĩ nhiệm vụ tìm kiếm và rút ra những thơng tin liên quan đến thực thể trong văn bản, thơng thường là loại thực thể. Tác vụ nhận diện thực thể cĩ tên được khởi xướng từ Hội nghị MUC-6 (Message Understanding Conference - 1995) với ngơn ngữ đích là tiếng Anh. Kể từ đĩ, bài tốn nhận diện thực thể cĩ tên đã thu hút được cộng đồng nghiên cứu trong

việc đề xuất các giải pháp xây dựng tập đặc trưng, kỹ thuật đốn nhận, phương pháp đánh giá và các ứng dụng trên các miền ngơn ngữ khác nhau.

Danh sách các kiểu thực thể được nhận dạng khác nhau tùy thuộc vào từng bài tốn và lĩnh vực ứng dụng cụ thể. Một số kiểu thực thể cĩ tên phổ biến nhất là:

- Thực thể chỉ người (PERSON)

- Thực thể chỉ tổ chức (ORGANIZATION) - Thực thể chỉ địa điểm (LOCATION) - Thực thể chỉ ngày (DATE)

- Thực thể chỉ thời gian (TIME)

- Thực thể chỉ các đơn vị đo tiền tệ (MONEY) - Thực thể chỉ phần trăm (PERCENT)

Bài tốn nhận diện thực thể cĩ tên cĩ thể coi là bài tốn phân lớp đơn nhãn với tập nhãn định nghĩa trước là tập thực thể cĩ tên. Trong văn bản, thực thể được xét là tập từ, mỗi từ được gán một nhãn tương ứng với loại thực thể.

Trong nhiều ứng dụng phân lớp trên văn bản, đối tượng phân lớp thường đoạn văn bản cĩ thể là văn bản ngắn độ vài câu hoặc là một văn bản dài gồm nhiều đoạn. Đối với bài tốn nhận diện thực thể này, đối tượng nhận diện là từ nên bài tốn mang những đặc trưng riêng về quá trình tiền xử lý trên tồn bộ văn bản và cách thức xây dựng tập đặc trưng hiệu quả cho mơ hình. Phần tiếp theo sẽ phân tích các bước để xây dựng mơ hình nhận diện thực thể cĩ tên.

2.1.2.Mơ hình đề xuất

Theo khảo sát của A. Mansouri và cộng sự [4], J. Jiang [60], những tiếp cận giải quyết bài tốn nhận diện thực thể cĩ tên được chia thành hai nhĩm phương pháp chính bao gồm tiếp cận dựa trên luật và tiếp cận dựa trên học máy. Ngồi ra, một số cơng trình kết hợp cả hai phương pháp trên.

Trong đĩ, tiếp cận dựa trên luật định nghĩa thủ cơng một bộ các luật như các mẫu ngữ pháp, cú pháp, đặc trưng chính tả kết hợp với từ điển,… Các thực thể cần nhận dạng được so sánh với tập luật, nếu khớp với luật nào thì thực thể sẽ được xem xét nhận dạng theo quy tắc đặt ra trong luật.

Tiếp cận dựa trên học máy cũng nhận được sự quan tâm trong nhiều nghiên cứu, trong đĩ bài tốn nhận dạng thực thể cĩ tên được chuyển thể thành bài tốn gán nhãn chuỗi quen thuộc như gán nhãn từ loại (Part of speech tagging), phân khúc (chunking) và nhận dạng thực thể cĩ tên.

Theo khảo sát của D.Nadeau và S.Sekine [18], các phương pháp học máy cho bài tốn này chủ yếu theo tiếp cận học giám sát bao gồm mơ hình Markov ẩn (HMM), thuật tốn cây quyết định, mơ hình Entropy cực đại, thuật tốn máy vectơ hỗ trợ (SVM) và thuật tốn trường ngẫu nhiên cĩ điều kiện (CRFs). Một số tiếp cận theo phương pháp học bán giám sát dựa trên kỹ thuật tự huấn luyện (self-training hay bootstrapping), trong đĩ từ tập dữ liệu cĩ nhãn ban đầu huấn luyện bộ phân lớp, sau đĩ sử dụng bộ phân lớp này gán nhãn cho dữ liệu chưa cĩ nhãn, các dữ liệu chưa cĩ nhãn sau khi được gán nhãn sẽ được bổ sung vào tập huấn luyện; điểm chú ý là bộ phân lớp sẽ được huấn luyện lại và lặp lại các quy trình. Ngồi ra, một số tiếp cận theo phương pháp học khơng giám sát cũng được đề xuất sử dụng kỹ thuật phân cụm, từ vựng và thống kê.

Việc khai thác khơng gian đặc trưng trong bài tốn nhận diện thực thể cĩ tên cũng là một vấn đề được quan tâm do đối tượng dữ liệu được nhận diện là từ, nên cĩ nhiều đặc trưng riêng cho đối tượng này. Trong khảo sát [18] cũng chỉ ra các đặc trưng được sử dụng phổ biến bao gồm đặc trưng mức từ như từ loại (POS), ký tự, mẫu số, chấm câu,… đặc trưng từ điển (danh sách) và đặc trưng mức văn bản và tập văn bản.

Các cơng trình nhận diện thực thể cĩ tên cho tiếng Việt cũng được tiếp cận theo cả hai hướng tiếp cận dựa trên luật và học máy (học cĩ giám sát và học bán giám sát). Tác giả H.Q. Lê và cộng sự [52] đề xuất mơ hình tích hợp nhận dạng thực thể người dựa trên CRF và kho ngữ liệu vàng (NER Golden corpus) là tập đặc trưng liên quan được định nghĩa trước. Tác giả Q.T. Tran và cộng sự [104] đề xuất mơ hình nhận diện thực thể định danh dựa trên mơ hình máy vector hỗ trợ SVM. Tác giả D. B. Nguyen và cộng sự [13] đề xuất mơ hình nhận diện thực thể định danh dựa trên tiếp cận xây dựng kho thực thể được gán nhãn kết hợp với luật. Tác giả H. Le Trung và

cộng sự [46] đề xuất mơ hình nhận diện thực thể cĩ tên dựa trên tập luật kết hợp với kỹ thuật bootstrapping. Tác giả H.Q. Pham và cộng sự [53] đề xuất một mơ hình học máy bán giám sát nhận diện thực thể cĩ tên dựa trên CRF kết hợp kỹ thuật bootstrapping với một thuật tốn học trực tuyến để nâng cao hiệu quả mơ hình.

Mơ hình được đề xuất trong luận án hịa chung vào xu hướng xây dựng học máy bán giám sát nhằm tận dụng được nguồn dữ liệu chưa gán nhãn phong phú và tiếp cận này là khơng trùng lặp với các nghiên cứu đã cĩ cho văn bản tiếng Việt. Mơ hình đề xuất sử dụng mơ hình CRF kết hợp với tiêu chuẩn kỳ vọng tổng quát [35] là những điều kiện trong hàm mục tiêu huấn luyện cho phép gán giá trị cho kỳ vọng mơ hình. Kỹ thuật tiêu chuẩn kỳ vọng tổng quát đã được chứng minh hiệu quả trong một số tiếp cận [37], [38] cho bài tốn nhận diện thực thể cĩ tên, ngồi ra các ràng buộc được phát hiện cĩ ích cho các phương pháp học suốt đời (lifelong machine learning).

Dựa theo tiếp cận về tiêu chuẩn kỳ vọng tổng quát, phương pháp đề xuất trong luận án khai thác mơ hình xác suất theo chủ đề ẩn Latent Dirichlet Allocation (LDA) – (sẽ được trình bày chi tiết ở Chương 3) – để xây dựng tập ràng buộc đặc trưng thực thể và sử dụng mơ hình học trường ngẫu nhiên cĩ điều kiện CRFs trên tập đặc trưng mức từ như đặc trưng từ loại (POS), đặc trưng theo ký tự và đặc trưng theo cửa sổ trượt để bổ sung thêm quan hệ trước sau nhằm nâng cao hiệu quả cho mơ hình. Phần tiếp theo sẽ làm rõ hơn về sử dụng tiêu chuẩn kỳ vọng tổng quát vào mơ hình trường ngẫu nhiên cĩ điều kiện và ứng dụng vào bài tốn nhận diện thực thể cĩ tên.

2.1.2.1. Sử dụng tiêu chuẩn kỳ vọng tổng quát vào mơ hình trường nhẫu nhiên

cĩ điều kiện CRFs

Mơ hình trường ngẫu nhiên cĩ điều kiện CRFs (Conditional Random Fields) được J.D.Lafferty và cộng sự [56] giới thiệu lần đầu tiên vào năm 2001. CRFs là mơ hình dựa trên xác suất cĩ điều kiện, nĩ cho phép tích hợp được các thuộc tính đa dạng của chuỗi dữ liệu quan sát nhằm hỗ trợ cho quá trình phân lớp. Điểm khác biệt của CRFs là mơ hình đồ thị vơ hướng đã cho phép CRFs cĩ thể định nghĩa phân

phối xác suất của tồn bộ chuỗi trạng thái với điều kiện biết chuỗi quan sát cho trước thay vì phân phối trên mỗi trạng thái với điều kiện biết trạng thái trước đĩ và quan sát hiện tại như trong các mơ hình đồ thị cĩ hướng khác. Do bản chất “phân phối điều kiện” và “phân phối tồn cục”, CRFs khắc phục được những nhược điểm của các mơ hình trước đĩ trong việc gán nhãn và phân đoạn các dữ liệu dạng chuỗi mà tiêu biểu là vấn đề ít chú ý đến các trạng thái cĩ phân phối chuyển với entropy thấp (label bias).

Kí hiệu X là biến ngẫu nhiên nhận giá trị là chuỗi dữ liệu cần phải gán nhãn và Y là biến ngẫu nhiên nhận giá trị là chuỗi nhãn tương ứng. Mỗi thành phần Yicủa

Y là một biến ngẫu nhiên nhận giá trị trong tập hữu hạn các trạng thái S.

Cho một đồ thị vơ hướng phi chu trình G = (V, E), ở đây V là tập các đỉnh của đồ thị và E là tập các cạnh vơ hướng nối các đỉnh đồ thị. Các đỉnh V biểu diễn các thành phần của biến ngẫu nhiên Y sao cho tồn tại ánh xạ một- một giữa một đỉnh và một thành phần Yv của Y. Ta nĩi (Y|X) là một trường ngẫu nhiên điều kiện (Conditional Random Field) khi với điều kiện X, các biến ngẫu nhiên Yv tuân theo tính chất Markov đối với đồ thị G [56]:

( ) ( ( )) (2.1) Ở đây, N(v) là tập tất cả các đỉnh kề với v. Như vậy, một CRF là một trường ngẫu nhiên phụ thuộc tồn cục vào X. Trong các bài tốn xử lý dữ liệu dạng chuỗi,

G đơn giản chỉ là dạng chuỗi G = (V={1,2,…m}, E={(i,i+1)}).

Kí hiệu X=(X1, X2,…, Xl), Y=(Y1,Y2,...,Yn ). Một cách tĩm lược, mơ hình đồ thị cho CRFs được biểu diễn như sau:

Gọi C là tập hợp tất cả các đồ thị con đầy đủ của đồ thị G - đồ thị biểu diễn cấu trúc của một CRFs. Khi đĩ xác suất của chuỗi nhãn với điều kiện biết chuỗi dữ liệu quan sát p(y|x) sẽ được thừa số hĩa thành tích của các hàm tiềm năng như sau.

( ) ∏ ( )

(2.2)

Trong đĩ, các hàm tiềm năng cho mơ hình CRFs được xác định dựa trên nguyên lý cực đại hĩa Entropy cho phép đánh giá các phân phối xác suất từ một tập các dữ liệu huấn luyện. Lafferty và cộng sự [56] xác định hàm tiềm năng của một CRF cĩ dạng một hàm mũ:

( ) ∑ ( ) (2.3)

Trong đĩ, là một thuộc tính của chuỗi dữ liệu quan sát và là trọng số chỉ mức độ biểu đạt thơng tin của thuộc tính .

Cĩ hai loại thuộc tính là thuộc tính chuyển (kí hiệu là ) và thuộc tính trạng thái (kí hiệu là ) tùy thuộc vào A là đồ thị con gồm một đỉnh hay một cạnh của G. Thay các hàm tiềm năng vào cơng thức (2.2) và thêm vào đĩ một thừa sổ chuẩn hĩa ( ) để đảm bảo tổng xác suất của tất cả các chuỗi nhãn tương ứng với một chuỗi dữ liệu quan sát bằng 1, ta được:

( )

( ) (∑ ∑ ( ) ∑ ∑ ( )) (2.4) Ở đây, là chuỗi dữ liệu quan sát và chuỗi trạng thái tương ứng; là thuộc tính của tịan bộ chuỗi quan sát và các trạng thái tại ví trí trong chuỗi trạng thái; là thuộc tính của tồn bộ chuỗi quan sát và trạng thái tại ví trí trong

Một phần của tài liệu (LUẬN án TIẾN sĩ) nghiên cứu cải tiến phân lớp đa nhãn văn bản và ứng dụng luận án TS máy tính 624801 (Trang 56)