Luận văn thạc sĩ Khoa học máy tính: Nhận dạng thực thể với phương pháp weak supervision trong văn bản tiếng việt

Trang 1

ĐẠI HỌC QUỐC GIA TP.HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA

Trang 2

Trang 3

CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠITRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG-HCM

Cán bộ hướng dẫn khoa học:PGS.TS Quản Thành ThơCán bộ chấm nhận xét 1:TS Lê Thanh VânCán bộ chấm nhận xét 2:PGS.TS Đỗ Văn Nhơn

Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp.HCMngày 10 tháng 07 năm 2023.

Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, họcvị của Hội đồng chấm bảo vệ luận văn thạc sĩ)

1 Chủ tịch: PGS.TS Phạm Trần Vũ2 Thư ký: TS Nguyễn Lê Duy Lai3 Phản biện 1: TS Lê Thanh Vân4 Phản biện 2: PGS.TS Đỗ Văn Nhơn5 Uỷ viên: TS Mai Hoàng Bảo Ân

Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyênngành sau khi luận văn đã được sửa chữa (nếu có).

CHỦ TỊCH HỘI ĐỒNGTRƯỞNG KHOA KHOA HỌC VÀKỸ THUẬT MÁY TÍNH

Trang 4

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAMĐộc lập - Tự do - Hạnh phúc

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ tên học viên: HOÀNG ĐĂNG KHOANgày, tháng, năm sinh: 06/06/1994Chuyên ngành: Khoa học Máy tính

MSHV: 2070103Nơi sinh: Đồng NaiMã số : 8480101

I TÊN ĐỀ TÀI: NHẬN DẠNG THỰC THỂ VỚI PHƯƠNG PHÁP WEAKSUPERVISION TRONG VĂN BẢN TIẾNG VIỆT

(NAMED ENTITY RECOGNOTION WITH WEAK SUPERVISION INVIETNAMESE)

II NHIỆM VỤ VÀ NỘI DUNG:

- Nghiên cứu và phân tích các phương pháp weak supervision.

- Triển khai ứng dụng phương pháp weak supervision cho bài toán nhận dạng thực thểtrong văn bản tiếng Việt.

- Thực nghiệm và đánh giá kết quả của phương pháp đề xuất.

III NGÀY GIAO NHIỆM VỤ :06/02/2023

IV NGÀY HOÀN THÀNH NHIỆM VỤ:11/06/2023

V CÁN BỘ HƯỚNG DẪN: PGS.TS Quản Thành Thơ

Trang 5

Tôi cũng xin bày tỏ lòng biết ơn đến các giáo viên đã truyền đạtnhững kiến thức quý báu và tạo điều kiện tốt nhất cho quá trình họctập và nghiên cứu của tôi Những kiến thức và kỹ năng mà tôi đã đượchọc là quan trọng và có ý nghĩa vô cùng trong sự phát triển cá nhânvà cũng là nền tảng hỗ trợ cho tôi hoàn thành luận văn này.

Tôi không thể không đề cập đến sự giúp đỡ từ gia đình, bạn bè vànhững đồng nghiệp công ty Bosch Những lời động viên, sự tin tưởngvà tình cảm của họ đã là nguồn động lực mạnh mẽ giúp tôi vượt quakhó khăn và hoàn thành luận văn này.

Cuối cùng, tôi xin gửi lời cảm ơn đến tất cả những người bạn cùnglớp cao học và đồng nghiệp đã cùng tôi chia sẻ ý kiến, kiến thức vàkinh nghiệm trong quá trình học tập Sự hỗ trợ và góp ý của các bạnđã góp phần quan trọng vào sự hoàn thiện của luận văn này.

Trang 6

TÓM TẮT LUẬN VĂN

Bài toán nhận dạng thực thể trong văn bản đã trải qua một quá trìnhphát triển dài, với nhiều công trình nghiên cứu đã được công bố nhằmcải thiện hiệu suất của các mô hình Đặc biệt, sự phát triển đáng kể củacác mô hình học sâu đã đạt đến một mức bão hòa trong việc nâng caohiệu suất Tuy nhiên, với phương pháp học sâu, các mô hình rất phụthuộc vào dữ liệu đã được gán nhãn, và điều này đặt ra một thách thứclớn trong việc tăng chi phí cho việc gán nhãn thủ công cho tập dữ liệu,đặc biệt là khi áp dụng cho các tác vụ đặc thù hoặc ngôn ngữ khác vớingôn ngữ mà mô hình đã được huấn luyện ban đầu.

Để giải quyết vấn đề này, đã có nhiều phương pháp được đề xuất,trong đó phương pháp Weak Supervision đã thu hút sự quan tâm.Phương pháp này cho phép tiết kiệm chi phí trong việc gán nhãn bằngcách sử dụng thông tin tri thức từ các chuyên gia trong lĩnh vực để gánnhãn cho toàn bộ tập huấn luyện Điều này giúp cải thiện quá trình gánnhãn và nâng cao hiệu suất của mô hình nhận dạng thực thể mà khôngphụ thuộc hoàn toàn vào việc gán nhãn thủ công từng mẫu dữ liệu.

Do đó trong nội dung của luận văn này, học viên tập trung nghiêncứu và phân tích phương pháp weak supervsion, đồng thời ứng dụngvào bài toán nhận diện thực thể văn bản trên một tập dữ liệu về bấtđộng sản tiếng Việt Các thí nghiệm được xây dựng để phân tích hiệunăng của mô hình trên những điều kiện khác nhau.

Trang 7

ABSTRACT OF DISSERTATION

The named entity recognition task has been developed for a longtime, with numerous research studies published to improve the perfor-mance of models Particularly, significant advancements in deep learn-ing models have reached a saturation point in improving performance.However, deep learning methods heavily rely on labeled data, posing amajor challenge in terms of the cost of manually labeling datasets, es-pecially when applied to domain-specific tasks or the applied languagedifferent from the original training language.

To address this issue, several methods have been proposed, amongwhich Weak Supervision has garnered attention This method allows forcost savings in labeling by leveraging domain knowledge from experts tolabel the entire training dataset This helps improve the labeling processand enhance the performance of model without solely relying on manuallabeling for each individual data point.

In this thesis, the focus is on studying and analyzing the weak pervision method and applying it to the task of entity recognition inVietnamese real estate data The experiments are designed to analyzethe performance of the model under different conditions

Trang 8

su-LỜI CAM ĐOAN

Tôi xin cam đoan luận văn tốt nghiệp: “NHẬN DẠNG THỰC THỂVỚI PHƯƠNG PHÁP WEAK SUPERVISION TRONG VĂN BẢN TIẾNGVIỆT” là công trình nghiên cứu của bản thân Những phần sử dụng tàiliệu tham khảo trong luận văn đã được nêu rõ trong phần tài liệu thamkhảo Các số liệu, kết quả trình bày trong luận văn là hoàn toàn trungthực, nếu sai tôi xin chịu hoàn toàn trách nhiệm và chịu mọi kỷ luật củabộ môn và nhà trường đề ra.

Học viên

Hoàng Đăng Khoa

Trang 9

Mục lục

1.1Giới thiệu đề tài 1

1.2Mục tiêu của luận văn 3

1.3Giới hạn đề tài 3

1.4Ý nghĩa của luận văn 4

1.5Tóm tắt nội dung 5

2Cơ sở kiến thức62.1Mô hình Artificial Neural Network - ANN 6

2.2Mô hình Hidden Markov Models - HMM 9

2.3Phương pháp Weak Supervision 11

3Công trình nghiên cứu liên quan133.1Hướng tiếp cận rule based .13

3.2Hướng tiếp cận feature based 14

3.3Hướng tiếp cận học sâu 15

3.4Hướng tiếp cận Weak Supervision 17

4.8Thảo luận kết quả 35

Trang 10

Danh sách hình vẽ

1.1Ví dụ về bài toán nhận dạng thực thể trong văn bản 1

1.2Các vấn đề phương pháp Weak Supervision giải quyết 2

2.1Nơ-ron sinh học 6

2.2Perceptron 7

2.3Một số hàm kích hoạt 8

2.4Kiến trúc cơ bản mô hình ANN 8

2.5Ví dụ về chuỗi markov và ma trận chuyển đổi trạng thái .9

2.6Ví dụ về mô hình HMM .10

2.7Phương pháp Weak Supervision 12

3.1Sự phát triển của các phương pháp từ Expert System (Rule base) cho đến chine Learning Representation Learning 13

Ma-3.2Kiến trúc cơ bản của mô hình học sâu trong bài toán NER [11] 15

4.2Đánh giá hiệu suất các label function với chỉ số Precision, Recall và F1 28

4.3Đánh giá hiệu suất các label function với chỉ số Overlap 28

4.4Đánh giá hiệu suất các label function với chỉ số Conflict .29

4.5Bước xây dựng tập huấn luyện với mô hình tổng hợp nhãn 30

4.6Mô hình tổng hợp nhãn với HMM 32

4.7Quy trình huấn luyện pre-trained model PhoBERT .32

4.8Kiến trúc và thông số cụ thể mô hình PhoBERT 33

Trang 11

Danh sách bảng

4.1Bảng phân loại phương pháp xây dựng label function 25

4.2Bảng tham số pre-trained model PhoBERT .34

4.3Bảng chi tiết thí nghiệm .35

4.4Bảng kết quả thí nghiệm 35

4.5Bảng kết quả chi tiết precision, recall và F1 của thí nghiệm 1 theo từng loại thựcthể 36

Trang 12

Chương 1

Giới thiệu đề tài

1.1Giới thiệu đề tài

Nhận dạng thực thể trong văn bản (Named Entity Recognition - NER) là một

trong những tác vụ được dùng rất nhiều trong xử lý ngôn ngữ tự nhiên nhằmxác định và phân loại một chuỗi trong một đoạn văn bản thuộc về tên người, tổchức, vị trí đã được định nghĩa trước.

Hình 1.1: Ví dụ về bài toán nhận dạng thực thể trong văn bản

Tác vụ NER thường được dùng làm bước đầu tiên trong các bài toán khácnhư rút trích thông tin, hệ thống hỏi đáp, trích xuất quan hệ Năm 1996, việcđánh giá tác vụ NER lần đầu tiên được tổ chức bởi Grishman và Sundheim tạihội thảo quốc tế Sixth Message Understanding Conference Sau đó hàng loạtcác công trình nghiên cứu được công bố, khởi đầu với các hướng tiếp cận thô sơ

Trang 13

cận mang lại hiệu quả cao hơn như feature-engineering, máy học và sau đó vớisự bùng nổ của học sâu (deep learning), các mô hình NER dựa trên học sâu đã

đạt đến mức bão hòa về hiệu suất.

Mặc dù các mô hình đã đạt được thành tựu vượt trội về hiệu năng, tuy nhiêntác vụ NER vẫn còn tồn tại nhiều thách thức khi đưa vào ứng dụng thực tế như:• Ngôn ngữ: hầu hết các mô hình hiệu suất cao hiện tại đều được huấn luyệntrên tập dữ liệu tiếng Anh, việc chuyển sang ngôn ngữ khác như Tiếng Việtđòi hỏi việc huấn luyện lại mô hình trên một tập dữ liệu cùng ngôn ngữ.• Domain: tương tự với thách thức ngôn ngữ, các mô hình đa phần đều được xây

dựng để xác định các thực thể trong một domain nhất định, khi ứng dụng sangmột domain khác, mô hình phải được huấn luyện lại trên trên cùng domain.• Nhãn: các phương pháp mang lại hiệu suất cao hiện tại hầu hết đến từ hướng

tiếp cận học có giám sát (supervised learning), nên các mô hình đều cần một

lượng nhãn rất lớn để huấn luyện.

Hình 1.2: Các vấn đề phương pháp Weak Supervision giải quyết

Khi ứng dụng các mô hình NER vào bài toán thực tế với ngôn ngữ tiếng Việt,đa phần ta đều gặp phải đồng thời cả ba thách thức trên, điều này khiến cho cáchệ thống xử lý ngôn ngữ tự nhiên với tiếng Việt có hiệu suất kém hoặc tốn chiphí cao cho việc gán nhãn.

Để khắc phục các vấn đề trên, Weak Supervision là một trong những giải

pháp được đề xuất bởi các nhà nghiên cứu nhằm giải quyết các vấn đề về thời

Trang 14

gian, chi phí và tính khó thay đổi nhãn mà ta vốn luôn gặp phải khi gán nhãnthủ công.

Từ những khó khăn và thách thức trong thực tế mà ta hay gặp phải trongbài toán NER đối với tiếng Việt, tác giả quyết định thực hiện nghiên cứu đề tài

"Nhận dạng thực thể với phương pháp Weak Supervision trong văn bảntiếng Việt".

1.2Mục tiêu của luận văn

Mục tiêu chính của nghiên cứu này là áp dụng phương pháp weak supervisionđể xây dựng một mô hình nhận dạng thực thể chính xác và hiệu quả trong vănbản tiếng Việt nhằm cải thiện hiệu suất và chi phí trong bài toán nhận dạng thựcthể trong văn bản Cụ thể, các mục tiêu nghiên cứu của luận văn này bao gồm:• Tìm hiểu bài toán nhận dạng thực thể trong văn bản, các công trình liên quan,

các phương pháp giải quyết bài toán, ưu và nhược điểm của các phương pháp.• Nghiên cứu và phân tích các phương pháp weak supervision.

• Triển khai ứng dụng phương pháp weak supervision vào bài toán nhận diệnthực thể trong tiếng Việt.

• Đánh giá và phân tích hiệu năng của mô hình với tập huấn luyện được sinh ratừ phương pháp weak supervision.

1.3Giới hạn đề tài

Đề tài nghiên cứu sẽ có giới hạn như sau:

• Ngôn ngữ: đề tài tập trung vào việc nhận dạng thực thể trong văn bản tiếngViệt Sự đa dạng và đặc thù của tiếng Việt trong ngữ nghĩa và cấu trúc câuđòi hỏi sự tùy chỉnh và xử lý đặc biệt để đạt được kết quả tốt trong nhận dạngthực thể.

Trang 15

• Phương pháp weak supervision: đề tài tập trung vào áp dụng phương phápweak supervision trong quá trình nhận dạng thực thể Phương pháp này chophép sử dụng dữ liệu không có nhãn chính xác và thông tin weak supervisionđể huấn luyện mô hình nhận dạng thực thể, giảm bớt công sức và chi phí thuthập và gán nhãn.

• Đánh giá hiệu suất: đề tài sẽ thực hiện đánh giá chi tiết về hiệu suất của môhình nhận dạng thực thể dựa trên weak supervision Các chỉ số đánh giá nhưđộ chính xác, độ phủ, độ F1 và các phân tích kết quả sẽ được sử dụng để đánhgiá hiệu quả của mô hình.

• Domain tập dữ liệu: đề tài sẽ được thí nghiệm trên tập dữ liệu về lĩnh vực bấtđộng sản Đây là một lĩnh vực đa dạng và phức tạp, đòi hỏi khả năng xử lýthông tin địa lý, thông tin về căn hộ, nhà đất, dự án, giá cả, và các thông tinliên quan khác Với việc thực hiện thí nghiệm trên một lĩnh vực đặc thù, đề tàisẽ được gần sát với thực tế, khi nhãn của tập dữ liệu cũng đặc thù và yêu cầuphải thủ công gán nhãn cho toàn bộ tập dữ liệu để xây dựng mô hình cho bàitoán.

1.4Ý nghĩa của luận văn

Ngày nay, các mô hình xử lý ngôn ngữ càng ngày càng đạt được hiệu năngvượt bật trong các tác vụ nhờ vào sự phát triển của học sâu Tuy nhiên khi ứngdụng những mô hình này vào các bài toán tiếng Việt, đặc biệt là trong các lĩnhvực đặc thù, thì hiệu suất của mô hình bị suy giảm do thiếu nhãn hoặc chi phíđể gán nhãn và xây dựng mô hình rất cao Vì vậy, tôi chọn đề tài này với mongmuốn:

• Nâng cao khả năng xử lý ngôn ngữ tự nhiên tiếng Việt: Luận văn này đónggóp vào việc phát triển các phương pháp và mô hình nhận dạng thực thể trongngôn ngữ tự nhiên tiếng Việt Việc xử lý và nhận dạng chính xác các thực thểtrong văn bản tiếng Việt có ý nghĩa quan trọng trong các ứng dụng xử lý ngônngữ tự nhiên.

Trang 16

• Giảm công sức và chi phí gán nhãn cho dữ liệu: Phương pháp weak sion trong nhận dạng thực thể giúp giảm công sức và chi phí trong việc thuthập dữ liệu nhãn ground truth.

supervi-• Đóng góp vào việc xử lý ngôn ngữ tiếng Việt trong lĩnh vực bất động sản:Việc nhận dạng thực thể trong lĩnh vực bất động sản đóng vai trò quan trọngtrong việc tổ chức thông tin, tìm kiếm, và phân tích dữ liệu liên quan đến thịtrường bất động sản Luận văn này cung cấp một phương pháp và mô hìnhnhận dạng thực thể dựa trên weak supervision đối với văn bản bất động sảntiếng Việt.

1.5Tóm tắt nội dung

Nội dung của luận văn bao gồm 5 chương:

• Chương 1: GIỚI THIỆU ĐỀ TÀI: Giới thiệu về bài toán, những vấn đề còn

tồn đọng và mục tiêu, giới hạn, ý nghĩa của luận văn.

• Chương 2: CƠ SỞ KIẾN THỨC: Nói về cơ sở kiến thức cơ bản đã được sử

dụng trong luận văn như ANN, HMM, phương pháp weak supervision.

• Chương 3: CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN: Phân tích, đánh

giá các công trình nghiên cứu đã có của các tác giả liên quan mật thiết đến bàitoán nhận diện thực thể trong văn bản và phương pháp weak supervision.

• Chương 4: TRÌNH BÀY, ĐÁNH GIÁ, BÀN LUẬN KẾT QUẢ: Trình bày

về thí nghiệm đã tiến hành với phương pháp weak supervision trong văn bảntiếng Việt với bài toán nhận diện thực thể.

• Chương 5: KẾT LUẬN VÀ HƯỚNG MỞ RỘNG ĐỀ TÀI: Tổng kết các

đóng góp của luận văn, các vấn đề còn tồn tại và nói về hướng nghiên cứutrong tương lai.

Trang 17

Chương 2

Cơ sở kiến thức

2.1Mô hình Artificial Neural Network - ANN

Mô hình Artificial Neural Network[2] hay còn gọi là mạng nơ-ron nhân tạo

là một mô hình toán học hay mô hình tính toán dựa trên cấu trúc và cách hoạtđộng của mạng nơ-ron sinh học ở người và động vật.

Hình 2.1: Nơ-ron sinh học

Một tế bào nơ-ron thường sẽ bao gồm các thành phần chính:

• Dendrite: giúp tế bào nhận tín hiệu từ các tế bào thần kinh khác.

• Soma(thân tế bào): làm nhiệm vụ tổng hợp tất cả các tín hiệu từ các đầu vào.• Axon: khi tín hiệu tổng hợp đạt đến giá trị ngưỡng, nơ-ron kích hoạt và tín

hiệu được truyền xuống sợi trục đến các nơ-ron khác.

Trang 18

• Axon terminals: Điểm kết nối của một tế bào thần kinh với các tế bào thần

kinh khác Lượng tín hiệu được truyền phụ thuộc vào cường độ (trọng số củakhớp thần kinh) của các kết nối.

Mô phỏng theo cấu tạo của tế bào thần kinh, perceptron là một thành phần

cơ bản trong mạng ANN, nhận các giá trị đầu vào và cho ra một kết quả duynhất Các giá trị đầu vào x1, x2, x3 có tính quan trọng khác nhau, sẽ lần lượtđược nhân với các trọng số tương ứng w1, w2, w3 Sau đó được cộng lại ra một

kết quả z Và cuối cùng z được đưa vào một hàm kích hoạt (activation function)

để tạo ra kết quả cuối cùng y cho perceptron.

Hình 2.2: Perceptron

Chi tiết hơn, công thức tính toán kết quả z:z=

Để tính được một kết quả cuối cùng, z phải được đưa vào một hàm kích hoạt,

hàm này là một hàm phi tuyến như hàm sigmoid, tanh, ReLU

Trang 19

Hình 2.3: Một số hàm kích hoạt

Mạng nơ-ron nhân tạo là sự kết hợp các tầng perceptron tạo thành mạng

nhiều đa tầng perceptron (multiple-layer perceptron) Một kiến trúc cơ bản của

mô hình ANN bao gồm:

• Tầng đầu vào (input layer): là tầng nhậ dữ liệu đầu vào của mạng.

• Tầng đầu ra (output layer): là tầng sẽ trả về kết quả sau khi tính toán của

• Tầng ẩn (hidden layer): là tầng nằm giữa tầng đầu vào và tầng đầu ra thể hiện

cho việc suy luận logic của mạng Một mạng nơ-ron nhân tạo chỉ có 1 tầngđầu vào và 1 tầng đầu ra nhưng có thể có nhiều tầng ẩn.

Trong mô hình ANN, ở mỗi nút mạng có thể sử dụng các hàm kích hoạt khácnhau, tuy nhiên trong thực tế thường chỉ sử dụng một hàm kích hoạt Ở mỗitầng, số lượng nút mạng là bất kỳ, và không có giới hạn đối với số lượng tầngtrong mạng.

Hình 2.4: Kiến trúc cơ bản mô hình ANN

Trang 20

2.2Mô hình Hidden Markov Models - HMM

Hidden Markov Models hay còn gọi mô hình Markov ẩn là một mô hìnhthống kê dựa trên chuỗi Markov Một chuỗi Markov là một mô hình cho biết

thông tin về xác suất của một chuỗi các biến ngẫu nhiên mà các biến này với

giá trị là các trạng thái, ví dụ như trạng thái thời tiết của mỗi ngày như: mưa,

nắng, có mây Chuỗi Markov mang lại khả năng dự đoán giá trị trạng thái tươnglai trong chuỗi, tất cả những gì quan trọng là trạng thái hiện tại Các trạng tháitrước trạng thái hiện tại không có tác động đến tương lai ngoại trừ thông quatrạng thái hiện tại Chẳng hạn như để dự đoán thời tiết ngày mai, ta có thể kiểmtra thời tiết của ngày hôm nay nhưng ta không được phép xem thời tiết của ngàyhôm qua.

Hình 2.5: Ví dụ về chuỗi markov và ma trận chuyển đổi trạng thái

Một chuỗi Markov sẽ bao gồm 3 thành phần:

• Không gian trạng thái: là một tập hợp S các trạng thái của một chuỗi Markov.

Ví dụ như S = {mưa, nắng, có mây}

• Ma trận chuyển xác suất (transition probability matrix): là một ma trận A thể

hiện cho xác suất chuyển giữa các trạng thái trong chuỗi Markov.

Trang 21

Mô hình Markov ẩn không trực tiếp tính toán trên các trạng thái như chuỗi

Markov, mà tính toán thông qua các chuỗi các sự kiện quan sát được Ví dụ như

trong thực tế ta thường không thể nhìn thấy trực tiếp các thực thể trong câu, màta chỉ thấy thể hiện qua các từ Một mô hình Markov ẩn sẽ bao gồm các thànhphần:

• Các quan sát: là một chuỗi các quan sát O = (o1, o2, , on) thu thập dựa trênquan sát thực tế.

• Chuỗi Markov ẩn: là một chuỗi Markov nhưng không quan sát được trong

thực tế.

• Xác suất phụ thuộc trạng thái (emission probability): biểu diễn cho xác suất

một quan sát ot đến từ trạng thái ẩn st, tập hợp tất cả các xác suất này làB= bi(oi).

Hình 2.6: Ví dụ về mô hình HMM

Thông thường, mô hình Markov ẩn được phân loại thành ba vấn đề cơ bản:likelihood, decoding và learning.

Likelihood (The Forward Algorithm): với HMM λ = (A, B) và một chuỗi

quan sát O, cần xác định likelihood P(O|λ ).

Decoding: Nhận vào chuỗi quan sát O và một mô hình HMM λ = (A, B),

tìm ra chuỗi trạng thái ẩn tốt nhất Q

Learning: Nhận vào chuỗi quan sát O và một tập các trạng thái trong HMM,

học các thông số của mô hình HMM A và B.

Trang 22

2.3Phương pháp Weak Supervision

Học giám sát yếu (Weak Supervision) là một nhánh của học máy trong đócác nguồn nhiễu, hạn chế hoặc không chính xác được sử dụng để cung cấp thôngtin giám sát nhằm gắn nhãn một lượng lớn dữ liệu huấn luyện trong việc cài đặthọc có giám sát Cách tiếp cận này giảm bớt gánh nặng của việc thu thập các tậpdữ liệu được gắn nhãn bằng tay, vốn có thể tốn kém hoặc không thực tế Thay

vào đó, các nhãn yếu rẻ tiền được sử dụng với sự hiểu biết rằng chúng không

hoàn hảo, nhưng vẫn có thể được sử dụng để tạo ra một mô hình dự đoán cóhiệu suất tốt.

Một trong những kết quả chính của học giám sát yếu đó việc tạo ra các nhãn

yếu Và data programming[3] là một phương pháp nổi tiếng đã được đề xuất để

hỗ trợ việc tạo ra nhãn yếu Bằng việc sử dụng kết hợp giữa lập trình và cácheuristic, data programming có thể gán nhãn cho toàn bộ tập dữ liệu Sau khi có

được nhãn từ các nguồn heuristic khác nhau, label model (aggregation model)

là mô hình được sử dụng nhằm tổng hợp ra nhãn yếu Cuối cùng, dựa vào tậpdữ liệu với nhãn yếu này, một mô hình với sức mạnh tổng quát hóa - end model,được huấn luyện trên các nhãn yếu với mục tiêu có thể ứng dụng trong các tácvụ thực tế.

Tóm lại, có ba bước chính để hiện thực weak supervision trên một tập dữliệu:

1 Viết các label function (lf): một label function có thể là một function bất kỳ

được viết bằng một ngôn ngữ lập trình, nhận vào một mẫu dữ liệu và sử dụngmột luật, heuristic, logic để sinh ra nhãn cho mẫu dữ liệu đó.

2 Tổng hợp các nhãn yếu với label model: giả sử ta có m dòng dữ liệu và n labelfunction, khi thực thi thì tất cả có m × n nhãn được sinh ra (với điều kiện mộtlabel function sẽ sinh ra duy nhất một nhãn cho một mẫu dữ liệu) Như vậy,cần phải tổng hợp kết quả của n label function để cuối cùng chỉ có một nhãn

cho một mẫu dữ liệu Mô hình Majority Voting là một trong những cách tổng

hợp nhãn đơn giản nhất Tuy nhiên, có một số mô hình khác tốt hơn được đề

Trang 23

nhãn như hidden markov model.

3 Huấn luyện end model: kết quả của label model được sử dụng như là tập huấnluyện nhằm để tinh chỉnh các mô hình cuối Những mô hình này thường sửdụng các mô hình học sâu như LSTM, GRU, BERT với sức mạnh tổng quáthóa vốn rất hiệu quả trên các dữ liệu nhiễu, sẽ được huấn luyện và được sửdụng cho các tác vụ thực tế.

Hình 2.7: Phương pháp Weak Supervision

Trang 24

Chương 3

Công trình nghiên cứu liên quan

Nhận dạng thực thể trong văn bản là một tác vụ đã xuất hiện từ lâu và đạtđược rất nhiều thành tựu trong những công trình nghiên cứu đến từ các hướngtiếp cận khác nhau:

Hình 3.1: Sự phát triển của các phương pháp từ Expert System (Rule base) cho đến MachineLearning Representation Learning

3.1Hướng tiếp cận rule based

Các hệ thống NER dựa trên knowledge based hay rule based không cần các

Trang 25

tri thức hay tập luật được thu thập của một lĩnh vực Chẳng hạn như ITALL[1] là một hệ thống tự động hóa quá trình trích xuất thông tin từ các tậphợp lớn trên Web một cách không giám sát, độc lập với lĩnh vực và có khả năngmở rộng KNOWITALL tập trung vào một vấn đề con của việc trích xuất thôngtin, đó là xây dựng danh sách các thực thể được đặt tên được tìm thấy trên Web,chẳng hạn như các trường hợp của lớp City hoặc lớp Film Một trong nhữngkỹ thuật được sử dụng trong hệ thống này là pattern matching, dựa trên nhữngpattern được định nghĩa trước, hệ thống sẽ tự động trích xuất ra thực thể tươngứng Ví dụ như pattern “NP1 such as NPList2” chỉ ra rằng với mỗi một phần tửcụm danh từ (NP) nằm trong NPList2 sẽ thuộc về cùng một loại thực thể củaNP1 Khi thực thi pattern trên câu "We provide tours to cities such as Paris,London, and Berlin”, KNOWITALL sẽ trích xuất ra được 3 thực thể thành phốgồm Paris, London và Berlin.

KNOW-Phương pháp này sẽ hoạt động tốt nếu tập từ vựng hay luật được thu thậpđược vét cạn trong lĩnh vực sử dụng nhưng sẽ không hiệu quả số lượng từ vựng

và luật không đủ bao phủ Những hệ thống này sẽ có precision cao nhưng recall

thấp do từ vựng thường giới hạn trong lĩnh vực hay ngôn ngữ cụ thể Ngoài ra,để xây dựng và duy trì các nguồn dữ liệu tri thức này cần phải có sự hỗ trợ từcác chuyên gia trong lĩnh vực.

3.2Hướng tiếp cận feature based

Hướng tiếp cận feature based[?] (dựa trên đặc trưng) với học có giám sát là

một hướng tiếp cận cải tiến hơn so với rule based, NER được chuyển đổi thànhmột tác vụ phân loại từng từ hay một chuỗi thuộc về một loại thực thể nào đó.Với các mẫu được gán nhãn, các đặc trưng được thiết kế kỹ lưỡng để có thể biểudiễn được cho tất cả dữ liệu trong tập huấn luyện.

Từ đó, các thuật toán học máy (machine learning) được sử dụng như là môhình để học các pattern trong dữ liệu nhằm phân loại thực thể của từng từ.

Feature engineering là một tác vụ quan trọng trong hướng tiếp cận này, văn bảnbiểu diễn sẽ được biểu diễn thành các vector thông qua việc chọn lựa đặc trưng,chẳng hạn như các từ nào được viết hoa ở chữ cái đầu tiên sẽ mang giá trị 1,

Trang 26

ngược lại mang giá trị 0, tương tự nếu ta thêm các feature khác, cuối cùng mỗitừ sẽ là một vector được xem như là một biểu diễn của từ đó trong câu.

Dựa vào những đặc trưng này, nhiều thuật toán máy học đã được áp dụng đểphân loại nhãn thực thể cho từng từ như Hidden Markov Models (HMM), Deci-sion Trees, Maximum Entropy Models[4], Support Vector Machines(SVM)[5],Conditional Random Fields (CRF)[6] Hướng tiếp cận này giúp thay thế việctạo ra các luật thủ công và mang tính tổng quát hơn do có khả năng áp dụngrộng rãi trong các lĩnh vực.

3.3Hướng tiếp cận học sâu

Gần đây, với sự phát triển mạnh mẽ từ học sâu, hàng loạt các mô hìnhđược công bố như LSTM (Long Short Term Memory)[7], Gated Recurrent Unit(GRU)[8], transformer[9], BERT[10] đã mang lại thành tựu to lớn cho lĩnhvực xử lý ngôn ngữ tự nhiên, trong đó có bài toán nhận dạng thực thể trong vănbản Do khả năng tự động học các biểu diễn trên nhiều domain và tác vụ ấntượng, chúng đã loại bỏ phần lớn nhiệm vụ của feature engineering.

Hình 3.2: Kiến trúc cơ bản của mô hình học sâu trong bài toán NER [11]