ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
——————–
HOÀNG ĐĂNG KHOA
NHẬN DẠNG THỰC THỂ
VỚI PHƯƠNG PHÁP WEAK SUPERVISIONTRONG VĂN BẢN TIẾNG VIỆT
Chuyên ngành: KHOA HỌC MÁY TÍNHMã số: 8480101
LUẬN VĂN THẠC SĨ
Trang 2ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
——————–
HOÀNG ĐĂNG KHOA
NHẬN DẠNG THỰC THỂ
VỚI PHƯƠNG PHÁP WEAK SUPERVISIONTRONG VĂN BẢN TIẾNG VIỆT
Chuyên ngành: KHOA HỌC MÁY TÍNHMã số: 8480101
Trang 3CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠITRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG-HCM
Cán bộ hướng dẫn khoa học:PGS.TS Quản Thành ThơCán bộ chấm nhận xét 1:TS Lê Thanh VânCán bộ chấm nhận xét 2:PGS.TS Đỗ Văn Nhơn
Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp.HCMngày 10 tháng 07 năm 2023.
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, họcvị của Hội đồng chấm bảo vệ luận văn thạc sĩ)
1 Chủ tịch: PGS.TS Phạm Trần Vũ2 Thư ký: TS Nguyễn Lê Duy Lai3 Phản biện 1: TS Lê Thanh Vân4 Phản biện 2: PGS.TS Đỗ Văn Nhơn5 Uỷ viên: TS Mai Hoàng Bảo Ân
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyênngành sau khi luận văn đã được sửa chữa (nếu có).
Trang 4ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
——————–
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAMĐộc lập - Tự do - Hạnh phúc
——————–
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: HOÀNG ĐĂNG KHOANgày, tháng, năm sinh: 06/06/1994Chuyên ngành: Khoa học Máy tính
MSHV: 2070103Nơi sinh: Đồng NaiMã số : 8480101
I TÊN ĐỀ TÀI: NHẬN DẠNG THỰC THỂ VỚI PHƯƠNG PHÁP WEAKSUPERVISION TRONG VĂN BẢN TIẾNG VIỆT
(NAMED ENTITY RECOGNOTION WITH WEAK SUPERVISION INVIETNAMESE)
II NHIỆM VỤ VÀ NỘI DUNG:
- Nghiên cứu và phân tích các phương pháp weak supervision.
- Triển khai ứng dụng phương pháp weak supervision cho bài toán nhận dạng thực thểtrong văn bản tiếng Việt.
- Thực nghiệm và đánh giá kết quả của phương pháp đề xuất.
III NGÀY GIAO NHIỆM VỤ :06/02/2023
IV NGÀY HOÀN THÀNH NHIỆM VỤ:11/06/2023
V CÁN BỘ HƯỚNG DẪN: PGS.TS Quản Thành Thơ
CÁN BỘ HƯỚNG DẪN(Họ tên và chữ ký)Tp HCM, ngày 11 tháng 06 năm 2023HỘI ĐỒNG NGÀNH(Họ tên và chữ ký)TRƯỞNG KHOA
KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH
Trang 5LỜI CẢM ƠN
Tơi xin chân thành gửi lời cảm ơn sâu sắc đến tất cả những ngườiđã đóng góp và hỗ trợ cho quá trình thực hiện luận văn này.
Đầu tiên, tơi xin gửi lời cảm ơn chân thành đến PGS.TS QuảnThành Thơ, thầy đã dành thời gian, kiến thức và tận tâm góp ý trongsuốt quá trình nghiên cứu và viết luận văn Sự chỉ dạy và sự hỗ trợchân thành của thầy đã là nguồn động lực lớn để tôi vượt qua các khókhăn và hồn thành luận văn này.
Tơi cũng xin bày tỏ lòng biết ơn đến các giáo viên đã truyền đạtnhững kiến thức quý báu và tạo điều kiện tốt nhất cho quá trình họctập và nghiên cứu của tôi Những kiến thức và kỹ năng mà tôi đã đượchọc là quan trọng và có ý nghĩa vơ cùng trong sự phát triển cá nhânvà cũng là nền tảng hỗ trợ cho tơi hồn thành luận văn này.
Tơi khơng thể không đề cập đến sự giúp đỡ từ gia đình, bạn bè vànhững đồng nghiệp cơng ty Bosch Những lời động viên, sự tin tưởngvà tình cảm của họ đã là nguồn động lực mạnh mẽ giúp tôi vượt quakhó khăn và hồn thành luận văn này.
Trang 6TĨM TẮT LUẬN VĂN
Bài tốn nhận dạng thực thể trong văn bản đã trải qua một quá trìnhphát triển dài, với nhiều cơng trình nghiên cứu đã được cơng bố nhằmcải thiện hiệu suất của các mơ hình Đặc biệt, sự phát triển đáng kể củacác mơ hình học sâu đã đạt đến một mức bão hòa trong việc nâng caohiệu suất Tuy nhiên, với phương pháp học sâu, các mơ hình rất phụthuộc vào dữ liệu đã được gán nhãn, và điều này đặt ra một thách thứclớn trong việc tăng chi phí cho việc gán nhãn thủ công cho tập dữ liệu,đặc biệt là khi áp dụng cho các tác vụ đặc thù hoặc ngôn ngữ khác vớingơn ngữ mà mơ hình đã được huấn luyện ban đầu.
Để giải quyết vấn đề này, đã có nhiều phương pháp được đề xuất,trong đó phương pháp Weak Supervision đã thu hút sự quan tâm.Phương pháp này cho phép tiết kiệm chi phí trong việc gán nhãn bằngcách sử dụng thông tin tri thức từ các chuyên gia trong lĩnh vực để gánnhãn cho toàn bộ tập huấn luyện Điều này giúp cải thiện quá trình gánnhãn và nâng cao hiệu suất của mơ hình nhận dạng thực thể mà khơngphụ thuộc hồn tồn vào việc gán nhãn thủ công từng mẫu dữ liệu.
Trang 7ABSTRACT OF DISSERTATION
The named entity recognition task has been developed for a longtime, with numerous research studies published to improve the perfor-mance of models Particularly, significant advancements in deep learn-ing models have reached a saturation point in improvlearn-ing performance.However, deep learning methods heavily rely on labeled data, posing amajor challenge in terms of the cost of manually labeling datasets, es-pecially when applied to domain-specific tasks or the applied languagedifferent from the original training language.
To address this issue, several methods have been proposed, amongwhich Weak Supervision has garnered attention This method allows forcost savings in labeling by leveraging domain knowledge from experts tolabel the entire training dataset This helps improve the labeling processand enhance the performance of model without solely relying on manuallabeling for each individual data point.
Trang 8LỜI CAM ĐOAN
Tôi xin cam đoan luận văn tốt nghiệp: “NHẬN DẠNG THỰC THỂVỚI PHƯƠNG PHÁP WEAK SUPERVISION TRONG VĂN BẢN TIẾNGVIỆT” là cơng trình nghiên cứu của bản thân Những phần sử dụng tàiliệu tham khảo trong luận văn đã được nêu rõ trong phần tài liệu thamkhảo Các số liệu, kết quả trình bày trong luận văn là hồn tồn trungthực, nếu sai tơi xin chịu hồn tồn trách nhiệm và chịu mọi kỷ luật củabộ môn và nhà trường đề ra.
Học viên
Trang 9Mục lục
1Giới thiệu đề tài1
1.1Giới thiệu đề tài 1
1.2Mục tiêu của luận văn 3
1.3Giới hạn đề tài 3
1.4Ý nghĩa của luận văn 4
1.5Tóm tắt nội dung 5
2Cơ sở kiến thức62.1Mơ hình Artificial Neural Network - ANN 6
2.2Mơ hình Hidden Markov Models - HMM 9
2.3Phương pháp Weak Supervision 11
3Cơng trình nghiên cứu liên quan133.1Hướng tiếp cận rule based .13
3.2Hướng tiếp cận feature based 14
3.3Hướng tiếp cận học sâu 15
3.4Hướng tiếp cận Weak Supervision 17
3.5Một số hướng tiếp cận khác 21
4Trình bày, đánh giá, bàn luận kết quả234.1Tiền xử lý dữ liệu 24
4.2Phương pháp đánh giá 24
4.3Xây dựng các label function .25
4.4Mơ hình tổng hợp nhãn 30
4.5Mơ hình cuối 30
4.6Bảng tham số pre-trained PhoBERT 34
4.7Kết quả thực nghiệm 34
4.8Thảo luận kết quả 35
5Kết luận và hướng mở rộng đề tài37
Trang 10Danh sách hình vẽ
1.1Ví dụ về bài tốn nhận dạng thực thể trong văn bản 1
1.2Các vấn đề phương pháp Weak Supervision giải quyết 2
2.1Nơ-ron sinh học 6
2.2Perceptron 7
2.3Một số hàm kích hoạt 8
2.4Kiến trúc cơ bản mơ hình ANN 8
2.5Ví dụ về chuỗi markov và ma trận chuyển đổi trạng thái .9
2.6Ví dụ về mơ hình HMM .10
2.7Phương pháp Weak Supervision 12
3.1Sự phát triển của các phương pháp từ Expert System (Rule base) cho đến Ma-chine Learning Representation Learning 13
3.2Kiến trúc cơ bản của mơ hình học sâu trong bài toán NER [11] 15
3.3Mơ hình tổng hợp nhãn từ crownsourcing 17
3.4Data programming 18
3.5Mơ hình weak supervision với data programming 19
3.6Mơ hình tổng hợp nhãn HMM [14] 20
3.7Một số hướng tiếp cận khác liên quan đến phương pháp Weak Supervision .21
4.1Mơ hình đề xuất 23
4.2Đánh giá hiệu suất các label function với chỉ số Precision, Recall và F1 28
4.3Đánh giá hiệu suất các label function với chỉ số Overlap 28
4.4Đánh giá hiệu suất các label function với chỉ số Conflict .29
4.5Bước xây dựng tập huấn luyện với mơ hình tổng hợp nhãn 30
4.6Mơ hình tổng hợp nhãn với HMM 32
4.7Quy trình huấn luyện pre-trained model PhoBERT .32
Trang 11Danh sách bảng
4.1Bảng phân loại phương pháp xây dựng label function 25
4.2Bảng tham số pre-trained model PhoBERT .34
4.3Bảng chi tiết thí nghiệm .35
4.4Bảng kết quả thí nghiệm 35
Trang 12Chương 1
Giới thiệu đề tài
1.1Giới thiệu đề tài
Nhận dạng thực thể trong văn bản (Named Entity Recognition - NER) là một
trong những tác vụ được dùng rất nhiều trong xử lý ngôn ngữ tự nhiên nhằmxác định và phân loại một chuỗi trong một đoạn văn bản thuộc về tên người, tổchức, vị trí đã được định nghĩa trước.
Hình 1.1: Ví dụ về bài tốn nhận dạng thực thể trong văn bản
Trang 13cận mang lại hiệu quả cao hơn như feature-engineering, máy học và sau đó vớisự bùng nổ của học sâu (deep learning), các mô hình NER dựa trên học sâu đã
đạt đến mức bão hịa về hiệu suất.
Mặc dù các mơ hình đã đạt được thành tựu vượt trội về hiệu năng, tuy nhiêntác vụ NER vẫn còn tồn tại nhiều thách thức khi đưa vào ứng dụng thực tế như:• Ngơn ngữ: hầu hết các mơ hình hiệu suất cao hiện tại đều được huấn luyệntrên tập dữ liệu tiếng Anh, việc chuyển sang ngơn ngữ khác như Tiếng Việtđịi hỏi việc huấn luyện lại mơ hình trên một tập dữ liệu cùng ngơn ngữ.• Domain: tương tự với thách thức ngơn ngữ, các mơ hình đa phần đều được xây
dựng để xác định các thực thể trong một domain nhất định, khi ứng dụng sangmột domain khác, mơ hình phải được huấn luyện lại trên trên cùng domain.• Nhãn: các phương pháp mang lại hiệu suất cao hiện tại hầu hết đến từ hướng
tiếp cận học có giám sát (supervised learning), nên các mơ hình đều cần một
lượng nhãn rất lớn để huấn luyện.
Hình 1.2: Các vấn đề phương pháp Weak Supervision giải quyết
Khi ứng dụng các mơ hình NER vào bài tốn thực tế với ngơn ngữ tiếng Việt,đa phần ta đều gặp phải đồng thời cả ba thách thức trên, điều này khiến cho cáchệ thống xử lý ngôn ngữ tự nhiên với tiếng Việt có hiệu suất kém hoặc tốn chiphí cao cho việc gán nhãn.
Để khắc phục các vấn đề trên, Weak Supervision là một trong những giải
Trang 14gian, chi phí và tính khó thay đổi nhãn mà ta vốn luôn gặp phải khi gán nhãnthủ cơng.
Từ những khó khăn và thách thức trong thực tế mà ta hay gặp phải trongbài toán NER đối với tiếng Việt, tác giả quyết định thực hiện nghiên cứu đề tài
"Nhận dạng thực thể với phương pháp Weak Supervision trong văn bảntiếng Việt".
1.2Mục tiêu của luận văn
Mục tiêu chính của nghiên cứu này là áp dụng phương pháp weak supervisionđể xây dựng một mơ hình nhận dạng thực thể chính xác và hiệu quả trong vănbản tiếng Việt nhằm cải thiện hiệu suất và chi phí trong bài toán nhận dạng thựcthể trong văn bản Cụ thể, các mục tiêu nghiên cứu của luận văn này bao gồm:• Tìm hiểu bài tốn nhận dạng thực thể trong văn bản, các cơng trình liên quan,
các phương pháp giải quyết bài toán, ưu và nhược điểm của các phương pháp.• Nghiên cứu và phân tích các phương pháp weak supervision.
• Triển khai ứng dụng phương pháp weak supervision vào bài tốn nhận diệnthực thể trong tiếng Việt.
• Đánh giá và phân tích hiệu năng của mơ hình với tập huấn luyện được sinh ratừ phương pháp weak supervision.
1.3Giới hạn đề tài
Đề tài nghiên cứu sẽ có giới hạn như sau:
Trang 15• Phương pháp weak supervision: đề tài tập trung vào áp dụng phương phápweak supervision trong quá trình nhận dạng thực thể Phương pháp này chophép sử dụng dữ liệu khơng có nhãn chính xác và thơng tin weak supervisionđể huấn luyện mơ hình nhận dạng thực thể, giảm bớt cơng sức và chi phí thuthập và gán nhãn.
• Đánh giá hiệu suất: đề tài sẽ thực hiện đánh giá chi tiết về hiệu suất của mơhình nhận dạng thực thể dựa trên weak supervision Các chỉ số đánh giá nhưđộ chính xác, độ phủ, độ F1 và các phân tích kết quả sẽ được sử dụng để đánhgiá hiệu quả của mơ hình.
• Domain tập dữ liệu: đề tài sẽ được thí nghiệm trên tập dữ liệu về lĩnh vực bấtđộng sản Đây là một lĩnh vực đa dạng và phức tạp, đòi hỏi khả năng xử lýthông tin địa lý, thông tin về căn hộ, nhà đất, dự án, giá cả, và các thơng tinliên quan khác Với việc thực hiện thí nghiệm trên một lĩnh vực đặc thù, đề tàisẽ được gần sát với thực tế, khi nhãn của tập dữ liệu cũng đặc thù và yêu cầuphải thủ công gán nhãn cho tồn bộ tập dữ liệu để xây dựng mơ hình cho bàitốn.
1.4Ý nghĩa của luận văn
Ngày nay, các mơ hình xử lý ngơn ngữ càng ngày càng đạt được hiệu năngvượt bật trong các tác vụ nhờ vào sự phát triển của học sâu Tuy nhiên khi ứngdụng những mơ hình này vào các bài tốn tiếng Việt, đặc biệt là trong các lĩnhvực đặc thù, thì hiệu suất của mơ hình bị suy giảm do thiếu nhãn hoặc chi phíđể gán nhãn và xây dựng mơ hình rất cao Vì vậy, tơi chọn đề tài này với mongmuốn:
Trang 16• Giảm cơng sức và chi phí gán nhãn cho dữ liệu: Phương pháp weak supervi-sion trong nhận dạng thực thể giúp giảm công sức và chi phí trong việc thuthập dữ liệu nhãn ground truth.
• Đóng góp vào việc xử lý ngơn ngữ tiếng Việt trong lĩnh vực bất động sản:Việc nhận dạng thực thể trong lĩnh vực bất động sản đóng vai trị quan trọngtrong việc tổ chức thơng tin, tìm kiếm, và phân tích dữ liệu liên quan đến thịtrường bất động sản Luận văn này cung cấp một phương pháp và mô hìnhnhận dạng thực thể dựa trên weak supervision đối với văn bản bất động sảntiếng Việt.
1.5Tóm tắt nội dung
Nội dung của luận văn bao gồm 5 chương:
• Chương 1: GIỚI THIỆU ĐỀ TÀI: Giới thiệu về bài toán, những vấn đề còn
tồn đọng và mục tiêu, giới hạn, ý nghĩa của luận văn.
• Chương 2: CƠ SỞ KIẾN THỨC: Nói về cơ sở kiến thức cơ bản đã được sử
dụng trong luận văn như ANN, HMM, phương pháp weak supervision.
• Chương 3: CƠNG TRÌNH NGHIÊN CỨU LIÊN QUAN: Phân tích, đánh
giá các cơng trình nghiên cứu đã có của các tác giả liên quan mật thiết đến bàitoán nhận diện thực thể trong văn bản và phương pháp weak supervision.
• Chương 4: TRÌNH BÀY, ĐÁNH GIÁ, BÀN LUẬN KẾT QUẢ: Trình bày
về thí nghiệm đã tiến hành với phương pháp weak supervision trong văn bảntiếng Việt với bài toán nhận diện thực thể.
• Chương 5: KẾT LUẬN VÀ HƯỚNG MỞ RỘNG ĐỀ TÀI: Tổng kết các
Trang 17Chương 2
Cơ sở kiến thức
2.1Mơ hình Artificial Neural Network - ANN
Mơ hình Artificial Neural Network[2] hay cịn gọi là mạng nơ-ron nhân tạo
là một mơ hình tốn học hay mơ hình tính tốn dựa trên cấu trúc và cách hoạtđộng của mạng nơ-ron sinh học ở người và động vật.
Hình 2.1: Nơ-ron sinh học
Một tế bào nơ-ron thường sẽ bao gồm các thành phần chính:
• Dendrite: giúp tế bào nhận tín hiệu từ các tế bào thần kinh khác.
• Soma(thân tế bào): làm nhiệm vụ tổng hợp tất cả các tín hiệu từ các đầu vào.• Axon: khi tín hiệu tổng hợp đạt đến giá trị ngưỡng, nơ-ron kích hoạt và tín
Trang 18• Axon terminals: Điểm kết nối của một tế bào thần kinh với các tế bào thần
kinh khác Lượng tín hiệu được truyền phụ thuộc vào cường độ (trọng số củakhớp thần kinh) của các kết nối.
Mô phỏng theo cấu tạo của tế bào thần kinh, perceptron là một thành phần
cơ bản trong mạng ANN, nhận các giá trị đầu vào và cho ra một kết quả duynhất Các giá trị đầu vào x1, x2, x3 có tính quan trọng khác nhau, sẽ lần lượtđược nhân với các trọng số tương ứng w1, w2, w3 Sau đó được cộng lại ra một
kết quả z Và cuối cùng z được đưa vào một hàm kích hoạt (activation function)
để tạo ra kết quả cuối cùng y cho perceptron.
Hình 2.2: Perceptron
Chi tiết hơn, cơng thức tính tốn kết quả z:z=
d∑i=0
wixi= wTx (2.1)
Để tính được một kết quả cuối cùng, z phải được đưa vào một hàm kích hoạt,
Trang 19Hình 2.3: Một số hàm kích hoạt
Mạng nơ-ron nhân tạo là sự kết hợp các tầng perceptron tạo thành mạng
nhiều đa tầng perceptron (multiple-layer perceptron) Một kiến trúc cơ bản của
mơ hình ANN bao gồm:
• Tầng đầu vào (input layer): là tầng nhậ dữ liệu đầu vào của mạng.
• Tầng đầu ra (output layer): là tầng sẽ trả về kết quả sau khi tính tốn của
mạng.
• Tầng ẩn (hidden layer): là tầng nằm giữa tầng đầu vào và tầng đầu ra thể hiện
cho việc suy luận logic của mạng Một mạng nơ-ron nhân tạo chỉ có 1 tầngđầu vào và 1 tầng đầu ra nhưng có thể có nhiều tầng ẩn.
Trong mơ hình ANN, ở mỗi nút mạng có thể sử dụng các hàm kích hoạt khácnhau, tuy nhiên trong thực tế thường chỉ sử dụng một hàm kích hoạt Ở mỗitầng, số lượng nút mạng là bất kỳ, và khơng có giới hạn đối với số lượng tầngtrong mạng.
Trang 202.2Mô hình Hidden Markov Models - HMM
Hidden Markov Models hay cịn gọi mơ hình Markov ẩn là một mơ hìnhthống kê dựa trên chuỗi Markov Một chuỗi Markov là một mô hình cho biết
thơng tin về xác suất của một chuỗi các biến ngẫu nhiên mà các biến này với
giá trị là các trạng thái, ví dụ như trạng thái thời tiết của mỗi ngày như: mưa,
nắng, có mây Chuỗi Markov mang lại khả năng dự đoán giá trị trạng thái tươnglai trong chuỗi, tất cả những gì quan trọng là trạng thái hiện tại Các trạng tháitrước trạng thái hiện tại khơng có tác động đến tương lai ngoại trừ thông quatrạng thái hiện tại Chẳng hạn như để dự đốn thời tiết ngày mai, ta có thể kiểmtra thời tiết của ngày hôm nay nhưng ta không được phép xem thời tiết của ngàyhơm qua.
Hình 2.5: Ví dụ về chuỗi markov và ma trận chuyển đổi trạng thái
Một chuỗi Markov sẽ bao gồm 3 thành phần:
• Khơng gian trạng thái: là một tập hợp S các trạng thái của một chuỗi Markov.
Ví dụ như S = {mưa, nắng, có mây}
• Ma trận chuyển xác suất (transition probability matrix): là một ma trận A thể
hiện cho xác suất chuyển giữa các trạng thái trong chuỗi Markov.
Trang 21Mơ hình Markov ẩn khơng trực tiếp tính tốn trên các trạng thái như chuỗi
Markov, mà tính tốn thơng qua các chuỗi các sự kiện quan sát được Ví dụ như
trong thực tế ta thường khơng thể nhìn thấy trực tiếp các thực thể trong câu, màta chỉ thấy thể hiện qua các từ Một mơ hình Markov ẩn sẽ bao gồm các thànhphần:
• Các quan sát: là một chuỗi các quan sát O = (o1, o2, , on) thu thập dựa trênquan sát thực tế.
• Chuỗi Markov ẩn: là một chuỗi Markov nhưng khơng quan sát được trong
thực tế.
• Xác suất phụ thuộc trạng thái (emission probability): biểu diễn cho xác suất
một quan sát ot đến từ trạng thái ẩn st, tập hợp tất cả các xác suất này làB= bi(oi).
Hình 2.6: Ví dụ về mơ hình HMM
Thơng thường, mơ hình Markov ẩn được phân loại thành ba vấn đề cơ bản:likelihood, decoding và learning.
Likelihood (The Forward Algorithm): với HMM λ = (A, B) và một chuỗi
quan sát O, cần xác định likelihood P(O|λ ).
Decoding: Nhận vào chuỗi quan sát O và một mơ hình HMM λ = (A, B),
tìm ra chuỗi trạng thái ẩn tốt nhất Q
Learning: Nhận vào chuỗi quan sát O và một tập các trạng thái trong HMM,
Trang 222.3Phương pháp Weak Supervision
Học giám sát yếu (Weak Supervision) là một nhánh của học máy trong đócác nguồn nhiễu, hạn chế hoặc khơng chính xác được sử dụng để cung cấp thơngtin giám sát nhằm gắn nhãn một lượng lớn dữ liệu huấn luyện trong việc cài đặthọc có giám sát Cách tiếp cận này giảm bớt gánh nặng của việc thu thập các tậpdữ liệu được gắn nhãn bằng tay, vốn có thể tốn kém hoặc khơng thực tế Thay
vào đó, các nhãn yếu rẻ tiền được sử dụng với sự hiểu biết rằng chúng khơng
hồn hảo, nhưng vẫn có thể được sử dụng để tạo ra một mơ hình dự đốn cóhiệu suất tốt.
Một trong những kết quả chính của học giám sát yếu đó việc tạo ra các nhãn
yếu Và data programming[3] là một phương pháp nổi tiếng đã được đề xuất để
hỗ trợ việc tạo ra nhãn yếu Bằng việc sử dụng kết hợp giữa lập trình và cácheuristic, data programming có thể gán nhãn cho tồn bộ tập dữ liệu Sau khi có
được nhãn từ các nguồn heuristic khác nhau, label model (aggregation model)
là mơ hình được sử dụng nhằm tổng hợp ra nhãn yếu Cuối cùng, dựa vào tậpdữ liệu với nhãn yếu này, một mơ hình với sức mạnh tổng quát hóa - end model,được huấn luyện trên các nhãn yếu với mục tiêu có thể ứng dụng trong các tácvụ thực tế.
Tóm lại, có ba bước chính để hiện thực weak supervision trên một tập dữliệu:
1 Viết các label function (lf): một label function có thể là một function bất kỳ
được viết bằng một ngôn ngữ lập trình, nhận vào một mẫu dữ liệu và sử dụngmột luật, heuristic, logic để sinh ra nhãn cho mẫu dữ liệu đó.
2 Tổng hợp các nhãn yếu với label model: giả sử ta có m dịng dữ liệu và n labelfunction, khi thực thi thì tất cả có m × n nhãn được sinh ra (với điều kiện mộtlabel function sẽ sinh ra duy nhất một nhãn cho một mẫu dữ liệu) Như vậy,cần phải tổng hợp kết quả của n label function để cuối cùng chỉ có một nhãn
cho một mẫu dữ liệu Mơ hình Majority Voting là một trong những cách tổng
Trang 23nhãn như hidden markov model.
3 Huấn luyện end model: kết quả của label model được sử dụng như là tập huấnluyện nhằm để tinh chỉnh các mơ hình cuối Những mơ hình này thường sửdụng các mơ hình học sâu như LSTM, GRU, BERT với sức mạnh tổng quáthóa vốn rất hiệu quả trên các dữ liệu nhiễu, sẽ được huấn luyện và được sửdụng cho các tác vụ thực tế.
Trang 24Chương 3
Cơng trình nghiên cứu liên quan
Nhận dạng thực thể trong văn bản là một tác vụ đã xuất hiện từ lâu và đạtđược rất nhiều thành tựu trong những cơng trình nghiên cứu đến từ các hướngtiếp cận khác nhau:
Hình 3.1: Sự phát triển của các phương pháp từ Expert System (Rule base) cho đến MachineLearning Representation Learning
3.1Hướng tiếp cận rule based
Trang 25tri thức hay tập luật được thu thập của một lĩnh vực Chẳng hạn như KNOW-ITALL[1] là một hệ thống tự động hóa q trình trích xuất thơng tin từ các tậphợp lớn trên Web một cách không giám sát, độc lập với lĩnh vực và có khả năngmở rộng KNOWITALL tập trung vào một vấn đề con của việc trích xuất thơngtin, đó là xây dựng danh sách các thực thể được đặt tên được tìm thấy trên Web,chẳng hạn như các trường hợp của lớp City hoặc lớp Film Một trong nhữngkỹ thuật được sử dụng trong hệ thống này là pattern matching, dựa trên nhữngpattern được định nghĩa trước, hệ thống sẽ tự động trích xuất ra thực thể tươngứng Ví dụ như pattern “NP1 such as NPList2” chỉ ra rằng với mỗi một phần tửcụm danh từ (NP) nằm trong NPList2 sẽ thuộc về cùng một loại thực thể củaNP1 Khi thực thi pattern trên câu "We provide tours to cities such as Paris,London, and Berlin”, KNOWITALL sẽ trích xuất ra được 3 thực thể thành phốgồm Paris, London và Berlin.
Phương pháp này sẽ hoạt động tốt nếu tập từ vựng hay luật được thu thậpđược vét cạn trong lĩnh vực sử dụng nhưng sẽ không hiệu quả số lượng từ vựng
và luật không đủ bao phủ Những hệ thống này sẽ có precision cao nhưng recall
thấp do từ vựng thường giới hạn trong lĩnh vực hay ngơn ngữ cụ thể Ngồi ra,để xây dựng và duy trì các nguồn dữ liệu tri thức này cần phải có sự hỗ trợ từcác chuyên gia trong lĩnh vực.
3.2Hướng tiếp cận feature based
Hướng tiếp cận feature based[?] (dựa trên đặc trưng) với học có giám sát là
một hướng tiếp cận cải tiến hơn so với rule based, NER được chuyển đổi thànhmột tác vụ phân loại từng từ hay một chuỗi thuộc về một loại thực thể nào đó.Với các mẫu được gán nhãn, các đặc trưng được thiết kế kỹ lưỡng để có thể biểudiễn được cho tất cả dữ liệu trong tập huấn luyện.
Từ đó, các thuật tốn học máy (machine learning) được sử dụng như là mơhình để học các pattern trong dữ liệu nhằm phân loại thực thể của từng từ.
Trang 26ngược lại mang giá trị 0, tương tự nếu ta thêm các feature khác, cuối cùng mỗitừ sẽ là một vector được xem như là một biểu diễn của từ đó trong câu.
Dựa vào những đặc trưng này, nhiều thuật toán máy học đã được áp dụng đểphân loại nhãn thực thể cho từng từ như Hidden Markov Models (HMM), Deci-sion Trees, Maximum Entropy Models[4], Support Vector Machines(SVM)[5],Conditional Random Fields (CRF)[6] Hướng tiếp cận này giúp thay thế việctạo ra các luật thủ cơng và mang tính tổng quát hơn do có khả năng áp dụngrộng rãi trong các lĩnh vực.
3.3Hướng tiếp cận học sâu
Gần đây, với sự phát triển mạnh mẽ từ học sâu, hàng loạt các mơ hìnhđược cơng bố như LSTM (Long Short Term Memory)[7], Gated Recurrent Unit(GRU)[8], transformer[9], BERT[10] đã mang lại thành tựu to lớn cho lĩnhvực xử lý ngôn ngữ tự nhiên, trong đó có bài tốn nhận dạng thực thể trong vănbản Do khả năng tự động học các biểu diễn trên nhiều domain và tác vụ ấntượng, chúng đã loại bỏ phần lớn nhiệm vụ của feature engineering.
Trang 27trong kiến trúc[11]:
• Distributed representationscho phép dữ liệu đầu vào bằng kỹ thuật embed-ding ở mức từ hoặc mức ký tự và có thể kết hợp với một số đặc trưng khác
như POS (part of speech) tag, gazetteer
• Context encoder (mã hóa ngữ cảnh) dùng để nắm bắt được ngữ cảnh trongvăn bản.
• Tag decoder dùng để dự đoán nhãn cho từ hay cụm từ trong câu đưa vào dựatrên kết quả của việc biểu diễn câu đầu vào từ hai thành phần trước.
Tuy đã đạt được các thành tựu to lớn, những mơ hình học sâu được xem lànhững hộp đen, với rất ít quyền kiểm sốt đối với nhà người phát triển, ngồiviệc gắn nhãn các tập huấn luyện rất lớn và điều chỉnh kiến trúc mạng.
Các mơ hình học sâu có tính tổng quan rất tốt, nhờ vào transfer learning, khi
ứng dụng các mô hình này vào các lĩnh vực cụ thể hay trên một ngôn ngữ khác,các nhà phát triển chỉ cần huấn luyện lại trên một tập dữ liệu có gắn nhãn liênquan đến lĩnh vực hoặc ngôn ngữ cần áp dụng Tuy nhiên, điều này lại mang đếnmột thách thức mới với hướng tiếp cận mơ hình học sâu, các dữ liệu huấn luyệncần phải được gán nhãn thủ công và cần rất nhiều dữ liệu gán nhãn để tăng hiệusuất của mơ hình.
Các tập huấn luyện được gắn nhãn thủ công này rất tốn kém và tốn thời gianđể tạo - thường đòi hỏi một người hàng tháng hoặc hàng năm để lắp ráp, làmsạch và sửa lỗi - đặc biệt là khi ứng dụng trong các lĩnh vực chuyên mơn, ucầu phải có sự trợ giúp từ chun gia là điều tất yếu Trên hết, các nhiệm vụthường thay đổi và phát triển trong thế giới thực Ví dụ: hướng dẫn ghi nhãn,mức độ chi tiết hoặc các trường hợp sử dụng thường thay đổi, yêu cầu gán nhãnlại (ví dụ: thay vì chỉ gán nhãn thực thể là tên người hay tên vị trí, tác vụ sau đóđịi hỏi thêm một tên thực thể là tên tỉnh thành).
Trang 283.4Hướng tiếp cận Weak Supervision
Đối với các mơ hình giám sát, việc thu thập nhãn dữ liệu là rất quan trọng.Năm 2008, Snow và cộng sự [12] đã đề xuất sử dụng Amazon Mechanical Turk(MTurk) để thu thập nhãn nhanh chóng và với chi phí thấp trong lĩnh vực xửlý ngôn ngữ tự nhiên MTurk là một nền tảng trực tuyến được cung cấp bởiAmazon, cho phép người dùng thuê lao động từ cộng đồng trực tuyến để thựchiện các nhiệm vụ nhỏ gọn và phổ biến Các nhiệm vụ này thường liên quan đếnviệc phân loại, xác định và đánh giá dữ liệu, như việc nhận dạng hình ảnh, phântích ngơn ngữ, phân loại sản phẩm và nhiều tác vụ khác Hình thức thu nhập
nhãn dữ liệu dựa trên các lao động trực tuyến như vậy được gọi là crowsourcing.
Crowsourcing giúp cho việc thu thập nhãn nhanh chóng và với chi phí thấp, tuynhiên chất lượng của việc gán nhãn sẽ bị suy giảm, đặc biệt đối với các tập dữliệu yêu cầu người gán nhãn có kiến thức chun mơn cao Trong bài tốn NER,với một chuỗi văn bản cho trước, những người gán nhãn phân loại từng đoạntrong chuỗi văn bản thuộc về một loại thực thể Mỗi người gán nhãn có kinhnghiệm và kiến thức khác nhau nên kết quả gán nhãn cũng khác nhau gây ranhiễu cho mơ hình huấn luyện.
Hình 3.3: Mơ hình tổng hợp nhãn từ crownsourcing
Trang 29người, và tổng hợp lại thành một bộ nhãn duy nhất cho tập dữ liệu Sau đó, bộdữ liệu được sử dụng như tập huấn luyện cho mô hình cuối LSTM Trong bàibáo, các tác giả đưa ra kết quả F1 cho mơ hình trên là 70.87, vượt trội hơn mộtthí nghiệm khác chỉ sử dụng mơ hình LSTM huấn luyện trên tất cả dữ liệu từ tấtcả người gán nhãn, với kết quả F1 là 67.73.
Việc gán nhãn dữ liệu với crowdsourcing đòi hỏi người gán nhãn phải thựchiện việc gán nhãn thủ công cho mỗi mẫu dữ liệu Điều này đòi hỏi người gánnhãn phải xem xét, phân loại và gán nhãn cho từng mẫu dữ liệu Việc gán nhãnthủ cơng trong q trình crowdsourcing có một số hạn chế Trước tiên, quá trìnhgán nhãn thủ cơng lặp đi lặp lại địi hỏi nhiều thời gian và cơng sức từ ngườigán nhãn Điều này có thể dẫn đến sự mệt mỏi và thiếu chính xác khi người gánnhãn đã phải làm việc với một lượng lớn dữ liệu Ngồi ra, khó khăn trong việcmở rộng việc gán nhãn cho tập dữ liệu lớn cũng là một vấn đề Khi số lượngmẫu dữ liệu tăng lên, việc tìm kiếm và thuê đủ lượng người gán nhãn để hồnthành cơng việc trở nên phức tạp và tốn kém.
Hình 3.4: Data programming
Do đó, Alexander Ratner và các cộng sự [3] đã đề xuất một mô thức mới áp
dụng lập trình vào việc tạo ra tập dữ liệu huấn luyện gọi là data programming.
Trang 30lập trình một chương trình nhỏ để gán nhãn cho bộ dữ liệu gọi là label function.Mỗi label function sẽ được thực thi trên toàn bộ dữ liệu để đưa ra nhãn một cáchnhanh chóng và tự động nên việc gán nhãn có thể mở rộng trên các tập dữ liệulớn dẫn đến chi phí sẽ thấp hơn nhiều so với gán nhãn thủ cơng Và mỗi labelfunction có thể được lập trình dựa trên các hướng tiếp cận weak supervision nhưsử dụng nguồn thơng tin có sẵn từ knowledge bases (distant supervision), hoặcnhãn từ nguồn crowdsourcing, hoặc heuristics từ các chuyên gia Vì vậy, mỗilabel function có tỷ lệ gán nhãn lỗi khác nhau hoặc có thể đưa ra dự đốn nhãnxung đột tại một số điểm dữ liệu nhất định.
Hình 3.5: Mơ hình weak supervision với data programming
Trang 31lỗi được chỉnh sửa lại giúp mơ hình nhận biết được nhiễu từ tập dữ liệu Để đánhgiá độ hiệu quả của mơ hình trên, các tác giả đã thực hiện thí nghiệm với bàitốn rút trích mối quan hệ giữa thực thể trên tập dữ liệu 2014 TAC-KBP SlotFilling challenge và đạt được 3.12 điểm F1 cải thiện hơn so với việc sử dụng mơhình LSTM trên tất cả dữ liệu sinh ra từ các label function.
Hình 3.6: Mơ hình tổng hợp nhãn HMM [14]
Data programming đã mở ra một hướng tiếp cận mới nhằm khai thác dữ liệu
từ các nguồn weak supervision Pierre Lison và các cộng sự đã áp dụng data
programming vào bài toán nhận dạng thực thể trong văn bản tiếng Anh[14] trêntập dữ liệu CoNLL 2003[15] mà không cần đến việc gán nhãn thủ cơng Bằngviệc thu thập các nguồn weak supervision có sẵn như sử dụng các phương pháp
gazetteers, kết hợp các mơ hình NER, tạo ra các heuristic và document-levelrelation, các nhãn được sinh ra được tổng hợp bởi một label model dựa trênmơ hình HMM, và sau cùng được vào một mơ hình mạng nơ-ron với tác vụsequence labeling như một end model để huấn luyện Mơ hình tổng hợp nhãn
với HMM được mơ hình hóa như sau: giả sử ta có J label function {λ1, λJ}và S nhãn NER {l1, lS} Tương ứng với mơ hình HMM thì mỗi một token sẽlà trạng thái quan sát và nhãn NER của từng token sẽ là trạng thái ẩn Mơ hìnhnày có nhiều emission từ các label fucntion cho mỗi trạng thái ẩn Với mỗi tokeni∈ {1, , n} và label function j, ta giả sử một phân phối xác suất Dirichlet chomột nhãn xác suất Pi j Tham số cho phân phối này là một vector αsi
Trang 32Tham số học cho mơ hình gồm ma trận chuyển đổi trạng thái và vector α tươngứng với mỗi label function Tham số được học bằng thuật toán Baum-Welchcũng dựa trên thuật tốn foward-backward để tính tốn Kết quả đạt được 0.748điểm F1 trên tập CoNLL 2003 mà không cần sử dụng nhãn của dữ liệu Tuynhiên, tập dữ liệu chỉ có 4 loại thực thể, và các thực thể này khá phổ biến ở tácvụ NER, điều này cũng làm cho các nguồn weak supervision thu thập dễ dànghơn và có độ tin cây cao hơn Tuy vậy, nghiên cứu của các tác giả đã cho thấykhả năng áp dụng data programming vào bài tốn NER và tính mở rộng củalabel function với nhiều loại nguồn weak supervision khác nhau.
3.5Một số hướng tiếp cận khác
Hình 3.7: Một số hướng tiếp cận khác liên quan đến phương pháp Weak Supervision
Với cùng thách thức về việc phụ thuộc vào nhãn trong quá trình huấn luyện,nhiều phương pháp cũng như hướng tiếp cận liên quan được đề xuất:
• Active learning: sử dụng các chuyên gia, người gán nhãn thủ công cho các
Trang 33này để thích ứng trên một tác vụ khác Do đó hướng tiếp cận này sẽ yêu cầu ítdữ liệu gắn nhãn hơn so với việc huấn luyện lại từ đầu.
• Ensemble learning[17]: phương pháp này dựa trên nhiều mơ hình phân loại
chạy đồng thời và có kết quả đầu ra được kết hợp tại thời điểm dự đoán Ngượclại, cách tiếp cận của weak supervision chỉ yêu cầu việc gán nhãn được tổnghợp một lần, như một bước trung gian để tạo dữ liệ huấn luyện cho mơ hìnhcuối cùng Đây là một sự khác biệt không nhỏ khi chạy tất cả các chức nănggắn nhãn khi dự đoán thời gian là tốn kém về mặt tính tốn do nhu cầu chạynhiều mơ hình tại thời điểm dự đốn.
Trang 34Chương 4
Trình bày, đánh giá, bàn luận kết quả
Dựa trên mơ hình mơ hình tham khảo, để ứng dụng vào bài tốn nhận diệnthực thể trong văn bản tiếng Việt, mơ hình đề xuất bao gồm hai giai đoạn:• Giai đoạn sinh nhãn cho tập dữ liệu huấn luyện: gồm việc tiền xử lý dữ liệu,
xây dựng label function và tổng hợp nhãn với mơ hình HMM.
• Giai đoạn huấn luyện mơ hình cuối: từ tập huấn luyện có được ở giai đoạntrước, mơ hình PhoBERT được huấn luyện và dự đốn như một mơ hình dựđốn thực thể bình thường.
Trang 354.1Tiền xử lý dữ liệu
Tiền xử lý dữ liệu bao gồm các bước:
• Đọc và biến đổi dữ liệu: Dữ liệu đầu vào là một file thuần văn bản với địnhdạng json, bao gồm nhiều dòng, mỗi dòng tương ứng với một đoạn văn bản đikèm với nhãn thực thể có trong đoạn văn bản Dữ liệu được đọc lên và biến
đổi thành dạng Doc từ thư viện Spacy Spacy là thư viện cung cấp nhiều công
cụ hữu ích phân tích ngơn ngữ tự nhiên và xử lý thông tin văn bản Việc biếnđổi dữ liệu thành dạng Doc của thư viện Spacy sẽ giúp cho việc phân tích vàdự đốn nhãn thực thể ở những cơng đoạn sau dễ dàng hơn.
• Làm sạch dữ liệu: Các đoạn văn bản đã được chuẩn hóa phân cụm từ nhằm
tránh gây nhiễu cho mơ hình, chẳng hạn như Hà Nội khi đứng riêng lẻ làm 2từ sẽ không mang lại ý nghĩa nên chúng được gom lại thành Hà_Nội Sau đó,
dữ liệu cần được làm sạch, loại bỏ các nhãn bị gán lệch, chồng chéo, có thểdo lỗi từ người gán nhãn thủ cơng.
• Phân chia dữ liệu: Để chuẩn bị huấn luyện cho các mơ hình, dữ liệu cần đượcphân chia thành các tập sau: tập dữ liệu xây dựng label function, tập huấnluyện, tập đánh giá và tập kiểm thử.
4.2Phương pháp đánh giá
Trang 36Trong đó, False Positive (FP) là số lượng token trả về bởi hệ thống NERnhưng không đúng với ground truth False Negative (FN) là số lượng tokenkhông được trả về bởi hệ thống NER nhưng xuất hiện trong ground truth TruePositive (TP) là số token trả về vởi hệ thống NER và xuất hiện trong grouthtruth.
F1 trong luận văn này được tính theo Macro-averaged, chỉ số F1 được tínhđộc lập theo từng loại thực thể và được trung bình cộng để trả về số cuối cùng.
4.3Xây dựng các label function
Dựa vào tập dữ liệu, các label function được xây dựng bằng hai phương pháp:• Gazetteer: Phương pháp dựa trên từ điển để so khớp các từ hoặc cụm từ trongvăn bản với các mục trong danh sách thực thể Ví dụ đơn giản về gezetteer làdanh sách các địa danh, nơi chứa tên các thành phố, quốc gia, địa điểm đặcbiệt, và khu vực quan trọng Khi văn bản chứa các từ tương ứng với các thànhphố hoặc quốc gia, gezetteer có thể nhận dạng và trích xuất thơng tin về địađiểm đó từ văn bản.
• Luật thủ cơng: Dựa vào các quy tắc từ kiến thức và kinh nghiệm của ngườigán nhãn đề ra.
Tùy vào đặc thù của nhãn dữ liệu, trong thí nghiệm, phương pháp gazetteerthường được áp dụng cho các loại nhãn có tính chất liên quan đến vị trí địa lý,phương pháp luật thủ cơng sẽ áp dụng cho các loại nhãn còn lại Bảng 4.1 liệtkê phương pháp được sử dụng cho các loại nhãn.
Bảng 4.1: Bảng phân loại phương pháp xây dựng label function
Phương phápNhãn thực thể
Gazetteercity, district, ward
Trang 37ra dự đốn cho 16 nhãn Dưới đây là ví dụ minh họa về label function được sửdụng trong thí nghiệm:1f r o ms k w e a k h e u r i s t i c si m p o r tF u n c t i o n A n n o t a t o r2i m p o r tp a n d a s as pd34df = pd r e a d _ c s v (’ C :\ K h o a \ M a s t e r \ d a t a \ w a r d _ v i e t _ n a m csv ’, h e a d e r = None ,i n d e x _ c o l = N o n e )56df c o l u m n s = [" w a r d "]7w a r d s =set( df [’ w a r d ’] v a l u e s )89defw a r d _ d e t e c t o r ( doc ) :
10foridx , t o k e nin e n u m e r a t e( doc ) :11ift o k e n t e x tinw a r d s :
12y i e l d idx , idx +1 ," w a r d "
13w a r d _ a n n o t a t o r = F u n c t i o n A n n o t a t o r (" w a r d _ d e t e c t o r ", w a r d _ d e t e c t o r )
Label function 4.1: Ví dụ label function sử dụng gazetteer để gán nhãn
1f r o ms k w e a k h e u r i s t i c si m p o r tF u n c t i o n A n n o t a t o r2
3defs t r e e t _ d e t e c t o r ( doc ) :4d o c _ l e n =len( doc )
5foridx , t o k e nin e n u m e r a t e( doc ) :
6ift o k e n t e x t l o w e r ()in["đường","phố","ngõ"]andidx + 1 <d o c _ l e nandt o k e n n b o r (1) t e x t [ 0 ] i s u p p e r () :
7y i e l d idx +1 , idx +2 ," s t r e e t "
8ift o k e n t e x t [ -1] i s d i g i t ()andidx + 1 < d o c _ l e nandt o k e n n b o r(1) t e x t [ 0 ] i s u p p e r () :
9y i e l d idx +1 , idx +2 ," s t r e e t "
10s t r e e t _ a n n o t a t o r = F u n c t i o n A n n o t a t o r (" s t r e e t _ d e t e c t o r ", s t r e e t _ d e t e c t o r )
Label function 4.2: Ví dụ label function sử dụng luật thủ cơng để gán nhãn
• Label function 4.1: Được xây dựng dựa trên phương pháp gazetteer, với bộ từđiền thu thập dữ liệu tên tất cả các quận ở Việt Nam từ internet.
• Label function 4.2: Được xây dựng dựa trên luật thủ công với ý tưởng tên
Trang 38Sau khi viết được các label function, để đánh giá chất lượng và hiệu suất củacác label function trong việc gán nhãn dữ liệu, có một số chỉ số quan trọng đượcsử dụng Dưới đây là các chỉ số đánh giá:
• Precision: Precision là tỷ lệ giữa số lượng mẫu được gán nhãn chính xác bởi
label function X và tổng số mẫu được gán nhãn bởi label function X Đây là
một đánh giá về khả năng của label function trong việc đưa ra kết quả chínhxác.
• Recall: Recall là tỷ lệ giữa số lượng mẫu được gán nhãn chính xác bởi label
function X và tổng số mẫu thực tế cần được gán nhãn Đây là một đánh giá về
khả năng của label function trong việc bao qt và khơng bỏ sót các mẫu cầnđược gán nhãn.
• F1 Score: F1 Score là một chỉ số kết hợp giữa precision và recall Nó là trungbình điều hịa của precision và recall, giúp đánh giá tổng thể hiệu suất củalabel function.
• Overlap (Sự chồng chéo): Overlap đánh giá mức độ chồng chéo giữa các kếtquả được gán nhãn bởi các label function khác nhau Điều này giúp xác địnhsự tương đồng và đồng nhất giữa các kết quả nhãn từ các chức năng khác nhau.
Overlap là tỷ lệ giữa tổng số token được gán nhãn bởi label function X đồng
thời được gán nhãn bởi label function khác và tổng số token được gán nhãn
bởi label function X
• Conflict (Xung đột): Conflict đánh giá sự xung đột giữa các kết quả được gánnhãn bởi các label function khác nhau Điều này chỉ ra mức độ không đồngnhất và không chắc chắn trong việc gán nhãn Conflict là tỷ lệ giữa tổng số
token được gán nhãn bởi label function X đồng thời được gán nhãn bởi labelfunction khác mà có nhãn xung đột với label function X và tổng số token đượcgán nhãn bởi label function X
Trang 39Hình 4.2: Đánh giá hiệu suất các label function với chỉ số Precision, Recall và F1
Trang 40Cụ thể, ở hình 4.2 cho thấy tổng quan kết quả đánh giá các label functionvới các chỉ số precision, recall và F1 Ở hình 4.3, dựa trên chỉ số overlap, ta
có thể thấy 2 label function gán nhãn direction bị overlap, lý do là annotatordirection_detector2dựa trên kết quả của direction_detector để đưa ra dự đốnnên có thể nói kết quả dự đoán của direction_detector2 là tập con của direc-tion_detectornên overlap của direction_detector2 là 1 Ở hình 4.4, dựa trên chỉsố conflict, ta có thể thấy các label function dự đốn cho các nhãn city, district,street, wardcó chỉ số conflict khá cao, điều này là do tên địa danh được đặt cho
các đường, phường, quận và huyện thường được đặt trùng nhau, ví dụ như Sa Pavừa là tên của thị xã, vừa là tên phường hoặc Long Biên vừa là tên đường, vừa
là tên của cả phường và quận.
Hình 4.4: Đánh giá hiệu suất các label function với chỉ số Conflict