3.2.2. Phát biểu bài toán
Cho tập khái niệm Wikipedia tiếng Việt và biết rằng trên đó có các khái niệm dầu khí Wikipedia tiếng Việt, ví dụ như khái niệm “Thăm dò điện trở” như
được minh họa tại Hình 3.3, tuy nhiên, tập tất cá các các khái niệm dầu khí Wikipedia tiếng Việt chưa được xác định. Cho một từ điển dầu khí tiếng Việt là một tập V các khái niệm dầu khí cùng với các giải thích của chúng như được minh họa tại Hình 3.4. Bài toán đặt ra là học ontology từ hai nguồn tài nguyên dữ liệu trên đây để xác định tập tất cả các các khái niệm dầu khí Wikipedia tiếng Việt và dùng tập kết quả này để mở rộng từ điển dầu khí tiếng Việt V hiện có.
Bài toán được phát biểu như sau:
Đầu vào: Cho (i) một từ điển V các khái niệm dầu khí tiếng Việt cùng các thuộc tính mô tả mỗi khái niệm; (ii) tập W các khái niệm Wikipedia tiếng Việt đã phát hiện được.
Đầu ra: Tập các khái niệm dầu khí Wikipedia tiếng Việt được trích xuất từ tập khái niệm Wikipedia tiếng Việt để bổ sung vào từ điển dầu khí tiếng Việt V.
Hình 3.4. Minh họa từ điển dầu khí Anh – Việt: Cột bên phải mô tả một khái niệm dầu khí tiếng Việt
Luận án đề xuất một mô hình học ontology để giải quyết bài toán trên đây theo ý tưởng sau đây.
Bước đầu tiên tiến hành việc tìm ra các khái niệm trên Wikipedia tiếng Việt chắc chắn là khái niệm thuộc miền dầu khí (dựa trên phương pháp đối sánh
khái niệm như trình bày ở Mục 3.1). Kết quả là tìm được tập các khái niệm dầu khí Wikipedia tiếng Việt “gián điệp”.
Bước thứ hai nhận tập dữ liệu huấn luyện gồm hai phần: (i) Tập khái niệm dầu khí Wikipedia tiếng Việt “gián điệp”, (ii) một tập con khái niệm dầu khí trong từ điển dầu khí V; như vậy, mọi dữ liệu trong tập dữ liệu huấn luyện đều là khái niệm dầu khí nên được gọi là tập dữ liệu dương (ví dụ dương).
Sử dụng một thuật toán phân lớp nhị phân với tập dữ liệu huấn luyện chỉ bao gồm các dữ liệu dương (Classification with Positive Examples only) trên đây để xây dựng một mô hình phân lớp nhị phân trên tập dữ liệu các khái niệm Wikipedia tiếng Việt nhằm tìm ra tập tất cả các khái niệm dầu khí Wikipedia tiếng Việt. Bài toán phân lớp nhị phân khái niệm dầu khí Wikipedia tiếng Việt chỉ với ví dụ dương ở đây được phát biểu như sau:
Đầu vào: Cho (i) tập dữ liệu huấn luyện X gồm hai thành phần: Tập X1 các khái niệm dầu khí Wikipedia tiếng Việt (kết quả của bài toán trước) và tập X2 V các khái niệm dầu khí trong từ điển dầu khí V; Mọi dữ liệu huấn luyện đều có nhãn dương (+1).
Đầu ra: (i) Một mô hình phân lớp nhị phân trên tập khái niệm Wikipedia tiếng Việt để nhận biết một khái niệm Wikipedia tiếng Việt có là khái niệm dầu khí (có nhãn +1) hay không (có nhãn -1); (ii) Một tập khái niệm dầu khí Wikipedia tiếng Việt bổ sung qua mô hình phân lớp kết quả.
Do tập ví dụ đầu vào chỉ bao gồm các dữ liệu dương cho nên luận án sử dụng một thuật toán phân lớp chỉ với dữ liệu dương (còn gọi là phân lớp một lớp: one class classification), hay học giám sát bộ phận (Partially Supervised Learning) hoặc phân lớp giám sát bộ phận (Partially Supervised Classification) [42] , [51], [52], [53, [54], [55]. Mục con tiếp theo giới thiệu về phương pháp phân lớp dữ liệu với chỉ dữ liệu dương.
3.2.3. Chiến lược hai bước phân lớp dữ liệu với chỉ dữ liệu dương
3.2.3.1. Giới thiệu chung về phương pháp phân lớp dữ liệu với chỉ dữ liệu dương
Tồn tại một số phương pháp giải bài toán phân lớp với dữ liệu dương [42], [47], [48] , [51], [52], [53], [54], [55], [82]. Theo một cách phân loại phổ biến,
các phương pháp này được phân theo hai cách tiếp cận tùy thuộc vào số lượng dữ liệu dương có được.
Theo cách tiếp cận thứ nhất khi số lượng dữ liệu dương lớn, phương pháp
học máy chỉ với dữ liệu dương được áp dụng [41], [53]. Phương pháp này xây dựng một ranh giới các dữ liệu dương dựa trên các phương pháp phân lớp một lớp (“one-class”), chẳng hạn như phân lớp một lớp SVM.
Theo cách tiếp cận thứ hai khi số lượng dữ liệu dương không quá lớn, cần sử dụng thêm dữ liệu chưa được gán nhãn theo phương pháp học với dữ liệu dương và dữ liệu chưa gán nhãn [42], [47], [48] , [51], [52], [53], [54], [55], [82]. Phương pháp này cũng học để phân lớp dữ liệu dương. Từ tập dữ liệu dương và dữ liệu chưa gán nhãn, phương pháp này trước hết cần nhận diện được một tập dữ liệu âm “tin cậy được” RN (reliable negative). Sử dụng tập dữ liệu dương sẵn có và tập ví dụ âm tin cậy được làm tập dữ liệu huấn luyện mô hình phân lớp. Một số thuật toán điển hình cho phương pháp học này là ROC-SVM, ROC-CLU-SVM, PERL, v.v., đồng thời, sẵn có một số công cụ thi hành các thuật toán này, chẳng hạn như LPU Software22. Vấn đề quan trọng nhất ở đây là cách thức nhận diện được tập ví dụ âm tin cậy được và cách thức phổ biến nhất là sử dụng các độ đo tương tự [82]. Luận án sử dụng hai độ đo tương tự cosine (x, y) của hai vector và độ đo tương tự Google chuẩn hóa của hai khái niệm để nhận diện các dữ liệu âm tin cậy.
3.2.3.2. Chiến lược hai bước phân lớp dữ liệu với chỉ dữ liệu dương
Để giải quyết bài toán phân lớp giám sát bộ phận trong miền dữ liệu văn bản, phương pháp phân lớp bán giám sát (semi-supervised classification23) sử dụng chiến lược hai bước thường được sử dụng [51], [52], [53], [54], [55], [56], [83], [84] dựa trên thuật toán học bán giám sát EM (Expectation Maximization) [28]. Luận án quan tâm tới bài toán phân lớp bộ phận nhị phân, dữ liệu hoặc có nhãn dương (+1) hoặc có nhãn âm (-1), tương ứng khái niệm Wikipedia tiếng Việt là khái niệm dầu khí (nhãn +1) hoặc không là khái niệm dầu khí (nhãn -1).
22https://www.cs.uic.edu/~liub/LPU/LPU-download.html 23http://pages.cs.wisc.edu/~jerryzhu/pub/ssl_survey.pdf
Ký hiệu P là tập dữ liệu dương sẵn có để huấn luyện mô hình. Ký hiệu U là tập dữ liệu chưa được gán nhãn (các dữ liệu trong U có thể có nhãn thuộc lớp dương “+1” hoặc có nhãn âm “-1”). Cần xây dựng một bộ phân lớp nhị phân để gán nhãn “+1” (lớp dương) hoặc “-1” (lớp âm) cho các dữ liệu thuộc U. Chiến lược hai bước được mô tả như sau.
Bước thứ nhất trong chiến lược hai bước có nhiệm vụ xác định một tập có số lượng đủ lớn các “dữ liệu âm tin cậy” RN (reliable negative) từ tập dữ liệu chưa có nhãn U. Thuật toán bán giám sát EM dựa trên một thuật toán phân lớp giám sát (chẳng hạn, phân lớp Naive Bayes hoặc SVM) được áp dụng. Đầu tiên, thuật toán phân lớp giám sát (chẳng hạn, Naive Bayes hoặc SVM) cho ra một mô hình phân lớp nhị phân o dựa trên tập dữ liệu huấn luyện gồm tập ví dụ dương P và tập ví dụ âm giả định U (giả định mọi dữ liệu trong U đều có nhãn “-1”). Sau đó, sử dụng mô hình phân lớp o tiến hành phân lớp tất cả các dữ liệu thuộc U. Sử dụng tập dữ liệu P, tập dữ liệu U+= {dU: o(d) = +1} và tập dữ liệu U- = {dU: o(d) = -1} để xác tập dữ liệu âm tin cậy RN. Chẳng hạn, nếu sử dụng thuật toán phân lớp Naive Bayes thì chọn các dữ liệu d U- sao có p(d|”+1”) là rất nhỏ nhất để đưa vào RN, nếu sử dụng thuật toán phân lớp SVM thì chọn các dữ liệu d U- sao có giá trị hàm siêu phẳng là âm và có trị tuyệt đối rất lớn. Thuật toán bán giám sát EM có thể được thực hiện lặp một số lần, trong mỗi lần lặp chỉ bổ sung thêm một lượng dữ liệu âm tin cậy đủ nhỏ để tích lũy dần tập RN cho đến khi có đủ số lượng phù hợp.
Hình 3.5. Lược đồ tìm tập dữ liệu “âm tin cậy” trong chiến lược hai bước [56]
B. Liu và công sự [56] nhận định rằng hành vi của bộ phân lớp o đối với các dữ liệu dương là rất quan trọng trong việc xác định các dữ liệu âm tin cậy. Chính vì lý do đó, biện pháp đưa một tập S các dữ liệu dương “gián điệp” (spies) vào tập các dữ liệu không nhãn U là đầu vào cho thuật toán EM. Hành vi của bộ phân lớp đối với các dữ liệu gián điệp sẽ nhận diện các dữ liệu không nên đưa vào tập RN. Hình 3.5 mô tả kết quả hoạt động của thuật toán EM xác định tập dữ liệu âm tin cậy khi sử dụng tập dữ liệu dương gián điệp. Luận án này sử dụng cách thức đối sánh khái niệm (Mục 3.1) để xác định tập khái niệm dầu khí Wikipedia tiếng Việt khởi thủy và sử dụng tập dữ liệu này làm tập dữ liệu gián điệp.
Bước thứ hai trong chiến lược hai bước là áp dụng một thuật toán phân lớp có giám sát trên tập ví dụ mẫu là hợp của tập dữ liệu dương P và tập dữ liệu âm tin cậy RN. Trong nhiều trường hợp, thuật toán phân lớp giám sát trong bước 1 lại được sử dụng một lần nữa.
3.2.4. Mô hình đề xuất
Hình 3.6. Mô hình học ontology khái niệm dầu khí Wikipedia tiếng Việt
Hình 3.6 trình bày mô hình hai giai đoạn học ontology để bổ sung các khái niệm dầu khí Wikipedia tiếng Việt vào một từ điển dầu khí tiếng Việt đã có. Giai đoạn 1 có nhiệm vụ lọc ra tập các khái niệm dầu khí Wikipedia tiếng Việt “khởi thủy” và tập các khái niệm này (các dữ liệu dương) được sử dụng làm tập dữ liệu “gián điệp” trong giai đoạn 2. Giai đoạn 2 có nhiệm vụ tiến hành một quá trình học phân lớp nhị phân với chỉ với dữ liệu dương (chiến lược hai bước trên đây) để xây dựng bộ phân lớp nhị phân để tìm ra tập tất cả các khái niệm dầu khí Wikipedia tiếng Việt.
3.2.4.1. Mô hình học ontology hai giai đoạn
Giai đoạn 1. Lọc lấy ra các khái niệm dầu khí Wikipedia tiếng Việt
Trước tiên, tiến hành việc đối sánh từ vựng trực tiếp các khái niệm có trong từ điển dầu khí tiếng Việt hiện có và tập khái niệm Wikipedia tiếng Việt.
đối sánh các khái niệm trong từ điển dầu khí tiếng Việt (số 11.139 khái niệm) với từng khái niệm trong trong Wikipedia Tiếng Việt (7.155.700 khái niệm) để trích chọn ra những khái niệm chung giữa hai kho tài nguyên. Ví dụ, bước 1 xác định được khái niệm “Cát kết” (sandstone) được tìm thấy trong cả từ điển dầu khí và Wikipedia Tiếng Việt.
Bước 2. Từ các khái niệm của từ điển dầu khí tiếng Việt và Wikipedia tiếng Việt, tách thành các từ, cụm từ có nghĩa, xóa bỏ các từ dừng, từ vô nghĩa. Xây dựng các đặc trưng và vectơ đặc trưng.
Bước 3. Đối sánh từ vựng trực tiếp từng khái niệm (đã được đặc trưng hóa) ở trên với các khái niệm trong Wikipedia Tiếng Việt để trích chọn ra các khái niệm chung.
Ví dụ, bước 1 phát hiện khái niệm "bản đồ cấu tạo địa chấn" (seismic structure map) thuộc từ điển dầu khí khớp không hoàn toàn với các khái niệm “bản đồ” và “địa chấn” trong Wikipedia Tiếng Việt: không có khái niệm Wikipedia tiếng Việt có tên chính xác là "bản đồ cấu tạo địa chấn" song tồn tại độ tương đồng vượt qua một ngưỡng dương giữa "bản đồ cấu tạo địa chấn" với “bản đồ” và “địa chấn”. Bước hai, công cụ JVNTextPro24 được dùng để ngắt khái niệm "bản đồ cấu tạo địa chấn" thành ba khái niệm con: “bản đồ”, ”cấu tạo”, ”địa chấn”. Tiếp theo, mỗi khái niệm con được tìm trong tập khái niệm Wikipedia Tiếng Việt. Kết quả là tìm được khái niệm “bản đồ” và “địa chấn” có trong Wikipedia Tiếng Việt còn khái niệm “cấu tạo” thì không.
Giai đoạn 2. Học phân lớp nhị phân khái niệm dầu khí Wikipedia tiếng Việt
Như đã được đề cập, một trong các vấn đề quan trọng nhất của thuật toán phân lớp chỉ với dữ liệu dương là sử dụng độ đo tương tự để nhận diện được tập ví dụ âm tin cậy [82]. Như giới thiệu ở Chương 1, độ đo Cosine (c1, c2) phụ thuộc vào các đặc trưng nội tại của bản thân khái niệm c1 và khái niệm c2, trong khi độ đo Google chuẩn NCDG(c1, c2) lại phụ thuộc vào các yếu tố bên ngoài (giá trị trả về của máy tìm kiếm Google cho sự xuất hiện và xuất hiện đồng thời của hai khái niệm c1, c2). Luận án có ý tưởng kết hợp hai độ đo Google và
Cosine làm độ đo tương tự trong nhận diện tập dữ liệu âm tin cậy nhiều khả năng sẽ hiệu quả hơn khi sử dụng riêng rẽ từng độ đo, vì một độ đo kết hợp như vậy sẽ khai thác được cả các yếu tố nội tại của khái niệm cũng như các yếu tố đánh giá khách quan bên ngoài. Kết quả thực nghiệm được chỉ dẫn đã minh chứng về tính phù hợp của ý tưởng này.
Công thức (3.1) sau đây biểu diễn độ đo kết hợp độ đo Google và độ đo Cosine để tính sự tương tự giữa các khái niệm trong hai tập dữ liệu từ điển và Wikipedia tiếng Việt:
SIMTotal(c1, c2) = * NCDCosine(c1, c2) + (1 - ) * NCDG(c1, c2) (3.1) trong đó, SIMTotal là độ tương tự được sử dụng để xác định tập dữ liệu âm tin cậy, c1 and c2 là khái niệm cần đối sánh. NCDCosine là độ đo tương tự Cosine. NCDG là độ đo tương tự Google chuẩn.
3.2.4.2. Các thành phần chính trong mô hình học khái niệm dầu khí Wikipedia
Thành phần xử lý dữ liệu Wikipedia
Tải toàn bộ dữ liệu Wikipedia Tiếng Việt từ trang Wikipedia25. Sử dụng công cụ DKPro Java Wikipedia Library26 để phân tích dữ liệu Wikipedia Tiếng Việt. Các thành phần của khái niệm và các thông tin mô tả ngắn gọn của nó được trích xuất và được coi là các dữ liệu chưa gán nhãn.
Thành phần tiền xử lý dữ liệu (Data pre-processing component)
Dữ liệu đã gán nhãn, chưa gán nhãn, và dữ liệu đánh giá đều được chuyển qua thành phần tiền xử lý dữ liệu và đặc trưng hóa, như tách câu, tách từ, trích xuất đặc trưng, và tạo vectơ đặc trưng theo TF chuẩn hóa (vectơ đặc trưng có độ dài là 1).
Thành phần tạo tập dữ liệu đánh giá
Dữ liệu không có nhãn sẽ được lấy ra một phần để gán nhãn phục vụ đánh giá mô hình phân lớp. Sử dụng độ đo khoảng cách Google chuẩn để tìm ra các
25https://dumps.wikimedia.org
thuật ngữ gần với các miền dữ liệu “Dầu khí”, “Địa vật lý”, “Địa chất”. Gán nhãn tay dữ liệu các khái niệm chính xác liên quan đến các miền dữ liệu trên để tạo tập đánh giá.
Thành phần phân lớp dữ liệu
Dữ liệu có nhãn dầu khí và dữ liệu không có nhãn sẽ được đưa qua thành phần phân lớp dữ liệu LPU (Learning with Positive and Unlabeled) để sinh ra mô hình phân lớp dữ liệu. Luận án cài đặt ba thuật toán gồm PERL, ROC-SVM, và DISTANCE, trong đósử dụng công cụ LPU [54] đối với các thuật toán PERL và ROC-SVM27.
Dạng thức chung của ba thuật toán này được mô tả như sau [53, 51]:
Thuật toán 3.1. Học bộ phân lớp văn bản với chỉ dữ liệu dương và dữ liệu không nhãn [53, 51]:
Input
+ Cho tập tài liệu D thuộc miền ứng dụng có hai lớp dữ liệu dương và âm. + Cho tập P D các tài liệu có nhãn dương. Tập tài liệu U=D\P chưa có
nhãn.
Output
+ Bộ phân lớp nhị phân cho miền ứng dụng.
Nội dung // gồm hai bước dưới đây
Bước 1. Xác định tập tài liệu âm tin cậy từ tập tài liệu U.
Bước 2. Xây dựng bộ phân lớp nhị phân bằng cách áp dụng lặp một thuật toán phân lớp cơ sở cho đến khi gặp điều kiện dừng. Kết quả nhận được bộ phân lớp nhị phân cần tìm.
Ba thuật toán trong luận án khác nhau ở cách xác định tập tài liệu âm tin cậy (Bước 1) và cách chọn bộ phân lớp từ các bộ phân lớp xuất hiện trong quá trình áp dụng lặp thuật toán cơ sở. Cả ba thuật toán đều sử dụng thuật toán SVM
nhị phân làm thuật toán cơ sở. Chi tiết về mỗi thuật toán được giới thiệu như dưới đây (bỏ qua phần mô tả đầu vào và đầu ra).
Thuật toán PERL
Thuật toán 3.2.Thuật toán PERL [53, 51].
begin
//Bước 1. Xác định tập tài liệu âm tin cậy từ tập tài liệu U theo kỹ thuật 1- DNF (Disjunctive Normal Form). Giả sử tập từ vựng miền ứng dụng là V={x1, x2, …, xn}, trước hết, tìm tập từ khóa PF (Positive Features) đặc trưng cho lớp dương, sau đó, tìm tập tài liệu âm tin cậy từ các tài liệu