Quy trình bảy bước xây dựng ontology dầu khí Anh-Việt

Một phần của tài liệu (LUẬN án TIẾN sĩ) nghiên cứu một số mô hình học ontology và ứng dụng trong miền dầu khí (Trang 130 - 150)

tại Viện Dầu khí Việt Nam

Do ngành dầu khí Việt Nam chưa có một ontology chuyên ngành dầu khí, nên việc xây dựng một ontology chuyên ngành dầu khí dựa trên các kiến thức đã tổng hợp, nghiên cứu là một việc làm khả thi và hữu ích cho việc học ontology, và cho việc sử dụng trong công việc chuyên môn, quản lý. Việc thiết kế một giao diện đồ họa đẹp, thuận tiện hỗ trợ cho việc xây dựng ontology và học ontology, cũng là một công việc thiết thực, có ý nghĩa, và nên làm. Hơn nữa, ứng dụng ontology dầu khí được xây dựng trong các ứng dụng trí tuệ nhóm (collective intelligence) cũng được đề cập [VNTrinh3].

hướng trong luận án là học ontology để xây dựng ontology dầu khí Anh - Việt.

5.2. MỘT QUY TRÌNH BẢY BƯỚC XÂY DỰNG ONTOLOGY DẦU KHÍ ANH - VIỆT ANH - VIỆT

Hình 5.1 mô tả khung quy trình bảy bước xây dựng ontology miền dầu khí Anh – Việt tại Viện Dầu khí Việt Nam. Tiếp cận quy trình như vậy cũng đảm bảo tám nguyên lý và khung xây dựng ontology miền như đã trình bày ở Chương 1.

5.2.1. Bước 1. Xác định mục đích và phạm vi của Ontology dầu khí Anh - Việt

5.2.1.1. Mục đích xây dựng Ontology

Việc xây dựng Ontology dầu khí Anh – Việt nhằm hai mục đích. Thứ nhất, nhằm tạo ra một sản phẩm phần mềm cụ thể phục vụ thiết thực cho các hoạt động học tập, nghiên cứu, tra cứu, đào tạo và các hoạt động hàng ngày của các cán bộ, nhân viên ngành dầu khí. Thứ hai, nhằm tạo ra một trong những thành phần cơ sở cho việc quản lý, chia sẻ, và tích hợp tri thức trong Viện Dầu khí Việt Nam trong tương lai.

5.2.1.2. Phạm vi xây dựng Ontology

Trong giới hạn thời gian và nguồn lực, và cũng theo Nguyên lý thành công từng bước (còn được gọi là “trái cây treo thấp”: Low-Hanging Fruit), luận án sẽ xây dựng ontology Anh – Việt trên cở sở sử dụng các tài nguyên sẵn có gồm: từ điển dầu khí Anh – Việt [4]do Viện Dầu khí Việt Nam biên soạn năm 1996, được chuyển thành dạng phần mềm từ điển dầu khí Anh - Việt [2] năm 2010; dữ liệu Wikipedia Tiếng Việt, và dữ liệu Wordnet Tiếng Anh. Trong tương lai, Ontology dầu khí này có thể được phát triển mở rộng thêm dựa trên việc sử dụng (học) các nguồn tài nguyên khác, đặc biệt là các tài nguyên từ các nguồn uy tín như là từ các công ty dầu khí lớn trên thế giới.

Số lượng khái niệm dầu khí trong ontology của luận án cũng sẽ được giới hạn bởi số lượng khái niệm trong từ điển dầu khí sẵn có (khâu đầu) và số lượng khái niệm dầu khí trong Wikipedia Tiếng Việt và Wordnet Tiếng Anh. Trong tương lai, số lượng khái niệm dầu khí này cũng có thể được mở rộng (tăng) thêm trong khâu giữa và khâu cuối (khi học/tích hợp với các nguồn tài nguyên khác).

Về ngôn ngữ, luận án sẽ xây dựng ontology dầu khí trên hai ngôn ngữ Anh – Việt. Trong tương lai, có thể mở rộng thêm cho nhiều ngôn ngữ khác hay được sử dụng trong ngành dầu khí (như Tiếng Nga,...) bằng các kỹ thuật tương tự.

5.2.1.3. Yêu cầu đối với Ontology dầu khí Anh - Việt

Trên cơ sở các kết quả nghiên cứu được trình bày ở các chương trước trong luận án, như độ đo Google (Chương 2), thuật toán học với dữ liệu dương và dữ liệu chưa gán nhãn (Chương 3), kho ngữ liệu (Chương 4), cơ sở niềm tin phân tầng [VNTrinh3], các nguyên lý và các bước xây dựng ontology (Chương 1), và nhu cầu thực tiễn của ngành dầu khí Việt Nam, luận án đã tiến hành xây dựng một ontology miền dầu khí, sử dụng kết hợp các thuật toán đã nghiên cứu, phục vụ cho công việc tra cứu, tìm kiếm, nghiên cứu, đào tạo, dịch thuật hàng ngày của các bộ, nhân viên ngành dầu khí.

Yêu cầu của bài toán được xác định như sau: Xây dựng một ontology dầu khí Anh - Việt, đáp ứng các yêu cầu sau:

– Dựa trên từ điển dầu khí Anh - Việt ban đầu với 11.139 khái niệm Tiếng Anh, khái niệm Tiếng Việt tương ứng với các khái niệm Tiếng Anh, các mô tả Tiếng Việt của các khái niệm, và các hình ảnh, âm thanh, video đi kèm (nếu có).

– Các khái niệm có mối liên hệ với nhau sẽ được xác định, lưu trữ trong cơ sở dữ liệu và biểu diễn dưới dạng đồ họa.

– Có nhiều khái niệm hơn từ điển gốc (mở rộng).

– Có chức năng tra từ điển: nhập vào khái niệm tiếng Anh, phần mềm sẽ hiển thị khái niệm Tiếng Việt và các mô tả, thông tin kèm theo, và tương tự khi nhập khái niệm Tiếng Việt.

– Có khả năng tính toán độ đo tương tự của hai khái niệm bất kỳ có trong ontology và biểu diễn dưới dạng đồ họa mối quan hệ này.

Có chức năng thêm, xóa, sửa các khái niệm, các mối quan hệ, và các thông tin liên quan khác.

– Có các chức năng hỗ trợ cho việc học ontology, kiểm tra, rà soát, chỉnh sửa tính đúng đắn của việc học ontology trong quá trình xây dựng ontology.

– Có chức năng phân cấp, phân quyền cho từng người sử dụng. Hỗ trợ làm việc nhóm và môi trường nhiều người dùng cùng lúc.

– Có giao diện dưới dạng web-based, thân thiện, dễ sử dụng. – Có thể chạy trên các thiết bị smartphone.

– Dễ dàng nâng cấp mở rộng sau này.

– Đảm bảo an ninh, an toàn, bảo mật thông tin.

5.2.2. Bước 2. Thu thập tài nguyên Ontology dầu khí Anh Việt sẵn có

Thu thập dữ liệu từ từ điển dầu khí Anh – Việt do Viện Dầu khí Việt Nam biên soạn.

Thu thập dữ liệu Wordnet29 Tiếng Anh. Trích chọn toàn bộ các khái niệm Tiếng Anh và các quan hệ giữa các khái niệm (độ sự tương tự), kèm theo các thông tin khác, như từ đồng nghĩa, từ trái nghĩa, từ loại, và các quan hệ khác để có thể sử dụng trong tương lai.

Thu thập dữ liệu Wikipedia30 Tiếng Việt. Trích chọn toàn bộ các khái niệm Tiếng Việt và các mô tả của các khái niệm, kèm theo các thông tin khác hình ảnh, video, âm thanh đi kèm.

Ba nguồn dữ liệu chính ở trên được thu thập, chọn lọc, tách câu, tách từ, token hóa, loại bỏ từ dừng, từ nối, từ vô nghĩa.

5.2.3. Bước 3. Tích hợp các ontology dầu khí Tiếng Anh

Từ điển dầu khí Anh Việt được học ontology với ontology Wordnet để hình thành nên ontolog Dầu khí Anh – Việt đầu tiên ở Việt Nam với 11.139 khái niệm bổ sung thêm các quan hệ được kế thừa từ ontology Wordnet (mở rộng các mối quan hệ ngữ nghĩa giữa các khái niệm). Chi tiết về phương pháp này được trình bày trong Chương 2.

5.2.4. Bước 4. Làm giàu khái niệm dầu khí Tiếng Việt tiềm năng

Các khái niệm dầu khí tiếng Việt trong từ điển dầu khí được token hóa và so sánh trực tiếp với các khái niệm trong Wikipedia tiếng Việt để tìm các từ giống nhau. Kết quả, tìm ra khoảng 2.500 khái niệm từ Wikipedia Tiếng Việt

29https://wordnet.princeton.edu

giống nhau. Các khái niệm giống nhau này có thể là nguồn bổ sung tiềm năng vào từ điển dầu khí Anh – Việt.

5.2.5. Bước 5. Đối sánh khái niệm miền dầu khí Tiếng Việt

Khi áp dụng thuật toán học với dữ liệu dương và dữ liệu chưa gán nhãn với kết hợp độ đo Google và độ đo Cosine với hệ số  = 0.50, để học ontology các dữ liệu mô tả khái niệm trong từ điển dầu khí Anh Việt và trong Wikipedia Tiếng Việt, 5.084 khái niệm dầu khí được tìm ra. Do đó, từ điển dầu khí Anh Việt được bổ sung thêm 5.084 khái niệm và trở thành ontology dầu khí Tiếng Việt với 16.223 khái niệm Tiếng Việt cùng với các thông tin mô tả của nó. Chi tiết về phương pháp này đã được trình bày ở Chương 3.

5.2.6. Bước 6. Bổ sung thành phần Tiếng Việt vào ontology dầu khí Tiếng Anh

Bước này chỉ đơn giản bổ sung thành phần Tiếng Việt ở bước 5 vào ontology miền dầu khí Anh-Việt được mở rộng ở bước 3.

5.2.7. Bước 7. Hiệu chỉnh ontology dựa trên khung hợp nhất niềm tin qua tranh luận thu thập ý kiến chuyên gia tranh luận thu thập ý kiến chuyên gia

Ở bước này, tri thức của các chuyên gia dầu khí đã được sử dụng để kiểm tra, chỉnh sửa các lỗi, chính xác hóa các kết quả của việc học ontology và việc phân lớp dữ liệu, để nâng cao chất lượng của các kết quả học ontology. Các chuyên gia về Tìm kiếm Thăm dò dầu khí và chuyên gia về Khai thác dầu khí thuộc Trung tâm Nghiên cứu Tìm kiếm thăm dò và khai thác dầu khí (EPC) trực thuộc Viện Dầu khí Việt Nam (VPI) góp ý cho các khái niệm liên quan đến Thăm dò dầu khí và Khai thác dầu khí tương ứng. Các chuyên gia về Lọc hóa dầu thuộc Trung tâm Nghiên cứu Chế biến dầu khí (PVPro) trực thuộc Viện Dầu khí Việt Nam góp ý cho các khái niệm liên quan đến Lọc hóa dầu. Các chuyên gia về an toàn môi trường dầu khí thuộc Trung tâm Nghiên cứu An toàn và Môi trường dầu khí (CPSE) trực thuộc Viện Dầu khí Việt Nam góp ý cho các khái niệm thuộc lĩnh vực An toàn-Môi trường Dầu khí. Các chuyên gia về Kinh tế và Quản lý dầu khí (EMC) trực thuộc Viện Dầu khí Việt Nam góp ý cho các khái niệm thuộc lĩnh vực Kinh tế và Quản lý Dầu khí....

Khi đối sánh hai khái niệm c1 thuộc O1 và c2 thuộc O2, độ đo khoảng cách Google (cơ sở tri thức) trả về một con số (niềm tin) về sự tương đồng giữa

c1 và c2, trong khi đó, độ đo khoảng cách Cosine (cơ sở tri thức) cũng trả về một con số khác (niềm tin) về sự tương đồng giữa c1 và c2. Hai kết quả này có thể khác nhau, thậm chí là trái ngược, mâu thuẫn nhau. Khung tranh luận dựa trên hợp nhất niềm tin phân tầng đã được đề xuất để giải quyết tình huống mâu thuẫn này

5.3. TRIỂN KHAI THỰC HIỆN 5.3.1. Thu thập và tiền xử lý dữ liệu 5.3.1. Thu thập và tiền xử lý dữ liệu

5.3.1.1. Thu thập, chọn lọc dữ liệu

Dữ liệu từ từ điển dầu khí Anh – Việt bản in năm 1996, do Viện Dầu khí Việt Nam biên soạn, bao gồm: các khái niệm Tiếng Anh, các khái niệm Tiếng Việt tương ứng với các khái niệm Tiếng Anh, các mô tả Tiếng Việt của các khái niệm, và các hình ảnh, âm thanh, video đi kèm (nếu có). Để đỡ tốn công gõ lại, các khái niệm này được trích xuất từ phiên bản điện tử của từ điển này, do Trung tâm Lưu trữ Dầu khí, Viện Dầu khí Việt Nam thực hiện năm 2010.

Dữ liệu từ Wordnet31 Tiếng Anh được tải về. Sau đó, trích chọn được toàn bộ các khái niệm Tiếng Anh và các quan hệ giữa các khái niệm (độ sự tương tự), kèm theo các thông tin khác, như từ đồng nghĩa, từ trái nghĩa, từ loại, và các quan hệ khác để có thể sử dụng trong tương lai.

Dữ liệu từ Wikipedia32 Tiếng Việt cũng được tải về. Sau đó, trích chọn được toàn bộ các khái niệm Tiếng Việt và các mô tả của các khái niệm, kèm theo các thông tin khác hình ảnh, video, âm thanh đi kèm.

Ba nguồn dữ liệu chính ở trên được thu thập, chọn lọc, tách câu, tách từ, token hóa, loại bỏ từ dừng, từ nối, từ vô nghĩa.

Ngoài ra, danh sách các từ đồng nghĩa Tiếng Việt33 cũng được tải về, chọn lọc, để tăng tính chính xác của việc học ontology khi tính độ tương đồng ngữ nghĩa giữa hai khái niệm. Website này không cung cấp dữ liệu dạng offline

31https://wordnet.princeton.edu

32https://wordnet.princeton.edu

(giống như wordnet) mà chỉ có web api34 để lấy từng dữ liệu. Để lấy dữ liệu này, một công cụ đã được lập trình để duyệt qua tất cả các từ/cụm từ có nghĩa trong từ điển dầu khí, sau đó gọi API của website này để lấy về danh sách các từ đồng nghĩa với từ/cụm từ đang duyệt. Sau đó, dữ liệu này được lưu vào trong CSDL để sử dụng cho việc học ontology.

Danh sách các “từ dừng” Tiếng Việt cũng được tải về từ GitHub35, chọn lọc, sử dụng trong quá trình loại bỏ từ dừng, từ vô nghĩa, để giảm thời gian công sức cho việc so sánh các từ này trong quá trình học ontology.

5.3.1.2. Lựa chọn các công cụ tiền xử lý dữ liệu, lập trình, cơ sở dữ liệu

Công cụ JVNTextPro36 được tải về, được dùng để tách câu, tách từ, gán nhãn từ loại, loại bỏ từ dừng.

Công cụ DKPro37 Java Wikipedia Library được tải về, để truy cập, phân tích dữ liệu Wikipedia.

Công cụ LPU38 được tải về, dùng để cài đặt một số thuật toán LPU khác nhau trong quá trình phân lớp dữ liệu.

Thư viện javascript “GoJS”39 được tải về, được dùng cho việc biểu diễn các mối quan hệ giữa các khái niệm dưới dạng đồ họa.

Công cụ lập trình Microsoft .NET MVC 4.0 (Model-View-Controller), Hệ quản trị CSDL Microsoft SQL Server 2014 được sử dụng để quản trị hệ cơ sở dữ liệu, lập trình để xây dựng phần mềm và các công cụ hỗ trợ với giao diện web- based. Ontology dầu khí Anh – Việt đã được cài đặt tại máy chủ của Viện Dầu khí Việt Nam. Ontology dầu khí Anh - Việt có thể chạy trên hầu hết các hệ điều hành, các trình duyệt phổ biến, và các thiết bị di động, smartphone.

34http://viet.wordnet.vn/wnms/services 35https://github.com/stopwords/vietnamese-stopwords 36http://jvntextpro.sourceforge.net/ 37https://dkpro.github.io/dkpro-jwpl/ 38http://www.cs.uic.edu/~liub/LPU/LPU-download.html 39https://gojs.net

5.3.2. Thực thi ontology dầu khí Anh - Việt trên hệ thống máy tính

Áp dụng khung mô hình học ontology miền dầu khí Anh – Việt, bao gồm 5 phần: Lọc các khái niệm miền dầu khí Tiếng Việt tiềm năng, Học ontology, Đối sánh khái niệm miền dầu khí Tiếng Việt, Học ontology dựa trên học ontology các cơ sở niềm tin phân tầng.

Bước 1. Giai đoạn Lọc các khái niệm miền dầu khí Tiếng Việt tiềm năng. Sau khi thực thi bước 1, Từ điển dầu khí Anh Việt có thể được bổ sung thêm 2.500 khái niệm từ Wikipedia Tiếng Việt để hình thành ontology dầu khí Tiếng Việt với 13.633 khái niệm Tiếng Việt cùng với các thông tin mô tả của chúng.

Bước 2. Giai đoạn học ontology.

Sau khi thực hiện bước 2, Từ điển dầu khí Anh Việt được học ontology với ontology Wordnet để hình thành nên Ontolog Dầu khí Anh – Việt đầu tiên ở Việt Nam với 11.139 khái niệm bổ sung thêm các quan hệ được kế thừa từ ontology Wordnet (mở rộng các mố quan hệ ngữ nghĩa giữa các khái niệm).

Bước 3. Đối sánh khái niệm miền dầu khí Tiếng Việt

Kết quả sau khi thực hiện bước 3, áp dụng thuật toán học với dữ liệu dương và dữ liệu chưa gán nhãn với kết hợp độ đo Google và độ đo Cosine với hệ số  = 0.50, để học ontology các dữ liệu mô tả khái niệm trong từ điển dầu khí Anh Việt và trong Wikipedia Tiếng Việt, đã có 5.084 khái niệm dầu khí được tìm ra. Do đó, từ điển dầu khí Anh Việt được bổ sung thêm 5.084 khái niệm và trở thành ontology dầu khí Tiếng Việt với 16.223 khái niệm Tiếng Việt cùng với các thông tin mô tả của nó.

Bước 4. Bổ sung thành phần Tiếng Việt vào ontology miền dầu khí Tiếng Anh

Bước này chỉ đơn giản bổ sung thành phần Tiếng Việt ở bước 3 vào ontology miền dầu khí Anh-Việt được mở rộng ở bước 2.

Bước 5. Xây dựng ontology dựa trên các cơ sở niềm tin phân tầng

Tri thức của các chuyên gia dầu khí tại Viện Dầu khí Việt Nam (Tập đoàn dầu khí Việt Nam) đã được sử dụng để kiểm tra, chỉnh sửa các lỗi, chính xác hóa

các kết quả của việc học ontology và việc phân lớp dữ liệu, để nâng cao chất lượng của các kết quả học ontology. Các vấn đề phát sinh sự không đồng thuận giữa các chuyên gia đã được xử lý trên phương pháp học ontology dựa trên các cơ sở niềm tin phân tầng.

5.4. KẾT QUẢ

Ontology dầu khí Anh - Việt đã được xây dựng đáp ứng hoàn toàn tất cả các yêu cầu đặt ra, với 11.139 khái niệm dầu khí Tiếng Anh và 16.223 khái niệm dầu khí Tiếng Việt, và các mô tả của chúng trong Tiếng Anh và Tiếng Việt, cùng với 6.823 các mối quan hệ giữa khái niệm thỏa mãn hoàn toàn các yêu cầu đặt ra

Một phần của tài liệu (LUẬN án TIẾN sĩ) nghiên cứu một số mô hình học ontology và ứng dụng trong miền dầu khí (Trang 130 - 150)