Kết quả thực nghiệm kiểm tra độ tương đồng của một- 123docz.net

Lĩnh vực: Cơng nghệ; SIM threshold > 20%

1 Xây dựng quy trình tính

tốn cấp phối cho bê tơng

Bài báo 1: Nghiên cứu tận dụng rác thải nhựa gia cơng

bê tơng làm vật liệu xây dựng. SIM = 0,274

tự lèn trên cơ sở tối ưu cấp Bài báo 2: Phát triển thuật tốn xử lý ảnh để phát hiện phối cốt liệu và thể tích vữa và ước lượng khoảng cách từ hệ camera đến tâm quả cà

chua chín trên cây. SIM = 0,210

Stt Bài báo kiểm tra

Kết quả trả về

2 Hiện trạng nghề khai thác lưới kéo và lưới rê (Tàu <90 CV) ở tỉnh Kiên Giang

Bài báo 1: Ứng dụng cơng nghệ semi biofloc trong

nuơi tơm thẻ chân trắng. SIM = 0,417

Bài báo 2: Phân tích hiệu quả kỹ thuật và tài chính của

nghề lưới kéo xa bờ (90 CV) ở tỉnh Bến Tre. SIM = 0,351

Lĩnh vực: Khoa học tự nhiên; SIM threshold > 40%

3 Mờ hĩa chuỗi thời gian dựa Bài báo 1: Dự báo đỉnh mặn tại các trạm đo chính vào bài tốn phân tích

chùm

củatỉnh Cà Mau bằng mơ hình chuỗi thời gian mờ; SIM

= 0,427

Bên cạnh việc tìm kiếm dựa trên độ tương đồng của một bài báo với tập dữ liệu bài báo cĩ sẵn được phân loại, kiểm tra độ tương đồng của hai bài báo nhất định cũng được thực nghiệm. Ngưỡng threshold được đặt để so sánh hai bài báo, sau khi tính tốn độ tương đồng, hệ thống trả về kết quả như một ví dụ ở Bảng 4.5.

Bảng 4.5 : Kết quả thực nghiệm kiểm tra độ tương đồng hai bà i báo cho trước

Stt

Bài báo thứ 1

Sinh khối rừng tràm vườn quốc gia U Minh

Bài báo thứ 2

Sinh khối và khả năng hấp thụ CO2 của rừng tràm khu SIM threshold > 30% Kết quả SIM = 0,556 Thượng, tỉnh Kiên Giang

bảo tồn thiên nhiên Lung Ngọc Hồng

Như vậy, với việc xây dựng mơ hình phân loại cho tập tài liệu cĩ sẵn, mơ hình tìm kiếm dựa trên tính độ tương đồng của văn bản phù hợp cho việc tìm kiếm tài nguyên học tập mà đầu vào là dạng một tài liệu (thực nghiệm của nghiên cứu này là bài báo khoa học). Dữ liệu đầu vào đã được tiền xử lý, rút trích đặc trưng, véc-tơ hĩa và biểu diễn dưới dạng TF-IDF và thứ tự từ. Sau đĩ, tính độ tương đồng ngữ nghĩa (tương đồng cosine) và tương đồng về thứ tự từ của tài liệu. Cuối cùng kết hợp hai độ tương đồng này để cĩ được độ tương đồng văn bản. Kết quả thử nghiệm trên tập dữ liệu tạp chí khoa học tiếng Việt cho thấy cách tiếp cận được đề xuất khá phù hợp để tìm kiếm các tài liệu, văn bản cĩ độ tương đồng nhất định.

4.3. Tìm kiếm tài nguyên học tập dựa trên mạng ngữ nghĩa ontology

Hiện nay, hầu hết các tài nguyên học tập của các trường đại học được lưu trữ dưới dạng các tập tin được số hĩa, tuy nhiên các tập tin chưa được sắp xếp theo hệ thống cơ sở dữ liệu chuẩn nhất định. Trong khi đĩ, các website tìm kiếm và các cơng cụ hỗ trợ quản lý chưa đáp ứng được nhu cầu tìm kiếm một cách chính xác và nhanh chĩng; việc tìm kiếm vẫn cịn nhiều vấn đề, chẳng hạn như tài nguyên học tập khĩ lấy, kết quả tìm kiếm dư thừa và chỉ cĩ thể được tìm kiếm thơng qua từ khĩa mà thiếu sự hỗ trợ ngữ nghĩa (Wu, 2018). Vì vậy, các mơ hình tìm kiếm theo ngữ nghĩa sử dụng miền ontology giúp xử lý và truy xuất tài liệu tốt hơn và được quan tâm hiện nay (Yu, 2019).

Hiện nay, nhiều nghiên cứu liên quan vấn đề tìm kiếm ngữ nghĩa đã được thực hiện. Chẳng hạn, tìm kiếm tài nguyên học tập dựa trên độ tương đồng văn bản như trình bày ở phần trên (Dien et al., 2019) đề cập đến độ tương đồng về mặt ngữ nghĩa thơng qua việc sử dụng véc-tơ đặc trưng ngữ nghĩa. Ngồi ra, tìm kiếm thơng tin dựa trên ontology đang trở thành một lĩnh vực được quan tâm theo hướng tiếp cận sử dụng ontology và web ngữ nghĩa, được nhiều nhĩm tác giả nghiên cứu (Alfred et al., 2014; Tang and Chen, 2015; Okuboyejo et al., 2018). Thực tế, nguồn tài nguyên học tập cĩ nhiều dạng tài liệu thuộc những lĩnh vực khác nhau, do đĩ cần xây dựng mạng ngữ nghĩa (ontologies), trong đĩ mỗi ontology mơ tả những tài liệu cùng một lĩnh vực. Để tìm kiếm trên đạt kết quả tốt, ngồi việc xây dựng mạng ngữ nghĩa chất lượng (cần kiến thức chuyên gia), cần cĩ mơ hình phân loại (classification) hiệu quả để xác định lĩnh vực của câu truy vấn của người dùng, từ đĩ tiến hành tìm kiếm trên nội miền để cĩ kết quả tìm kiếm nhanh hơn, thỏa mãn nhu cầu người dùng.

Để giải quyết bài tốn nêu trên, một giải pháp tìm kiếm tài nguyên học tập dựa trên mạng ngữ nghĩa ontology biểu diễn thơng tin các giáo trình, bài giảng được đề xuất. Khi người dùng nhập vào từ khĩa hay câu truy vấn, hệ thống sẽ tiền xử lý và phân loại để xác định lĩnh vực tương ứng của câu truy vấn nhằm thu hẹp khơng gian tìm kiếm, sau đĩ thực hiện tìm kiếm trên ontology tương ứng để trả về kết quả là các giáo trình, bài giảng cĩ liên quan.

4.3.1. Mơ hình đề xuất

Bên cạnh tìm kiếm tài liệu dựa trên độ tương đồng văn bản như đề cập ở phần trước, mơ hình tìm kiếm tài nguyên học tập dựa trên ngữ nghĩa ontology cũng được đề xuất. Đối với hệ thống tìm kiếm tài nguyên học tập cĩ quan tâm đến vấn đề ngữ nghĩa, giai đoạn đầu tiên là xử lý câu truy vấn để xác định nĩ thuộc miền hay lĩnh vực nào, từ đĩ thực hiện tìm kiếm trên miền ontology tương ứng. Việc phân loại câu truy vấn cĩ vai trị quan trọng nhằm giới hạn khơng gian tìm kiếm, giúp cho quá trình tìm kiếm nhanh và chính xác hơn (Brown, 2004; Mishra et al., 2013).

Kiến trúc tổng quát của mơ hình tìm kiếm theo ngữ nghĩa được mơ tả chi tiết như Hình 4.2. Quá trình phân loại văn bản được sử dụng kỹ thuật máy véc-tơ hỗ trợ (SVM). Đây là kỹ thuật được nhiều nhà nghiên cứu sử dụng (Brown, 2004). Việc xây dựng ontology và xử lý dữ liệu sẽ được trình bày trong các phần tiếp theo.

Hình 4.2: Lưu đồ kiến trúc hệ thống tìm kiếm ngữ nghĩa4.3.1.1. Thiết kế ontology 4.3.1.1. Thiết kế ontology

Trong khuơn khổ nghiên cứu này, hệ thống tìm kiếm theo ngữ nghĩa về tài nguyên học tập trong lĩnh vực Cơng nghệ thơng tin được xây dựng (gồm 4 lĩnh vực: Hệ thống thơng tin, Khoa học máy tính, Kỹ thuật phần mềm, Mạng máy tính và truyền thơng), tuy nhiên nghiên cứu này cĩ thể mở rộng sang các lĩnh vực khác một cách tương tự. Miền thơng tin được quan tâm ở đây bao gồm: Thơng tin về tên bài giảng (lecture_name), thơng tin về nội dung bài giảng (lecture_content), thơng tin về lĩnh vực/chủ đề (topic) chứa bài giảng đĩ. Các Lớp và Thuộc tính được mơ tả như Hình 4.3.

Hình 4.3: Lớp và thuộc tính của ontology

Lớp Thing là lớp cha (is_superclass_of) của tất cả các lớp cịn lại như: Lecture,

Lecture_name, Lecture_content, Topic. Các lớp con (is_subclass_of) của lớp Thing

cũng cĩ thể cĩ các lớp con khác. Các lớp Lecture, Lecture_name, Lecture_content, Topic cĩ quan hệ anh em với nhau (sibling class). Thuộc tính liên kết cĩ trong ontology,

ví dụ như liên kết have - cĩ chứa (thể hiện liên kết của một cá thể thuộc lớp Topic) thì cĩ chứa các Lecture_name, hay liên kết contain_in - được chứa (mơ tả một quan hệ giữa lớp Lecture_content) thì được chứa ở lớp Lecture_name nào; thuộc tính refer liên kết giữa các Lecture_content, nội dung bài giảng này cĩ liên kết đến nội dung bài giảng khác hoặc liên kết với nội dung trong cùng một bài giảng như Hình 4.4.

Hình 4.4: Liên kết giữa các nội dung bài giảng

Trong Hình 4.5, lớp Lecture_name chứa các bài giảng thuộc phạm vi cơng nghệ thơng tin đã xác định; một bài giảng cĩ thể cĩ nhiều nội dung bài giảng. Lớp

Lecture_content được trích lọc lấy ra từ một bài giảng; nhiều nội dung bài giảng thuộc một bài giảng. Trong Hình 4.5 được tĩm tắt như sau:

(1) Topic cĩ chứa Lecture (2) Lecture thuộc Topic

(3) Lecture_name cĩ chứa Lecture_content (4) Lecture_content được chứa ở Lecture_name (5) Lecture_content liên kết đến Lecture_content

Cơng cụ Protégé 5.2.0 để xây dựng cơ sở dữ liệu OWL phục vụ cho truy vấn dữ liệu được sử dụng trong. Tập tin OWL dùng làm cơ sở dữ liệu kết hợp với thư viện mã nguồn mỡ Jena của ngơn ngữ lập trình Java thực hiện truy vấn lấy kết quả trả về phía người dùng. Ngơn ngữ SPARQL dùng để truy vấn dữ liệu trong Ontology.

4.3.1.2. Phân loại câu truy vấn

Như đã đề cập, trong mơ hình tìm kiếm tài nguyên học tập theo ngữ nghĩa, bước đầu tiên là xử lý câu truy vấn (query) để nhận định query đĩ thuộc lĩnh vực nào nhằm thu hẹp khơng gian tìm kiếm, nâng cao độ chính xác của kết quả tìm kiếm. Việc phân loại cũng nhằm mục đích xác định nội miền và lĩnh vực của query.

Cĩ một số nghiên cứu về phân loại câu truy vấn theo hướng tiếp cận biểu thức chính quy dựa vào những luật ngữ pháp viết tay (hand-written grammar rulers) để xác định lớp của câu hỏi đầu vào (Van Durme et al., 2003). Tuy nhiên, hướng tiếp cận này vẫn cĩ những hạn chế nhất định như số lớp của bộ phân loại nhỏ, khơng thích hợp khi tích hợp vào một hệ thống tìm kiếm ngữ nghĩa cĩ quy mơ lớn (Li and Roth, 2002, Hacioglu and Ward, 2003). Do vậy, một hướng tiếp cận khác để giải quyết bài tốn phân loại văn bản là theo hướng tiếp cận xác suất (Brown, 2004), bao gồm học máy (machine learning) và mơ hình hĩa ngơn ngữ (language modeling), trong đĩ hướng tiếp cận dựa trên học máy được nhiều nhà nghiên cứu quan tâm. Cĩ nhiều giải thuật phân loại văn bản được sử dụng để phân loại query, sau khi thử nghiệm một vài giải thuật, nhĩm tác giả đề xuất sử dụng giải thuật SVM vì tính hiệu quả của nĩ trong phân loại văn bản.

4.3.2. Mơ tả dữ liệu

Từ các lĩnh vực đã được xác định, các giáo trình, bài giảng liên quan được thu thập. Sau đĩ, xây dựng từ điển cho các lĩnh vực cơng nghệ thơng tin, trích lọc các câu (record) từ các tài liệu thu thập được. Sau khi tiền xử lý dữ liệu, các bước tách từ, loại bỏ từ dừng (stop words)... thực hiện. Dữ liệu sau khi xử lý thu được gồm cĩ 1.114 record với số chiều của véc-tơ là 1.336 (số thuộc tính) như Bảng 4.6.

Bảng 4.6: Dữ liệu sau khi được xử lý Stt 1 Lĩnh vực Hệ thống thơng tin # record Tổng record 131 # thuộc tính 2 3 4 Khoa học máy tính Kỹ thuật phần mềm

Mạng máy tính và truyền thơng

325 114 544

1.114 1.336

4.3.3. Kết quả thực nghiệm

Để phân loại dữ liệu, giải thuật SVM được sử dụng; mơ hình phân loại được đánh giá dựa vào các chỉ số độ chính xác (precision), độ bao phủ (recall) và độ đo F1 thể hiện như Bảng 4.7. Kết quả thực nghiệm cho thấy hiệu quả phân loại của các giải thuật SVM là khá tốt, cho độ chính xác > 95%.

Kết quả thực nghiệm kiểm tra độ tương đồng của một số bài báo

Một số kỹ thuật phân loại văn bản

Tổng quan về hệ thống gợi ý