Sơ đồ phân loại câu hỏi với SVM

Trong hình Hình 2.3, bước tiền xử lý thực hiện chức năng làm tinh lọc dữ liệu (loại bỏ từ dừng hay stop words), sau đĩ câu hỏi được rút trích các đặc trưng (các đặc trưng được lựa chọn từ trước), dữ liệu đầu vào của bộ phân loại SVM sẽ là tập các véc-tơ đặc trưng.

2.2.2. Phân loại sử dụng giải thuật cây quyết định và rừng ngẫu nhiên

Giải thuật cây quyết định (Decision Tree) là phương pháp xấp xỉ giá trị các hàm mục tiêu rời rạc (Mitchell, 1997). Giải thuật này là một trong các phương pháp được sử dụng rộng rãi trong học quy nạp từ tập dữ liệu lớn. Trong đĩ, hàm học của phương pháp này là một cây cĩ bậc tùy ý, bao gồm các lá và nhánh, mỗi lá là đại diện cho một lớp và các nhánh là các điều kiện, đặc trưng dẫn đến lớp ở đỉnh lá. Một ưu điểm của phương pháp cây quyết định là cĩ thể chuyển dễ dàng sang dạng cơ sở tri thức là các luật “Nếu…Thì” (If…Then).

Rừng ngẫu nhiên (Random Forest - RF) là thuật tốn học cĩ giám sát được sử dụng cho cả phân loại và hồi quy. Về mặt kỹ thuật, RF là một phương pháp tổng hợp các cây quyết định được tạo ra trên một tập dữ liệu được chia ngẫu nhiên (Tin Kam, 1995).

Thuật tốn của giải thuật RF được mơ tả như sau: 1. Chọn các mẫu ngẫu nhiên từ tập dữ liệu đã cho.

2. Thiết lập cây quyết định cho từng mẫu và nhận kết quả dự đốn từ mỗi cây. 3. Bỏ phiếu bầu cho mỗi kết quả dự đốn.

4. Chọn kết quả được dự đốn nhiều nhất là dự đốn cuối cùng.

Ưu điểm của RF là phương pháp chính xác và mạnh mẽ vì số cây quyết định tham gia vào quá trình này, khơng bị vấn đề quá khớp (overfitting). Tuy nhiên, hạn chế của nĩ là chậm tạo dự đốn do cĩ nhiều cây quyết định.

2.2.3. Phân loại với các kỹ thuật học sâu

Ngồi các kỹ thuật phân loại sử dụng các giải thuật học máy như máy véc-tơ hỗ trợ SVM, k láng giềng gần nhất kNN, mạng Nạve Bayes, cây quyết định hay rừng ngẫu nhiên như trình bày trên, gần đây các phương pháp tiếp cận dựa trên học sâu đã chứng

Tiền xử lý Rút trích đặc

trưng Phân lớp SVMMulti

minh khả năng phân loại với độ chính xác cao và cĩ thể mở rộng trên các tập dữ liệu cĩ quy mơ lớn (Aristodemou and Tietze, 2018). Các cách tiếp cận học sâu tập trung vào thơng tin dạng văn bản và áp dụng các kỹ thuật xử lý ngơn ngữ tự nhiên khác nhau để phát triển các bộ phân loại tự động như mạng nơ-ron tích tập (Convolutional Neural Network - CNN), bộ nhớ ngắn dài hạn (LSTM)... Các kỹ thuật học sâu sẽ được trình bày chi tiết ở nội dung giới thiệu về các kỹ thuật của hệ thống gợi ý, vì một trong những kỹ thuật phổ biến nhất để dự đốn xếp hạng và gợi ý là phân loại.

2.3. Các kỹ thuật tính tốn độ tương đồng văn bản 2.3.1. Độ tương đồng 2.3.1. Độ tương đồng

Đa số các giải pháp đánh giá hiệu quả của một hệ thống tìm kiếm thơng tin là dựa vào khái niệm tương đồng (similarity). Về lý thuyết, một tài liệu được cho là tương đồng với một truy vấn nếu như nội dung tài liệu đĩ trả lời được cho nhu cầu thơng tin của người dùng chứ khơng phải là tài liệu đĩ cĩ chứa đầy đủ các từ khĩa của câu truy vấn mơ tả cho nhu cầu thơng tin của người dùng (Truong Quoc-Dinh et al., 2014). Việc đánh giá độ tương đồng sẽ thay đổi theo ngữ cảnh cũng như theo quan điểm, kiến thức, học vấn và kinh nghiệm của người dùng.

Trong lĩnh vực xử lý ngơn ngữ tự nhiên, cá thể được so sánh là từ, câu, đoạn văn và văn bản. Ví dụ: câu “A là sinh viên Trường Đại học Cần Thơ” và câu “B là sinh viên Trường Đại học Cần Thơ” là hai câu khá tương đồng. Về mặt kỹ thuật, độ tương đồng văn bản cĩ thể được tính tốn dựa trên nhiều cách tiếp cận khác nhau.

2.3.2. Một số phương pháp tính độ tương đồng văn bản 2.3.2.1. Độ tương đồng văn bản dựa trên tập từ chung 2.3.2.1. Độ tương đồng văn bản dựa trên tập từ chung

Ở cách tiếp cận này, văn bản được biểu diễn dưới dạng mơ hình đồ thị, mỗi đỉnh trong đồ thị là một câu trong văn bản, trong khi đĩ mỗi cạnh nối hai đỉnh trong đồ thị biểu diễn mối liên hệ giữa hai câu. Trọng số của một cạnh chính là giá trị độ tương đồng của hai câu. Thơng thường, độ tương đồng được tính dựa trên ba phương pháp.

Phương pháp thứ nhất là tính độ tương đồng giữa hai chuỗi bằng khoảng cách Jaro (Winkler, 1990). Với phương pháp Jaro, khoảng cách hai câu s1 và s2 được tính như sau: 𝑑𝑑=13(𝑚𝑚/|𝑠𝑠1| +𝑚𝑚/|𝑠𝑠2| + (𝑚𝑚 − 𝑡𝑡)/𝑚𝑚), trong đĩ m là số từ giống nhau, t là ½ số bước chuyển. Mỗi từ trong câu thứ nhất được so sánh với tất cả các từ trong câu thứ hai để tính độ tương đồng giữa hai câu.

Phương pháp thứ hai là mơ hình tương phản (Tversky, 1977). Độ tương đồng giữa hai câu A và B được tính như sau: 𝑆𝑆𝑖𝑖𝑚𝑚(𝐴𝐴,𝐵𝐵) =∝∗ 𝑔𝑔(𝐴𝐴 ∩ 𝐵𝐵)− 𝛽𝛽 ∗ 𝑔𝑔(𝐴𝐴 − 𝐵𝐵)− 𝛾𝛾 ∗ 𝑔𝑔(𝐵𝐵 − 𝐴𝐴), trong đĩ ∝,𝛽𝛽,𝛾𝛾 là trọng số xác định trong quá trình thực nghiệm tìm kiếm tham số.

Phương pháp thứ ba là hệ số Jaccard, gọi là hệ số tương tự (Jaccard, 1901), là một độ đo tương tự của các tập hợp dựa trên phương pháp thống kê. Theo đĩ, độ tương đồng giữa hai câu A và B được tính như sau: 𝑆𝑆𝑖𝑖𝑚𝑚(𝐴𝐴,𝐵𝐵) = |𝐴𝐴 ∩ 𝐵𝐵|/|𝐴𝐴 ∪ 𝐵𝐵|

2.3.2.2. Độ tương đồng văn bản dựa trên véc-tơ biểu diễn

Văn bản sau khi tiền xử lý được biểu diễn dưới dạng mơ hình khơng gian véc-tơ, mỗi thành phần trong véc-tơ là mỗi một từ tương ứng trong văn bản. Một số phương pháp tính độ tương đồng văn bản dựa trên véc-tơ biểu diễn như sau:

Độ tương đồng cosine: Số từ trong văn bản trước khi véc-tơ hĩa chính là số phần tử của véc-tơ sau khi véc-tơ hĩa, mỗi phần tử của véc-tơ thể hiện mức độ quan trọng của từ đĩ trong văn bản. Giả sử véc-tơ của hai văn bản cần so sánh lần lượt là:

Di = <𝑊𝑊1𝑖𝑖, …, 𝑊𝑊𝑡𝑡𝑖𝑖> với 𝑊𝑊𝑡𝑡𝑖𝑖 là trọng số của từ thứ t trong khơng gian véc-tơ i.

Dj = <𝑊𝑊1𝑗𝑗, …, 𝑊𝑊𝑡𝑡𝑗𝑗> với 𝑊𝑊𝑡𝑡𝑗𝑗 là trọng số của từ thứ t trong khơng gian véc-tơ j.

Khi đĩ, độ tương đồng cosine của hai văn bản Di và Dj được tính như biểu thức

2.3: 𝑆𝑆𝑖𝑖𝑚𝑚(𝐷𝐷𝑖𝑖𝑗𝑗) = � 𝑊𝑊𝑘𝑘 𝑖𝑖 𝑊𝑊𝑘𝑘𝑗𝑗 𝑡𝑡 𝑘𝑘=1 �� 𝑊𝑊𝑡𝑡 𝑘𝑘𝑖𝑖�2 𝑘𝑘=1 ∗ �𝑡𝑡 �𝑊𝑊𝑘𝑘𝑗𝑗�2 𝑘𝑘=1 2.3 Ngồi ra, cịn cĩ những phương pháp tính độ tương đồng văn bản dựa trên véc-tơ biểu diễn như độ tương đồng dựa vào khoảng cách Euclide, độ tương đồng dựa vào khoảng cách Manhattan.

2.3.2.3. Độ tương đồng ngữ nghĩa của văn bản

Các nghiên cứu đánh giá độ tương đồng ngữ nghĩa giữa hai văn bản đều sử dụng véc-tơ đặc trưng ngữ nghĩa của văn bản. Mỗi thành phần trong véc-tơ này được thiết lập từ việc tính độ tương đồng của một từ trong văn bản với các từ trong văn bản cịn lại, trọng số của thành phần là độ đo tương tự lớn nhất (Li et al., 2004).

Giả sử cĩ hai văn bản d1, d2 lần lượt cĩ m1, m2 từ vựng đã được tách trong văn bản; wij là từ thứ j thuộc văn bản thứ i. Tập từ của hai văn bản d1 và d2 được biểu diễn như sau: T1 = {w11, w12, …, w1m1}; T2 = {w21, w22, …, w2m2}

T là phép hợp của T1 và T2: T = T1 ∪ T2 = {w1, w2, …, wm}. Trong đĩ, m là số lượng từ. Véc-tơ đặc trưng ngữ nghĩa của văn bản T1 và T2 lần lượt biểu diễn là V1 = (v11, v12, …, v1m), V2 = (v21, v22, …, v2m). Độ tương đồng ngữ nghĩa (tương đồng cosine) của hai văn bản được tính dựa trên hai véc-tơ đặc trưng ngữ nghĩa V1 và V2 được tính như biểu thức 2.4: 𝑆𝑆𝑠𝑠(𝑇𝑇1 ,𝑇𝑇2 ) =|𝑉𝑉(𝑉𝑉1 .𝑉𝑉2 ) 1 | . |𝑉𝑉2| = ∑ 𝑣𝑣𝑚𝑚 1𝑖𝑖 .𝑣𝑣2𝑖𝑖 𝑖𝑖=1 �∑𝑚𝑚 𝑣𝑣1𝑖𝑖2 𝑖𝑖=1 �∑ 𝑣𝑣2𝑖𝑖𝑚𝑚 2 𝑖𝑖=1 2.4 Giá trị 𝑆𝑆𝑠𝑠(𝑇𝑇1 ,𝑇𝑇2 ) trong khoảng (0, 1), giá trị càng lớn thì độ tương đồng hai văn

2.3.2.4. Độ tương đồng văn bản dựa vào thứ tự của từ trong văn bản

Sau độ tương đồng ngữ nghĩa của văn bản, độ tương đồng về thứ tự từ là thành phần quan trọng của độ tương đồng văn bản. Cùng một tập từ giống nhau nhưng nếu trình bày trật tự khác nhau trong văn bản sẽ cĩ ý nghĩa khác, thậm chí hai ý nghĩa trái ngược nhau. Ví dụ: Cho trước hai tập văn bản như sau: T1 = {em, thương, cơ_giáo}; T2 = {cơ_giáo, thương, em}. Hai tập từ T1 và T2 chứa những từ hồn tồn giống nhau, chỉ sai khác về thứ tự của cặp từ “em”, “cơ_giáo”. Vì thế cĩ thể nĩi việc hai tập từ hồn tồn giống nhau chưa chắc mang ý nghĩa giống nhau.

Nghiên cứu về trật từ trong văn bản, nhĩm tác giả Li et al. (2004) đã nghiên cứu phương pháp tính độ tương đồng thứ tự từ như sau:

Từ hai văn bản T1 và T2, phép hợp của hai tập từ (những từ phân biệt) được xác định: T = T1 ∪ T2. Véc-tơ đặc trưng thứ tự từ của hai văn bản lần lượt là R1 = (r11, r12, …, r1m) và R2 = (r21, r22, …, r2m) được xác định như sau:

Véc-tơ thứ tự từ biểu diễn thứ tự của mỗi từ wi thuộc T ở vị trí nào trong mỗi văn bản T1 và T2. Với mỗi từ wi thuộc T, ta lần lượt xét: Nếu wi cĩ trong T1 thì r1i là số thứ tự wi trong T1; nếu khơng tồn tại wi trong T1 thì r1i là 0. Tương tự, ta xét đối với T2.

Véc-tơ đặc trưng của từ biểu diễn thơng tin về cấu trúc từ trong văn bản. Từ hai véc-tơ đặc trưng thứ tự từ, độ tương đồng về trật tự hai văn bản được xác định như biểu thức 2.5: 𝑆𝑆𝑟𝑟 = 1−|𝑅𝑅1 − 𝑅𝑅2 | |𝑅𝑅1 + 𝑅𝑅2 | = �∑𝑚𝑚 (𝑟𝑟1𝑖𝑖 − 𝑟𝑟2𝑖𝑖)2 𝑖𝑖=1 �∑𝑚𝑚 (𝑟𝑟1𝑖𝑖 + 𝑟𝑟2𝑖𝑖)2 𝑖𝑖=1 2.5

2.4. Các kỹ thuật xây dựng mạng ngữ nghĩa phục vụ tìm kiếm

Khi sử dụng các máy tìm kiếm thơng thường thì việc tìm kiếm thơng tin sẽ khơng tận dụng được những ưu điểm vượt trội của web ngữ nghĩa (semantic web). Một hệ thống tìm kiếm ngữ nghĩa thực hiện tìm kiếm trên web ngữ nghĩa hay trên một mạng tri thức mang ngữ nghĩa cĩ kết quả trả về là thơng tin cĩ cấu trúc hồn chỉnh mà máy tính cĩ thể “hiểu” được, nhờ đĩ việc sử dụng hay xử lý thơng tin trở nên dễ dàng hơn (Cohen

et al., 2003; Gunter, 2009). Máy tìm kiếm ngữ nghĩa được xây dựng dựa trên những kỹ

thuật, cơng nghệ khác nhau của những nền tảng nhất định. Để mơ tả chi tiết cấu trúc của một máy tìm kiếm ngữ nghĩa, trước hết cần cĩ các nền tảng cho tìm kiếm ngữ nghĩa. Web ngữ nghĩa và mơ hình dữ liệu biểu diễn về lĩnh vực (ontology) là hai nền tảng chính cho việc thực hiện cơng việc này.

2.4.1. Khái quát về web ngữ nghĩa

Web ngữ nghĩa (semantic web) là sự mở rộng của web hiện tại theo cách thơng tin được xác định ý nghĩa tốt hơn, cho phép máy tính và người cộng tác với nhau tốt hơn (Berners-Lee, 1998). Khơng giống như cơng nghệ web thơng thường, nội dung chỉ bao

hàm các siêu văn bản, liên kết, hình ảnh hay video, semantic web cĩ thể bao gồm những tài nguyên thơng tin trừu tượng như con người, tổ chức, địa điểm, thậm chí là một sự kiện trong đời sống. Ngồi ra, liên kết trong semantic web khơng chỉ đơn thuần là các siêu liên kết (hyperlink) giữa các tài nguyên mà cịn chứa nhiều loại liên kết, quan hệ khác, vì vậy đặc điểm này khiến nội dung của semantic web đa dạng hơn, chi tiết và đầy đủ hơn (Gunter, 2009).

Kiến trúc của semantic web bao gồm các tầng được mơ tả như Hình 2.4. Cụ thể, tầng Unicode và URI bảo đảm việc sử dụng tập ký tự quốc tế và cung cấp phương tiện nhằm định danh các đối tượng trong semantic web. Tầng XML cùng với các định nghĩa về namespace và schema bảo đảm rằng chúng ta cĩ thể tích hợp các định nghĩa semantic web với các chuẩn dựa trên XML khác. Trong khi đĩ, tầng RDF và RDF Schema (RDFS) cĩ thể tạo các phát biểu (statement) để mơ tả các đối tượng với những từ vựng và định nghĩa của URI; các đối tượng này cĩ thể được tham chiếu đến bởi những từ vựng và định nghĩa của URI ở trên. Đây cũng là tầng cĩ thể gán các kiểu (type) cho các tài nguyên và liên kết, cũng là tầng quan trọng nhất trong kiến trúc semantic web.

Hình 2.4: Kiến trúc phân tầng của semantic web (Berners-Lee et al., 2001)

Bên cạnh đĩ, tầng Ontology hỗ trợ sự tiến hĩa của từ vựng vì nĩ cĩ thể định nghĩa mối liên hệ giữa các khái niệm khác nhau, tầng Digital Signature được dùng để xác định chủ thể của tài liệu (ví dụ như tác giả của một tài nguyên học tập hay một lời tuyên bố). Các Tầng Logic, Proof, Trust đang trong giai đoạn nghiên cứu và các thể hiện của các ứng dụng giản đơn đang được xây dựng. Tầng Logic cho phép viết ra các luật (rule) trong khi tầng Proof thi hành các luật và cùng với tầng Trust đánh giá nhằm quyết định ứng dụng nên hay khơng nên tin tưởng/chấp nhận (trust) chứng cứ (proof).

Để xây dựng hệ thống semantic web thay thế cho web hiện tại, các nhà nghiên cứu tập trung nghiên cứu theo ba hướng chính gồm: chuẩn hố ngơn ngữ biểu diễn dữ liệu (XML) và siêu dữ liệu (RDF) trên web; chuẩn hố các ngơn ngữ biểu diễn ontology cho web cĩ ngữ nghĩa; và phát triển nâng cao web cĩ ngữ nghĩa (SWAD).

2.4.2. Mơ hình dữ liệu biểu diễn về lĩnh vực (ontology) 2.4.2.1. Khái niệm ontology 2.4.2.1. Khái niệm ontology

Một trong những ý tưởng chính của semantic web là dữ liệu cĩ nghĩa cĩ thể được chia sẻ giữa các máy tính ở dạng mơ hình dữ liệu biểu diễn về miền hay cịn gọi là ontology, cho phép tạo ra những dạng dữ liệu tồn cầu (Berners-Lee et al., 2001).

Hiện nay, cĩ nhiều khái niệm về ontology. Theo (Brewster and O'Hara, 2004), ontology là biểu hiện một tập các khái niệm hay đối tượng (concepts), trong một miền cụ thể và những mối quan hệ (relationships) giữa các khái niệm này. Trong khi đĩ, Studer et al. (1998) cho rằng ontology là sự đặc tả chính quy, tường minh của các khái niệm được chia sẻ. Một phát biểu khác cho rằng, các ontology mơ hình hĩa lĩnh vực sử dụng khái niệm (concepts), thuộc tính (attributes) và quan hệ (relations) (Gruber, 1993).

2.4.2.2. Thành phần của Ontology

Hầu hết ontology mơ tả các cá thể/thể hiện (individuals/instances), các lớp hay khái niệm (classes/concepts), thuộc tính (attributes) và quan hệ (relations). Các thành phần chính của ontology được mơ tả như Hình 2.5 (Kaushal, 2011).

Các cá thể hay thể hiện (individuals/instances) là các thành phần cơ bản và quan trọng của một ontology. Các cá thể trong một ontology cĩ thể bao gồm các đối tượng cụ thể như con người, động vật, vật thể hoặc các cá thể trừu tượng như các từ ngữ. Trong khi đĩ, các lớp hay khái niệm (classes/concepts) là các nhĩm, tập hợp các đối tượng trừu tượng. Lớp cĩ thể chứa các cá thể, các lớp khác hay bao gồm cả hai. Một lớp cĩ thể chứa các lớp con, cĩ thể là một lớp tổng quan (chứa tất cả mọi thứ), cĩ thể là lớp chỉ chứa những cá thể riêng biệt. Các thuộc tính (attributes) trong ontology mơ tả các đối tượng trong ontology. Mỗi thuộc tính cĩ tên và giá trị của thuộc tính; thuộc tính được sử dụng lưu trữ các thơng tin mà đối tượng cĩ thể cĩ. Các mối quan hệ (relations) mơ tả mối quan hệ giữa các đối tượng trong ontology. Một mối quan hệ là một thuộc tính cĩ giá trị là một đối tượng nào đĩ trong ontology.

Hệ thống gợi ý tài nguyên học tập

Phân loại tuyến tính với SVM