Biểu diễn thể hiện đặc trưng dưới dạng vector 29

Một phần của tài liệu Giải pháp gom nhóm đặc trưng đồng nghĩa Tiếng Việt trong đánh giá sản phẩm dựa trên phân lớp bán giám sát SVM - KNN và phân cụm HAC (Trang 40)

L ời cam đ oan iii

3.2.3. Biểu diễn thể hiện đặc trưng dưới dạng vector 29

Mỗi một thể hiện đặc trưng được thể hiện thơng qua ngữ nghĩa và ngữ cảnh đã trích xuất được của chúng. Trước khi bước vào qúa trình phân lớp cho các thể hiện đặc trưng này, chúng tơi thực hiện việc biểu diễn thể hiện đặc trưng dưới dạng vector. Coi tập D gồm cĩ m văn bản, là m cặp <thể hiện đặc trưng, nghĩa>. Mỗi văn bản cần được biểu diễn trong một khơng gian nhiều chiều, trong đĩ mỗi chiều tương ứng với một từ. Như vậy:

- Số chiều trong khơng gian chính là số từ xuất hiện tập D. Tập các từ này được gọi là tập từ vựng.

- Giá trị của mỗi chiều trong khơng gian vector là trọng số được đánh cho từ đĩ trong tập D.

30

Cĩ hai phương pháp đánh trọng số cho từ điển hình, là phương pháp Boolean và phương pháp dựa trên tần số [3]. Phương pháp dựa trên tần số xác định được độ quan trọng của mỗi từ trong mỗi văn bản tốt hơn so với phương pháp Boolean do dựa trên tần số xuất hiện của những từ vựng trong văn bản và tần số xuất hiện của văn bản trong tập D. Do vậy, chúng tơi sử dụng phương pháp đánh trọng số dựa trên tần số để áp dụng trong khĩa luận này. Một phương pháp chuẩn thường được sử dụng dựa trên phương pháp đánh trọng số dựa trên tần số là Term Frequency Inverse Document Frequency (TFIDF). Đây cũng là cơng thức được lựa chọn cho khĩa luận trong việc tính trọng số cho các từ. Hàm tính trọng sốđược xác định bởi cơng thức: , , | | *log( ) l d l d l D TFIDF freq df =

Trong đĩ, tần xuất từ l trong văn bản d : freql,d là số lần xuất hiện của từ l trong văn bản d.

Tần xuất văn bản dfl là số văn bản trong D cĩ chứa từ l .

Trọng số TFIDF của một từ mục biểu diễn độ quan trọng của từ mục.TFIDF của một từ mục trong một tài liệu sẽ giảm nếu như từđĩ xuất hiện trong hầu hết các văn bản. Vì vậy, một từ xuất hiện quá ít hoặc quá nhiều được đánh giá ít quan trọng hơn so với các từ xuất hiện cân bằng.

3.3. Pha 2: Tạo tập huấn luyện cho bộ phân lớp SVM-kNN

Giải pháp đề xuất cho bài tốn gom nhĩm đặc trưng đồng nghĩa dựa trên phương pháp phân lớp bán giám sát SVM-kNN, tức là cần phải xây dựng một bộ phân lớp SVM- kNN từ dữ liệu đã được gán nhãn và dữ liệu chưa được gán nhãn. Các dữ liệu đã được gán nhãn đĩ được gọi là tập huấn luyện.Thơng thường, để tạo tập huấn luyện cho bộ phân lớp SVM-kNN, dữ liệu chưa được gán nhãn cần phải được gán nhãn thủ cơng. Mặc dù, đối với phân lớp bán giám sát thì chỉ cần số lượng dữ liệu được gán nhãn ít hơn nhiều so với dữ liệu chưa được gán nhãn. Tuy nhiên, cơng việc gán nhãn vẫn tốn khá nhiều thời gian và cơng sức. Do vậy, chúng tơi đề xuất một phương pháp trong việc tạo tập huấn luyện cho bộ phân lớp SVM-kNN một cách tự động, khơng địi hỏi việc gán nhãn thủ cơng – Đĩ là sử dụng thuật tốn phân cụm phân cấp tích tụ từ dưới lên (Hierarchyical Agglomerative Clustering – HAC).

31 Tư tưởng chính của thuật tốn HAC:

Thuật tốn HAC là thuật tốn phân cụm được sử dụng rất rộng rãi và được tích hợp vào các ứng dụng thu thập thơng tin [3]. Đầu tiên, mỗi mẫu dữ liệu được coi như một cụm phân biệt.Sau đĩ, tiến hành ghép lần lượt hai cụm giống nhau nhiều nhất hay khác nhau ít nhất làm một.Việc làm này được tiếp tục cho đến khi tất cả các cụm được ghép vào một cụm duy nhất chứa tất cả các mẫu.Hình 10 và hình 11 minh họa các mẫu dữ liệu trước và sau quá trình phân cụm.

Hình 10: Sơđồ các phần tử trước khi phân cụm

32

Mục 3.2.1 và 3.2.2 sẽ trình bày chi tiết việc áp dụng thuật tốn HAC cho bài tốn gom nhĩm đặc trưng đồng nghĩa trong các đánh giá tiếng Việt của khách hàng.

Một phần của tài liệu Giải pháp gom nhóm đặc trưng đồng nghĩa Tiếng Việt trong đánh giá sản phẩm dựa trên phân lớp bán giám sát SVM - KNN và phân cụm HAC (Trang 40)

Tải bản đầy đủ (PDF)

(62 trang)