Pha 1. Huấn luyện mô hình

Một phần của tài liệu Các phương pháp xác định mối quan hệ đa nhãn và ứng dụng trong phân lớp đa nhãn tiếng việt luận văn ths công nghệ thông tin 60 48 01 04 pdf (Trang 40 - 43)

Chương 3. Mô hình phân lớp đa nhãn cho văn bản tiếng việt sử dụng mối quan hệ các nhãn

3.3 Pha 1. Huấn luyện mô hình

Tập dữ liệu huấn luyện trong các kĩ thuật học máy giám sát luôn đòi hỏi phải được làm sạch trước khi đưa vào huấn luyện. Trên Internet có rất nhiều thông tin xuất hiện dưới dạng khác nhau. Để lọc nhiễu cho dữ liệu huấn luyện, chúng ta cần bỏ đi những thông tin dưới dạng hình ảnh, âm thanh, quảng cáo, thông tin không nằm trong nội dung của trang web, các thẻ html, …

Từ dừng là các từ mà không có ý nghĩa hoàn chỉnh, ví dụ như từ “và, như, là

…”.Việc phân lớp dữ liệu trên các từ dừng là hoàn toàn vô nghĩa, bởi vậy các từ dừng sẽ bị loại bỏ khỏi dữ liệu. Sau khi loại bỏ các từ dừng, cơ sở dữ liệu sẽ nhỏ hơn, các thuật toán áp dụng sẽ trở lên dễ dàng hơn, chính xác hơn. Việc loại bỏ từ dừng, ta phải xây dựng tập hợp các từ dừng vào tệp sau đó loại bỏ chúng ra khỏi cơ sở dữ liệu mà mình xét.

Do đó, công việc sau khi cho dữ liệu qua mô đun tách câu, tách từ là phải làm sạch dữ liệu thông qua loại bỏ từ dừng, loại bỏ số, chuyển tất cả các kí tự hoa về dạng chữ thường và một số kí tự đặc biệt (_-!@#$%^&*()[]{}\|:;’”?/.,`~).

3.3.2 Biu diễn văn bản trong mô hình vector [3]

3.3.2.1 Đánh trọng số cho từ khóa

Mỗi tài liệu sau khi qua tiền xử lý sẽ bao gồm một tập hợp các từ có nghĩa, mỗi từ được xem như một đặc trưng (feature). Đặc trưng này có thể là từ đơn hay nó được biểu diễn bằng các cụm từ.

Sau khi xác định được các đặc trưng, chúng ta cần tính giá trị đặc trưng (hoặc trọng số từ khóa) cho mỗi văn bản. Mỗi từ mục li trong một tài liệu được gán một trọng số wi. Trọng số từ khóa có thể khác nhau. Ở đây, luận văn sử dụng phương pháp độ đo tần số Term Frequency (TF): tần số xuất hiện của từ, cụm từ trong một văn bản hay một lớp.

3.3.2.2 Phương pháp biểu diễn văn bản

Một văn bản ở dạng thô (dạng chuỗi) cần được chuyển sang một mô hình khác để tạo thuận lợi cho việc biểu diễn và tính toán. Tuỳ thuộc vào từng thuật toán phân loại khác nhau mà chúng ta có mô hình biểu diễn riêng. Một trong những mô hình đơn giản và thường được sử dụng trong nhiệm vụ này là mô hình không gian vector. Một văn bản trong nhiệm vụ này được biểu diễn theo dạng 𝑥⃗, với 𝑥⃗𝜖𝑅𝑛 là một vector n chiều để đo lường giá trị của phần tử văn bản.

Luận văn sử dụng biểu diễn văn bản dưới dạng vector với số chiều của đặc trưng sau khi lựa chọn. Trọng số từ khóa có thể khác nhau. Cách đơn giản nhất là gán trọng số bằng một giá trị nhị phân chỉ ra từ mục có mặt hay không có mặt trong văn bản. Khi đó mỗi văn bản thành một vector đặc trưng theo dạng sau:

<đặc trưng> <giá trị đặc trưng>, <đặc trưng> <giá trị đặc trưng>, <đặc trưng> <giá trị đặc trưng> … <đặc trưng> <giá trị đặc trưng>.

Trong đó:

<đặc trưng> được biểu diễn bằng số nguyên dương, tham chiếu đến tập đặc trưng được lựa chọn trong quá trình tiền xử lý dữ liệu.

<giá trị đặc trưng> được biểu diễn độ quan trọng của thuộc tính trong tập dữ liệu học. mỗi giá trị thuộc tính là một số nguyên dương. (ví dụ giá trị 0 hoặc 1).

3.3.2.3 Quá trình lựa chọn đặc trưng

Biểu diễn văn bản theo các vector đặc trưng sẽ nảy sinh các vấn đề như: cần phải lựa chọn bao nhiêu từ để biểu diễn cho văn bản đó? Và làm thế nào để lựa chọn được những từ đó?

Các đặc trưng của văn bản khi biểu diễn dưới dạng vector:

 Số chiều không gian đặc trưng thường rất lớn

 Việc kết hợp những đặc trưng độc lập thường không mang lại kết quả.

 Vector biểu diễn văn bản có nhiều giá trị 0 do không có đặc trưng trong văn bản.

Khi tập văn bản có kích thước rất lớn, ví dụ gần 3000 tài liệu, tập hợp các tài liệu có số lượng các từ mục khác nhau vô cùng lớn. Do đó, lựa chọn đặc trưng là rất quan trọng cho tập văn bản rất lớn.

Lựa chọn đặc trưng là chọn ra những từ, cụm từ mang nhiều thông tin và loại bỏ những từ, cụm từ chứa lượng thông tin thấp. Đối với bài toán phân lớp đa nhãn, số lượng nhãn và các từ rất lớn nên việc quản lý chúng trở nên khó khăn, đồng thời làm cho việc xử lý dữ liệu và thời gian học các bộ phân lớp tăng lên đáng kể.

Hướng giải quyết là lựa chọn đặc trưng: chọn nhãn, chọn từ theo tần suất văn bản (Document Frequency). Tần suất văn bản là số tài liệu mà một từ mục xuất hiện.

Để lựa chọn từ mục theo phương pháp tần suất văn bản, ta cần phải tính tần suất văn bản với mỗi từ mục trong tập dữ liệu học. Sau đó, ta loại bỏ những từ mục có tần suất nhỏ hơn một ngưỡng nào đó (ví dụ 2000 từ mục) để thu được không gian từ mục nhỏ

3.3.3 Học máy đa nhãn

Luận văn sử dụng các phương pháp phân lớp đa nhãn đã trình trong chương 2:

Binary Relevance, Classifier Chain, Calibrated Label Ranking và Collective Multi- Label Classifier. Với mỗi phương pháp MLL, luận văn sử dụng một nền tảng khác nhau:

Binary relevance: Nạve Bayes

Classifier Chain: J48

Calibrated Label Ranking: SVN

Collective Multi-Label Classifier: Maximun Entropy

Phương pháp Nạve Bayes khá cổ điển được sử dụng đầu tiên bởi Maron vào năm 1991. Nạve Bayes dựa vào xác suất p (x|y) trong đĩ x là một đặc trưng, y là nhãn đang xét. Ý tưởng của thuật toán này là sử dụng xác suất có điều kiện giữa các từ trong chủ đề để tính xác suất văn bản cần phân loại thuộc vào chủ đề đó. Phương pháp giả định sự xuất hiện của tất cả các từ trong văn bản là độc lập với nhau. Như vậy sẽ không đánh giá được sự phụ thuộc của cụm từ vào một chủ đề cụ thể. Điều đó giúp phương pháp tính toán nhanh hơn các phương pháp khác với độ phức tập theo số mũ.

Cây quyết định là một cấu trúc cây giống biểu đồ luồng, trong đó mỗi nút trong là một bộ kiểm tra giá trị cho một đặc trưng xác định. Mỗi nhánh thể hiện một kết quả của quá trình kiểm tra và mỗi lá đại diện cho các lớp hoặc phân bố của lớp.

Nút trên cùng của cây là nút gốc.

Thuật toán máy vector hỗ trợ (Support Vector Machine – SVM): được Corters và Vapnik giới thiệu vào năm 1995. SVM rất hiệu quả để giải quyết các bài toán với dữ liệu có số chiều lớn (như các vector biểu diễn văn bản). Ý tưởng của thuật toán này là cho trước tập huấn luyện được biểu diễn trong không gian vector trong đó mỗi văn bản là một điểm, phương pháp tìm ra một siêu mặt phẳng h quyết định tốt nhất có thể chia các điểm trên không gian này thành 2 lớp riêng biệt tương ứng lớp + và lớp -. Hiệu quả xác định siêu mặt phẳng này được quyết định bởi khoảng cách của điểm gần mặt phẳng nhất của mỗi lớp. Khoảng cách càng lớn thì mặt phẳng quyết định càng tốt đồng nghĩa với việc phân loại càng chính xác và ngược lại. Mục đích cuối cùng của phương pháp là tìm được khoảng cách biên lớn nhất.

3.3.4 Học máy đa nhãn và tích hợp độ gn nhau gia các nhãn

Sử dụng các phương pháp học máy đa nhãn như đã trình bày ở trên, luận văn sẽ đưa vào việc tích hợp độ gần nhau giữa các nhãn, các từ vào các phương pháp đã trình bày.

Cụ thể, sau khi tiền xử lý văn bản đầu vào, luận văn sẽ sử dụng công cụ word2vec để huấn luyện vector biểu diễn của các từ trên tập văn bản đầu vào đó và tính khoảng cách các nhãn (mà đã được xác định sau quá trình lựa trọn đặc trưng) cho

việc phân lớp. Khoảng cách các nhãn này sẽ được sử dụng để tích hợp vào giải thuật học đa nhãn theo như các phương pháp đã đề xuất ở chương 2. Chương tiếp thep sẽ trình bày rõ hơn về thực nghiệm cho việc tích hợp các độ gần nhau các nhãn vào phương pháp học máy đa nhãn.

Một phần của tài liệu Các phương pháp xác định mối quan hệ đa nhãn và ứng dụng trong phân lớp đa nhãn tiếng việt luận văn ths công nghệ thông tin 60 48 01 04 pdf (Trang 40 - 43)

Tải bản đầy đủ (PDF)

(55 trang)