Một số phương pháp phân loại văn bản:

Một phần của tài liệu (LUẬN văn THẠC sĩ) xác định thông tin dịch bệnh dựa trên phân tích dữ liệu twitter (Trang 35 - 38)

2.3.2.1 Nguyên mẫu (prototype)

Văn bản Tiền xử lý Vector hóa Lớp (chủ đề) của văn bản Sử dụng bộ phân lớp đã huấn luyện Tiền xử lý

Nguyên mẫu (prototype) có thể là phương pháp đơn giản nhất được áp dụng trong phân loại văn bản. Thuật toán của phương pháp này khá đơn giản, mỗi văn bản đầu vào là một vector Di (w1, w2 ,… wk ) trong đó mỗi chiều wi đặc trưng cho một từ loại (term). Một tập tài liệu mẫu sẽ được phân chia làm các lớp văn bản khác nhau và được đặc trưng bởi đại lượng cj (categorization). Có thể có nhiều tài liệu Di trong một lớp tài liệu cj, tuy nhiên để đơn giản người ta xác định trong ci một vector

trung bình (Di). Và sử dụng cosin của góc tạo bởi hai vector (một vector biểu diễn văn bản cần phân loại D, một vector biểu diễn lớp văn bản ci) làm độ đo sự phù hợp giữa văn bản D với loại văn bản ci.

cosin(D,Di) = i i D D D D * *

D sẽ được xác định thuộc vào loại văn bản ci nào mà cosin(D,Di ) là lớn nhất.

Mỗi tài liệu D có thể thuộc một hay nhiều loại văn bản tùy thuộc vào giới hạn mà người quản trị đặt ra.

Ưu điểm của nguyên mẫu là có thể áp dụng cho mọi văn bản, tuy nhiên xác suất của phương pháp này không cao (lí do là có nhiều loại văn bản độ dài giống nhau nhưng nội dung khác hẳn nhau).

2.3.2.2 Thuật toán Cây quyết định (Decision Tree)

Trong lý thuyết quyết định, một cây quyết định là một đồ thị những quyết định và những kết quả có khả năng của chúng (bao gồm cả giá phải trả và độ rủi ro) được sử dụng để tạo ra một đường đi tới đích.

Cây quyết định là một dạng đặc biệt của cấu trúc cây được xây dựng để trợ giúp việc ra quyết định.

Trong lĩnh vực máy học, cây quyết định là một kiểu mô hình dự báo (predictive model), nghĩa là một ánh xạ từ các quan sát về một sự vật/hiện tượng tới các kết luận về giá trị mục tiêu của sự vật/hiện tượng. Mỗi một nút trong (internal node) tương ứng với một biến; đường nối giữa nó với nút con của nó thể hiện một

cho trước các giá trị của các biến được biểu diễn bởi đường đi từ nút gốc tới nút lá đó. Kỹ thuật học máy dùng trong cây quyết định được gọi là học bằng cây quyết định, hay chỉ gọi với cái tên ngắn gọn là cây quyết định.

Học bằng cây quyết định cũng là một phương pháp thông dụng trong khai phá dữ liệu. Khi đó, cây quyết định mô tả một cấu trúc cây, trong đó, các lá đại diện cho các phân loại còn cành đại diện cho các kết hợp của các thuộc tính dẫn tới phân loại đó. Một cây quyết định có thể được học bằng cách chia tập hợp nguồn thành các tập con dựa theo một kiểm tra giá trị thuộc tính. Quá trình này được lặp lại một cách đệ quy cho mỗi tập con dẫn xuất. Quá trình đệ quy hoàn thành khi không thể tiếp tục thực hiện việc chia tách được nữa, hay khi một phân loại đơn có thể áp dụng cho từng phần tử của tập con dẫn xuất. Một bộ phân loại rừng ngẫu nhiên (random forest) sử dụng một số cây quyết định để có thể cải thiện tỉ lệ phân loại.

Cây quyết định cũng là một phương tiện có tính mô tả dành cho việc tính toán các xác suất có điều kiện.

Cây quyết định có thể được mô tả như là sự kết hợp của các kỹ thuật toán học và tính toán nhằm hỗ trợ việc mô tả, phân loại và tổng quát hóa một tập dữ liệu cho trước.

Dữ liệu được cho dưới dạng các bản ghi có dạng: (x, y) = (x1, x2, x3..., xk, y)

Biến phụ thuộc (dependant variable) y là biến mà chúng ta cần tìm hiểu, phân loại hay tổng quát hóa. x1, x2, x3... là các biến sẽ giúp ta thực hiện công việc đó.

Học cây quyết định cũng là một phương pháp rất thông dụng trong khai phá dữ liệu. Trong đó cây quyết định mô tả cấu trúc cây mà ở đó các lá đại diện cho các lớp và các nhánh cây biểu diễn sự kết hợp của các đặc trưng dẫn dắt tới việc phân lớp. Một cây quyết định có thể được học bằng cách chia tập nguồn thành các tập con dựa trên giá trị các thuộc tính kiểm tra. Quá trình này được lặp lại trên từng tập con thu được. Quá trình đệ quy sẽ kết thúc khi không thể chia tiếp được nữa hoặc khi từng phần tử của tập con được gán với một lớp đơn.

(leaf nodes) và các nhánh của nó (branches). Node gốc là điểm bắt đầu của cây quyết định và cả hai node gốc và node chứa câu hỏi hoặc tiêu chí để được trả lời. Nhánh biểu diễn các kết quả của kiểm tra trên nút. Ví dụ câu hỏi ở node đầu tiên yêu cầu câu trả lời là “yes” hoặc là “no” thì sẽ có 1 node con chịu trách nhiệm cho phản hồi là “yes”, 1 node là “no”.

Hình 2.1.3

Tuy nhiên sử dụng phương pháp cây quyết định có thể xảy ra hiện tượng overfit, tức là tồn tại một giả thuyết h phù hợp với tập ví dụ huấn luyện nhưng tiên đoán không chính xác bằng giả thuyết h’ ít phù hợp với tập ví dụ huấn luyện hơn so với h. Để giải quyết vấn đề này chúng ta phải dùng cách chặt bớt cây (pruning), bỏ bớt đi các nhánh dữ liệu nhiễu và dư thừa…

Một vấn đề khác nữa của phương pháp cây quyết định là sự không an định của thuật toán. Tức là, dù chỉ 1 sự thay đổi nhỏ như thêm đỉnh, giảm đỉnh, thêm noise, ... thì kết quả của thuật toán sẽ khác đi rất nhiều.

Với những ưu, khuyết điểm như thế, cây quyết định cũng không phải là 1 phương pháp thường được sử dụng trong bài toán phân loại văn bản.

Một phần của tài liệu (LUẬN văn THẠC sĩ) xác định thông tin dịch bệnh dựa trên phân tích dữ liệu twitter (Trang 35 - 38)

Tải bản đầy đủ (PDF)

(61 trang)