Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 44 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Tiêu đề
Phân Loại Văn Bản Tiếng Việt Bằng Phương Pháp Phân Tích Cú Pháp
Định dạng
Số trang
44
Dung lượng
210,04 KB
Nội dung
MỤC LỤC MỤC LỤC BẢNG DANH MỤC HÌNH HOẠ .3 LỜI GIỚI THIỆU I Đặt vấn đề .6 II Cơ sở lý thuyết Khái niệm Text Mining a Khai phá dữ liệu (Data Mining) .7 b Khai phá dữ liệu văn bản (Text Mining) .8 Bài toán phân loại văn bản (Text categorization) 10 a Khái niệm phân loại văn bản .10 b Các phương pháp phân loại văn bản 11 b.1 Sử dụng từ điển phân cấp chủ đề 11 b.1.1 Giải thuật phân lớp phân cấp chủ đề 11 b.1.2 Sự phù hợp phân biệt trọng số 12 b.2 Phương pháp định (Decision tree) 13 Bài tốn thu thập thơng tin (Information retrieval - IR) 14 a Khái niệm thu thập thông tin .14 b Các phương pháp thu thập thông tin 16 b.1 Các phương pháp chuẩn 16 b.1.1 Mơ hình Boolean 16 b.1.2 Mơ hình khơng gian vec-tơ (Vector space model - VSM) 18 b.2 Các phương pháp dựa trí tuệ nhân tạo (AI-based method) .21 b.2.1 Kỹ thuật mạng Nơ-ron (Neural network) .22 Một số công cụ phân tích văn bản tiếng Anh 26 III Các giải pháp áp dụng cho Vietnamese Text Mining 29 Đặc trưng văn bản tiếng Việt 29 a Các đơn vị tiếng Việt .29 a.1 Tiếng đặc điểm tiếng .29 a.1.1 Tiếng giá trị ngữ âm 29 a.1.2 Tiếng giá trị ngữ nghĩa 29 a.1.3 Tiếng giá trị ngữ pháp .29 a.2 Từ đặc điểm từ 30 a.2.1 Từ đơn vị nhỏ để đặt câu 30 a.2.2 Từ có nghĩa hoàn chỉnh cấu tạo ổn định 30 a.3 Câu đặc điểm câu 30 a.3.1 Câu có ý nghĩa hoàn chỉnh .30 a.3.2 Câu có cấu tạo đa dạng 30 b Các phương tiện ngữ pháp tiếng việt 31 b.1 Trong phạm vi cấu tạo từ 31 b.2 Trong phạm vi cấu tạo câu 31 c Từ tiếng việt 32 c.1 Từ đơn - từ ghép .32 c.2 Từ loại .32 c.3 Dùng từ cấu tạo ngữ 33 d Câu tiếng việt .34 d.1 Câu đơn .34 d.2 Câu ghép 35 d.2.1 Câu ghép song song .35 d.2.2 Câu ghép qua lại 35 d.2.3 Các thành phần câu 35 e Các đặc điểm tả văn bản tiếng Việt .36 Các giải pháp, đánh giá hiệu quả, đề giải pháp cho phân tích văn bản tiếng Việt 36 a Bài toán phân loại văn bản tiếng Việt 36 b Bài tốn thu thập thơng tin từ văn bản tiếng Việt 37 IV Xây dựng thử chương trình tách thuật ngữ tiếng Việt theo phương pháp cổ điển 38 Chương trình tốn giải 38 Kết quả chạy chương trình 38 TÀI LIỆU THAM KHẢO .39 PHỤ LỤC 40 Các thông tin báo cáo 40 Cách chạy chương trình demo 40 TỪ ĐIỂN THUẬT NGỮ 41 BẢNG DANH MỤC HÌNH HOẠ Hình 1: Một ví dụ định Hình Mơ hình thu thập thơng tin chuẩn Hình Đồ thị biểu diễn vec-tơ báo D1 D2 Hình 4: Đồ thị biểu diễn quan hệ giữa truy vấn (query) tài liệu D1, D2 Hình Mạng nơ-ron: tốn tử AND (a) tốn tử OR (b) Hình Mạng nơ-ron với lớp ẩn: tốn tử NOR Hình 7: Mơ hình biểu diễn mạng nơ-ron Hình 8: Minh hoạ cơng cụ TextAnalyst Hình 9: Minh hoạ công cụ TextAnalyst nhúng Internet Explorer LỜI GIỚI THIỆU Ngày nay, sở dữ liệu trở thành phần thiếu xã hội lồi người Trong kỉ ngun thơng tin này, thơng tin lưu trữ xử lý hiệu quả hầu hết thông qua sở dữ liệu Sau gần 50 năm phát triển, sở dữ liệu có những bước tiến vô quan trọng lịch sử Cơng nghệ thơng tin Từ mơ hình Cơ sở dữ liệu quan hệ E.Codd đề xuất từ những năm 60, ứng dụng công nghệ thông tin thực biến việc lưu trữ dữ liệu trở thành lưu trữ thông tin thông qua công cụ quản lý xử lý sở dữ liệu Ngày nay, nhu cầu lưu trữ xử lý thông tin có mặt khắp nơi Ở bất cứ tổ chức nào, với bất kỳ mơ hình hay quy mơ cũng có những nhu cầu lưu trữ khai thác thông tin Khái niệm thông tin bao gồm cả thông tin nội tổ chức thông tin môi trường tổ chức hoạt động Việc nghiên cứu lý thuyết sở dữ liêu trở thành ngành khoa học ứng dụng Do những tiến vượt bậc nghiên cứu lý thuyết cũng cài đặt thực tế, hệ quản trị sở dữ liệu trở thành tảng, phần cốt yếu hoạt động tổ chức Nhờ chúng mà tổ chức hoạt động hiệu quả Việc ứng dụng sở dữ liệu giúp làm giảm nhiều công sức lao động người nhờ đó hiệu suất lao động họ cao Hệ quản trị sở dữ liệu ngày không còn đơn thuần chỉ cấu cho phép lưu trữ số liệu mà còn kèm theo đó cơng cụ, tiện ích hay phương pháp luận để chuyển đổi số liệu thành thông tin Tập tất cả công cụ người dùng phát triển nhà cung cấp phần mềm tung để phục vụ cho mục đích hoạt động tổ chức, tối ưu theo những yêu cầu nghiệp vụ tổ chức gọi ứng dụng hỗ trợ xử lý tác nghiệp Cao nữa, nhu cầu sử dụng thông tin mức cao cấp để hỗ trợ nhu cầu phân tích nhà lãnh đạo, nhà lập chiến lược tổ chức, loại ứng dụng đời phục vụ cho mục đích với tên gọi “hệ phân tích xử lý trực tuyến” Ở ứng dụng này, thông tin lưu trữ, xử lý kết xuất theo mục đích cụ thể dạng hướng chủ đề Nhờ thơng tin dạng mà phân tích, nhà lãnh có thể đưa định hoạt động cách hiệu quả Khi mơ hình dữ liệu phát triển mức độ cao hơn, thông tin lưu trữ dạng dữ liệu phong phú đa dạng hơn, người ta nhận còn nhiều tri thức còn tiềm ẩn dữ liệu mà mức phân tích trước đó khơng phát Lý vấn đề phân tích trước đó chỉ hướng mục đích cụ thể người Các mục đích cố định phân tích hồn tồn người đưa hồn cảnh cụ thể Khi thơng tin phản ánh mơi trường thay đởi người khơng nhận để điều chỉnh phân tích đưa phân tích Các tri thức đó có thể hướng kinh doanh, dự báo thị trường, cũng có thể mối quan hệ giữa trường hay nội dung dữ liệu mà người khơng hình dung tiến hành mơ hình hố hệ thống Vì thế, ngành nghiên cứu Phát tri thức sở dữ liệu (Knowledge Discovery in Database) đời với toán Khai phá dữ liệu (DataMining) làm trung tâm nghiên cứu Các tư tưởng nghiên cứu tḥt tốn Trí tuệ nhân tạo Hệ chuyên gia áp dụng thu những kết quả quan trọng như: định, mạng nơron Hầu hết thuật toán nghiên cứu cho DataMining tập trung nguồn số liệu có cấu trúc (structured data) Nhưng phần lớn thông tin mà lưu trữ trao đổi ngày lại lưu trữ dạng dữ liệu bán cấu trúc (semi-structured data) phi cấu trúc (non-structured data) Ví dụ nhà xuất bản, hệ thống trang web website, tập cơng văn, giấy tờ, báo cáo, thư tín điện tử cơng ty Thậm chí ta có thể nhận thấy hệ quản trị sở dữ liệu (nơi mà dữ liệu lưu trữ có cấu trúc) dữ liệu kiểu text vẫn chiếm tỷ lệ cao Do đó vấn đề đặt làm để có thể tìm kiếm khai thác tri thức từ nguồn dữ liệu vậy Các kỹ thuật để giải vấn đề gọi kỹ thuật "TextMining" hay Khai phá dữ liệu văn bản Bài tốn Khai phá dữ liệu văn bản khơng chỉ tập trung vào hay nhóm thông tin lưu trữ dạng văn bản, vấn đề đặt làm có thể Khai phá thông tin theo lịch sử, từ khứ hướng dự đoán tương lai Những tri thức tưởng trừng vơ ích q khứ có thể phát để sử dụng cho mục đích sau Một số toán quan trọng Khai phá dữ liệu văn bản hay xét đến toán “Text Classification”, “Text Sumarization”, “Text Categorization” Trên giới có nhiều thành công đề tài phân lớp văn bản nghiên cứu hãng IBM, phòng thí nghiệm MIT hay viện nghiên cứu trường đại học Mỹ, Pháp, Nhật Bản, Canada Tuy nhiên, thành công đó chủ yếu tập trung vào vấn đề nghiên cứu văn bản tiếng Anh, tiếng Pháp Những ngôn ngữ ngôn ngữ tương đối thuận lợi xử lý Hiện nay, chưa có công cụ coi hiệu quả lĩnh vực khai phá văn bản tiếng Việt Nền Công nghệ thông tin nước ta phát triển hết sức mạnh mẽ Do nhu cầu hội nhập, nhu cầu phát triển kinh tế, văn hoá, Xã hội ngày tăng, thông tin xử lý thông qua văn bản điện tử, qua web, qua email phát triển với tốc độ chóng mặt Từ đó, nhu cầu nghiên cứu xây dựng công cụ Khai phá dữ liệu văn bản tiếng Việt hết sức coi trọng Trong đề tài thực tập này, em xin trình bày nghiên cứu tổng quan em Text Mining ứng dụng nó thu thập thông tin từ liệu văn phân loại liệu văn Mục đích đề tài hướng tới phát triển công cụ phân loại văn bản tiếng Việt nghiên cứu sau đề tài luận văn tốt nghiệp Em xin chân thành cảm ơn thầy Nguyễn Ngọc Bình giúp em nhiều trình hướng dẫn em nghiên cứu đề tài Em xin cảm ơn anh Lưu Anh Tuấn giúp em số định hướng trình nghiên cứu đề tài I Đặt vấn đề Như biết, hầu hết thông tin trao đổi nằm dạng tài liệu văn bản Các thông tin đó có thể báo, tài liệu kinh doanh, thông tin kinh tế, nghiên cứu khoa học Dù áp dụng Cơ sở dữ liệu vào hoạt động tổ chức phở biến đem lại nhiều lợi ích lưu trữ xử lý, ta quên còn nhiều dạng thông tin khác lưu trữ dạng văn bản Thậm chí cả thông tin lưu sở dữ liệu phần lớn số chúng cũng tở chức dạng văn bản Hiện nay, tổ chức áp dụng công nghệ thông tin vào quản lý hệ thống cơng văn giấy tờ, ví dụ hệ thống sử dụng Lotus Node Tuy nhiên đó chỉ thực cách quản lý luồng dữ liệu văn bản, cung cấp công cụ kho chứa, còn dữ liệu vẫn thực nằm dạng văn bản Chúng ta chưa có giải thuật phân loại, tìm kiếm tài liệu, cơng cụ trích lọc thơng tin nhằm mục đích thống kê, phát tri thức, định trực tiếp nguồn dữ liệu kiểu Với thực tế đó, vấn đề đặt làm có thể khai thác những thông tin hữu ích từ nguồn tài liệu văn bản nói chung Các nguồn dữ liệu phải xử lý để người dùng có thể có những cơng cụ tự động hố trợ giúp việc phát tri thức khai thác thông tin Rõ ràng, phải hiểu rõ bản chất dữ liệu văn bản, hiểu rõ đặc trưng dữ liệu loại để có thể có những phương pháp luận cần thiết Việc khai thác thông tin từ nguồn dữ liệu văn bản tổ chức Việt Nam chắn phải dựa vào những kết quả nghiên cứu văn bản nói chung, dữ liệu văn bản kỹ thuật xử lý phát triển giới Tuy nhiên, những văn bản tiếng Việt lại có những đặc trưng riêng nó Ta có thể nhận thấy khác biệt mặt kí pháp, cú pháp ngữ pháp tiếng Việt văn bản so với ngôn ngữ phổ biến giới tiếng Anh, tiếng Pháp Vậy những đặc trưng ảnh hưởng đến kỹ thuật khai phá dữ liệu văn bản, ta cần phải có những ký thuật để có thể tận dụng những ưu tiếng Việt cũng giải những phức tạp tiếng Việt Để trả lời những câu hỏi này, đồ án từ những bước nghiên cứu Khai phá dữ liệu văn bản, tìm hiểu những đặc trưng tiếng Việt, từ đó đề phương hướng giúp giải toán phân loại văn bản tiếng Việt phức tạp nghiên cứu cao Các kết quả nghiên cứu đề tài thực tập bước tiến đầu tiên cho luận văn tốt nghiệp em với đề tài “Phân loại văn tiếng Việt phương pháp phân tích cú pháp.” II Cơ sở lý thuyết Khái niệm Text Mining a Khai phá dữ liệu (Data Mining) Việc sử dụng sở dữ liệu vào hoạt động tổ chức phát triển vòng 60 năm trở lại Với dữ liệu thu thập suốt q trình hoạt động tở chức, nhu cầu đặt tìm kiếm khai thác tri thức từ những dữ liệu đó Đó xuất phát điểm tốn Phát tri thức từ sở dữ liệu Người ta nhận thấy có nhiều tri thức mà không lường trước còn tiềm ẩn dữ liệu, nhiệm vụ phát hiện, khám phá tri thức đó, phục vụ cho những nhu cầu sử dụng thơng tin cao hơn, ví dụ hệ chuyên gia hay hệ hỗ trợ định Khai phá dữ liệu giai đoạn chủ yếu trình Phát tri thức từ sở dữ liệu Quá trình khai phá tri thức thực sau trình thu thập tinh lọc dữ liệu, có nghĩa chỉ tìm mẫu tri thức (pattern) có ý nghĩa tập dữ liệu có hy vọng chứ khơng phải tồn CSDL phương pháp thống kê trước Vì vậy khai phá dữ liệu bao gồm việc thử tìm mô hình phù hợp với dữ liệu tìm kiếm các mẫu hình tri thức từ dữ liệu theo mô hình đó Mặc dù mẫu hình có thể tìm từ CSDL chỉ những mẫu phù hợp với mục đích tìm kiếm gọi tri thức Ta có những hàm số để đánh giá tiêu chí mẫu mới, có lợi, đáng được xem xét Độ mẫu hình phụ thuộc vào khung phạm vi quy chiếu, có thể hệ thống người dùng Ví dụ với dữ liệu cơng ty, q trình Khai phá dữ liệu tìm luật Lợi tức thu giảm vào mùa thu vùng phía Bắc, hệ thống mới, trước chưa có bất cứ cán lập kế hoạch cũng nhận điều qua báo cáo tài Tính hữu dụng mẫu có thể đo qua liên quan đến mục đích tìm kiếm Với cán phụ trách bảo trì máy tính cơng ty ḷt khơng có giá trị, Có thể qua công đoạn khai phá tri thức có nhiều mẫu lấy không phải mẫu cũng có giá trị, có thể mới, hữu ích lại tầm thường, đặc biệt áp dụng kỹ thuật dựa thống kê Do đó ln phải có tiêu chí hàm đánh mẫu đáng xem xét, không tầm thường Tóm lại, Khai phá dữ liệu thực có thể coi trình xác định mẫu từ Datawarehouse, sử dụng kỹ thuật sẵn có học máy, nhận dạng, thống kê, phân oại kỹ thuật phát triển ngành nghiên cứu trí tuệ nhân tạo Mạng nơ- ron nhân tạo (neutral network), thuật toán di truyền (generic algorithm), quy nạp luật rule reduction) Ta có thể xét đến số tốn nghiên cứu Khai phá dữ liệu - Bài toán phân lớp (classification): Tìm ánh xạ (phân loại) từ mẫu dữ liệu vào lớp cho trước - Bài toán hời quy (regression): Tìm ánh xạ hồi quy từ mẫu dữ liệu vào biến dự đoán có giá trị thực - Bài toán lập nhóm ( clustering): Là việc mơ tả chung để tìm tập xác định hữu hạn nhóm hay loại để mô tả dữ liệu - Bài toán tổng kết (summarization): Là việc tìm kiếm mơ tả chung tóm tắt cho tập dữ liệu b Khai phá dữ liệu văn (Text Mining) Khai phá dữ liệu văn bản hay phát tri thức từ sở dữ liệu văn bản (textual databases) đề cập đến tiến trình trích lọc mẫu hình thơng tin (pattern) hay tri thức (knowledge) đáng quan tâm có giá trị (non-trivial) từ tài liệu văn bản phi cấu trúc Quá trình có thể coi việc mở rộng kỹ thuật Khai phá dữ liệu truyền thống, ch úng ta thấy (đã đề cập trên) kỹ thuật Khai phá dữ liệu truyền thống (DataMining) hướng tới việc phát tri thức từ sở dữ liệu có cấu trúc Thông tin lưu trữ dạng nguyên sơ văn bản Thậm chí ta có thể thấy dữ liệu tồn dạng văn bản còn có khối lượng lớn nhiều so với dữ liệu có cấu trúc khác Thực tế, những nghiên cứu gần cho thấy có đến 80% thông tin tổ chức nằm dạng văn bản Đó có thể công văn giấy tờ, biểu mẫu điều tra, phiếu đặt hàng, yêu cầu khiếu nại, giải quyền lợi, thư tín điện tử (email), thông tin website thương mại Khi nghiên cứu sở dữ liệu đời vào những năm 60, người ta tưởng có thể lưu loại thông tin dạng dữ liệu có cấu trúc Nhưng thực tế sau gần 50 năm phát triển, người ta vẫn dùng hệ thống lưu trữ dạng văn bản thậm trí còn có xu hướng dùng thường xuyên Từ đó người ta có thể tin sản phẩm Khai phá dữ liệu văn bản có thể có giá trị thương mại cao nhiều lần so với sản phẩm Khai phá dữ liệu truyền thống khác Tuy nhiên ta cũng có thể thấy kỹ thuật Khai phá dữ liệu văn bản phức tạp nhiều so với kỹ thuật Khai phá dữ liệu truyền thống phải thực dữ liệu văn bản vốn dạng phi cấu trúc có tính mờ (fuzzy) Một ví dụ cho tốn khai phá dữ liệu văn bản, phân tích báo nghiên cứu khoa học, ta có thông tin sau: - “stress bệnh liên quan đến đau đầu” - “stress xuất có thể thiếu Magê máu” - “Canxi có thể ngăn cản số chứng đau đầu” - “Magê nguyên tố điều hoà canxi tự nhiên máu” Sau phân tích thơng tin quan trọng này, hệ thống cần phải đưa suy luân cụ thể mang tính cách mạng: - “Thiếu hụt Magê có thể gây số bệnh đau đầu” Rõ ràng có phân tích suy luận mức độ cao Để đạt khà vậy cần phải có những cơng trình nghiên cứu trí tuệ nhân tạo tiên tiến Bài toán Khai phá dữ liệu văn bản toán nghiên cứu đa lĩnh vực, bao gồm nhiều kỹ thuật cũng hướng nghiên cứu khác nhau: thu thập thông tin (information retrieval), phân tích văn bản (text analysis), chiết xuất thơng tin (information extraction), lập đoạn (clustering), phân loại văn bản (categorization), hiển thị trực quan (visualization), công nghệ sở dữ liệu, học máy (machine learning) bản thân kỹ thuật Khai phá dữ liệu Trong đề tài em chủ yếu đề cập đến hai toán cụ thể, đó toán phân loại liệu văn (Text categorization) tốn thu thập thơng tin (information retrieval) Các nghiên cứu chỉ dừng lại bước tìm hiểu, khảo sát, so sánh tiền đề cho nghiên cứu cụ thể sau mà mục đích trước mắt phục vụ cho luận văn tốt nghiệp Với hệ thống Khai phá văn bản thường bao gồm ba bước chính: - Bước tiền xử lý: Ở bước này, hệ thống chuyển văn bản từ dạng phi cấu trúc dạng có cấu trúc Ví dụ, với văn bản Tổ chức này to lắm, hệ thống cố gắng phân tích thành Tở chức|này|to|lắm Các từ lưu riêng rẽ cách có cấu trúc để tiện cho việc xử lý - Loại bỏ thông tin khơng cần thiết Ở bước này, phân tích tìm cách loại bỏ thơng tin vơ ích từ văn bản Bước phụ thuộc nhiều vào ngôn ngữ phân tích kỹ thuật dùng để phân tích ỏ bước Ví dụ, kỹ thuật phân tích văn bản chỉ dựa vào xác xuất xuất từ khoá, đó ta có thể loại bỏ từ phụ như: nếu, thì, thế nhưng, vậy… - Khai phá dữ liệu giản lược với kỹ thuật khai phá dữ liệu (data mining) truyền thống Có nhiều kỹ thuật phương pháp tốt sử dụng cho Text Mining để tìm kiến trúc mới, mẫu mới, liên kết Các bước tiền xử lý kỹ thuật phức tạp nhằm phân tích phân lớp đặc biệt thành thuộc tính đặc biệt, sau đó tiến hành áp dụng phương pháp khai phá dữ liệu kinh điển tức phân tích thống kê phân tích liên kết Các bước còn lại khai phá cả văn bản đầy đủ từ tập văn bản, ví dụ phân lớp văn bản Mục tiêu cuối Text Mining thường đường lối hiệu quả, hoàn thiện, đặc trưng để trình diễn tìm kiếm tập hợp rộng lớn văn bản Do đó, kỹ thuật Text Mining có thể phân phân thành nhiệm vụ mà chúng thực xử lý khai phá văn bản: loại thông tin mà chúng có thể trích loại phân tích thực chúng Các loại thơng tin trích có thể là: - Các nhãn: Giả sử, liên kết với mỗi văn bản tập nhãn thao tác khai phá tri thức thực nhãn mỗi văn bản Nói chung, có thể giả sử nhãn tương ứng với từ khố, mỡi từ khố có quan hệ với chủ đề cụ thể đó - Các từ: Ở giả sử văn bản gán nhãn với từ xuất văn bản đó - Các thuật ngữ: Ở với mỡi văn bản tìm thấy chuỗi từ, chuỗi từ đó thuộc lĩnh vực đó đó việc tìm khai phá văn bản thực khai niệm gán nhãn cho mỗi văn bản Ưu điểm phương pháp thuật ngữ tách có xu hướng tập trung vào thông tin quan trọng văn bản hai phương pháp trước Các loại kết hợp: - Kết hợp thông thường: Một số thuật toán trước giả sử dữ liệu nguyên mẫu tạo lập dân để trợ giúp cho kỹ thuật xử lý ngôn ngữ tự nhiên Các cấu trúc có dẫn thực tế có thể sử dụng sở cho việc xử lý khai phá tri thức - Các phân cấp thuật ngữ: Ở mỗi văn bản đính với thuật ngữ lấy từ phân cấp thuật ngữ Sau đó, hệ thống phân tích phân bố nội dung thuật ngữ hậu duệ thuật ngữ liện quan đến hậu duệ khác phân bố liên kết phép đo khác nhằm khai thác quan hệ giữa chúng Loại liên kết có thể cũng sử dụng để lọc tổng hợp chủ đề tin tức - Khai phá văn đầy đủ: Không giống loại liên kết thông thường thực thao tác mù quáng dẫn văn bản, kỹ thuật sử dụng lợi nội dụng nguyên mẫu văn bản Kỹ thuật gọi “trích văn bản nguyên mẫu” Bài toán phân loại văn (Text categorization) a Khái niệm phân loại văn Phân loại văn bản (Text categorization) xử lý nhóm tài liệu thành lớp khác hay phân nhóm (categories) Đây tác vụ phân lớp liên quan đến việc định xử lý Với mỗi xử lý phân nhóm, đưa tài liệu, định đưa nó có thuộc lớp hay khơng Nếu nó thuộc phân lớp đó phải chỉ phân lớp mà nó thuộc vào Ví dụ, đưa chủ đề thể thao, cần phải đưa định chủ đề đó thuộc phân lớp cờ vua, quần vợtt, cầu lông, bơi lội hay bất cứ môn thể thao khác Các hệ thống phân loại văn bản thường làm việc với thuật toán tự học (learning algorithm) Thuật toán đó cung cấp tập mẫu để