Phân Loại Văn Bản Tiếng Việt Bằng Phương Pháp Phân Tích Cú Pháp.docx

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	44
Dung lượng	210,04 KB

Nội dung

LỜI GIỚI THIỆU MỤC LỤC MỤC LỤC 1 BẢNG DANH MỤC HÌNH HOẠ 3 LỜI GIỚI THIỆU 4 I Đặt vấn đề 6 II Cơ sở lý thuyết 7 1 Khái niệm Text Mining 7 a Khai phá dữ liệu (Data Mining) 7 b Khai phá dữ liệu văn bả[.]

MỤC LỤC MỤC LỤC BẢNG DANH MỤC HÌNH HOẠ .3 LỜI GIỚI THIỆU I Đặt vấn đề .6 II Cơ sở lý thuyết Khái niệm Text Mining a Khai phá dữ liệu (Data Mining) .7 b Khai phá dữ liệu văn bản (Text Mining) .8 Bài toán phân loại văn bản (Text categorization) 10 a Khái niệm phân loại văn bản .10 b Các phương pháp phân loại văn bản 11 b.1 Sử dụng từ điển phân cấp chủ đề 11 b.1.1 Giải thuật phân lớp phân cấp chủ đề 11 b.1.2 Sự phù hợp phân biệt trọng số 12 b.2 Phương pháp định (Decision tree) 13 Bài tốn thu thập thơng tin (Information retrieval - IR) 14 a Khái niệm thu thập thông tin .14 b Các phương pháp thu thập thông tin 16 b.1 Các phương pháp chuẩn 16 b.1.1 Mơ hình Boolean 16 b.1.2 Mơ hình khơng gian vec-tơ (Vector space model - VSM) 18 b.2 Các phương pháp dựa trí tuệ nhân tạo (AI-based method) .21 b.2.1 Kỹ thuật mạng Nơ-ron (Neural network) .22 Một số công cụ phân tích văn bản tiếng Anh 26 III Các giải pháp áp dụng cho Vietnamese Text Mining 29 Đặc trưng văn bản tiếng Việt 29 a Các đơn vị tiếng Việt .29 a.1 Tiếng đặc điểm tiếng .29 a.1.1 Tiếng giá trị ngữ âm 29 a.1.2 Tiếng giá trị ngữ nghĩa 29 a.1.3 Tiếng giá trị ngữ pháp .29 a.2 Từ đặc điểm từ 30 a.2.1 Từ đơn vị nhỏ để đặt câu 30 a.2.2 Từ có nghĩa hoàn chỉnh cấu tạo ổn định 30 a.3 Câu đặc điểm câu 30 a.3.1 Câu có ý nghĩa hoàn chỉnh .30 a.3.2 Câu có cấu tạo đa dạng 30 b Các phương tiện ngữ pháp tiếng việt 31 b.1 Trong phạm vi cấu tạo từ 31 b.2 Trong phạm vi cấu tạo câu 31 c Từ tiếng việt 32 c.1 Từ đơn - từ ghép .32 c.2 Từ loại .32 c.3 Dùng từ cấu tạo ngữ 33 d Câu tiếng việt .34 d.1 Câu đơn .34 d.2 Câu ghép 35 d.2.1 Câu ghép song song .35 d.2.2 Câu ghép qua lại 35 d.2.3 Các thành phần câu 35 e Các đặc điểm tả văn bản tiếng Việt .36 Các giải pháp, đánh giá hiệu quả, đề giải pháp cho phân tích văn bản tiếng Việt 36 a Bài toán phân loại văn bản tiếng Việt 36 b Bài tốn thu thập thơng tin từ văn bản tiếng Việt 37 IV Xây dựng thử chương trình tách thuật ngữ tiếng Việt theo phương pháp cổ điển 38 Chương trình tốn giải 38 Kết quả chạy chương trình 38 TÀI LIỆU THAM KHẢO .39 PHỤ LỤC 40 Các thông tin báo cáo 40 Cách chạy chương trình demo 40 TỪ ĐIỂN THUẬT NGỮ 41 BẢNG DANH MỤC HÌNH HOẠ Hình 1: Một ví dụ định Hình Mơ hình thu thập thơng tin chuẩn Hình Đồ thị biểu diễn vec-tơ báo D1 D2 Hình 4: Đồ thị biểu diễn quan hệ giữa truy vấn (query) tài liệu D1, D2 Hình Mạng nơ-ron: tốn tử AND (a) tốn tử OR (b) Hình Mạng nơ-ron với lớp ẩn: tốn tử NOR Hình 7: Mơ hình biểu diễn mạng nơ-ron Hình 8: Minh hoạ cơng cụ TextAnalyst Hình 9: Minh hoạ công cụ TextAnalyst nhúng Internet Explorer LỜI GIỚI THIỆU Ngày nay, sở dữ liệu trở thành phần thiếu xã hội lồi người Trong kỉ ngun thơng tin này, thơng tin lưu trữ xử lý hiệu quả hầu hết thông qua sở dữ liệu Sau gần 50 năm phát triển, sở dữ liệu có những bước tiến vô quan trọng lịch sử Cơng nghệ thơng tin Từ mơ hình Cơ sở dữ liệu quan hệ E.Codd đề xuất từ những năm 60, ứng dụng công nghệ thông tin thực biến việc lưu trữ dữ liệu trở thành lưu trữ thông tin thông qua công cụ quản lý xử lý sở dữ liệu Ngày nay, nhu cầu lưu trữ xử lý thông tin có mặt khắp nơi Ở bất cứ tổ chức nào, với bất kỳ mơ hình hay quy mơ cũng có những nhu cầu lưu trữ khai thác thông tin Khái niệm thông tin bao gồm cả thông tin nội tổ chức thông tin môi trường tổ chức hoạt động Việc nghiên cứu lý thuyết sở dữ liêu trở thành ngành khoa học ứng dụng Do những tiến vượt bậc nghiên cứu lý thuyết cũng cài đặt thực tế, hệ quản trị sở dữ liệu trở thành tảng, phần cốt yếu hoạt động tổ chức Nhờ chúng mà tổ chức hoạt động hiệu quả Việc ứng dụng sở dữ liệu giúp làm giảm nhiều công sức lao động người nhờ đó hiệu suất lao động họ cao Hệ quản trị sở dữ liệu ngày không còn đơn thuần chỉ cấu cho phép lưu trữ số liệu mà còn kèm theo đó cơng cụ, tiện ích hay phương pháp luận để chuyển đổi số liệu thành thông tin Tập tất cả công cụ người dùng phát triển nhà cung cấp phần mềm tung để phục vụ cho mục đích hoạt động tổ chức, tối ưu theo những yêu cầu nghiệp vụ tổ chức gọi ứng dụng hỗ trợ xử lý tác nghiệp Cao nữa, nhu cầu sử dụng thông tin mức cao cấp để hỗ trợ nhu cầu phân tích nhà lãnh đạo, nhà lập chiến lược tổ chức, loại ứng dụng đời phục vụ cho mục đích với tên gọi “hệ phân tích xử lý trực tuyến” Ở ứng dụng này, thông tin lưu trữ, xử lý kết xuất theo mục đích cụ thể dạng hướng chủ đề Nhờ thơng tin dạng mà phân tích, nhà lãnh có thể đưa định hoạt động cách hiệu quả Khi mơ hình dữ liệu phát triển mức độ cao hơn, thông tin lưu trữ dạng dữ liệu phong phú đa dạng hơn, người ta nhận còn nhiều tri thức còn tiềm ẩn dữ liệu mà mức phân tích trước đó khơng phát Lý vấn đề phân tích trước đó chỉ hướng mục đích cụ thể người Các mục đích cố định phân tích hồn tồn người đưa hồn cảnh cụ thể Khi thơng tin phản ánh mơi trường thay đởi người khơng nhận để điều chỉnh phân tích đưa phân tích Các tri thức đó có thể hướng kinh doanh, dự báo thị trường, cũng có thể mối quan hệ giữa trường hay nội dung dữ liệu mà người khơng hình dung tiến hành mơ hình hố hệ thống Vì thế, ngành nghiên cứu Phát tri thức sở dữ liệu (Knowledge Discovery in Database) đời với toán Khai phá dữ liệu (DataMining) làm trung tâm nghiên cứu Các tư tưởng nghiên cứu tḥt tốn Trí tuệ nhân tạo Hệ chuyên gia áp dụng thu những kết quả quan trọng như: định, mạng nơron Hầu hết thuật toán nghiên cứu cho DataMining tập trung nguồn số liệu có cấu trúc (structured data) Nhưng phần lớn thông tin mà lưu trữ trao đổi ngày lại lưu trữ dạng dữ liệu bán cấu trúc (semi-structured data) phi cấu trúc (non-structured data) Ví dụ nhà xuất bản, hệ thống trang web website, tập cơng văn, giấy tờ, báo cáo, thư tín điện tử cơng ty Thậm chí ta có thể nhận thấy hệ quản trị sở dữ liệu (nơi mà dữ liệu lưu trữ có cấu trúc) dữ liệu kiểu text vẫn chiếm tỷ lệ cao Do đó vấn đề đặt làm để có thể tìm kiếm khai thác tri thức từ nguồn dữ liệu vậy Các kỹ thuật để giải vấn đề gọi kỹ thuật "TextMining" hay Khai phá dữ liệu văn bản Bài tốn Khai phá dữ liệu văn bản khơng chỉ tập trung vào hay nhóm thông tin lưu trữ dạng văn bản, vấn đề đặt làm có thể Khai phá thông tin theo lịch sử, từ khứ hướng dự đoán tương lai Những tri thức tưởng trừng vơ ích q khứ có thể phát để sử dụng cho mục đích sau Một số toán quan trọng Khai phá dữ liệu văn bản hay xét đến toán “Text Classification”, “Text Sumarization”, “Text Categorization” Trên giới có nhiều thành công đề tài phân lớp văn bản nghiên cứu hãng IBM, phòng thí nghiệm MIT hay viện nghiên cứu trường đại học Mỹ, Pháp, Nhật Bản, Canada Tuy nhiên, thành công đó chủ yếu tập trung vào vấn đề nghiên cứu văn bản tiếng Anh, tiếng Pháp Những ngôn ngữ ngôn ngữ tương đối thuận lợi xử lý Hiện nay, chưa có công cụ coi hiệu quả lĩnh vực khai phá văn bản tiếng Việt Nền Công nghệ thông tin nước ta phát triển hết sức mạnh mẽ Do nhu cầu hội nhập, nhu cầu phát triển kinh tế, văn hoá, Xã hội ngày tăng, thông tin xử lý thông qua văn bản điện tử, qua web, qua email phát triển với tốc độ chóng mặt Từ đó, nhu cầu nghiên cứu xây dựng công cụ Khai phá dữ liệu văn bản tiếng Việt hết sức coi trọng Trong đề tài thực tập này, em xin trình bày nghiên cứu tổng quan em Text Mining ứng dụng nó thu thập thông tin từ liệu văn phân loại liệu văn Mục đích đề tài hướng tới phát triển công cụ phân loại văn bản tiếng Việt nghiên cứu sau đề tài luận văn tốt nghiệp Em xin chân thành cảm ơn thầy Nguyễn Ngọc Bình giúp em nhiều trình hướng dẫn em nghiên cứu đề tài Em xin cảm ơn anh Lưu Anh Tuấn giúp em số định hướng trình nghiên cứu đề tài I Đặt vấn đề Như biết, hầu hết thông tin trao đổi nằm dạng tài liệu văn bản Các thông tin đó có thể báo, tài liệu kinh doanh, thông tin kinh tế, nghiên cứu khoa học Dù áp dụng Cơ sở dữ liệu vào hoạt động tổ chức phở biến đem lại nhiều lợi ích lưu trữ xử lý, ta quên còn nhiều dạng thông tin khác lưu trữ dạng văn bản Thậm chí cả thông tin lưu sở dữ liệu phần lớn số chúng cũng tở chức dạng văn bản Hiện nay, tổ chức áp dụng công nghệ thông tin vào quản lý hệ thống cơng văn giấy tờ, ví dụ hệ thống sử dụng Lotus Node Tuy nhiên đó chỉ thực cách quản lý luồng dữ liệu văn bản, cung cấp công cụ kho chứa, còn dữ liệu vẫn thực nằm dạng văn bản Chúng ta chưa có giải thuật phân loại, tìm kiếm tài liệu, cơng cụ trích lọc thơng tin nhằm mục đích thống kê, phát tri thức, định trực tiếp nguồn dữ liệu kiểu Với thực tế đó, vấn đề đặt làm có thể khai thác những thông tin hữu ích từ nguồn tài liệu văn bản nói chung Các nguồn dữ liệu phải xử lý để người dùng có thể có những cơng cụ tự động hố trợ giúp việc phát tri thức khai thác thông tin Rõ ràng, phải hiểu rõ bản chất dữ liệu văn bản, hiểu rõ đặc trưng dữ liệu loại để có thể có những phương pháp luận cần thiết Việc khai thác thông tin từ nguồn dữ liệu văn bản tổ chức Việt Nam chắn phải dựa vào những kết quả nghiên cứu văn bản nói chung, dữ liệu văn bản kỹ thuật xử lý phát triển giới Tuy nhiên, những văn bản tiếng Việt lại có những đặc trưng riêng nó Ta có thể nhận thấy khác biệt mặt kí pháp, cú pháp ngữ pháp tiếng Việt văn bản so với ngôn ngữ phổ biến giới tiếng Anh, tiếng Pháp Vậy những đặc trưng ảnh hưởng đến kỹ thuật khai phá dữ liệu văn bản, ta cần phải có những ký thuật để có thể tận dụng những ưu tiếng Việt cũng giải những phức tạp tiếng Việt Để trả lời những câu hỏi này, đồ án từ những bước nghiên cứu Khai phá dữ liệu văn bản, tìm hiểu những đặc trưng tiếng Việt, từ đó đề phương hướng giúp giải toán phân loại văn bản tiếng Việt phức tạp nghiên cứu cao Các kết quả nghiên cứu đề tài thực tập bước tiến đầu tiên cho luận văn tốt nghiệp em với đề tài “Phân loại văn tiếng Việt phương pháp phân tích cú pháp.” II Cơ sở lý thuyết Khái niệm Text Mining a Khai phá dữ liệu (Data Mining) Việc sử dụng sở dữ liệu vào hoạt động tổ chức phát triển vòng 60 năm trở lại Với dữ liệu thu thập suốt q trình hoạt động tở chức, nhu cầu đặt tìm kiếm khai thác tri thức từ những dữ liệu đó Đó xuất phát điểm tốn Phát tri thức từ sở dữ liệu Người ta nhận thấy có nhiều tri thức mà không lường trước còn tiềm ẩn dữ liệu, nhiệm vụ phát hiện, khám phá tri thức đó, phục vụ cho những nhu cầu sử dụng thơng tin cao hơn, ví dụ hệ chuyên gia hay hệ hỗ trợ định Khai phá dữ liệu giai đoạn chủ yếu trình Phát tri thức từ sở dữ liệu Quá trình khai phá tri thức thực sau trình thu thập tinh lọc dữ liệu, có nghĩa chỉ tìm mẫu tri thức (pattern) có ý nghĩa tập dữ liệu có hy vọng chứ khơng phải tồn CSDL phương pháp thống kê trước Vì vậy khai phá dữ liệu bao gồm việc thử tìm mô hình phù hợp với dữ liệu tìm kiếm các mẫu hình tri thức từ dữ liệu theo mô hình đó Mặc dù mẫu hình có thể tìm từ CSDL chỉ những mẫu phù hợp với mục đích tìm kiếm gọi tri thức Ta có những hàm số để đánh giá tiêu chí mẫu mới, có lợi, đáng được xem xét Độ mẫu hình phụ thuộc vào khung phạm vi quy chiếu, có thể hệ thống người dùng Ví dụ với dữ liệu cơng ty, q trình Khai phá dữ liệu tìm luật Lợi tức thu giảm vào mùa thu vùng phía Bắc, hệ thống mới, trước chưa có bất cứ cán lập kế hoạch cũng nhận điều qua báo cáo tài Tính hữu dụng mẫu có thể đo qua liên quan đến mục đích tìm kiếm Với cán phụ trách bảo trì máy tính cơng ty ḷt khơng có giá trị, Có thể qua công đoạn khai phá tri thức có nhiều mẫu lấy không phải mẫu cũng có giá trị, có thể mới, hữu ích lại tầm thường, đặc biệt áp dụng kỹ thuật dựa thống kê Do đó ln phải có tiêu chí hàm đánh mẫu đáng xem xét, không tầm thường Tóm lại, Khai phá dữ liệu thực có thể coi trình xác định mẫu từ Datawarehouse, sử dụng kỹ thuật sẵn có học máy, nhận dạng, thống kê, phân oại kỹ thuật phát triển ngành nghiên cứu trí tuệ nhân tạo Mạng nơ- ron nhân tạo (neutral network), thuật toán di truyền (generic algorithm), quy nạp luật rule reduction) Ta có thể xét đến số tốn nghiên cứu Khai phá dữ liệu - Bài toán phân lớp (classification): Tìm ánh xạ (phân loại) từ mẫu dữ liệu vào lớp cho trước - Bài toán hời quy (regression): Tìm ánh xạ hồi quy từ mẫu dữ liệu vào biến dự đoán có giá trị thực - Bài toán lập nhóm ( clustering): Là việc mơ tả chung để tìm tập xác định hữu hạn nhóm hay loại để mô tả dữ liệu - Bài toán tổng kết (summarization): Là việc tìm kiếm mơ tả chung tóm tắt cho tập dữ liệu b Khai phá dữ liệu văn (Text Mining) Khai phá dữ liệu văn bản hay phát tri thức từ sở dữ liệu văn bản (textual databases) đề cập đến tiến trình trích lọc mẫu hình thơng tin (pattern) hay tri thức (knowledge) đáng quan tâm có giá trị (non-trivial) từ tài liệu văn bản phi cấu trúc Quá trình có thể coi việc mở rộng kỹ thuật Khai phá dữ liệu truyền thống, ch úng ta thấy (đã đề cập trên) kỹ thuật Khai phá dữ liệu truyền thống (DataMining) hướng tới việc phát tri thức từ sở dữ liệu có cấu trúc Thông tin lưu trữ dạng nguyên sơ văn bản Thậm chí ta có thể thấy dữ liệu tồn dạng văn bản còn có khối lượng lớn nhiều so với dữ liệu có cấu trúc khác Thực tế, những nghiên cứu gần cho thấy có đến 80% thông tin tổ chức nằm dạng văn bản Đó có thể công văn giấy tờ, biểu mẫu điều tra, phiếu đặt hàng, yêu cầu khiếu nại, giải quyền lợi, thư tín điện tử (email), thông tin website thương mại Khi nghiên cứu sở dữ liệu đời vào những năm 60, người ta tưởng có thể lưu loại thông tin dạng dữ liệu có cấu trúc Nhưng thực tế sau gần 50 năm phát triển, người ta vẫn dùng hệ thống lưu trữ dạng văn bản thậm trí còn có xu hướng dùng thường xuyên Từ đó người ta có thể tin sản phẩm Khai phá dữ liệu văn bản có thể có giá trị thương mại cao nhiều lần so với sản phẩm Khai phá dữ liệu truyền thống khác Tuy nhiên ta cũng có thể thấy kỹ thuật Khai phá dữ liệu văn bản phức tạp nhiều so với kỹ thuật Khai phá dữ liệu truyền thống phải thực dữ liệu văn bản vốn dạng phi cấu trúc có tính mờ (fuzzy) Một ví dụ cho tốn khai phá dữ liệu văn bản, phân tích báo nghiên cứu khoa học, ta có thông tin sau: - “stress bệnh liên quan đến đau đầu” - “stress xuất có thể thiếu Magê máu” - “Canxi có thể ngăn cản số chứng đau đầu” - “Magê nguyên tố điều hoà canxi tự nhiên máu” Sau phân tích thơng tin quan trọng này, hệ thống cần phải đưa suy luân cụ thể mang tính cách mạng: - “Thiếu hụt Magê có thể gây số bệnh đau đầu” Rõ ràng có phân tích suy luận mức độ cao Để đạt khà vậy cần phải có những cơng trình nghiên cứu trí tuệ nhân tạo tiên tiến Bài toán Khai phá dữ liệu văn bản toán nghiên cứu đa lĩnh vực, bao gồm nhiều kỹ thuật cũng hướng nghiên cứu khác nhau: thu thập thông tin (information retrieval), phân tích văn bản (text analysis), chiết xuất thơng tin (information extraction), lập đoạn (clustering), phân loại văn bản (categorization), hiển thị trực quan (visualization), công nghệ sở dữ liệu, học máy (machine learning) bản thân kỹ thuật Khai phá dữ liệu Trong đề tài em chủ yếu đề cập đến hai toán cụ thể, đó toán phân loại liệu văn (Text categorization) tốn thu thập thơng tin (information retrieval) Các nghiên cứu chỉ dừng lại bước tìm hiểu, khảo sát, so sánh tiền đề cho nghiên cứu cụ thể sau mà mục đích trước mắt phục vụ cho luận văn tốt nghiệp Với hệ thống Khai phá văn bản thường bao gồm ba bước chính: - Bước tiền xử lý: Ở bước này, hệ thống chuyển văn bản từ dạng phi cấu trúc dạng có cấu trúc Ví dụ, với văn bản Tổ chức này to lắm, hệ thống cố gắng phân tích thành Tở chức|này|to|lắm Các từ lưu riêng rẽ cách có cấu trúc để tiện cho việc xử lý - Loại bỏ thông tin khơng cần thiết Ở bước này, phân tích tìm cách loại bỏ thơng tin vơ ích từ văn bản Bước phụ thuộc nhiều vào ngôn ngữ phân tích kỹ thuật dùng để phân tích ỏ bước Ví dụ, kỹ thuật phân tích văn bản chỉ dựa vào xác xuất xuất từ khoá, đó ta có thể loại bỏ từ phụ như: nếu, thì, thế nhưng, vậy… - Khai phá dữ liệu giản lược với kỹ thuật khai phá dữ liệu (data mining) truyền thống Có nhiều kỹ thuật phương pháp tốt sử dụng cho Text Mining để tìm kiến trúc mới, mẫu mới, liên kết Các bước tiền xử lý kỹ thuật phức tạp nhằm phân tích phân lớp đặc biệt thành thuộc tính đặc biệt, sau đó tiến hành áp dụng phương pháp khai phá dữ liệu kinh điển tức phân tích thống kê phân tích liên kết Các bước còn lại khai phá cả văn bản đầy đủ từ tập văn bản, ví dụ phân lớp văn bản Mục tiêu cuối Text Mining thường đường lối hiệu quả, hoàn thiện, đặc trưng để trình diễn tìm kiếm tập hợp rộng lớn văn bản Do đó, kỹ thuật Text Mining có thể phân phân thành nhiệm vụ mà chúng thực xử lý khai phá văn bản: loại thông tin mà chúng có thể trích loại phân tích thực chúng Các loại thơng tin trích có thể là: - Các nhãn: Giả sử, liên kết với mỗi văn bản tập nhãn thao tác khai phá tri thức thực nhãn mỗi văn bản Nói chung, có thể giả sử nhãn tương ứng với từ khố, mỡi từ khố có quan hệ với chủ đề cụ thể đó - Các từ: Ở giả sử văn bản gán nhãn với từ xuất văn bản đó - Các thuật ngữ: Ở với mỡi văn bản tìm thấy chuỗi từ, chuỗi từ đó thuộc lĩnh vực đó đó việc tìm khai phá văn bản thực khai niệm gán nhãn cho mỗi văn bản Ưu điểm phương pháp thuật ngữ tách có xu hướng tập trung vào thông tin quan trọng văn bản hai phương pháp trước Các loại kết hợp: - Kết hợp thông thường: Một số thuật toán trước giả sử dữ liệu nguyên mẫu tạo lập dân để trợ giúp cho kỹ thuật xử lý ngôn ngữ tự nhiên Các cấu trúc có dẫn thực tế có thể sử dụng sở cho việc xử lý khai phá tri thức - Các phân cấp thuật ngữ: Ở mỗi văn bản đính với thuật ngữ lấy từ phân cấp thuật ngữ Sau đó, hệ thống phân tích phân bố nội dung thuật ngữ hậu duệ thuật ngữ liện quan đến hậu duệ khác phân bố liên kết phép đo khác nhằm khai thác quan hệ giữa chúng Loại liên kết có thể cũng sử dụng để lọc tổng hợp chủ đề tin tức - Khai phá văn đầy đủ: Không giống loại liên kết thông thường thực thao tác mù quáng dẫn văn bản, kỹ thuật sử dụng lợi nội dụng nguyên mẫu văn bản Kỹ thuật gọi “trích văn bản nguyên mẫu” Bài toán phân loại văn (Text categorization) a Khái niệm phân loại văn Phân loại văn bản (Text categorization) xử lý nhóm tài liệu thành lớp khác hay phân nhóm (categories) Đây tác vụ phân lớp liên quan đến việc định xử lý Với mỗi xử lý phân nhóm, đưa tài liệu, định đưa nó có thuộc lớp hay khơng Nếu nó thuộc phân lớp đó phải chỉ phân lớp mà nó thuộc vào Ví dụ, đưa chủ đề thể thao, cần phải đưa định chủ đề đó thuộc phân lớp cờ vua, quần vợtt, cầu lông, bơi lội hay bất cứ môn thể thao khác Các hệ thống phân loại văn bản thường làm việc với thuật toán tự học (learning algorithm) Thuật toán đó cung cấp tập mẫu để

Ngày đăng: 19/06/2023, 11:21