Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 31 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
31
Dung lượng
1,4 MB
Nội dung
MỤC LỤC CHƯƠNG GIỚI THIỆU HỆ CHUYÊN GIA 1.1 Hệ chuyên gia ? .1 1.2 Đặc trưng ưu điểm hệ chuyên gia 1.3 Sự phát triển công nghệ hệ chuyên gia 1.4 Các lĩnh vực ứng dụng hệ chuyên gia 1.5 Những thành phần hệ chuyên gia CHƯƠNG HỆ THỐNG PHÂN LOẠI TIN TỨC 2.1 Giới thiệu vế phân loại tin tức .9 2.2 Cơ sở xây hệ thống phân loại tin tức .9 2.2.1 RSS 10 2.2.2 Phân loại văn 11 CHƯƠNG XÂY DỰNG CHƯƠNG TRÌNH 18 3.1 Yêu cầu chương trình 18 3.2 Các chức chương trình 18 3.3 Cấu trúc chương trình 20 3.3.1 Trang quản trị 20 3.3.2 Trang chủ .20 3.3.3 Trang chi tiết 20 3.4 Giao diện chương trình 21 3.4.1 Giao diện thể loại tin 21 3.4.2 Giao diện Tin huấn luyện .21 3.4.3 Giao diện Danh sách từ khóa 22 3.4.4 Giao diện cài đặt huấn luyện 22 3.4.5 Giao diện huấn luyện phân loại 23 3.4.6 Giao diện danh sách tin tức 23 3.4.7 Giao diện người dùng 24 TÀI LIỆU THAM KHẢO 26 DANH MỤC HÌNH ẢNH DANH MỤC BẢNG BIỂU LỜI NÓI ĐẦU Cuối năm 70, số nghiên cứu lĩnh vực xử lý ngôn ngữ tự nhiên, biểu diễn tri thức, lý thuyết giải vấn đề đem lại diện mạo cho trí tuệ nhân tạo Thị trường tin học bắt đầu đón nhận sản phẩm trí tệu nhân tạo ứng dụng mang tính thương mại Đó hệ chuyên gia áp dụng lĩnh vực khác Hệ chuyên gia phần mềm máy tính, chứa thông tin tri thức lĩnh vực cụ thể đó, có khả giải yêu cầu người dùng mức độ với trình độ chuyên gia có kinh nghiệm lâu năm Một hệ chuyên gia sử dụng thành công thực tế hệ MYCIN, thiết kế cài đặt trường Đại học Tổng Hợp Stanford Hiện sau kỷ phát triển trên, hàng loạt sản phẩm áp dụng hệ chuyên gia nhiều nhiều lĩnh vực: giáo dục, kinh tế, y tế Với sản phẩm có tính ứng dụng cao thực tế không kết ngày xác Có sản phẩm đạt đến độ xác đến 99% Trên giới, hệ chuyên gia trở thành thuật ngữ phổ biển quen thuộc với ngừoi ngành khoa hoc máy tính công nghệ phần mềm Tại Việt Nam biết đến hệ chuyên gia muôn với quan tâm nhiều giới chuyên môn dần bắt kịp đạt thành công định ngành Hiện với thị trường thiết bị di động ngày tăng dần thay thê may tính công việc cập nhật thông tin người ngành lập trình ứng dụng hệ thông hỗ trợ mạng di đông điều kiên nở rộ Khi người chuyên sang sử dụng thiết bị di động thời gian cho việc tìm kiếm đọc thông tin giảm dần Tuy nhiên lượng thông tin lớn không ngừng biến đổi tiêu biểu tin tức điện tử, điều dẫn đến việc tím kiếm tin tức hữu ích trở nên khó khăn Chính điều chúng em định chọn đề tài xây dựng "Hệ thống tự động tổng hợp phân loại tin tức thành mục" Hệ thống có chức lấy thông tin tin tức từ trang web tin tức điện tử phân tích loại bỏ cac tin tức trùng lặp phân loại theo chủ đề để dễ dàng cho ngừoi sử dụng hệ thông cài đặt tổng đài tin nhắn hỗ trợ từ xa CHƯƠNG GIỚI THIỆU HỆ CHUYÊN GIA 1.1 Hệ chuyên gia ? Theo E Feigenbaum : Hệ chuyên gia (Expert System) chương trình máy tính thông minh sử dụng tri thức (knowledge) thủ tục suy luận (inference procedures) để giải toán tương đối khó khăn đòi hỏi chuyên gia giải được[1] Hệ chuyên gia hệ thống tin học mô (emulates) lực đoán (decision) hành động (making abilily) chuyên gia (con người) [2] Hệ chuyên gia lĩnh vực ứng dụng trí tuệ nhân tạo (Artificial Intelligence) hình Hình 1 Một số lĩnh vực ứng dụng trí tuệ nhân tạo Hệ chuyên gia sử dụng tri thức chuyên gia để giải vấn đề (bài toán) khác thuộc lĩnh vực Tri thức (knowledge) hệ chuyên gia phản ánh tinh thông tích tụ từ sách vở, tạp chí, từ chuyên gia hay nhà bác học Các thuật ngữ hệ chuyên gia, hệ thống dựa tri thức (knowledge−based system) hay hệ chuyên gia dựa tri thức (knowledge−based expert system) thường có nghĩa Một hệ chuyên gia gồm ba thành phần sở tri thức (knowledge base), máy suy diễn hay môtơ suy diễn (inference engine), hệ thống giao tiếp với người sử dụng (user interface) Cơ sở tri thức chứa tri thức để từ đó, máy suy diễn tạo câu trả lời cho người sử dụng qua hệ thống giao tiếp Người sử dụng (user) cung cấp kiện (facts) biết, có thật hay thông tin có ích cho hệ chuyên gia, nhận câu trả lời lời khuyên hay gợi ý đắn (expertise) Hoạt động hệ chuyên gia dựa tri thức minh họa sau : Hình Hoạt động hệ chuyên gia Mỗi hệ chuyên gia đặc trưng cho lĩnh vực vấn đề (problem domain) đó, y học, tài chính, khoa học hay công nghệ, v.v , mà cho lĩnh vực vấn đề Tri thức chuyên gia để giải vấn đề đặc trưng gọi lĩnh vực tri thức (knowledge domain) Hình Quan hệ lĩnh vực vấn đề lĩnh vực tri thức Ví dụ : hệ chuyên gia lĩnh vực y học để phát bệnh lây nhiễm có nhiều tri thức số triệu chứng lây bệnh, lĩnh vực tri thức y học bao gồm bệnh, triệu chứng chữa trị Chú ý lĩnh vực tri thức hoàn toàn nằm lĩnh vực vấn đề Phần bên lĩnh vực tri thức nói lên tri thức cho tất vấn đề Tùy theo yêu cầu người sử dụng mà có nhiều cách nhìn nhận khác hệ chuyên gia Bảng 1.1 Cách nhìn nhận đối tượng Loại người sử dụng Vấn đề đặt Người quản trị Tôi dùng để làm ? Kỹ thuật viên Làm cách để vận hành tốt ? Nhà nghiên cứu Làm để mở rộng ? Người sử dụng cuối Nó giúp ? Nó có rắc rối tốn không ? Nó có đáng tin cậy không ? 1.2 Đặc trưng ưu điểm hệ chuyên gia Có bốn đặc trưng hệ chuyên gia : • Hiệu cao (high performance) Khả trả lời với mức độ tinh thông cao so với chuyên gia (người) lĩnh vực • Thời gian trả lời thoả đáng (adequate response time) Thời gian trả lời hợp lý, nhanh so với chuyên gia (người) để đến định Hệ chuyên gia hệ thống thời gian thực (real time system) • Độ tin cậy cao (good reliability) Không thể xảy cố giảm sút độ tin cậy sử dụng • Dễ hiểu (understandable) Hệ chuyên gia giải thích bước suy luận cách dễ hiểu quán, không giống cách trả lời bí ẩn hộp đen (black box) Những ưu điểm hệ chuyên gia : • Phổ cập (increased availability) Là sản phẩm chuyên gia, phát triển không ngừng với hiệu sử dụng phủ nhận • Giảm giá thành (reduced cost) • Giảm rủi ro (reduced dangers) Giúp người tránh môi trường rủi ro, nguy hiểm • Tính thường trực (Permanance) Bất kể lúc khai thác sử dụng, người mệt mỏi, nghỉ ngơi hay vắng mặt • Đa lĩnh vực (multiple expertise) chuyên gia nhiều lĩnh vực khác khai thác đồng thời thời gian sử dụng • Độ tin cậy (increased relialility) Luôn đảm bảo độ tin cậy khai thác • Khả giảng giải (explanation) Câu trả lời với mức độ tinh thông giảng giải rõ ràng chi tiết, dễ hiểu • Khả trả lời (fast reponse) Trả lời theo thời gian thực, khách quan • Tính ổn định, suy luận có lý đầy đủ lúc nơi (steady, une motional, and complete response at all times) • Trợ giúp thông minh người hướng dẫn (intelligent -tutor) • Có thể truy cập sở liệu thông minh (intelligent database) 1.3 Sự phát triển công nghệ hệ chuyên gia Sau số kiện quan trọng lịch sử phát triển công nghệ hệ chuyên gia (expert system technology) Bảng 1.2 Các mốc phát triển hệ chuyên gia[3] Năm Các kiện 1943 Dịch vụ bưu điện ; mô hình Neuron (Mc Culloch and Pitts Model) 1954 Thuật toán Markov (Markov Algorithm) điều khiển thực thi luật 1956 Hội thảo Dartmouth ; lý luận logic ; tìm kiếm nghiệm suy (heuristic search) ; thống thuật ngữ trí tuệ nhân tạo (AI: Artificial Intelligence) 1957 Rosenblatt phát minh khả nhận thức ; Newell, Shaw Simon đề xuất giải toán tổng quát (GPS: General Problem Solver) 1958 Mc Carthy đề xuất ngôn ngữ trí tuệ nhân tạo LISA (LISA AI language) 1962 Nguyên lý Rosenblatt’s chức thần kinh nhận thức (Rosenblatt’s Principles of Neurodynamicdynamics on Perceptions) 1965 Phương pháp hợp giải Robinson Ưng dụng logic mờ (fuzzy logic) suy luận đối tượng mờ (fuzzy object) Zadeh Xây dựng hệ chuyên gia nha khoa DENDRAL (Feigenbaum , Buchanan , et.al) 1968 Mạng ngữ nghĩa (semantic nets), mô hình nhớ kết hợp (associative memory model) Quillian 1969 Hệ chuyên gia Toán học MACSYMA (Martin and Moses) 1970 Ứng dụng ngôn ngữ PROLOG (Colmerauer, Roussell, et, al.) 1971 Hệ chuyên gia HEARSAY I nhận dạng tiếng nói (speech recognition) Xây dựng luật giải toán người (Human Problem Solving popularizes rules (Newell and Simon) 1973 Hệ chuyên gia MYCIN chẩn trị y học (Shortliffe, et,al.) 1975 Lý thuyết khung (frames), biểu diễn tri thức (knowledge representation) (Minsky) 1976 Toán nhân tạo (AM: Artificial Mathematician) (Lenat) Lý thuyết Dempster−Shafer tính hiển nhiên lập luận không chắn (Dempster−Shafer theory of Evidence for reason under uncertainty) Ứng dụng hệ chuyên gia PROSPECTOR khai thác hầm mỏ (Duda, Har) 1977 Sử dụng ngôn ngữ chuyên gia OPS (OPS expert system shell) hệ chuyên gia XCON/R1 (Forgy) 1978 Hệ chuyên gia XCON/R1 (McDermott, DEC) để bảo trì hệ thống máy tính DEC (DEC computer systems) 1979 Thuật toán mạng so khớp nhanh (rete algorithm for fast pattern matching) Forgy ; thương mại hoá ứng dụng trí tuệ nhân tạo 1980 Ký hiệu học (symbolics), xây dựng máy LISP (LISP machines) từ LMI 1982 Hệ chuyên gia Toán học (SMP math expert system) ; mạng nơ-ron Hopfield (Hopfield Neural Net) ; Dự án xây dựng máy tính thông minh hệ Nhật (Japanese Fifth Generation Project to develop intelligent computers) 1983 Bộ công cụ phục vụ hệ chuyên gia KEE (KEE expert system tool) (intelli Corp) 1985 Bộ công cụ phục vụ hệ chuyên gia CLIPS(CLIPS expert system tool (NASA) 1.4 Các lĩnh vực ứng dụng hệ chuyên gia Cho đến nay, hàng trăm hệ chuyên gia xây dựng báo cáo thường xuyên tạp chí, sách, báo hội thảo khoa học Ngoài hệ chuyên gia sử dụng công ty, tổ chức quân mà không công bố lý bảo mật Bảng 1 Bảng liệt kê số lĩnh vực ứng dụng hệ chuyên gia Lĩnh vực Ứng dụng diện rộng Cấu hình (Configuration) Tập hợp thích đáng thành phần hệ thống theocách riêng Chẩn đoán (Diagnosis) Lập luận dựa chứng quan sát Hình Ví dụ tách từ với giải thuật MMSEG Rõ ràng rằng, từ văn có mức độ quan trọng khác văn phân loại văn Một số từ từ nối, từ số lượng (“và”, “các”, “những, “mỗi”,…) không mang tính phân biệt phân loại Ngoài ra, có nhiều từ khác giá trị phân loại ví dụ từ xuất hầu khắp văn hay dùng không phổ biến văn bản, từ gọi stopword cần loại bỏ Có nhiều cách loại bỏ stopword, chẳng hạn dùng danh sách stopword loại bỏ theo tần suất xuất từ (chỉ số TF*IDF) Trong thực nghiệm dùng danh sách stopword kết hợp với việc loại bỏ từ có số TF*IDF thấp Chỉ số TF*IDF thấp tức từ xuất hầu khắp băn từ xuất Sau loại bỏ stopword, văn xem tập hợp đặc trưng, tập hợp từ “quan trọng” lại để biểu diễn văn Việc phân loại văn dựa đặc trưng Tuy nhiên, thấy rằng, số đặc trưng văn lớn không gian đặc trưng (tất đặc trưng) tất văn xem xét lớn, nguyên tắc, bao gồm tất từ ngôn ngữ Chính vậy, phân loại dựa đặc trưng cần phải có cách xử lí, lựa chọn đặc trưng nhằm rút ngắn số chiều không gian đặc trưng Trên thực tế, người ta xét tất từ ngôn ngữ mà dùng tập hợp từ rút từ tập (đủ lớn) văn xét (gọi tập ngữ liệu) Kế đến, văn di tập ngữ liệu xét mô hình hóa vector trọng số đặc trưng, di(wi1,…,wim) 2.2.2.2 Phân lớp Có nhiều phương pháp để thực phân lớp giới hạn kiến thức chúng em giới thiệu mợt số phương pháp phổ biến Naive Bayes 12 Naive Bayes (Bayes ngây thơ) phương pháp phân loại dựa vào xác suất sử dụng rộng rãi lĩnh vực máy học nhiều lĩnh vực khác công cụ tìm kiếm , lọc mail … Ý tưởng cách tiếp cận sử dụng xác suất có điều kiện từ cụm từ chủ đề để dự đoán xác suất chủ đề văn cần phân loại.Điểm quan trọng phương pháp chỗ giả định xuất tất từ văn độc lập với Như NB không tận dụng phụ thuộc nhiều từ vào chủ đề cụ thể Chính giả định làm cho việc tính toán NB hiệu qủa nhanh chóng phương pháp khác với độ phức tạp theo số mũ không sử dụng cách kết hợp từ để đưa phán đoán chủ đề Mục đích tính xác suất Pr(C j, d’) , xác suất để văn d’nằm lớp Cj.Theo luật Bayes , văn d’ gán vào lớp C j có xác suất Pr(Cj, d’) cao Công thức để tính Pr(Cj, d’) sau : Với : - TF(wi, d’) số lần xuất từ wi văn d’ - |d’| số lượng từ văn d’ - wi từ không gian đặc trưng F với số chiều |F| - Pr(Cj) tính dựa tỷ lệ phần trăm số văn lớp tương ứng tập liệu huấn luyện 13 Ngoài có phương pháp NB khác kể ML Naïve Bayes , MAP Naïve Bayes , Expected Naïve Bayes Nói chung Naïve Bayes công cụ hiệu qủa số trường hợp Kết qủa xấu liệu huấn luyện nghèo nàn tham số dự đoán (như không gian đặc trưng) có chất lượng kém.Nhìn chung thuật toán phân loại tuyến tính thích hợp phân loại văn nhiều chủ đề NB có ưu điểm cài đặt đơn giản , tốc độ thực thuật toán nhanh , dễ dàng cập nhật liệu huấn luyện có tính độc lập cao với tập huấn luyện K-Nearest Neighbor (K-NN) K-Nearest Neighbor phương pháp truyền thống tiếng theo hướng tiếp cận thống kê nghiên cứu nhiều năm qua kNN đánh giá phương pháp tốt sử dụng từ thời kỳ đầu nghiên cứu phân loại văn Ý tưởng phương pháp cần phân loại văn , thuật toán xác định khoảng cách (có thể áp dụng công thức khoảng cách Euclide , Cosine , Manhattan , …) tất văn tập huấn luyện đến văn để tìm k văn gần ,gọi k nearest neighbor – k láng giềng gần , sau dùng khoảng cách đánh trọng số cho tất chủ đề Khi , trọng số chủ đề tổng tất khoảng cách văn k láng giềng có chủ đề , chủ đề không xuất k láng giềng có trọng số Sau chủ đề xếp theo giá trị trọng số giảm dần chủ đề có trọng số cao chọn làm chủ đề văn cần phân loại Phương pháp định Phương pháp định [8] áp dụng vào toán phân loại văn Dựa vào tập văn huấn luyện (sau gọi tắt tập huấn luyện), xây dựng định Cây định có dạng nhị phân, nút tương ứng với việc phân hoạch tập văn dựa thuộc tính (một từ) Việc xây dựng định phụ thuộc vào việc lựa chọn thuộc tính để phân hoạch Theo [11], 14 lựa chọn thuộc tính phân hoạch dựa độ lợi thông tin (information gain) lớn nhất, hiệu độ hỗn loạn thông tin trước sau phân hoạch với thuộc tính Độ lợi thông tin tính toán dựa vào độ hỗn loạn thông tin (Entropy) theo CT 2.4 Giả sử tập huấn luyện S chứa văn thuộc k chủ đề, độ hỗn loạn thông tin tập S là: Trong pi xác suất để phần tử (1 văn bản) thuộc vào chủ đề thứ i pi tần suất xuất văn thuộc chủ đề thứ i tập S Độ lợi thông tin dùng thuộc tính a phân hoạch tập S thành tập tùy theo giá trị a (kí hiệu Values(a) công thức) : • Đầu vào: Tập M chứa tất văn huấn luyện mô hình hóa thành vector di(wi1,…,wim) - Tập A chứa tất từ tập huấn luyện M - Một tập chủ đề C • Đầu : Cây định dạng nhị phân cho việc phân loại theo tập chủ đề C Giải thuật (tham khảo [12]): - Bắt đầu: nút gốc chứa tất văn huấn luyện - Nếu liệu nút thuộc chủ đề (1 lớp) nút nút gán nhãn chủ đề - Nếu nút chứa liệu không (thuộc lớp khác nhau) lựa chọn thuộc tính phân hoạch với độ lợi thông tin lớn (giả sử thuộc tính a với giá trị y, y gọi giá trị phân tách); phân chia nút cách đệ qui làm hai tập M1, M2; M1 chứa văn chứa a giá trị thuộc tính nhỏ y, M2 chứa văn chứa a giá trị thuộc tính lớn y Giải thuật dừng tất nút gán nhãn Trong ứng dụng, người tacó thể không tiến hành phân hoạch nút đến liệu đồng (chỉ thuộc lớp) mà người ta dừng phân hoạch số phần tử nút số lượng gán nhãn nút theo luật bình chọn số đông phần tử chứa nút Điều nhằm cải tiến tốc độ xây dựng tránh tình trạng học vẹt Phương pháp máy học vectơ hỗ trợ (SVM) 15 Hình 2 Ví dụ siêu phẳng với lề cực đại R2 Máy học véctơ hỗ trợ (SVM) giải thuật máy học dựa lý thuyết học thống kê Vapnik Chervonenkis xây dựng [13] Bài toán SVM toán phân loại hai lớp: Cho trước n điểm không gian d chiều (mỗi điểm thuộc vào lớp kí hiệu +1 –1, mục đích giải thuật SVM tìm siêu phẳng (hyperplane) phân hoạch tối ưu cho phép chia điểm thành hai phần cho điểm lớp nằm phía với siêu phẳng Hình cho minh họa phân lớp với SVM mặt phẳng Xét tập liệu mẫu tách rời tuyến tính {(x1,y1),(x2,y2), ,(xn,yn)} với xi ε Rd yi ε {±1} Siêu phẳng tối ưu phân tập liệu thành hai lớp siêu phẳng tách rời liệu thành hai lớp riêng biệt với lề (margin) lớn Tức là, cần tìm siêu phẳng H: y = w.x + b = hai siêu phẳng H1, H2 hỗ trợ song song với H có khoảng cách đến H Với điều kiện phần tử tập mẫu nằm H1 H2, đó: w.x + b >= +1 với y = +1 w.x + b >= -1 với y = -1 Kết hợp hai điều kiện ta có y(w.x + b) >= Khoảng cách siêu phẳng H1 H2 đến H Ta cần tìm siêu phẳng H với lề lớn nhất, tức giải toán tối ưu tìm với ràng buộc y(w.x + b) >= Người ta chuyển toán sang toán tương đương dễ giải với ràng buộc y(w.x + b) >= Lời giải cho toán tối ưu cực tiểu hóa hàm Lagrange: 16 Trong α hệ số Lagrange, α≥0 Sau người ta chuyển thành toán đối ngẫu cực đại hóa hàm W(α): Từ giải để tìm giá trị tối ưu cho w,b α Về sau, việc phân loại mẫu việc kiểm tra hàm dấu sign(wx +b) Lời giải tìm siêu phẳng tối ưu mở rộng trường hợp liệu tách rời tuyến tính cách ánh xạ liệu vào không gian có số chiều lớn cách sử dụng hàm nhân K (kernel) Một số hàm nhân thường dùng cho bảng Bảng Một số hàm nhân thường dùng 17 CHƯƠNG XÂY DỰNG CHƯƠNG TRÌNH 3.1 Yêu cầu chương trình Chương trình xây dựng nhằm mục đích thu thập tin tức từ trang tin điện tử trực tuyến phương pháp xử lý RSS Sau lấy tin tức dựa vào nội dung viết để phân loại vào thể loại tin giới, tin xã hội, tin văn hóa, tin thể thao, tin công nghệ, tin giáo dục Chương trình cho phép hiển thị viết lên website, người dùng vào đọc viết trực tiếp web Ngoài ra, người dùng nhắn tin đến tổng đài hệ thống để nhận tin nhắn trả tin tức mà hệ thống thu thập Chương trình có khả quản lý thể loại nhóm tin, quản lý văn huấn luyện, quản lý thư viện từ chuyên ngành, từ dừng Do việc thêm, sửa, xóa thể loại, văn huấn luyện dễ dàng, thuận tiện 3.2 Các chức chương trình STT Tên chức Mô tả Huấn luyện văn Huấn luyện văn tập huấn luyện có sẵn Việc huấn luyện tức máy tự động đọc văn có sẵn máy sau tự động tách từ văn đó, sau tách từ máy đếm từ tính xác suất từ văn cập nhật vào sở liệu với cấu trúc: Từ thể loại số lượng xác suất Trong chức thể thêm, sửa, xóa văn huấn luyện Chúng ta thêm văn cách nhập file có sẵn nhập tay – tức nhập trực tiếp văn vào Với cách nhập từ file không tốn công sức nhập nội dung có file rồi, nhiên việc nhập từ file có từ không quan với thể loại (còn gọi “từ nổi”) Khi nhập tay, nhập từ khóa đặc trưng việc nhập tay làm cho chương trình phân loại xác so với nhập từ file, lại có nhược điểm công lâu Thu thập tin tức trực tuyến Chức thu thập tin tức từ trang tin điện tử RSS Phân tích liệu từ file XML trang tin 18 cần thu thập Tin tức lấy lưu vào sở liệu với cấu trúc: Tiêu đề Tóm tắt Nội dung Hình ảnh Thể loại … Phân loại tin tức Phân loại tin tức việc phân loại tin tức mà thu thập chức thu thập tin tức trực tuyến vào thành thể loại, chương trình phân làm loại Công nghệ, Giáo dục, Thế giới, Thể thao, Văn hóa, Xã hội Ngoài ra, sau tin tức phân loại, việc phân loại không hoàn toàn xác, người dùng cập nhật lại thể loại tin tức cho việc hiển thị lên trang chủ xác Quản lý thể loại Chúng ta thêm, sửa, xóa thể loại chức Sau thêm thể loại, số lượng văn huấn luyện chương trình tự động đếm file huấn luyện thuộc thể loại tự động tính xác suất cho thể loại Quản lý văn huấn luyện Ở chức thêm, sửa, xóa văn huấn luyện Các văn huấn luyện lưu trữ thư mục Trainning Data, file huấn luyện thể loại chứa thông tin thể loại Quản lý từ điển, từ dừng Chức cho phép thêm, sửa, xóa từ chuyên ngành cho từ thể loại Mỗi thể loại có từ điển để phục vụ cho việc phân loại văn Ngoài từ từ điển, có từ từ dừng Đây từ bỏ qua trình phân loại nhằm tăng tốc độ phân loại thuật toán Quản lý tin tức Chức có phép thêm, sửa, xóa tin tức mà thu thập Tại đây, ta thay đổi nội dung, tiêu đề, tóm tắt, thể loại tin tức Ta kiểm tra số lượt xem viết để xem viết quan tâm 19 3.3 Cấu trúc chương trình 3.3.1 Trang quản trị Trang quản trị trang quản lý liệu chương trình Trong trang quản trị, người dùng quản lý thể loại, quản lý tin tức, quản lý văn huấn luyện,… Trong quản lý tin tức, người dùng lựa chọn chức hiển thị tin thu thập tự động Các tin này, phân loại hiển thị trực tiếp lên trang chủ phân loại chưa xác tin đưa vào hàng chờ để người quản trị thực phân loại tay 3.3.2 Trang chủ Trang chủ website trang hiển thị thông tin mục tin tức, thể loại tin chứa viết theo chủ đề Trang chủ trang mà người đọc tin thao tác chủ yếu với hệ thống Trên trang chủ hiển thị tin tức phân loại tự động, người quản trị phân loại cập nhật tay Người đọc tin chọn tin cần đọc để xem toàn chi tiết tin 3.3.3 Trang chi tiết Trang chi tiết trang hiển thị nội dung chi tiết tin tức mà người dùng lựa chọn đọc tin Nội dung hiển thị trang chi tiết hiển thị theo nội dung viết trang báo điện tử mà tin lấy 20 3.4 Giao diện chương trình 3.4.1 Giao diện thể loại tin Hình 3.1 Giao diện thể loại tin 3.4.2 Giao diện Tin huấn luyện Hình 3.2 Giao diện tin huấn luyện 21 3.4.3 Giao diện Danh sách từ khóa Hình 3.3 Giao diện danh sách từ khóa 3.4.4 Giao diện cài đặt huấn luyện Hình 3.4 Giao diện cài đặt huấn luyện 22 3.4.5 Giao diện huấn luyện phân loại Hình 3.5 Giao diện huấn luyện phân loại 3.4.6 Giao diện danh sách tin tức Hình 3.6 Giao diện danh sách tin tức 23 3.4.7 Giao diện người dùng Hình 3.7 Giao diện người dùng 24 KẾT LUẬN Dù cố gắng tìm hiểu đề tài , kiến thức có phần hạn chế nên không tránh khỏi sai sót Chúng em mong nhận ý kiến đóng góp thầy , cô bạn bè lớp để hoàn thiện , làm sản phẩm tốt Bài tập lớn chúng em đạt yêu cầu ,và đạt mục tiêu bản: • Xây dựng hệ thống phân loại tin tức đa • Áp dụng kiến thức học môn hệ chuyên gia vào xây dựng tách từ tiếng việt từ tạo điều kiên cho việc nâng cao hiệu cho việc phân loại • Hệ thống cài đặt xong có tính thực tiễn cao tạo điều kiện xây dựng ứng dụng sau Bên cạnh chúng em số mặt hạn chế : • Sản phẩm đơn giản, dù hỗ trợ từ việc tách từ CSDL nghèo nàn thuật toán phân lớp lỗi thời độ xác không cao • Do kiến thức điều kiện có hạn hệ thống dừng kại mức độ phần mềm, điều kiện chạy tổng đài tin nhắn 25 TÀI LIỆU THAM KHẢO [1] Joseph Giarratano, Gart Riley, Expert System Principles and Programming PWS Publishing Company, 1993 [2] Đỗ Trung Tuấn Hệ chuyên gia Nhà Xuất Giáo dục, 1999 [3] James L Crowley Systèmes Experts Support de cours, ENSIMAG 1999 [4] Nguyễn Linh Giang, Nguyễn Mạnh Hiển, Phân loại văn tiếng Việt với phân loại vectơ hỗ trợ SVM Tạp chí CNTT&TT, Tháng năm 2006 [5] Nguyễn Ngọc Bình, “Dùng lý thuyết tập thô kỹ thuật khác để phân loại, phân cụm văn tiếng Việt”, Kỷ yếu hội thảo ICT.rda’04 Hà nội 2004 [6] Nguyễn Linh Giang, Nguyễn Duy Hải, “Mô hình thống kê hình vị tiếng Việt ứng dụng”, Chuyên san “Các công trình nghiên cứu, triển khai Công nghệ Thông tin Viễn thông, Tạp chí Bưu Viễn thông, số 1, tháng 7-1999, trang 61-67 1999 [7] Huỳnh Quyết Thắng, Đinh Thị Thu Phương, “Tiếp cận phương pháp học không giám sát học có giám sát với toán phân lớp văn tiếng Việt đề xuất cải tiến công thức tính độ liên quan hai văn mô hình vectơ”, Kỷ yếu Hội thảo ICT.rda’04, trang 251-261, Hà Nội 2005 [8] Đỗ Phúc, Nghiên cứu ứng dụng tập phổ biến luật kết hợp vào toán phân loại văn tiếng Việt có xem xét ngữ nghĩa, Tạp chí phát triển KH&CN, tập 9, số 2, pp 23-32, năm 2006 [9] http://vi.wikipedia.org/wiki/RSS_(định _dạng_tệp tin) [10] Chih-Hao Tsai, MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm http://technology.chtsai.org/MMSEG/, 2000 [11] Quinlan J., C4.5: Programs for Machine Learning, Morgan Kaufman Publishers,1993 [12] Đỗ Thanh Nghị, Khai mỏ liệu – minh họa ngôn ngữ R (chương 4), NXB Đại học Cần Thơ, 2010 [13] V.Vapnik The Nature of Statistical Learning Theory Springer, NewYork, 1995 26 [...]... lượt xem của bài viết đó để xem bài viết nào đang được quan tâm nhất 19 3.3 Cấu trúc của chương trình 3.3.1 Trang quản trị Trang quản trị là trang quản lý dữ liệu chương trình Trong trang quản trị, người dùng có thể quản lý thể loại, quản lý tin tức, quản lý các văn bản huấn luyện,… Trong quản lý tin tức, người dùng có thể lựa chọn chức năng hiển thị các tin được thu thập tự động Các tin này, khi được... web Ngoài ra, người dùng có thể nhắn tin đến tổng đài của hệ thống để nhận được tin nhắn trả về là tin tức mới nhất mà hệ thống thu thập được Chương trình có khả năng quản lý các thể loại nhóm tin, quản lý các văn bản huấn luyện, quản lý thư viện từ chuyên ngành, từ dừng Do đó việc thêm, sửa, xóa các thể loại, các văn bản huấn luyện rất dễ dàng, thuận tiện 3.2 Các chức năng của chương trình STT Tên... thể loại nào chứa các thông tin về thể loại đó Quản lý từ điển, từ dừng Chức năng cho phép thêm, sửa, xóa các từ chuyên ngành cho từ thể loại Mỗi thể loại sẽ có một bộ từ điển để phục vụ cho việc phân loại văn bản Ngoài bộ từ từ điển, còn có bộ từ từ dừng Đây là các từ có thể bỏ qua trong quá trình phân loại nhằm tăng tốc độ phân loại của thuật toán Quản lý tin tức Chức năng này có phép thêm, sửa, xóa... các thể loại của tin tức sao cho việc hiển thị lên trang chủ chính xác nhất Quản lý các thể loại Chúng ta có thể thêm, sửa, xóa thể loại ở chức năng này Sau khi thêm thể loại, số lượng các văn bản huấn luyện sẽ được chương trình tự động đếm file huấn luyện thuộc thể loại này và cũng tự động tính xác suất cho từng thể loại Quản lý các văn bản huấn luyện Ở chức năng này chúng ta có thể thêm, sửa, xóa các... websites có cung cấp khả năng RSS (RSS feeds); chúng thường là các site có nội dung thay đổi và được thêm vào thường xuyên Để có thể dùng công nghệ này, các người quản trị site đó tạo ra hay quản lí một phần mềm chuyên dụng (như là một hệ thống quản lí nội dung - content management system-CMS) mà, với định dạng XML mà máy có thể đọc được, có thể biểu diễn các bài tin mới thành một danh sách, với một hoặc... hệ thống phân lạo tin tức 2.2.2 Phân loại văn bản Việc phân loại tin sẽ được chia làm hai bước: • Tiền xử lý • Phân lớp 2.2.2.1 Tiền Xử lý Ở bước này, văn bản sẽ qua bước tiền xử lí cơ bản: chuẩn hóa dấu, chuẩn hóa “i” và “y”, chuẩn hóa font,… sau đó sẽ thực hiện tách từ Trong phần này các bước xử lý cơ bản sẽ không được đề mà sẽ trực tiếp vào tách từ Có thể xem văn bản là tập hợp các từ Khái niệm “từ”... xác thì tin đó sẽ được đưa vào hàng chờ để người quản trị thực hiện phân loại bằng tay 3.3.2 Trang chủ Trang chủ website là trang hiển thị thông tin các mục tin tức, các thể loại tin chứa các bài viết theo chủ đề đó Trang chủ là trang mà người đọc tin thao tác chủ yếu với hệ thống Trên trang chủ hiển thị các tin tức đã được phân loại tự động, hoặc người quản trị phân loại hoặc cập nhật bằng tay Người... Một số hàm nhân thường dùng 17 CHƯƠNG 3 XÂY DỰNG CHƯƠNG TRÌNH 3.1 Yêu cầu chương trình Chương trình được xây dựng nhằm mục đích thu thập tin tức từ các trang tin điện tử trực tuyến bằng phương pháp xử lý RSS Sau khi lấy được các tin tức về thì dựa vào nội dung bài viết đó để phân loại vào các thể loại như tin thế giới, tin xã hội, tin văn hóa, tin thể thao, tin công nghệ, tin giáo dục Chương trình cho... là lớn Ở đây cần lưu ý rằng, một văn bản có thể có số lượng từ ngữ không nhiều, nhưng số lượng từ ngữ cần xét là rất nhiều vì phải bao hàm tất cả các từ của ngôn ngữ đang xét Do đặc điểm trên việc xử lý các từ trong văn bản trước khi phân loại trở nên cực kỳ quan trọng, tăng độ chính xác trong quá trình phân loại Trên thế giới đã có nhiều công trình nghiên cứu đạt những kết quả khả quan, nhất là đối... từ và câu Có thể liệt kê một số công trình nghiên cứu trong nước với các hướng tiếp cận khác nhau cho bài toán phân loại văn bản, bao gồm: phân loại với máy học vectơ hỗ trợ [4], cách tiếp cận sử dụng lý thuyết tập thô [5], cách tiếp cận thống kê hình vị [6], cách tiếp cận sử dụng phương pháp học không giám sát và đánh chỉ mục [7], cách tiếp cận theo luật kết hợp [8] 2.2 Cơ sở xây hệ thống phân loại ... tài xây dựng "Hệ thống tự động tổng hợp phân loại tin tức thành mục" Hệ thống có chức lấy thông tin tin tức từ trang web tin tức điện tử phân tích loại bỏ cac tin tức trùng lặp phân loại theo chủ... loại … Phân loại tin tức Phân loại tin tức việc phân loại tin tức mà thu thập chức thu thập tin tức trực tuyến vào thành thể loại, chương trình phân làm loại Công nghệ, Giáo dục, Thế giới, Thể... dựng nhằm mục đích thu thập tin tức từ trang tin điện tử trực tuyến phương pháp xử lý RSS Sau lấy tin tức dựa vào nội dung viết để phân loại vào thể loại tin giới, tin xã hội, tin văn hóa, tin thể