bộ giáo dục đào tạo đại học quốc gia hà nội trờng đại học khoa học tự nhiên ****** lơng song vân Học máy, học máy mô tả phức: thuật toán vấn đề rút gọn lỗi luận án thạc sỹ khoa học chuyên ngành tin học ngời hớng dÉn khoa häc: PTS Hµ Quang Thơy hµ néi - 1999 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com L−¬ng Song Vân Học máy, học máy mô tả phức: thuật toán vấn đề rút gọn lỗi Mục lục Nội dung Trang Phần mở đầu Chơng Bài toán học máy số thuật toán I.1 Bài toán học máy I.1.1 Bài toán học máy I.1.2 Một số đặc trng học máy I.1.3 Phơng pháp điển hình biểu diễn tri thức học máy I.2 Thuật toán điển hình học máy 10 I.2.1 ThuËt to¸n t¸ch nhãm 10 I.2.2 ThuËt to¸n phân lớp Bayes 14 I.2.3 Thuật toán phân lớp k-ngời láng giềng gần 18 I.2.4 Thuật toán định 20 Chơng Học máy mô tả phức II.1 Mô hình học máy mô tả phức 21 21 II.1.1 Sơ mô hình học máy mô tả phức 21 II.1.2 Một số nội dung học máy mô tả phức 23 II.2 Một số khái niệm trình bày tri thức học máy mô tả 26 phức II.2.1 Một số khái niệm 26 II.2.2 Trình bày tri thức học máy mô tả phức 27 II.3 Một số mô hình học máy mô tả phức 33 II.3.1 Mô hình POIL 33 II.3.2 Mô hình POCL 37 II.3.3 Mô hình HYDRA 42 II.3.4 Mô hình HYDRA-MM 45 -1- LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com L−¬ng Song Vân Học máy, học máy mô tả phức: thuật toán vấn đề rút gọn lỗi Chơng Rút gọn lỗi học máy mô tả phức III.1 Sơ rút gọn lỗi học máy mô tả phức 49 49 III.1.1 Một số khái niệm 49 III.1.2 Sơ rút gọn lỗi học máy mô tả phøc 49 III.2 Mét sè néi dung vỊ rót gän lỗi học máy mô tả phức 55 III.2.1 Sử dụng tập luật phức cho lỗi thấp 55 III.2.2 Mối quan hệ giảm lỗi lỗi tơng quan 57 III.2.3 Thu thập mối quan hệ rút gọn lỗi 58 III.2.4 Tác động nhiễu 59 III.2.5 Tác động thuộc tính không thích hợp 60 III.2.6 Tác động việc đa dạng hoá 62 Chơng Thuật toán tìm kiếm phân lớp sở liệu full-text IV.1 Cơ sở liệu full-text 64 64 IV.1.1 Khái niệm sở liệu full-text 64 IV.1.2 Các nội dung sở liệu full-text 66 IV.1.3 Các mô hình quản lý lu trữ thông tin văn 69 IV.2 Thuật toán tìm kiếm phân lớp sở liệu full-text theo mô hình vector cải tiến IV.2.1 Mô hình vector cải tiến thuật toán tìm kiếm 72 73 IV.2.2 Thuật toán phân lớp Bayes thứ 79 IV.2.3 Thuật toán phân lớp Bayes thứ hai 83 IV.2.4 Thuật toán phân lớp k-ngời láng giềng gần 86 Phần kết luận 90 Tài liệu tham khảo 92 -2- LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Lơng Song Vân Học máy, học máy mô tả phức: thuật toán vấn đề rút gọn lỗi Phần mở đầu Học máy (học tự động) lĩnh vực quan trọng Tin học, đặc biệt lĩnh vực công nghệ tri thức Mục tiêu học máy tạo phơng pháp chơng trình làm cho máy tính học đợc nh ngời Rất nhiều công trình nghiên cứu lý thuyết triển khai đà đợc công bố lĩnh vực học máy mà phần lớn đợc tập hợp tạp chí tiếng "Machine Learning" nhà xuất Kluwer ấn hành Lĩnh vực học máy có quan hệ mật thiÕt víi lÜnh vùc ph¸t hiƯn tri thøc ([1, 3, 11]) nay, số lợng nghiên cứu học máy ngày phát triển víi tèc ®é cao ë ViƯt nam, ®· cã nhiỊu nhà khoa học quan tâm đến lĩnh vực nói nhiều công trình nghiên cứu có giá trị đà đợc công bố ([1]) Lĩnh vực học máy có liên quan mËt thiÕt víi nhiỊu lÜnh vùc kh¸c cđa Toán học Tin học Nhiều mô hình, nhiều phơng ph¸p häc m¸y cã quan hƯ mËt thiÕt víi mô hình Toán học nh dàn Galois [2], lý thuyết Bayes [6, 7, 8, 13, 14] v.v Luận văn "Học máy, học máy mô tả phức: thuật toán vấn đề rút gọn lỗi" có nội dung đề cập tới số mô hình, thuật toán điển hình học máy Hai nội dung đợc trình bày luận văn thuật toán điển hình vấn đề rút gọn lỗi học máy Học máy mô tả phức mô hình học máy nhằm giảm thiểu lỗi học máy có giám sát đợc nghiên cứu rộng rÃi giới ([2, 6, 7, 8, 13, 14]) đợc trình bày luận văn Nội dung luận văn bao gồm bốn chơng đợc trình bày nh dới Chơng với tiêu đề "Bài toán học máy số thuật toán" đề cập tới vấn đề chung toán học máy: học máy không giám sát học máy có giám sát, thuật toán điển hình tách nhóm (học không giám sát) phân líp (häc cã gi¸m s¸t) C¸c tht to¸n Bayes, k-ng−êi láng giềng gần nhất, thuật toán định v.v đợc giới thiệu Các nội dung nói đợc tổng hợp từ tài liệu ([1, 2, 6, 7, 11, 14]) -3- LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Lơng Song Vân Học máy, học máy mô tả phức: thuật toán vấn đề rút gọn lỗi Chơng với tiêu đề "Học máy mô tả phức" giới thiệu số mô hình học máy mô tả phức đợc đề xớng phát triển trờng Đại học Tổng hợp California, Ivrin Luận văn trình bày nội dung mô hình học máy mô tả phức, thuật toán phân lớp áp dụng mô hình học máy mô tả phức từ FOIL đến HYDRA-MM Các chiến lợc "chia nhỏ để chế ngự", "leo đồi ngẫu nhiên" v.v., thuật toán Bayes, k-ngời láng giềng gần đợc mô tả mô hình học Luận văn giới thiệu tiến mô hình so với mô hình sẵn có Các nội dung nói đợc tổng hợp từ tài liệu ([6, 7, 8, 14]) Chơng với tiêu đề "Rút gọn lỗi học máy" đề cập tới số nội dung liên quan đến lỗi rút gọn lỗi học máy học máy mô tả phức Các khái niệm lỗi tuyệt đối, lỗi tơng đối, lỗi tơng quan đợc trình bày Mô hình học máy mô tả phức giải pháp hiệu việc rút gọn lỗi Một số giải pháp thuộc tính không tơng ứng, đa dạng hoá liệu, tổ hợp chứng v.v đợc giới thiệu phân tích khả rút gọn lỗi giải pháp Một số đánh giá thực nghiệm tác giả mô hình đợc nêu nhằm minh họa tính hiệu giải pháp Các nội dung chơng đợc rút từ tài liệu [5-11] đặc biệt từ công trình Ali K & Pazzani M [5] Chơng với tiêu đề "Thuật toán tìm kiếm phân lớp sở liệu full-text" trình bày nội dung liên quan đến hai toán điển hình sở liệu full-text, tìm kiếm phân lớp Nội dung chơng phát triển số nội dung đà đợc trình bày [4, 11] Sử dụng mô hình vector thuật toán phân lớp thể cụ thể nội dung tơng ứng [11] cho phép thuật toán hoạt động với tốc độ nhanh Luận văn đề xuất số cải tiến mô hình vector vấn đề từ đồng nghĩa số lợng xuất từ khóa với hai mục đích: thể tốt nội dung văn tăng tốc độ thực thuật toán Do hạn chế trình độ thời gian nên luận văn míi -4- LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Lơng Song Vân Học máy, học máy mô tả phức: thuật toán vấn đề rút gọn lỗi phác hoạ ý tởng hệ quản trị sở full-text có cài đặt thuật toán Em xin chân thành bày tỏ lòng biết ơn sâu sắc tới thầy giáo - PTS Hà Quang Thuỵ, ngời đà tận tình hớng dẫn, tạo điều kiện giúp đỡ bổ sung cho em nhiỊu kiÕn thøc q b¸u st trình em làm luận văn Em xin cảm ơn thầy PGS TS Nguyễn Xuân Huy thầy PTS Ngun T ®· ®ãng gãp nhiỊu ý kiÕn gióp em hoàn chỉnh luận văn Cuối cùng, em xin chân thành cảm ơn tất thầy cô giáo khoa Công Nghệ Thông Tin (trớc đây) khoa Công Nghệ (hiện nay), nh phòng Khoa học đào tạo sau đại học, trờng Đại học Khoa học Tự nhiên đà tạo điều kiện giúp đỡ phơng tiện nghiên cứu, giúp em hoàn thành thủ tục để em đợc bảo vệ luận văn Học viên Lơng Song Vân -5- LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Lơng Song Vân Học máy, học máy mô tả phức: thuật toán vấn đề rút gọn lỗi Chơng toán Học máy số thuật toán I.1 Bài toán học máy I.1.1 Bài toán học máy Học máy (machine learning) đợc hiểu nh trình gồm hai giai đoạn: giai đoạn học giai đoạn áp dụng nhằm tự động nhận rõ đặc trng đối tợng Mỗi lĩnh vực đợc ngời quan tâm luôn liên quan đến tập hợp khái niệm Từ kinh nghiệm đà học theo số mẫu cho trớc, cần phát đặc trng đối tợng Học máy đợc quan niệm nh trình thực kỹ xảo, mà nhờ đó, tri thức đợc thu nhận thông qua kinh nghiệm Mục tiêu học máy tạo phơng pháp chơng trình làm cho máy tính "có thể học đợc" nh ngời Tuy nhiên, số phạm vi nghiên cứu hẹp hơn, toán học máy đợc quan niệm cách đơn giản dới dạng toán "phân lớp": xếp đối tợng vào lớp đợc coi đà biết Bài toán học máy đợc trình bày cách hình thức nh dới Giả sử tồn tập khái niệm Ko (tập khái niệm Ko cha biết) tơng ứng với phân hoạch liệu miền D Tồn ánh xạ đa trị M từ Ko vào 2D theo ứng với khái niƯm nỊn x thc Ko tíi mét tËp d÷ liƯu (đợc gọi ví dụ mẫu ứng với khái niệm x) thuộc miền D Một khái niệm đặc trng cho lớp đối tợng Mở rộng tập khái niƯm nỊn Ko tíi tËp kh¸i niƯm K (Ko ⊆ K) đợc gọi tập khái niệm Cho biết tồn ánh xạ từ Ko tới K \ Ko (ánh xạ nói cha biết) cho phép cách nhận biết khái niệm thông qua mối quan hệ với khái niệm nÒn -6- LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Lơng Song Vân Học máy, học máy mô tả phức: thuật toán vấn đề rút gọn lỗi Quá trình học máy đợc phân chia thành hai giai đoạn tơng ứng với hai giai đoạn đó, kết học máy có hai dạng nh trình bày dới - Kết việc học máy cho tập khái niệm K, tập khái niệm Ko ánh xạ L từ Ko tới tập luật suy diễn liên quan tới khái niệm (Trờng hợp đặc biệt, tập khái niệm K tập khái niệm Ko đà biết) Theo ánh xạ này, khái niệm đợc tơng ứng với số luật suy diễn dạng Horn - cấp Kiểu học đợc gọi "học không giám sát" theo nghĩa áp đặt từ trớc trình học thông tin mô hình Một dạng đặc biệt học máy không giám sát tách (phân hoạch) tập đối tợng thành số nhóm (đoạn) đối tợng với số đặc trng Bài toán học dạng đợc gọi toán tách nhóm (tách đoạn) - Giả sử đà có ánh xạ L nói (từ khái niệm thuộc Ko tới mô tả tơng ứng) phép biểu diễn khái niệm thông qua khái niệm Bài toán đặt cần tìm khái niệm tơng ứng với ví dụ đợc hệ thống tiếp nhận Học máy kiểu đợc gọi "học có giám sát" theo nghĩa đà hớng đích tới tËp kh¸i niƯm K Cã thĨ sư dơng mét sè cách thức đoán nhận trớc khái niệm để nhanh chóng phát khái niệm tơng ứng với ví dụ Một dạng đặc biệt học có giám sát phân đối tợng vào lớp thích hợp tập lớp cho trớc Bài toán học kiểu đợc gọi "bài toán phân lớp" I.1.2 Một số đặc trng học máy Các phơng pháp học máy thờng đợc phân loại theo chất liệu đợc sử dụng cho trình học Tơng ứng với phơng pháp học không giám sát trình máy cần phát khái niệm dựa tập thể cha biết thuộc khái niệm Tơng ứng với phơng pháp học có giám sát trình máy tính cần tìm đặc trng khái niệm dựa tập thể (instances) đà biết khái niệm -7- LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Lơng Song Vân Học máy, học máy mô tả phức: thuật toán vấn đề rút gọn lỗi Học máy không giám sát (bài toán tách nhóm) cần đạt đợc số mục tiêu nh sau [2]: - Phân rà tập đối tợng thành tập con, tập tơng ứng với khái niệm (tách nhóm) Chính thân khái niệm đợc phát trình học máy Trong số trờng hợp riêng, trình tách nhóm đợc thể dới dạng nên trình học máy dạng đợc gọi phân loại phân cấp (hierarchical clustering) - Tìm đặc trng tập đà đợc phân hoạch trình phân rà Những đặc trng đợc dùng cho việc phân lớp đối tợng vào tập Quá trình đợc gọi đặc trng hoá khái niệm Luật suy diễn dạng Horn-cấp dạng biểu diễn điển hình đặc trng hoá khái niệm ([6, 7, 8]) Tuy nhiên, nhiều trờng hợp mô hình sử dụng tập mẫu thay cho khái niệm cha thể tìm đợc biểu diễn khái niệm tơng ứng Nh đà đợc trình bày, toán học máy không giám sát tiếp nhận thông tin đầu vào vậy, cha có đợc nhiều kết nghiên cứu công nghệ giải toán ([2]) Phần sau luận văn trình bày số giải pháp chung toán học máy không giám sát Một dạng đơn giản thuật toán học máy không giám sát đợc trình bày [2], nghiên cứu thay đổi hệ thống khái niệm đặc trng chúng liệu đợc thay đổi Nhiều dạng khác học máy không giám sát đă đợc khảo sát mà việc nghiên cứu phụ thuộc thô dạng điển hình ([03]) Khác với học máy không giám sát, học máy có giám sát thu nhận đợc nhiều thành tựu lý luận lẫn triển khai ứng dụng Dới số nội dung đặc trng cđa häc m¸y cã gi¸m s¸t: - Trong mét sè mô hình học máy có giám sát, việc đặc trng hoá khái niệm (mỗi nhóm liệu) đợc thể thông qua việc mô tả tập ví dụ ®iÓn -8- LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Lơng Song Vân Học máy, học máy mô tả phức: thuật toán vấn đề rút gọn lỗi hình tơng ứng với khái niệm Thông qua khoảng cách đối tợng đợc xác định cách thích hợp, nhiều thuật toán đà đợc sử dụng để kiểm nghiệm tơng ứng đối tợng khái niệm - Trong nhiều mô hình học máy khác, khái niệm đợc biểu diễn nhờ dÃy luật Horn-cấp dạng: class-a(X,Y) b(X),c(Y) bao gồm phần đầu (class-a(X,Y)) liên quan đến khái niệm phần thân liên quan đến literal (b(X),c(Y)) Thông qua trình suy diễn tơng ứng với luật nói kiểm nghiệm đợc khái niệm phù hợp với đối tợng Chẳng hạn, luật sau tham gia biểu diễn khái niƯm ung_th−_vó: ung_th−_vó (Ti, , Møc ®é) ← >(Ti, 50), >(Mức độ, 3) Theo luật này, ngời phụ nữ đợc biểu thị thông qua tập hợp giá trị biến (Tuổi, , Mức độ) có bệnh ung th vú bà ta đà 50 tuổi mức độ trầm trọng bệnh lớn độ - Một đặc trng quan trọng cần đợc khảo sát sai sót học máy có giám sát Để đánh giá mức độ tốt mô hình học máy, ngời ta thờng đa ví dụ kiểm tra (ví dụ test) Một sai sót đợc phát ví dụ đà biết thuộc vào khái niệm x song lại đợc hệ thống xếp vào khái niệm y mà x y Hiển nhiên, mô hình đợc coi tốt số lợng sai sót kiểm tra Có nhiều công trình khoa học nghiên cứu học máy có giám sát Một nội dung cốt lõi lĩnh vực giảm bớt sai sót học máy Một hớng để giảm thiểu sai sót đợc phát triển học máy mô tả phức ([6, 7, 8, 13, 14]) Trong chơng chơng 3, số mô hình điển hình số nội dung yếu học máy mô tả phức đợc trình bày I.1.3 Phơng pháp điển hình biểu diễn tri thức học máy Nh đà trình bày, biểu diễn tri thức liền với toán học máy ([4]) Nhiều mô hình hệ thống liên quan đến việc kết hợp việc học tự động với thu -9- LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Lơng Song Vân Học máy, học máy mô tả phức: thuật toán vấn đề rút gọn lỗi Tài liệu Doc đợc coi thuộc vào C P(C/Doc) CtgTsh tơng ứng, ngợc lại, (P(C/Doc) < CtgTsh) tài liệu Doc không thuộc vào catalog C Kết hệ thống sinh xác suất P(Ci/Doc) cuối định xem tài liệu Doc đà cho thuộc vào catalog Các xác suất P(Ci/Doc) đợc gọi xác suất hậu nghiệm Giá trị P(C/Doc) - xác suất tài liệu Doc thuộc vào catalog C đợc tính toán dựa vào công thức sau: P (C ) ì P (F j C ) TF ( F j , Doc ) F j ∈T P ( C Doc ) = n ∑ P ( C i ) × ∏ P ( Fl C i ) i =1 TF ( F l , Doc ) (4.2) Fl ∈T vµ P ( F j C )= + TF ( F j , C ) n (4.3) T + ∑ TF ( Fi , C ) i =1 Trong đó: ã Fj từ thứ j tập từ khóa ã TF(Fj, C) tần suất từ Fj tài liệu Doc ã TF(Fj, C) tần suất từ Fj Catalog C ã | T | số lợng từ có tập từ khóa T ã P(Fj, C) xác suất có điều kiện để từ Fj có mặt tài liệu Catalog C ã n số lợng Catalog có hệ thống Trong công thức (4.3) xác suất P(Fj/C) đợc tính sử dụng ớc lợng xác suất Laplace Để tránh trờng hợp tần suất cña tõ Fj Catalog C b»ng - tøc từ Fj Catalog C tử số đợc cộng thêm -80- LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Lơng Song Vân Học máy, học máy mô tả phức: thuật toán vấn đề rút gọn lỗi Tuy nhiên có điều quan trọng để làm giảm phức tạp tính toán làm giảm bớt thời gian tính toán công thức (4.2) ta để ý thấy rằng: Không phải tài liệu Doc đà cho chứa tất từ tập tõ khãa T Do ®ã, TF(Fj , Doc) =0 từ khóa Fj thuộc T nhng không thuộc tài liệu Doc Và kết kéo theo P(Fj|C)TF(Fj,Doc)=1 từ khóa Fj Và nh ta bỏ qua từ khóa Fj mà không làm ảnh hởng đến công thức (4.2) Và công thức cuối công thức (4.2) đợc viết lại nh sau: P (C ) × P(C Doc) = ∏ P( F C ) F j ∈ Doc n ∑ P ( Ci ) × i =1 ∏ P( F Fl ∈ Doc TF ( F j , Doc ) j l Ci ) TF ( Fl , Doc ) (4.2) tơng tự (4.3) đợc viết lại nh sau: ( ) P Fj C = + TF ( F j , C ) n (4.3’) T + ∑ TF ( Fi , C ) i =1 víi Fj ∈Doc Nh− vËy, phân lớp duyệt toàn tập từ khóa T mà phải duyệt Vector tài liệu Doc Một điều đáng ý là: Các giá trị P(Ci) ngỡng CtgTshi giá trị đợc xác định trớc thông qua phân tích từ thực tế Việc xác định tham số xác làm tăng độ tin cậy phân lớp Để hiểu rõ hoạt ®éng cđa bé ph©n líp, ta xem xÐt vÝ dơ 4.1 sau Ví dụ 4.1 Giả sử có hai Catalog C1 C2 có tham số nh sau: Tham sè C1 C2 P(C) 0.5 0.5 Ng−ìng 0.75 0.6 Số lợng từ khóa tập từ khóa T (tøc | T |) |µ 75 -81- LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Lơng Song Vân Học máy, học máy mô tả phức: thuật toán vấn đề rút gọn lỗi Hệ thống từ khóa riêng Catalog (tức từ xuất từ Catalog) C1 C2 nh sau: Catalog C1 Catalog C2 Tõ khãa TÇn suÊt Tõ khãa TÇn suÊt X· héi 10 X· héi 15 Chñ nghÜa 20 T 30 Cộng hoà 15 Việt Nam 30 Tài liƯu Doc cã néi dung: “X· héi chđ nghÜa” Vector cđa tµi liƯu nµy lµ: ((X· héi,1), (Chđ nghÜa, 1)); Nh ta có giá trị tính toán nh sau: Víi Catalog C1: P(X· héi | C1)= 11/110; P(Chđ nghÜa | C1)= 21/110; Víi Catalog C2: P(X· héi | C2)= 16/90; P(Chñ nghÜa | C2)= 1/90; n ∑ i =1 P (Ci ) × ∏ P( F C ) Fl ∈ Doc l i TF ( Fl , Doc ) = 0.6464; P(C1 | Doc) = 0.914; P(C2 | Doc) = 0.156; Nh− vËy P(C1 | Doc)= 0.914 > 0.75; đợc phân vào Catalog C1 Còn P(C2 | Doc) = 0.156 < 0.6 không đợc phân vào Catalog C2 Bộ phân lớp đà phân tài liệu Doc đà cho vào catalog C1 với độ xác 0.914% Nh tài liệu đợc phân vào catalog nh−ng -82- LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Lơng Song Vân Học máy, học máy mô tả phức: thuật toán vấn đề rút gọn lỗi có giá trị P(C |Doc) hoàn toàn khác nhau, giá trị chúng cao độ xác cao IV.2.3 Thuật toán phân lớp Bayes thø hai Bé ph©n líp thø hai cịng cã trình hoạt động hoàn toàn giống phân lớp Bayes thứ Tuy nhiên, cách biểu diễn tài liệu Doc tính giá trị P(C | Doc) khác với phân lớp thứ Các thông tin sau đợc đòi hỏi: ã Tập từ khóa T – Cã ý nghÜa gièng nh− bé ph©n líp Bayes thứ ã Xác suất P(Ci) Có ý nghĩa giống nh ã Các ngỡng CtgTsh i - Có ý nghÜa gièng nh− trªn Doc cịng biĨu diƠn d−íi dạng vector, nhng kích thớc vector kích thớc tập từ khóa T Mỗi thành phần vector gồm từ khóa Fi giá trị thể từ khóa Fi xuất hay không xuất tài liệu Doc Điều có nghĩa để tính toán giá trị P(C | Doc) phân lớp phải hoạt động toàn tập từ khóa T Công thức tính toán giá trị P(C | Doc) đợc mô tả dới đây: P (C Doc ) = ( P(C )ì P Doc( F j ) C F j ∈T ) ∑ P(Ci )× ∏ P (Doc( Fl ) Ci ) n i =1 (4.4) Fl∈T vµ ( ) P Doc( F j ) C = ( + N Doc( F j ) C ) + Dc (4.5) Trong đó: ã P(Doc(Fj) | C) xác suất có điều kiƯn ®Ĩ tõ khãa Fj líp C cã cïng giá trị nh tài liệu Doc, đợc tính toán sử dụng công thức ớc lợng xác suất Laplace nh− c«ng thøc (4.5) -83- LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Lơng Song Vân Học máy, học máy mô tả phức: thuật toán vấn đề rút gọn lỗi ã N(Doc(Fj) | C) số lợng tài liệu thuộc catalog C có giá trị từ Fj với tài liệu Doc Tức là, số lợng tài liệu thuộc catalog C có từ khóa Fj ã | Dc | tổng số tài liệu có catalog C Trong công thức (4.5) có số tử số để tránh trờng hợp N(Doc(Fj)|C)=0, số mẫu hai trạng thái giá trị từ (xuất không xuất tài liệu) Quá trình lại hoàn toàn tơng tự nh phân lớp Bayes thứ Tức là, so sánh P(C | Doc) với ngỡng CtgTsh để định tài liệu Doc có thuộc vào Catalog C hay không Ví dụ 4.2 Giả sử có Catalog C1 C2 nh sau: Catalog C1 C2 X¸c st 0.5 0.5 Ng−ìng 0.7 0.6 Và Catalog C1 có tài liệu: Học tốt phải học học Và học mÃi mÃi mÃi Đà học phải học Còn Catalog C2 có tài liệu: Sống đẹp sống mÃi Đẹp sống đẹp Cuộc sống đẹp Tài liệu Doc cần phân lớp là: MÃi phải học Tập từ khóa T là: [ Học, Tốt, Phải, Và, MÃi, ĐÃ, Sống, Đẹp, Là, Nhất] Tính toán giá trị cho Catalog C1 nh sau: Các giá trị catalog C1 | Dc1 |=3 Các giá trị catalog C2 | Dc2 |=3 -84- LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Lơng Song Vân Học máy, học máy mô tả phức: thuật toán vấn đề rút gọn lỗi N(Học | C1)= 3; (Số tài liệu Catalog C1 cã chøa tõ Häc- gièng nh− tµi liƯu Doc) N(Và | C1)=1; (Số tài liệu Catalog C1 không chứa từ Và- giống nh tài liệu Doc) N(Ph¶i | C1)= N(Tèt | C1)= N(M·i | C1)=1 N(§· | C1)=2 N(Sèng | C1)=3 N(§Đp | C1)=3 N(Lµ | C1)=3 N(NhÊt | C1)=3 ( ) ( ) N(Học | C2)= 0; (Số tài liệu Catalog C2 cã chøa tõ Häcgièng nh− tµi liƯu Doc) N(Và | C2)= 3; (Số tài liệu Catalog C2 không chứa từ Và- giống nh tài liƯu Doc) N(Ph¶i | C2)= N(Tèt | C2)= N(M·i | C2)=1 N(§· | C2)=3 N(Sèng | C2)=0 N(§Đp | C2)=0 N(Là | C2)=1 N(Nhất | C1)=2 P(C1 )ì ∏ P Doc( F j ) C1 = 55296/510; F j ∈T P(C2 )× ∏ P Doc( F j ) C =384/510; F j ∈T ∑ P(Ci )× ∏ P (Doc( Fl ) Ci ) =55680/510; n i =1 Fl∈T VËy P(C1 | Doc)=0.993; P(C2 | Doc)=0.016; Do P(C1 | Doc)= 0.993 > 0.7 nên tài liệu Doc đợc phân vào Catalog C1; P(C2 | Doc)= 0.016 < 0.6 nên tài liệu Doc không đợc phân vào Catalog C2 Việc chọn ngỡng phân lớp Nh đà trình bày chơng 1, cách chọn ngỡng CtgTshi phải phù hợp Về mặt lí thuyết chọn ngỡng CtgTshi cao phân tài liệu -85- LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Lơng Song Vân Học máy, học máy mô tả phức: thuật toán vấn đề rút gọn lỗi vào lớp C đòi hỏi phải có xác suất P(C|Doc) lớn ngỡng xác suất phải cao vậy, độ xác cao theo Tuy nhiên, chọn ngỡng cao, xảy trờng hợp giá trị P(Ci | Doc) không vợt qua đợc ngỡng CtgTshi Điều có nghĩa tài liệu Doc không đợc phân vào Catalog Ví dụ 4.3 Giả sử có Catalog C1, C2 C3 lần lợt có ngỡng 0.7; 0.6; 0.5 Một tài liệu Doc sau đợc tính toán cho kÕt qu¶ nh− sau: P(C1 | Doc)=0.6; P(C2 | Doc)=0.3; P(C3 | Doc)=0.1; Khi tài liệu Doc không đợc phân vào Catalog Catalog C1, C2, C3 Ngợc lại, chọn ngỡng nhỏ dẫn đến tình sau: ã Thứ độ xác tài liệu đợc phân nhỏ ã Thứ hai có khả xảy tài liệu đợc phân vào nhiều nhóm lúc VÝ dơ 4.4 Cã Catalog nh− trªn nh−ng cã ngỡng 0.4; 0.5; 0.3; Và có P(C1 | Doc)=0.5; P(C2 | Doc)=0.1; P(C3 | Doc)=0.4; Nh− vËy, tµi liệu lúc đợc phân vào hai Catalog C1 C3 Để chọn đợc ngỡng phù hợp cách tốt kết hợp ngời máy Điều đợc thực cách ta lấy tài liệu đà biết trớc đợc nội dung nằm Catalog Sau cho máy tự tìm P(Ci | Doc) phân tài liệu vào Catalog dựa ngỡng cũ đà có Nếu ta thấy chúng đợc phân theo nh kết nh đà biết trớc giữ nguyên lại ngỡng cũ Ngợc lại hệ thống phân không với dự kiến tuỳ theo tình cụ thể mà tăng giảm ngỡng cũ thấy cần thiết IV.2.4 Thuật toán phân lớp "k_ngời láng giềng gần nhất" -86- LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Lơng Song Vân Học máy, học máy mô tả phức: thuật toán vấn đề rút gọn lỗi Nh đà trình bày chơng 1, sở liệu full-text theo mô hình vector đây, hoạt động thuật toán không phụ thuộc vào tập từ khóa Nói cách khác, không dựa vào tập từ khóa Tuy nhiên, thuật toán sử dụng ngỡng Ctgtshi, theo bớc nh đà nói Sự hoạt động dựa vào k tài liệu (lấy ngẫu nhiên) hệ thống, tính P(C/Doc) dựa vào giống tài liệu Doc đà cho với k tài liệu đợc chọn Trong thuật ngữ "k ngời láng giềng gần nhất", k tài liệu đợc chọn Cụ thể công thức tính P(C/ Doc) nh− sau: ∑ Sm( Doc, Dl ) × P (C Dl ) k P (C Doc ) = l =1 n k (4.6) ∑ ∑ Sm( Doc, Dl ) × P (Ci Dl ) i =1l =1 Trong ®ã: ã k số lợng tài liệu đợc chọn để so sánh ã n số catalog ã P (Ci | Dl) có giá trị 0, tài liệu Dl có thuộc vào catalog Ci hay không, có giá trị tài liệu đợc phân vào nhiều catalog ã Sm (Doc, Dl) xác định mức độ giống tài liệu đà cho Doc với tài liệu đợc chọn Dl Nó đợc tính cos góc hai vectơ biểu diễn tài liệu Doc tài liệu Dl theo công thức sau đây: Sm( Doc, Dl ) = Cos( Doc, Dl ) = ∑ X *Y Sqrt ( ∑ X ∑ Y i i j i j l l ) (4.7) Trong ®ã biểu diễn tài liệu hoàn toàn tơng tự với c¸ch biĨu diƠn cđa bé phËn líp Bayes thø nhÊt Tức gồm từ khóa Fi tần số Xi tơng ứng Trong công thức (4.7): ã Xi tần suất từ tài liệu Doc -87- LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Lơng Song Vân Học máy, học máy mô tả phức: thuật toán vấn đề rút gọn lỗi ã Yi tần suất từ tài liệu Dl ã i Xi *Yi tổng tích tần suất từ giống hai tài liệu Doc Dl ã j X2j tổng bình phơng tần suất từ có tài liệu Doc ã l Y2l tổng bình phơng tần suất từ có tài liệu Dl ã Sqrt(j X2j l Y2l) bậc hai j X2j l Y2l Chẳng hạn, tài liệu Doc ((Hà Nội , 2) , (ViƯt nam , 3) , (céng hoµ ,1) , (chủ nghĩa,4)) Còn tài liệu Dl là: ((Cộng hoà ,2) , (X· héi , 5) , (Chñ nghÜa , 3) , (ViƯt nam, 1)) Khi ®ã: Cos(Doc,Dl)=(2*1+3*4+3*1)/ sqrt((22 +32+12+42)*(22 +52+32+12)) =0.497 Quá trình lại hoàn toàn tơng tự nh phận lớp Tức so sánh giá trị P(C | Doc) với ngỡng CtgTsh Catalog C để xem có thuộc vào Catalog không Ví dụ 4.5 nh đợc trình bày dới mô tả hoạt động thuật toán Ví dụ 4.5 Giả sử có catalog C1và C2 với ngỡng tơng ứng 0.67 0.6 Tài liệu Doc cần đợc phân lớp là: Chủ nghĩa xà hội Các tài liệu đợc chọn để so sánh lµ: “ Céng hoµ x· héi chđ nghÜa ViƯt Nam” thuéc catalog C1 “ X· héi x· héi chđ nghÜa” thc C1 “ Chđ nghÜa ®Õ qc, xà hội t thuộc catalog C2 Quá trình tính to¸n diƠn nh− sau: C¸c vector biĨu diƠn c¸c tài liệu là: ã D1 = ((cộng hoà,1), (xà hội, 1), (chđ nghÜa, 1), (ViƯt Nam, 1)) • D2 = ((X· héi, 2), (chñ nghÜa, 1)) -88- LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Lơng Song Vân Học máy, học máy mô tả phức: thuật toán vấn đề rút gọn lỗi ã D3 = ((xà hội, 1), (chủ nghĩa, 1), (Đế quốc, 1), (t bản, 1)) ã Doc = ((x· héi, 1), (chđ nghÜa, 1)) • Cos (Doc, D1)= 0.716; • Cos (Doc, D2) = 0.949; • Cos (Doc, D3) = 0.716; • ∑ ∑ Sm( Doc, D ) × P(C n k i =1 l =1 l i ) Dl = 2.362; Và: ã P(C1 | Doc) = 0.70; ã P(C2 | Doc) = 0.30; Kết cuối là: P(C1 | Doc)=0.7 > 0.67 nên tài liệu Doc đợc phân vào Catalog C1 Ngợc lại, P(C2 | Doc)=0.3 < 0.6 nên tài liệu Doc không đợc phân vào Catalog C2 Chú ý nâng cao chất lợng thuật toán Việc xác định k số lợng tài liệu mẫu cách chọn tài liệu mẫu để tính toán khoảng cách nói có ý nghĩa quan trọng chất lợng thuật toán Một cách hiệu dựa theo kinh nghiệm kết hợp ngời m¸y -89- LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Lơng Song Vân Học máy, học máy mô tả phức: thuật toán vấn đề rút gọn lỗi Phần kết luận Luận văn đà xem xét số nội dung mô hình học máy có giám sát Học máy lĩnh vực đợc coi liên quan mật thiết đến công nghệ tri thức Tùy thuộc vào lợng thông tin đà có để phân loại học máy thành học máy không giám sát học máy có giám sát Bài toán học máy có giám sát đà có nhiều kết toán học máy không giám sát lại kết Trong học máy có giám sát, đà có nhiều thuật toán giải công việc phân lớp đối tợng điển hình kể đến thuật toán Bayes, thuật toán k-ngời láng giềng gần nhất, thuật toán định v.v Trong mô hình học máy mô tả phức, khái niệm tơng ứng tập luật liệu đợc xem xét không tập hợp liệu đơn lẻ mà đợc xem xét theo nhiều tập hợp liệu Nhiều công trình nghiên cứu cho thấy, mô hình học máy mô tả phức cho kết học máy xác so với mô hình đơn tơng ứng Bài toán học máy đợc gặp nhiều lĩnh vực khác công nghệ tri thức số dạng học máy đợc tìm thấy sở liệu full-text Bài toán phân lớp tài liệu sở liệu fulltext toán phổ biến: Có thĨ sư dơng mét sè tht to¸n häc m¸y cã giám sát theo mô hình vector sở liệu full-text Luận văn đà thực đợc số nội dung nh sau: - Trình bày đợc cách nhìn nhận tổng quan toán học máy, phân loại toán học máy số thuật toán Nội dung tổng quan đợc tập hợp từ nhiều nguồn tài liệu khác nhau, nớc nh nớc - Trình bày đợc nội dung học máy mô tả phức Luận văn đà trình bày nét mô hình học máy mô tả phức nh FOIL, FOCL, HYDRA, HYDRA-MM Kết nội dung đợc -90- LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com L−¬ng Song Vân Học máy, học máy mô tả phức: thuật toán vấn đề rút gọn lỗi tập hợp chủ yếu từ nhiều công trình nghiên cứu nhóm học máy trờng Đại học Tổng hợp California, Ivrin - Trình bày nội dung sở liệu full-text Luận văn phát triển đề xuất cải tiến mô hình vector, bao gồm việc xem xét tần suất xuất từ khóa tài liệu nh vấn đề từ đồng nghĩa Luận văn trình bày số thuật toán phân lớp tài liệu sở liệu full-text Một số kết cải tiến có giá trị cha cao song thực đợc phát triển luận văn sở [5, 13] Do có hạn chế điều kiện, khả triển khai máy tính nên luận văn có khiếm khuyết cha thể đợc cài đặt cụ thể toán học máy mô tả phức lẫn toán tìm kiếm phân lớp sở liệu full-text Các thuật toán học máy đợc gặp phổ biến trình khám phá trí thức sở liệu (KDD: Knowledge Discovery in Databases) lĩnh vực định hớng nghiên cứu tiếp luận văn -91- LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Lơng Song Vân Học máy, học máy mô tả phức: thuật toán vấn đề rút gọn lỗi Tài liệu tham khảo Tài liệu tiếng Việt Hồ Tú Bảo Một số kết nghiên cứu công nghệ tri thức Báo cáo Hội nghị Khoa học Viện Công nghệ Thông tin Hà Nội 5&6-12-1996, trang 1825 Hồ Tú Bảo Học tự động không giám sát dàn Galois với liệu thay đổi Báo cáo Hội nghị Khoa học Viện Công nghệ Thông tin Hà Nội 5&6-121996, trang 27-36 Hà Quang Thụy Tập thô bảng định Tạp chí Khoa học Đại học Quốc gia Hµ Néi TËp 12 Sè 4-1996, trang 9-14 Nguyễn Thị Vân Xây dựng sở liệu Full-Text Luận văn tốt nghiệp Đại học, Khoa CNTT, 1998 Tài liÖu tiÕng Anh Ali K & Pazzani M Error Reduction through Learning Multiple Descriptions Machine Learning, 24:3, 1996 Ali K., Brunk C & Pazzani M Learning Multiple Relational Rule-based Models In "Preliminary Papers of the 5th International Workshop on Artificial Intelligence and Statistics" Fort Lauderdale, FL, 1995 Ali K & Pazzani M HYDRA-MM: Learning Multiple Descriptions to Improve Classification Accuracy International Journal on Artificial Intelligence Tools, 4, 1995 Ali K., Brunk C & Pazzani M On Learning Multiple Descriptions of a Concept In Proceedings of the Sixth International Conference on Tools with Artificial Intelligence New Orleans, LA: IEEE Press, 1994 -92- LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Lơng Song Vân Học máy, học máy mô tả phức: thuật toán vấn đề rút gọn lỗi Bay S D Combining Nearest Neighbor Classifiers Through Multiple Feature Subsets Proceedings of the International Conference on Machine Learning Morgan Kaufmann Publishers Madison, Wisc., 1998 10 Billsus D & Pazzani M Learning probabilistic user models In workshop notes of Machine Learning for User Modeling, Sixth International Conference on User Modeling, Chia Laguna, Sardinia, 2-5 June 1997 11 Bruce Moxon Defining Data mining DBMS Data Warehouse Supplement, August 1996 12 Domingos P Knowledge Acquisition from Examples Via Multiple Models Proceedings of the Fourteenth International Conference on Machine Learning, 1997 Nashville, TN: Morgan Kaufmann 13 Dunja Mladenic' Machine Learning on non-homogeneous, distbuted text data (Chapter Document representation and learning algorithms) Doctoral dissertation University of Ljubljana, Slovenia 1998 14 Hume T & Pzzani M Learning Sets of Related Concepts: A Shared Task Model Proceedings of the Sixteen Annual Conference of the Cognitive Science Society Pittsburgh, PA: Lawrence Erlbaum, 1995 15 Merz C & Pazzani M Handling Redundancy in Ensembles of Learned Models Using Principal Components AAAI Workshop on Integrating Multiple Models, 1997 16 Pazzani M & Billsus D Learning and Revising User Profiles: The identification of interesting web sites Machine Learning 27, 313-331, 1997 17 Shankle W S., Datta P., Pazzani M & Michael D Improving dementia screening tests with machine learning methods Alzheimer's Research, June, 1996, vol no -93- LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Lơng Song Vân Học máy, học máy mô tả phức: thuật toán vấn đề rút gọn lỗi 19 Peter Cheeseman, John Stutz Bayesian Classification (AutoClass): Theory and Results Advances in Knowledge Discovery and Data Mining AAAI Press / The MIT Press 1996 153-180 20 Pazzani M., Kibler D The Utility of Knowledge in Inductive Learning Machine Learning, , 54-97, 1992 -94- LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ... Song Vân Học máy, học máy mô tả phức: thuật toán vấn đề rút gọn lỗi Chơng học máy mô tả phức II.1 Mô hình học máy mô tả phức II.1.1 Sơ mô hình học máy mô tả phức Một toán quan trọng học máy có... Song Vân Học máy, học máy mô tả phức: thuật toán vấn đề rút gọn lỗi Chơng với tiêu đề "Học máy mô tả phức" giới thiệu số mô hình học máy mô tả phức đợc đề xớng phát triển trờng Đại học Tổng hợp... luanvanchat@agmail.com Lơng Song Vân Học máy, học máy mô tả phức: thuật toán vấn đề rút gọn lỗi Chơng toán Học máy số thuật toán I.1 Bài toán học máy I.1.1 Bài toán học máy Học máy (machine learning) đợc