Tài liệu Luận văn:Học máy, học máy mô tả phức;thuật toán và vấn đề rút gọn lỗi docx

bộ giáo dục đào tạo đại học quốc gia hà nội trờng đại học khoa học tự nhiên ****** lơng song vân Học máy, học máy mô tả phức: thuật toán vấn đề rút gọn lỗi luận án thạc sỹ khoa học chuyên ngành tin học ngời hớng dÉn khoa häc: PTS Hµ Quang Thơy hµ néi - 1999 Lơng Song Vân Học máy, học máy mô tả phức: thuật toán vấn đề rút gọn lỗi Mục lục Nội dung Trang Phần mở đầu Chơng Bài toán học máy số thuật toán I.1 Bài toán học máy I.1.1 Bài toán học máy I.1.2 Một số đặc trng học máy I.1.3 Phơng pháp điển hình biểu diễn tri thức học máy I.2 Thuật toán điển hình häc m¸y 10 I.2.1 ThuËt to¸n t¸ch nhãm 10 I.2.2 Thuật toán phân lớp Bayes 14 I.2.3 Thuật toán phân lớp k-ngời láng giềng gần 18 I.2.4 Thuật toán định 20 Chơng Học máy mô tả phức II.1 Mô hình học máy mô tả phức 21 21 II.1.1 Sơ mô hình học máy mô t¶ phøc 21 II.1.2 Mét sè néi dung cđa häc máy mô tả phức 23 II.2 Một số khái niệm trình bày tri thức học máy mô tả 26 phức II.2.1 Một số khái niệm 26 II.2.2 Trình bày tri thức học máy mô tả phức 27 II.3 Một số mô hình học máy mô tả phức 33 II.3.1 Mô hình POIL 33 II.3.2 Mô hình POCL 37 II.3.3 Mô hình HYDRA 42 II.3.4 Mô hình HYDRA-MM 45 -1- Lơng Song Vân Học máy, học máy mô tả phức: thuật toán vấn đề rút gọn lỗi Chơng Rút gọn lỗi học máy mô tả phức III.1 Sơ rút gọn lỗi học máy mô tả phức 49 49 III.1.1 Một số khái niệm 49 III.1.2 Sơ rút gọn lỗi học máy mô tả phức 49 III.2 Một số nội dung rút gọn lỗi học máy mô tả phức 55 III.2.1 Sử dụng tập luật phức cho lỗi thấp 55 III.2.2 Mối quan hệ giảm lỗi lỗi tơng quan 57 III.2.3 Thu thập mối quan hệ rút gọn lỗi 58 III.2.4 Tác ®éng cđa nhiƠu 59 III.2.5 T¸c ®éng cđa thc tÝnh không thích hợp 60 III.2.6 Tác động việc đa dạng hoá 62 Chơng Thuật toán tìm kiếm phân lớp sở liệu full-text IV.1 Cơ sở liệu full-text 64 64 IV.1.1 Khái niệm sở liệu full-text 64 IV.1.2 Các nội dung sở liệu full-text 66 IV.1.3 Các mô hình quản lý lu trữ thông tin văn 69 IV.2 Thuật toán tìm kiếm phân lớp sở liệu full-text theo mô hình vector cải tiến IV.2.1 Mô hình vector cải tiến thuật toán tìm kiếm 72 73 IV.2.2 Thuật toán phân lớp Bayes thứ 79 IV.2.3 Thuật toán phân lớp Bayes thứ hai 83 IV.2.4 Thuật toán phân lớp k-ngời láng giềng gần 86 Phần kết luận 90 Tài liệu tham khảo 92 -2- Lơng Song Vân Học máy, học máy mô tả phức: thuật toán vấn đề rút gọn lỗi Phần mở đầu Học máy (học tự động) lĩnh vực quan trọng Tin học, đặc biệt lĩnh vực công nghệ tri thức Mục tiêu học máy tạo phơng pháp chơng trình làm cho máy tính học đợc nh ngời Rất nhiều công trình nghiên cứu lý thuyết triển khai đÃ đợc công bố lĩnh vực học máy mà phần lớn đợc tập hợp tạp chí tiếng "Machine Learning" nhà xuất Kluwer ấn hành Lĩnh vực häc m¸y cã quan hƯ mËt thiÕt víi lÜnh vùc phát tri thức ([1, 3, 11]) nay, số lợng nghiên cứu học máy ngày phát triển với tốc độ cao Việt nam, đÃ có nhiều nhà khoa học quan tâm đến lĩnh vực nói nhiều công trình nghiên cứu có giá trị đÃ đợc công bố ([1]) Lĩnh vực học máy có liên quan mật thiết với nhiều lĩnh vực khác Toán học Tin học Nhiều mô hình, nhiều phơng pháp học máy có quan hệ mật thiết với mô hình Toán häc nh− dµn Galois [2], lý thuyÕt Bayes [6, 7, 8, 13, 14] v.v Luận văn "Học máy, học máy mô tả phức: thuật toán vấn đề rút gọn lỗi" có nội dung đề cập tới số mô hình, thuật toán điển hình học máy Hai nội dung đợc trình bày luận văn thuật toán điển hình vấn đề rút gọn lỗi học máy Học máy mô tả phức mô hình học máy nhằm giảm thiểu lỗi học máy có giám sát đợc nghiên cứu rộng r·i trªn thÕ giíi hiƯn ([2, 6, 7, 8, 13, 14]) đợc trình bày luận văn Nội dung luận văn bao gồm bốn chơng đợc trình bày nh dới Chơng với tiêu đề "Bài toán học máy số thuật toán" đề cập tới vấn đề chung toán học máy: học máy không giám sát học máy có giám sát, thuật toán điển hình tách nhóm (học không giám sát) phân lớp (học có giám sát) Các thuật toán Bayes, k-ngời láng giềng gần nhất, thuật toán định v.v đợc giới thiệu Các nội dung nói đợc tổng hợp từ tài liƯu ([1, 2, 6, 7, 11, 14]) -3- L−¬ng Song Vân Học máy, học máy mô tả phức: thuật toán vấn đề rút gọn lỗi Chơng với tiêu đề "Học máy mô tả phức" giới thiệu số mô hình học máy mô tả phức đợc đề xớng phát triển trờng Đại học Tổng hợp California, Ivrin Luận văn trình bày nội dung mô hình học máy mô tả phức, thuật toán phân lớp áp dụng mô hình học máy mô tả phức từ FOIL đến HYDRA-MM Các chiến lợc "chia nhỏ để chế ngự", "leo đồi ngẫu nhiên" v.v., thuật toán Bayes, k-ngời láng giềng gần đợc mô tả mô hình học Luận văn giới thiệu tiến mô hình so với mô hình sẵn có Các nội dung nói đợc tổng hợp từ tài liệu ([6, 7, 8, 14]) Chơng với tiêu đề "Rút gọn lỗi học máy" đề cập tới số nội dung liên quan đến lỗi rút gọn lỗi học máy học máy mô tả phức Các khái niệm lỗi tuyệt đối, lỗi tơng đối, lỗi tơng quan đợc trình bày Mô hình học máy mô tả phức giải pháp hiệu việc rút gọn lỗi Một số giải pháp thuộc tính không tơng ứng, đa dạng hoá liệu, tổ hợp chứng v.v đợc giới thiệu phân tích khả rút gọn lỗi giải pháp Một số đánh giá thực nghiệm tác giả mô hình đợc nêu nhằm minh họa tính hiệu giải pháp Các nội dung chơng đợc rút từ tài liệu [5-11] đặc biệt từ công trình Ali K & Pazzani M [5] Chơng với tiêu đề "Thuật toán tìm kiếm phân lớp sở liệu full-text" trình bày nội dung liên quan đến hai toán điển hình sở liệu full-text, tìm kiếm phân lớp Nội dung chơng phát triển số nội dung đÃ đợc trình bày [4, 11] Sử dụng mô hình vector thuật toán phân lớp thể cụ thể nội dung tơng ứng [11] cho phép thuật toán hoạt động với tốc độ nhanh Luận văn đề xuất số cải tiến mô hình vector vấn đề từ đồng nghĩa số lợng xt hiƯn tõ khãa víi hai mơc ®Ých: thĨ hiƯn tốt nội dung văn tăng tốc độ thực thuật toán Do hạn chế trình độ thời gian nên luận văn -4- Lơng Song Vân Học máy, học máy mô tả phức: thuật toán vấn đề rút gọn lỗi phác hoạ ý tởng hệ quản trị sở full-text có cài đặt thuật toán Em xin chân thành bày tỏ lòng biết ơn sâu sắc tới thầy giáo - PTS Hà Quang Thuỵ, ngời đÃ tận tình hớng dẫn, tạo điều kiện giúp đỡ bổ sung cho em nhiỊu kiÕn thøc q b¸u st trình em làm luận văn Em xin cảm ơn thầy PGS TS Nguyễn Xuân Huy thầy PTS Ngun T ®· ®ãng gãp nhiỊu ý kiÕn gióp em hoàn chỉnh luận văn Cuối cùng, em xin chân thành cảm ơn tất thầy cô giáo khoa Công Nghệ Thông Tin (trớc đây) khoa Công Nghệ (hiện nay), nh phòng Khoa học đào tạo sau đại học, trờng Đại học Khoa học Tự nhiên đÃ tạo điều kiện giúp đỡ phơng tiện nghiên cứu, giúp em hoàn thành thủ tục để em đợc bảo vệ luận văn Học viên Lơng Song Vân -5- Lơng Song Vân Học máy, học máy mô tả phức: thuật toán vấn đề rút gọn lỗi Chơng toán Học máy số thuật toán I.1 Bài toán học máy I.1.1 Bài toán học máy Học máy (machine learning) đợc hiểu nh trình gồm hai giai đoạn: giai đoạn học giai đoạn áp dụng nhằm tự động nhận rõ đặc trng đối tợng Mỗi lĩnh vực đợc ngời quan tâm luôn liên quan đến tập hợp khái niệm Từ kinh nghiệm đÃ học theo số mẫu cho trớc, cần phát đặc trng đối tợng Học máy đợc quan niệm nh trình thực kỹ xảo, mà nhờ đó, tri thức đợc thu nhận thông qua kinh nghiệm Mục tiêu học máy tạo phơng pháp chơng trình làm cho máy tính "có thể học đợc" nh ngời Tuy nhiên, số phạm vi nghiên cứu hẹp hơn, toán học máy đợc quan niệm cách đơn giản dới dạng toán "phân lớp": xếp đối tợng vào lớp đợc coi đÃ biết Bài toán học máy đợc trình bày cách hình thức nh dới Giả sử tồn tập khái niệm Ko (tËp kh¸i niƯm nỊn Ko cã thĨ ch−a biÕt) tơng ứng với phân hoạch liệu miền D Tồn ánh xạ đa trị M từ Ko vào 2D theo ứng với khái niệm x thuộc Ko tới tập liệu (đợc gọi ví dụ mẫu ứng víi kh¸i niƯm x) thc miỊn D Mét kh¸i niƯm đặc trng cho lớp đối tợng Mở rộng tËp kh¸i niƯm nỊn Ko tíi tËp kh¸i niƯm K (Ko K) đợc gọi tập khái niệm Cho biết tồn ánh xạ từ Ko tới K \ Ko (ánh xạ nói cha biết) cho phép cách nhận biết khái niệm thông qua mối quan hệ với khái niệm -6- Lơng Song Vân Học máy, học máy mô tả phức: thuật toán vấn đề rút gọn lỗi Quá trình học máy đợc phân chia thành hai giai đoạn tơng ứng với hai giai đoạn đó, kết học máy có hai dạng nh trình bày dới - Kết việc học m¸y cho tËp kh¸i niƯm K, tËp kh¸i niƯm Ko ánh xạ L từ Ko tới tập luật suy diễn liên quan tới khái niệm (Trờng hợp đặc biệt, tập khái niệm K tập khái niệm Ko đÃ biết) Theo ánh xạ này, khái niệm đợc tơng ứng víi mét sè lt suy diƠn d¹ng Horn - cÊp Kiểu học đợc gọi "học không giám sát" theo nghĩa áp đặt từ trớc trình học thông tin mô hình Một dạng đặc biệt học máy không giám sát tách (phân hoạch) tập đối tợng thành số nhóm (đoạn) đối tợng với số đặc trng Bài toán học dạng đợc gọi toán tách nhóm (tách đoạn) - Giả sử đÃ có ánh xạ L nói (từ khái niệm thuộc Ko tới mô tả tơng ứng) phép biểu diễn khái niệm thông qua khái niệm Bài toán đặt cần tìm khái niệm tơng ứng với ví dụ đợc hệ thống tiếp nhận Học máy kiểu đợc gọi "học có giám sát" theo nghĩa ®· h−íng ®Ých tíi tËp kh¸i niƯm K Cã thĨ sử dụng số cách thức đoán nhận trớc khái niệm để nhanh chóng phát khái niệm tơng ứng với ví dụ Một dạng đặc biệt học có giám sát phân đối tợng vào lớp thích hợp tập lớp cho trớc Bài toán học kiểu đợc gọi "bài toán phân lớp" I.1.2 Một số đặc trng học máy Các phơng pháp học máy thờng đợc phân loại theo chất liệu đợc sử dụng cho trình học Tơng ứng với phơng pháp học không giám sát trình máy cần phát khái niệm dựa tập thể cha biết thuộc khái niệm Tơng ứng với phơng pháp học có giám sát trình máy tính cần tìm đặc trng khái niệm dựa tập thể (instances) đÃ biết khái niệm -7- Lơng Song Vân Học máy, học máy mô tả phức: thuật toán vấn đề rút gọn lỗi Học máy không giám sát (bài toán tách nhóm) cần đạt đợc số mục tiêu nh sau [2]: - Phân rÃ tập đối tợng thành tập con, tập tơng ứng với khái niệm (tách nhóm) Chính thân khái niệm đợc phát trình học máy Trong số trờng hợp riêng, trình tách nhóm đợc thể dới dạng nên trình học máy dạng đợc gọi phân loại phân cấp (hierarchical clustering) - Tìm đặc trng tập đÃ đợc phân hoạch trình phân rÃ Những đặc trng đợc dùng cho việc phân lớp đối tợng vào tập Quá trình đợc gọi đặc trng hoá khái niệm Luật suy diễn dạng Horn-cấp dạng biểu diễn điển hình đặc trng hoá khái niệm ([6, 7, 8]) Tuy nhiên, nhiều trờng hợp mô hình sư dơng mét tËp mÉu thay cho mét kh¸i niƯm cha thể tìm đợc biểu diễn khái niệm tơng ứng Nh đÃ đợc trình bày, toán học máy không giám sát tiếp nhận thông tin đầu vào vậy, cha có đợc nhiều kết nghiên cứu công nghệ giải toán ([2]) Phần sau luận văn trình bày số giải pháp chung toán học máy không giám sát Một dạng đơn giản thuật toán học máy không giám sát đợc trình bày [2], nghiên cứu thay đổi hệ thống khái niệm đặc trng chúng liệu đợc thay đổi Nhiều dạng khác học máy không giám sát đă đợc khảo sát mà việc nghiên cứu phụ thuộc thô dạng điển hình ([03]) Khác với học máy không giám sát, học máy có giám sát thu nhận đợc nhiều thành tựu lý luận lẫn triển khai ứng dụng Dới số nội dung đặc trng học máy có giám sát: - Trong số mô hình học máy có giám sát, việc đặc trng hoá khái niệm (mỗi nhóm liệu) đợc thể thông qua việc mô tả tập ví dụ điển -8- Lơng Song Vân Học máy, học máy mô tả phức: thuật toán vấn đề rút gọn lỗi hình tơng ứng với khái niệm Thông qua khoảng cách đối tợng đợc xác định cách thích hợp, nhiều thuật toán đÃ đợc sử dụng để kiểm nghiệm tơng ứng đối tợng khái niệm - Trong nhiều mô hình học máy khác, khái niệm đợc biểu diễn nhờ dÃy luật Horn-cấp dạng: class-a(X,Y) b(X),c(Y) bao gồm phần đầu (class-a(X,Y)) liên quan đến khái niệm phần thân liên quan đến literal (b(X),c(Y)) Thông qua trình suy diễn tơng ứng với luật nói kiểm nghiệm đợc khái niệm phù hợp với đối tợng Chẳng hạn, luật sau tham gia biểu diễn khái niệm ung_th_vú: ung_th−_vó (Ti, , Møc ®é) ← >(Ti, 50), >(Møc ®é, 3) Theo luật này, ngời phụ nữ đợc biểu thị thông qua tập hợp giá trị biÕn (Ti, , Møc ®é) cã bƯnh ung th− vó bà ta đÃ 50 tuổi mức độ trầm trọng bệnh lớn độ - Một đặc trng quan trọng cần đợc khảo sát sai sót học máy có giám sát Để đánh giá mức độ tốt mô hình học máy, ngời ta thờng đa ví dụ kiểm tra (ví dụ test) Một sai sót đợc phát ví dụ đÃ biết thuộc vào khái niệm x song lại đợc hệ thống xếp vào khái niệm y mà x y Hiển nhiên, mô hình đợc coi tốt số lợng sai sót kiểm tra Có nhiều công trình khoa học nghiên cứu học máy có giám sát Mét nh÷ng néi dung cèt lâi cđa lÜnh vùc giảm bớt sai sót học máy Một hớng để giảm thiểu sai sót đợc phát triển học máy mô tả phức ([6, 7, 8, 13, 14]) Trong chơng chơng 3, số mô hình điển hình số nội dung yếu học máy mô tả phức đợc trình bày I.1.3 Phơng pháp điển hình biểu diễn tri thức học máy Nh đÃ trình bày, biểu diễn tri thức liền với toán học máy ([4]) Nhiều mô hình hệ thống liên quan đến việc kết hợp việc học tự động với thu -9- Lơng Song Vân Học máy, học máy mô tả phức: thuật toán vấn đề rút gọn lỗi Tài liệu Doc đợc coi thuộc vào C P(C/Doc) CtgTsh tơng ứng, ngợc lại, (P(C/Doc) < CtgTsh) tài liệu Doc không thuộc vào catalog C Kết hệ thống sinh xác suất P(Ci/Doc) cuối định xem tài liệu Doc đÃ cho thuộc vào catalog Các xác suất P(Ci/Doc) đợc gọi xác suất hậu nghiệm Giá trị P(C/Doc) - xác suất tài liệu Doc thuộc vào catalog C đợc tính toán dựa vào công thức sau: P (C ) ì P (F j C ) TF ( F j , Doc ) F j ∈T P ( C Doc ) = n ∑ P ( C i ) × ∏ P ( Fl C i ) i =1 TF ( F l , Doc ) (4.2) Fl ∈T vµ P ( F j C )= + TF ( F j , C ) n (4.3) T + ∑ TF ( Fi , C ) i =1 Trong đó: ã Fj từ thứ j tập từ khóa ã TF(Fj, C) tần suất từ Fj tài liệu Doc ã TF(Fj, C) tần suất từ Fj Catalog C ã | T | số lợng từ có tập từ khóa T ã P(Fj, C) xác suất có điều kiện để từ Fj có mặt tài liệu Catalog C ã n số lợng Catalog có hệ thống Trong công thức (4.3) xác suất P(Fj/C) đợc tính sử dụng ớc lợng xác suất Laplace Để tránh trờng hợp tần suất cña tõ Fj Catalog C b»ng - tøc từ Fj Catalog C tử số đợc cộng thêm -80- Lơng Song Vân Học máy, học máy mô tả phức: thuật toán vấn đề rút gọn lỗi Tuy nhiên có điều quan trọng để làm giảm phức tạp tính toán làm giảm bớt thời gian tính toán công thức (4.2) ta để ý thấy rằng: Không phải tài liệu Doc đÃ cho chứa tất từ tËp tõ khãa T Do ®ã, TF(Fj , Doc) =0 tõ khãa Fj thuéc T nh−ng kh«ng thuéc tài liệu Doc Và kết kéo theo P(Fj|C)TF(Fj,Doc)=1 từ khóa Fj Và nh ta bỏ qua từ khóa Fj mà không làm ảnh hởng đến công thức (4.2) Và công thức cuối công thức (4.2) đợc viết lại nh sau: P (C ) × P(C Doc) = ∏ P( F C ) F j ∈ Doc n ∑ P ( Ci ) × i =1 ∏ P( F Fl ∈ Doc TF ( F j , Doc ) j l Ci ) TF ( Fl , Doc ) (4.2’) tơng tự (4.3) đợc viết lại nh sau: ( ) P Fj C = + TF ( F j , C ) n (4.3’) T + ∑ TF ( Fi , C ) i =1 víi Fj ∈Doc Nh vậy, phân lớp duyệt toàn tập từ khóa T mà phải duyệt Vector tài liệu Doc Một điều đáng ý là: Các giá trị P(Ci) ngỡng CtgTshi giá trị đợc xác định trớc thông qua phân tích từ thực tế Việc xác định tham số xác làm tăng độ tin cậy phân lớp Để hiểu rõ hoạt động phân lớp, ta xem xét ví dụ 4.1 sau Ví dụ 4.1 Giả sử có hai Catalog C1 C2 có tham số nh− sau: Tham sè C1 C2 P(C) 0.5 0.5 Ng−ìng 0.75 0.6 Số lợng từ khóa tập từ khóa T (tức | T |) |à 75 -81- Lơng Song Vân Học máy, học máy mô tả phức: thuật toán vấn đề rút gọn lỗi Hệ thống từ khóa riêng Catalog (tức từ xuất từ Catalog) C1 C2 nh sau: Catalog C1 Catalog C2 Từ khóa Tần suÊt Tõ khãa TÇn suÊt X· héi 10 X· héi 15 Chủ nghĩa 20 T 30 Cộng hoà 15 ViƯt Nam 30 Tµi liƯu Doc cã néi dung: “X· héi chđ nghÜa” Vector cđa tµi liƯu nµy lµ: ((X· héi,1), (Chđ nghÜa, 1)); Nh− vËy ta cã c¸c gi¸ trị tính toán nh sau: Với Catalog C1: P(XÃ hội | C1)= 11/110; P(Chđ nghÜa | C1)= 21/110; Víi Catalog C2: P(X· héi | C2)= 16/90; P(Chñ nghÜa | C2)= 1/90; n ∑ i =1 P (Ci ) × ∏ P( F C ) Fl ∈ Doc l i TF ( Fl , Doc ) = 0.6464; P(C1 | Doc) = 0.914; P(C2 | Doc) = 0.156; Nh− vËy P(C1 | Doc)= 0.914 > 0.75; đợc phân vào Catalog C1 Còn P(C2 | Doc) = 0.156 < 0.6 không đợc phân vào Catalog C2 Bộ phân lớp đÃ phân tài liệu Doc đÃ cho vào catalog C1 với độ xác 0.914% Nh tài liệu đợc phân vào catalog nhng -82- Lơng Song Vân Học máy, học máy mô tả phức: thuật toán vấn đề rút gọn lỗi có giá trị P(C |Doc) hoàn toàn khác nhau, giá trị chúng cao độ xác cao IV.2.3 Thuật toán phân lớp Bayes thứ hai Bộ phân lớp thứ hai có trình hoạt động hoàn toàn giống phân lớp Bayes thứ Tuy nhiên, cách biểu diễn tài liệu Doc tính giá trị P(C | Doc) khác với phân lớp thứ Các thông tin sau đợc đòi hái: • TËp tõ khãa T – Cã ý nghÜa giống nh phân lớp Bayes thứ ã Xác suất P(Ci) Có ý nghĩa giống nh ã C¸c ng−ìng CtgTsh i - Cã ý nghÜa gièng nh− Doc biểu diễn dới dạng vector, nhng kÝch th−íc cđa vector nµy b»ng kÝch th−íc cđa tËp từ khóa T Mỗi thành phần vector gồm từ khóa Fi giá trị thể từ khóa Fi xuất hay không xuất tài liệu Doc Điều có nghĩa để tính toán giá trị P(C | Doc) phân lớp phải hoạt động toàn tập từ khóa T Công thức tính toán giá trị P(C | Doc) đợc mô tả dới đây: P (C Doc ) = ( P(C )× ∏ P Doc( F j ) C F j ∈T ) ∑ P(Ci )× ∏ P (Doc( Fl ) Ci ) n i =1 (4.4) Fl∈T vµ ( ) P Doc( F j ) C = ( + N Doc( F j ) C ) + Dc (4.5) Trong đó: ã P(Doc(Fj) | C) xác suất có điều kiện để từ khóa Fj lớp C có giá trị nh tài liệu Doc, đợc tính toán sử dụng công thức ớc lợng xác suất Laplace nh công thức (4.5) -83- Lơng Song Vân Học máy, học máy mô tả phức: thuật toán vấn đề rút gọn lỗi ã N(Doc(Fj) | C) số lợng tài liệu thuộc catalog C có giá trị từ Fj với tài liệu Doc Tức là, số lợng tài liệu thuộc catalog C có từ khóa Fj ã | Dc | tổng số tài liệu có catalog C Trong công thức (4.5) së dÜ cã sè ë trªn tư sè để tránh trờng hợp N(Doc(Fj)|C)=0, số mẫu hai trạng thái giá trị từ (xuất không xuất tài liệu) Quá trình lại hoàn toàn tơng tự nh phân lớp Bayes thứ Tức là, so sánh P(C | Doc) với ngỡng CtgTsh để định tài liệu Doc có thuộc vào Catalog C hay không Ví dụ 4.2 Giả sư cã Catalog C1 vµ C2 nh− sau: Catalog C1 C2 Xác suất 0.5 0.5 Ngỡng 0.7 0.6 Và Catalog C1 có tài liệu: Học tốt phải häc vµ häc Vµ häc m·i m·i m·i ĐÃ học phải học Còn Catalog C2 có tài liệu: Sống đẹp sống mÃi Đẹp sống đẹp Cuộc sống đẹp Tài liệu Doc cần phân lớp là: MÃi phải học Tập từ khóa T là: [ Học, Tốt, Phải, Và, MÃi, ĐÃ, Sống, Đẹp, Là, Nhất] Tính toán giá trị cho Catalog C1 nh sau: Các giá trị catalog C1 | Dc1 |=3 Các giá trị catalog C2 | Dc2 |=3 -84- Lơng Song Vân Học máy, học máy mô tả phức: thuật toán vấn đề rút gọn lỗi N(Học | C1)= 3; (Số tài liệu Catalog C1 cã chøa tõ Häc- gièng nh− tµi liƯu Doc) N(Và | C1)=1; (Số tài liệu Catalog C1 không chứa từ Và- giống nh tài liệu Doc) N(Ph¶i | C1)= N(Tèt | C1)= N(M·i | C1)=1 N(§· | C1)=2 N(Sèng | C1)=3 N(§Đp | C1)=3 N(Lµ | C1)=3 N(NhÊt | C1)=3 ( N(Vµ | C2)= 3; (Số tài liệu Catalog C2 không chứa từ Và- giống nh tài liệu Doc) N(Phải | C2)= N(Tèt | C2)= N(M·i | C2)=1 N(ĐÃ | C2)=3 N(Sống | C2)=0 N(Đẹp | C2)=0 N(Là | C2)=1 N(NhÊt | C1)=2 ) ( N(Häc | C2)= 0; (Số tài liệu Catalog C2 có chứa từ Họcgiống nh tài liệu Doc) ) P(C1 )ì ∏ P Doc( F j ) C1 = 55296/510; F j ∈T P(C2 )× ∏ P Doc( F j ) C =384/510; F j ∈T ∑ P(Ci )× ∏ P (Doc( Fl ) Ci ) =55680/510; n i =1 Fl∈T VËy P(C1 | Doc)=0.993; P(C2 | Doc)=0.016; Do P(C1 | Doc)= 0.993 > 0.7 nên tài liệu Doc đợc phân vào Catalog C1; P(C2 | Doc)= 0.016 < 0.6 nên tài liệu Doc không đợc phân vào Catalog C2 Việc chọn ngỡng phân lớp Nh đÃ trình bày chơng 1, cách chọn ngỡng CtgTshi phải phù hợp Về mặt lí thuyết chọn ngỡng CtgTshi cao phân tài liệu -85- Lơng Song Vân Học máy, học máy mô tả phức: thuật toán vấn đề rút gọn lỗi vào lớp C đòi hỏi phải có xác suất P(C|Doc) lớn ngỡng xác suất phải cao vậy, độ xác cao theo Tuy nhiên, chọn ngỡng cao, xảy trờng hợp giá trị P(Ci | Doc) không vợt qua đợc ngỡng CtgTshi Điều có nghĩa tài liệu Doc không đợc phân vào Catalog c¶ VÝ dơ 4.3 Gi¶ sư cã Catalog C1, C2 C3 lần lợt có ngỡng 0.7; 0.6; 0.5 Một tài liệu Doc sau đợc tính toán cho kết nh sau: P(C1 | Doc)=0.6; P(C2 | Doc)=0.3; P(C3 | Doc)=0.1; Khi tài liệu Doc không đợc phân vào Catalog Catalog C1, C2, C3 Ngợc lại, chọn ngỡng nhỏ dẫn đến tình sau: ã Thứ độ xác tài liệu đợc phân nhỏ ã Thứ hai có khả xảy tài liệu đợc phân vào nhiều nhóm mét lóc VÝ dơ 4.4 Cã Catalog nh− trªn nhng có ngỡng 0.4; 0.5; 0.3; Và có P(C1 | Doc)=0.5; P(C2 | Doc)=0.1; P(C3 | Doc)=0.4; Nh− vậy, tài liệu lúc đợc phân vào hai Catalog C1 C3 Để chọn đợc ngỡng phù hợp cách tốt kết hợp ngời máy Điều đợc thực cách ta lấy tài liệu đÃ biết trớc đợc nội dung nằm Catalog Sau cho máy tự tìm P(Ci | Doc) phân tài liệu vào Catalog dựa ngỡng cũ đÃ có Nếu ta thấy chúng đợc phân theo nh kết nh đÃ biết trớc giữ nguyên lại ngỡng cũ Ngợc lại hệ thống phân không với dự kiến tuỳ theo tình cụ thể mà tăng giảm ngỡng cũ thấy cần thiết IV.2.4 Thuật toán phân lớp "k_ngời láng giềng gần nhất" -86- Lơng Song Vân Học máy, học máy mô tả phức: thuật toán vấn đề rút gọn lỗi Nh đÃ trình bày chơng 1, sở liệu full-text theo mô hình vector đây, hoạt động thuật toán không phụ thuộc vào tập từ khóa Nói cách khác, không dựa vào tập từ khóa Tuy nhiên, thuật toán sử dụng ngỡng Ctgtshi, theo bớc nh đÃ nói Sự hoạt động dựa vào k tài liệu (lấy ngẫu nhiên) hệ thèng, vµ tÝnh P(C/Doc) dùa vµo sù gièng cđa tài liệu Doc đÃ cho với k tài liệu đợc chọn Trong thuật ngữ "k ngời láng giềng gần nhất", k tài liệu đợc chọn Cụ thể c«ng thøc tÝnh P(C/ Doc) nh− sau: ∑ Sm( Doc, Dl ) × P (C Dl ) k P (C Doc ) = l =1 n k (4.6) ∑ ∑ Sm( Doc, Dl ) × P (Ci Dl ) i =1l =1 Trong đó: ã k số lợng tài liệu đợc chọn để so sánh ã n số catalog ã P (Ci | Dl) có giá trị 0, tài liệu Dl có thuộc vào catalog Ci hay không, có giá trị tài liệu đợc phân vào nhiều catalog ã Sm (Doc, Dl) xác định mức độ giống tài liệu đÃ cho Doc với tài liệu đợc chọn Dl Nó đợc tính cos góc hai vectơ biểu diễn tài liệu Doc tài liệu Dl theo công thức sau đây: Sm( Doc, Dl ) = Cos( Doc, Dl ) = ∑ X *Y Sqrt ( ∑ X ∑ Y i i j i j l l ) (4.7) Trong biểu diễn tài liệu hoàn toàn tơng tự với cách biểu diễn phận lớp Bayes thứ Tức gồm từ khóa Fi tần số Xi tơng ứng Trong công thức (4.7): ã Xi tần suất từ tài liệu Doc -87- Lơng Song Vân Học máy, học máy mô tả phức: thuật toán vấn đề rút gọn lỗi ã Yi tần suất từ tài liệu Dl ã i Xi *Yi tổng tích tần suất từ giống hai tài liệu Doc Dl ã j X2j tổng bình phơng tần suất từ có tài liệu Doc ã l Y2l tổng bình phơng tần suất từ có tài liệu Dl ã Sqrt(j X2j l Y2l) bậc hai j X2j l Y2l Chẳng hạn, tài liƯu Doc lµ ((Hµ Néi , 2) , (ViƯt nam , 3) , (cộng hoà ,1) , (chủ nghĩa,4)) Còn tµi liƯu Dl lµ: ((Céng hoµ ,2) , (X· héi , 5) , (Chđ nghÜa , 3) , (ViƯt nam, 1)) Khi đó: Cos(Doc,Dl)=(2*1+3*4+3*1)/ sqrt((22 +32+12+42)*(22 +52+32+12)) =0.497 Quá trình lại hoàn toàn tơng tự nh phận lớp Tức so sánh giá trÞ P(C | Doc) víi ng−ìng CtgTsh cđa Catalog C để xem có thuộc vào Catalog không Ví dụ 4.5 nh đợc trình bày dới mô tả hoạt động thuật toán Ví dụ 4.5 Giả sử có catalog C1và C2 với ngỡng tơng ứng 0.67 0.6 Tài liệu Doc cần đợc phân lớp là: Chủ nghĩa xÃ hội Các tài liệu đợc chọn để so sánh là: Cộng hoµ x· héi chđ nghÜa ViƯt Nam” thc catalog C1 “ X· héi x· héi chñ nghÜa” thuéc C1 Chủ nghĩa đế quốc, xÃ hội t thuộc catalog C2 Quá trình tính toán diễn nh sau: Các vector biểu diễn tài liệu là: ã D1 = ((céng hoµ,1), (x· héi, 1), (chđ nghÜa, 1), (ViƯt Nam, 1)) • D2 = ((X· héi, 2), (chđ nghĩa, 1)) -88- Lơng Song Vân Học máy, học máy mô tả phức: thuật toán vấn đề rút gọn lỗi ã D3 = ((xÃ hội, 1), (chủ nghĩa, 1), (Đế quốc, 1), (t bản, 1)) ã Doc = ((xÃ héi, 1), (chđ nghÜa, 1)) • Cos (Doc, D1)= 0.716; • Cos (Doc, D2) = 0.949; • Cos (Doc, D3) = 0.716; ã Sm( Doc, D ) ì P(C n k i =1 l =1 l i ) Dl = 2.362; Và: ã P(C1 | Doc) = 0.70; • P(C2 | Doc) = 0.30; KÕt qu¶ cuèi cïng là: P(C1 | Doc)=0.7 > 0.67 nên tài liệu Doc đợc phân vào Catalog C1 Ngợc lại, P(C2 | Doc)=0.3 < 0.6 nên tài liệu Doc không đợc phân vào Catalog C2 Chú ý nâng cao chất lợng thuật toán Việc xác định k số lợng tài liệu mẫu cách chọn tài liệu mẫu để tính toán khoảng cách nói có ý nghĩa quan trọng chất lợng thuật toán Một cách hiệu dựa theo kinh nghiệm kết hợp ngời máy -89- Lơng Song Vân Học máy, học máy mô tả phức: thuật toán vấn đề rút gọn lỗi Phần kết luận Luận văn đÃ xem xét số nội dung mô hình học máy có giám sát Học máy lĩnh vực đợc coi liên quan mật thiết đến công nghệ tri thức Tùy thuộc vào lợng thông tin đÃ có để phân loại học máy thành học máy không giám sát học máy có giám sát Bài toán học máy có giám sát đÃ có nhiều kết toán học máy không giám sát lại kết Trong học máy có giám sát, đÃ có nhiều thuật toán giải công việc phân lớp đối tợng điển hình kể đến thuật toán Bayes, thuật toán k-ngời láng giềng gần nhất, thuật toán định v.v Trong mô hình học máy mô tả phức, khái niệm tơng ứng tập luật liệu đợc xem xét không tập hợp liệu đơn lẻ mà đợc xem xét theo nhiều tập hợp liệu Nhiều công trình nghiên cứu cho thấy, mô hình học máy mô tả phức cho kết học máy xác so với mô hình đơn tơng ứng Bài toán học máy đợc gặp nhiều lĩnh vực khác công nghệ tri thức số dạng học máy đợc tìm thấy sở liệu full-text Bài toán phân lớp tài liệu sở liệu fulltext toán phổ biến: Có thĨ sư dơng mét sè tht to¸n häc m¸y cã giám sát theo mô hình vector sở liệu full-text Luận văn đÃ thực đợc số nội dung nh sau: - Trình bày đợc cách nhìn nhận tổng quan toán học máy, phân loại toán học máy số thuật toán Nội dung tổng quan đợc tập hợp từ nhiều nguồn tài liệu khác nhau, nớc nh nớc - Trình bày đợc nội dung học máy mô tả phức Luận văn đÃ trình bày nét mô hình học máy mô tả phức nh FOIL, FOCL, HYDRA, HYDRA-MM Kết nội dung đợc -90- Lơng Song Vân Học máy, học máy mô tả phức: thuật toán vấn đề rút gọn lỗi tập hợp chủ yếu từ nhiều công trình nghiên cứu nhóm học máy trờng Đại học Tổng hợp California, Ivrin - Trình bày nội dung sở liệu full-text Luận văn phát triển đề xuất cải tiến mô hình vector, bao gồm việc xem xét tần suất xuất từ khóa tài liệu nh vấn đề từ đồng nghĩa Luận văn trình bày số thuật toán phân lớp tài liệu sở liệu full-text Một số kết cải tiến có giá trị cha cao song thực đợc phát triển luận văn sở [5, 13] Do có hạn chế điều kiện, khả triển khai máy tính nên luận văn có khiếm khuyết cha thể đợc cài đặt cụ thể toán học máy mô tả phức lẫn toán tìm kiếm phân lớp sở liệu full-text Các thuật toán học máy đợc gặp phổ biến trình khám phá trí thức sở liệu (KDD: Knowledge Discovery in Databases) lĩnh vực định hớng nghiên cứu tiếp luận văn -91- Lơng Song Vân Học máy, học máy mô tả phức: thuật toán vấn đề rút gọn lỗi Tài liệu tham khảo Tài liệu tiÕng ViƯt Hå Tó B¶o Mét sè kÕt qu¶ nghiên cứu công nghệ tri thức Báo cáo Hội nghị Khoa học Viện Công nghệ Thông tin Hà Nội 5&6-12-1996, trang 1825 Hồ Tú Bảo Học tự động không giám sát dàn Galois với liệu thay đổi Báo cáo Hội nghị Khoa học Viện Công nghệ Thông tin Hà Nội 5&6-121996, trang 27-36 Hà Quang Thụy Tập thô bảng định Tạp chí Khoa học Đại học Quốc gia Hà Nội Tập 12 Số 4-1996, trang 9-14 Nguyễn Thị Vân Xây dựng sở liệu Full-Text Luận văn tốt nghiệp Đại học, Khoa CNTT, 1998 Tµi liƯu tiÕng Anh Ali K & Pazzani M Error Reduction through Learning Multiple Descriptions Machine Learning, 24:3, 1996 Ali K., Brunk C & Pazzani M Learning Multiple Relational Rule-based Models In "Preliminary Papers of the 5th International Workshop on Artificial Intelligence and Statistics" Fort Lauderdale, FL, 1995 Ali K & Pazzani M HYDRA-MM: Learning Multiple Descriptions to Improve Classification Accuracy International Journal on Artificial Intelligence Tools, 4, 1995 Ali K., Brunk C & Pazzani M On Learning Multiple Descriptions of a Concept In Proceedings of the Sixth International Conference on Tools with Artificial Intelligence New Orleans, LA: IEEE Press, 1994 -92- L−¬ng Song Vân Học máy, học máy mô tả phức: thuật toán vấn đề rút gọn lỗi Bay S D Combining Nearest Neighbor Classifiers Through Multiple Feature Subsets Proceedings of the International Conference on Machine Learning Morgan Kaufmann Publishers Madison, Wisc., 1998 10 Billsus D & Pazzani M Learning probabilistic user models In workshop notes of Machine Learning for User Modeling, Sixth International Conference on User Modeling, Chia Laguna, Sardinia, 2-5 June 1997 11 Bruce Moxon Defining Data mining DBMS Data Warehouse Supplement, August 1996 12 Domingos P Knowledge Acquisition from Examples Via Multiple Models Proceedings of the Fourteenth International Conference on Machine Learning, 1997 Nashville, TN: Morgan Kaufmann 13 Dunja Mladenic' Machine Learning on non-homogeneous, distbuted text data (Chapter Document representation and learning algorithms) Doctoral dissertation University of Ljubljana, Slovenia 1998 14 Hume T & Pzzani M Learning Sets of Related Concepts: A Shared Task Model Proceedings of the Sixteen Annual Conference of the Cognitive Science Society Pittsburgh, PA: Lawrence Erlbaum, 1995 15 Merz C & Pazzani M Handling Redundancy in Ensembles of Learned Models Using Principal Components AAAI Workshop on Integrating Multiple Models, 1997 16 Pazzani M & Billsus D Learning and Revising User Profiles: The identification of interesting web sites Machine Learning 27, 313-331, 1997 17 Shankle W S., Datta P., Pazzani M & Michael D Improving dementia screening tests with machine learning methods Alzheimer's Research, June, 1996, vol no -93- L−¬ng Song Vân Học máy, học máy mô tả phức: thuật toán vấn đề rút gọn lỗi 19 Peter Cheeseman, John Stutz Bayesian Classification (AutoClass): Theory and Results Advances in Knowledge Discovery and Data Mining AAAI Press / The MIT Press 1996 153-180 20 Pazzani M., Kibler D The Utility of Knowledge in Inductive Learning Machine Learning, , 54-97, 1992 -94- ... Song Vân Học máy, học máy mô tả phức: thuật toán vấn đề rút gọn lỗi Chơng học máy mô tả phức II.1 Mô hình học máy mô tả phức II.1.1 Sơ mô hình học máy mô tả phức Một toán quan trọng học máy có... Mô hình HYDRA 42 II.3.4 Mô hình HYDRA-MM 45 -1- Lơng Song Vân Học máy, học máy mô tả phức: thuật toán vấn đề rút gọn lỗi Chơng Rút gọn lỗi học máy mô tả phức III.1 Sơ rút gọn lỗi học máy mô tả. .. giá việc giảm lỗi mô hình HYDRA-MM -48- Lơng Song Vân Học máy, học máy mô tả phức: thuật toán vấn đề rút gọn lỗi Chơng rút gọn lỗi học máy mô tả phức III.1 sơ rút gọn lỗi học máy mô tả phức III.1

Định dạng
Số trang	95
Dung lượng	448,34 KB