Phương pháp biểu diễn văn bản sử dụng tập mờ và ứng dụng trong khai phá dữ liệu văn bản

73 24 0
Phương pháp biểu diễn văn bản sử dụng tập mờ và ứng dụng trong khai phá dữ liệu văn bản

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI KHOA CÔNG NGHỆ Đ O À N SƠ N PHUƠNG PHÁP BIỂU DIỄN VÁN BẢN SỦDỤNG TẬP MÒ VÀ ÚNG DỤNG TRONG KHAI PHÁ DỮLIỆU VĂN BẢN C h u y ê n n g n h : C ô n g n g h ộ th ô n g tin M ã số : 1 LUẬN VĂN THẠC s ĩ NGUỜI HUỚNG D Ẫ N KHOA HỌC: T S HÀ Q U A N G T H Ụ Y [ OẠI HCC l ỉ u : - í; G iA H À NÔI ỉ TRƯNGTÃMThuNGTIN.THƯVIẺN r :V - Hà Nội - Nám 2002 MỤC LỤC TÓM TÁT LUẬN V Ă N LỜI CẢM Ơ N CHUÔNG I TỔNG Q U A N 1.1 Xử lý vãn khái niệm 1.1.1 Xử lý văn 1.1.2 Một số khái niệm b ả n 10 1.2 Các toán xử lý vãn .14 1.2.1 Tìm kiếm văn b ả n 14 1.2.2 Phân lớp văn bàn 15 1.2.3 Phân cụm văn (Text C lustering) 16 1.2.4 Dãn đường vãn (Text R outing) .17 1.2.5 Các toán khác 17 1.3 Mộl sỏ vấn clổ vổ biổu diễn dong xử lý vãn b a n 17 CHUÔNG CÁC PHUÜNG PHÁP lilỂ U D lỄN VẢN B Ả N 20 2.1 Mô hình khơng quan v ecto r .20 2.1.2 Mơ hình Boolean 23 1.3 Mơ hình tần s ố 24 2.2 Loại bỏ từ biểu diễn văn b ả n 25 2.2.1 Loại bỏ từ d n g .25 2.2.2 Định luật Z ip f 26 2.3 Phương pháp biểu diễn dựa khái niệm m 28 2.3.1 Tập mờ phép toán s 28 2.3.2 Quan hệ m 33 2.3.2 Biểu diễn văn sử dụng khái niệm mờ 38 CHNG PHÂN LỚP VÀ TÌM KI Ế m v ă n b ả n 46 3.1 Phân lớp văn b ả n 46 1 Thuật tốn học cíly định 46 1.2 Phân lớp VĨU1 bíìn sử dụng cfly tịiiyếl định 56 3.1.3 Hiệu suất phân lớp văn 58 3.2 Tìm kiếm văn bàn 59 3.2.1 Một số vấn dể chung 59 3.2.2 Thuật toán loại văn b ả n 60 Đoàn Sơì) - Luận văn Thạc s ĩ - Khoa Cơng nghệ, ĐHQG Hỉ) Nội 2002 CHUƠNG MỘT s ố KÊT Q UẢ THỤC N G H IỆ M : 63 4.1 Phân lớp văn b ả n 63 4.1.1 Thời gian c h y 65 4.1.2 Đại lượng precision/recall 66 4.1.3 Hệ thống lu ậ t 69 4.2 Tìm kiếm vãn .70 KẾT LUẬN VÀ HUỚNG PHÁT TRIEN 72 TÀI LIỆU THAM KHẢO 74 Đoàn Sơn - Luận văn Thạc s ĩ- Khoa Công nghệ, ĐHỌGHà Nội 2002 CHUÔNG 1.TỔNG QUAN T r o n g c h n g n y , c h ú n g g iớ i thiộu tổ n g qu an vể xừ lý văn b ản c c k h n iệ m c b ả n , c c b ài toán qu an trọn g tron g xừ lý văn b àn N h ữ n g vấn đ ề đặt tro n g x lý v ăn b ản c c h tiếp c ậ n g iả i q u y ết d o c h ú n g đ ề xuất 1 X lý văn bàn c c kh n iệ m c 1 X lý văn T r o n g c c d n g d ữ liệ u p h ổ b iến h iệ n n a y văn m ộ t tron g n h ũ n g d n g p h ổ b iế n n h ấ t, n ó c ó m ặt khấp m ọ i nơi c h ú n g ta th n g x u y ê n bắt g ặ p h n g n g y D o đ ó , c c to n x lý ván đ ợ c đặt từ lâu h iện n a y v ẫn m ộ t tro n g n h ữ n g vấn đ é h a y Irong khai phá d ữ liệ u te x t, tron g đ ó c ó n h ữ n g b ài to n đ n g c h ú ý n h tìm k iế m văn b ản , phân lớ p vãn b ả n , phân c ụ m vãn b n , h o ặ c d ãn đ n g v ăn b n | | [ | | | | | | |[ ] | I || I | [ | | | | | C c v ãn b ản d ợ c tạp h ợ p tron g CƯ s d ữ liệ u text c ó thổ c h ia làm hai loại sau : Dạng cấu trúc (unstructured): N h ữ n g văn bàn th ô n g th n g m c h ú n g ta th n g d ọ c h n g n g y đ ợ c thổ h iện d n g n g ô n n g ữ lự n h iên c ủ a c o n n g i n ó k h ô n g c ó m ộ t cấ u trúc đ ịn h d n g n Dang nửa cấu trúc (semi-structured): N h ữ n g văn đ ợ c tổ c h ứ c d i d a n g c ấ u trúc k h ô n g c h ặ t c h ẽ thành g h i m d ù n g c c k í h iệu đ n h dấu văn b ản th ể h iệ n đ ợ c n ộ i d u n g c h ín h c ủ a vãn b ản, v í dụ n h c c d n g H T M L , e m a il, C ó n h iể u c c h p h ân lớ p c c lĩnh vự c tron g x lý văn b àn , L e w is [1 ] c h ia th n h h a i n h ó m lĩn h v ự c c h ín h Phùn ló p Víỉn (T e x t C la s s ific a tio n ) g m c c c ô n g v iệ c x c đ ịn h văn h o ặ c m ột phán c ủ a vãn v o m ộ t h a y Iiliiéu lớp x c đ ịn h trư ớc Hiếu nghĩa vắn biin (T e x l U n d e r sta n d in g ) b a o g ô m c c c ô n g v iộ c phức tạp h n đ ể x lý n ội d u n g c ủ a v ăn bàn tó m tắt văn (T e x t S u m m a r iz a lio n h o ặ c A b s tr a c tio n ), ch lọ c th ô n g tin (T ex t E x tr a c tio n ), Đoàn Sơn - Luận văn Thạc s ĩ - Khoa Công nghẹ, ĐHQG Hà Nội 2002 T u y n h iê n , v iệ c phân làm hai lo i c ũ n g k h ô n g thật rõ ràn g, tron g c c h ệ phần m ề m , n g i ta th n g phải sử d ụ n g c c phÀn kết h ợ p lại đ ể thành m ộ t h ệ n h c c h ệ tìm tin (S e a r c h E n g in e ), h o ặ c (ron g to n tìm k iế m văn bàn (T c x l R e t r ie v a l) , m ộ t tro n g n h ữ n g lĩn h vự c d ợ c q u an tâm h iện n ay C h ẳ n g hạn h ệ tìm k iế m n h Y a h o o , A ltaV ista, G o o g le đ ều tổ c h ứ c d ữ liệ u th e o c c n h ó m th m ụ c , m ỗ i n h ó m lạ i c ó th ể c ó n h iểu n h ó m c o n nằm tron g n ó H ệ A ltaV ista c ị n tíc h h ợ p th ê m c h n g trình d ịc h tự đ ộ n g c ó th ể d ịc h c h u y ể n đ ổ i sa n g n h iều thứ tiến g k h c n h a u c h o k ế t q u ả tốt ỉì* II !ằô*ãằ *qa>*ã ^ w to w n w e e of ** m*ằNs4i TVô(ôirtT ãôôKo Kvl toflQtộ>4te ////;/? /4 Mt vớ d cư sở liệu JA1ST news Đ oàn Sơn - L u án văn Thạc s ĩ - K h o a C ôn g n gh ẹ, Đ H Ọ G H N ộ i 0 JM 65 4.1.1 Thòi gian chạy Orow ing » M Im « V* N i r t x r 0í «xarnplM Thời gian sinh Thời gian chạy CPU (theo đv giây s) định đánh giá QỤDHAp) IDI số lượng liệu huấn luyện IAI số lượng thuộc tính Do q trình hình thành định phụ thuộc vào sơ' lượng ví dụ huấn luyện số thuộc tính, nên chúng tơi khảo sát thời gian sinh định theo hai đại lượng SỐ lượng thuộc tính Chúng tơi biểu diễn văn bàn bời 5, 10, 20, 40 thuộc tính (ở Hình /.5 Thời gian chạy dể sinh cAy định khái niệm mờ) Số lượng văn với 5, 10, 20 thuộc tính thực nghiệm ban đẩu 10 vãn bàn, chúng tổi tăng số lượng văn cách gấp dôi lên làm nhiều lẩn ,, , , , , , Từ đó, chúng tơi thử Orowtng «m* w NurtxrolHHny*« T" 700 -G nghiệm với số lượng 600 IM H M -»• ỈOlMtUTM -+ 40l9#ti»ej văn mẫu (dữ liệu huấn luyện) từ 100 vãn bàn đến 1000 vãn bàn Đường cong mô tả thời gian chạy có soo 400 300 200 chiổu hướng chạy tuyến tính sơ' lượng vãn tăng lên Điều số lượng vãn IDI lớn 100 •»100 200 300 «0 500 600 700 Nintoer di MamplM 800 900 1000 Hình 16 Thời gian chạy đổ sinh định với 5, 20, 40 thuộc tính Đ oàn Sơn - L uân vãn Thạc s ĩ - K h oa C ôn g nghệ, Đ H Q G H N ộ i 0 66 nhiều so với số lượng cùa thuộc tính /A/, diểu dẫn tới độ phírc tạp cùa thuật tốn xấp xỉ /D/ỉrong trường hợp sơ' luựng văn huấn luyện lớn Nhìn trồn lược đồ dẻ dàng thấy với sô' lượng thuộc tính lớn (Tức số khái niệm) thời gian chạy lớn Trong trường hợp thuật tốn chạy với hàng nghìn thuộc tính thời gian sinh định lên đến hàng chục Do vậy, việc biểu diễn khái niệm mờ làm giảm số lượng thuộc tính dó thời gian chạy chương trình chung để phân lớp giảm dần lơ thuộc tính 20 thuộc tính Sơ' lượng mẫu thuộc tính 0.23(s) 2.12(s) 0.39(s) 100 9.6 l(s) 200 0.82(s) l.53(s) 3.I2(S) 300 2I.27(S) l.85(s) 5.74(s) 3.79(s) 38.12(s) 400 5.19(s) 9.16(s) 59.79(s) 500 7.50(s) 600 I3.32(s) 85.7 l(s) 18.24(s) 10.17(s) 118.95(s) 700 23.87(s) I3.39(s) 153.64(s) 800 30.2 l(s) 17.19(s) 194.68(s) 900 39.90(s) 20.95(s) 250.90(s) 1000 Bảng 8: Thời gian chạy sinh định 40 thuộc tính 4.42(s) 18.01 (s) 42.16(s) 76.70(s) 121.37(s) 174.01 (s) 235.72(s) 367.72(s) 444.18(s) 629.18(s) 4.1.2 Đại lượng precision/rccall Như phần irên nói, đại lượng dặc trưng cho phân lớp văn độ đo precision/recall Trong trường hợp phân lớp làm hai loại, theo định nghĩa xác định bảng dAy, YES nói đến viộc phủn lớp văn vào lớp đó, NO IÌI nói đến viộc phím lớp văn khơng tlniộc vào lớp Y E S N O Gán ch o Y E S a Gán ch o N O c a + c b d b+d a+ b c + d a+b+c+d=n Khi dó hai đại lượng precision recall xác định sau: Đ oàn Sơn - Luận vãn 7h c s ĩ - K h o a C ô n g n gh ệ, Đ H Ọ G H N ộ i 0 67 precision = a/(a + b) recall = a/(a + c) Chúng chọn lựa từ tập sờ liộu JAIST news gôm 177 văn hai nhóm comp.ai comp.parallel chia làm hai tạp: TẠp huấn luyện gồm 120 văn tập kiểm tra gổm 57 văn Chúng xác định 10 khái niệm liên quan tới hai lớp parallel gổm khái niệm sau: AI, Parallel, Agent, Neuron Network, Workstation, Algorithm, Computing, Load Balance, Intelligent, Machine Do đặc trưng tin ngắn sổ (ừ khơng nhiổu I1ƠI1 chúng tơi xác định khái niệm tủp từ khố từ dạng viết tắt biến đổi, chẳng hạn AI, intelligent, intelligence, artificial thuộc vào khái niệm AI Computing, computer, compute, thuộc vào khái niệm computing Chúng làm hai thử nghiộni biêu diẻn vãn bán, thứ biểu diỗn dạng khái niệm nhị phân, tức khái niộm có mặt hay khơng có mặt văn bản, thứ hai biểu diễn dạng khái niệm mờ với độ quan trọng hàm tích hợp từ khố Trong thí nghiệm đầu tiên, biểu diễn văn dạng khái niộm nhị phân cách làm trịn từ khố: Nếu trọng sơ' từ khố lớn 0.4 gán cho trọng số khái niệm 1.0, ngược lại gán cho 0.0 Trong thí nghiệm thứ hai biểu diễn văn bàn khái niệm mờ chúng tơi sử dụng hàm tích hợp mờ hàm max Hình 17 đưa dộ xác precision, hình 18 đưa độ hổi tưởng recall Trong hai trường hợp dểu cho hiệu suất cao, với độ xác 92% độ hồi tưởng 97% Khi biểu diễn khái niệm mờ hiôu suất phân lớp cao biểu diễn giá trị Iihị phân Sự khác liệu nhỏ không lớn lắm, khác biệt lớn độ xác precision 0.92 cách biểu diễn nhị phân 1.0 dối với cách biểu diễn mờ, với độ hồi tuởng recall Đoàn Sơn - Luận văn Thạc s ĩ- Khoa Công nghẹ, ĐHQGHù Nội 2002 68 0.97 biểu diễn nhị phân 1.0 cách biểu diễn mờ Tuy vây, có khác biệt lớn liệu tảng lên Hình 17 Độ đo precision khái niệm mờ Boolean Hình /8 Độ recall khái niệm mò vfc Boolean Trong hai lược đổ, có ba điểm mà hiệu suất phân lớp tương ứng với số vãn huấn luyộn 40, 50, 60 văn Khi sô' lượng văn huấn luyộn tăng 60 hiộu suất có xu hướng giảm xuống Điều xảy tượng vượt ngưỡng huấn luyện văn Đ oàn Sơn - L uận văn Thạc s ĩ - K h o a C ôn g nghệ, Đ H Ọ G H N ộ i 0 69 H ệ th ố n g c c luât Tìr cAy q u y ế t đ ịn h c ln in g ta c ó th ể nít d ợ c h ệ th ố n g luật b iể u d iễ n m ố i q u a n hộ c ủ a c c th u ộ c lín h c ủ a cAy, d íìy c c khái niộm C h ú n g ta c ó th ể ih đ ợ c m ộ t s ố tiôu ch u ẩ n phân lứp, c h ẳ n g hạn tron g v í dụ tron g phân lớ p giữ a hai lớ p A I p a llel n ếu tron g vãn c h ỉ cầ n ch ứ a (ừ paralell c ó th ể kết lu ận vãn b ản đ ó k h ô n g th u ộ c lớ p A I, tức th u ộ c lớ p p arallel M ặt k h ác c h ú n g ta c ó th ể rút đ ợ c m ộ t sô' c ụ m từ m ộ t lớp th n g vớ i c ó ý n g h ĩa I> - Hệ lu â l - Nếu Parallel = I N ếu Parallel Nếu Parallcl A AI =1 Thì C lass=A l = A AI = A C om puling= AI = A C om pulỉng= = A Nếu Parallcl = 1) A AI =ơ A a A lgorilhm = T h ì I A Algorilhm = A C o m |H ilM ig = l A Algorilhtii =0 I A Cliiss AI=N() Load =0 'I1)ìO a ss A I=Y ES I.(>¡1(1 =1'Iliì C I h s s AI=N O IIII Hình 19: Mội dịnh cho phân lớp vãn bán Đ oàn Sơn - L uận văn Thạc s ĩ - K h o a C ồn g nghệ, Đ H Ọ G H N ộ i 0 70 việc Cịuyết định thuộc vào lớp hay khơng 4.2 Tìm kiếm văn Trơn sở mơ hình nói chương 3, chúng tơi xây dựng hệ thống PTIT Search Engine mang tính thử nghiệm hoạt động theo chế tìm kiếm theo độ quan trọng từ đưa vào Hộ PT1T Search Engine hệ tìm kiếm theo chù đề Chúng tơi xây dựng sô' chù đề : Retrieval, Texl Analysis, Search Strategies, Automatic Methods I I tûp kháin niệm có liên quan information, text, analysis, file, input, oulput, structure, searchl iHệ tìm kiếm theo từ khố đưa vào Kết tìm kiếm gồm hai phần: Phán đàu sử dụng thuật toán với chế trơn, phđn hai sử dụng việc tìm kiếm dạng thông thường Việc đánh giá chất lượng phụ thuộc nhiều vào người dùng Trong trình thử nghiệm thấy kết qủa gần giống trường hợp sô' 1t f P II? Seal ch f nqino B S D W S& Chủ dể |R«tneval "*j TheoChũĐÍ |ffc5 Keywoid2 f ^ i Tlm kiểm Keywoid I Khỏi lạo Kejwotd4 Ị” Thoát Keyv*xd r Bin • : Me him lile Ệ htm M* hlm lie htrn II'|| Me htm ¡.ị Jf.? KỂT QUAt IM KIỂU Keywcxd |

Ngày đăng: 16/03/2021, 12:28

Mục lục

  • MỤC LỤC

  • CHƯƠNG 1.TỔNG QUAN

  • 1.1. X ử lý văn bản và c á c khái n iệm c ơ bản

  • 1 .1 .1 . X ử lý văn bản

  • 1.1.2. Một số khái niệm cơ bản

  • 1.2. Các bài toán trong xử lý văn bản

  • 1.2.1. Tìm kiếm văn bản

  • 1.2.2. Phân lớp văn bản

  • 1.2.3. Phân cụm văn bản (Text Clustering)

  • 1.2.4. Dẫn đường văn bản (Text Routing)

  • 1.2.5. Các bài toán khác

  • 1.3. Một số vấn để về biểu diễn trong xử lý văn bản

  • CHUƠNG 2. CÁC PHUƠNG PHÁP BlỂU DlỄN VĂN BẢN

  • 2.1. Mô hình không quan vcctor

  • 2.1.1. Từ khoá

  • 2.1.2. Mô hình Boolean

  • 2.1.3. Mô hình tẩn số

  • 2.2. Loại bỏ các từ trong biểu diễn văn bản

  • 2.2.1. Loại bỏ các từ dừng

  • 2.2.2. Định luật Zipf

Tài liệu cùng người dùng

Tài liệu liên quan