Việc khai thácnguồn thông tin từ các cơ sở dữ liệu lớn không chỉ dựa vào những phương pháp truyềnthống, mà còn vận dụng từ những kỹ thuật, phương pháp phân tích tổng hợp thông tin.Lượng
Trang 1TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
- -BÀI THU HOẠCH
MÔN: KHAI PHÁ DỮ LIỆU VÀ KHO DỮ LIỆU
Đề tài: Ứng dụng khai phá dữ liệu trong văn bản
TP HCM, ngày 22 tháng 11 năm 2012
Trang 2Hiện nay, nhu cầu tìm kiếm các thông tin hữu ích trong các nguồn dữ liệu lớn đang
là xu hướng phát triển mạnh mẽ Các ứng dụng công nghệ thông tin với cơ sở dữ liệukhổng lồ góp phần không nhỏ trong tất cả các lĩnh vực đời sống, xã hội, kỹ thuật, quản
lý, kinh tế mang lại nguồn lợi lớn cho các doanh nghiệp và người dùng Việc khai thácnguồn thông tin từ các cơ sở dữ liệu lớn không chỉ dựa vào những phương pháp truyềnthống, mà còn vận dụng từ những kỹ thuật, phương pháp phân tích tổng hợp thông tin.Lượng thông tin quyết định tuy nhỏ nhưng là phần cốt lõi, có giá trị cao trong các tiếntrình ra quyết định Khai phá dữ liệu là quá trình trích lọc những tri thức hoặc những mẫutiềm ẩn và hữu ích từ những sự kiện rời rạc
Tính ứng dụng cao của khai phá dữ liệu là thách thức và xu hướng phát triển củangành CNTT Một trong những lĩnh vực đang được quan tâm và đặt ra nhiều bài toán đó
là khai phá dữ liệu văn bản Quá trình này phân tích và trích lọc ra những thông tin cóchất lượng cao trong các văn bản dựa vào các mô hình học thống kê, phân tích, xử lý,đánh giá và cho kết quả Việc phát triển khai thác dữ liệu văn bản đang được vận dụngvào thực tiễn rất nhiều như phân loại văn bản, email, xác định chủ đề văn bản, lấy thôngtin quyết định, giúp cho quá trình xử lý văn bản của con người trở nên nhanh gọn vàchính xác Trong giới hạn bài thu hoạch này, tôi xin trình bày sơ lược những kiến thứcnền tảng trong khai thác dữ liệu và khai thác dữ liệu văn bản Từ đó vận dụng để viết mộtứng dụng nhỏ trong việc phân tích, xử lý văn bản
Chân thành cảm ơn PGS TS Đỗ Phúc đã tận tình chỉ dẫn, giảng dạy nhiệt tìnhnhững kiến thức nền tảng cho tôi có cơ hội tìm hiểu và nghiên cứu các lĩnh vực này.Đồng cảm ơn quý thầy cô quản lý phòng đào tạo sau đại học, trường đại học CNTT đãtạo mọi điều kiện tốt nhất để chúng tôi học tập
Trân trọng!
MỤC LỤC LỜI NÓI ĐẦU 2
I. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 4
Trang 31. Khái niệm 4
2. Sơ lược lịch sử phát triển các mô hình CSDL 5
3. Khám phá tri thức8 4. Kỹ thuật khai thác dữ liệu 10
II. KHAI THÁC DỮ LIỆU VĂN BẢN 11
1. Các bài toán khai thác dữ liệu văn bản 11
2. Kiến trúc khai thác văn bản 13
3. Phương pháp kỹ thuật 15
a. Tìm tập phổ biến và luật kết hợp 15
b. Xây dựng vector đặc trưng của văn bản 17
c. Phân lớp 19
d. Gom cụm 20
III. DEMO KHAI THÁC VĂN BẢN SỬ DỤNG BIDS 22
1. Giới thiệu công cụ BIDS 22
2. Mô tả bài toán 23
3. Demo 24
KẾT LUẬN 29
TÀI LIỆU THAM KHẢO 30
Trang 4I TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
1. Khái niệm
Trong thời đại bùng nổ thông tin như hiện nay, con người tiếp cận lượng dữ liệukhổng lồ qua các kênh khác nhau như internet, truyền thông, trực tiếp hay gián tiếp,những ứng dụng trả về kết quả liên tục cập nhật như hình ảnh vệ tinh, điểm trên sànchứng khoán, giá cả trên thị trường, Thậm chí sự kết nối ở mọi lúc, mọi nơi khi mànhững công cụ nhỏ gọn cầm tay như điện thoại cũng có chức năng đầy đủ của một chiếcmáy tính Chỉ với một từ khóa tìm kiếm trên internet cũng đã cho chúng ta hàng ngàn kếtquả và link liên kết Vậy làm sao để từ những thông tin đó ta trích lọc được những lượngthông tin cốt lõi, hữu ích?
Khai phá dữ liệu là tiến trình khám phá tri thức tiềm ẩn từ các cơ sở dữ liệu lớn,nhằm rút trích các thông tin hữu ích Là tiến trình khái quát các sự kiện rời rạc trong dữliệu thành các tri thức có tính khái quát cao, mang lại thông tin súc tích nhưng nhiều giátrị quyết định Khai phá dữ liệu là một bước trong quy trình phát hiện tri thức(Knowledge Discovery in database – KDD)
Với những tính năng đó, khai thác dữ liệu phát huy được tác dụng lớn khi xử lýtrong hệ thống cơ sở dữ liệu lớn hoặc không có cấu trúc, khi mà những phương phápphân tích tổng hợp truyền thống không đủ để con người nhận định và xử lý Hay nói cáchkhác, việc khai thác dữ liệu giúp cho con người dễ khái quát hóa, sắp xếp lại trật lượngthông tin đa chiều theo tính hữu ích nó mang lại
Việc khai thác dữ liệu hiện nay có thể được phân chia thành hai thể loại: khai thác
dữ liệu theo hướng kiểm tra và khai thác dữ liệu theo hướng khám phá
Khai thác dữ liệu theo hướng kiểm tra: người dùng đề xuất những giả thiết và hệ
thống kiểm tra tính đúng đắn của giả thiết
Khai thác dữ liệu theo hướng khám phá: tìm kiếm các tri thức tiềm ẩn trong cơ sở dữ
liệu bằng các tiến hành xem xét tất cả các giả thiết khả dĩ Việc tìm kiếm này cần phải cónhững thuật toán heuristic thu gọn không gian lời giải nhằm hỗ trợ quy trình được nhanhgọn
Trang 5Những thông tin được rút trích có thể được dùng để giải thích dữ liệu, cung cấp cácthông tin hữu ích của các đối tượng hoặc dự đoán giá trị của các đối tượng mới Vớinhững sự phát triển vượt bậc của các công cụ thu thập dữ liệu và công nghệ lưu trữ dữliệu, việc khai thác dữ liệu không chỉ đơn giản là rút trích các thông tin hữu ích mà cònphải khám phá các mối quan hệ giữa các đối tượng, từ đó đưa ra những quy luật, xuhướng trong các lĩnh vực liên quan
2. Sơ lược lịch sử phát triển các mô hình CSDL
Vào những năm 1960, cơ sở dữ liệu theo mô hình mạng và mô hình phân cấp xuấthiện Loại mô hình này giúp cho người dùng phân chia cơ sở dữ liệu thành những nơi lưutrữ khác nhau và tạo điều kiện thuận lợi trong quá trình quản lý, thao tác, đồng thời việcphân quyền làm cho người dùng chuyên biệt hóa các tính năng tùy thuộc vào mức độquản trị cơ sở dữ liệu
Hình 1: Ví dụ mô hình CSDL phân cấp
Trang 6Hình 2: Mô hình cơ sở dữ liệu mạng
Từ những năm 1970, E Codd đề xuất lý thuyết về cơ sở dữ liệu quan hệ , các hệquản trị cơ sở dữ liệu quan hệ, đặt nền tảng cho nhiều kỹ thuật tổng hợp thông tin có cấutrúc Mô hình dữ liệu này cho phép người dùng thao tác các đối tượng trên bảng thông tinhai chiều, mỗi bảng mô tả các thuộc tính và giá trị của thuộc tính, các quan hệ giữa cácbảng trong hệ thống Mô hình này trực quan, dễ thiết kế và truy vấn, được ứng dụng rộngrãi và đảm bảo tính toàn vẹn dữ liệu
Mô hình này tuy cũ nhưng được sử dụng rộng rãi bởi nó có những ưu điểm vượt trội,đặc biệt là tính độc lập dữ liệu và hình thức hóa toán học tốt
Những năm 1980, lý thuyết về cơ sở dữ liệu quan hệ được hoàn thiện, xuất hiện các
cơ sở dữ liệu cao cấp như hướng đối tượng, suy diễn, vv và các hệ cơ sở dữ liệu ứngdụng cao như lĩnh vực không gian, khoa học, công nghiệp
Trang 7Hình 3: Tổng quan về mô hình cơ sở dữ liệu quan hệ
Những năm 1999 – 2000: phát triển các kỹ thuật khai thác dữ liệu và kho dữ liệu, cơ
sở dữ liệu đa phương tiện và cơ sở dữ liệu web
Khai thác dữ liệu là một công đoạn trong tiến trình khám phá tri thức từ cơ sở dữliệu (Knowledge Discovery in Database – KDD), bao gồm:
- Xác định vấn đề và không gian dữ liệu để giải quyết vấn đề (problem
understanding and data understanding)
- Chuẩn bị dữ liệu (Data preparation): làm sạch dữ liệu (data cleaning), tích hợp
dữ liệu (data integration), chọn dữ liệu (data selection), biến đổi dữ liệu (data
transformation)
- Khai thác dữ liệu (Data mining): xác định nhiệm vụ khai thác dữ liệu và lựa chọn kỹ thuật khai thác dữ liệu Kết quả là một nguồn tri thức thô.
- Đánh giá (Evaluation): dựa trên một số tiêu chí tiến hành kiểm tra và lọc nguồn
tri thức thu được
- Triển khai (Deployment)
Trang 8Cùng với những xu hướng phát triển mạnh mẽ của các mô hình lưu trữ và xử lý dữliệu, khai thác dữ liệu cho phép thu lại những hiểu biết rõ ràng và sâu sắc , giúp phát hiệnnhững xu thế phát triển của những thông tin quá khứ, dự báo mang tính thống kê, gomcụm và phân loại dữ liệu từ kho dữ liệu
Khai thác dữ liệu được sử dụng hiệu quả trong các lĩnh vực:
- Xây dựng mô hình dự báo từ dữ liệu nền tảng: khai thác khả năng dự báo tiềm ẩntrong cơ sở dữ liệu, gợi ý các chiều và nhóm dữ liệu có khả năng chứa các trithức hữu ích
- Tạo tóm tắt và các báo cáo rõ ràng: Tự động tìm những phân đoạn trong dữ liệu.Tìm những phân đoạn mà nhà phân tích chưa biết hoặc chưa nhận thấy nguồn trithức trong đó
- Cung cấp cơ chế hỗ trợ ra quyết định: dự báo và mô hình hóa
3. Khám phá tri thức
Các công đoạn của tiến trình khám phá tri thức bao gồm:
Chuẩn bị dữ liệu:
Chọn lọc dữ liệu: trong giai đoạn này chúng ta chỉ trích rút dữ liệu cần thiết từ
cơ sở dữ liệu tác nghiệp vào cơ sở dữ liệu riêng cần thiết cho các giai đoạn sau.Giai đoạn này gặp khó khăn bởi dữ liệu nằm rải rác nhiều nơi khác nhau vàkhông nhất quán về kiểu, về cấu trúc, tính ổn định của chất lượng dữ liệu đầuvào không cao
Làm sạch dữ liệu: Cần tiến hành xóa bỏ những dữ liệu không cần thiết, nhất lànhững dữ liệu sai, bởi cần đảm bảo tính đúng đắn trong cơ sở dữ liệu Giai đoạnnày có thể được thực hiện nhiều lần vì trong quá trình khai thác dữ liệu có thểxuất hiện những bất thường, và tùy vào hệ thống để lựa chọn những tiến trìnhcấp thấp hay cấp cao Các thao tác trong giai đoạn này là:
Chống trùng lặp
Giới hạn vùng giá trị
Làm giàu dữ liệu: giai đoạn này nhằm bổ sung thêm nhiều loại thông tin vào cơ sở
dữ liệu gốc từ những cơ sở dữ liệu khác Cần phải giải quyết vấn đề làm sao để kếthợp thông tin giữa dữ liệu gốc và dữ liệu bổ sung, khôi phục các quan hệ trong dữliệu gốc sau khi đã làm giàu
Trang 9 Mã hóa dữ liệu: Chuyển đổi kiểu dữ liệu về những dạng thuận tiện để tiến hành cácthuật toán khám phá dữ liệu Tùy vào dữ liệu khác nhau để lựa chọn các cách mãhóa khác nhau cho phù hợp và đảm bảo tính toàn vẹn thông tin dữ liệu, ví dụ:
- Dữ liệu kiểu chuỗi: phân vùng
- Dữ liệu kiểu số: chia theo hệ số để chuyển về vùng dữ liệu nhỏ hơn
- Nam – Nữ: biến đổi sang dạng bit: 1 – 0
Khai thác dữ liệu: điều chỉnh đúng các mô hình dữ liệu, sử dụng chức năng biến đổi
dữ liệu để trình diễn dữ liệu
Tường trình, báo cáo kết quả: Giải thích và hiển thị trực quan các kết quả khai thác
dữ liệu để hỗ trợ việc đánh giá chất lượng dữ liệu, mô hình dữ liệu được lựa chọn cóphù hơp hay không và mô tả mô hình
Mỗi bước có thể được thực hiện trên sự tương tác với người dùng, trừ việc lưu trữ dữliệu, và một số bước có thể thực hiện theo phương pháp thủ công
Hình 4: Mô tả tiến trình khám phá tri thức
4. Các kỹ thuật khai thác dữ liệu
a. Khai thác tập phổ biến và luật kết hợp
Khám phá các tập giá trị thuộc tính xuất hiện phổ biến trong các đối tượng dữliệu Từ tập phổ biến tạo ra các luật kết hợp giữa các giá trị thuộc tính nhằm phản ánh khảnăng xuất hiện đồng thời các giá trị thuộc tính trong tập các đối tượng
Ví dụ: Luật kết hợp A → B: Nếu xuất hiện đối tượng A thì sẽ xuất hiện đối tượng
B (Có thể tính xác suất của luật để thể hiện chính xác)
Trang 10Dựa vào luật kết hợp để người dùng có thể phân tích kết quả, xu hướng và lựachọn các đối tượng có liên quan, ảnh hưởng lẫn nhau.
Là tiến trình khai thác các mẫu tuần tự phổ biến nhằm phản ánh mối quan hệ giữacác biến cố trong cơ sở dữ liệu hướng thời gian Dạng của luật này là
A → B phản ánh sự xuất hiện của biến cố A sẽ dẫn đến việc xuất hiện kế tiếp biến cố Y.Nhờ vào mẫu tuần tự để khám phá các xu thế hành vi của đối tượng
c. Phân lớp dữ liệu
Khám phá các luật phân loại hay đặc trưng cho các dữ liệu được xếp lớp Tập dữliệu học bao gồm tập đối tượng đã được xác định lớp dựa trên các đặc trưng Phân lớp cóvai trò quan trọng trong tiến trình dự báo các khuynh hướng của các đối tượng hay quyluật phát triển
Các đối tượng cùng đặc trưng, tính chất, có mối quan hệ mật thiết sẽ được gomcụm dựa trên mức độ tương tự sao cho giữa các đối tượng cùng một cụm có mức độtương tự đạt cực đại, còn giữa các cụm khác nhau là cực tiểu Việc gom cụm giúp kháiquát, tổng kết nhanh chóng nội dung của khối dữ liệu lớn
Do khối lượng dữ liệu trong lĩnh vực này thường là lớn, nhiều sự thay đổi, nhiềunguồn dữ liệu khác nhau nên việc xử lý cần có những thuật toán và công cụ tốt để giảiquyết vấn đề tốc độ xử lý, dữ liệu được trích xuất và thông tin đầu ra phát huy đầy đủ tínhhiệu quả
Trang 11II KHAI THÁC DỮ LIỆU VĂN BẢN
Khai thác văn bản là một trong những hướng nghiên cứu mới, có nhiều ứng dụng cụthể trong kho dữ liệu văn bản, vận dụng các kỹ thuật khai thác dữ liệu Khai thác văn bảntập trung chủ yếu vào việc phân tích, phát hiện các mối quan hệ tron các tập tin văn bảnnhư text, bản tính, email, website, forum,
Đặc trưng của văn bản là cấu trúc không rõ ràng, mỗi ngôn ngữ có một cú pháp và
hệ thống từ loại khác nhau, các hiển thị khác nhau Do vậy, tùy vào bài toán và loại ngônngữ cụ thể để khai thác dữ liệu trong văn bản
1. Các bài toán khai thác dữ liệu văn bản
luật của các đối tượng văn bản Từ đó đánh giá, nhận định những xu hướng văn bản:
VD: từ cơ sở dữ liệu các email liên hệ công việc giữa các CEO, ta dự đoán ông A có
gửi mail cho bà B về vấn đề đang thảo luận hay không?
các tiêu chí đầu vào để xây dựng truy vấn dưới dạng biểu thức logic hoặc thuật ngữ
nhóm đã xác định trước Có hai loại phân loại văn bản là dạng nhị phân và phân loại theocấp độ
VD: từ những thông tin tiêu đề, nội dung email để phân loại theo các mục hoặc các
thư mục Phân loại cách sách vào lĩnh vực như: văn hóa, xã hội, kỹ thuật, khoa họcthường thức,
trong cùng một nhóm thì các văn bản tương tự nhau về chủ để, về cấu trúc, còn các vănbản khác nhóm thì ít tương tự nhau Số nhóm có thể do người cài đặt tùy chọn hoặc hệthống tự tính toán số nhóm phù hợp nhất
chứa lượng thông tin khái quát nhất hoặc bằng câu mang ý nghĩa quan trọng nhất
một văn bản sẽ được phân vào các nhóm khác nhau và được gán với những thông tin cầnthiết để người dùng có thể dễ dàng tìm kiếm
Trang 12 Trích chọn từ khóa: Đưa ra các từ khóa quan trọng nhất của văn bản, thể hiện được đặc
thù của nội dung văn bản thông qua các từ khóa
Tùy vào mục đích cụ thể của việc khai thác thông tin văn bản mà chúng ta vận dụngnhững phương pháp, kỹ thuật khác nhau Việc khai thác văn bản có thể hỗ trợ cho chúng
ta những vấn đề sau:
- Phát hiện các tri thức tiềm ẩn trong kho văn bản
- Thực hiện phân tích ngữ học, rút trích các khái niệm chính, tạo từ vựng, tạo ngânhàng thuật ngữ, tóm tắt nội dung
- Phân loại tài liệu theo chủ đề
- Tìm kiếm dựa trên khái niệm và sự hình dung
- Cung cấp tài nguyên thõa mãn các yêu cầu truy vấn của người dùng
Trong quá trình khai thác văn bản cũng gặp một số vấn đề khó khăn, chẳng hạn như
số lượng thuật ngữ trong văn bản lớn, dẫn tới việc không gian vector lớn Hay số lượngvăn bản lớn, đa chủng loại, dễ nhập nhằng Do đó cần phải có các quy trình để tối giảnkhông gian bài toán và đưa ra lời giải Trong một số trường hợp phải xác định rõ tham sốđầu vào như ngưỡng phổ biến, số nhóm, số lĩnh vực phân lớp,
Hiện nay, việc khai thác văn bản tiếng việt đang là bài toán cần nghiên cứu và giảiquyết, bởi tính phức tạp của cấu trúc ngữ pháp trong tiếng việt, tính nhập nhằng giữa các
từ đồng nghĩa, đa nghĩa, đồng thời lại là văn bản có dấu nên việc rút trích, khai phá dữliệu trong kho văn bản tiếng việt gặp nhiều khó khăn, cần sự đầu tư về mặt nghiên cứu,kiểm thử
2. Kiến trúc khai thác văn bản
Mô hình kiến trúc khai thác văn bản dựa trên mô hình khám phá tri thức từ cơ sở dữliệu và được mô tả như sau:
Trang 13Lựa chọn tài
nguyên
Xây dựng dữ liệu
Rút trích thông tin
Lưu trữ dữ liệu vào kho
Khai phá dữ liệu
Trình diễn dữ liệu
Hình 5: Khai thác văn bản
Thu thập dữ liệu: Là quá trình lựa chọn tài nguyên và xây dựng cơ sở dữ liệu Trong
giai đoạn này cần nhận biết tài nguyên nào là cần thiết, các lĩnh vực ứng dụng liên quan
và mục đích khai thác Từ đó xây dựng cấu trúc lưu trữ dữ liệu phù hợp, nhất là các thuộctính làm khóa để thao tác trên dữ liệu Việc lựa chọn tài nguyên dựa trên một số tiêuchuẩn sau:
- Chủ đề: cần thu thập những văn bản phù hợp với chủ đề chọn lựa, cung cấp thôngtin hữu ích và hiệu quả
- Tính khả hữu: có thể thu thập từ nhiều nguồn khác nhau, hiện nay với nguồn tàinguyên vô tận từ internet ta có thể dễ dàng tìm kiếm nguồn dữ liệu, song để lựachọn những văn bản phù hợp với nội dung nghiên cứu cần phải giới hạn về khônggian văn bản
- Giá thành: đối với những văn bản liên quan đến bản quyền, đến luật sử dụng vàtruyền thông cần phải được lưu ý, đặc biệt là những văn bản liên quan đến vấn đềthương mại và sáng tạo
- Dạng thức: phụ thuộc vào cấu trúc văn bản Nếu văn bản tóm tắt thì nội dungkhái quát cao, song lượng thông tin lại ít Ngoài ra còn có nhiều cách thể hiện vănbản như file khác nhau, thể thức lưu trữ,
- Siêu dữ liệu: một số kho văn bản khi sử dụng phải được trả phí và chứa siêu dữliệu
Đưa dữ liệu vào kho: xác định siêu dữ liệu, rút trích thông tin, lưu dữ liệu vào kho
(tiền xử lý)
- Rút trích đặc trưng: có những tài nguyên sau đây dùng để nhận diện ý nghĩa văn bản:
Trang 14• Phân tích từ vựng: nhận diện các đơn vị ý nghĩa của văn bản dựa vào những ký tự phâncách như khoảng trắng, tab, xuống dòng, Hiện nay có nhiều công cụ hỗ trợ tách từtrong văn bản.
• Phân tích ngữ nghĩa: mục tiêu của việc phân tích này là tạo liên hệ giữa dạng bên ngoàivăn bản với ý nghĩa mà nó biểu diễn Các từ khác nhau có thể biểu diễn ý nghĩa tương tựnhau Phương pháp phổ biến là khai thác mối quan hệ giữa các từ được mã hóa dưới dạngmột cấu trúc phổ biến về từ vựng
• Phân tích thống kê: phân tích dựa vào thống kê tổng tần số xuất hiện các thuật ngữ Trongnhững kho văn bản có chủ đề, công việc thường thực hiện là tìm những cụm từ sử dụngtrong những ngữ cảnh khác nhau sẽ cho ta ý nghĩa khác nhau, giúp giải quyết sự nhậpnhằng của từ
• Phân tích cú pháp: phân tích các từ loại giúp phán đoán những từ không rõ nghĩa và cácthành ngữ có cú pháp như nhau, cung cấp thêm thông tin cho quá trình phân tích thốngkê
• Phân tích sử dụng: cách sử dụng tài liệu, văn bản có thể cho ta biết những ý nghĩa , gợi ýgiá trị của văn bản đó Dựa vào thói quen của người dùng ta có thể phân tích sử dụng làkiểm tra, duy trì, tham khảo và đánh giá
- Xác định siêu dữ liệu: với những hệ thống cơ sở dữ liệu chứa siêu văn bản cần giải quyết
ba vấn đề: khác nội dung, khác định dạng và khác từ vựng Nội dung của dữ liệu thường
bị biến đổi khi lưu trữ những nơi khác nhau Ngay cả khi đã chuẩn hóa nội dung và địnhdạng, các giá trị của siêu dữ liệu không tương thích cũng gây khó khăn cho các hệ thốngkhai thác văn bản Phương pháp thông thường để tiếp cận là thực hiện phân tích cú pháp,thực hiện những luật rút trích đặc trưng trong hai giai đoạn Giai đoạn đầu là nhận diện sựxuất hiện của một từ và một bộ mẫu cú pháp có khả năng xuất hiện từ đó Sau đó kiểm trangữ cảnh cú pháp để nhận diện dữ liệu cần rút trích
Khai phá dữ liệu: bao gồm khai thác dữ liệu và trình diễn dữ liệu Việc trình diễn dữ
liệu giúp giải thích các kết quả, đánh giá và lựa chọn các mô hình thích hợp, đánh giáchất lượng dữ liệu có đáp ứng được yêu cầu phân tích hay không? Các thao tác của bướctrình diễn bao gồm tóm tắt và hiển thị Trong đó tóm tắt là tạo các trình diễn nhấn mạnhmột số đặc trưng của dữ liệu và che dấu đi một số đặc tính Hiển thị là quá trình mô tả sơlược theo một định dạng mà con người có thể nhận thức được
Trang 153. Phương pháp kỹ thuật
a. Tìm tập phổ biến và luật kết hợp
Phương pháp phân loại văn bản trước đây chủ yếu dựa trên hướng tiếp cận máy học,các mô hình xác suất thống kê, cây quyết định, quy nạp toán học, support vectormachine, Hướng tiếp cận này chủ yếu tập trung phân dữ liệu thành hai lớp và gặp khókhăn trong kho dữ liệu lớn Nhất là với lượng thông tin từ nguồn internet chiếm đến hơn80%
Một số công trình nghiên cứu đã đề xuất sử dụng luật kết hợp cho bài toán phân lớp
Ưu điểm của phương pháp này là có thể phân thành nhiều lớp, thuận tiện trong việc khaithác dữ liệu lớn
- Đặc trưng văn bản: tìm dãy từ phổ biến trong tập dữ liệu văn bản và tạo đồ thị đồng hiệnnhằm xác lập nghĩa của từ đặc trưng
- Tạo luật phân lớp văn bản
Sử dụng luật kết hợp để phân lớp văn bản:
• Bảng quyết định: Xét một ngữ cảnh khai thác dữ liệu (O,D,R) với
D =I ∪ C , I C = Ø, trong đó I là tập các mặt hàng và C là tập các nhãn xác định nhóm
Bộ ba (O, D = I ∪ C, R) được gọi là một bảng quyết định
Trong truờng hợp |C| > 2 sẽ là bài toán phân thành nhiều lớp
• Luật phân lớp: Cho bảng quyết định (O, D=I ∪ C,R) và các nguỡng minsupp, minconf,tìm các luật kết hợp có dạng r: S→{c} với S ⊆ I và c ∈ C Có thể dựa vào luật kết hợpnày làm các luật phân lớp dữ liệu Theo dịnh nghia về dộ tin cậy của luật kết hợp r:S→{c} đuợc định nghĩa:
Với ρ(S) là tập các giao tác có chứa các mặt hàng trong S, ρ({c}) là tập các giaotác thuộc lớp c do đó ρ(S) ρ({c}) sẽ xác định các giao tác thuộc lớp c và có chứa các mặt