1. Trang chủ
  2. » Công Nghệ Thông Tin

tiểu luận khai phá dữ liệu

64 108 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 64
Dung lượng 1,04 MB

Nội dung

TRƯỜNG ĐẠI HỌC THÁI BÌNH KHOA CƠNG NGHỆ THƠNG TIN ====****==== HỌC PHẦN: KHAI PHÁ DỮ LIỆU (Data mining) Nhóm sinh viên thực hiện: Nguyễn Văn Tuấn Hoàng Anh Quân Đỗ Hồng Nhất Phạm Đức Long Hà Văn Công Lớp: ĐHCNTT 6A1 Giảng viên hướng dẫn: Hồng Phương Bắc Lời mở đầu Cơng nghệ thông tin phát triển mang lại cho nhân loại nhiều lợi ích giúp giải cơng việc tưởng chừng người giải được, chẳng hạn toán sinh học, biến đổi protein thể người Trong trình phát triển cơng nghệ thơng tin, thu thập khối lượng lớn liệu Và sở liệu tiềm ẩn nhiều tri thức có ích mà người chưa khám phá Do có nhu cầu thiết thực tìm kiếm tri thức kho liệu Hiện nay, sở lý thuyết sở liệu kết đạt từ hướng nghiên cứu ứng dụng trí tuệ nhân tạo, Khai phá liệu (Data Mining) mang lại nhiều lợi ích lớn lao việc khai thác thơng tin cách hữu ích Bằng chứng ngày có nhiều ngành, nhiều nghề không hoạt động hiệu thiếu hỗ trợ từ máy tính phần mềm máy tính Khai phá liệu bao gồm nhiều hướng tiếp cận Các kỹ thuật áp dụng lĩnh vực phân lớp dự báo, luật kết hợp, phân cụm phân đoạn, khai phá mẫu theo thứ tự/ theo thời gian v.v Trong đó, khai phá luật kết hợp kỹ thuật quan trọng khai phá liệu Mục đích khai phá luật kết hợp tìm tất tập con, đối tượng thuộc tính xuất thường xuyên nhiều giao dịch ghi sở liệu rút luật tập đối tượng có ảnh hưởng tới xuất tập đối tượng khác Khai phá liệu (Data Mining) khái niệm đời vào năm 1980 Nó bao gồm kỹ thuật nhằm phát thông tin có giá trị tiềm ẩn tập liệu lớn Data mining giai đoạn quan trọng tiến trình khai phá tri thức từ sở liệu, tri thức hỗ trợ việc định kinh doanh khoa học TỔNG QUAN VỀ CHƯƠNG 2: NHẬN BIẾT DỮ LIỆU CỦA BẠN Nó hấp dẫn để nhảy thẳng vào khai thác, trước tiên, cần chuẩn bị sẵn liệu Điều liên quan đến có nhìn cận cảnh thuộc tính giá trị liệu Dữ liệu giới thực thường ồn ào, khối lượng khổng lồ (thường vài gigabyte trở lên) bắt nguồn từ nguồn hỗn hợp nguồn không đồng Chương làm quen với liệu bạn Kiến thức liệu bạn hữu ích cho q trình tiền xử lý liệu (xem Chương 3), lần nhiệm vụ q trình khai thác liệu Bạn muốn biết điều sau đây: loại thuộc tính trường tạo nên liệu bạn? Mỗi loại giá trị thuộc tính có? Những thuộc tính rời rạc, thuộc tính có giá trị liên tục? Gì liệu trơng nào? Các giá trị phân phối nào? Có cách hình dung liệu để hiểu rõ tất cả? Chúng phát ngoại lệ? Chúng ta đo giống số đối tượng liệu người khác? Đạt nhìn sâu sắc vào liệu giúp với phân tích Vì vậy, tìm hiểu liệu chúng tơi mà có ích q trình tiền xử lý liệu? Chúng bắt đầu Mục 2.1 cách nghiên cứu loại thuộc tính khác Chúng bao gồm thuộc tính danh nghĩa, thuộc tính nhị phân, thuộc tính thứ tự thuộc tính số Mơ tả thống kê sử dụng để tìm hiểu thêm giá trị thuộc tính, mơ tả Phần 2.2 Chẳng hạn, với thuộc tính nhiệt độ, xác định giá trị trung bình (giá trị trung bình), trung vị (giá trị trung bình) chế độ (giá trị phổ biến nhất) Đây biện pháp xu hướng trung tâm, cho ý tưởng trung gian phân phối hay trung tâm phân phối Biết số liệu thống kê liên quan đến thuộc tính giúp dễ dàng điền vào chỗ thiếu giá trị, giá trị nhiễu mịn điểm ngoại lệ trình tiền xử lý liệu Kiến thức thuộc tính giá trị thuộc tính giúp khắc phục khơng qn phát sinh q trình tích hợp liệu Vẽ biện pháp xu hướng trung tâm cho thấy liệu đối xứng lệch Biểu đồ lượng tử, biểu đồ biểu đồ phân tán hiển thị đồ họa khác mô tả thống kê Tất hữu ích q trình tiền xử lý liệu cung cấp nhìn sâu sắc vào khu vực để khai thác Lĩnh vực trực quan hóa liệu cung cấp nhiều kỹ thuật bổ sung để xem liệu thông qua phương tiện đồ họa Những thứ giúp xác định mối quan hệ, xu hướng thành kiến tập liệu phi cấu trúc Kỹ thuật đơn giản ma trận phân tán (trong hai thuộc tính ánh xạ lên lưới chiều) cho phương thức phức tạp treemaps (trong phân vùng phân cấp hình hiển thị dựa thuộc tính giá trị) Các kỹ thuật trực quan hóa liệu mơ tả Phần 2.3 Cuối cùng, muốn kiểm tra đối tượng liệu tương tự (hoặc không giống nhau) Dành cho ví dụ, giả sử có sở liệu đối tượng liệu bệnh nhân, mô tả triệu chứng họ Chúng tơi muốn tìm tương đồng khơng giống bệnh nhân Thơng tin cho phép chúng tơi tìm cụm bệnh nhân giống tập liệu Sự giống - không giống đối tượng sử dụng để phát ngoại lệ liệu để thực phân loại lân cận gần (Phân cụm chủ đề Chương 10 11, phân loại hàng xóm gần thảo luận Chương 9.) Có nhiều biện pháp để đánh giá giống khơng giống Nói chung, biện pháp gọi biện pháp gần Hãy nghĩ gần gũi hai đối tượng chức khoảng cách giá trị thuộc tính chúng, khoảng cách tính tốn dựa xác suất khoảng cách thực tế Các biện pháp gần liệu mô tả Phần 2.4 Tóm lại, đến cuối chương này, bạn biết loại thuộc tính khác biện pháp thống kê để mô tả xu hướng trung tâm phân tán (lây lan) liệu thuộc tính Bạn biết kỹ thuật để trực quan hóa phân phối thuộc tính làm để tính tốn giống khơng giống đối tượng 2.1 Đối tượng loại thuộc tính Các tập liệu tạo thành từ đối tượng liệu Một đối tượng liệu đại diện cho thực thể cộng đồng bán hàng sở liệu, đối tượng khách hàng, lưu trữ mặt hàng bán hàng; sở liệu y tế, đối tượng bệnh nhân; sở liệu trường đại học, đối tượng sinh viên, giáo sư, khóa học Các đối tượng liệu thường mô tả thuộc tính Đối tượng liệu gọi mẫu, ví dụ, trường hợp, điểm liệu đối tượng Nếu đối tượng liệu lưu trữ sở liệu, chúng liệu Đó là, hàng sở liệu tương ứng với đối tượng liệu cột tương ứng với thuộc tính Trong phần này, chúng tơi tìm thuộc tính nhìn vào loại thuộc tính khác 2.1.1 Thuộc tính gì? Một thuộc tính trường liệu, đại diện cho đặc tính tính đối tượng liệu Các thuộc tính danh từ, thứ nguyên, tính biến thường sử dụng thay cho văn chương Kích thước thuật ngữ thường sử dụng kho liệu Học máy văn học có xu hướng sử dụng tính thuật ngữ, nhà thống kê thích biến thuật ngữ Dữ liệu chuyên gia khai thác sở liệu thường sử dụng thuộc tính hạn chúng tơi làm Các thuộc tính mơ tả đối tượng khách hàng bao gồm, ví dụ: ID khách hàng, tên địa Các giá trị quan sát cho thuộc tính định gọi quan sát Một thuộc tính sử dụng để mơ tả đối tượng định gọi vectơ thuộc tính (hoặc vectơ đặc trưng) Việc phân phối liệu liên quan đến thuộc tính (hoặc biến) gọi univariate Một phân phối bivariate liên quan đến hai thuộc tính, v.v Loại thuộc tính xác định tập hợp giá trị có danh nghĩa, nhị phân, thứ tự, hay số thứ ba thuộc tính có Trong tiểu mục sau, chúng tơi giới thiệu loại 2.1.2 Thuộc tính danh nghĩa Danh nghĩa có nghĩa liên quan đến tên Các giá trị thuộc tính danh nghĩa ký hiệu tên vật Mỗi giá trị đại diện cho số loại thể loại, mã trạng thái, thuộc tính danh nghĩa gọi phân loại Các giá trị khơng có ý nghĩa đặt hàng Trong khoa học máy tính, giá trị cịn gọi liệt kê Ví dụ 2.1: Thuộc tính danh nghĩa Giả sử màu tóc tình trạng nhân hai thuộc tính mô tả đối tượng người Trong ứng dụng chúng tơi, giá trị có cho màu tóc màu đen, nâu, vàng, đỏ, nâu, xám trắng Tình trạng nhân thuộc tính giá trị độc thân, kết hơn, ly dị góa bụa Cả màu tóc tình trạng nhân thuộc tính danh nghĩa Một ví dụ khác thuộc tính danh nghĩa nghề nghiệp, với giá trị giáo viên, nha sĩ, lập trình viên, nơng dân, Mặc dù chúng tơi nói giá trị thuộc tính danh nghĩa ký hiệu tên thứ, đại diện cho biểu tượng tên tên với số Với màu tóc chẳng hạn, gán mã cho màu đen, cho màu nâu, v.v Một ví dụ khác ID tùy chỉnh, với giá trị tất số Tuy nhiên, trường hợp vậy, số khơng nhằm mục đích sử dụng định lượng Đó là, phép tốn giá trị thuộc tính danh nghĩa khơng có ý nghĩa Nó làm cho khơng ý nghĩa để trừ số ID khách hàng từ số khác, không giống như, trừ độ tuổi giá trị từ khác (trong tuổi thuộc tính số) Mặc dù thuộc tính danh nghĩa có số ngun giá trị, khơng coi thuộc tính số số ngun khơng có nghĩa sử dụng định lượng Chúng tơi nói nhiều thuộc tính số Mục 2.1.5 Bởi giá trị thuộc tính danh nghĩa khơng có thứ tự có ý nghĩa chúng khơng định lượng, khơng có nghĩa tìm giá trị trung bình (trung bình) trung vị (giữa) giá trị cho thuộc tính vậy, đưa tập hợp đối tượng Tuy nhiên, điều đáng quan tâm thuộc tính giá trị xuất phổ biến Giá trị này, gọi chế độ, biện pháp xu hướng trung tâm Bạn tìm hiểu biện pháp xu hướng trung tâm Mục 2.2 2.1.3 Thuộc tính nhị phân Thuộc tính nhị phân thuộc tính danh nghĩa có hai loại trạng thái: 1, thường có nghĩa thuộc tính vắng mặt có nghĩa có mặt Nhị phân thuộc tính gọi Boolean hai trạng thái tương ứng với sai Ví dụ 2.2: Thuộc tính nhị phân Cho thuộc tính người hút thuốc mô tả đối tượng bệnh nhân, bệnh nhân hút thuốc, bệnh nhân không hút thuốc Tương tự, giả sử bệnh nhân trải qua kiểm tra y tế có hai kết xảy Thuộc tính xét nghiệm y tế nhị phân, giá trị có nghĩa kết xét nghiệm cho bệnh nhân dương, có nghĩa kết âm tính Một thuộc tính nhị phân đối xứng hai trạng thái có giá trị mang trọng lượng; đoa là, khơng có ưu tiên kết nên mã hóa Một ví dụ lf giới tính thuộc có trạng thái nam nữ Một thuộc tính nhị phân không đối xứng kết trạng thái không quan trọng nhau, chẳng hạn kết dương tính âm tính xét nghiệm y tế HIV Theo quy ước mã hóa kết quan trọng nhất, thường kết nhất, (ví dụ: HIV dương tính) khác (ví dụ: HIV âm tính) 2.1.4 Thuộc tính thơng thường Thuộc tính thứ tự thuộc tính có giá trị có thứ tự có ý nghĩa xếp hạng số họ, độ lớn giá trị liên tiếp đến Ví dụ 2.3: Thuộc tính thơng thường Giả sử kích thước đồ uống tương ứng với kích thước đồ uống có sẵn nhà hàng thức ăn nhanh Thuộc tính danh nghĩa có ba giá trị có thể: nhỏ, trung bình, rộng lớn Các giá trị có chuỗi có ý nghĩa (tương ứng với tăng cỡ uống); nhiên, khơng thể nói từ giá trị lớn lớn Các ví dụ khác thuộc tính thứ tự bao gồm lớp (ví dụ: A +, A, A−, B +, vậy) thứ hạng chuyên nghiệp Các cấp bậc chuyên nghiệp liệt kê theo thứ tự thứ tự: ví dụ: trợ lý, cộng sự, đầy đủ cho giáo sư, riêng tư, riêng tư trước lớp, chuyên gia, quân đoàn trung sĩ cho hàng ngũ quân đội Các thuộc tính thơng thường hữu ích cho việc đăng ký đánh giá chủ quan phẩm chất đo lường khách quan; thuộc tính thứ tự thường sử dụng khảo sát cho xếp hạng Trong khảo sát, người tham gia yêu cầu đánh giá mức độ hài lòng họ với tư cách khách hàng Sự hài lịng khách hàng có loại thứ tự sau: 0: khơng hài lịng, 1: khơng hài lòng, 2: trung lập, 3: hài lòng 4: hài lịng Các thuộc tính thơng thường thu từ rời rạc đại lượng số cách chia phạm vi giá trị thành số hữu hạn danh mục đặt hàng mô tả chương giảm liệu Xu hướng trung tâm thuộc tính thứ tự biểu diễn chế độ trung vị (giá trị trung bình chuỗi theo thứ tự), giá trị trung bình khơng thể xác định Lưu ý thuộc tính danh nghĩa, nhị phân thứ tự định tính Đó là, họ mơ tả tính đối tượng mà khơng đưa kích thước số lượng thực tế Các giá trị thuộc tính định tính thường từ đại diện cho thể loại Nếu số nguyên sử dụng, chúng đại diện cho mã máy tính cho danh mục, trái ngược với số lượng đo (ví dụ: cho kích thước đồ uống nhỏ, cho vừa cho lớn) Trong tiểu mục sau đây, chúng tơi xem xét thuộc tính số, cung cấp phép đo định lượng vật 2.1.5 Thuộc tính số Một thuộc tính số định lượng; đại lượng đo lường được, biểu thị số nguyên giá trị thực Các thuộc tính số chia tỷ lệ chia tỷ lệ Thuộc tính quy mơ Các thuộc tính tỷ lệ khoảng đo thang đơn vị có kích thước Các giá trị củacác thuộc tính theo tỷ lệ có thứ tự dương, âm Như vậy, ngồi để cung cấp thứ hạng giá trị, thuộc tính cho phép so sánh định lượng khác biệt giá trị Ví dụ 2.4: Thuộc tính quy mơ khoảng Một thuộc tính nhiệt độ chia tỷ lệ Giả sử có giá trị nhiệt độ ngồi trời cho số ngày khác nhau, ngày đối tượng Bằng cách xếp giá trị, chúng tơi có thứ hạng đối tượng liên quan đến nhiệt độ Ngoài ra, định lượng khác biệt giá trị Ví dụ: nhiệt độ 20◦C cao năm độ so với nhiệt độ 15◦C Lịch ngày ví dụ khác Chẳng hạn, năm 2002 2010 cách tám năm Nhiệt độ Celsius Fahrenheit điểm thực sự, nghĩa 0C 00F biểu thị khơng có nhiệt độ (Trên thang đo Celsius, ví dụ: đơn vị đo 1/100 chênh lệch nhiệt độ nóng chảy độ sơi nước áp suất khí quyển) Mặc dù tính tốn khác biệt giá trị nhiệt độ, khơng thể nói giá trị nhiệt độ bội số người khác Ví dụ, khơng có số thực sự, khơng thể nói 10 0C ấm gấp đơi 50C Đó là, khơng thể nói giá trị theo tỷ lệ Tương tự, điểm khơng thực cho ngày dương lịch (Năm không tương ứng với đầu năm thời gian) Điều đưa đến thuộc tính tỷ lệ, theo điểm khơng thực Vì thuộc tính tỷ lệ khoảng số, nên tính giá trị trung bình chúng, ngồi biện pháp trung bình chế độ xu hướng trung tâm Thuộc tính tỷ lệ Thuộc tính tỷ lệ thuộc tính số có điểm gốc vốn có Đó là, phép đo chia tỷ lệ, nói giá trị bội số (hoặc tỷ lệ) có giá trị khác Ngoài ra, giá trị xếp chúng tơi tính tốn khác biệt giá trị, giá trị trung bình, trung vị chế độ Ví dụ 2.5: Thuộc tính tỷ lệ Khơng giống nhiệt độ Celsius Fahrenheit, Kelvin (K) thang đo nhiệt độ có điểm coi điểm khơng thực (0◦K = −273.15◦C): Đó điểm hạt cấu thành vật chất có động khơng Khác ví dụ thuộc tính tỷ lệ bao gồm thuộc tính đếm số năm kinh nghiệm (ví dụ: đối tượng nhân viên) số lượng từ (ví dụ: đối tượng tài liệu) Ví dụ bổ sung bao gồm thuộc tính để đo trọng 10 hai điểm thành phố (chẳng hạn khối xuống khối tổng số khối) Nó định nghĩa là: Cả khoảng cách Euclide Manhattan thỏa mãn tính chất tốn học sau: Non-negativity: d (i, j) >= 0: Khoảng cách số không âm Identity of indiscernibles: d (i, i) = 0: Khoảng cách vật thể với Symmetry: d (i, j) = d (j, i): Khoảng cách hàm đối xứng Triangle inequality: d (i, j) ≤ d (i, k) + d (k, j): Đi trực tiếp từ đối tượng i đến đối tượng j không gian khơng khác tạo đường vịng so với đối tượng k khác Một biện pháp thỏa mãn điều kiện gọi số liệu Xin lưu ý thuộc tính khơng phủ định ngụ ý ba thuộc tính khác Ví dụ 2.19: Euclidean distance and Manhattan distance (khoảng cách Euclide khoảng cách Manhattan) Đặt x1 = (1, 2) x2 = (3, 5) đại diện cho hai đối tượng hình 2.23 Khoảng cách Euclide hai người = 3,61 Khoảng cách Manhattan hai người + = Khoảng cách Minkowski khái quát khoảng cách Euclide Manhattan Nó định nghĩa Trong h số thực cho h ≥ (Khoảng cách gọi định mức Lp số tài liệu, ký hiệu p đề cập đến ký hiệu h Chúng ta giữ p số thuộc tính phù hợp với phần cịn lại 50 chương này.) Nó đại diện cho khoảng cách Manhattan h = (tức tiêu L1) khoảng cách Euclide h = (tức định mức L2) Khoảng cách tối cao (còn gọi Lmax, L Norm khoảng cách Ch Quashev) khái quát khoảng cách Minkowski cho h → Để tính tốn nó, tìm thuộc tính f cung cấp khác biệt tối đa giá trị hai đối tượng Sự khác biệt khoảng cách tối cao, định nghĩa thức là: Định mức gọi định mức thống Hình 2.23 Khoảng cách Euclide, Manhattan supremum hai đối tượng Ví dụ 2.20: Khoảng cách Supremum Cho phép sử dụng hai đối tượng giống nhau, x1 = (1, 2) x2 = (3, 5), Hình 2.23 Thuộc tính thứ hai cho khác biệt lớn giá trị cho đối tượng, - = Đây khoảng cách tối cao hai đối tượng Nếu thuộc tính gán trọng số theo tầm quan trọng cảm nhận nó, khoảng cách Euclide có trọng số tính 51 Trọng số áp dụng cho biện pháp khoảng cách khác tốt 2.4.5 Các biện pháp gần gũi cho thuộc tính thơng thường Các giá trị thuộc tính thứ tự có thứ tự xếp hạng có ý nghĩa chúng, nhiên độ lớn giá trị liên tiếp không xác định (Mục 2.1.4) Một ví dụ bao gồm chuỗi nhỏ, trung bình, lớn cho thuộc tính kích thước Các thuộc tính thơng thường thu từ rời rạc thuộc tính số cách chia phạm vi giá trị thành số loại hữu hạn Các loại tổ chức thành hàng ngũ Nghĩa là, phạm vi thuộc tính số ánh xạ tới thuộc tính thứ tự f có trạng thái Mf Ví dụ: phạm vi nhiệt độ thuộc tính quy mơ khoảng (tính độ C) tổ chức thành trạng thái sau: −30 đến −10, −10 đến 10, 10 đến 30, đại diện cho loại nhiệt độ lạnh, nhiệt độ vừa phải ấm áp nhiệt độ, tương ứng Đặt M đại diện cho số trạng thái có mà thuộc tính thứ tự có Các trạng thái xếp xác định thứ hạng 1, , Mf Làm thuộc tính thứ tự xử lý? Việc xử lý thuộc tính thứ tự giống với thuộc tính số tính tốn khác biệt đối tượng Giả sử f thuộc tính từ tập hợp thuộc tính thứ tự mơ tả n đối tượng Tính tốn khơng giống f bao gồm bước sau: Giá trị f cho đối tượng thứ i xif f có trạng thái xếp Mf, đại diện cho xếp hạng 1, , Mf Thay xif thứ hạng tương ứng nó, súng trường ∈ {1, , Mf} Vì thuộc tính thứ tự có số lượng trạng thái khác nhau, nên thường phải ánh xạ phạm vi thuộc tính lên [0,0, 1,0] để thuộc tính có trọng số Chúng tơi thực chuẩn hóa liệu cách thay súng trường xếp hạng đối tượng thứ i thuộc tính thứ f bằng: 52 Sự khác biệt sau tính cách sử dụng thước đo khoảng cách mô tả Mục 2.4.4 cho thuộc tính số, sử dụng zif để biểu thị giá trị f cho đối tượng thứ i Ví dụ 2.21: Sự khác biệt thuộc tính thứ tự Giả sử có liệu mẫu hiển thị trước Bảng 2.2, ngoại trừ lần có định danh đối tượng thuộc tính thứ tự liên tục, test-2, có sẵn Có ba trạng thái cho test-2: cơng bằng, tốt xuất sắc, M f = Đối với bước 1, thay giá trị cho test-2 thứ hạng nó, bốn đối tượng gán thứ hạng 3, , 3, tương ứng Bước bình thường hóa thứ hạng cách ánh xạ xếp hạng đến 0,0, xếp hạng đến 0,5 xếp hạng đến 1,0 Đối với bước 3, sử dụng khoảng cách Euclide (phương trình 2.16), dẫn đến ma trận khác sau: Do đó, đối tượng khác nhất, đối tượng (tức là, d (2.1) = 1.0 d (4.2) = 1.0) Điều có ý nghĩa trực quan đối tượng xuất sắc Đối tượng cơng bằng, nằm phía đối diện phạm vi giá trị cho test-2 Các giá trị tương tự cho thuộc tính thứ tự hiểu từ không giống sim (i, j) = - d(i, j) 2.4.6 Sự khác biệt thuộc tính loại hỗn hợp Các phần 2.4.2 đến 2.4.5 thảo luận cách tính độ khác đối tượng mô tả thuộc tính loại, loại danh nghĩa, nhị phân đối xứng, nhị phân bất đối xứng, số thứ tự Tuy nhiên, nhiều sở liệu thực, đối tượng mô tả hỗn hợp 53 loại thuộc tính Nói chung, sở liệu chứa tất loại thuộc tính Vì vậy, làm tính tốn khác biệt đối tượng loại thuộc tính hỗn hợp? Một cách tiếp cận nhóm loại thuộc tính lại với nhau, thực phân tích khai thác liệu riêng biệt (ví dụ: phân cụm) cho loại Điều khả thi phân tích rút kết tương thích Tuy nhiên, ứng dụng thực tế, khơng có khả phân tích riêng cho loại thuộc tính tạo kết tương thích Một cách tiếp cận thích hợp xử lý tất loại thuộc tính với nhau, thực phân tích Một kỹ thuật kết hợp thuộc tính khác thành ma trận khác nhất, đưa tất thuộc tính có ý nghĩa lên thang đo chung khoảng [0,0, 1,0] Giả sử tập liệu chứa thuộc tính p thuộc loại hỗn hợp Sự khác biệt d (i, j) đối tượng i j định nghĩa Trong số c là, = thiếu (1) x if xif (nghĩa khơng có phép đo thuộc tính f cho đối tượng i đối tượng j) (2) xif = xif = thuộc tính f nhị phân bất đối xứng; mặt khác, c là, = Sự đóng góp thuộc tính f cho khác biệt i j (tức là, ) tính tốn phụ thuộc vào loại nó:  Nếu f số: Số = , h chạy tất đối tượng khơng xuất cho thuộc tính f  Nếu f danh nghĩa nhị phân: xif = xjf ; mặt khác,  Nếu f thứ tự: tính toán cấp bậc rif zif = , xử lý zif dạng số Các bước giống hệt với thấy cho loại thuộc tính riêng lẻ Sự khác biệt cho thuộc tính số, chuẩn 54 hóa để giá trị ánh xạ tới khoảng [0.0, 1.0] Do đó, khác biệt đối tượng tính thuộc tính mơ tả đối tượng thuộc loại khác Ví dụ 2.22: Sự khác biệt thuộc tính loại hỗn hợp Hãy để tính tốn ma trận khác cho đối tượng Bảng 2.2 Bây xem xét tất thuộc tính, thuộc loại khác Trong ví dụ 2.17 2.21, chúng tơi tạo ma trận khác cho thuộc tính riêng lẻ Các quy trình chúng tơi thực cho test-1 (là danh nghĩa) test-2 (là thứ tự) giống phác thảo trước để xử lý thuộc tính loại hỗn hợp Do đó, sử dụng ma trận khác thu cho test-1 test-2 sau tính tốn phương trình (2.22) Tuy nhiên, trước tiên, cần tính tốn ma trận khác cho thuộc tính thứ ba, test-3 (là số) Đó là, phải tính Theo trường hợp cho thuộc tính số, để maxhxh = 64 minhxh = 22 Sự khác biệt hai thuộc tính sử dụng biểu thức (2.22) để bình thường hóa giá trị ma trận khác Ma trận khác biệt kết cho thử nghiệm-3 Bây sử dụng ma trận khác cho ba thuộc tính tính tốn phương trình (2.22) Chỉ số = cho số ba thuộc tính, f Chúng tơi nhận được, ví dụ, d (3, 1) = =0,65 Ma trận khác biệt kết thu cho liệu mô tả ba thuộc tính loại hỗn hợp là: 55 Từ Bảng 2.2, đốn trực giác đối tượng giống nhất, dựa giá trị chúng cho test-1 test-2 Điều xác nhận ma trận khơng giống nhau, d (4, 1) giá trị thấp cho cặp đối tượng khác Tương tự, ma trận đối tượng giống 2.4.7 Độ tương tự Cosine Một tài liệu đại diện hàng ngàn thuộc tính, thuộc tính ghi lại tần suất từ cụ thể (chẳng hạn từ khóa) cụm từ tài liệu Do đó, tài liệu đối tượng đại diện gọi vectơ tần số Ví dụ, Bảng 2.5, thấy Document1 chứa năm trường hợp nhóm từ, khúc côn cầu xảy ba lần Huấn luyện viên từ khơng có tồn tài liệu, biểu thị giá trị đếm Dữ liệu không đối xứng cao Các vectơ tần số thường dài thưa thớt (nghĩa chúng có nhiều giá trị 0) Các ứng dụng sử dụng cấu trúc bao gồm truy xuất thông tin, phân cụm tài liệu văn bản, phân loại sinh học lập đồ tính gen Các thước đo khoảng cách truyền thống mà nghiên cứu chương không hoạt động tốt liệu số thưa thớt Ví dụ: hai vectơ tần số có nhiều giá trị chung, nghĩa tài liệu tương ứng không chia sẻ nhiều từ, điều không làm cho chúng giống Chúng ta cần biện pháp tập trung vào từ mà hai tài liệu có điểm chung tần suất xuất từ Nói cách khác, cần thước đo cho liệu số mà bỏ qua kết trùng khớp 56 Độ tương tự cosine thước đo độ tương tự sử dụng để so sánh tài liệu hoặc, giả sử, đưa bảng xếp hạng tài liệu liên quan đến vectơ từ truy vấn định Đặt x y hai vectơ để so sánh Sử dụng thước đo cosin Bảng 2.5 Vector tài liệu Vector tần số kỳ hạn chức tương tự, có Ở đâu || x || tiêu Euclide vectơ x = (x1, x2, , xp), định nghĩa Về mặt khái niệm, chiều dài vectơ Tương tự, || y || tiêu Euclide vectơ y Số đo tính cosin góc vectơ x y Giá trị cosin có nghĩa hai vectơ nằm góc 90 độ với (trực giao) không khớp Giá trị cosin gần 1, góc nhỏ độ khớp vectơ lớn Lưu ý thước đo độ tương tự cosin khơng tn theo tất thuộc tính Mục 2.4.4 xác định số đo, nên gọi thước đo phi kim Ví dụ 2.23 Độ tương tự Cosine hai vectơ tần số Giả sử x y hai vectơ tần số Bảng 2.5 Đó là, x = (5,0,3,0,2,0,0,2,0,0) y=(3,0,2,0,1,1,0,1,0,1) Làm tương tự x y? Sử dụng phương trình (2.23) để tính độ tương tự cosin hai vectơ, nhận được: 57 Do đó, sử dụng thước đo độ tương tự cosin để so sánh tài liệu này, chúng coi giống Khi thuộc tính có giá trị nhị phân, chức tương tự cosine hiểu theo tính thuộc tính chia sẻ Giả sử đối tượng x sở hữu thuộc tính thứ i xi = Khi xt y số thuộc tính sở hữu (tức là, chia sẻ) x y | x || y | giá trị trung bình hình học số lượng thuộc tính sở hữu x số lượng sở hữu y Do đó, sim (x, y) thước đo sở hữu tương đối thuộc tính chung Một biến thể đơn giản độ tương tự cosine cho kịch trước Đó tỷ lệ số lượng thuộc tính chia sẻ x y với số lượng thuộc tính sở hữu x y Hàm này, gọi hệ số Tanimoto khoảng cách Tanimoto, thường sử dụng truy xuất thông tin phân loại sinh học 2.5 Tóm tắt - Các tập liệu tạo thành từ đối tượng liệu Một đối tượng liệu đại diện cho thực thể Các đối tượng liệu mô tả thuộc tính Các thuộc tính danh nghĩa, nhị phân, thứ tự số - Các giá trị thuộc tính danh nghĩa (hoặc phân loại) ký hiệu tên vật, giá trị đại diện cho loại danh mục, mã trạng thái 58 - Thuộc tính nhị phân thuộc tính danh nghĩa có hai trạng thái (chẳng hạn và sai) Nếu hai trạng thái quan trọng nhau, thuộc tính đối xứng; khơng khơng đối xứng - Thuộc tính thứ tự thuộc tính có giá trị có thứ tự xếp hạng có ý nghĩa số chúng, độ lớn giá trị liên tiếp - Một thuộc tính số định lượng (nghĩa là, đại lượng đo được) biểu thị số nguyên giá trị thực Các loại thuộc tính số chia tỷ lệ tỷ lệ Các giá trị thuộc tính chia tỷ lệ đo đơn vị cố định Các thuộc tính tỷ lệ thuộc tính số có điểm gốc vốn có Các phép đo chia tỷ lệ theo tỷ lệ mà nói giá trị thứ tự có độ lớn lớn đơn vị đo - Mô tả thống kê cung cấp tảng phân tích cho tiền xử lý liệu Các biện pháp thống kê để tóm tắt liệu bao gồm giá trị trung bình, trung bình có trọng số, trung vị chế độ để đo xu hướng trung tâm liệu; phạm vi, lượng tử, tứ phân vị, phạm vi liên mã, phương sai độ lệch chuẩn để đo độ phân tán liệu Các biểu diễn đồ họa (ví dụ: ô vuông, sơ đồ lượng tử, sơ đồ lượng tử, biểu đồ biểu đồ phân tán) tạo điều kiện kiểm tra trực quan liệu hữu ích cho trình tiền xử lý khai thác liệu - Các kỹ thuật trực quan hóa liệu hướng pixel, dựa hình học, dựa biểu tượng phân cấp Những phương pháp áp dụng cho liệu quan hệ đa chiều Các kỹ thuật bổ sung đề xuất để trực quan hóa liệu phức tạp, chẳng hạn văn mạng xã hội - Các biện pháp tương tự khác biệt đối tượng sử dụng ứng dụng khai thác liệu phân cụm, phân tích ngoại lệ phân loại lân cận gần Các biện pháp gần tính tốn cho loại thuộc tính nghiên cứu chương cho kết hợp 59 thuộc tính Các ví dụ bao gồm hệ số Jaccard cho thuộc tính nhị phân không đối xứng khoảng cách Euclide, Manhattan, Minkowski supremum cho thuộc tính số Đối với ứng dụng liên quan đến vectơ liệu số thưa thớt, chẳng hạn vectơ tần số, số đo cosine hệ số Tanimoto thường sử dụng để đánh giá độ tương tự 2.6 Bài tập 2.6.1: Đưa ba biện pháp thống kê thường sử dụng mà chưa minh họa chương để mô tả đặc tính phân tán liệu Thảo luận cách chúng tính tốn hiệu sở liệu lớn 2.6.2: Giả sử liệu để phân tích bao gồm tuổi thuộc tính Các giá trị tuổi cho liệu (theo thứ tự tăng dần) 13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35 , 35, 35, 36, 40, 45, 46, 52, 70 (a) Ý nghĩa liệu gì? Trung bình gì? (b) Chế độ liệu gì? Nhận xét phương thức liệu mạng (tức là,lưỡng kim, trimodal, v.v.) (c) Khoảng liệu gì? (d) Bạn tìm thấy (khoảng) phần tư thứ (Q1) phần tư thứ ba (Q3) liệu? (e) Đưa tóm tắt năm số liệu (f) Hiển thị boxplot liệu (g) Một âm mưu lượng tử Quantile khác với âm mưu lượng tử nào? 2.6.3: Giả sử giá trị cho tập hợp liệu định nhóm thành khoảng Các khoảng tần số tương ứng sau: 60 Tính giá trị trung bình gần cho liệu 2.6.4: Giả sử bệnh viện kiểm tra liệu tuổi mỡ thể cho 18 người lớn chọn ngẫu nhiên với kết sau: (a) Tính giá trị trung bình, trung bình độ lệch chuẩn tuổi và% chất béo (b) Vẽ ô vuông theo tuổi và% chất béo (c) Vẽ biểu đồ phân tán biểu đồ q-q dựa hai biến 2.6.5: Phác thảo ngắn gọn cách tính tốn khác biệt đối tượng mô tả sau đây: (a) Thuộc tính danh nghĩa (b) Thuộc tính nhị phân bất đối xứng (c) Thuộc tính số (d) Vectơ tần số kỳ hạn 2.6.6: Cho hai đối tượng đại diện liệu (22, 1, 42, 10) (20, 0, 36, 8): (a) Tính khoảng cách Euclide hai đối tượng 61 (b) Tính khoảng cách Manhattan hai đối tượng (c) Tính khoảng cách Minkowski hai đối tượng, sử dụng q = (d) Tính khoảng cách tối cao hai đối tượng 2.6.7: Trung vị biện pháp tổng thể quan trọng phân tích liệu Đề xuất số phương pháp cho xấp xỉ trung vị Phân tích độ phức tạp tương ứng chúng cài đặt tham số khác định mức độ gần giá trị thực Hơn nữa, đề xuất chiến lược heuristic để cân độ xác độ phức tạp sau áp dụng cho tất phương pháp bạn đưa 2.6.8: Điều quan trọng xác định chọn biện pháp tương tự phân tích liệu Tuy nhiên, khơng có biện pháp tương tự chủ quan thường chấp nhận Kết thay đổi tùy thuộc vào biện pháp tương tự sử dụng Tuy nhiên, biện pháp tương tự dường khác tương đương sau số biến đổi Giả sử có tập liệu chiều sau: (a) Coi liệu điểm liệu chiều Đưa điểm liệu mới, x = (1.4,1.6) làm truy vấn, xếp hạng điểm sở liệu dựa độ tương tự với truy vấn sử dụng khoảng cách Euclide, khoảng cách Manhattan, khoảng cách tối cao độ tương tự cosine (b) Bình thường hóa tập liệu để làm cho định mức điểm liệu Sử dụng khoảng cách Euclide liệu chuyển đổi để xếp hạng điểm liệu 62 2.7 Ghi thư mục Các phương pháp tóm tắt liệu mơ tả nghiên cứu tài liệu thống kê từ lâu trước máy tính khởi động Tóm tắt tốt phương pháp khai thác liệu mô tả thống kê bao gồm Freedman, Pisani Purves [FPP07] Devore [Dev95] Để trực quan hóa liệu dựa thống kê cách sử dụng ô vuông, sơ đồ lượng tử, sơ đồ lượng tử lượng tử, sơ đồ phân tán đường cong hoàng thổ, xem Cleveland [Cle93] Công việc tiên phong kỹ thuật trực quan hóa liệu mơ tả Hiển thị trực quan thơng tin định lượng [Tuf83], Thơng tin hình dung [Tuf90] Giải thích trực quan: Hình ảnh Số lượng, Bằng chứng Tường thuật [Tuf97], Tufte, ngồi Đồ họa Đồ họa Xử lý thơng tin Bertin [Ber81], Trực quan hóa liệu Cleveland [Cle93] Trực quan hóa thơng tin khai thác liệu khám phá tri thức Fayyad, Grinstein Wierse chỉnh sửa [FGW01] Các hội nghị hội nghị chuyên đề trực quan hóa bao gồm yếu tố người ACM hệ thống máy tính (CHI), Trực quan hóa Hội thảo quốc tế trực quan hóa thơng tin Nghiên cứu trực quan hóa cơng bố Giao dịch Trực quan hóa Đồ họa Máy tính, Tạp chí Thống kê Tính tốn Đồ họa, Ứng dụng Đồ họa Máy tính IEEE Nhiều giao diện người dùng đồ họa công cụ trực quan phát triển tìm thấy sản phẩm khai thác liệu khác Một số sách khai thác liệu (ví dụ: Giải pháp khai thác liệu Hampal Blaxton [WB98]) trình bày nhiều ví dụ hay ảnh chụp nhanh trực quan Đối với khảo sát kỹ thuật trực quan, xem kỹ thuật Visual Visual để khám phá sở liệu, sách Keim [Kei97] Các phép đo độ tương tự khoảng cách biến khác giới thiệu nhiều sách giáo khoa nghiên cứu phân tích cụm, bao gồm 63 Hartigan [Har75]; Jain Dubes [JD88]; Kaufman Rousseeuw [KR90]; Arabie, Hubert de Soete [AHS96] Các phương pháp kết hợp thuộc tính loại khác thành ma trận khác giới thiệu Kaufman Rousseeuw [KR90] THE END!!! 64 ... tượng liệu thường mơ tả thuộc tính Đối tượng liệu gọi mẫu, ví dụ, trường hợp, điểm liệu đối tượng Nếu đối tượng liệu lưu trữ sở liệu, chúng liệu Đó là, hàng sở liệu tương ứng với đối tượng liệu. .. trực quan hóa liệu, trực quan hóa sử dụng 39 để thể trình khai thác liệu, mẫu thu từ phương thức khai thác tương tác người dùng với liệu Khai thác liệu trực quan hướng nghiên cứu phát triển quan... tính Khai phá liệu bao gồm nhiều hướng tiếp cận Các kỹ thuật áp dụng lĩnh vực phân lớp dự báo, luật kết hợp, phân cụm phân đoạn, khai phá mẫu theo thứ tự/ theo thời gian v.v Trong đó, khai phá

Ngày đăng: 13/12/2020, 20:42

TỪ KHÓA LIÊN QUAN

w