Cùng với sự phát triển không ngừng của công nghệ thông tin, việc mua sắm thông qua các kênh bán hàng trực tuyến ngày càng trở lên phổ biến. Sự gia tăng các kênh bán lẻ trực tuyến đồng nghĩa với việc thông tin giá của nhiều loại hàng hóa và dịch vụ có thể dễ dàng tìm kiếm thông qua internet. Chính vì vậy, thu thập giá tiêu dùng từ các website bán hàng trực tuyến đã và đang trở thành phương pháp hữu ích đối với thống kê giá tiêu dùng hiện nay. Mục đích của bài viết dưới sau nhằm trình bày kinh nghiệm thực tiễn của một số cơ quan Thống kê trên thế giới trong việc khai thác và sử dụng nguồn dữ liệu Bigdata tính toán chỉ số giá tiêu dùng.
BÀI HỌC KINH NGHIỆM VỀ KHAI THÁC DỮ LIỆU LỚN PHỤC VỤ CÔNG TÁC THỐNG KÊ GIÁ TẠI MỘT SỐ QUỐC GIA Tác giả viết: Nguyễn Thị Minh Ánh Tóm tắt Cùng với phát triển khơng ngừng công nghệ thông tin, việc mua sắm thông qua kênh bán hàng trực tuyến ngày trở lên phổ biến Sự gia tăng kênh bán lẻ trực tuyến đồng nghĩa với việc thông tin giá nhiều loại hàng hóa dịch vụ dễ dàng tìm kiếm thơng qua internet Chính vậy, thu thập giá tiêu dùng từ website bán hàng trực tuyến trở thành phương pháp hữu ích thống kê giá tiêu dùng Mục đích viết sau nhằm trình bày kinh nghiệm thực tiễn số quan Thống kê giới việc khai thác sử dụng nguồn liệu Bigdata tính tốn số giá tiêu dùng Sơ lược dự án khai thác liệu lớn phục vụ tính tốn số giá tiêu dùng số quốc gia Sử dụng liệu lớn hỗ trợ cơng tác thống kê khơng cịn vấn đề nhiều quan Thống kê giới Năm 2014, theo khảo sát Hội đồng Thống kê Liên Hợp quốc tình hình triển khai dự án Bigdata quốc gia tổ chức, kết cho thấy có 24 quốc gia tổ chức quốc tế tiến hành dự án khai thác Bigdata với tổng số 57 dự áni Trong đó, số dự án Bigdata liên quan đến lĩnh vực giá tiêu dùng chiếm 38,5% tổng dự án, tiêu biểu phải kể đến Các quan Thống kê quốc gia Hàn Quốc, Hà Lan, Anh… Năm 2013, quan Thống kê Hàn Quốc tiến hành Dự án tính tốn số giá tiêu dùng online Dự án thử nghiệm thời gian tháng (9/2013-12/2013) Cho đến việc thu thập tính tốn số giá tiêu dùng online thức KOSTAT tiến hành song song với hoạt động thu thập tính số giá tiêu dùng theo phương pháp điều tra truyền thống Có thể nói, khai thác liệu tiêu dùng online kênh thông tin bổ sung quan trọng thống kê giá Hàn Quốc Cơ quan Thống kê Hà Lan tiến hành sử dụng Bigdata từ nguồn liệu internet công tác thống kê từ năm 2012 đến Một số dự án bật kể tới như: dự án sử dụng thông tin chuyến bay website hàng không (năm 2012), dự án sử dụng liệu từ Google trend thống kê sức khỏe (năm 2013), dự án sử dụng giá nhà từ website bất động sản (năm 2014), dự án BPP MIT sử dụng liệu từ website để tính số giá quốc gia, đặc biệt số nước Mỹ - Latin (năm 2012) Cơ quan Thống kê Anh (ONS) bắt đầu tiến hành dự án khai thác liệu lớn phục vụ công tác thống kê giá từ tháng năm 2014, thơng qua thí điểm trích xuất liệu giá tiêu dùng trực tuyến Một chương tình thử nghiệm thu thâp giá trực tuyến 33 nhóm mặt hàng tiêu dùng (tương ứng với 11.155 mặt hàng chi tiết) thơng qua việc trích xuất liệu bán hàng từ ba hệ thống siêu thị lớn Sainsbury, Tesco Waitrose Cơng cụ trích xuất liệu ONS sử dụng công cụ Scrapy Kết ban đầu tương đối khả quan Bình quân ngày, phần mềm tự động thu thập 7.000 giá bán lẻ Đối với lĩnh vực thống kê giá tiêu dùng, mục đích chung quốc gia sử dụng liệu bán hàng online để bổ sung cho công tác thống kê giá truyền thống Tuy nhiên nghiên cứu cách thức tiến hành khai thác liệu, tác giả nhận thấy quốc gia có điểm mạnh riêng Chẳng hạn quan Thống kê Hàn Quốc, KOSTAT đưa quy trình khai thác xử lý liệu bigdata cụ thể quan Thống kê Anh cho ta hiểu rõ phương pháp với tên gọi CLIP giúp xử lý liệu bigdata Phần viết tác giả đưa kinh nghiệm chi tiết hai quan Thống kê hai quốc gia Hàn Quốc Anh Quy trình khai thác liệu Bigdata phục vụ thống kê giá quan Thống kê Hàn Quốc Nền tảng công nghệ xử lý Bigdata Hàn Quốc sử dụng tảng công nghệ Bigdata (Bigdata Platform) việc trích xuất xử lý liệu Bigdata bao gồm khối chức năng: trích xuất liệu, kiểm sốt chất lượng, phân tích tính tốn, hiển thị hóa liệu Hình 1:Nền tảng cơng nghệ xử lý Bigdata quan Thống kê Hàn Quốc Nguồn: The Kostat Bigdata System, 황 황 황,28.11.2015 Hoạt động công nghệ sau: Dữ liệu đầu vào từ trang Web, thơng qua hệ thống trích xuất liệu đưa vào tảng xử lý Bigdata Trước tiên liệu website hệ thống thu thập liệu (Data Collection System) xử lý Tại đây, hoạt động trích xuất liệu, phân tích cú pháp, lưu trữ khối liệu thô tiến hành Tiếp theo, hệ thống liên kết liệu (Data Mapping System) tiến hành liên kết liệu thô thu thập với tiêu chuẩn có sẵn sau xử lý, tính tốn hàm tốn học cho liệu cần thiết Sau có liệu cần thiết, quy trình lưu trữ diễn hệ thống Data Storage System Ở bước hệ thống tiến hành lưu trữ liệu thô thu thập, đồng thời tiến hành lưu trữ kết qủa xử lý theo hàm toán học Kết thúc q trình trích xuất, liệu tiếp tục xử lý hệ thống quản lý chung thực cơng việc phân tích liệu (sử dụng phần mềm thống kê phát lọc giá trị trùng lặp, giá trị ngoại lai, tính toán số giá tiêu dùng phương pháp BPP) Cuối kết tính tốn hiển thị đưa đến người dùng tin Quy trình sản xuất số giá online Hàn Quốc Quy trình tiến hành sản xuất số giá online Hàn Quốc thực thông qua bước: Thu thập, Phân tích cú pháp, Lưu trữ, Kiểm sốt chất lượng, Tính tốn, Liên kế, Hiển thị Nội dung cụ thể bước sau: Bước 1: Thu thập Mục tiêu thu thập dự án có giá mặt hàng tiêu dùng danh mục hàng hóa tiêu dùng, từ theo dõi biến động giá mặt hàng tính tốn số giá tiêu dùng Công tác thu thập liệu quan chuyên trách không thuộc quan Thống kê Hàn Quốc tiến hành Trước hết để thu thập liệu tiêu dùng trực tuyến, quan thu thập xây dựng danh sách website trích xuất giá tiêu dùng Địa danh sách trang web thu thập lựa chọn phải thỏa mãn theo tiêu chí: + Website có giao bán mặt hàng cần thu thập + Website có sẵn mặt hàng thay trường hợp thông tin bị khuyết thiếu (missing) tiến hành thu thập; + Địa web thu thập liệu thu thập cân nhắc phù hợp với tảng công nghệ thu thập sử dụng trích xuất liệu; + Website ổn định có tính phổ biến Sau tiến hành phân tích chọn lọc, quan thu thập lựa chọn danh mục gồm 16 website để tiến hành thu thập liệu phân theo lĩnh vực Dưới bảng danh mục website bán hàng chi tiết tiến hành thu thập: Danh mục mặt hàng thu thập địa website trích xuất liệu Loại mặt hàng Tên website Nông nghiệp/ thịt/ hải sản Naver Shopping website khác Điện dân dụng Naver Shopping website khác Sách Yes24 Sách giáo khoa Kyohak Publishing, Online Shopping Mall Thiết bị công nghệ, ô tô Danawa Xăng, dầu Korea National Oil Corp Khác Naver Shopping Nguồn: The KOSTAT Bigdata System, 황 황 황, 2015 Trên sở danh mục website có, quan chuyên trách tiến hành trích xuất liệu giá tiêu dùng mặt hàng giao bán việc sử dụng cơng nghệ trích xuất liệu Web Crawling hàm truy vấn API Dữ liệu thu thơng tin sản phẩm giao bán bao gồm liệu có cấu trúc (giá thành, mã sản phẩm, phí vận chuyển, đơn vị tính…), liệu phi cấu trúc (tên sản phẩm, đặc tính, hình ảnh mẫu mã sản phẩm ) Kết dự án thu thập thông tin giá bán 299 sản phẩm thuộc rổ hàng hóa tiêu dùng với tần suất 1.3 triệu ghi/ngày Trong phương pháp thu thập giá truyền thống Hàn Quốc tiến hành thu thập giá hàng tháng 481 mặt hàng thuộc rổ hàng hóa tiêu dùng 25.946 điểm điều tra cho kết 34.308 thơng tin giá rõ ràng phương pháp thu thập liệu giá online có nhiều ưu điểm vượt trội Ưu điểm phương pháp thể ba điểm Thứ tần suất thu thập phương pháp trích xuất liệu giá online (hàng ngày) cao so với thu thập truyền thống (hàng tháng) Thứ hai số lượng thông tin giá thu thập phương pháp trích xuất liệu lớn nhiều số lượng thông tin giá thu thập theo phương pháp truyền thống (hơn 1000 lần) Thứ ba thu thập theo phương pháp truyền thống tốn nhiều chi phí cho cơng tác điều tra lấy phiếu điều tra viên với phương pháp trích xuất liệu quan Thống kê hồn tồn khơng cần tiêu cho hoạt động Bước 2: Phân tích cú pháp Dữ liệu thu thập từ website ban đầu khối liệu thơ, có nghĩa khối liệu chứa thơng tin cần thiết phục vụ mục đích người dùng giá bán, phần trăm khuyến sản phẩm,… thơng tin bên lề (như hình ảnh quảng cáo, địa nhà cung cấp, xuất xứ, bảng giới thiệu sản phẩm…) Chẳng hạn mặt hàng Tivi led Dữ liệu thô sau thu thập gồm có thơng tin như: Hãng sản xuất, kích thước Ti vi, phần trăm khuyến mãi, hình ảnh Tivi, mã Tivi, giá bán, chi phí vận chuyển (tùy trường hợp có khơng)… Trên thực tế thơng tin thu có số thơng tin hữu ích cho việc tính số giá tiêu dùng loại mặt hàng, tên sản phẩm, mã sản phẩm, giá, phí vận chuyển,… Việc phân tích cú pháp giúp xác định thông tin cần thiết khối liệu thô mặt hàng tiến hành thu thập thơng tin sau luồng tin hệ thống tự động lưu trữ lại Hình ảnh liệu phân tích cú pháp mặt hàng Ti vi led Nguồn: A practice on Producing Daily online Price Index with a BPP, Ms.Jungim AHN, Kostat Bước 3: Lưu trữ Bước tiến hành lưu trữ liệu thu thập Hệ thống thống lưu trữ xử lý liệu phân tán HDFS tiến hành lưu trữ thơng tin trích xuất từ khối liệu ban đầu đồng thời lưu trữ liệu bổ sung khơng có danh mục nội dung cần thu thập có giá trị q trình phân tích Ở đây, ta nhận thấy điểm khác biệt lưu trữ thông tin điều tra truyền thống với lưu trữ thông tin khai thác Bigdata thứ tự cơng tác lưu trữ quy trình Đối với liệu truyền thống bước lưu trữ thông tin bước sau qua phổ biến thông tin Tuy nhiên liệu lớn bước lưu trữ thơng tin tiến hành truy cập vào nguồn liệu thu thập Công việc sau lưu trữ công tác quản lý chất lượng liệu thu thập Bước 4: Quản lý chất lượng Quản lý chất lượng liệu bao gồm hoạt động: Kiểm tra ngoại lệ: Nếu giá mặt hàng xuất ngày hôm qua, không tồn ngày hôm sử dụng giá ngày hơm qua Kiểm tra trùng lặp: Lọc liệu mã sản phẩm (ID) tương đồng với mã trang web giống hệt Kiểm tra giới hạn học: Lọc liệu giá trị vượt giá trị giới hạn cố định (tối đa, tối thiểu) Kiểm tra bước: Lọc liệu cách kiểm tra giá trị ngoại lai Kiểm tra tính quán nội bộ: tiếp tục lọc liệu giá trị thu khác xa với giá trị trung bình Kiểm tra giá trị trung vị: Lọc liệu bất thường thay đổi đột ngột so với giá ổn định khứ Bước 5: Tính tốn số giá tiêu dùng hàng ngày Kết thu thập, trích xuất quản lý liệu cho liệu theo yêu cầu người dùng Bước sử dụng công cụ phần mềm thống kê (trường hợp quan Thống kê Hàn Quốc dùng phần mềm R) để tính tốn số giá tiêu dùng.Phương pháp Kostat sử dụng để tính số giá tiêu dùng online phương pháp BPP (Billion Price Project) Cơng thức tính số BPP: j t ,t 1 R pi n �( i t ) j ,t pt 1 i Trong đó: Rt j,t 1 pti số BPP loại sản phẩm j giá mặt hàng dịch vụ đại diện thứ i thời điểm t pti1 giá mặt hàng dịch vụ đại diện thứ i thời điểm t-1 nj,t số lượng sản phẩm loại j có mẫu kỳ t Bước 6: Liên kết Sau kết thúc bước 5, thông qua công cụ API (Application Program Interface), kết liên kết hệ thống hệ thống xử lý, kho lưu trữ RDB Kostat hệ thống lưu trữ xử lý liệu phân tán HDFS/Hive Bigdata Vể phía Kostat, liệu giá nhân viên Kostat thu thập xử lý theo phương pháp truyền thống cho kết số giá tiêu dùng lưu trữ kho lưu trữ liệu RDB Tại đây, thông qua công cụ API, liệu giá sản phẩm, số giá tiêu dùng đồng hóa với hệ thống xử lý liệu phân tán HDFS/Hive Ngược lại, công cụ API hỗ trợ hệ thống Bigdata liên kết ngược lại với BPP số giá khởi tạo MIT (một trường kinh tế Anh Quốc thuộc đại học Cambridge) tổng hợp thông tin giá từ kênh bán lẻ toàn giới hệ thống Kostat việc cung cấp kết phân tích cho hệ thống Kostat Bước 7: Hiển thị kết tính tốn Kết hiển thị thơng qua bảng biểu, đồ thị, báo cáo công bố trực tiếp trang web quan thống kê KOSTAT, hay báo cáo hội thảo Cho đến nay, việc tiến hàng thu thập giá tiêu dùng online tiếp tục KOSTAT trì tiến hành song song với điều tra truyền thống Bên cạnh báo cáo hàng tháng số giá tiêu dùng theo phương pháp truyền thống, KOSTAT công bố báo cáo giá tiêu dùng online website thức Trên quy trình khai thác tảng công nghệ quan Thống kê Hàn Quốc sử dụng để trích xuất xử lý liệu giá bán hàng online, phục vụ công tác tính tốn số giá tiêu dùng Dự án khai thác Hàn Quốc học kinh nghiệm hữu ích Việt Nam, đặc biệt thời đại công nghệ việc mua bán online Việt Nam vô sôi động Rõ ràng phương pháp thu thập giá tiêu dùng online có ưu điểm bật tần suất thu thập cao, khối lượng thông tin thu thập lớn, thu thập thông tin việc trích xuất liệu tiết kiệm nhiều chi phí cho cơng tác điều tra thực tế Tuy nhiên việc trích xuất liệu cịn nhiều hạn chế để chọn lựa mặt hàng đại diện thuộc rổ hàng hóa, việc mặt hàng xuất biến khỏi kho hàng thường cao so với liệu giá thu thập theo phương pháp truyền thống Vấn đề đặc biệt quan trọng tính số giá tiêu dùng quy trình tính tốn u cầu mặt hàng phải đảm bảo độ dài chuỗi thời gian việc mặt hàng thường xuất biến khỏi thị trường đồng nghĩa với việc số loại mặt hàng có kích thước mẫu nhỏ Vậy tình đặt việc xử lý khối liệu giá trích xuất từ website để khắc phục thách thức kể trên? Để trả lời câu hỏi này, xin đưa kinh nghiệm quan Thống kê Anh việc xây dựng phương pháp cụm tập liệu theo số giá (clustering large datasets into price indices (CLIP)) Phương pháp xử lý Bigdata CLIP phát triển quan thống kê Anh Trong trình thử nghiệm thu thập liệu giá bán hàng online tính tốn số giá tiêu dùng, quan Thống kê Anh nhận thấy điểm khác biệt phương pháp thu thập liệu truyền thống phương pháp thu thập nguồn liệu thay liệu trích xuất từ web việc chọn mẫu mặt hàng đại diện Dữ liệu trích xuất khơng khơng chọn mẫu cấp mặt hàng nào, theo nguyên lý liệu có khả thu thập từ website từ cửa hàng online Điều giúp tăng độ bao phủ mặt hàng dịch vụ Tuy nhiên thu thập liệu từ trang web bán hàng nên việc lựa chọn mặt hàng chi tiết thuộc rổ hàng đại diện gặp nhiều khó khăn thiếu thông tin sản phẩm thực người tiêu dùng mua Một điểm khác biệt khác biệt phương pháp xử lý liệu thu thập theo truyền thống liệu trích xuất xuất biến mặt hàng khỏi thị trường Ngồi ra, khơng thể xác định quyền số chi tiêu phương pháp thu thập liệu từ kênh bán hàng online khơng có thơng tin tiêu dùng chi tiết sản phẩm Phân cụm tập liệu lớn theo số giá (CLIP) phát triển thành phương pháp luận riêng cho nguồn liệu thay (dữ liệu thu thập thông qua việc trích xuất với phạm vi bao phủ liệu lớn so với phương pháp truyền thống ONS sử dụng trích xuất từ web từ tháng năm 2014 đến tháng năm 2016) Mục đích việc phát triển phương pháp CLIP giải toán biên soạn số giá tiêu dùng sử dụng liệu có biến động cao (các sản phẩm có thị trường thời gian ngắn xuất rời khỏi thị trường thường xuyên) Cách tiếp cận Nguyên lý phương pháp CLIP giả định người tiêu dùng mua sản phẩm có thực thay sản phẩm có quảng cáo mà khơng có hàng bán để đảm bảo thay đổi giá sản phẩm theo thời gian phản ánh thay đổi số liệu thống kê giá Cũng có khách hàng ln mua loại sản phẩm tâm lý trung thành với thương hiệu Tuy nhiên, người tiêu dùng khác khơng mua dịng sản phẩm thời điểm khác Sản phẩm xác phụ thuộc vào số yếu tố như: giá sản phẩm, sản phẩm có sẵn, chất lượng sản phẩm đó, sản phẩm cung cấp Chẳng hạn, người tiêu dùng muốn mua nho Tuần trước, ngày họ mua 500g nho đỏ Nhưng sang tuần sau, nho đỏ hết hàng nên người tiêu dùng mua 500g nho xanh với giá tương đương Đối với người tiêu dùng, điều xem giao dịch mua Vì hai sản phẩm mà người tiêu dùng mua phù hợp với yêu cầu xem nho xanh nhỏ đỏ hai sản phẩm hốn đổi cho Một ví dụ liệu web trích xuất ngày chọn ngẫu nhiên, có 674 giá thu thập cho chai rượu vang trắng từ nhà bán lẻ trực tuyến Nếu người tiêu dùng mua chai rượu vang trắng họ cần phải chọn từ 674 loại giá tùy theo nhu cầu họ Ví dụ: người tiêu dung muốn mua chai (75cl) rượu vang trắng phạm vi giá từ 4£ đến 6£, có 113 sản phẩm lựa chọn Số lượng, loại giá sản phẩm có sẵn có khả thay đổi theo thời gian ảnh hưởng đến sản phẩm mà người tiêu dùng mua Điều dẫn đến việc người tiêu dung chọn lựa sản phẩm thay tương tự sản phẩm họ cần mua mà phù hợp với nhu cầu họ, bao gồm sản phẩm mắt thị trường sản phẩm có mặt thị trường phù hợp với nhu cầu Cách tiếp cận quan trọng để xác định xem liệu địa bán hàng online có đáp ứng nguồn liệu thay hay không Điều giúp cho việc giải vấn đề xuất biến sản phẩm khỏi thị trường trở lên dễ dàng đồng thời điều chỉnh lượng lớn sản phẩm tiêu dùng Nguyên lý Đối với phương pháp tính toán số giá tiêu dùng truyền thống, việc phân loại mục số giá tiêu dùng CPI dựa theo hệ thống phân loại quốc tế COICOP (phân loại tiêu dùng cá nhân theo mục đích) Tương tự, việc tính tốn số giá cho liệu thu thập thơng qua kênh trích xuất liệu sử dụng hệ thống phân loại quốc tế COICOP quyền số tương tự CPI Điều giúp giảm thiểu khó khăn việc thu thập thơng tin trì tính qn hai phương pháp Khi số cấp thấp tính, thơng tin quyền số sử dụng để tổng hợp số cấp cao hơn Một đặc điểm phương pháp CLIP phương pháp áp dụng cấp phân loại thấp hệ thống phân loại quốc tế COICOP Với mục, mặt hàng nhóm lại với thành nhóm tương tự dựa theo thơng tin trích xuất từ trang web (giá, tên sản phẩm, cửa hàng, điểm đánh dấu giảm giá) Dưới hình ảnh minh họa cho cấu trúc phân loại sản phẩm hệ thống phân loại quốc tế COICOP, ví dụ mạt hàng bánh mỳ ngũ cốc Hình: Hệ thống phân loại quốc tế COICOP mã 0.1.1.1 Bánh mì ngũ cốc Như vậy, nguyên lý phương pháp CLIP đo lường thay đổi giá theo thời gian cụm Để trì rổ cố định, cụm hình thành thiết lập cho tháng sở tháng nhằm thống với tháng sở tính tốn CPI Anh Sau tiếp tục hình thành cụm tương tự cho khoảng thời gian năm (trong trường hợp hàng tháng) Điều giúp giải vấn đề sản phẩm thường xuyên xuất biến liệu Nội dung phương pháp CLIP CLIP sử dụng rổ cố định phân loại dựa bảng phân loại COICOP Phương pháp thực thông qua bước sau: Hình : Các bước ban phương pháp CLIP Bước 1: Tạo cụm tương tự kỳ sở Bước 2: Xác định quy tắc phân cụm kỳ sở Bước 3: áp dụng cụm cho giai đoạn thời gian Bước 4: so sánh cụm theo thời gian Bước 5: Tổng hợp cụm Bước 1: Tạo cụm tương tự tháng sở Trong giai đoạn sở, liệu cấp sử dụng để tạo thành cụm tương đồng Giá sản phẩm kỳ sở tổng hợp việc tính trung bình nhân Tiếp theo sử dụng kỹ thuật học máy để phân cụm nhóm sản phẩm tương đồng Sử dụng K-mean, phân cấp, thuật toán phối hợp agglomerative and Gaussian số tùy chọn có thể.3 Trong trường hợp ONS sử dụng phương pháp nhóm cụm trung bình Nhìn chung, nhóm cụm trung bình kỹ thuật phân tích khơng gian phi tham số Phương pháp sử dụng hàm ước lượng mật độ Kernel để ước lượng phân bổ tập liệu Sau áp quyền số hàm Kernel cho điểm liệu lặp lại thao tác đạt mức tối đa ước lượng mật độ Kernel gần ONS sử dụng phương pháp nhóm cụm trung bình hàm có khả phân cụm tập liệu không gian lớn mà khơng cần phải biết trước số cụm hình dạng cụm Điều quan trọng phân tích liệu bigdata giúp giảm thiểu khối lượng cơng việc giúp cho việc tính tốn nhanh chóng Hơn khơng u cầu thồng tin số lượng loại cụm phân tích nên giúp đơn giản giảm chệch giỏ hang cố định Cách tiếp cận linh hoạt hình dạng cụm khơng bị giới hạn Sau sử dụng phương pháp nhóm cụm trung bình kết sản phẩm phân vào cụm tương ứng Ví dụ, mặt hàng “Ngũ cốc ăn sáng, đường / sô cô la tráng” năm 2015, có giá sản phẩm thu thập tháng sở (tháng năm 2015) cho 137 sản phẩm độc lập Sự dịch chuyển trung bình nhóm chúng thành nhóm gán số cụm từ đến cho sản phẩm Bước 2: Xác định quy tắc phân cụm kỳ sở Các cụm tương đồng sản phẩm xây dựng bước xây dựng cho tháng so sánh, thay đổi giá cụm cố định tính theo thời gian Tuy nhiên, nhìn chung phương pháp phân cụm, bao gồm phương pháp nhóm cụm trung bình thiết kế để cập nhật hình thành cụm tập liệu Điều có nghĩa cụm gắn với liệu, trái ngược với tình đây, nơi liệu phải lắp vào cụm đặt cho có quán theo thời gian Để xếp liệu vào cụm cần hiểu cấu trúc cụm giai đoạn sở cấu trúc giống áp dụng cho kỳ khác Việc thực cách xem xét quy tắc mà từ phép gán cụm chuyển dịch trung bình tạo cách sử dụng kỹ thuật học máy giám sát: phân loại định Cây định dạng tiếp cận phi tham số để phân tổ (hoặc hồi quy) Cây định dự đoán phân lớp sản phẩm sử dụng quy tắc định Các quy tắc tạo cách sử dụng liệu đào tạo (training data) loại liệu mà ta hiểu đặc điểm phân loại liệu Các đặc điểm sử dụng để xây dựng định tên sản phẩm, cửa hàng điểm đánh dấu giảm giá Giá chưa sử dụng để phân bổ sản phẩm cho cụm Điều sản phẩm phân loại theo giá, chuyển động giá không đại diện cho dịch chuyển đầy đủ sản phẩm chuyển sang cụm khác thay giá tổng thể cụm thay đổi Biến giảm giá sử dụng để phân bổ sản phẩm biến cho phép sản phẩm giảm giá chuyển sang cụm khác (nghĩa là, cho phép người tiêu dùng chọn sản phẩm chuyển sang phạm vi giá họ) Giả định yêu cầu có thêm thử nghiệm Trong trường hợp ví dụ "ngũ cốc ăn sáng 1, đường / sô cô la tráng" cho năm 2015, trung bình phân cụm chuyển dịch giai đoạn sở (tháng năm 2015) sử dụng làm liệu đào tạo Điều cung cấp thông tin cách đặc tính liệu có liên quan đến phép gán cụm xác định trước (Bước 1) Một tập hợp quy tắc đơn giản xác định để gán sản phẩm cho cụm định Ví dụ: tên sản phẩm biến gán số (“Product_number”) dựa mức độ tương tự tên danh mục cấp mục Số sau sử dụng phần thuật toán để gán sản phẩm vào cụm Nếu sản phẩm vào thị trường, gán cho cụm dựa tiêu chí giống với tên danh mục cấp tổng thể, cửa hàng bán sản phẩm liệu sản phẩm đố có giảm giá hay khơng.Kết việc áp dụng định cấu trúc mục Dưới ví dụ minh họa định cho mục "Ngũ cốc ăn sáng 1, đường / sô cô la trắng" áp dụng cho liệu từ tháng năm 2015 Hình: Cây phân loại định với mặt hàng Ngũ cốc ăn sáng 1, đường /sôcôla trắng Cây định có cấu trúc giống sơ đồ; hộp (node) chứa đầy đủ liệu 137 sản phẩm độc lập Đối với mặt hàng này, sản phẩm sau chia thành dựa tiêu chí “Giảm giá