Khai thác dữ liệu giao dịch để biên soạn chỉ số giá tiêu dùng kinh nghiệm của cơ quan thống kê quốc gia Úc - Nguyễn Văn Thụy

Tài liệu Khai thác dữ liệu giao dịch để biên soạn chỉ số giá tiêu dùng kinh nghiệm của cơ quan thống kê quốc gia Úc - Nguyễn Văn Thụy: THỐNG KÊ QUỐC TẾ VÀ HỘI NHẬP SỐ 03 – 2017 31 KHAI THÁC DỮ LIỆU GIAO DỊCH ĐỂ BIÊN SOẠN CHỈ SỐ GIÁ TIÊU DÙNG KINH NGHIỆM CỦA CƠ QUAN THỐNG KÊ QUỐC GIA ÚC ThS. Nguyễn Văn Thụy* Tóm tắt: Dữ liệu lớn (Big data) đã và đang đem lại nhiều tiềm năng to lớn đối với thống kê nhà nước. Thực tế cho thấy, việc ứng dụng khai thác nguồn dữ liệu Big data để sản xuất số liệu thống kê sẽ kịp thời hơn và giải quyết được nhiều vấn đề liên quan hơn so với nguồn dữ liệu truyền thống, như: giảm thiểu gánh nặng về thu thập thông tin, đặc biệt là gánh nặng điều tra thu thập thông tin đối với người trả lời, khả năng đáp ứng nhu cầu thông tin của người sử dụng. Cơ quan Thống kê quốc gia Úc (ABS) đã sử dụng nguồn dữ liệu giao dịch để tính toán một số chỉ tiêu thống kê, trong đó có Chỉ số giá tiêu dùng (CPI). Bài viết này giới thiệu một số kinh nghiệm của ABS về khai thác dữ liệu giao dịch để biên soạn CPI. 1. Lời giới thiệu Big data có nhiều loại và hình thức khác nhau như dữ liệu vệ ...

pdf9 trang | Chia sẻ: quangot475 | Lượt xem: 388 | Lượt tải: 0download
Bạn đang xem nội dung tài liệu Khai thác dữ liệu giao dịch để biên soạn chỉ số giá tiêu dùng kinh nghiệm của cơ quan thống kê quốc gia Úc - Nguyễn Văn Thụy, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
THỐNG KÊ QUỐC TẾ VÀ HỘI NHẬP SỐ 03 – 2017 31 KHAI THÁC DỮ LIỆU GIAO DỊCH ĐỂ BIÊN SOẠN CHỈ SỐ GIÁ TIÊU DÙNG KINH NGHIỆM CỦA CƠ QUAN THỐNG KÊ QUỐC GIA ÚC ThS. Nguyễn Văn Thụy* Tóm tắt: Dữ liệu lớn (Big data) đã và đang đem lại nhiều tiềm năng to lớn đối với thống kê nhà nước. Thực tế cho thấy, việc ứng dụng khai thác nguồn dữ liệu Big data để sản xuất số liệu thống kê sẽ kịp thời hơn và giải quyết được nhiều vấn đề liên quan hơn so với nguồn dữ liệu truyền thống, như: giảm thiểu gánh nặng về thu thập thông tin, đặc biệt là gánh nặng điều tra thu thập thông tin đối với người trả lời, khả năng đáp ứng nhu cầu thông tin của người sử dụng. Cơ quan Thống kê quốc gia Úc (ABS) đã sử dụng nguồn dữ liệu giao dịch để tính toán một số chỉ tiêu thống kê, trong đó có Chỉ số giá tiêu dùng (CPI). Bài viết này giới thiệu một số kinh nghiệm của ABS về khai thác dữ liệu giao dịch để biên soạn CPI. 1. Lời giới thiệu Big data có nhiều loại và hình thức khác nhau như dữ liệu vệ tinh, dữ liệu di động, dữ liệu truyền thông xã hội, dữ liệu giao dịch,... Dữ liệu giao dịch được khai thác để biên soạn các thông tin thống kê kinh tế, trong đó có chỉ số giá tiêu dùng. Thông tin của dữ liệu giao dịch thu thập được từ các nhà bán lẻ chủ yếu thông qua các giao dịch điện tử về mua bán hàng hóa tại thời điểm giao dịch (mua bán). Dữ liệu giao dịch bao gồm các thông tin chi tiết về doanh nghiệp như: Tên doanh nghiệp, địa điểm giao dịch, ngày tháng, số lượng, giá cả và doanh thu của hàng hóa được giao dịch... Dữ liệu này được dùng để ước lượng giá trị đơn vị (giá đơn vị) và sự biến động về giá của từng sản phẩm hàng hóa, đồng thời ước lượng mức độ chi tiêu dùng đối với từng mặt hàng của * Phó Viện trưởng Viện Khoa học Thống kê doanh nghiệp. Vì vậy dữ liệu giao dịch là một nguồn thông tin rất đa dạng và phong phú đối với công tác thống kê, đặc biệt là thống kê nhà nước. Tiếp cận và truy cập được các files (tập tin) dữ liệu điện tử sẽ giúp các cơ quan thống kê giảm thiểu được chi phí thu thập thông tin cũng như giảm bớt được gánh nặng cho người cung cấp thông tin trong quá trình thu thập thông tin thống kê. Điều này đặc biệt có ý nghĩa trong việc nâng cao tính đại diện của mẫu trong rổ hàng hóa tính CPI. Dữ liệu giao dịch sẽ cho phép khắc phục được những nhược điểm về khái niệm cũng như sự thay đổi về giá trong quá trình xác định giá của hàng hóa được giao dịch. Về mặt lý thuyết, để xây dựng và tính toán được chỉ số giá tiêu dùng một cách chính xác và hiệu quả, các nhà thống kê giá phải ghi chép tất cả các mức giá của từng loại Thống kê Quốc tế và Hội nhập 32 hàng hóa và dịch vụ tại thời điểm mà ngườ dùng mua. Do đó, việc sử dụng dữ liệu giao d sẽ thu thập được thông tin của nhiều hàng hóa c nhiều nhà bán lẻ hơn so với dữ liệu thu thập đư từ phương pháp truyền thống điều tra tại địa bàn. Hơn nữa, dữ liệu giao dịch chứa nhiều thông tin v số lượng và doanh thu của hàng hóa được giao dịch, nên có thể được sử dụng để tính toán m chỉ tiêu thống kê khác như: Chỉ số giá bán lẻ, m lưu chuyển hàng hóa bán lẻ,... ABS bắt đầu thu thập các dữ liệu giao d của các nhà cung cấp từ tháng 12 năm 2011 và thực hiện nhiều công việc liên quan để tính ch giá thông qua việc sử dụng các thông tin về giá và mức chi tiêu của hàng hóa. ABS đã sử phương pháp lấy mẫu trực tiếp từ dữ liệu giao d để thay thế cho việc lấy mẫu điều tra tại địa bàn. Từ ngày 1 tháng 1 năm 2014, ABS lấy mẫu đ thập thông tin về giá của khoảng 20.000 mặt hàng hóa thay thế cho các mặt hàng trong rổ hàng hóa của CPI. Đồng thời, ABS đã phân tích và ch minh được các thông tin về giá thu thập được t liệu giao dịch hoàn toàn phù hợp với việc thông tin phân tích thu thập được từ điều tra tại địa bàn. dụ, Hình 1 cho thấy chỉ số giá của nhóm hàng thuốc lá và đồ uống có cồn được thu thập và tính toán từ tháng 9/2012 đến tháng 3/2016. Phân tích số liệu trong giai đoạn từ 9/2012 đến tháng 3/2016 cho thấy, hai phương pháp thu thập dữ liệu (truyền thống và dữ liệu giao dịch) cho kết quả tương đối giống nhau: Chỉ s của nhóm hàng thuốc lá và đồ uống có cồn tăng của 2 phương pháp này tăng lần lượt là 23,6% và 23,9% (chênh lệch không đáng kể 0,3% trong giai đoạn 3 năm). Đồng thời, xu hướng chỉ số giá c nhóm hàng này cũng tăng cùng với xu hướng c chỉ số giá chung CPI (22,5%). Khai thác dữ liệu giao dịch SỐ 03 – 201 i tiêu ịch ủa ợc ề ột số ức ịch ỉ số dụng ịch ể thu ứng ừ dữ Ví tháng ố giá ủa ủa Hình 1: Chỉ số giá của nhóm hàng thuốc lá và đồ uống có cồn1 Ghi chú: Chỉ số giá chung (CPI) Chỉ số giá của nhóm thuốc lá và đồ uống có cồn thu thập từ phương pháp truyền thố Chỉ số giá của nhóm thuốc lá và đồ uống có cồn thu thập từ dữ liệu giao dịch 2. Những thách thức trong quá trình khai thác và ứng dụng dữ liệu giao dịch để biên so chỉ số giá tiêu dùng Như đã trình bày ở trên, sử dụng dữ giao dịch để tổng hợp và biên soạn chỉ số giá tiêu dùng đã nhận được sự quan tâm đáng kể của các cơ quan thống kê quốc gia trên thế giới. Tuy nhiên, do đặc điểm của dữ liệu giao dịch có khối lư rất lớn, tốc độ cập nhật thông tin cao, vì vậy vi chọn lọc thông tin để tính toán CPI gặp nhiều khó khăn và thách thức. Các phương pháp nghiên c ứng dụng để tính CPI cần nghiên cứu kỹ và đư quốc tế công nhận. Dưới đây là một số khó khăn và thách thức, cũng như kinh nghiệm xử lý c ABS trong quá trình biên soạn CPI. 1 Nguồn: Australia report 2016, Making greater use of transactions data to compile the Consumer price Index, Australia. 7 ng ạn liệu ợng ệc ứu ợc ủa Thống kê Quốc tế và Hội nhập Khai thác dữ liệu giao dịch SỐ 03 – 2017 33 (1) Đảm bảo tính an toàn của dữ liệu Một trong những thách thức lớn nhất của ứng dụng dữ liệu giao dịch để biên soạn CPI là dữ liệu giao dịch phải được liên tục và kịp thời. Để giải quyết vấn đề này, nhiều cơ quan thống kê quốc gia phải mua dữ liệu từ các công ty nghiên cứu thị trường. Ở một số nước, pháp luật cho phép các cơ quan thống kê quốc gia có quyền thu thập các thông tin từ các doanh nghiệp để phục vụ cho mục đích thống kê. Ở Australia, theo quy định của pháp luật, ABS là cơ quan thống kê quốc gia có quyền truy cập vào các dữ liệu giao dịch để thu thập và khai thác thông tin từ các doanh nghiệp. Tuy nhiên, để đảm bảo an toàn, ABS luôn phải chứng minh mục đích khai thác dữ liệu phục vụ công tác thống kê và đàm phán với nhà cung cấp về các điều khoản, nguyên tắc khai thác và cung cấp dữ liệu. Việc đảm bảo an toàn của dữ liệu bao gồm: Dữ liệu không bị phá hủy hay bị truy cập trái phép; dữ liệu phải được bảo mật; dữ liệu luôn được kiểm soát trong cả quá trình sử dụng. Để đảm bảo quá trình quản lý dữ liệu được an toàn, tùy từng đặc tính của dữ liệu, ABS chia dữ liệu thành các nhóm: - Dữ liệu được cất giữ trong các thiết bị lưu trữ chuyên dụng (DAR: Data At-Rest), nhưng có thể được trích xuất ra bộ nhớ tạm thời bất cứ khi nào có yêu cầu. - Dữ liệu đang được xử lý (DIM: Data In- Motion). - Dữ liệu đang được sử dụng (DIU: Data In- Use); Bất cứ người sử dụng nào muốn truy cập vào dữ liệu, đặc biệt là dữ liệu đang sử dụng DIU, đều phải được cấp quyền truy cập. Đồng thời, ABS đã xây dựng các quy định về chính sách đảm bảo an toàn dữ liệu, trong đó quy định quyền cho phép truy cập và quyền bảo vệ dữ liệu; quyền cập nhật, hiệu đính và sửa chữa dữ liệu,... (2) Quản lý và phân loại dữ liệu Quá trình tiếp nhận và quản lý các dữ liệu giao dịch yêu cầu phải có các cơ sở lưu trữ kỹ thuật. ABS đã nhìn thấy được các cơ hội để xây dựng và phát triển các cơ sở lưu trữ dữ liệu để có thể dễ dàng sử dụng và quản lý nhiều nguồn dữ liệu Big data với quan điểm “một lần thu thập, sử dụng nhiều lần”. Tuy nhiên, việc này đồng nghĩa với việc chi phí đầu tư ban đầu lớn, chi phí cho quá trình vận hành để lưu trữ và duy trì và đảm bảo sự an toàn của các files dữ liệu cũng tương đối cao. Mã hóa và phân loại dữ liệu: Thông thường, để quản lý các sản phẩm, doanh nghiệp thường sử dụng mã vạch để nhận dạng và phân biệt các loại sản phẩm phục vụ công tác quản lý của doanh nghiệp. Tuy nhiên, mã vạch lại quá chi tiết đối với mục đích thống kê. Một thay đổi rất nhỏ của một số bản ghi hoặc một số thông tin mặc dù không ảnh hưởng đến lợi ích của người tiêu dùng, nhưng cũng dẫn đến làm thay đổi mã vạch. Ví dụ, nếu một nguồn cung cấp dữ liệu của một cơ sở nào đó có sự thay đổi từ nước này sang nước khác sẽ dẫn đến việc thay đổi mã vạch của hàng hóa. Hay một số nhà bán lẻ cung cấp các sản phẩm có cùng các thông số kỹ thuật từ các nhà sản xuất khác nhau, cũng có thể dẫn đến các mã vạch khác nhau. Do đó, ABS không sử dụng mã vạch của sản phẩm để phân loại thông tin đối với dữ liệu giao dịch. Thay vào đó, ABS sử dụng mã quản lý nội bộ riêng, gọi là mã SKUs (Stock Keeping Units). Các mã SKUs nhóm các sản phẩm giống nhau lại thành một nhóm, mặc dù chúng có các mã vạch (barcode) khác nhau. Thống kê Quốc tế và Hội nhập Khai thác dữ liệu giao dịch 34 SỐ 03 – 2017 Một trở ngại chính đối với mã hóa dữ liệu là sắp xếp các nhóm sản phẩm theo mã SKUs để phù hợp với các danh mục hàng hóa đã được phân loại trong rổ hàng hóa CPI. Mã SKUs không phù hợp với các phân ngành thống kê. Đây là một quy trình đặc biệt, cần có chuyên môn sâu rộng để sắp xếp và duy trì dữ liệu do khối lượng các mã SKUs rất lớn và thường xuyên thay đổi. Ví dụ: Dữ liệu giao dịch được cung cấp cho ABS từ các nhà bán lẻ lớn bao gồm trên 750.00 mã SKUs, so với 250 mục hàng hóa cơ sở trong rổ hàng hóa CPI. Hiệu chỉnh và làm sạch dữ liệu, việc xác định các dữ liệu sai để giải quyết và làm sạch dữ liệu là rất khó, ngay cả khi đã phát hiện ra và trao đổi với nhà cung cấp. Đây là một trong những hạn chế lớn của dữ liệu giao dịch. ABS nhận thấy cần phải giảm thiểu các rủi ro về sai sót của dữ liệu thông qua các phương pháp hiệu đính hệ thống và các thủ tục đảm bảo chất lượng dữ liệu. Các files dữ liệu phải được kiểm tra tự động và thủ công một cách chặt chẽ trước khi bắt đầu quy trình sản xuất số liệu thống kê. Chẳng hạn, kiểm tra kích thước các files dữ liệu và sự thay đổi định dạng của dữ liệu để phát hiện những bất thường ở từng file khi nhận được. (3) Đầu tư ban đầu cho quá trình vận hành và quản lý dữ liệu giao dịch Việc sử dụng dữ liệu giao dịch trong quá trình biên soạn và tính toán CPI đã được cơ quan thống kê quốc gia lựa chọn vì tiết kiệm được chi phí do không phải tiến hành điều tra thu thập số liệu tại địa bàn. Tuy nhiên, việc đầu tư ban đầu và các chi phí liên quan đến quá trình vận hành và quản lý dữ liệu cần phải cân nhắc. Để thực hiện được việc này cần phải nỗ lực rất lớn từ nhiều yếu tố, trong đó có vấn đề đầu tư chi phí ban đầu để xây dựng các cơ sở lưu trữ dữ liệu, cũng như quá trình xử lý và vận hành, khai thác dữ liệu. ABS không chỉ đầu tư đơn thuần về hạ tầng công nghệ thông tin để đáp ứng yêu cầu khai thác và sử dụng dữ liệu lớn phục vụ công tác thống kê, mà còn đầu tư các chi phí liên quan đến cơ sở hạ tầng thống kê nhằm xây dựng và phát triển hệ thống để tính toán các chỉ tiêu thống kê từ dữ liệu lớn và kiểm soát hệ thống đáp ứng được yêu cầu của các kết quả đầu ra một cách kịp thời hơn, chất lượng cao hơn và đặc biệt là dữ liệu an toàn hơn. Dự kiến, trong giai đoạn 2016-2020, Chính phủ Úc sẽ đầu tư khoảng 250 triệu USD để chuyển đổi cơ sở hạ tầng, hệ thống và quy trình sản xuất số liệu thống kê của ABS2. Việc sử dụng dữ liệu giao dịch để tính toán CPI có thể sẽ tiết kiệm chi phí hơn so với các nguồn dữ liệu truyền thống, do giảm thiểu được các chi phí cho hoạt động thu thập thông tin tại địa bàn và có thể bù đắp được các chi phí quản lý và đảm bảo chất lượng thông tin dữ liệu giao dịch. ABS cũng hy vọng chi phí tiết kiệm được do sử dụng dữ liệu giao dịch sẽ bù đắp được cả các khoản chi phí đầu tư ban đầu, tuy nhiên cũng chưa xác định được chính xác. (4) Phương pháp tính toán Kết hợp giữa dữ liệu giao dịch với điều tra thu thập thông tin tại địa bàn, nghiên cứu năm 2010 của ABS chỉ ra rằng thông tin dữ liệu giao dịch có thể được sử dụng đến 50% trong rổ hàng hóa tính CPI của nước này. Tuy nhiên, đối với các dữ liệu giao dịch đã thu thập được, hiện có sẵn không thể sử dụng được hoàn toàn 100%. Vì vậy 2 Nguồn: /Home/government+investment+in+the+ABS Thống kê Quốc tế và Hội nhập Khai thác dữ liệu giao dịch SỐ 03 – 2017 35 cần phải tiến hành và kết hợp với điều tra thu thập số liệu tại địa bàn để biên soạn CPI. Vấn đề đặt ra là làm sao kết hợp giữa dữ liệu giao dịch với dữ liệu thu thập được thông qua điều tra tại địa bàn. Thông tin từ dữ liệu giao dịch bao gồm cả thông tin về số lượng và doanh thu của từng loại mặt hàng, thông tin này cho phép tính toán được các chỉ số cao nhất. Số liệu thông tin từ điều tra tại địa bàn không bao gồm những thông tin về số lượng và doanh thu của các mặt hàng, do đó yêu cầu phải sử dụng công thức tính truyền thống để tính toán sự thay đổi, biến động về giá. Nếu những dữ liệu này kết hợp tại thời điểm quan sát hoặc thu thập thông tin thì việc cần làm chỉ đơn giản là loại bỏ thông tin về số lượng của các mặt hàng thu thập được trong dữ liệu giao dịch và áp dụng các công thức truyền thống. Xử lý vấn đề mẫu thu thập tại địa bàn, việc thu thập các thông tin để tính toán và biên soạn CPI theo phương pháp điều tra tại điện bàn tương đối tốn kém về kinh phí và nhân lực. Việc khai thác dữ liệu giao dịch vào tính toán CPI sẽ giúp giảm thiểu được các chi phí trên. Trong một số trường hợp, dữ liệu giao dịch có thể cung cấp thông tin tin cậy và phù hợp với một số nhóm sản phẩm thì chúng ta có thể giảm bớt hoặc thậm chí loại bỏ những phương pháp thu thập số liệu thủ công đối với các mặt hàng này. Tuy nhiên, cần phải có một phương pháp để đánh giá xem các thông tin về giá và chi tiêu dùng cho các mặt hàng từ hai nguồn dữ liệu này tương đồng với nhau hay không. Từ đó mới có thể quyết định được duy trì hay giảm bớt các mẫu điều trong dàn mẫu của CPI để giảm thiểu công tác thu thập thông tin tại địa bàn. Khắc phục sự thay đổi về chất lượng hàng hóa và hàng hóa thay thế, trên thị trường hàng tiêu dùng, hàng hóa luôn luôn thay đổi về chất lượng, hình dáng, kích thước và chủng loại. Việc điều tra thu thập thông tin về giá tại địa bàn thường không phản ánh hết và không theo kịp những thay đổi của hàng hóa. Do đó, những loại hàng hóa có giá mới, vẫn bị tính vào nhóm hàng hóa cũ. Ngược lại, có rất nhiều hàng hóa cũ bị loại ra khỏi thị trường nhưng vẫn chưa bị loại ra khỏi danh sách hoặc rổ hàng hóa trong CPI. Việc sử dụng dữ liệu giao dịch để tính toán và biên soạn CPI cho thấy khắc phục rất tốt những nhược điểm này của phương pháp thu thập dữ liệu giá truyền thống do tính liên tục cập nhật thông tin của dữ liệu giao dịch. (5) Đối với cộng đồng người sử dụng CPI được sử dụng cho nhiều mục đích, như: Phân tích và xây dựng các chính sách kinh tế, làm cơ sở để tính và điều chỉnh tiền lương, lương hưu và căn cứ để xây dựng các hợp đồng cá nhân,... Do đó, người sử dụng CPI luôn quan tâm đến các phương pháp tính toán và biên soạn CPI, đặc biệt những thay đổi trong phương pháp tính. Việc áp dụng các phương pháp tính toán CPI phải có kế hoạch kỹ lưỡng và được thông báo rộng rãi. Các cơ quan thống kê quốc gia phải có đủ thời gian để chuẩn bị, thử nghiệm và kiểm tra các phương pháp mới và thông báo cho cộng đồng người sử dụng CPI về những thay đổi trong phương pháp tính. Các cơ quan thống kê phải thông báo rộng rãi và giải thích cho người sử dụng và các bên liên quan hiểu rõ phương pháp tính toán CPI để người sử dụng hiểu được giá trị và ý nghĩa thống kê đối với phương pháp mới; có được phản hồi của người sử dụng về phương pháp xây dựng chỉ số giá. Qua đó, cộng đồng người sử dụng số liệu sẽ hiểu, hỗ trợ và ủng hộ việc ứng dụng khai thác dữ liệu giao dịch vào biên soạn CPI. Thống kê Quốc tế và Hội nhập Khai thác dữ liệu giao dịch 36 SỐ 03 – 2017 3. Phương pháp tính toán chỉ số giá tiêu dùng Tổng quan về phương pháp tính toán CPI của ABS Dữ liệu giao dịch thu thập được từ các nhà bán lẻ chủ yếu, được ABS sử dụng để tính toán CPI theo quý bắt đầu từ tháng 1 năm 2014. ABS sử dụng phương pháp lấy mẫu trực tiếp thu được từ dữ liệu giao dịch để thay thế cho phương pháp lấy mẫu thu thập dữ liệu từ địa bàn. Khoảng 20.000 mặt hàng được lấy giá từ dữ liệu giao dịch và thay thế cho các nhóm trong rổ hàng hóa để tính toán CPI. Giá của mỗi mặt hàng từ dữ liệu giao dịch được tính bằng cách lấy tổng doanh thu của từng mặt hàng chia cho tổng số lượng mặt hàng đó đã được bán. Giá này được gọi là giá trị đơn vị (giá đơn vị) của hàng hóa/sản phẩm và đại diện cho giá thanh toán (giao dịch) của người mua trong 1 tuần hoặc 1 tháng. Như vậy, giá đơn vị của hàng hóa/sản phẩm là giá bình quân của hàng hóa hoặc sản phẩm đó được người mua thanh toán cho một thời kỳ (thường là tuần, tháng), không phải là giá tại thời điểm mua. Giá đơn vị hàng hóa được thu thập từ một lượng lớn các cửa hàng kinh doanh ở từng tỉnh, thành phố. Giá đơn vị hàng hóa thu được từ dữ liệu giao dịch được sử dụng để tính toán và biên soạn chỉ số CPI theo danh mục chi tiêu hàng hóa. Chọn và duy trì mẫu đại diện từ dữ liệu giao dịch Dữ liệu thu thập được từ bộ dữ liệu giao dịch có chất lượng rất đa dạng và khác nhau tùy thuộc vào các nhà cung cấp dữ liệu. Các files dữ liệu có chất lượng kém (đặc biệt là danh sách các sản phẩm) rất khó xác định được chính xác các sản phẩm phù hợp hoặc giống với các sản phẩm có sẵn trong danh mục hàng hóa để tính CPI. Ví dụ, các hàng hóa bị trùng nhau do khác mã SKUs hoặc do mã SKUs của hàng bị loại không được loại ra mà vẫn tính vào danh mục hàng hóa để tính CPI. Nhìn chung, ABS xác định được chính xác 80% các mặt hàng trong mẫu hàng hóa để tính toán CPI. Thành phần của rổ hàng hóa trong CPI phản ánh sự ưa thích tiêu dùng của hộ gia đình. Dữ liệu giao dịch cung cấp số lượng hàng hóa đã được bán của doanh nghiệp theo thời gian thực. Thông tin về số lượng hàng đã bán của doanh nghiệp trước đây không được ABS thu thập trong quá trình tính toán CPI. Tiếp cận được các thông tin này, cho phép ABS nâng cao được tính phù hợp/phổ biến của các sản phẩm để tính CPI. Mỗi sản phẩm hoặc hàng hóa được lựa chọn trong mẫu để tính CPI đều được kiểm tra và đánh giá rất chặt chẽ theo từng quý về doanh thu và tính nhất quán. Với những hàng hóa này, nếu quá trình kiểm tra phát hiện không đạt thì sẽ bị thay thế bằng các sản phẩm khác phù hợp từ một nhóm các hàng tương tự. Tính giá đơn vị Một trong những ưu điểm của việc sử dụng dữ liệu giao dịch là có nhiều lựa chọn về giá linh hoạt hơn so với phương pháp truyền thống điều tra tại địa bàn. Lý tưởng nhất là lấy tối đa số lượng dữ liệu giao dịch để tính giá đơn vị. Tuy nhiên, trong thực tế phương pháp này có nhược điểm là cần phải có thời gian để tính toán. Đối với các sản phẩm trước đây được xác định giá theo quý. Giá đơn vị có thể được tính theo 5 cách sau: Thống kê Quốc tế và Hội nhập Khai thác dữ liệu giao dịch SỐ 03 – 2017 37 (1) Xác định giá đơn vị dựa trên tháng giữa của quý (thời gian này giống như phương pháp thu thập số liệu tại địa bàn); (2) Xác định giá đơn vị dựa trên 2 tháng đầu tiên của quý; (3) Xác định giá đơn vị dựa trên 2 tháng đầu tiên của quý cộng với 2 tuần đầu của tháng thứ ba; (4) Xác định giá đơn vị dựa trên 3 tháng của quý; (5) Xác định giá đơn vị dựa trên mức di chuyển giá trung bình của 3 tháng (tính giá trung bình từ giá của tháng cuối cùng của quý trước và giá của 2 tháng đầu tiên của quý hiện tại). Để đánh giá sự khác nhau giữa các phương pháp tính giá, ABS quan sát mức độ chênh lệch tuyệt đối của giá đơn vị của 5 phương pháp trên. Độ lệch của phần lớn các sản phẩm là rất nhỏ và những thay đổi tương đối về giá của hàng hóa có thể giải thích do chiết khấu sản phẩm. Cách thứ ba được lựa chọn vì điều này cho phép sử dụng tối đa thời gian thu thập dữ liệu mà không làm ảnh hưởng đến thời gian biên soạn số liệu. Xử lý vấn đề thay đổi về chất lượng hàng hóa và sản phẩm mới xuất hiện Đối với phương pháp điều tra truyền thống, thu thập dữ liệu tại địa bàn, các điều tra viên có thể dễ dàng phát hiện được sự thay đổi của hàng hóa do mẫu điều tra nhỏ. Tuy nhiên, đối với hình thức thu thập thông tin sử dụng dữ liệu giao dịch, việc phát hiện ra những thay đổi của từng loại hàng hóa trong quá trình tính toán và biên soạn CPI là không khả thi, do dữ liệu rất lớn. Sự thay đổi về hàng hóa chủ yếu là do: (1) Hàng hóa mới được đưa vào mẫu tính giá (xuất hiện hàng hóa mới thay thế cho hàng hóa cũ); (2) Hàng hóa có sự thay đổi về lượng (như thay đổi về kích thước) và thay đổi về mã hàng hóa; (3) Hàng hóa có sự thay đổi về lượng, nhưng không thay đổi mã hàng hóa. Trường hợp thứ nhất là đơn giản nhất, chỉ cần tính giá hàng hóa của kỳ trước. Trường hợp thứ hai và ba, do có yếu tố điều chỉnh về chất lượng hàng hóa dẫn đến sự thay đổi về số lượng hàng hóa. ABS đã nghiên cứu phương pháp kết nối giữa những sản phẩm mới với sản phẩm bị biến mất trên thị trường. Ví dụ, có một lô hàng thay đổi về kích thước thường sẽ dẫn đến thay đổi về mã SKUs. Quy trình kết nối sẽ sử dụng các thông tin về mô tả sản phẩm như: Giá, doanh thu, thời gian (xuất hiện và biến mất trên thị trường) và số lượng hàng bán ra trên thị trường. Quy trình này sẽ giúp tìm được sản phẩm mới giống hoặc gần giống với sản phẩm cũ (nhưng khác về mã sản phẩm) và điều chỉnh sự thay đổi về số lượng. Hàng hóa theo mùa vụ sẽ có sự biến động về số lượng hàng hóa trên thị trường tùy theo từng mùa, vụ của hàng hóa đó trong năm. Những thay đổi theo mùa vụ sẽ dẫn đến thay đổi về sản lượng và giá cả hàng hóa, do đó dẫn đến sự thay đổi về nhu cầu của người tiêu dùng trên thị thường. Đối với các loại hàng hóa này, ABS quyết định lấy doanh thu lớn nhất (hoặc thời điểm bán tốt nhất) của hàng hóa của mỗi thời kỳ. Phương pháp này sẽ lựa chọn những hàng hóa đại diện nhất cho mỗi chu kỳ tính giá, đồng thời tránh được việc chọn hàng thanh lý (hàng loại) hoặc hàng không phù hợp, tùy theo ngưỡng doanh thu tối thiểu hàng tháng. Chọn giá cơ sở Khi chuyển phương pháp tính CPI từ thu thập thông tin tại địa bàn sang phương pháp tính giá từ dữ liệu giao dịch sẽ có sự thay đổi về cơ sở Thống kê Quốc tế và Hội nhập Khai thác dữ liệu giao dịch 38 SỐ 03 – 2017 tính giá và sẽ ảnh hưởng tới mức giá của mẫu điều tra. Sự biến động về giá trong tháng 3 năm 2014 của hàng hóa trong dàn mẫu để tính CPI sẽ được sử dụng để tính giá cơ sở khi áp dụng dữ liệu giao dịch vào tính CPI. Việc thay đổi cách tính giá từ phương pháp lấy giá tại thời điểm điều tra theo phương pháp truyền thống sang phương pháp tính giá đơn vị sản phẩm không ảnh hưởng đến sự thay đổi kết quả tính toán giá hàng hóa. Những cơ hội khác khi sử dụng dữ liệu giao dịch Việc sử dụng dữ liệu giao dịch cho phép ABS kiểm tra và tính toán CPI thường xuyên và kịp thời hơn trong tương lai. Những người sử dụng CPI có thể yêu cầu tính toán và cung cấp CPI hàng tháng ở các vùng trong cả nước. Dữ liệu giao dịch sẵn có và cập nhật ở tần suất cao sẽ cho phép các cơ quan thống kê dễ dàng thực hiện được các mục tiêu tính toán CPI. Dữ liệu giao dịch cũng có thể giúp việc so sánh sự thay đổi về giá giữa các khu vực thành thị và nông thôn, từ đó có thể cung cấp thông tin quan trọng về việc CPI có cần thiết phải tính toán trên phạm vi tất cả các khu vực trên cả nước hay không? Hay chỉ cần tính cho các khu vực thành thị? ABS đã tiến hành các công việc để tiến hành ứng dụng rộng rãi dữ liệu giao dịch đối với thống kê nhà nước. Các thông tin về doanh thu, số lượng, giá cả hàng hóa là nguồn thông tin rất tiềm năng phục vụ cho các mục đích thống kê kinh tế, như: Điều tra bán lẻ hàng hóa, đo lường và xác định các yêu tố chi tiêu dùng cuối cùng của hộ gia đình trong tài khoản quốc gia, giúp hiệu chỉnh cơ sở dữ liệu điều tra chi tiêu hộ gia đình. 4. Kết luận và khuyến nghị Tiềm năng của dữ liệu giao dịch là nguồn dữ liệu đầu vào quan trọng không thể bỏ qua đối với các cơ quan thống kê quốc gia, trong đó có Việt Nam. Nguồn dữ liệu này có thể thay thế cho các nguồn dữ liệu truyền thống và có ảnh hưởng rất lớn đến phương thức sản xuất số liệu thống kê nhà nước trong tương lai. Vì vậy, cần khuyến khích và tiếp tục nghiên cứu, triển khai các biện pháp để tăng cường khả năng tiếp cận, truy cập, sử dụng và khai thác dữ liệu từ nguồn dữ liệu lớn nói chung và dữ liệu giao dịch nói riêng vào công tác sản xuất số liệu thống kê một cách hiệu quả. Để thực hiện được vấn đề này, trước hết, cơ quan thống kê cần thí điểm sử dụng dữ liệu giao dịch để tính toán và biên soạn CPI. Tuy nhiên, để khai thác được hết tính phong phú và đa dạng của cơ sở dữ liệu này đòi hỏi phải có sự thống nhất về phương pháp luận thống kê. Mặc dù việc nghiên cứu phương pháp luận là rất quan trọng, nhưng đó mới là những thách thức ban đầu trong quá trình sử dụng và khai thác dữ liệu này. Việc trích xuất dữ liệu và thông tin từ dữ liệu giao dịch phục vụ cho sản xuất số liệu thống kê là việc làm không hề đơn giản. Bài viết này đã đưa ra một số những khó khăn trong quá trình sử dụng dữ liệu giao dịch để biên soạn CPI, tuy nhiên, còn nhiều vấn đề khác vẫn chưa được giải quyết một cách thỏa đáng cần tiếp tục nghiên cứu thêm. Đối với Thống kê Việt Nam, một trong những nhiệm vụ trọng tâm của Tổng cục Thống kê trong giai đoạn 2016-2021 là: Ứng dụng phương pháp thống kê tiên tiến, công nghệ thông tin và truyền thông. Cụ thể là nghiên cứu, triển khai thí điểm sử dụng dữ liệu hành chính, dữ liệu lớn trong sản xuất số liệu thống kê chính thức ở một số lĩnh Thống kê Quốc tế và Hội nhập Khai thác dữ liệu giao dịch SỐ 03 – 2017 39 vực khả thi. Nghiên cứu, khai thác và sử dụng dữ liệu lớn nói chung, dữ liệu giao dịch nói riêng phục vụ sản xuất số liệu thống kê nhà nước một cách có hiệu quả, Tổng cục Thống kê cần thực hiện một số nhiệm vụ sau: Thứ nhất, Tiến hành nghiên cứu một cách hệ thống về Big data, trong đó có dữ liệu giao dịch. Trước hết, thí điểm khai thác nguồn dữ liệu giao dịch phục vụ sản xuất số liệu thống kê nhà nước trong các lĩnh vực như: Thống kê giá, thống kê thương mại,... Thứ hai, Nghiên cứu kinh nghiệm quốc tế về phương pháp khai thác nguồn dữ liệu giao dịch phục vụ thống kê nhà nước; Thứ ba, Rà soát, đánh giá thực trạng các văn bản pháp lý về sản xuất số liệu thống kê nhà nước hiện nay; các văn bản pháp lý về ứng dụng, khai thác dữ liệu giao dịch phục vụ sản xuất số liệu thống kê nhà nước; Thứ tư, Xây dựng và trình cấp có thẩm quyền phê duyệt các văn bản pháp lý về khai thác nguồn dữ liệu giao dịch phục vụ sản xuất số liệu thống kê nhà nước; Thứ năm, Khảo sát, đánh giá hạ tầng công nghệ thông tin và đào tạo nguồn nhân lực về phương pháp thống kê mới, về ứng dụng công nghệ thông tin trong khai thác dữ liệu giao dịch để sản xuất chỉ số giá tiêu dùng. Tài liệu tham khảo: 1. Khanh Moore (2014), Dữ liệu giao dịch: Từ lý thuyết đến thực tế, Cơ quan Thống kê quốc gia Úc; 2. Tổng cục Thống kê (2017), Báo cáo những nhiệm vụ trọng tâm của Tổng cục Thống kê và đề xuất ưu tiên hỗ trợ giai đoạn 2017-2021; 3. Tổ chức Lao động quốc tế, Quỹ Tiền tệ quốc tế, Tổ chức Hợp tác và Phát triển Kinh tế, Cơ quan Thống kê châu Âu, Tổ chức Liên hợp quốc và Ngân hàng Thế giới (2004), Sổ tay chỉ số giá tiêu dùng: Từ lý thuyết đến thực tế; 4. Van der Grient, H.A. (2010), Phương pháp phân tích sự thay đổi của chỉ số giá khi áp dụng công thức tính giá RYGEKS, Cơ quan Thống kê Hà Lan; 5. Van der Grient, H.A. và de Haan, J. (2010), Sử dụng dữ liệu scanner từ siêu thị để tính toán chỉ số giá tiêu dùng, bài trình bày tại hội thảo về dữ liệu scanner tại Geneva, Thụy Sĩ, ngày 10 tháng 5 năm 2010. ------------------------------------------------------------ Tiếp theo trang 48 Các quy trình lưu trữ quá nhiều, cả những tài liệu có thành phần thống kê, và những quy tắc chung, có thể áp dụng cho bất kỳ loại tổ chức nào, được đề cập trong GSBPM, nhưng không bao gồm trong Sản xuất liên quan đến các bộ phận khác của GAMSO. Xem thêm Phụ lục tại địa chỉ: https://statswiki.unece.org/pages/viewpage.action ?pageId=129172757 Anh Tuấn (dịch) Nguồn: https://statswiki.unece.org/pages/viewpage .action?pageId=129171865, truy cập ngày 20/6/2017.

Các file đính kèm theo tài liệu này:

  • pdfkhai_thac_du_lieu_giao_dich_de_bien_soan_chi_so_gia_tieu_dung_kinh_nghiem_cua_co_quan_thong_ke_quoc.pdf
Tài liệu liên quan