Xử lý dữ liệu thiếu trong nghiên cứu phụ tải bằng Support Vector Regression (SVR)

Tài liệu Xử lý dữ liệu thiếu trong nghiên cứu phụ tải bằng Support Vector Regression (SVR): 28 Nguyễn Tuấn Dũng, Nguyễn Thanh Phương XỬ LÝ DỮ LIỆU THIẾU TRONG NGHIÊN CỨU PHỤ TẢI BẰNG SUPPORT VECTOR REGRESSION (SVR) DEALING WITH MISSING DATA FOR THE POWER LOAD STUDIES USING SUPPORT VECTOR REGRESSION (SVR) Nguyễn Tuấn Dũng1, Nguyễn Thanh Phương2 1Tổng Cơng ty Điện lực TP. Hồ Chí Minh; [email protected] 2Trường Đại học Cơng nghệ TP. Hồ Chí Minh; [email protected] Tĩm tắt - Trong những năm gần đây, việc nghiên cứu và ứng dụng các kỹ thuật khai thác dữ liệu gặp phải nhiều khĩ khăn, thách thức lớn, trong đĩ cĩ vấn đề giá trị thiếu, tức là cĩ những giá trị thuộc tính của dữ liệu bị thiếu. Cĩ nhiều nguyên nhân khác nhau dẫn tới hiện tượng này: thiết bị thu thập dữ liệu bị hỏng, sự thay đổi thiết kế thí nghiệm, sự từ chối cung cấp dữ liệu nhằm bảo vệ tính riêng tư, sự sơ suất khi nhập dữ liệu, các sự cố xảy ra trong quá trình truyền dữ liệu,... [1]. Trong đĩ, việc thiếu dữ liệu phục vụ cơng tác nghiên cứu, dự báo phụ tải điện là một trong những vấn đề n...

6 trang | Chia sẻ: quangot475 | Lượt xem: 732 | Lượt tải: 0Free

Bạn đang xem nội dung tài liệu Xử lý dữ liệu thiếu trong nghiên cứu phụ tải bằng Support Vector Regression (SVR), để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

28 Nguyễn Tuấn Dũng, Nguyễn Thanh Phương XỬ LÝ DỮ LIỆU THIẾU TRONG NGHIÊN CỨU PHỤ TẢI BẰNG SUPPORT VECTOR REGRESSION (SVR) DEALING WITH MISSING DATA FOR THE POWER LOAD STUDIES USING SUPPORT VECTOR REGRESSION (SVR) Nguyễn Tuấn Dũng1, Nguyễn Thanh Phương2 1Tổng Cơng ty Điện lực TP. Hồ Chí Minh; [email protected] 2Trường Đại học Cơng nghệ TP. Hồ Chí Minh; [email protected] Tĩm tắt - Trong những năm gần đây, việc nghiên cứu và ứng dụng các kỹ thuật khai thác dữ liệu gặp phải nhiều khĩ khăn, thách thức lớn, trong đĩ cĩ vấn đề giá trị thiếu, tức là cĩ những giá trị thuộc tính của dữ liệu bị thiếu. Cĩ nhiều nguyên nhân khác nhau dẫn tới hiện tượng này: thiết bị thu thập dữ liệu bị hỏng, sự thay đổi thiết kế thí nghiệm, sự từ chối cung cấp dữ liệu nhằm bảo vệ tính riêng tư, sự sơ suất khi nhập dữ liệu, các sự cố xảy ra trong quá trình truyền dữ liệu,... [1]. Trong đĩ, việc thiếu dữ liệu phục vụ cơng tác nghiên cứu, dự báo phụ tải điện là một trong những vấn đề nan giải đối với ngành điện. Hiện các cơng ty điện lực đang thực hiện việc này bằng cách nội suy từ các giá trị đo đếm của các ngày trước, giờ trước một cách thủ cơng, khơng chuẩn xác làm ảnh hưởng khơng nhỏ đến kết quả phân tích, xử lý dữ liệu trong quá trình nghiên cứu phụ tải. Bài báo đề xuất một phương pháp xử lý dữ liệu thiếu bằng cách xây dựng các mơ hình hồi quy tối ưu hĩa các thơng số tự động thơng qua quá trình huấn luyện học máy Support Vector Regression (SVR), từ đĩ ước lượng lại các dữ liệu đã mất hoặc khơng ghi nhận được trong quá trình đo đếm. Abstract - In recent years, the research and the application of data mining techniques have encountered many difficulties and challenges, including the missing value problem i.e. the attribute values of the data are missing . There are many different causes of this phenomenon: damaged data collection equipment, the change of design of experiments, the refusal to provide the data in order to protect privacy, the mistake when importing data, the incident occurrence during the data transmission... [1]. In particular, the lack of data is one of the problems for the power sector. The power companies are doing this manually, causing influence on results analysis. This paper proposes a method of handling missing data by building the regression model to optimize parameters automatically through Support Vector Regression (SVR), machine learning training which estimates the lost data or unrecorded data during the measurement. Từ khĩa - thiếu dữ liệu; ước lượng; số liệu đo đếm; phụ tải điện; SVM; SVR Key words - missing data; estimation; measurement data; power load; SVM; SVR 1. Đặt vấn đề 1.1. Dữ liệu thiếu trong quá trình khai thác cơ sở dữ liệu (CSDL) Tất cả các nhà nghiên cứu đều đã phải đối mặt với các vấn đề về dữ liệu định lượng bị mất (thiếu giá trị) tại một số điểm trong cơng việc của họ, làm thế nào để xử lý các các giá trị thuộc tính thiếu là một nhiệm vụ quan trọng hàng đầu của quá trình khái thác từ các CSDL. Việc loại bỏ tất cả các bộ dữ liệu cĩ chứa giá trị thuộc tính thiếu sẽ làm mất thơng tin, đánh mất các đặc trưng ban đầu của CSDL. Phương pháp xem xét tình trạng nguyên thủy (dữ liệu gốc), sử dụng dữ liệu sẵn cĩ để cĩ thể gán các giá trị thiếu sẽ là cách làm tốt nhất. Tuy nhiên, để xác định giá trị thực của dữ liệu thiếu là cơng việc rất khĩ khăn. Cho đến nay, cĩ nhiều phương pháp xử lý giá trị thiếu đã được đề xuất và áp dụng [1, 2]. Các phương pháp này cho phép xử lý trực tiếp các giá trị thiếu, tuy nhiên chúng cũng cĩ thể mang những thơng tin nhiễu vào tập dữ liệu đang xét. Việc xử lý các giá trị thiếu cần phải được cân nhắc và thực hiện một cách thận trọng, nếu các nhà nghiên cứu sử dụng phương pháp xử lý dữ liệu bị mất mà khơng cẩn thận xem xét các giả định cần thiết của phương pháp đĩ, họ cĩ nguy cơ cĩ kết quả sai lệch và gây hiểu nhầm [2]. Cho đến nay, việc xử lý giá trị thiếu trong các CSDL vẫn là đề tài thu hút sự quan tâm của nhiều nhà nghiên cứu và ứng dụng. Một nhiệm vụ vơ cùng quan trọng khi xây dựng một phương pháp xử lý giá trị thiếu là phải hiểu được cơ chế sinh ra các giá trị thiếu trong CSDL cần khai phá. Nắm bắt được cơ chế sinh ra giá trị thiếu trong một tình huống cụ thể sẽ giúp xây dựng được một phương pháp xử lý thích hợp và hiệu quả. Theo các nhà thống kê tốn học, sự xuất hiện các giá trị thiếu trong một CSDL cĩ thể phân thành ba trường hợp theo tính ngẫu nhiên như [1, 2]: - Trường hợp 1: Thiếu hồn tồn ngẫu nhiên (Missing Completely At Random – MCAR). Đây là mức độ ngẫu nhiên cao nhất. Trường hợp này xảy ra khi xác suất một giá trị của thuộc tính bị thiếu khơng phụ thuộc vào các giá trị đã biết cũng như bản thân giá trị bị thiếu. - Trường hợp 2: Thiếu ngẫu nhiên (Missing At Random – MAR). Đĩ là khi xác suất xuất hiện một giá trị thiếu tại một thuộc tính cĩ thể phụ thuộc vào các giá trị đã biết, nhưng khơng phụ thuộc vào bản thân giá trị bị thiếu. - Trường hợp 3: Thiếu khơng ngẫu nhiên (Not Missing At Random – NMAR): khi xác suất xuất hiện một giá trị thiếu tại một thuộc tính phụ thuộc vào giá trị của thuộc tính đĩ. 1.2. Dữ liệu thiếu trong nghiên cứu phụ tải điện Nghiên cứu phụ tải là hoạt động phân tích biểu đồ phụ tải hệ thống điện nhằm chia thành biểu đồ của các thành phần phụ tải, phân nhĩm phụ tải, các khách hàng sử dụng điện cuối cùng và các cơng nghệ sử dụng điện, để đưa ra các thơng tin quan trọng như: Cơng suất và thời gian xuất hiện phụ tải đỉnh; Xu hướng tăng trưởng của phụ tải đỉnh ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 3(112).2017-Quyển 1 29 và hệ số phụ tải; Chênh lệch phụ tải cao/thấp điểm của hệ thống; Lập kế hoạch, thiết kế và triển khai các chương trình DSM; Nâng cao độ chính xác của dự báo phụ tải ngắn hạn;.... Đây là một hoạt động chuyên sâu về phân tích số liệu, trong đĩ dữ liệu được thu thập thường là rất lớn, thơng qua các hình thức thu thập tự động hoặc thủ cơng. Do đĩ dữ liệu bị lỗi là rất khĩ tránh khỏi, bởi cĩ rất nhiều nguyên nhân như: sự cố đường truyền, sự cố thiết bị đo đếm, sự cố thiết bị lưu trữ hay do việc xử lý dữ liệu thủ cơng khơng đúng phương pháp,... Dữ liệu đo đếm của phụ tải là số liệu cơng suất, điện năng tiêu thụ của phụ tải theo chu kỳ đo quy định (30 phút hoặc 60 phút), thơng số vận hành, biểu đồ phụ tải (load profile). Các Tổng cơng ty điện lực cĩ trách nhiệm thực hiện cài đặt cơng tơ để truyền dữ liệu tự động về kho dữ liệu. Trong quá trình vận hành, thu thập dữ liệu đã xuất hiện nhiều sự cố làm gián đoạn việc ghi nhận các dữ liệu đo đếm như: sự cố truyền dẫn tín hiệu từ cơng tơ đo đếm về kho dữ liệu làm mất gĩi dữ liệu truyền về; lỗi tại thiết bị đo đếm; lỗi do mất nguồn điện; lỗi do cài đặt thiết bị đo đếm khơng đúng; lỗi do xử lý dữ liệu bằng phương pháp thủ cơng; hoặc do việc thu thập dữ liệu bằng thủ cơng,... dẫn đến dữ liệu ghi nhận được khơng phù hợp như: dữ liệu cĩ cĩ giá trị bằng 0 (Fasse Zero); trùng lặp dữ liệu (Inconsistent/Duplicate); thiếu chuỗi dữ liệu (Missing Data); dữ liệu thiếu chính xác, khơng logic cao quá hoặc thấp bất thường (Too High/Too Low). Hình 1. Các lỗi thường gặp trong ghi nhận dữ liệu 2. Các phương pháp nghiên cứu xử lý dữ liệu thiếu Cho đến nay vẫn chưa cĩ một phương pháp nào chuyên dụng được khuyên sử dụng riêng cho việc xử lý dữ liệu thiếu trong các ứng dụng khai thác dữ liệu. Đặc biệt, là làm thế nào để cĩ thể xử lý giá trị thiếu trong một CSDL dữ liệu khổng lồ. Một số phương pháp xử lý dữ liệu thiếu đã được nghiên cứu [3, 4, 5]. 2.1. Phương pháp loại bỏ: nếu xảy ra trường hợp thiếu dữ liệu cho một biến bất kỳ nào đĩ, giải pháp đơn giản là loại bỏ thuộc tính bị thiếu của dữ liệu ra khỏi qua quá trình phân tích đánh giá của chuỗi dữ liệu. Phương pháp này chỉ được áp dụng khi dữ liệu bị mất là hồn tồn ngẫu nhiên (MCAR), vốn rất hiếm khi xảy ra trong thực tế. Phương pháp loại bỏ các bộ dữ liệu cĩ chứa giá trị thiếu cĩ ưu điểm là đơn giản, ít tốn thời gian hơn bất kỳ phương pháp nào khác. Nhưng nĩ lại cĩ cĩ hai điểm hạn chế quan trọng: i) thứ nhất là nếu chúng ta áp dụng vào trong thực tế cĩ thể gây mất mát nhiều dữ liệu; ii) thứ hai là nếu phân bố dữ liệu thiếu trong tập dữ liệu khơng thuộc trường hợp (MCAR) thì việc loại bỏ tất cả các bộ dữ liệu cĩ giá trị thiếu sẽ làm sai lệch nghiêm trọng kết quả. 2.2. Phương pháp gán ghép: Phương pháp này thay thế các giá trị bị thiếu bằng một giá trị dự đốn được xem là hợp lý, và sau đĩ thực hiện các phân tích cho chuỗi dữ liệu đã được bổ sung. - Gán ghép trung bình: Tính giá trị trung bình dữ liệu của X bằng cách sử dụng các giá trị khơng bị mất và sử dụng nĩ để gán ghép cho giá trị thiếu của X. 2.3. Phương pháp hồi qui tuyến tính Khi hai thuộc tính định lượng nào đĩ cĩ mối quan hệ tuyến tính với nhau, chúng ta cĩ thể xây dựng một phương trình hồi quy tuyến tính, trong đĩ thuộc tính cĩ giá trị thiếu là biến phụ thuộc, biến cịn lại là biến độc lập, và sử dụng phương trình hồi quy cho việc dự đốn các giá trị thiếu của biến phụ thuộc thơng qua các giá trị đã biết của biến độc lập. Phương pháp hồi quy tuyến tính thường gặp phải hai vấn đề: i) thứ nhất, mơ hình quan hệ giữa các thuộc tính cĩ phải tuyến tính khơng. Nếu mối quan hệ này là khơng tuyến tính, các giá trị thiếu ước lượng được cĩ thể bị sai lệch lớn so với các giá trị thực; ii) thứ hai, thường thì trong cùng một bộ dữ liệu, các thuộc tính cĩ quan hệ chặt với thuộc tính cĩ giá trị thiếu cũng cĩ giá trị thiếu. 2.4. Phương pháp xử lý dữ liệu thiếu trong nghiên cứu phụ tải điện Một số phương pháp ước lượng số liệu đo đếm của các phụ tải điện bị lỗi trong quá trình thu thập dữ liệu của các Cơng ty điện lực thường được sử dụng như [12]: - Nội suy tuyến tính: nội suy từ đường đặc tính xu thế tiêu thụ điện; - Ngày tương đồng: sử dụng dữ liệu ngày tương đồng của tuần hiện tại hoặc tuần trước; - Tự động ước lượng: sử dụng trong trường hợp dữ liệu bị thiếu khơng quá bảy (07) ngày; - Kiểm tra trực quan đồ thị: để biết được dữ liệu bị sai và quyết định về dữ liệu được ước lượng; - Hiệu chỉnh ước lượng số liệu thủ cơng: được sử dụng khi dữ liệu bị thiếu nhiều hơn bảy (07) ngày; - Hiệu chỉnh ước lượng giá trị trung bình các tuần của ngày tham chiếu: dựa vào dữ liệu của bốn (04) tuần gần nhất; Tuy nhiên, các cách làm này đều thực hiện một cách thủ cơng và phụ thuộc rất nhiều vào năng lực kinh nghiệm của chuyên gia thực hiện ước lượng. Dữ liệu đo đếm của phụ tải gồm: số liệu cơng suất (Pmax), điện năng tiêu thụ (Atổng) và nhiệt độ (t0) cĩ mối quan hệ ràng buộc với nhau. Qua quan sát các dữ liệu thống kê chúng ta thấy được mối quan hệ tuyến tính giữa chúng, chẳng hạn như: những ngày nhiệt độ tăng cao thì điện năng sẽ được tiêu thụ nhiều hơn do người dân sử dụng nhiều thiết bị làm mát như máy điều hịa, quạt máy,... dẫn đến cơng suất Pmax sẽ tăng cao đột biến và sản lượng điện thương phẩm Atổng cũng vì thế tăng lên theo. Ngược lại, những ngày thời tiết cĩ nhiệt thấp (trời mát hay cĩ mưa) thì cơng suất Pmax và sản lượng điện thương phẩm Atổng sẽ khơng tăng cao mà hạ xuống thấp, đĩ là do nhu cầu sử dụng điện để giải nhiệt của người dân 30 Nguyễn Tuấn Dũng, Nguyễn Thanh Phương khơng cịn nữa. Với phân tích trên, ta thấy mối quan hệ ràng buộc của ba thành phần số liệu cơng suất (Pmax), điện năng tiêu thụ (Atổng) và nhiệt độ (t0). Như vậy, việc sử dụng phương trình hồi quy cho việc dự đốn các giá trị thiếu trong quá trình nghiên cứu phụ tải điện là hồn tồn phù hợp. Bài báo đã đề xuất một phương pháp xử lý dữ liệu thiếu bằng cách xây dựng các mơ hình hồi quy tối ưu hĩa các thơng số tự động thơng qua quá trình huấn luyện học máy Support Vector Regression (SVR), từ đĩ ước lượng lại các dữ liệu đã mất hoặc khơng ghi nhận được trong quá trình đo đếm. 2.4.1. Phương pháp học máy Support Vector Machine (SVM) Support Vector Machine (SVM) là phương pháp mạnh và chính xác nhất trong số các thuật tốn nổi bật ở lĩnh vực khai thác dữ liệu. SVM bao gồm hai nội dung chính là: support vector classifier (SVC), bộ phân lớp dựa theo vector hỗ trợ, và support vector regression (SVR), bộ hồi quy dựa theo vector hỗ trợ. Được phát triển đầu tiên bởi Vapnik vào những năm 1990 [6], SVM cĩ nền tảng lý thuyết được xây dựng trên nền mĩng lý thuyết xác suất thống kê. Trong những thập niên qua, SVM đã phát triển nhanh chĩng cả về lý thuyết lẫn thực nghiệm. 2.4.2. Bộ hồi quy dựa theo vector hỗ trợ – Support vector regression (SVR) Ý tưởng cơ bản của SVR là ánh xạ khơng gian đầu vào sang một khơng gian đặc trưng nhiều chiều mà ở đĩ, ta cĩ thể áp dụng được hồi quy tuyến tính (mà nếu ta áp dụng trực tiếp hồi quy tuyến tính thì khơng hiệu quả). Đặc điểm của SVR là cho ta một giải pháp thưa (sparse solution); nghĩa là để xây dựng được hàm hồi quy, ta khơng cần phải sử dụng hết tất cả các điểm dữ liệu trong bộ huấn luyện. Những điểm cĩ đĩng gĩp vào việc xây dựng hàm hồi quy được gọi là những Support Vector. Việc phân lớp cho một điểm dữ liệu mới sẽ chỉ phụ thuộc vào các support vector. Hình 2. Biến đổi khơng gian dữ liệu sang khơng gian đặc trưng (thủ thuật Kernel) Hàm hồi quy cần tìm cĩ dạng: b)x(w)x(fy T +Φ== Trong đĩ: mRw ∈ là véc-tơ trọng số; T là kí hiệu chuyển vị; Rb∈ là hằng số; nRx∈ là véc-tơ đầu vào; mR)x( ∈Φ là véc-tơ đặc trưng; Φ làm hàm ánh xạ từ khơng gian đầu vào sang khơng gian đặc trưng [6, 7, 8]. Như vậy, mục tiêu của việc huấn luyện SVR là tìm được w và b. Cho tập huấn luyện {(x1, t1), (x2, t2), , (xN, tN)} RR n ×⊂ . Với bài tốn hồi quy đơn giản, để tìm w và b ta phải tối thiểu hĩa hàm lỗi chuẩn hĩa: 2 N 1n 2 nn w2 }ty{ 2 1 λ+−∑ = với λ là hằng số chuẩn hĩa Để cĩ được một giải pháp thưa, ta sẽ thay hàm lỗi trên bằng hàm lỗi ε-insensitive. Đặc điểm của hàm lỗi này là nếu trị tuyệt đối của sự sai khác giữa giá trị dự đốn y(x) và giá trị đích nhỏ hơn ε (với ε> 0) thì nĩ coi như độ lỗi bằng 0. Như vậy bây giờ, ta phải tối thiểu hĩa hàm lỗi chuẩn hĩa sau: 2 N 1n 2 nn w2 1)t)x(y(EC +−∑ = ε Với b)x(w)x(y nTn +Φ= , C là hằng số chuẩn hĩa giống như λ nhưng được nhân với hàm lỗi thay vì 2w . Để cho phép một số điểm nằm ngồi ống ε, ta sẽ đưa thêm các biến lỏng (slack variable) vào. Đối với mỗi điểm dữ liệu nx , ta cần hai biến lỏng 0n ≥ξ và 0ˆn ≥ξ , trong đĩ 0n >ξ ứng với điểm mà ε+> )x(yt nn (nằm ngồi và phía trên ống) và 0ˆn ≥ξ ứng với điểm mà ε−< )x(yt nn (nằm ngồi và phía dưới ống). Hình 3. Minh họa cho các biến lỏng nξ Điều kiện để một điểm đích nằm trong ống là: ε+≤≤ε− nnn yty với yn = y(xn). Với việc sử dụng các biến lỏng, ta cho phép các các điểm đích nằm ngồi ống (ứng với các biến lỏng > 0) và như thế thì điều kiện bây giờ sẽ là: nnn nnn ˆyt yt ξ−ε−≥ ξ+ε+≤ Như vậy, ta cĩ hàm lỗi cho SVR: )w 2 1ˆ(C 2 N 1n nn +ξ+ξ∑ = Mục tiêu của ta là tối thiểu hĩa hàm lỗi này với các ràng buộc: nnn nnn nn ˆyt yt 0ˆ,0 ξ−ε−≥• ξ+ε+≤• ≥ξ≥ξ• Dùng hàm Lagrange và điều kiện Karush-Kuhn- Tucker, ta cĩ bài tốn tối ưu hĩa tương đương: ∑∑∑∑ === = −+−ε−−−− N 1n nnn N 1n nnmn N 1n N 1m mmnn t)aˆa()aˆa()x,x(k)aˆa)(aˆa(2 1 ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 3(112).2017-Quyển 1 31 Với k là hàm nhân: )'x()x()'x,x(k T ΦΦ= . Bất kỳ một hàm nào thỏa điều kiện Mercer thì đều cĩ thể được dùng làm hàm nhân. Hàm nhân được sử dụng phổ biến nhất là hàm Gaussian: )xxexp()x,x(k 2 jiji −γ−= Cực đại hĩa với các ràng buộc: 0)aˆa( Caˆ0 Ca0 N 1n nn n n =−• ≤≤• ≤≤• ∑ = Từ đây, ta cĩ hàm hồi quy của SVR: b)x,x(k)aˆa()x(y n N 1n nn +−=∑ = Như vậy, với SVR sử dụng hàm lỗi ε-insensitive và hàm nhân Gaussian ta cĩ ba tham số cần tìm: hệ số chuẩn hĩa C, tham số γ của hàm nhân Gaussian và độ rộng của ống ε [9]. Cả ba tham số này đều ảnh hưởng đến độ chính xác dự đốn của mơ hình và cần phải chọn lựa kỹ càng. Nếu C quá lớn thì sẽ ưu tiên vào phần độ lỗi huấn luyện, dẫn đến mơ hình phức tạp, dễ bị quá khớp. Cịn nếu C quá nhỏ thì lại ưu tiên vào phần độ phức tạp mơ hình, dẫn đến mơ hình quá đơn giản, giảm độ chính xác dự đốn. Ý nghĩa của ε cũng tương tự C. Nếu ε quá lớn thì cĩ ít vectơ hỗ trợ, làm cho mơ hình quá đơn giản. Ngược lại, nếu ε quá nhỏ thì cĩ nhiều vectơ hỗ trợ, dẫn đến mơ hình phức tạp, dễ bị quá khớp. Tham số γ phản ánh mối tương quan giữa các vectơ hỗ trợ nên cũng ảnh hưởng đến độ chính xác dự đốn của mơ hình. 3. Kết quả nghiên cứu 3.1. Dữ liệu đầu vào Dữ liệu đo đếm của phụ tải sử dụng trong việc xây dựng thuật tốn gồm: số liệu cơng suất (Pmax), điện năng tiêu thụ (Atổng) và nhiệt độ (t0) theo từng giờ, từng ngày trong tháng của các phụ tải tại Tổng cơng ty Điện lực TP.HCM. Xét một chuỗi dữ liệu đo đếm trong khoảng thời gian từ ngày 01/01/2014 đến 28/02/2016. Trong đĩ cĩ một số dữ liệu điện năng tiêu thụ (Atổng) bị thiếu do gián đoạn đo đếm (ngày 12/02 – 14/02/2015) và lỗi giá trị 0 (ngày 10/01 – 13/01/2015) cần phải hiệu chỉnh. Hình 4. Chuỗi dữ liệu cơng suất, sản lượng, nhiệt độ bị lỗi 3.2. Xây dựng mơ hình hồi quy cho việc dự đốn các giá trị thiếu Đặc điểm của SVR là cho ta một giải pháp thưa (sparse solution); nghĩa là để xây dựng được hàm hồi quy, ta khơng cần phải sử dụng hết tất cả các điểm dữ liệu trong bộ huấn luyện, những điểm cĩ đĩng gĩp vào việc xây dựng hàm hồi quy được gọi là những Support Vector (việc phân lớp cho một điểm dữ liệu mới sẽ chỉ phụ thuộc vào các support vector). Dựa trên mối quan hệ tuyến tính của ba thành phần số liệu cơng suất (Pmax), điện năng tiêu thụ (Atổng) và nhiệt độ (t0), bài báo đề xuất giải thuật xây dựng mơ hình hồi quy dự đốn các giá trị thiếu cho chuỗi dữ liệu điện năng tiêu thụ (Atổng), trên cơ sở ràng buộc của bộ dữ liệu huấn luyện là thành phần số liệu cơng suất (Pmax) và nhiệt độ (t0). Yêu cầu đặt ra là thực hiện việc xử lý các dữ liệu điện năng tiêu thụ bị lỗi trong quá trình đo đếm theo từng giờ trong ngày hoặc tổng điện năng tiêu thụ tổng từng ngày theo tháng. Trong đĩ, dựa trên mối quan hệ ràng buộc giữa sản lượng điện năng tiêu thụ với cơng suất và nhiệt độ tại thời điểm đo để xây dựng đường cong hồi quy bằng giải thuật huấn luyện SVR (Support Vector Regression), từ đĩ ước lượng các giá trị dữ liệu đã bị lỗi. Lưu đồ giải thuật như sau: Hình 5. Lưu đồ giải thuật xử lý dữ liệu thiếu 3.3. Kết quả xử lý dữ liệu thiếu 3.3.1. Phương pháp thơng thường: sử dụng giá trị trung bình trong cùng thời gian cho 4 tuần trước đĩ của dữ liệu đang xét, ta cĩ kết quả: Ngày Athay thế 10/01/2015 55,70646 11/01/2015 47,10225 12/01/2015 55,8149 13/01/2015 55,89409 12/02/2015 54,20898 13/02/2015 53,90467 14/02/2015 38,22495 Khi sử dụng phương pháp này sẽ xảy ra một vấn đề đĩ là: sẽ cĩ trường hợp dữ liệu của 4 tuần trước đĩ bị rớt vào vùng dữ liệu bị thiếu. Chẳng hạn như xét việc tính tốn cho dữ liệu thay thế ngày 12/02/2016, ta cĩ: Athay thế (14/02) = (A 31/01 + A 24/01 + A 17/01 + A 10/01) / 4 Tuy nhiên, giá trị A 10/01 lại là dữ liệu bị thiếu mà ta đang xét, do đĩ kết quả tính tốn chắc chắn sẽ khơng chính xác do giá trị A 10/01 lúc này bằng 0. Đồng thời, xét ngày tương tự của năm trước thì A 14/02/2014 cĩ giá trị lớn hơn nhiều so với giá trị thay thế ta vừa tính tốn (49,698 > 38,22495). Như vậy, cĩ thể kết luận phương pháp sử dụng giá trị trung bình trong cùng thời gian cho 4 tuần trước đĩ của dữ liệu đang xét là chưa thực sự phù hợp trong trường hợp này. 0 10 20 30 40 50 60 - ,500 1,000 1,500 2,000 2,500 3,000 3,500 1/1/15 8/1/15 15/1/15 22/1/15 29/1/15 5/2/15 12/2/15 19/2/15 26/2/15 Pmax(MW) Atổng (triệu kWh) Nhiệt độ (C) Đầu vào - Dữ liệu thống kê điện năng tiêu thụ theo giờ hoặc theo ngày từ 01/2011 – 02/2016 (bao gồm các dữ liệu bị lỗi); - Dữ liệu ràng buộc huấn luyện SVR: cơng suất và nhiệt độ tại thời điểm đo tương ứng điện năng tiêu thụ ở trên (từ 01/2011 – 02/2016). Huấn luyện SVR - Hệ số chuẩn hĩa C; - Tham số γ của hàm nhân Gaussian; - Và độ rộng của ống ε. Kết quả ước lượng - Mơ hình hĩa dữ liệu điện năng tiêu thụ thơng qua huấn luyện SVR; - Kiểm tra sai số của mơ hình hồi quy SVR; - Ước lượng các giá trị lỗi của dữ liệu bằng mơ hình hồi quy đã xây dựng. 32 Nguyễn Tuấn Dũng, Nguyễn Thanh Phương 3.3.2. Phương pháp xây dựng đường cong hồi quy bằng giải thuật SVR (Support Vector Regression) Ta xét dữ liệu đo đếm từ tháng 01/2014 đến tháng 02/2016, ta thấy cĩ 04 số liệu điện năng (ngày 10 ÷ 13/01/2015) bị lỗi ghi nhận bằng 0 – khơng đo đếm được và 03 số liệu điện năng (ngày 12 ÷ 14/02/2015) bị lỗi ghi nhận bằng rỗng – khơng lưu trữ được. Hình 6. Dữ liệu cơng suất, sản lượng, nhiệt độ bị lỗi Xây dựng bộ huấn luyện SVR sử dụng hàm lỗi ε- insensitive và hàm nhân Gaussian ta cĩ ba tham số cần tìm: hệ số chuẩn hĩa C, tham số γ của hàm nhân Gaussian và độ rộng của ống ε [9, 10]. Dùng ngơn ngữ lập trình Matlab version R2015 [11] để xây dựng chương trình ước lượng, với x1, x2 là 02 vector dữ liệu cơng suất và nhiệt độ ghi nhận theo ngày từ 01/01/2014 đến ngày 29/02/2016; Y là vector dữ liệu điện năng tiêu thụ ghi nhận theo ngày từ 01/01/2014 đến ngày 29/02/2016 (cĩ chứa các số liệu bị lỗi) cần được mơ hình hĩa. Xét mơ hình RegressionSVM: PredictorNames: {'x1' 'x2'} ResponseName: 'Y' Alpha: [490x1 double] Bias: 49.3329 KernelParameters: [1x1 struct] Mu: [2.8438 33.4579] Sigma: [0.4550 1.7019] NumObservations: 819 BoxConstraints: [819x1 double] IsSupportVector: [819x1 logical] Solver: 'SMO' • Kiểm tra sai số mơ hình: để đánh giá mơ hình hồi quy SRV vừa xây dựng, ta cĩ thể đánh giá sai số giữa dữ liệu cĩ được từ mơ hình với dữ liệu gốc từ ngày 01/02/2016 đến ngày 29/02/2016, cụ thể: Ngày Atổng ASVR Sai số 01/03/2016 61,32886 61,71895 0,64% 02/03/2016 62,03021 62,48851 0,74% 03/03/2016 62,96553 62,84238 -0,20% 04/03/2016 63,33033 63,32996 0,00% 05/03/2016 60,54942 60,80431 0,42% 06/03/2016 51,51996 51,34442 -0,34% 07/03/2016 61,3009 64,28201 4,86% 08/03/2016 62,66953 65,29363 4,19% 09/03/2016 62,32063 64,2593 3,11% 10/03/2016 63,39735 64,16269 1,21% 11/03/2016 63,12125 64,07474 1,51% 12/03/2016 62,35666 62,39124 0,06% 13/03/2016 53,77441 51,49986 -4,23% 14/03/2016 61,7763 65,688 6,33% 15/03/2016 64,74031 65,17506 0,67% 16/03/2016 63,42579 64,12583 1,10% 17/03/2016 64,34212 62,28785 -3,19% 18/03/2016 64,15241 63,88593 -0,42% 19/03/2016 61,46202 61,64864 0,30% 20/03/2016 53,37634 51,17158 -4,13% 21/03/2016 64,27811 65,7975 2,36% 22/03/2016 66,06186 65,64465 -0,63% 23/03/2016 66,52639 66,61304 0,13% 24/03/2016 65,63116 64,15241 -2,25% 25/03/2016 65,06465 66,22301 1,78% 26/03/2016 63,36537 62,74231 -0,98% 27/03/2016 53,32942 52,63901 -1,29% 28/03/2016 62,88254 66,04152 5,02% 29/03/2016 64,24489 65,20307 1,49% Sai số phần trăm tuyệt đối trung bình (MAPE) %8,1 A AA n 1*100MAPE t SVR tt =−= ∑ Như vậy, cho thấy độ tin cậy của mơ hình hồi quy là rất cao, mơ hình cĩ thể được sử dụng để ước lượng các số liệu bị lỗi nêu trên. Kết quả ước lượng số liệu bị lỗi: Ngày Aước lượng 10/01/2015 53,49000 11/01/2015 44,31028 12/01/2015 54,99426 13/01/2015 55,34134 12/02/2015 49,28852 13/02/2015 51,21877 14/02/2015 45,88848 Hình 7. Kết quả ước lượng các số liệu bị lỗi 0 10 20 30 40 50 60 .0 500.0 1000.0 1500.0 2000.0 2500.0 3000.0 3500.0 1/1/15 8/1/15 15/1/15 22/1/15 29/1/15 5/2/15 12/2/15 19/2/15 26/2/15 Pmax(MW) Atổng (triệu kWh) Nhiệt độ (C) 0 20 40 60 Aước lượng Atổng ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 3(112).2017-Quyển 1 33 4. Kết luận Mơ hình bộ huấn luyện SVR sử dụng hàm lỗi ε- insensitive và hàm nhân Gaussian đã giải quyết tốt yêu cầu xử lý các dữ liệu điện năng tiêu thụ bị lỗi trong quá trình đo đếm, dựa trên mối quan hệ ràng buộc của các dữ liệu thống kê cơng suất và nhiệt độ ghi nhận theo ngày tương ứng với lượng điện năng tiêu thụ. Qua đĩ, chúng ta đã xây dựng được cơng cụ tự động ước lượng các dữ liệu bị lỗi mà trước đây phải thực hiện thực một cách thủ cơng, nâng cao độ tin cậy trong việc phân tích, xử lý dữ liệu trong quá trình nghiên cứu phụ tải. Hướng phát triển sắp tới là sử dụng mơ hình bộ huấn luyện SVR kết hợp mơ hình Box-Jenkin, Neural Networks để triển khai cơng tác dự báo phụ tải điện ngắn hạn theo giờ, ngày cĩ xét đến các ràng buộc về nhiệt độ. TÀI LIỆU THAM KHẢO [1] J. W. Grzymala-Busse and M. Hu, “A comparison of several approaches to missing attribute values in data mining”, Proceedings of the Second International Conference on Rough Sets and Current Trends in Computing RSCTC'2000, October 16-19, 2000, Canada, page 340-347. [2] Jochen Hardt, Max Herke, Tamara Brian, Wilfried Laubach, “Multiple Imputation of Missing Data: A Simulation Study on a Binary Response”, Open Journal of Statistics, 2013, 3, page 370-378. [3] SAS Institute, Multiple Imputation for Missing Data: Concepts and New Approaches, 2005. [4] Yuan Yang C., Multiple imputation for Missing Data: Concepts and New Development (SAS Version 9.0), SAS Institute Inc., Rockville, MA) , 2011. [5] Nakai M and Weiming Ke., “Review of Methods for Handling Missing Data in Longitudinal Data Analysis”, Int. Journal of Math. Analysis, Vol. 5, no.1, 2011, page 1-13. [6] V.Vapnik, “The nature of statistical learning theory,” Springer, NY, 1995. [7] S.R. Gunn, Support Vector Machines for Classification and Regression, Technical Report, Image Speech and Intelligent Systems Research Group, University of Southampton, 1998. [8] V. Cherkassky, Y. Ma, 2002, Selection of Meta-parameters for Support Vector Regression, International Conference on Artificial Neural Networks, Madrid, Spain, Aug, page 687 – 693. [9] D. Basak, S. Pal, D.C. Patranabis, Oct. 2007, Support Vector Regression, Neural Information Processing – Letters and Reviews, Vol. 11, No. 10, page 203 – 224. [10] A.J. Smola, B. Schưlkopf, Aug. 2004, A Tutorial on Support Vector Regression, Statistics and Computing, Vol. 14, No. 3, page 199 – 222. [11] Understanding Support Vector Machine Regression and Support Vector Machine Regression, [12] Thơng tư số 33/2011/TT-BCT ngày 06/09/2011 của Bộ Cơng Thương về Quy định nội dung, phương pháp, trình tự và thủ tục nghiên cứu phụ tải điện. (BBT nhận bài: 06/02/2017, hồn tất thủ tục phản biện: 07/03/2017)

Các file đính kèm theo tài liệu này:

6_3538_2118442.pdf