Xác định cỡ mẫu trong nghiên cứu y học khi không có công thức: Phương pháp giả lập

Tài liệu Xác định cỡ mẫu trong nghiên cứu y học khi không có công thức: Phương pháp giả lập: Nghiên cứu Y học Y Học TP. Hồ Chí Minh * Phụ Bản Tập 22 * Số 1 * 2018 Chuyên Đề Y tế Công cộng – Khoa học Cơ bản 348 XÁC ĐỊNH CỠ MẪU TRONG NGHIÊN CỨU Y HỌC KHI KHÔNG CÓ CÔNG THỨC: PHƯƠNG PHÁP GIẢ LẬP Thái Thanh Trúc*, Bùi Thị Hy Hân** TÓM TẮT Mở đầu: Tính toán cỡ mẫu là một bước quan trọng trong xây dựng đề cương nghiên cứu khoa học. Từ nhu cầu ngày càng đa dạng các mục tiêu, cách triển khai nghiên cứu và sự thiếu hụt các công thức tính cỡ mẫu tương ứng thì việc tính toán cỡ mẫu dựa vào phương pháp giả lập trở nên hữu ích. Mục tiêu: Ứng dụng tính cỡ mẫu theo phương pháp giả lập và so sánh kết quả với các công thức hiện có. Đối tượng - Phương pháp nghiên cứu: Quy trình 5 bước để tính cỡ mẫu dựa vào giả lập số liệu được sử dụng với một số tình huống nghiên cứu, bao gồm so sánh hai trung bình, so sánh hai tỉ lệ và xây dựng mô hình hồi quy logistic. Tất cả thuật toán giả lập số liệu và phân tích thống kê được thực hiện bằng phần mềm Stata. Kết quả: Các lệnh Stat...

7 trang | Chia sẻ: Đình Chiến | Ngày: 13/07/2023 | Lượt xem: 712 | Lượt tải: 0

Bạn đang xem nội dung tài liệu Xác định cỡ mẫu trong nghiên cứu y học khi không có công thức: Phương pháp giả lập, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

Nghiên cứu Y học Y Học TP. Hồ Chí Minh * Phụ Bản Tập 22 * Số 1 * 2018 Chuyên Đề Y tế Công cộng – Khoa học Cơ bản 348 XÁC ĐỊNH CỠ MẪU TRONG NGHIÊN CỨU Y HỌC KHI KHÔNG CÓ CÔNG THỨC: PHƯƠNG PHÁP GIẢ LẬP Thái Thanh Trúc*, Bùi Thị Hy Hân** TÓM TẮT Mở đầu: Tính toán cỡ mẫu là một bước quan trọng trong xây dựng đề cương nghiên cứu khoa học. Từ nhu cầu ngày càng đa dạng các mục tiêu, cách triển khai nghiên cứu và sự thiếu hụt các công thức tính cỡ mẫu tương ứng thì việc tính toán cỡ mẫu dựa vào phương pháp giả lập trở nên hữu ích. Mục tiêu: Ứng dụng tính cỡ mẫu theo phương pháp giả lập và so sánh kết quả với các công thức hiện có. Đối tượng - Phương pháp nghiên cứu: Quy trình 5 bước để tính cỡ mẫu dựa vào giả lập số liệu được sử dụng với một số tình huống nghiên cứu, bao gồm so sánh hai trung bình, so sánh hai tỉ lệ và xây dựng mô hình hồi quy logistic. Tất cả thuật toán giả lập số liệu và phân tích thống kê được thực hiện bằng phần mềm Stata. Kết quả: Các lệnh Stata sử dụng để giả lập số liệu ngắn gọn. Kết quả tính cỡ mẫu chính xác và tương đồng so với công thức tính cỡ mẫu hiện có. Phương pháp này có thể áp dụng được để tính cỡ mẫu cho các trường hợp phức tạp như mô hình hồi quy logistic. Kết luận: Do không có đầy đủ công thức tính cỡ mẫu cho tất cả các tình huống nghiên cứu trong thực tế, việc tính cỡ mẫu dựa vào phương pháp giả lập số liệu cho thấy khả thi và chính xác. Tuy nhiên, việc triển khai phương pháp này đỏi hỏi kỹ thuật chuyên môn về toán thống kê, về lập trình cùng sự am hiểu phần mềm sử dụng tính cỡ mẫu mới đảm bảo được độ chính xác mong muốn. Từ khóa: cỡ mẫu, nghiên cứu y học, giả lập, công thức. ABSTRACT SAMPLE SIZE DETERMINATION IN MEDICAL RESEARCH WITHOUT FORMULA: SIMULATION APPROACH Thai Thanh Truc, Bui Thi Hy Han * Y Hoc TP. Ho Chi Minh * Supplement Vol. 22 - No 1- 2018: 347 - 353 Introduction: Sample size determination is an important step in designing a research protocol. Due to the need for various types of research objective and design as well as the lack of corresponding sample size calculation formula, sample size calculation using simulation becomes an useful approach. Objectives: To apply sample size calculation by simulation and to compare the results with existing formulas. Methods: We employed 5 steps in calculating sample size by data simulation for some research scenarios, including sample size to compare two means, sample size to compare two proportions and logistic regression. All algorithm for data simulation and data analysis were conducted using Stata. Results: Stata commands used to simulate data were brief. The results were precise and similar to those obtained from existing formulas. This approach can be used to calculate sample size for complex situations such as logistic regression. * Khoa YTCC, ĐH Y Dược TPHCM, ** Viện Y Tế Công Cộng TPHCM Tác giả liên lạc: TS. Thái Thanh Trúc ĐT: 0908381266 Email: thaithanhtruc@ump.edu.vn Y Học TP. Hồ Chí Minh * Phụ Bản Tập 22 * Số 1 * 2018 Nghiên cứu Y học Y tế Công cộng 349 Conclusion: Due to the lack of sample size formula for all research scenarios in the real life, calculating sample size using data simulation has been showed as a practical and precise approach. However, this approach requires advanced knowledge about statistics, programming and the software used to ensure the calculation precision. Keywords: sample size, medical research, simulation, formula. GIỚI THIỆU Tính toán cỡ mẫu là một bước quan trọng trong xây dựng đề cương nghiên cứu khoa học. Ứng với mỗi mục tiêu nghiên cứu đặt ra, nhà nghiên cứu tìm kiếm công thức tính cỡ mẫu và các tham số từ y văn để tính ra cỡ mẫu dự trù cần có cho nghiên cứu của mình(5). Ví dụ, với mục tiêu ước tính tỉ lệ hiện mắc tăng huyết áp trong cộng đồng, nhà nghiên cứu có thể sử dụng công thức tính cỡ mẫu để ước tính một tỉ lệ hiện mắc. Sau đó, dựa vào tỉ lệ tăng huyết áp tìm được trên y văn và sai số của ước lượng kèm mức độ tin cậy của ước lượng sẽ tính được cỡ mẫu tương ứng(5,8). Tuy nhiên, không phải lúc nào nhà nghiên cứu cũng có công thức tính cỡ mẫu cho mục tiêu nghiên của mình, đặc biệt là các trường hợp nghiên cứu phức tạp. Khi không có công thức tính cỡ mẫu, nhiều nhà nghiên cứu thường hay chọn cỡ mẫu dựa theo kinh nghiệm hoặc các quy tắc lòng bàn tay mặc dù điều này có thể không hoàn toàn chính xác(3, 8). Ví dụ, một số ít nhà nghiên cứu cho rằng cỡ mẫu 30 đối tượng là đủ cho các nghiên cứu lâm sàng. Mặc dù điều này giúp tăng tính khả thi của nghiên cứu, nhưng độ chính xác trong các tính toán hoặc phân tích kiểm định thống kê khi đã thu thập xong dữ liệu lại không cao. Một khi cỡ mẫu không đủ chính xác, các phép kiểm định không đủ sức mạnh thống kê thì nghiên cứu có thể không có giá trị và không thể ứng dụng trong thực tế. Một trong các cách tiếp cận tính cỡ mẫu trong trường hợp không có công thức là dựa vào giả lập ngẫu nhiên dữ liệu ứng với thông tin của các đặc điểm trong nghiên cứu và các kiểm định, mô hình vốn có sẵn trên hầu hết phần mềm thống kê để có được cỡ mẫu đảm bảo độ chính xác và sức mạnh thống kê phù hợp(2, 9). Từ nhu cầu ngày càng đa dạng các mục tiêu, cách triển khai nghiên cứu thì việc tính toán cỡ mẫu dựa vào phương pháp giả lập số liệu này càng trở nên hữu ích(7). Bài báo của chúng tôi nhằm giới thiệu nguyên tắc, phương pháp triển khai của kỹ thuật tính toán cỡ mẫu này trong nghiên cứu. Tuy nhiên, để cụ thể hóa và giúp so sánh được với các phương pháp tính cỡ mẫu truyền thống, tức là khi có công thức, phạm vi bài báo này dừng ở các tình huống về tính cỡ mẫu khi so sánh hai trung bình và khi so sánh hai tỉ lệ. Bài báo cũng áp dụng tính cỡ mẫu cho tình huống phức tạp hơn là hồi quy logistic. PHƯƠNG PHÁP Sức mạnh thống kê Về mặt toán thống kê, sức mạnh thống kê, còn gọi là lực mẫu, được hiểu là xác suất bác bỏ H0 khi H0 sai(8). Về mặt nghiên cứu có thể hiểu đơn giản hơn sức mạnh thống kê là xác suất nghiên cứu kết luận có liên quan có ý nghĩa thống kê khi thật sự có liên quan vốn đã được báo cáo trên y văn. Ví dụ, sức mạnh thống kê bằng 80% có nghĩa là nếu tiến hành 100 nghiên cứu thì sẽ có khoảng 80 nghiên cứu cho kết luận có liên quan. Ở đây, thông thường ‘có liên quan’ được quy ước là khi giá trị p của nghiên cứu nhỏ hơn 0,05. Cho nên, sức mạnh thống kê 80% cũng có nghĩa là có 80 nghiên cứu cho kết quả giá trị p < 0,05 khi tiến hành phân tích trên 100 mẫu nghiên cứu. Nếu khi phân tích trên 100 mẫu nghiên cứu mà có 60 nghiên cứu cho p < 0,05 thì sức mạnh thống kê tương ứng là 60%. Đây chính là cơ sở cho các phương pháp giả lập số liệu để từ đó xác định cỡ mẫu phù hợp. Nguyên tắc triển khai Nghiên cứu Y học Y Học TP. Hồ Chí Minh * Phụ Bản Tập 22 * Số 1 * 2018 Chuyên Đề Y tế Công cộng – Khoa học Cơ bản 350 của phương pháp này là giả lập số liệu nhiều lần và đếm tỉ lệ số lần có p<0,05 trong tất cả các lần giả lập số liệu đó. Quy trình tính cỡ mẫu dựa vào giả lập Quy trình này bao gồm 5 bước, được thể hiện trong Hình 1 bên dưới: Bước 1: Tạo các mẫu ngẫu nhiên với n1 quan sát dựa vào thông tin trong dân số về các đặc điểm nghiên cứu Bước 2: Thực hiện kiểm định thống kê hoặc xây dựng mô hình trên dữ liệu ngẫu nhiên để có được giá trị p Bước 3: Thực hiện lại bước 1 và 2 nhiều lần ứng với nhiều mẫu ngẫu nhiên khác nhau và tính tỉ lệ số lần có giá trị p < 0,05. Tỉ lệ này chính là sức mạnh thống kê tương ứng với cỡ mẫu n1 Bước 4: Tăng cỡ mẫu n1 thành n2 = n1 + k và lập lại bước 1, 2, 3 để có được sức mạnh thống kê tương ứng với cỡ mẫu n2 Bước 5: Cỡ mẫu cần thiết cho nghiên cứu là ni khi sức mạnh thống kê ứng với ni ≥ 80%. Hình 1: Quy trình tính cỡ mẫu dựa vào phương pháp giả lập số liệu KẾT QUẢ Tình huống 1: cỡ mẫu so sánh hai trung bình Nhà nghiên cứu muốn triển khai một khảo sát nhằm so sánh chỉ số khối cơ thể (BMI) ở thành thị và nông thôn Việt Nam. Để tính được cỡ mẫu theo phương pháp giả lập dữ liệu thì cần có các tham số của dân số, có thể dựa vào nghiên cứu trước đây. Trong trường hợp này, sau khi tham khảo y văn, nhà nghiên cứu biết được trung bình BMI ở thành thị là 21,2 ± 4,5 (kg/m2) và ở nông thôn là 20,5 ± 4,2 (kg/m2). Như vậy, thành thị có µThành thị = 21,2; σThành thị = 4,5 và nông thôn có µNông thôn = 20,5; σNông thôn = 4,2. Áp dụng quy trình giả lập để tính cỡ mẫu khi so sánh trung bình hai nhóm khi biết trung bình và độ lệch chuẩn của các nhóm như sau: Bước 1: Tạo hai mẫu ngẫu nhiên với cùng cỡ mẫu n = 100, trong đó mẫu thứ nhất có n1 = 100; x1 = 21,2; sd1 = 4,5 và mẫu thứ hai có n2 = 100; x2 = 20,5; sd2 = 4,2. Y Học TP. Hồ Chí Minh * Phụ Bản Tập 22 * Số 1 * 2018 Nghiên cứu Y học Y tế Công cộng 351 Bước 2: Thực hiện kiểm định t hai mẫu độc lập để có được giá trị p Bước 3: Thực hiện lại bước 1 và 2 trong 1000 lần ứng với 1000 mẫu ngẫu nhiên khác nhau và tính tỉ lệ số lần có giá trị p < 0,05 trong tổng số 1000 mẫu ngẫu nhiên. Bước 4: Tăng cỡ mẫu n1 = n1 + 50 và n2 = n2 + 50 và lặp lại bước 1, 2, 3 với cỡ mẫu 150. Tiếp tục tăng cỡ mẫu lên thành 200, 250, , 850, 900 và tính sức mạnh thống kê tương ứng với từng cỡ mẫu. Bước 5: Cỡ mẫu cần thiết cho nghiên cứu là ni khi sức mạnh thống kê ứng với ni ≥ 80%. Bảng 1: Các lệnh giả lập dữ liệu để tính cỡ mẫu so sánh hai trung bình trong Stata TT Lệnh Stata Giải thích 1 qui set seed 123 Khai báo mã ngẫu nhiên 2 forvalues n = 100(50)900 { Mẫu n=100, 150900 3 local power = 0 Sức mạnh ban đầu 4 forvalues i = 1(1)1000 { Chạy 1000 lần bước 1,2 5 quiet clear Xóa dữ liệu mỗi lần 6 quiet drawnorm thanhthi, mean(20.5) sd(4.2) n(`n') Tạo mẫu ngẫu nhiên 1 7 quiet drawnorm nongthon, mean(21.2) sd(4.5) n(`n') Tạo mẫu ngẫu nhiên 2 8 quiet ttest thanhthi == nongthon, unpaired Kiểm định t độc lập 9 if r(p)< 0.05 local power = `power' + 1 Đếm số lần p<0,05 10 } 11 local power = `power'/1000 Tính tỉ lệ p<0,05 12 di "N = `n' -> Power = `power'" Thể hiện ra màn hình 13 } Bảng 2: Cỡ mẫu và sức mạnh thống kê Cỡ mẫu Sức mạnh thống kê Tình huống 1: So sánh hai trung bình Tính huống 2: So sánh hai tỉ lệ Tình huống 3: Hồi quy logistic 100 0,196 0,363 0,311 150 0,281 0,527 0,418 200 0,373 0,636 0,544 250 0,425 0,745 0,647 300 0,481 0,810 0,726 350 0,556 0,880 0,819 400 0,608 0,910 0,856 450 0,682 0,942 0,901 500 0,693 0,957 0,921 Cỡ mẫu Sức mạnh thống kê Tình huống 1: So sánh hai trung bình Tính huống 2: So sánh hai tỉ lệ Tình huống 3: Hồi quy logistic 550 0,766 0,964 0,926 600 0,804 0,977 0,957 650 0,833 0,981 0,968 700 0,847 0,990 0,980 750 0,877 0,996 0,984 800 0,893 0,996 0,982 850 0,911 0,999 0,991 900 0,930 1,000 0,996 Kết quả từ bảng 2 cho thấy nếu sử dụng cỡ mẫu N = 100 cho nghiên cứu so sánh BMI ở thành thị và nông thôn ứng với các thông tin của dân số đã biết thì sức mạnh thống kê khi thực hiện kiểm định so sánh là 0,196 (19,6%). Khi tăng cỡ mẫu lên thành N = 200 thì sức mạnh thống kê đã có cải thiện và đạt mức 0,281 (28,1%) nhưng vẫn còn quá thấp để triển khai nghiên cứu. .2 .3 .4 .5 .6 .7 .8 .9 1 S ứ c m ạ n h t h ố n g k ê 100 200 300 400 500 600 700 800 900 Cỡ mẫu Hình 2: Cỡ mẫu và sức mạnh thống kê Hình 2 thể hiện mối liên hệ giữa cỡ mẫu và sức mạnh thống kê. Khi cỡ mẫu tăng thì sức mạnh thống kê tăng và ngược lại. Khi cỡ mẫu là 600 thì sức mạnh thống kê là 0,804 (80,4%) đã vượt mức 0,80 (80%). Như vậy, cần có ít nhất 600 đối tượng ở thành thị và 600 đối tượng ở nông thôn để tiến hành nghiên cứu. Khi cỡ mẫu tăng thêm thì sức mạnh thống kê sẽ tiếp tục tăng, nhưng sẽ tăng không đáng kể so với mức tăng của cỡ mẫu. Ví dụ, khi cỡ mẫu tăng từ 100 lên 200 thì sức mạnh thống kê tăng 0,177 (17,7%), nhưng khi cỡ mẫu tăng từ 600 Nghiên cứu Y học Y Học TP. Hồ Chí Minh * Phụ Bản Tập 22 * Số 1 * 2018 Chuyên Đề Y tế Công cộng – Khoa học Cơ bản 352 lên 700 thì sức mạnh thống kê chỉ tăng thêm 0,043 (4,3%). Với thông tin nghiên cứu như trên và áp dụng công thức tính cỡ mẫu để so sánh hai trung bình bằng công thức có sẵn sau đây thì cỡ mẫu cần có ít nhất 607 mỗi nhóm với kỳ vọng sai lầm loại 1 là 0,05 (5%), sai lầm loại hai là 0,20 (20%) và sức mạnh thống kê là 0,80 (80%). Tình huống 2: cỡ mẫu so sánh hai tỉ lệ Nghiên cứu nhằm so sánh tỉ lệ biến chứng ở hai phương pháp điều trị. Dựa vào hồi cứu y văn, tỉ lệ biến chứng ở phương pháp truyền thống là khoảng =30%. Nhà nghiên cứu muốn so sánh phương pháp cải tiến với kỳ vọng tỉ lệ biến chứng giảm 10%, còn =20%. Các bước giả lập dữ liệu để tính cỡ mẫu như sau: Bước 1: Tạo hai mẫu ngẫu nhiên với cùng cỡ mẫu n = 100, trong đó mẫu thứ nhất có tỉ lệ =30% và mẫu thứ hai có =20%. Bước 2: Thực hiện kiểm định Z so sánh tỉ lệ hai mẫu để có được giá trị p Bước 3: Thực hiện lại bước 1 và 2 trong 1000 lần ứng với 1000 mẫu ngẫu nhiên khác nhau và tính tỉ lệ số lần có giá trị p < 0,05 trong tổng số 1000 mẫu ngẫu nhiên. Bước 4: Tăng cỡ mẫu n1 = n1 + 50 và n2 = n2 + 50 và lặp lại bước 1, 2, 3 với cỡ mẫu 150. Tiếp tục tăng cỡ mẫu lên thành 200, 250, , 850, 900 và tính sức mạnh thống kê tương ứng với từng cỡ mẫu. Bước 5: Cỡ mẫu cần thiết cho nghiên cứu là ni khi sức mạnh thống kê ứng với ni ≥ 80%. Kết quả chạy lệnh trong Stata được thể hiện trong bảng 2 và cho thấy nếu sử dụng cỡ mẫu N = 100 cho nghiên cứu so sánh tỉ lệ biến chứng ở hai phương pháp điều trị thì sức mạnh thống kê khi thực hiện kiểm định so sánh là 0,363 (36,3%). Khi tăng cỡ mẫu lên thành N = 300 thì sức mạnh thống kê đã cải thiện và vượt qua mức thường dùng là 80%. Như vậy, nghiên cứu có thể triển khai với cỡ mẫu N = 300 mỗi nhóm với kỳ vọng sức mạnh thống kê sẽ vào mức 0,810 (81%). Bảng 3: Các lệnh giả lập dữ liệu để tính cỡ mẫu so sánh hai tỉ lệ trong Stata TT Lệnh Stata Giải thích 1 qui set seed 123 Khai báo mã ngẫu nhiên 2 forvalues n = 100(50)900 { Mẫu n=100, 150900 3 local power = 0 Sức mạnh ban đầu 4 forvalues i = 1(1)1000 { Chạy 1000 lần bước 1,2 5 quiet clear Xóa dữ liệu mỗi lần 6 quiet set obs `n' Khai báo số quan sát 7 quiet gen truyenthong = runiform() <= 0.3 Tạo mẫu ngẫu nhiên 1 8 quiet gen caitien = runiform() <= 0.2 Tạo mẫu ngẫu nhiên 2 9 quiet prtest truyenthong = caitien Kiểm định Z 10 local p = 2*normprob(-abs(r(z))) Tính giá trị p 11 if `p’ < 0.05 local power = `power' + 1 Đếm số lần p<0,05 12 } 13 local power = `power'/1000 Tính tỉ lệ p<0,05 14 di "N = `n' -> Power = `power'" Thể hiện ra màn hình 15 } Với thông tin nghiên cứu như trên và áp dụng công thức tính cỡ mẫu để so sánh hai tỉ lệ bằng công thức có sẵn sau đây thì cỡ mẫu cần có ít nhất 294 mỗi nhóm với kỳ vọng sai lầm loại 1 là 0,05 (5%), sai lầm loại hai là 0,20 (20%) và sức mạnh thống kê là 0,80 (80%). Tình huống 3: cỡ mẫu cho xây dựng mô hình hồi quy logistic Nghiên cứu nhằm dự báo tình trạng sinh nhẹ cân ở trẻ sinh ra bằng phương pháp thụ tinh trong ống nghiệm, trong đó yếu tố quan trọng cần đánh giá là tuổi thai. Qua tham khảo y văn, tác giả ghi nhận được phương trình hồi quy logistic sử dụng tuổi thai để dự báo tình trạng sinh nhẹ cân là: Logit (Nhẹ cân) = 32,3 – 0,9 x Y Học TP. Hồ Chí Minh * Phụ Bản Tập 22 * Số 1 * 2018 Nghiên cứu Y học Y tế Công cộng 353 Tuổi thai, trong đó tuổi thai có phân phối bình thường với trung bình là 38,6 tuần và phương sai là 0,36 [Tuổi Thai ~ N(38,6; 0,36)]. Các bước giả lập dữ liệu để tính cỡ mẫu như sau: Bước 1: Tạo mẫu ngẫu nhiên cho tuổi thai với n = 100, trung bình là 38,6 và độ lệch chuẩn là 0,6. Tạo mẫu ngẫu nhiên cho nhẹ cân dựa vào phương trình hồi quy logistic trên y văn. Bước 2: Thực hiện hồi quy logistic của nhẹ cân theo tuổi thai để có được giá trị p của tuổi thai Bước 3: Thực hiện lại bước 1 và 2 trong 1000 lần ứng với 1000 mẫu ngẫu nhiên khác nhau và tính tỉ lệ số lần có giá trị p < 0,05 trong tổng số 1000 mẫu ngẫu nhiên. Bước 4: Tăng cỡ mẫu n = n + 50 và lặp lại bước 1, 2, 3 với cỡ mẫu 150. Tiếp tục tăng cỡ mẫu lên thành 200, 250, , 850, 900 và tính sức mạnh thống kê tương ứng với từng cỡ mẫu. Bước 5: Cỡ mẫu cần thiết cho nghiên cứu là ni khi sức mạnh thống kê ứng với ni ≥ 80%. Bảng 4: Các lệnh giả lập dữ liệu để tính cỡ mẫu cho hồi quy logistic trong Stata TT Lệnh Stata Giải thích 1 qui set seed 123 Khai báo mã ngẫu nhiên 2 forvalues n = 100(50)900 { Mẫu n=100, 150900 3 local power = 0 Sức mạnh ban đầu 4 forvalues i = 1(1)1000 { Chạy 1000 lần bước 1,2 5 quiet clear Xóa dữ liệu mỗi lần 6 quiet drawnorm tuoithai, mean(38.6) sd(0.6) n(`n') Tạo mẫu ngẫu nhiên 7 quiet gen nhecan = uniform() < invlogit(32.3 - 0.9 * tuoithai) Tạo mẫu ngẫu nhiên cho nhẹ cân 8 quiet logit nhecan tuoithai Hồi quy logistic 9 quiet matrix define p = r(table) Lấy giá trị p ra 10 if p[4,1] < 0.05 local power = `power' + 1 Đếm số lần p<0,05 11 } 12 local power = `power'/1000 Tính tỉ lệ p<0,05 13 di "N = `n' -> Power = `power'" Thể hiện ra màn hình 14 } Kết quả chạy lệnh trên Stata được thể hiện trong bảng 2 và cho thấy nếu sử dụng cỡ mẫu N = 100 cho nghiên cứu thì sức mạnh thống kê khi xây dựng mô hình hồi quy logistic chỉ ở mức 0,311 (31,1%). Khi tăng cỡ mẫu lên thành N = 350 thì sức mạnh thống kê đã cải thiện và vượt qua mức thường dùng là 80%. Như vậy, nghiên cứu có thể triển khai với cỡ mẫu N = 350 với kỳ vọng sức mạnh thống kê sẽ vào mức 0,819 (81,9%). BÀN LUẬN Mặc dù công thức tính cỡ mẫu có thể giúp nhà nghiên cứu ước tính được số lượng đối tượng cần có cho nghiên cứu, nhưng nhiều trường hợp nghiên cứu không có công thức tính cỡ mẫu tương ứng. Phương pháp tính cỡ mẫu dựa vào việc giả lập số liệu từ thông tin đã biết về dân số để từ đó có thể áp dụng các kiểm định hoặc mô hình thống kê phân tích nhằm tính sức mạnh thống kê như đã trình bày bên trên tỏ ra là một trong các phương pháp thay thế hiệu quả, chính xác. Điểm thuận lợi của phương pháp này là không cần công thức tính bởi vì nhà nghiên cứu có thể dùng các kiểm định và mô hình vốn đã có sẵn ở hầu hết các phần mềm thống kê, ví dụ như Stata(9). Với sự phát triển của toán thống kê cùng sự trợ giúp của máy tính, các kiểm định thống kê và mô hình gần như đã có đủ cho tất cả các loại dữ liệu, ví dụ kiểm định t để so sánh hai trung bình, kiểm định ANOVA để so sánh nhiều trung bình, hồi quy tuyến tính, hồi quy logistic(6, 8). Cho nên, phương pháp này có thể được thực hiện cho hầu hết các loại dữ liệu khác nhau, kể cả các mô hình phức tạp(9). Kết quả kiểm chứng khi so sánh cỡ mẫu nếu dùng công thức sẵn có cho kết quả tương tự nhau. Tuy nhiên, phương pháp giả lập số liệu để tính cỡ mẫu cũng có những khó khăn nhất định. Đầu tiên, việc triển khai giả lập đòi hỏi nhà nghiên cứu có kiến thức cơ bản về thuật toán và lập trình trên phần mềm sử dụng để giả lập nhằm triển khai tính toán chính xác. Ví dụ, cần biết về mã lập trình của Stata để tính cỡ mẫu trên Stata hoặc mã lập trình của R để Nghiên cứu Y học Y Học TP. Hồ Chí Minh * Phụ Bản Tập 22 * Số 1 * 2018 Chuyên Đề Y tế Công cộng – Khoa học Cơ bản 354 tính cỡ mẫu trên R. Thứ hai, việc giả lập số liệu có thể gặp khó khăn nếu không có kiến thức chuyên sâu về thống kê. Ví dụ, trong tình huống 3, để tính được xác suất của nhẹ cân thì cần áp dụng công thức của hồi quy logistic là r = ea + bx / (1+ea + bx)(6,8). Trong Stata, việc tính toán xác suất này được thực hiện thông qua hàm invlogit (dòng 7, Bảng 4)(1). Thứ ba, trong một số trường hợp mô hình phức tạp thì việc lượng giá có ý nghĩa thống kê hay không để từ đó tính sức mạnh thống kê có thể bị sai lệch do giá trị p không hẳn đã đánh giá chính xác độ phù hợp của mô hình mà còn phải dựa vào các chỉ số đánh giá độ phù hợp mô hình khác(3, 4). Cuối cùng, với các mô hình phức tạp, cỡ mẫu tính được theo phương pháp giả lập có thể không thuyết phục được nhiều nhà nghiên cứu bởi chưa có công thức hoặc cách khác nhằm kiểm chứng mức độ chính xác của cỡ mẫu tính được. KẾT LUẬN Do không có đầy đủ công thức tính cỡ mẫu cho tất cả các tình huống nghiên cứu trong thực tế, việc tính cỡ mẫu dựa vào phương pháp giả lập số liệu cho thấy khả thi và chính xác. Tuy nhiên, việc triển khai phương pháp này đỏi hỏi kỹ thuật chuyên môn về toán thống kê, về lập trình cùng sự am hiểu phần mềm sử dụng tính cỡ mẫu mới đảm bảo được độ chính xác mong muốn. Việc nghiên cứu các công thức tính cỡ mẫu tương ứng với sự đa dạng trong thực tế nghiên cứu là cần thiết. TÀI LIỆU THAM KHẢO 1. Baum CF (2009), An Introduction to Stata Programming, CRC Press Inc, pp.47-49. 2. Bush S (2015), "Sample Size Determination for Logistic Regression: A Simulation Study". Communications in Statistics - Simulation and Computation, 44 (2): 360-373. 3. Harrell FE (2001), Regression modeling strategies: with applications to linear models, logistic regression, and survival analysis, Springer, New York, pp.230-234. 4. Hosmer DW, Lemeshow S, Sturdivant RX (2013), Applied logistic regression, Wiley, Hoboken, New Jersey, pp.90-93. 5. Hulley SB (2013), Designing clinical research, Wolters Kluwer/Lippincott Williams & Wilkins, Philadelphia, pp.65-96. 6. Kirkwood BR, Jonathan AC Sterne (2003), Essential medical statistics, Blackwell Science, Malden, Mass, pp.189-192. 7. Landau S, Stahl D (2013), "Sample size and power calculations for medical studies by simulation when closed form expressions are not available". Stat Methods Med Res, 22 (3): 324-45. 8. Rosner B (2011), Fundamentals of biostatistics, Brooks/Cole, Cengage Learning, Boston, pp.427-431. 9. Vasishth S, Broe M (2011), The Foundations of Statistics: A Simulation-based Approach, Springer Berlin Heidelberg, Berlin, Heidelberg, pp.81-96. Ngày nhận bài báo: 02/11/2017 Ngày phản biện nhận xét bài báo: 17/11/2017 Ngày bài báo được đăng: 15/03/2018

Các file đính kèm theo tài liệu này:

xac_dinh_co_mau_trong_nghien_cuu_y_hoc_khi_khong_co_cong_thu.pdf