Kinh tế lượng (Phần 5: Khuyết tật của mô hình, Tự tương quan và Sai lầm chỉ định mô hình)
BÀI GIẢNG KINH TẾ LƯỢNG PHẦN 5 KHUYẾT TẬT CỦA MÔ HÌNH Tự tương quan và Sai lầm chỉ định mô hình Mục tiêu tổng quát của phần họcSau bài này, sinh viên có thể…
KHUYẾT TẬT CỦA MÔ HÌNH
Tự tương quan và Sai lầm chỉ định mô hình
Mục tiêu tổng quát của phần học
Sau bài này, sinh viên có thể nhận diện hai nhóm khuyết tật rất thường gặp trong nghiên cứu thực nghiệm: tự tương quan và sai lầm chỉ định mô hình.
Sinh viên biết hậu quả của từng khuyết tật đối với ước lượng OLS và suy luận thống kê; biết chọn kiểm định phù hợp; biết phân biệt khi nào cần sửa mô hình, khi nào chỉ sửa sai số chuẩn.
Vấn đề
Dữ liệu hay gặp
Triệu chứng
Công cụ chẩn đoán
Cách xử lý chính
Tự tương quan
Chuỗi thời gian, dữ liệu bảng theo thời gian
Phần dư có xu hướng kéo dài cùng dấu hoặc dao động theo chu kỳ
Hệ số khó giải thích, dấu sai, phần dư có mẫu hình, mô hình nhạy với biến thêm/bớt
Lý thuyết, kiểm định F/t, AIC/BIC, RESET Ramsey
Bổ sung biến, đổi dạng hàm, mô hình hóa tương tác/trễ, kiểm tra độ nhạy
Thông điệp xuyên suốt
Trong kinh tế lượng, ước lượng không chỉ là bấm phần mềm để lấy hệ số. Người nghiên cứu phải hỏi: mô hình có phản ánh đúng cơ chế kinh tế không? Sai số có độc lập không? Sai số chuẩn có đáng tin không?
Cách học hiệu quả
Đừng học thuộc máy móc công thức kiểm định. Hãy luôn trả lời 4 câu hỏi: (1) H0 là gì? (2) Dữ liệu nào phù hợp? (3) Bác bỏ H0 nghĩa là gì? (4) Sau khi phát hiện vấn đề, sửa bằng cách nào?
Khi đọc kết quả phần mềm, hãy nhìn đồng thời: hệ số, sai số chuẩn, p-value, đồ thị phần dư, bối cảnh kinh tế và độ nhạy của kết quả khi thay đổi mô hình.
Xét mô hình hồi quy tuyến tính tổng quát:
Mô hình cơ sở
y_t = β0 + β1X1_t + β2X2_t + … + βkXk_t + u_t
Trong các phần trước, ta thường giả định sai số có kỳ vọng bằng 0 có điều kiện theo các biến giải thích, phương sai không đổi, không tương quan với nhau, và mô hình được chỉ định đúng. Trong phần này, hai nhóm giả định cần chú ý là:
Không có tự tương quan: Cov(u_t, u_s | X) = 0 với mọi t khác s. Nói đơn giản: sai số kỳ này không có quan hệ có hệ thống với sai số kỳ trước.
Mô hình được chỉ định đúng: các biến quan trọng không bị bỏ sót, không đưa dạng hàm sai, không dùng mô hình quá đơn giản so với cơ chế kinh tế thực tế.
Điểm sinh viên hay nhầm
Một mô hình có R² cao không đồng nghĩa mô hình đúng. Một mô hình có hệ số có ý nghĩa thống kê cũng chưa chắc dùng được nếu sai số chuẩn bị sai hoặc biến quan trọng bị bỏ sót.
Vi phạm
Tác động thường gặp đến OLS
Điều cần nhớ
Tự tương quan, nhưng biến giải thích ngoại sinh
Hệ số OLS có thể vẫn không chệch, nhưng không hiệu quả; sai số chuẩn, kiểm định t/F có thể sai
Vấn đề chính là suy luận thống kê và dự báo
Bỏ sót biến quan trọng có tương quan với biến đã đưa vào
Hệ số OLS bị thiên lệch và không vững
Đây là vấn đề nghiêm trọng về nhân quả và diễn giải
Đưa thừa biến không liên quan
Không gây thiên lệch nếu biến thừa ngoại sinh, nhưng làm tăng phương sai và giảm bậc tự do
Mô hình có thể kém chính xác, kém gọn
Sai dạng hàm
Hệ số có thể bị thiên lệch, phần dư có mẫu hình, dự báo kém
2. Hiện tượng tự tương quan trong dữ liệu chuỗi thời gian
Tự tương quan xảy ra khi sai số của các quan sát khác nhau có tương quan với nhau. Trong dữ liệu chuỗi thời gian, điều này thường có nghĩa là sai số ở kỳ hiện tại có liên hệ với sai số ở kỳ trước.
Định nghĩa toán học
Không có tự tương quan: Cov(u_t, u_s | X) = 0 với t ≠ s.
Tự tương quan bậc 1 dạng AR(1): u_t = ρu_{t-1} + v_t, với |ρ| < 1 và v_t là nhiễu trắng.
Nếu ρ > 0: sai số dương thường nối tiếp sai số dương; sai số âm thường nối tiếp sai số âm. Nếu ρ < 0: sai số có xu hướng đổi dấu luân phiên.
Hình 1. Phần dư có chuỗi cùng dấu là tín hiệu trực quan của tự tương quan dương.
2.1. Bản chất kinh tế của tự tương quan
Trong kinh tế, nhiều đại lượng có tính quán tính: GDP, tiêu dùng, lạm phát, lãi suất, thất nghiệp, doanh thu theo tháng… Nếu mô hình bỏ qua độ trễ, xu thế hoặc chu kỳ mùa vụ, phần chưa giải thích được ở kỳ trước dễ tiếp tục xuất hiện ở kỳ sau.
Tính quán tính: hành vi tiêu dùng, đầu tư, giá cả thường điều chỉnh chậm theo thời gian.
Biến bị bỏ sót có tính chuỗi: ví dụ kỳ vọng lạm phát, năng lực quản trị, xu thế công nghệ.
Dữ liệu được làm trơn hoặc nội suy: chỉ số kinh tế vĩ mô, dữ liệu kế toán, dữ liệu năm tài chính.
Sai dạng hàm hoặc thiếu biến trễ: mô hình tĩnh trong khi cơ chế kinh tế là động.
Mùa vụ hoặc chu kỳ kinh doanh: doanh số, du lịch, nông nghiệp, bán lẻ theo tháng/quý.
Không nên hiểu sai
Tự tương quan không phải là tương quan giữa các biến giải thích X. Nếu X1 và X2 tương quan mạnh, đó là đa cộng tuyến. Nếu u_t và u_{t-1} tương quan, đó là tự tương quan.
2.2. Tự tương quan dương và âm
Dạng
Biểu hiện phần dư
Ví dụ trực giác
Hậu quả thường gặp
Tự tương quan dương
Phần dư cùng dấu kéo dài thành chuỗi
GDP thực tế cao hơn dự báo trong vài quý liên tiếp
Sai số chuẩn OLS thường bị đánh giá thấp trong nhiều mô hình xu hướng, làm t-stat lớn giả tạo
Tự tương quan âm
Phần dư đổi dấu luân phiên
Điều chỉnh tồn kho quá mức: kỳ này vượt, kỳ sau hụt
Ít gặp hơn trong kinh tế vĩ mô; DW thường lớn hơn 2
2.3. Hậu quả đối với ước lượng OLS
Điểm khó nhất với sinh viên là phân biệt tác động đến hệ số và tác động đến suy luận thống kê. Nếu các biến giải thích vẫn ngoại sinh nghiêm ngặt, OLS có thể vẫn không chệch, nhưng không còn là ước lượng hiệu quả nhất trong lớp tuyến tính không chệch. Quan trọng hơn, công thức sai số chuẩn OLS thông thường không còn đúng.
Câu hỏi
Trả lời ngắn
Giải thích
Hệ số OLS có nhất thiết bị chệch không?
Không nhất thiết
Nếu E(u_t | X) = 0 vẫn đúng, hệ số OLS có thể không chệch
OLS còn BLUE không?
Không
Giả định không tương quan giữa sai số bị vi phạm nên OLS không hiệu quả
Kiểm định t/F thông thường còn đáng tin không?
Không
Sai số chuẩn bị tính sai, dẫn đến p-value và khoảng tin cậy sai
Dự báo bị ảnh hưởng không?
Có
Sai số dự báo có cấu trúc chuỗi nên khoảng dự báo thông thường dễ sai
Ghi nhớ trọng tâm
Tự tương quan thường không làm hệ số OLS tự động sai về mặt trung bình, nhưng làm sai độ chính xác đo lường của hệ số. Vì vậy, kết luận ‘có ý nghĩa thống kê’ có thể trở nên quá lạc quan hoặc quá bi quan.
3. Phát hiện tự tương quan
3.1. Đọc đồ thị phần dư trước khi kiểm định
Trước khi dùng kiểm định chính thức, nên vẽ phần dư theo thời gian. Đây là thao tác rất quan trọng vì kiểm định có thể không chỉ ra nguyên nhân cụ thể, trong khi đồ thị giúp phát hiện xu thế, mùa vụ, điểm gãy cấu trúc hoặc ngoại lệ.
Nếu phần dư tạo thành từng cụm dương/âm kéo dài: nghi ngờ tự tương quan dương.
Nếu phần dư dao động lên xuống đều đặn: nghi ngờ tự tương quan âm hoặc chu kỳ chưa mô hình hóa.
Nếu biên độ phần dư tăng dần theo thời gian: có thể vừa có tự tương quan vừa có phương sai sai số thay đổi.
Thói quen tốt khi làm nghiên cứu
Sau mỗi hồi quy chuỗi thời gian, hãy lưu phần dư, vẽ phần dư theo thời gian, vẽ ACF/PACF nếu cần, rồi mới đọc các kiểm định. Đừng chỉ nhìn p-value.
3.2. Kiểm định Durbin-Watson
Kiểm định Durbin-Watson (DW) là kiểm định kinh điển để phát hiện tự tương quan bậc nhất trong mô hình hồi quy chuỗi thời gian.
Trong đó r_hat là hệ số tương quan mẫu bậc 1 của phần dư.
Hình 2. Cách đọc nhanh thống kê Durbin-Watson.
Giá trị d
Diễn giải trực giác
d ≈ 2
Không có bằng chứng rõ ràng về tự tương quan bậc 1
d < 2
Có xu hướng tự tương quan dương; càng gần 0 càng mạnh
d > 2
Có xu hướng tự tương quan âm; càng gần 4 càng mạnh
Điều kiện áp dụng DW
Mô hình có hằng số chặn.
Kiểm định chủ yếu cho tự tương quan bậc 1.
Không nên dùng DW chuẩn khi mô hình có biến phụ thuộc trễ ở vế phải, ví dụ y_{t-1}. Khi đó nên dùng Breusch-Godfrey hoặc kiểm định chuyên biệt khác.
Kết luận chính thức cần so sánh với bảng giới hạn d_L, d_U; có vùng không kết luận được.
Các giả thuyết thường dùng
Mục tiêu
H0
H1
Dấu hiệu bác bỏ
Tự tương quan dương
ρ = 0
ρ > 0
d quá nhỏ
Tự tương quan âm
ρ = 0
ρ < 0
d quá lớn
Hai phía
ρ = 0
ρ ≠ 0
d xa 2 về hai phía
3.3. Kiểm định Breusch-Godfrey
Breusch-Godfrey (BG) là kiểm định tổng quát hơn DW. BG kiểm định được tự tương quan bậc cao AR(p) và vẫn sử dụng được trong nhiều mô hình có biến phụ thuộc trễ.
Ước lượng mô hình gốc bằng OLS và lấy phần dư e_t.
Chọn bậc p của tự tương quan cần kiểm định, ví dụ p = 1, 2, 4 hoặc 12 tùy tần suất dữ liệu.
Chạy hồi quy phụ e_t theo các biến giải thích gốc và các phần dư trễ e_{t-1}, …, e_{t-p}.
Dùng thống kê LM = nR², xấp xỉ phân phối Chi-square với p bậc tự do; hoặc dùng F-test cho các hệ số phần dư trễ.
Nếu p-value nhỏ, bác bỏ H0: có bằng chứng tự tương quan đến bậc p.
DW hay BG?
Nếu mô hình đơn giản, không có biến phụ thuộc trễ, nghi ngờ AR(1), DW có thể dùng như kiểm tra nhanh. Nếu mô hình có biến phụ thuộc trễ, nghi ngờ tự tương quan bậc cao hoặc cần kiểm định tổng quát hơn, dùng Breusch-Godfrey.
4. Khắc phục tự tương quan
Không có một cách sửa duy nhất cho mọi trường hợp. Cách khắc phục phụ thuộc vào mục tiêu: muốn ước lượng lại cấu trúc mô hình hay chỉ muốn sai số chuẩn đáng tin hơn.
Hình 4. Khác biệt giữa sửa hệ số bằng FGLS và sửa sai số chuẩn bằng Newey-West.
4.1. Bước đầu tiên: xem lại chỉ định mô hình
Tự tương quan đôi khi không phải là ‘bệnh riêng của sai số’ mà là dấu hiệu mô hình thiếu cấu trúc kinh tế quan trọng. Vì vậy, trước khi dùng kỹ thuật sửa sai số, cần xem lại mô hình.
Có cần thêm xu thế thời gian không? Ví dụ time trend trong mô hình doanh thu hoặc GDP.
Có cần thêm biến giả mùa vụ không? Ví dụ quý, tháng, mùa vụ bán hàng.
Có cần thêm biến trễ của Y hoặc X không? Ví dụ tác động của lãi suất đến đầu tư không xuất hiện ngay.
Có điểm gãy cấu trúc do chính sách, khủng hoảng, dịch bệnh, thay đổi phương pháp đo lường không?
Nguyên tắc thực nghiệm
Nếu tự tương quan xuất phát từ mô hình thiếu biến hoặc sai dạng hàm, chỉ dùng Newey-West có thể làm p-value ‘đẹp’ hơn nhưng không giải quyết nguyên nhân kinh tế. Hãy sửa mô hình trước, sửa sai số chuẩn sau nếu còn cần.
4.2. Biến đổi Cochrane-Orcutt và Prais-Winsten
Giả sử sai số theo AR(1): u_t = ρu_{t-1} + v_t. Nếu biết ρ, ta có thể biến đổi mô hình để loại bỏ tự tương quan trong sai số.
Ý tưởng biến đổi AR(1)
Mô hình gốc: y_t = β0 + β1x_t + u_t
Trừ ρ lần phương trình kỳ trước: y_t – ρy_{t-1} = β0(1 – ρ) + β1(x_t – ρx_{t-1}) + v_t
Vì ρ không biết, Cochrane-Orcutt ước lượng ρ từ phần dư rồi lặp lại đến khi hội tụ.
Phương pháp
Ý tưởng
Điểm cần nhớ
Cochrane-Orcutt
Ước lượng ρ, biến đổi dữ liệu từ t=2 trở đi
Bỏ quan sát đầu tiên sau biến đổi; hệ số có thể thay đổi so với OLS
Prais-Winsten
Tương tự nhưng giữ quan sát đầu bằng biến đổi riêng
Thường được ưa dùng hơn khi mẫu nhỏ vì không mất quan sát đầu
FGLS tổng quát
Ước lượng cấu trúc phương sai-hiệp phương sai của sai số rồi GLS
Hiệu quả nếu cấu trúc sai số được mô hình hóa đúng
4.3. Sai số chuẩn Newey-West
Sai số chuẩn Newey-West thuộc nhóm HAC (Heteroskedasticity and Autocorrelation Consistent). Phương pháp này không thay đổi hệ số OLS mà thay đổi cách tính ma trận phương sai của hệ số để bền vững hơn với tự tương quan và phương sai sai số thay đổi trong mẫu lớn.
Khi nên dùng Newey-West
Mục tiêu chính là suy luận về hệ số OLS, không nhất thiết mô hình hóa quá trình AR(1).
Dữ liệu chuỗi thời gian đủ lớn để lập luận tiệm cận hợp lý.
Có nghi ngờ tự tương quan và/hoặc phương sai sai số thay đổi, nhưng chưa muốn thay đổi hệ số hồi quy.
Cần chọn độ trễ/bandwidth phù hợp; chọn quá thấp có thể chưa sửa đủ, quá cao có thể làm sai số chuẩn kém chính xác.
Tiêu chí
Cochrane-Orcutt/Prais-Winsten
Newey-West
Có thay đổi hệ số không?
Có thể có
Không, giữ hệ số OLS
Mục tiêu
Mô hình hóa cấu trúc sai số AR(1) và ước lượng hiệu quả hơn
Làm sai số chuẩn bền vững để kiểm định đáng tin hơn
Phụ thuộc giả định cấu trúc sai số
Cao hơn
Ít hơn nhưng dựa vào mẫu lớn và chọn bandwidth
Dùng khi
Tin rằng sai số AR(1) là mô tả hợp lý
Muốn suy luận bền vững mà không thay đổi mô hình trung bình
Lỗi diễn giải phổ biến
Không được nói ‘Newey-West đã loại bỏ tự tương quan’. Nói đúng hơn: Newey-West điều chỉnh sai số chuẩn để suy luận bền vững hơn trước tự tương quan và phương sai sai số thay đổi.
5. Sai lầm chỉ định mô hình
Sai lầm chỉ định mô hình xảy ra khi mô hình ước lượng không phù hợp với quan hệ kinh tế thực tế hoặc không phù hợp với quá trình tạo dữ liệu. Đây là lỗi rất nghiêm trọng vì nó có thể làm hệ số bị thiên lệch, mất ý nghĩa kinh tế và dẫn đến khuyến nghị chính sách sai.
Hình 5. Quy trình chẩn đoán mô hình trong nghiên cứu thực nghiệm.
5.1. Các dạng sai chỉ định thường gặp
Dạng sai chỉ định
Ví dụ
Dấu hiệu thường thấy
Hướng xử lý
Bỏ sót biến quan trọng
Ước lượng tiền lương theo học vấn nhưng bỏ sót kinh nghiệm
Hệ số có dấu/quy mô bất thường; mô hình nhạy khi thêm biến
Bổ sung biến, dùng proxy, dữ liệu bảng, biến công cụ nếu cần
Đưa thừa biến không liên quan
Thêm biến không có cơ sở lý thuyết chỉ để tăng R²
Sai số chuẩn tăng, hệ số mất ý nghĩa
Loại biến không cần thiết, dùng kiểm định F/t và lý thuyết
Sai dạng hàm
Quan hệ thu nhập-tiêu dùng phi tuyến nhưng dùng tuyến tính đơn giản
Phần dư có hình cong; RESET bác bỏ
Dùng log, bậc hai, tương tác, spline nếu phù hợp
Thiếu cấu trúc động
Mô hình lạm phát không có lạm phát trễ
Tự tương quan phần dư
Thêm biến trễ, mô hình ARDL hoặc mô hình động
Bỏ qua điểm gãy cấu trúc
Trước/sau chính sách, khủng hoảng, COVID-19
Hệ số thay đổi theo giai đoạn
Biến giả, tương tác, kiểm định Chow, mô hình theo giai đoạn
Điểm quan trọng
Sai chỉ định không chỉ là lỗi kỹ thuật. Nó là lỗi trong câu chuyện kinh tế mà mô hình đang kể. Một mô hình có vẻ ‘đẹp’ về thống kê nhưng sai cơ chế kinh tế vẫn không nên dùng để kết luận chính sách.
5.2. Hậu quả của bỏ sót biến quan trọng
Bỏ sót biến quan trọng là một trong những nguồn gây thiên lệch phổ biến nhất. Hãy xét mô hình đúng có hai biến giải thích:
Mô hình đúng và mô hình bị bỏ sót biến
Mô hình đúng: y = β0 + β1X1 + β2Z + u
Mô hình sai: y = α0 + α1X1 + v, trong đó Z bị bỏ sót.
Nếu Z vừa ảnh hưởng đến y vừa tương quan với X1, thì α1 không còn ước lượng đúng β1.
Hình 6. Hai điều kiện tạo ra thiên lệch do bỏ sót biến.
Công thức thiên lệch do bỏ sót biến
plim(α1_hat) = β1 + β2 · Cov(X1, Z) / Var(X1)
Thiên lệch = β2 · Cov(X1, Z) / Var(X1)
Điều kiện
Nếu không thỏa
Nếu thỏa
Z ảnh hưởng đến Y
Nếu β2 = 0, bỏ Z không gây thiên lệch cho β1
Z là biến quan trọng về mặt kinh tế
Z tương quan với X1
Nếu Cov(X1,Z)=0, bỏ Z không gây thiên lệch cho β1
X1 gánh một phần tác động của Z
Cả hai điều kiện
Không có thiên lệch do bỏ sót biến
Có thiên lệch và diễn giải hệ số X1 sai
Quy tắc xác định chiều thiên lệch
Dấu của thiên lệch phụ thuộc vào tích giữa tác động của biến bị bỏ sót lên Y và tương quan giữa biến bị bỏ sót với biến đã đưa vào.
β2: Z tác động đến Y
Cov(X1,Z)
Dấu thiên lệch của hệ số X1
Dương
Dương
Dương: hệ số X1 bị phóng đại lên
Dương
Âm
Âm: hệ số X1 bị kéo xuống
Âm
Dương
Âm: hệ số X1 bị kéo xuống
Âm
Âm
Dương: hệ số X1 bị phóng đại lên
Ví dụ dễ hiểu
Nếu ước lượng lương theo số năm học nhưng bỏ sót năng lực cá nhân, và năng lực vừa làm tăng lương vừa tương quan dương với số năm học, hệ số của học vấn có thể bị phóng đại: nó đang gánh cả tác động của học vấn lẫn một phần tác động của năng lực.
6. Đưa thừa biến không liên quan và lựa chọn mô hình
6.1. Đưa thừa biến không liên quan
Đưa thừa biến không liên quan thường ít nghiêm trọng hơn bỏ sót biến quan trọng, nhưng vẫn có chi phí. Nếu biến thừa thực sự không ảnh hưởng đến Y và ngoại sinh, hệ số các biến khác không bị chệch. Tuy nhiên, mô hình có thể mất độ chính xác do tăng phương sai của ước lượng và giảm bậc tự do.
Khía cạnh
Bỏ sót biến quan trọng
Đưa thừa biến không liên quan
Thiên lệch hệ số
Có thể nghiêm trọng nếu biến bị bỏ sót tương quan với biến đã đưa vào
Thường không gây thiên lệch nếu biến thừa ngoại sinh
Phương sai/sai số chuẩn
Có thể sai và kết luận sai
Thường tăng, làm kiểm định kém mạnh
R²
Có thể thấp hơn hoặc cao hơn tùy trường hợp
R² thường không giảm khi thêm biến
R² hiệu chỉnh
Có thể tăng nếu biến bổ sung thật sự hữu ích
Có thể giảm nếu biến không đóng góp đủ
Nguy cơ lớn nhất
Diễn giải sai quan hệ kinh tế
Mô hình cồng kềnh, overfitting, kết quả kém ổn định
Lỗi rất phổ biến
Không nên chọn mô hình chỉ vì R² cao nhất. Khi thêm biến, R² không giảm theo cơ học toán học, nên R² không đủ để phạt mô hình quá phức tạp. Hãy xem R² hiệu chỉnh, AIC/BIC, kiểm định F, và quan trọng nhất là lý thuyết kinh tế.
6.2. Kiểm định lựa chọn mô hình
Lựa chọn mô hình không phải là quá trình ‘thêm biến đến khi tất cả p-value đẹp’. Một quy trình tốt kết hợp lý thuyết, kiểm định thống kê, tiêu chí thông tin và kiểm tra độ nhạy.
Công cụ
Dùng khi nào
Cách hiểu
Lưu ý
t-test
Kiểm định một hệ số đơn lẻ
Biến có đóng góp riêng có ý nghĩa không
Không thay thế lý thuyết; p-value phụ thuộc mẫu
F-test cho ràng buộc chung
Kiểm định một nhóm biến hoặc một mô hình lồng nhau
Nhóm biến có đóng góp đồng thời không
Phù hợp khi mô hình bị ràng buộc là trường hợp đặc biệt của mô hình đầy đủ
R² hiệu chỉnh
So sánh mô hình cùng biến phụ thuộc
Phạt số biến giải thích
Không dùng nếu biến phụ thuộc khác dạng, ví dụ y và log(y)
AIC/BIC
So sánh mô hình dự báo/ước lượng với mức phạt độ phức tạp
Giá trị nhỏ hơn thường tốt hơn
BIC phạt số biến mạnh hơn AIC
Kiểm tra ngoài mẫu
Mục tiêu dự báo
Mô hình tốt nếu dự báo tốt trên dữ liệu không dùng để ước lượng
Rất hữu ích để tránh overfitting
6.3. Quy tắc thực hành khi thêm/bớt biến
Bắt đầu từ câu hỏi nghiên cứu: hệ số nào là hệ số quan tâm chính?
Dựa vào lý thuyết để xác định các biến kiểm soát tối thiểu cần có.
Thêm các nhóm biến theo logic kinh tế, không thêm ngẫu nhiên từng biến chỉ vì p-value.
So sánh mô hình bằng kiểm định phù hợp nếu mô hình lồng nhau; dùng AIC/BIC hoặc kiểm tra ngoài mẫu nếu mục tiêu là dự báo.
Báo cáo nhiều đặc tả hợp lý để kiểm tra độ nhạy của kết luận chính.
Câu hỏi tự kiểm tra
Nếu thêm một biến làm hệ số quan tâm thay đổi rất mạnh, có thể biến đó đang kiểm soát một nguồn nhiễu quan trọng. Nếu thêm biến làm sai số chuẩn tăng mạnh nhưng hệ số ít đổi, có thể vấn đề là đa cộng tuyến hoặc mô hình quá nặng so với cỡ mẫu.
7. Kiểm định sai lầm chỉ định RESET của Ramsey
RESET (Regression Specification Error Test) của Ramsey là kiểm định tổng quát nhằm phát hiện mô hình có thể sai dạng hàm, bỏ sót biến phi tuyến hoặc thiếu thành phần tương tác. RESET không xác định chính xác biến nào bị thiếu, nhưng cho tín hiệu rằng mô hình hiện tại có thể chưa đủ linh hoạt.
Hình 7. Quy trình RESET của Ramsey.
Ý tưởng RESET
Ước lượng mô hình gốc và tính giá trị dự báo ŷ.
Thêm các lũy thừa của ŷ vào mô hình: ŷ², ŷ³, …
Kiểm định H0: hệ số của các lũy thừa thêm vào bằng 0 đồng thời.
Nếu bác bỏ H0, mô hình có thể sai dạng hàm hoặc thiếu biến/tương tác quan trọng.
Thành phần
Nội dung
H0
Mô hình không có bằng chứng sai chỉ định theo dạng mà RESET kiểm tra
H1
Mô hình có dấu hiệu sai chỉ định: thiếu phi tuyến, thiếu tương tác, sai dạng hàm hoặc bỏ sót biến liên quan
Thống kê
Thường dùng F-test cho các hệ số của ŷ², ŷ³, …
Kết luận đúng
RESET bác bỏ: cần xem lại mô hình; không kết luận ngay biến nào sai hoặc dạng hàm nào đúng
Hạn chế của RESET
RESET là kiểm định cảnh báo, không phải đơn thuốc. Khi RESET bác bỏ, người nghiên cứu phải quay lại lý thuyết, đồ thị, dạng hàm, biến bị bỏ sót, tương tác, biến trễ và dữ liệu để tìm mô hình hợp lý hơn.
8. Quy trình thực hành khi gặp khuyết tật mô hình
Trong nghiên cứu thực nghiệm, các khuyết tật thường xuất hiện cùng nhau. Ví dụ, mô hình bỏ sót biến xu thế có thể tạo tự tương quan phần dư; mô hình sai dạng hàm có thể làm RESET bác bỏ và phần dư có mẫu hình theo thời gian. Do đó, xử lý nên theo quy trình thay vì sửa rời rạc từng lỗi.
Bước
Việc cần làm
Câu hỏi hướng dẫn
1
Xác định câu hỏi nghiên cứu và mô hình lý thuyết
Biến phụ thuộc là gì? Hệ số quan tâm chính là gì? Cơ chế kinh tế dự kiến ra sao?
2
Ước lượng mô hình cơ sở
Dấu và quy mô hệ số có hợp lý không? Có biến quan trọng bị thiếu không?
3
Chẩn đoán phần dư
Phần dư có xu hướng, chu kỳ, cụm cùng dấu, phương sai thay đổi, điểm ngoại lệ không?
4
Kiểm định chính thức
Dùng DW/BG cho tự tương quan; RESET/F-test/AIC/BIC cho chỉ định mô hình
Dùng Newey-West/HAC hoặc sai số chuẩn vững phù hợp
7
Báo cáo kết quả
Nói rõ kiểm định, giả thuyết, p-value, quyết định, và tác động đến kết luận
8.1. Mẫu câu báo cáo kết quả chuyên nghiệp
Báo cáo kiểm định tự tương quan
Kiểm định Breusch-Godfrey bậc 2 cho phần dư của mô hình cho p-value = 0,012. Do đó, ở mức ý nghĩa 5%, bác bỏ giả thuyết không có tự tương quan đến bậc 2. Vì vậy, các sai số chuẩn OLS thông thường có thể không đáng tin; nghiên cứu tiếp tục báo cáo sai số chuẩn Newey-West và kiểm tra mô hình có thiếu biến trễ hay không.
Báo cáo RESET
Kiểm định RESET của Ramsey với các thành phần ŷ² và ŷ³ cho p-value = 0,021. Kết quả này cho thấy mô hình tuyến tính hiện tại có dấu hiệu sai chỉ định. Tác giả kiểm tra lại dạng hàm bằng cách thử mô hình logarit, biến bậc hai và tương tác theo cơ sở lý thuyết kinh tế.
8.2. Bảng quyết định nhanh
Tình huống
Không nên làm
Nên làm
DW gần 0 hoặc BG bác bỏ
Bỏ qua và vẫn dùng t-test OLS thường
Xem lại mô hình động; dùng BG bậc phù hợp; cân nhắc Newey-West hoặc FGLS
Mô hình có y_{t-1} ở vế phải
Dùng DW chuẩn rồi kết luận chắc chắn
Dùng Breusch-Godfrey hoặc kiểm định phù hợp mô hình động
RESET bác bỏ
Kết luận ngay biến X nào sai
Kiểm tra dạng hàm, biến bị bỏ sót, tương tác, log/bậc hai, biến trễ
Thêm biến làm R² tăng
Cho rằng mô hình mới chắc chắn tốt hơn
Xem R² hiệu chỉnh, AIC/BIC, F-test, lý thuyết và độ ổn định hệ số
Biến quan trọng không có dữ liệu
Bỏ qua không thảo luận
Tìm proxy, dữ liệu thay thế, thiết kế nhận dạng khác, hoặc nêu hạn chế rõ ràng
9. Ví dụ minh họa tổng hợp
Giả sử nghiên cứu tác động của lãi suất thực đến đầu tư tư nhân theo quý. Mô hình ban đầu:
Mô hình cơ sở
INV_t = β0 + β1R_t + β2GDP_t + u_t
Trong đó INV là đầu tư tư nhân, R là lãi suất thực, GDP là sản lượng thực.
Sau khi ước lượng OLS, nhà nghiên cứu nhận thấy phần dư có chuỗi cùng dấu kéo dài và kiểm định BG bậc 4 có p-value nhỏ. Đồng thời, RESET cũng bác bỏ mô hình tuyến tính đơn giản.
Dấu hiệu
Diễn giải có thể
Hành động hợp lý
Phần dư cùng dấu theo nhiều quý
Mô hình thiếu cấu trúc động hoặc có tự tương quan
Thử thêm INV_{t-1}, R_{t-1}, GDP_{t-1}; kiểm định BG lại
RESET bác bỏ
Quan hệ có thể phi tuyến hoặc thiếu biến
Thử log(INV), log(GDP), tương tác R x giai đoạn chính sách, biến giả khủng hoảng
Hệ số R đổi mạnh khi thêm GDP trễ
Mô hình ban đầu có thể bỏ sót kênh chu kỳ kinh doanh
Báo cáo độ nhạy và ưu tiên mô hình có cơ sở lý thuyết
Tự tương quan còn nhẹ sau khi sửa mô hình
Sai số chuẩn OLS vẫn có thể chưa tin cậy
Báo cáo Newey-West như kiểm tra bền vững
Minh họa kết luận
Kết quả mô hình động cho thấy lãi suất thực có tác động âm đến đầu tư tư nhân sau khi kiểm soát GDP hiện tại, GDP trễ và đầu tư trễ. Kiểm định BG sau điều chỉnh không còn bác bỏ mạnh tự tương quan bậc 4. Khi dùng sai số chuẩn Newey-West, dấu và ý nghĩa kinh tế của hệ số lãi suất vẫn ổn định, cho thấy kết luận có độ bền tương đối.
10. Những câu hỏi sinh viên thường khó hiểu
Câu hỏi
Giải thích ngắn gọn
Tự tương quan có giống đa cộng tuyến không?
Không. Đa cộng tuyến là quan hệ giữa các biến giải thích. Tự tương quan là quan hệ giữa các sai số ở các thời điểm khác nhau.
Có tự tương quan thì hệ số OLS có sai không?
Không nhất thiết. Nếu biến giải thích ngoại sinh, hệ số có thể không chệch, nhưng sai số chuẩn OLS thường sai nên kiểm định t/F không đáng tin.
Durbin-Watson bằng 1,2 nghĩa là gì?
Nó gợi ý tự tương quan dương, nhưng kết luận chính thức cần bảng d_L, d_U hoặc nên dùng BG nếu mô hình phức tạp.
BG khác DW ở đâu?
BG tổng quát hơn: kiểm định được tự tương quan bậc cao và dùng được trong nhiều mô hình có biến phụ thuộc trễ.
Newey-West có sửa mô hình không?
Không. Nó sửa sai số chuẩn để suy luận bền vững hơn; hệ số OLS không đổi.
RESET bác bỏ thì làm gì?
Không kết luận ngay biến nào sai; cần kiểm tra lý thuyết, dạng hàm, biến bị bỏ sót, tương tác, biến trễ và điểm gãy cấu trúc.
Bỏ sót biến khi nào gây thiên lệch?
Khi biến bị bỏ sót vừa ảnh hưởng đến Y vừa tương quan với biến đã đưa vào mô hình.
Đưa thừa biến có nguy hiểm không?
Ít nguy hiểm hơn bỏ sót biến quan trọng về thiên lệch, nhưng làm mô hình kém chính xác, tăng sai số chuẩn và dễ overfitting.
11. Bài tập và câu hỏi ôn tập
Mục tiêu của bài tập
Các bài tập dưới đây giúp sinh viên luyện cách đọc kiểm định, diễn giải hậu quả, chọn biện pháp xử lý và viết kết luận kinh tế lượng bằng lời văn chuyên nghiệp.
11.1. Câu hỏi lý thuyết
Trình bày bản chất của tự tương quan bậc nhất. Vì sao tự tương quan thường gặp trong dữ liệu chuỗi thời gian?
Phân biệt hậu quả của tự tương quan đối với hệ số OLS và đối với sai số chuẩn OLS.
Nêu điều kiện áp dụng và hạn chế của kiểm định Durbin-Watson.
Tại sao kiểm định Breusch-Godfrey linh hoạt hơn Durbin-Watson?
Phân biệt Cochrane-Orcutt, Prais-Winsten và Newey-West về mục tiêu và tác động đến hệ số hồi quy.
Trình bày hai điều kiện để bỏ sót biến gây thiên lệch cho hệ số của biến đã đưa vào mô hình.
Vì sao đưa thừa biến không liên quan thường không gây thiên lệch nhưng vẫn không được khuyến khích?
RESET của Ramsey kiểm định điều gì? Vì sao RESET không cho biết chính xác mô hình nên sửa thế nào?
11.2. Bài tập diễn giải kết quả kiểm định
Bài tập 1
Một mô hình chuỗi thời gian có thống kê Durbin-Watson d = 0,92. Hãy diễn giải trực giác của kết quả này.
Nếu mô hình có biến phụ thuộc trễ y_{t-1} ở vế phải, bạn có nên dựa hoàn toàn vào DW không? Hãy đề xuất kiểm định phù hợp hơn.
Bài tập 2
Kiểm định Breusch-Godfrey bậc 4 cho p-value = 0,003. Hãy viết kết luận ở mức ý nghĩa 5%.
Nêu ít nhất ba hướng xử lý có thể áp dụng trước khi công bố kết quả hồi quy.
Bài tập 3
Mô hình tiền lương chỉ gồm biến học vấn, nhưng bỏ sót kinh nghiệm. Giả sử kinh nghiệm làm tăng lương và người có học vấn cao thường có kinh nghiệm thấp hơn do đi học lâu hơn. Dự đoán chiều thiên lệch của hệ số học vấn.
Giải thích bằng công thức thiên lệch do bỏ sót biến.
11.3. Bài tập thực hành với phần mềm
Chọn một bộ dữ liệu chuỗi thời gian kinh tế, ví dụ GDP, CPI, doanh số bán lẻ hoặc lãi suất. Ước lượng một mô hình OLS đơn giản và vẽ phần dư theo thời gian.
Thực hiện kiểm định Durbin-Watson và Breusch-Godfrey. So sánh kết luận của hai kiểm định.
Thử thêm xu thế thời gian, biến mùa vụ hoặc biến trễ. Kiểm tra xem tự tương quan có giảm không.
Báo cáo kết quả OLS thông thường và kết quả với sai số chuẩn Newey-West. So sánh sai số chuẩn, t-statistic và p-value.
Thực hiện kiểm định RESET. Nếu RESET bác bỏ, đề xuất ít nhất hai đặc tả thay thế có cơ sở kinh tế.
11.4. Gợi ý đáp án ngắn
Bài
Gợi ý
Bài 1
d = 0,92 nhỏ hơn 2, gợi ý tự tương quan dương. Nếu có y_{t-1}, nên dùng BG thay vì dựa hoàn toàn vào DW.
Bài 2
p-value = 0,003 < 0,05 nên bác bỏ H0 không có tự tương quan bậc 4. Hướng xử lý: xem lại mô hình động, thêm biến trễ/xu thế/mùa vụ, dùng Newey-West hoặc FGLS nếu phù hợp.
Bài 3
β_kinh nghiệm > 0; Cov(học vấn, kinh nghiệm) < 0 nên thiên lệch âm. Hệ số học vấn bị kéo xuống so với tác động thật.
12. Tóm tắt cuối phần
Chủ đề
Công thức/kiểm định chính
Kết luận cần nhớ
Tự tương quan
Cov(u_t,u_s|X) ≠ 0
Sai số có quan hệ theo thời gian; làm OLS không hiệu quả và sai số chuẩn thông thường không đáng tin
Durbin-Watson
d = Σ(e_t-e_{t-1})² / Σe_t² ≈ 2(1-r_hat)
d gần 2: ít bằng chứng AR(1); d nhỏ: tự tương quan dương; d lớn: tự tương quan âm
Breusch-Godfrey
Hồi quy phụ e_t theo X và e_{t-1}…e_{t-p}; LM = nR²
Tổng quát hơn DW, kiểm định tự tương quan bậc cao
Cochrane-Orcutt
y_t – ρy_{t-1} = β0(1-ρ)+β1(x_t-ρx_{t-1})+v_t
Biến đổi mô hình theo AR(1), có thể thay đổi hệ số
Newey-West
HAC covariance matrix
Giữ hệ số OLS, điều chỉnh sai số chuẩn bền vững với tự tương quan và phương sai thay đổi
Bỏ sót biến
Bias = β_Z · Cov(X,Z)/Var(X)
Thiên lệch khi biến bị bỏ sót ảnh hưởng Y và tương quan với X
Đưa thừa biến
Không có công thức thiên lệch nếu biến thừa ngoại sinh
Không gây thiên lệch nhưng làm mô hình kém chính xác, giảm bậc tự do
RESET
Thêm ŷ², ŷ³ rồi F-test
Cảnh báo sai chỉ định, không chỉ ra chính xác nguyên nhân
Checklist trước khi nộp bài nghiên cứu
Đã giải thích cơ sở lý thuyết của mô hình chưa?
Đã vẽ và đọc phần dư theo thời gian chưa?
Đã kiểm định tự tương quan bằng DW/BG phù hợp chưa?
Nếu có tự tương quan, đã phân biệt sửa mô hình và sửa sai số chuẩn chưa?
Đã kiểm tra nguy cơ bỏ sót biến, sai dạng hàm, thiếu tương tác hoặc thiếu biến trễ chưa?
Đã dùng RESET, F-test, AIC/BIC hoặc kiểm tra độ nhạy đúng cách chưa?
Đã viết kết luận bằng ngôn ngữ cẩn trọng, không phóng đại kết quả chưa?
Tài liệu tham khảo gợi ý
Gujarati, D. N. & Porter, D. C. – Basic Econometrics.
Wooldridge, J. M. – Introductory Econometrics: A Modern Approach.
Stock, J. H. & Watson, M. W. – Introduction to Econometrics.
Greene, W. H. – Econometric Analysis.
Kết luận sư phạm
Phần 5 không chỉ yêu cầu sinh viên nhớ tên kiểm định. Mục tiêu quan trọng hơn là biết đọc ‘dấu hiệu bệnh’ của mô hình, hiểu hậu quả đối với OLS, chọn đúng công cụ xử lý và diễn giải kết quả một cách trung thực về mặt kinh tế lượng.