Kinh tế lượng (Phần 5: Khuyết tật của mô hình, Tự tương quan và Sai lầm chỉ định mô hình)

BÀI GIẢNG KINH TẾ LƯỢNG PHẦN 5 KHUYẾT TẬT CỦA MÔ HÌNH Tự tương quan và Sai lầm chỉ định mô hình Mục tiêu tổng quát của phần họcSau bài này, sinh viên có thể…

KHUYẾT TẬT CỦA MÔ HÌNH

Tự tương quan và Sai lầm chỉ định mô hình

Mục tiêu tổng quát của phần học
Sau bài này, sinh viên có thể nhận diện hai nhóm khuyết tật rất thường gặp trong nghiên cứu thực nghiệm: tự tương quan và sai lầm chỉ định mô hình.

Sinh viên biết hậu quả của từng khuyết tật đối với ước lượng OLS và suy luận thống kê; biết chọn kiểm định phù hợp; biết phân biệt khi nào cần sửa mô hình, khi nào chỉ sửa sai số chuẩn.

Vấn đề Dữ liệu hay gặp Triệu chứng Công cụ chẩn đoán Cách xử lý chính
Tự tương quan Chuỗi thời gian, dữ liệu bảng theo thời gian Phần dư có xu hướng kéo dài cùng dấu hoặc dao động theo chu kỳ Đồ thị phần dư, Durbin-Watson, Breusch-Godfrey Bổ sung cấu trúc động, Cochrane-Orcutt/Prais-Winsten, Newey-West
Sai chỉ định mô hình Mọi loại dữ liệu Hệ số khó giải thích, dấu sai, phần dư có mẫu hình, mô hình nhạy với biến thêm/bớt Lý thuyết, kiểm định F/t, AIC/BIC, RESET Ramsey Bổ sung biến, đổi dạng hàm, mô hình hóa tương tác/trễ, kiểm tra độ nhạy
Thông điệp xuyên suốt
Trong kinh tế lượng, ước lượng không chỉ là bấm phần mềm để lấy hệ số. Người nghiên cứu phải hỏi: mô hình có phản ánh đúng cơ chế kinh tế không? Sai số có độc lập không? Sai số chuẩn có đáng tin không?
Cách học hiệu quả
Đừng học thuộc máy móc công thức kiểm định. Hãy luôn trả lời 4 câu hỏi: (1) H0 là gì? (2) Dữ liệu nào phù hợp? (3) Bác bỏ H0 nghĩa là gì? (4) Sau khi phát hiện vấn đề, sửa bằng cách nào?

Khi đọc kết quả phần mềm, hãy nhìn đồng thời: hệ số, sai số chuẩn, p-value, đồ thị phần dư, bối cảnh kinh tế và độ nhạy của kết quả khi thay đổi mô hình.

Xét mô hình hồi quy tuyến tính tổng quát:

Mô hình cơ sở
y_t = β0 + β1X1_t + β2X2_t + … + βkXk_t + u_t

Trong các phần trước, ta thường giả định sai số có kỳ vọng bằng 0 có điều kiện theo các biến giải thích, phương sai không đổi, không tương quan với nhau, và mô hình được chỉ định đúng. Trong phần này, hai nhóm giả định cần chú ý là:

  • Không có tự tương quan: Cov(u_t, u_s | X) = 0 với mọi t khác s. Nói đơn giản: sai số kỳ này không có quan hệ có hệ thống với sai số kỳ trước.
  • Mô hình được chỉ định đúng: các biến quan trọng không bị bỏ sót, không đưa dạng hàm sai, không dùng mô hình quá đơn giản so với cơ chế kinh tế thực tế.
Điểm sinh viên hay nhầm
Một mô hình có R² cao không đồng nghĩa mô hình đúng. Một mô hình có hệ số có ý nghĩa thống kê cũng chưa chắc dùng được nếu sai số chuẩn bị sai hoặc biến quan trọng bị bỏ sót.
Vi phạm Tác động thường gặp đến OLS Điều cần nhớ
Tự tương quan, nhưng biến giải thích ngoại sinh Hệ số OLS có thể vẫn không chệch, nhưng không hiệu quả; sai số chuẩn, kiểm định t/F có thể sai Vấn đề chính là suy luận thống kê và dự báo
Bỏ sót biến quan trọng có tương quan với biến đã đưa vào Hệ số OLS bị thiên lệch và không vững Đây là vấn đề nghiêm trọng về nhân quả và diễn giải
Đưa thừa biến không liên quan Không gây thiên lệch nếu biến thừa ngoại sinh, nhưng làm tăng phương sai và giảm bậc tự do Mô hình có thể kém chính xác, kém gọn
Sai dạng hàm Hệ số có thể bị thiên lệch, phần dư có mẫu hình, dự báo kém Cần xét log, bậc hai, tương tác, biến trễ hoặc biến giả

2. Hiện tượng tự tương quan trong dữ liệu chuỗi thời gian

Tự tương quan xảy ra khi sai số của các quan sát khác nhau có tương quan với nhau. Trong dữ liệu chuỗi thời gian, điều này thường có nghĩa là sai số ở kỳ hiện tại có liên hệ với sai số ở kỳ trước.

Định nghĩa toán học
Không có tự tương quan: Cov(u_t, u_s | X) = 0 với t ≠ s.

Tự tương quan bậc 1 dạng AR(1): u_t = ρu_{t-1} + v_t, với |ρ| < 1 và v_t là nhiễu trắng.

Nếu ρ > 0: sai số dương thường nối tiếp sai số dương; sai số âm thường nối tiếp sai số âm. Nếu ρ < 0: sai số có xu hướng đổi dấu luân phiên.

Hình 1. Phần dư có chuỗi cùng dấu là tín hiệu trực quan của tự tương quan dương.

2.1. Bản chất kinh tế của tự tương quan

Trong kinh tế, nhiều đại lượng có tính quán tính: GDP, tiêu dùng, lạm phát, lãi suất, thất nghiệp, doanh thu theo tháng… Nếu mô hình bỏ qua độ trễ, xu thế hoặc chu kỳ mùa vụ, phần chưa giải thích được ở kỳ trước dễ tiếp tục xuất hiện ở kỳ sau.

  • Tính quán tính: hành vi tiêu dùng, đầu tư, giá cả thường điều chỉnh chậm theo thời gian.
  • Biến bị bỏ sót có tính chuỗi: ví dụ kỳ vọng lạm phát, năng lực quản trị, xu thế công nghệ.
  • Dữ liệu được làm trơn hoặc nội suy: chỉ số kinh tế vĩ mô, dữ liệu kế toán, dữ liệu năm tài chính.
  • Sai dạng hàm hoặc thiếu biến trễ: mô hình tĩnh trong khi cơ chế kinh tế là động.
  • Mùa vụ hoặc chu kỳ kinh doanh: doanh số, du lịch, nông nghiệp, bán lẻ theo tháng/quý.
Không nên hiểu sai
Tự tương quan không phải là tương quan giữa các biến giải thích X. Nếu X1 và X2 tương quan mạnh, đó là đa cộng tuyến. Nếu u_t và u_{t-1} tương quan, đó là tự tương quan.

2.2. Tự tương quan dương và âm

Dạng Biểu hiện phần dư Ví dụ trực giác Hậu quả thường gặp
Tự tương quan dương Phần dư cùng dấu kéo dài thành chuỗi GDP thực tế cao hơn dự báo trong vài quý liên tiếp Sai số chuẩn OLS thường bị đánh giá thấp trong nhiều mô hình xu hướng, làm t-stat lớn giả tạo
Tự tương quan âm Phần dư đổi dấu luân phiên Điều chỉnh tồn kho quá mức: kỳ này vượt, kỳ sau hụt Ít gặp hơn trong kinh tế vĩ mô; DW thường lớn hơn 2

2.3. Hậu quả đối với ước lượng OLS

Điểm khó nhất với sinh viên là phân biệt tác động đến hệ số và tác động đến suy luận thống kê. Nếu các biến giải thích vẫn ngoại sinh nghiêm ngặt, OLS có thể vẫn không chệch, nhưng không còn là ước lượng hiệu quả nhất trong lớp tuyến tính không chệch. Quan trọng hơn, công thức sai số chuẩn OLS thông thường không còn đúng.

Câu hỏi Trả lời ngắn Giải thích
Hệ số OLS có nhất thiết bị chệch không? Không nhất thiết Nếu E(u_t | X) = 0 vẫn đúng, hệ số OLS có thể không chệch
OLS còn BLUE không? Không Giả định không tương quan giữa sai số bị vi phạm nên OLS không hiệu quả
Kiểm định t/F thông thường còn đáng tin không? Không Sai số chuẩn bị tính sai, dẫn đến p-value và khoảng tin cậy sai
Dự báo bị ảnh hưởng không? Sai số dự báo có cấu trúc chuỗi nên khoảng dự báo thông thường dễ sai
Ghi nhớ trọng tâm
Tự tương quan thường không làm hệ số OLS tự động sai về mặt trung bình, nhưng làm sai độ chính xác đo lường của hệ số. Vì vậy, kết luận ‘có ý nghĩa thống kê’ có thể trở nên quá lạc quan hoặc quá bi quan.

3. Phát hiện tự tương quan

3.1. Đọc đồ thị phần dư trước khi kiểm định

Trước khi dùng kiểm định chính thức, nên vẽ phần dư theo thời gian. Đây là thao tác rất quan trọng vì kiểm định có thể không chỉ ra nguyên nhân cụ thể, trong khi đồ thị giúp phát hiện xu thế, mùa vụ, điểm gãy cấu trúc hoặc ngoại lệ.

  • Nếu phần dư tạo thành từng cụm dương/âm kéo dài: nghi ngờ tự tương quan dương.
  • Nếu phần dư dao động lên xuống đều đặn: nghi ngờ tự tương quan âm hoặc chu kỳ chưa mô hình hóa.
  • Nếu biên độ phần dư tăng dần theo thời gian: có thể vừa có tự tương quan vừa có phương sai sai số thay đổi.
Thói quen tốt khi làm nghiên cứu
Sau mỗi hồi quy chuỗi thời gian, hãy lưu phần dư, vẽ phần dư theo thời gian, vẽ ACF/PACF nếu cần, rồi mới đọc các kiểm định. Đừng chỉ nhìn p-value.

3.2. Kiểm định Durbin-Watson

Kiểm định Durbin-Watson (DW) là kiểm định kinh điển để phát hiện tự tương quan bậc nhất trong mô hình hồi quy chuỗi thời gian.

Thống kê Durbin-Watson
d = Σ_{t=2}^{n}(e_t – e_{t-1})² / Σ_{t=1}^{n}e_t² ≈ 2(1 – r_hat)

Trong đó r_hat là hệ số tương quan mẫu bậc 1 của phần dư.

Hình 2. Cách đọc nhanh thống kê Durbin-Watson.

Giá trị d Diễn giải trực giác
d ≈ 2 Không có bằng chứng rõ ràng về tự tương quan bậc 1
d < 2 Có xu hướng tự tương quan dương; càng gần 0 càng mạnh
d > 2 Có xu hướng tự tương quan âm; càng gần 4 càng mạnh
Điều kiện áp dụng DW
Mô hình có hằng số chặn.

Kiểm định chủ yếu cho tự tương quan bậc 1.

Không nên dùng DW chuẩn khi mô hình có biến phụ thuộc trễ ở vế phải, ví dụ y_{t-1}. Khi đó nên dùng Breusch-Godfrey hoặc kiểm định chuyên biệt khác.

Kết luận chính thức cần so sánh với bảng giới hạn d_L, d_U; có vùng không kết luận được.

Các giả thuyết thường dùng

Mục tiêu H0 H1 Dấu hiệu bác bỏ
Tự tương quan dương ρ = 0 ρ > 0 d quá nhỏ
Tự tương quan âm ρ = 0 ρ < 0 d quá lớn
Hai phía ρ = 0 ρ ≠ 0 d xa 2 về hai phía

3.3. Kiểm định Breusch-Godfrey

Breusch-Godfrey (BG) là kiểm định tổng quát hơn DW. BG kiểm định được tự tương quan bậc cao AR(p) và vẫn sử dụng được trong nhiều mô hình có biến phụ thuộc trễ.

Hình 3. Quy trình kiểm định Breusch-Godfrey.

Hồi quy phụ của BG
e_t = α0 + α1X1_t + … + αkXk_t + ρ1e_{t-1} + … + ρpe_{t-p} + v_t

H0: ρ1 = ρ2 = … = ρp = 0

  1. Ước lượng mô hình gốc bằng OLS và lấy phần dư e_t.
  2. Chọn bậc p của tự tương quan cần kiểm định, ví dụ p = 1, 2, 4 hoặc 12 tùy tần suất dữ liệu.
  3. Chạy hồi quy phụ e_t theo các biến giải thích gốc và các phần dư trễ e_{t-1}, …, e_{t-p}.
  4. Dùng thống kê LM = nR², xấp xỉ phân phối Chi-square với p bậc tự do; hoặc dùng F-test cho các hệ số phần dư trễ.
  5. Nếu p-value nhỏ, bác bỏ H0: có bằng chứng tự tương quan đến bậc p.
DW hay BG?
Nếu mô hình đơn giản, không có biến phụ thuộc trễ, nghi ngờ AR(1), DW có thể dùng như kiểm tra nhanh. Nếu mô hình có biến phụ thuộc trễ, nghi ngờ tự tương quan bậc cao hoặc cần kiểm định tổng quát hơn, dùng Breusch-Godfrey.

4. Khắc phục tự tương quan

Không có một cách sửa duy nhất cho mọi trường hợp. Cách khắc phục phụ thuộc vào mục tiêu: muốn ước lượng lại cấu trúc mô hình hay chỉ muốn sai số chuẩn đáng tin hơn.

Hình 4. Khác biệt giữa sửa hệ số bằng FGLS và sửa sai số chuẩn bằng Newey-West.

4.1. Bước đầu tiên: xem lại chỉ định mô hình

Tự tương quan đôi khi không phải là ‘bệnh riêng của sai số’ mà là dấu hiệu mô hình thiếu cấu trúc kinh tế quan trọng. Vì vậy, trước khi dùng kỹ thuật sửa sai số, cần xem lại mô hình.

  • Có cần thêm xu thế thời gian không? Ví dụ time trend trong mô hình doanh thu hoặc GDP.
  • Có cần thêm biến giả mùa vụ không? Ví dụ quý, tháng, mùa vụ bán hàng.
  • Có cần thêm biến trễ của Y hoặc X không? Ví dụ tác động của lãi suất đến đầu tư không xuất hiện ngay.
  • Có điểm gãy cấu trúc do chính sách, khủng hoảng, dịch bệnh, thay đổi phương pháp đo lường không?
Nguyên tắc thực nghiệm
Nếu tự tương quan xuất phát từ mô hình thiếu biến hoặc sai dạng hàm, chỉ dùng Newey-West có thể làm p-value ‘đẹp’ hơn nhưng không giải quyết nguyên nhân kinh tế. Hãy sửa mô hình trước, sửa sai số chuẩn sau nếu còn cần.

4.2. Biến đổi Cochrane-Orcutt và Prais-Winsten

Giả sử sai số theo AR(1): u_t = ρu_{t-1} + v_t. Nếu biết ρ, ta có thể biến đổi mô hình để loại bỏ tự tương quan trong sai số.

Ý tưởng biến đổi AR(1)
Mô hình gốc: y_t = β0 + β1x_t + u_t

Trừ ρ lần phương trình kỳ trước: y_t – ρy_{t-1} = β0(1 – ρ) + β1(x_t – ρx_{t-1}) + v_t

Vì ρ không biết, Cochrane-Orcutt ước lượng ρ từ phần dư rồi lặp lại đến khi hội tụ.

Phương pháp Ý tưởng Điểm cần nhớ
Cochrane-Orcutt Ước lượng ρ, biến đổi dữ liệu từ t=2 trở đi Bỏ quan sát đầu tiên sau biến đổi; hệ số có thể thay đổi so với OLS
Prais-Winsten Tương tự nhưng giữ quan sát đầu bằng biến đổi riêng Thường được ưa dùng hơn khi mẫu nhỏ vì không mất quan sát đầu
FGLS tổng quát Ước lượng cấu trúc phương sai-hiệp phương sai của sai số rồi GLS Hiệu quả nếu cấu trúc sai số được mô hình hóa đúng

4.3. Sai số chuẩn Newey-West

Sai số chuẩn Newey-West thuộc nhóm HAC (Heteroskedasticity and Autocorrelation Consistent). Phương pháp này không thay đổi hệ số OLS mà thay đổi cách tính ma trận phương sai của hệ số để bền vững hơn với tự tương quan và phương sai sai số thay đổi trong mẫu lớn.

Khi nên dùng Newey-West
Mục tiêu chính là suy luận về hệ số OLS, không nhất thiết mô hình hóa quá trình AR(1).

Dữ liệu chuỗi thời gian đủ lớn để lập luận tiệm cận hợp lý.

Có nghi ngờ tự tương quan và/hoặc phương sai sai số thay đổi, nhưng chưa muốn thay đổi hệ số hồi quy.

Cần chọn độ trễ/bandwidth phù hợp; chọn quá thấp có thể chưa sửa đủ, quá cao có thể làm sai số chuẩn kém chính xác.

Tiêu chí Cochrane-Orcutt/Prais-Winsten Newey-West
Có thay đổi hệ số không? Có thể có Không, giữ hệ số OLS
Mục tiêu Mô hình hóa cấu trúc sai số AR(1) và ước lượng hiệu quả hơn Làm sai số chuẩn bền vững để kiểm định đáng tin hơn
Phụ thuộc giả định cấu trúc sai số Cao hơn Ít hơn nhưng dựa vào mẫu lớn và chọn bandwidth
Dùng khi Tin rằng sai số AR(1) là mô tả hợp lý Muốn suy luận bền vững mà không thay đổi mô hình trung bình
Lỗi diễn giải phổ biến
Không được nói ‘Newey-West đã loại bỏ tự tương quan’. Nói đúng hơn: Newey-West điều chỉnh sai số chuẩn để suy luận bền vững hơn trước tự tương quan và phương sai sai số thay đổi.

5. Sai lầm chỉ định mô hình

Sai lầm chỉ định mô hình xảy ra khi mô hình ước lượng không phù hợp với quan hệ kinh tế thực tế hoặc không phù hợp với quá trình tạo dữ liệu. Đây là lỗi rất nghiêm trọng vì nó có thể làm hệ số bị thiên lệch, mất ý nghĩa kinh tế và dẫn đến khuyến nghị chính sách sai.

Hình 5. Quy trình chẩn đoán mô hình trong nghiên cứu thực nghiệm.

5.1. Các dạng sai chỉ định thường gặp

Dạng sai chỉ định Ví dụ Dấu hiệu thường thấy Hướng xử lý
Bỏ sót biến quan trọng Ước lượng tiền lương theo học vấn nhưng bỏ sót kinh nghiệm Hệ số có dấu/quy mô bất thường; mô hình nhạy khi thêm biến Bổ sung biến, dùng proxy, dữ liệu bảng, biến công cụ nếu cần
Đưa thừa biến không liên quan Thêm biến không có cơ sở lý thuyết chỉ để tăng R² Sai số chuẩn tăng, hệ số mất ý nghĩa Loại biến không cần thiết, dùng kiểm định F/t và lý thuyết
Sai dạng hàm Quan hệ thu nhập-tiêu dùng phi tuyến nhưng dùng tuyến tính đơn giản Phần dư có hình cong; RESET bác bỏ Dùng log, bậc hai, tương tác, spline nếu phù hợp
Thiếu cấu trúc động Mô hình lạm phát không có lạm phát trễ Tự tương quan phần dư Thêm biến trễ, mô hình ARDL hoặc mô hình động
Bỏ qua điểm gãy cấu trúc Trước/sau chính sách, khủng hoảng, COVID-19 Hệ số thay đổi theo giai đoạn Biến giả, tương tác, kiểm định Chow, mô hình theo giai đoạn
Điểm quan trọng
Sai chỉ định không chỉ là lỗi kỹ thuật. Nó là lỗi trong câu chuyện kinh tế mà mô hình đang kể. Một mô hình có vẻ ‘đẹp’ về thống kê nhưng sai cơ chế kinh tế vẫn không nên dùng để kết luận chính sách.

5.2. Hậu quả của bỏ sót biến quan trọng

Bỏ sót biến quan trọng là một trong những nguồn gây thiên lệch phổ biến nhất. Hãy xét mô hình đúng có hai biến giải thích:

Mô hình đúng và mô hình bị bỏ sót biến
Mô hình đúng: y = β0 + β1X1 + β2Z + u

Mô hình sai: y = α0 + α1X1 + v, trong đó Z bị bỏ sót.

Nếu Z vừa ảnh hưởng đến y vừa tương quan với X1, thì α1 không còn ước lượng đúng β1.

Hình 6. Hai điều kiện tạo ra thiên lệch do bỏ sót biến.

Công thức thiên lệch do bỏ sót biến
plim(α1_hat) = β1 + β2 · Cov(X1, Z) / Var(X1)

Thiên lệch = β2 · Cov(X1, Z) / Var(X1)

Điều kiện Nếu không thỏa Nếu thỏa
Z ảnh hưởng đến Y Nếu β2 = 0, bỏ Z không gây thiên lệch cho β1 Z là biến quan trọng về mặt kinh tế
Z tương quan với X1 Nếu Cov(X1,Z)=0, bỏ Z không gây thiên lệch cho β1 X1 gánh một phần tác động của Z
Cả hai điều kiện Không có thiên lệch do bỏ sót biến Có thiên lệch và diễn giải hệ số X1 sai

Quy tắc xác định chiều thiên lệch

Dấu của thiên lệch phụ thuộc vào tích giữa tác động của biến bị bỏ sót lên Y và tương quan giữa biến bị bỏ sót với biến đã đưa vào.

β2: Z tác động đến Y Cov(X1,Z) Dấu thiên lệch của hệ số X1
Dương Dương Dương: hệ số X1 bị phóng đại lên
Dương Âm Âm: hệ số X1 bị kéo xuống
Âm Dương Âm: hệ số X1 bị kéo xuống
Âm Âm Dương: hệ số X1 bị phóng đại lên
Ví dụ dễ hiểu
Nếu ước lượng lương theo số năm học nhưng bỏ sót năng lực cá nhân, và năng lực vừa làm tăng lương vừa tương quan dương với số năm học, hệ số của học vấn có thể bị phóng đại: nó đang gánh cả tác động của học vấn lẫn một phần tác động của năng lực.

6. Đưa thừa biến không liên quan và lựa chọn mô hình

6.1. Đưa thừa biến không liên quan

Đưa thừa biến không liên quan thường ít nghiêm trọng hơn bỏ sót biến quan trọng, nhưng vẫn có chi phí. Nếu biến thừa thực sự không ảnh hưởng đến Y và ngoại sinh, hệ số các biến khác không bị chệch. Tuy nhiên, mô hình có thể mất độ chính xác do tăng phương sai của ước lượng và giảm bậc tự do.

Khía cạnh Bỏ sót biến quan trọng Đưa thừa biến không liên quan
Thiên lệch hệ số Có thể nghiêm trọng nếu biến bị bỏ sót tương quan với biến đã đưa vào Thường không gây thiên lệch nếu biến thừa ngoại sinh
Phương sai/sai số chuẩn Có thể sai và kết luận sai Thường tăng, làm kiểm định kém mạnh
Có thể thấp hơn hoặc cao hơn tùy trường hợp R² thường không giảm khi thêm biến
R² hiệu chỉnh Có thể tăng nếu biến bổ sung thật sự hữu ích Có thể giảm nếu biến không đóng góp đủ
Nguy cơ lớn nhất Diễn giải sai quan hệ kinh tế Mô hình cồng kềnh, overfitting, kết quả kém ổn định
Lỗi rất phổ biến
Không nên chọn mô hình chỉ vì R² cao nhất. Khi thêm biến, R² không giảm theo cơ học toán học, nên R² không đủ để phạt mô hình quá phức tạp. Hãy xem R² hiệu chỉnh, AIC/BIC, kiểm định F, và quan trọng nhất là lý thuyết kinh tế.

6.2. Kiểm định lựa chọn mô hình

Lựa chọn mô hình không phải là quá trình ‘thêm biến đến khi tất cả p-value đẹp’. Một quy trình tốt kết hợp lý thuyết, kiểm định thống kê, tiêu chí thông tin và kiểm tra độ nhạy.

Công cụ Dùng khi nào Cách hiểu Lưu ý
t-test Kiểm định một hệ số đơn lẻ Biến có đóng góp riêng có ý nghĩa không Không thay thế lý thuyết; p-value phụ thuộc mẫu
F-test cho ràng buộc chung Kiểm định một nhóm biến hoặc một mô hình lồng nhau Nhóm biến có đóng góp đồng thời không Phù hợp khi mô hình bị ràng buộc là trường hợp đặc biệt của mô hình đầy đủ
R² hiệu chỉnh So sánh mô hình cùng biến phụ thuộc Phạt số biến giải thích Không dùng nếu biến phụ thuộc khác dạng, ví dụ y và log(y)
AIC/BIC So sánh mô hình dự báo/ước lượng với mức phạt độ phức tạp Giá trị nhỏ hơn thường tốt hơn BIC phạt số biến mạnh hơn AIC
Kiểm tra ngoài mẫu Mục tiêu dự báo Mô hình tốt nếu dự báo tốt trên dữ liệu không dùng để ước lượng Rất hữu ích để tránh overfitting

6.3. Quy tắc thực hành khi thêm/bớt biến

  1. Bắt đầu từ câu hỏi nghiên cứu: hệ số nào là hệ số quan tâm chính?
  2. Dựa vào lý thuyết để xác định các biến kiểm soát tối thiểu cần có.
  3. Thêm các nhóm biến theo logic kinh tế, không thêm ngẫu nhiên từng biến chỉ vì p-value.
  4. So sánh mô hình bằng kiểm định phù hợp nếu mô hình lồng nhau; dùng AIC/BIC hoặc kiểm tra ngoài mẫu nếu mục tiêu là dự báo.
  5. Báo cáo nhiều đặc tả hợp lý để kiểm tra độ nhạy của kết luận chính.
Câu hỏi tự kiểm tra
Nếu thêm một biến làm hệ số quan tâm thay đổi rất mạnh, có thể biến đó đang kiểm soát một nguồn nhiễu quan trọng. Nếu thêm biến làm sai số chuẩn tăng mạnh nhưng hệ số ít đổi, có thể vấn đề là đa cộng tuyến hoặc mô hình quá nặng so với cỡ mẫu.

7. Kiểm định sai lầm chỉ định RESET của Ramsey

RESET (Regression Specification Error Test) của Ramsey là kiểm định tổng quát nhằm phát hiện mô hình có thể sai dạng hàm, bỏ sót biến phi tuyến hoặc thiếu thành phần tương tác. RESET không xác định chính xác biến nào bị thiếu, nhưng cho tín hiệu rằng mô hình hiện tại có thể chưa đủ linh hoạt.

Hình 7. Quy trình RESET của Ramsey.

Ý tưởng RESET
Ước lượng mô hình gốc và tính giá trị dự báo ŷ.

Thêm các lũy thừa của ŷ vào mô hình: ŷ², ŷ³, …

Kiểm định H0: hệ số của các lũy thừa thêm vào bằng 0 đồng thời.

Nếu bác bỏ H0, mô hình có thể sai dạng hàm hoặc thiếu biến/tương tác quan trọng.

Thành phần Nội dung
H0 Mô hình không có bằng chứng sai chỉ định theo dạng mà RESET kiểm tra
H1 Mô hình có dấu hiệu sai chỉ định: thiếu phi tuyến, thiếu tương tác, sai dạng hàm hoặc bỏ sót biến liên quan
Thống kê Thường dùng F-test cho các hệ số của ŷ², ŷ³, …
Kết luận đúng RESET bác bỏ: cần xem lại mô hình; không kết luận ngay biến nào sai hoặc dạng hàm nào đúng
Hạn chế của RESET
RESET là kiểm định cảnh báo, không phải đơn thuốc. Khi RESET bác bỏ, người nghiên cứu phải quay lại lý thuyết, đồ thị, dạng hàm, biến bị bỏ sót, tương tác, biến trễ và dữ liệu để tìm mô hình hợp lý hơn.

8. Quy trình thực hành khi gặp khuyết tật mô hình

Trong nghiên cứu thực nghiệm, các khuyết tật thường xuất hiện cùng nhau. Ví dụ, mô hình bỏ sót biến xu thế có thể tạo tự tương quan phần dư; mô hình sai dạng hàm có thể làm RESET bác bỏ và phần dư có mẫu hình theo thời gian. Do đó, xử lý nên theo quy trình thay vì sửa rời rạc từng lỗi.

Bước Việc cần làm Câu hỏi hướng dẫn
1 Xác định câu hỏi nghiên cứu và mô hình lý thuyết Biến phụ thuộc là gì? Hệ số quan tâm chính là gì? Cơ chế kinh tế dự kiến ra sao?
2 Ước lượng mô hình cơ sở Dấu và quy mô hệ số có hợp lý không? Có biến quan trọng bị thiếu không?
3 Chẩn đoán phần dư Phần dư có xu hướng, chu kỳ, cụm cùng dấu, phương sai thay đổi, điểm ngoại lệ không?
4 Kiểm định chính thức Dùng DW/BG cho tự tương quan; RESET/F-test/AIC/BIC cho chỉ định mô hình
5 Sửa mô hình nếu cần Thêm biến trễ, xu thế, mùa vụ, log, bậc hai, tương tác, biến giả, điểm gãy
6 Sửa suy luận nếu cần Dùng Newey-West/HAC hoặc sai số chuẩn vững phù hợp
7 Báo cáo kết quả Nói rõ kiểm định, giả thuyết, p-value, quyết định, và tác động đến kết luận

8.1. Mẫu câu báo cáo kết quả chuyên nghiệp

Báo cáo kiểm định tự tương quan
Kiểm định Breusch-Godfrey bậc 2 cho phần dư của mô hình cho p-value = 0,012. Do đó, ở mức ý nghĩa 5%, bác bỏ giả thuyết không có tự tương quan đến bậc 2. Vì vậy, các sai số chuẩn OLS thông thường có thể không đáng tin; nghiên cứu tiếp tục báo cáo sai số chuẩn Newey-West và kiểm tra mô hình có thiếu biến trễ hay không.
Báo cáo RESET
Kiểm định RESET của Ramsey với các thành phần ŷ² và ŷ³ cho p-value = 0,021. Kết quả này cho thấy mô hình tuyến tính hiện tại có dấu hiệu sai chỉ định. Tác giả kiểm tra lại dạng hàm bằng cách thử mô hình logarit, biến bậc hai và tương tác theo cơ sở lý thuyết kinh tế.

8.2. Bảng quyết định nhanh

Tình huống Không nên làm Nên làm
DW gần 0 hoặc BG bác bỏ Bỏ qua và vẫn dùng t-test OLS thường Xem lại mô hình động; dùng BG bậc phù hợp; cân nhắc Newey-West hoặc FGLS
Mô hình có y_{t-1} ở vế phải Dùng DW chuẩn rồi kết luận chắc chắn Dùng Breusch-Godfrey hoặc kiểm định phù hợp mô hình động
RESET bác bỏ Kết luận ngay biến X nào sai Kiểm tra dạng hàm, biến bị bỏ sót, tương tác, log/bậc hai, biến trễ
Thêm biến làm R² tăng Cho rằng mô hình mới chắc chắn tốt hơn Xem R² hiệu chỉnh, AIC/BIC, F-test, lý thuyết và độ ổn định hệ số
Biến quan trọng không có dữ liệu Bỏ qua không thảo luận Tìm proxy, dữ liệu thay thế, thiết kế nhận dạng khác, hoặc nêu hạn chế rõ ràng

9. Ví dụ minh họa tổng hợp

Giả sử nghiên cứu tác động của lãi suất thực đến đầu tư tư nhân theo quý. Mô hình ban đầu:

Mô hình cơ sở
INV_t = β0 + β1R_t + β2GDP_t + u_t

Trong đó INV là đầu tư tư nhân, R là lãi suất thực, GDP là sản lượng thực.

Sau khi ước lượng OLS, nhà nghiên cứu nhận thấy phần dư có chuỗi cùng dấu kéo dài và kiểm định BG bậc 4 có p-value nhỏ. Đồng thời, RESET cũng bác bỏ mô hình tuyến tính đơn giản.

Dấu hiệu Diễn giải có thể Hành động hợp lý
Phần dư cùng dấu theo nhiều quý Mô hình thiếu cấu trúc động hoặc có tự tương quan Thử thêm INV_{t-1}, R_{t-1}, GDP_{t-1}; kiểm định BG lại
RESET bác bỏ Quan hệ có thể phi tuyến hoặc thiếu biến Thử log(INV), log(GDP), tương tác R x giai đoạn chính sách, biến giả khủng hoảng
Hệ số R đổi mạnh khi thêm GDP trễ Mô hình ban đầu có thể bỏ sót kênh chu kỳ kinh doanh Báo cáo độ nhạy và ưu tiên mô hình có cơ sở lý thuyết
Tự tương quan còn nhẹ sau khi sửa mô hình Sai số chuẩn OLS vẫn có thể chưa tin cậy Báo cáo Newey-West như kiểm tra bền vững
Minh họa kết luận
Kết quả mô hình động cho thấy lãi suất thực có tác động âm đến đầu tư tư nhân sau khi kiểm soát GDP hiện tại, GDP trễ và đầu tư trễ. Kiểm định BG sau điều chỉnh không còn bác bỏ mạnh tự tương quan bậc 4. Khi dùng sai số chuẩn Newey-West, dấu và ý nghĩa kinh tế của hệ số lãi suất vẫn ổn định, cho thấy kết luận có độ bền tương đối.

10. Những câu hỏi sinh viên thường khó hiểu

Câu hỏi Giải thích ngắn gọn
Tự tương quan có giống đa cộng tuyến không? Không. Đa cộng tuyến là quan hệ giữa các biến giải thích. Tự tương quan là quan hệ giữa các sai số ở các thời điểm khác nhau.
Có tự tương quan thì hệ số OLS có sai không? Không nhất thiết. Nếu biến giải thích ngoại sinh, hệ số có thể không chệch, nhưng sai số chuẩn OLS thường sai nên kiểm định t/F không đáng tin.
Durbin-Watson bằng 1,2 nghĩa là gì? Nó gợi ý tự tương quan dương, nhưng kết luận chính thức cần bảng d_L, d_U hoặc nên dùng BG nếu mô hình phức tạp.
BG khác DW ở đâu? BG tổng quát hơn: kiểm định được tự tương quan bậc cao và dùng được trong nhiều mô hình có biến phụ thuộc trễ.
Newey-West có sửa mô hình không? Không. Nó sửa sai số chuẩn để suy luận bền vững hơn; hệ số OLS không đổi.
RESET bác bỏ thì làm gì? Không kết luận ngay biến nào sai; cần kiểm tra lý thuyết, dạng hàm, biến bị bỏ sót, tương tác, biến trễ và điểm gãy cấu trúc.
Bỏ sót biến khi nào gây thiên lệch? Khi biến bị bỏ sót vừa ảnh hưởng đến Y vừa tương quan với biến đã đưa vào mô hình.
Đưa thừa biến có nguy hiểm không? Ít nguy hiểm hơn bỏ sót biến quan trọng về thiên lệch, nhưng làm mô hình kém chính xác, tăng sai số chuẩn và dễ overfitting.

11. Bài tập và câu hỏi ôn tập

Mục tiêu của bài tập
Các bài tập dưới đây giúp sinh viên luyện cách đọc kiểm định, diễn giải hậu quả, chọn biện pháp xử lý và viết kết luận kinh tế lượng bằng lời văn chuyên nghiệp.

11.1. Câu hỏi lý thuyết

  1. Trình bày bản chất của tự tương quan bậc nhất. Vì sao tự tương quan thường gặp trong dữ liệu chuỗi thời gian?
  2. Phân biệt hậu quả của tự tương quan đối với hệ số OLS và đối với sai số chuẩn OLS.
  3. Nêu điều kiện áp dụng và hạn chế của kiểm định Durbin-Watson.
  4. Tại sao kiểm định Breusch-Godfrey linh hoạt hơn Durbin-Watson?
  5. Phân biệt Cochrane-Orcutt, Prais-Winsten và Newey-West về mục tiêu và tác động đến hệ số hồi quy.
  6. Trình bày hai điều kiện để bỏ sót biến gây thiên lệch cho hệ số của biến đã đưa vào mô hình.
  7. Vì sao đưa thừa biến không liên quan thường không gây thiên lệch nhưng vẫn không được khuyến khích?
  8. RESET của Ramsey kiểm định điều gì? Vì sao RESET không cho biết chính xác mô hình nên sửa thế nào?

11.2. Bài tập diễn giải kết quả kiểm định

Bài tập 1
Một mô hình chuỗi thời gian có thống kê Durbin-Watson d = 0,92. Hãy diễn giải trực giác của kết quả này.

Nếu mô hình có biến phụ thuộc trễ y_{t-1} ở vế phải, bạn có nên dựa hoàn toàn vào DW không? Hãy đề xuất kiểm định phù hợp hơn.

Bài tập 2
Kiểm định Breusch-Godfrey bậc 4 cho p-value = 0,003. Hãy viết kết luận ở mức ý nghĩa 5%.

Nêu ít nhất ba hướng xử lý có thể áp dụng trước khi công bố kết quả hồi quy.

Bài tập 3
Mô hình tiền lương chỉ gồm biến học vấn, nhưng bỏ sót kinh nghiệm. Giả sử kinh nghiệm làm tăng lương và người có học vấn cao thường có kinh nghiệm thấp hơn do đi học lâu hơn. Dự đoán chiều thiên lệch của hệ số học vấn.

Giải thích bằng công thức thiên lệch do bỏ sót biến.

11.3. Bài tập thực hành với phần mềm

  1. Chọn một bộ dữ liệu chuỗi thời gian kinh tế, ví dụ GDP, CPI, doanh số bán lẻ hoặc lãi suất. Ước lượng một mô hình OLS đơn giản và vẽ phần dư theo thời gian.
  2. Thực hiện kiểm định Durbin-Watson và Breusch-Godfrey. So sánh kết luận của hai kiểm định.
  3. Thử thêm xu thế thời gian, biến mùa vụ hoặc biến trễ. Kiểm tra xem tự tương quan có giảm không.
  4. Báo cáo kết quả OLS thông thường và kết quả với sai số chuẩn Newey-West. So sánh sai số chuẩn, t-statistic và p-value.
  5. Thực hiện kiểm định RESET. Nếu RESET bác bỏ, đề xuất ít nhất hai đặc tả thay thế có cơ sở kinh tế.

11.4. Gợi ý đáp án ngắn

Bài Gợi ý
Bài 1 d = 0,92 nhỏ hơn 2, gợi ý tự tương quan dương. Nếu có y_{t-1}, nên dùng BG thay vì dựa hoàn toàn vào DW.
Bài 2 p-value = 0,003 < 0,05 nên bác bỏ H0 không có tự tương quan bậc 4. Hướng xử lý: xem lại mô hình động, thêm biến trễ/xu thế/mùa vụ, dùng Newey-West hoặc FGLS nếu phù hợp.
Bài 3 β_kinh nghiệm > 0; Cov(học vấn, kinh nghiệm) < 0 nên thiên lệch âm. Hệ số học vấn bị kéo xuống so với tác động thật.

12. Tóm tắt cuối phần

Chủ đề Công thức/kiểm định chính Kết luận cần nhớ
Tự tương quan Cov(u_t,u_s|X) ≠ 0 Sai số có quan hệ theo thời gian; làm OLS không hiệu quả và sai số chuẩn thông thường không đáng tin
Durbin-Watson d = Σ(e_t-e_{t-1})² / Σe_t² ≈ 2(1-r_hat) d gần 2: ít bằng chứng AR(1); d nhỏ: tự tương quan dương; d lớn: tự tương quan âm
Breusch-Godfrey Hồi quy phụ e_t theo X và e_{t-1}…e_{t-p}; LM = nR² Tổng quát hơn DW, kiểm định tự tương quan bậc cao
Cochrane-Orcutt y_t – ρy_{t-1} = β0(1-ρ)+β1(x_t-ρx_{t-1})+v_t Biến đổi mô hình theo AR(1), có thể thay đổi hệ số
Newey-West HAC covariance matrix Giữ hệ số OLS, điều chỉnh sai số chuẩn bền vững với tự tương quan và phương sai thay đổi
Bỏ sót biến Bias = β_Z · Cov(X,Z)/Var(X) Thiên lệch khi biến bị bỏ sót ảnh hưởng Y và tương quan với X
Đưa thừa biến Không có công thức thiên lệch nếu biến thừa ngoại sinh Không gây thiên lệch nhưng làm mô hình kém chính xác, giảm bậc tự do
RESET Thêm ŷ², ŷ³ rồi F-test Cảnh báo sai chỉ định, không chỉ ra chính xác nguyên nhân
Checklist trước khi nộp bài nghiên cứu
  1. Đã giải thích cơ sở lý thuyết của mô hình chưa?
  2. Đã vẽ và đọc phần dư theo thời gian chưa?
  3. Đã kiểm định tự tương quan bằng DW/BG phù hợp chưa?
  4. Nếu có tự tương quan, đã phân biệt sửa mô hình và sửa sai số chuẩn chưa?
  5. Đã kiểm tra nguy cơ bỏ sót biến, sai dạng hàm, thiếu tương tác hoặc thiếu biến trễ chưa?
  6. Đã dùng RESET, F-test, AIC/BIC hoặc kiểm tra độ nhạy đúng cách chưa?
  7. Đã viết kết luận bằng ngôn ngữ cẩn trọng, không phóng đại kết quả chưa?

Tài liệu tham khảo gợi ý

  • Gujarati, D. N. & Porter, D. C. – Basic Econometrics.
  • Wooldridge, J. M. – Introductory Econometrics: A Modern Approach.
  • Stock, J. H. & Watson, M. W. – Introduction to Econometrics.
  • Greene, W. H. – Econometric Analysis.
Kết luận sư phạm
Phần 5 không chỉ yêu cầu sinh viên nhớ tên kiểm định. Mục tiêu quan trọng hơn là biết đọc ‘dấu hiệu bệnh’ của mô hình, hiểu hậu quả đối với OLS, chọn đúng công cụ xử lý và diễn giải kết quả một cách trung thực về mặt kinh tế lượng.