| KINH TẾ LƯỢNG |
|---|
|
PHẦN 4 KHUYẾT TẬT CỦA MÔ HÌNH Đa cộng tuyến và Phương sai sai số thay đổi |
| Tài liệu hướng dẫn/bài giảng dành cho sinh viên đại học |
Trọng tâm của phần này
|
| Biên soạn theo hướng: dễ hiểu • có trực giác • có ví dụ • có bài tập |

Hình 1. Quy trình tổng quan khi kiểm tra khuyết tật mô hình hồi quy.
- Khung chẩn đoán khuyết tật của mô hình hồi quy
1.1. Mô hình hồi quy tuyến tính cổ điển và các điểm dễ “hỏng”
Xét mô hình hồi quy bội:
Trong thực hành, ta thường quan tâm bốn nhóm vấn đề: dạng hàm có đúng không, có thiếu biến quan trọng không, các biến giải thích có quá “giống nhau” không, và sai số có phương sai ổn định không. Phần này tập trung vào hai nhóm cuối: đa cộng tuyến và phương sai sai số thay đổi.
| Vấn đề | Liên quan đến giả định nào? | Câu hỏi sinh viên cần tự hỏi |
|---|---|---|
| Đa cộng tuyến | Ma trận X phải có hạng đầy đủ; các biến giải thích không được là tổ hợp tuyến tính hoàn hảo của nhau. | Biến X_j còn bao nhiêu thông tin riêng sau khi đã kiểm soát các X khác? |
| Phương sai sai số thay đổi | Giả định Var(u_i|X) = σ² không đổi đối với mọi quan sát. | Độ phân tán của sai số có tăng/giảm theo quy mô, thu nhập, doanh số, nhóm đối tượng không? |
| Sai dạng hàm/thiếu biến | E(u|X)=0 và đặc tả mô hình. | Phần dư có mẫu hình hệ thống không? Có biến bị bỏ sót làm hệ số bị chệch không? |
1.2. Tư duy chẩn đoán: không chỉ nhìn một con số
- Một ngưỡng thống kê không thay thế được lý thuyết kinh tế. VIF cao có thể chấp nhận được nếu biến đó là biến kiểm soát quan trọng để tránh sai lệch do bỏ sót biến.
- Kiểm định có ý nghĩa thống kê không đồng nghĩa với mức độ nghiêm trọng về kinh tế. Mẫu rất lớn có thể phát hiện phương sai sai số thay đổi nhỏ.
- Đồ thị phần dư, hiểu biết về dữ liệu và câu hỏi nghiên cứu phải đi cùng các kiểm định định lượng.
- Trong báo cáo, cần nêu hiện tượng, bằng chứng chẩn đoán, hậu quả có thể xảy ra, và cách xử lý đã chọn.
- Hiện tượng đa cộng tuyến
2.1. Bản chất của đa cộng tuyến
Đa cộng tuyến xuất hiện khi một biến giải thích có thể được giải thích khá tốt bởi các biến giải thích còn lại. Khi đó, mô hình khó tách riêng tác động của từng biến trong khi giữ các biến khác không đổi.

Hình 2. Trực giác về đa cộng tuyến: các biến giải thích di chuyển gần như cùng nhau.
2.2. Đa cộng tuyến hoàn hảo và đa cộng tuyến không hoàn hảo
| Loại | Mô tả | Hậu quả trực tiếp | Ví dụ |
|---|---|---|---|
| Hoàn hảo | Một biến giải thích là tổ hợp tuyến tính chính xác của các biến khác. | Không ước lượng được OLS vì X’X không khả nghịch. | Đưa cả biến giả Nam, Nữ và hằng số vào cùng mô hình; hoặc X₂ = 2X₁ chính xác. |
| Không hoàn hảo / cao | Các biến giải thích tương quan tuyến tính rất mạnh nhưng không chính xác tuyệt đối. | OLS vẫn chạy được, nhưng hệ số riêng có phương sai lớn, sai số chuẩn lớn, dấu/hệ số dễ bất ổn. | Thu nhập, tài sản, chi tiêu cùng có xu hướng tăng với mức sống. |
2.3. Trực giác Frisch-Waugh-Lovell: hệ số riêng dựa vào phần biến thiên còn lại
Khi ước lượng hệ số β_j trong hồi quy bội, phần mềm thực chất đang hỏi: sau khi đã loại bỏ phần của X_j được giải thích bởi các biến X khác, phần còn lại của X_j có liên hệ với phần còn lại của Y hay không?
Nếu phần biến thiên riêng này rất nhỏ, mô hình gần như không có đủ “thí nghiệm tự nhiên” để so sánh các quan sát chỉ khác nhau ở X_j nhưng giống nhau ở các X khác. Vì vậy, hệ số β̂_j có thể rất nhạy cảm với một vài quan sát hoặc với cách đặc tả mô hình.
2.4. Nguyên nhân thường gặp của đa cộng tuyến
- Các biến kinh tế có quan hệ tự nhiên: thu nhập – tài sản – tiêu dùng; quy mô doanh nghiệp – doanh thu – số lao động; trình độ học vấn – kinh nghiệm – vị trí công việc.
- Dữ liệu chuỗi thời gian có xu hướng tăng/giảm theo thời gian: GDP, vốn đầu tư, cung tiền, dân số.
- Mô hình có biến bậc hai hoặc tương tác: X và X² thường tương quan cao, đặc biệt khi X không được chuẩn hóa/centered.
- Mô hình có nhiều biến giả hoặc tạo biến giả sai cách: bẫy biến giả xảy ra khi đưa đủ tất cả nhóm và cả hằng số.
- Mẫu nhỏ hoặc biến giải thích có khoảng biến thiên hẹp: thông tin trong dữ liệu không đủ để tách tác động riêng.
- Thiết kế khảo sát hoặc chọn mẫu làm các biến đi cùng nhau: ví dụ chỉ khảo sát hộ gia đình ở một khu vực thu nhập tương tự.
2.5. Hậu quả của đa cộng tuyến đối với ước lượng OLS
Công thức trên cho thấy phương sai của β̂_j tăng khi R_j² tăng. Nếu X_j được các biến còn lại giải thích rất tốt, thì 1 – R_j² rất nhỏ, làm phương sai và sai số chuẩn của β̂_j phình lớn.
| Hậu quả | Diễn giải thực nghiệm | Điều sinh viên cần nhớ |
|---|---|---|
| Sai số chuẩn lớn | t-statistic nhỏ, p-value lớn dù hệ số có thể có ý nghĩa kinh tế. | Không vội kết luận biến không quan trọng nếu có đa cộng tuyến cao. |
| Khoảng tin cậy rộng | Ước lượng thiếu chính xác, khó xác định dấu và độ lớn tác động. | Kết quả cần được diễn giải thận trọng. |
| Hệ số nhạy cảm | Thêm/bớt biến hoặc thêm vài quan sát có thể làm hệ số đổi mạnh. | Nên kiểm tra độ bền của đặc tả mô hình. |
| R² cao nhưng nhiều t không có ý nghĩa | Mô hình giải thích Y tốt tổng thể nhưng không tách được tác động riêng từng X. | Đây là dấu hiệu kinh điển nhưng không đủ để kết luận. |
| Dấu hệ số “lạ” | Hệ số có thể trái kỳ vọng do các biến giải thích chia sẻ thông tin quá nhiều. | Cần kiểm tra lý thuyết, dữ liệu và tương quan giữa các X. |
2.6. Phát hiện đa cộng tuyến
a) Nhìn tương quan cặp: hữu ích nhưng không đủ
Ma trận tương quan giữa các biến giải thích là bước kiểm tra nhanh. Tuy nhiên, một biến có thể không tương quan quá cao với từng biến riêng lẻ nhưng lại được giải thích rất tốt bởi tổ hợp nhiều biến khác. Vì vậy, tương quan cặp không phải là bằng chứng cuối cùng.
b) Hồi quy phụ và hệ số phóng đại phương sai VIF
Để tính VIF cho biến X_j, ta hồi quy X_j theo tất cả các biến giải thích còn lại, lấy R_j² của hồi quy phụ đó, rồi tính:

Hình 3. VIF tăng phi tuyến khi R_j² của hồi quy phụ tiến gần 1.
| R_j² trong hồi quy phụ | VIF_j | Diễn giải |
|---|---|---|
| 0,00 | 1,00 | Không có dấu hiệu biến X_j được giải thích bởi các X khác. |
| 0,50 | 2,00 | Phương sai của β̂_j bị phóng đại gấp 2 lần so với trường hợp không cộng tuyến. |
| 0,80 | 5,00 | Cần chú ý; đa cộng tuyến có thể ảnh hưởng suy luận. |
| 0,90 | 10,00 | Thường được xem là nghiêm trọng theo quy tắc kinh nghiệm. |
| 0,95 | 20,00 | Thông tin riêng rất ít; hệ số riêng rất khó ước lượng chính xác. |
c) Dấu hiệu từ bảng kết quả hồi quy
- R² hoặc F-test chung có ý nghĩa nhưng nhiều kiểm định t riêng lẻ không có ý nghĩa.
- Dấu của hệ số trái với lý thuyết và thay đổi khi thêm/bớt biến kiểm soát.
- Sai số chuẩn lớn bất thường ở các biến có liên quan kinh tế gần nhau.
- Khoảng tin cậy rất rộng.
- Tương quan giữa các ước lượng hệ số cao; condition number/condition index lớn nếu phần mềm cung cấp.
2.7. Cách xử lý đa cộng tuyến
| Biện pháp | Khi nên dùng | Lưu ý quan trọng |
|---|---|---|
| Giữ nguyên và báo cáo | Mục tiêu chính là dự báo, hoặc biến cộng tuyến là biến kiểm soát cần thiết. | Đa cộng tuyến không nhất thiết làm dự báo kém; vấn đề chính là diễn giải hệ số riêng. |
| Loại biến trùng lặp về nội dung | Hai biến đo gần như cùng một khái niệm, ví dụ doanh thu và tổng tài sản cùng đại diện quy mô. | Không loại biến chỉ vì p-value lớn; phải có lý do lý thuyết. |
| Gộp biến/tạo chỉ số | Nhiều biến cùng đo một khái niệm tiềm ẩn như mức sống, quy mô, năng lực quản trị. | Cần giải thích cách xây dựng chỉ số; có thể dùng chuẩn hóa hoặc PCA ở mức nâng cao. |
| Thu thập thêm dữ liệu | Mẫu nhỏ hoặc dữ liệu thiếu quan sát có biến thiên độc lập. | Đây thường là giải pháp tốt nhất nhưng tốn chi phí. |
| Centering biến | Mô hình có X, X² hoặc tương tác X₁X₂. | Centering giảm cộng tuyến kỹ thuật giữa biến gốc và biến tạo thêm; không làm mất ý nghĩa kinh tế nếu diễn giải đúng. |
| Đặc tả lại mô hình | Lý thuyết cho thấy mô hình đang đưa quá nhiều biến gần nhau hoặc biến không cần thiết. | Không đánh đổi bằng việc bỏ biến gây thiên lệch do omitted variable bias. |
| Ridge/Lasso/PCA | Mục tiêu dự báo hoặc mô hình nhiều biến; mức nâng cao. | Không còn là OLS cổ điển; cần nói rõ mục tiêu là dự báo hay suy luận nhân quả. |
2.8. Ví dụ minh họa: tiền lương, học vấn và kinh nghiệm
Giả sử ta ước lượng mô hình:
Trong dữ liệu lao động, age, experience và tenure thường có liên hệ chặt chẽ. Nếu đưa đồng thời cả ba biến, mô hình có thể gặp đa cộng tuyến cao. Khi đó β₂ hoặc β₄ có thể không có ý nghĩa thống kê riêng lẻ, dù nhóm biến liên quan đến tuổi/nghề nghiệp vẫn có ý nghĩa khi xét chung.
| Biến | VIF giả định | Nhận xét |
|---|---|---|
| education | 1,8 | Không đáng lo; học vấn có thông tin riêng tương đối rõ. |
| experience | 8,6 | Cần chú ý; kinh nghiệm liên hệ mạnh với tuổi và thâm niên. |
| tenure | 4,9 | Mức vừa phải; có thể vẫn giữ nếu lý thuyết yêu cầu. |
| age | 11,2 | Cao; kiểm tra lại vai trò của age so với experience. |
- Hiện tượng phương sai sai số thay đổi
3.1. Bản chất của phương sai sai số thay đổi
Giả định phương sai sai số không đổi yêu cầu mức độ phân tán của sai số quanh đường hồi quy là như nhau cho mọi quan sát, sau khi đã điều kiện theo các biến giải thích.
Khi phương sai sai số thay đổi, mô hình vẫn có thể mô tả đúng trung bình có điều kiện E(y|X), nhưng mức độ “ồn” quanh trung bình này khác nhau giữa các quan sát.

Hình 4. Dữ liệu có phương sai sai số tăng theo quy mô X.
3.2. Bản chất kinh tế: vì sao phương sai sai số thay đổi thường gặp?
- Hiệu ứng quy mô: doanh nghiệp lớn có lợi nhuận tuyệt đối biến động mạnh hơn doanh nghiệp nhỏ; hộ thu nhập cao có mức chi tiêu phân tán hơn hộ thu nhập thấp.
- Khác biệt nhóm: thành thị/nông thôn, doanh nghiệp niêm yết/chưa niêm yết, ngành nghề khác nhau có độ biến động khác nhau.
- Sai số đo lường không đồng đều: dữ liệu thu nhập cao hoặc tài sản lớn có thể được khai báo kém chính xác hơn.
- Mô hình thiếu biến hoặc sai dạng hàm: nếu bỏ sót yếu tố ảnh hưởng đến độ biến động, phần dư có thể phình ra theo X.
- Dữ liệu tỷ lệ và dữ liệu chéo: trong cross-section, mức độ biến động thường khác nhau giữa các đơn vị quan sát.
3.3. Hậu quả đối với OLS
| Điều kiện | OLS còn đúng gì? | OLS hỏng gì? |
|---|---|---|
| E(u|X)=0 vẫn đúng | Hệ số OLS không chệch và nhất quán. | Không còn hiệu quả nhất trong lớp ước lượng tuyến tính không chệch; có ước lượng khác tốt hơn nếu biết cấu trúc phương sai. |
| Dùng sai số chuẩn OLS thông thường | Hệ số ước lượng vẫn là cùng một β̂. | Sai số chuẩn có thể sai, nên t-statistic, p-value, F-test và khoảng tin cậy có thể không tin cậy. |
| Mẫu lớn | OLS vẫn có thể dùng để ước lượng trung bình có điều kiện nếu ngoại sinh đúng. | Cần sai số chuẩn vững hoặc phương pháp phù hợp để suy luận tiệm cận. |
3.4. Phát hiện phương sai sai số thay đổi
a) Quan sát đồ thị phần dư
Sau khi ước lượng OLS, vẽ phần dư e_i theo y dự báo hoặc theo từng biến giải thích quan trọng. Nếu độ phân tán của phần dư tăng/giảm có hệ thống, có dấu hiệu phương sai sai số thay đổi.
| Dạng đồ thị phần dư | Diễn giải |
|---|---|
| Hình phễu mở rộng | Phương sai tăng theo X hoặc theo giá trị dự báo. |
| Hình phễu thu hẹp | Phương sai giảm theo X; ít gặp hơn nhưng vẫn là heteroskedasticity. |
| Cụm theo nhóm | Mỗi nhóm có phương sai khác nhau, ví dụ doanh nghiệp lớn/nhỏ hoặc thành thị/nông thôn. |
| Mẫu hình cong | Có thể là sai dạng hàm, không chỉ là phương sai sai số thay đổi. |
b) Kiểm định Breusch-Pagan
Kiểm định Breusch-Pagan kiểm tra xem phương sai sai số có phụ thuộc tuyến tính vào một hoặc nhiều biến giải thích hay không. Quy trình cơ bản:
- Ước lượng mô hình gốc bằng OLS và lấy phần dư e_i.
- Tính e_i².
- Hồi quy phụ e_i² theo các biến giải thích nghi ngờ gây phương sai thay đổi.
- Kiểm định giả thuyết H₀: các hệ số trong hồi quy phụ bằng 0, nghĩa là phương sai không phụ thuộc vào các biến đó.
- Nếu p-value nhỏ hơn mức ý nghĩa, bác bỏ H₀ và kết luận có bằng chứng về phương sai sai số thay đổi.
c) Kiểm định White
Kiểm định White tổng quát hơn Breusch-Pagan vì hồi quy phụ thường bao gồm các biến gốc, bình phương và tích chéo của các biến giải thích. Do đó, White có thể phát hiện nhiều dạng phương sai sai số thay đổi phi tuyến hơn.
| Tiêu chí | Breusch-Pagan | White |
|---|---|---|
| Ý tưởng | Phương sai phụ thuộc tuyến tính vào các biến chọn trước. | Phương sai phụ thuộc vào biến gốc, bình phương và tương tác. |
| Ưu điểm | Đơn giản, dễ diễn giải, ít mất bậc tự do. | Tổng quát, phát hiện nhiều dạng heteroskedasticity. |
| Hạn chế | Có thể bỏ sót dạng phi tuyến. | Dễ mất bậc tự do khi có nhiều biến; hồi quy phụ có thể rất lớn. |
| Khi dùng | Có giả thuyết rõ về biến gây thay đổi phương sai. | Muốn kiểm tra tổng quát khi chưa biết dạng phương sai. |
3.5. Biện pháp khắc phục phương sai sai số thay đổi

Hình 5. Hai hướng xử lý phổ biến: sửa suy luận bằng robust SE hoặc thay đổi phương pháp ước lượng bằng WLS/FGLS.
a) Sai số chuẩn vững – Robust Standard Errors
Sai số chuẩn vững không thay đổi hệ số OLS. Nó thay đổi cách tính ma trận phương sai-hiệp phương sai của β̂ để cho phép Var(u_i|X) khác nhau giữa các quan sát. Vì vậy, các giá trị t, p-value và khoảng tin cậy sẽ thay đổi.
- Dùng khi mục tiêu chính là suy luận về hệ số trong mô hình trung bình có điều kiện và không chắc cấu trúc phương sai cụ thể.
- Trong mẫu lớn, robust SE là lựa chọn thực hành rất phổ biến.
- Các phiên bản HC0, HC1, HC2, HC3 khác nhau ở hiệu chỉnh mẫu; HC1 thường được phần mềm dùng mặc định, HC3 thường thận trọng hơn trong mẫu nhỏ.
- Robust SE không chữa sai dạng hàm, không chữa thiếu biến quan trọng, không tự loại bỏ ngoại lệ.
b) Bình phương tối thiểu có trọng số – WLS
Nếu biết hoặc ước lượng được cấu trúc phương sai sai số, ta có thể gán trọng số lớn hơn cho quan sát có phương sai nhỏ và trọng số nhỏ hơn cho quan sát có phương sai lớn. Ý tưởng là quan sát chính xác hơn nên được tin nhiều hơn.
Một cách nhìn khác: chia cả hai vế mô hình cho √h_i để biến sai số mới có phương sai không đổi:
| Tình huống | Nên dùng gì? | Giải thích |
|---|---|---|
| Không biết dạng phương sai | Robust SE | An toàn cho suy luận trong mẫu lớn; không cần giả định h_i. |
| Có lý thuyết/kinh nghiệm rằng Var(u_i) tỷ lệ với X_i² hoặc quy mô | WLS hoặc FGLS | Nếu trọng số đúng, ước lượng hiệu quả hơn OLS. |
| Mẫu nhỏ, nhiều ngoại lệ | Kiểm tra đồ thị, cân nhắc HC3, mô hình lại dữ liệu | Không nên chỉ bấm robust rồi bỏ qua chất lượng dữ liệu. |
| Mục tiêu dự báo | So sánh dự báo OLS/WLS và đánh giá ngoài mẫu | Hiệu quả suy luận không luôn đồng nghĩa với dự báo tốt hơn. |
c) FGLS – Bình phương tối thiểu tổng quát khả thi
Trong thực tế, h_i thường không biết. FGLS ước lượng h_i từ dữ liệu, sau đó dùng trọng số ước lượng để chạy WLS. Quy trình tổng quát:
- Chạy OLS ban đầu và lấy phần dư e_i.
- Mô hình hóa phương sai của sai số, ví dụ ln(e_i²) theo các biến quy mô hoặc các biến nghi ngờ.
- Từ mô hình phương sai, tính ĥ_i.
- Chạy WLS với trọng số w_i = 1/ĥ_i.
- Kiểm tra độ nhạy của kết quả vì nếu mô hình phương sai sai, FGLS có thể không tốt hơn robust SE.
3.6. Ví dụ minh họa: chi tiêu hộ gia đình và thu nhập
Mô hình gốc:
Trong dữ liệu hộ gia đình, các hộ thu nhập cao thường có mức chi tiêu phân tán hơn hộ thu nhập thấp. Do đó, Var(u_i|income_i) có thể tăng theo income_i. Nếu kiểm định Breusch-Pagan cho p-value = 0,003, ta có bằng chứng về phương sai sai số thay đổi.
| Kết quả | OLS SE thường | Robust SE | Diễn giải |
|---|---|---|---|
| β̂_income | 0,62 | 0,62 | Hệ số không đổi vì robust SE không ước lượng lại β̂. |
| SE(β̂_income) | 0,08 | 0,12 | Sai số chuẩn tăng khi cho phép phương sai thay đổi. |
| t-statistic | 7,75 | 5,17 | Tác động vẫn có ý nghĩa, nhưng mức chắc chắn thấp hơn. |
| p-value | < 0,001 | < 0,001 | Kết luận không đổi trong ví dụ này. Trong trường hợp khác có thể đổi. |
- So sánh nhanh và quy trình thực hành
4.1. So sánh đa cộng tuyến và phương sai sai số thay đổi
| Tiêu chí | Đa cộng tuyến | Phương sai sai số thay đổi |
|---|---|---|
| Bản chất | Các biến giải thích có quan hệ tuyến tính mạnh với nhau. | Phương sai của sai số không giống nhau giữa các quan sát. |
| Đối tượng cần kiểm tra | Ma trận X; quan hệ giữa các biến giải thích. | Phần dư/sai số; quan hệ giữa độ phân tán sai số và X hoặc nhóm. |
| OLS có chạy được không? | Không chạy nếu cộng tuyến hoàn hảo; vẫn chạy nếu cộng tuyến cao nhưng không hoàn hảo. | Vẫn chạy bình thường. |
| Hệ số có bị chệch không? | Không, nếu E(u|X)=0 vẫn đúng. | Không, nếu E(u|X)=0 vẫn đúng. |
| Vấn đề chính | Sai số chuẩn hệ số riêng lớn, t-test yếu, hệ số bất ổn. | Sai số chuẩn OLS thông thường sai, t/F/p-value không đáng tin. |
| Công cụ phát hiện | VIF, hồi quy phụ, tương quan, condition index, dấu hiệu R² cao/t thấp. | Đồ thị phần dư, Breusch-Pagan, White, Goldfeld-Quandt. |
| Biện pháp xử lý | Dựa vào lý thuyết: giữ, bỏ biến trùng lặp, gộp biến, thu thêm dữ liệu, center biến, kiểm tra độ bền. | Robust SE, WLS/FGLS nếu biết dạng phương sai, mô hình lại dữ liệu nếu sai dạng hàm. |
4.2. Checklist thực hành khi làm bài tập/tiểu luận
- Ước lượng mô hình OLS ban đầu và lưu phần dư.
- Kiểm tra logic kinh tế của dấu và độ lớn hệ số trước khi nhìn p-value.
- Tính VIF cho các biến giải thích; xác định biến nào có VIF cao và vì sao.
- Vẽ phần dư theo giá trị dự báo và theo biến quy mô quan trọng.
- Thực hiện kiểm định Breusch-Pagan hoặc White nếu nghi ngờ phương sai sai số thay đổi.
- Nếu có heteroskedasticity, báo cáo sai số chuẩn vững hoặc giải thích vì sao dùng WLS/FGLS.
- Nếu có đa cộng tuyến, không xóa biến máy móc; xem lại vai trò biến kiểm soát, biến trùng nội dung và mục tiêu nghiên cứu.
- Viết kết luận theo cấu trúc: bằng chứng → hậu quả → cách xử lý → kết quả sau xử lý.
4.3. Mẫu câu viết kết luận trong báo cáo
- Ví dụ tổng hợp và bài tập tự luyện
5.1. Ví dụ tổng hợp
Một nhóm sinh viên nghiên cứu ảnh hưởng của chi tiêu quảng cáo đến doanh thu của doanh nghiệp. Mô hình đề xuất:
Sau khi chạy OLS, nhóm thu được các thông tin sau: R² = 0,82; hệ số advertising dương nhưng p-value = 0,11; VIF của employees = 12,5 và assets = 14,2; kiểm định White có p-value = 0,01.
| Câu hỏi | Gợi ý phân tích |
|---|---|
| Có đa cộng tuyến không? | Có dấu hiệu rõ vì employees và assets đều đo quy mô doanh nghiệp, VIF cao. Điều này có thể làm hệ số riêng của từng biến quy mô kém chính xác. |
| Có phương sai sai số thay đổi không? | White test p-value = 0,01 nên bác bỏ H₀ phương sai không đổi ở mức 5%. Cần dùng robust SE hoặc cân nhắc WLS nếu có lý thuyết về phương sai. |
| Có nên xóa employees hoặc assets không? | Không xóa máy móc. Nếu cả hai đo quy mô, có thể chọn một biến theo lý thuyết, tạo chỉ số quy mô hoặc kiểm tra độ bền bằng các đặc tả khác nhau. |
| Kết luận về advertising? | p-value 0,11 có thể do đa cộng tuyến hoặc SE chưa robust. Cần kiểm tra kết quả sau robust SE và mô hình thay thế trước khi kết luận quảng cáo không ảnh hưởng. |
5.2. Bài tập tự luyện
5.3. Gợi ý đáp án ngắn
| Bài | Gợi ý đáp án |
|---|---|
| 1 | Sai vì đa cộng tuyến không hoàn hảo không làm OLS bị chệch nếu E(u|X)=0. Vấn đề chính là phương sai/sai số chuẩn lớn và hệ số bất ổn. |
| 2 | VIF₄ = 1/(1-0,875)=8. Đây là mức cao, cần chú ý; hệ số của X₄ có thể ước lượng kém chính xác. |
| 3 | Có thể do đa cộng tuyến, đặc tả sai, mẫu nhỏ hoặc biến đo lường kém. Kiểm tra VIF, tương quan, đồ thị phần dư, kiểm định chung theo nhóm biến. |
| 4 | BP = 120 × 0,18 = 21,6. Vì 21,6 > 9,49, bác bỏ H₀ phương sai không đổi ở mức 5%. |
| 5 | Nêu White test bác bỏ homoskedasticity, nên dùng robust SE; hệ số income giữ nguyên nhưng SE/p-value thay đổi; kết luận dựa trên robust SE. |
| 6 | h_i = income_i² nên w_i = 1/income_i². Chia mô hình cho income_i: consumption_i/income_i = β₀(1/income_i) + β₁ + u_i/income_i. |
- Tóm tắt cuối phần
| Đa cộng tuyến
Làm khó tách tác động riêng của biến giải thích; OLS vẫn không chệch nếu ngoại sinh đúng, nhưng SE lớn và hệ số bất ổn. |
VIF
VIF_j = 1/(1-R_j²). VIF càng cao, phần thông tin riêng của X_j càng ít. |
|---|---|
| Không xóa biến máy móc
Bỏ biến kiểm soát quan trọng có thể gây omitted variable bias, nghiêm trọng hơn đa cộng tuyến. |
PSSS thay đổi
Sai số có phương sai không đồng nhất giữa các quan sát; phổ biến trong dữ liệu chéo và dữ liệu có hiệu ứng quy mô. |
| Hậu quả của heteroskedasticity
OLS không hiệu quả; sai số chuẩn OLS thường sai, làm kiểm định và khoảng tin cậy không tin cậy. |
Robust SE và WLS
Robust SE sửa suy luận; WLS/FGLS thay đổi phương pháp ước lượng khi có cấu trúc phương sai đáng tin. |