1. Lý thuyết về biến giả
Không phải các biến độc lập luôn ở dạng định lượng mà sẽ có các trường hợp biến độc lập là biến phân loại như học vấn (gồm trung cấp, cao đẳng, đại học, sau đại học), hôn nhân (gồm độc thân, đã lập gia đình), phòng ban (marketing, hành chính nhân sự, kế toán, kinh doanh)… Chúng ta không thực hiện hồi quy với các biến độc lập phân loại như bình thường vì các kết quả ước lượng được sẽ không có ý nghĩa. Một giải pháp để giải quyết khó khăn này đó là mã hóa biến phân loại thành biến giả (dummy variable).
Biến giả chỉ gồm hai giá trị 0 và 1. Biến giả có thể là một biến hoặc nhiều biến tùy thuộc vào đặc điểm của biến phân loại cần chuyển đổi. Ví dụ, biến phân loại giới tính gồm hai giá trị nam – nữ, chúng ta chỉ cần dùng một biến giả X1:
- X1 = 0: nam
- X1 = 1: nữ
Nếu biến phân loại chỉ có hai giá trị thì chúng ta hoàn toàn có thể mã hóa ngược lại, nam sẽ mang giá trị 1 và nữ mang giá trị 2, không có sự khác biệt.
Trường hợp biến phân loại có từ ba giá trị trở lên, chúng ta sẽ cần nhiều hơn một biến giả. Số biến giả cần tạo sẽ bằng số giá trị của biến phân loại trừ đi 1. Xét ví dụ biến phân loại là phòng ban một công ty gồm ba giá trị: phòng marketing, phòng hành chính nhân sự, phòng kinh doanh. Lúc này số biến giả cần tạo là hai biến:
- X1 = 1 nếu là phòng marketing, X1 = 0 nếu ngược lại
- X2 = 1 nếu là phòng hành chính nhân sự, X2 = 0 nếu ngược lại
Nếu một đáp viên đồng thời không thuộc phòng marketing (X1 = 0) và phòng hành chính nhân sự (X2 = 0) thì người đó sẽ thuộc phòng còn lại là kinh doanh. Chính vì vậy mà chúng ta không cần phải có biến X3 cho giá trị thứ ba – phòng kinh doanh.
- (X1 = 1 và X2 = 0): phòng marketing
- (X1 = 0 và X2 = 1): phòng hành chính nhân sự
- (X1 = 0 và X2 = 0): phòng kinh doanh
Về mặt logic, chúng ta không thực sự cần đến biến X3 cho trường hợp thứ ba, có cũng được không có cũng không sao. Nhưng về mặt thống kê, nếu xuất hiện biến X3 sẽ gây ra hiện tượng đa cộng tuyến hoàn hảo, điều này làm sai lệch toàn bộ các ước lượng hồi quy. Trong hồi quy tuyến tính bội trên SPSS, nếu xuất hiện đa cộng tuyến hoàn hảo, biến độc lập đó sẽ được loại bỏ ra khỏi kết quả hồi quy dù chúng ta sử dụng phương pháp đưa biến nào.
2. Tạo biến giả trong SPSS 26 và SPSS 20
Sử dụng tập dữ liệu thực hành có tên 300 – DLTH 3 – DUMMY.sav của ebook SPSS 26 Phạm Lộc Blog. Đây là nghiên của một công ty về sự hài lòng của nhân viên. Các biến tham gia vào hồi quy gồm:
- HaiLong: biến phụ thuộc, được tạo từ trung bình cộng ba biến quan sát HaiLong1, HaiLong2, HaiLong3. Các biến quan sát này được đo bằng thang đo Likert 5 mức độ đồng ý.
- TienLuong: biến độc lập định lượng, biểu thị số tiền lương hàng tháng (triệu đồng).
- ThamNien: biến độc lập định lượng, biểu thị thâm niên làm việc tại công ty (năm).
- BoPhan: biến độc lập định danh (là một dạng của biến phân loại) gồm ba giá trị, 1 là Sản xuất, 2 là Văn phòng, 3 là Kinh doanh. Biến này sẽ cần được mã hóa thành biến giả trước khi thực hiện hồi quy.
Trong giao diện SPSS 26, tiến hành tạo biến giả dummy bằng cách vào Transform > Create Dummy Variables.
Trong cửa sổ hiện ra, đưa biến BoPhan vào phần Create Dummy Variables for. Tích chọn vào Create main-effect dummies, nhập tên biến vào Root Names. Sau đó nhấp vào OK.
Quay lại giao diện Data View, chúng ta sẽ thấy sự xuất hiện của ba biến mới: BoPhan_1, BoPhan_2, BoPhan_3. Tuy nhiên, như đã đề cập trước đó, số biến giả sẽ bằng số giá trị của biến phân loại trừ đi 1. Biến phân loại BoPhan có ba giá trị, số biến giả cần có là hai biến. Chúng ta sẽ xóa đi biến giả BoPhan_3, chỉ giữ lại BoPhan_1 và BoPhan_2 để tránh trường hợp đa cộng tuyến hoàn hảo khi phân tích hồi quy.
Sau khi xóa biến BoPhan_3, chuyển sang giao diện Variable View, chúng ta còn hai biến giả với Label được gán tự động theo giá trị 1 – Sản xuất và giá trị 2 – Văn phòng của biến BoPhan. Khi phân tích hồi quy, bảng hệ số hồi quy Coefficients sẽ hiện Label thay vì tên biến BoPhan_1, BoPhan_2.
Như vậy chúng ta đã hoàn thành tạo biến giả cho biến BoPhan với ý nghĩa như sau:
(BoPhan_1 = 1 và BoPhan_2 = 0): bộ phận Sản xuất
(BoPhan_1 = 0 và BoPhan_2 = 1): bộ phận Văn phòng
(BoPhan_1 = 0 và BoPhan_2 = 0): bộ phận Kinh doanh
Một số phiên bản SPSS thấp hơn chưa có công cụ Create Dummy Variables khi vào menu Transform, chúng ta cần tạo biến giả một cách thủ công bằng công cụ Recode into Different Variables. Từ giao diện SPSS, vào Transform > Recode into Different Variables…
Cửa sổ Recode into Different Variables xuất hiện, đưa biến BoPhan từ bên trái vào mục Numeric Variable -> Output Variable, lần lượt tạo hai biến giả BoPhan_1 và BoPhan_2. Trong phần Name, đặt tên biến giả đầu tiên là BoPhan_1 tương ứng với Label là Sản xuất. Tiếp tục nhấp vào Old and New Values…
Giao diện cửa sổ mới có hai phần: Old Value và New Value đại diện cho giá trị biến cũ và giá trị tương ứng ở biến mới. Biến BoPhan_1 có dạng nhị phân với hai giá trị: 1 – đáp viên ở bộ phận Sản xuất và 0 – đáp viên không phải ở bộ phận Sản xuất. Cách thức chuyển đổi như sau:
Như vậy, chúng ta sẽ có hai lần chuyển đổi, lần thứ nhất:
- Old Value: Nhập giá trị 1. Nghĩa là, lấy tất cả các đáp viên chọn giá trị 1 (Sản xuất) trong biến BoPhan.
- New Value: Nhập giá trị 1. Nghĩa là, những đáp viên chọn giá trị 1 trong biến BoPhan sẽ được chuyển đổi sang giá trị 1 ở biến BoPhan_1. Nhấn Add để kết thúc lần chuyển đổi thứ nhất.
Lần chuyển đối thứ hai:
- Old Value: Tích chọn All other values. Nghĩa là, lấy tất cả các đáp viên còn lại (giá trị 2, 3) trong biến BoPhan.
- New Value: Nhập giá trị 0. Nghĩa là, những đáp viên còn lại trong biến BoPhan sẽ được chuyển đổi sang giá trị 0 ở biến BoPhan_1. Nhấn Add để kết thúc chuyển đổi.
Nhấp Continue để quay về cửa sổ ban đầu, nhấp Change để xác nhận thay đổi. Sau đó chọn OK để kết thúc quá trình mã hóa biến.
Như vậy, chúng ta đã tạo xong biến giả BoPhan_1 cho nhóm Sản xuất. Thực hiện lại tương tự các bước để tạo biến BoPhan_2 cho nhóm Văn phòng. Trong phần Name, đặt tên biến giả thứ hai là BoPhan_2 tương ứng với Label là Văn phòng.
Tại giao diện Old Value và New Value, biến BoPhan_2 cũng có dạng nhị phân với hai giá trị: 1 – đáp viên ở bộ phận Văn phòng và 0 – đáp viên không phải ở bộ phận Văn phòng. Cách thức chuyển đổi:
Chúng ta cũng sẽ cần hai lần chuyển đổi giá trị, lần thứ nhất:
- Old Value: Nhập giá trị 2. Nghĩa là, lấy tất cả các đáp viên chọn giá trị 2 (Văn phòng) trong biến BoPhan.
- New Value: Nhập giá trị 1. Nghĩa là, những đáp viên chọn giá trị 2 trong biến BoPhan sẽ được chuyển đổi sang giá trị 1 ở biến BoPhan_2. Nhấn Add để kết thúc lần chuyển đổi thứ nhất.
Lần chuyển đối thứ hai:
- Old Value: Tích chọn All other values. Nghĩa là, lấy tất cả các đáp viên còn lại (giá trị 1, 3) trong biến BoPhan.
- New Value: Nhập giá trị 0. Nghĩa là, những đáp viên còn lại trong biến BoPhan sẽ được chuyển đổi sang giá trị 0 ở biến BoPhan_2. Nhấn Add để kết thúc chuyển đổi.
Nhấp Continue để quay về cửa sổ ban đầu, nhấp Change để xác nhận thay đổi. Sau đó chọn OK để kết thúc quá trình mã hóa biến, hoàn thành tạo biến giả trên SPSS cho biến BoPhan.