1. Nguyên nhân xuất hiện giá trị khuyết
Giá trị khuyết missing value đến từ nhiều nguyên nhân khác nhau: đáp viên để sót câu hỏi; câu hỏi không có đáp án “khác” khi câu trả lời của đáp viên không nằm trong danh sách đáp án có sẵn, vì vậy đáp viên bỏ qua các câu hỏi này; câu hỏi sau có tính liên quan đến câu hỏi trước đó, nếu không thỏa điều kiện ở câu trước thì câu hỏi sau đáp viên không trả lời; đáp viên từ chối trả lời câu hỏi; nhà nghiên cứu mắc lỗi khi nhập liệu, ghi chép … Nếu dữ liệu xuất hiện quá nhiều giá trị khuyết, kết quả ước lượng từ các thống kê sẽ bị ảnh hưởng ít nhiều do độ chệch từ giá trị khuyết gây ra. Bên cạnh đó, giá trị khuyết khiến cỡ mẫu bị giảm đi, càng nhiều giá trị khuyết, mẫu nghiên cứu càng bị thu hẹp.
2. Ngăn ngừa xuất hiện giá trị khuyết
Những trường hợp do tính chất câu hỏi bắt buộc xuất hiện giá trị khuyết, chúng ta sẽ không cần quan tâm nhiều (ví dụ câu hỏi sau cần phải thỏa mãn điều kiện câu hỏi trước mới được trả lời). Riêng với những trường hợp như đáp viên bỏ sót câu hỏi, câu hỏi thiếu đáp án “khác”, mắc lỗi khi ghi chép hoặc nhập liệu … chúng ta cần hạn chế bằng một số biện pháp ngăn ngừa như:
- Tạo cảm giác thân thiện, thoải mái để có được sự hợp tác tốt nhất từ đáp viên trong quá trình khảo sát.
- Thiết kế bảng câu hỏi rõ ràng, không nên quá chằng chịt khiến đáp viên nhìn nhầm hoặc bỏ sót câu hỏi.
- Chỉ đưa vào bảng câu hỏi những câu hỏi thực sự quan trọng, đóng góp cho nghiên cứu. Không sử dụng quá nhiều câu hỏi mang hàm ý quản trị thấp hoặc không phục vụ cho nghiên cứu. Việc hỏi đáp viên quá nhiều câu hỏi sẽ tạo cảm giác mệt mỏi và tâm lý khó chịu, dễ dẫn đến tình trạng đáp án không chính xác hoặc bỏ qua câu hỏi.
- Với những câu hỏi có khả năng đáp viên lựa chọn những giá trị ngoài phạm vi đáp án có sẵn, chúng ta nên đưa vào đáp án “Khác”.
- Nếu thiết kế câu hỏi trên các nền tảng khảo sát trực tuyến, nên thêm trường bắt buộc trả lời để tránh việc đáp viên bỏ sót câu hỏi.
- Nên mã hóa đáp án ngay trong bảng câu hỏi để giúp quá trình nhập liệu giảm thiểu sai sót.
- Tránh nhập liệu khi cơ thể mệt mỏi, tâm lý căng thẳng vì rất dễ xảy ra sai sót.
- Nên nhập liệu trên Excel sau đó mới đưa vào SPSS để có thể tận dụng chức năng Conditional Formatting, Filter phát hiện và thông báo giá trị nhập vào không phù hợp. Chức năng này rất hữu ích đối với các nghiên cứu cần nhập liệu cỡ mẫu lớn.
3. Xử lý giá trị khuyết
Những giá trị khuyết missing value do tính chất câu hỏi, chúng ta sẽ giữ nguyên như vậy. Các trường hợp còn lại chúng ta nên có các hướng xử lý khác nhau. Khi xuất hiện giá trị khuyết, chúng ta sẽ kiểm tra lại phiếu khảo sát. Nếu do sai sót từ nhập liệu, chúng ta điền bổ sung vào. Điều này sẽ dễ dàng hơn với khảo sát trực tuyến, bởi chúng ta chỉ cần đối chiếu thứ tự hàng thì có thể nhanh chóng tìm ra phiếu khảo sát cần tìm. Đối với khảo sát trên phiếu giấy, khi in phiếu khảo sát, chúng ta cần gán mỗi phiếu một ID riêng biệt. ID có thể là số thứ tự hoặc bất kỳ ký hiệu nào giúp chúng ta phân biệt các phiếu khảo sát với nhau. Đến lúc cần tìm phiếu khảo sát chứa giá trị khuyết, chúng ta sẽ căn cứ vào ID này.
Nếu khả năng tra ngược lại phiếu khảo sát để lấp đầy giá trị khuyết là rất thấp. Chúng ta sẽ áp dụng các cách như sau:
Cách 1: Giữ nguyên giá trị khuyết
Đa phần chúng ta dùng đến cách này khi giá trị khuyết chiếm tỷ lệ nhỏ và nguyên nhân đến từ việc đáp viên từ chối trả lời câu hỏi.
Cách 2: Xóa quan sát chứa giá trị khuyết
Mỗi hàng trong dữ liệu tương ứng với một quan sát. Nếu quan sát nào xuất hiện giá trị khuyết, chúng ta sẽ xóa hàng đó khỏi dữ liệu. Chúng ta dùng cách này nếu tỷ lệ hàng chứa giá trị khuyết nhỏ. Bởi nếu tỷ lệ lớn, áp dụng phương thức này sẽ làm giảm đáng kể kích thước mẫu. Xử lý dữ liệu trống nhưng khiến cỡ mẫu giảm mạnh chưa hẳn là một giải pháp tốt.
Cách 3: Lấp đầy giá trị khuyết trên SPSS
Chúng ta sẽ dùng trung bình của biến để thay thế cho các giá trị khuyết trong biến đó. SPSS hỗ trợ cho chúng ta điền tự động bằng cách vào Transform > Replace Missing Values… Tuy nhiên, cách làm này chỉ phù hợp với các biến mà dữ liệu có phần thập phân. Đối với dữ liệu là số nguyên, chúng ta cần phải làm tròn giá trị trung bình, sau đó mới điền vào ô giá trị khuyết. Chính vì vậy, việc sử dụng phương thức tự động trên SPSS là không khả thi mà sẽ cần thực hiện thủ công. Thực hiện xử lý giá trị khuyết trên SPSS, xét biến tuổi (Tuoi) trong ví dụ bên dưới:
Biến này có hai giá trị khuyết ở quan sát số 2 và số 6. Rõ ràng, tuổi của đáp viên sẽ là số nguyên dương, do vậy, chúng ta cần làm tròn trung bình biến để điền vào hai giá trị khuyết này. Thực hiện thống kê trung bình cho biến Tuoi chúng ta có được giá trị trung bình biến Tuoi là 35.13, làm tròn thành 35.
Chúng ta sẽ điền 35 vào tất cả các giá trị khuyết của biến. Trong giao diện Data View, nhấp chuột vào tên biến Tuoi để chọn toàn bộ cột.
Nhấn tổ hợp phím Ctrl + H hoặc vào Edit > Replace để mở hộp thoại Find and Replace. Tại đây, nhập dấu chấm (.) vào mục Find, nhập giá trị 35 vào mục Replace with và nhấp vào Replace All.
Lúc này, giá trị khuyết tại quan sát số 2 và 6 của biến Tuoi đã được thay thế bằng 35. Chúng ta hoàn thành việc xử lý giá trị khuyết.
Việc sử dụng giá trị trung bình để lấp vào các giá trị khuyết cần được áp dụng một cách thận trọng nhằm đảm bảo tính logic thông tin. Giả sử sau khi tính được trung bình của biến Tuoi là 18, chúng ta thay thế toàn bộ giá trị khuyết bằng 18. Nhưng ở một vài quan sát có giá trị khuyết ở biến Tuoi, học vấn của người đó lại là Sau đại học. Điều này sẽ tạo ra sự bất hợp lý về tính logic thông tin bởi độ tuổi 18 có trình độ học vấn Sau đại học là rất hiếm xảy ra.