Làm sạch dữ liệu Excel là một kỹ năng quan trọng mà tất cả các Nhà phân tích dữ liệu và kinh doanh phải có. Hướng dẫn này sẽ giúp bạn tìm hiểu về một số quy trình làm sạch dữ liệu Excel cơ bản và đơn giản.

Loại bỏ các bản sao

Có một xác suất đáng kể rằng dữ liệu ngoài ý muốn có thể bị sao chép mà người dùng không biết. Trong các trường hợp như vậy, bạn có thể loại bỏ các giá trị trùng lặp.

Ở đây, bạn sẽ xem xét một tập dữ liệu sinh viên đơn giản có các giá trị trùng lặp. Bạn sẽ sử dụng hàm có sẵn của Excel để loại bỏ các bản sao, như hình dưới đây.

Tập dữ liệu gốc có hai hàng là bản sao. Để loại bỏ dữ liệu trùng lặp, bạn cần chọn tùy chọn dữ liệu trong thanh công cụ và trong ruy-băng Data Tools, hãy chọn tùy chọn “Remove Duplicates“. Thao tác này sẽ cung cấp cho bạn hộp thoại mới, như được hiển thị bên dưới.

Excel-Dữ liệu-Làm sạch-Dữ liệu gốc

Tại đây, bạn cần chọn các cột muốn so sánh để trùng lặp. Một bước quan trọng khác là kiểm tra tùy chọn tiêu đề khi bạn bao gồm tên cột trong tập dữ liệu. Excel sẽ tự động quét nó theo mặc định.

Excel-Dữ liệu-Làm sạch-dữ liệu-Loại bỏ-Bản sao-tùy chọn.

Tiếp theo, bạn phải so sánh tất cả các cột, vì vậy hãy tiếp tục và kiểm tra tất cả các cột như hình dưới đây.

Loại bỏ-Các thông số trùng lặp

Chọn Ok, và Excel sẽ thực hiện các thao tác cần thiết và cung cấp cho bạn tập dữ liệu sau khi lọc ra dữ liệu trùng lặp, như được hiển thị bên dưới.

Excel-Dữ liệu-Làm sạch-sạch-dữ liệu.

Phân tích cú pháp dữ liệu từ văn bản thành cột

Đôi khi, có khả năng một ô có thể có nhiều phần tử dữ liệu được phân tách bằng dấu phân cách dữ liệu như dấu phẩy. Ví dụ: hãy xem xét rằng có một cột lưu trữ thông tin địa chỉ.

Cột địa chỉ lưu trữ đường phố, quận, tiểu bang và quốc gia. Dấu phẩy phân tách tất cả các phần tử dữ liệu. Bây giờ bạn phải chia đường phố, quận, tiểu bang và quốc gia từ các cột địa chỉ thành các cột riêng biệt.

Chức năng có sẵn của Excel được gọi là “text to column” có thể đạt được điều này. Bây giờ, hãy thử một ví dụ tương tự.

Tại đây, bạn có nhà sản xuất ô tô và tên kiểu ô tô được phân tách bằng dấu cách làm dấu phân cách dữ liệu. Dữ liệu dạng bảng được hiển thị bên dưới.

Excel-Dữ liệu-Làm sạch-Văn bản thành Cột-Bản gốc

Chọn dữ liệu, nhấp vào tùy chọn dữ liệu trong thanh công cụ và sau đó chọn “text to column“, như hình dưới đây.

Tùy chọn làm sạch dữ liệu-văn bản thành cột-bản gốc.

Một cửa sổ mới sẽ xuất hiện trên màn hình, như hình dưới đây. Chọn tùy chọn dấu phân cách và nhấp vào “next“. Trong cửa sổ tiếp theo, bạn sẽ thấy một hộp thoại khác.

Làm sạch-Văn bản-thành-Cột-Bản gốc-phân định.

Ở hộp thoại trang mới, bạn sẽ thấy một tùy chọn để chọn loại dấu phân cách mà dữ liệu của bạn có. Trong trường hợp này, bạn cần chọn “space” làm dấu phân cách, như hình dưới đây.

Làm sạch dữ liệu-Văn bản thành cột-Khoảng trống gốc.

Trong hộp thoại cuối cùng, chọn định dạng dữ liệu cột là “General“, và bước tiếp theo phải nhấp vào kết thúc, như thể hiện trong hình sau.

Dữ liệu-Làm sạch-Văn bản-Thành-Cột-Bản gốc-chung.

Dữ liệu kết quả cuối cùng sẽ có sẵn, như được hiển thị bên dưới.

Excel-Dữ liệu-Làm sạch-Văn bản-Thành-Cột-cuối cùng.

Xóa tất cả các định dạng

Định dạng có thể đơn giản như tô màu các ô và căn chỉnh văn bản trong các ô. Nó có thể là một điều kiện logic được áp dụng cho các ô bằng cách sử dụng tùy chọn định dạng có điều kiện của Excel từ tab trang chủ.

Tuy nhiên, trong những trường hợp bạn muốn xóa định dạng, bạn có thể thực hiện theo cách sau. Đầu tiên, hãy cố gắng loại bỏ định dạng thông thường. Trong ví dụ trước, bạn đã lấy trường hợp của các nhà sản xuất ô tô và bảng dữ liệu kiểu ô tô với các ô tiêu đề được tô màu xanh lam và văn bản được căn giữa.

Làm sạch-Xóa-Định dạng-Dữ liệu-Ban đầu.

Bây giờ, sử dụng tùy chọn rõ ràng để loại bỏ các định dạng. Chọn dữ liệu dạng bảng như hình dưới đây. Chọn tùy chọn “home” và chuyển đến nhóm “editing” trong ruy-băng. Tùy chọn “clear” có sẵn trong nhóm, như được hiển thị bên dưới.

Excel-Dữ liệu-Làm sạch-Xóa-Định dạng-Chỉnh sửa.

Chọn tùy chọn clear và nhấp vào tùy chọn “clear formats“. Thao tác này sẽ xóa tất cả các định dạng được áp dụng trên bảng.

Excel-Dữ liệu-Làm sạch-Xóa-Định dạng-xóa-định dạng.

Bảng dữ liệu cuối cùng sẽ hiện ra như hình bên dưới.

Excel-Dữ liệu-Làm sạch-Xóa-Định dạng-dữ liệu cuối cùng

Kiểm tra chính tả

Tính năng kiểm tra chính tả cũng có sẵn trong MS Excel. Để kiểm tra cách viết của các từ được sử dụng trong bảng tính, bạn có thể sử dụng phương pháp sau. Chọn ô, cột hoặc trang dữ liệu mà bạn muốn thực hiện kiểm tra chính tả.

Excel-Dữ liệu-Làm sạch-kiểm tra chính tả-bản gốc

Bây giờ, bạn vào tùy chọn xem lại như hình bên dưới.

Excel-Dữ liệu-Làm sạch-chính tả-Kiểm tra-Đánh giá-Chính tả

Microsoft Excel sẽ tự động hiển thị chính tả đúng trong hộp thoại, như hình dưới đây. Bạn có thể thay thế các từ theo yêu cầu như hình dưới đây.

Hộp thoại Excel-Dữ liệu-Làm sạch-Kiểm tra chính tả-.

Bảng dữ liệu được xem xét cuối cùng sẽ giống như bảng bên dưới.

Excel-Dữ liệu-Làm sạch-kiểm tra chính tả-lần cuối

Đánh dấu lỗi

Đánh dấu các lỗi trong bảng tính Excel rất hữu ích để tìm hoặc sắp xếp các dữ liệu sai sót một cách dễ dàng. Bạn có thể sửa lỗi đánh dấu với sự trợ giúp của định dạng có điều kiện trong Excel. Ở đây, tập dữ liệu sinh viên sẽ được lấy làm ví dụ.

Hãy tưởng tượng rằng bạn đang phỏng vấn tất cả các sinh viên. Có các tiêu chí hợp lệ. Bạn có thể chọn lọc các sinh viên nếu họ có 60% điểm tổng hợp. Bây giờ, hãy áp dụng định dạng có điều kiện và sắp xếp những học sinh đủ điều kiện và không đủ điều kiện.

Đầu tiên, chọn cột tổng hợp / phần trăm như hình dưới đây.

Excel-Dữ liệu-Làm sạch-Lỗi-Đánh dấu-dữ liệu

Chọn “Home” và trong nhóm Styles, hãy chọn định dạng có điều kiện, như được hiển thị bên dưới.

Excel-Dữ liệu-Làm sạch-Lỗi-Đánh dấu-các kiểu-điều-kiện-định dạng.

Trong tùy chọn định dạng có điều kiện, hãy chọn tùy chọn đánh dấu và trong menu thả xuống tiếp theo, hãy chọn tùy chọn ít hơn như được hiển thị bên dưới.

Data-Cleaning-Error-Highlighting-conditon

Trong cửa sổ cài đặt, bạn sẽ tìm thấy một vị trí để cung cấp tổng hợp là “60” phần trăm và nhấn OK.

Excel-Dữ liệu-Làm sạch-Lỗi-Đánh dấu-60

Nguồn: simplilearn

Xem thêm 

COMBO EXCEL FOR PROFESSIONALS 

Một Data Analyst thực sự làm gì?