Làm sạch dữ liệu Excel là một kỹ năng quan trọng mà tất cả các Nhà phân tích dữ liệu và kinh doanh phải có. Hướng dẫn này sẽ giúp bạn tìm hiểu về một số quy trình làm sạch dữ liệu Excel cơ bản và đơn giản.
Loại bỏ các bản sao
Có một xác suất đáng kể rằng dữ liệu ngoài ý muốn có thể bị sao chép mà người dùng không biết. Trong các trường hợp như vậy, bạn có thể loại bỏ các giá trị trùng lặp.
Ở đây, bạn sẽ xem xét một tập dữ liệu sinh viên đơn giản có các giá trị trùng lặp. Bạn sẽ sử dụng hàm có sẵn của Excel để loại bỏ các bản sao, như hình dưới đây.
Tập dữ liệu gốc có hai hàng là bản sao. Để loại bỏ dữ liệu trùng lặp, bạn cần chọn tùy chọn dữ liệu trong thanh công cụ và trong ruy-băng Data Tools, hãy chọn tùy chọn “Remove Duplicates“. Thao tác này sẽ cung cấp cho bạn hộp thoại mới, như được hiển thị bên dưới.
Tại đây, bạn cần chọn các cột muốn so sánh để trùng lặp. Một bước quan trọng khác là kiểm tra tùy chọn tiêu đề khi bạn bao gồm tên cột trong tập dữ liệu. Excel sẽ tự động quét nó theo mặc định.
Tiếp theo, bạn phải so sánh tất cả các cột, vì vậy hãy tiếp tục và kiểm tra tất cả các cột như hình dưới đây.
Chọn Ok, và Excel sẽ thực hiện các thao tác cần thiết và cung cấp cho bạn tập dữ liệu sau khi lọc ra dữ liệu trùng lặp, như được hiển thị bên dưới.
Phân tích cú pháp dữ liệu từ văn bản thành cột
Đôi khi, có khả năng một ô có thể có nhiều phần tử dữ liệu được phân tách bằng dấu phân cách dữ liệu như dấu phẩy. Ví dụ: hãy xem xét rằng có một cột lưu trữ thông tin địa chỉ.
Cột địa chỉ lưu trữ đường phố, quận, tiểu bang và quốc gia. Dấu phẩy phân tách tất cả các phần tử dữ liệu. Bây giờ bạn phải chia đường phố, quận, tiểu bang và quốc gia từ các cột địa chỉ thành các cột riêng biệt.
Chức năng có sẵn của Excel được gọi là “text to column” có thể đạt được điều này. Bây giờ, hãy thử một ví dụ tương tự.
Tại đây, bạn có nhà sản xuất ô tô và tên kiểu ô tô được phân tách bằng dấu cách làm dấu phân cách dữ liệu. Dữ liệu dạng bảng được hiển thị bên dưới.
Chọn dữ liệu, nhấp vào tùy chọn dữ liệu trong thanh công cụ và sau đó chọn “text to column“, như hình dưới đây.
Một cửa sổ mới sẽ xuất hiện trên màn hình, như hình dưới đây. Chọn tùy chọn dấu phân cách và nhấp vào “next“. Trong cửa sổ tiếp theo, bạn sẽ thấy một hộp thoại khác.
Ở hộp thoại trang mới, bạn sẽ thấy một tùy chọn để chọn loại dấu phân cách mà dữ liệu của bạn có. Trong trường hợp này, bạn cần chọn “space” làm dấu phân cách, như hình dưới đây.
Trong hộp thoại cuối cùng, chọn định dạng dữ liệu cột là “General“, và bước tiếp theo phải nhấp vào kết thúc, như thể hiện trong hình sau.
Dữ liệu kết quả cuối cùng sẽ có sẵn, như được hiển thị bên dưới.
Xóa tất cả các định dạng
Định dạng có thể đơn giản như tô màu các ô và căn chỉnh văn bản trong các ô. Nó có thể là một điều kiện logic được áp dụng cho các ô bằng cách sử dụng tùy chọn định dạng có điều kiện của Excel từ tab trang chủ.
Tuy nhiên, trong những trường hợp bạn muốn xóa định dạng, bạn có thể thực hiện theo cách sau. Đầu tiên, hãy cố gắng loại bỏ định dạng thông thường. Trong ví dụ trước, bạn đã lấy trường hợp của các nhà sản xuất ô tô và bảng dữ liệu kiểu ô tô với các ô tiêu đề được tô màu xanh lam và văn bản được căn giữa.
Bây giờ, sử dụng tùy chọn rõ ràng để loại bỏ các định dạng. Chọn dữ liệu dạng bảng như hình dưới đây. Chọn tùy chọn “home” và chuyển đến nhóm “editing” trong ruy-băng. Tùy chọn “clear” có sẵn trong nhóm, như được hiển thị bên dưới.
Chọn tùy chọn clear“ và nhấp vào tùy chọn “clear formats“. Thao tác này sẽ xóa tất cả các định dạng được áp dụng trên bảng.
Bảng dữ liệu cuối cùng sẽ hiện ra như hình bên dưới.
Kiểm tra chính tả
Tính năng kiểm tra chính tả cũng có sẵn trong MS Excel. Để kiểm tra cách viết của các từ được sử dụng trong bảng tính, bạn có thể sử dụng phương pháp sau. Chọn ô, cột hoặc trang dữ liệu mà bạn muốn thực hiện kiểm tra chính tả.
Bây giờ, bạn vào tùy chọn xem lại như hình bên dưới.
Microsoft Excel sẽ tự động hiển thị chính tả đúng trong hộp thoại, như hình dưới đây. Bạn có thể thay thế các từ theo yêu cầu như hình dưới đây.
Bảng dữ liệu được xem xét cuối cùng sẽ giống như bảng bên dưới.
Đánh dấu lỗi
Đánh dấu các lỗi trong bảng tính Excel rất hữu ích để tìm hoặc sắp xếp các dữ liệu sai sót một cách dễ dàng. Bạn có thể sửa lỗi đánh dấu với sự trợ giúp của định dạng có điều kiện trong Excel. Ở đây, tập dữ liệu sinh viên sẽ được lấy làm ví dụ.
Hãy tưởng tượng rằng bạn đang phỏng vấn tất cả các sinh viên. Có các tiêu chí hợp lệ. Bạn có thể chọn lọc các sinh viên nếu họ có 60% điểm tổng hợp. Bây giờ, hãy áp dụng định dạng có điều kiện và sắp xếp những học sinh đủ điều kiện và không đủ điều kiện.
Đầu tiên, chọn cột tổng hợp / phần trăm như hình dưới đây.
Chọn “Home” và trong nhóm Styles, hãy chọn định dạng có điều kiện, như được hiển thị bên dưới.
Trong tùy chọn định dạng có điều kiện, hãy chọn tùy chọn đánh dấu và trong menu thả xuống tiếp theo, hãy chọn tùy chọn ít hơn như được hiển thị bên dưới.
Trong cửa sổ cài đặt, bạn sẽ tìm thấy một vị trí để cung cấp tổng hợp là “60” phần trăm và nhấn OK.
Nguồn: simplilearn
Xem thêm