Với rất nhiều dữ liệu… có rất nhiều dữ liệu trùng lặp.

Các dữ liệu trùng trong Excel có thể gây ra rất nhiều rắc rối. Cho dù bạn nhập dữ liệu từ cơ sở dữ liệu, lấy từ đồng nghiệp hay tự đối chiếu, dữ liệu trùng lặp luôn có thể len lỏi vào. Và nếu dữ liệu bạn đang làm việc là rất lớn, thì việc tìm và loại bỏ những dữ liệu trùng lặp này trong Excel thực sự khó .

Trong hướng dẫn này, tôi sẽ chỉ cho bạn cách tìm và xóa các dữ liệu trùng trong Excel.

1. Tìm và đánh dấu các dữ liệu trùng trong Excel

Các dữ liệu trùng trong Excel có thể có nhiều dạng, trong một cột hoặc nhiều cột. Cũng có thể có sự trùng lặp của toàn bộ hàng.

Tìm và đánh dấu các dữ liệu trùng trong cột trong Excel

Định dạng có điều kiện giúp dễ dàng đánh dấu các dữ liệu trùng trong Excel.

Sau đây là các bước thực hiện:

  • – Chọn vùng dữ liệu mà bạn muốn đánh dấu các dữ liệu trùng

1

  • – Vào thẻ Home –> Conditional Formatting –> Highlight Cell Rules –> Duplicate Values.

2

  • – Trong hộp thoại Duplicate Values, chọn Duplicate trong menu thả xuống ở bên trái và chỉ định định dạng mà bạn muốn đánh dấu các giá trị trùng lặp. Bạn có thể chọn từ các tùy chọn định dạng được tạo sẵn (trong menu thả xuống ở bên phải) hoặc chỉ định định dạng của riêng bạn.

3

  • – Điều này sẽ làm nổi bật tất cả các giá trị có trùng lặp.

4

Mẹo Nhanh: Hãy nhớ kiểm tra các khoảng trống ở đầu hoặc cuối. Ví dụ: “ John” và “John ” được coi là khác nhau vì cái sau có thêm một ký tự khoảng trắng trong đó. Một mẹo hay là sử dụng hàm TRIM để làm sạch dữ liệu của bạn.

Tìm và đánh dấu các hàng trùng lặp trong Excel

Tìm dữ liệu trùng lặp và tìm các dòng dữ liệu trùng lặp là 2 việc khác nhau. Hãy xem:

5

Tìm các hàng trùng lặp phức tạp hơn một chút so với việc tìm các ô trùng lặp

Sau đây là các bước thực hiện:

  • – Trong cột liền kề, hãy sử dụng công thức sau: “= A2 & B2 & C2 & D2”
  •    Dán công thức này xuống cho tất cả các hàng. Công thức này kết hợp tất cả các giá trị ô dưới dạng một chuỗi duy nhất. (Bạn cũng có thể sử dụng hàm CONCATENATE để kết hợp các chuỗi văn bản)

6

Bằng cách này, chúng tôi đã tạo một chuỗi duy nhất cho mỗi hàng. Nếu có các hàng trùng lặp trong tập dữ liệu này, thì các chuỗi này sẽ giống hệt nhau.

Bây giờ chúng ta có các chuỗi kết hợp cho mỗi hàng, bạn có thể sử dụng định dạng có điều kiện để đánh dấu các chuỗi trùng lặp. Một chuỗi được đánh dấu ngụ ý rằng hàng có một dữ liệu trùng.

Sau đây là các bước để đánh dấu các chuỗi trùng lặp:

  • – Chọn phạm vi có các chuỗi kết hợp (E2: E16 trong ví dụ này).
  • – Vào thẻ Home –> Conditional Formatting –> Highlight Cell Rules –> Duplicate Values.
  • – Trong hộp thoại Duplicate Values, hãy đảm bảo rằng Duplicate được chọn và sau đó chỉ định màu mà bạn muốn đánh dấu các giá trị trùng lặp.

Điều này sẽ làm nổi bật các giá trị trùng lặp trong cột E.

7

Trong cách tiếp cận trên, chúng tôi chỉ đánh dấu các chuỗi mà chúng tôi đã tạo.

Nhưng điều gì sẽ xảy ra nếu bạn muốn đánh dấu tất cả các hàng trùng lặp (thay vì đánh dấu các ô trong một cột duy nhất)?

Sau đây là các bước để đánh dấu các hàng trùng lặp:

  • – Trong cột liền kề, hãy sử dụng công thức sau: “= A2 & B2 & C2 & D2”
  •    Dán công thức này xuống cho tất cả các hàng. Công thức này kết hợp tất cả các giá trị ô dưới dạng một chuỗi duy nhất.

8

  • – Chọn vùng dữ liệu A2: D16.
  • – Với dữ liệu đã chọn, đi tới Home –> Conditional Formatting –> New Rule.

9

  • – Trong hộp thoại New Formatting Rule, hãy nhấp vào Use a formula to determine which cells to format.
  • – Trong trường bên dưới, hãy sử dụng hàm COUNTIF sau: “= COUNTIF ($ E $ 2: $ E $ 16, $ E2)> 1”

10

  • – Chọn định dạng và nhấp vào OK.

Công thức này sẽ đánh dấu tất cả các hàng có trùng lặp.

11

2. Loại bỏ các dữ liệu trùng trong Excel

Trong phần trên, chúng ta đã học cách tìm và đánh dấu các dữ liệu trùng trong excel. Trong phần này, tôi sẽ chỉ cho bạn cách loại bỏ những dữ liệu trùng này.

Loại bỏ các dữ liệu trùng khỏi một cột trong Excel

Nếu bạn có dữ liệu trong một cột và bạn muốn xóa tất cả các dữ liệu trùng lặp, hãy làm theo các bước sau:

  • – Chọn dữ liệu.
  • – Đi tới Data –> Data Tools –> Remove Duplicates.

12

  • – Trong hộp thoại Remove Duplicates:
    1. Nếu dữ liệu của bạn có tiêu đề, hãy đảm bảo rằng tùy chọn My data has headers được chọn.
    2. Đảm bảo rằng cột được chọn (trong trường hợp này chỉ có một cột).

13

  • – Chọn OK.

Điều này sẽ xóa tất cả các giá trị trùng lặp khỏi cột và bạn sẽ chỉ có các giá trị duy nhất.

THẬN TRỌNG: Điều này làm thay đổi tập dữ liệu của bạn bằng cách xóa các dữ liệu trùng. Đảm bảo rằng bạn có bản sao lưu của tập dữ liệu gốc. Nếu bạn muốn trích xuất các giá trị duy nhất tại một số vị trí khác, hãy sao chép tập dữ liệu này vào vị trí đó và sau đó sử dụng các bước nêu trên. Ngoài ra, bạn cũng có thể sử dụng Advanced Filter để trích xuất các giá trị duy nhất đến một số vị trí khác.

Loại bỏ các dữ liệu trùng khỏi nhiều cột trong Excel

Giả sử bạn có dữ liệu như hình dưới đây:

14

Trong dữ liệu ở trên, hàng # 2 và # 16 có cùng dữ liệu chính xác cho Sales Rep, Region, and Amount, nhưng nhưng ngày khác nhau (giống trường hợp của hàng # 10 và # 13). Đây có thể là một lỗi nhập trong đó cùng một mục đã được ghi hai lần với các ngày khác nhau.

Để xóa hàng trùng lặp trong trường hợp này:

  • – Chọn dữ liệu.
  • – Đi tới Data –> Data Tools –> Remove Duplicates.

15

  • – Trong hộp thoại Remove Duplicates:
    1. Nếu dữ liệu của bạn có tiêu đề, hãy đảm bảo rằng tùy chọn “Dữ liệu của tôi có tiêu đề” được chọn.
    2. Chọn tất cả các cột ngoại trừ cột Date.

17

  • – Chọn OK.

Sử dụng các kỹ thuật được đề cập ở trên để làm sạch dữ liệu của bạn và loại bỏ các dữ liệu trùng.

Theo TrumpExcel

Xem thêm

[Excel tips] Cách tạo biểu đồ dự kiến và biểu đồ thực tế trong Excel

[Excel tips] Cách sử dụng hàm LEN – hàm đo độ dài của chuỗi ký tự

[Excel tips] Cách sử dụng hàm NOW – trả về ngày và giờ hiện tại