Có rất nhiều thách thức khi quản lý dữ liệu từ các nguồn khác nhau và chỉnh dữ liệu cho các quy trình hạ nguồn như phân tích dữ liệu. Rất may, một tập dữ liệu đã được tinh chỉnh có thể tạo nên sự khác biệt để có được những thông tin chi tiết hữu ích về doanh nghiệp.
Một trong những lợi thế của việc sử dụng công cụ chuẩn bị dữ liệu tự phục vụ là nó làm cho quá trình xử lý dữ liệu (hoặc dữ liệu hỗn hợp, như đôi khi được gọi) dễ dàng hơn nhiều. Đó là lý do tại sao ZHS dành bài viết này để gửi đến bạn một danh sách kiểm tra đơn giản mà bạn có thể áp dụng cho tập dữ liệu của bạn.
Xác định và loại bỏ các mục trùng lặp
Các mục trùng lặp là một trong những vấn đề phổ biến nhất với bộ dữ liệu. Trong các bộ dữ liệu phức tạp với nhiều hàng và cột, thường khó nhìn thấy các mục có thể trùng lặp.
Các mục trùng lặp tìm đường vào tập dữ liệu vì nhiều lý do — có thể là do các mục nhập kép bị sai, các biến thể nhỏ về chữ hoa (chữ thường hoặc chữ trên) hoặc khoảng cách giữa các ký tự.
Đây là lúc mà việc áp dụng biến đổi Duplicate có thể hữu ích — giúp bạn loại bỏ các mục trùng lặp chỉ trong vài giây.
Xử lý các định dạng ngày tháng
Các hệ thống và khu vực khác nhau thường ghi lại các giá trị ngày ở các định dạng khác nhau và những khác biệt này có thể dẫn đến sự phức tạp khi các tập dữ liệu được hợp nhất.
Khi kết hợp các bộ dữ liệu khác nhau, bạn có thể phải đối mặt với sự hỗn loạn do nhiều định dạng gây ra, như DD/MM/YYYY, DD-MM-YY và DD-MMM-YY. Hệ thống cũng có thể ghi lại ngày tháng ở định dạng số (03 cho tháng 3) hoặc chữ cái (MAR cho tháng 3) —cũng như sử dụng các dấu phân cách khác nhau, như DD / MM / YYYY bằng cách sử dụng dấu phân cách gạch chéo trong khi DD-MM-YYYY sử dụng dấu phân cách gạch ngang.
Với Zoho DataPrep, bạn có thể giải quyết vấn đề này theo một trong hai cách: thay đổi hoặc thống nhất các định dạng ngày.
Thay đổi định dạng ngày
Bằng cách áp dụng thay đổi định dạng ngày, thay đổi cho cột ngày, Zoho DataPrep sẽ tự động cung cấp cho bạn các tùy chọn để chuẩn hóa. Bạn có thể chọn một trong các định dạng được xác định trước hoặc tạo một định dạng tùy chỉnh.
Thống nhất định dạng ngày
Sự chuyển đổi này rất hữu ích trong các tập dữ liệu chứa nhiều định dạng ngày trong cùng một cột khác với những gì bắt buộc. Tại đây, bạn có thể thống nhất tất cả các giá trị ngày để phản ánh một định dạng tiêu chuẩn mà bạn chọn.
Xử lý các mục nhập không hợp lệ
Các mục nhập không hợp lệ trong tập dữ liệu có thể dẫn đến sự cố với các quy trình xuôi dòng, chẳng hạn như phân tích, học máy, lưu trữ dữ liệu, v.v. Bởi vì chúng sẽ không được hầu hết các cơ sở dữ liệu hoặc công cụ phân tích chấp nhận, các giá trị không hợp lệ cản trở khả năng xử lý hoặc phân tích kỹ lưỡng tập dữ liệu của bạn. Cuối cùng, bạn sẽ phải dọn dẹp tập dữ liệu trước khi nhập nó vào hầu hết các công cụ phân tích hoặc kho dữ liệu. Điều này có thể được thực hiện bằng cách khắc phục các sự cố khiến dữ liệu không hợp lệ và xóa các giá trị không hợp lệ mà bạn không thể khắc phục.
Trong Zoho DataPrep Studio, bạn có thể nhập dữ liệu có giá trị không hợp lệ và mọi tập dữ liệu được nhập sẽ tự động được phân tích chất lượng dữ liệu. Điều này được thể hiện trực quan trong biểu đồ, để người dùng có thể xem nhanh các mục hợp lệ và không hợp lệ, ngoại trừ các giá trị bị thiếu.
Nhìn lướt qua thanh chất lượng dữ liệu cột sẽ hiển thị các mục nhập không hợp lệ có màu đỏ và việc tìm hiểu kỹ hơn về cột tương ứng sẽ giúp bạn giải quyết các mục nhập không hợp lệ này.
Với nhiều biến đổi có sẵn, bạn có thể chọn sửa, làm sạch hoặc xóa bất kỳ giá trị không hợp lệ nào khỏi tập dữ liệu của mình. Cải thiện chất lượng dữ liệu theo cách này có thể dẫn đến việc đưa vào và xử lý dữ liệu mà trước đây không thể phân tích được.
Điền vào dữ liệu còn thiếu
Các giá trị bị thiếu trong tập dữ liệu có ảnh hưởng tổng hợp đến các quy trình — thuật toán học máy có thể không thành công do thiếu giá trị, các mô hình ML có thể phát triển sai lệch và độ chính xác của phân tích thống kê có thể bị ảnh hưởng lớn.
Thực tế là các giá trị bị thiếu đang phổ biến và có nhiều lý do khác nhau giải thích tại sao chúng xuất hiện. Lấy ví dụ về một cuộc khảo sát tiếp thị: người trả lời có thể không điền câu trả lời vì lo ngại về quyền riêng tư hoặc vì họ không hiểu một câu hỏi cụ thể.
Với Zoho DataPrep, bạn có thể sử dụng thay đổi Cột để lấp đầy các ô trống bằng các giá trị dữ liệu theo cách tính gần đúng.
Sử dụng biến đổi cột điền vào các ô trống, người dùng có thể chọn từ một loạt các lôgic được đề xuất để điền vào các ô trống. Các tùy chọn bao gồm điền vào các ô còn thiếu với “giá trị thường xuyên nhất”, “giá trị trung bình” hoặc “giá trị tùy chỉnh”.
Hãy nhớ rằng ở đây, người dùng phụ thuộc vào ngữ cảnh để tìm ra tùy chọn tốt nhất. Đối với các tình huống phức tạp, bạn cũng có thể sử dụng công thức của riêng mình để xác định giá trị tốt nhất để điền vào ô bị thiếu.
Tạo các kiểu dữ liệu tùy chỉnh để quản lý dữ liệu
Zoho DataPrep xác định các định dạng dữ liệu phổ biến nhất khi nhập tập dữ liệu. Tuy nhiên, điều này chỉ chỉ định các loại dữ liệu chung cho các cột của bạn, chẳng hạn như văn bản, số, email, ngày, v.v. Tuy nhiên, DataPrep không nhận ra các loại dữ liệu ngữ nghĩa cụ thể cho các tổ chức.
Ví dụ: các tổ chức có thể tạo ID nhân viên duy nhất dựa trên sự kết hợp của mã quốc gia và số nhân viên. Ví dụ: một nhân viên ở Ấn Độ có thể được chỉ định IN-24551. Một nhân viên khác trong chi nhánh Hoa Kỳ có thể được cấp US-452, v.v.
Trong DataPrep, bạn có thể tạo loại dữ liệu của riêng mình để phù hợp với định dạng ưa thích của tổ chức bạn. Việc tạo kiểu dữ liệu tùy chỉnh này cũng sẽ giúp đảm bảo chất lượng dữ liệu.
Điều này bắt đầu bằng việc chọn cột cụ thể nơi kiểu dữ liệu cần được tùy chỉnh và áp dụng tùy chọn thay đổi kiểu dữ liệu từ cuối hộp thoại.
Tùy chọn tạo kiểu dữ liệu tùy chỉnh sẽ cho phép bạn tạo bất kỳ yêu cầu cụ thể nào của bạn dưới dạng dẫn xuất của các kiểu dữ liệu cơ sở mà Zoho DataPrep cung cấp — văn bản, số, số thập phân hoặc ngày. Trong trường hợp của ví dụ ID nhân viên, kiểu dữ liệu là sự kết hợp của văn bản (IN, US, v.v.) và số.
Trên đây là những kiến thức mà bạn có thể cần cho việc quản lý dữ liệu cùng Zoho. Hy vọng bài viết trên sẽ mang lại cho bạn những kiến thức bổ ích cho bạn. Nếu bạn đang có bất kỳ thắc mắc nào về Zoho có thể liên hệ ngay với chúng tôi qua Hotline: 024.9999.7777 để được giải đáp thắc mắc.