|
Khai thác tập phổ biến là giai đoạn quan trọng trong khai thác luật kết hợp và được nghiên cứu nhiều trong lĩnh vực khai thác dữ liệu. Chọn ngưỡng phổ biến tối thiểu minsup (minimum support threshold) là công việc khó khăn cho người sử dụng: nếu ngưỡng giá trị được chọn quá nhỏ thì quá trình khai thác sẽ sinh nhiều kết hợp phổ biến; ngược lại, nếu ngưỡng giá trị quá lớn thì số lượng kết hợp phổ biến ít - ngưỡng minsup ảnh hưởng trực tiếp đến số lượng và chất lượng của các kết hợp trong khai thác tập các kết hợp phổ biến. Từ đó, nhiều nhà nghiên cứu đã đề xuất các phương pháp tính hỗ trợ người dùng lựa chọn ngưỡng minsup. Tuy nhiên, các phương pháp này cũng yêu cầu người dùng ước lượng một số thông số dựa trên tập dữ liệu nghiên cứu. Điều này cũng không tạo tính thuận tiện cho người dùng khi sử dụng thuật toán. Trong bài viết này, nhóm tác giả trình bày đề xuất cách tiếp cận xác định miền giá trị của ngưỡng minsup dựa trên nền tảng thống kê nhằm hỗ trợ cho người sử dụng trong quá trình lựa chọn ngưỡng minsup trong khai thác tập phổ biến. Kết quả thực nghiệm trên bộ dữ liệu thực và giả lập, cho thấy phương pháp đề xuất hiệu quả trong việc hỗ trợ người dùng chọn ngưỡng khai thác.
|