|
Một là, trích xuất, mô hình hoá lưới tri thức từ các bài viết, thực thể trong miền du lịch từ Wikipedia tiếng Việt. Đưa ra các giải pháp làm sạch dữ liệu. Nguồn dữ liệu từ các bản dữ liệu dump được Wikipedia công bố. Hai là, kết hợp từ nguồn dữ liệu API Wiki giúp cập nhật những bài viết chưa có hoặc đã cũ. Khắc phục các hạn chế từ nguồn dữ liệu dump: dung lượng rất lớn, không có các bài viết theo một thể loại, nhóm ngành cụ thể. Ba là, tự động cập nhật các phiên bản bài viết mới nhất theo từng chu kỳ. Tối ưu về không gian và thời gian xử lý so với nguồn dữ liệu dump. Bốn là, phân loại các bài viết, thực thể theo từng nhóm ngành, thể loại. Chia sẻ những thực thể theo từng nhóm ngành hỗ trợ các nhóm thí nghiệm tiết kiệm thời gian trong thu nhập dữ liệu. Năm là, xây dựng hệ thống hỗ trợ truy vấn, tra cứu với tập dữ liệu đã trích xuất đưa vào lưới tri thức. Cụ thể giải quyết các nhu cầu cần tra cứu các địa điểm du lịch: các bảo tàng, đền chùa, di tích quốc gia. Đưa ra các thông tin các nhân vật theo tuyến đường quanh khu vực; gợi ý về văn hoá, ẩm thực tại nơi du lịch …
|