Chuẩn hóa dữ liệu tri thức
Last updated
Last updated
Đoạn văn bản (Chunk)
Văn bản tri thức sau khi được đọc và chuẩn hóa sẽ được cắt thành các đoạn (hay chunk) theo độ dài phù hợp với trợ lý AI đã được thiết lập trước (512 tokens, ~= 2000 ký tự tiếng Việt).
Trợ lý AI sẽ truy vấn và tham khảo nội dung của các đoạn này khi thực hiện phản hồi các câu hỏi của người dùng.
Mỗi đoạn văn bản trong chunk nên chứa cùng một nội dung hoặc chủ đề, và cần có khả năng tự đứng độc lập mà không phụ thuộc vào các chunk khác.
Độ dài của chunk cần được tối ưu hóa đến mức nhỏ nhất để đảm bảo hiệu quả truy vấn và phản hồi (khuyến nghị nên nhỏ hơn 1024 tokens, ~= 4000 ký tự tiếng Việt) .
Các bảng trong nội dung tri thức cần được chuẩn hóa bằng định dạng Markdown hoặc XML để dễ dàng xử lý và truy vấn. Dưới đây là một số hướng dẫn về cách chuẩn hóa bảng:
Hình trên ví dụ cho việc chuẩn hóa các bảng trong dữ liệu theo định dạng Markdown (tối giản) với các cột (column) trong bảng được phân cách với nhau bằng ký tự "|". Để tìm hiểu thêm về định dạng Markdown, có thể tham khảo bài viết tại đây.
Nếu bảng chứa nội dung quá dài, cần chia bảng ra thành nhiều đoạn nhỏ (chunk). Mỗi chunk nên chứa một phần nội dung có liên quan với nhau của bảng, và đầu mỗi chunk nên được gắn lại tiêu đề và tên cột của bảng để đảm bảo tính liên tục và dễ hiểu.
Các công thức toán học phức tạp nên được chuyển đổi sang định dạng LaTeX để đảm bảo sự chính xác và rõ ràng trong trình bày.
Gợi ý tham khảo công cụ hỗ trợ Latex online: https://latex.codecogs.com/eqneditor/editor.php
Đối với các hình ảnh biểu đồ, lược đồ hoặc các dạng nội dung hình ảnh khác, cần diễn giải lại dưới dạng văn bản để Trợ lý AI có thể đọc hiểu. Điều này bao gồm:
Trong mỗi chunk, nếu có sử dụng từ viết tắt hoặc từ đồng nghĩa, cần có chú thích rõ ràng hoặc phần giải thích ngay tại chỗ để tránh sự nhập nhằng trong ngữ nghĩa.
Ví dụ 1: "HĐMBĐ (Hợp đồng mua bán điện) ..."
Ví dụ 2: "Nếu khách hàng (KH) có nhu cầu ...."
Các hình ảnh trong nội dung tri thức cần được lưu trữ trên các nền tảng trực tuyến để dễ quản lý và truy xuất. Ngoài Google Cloud Storage và AWS S3, một số lựa chọn lưu trữ miễn phí khác mà người dùng có thể tham khảo:
Postimages: Miễn phí, dễ sử dụng, cho phép tải lên và chia sẻ ảnh với liên kết trực tiếp. Thích hợp cho việc lưu trữ nhanh và chia sẻ ảnh trên web.
Google Drive: Hỗ trợ lưu trữ và chia sẻ hình ảnh qua các liên kết, đồng thời cho phép quản lý quyền truy cập.
Imgur: Dễ sử dụng và hỗ trợ chia sẻ hình ảnh qua liên kết trực tiếp. Phù hợp cho việc lưu trữ các h
Dropbox: Miễn phí với dung lượng lưu trữ hạn chế, có thể tạo liên kết chia sẻ trực tiếp.
OneDrive: Giải pháp lưu trữ của Microsoft, miễn phí với dung lượng vừa đủ cho các nhu cầu lưu trữ hình ảnh cơ bản.
Flickr: Cung cấp không gian lưu trữ miễn phí cho các ảnh có chất lượng cao, thích hợp để lưu trữ các bộ sưu tập hình ảnh lớn.
Khi thay thế, mỗi hình ảnh cần đi kèm một mô tả ngắn gọn để Trợ lý AI có thể hiểu và truy vấn nội dung dễ dàng. Ví dụ: "Phòng Deluxe Twin City View với hai giường đơn và cửa sổ lớn hướng thành phố. Xem hình ảnh tại: https://postimg.cc/Deluxe-Twin-City-View."
Bước 1: Mở trình duyệt và truy cập vào trang web: https://postimages.org/.
Bước 2: Nhấn nút "Choose images" để chọn ảnh từ máy tính của bạn hoặc kéo và thả ảnh vào vùng chọn. Bạn cũng có thể chọn nhiều ảnh cùng lúc. Nhấn nút "Upload" và chờ vài giây để hệ thống tải ảnh lên.
Bước 3: Sau khi tải lên hoàn tất, hệ thống sẽ cung cấp nhiều loại liên kết khác nhau. Sao chép Direct link để sử dụng trong tài liệu của bạn.
Bước 1: Truy cập Google Drive và Tải Ảnh lên
Truy cập vào Google Drive và đăng nhập vào tài khoản Google của bạn.
Tải ảnh lên bằng cách nhấn nút "Mới" (hoặc "New") → "Tải tệp lên" (hoặc "File upload") và chọn ảnh từ máy tính.
Bước 2: Cài đặt Quyền Chia Sẻ
Sau khi tải ảnh lên, nhấp chuột phải vào ảnh và chọn "Chia sẻ" (hoặc "Share").
Trong cửa sổ chia sẻ, dưới mục "Nhận liên kết" (hoặc "Get Link"), nhấn vào "Thay đổi thành bất kỳ ai có liên kết" (hoặc "Change to Anyone with the link") để cho phép mọi người có thể truy cập liên kết.
Bước 4: Lấy Liên Kết và Mã ID của Ảnh
Sao chép liên kết được cung cấp trong cửa sổ chia sẻ. Ví dụ liên kết sao chép có thể là:
Mã ID của ảnh nằm giữa /d/
và /view
, trong ví dụ trên mã ID là: 1q8xigJbXvfAFlwVSg8B_LFEcAq6GR_7G.
Bước 6: Tạo Liên Kết Thumbnail với Mã ID
Sử dụng mẫu liên kết sau và thay thế <ID_Shared_Image>
bằng mã ID bạn vừa lấy:
Áp dụng mã ID vào liên kết mẫu, ví dụ:
Bước 5: Sử dụng Liên Kết Thumbnail trong Tài Liệu
Dùng liên kết đã tạo trong tài liệu của bạn để hiển thị thumbnail cho ảnh.