← Về từ điểnLatency (độ trễ) là thời gian chờ đợi từ lúc bạn gửi yêu cầu cho AI đến khi nó bắt đầu phản hồi. Giống như bạn hỏi bạn bè một câu và chờ họ mở miệng nói câu trả lời đầu tiên vậy.
Ví dụKhi dùng Claude, nếu latency cao thì bạn sẽ thấy nó hơi "đứng hình" một chút trước khi bắt đầu gõ chữ trả lời.
Còn gọi làđộ trễtime to first tokenTTFT