🧪

Knowledge Challenge

A friend thinks you can answer this question about AI Latency Optimization

Your support chat AI has a 12K-token system prompt and currently streams responses. p50 TTFT is 2.4s; p95 TTFT is 4.8s. Users complain it 'feels slow.' Which optimization yields the largest perceived speedup with no quality loss?