LLM을 호출하는 프로토타입은 쉽지만 안정적인 기능은 다릅니다. 데모에서 프로덕션까지 — 프롬프트, 도구 사용, 스트리밍, 비용, 평가 체크리스트.
데모에서 AI 기능은 단순해 보입니다. 프롬프트를 보내고 응답을 렌더링하면 끝이죠. 하지만 클라이언트가 신뢰할 만한 기능을 출시하는 것은 다른 일입니다. 차이는 모델 호출을 둘러싼 모든 것 — 지연, 안전성, 비용, 그리고 출력 품질을 아는 것 — 에 있습니다.
전체 응답을 3초 기다리면 고장 난 것처럼 느껴지지만, 같은 3초를 토큰 단위로 스트리밍하면 빠르게 느껴집니다. 스트림 중심으로 UI를 만들고, 입력 표시기를 보여주며, 생성 중단 버튼을 제공하세요. 체감 속도도 기능입니다.
사용자가 입력할 수 있는 모든 것은 프롬프트를 탈취하려 시도할 수 있습니다. 저렴한 방어 두 가지면 충분히 멀리 갈 수 있습니다.
출시 전, 실제 입력과 기대 결과로 작은 평가 세트를 만드세요 — 20개라도 좋습니다. 프롬프트를 바꿀 때마다 실행하세요. "느낌이 나빠졌다"를 숫자로 바꿔주며, 그 숫자가 자신 있게 변경을 출시하게 해줍니다.
모델은 쉬운 부분입니다. 그 주변의 하네스 — 스트리밍, 가드, 캐싱, 평가 — 가 곧 제품입니다.