skill-creator
Q&A 정리: skill-creator
Skill authors couldn't systematically measure
소프트웨어 개발에서 쓰는 테스트와 벤치마크 방법론을 스킬 작성에도 도입한 것이다. "잘 되는 것 같다"를 "잘 된다고 증명할 수 있다"로 바꿔주는 셈이다.
We are bringing some of the rigor of software development (testing, benchmarking, iterative improvement) to skill authoring without requiring anyone to write code. Testing turns a skill that seems to work into one you know works.
Two categories of skills
스킬은 두 종류로 나뉜다. 하나는 AI가 원래 못하거나 불안정한 기능을 보강해 주는 "능력 향상" 스킬이고, 다른 하나는 팀의 업무 절차를 순서대로 기록해 AI가 그대로 따라가게 하는 "절차 기록" 스킬이다. 모델이 발전하면 전자는 불필요해질 수 있지만, 후자는 팀 고유의 프로세스이므로 오래 유효하다.
Capability uplift skills help Claude do something the base model either can't do or can't do consistently. Encoded preference skills document workflows where Claude can already do each piece, but the skill sequences them according to your team's process. Capability uplift skills may become less necessary as models improve. Encoded preference skills are more durable, but only as valuable as their fidelity to your actual workflow.
Sequential test context contamination
테스트를 순서대로 실행하면 앞선 테스트의 결과가 뒤 테스트에 영향을 줄 수 있다. 마치 시험지를 돌려보며 푸는 것과 같다. 이를 방지하기 위해 각 테스트를 독립된 에이전트에서 병렬로 실행하여, 깨끗한 상태에서 정확한 결과를 얻는다.
Accumulating context can bleed between test runs. Skill-creator now spins up independent agents to run evals in parallel — each in a clean context with its own token and timing metrics.
Skill description precision
스킬 설명을 얼마나 정확하게 쓰느냐가 중요하다. 너무 넓게 쓰면 엉뚱한 상황에서 스킬이 작동하고, 너무 좁게 쓰면 필요할 때 작동하지 않는다. 택배 주소처럼 정확해야 원하는 곳에 도달한다.
As your skill count grows, description precision becomes critical: too broad and you get false triggers, too narrow and it never fires.
Skills how to what
현재 스킬 파일은 AI에게 "어떻게" 할지를 상세히 알려주는 설명서다. 하지만 AI가 발전하면 "무엇을" 해야 하는지만 말해줘도 스스로 방법을 찾아낼 수 있게 된다. 레시피 대신 메뉴 이름만 알려줘도 요리를 완성하는 셰프처럼 말이다.
Today, a SKILL.md file is essentially an implementation plan, providing detailed instructions telling Claude how to do something. Over time, a natural-language description of what the skill should do may be enough, with the model figuring out the rest. Evals already describe the "what." Eventually, that description may be the skill itself.