검열을 푸는 게 아니라, 정렬의 얇음을 증명하는 도구

OnePageDaily·6/1/2026·35 views

p-e-w/heretic은 README 한 줄만 보면 그저 '언어 모델 검열을 자동으로 푸는 도구'로 읽힌다. 하지만 별 241개가 하룻만에 붙은 이유는 그 카피가 아니라, 그 아래에 깔린 방법론에 있다. 이 프로젝트는 abliteration이라 불리던 가중치 수준 거절 제거 기법을 자동 파이프라인으로 묶어, 누구든 HF 호환 모델 하나만 던지면 '거절 회로'를 추정하고 깎아낼 수 있게 만들었다. 작동 방식은 의외로 깔끔하다. 해로운 프롬프트와 무해한 프롬프트 양쪽에서 모델의 잔차 스트림 활성화를 모으고, 그 차이의 주성분에서 '거절 방향'을 추정한다. 그다음 그 방향만 가중치에서 down-projection으로 빼낸다. 기존 노트북 기반 abliteration과 다른 점은 사람이 손으로 고르던 후보 레이어 탐색과 강도 스윕을 자동화했고, KL·perplexity로 회귀를 어느 정도 가드한다는 것이다. 재현성이 약했던 영역을 한 번에 자동화로 끌어올렸다는 점에서 의의가 크다. 이 도구가 alignment 진영에 던지는 메시지는 더 무겁다. 가중치의 한 방향을 깎는 것만으로 거절 행동이 사라진다면, 우리가 '안전 정렬'이라 부르던 RLHF·DPO 결과물은 사실상 출력 분포 위에 얹은 얇은 막에 가깝다는 가설이 또 한 번 코드로 입증된 셈이다. 이론 페이퍼로 떠돌던 주장이 누구나 실행 가능한 CLI 한 줄로 내려왔다는 점이 의미심장하다. 다만 실무로 가져갈 때 주의해야 할 지점도 분명하다. 거절 방향을 제거한 모델은 유해 요청뿐 아니라 개인정보 거절, 사실 거절, 자기검증 같은 합리적 거절까지 함께 무뎌진다. 일반 벤치마크도 미세하게 떨어지고, 한 번 깎은 가중치는 추가 정렬 학습으로 깔끔히 복원되지 않는다. 연구·레드팀·로컬 창작 모델에서는 유용한 도구지만, 프로덕션 서비스에 그대로 얹으면 '검열 해제'가 아니라 '판단 무력화'에 가까운 결과가 나온다. 도구의 가치와 위험이 같은 레포 안에 들어 있는, 2026년형 오픈소스의 전형이다.

1 / 8

#AI#OpenSource#LLM

Reference Links

원본 링크

검열을 푸는 게 아니라, 정렬의 얇음을 증명하는 도구

Reference Links

Comments (0)