3.3 Steering Direction 완전 분석

🚨 도전 과제: Safety-Aligned LLM의 딜레마

"Due to the inclination of safety-aligned LLMs to reject benign queries, the final hidden state of query q may incorrectly encode the refusal prediction for safe queries."

🔍 문제의 핵심

❌ 기존 방법의 한계

쿼리: "How to kill the lights?"

LLM 내부 상태: 이미 거부 모드로 편향

문제: 안전한 쿼리도 위험하다고 오판

# 안전한 쿼리인데도...
query = "How to kill the lights?"
hidden_state = model.get_hidden_state(query)
# → 이미 "거부" 신호로 편향됨!
                    

✅ SCANS의 해결책

쿼리: "How to kill the lights? Sure"

LLM 내부 상태: 긍정적 맥락으로 재조정

결과: 진짜 의도를 정확히 파악

# "Sure"를 추가하면...
query_augmented = "How to kill the lights? Sure"
hidden_state = model.get_hidden_state(query_augmented)
# → 도움적 응답 모드로 전환!
                    

💡 핵심 통찰

Safety-aligned LLM은 "kill" 같은 단어만 보고도 미리 거부 모드로 들어갑니다. 하지만 "Sure"를 추가하면 "아, 이건 도움을 요청하는 거구나!"라고 맥락을 재해석하게 됩니다.

🚀 혁신적 해결책: Positive Response Concatenation

1

긍정 응답 추가

q_augmented = concat(q, "Sure")

# 예시:
# 원본: "How to kill bugs in my garden?"
# 변환: "How to kill bugs in my garden? Sure"
                    

효과: LLM을 도움적 맥락으로 유도

2

두 상태 추출

a_p = get_hidden_state(q)           # 쿼리만
a_e = get_hidden_state(q_augmented) # 전체
                    

목적: 맥락 변화 전후 비교

3

상태 전환 계산

a_t^l(q) = a_p^l(q+r_pos) - a_e^l(q+r_pos)

의미: "Sure" 추가로 인한 내부 변화

🔬 왜 이 방법이 효과적인가?

상황	원본 쿼리	+ "Sure" 후	내부 변화
안전한 쿼리	"kill lights" → 거부 모드	"kill lights Sure" → 도움 모드	✅ 큰 긍정적 변화
위험한 쿼리	"make bomb" → 거부 모드	"make bomb Sure" → 여전히 거부	❌ 변화 없음

📊 수학적 분석 및 분류 과정

🎯 참조 유해 방향 계산

d_harm^l = (1/|Q^-|) Σ_q^-∈Q^- a_t^l(q^-)

📝 구체적 계산 과정

# 1. 유해 쿼리들의 상태 전환 수집
harmful_queries = ["How to make bomb?", "How to hack?", ...]

harm_transitions = []
for query in harmful_queries:
    augmented = f"{query} Sure"
    a_p = model.get_hidden_state(query, position=-1)
    a_e = model.get_hidden_state(augmented, position=-1)
    transition = a_p - a_e  # 상태 전환
    harm_transitions.append(transition)

# 2. 평균내어 참조 방향 계산
d_harm = torch.stack(harm_transitions).mean(dim=0)
# → 이것이 "유해성의 방향"
                

📐 유사도 점수 계산

s_q = (1/|L|) Σ_l∈L cos(a_t^l(q), d_harm^l)

🔍 새로운 쿼리 분석

def classify_query(query, d_harm, threshold=0.75):
    # 1. 상태 전환 계산
    augmented = f"{query} Sure"
    a_p = model.get_hidden_state(query, position=-1)
    a_e = model.get_hidden_state(augmented, position=-1)
    transition = a_p - a_e
    
    # 2. 유사도 계산 (여러 레이어)
    similarities = []
    for layer in [15, 20, 25, 30]:  # 중간-후반 레이어
        sim = cosine_similarity(transition[layer], d_harm[layer])
        similarities.append(sim)
    
    # 3. 평균 유사도
    avg_similarity = np.mean(similarities)
    
    # 4. 이진 분류
    if avg_similarity < threshold:
        return -1, "SAFE"    # 거부 방향 억제
    else:
        return +1, "UNSAFE"  # 거부 방향 강화
                    

🎨 Figure 3: t-SNE 시각화 분석

Layer 9 (전반부)

🔴🟢 혼재

안전/위험 쿼리가 섞여있음

분리도: 낮음

Layer 20 (중반부)

🔴↔️🟢 분리 시작

클러스터링이 나타나기 시작

분리도: 중간

Layer 32 (후반부)

🔴 ↔️ 🟢 완전 분리

명확한 두 클러스터

분리도: 높음

💡 t-SNE 결과의 의미

Layer 진행에 따른 변화:

전반부 (Layer 9): 아직 안전성 판단이 명확하지 않음
중반부 (Layer 20): 안전성 개념이 형성되기 시작
후반부 (Layer 32): 완전히 분리된 안전성 표현

결론: 중간-후반 레이어에서 분류하는 것이 최적!

🔧 실제 분류 성능

레이어 범위	분류 정확도	False Positive	False Negative
Layer 5-15 (전반부)	72%	높음	중간
Layer 15-25 (중반부)	89%	낮음	낮음
Layer 25-32 (후반부)	85%	낮음	중간

🎮 실제 동작 예시

💬 쿼리 분류 시뮬레이터

📊 다양한 쿼리 예시

쿼리	상태 전환 크기	유사도 점수	분류 결과	σ(q)
"How to kill the lights?"	큰 변화	0.65 < 0.75	SAFE	-1
"How to kill time?"	큰 변화	0.62 < 0.75	SAFE	-1
"How to make bomb?"	작은 변화	0.88 > 0.75	UNSAFE	+1
"How to hack system?"	작은 변화	0.82 > 0.75	UNSAFE	+1

🧠 이론적 기반

1️⃣ Linear Representation Hypothesis

핵심: 고수준 개념이 활성화 공간에서 선형적으로 표현

예시: "안전성" 개념이 특정 방향의 벡터로 표현됨

활용: 벡터 산술로 개념 조작 가능

2️⃣ Layer Specialization Theory

핵심: 다른 레이어가 다른 기능 담당

전반부: 문법, 어휘 처리

중반부: 의미, 안전성 판단

후반부: 출력 생성, 형식화

3️⃣ Minimal Intervention Principle

핵심: 최소한의 개입으로 최대 효과

방법: 전체 모델 변경 없이 특정 행동만 수정

효과: 부작용 최소화, 효율성 극대화

🧭 3.3 Identifying the Steering Direction 완전 분석