SCANS Algorithm 1 시각화

🎯 SCANS 알고리즘 전체 워크플로우

📥 입력 (Input)

• Safety-aligned LLM M
• Steering multiplier α
• Steering layers [Ll, LH]
• Anchor data Q = {Q−, Q+}
• Positive response rpos
• Hyperparameters T, L
• Input queries {q}

📤 출력 (Output)

• The steered outputs
• Safe and helpful responses
• Balanced safety behavior

🎯 Phase 1: 거부 조향 벡터 유도

목표: 안전/위험 쿼리 간의 활성화 차이를 포착하는 벡터 추출

v_r^l = (1/|Q−|) Σ a^l(q−) - (1/|Q+|) Σ a^l(q+)

과정:
1. 각 레이어에서 숨겨진 상태 수집
2. 유해/무해 쿼리 활성화 차이 계산
3. 안전 중요 레이어별 거부 벡터 생성

🧭 Phase 2: 조향 방향 식별

목표: 새로운 쿼리의 안전성을 판단하고 적절한 조향 방향 결정

σ(q) = { -1 if s_q < T, 1 otherwise }

과정:
1. 쿼리에 긍정 응답("Sure") 추가
2. 숨겨진 상태 전환 분석
3. 유해 방향과의 유사도 계산
4. 임계값 기반 이진 분류

⚡ Phase 3: 안전 의식적 활성화 조향

목표: 결정된 방향으로 모델의 활성화를 조작하여 균형잡힌 응답 생성

ã^l(q) = a^l(q) + σ(q) · α · v_r^l

과정:
1. 추론 시점에서 실시간 개입
2. 안전 중요 레이어에서만 조향
3. 조향 방향과 강도 적용
4. 균형잡힌 안전 응답 생성

🎯 Phase 1: Inducing the Refusal Steering Vectors

📊 Step 1-2: 앵커 데이터 수집

각 쿼리 q ∈ Q에 대해 모든 레이어 l에서 마지막 토큰 위치의 숨겨진 상태 a^l(q) 수집

// Line 1-2: Initialize and collect hidden states
v_r ← ∅
For each query q ∈ Q:
    collect hidden states a^l(q) for each layer l 
    at the last token position
                        

⬇️

Q− (유해 쿼리)
64개 샘플

➕

Q+ (무해 쿼리)
64개 샘플

→

활성화 수집
각 레이어별

🧮 Step 3-5: 거부 벡터 계산

안전 중요 레이어 범위 [Ll, LH]에서 유해/무해 쿼리 간 활성화 차이 계산

v_r^l = (1/|Q−|) Σ_q−∈Q− a^l(q−) - (1/|Q+|) Σ_q+∈Q+ a^l(q+)

// Line 3-5: Compute refusal vectors
for l ← L_l to L_H do:
    Compute v_r^l using Eq. 1
    v_r ← v_r ∪ {v_r^l}
                        

⬇️

🎯 결과: 레이어별 거부 조향 벡터

각 안전 중요 레이어마다 거부 방향을 나타내는 벡터 v_r^l 획득

Layer 10
v_r¹⁰

Layer 15
v_r¹⁵

Layer 20
v_r²⁰

...

🧭 Phase 2: Identifying the Steering Direction

📝 Step 6-7: 긍정 응답 연결

각 유해 쿼리 q ∈ Q− 에 긍정 응답 r_pos (예: "Sure") 연결

// Line 6-7: Concatenate positive response
for q ∈ Q− do:
    q' ← concat(q, r_pos)  // e.g., "How to hack?" + "Sure"
                        

"How to hack?"

"Sure"

→

"How to hack? Sure"

⬇️

🔄 Step 8-9: 숨겨진 상태 전환 계산

쿼리 부분과 전체 입력의 숨겨진 상태 차이로 상태 전환 벡터 계산

a_t^l(q) = a_p^l(q + r_pos) - a_e^l(q + r_pos)

// Line 8-9: Collect hidden state transition
Input q', collect two hidden states:
- a_p: from last token of query part
- a_e: from final token of entire input
Compute a_t(q) = {a_t^l(q)}_{l∈L} using Eq. 2
                        

⬇️

📊 Step 10: 유사도 계산

상태 전환 벡터와 유해 방향 벡터 간의 코사인 유사도 계산

s_q = (1/|L|) Σ_l∈L cos(a_t^l(q), d_harm^l)

상태 전환
a_t^l(q)

유해 방향
d_harm^l

→

유사도 점수
s_q

⬇️

⚖️ Step 11-14: 이진 분류

임계값 T와 비교하여 쿼리의 안전성 판단 및 조향 방향 결정

// Line 11-14: Binary classification
if s_q < T then:
    σ(q) ← -1  /* query q is safe */
else:
    σ(q) ← 1   /* query q is unsafe */
                        

s_q < T
σ(q) = -1
(안전)

s_q ≥ T
σ(q) = +1
(위험)

⚡ Phase 3: Safety-Conscious Activation Steering

🚀 추론 시점 (During Inference)

실제 사용자 쿼리가 입력되면 실시간으로 활성화 조향 수행

// Line 15: Real-time inference
Input queries {q} to M
each layer l outputs corresponding hidden states
                        

⬇️

🎯 Step 16: 안전 중요 레이어 선택

미리 정의된 안전 중요 레이어 범위 [Ll, LH]에서만 개입

Layer 0-9
⚪ 개입 안함

Layer 10-20
🔴 개입 대상

Layer 21-31
⚪ 개입 안함

// Line 16: Check safety-critical layers
if l ∈ [L_l, L_H] then:
    // Apply steering only to these layers
                        

⬇️

🔧 Step 17-18: 활성화 조향

결정된 방향과 강도로 마지막 토큰 위치의 숨겨진 상태 조작

ã^l(q) = a^l(q) + σ(q) · α · v_r^l

// Line 17-18: Steer the hidden states
Steer hidden states a^l(q) at last token position
towards: ã^l(q) = a^l(q) + σ(q) · α · v_r^l
                        

⬇️

🎮 조향 효과 시뮬레이션

안전한 쿼리 (σ(q) = -1)

거부 방향 억제
a^l + (-1) × α × v_r^l
→ 도움적 응답

위험한 쿼리 (σ(q) = +1)

거부 방향 강화
a^l + (+1) × α × v_r^l
→ 안전한 거부

📤 Step 19: 조향된 출력 반환

활성화 조향 후 균형잡힌 안전하고 도움이 되는 응답 생성

// Line 19: Return steered outputs
return the steered outputs after activation steering
// Result: Safe and helpful responses
                        

🚀 SCANS 알고리즘 인터랙티브 데모

💬 쿼리 안전성 분류 시뮬레이터

아래에 쿼리를 입력하고 SCANS가 어떻게 분류하고 조향하는지 확인해보세요:

📊 알고리즘 복잡도

시간 복잡도:
• 전처리: O(|Q| × L × d)
• 분류: O(L × d)
• 조향: O(1)

공간 복잡도:
• 벡터 저장: O(L × d)
• 임시 메모리: O(d)

⚙️ 하이퍼파라미터

α (조향 강도): 2.0 ~ 4.0
T (분류 임계값): 0.6 ~ 0.8
[Ll, LH] (안전 레이어):
• 7B 모델: [10, 20]
• 13B 모델: [16, 26]

🎯 핵심 혁신점

1. Training-free: 추가 훈련 불필요
2. Real-time: 추론 시점 즉시 적용
3. Adaptive: 쿼리별 맞춤 조향
4. Interpretable: 명확한 조향 근거

🔧 SCANS Algorithm 1 완전 시각화