Safety-Conscious Activation Steering ์ํฌํ๋ก์ฐ
โข Safety-aligned LLM M
โข Steering multiplier ฮฑ
โข Steering layers [Ll, LH]
โข Anchor data Q = {Qโ, Q+}
โข Positive response rpos
โข Hyperparameters T, L
โข Input queries {q}
โข The steered outputs
โข Safe and helpful responses
โข Balanced safety behavior
๋ชฉํ: ์์ /์ํ ์ฟผ๋ฆฌ ๊ฐ์ ํ์ฑํ ์ฐจ์ด๋ฅผ ํฌ์ฐฉํ๋ ๋ฒกํฐ ์ถ์ถ
๊ณผ์ :
1. ๊ฐ ๋ ์ด์ด์์ ์จ๊ฒจ์ง ์ํ ์์ง
2. ์ ํด/๋ฌดํด ์ฟผ๋ฆฌ ํ์ฑํ ์ฐจ์ด ๊ณ์ฐ
3. ์์ ์ค์ ๋ ์ด์ด๋ณ ๊ฑฐ๋ถ ๋ฒกํฐ ์์ฑ
๋ชฉํ: ์๋ก์ด ์ฟผ๋ฆฌ์ ์์ ์ฑ์ ํ๋จํ๊ณ ์ ์ ํ ์กฐํฅ ๋ฐฉํฅ ๊ฒฐ์
๊ณผ์ :
1. ์ฟผ๋ฆฌ์ ๊ธ์ ์๋ต("Sure") ์ถ๊ฐ
2. ์จ๊ฒจ์ง ์ํ ์ ํ ๋ถ์
3. ์ ํด ๋ฐฉํฅ๊ณผ์ ์ ์ฌ๋ ๊ณ์ฐ
4. ์๊ณ๊ฐ ๊ธฐ๋ฐ ์ด์ง ๋ถ๋ฅ
๋ชฉํ: ๊ฒฐ์ ๋ ๋ฐฉํฅ์ผ๋ก ๋ชจ๋ธ์ ํ์ฑํ๋ฅผ ์กฐ์ํ์ฌ ๊ท ํ์กํ ์๋ต ์์ฑ
๊ณผ์ :
1. ์ถ๋ก ์์ ์์ ์ค์๊ฐ ๊ฐ์
2. ์์ ์ค์ ๋ ์ด์ด์์๋ง ์กฐํฅ
3. ์กฐํฅ ๋ฐฉํฅ๊ณผ ๊ฐ๋ ์ ์ฉ
4. ๊ท ํ์กํ ์์ ์๋ต ์์ฑ
๊ฐ ์ฟผ๋ฆฌ q โ Q์ ๋ํด ๋ชจ๋ ๋ ์ด์ด l์์ ๋ง์ง๋ง ํ ํฐ ์์น์ ์จ๊ฒจ์ง ์ํ al(q) ์์ง
์์ ์ค์ ๋ ์ด์ด ๋ฒ์ [Ll, LH]์์ ์ ํด/๋ฌดํด ์ฟผ๋ฆฌ ๊ฐ ํ์ฑํ ์ฐจ์ด ๊ณ์ฐ
๊ฐ ์์ ์ค์ ๋ ์ด์ด๋ง๋ค ๊ฑฐ๋ถ ๋ฐฉํฅ์ ๋ํ๋ด๋ ๋ฒกํฐ vrl ํ๋
๊ฐ ์ ํด ์ฟผ๋ฆฌ q โ Qโ ์ ๊ธ์ ์๋ต rpos (์: "Sure") ์ฐ๊ฒฐ
์ฟผ๋ฆฌ ๋ถ๋ถ๊ณผ ์ ์ฒด ์ ๋ ฅ์ ์จ๊ฒจ์ง ์ํ ์ฐจ์ด๋ก ์ํ ์ ํ ๋ฒกํฐ ๊ณ์ฐ
์ํ ์ ํ ๋ฒกํฐ์ ์ ํด ๋ฐฉํฅ ๋ฒกํฐ ๊ฐ์ ์ฝ์ฌ์ธ ์ ์ฌ๋ ๊ณ์ฐ
์๊ณ๊ฐ T์ ๋น๊ตํ์ฌ ์ฟผ๋ฆฌ์ ์์ ์ฑ ํ๋จ ๋ฐ ์กฐํฅ ๋ฐฉํฅ ๊ฒฐ์
์ค์ ์ฌ์ฉ์ ์ฟผ๋ฆฌ๊ฐ ์ ๋ ฅ๋๋ฉด ์ค์๊ฐ์ผ๋ก ํ์ฑํ ์กฐํฅ ์ํ
๋ฏธ๋ฆฌ ์ ์๋ ์์ ์ค์ ๋ ์ด์ด ๋ฒ์ [Ll, LH]์์๋ง ๊ฐ์
๊ฒฐ์ ๋ ๋ฐฉํฅ๊ณผ ๊ฐ๋๋ก ๋ง์ง๋ง ํ ํฐ ์์น์ ์จ๊ฒจ์ง ์ํ ์กฐ์
ํ์ฑํ ์กฐํฅ ํ ๊ท ํ์กํ ์์ ํ๊ณ ๋์์ด ๋๋ ์๋ต ์์ฑ
์๋์ ์ฟผ๋ฆฌ๋ฅผ ์ ๋ ฅํ๊ณ SCANS๊ฐ ์ด๋ป๊ฒ ๋ถ๋ฅํ๊ณ ์กฐํฅํ๋์ง ํ์ธํด๋ณด์ธ์:
์๊ฐ ๋ณต์ก๋:
โข ์ ์ฒ๋ฆฌ: O(|Q| ร L ร d)
โข ๋ถ๋ฅ: O(L ร d)
โข ์กฐํฅ: O(1)
๊ณต๊ฐ ๋ณต์ก๋:
โข ๋ฒกํฐ ์ ์ฅ: O(L ร d)
โข ์์ ๋ฉ๋ชจ๋ฆฌ: O(d)
ฮฑ (์กฐํฅ ๊ฐ๋): 2.0 ~ 4.0
T (๋ถ๋ฅ ์๊ณ๊ฐ): 0.6 ~ 0.8
[Ll, LH] (์์ ๋ ์ด์ด):
โข 7B ๋ชจ๋ธ: [10, 20]
โข 13B ๋ชจ๋ธ: [16, 26]
1. Training-free: ์ถ๊ฐ ํ๋ จ ๋ถํ์
2. Real-time: ์ถ๋ก ์์ ์ฆ์ ์ ์ฉ
3. Adaptive: ์ฟผ๋ฆฌ๋ณ ๋ง์ถค ์กฐํฅ
4. Interpretable: ๋ช
ํํ ์กฐํฅ ๊ทผ๊ฑฐ