-
Notifications
You must be signed in to change notification settings - Fork 2
Commit
This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.
Create 2024-05-22-interpretable-claude3.md
- Loading branch information
Showing
1 changed file
with
32 additions
and
0 deletions.
There are no files selected for viewing
32 changes: 32 additions & 0 deletions
32
_posts/machine-learning/2024-05-22-interpretable-claude3.md
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,32 @@ | ||
--- | ||
title: "[딥러닝] Large Language Model(claude3) 작동원리 논문 번역" | ||
categories: | ||
- machine-learning | ||
tags: | ||
- machine-learning | ||
use_math: true | ||
toc: true | ||
toc_label: "My Table of Contents" | ||
toc_icon: "cog" | ||
sidebar: | ||
title: "AI Machine Learning" | ||
nav: sidebar-contents | ||
--- | ||
|
||
|
||
# arge Language Model(claude3) 작동원리 논문 번역 | ||
|
||
원본 논문: [Scaling Monosemanticity: Extracting Interpretable Features from Claude3 Sonnet](https://transformer-circuits.pub/2024/scaling-monosemanticity/index.html) | ||
|
||
## 0. Abstract | ||
|
||
8개월 전, 우리는 sparse 오토인코더가 작은 one-layer 트랜스포머로부터 단일의미적(monosemantic) 피처를 복구시킬 수 있다는 점을 증명했다. | ||
그 당시에 이 방법에 대해 주요 이슈는 최첨단 트랜스포머로 확장되기 어렵고, 그 결과 AI 안전에 실질적으로 기여하기는 어려울 것이라는 점이었다. | ||
그 이후, sparse 오토인코더를 확장시키는 것이 Anthropic interpretability 팀의 주요과제가 되었고, | ||
Claude 3 Sonnet, 1 Anthropic's 미디움 사이즈 프로덕션 모델로 부터 높은 퀄리티의 피처를 추출하는데 성공했다는 보고를 하게 되어 기쁘다. | ||
|
||
우리는 고도로 추상적인 피처의 다양성을 발견했다. | ||
|
||
|
||
|
||
|