Grokking

정의

처음에는 모델이 학습 데이터를 단순 암기하고 eval에서는 저조. 그러나 겉보기에는 거의 발전이 없어보여도 계속 하다보면 갑자기 원리를 꺠닫고 일반화에 성공. oai가 처음 보고한 모듈러 연산 transformer의 경우 내용물을 까보면 원리를 파악하고 풀어내는 공식에 적합되는 방식인 경우
Pasted image 20260216010355.png