Inductive bias

단순 mlp로도 적합시킬 수는 있지만, 너무 커진다.

→ 모델 설계 단계에 구조가 문제-데이터에 적합하게 만들면 된다. 효율이 올라간다.

ex. 2차원 패턴 인식을 위해 주변 픽셀을 인식하는, 모듈로 만들어 하나만 학습시킨걸 재사용하는 cnn, 입력들 사이 순서, 연관을 이해시키는 rnn

아예 모든 입력을 토큰으로 바라보고, 각 토큰들 사이의 연관을 표현할 수 있도록 하자.

→ attention-transformer!