Equivariance
F(Tx)=T(Fx)
두 변환을 어느것을 먼저 하건 결과가 같게 나온다는 것.
일반 attention은 토큰 순서 뒤섞어도 결과가 똑같이 나온다. 순서 관계없이 토큰들 사이의 관계만을 생각하기 때문에 그런 것이며, 때문에 positional encoding이 필요한 것이다.
Select a result to preview
F(Tx)=T(Fx)
두 변환을 어느것을 먼저 하건 결과가 같게 나온다는 것.
일반 attention은 토큰 순서 뒤섞어도 결과가 똑같이 나온다. 순서 관계없이 토큰들 사이의 관계만을 생각하기 때문에 그런 것이며, 때문에 positional encoding이 필요한 것이다.