RoPE Visualization

Configuration

Model Dimension (d)

Base Frequency (θ)

1,000 10,000 50,000

Position (p)

0 0 1024

Relative Position (k)

-32 1 32

q · k (original): 0.00

R(q,p) · R(k,p+k): 0.00

Difference: 0.00

Vector Component Rotation

Dimension Pair	Original Values	Rotated Values	Rotation Angle	Frequency

How RoPE Works

Rotary Positional Embedding (RoPE) encodes position information by rotating pairs of vector components:

Each pair of dimensions (2i, 2i+1) is treated as a 2D vector
The vector is rotated by an angle θ = p * ωᵢ where p is position and ωᵢ is frequency
Frequencies decrease geometrically with dimension: ωᵢ = 1/(θ^(2i/d))
This creates relative position encoding in the attention dot product: q·k depends only on m-n
The norm (length) of vectors remains unchanged, preserving semantic information

The rotation matrix for each pair is:


                        Mᵢ = [ cos(pωᵢ)  -sin(pωᵢ) ]

                             [ sin(pωᵢ)   cos(pωᵢ) ]

Rotary Positional Embedding (RoPE) Visualization