Transformer Mimarileri ve Attention Mekanizması
Transformer mimarisi, 2017'de tanıtılmasından bu yana AI alanında devrim yarattı. Self-attention mekanizması, sequence-to-sequence görevlerde RNN'lere göre üstün performans sağlıyor.
Multi-head attention, positional encoding ve layer normalization gibi bileşenler, transformerlerin başarısının anahtarı. BERT, GPT ve Vision Transformer gibi modeller, bu mimarinin gücünü gösteriyor.
Self-Attention Mekanizması
Attention mekanizması, input sequence'deki her elemanın diğer elemanlarla ilişkisini öğrenir:
import torch
import torch.nn as nnclass SelfAttention(nn.Module): def __init__(self, embed_size, heads): super(SelfAttention, self).__init__() self.embed_size = embed_size self.heads = heads self.head_dim = embed_size // heads
self.values = nn.Linear(self.head_dim, self.head_dim, bias=False)
self.keys = nn.Linear(self.head_dim, self.head_dim, bias=False)
self.queries = nn.Linear(self.head_dim, self.head_dim, bias=False)
self.fc_out = nn.Linear(heads * self.head_dim, embed_size)
Transformer tabanlı modeller, domain-specific problemlere adapte edilirken transfer learning ve fine-tuning stratejileri kritik rol oynamaktadır.